• 回答数

    2

  • 浏览数

    144

地火燎原
首页 > 英语培训 > 梯度消失英文

2个回答 默认排序
  • 默认排序
  • 按时间排序

123丶路亽曱

已采纳

优点:                 ①能将输出限制在(0,1)之间,便于完成分类任务;         缺点:                 ①非零中心:输出值不是以零为中心,从而随着前向传播很可能导致后面的神经元的输出要么全为正数,要么全为负数,最终导致梯度下降时出现Z字型下降;                 ②梯度饱和、梯度消失:sigmod函数的两侧形状趋近于水平,梯度逐渐无穷接近于0,这些地方就会出现梯度饱和,导致梯度始终很小,无法让权重集发生有效的改变;而sigmod函数的导数的输出值区间为(0,0.25),随着神经网络层数增加,在反向传播中,梯度值不断地乘1个小于1/4的数,会让梯度逐渐变得逐渐趋近于0,同样无法让权重集发生有效的改变。                 ③非线性:sigmod的函数表达式是包含了指数运算,在计算时消耗资源更多。         优点:                 ①能将输出限制在(-1,1)之间,便于完成分类任务;                 ②零中心         缺点:                 ①梯度饱和、梯度消失                 ②非线性         优点:                 ①线性:解决计算资源,缩短收敛时间         缺点:                 ①单元死亡:ReLU函数的左侧是完全水平的,当神经元z值为负值时,输出α值为0,梯度也为0,无法通过梯度改变权重值w,w值固定不变,称之为“ReLU单元死亡”         优点:                 ①线性:                 ②梯度不饱和,无单元死亡: (可以视为ReLU、Leaky ReLU的一般化,增加单元参数来引入比较值)         优点:                 ①线性:                 ②梯度不饱和         缺点:                 ①参数量倍增:由于引入了新单元来做比较值,导致参数量增加,消耗计算资源。排除sigmod选择,优先选择ReLU;如果遇到棘手的“单元死亡”问题,则使用Leaky ReLU或者Maxout。 tanh可以尝试使用,但效果应该会比ReLU、Leaky ReLU和Maxout差一些。

梯度消失英文

195 评论(15)

小笼0113

多层感知机解决了之前无法模拟异或逻辑的缺陷,同时更多的层数也让网络更能够刻画现实世界中的复杂情形。理论上而言,参数越多的模型复杂度越高,“容量”也就越大,也就意味着它能完成更复杂的学习任务。多层感知机给我们带来的启示是,神经网络的层数直接决定了它对现实的刻画能力——利用每层更少的神经元拟合更加复杂的函数。但是随着神经网络层数的加深,优化函数越来越容易陷入局部最优解(即过拟合,在训练样本上有很好的拟合效果,但是在测试集上效果很差),并且这个“陷阱”越来越偏离真正的全局最优。利用有限数据训练的深层网络,性能还不如较浅层网络。同时,另一个不可忽略的问题是随着网络层数增加,“梯度消失”(或者说是梯度发散diverge)现象更加严重。具体来说,我们常常使用sigmoid作为神经元的输入输出函数。对于幅度为1的信号,在BP反向传播梯度时,每传递一层,梯度衰减为原来的0.25。层数一多,梯度指数衰减后低层基本上接受不到有效的训练信号。

94 评论(11)

相关问答