梯度消失英文

2个回答默认排序

默认排序

按时间排序

123丶路亽曱

已采纳

优点： ①能将输出限制在（0,1）之间，便于完成分类任务；缺点： ①非零中心：输出值不是以零为中心，从而随着前向传播很可能导致后面的神经元的输出要么全为正数，要么全为负数，最终导致梯度下降时出现Z字型下降； ②梯度饱和、梯度消失：sigmod函数的两侧形状趋近于水平，梯度逐渐无穷接近于0，这些地方就会出现梯度饱和，导致梯度始终很小，无法让权重集发生有效的改变；而sigmod函数的导数的输出值区间为（0，0.25），随着神经网络层数增加，在反向传播中，梯度值不断地乘1个小于1/4的数，会让梯度逐渐变得逐渐趋近于0，同样无法让权重集发生有效的改变。 ③非线性：sigmod的函数表达式是包含了指数运算，在计算时消耗资源更多。优点： ①能将输出限制在（-1,1）之间，便于完成分类任务； ②零中心缺点： ①梯度饱和、梯度消失 ②非线性优点： ①线性：解决计算资源，缩短收敛时间缺点： ①单元死亡：ReLU函数的左侧是完全水平的，当神经元z值为负值时，输出α值为0，梯度也为0，无法通过梯度改变权重值w，w值固定不变，称之为“ReLU单元死亡” 优点： ①线性： ②梯度不饱和，无单元死亡：（可以视为ReLU、Leaky ReLU的一般化，增加单元参数来引入比较值）优点： ①线性： ②梯度不饱和缺点： ①参数量倍增：由于引入了新单元来做比较值，导致参数量增加，消耗计算资源。排除sigmod选择，优先选择ReLU；如果遇到棘手的“单元死亡”问题，则使用Leaky ReLU或者Maxout。 tanh可以尝试使用，但效果应该会比ReLU、Leaky ReLU和Maxout差一些。

梯度消失英文

195 评论（15） 2小时前发布

小笼0113

多层感知机解决了之前无法模拟异或逻辑的缺陷，同时更多的层数也让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。多层感知机给我们带来的启示是，神经网络的层数直接决定了它对现实的刻画能力——利用每层更少的神经元拟合更加复杂的函数。但是随着神经网络层数的加深，优化函数越来越容易陷入局部最优解（即过拟合，在训练样本上有很好的拟合效果，但是在测试集上效果很差），并且这个“陷阱”越来越偏离真正的全局最优。利用有限数据训练的深层网络，性能还不如较浅层网络。同时，另一个不可忽略的问题是随着网络层数增加，“梯度消失”（或者说是梯度发散diverge）现象更加严重。具体来说，我们常常使用sigmoid作为神经元的输入输出函数。对于幅度为1的信号，在BP反向传播梯度时，每传递一层，梯度衰减为原来的0.25。层数一多，梯度指数衰减后低层基本上接受不到有效的训练信号。

94 评论（11） 7小时前发布

梯度消失英文

2个回答 默认排序 默认排序 按时间排序

相关问答

英语培训

向你推荐

热门问题

热门百科

2个回答默认排序

默认排序

按时间排序