一、激活函数概述及其作用
如果没有激活函数,可以证明即使网络再深,也只是输入的线性组合,与隐藏层的深度没有关系。引入激活函数,即非线性函数,增强了网络的非线性表达,获得更强大的学习和拟合能力。
二、常用的激活函数
2.1 Sigmoid
数学形式:
几何图像: 求导之后的形式:优点: 可以把数值映射为0-1之间的数。如果z趋向于无穷大的时候,f(z)的取值为1,如果z趋向于无穷小的时候,f(z)的取值为0。 缺点: 1)在应用于深度神经网络梯度反向传播的过程中,会出现梯度消失的情况。梯度消失和梯度爆炸出现的原因:如上面所示,求导之后的函数为f‘(z),我们可以推出,其最大值为0.25,即当f(z)取值为0.5的时候。因此在反向传播的过程中,通过链式法则更新参数,可能会有非常非常多个小于0.25的值相乘,因此会得到一个趋向于0的数值,因此容易出现梯度消失的情况。梯度爆炸的情况是因为,在反向传播的过程中,不仅会有多个激活函数的导数相乘,还会有多个层的w相乘,如果们我们初始化的w非常大的时候,多个不同层的w相乘,会是一个非常大的数,因此会出现梯度爆照的情况。 2)计算求解的时候有幂运算,对于规模比较大的网络,会比较耗时
2.2 tanh
数学形式:
几何图像: 求导之后的形式:优点: 把数值映射为-1-1之间的数 缺点: 1)在应用于深度神经网络梯度反向传播的过程中,会出现梯度消失情况。 2)计算求解的时候有幂运算,对于规模比较大的网络,会比较耗时
2.3 softmax
数学形式:
其中ei为第i个神经元输出的值,该函数把该层神经元输出之和控制为1。
2.4 ReLU
数学形式:
几何图像: 求导之后的形式: 其导数,在大于0的时候,全部权值为1,在小于0 的时候,导数为0.优点: 1)解决了梯度消失的问题。 2)计算速度快,只需要判断输入的x是否大于0即可。 3)收敛速度快。 缺点: 1)神经元失活。即若是学习率或者参数初始化设置过大时容易出现。前向传播时,经过该神经元数值为负数,会传递出去0,因此会导致该神经元永远失活。
2.5 Leaky ReLU
数学形式:
其中ai取值为(1,+∞),是一个固定值
2.6 PReLU(可以理解为LeakyReLU的一个变体)
数学形式:
几何图像:其中α在训练的过程中,是一个可学习的参数,在测试阶段,该值就固定下来。当α固定为0.01的时候就是Leaky ReLU
2.7 ELU
数学形式:
几何图像: 导数形式:优点是解决了ReLU造成的神经元失活的问题,但是计算量稍大,还不能证明其效果总是由于ReLU。
2.8 SELU
数学形式:
SELU即在ELU的基础上加入了系数 λ。
2.9 Swish
数学形式:
其中β是一个可训练的参数。其具备无上界有下界、平滑、非单调的特性。
三、参考链接
1、https://blog.csdn.net/tyhj_sf/article/details/79932893 2、https://www.cnblogs.com/makefile/p/activation-function.html