激活函数

激活函数的作用

激活函数的作用是引入非线性因素，使神经网络能够学习复杂的模式，同时还可以解决梯度消失的问题。

引入非线性性：激活函数引入非线性变换，使神经网络可以学习复杂的非线性关系。如果没有激活函数，多层神经网络将等同于单个线性变换，限制了神经网络的表达能力。
解决梯度消失问题：在深层神经网络中，梯度消失是一个常见的问题，即在反向传播过程中，梯度逐渐变得非常小，导致参数无法得到有效更新。通过使用激活函数，可以帮助缓解梯度消失问题，使得梯度能够在网络中传播。
增加网络的表达能力：不同的激活函数可以给神经网络带来不同的表达能力，从而更好地拟合复杂的数据分布。例如，ReLU激活函数可以帮助网络学习稀疏表示，而Sigmoid和Tanh激活函数则可以将输出限制在一定范围内。
稀疏性和抑制：某些激活函数如ReLU可以帮助网络实现稀疏性，即在神经网络中激活的神经元相对较少，这有助于减少过拟合。另外，一些激活函数如Leaky ReLU可以帮助网络学习更好的抑制性特征。

激活函数的性质

非线性：激活函数引入非线性，允许神经网络学习非线性关系和复杂模式。如果没有非线性激活函数，整个神经网络将退化为一个线性模型。
可微性：梯度下降是深度学习中常用的优化算法，梯度计算依赖于激活函数的导数。因此，激活函数需要是可微的，以便能够有效地进行反向传播和参数更新。
非饱和性：饱和指的是激活函数在输入较大或较小时导数趋近于0，导致梯度消失问题。一些激活函数设计旨在减轻或避免这种饱和性，以便更好地支持深度神经网络的训练。
单调性：单调激活函数有助于简化优化问题，因为随着层数的增加，梯度传播更容易。
输出范围：一些激活函数有固定的输出范围，如Sigmoid函数的输出范围为(0,1)，Tanh函数的输出范围为(-1,1)，这有助于控制神经元输出的幅度。
计算效率：激活函数的计算效率对于深度神经网络的训练和推理速度至关重要。一些激活函数设计旨在提高计算效率，如ReLU及其变体。
鲁棒性：激活函数应该对于不同范围的输入都能够表现良好，避免因为输入的变化而导致梯度消失或梯度爆炸。

常用激活函数

Sigmoid函数

Sigmoid函数是神经网络中最常用的激活函数之一，其公式为：

$Sigmoid函数公式$

Sigmoid函数的输出范围在0到1之间，因此它可以将任何实数映射到这个范围内。Sigmoid函数的导数可以很容易地计算出来，其公式为：

$Sigmoid函数导数公式$

Sigmoid函数是一种常用的激活函数，具有以下优点：

平滑性：Sigmoid函数是连续可导的函数，具有平滑的特性，这使得在梯度下降等优化算法中更容易进行计算。
易于求导：Sigmoid函数的导数可以用函数本身来表示，这简化了梯度计算的过程，有利于神经网络的训练。
输出范围有界：Sigmoid函数的输出范围在(0, 1)之间，可以将输出解释为概率值，适用于二分类问题。
非线性：Sigmoid函数是一种非线性函数，可以帮助神经网络学习复杂的模式和关系。
相对简单：Sigmoid函数的表达式简单明了，计算也相对容易，适合在一些简单的神经网络结构中使用。

Sigmoid函数是一种常用的激活函数，但它也有一些缺点，以下是其中三点：

梯度消失问题：Sigmoid函数的导数在输入接近正无穷或负无穷时会趋于零，导致梯度消失问题。在深层神经网络中，反向传播时多次使用Sigmoid函数容易导致梯度消失，使得深层网络难以训练。
输出不以零为中心：Sigmoid函数的输出范围在(0, 1)之间，且不以零为中心。这意味着当输入较大或较小时，梯度接近于零，导致权重更新变得缓慢。这会影响网络的收敛速度和性能。
计算代价较高：Sigmoid函数的计算相对复杂，涉及指数运算，这会增加计算的复杂度。在深度神经网络中，大量的Sigmoid函数计算可能会影响整体的训练速度，尤其在大规模数据集和复杂网络结构下表现更为明显。

尽管Sigmoid函数具有这些优点，但也存在一些缺点，比如容易出现梯度消失的问题（在输入较大或较小的情况下导数接近于0），导致训练困难。因此，在实际应用中，有时会选择其他激活函数如ReLU、Leaky ReLU等来代替Sigmoid函数。

Tanh函数

Tanh函数是另一个常用的激活函数，其公式为：

$Tanh函数公式$

Tanh函数的输出范围在-1到1之间，因此它可以将任何实数映射到这个范围内。Tanh函数的导数也可以很容易地计算出来，其公式为：

$Tanh函数导数公式$

Tanh函数是一种常用的激活函数，具有以下优点：

当输入过大或过小时，输出几乎是平滑的，梯度小，不利于权值的更新。区别在于输出间隔。
tanh的输出区间为1，整个函数以0为中心，优于sigmoid。
其主要优点是负数输入将被映射为接近-1，而零输入将被映射为tanh图中接近零的地方。

Tanh函数是一种常用的激活函数，但它也有一些缺点：

梯度消失问题：在使用深度神经网络时，Tanh函数容易导致梯度消失或梯度爆炸的问题。当输入较大或较小时，Tanh函数的梯度接近于零，导致梯度在反向传播过程中无法有效传递，从而影响模型的训练效果。
计算复杂度高：Tanh函数的计算复杂度相对较高，因为它涉及指数运算。在大规模神经网络中，使用Tanh函数可能会增加模型的计算负担，降低模型的训练和推理效率。相比之下，一些其他激活函数如ReLU等在计算上更加高效。

ReLU函数

ReLU（Rectified Linear Unit）函数是深度学习中常用的激活函数之一，其公式为：

$ReLU函数公式$

ReLU函数的输出在x大于0时为x，否则为0。ReLU函数的优点是计算简单，并且可以缓解梯度消失问题。然而，ReLU函数也存在一些问题，例如在x小于0时，导数为0，这可能导致神经元“死亡”，即不再对输入产生响应。

ReLU（Rectified Linear Unit）函数是一种常用的激活函数，具有以下优点：

计算简单：ReLU函数的计算非常简单，只需要比较输入是否大于零，因此计算速度快，适合大规模深度学习模型。
稀疏激活性：当输入为负时，ReLU函数的输出为零，这种稀疏激活性有助于模型的稀疏性，提高模型的泛化能力。
解决梯度爆炸问题：ReLU函数在正区间上的导数为常数1，可以避免梯度爆炸问题，有助于训练深层神经网络。
推动稀疏表示学习： ReLU函数的稀疏性有助于推动神经网络学习到更加有效的特征表示，提高模型的泛化能力。

ReLU函数是一种常用的激活函数，但它也有一些缺点：

神经元死亡问题：在训练过程中，某些神经元可能永远不会被激活，导致这些神经元对应的权重永远无法更新。这种现象被称为神经元死亡，会影响模型的表达能力。
梯度消失：在反向传播过程中，当输入值为负时，ReLU的梯度为0，这可能导致梯度消失问题，使得权重无法得到有效更新，从而影响模型的训练效果。
不是处处可导：ReLU函数在零点处不可导，这可能导致一些优化算法无法使用。在实际应用中，可能需要使用近似的方法来处理这种情况。
不对称性：ReLU函数是非线性的，并且在负半轴上完全不活跃。这种不对称性可能导致模型训练时出现一些问题，特别是对称性相关的任务。
不适用于输出层：ReLU函数的输出范围为[0, +∞)，这使得它不适用于需要输出范围在特定区间内的任务，如分类问题中的多类别输出。

Leaky ReLU函数

Leaky ReLU函数是ReLU函数的一个变体，其公式为：

$Leaky ReLU函数公式$
Leaky ReLU函数在x小于0时，导数不为0，从而避免了神经元“死亡”的问题。Leaky ReLU函数的优点是计算简单，并且可以缓解梯度消失问题。

Leaky ReLU函数是一种常用的激活函数，具有以下优点：

• Leaky ReLU函数具备ReLU的所有优点，并且没有神经元死亡问题。

Leaky ReLU函数是一种常用的激活函数，但它也有一些缺点：

负输入仍可能导致神经元失活：虽然Leaky ReLU允许负数输入有一个小的梯度，但是对于极端负数输入，仍然会导致神经元失活。这可能会导致梯度消失问题，使得神经元无法学习。
不具备单调性：Leaky ReLU并不是严格的单调递增函数，因为它的斜率在负数区域是固定的。这可能会导致一些优化问题，使得模型训练变得更加困难。
参数选择困难：Leaky ReLU函数中的斜率参数通常需要手动调整，这可能会增加超参数调整的复杂性。选择不当的斜率参数可能会影响模型的性能，需要耗费额外的时间和精力来进行调优。

Softmax函数

Softmax函数是用于多分类问题的激活函数，其公式为：

$Softmax函数公式$

Softmax函数的输出范围在0到1之间，并且所有输出的和为1。Softmax函数可以将任何实数映射到这个范围内，并且可以表示概率分布。Softmax函数的优点是计算简单，并且可以很好地处理多分类问题。

Softmax函数是一种常用的激活函数，通常用于多分类问题中，将一个K维的实数向量（K为类别数）映射成一个取值范围在(0,1)之间的K维概率分布。

Softmax函数的特点是能够将输入的实数向量转换为概率分布，使得各个类别的预测概率之和为1，且输出的概率值都在(0,1)之间。在神经网络的输出层通常会使用Softmax函数来将网络输出转换为概率分布，以便进行多分类任务的预测。

需要注意的是，Softmax函数的输出受到输入向量中的最大值的影响，因此在实际计算中可能会涉及数值稳定性的问题，需要进行一些数值稳定的处理，比如在计算指数时减去输入向量中的最大值。

Softmax函数在机器学习中扮演着重要的角色，特别是在多分类问题中的概率预测和输出层的设计中起着关键作用。

常用激活函数

寻玉发布于 2025-01-03

最后更新于 2025-01-04

激活函数

激活函数的作用

激活函数的性质

常用激活函数

Sigmoid函数

Tanh函数

ReLU函数

Leaky ReLU函数

Softmax函数

寻玉