不同的激活函数，选择权重的初始化方法可能会有所差异

2744557306 发表于 2023-9-30 09:47

对于不同的激活函数，权重的初始化方法可能会有所差异。选择适当的权重初始化方法可以推动神经网络的训练过程，并有助于加快收敛速度。
以下是一些常见的权重初始化方法和它们与激活函数的关系：

1.零均值初始化（Zero Initialization）：对于激活函数如sigmoid和tanh等在值域中心接近于零的函数，可以使用零均值初始化（将权重初始化为零或接近零）。然而，仅使用零初始化可能导致所有神经元的输出都相等，从而影响参数的更新和网络的表达能力，因此在实践中很少使用纯零均值初始化。
2.Xavier/Glorot初始化：常用于sigmoid和tanh等函数的权重初始化方法。根据激活函数的特点，Xavier/Glorot初始化通过从高斯分布中抽取权重，并根据之前和当前层的神经元数量进行缩放，以使权重具有适当的范围，以避免梯度消失或梯度爆炸。
3.He初始化：对于具有ReLU和其变种（例如Leaky ReLU）等激活函数的网络，He初始化是常用的选择。He初始化根据ReLU激活函数将权重从高斯分布中采样，并根据之前和当前层的神经元数量进行缩放。它提供了适当的方差，使得网络能够更好地学习非线性特征。
4.自适应方法：还有一些自适应的权重初始化方法，如均匀分布的Kaiming初始化和正态分布的Lecun初始化。这些方法基于网络层的激活函数和参数数量，自动选择适当的初始化范围和方差。

请注意，这些权重初始化方法仅考虑了权重的初始化，偏置项的初始化通常可以选择为零或根据特定需求进行初始化。
总之，在选择权重初始化方法时，应根据所使用的激活函数和网络结构的特点进行选择，并可能需要进行实验和调整以获得最佳结果。同时，其他的正则化方法，如批归一化和权重衰减，也可以进一步提升网络的表现。

页: [1]

数学建模社区-数学中国's Archiver

不同的激活函数，选择权重的初始化方法可能会有所差异