张志红 发表于 2023-9-26 17:52

深度神经模型

如果你看到了 NAN 的预测值,算法可能接收到了大梯度,产生了内存溢出。可以将这个视为在很多次迭代之后发生爆炸的矩阵乘法。减小学习率可以缩小这些数值。减少层数能够减少乘法的数量。剪切梯度也能够明显地控制这个问题。
页: [1]
查看完整版本: 深度神经模型