数学建模社区-数学中国's Archiver
论坛
›
数模资源交流
› 深度神经模型
张志红
发表于 2023-9-26 17:52
深度神经模型
如果你看到了 NAN 的预测值,算法可能接收到了大梯度,产生了内存溢出。可以将这个视为在很多次迭代之后发生爆炸的矩阵乘法。减小学习率可以缩小这些数值。减少层数能够减少乘法的数量。剪切梯度也能够明显地控制这个问题。
页:
[1]
查看完整版本:
深度神经模型