《神经语言模型的扩展规律》

张志红 发表于 2024-6-16 10:09

该资料主要研究了神经语言模型在交叉熵损失上的经验扩展规律，讨论了这些扩展规律可能适用于其他生成建模任务，并提出了对未来研究方向的展望，包括模型并行性、稀疏性或分支结构等。

页: [1]

数学建模社区-数学中国's Archiver