张志红 发表于 2024-6-16 10:09

《神经语言模型的扩展规律》

该资料主要研究了神经语言模型在交叉熵损失上的经验扩展规律,讨论了这些扩展规律可能适用于其他生成建模任务,并提出了对未来研究方向的展望,包括模型并行性、稀疏性或分支结构等。

页: [1]
查看完整版本: 《神经语言模型的扩展规律》