张志红 发表于 2024-6-3 17:45

对原始Transformer模型的详细解释

该论文是对 Transformer 论文《Attention is All You Need》的详细注释,它重新排序并删除了原始论文中的一些部分,并在整个文档中添加了注释。另外,论文里还拓展了一些Python代码示例,用于实现Transformer模型的不同组件,并提供了一些训练和使用模型的实用函数。

页: [1]
查看完整版本: 对原始Transformer模型的详细解释