查看: 1864|回复: 0

为什么深度学习模型在 GPU 上运行得更快

字体大小: 正常放大

1176 主题	4 听众	2884 积分

该用户从未签到

电梯直达

1^#

发表于 2024-4-27 09:39 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

如今，当我们谈论深度学习时，通常会将其实现与利用 GPU 来提高性能联系起来。

GPU（图形处理单元）最初设计用于加速图像、2D 和 3D 图形的渲染。然而，由于它们能够执行许多并行操作，因此它们的实用性超出了深度学习等应用程序。

GPU 在深度学习模型中的使用始于 2000 年代中后期，并在 2012 年左右随着 AlexNet 的出现而变得非常流行。 AlexNet 是由 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 设计的卷积神经网络，于 2012 年赢得了 ImageNet 大规模视觉识别挑战赛 (ILSVRC)。这一胜利标志着一个里程碑，因为它证明了深度神经网络在图像分类和识别方面的有效性。使用 GPU 训练大型模型。

这一突破之后，使用 GPU 进行深度学习模型变得越来越流行，这促成了 PyTorch 和 TensorFlow 等框架的创建。

现在，我们只是在 PyTorch 中编写 .to(“cuda”) 来将数据发送到 GPU，并期望加速训练。但深度学习算法在实践中如何利用 GPU 的计算性能呢？让我们来看看吧！

神经网络、CNN、RNN 和 Transformer 等深度学习架构基本上都是使用矩阵加法、矩阵乘法和将函数应用于矩阵等数学运算来构建的。因此，如果我们找到一种方法来优化这些操作，我们就可以提高深度学习模型的性能。
正如您所注意到的，计算机必须迭代向量，在每次迭代中按顺序添加每对元素。但这些操作是相互独立的。第 i 对元素的添加不依赖于任何其他对。那么，如果我们可以同时执行这些操作，并行添加所有元素对呢？

一种简单的方法是使用 CPU 多线程来并行运行所有计算。然而，当涉及深度学习模型时，我们正在处理包含数百万个元素的大量向量。一个普通的CPU只能同时处理大约十几个线程。这就是 GPU 发挥作用的时候！现代 GPU 可以同时运行数百万个线程，从而增强了海量向量上的数学运算的性能。

GPU 与 CPU 比较
尽管对于单个操作，CPU 计算可能比 GPU 更快，但 GPU 的优势依赖于其并行化能力。其原因是它们的设计目标不同。 CPU 的设计目的是尽可能快地执行一系列操作（线程）（并且只能同时执行数十个操作），而 GPU 的设计目的是并行执行数百万个操作（同时牺牲单个线程的速度）。

为了说明这一点，可以将 CPU 想象成一辆法拉利，将 GPU 想象成总线。如果您的任务是运送一个人，那么法拉利（CPU）是更好的选择。然而，如果您要运送几个人，即使法拉利（CPU）每次行程更快，公共汽车（GPU）也可以一次性运送所有人，比法拉利多次运送路线更快。因此，CPU 更适合处理顺序操作，GPU 更适合处理并行操作
————————————————

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/weixin_42010722/article/details/138213121

zan