- 在线时间
- 480 小时
- 最后登录
- 2026-6-1
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7823 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2934
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1174
- 主题
- 1189
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
如今,当我们谈论深度学习时,通常会将其实现与利用 GPU 来提高性能联系起来。0 g: h0 f5 ~8 I5 w: K6 l
! n# X& k. C- _! qGPU(图形处理单元)最初设计用于加速图像、2D 和 3D 图形的渲染。然而,由于它们能够执行许多并行操作,因此它们的实用性超出了深度学习等应用程序。+ m6 N8 c2 A+ H6 I6 f/ K
3 a6 C4 u, R+ |& rGPU 在深度学习模型中的使用始于 2000 年代中后期,并在 2012 年左右随着 AlexNet 的出现而变得非常流行。 AlexNet 是由 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 设计的卷积神经网络,于 2012 年赢得了 ImageNet 大规模视觉识别挑战赛 (ILSVRC)。这一胜利标志着一个里程碑,因为它证明了深度神经网络在图像分类和识别方面的有效性。使用 GPU 训练大型模型。
a0 c2 v; q h! \0 e
9 [5 ]5 w) R9 P4 b这一突破之后,使用 GPU 进行深度学习模型变得越来越流行,这促成了 PyTorch 和 TensorFlow 等框架的创建。
& i8 _% s1 H" {# T8 F) N4 F! I: W
现在,我们只是在 PyTorch 中编写 .to(“cuda”) 来将数据发送到 GPU,并期望加速训练。但深度学习算法在实践中如何利用 GPU 的计算性能呢?让我们来看看吧!- M/ [; H0 W7 P5 J1 {# K4 C, H
) d; z1 W7 l. E
神经网络、CNN、RNN 和 Transformer 等深度学习架构基本上都是使用矩阵加法、矩阵乘法和将函数应用于矩阵等数学运算来构建的。因此,如果我们找到一种方法来优化这些操作,我们就可以提高深度学习模型的性能。
& d5 l& l% j% d' X2 E+ e% E正如您所注意到的,计算机必须迭代向量,在每次迭代中按顺序添加每对元素。但这些操作是相互独立的。第 i 对元素的添加不依赖于任何其他对。那么,如果我们可以同时执行这些操作,并行添加所有元素对呢?
- G( c6 g. }* P& ~- U. D
: T' u% a0 C) O2 ^3 @- J b& z$ G3 Q一种简单的方法是使用 CPU 多线程来并行运行所有计算。然而,当涉及深度学习模型时,我们正在处理包含数百万个元素的大量向量。一个普通的CPU只能同时处理大约十几个线程。这就是 GPU 发挥作用的时候!现代 GPU 可以同时运行数百万个线程,从而增强了海量向量上的数学运算的性能。
v. r* w1 N7 v
- h4 F5 f/ k9 Q3 Q6 MGPU 与 CPU 比较" f. Z0 r! h0 r
尽管对于单个操作,CPU 计算可能比 GPU 更快,但 GPU 的优势依赖于其并行化能力。其原因是它们的设计目标不同。 CPU 的设计目的是尽可能快地执行一系列操作(线程)(并且只能同时执行数十个操作),而 GPU 的设计目的是并行执行数百万个操作(同时牺牲单个线程的速度)。
% Y7 m% `% M7 R/ o7 p( G* c/ g; d, P7 b. \) ^
为了说明这一点,可以将 CPU 想象成一辆法拉利,将 GPU 想象成总线。如果您的任务是运送一个人,那么法拉利(CPU)是更好的选择。然而,如果您要运送几个人,即使法拉利(CPU)每次行程更快,公共汽车(GPU)也可以一次性运送所有人,比法拉利多次运送路线更快。因此,CPU 更适合处理顺序操作,GPU 更适合处理并行操作
* _( c. d+ ~* d4 S8 M8 S————————————————; c6 o5 M* Y6 T2 J; c* P% s
7 C, T+ l6 U; m, f2 v 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。* r) i* A# C' n' ~( l/ T1 K
. H% e7 [% x7 B; \# i) K* \
原文链接:https://blog.csdn.net/weixin_42010722/article/details/138213121
+ h# o" `) h4 v2 L$ N7 N3 g, V
- y0 T0 b) k: w* m" o8 r% n- `4 e, T/ M2 x5 a9 G' i+ H b* L
|
zan
|