QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2472|回复: 0
打印 上一主题 下一主题

为什么深度学习模型在 GPU 上运行得更快

[复制链接]
字体大小: 正常 放大

1188

主题

4

听众

2931

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-4-27 09:39 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
如今,当我们谈论深度学习时,通常会将其实现与利用 GPU 来提高性能联系起来。
4 R( r- z) @' r, i; ^% G- n: h: l7 {0 U# A
GPU(图形处理单元)最初设计用于加速图像、2D 和 3D 图形的渲染。然而,由于它们能够执行许多并行操作,因此它们的实用性超出了深度学习等应用程序。6 P1 x# V  }9 D' R1 e  P2 q: t

6 ?' ~) c" W; I' X* h/ u4 qGPU 在深度学习模型中的使用始于 2000 年代中后期,并在 2012 年左右随着 AlexNet 的出现而变得非常流行。 AlexNet 是由 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 设计的卷积神经网络,于 2012 年赢得了 ImageNet 大规模视觉识别挑战赛 (ILSVRC)。这一胜利标志着一个里程碑,因为它证明了深度神经网络在图像分类和识别方面的有效性。使用 GPU 训练大型模型。( r& m$ n* p" b. S8 P' T
( v& I, u5 v  P7 o
这一突破之后,使用 GPU 进行深度学习模型变得越来越流行,这促成了 PyTorch 和 TensorFlow 等框架的创建。* d3 A. a# y1 L$ s' l4 G) x& C
6 P" P: x" ^- {& X! C; W. T
现在,我们只是在 PyTorch 中编写 .to(“cuda”) 来将数据发送到 GPU,并期望加速训练。但深度学习算法在实践中如何利用 GPU 的计算性能呢?让我们来看看吧!
% X& m* Q) O* x4 U( G/ ]! M4 ]  N6 O( p( g' A" M
神经网络、CNN、RNN 和 Transformer 等深度学习架构基本上都是使用矩阵加法、矩阵乘法和将函数应用于矩阵等数学运算来构建的。因此,如果我们找到一种方法来优化这些操作,我们就可以提高深度学习模型的性能。
# Y1 O, X" `4 I5 C( l4 F正如您所注意到的,计算机必须迭代向量,在每次迭代中按顺序添加每对元素。但这些操作是相互独立的。第 i 对元素的添加不依赖于任何其他对。那么,如果我们可以同时执行这些操作,并行添加所有元素对呢?
4 W" j: b+ \- f# r6 N! J% W. P7 i$ M" h3 n- q8 v, i9 M! u( \8 D: o/ |8 Z1 I! G/ l
一种简单的方法是使用 CPU 多线程来并行运行所有计算。然而,当涉及深度学习模型时,我们正在处理包含数百万个元素的大量向量。一个普通的CPU只能同时处理大约十几个线程。这就是 GPU 发挥作用的时候!现代 GPU 可以同时运行数百万个线程,从而增强了海量向量上的数学运算的性能。
, k2 M2 M' h; Y6 s2 l$ a) T- u1 a
+ b4 ^9 c( j* f' N' fGPU 与 CPU 比较* U( d- S" B) `3 i, s" L. |( R8 F+ I( U" C
尽管对于单个操作,CPU 计算可能比 GPU 更快,但 GPU 的优势依赖于其并行化能力。其原因是它们的设计目标不同。 CPU 的设计目的是尽可能快地执行一系列操作(线程)(并且只能同时执行数十个操作),而 GPU 的设计目的是并行执行数百万个操作(同时牺牲单个线程的速度)。* C' }3 K  h, N" y' k, Y+ J
9 S6 h5 ?, m! a
为了说明这一点,可以将 CPU 想象成一辆法拉利,将 GPU 想象成总线。如果您的任务是运送一个人,那么法拉利(CPU)是更好的选择。然而,如果您要运送几个人,即使法拉利(CPU)每次行程更快,公共汽车(GPU)也可以一次性运送所有人,比法拉利多次运送路线更快。因此,CPU 更适合处理顺序操作,GPU 更适合处理并行操作
( \  ]$ x* y. g————————————————$ q7 ^# |1 M7 B3 E% z5 {/ W

( e' V# m. c/ z' p( Q) W7 |2 U                            版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。7 L2 y1 u- J$ o/ a( W) l
9 Z* K  p5 a1 Y9 o
原文链接:https://blog.csdn.net/weixin_42010722/article/details/138213121
3 D( H9 n5 f3 \( e5 E( d5 \: J, C# P% a" u$ i  n9 Y! d  v' H

  t- m, d- v7 }2 K
zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-5-26 00:07 , Processed in 0.417264 second(s), 51 queries .

回顶部