- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 564648 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174617
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
3 c! ?/ a; a; |" k
SparkCore:Spark原理初探(执行流程图)
$ r$ v5 g& P3 {' G1 e" E! t基本概念
7 x' M# J! L- A( I
$ C8 F3 }' q" H$ }
2 A& K" a' Y1 m7 I X4 e, h7 J
1 _+ |' @$ m, a0 A, Q
( O4 W8 |2 c8 T6 v3 s
, z. I1 P' @+ e1 W# L8 [
3 v: d. L5 c8 H4 G! Y& ^8 E' x
名词解释
$ m; d X+ \3 ^ FApplication:指的是用户编写的Spark应用程序/代码,包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。
3 b5 M8 c+ b5 k1 e% r. i6 gDriver:Spark中的Driver即运行上述Application的Main()函数并且创建SparkContext,SparkContext负责和ClusterManager通信,进行资源的申请、任务的分配和监控等$ U. ^$ f$ H) C- t0 L9 s! B
Cluster Manager:指的是在集群上获取资源的外部服务,Standalone模式下由Master负责,Yarn模式下ResourceManager负责;4 p9 ~) g3 v( d* t
Executor:是运行在工作节点Worker上的进程,负责运行任务,并为应用程序存储数据,是执行分区计算任务的进程;- \% r- U1 [9 M+ p6 k9 t# N+ _9 w
RDD:Resilient Distributed Dataset弹性分布式数据集,是分布式内存的一个抽象概念;
+ y0 H: d/ v( T2 S' JDAG:Directed Acyclic Graph有向无环图,反映RDD之间的依赖关系和执行流程;
" Q; M' s0 \3 G" b1 |1 `' N9 V' mJob:作业,按照DAG执行就是一个作业;Job==DAG, j' M3 G9 G W; q5 M
Stage:阶段,是作业的基本调度单位,同一个Stage中的Task可以并行执行,多个Task组成TaskSet任务集8 G* d% ]+ n: y4 U
Task:任务,运行在Executor上的工作单元,一个Task计算一个分区,包括pipline上的一系列操作8 }2 ^& ^: ^) @. r1 W7 h! Z
基本流程
" v v- Z9 V) O( y* Y' v! o- y
- _/ t& u' b3 W- q( o7 m3 d5 E' DSpark运行基本流程( Z# j; v: L) ?6 n& I/ ]
当一个Spark应用被提交时,首先需要为这个Spark Application构建基本的运行环境,即由任务控制节点(Driver)创建一个SparkContext,
) q6 c2 \) m$ E+ ^6 P) DSparkContext向资源管理器注册并申请运行Executor资源;! _# E; t' \- Y/ j8 n ?) P4 B
资源管理器为Executor分配资源并启动Executor进程,Executor运行情况将随着心跳发送到资源管理器上;5 n2 [1 f- J# f; {3 d3 o
SparkContext根据RDD的依赖关系构建成DAG图,并提交给DAGScheduler进行解析划分成Stage,并把该Stage中的Task组成Taskset发送给TaskScheduler。
! y0 _$ J, P1 p7 t% A5 l6 zTaskScheduler将Task发放给Executor运行,同时SparkContext将应用程序代码发放给Executor。
5 x- [% c* B' [% d/ ^' C4 F. s: iExecutor将Task丢入到线程池中执行,把执行结果反馈给任务调度器,然后反馈给DAG调度器,运行完毕后写入数据并释放所有资源。
7 Q% X& [3 P2 A" s# A! Y流程图解
! W8 {8 G( m/ W3 U! z! T j3 p- r4 ?* ^' G
) j* a V$ V' L4 S
, [9 j3 F; B* e3 @! A! H
! d3 q! J, p! l8 l. n/ J! Q t o( r2 g3 @3 X8 J! j% [
8 G% q& t! K0 ^# f7 X+ U& x* k. o8 A
5 i5 [+ I% A+ h S: \+ X- p
; _" m: i+ u+ `* d; q3 S7 I
# t0 R5 f+ ^+ }% k+ N O
5 I' G- x0 g0 T% y) o. e# L/ y! ^( Q+ ^ r, Z# Q( G
; m8 H( {- l; s+ O6 q& N总结) k a- ~ h) @, b" x& `2 B
& x; D, u% F0 S0 p
Spark应用被提交–>SparkContext向资源管理器注册并申请资源–>启动Executor
/ w- J! \, J) i1 MRDD–>构建DAG–>DAGScheduler划分Stage形成TaskSet–>TaskScheduler提交Task–>Worker上的Executor执行Task
! I6 D" G6 \* W1 r. d3 ^: h+ v" G& n. O
————————————————* X9 v( |& n$ H0 `6 {
版权声明:本文为CSDN博主「真情流露哦呦」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。6 ?* [0 ^; J; k4 ~! m0 T8 d
原文链接:https://blog.csdn.net/weixin_43563705/article/details/105699268* b3 T1 \7 C \4 N
3 p8 ~0 Y. S" u7 t T4 f7 f# R% P9 c4 Z$ v
|
zan
|