spark场景、优点与架构
- 本部分内容来自于《深入理解spark核心思想与源码分析》第二章
- 相比于Hadoop 的高吞吐,低响应的特点,spark将map.reduce计算的中间结果存在内存中,通过内存计算能极大地提高数据处理的速度,可以支持实时的场景
- 实时计算能力
- 易学(支持python scala R shell 交互,且支持SQL)
- 多个master 节点解决hadoop 单节点故障问题。

文章图片
- Spark Core : Spark Context 初始化;部署、存储、任务提交执行、计算
- Spark SQL
- Spark Graphx
- SparkStreaming 流式计算处理能力
- Driver Application 执行与输出是通过SparkContext 完成的。通过DAGScheduler创建job,将RDD划分到不同的stage ,提交stage任务。
文章图片

文章图片
- 主要三部分 Driver ,Cluster Manager,Worker
- 理解Driver 用来提交job 创建划分RDD
- cluster 用来资源的分配与管理,即对当前的任务按照各个worker 目前计算资源进行分配,但是不关心各个worker上面的任务分配-
- 【spark场景、优点与架构】worker :创建excutor 将集群分配给自己的任务分发到各个excutor上
推荐阅读
- 一个人的碎碎念
- 野营记-第五章|野营记-第五章 讨伐梦魇兽
- Shell-Bash变量与运算符
- 清明,是追思、是传承、是感恩。
- 牛人进化+|牛人进化+ 按自己的意愿过一生
- 七老修复好敏感、角质层薄、红血丝
- 华为旁!大社区、地铁新盘,佳兆业城市广场五期!
- 标签、语法规范、内联框架、超链接、CSS的编写位置、CSS语法、开发工具、块和内联、常用选择器、后代元素选择器、伪类、伪元素。
- 螃蟹和这些食物同吃,轻则腹泻、重则中毒!要小心哦~
- 八、「料理风云」