大数据

详解Spark计算过程分析

2017-01-20 11:36:22　|　来源：中培企业IT培训网

Spark是一个分布式的内存计算框架，其特点是能处理大规模数据，计算速度快。Spark延续了Hadoop的MapReduce计算模型，相比之下Spark的计算过程保持在内存中，减少了硬盘读写，能够将多个操作进行合并后计算，因此提升了计算速度。同时Spark也提供了更丰富的计算API，这也让Spark受到行业的高度关注，被认为是一款代表着未来的大数据架构。

在Spark架构的应用过程中，其任务调度是重要的组成部分。中培伟业《大数据平台搭建与高性能计算最佳实战》培训专家钟老师在这里就Spark计算过程进行了介绍分析。

钟老师指出，Spark中的任务调度实际上分了三个层次。第一层次是基于阶段的有向无环图进行Stage的调度，第二层次是根据调度策略(FIFO，FAIR)进行TaskSet调度，第三层次是根据数据本地性(Process，Node，Rack)在TaskSet内进行调度。

任务的计算过程是在Executor上完成的，Executor监听来自SchedulerBackend的指令，接收到任务时会启动TaskRunner线程进行任务执行。在TaskRunner中首先将任务和相关信息反序列化，然后根据相关信息获取任务所依赖的Jar包和所需文件，完成准备工作后执行任务的run方法，实际上就是执行ShuffleMapTask或ResultTask的run方法。任务执行完毕后将结果发送给Driver进行处理。

在Task.run方法中可以看到ShuffleMapTask和ResultTask有着不同的计算逻辑。ShuffleMapTask是将所依赖RDD的输出写入到ShuffleWriter中，为后面的Shuffle过程做准备。ResultTask是在所依赖RDD上应用一个函数，并返回函数的计算结果。在这两个Task中只能看到数据的输出方式，而看不到应有的计算逻辑。实际上计算过程是包含在RDD中的，调用RDD. Iterator方法获取RDD的数据将触发这个RDD的计算动作(RDD. Iterator)，由于此RDD的计算过程中也会使用所依赖RDD的数据。从而RDD的计算过程将递归向上直到一个数据源类型的RDD，再递归向下计算每个RDD的值。需要注意的是，以上的计算过程都是在分区上进行的，而不是整个数据集，计算完成得到的是此分区上的结果，而不是最终结果。

标签： Spark