大数据

首页 > 企业内训 > 大数据

大数据计算框架Spark+Storm+Flink

2022-04-29 11:37:03　|　来源：中培企业IT培训网

一、培训简述
全面掌握大数据Spark、Storm和Flink的理论基础和实现原理，以及基于大数据架构的数据仓库的实现，通过具体的实操和练习让学员全面实战大数据。通过此次课程培训，可使学习者获得如下收益：

数据仓库的核心概念、数据仓库与大数据
大数据中心平台的整体架构
彻底理解Spark为代表的大数据处理引擎的运行机制和原理，包括：
- Spark Core
掌握Spark生态体系架构（原理、安装、使用），包括：
- Spark Core、Spark SQL、Spark Streaming
- Spark Shell、Spark集群、RDD
掌握Spark、Hadoop协同工作，能够通过Spark、Hadoop轻松应对大数据的业务需求；
掌握以实时计算框Storm为代表的大数据实时计算引擎的运行机制和原理，包括：
- Storm的体系架构
- Storm的数据处理流程与编程模型
- 集成Storm实时计算引擎
掌握Flink的生态圈体系架构，包括：
- 了解Flink大数据架构，互联网企业大数据应用
- 深度了解Flink DataSet API
- 深度了解DataStream API
- 集成Kafka与Flink
- 熟悉Table API
- 大数据安全认证框架Kerberos。

二、培训特色

PPT+教材+参考资料，理论讲解
提供配套的实验环境
场景+案例+模拟环境，动手实践
手把手解决问题+解决问题经验分享。

三、培训收益

掌握基于大数据的体系架构、管理、部署，以及相应组件的原理和应用场景。
让学员具备部署基于企业大数据平台环境的能力。

四、培训时长
共计4 天，每天6课时

五、培训大纲

模块一：大数据实时计算引擎Storm
章	节	练习	学习目标与案例
Storm	大数据实时计算框架简介 Apache Storm体系结构 Apache Storm的伪分布模式的搭建 Apache Storm的全分布模式和HA Storm的Demo演示 Storm集群在ZooKeeper上保存的数据结构 WordCount数据流动的过程开发自己的Storm的WordCount程序部署和运行Storm任务 Storm任务执行的过程与通信机制流式计算系统的典型的架构与集成Storm 集成Redis 集成HDFS 集成HBase	使用Storm进行大数据的实时计算	掌握Storm的体系架构和功能。掌握大数据实时计算的典型架构京东大数据平台的架构

模块二：Spark基础之Scala编程语言
章	节	练习	学习目标与案例
Scala编程语言	Scala语言基础 Scala语言的面向对象 Scala语言的函数式编程 Scala中的集合 Scala语言的高级特性	编程Scala程序	掌握Scala编程语言

模块三：大数据执行引擎Spark Core
章	节	练习	学习目标与案例
Spark Core	什么是Spark？ Spark的体系结构与安装部署 Spark的主从架构什么是ZooKeeper Spark HA的实现执行Spark Demo程序 Spark运行机制及原理分析 Spark的算子 Spark RDD的高级算子 Spark基础编程案例 Spark性能诊断和优化案例系统死锁的诊断和分析系统内存溢出的诊断和分析案例分享基于Spark的大数据平台架构	搭建Spark环境使用Spark Core处理数据	掌握Spark的体系架构和功能 Spark与Hadoop的对比

模块四：数据分析引擎Spark SQL
章	节	练习	学习目标与案例
Spark SQL	Spark SQL基础 Spark SQL简介基本概念：Datasets和DataFrames 测试数据创建DataFrames DataFrame操作 Global Temporary View 创建Datasets Datasets的操作案例使用数据源通用的Load/Save函数 Parquet文件 JSON Datasets 使用JDBC 使用Hive Table 性能优化在IDEA中开发Spark SQL程序	使用Spark SQL处理数据	掌握Spark SQL的体系架构和功能。典型的大数据分析引擎的对比 Hive Spark SQL Flink SQL

模块五：流式计算引擎Spark Streaming
章	节	练习	学习目标与案例
Spark Streaming	Spark Streaming基础 Spark Streaming简介 Spark Streaming的特点 Spark Streaming的内部结构第一个小案例：NetworkWordCount 开发自己的NetworkWordCount Spark Streaming进阶 StreamingContext对象详解离散流（DStreams）：Discretized Streams DStream中的转换操作（transformation）窗口操作输入DStreams和接收器 DStreams的输出操作 DataFrame和SQL操作缓存/持久化检查点支持高级数据源 Spark Streaming接收Flume数据 Spark Streaming接收Kafka数据性能优化减少批数据的执行时间设置正确的批容量内存调优	使用Spark Streaming处理数据	掌握Spark Streaming的体系架构和功能典型的大数据实时引擎的对比 Storm Spark Streaming Flink DataStream

模块六：机器学习MLLib
章	节	练习	学习目标与案例
Spark MLLib	什么是MLLib？ MLLib中的常见算法 MLlib的应用案例：推荐系统的实现基于用户的协同过滤基于物品的协同过滤基于ALS的协同过滤逻辑回归算法		掌握电商环境中推荐系统的实现。

模块七：新一代大数据处理引擎Flink
章	节		练习	学习目标与案例
第3章：Flink的体系架构与部署	Flink简介 Flink的体系架构 Flink的安装与部署 Flink的分布式缓存对比：Flink、Storm和Spark Streaming		安装与部署Flink环境	掌握Flink的体系架构与生态圈组件
第4章：Flink on Yarn的实现	什么是Yarn？与Yarn的体系架构部署Yarn Flink on Yarn的两种模式内存集中管理模式内存Job管理模式 Flink on Yarn两种模式的区别		部署Flink on Yarn	理解并掌握Flink on Yarn的两种模式的特点
第5章：Flink HA的实现	什么是HA？为什么需要HA？大数据分布式协调框架ZooKeeper 什么是ZooKeeper 搭建ZooKeeper环境 ZooKeeper的特性实现分布式锁部署Flink HA高可用架构环境		部署Flink HA环境	什么是HA？Flink HA的架构
第6章：Flink开发入门	Flink批处理开发 Java版本WordCount Scala版本WordCount Flink流处理开发 Java版本WordCount Scala版本WordCount 使用Flink Scala Shell Flink的并行度分析		搭建Flink开发环境并开发应用程序	掌握基本的Flink API编程
第7章：Flink DataSet API开发	Map、FlatMap与MapPartition Filter与Distinct Join操作笛卡尔积 First-N 外链接操作	基于DataSet API开发Flink离线计算应用		掌握常用的Flink DataSet API算子的作用
第8章：Flink DataStreaming API开发	DataSources 基本的数据源示例自定义数据源内置的Connector DataStream Transformation 转换操作 Data Sinks 集成Flink与Kafka	基于DataSet Stream开发Flink离线计算应用		掌握常用的Flink DataStream API算子的作用
第9章：状态管理和恢复	状态：State Keyed State Operator State 检查点：Checkpoint 检查点的配置： state backend存储模式修改State Backend的两种方式示例 Restart Strategies（重启策略）	开发应用进行Flink的有状态计算		理解并掌握Flink的状态管理机制
第10章：Window和Time	窗口：Window Time Window示例 Count Window示例 Time：时间 WaterMark：水位线 Watermark的原理 Watermark的三种使用情况设置Watermark的核心代码窗口的allowedLateness			什么是Flink的窗口操作
第11章：Flink Table & SQL	Flink Table & SQL简介开发Flink Table & SQL程序使用Flink SQL Client	使用Flink SQL分析处理数据		掌握Flink的数据分析模块

模块八：大数据安全认证框架
章	节	练习	学习目标与案例
第1章：大数据安全框架	大数据安全问题大数据安全管控措施 Kerberos安全认证机制 Sentry安全授权组件

（注：大纲还可根据需求进行调整）

标签：大数据大数据Spark 大数据Storm 大数据Flink Storm体系架构 Flink大数据架构

上一篇：软考（中、高级）项目经理考前集训冲刺
下一篇：国家注册信息安全专业人员CISP-PTE 渗透测试工程师认证

近期开班

大数据

大数据计算框架Spark+Storm+Flink

猜你喜欢

近期开班

CDA-L1业务数据分析师认证

数据管理工程师特训营

CISP-PTE国家注册信息安全-渗透测试工程师认证

AI大模型全栈工程师实战训练营

ITSS-IT服务项目经理认证

ITSS-IT服务工程师认证

CISP国家注册信息安全专业人员认证

TOGAF®EA理论与实践鉴定级认证

大数据挖掘、可视化与DeepSeek职场赋能

KYCP高级运维-麒麟操作系统运维高级工程师

KYCP高级运维-麒麟操作系统运维高级工程师

ITSS-IT服务项目经理认证

ITSS-IT服务工程师认证

数据治理、数据架构设计及数据标准化方法

Coze零代码大师：AI智能体构建与自动化办公

CISP国家注册信息安全专业人员认证

数字化转型工程师特训营

DeepSeek RAG应用实战-从知识增强到微调

AI赋能项目管理-从需求到落地最佳实践