大数据

大数据计算框架Spark+Storm+Flink

2022-04-29 11:37:03 | 来源:中培企业IT培训网
一、培训简述
全面掌握大数据Spark、Storm和Flink的理论基础和实现原理,以及基于大数据架构的数据仓库的实现,通过具体的实操和练习让学员全面实战大数据。通过此次课程培训,可使学习者获得如下收益:
  • 数据仓库的核心概念、数据仓库与大数据
  • 大数据中心平台的整体架构
  • 彻底理解Spark为代表的大数据处理引擎的运行机制和原理,包括:
    • Spark Core
  • 掌握Spark生态体系架构(原理、安装、使用),包括:
    • Spark Core、Spark SQL、Spark Streaming
    • Spark Shell、Spark集群、RDD
  • 掌握Spark、Hadoop协同工作,能够通过Spark、Hadoop轻松应对大数据的业务需求;
  • 掌握以实时计算框Storm为代表的大数据实时计算引擎的运行机制和原理,包括:
    • Storm的体系架构
    • Storm的数据处理流程与编程模型
    • 集成Storm实时计算引擎
  • 掌握Flink的生态圈体系架构,包括:
    • 了解Flink大数据架构,互联网企业大数据应用
    • 深度了解Flink DataSet API
    • 深度了解DataStream API
    • 集成Kafka与Flink
    • 熟悉Table API
    • 大数据安全认证框架Kerberos。
二、培训特色
  • PPT+教材+参考资料,理论讲解
  • 提供配套的实验环境
  • 场景+案例+模拟环境,动手实践
  • 手把手解决问题+解决问题经验分享。
三、培训收益
  • 掌握基于大数据的体系架构、管理、部署,以及相应组件的原理和应用场景。
  • 让学员具备部署基于企业大数据平台环境的能力。
四、培训时长
     共计4 天,每天6课时

五、培训大纲
模块一:大数据实时计算引擎Storm
练习 学习目标与案例
Storm
  • 大数据实时计算框架简介
  • Apache Storm体系结构
  • Apache Storm的伪分布模式的搭建
  • Apache Storm的全分布模式和HA
  • Storm的Demo演示
  • Storm集群在ZooKeeper上保存的数据结构
  • WordCount数据流动的过程
  • 开发自己的Storm的WordCount程序
  • 部署和运行Storm任务
  • Storm任务执行的过程与通信机制
  • 流式计算系统的典型的架构与集成Storm
    • 集成Redis
    • 集成HDFS
    • 集成HBase
使用Storm进行大数据的实时计算
  • 掌握Storm的体系架构和功能。
  • 掌握大数据实时计算的典型架构
  • 京东大数据平台的架构
 
 
模块二:Spark基础之Scala编程语言
练习 学习目标与案例
Scala编程语言
  • Scala语言基础
  • Scala语言的面向对象
  • Scala语言的函数式编程
  • Scala中的集合
  • Scala语言的高级特性
编程Scala程序 掌握Scala编程语言
 
 
模块三:大数据执行引擎Spark Core
练习 学习目标与案例
Spark Core
  • 什么是Spark?
  • Spark的体系结构与安装部署
    • Spark的主从架构
    • 什么是ZooKeeper
    • Spark HA的实现
  • 执行Spark Demo程序
  • Spark运行机制及原理分析
  • Spark的算子
  • Spark RDD的高级算子
  • Spark基础编程案例
  • Spark性能诊断和优化案例
    • 系统死锁的诊断和分析
    • 系统内存溢出的诊断和分析
  • 案例分享
    • 基于Spark的大数据平台架构
搭建Spark环境
使用Spark Core处理数据
  • 掌握Spark的体系架构和功能
  • Spark与Hadoop的对比
 
 
 
模块四:数据分析引擎Spark SQL
练习 学习目标与案例
Spark SQL
  • Spark SQL基础
    • Spark SQL简介
    • 基本概念:Datasets和DataFrames
    • 测试数据
    • 创建DataFrames
    • DataFrame操作
    • Global Temporary View
    • 创建Datasets
    • Datasets的操作案例
  • 使用数据源
    • 通用的Load/Save函数
    • Parquet文件
    • JSON Datasets
    • 使用JDBC
    • 使用Hive Table
  • 性能优化
  • 在IDEA中开发Spark SQL程序
使用Spark SQL处理数据
  • 掌握Spark SQL的体系架构和功能。
  • 典型的大数据分析引擎的对比
    • Hive
    • Spark SQL
    • Flink SQL
 
 
模块五:流式计算引擎Spark Streaming
练习 学习目标与案例
Spark Streaming
  • Spark Streaming基础
    • Spark Streaming简介
    • Spark Streaming的特点
    • Spark Streaming的内部结构
    • 第一个小案例:NetworkWordCount
    • 开发自己的NetworkWordCount
  • Spark Streaming进阶
    • StreamingContext对象详解
    • 离散流(DStreams):Discretized Streams
    • DStream中的转换操作(transformation)
    • 窗口操作
    • 输入DStreams和接收器
    • DStreams的输出操作
    • DataFrame和SQL操作
    • 缓存/持久化
    • 检查点支持
  • 高级数据源
    • Spark Streaming接收Flume数据
    • Spark Streaming接收Kafka数据
  • 性能优化
    • 减少批数据的执行时间
    • 设置正确的批容量
    • 内存调优
使用Spark Streaming处理数据
  • 掌握Spark Streaming的体系架构和功能
  • 典型的大数据实时引擎的对比
    • Storm
    • Spark Streaming
    • Flink DataStream
 
 
模块六:机器学习MLLib
练习 学习目标与案例
Spark  MLLib
  • 什么是MLLib?
  • MLLib中的常见算法
  • MLlib的应用案例:推荐系统的实现
    • 基于用户的协同过滤
    • 基于物品的协同过滤
    • 基于ALS的协同过滤
    • 逻辑回归算法
  掌握电商环境中推荐系统的实现。
 
 
模块七:新一代大数据处理引擎Flink
练习 学习目标与案例
第3章:Flink的体系架构与部署
  • Flink简介
  • Flink的体系架构
  • Flink的安装与部署
  • Flink的分布式缓存
  • 对比:Flink、Storm和Spark Streaming
安装与部署Flink环境 掌握Flink的体系架构与生态圈组件
第4章:Flink on Yarn的实现
  • 什么是Yarn?与Yarn的体系架构
  • 部署Yarn
  • Flink on Yarn的两种模式
    • 内存集中管理模式
    • 内存Job管理模式
  • Flink on Yarn两种模式的区别
部署Flink on Yarn 理解并掌握Flink on Yarn的两种模式的特点
第5章:Flink HA的实现
  • 什么是HA?为什么需要HA?
  • 大数据分布式协调框架ZooKeeper
    • 什么是ZooKeeper
    • 搭建ZooKeeper环境
    • ZooKeeper的特性
    • 实现分布式锁
  • 部署Flink HA高可用架构环境
部署Flink HA环境 什么是HA?Flink HA的架构
第6章:Flink开发入门
  • Flink批处理开发
    • Java版本WordCount
    • Scala版本WordCount
  • Flink流处理开发
    • Java版本WordCount
    • Scala版本WordCount
  • 使用Flink Scala Shell
  • Flink的并行度分析
搭建Flink开发环境并开发应用程序 掌握基本的Flink API编程
第7章:Flink DataSet API开发
  • Map、FlatMap与MapPartition
  • Filter与Distinct
  • Join操作
  • 笛卡尔积
  • First-N
  • 外链接操作
基于DataSet API开发Flink离线计算应用 掌握常用的Flink DataSet API算子的作用
第8章:Flink DataStreaming API开发
  • DataSources
    • 基本的数据源示例
    • 自定义数据源
    • 内置的Connector
  • DataStream Transformation 转换操作
  • Data Sinks
  • 集成Flink与Kafka
基于DataSet Stream开发Flink离线计算应用 掌握常用的Flink DataStream API算子的作用
第9章:状态管理和恢复
  • 状态:State
    • Keyed State
    • Operator State
  • 检查点:Checkpoint
    • 检查点的配置:
    • state backend存储模式
    • 修改State Backend的两种方式
    • 示例
  • Restart Strategies(重启策略)
开发应用进行Flink的有状态计算 理解并掌握Flink的状态管理机制
第10章:Window和Time
  • 窗口:Window
    • Time Window示例
    • Count Window示例
  • Time:时间
  • WaterMark:水位线
    • Watermark的原理
    • Watermark的三种使用情况
    • 设置Watermark的核心代码
    • 窗口的allowedLateness
  什么是Flink的窗口操作
第11章:Flink Table & SQL
  • Flink Table & SQL简介
  • 开发Flink Table & SQL程序
  • 使用Flink SQL Client
使用Flink SQL分析处理数据 掌握Flink的数据分析模块
         
 
 
模块八:大数据安全认证框架
练习 学习目标与案例
第1章:大数据安全框架
  • 大数据安全问题
  • 大数据安全管控措施
  • Kerberos安全认证机制
  • Sentry安全授权组件
   
 
(注:大纲还可根据需求进行调整)