模块七:新一代大数据处理引擎Flink |
章 |
节 |
练习 |
学习目标与案例 |
第3章:Flink的体系架构与部署 |
- Flink简介
- Flink的体系架构
- Flink的安装与部署
- Flink的分布式缓存
- 对比:Flink、Storm和Spark Streaming
|
安装与部署Flink环境 |
掌握Flink的体系架构与生态圈组件 |
第4章:Flink on Yarn的实现 |
- 什么是Yarn?与Yarn的体系架构
- 部署Yarn
- Flink on Yarn的两种模式
- Flink on Yarn两种模式的区别
|
部署Flink on Yarn |
理解并掌握Flink on Yarn的两种模式的特点 |
第5章:Flink HA的实现 |
- 什么是HA?为什么需要HA?
- 大数据分布式协调框架ZooKeeper
- 什么是ZooKeeper
- 搭建ZooKeeper环境
- ZooKeeper的特性
- 实现分布式锁
- 部署Flink HA高可用架构环境
|
部署Flink HA环境 |
什么是HA?Flink HA的架构 |
第6章:Flink开发入门 |
- Flink批处理开发
- Java版本WordCount
- Scala版本WordCount
- Flink流处理开发
- Java版本WordCount
- Scala版本WordCount
- 使用Flink Scala Shell
- Flink的并行度分析
|
搭建Flink开发环境并开发应用程序 |
掌握基本的Flink API编程 |
第7章:Flink DataSet API开发 |
- Map、FlatMap与MapPartition
- Filter与Distinct
- Join操作
- 笛卡尔积
- First-N
- 外链接操作
|
基于DataSet API开发Flink离线计算应用 |
掌握常用的Flink DataSet API算子的作用 |
第8章:Flink DataStreaming API开发 |
- DataSources
- 基本的数据源示例
- 自定义数据源
- 内置的Connector
- DataStream Transformation 转换操作
- Data Sinks
- 集成Flink与Kafka
|
基于DataSet Stream开发Flink离线计算应用 |
掌握常用的Flink DataStream API算子的作用 |
第9章:状态管理和恢复 |
- 状态:State
- Keyed State
- Operator State
- 检查点:Checkpoint
- 检查点的配置:
- state backend存储模式
- 修改State Backend的两种方式
- 示例
- Restart Strategies(重启策略)
|
开发应用进行Flink的有状态计算 |
理解并掌握Flink的状态管理机制 |
第10章:Window和Time |
- 窗口:Window
- Time Window示例
- Count Window示例
- Time:时间
- WaterMark:水位线
- Watermark的原理
- Watermark的三种使用情况
- 设置Watermark的核心代码
- 窗口的allowedLateness
|
|
什么是Flink的窗口操作 |
第11章:Flink Table & SQL |
- Flink Table & SQL简介
- 开发Flink Table & SQL程序
- 使用Flink SQL Client
|
使用Flink SQL分析处理数据 |
掌握Flink的数据分析模块 |
|
|
|
|
|