一、培训简述
Apache Flink(下简称Flink)项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。Apache Flink 是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算。可部署在各种集群环境,对各种大小的数据规模进行快速计算。
本次课程将深入分析Flink的一些关键技术与特性,希望能够通过课程的学习对Flink的体系架构和生态圈组件有更加深入的了解,对其他大数据系统开发者也能有所裨益。本课程结合MapReduce、Spark及Storm等大数据处理框架,同时结合业务场景来帮着学员熟悉大数据流处理与批处理的基本概念。
本课程主要包含以下方面内容:
- 了解Flink大数据架构,互联网企业大数据应用
- 深度了解Flink DataSet API
- 深度了解DataStream API
- 集成Kafka与Flink
- 熟悉Table API
- 熟悉Flink ML
- 熟悉Flink优化与基于大数据的体系架构
二、培训特色
- PPT+教材+参考资料,理论讲解
- 提供配套的实验环境
- 场景+案例+模拟环境,动手实践
- 手把手解决问题+解决问题经验分享
三、培训收益
- 掌握基于Flink的大数据的体系架构、管理、部署。
- 让学员具备部署基于Flink的企业大数据平台环境的能力。
四、培训时长
共计 3天,每天6课时
五、培训大纲
第一天:Flink基础 |
章 |
节 |
练习 |
学习目标 |
第1章:Scala编程语言 |
- Scala语言基础
- Scala语言的面向对象
- Scala语言的函数式编程
- Scala中的集合
- Scala语言的高级特性
|
编程Scala程序 |
掌握Scala编程语言 |
第2章:常见的大数据计算引擎及其架构 |
- 大数据离线计算引擎
- MapReduce
- Spark Core
- Flink DataSet
- 大数据实时计算引擎
- Storm
- Spark Streaming
- Flink DataStream
|
|
掌握不同的大数据计算引擎的架构特点 |
第3章:Flink的体系架构与部署 |
- Flink简介
- Flink的体系架构
- Flink的安装与部署
- Flink的分布式缓存
- 对比:Flink、Storm和Spark Streaming
|
安装与部署Flink环境 |
掌握Flink的体系架构与生态圈组件 |
第4章:Flink on Yarn的实现 |
- 什么是Yarn?与Yarn的体系架构
- 部署Yarn
- Flink on Yarn的两种模式
- Flink on Yarn两种模式的区别
|
部署Flink on Yarn |
理解并掌握Flink on Yarn的两种模式的特点 |
第5章:Flink HA的实现 |
- 什么是HA?为什么需要HA?
- 大数据分布式协调框架ZooKeeper
- 什么是ZooKeeper
- 搭建ZooKeeper环境
- ZooKeeper的特性
- 实现分布式锁
- 部署Flink HA高可用架构环境
|
部署Flink HA环境 |
什么是HA?Flink HA的架构 |
第6章:Flink开发入门 |
- Flink批处理开发
- Java版本WordCount
- Scala版本WordCount
- Flink流处理开发
- Java版本WordCount
- Scala版本WordCount
- 使用Flink Scala Shell
- Flink的并行度分析
|
搭建Flink开发环境并开发应用程序 |
掌握基本的Flink API编程 |
第7章:集成Kafka |
- 大数据流式计算的典型架构
- Kafka的体系结构和环境部署
- Kafka核心原理解析
- 集成Flink与Kafka
|
集成Kakfa与Flink |
掌握大数据实时计算的架构与集成 |