大数据

大数据Flink架构实践培训

2022-04-27 10:00:38　|　来源：中培企业IT培训网

一、培训简述
Apache Flink（下简称Flink）项目是大数据处理领域最近冉冉升起的一颗新星，其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。Apache Flink 是一个分布式大数据处理引擎，可对有限数据流和无限数据流进行有状态计算。可部署在各种集群环境，对各种大小的数据规模进行快速计算。
本次课程将深入分析Flink的一些关键技术与特性，希望能够通过课程的学习对Flink的体系架构和生态圈组件有更加深入的了解，对其他大数据系统开发者也能有所裨益。本课程结合MapReduce、Spark及Storm等大数据处理框架，同时结合业务场景来帮着学员熟悉大数据流处理与批处理的基本概念。
本课程主要包含以下方面内容：

了解Flink大数据架构，互联网企业大数据应用
深度了解Flink DataSet API
深度了解DataStream API
集成Kafka与Flink
熟悉Table API
熟悉Flink ML
熟悉Flink优化与基于大数据的体系架构

二、培训特色

PPT+教材+参考资料，理论讲解
提供配套的实验环境
场景+案例+模拟环境，动手实践
手把手解决问题+解决问题经验分享

三、培训收益

掌握基于Flink的大数据的体系架构、管理、部署。
让学员具备部署基于Flink的企业大数据平台环境的能力。

四、培训时长
共计 3天，每天6课时

五、培训大纲

第一天：Flink基础
章	节	练习	学习目标
第1章：Scala编程语言	Scala语言基础 Scala语言的面向对象 Scala语言的函数式编程 Scala中的集合 Scala语言的高级特性	编程Scala程序	掌握Scala编程语言
第2章：常见的大数据计算引擎及其架构	大数据离线计算引擎 MapReduce Spark Core Flink DataSet 大数据实时计算引擎 Storm Spark Streaming Flink DataStream		掌握不同的大数据计算引擎的架构特点
第3章：Flink的体系架构与部署	Flink简介 Flink的体系架构 Flink的安装与部署 Flink的分布式缓存对比：Flink、Storm和Spark Streaming	安装与部署Flink环境	掌握Flink的体系架构与生态圈组件
第4章：Flink on Yarn的实现	什么是Yarn？与Yarn的体系架构部署Yarn Flink on Yarn的两种模式内存集中管理模式内存Job管理模式 Flink on Yarn两种模式的区别	部署Flink on Yarn	理解并掌握Flink on Yarn的两种模式的特点
第5章：Flink HA的实现	什么是HA？为什么需要HA？大数据分布式协调框架ZooKeeper 什么是ZooKeeper 搭建ZooKeeper环境 ZooKeeper的特性实现分布式锁部署Flink HA高可用架构环境	部署Flink HA环境	什么是HA？Flink HA的架构
第6章：Flink开发入门	Flink批处理开发 Java版本WordCount Scala版本WordCount Flink流处理开发 Java版本WordCount Scala版本WordCount 使用Flink Scala Shell Flink的并行度分析	搭建Flink开发环境并开发应用程序	掌握基本的Flink API编程
第7章：集成Kafka	大数据流式计算的典型架构 Kafka的体系结构和环境部署 Kafka核心原理解析集成Flink与Kafka	集成Kakfa与Flink	掌握大数据实时计算的架构与集成