大数据

大数据Flink架构实践培训

2022-04-27 10:00:38 | 来源:中培企业IT培训网
一、培训简述
Apache Flink(下简称Flink)项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。Apache Flink 是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算。可部署在各种集群环境,对各种大小的数据规模进行快速计算。
本次课程将深入分析Flink的一些关键技术与特性,希望能够通过课程的学习对Flink的体系架构和生态圈组件有更加深入的了解,对其他大数据系统开发者也能有所裨益。本课程结合MapReduce、Spark及Storm等大数据处理框架,同时结合业务场景来帮着学员熟悉大数据流处理与批处理的基本概念。
本课程主要包含以下方面内容:
  • 了解Flink大数据架构,互联网企业大数据应用
  • 深度了解Flink DataSet API
  • 深度了解DataStream API
  • 集成Kafka与Flink
  • 熟悉Table API
  • 熟悉Flink ML
  • 熟悉Flink优化与基于大数据的体系架构
二、培训特色
  • PPT+教材+参考资料,理论讲解
  • 提供配套的实验环境
  • 场景+案例+模拟环境,动手实践
  • 手把手解决问题+解决问题经验分享
三、培训收益
  • 掌握基于Flink的大数据的体系架构、管理、部署。
  • 让学员具备部署基于Flink的企业大数据平台环境的能力。
四、培训时长
共计 3天,每天6课时

五、培训大纲
第一天:Flink基础
练习 学习目标
第1章:Scala编程语言
  • Scala语言基础
  • Scala语言的面向对象
  • Scala语言的函数式编程
  • Scala中的集合
  • Scala语言的高级特性
编程Scala程序 掌握Scala编程语言
第2章:常见的大数据计算引擎及其架构
  • 大数据离线计算引擎
    • MapReduce
    • Spark Core
    • Flink DataSet
  • 大数据实时计算引擎
    • Storm
    • Spark Streaming
    • Flink DataStream
  掌握不同的大数据计算引擎的架构特点
第3章:Flink的体系架构与部署
  • Flink简介
  • Flink的体系架构
  • Flink的安装与部署
  • Flink的分布式缓存
  • 对比:Flink、Storm和Spark Streaming
安装与部署Flink环境 掌握Flink的体系架构与生态圈组件
第4章:Flink on Yarn的实现
  • 什么是Yarn?与Yarn的体系架构
  • 部署Yarn
  • Flink on Yarn的两种模式
    • 内存集中管理模式
    • 内存Job管理模式
  • Flink on Yarn两种模式的区别
部署Flink on Yarn 理解并掌握Flink on Yarn的两种模式的特点
第5章:Flink HA的实现
  • 什么是HA?为什么需要HA?
  • 大数据分布式协调框架ZooKeeper
    • 什么是ZooKeeper
    • 搭建ZooKeeper环境
    • ZooKeeper的特性
    • 实现分布式锁
  • 部署Flink HA高可用架构环境
部署Flink HA环境 什么是HA?Flink HA的架构
第6章:Flink开发入门
  • Flink批处理开发
    • Java版本WordCount
    • Scala版本WordCount
  • Flink流处理开发
    • Java版本WordCount
    • Scala版本WordCount
  • 使用Flink Scala Shell
  • Flink的并行度分析
搭建Flink开发环境并开发应用程序 掌握基本的Flink API编程
第7章:集成Kafka
  • 大数据流式计算的典型架构
  • Kafka的体系结构和环境部署
  • Kafka核心原理解析
  • 集成Flink与Kafka
集成Kakfa与Flink 掌握大数据实时计算的架构与集成

猜你喜欢