大数据

大数据平台技术架构与应用培训

2022-04-27 09:48:29 | 来源:中培企业IT培训网
一、培训简述
全面掌握大数据的理论基础和实现原理,通过具体的实操和练习让学员全面实战大数据。通过此次课程培训,可使学习者获得如下收益:
彻底理解Hadoop、Spark和Flink为代表的大数据处理引擎的运行机制和原理,包括:
MapReduce
Spark Core
Flink Runtime

掌握Hadoop生态体系的海量数据存储架构(原理、安装、使用),包括:
分布式文件系统HDFS
NoSQL数据库HBase
数据分析引擎:Hive

掌握Spark生态体系架构(原理、安装、使用),包括:
Spark Core、Spark SQL、Spark Streaming
Spark Shell、Spark集群、RDD
掌握Spark、Hadoop、Flink协同工作,能够通过Spark、Hadoop和Flink轻松应对大数据的业务需求;

掌握Flink生态体系架构(原理、安装、使用),包括:
Flink Standalone与Flink on Yarn
Flink DataSet与Flink DataStream
Flink Table & SQL。
 
二、培训特色
PPT+教材+参考资料
提供配套的实验环境
场景+案例+模拟环境,动手实践
手把手解决问题+解决问题经验分享。

三、培训收益
掌握基于大数据的体系架构、管理、部署,以及相应组件的原理和应用场景。
让学员具备部署基于企业大数据平台环境的能力。

四、培训时长
共计3天,每天6课时

五、培训大纲
第一天(Hadoop核心原理)
学习目标 应用案例
第一章:实验环境的准备
  • 实验环境简介
  • Linux的准备
  • JDK的安装
准备实验环境  
第二章:大数据背景知识与起源
  • Hadoop部分各章概述
  • 实验环境简介与准备
  • 几个基本概念
  • Google的低成本思想
  • Google的思想论文之一:GFS
  • Google的思想论文之二:MapReduce
  • Google的思想论文之三:BigTable
理解并掌握大数据的底层原理 基于Hadoop的大数据离线计算平台整体架构
第三章:搭建Hadoop环境
  • Hadoop的目录结构
  • 搭建Hadoop的本地模式
  • 搭建Hadoop的伪分布模式
  • 免密码登录的原理和配置
  • 搭建Hadoop的全分布环境
安装和配置Hadoop环境
第四章:Hadoop的体系架构
  • Hadoop体系结构概述
  • HDFS的体系结构
    • 名称节点
    • 数据节点
    • 第二名称节点
  • Yarn的体系结构
    • Yarn的体系结构和任务的调度
    • Yarn的资源分配方式
  • HBase的体系结构简介
  • 主从结构的单点故障问题及解决方案
理解并掌握Hadoop的体系架构 基于HDFS搭建电商大数据平台的数据仓库
第五章:HDFS
  • HDFS概述
    • 操作HDFS
    • 通过Web Console操作HDFS
    • 通过命令行操作HDFS
    • 使用Java API创建目录和权限问题
    • 使用Java API上传和下载数据
    • 使用Java API获取文件信息
  • HDFS的原理剖析
    • HDFS上传数据的过程和原理
    • HDFS下载数据的过程和原理
  • HDFS的高级功能
    • HDFS的回收站
    • HDFS的快照
    • HDFS的安全模式和权限
    • HDFS的配额
    • HDFS的集群简介
  • HDFS的底层原理
  • HDFS底层原理之一:代理对象
  • HDFS底层原理之二:什么是RPC?
掌握HDFS