一、培训简述
全面掌握大数据的理论基础和实现原理,通过具体的实操和练习让学员全面实战大数据。通过此次课程培训,可使学习者获得如下收益:
彻底理解Hadoop、Spark和Flink为代表的大数据处理引擎的运行机制和原理,包括:
MapReduce
Spark Core
Flink Runtime
掌握Hadoop生态体系的海量数据存储架构(原理、安装、使用),包括:
分布式文件系统HDFS
NoSQL数据库HBase
数据分析引擎:Hive
掌握Spark生态体系架构(原理、安装、使用),包括:
Spark Core、Spark SQL、Spark Streaming
Spark Shell、Spark集群、RDD
掌握Spark、Hadoop、Flink协同工作,能够通过Spark、Hadoop和Flink轻松应对大数据的业务需求;
掌握Flink生态体系架构(原理、安装、使用),包括:
Flink Standalone与Flink on Yarn
Flink DataSet与Flink DataStream
Flink Table & SQL。
二、培训特色
PPT+教材+参考资料
提供配套的实验环境
场景+案例+模拟环境,动手实践
手把手解决问题+解决问题经验分享。
三、培训收益
掌握基于大数据的体系架构、管理、部署,以及相应组件的原理和应用场景。
让学员具备部署基于企业大数据平台环境的能力。
四、培训时长
共计3天,每天6课时
五、培训大纲
第一天(Hadoop核心原理) |
章 |
节 |
学习目标 |
应用案例 |
第一章:实验环境的准备 |
|
准备实验环境 |
|
第二章:大数据背景知识与起源 |
- Hadoop部分各章概述
- 实验环境简介与准备
- 几个基本概念
- Google的低成本思想
- Google的思想论文之一:GFS
- Google的思想论文之二:MapReduce
- Google的思想论文之三:BigTable
|
理解并掌握大数据的底层原理 |
基于Hadoop的大数据离线计算平台整体架构 |
第三章:搭建Hadoop环境 |
- Hadoop的目录结构
- 搭建Hadoop的本地模式
- 搭建Hadoop的伪分布模式
- 免密码登录的原理和配置
- 搭建Hadoop的全分布环境
|
安装和配置Hadoop环境 |
第四章:Hadoop的体系架构 |
- Hadoop体系结构概述
- HDFS的体系结构
- Yarn的体系结构
- Yarn的体系结构和任务的调度
- Yarn的资源分配方式
- HBase的体系结构简介
- 主从结构的单点故障问题及解决方案
|
理解并掌握Hadoop的体系架构 |
基于HDFS搭建电商大数据平台的数据仓库 |
第五章:HDFS |
- HDFS概述
- 操作HDFS
- 通过Web Console操作HDFS
- 通过命令行操作HDFS
- 使用Java API创建目录和权限问题
- 使用Java API上传和下载数据
- 使用Java API获取文件信息
- HDFS的原理剖析
- HDFS上传数据的过程和原理
- HDFS下载数据的过程和原理
- HDFS的高级功能
- HDFS的回收站
- HDFS的快照
- HDFS的安全模式和权限
- HDFS的配额
- HDFS的集群简介
- HDFS的底层原理
- HDFS底层原理之一:代理对象
- HDFS底层原理之二:什么是RPC?
|
掌握HDFS |