一.Hadoop
1.Hadoop的源起——Lucene,从lucene到nutch,从nutch到hadoop
· 2003-2004年,Google公开了部分GFS和Mapreduce思想的细节,以此为基础Doug Cutting等人用了2年业余时间实现了DFS和Mapreduce机制,使Nutch性能飙升
· Yahoo招安Doug Cutting及其项目
· Hadoop于2005年秋天作为Lucene的子项目Nutch的一部分正式引入Apache基金会。2006年3月份,Map-Reduce和Nutch Distributed File System(NDFS)分别被纳入称为Hadoop的项目中
· 名字来源于Doug Cutting儿子的玩具大象
2.Hadoop能解决的问题
hadoop作为大数据系统可以做的事情有很多的,最为常见的像日志分析,搜索,图片分析,物联网传感数据分析,数据的长期存储。我们选择hadoop是因为hadoop具有这些优点。可以存储结构化数据和非结构化数据
性价比高
容错率高,当服务当中的一台服务的软硬件出错后系统都能继续运行
能够对海量数据快速存储
对海量数据做快速计算
能够通过添加节点的方式快速扩展系统
hadoop对系统数据安全性是有保障的
看多hadoop的朋友都知道,存储在hadoop平台中的数据,通过统一的分布式存储HDFS,可以将数据的访问和存储分布在大量服务器之中,在可靠的多备份存储的同时,还能将访问分布到集群的各个服务器之上。
hadoop架构可以很好的解决数据库扩展的瓶颈,它把数据库的设计部署在经济实惠的硬件上,通过横向扩展,便可无限的提升数据库的数据处理能力。
二.Spark
1.Spark的定义
Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。其架构如下图所示:
2.如何使用Spark
Spark可以直接对HDFS进行数据的读写,同样支持Spark on YARN。Spark可以与MapReduce运行于同集群中,共享存储资源与计算,数据仓库Shark实现上借用Hive,几乎与Hive完全兼容。
由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。
总的来说Spark的适用面比较广泛且比较通用。
有人说:“Spark就像一个高性能引擎; 它支持您想要对数据执行的工作。Hadoop可以提供一个可能的存储层,为Spark引擎提供数据”。
在大数据技术领域当中,应用Hadoop和Spark技术体系,能强化大数据平台的分布式集群架构和核心关键技术实现、大数据应用项目开发和大数据集群运维实践、以及Hadoop与Spark大数据项目应用开发与调优的全过程沙盘模拟实战。而这些在培训中就能就能全盘掌握。另外,通过一个完整的大数据开发项目及一组实际项目训练案例,完全覆盖Hadoop与Spark生态系统平台的应用开发与运维实践。课堂实践项目以项目小组的形式进行沙盘实操练习,重点强化理解Hadoop与Spark大数据项目各个阶段的工作重点,同时掌握作为大数据项目管理者的基本技术与业务素养。
据了解,中培伟业(https://www.zpedu.com/)成立十年来,一直致力于我国范围内高端IT咨询与培训服务。始终秉持“顾客满意度第一、利润第二”的理念。为了切实贯彻顾客满意度第一的原则,中培邀请了一批国内外知名企业的高层经理和资深专家指导加盟。
其大数据授课师资都是有着多年在一线从事Hadoop与Spark大数据项目的资深讲师,采用原理技术剖析和实战案例相结合的方式开展互动教学、强化以建立大数据项目解决方案为主体的应用开发、技术讨论与交流咨询,在学习的同时促进讲师学员之间的交流,让每个学员都能在课程培训过程中学到实实在在的大数据技术知识体系,以及大数据技术应用实战技能,具备实际大数据应用项目的动手开发实践与运维管理部署能力。
想了解更多IT资讯,请访问中培伟业官网:中培伟业