说起大数据,很多人模棱两可,对于大数据的核心技术不清楚,其实,从大数据的生命周期来看,大数据采集、大数据预处理、大数据存储、大数据分析4部分共同组成了大数据生命周期里最核心的技术,简单地说,就是如何拿数据,算数据,卖数据。
1、大数据采集
数据库采集:流行的有Sqoop和ETL,传统的关系型数据库MySQL和Oracle 也依然充当着许多企业的数据存储方式。当然了,目前对于开源的Kettle和Talend本身,也集成了大数据集成内容,可实现hdfs,hbase和主流Nosq数据库之间的数据同步和集成。
网络数据采集:一种借助网络爬虫或网站公开API,从网页获取非结构化或半结构化数据,并将其统一结构化为本地数据的数据采集方式。
文件采集:包括实时文件采集和处理技术flume、基于ELK的日志采集和增量采集等等。
2、大数据预处理
数据清理:指利用ETL等清洗工具,对有遗漏数据(缺少感兴趣的属性)、噪音数据(数据中存在着错误、或偏离期望值的数据)、不一致数据进行处理。
数据集成:是指将不同数据源中的数据,合并存放到统一数据库的,存储方法,着重解决三个问题:模式匹配、数据冗余、数据值冲突检测与处理。
数据转换:是指对所抽取出来的数据中存在的不一致,进行处理的过程。它同时包含了~数据清洗的工作,即根据业务规则对异常数据进行清洗,以保证后续分析结果准确性
数据规约:是指在最大限度保持数据原貌的基础上,最大限度精简数据量,以得到较小数据集的操作,包括:数据方聚集、维规约、数据压缩、数值规约、概念分层等。
3、大数据存储
(1)基于MPP架构的新型数据库集群
(2)基于Hadoop的技术扩展和封装
(3)大数据一体机
4、大数据分析挖掘
从可视化分析、数据挖掘算法、预测性分析、语义引擎、数据质量管理等方面,对杂乱无章的数据,进行萃取、提炼和分析的过程。
关注中培伟业,了解更多相关信息。