大数据

实现数据集成策略中的各关键性元素

2017-01-19 14:22:51 | 来源:中培企业IT培训网

对来自多种来源的数据进行集成一直是个令IT人士头痛的复杂问题,而如今日益庞大的数据体积与多种多样的数据类型令其更加难以处理。中培伟业《大数据分析及可视化技术应用实战》培训专家谢老师在这里介绍了实现数据集成策略成功的八项关键性元素。

数据集成与应用集成

数据集成与应用集成在传统角度上彼此并无关联,但如今这一状况正发生变化。谢老师指出,部分开创性厂商已经开始将数据集成至某些业务流程当中。“大数据处理与内存成本的持续走低使得我们能够以原始或者近乎原始格式实现数据存储,并立足于内存之内进行复杂的集成操作这种新型架构将能够更为顺畅地实现数据集成。

应用对数据:哪一方更加权威?

谢老师认为,数据集成与应用集成已经被紧密联系在一起。而在相关工作当中,企业需要决定哪一方的权威性更高。“二者都在尝试对数据进行管理,”他在采访当中表示。“因此必须由决策者判断二者哪者拥有数据的权威操作能力。”

将数据移动技术视为中间件

有些人认为应当尽可能避免将数据从一套系统迁移至另一套系统。但是随着大数据技术的出现,数据移动已经变得不可避免。他认为,数据移动相关技术“应作为中间件从全部数据源及数据存储中解耦出来。”这套方案能够显著简化并加快升级速度。

投资建立现代架构

谢老师表示,企业需要一套现代架构以实施成功的数据集成策略。以往的实践及架构需要将ETL包含于数据仓库之内,并将数据存储于数据湖当中。“如今一大重要变化在于,开源大数据工具开始被广泛用于立足来源进行大规模数据的快速管理实现数据流正是实现成功数据集成策略的重要组成部分。”

关注安全性

在大数据集成领域,安全性仍是一项非常重要的保障因素。谢老师表示,安全性绝对是Hadoop领域的核心问题,因为Hadoop发布方Cloudera与Hortonworks在其大数据应用安全性方面走出了各自不同的道路。“这种作法并不适合每类用户,”他指出。这意味着企业需要高度关注自身所使用各类工具的具体安全性问题。

放开管制

谢老师指出,如今IT人士的一大难题在于其需要负责数据基础设施与数据管理任务,但同时又不再具备完整的控制能力。“数据管理模式将变得五花八门——包括分布式、云端、内部乃至应用当中。要实现数据集成,首先需要将治理模式从管理方案中独立出来。治理是需要执行的任务,而管理是达成目标的途径。”

重新审视元数据

元数据如今正得到重新审视,但具体角度则与传统的静态数据源与值信息有所区别。新的元数据关注方向包括数据的访问与使用频率,这类信息能够帮助我们了解数据的重要程度。数据是否被用于进行多种不同类型的分析?其属于监管型、事务型或者操作型?通过这些指标,大家将能够找到真正需要加以良好治理的关键性数据。

关注内容形式与内容偏差

谢老师认为在未来三到五年当中,企业将意识到数据集成与数据分析中存在着固有偏见。“简单来讲,所有数据都包含有创造者的偏见,”他指出所有数据都可从多个角度加以审视,而每个数据点都反映出业务流程设计者的自身意图,意味着我们不可能真正利用现有数据集成机制进行纯粹的客观分析。

标签: 大数据分析