谈到数据仓库这个词,专业人士应该了解数据仓库的历史悠久,现在大多数企业建立各种应用程序来自动化它的基本业务流程,随着这些业务流程各自发展,也就从中产生多个版本的数据。过去的时候,如果我们想了解不同产品线、不同地区销售收入和利润率,如果数据不一致的话,是非常让人头疼的事情。数据仓库就是从各种复杂系统中复制出关键数据,解决那些不一致的问题,还能生成易于分析的非常干净的数据集,一般这个过程是定期运用程序来完成的。
为确保数据仓库环境正常运行,这里需要很多组件。它需要数据提取程序,并且数据仓库必须使用其自己的架构进行设计。现代数据仓库还需要其他程序,以通过业务规则解析背景数据的竞争版本,从而决定数据主版本的层次结构。
这里的历史性挑战是,数据仓库类似于在不断变化的底层操作系统上构建的建筑物。当这些系统发生重大变化时(例如重组或业务收购),数据仓库的结构需要更改以反映基础业务变化。如果业务变化的步伐过快,则数据仓库可能会在一段时间内变得不可靠,从而破坏业务人员对它的信心。
为解决这个问题,数据集市应运而生。但是,除非数据集市与数据仓库中的数据同步,否则它们可能会与之竞争并产生多种数据版本。为了解决这种不稳定性,开始出现各种数据仓库设计,其中包括星形模式、雪花模式,以及技术专家Bill Inmon和Ralph Kimball提倡的其他模式。
随后主数据管理领域开始出现,企业希望收集越来越复杂的业务背景数据集,这些业务背景数据通常具有可与数据仓库协同工作的独立数据库。争用不同版本的产品层次结构需要业务投入,从而使数据仓库中的数据治理提供流程,以对此类主数据进行业务控制。
除庞大的数据量外,增加的复杂性也是一个问题。最终我们开始看到更加复杂的查询和分析工具,它们本身通常需要自己的元数据层来表示数据仓库的业务视图。同时,提取、转换和加载(ETL)数据催生数据集成工具行业的发展。这些工具使流程自动化,并拥有自己的专有脚本,从而在数据仓库环境中添加需要处理的其他组件。
数据仓库现代化,多年以来,人们一直在尝试整理企业数据仓库环境的组件。为了现代化日益复杂的数据仓库,供应商尝试生产预构建的模板和数据仓库生成器,这些示例包括Idera、Magnitude和Attunity。尽管在某些用例中取得成功,但这些都没有取得市场主导地位。此外,DevOps和DataOps致力于帮助数据仓库模式演变,以及使数据仓库环境以可控方式运行的其他方面。
尽管创新供应商付出巨大的努力,但数据仓库现代化并没有捷径。大型企业已经在企业数据仓库及其相关环境中投入大量资金,但庞大的流程、程序、脚本和模式仍然是前进的重大障碍。还有一个障碍是克服数据库管理员和IT员工当前做法的惯性。由于企业大部分分析都依赖于数据仓库,因此很难进行迁移。重组运营数据仓库环境就像机械师试图为行驶中的汽车升级发动机升级。
以上我们介绍了数据仓库和它的未来,现在数据仓库自动化工具以及现代DataOps市场正在尽最大可能帮助企业实现现代化其数据仓库环境。如果您想了解更多相关信息,请您及时关注中培伟业。