国际数据管理协会(DAMA)给出的定义:数据治理是对数据资产管理行使权力和控制的活动集合。
数据治理的最终目标是提升数据的价值,涉及到数据的整个生命周期管理、数据标准规范、数据质量管理、数据安全性和合规性管理等多个方面。
数据治理主要有以下5点:
1、理清数据资源
首先要明确企业内部的各类数据资源,包括结构化数据和非结构化数据等,以及这些数据的来源、质量和使用情况。这个步骤可以通过对业务部门的需求调研、对现有系统的了解和分析、以及对数据质量进行评估来完成。
2、制定治理规范
针对确认过的数据资源,需要制定相应的治理规范,包括数据清洗和整合的规则、数据格式和类型的定义、数据存储和备份的方式等。需要考虑数据的完整性、准确性、一致性、可读性和可维护性等方面的要求,同时还需要考虑数据的安全性和可靠性等方面的要求。
3、数据清洗整合
根据治理规范,对原始数据进行清洗和整合,包括去除重复和错误的数据、补充缺失的数据、将不同来源的数据进行合并和关联等。数据清洗和整合可以提高数据的质量和可用性,同时还可以减少数据的冗余和重复。
4、数据资源存储
将清洗和整合后的数据按照规定的格式和流程录入到数据库或数据仓库中,同时进行数据的质量检查和完整性验证。并需要考虑数据的准确性、完整性和一致性等方面的要求,同时还需要考虑数据的可扩展性和可维护性等方面的要求。
5、数据维护监控
在数据存储后,需要进行数据的维护和监控,包括定期的数据备份和恢复、数据质量的监控和管理等,以确保数据的安全性和可靠性。同时还需要对数据进行分类、分主题地进行整合,形成主题化的数据表,方便后续的数据分析和应用。