1、数据资源梳理
从业务的角度理清组织的数据资源环境和数据资源清单,包含组织机构、业务事项、信息系统,以及以数据库、文件和 API 接口形式存在的数据项资源,本步骤的输出物为分门别类的数据资源清单。
2、数据质量管理
数据价值的成功发掘必须依托于高质量的数据,唯有准确、完整、一致的数据才有使用价值。因此,需要从多维度来分析数据的质量,例如:非空检查、规范性检查、值域检查、关联关系检查、重复性检查等。
3、基础库与主题域建设
基础数据一般指的是主数据,例如会计科目、产品、物料、客户、供应商等数据。主题数据一般指的是某个业务主题数据,例如市场监督管理局的食品监管、质量监督检查、企业综合监管等数据。
4、数据采集清洗
通过可视化的 ETL 工具将数据从来源端经过抽取、转换、加载至目的端的过程,目的是将散落和零乱的数据集中存储起来。
5、元数据管理
元数据管理是对基础库和主题库中的数据项属性管理,同时,将数据项的业务含义与数据项进行了关联,便于业务人员也能够理解数据库中的数据字段含义。
6、数据血缘追踪
在元数据和数据资源清单之间建立关联关系,且业务团队使用的数据项由元数据组合配置而来,建立数据使用场景与数据源头之间的血缘关系。在数据业务场景使用过程中发现错误时,数据治理团队可以快速定位数据来源,修复数据错误。
7、数据共享交换
数据共享分为库表、文件和 API 接口三种共享方式。库表共享比较直接,文件共享方式通过 ETL 工具做一个反向的数据交换就可以实现。我们比较T荐的是 API 接口共享方式,在这种方式下,能够让中心数据仓库保留数据所有权,把数据使用权通过 API 接口的形式进行了转移。
8、数据资源目录
数据资源目录一般应用于数据共享的场景,例如政府部门之间的数据共享。数据资源目录是基于业务场景和行业规范而创建,同时依托于元数据和基础库主题实现自动化的数据申请和使用。