学习交流

中培专家论-六维一体总看金融企业数据质量

2018-05-16 11:24:14　|　来源：中培企业IT培训网

金融企业早期的IT发展以应用系统建设为主，应用系统的主要功能是为了编制业务报表，这时候的特征是“记录型”系统，各业务部门站在支持本部门工作的角度，提出系统建设需求，数据来源通常大多只涉及本部门，系统开发表现为“轻数据、重功能”，业务数据是“信息孤岛型”的。

随着IT对业务的支撑能力增强，跨部门跨系统的协作增强，需要的是企业全局整体层面的共享型数据，早期建立的部门级、孤岛型的系统和数据越来越不能满足业务发展需要。数据质量的问题也日益影响数据统计分析的质量，包括数据逻辑问题，数据准确性问题，重复记录问题，数据缺失问题等。在业务操作和管理层面，数据质量问题不仅影响单个业务正常开展，还会影响与该业务相关的企业业务顺利开展；在决策层面，数据质量问题会影响到管理层的决策依据是否准确、客观。

那么评价数据质量的标准是什么呢？经过业界十多年的实践经验积累，数据质量可以用以下因素来度量，包括完整性、规范性、一致性、准确性、唯一性和关联性。如下图所示：

▌第一步评估企业数据质量

如何提高数据质量，第一步是要对企业数据进行评估，从以下方面分析数据的质量：

完整性：所有必须的数据都存在吗？

符合性：数据都是以标准格式存储的吗？哪些数据是非标准数据？

一致性：数据与其代表的业务含义是否一致，哪些信息是自相矛盾的？

准确性：数据准确表示数据是否经过审核或者数据有可验证途径？

重复性：哪些数据记录是重复记录的，重复记录的原因是什么？

关联性：数据的重要关联关系是否记录，而是准确的？

时效性：数据的寿命是否满足用户要求？

针对以上几个方面，客户评价企业数据的质量状况，以及影响分析。

▌第二步识别影响数据质量的因素

数据质量是数据分析和数据价值进一步挖掘的基础，没有良好的数据质量基础，近年来比较热门的管理驾驶舱、大数据分析等就成了空中楼阁，基础数据的不准确直接导致分析结论的不准确，那么，影响数据质量的因素有哪些呢？

根据统计分析，造成数据质量不佳的原因包括数据产生环节（也称数据源环节）和数据加工环节，具体如下：

1 ▏缺乏企业级的数据标准

由于缺乏统一企业级数据标准，造成不同部门对相同信息项的业务含义理解的不一致，比如账户余额，有的理解为期末余额，有的理解为期初余额。数据背后的业务含义不一致，直接导致统计结果的大相径庭。

2 ▏员工录入信息不准确

导致员工录入信息不准确主要是两个因素：

第一个因素，缺乏统一的录入标准和约束。比如客户名称，企业没有规定对公客户的名称是企业营业执照的全名，这样会导致出现各种不同的简称。

第二个因素，由于员工录入时引入了错误的信息，书写错误，比如身份证号码填写错误；或者信息理解错误，比如金额单位，直接把元看成万元；或者收集的信息不正确。

3 ▏新旧系统切换或数据的ETL过程问题

数据新旧系统切换，以及数据的抽取、转换和加载环节造成技术错误和非技术错误，包括数据的重复抽取、数据加载转换规则错误等。

企业在引用了数据质量不佳的外部数据。

4 ▏客户数据

客户录入的信息不准确。

5 ▏系统改造

系统改造时，数据的孤立修改，影响到上下游数据问题。

企业可对照上述的几个方面，识别出造成数据质量不佳的根本原因，进行有针对性的数据质量提升。

▌第三步建立企业级统一的数据标准

无论是数据统计，还是大数据分析，建立企业级统一的数据标准是提高数据质量不可避免的环节。

人们发现，从部门级视角建立的系统，各系统的数据定义、数据采集自成体系，孤岛型数据的数据价值很难发挥出来，呈现出内部数据交换和外部数据交换两方面的问题。内部数据交换问题表现在同一信息在不同的系统需要重复录入；跨系统的数据定义存在二义性，相同业务含义的数据在不同系统中表现形式不同，不同业务含义的数据在不同系统表现上相同，造成数据统计、分析的困难和不准确。外部数据交换问题表现在当需要与上级部门和子公司交换信息时，由于数据定义的不统一，造成数据报表需要手工作业。

以客户名称为例，由于缺乏统一的数据规范，客户名称在系统中录入的简称随意，同一用户的名称繁多，造成用户管理和用户市场策略不能顺利推行。

数据标准是为了使企业内外部使用和交换的数据是一致和准确的，经协商一致制定并由相关主管机构批准，共同使用和重复使用的一种规范性文件。数据标准化是通过一整套的数据规范、管控流程和技术工具来确保银行的各种重要信息，包括产品、客户、机构、财务、项目等在全企业内外的使用和交换都是一致、准确的过程。

数据标准化体系三要素：

数据标准字典，描述数据信息项的业务属性、技术属性和管理属性，业务属性包括信息项中文名称、英文名称、业务含义、使用规则；技术属性包括数据类型和长度等；管理数据包括数据标准的管理部门、管理责任人、源系统等。

数据标准管理规范和流程，为数据标准持续有效更新维护，以及数据标准落地执行保驾护航。

数据标准管理系统，提供数据标准查询和内容维护，以及数据标准在数据结构中的检核机制。

▌第四步数据标准落地执行

数据标准的落地包括两个层面，一个是业务层面落地，二是IT层面。

数据标准在业务层面落地，是数据标准落地的关键环节。包括

业务部门在制定管理规范和工作手册时，信息项名称和业务含义，要与数据标准一致。

业务人员在进行信息项录入的时候，数据内容要与业务含义一致。

业务人员在提系统建设需求时，信息项名称、业务含义应与数据标准一致。

在IT层面的落地，包括新系统建设和老系统改造。新系统建设时，系统数据模型，以及数据库字段设计都应遵从数据标准；老系统改造，是指原有系统根据业务需求，对关键业务指标进行改造。老系统中的信息项与数据标准检核，结果是标准遵从、部分遵从和不遵从，对于部分遵从和不遵从的部分，进行修改、合并、分拆或删除，使之与标准一致。在制定数据标准改造方案时，要对上下游数据的影响进行判断，及时通知上下游系统数据项的变化，共同分析变化的影响以及应对措施。

数据标准的落地和执行，让数据有章可循，有规则可依，可以极大地提高数据质量。

▌第五步建立以元数据为基础的数据质量体系

简单地说，元数据是数据的数据，也就是数据的属性。数据库中的录入的数值，比如金额3，它不是孤立的数值，而是有其业务含义和使用规则，也即业务属性，只有在明确其业务属性的情况下，才能对其进行分析和利用。此外，它还有技术属性、管理属性、上下游关系等。

采用元数据管理的方法，即数据属性管理的办法，将数据的业务属性、技术属性和管理属性明确下来，这样明确的业务属性可以消除业务二义性；统一的技术属性有利于数据的逻辑集中；明确的管理属性有利于数据质量职责清晰，管理责任清晰。

另外，建立元数据为基础的表级血统分析、影响分析，字段级血统分析、影响分析，明确数据之间的上下游关系，一方面便于对数据进行影响分析，另一方面，便于数据的维护和故障排查。

▌第六步数据质量检核和持续完善

针对企业数据质量问题产生，可以从以下方面提升数据质量：

1 ▏针对员工录入问题，可以制定数据检核规则，持续进行数据质量检核

对于数据录入的逻辑错误，设置检核规则，比如首笔贷款发放时间不能早于合同签订时间。对于员工输入笔误，比如身份证信息，用身份证检核规则进行检查。对于用户名称输入不准确的情况，可以与用户标准库的用户名称进行比对，检查其是否与标准名称相符。

针对员工信息掌握不准确的问题，从流程审核上进行控制，关键数据和信息输入需要有人员审核，也就是将记录型系统改造成流程型系统。

另外，在应用系统的输入页面，增加输入项解释、非空判断，对于其它系统里已有的信息，通过建立关联关系导入系统，避免重复录入。员工填写信息时，尽量地让用户对输入信息进行选择，而不是完全手工输入信息。

2 ▏新旧系统切换或数据的ETL过程问题