当我们使用业务系统沉淀了大量数据后,接着会想对数据进行进一步开发利用,挖掘数据价值,赋能业务发展。然而此时我们往往会发现,由于业务系统数据录入标准控制不严、操作不规范或是一数多源等原因,导致数据浑身是“病”——数据不完整、不规范、不准确、不一致等情况普遍存在,数据价值大打折扣,我们不能用,也不敢用。为了让数据能用、好用,就需要通过数据治理给数据治“病”,提升数据质量。(1)数据的病情多样:同一数据有多个数据源造成数据不一致;各系统数据规范不同,无统一数据标准;数据有缺陷,部分信息有缺失或错误。(2)病人数量庞大:在业务的快速增长下,数据量呈指数级增长,加大了识别和处理缺陷数据的难度。(3)看病难、治病贵:掌握治理方法的专家少,数据治理成本高,人工治理效率低,代码治理门槛高。(4)长期健康难保障:运动式的数据治理难以长期维持高质量数据。为了解决上述问题,急迫需要一种融入了数据治理方法,能识别各种质量缺陷,且自动智能的工具来降低我们数据治理的门槛,提升效率,帮助我们获得及长期维持高质量的数据。下面通过一则案例,来介绍通过数据中台进行数据治理的方法。案例:某支付公司对营销系统和金融中心的交易数据汇总时,发现以下几个问题:
有交易金额的情况下,金额单位为空值;
同一笔交易的最后修改人不一致;
交易模式数据有错别字录入。
根据支付公司的业务特性制定数据标准,包括标准分类、标准内容和数据质量规则,数据质量规则包括基础规则、数据范围、表达式、数据格式。
图1-部分数据标准
图2-标准规则
将需要校验的字段(即模型元数据)与数据标准进行关联映射,以实现数据标准的落地执行。图3-关联标准
对关联标准的元数据设置检验任务,实现自动化周期性的数据质量校验。

图4-检验任务
使用数据质量分析功能对缺陷数据进行统计分析,制定数据改善方案。图中通过质量分析可以定位到问题字段:金额单位和交易类型。

图5-质量分析
下钻到字段,了解字段内缺陷数据的分布概况。

图6-字段详情
根据检验结果定位到具体缺陷数据,找到问题数据交易类型,显示违反录入范围规则,根据制定的标准,在线手动修改问题数据。

图7-数据修复
对需要各业务部门修正的数据,可以导出成excel给业务部门,修正后再导入系统。图8-下载数据
使用中台按照月、季、年度自动生成数据质量分析报告,帮助我们掌握数据质量改善状况,并通过质量问题自动告警协助我们及时处理缺陷数据。

图9-质量趋势
综上所述,运用数据中台,使我们经过简单培训就能掌握专家级的数据治理方法和能力,可大幅度提升在海量数据、复杂情况下的数据治理效率,帮助我们获得高质量的数据光点科技的GI大数据中台融合新一代中台理念和技术打造,提供数据汇聚、数据融合、数据治理、数据服务和资产管理五大能力,帮助客户打造“大中台,小应用”信息化格局,让应用更关注业务,实现数据增值、应用增效、业务赋能、技术降本。平台拥有自动智能、安全可靠、使用简单三大特色。