在大数据时代,数据的价值是不可估量的。然而,若要充分发挥大数据价值,首要的任务就是确保所收集的数据质量可靠。毕竟,即使拥有最优质的硬件、应用系统和数据分析平台,若数据质量欠佳,其最终成果也难以是可靠和可用的。在金融领域,如果一个大数据系统的数据质量很差,那么通过大数据分析所得的结论,很可能不是洞见,而是误导,甚至会造成巨大的损失。因此,提高数据质量是大数据应用的重中之重。
01
数据质量问题之”痛“
数据质量问题是我们实际工作中不可避免的难题,如果不及时处理,将直接影响大数据的健康和发展。那么我们常见的数据质量的问题有哪些呢?根据长期以来对数据质量评估维度的总结,可以归纳为以下几方面:
1、数据一致性问题:由于数据来自多个来源,同一数据出现不一致、甚至相互冲突的情况;
2、数据准确性问题:这是最常见的数据质量问题,往往由于设计、开发、传输、清洗、加工等各个环节出现的问题导致;
3、数据真实性问题:影响数据真实性的往往是一些人为因素,尤其是需要上报或对外展示的数据,数据失真非常常见;
4、数据及时性问题:主要表现在无法按要求时间提供数据,影响业务开展;
5、数据唯一性问题:比如主数据重复、信息冗余等问题,会影响业务协同和流程追溯;
6、数据完整性问题:数据本身的不完整和数据记录、约束的不完整导致数据价值下降,对数据的可读性也变差。
上述数据质量问题一旦发生,都会导致数据处理成本增加、运营风险、决策错误、经济损失、甚至名誉损失。因此我们在判断数据质量问题时,会以上述六个维度来衡量数据质量问题具体是在哪一方面,以便对症下药。
02
数据质量问题之”因“
当发生了数据质量问题,我们需要通过确定问题存在的方面来寻找问题的根本原因。根据我们历年来对数据质量问题原因的归纳总结,数据质量问题主要源自技术方面、业务方面和经营管理方面等三个方面。
1、技术方面:因为技术原因导致的数据质量问题,覆盖了数据生命周期的各个过程。
2、业务方面:因为业务人员需求不明确、需求变更、操作失误、数据造假等问题也会导致数据质量出现问题。
3、经营管理方面:主要表现为企业缺乏数据思维,没有有效的数据管理策略和统一的数据标准。
在寻找数据质量起因时,我们按照这三个方面进行追溯,就可以快速找到问题的具体原因,并采取相应的解决措施。同时,我们也可以运用智能技术如机器学习和数据治理工具等来确保数据在整个生命周期中保持一致性和可靠性,提高数据价值和利用效率。
03
数据质量问题之”解“
数据质量出现问题,最经典的分析解决方法就是六西格玛法。根据六西格玛的DMAIC模型,我们可以将数据质量问题分析定义为以下五个阶段:
1、定义阶段(D阶段)。界定数据质量问题治理的范围,并将数据质量改进的方向和内容界定在合理的范围内。我们通过使用主数据识别法、问卷调查法、漏斗法等方法,定义出数据治理的对象和范围。数据质量治理对象一般主要包括两类数据:一类是操作型数据,例如:主数据、参照数据和交易数据。另一类是分析型数据,例如:指标数据等。
2、测量阶段(M阶段)。我们通常以数据唯一性、数据完整性、数据准确性、数据一致性、数据关联性、数据及时性等指标来作为数据质量评价指标,建立数据质量评估模型,并以此来对数据进行评估和测量。
3、分析阶段(A阶段)。基于数据质量评估模型,我们可以建立数据质量分析规则任务,通过数据分析,找到发生数据质量问题的地方,确定出影响数据质量的关键因素。该阶段可以用的分析方法包括:根因分析、鱼骨图分析、帕累托分析、矩阵数据分析等。
4、改进阶段(I 阶段)。通过制定改进管理和业务流程、优化数据质量的方案,消除数据质量问题或将数据质量问题带来的影响降低到最小程度。数据质量的优化和提升,绝不单单是技术问题,也需要从管理和业务入手,找出数据质量问题发生的根因,再对症下药。同时,数据质量管理是一个持续优化的过程,需要公司全员参与,并逐步培养起全员的数据质量意识和数据思维。该过程主要用到方法:流程再造、绩效激励等。
5、控制阶段(C阶段)。我们需要固化数据标准,优化数据管理流程,并通过数据管理和监控手段,确保流程改进成果,提升数据质量。主要方法有:标准化、程序化、制度化等。
04
数据质量问题之”策“
数据质量治理的策略和技术应用是一个较为广泛的范畴,它可以作用于数据质量管理的事前、事中和事后三个阶段,各个阶段对应不同策略。
在事前阶段,我们需要从系统设计之初就关注数据质量情况,包括设计阶段对业务承诺、指标口径的统一,对数据的约束条件的明确,如长度、精度、非空、枚举值等等进行设定,在开发阶段对数据建模、数据加工、数据清洗等工作的质量要求,和必要的代码质量的检测,在测试阶段进行专门的数据测试等,使数据质量能够得到有效保障。
在事中阶段,我们通过数据质量检测工具或相关的数据管理平台,对数据指标进行波动监控,同时设置不同的数据质量检测规则,进行业务规则监控和异常字段探查,这样可以及时发现问题,阻止问题扩散,告警并将问题纳入质量问题库以便跟踪处理结果。
在事后阶段,我们需要利用根因分析方法快速定位问题,对数据进行应急修复、事件复盘和总结,并将方案进行沉淀。此外还需要优化质量规则,避免重复事件的再次发生。
05
数据质量问题之”道“
通过上述一系列对数据质量问题的“痛、因、解”的分析,我们初步建立起对数据质量问题处理的闭环。通过对数据质量问题的“策”的规划,在事前、事中、事后构建起数据质量管理的机制和手段。但是对数据质量提升来说,这仍然不够。我们不能被动的发现问题然后解决问题,这样不仅耗费大量人力,也无法高效管控数据质量。我们必须通过管理手段,主动的从源头做起,防患于未然,使数据质量能够长久保持健康。
首先,公司需要让更多的人认识到数据质量的重要性,这离不开组织机制的保障。就如同项目执行过程中需要项目质量管理一样,数据质量也需要专门的数据质量管理人员去监督数据质量规则和标准的落实,对数据资产进行管理和监控,对数据质量问题进行根因分析,并提供解决方案。同时加强对人员的培训,减少数据质量问题的人为因素。
其次,要制定和执行数据标准。数据标准包括数据模型标准、主数据标准、维度、指标数据标准等,数据标准的有效执行和落地是数据质量管理的必要条件。
最后,在制度流程上进行保障。数据质量管理是一个闭环的管理流程,包括业务需求定义、研发规范执行、数据质量测量、问题根因分析、实施改进计划、质量规则入库等,需要不断的进行数据质量优化迭代。同时,加强数据质量管理制度建设,建立数据质量评估模型,对数据质量各个维度情况进行量化,然后按所在分类的权重加权计算,获得数据质量评估健康分,以此来衡量数据质量趋势。
数据质量健康分=(∑数据及时性通过率*权重 +∑ 数据准确性通过率*权重 + ∑数据完整性通过率*权重 + ∑数据一致性通过率*权重 +∑数据唯一性通过率*权重 +∑数据关联性通过率*权重)*100
在利用数据质量健康分进行评估时,可以将公司期望的数据质量各维度的通过率得分纳入公式,最终计算出一个数值做为健康标准,凡是达到或超过该评分,则可以认为该系统数据质量健康。
06
结束寄语
数据质量影响的不仅是信息化建设的成败,更是影响公司业务协同、管理创新、决策支持的核心要素。对于数据质量的管理我们必须坚持"事前预防、事中控制、事后补救"的数据质量管理策略,持续提升数据质量水平。随着技术的发展、业务的变化、数据的增加,数据环境日益复杂多变。数据质量管理永远也不会出现所谓的"最佳时机"。因此,进行数据质量管理的最佳时机就是现在!
作者:星图金融--沈健
来源:微信公众号:苏项荟
出处:https://mp.weixin.qq.com/s/2JVfbOgD2lbhU4kRPAl4xA
金融六西格玛(六西格玛的价值)
【本文标题和网址,转载请注明来源】金融六西格玛(六西格玛的价值) http://www.gdmzwhlytsq.com/hyxw/374877.html