数据质量管理:如何实施及其运作方式

文 | 商业智能BI相关文章 阅读次数:1,074 次浏览
2023-03-14 10:16:59

作者:帆软数据应用研究院-grace

全文共2478字,建议阅读7分钟

数据质量管理 (DQM) 是一组旨在改进和维护公司业务部门数据质量的实践。数据管理专家 David Loshin 强调了 DQM 的连续性。专家指出,该过程包括一个“良性循环”,即持续的观察、分析和信息改进。此周期的目的是主动控制数据的运行状况,而不是在发现缺陷后修复缺陷并处理这些缺陷的后果。

数据质量管理,数据质量分析师,数据有效性规则

数据质量管理的良性循环

下面让我们探讨这五个阶段中的每一个以及每个阶段中发生的过程。

1、通过数据质量评估定义不良数据对绩效的影响

首先,数据质量分析师审查数据以发现导致特定操作延迟的潜在问题,从而减少收入并影响利润率。定性数据审查可以基本了解哪些数据缺陷对业务流程有重大影响。然后,专家概述了公司中的数据质量要求和关键数据质量维度。

接下来,团队通过自上而下和自下而上的方法开始数据质量评估。

自上而下的方法允许了解员工如何创建和使用数据,以及他们在此过程中面临的哪些与数据相关的问题,以及哪些问题最关键。数据评估还有助于定义受低质量数据影响最大的操作。

数据质量分析师可以检查数据在数据库中的组织方式,亲自采访用户,或组织用户可以记录问题的调查。

自下而上的方法使用统计和数据分析工具和技术,例如数据分析。数据分析采用各种统计和分析算法以及业务规则来探索数据集的内容及其数据元素的特征。有三种类型的数据分析:

结构发现(结构分析)用于了解数据是否一致且格式是否正确。模式匹配是探索数据记录结构的方法之一。分析师还可以检查数据中的统计数据,例如最小值和最大值、中位数、均值或标准差,以了解数据的有效性。

内容发现需要检查数据库中的单个数据记录,以发现 null 或错误值(格式不正确)。

关系发现是关于了解数据集、数据记录、数据库字段或单元格之间的相互联系。关系发现从元数据审查开始。此分析允许发现和消除重复等问题,这些问题可能发生在未对齐的数据集中。

然后,分析师可以向领域专家咨询发现的数据问题。

2、定义数据质量规则和指标

首先,数据质量分析师根据特定用户的需求,编制数据评估结果,重点关注看似至关重要的数据元素。“实证分析的结果将提供一些类型的措施,可用于评估特定业务环境中的数据质量水平,”David Loshin在《数据质量改进从业者指南》中指出。

然后,DQ 分析师通过定义的业务规则将业务影响与数据缺陷相关联。这样,专家就可以定义他们将使用的指标,以确保数据足够准确,并可用于运营或分析需求。他们就指标分数的可接受性阈值咨询数据用户。指标分数低于可接受性级别的数据不符合用户期望,必须对其进行改进以避免对操作产生负面影响。将可接受性阈值与测量方法相结合,可以构建数据质量指标。

定义数据标准、元数据管理标准、数据验证规则

一旦确定了不良数据的影响,检查了数据,明确了数据质量规则和指标,就该引入质量改进的技术和活动了。因此,此阶段的目标是记录整个数据生命周期中数据和元数据使用的统一规则。

数据标准。数据质量标准是关于整个组织使用的数据输入、表示、格式和交换的协议。

元数据管理标准。 有关元数据创建和维护的策略和规则是成功的数据分析计划和数据治理的基线。元数据管理标准可分为三类:

业务– 在不同的业务环境中使用业务术语和定义,使用首字母缩略词;数据安全级别和隐私级别设置。

技术– 用于存储数据的结构、格式和规则(即数据库中索引、表和列的格式和大小、数据模型)

操作– 在 ETL 过程中使用描述事件和对象的元数据的规则(即 ETL 加载日期、更新日期、置信度指示器)

请注意,一些从业者将操作元数据视为一种技术元数据类型。

数据有效性规则。 数据有效性规则用于根据不一致情况评估数据。开发人员编写数据有效性规则并集成到应用程序中,以便工具即使在数据输入期间也可以识别错误。数据有效性规则支持主动数据质量管理。

决定如何跟踪数据问题也很重要。数据质量问题跟踪日志提供有关缺陷、其状态、关键性、负责员工的信息,并包括报告说明。不列颠哥伦比亚大学数据治理和BI主任George Firican写了一篇内容丰富但简洁的文章,其中他就日志中包含的属性提出了建议。

要考虑和批准的另一个方面是如何改进数据。我们将在下一节中讨论它们。

3、实施数据质量和数据管理标准

在此步骤中,数据质量团队实施之前记录的数据质量标准和流程,以管理数据整个生命周期的可靠质量。

团队可以组织会议向员工解释新的数据管理规则或/并引入业务词汇表——利益相关者和经理批准的具有通用术语的文档。

此外,数据质量团队成员可以培训员工如何使用数据质量工具来执行修正,无论是自定义解决方案还是现成的解决方案。

4、数据监控和修复

数据清理(修复、准备)需要检测数据中的错误或不完整记录,删除或修改它们。执行数据准备的方法有很多种:手动、使用数据质量工具自动、通过脚本进行批处理、通过数据迁移或结合使用其中一些方法。

数据修正包括许多活动,例如:

根本原因分析 – 确定错误数据的来源、发生错误的原因、隔离导致问题的因素并找到解决方案。

解析和标准化– 根据定义的模式、语法和表示形式查看数据库表中的记录,以识别错误的数据值或错误字段中的值并设置它们的格式。例如,数据质量分析师可以标准化来自不同公制系统(磅和千克)、地理记录缩写(CA 和 US-CA)的值。

匹配– 识别数据集中相同或相似的实体并将它们合并为一个。数据匹配与身份解析和记录链接有关。在联接数据集以及将来自多个源的数据集成到一个目标(ETL 过程)时,可以应用该技术。一种在包含个人记录的数据集中使用身份解析来创建客户的单一视图。记录链接处理的记录可能涉及也可能不涉及公共实体(即数据库密钥、社会保险号、URL),并且可能是由于记录形状、存储位置或策展人风格或偏好的差异造成的。

增强– 从内部和外部来源添加额外数据。

监控– 在给定的时间间隔内评估数据,以确保它可以很好地服务于其目的。

现在,我们需要找出哪些专家会定义指标和标准,以获得如此好的数据,以至于它应该在完美主义的天堂中占有一席之地,谁来评估数据,培训其他员工的最佳实践,或者谁将负责战略的技术方面。

比如,目前主流的软件——finereport,它小到填报、查询、部署、集成,大到可视化大屏、dashboard驾驶舱,应有尽有,功能很强大。最重要的是,因为这个工具,整个公司的数据架构都可以变得规范,下一步就是构建企业的大数据平台了。而且它是java编写的,支持二次开发,类Excel的设计器,无论是IT还是业务,上手都很简单:编辑sql优化、数据集复用简直都是小case,大大降低了报表开发的门槛。在企业中被关注最多的数据安全方面,FineReport支持多人同时开发同一套报表,并通过模板加锁功能防止编辑冲突;通过数据分析权限控制,保障数据安全。

数据质量管理,数据质量分析师,数据有效性规则

报表产品更多介绍: www.finereport.com

相关内容

立即体验 立即体验

在线客服

电话咨询

技术问题

投诉入口

返回顶部