数据治理标准:评估数据质量的 7 个指标
作者:Christopher Tozzi
编译:帆软数据应用研究院-grace
全文共4457字,建议阅读12分钟
数据质量是指一组数据服务于预期目的的能力。低质量的数据不能有效地用于做我们想做的事情,因此,需要使用许多策略来提高数据质量。但无论我们使用哪种方式来提高数据质量,都需要有一种方式来衡量工作的有效性。否则,我们在数据质量策略上投入的时间和金钱可能不会得到回报。
衡量数据质量的 7 个数据指标
数据质量评估在实践中是什么样的?以下是通常帮助公司衡量数据质量工作的指标示例。
度量 | 定义 | 如何计算 |
数据与误差的比率 | 相对于数据集的大小,您有多少错误? | 将错误总数除以项目总数。 |
空值数 | 空值表示数据集中缺少信息。 | 计算数据集中空字段的数量。 |
数据转换错误率 | 将信息转换为其他格式时会出现多少错误? | 数据多久无法成功转换? |
暗数据的数量 | 有多少信息由于数据质量问题而无法使用? | 查看有多少数据存在数据质量问题。 |
电子邮件退回率 | 有多少百分比的收件人因为发送到错误的地址而没有收到您的电子邮件? | 将退回的电子邮件总数除以发送的电子邮件总数,然后乘以 100。 |
数据存储成本 | 存储数据需要多少费用? | 您的数据存储提供商向您收取什么信息存储费用? |
数据价值实现时间 | 您的公司需要多长时间才能从其信息中获得价值? | 确定“价值”对你的公司意味着什么,然后衡量实现该价值需要多长时间。 |
1、数据与误差的比率
这是最明显的数据质量指标类型。它允许您跟踪数据集中已知错误(例如缺失、不完整或冗余条目)的数量如何与数据集的大小相对应。如果在数据大小保持不变或增长的情况下发现更少的错误,就表明数据质量正在提高。
2、空值数量
数据集中的空值(通常表示信息丢失或记录在错误的字段中)是跟踪此类数据质量问题的简单方法。您可以量化数据集中有多少空字段,然后监控数字随时间的变化情况。
3、数据转换错误率
数据转换(即获取以一种格式存储的数据并将其转换为另一种格式的过程)的问题通常是数据质量问题的标志。通过测量失败(或需要很长时间才能完成)的数据转换操作的数量,您可以深入了解数据的整体质量。
4、暗数据的数量
暗数据是由于数据质量问题而无法有效使用的数据。暗数据越多表明存在的数据质量问题越多。
5、电子邮件的跳出率
如果您正在运行营销活动,数据质量差是电子邮件退回的最常见原因之一。它们的发生是因为错误。丢失数据或过时的数据导致您将电子邮件发送到错误的地址。
6、数据存储成本
当实际使用的数据量保持不变时,您的数据存储成本是否在上升?这是数据质量问题的另一个可能迹象。如果存储成本下降,而数据操作保持不变或增长,则可能会提高数据质量。
7、数据价值实现时间
计算团队从给定数据集中得出结果所需的时间是衡量数据质量的另一种方法。虽然许多因素(例如数据转换工具的自动化程度)会影响数据的价值实现时间,但数据质量问题会减慢从数据中获取有价值信息的努力是一个常见的问题。
当然,最适合您衡量的指标将取决于您组织的特定需求。以上只是衡量数据质量的指南。