企业数据标准化的推动者：主数据管理技术全面解析！

文 | 商业智能BI相关文章 2024-05-10 9:17:45 阅读次数：55 次浏览
2024-05-10 9:17:45

随着企业规模的扩大和业务流程的复杂化，如何有效管理数据，特别是那些关键的、在整个企业范围内被重复使用的数据，成为了一个重要课题。主数据管理技术应运而生，它专注于创建和管理主数据的统一视图，以确保数据的一致性、准确性和可访问性。

主数据是企业运营中的核心数据，如客户信息、产品信息、供应商信息等，它们是企业决策和操作的基础。有效的主数据管理不仅能够提高数据质量，降低运营成本，还能增强企业的市场响应速度和客户满意度。随着大数据、云计算、人工智能等技术的发展，主数据管理正变得越来越重要。

从技术实施的角度来看，主数据管理（主数据管理）涵盖了一系列关键步骤，包括：主数据梳理与识别、主数据分类与编码、主数据清洗、主数据集成等。本文将集中讨论上述各点，深入理解它们在主数据管理中的作用及实施过程中的关键考虑因素。

一、主数据梳理与识别

企业在进行主数据梳理时，常采用两种互补的方法：一种是自顶向下的梳理方法，另一种则是自底向上的梳理路径。

1、自顶向下梳理方法

这种方法通常应用于主数据管理咨询项目，遵循从企业战略层面向下细分至业务领域，再进一步细化到数据建模的过程。该方法通过分层次的分析，逐步深入地梳理企业的主数据。信息资源规划（IRP）和业务流程管理（BPM）是两种在此过程中常用的技术手段。

特别值得一提的是信息资源规划（IRP）。IRP涉及对组织内信息的采集、处理、传输和使用的全面规划。IRP的核心在于应用先进的信息工程和数据管理理念与方法，通过整体的数据规划，建立信息资源管理的基石，推动集成化应用开发的实现，并构建起信息资源的网络。

IRP的实施策略可以概括为包含两个阶段、两条主线、三个模型以及一套标准的综合框架：

两个阶段：分别指规划的前期准备和后期实施。
两条主线：涉及信息资源的管理和应用开发的过程。
三个模型：可能指的是在IRP中使用的三个关键的数据或系统模型。
一套标准：确保整个规划和实施过程遵循统一的标准和规范。

通过这种结构化的方法，IRP有助于企业建立起一个坚实的信息资源管理基础，从而更有效地进行主数据的梳理和治理。

（1）两个阶段

在信息资源规划（IRP）框架中，主数据梳理和调研分为两个主要阶段：

需求分析阶段：此阶段集中于对组织的职能领域、业务领域和业务流程进行梳理和定义。它包括对业务过程中涉及的数据需求进行分析，如用户视图、数据元素等。
建模阶段：在这一阶段，重点在于进行系统功能建模和系统信息建模，确立系统的功能模块、程序单元、数据基础表和数据元目录等。

（2）两条主线

IRP的实施遵循两条清晰的主线：

业务流程主线：这条主线涉及对每个职能领域和业务领域的业务流程进行深入分析，以确定哪些流程已经信息化，哪些流程仍需线下处理。
信息资源主线：这条主线是对业务流程中涉及的用户视图、数据对象等信息资源进行系统的梳理和整合，包括主题数据库和基本数据表的定义。

（3）三个模型

此外，IRP包括三个关键的模型：

业务模型：描述组织的业务架构和业务流程。
信息模型：关注数据的结构和数据流。
功能模型：定义系统的功能需求和操作。

以及一套标准化的信息资源管理标准，这些标准规定了信息资源建模和管理的相关要求和规范。

（4）IRP的优缺点

IRP这种自上而下的规划方法具有以下优缺点：

优点：

提供了对企业数据资源全面且系统化的视角。
通过梳理职能领域间的交叉信息，帮助企业清晰掌握信息流向，有效减少信息孤岛和数据冗余。
增强了对信息源头的控制，提升了数据的唯一性、准确性，并确保了信息获取的有效性。

缺点：

实施成本较高，且周期较长，可能涉及大量的前期投入。
适用于那些包含咨询环节的主数据管理项目，可能需要较长时间才能看到成效。
IRP方法论通过其结构化的规划过程，帮助企业建立起一个坚实的信息资源管理基础，为有效的主数据管理和企业决策提供支持。

2、自底向上数理方法

自底向上的主数据梳理与调研通常在已经界定了主数据的范围之后进行。此方法从企业的现有信息系统出发，对已建立的、正在建设的以及计划建设的系统中的数据视图进行详尽的梳理与分析。目的是识别出主数据在不同信息系统中的分布状况，澄清数据的起点与终点、当前的管理状况等关键信息。此外，还包括对那些尚未纳入系统管理的数据——即通常所说的非在线数据或线下数据——进行系统的整理与分析。

通过这样的数据梳理过程，可以彻底理解企业中关键数据的分布情况、主要的管理部门、数据管理的现状以及数据共享与交换的具体情况等重要信息，这对于构建主数据管理的模式和确立主数据管理体系至关重要。

自底向上方法的优缺点概述如下：

（1）自底向上的优点

针对性强，能够迅速部署实施。
成本和时间周期均可控，能够快速产生效果。

（2）自底向上的缺点

可能无法全面和系统性地梳理所有数据。
适用于那些目标和范围已经相对明确的主数据管理项目。

这种方法论通过关注现有的数据和系统，有助于快速识别和解决当前的主要数据管理问题，为进一步的主数据管理活动奠定坚实的基础。

二、主数据清洗

主数据清洗是指通过一系列数据处理活动（如清洗、转换、补充、去重、合并等），创建一套标准化的主数据编码体系，以支持企业信息系统集成和数据分析的过程。

1、主数据清洗方案

开展主数据清洗活动前，需制定详尽的清洗方案，以确保清洗工作的有序进行。该方案应包括以下关键点：

主数据清洗的基本原则；
清洗工作的范畴和预期目标；
清洗工作的详细计划；
组织架构、角色分配和责任划分；
清洗流程、执行标准和操作注意事项；
清洗模板，包括数据元素的质量标准和填写规范；
对遗留系统历史数据的处理策略。

2、主数据清洗方法

主数据清洗可以通过两种主要方式实施：

人工线下清洗：由主数据管理部门的业务人员依据清洗模板和规范，手动整理数据，形成标准化的初始数据集。

工具辅助线上清洗：利用主数据管理工具将数据从源系统导入主数据平台，并运用系统内建的清洗功能自动完成数据清洗，形成标准化的初始数据集。此方法通常需要业务和IT团队的协同工作。

3、主数据清洗操作

主数据清洗的具体操作步骤包括：

主数据归类：根据既定的主数据分类框架，将待清洗数据正确归入相应的类别。
主数据去重：结合工具识别和人工判断，识别并处理重复或相似的记录。特别要注意在处理关键属性时去除多余的空格，避免误判。
缺失值处理：对于主数据中不允许为空的关键属性，应通过工具辅助识别并补充缺失值。对于非关键且可为空的属性，则不做强制要求。
规范性描述：不规范的数据填写是导致数据质量问题的常见原因。这包括统一字母的大小写、全半角字符的使用、特殊字符的正确书写以及空格的规范处理。例如，确保直径符号的正确表示，避免使用错误的字符替代。

通过这些细致的步骤，主数据清洗有助于提升数据的准确性、一致性和可靠性，为后续的数据应用和分析打下坚实的基础。

三、主数据分类

主数据分类是一个组织信息的过程，它根据特定的目标、一定的指导原则和方法，以及信息的内容、特性和管理者的需求，将信息依据特定的结构体系进行系统的归类，并建立相应的分类体系和排序规则。

1、主数据分类原则

为了促进数据共享和提升数据处理的效率，主数据分类应遵循以下基本原则：

科学性：选择最为稳定和本质的属性或特征作为分类的基础，确保分类的可靠性和长期有效性。
系统性：根据一定的逻辑顺序，将选定的属性或特征系统化地排列，构建出一个有序的分类体系。
扩展性：分类体系的设计应具备灵活性，以适应信息随时间发展和变化的需求。
兼容性：在跨系统信息分类时，应尽量与现行的标准和规范保持一致，确保不同系统间的信息分类原则和类别设置相兼容。
实用性：在满足企业整体管理目标的基础上，分类还应满足各个部门的具体业务需求。

2、主数据分类方法

主数据的分类可以通过以下几种基本方法实施：

（1）线分类法

线分类法，也被称为层级分类法，是一种将待分类对象依据其选定的关键属性或特征进行分层的分类技术。

在这种方法中，对象首先根据其最根本和稳定的属性被分为不同的大类。随后，每个大类再根据次一级的属性细分为更具体的子类目。这个过程会持续进行，直至形成一个由多个层级构成的、逐层细化的分类体系。

以某电子制造企业为例，该企业可能采用线分类法对电子元器件进行分类，按照元器件的不同特性和功能，将其分为四个层级，每个层级代表一个分类维度，从而构建出一个层次化、易于管理和检索的分类体系。

线分类法，作为一种层级化的分类系统，具有以下优势和局限性：

优点：

清晰的层次结构：线分类法提供了一种逻辑性强的层级体系，有助于明确地展示不同类目之间的从属关系。
避免重复：由于每个对象只属于一个层级，线分类法避免了数据的重复和冗余。
逻辑关系明确：它能够较好地体现类目之间的逻辑和层次关系。
适应性：既适合传统的手工信息处理方式，也适用于计算机化的信息管理。

缺点：

揭示特性能力有限：线分类法可能不擅长展现和区分对象的多维特性。
灵活性较差：一旦建立，该分类体系可能难以根据新的需求或信息变化进行调整。
维度限制：它可能不适用于需要多维度或复杂检索的信息体系，因为线分类法主要按照单一的层级结构来组织数据。

总的来说，线分类法在需要明确层级和顺序的场景下非常有效，但在处理多维或动态变化的数据时可能需要其他分类方法作为补充。

（2）面分类法

面分类法，也被称作组配分类法，是一种将选定的分类对象依据其多个独立属性或特征（称为“面”）进行分类的方法。在这种方法中，每个“面”代表一个特定的分类维度，各个维度下的类别相互独立，不具有层级关系。通过这种方式，可以创建一个由多个独立维度组成的平行分类体系，每个维度内的类目并行排列，共同构成一个多维的分类框架。

以某电子制造企业为例，该企业在对电子元器件中的电容器进行分类时，采用了面分类法。在这个分类体系中，电容器根据不同的特征，如电电介质、封装方式、安装工艺等，被划分为多个独立的类别。每个特征维度下，电容器的分类是并行的，不相互隶属，从而形成了一个多维度的、便于从不同角度检索和分析的分类系统。

面分类法具有以下优势和局限性：

优点：

灵活性：面分类法允许容易地添加、修改或删除类目，而不会影响到其他维度的类目。
独立性：每个面的类目是独立的，可以单独进行管理和调整。
适应性：适合于计算机处理，可以根据任意组合的维度进行信息检索，便于实现自动化的信息管理。

缺点：

编码空间利用不足：可能无法充分利用所有的编码空间，因为虽然理论上组配方式众多，但在实际应用中可能只会用到其中一部分。

（3）混合分类法

混合分类法结合了线分类法和面分类法的特点，旨在更全面地满足复杂的业务需求。在混合分类法中，通常会以一种分类方法作为主导，而另一种方法则作为辅助手段。

例如，在上图电子元器件的分类中，可以采用线分类法作为主要的分类框架，依据元器件的主要特征或功能进行层级化分类。同时，将面分类法中的某些维度，如“安装工艺”和“可靠性”，作为辅助属性，以增强分类的细致度和检索的灵活性。这样的混合方法不仅能够提供清晰的主分类路径，还能通过辅助属性提供更丰富的信息，满足多样化的信息查询和业务使用需求。

四、主数据编码

主数据编码是主数据管理中的一个关键环节，它涉及在处理主数据时为其分配一种符合特定规则、易于计算机和人类识别的符号，旨在简化主数据的标识、存储、检索和使用。合理的主数据编码设计对于确立主数据标准至关重要。

1、主数据编码原则

在实施主数据项目时，常见的挑战之一是同一主数据在不同部门可能有不同的编码和名称。为了解决这一问题，项目组需要统一协调，综合各部门需求，并选择一个最优的编码方案。主数据编码应遵循以下原则：

唯一性：确保每个编码对象对应唯一一个代码。
稳定性：编码规则应保持稳定，以维持其长期有效性。
简易性：编码应简短，便于输入，减少编码复杂性，节省存储空间，降低错误率。
扩展性：编码系统应具备足够的灵活性和容量，以适应未来数据增长的需要。
适用性：编码应与业务流程和分类体系相匹配，并适用于相关的应用场景。
规范性：编码的格式、规则和结构应在组织内部保持统一。
统一性：同一主数据在不同部门和系统中应使用统一的编码标准。

2、主数据编码方法

根据《GB/T 7027—2002信息分类和编码的基本原则与方法》，主数据编码可以通过两种主要方法实现：

有含义的代码：这种编码方法不仅提供标识，还包含关于编码对象的额外信息或含义，便于理解和记忆。
无含义的代码：这种编码方法由随机或算法生成的代码组成，不包含额外信息，但可能在自动化处理方面更为高效。

选择哪种编码方法取决于组织的具体需求、业务流程的复杂性以及编码的自动化程度。无论哪种方法，都应确保编码的一致性和标准化，以便于跨部门和系统的数据一致性和互操作性。

有含义的编码指的是每个编码项都蕴含特定的业务含义，这种编码方式适合于编码数量有限且信息分类层次分明的场景。相比之下，无含义的编码主要承担唯一标识的功能，它不包含分类或具有业务特征的属性，因此更适合计算机系统的处理需求。

在实际操作中，主数据编码往往结合了这两种方法的优势。采用基于不同层级（如大类、中类、小类）的层次码进行编码是有益的，因为这有助于数据的分类和检索。然而，通常不建议过度细分编码，比如不必要地将物料、规格、型号等所有因素都纳入编码体系，这样做可能会使系统过于复杂化。

实践中，常常使用分类码与顺序码相结合的编码方式，这种组合编码既能够反映数据的分类信息，又能通过顺序码区分同类项下的具体对象。如图所示，这种编码结构清晰，易于理解和应用。

3、主数据编码的粒度

主数据编码的粒度主要涉及两个方面：一是主数据管理中包含的属性数量，二是这些属性值的详细程度。这两个因素共同决定了主数据编码的复杂性和编码数量。

主数据的属性可以根据其特性和用途被划分为以下三类：

（1）核心特征属性

核心特征属性是体现主数据根本或核心特质的属性，它们用于识别和区分不同的实体，例如电子元件的名称、型号和规格。

（2）普通特征属性

普通特征属性则提供了对实体更细致的识别和管理能力，如电子元件的封装类型、安装技术和可靠性等级。

（3）附加属性

附加属性是一些根据特定管理需求而添加的属性，例如电子元件的定价、是否需要批次追踪、采购周期等。

通常，主数据编码至少要包含核心特征属性，而普通特征属性和附加属性可以根据具体的管理目标来决定是否包含。随着纳入的普通特征属性数量增加，主数据编码的粒度会更细致，相应地，所需的编码数量也会增加。至于选择哪些特征属性与主数据编码相结合，这需要基于企业的业务需求，如销售管理、成本控制、生产组织等方面的需求来决定。企业应根据自身的业务模式和管理要求，精心选择和设计主数据的编码方案。

五、主数据集成

主数据集成是一个关键过程，涉及将关键业务实体的数据从一个或多个源头整合到一个统一的平台。这一过程主要包含两个核心部分：

与权威数据源的集成：这指的是将来自企业内外部的权威数据源中的主数据采集并同步至主数据管理平台的过程。

与数据消费应用的集成：此过程涉及将经过清洗、标准化和集成后的主数据，通过预定义的接口和协议，分发给需要使用这些数据的系统或应用。

1、主数据集成架构

在主数据集成的架构中，通常涉及以下几种系统：

权威数据源系统是生成或捕获原始主数据的系统，
主数据消费系统则是依赖这些主数据来执行其功能的应用或系统。
主数据管理平台（主数据管理）是专门设计来处理主数据的系统，负责数据的整合、清洗、同步和分发。
数据集成平台，如企业服务总线（ESB）或ETL（提取、转换、加载）工具，扮演着中间件的角色，提供主数据接口的开发和管理功能。

在权威数据源系统中执行主数据的增加、修改和删除等关键操作，并通过与主数据管理以及主数据消费系统的集成，确保主数据的一致性和准确性。这种集成实现了“单一数据源”的概念，支持主数据的“一处维护，多处使用”的策略，从而提高了数据的可靠性和减少了数据冗余。

2、与数据源系统的集成

主数据系统与数据源系统之间的集成通常采用两种主要方法：

（1）基于标准Web服务的数据同步

这种方法涉及主数据系统提供的标准Web服务，该服务被注册到企业服务总线（ESB）上，以便业务系统能够调用。数据源系统通过ESB上的接口调用，将主数据传输至主数据系统，并存储于其数据库中。

（2）基于ETL工具的数据同步

此方法主要通过ETL工具来实现，涉及数据源系统、ETL工具和主数据的中央库。利用ETL工具进行数据抽取、转换和清洗，从而将主数据从源系统同步到主数据的中央数据库。

此外，也可以通过定制脚本程序实现数据同步，但相较于使用ETL工具，这种方式的灵活性较低。

3、与数据消费系统的集成

主数据系统与数据消费系统的集成可以通过以下三种方式实现：

（1）基于Web接口的“推送”模式

在这种模式下，数据消费系统被动接收主数据。主数据消费系统根据统一的集成接口标准开发数据接收接口，并将该接口注册到ESB中。主数据系统随后调用此接口服务，将数据推送至消费系统。

（2）基于Web接口的“拉取”模式

与“推送”模式相对，数据消费系统在此模式下主动查询所需的主数据。主数据平台提供并注册标准Web服务到ESB中，供消费系统调用。业务系统通过调用数据接口获取所需的主数据，并将其保存到本地数据库中，以实现数据同步。

（3）基于ETL的数据同步

这种方式将主数据系统作为源数据库，数据消费系统作为目标数据库，利用ETL工具执行全量或增量的数据同步流程。

这三种集成方式各有优势，企业可以根据自身的业务需求、数据流动的频率以及系统的复杂性来选择最合适的集成策略。

4、主数据集成联调流程

主数据集成联调是一个包含多个阶段的复杂过程，涉及需求确认、接口设计、开发、数据集成以及系统联调等关键步骤。以下是一个主数据集成联调流程的示例，具体步骤包括：

（1）需求和方案确认

主数据集成的需求及相应的集成方案需经过主数据平台实施团队、客户方以及第三方系统供应商的共同评审和确认，以确保三方对方案有统一的理解和同意。

（2）接口开发与测试

根据集成方案的要求开发接口，并在测试环境中进行接口的联合调试，确保每个流程环节都经过充分测试。

（3）问题记录与反馈

在联调过程中，实施团队需详细记录遇到的问题，并及时跟踪，将发现的问题反馈给参与集成的各方开发人员。

（4）测试环境验证

只有在测试环境中的测试完全通过后，才能将接口程序部署到生产环境中。

（5）生产环境测试

升级到生产环境后，需要与客户一起进行彻底的测试验证，确保每个功能点均按预期工作。

（6）最终确认

客户方、主数据平台实施方以及第三方系统供应商共同完成对部署后的功能和数据的最终确认。

整个流程要求严格的测试和验证，以确保集成系统的稳定性和可靠性。通过这一流程，可以确保主数据在整个企业范围内的一致性和准确性，从而提高数据的质量和应用效率。

六、总结

在本文，我们深入探讨了主数据管理技术的重要性和实施策略。我们分析了主数据管理的关键组成步骤，包括数据的梳理与识别、分类与编码、清洗、以及集成。这些步骤共同构成了一个强大的框架，旨在提高数据的质量和一致性，从而为企业带来更高的运营效率和更好的决策支持。

随着大数据、云计算和人工智能等先进技术的不断进步，主数据管理的作用愈发凸显。它不仅帮助企业解决了数据孤岛问题，还提升了数据的透明度和可审计性，为企业提供了深入的业务洞察和战略优势。

为了实现主数据管理的最大价值，企业需要持续投入资源，培养专业的主数据管理团队，并采用先进的主数据管理工具和最佳实践。同时，企业还需要建立相应的数据治理框架，确保主数据管理项目的长期成功和可持续发展。

帆软软件深耕数字行业，能够基于强大的底层数据仓库与数据集成技术，为企业梳理指标体系，建立全面、便捷、直观的经营、财务、绩效、风险和监管一体化的报表系统与数据分析平台，并为各业务部门人员及领导提供PC端、移动端等可视化大屏查看方式，有效提高工作效率与需求响应速度。

咨询方案体验Demo

< 上一篇：数据治理建模技术：你了解ER模型吗？

下一篇：如何做好主数据管理实践？教你避开主数据管理常见的”坑“！>

可视化大屏资料包

制造业数据建设白皮书

BI建设地图（行业独家）

商业智能（BI）白皮书4.0

大数据决策分析平台建设方案

《数字国资》案例集（半年刊）

数字化转型资源

免费获取《数据建设知识图谱》

围绕数据化管理落地→数据化应用落地→数据团队建设三个重点，梳理6大模块，89个体系框架，531个细分知识点，助力企业数字化转型！

产品体验

报表制作工具

FineReport

免费试用>

大数据分析平台

FineBI

免费试用>

数据可视化工具

FineVis

免费试用>

数据集成平台

FineDataLink

免费试用>

企业数据标准化的推动者：主数据管理技术全面解析！

一、主数据梳理与识别

1、自顶向下梳理方法

（1）两个阶段

（2）两条主线

（3）三个模型

（4）IRP的优缺点

2、自底向上数理方法

（1）自底向上的优点

（2）自底向上的缺点

二、 主数据清洗

1、主数据清洗方案

2、主数据清洗方法

3、主数据清洗操作

三、 主数据分类

1、主数据分类原则

2、主数据分类方法

（1）线分类法

（2）面分类法

（3）混合分类法

四、 主数据编码

1、主数据编码原则

2、主数据编码方法

3、主数据编码的粒度

（1）核心特征属性

（2）普通特征属性

（3）附加属性

五、 主数据集成

1、主数据集成架构

2、与数据源系统的集成

（1）基于标准Web服务的数据同步

（2）基于ETL工具的数据同步

3、与数据消费系统的集成

（1）基于Web接口的“推送”模式

（2）基于Web接口的“拉取”模式

（3）基于ETL的数据同步

4、主数据集成联调流程

（1）需求和方案确认

（2）接口开发与测试

（3）问题记录与反馈

（4）测试环境验证

（5）生产环境测试

（6）最终确认

六、 总结

相关内容

深度解读 | 数据资产管理的发展趋势

如何做好数据仓库治理？

数据管理的3种方法，看完后感叹：数字化转型、数据中台真不难

别人都没这样讲过数据中台：数据湖会是中台的“后浪”吗？

史上最卷618，电商企业如何用数据打造破局利器？

关于数据建模之思考（三）：数仓分层设计架构

细数数据科学团队中的十大关键角色

可视化软件哪款好？对比4家数据可视化大屏公司

实时数仓和离线数仓的区别是什么，企业该如何选择合适的数仓架构？

对比测评4款最受欢迎的在线数据可视化工具！

「东江集团」作为全球领先供应商，如何以数字化驱动业务增长？

4大excel数据可视化工具，轻松做excel可视化图表！

免费资源

可视化大屏资料包

制造业数据建设白皮书

BI建设地图（行业独家）

商业智能（BI）白皮书4.0

大数据决策分析平台建设方案

《数字国资》案例集（半年刊）

相关主题

更多专题

数字化转型资源

产品体验

报表制作工具

大数据分析平台

数据可视化工具

数据集成平台

立即咨询企业大数据建设方案，打造定制化大数据平台，实现数据驱动业务！

在线咨询

产品中心

大数据解决方案

资源中心

了解帆软

热门话题

Copyright© 帆软软件有限公司 | 苏ICP备18065767号-7

二、主数据清洗

三、主数据分类

四、主数据编码

五、主数据集成

六、总结