专家经验 | 一文讲透企业如何从0到1实施数据治理!

文 | 商业智能BI相关文章 阅读次数:335 次浏览
2023-11-14 17:14:06

一、导言

帆软专家智库由帆软旗下机构「帆软数据应用研究院」创立,邀请来自不同领域的技术、业务和管理专家,旨在将各行各业优秀的数字实战经验,借助帆软平台分享给更多的中国企业。

今年,我们将持续邀请企业及咨询机构的知名行业专家、高校学者等共话数字化转型。

本期我们邀请到帆软供应链和平台业务专家——刘涛老师,为大家分享他在数据治理方面的经验。

实施数据治理,数据维护,高效的数据分析

二、为什么需要数据治理?

随着企业的不断壮大,其所涉及的业务或规则会变得越来越复杂,慢慢地就会出现多个部门或多个子公司管理的现状。然而,这也带来了一系列问题。

首先,由于每个经营单元所使用的系统各异,实施统一管理系统不仅在实际操作上难以实现,而且成本也相当高昂。其次,各经营单元所统计和汇报的报表公式和规则,由于维度、视角、取值来源等因素难以一致,导致数据呈现结果的不同,也让企业老板感到困惑和无奈。此外,由于企业划分为多个部门,部门间相互推诿责任的现象时有发生,这最终会导致企业运营速度减缓。

在这样的背景下,数据与系统之间的关系呈现出弱耦合的特点。因而,企业希望建立统一且高效的数据分析体系,希望通过实施数据治理来建立数据的统一性、标准性和分级性,最终达到数据赋能给各个业务板块,来提升业务的运营效率和精细化管理能力

这种数据驱动管理的方法有助于减少多部门之间的沟通障碍,是让企业管理更加高效的一种低成本且可行性高的方案。

三、数据治理需要参考的框架/原则

在实施数据治理之前,企业需要先了解清楚数据治理常用的模型和需要坚持的原则,这样在定具体执行的大方向时才不会走偏。笔者认为有以下三点必须要明确:

首先要明确DAMA(Data Management Association)战略一致性模型:这是数据治理中常用的一种模型,它强调企业数据与业务目标的一致性。只有当企业的数据与业务保持一致时,数据治理才能真正落地并实现其价值。

实施数据治理,数据维护,高效的数据分析

其次要明确PDCA(Plan-Do-Check-Act)原则:在实施数据治理时,需要遵循这一原则进行持续的迭代和更新。具体包括计划、执行、检查和修改四个步骤,只有通过不断迭代循环才能实现数据治理的最终目标。

最后要明确KPI(Key Performance Indicators)导向原则:数据治理的核心是“多打粮食,多生产”,因此,在具体实施时,一切要围绕KPI去执行找到一个切入点深入下去,让业务部门切实感受到实施数据治理的必要和益处。举一个例子,在建立经营看板的时候,可以挑选“提成”这个指标来让销售部门实打实地感受到这张报表是和他们有关系的,而不是选择一些无关痛痒的指标项去做数据。

四、数据治理具体如何实施?

1. 管理体系建设

首先需要建立统筹数据治理的组织结构,具体有两种方式:

如果参照DAMA模型,企业需要建立数据治理监理委员会、数据治理委员会、数据治理办公室、数据治理业务组。

实施数据治理,数据维护,高效的数据分析

当然,企业还可以选择更加简化的方式:

由企业中原来分散到各个部门的负责数据的人员抽调成一个小组去跟数据治理组建立成一个整体数据治理小组。由原数据人员去对接业务并且进行数据需求的第一轮过滤和梳理后再进入到数据治理组。由数据治理组去建立元数据或者是主数据的设计以及构造。最后交由应用系统组和数据开发组来进行开发。

2. 系统能力建设

这部分会分为方法论和笔者具体的实操经验进行分享。

第一步,要建立承载数据的底盘(数据仓库或者是数据湖)。

在进行数据分析前,需要根据数据的存储特性分类为结构化数据和非结构化数据。

什么是结构化和非结构化的数据?

结构化数据:可以存储在关系型数据库中,用二维表进行表现形式,这一类数据也是大部分市面上的企业留存的数据资产,也是最可能进行数据治理的数据资产

非结构化数据:一般是无法形成规则的数据,例如:网页、合同、音频和视频等,这一部分会通过OCR技术和RPA技术提取核心数据做成结构化数据进行。

数据根据存储属性划分后,就会通过ETL进入到数据准备层ODS层。

数据准备层ODS层(Operation Data Store) ,也称为贴源层:数据源中的数据,经过抽取、洗净、传输,也就是ETL过程之后进入本层。该层的主要功能有三个:ODS是后面数据仓库层的准备区,为DWD层提供原始数据,减少对业务系统的影响。

那什么是数据仓库层呢?

数据仓库层DW从上到下,又可以分为3个层:数据细节层DWD、数据中间层DWM、数据服务层DWS。

数据细节层DWD(Data warehouse details):该层是业务层和数据仓库的隔离层,保持和ODS层一样的数据颗粒度。该层主要是对ODS数据层做一些数据的清洗和规范化的操作,比如去除空数据、脏数据、离群值等。为了提高数据明细层的易用性,该层通常会采用一些维度退化方法,将维度退化至事实表中,减少事实表和维表的关联。

数据中间层DWM(Data Warehouse Middle):该层是在DWD层的数据基础上,对数据做一些轻微的聚合操作,生成一些列的中间结果表,提升公共指标的复用性,减少重复加工的工作。简答来说,对通用的核心维度进行聚合操作,算出相应的统计指标。

数据服务层DWS(Data Warehouse Service):该层是基于DWM层上的基础数据,整合汇总成分析某一个主题域的数据服务层,用于提供后续的业务查询,OLAP分析,数据分发等。一般来说,该层的数据表会相对较少;一张表会涵盖比较多的业务内容,由于其字段较多,因此一般也会称该层的表为宽表。

实施数据治理,数据维护,高效的数据分析

以上是理论部分,那企业在实际操作过程中,该如何建立数据底座呢?

笔者建议前期仅针对结构化数据建立数仓(ETL工具和关系型数据库),由专门的DBA进行维护和管理,用FineDataLink工具做为数仓(数据湖)的数据接收方,通过本地数据库直接读取方式和API接口的推和拉两种方式来进行跟企业内部多个系统的数据打通。

一般标准的数仓会建立ODS层、DWD层、DWM层和DWS层。但是,在实际的多场景中会发现存在“维护成本和沟通成本非常高,并且指标的变化也非常大,以及现有工具并不能很好的进行展示和定位”的问题。所以,笔者建议弱化DW层的权重,而是把DW层的工作放在了FineBI中进行,数仓更多的职能变成了关注解决多数据源的差异性和字段标准上去,更多的是数据通用规则放在数仓中去实现。

第二步,要建立主数据。

什么是主数据?

主数据(Master Data)指的是企业中多个系统中都存在的,现实世界中存在的数据。通常用于建立与事务数据的关联关系来进行多维度的分析使用。其特性是跨多个领域和表的共同数据,要求同源多用和重点进行数据内容的校验。

企业在具体实操时该如何建立主数据呢?

笔者建议首先要根据企业现有的系统,找到多个系统之间的共同使用的基础数据(部门基础数据、人员基础数据、供应商基础数据等)。一般这些基础数据都是由不同的部门来进行维护的。

然后找到主要维护这些基础数据的系统,把这个系统作为主数据的维护系统来看待,再通过上面提到的ETL工具进行抽调进入到数仓中进行规整和一定的加工。

另外补充一嘴,在实际的项目中,主数据表是会有时间维度的影响因子存在,所以,再建立主数据时,需要按照月份进行增量追加模式。

第三步,要建立参考数据:其特性一般是规则灵活可变。

什么是参考数据?

参考数据(Reference Data):参考数据是对业务数据的企业定义的分类或者是规则,是实现业务规则的核心数据。特点是会随着企业的变化而随时进行调整。

企业在具体实操时该如何建立参考数据呢?

首先要对外进行公布规则,保证规则的一致性和分析准确性。然后通过FineReport的填报报表或者是简道云(低代码)做成填报的报表进行规则数据收集。然后因为这部分规则数据是多变和复杂性的,以及可能会有时间这个影响因子,所以要跟业务线更近的经营管理部去维护这部分工作。

第四步,也是最核心的一步,就是对元数据进行管理。

什么是元数据?

元数据(Metadata):通俗地说就是描述数据的数据,比如数据的名称、属性、分类、字段信息、大小、标签等等。根据内容的不同,元数据又分为业务元数据和技术元数据。业务元数据包括定义主题域、最小颗粒度、字段含义、来源说明,技术元数据包括定义数据库、数据表名、数据字段。因此,元数据对于做好数据管理起到了举足轻重的作用。

元数据需要满足两个特性:

统一性:在数据抽取阶段,根据规则数据进行对事务数据的打标,最后成为元数据进入数仓中,如果有非结构化数据可以使用湖来进行统一的管理。

高效性:通过API接口的方式和FDL工具把多个系统的底层数据抽取过来,保证数据T+1的速度呈现到系统报表中,根据数据不同可以不同的时间频率。

企业在具体实操时该如何对元数据进行管理呢?

企业需要建立注册和管理机制,早期可以通过excel方式进行记录,分成两个sheet,按照业务元数据和技术元数据管理即可。后续笔者建议企业可以优先开发报表,然后根据sql数据集进行文档的更新和后续版本的优化,不要为了管理而管理。

最后,还需要整合成报告数据。

什么是报告数据?

报告数据是通过领域模型,进行建立和梳理指标库,来支持不同部门的视角需求,提高数据安全性和数据规范,以及统一数据规格和数据说明。用一句话概括,报告数据就是给非IT人员使用的数据集。

下面给大家举例几个报告数据的例子:

领域 指标库 指标
底层数据 通用指标项 单价、库存量等
人力经营 业务人力指标项 月人均产能、月人均利润、人力费比、人均成本、人均收入等
财务经营 财务指标项 费用、收入、经营结果等
财务核算 核算指标项 主营收入、净利润、库存周转、应收天数等
集采管理 供应链指标项 库存周转率、库存余量等
预警报表 预警指标项 库存周转率、采购金额超标等

企业可以根据参考,梳理对应模块的指标体系,建立自身企业的报告数据。

五、结语

总而言之,数据治理的核心就是“多打粮食,多生产”。在具体实施过程中,企业需要找到核心报表,以此为基础,从0到1开始数据治理的冷启动,以确保企业上至高层、下至业务都能感受到变化和作用。

此外,数据治理虽好,但有两点企业需要注意,一是不要急于进行大规模的数据治理改革,而是要通过潜移默化的方式逐步推进。二是不要采取一刀切的方式进行改革,而需要因地适宜,根据不同情况和问题选择适当的解决方案,率先解决主要矛盾点。

帆软软件深耕数字行业,能够基于强大的底层数据仓库与数据集成技术,为企业梳理指标体系,建立全面、便捷、直观的经营、财务、绩效、风险和监管一体化的报表系统数据分析平台,并为各业务部门人员及领导提供PC端、移动端等可视化大屏查看方式,有效提高工作效率与需求响应速度。

若您对本文讲解的数据治理的相关内容感兴趣,可以点击下方图片👇,直接获得帆软为您量身打造的解决方案咨询、免费产品与Demo试用和同行业标杆案例参考。

产品体验

相关内容

目录
立即咨询 立即咨询

商务咨询

在线咨询
专业顾问帮您解答问题

电话咨询

技术问题

投诉入口

微信咨询

返回顶部