谈谈关于数据建模的思考(一)

文 | 商业智能BI相关文章 阅读次数:5,074 次浏览
2023-06-13 10:14:03

关于数仓建设,之前分享过《详解数据仓库的实施步骤,实战扫盲系列!》《如何做好一个BI项目的规划和需求定义?》

本到了分享数仓模型阶段,发现有大佬写得更专业,站在企业数据架构的角度,企业数据模型是构建数仓模型的基础,所以接下来几期推送,将分享几篇关于数据建模的思考,欢迎关注!

文 | 王保强

关于数据建模在《DAMA数据管理知识体系指南中文版》中,第四章-数据架构管理,第五章-数据开发管理,第九章-数据仓库和商务智能管理中均有涉及。

数据建模也有多种多样的方法,本文尝试对相关数据建模方法进行解读和全面梳理。

百度中关于数据建模的定义是“数据建模是一种用于定义和分析数据的要求和其需要的相应支持的信息系统的过程。数据建模指的是对现实世界各类数据的抽象组织,确定数据库需管辖的范围、数据的组织形式等直至转化成现实的数据库。将经过系统分析后抽象出来的概念模型转化为物理模型后,在visio或erwin等工具建立数据库实体以及各实体之间关系的过程。”

说起数据建模,不能不提数据架构,数据建模是数据架构的核心,数据架构又是企业架构的一部分。企业数据架构整合整个企业的数据并标准化,是企业架构的一部分,企业数据架构是一套规范链和文档的集合,主要包括企业数据模型:企业数据架构的核心;信息的价值分析:使数据与业务流程及其他企业架构组件相一致;相关数据交付架构:包括数据库架构、数据整合架构、数据仓库/商务智能架构、文档和内容架构,以及元数据架构。

关于企业架构比较著名的是Zachman框架,它旨为信息技术企业提供一种可以理解的信息表述。它可以对企业信息按照要求分类和从不同角度进行表示。也被称为企业架构和企业信息系统结构架构。Zachman框架提炼和吸收了传统方法中的一些精髓,它是一款独立于信息企业所使用的工具的平台。它可以根据抽象规则定义企业信息的一个方面.一个框架采用了一种六行,每行中包含36个子单元的格式,这六行包括了范围,商业模式,系统模式,技术模式,组件和工作系统)其中有六列分别为谁,什么,什么时间,什么地点,为什么和如何做。

数据建模方法,企业概念数据模型,企业逻辑数据模型,数据仓库建模方法,企业数据模型三个层次

数据架构是用于定义数据,指导对数据资产的整合和控制、使数据投资与业务战略相匹配的一套整体构建规范,包括正式的数据命名、全面的数据定义、有效的数据结构、精确的数据完整性规则以及健全的数据文档。

——以上来自《DAMA数据管理知识体系指南中文版》

数据模型是定义业务实体以及运营和指导业务所需的那些事实。数据模型是一种分析和设计方法,用于定义和分析数据需求,设计满足以上需求的逻辑和物理数据结构。企业数据模型是反映数据需求和设计的一系列规范和相关图表,企业数据模型是企业范围内的整合的、面向主题的数据模型,用来定义关键的数据生产者和消费者。这里的整合是组织中所有数据和规则都只被描述一次并无缝地相互配合。这里的面向主题是模型分解为跨多个业务流程和应用系统的有共识的主题域。主题域关注最至关重要的业务实体。这里的关键是数据对组织高效运作和决策制定至关重要。

注意这里的提到的整合和面向主题和数据仓库中有所不同。

在DAMA中关于企业数据模型是分层次的,核心是主题域,其下是概念视图和逻辑视图,并且企业数据模型是自上而下构建的。

主题域模型是一系列主要主题域的列表,共同表达企业最关键领域。企业数据模型通过主题域来组织其余的模型层次;主题域是数据管理制度和数据治理的重要工具,定义了基于主题域的数据管理制度团队的责任范围。

主题(Subject)是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。例如“销售分析”就是一个分析领域,因此这个数据仓库应用的主题就是“销售分析”。

面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整并且一致的描述,能刻画各个分析对象所涉及的企业各项数据,以及数据之间的联系。

数据建模方法,企业概念数据模型,企业逻辑数据模型,数据仓库建模方法,企业数据模型三个层次

(电商主题域)

数据建模方法,企业概念数据模型,企业逻辑数据模型,数据仓库建模方法,企业数据模型三个层次

( 电信运营商主题域)

数据建模方法,企业概念数据模型,企业逻辑数据模型,数据仓库建模方法,企业数据模型三个层次

(电网主题域)

数据建模方法,企业概念数据模型,企业逻辑数据模型,数据仓库建模方法,企业数据模型三个层次 数据建模方法,企业概念数据模型,企业逻辑数据模型,数据仓库建模方法,企业数据模型三个层次 数据建模方法,企业概念数据模型,企业逻辑数据模型,数据仓库建模方法,企业数据模型三个层次

上图均为从网络上收集的主题域,可以看出企业主题的构建是个极其复杂的系统工程,企业主题是分层,比如国网将企业主题分为12个主题域,在其下又包含65个二级主题域。

再则,主题域构建的来源在哪里呢?首先是企业内部需求驱动,但如果在短期内构建呢?企业内部需求显然是来不及的,这时候要考虑引入国际标准和行业标准,当然财务的有财务标准,GIS的有GIS标准,设备的有设备的标准,整合起来还是有很大困难的,但至少也比从头到尾全部构建来的快,另外一个捷径是借鉴其他同类企业的标准了。

企业概念数据模型,企业数据模型的下一个层级是一系列针对每个主题域的概念数据模型图表。是定义业务实体及这些业务实体之间的关系,业务实体是主要组成部分,是企业熟悉并感兴趣的那些事物、人员、地点的概念和类别。业务实体的一个例子是实例。概念数据模型图一般不描述业务实体的数据属性,概念数据模型可能会包括实体之间多对多的业务关系,可以促进人们对业务的理解,以及有利于语义上的一致性,可以作为框架指导开发整合的信息系统,既包括交易处理系统,也包括商务智能分析系统。

数据建模方法,企业概念数据模型,企业逻辑数据模型,数据仓库建模方法,企业数据模型三个层次

(总体概念模型)

数据建模方法,企业概念数据模型,企业逻辑数据模型,数据仓库建模方法,企业数据模型三个层次

(客户概念模型)

企业逻辑数据模型是在概念模型之下,增加了更多细节来反映每个实体的关键数据属性,企业逻辑模型识别每个业务实体实例所需的数据,关键数据属性代表了通用的数据需求以及那些被广泛共享的数据属性的标准定义,关键的数据属性是指如果缺失则导致企业无法正常运作的属性。

企业逻辑模型视图反映企业视角,是中立的且不依赖于任何特定的需求用途和应用背景,企业逻辑数据模型只应该包括所有业务定义的词汇表,和其他相关联业务实体机器数据属性的元数据。

数据建模方法,企业概念数据模型,企业逻辑数据模型,数据仓库建模方法,企业数据模型三个层次

在概念模型基础上,再进行企业级逻辑数据模型的建设,但企业级逻辑数据模型一般都包含几千上万的个业务实体及其复杂的关系,这对于从概念模型到逻辑模型的构建是个巨大的挑战。

数据建模方法,企业概念数据模型,企业逻辑数据模型,数据仓库建模方法,企业数据模型三个层次

下一篇再探讨一下物理模型,范式模型和维度建模以及数仓建模的相关方法。

很显然在目前的信息时代,借助类似于FineDataLink的这些工具,可以让企业加速融入企业数据集成和分析的趋势。备受市场认可的软件其实有很多,选择时必须要结合实际的情况。一般的情况下,都建议选择市面上较主流的产品,比较容易达到好的效果,就是帆软的数据集成平台——FineDataLink。

fdl-免费试用

FineDataLink更多介绍: https://www.finedatalink.com/

相关内容

申请体验 申请体验

返回顶部