数据仓库的本质你知道是什么吗,给你举个例子

文 | 商业智能BI相关文章 阅读次数:1,353 次浏览
2022-07-28 23:55:11

今天我们来聊聊数据仓库的本质:

其实很多企业做数据仓库的时候,都忽略了数仓与BI、数据库的差异,只去搞底层数据,不去做数据服务和应用,其实就是把数据仓库给狭义化了。

其实数据仓库可以看成是BI的基础版本、数据库的升级版本,我们可以把公司里的数据都想象成一个个文件夹,数据库就是这一个个文件柜,这个文件柜存放着非常多的数据,无论这个数据是什么、或者是如何组织的。

而当我们的文件非常多、种类非常复杂的时候,我们的就想要寻找某个文件夹的时候,如果每个文件柜每个文件柜的去找,实际上是非常耗费成本的,因此我们不妨建立一个档案室,对不同的文件柜进行编号、归类、分组,方便我们快速定位数据源,这个档案室就是数据仓库。

所以这时候我们需要更为庞大的数据仓库,帮助我们去对多个数据源的数据库数据进行抓取,而抓取数据源的过程就可以理解为ETL的工作,这样去理解一个企业的数据架构就会简单很多。

因此数据仓库的本质,其实就是整合多个数据源的历史数据进行细粒度的、多维的分析,帮助高层管理者或者业务分析人员做出商业战略决策或商业报表。

这里面就涉及到了数据仓库的架构,简单来说数据仓库的架构分为四个层次:

  • ODS层:存放原始数据,直接加载原始日志、数据,数据保存原貌不做处理。
  • DWD层:结构与粒度原始表保持一致,对ODS层数据进行清洗
  • DWS层:以DWD为基础,进行轻度汇总
  • ADS层:为各种统计报表提供数据

这里要注意数据仓库的架构当中,各个系统的元数据通过ETL同步到操作性数据仓库ODS中,对ODS数据进行面向主题域建模形成DW(数据仓库),DM是针对某一个业务领域建立模型,具体用户(决策层)查看DM生成的报表。

也就是说,我们所看到的数据不是直接从数据底层抽取的,相当于我们访问数据仓库的时候,是让图书管理员帮你找一个文件柜,那么怎么更高效低去找,就是数据仓库建设中很重要的一部分工作——数据建模,包括数据的存储模型、逻辑模型、概念模型等等。

数据仓库,数据仓库的架构,数据模型

这里举个例子:

以最常见的制造业为例,底下不同分厂的信息系统厂商各不相同,这就导致数据仓库中可能有来自前端系统(供应商、招标系统等)、MES系统(不同分厂的MES)、业务系统(不同分厂的CRM、OA、SAP系统等)的数据,因此导致系统中数据结构、数据标准、流程流转方式都存在差异。

再具体点说,例如在统计良率、OEE的时候,各厂按各自的方法进行统计然后汇报给领导,但由于各厂的数据过于分散,没有统一的计算标准,所以对良率的计算逻辑也不同,导致指标口径不一致,无法统一管理指标数据,这个数据也就失去了参考价值,到头来白忙活一场。

而这种时候,我们通常的解决方法是:实现数据中心化,逻辑统一化

从众多跨地域的业务系统通过实时同步增量方式,将分散在各处的数据,汇聚到统一的数据中心,从业务数据库中原表原样取出数据,形成数据仓库的ODS层,为后续加工提供原始材料

数仓搭建过程中的数据编排能力:多样化算子和多种任务调度方式,提供多样化异构数据处理能力;在标准化的要求下,通过各系统原始的指标定义,形成统一的数据处理逻辑,在低代码实时数据调度平台FineDataLink进行内部数据转换,完成对异构数据的梳理,进行ODS>DW>DM层的数据逐层编排,最后形成统一逻辑的数据输出,以供企业进行统一管理。

  • ODS层:数据存储:本层数据,一般会按照来源业务系统的分类方式而进行分类,在ODS数据存储层中,我们不会对数据模型进行修改,会维持原有的数据模型不变。
  • DW: 是数据仓库的主体。DW层将ODS层中获得的数据按照主题建立各种数据模型。
  • DM层:数据集市或宽表。DM层为面向最终应用的主题层,一般依据前端报表/业务包需求进行设计,所以DM层表不需要考虑复用,每一张DM表仅为一张报表所服务

总而言之,在数字化时代下,大数据治理对企业数据建设的重要性不言而喻,然而实现的困难有时也让人望而却步,因此选择合适的技术和工具会达到事半功倍的效果。帆软FineDataLink——中国领先的低代码/高时效数据集成产品,能过为企业提供一站式的数据服务,通过快速连接、高时效融合多种数据,提供低代码Data API敏捷发布平台,帮助企业解决数据孤岛难题,有效提升企业数据价值。

FineDataLink更多介绍: https://www.finedatalink.com/

产品体验

相关内容

目录
立即体验 立即体验

商务咨询

在线咨询
专业顾问帮您解答问题

电话咨询

技术问题

投诉入口

微信咨询

返回顶部