数据平台构建方法论及最佳实践!

文 | 商业智能BI相关文章 阅读次数:855 次浏览
2023-04-24 12:02:11

企业需要建立一个支撑数据存储、开发、服务、应用的平台,以实现数据基础的标准统一、数据信息的透明共享以及场景和应用的灵活构建。建设企业级的数据管理平台需要完善企业的数据资产管理体系、数据服务管理体系、数据开发管理体系及数据集成管理体系。通过构建从采集获取、加工清洗到应用服务等完整的流程,打造完整的数据全生命周期管理中台,加速数据的价值化。

数据资产管理

数据资产管理是通过对数据的规划、开发、执行、监督等,采用相关的流程及方法论,发挥数据资产的价值并加以控制和保护。根据中国信通院的报告,数据资产管理的内容主要包括 8 个管理职能和 5 个保障措施。其中典型的场景是资产查询和资产盘点。

应用数据平台,数据资产管理,数据开发,数据服务管理

数据资产管理体系架构 ( 内容来源:中国信通院 )

不同层级的用户可对数据资产进行不同运用:领导层可对数据资产进行全局掌握和规划,指导企业对数据的运用以及掌握数据治理的成果;开发部门针对数据进行统一开发和运用,为主数据和元数据构建统一的规范和标准,帮助企业更好的理解和运用数据;而业务部门做好数据的消费者,利用好数据改善业务,并对当前的数据资产提出更多诉求。

数据采集与开发管理

形成数据资产的前提是对全链路的数据进行采集、开发、调度、运维监控等,因此应用数据平台需要提供数据采集与开发管理功能。

应用数据平台,数据资产管理,数据开发,数据服务管理

数据采集

目的是为了将多源异构的数据统一汇入至数据存储平台中,进行统一的管理。

数据采集包括对结构化数据、非结构化数据、日志数据、埋点数据的采集等,通过数据同步系统统一采集到 HDFS 等企业级数据湖中。业务数据库同步一般采用 Sqoop,日志同步可以采用 Flume,埋点数据可以转换格式后利用 kafka 消息队列进行传输。

企业可以通过线上和线下两种方式进行数据采集。线上采集包括利用网络爬虫技术的开放数据(网页数据、聊天数据等),利用 API 接口采集的各系统平台数据,通过 IOT 技术采集的设备数据及利用埋点技术采集的网页、APP 数据等。线下采集主要包括手工填报、问卷调研等。

数据开发

数据存储管理数据开发工作内容涉及到数据传输、数据同步、ETL、实时开发、离线开发等,核心在于构建规范的数据开发流程和建模标准。在数仓建设内容中已进行过讲解,这里不作赘述。

数据服务管理

数据服务是数据资产和数据用户之间的桥梁,桥梁常以 API 的形式存在,核心在于给业务统一提供直接价值的数据支持,例如给 BI 提供数据进行分析、查询明细等,另外数据服务也需要针对数据接口 API 进行管理维护。

常见的数据服务有五种类型:API、事件中心、数据库、文件、终端及 APP。其中最常见的应用是API,最简单的数据服务就是直接调用数据接口可以返回相应数据,复杂一些的接口可以支持传参,甚至传入的参数可以参与接口内的逻辑运算。

数据服务管理工作的重点有以下几点:

1、 明确接口的使用场景,提高接口质量,建立接口文档

2、减少接口数量,进行合并统一

3、对接口进行标准化,可配置快速生成 API

4、 对接口的性能可以实现监控,包括接口的流量、可用性等

通过数据服务管理平台,对数据服务的申请、配置、发布及后续的调用进行统一管理,且可以进行对数据服务的安全加密,以保证数据安全性。

数据存储管理

整个数据存储的发展阶段是围绕着人工记录、文件系统、数据库存储及分布式文件系统展开的。企业的数据量在 1TB 以内时,往往采用关系型数据库就可以满足数据存储需求,但当数据量级飞跃式增长后,关系型数据库已经无法满足数据存储的性能要求,企业开始采取分布式存储代替集中式存储。

流行的关系型数据库有 Oracle、MSSQL、MariaDB、PostgreSQL 等,关系型数据库最擅长处理表之间需要复杂联合查询的事务数据。常见的 NoSQL 数据库(非关系型数据库)有 MangoDB、DynamoDB、Apache Hbase 等,可以用来解决关系型数据库经常遇到的伸缩和性能挑战,具有高可用性及韧性。当有非结构化存储和大数据量存储的需求时,会考虑采用 Hadoop 分布式系统架构或者采用数据湖。

Hadoop 分布式系统架构是目前较为常见的大数据存储架构,Hadoop 上有 HDFS(分布式文件系统)组件可以实现大数据量存储,由于 HDFS 有高容错性的特点,可以用来部署在低廉的硬件上;Hadoop 还可以利用HBase(分布式存储系统)实现对非结构化数据的存储需求。依托于MPP(大规模并行处理)架构,HBase 可以快速地对各类数据进行查询,是大规模分布式 OLTP 常用的存储方式。企业要选择适合自己的数据存储技术和方式,以达到成本和效率的最优。

数据平台应用推广

关于如何应用数据平台以最大化其价值,企业可以从以下三个方面着手设计方案。

应用数据平台,数据资产管理,数据开发,数据服务管理

帆软 FineReport 工具开发的供应链控制平台

(1) 实现业务系统集成与打通,构建多业务线的链条化、联动性、闭环式管理。

比如,应用数据平台,可以对生产计划、采购计划、交货计划、库存计划进行整体编排与协同管理,并且通过回归分析和模型预测,及时对其中任何可能发生意外的点进行预警与调整,增强对内部供应链的整体控制能力。

(2) 增强团队协作流畅性,促进业务管理敏捷响应。

企业可以充分利用员工所长,搭建 IT 人员与业务人员共同参与的数据应用配合架构。由 IT 人员准备直观可用的“业务数据包”,这在一定程度上能够确保数据的质量;业务人员可以直接在平台上获取这些数据包,并根据业务问题进行数据分析和根因探索,形成有效结论并且共享给相关人员,帮助管理者进行业务行动策略调整。例如,若质量部门发现某款车型的质量问题集中在某零部件的某故障类型下,便可以在平台上迅速将此信息共享给对应的研发部门,由研发部门去下载这些车型的车联网数据,对车的运行情况做进一步分析,从而定位问题并改进优化。

应用数据平台,数据资产管理,数据开发,数据服务管理

利用 FineBI 构建的质量问题分析报告

(3)以业务人员自主探索丰富平台内容,推动数据品质共享。

例如,当业务人员进行数据分析时,发现当前分析思路具备复用性,可将相关分析内容封装成应用组件,共享在平台上的应用组件商城,供其他同事参考和使用。通过这种方式,实现以数据为载体的工作逻辑与思维的共享,不仅推动了业务分析工作效率的提高,还加深了不同部门对彼此业务的理解,进一步促进组织协同。

应用数据平台,数据资产管理,数据开发,数据服务管理

帆软打造的企业级数据应用共享平台

本文节选自《制造业数据化建设白皮书》,该书由帆软数据研究院携手数字制造事业部打造,旨在帮助制造型企业更高效、更科学地打造企业数字建设的航船,以更快地驶向未来工业!

比如,目前主流的软件——finereport,它小到填报、查询、部署、集成,大到可视化大屏、dashboard驾驶舱,应有尽有,功能很强大。最重要的是,因为这个工具,整个公司的数据架构都可以变得规范,下一步就是构建企业的大数据平台了。而且它是java编写的,支持二次开发,类Excel的设计器,无论是IT还是业务,上手都很简单:编辑sql优化、数据集复用简直都是小case,大大降低了报表开发的门槛。在企业中被关注最多的数据安全方面,FineReport支持多人同时开发同一套报表,并通过模板加锁功能防止编辑冲突;通过数据分析权限控制,保障数据安全。

应用数据平台,数据资产管理,数据开发,数据服务管理

报表产品更多介绍: www.finereport.com

相关内容

立即体验 立即体验

在线客服

电话咨询

技术问题

投诉入口

返回顶部