数据湖和数据仓库有什么区别,怎么实现?

文 | 商业智能BI相关文章 阅读次数:719 次浏览
2022-07-25 15:19:23

数据湖和数据仓库有什么区别吗,以及想要建数据湖应该怎么做呢?

数据湖作为一个集中的存储库,可以在其中存储任意规模的所有结构化和非结构化数据。在数据湖中,可以存储数据,不需要对其进行结构化,就可以运行不同类型的分析。

那他和数据仓库有什么区别吗?形象的说,如果说数据仓库里是瓶装的水——是打包好的、方便取用的;数据湖里面就是原生态的水——它是未经处理的。数据湖中的水从源头流入湖中,各种用户都可以来湖里获取、蒸馏提纯这些水,也就是数据。

数据湖,数据仓库,批流一体的数据处理

数据湖技术门槛较高,标准化水平却不高。总结下来有六大技术特点,包括(1)批流一体的数据处理(2)支持数据更新(3)支持事务(ACID)(4)可扩展的元数据(5)支持多种存储引擎(6)支持多种计算引擎等等。

可以补充下内容:

(1)批流一体的数据处理

批流一体的数据处理,可以解决离线数据处理更新问题和实时数据更新,满足多种场景的下的ETL数据处理场景,就比如FineDataLink数据集成平台,集流批数据处理于一体,从而提高数据获取的速度和质量。

(2)高效的并发更新能力

在数仓/数据湖中,经常需要对数据进行更新,需要支持对大批量离线数据做更新删除。

(3)支持事务(ACID)

数据湖需要兼具OLTP能力(事务能力)和OLAP能力(分析能力),那么其中事务的原子性、一致性、隔离性和持久性,无论是单机环境还是分布式环境,这4大要素都是就是需要兼备的,以保证OLTP能力的正常发挥

(4)统一可扩展的元数据和权限

湖仓一体时,需要元数据和权限统一的情况下也支持可扩展。

(5)提供高性能查询

数据湖能很好地优化数据分布,例如分布式数据库的行列存储、分布键,提供稳定高效的数据查询,从而很好的支撑业务的数据使用查询。

(6)支持多种高效的计算引擎

在数据进行了同步后,进一步还需要进行DW、DM层等的数据处理,例如MapReduce、spark、flink等。

对于大多数企业,如果要为这些技术去找特定应用场景,并不是很好找,不信你找找看,即使找到了,估计用到其中的1-2个技术能力就可以了,而满足1-2个条件的肯定有其他的替代品。

总之,“没有强大的数据处理能力就别用数据湖”,即使要采用数据湖,也要注意实施难度,因为数据湖为了达成那六种技术能力,需要用到一种存储中间件,对下统一对接各种存储,对上统一对接各种技术引擎,这实在是太折腾了。

所以要实现数据湖的话,可以先考虑好真正需要的是什么技术,精准实现,而不是下饺子不管三七二十一。

总而言之,在数字化时代下,大数据治理对企业数据建设的重要性不言而喻,然而实现的困难有时也让人望而却步,因此选择合适的技术和工具会达到事半功倍的效果。帆软FineDataLink——中国领先的低代码/高时效数据集成产品,能过为企业提供一站式的数据服务,通过快速连接、高时效融合多种数据,提供低代码Data API敏捷发布平台,帮助企业解决数据孤岛难题,有效提升企业数据价值。

FineDataLink更多介绍: https://www.finedatalink.com/

产品体验

相关内容

目录
立即体验 立即体验

商务咨询

在线咨询
专业顾问帮您解答问题

电话咨询

技术问题

投诉入口

微信咨询

返回顶部