技术交流

数据库、数据仓库、数据湖、数据集市、数据中台这些概念,我终于整明白了
北大青鸟市场部

摘要:数据库、数据仓库、数据湖、数据集市、数据中台这些概念,我终于整明白了

随着互联网的快速发展,越来越多的人涌进互联网,通过浏览器、智能终端、各种设备,产生了海量的数据,同时也产生了很多数据的概念,如数据库、数据仓库、数据湖、数据集市、数据中台等,这些概念相互交错,互相关联。对于它们分别是什么,又怎么使用,彼此之间的关系又怎么样?今天一篇文章就能给你整明白。


数据库,本质上是一个二维关系存储系统,存储结构化数据,比如某学校的学生信息表、某年级的学生成绩表等。它因为使用简单,结构化程度高,极大的促进了互联网的发展。它包含操作性数据库分析型数据库两类。


  • 所谓操作型数据库,主要是针对一个“事务”型操作而言,用于支持日常业务,比如购买商品、点外卖、打滴滴等。

  • 所谓分析型数据库,主要是对历史数据进行分析,比如分析某商品的销售量、某店的订单量、某师傅的车订单量等。


由于操作型数据库写多查少、数据动态变化、存储时间要求不高等特点,它注定与分析型数据库不会是同一个数据库,分析型数据库写少查多、数据基本稳定、存储时间长。随着我们对分析数据的要求变高,我们希望看到更多维度的分析,传统的分析型数据库的支持就变得很难了,比如我们想看淘宝某店家的披萨在什么情况下最好销售,这时候需要披萨信息表、订单销售表、消费者信息表、中国天气表等多个表联同起来,才能分析出在什么天气、什么地理位置、什么口味、什么价格的时候最好售卖,因此数据仓库应运而生。


数据仓库,本质上是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,是比数据库范围更大的库。所谓面向主题,它指的是数据仓库内的信息按照某个主题进行聚合,比如地区、成本、商品、收入、利润等等;所谓集成的,它指的是可以把不同数据库中的数据都汇聚在一起;所谓相对稳定的,它指的是数据仓库的数据不会像操作型数据库那样经常变化;所谓反映历史变化,它指的是数据仓库内的信息不只是反映企业当前情况,还可以记录分析从过去某一个时间点到现在的变化。


在数据仓库的发展及探索过程中,还出现了数据集市商业智能BI的概念。所谓数据集市,它是一个小型的数据仓库,只关注某一个主题,比如只关注成本,那么它就会只收录成本相关的数据,数据来源可以是自己的源数据库,也可以从数据仓库中获取某一主题的数据;所谓商业智能,则是运营分析数据的进阶,通过数据仓库获取到了分析型数据后,BI人员会结合业务现况、市场现况、分析数据对当下的业务做一个判断,提供老板决策。


数据湖,它是一个比数据仓库更大、对于数据也没有任何限制的大型仓库,里面的数据像湖水一样可以自然流动,数据可以供存储、处理、分析。在数据湖中,存储的数据没有经过任何的处理,是直接从源系统导入的数据,它包含结构化数据、非结构化数据、半结构化数据,范围非常广,也是数据仓库的数据来源。此外,它还用于机器学习、预测分析、信息追踪等场景,提供海量的数据供科学家们进行模型训练、在某个领域做推荐引擎。数据仓库和数据湖的区别可见下表所示。



数据中台,本质上是服务于业务的数据分析系统,它从一出生开始就是为业务而生。数据仓库提供的是统计分析、单领域维度、被动分析、非实时分析,必然不能满足企业的多维度分析、主动分析、预测分析、实时分析、多元化分析等场景,因此数据中台应运而生。整个数据中台产品就是一个闭环的解决方案,不再是业务过程中的一环,它包含数据埋点数据接入标准化数据仓库抽象化数据治理数据服务五大模块,打通了人、物、场多个维度,更好的为前台去服务。此外在数据中台的建设中,企业组织文化也非常重要,它需要联动各个业务线去接入这套系统,标准化治理与管理,但在数据仓库的建设过程是不需要关注这一层次的。因此数据中台是数据仓库的又一次质的飞跃。


数据库、数据湖、数据仓库、数据集市、数据中台都是我们在不同阶段结合不同需求对数据的处理解决方案,并不是说哪一个方案就过时了,每一个方案到现在都有它存在使用的场景,我们结合自己的诉求进行对应的建设即可~



相关阅读
为什么大家纷纷都采用分布式架构呢?
程序员必备技能有什么吗?SpringBoot需要学习吗?
热门推荐