仅只有未实名的,新媒易不收取任何费用,公益非盈利机构
24小时服务热线: 4000-162-306
请扫码咨询

新媒易动态

NEWS CENTER

库房的构成:库房、传送设施、收支库房的管道和设备、消防设施、办理用房

2023-08-15

我们把库房的描述进行拆分,经过比照数据库房,来体会一下数据库房是什么?

1)库房的构成:库房、传送设施、收支库房的管道和设备、消防设施、办理用房

这里描述了货品的存储,收支,办理环节的基础设施。

那数据的存储,收支,办理环节同样也需求基础设施去支撑,数据存储在数据库或者文件体系里,数据经过ETL东西在数据库房里流转,经过API对外提供数据,以及任务调度东西、节点办理东西去办理等。

2)按库房存储的物品形状分为:固体、液体、气体、粉状物品

固体有固体的存储空间和方法,液体有液体的存储空间和方法,同样的气体、粉状物品都会有相应的存储方法。

数据也是相同,结构化数据能够存储在结构化的数据库,比方mysql,oracle等;文件等非结构化数据,也有相应的数据库去存储,比方HDFS,Hbase等。

3)按存储物品性质分为:原材料、半本钱、制品

从加工的流程来看,物品在不同加工阶段,有不同的展现方法,数据也是相同,在原材料阶段,称为原始数据;对原始数据进行清洗,加工后,成为明细数据;对明细数据进行聚合,加工后,成为汇总数据;最后产出可直接使用的数据,成为使用数据。

4)按建筑形状分为:单层库房、多层库房、圆筒形库房

关于存储不同形状的的物品,存储量不同,库房也会有不同的建筑形状。数据库房也是相同,依据使用场景,能够分为离线数仓,实时数仓,按照数据分层,能够分为贴源层,明细层,汇总层,使用层。

库房有了,货品有了,还要考虑什么?

在现实生活中,每天都要存货,找货,出货。怎么合理的存储货品,快速的查找货品,及时的把货品运出去才是库房办理员最关怀的。

数据也是如此,为了合理的存储数据,快速的使用数据,横向可对数据进行主题的区分,纵向可对数据进行层级区分(这里就不打开介绍了)。

经过以上比照介绍,大致就能理解数据库房具体是干什么的了。

二、为什么需求数据库房?

首要,数据库房的典型用户是数据剖析人员,使用场景是决议计划场景,那么企业为什么需求数据库房,我们需求知道没有数据库房前,数据剖析是什么样的,就能知道为什么需求数据库房?

这里需求先补充一下事务体系的范式模型是什么?

即指遵从3范式规矩设计的表模型。

第①范式:列都是原子性的,即数据库表的每一列都是不可分割的原子数据项(为了消除冗余和便利查询,对数据拆分处理,首要是针对时刻、区域等特点)。

第②范式:在1范式基础上,实体的特点需求彻底依靠于主键全部,不能存在仅依靠主键一部分的特点(指不能只依靠联合主键的其间一个特点,只有一个主键可不考虑第2范式)。

第③范式:需求确保数据表中的每一列数据都和主键直接相关,而不能间接相关(消除冗余,降低实体特点和事务数据之间的影响)。

范式模型就像是异地恋,双方不在一同,只能经过电话联络,沟通效率不高,可是你也能够知道对方每天做了什么,吃了什么。可是范式模型是会相关多个哈,是个海王。

在事务体系中,范式模型强调削减数据冗余、单纯依靠相关联系,首要使用于在线事务体系。因为事务数据库是实时记录事务操作的,仅经过ID相关,在事务体系的各种实体特点修正时,不会牵扯到历史数据的回溯;以及事务数据修正时候,不会影响各种实体特点。

假设此刻企业没有建设数据库房。这时候来了一个剖析需求,要求计算企业每个工程项目的物料使用情况和人力本钱情况。

那么可能会遇到以下几个情况:

  • 取数难:因为人资、物资、项目是三个子体系,你就得想办法去多个事务体系去搞出产数据,能不能拿到,需不需求审批,数据安全都是要考虑的问题。
  • 剖析难:每个体系的开发规矩,标准程度、计算口径都不一致。你还要去做数据联系映射,了解原事务体系的数据逻辑,废了老大劲。
  • 剖析慢:因为事务体系是遵从范式建模的,发现相关了一堆表才干完结剖析需求,剖析时刻长不说,还可能会影响事务数据库的稳定。
  • 本钱高:显而易见,在没有数据统一处理的情况下,这种剖析需求费时费力,如果有更多更杂乱的剖析需求,该怎么办呢。

此刻我们需求一个能够将各个事务体系数据集成起来,面向事务数据剖析的,统一规划数据加工的标准,甚至是独立的,不会影响事务体系的数据模型组织方法。

数据库房便是这样一种数据的组织方法,此处引出维度建模理论,那么维度模型是什么?

维度建模从剖析决议计划的需求出发构建模型,为剖析需求服务,因此它要点重视用户怎么更快速地完结需求剖析,一起具有较好的大规模杂乱查询的响应性能。其典型的代表是星形模型。(来源大数据之路)

维度模型强调面向事务剖析决议计划需求,进步数据查询的效率,能够削减相关,进行维度冗余。因为维度模型的数据具有稳定性,进入数仓的数据,不会产生修正,且数据都有历史记录,所以不需求考虑事实和维度之间的改变会相互影响。

可是数据冗余在进步查询效率的一起,也会添加存储本钱。

维度模型就像是本地恋,恨不得天天腻在一同,去玩,去吃饭,相互之间了解的更多了,感情变好了,可是日常花销也变高了。

相关推荐