数据仓库(一文教你如何搭建数据仓库)

Posted

篇首语:学向勤中得,萤窗万卷书。本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据仓库(一文教你如何搭建数据仓库)相关的知识,希望对你有一定的参考价值。

数据仓库(一文教你如何搭建数据仓库)



数仓全景图镇楼


建设过程

数仓建模的过程分为业务建模、领域建模、逻辑建模和物理建模,但是这 些步骤比较抽象。为了便于落地,我根据自己的经验,总结出上面的七个步骤:梳理业务流程、垂直切分、指标体系梳理、实体关系调研、维度梳理、数仓分层以及物理模型建立。每个步骤不说理论,直接放工具、模板和案例。


业务流程


找到公司核心业务流程,找到谁,在什么环节,做什么关键动作,得到什么结果。


梳理每个业务节点的客户及关注重点,找到数据在哪。


分域/主题


决定数仓的建设方式,快速交活,就用自下而上的建设。要全面支撑,就顶层规划,分步实施,交活稍微慢点。


同时按照业务领域划分主题域。主题域的划分方法有:按业务流划分(推荐)、按需求分、按职责分、按产品功能分等。


指标体系


指标的意义在于统一语言,统一口径。所以指标的定义必须有严格的标准。否则如无根之水。


指标可分为原子指标、派生指标和衍生指标,其含义及命名规则举例如下:


依照指标体系建设标准,开始梳理指标体系。整个体系同样要以业务为核心进行梳理。同时梳理每个业务过程所需的维度。维度就是你观察这个业务的角度,指标就是衡量这个业务结果 好坏的量化结果。

请注意,此时不能被现有数据局限。如果分析出这个业务过程应该有这个指标,但是没有数据,请标注出来,提出收集数据的需求。


实体关系

每个业务动作都会有数据产生。我们将能够获取到的数据,提取实体,绘制ER图,便于之后的维度建模。


同样以业务过程为起点向下梳理,此时的核心是业务表。把每张表中涉及的维度、指标都整理出来。


维度整理


维度标准化是将各个业务系统中相同的维度进行统一的过程。其字段名称、代码、名字都可能不一样,我们需要完全掌握,并标准化。

维度的标准尽可能参照国家标准、行业标准。例如地区可以参照国家行政区域代码。

另外,有些维度存在层级,如区域的省、市、县。绝大多数业务系统中的级联就是多层级维度。


数仓分层


数据仓库一般分为4层,名字可能会不一样,但是其目的和建设方法基本一致:

每一层采用的建模方法都不一样,其核心是逐层解耦。越到底层,越接近业务发生的记录,越到上层,越接近业务目标。


依托数仓分层的设计理论,根据实际业务场景,我们就可以梳理出整体的数据流向图。这张图会很清晰的告诉所有人,数据从那来,到哪里去,最终提供什么样的服务。


模型建立


此时才真正进入纯代码阶段。数仓、ETL工具选型;ETL流程开发;cube的建立;任务调度,设定更新方式、更新频率;每日查看日志、监控etl执行情况等等。

前面梳理清楚了,ETL会变的非常清晰

结语

1、数仓建设必须从业务中来,到业务中去;

2、数仓分层的目的是业务解耦;

3、无论哪种建模方式,其核心是业务实体;

4、按领域建设能快速交活,后遗症将会在2年之后爆发,且难以解决;

5、数仓建设应该把75%的时间投入到设计阶段,如果不是,那你就惨了;

6、数仓本身也可以迭代。

7、传统数仓并没有一种叫做“宽表模型”的模型,大数据时代新诞生的名词,因为很多大数据组件join代价极高。实际上是范式退化。

相关参考

有什么区别(一文读懂数据仓库、数据平台、数据中台、数据湖的概念和区别)

在数据仓库、数据平台、数据中台、数据湖的相关概念中,都与数据有关系,但它们之间又有什么区别呢?本文围绕它们的概念、架构、使用场景进行了介绍,一起来看一下吧。我们经常听到别人谈论数据仓库、数据平台、数据...

机械硬盘型号(数据“仓库”怎么选 看看机械硬盘容量价格比)

SSD已经成为了大家电脑数据存储设备的主流,但对很多用户来说,海量的数据全都用SSD装载还不太现实,所以机械硬盘作为数据仓库,在电脑中仍有一定的地位。既然主要工作不再是追求速度的读写,而是强调容量,那么容量价...

机械硬盘指的是什么(数据“仓库”怎么选 看看机械硬盘容量价格比)

SSD已经成为了大家电脑数据存储设备的主流,但对很多用户来说,海量的数据全都用SSD装载还不太现实,所以机械硬盘作为数据仓库,在电脑中仍有一定的地位。既然主要工作不再是追求速度的读写,而是强调容量,那么容量价...

条码盘点机(仓库盘点扫码windows10系统盘点机手持数据采集器_研维)

仓库盘点扫码windows10系统盘点机手持数据采集器_研维视频加载中...工业手持终端机PDA工业手持终端机PDA全新升级条码扫描工业手持终端机PDA盘点机。今天小编给大家介绍工业手持终端机,日常我们所见到的PDA,又被大家称为掌上...

支持4个硬盘(64T的数据仓库,安全又保障,麦沃四盘位手提阵列盒安排上了)

硬盘的发展从机械、固态到M2,速度上越来越快,也做的越来越小。但毛病也确实是不少,对于不常用的人群来说可能毫无感觉。而对于我这类有重要文件存储和大容量需求的,还是比较习惯机械硬盘的稳定性,价格便宜而且寿...

库存软件(库存管理小程序,让仓库管理更高效率)

良好的仓库管理,顺畅的数据传输,及时的库存控制,高效快速地进入仓库,不仅能开发新客户,还能维护老客户;不知道库存数据,电话里反复问,挑货慢,失误多,花时间结账。开拓新客户困难,老客户的体验更差。可见,...

条形码系统(wms仓库管理系统中条形码管理的两大优势)

...wms仓库管理系统中条形码管理的两大主要优势:1、提高数据输入速度1)条形码采集器可以在现场快速读取数据(物料编号或之前有关的组合等),并存储在机

拉链头8vs是什么拉链(万字详解ETL和数仓建模)

什么是ETLETL是数据抽取(Extract)、转换(Transform)、加载(Load)的简写,它是将OLTP系统中的数据经过抽取,并将不同数据源的数据进行转换、整合,得出一致性的数据,然后加载到数据仓库中。简而言之ETL是完成从OLTP系统到OL...

物流管理手持机怎么用(手持PDA在仓库管理中至关重要)

...工操作和手工录入,不但速度慢,而且还容易出错,所以数据不但不及时,还不准确。如何有效的降低库存,提高库存的管理是很多企业需要解决的一个大问题,而手持PDA和企业ERP系统数据衔接,移动操作,改善仓储物流管理,...

物流管理手持机怎么用(手持PDA在仓库管理中至关重要)

...工操作和手工录入,不但速度慢,而且还容易出错,所以数据不但不及时,还不准确。如何有效的降低库存,提高库存的管理是很多企业需要解决的一个大问题,而手持PDA和企业ERP系统数据衔接,移动操作,改善仓储物流管理,...