小苏子
小苏子PDF在线图书

数据架构 大数据 数据仓库以及Data Vault 内容简介

数据架构 大数据 数据仓库以及Data Vault 内容简介

数据架构 大数据 数据仓库以及Data Vault 目录

数据架构 大数据 数据仓库以及Data Vault 精彩文摘

借助多年的实践经验,采用大量示例和易于理解的框架,W.H. Inmon和Daniel Linstedt准确解释了数据架构的重要意义,研究了如何使用它在已有系统中高效驾驭大数据。探讨了大数据中经常被忽视的价值,研究了非重复型数据,并且阐述了为什么它的使用会带来显著的业务价值展示了如何将文本信息转换成标准工具可以分析的形式解释了如何使大数据适用于已有系统环境介绍了大数据的出现所带来的新机遇澄清了大数据中重复型数据和非重复型数据的不明确之处本书是数据仓库之父Inmon的新作,探讨数据的架构和如何在现有系统中有效地利用数据。本书的主题涵盖企业数据、大数据、数据仓库、Data Vault、业务系统和架构。主要内容包括:在分析和大数据之间建立关联,如何利用现有信息系统,如何导出重复型数据和非重复型数据,大数据以及使用大数据的商业价值,等等。第1章 企业数据1.1 企业数据1.1.1 企业的全体数据1.1.2 非结构化数据的划分1.1.3 业务相关性1.1.4 大数据1.1.5 分界线1.1.6 大陆分水岭1.1.7 企业数据全貌1.2 数据基础设施1.2.1 重复型数据的两种类型1.2.2 重复型结构化数据1.2.3 重复型大数据1.2.4 两种基础设施1.2.5 优化了什么1.2.6 对比两种基础设施1.3 分界线1.3.1 企业数据分类1.3.2 分界线1.3.3 重复型非结构化数据1.3.4 非重复型非结构化数据1.3.5 不同的领域1.4 企业数据统计图1.5 企业数据分析1.6 数据的生命周期——随时间推移理解数据1.7 数据简史1.7.1 纸带和穿孔卡片1.7.2 磁带1.7.3 磁盘存储器1.7.4 数据库管理系统1.7.5 耦合处理器1.7.6 在线事务处理1.7.7 数据仓库1.7.8 并行数据管理1.7.9 Data Vault1.7.10 大数据1.7.11 分界线第2章 大数据2.1 大数据简史2.1.1 打个比方——占领制高点2.1.2 占领制高点2.1.3 IBM360带来的标准化2.1.4 在线事务处理2.1.5 Teradata的出现和大规模并行处理2.1.6 随后到来的Hadoop和大数据2.1.7 IBM和Hadoop2.1.8 控制制高点2.2 大数据是什么2.2.1 另一种定义2.2.2 大数据量2.2.3 廉价存储器2.2.4 罗马人口统计方法2.2.5 非结构化数据2.2.6 大数据中的数据2.2.7 重复型数据中的语境2.2.8 非重复型数据2.2.9 非重复型数据中的语境2.3 并行处理2.4 非结构化数据2.4.1 随处可见的文本信息2.4.2 基于结构化数据的决策2.4.3 业务价值定位2.4.4 重复型和非重复型的非结构化信息2.4.5 易于分析2.4.6 语境化2.4.7 一些语境化方法2.4.8 MapReduce2.4.9 手工分析2.5 重复型非结构化数据的语境化2.5.1 解析重复型非结构化数据2.5.2 重组输出数据2.6 文本消歧2.6.1 从叙事到分析数据库2.6.2 文本消歧的输入2.6.3 映射2.6.4 输入/输出2.6.5 文档分片/指定值处理2.6.6 文档预处理2.6.7 电子邮件——一个特例2.6.8 电子表格2.6.9 报表反编译2.7 分类法2.7.1 数据模型和分类法2.7.2 分类法的适用性2.7.3 分类法是什么2.7.4 多语言分类法2.7.5 分类法与文本消歧的动态2.7.6 分类法和文本消歧——不同的技术2.7.7 分类法的不同类型2.7.8 分类法——随时间推移不断维护第3章 数据仓库3.1 数据仓库简史3.1.1 早期的应用程序3.1.2 在线应用程序3.1.3 抽取程序3.1.4 4GL技术3.1.5 个人电脑3.1.6 电子表格3.1.7 数据完整性3.1.8 蛛网系统3.1.9 维护积压3.1.10 数据仓库3.1.11 走向架构式环境3.1.12 走向企业信息工厂3.1.13 DW 2.03.2 集成的企业数据3.2.1 数量众多的应用程序3.2.2 放眼企业3.2.3 多个分析师3.2.4 ETL技术3.2.5 集成的挑战3.2.6 数据仓库的效益3.2.7 粒度的视角3.3 历史数据3.4 数据集市3.4.1 颗粒化的数据3.4.2 关系数据库设计3.4.3 数据集市3.4.4 关键性能指标3.4.5 维度模型3.4.6 数据仓库和数据集市的整合3.5 作业数据存储3.5.1 集成数据的在线事务处理3.5.2 作业数据存储3.5.3 ODS和数据仓库3.5.4 ODS分类3.5.5 将外部数据更新到ODS3.5.6 ODS/数据仓库接口3.6 对数据仓库的误解3.6.1 一种简单的数据仓库架构3.6.2 在数据仓库中进行在线高性能事务处理3.6.3 数据完整性3.6.4 数据仓库工作负载3.6.5 来自数据仓库的统计处理3.6.6 统计处理的频率3.6.7 探查仓库第4章 Data Vault4.1 Data Vault简介4.1.1 Data Vault 2.0建模4.1.2 Data Vault 2.0方法论定义4.1.3 Data Vault 2.0架构4.1.4 DataVault2.0实施4.1.5 Data Vault 2.0商业效益4.1.6 Data Vault 1.04.2 Data Vault建模介绍4.2.1 Data Vault模型概念4.2.2 Data Vault模型定义4.2.3 Data Vault模型组件4.2.4 DataVault和数据仓库4.2.5 转换到Data Vault建模4.2.6 数据重构4.2.7 Data Vault建模的基本规则4.2.8 为什么需要多对多链接结构4.2.9 散列键代替顺序号4.3 Data Vault架构介绍4.3.1 Data Vault 2.0架构4.3.2 如何将NoSQL适用于本架构4.3.3 Data Vault 2.0架构的目标4.3.4 Data Vault 2.0建模的目标4.3.5 软硬业务规则4.3.6 托管式SSBI与DV2架构4.4 Data Vault方法论介绍4.4.1 Data Vault 2.0方法论概述4.4.2 CMMI和Data Vault 2.0方法论4.4.3 CMMI与敏捷性的对比4.4.4 项目管理实践和SDLC与CMMI和敏捷的对比4.4.5 六西格玛和Data Vault 2.0方法论4.4.6 全质量管理4.5 Data Vault实施介绍4.5.1 实施概述4.5.2 模式的重要性4.5.3 再造工程和大数据4.5.4 虚拟化我们的数据集市4.5.5 托管式自助服务BI第5章 作业环境5.1 作业环境——简史5.1.1 计算机的商业应用5.1.2 最初的应用程序5.1.3 EdYourdon和结构化革命5.1.4 系统开发生命周期5.1.5 磁盘技术5.1.6 进入数据库管理系统时代5.1.7 响应时间和可用性5.1.8 现代企业计算5.2 标准工作单元5.2.1 响应时间要素5.2.2 沙漏的比喻5.2.3 车道的比喻5.2.4 你的车跑得跟前面的车一样快5.2.5 标准工作单元5.2.6 服务等级协议5.3 面向结构化环境的数据建模5.3.1 路线图的作用5.3.2 只要粒度化的数据5.3.3 实体关系图5.3.4 数据项集5.3.5 物理数据库设计5.3.6 关联数据模型的不同层次5.3.7 数据联动的示例5.3.8 通用数据模型5.3.9 作业数据模型和数据仓库数据模型5.4 元数据5.4.1 典型元数据5.4.2 存储库5.4.3 使用元数据5.4.4 元数据用于分析5.4.5 查看多个系统5.4.6 数据谱系5.4.7 比较已有系统和待建系统5.5 结构化数据的数据治理5.5.1 企业活动5.5.2 数据治理的动机5.5.3 修复数据5.5.4 粒度化的详细数据5.5.5 编制文档5.5.6 数据主管岗位第6章 数据架构6.1 数据架构简史6.2 大数据/已有系统的接口6.2.1 大数据/已有系统的接口6.2.2 重复型原始大数据/已有系统接口6.2.3 基于异常的数据6.2.4 非重复型原始大数据/已有系统接口6.2.5 进入已有系统环境6.2.6 “语境丰富”的大数据环境6.2.7 将结构化数据/非结构化数据放在一起分析6.3 数据仓库/作业环境接口6.3.1 作业环境/数据仓库接口6.3.2 经典的ETL接口6.3.3 作业数据存储/ETL接口6.3.4 集结区6.3.5 变化数据的捕获6.3.6 内联转换6.3.7 ELT处理6.4 数据架构——一种高层视角6.4.1 一种高层视角6.4.2 冗余6.4.3 记录系统6.4.4 不同的群体第7章 重复型分析7.1 重复型分析——必备基础7.1.1 不同种类的分析7.1.2 寻找模式7.1.3 启发式处理7.1.4 沙箱7.1.5 标准概况7.1.6 提炼、筛选7.1.7 建立数据子集7.1.8 筛选数据7.1.9 重复型数据和语境7.1.10 链接重复型记录7.1.11 日志磁带记录7.1.12 分析数据点7.1.13 按时间的推移研究数据7.2 分析重复型数据7.2.1 日志数据7.2.2 数据的主动/被动式索引7.2.3 汇总/详细数据7.2.4 大数据中的元数据7.2.5 相互关联的数据7.3 重复型分析7.3.1 内部、外部数据7.3.2 通用标识符7.3.3 安全性7.3.4 筛选、提炼7.3.5 归档结果7.3.6 指标第8章 非重复型分析8.1 非重复型数据8.1.1 内联语境化8.1.2 分类法/本体处理8.1.3 自定义变量8.1.4 同形异义消解8.1.5 缩略语消解8.1.6 否定分析8.1.7 数字标注8.1.8 日期标注8.1.9 日期标准化8.1.10 列表的处理8.1.11 联想式词处理8.1.12 停用词处理8.1.13 提取单词词根8.1.14 文档元数据8.1.15 文档分类8.1.16 相近度分析8.1.17 文本ETL中功能的先后顺序8.1.18 内部参照完整性8.1.19 预处理、后处理8.2 映射8.3 分析非重复型数据8.3.1 呼叫中心信息8.3.2 医疗记录第9章 作业分析1第10章 作业分析2第11章 个人分析第12章 复合式的数据架构词汇表1.2 数据基础设施如果说数据管理和数据架构有什么秘诀可言的话,那就是从基础设施方面来理解数据。换言之,要理解数据管理和操作所依据的更宽泛的数据架构问题,就不能不去弄明白那些围绕数据的底层基础设施。因此,我们将花点时间来理解基础设施。1.2.1 重复型数据的两种类型要理解基础设施,一个很好的起点就是观察企业数据中重复型数据的两种类型。企业数据中的结构化部分存在重复型数据,非结构化中的大数据部分也存在重复型数据。对于重复型结构化数据来说,交易经常是重复型数据的一部分来源。这其中包括销售交易、按库存量单位的进货交易、库存补充交易、支付交易等。在结构化数据领域中,很多这样的交易数据都属于重复型结构化数据的范畴。另一种重复型数据是非结构化大数据领域中的重复型数据。在非结构化大数据领域中,我们可能会接触到计量数据、模拟数据、生产数据、点击流数据等。试想一下这两种类型的重复型数据是否相同。它们当然都是重复型的;不过它们之间的区别何在?图1.2.1(象征性地)展示了这两种类型的重复型数据。

赞(0)
未经允许不得转载:小苏子图书 » 数据架构 大数据 数据仓库以及Data Vault 内容简介