小苏子
小苏子PDF在线图书

SQL机器学习库MADlib技术解析 作者:王雪迎

SQL机器学习库MADlib技术解析 作者:王雪迎

SQL机器学习库MADlib技术解析 出版社:清华大学出版社

SQL机器学习库MADlib技术解析 内容简介

SQL机器学习库MADlib技术解析 目录

SQL机器学习库MADlib技术解析 精彩文摘

MADlib是一套SQL中的大数据机器学习库。通常SQL查询能发现数据1明显的模式和趋势,但要想获取数据中1为有用的信息,需要的则是一套牢固扎根于数学和应用数学的技能,这就是机器学习。如果将SQL的简单易用与MADlib机器学习的复杂算法结合起来,就能实现简单的机器学习功能。本书分为11章,从MADlib的基本概念、MADlib的架构、支持的模型类型与功能入手,详细解析MADlib各种模型的具体用法,包括数据类型、矩阵分解、数据转换、数据探索、主成分分析、回归、时间序列分析、分类、聚类、关联规则、图算法、模型评估等。每种模型将从背景知识、函数语法、应用示例三方面进行 说明。本书适合MADlib机器学习的初学者、想学习MADlib机器学习的DBA以及从事数据分析与挖掘的高级技术人员阅读,也适合高等院校与培训学校相关专业的师生教学参考。第1章 MADlib基础 11.1 基本概念 11.1.1 MADlib是什么 11.1.2 MADlib的设计思想 21.1.3 MADlib的工作原理 31.1.4 MADlib的执行流程 41.1.5 MADlib架构 51.2 MADlib的功能 61.2.1 MADlib支持的模型类型 61.2.2 MADlib的主要功能模块 71.3 MADlib的安装与卸载 91.3.1 确定安装平台 91.3.2 下载MADlib二进制压缩包 101.3.3 安装MADlib 101.3.4 卸载MADlib 121.4 小结 13第2章 数据类型 142.1 向量 142.1.1 MADlib中的向量操作函数 152.1.2 稀疏向量 232.2 矩阵 302.2.1 矩阵定义 312.2.2 MADlib中的矩阵表示 312.2.3 MADlib中的矩阵运算函数 322.3 小结 49第3章 数据转换 503.1 邻近度 503.1.1 MADlib的邻近度相关函数 503.1.2 距离度量的中心化和标准化 573.1.3 选取正确的邻近度度量 583.2 矩阵分解 593.2.1 低秩矩阵分解 593.2.2 奇异值分解 703.3 透视表 873.4 分类变量编码 973.5 小结 110第4章 数据探索 1114.1 描述性统计 1114.1.1 皮尔森相关 1114.1.2 汇总统计 1174.2 概率统计 1254.2.1 概率 1254.2.2 统计推论 1334.3 主成分分析 1474.3.1 背景知识 1474.3.2 MADlib的PCA相关函数 1494.3.3 MADlib的PCA应用示例 1554.4 小结 160第5章 回归 1615.1 线性回归 1615.1.1 背景知识 1615.1.2 MADlib的线性回归相关函数 1645.1.3 线性回归示例 1665.2 非线性回归 1715.2.1 背景知识 1715.2.2 MADlib的非线性回归相关函数 1725.2.3 非线性回归示例 1755.3 逻辑回归 1795.3.1 背景知识 1795.3.2 MADlib的逻辑回归相关函数 1805.3.3 逻辑回归示例 1825.4 多类回归 1875.4.1 背景知识 1875.4.2 MADlib的多类回归相关函数 1905.4.3 多类回归示例 1925.5 序数回归 1965.5.1 背景知识 1965.5.2 MADlib的序数回归相关函数 1975.5.3 序数回归示例 2005.6 弹性网络回归 2025.6.1 背景知识 2025.6.2 MADlib的弹性网络回归相关函数 2045.6.3 弹性网络回归示例 2095.7 小结 221第6章 时间序列分析 2226.1 背景知识 2226.1.1 时间序列分析方法 2226.1.2 ARIMA模型 2236.2 MADlib中ARIMA相关函数 2256.3 时间序列分析示例 2286.4 小结 232第7章 分类 2337.1 K近邻 2337.1.1 背景知识 2337.1.2 MADlib中K近邻函数 2357.1.3 K近邻示例 2367.2 朴素贝叶斯 2407.2.1 背景知识 2407.2.2 MADlib中朴素贝叶斯分类相关函数 2427.2.3 朴素贝叶斯分类示例 2447.3 支持向量机 2497.3.1 背景知识 2497.3.2 MADlib的支持向量机相关函数 2527.3.3 支持向量机示例 2587.4 决策树 2647.4.1 背景知识 2647.4.2 MADlib的决策树相关函数 2677.4.3 决策树示例 2727.5 随机森林 2817.5.1 背景知识 2817.5.2 MADlib的随机森林相关函数 2827.5.3 随机森林示例 2877.6 小结 293第8章 聚类 2948.1 背景知识 2948.1.1 聚类的概念 2948.1.2 k-means方法 2958.2 MADlib的k-means相关函数 2978.2.1 训练函数 2988.2.2 簇分配函数 3008.2.3 轮廓系数函数 3018.3 k-means示例 3018.4 小结 307第9章 关联规则 3089.1 背景知识 3089.1.1 基本概念 3089.1.2 Apriori算法 3119.2 MADlib的Apriori算法函数 3129.3 Apriori应用示例 3139.4 小结 319第10章 图算法 32010.1 背景知识 32010.1.1 基本概念 32010.1.2 常见图算法 32110.1.3 单源最短路径 32310.2 MADlib的单源最短路径相关函数 32410.3 单源最短路径示例 32510.4 小结 327第11章 模型评估 32811.1 交叉验证 32811.1.1 背景知识 32811.1.2 MADlib的交叉验证相关函数 33111.1.3 交叉验证示例 33311.2 预测度量 33611.3 小结 342无论是经典的SAS、SPSS还是时下流行的MATLAB、R、Python,所有这些机器学习或数据挖掘软件都是自成系统的,具体来说就是具有一套完整的程序语言及其集成开发环境,提供了丰富的数学和统计分析函数,具备良好的人机交互界面,支持从数据准备、数据探索、数据预处理到开发和实现模型算法、数据可视化,再到最终结果的验证与模型部署及应用的全过程。它们都是面向程序员的系统或语言,重点在于由程序员自己利用系统提供的基本计算方法或函数,通过编程的方式实现应用需求。

赞(0)
未经允许不得转载:小苏子图书 » SQL机器学习库MADlib技术解析 作者:王雪迎