机器学习与R语言(原书第2版) 内容简介

机器学习与R语言(原书第2版) 内容简介

机器学习与R语言(原书第2版) 目录

机器学习与R语言(原书第2版) 精彩文摘

本书共12章:第1章介绍机器学习的基本概念和理论,并介绍用于机器学习的R软件环境的准备;第2章介绍如何应用R来管理数据,进行数据的探索分析和数据可视化;第3~9章介绍典型的机器学习算法,包括k近邻分类算法、朴素贝叶斯算法、决策树和规则树、回归预测、黑盒算法——神经网络和支持向量机、关联分析、k均值聚类,并给出大量的实际案例和详细的分析步骤,例如乳腺癌的判断、垃圾短信的过滤、贷款违约的预测、毒蘑菇的判别、医疗费用的预测、建筑用混凝土强度的预测、光学字符的识别、超市购物篮关联分析以及市场细分等;第10章介绍模型性能评价的原理和方法;第11章给出提高模型性能的几种常用方法;第12章讨论用R进行机器学习时可能遇到的一些高级专题,如特殊形式的数据、大数据集的处理、并行计算和GPU计算等技术。第1章 机器学习简介1.1 机器学习的起源1.2 机器学习的使用与滥用1.2.1 机器学习的成功使用1.2.2 机器学习的限制1.2.3 机器学习的伦理方面1.3 机器如何学习1.3.1 数据存储1.3.2 抽象化1.3.3 一般化1.3.4 评估1.4 实践中的机器学习1.4.1 输入数据的类型1.4.2 机器学习算法的类型1.4.3 为输入数据匹配算法1.5 使用R进行机器学习1.5.1 安装R添加包1.5.2 载入和卸载R添加包1.6 总结第2章 数据的管理和理解2.1 R数据结构2.1.1 向量2.1.2 因子2.1.3 列表2.1.4 数据框2.1.5 矩阵和数组2.2 用R管理数据2.2.1 保存、载入和移除R数据结构2.2.2 用CSV文件导入和保存数据2.3 探索和理解数据2.3.1 探索数据的结构2.3.2 探索数值变量2.3.3 探索分类变量2.3.4 探索变量之间的关系2.4 总结第3章 懒惰学习——使用近邻分类3.1 理解近邻分类3.1.1 kNN算法3.1.2 为什么kNN算法是懒惰的3.2 例子——用KNN算法诊断乳腺癌3.2.1 第1步——收集数据3.2.2 第2步——探索和准备数据3.2.3 第3步——基于数据训练模型3.2.4 第4步——评估模型的性能3.2.5 第5步——提高模型的性能3.3 总结第4章 概率学习——朴素贝叶斯分类4.1 理解朴素贝叶斯4.1.1 贝叶斯方法的基本概念4.1.2 朴素贝叶斯算法4.2 例子——基于贝叶斯算法的手机垃圾短信过滤4.2.1 第1步——收集数据4.2.2 第2步——探索和准备数据4.2.3 第3步——基于数据训练模型4.2.4 第4步——评估模型的性能4.2.5 第5步——提高模型的性能4.3 总结第5章 分而治之——应用决策树和规则进行分类5.1 理解决策树5.1.1 分而治之5.1.2 C5.0决策树算法5.2 例子——使用C5.0决策树识别高风险银行贷款5.2.1 第1步——收集数据5.2.2 第2步——探索和准备数据5.2.3 第3步——基于数据训练模型5.2.4 第4步——评估模型的性能5.2.5 第5步——提高模型的性能5.3 理解分类规则5.3.1 独立而治之5.3.2 1R算法5.3.3 RIPPER算法5.3.4 来自决策树的规则5.3.5 什么使决策树和规则贪婪5.4 例子——应用规则学习算法识别有毒的蘑菇5.4.1 第1步——收集数据5.4.2 第2步——探索和准备数据5.4.3 第3步——基于数据训练模型5.4.4 第4步——评估模型的性能5.4.5 第5步——提高模型的性能5.5 总结第6章 预测数值型数据——回归方法6.1 理解回归6.1.1 简单线性回归6.1.2 普通最小二乘估计6.1.3 相关性6.1.4 多元线性回归6.2 例子——应用线性回归预测医疗费用6.2.1 第1步——收集数据6.2.2 第2步——探索和准备数据6.2.3 第3步——基于数据训练模型6.2.4 第4步——评估模型的性能6.2.5 第5步——提高模型的性能6.3 理解回归树和模型树6.4 例子——用回归树和模型树估计葡萄酒的质量6.4.1 第1步——收集数据6.4.2 第2步——探索和准备数据6.4.3 第3步——基于数据训练模型6.4.4 第4步——评估模型的性能6.4.5 第5步——提高模型的性能6.5 总结第7章 黑箱方法——神经网络和支持向量机7.1 理解神经网络7.1.1 从生物神经元到人工神经元7.1.2 激活函数7.1.3 网络拓扑7.1.4 用后向传播训练神经网络7.2 例子——用人工神经网络对混凝土的强度进行建模7.2.1 第1步——收集数据7.2.2 第2步——探索和准备数据7.2.3 第3步——基于数据训练模型7.2.4 第4步——评估模型的性能7.2.5 第5步——提高模型的性能7.3 理解支持向量机7.3.1 用超平面分类7.3.2 对非线性空间使用核函数7.4 例子——用支持向量机进行光学字符识别7.4.1 第1步——收集数据7.4.2 第2步—探索和准备数据7.4.3 第3步——基于数据训练模型7.4.4 第4步——评估模型的性能7.4.5 第5步——提高模型的性能7.5 总结第8章 探寻模式——基于关联规则的购物篮分析8.1 理解关联规则8.1.1 用于关联规则学习的Apriori算法8.1.2 度量规则兴趣度——支持度和置信度8.1.3 用Apriori原则建立规则8.2 例子——用关联规则确定经常一起购买的食品杂货8.2.1 第1步——收集数据8.2.2 第2步——探索和准备数据8.2.3 第3步——基于数据训练模型8.2.4 第4步——评估模型的性能8.2.5 第5步——提高模型的性能8.3 总结第9章 寻找数据的分组——k均值聚类9.1 理解聚类9.1.1 聚类——一种机器学习任务9.1.2 k均值聚类算法9.2 例子——用k均值聚类探寻青少年市场细分9.2.1 第1步——收集数据9.2.2 第2步——探索和准备数据9.2.3 第3步——基于数据训练模型9.2.4 第4步——评估模型的性能9.2.5 第5步——提高模型的性能9.3 总结第10章 模型性能的评价10.1 度量分类方法的性能10.1.1 在R中处理分类预测数据10.1.2 深入探讨混淆矩阵10.1.3 使用混淆矩阵度量性能10.1.4 准确率之外的其他性能度量指标10.1.5 性能权衡的可视化10.2 评估未来的性能10.3 总结第11章 提高模型的性能11.1 调整多个模型来提高性能11.2 使用元学习来提高模型的性能11.2.1 理解集成学习11.2.2 bagging11.2.3 Boosting11.2.4 随机森林11.3 总结第12章 其他机器学习主题12.1 分析专用文件和数据库12.1.1 读/写Excel、SAS、SPSS和Stata文件12.1.2 查询SQL数据库中的数据12.2 处理在线数据和服务12.2.1 下载网页的所有文本12.2.2 从网页爬取数据12.3 处理特定领域的数据12.3.1 分析生物信息学数据12.3.2 分析和可视化网络数据12.4 提高R语言的性能12.4.1 处理非常大的数据集12.4.2 使用并行处理来加快学习过程12.4.3 GPU计算12.4.4 部署优化的学习算法12.5 总结1.1 机器学习的起源自出生以来,我们就和各种数据打交道。我们身体的感官——眼睛、耳朵、鼻子、舌头以及神经一直被数据包围着,大脑把它们转化成视觉、听觉、嗅觉、味觉和感知。通过语言的交流,我们得以和他人分享这些感受。从书面语言出现,人们的观测就被记录下来。猎人监视动物群体的移动,早期的宇航员记录行星和恒星的模式,城市记录税收、出生和死亡情况。现在,由于不断发展的计算机数据库的应用,这些观察的过程逐步自动化,记录也变得系统化。

类似文章

发表评论

您的电子邮箱地址不会被公开。