小苏子
小苏子PDF在线图书

Python数据挖掘入门与实践 内容简介

Python数据挖掘入门与实践 内容简介

Python数据挖掘入门与实践 目录

Python数据挖掘入门与实践 精彩文摘

本书作为数据挖掘入门读物,介绍了数据挖掘的基础知识、基本工具和实践方法,通过循序渐进地讲解算法,带你轻松踏上数据挖掘之旅。本书采用理论与实践相结合的方式,呈现了如何使用决策树和随机森林算法预测美国职业篮球联赛比赛结果,如何使用亲和性分析方法推荐电影,如何使用朴素贝叶斯算法进行社会媒体挖掘,等等。本书也涉及神经网络、深度学习、大数据处理等内容。本书面向愿意学习和尝试数据挖掘的程序员。第1章 开始数据挖掘之旅1.1 数据挖掘简介1.2 使用Python和IPython Notebook1.2.1 安装Python1.2.2 安装IPython1.2.3 安装scikit-learn库1.3 亲和性分析示例1.3.1 什么是亲和性分析1.3.2 商品推荐1.3.3 在NumPy中加载数据集1.3.4 实现简单的排序规则1.3.5 排序找出最佳规则1.4 分类问题的简单示例1.5 什么是分类1.5.1 准备数据集1.5.2 实现OneR算法1.5.3 测试算法1.6 小结第2章 用scikit-learn估计器分类2.1 scikit-learn估计器2.1.1 近邻算法2.1.2 距离度量2.1.3 加载数据集2.1.4 努力实现流程标准化2.1.5 运行算法2.1.6 设置参数2.2 流水线在预处理中的应用2.2.1 预处理示例2.2.2 标准预处理2.2.3 组装起来2.3 流水线2.4 小结第3章 用决策树预测获胜球队3.1 加载数据集3.1.1 采集数据3.1.2 用pandas加载数据集3.1.3 数据集清洗3.1.4 提取新特征3.2 决策树3.2.1 决策树中的参数3.2.2 使用决策树3.3 NBA比赛结果预测3.4 随机森林3.4.1 决策树的集成效果如何3.4.2 随机森林算法的参数3.4.3 使用随机森林算法3.4.4 创建新特征3.5 小结第4章 用亲和性分析方法推荐电影4.1 亲和性分析4.1.1 亲和性分析算法4.1.2 选择参数4.2 电影推荐问题4.2.1 获取数据集4.2.2 用pandas加载数据4.2.3 稀疏数据格式4.3 Apriori算法的实现4.3.1 Apriori算法4.3.2 实现4.4 抽取关联规则4.5 小结第5章 用转换器抽取特征5.1 特征抽取5.1.1 在模型中表示事实5.1.2 通用的特征创建模式5.1.3 创建好的特征5.2 特征选择5.3 创建特征5.4 创建自己的转换器5.4.1 转换器API5.4.2 实现细节5.4.3 单元测试5.4.4 组装起来5.5 小结第6章 使用朴素贝叶斯进行社会媒体挖掘6.1 消歧6.1.1 从社交网站下载数据6.1.2 加载数据集并对其分类6.1.3 Twitter数据集重建6.2 文本转换器6.2.1 词袋6.2.2 N元语法6.2.3 其他特征6.3 朴素贝叶斯6.3.1 贝叶斯定理6.3.2 朴素贝叶斯算法6.3.3 算法应用示例6.4 应用6.4.1 抽取特征6.4.2 将字典转换为矩阵6.4.3 训练朴素贝叶斯分类器6.4.4 组装起来6.4.5 用F1值评估6.4.6 从模型中获取更多有用的特征6.5 小结第7章 用图挖掘找到感兴趣的人7.1 加载数据集7.1.1 用现有模型进行分类7.1.2 获取Twitter好友信息7.1.3 构建网络7.1.4 创建图7.1.5 创建用户相似度图7.2 寻找子图7.2.1 连通分支7.2.2 优化参数选取准则7.3 小结第8章 用神经网络破解验证码8.1 人工神经网络8.2 创建数据集8.2.1 绘制验证码8.2.2 将图像切分为单个的字母8.2.3 创建训练集8.2.4 根据抽取方法调整训练数据集8.3 训练和分类8.3.1 反向传播算法8.3.2 预测单词8.4 用词典提升正确率8.4.1 寻找最相似的单词8.4.2 组装起来8.5 小结第9章 作者归属问题9.1 为作品找作者9.1.1 相关应用和使用场景9.1.2 作者归属9.1.3 获取数据9.2 功能词9.2.1 统计功能词9.2.2 用功能词进行分类9.3 支持向量机9.3.1 用SVM分类9.3.2 内核9.4 字符N元语法9.5 使用安然公司数据集9.5.1 获取安然数据集9.5.2 创建数据集加载工具9.5.3 组装起来9.5.4 评估9.6 小结第10章 新闻语料分类10.1 获取新闻文章10.1.1 使用Web API获取数据10.1.2 数据资源宝库reddit10.1.3 获取数据10.2 从任意网站抽取文本10.2.1 寻找任意网站网页中的主要内容10.2.2 组装起来10.3 新闻语料聚类10.3.1 k-means算法10.3.2 评估结果10.3.3 从簇中抽取主题信息10.3.4 用聚类算法做转换器10.4 聚类融合10.4.1 证据累积10.4.2 工作原理10.4.3 实现10.5 线上学习10.5.1 线上学习简介10.5.2 实现10.6 小结第11章 用深度学习方法为图像中的物体进行分类11.1 物体分类11.2 应用场景和目标11.3 深度神经网络11.3.1 直观感受11.3.2 实现11.3.3 Theano简介11.3.4 Lasagne简介11.3.5 用nolearn实现神经网络11.4 GPU优化11.4.1 什么时候使用GPU进行计算11.4.2 用GPU运行代码11.5 环境搭建11.6 应用11.6.1 获取数据11.6.2 创建神经网络11.6.3 组装起来11.7 小结第12章 大数据处理12.1 大数据12.2 大数据应用场景和目标12.3 MapReduce12.3.1 直观理解12.3.2 单词统计示例12.3.3 Hadoop MapReduce12.4 应用12.4.1 获取数据12.4.2 朴素贝叶斯预测12.5 小结附录 接下来的方向1.1 数据挖掘简介数据挖掘旨在让计算机根据已有数据做出决策。决策可以是预测明天的天气、拦截垃圾邮件、检测网站的语言,或者在约会网站上发现新的恋爱对象。数据挖掘方面的应用已经有很多,新的应用也在源源不断地出现。数据挖掘涉及算法、统计学、工程学、最优化理论和计算机科学相关领域的知识。除此之外,我们还会用到语言学、神经科学、城市规划等其他领域的概念或知识。要想充分发挥数据挖掘的威力,通常需要在算法中整合这些属于特定领域的知识。虽然数据挖掘相关应用的实现细节可能千差万别,但是从较高的层次看,它们往往大同小异。数据挖掘的第一步一般是创建数据集,数据集能够描述真实世界的某一方面。数据集主要包括以下两个部分。表示真实世界中物体的样本。样本可以是一本书,一张照片,一个动物,一个人或是其他任何物体。描述数据集中样本的特征。特征可以是长度、单词频率、腿的数量、创建时间等。接下来是调整算法。每种数据挖掘算法都有参数,它们或者是算法自身包含的,或者是使用者添加的。这些参数会影响算法的具体决策。举个简单的例子,我们希望计算机能够把人按照个子高矮分成两大类。我们首先采集数据,得到包含每个人身高的一组数据,以及对他们高矮的判断。

赞(0)
未经允许不得转载:小苏子图书 » Python数据挖掘入门与实践 内容简介