小苏子
小苏子PDF在线图书

R语言与大数据编程实战 作者:李倩星

R语言与大数据编程实战 作者:李倩星

R语言与大数据编程实战 出版社: 电子工业出版社

R语言与大数据编程实战 内容简介

R语言与大数据编程实战 目录

R语言与大数据编程实战 精彩文摘

本书是一本R语言入门读物,它旨在帮助读者迅速构建起与数据分析相关的知识体系,并学习如何使用R软件实现数据分析方法。无论有无编程基础或数学基础,本书都能帮助读者成长为一名合格的数据分析师。本书全面介绍了来自统计分析、机器学习、人工智能等领域的多种数据分析算法,在讲解与之相关的R代码时,还讨论了这些算法的原理、优缺点与适用背景。本书按照由易到难的原则组织章节主题,读者将获得*好的阅读体验。通过阅读本书,读者将对R语言在数据分析领域的应用有一个全面的认识。这种认识不被特定行业所局限,任何行业的读者都能利用本书介绍的数据分析方法解决本行业的数据分析问题。前言第1章 R的基本介绍1.1 强大的R1.2 R语言在大数据中的应用1.3 R的安装与启动1.4 R的向量、矩阵和数组1.5 R的列表和数据框1.6 R数据文件的载入和载出1.7 向R中安装包第2章 原始数据的探索与预处理2.1 度量数据集的集中程度2.2 度量数据集的分散程度2.3 创建一个数值摘要表2.4 异常值的观测与说明2.5 缺失值的填补与处理第3章 R的数据可视化3.1 plot()函数和常用的图形参数3.2 经典的基础图形及用途3.3 将图形组合起来3.4 更多的高水平作图函数3.5 更多的常用作图命令第4章 R中参数的估计和检验4.1 使用R进行点估计和区间估计4.2 与正态总体有关的参数检验4.3 列联表与独立性检验4.4 几种检验数据分布的函数4.5 对非正态总体的区间估计和检验第5章 R中的方差分析5.1 方差分析模型的建立5.2 单因素方差分析5.3 多因素方差分析5.4 秩检验和协方差分析第6章 R中的相关分析和回归分析6.1 多种相关系数的度量和分析6.2 线性回归分析及其常规参数6.3 使用逐步回归筛选自变量6.4 哑变量和逻辑回归第7章 更高级的数据可视化7.1 基础图形的拓展与延伸7.2 有关多元分布函数的特殊图形7.3 建立最简单的3D图形7.4 如何让图形更美观7.5 更多的绘图包和系统第8章 R中的聚类分析和判别分析8.1 几种聚类分析的异同8.2 使用R实现KNN聚类8.3 使用R实现系统聚类8.4 使用R实现快速聚类8.5 几种判别分析模型综述第9章 R中的主成分分析和因子分析9.1 主成分分析的实现与应用9.2 因子分析的初次构建与完善9.3 对因子分析模型进行修正9.4 在降维分析的基础上进行回归分析和聚类分析第10章 R中的广义线性回归模型10.1 一般的广义线性回归模型10.2 Logistic线性回归模型10.3 泊松回归分析模型10.4 广义线性模型的交叉验证第11章 R中的时间序列模型11.1 将数据转换为时间序列格式11.2 分解时间序列并检验时间序列的自相关性11.3 探究时间序列的自相关性11.4 构建时间序列并预测第12章 R中的最优化问题12.1 最优化问题简述12.2 黄金分割法12.3 牛顿最优化方法12.4 最快上升法12.5 R中的最优化函数第13章 使用R绘制地理信息图形13.1 绘制世界、国家、省市地图13.2 向地图中添加颜色13.3 向地图中添加标签和线条13.4 使用其他格式的文件优化地图第14章 使用R构建支持向量机14.1 构建一个简单的支持向量机14.2 优化支持向量机的参数14.3 比较支持向量机与Logistic回归的优劣14.4 比较支持向量机和KNN聚类算法的优劣第15章 实现更高效的流程控制和高级循环15.1 R中的流程控制15.2 R中的for循环、while循环和repeat循环15.3 apply家族中的循环函数15.4 更多的高级循环函数第16章 R代码的调试与优化16.1 R代码的常见信息与警告16.2 R代码中的错误与错误处理方法16.3 调试R代码16.4 向量化编程方法第17章 构建电影评分预测模型17.1 获取数据并探索17.2 利用recommenderlab包处理数据17.3 建立模型并评估第18章 贝叶斯垃圾邮件过滤器模型18.1 贝叶斯模型中的条件概率18.2 复杂的数据预处理过程18.3 利用occurrece值构造分类器作为一门新兴的编程语言,R是如今值得学习的语言。由统计学家开发出的R语言具有许多奇特性质,本章将较为全面地介绍R的特性和用途,并讲解R的安装方法、变量类型、从其他数据源读取数据、程序包等基本知识。本章帮助读者对R形成整体印象,同时本章内容也是后续章节的基石。R语言脱胎于S语言,是一门专门用于处理数据探索、统计分析等任务的编程语言。它由统计学家开发完成,在数据分析方面具有天然的优势,运行R程序的R软件是如今最流行的统计软件之一。与其他统计软件相比,R软件最特别的地方在于它是开源的。这同时意味着:第一,R是免费的;第二,R的用户能够自由地参与到R的开发中。R社区将它的忠实用户聚合在一起,这些用户主要由统计学家、计算机学家、数据分析师等组成,不同领域的用户在R社区中交流碰撞,协助R核心团队丰富和完善R的功能。R的用户之间具有非常紧密的联系,他们最大的贡献是创建了形形色色的程序包,这些程序包分别封装了一些具有特定作用的函数。如今,R软件已经内置了非常丰富的各类函数库,能够满足绝大多数统计人员的各类需求,它的制图功能也远超其他统计软件。R的另一个特点在于它支持混合型的编程范式。R是一种解释型的语言,当用户在R软件中编写好一条代码后,R会立即执行它。这种做法的好处在于用户可以即时地看到程序的返回结果,在作图时尤其方便。R是一种面向对象的语言,同时它也支持函数式编程,即用户可以在R中调用现成的或自己编写的函数,这一点与C语言较为相似,但R要比C语言更加灵活。尽管R的优点很突出,但它也同样具有局限之处。首先,R语言的编程原理较为传统,在处理数据时,R需要将数据全部载入内存,这一点极大地影响了R的运行效率,尽管如今的计算机内存做得越来越大,但在有些大规模数据集的处理工作中,R还是会显得不够得力。其次,R软件的保密性不如SAS等统计软件好,这限制了R在大型商业项目中的应用。最后,由于R软件是由统计学家开发的,因此其语法设计并不特别严谨,有时它会出现一些奇怪的错误。随着大数据时代的到来,R语言正被越来越多的人关注,不仅是统计分析和数据挖掘,一些研究机器学习和模式识别的专家同样关注到R的发展。根据TIOBE提供的编程语言排行榜,R语言的流行程度在近几年内已经飙升至前十名,其火爆程度只有Python才能与其比肩,而同为统计软件的SAS和MATLAB则一直徘徊于二三十名的位置。R的优点使它广泛地流行于统计人员和中小型商业公司中。Google、百度等互联网巨头则将R语言看作一个沙盘,使用软件验证各种数据模型的可行性,并最终使用其他语言实现。随着R的用户越来越多样化,其可扩展能力进一步强化,能够解决的问题也越来越丰富。如今,金融、医药、教育、社会科学等每一个需要数据分析的领域都需要精通R的人才。R语言的起源是统计学家为解决数据分析领域问题而开发的语言,所以和MATLAB、Python等可用于数据处理的语言相比,在数据分析处理方面具有一些独特优势,本节将讲述R语言在大数据领域中的典型应用。近几年,淘宝、京东等几家电商的价格战打得不亦乐乎,而从电商发布的战果来看,几败具伤的价格战已经无法保证电商的利润,他们开始转向利用大数据分析工具对用户行为进行分析,通过对大数据的充分使用和挖掘在商战中获胜。

赞(0)
未经允许不得转载:小苏子图书 » R语言与大数据编程实战 作者:李倩星