小苏子
小苏子PDF在线图书

自然语言处理技术入门与实战 作者:兰红云

自然语言处理技术入门与实战 作者:兰红云

自然语言处理技术入门与实战 出版社:电子工业出版社

自然语言处理技术入门与实战 内容简介

自然语言处理技术入门与实战 目录

自然语言处理技术入门与实战 精彩文摘

《自然语言处理技术入门与实战》主要从语义模型详解、自然语言处理系统基础算法和系统案例实战三个方面,介绍了自然语言处理中相关的一些技术。对于每一个算法又分别从应用原理、数学原理、代码实现,以及对当前方法的思考四个方面进行讲解。《自然语言处理技术入门与实战》面向的读者为有志于从事自然语言处理相关工作的在校学生、企事业单位工作人员等人群。本书的结构是由浅入深地进行相关内容的介绍,以满足不同层次读者的学习需求前言第1篇 语义模型详解第1章 关键词抽取模型1.1 TF-IDF算法实现关键词抽取1.2 TextRank算法实现关键词抽取1.3 基于语义的统计语言模型实现关键词抽取第2章 短语抽取模型2.1 基于互信息和左右信息熵实现短语抽取2.2 TextRank算法实现短语抽取2.3 LDA算法实现短语抽取第3章 自动摘要抽取模型3.1 决策树算法实现自动摘要3.2 基于逻辑回归算法实现自动摘要3.3 贝叶斯算法实现自动摘要第4章 深度学习——计算任意词距离模型4.1 FP-Growth算法实现词距离计算4.2 N-Gram算法实现词距离计算4.3 BP算法实现词距离计算第5章 拼音汉字混合识别模型5.1 贝叶斯模型实现拼音汉字混合识别5.2 HMM模型实现拼音汉字混合识别5.3 RNN神经网络模型实现拼音汉字混合识别第6章 文本自动生成模型6.1 基于关键词的文本自动生成模型6.2 RNN模型实现文本自动生成第2篇 自然语言处理系统基础算法第7章 Dijkstra算法7.1 算法应用原理介绍7.2 算法数学原理介绍7.3 算法源码说明7.4 算法应用扩展第8章 AC-DoubleArrayTrie算法8.1 算法应用原理介绍8.2 算法数学原理介绍8.3 算法应用扩展第9章 最大熵算法9.1 算法应用原理介绍9.2 算法数学原理介绍9.3 算法源码说明9.4 算法应用扩展第10章 CRF算法10.1 算法应用原理介绍10.2 算法数学原理介绍10.3 算法源码说明10.4 算法应用扩展第11章 马尔可夫逻辑网算法11.1 算法应用原理介绍11.2 算法数学原理介绍11.3 算法源码说明11.4 算法应用扩展第12章 DIPRE算法12.1 算法应用原理介绍12.2 算法数学原理介绍12.3 算法源码说明12.4 算法应用扩展第13章 LSTM算法13.1 算法应用原理介绍13.2 算法数学原理介绍13.3 算法源码说明13.4 算法应用扩展第14章 TransE算法14.1 算法应用原理介绍14.2 算法数学原理介绍14.3 算法源码说明14.4 算法应用扩展第3篇 系统案例实战第15章 搭建舆情分析与挖掘的系统15.1 系统功能设计简述15.2 系统模块实现详解15.3 系统实现源码说明首先我们向读者介绍的是关键词提取模型,关键词提取能让我们快速地了解一篇文章,或者从大量的语料中快速找到其想要说明的主题。特别是在信息爆炸的时代,能够有效提取文本的关键词,则对于快速、及时、高效地获取信息是非常有帮助的。TF-IDF算法是关键词提取算法中基础并且有效的一种算法,因为它的实现简单,并且效果显著,所以应用非常广泛。1.1.1 场景假设现在有一批短文本,比如很多条一句话新闻。现在需要提取这些一句话新闻的关键词。有哪些方法可以使你采用呢?这里介绍一种非常基础的,也非常好用的算法,叫做TF-IDF算法。TF-IDF(term frequency-inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数呈正比地增加,但同时也会随着它在语料库中出现的频率呈反比地下降。1.1.2 原理TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率(Term Frequency,TF)高,并且在其他文章中很少出现,即反文档频率(Inverse Document Frequency,IDF)低,则认为此词或者短语具有很好的类别区分能力,适合用来分类。那么对于这篇文章来说,这个词也就可以算作该文章的一个关键性的词语。基于上述思想,就提出了 TF-IDF算法,具体计算公式如下:其中,tfidfi,j:是指词i相对于文档j的重要性值。tfi,j:指的是某一个给定的词语在指定文档中出现的次数占比。即给定的词语在该文档中出现的频率。这个数字是对词数(term count)的归一化,以防止它偏向长的文档。计算公式如下:其中ni,j是该词在文件dj中出现的次数。∑k nk,j是在文件dj中所有字词的出现次数之和。idfi:指的是词 i 的逆向文档频率,是用总文档数目除以包含指定词语的文档的数目,再将得到的商取对数得到。这是一种度量词语重要性的指标。计算公式如下:其中|D|为语料库中的文档总数。|{j:ti∈dj}|为包含词语ti的文档数目。至此,我们对TF-IDF算法有了一个初步的了解,下面从一个具体的例子来看看这个算法在实际例子中的应用。1.1.3 实例在开篇的场景部分,我们提了一个场景,对短文本进行关键词提取。这里就以这样的一个例子进行算法说明。先看看测试数据(以下数据摘自百度百科)。文档 1:程序员(Programmer)是从事程序开发、维护的专业人员。一般将程序员分为程序设计人员和程序编码人员,但两者的界限并不非常清楚,特别是在中国。软件从业人员分为初级程序员、高级程序员、系统分析员和项目经理四大类。文档 2:现在网络流行上把男程序员称为“程序猿”,女程序员称为“程序媛”。目前从事IT技术行业的大多数为男性,女性多数从事其他(如:会计,行政,人力资源等)种类的工作,在IT技术里女程序员是很受欢迎的,因此现在人们爱称女程序员为“程序媛”。因为TF-IDF对词的顺序不关心,所以分词部分就不作说明了。假设我们对上述两个文档完成了分词,并且将每个文档中的词按照空格分隔存储在一起。并且对每一句话存储一行。

赞(0)
未经允许不得转载:小苏子图书 » 自然语言处理技术入门与实战 作者:兰红云