推广 热搜: page  音视频  使用  个数  选择  搜索引擎  企业  父亲  百度  可以 

B站APP下拉【64xl.com专业下拉平台】抖音搜索排名靠前方法

   日期:2025-01-01     作者:o93v3    caijiyuan   评论:0    移动:http://ww.kub2b.com/mobile/news/18497.html
核心提示:1. 关键词提取概述关键词是能够表达文献核心内容的词语,在计算机系统中常用于索引论文内容特征、信息检索、系统收藏以供读者查

1. 关键词提取概述

关键词是能够表达文献核心内容的词语,在计算机系统中常用于索引论文内容特征、信息检索、系统收藏以供读者查阅。关键词提取是文本挖掘的一个分支,是文本检索、文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础工作。

从算法角度来看,关键词提取算法主要有两种:无监督关键词提取方法和有监督关键词提取方法。

1.无监督关键词提取方法

在没有人工标注语料的情况下,有些方法会通过寻找文本中比较重要的词作为关键词进行关键词提取。这种方法是先提取候选词,然后对每个候选词进行打分,最后输出得分最高的topK个候选词作为关键词。根据不同的打分策略有不同的算法B站APP下拉【64xl.com专业下拉平台】抖音搜索排名靠前方法,比如TF-IDF,LDA等算法。

无监督关键词提取方法主要有三类:基于统计特征的关键词提取(TF、TF-IDF);基于词图模型的关键词提取(,);基于主题模型的关键词提取(LDA)

基于统计特征的关键词提取算法的思想是利用文档中词语的统计信息来提取文档的关键词;

基于词图模型的关键词抽取,首先构建文档的语言网络图,然后对该语言进行网络图分析,在图上寻找重要的单词或短语,这些短语即为该文档的关键词。

基于主题的关键词提取算法主要利用主题模型中主题分布的性质来提取关键词;

2. 有监督的关键词提取方法

关键词提取过程可以看作是一个二分类问题,首先提取候选词,然后将每个候选词标记为关键词或者非关键词,然后训练一个关键词提取分类器。当有新文档到来时,提取所有候选词,然后使用训练好的关键词提取分类器对每个候选词进行分类,最后将标记为关键词的候选词作为关键词。

3. 无监督和监督方法的优缺点

无监督方法不需要人工标注训练集,因此速度更快关键词提取工具,但由于无法有效综合利用多种信息对候选关键词进行排序,因此效果无法与监督方法相比。监督方法可以通过训练学习来调整多种信息对关键词判断的影响,因此效果更佳。监督式文本关键词提取算法需要较高的人力成本,因此现有的文本关键词提取主要采用更为适用的无监督关键词提取。

4.关键词提取常用工具包

(算法工具)

(中文解析)简体中文文本处理

(英文解析)

2. TF-IDF关键词提取算法及实现

关于TF-IDF算法的详细介绍及实现总结,请见博客:TF-IDF算法简介及实现

3.关键词提取算法实现

关于该算法的详细介绍以及实现方法的总结,请参见博客:算法介绍与实现

4. LDA主题模型关键词提取算法及实现

1. LDA()文档主题生成模型

主题模型是一种统计模型,用于发现文档集合中出现的抽象“主题”。主题建模是一种常用的文本挖掘工具,用于发现文本主体中隐藏的语义结构。

LDA,又称三层贝叶斯概率模型,包含词语、主题、文档三层结构关键词提取工具,利用文档中词语的共现关系,将词语按主题进行聚类,得到“文档-主题”和“主题-词语”两个概率分布。

通俗理解LDA主题模型的原理

2.基于LDA主题模型的关键词提取算法实现

运行结果:

5.关键词提取算法及词聚类实现

1.词向量表示

利用浅层神经网络模型自动学习语料中词语的出现情况,将词语嵌入到高维空间中,通常为100-500维,在高维空间中将词语以词向量的形式表示出来。

特征词向量的提取是基于训练好的词向量模型的。

2. K聚类算法

聚类算法的目的是发现数据中数据对象之间的关系,对数据进行分组,使得组内相似性尽可能大,组间相似性尽可能小。

算法的思想是:首先随机选取K个点作为初始质心,K为用户指定的所希望划分的簇数,通过计算每个点到各个质心的距离,将每个点分配到最近的质心,形成K个簇,然后根据分配给该簇的点重新计算每个簇的质心,重复分配和更新质心的操作,直到簇不再发生变化或者达到最大迭代次数。

3.基于词语聚类的关键词提取方法实现过程

主要思想是对用词向量表示的词,利用K算法对文章中的词进行聚类,选取聚类中心作为文本的一个主要关键词,计算其他词与聚类中心的距离,也就是相似度,选取距离聚类中心最近的topK个词作为关键词,利用生成的向量就可以计算出这些词之间的相似度。

具体步骤如下:

在语料库上训练模型,得到词向量文件;

对文本进行预处理,得到N个候选关键词;

遍历候选关键词,从词向量文件中提取候选关键词的词向量表示;

对候选关键词进行K聚类,得到各个类别的聚类中心(需手动给定聚类个数);

计算各组中单词与各个类别下的聚类中心的距离(欧氏距离或者曼哈顿距离),并按照聚类大小降序排列;

计算候选关键词,获取排名前K的词作为文本关键词。

注:第三方工具包提供了K-算法的相关函数,本文使用..()函数执行K-,使用..PCA()函数对数据进行降维以便绘制图形。

6.信息增益关键词提取算法及实现

关于信息增益算法的详细介绍和实现总结可以参考博客:信息增益算法介绍与实现

七、互信息关键词提取算法及实现

1. 相互信息( ,MI)

在概率和信息论中,两个随机变量之间的互信息或转移信息()是变量之间相互依赖性的度量。与相关系数不同,互信息不仅限于实值随机变量,它更为通用,并确定联合分布 p(X,Y) 与分解边际分布 p(X)p(Y) 乘积之间的相似程度。互信息是两组事件()之间相关性的度量。

互信息被广泛用于度量一些语言现象之间的相关程度,在信息论中,互信息常用来衡量两个词语之间的相关程度,也用于计算词语与类别之间的相关程度。

2. 互信息计算公式

3. 互信息算法的实现

运行结果:

两者含义相同,都表示通过了解特征X的信息,可以减少类Y信息的不确定性的程度。

笔记:

归一化互信息(NMI)可用于衡量两个聚类结果之间的相似性。

规范化互信息实现:.(, [:, i])。

点互信息(PMI)用于度量两个事物(比如两个词语)之间的相关性。

8.卡方检验关键词提取算法及实现

1. 卡方检验

卡方检验是数理统计中用来检验两个变量独立性的方法,是一种判断两个分类变量之间是否存在相关性的统计方法。经典的卡方检验是检验定性自变量与定性因变量之间的相关性。

2.基本思想

零假设:两个变量是独立的

计算实际观测值与理论值的偏差

如果偏差足够小,小于设定的阈值,则接受零假设;否则,拒绝零假设,并认为两个变量是相关的。

3.计算公式

其中A为实际值,T为理论值。卡方检验可用于文本分类问题中的特征选择。在这种情况下,不需要设置阈值,我们只关心找到前K个最相关的特征。基本思想:比较理论频率与实际频率的拟合度或拟合优度问题。

4. 基于卡方检验的实现

9.基于树模型的关键词提取算法及实现

1.树模型

主要包括决策树和随机森林,基于树的预测模型(.tree模块和.模块)可以用来计算特征的重要性,因此可以用来去除不相关的特征(结合..)

该模块包含两种基于随机决策树的平均算法:-and-算法。这两种算法都使用了非常流行的树设计思想:-and-思想。该方法通过在构建分类器时引入随机化来创建一组不同的分类器。该方法的预测给出了每个分类器预测的平均值。

在随机森林 (RF) 中,该方法中的每棵树都是基于通过有放回抽样 () 获得的训练集构建的。此外,在树构建过程中,当到达某个节点时, 的选择不再是所有人的最佳选择。相反,最好随机选择 的一个子集。 的随机森林 (RF) 实现是通过对每个分类结果的预测取平均值来获得的,而不是让每个分类器投票。

Ext- 在 Ext- 中(参见 和 ),在分区过程中会进一步计算随机性。在随机森林中,会使用候选的随机子集,而不是寻找最佳阈值,而是为每个候选提取一个阈值,并选择这个随机生成的阈值作为分区原则。

2.基于树模型的关键词提取算法实现

(1)部分代码实现1

(2)部分代码实现2

10. 结论

本文总结了实验中常用的关键词提取方法。实验数据基于公司内部数据,但本总结仅为方法的解释和实现,并未针对特定数据集做出相应的结果分析。从实验中可以明显看出,有监督的关键词提取方法通常效果明显优于无监督方法,但有监督方法依赖于一定规模的标记数据。

参考:

1. NLP关键词提取的常见算法

2.

3.卡方检验原理及应用

4.特征选择()

5.随机森林算法总结及参数调整

本文地址:http://ww.kub2b.com/news/18497.html     企库往 http://ww.kub2b.com/ ,  查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

 
 
更多>同类最新文章
0相关评论

文章列表
相关文章
最新动态
推荐图文
最新文章
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号