CN103744951A - 一种对文本中关键词重要性的排序方法 - Google Patents
一种对文本中关键词重要性的排序方法 Download PDFInfo
- Publication number
- CN103744951A CN103744951A CN201410000706.8A CN201410000706A CN103744951A CN 103744951 A CN103744951 A CN 103744951A CN 201410000706 A CN201410000706 A CN 201410000706A CN 103744951 A CN103744951 A CN 103744951A
- Authority
- CN
- China
- Prior art keywords
- keyword
- vector
- text
- keywords
- occurrence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种对文本中关键词重要性的排序方法,该方法首先对一篇文本进行分词操作,然后去除停用词,得到该文本的关键词集合;然后统计关键词的词频,得到关键词对应词频向量;将具有断句功能的标点符号设为共现窗口的分界端点,统计词项之间的共现信息,得到关键词的共现矩阵,并从关键词的共现矩阵,得到关键词的共现的分布情况的向量;对关键词的共现矩阵进行处理,得到由关键词共现关系判断出的关键词重要性向量;然后将由关键词共现判断出的关键词重要性向量、从关键词的共现矩阵得到关键词的共现的分布情况的向量和关键词的词频向量进行处整合,得到关键词在文本中综合的重要性;最后根据计算所得的关键词的重要性大小,对关键词进行排序。该方法使用多种信息判断文本中关键词的重要性,提高判断在文本中关键词重要性的准确度和可信度。
Description
技术领域
本发明涉及一种对文本中的关键词的重要性的排序方法,该方法是综合利用关键词的词频、词项之间的共现关系和词共现的分布情况,计算文本中关键词的重要性,实现文本中关键词的重要性顺序。
背景技术
在文本处理领域中,提取文本中重要的关键词,然后用来代表该文本,再继续完成相应的任务。要想提取文本中重要的关键词,实质上是需要对关键词的重要性进行排序。在不引入外界知识的情况,依赖于关键词的词频、词项的共现关系判断关键词重要性方法,有二种:一种是,仅利用关键词的词频信息,判断关键词的重要性。具体是,主要是统计文本中关键词的词频,生成对应的词频向量,然后根据词频向量中值的大小对关键词进行排序,从而得到关键词的重要性顺序。另一种利用关键词的词项之间的共现关系,也是判断关键词重要性的一个重要依据。但是,前面所述的方法仅利用关键词的词频和词项之间的共现关系中的一种信息,依据一种信息对文本中的关键词重要性进行判断。显然,该方法会使关键词重要性的判断依据不全面,判断结果的可信度较差。
发明内容
本发明的目的在于针对目前在文本处理领域中对关键词重要性的判断存在的不足,提供一种对文本中关键词重要性的排序方法,该方法综合利用词频、词项之间的共现关系和词项的共现分布,计算文本中关键词的重要性,并根据关键词的重要性,对其进行排序,从而提高判断在文本中关键词重要性的准确度和可信度。
为了实现上述目的,本发明的构思是:首先对一篇文本进行分词操作,然后去除停用词,得到该文本的关键词集合;然后统计关键词的词频,得到关键词对应词频向量;将具有断句功能的标点符号设为共现窗口的分界端点,统计词项之间的共现信息,得到关键词的共现矩阵,并从关键词的共现矩阵,得到关键词的共现的分布情况的向量;对关键词的共现矩阵进行处理,得到由关键词共现关系判断出的关键词重要性向量;然后将由关键词共现关系判断出的关键词重要性向量、从关键词的共现矩阵得到关键词的共现的分布情况的向量和关键词的词频向量进行整合,得到关键词在文本中综合的重要性;最后根据计算所得的关键词的重要性大小,对关键词进行排序。
根据上面的发明构思,本发明采用下述的技术方案:
一种对文本中关键词重要性的排序方法,其具体步骤如下:
(1)、对文本进行分词操作,并且去除文本中的停用词,保留文本中具有断句功能的标点符号,将文本中的关键词组合成关键词集合,记为A;
(2)、统计关键词集合A中关键词的词频,将统计的关键词的词频生成关键词的词频向量,记为B;
(3)、按关键词的词频向量B中的词项的顺序,统计文本中关键词之间的共现关系,得到关键词集合A中每个关键词与其他关键词共现的向量,将上述关键词的共现向量组成一个关键词的共现矩阵,记为C;
(4)、设置由关键词的共现矩阵因素得到的关键词权重的初始向量,记为D,关键词权重的初始向量D中的维度与关键词的共现矩阵C中的列数相同,关键词权重的初始向量D中每个元素的值置为关键词的共现矩阵C中的列数的倒数,记为: , 其中,n为关键词的个数;
(5)、对关键词的共现矩阵C与关键词权重的初始向量D进行处理,得到由关键词的共现矩阵因素获得的关键词权重向量,记为F;
(6)、将关键词权重向量F中的所有元素与关键词的词频向量B中的所有对应元素进行相乘,得到由关键词权重向量F和关键词的词频向量B生成的关键词权重向量,记为G;
(8)、根据关键词的最终权重向量H中各元素的值,从大到小排序,每个元素的值的顺序是其值对应的关键词,在该文本中的重要性的顺序。
上述步骤(5)中对关键词的共现矩阵C与关键词权重的初始向量D进行处理,得到由关键词的共现矩阵因素获得的关键词权重向量,记为F,其具体的步骤如下:
(5-1)将关键词的共现矩阵C与关键词权重的初始向量D相乘,得到关键词的词项中间过渡向量,记为E;
(5-2)对关键词的词项中间过渡向量E进行归一化处理,并将归一化后的得到的结果向量,记为向量E’;
(5-3)、设定结果向量E’和关键词权重的初始向量D之间差值的阈值T,若结果向量E’与关键词权重的初始向量D之间的每个元素的差值都不大于阈值T,则将结果向量E’中每个元素的值赋给关键词权重向量F,然后跳转到步骤(6);否则,将结果向量E’中每个元素的值赋给关键词权重的初始向量D中对应的元素,然后跳转到步骤(5-1)。
本发明的一种对文本中关键词重要性的排序方法与传统技术相比较,具有如下的优点:
本发明利用TF-IDF公式中词项在文本集合单篇文本中引入关键词共现关系的分布信息,并将其与关键词的词频和关键词之间的共现关系,三者进行融合起来,来判断文本中的关键词重要性,再对文本中关键词的重要性进行排序,能够提高判断在文本中关键词重要性的准确度和可信度。
附图说明
图1是本发明的一种对文本中关键词重要性的排序方法的流程图。
具体实施方式
以下结合附图对本发明的实施实例做出详述的说明。本发明的一种对文本中关键词重要性的排序方法,如图1所示,其具体步骤如下:
(1)、对文本进行分词操作,并且去除文本中的停用词,保留文本中具有断句功能的标点符号,将文本中的关键词组合成关键词集合,记为A,例如,关键词集合A={数据挖掘,分类,算法,决策树};
(2)、统计关键词集合A中关键词的词频将统计的关键词的词频生成关键词的的词频向量,记为B,例如, 关键词的的词频向量B = [9,6,11,11];
(3)、按关键词的词频向量B中的词项的顺序,统计文本中关键词之间的共现关系,得到关键词集合A中每个关键词语其他关键词共现向量,将上述关键词的共现向量组成一个关键词的共现矩阵,记为C;例如,
按照关键词的词频向量B中的词项顺序,以标点符号中的断号,比如,句号等为分界号,统计关键词之间的共现关系,得到关键词的共现矩阵,其表达式为:
C=,
若两个分界号之间只有一个关键词,则认为一个关键词本身与本身共现关系;
(4)、设置由关键词的共现矩阵因素得到的关键词权重的初始向量,记为D,关键词权重的初始向量D中的维度与关键词的共现矩阵C中的列数相同, 关键词权重的共现初始向量D中每个元素的值置为关键词的共现矩阵C中的列数的倒数,记为:, 其中,n为关键词的个数,例如,关键词的个数n=4,则关键词权重的初始向量;
(5)、对关键词的共现矩阵C与关键词权重的初始向量D进行处理,得到由关键词的共现矩阵因素获得的关键词权重向量,记为F,其具体的步骤如下:
(5-3)、设定结果向量E’和关键词权重的初始向量D之间差值的阈值T,若结果向量E’与关键词权重的初始向量D之间的每个元素的差值都不大于阈值T,即可将结果向量E’中每个元素的值赋给关键词权重向量F,然后跳转到步骤(6);否则,将结果向量E’中每个元素的值赋给关键词权重的初始向量D中对应的元素,然后跳转到步骤(5-1),例如,将阈值T设置为千分之一,经比较可知,结果向量与关键词权重的初始向量之间的有元素的差值大于阈值,则需要再重复步骤(5-1)至步骤(5-3),直到满足差值小于阈值为于千分之一条件,则结果向量;然后将结果向量E’的值赋给关键词权重向量F,则关键词权重向量;
其中, hi为最终的关键词权重向量H的第i个元素;gi为由关键词的共现矩阵因素和关键词的词频因素获得的关键词权重向量G的第i个元素;, 为关键词的个数, 为关键词的共现矩阵C中第i行不为零的元素个数,例如,最终的关键词权重向量H,其表达式为:
(8)、根据关键词的最终权重向量H中各元素的值,从大到小排序,每个元素的值的顺序就是其值对应的关键词,即关键词重要性向量H中各个元素的值的大小顺序是在该文本中的重要性顺序,例如,关键词重要性向量H中各个元素的值的大小顺序是:2.9825>2.2875>1.5907>0.6355,所以,对应的关键词顺序为:决策树、算法、数据挖掘、分类。
Claims (2)
1.一种对文本中关键词重要性的排序方法,其特征在于,其具体步骤如下:
(1)、对文本进行分词操作,并且去除文本中的停用词,保留文本中具有断句功能的标点符号,将文本中的关键词组合成关键词集合,记为A;
(2)、统计关键词集合A中关键词的词频,将统计的关键词的词频生成关键词的词频向量,记为B;
(3)、按关键词的词频向量B中的词项的顺序,统计文本中关键词之间的共现关系,得到关键词集合A中每个关键词与其他关键词共现的向量,将上述关键词的共现向量组成一个关键词的共现矩阵,记为C;
(4)、设置由关键词的共现矩阵因素得到的关键词权重的初始向量,记为D,关键词权重的初始向量D中的维度与关键词的共现矩阵C中的列数相同,关键词权重的初始向量D中每个元素的值置为关键词的共现矩阵C中的列数的倒数,记为: , 其中,n为关键词的个数;
(5)、对关键词的共现矩阵C与关键词权重的初始向量D进行处理,得到由关键词的共现矩阵因素获得的关键词权重向量,记为F;
(6)、将关键词权重向量F中的所有元素与关键词的词频向量B中的所有对应元素进行相乘,得到由关键词权重向量F和关键词的词频向量B生成的关键词权重向量,记为G;
(8)、根据关键词的最终权重向量H中各元素的值,从大到小排序,每个元素的值的顺序是其值对应的关键词,在该文本中的重要性的顺序。
2.根据权利要求1所述的一种对文本中关键词重要性的排序方法,其特征在于,上述步骤(5)所述的对关键词的共现矩阵C与关键词权重的初始向量D进行处理,得到由关键词的共现矩阵因素获得的关键词权重向量,记为F,其具体的步骤如下:
(5-1)将关键词的共现矩阵C与关键词权重的初始向量D相乘,得到关键词的词项中间过渡向量,记为E;
(5-2)对关键词的词项中间过渡向量E进行归一化处理,并将归一化后的得到的结果向量,记为向量E’;
(5-3)、设定结果向量E’和关键词权重的初始向量D之间差值的阈值T,若结果向量E’与关键词权重的初始向量D之间的每个元素的差值都不大于阈值T,则将结果向量E’中每个元素的值赋给关键词权重向量F,然后跳转到步骤(6);否则,将结果向量E’中每个元素的值赋给关键词权重的初始向量D中对应的元素,然后跳转到步骤(5-1)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410000706.8A CN103744951B (zh) | 2014-01-02 | 一种对文本中关键词重要性的排序方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410000706.8A CN103744951B (zh) | 2014-01-02 | 一种对文本中关键词重要性的排序方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103744951A true CN103744951A (zh) | 2014-04-23 |
CN103744951B CN103744951B (zh) | 2016-11-30 |
Family
ID=
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615767A (zh) * | 2015-02-15 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 搜索排序模型的训练方法、搜索处理方法及装置 |
CN105468657A (zh) * | 2014-09-26 | 2016-04-06 | 北大方正集团有限公司 | 一种获取领域重要知识点的方法和*** |
CN106844301A (zh) * | 2017-02-22 | 2017-06-13 | 山西大学 | 一种基于二元和三元共词潜在语义信息的文献表示方法 |
CN106846064A (zh) * | 2017-02-04 | 2017-06-13 | 苏州阳澄湖数字文化创意园投资有限公司 | 基于共现关系的软件潜力排序方法 |
CN107562714A (zh) * | 2016-06-30 | 2018-01-09 | 北京智能管家科技有限公司 | 一种语句相似度计算方法及装置 |
CN107909388A (zh) * | 2017-10-30 | 2018-04-13 | 北京奇艺世纪科技有限公司 | 一种基于广告主买词行为的关键词关联扩展方法和装置 |
CN110022242A (zh) * | 2018-12-13 | 2019-07-16 | 北京神州绿盟信息安全科技股份有限公司 | 一种关键字确定方法及装置 |
CN110032632A (zh) * | 2019-04-04 | 2019-07-19 | 平安科技(深圳)有限公司 | 基于文本相似度的智能客服问答方法、装置及存储介质 |
CN110059319A (zh) * | 2019-04-22 | 2019-07-26 | 上海化学工业区公共管廊有限公司 | 一种基于关键词共现的管廊故障分析方法 |
CN110321415A (zh) * | 2019-05-10 | 2019-10-11 | 福建微码信息科技有限公司 | 一种电话套接式电话机器人*** |
CN110751867A (zh) * | 2019-11-27 | 2020-02-04 | 上海乂学教育科技有限公司 | 英文教学*** |
CN112307155A (zh) * | 2019-07-23 | 2021-02-02 | 慧科讯业有限公司 | 针对互联网中文文本的关键词提取方法和提取*** |
CN112559474A (zh) * | 2019-09-26 | 2021-03-26 | 中国电信股份有限公司 | 日志处理方法和装置 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468657A (zh) * | 2014-09-26 | 2016-04-06 | 北大方正集团有限公司 | 一种获取领域重要知识点的方法和*** |
CN105468657B (zh) * | 2014-09-26 | 2019-06-04 | 北大方正集团有限公司 | 一种获取领域重要知识点的方法和*** |
CN104615767A (zh) * | 2015-02-15 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 搜索排序模型的训练方法、搜索处理方法及装置 |
CN104615767B (zh) * | 2015-02-15 | 2017-12-29 | 百度在线网络技术(北京)有限公司 | 搜索排序模型的训练方法、搜索处理方法及装置 |
CN107562714A (zh) * | 2016-06-30 | 2018-01-09 | 北京智能管家科技有限公司 | 一种语句相似度计算方法及装置 |
CN107562714B (zh) * | 2016-06-30 | 2021-02-09 | 北京儒博科技有限公司 | 一种语句相似度计算方法及装置 |
CN106846064A (zh) * | 2017-02-04 | 2017-06-13 | 苏州阳澄湖数字文化创意园投资有限公司 | 基于共现关系的软件潜力排序方法 |
CN106846064B (zh) * | 2017-02-04 | 2021-04-06 | 苏州大数聚信息技术有限公司 | 基于共现关系的软件潜力排序方法 |
CN106844301A (zh) * | 2017-02-22 | 2017-06-13 | 山西大学 | 一种基于二元和三元共词潜在语义信息的文献表示方法 |
CN106844301B (zh) * | 2017-02-22 | 2020-04-17 | 山西大学 | 一种基于二元和三元共词潜在语义信息的文献表示方法 |
CN107909388A (zh) * | 2017-10-30 | 2018-04-13 | 北京奇艺世纪科技有限公司 | 一种基于广告主买词行为的关键词关联扩展方法和装置 |
CN110022242A (zh) * | 2018-12-13 | 2019-07-16 | 北京神州绿盟信息安全科技股份有限公司 | 一种关键字确定方法及装置 |
CN110022242B (zh) * | 2018-12-13 | 2020-12-25 | 北京神州绿盟信息安全科技股份有限公司 | 一种关键字确定方法及装置 |
CN110032632A (zh) * | 2019-04-04 | 2019-07-19 | 平安科技(深圳)有限公司 | 基于文本相似度的智能客服问答方法、装置及存储介质 |
CN110059319A (zh) * | 2019-04-22 | 2019-07-26 | 上海化学工业区公共管廊有限公司 | 一种基于关键词共现的管廊故障分析方法 |
CN110059319B (zh) * | 2019-04-22 | 2022-11-18 | 上海化学工业区公共管廊有限公司 | 一种基于关键词共现的管廊故障分析方法 |
CN110321415A (zh) * | 2019-05-10 | 2019-10-11 | 福建微码信息科技有限公司 | 一种电话套接式电话机器人*** |
CN112307155A (zh) * | 2019-07-23 | 2021-02-02 | 慧科讯业有限公司 | 针对互联网中文文本的关键词提取方法和提取*** |
CN112559474A (zh) * | 2019-09-26 | 2021-03-26 | 中国电信股份有限公司 | 日志处理方法和装置 |
CN110751867A (zh) * | 2019-11-27 | 2020-02-04 | 上海乂学教育科技有限公司 | 英文教学*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103617157A (zh) | 基于语义的文本相似度计算方法 | |
CN109086375B (zh) | 一种基于词向量增强的短文本主题抽取方法 | |
CN102722709B (zh) | 一种垃圾图片识别方法和装置 | |
CN106599054B (zh) | 一种题目分类及推送的方法及*** | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN105760526B (zh) | 一种新闻分类的方法和装置 | |
CN105786799A (zh) | 网络文章原创性判定方法 | |
CN103336766A (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN106685964B (zh) | 基于恶意网络流量词库的恶意软件检测方法及*** | |
CN103425639A (zh) | 一种基于信息指纹的相似信息识别方法 | |
CN108170650B (zh) | 文本比较方法以及文本比较装置 | |
CN104866572A (zh) | 一种网络短文本聚类方法 | |
CN104679818A (zh) | 一种视频关键帧提取方法及*** | |
CN103324745A (zh) | 基于贝叶斯模型的文本垃圾识别方法和*** | |
CN109165382A (zh) | 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法 | |
CN102760142A (zh) | 一种针对搜索请求抽取搜索结果主题标签的方法和装置 | |
US20180210897A1 (en) | Model generation method, word weighting method, device, apparatus, and computer storage medium | |
US8090720B2 (en) | Method for merging document clusters | |
CN104881458A (zh) | 一种网页主题的标注方法和装置 | |
CN103092828A (zh) | 基于语义分析和语义关系网络的文本相似度度量方法 | |
CN104281674A (zh) | 一种基于集聚系数的自适应聚类方法及*** | |
CN110019653B (zh) | 一种融合文本和标签网络的社交内容表征方法和*** | |
CN104572634A (zh) | 一种交互式抽取可比语料与双语词典的方法及其装置 | |
CN104281694A (zh) | 一种文本情感倾向分析*** | |
CN104951478A (zh) | 信息处理方法和信息处理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20161130 Termination date: 20200102 |