CN114328865A - 一种改进的TextRank多特征融合教育资源关键词提取方法 - Google Patents

一种改进的TextRank多特征融合教育资源关键词提取方法 Download PDF

Info

Publication number
CN114328865A
CN114328865A CN202111542393.5A CN202111542393A CN114328865A CN 114328865 A CN114328865 A CN 114328865A CN 202111542393 A CN202111542393 A CN 202111542393A CN 114328865 A CN114328865 A CN 114328865A
Authority
CN
China
Prior art keywords
word
weight
speech
idf
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111542393.5A
Other languages
English (en)
Inventor
赵弘扬
谢强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202111542393.5A priority Critical patent/CN114328865A/zh
Publication of CN114328865A publication Critical patent/CN114328865A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种改进的TextRank多特征融合教育资源关键词提取方法,首先利用中文分词、去除停用词等因素对资源进行文本预处理,然后分别进行TF‑IDF、词位置和词性的权重计算,之后为不同权重的TF‑IDF、词位置和词性分配对应参数,最后将之前两步计算的权重值和参数值带入,形成多特征融合计算词语的分值,再对分值进行排序,选取前N个词语作为资源的关键词。实验结果表明该方法能够稳定的从教育资源中提取关键词信息,提高关键词的质量。它的先进性主要有较高的准确性和稳定性,在一定程度上提高了关键词提取的质量,提高了教育资源的利用效率。

Description

一种改进的TextRank多特征融合教育资源关键词提取方法
技术领域
本发明属于数据挖掘技术领域,尤其是一种改进的TextRank多特征融合教育资源关键词提取的方法。
背景技术
随着互联网+教育的快速发展,网络教育资源呈现***式增长,面对如此海量的信息,人们需要花费大量时间和精力对其进行挑选和甄别。教育资源核心内容和主题信息的浓缩可以依靠关键词展现出来,用户可以通过阅读关键词快速明确文章主旨,从海量的资源中获取有用信息。面对这样的挑战,关键词提取(Keyword extraction)技术应运而生,使用关键词提取技术能够从这些海量数据中获取有效的信息。然而,由于数据的***性增长,如何使用数据挖掘技术快速有效地从海量数据中获取有效的信息是目前迫切需要解决的问题。
发明内容
发明目的:本发明的目的在于克服现有技术的不足,提出一种设计合理、准确且稳定的改进的TextRank多特征融合教育资源关键词提取方法。
本发明解决其技术问题是采取以下技术方案实现的:
一种改进的TextRank多特征融合教育资源关键词提取方法,包括如下步骤:
步骤一:获取教育资源数据;
步骤二:将获取到的教育资源数据进行预处理,所述预处理包括中文分词和去除停用词;
步骤三:将预处理后的教育资源数据整理成文本集;
步骤四:分别进行TF-IDF、词位置和词性的权重计算;
步骤五:为步骤4计算的不同权重的TF-IDF、词位置和词性分配对应参数;
步骤六:将之前步骤四计算的权重值和步骤五分配的参数值融合,形成多特征融合计算词语的分值;
步骤七:将词语按照步骤六计算的分值进行排序;
步骤八:选取步骤七排序后的前N个词语作为资源的关键词。
进一步的,所述步骤四中分别计算TF-IDF、词位置和词性的权重方法为:
41)计算TF-IDF的权重:
WT(i)=tfi,j×idfi
其中,WT(i)指单词i在文档j中的重要性,即单词权重;tfi,j表示词频,是指词语i在文档j中的出现的次数占比;idfi即词语i的逆文档频率,反映词语在整体语料库中出现频率;
42)计算词位置的权重:
Figure BDA0003408799950000021
在文档中,假设文档总段数为a,单词i所在段落为b段,则b段所有单词的权重由WL(i)计算得到;文档只有一段的情况下,首尾句的权重大,中间句子所含单词权重小,依然按照WL(i)进行计算;
43)计算词性的权重:
词性按照名词、动词、形容词、副词分别设置权重为5,4,3,2,依据文本中名词、动词、形容词、副词的词性分别赋予对应权重值,得到词性权重值WPos(i)
进一步的,所述步骤六中多特征融合计算词语的分值方法为:
WWeight(i)=αWT(i)+βWL(i)+γWPos(i)
其中,α+β+γ=1,α,β,γ均大于0,分别为TF-IDF算法、词语所在位置以及词性特征所占比例的大小;WT(i)是词语通过TF-IDF计算得到的权重值,WL(i)是词语的位置信息权重值,WPos(i)是词性特征权重值,最终计算出融合后的权重值;
计算节点vj到节点vi边的转移概率值:
Figure BDA0003408799950000022
计算节点vi的权重值:
Figure BDA0003408799950000031
其中,d是一个阻尼系数,一般取值为0.85。
进一步的,所述步骤七中对已计算出的分值进行排序方法为:
依据步骤六计算得出的节点vi的权重值公式,根据节点vi的权重值大小按从大到小的顺序对其进行排列。
有益效果:本发明在文本关键词提取领域中的应用体现了其高效准确性。在海量在线教育资源的环境下,根据中文文本的特点,利用词语在语料库中的重要度、文本的位置信息及词语的属性的影响,对线上资源进行关键词的提取。整个关键词提取的过程加入了多特征融合的,并且在提取的过程中融合了多特征的相关性,使关键词提取结果更加准确。提高了关键词的准确性和稳定性,在教育资源关键词提取方面,有利于教育资源更好的利用和管理。
附图说明
图1为关键词提取方法总体流程图。
具体实施方式
下面结合附图对本发明做更进一步的解释。
本发明环境为python 3.6版本的实验环境中。
一种改进的TextRank多特征融合教育资源关键词提取方法,包括如下步骤:
步骤一:首先,从相关教育资源平台中获取教育资源数据。
步骤二:然后,对所收集的文件集进行预处理,预处理的内容包括:
21)将获取的教育资源数据转换成文本格式;
22)按段进行中文分词处理,按照中文停用词表去除停用词;
步骤三:随后,将预处理后的教育资源数据整理成文本集。
步骤四:之后,分别进行TF-IDF、词位置和词性的权重计算;
41)计算TF-IDF的权重:
WT(i)=tfi,j×idfi
其中,WT(i)指单词i在文档j中的重要性,即单词权重;tfi,j表示词频,是指词语i在文档j中的出现的次数占比;idfi即词语i的逆文档频率,反映词语在整体语料库中出现频率;
42)计算词位置的权重:
Figure BDA0003408799950000041
在文档中,假设文档总段数为a,单词i所在段落为b段,则b段所有单词的权重由WL(i)计算得到;文档只有一段的情况下,首尾句的权重大,中间句子所含单词权重小,依然按照WL(i)进行计算;
43)计算词性的权重:
词性按照名词、动词、形容词、副词分别设置权重为5,4,3,2,依据文本中名词、动词、形容词、副词的词性分别赋予对应权重值,得到词性权重值WPos(i)
步骤五:为步骤4计算的不同权重的TF-IDF、词位置和词性分配对应参数;
步骤六:将之前步骤四计算的权重值和步骤五分配的参数值融合,形成多特征融合计算词语的分值;
多特征融合计算词语的分值方法为:
WWeight(i)=αWT(i)+βWL(i)+γWPos(i)
其中,α+β+γ=1,α,β,γ均大于0,分别为TF-IDF算法、词语所在位置以及词性特征所占比例的大小;WT(i)是词语通过TF-IDF计算得到的权重值,WL(i)是词语的位置信息权重值,WPos(i)是词性特征权重值,最终计算出融合后的权重值;
计算节点vj到节点vi边的转移概率值:
Figure BDA0003408799950000051
计算节点vi的权重值:
Figure BDA0003408799950000052
其中,d是一个阻尼系数,一般取值为0.85。
步骤七:将词语按照步骤六计算的分值进行排序;
依据步骤六计算得出的节点vi的权重值公式,根据节点vi的权重值大小按从大到小的顺序对其进行排列。
步骤八:选取步骤七排序后的前N个词语作为资源的关键词。

Claims (4)

1.一种改进的TextRank多特征融合教育资源关键词提取方法,包括如下步骤:
步骤一:获取教育资源数据;
步骤二:将获取到的教育资源数据进行预处理,所述预处理包括中文分词和去除停用词;
步骤三:将预处理后的教育资源数据整理成文本集;
步骤四:分别进行TF-IDF、词位置和词性的权重计算;
步骤五:为步骤4计算的不同权重的TF-IDF、词位置和词性分配对应参数;
步骤六:将之前步骤四计算的权重值和步骤五分配的参数值融合,形成多特征融合计算词语的分值;
步骤七:将词语按照步骤六计算的分值进行排序;
步骤八:选取步骤七排序后的前N个词语作为资源的关键词。
2.根据权利要求1所述的一种改进的TextRank多特征融合教育资源关键词提取方法,其特征在于,所述步骤四中分别计算TF-IDF、词位置和词性的权重方法为:
41)计算TF-IDF的权重:
WT(i)=tfi,j×idfi
其中,WT(i)指单词i在文档j中的重要性,即单词权重;tfi,j表示词频,是指词语i在文档j中的出现的次数占比;idfi即词语i的逆文档频率,反映词语在整体语料库中出现频率;
42)计算词位置的权重:
Figure FDA0003408799940000011
在文档中,假设文档总段数为a,单词i所在段落为b段,则b段所有单词的权重由WL(i)计算得到;文档只有一段的情况下,首尾句的权重大,中间句子所含单词权重小,依然按照WL(i)进行计算;
43)计算词性的权重:
词性按照名词、动词、形容词、副词分别设置权重为5,4,3,2,依据文本中名词、动词、形容词、副词的词性分别赋予对应权重值,得到词性权重值WPos(i)
3.根据权利要求2所述的一种改进的TextRank多特征融合教育资源关键词提取方法,其特征在于,所述步骤六中多特征融合计算词语的分值方法为:
WWeight(i)=αWT(i)+βWL(i)+γWPos(i)
其中,α+β+γ=1,α,β,γ均大于0,分别为TF-IDF算法、词语所在位置以及词性特征所占比例的大小;WT(i)是词语通过TF-IDF计算得到的权重值,WL(i)是词语的位置信息权重值,WPos(i)是词性特征权重值,最终计算出融合后的权重值;
计算节点vj到节点vi边的转移概率值:
Figure FDA0003408799940000021
计算节点vi的权重值:
Figure FDA0003408799940000022
其中,d是一个阻尼系数,一般取值为0.85。
4.根据权利要求3所述的一种改进的TextRank多特征融合教育资源关键词提取方法,其特征在于,所述步骤七中对已计算出的分值进行排序方法为:
依据步骤六计算得出的节点vi的权重值公式,根据节点vi的权重值大小按从大到小的顺序对其进行排列。
CN202111542393.5A 2021-12-14 2021-12-14 一种改进的TextRank多特征融合教育资源关键词提取方法 Pending CN114328865A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111542393.5A CN114328865A (zh) 2021-12-14 2021-12-14 一种改进的TextRank多特征融合教育资源关键词提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111542393.5A CN114328865A (zh) 2021-12-14 2021-12-14 一种改进的TextRank多特征融合教育资源关键词提取方法

Publications (1)

Publication Number Publication Date
CN114328865A true CN114328865A (zh) 2022-04-12

Family

ID=81052228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111542393.5A Pending CN114328865A (zh) 2021-12-14 2021-12-14 一种改进的TextRank多特征融合教育资源关键词提取方法

Country Status (1)

Country Link
CN (1) CN114328865A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115859964A (zh) * 2022-11-24 2023-03-28 安徽冠成教育科技有限公司 基于教育云平台的教育资源共享方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115859964A (zh) * 2022-11-24 2023-03-28 安徽冠成教育科技有限公司 基于教育云平台的教育资源共享方法及***
CN115859964B (zh) * 2022-11-24 2023-04-28 安徽冠成教育科技有限公司 基于教育云平台的教育资源共享方法及***

Similar Documents

Publication Publication Date Title
Seki et al. Overview of multilingual opinion analysis task at NTCIR-7.
Furlan et al. Semantic similarity of short texts in languages with a deficient natural language processing support
CN108304445B (zh) 一种文本摘要生成方法和装置
CN109582704B (zh) 招聘信息和求职简历匹配的方法
Kiyoumarsi Evaluation of automatic text summarizations based on human summaries
CN112989802B (zh) 一种弹幕关键词提取方法、装置、设备及介质
Al-Taani et al. An extractive graph-based Arabic text summarization approach
Al-Kabi et al. Evaluating social context in arabic opinion mining.
Wu et al. ECNU at SemEval-2017 task 3: Using traditional and deep learning methods to address community question answering task
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
JP2007047974A (ja) 情報抽出装置および情報抽出方法
CN114328865A (zh) 一种改进的TextRank多特征融合教育资源关键词提取方法
CN111488453A (zh) 资源分级方法、装置、设备及存储介质
CN111191413B (zh) 一种基于图排序模型的事件核心内容自动标记方法、装置及***
CN112184021A (zh) 一种基于相似支持集的答案质量评估方法
JP6942759B2 (ja) 情報処理装置、プログラム及び情報処理方法
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
Aliyanto et al. Supervised probabilistic latent semantic analysis (sPLSA) for estimating technology readiness level
CN114117309A (zh) 一种网页实体提取方法、装置、计算机设备及存储介质
Agrawal et al. Enrichment and reductionism: Two approaches for web query classification
Furlan et al. Comparable evaluation of contemporary corpus-based and knowledge-based semantic similarity measures of short texts
CN114969324A (zh) 基于主题词特征扩展的中文新闻标题分类方法
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质
CN113934910A (zh) 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法
Lee et al. Building place-specific sentiment Lexicon

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination