CN112948543A - 基于加权TextRank的多语言多文档摘要抽取方法 - Google Patents
基于加权TextRank的多语言多文档摘要抽取方法 Download PDFInfo
- Publication number
- CN112948543A CN112948543A CN202110195264.7A CN202110195264A CN112948543A CN 112948543 A CN112948543 A CN 112948543A CN 202110195264 A CN202110195264 A CN 202110195264A CN 112948543 A CN112948543 A CN 112948543A
- Authority
- CN
- China
- Prior art keywords
- sentence
- sentences
- word
- weight
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于加权TextRank的多语言多文档摘要抽取方法,属于摘要抽取技术领域,包括步骤:选择A类不同主题的文档集,每个文档集包含B篇中文文档和C篇英文文档,根据中英文进行不同预处理;使用GloVe模型训练词向量,使用维基中文语料训练得到词向量;采用词库映射方法,构建一个具有m个词的高频常用词词库,将文本的语义信息映射到常用的高频词库中,利用词库映射句子语义得到句向量;在句子之间构建TextRank模型,迭代计算句子权重,通过句子位置、和标题的相似度两个指标对句子加权;按照权重由大到小排序,选择权重前K的句子对应原文顺序作为输出,完成摘要抽取过程。该方法简单易行,应用前景广阔。
Description
技术领域
本发明属于摘要抽取技术领域,具体涉及基于加权TextRank的多语言多文档摘要抽取方法。
背景技术
文本摘要(TextSummarization)是自然语言处理(NaturalLanguageProcessing)领域之一。文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要,按照输入类型可分为单文档摘要和多文档摘要,其中单文档摘要从给定的一个文档中生成摘要,多文档摘要从给定的一组主题相关的文档中生成摘要;按照输出类型可分为抽取式摘要和生成式摘要,抽取式摘要从源文档中抽取关键句和关键词组成摘要,摘要全部来源于原文,生成式摘要根据原文,允许生成新的词语、短语来组成摘要。本发明主要研究内容是基于改进加权的TextRank多语言多文档抽取方法。
多语言多文档自动摘要(Multi-lingualMulti-documentSummarization,MMS)指的是给定多篇属于同一个主题的文档,从这多篇文档中抽取出一个摘要,要求生成的摘要在尽可能全面的总结多篇文档的核心思想的同时,需要保证摘要的简洁、精炼。多语言指的是摘要***要同时面向两种以上语言,目前大多数的自动摘要面向的为中文和英文两种语言。
词向量(WordEmbedding),它将来自词汇表的单词或短语被映射成为稠密向量,并且对于相似的词,其对应的词向量也相近。2013年,由TomasMikolov领导的Google团队创建了word2vec,可以比以前的方法更快地训练向量空间模型。为了克服全局矩阵分解和局部上下文窗口的缺陷,在2014年,JeffreyPennington等人提出了一种新的GloVe方法,该方法基于全局词汇共现的统计信息来学习词向量,从而将统计信息与局部上下文窗口方法的优点都结合起来,加快模型的训练速度,又可以控制词的相对权重,更加灵活。实验证明当词向量用作底层输入表示时,单词和短语嵌入已经被证明可以提高NLP任务的性能,例如语法分析和情感分析。
预处理(Preprocessing)的主要任务是对原始的多语言多文档集进行此法、句法层面的初步处理,一方面减小后续步骤使用原始文档是的开销,另一方面使得语言差异对于后续步骤来说可控。常用的预处理步骤有文档合并、分句、分词、词性标注等。这些步骤通常依赖一定的语言学常识,例如,不同语言间所使用的标点符号有所不同,英语在词之间有空格分隔,而汉语没有,需要做特殊的分词处理等。
传统TextRank是基于图的方法,由Mihalcea等人提出,该方法是谷歌搜索引擎PageRank方法的有效应用。TextRank将句子作为节点构建无向有权图,利用边权值迭代更新节点分数,然后选择得分靠前的句子组合为摘要。但是传统的TextRank算法在做文本摘要提取时需要计算句子间的相似性,它使用的是计数句子间相同单词的方法,忽略了词语语义、语法等要素,简单地当成是词语的集合,并且每个词语都是独立出现的,互相不依赖彼此之间出现与否。针对此类问题,本文提出了改进的基于TextRank和GloVe词向量的自动文本摘要算法。使用GloVe训练中文词向量,获取每个词的语义向量,采用基于词向量的高维词库映射计算句子之间的相似度,而取代基于相同词语共同出现的频率作为句子之间的影响权重。利用句子位置和标题的相似度共同作为句子之间权重的影响因子,以提取文本的摘要结果。
发明内容
发明目的:为了改善传统算法忽略了词语语义、语法等要素的缺陷,本发明的基于加权TextRank的多语言多文档摘要抽取方法,提升摘要生成的准确性。
技术方案:为了实现上述目的,本发明是通过如下的技术方案来实现:
基于加权TextRank的多语言多文档摘要抽取方法,包括下列步骤:
步骤S1:选择A类不同主题的文档集,其中每个文档集包含B篇中文文档和C篇英文文档,根据中英文语法不同进行不同预处理;
步骤S2:使用GloVe模型训练词向量,基于维基中文语料训练得到词向量;
步骤S3:采用词库映射方法,构建一个具有m个词的高频常用词词库,将文本的语义信息映射到常用的高频词库中,利用词库映射句子语义得到句向量;
步骤S4:在句子之间构建TextRank模型,迭代计算句子权重,通过句子位置和标题的相似度两个指标对句子加权;
步骤S5:按照权重由大到小排序,选择权重前K的句子对应原文顺序作为输出,完成摘要抽取过程。
进一步地,所述步骤S1进一步包括:
步骤S1-1:针对中文文档,根据标点符号分句,针对英文文档,根据点号分句,设定句子总数为len。得到句集合sentence=[S1,S2,...,Si,...,Slen](1≤i≤len),其中Si表示句集合的第i句话;
步骤S1-2:中文文档使用开源工具StanfordNLP进行分词,英文文档使用开源工具NLTK进行分词;
步骤S1-3:过滤掉文本中无意义的停用词,中文如“的、地、得、了”等,英文如”a”、”the”、”he”等,得到每个句子的词集合W=[w1,w2,w3,...,wi,...,wm](1≤i≤m),其中wi表示句子Si的第i个词语。
进一步地,所述步骤S3进一步包括:
步骤S3-1:利用高维词库R表示文本向量,假设高维词库中共有m个词语,表示词向量的形式为R=[r1,r2,r3,...,ri,...,rm](1≤i≤m),其中ri表示高维词库中第i个词语的词向量。
步骤S3-2:设文本经过分词去掉特殊符号和停用词后,有n个词语,则使用词向量将文本表示为T=[t1,t2,t3,...,ti,...,tn](1≤i≤n),其中ti表示分词后文本中第i个词语的词向量。
进一步地,在所述的步骤S3-2之后进入步骤S3-3:将文本映射到高维词库中,表示为
S=[max1≤j≤n(similarity(r1,tj)),max1≤j≤n(similarity(r2,tj)),...,max1≤j≤n(similarity(rm,tj))],其中tj表示分词后文本中第j个词语的词向量。采用余弦距离表示向量之间的相似度,即similarity(ri,tj)=cos(ri,tj)。
进一步地,所述步骤S4进一步包括:
步骤S4-1:通过计算句子的余弦相似度得到句子间相似度,也就是两个节点边的权重:wij=similarity(Si,Sj)=cos(Si,Sj),其中wij表示句子Si和Sj的句间相似度;
步骤S4-2:将Wij放入构建好的图模型中迭代计算,权重公式为
其中vi表示图中第i个节点,in(vi)表示指向vi的节点集合,vj表示图中第j个节点,out(vj)表示从vj指出的节点集合,vk表示图中第k个节点,wij是步骤S4-1计算得到两节点之间的边权重,d表示阻尼系数,一般取值为0.85。开始迭代计算,设置收敛阈值为0.0001,模型收敛后得到每个句子权重;
步骤S4-3:计算句子位置,当句子处在文本首位或者最后一位时,需要提高句子Si的权重:
其中位于首句的句子将提升2单位的权重,位于末尾句子提升1单位权重,其他位置句子权重不变;
步骤S4-4:计算句子与标题的相似度,句子与文本标题的相似度越高,则句子的重要程度越高:Wt(Si)=similarity(Si,St),其中St表示文本标题的向量;Si为映射到高维词库的句子词向量;similarity(Si,St)表示采用余弦方式表示的句子Si与标题St的相似度;Wt(Si)表示句子Si节点与标题相似度权重;
步骤S4-5:Wp、Wt两种权重影响因子归一化之后得到W′p、W′t;
步骤S4-6:更新原有句子权重w′ij=wij+W′k(Si,Sj)+W′t(Si,Sj),将句子位置权重和标题相似度权重加进去提高原有句子权重;
步骤S4-7:得到权重最高的前K个句子,按照原文顺序作为摘要输出。
有益效果:与现有技术相比,本发明的基于加权TextRank的多语言多文档摘要抽取方法,针对中英文语言类型的文本进行处理,基于图模型的TextRank算法,面向中文和英文文档集结合GloVe模型的词向量,改善了传统TextRank算法中缺少语义信息的特点,所提供的方法简单易行。
附图说明
图1是根据本发明技术方案的基于加权TextRank的多语言多文档摘要抽取方法的步骤流程图;
图2是根据本发明技术方案的基于加权TextRank的多语言多文档摘要抽取方法处理过程示意图。
具体实施例
下面结合附图和具体实施方式来详细说明本发明:为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
如图1,基于加权TextRank的多语言多文档摘要抽取方法,包括下列步骤:
步骤S1:选择A类不同主题的文档集,其中每个文档集包含B篇中文文档和C篇英文文档,根据中英文语法不同进行不同预处理;
步骤S2:使用GloVe模型训练词向量,基于维基中文语料训练得到词向量;
步骤S3:采用词库映射方法,构建一个具有m个词的高频常用词词库,将文本的语义信息映射到常用的高频词库中,利用词库映射句子语义得到句向量;
步骤S4:在句子之间构建TextRank模型,迭代计算句子权重,通过句子位置、和标题的相似度两个指标对句子加权;
步骤S5:按照权重由大到小排序,选择权重前K的句子对应原文顺序作为输出,完成摘要抽取过程。
步骤S1进一步包括:
步骤S1-1:针对中文文档,根据标点符号分句,针对英文文档,根据点号分句,设定句子总数为len。得到句集合sentence=[S1,S2,...,Si,...,Slen](1≤i≤len),其中Si表示句集合的第i句话;
步骤S1-2:中文文档使用开源工具StanfordNLP进行分词,英文文档使用开源工具NLTK进行分词;
步骤S1-3:过滤掉文本中无意义的停用词,中文如“的、地、得、了”等,英文如“a、the、he”等,得到每个句子的词集合W=[w1,w2,w3,...,wi,...,wm](1≤i≤m),其中wi表示句子Si的第i个词语。
步骤S3进一步包括:
步骤S3-1:利用高维词库R表示文本向量,假设高维词库中共有m个词语,表示词向量的形式为R=[r1,r2,r3,...,ri,...,rm](1≤i≤m),其中ri表示高维词库中第i个词语的词向量。
步骤S3-2:设文本经过分词去掉特殊符号和停用词后,有n个词语,则使用词向量将文本表示为T=[t1,t2,t3,...,ti,...,tn](1≤i≤n),其中ti表示分词后文本中第i个词语的词向量;
步骤S3-3:将文本映射到高维词库中,表示为
S=[max1≤j≤n(similarity(r1,tj)),max1≤j≤n(similarity(r2,tj)),...,max1≤j≤n(similarity(rm,tj))],其中tj表示分词后文本中第j个词语的词向量。采用余弦距离表示向量之间的相似度,即similarity(ri,tj)=cos(ri,tj)。
步骤S4进一步包括:
步骤S4-1:通过计算句子的余弦相似度得到句子间相似度,也就是两个节点边的权重:wij=similarity(Si,Sj)=cos(Si,Sj),其中wij表示句子Si和Sj的句间相似度;
步骤S4-2:将Wij放入构建好的图模型中迭代计算,权重公式为
其中vi表示图中第i个节点,in(vi)表示指向vi的节点集合,vj表示图中第j个节点,out(vj)表示从vj指出的节点集合,vk表示图中第k个节点,wij是步骤S4-1计算得到两节点之间的边权重,d表示阻尼系数,一般取值为0.85。开始迭代计算,设置收敛阈值为0.0001,模型收敛后得到每个句子权重;
步骤S4-3:计算句子位置,当句子处在文本首位或者最后一位时,需要提高句子Si的权重:
其中位于首句的句子将提升2单位的权重,位于末尾句子提升1单位权重,其他位置句子权重不变;
步骤S4-4:计算句子与标题的相似度,句子与文本标题的相似度越高,则句子的重要程度越高:Wt(Si)=similarity(Si,St),其中St表示文本标题的向量;Si为映射到高维词库的句子词向量;similarity(Si,St)表示采用余弦方式表示的句子Si与标题St的相似度;Wt(Si表示句子Si节点与标题相似度权重;
步骤S4-5:Wk、Wt两种权重影响因子分别归一化之后得到W′k、W′t;
步骤S4-6:更新原有句子权重w′ij=wij+W′k(Si,Sj)+W′t(Si,Sij),将句子位置权重和标题相似度权重加进去提高原有句子权重;
步骤S4-7:得到权重最高的前K个句子,按照原文顺序作为摘要输出。
下列伪代码描述提供了本发明技术方案中一种程序代码实现方式:
在该伪代码描述中,粗体的语句具有计算机科学技术领域及相关领域中公知的常规含义。例如for...do...end for表示计数控制循环(count-controlled loop),while...do...end while表示条件控制循环(condition-controlled loop),if...then...endif表示条件判断语句。伪代码描述中的变量或符号及其含义见表1。
表1伪代码中的变量或符号及其含义
进一步地,下面结合图2来形象地解释本发明技术方案中核心技术特征——句向量获取和加权(即步骤S3、S4)的处理过程。如图2中箭头、说明文字及图例所示,步骤S3和S4的具体处理过程如下:
步骤S3:采用词库映射方法,构建一个具有m个词的高频常用词词库,将文本的语义信息映射到常用的高频词库中,利用词库映射句子语义得到句向量;
所述内容进一步包括:
步骤S3-1:利用高维词库R表示文本向量,假设高维词库中共有m个词语,表示词向量的形式为R=[r1,r2,r3,...,ri,...,rm](1≤i≤m),其中ri表示高维词库中第i个词语的词向量。
步骤S3-2:设文本经过分词去掉特殊符号和停用词后,有n个词语,则使用词向量将文本表示为T=[t1,t2,t3,...,ti,...,tn](1≤i≤n),其中ti表示分词后文本中第i个词语的词向量;
步骤S3-3:将文本映射到高维词库中,表示为
S=[max1≤j≤n(similarity(r1,tj)),max1≤j≤n(similarity(r2,tj)),...,max1≤j≤n(similarity(rm,tj))],其中tj表示分词后文本中第j个词语的词向量。采用余弦距离表示向量之间的相似度,即similarity(ri,tj)=cos(ri,tj)。
步骤S4:在句子之间构建TextRank模型,迭代计算句子权重,通过句子位置、和标题的相似度两个指标对句子加权,所述内容进一步包括:
步骤S4-1:通过计算句子的余弦相似度得到句子间相似度,也就是两个节点边的权重:wij=similarity(Si,Sj)=cos(Si,Sj),其中wij表示句子Si和Sj的句间相似度;
步骤S4-2:将Wij放入构建好的图模型中迭代计算,权重公式为
其中vi表示图中第i个节点,in(vi)表示指向vi的节点集合,vj表示图中第j个节点,out(vj)表示从vj指出的节点集合,vk表示图中第k个节点,wij是步骤S4-1计算得到两节点之间的边权重,d表示阻尼系数,一般取值为0.85。开始迭代计算,设置收敛阈值为0.0001,模型收敛后得到每个句子权重;
步骤S4-3:计算句子位置,当句子处在文本首位或者最后一位时,需要提高句子Si的权重:
其中位于首句的句子将提升2单位的权重,位于末尾句子提升1单位权重,其他位置句子权重不变;
步骤S4-4:计算句子与标题的相似度,句子与文本标题的相似度越高,则句子的重要程度越高:Wt(Si)=similarity(Si,St),其中St表示文本标题的向量;Si为映射到高维词库的句子词向量;similarity(Si,St)表示采用余弦方式表示的句子Si与标题St的相似度;Wt(Si表示句子Si节点与标题相似度权重;
步骤S4-5:Wk、Wt两种权重影响因子分别归一化之后得到W′k、W′t;
步骤S4-6:更新原有句子权重w′ij=wij+W′k(Si,Sj)+W′t(Si,Sj),将句子位置权重和标题相似度权重加进去提高原有句子权重;
步骤S4-7:得到权重最高的前K个句子,按照原文顺序作为摘要输出。
结果展示
上述实验以K取值5为例。从上可见,本文算法生成的摘要内容不一定全面,但它与原始算法的摘要相比,在内容上更契合,也能正确的表达文章核心思想。且本文算法生成的摘要,也具有较好的语意连贯性,便于读者的理解。
综上所述,由本发明上述技术方案及其具体实施方式(包括优选实施例)可以理解的是,本发明的有益技术效果主要包括四个方面:(1)针对中英文语言类型的文本进行处理;(2)改善了传统TextRank算法中缺少语义信息的特点;(3)所提供的方法简单易行;(4)所提供的方法在摘要生成等领域具有广阔的应用前景。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (5)
1.基于加权TextRank的多语言多文档摘要抽取方法,其特征在于,包括下列步骤:
步骤S1:选择A类不同主题的文档集,其中每个文档集包含B篇中文文档和C篇英文文档,进行预处理;
步骤S2:使用GloVe模型训练词向量,基于维基中文语料训练得到词向量;
步骤S3:采用词库映射方法,构建一个具有m个词的词库,将文本的语义信息映射到该词库中,利用词库映射句子语义得到句向量;
步骤S4:在句子之间构建TextRank模型,迭代计算句子权重,通过句子位置和标题的相似度两个指标对句子加权;
步骤S5:按照权重由大到小排序,选择权重前K的句子对应原文顺序作为输出,完成摘要抽取过程。
2.根据权利要求1所述的基于加权TextRank的多语言多文档摘要抽取方法,其特征在于,所述步骤S1进一步包括:
步骤S1-1:针对中文文档,根据标点符号分句,针对英文文档,根据点号分句,设定句子总数为len;得到句集合sentence=[S1,S2,...,Si,...,Slen],1≤i≤len,其中Si表示句集合的第i句话;
步骤S1-2:中文文档使用开源工具StanfordNLP进行分词,英文文档使用开源工具NLTK进行分词;
步骤S1-3:过滤掉文本中无意义的停用词得到每个句子的词集合W=[w1,w2,w3,...,wi,...,wm],1≤i≤m,其中wi表示句子Si的第i个词语。
3.根据权利要求1所述的基于加权TextRank的多语言多文档摘要抽取方法,其特征在于,所述步骤S3进一步包括:
步骤S3-1:利用高维词库R表示文本向量,假设高维词库中共有m个词语,表示词向量的形式为R=[r1,r2,r3,...,ri,...,rm],1≤i≤m,其中ri表示高维词库中第i个词语的词向量;
步骤S3-2:设文本经过分词去掉特殊符号和停用词后,有n个词语,则使用词向量将文本表示为T=[t1,t2,t3,...,ti,...,tn],1≤i≤n,其中ti表示分词后文本中第i个词语的词向量。
4.根据权利要求3所述的基于加权TextRank的多语言多文档摘要抽取方法,其特征在于,在所述的步骤S3-2之后进入步骤S3-3:将文本映射到高维词库中,
表示为
S=
[max1≤j≤n(similarity(r1,tj)),max1≤j≤n(similarity(r2,tj)),...,max1≤j≤n(similarity(rm,tj))],其中tj表示分词后文本中第j个词语的词向量。采用余弦距离表示向量之间的相似度,即similarity(ri,tj)=cos(ri,tj)。
5.根据权利要求4所述的基于加权TextRank的多语言多文档摘要抽取方法,其特征在于,所述步骤S4进一步包括:
步骤S4-1:通过计算句子的余弦相似度得到句子间相似度,也就是两个节点边的权重:wij=similarity(Si,Sj)=cos(Si,Sj),其中wij表示句子Si和Sj的句间相似度;
步骤S4-2:将Wij放入构建好的图模型中迭代计算,权重公式为
其中vi表示第i个节点,in(vi)表示指向vi的节点集合,vj表示图中第j个节点,out(vj)表示从vj指出的节点集合,vk表示图中第k个节点,wij是步骤S4-1计算得到两节点之间的边权重,d表示阻尼系数,通常取0.85;开始迭代计算,设置收敛阈值为0.0001,模型收敛后得到每个句子权重;
步骤S4-3:计算句子位置,当句子处在文本首位或者最后一位时,需要提高句子Si的权重:
其中位于首句的句子将提升2单位的权重,位于末尾句子提升1单位权重,其他位置句子权重不变;
步骤S4-4:计算句子与标题的相似度,句子与文本标题的相似度越高,则句子的重要程度越高:Wt(Si)=similarity(Si,St),其中St表示文本标题的向量;Si为映射到高维词库的句子词向量;similarity(Si,St)表示采用余弦方式表示的句子Si与标题St的相似度;Wt(Si)表示句子Si节点与标题相似度权重;
步骤S4-5:Wp、Wt两种权重影响因子归一化之后得到W′p、W′t;
步骤S4-6:更新原有句子权重w′ij=wij+W′k(Si,Sj)+W′t(Si,Sj),将句子位置权重和标题相似度权重加进去提高原有句子权重;
步骤S4-7:得到权重最高的K个句子,按照原文顺序作为摘要输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110195264.7A CN112948543A (zh) | 2021-02-20 | 2021-02-20 | 基于加权TextRank的多语言多文档摘要抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110195264.7A CN112948543A (zh) | 2021-02-20 | 2021-02-20 | 基于加权TextRank的多语言多文档摘要抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112948543A true CN112948543A (zh) | 2021-06-11 |
Family
ID=76245014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110195264.7A Withdrawn CN112948543A (zh) | 2021-02-20 | 2021-02-20 | 基于加权TextRank的多语言多文档摘要抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112948543A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392245A (zh) * | 2021-06-16 | 2021-09-14 | 南京大学 | 一种用于众测任务发布的文本摘要与图文检索生成方法 |
CN113869033A (zh) * | 2021-09-24 | 2021-12-31 | 厦门大学 | 融入迭代式句对关系预测的图神经网络句子排序方法 |
CN114328826A (zh) * | 2021-12-20 | 2022-04-12 | 青岛檬豆网络科技有限公司 | 一种提取技术成果、技术需求的关键词和文摘的方法 |
CN114491152A (zh) * | 2021-12-02 | 2022-05-13 | 南京硅基智能科技有限公司 | 一种摘要视频的生成方法、存储介质、电子装置 |
CN114637840A (zh) * | 2022-04-27 | 2022-06-17 | 北京清博智能科技有限公司 | 一种基于关键词的摘要生成***及方法 |
CN114912425A (zh) * | 2022-05-17 | 2022-08-16 | 中国银行股份有限公司 | 演示文稿生成方法及装置 |
CN116049385A (zh) * | 2023-04-03 | 2023-05-02 | 北京太极信息***技术有限公司 | 一种生成信创产业研究报告的方法、装置和设备及平台 |
-
2021
- 2021-02-20 CN CN202110195264.7A patent/CN112948543A/zh not_active Withdrawn
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392245A (zh) * | 2021-06-16 | 2021-09-14 | 南京大学 | 一种用于众测任务发布的文本摘要与图文检索生成方法 |
CN113392245B (zh) * | 2021-06-16 | 2023-12-26 | 南京大学 | 一种用于众测任务发布的文本摘要与图文检索生成方法 |
CN113869033A (zh) * | 2021-09-24 | 2021-12-31 | 厦门大学 | 融入迭代式句对关系预测的图神经网络句子排序方法 |
CN114491152A (zh) * | 2021-12-02 | 2022-05-13 | 南京硅基智能科技有限公司 | 一种摘要视频的生成方法、存储介质、电子装置 |
CN114491152B (zh) * | 2021-12-02 | 2023-10-31 | 南京硅基智能科技有限公司 | 一种摘要视频的生成方法、存储介质、电子装置 |
CN114328826A (zh) * | 2021-12-20 | 2022-04-12 | 青岛檬豆网络科技有限公司 | 一种提取技术成果、技术需求的关键词和文摘的方法 |
CN114328826B (zh) * | 2021-12-20 | 2024-06-11 | 青岛檬豆网络科技有限公司 | 一种提取技术成果、技术需求的关键词和文摘的方法 |
CN114637840A (zh) * | 2022-04-27 | 2022-06-17 | 北京清博智能科技有限公司 | 一种基于关键词的摘要生成***及方法 |
CN114912425A (zh) * | 2022-05-17 | 2022-08-16 | 中国银行股份有限公司 | 演示文稿生成方法及装置 |
CN116049385A (zh) * | 2023-04-03 | 2023-05-02 | 北京太极信息***技术有限公司 | 一种生成信创产业研究报告的方法、装置和设备及平台 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112948543A (zh) | 基于加权TextRank的多语言多文档摘要抽取方法 | |
CN105138514B (zh) | 一种基于词典的正向逐次加一字最大匹配中文分词方法 | |
CN109635297B (zh) | 一种实体消歧方法、装置、计算机装置及计算机存储介质 | |
CN106610951A (zh) | 改进的基于语义分析的文本相似度求解算法 | |
WO2008107305A2 (en) | Search-based word segmentation method and device for language without word boundary tag | |
Sahu et al. | Prashnottar: a Hindi question answering system | |
CN108681574A (zh) | 一种基于文本摘要的非事实类问答答案选择方法及*** | |
CN106569993A (zh) | 一种挖掘领域术语间上下位关系的方法及装置 | |
CN102214189B (zh) | 基于数据挖掘获取词用法知识的***及方法 | |
Rahimi et al. | An overview on extractive text summarization | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
Suleiman et al. | Bag-of-concept based keyword extraction from Arabic documents | |
CN106598941A (zh) | 一种全局优化文本关键词质量的算法 | |
CN108959630A (zh) | 一种面向英文无结构文本的人物属性抽取方法 | |
Suleiman et al. | Arabic text keywords extraction using word2vec | |
Sarhan et al. | Arabic relation extraction: A survey | |
Sembok et al. | Arabic word stemming algorithms and retrieval effectiveness | |
Watrin et al. | An N-gram frequency database reference to handle MWE extraction in NLP applications | |
CN103336803A (zh) | 一种嵌名春联的计算机生成方法 | |
CN111178009B (zh) | 一种基于特征词加权的文本多语种识别方法 | |
Hakkani-Tur et al. | Statistical sentence extraction for information distillation | |
Zhang et al. | Domain-specific term extraction from free texts | |
MalarSelvi et al. | Analysis of Different Approaches for Automatic Text Summarization | |
CN111209737B (zh) | 噪声文档的筛除方法及计算机可读存储介质 | |
CN110688840B (zh) | 一种文本转换方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210611 |