CN112948543A - 基于加权TextRank的多语言多文档摘要抽取方法 - Google Patents

基于加权TextRank的多语言多文档摘要抽取方法 Download PDF

Info

Publication number
CN112948543A
CN112948543A CN202110195264.7A CN202110195264A CN112948543A CN 112948543 A CN112948543 A CN 112948543A CN 202110195264 A CN202110195264 A CN 202110195264A CN 112948543 A CN112948543 A CN 112948543A
Authority
CN
China
Prior art keywords
sentence
sentences
word
weight
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110195264.7A
Other languages
English (en)
Inventor
唐彦
刘晓莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202110195264.7A priority Critical patent/CN112948543A/zh
Publication of CN112948543A publication Critical patent/CN112948543A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于加权TextRank的多语言多文档摘要抽取方法,属于摘要抽取技术领域,包括步骤:选择A类不同主题的文档集,每个文档集包含B篇中文文档和C篇英文文档,根据中英文进行不同预处理;使用GloVe模型训练词向量,使用维基中文语料训练得到词向量;采用词库映射方法,构建一个具有m个词的高频常用词词库,将文本的语义信息映射到常用的高频词库中,利用词库映射句子语义得到句向量;在句子之间构建TextRank模型,迭代计算句子权重,通过句子位置、和标题的相似度两个指标对句子加权;按照权重由大到小排序,选择权重前K的句子对应原文顺序作为输出,完成摘要抽取过程。该方法简单易行,应用前景广阔。

Description

基于加权TextRank的多语言多文档摘要抽取方法
技术领域
本发明属于摘要抽取技术领域,具体涉及基于加权TextRank的多语言多文档摘要抽取方法。
背景技术
文本摘要(TextSummarization)是自然语言处理(NaturalLanguageProcessing)领域之一。文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要,按照输入类型可分为单文档摘要和多文档摘要,其中单文档摘要从给定的一个文档中生成摘要,多文档摘要从给定的一组主题相关的文档中生成摘要;按照输出类型可分为抽取式摘要和生成式摘要,抽取式摘要从源文档中抽取关键句和关键词组成摘要,摘要全部来源于原文,生成式摘要根据原文,允许生成新的词语、短语来组成摘要。本发明主要研究内容是基于改进加权的TextRank多语言多文档抽取方法。
多语言多文档自动摘要(Multi-lingualMulti-documentSummarization,MMS)指的是给定多篇属于同一个主题的文档,从这多篇文档中抽取出一个摘要,要求生成的摘要在尽可能全面的总结多篇文档的核心思想的同时,需要保证摘要的简洁、精炼。多语言指的是摘要***要同时面向两种以上语言,目前大多数的自动摘要面向的为中文和英文两种语言。
词向量(WordEmbedding),它将来自词汇表的单词或短语被映射成为稠密向量,并且对于相似的词,其对应的词向量也相近。2013年,由TomasMikolov领导的Google团队创建了word2vec,可以比以前的方法更快地训练向量空间模型。为了克服全局矩阵分解和局部上下文窗口的缺陷,在2014年,JeffreyPennington等人提出了一种新的GloVe方法,该方法基于全局词汇共现的统计信息来学习词向量,从而将统计信息与局部上下文窗口方法的优点都结合起来,加快模型的训练速度,又可以控制词的相对权重,更加灵活。实验证明当词向量用作底层输入表示时,单词和短语嵌入已经被证明可以提高NLP任务的性能,例如语法分析和情感分析。
预处理(Preprocessing)的主要任务是对原始的多语言多文档集进行此法、句法层面的初步处理,一方面减小后续步骤使用原始文档是的开销,另一方面使得语言差异对于后续步骤来说可控。常用的预处理步骤有文档合并、分句、分词、词性标注等。这些步骤通常依赖一定的语言学常识,例如,不同语言间所使用的标点符号有所不同,英语在词之间有空格分隔,而汉语没有,需要做特殊的分词处理等。
传统TextRank是基于图的方法,由Mihalcea等人提出,该方法是谷歌搜索引擎PageRank方法的有效应用。TextRank将句子作为节点构建无向有权图,利用边权值迭代更新节点分数,然后选择得分靠前的句子组合为摘要。但是传统的TextRank算法在做文本摘要提取时需要计算句子间的相似性,它使用的是计数句子间相同单词的方法,忽略了词语语义、语法等要素,简单地当成是词语的集合,并且每个词语都是独立出现的,互相不依赖彼此之间出现与否。针对此类问题,本文提出了改进的基于TextRank和GloVe词向量的自动文本摘要算法。使用GloVe训练中文词向量,获取每个词的语义向量,采用基于词向量的高维词库映射计算句子之间的相似度,而取代基于相同词语共同出现的频率作为句子之间的影响权重。利用句子位置和标题的相似度共同作为句子之间权重的影响因子,以提取文本的摘要结果。
发明内容
发明目的:为了改善传统算法忽略了词语语义、语法等要素的缺陷,本发明的基于加权TextRank的多语言多文档摘要抽取方法,提升摘要生成的准确性。
技术方案:为了实现上述目的,本发明是通过如下的技术方案来实现:
基于加权TextRank的多语言多文档摘要抽取方法,包括下列步骤:
步骤S1:选择A类不同主题的文档集,其中每个文档集包含B篇中文文档和C篇英文文档,根据中英文语法不同进行不同预处理;
步骤S2:使用GloVe模型训练词向量,基于维基中文语料训练得到词向量;
步骤S3:采用词库映射方法,构建一个具有m个词的高频常用词词库,将文本的语义信息映射到常用的高频词库中,利用词库映射句子语义得到句向量;
步骤S4:在句子之间构建TextRank模型,迭代计算句子权重,通过句子位置和标题的相似度两个指标对句子加权;
步骤S5:按照权重由大到小排序,选择权重前K的句子对应原文顺序作为输出,完成摘要抽取过程。
进一步地,所述步骤S1进一步包括:
步骤S1-1:针对中文文档,根据标点符号分句,针对英文文档,根据点号分句,设定句子总数为len。得到句集合sentence=[S1,S2,...,Si,...,Slen](1≤i≤len),其中Si表示句集合的第i句话;
步骤S1-2:中文文档使用开源工具StanfordNLP进行分词,英文文档使用开源工具NLTK进行分词;
步骤S1-3:过滤掉文本中无意义的停用词,中文如“的、地、得、了”等,英文如”a”、”the”、”he”等,得到每个句子的词集合W=[w1,w2,w3,...,wi,...,wm](1≤i≤m),其中wi表示句子Si的第i个词语。
进一步地,所述步骤S3进一步包括:
步骤S3-1:利用高维词库R表示文本向量,假设高维词库中共有m个词语,表示词向量的形式为R=[r1,r2,r3,...,ri,...,rm](1≤i≤m),其中ri表示高维词库中第i个词语的词向量。
步骤S3-2:设文本经过分词去掉特殊符号和停用词后,有n个词语,则使用词向量将文本表示为T=[t1,t2,t3,...,ti,...,tn](1≤i≤n),其中ti表示分词后文本中第i个词语的词向量。
进一步地,在所述的步骤S3-2之后进入步骤S3-3:将文本映射到高维词库中,表示为
S=[max1≤j≤n(similarity(r1,tj)),max1≤j≤n(similarity(r2,tj)),...,max1≤j≤n(similarity(rm,tj))],其中tj表示分词后文本中第j个词语的词向量。采用余弦距离表示向量之间的相似度,即similarity(ri,tj)=cos(ri,tj)。
进一步地,所述步骤S4进一步包括:
步骤S4-1:通过计算句子的余弦相似度得到句子间相似度,也就是两个节点边的权重:wij=similarity(Si,Sj)=cos(Si,Sj),其中wij表示句子Si和Sj的句间相似度;
步骤S4-2:将Wij放入构建好的图模型中迭代计算,权重公式为
Figure BDA0002945273640000031
其中vi表示图中第i个节点,in(vi)表示指向vi的节点集合,vj表示图中第j个节点,out(vj)表示从vj指出的节点集合,vk表示图中第k个节点,wij是步骤S4-1计算得到两节点之间的边权重,d表示阻尼系数,一般取值为0.85。开始迭代计算,设置收敛阈值为0.0001,模型收敛后得到每个句子权重;
步骤S4-3:计算句子位置,当句子处在文本首位或者最后一位时,需要提高句子Si的权重:
Figure BDA0002945273640000041
其中位于首句的句子将提升2单位的权重,位于末尾句子提升1单位权重,其他位置句子权重不变;
步骤S4-4:计算句子与标题的相似度,句子与文本标题的相似度越高,则句子的重要程度越高:Wt(Si)=similarity(Si,St),其中St表示文本标题的向量;Si为映射到高维词库的句子词向量;similarity(Si,St)表示采用余弦方式表示的句子Si与标题St的相似度;Wt(Si)表示句子Si节点与标题相似度权重;
步骤S4-5:Wp、Wt两种权重影响因子归一化之后得到W′p、W′t
步骤S4-6:更新原有句子权重w′ij=wij+W′k(Si,Sj)+W′t(Si,Sj),将句子位置权重和标题相似度权重加进去提高原有句子权重;
步骤S4-7:得到权重最高的前K个句子,按照原文顺序作为摘要输出。
有益效果:与现有技术相比,本发明的基于加权TextRank的多语言多文档摘要抽取方法,针对中英文语言类型的文本进行处理,基于图模型的TextRank算法,面向中文和英文文档集结合GloVe模型的词向量,改善了传统TextRank算法中缺少语义信息的特点,所提供的方法简单易行。
附图说明
图1是根据本发明技术方案的基于加权TextRank的多语言多文档摘要抽取方法的步骤流程图;
图2是根据本发明技术方案的基于加权TextRank的多语言多文档摘要抽取方法处理过程示意图。
具体实施例
下面结合附图和具体实施方式来详细说明本发明:为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
如图1,基于加权TextRank的多语言多文档摘要抽取方法,包括下列步骤:
步骤S1:选择A类不同主题的文档集,其中每个文档集包含B篇中文文档和C篇英文文档,根据中英文语法不同进行不同预处理;
步骤S2:使用GloVe模型训练词向量,基于维基中文语料训练得到词向量;
步骤S3:采用词库映射方法,构建一个具有m个词的高频常用词词库,将文本的语义信息映射到常用的高频词库中,利用词库映射句子语义得到句向量;
步骤S4:在句子之间构建TextRank模型,迭代计算句子权重,通过句子位置、和标题的相似度两个指标对句子加权;
步骤S5:按照权重由大到小排序,选择权重前K的句子对应原文顺序作为输出,完成摘要抽取过程。
步骤S1进一步包括:
步骤S1-1:针对中文文档,根据标点符号分句,针对英文文档,根据点号分句,设定句子总数为len。得到句集合sentence=[S1,S2,...,Si,...,Slen](1≤i≤len),其中Si表示句集合的第i句话;
步骤S1-2:中文文档使用开源工具StanfordNLP进行分词,英文文档使用开源工具NLTK进行分词;
步骤S1-3:过滤掉文本中无意义的停用词,中文如“的、地、得、了”等,英文如“a、the、he”等,得到每个句子的词集合W=[w1,w2,w3,...,wi,...,wm](1≤i≤m),其中wi表示句子Si的第i个词语。
步骤S3进一步包括:
步骤S3-1:利用高维词库R表示文本向量,假设高维词库中共有m个词语,表示词向量的形式为R=[r1,r2,r3,...,ri,...,rm](1≤i≤m),其中ri表示高维词库中第i个词语的词向量。
步骤S3-2:设文本经过分词去掉特殊符号和停用词后,有n个词语,则使用词向量将文本表示为T=[t1,t2,t3,...,ti,...,tn](1≤i≤n),其中ti表示分词后文本中第i个词语的词向量;
步骤S3-3:将文本映射到高维词库中,表示为
S=[max1≤j≤n(similarity(r1,tj)),max1≤j≤n(similarity(r2,tj)),...,max1≤j≤n(similarity(rm,tj))],其中tj表示分词后文本中第j个词语的词向量。采用余弦距离表示向量之间的相似度,即similarity(ri,tj)=cos(ri,tj)。
步骤S4进一步包括:
步骤S4-1:通过计算句子的余弦相似度得到句子间相似度,也就是两个节点边的权重:wij=similarity(Si,Sj)=cos(Si,Sj),其中wij表示句子Si和Sj的句间相似度;
步骤S4-2:将Wij放入构建好的图模型中迭代计算,权重公式为
Figure BDA0002945273640000061
其中vi表示图中第i个节点,in(vi)表示指向vi的节点集合,vj表示图中第j个节点,out(vj)表示从vj指出的节点集合,vk表示图中第k个节点,wij是步骤S4-1计算得到两节点之间的边权重,d表示阻尼系数,一般取值为0.85。开始迭代计算,设置收敛阈值为0.0001,模型收敛后得到每个句子权重;
步骤S4-3:计算句子位置,当句子处在文本首位或者最后一位时,需要提高句子Si的权重:
Figure BDA0002945273640000062
其中位于首句的句子将提升2单位的权重,位于末尾句子提升1单位权重,其他位置句子权重不变;
步骤S4-4:计算句子与标题的相似度,句子与文本标题的相似度越高,则句子的重要程度越高:Wt(Si)=similarity(Si,St),其中St表示文本标题的向量;Si为映射到高维词库的句子词向量;similarity(Si,St)表示采用余弦方式表示的句子Si与标题St的相似度;Wt(Si表示句子Si节点与标题相似度权重;
步骤S4-5:Wk、Wt两种权重影响因子分别归一化之后得到W′k、W′t
步骤S4-6:更新原有句子权重w′ij=wij+W′k(Si,Sj)+W′t(Si,Sij),将句子位置权重和标题相似度权重加进去提高原有句子权重;
步骤S4-7:得到权重最高的前K个句子,按照原文顺序作为摘要输出。
下列伪代码描述提供了本发明技术方案中一种程序代码实现方式:
Figure BDA0002945273640000063
Figure BDA0002945273640000071
Figure BDA0002945273640000081
在该伪代码描述中,粗体的语句具有计算机科学技术领域及相关领域中公知的常规含义。例如for...do...end for表示计数控制循环(count-controlled loop),while...do...end while表示条件控制循环(condition-controlled loop),if...then...endif表示条件判断语句。伪代码描述中的变量或符号及其含义见表1。
表1伪代码中的变量或符号及其含义
Figure BDA0002945273640000082
Figure BDA0002945273640000091
进一步地,下面结合图2来形象地解释本发明技术方案中核心技术特征——句向量获取和加权(即步骤S3、S4)的处理过程。如图2中箭头、说明文字及图例所示,步骤S3和S4的具体处理过程如下:
步骤S3:采用词库映射方法,构建一个具有m个词的高频常用词词库,将文本的语义信息映射到常用的高频词库中,利用词库映射句子语义得到句向量;
所述内容进一步包括:
步骤S3-1:利用高维词库R表示文本向量,假设高维词库中共有m个词语,表示词向量的形式为R=[r1,r2,r3,...,ri,...,rm](1≤i≤m),其中ri表示高维词库中第i个词语的词向量。
步骤S3-2:设文本经过分词去掉特殊符号和停用词后,有n个词语,则使用词向量将文本表示为T=[t1,t2,t3,...,ti,...,tn](1≤i≤n),其中ti表示分词后文本中第i个词语的词向量;
步骤S3-3:将文本映射到高维词库中,表示为
S=[max1≤j≤n(similarity(r1,tj)),max1≤j≤n(similarity(r2,tj)),...,max1≤j≤n(similarity(rm,tj))],其中tj表示分词后文本中第j个词语的词向量。采用余弦距离表示向量之间的相似度,即similarity(ri,tj)=cos(ri,tj)。
步骤S4:在句子之间构建TextRank模型,迭代计算句子权重,通过句子位置、和标题的相似度两个指标对句子加权,所述内容进一步包括:
步骤S4-1:通过计算句子的余弦相似度得到句子间相似度,也就是两个节点边的权重:wij=similarity(Si,Sj)=cos(Si,Sj),其中wij表示句子Si和Sj的句间相似度;
步骤S4-2:将Wij放入构建好的图模型中迭代计算,权重公式为
Figure BDA0002945273640000101
其中vi表示图中第i个节点,in(vi)表示指向vi的节点集合,vj表示图中第j个节点,out(vj)表示从vj指出的节点集合,vk表示图中第k个节点,wij是步骤S4-1计算得到两节点之间的边权重,d表示阻尼系数,一般取值为0.85。开始迭代计算,设置收敛阈值为0.0001,模型收敛后得到每个句子权重;
步骤S4-3:计算句子位置,当句子处在文本首位或者最后一位时,需要提高句子Si的权重:
Figure BDA0002945273640000102
其中位于首句的句子将提升2单位的权重,位于末尾句子提升1单位权重,其他位置句子权重不变;
步骤S4-4:计算句子与标题的相似度,句子与文本标题的相似度越高,则句子的重要程度越高:Wt(Si)=similarity(Si,St),其中St表示文本标题的向量;Si为映射到高维词库的句子词向量;similarity(Si,St)表示采用余弦方式表示的句子Si与标题St的相似度;Wt(Si表示句子Si节点与标题相似度权重;
步骤S4-5:Wk、Wt两种权重影响因子分别归一化之后得到W′k、W′t
步骤S4-6:更新原有句子权重w′ij=wij+W′k(Si,Sj)+W′t(Si,Sj),将句子位置权重和标题相似度权重加进去提高原有句子权重;
步骤S4-7:得到权重最高的前K个句子,按照原文顺序作为摘要输出。
结果展示
Figure BDA0002945273640000103
Figure BDA0002945273640000111
上述实验以K取值5为例。从上可见,本文算法生成的摘要内容不一定全面,但它与原始算法的摘要相比,在内容上更契合,也能正确的表达文章核心思想。且本文算法生成的摘要,也具有较好的语意连贯性,便于读者的理解。
综上所述,由本发明上述技术方案及其具体实施方式(包括优选实施例)可以理解的是,本发明的有益技术效果主要包括四个方面:(1)针对中英文语言类型的文本进行处理;(2)改善了传统TextRank算法中缺少语义信息的特点;(3)所提供的方法简单易行;(4)所提供的方法在摘要生成等领域具有广阔的应用前景。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.基于加权TextRank的多语言多文档摘要抽取方法,其特征在于,包括下列步骤:
步骤S1:选择A类不同主题的文档集,其中每个文档集包含B篇中文文档和C篇英文文档,进行预处理;
步骤S2:使用GloVe模型训练词向量,基于维基中文语料训练得到词向量;
步骤S3:采用词库映射方法,构建一个具有m个词的词库,将文本的语义信息映射到该词库中,利用词库映射句子语义得到句向量;
步骤S4:在句子之间构建TextRank模型,迭代计算句子权重,通过句子位置和标题的相似度两个指标对句子加权;
步骤S5:按照权重由大到小排序,选择权重前K的句子对应原文顺序作为输出,完成摘要抽取过程。
2.根据权利要求1所述的基于加权TextRank的多语言多文档摘要抽取方法,其特征在于,所述步骤S1进一步包括:
步骤S1-1:针对中文文档,根据标点符号分句,针对英文文档,根据点号分句,设定句子总数为len;得到句集合sentence=[S1,S2,...,Si,...,Slen],1≤i≤len,其中Si表示句集合的第i句话;
步骤S1-2:中文文档使用开源工具StanfordNLP进行分词,英文文档使用开源工具NLTK进行分词;
步骤S1-3:过滤掉文本中无意义的停用词得到每个句子的词集合W=[w1,w2,w3,...,wi,...,wm],1≤i≤m,其中wi表示句子Si的第i个词语。
3.根据权利要求1所述的基于加权TextRank的多语言多文档摘要抽取方法,其特征在于,所述步骤S3进一步包括:
步骤S3-1:利用高维词库R表示文本向量,假设高维词库中共有m个词语,表示词向量的形式为R=[r1,r2,r3,...,ri,...,rm],1≤i≤m,其中ri表示高维词库中第i个词语的词向量;
步骤S3-2:设文本经过分词去掉特殊符号和停用词后,有n个词语,则使用词向量将文本表示为T=[t1,t2,t3,...,ti,...,tn],1≤i≤n,其中ti表示分词后文本中第i个词语的词向量。
4.根据权利要求3所述的基于加权TextRank的多语言多文档摘要抽取方法,其特征在于,在所述的步骤S3-2之后进入步骤S3-3:将文本映射到高维词库中,
表示为
S=
[max1≤j≤n(similarity(r1,tj)),max1≤j≤n(similarity(r2,tj)),...,max1≤j≤n(similarity(rm,tj))],其中tj表示分词后文本中第j个词语的词向量。采用余弦距离表示向量之间的相似度,即similarity(ri,tj)=cos(ri,tj)。
5.根据权利要求4所述的基于加权TextRank的多语言多文档摘要抽取方法,其特征在于,所述步骤S4进一步包括:
步骤S4-1:通过计算句子的余弦相似度得到句子间相似度,也就是两个节点边的权重:wij=similarity(Si,Sj)=cos(Si,Sj),其中wij表示句子Si和Sj的句间相似度;
步骤S4-2:将Wij放入构建好的图模型中迭代计算,权重公式为
Figure FDA0002945273630000021
其中vi表示第i个节点,in(vi)表示指向vi的节点集合,vj表示图中第j个节点,out(vj)表示从vj指出的节点集合,vk表示图中第k个节点,wij是步骤S4-1计算得到两节点之间的边权重,d表示阻尼系数,通常取0.85;开始迭代计算,设置收敛阈值为0.0001,模型收敛后得到每个句子权重;
步骤S4-3:计算句子位置,当句子处在文本首位或者最后一位时,需要提高句子Si的权重:
Figure FDA0002945273630000022
其中位于首句的句子将提升2单位的权重,位于末尾句子提升1单位权重,其他位置句子权重不变;
步骤S4-4:计算句子与标题的相似度,句子与文本标题的相似度越高,则句子的重要程度越高:Wt(Si)=similarity(Si,St),其中St表示文本标题的向量;Si为映射到高维词库的句子词向量;similarity(Si,St)表示采用余弦方式表示的句子Si与标题St的相似度;Wt(Si)表示句子Si节点与标题相似度权重;
步骤S4-5:Wp、Wt两种权重影响因子归一化之后得到W′p、W′t
步骤S4-6:更新原有句子权重w′ij=wij+W′k(Si,Sj)+W′t(Si,Sj),将句子位置权重和标题相似度权重加进去提高原有句子权重;
步骤S4-7:得到权重最高的K个句子,按照原文顺序作为摘要输出。
CN202110195264.7A 2021-02-20 2021-02-20 基于加权TextRank的多语言多文档摘要抽取方法 Withdrawn CN112948543A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110195264.7A CN112948543A (zh) 2021-02-20 2021-02-20 基于加权TextRank的多语言多文档摘要抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110195264.7A CN112948543A (zh) 2021-02-20 2021-02-20 基于加权TextRank的多语言多文档摘要抽取方法

Publications (1)

Publication Number Publication Date
CN112948543A true CN112948543A (zh) 2021-06-11

Family

ID=76245014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110195264.7A Withdrawn CN112948543A (zh) 2021-02-20 2021-02-20 基于加权TextRank的多语言多文档摘要抽取方法

Country Status (1)

Country Link
CN (1) CN112948543A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392245A (zh) * 2021-06-16 2021-09-14 南京大学 一种用于众测任务发布的文本摘要与图文检索生成方法
CN113869033A (zh) * 2021-09-24 2021-12-31 厦门大学 融入迭代式句对关系预测的图神经网络句子排序方法
CN114328826A (zh) * 2021-12-20 2022-04-12 青岛檬豆网络科技有限公司 一种提取技术成果、技术需求的关键词和文摘的方法
CN114491152A (zh) * 2021-12-02 2022-05-13 南京硅基智能科技有限公司 一种摘要视频的生成方法、存储介质、电子装置
CN114637840A (zh) * 2022-04-27 2022-06-17 北京清博智能科技有限公司 一种基于关键词的摘要生成***及方法
CN114912425A (zh) * 2022-05-17 2022-08-16 中国银行股份有限公司 演示文稿生成方法及装置
CN116049385A (zh) * 2023-04-03 2023-05-02 北京太极信息***技术有限公司 一种生成信创产业研究报告的方法、装置和设备及平台

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392245A (zh) * 2021-06-16 2021-09-14 南京大学 一种用于众测任务发布的文本摘要与图文检索生成方法
CN113392245B (zh) * 2021-06-16 2023-12-26 南京大学 一种用于众测任务发布的文本摘要与图文检索生成方法
CN113869033A (zh) * 2021-09-24 2021-12-31 厦门大学 融入迭代式句对关系预测的图神经网络句子排序方法
CN114491152A (zh) * 2021-12-02 2022-05-13 南京硅基智能科技有限公司 一种摘要视频的生成方法、存储介质、电子装置
CN114491152B (zh) * 2021-12-02 2023-10-31 南京硅基智能科技有限公司 一种摘要视频的生成方法、存储介质、电子装置
CN114328826A (zh) * 2021-12-20 2022-04-12 青岛檬豆网络科技有限公司 一种提取技术成果、技术需求的关键词和文摘的方法
CN114328826B (zh) * 2021-12-20 2024-06-11 青岛檬豆网络科技有限公司 一种提取技术成果、技术需求的关键词和文摘的方法
CN114637840A (zh) * 2022-04-27 2022-06-17 北京清博智能科技有限公司 一种基于关键词的摘要生成***及方法
CN114912425A (zh) * 2022-05-17 2022-08-16 中国银行股份有限公司 演示文稿生成方法及装置
CN116049385A (zh) * 2023-04-03 2023-05-02 北京太极信息***技术有限公司 一种生成信创产业研究报告的方法、装置和设备及平台

Similar Documents

Publication Publication Date Title
CN112948543A (zh) 基于加权TextRank的多语言多文档摘要抽取方法
CN105138514B (zh) 一种基于词典的正向逐次加一字最大匹配中文分词方法
CN109635297B (zh) 一种实体消歧方法、装置、计算机装置及计算机存储介质
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
Sahu et al. Prashnottar: a Hindi question answering system
CN108681574A (zh) 一种基于文本摘要的非事实类问答答案选择方法及***
CN106569993A (zh) 一种挖掘领域术语间上下位关系的方法及装置
CN102214189B (zh) 基于数据挖掘获取词用法知识的***及方法
Rahimi et al. An overview on extractive text summarization
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
Suleiman et al. Bag-of-concept based keyword extraction from Arabic documents
CN106598941A (zh) 一种全局优化文本关键词质量的算法
CN108959630A (zh) 一种面向英文无结构文本的人物属性抽取方法
Suleiman et al. Arabic text keywords extraction using word2vec
Sarhan et al. Arabic relation extraction: A survey
Sembok et al. Arabic word stemming algorithms and retrieval effectiveness
Watrin et al. An N-gram frequency database reference to handle MWE extraction in NLP applications
CN103336803A (zh) 一种嵌名春联的计算机生成方法
CN111178009B (zh) 一种基于特征词加权的文本多语种识别方法
Hakkani-Tur et al. Statistical sentence extraction for information distillation
Zhang et al. Domain-specific term extraction from free texts
MalarSelvi et al. Analysis of Different Approaches for Automatic Text Summarization
CN111209737B (zh) 噪声文档的筛除方法及计算机可读存储介质
CN110688840B (zh) 一种文本转换方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210611