CN114781356B - 一种基于输入共享的文本摘要生成方法 - Google Patents

一种基于输入共享的文本摘要生成方法 Download PDF

Info

Publication number
CN114781356B
CN114781356B CN202210248412.1A CN202210248412A CN114781356B CN 114781356 B CN114781356 B CN 114781356B CN 202210248412 A CN202210248412 A CN 202210248412A CN 114781356 B CN114781356 B CN 114781356B
Authority
CN
China
Prior art keywords
text
abstract
candidate
candidate abstract
expert
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210248412.1A
Other languages
English (en)
Other versions
CN114781356A (zh
Inventor
苏锦钿
位慧泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202210248412.1A priority Critical patent/CN114781356B/zh
Publication of CN114781356A publication Critical patent/CN114781356A/zh
Application granted granted Critical
Publication of CN114781356B publication Critical patent/CN114781356B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于输入共享的文本摘要生成方法。所述方法包括以下步骤:对文本进行计算得到句子,并将句子组合得到多个候选摘要文本,得到候选摘要数据集;得到模型输入序列,计算模型输入序列的注意力掩码矩阵;构建文本摘要生成模型,获取候选摘要文本对应的最终的候选摘要得分;使用候选摘要得分,以候选摘要文本的真实得分监督文本摘要生成模型的训练,得到训练好的文本摘要生成模型;获取待推理文本,进行预处理后输入训练好的文本摘要生成模型,选取候选摘要得分的候选摘要文本作为待推理文本的摘要文本。本发明能够减少输入到模型中的词数,在保留大部分生成效果的前提下,极大提高模型的训练速度与推理速度。

Description

一种基于输入共享的文本摘要生成方法
技术领域
本发明涉及深度学习和自然语言处理,尤其是涉及一种基于输入共享的文本摘要生成方法。
背景技术
自动文本摘要指用程序处理长文本,得到保留主要语义的摘要的过程。随着进入数据量飞速增长的大数据时代,能够有效减少需要阅读的文字数量的自动文本摘要方法愈加受到关注。当前自动文本摘要方法可分成两大类:生成式摘要方法和抽取式摘要方法,生成式摘要方法根据原文生成得到摘要,可生成原文未有的新词,而抽取式摘要方法则从原文中摘取部分句子或片段,组成摘要,更具连贯性。
目前主流的抽取式摘要方法多为句子级摘要抽取算法,即使用模型获取句子表征,再使用序列标注框架:通过对每个句子表征进行独立的预测是否属于摘要文本;或者使用自回归形式:每次解码获得本次需要抽取的句子,并在下次解码预测时,考虑上次抽取出的句子的影响。
当前出现了一种文档级别的抽取式摘要生成算法(Extractive Summarizationas Text Matching),即对多个候选摘要进行打分,而非句子级别打分。此方法避免了句子级方法的缺点,但多个候选摘要同时输入模型进行计算,也暴露出该方法在计算量、显存占用上的缺点,因而需要采用一种输入共享的方法,缓解该方法的缺点。
发明内容
本发明的目的是针对现有技术的不足而设计的一种基于输入共享的文本摘要抽取方法,该方法基于现有文档级抽取式摘要生成方法,通过共享文档和候选摘要的文本输入以减少显存占用量并提高训练和推理速度,通过使用多专家模块提高文档向量表征的多样性以提高效果,具有广泛的实用价值。
本发明的目的至少通过如下技术方案之一实现。
一种基于输入共享的文本摘要生成方法,包括以下步骤:
S1、基于句子级别的抽取式摘要生成算法,对文本进行计算得到句子,并将句子组合得到多个候选摘要文本,进而得到候选摘要数据集;
S2、在原文本序列前后补充代表文本和候选摘要文本的特殊符,得到模型输入序列,计算模型输入序列的注意力掩码矩阵;
S3、构建文本摘要生成模型,将模型输入序列和模型输入序列的注意力掩码矩阵输入到文本摘要生成模型,获取候选摘要文本对应的最终的候选摘要得分;
S4、损失计算与推理,使用步骤S3中得到的候选摘要得分,在训练时以候选摘要文本的真实得分监督文本摘要生成模型的训练,并以KL散度函数作为指导增大多专家模块之间的多样性,提高多专家模块的集成效果,得到训练好的文本摘要生成模型;
S5、获取待推理文本,进行预处理后输入训练好的文本摘要生成模型,选取候选摘要得分的候选摘要文本作为待推理文本的摘要文本。
进一步地,步骤S1中,具体如下:
获取多个文本,使用开源的句子级别的抽取式文本摘要生成算法,对每一个文本都进行处理并计算,获得该文本中评分排名高的最多10个句子,然后对获得的句子每2个句子或每3个句子组合得到该文本对应的T个候选摘要文本;
获取每个文本对应的T个候选摘要文本的真实得分,得到包括原文本、原文本对应的T个候选摘要文本以及原文本对应的T个候选摘要文本的真实的得分的候选摘要数据集。
进一步地,获取文本对应的参考摘要,将候选摘要文本与参考摘要进行比较,分别计算ROUGE-1得分、ROUGE-2得分和ROUGE-L得分,并计算三者的平均值,作为候选摘要文本的真实得分。
进一步地,步骤S2中,在原文本序列前后补充代表原文本和候选摘要文本的特殊符,得到模型输入序列,具体如下:
原文本序列表示为d={s1,s2,…,sm},其中m为文本的句子数量,每个句子si={wi1,wi2,…,win},其中n为句子si包含的单词数量,win表示句子si的第n个词语;
模型输入序列中,将文本的多个句子文本使用特殊符[SEP]连接起来;代表文本和代表候选摘要文本的特殊符相同,在原文本序列头部补充特殊符[CLS]作为原文本表示词,在原文本序列尾部补充多个特殊符[CLS]t作为候选摘要文本表示词,[CLS]t表示原文本中得到的第t个候选摘要文本对应的特殊符,t=1~T,T为候选摘要文本的个数;
对原文本序列处理后,得到的模型输入序列表示为:
z={CLS,w11,…,w1n,SEP,…,wm1,…,wmn,SEP,CLS1,…,CLST}
获取模型输入序列对应的位置编码序列,对所有的[CLS]特殊符,其位置编码均为0,而文本词语的位置编码按序列长度增长;
获取模型输入序列对应的片段编码序列,对所有的[CLS]t特殊符,其片段编码均为S0,而文本词语的片段编码是使用S0、S1两种编码,按照句子索引,交错分布;
最后依据BERT模型的词表将模型输入序列、位置编码序列、片段编码序列分别映射为各自的one hot向量。
进一步地,步骤S2中,计算模型输入序列的注意力掩码矩阵具体如下:
注意力计算式:
式中mask即为掩码矩阵中的值,为0代表不被遮蔽,为1代表被遮蔽,因计算得到的注意力还会经过SoftMax函数,因而被遮蔽即减去10000.0,会使得SoftMax函数的结果为0,即构成遮蔽注意力的效果;
所述注意力掩码矩阵用于BERT模型的自注意力计算模块,用于屏蔽不相关内容的注意力交互;其中代表原文本的特殊符和原文本的词语能够进行相互的注意力计算,即在注意力掩码矩阵上并未屏蔽原文本和原文本的词语之间的计算;而代表候选摘要文本的特殊符仅能与部分原文本的词语进行相互的注意力计算,具体为代表候选摘要文本的特殊符,仅能与其代表的候选摘要文本中的词语进行注意力计算,原文本的词语也只能与被包含到的候选摘要文本的特殊符进行注意力计算。
进一步地,步骤S3中,文本摘要生成模型包括BERT模型和多个专家模块,其中BERT模型作为编码层,BERT模型的输出连接多个专家模块的输入。
进一步地,基于三种one hot向量,采用已经完成预训练的BERT模型的词嵌入矩阵、位置编码嵌入矩阵、片段编码嵌入矩阵对模型输入序列进行表示,将模型输入序列和模型输入序列的注意力掩码矩阵输入到BERT模型中,分别使用BERT模型最后一层的输出向量HZ中,在特殊符[CLS]和[CLS]t位置的输出向量,作为文本向量和候选摘要向量,具体如下:
其中文本向量为hcls表示原文本中第t个候选摘要文本对应的候选摘要向量;
再对文本向量和候选摘要向量使用多个不同的带激活函数的双层感知机网络作为的专家模块进行计算,从而得到原文本和候选摘要文本相对应的各自的多个文本专家表示向量和多个候选摘要专家表示向量:
hku=Wk2ac(Wk1hu+bk1)+bk2
其中Wk1、Wk2分别为专家模块k的第1层和第2层单层感知机网络的权重矩阵,bk1、bk2分别为专家模块k的第1层和第2层单层感知机网络的偏置项,ac(·)为gelu激活函数,即每个专家模块是由中间包括激活函数的双层感知机网络构成;hu为任一文本向量或候选摘要向量,hku为向量hu在专家模块k下的表示向量;k=1~K,K为专家模块的数量;
对于获得的多个文本专家表示向量和多个候选摘要专家表示向量,分别使用经过同一个专家模块计算得到的文本专家表示向量与候选摘要专家表示向量计算余弦相似度,在每个专家模块下均得到候选摘要文本对应的专家候选摘要得分:
其中,hkv为文本向量hv在专家模块k下的表示向量,hkv′为候选摘要向量hv′在专家模块k下的表示向量,因而候选摘要向量hv′对应的候选摘要文本v′在该专家模块k处的专家候选摘要得分为Skv′
最后使用单层感知机网络计算同一个候选摘要文本的多个专家候选摘要得分,得到候选摘要文本对应的最终的候选摘要得分:
Sv′=f([S1v′,…,Skv′])
其中f(·)为单层感知机网络,Skv′为候选摘要文本v′在专家模块k处的专家候选摘要得分,[·,·]为矩阵的拼接操作,最终计算获得Sv′为候选摘要文本v′对应的最终的候选摘要得分。
进一步地,步骤S4中,在训练文本摘要生成模型时,共包括两种损失:
得分损失Loss1,由真实得分监督,使用候选摘要文本两两构成,具体如下:
其中,r1和r2均为超参数,fi和fj分别代表候选摘要文本i和候选摘要文本j的真实得分,si和sj分别代表候选摘要文本i和候选摘要文本j对应的候选摘要得分,T为同一个文本的候选摘要文本的数量;
专家多样性损失Loss2,用以提高专家模块的多样性,使用KL散度函数计算构成,具体如下:
其中,g为超参数,KL(·)为Kullback-Leibler散度函数,dn和dm分别代表专家模块n和专家模块m对同一个文本样本的多个候选摘要文本,计算获得的候选摘要得分的分布列表,得分分布列表dn如下:
dn={sn1,…,snt,…,snT}
其中,snt为第t个候选摘要文本在专家模块n处的专家候选摘要得分,T表示一个文本的候选摘要文本的数量。
进一步地,在训练时,文本摘要生成模型的训练目标为最小化Loss1和Loss2在候选摘要数据集上的损失之和。
进一步地,步骤S5中,获取待推理的文本,对待推理的文本进行步骤S1和S2的操作,得到模型输入序列和注意力掩码矩阵,将模型输入序列和模型输入序列的注意力掩码矩阵然后输入文本摘要生成模型,得到待推理的文本的各个候选摘要文本的候选摘要得分,选取候选摘要得分最高的候选摘要文本作为待推理的文本的摘要文本。
相比于现有技术,本发明的优点在于:
(1)相比与现有的技术,本发明的能够在输入时共享文档和候选摘要文本之间相同的词语,有效减少输入序列长度,显著减少模型计算时的显存占用以及计算量;
(2)本发明在BERT模型后,使用多专家模块同时对文档和候选摘要向量进行非线性转换,对同一个表征向量得到多个专家模块对应的专家表示向量,能够有效提高向量表征的多样性,进而提高集成后的模型效果。
综上所述,本发明在文档级摘要抽取方法的基础上,提出输入共享方式,减少显存占用提高训练速度,同时使用多专家模块,进一步提高模型的预测质量。
附图说明
图1为本发明实施例中一种基于输入共享的文本摘要生成方法的步骤流程图;
图2为本发明实施例中的模型示意图。
图3为本发明实施例中的掩码矩阵设计图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
实施例1:
一种基于输入共享的文本摘要生成方法,如图1所示,包括以下步骤:
S1、基于句子级别的抽取式摘要生成算法,对文本进行计算得到句子,并将句子组合得到多个候选摘要文本,进而得到候选摘要数据集,具体如下:
获取多个文本,使用开源的句子级别的抽取式文本摘要生成算法,本实施例中,采用BertSumExt(Text Summarization with Pretrained Encoders),对每一个文本都进行处理并计算,获得该文本中评分排名高的最多10个句子,然后对获得的句子每2个句子或每3个句子组合得到该文本对应的T个候选摘要文本;
获取每个文本对应的T个候选摘要文本的真实得分,得到包括原文本、原文本对应的T个候选摘要文本以及原文本对应的T个候选摘要文本的真实的得分的候选摘要数据集。
获取文本对应的参考摘要,将候选摘要文本与参考摘要进行比较,分别计算ROUGE-1得分、ROUGE-2得分和ROUGE-L得分,并计算三者的平均值,作为候选摘要文本的真实得分。
本实施例中,训练时的文本数据集采用CNN/DailyMail(Teaching machines toread and comprehend.)、XSum(Dont give me the details,just the summary!topic-aware convolutional neural networks for extreme summarization.)和Reddit(Abstractive summarization of reddit posts with multi-level memorynetworks.);
S2、在原文本序列前后补充代表文本和候选摘要文本的特殊符,得到模型输入序列,具体如下:
本实施例中,所采用的分词方法与BERT模型一致,原文本序列表示为d={s1,s2,…,sm},其中m为文本的句子数量,每个句子si={wi1,wi2,…,win},其中n为句子si包含的单词数量,win表示句子si的第n个词语;
模型输入序列中,将文本的多个句子文本使用特殊符[SEP]连接起来;代表文本和代表候选摘要文本的特殊符相同,在原文本序列头部补充特殊符[CLS]作为原文本表示词,在原文本序列尾部补充多个特殊符[CLS]t作为候选摘要文本表示词,[CLS]t表示原文本中得到的第t个候选摘要文本对应的特殊符,t=1~T,T为候选摘要文本的个数;
对原文本序列处理后,得到的模型输入序列表示为:
z={CLS,w11,…,w1n,SEP,…,wm1,…,wmn,SEP,CLS1,…,CLST}
模型输入序列如图2中词语编码所示,其中为了节约版面,将每句中词语数仅保留1词以展示。
获取模型输入序列对应的位置编码序列,对所有的[CLS]特殊符,其位置编码均为0,而文本词语的位置编码按序列长度增长,如图2中位置编码所示;
获取模型输入序列对应的片段编码序列,对所有的[CLS]t特殊符,其片段编码均为S0,而文本词语的片段编码是使用S0、S1两种编码,按照句子索引,交错分布,如图2中片段编码所示;
最后依据BERT模型的词表将模型输入序列、位置编码序列、片段编码序列分别映射为各自的one hot向量。
计算模型输入序列的注意力掩码矩阵,具体如下:
注意力计算式:
式中mask即为掩码矩阵中的值,为0代表不被遮蔽,为1代表被遮蔽,因计算得到的注意力还会经过SoftMax函数,因而被遮蔽即减去10000.0,会使得SoftMax函数的结果为0,即构成遮蔽注意力的效果;
所述注意力掩码矩阵用于BERT模型的自注意力计算模块,用于屏蔽不相关内容的注意力交互;其中代表原文本的特殊符和原文本的词语能够进行相互的注意力计算,即在注意力掩码矩阵上并未屏蔽原文本和原文本的词语之间的计算;而代表候选摘要文本的特殊符仅能与部分原文本的词语进行相互的注意力计算,具体为代表候选摘要文本的特殊符,仅能与其代表的候选摘要文本中的词语进行注意力计算,原文本的词语也只能与被包含到的候选摘要文本的特殊符进行注意力计算。
掩码矩阵如图3所示,其中代表文档的[CLS]特殊符与文本词语之间能够相互关注到,不会被掩码矩阵遮蔽,即全为0;而代表候选摘要的特殊符只能与其代表文本的词语相互关注到,如图3所示,第一候选摘要文本1的特殊符[CLS]1其代表的摘要的文本序列为[W11,SEP,W31,SEP],因而特殊符[CLS]1只与这4个词语还有其本身共5个字符,在掩码矩阵上为0,即不被遮蔽,而其他所有位置均为遮蔽状态(为1)。同理第一候选摘要文本2的特殊符[CLS]2只与其代表的文本序列[W21,SEP,W31,SEP],还有其自身有注意力交互,其他字符均被遮蔽。
S3、构建文本摘要生成模型,将模型输入序列和模型输入序列的注意力掩码矩阵输入到文本摘要生成模型,获取候选摘要文本对应的最终的候选摘要得分;
如图2所示,文本摘要生成模型包括BERT模型和多个专家模块,其中BERT模型作为编码层,BERT模型的输出连接多个专家模块的输入。
基于三种one hot向量,采用已经完成预训练的BERT模型的词嵌入矩阵、位置编码嵌入矩阵、片段编码嵌入矩阵对模型输入序列进行表示,将模型输入序列和模型输入序列的注意力掩码矩阵输入到BERT模型中,分别使用BERT模型最后一层的输出向量HZ中,在特殊符[CLS]和[CLS]t位置的输出向量,作为文本向量和候选摘要向量,具体如下:
其中文本向量为hcls表示原文本中第t个候选摘要文本对应的候选摘要向量;
再对文本向量和候选摘要向量使用多个不同的带激活函数的双层感知机网络作为的专家模块进行计算,从而得到原文本和候选摘要文本相对应的各自的多个文本专家表示向量和多个候选摘要专家表示向量:
hku=Wk2ac(Wk1hu+bk1)+bk2
其中Wk1、Wk2分别为专家模块k的第1层和第2层单层感知机网络的权重矩阵,bk1、bk2分别为专家模块k的第1层和第2层单层感知机网络的偏置项,ac(·)为gelu激活函数,即每个专家模块是由中间包括激活函数的双层感知机网络构成;hu为任一文本向量或候选摘要向量,hku为向量hu在专家模块k下的表示向量;k=1~K,K为专家模块的数量;本实施例中,专家模块的数量在K=4时,效果较高,再提升K的数量并无太大收益。
对于获得的多个文本专家表示向量和多个候选摘要专家表示向量,分别使用经过同一个专家模块计算得到的文本专家表示向量与候选摘要专家表示向量计算余弦相似度,在每个专家模块下均得到候选摘要文本对应的专家候选摘要得分:
其中,hkv为文本向量hv在专家模块k下的表示向量,hkv′为候选摘要向量hv′在专家模块k下的表示向量,因而候选摘要向量hv′对应的候选摘要文本v′在该专家模块k处的专家候选摘要得分为Skv′
最后使用单层感知机网络计算同一个候选摘要文本的多个专家候选摘要得分,得到候选摘要文本对应的最终的候选摘要得分:
Sv′=f([S1v′,…,Skv′])
其中f(·)为单层感知机网络,Skv′为候选摘要文本v′在专家模块k处的专家候选摘要得分,[·,·]为矩阵的拼接操作,最终计算获得Sv′为候选摘要文本v′对应的最终的候选摘要得分。
S4、损失计算与推理,使用步骤S3中得到的候选摘要得分,在训练时以候选摘要文本的真实得分监督文本摘要生成模型的训练,并以KL散度函数作为指导增大多专家模块之间的多样性,提高多专家模块的集成效果,得到训练好的文本摘要生成模型;
在训练文本摘要生成模型时,共包括两种损失:
得分损失Loss1,由真实得分监督,使用候选摘要文本两两构成,具体如下:
其中,r1和r2均为超参数,fi和fj分别代表候选摘要文本i和候选摘要文本j的真实得分,si和sj分别代表候选摘要文本i和候选摘要文本j对应的候选摘要得分,T为同一个文本的候选摘要文本的数量;
专家多样性损失Loss2,用以提高专家模块的多样性,使用KL散度函数计算构成,具体如下:
其中,g为超参数,KL(·)为Kullback-Leibler散度函数,dn和dm分别代表专家模块n和专家模块m对同一个文本样本的多个候选摘要文本,计算获得的候选摘要得分的分布列表,得分分布列表dn如下:
dn={sn1,…,snt,…,snT}
其中,snt为第t个候选摘要文本在专家模块n处的专家候选摘要得分,T表示一个文本的候选摘要文本的数量。
在训练时,文本摘要生成模型的训练目标为最小化Loss1和Loss2在候选摘要数据集上的损失之和。
S5、获取待推理的文本,对待推理的文本进行步骤S1和S2的操作,得到模型输入序列和注意力掩码矩阵,将模型输入序列和模型输入序列的注意力掩码矩阵然后输入文本摘要生成模型,得到待推理的文本的各个候选摘要文本的候选摘要得分,选取候选摘要得分最高的候选摘要文本作为待推理的文本的摘要文本。
实施例2:
本实施例中,与实施例1的不同之处在于,步骤S1中,采用DiscoBert(Discourse-Aware Neural Extractive Text Summarization),对每一个文本都进行处理并计算,获得该文本中评分排名高的最多10个句子,然后对获得的句子每2个句子或每3个句子组合得到该文本对应的T个候选摘要文本;
获取每个文本对应的T个候选摘要文本的真实得分,得到包括原文本、原文本对应的T个候选摘要文本以及原文本对应的T个候选摘要文本的真实的得分的候选摘要数据集。
获取文本对应的参考摘要,将候选摘要文本与参考摘要进行比较,分别计算ROUGE-1得分、ROUGE-2得分和ROUGE-L得分,并计算三者的平均值,作为候选摘要文本的真实得分。
本实施例中,训练时的文本数据集采用XSum(Dont give me the details,justthe summary!topic-aware convolutional neural networks for extremesummarization.)。
实施例3:
本实施例中,与实施例1的不同之处在于,步骤S1中,采用Hetformer(Hetformer:Heterogeneous transformer with sparse attention for long-text extractivesummarization),对每一个文本都进行处理并计算,获得该文本中评分排名高的最多10个句子,然后对获得的句子每2个句子或每3个句子组合得到该文本对应的T个候选摘要文本;
获取每个文本对应的T个候选摘要文本的真实得分,得到包括原文本、原文本对应的T个候选摘要文本以及原文本对应的T个候选摘要文本的真实的得分的候选摘要数据集。
获取文本对应的参考摘要,将候选摘要文本与参考摘要进行比较,分别计算ROUGE-1得分、ROUGE-2得分和ROUGE-L得分,并计算三者的平均值,作为候选摘要文本的真实得分。
本实施例中,训练时的文本数据集采用Reddit(Abstractive summarization ofreddit posts with multi-level memory networks.)。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (6)

1.一种基于输入共享的文本摘要生成方法,其特征在于,包括以下步骤:
S1、基于句子级别的抽取式摘要生成算法,对文本进行计算得到句子,并将句子组合得到多个候选摘要文本,进而得到候选摘要数据集,具体如下:
获取多个文本,使用开源的句子级别的抽取式文本摘要生成算法,对每一个文本都进行处理并计算,获得该文本中评分排名高的最多10个句子,然后对获得的句子每2个句子或每3个句子组合得到该文本对应的T个候选摘要文本;
获取每个文本对应的T个候选摘要文本的真实得分,得到包括原文本、原文本对应的T个候选摘要文本以及原文本对应的T个候选摘要文本的真实的得分的候选摘要数据集;
获取文本对应的参考摘要,将候选摘要文本与参考摘要进行比较,分别计算ROUGE-1得分、ROUGE-2得分和ROUGE-L得分,并计算三者的平均值,作为候选摘要文本的真实得分;
S2、在原文本序列前后补充代表文本和候选摘要文本的特殊符,得到模型输入序列,具体如下:
原文本序列表示为d={s1,s2,…,sm},其中m为文本的句子数量,每个句子si={wi1,wi2,…,win},其中n为句子si包含的单词数量,win表示句子si的第n个词语;
模型输入序列中,将文本的多个句子文本使用特殊符[SEP]连接起来;代表文本和代表候选摘要文本的特殊符相同,在原文本序列头部补充特殊符[CLS]作为原文本表示词,在原文本序列尾部补充多个特殊符[CLS]t作为候选摘要文本表示词,[CLS]t表示原文本中得到的第t个候选摘要文本对应的特殊符,t=1~T,T为候选摘要文本的个数;
对原文本序列处理后,得到的模型输入序列表示为:
z={CLS,w11,…,w1n,SEP,…,wm1,…,wmn,SEP,CLS1,…,CLST}
获取模型输入序列对应的位置编码序列,对所有的[CLS]特殊符,其位置编码均为0,而文本词语的位置编码按序列长度增长;
获取模型输入序列对应的片段编码序列,对所有的[CLS]t特殊符,其片段编码均为S0,而文本词语的片段编码是使用S0、S1两种编码,按照句子索引,交错分布;
最后依据BERT模型的词表将模型输入序列、位置编码序列、片段编码序列分别映射为各自的one hot向量;
计算模型输入序列的注意力掩码矩阵;
所述注意力掩码矩阵用于BERT模型的自注意力计算模块,用于屏蔽不相关内容的注意力交互;其中代表原文本的特殊符和原文本的词语能够进行相互的注意力计算,即在注意力掩码矩阵上并未屏蔽原文本和原文本的词语之间的计算;而代表候选摘要文本的特殊符仅能与部分原文本的词语进行相互的注意力计算,具体为代表候选摘要文本的特殊符,仅能与其代表的候选摘要文本中的词语进行注意力计算,原文本的词语也只能与被包含到的候选摘要文本的特殊符进行注意力计算;
S3、构建文本摘要生成模型,将模型输入序列和模型输入序列的注意力掩码矩阵输入到文本摘要生成模型,获取候选摘要文本对应的最终的候选摘要得分;
S4、使用步骤S3中得到的候选摘要得分,以候选摘要文本的真实得分监督文本摘要生成模型的训练,得到训练好的文本摘要生成模型;
S5、获取待推理文本,进行预处理后输入训练好的文本摘要生成模型,选取候选摘要得分的候选摘要文本作为待推理文本的摘要文本。
2.根据权利要求1所述的一种基于输入共享的文本摘要生成方法,其特征在于,步骤S3中,文本摘要生成模型包括BERT模型和多个专家模块,其中BERT模型作为编码层,BERT模型的输出连接多个专家模块的输入。
3.根据权利要求2所述的一种基于输入共享的文本摘要生成方法,其特征在于,基于三种one hot向量,采用已经完成预训练的BERT模型的词嵌入矩阵、位置编码嵌入矩阵、片段编码嵌入矩阵对模型输入序列进行表示,将模型输入序列和模型输入序列的注意力掩码矩阵输入到BERT模型中,分别使用BERT模型最后一层的输出向量HZ中,在特殊符[CLS]和[CLS]t位置的输出向量,作为文本向量和候选摘要向量;
再对文本向量和候选摘要向量使用多个不同的带激活函数的双层感知机网络作为的专家模块进行计算,从而得到原文本和候选摘要文本相对应的各自的多个文本专家表示向量和多个候选摘要专家表示向量:
hku=Wk2ac(Wk1hu+bk1)+bk2
其中Wk1、Wk2分别为专家模块k的第1层和第2层单层感知机网络的权重矩阵,bk1、bk2分别为专家模块k的第1层和第2层单层感知机网络的偏置项,ac(·)为gelu激活函数,即每个专家模块是由中间包括激活函数的双层感知机网络构成;hu为任一文本向量或候选摘要向量,hku为向量hu在专家模块k下的表示向量;k=1~K,K为专家模块的数量;
对于获得的多个文本专家表示向量和多个候选摘要专家表示向量,分别使用经过同一个专家模块计算得到的文本专家表示向量与候选摘要专家表示向量计算余弦相似度,在每个专家模块下均得到候选摘要文本对应的专家候选摘要得分:
其中,hkv为文本向量hv在专家模块k下的表示向量,hkv′为候选摘要向量hv′在专家模块k下的表示向量,因而候选摘要向量hv′对应的候选摘要文本v′在该专家模块k处的专家候选摘要得分为Skv′
最后使用单层感知机网络计算同一个候选摘要文本的多个专家候选摘要得分,得到候选摘要文本对应的最终的候选摘要得分:
Sv′=f([S1v′,…,Skv′])
其中f(·)为单层感知机网络,Skv′为候选摘要文本v′在专家模块k处的专家候选摘要得分,[·,·]为矩阵的拼接操作,最终计算获得Sv′为候选摘要文本v′对应的最终的候选摘要得分。
4.根据权利要求3所述的一种基于输入共享的文本摘要生成方法,其特征在于,步骤S4中,在训练文本摘要生成模型时,共包括两种损失:
得分损失Loss1,由真实得分监督,使用候选摘要文本两两构成,具体如下:
其中,r1和r2均为超参数,fi和fj分别代表候选摘要文本i和候选摘要文本j的真实得分,si和sj分别代表候选摘要文本i和候选摘要文本j对应的候选摘要得分,T为同一个文本的候选摘要文本的数量;
专家多样性损失Loss2,用以提高专家模块的多样性,使用KL散度函数计算构成,具体如下:
其中,g为超参数,KL(·)为Kullback-Leibler散度函数,dn和dm分别代表专家模块n和专家模块m对同一个文本样本的多个候选摘要文本,计算获得的候选摘要得分的分布列表,得分分布列表dn如下:
dn={sn1,…,snt,…,snT}
其中,snt为第t个候选摘要文本在专家模块n处的专家候选摘要得分,T表示一个文本的候选摘要文本的数量。
5.根据权利要求4所述的一种基于输入共享的文本摘要生成方法,其特征在于,在训练时,文本摘要生成模型的训练目标为最小化Loss1和Loss2在候选摘要数据集上的损失之和。
6.根据权利要求5所述的一种基于输入共享的文本摘要生成方法,其特征在于,步骤S5中,获取待推理的文本,对待推理的文本进行步骤S1和S2的操作,得到模型输入序列和注意力掩码矩阵,将模型输入序列和模型输入序列的注意力掩码矩阵然后输入文本摘要生成模型,得到待推理的文本的各个候选摘要文本的候选摘要得分,选取候选摘要得分最高的候选摘要文本作为待推理的文本的摘要文本。
CN202210248412.1A 2022-03-14 2022-03-14 一种基于输入共享的文本摘要生成方法 Active CN114781356B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210248412.1A CN114781356B (zh) 2022-03-14 2022-03-14 一种基于输入共享的文本摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210248412.1A CN114781356B (zh) 2022-03-14 2022-03-14 一种基于输入共享的文本摘要生成方法

Publications (2)

Publication Number Publication Date
CN114781356A CN114781356A (zh) 2022-07-22
CN114781356B true CN114781356B (zh) 2024-06-21

Family

ID=82422947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210248412.1A Active CN114781356B (zh) 2022-03-14 2022-03-14 一种基于输入共享的文本摘要生成方法

Country Status (1)

Country Link
CN (1) CN114781356B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115965033B (zh) * 2023-03-16 2023-07-11 安徽大学 基于序列级前缀提示的生成式文本摘要方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737453A (zh) * 2020-05-29 2020-10-02 南京硅基智能科技有限公司 一种基于无监督的多模型融合抽取式文本摘要方法
CN111782810A (zh) * 2020-06-30 2020-10-16 湖南大学 一种基于主题增强的文本摘要生成方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055578A (zh) * 2006-04-12 2007-10-17 龙搜(北京)科技有限公司 基于规则的文档内容挖掘器
CN110781312B (zh) * 2019-09-19 2022-07-15 平安科技(深圳)有限公司 基于语义表征模型的文本分类方法、装置和计算机设备
CN113158665B (zh) * 2021-04-02 2022-12-09 西安交通大学 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN113377900A (zh) * 2021-05-14 2021-09-10 中国电子科技集团公司第五十四研究所 基于重写和保留显著词的推敲文本摘要方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737453A (zh) * 2020-05-29 2020-10-02 南京硅基智能科技有限公司 一种基于无监督的多模型融合抽取式文本摘要方法
CN111782810A (zh) * 2020-06-30 2020-10-16 湖南大学 一种基于主题增强的文本摘要生成方法

Also Published As

Publication number Publication date
CN114781356A (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
Salur et al. A novel hybrid deep learning model for sentiment classification
CN109344391B (zh) 基于神经网络的多特征融合中文新闻文本摘要生成方法
CN110825845B (zh) 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法
CN111626063B (zh) 一种基于投影梯度下降和标签平滑的文本意图识别方法及***
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN110020438A (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及***
CN114781392A (zh) 一种基于bert改进模型的文本情感分析方法
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN110781290A (zh) 一种长篇章结构化文本摘要提取方法
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
CN113177412A (zh) 基于bert的命名实体识别方法、***、电子设备及存储介质
CN115310448A (zh) 一种基于bert和字词向量结合的中文命名实体识别方法
CN115759119B (zh) 一种金融文本情感分析方法、***、介质和设备
CN114153973A (zh) 基于t-m bert预训练模型的蒙古语多模态情感分析方法
CN113051887A (zh) 一种公告信息元素抽取方法、***及装置
CN111967267A (zh) 一种基于XLNet的新闻文本地域提取的方法及***
CN115048511A (zh) 一种基于Bert的护照版面分析方法
CN114817494A (zh) 基于预训练和注意力交互网络的知识型检索式对话方法
CN114781356B (zh) 一种基于输入共享的文本摘要生成方法
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN114911947A (zh) 一种基于知识提示的概念抽取模型
CN116975161A (zh) 电力设备局放文本的实体关系联合抽取方法、设备、介质
CN116227603A (zh) 一种事件推理任务的处理方法、设备及介质
CN114548090B (zh) 基于卷积神经网络和改进级联标注的快速关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant