CN115221863B - 一种文本摘要评价方法、装置以及存储介质 - Google Patents
一种文本摘要评价方法、装置以及存储介质 Download PDFInfo
- Publication number
- CN115221863B CN115221863B CN202210844106.4A CN202210844106A CN115221863B CN 115221863 B CN115221863 B CN 115221863B CN 202210844106 A CN202210844106 A CN 202210844106A CN 115221863 B CN115221863 B CN 115221863B
- Authority
- CN
- China
- Prior art keywords
- text
- original
- probability distribution
- processed
- original chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 121
- 238000009826 distribution Methods 0.000 claims abstract description 180
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012805 post-processing Methods 0.000 claims description 2
- 230000001105 regulatory effect Effects 0.000 claims 2
- 238000012549 training Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Operations Research (AREA)
- Bioinformatics & Computational Biology (AREA)
- Algebra (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种文本摘要评价方法、装置以及存储介质,属于语言处理领域,方法包括:对原始中文文本进行预处理得到处理后文本;对所有的原始中文文本和所有的处理后文本进行摘要关键信息覆盖率的分析得到摘要关键信息覆盖率、原始文本摘要概率分布以及处理后文本摘要概率分布;对摘要关键信息覆盖率、原始文本摘要概率分布以及处理后文本摘要概率分布进行评价分数的计算得到文本摘要评价结果。本发明能够更加合理地评价生成摘要,且评价结果更加接近人工评价,从而使评价内容更灵活且合理。
Description
技术领域
本发明主要涉及语言处理技术领域,具体涉及一种文本摘要评价方法、装置以及存储介质。
背景技术
随着互联网技术的发展,文字信息在网络中成迅速增加。为了使用户获取文字信息的关键内容,文本生成技术应用而生例如摘要生成,它能够根据原文生成对应的摘要,而生成的摘要是否能够表达原文的本意就需要应用评价方法去实现。评价方法主要分为人工评价和自动评价。虽然人工评价相较于自动评价更灵活且合理,但是它费时费力。因此,自动评价方法应用而生,例如ROUGE和BLUE评价方法。但是,这些评价方法只利用生成摘要与参考摘要之间的共现信息,没有考虑它们之间的语义信息且制作参考摘要费时费力,因此,这些原因都导致此评价方法不适合于文本生成的评价。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种文本摘要评价方法、装置以及存储介质。
本发明解决上述技术问题的技术方案如下:一种文本摘要评价方法,包括如下步骤:
导入多个原始中文文本,分别对各个所述原始中文文本进行预处理,得到与各个所述中文文本对应的处理后文本;
对所有的原始中文文本和所有的处理后文本进行摘要关键信息覆盖率的分析,得到与各个所述原始中文文本对应的摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布;
分别对各个所述摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布进行评价分数的计算,得到与各个所述原始中文文本对应的评价分数,并分别将各个所述评价分数作为各个所述原始中文文本的文本摘要评价结果。
本发明解决上述技术问题的另一技术方案如下:一种文本摘要评价装置,包括:
预处理模块,用于导入多个原始中文文本,分别对各个所述原始中文文本进行预处理,得到与各个所述中文文本对应的处理后文本;
覆盖率分析模块,用于对所有的原始中文文本和所有的处理后文本进行摘要关键信息覆盖率的分析,得到与各个所述原始中文文本对应的摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布;
摘要评价结果获得模块,用于分别对各个所述摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布进行评价分数的计算,得到与各个所述中文文本对应的评价分数,并分别将各个所述评价分数作为各个所述原始中文文本的文本摘要评价结果。
本发明解决上述技术问题的另一技术方案如下:一种文本摘要评价装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的文本摘要评价方法。
本发明解决上述技术问题的另一技术方案如下:一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的文本摘要评价方法。
本发明的有益效果是:通过对原始中文文本的预处理得到处理后文本,对原始中文文本和处理后文本的摘要关键信息覆盖率分析得到摘要关键信息覆盖率、原始文本摘要概率分布以及处理后文本摘要概率分布,对摘要关键信息覆盖率、原始文本摘要概率分布以及处理后文本摘要概率分布的评价分数计算得到文本摘要评价结果,能够更加合理地评价生成文本,且评价结果更加接近人工评价,从而使评价内容更灵活且合理。
附图说明
图1为本发明实施例提供的一种文本摘要评价方法的流程示意图;
图2为本发明实施例提供的一种文本摘要评价装置的模块框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明实施例提供的一种文本摘要评价方法的流程示意图。
如图1所示,一种文本摘要评价方法,包括如下步骤:
导入多个原始中文文本,分别对各个所述原始中文文本进行预处理,得到与各个所述中文文本对应的处理后文本;
对所有的原始中文文本和所有的处理后文本进行摘要关键信息覆盖率的分析,得到与各个所述原始中文文本对应的摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布;
分别对各个所述摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布进行评价分数的计算,得到与各个所述原始中文文本对应的评价分数,并分别将各个所述评价分数作为各个所述原始中文文本的文本摘要评价结果。
应理解地,在互联网上爬去360万中文文章片段(即多个所述原始中文文本)。
上述实施例中,通过对原始中文文本的预处理得到处理后文本,对原始中文文本和处理后文本的摘要关键信息覆盖率分析得到摘要关键信息覆盖率、原始文本摘要概率分布以及处理后文本摘要概率分布,对摘要关键信息覆盖率、原始文本摘要概率分布以及处理后文本摘要概率分布的评价分数计算得到文本摘要评价结果,能够更加合理地评价生成文本,且评价结果更加接近人工评价,从而使评价内容更灵活且合理。
可选地,作为本发明的一个实施例,所述分别对各个所述原始中文文本进行预处理,得到与各个所述中文文本对应的处理后文本的过程包括:
分别对各个所述原始中文文本中的单词进行随机删除,得到与各个所述中文文本对应的删除后文本;
基于BERT语言模型分别对各个所述删除后文本进行单词填空,得到与各个所述中文文本对应的处理后文本。
应理解地,所述BERT语言模型能够遮盖文章中的一些词然后进行完成填空且能够判断两句话之间的上下文关系。
应理解地,利用扰动方式生成文章对(即所述原始中文文本以及与各个所述中文文本对应的处理后文本)。
应理解地,训练预训练语言模型(即所述BERT语言模型)用于摘要评价。
应理解地,所述单词填空即对空缺的单词位置进行填空。
具体地,扰动方式的步骤为:随机遮盖原文章(即所述原始中文文本),然后利用预训练好的模型(即所述BERT语言模型)进行填空,这样能够获得语义接近单用细不同的文章。可以理解为:将文章(即所述原始中文文本)中的单词随机丢弃进而生成文章对,利用现有的文本生成模型产生摘要和文档对。
上述实施例中,对原始中文文本中单词的随机删除得到删除后文本,基于BERT语言模型对删除后文本的单词填空得到处理后文本,能够获得语义接近单用细不同的文章,且能够判断两句话之间的上下文关系。
可选地,作为本发明的一个实施例,所述对所有的原始中文文本和所有的处理后文本进行摘要关键信息覆盖率的分析,得到与各个所述原始中文文本对应的摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布的过程包括:
集合所有的原始中文文本得到文档集,并基于BERT语言模型对所述文档集进行文档集的预测,得到文档概率分布;
基于BART摘要模型分别对各个所述原始中文文本进行原始中文文本的预测,得到与各个所述原始中文文本对应的原始文本摘要概率分布;
基于所述BART摘要模型分别对各个所述处理后文本进行处理后文本概率分布的预测,得到与各个所述处理后文本对应的处理后文本摘要概率分布;
根据所述文档概率分布分别对各个所述原始文本摘要概率分布进行第一共现文本的计算,得到与各个所述原始中文文本对应的第一共现文本;
根据所述文档概率分布分别对各个所述处理后文本摘要概率分布进行第二共现文本的计算,得到与各个所述原始中文文本对应的第二共现文本;
对所有的第一共现文本和所有的第二共现文本进行文档覆盖率的计算,得到文档覆盖率;
根据所述文档覆盖率对各个所述原始文本摘要概率分布以及与各个所述原始中文文本对应的处理后文本摘要概率分布进行摘要关键信息覆盖率的计算,得到与各个所述原始中文文本对应的摘要关键信息覆盖率。
应理解地,所述BART摘要模型是一个用于预训练序列到序列模型的去噪自动编码器。BART的训练方法是:(1)用任意的噪声函数破坏文本,(2)学习一个模型来重建原文。
应理解地,先计算生成文本(即所述处理后文本)和原文档(即所述文档集)的概率分布的抽取共现片段;再计算所述文档覆盖率;最后计算生成摘要和参考摘要的概率分布面积比。
上述实施例中,通过对原始中文文本和处理后文本的摘要关键信息覆盖率分析得到摘要关键信息覆盖率、原始文本摘要概率分布以及处理后文本摘要概率分布,能够更加合理地评价生成文本,且评价结果更加接近人工评价,从而使评价内容更灵活且合理。
可选地,作为本发明的一个实施例,所述根据所述文档概率分布分别对各个所述原始文本摘要概率分布进行第一共现文本的计算,得到与各个所述原始中文文本对应的第一共现文本的过程包括:
通过第一式分别对所述文档概率分布以及与各个所述原始中文文本对应的原始文本摘要概率分布进行第一共现文本的计算,得到与各个所述原始中文文本对应的第一共现文本,所述第一式为:
其中,c~N(0,1),
其中,coverage(pφ|T(.|xi;ω;L),pφ|K(.|D;ω;W))为第i个原始文本摘要对应的第一共现文本,c为关键共现片段分布,pφ|K(.|D;ω;W)为文档概率分布,pφ|T(.|xi;ω;L)为第i个原始中文文本对应的原始文本摘要概率分布,|.|为共现片段长度,L为调节参数,为词表大小,N(0,1)为均值等于1,方差等于1的正太分布。
具体地,计算摘要中属于输入文档中"提取片段"的关键信息的百分比,这些片段是输入文档和摘要之间共享的多字关键信息。它是一个简单的精度测量并且能够预测摘要中包含输入文档中有多少关键信息,其计算表达式如下所示:
其中,|.|表示共现片段长度,pφ|K(.|D;ω;W)是文档概率分布,该分布来自文档D(即所述文档集)的掩码文本,模型预测文档D(即所述文档集)中每个词被遮盖后的文字的概率,pφ|T(.|x;ω;L)是生成摘要分布(即所述原始文本摘要概率分布),根据输入文章x(即所述原始中文文本)由摘要模型BART生成此分布,c是抽取的关键共现片段分布,它服从正态分布。x表示原文章(即所述原始中文文本),D表示文档(即所述文档集),D(即所述文档集)中包含多个x(即所述原始中文文本)。.表示分布中的任一元素。对于一个由参数ω概率掩码语言模型BERT和BART,L为其调节参数。表示词表大小。N(0,1)表示均值为1,方差为1的正太分布。
上述实施例中,通过第一式分别对文档概率分布以及原始文本摘要概率分布的第一共现文本计算得到第一共现文本,能够精准的预测摘要中的关键信息,且测量简单。
可选地,作为本发明的一个实施例,所述根据所述文档概率分布分别对各个所述处理后文本摘要概率分布进行第二共现文本的计算,得到与各个所述原始中文文本对应的第二共现文本的过程包括:
通过第二式分别对所述文档概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布进行第二共现文本的计算,得到与各个所述原始中文文本对应的第二共现文本,所述第二式为:
其中,c~N(0,1),
其中,为第i个处理后文本对应的第二共现文本,c为关键共现片段分布,pφ|K(.|D;ω;W)为文档概率分布,为第i个处理后文本对应的处理后文本摘要概率分布,|.|为共现片段长度,L为调节参数,/>为词表大小,N(0,1)为均值等于1,方差等于1的正太分布。
应理解地,表示新的文章/>(即所述处理后文本)由摘要模型BART生成此分布。
上述实施例中,通过第二式分别对文档概率分布以及处理后文本摘要概率分布的第二共现文本计算得到第二共现文本,能够精准的预测摘要中的关键信息,且测量简单,能够更加合理地评价生成文本。
可选地,作为本发明的一个实施例,所述对所有的第一共现文本和所有的第二共现文本进行文档覆盖率的计算,得到文档覆盖率的过程包括:
通过第三式对所有的第一共现文本和所有的第二共现文本进行文档覆盖率的计算,得到文档覆盖率,所述第三式为;
其中,
其中,
其中,
其中,rcov为文档覆盖率,coverage(pφ|T(.|xi;ω;L),pφ|K(.|D;ω;W))为第i个原始中文文本对应的第一共现文本,为第i个处理后文本对应的第二共现文本,为原始中文文本变异系数,为处理后文本变异系数,n为原始中文文本数量或处理后文本数量,σ(coverage(pφ|T(.|x;ω;L),pφ|K(.|D;ω;W)))为原始中文文本标准差,/>为处理后文本标准差,μ(coverage(pφ|T(.|x;ω;L),pφ|K(.|D;ω;W)))为原始中文文本平均值,为处理后文本平均值。
应理解地,为了使关键信息的覆盖率均匀提升,本发明提出了一个多文档的扩展,当输入文档关键信息的覆盖率达到一定程度时,当文档的关键信息覆盖率达到均匀分布时EFC达到最大值。
具体地,计算文档覆盖率表达式如下所示:
其中,文档集的关键信息覆盖率向量为cov(cov(pφ|T(.|x;ω;L),pφ|K(.|D;ω;W))),向量x的样本的平均数为μ(x),样本标准差为σ(x),以及标准差σ(x)与平均值μ(x)之比(变异系数)为"归一化"覆盖率分数它的值越大分数越大,整个文档集就越统一。n表示样本x的个数(即所述原始中文文本数量),其中,
上述实施例中,通过第三式对所有的第一共现文本和所有的第二共现文本的文档覆盖率计算得到文档覆盖率,能够使关键信息的覆盖率均匀提升,能够更加合理地评价生成文本,且评价结果更加接近人工评价,从而使评价内容更灵活且合理。
可选地,作为本发明的一个实施例,所述根据所述文档覆盖率对各个所述原始文本摘要概率分布以及与各个所述原始中文文本对应的处理后文本摘要概率分布进行关键信息覆盖率的计算,得到与各个所述原始中文文本对应的关键信息覆盖率的过程包括:
通过第四式分别对所述文档覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述原始中文文本对应的处理后文本摘要概率分布进行摘要关键信息覆盖率的计算,得到与各个所述原始中文文本对应的摘要关键信息覆盖率,所述第四式为:
其中,为第i个原始中文文本对应的摘要关键信息覆盖率,rcov为文档覆盖率,pφ|T(.|xi;ω;L)为第i个原始中文文本对应的原始文本摘要概率分布,为第i个处理后文本对应的处理后文本摘要概率分布。
具体地,为了确保短小的摘要不会被不公平地奖励为高覆盖率分数,本发明通过预测和原文档的长度比来规范奖励,具体表达式如下所示:
其中,关键信息覆盖率,|pφ|T(.|x;ω;L)|表示生成文本概率分布大小(即所述原始文本摘要概率分布),/>表示参考文本概率分布大小(即所述处理后文本摘要概率分布)。
上述实施例中,通过第四式对文档覆盖率、原始文本摘要概率分布以及处理后文本摘要概率分布的摘要关键信息覆盖率计算得到摘要关键信息覆盖率,确保了短小的摘要不会被不公平地奖励为高覆盖率分数,规范了奖励,从而获得更加精准的评价分数。
可选地,作为本发明的一个实施例,所述分别对各个所述摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布进行评价分数的计算,得到与各个所述中文文本对应的评价分数的过程包括:
通过第五式分别对各个所述摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布进行评价分数的计算,得到与各个所述中文文本对应的评价分数,所述第五式为:
yi=sigmoid(riW+b),
其中,
其中,
其中,yi为第i个原始中文文本对应的评价分数,W为权重,b为偏置,sigmoid()为函数,ω为分布的参数,ri为第i个原始中文文本对应的凸组合,为第i个原始中文文本对应的原始文本摘要概率分布与第i个处理后文本对应的处理后文本摘要概率分布之间的距离,α为比例系数,/>为第i个原始中文文本对应的摘要关键信息覆盖率,pφ|T(.|xi;ω;L)为第i个原始中文文本对应的原始文本摘要概率分布,/>为第i个处理后文本对应的处理后文本摘要概率分布,D为文档集,log()为log函数。
应理解地,将概率分布的距离与覆盖奖励融合进而通过s i gmoi d函数计算最终评价分数(即所述评价分数)。
应理解地,如果生成文本对原文有较高的关键信息覆盖率且它的分布均匀,而且生成文本有较好的长度,则认为该文本好。以原文作为极限,若预测结果由于原文则奖励为加法,反之则为减法。
具体地,由于概率分布的距离与覆盖奖励不一定符合比例,为了得到最终的评价分数(即所述评价分数),使用比例系数进行凸组合,具体表达式如下所示:
y=sigmoid(rW+b)
其中α是比例系数,文档关键信息覆盖率(即所述摘要关键信息覆盖率)。r是凸组合,sigmoid(.)函数,W是权重,b是偏置,y是最终评价分数(即所述评价分数),ω是分布的参数,/>计算pφ|T(.|x;ω;L)和/>分布之间的距离,L是指利用KL散度衡量两个分布,如下式:
Log(.)表示log函数。D表示文档(即所述文档集),x表示文档中的文章(即所述原始中文文本)。
上述实施例中,通过第五式对摘要关键信息覆盖率、原始文本摘要概率分布以及处理后文本摘要概率分布的评价分数计算得到评价分数,能够更加合理地评价生成文本,且评价结果更加接近人工评价,从而使评价内容更灵活且合理。
可选地,作为本发明的另一个实施例,随着BERT预训练语言模型的发展,评价方法也取得了一定的进步。它能够接近人工评价去应对生成文本和原文中语义相同而字面意思不同的情况。应用预训练语言模型的评价方法能够更加合理评价生成文本。
可选地,作为本发明的另一个实施例,还可以通过另一方法得到文档概率分布、与各个所述原始中文文本对应的原始中文文本概率分布以及与各个所述处理后文本对应的处理后文本概率分布,计算公式如下:
p(.,D,ω,W)表示由遮盖后的文字和文档D(即所述文档集)构成的联合分布的概率。p(D;ω;W)表示文档D(即所述文档集)的概率值。p(.,x,ω,L)表示由遮盖后的文字和文章x(即所述原始中文文本)构成的联合分布的概率。p(x;ω;L)表示文章x(即所述原始中文文本)的概率值,表示由遮盖后的文字和所述处理后文本构成的联合分布的概率。/>表示所述处理后文本的概率值。
可选地,作为本发明的另一个实施例,本发明主要包括训练预训练语言模型、从语义角度计算生成摘要和原文的抽取的共现片段、文档覆盖率、生成摘要和参考摘要的概率分布面积比、概率分布的距离与覆盖奖励融合方法。首先,训练预训练语言模型用于摘要评价。其次,计算生成摘要和原文的抽取的共现片段。这样能够得到原文中的关键信息,接着计算文档覆盖率和生成摘要和参考摘要的概率分布面积比。最后,将概率分布的距离与覆盖奖励融合进而通过sigmoid函数计算最终评价分数。本发明的有益效果是:本方案能够从语义角度计算生成摘要和原文的抽取的共现片段、文档覆盖率、生成摘要和参考摘要的概率分布面积比、概率分布的距离与覆盖奖励融合进而通过sigmoid函数计算最终评价分数,该评价方法更接近人工评价。
可选地,作为本发明的另一个实施例,本发明的有益效果是:能够从语义角度计算生成摘要和原文的抽取的共现片段、文档覆盖率、生成摘要和参考摘要的概率分布面积比、概率分布的距离与覆盖奖励融合进而通过sigmoid函数计算最终评价分数,该评价方法更接近人工评价。
图2为本发明实施例提供的一种文本摘要评价装置的模块框图。
可选地,作为本发明的另一个实施例,如图2所示,一种文本摘要评价装置,包括:
预处理模块,用于导入多个原始中文文本,分别对各个所述原始中文文本进行预处理,得到与各个所述中文文本对应的处理后文本;
覆盖率分析模块,用于对所有的原始中文文本和所有的处理后文本进行摘要关键信息覆盖率的分析,得到与各个所述原始中文文本对应的摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布;
摘要评价结果获得模块,用于分别对各个所述摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布进行评价分数的计算,得到与各个所述中文文本对应的评价分数,并分别将各个所述评价分数作为各个所述原始中文文本的文本摘要评价结果。
可选地,本发明的另一个实施例提供一种文本摘要评价装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的文本摘要评价方法。该装置可为计算机等装置。
可选地,本发明的另一个实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的文本摘要评价方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种文本摘要评价方法,其特征在于,包括如下步骤:
导入多个原始中文文本,分别对各个所述原始中文文本进行预处理,得到与各个所述原始中文文本对应的处理后文本;
对所有的原始中文文本和所有的处理后文本进行摘要关键信息覆盖率的分析,得到与各个所述原始中文文本对应的摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布;
分别对各个所述摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布进行评价分数的计算,得到与各个所述原始中文文本对应的评价分数,并分别将各个所述评价分数作为各个所述原始中文文本的文本摘要评价结果;
所述对所有的原始中文文本和所有的处理后文本进行摘要关键信息覆盖率的分析,得到与各个所述原始中文文本对应的摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布的过程包括:
集合所有的原始中文文本得到文档集,并基于BERT语言模型对所述文档集进行文档集的预测,得到文档概率分布;
基于BART摘要模型分别对各个所述原始中文文本进行原始中文文本的预测,得到与各个所述原始中文文本对应的原始文本摘要概率分布;
基于所述BART摘要模型分别对各个所述处理后文本进行处理后文本概率分布的预测,得到与各个所述处理后文本对应的处理后文本摘要概率分布;
根据所述文档概率分布分别对各个所述原始文本摘要概率分布进行第一共现文本的计算,得到与各个所述原始中文文本对应的第一共现文本;
根据所述文档概率分布分别对各个所述处理后文本摘要概率分布进行第二共现文本的计算,得到与各个所述处理后文本对应的第二共现文本;
对所有的第一共现文本和所有的第二共现文本进行文档覆盖率的计算,得到文档覆盖率;
根据所述文档覆盖率对各个所述原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布进行摘要关键信息覆盖率的计算,得到与各个所述原始中文文本对应的摘要关键信息覆盖率;
所述分别对各个所述摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布进行评价分数的计算,得到与各个所述原始中文文本对应的评价分数的过程包括:
通过第五式分别对各个所述摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布进行评价分数的计算,得到与各个所述原始中文文本对应的评价分数,所述第五式为:
yi=sigmoid(riW1+b),
其中,
其中,
其中,yi为第i个原始中文文本对应的评价分数,W1为权重,b为偏置,sigmoid()为函数,ω为分布的参数,ri为第i个原始中文文本对应的凸组合,为第i个原始中文文本对应的原始文本摘要概率分布与第i个处理后文本对应的处理后文本摘要概率分布之间的距离,α为比例系数,为第i个原始中文文本对应的摘要关键信息覆盖率,pφ|T(.|xi;ω;L)为第i个原始中文文本对应的原始文本摘要概率分布,/>为第i个处理后文本对应的处理后文本摘要概率分布,D为文档集,log()为log函数,L为调节参数,/>为词表大小。
2.根据权利要求1所述的文本摘要评价方法,其特征在于,所述分别对各个所述原始中文文本进行预处理,得到与各个所述原始中文文本对应的处理后文本的过程包括:
分别对各个所述原始中文文本中的单词进行随机删除,得到与各个所述原始中文文本对应的删除后文本;
基于BERT语言模型分别对各个所述删除后文本进行单词填空,得到与各个所述原始中文文本对应的处理后文本。
3.根据权利要求1所述的文本摘要评价方法,其特征在于,所述根据所述文档概率分布分别对各个所述原始文本摘要概率分布进行第一共现文本的计算,得到与各个所述原始中文文本对应的第一共现文本的过程包括:
通过第一式分别对所述文档概率分布以及与各个所述原始中文文本对应的原始文本摘要概率分布进行第一共现文本的计算,得到与各个所述原始中文文本对应的第一共现文本,所述第一式为:
其中,c~N(0,1),
其中,coverage(pφ|T(.|xi;ω;L),pφ|K(.|D;ω;W2))为第i个原始中文文本对应的第一共现文本,c为关键共现片段分布,pφ|K(.|D;ω;W2)为文档概率分布,pφ|T(.|xi;ω;L)为第i个原始中文文本对应的原始文本摘要概率分布,|.|为共现片段长度,L为调节参数,为词表大小,N(0,1)为均值等于0,方差等于1的正态分布。
4.根据权利要求1所述的文本摘要评价方法,其特征在于,所述根据所述文档概率分布分别对各个所述处理后文本摘要概率分布进行第二共现文本的计算,得到与各个所述处理后文本对应的第二共现文本的过程包括:
通过第二式分别对所述文档概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布进行第二共现文本的计算,得到与各个所述处理后文本对应的第二共现文本,所述第二式为:
其中,c~N(0,1),
其中,为第i个处理后文本对应的第二共现文本,c为关键共现片段分布,pφ|K(.|D;ω;W2)为文档概率分布,为第i个处理后文本对应的处理后文本摘要概率分布,|.|为共现片段长度,L为调节参数,/>为词表大小,N(0,1)为均值等于0,方差等于1的正态分布。
5.根据权利要求1所述的文本摘要评价方法,其特征在于,所述对所有的第一共现文本和所有的第二共现文本进行文档覆盖率的计算,得到文档覆盖率的过程包括:
通过第三式对所有的第一共现文本和所有的第二共现文本进行文档覆盖率的计算,得到文档覆盖率,所述第三式为;
其中,
其中,
其中,
其中,rcov为文档覆盖率,coverage(pφ|T(.|xi;ω;L),pφ|K(.|D;ω;W2))为第i个原始中文文本对应的第一共现文本,为第i个处理后文本对应的第二共现文本,为原始中文文本变异系数,为处理后文本变异系数,n为原始中文文本数量或处理后文本数量,σ(coverage(pφ|T(.|x;ω;L),pφ|K(.|D;ω;W2)))为原始中文文本标准差,σ/>为处理后文本标准差,μ(coverage(pφ|T(.|x;ω;L),pφ|K(.|D;ω;W2)))为原始中文文本平均值,μ为处理后文本平均值。
6.根据权利要求1所述的文本摘要评价方法,其特征在于,所述根据所述文档覆盖率对各个所述原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布进行摘要关键信息覆盖率的计算,得到与各个所述原始中文文本对应的摘要关键信息覆盖率的过程包括:
通过第四式分别对所述文档覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布进行摘要关键信息覆盖率的计算,得到与各个所述原始中文文本对应的摘要关键信息覆盖率,所述第四式为:
其中,为第i个原始中文文本对应的摘要关键信息覆盖率,rcov为文档覆盖率,pφ|T(.|xi;ω;L)为第i个原始中文文本对应的原始文本摘要概率分布,/>为第i个处理后文本对应的处理后文本摘要概率分布。
7.一种文本摘要评价装置,其特征在于,包括:
预处理模块,用于导入多个原始中文文本,分别对各个所述原始中文文本进行预处理,得到与各个所述原始中文文本对应的处理后文本;
覆盖率分析模块,用于对所有的原始中文文本和所有的处理后文本进行摘要关键信息覆盖率的分析,得到与各个所述原始中文文本对应的摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布;
摘要评价结果获得模块,用于分别对各个所述摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布进行评价分数的计算,得到与各个所述原始中文文本对应的评价分数,并分别将各个所述评价分数作为各个所述原始中文文本的文本摘要评价结果;
所述覆盖率分析模块具体为:
集合所有的原始中文文本得到文档集,并基于BERT语言模型对所述文档集进行文档集的预测,得到文档概率分布;
基于BART摘要模型分别对各个所述原始中文文本进行原始中文文本的预测,得到与各个所述原始中文文本对应的原始文本摘要概率分布;
基于所述BART摘要模型分别对各个所述处理后文本进行处理后文本概率分布的预测,得到与各个所述处理后文本对应的处理后文本摘要概率分布;
根据所述文档概率分布分别对各个所述原始文本摘要概率分布进行第一共现文本的计算,得到与各个所述原始中文文本对应的第一共现文本;
根据所述文档概率分布分别对各个所述处理后文本摘要概率分布进行第二共现文本的计算,得到与各个所述处理后文本对应的第二共现文本;
对所有的第一共现文本和所有的第二共现文本进行文档覆盖率的计算,得到文档覆盖率;
根据所述文档覆盖率对各个所述原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布进行摘要关键信息覆盖率的计算,得到与各个所述原始中文文本对应的摘要关键信息覆盖率;
所述摘要评价结果获得模块具体为:
通过第五式分别对各个所述摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布进行评价分数的计算,得到与各个所述原始中文文本对应的评价分数,所述第五式为:
yi=sigmoid(riW1+b),
其中,
其中,
其中,yi为第i个原始中文文本对应的评价分数,W为权重,b为偏置,sigmoid()为函数,ω为分布的参数,ri为第i个原始中文文本对应的凸组合,为第i个原始中文文本对应的原始文本摘要概率分布与第i个处理后文本对应的处理后文本摘要概率分布之间的距离,α为比例系数,为第i个原始中文文本对应的摘要关键信息覆盖率,pφ|T(.|xi;ω;L)为第i个原始中文文本对应的原始文本摘要概率分布,/>为第i个处理后文本对应的处理后文本摘要概率分布,D为文档集,log()为log函数,L为调节参数,/>为词表大小。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,当所述计算机程序被处理器执行时,实现如权利要求1至6任一项所述的文本摘要评价方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210844106.4A CN115221863B (zh) | 2022-07-18 | 2022-07-18 | 一种文本摘要评价方法、装置以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210844106.4A CN115221863B (zh) | 2022-07-18 | 2022-07-18 | 一种文本摘要评价方法、装置以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115221863A CN115221863A (zh) | 2022-10-21 |
CN115221863B true CN115221863B (zh) | 2023-08-04 |
Family
ID=83611645
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210844106.4A Active CN115221863B (zh) | 2022-07-18 | 2022-07-18 | 一种文本摘要评价方法、装置以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115221863B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114139497A (zh) * | 2021-12-13 | 2022-03-04 | 国家电网有限公司大数据中心 | 一种基于bertsum模型的文本摘要提取方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108628833B (zh) * | 2018-05-11 | 2021-01-22 | 北京三快在线科技有限公司 | 原创内容摘要确定方法及装置,原创内容推荐方法及装置 |
CN111858923A (zh) * | 2019-12-24 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种文本分类方法、***、装置及存储介质 |
US11593556B2 (en) * | 2020-05-26 | 2023-02-28 | Mastercard International Incorporated | Methods and systems for generating domain-specific text summarizations |
CN111930931B (zh) * | 2020-07-20 | 2024-05-24 | 桂林电子科技大学 | 一种摘要评价方法及装置 |
CN114662483A (zh) * | 2022-03-30 | 2022-06-24 | 桂林电子科技大学 | 一种文本摘要生成方法、装置以及存储介质 |
-
2022
- 2022-07-18 CN CN202210844106.4A patent/CN115221863B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114139497A (zh) * | 2021-12-13 | 2022-03-04 | 国家电网有限公司大数据中心 | 一种基于bertsum模型的文本摘要提取方法 |
Non-Patent Citations (1)
Title |
---|
基于语义相似度的自动文摘评价方法;张培颖;;计算机工程与应用(第25期) * |
Also Published As
Publication number | Publication date |
---|---|
CN115221863A (zh) | 2022-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Colavizza et al. | The citation advantage of linking publications to research data | |
Safdari et al. | Personality traits in large language models | |
CN108874768B (zh) | 一种基于主题情感联合概率的电子商务虚假评论识别方法 | |
CN110188351B (zh) | 语句通顺度及句法评分模型的训练方法及装置 | |
Tofighi et al. | Multilevel mediation analysis: The effects of omitted variables in the 1–1–1 model | |
US10642975B2 (en) | System and methods for automatically detecting deceptive content | |
Van Der Linden | Using response times for item selection in adaptive testing | |
US8147250B2 (en) | Cooccurrence and constructions | |
JP7153004B2 (ja) | コミュニティ質問応答データの検証方法、装置、コンピュータ機器、及び記憶媒体 | |
Chang et al. | Research on detection methods based on Doc2vec abnormal comments | |
Biçici | Referential translation machines for quality estimation | |
US10339214B2 (en) | Structured term recognition | |
Srba et al. | Auditing YouTube’s recommendation algorithm for misinformation filter bubbles | |
Melamud et al. | A two level model for context sensitive inference rules | |
Du et al. | Predicting crowdfunding project success based on backers' language preferences | |
Üstün et al. | Unsupervised morphological segmentation using neural word embeddings | |
CN111291558A (zh) | 一种基于非成对学习的图像描述自动评价方法 | |
Qi et al. | What is the limitation of multimodal llms? a deeper look into multimodal llms through prompt probing | |
CN108733672B (zh) | 实现网络信息质量评估的方法和*** | |
Barz et al. | Implicit estimation of paragraph relevance from eye movements | |
Khairova et al. | Estimating the quality of articles in Russian Wikipedia using the logical-linguistic model of fact extraction | |
Nguyen-Mau et al. | An information fusion based approach to context-based fine-tuning of GPT models | |
CN115221863B (zh) | 一种文本摘要评价方法、装置以及存储介质 | |
Han et al. | Relating utterance fluency to perceived fluency of interpreting: A partial replication and a mini meta-analysis | |
Habibi et al. | Using crowdsourcing to compare document recommendation strategies for conversations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |