CN115438654B

CN115438654B - 文章标题生成方法、装置、存储介质及电子设备

Info

Publication number: CN115438654B
Application number: CN202211383959.9A
Authority: CN
Inventors: 熊汉卿; 阙越; 谭林丰; 郝书乐
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2023-03-24
Anticipated expiration: 2042-11-07
Also published as: CN115438654A

Abstract

本发明提供一种文章标题生成方法、装置、存储介质及电子设备，该生成方法包括：根据文本摘要算法从目标文章中提取目标摘要；基于预训练的标题生成模型和目标摘要，生成第一候选文章标题；基于标题生成模型和目标文章，生成第二候选文章标题；计算第一候选文章标题和第二候选文章标题的标题匹配度，根据标题匹配度从第一候选文章标题中确定目标文章标题。本发明将标题生成模型和目标摘要生成的第一候选文章标题和标题生成模型和目标文章生成的第二候选文章标题进行匹配计算，根据匹配计算结果从第一候选文章标题中得到贴合目标文章内容的标题作为目标文章标题，从而提高文章标题生成的精确度。

Description

文章标题生成方法、装置、存储介质及电子设备

技术领域

本发明涉及文本处理技术领域，具体涉及一种文章标题生成方法、装置、存储介质及电子设备。

背景技术

标题和摘要对于文章的创作是非常重要的，但构思一个具有吸引力且贴近文章内容的标题和从文章中抽取或生成符合文章主旨的摘要并非易事。目标摘要生成需要将初始的长文章进行压缩、归纳和总结，从而形成短小精悍且具有概括性含义的短篇文本。文章标题生成需要在摘要生成的基础上，进一步精炼，并搭配适当的风格。

传统的人工阅读并总结的方式效率较低，且受作者主观性影响较大，可能会由于作者的主观因素导致误判，因此生成的文本标题和摘要常常不够准确。在自然语言处理领域内，目前主流的标题自动生成和摘要自动生成方法可分为抽取式和生成式。抽取式是从原文中抽取关键的句子组成摘要，该方法存在丢失信息的风险；生成式则是在理解原文的基础上进行语言的重新组织表达，该方法难以保证生成摘要或标题的通顺度且如果原文章长度过长，生成的效果也会难以保障。

发明内容

本发明的目的在于提出一种文章标题生成方法、装置、存储介质及电子设备，以提高文章标题生成的精确度。

本发明提供一种文章标题生成方法，包括以下步骤：

根据文本摘要算法从目标文章中提取目标摘要；

基于预训练的标题生成模型和所述目标摘要，生成第一候选文章标题；

基于所述标题生成模型和所述目标文章，生成第二候选文章标题；

计算所述第一候选文章标题和所述第二候选文章标题的标题匹配度，根据所述标题匹配度从所述第一候选文章标题中确定目标文章标题；

所述标题生成模型的训练方法包括以下步骤：

获取训练用的原始文本集，所述原始文本集包括原始文章和原始标题；

对所述原始文本集进行预处理，得到格式规范的输入数据，所述预处理为将所述原始文本集的格式统一化处理；

将预处理后的输入数据向改良后的GPT-2模型输入并进行训练，所述改良后的GPT-2模型为在GPT-2模型的下游增加FC层，得到预训练的标题生成模型。

根据本发明提出的文章标题生成方法，具有以下有益效果：本发明采用标题生成模型和目标摘要生成第一候选文章标题，采用标题生成模型和目标文章生成第二候选文章标题，将目标摘要生成的第一候选文章标题和目标文章生成的第二候选文章标题进行匹配计算，根据匹配计算结果从第一候选文章标题中得到贴合目标文章内容的标题作为目标文章标题，从而提高文章标题生成的精确度。

另外，根据本发明提供的文章标题生成方法，还可以具有如下附加的技术特征：

进一步地，计算所述第一候选文章标题和所述第二候选文章标题的标题匹配度，根据所述标题匹配度从所述第一候选文章标题中确定目标文章标题的步骤包括：

计算所述第一候选文章标题和所述第二候选文章标题的标题匹配度，将与所述第二候选文章标题匹配度最高的所述第一候选文章标题作为目标文章标题。

计算所述第一候选文章标题和所述第二候选文章标题的标题匹配度，以及计算所述第一候选文章标题的标题通顺度；

根据所述标题匹配度和所述标题通顺度确定所述第一候选文章标题的目标文章标题。

进一步地，将预处理后的输入数据向改良后的GPT-2模型输入并进行训练，得到预训练的标题生成模型的步骤包括：

向改良后的GPT-2模型中输入所述输入数据，所述改良后的GPT-2模型输出每个预测的token值，根据所述预测的token值和原始token值计算所述改良后的GPT-2模型的损失值，根据所述损失值不断优化所述改良后的GPT-2模型，得到预训练的标题生成模型。

进一步地，所述根据文本摘要算法从目标文章中提取目标摘要的步骤包括：

计算目标文章的总字符长度和句子数量，根据所述目标文章的总字符长度和所述句子数量计算摘要长度；

使用TextRank算法计算所述目标文章中每句话占整篇所述目标文章的权重，按照权重顺序降序排序，根据所述权重顺序和所述摘要长度选取目标句子，再根据所述目标句子在所述目标文章中的顺序拼接成目标摘要。

进一步地，所述基于所述标题生成模型和所述目标文章，生成第二候选文章标题的步骤为：

向预训练的标题生成模型中导入目标文章，得到预测标题列表；

对所述预测标题列表中的各个预测标题通过Kenlm计算困惑度，将各个所述预测标题的困惑度升序排序，将所述预测标题困惑度小于预设困惑度的所述预测标题作为第二候选文章标题。

本发明还提供一种文章标题生成装置，所述装置包括：

提取模块，用于根据文本摘要算法从目标文章中提取目标摘要；

第一生成模块，用于基于预训练的标题生成模型和所述目标摘要，生成第一候选文章标题；

第二生成模块，用于基于所述标题生成模型和所述目标文章，生成第二候选文章标题；

计算模块，用于计算所述第一候选文章标题和所述第二候选文章标题的标题匹配度，根据所述标题匹配度从所述第一候选文章标题中确定目标文章标题；

所述标题生成模型的训练方法包括以下步骤：

本发明还提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的文章标题生成方法。

本发明还提供一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的文章标题生成方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明的第一实施例的文章标题生成方法的流程图；

图2是本发明的第二实施例的文章标题生成方法的流程图；

图3是本发明的第三实施例的文章标题生成装置的结构框图；

附图标号：

10、提取模块；20、第一生成模块；30、第二生成模块；40、计算模块。

具体实施方式

为使本发明的目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。附图中给出了本发明的若干实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

请参照图1和图3所示，本发明的第一实施例提供一种文章标题生成方法，包括步骤S101~S104：

步骤S101、根据文本摘要算法从目标文章中提取目标摘要；

目标文章即为将要采用本发明的方法自动生成标题的被测文章，将被测的目标文章，通过现有的文本摘要算法，包括但不限于TextRank算法、哈希算法、MD5算法等，得到目标文章对应的目标摘要，在本发明的实施例中，优选TextRank算法。

TextRank算法是现有的一种文本排序算法，它能够从一个给定的文本中提取出该文本的关键词、关键词组，并使用抽取式的自动文摘方法提取出该文本的关键句。

TextRank算法根据词之间的共现关系构造网络；TextRank算法构造的网络中的边是无向有权边。通过TextRank算法可得到两个节点之间的边连接具有的重要程度，从而可以通过排序得到包含信息较为重要的句子，在将得到的重要句子在原来的文中的顺序拼接成摘要。

在本实施例中，上述步骤S101，根据文本摘要算法从目标文章中提取目标摘要的步骤具体包括：

步骤S1011、计算目标文章的总字符长度和句子数量，根据所述目标文章的总字符长度和所述句子数量计算摘要长度；

例如，如果文章的长度小于标题生成模型的输入（512字符），对文章不做处理，直接作为目标摘要，否则使用TextRank算法，计算出文章中的每句话对整篇文章的权重（贡献），在保证取出的子句的长度相加不超过512的前提下，按照权重排序，并按照子句在原来文章中的顺序拼接成目标摘要。

步骤S1012、使用TextRank算法计算所述目标文章中每句话占整篇所述目标文章的权重，按照权重顺序降序排序，根据所述权重顺序和所述摘要长度选取目标句子，再根据所述目标句子在所述目标文章中的顺序拼接成目标摘要。

具体的，依据TextRank算法对文章根据词之间的共现关系构造网络，从中得到最重要的t个单词，作为top-t关键词；对于得到的top-t关键词，在原始文章中进行标记，并提取关键词组；迭代计算句子中每个关键词的TextRank值，计算出文章中每句话的TextRank值，并排序，按降序取出适当长度的句子（总字数限制在512以下），并按文章中出现的顺序重新排序，得到文章摘要。

通过在数据预处理过程中加入TextRank-Rouge算法，本方法可以降低文本输入到模型中的特征损失，最大程度的保证文本信息的完整性，且降低了后续计算中对显存的需求，从而在提高文章摘要生成的准确性的同时降低了计算成本。

步骤S102、基于预训练的标题生成模型和所述目标摘要，生成第一候选文章标题；

基于预训练的标题生成模型，该标题生成模型可以为目前现有的标题生成模型，也可以为在基于现有标题生成模型进行改良后的标题模型，在本发明中优选为改良后的GPT-2 (Generative Pre-Training，生成性预训练)模型，将步骤S101得到的目标摘要作为模型的输入，为该目标摘要输出一个精炼的句子作为标题。

在本实施例中，所述步骤S102中的标题生成模型的训练方法包括以下步骤：

步骤S1021、获取训练用的原始文本集，所述原始文本集包括原始文章和原始标题；

训练前，将原始文本集划分为训练集和验证集，训练集用于训练模型，验证集用于验证模型。

步骤S1022、对所述原始文本集进行预处理，得到格式规范的输入数据，所述预处理为将所述原始文本集的格式统一化处理；

具体的，预处理包括字符编码标准化，英文大小写字母统一化，中文繁简字统一化，删除特殊符号和空格。通过正则表达式，将文章中的html的标签、例如“/n”、" NBSP"、“/s”等特殊符号和连续的多余空格删除，得到格式统一规范的输入数据。

步骤S1023、将预处理后的输入数据向改良后的GPT-2模型输入并进行训练，所述改良后的GPT-2模型为在GPT-2模型的下游增加FC层，得到预训练的标题生成模型。

具体的，将文本转换为模型的输入，输入为 WordEmbedding + SegmentEmbedding+ PositionEmbedding，三个编码拼凑到一起，形成一个（n,3,512）的张量。

在GPT-2模型的下游增加了一个FC层，将GPT-2模型最后一层的输出放大到词典的大小，然后根据模型的FC的输出基于MASK机制的原理预测出每个token值，并计算title的token与原来token的损失值；迭代以上操作，保存每次迭代的模型，最后选择在验证集上表现最好的一个批次。

通过在训练过程中使用改进的GPT-2模型，文章生成的标题并与摘要生成的标题进行匹配，本方法可以提高模型训练的效率并提高标题生成的精确度；

步骤S103、基于所述标题生成模型和所述目标文章，生成第二候选文章标题；

步骤S102和步骤S103的标题生成模型为同一模型，将目标文章输入到标题生成模型中，输出第二候选文章标题。

在本实施例中，上述步骤S103具体包括：

步骤S1031、向预训练的标题生成模型中导入目标文章，得到预测标题列表；

步骤S1032、对所述预测标题列表中的各个预测标题通过Kenlm计算困惑度，将各个所述预测标题的困惑度升序排序，将所述预测标题困惑度小于预设困惑度的所述预测标题作为第二候选文章标题。

Kenlm是一个C++编写统计语言模型工具。

S 表示当前句子；N 表示句子长度；p(ω_i) 表示第i个词的概率，p(ω_i|ω₁ω₂ω₃…ω_i-1) 表示基于前i-1个词，计算得出第i个词的概率， PP（S）代表句子的困惑度，也就是句子的通顺度。困惑度越低，句子越流畅。

在本步骤中，通过使用Kenlm工具计算预测标题的困惑度，选择困惑度较低，也即将预测标题比较流畅的作为第二候选文章标题，从而保证目标文章标题的通顺度。

步骤S104、计算所述第一候选文章标题和所述第二候选文章标题的标题匹配度，根据标题匹配度从所述第一候选文章标题中确定目标文章标题。

将第一候选文章标题中的各个文章标题和第二候选文章标题进行标题匹配度计算，分别计算得到Rouge-1、Rouge-2和Rouge-L的分数，将所有分数相加得到最终的匹配度得分。

Rouge是现有基于摘要中n元词(n-gram)的共现信息来评价摘要，是一种面向n元词召回率的评价方法。Rouge准则由一系列的评价方法组成，包括Rouge-N(N是n-gram中n，取值有1，2，3，4)，Rouge-L等。

在本实施例中，步骤S104具体包括：

本发明将匹配度得分最高，即将最贴合目标文章内容的标题作为目标文章标题，从而提高文章标题生成的精确度。

请参照图2所示，本发明的第二实施例提供一种文章标题生成方法，包括以下步骤：

步骤S201、根据文本摘要算法从目标文章中提取目标摘要；

步骤S202、基于预训练的标题生成模型和所述目标摘要，生成第一候选文章标题；

步骤S203、基于所述标题生成模型和所述目标文章，生成第二候选文章标题；

步骤S204、计算所述第一候选文章标题和所述第二候选文章标题的标题匹配度，以及计算所述第一候选文章标题的标题通顺度；

步骤S205、根据所述标题匹配度和所述标题通顺度确定所述第一候选文章标题的目标文章标题；

所述标题生成模型的训练方法包括以下步骤：

其中Model_score表示最终的匹配度总分数，PP(S)为句子困惑度得分，score为综合得分，将综合得分最高的第一候选文章标题确定为目标文章标题。

本发明第二实施例的步骤S201~步骤S203与第一实施例中的步骤S101~步骤S103的技术方案相同，不同点为本发明的第二实施例计算了第一候选文章标题的通顺度，根据标题匹配度和标题通顺度综合考虑后确定最终的目标文章标题，使最终得到的目标文章标题既保证精确度，又保证了通顺度，通顺度采用上述步骤S1032的Kenlm计算。

请参照图3所示，本发明的第三实施例提供一种文章标题生成装置，所述装置包括：

提取模块10，用于根据文本摘要算法从目标文章中提取目标摘要；

第一生成模块20，用于基于预训练的标题生成模型和所述目标摘要，生成第一候选文章标题；

第二生成模块30，用于基于所述标题生成模型和所述目标文章，生成第二候选文章标题；

计算模块40，用于计算所述第一候选文章标题和所述第二候选文章标题的标题匹配度，根据所述标题匹配度从所述第一候选文章标题中确定目标文章标题。

在本发明的实施例中，所述计算模块40具体包括：

在本发明的另一实施例中，所述计算模块40包括：

在本发明的实施例中，所述提取模块10包括：

在本发明的实施例中，所述第二生成模块30包括：

本发明提供的一种文章标题生成方法，本发明采用标题生成模型和目标摘要生成第一候选文章标题，采用标题生成模型和目标文章生成第二候选文章标题，将目标摘要生成的第一候选文章标题和目标文章生成的第二候选文章标题进行匹配计算，根据匹配计算结果从第一候选文章标题中得到贴合目标文章内容的标题作为目标文章标题，从而提高文章标题生成的精确度。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备（如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***）使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通讯、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

Claims

1.一种文章标题生成方法，其特征在于，包括以下步骤：

根据文本摘要算法从目标文章中提取目标摘要；

所述标题生成模型的训练方法包括以下步骤：

将预处理后的输入数据向改良后的GPT-2模型输入并进行训练，所述改良后的GPT-2模型为在GPT-2模型的下游增加FC层，将GPT-2模型最后一层输出放大到词典的大小，然后根据模型的FC层的输出基于MASK机制的原理输出每个预测的token值，根据所述预测的token值和原始token值计算所述改良后的GPT-2模型的损失值，根据所述损失值不断优化所述改良后的GPT-2模型，得到预训练的标题生成模型。

2.根据权利要求1所述的文章标题生成方法，其特征在于，计算所述第一候选文章标题和所述第二候选文章标题的标题匹配度，根据所述标题匹配度从所述第一候选文章标题中确定目标文章标题的步骤包括：

3.根据权利要求1所述的文章标题生成方法，其特征在于，计算所述第一候选文章标题和所述第二候选文章标题的标题匹配度，根据所述标题匹配度从所述第一候选文章标题中确定目标文章标题的步骤包括：

4.根据权利要求1所述的文章标题生成方法，其特征在于，所述根据文本摘要算法从目标文章中提取目标摘要的步骤包括：

5.根据权利要求1所述的文章标题生成方法，其特征在于，所述基于所述标题生成模型和所述目标文章，生成第二候选文章标题的步骤为：

6.一种文章标题生成装置，其特征在于，所述装置包括：

所述标题生成模型的训练方法包括以下步骤：

7.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至5中任一项所述的文章标题生成方法。

8.一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的文章标题生成方法。