CN117610548B

CN117610548B - 一种基于多模态的自动化论文图表标题生成方法

Info

Publication number: CN117610548B
Application number: CN202410086105.7A
Authority: CN
Inventors: 凌强; 齐晓滑; 於俊; 方毅
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2024-01-22
Filing date: 2024-01-22
Publication date: 2024-05-03
Anticipated expiration: 2044-01-22
Also published as: CN117610548A

Abstract

本发明提出了一种基于多模态的自动化论文图表标题生成方法，本发明属于计算机技术领域，用于自动生成论文图表的信息丰富且高质量的标题，包括，步骤1.获取输入，在获取输入部分，将论文图表转化为本文描述，并将该文本描述和该论文图表对应的段落、论文中明确提到论文图表的句子三者拼接起来，作为模型的输入部分；步骤2.获取标签，在获取标签部分，将论文图表的真实标题作为模型的标签部分；步骤3.模型训练，在模型训练部分，作为总结任务来进行训练。本发明优于传统的基于视觉的或基于文本的单模态方法。

Description

一种基于多模态的自动化论文图表标题生成方法

技术领域

本发明属于计算机技术领域，尤其涉及一种基于多模态的自动化论文图表标题生成方法。

背景技术

在学术文献中，有效的图表标题对于读者理解复杂的图表，如条形图、折线图或饼图，具有至关重要的作用。这些图表标题不仅仅描述图像本身，通常还包含来自文档全文的必要背景信息。但是，在已经发表的科研论文中，常常存在质量低劣的图表标题，这些标题无法为读者提供足够的帮助来理解图表的内容。自动生成科研论文图表标题的技术可以为论文作者提供高质量的起始标题，从而为其提供改进的空间。目前已有的方法通常可以归纳为以下两种主要思路：

第一种思路将科研论文图表标题生成视为一种从视觉信息到语言信息的转换任务，即基于图像生成论文图表标题。例如，一些方法采用端到端的方式，通过结合卷积神经网络（CNN）和循环神经网络（RNN）结构，从图像中提取特征表示并将其转化为图表标题文本。另一些方法采用了稍微不同的方式，首先理解图像的内容，提取其中的关键信息，然后根据预定义的模板生成图表标题。尽管这些方法在合成图表标题的整体逻辑结构方面取得了一定的成功，但它们通常在生成现实世界的图表标题时面临挑战。这是因为它们未充分考虑与论文图表相关的段落文本信息，而仅关注于论文图表的视觉信息，从而无法生成图表标题的细节信息。

第二种思路将科研论文图表标题生成视为一种从语言信息到语言信息的转换任务，即基于总结提及图表的段落来生成图表标题。例如，有些方法将科研论文图表标题生成视为文本摘要的任务，利用预训练的T5模型来总结提及图表的段落中的文本，从而生成科研论文图表标题。然而，尽管这些方法在生成细粒度的信息方面取得了一定的成功，它们通常没有考虑到论文图表的视觉信息，因此生成的科研论文图表标题在整体逻辑结构方面存在一定的不足，因此难以在实际应用中表现出色。

因此，如何能够同时有效地利用科研论文图表的视觉信息和提及图表的段落语言信息，以生成更高质量的科研论文图表标题，以满足实际应用需求，是一个亟待解决的问题。

发明内容

因此，为解决以上问题，本发明提出了一种多模态的自动化论文图表标题生成方法。该方法同时综合利用科研论文图表的视觉模态和提及图表的段落语言信息的文本模态，旨在生成具备较为完整的整体逻辑结构和细致的细节信息的科研论文图表标题。

本发明提出一种基于多模态的自动化论文图表标题生成方法，所述方法包括以下步骤：

步骤1.获取输入，在获取输入部分，将论文图表转化为本文描述，并将该文本描述和该论文图表对应的段落、论文中明确提到该论文图表的句子三者拼接起来，作为模型的输入部分；

步骤2.获取标签，在获取标签部分，将论文图表的真实标题作为模型的标签部分；

步骤3.模型训练，在模型训练部分，作为总结任务来进行训练。

进一步，步骤1的具体实现方法为：

步骤1.1.使用BlingFire将论文的纯文本分割成句子，然后使用正则表达式来识别提到论文图表的句子；

步骤1.2.采用Grobid将论文的PDF文件转换为结构化的XML文档，以从每篇论文的段落中提取纯文本，从中提取与论文图表对应的段落；

步骤1.3. 将论文图表使用BLIPv2模型转化为文本描述；

步骤1.4 将论文图表的文本描述与该论文图表对应的段落与论文中明确提到该论文图表的句子三者拼接起来，作为模型的输入。

进一步，在该方法的模型中，在每个时间步产生一个词，标记为/>，其中/>从1到，/>是生成序列的总长度；该方法的目标是找到具有最高条件概率的生成输出序列，即：

，

其中，是输入。

进一步，该方法中采用波束采样策略的生产输出序列，具体步骤如下：

步骤3.1. 初始化：在初始时间步时，创建一个包含/>个候选序列的候选列表，每个候选序列以起始符号开始；

步骤3.2. 生成候选序列：对于每个时间步，执行以下步骤：

a. 对于每个候选序列，计算生成下一个词的条件概率分布：

，

这里的是温度参数，用于控制分数的分布，通常为一个正数；

b. 对于已生成的词进行重复惩罚，将分数乘以，其中/>是重复惩罚参数，其中，/>表示已经生成的相同词的数量个/>相乘；

c. 对于每个候选序列，计算生成下一个词的累积概率得分；

，

这里的是指当前候选序列的累积概得分，其中/>；

d. 选择所有候选序列中累积概率得分最高的前个候选序列，将它们作为下一步的候选；

步骤3.3. 终止条件：重复步骤2，直到生成序列长度达到最大长度或者所有候选序列都生成了终止符号；最终，选择具有最高分数的候选序列作为最终的生成结果。

进一步，还包括，输出序列长度限制步骤，具体为：为了确保生成的输出序列的长度在最小和最大长度之间，在每个时间步骤执行以下操作：如果生成的输出序列的长度小于最小长度，则强制生成下一个词，以避免序列太短；如果生成序列的长度达到最大长度，则终止生成。

本发明的有益效果：

1. 协助研究人员自动生成高质量的科研论文图表标题，从两方面产生益处。首先，高质量的图表标题有助于更有效地向读者传递复杂丰富的信息。其次，该方法可以显著减轻论文作者的工作负担。自动化科研论文图表标题生成能够提供出色的初始标题，为进一步改进提供了有力支持。

2. 所提出的技术有望增加盲人或视觉受损读者对科学图表和图形的可访问性。尽管现有技术已经开发出一些助盲人导航图形内容的技术，例如数据可视化图表、印刷地图、3D化学示意图以及社交媒体上的图像等，但以前的研究鲜有关注科学图表。专门为科学图表设计的图像题注模型有望改善盲人对科学文章的理解，即使原始图表标题缺乏帮助。

附图说明

图1为一种基于多模态的自动化论文图表标题生成方法的整体结构图。

具体实施方式

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

一种基于多模态的自动化论文图表标题生成方法的整体结构图如图1所示，其主要由三部分组成：获取输入、获取标签、模型训练。在获取输入部分，将论文图表的视觉信息转化为文本描述BLIP Caption，并将该文本描述BLIP Caption和该论文图表对应的段落Paragraph和句子mention拼接起来作为模型的输入部分。在获取标签Label Caption部分，将论文图表的真实标题作为模型的标签部分；在模型训练部分，作为本发明总结任务来进行训练。将在接下来详细描述各部分的获取以及组成。

问题陈述和术语

一个文档包含/>个图表，/>到/>，其中/>有一个由文档作者编写的标题/>。在文档/>中，/>个句子，/>到/>，明确提到了/>（例如，“如图/>所示...”）。本发明的目标是仅使用文档/>中的提及（/>到/>）、提及段落的文本和对应图表/>，自动生成图表/>的高质量标题/>。

本方法涉及的名词描述如下：

BLIP Caption：论文图表直接加载预训练的BLIP-v2模型进行推理，生成的本文描述。

Mention:指的是文档中明确提到目标图表的句子，例如，“如图6所示...”如果有多个提及，这里将指代第一个提及。

Paragraph:指的是文档中句子Mention出现的段落。

Label Caption：是指文档中论文图表的真实标题。在这里作为训练集的标签。

数据集描述

本文所述方法所基于的数据集，SCICAP是一个包含超过416,000张图表和说明文字的数据集，这些图表和说明文字提取自超过290,000篇arXiv论文。它是第一个基于真实科学图表的大规模图表说明数据集之一。

然而，该数据集的最初目的是为了图表到文本任务的，它不包含图表句子mention和图表的对应的段落Paragraph。为了解决这个问题，对该数据集进一步处理得到了图片的句子mention、段落Paragraph、文本描述BLIP Caption等，详细的处理过程将在接下来介绍。

得到图表对应的文本描述BLIP Caption

BLIPv2（Blip-2: Bootstrapping language-image pre-training with frozenimage encoders and large language models）是一个预训练的视觉-语言模型。它的主要目标是将图像和文本结合起来，使模型能够理解和生成图像描述。BLIPv2是为了处理视觉和语言之间的跨模态任务而设计的，这包括图像标注、视觉问答、图像生成文本等任务。BLIPv2的训练过程通常包括大规模的图像和文本数据，以便模型能够学习视觉和语言之间的关联。一旦训练完成，BLIPv2可以用于从图像生成文本描述或从文本生成相关的图像内容。这使得它在多种应用中都具有广泛的用途，尤其在图像处理和自然语言处理领域。

在该部分，将论文图表转化为文本描述，具体来说，考虑到BLIPv2强大的zero-shot能力,该方法直接加载预训练的BLIPv2模型对论文图表进行推理，生成论文图表的文本描述，即BLIP Caption。

得到图表对应句子Mention

BlingFire是一个用于自然语言处理的开源工具，通常用于句子分割和标记化文本。它是由微软开发的，旨在帮助处理文本数据的分割和标记化任务。

使用BlingFire将这些纯文本分割成句子。然后使用正则表达式来识别提到特定图表的句子。例如，“如图6所示，...”这样的句子首先被识别，然后和图表6相关联。

得到图表对应段落Paragraph

Grobid是一个公开可用的工具，用于将PDF文件转换为结构化的XML文档，并从中提取文本和其他信息。Grobid的主要用途是帮助研究人员和开发人员从科学文献中提取出有用的数据，例如标题、作者、摘要、引用和其他元数据。

在方法中，采用Grobid将PDF文件转换为结构化的XML文档，以从每篇论文的段落（包括<p>标签）中提取纯文本。然后将包含句子mention的段落Paragraph和对应的图标关联起来。

得到图表对应标签Label Caption

标签及对应的图片对在数据集中直接存在。

模型训练

在得到论文图表对应的文本描述BLIP Caption、句子Mention、段落Paragraph、标签Label Caption之后，将论文图表的标题的生成任务，转化为文本总结任务，具体来说，该方法将文本描述BLIP Caption、段落Paragraph、句子Mention拼接之后作为文本总结模型的输入；将标签Label Caption作为文本总结模型的标签，来对文本总结模型进行训练。

具体来说，该方法，使用了PEGASUS，这是一种文本总结生成模型，并对其进行了在该方法介绍的数据集上的微调。除了模型最大文本长度设置不同之外，所有模型都共享相同的训练超参数。模型最大文本长度被设置为（i）完全覆盖至少95％的文本而无需截断，以及（ii）适应于机器显存的大小。用于训练的其他超参数包括批大小为32，学习率为5e-5，以及训练时的训练周期数为200。所有模型都在NVIDIA A100 GPU上训练。每个模型的训练时间为一至三天。

论文图表标题生成

在训练完模型之后，便可以使用该模型自动化的生成论文图表标题，具体来说，输入论文图表以及图表对应的句子Mention和段落Paragraph输入训练好的模型中，便可以自动化的产生该论文图表的标题。

标题生成的策略采用波束采样策略（Beam Sampling Strategy），该策略用于自然语言处理和生成模型中，用于生成文本序列的一种策略。其目的是在生成文本时选择最有可能的序列，以提高生成质量和连贯性。

波束采样策略的核心思想是通过在每个生成步骤中考虑多个候选项来选择下一个词或标记，而不仅仅是单一的最可能的词。这些候选项被称为“波束”（beam），波束的大小通常由用户事先指定。在每个生成步骤中，模型将为每个候选词计算一个分数，然后选择分数最高的词作为下一个生成的词。这个分数计算通常基于模型的语言概率分布。

在该方法的论文图表标题生成模型中，它在每个时间步（或生成步骤）产生一个词或标记/>，其中/>从1到/>，/>是生成序列的总长度。该方法的目标是找到具有最高条件概率的生成序列，即：

，

其中，是输入信息，在这里指输入的论文图表及对应的句子Mention和段落Paragraph文本。

以下是在该方法中波束采样策略的具体过程：

1. 初始化：在初始时间步时，我们创建一个包含/>个候选序列的候选列表（波束）。每个候选序列以起始符号（通常是/>）开始。

2. 生成候选序列：对于每个时间步，执行以下步骤：

a. 对于每个候选序列，计算生成下一个词的条件概率分布：

，

这里的是温度参数，用于控制分数的分布，通常为一个正数（在这里是0.8）。

b. 对于已生成的词进行重复惩罚（repetition penalty），通常是将分数乘以（已经生成的相同词的数量），其中/>是重复惩罚参数（在这里是3.0）。

c. 对于每个候选序列，计算生成下一个词的累积概率得分；

，

这里的是指当前候选序列的累积概得分，其中/>；

3. 终止条件：重复步骤2，直到生成序列长度达到最大长度或者所有候选序列都生成了终止符号（通常是/>）。最终，选择具有最高分数的候选序列作为最终的生成结果。

4. 长度限制：为了确保生成序列的长度在最小和最大长度之间，可以在每个时间步骤执行以下操作：

- 如果生成序列的长度小于最小长度（在这里是10），则强制生成下一个词，以避免序列太短。

- 如果生成序列的长度达到最大长度（在这里是100），则终止生成。

考虑到论文图表标题的写作，极大的增加了科研人员的负担以及其质量与写作的人员密切相关，本发明提出了一种基于多模态的自动化论文图表标题生成方法，即通过论文图表和论文图表相关的文本双模态来生成论文图表标题，该方法优于传统的基于视觉的或基于文本的单模态方法。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模态的自动化论文图表标题生成方法，其特征在于，论文D包含n个图表到/>，在论文D中，/>个句子/>到/>明确提到了/>，使用论文D中的提及句子/>到/>、提及段落的文本和对应图表/>，自动生成图表/>的标题/>；

所述方法包括以下步骤：

步骤1.获取输入，在获取输入部分，将论文图表转化为本文描述，并将该文本描述和该论文图表/>对应的段落、论文中明确提到该论文图表的句子三者拼接起来，作为模型的输入部分；

步骤3.模型训练，在模型训练部分，作为总结任务来进行训练；

步骤1的具体实现方法为：

步骤1.3. 将论文图表使用BLIPv2模型转化为文本描述；

步骤1.4 将论文图表的文本描述与该论文图表/>对应的段落与论文中明确提到该论文图表/>的句子三者拼接起来，作为模型的输入；

在该方法的模型中，在每个时间步t产生一个词，标记为，其中t从1到T，T是生成序列的总长度；该方法的目标是找到具有最高条件概率的生成输出序列，即：

,

其中，x是输入；

该方法中采用波束采样策略的生成输出序列，具体步骤如下：

步骤3.1. 初始化：在初始时间步时，创建一个包含B个候选序列的候选列表，每个候选序列以起始符号开始；

步骤3.2. 生成候选序列：对于每个时间步，执行以下步骤：

a. 对于每个候选序列，计算生成下一个词的条件概率分布：

，

c.对于每个候选序列，计算生成下一个词的累积概率得分；

,

这里的是指当前候选序列的累积概得分，其中/>；

d. 选择所有候选序列中累积概率得分最高的前B个候选序列，将它们作为下一步的候选；

步骤3.3. 终止条件：重复步骤2，直到生成序列长度达到最大长度T或者所有候选序列都生成了终止符号；最终，选择具有最高分数的候选序列作为最终的生成结果。

2.根据权利要求1所述的方法，其特征在于，还包括，输出序列长度限制步骤，具体为：为了确保生成的输出序列的长度在最小和最大长度之间，在每个时间步骤t执行以下操作：如果生成的输出序列的长度小于最小长度，则强制生成下一个词，以避免序列太短；如果生成序列的长度达到最大长度，则终止生成。