CN112579759A

CN112579759A - 模型训练方法及任务型视觉对话问题的生成方法和装置

Info

Publication number: CN112579759A
Application number: CN202011574828.XA
Authority: CN
Inventors: 史亚楠; 王小捷; 袁彩霞; 谭言信
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-03-30
Anticipated expiration: 2040-12-28
Also published as: CN112579759B

Abstract

本申请公开了一种模型训练方法及任务型视觉对话问题的生成方法和装置，其中，模型训练方法包括：获取人类对话数据和相应图像的特征数据，确定其中每轮问答数据的问句类别，并生成问句类别标签；按照对话顺序遍历每轮问答数据，利用该轮问答数据、相应的所述问句类别标签和图像的特征数据，对预设的任务型视觉对话问题生成模型进行训练；该训练包括：基于当前输入至所述模型的一轮问答数据和图像的特征数据，生成上下文向量和具有文本引导的图像特征；基于上下文向量和图像特征，预测下一轮问答数据的问句类别，并在该类别范围内预测下一轮问答数据的问句，基于预测结果，调整模型的网络参数。采用本申请，可以减少对话交互轮次，提高任务成功率。

Description

模型训练方法及任务型视觉对话问题的生成方法和装置

技术领域

本发明涉及移动通信技术，特别是涉及一种模型训练方法及任务型视觉对话问题的生成方法和装置。

背景技术

目前，视觉对话任务***是人工智能的热门研究技术之一。视觉对话任务***通过基于智能体与用户之间的问答信息，来确定相关场景中用户的目标对象，以帮助用户针对目标对象完成某些任务。视觉对话是自然语言处理、计算机视觉、知识表示学习、推理等多领域多学科知识和方法的交叉研究。目前已有视觉对话***大致可分为任务型的视觉对话和闲聊型视觉对话两类。其中，如何生成有效的问题是任务型视觉对话中的难点问题之一。现有的任务型视觉对话***中的问题生成方法大都是基于端到端框架实现。其中，端到端的监督学习是主流的问题生成方法之一。

发明人在实现本发明的过程中发现：采用现有的端到端的监督学习方法实现视觉对话任务，存在对话轮次多、失败率高等问题，具体原因分析如下：

现有的端到端的监督学习方法中，将对话语料和图像数据输入至预先训练的模型中处理时，先利用历史信息编码器和图像编码器，对所有上下文信息进行编码，包括对话历史、图像等信息；再将不同特征进行有效整合后，将其传入解码器处理，以生成新的问题。在预先对上述模型进行训练时，需要依赖于来自解码器端的监督信号，对编码器的参数进行反馈调整，该监督信号由真实对话和预测出来的对话之间的差异产生。这样，基于上述监督信号进行训练，会引导生成的问题与真人对话中的问题一致。而相比于词量多的复杂问题，简单问题由于包含的词量少，更容易与真人对话中的问题一致，因此，在对模型训练时简单问题得分会更高，被作为预测结果的概率更大。这样，简单问题更容易被生成。但是，由于简单问题包含的词量少，携带的有利于准确猜测目标对象的有效信息量小，就需要更多轮次的交互才能猜出目标对象。而在实际应用中，交互的最大次数是受限的，这样，如果最大交互次数小于实际需要的交互次数，就会发生完成最大次数的交互后仍无法准确猜出目标对象的情况，从而导致任务执行失败。并且，自然语言的表达具有多样性，不同的表达也可以有相似效果，而上述方法中的模型训练，仅仅依靠生成语句在表述形式上的差异进行驱动，即仅基于由真实对话和预测出来的对话之间的差异产生的监督信号进行反馈调整，就会导致调整的不准确性，从而降低了最终训练得到的模型的准确性，进而影响基于模型执行视觉对话任务的成功率。

另外，发明人在实现本发明的过程中发现：采用现有的端到端的监督学习方法，会出现重复提出相同问题的情况。而由于该方法中在进行编码器训练时，基于单一的监督信号自行训练拟合，使得模型训练过程成为黑盒子，进而使得上述问题的可解释性不足，即无法基于训练过程分析出上述问题产生的原因。为此，发明人通过研究分析并经仿真验证发现上述对话过程中生成重复问题的原因之一是：在现有的端到端的监督学习方法中，对话文本信息没有进行层级编码，这样，对于应该被重视的答案信息，不会被分配足够多的注意力，从而可能导致模型无法对不同的文本特征进行有效整合，这样就会存在用户回答的信息被遗忘的情况，进而发生问题被重复提出的情况。

发明内容

有鉴于此，本发明的主要目的在于提供一种模型训练方法及任务型视觉对话问题的生成方法和装置，有利于减少视觉对话过程的交互轮次，提高任务成功率。

为了达到上述目的，本发明实施例提出的技术方案为：

一种模型训练方法，包括：

获取人类对话数据和相应图像的特征数据；

为所述人类对话数据中的每轮问答数据，确定其中问句的类别，并生成问句类别标签；

按照对话顺序遍历每轮所述问答数据，利用该轮问答数据、相应的所述问句类别标签和所述图像的特征数据，对预设的任务型视觉对话问题生成模型进行训练；其中，所述训练包括：

基于第k轮问答数据和所述图像的特征数据，生成当前的上下文向量和具有文本引导的图像特征；所述k为当前输入至所述模型的问答数据的对话轮次编号；

基于所述上下文向量和所述具有文本引导的图像特征，预测第k+1轮问答数据中问句的类别，以及在预测到的类别范围内预测第k+1轮问答数据的问句，基于所述预测的结果，调整所述模型的网络参数。

较佳地，所述确定其中问句的类别包括：

对于每轮问答数据，将该轮问答数据中的问句，输入至预先训练的问句类别识别模型中处理，得到该轮问答数据的问句类别标签。

较佳地，所述类别包括对象类、颜色类、方位类和其他类。

较佳地，所述生成当前的上下文向量和具有文本引导的图像特征包括：

利用第一循环神经网络，对当前输入至所述模型的第k轮问答数据进行编码，得到相应的文本向量；

将所述文本向量与历史文本向量，输入至第二循环神经网络进行处理，得到相应的上下文向量；其中，所述历史文本向量包括基于第k轮之前的每轮问答数据生成的所有文本向量；

利用所述上下文向量，基于注意力机制，对预设图像的图像特征进行处理，得到具有文本引导的图像特征。

较佳地，所述预测第k+1轮问答数据中问句的类别包括：

将所述上下文向量和所述具有文本引导的图像特征进行拼接；

利用前馈神经网络，基于所述拼接的结果，对第k+1轮问答数据中问句的类别进行预测。

较佳地，所述在所预测的类别范围内预测第k+1轮问答数据的问句包括：

利用解码器，基于所述上下文向量、所述具有文本引导的图像特征和所述类别，预测第k+1轮问答数据的问句；

其中，所述上下文向量和所述具有文本引导的图像特征为所述解码器的初始隐藏层的输入数据；所述类别为所述解码器的所有隐藏层的输入数据。

较佳地，所述调整所述模型的网络参数包括：

将第一损失函数值和第二损失函数值相加，得到损失函数总值；基于所述损失函数总值，调整所述模型的网络参数；

其中，所述第一损失函数值为预测所述类别时得到的损失函数值，所述第二损失函数值为预测所述问句时得到的损失函数值。

本申请实施例还公开了一种任务型视觉对话的问题生成方法，包括：

在任务型视觉对话过程中，当完成一轮问答时，将该轮问答的数据，输入至预先训练的任务型视觉对话问题生成模型处理，得到下一轮问答的问句；其中，所述任务型视觉对话问题生成模型基于如上所述的模型训练方法得到。

本申请实施例还公开了一种模型训练装置，包括处理器和存储器；

所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如上所述的模型训练方法。

本申请实施例还公开了一种任务型视觉对话的问题生成装置，包括处理器和存储器；

所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如上所述的任务型视觉对话的问题生成方法。

由上述技术方案可见，本发明实施例提出的模型训练方法及任务型视觉对话问题的生成方法和装置，在对用于生成任务型视觉对话问题的模型进行训练前，需要对训练数据中的每轮问答数据，确定其中问句的类别，以生成相应的问句类别标签，之后在模型训练过程中，需要在预测下一轮问句之前，先基于具有文本引导的图像特征，预测下一轮问答的问句类别，然后，再在预测下一轮问句时，需要在所预测的类别范围内生成问句，以确保所生成的问句属于所预测的类别。如此，一方面，基于具有文本引导的图像特征进行上述预测，可以对不同轮次对话数据的文本特征进行有效整合，避免发生用户回答信息被遗忘的情况，从而可以避免语义相同的问句被重复提出，有效提高了所生成问句的有效性；另一方面，通过基于问句类别预测结果预测下一轮问句，可以引导模型生成有利于完成任务的有效问句，而避免模型容易生成简单问句，从而可以减少完成任务所需要的交互轮次，提高有限交互轮次约束下的任务成功率。

附图说明

图1为本发明实施例一的模型训练方法流程示意图；

图2为本发明实施例中基于每轮问答数据，对任务型视觉对话问题生成模型进行训练的方法流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步地详细描述。

图1为本发明实施例一的模型训练方法流程示意图，如图1所示，该实施例实现的模型训练方法主要包括：

步骤101、获取人类对话数据和相应图像的特征数据。

本步骤，用于获取对模型进行训练的数据，即真人之间对话的真实数据，以及与对话相关联的图像的特征数据。

在实际应用中，可以从GuessWhat！数据集中获取上述数据，但不限于此。

步骤102、为所述人类对话数据中的每轮问答数据，确定其中问句的类别，并生成问句类别标签。

在一个实施方式中，所述确定其中问句的类别包括：

具体地，所述问句类别识别模型可以利用Bert语言模型和文本分类网络(TextCNN)构建得到。

考虑到数据的均衡性和分类的准确性，可以将人类对话数据中的问句划分为四个类别：对象类、颜色类、方位类和其他类。

步骤103、按照对话顺序遍历每轮所述问答数据，利用该轮问答数据、相应的所述问句类别标签和所述图像的特征数据，对预设的任务型视觉对话问题生成模型进行训练。

其中，如图2所示，可以采用下述方法基于每轮问答数据，对任务型视觉对话问题生成模型进行训练：

步骤a1、基于第k轮问答数据和所述图像的特征数据，生成当前的上下文向量和具有文本引导的图像特征。

所述k为当前输入至所述模型的问答数据的对话轮次编号，即第k轮问答数据为最新输入至模型进行训练的一轮问答数据。

与现有方案所不同的是，步骤a1中需要生成具有文本引导的图像特征，以便在后续步骤中基于具有文本引导的图像特征，来预测下一轮问句类别和问句，从而可以对不同轮次对话数据的文本特征进行有效整合，避免发生用户回答信息被遗忘的情况，进而可以避免语义相同的问句被重复提出，有效提高了所生成问句的有效性。

在一个实施方式中，为了提高预测结果的准确性，具体可以引入注意力机制采用下述方法生成当前的上下文向量和具有文本引导的图像特征：

步骤a11、利用第一循环神经网络，对当前输入至所述模型的第k轮问答数据进行编码，得到相应的文本向量。

步骤a12、将所述文本向量与历史文本向量，输入至第二循环神经网络进行处理，得到相应的上下文向量；其中，所述历史文本向量包括基于第k轮之前的每轮问答数据生成的所有文本向量。

步骤a13、利用所述上下文向量，基于注意力机制，对预设图像的图像特征进行处理，得到具有文本引导的图像特征。

在实际应用中，所述第一循环神经网络和第二循环神经网络可以采用循环门单元(GRU)或者长短期记忆网络(LSTM)实现，但不限于此，在此不再赘述。

步骤a2、基于所述上下文向量和所述具有文本引导的图像特征，预测第k+1轮问答数据中问句的类别，以及在预测到的类别范围内预测第k+1轮问答数据的问句，基于所述预测的结果，调整所述模型的网络参数。

本步骤中，通过在预测到的类别范围内预测下一轮问答数据的问句，可以引导模型生成有利于完成任务的有效问句，避免模型容易生成简单问句，从而可以减少完成任务所需要的交互轮次，提高有限交互轮次约束下的任务成功率。并且，这里通过利用问句类别，对问句生成方向进行显式引导，使得模型可以更加符合人类逻辑地生成问句，从而使得问句生成过程具有可解释性。

在一个实施方式中，步骤a2中可以采用下述方法预测第k+1轮问答数据中问句的类别：

步骤x1、将所述上下文向量和所述具有文本引导的图像特征进行拼接。

步骤x2、利用前馈神经网络，基于所述拼接的结果，对第k+1轮问答数据中问句的类别进行预测。

在一个实施方式中，所述在所预测的类别范围内预测第k+1轮问答数据的问句包括：

利用解码器，基于所述上下文向量、所述具有文本引导的图像特征和所述类别，预测第k+1轮问答数据的问句。

上述方法中，所预测的类别将输入至所述解码器的每个隐藏层处理，这样，可以确保解码器所生成的第k+1轮问句属于所预测的类别，从而实现了对问句生成类别的有效引导。

在一个实施方式中，具体可以采用下述方法调整所述模型的网络参数：

将第一损失函数值和第二损失函数值相加，得到损失函数总值；基于所述损失函数总值，调整所述模型的网络参数。

其中，

所述第一损失函数值为预测所述类别时得到的损失函数值，该值通过将第k+1轮问答数据的问句类别预测结果与问句类别标签进行比较得到，具体方法为本领域技术人员所知，在此不再赘述。

所述第二损失函数值为预测所述问句时得到的损失函数值，该值通过将第k+1轮问答数据的问句预测结果及真实问句进行比较得到，具体计算方法为本领域技术人员所知，在此不再赘述。

基于上述模型训练方法实施例，本申请实施例二还公开了一种任务型视觉对话的问题生成方法，具体包括：

在任务型视觉对话过程中，当完成一轮问答时，将该轮问答的数据，输入至预先训练的任务型视觉对话问题生成模型处理，得到下一轮问答的问句。

其中，所述任务型视觉对话问题生成模型基于如上所述的模型训练方法得到。

通过上述方法实施例可以看出，本申请实施例通过对现有数据进行挖掘，找到问句类别这一高层语义信息作为图像和对话数据语义之间的桥梁，随着每次选择的问句类别不同，问句生成时的指向也会发生改变，从而使得智能体在与用户对话的过程中能够挖掘到新的、有价值的问题的概率越大，进而提高了问句生成的多样性。这样，通过引入问句类别，在实际生成问句之前，已经可以确定了问句生成方向，从而可以对下一轮问句的生成进行有效引导控制，避免无意义、重复性问句的生成，进而减少了整个对话过程的对话轮次，提高了任务成功率。

基于上述模型训练方法实施例，本申请实施例还公开了一种模型训练装置，包括处理器和存储器；

基于上述任务型视觉对话的问题生成方法实施例，本申请实施例还公开了一种任务型视觉对话的问题生成装置，包括处理器和存储器；

其中，存储器具体可以实施为电可擦可编程只读存储器(EEPROM)、快闪存储器(Flash memory)、可编程程序只读存储器(PROM)等多种存储介质。处理器可以实施为包括一或多个中央处理器或一或多个现场可编程门阵列，其中现场可编程门阵列集成一或多个中央处理器核。具体地，中央处理器或中央处理器核可以实施为CPU或MCU。

需要说明的是，上述各流程和各结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分，实际实现时，一个模块可以分由多个模块实现，多个模块的功能也可以由同一个模块实现，这些模块可以位于同一个设备中，也可以位于不同的设备中。

各实施方式中的硬件模块可以以机械方式或电子方式实现。例如，一个硬件模块可以包括专门设计的永久性电路或逻辑器件(如专用处理器，如FPGA或ASIC)用于完成特定的操作。硬件模块也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。至于具体采用机械方式，或是采用专用的永久性电路，或是采用临时配置的电路(如由软件进行配置)来实现硬件模块，可以根据成本和时间上的考虑来决定。

本发明还提供了一种机器可读的存储介质，存储用于使一机器执行如本申请所述方法的指令。具体地，可以提供配有存储介质的***或者装置，在该存储介质上存储着实现上述实施例中任一实施方式的功能的软件程序代码，且使该***或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。此外，还可以通过基于程序代码的指令使计算机上操作的操作***等来完成部分或者全部的实际操作。还可以将从存储介质读出的程序代码写到***计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施方式中任一实施方式的功能。

用于提供程序代码的存储介质实施方式包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机或云上下载程序代码。

在本文中，“示意性”表示“充当实例、例子或说明”，不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。为使图面简洁，各图中的只示意性地表示出了与本发明相关部分，而并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”并不表示将本发明相关部分的数量限制为“仅此一个”，并且“一个”不表示排除本发明相关部分的数量“多于一个”的情形。在本文中，“上”、“下”、“前”、“后”、“左”、“右”、“内”、“外”等仅用于表示相关部分之间的相对位置关系，而非限定这些相关部分的绝对位置。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种模型训练方法，其特征在于，包括：

获取人类对话数据和相应图像的特征数据；

2.根据权利要求1所述的方法，其特征在于，所述确定其中问句的类别包括：

3.根据权利要求1所述的方法，其特征在于，所述类别包括对象类、颜色类、方位类和其他类。

4.根据权利要求1所述的方法，其特征在于，所述生成当前的上下文向量和具有文本引导的图像特征包括：

5.根据权利要求1所述的方法，其特征在于，所述预测第k+1轮问答数据中问句的类别包括：

6.根据权利要求1所述的方法，其特征在于，所述在所预测的类别范围内预测第k+1轮问答数据的问句包括：

7.根据权利要求1所述的方法，其特征在于，所述调整所述模型的网络参数包括：

8.一种任务型视觉对话的问题生成方法，其特征在于，包括：

在任务型视觉对话过程中，当完成一轮问答时，将该轮问答的数据，输入至预先训练的任务型视觉对话问题生成模型处理，得到下一轮问答的问句；其中，所述任务型视觉对话问题生成模型基于权利要求1至7中任一项所述的模型训练方法得到。

9.一种模型训练装置，其特征在于，包括处理器和存储器；

所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如权利要求1至7中任一项所述的模型训练方法。

10.一种任务型视觉对话的问题生成装置，其特征在于，包括处理器和存储器；

所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如权利要求8所述的任务型视觉对话的问题生成方法。