CN112579759A - 模型训练方法及任务型视觉对话问题的生成方法和装置 - Google Patents

模型训练方法及任务型视觉对话问题的生成方法和装置 Download PDF

Info

Publication number
CN112579759A
CN112579759A CN202011574828.XA CN202011574828A CN112579759A CN 112579759 A CN112579759 A CN 112579759A CN 202011574828 A CN202011574828 A CN 202011574828A CN 112579759 A CN112579759 A CN 112579759A
Authority
CN
China
Prior art keywords
question
round
data
answer data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011574828.XA
Other languages
English (en)
Other versions
CN112579759B (zh
Inventor
史亚楠
王小捷
袁彩霞
谭言信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202011574828.XA priority Critical patent/CN112579759B/zh
Publication of CN112579759A publication Critical patent/CN112579759A/zh
Application granted granted Critical
Publication of CN112579759B publication Critical patent/CN112579759B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种模型训练方法及任务型视觉对话问题的生成方法和装置,其中,模型训练方法包括:获取人类对话数据和相应图像的特征数据,确定其中每轮问答数据的问句类别,并生成问句类别标签;按照对话顺序遍历每轮问答数据,利用该轮问答数据、相应的所述问句类别标签和图像的特征数据,对预设的任务型视觉对话问题生成模型进行训练;该训练包括:基于当前输入至所述模型的一轮问答数据和图像的特征数据,生成上下文向量和具有文本引导的图像特征;基于上下文向量和图像特征,预测下一轮问答数据的问句类别,并在该类别范围内预测下一轮问答数据的问句,基于预测结果,调整模型的网络参数。采用本申请,可以减少对话交互轮次,提高任务成功率。

Description

模型训练方法及任务型视觉对话问题的生成方法和装置
技术领域
本发明涉及移动通信技术,特别是涉及一种模型训练方法及任务型视觉对话问题的生成方法和装置。
背景技术
目前,视觉对话任务***是人工智能的热门研究技术之一。视觉对话任务***通过基于智能体与用户之间的问答信息,来确定相关场景中用户的目标对象,以帮助用户针对目标对象完成某些任务。视觉对话是自然语言处理、计算机视觉、知识表示学习、推理等多领域多学科知识和方法的交叉研究。目前已有视觉对话***大致可分为任务型的视觉对话和闲聊型视觉对话两类。其中,如何生成有效的问题是任务型视觉对话中的难点问题之一。现有的任务型视觉对话***中的问题生成方法大都是基于端到端框架实现。其中,端到端的监督学习是主流的问题生成方法之一。
发明人在实现本发明的过程中发现:采用现有的端到端的监督学习方法实现视觉对话任务,存在对话轮次多、失败率高等问题,具体原因分析如下:
现有的端到端的监督学习方法中,将对话语料和图像数据输入至预先训练的模型中处理时,先利用历史信息编码器和图像编码器,对所有上下文信息进行编码,包括对话历史、图像等信息;再将不同特征进行有效整合后,将其传入解码器处理,以生成新的问题。在预先对上述模型进行训练时,需要依赖于来自解码器端的监督信号,对编码器的参数进行反馈调整,该监督信号由真实对话和预测出来的对话之间的差异产生。这样,基于上述监督信号进行训练,会引导生成的问题与真人对话中的问题一致。而相比于词量多的复杂问题,简单问题由于包含的词量少,更容易与真人对话中的问题一致,因此,在对模型训练时简单问题得分会更高,被作为预测结果的概率更大。这样,简单问题更容易被生成。但是,由于简单问题包含的词量少,携带的有利于准确猜测目标对象的有效信息量小,就需要更多轮次的交互才能猜出目标对象。而在实际应用中,交互的最大次数是受限的,这样,如果最大交互次数小于实际需要的交互次数,就会发生完成最大次数的交互后仍无法准确猜出目标对象的情况,从而导致任务执行失败。并且,自然语言的表达具有多样性,不同的表达也可以有相似效果,而上述方法中的模型训练,仅仅依靠生成语句在表述形式上的差异进行驱动,即仅基于由真实对话和预测出来的对话之间的差异产生的监督信号进行反馈调整,就会导致调整的不准确性,从而降低了最终训练得到的模型的准确性,进而影响基于模型执行视觉对话任务的成功率。
另外,发明人在实现本发明的过程中发现:采用现有的端到端的监督学习方法,会出现重复提出相同问题的情况。而由于该方法中在进行编码器训练时,基于单一的监督信号自行训练拟合,使得模型训练过程成为黑盒子,进而使得上述问题的可解释性不足,即无法基于训练过程分析出上述问题产生的原因。为此,发明人通过研究分析并经仿真验证发现上述对话过程中生成重复问题的原因之一是:在现有的端到端的监督学习方法中,对话文本信息没有进行层级编码,这样,对于应该被重视的答案信息,不会被分配足够多的注意力,从而可能导致模型无法对不同的文本特征进行有效整合,这样就会存在用户回答的信息被遗忘的情况,进而发生问题被重复提出的情况。
发明内容
有鉴于此,本发明的主要目的在于提供一种模型训练方法及任务型视觉对话问题的生成方法和装置,有利于减少视觉对话过程的交互轮次,提高任务成功率。
为了达到上述目的,本发明实施例提出的技术方案为:
一种模型训练方法,包括:
获取人类对话数据和相应图像的特征数据;
为所述人类对话数据中的每轮问答数据,确定其中问句的类别,并生成问句类别标签;
按照对话顺序遍历每轮所述问答数据,利用该轮问答数据、相应的所述问句类别标签和所述图像的特征数据,对预设的任务型视觉对话问题生成模型进行训练;其中,所述训练包括:
基于第k轮问答数据和所述图像的特征数据,生成当前的上下文向量和具有文本引导的图像特征;所述k为当前输入至所述模型的问答数据的对话轮次编号;
基于所述上下文向量和所述具有文本引导的图像特征,预测第k+1轮问答数据中问句的类别,以及在预测到的类别范围内预测第k+1轮问答数据的问句,基于所述预测的结果,调整所述模型的网络参数。
较佳地,所述确定其中问句的类别包括:
对于每轮问答数据,将该轮问答数据中的问句,输入至预先训练的问句类别识别模型中处理,得到该轮问答数据的问句类别标签。
较佳地,所述类别包括对象类、颜色类、方位类和其他类。
较佳地,所述生成当前的上下文向量和具有文本引导的图像特征包括:
利用第一循环神经网络,对当前输入至所述模型的第k轮问答数据进行编码,得到相应的文本向量;
将所述文本向量与历史文本向量,输入至第二循环神经网络进行处理,得到相应的上下文向量;其中,所述历史文本向量包括基于第k轮之前的每轮问答数据生成的所有文本向量;
利用所述上下文向量,基于注意力机制,对预设图像的图像特征进行处理,得到具有文本引导的图像特征。
较佳地,所述预测第k+1轮问答数据中问句的类别包括:
将所述上下文向量和所述具有文本引导的图像特征进行拼接;
利用前馈神经网络,基于所述拼接的结果,对第k+1轮问答数据中问句的类别进行预测。
较佳地,所述在所预测的类别范围内预测第k+1轮问答数据的问句包括:
利用解码器,基于所述上下文向量、所述具有文本引导的图像特征和所述类别,预测第k+1轮问答数据的问句;
其中,所述上下文向量和所述具有文本引导的图像特征为所述解码器的初始隐藏层的输入数据;所述类别为所述解码器的所有隐藏层的输入数据。
较佳地,所述调整所述模型的网络参数包括:
将第一损失函数值和第二损失函数值相加,得到损失函数总值;基于所述损失函数总值,调整所述模型的网络参数;
其中,所述第一损失函数值为预测所述类别时得到的损失函数值,所述第二损失函数值为预测所述问句时得到的损失函数值。
本申请实施例还公开了一种任务型视觉对话的问题生成方法,包括:
在任务型视觉对话过程中,当完成一轮问答时,将该轮问答的数据,输入至预先训练的任务型视觉对话问题生成模型处理,得到下一轮问答的问句;其中,所述任务型视觉对话问题生成模型基于如上所述的模型训练方法得到。
本申请实施例还公开了一种模型训练装置,包括处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上所述的模型训练方法。
本申请实施例还公开了一种任务型视觉对话的问题生成装置,包括处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上所述的任务型视觉对话的问题生成方法。
由上述技术方案可见,本发明实施例提出的模型训练方法及任务型视觉对话问题的生成方法和装置,在对用于生成任务型视觉对话问题的模型进行训练前,需要对训练数据中的每轮问答数据,确定其中问句的类别,以生成相应的问句类别标签,之后在模型训练过程中,需要在预测下一轮问句之前,先基于具有文本引导的图像特征,预测下一轮问答的问句类别,然后,再在预测下一轮问句时,需要在所预测的类别范围内生成问句,以确保所生成的问句属于所预测的类别。如此,一方面,基于具有文本引导的图像特征进行上述预测,可以对不同轮次对话数据的文本特征进行有效整合,避免发生用户回答信息被遗忘的情况,从而可以避免语义相同的问句被重复提出,有效提高了所生成问句的有效性;另一方面,通过基于问句类别预测结果预测下一轮问句,可以引导模型生成有利于完成任务的有效问句,而避免模型容易生成简单问句,从而可以减少完成任务所需要的交互轮次,提高有限交互轮次约束下的任务成功率。
附图说明
图1为本发明实施例一的模型训练方法流程示意图;
图2为本发明实施例中基于每轮问答数据,对任务型视觉对话问题生成模型进行训练的方法流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。
图1为本发明实施例一的模型训练方法流程示意图,如图1所示,该实施例实现的模型训练方法主要包括:
步骤101、获取人类对话数据和相应图像的特征数据。
本步骤,用于获取对模型进行训练的数据,即真人之间对话的真实数据,以及与对话相关联的图像的特征数据。
在实际应用中,可以从GuessWhat!数据集中获取上述数据,但不限于此。
步骤102、为所述人类对话数据中的每轮问答数据,确定其中问句的类别,并生成问句类别标签。
在一个实施方式中,所述确定其中问句的类别包括:
对于每轮问答数据,将该轮问答数据中的问句,输入至预先训练的问句类别识别模型中处理,得到该轮问答数据的问句类别标签。
具体地,所述问句类别识别模型可以利用Bert语言模型和文本分类网络(TextCNN)构建得到。
考虑到数据的均衡性和分类的准确性,可以将人类对话数据中的问句划分为四个类别:对象类、颜色类、方位类和其他类。
步骤103、按照对话顺序遍历每轮所述问答数据,利用该轮问答数据、相应的所述问句类别标签和所述图像的特征数据,对预设的任务型视觉对话问题生成模型进行训练。
其中,如图2所示,可以采用下述方法基于每轮问答数据,对任务型视觉对话问题生成模型进行训练:
步骤a1、基于第k轮问答数据和所述图像的特征数据,生成当前的上下文向量和具有文本引导的图像特征。
所述k为当前输入至所述模型的问答数据的对话轮次编号,即第k轮问答数据为最新输入至模型进行训练的一轮问答数据。
与现有方案所不同的是,步骤a1中需要生成具有文本引导的图像特征,以便在后续步骤中基于具有文本引导的图像特征,来预测下一轮问句类别和问句,从而可以对不同轮次对话数据的文本特征进行有效整合,避免发生用户回答信息被遗忘的情况,进而可以避免语义相同的问句被重复提出,有效提高了所生成问句的有效性。
在一个实施方式中,为了提高预测结果的准确性,具体可以引入注意力机制采用下述方法生成当前的上下文向量和具有文本引导的图像特征:
步骤a11、利用第一循环神经网络,对当前输入至所述模型的第k轮问答数据进行编码,得到相应的文本向量。
步骤a12、将所述文本向量与历史文本向量,输入至第二循环神经网络进行处理,得到相应的上下文向量;其中,所述历史文本向量包括基于第k轮之前的每轮问答数据生成的所有文本向量。
步骤a13、利用所述上下文向量,基于注意力机制,对预设图像的图像特征进行处理,得到具有文本引导的图像特征。
在实际应用中,所述第一循环神经网络和第二循环神经网络可以采用循环门单元(GRU)或者长短期记忆网络(LSTM)实现,但不限于此,在此不再赘述。
步骤a2、基于所述上下文向量和所述具有文本引导的图像特征,预测第k+1轮问答数据中问句的类别,以及在预测到的类别范围内预测第k+1轮问答数据的问句,基于所述预测的结果,调整所述模型的网络参数。
本步骤中,通过在预测到的类别范围内预测下一轮问答数据的问句,可以引导模型生成有利于完成任务的有效问句,避免模型容易生成简单问句,从而可以减少完成任务所需要的交互轮次,提高有限交互轮次约束下的任务成功率。并且,这里通过利用问句类别,对问句生成方向进行显式引导,使得模型可以更加符合人类逻辑地生成问句,从而使得问句生成过程具有可解释性。
在一个实施方式中,步骤a2中可以采用下述方法预测第k+1轮问答数据中问句的类别:
步骤x1、将所述上下文向量和所述具有文本引导的图像特征进行拼接。
步骤x2、利用前馈神经网络,基于所述拼接的结果,对第k+1轮问答数据中问句的类别进行预测。
在一个实施方式中,所述在所预测的类别范围内预测第k+1轮问答数据的问句包括:
利用解码器,基于所述上下文向量、所述具有文本引导的图像特征和所述类别,预测第k+1轮问答数据的问句。
其中,所述上下文向量和所述具有文本引导的图像特征为所述解码器的初始隐藏层的输入数据;所述类别为所述解码器的所有隐藏层的输入数据。
上述方法中,所预测的类别将输入至所述解码器的每个隐藏层处理,这样,可以确保解码器所生成的第k+1轮问句属于所预测的类别,从而实现了对问句生成类别的有效引导。
在一个实施方式中,具体可以采用下述方法调整所述模型的网络参数:
将第一损失函数值和第二损失函数值相加,得到损失函数总值;基于所述损失函数总值,调整所述模型的网络参数。
其中,
所述第一损失函数值为预测所述类别时得到的损失函数值,该值通过将第k+1轮问答数据的问句类别预测结果与问句类别标签进行比较得到,具体方法为本领域技术人员所知,在此不再赘述。
所述第二损失函数值为预测所述问句时得到的损失函数值,该值通过将第k+1轮问答数据的问句预测结果及真实问句进行比较得到,具体计算方法为本领域技术人员所知,在此不再赘述。
基于上述模型训练方法实施例,本申请实施例二还公开了一种任务型视觉对话的问题生成方法,具体包括:
在任务型视觉对话过程中,当完成一轮问答时,将该轮问答的数据,输入至预先训练的任务型视觉对话问题生成模型处理,得到下一轮问答的问句。
其中,所述任务型视觉对话问题生成模型基于如上所述的模型训练方法得到。
通过上述方法实施例可以看出,本申请实施例通过对现有数据进行挖掘,找到问句类别这一高层语义信息作为图像和对话数据语义之间的桥梁,随着每次选择的问句类别不同,问句生成时的指向也会发生改变,从而使得智能体在与用户对话的过程中能够挖掘到新的、有价值的问题的概率越大,进而提高了问句生成的多样性。这样,通过引入问句类别,在实际生成问句之前,已经可以确定了问句生成方向,从而可以对下一轮问句的生成进行有效引导控制,避免无意义、重复性问句的生成,进而减少了整个对话过程的对话轮次,提高了任务成功率。
基于上述模型训练方法实施例,本申请实施例还公开了一种模型训练装置,包括处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上所述的模型训练方法。
基于上述任务型视觉对话的问题生成方法实施例,本申请实施例还公开了一种任务型视觉对话的问题生成装置,包括处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上所述的任务型视觉对话的问题生成方法。
其中,存储器具体可以实施为电可擦可编程只读存储器(EEPROM)、快闪存储器(Flash memory)、可编程程序只读存储器(PROM)等多种存储介质。处理器可以实施为包括一或多个中央处理器或一或多个现场可编程门阵列,其中现场可编程门阵列集成一或多个中央处理器核。具体地,中央处理器或中央处理器核可以实施为CPU或MCU。
需要说明的是,上述各流程和各结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分,实际实现时,一个模块可以分由多个模块实现,多个模块的功能也可以由同一个模块实现,这些模块可以位于同一个设备中,也可以位于不同的设备中。
各实施方式中的硬件模块可以以机械方式或电子方式实现。例如,一个硬件模块可以包括专门设计的永久性电路或逻辑器件(如专用处理器,如FPGA或ASIC)用于完成特定的操作。硬件模块也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。至于具体采用机械方式,或是采用专用的永久性电路,或是采用临时配置的电路(如由软件进行配置)来实现硬件模块,可以根据成本和时间上的考虑来决定。
本发明还提供了一种机器可读的存储介质,存储用于使一机器执行如本申请所述方法的指令。具体地,可以提供配有存储介质的***或者装置,在该存储介质上存储着实现上述实施例中任一实施方式的功能的软件程序代码,且使该***或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。此外,还可以通过基于程序代码的指令使计算机上操作的操作***等来完成部分或者全部的实际操作。还可以将从存储介质读出的程序代码写到***计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施方式中任一实施方式的功能。
用于提供程序代码的存储介质实施方式包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机或云上下载程序代码。
在本文中,“示意性”表示“充当实例、例子或说明”,不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。为使图面简洁,各图中的只示意性地表示出了与本发明相关部分,而并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”并不表示将本发明相关部分的数量限制为“仅此一个”,并且“一个”不表示排除本发明相关部分的数量“多于一个”的情形。在本文中,“上”、“下”、“前”、“后”、“左”、“右”、“内”、“外”等仅用于表示相关部分之间的相对位置关系,而非限定这些相关部分的绝对位置。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种模型训练方法,其特征在于,包括:
获取人类对话数据和相应图像的特征数据;
为所述人类对话数据中的每轮问答数据,确定其中问句的类别,并生成问句类别标签;
按照对话顺序遍历每轮所述问答数据,利用该轮问答数据、相应的所述问句类别标签和所述图像的特征数据,对预设的任务型视觉对话问题生成模型进行训练;其中,所述训练包括:
基于第k轮问答数据和所述图像的特征数据,生成当前的上下文向量和具有文本引导的图像特征;所述k为当前输入至所述模型的问答数据的对话轮次编号;
基于所述上下文向量和所述具有文本引导的图像特征,预测第k+1轮问答数据中问句的类别,以及在预测到的类别范围内预测第k+1轮问答数据的问句,基于所述预测的结果,调整所述模型的网络参数。
2.根据权利要求1所述的方法,其特征在于,所述确定其中问句的类别包括:
对于每轮问答数据,将该轮问答数据中的问句,输入至预先训练的问句类别识别模型中处理,得到该轮问答数据的问句类别标签。
3.根据权利要求1所述的方法,其特征在于,所述类别包括对象类、颜色类、方位类和其他类。
4.根据权利要求1所述的方法,其特征在于,所述生成当前的上下文向量和具有文本引导的图像特征包括:
利用第一循环神经网络,对当前输入至所述模型的第k轮问答数据进行编码,得到相应的文本向量;
将所述文本向量与历史文本向量,输入至第二循环神经网络进行处理,得到相应的上下文向量;其中,所述历史文本向量包括基于第k轮之前的每轮问答数据生成的所有文本向量;
利用所述上下文向量,基于注意力机制,对预设图像的图像特征进行处理,得到具有文本引导的图像特征。
5.根据权利要求1所述的方法,其特征在于,所述预测第k+1轮问答数据中问句的类别包括:
将所述上下文向量和所述具有文本引导的图像特征进行拼接;
利用前馈神经网络,基于所述拼接的结果,对第k+1轮问答数据中问句的类别进行预测。
6.根据权利要求1所述的方法,其特征在于,所述在所预测的类别范围内预测第k+1轮问答数据的问句包括:
利用解码器,基于所述上下文向量、所述具有文本引导的图像特征和所述类别,预测第k+1轮问答数据的问句;
其中,所述上下文向量和所述具有文本引导的图像特征为所述解码器的初始隐藏层的输入数据;所述类别为所述解码器的所有隐藏层的输入数据。
7.根据权利要求1所述的方法,其特征在于,所述调整所述模型的网络参数包括:
将第一损失函数值和第二损失函数值相加,得到损失函数总值;基于所述损失函数总值,调整所述模型的网络参数;
其中,所述第一损失函数值为预测所述类别时得到的损失函数值,所述第二损失函数值为预测所述问句时得到的损失函数值。
8.一种任务型视觉对话的问题生成方法,其特征在于,包括:
在任务型视觉对话过程中,当完成一轮问答时,将该轮问答的数据,输入至预先训练的任务型视觉对话问题生成模型处理,得到下一轮问答的问句;其中,所述任务型视觉对话问题生成模型基于权利要求1至7中任一项所述的模型训练方法得到。
9.一种模型训练装置,其特征在于,包括处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如权利要求1至7中任一项所述的模型训练方法。
10.一种任务型视觉对话的问题生成装置,其特征在于,包括处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如权利要求8所述的任务型视觉对话的问题生成方法。
CN202011574828.XA 2020-12-28 2020-12-28 模型训练方法及任务型视觉对话问题的生成方法和装置 Active CN112579759B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011574828.XA CN112579759B (zh) 2020-12-28 2020-12-28 模型训练方法及任务型视觉对话问题的生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011574828.XA CN112579759B (zh) 2020-12-28 2020-12-28 模型训练方法及任务型视觉对话问题的生成方法和装置

Publications (2)

Publication Number Publication Date
CN112579759A true CN112579759A (zh) 2021-03-30
CN112579759B CN112579759B (zh) 2022-10-25

Family

ID=75139967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011574828.XA Active CN112579759B (zh) 2020-12-28 2020-12-28 模型训练方法及任务型视觉对话问题的生成方法和装置

Country Status (1)

Country Link
CN (1) CN112579759B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177115A (zh) * 2021-06-30 2021-07-27 中移(上海)信息通信科技有限公司 对话内容的处理方法、装置及相关设备
CN113590800A (zh) * 2021-08-23 2021-11-02 北京邮电大学 图像生成模型的训练方法和设备以及图像生成方法和设备
CN114416934A (zh) * 2021-12-24 2022-04-29 北京百度网讯科技有限公司 多模态的对话生成模型的训练方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163299A (zh) * 2019-05-31 2019-08-23 合肥工业大学 一种基于自底向上注意力机制和记忆网络的视觉问答方法
CN110309850A (zh) * 2019-05-15 2019-10-08 山东省计算中心(国家超级计算济南中心) 基于语言先验问题识别和缓解的视觉问答预测方法及***
US20200320364A1 (en) * 2019-04-03 2020-10-08 HIA Technologies Inc. Computer System and Method for Facilitating an Interactive Conversational Session with a Digital Conversational Character
CN111897939A (zh) * 2020-08-12 2020-11-06 腾讯科技(深圳)有限公司 视觉对话方法、视觉对话模型的训练方法、装置及设备
CN111897940A (zh) * 2020-08-12 2020-11-06 腾讯科技(深圳)有限公司 视觉对话方法、视觉对话模型的训练方法、装置及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200320364A1 (en) * 2019-04-03 2020-10-08 HIA Technologies Inc. Computer System and Method for Facilitating an Interactive Conversational Session with a Digital Conversational Character
CN110309850A (zh) * 2019-05-15 2019-10-08 山东省计算中心(国家超级计算济南中心) 基于语言先验问题识别和缓解的视觉问答预测方法及***
CN110163299A (zh) * 2019-05-31 2019-08-23 合肥工业大学 一种基于自底向上注意力机制和记忆网络的视觉问答方法
CN111897939A (zh) * 2020-08-12 2020-11-06 腾讯科技(深圳)有限公司 视觉对话方法、视觉对话模型的训练方法、装置及设备
CN111897940A (zh) * 2020-08-12 2020-11-06 腾讯科技(深圳)有限公司 视觉对话方法、视觉对话模型的训练方法、装置及设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PUSHKAR SHUKLA等: "What Should I Ask? Using Conversationally Informative Rewards for Goal-Oriented Visual Dialogue", 《ARXIV:1907.12021V1》 *
WEI PANG等: "Visual Dialogue State Tracking for Question Generation", 《THE THIRTY-FOURTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *
YANAN SHI等: "Category-Based Strategy-Driven Question Generator for Visual Dialogue", 《CHINESE INFORMATION PROCESSING SOCIETY OF CHINA》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177115A (zh) * 2021-06-30 2021-07-27 中移(上海)信息通信科技有限公司 对话内容的处理方法、装置及相关设备
CN113177115B (zh) * 2021-06-30 2021-10-26 中移(上海)信息通信科技有限公司 对话内容的处理方法、装置及相关设备
CN113590800A (zh) * 2021-08-23 2021-11-02 北京邮电大学 图像生成模型的训练方法和设备以及图像生成方法和设备
CN113590800B (zh) * 2021-08-23 2024-03-08 北京邮电大学 图像生成模型的训练方法和设备以及图像生成方法和设备
CN114416934A (zh) * 2021-12-24 2022-04-29 北京百度网讯科技有限公司 多模态的对话生成模型的训练方法、装置及电子设备

Also Published As

Publication number Publication date
CN112579759B (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
CN112579759B (zh) 模型训练方法及任务型视觉对话问题的生成方法和装置
Jang et al. Tgif-qa: Toward spatio-temporal reasoning in visual question answering
CN110413746B (zh) 对用户问题进行意图识别的方法及装置
Ellis et al. Unsupervised learning by program synthesis
US20220129621A1 (en) Bert-based machine-learning tool for predicting emotional response to text
Griol et al. A statistical approach to spoken dialog systems design and evaluation
CN111897941A (zh) 对话生成方法、网络训练方法、装置、存储介质及设备
CN111104512B (zh) 游戏评论的处理方法及相关设备
CN111581361A (zh) 一种意图识别方法及装置
Andreas et al. Translating neuralese
US11640505B2 (en) Systems and methods for explicit memory tracker with coarse-to-fine reasoning in conversational machine reading
EP3884426B1 (en) Action classification in video clips using attention-based neural networks
CN113035311B (zh) 一种基于多模态注意力机制的医学图像报告自动生成方法
CN117521675A (zh) 基于大语言模型的信息处理方法、装置、设备及存储介质
CN113052149A (zh) 视频摘要生成方法、装置、计算机设备及介质
CN111309914A (zh) 基于多个模型结果对多轮对话的分类方法和装置
CN113723105A (zh) 语义特征提取模型的训练方法、装置、设备及存储介质
CN112860862A (zh) 人机对话中智能体对话语句的生成方法和装置
Galata et al. Learning behaviour models of human activities
CN114511023A (zh) 分类模型训练方法以及分类方法
CN115617972B (zh) 一种机器人对话方法、装置、电子设备及存储介质
CN115712739B (zh) 舞蹈动作生成方法、计算机设备及存储介质
CN116227603A (zh) 一种事件推理任务的处理方法、设备及介质
WO2023158881A1 (en) Computationally efficient distillation using generative neural networks
Zhao et al. Learning to express in knowledge-grounded conversation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant