CN111899738A

CN111899738A - 对话生成方法、装置及存储介质

Info

Publication number: CN111899738A
Application number: CN202010742806.3A
Authority: CN
Inventors: 李武波
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2020-07-29
Filing date: 2020-07-29
Publication date: 2020-11-06

Abstract

本申请提供一种对话生成方法、装置及存储介质，该方法通过获取目标对话场景中的多模态信号，进而确定该多模态信号的信号特征，对该信号特征进行特征增强，将增强后的特征输入一个预设神经网络进行高级特征提取，并把提取的高级特征输入另一个神经网络进行目标对话语句生成，其中，多模态信号包括语音信号、图像信号和文本信号中多个，使得获取的信息更全面，而且上述对多模态信号的信号特征进行特征增强，增强的特征中包含的信息更丰富，并且，通过一个神经网络进行高级特征提取，进一步丰富了信号特征，从而，提升了另一神经网络对多模态信息的理解和推理能力，使生成的对话语句具备更高的准确性和相关性，提高基于本申请实施例的对话***性能。

Description

对话生成方法、装置及存储介质

技术领域

本申请涉及计算机技术，尤其涉及一种对话生成方法、装置及存储介质。

背景技术

随着科学技术以及经济水平的快速发展，当今社会正在逐步往服务型社会转变，以更好地为用户提供服务。时下流行的智能对话***正是基于上述理念产生的。其中，智能对话***在接收到用户发起的提问后，可以自动对该提问进行回答，在一来一回的提问与回答过程中，便形成了人与机器之间的对话。

相关技术中，在人机对话时，智能对话***通常基于语音信息生成回复内容，例如，汽车导航，用户发起提问“到A地的路线是”，导航中的智能对话***通过该语音信息生成回复，例如对该语音信息进行语义分析，提取“A地”和“路线”两个实体信息，然后根据这两个实体信息进相应的回复。

然而，在上述人机对话的过程中，智能对话***仅通过语音信息生成回复，获取的信息有限，而且从语音信息中提取的特征包含信息较少，容易导致智能对话***生成的回复出错，降低对话***的性能。

发明内容

为解决现有技术中存在的问题，本申请提供一种对话生成方法、装置及存储介质。

第一方面，本申请实施例提供一种对话生成方法，包括：

获取目标对话场景中的多模态信号，所述多模态信号包括语音信号、图像信号和文本信号中多个；

确定所述多模态信号的信号特征；

对所述信号特征进行特征增强，获得增强特征；

将所述增强特征输入第一预设神经网络，其中，所述第一预设神经网络通过对话场景中多模态信号的信号特征和对话语句训练得到；

获取所述第一预设神经网络输出的目标对话语句。

在一种可能的实现方式中，所述对所述信号特征进行特征增强，包括：

若所述多模态信号包括语音信号，则对所述语音信号的信号特征进行语音特征增强，其中，所述语音特征增强包括时域扭曲、频域掩膜和时域掩膜中一个或多个。

若所述多模态信号包括图像信号，则对所述图像信号的信号特征进行图像特征增强，其中，所述图像特征增强包括图片裁切、高斯模糊处理、对比度调整、高斯噪声处理和仿射变化中一个或多个。

若所述多模态信号包括文本信号，则对所述文本信号的信号特征进行文本特征增强，其中，所述文本特征增强包括同义词替换和基于上下文的词语替换中一个或多个。

在一种可能的实现方式中，在所述将所述增强特征输入第一预设神经网络之前，还包括：

将所述增强特征输入第二预设神经网络，其中，所述第二预设神经网络通过信号特征和高级特征训练得到；

获取所述第二预设神经网络输出的目标高级特征；

所述将所述增强特征输入第一预设神经网络，包括：

将所述目标高级特征输入所述第一预设神经网络。

在一种可能的实现方式中，所述高级特征包括语音的VGGish特征，图像的I3D红绿蓝(Red Green Blue，RGB)特征和I3D Flow特征，以及文本的词向量中一个或多个。

在一种可能的实现方式中，所述确定所述多模态信号的信号特征，包括：

若所述多模态信号包括语音信号，则对所述语音信号进行语音预处理，获得所述语音信号的信号特征，其中，所述语音预处理包括静音抑制(Voice Activity Detection，VAD)、短时傅里叶变换(short-time Fourier transform，STFT)和F-BANK中一个或多个。

若所述多模态信号包括图像信号，则对所述图像信号进行图像预处理，获得所述图像信号的信号特征，其中，所述图像预处理包括图像增强和归一化中一个或多个。

若所述多模态信号包括语音信号，则将所述语音信号输入第三预设神经网络，其中，所述第三预设神经网络通过语音信号和语音信号的信号特征训练得到；

获取所述第三预设神经网络输出的语音信号的信号特征。

若所述多模态信号包括图像信号，则将所述图像信号输入第四预设神经网络，其中，所述第四预设神经网络通过图像信号和图像信号的信号特征训练得到；

获取所述第四预设神经网络输出的图像信号的信号特征。

第二方面，本申请实施例提供一种对话生成装置，包括：

第一获取模块，用于获取目标对话场景中的多模态信号，所述多模态信号包括语音信号、图像信号和文本信号中多个；

确定模块，用于确定所述多模态信号的信号特征；

增强模块，用于对所述信号特征进行特征增强，获得增强特征；

第一输入模块，用于将所述增强特征输入第一预设神经网络，其中，所述第一预设神经网络通过对话场景中多模态信号的信号特征和对话语句训练得到；

第二获取模块，用于获取所述第一预设神经网络输出的目标对话语句。

在一种可能的实现方式中，所述增强模块，具体用于：

在一种可能的实现方式中，上述装置，还包括：

第二输入模块，用于在所述第一输入模块将所述增强特征输入第一预设神经网络之前，将所述增强特征输入第二预设神经网络，其中，所述第二预设神经网络通过信号特征和高级特征训练得到；

第三获取模块，用于获取所述第二预设神经网络输出的目标高级特征；

所述第一输入模块，具体用于：

将所述目标高级特征输入所述第一预设神经网络。

在一种可能的实现方式中，所述高级特征包括语音的VGGish特征，图像的I3D RGB特征和I3D Flow特征，以及文本的词向量中一个或多个。

在一种可能的实现方式中，所述确定模块，具体用于：

若所述多模态信号包括语音信号，则对所述语音信号进行语音预处理，获得所述语音信号的信号特征，其中，所述语音预处理包括VAD、STFT和F-BANK中一个或多个。

在一种可能的实现方式中，所述确定模块，具体用于：

获取所述第三预设神经网络输出的语音信号的信号特征。

在一种可能的实现方式中，所述确定模块，具体用于：

获取所述第四预设神经网络输出的图像信号的信号特征。

第三方面，本申请实施例提供一种服务器，包括：

处理器；

存储器；以及

计算机程序；

其中，所述计算机程序被存储在所述存储器中，并且被配置为由所述处理器执行，所述计算机程序包括用于执行如第一方面所述的方法的指令。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序使得服务器执行第一方面所述的方法。

本申请实施例提供的对话生成方法、装置及存储介质，该方法通过获取目标对话场景中的多模态信号，进而确定该多模态信号的信号特征，并对该信号特征进行特征增强，获得增强特征，将该增强特征输入第一预设神经网络，从而，获取第一预设神经网络输出的目标对话语句，其中上述多模态信号包括语音信号、图像信号和文本信号中多个，相较现有技术仅获取语音信息来说，本申请实施例获取的信息更全面，而且本申请实施例对多模态信号的信号特征进行特征增强，增强的特征中包含的信息更丰富，提升了神经网络对多模态信息的理解和推理能力，使生成的对话语句具备更高的准确性和相关性，提高基于本申请实施例的对话***性能。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的对话生成***架构示意图；

图2为本申请实施例提供的一种对话生成方法的流程示意图；

图3为本申请实施例提供的另一种对话生成方法的流程示意图；

图4为本申请实施例提供的再一种对话生成方法的流程示意图；

图5为本申请实施例提供的一种对话生成的示意图；

图6为本申请实施例提供的一种对话生成装置的结构示意图；

图7为本申请实施例提供的另一种对话生成装置的结构示意图；

图8A为本申请实施例提供的对话生成设备的一种可能的基本硬件架构图；

图8B为本申请实施例提供的对话生成设备的另一种可能的基本硬件架构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”及“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例所涉及的对话生成是指获取对话场景中的多模态信号，该多模态信号包括语音信号、图像信号和文本信号中多个，进而对多模态信号的信号特征进行特征增强，以使神经网络基于增强后的信号特征生成对话语句，提升神经网络对多模态信息的理解和推理能力，使生成的对话语句具备更高的准确性和相关性。

本申请实施例提供的对话生成方法可应用在智能终端辅助***、汽车导航、智能音箱以及人机交互的机器人等应用场景中，本申请实施例对此不做特别限制。

可选地，图1为对话生成***架构示意图。在图1中，以汽车导航为例，上述架构包括处理装置11和多个信息获取装置，例如语音获取装置、图像获取装置、文本获取装置等，本申请实施例对此不做特别限制，这里，处理装置11可以设置在汽车的导航***中，上述多个信息获取装置以语音获取装置12、图像获取装置13和文本获取装置14为例。

可以理解的是，本申请实施例示意的结构并不构成对对话生成架构的具体限定。在本申请另一些可行的实施方式中，上述架构可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置，具体可根据实际应用场景确定，在此不做限制。图1所示的部件可以以硬件，软件，或软件与硬件的组合实现。

在具体实现过程中，本申请实施例中语音获取装置12、图像获取装置13和文本获取装置14的数量和设置位置可以根据实际情况确定，本申请实施例对此不做特别限制。在上述应用场景中，用户在驾驶过程中与汽车上的导航***对话，导航***中的处理装置11可以获取该对话场景中的多模态信号，具体的，以该多模态信号包括语音信号、图像信号和文本信号为例，处理装置11可以通过上述语音获取装置12获取上述对话场景中的语音信号，通过图像获取装置13获取上述对话场景中的图像信号，通过文本获取装置14获取上述对话场景中的文本信号，然后处理装置11可以对上述多模态信号的信号特征进行特征增强，再通过神经网络基于增强后的信号特征生成对话语句，其中处理装置11获取对话场景中的多模态信号，更全面获取上述对话场景中的信息，而且处理装置11对多模态信号的信号特征进行特征增强，增强的特征中包含的信息更丰富，提升了神经网络对多模态信息的理解和推理能力，使生成的对话语句具备更高的准确性和相关性，提高上述导航***的对话性能，进而，用户通过与上述导航***对话，能够获取到准确的导航信息，提高用户体验。

另外，本申请实施例描述的***架构以及业务场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着***架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

下面以几个实施例为例对本申请的技术方案进行描述，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本申请实施例提供的一种对话生成方法的流程示意图，本申请实施例提供了一种对话生成方法，该方法可以由图1中的处理装置11来执行，该装置可以通过软件和/或硬件实现。如图2所示，本申请实施例提供的对话生成方法包括如下步骤：

S201：获取目标对话场景中的多模态信号，该多模态信号包括语音信号、图像信号和文本信号中多个。

其中，目标对话场景可以根据实际情况确定，例如图1中用户在驾驶过程中与汽车上的导航***对话，本申请实施例对此不做特别限制。

模态是指事物发生或存在的方式，如声音、图像、文字等。这里，上述多模态信号包括语音信号、图像信号和文本信号中多个，其中，图像信号包括图片和/或视频信号等。

示例性的，上述获取目标对话场景中的多模态信号的方式可以根据实际情况确定，例如图1中处理装置11通过语音获取装置12获取对话场景中的语音信号，通过图像获取装置13获取对话场景中的图像信号，通过文本获取装置14获取对话场景中的文本信号，本申请实施例对此不做特别限制。

S202：确定上述多模态信号的信号特征。

这里，以上述多模态信号包括语音信号为例，该语音信号的信号特征包括语谱图或F-bank特征等。

在一种可能的实现方式中，如果上述多模态信号包括语音信号，可以对该语音信号进行语音预处理，获得该语音信号的信号特征，其中，该语音预处理包括VAD、STFT和F-BANK中一个或多个。

另外，如果上述多模态信号包括语音信号，可以将该语音信号输入第三预设神经网络，其中，第三预设神经网络通过语音信号和语音信号的信号特征训练得到，从而，获取第三预设神经网络输出的语音信号的信号特征。

在本申请实施例中，语音信号可以通过VAD、STFT、F-BANK等方式提取到语音信号特征，也可以通过神经网络等深度学习方法提取到语音信号特征，具体可以根据情况确定，本申请实施例对此不做特别限制。

在一种可能的实现方式中，如果上述多模态信号包括图像信号，可以对该图像信号进行图像预处理，获得该图像信号的信号特征，其中，该图像预处理包括图像增强和归一化中一个或多个。

另外，如果上述多模态信号包括图像信号，可以将该图像信号输入第四预设神经网络，其中，第四预设神经网络通过图像信号和图像信号的信号特征训练得到，从而，获取第四预设神经网络输出的图像信号的信号特征。

这里，图像信号可以通过图像增强，归一化等方法提取到图像信号特征，也可以通过例如Vggish，ImageNet等神经网络提取图像信号特征，具体可以根据情况确定，本申请实施例对此不做特别限制。

S203：对上述信号特征进行特征增强，获得增强特征。

示例性的，以上述多模态信号包括语音信号、图像信号和文本信号为例，处理装置11在确定语音信号、图像信号和文本信号的信号特征后，进一步对确定的信号特征进行增强，获得增强后的语音、图像和文本特征，即获得增强特征，增强的特征中包含的信息更丰富，从而提高后续神经网络对多模态信息的理解和推理能力，生成更加准确的对话语句。

S204：将上述增强特征输入第一预设神经网络，其中，第一预设神经网络通过对话场景中多模态信号的信号特征和对话语句训练得到。

S205：获取第一预设神经网络输出的目标对话语句。

其中，处理装置11利用大量的对话场景中多模态信号的信号特征和对话语句训练第一预设神经网络，在训练完成后，将上述增强特征输入第一预设神经网络，从而，获取第一预设神经网络输出的目标对话语句。

本申请实施例，通过获取目标对话场景中的多模态信号，进而确定该多模态信号的信号特征，并对该信号特征进行特征增强，获得增强特征，将该增强特征输入第一预设神经网络，从而，获取第一预设神经网络输出的目标对话语句，其中上述多模态信号包括语音信号、图像信号和文本信号中多个，相较现有技术仅获取语音信息来说，本申请实施例获取的信息更全面，而且本申请实施例对多模态信号的信号特征进行特征增强，增强的特征中包含的信息更丰富，提升了神经网络对多模态信息的理解和推理能力，使生成的对话语句具备更高的准确性和相关性，提高基于本申请实施例的对话***性能。

另外，本申请实施例在对上述信号特征进行特征增强时，考虑在上述多模态信号包括语音信号时、在上述多模态信号包括图像信号时，以及在上述多模态信号包括文本信号时，如何对上述信号特征进行特征增强。图3为本申请实施例提出的另一种对话生成方法的流程示意图。如图3所示，该方法包括：

S301：获取目标对话场景中的多模态信号，该多模态信号包括语音信号、图像信号和文本信号中多个。

S302：确定上述多模态信号的信号特征。

其中，步骤S301-S302与上述步骤S201-S202的实现方式相同，此处不再赘述。

S303：若上述多模态信号包括语音信号，则对该语音信号的信号特征进行语音特征增强，其中，该语音特征增强包括时域扭曲、频域掩膜和时域掩膜中一个或多个。

这里，上述时域扭曲是指随机地把上述语音信号的信号特征在时域上进行非线性变形操作，从而，对上述语音信号的信号特征进行特征增强。

上述频域掩膜是指在上述语音信号的信号特征的频域上进行mask(掩膜)操作，mask的窗口大小以及窗口位置是随机设置，例如将窗口设置为长度为5，窗口数为1-2个，选取一定频域之后，将该范围内的特征变成0，抹除这部分频域的信号，实现对上述语音信号的信号特征的增强。同理，上述时域掩膜是指在上述语音信号的信号特征的时域上进行mask操作，mask的窗口大小以及窗口位置是随机设置，例如窗口设置为长度为10ms，窗口数为1-2个，选取一定时域之后，将该范围内的特征变成0，抹除这部分时域的信号，增强上述语音信号的信号特征。

S304：若上述多模态信号包括图像信号，则对该图像信号的信号特征进行图像特征增强，其中，该图像特征增强包括图片裁切、高斯模糊处理、对比度调整、高斯噪声处理和仿射变化中一个或多个。

这里，以上述图像信号包括视频信号为例，上述图片裁切是指通过对视频中的每一帧按一定概率进行裁切操作，上述对比度调整是指调整每一帧图像的对比度，从而，对上述图像信号的信号特征进行特征增强。

上述高斯模糊处理是指按照一定概率(例如50％)给每一帧图像增加高斯模糊，同理，上述高斯噪声处理是指对每一帧图像增加高斯噪声，达到增强上述图像信号的信号特征的目的。

上述仿射变化是指对每一帧图像进行包括平移、旋转、尺度变化、剪切等变化，实现对上述图像信号的信号特征的增强。

S305：若上述多模态信号包括文本信号，则对该文本信号的信号特征进行文本特征增强，其中，该文本特征增强包括同义词替换和基于上下文的词语替换中一个或多个。

这里，同义词替换是指通过对文本信号进行同义词替换，基于上下文的词语替换是指基于文本信号上下文内容对文本信号进行词语替换，从而，对上述文本信号的信号特征进行特征增强。

另外，除上述对上述信号特征进行特征增强的方式外，本申请实施例还可以采用其它技术对上述信号特征进行特征增强，具体可以根据实际情况确定，本申请实施例对此不做特别限制。

S306：在上述进行特征增强后，获得增强特征，将该增强特征输入第一预设神经网络，其中，第一预设神经网络通过对话场景中多模态信号的信号特征和对话语句训练得到。

S307：获取第一预设神经网络输出的目标对话语句。

其中，步骤S306-S307与上述步骤S204-S205的实现方式类似，此处不再赘述。

本申请实施例，采用不同的方式对上述信号特征进行特征增强，满足多种应用场景的不同需求，适合应用，而且本申请实施例中多模态信号包括语音信号、图像信号和文本信号中多个，相较现有技术仅获取语音信息来说，本申请实施例获取的信息更全面，而且本申请实施例对多模态信号的信号特征进行特征增强，增强的特征中包含的信息更丰富，提升了神经网络对多模态信息的理解和推理能力，使生成的对话语句具备更高的准确性和相关性，提高基于本申请实施例的对话***性能。

另外，本申请实施例在将上述增强特征输入第一预设神经网络之前，还将增强特征输入第二预设神经网络，提取高级特征。图4为本申请实施例提出的再一种对话生成方法的流程示意图。如图4所示，该方法包括：

S401：获取目标对话场景中的多模态信号，该多模态信号包括语音信号、图像信号和文本信号中多个。

S402：确定上述多模态信号的信号特征。

S403：对上述信号特征进行特征增强，获得增强特征。

其中，步骤S401-S403与上述步骤S201-S203的实现方式相同，此处不再赘述。

S404：将上述增强特征输入第二预设神经网络，其中，第二预设神经网络通过信号特征和高级特征训练得到，该高级特征包括语音的VGGish特征，图像的I3D RGB特征和I3DFlow特征，以及文本的词向量中一个或多个。

在本申请实施例中，在确定上述多模态信号的信号特征，对该信号特征进行特征增强后，通过第二预设神经网络进行高级特征提取，该高级特征包括但不限于语音的VGGish特征，图像的I3D RGB特征和I3D Flow特征，以及文本的词向量等，从而使输入后续第一神经网络的特征中包含的信息更丰富，提高第一神经网络对多模态信息的理解和推理能力，生成准确的对话语句。

S405：获取第二预设神经网络输出的目标高级特征，将该目标高级特征输入第一预设神经网络，其中，第一预设神经网络通过对话场景中多模态信号的信号特征和对话语句训练得到。

S406：获取第一预设神经网络输出的目标对话语句。

示例性的，如图5所示，以上述目标高级特征包括语音的VGGish特征，图像的I3DRGB特征和I3D Flow特征，以及文本的词向量为例，该目标高级特征输入第一预设神经网络，第一预设神经网络可以是多层注意力模型，第一预设神经网络输出目标对话语句。

本申请实施例，本申请实施例中多模态信号包括语音信号、图像信号和文本信号中多个，相较现有技术仅获取语音信息来说，本申请实施例获取的信息更全面，而且本申请实施例对多模态信号的信号特征进行特征增强，并且通过第二预设神经网络进行高级特征提取，从而使输入后续第一神经网络的特征中包含的信息更丰富，提高第一神经网络对多模态信息的理解和推理能力，生成准确的对话语句。

对应于上文实施例的对话生成方法，图6为本申请实施例提供的对话生成装置的结构示意图。为了便于说明，仅示出了与本申请实施例相关的部分。图6为本申请实施例提供的一种对话生成装置的结构示意图，该对话生成装置60包括：第一获取模块601、确定模块602、增强模块603、第一输入模块604以及第二获取模块605。这里的对话生成装置可以是上述处理装置本身，或者是实现处理装置的功能的芯片或者集成电路。这里需要说明的是，第一获取模块、确定模块、增强模块、第一输入模块以及第二获取模块的划分只是一种逻辑功能的划分，物理上两者可以是集成的，也可以是独立的。

其中，第一获取模块601，用于获取目标对话场景中的多模态信号，所述多模态信号包括语音信号、图像信号和文本信号中多个。

确定模块602，用于确定所述多模态信号的信号特征。

增强模块603，用于对所述信号特征进行特征增强，获得增强特征。

第一输入模块604，用于将所述增强特征输入第一预设神经网络，其中，所述第一预设神经网络通过对话场景中多模态信号的信号特征和对话语句训练得到。

第二获取模块605，用于获取所述第一预设神经网络输出的目标对话语句。

在一种可能的设计中，所述增强模块603，具体用于：

在一种可能的设计中，所述确定模块602，具体用于：

在一种可能的实现方式中，所述确定模块602，具体用于：

获取所述第三预设神经网络输出的语音信号的信号特征。

在一种可能的实现方式中，所述确定模块602，具体用于：

获取所述第四预设神经网络输出的图像信号的信号特征。

本申请实施例提供的装置，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，本申请实施例此处不再赘述。

图7为本申请实施例提供的另一种对话生成装置的结构示意图。如图7所示，在上述图6基础上，上述对话生成装置60还包括：第二输入模块606和第三获取模块607。

其中，第二输入模块606，用于在所述第一输入模块604将所述增强特征输入第一预设神经网络之前，将所述增强特征输入第二预设神经网络，其中，所述第二预设神经网络通过信号特征和高级特征训练得到。

第三获取模块607，用于获取所述第二预设神经网络输出的目标高级特征。

所述第一输入模块604，具体用于：

将所述目标高级特征输入所述第一预设神经网络。

在一种可能的设计中，所述高级特征包括语音的VGGish特征，图像的I3D RGB特征和I3D Flow特征，以及文本的词向量中一个或多个。

可选地，图8A和8B分别示意性地提供本申请所述对话生成设备的一种可能的基本硬件架构。

参见图8A和8B，对话生成设备800包括至少一个处理器801以及通信接口803。进一步可选的，还可以包括存储器802和总线804。

其中，对话生成设备800可以是上述处理装置，本申请对此不作特别限制。对话生成设备800中，处理器801的数量可以是一个或多个，图8A和8B仅示意了其中一个处理器801。可选地，处理器801，可以是中央处理器(Central Processing Unit，CPU)、图形处理器(Graphics Processing Unit，GPU)或者数字信号处理(Digital Signal Process，DSP)。如果对话生成设备800具有多个处理器801，多个处理器801的类型可以不同，或者可以相同。可选地，对话生成设备800的多个处理器801还可以集成为多核处理器。

存储器802存储计算机指令和数据；存储器802可以存储实现本申请提供的上述对话生成方法所需的计算机指令和数据，例如，存储器802存储用于实现上述对话生成方法的步骤的指令。存储器802可以是以下存储介质的任一种或任一种组合：非易失性存储器(例如只读存储器(ROM)、固态硬盘(SSD)、硬盘(HDD)、光盘)，易失性存储器。

通信接口803可以为所述至少一个处理器提供信息输入/输出。也可以包括以下器件的任一种或任一种组合：网络接口(例如以太网接口)、无线网卡等具有网络接入功能的器件。

可选的，通信接口803还可以用于对话生成设备800与其它计算设备或者终端进行数据通信。

进一步可选的，图8A和8B用一条粗线表示总线804。总线804可以将处理器801与存储器802和通信接口803连接。这样，通过总线804，处理器801可以访问存储器802，还可以利用通信接口803与其它计算设备或者终端进行数据交互。

在本申请中，对话生成设备800执行存储器802中的计算机指令，使得对话生成设备800实现本申请提供的上述对话生成方法，或者使得对话生成设备800部署上述的对话生成装置。

从逻辑功能划分来看，示例性的，如图8A所示，存储器802中可以包括第一获取模块601、确定模块602、增强模块603、第一输入模块604以及第二获取模块605。这里的包括仅仅涉及存储器中所存储的指令被执行时可以分别实现第一获取模块、确定模块、增强模块、第一输入模块以及第二获取模块的功能，而不限定是物理上的结构。

确定模块602，用于确定所述多模态信号的信号特征。

在一种可能的设计中，所述增强模块603，具体用于：

在一种可能的设计中，所述确定模块602，具体用于：

在一种可能的实现方式中，所述确定模块602，具体用于：

获取所述第三预设神经网络输出的语音信号的信号特征。

在一种可能的实现方式中，所述确定模块602，具体用于：

获取所述第四预设神经网络输出的图像信号的信号特征。

示例性的，如图8B所示，存储器802中还可以包括第二输入模块606和第三获取模块607。这里的包括仅仅涉及存储器中所存储的指令被执行时可以分别实现第二输入模块和第三获取模块的功能，而不限定是物理上的结构。

所述第一输入模块604，具体用于：

将所述目标高级特征输入所述第一预设神经网络。

另外，上述的对话生成设备除了可以像上述图8A和图8B通过软件实现外，也可以作为硬件模块，或者作为电路单元，通过硬件实现。

本申请提供一种计算机可读存储介质，所述计算机程序产品包括计算机指令，所述计算机指令指示计算设备执行本申请提供的上述对话生成方法。

本申请提供一种芯片，包括至少一个处理器和通信接口，所述通信接口为所述至少一个处理器提供信息输入和/或输出。进一步，所述芯片还可以包含至少一个存储器，所述存储器用于存储计算机指令。所述至少一个处理器用于调用并运行该计算机指令，以执行本申请提供的上述对话生成方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

Claims

1.一种对话生成方法，其特征在于，包括：

确定所述多模态信号的信号特征；

对所述信号特征进行特征增强，获得增强特征；

获取所述第一预设神经网络输出的目标对话语句。

2.根据权利要求1所述的方法，其特征在于，所述对所述信号特征进行特征增强，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述信号特征进行特征增强，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述信号特征进行特征增强，包括：

5.根据权利要求1至4中任一项所述的方法，其特征在于，在所述将所述增强特征输入第一预设神经网络之前，还包括：

获取所述第二预设神经网络输出的目标高级特征；

所述将所述增强特征输入第一预设神经网络，包括：

将所述目标高级特征输入所述第一预设神经网络。

6.根据权利要求5所述的方法，其特征在于，所述高级特征包括语音的VGGish特征，图像的I3D红绿蓝RGB特征和I3D Flow特征，以及文本的词向量中一个或多个。

7.根据权利要求1至4中任一项所述的方法，其特征在于，所述确定所述多模态信号的信号特征，包括：

若所述多模态信号包括语音信号，则对所述语音信号进行语音预处理，获得所述语音信号的信号特征，其中，所述语音预处理包括静音抑制VAD、短时傅里叶变换STFT和F-BANK中一个或多个。

8.根据权利要求1至4中任一项所述的方法，其特征在于，所述确定所述多模态信号的信号特征，包括：

9.根据权利要求1至4中任一项所述的方法，其特征在于，所述确定所述多模态信号的信号特征，包括：

获取所述第三预设神经网络输出的语音信号的信号特征。

10.根据权利要求1至4中任一项所述的方法，其特征在于，所述确定所述多模态信号的信号特征，包括：

获取所述第四预设神经网络输出的图像信号的信号特征。

11.一种对话生成装置，其特征在于，包括：

确定模块，用于确定所述多模态信号的信号特征；

12.根据权利要求11所述的装置，其特征在于，所述增强模块，具体用于：

13.根据权利要求11所述的装置，其特征在于，所述增强模块，具体用于：

14.根据权利要求11所述的装置，其特征在于，所述增强模块，具体用于：

15.根据权利要求11至14中任一项所述的装置，其特征在于，还包括：

所述第一输入模块，具体用于：

将所述目标高级特征输入所述第一预设神经网络。

16.根据权利要求15所述的装置，其特征在于，所述高级特征包括语音的VGGish特征，图像的I3D RGB特征和I3D Flow特征，以及文本的词向量中一个或多个。

17.根据权利要求11至14中任一项所述的装置，其特征在于，所述确定模块，具体用于：

18.根据权利要求11至14中任一项所述的装置，其特征在于，所述确定模块，具体用于：

19.一种对话生成设备，其特征在于，包括：

处理器；

存储器；以及

计算机程序；

其中，所述计算机程序被存储在所述存储器中，并且被配置为由所述处理器执行，所述计算机程序包括用于执行如权利要求1-10任一项所述的方法的指令。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序使得服务器执行权利要求1-10任一项所述的方法。