CN111507402A

CN111507402A - 一种确定响应方式的方法、装置、介质和设备

Info

Publication number: CN111507402A
Application number: CN202010303557.8A
Authority: CN
Inventors: 游程; 苏少炜; 陈孝良
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2020-08-07

Abstract

本发明涉及一种确定响应方式的方法、装置、介质和设备。其中，在确定响应方式的过程中，可以接收文本信息、视频信息和音频信息这三种人机交互信息中的至少两种。并可以确定接收到的每一种人机交互信息分别对应的特征向量，以及对应所有接收到的人机交互信息的融合特征向量，利用融合特征向量，以及每一种人机交互信息分别对应的特征向量，来分别确定至少一种响应方式，以及每种响应方式的打分结果。并可以根据每种响应方式的打分结果，确定一种响应方式。从而可以综合考虑各种不同类型的人机交互信息分别对应的特征向量，以及将各种不同类型的人机交互信息进行融合得到的信息对应的融合特征向量，来确定响应方式，提高确定出的响应方式的准确性。

Description

一种确定响应方式的方法、装置、介质和设备

技术领域

本发明涉及人工智能技术领域，特别涉及一种确定响应方式的方法、装置、介质和设备。

背景技术

人机交互是人工智能的一个重要研究领域，旨在使用人工智能技术，帮助智能机器人深刻理解用户需求，并作出正确的响应(也可以理解为决策)，响应方式可以是任何可能的行为，例如，语音播报各种内容，提问各种问题，移动到各个位置等等，来反馈用户需求。

目前现有技术主要基于文本进行人机交互。基于文本进行人机交互，是利用自然语言处理(NLP)等相关技术，根据用户通过输入框输入的文本或者对用户输入的语音，进行语音识别(ASR)得到的文本，理解用户需求并确定对应的响应方式。

由于目前帮助智能机器人确定响应方式的信息比较局限，仅基于单一的文本信息，导致现有的人机交互方案中，对用户需求的理解不够准确，从而导致智能机器人无法做出正确的响应。

发明内容

本发明实施例提供一种确定响应方式的方法、装置、介质和设备，用于解决智能机器人确定出的响应方式的准确率较低的问题。

本发明提供了一种确定响应方式的方法，所述方法包括：

接收至少两种人机交互信息，所述人机交互信息包括视频信息、音频信息或文本信息；

确定接收到的每一种人机交互信息分别对应的一个特征向量，并根据确定出的每一个特征向量，确定融合特征向量；

利用分别对应的决策分类模型，确定所述融合特征向量、每一个特征向量各自对应的至少一种响应方式，以及每种响应方式的打分结果；

根据每种响应方式的打分结果，确定一种响应方式。

本发明还提供了一种确定响应方式的装置，所述装置包括：

特征向量确定模块，用于接收至少两种人机交互信息，所述人机交互信息包括视频信息、音频信息或文本信息，确定接收到的每一种人机交互信息分别对应的一个特征向量；

特征向量融合模块，用于根据确定出的每一个特征向量，确定融合特征向量；

单特征决策模块，用于利用分别对应的决策分类模型，确定每一个特征向量各自对应的至少一种响应方式，以及每种响应方式的打分结果；

多特征决策模块，用于利用对应的决策分类模型，确定所述融合特征向量对应的至少一种响应方式，以及每种响应方式的打分结果；

响应方式融合模块，用于根据所述单特征决策模块和所述多特征决策模块确定出的每种响应方式的打分结果，确定一种响应方式。

本发明还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有可执行程序，该可执行程序被处理器执行实现如上所述的方法。

本发明还提供了一种确定响应方式的设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存储的程序时，实现如上所述的方法步骤。

根据本发明实施例提供的方案，在确定响应方式的过程中，可以接收文本信息、视频信息和音频信息这三种人机交互信息中的至少两种。在接收到至少两种人机交互信息后，可以确定接收到的每一种人机交互信息分别对应的特征向量，以及对应所有接收到的人机交互信息的融合特征向量，利用融合特征向量，以及每一种人机交互信息分别对应的特征向量，来分别确定至少一种响应方式，以及每种响应方式的打分结果。并可以根据每种响应方式的打分结果，确定一种响应方式。从而可以综合考虑各种不同类型的人机交互信息分别对应的特征向量，以及将各种不同类型的人机交互信息进行融合得到的信息对应的融合特征向量，来确定响应方式，提高确定出的响应方式的准确性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的确定响应方式的方法的流程示意图；

图2为本发明实施例二提供的确定响应方式的装置的结构示意图；

图3为本发明实施例三提供的确定响应方式的设备的结构示意图。

具体实施方式

为了提高智能机器人作出的响应方式的准确性，本发明实施例提出，可以获取视频、音频、文字等多种单方面人机交互信息，通过多模态融合技术，综合考虑多种单方面人机交互信息，以及多种单方面人机交互信息融合得到的全面人机交互信息，以便智能机器人做出更准确的响应方式。

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

本发明实施例一提供一种确定响应方式的方法，该方法的步骤流程可以如图1所示，包括：

步骤101、接收信息。

在本步骤中，可以接收至少两种人机交互信息，所述人机交互信息包括视频信息、音频信息或文本信息。即在本实施例中，用于确定响应方式的信息可以包括文本信息，视频信息和音频信息中的至少两种。

所述视频信息可以理解为进行人机交互时，通过视频采集设备，如摄像头，红外感应设备等采集的视频信息，例如，进行人机交互的用户的视频信息。

所述音频信息可以理解为进行人机交互时，通过音频采集设备，如麦克风阵列等采集的音频信息，例如，进行人机交互的用户发出的音频信息。

在本实施例中，所述文本信息可以理解为进行人机交互时，用户输入的文本信息，此时，接收文本信息可以理解为直接接收文本信息。

需要说明的是，在另一种可能的实现方式中，所述文本信息可以通过进行人机交互时，通过音频采集设备采集的音频信息进行语音识别获得。此时，接收文本信息也可以理解为接收音频信息，再将对接收到的音频信息进行语音识别得到的文本信息，作为接收到的文本信息。

另外需要说明的是，接收文本信息通过接收音频信息来实现时，接收到的音频信息可以仅用于进行语音识别得到的文本信息，也可以进一步用于执行步骤102，实现对音频信息的复合利用，从而实现仅利用音频信息，也可以提高确定出的响应方式的准确性。

步骤102、确定特征向量。

在本步骤中，可以确定接收到的每一种人机交互信息分别对应的一个特征向量。

以接收到文本信息和视频信息为例，确定接收到的每一种人机交互信息分别对应的一个特征向量，可以理解为，确定接收到的文本信息对应的第一文本特征向量，以及确定接收到的视频信息对应的视频特征向量。

类似的，以接收到文本信息和音频信息为例，确定接收到的每一种人机交互信息分别对应的一个特征向量，可以理解为，确定接收到的文本信息对应的第一文本特征向量，以及确定接收到的音频信息对应的音频特征向量。

以接收到视频信息和音频信息为例，确定接收到的每一种人机交互信息分别对应的一个特征向量，可以理解为，确定接收到的视频信息对应的视频特征向量，以及确定接收到的音频信息对应的音频特征向量。

以接收到文本信息、视频信息和音频信息为例，确定接收到的每一种人机交互信息分别对应的一个特征向量，可以理解为，确定接收到的文本信息对应的第一文本特征向量，确定接收到的视频信息对应的视频特征向量，以及确定接收到的音频信息对应的音频特征向量。

在本实施例中，视频特征向量可以但不限于理解为表征进行人机交互的用户的性别、年龄等信息。从而后续可以结合进行人机交互的用户的性别、年龄等信息来确定响应方式。

音频特征向量可以但不限于理解为表征进行人机交互的用户的语音、语调等信息。从而后续可以结合进行人机交互的用户的语音、语调等信息来确定响应方式。

需要说明的是，在一种可能的实现方式中，可以利用对应的深度神经网络模型，确定接收到的视频信息对应的视频特征向量，以提高确定出的视频特征向量的准确性。

另外，可以利用对应的深度神经网络模型，确定接收到的音频信息对应的音频特征向量，以提高确定出的音频特征向量的准确性。

此外，可以利用预训练模型，确定接收到的文本信息对应的第一文本特征向量，以提高确定出的第一文本特征向量的准确性。

预训练模型是基于极大的语料训练好的语言模型，例如基于变形器(Transformer)的双向编码器表征(BERT)等。需要说明的是，预训练模型是通用语言模型，不需要针对特定任务进行单独训练，可以在绝大多数任务中直接进行使用，在本实施例中，预训练模型可以直接使用。

当然，若文本信息为中文文本信息，则预训练模型可以是中文预训练模型，在本实施例中，中文预训练模型可以直接使用。

步骤103、确定融合特征向量。

在本步骤中，可以根据确定出的每一个特征向量，确定融合特征向量。

需要说明的是，确定出的每一个特征向量分别对应一种不同类型的人机交互信息，也可以理解为分别对应不同的模态空间。

视频特征向量可以理解为对应视频模态空间，音频特征向量可以理解为对应音频模态空间，第一文本特征向量可以理解为对应文本模态空间。

确定融合特征向量，可以对确定出的每一个特征向量进行模态对齐，将对应不同模态空间的特征向量转换为对应同一个目标模态空间，然后对模态对齐的每一种特征向量进行拼接得到融合特征向量。

即，在一种可能的实现方式中，可以将确定出的每一个特征向量，分别转换为对应目标模态空间的特征向量，将转换得到的每一个对应目标模态空间的特征向量进行拼接，得到融合特征向量。

进一步的，在一种可能的实现方式中，可以利用深度神经网络模型，将确定出的每一个特征向量，分别转换为对应目标模态空间的特征向量，以提高转换的可靠性和准确性。

以目标模态空间为文本模态空间为例，则本步骤可以包括：

若确定出的每一个特征向量包括接收到的视频信息对应的视频特征向量，接收到的音频信息对应的音频特征向量，以及接收到的文本信息对应的第一文本特征向量，根据确定出的每一个特征向量，确定融合特征向量，可以包括：

确定所述视频特征向量对应的第二文本特征向量，以及确定所述音频特征向量对应的第三文本特征向量；将所述第一文本特征向量、所述第二文本特征向量和所述第三文本特征向量拼接得到所述融合特征向量。

若确定出的每一个特征向量包括接收到的文本信息对应的第一文本特征向量，以及接收到的视频信息对应的视频特征向量，根据确定出的每一种特征向量，确定融合特征向量，可以包括：

确定所述视频特征向量对应的第二文本特征向量；将所述第一文本特征向量和所述第二文本特征向量拼接得到所述融合特征向量。

若确定出的每一个特征向量包括接收到的文本信息对应的第一文本特征向量，以及接收到的音频信息对应的音频特征向量，根据确定出的每一种特征向量，确定融合特征向量，可以包括：

确定所述音频特征向量对应的第三文本特征向量；将所述第一文本特征向量和所述第三文本特征向量拼接得到所述融合特征向量。

若确定出的每一个特征向量包括接收到的视频信息对应的视频特征向量，以及接收到的音频信息对应的音频特征向量，根据确定出的每一种特征向量，确定融合特征向量，可以包括：

确定所述视频特征向量对应的第二文本特征向量，以及确定所述音频特征向量对应的第三文本特征向量；将所述第二文本特征向量和所述第三文本特征向量拼接得到所述融合特征向量。

且在本实施例中，在一种可能的实现方式中，可以利用对应的深度神经网络模型，确定视频特征向量对应的第二文本特征向量，即，可以利用深度神经网络模型将视频特征向量转换为第二文本特征向量，以提高确定出的第二文本特征向量的准确性和可靠性。

另外，可以利用对应的深度神经网络模型，确定音频特征向量对应的第三文本特征向量，即，可以利用深度神经网络模型将音频特征向量转换为第三文本特征向量，以提高确定出的第三文本特征向量的准确性和可靠性。

步骤104、确定各自对应的响应方式及打分结果。

在本步骤中，可以利用分别对应的决策分类模型，确定所述融合特征向量、接收到的每一种信息分别对应的特征向量各自对应的至少一种响应方式，以及每种响应方式的打分结果。在一种可能的实现方式中，每种响应方式的打分结果可以理解为根据确定出该种响应方式的概率来确定。

可以理解为，在本步骤中，可以利用第一文本特征向量对应的决策分类模型，确定第一文本特征向量对应的至少一种响应方式，以及每种响应方式的打分结果。

利用第一文本特征向量对应的决策分类模型，确定第一文本特征向量对应的至少一种响应方式，以及每种响应方式的打分结果，可以但不限于利用任何现有的方式实现，本实施例不再赘述。

类似的，可以利用音频特征向量对应的决策分类模型，确定音频特征向量对应的至少一种响应方式，以及每种响应方式的打分结果。

利用视频特征向量对应的决策分类模型，确定视频特征向量对应的至少一种响应方式，以及每种响应方式的打分结果。

利用融合特征向量对应的决策分类模型，确定融合特征向量对应的至少一种响应方式，以及每种响应方式的打分结果。

需要说明的是，确定音频特征向量对应的至少一种响应方式，以及每种响应方式的打分结果、确定视频特征向量对应的至少一种响应方式，以及每种响应方式的打分结果、以及确定第一文本特征向量对应的至少一种响应方式，以及每种响应方式的打分结果，不限于在步骤103之后执行，在步骤102之后即可以执行。

步骤105、进行响应方式选择。

在本步骤中，可以根据确定出的每种响应方式的打分结果，确定一种响应方式。

根据确定出的每种响应方式的打分结果，确定一种响应方式，可以通过任意方式实现。在一种可能的实现方式中，可以分别根据融合特征向量、接收到的每一种人机交互信息分别对应的特征向量各自对应的权重，确定各自对应的每种响应方式的打分结果的加权值，并可以根据确定出的每种响应方式的打分结果的加权值，确定一种响应方式。例如，假设利用分别对应的决策分类模型，一共确定出10种响应方式(利用不同的决策分类模型确定出的相同的响应方式，作为同一种响应方式)，可以将这10种响应方式中，对应的打分结果的加权值(之和)最大的响应方式作为确定出的响应方式。

需要说明的是，融合特征向量、接收到的每一种人机交互信息分别对应的特征向量各自对应的权重，可以经过自适应学习得到，从而提高权重确定的准确性，使得根据权重进行加权选择出的响应方式准确性更高。

根据本发明实施例一提供的方案，可以使用多模态特征融合技术，融合视频、音频、文字三通道特征，分别基于单通道特征确定响应方式以及基于融合特征确定响应方式，进行加权最终确定响应方式，提升最终确定出的响应方式的准确率。

与实施例一提供的方法对应的，提供以下的装置。

实施例二

本发明实施例二提供一种确定响应方式的装置，该装置的结构可以如图2所示，包括：

特征向量确定模块11用于接收至少两种人机交互信息，所述人机交互信息包括视频信息、音频信息或文本信息，确定接收到的每一种人机交互信息分别对应的一个特征向量；特征向量融合模块12用于根据确定出的每一个特征向量，确定融合特征向量；单特征决策模块13用于利用分别对应的决策分类模型，确定每一个特征向量各自对应的至少一种响应方式，以及每种响应方式的打分结果；多特征决策模块14用于利用对应的决策分类模型，确定所述融合特征向量对应的至少一种响应方式，以及每种响应方式的打分结果；决策融合模块15用于根据所述单特征决策模块和所述多特征决策模块确定出的每种响应方式的打分结果，确定一种响应方式。

在一种可能的实现方式中，所述特征向量融合模块12具体用于将确定出的每一个特征向量，分别转换为对应目标模态空间的特征向量；将转换得到的每一个对应目标模态空间的特征向量进行拼接，得到融合特征向量。

进一步的，在一种可能的实现方式中，所述特征向量融合模块12用于将确定出的每一个特征向量，分别转换为对应目标模态空间的特征向量，包括：利用深度神经网络模型，将确定出的每一个特征向量，分别转换为对应目标模态空间的特征向量。

在一种可能的实现方式中，所述决策融合模块，具体用于分别根据所述融合特征向量、每一个特征向量各自对应的权重，确定各自对应的每种响应方式的打分结果的加权值；根据确定出的每种响应方式的打分结果的加权值，确定一种响应方式。

进一步的，在一种可能的实现方式中，所述决策融合模块15用于确定每种响应方式的打分结果的加权值的所述融合特征向量、每一个特征向量各自对应的权重，经过自适应学习得到。

如图2所示，可以利用文本特征确定模型，确定接收到的文本信息对应的第一文本特征向量。可以利用视频特征确定模型，确定接收到的视频信息对应的视频特征向量。可以利用音频特征确定模型，确定接收到的音频信息对应的音频特征向量。

在一种可能的实现方式中，所述特征向量确定模块11用于确定接收到的视频信息对应的一个特征向量，包括：利用对应的深度神经网络模型，确定接收到的视频信息对应的视频特征向量；

所述特征向量确定模块11用于确定接收到的音频信息对应的一个特征向量，包括：利用对应的深度神经网络模型，确定接收到的音频信息对应的音频特征向量；

所述特征向量确定模块11用于确定接收到的文本信息对应的一个特征向量，包括：利用预训练模型，确定接收到的文本信息对应的第一文本特征向量。

基于同一发明构思，本发明实施例提供以下的设备和介质。

实施例三

本发明实施例三提供一种确定响应方式的设备，该设备的结构可以如图3所示，包括处理器21、通信接口22、存储器23和通信总线24，其中，所述处理器21，所述通信接口22，所述存储器23通过所述通信总线24完成相互间的通信；

所述存储器23，用于存放计算机程序；

所述处理器21，用于执行所述存储器上所存储的程序时，实现本发明实施例一所述的方法步骤。

可选的，所述处理器21具体可以包括中央处理器(CPU)、特定应用集成电路(ASIC，Application Specific Integrated Circuit)，可以是一个或多个用于控制程序执行的集成电路，可以是使用现场可编程门阵列(FPGA，Field Programmable Gate Array)开发的硬件电路，可以是基带处理器。

可选的，所述处理器21可以包括至少一个处理核心。

可选的，所述存储器23可以包括只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)和磁盘存储器。存储器23用于存储至少一个处理器21运行时所需的数据。存储器23的数量可以为一个或多个。

本发明实施例四提供一种非易失性计算机存储介质，所述计算机存储介质存储有可执行程序，当可执行程序被处理器执行时，实现本发明实施例一提供的方法。

在具体的实施过程中，计算机存储介质可以包括：通用串行总线闪存盘(USB，Universal Serial Bus Flash Drive)、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的存储介质。

在本发明实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性或其它的形式。

在本发明实施例中的各功能单元可以集成在一个处理单元中，或者各个单元也可以均是独立的物理模块。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备，例如可以是个人计算机，服务器，或者网络设备等，或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：通用串行总线闪存盘(Universal Serial Bus Flash Drive)、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种确定响应方式的方法，其特征在于，所述方法包括：

根据每种响应方式的打分结果，确定一种响应方式。

2.如权利要求1所述的方法，其特征在于，根据确定出的每一个特征向量，确定融合特征向量，包括：

将确定出的每一个特征向量，分别转换为对应目标模态空间的特征向量；

将转换得到的每一个对应目标模态空间的特征向量进行拼接，得到融合特征向量。

3.如权利要求2所述的方法，其特征在于，将确定出的每一个特征向量，分别转换为对应目标模态空间的特征向量，包括：

利用深度神经网络模型，将确定出的每一个特征向量，分别转换为对应目标模态空间的特征向量。

4.如权利要求1所述的方法，其特征在于，根据每种响应方式的打分结果，确定一种响应方式，包括：

分别根据所述融合特征向量、每一个特征向量各自对应的权重，确定各自对应的每种响应方式的打分结果的加权值；

根据确定出的每种响应方式的打分结果的加权值，确定一种响应方式。

5.如权利要求4所述的方法，其特征在于，所述融合特征向量、每一个特征向量各自对应的权重，经过自适应学习得到。

6.如权利要求1～5任一所述的方法，其特征在于，确定接收到的视频信息对应的一个特征向量，包括：

利用对应的深度神经网络模型，确定接收到的视频信息对应的视频特征向量；

确定接收到的音频信息对应的一个特征向量，包括：

利用对应的深度神经网络模型，确定接收到的音频信息对应的音频特征向量；

确定接收到的文本信息对应的一个特征向量，包括：

利用预训练模型，确定接收到的文本信息对应的第一文本特征向量。

7.一种确定响应方式的装置，其特征在于，所述装置包括：

决策融合模块，用于根据所述单特征决策模块和所述多特征决策模块确定出的每种响应方式的打分结果，确定一种响应方式。

8.如权利要求7所述的装置，其特征在于，所述特征向量融合模块，具体用于将确定出的每一个特征向量，分别转换为对应目标模态空间的特征向量；将转换得到的每一个对应目标模态空间的特征向量进行拼接，得到融合特征向量。

9.如权利要求8所述的装置，其特征在于，所述特征向量融合模块，用于将确定出的每一个特征向量，分别转换为对应目标模态空间的特征向量，包括：利用深度神经网络模型，将确定出的每一个特征向量，分别转换为对应目标模态空间的特征向量。

10.如权利要求7所述的装置，其特征在于，所述决策融合模块，具体用于分别根据所述融合特征向量、每一个特征向量各自对应的权重，确定各自对应的每种响应方式的打分结果的加权值；根据确定出的每种响应方式的打分结果的加权值，确定一种响应方式。

11.如权利要求10所述的装置，其特征在于，所述决策融合模块用于确定每种响应方式的打分结果的加权值的所述融合特征向量、每一个特征向量各自对应的权重，经过自适应学习得到。

12.如权利要求7～11任一所述的装置，其特征在于，所述特征向量确定模块，用于确定接收到的视频信息对应的一个特征向量，包括：利用对应的深度神经网络模型，确定接收到的视频信息对应的视频特征向量；

所述特征向量确定模块，用于确定接收到的音频信息对应的一个特征向量，包括：利用对应的深度神经网络模型，确定接收到的音频信息对应的音频特征向量；

所述特征向量确定模块，用于确定接收到的文本信息对应的一个特征向量，包括：利用预训练模型，确定接收到的文本信息对应的第一文本特征向量。

13.一种非易失性计算机存储介质，其特征在于，所述计算机存储介质存储有可执行程序，该可执行程序被处理器执行实现权利要求1～6任一所述的方法。

14.一种确定响应方式的设备，其特征在于，所述设备包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存储的程序时，实现权利要求1～6任一所述的方法步骤。