CN114627868A

CN114627868A - 意图识别方法、装置、模型及电子设备

Info

Publication number: CN114627868A
Application number: CN202210208740.9A
Authority: CN
Inventors: 沈佳
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2022-03-03
Filing date: 2022-03-03
Publication date: 2022-06-14

Abstract

本申请公开了一种意图识别方法、装置、模型、电子设备及可读存储介质，其方法包括：获取待识别问题的多种模拟态信息，其中，多种模拟态信息包括语音信息、文字信息和图像信息；基于语音特征提取网络，确定语音信息的第一特征向量；基于文本特征提取网络，确定文本信息的第二特征向量；基于图像特征提取网络，确定图像信息的第三特征向量；融合第一特征向量、第二特征向量和第三特征向量，得到融合向量；基于全连接网络，根据融合向量，确定意图识别结果。本申请使用了更多的数据源，综合识别客户的意图，显著提升智能客服中意图识别的准确率，提升用户的体验高手，提升用户满意度，增加业务产能，其适用场景广，计算量小。

Description

意图识别方法、装置、模型及电子设备

技术领域

本申请涉及人工智能技术领域，具体涉及一种意图识别方法、装置、模型及电子设备。

背景技术

随着近几年电话场景下的智能客服越来越广泛的应用，人们在日常生活中与智能客服之间的交集越来越大。

现有技术中，智能客服识别客户意图的方法一般是先通过ASR(自动语音识别技术)技术将客户的语音转换为文字，再通过文字去识别客户的真实意图。

但是，仅使用文字去识别客户意图的短板在于，对于客户的调侃，反讽等情况无法进行有效的识别，比如客户说“行了”，无法准确判断客户的意图是不想继续听，还是肯定。

发明内容

针对上述问题，本申请实施例提供了一种意图识别方法、装置、模型及电子设备，以克服或部分克服现有技术的不足之处。

第一方面，本申请实施例提供了一种意图识别方法，所述意图识别方法是基于意图识别模型实现的，所述意图识别模型包括语音特征提取网络、文本特征提取网络、图像特征提取网络以及全连接网络，其中，所述语音特征提取网络、所述文本特征提取网络和所述图像特征提取网络分别连接所述全连接网络；

所述方法包括：

获取待识别问题的多种模拟态信息，其中，所述多种模拟态信息包括语音信息、文字信息和图像信息；

基于所述语音特征提取网络，确定所述语音信息的第一特征向量；基于所述文本特征提取网络，确定所述文本信息的第二特征向量；基于所述图像特征提取网络，确定所述图像信息的第三特征向量；

融合所述第一特征向量、所述第二特征向量和所述第三特征向量，得到融合向量；

基于所述全连接网络，根据所述融合向量，确定意图识别结果。

第二方面，本申请实施例还提供了一种意图识别装置，所述意图识别装置部署有意图识别模型，所述意图识别模型包括语音特征提取网络、文本特征提取网络、图像特征提取网络以及全连接网络，其中，所述语音特征提取网络、所述文本特征提取网络和所述图像特征提取网络分别连接所述全连接网络；

所述装置包括：

获取单元，用于获取待识别问题的多种模拟态信息，其中，所述多种模拟态信息包括语音信息、文字信息和图像信息；

特征提取单元，用于基于所述语音特征提取网络，确定所述语音信息的第一特征向量；基于所述文本特征提取网络，确定所述文本信息的第二特征向量；以及基于所述图像特征提取网络，确定所述图像信息的第三特征向量；

融合单元，用于融合所述第一特征向量、所述第二特征向量和所述第三特征向量，得到融合向量；

识别单元，用于基于所述全连接网络，根据所述融合向量，确定意图识别结果。

第三方面，本申请实施例还提供了一种意图识别模型，包括语音特征提取网络、文本特征提取网络、图像特征提取网络以及全连接网络，其中，所述语音特征提取网络、所述文本特征提取网络和所述图像特征提取网络分别连接所述全连接网络；

所述语音特征提取网络包括：依次连接的第一CNN层、第二CNN层和第三CNN层；其中，所述第一CNN层、第二CNN层和第三CNN层分别包括多个并列设置的CNN单元，其中，各CNN单元的卷积层的卷积核大小不同；

所述文本特征提取网络包括：依次连接的Embedding层、第一全连接层、第二全连接层和第三全连接层；其中，所述第一全连接层、所述第二全连接层和所述第三全连接层的神经元的数量依次降低；

所述图像特征提取网络包括：依次连接的第四CNN层、第五CNN层和第六CNN层；其中，所述第四CNN层、第五CNN层和第六CNN层分别包括多个并列设置的CNN单元，其中，各CNN单元的卷积层的卷积核大小不同；

所述全连接网络包括：依次连接的第四全连接层、第五全连接层和第六全连接层，其中，所述第四全连接层、所述第五全连接层和所述第六全连接层的神经元的数量依次降低。

第四方面，本申请实施例还提供了一种电子设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行上述任一的方法。

第五方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行上述任一的方法。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

本申请针对现有技术中，采用单一的文本数据难以准确识别出用户的真实意图的现状，本申请采用多模拟态的数据信息，直接将从文本信息、语音信息和图像信息中提取的特征进行融合，得到融合向量，来识别用户真实意图的表达。相对于现有技术，本申请使用了更多的数据源，综合识别客户的意图，显著提升智能客服中意图识别的准确率、提升用户的体验高手、提升用户满意度、增加业务产能，且适用场景广，计算量小。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了根据本申请的一个实施例的意图识别方法的流程示意图；

图2示出了根据本申请的一个实施例的意图识别模型的结构示意图；

图3示出了根据本申请的一些实施例的语音特征提取网络210的结构示意图；

图4示出了根据本申请的一个实施例的文本特征提取网络220的结构示意图；

图5示出了根据本申请的一个实施例的全连接网络240的结构示意图；

图6示出了根据本申请一个实施例的种意图识别装置的结构示意图；

图7为本申请实施例中一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

随着电子商务的快速发展，智能机器人、智能客服的应用越来越广泛，人机对话过程中，主要是问-答的形式，通常是用户发问，机器人根据用户给出的问题作出回答，因此精准识别用户的意图是人机良好交流的基础。

现有技术中，在识别用户的意图时，通常是基于用户的文字进行的，包括用户在交互界面直接输入的文字，也包括接收用户的语音，然后将用户的语音转换成的文字。

但是基于文字的意图识别存在一定的弊端，如不能识别用户的语气、语调，这就造成了对用户的真实意图不能准确预测，如对于客户的调侃、反讽等情况无法有效的识别，比如客户说“行了”，仅通过文字进行识别，无法准确判断客户的意图是不想听下去了，还是肯定。

针对现有技术的缺陷，本申请提出一种意图识别方法，该方法基于多模拟态的数据信息，从多模拟态的数据信息提取特征向量，并将特征向量进行融合，根据融合向量对用户的真实意图进行综合识别。

图1示出了根据本申请的一个实施例的意图识别方法的流程示意图，从图 1可以看出，本申请至少包括步骤S110～步骤S140：

步骤S110：获取待识别问题的多种模拟态数据信息，其中，所述多种模拟态数据信息包括文字信息、语音信息和图像信息。

本申请的意图识别方法是基于意图识别模型实现的，图2示出了根据本申请的一个意图识别模型的结构示意图，从图2可以看出，意图识别模型200包括语音特征提取网络210、文本特征提取网络220、图像特征提取网络230以及全连接网络240，其中，所述语音特征提取网络210、所述文本特征提取网络220和所述图像特征提取网络230分别连接所述全连接网络240。首先，获取用户针对的同一问题的多模拟态数据信息，多模拟态数据信息可以包括但不限于文字信息、语音信息和图像信息。比如用户在终端界面上打开摄像头，与智能客服实时的进行交互，这个时候可以同时获取客户的语音，语音经过ASR 转译后的文字，以及客户的图像。

在本申请的一些实施例中，所述获取待识别问题的多种模拟态信息，其中，所述多种模拟态信息包括语音信息、文字信息和图像信息，包括：获取所述待识别问题对应的目标视频流；确定目标视频流中的多个连续关键帧；将从所述连续关键帧中分离出的语音，作为语音信息；将所述语音信息转化为文字信息；将连续关键帧中的至少一帧作为图像信息。

假设用户与客服机器人进行对话，用户与客服机器人进行交互的过程中，客服机器人开启录音录像设备，可以记录用户的针对待识别问题对应的视频流，记为目标视频流。目标视频流通常包含多帧图像，从多帧图像中确定出多个连续关键帧作为待识别问题的用户的反馈，多个连续关键帧的确定，不申请不作限制，如可以根据时间来确定，将客服机器人说完最后一个字之后的预设时长内的多帧作为多个连续关键帧，将多个连续关键帧按照时间顺序排序，并将中间一帧或者多帧作为图像信息。对于语音信息和文本信息也可以从多个连续关键帧中得到，具体的，可将将从所述连续关键帧中分离出的语音，作为语音信息，将语音信息转化为文字信息，具体的分离和转化过程可参考现有技术。

步骤S120：基于所述语音特征提取网络，确定所述语音信息的第一特征向量；基于所述文本特征提取网络，确定所述文本信息的第二特征向量；基于所述图像特征提取网络，确定所述图像信息的第三特征向量。

在用户的语气、语调、表情、肢体动作等常常蕴含着用户的真实意图，如用户发出的语音是“行了”，但从文字字面意思理解，表示用户当前的态度是肯定的，但是用户可能只是讽刺的意思，或者是问题没有得到解决，发出了一种无奈的表示，这时其表情是一种“不屑”的表情，说明用户的真实意图是否定的。对于这种情况，采用现有技术中，单纯依靠文字进行意图识别，经常造成识别错误。

目前也有部分现有技术采用了多模拟态信息，但是现有技术中，通常只是采用用户语义中的语调特征，且现有技术中，通常是对用户的语音信息加上一个标签，即一个识别结果，然后将该识别结果与文本识别结果结合起来。如用户说“行了”，现有技术中，通常首先识别用户的语音“行了”的语调，识别出一个子结果，如该子结果是“积极的”，然后对用户的文本“行了”，识别出另一个子结果，如该子结果也是“积极的”，则将该两个子结果结合起来，确定最终的意图识别结果为“积极的”；若通过语音识别出的子结果为“消极的”，而通过文本识别的子结果是“积极的”，则在将这两个子结果结合时，会出现自相矛盾的现象，这时会根据权重，确定最终结果的取舍，如文本的权重大于语音的权重，这时，则确定最终结果为“积极的”，这种方式非常容易造成用户意图的误识。而本申请与现有技术不同，本申请首先是通过分别对文字信息、语音信息和图像信息进行特征提取，然后将提取的特征融合成为一个“大”的特征向量，最后再根据这个融合的特征向量进行意图的识别，从而避免了现有技术的缺陷，极大的提高了意图识别的准确度。

本申请在获得多种模拟态数据信息后，分别根据每种数据信息，确定出一个特征向量。简单理解，对于文字信息，可以基于文字特征识别网络220，根据对文字信息进行特征提取，得到文本特征，包括但不限于语义特征、语法结构等；对于语音信息，可以基于语音特征提取网络210，提取出用户语音信息中包含的语气、语调、情绪、语速、音幅、着重点等特征；而对于图像特征，可以基于图像特征提取网络230，识别出用户的表情，肢体动作等。对于根据每一种模拟态数据信息得到的特征，记为特征向量，在本申请中，为了方便陈述，将根据语音信息获得的特征向量记为第一特征向量，将根据文本信息获得的特征向量记为第二特征向量，将根据图像信息获得的特征向量记为第三特征向量。需要说明的是，各特征向量均为一维向量或多维矩阵的形式。

步骤S130：融合所述第一特征向量、所述第二特征向量和所述第三特征向量，得到融合向量。

在分别得到语音信息的第一特征向量、文本信息的第二特征向量和图像信息的第三特征向量后，将这三个特征向量融合在一起，形成一个“大”的向量。 “大”的向量可以理解为维度的增加。

向量的融合，可以理解为拼接的过程，举例来讲，如第一特征向量、第二特征向量和第三特征向量均为一维向量，将第一特征向量记为a，第二特征向量记为b，第三特征向量记为c，融合向量记为z，具体的融合方式，可将第二特征向量的各元素按照原始顺序“摆放”到第一特征向量之后，将第三特征向量的各元素按照原始顺序“摆放”到第二特征向量之后，得到融合向量，即z＝[a， b，c]。

步骤S140：基于所述全连接网络，根据所述融合向量，确定意图识别结果。

最后，基于全连接层240，根据融合向量确定意图识别结果。全连接层240 可以根据在训练阶段学习到的知识，对融合向量进行识别，在融合向量中，融合了用户的语音、文本和图像中的多种特征，根据多种特征，得到意图识别结果，比单一模态的数据得到的结果更加准确。

由图1所示的方法可以看出，针对现有技术中，采用单一的文本数据难以准确识别出用户的真实意图的现状，本申请采用多模拟态的数据信息，直接将从文本信息、语音信息和图像信息中提取的特征进行融合，得到融合向量，来识别用户真实意图的表达。相对于现有技术，本申请使用了更多的数据源，综合识别客户的意图，显著提升智能客服中意图识别的准确率、提升用户的体验高手、提升用户满意度、增加业务产能，且适用场景广，计算量小。

在本申请的一些实施例中，所述语音特征提取网络包括：依次连接的第一 CNN层、第二CNN层和第三CNN层；其中，所述第一CNN层、第二CNN 层和第三CNN层分别包括多个并列设置的CNN单元，其中，各CNN单元的卷积层的卷积核大小不同；所述基于所述语音特征提取网络，确定所述语音信息的第一特征向量，包括：对所述语音信息进行预处理；使预处理后的语音信息分别进入所述第一CNN层的各CNN单元中，以对所述语音信息进行特征提取，将各CNN单元的输出进行拼接，得到所述语音信息的第一初级特征向量；对所述第一初级特征向量进行降维处理，使降维后的第一初级特征向量进入所述第二CNN层的各CNN单元中，以对所述第一初级特征向量进行特征提取，将各CNN单元的输出进行拼接，得到所述语音信息的第一中级特征向量；对所述第一中级特征向量进行降维处理，使降维后的第一中级特征向量进入所述第三CNN层的各CNN单元中，以对所述第一中级特征向量进行特征提取，将各CNN单元的输出进行拼接，得到所述语音信息的第一高级特征向量，作为第一特征向量。

图3示出了根据本申请的一些实施例的语音特征提取网络210的结构示意图，从图3可以看出，语音特征提取网络包括：依次连接的第一CNN层211、第二CNN层212和第三CNN层213；其中，所述第一CNN层211、第二CNN 层212和第三CNN层213分别包括多个并列设置的CNN单元，其中，各CNN 单元分别包括输入层、卷积层、激活层、池化层和全连接层，其中，各CNN 单元的卷积层的卷积核大小不同。在图3中，以第一CNN层211为例，第一 CNN层211包括三个CNN单元，分别为CNN单元211-1、CNN单元211-2 和CNN单元211-3，其中，CNN单元211-1的卷积层的卷积核的大小为1*1， CNN单元211-2的卷积层的卷积核的大小为3*3，CNN单元211-3的卷积层的卷积核的大小为5*5；第二CNN层212和第三CNN层213与第一CNN层211 的结构一致，不在赘述。

在提取语音信息特征时，首先可以对语音信息进行预处理，然后使预处理后的语音信息依次进入第一CNN层211、第二CNN层212和第三CNN层213。

语音信号是一种音频信号，音频信号可以但不限于通过智能终端收集用户说话时的声音信号。如以16000Hz采集智能终端的麦克的音频信号，得到音频信号的时间序列，以16000Hz、以16位表示一个采集点信号大小、单声道为例，音频信号为(2,4,100,120,140,60,-60,-130,…),每个点的间隔时间＝1/16000秒。

在适用多层CNN网络识别语音信号时，在得到语音信号后，语音信号是一种波的形式，最好将其转化为数字矩阵，然后将数字矩阵作为多层CNN网络的输入数据。对语音信息进行预处理依次包括但不限于分帧、加窗、梅尔频谱转换等，具体的，将所述语音信号进行分帧，得到多帧语音信号；为得到的各帧语音信号进行加窗处理，进一步的对加窗后的语音信号进行梅尔频谱变换，就得到了数字矩阵。

将时间序列按照一定的规律取出一组数据，这一组数据就叫做一帧数据，如每次取出512个数据，这叫做一帧数据，这个过程即为分帧，每次取出的数据的数量可根据计算量设置，通常为512或1024。具体在一帧数据中，取出的是音频信号的那些频点的数据，这与频点分辨率有关，如以频点分辨率为 16000，每次取出512个数据为例，由于16000/512＝31.25Hz，即在0-8000Hz 频域中，只能获得31.25*N的频点的信息，N＝1-256的整数。

加窗的过程可以简单描述如下：例如有一个函数，令A＝1，f＝1Hz很显然频率包括正负1Hz，假设以10Hz采样，采样后的信号频谱以10Hz为周期进行周期延拓。此时采样后的信号是在时域无限扩展的，频谱也是一样的。在时域中将采样后的信号与矩形窗相乘，相应的在频域中为信号频谱与矩形窗频谱卷积，得到连续周期的谱线。加窗以后就可以得到N点的采样信号，将其进行周期延拓，虚拟成离散周期的信号进行傅里叶变换，同样的得到离散周期的谱线，此时的变换称之为离散傅里叶变换。

在进行梅尔频谱变换之前，通常先进行傅里叶变换，具体的，对组成一帧音频信号中的各频点对应的幅值进行傅里叶变换，并根据时间的先后顺序组合，就组成了一帧音频信号的功率谱。即每一帧的功率谱可以使用一维数组来表示(a1,a2,a3,…,a256)，分别对应31.25Hz，62.5Hz，93.75Hz，…,8000Hz 的幅值。

傅里叶变换或离散傅里叶变换，将原始信号从时域(time domain)转换为频域(frequency domain)。这会生成每个帧的“功率谱(power spectra)”和“周期图(periodogram of power spectra)”(频率为X轴)。使用每个帧的DFT(离散傅里叶变换，discrete Fourier transform)，其中包含参数：N确定长加窗的取样点，例如，汉宁窗(Hanning window)，K是DFT的长度。

然后，将梅尔滤波器应用于功率谱，其指定数量为滤波器(通常为26-40)。每个滤波器都是一个代表特定能量水平的矢量(这相当于频率范围的某些部分为非零)。将每个滤波器与功率谱相乘，然后添加所有系数，可为每个滤波器产生滤波器能量。正数值与负数值表示光谱能量的浓度(在低或高频率内)。数学上：每个滤波器表示为带有K条目的矢量，其中K表示DFT的长度(输入频率的范围)。它是非零在总频率范围的特定部分，这代表了能量水平。主要参数包括：滤波器的X数(通常为26-40)，选择上限/下限频率，例如下限频率300Hz，上限频率8000Hz，这受音频取样频率的限制。

以所有X滤波器能量的对数为例，这会导致X对数滤波器能量。以X对数滤波器能量的DCT(离散余弦变换，discrete cosine transform)为例，这会导致X倒谱系数。由此产生的X倒谱系数是MFCC(梅尔频率倒谱系数,Mel Frequency Cepstrum Coefficients)，至此完成了对语音信号的预处理。

将预处理后的语音信号输入第一CNN层211中，进行语音信号的初级特征的提取。语音信号中，每一帧语音就对应一个特征向量，整体的语音信号对应一个矩阵。

处理后的语音信息进入第一CNN层211后，分别同时进入各CNN单元，即CNN单元211-1、CNN单元211-2和CNN单元211-3，每个CNN(卷积神经)网络主要由这几类层构成：输入层、卷积层，ReLU层、池化(Pooling) 层和全连接层，通过将这些层叠加起来，就可以构建一个完整的卷积神经单元，在实际应用中往往将卷积层与ReLU层共同称之为卷积层，所以卷积层经过卷积操作也是要经过激活函数的，具体说来，卷积层和全连接层(CONV/FC) 对输入执行变换操作的时候，不仅会用到激活函数，还会用到很多参数，即神经元的权值w和偏差b；而ReLU层和池化层则是进行一个固定不变的函数操作。卷积层和全连接层中的参数会随着梯度下降被训练，这样卷积神经网络计算出的分类评分就能和训练集中的每个样本的标签吻合了。

本申请中，语音信息在每个CNN单元中进行特征提取，由于各CNN单元卷积核大小是不同的，因此在提取特征的效果是不同的，且第一CNN层211 进行一个粗略特征的提取，也可以理解为初级特征提取，在语音信息从CNN 单元211-1、CNN单元211-2和CNN单元211-3输出后，将输出的向量进行拼接，得到高维的矩阵，如2056*2056，将这个矩阵记为第一初级特征矩阵，第一初级特征矩阵中包含了语音信息的初步提取出的特征信息。

在第一初级特征矩阵进入第二CNN层212之前，需要进行降维处理，将第一初级特征矩阵降低到指定维度，如1024*1024，降维的过程可以参考现有技术中的任意一种，如主成分分析PCA、多维缩放(MDS)、线性判别分析(LDA) 等方法，不再赘述。使得降维后的第一初级特征矩阵进入第二CNN层212，第二CNN层212与第一CNN层211的结构一致，也包括三个CNN单元，每个CNN单元的卷积层的卷积核的大小分别为1*1、3*3和5*5。第一初级特征矩阵在第二CNN层212的进行特征提取过程与语音信息在第一CNN层211中的过程一致，这里不再赘述。

同理，第一初级特征矩阵从第二CNN层212的各CNN单元输出得到三个向量，经过拼接得到第一中级特征向量，降维后进入第三CNN层213的各CNN 单元，输出的三个向量，经过拼接得到第一高级特征向量，将该第一高级特征向量记为语音信息的第一特征向量。也就是说，在语音特征提取网络中，设置多多层CNN网络，对语音信息中的特征进行从粗略到高精度的提取和浓缩，最大程度上保持了语音信息中的各种特征，包括但不限于语气、语调、情绪、语速、音幅、着重点等特征。

在本申请的一些实施例中，所述图像特征提取网络包括：依次连接的第四 CNN层、第五CNN层和第六CNN层；其中，所述第四CNN层、所述第五 CNN层和所述第六CNN层分别包括多个并列设置的CNN单元，其中，各CNN 单元的卷积层的卷积核大小不同；所述基于所述图像特征提取网络，确定所述图像信息的第三特征向量，包括：使图像信息分别进入所述第四CNN层的各 CNN单元中，以对所述图像信息进行特征提取，将各CNN单元的输出进行拼接，得到所述图像信息的第三初级特征向量；对所述第三初级特征向量进行降维处理，使降维后的初级特征向量进入所述第五CNN层的各CNN单元中，以对所述第三初级特征向量进行特征提取，将各CNN单元的输出进行拼接，得到所述语音信息的第三中级特征向量；对所述第三中级特征向量进行降维处理，使降维后的第三初级特征向量进入所述第六CNN层的各CNN单元中，以对所述第三中级特征向量进行特征提取，将各CNN单元的输出进行拼接，得到所述语音信息的第三高级特征向量，作为第三特征向量。

本申请中，图像特征提取网络的结构以及对图像信息进行特征提取的过程，完全同语音信息，这里不再赘述。需要说明的是，对于图像信息无需像语音信息那样进行预处理。

在本申请的一些实施例中，所述文本特征提取网络包括：依次连接的 Embedding层、第一全连接层、第二全连接层和第三全连接层；其中，所述第一全连接层、所述第二全连接层和所述第三全连接层的神经元的数量依次降低；所述基于所述文本特征提取网络，确定所述文本信息的第二特征向量，包括：对所述文本信息进行分词处理，使处理后的文本信息进入所述Embedding 层，以使所述文本信息转化为文本输入向量；使所述文本输入向量进入所述第一全连接层，以对所述文本输入向量进行特征提起，得到所述文本信息的第二初级特征向量；使所述第二初级特征向量进入所述第二全连接层，以对所述第二初级特征向量进行特征提起，得到所述文本信息的第二中级特征向量；使所述第二中级特征向量进入所述第三全连接层，以对所述第二中级特征向量进行特征提起，得到所述文本信息的第二高级特征向量，作为第二特征向量。

图4示出了根据本申请的一个实施例的文本特征提取网络220的结构示意图，从图4可以看出，文本特征提取网络220包括Embedding层221、第一全连接层222、第二全连接层223和第三全连接层224，其中，Embedding层221、第一全连接层222、第二全连接层223和第三全连接层224依次连接。第一全连接层222、第二全连接层223和第三全连接层224的神经元的数量依次降低，在一些实施例中，第一全连接层222、第二全连接层223和第三全连接层224 的神经元的数量依次为：768、256、2。设置多个全连接层的作用是为了将文本特征进行多次提取和浓缩，神经元数量越多，特征提取效果越好，但是伴随着计算量越大，本申请中，通过设置多层全连接层以及将多层全连接层的神经元数量依次降低，既能够最大程度上保留文本信息，又能够与性能消耗达到平衡。

因为文本信息是通过语音信息转化而来的，在对其进行特征提取之前可以进行去噪处理，如数据清洗等，数据清洗可以采用正则表达式，基于预设匹配规则，对所述训练语料进行匹配，以去除所述训练语料的非常规字符，更加具体清洗的方法可以为采用正则表达式，匹配规则为：[\u4e00-\u9fa5]，\un匹配 n，其中n是一个用四个十六进制数字表示的Unicode字符，而4e00-9fa5之间的Unicode编码表示的是20000多个中文字符，其中[\u4e00-\u9fa5]表示匹配汉字，[^\u4e00-\u9fa5]表示匹配除汉字以外的所有字符，经过这样的处理，可以去除一些无意义的特殊字符，比如“-”，“…”等等。

在对文本信息进行特征提取之前，需要对文本信息进行分词处理，如基于 jieba库的全模式或精准模式，对文本信息进行分词处理，分词是中文文本分析的重要内容，正确的分词可以有助于更好的构建模型、运用算法分析。在本申请中可以使用jieba库中的cut方法，cut方法分词有两种模式，一种为全模式，另一种为精准模式，相较于全模式，精准模式分词更加精准可靠，因此选用精准模式对文本分词。需要说明的是，精准模式和全模式的区别仅在于是否 cut_all，精准模式选择cut_all＝False；全模式选择cut_all＝True。

使分词后的文本信息进入文本特征提取网络220，使其依次经历 Embedding层221、第一全连接层222、第二全连接层223和第三全连接层224，得到第二特征向量。

将经过Embedding层221处理后的文本输入向量进入第一全连接层222，以对所述文本输入向量进行特征提起，得到文本信息的第二初级特征向量；使所述第二初级特征向量进入所述第二全连接层223，以对所述第二初级特征向量进行特征提起，得到所述文本信息的第二中级特征向量；使所述第二中级特征向量进入所述第三全连接层224，以对所述第二中级特征向量进行特征提起，得到所述文本信息的第二高级特征向量，作为第二特征向量。

其中，Embedding层221的作用是将分好词的文本内容转换成对应的词向量；各全连接层的作用分别是对这些词向量进行一定的非线性变换，从而进行特征提取，且同时转换成和语音特征提取网络、图像特征提取网络的输出更相融的向量。本申请对文本特征的提取没有使用常规的RNN(Recurrent Neural Network，循环神经网络)网络结构，而是使用全链接层，计算效率会更高一些。

第一全连接层222、第二全连接层223和第三全连接层224的作用是进行特征提起，经过多层的特征提取，能够保留文本特征中最重要的信息，而第一全连接层222、第二全连接层223和第三全连接层224的神经元的数量依次递减，能够减轻后续的计算量。

在本申请的一些实施例中，在上述方法中，所述融合所述第一特征向量、所述第二特征向量和所述第三特征向量，得到融合向量，包括：根据指定拼接形式，将所述第二特征向量中的各元素按照原始顺序放置到所述第一特征向量之后的相应位置上，并将所述第三特征向量中的各元素按照原始顺序放置到所述第二特征向量之后的相应位置上；若所述第一特征向量、所述第二特征向量和所述第三特征向量为异形矩阵，以元素数量最多的行向量和列向量为基准，将其余向量中缺失的元素设置为空。

举例来讲，假设第一特征向量、第二特征向量和第三特征向量为一维向量，假设第一特征向量为向量(a，b，c)，第二特征向量为向量(d，e)，第三特征向量为(f，g)；在拼接时，按照第二特征向量中各元素的原始顺序，将其 “摆放”到第一特征向量的最后一个元素之后，然后按照第三特征向量中各元素的原始顺序，将其“摆放”到第二特征向量的最后一个元素之后即可，将融合向量记为向量z，向量z为(a，b，c，d，e，f，g)。

若第一特征向量、第二特征向量和第三特征向量为矩阵形式，以其中两个为例，假设第一特征向量和第二特征向量为同形矩阵，假设第一特征向量和第二特征向量均为2*2的二维矩阵，分别表示为：

和

指定拼接形式为竖向拼接，在进行接时，按照第二特征向量中各元素的原始顺序，将其“摆放”到第一特征向量的最后一行之后即可，将融合向量记为向量z，向量z为一个2*4的矩阵，具体为：

若第一特征向量和第二特征向量为异形矩阵；则将缺失的元素设置为空即可。当向量为更多时，将第三特征向量按照上述方法“放置”在第二特征向量之后即可。

在本申请的一些实施例中，在上述方法中，所述全连接网络包括依次连接的第四全连接层、第五全连接层和第六全连接层；其中，所述第四全连接层、所述第五全连接层和所述第六全连接层的神经元的数量依次降低；所述基于所述全连接网络，根据所述融合向量，确定意图识别结果，包括：使得所述融合向量依次进入所述第四全连接层、所述第五全连接层和所述第六全连接层，以将所述融合向量表征的特征进行压缩，并确定出意图识别结果。

在本申请的一些实施例中，采用全连接层对融合向量进行识别处理，得到最终的意图识别结果，为了更加精确的进行意图的识别，在意图识别模型200 的全连接网络240中也设置了多层全连接层，图5示出了根据本申请的一个实施例的全连接网络240的结构示意图，从图5可以看出，全连接网络240包括依次连接的第四全连接层241、第五全连接层242和第六全连接层243，各全连接层的结构同现有技术，但第四全连接层241、第五全连接层242和第六全连接层243的神经元的数量依次降低，在本申请的一些实施例中，第四全连接层241、第五全连接层242和第六全连接层243的神经元的数量依次为768、 256、2。

融合向量是一个比较“大”的向量，其包含了文本、语音和图像的多重特征，全连接网络的作用是将这个“大”的融合向量进行特征提取识别和压缩，最终确定出待识别问题的标签，从而确定出意图识别结果。

本申请的一些实施例中，提供了能够实现前述意图识别任一方法的一种意图识别模型(请同时参考图2～图5)，所述意图识别模型包括语音特征提取网络、文本特征提取网络、图像特征提取网络以及全连接网络，其中，所述语音特征提取网络、所述文本特征提取网络和所述图像特征提取网络分别连接所述全连接网络；所述语音特征提取网络包括：依次连接的第一CNN层、第二CNN 层和第三CNN层；其中，所述第一CNN层、第二CNN层和第三CNN层分别包括多个并列设置的CNN单元，其中，各CNN单元的卷积层的卷积核大小不同；所述文本特征提取网络包括：依次连接的Embedding层、第一全连接层、第二全连接层和第三全连接层；其中，所述第一全连接层、所述第二全连接层和所述第三全连接层的神经元的数量依次降低；所述图像特征提取网络包括：依次连接的第四CNN层、第五CNN层和第六CNN层；其中，所述第四CNN 层、第五CNN层和第六CNN层分别包括多个并列设置的CNN单元，其中，各CNN单元的卷积层的卷积核大小不同；所述全连接网络包括：依次连接的第四全连接层、第五全连接层和第六全连接层，其中，所述第四全连接层、所述第五全连接层和所述第六全连接层的神经元的数量依次降低。

基于上述意图识别网络模型，实现前述的意图识别方法，流程可简述如下：

语音信息通过分帧、加窗、梅尔频谱变换处理后，进入语音特征提取网络，使处理后的语音信息依次经历第一CNN层、第二CNN层和第三CNN层，从第三CNN层输出，第一特征向量。

文本信息经过分词，进入文本特征提取网络，使文本信息在依次经历 Embedding层、第一全连接层、第二全连接层和第三全连接层；第三全连接层的输出作为第二特征向量。

图像信息进入图像特征提取网络，使其依次经历第四CNN层、第五CNN 层和第六CNN层，从第六CNN层输出第三特征向量。

将第一特征向量、第二特征向量和第三特征向量拼接起来，得到融合向量。

使得融合向量进入全连接网络240，使其依次经历第四全连接层、第五全连接层和第六全连接层，隐空间中推理出客户最终的意图。其中，隐空间可以理解为数学上的一个低维空间。

图6示出了根据本申请一个实施例的种意图识别装置的结构示意图，所述意图识别装置部署有意图识别模型，所述意图识别模型包括语音特征提取网络、文本特征提取网络、图像特征提取网络以及全连接网络，其中，所述语音特征提取网络、所述文本特征提取网络和所述图像特征提取网络分别连接所述全连接网络；所述装置600包括：

获取单元610，用于获取待识别问题的多种模拟态信息，其中，所述多种模拟态信息包括语音信息、文字信息和图像信息；

特征提取单元620，用于基于所述语音特征提取网络，确定所述语音信息的第一特征向量；基于所述文本特征提取网络，确定所述文本信息的第二特征向量；以及基于所述图像特征提取网络，确定所述图像信息的第三特征向量；

融合单元630，用于融合所述第一特征向量、所述第二特征向量和所述第三特征向量，得到融合向量；

识别单元640，用于基于所述全连接网络，根据所述融合向量，确定意图识别结果。

在本申请的一些实施例中，在上述装置中，所述语音特征提取网络包括：依次连接的第一CNN层、第二CNN层和第三CNN层；其中，所述第一CNN 层、第二CNN层和第三CNN层分别包括多个并列设置的CNN单元，其中，各CNN单元的卷积层的卷积核大小不同；特征提取单元620，用于对所述语音信息进行预处理；使预处理后的语音信息分别进入所述第一CNN层的各 CNN单元中，以对所述语音信息进行特征提取，将各CNN单元的输出进行拼接，得到所述语音信息的第一初级特征向量；对所述第一初级特征向量进行降维处理，使降维后的第一初级特征向量进入所述第二CNN层的各CNN单元中，以对所述第一初级特征向量进行特征提取，将各CNN单元的输出进行拼接，得到所述语音信息的第一中级特征向量；对所述第一中级特征向量进行降维处理，使降维后的第一中级特征向量进入所述第三CNN层的各CNN单元中，以对所述第一中级特征向量进行特征提取，将各CNN单元的输出进行拼接，得到所述语音信息的第一高级特征向量，作为第一特征向量。

在本申请的一些实施例中，在上述装置中，所述文本特征提取网络包括：依次连接的Embedding层、第一全连接层、第二全连接层和第三全连接层；其中，所述第一全连接层、所述第二全连接层和所述第三全连接层的神经元的数量依次降低；特征提取单元620，用于对所述文本信息进行分词处理，使处理后的文本信息进入所述Embedding层，以使所述文本信息转化为文本输入向量；使所述文本输入向量进入所述第一全连接层，以对所述文本输入向量进行特征提起，得到所述文本信息的第二初级特征向量；使所述第二初级特征向量进入所述第二全连接层，以对所述第二初级特征向量进行特征提起，得到所述文本信息的第二中级特征向量；使所述第二中级特征向量进入所述第三全连接层，以对所述第二中级特征向量进行特征提起，得到所述文本信息的第二高级特征向量，作为第二特征向量。

在本申请的一些实施例中，在上述装置中，所述图像特征提取网络包括：依次连接的第四CNN层、第五CNN层和第六CNN层；其中，所述第四CNN 层、所述第五CNN层和所述第六CNN层分别包括多个并列设置的CNN单元，其中，各CNN单元的卷积层的卷积核大小不同；特征提取单元620，用于使图像信息分别进入所述第四CNN层的各CNN单元中，以对所述图像信息进行特征提取，将各CNN单元的输出进行拼接，得到所述图像信息的第三初级特征向量；对所述第三初级特征向量进行降维处理，使降维后的初级特征向量进入所述第五CNN层的各CNN单元中，以对所述第三初级特征向量进行特征提取，将各CNN单元的输出进行拼接，得到所述语音信息的第三中级特征向量；对所述第三中级特征向量进行降维处理，使降维后的第三初级特征向量进入所述第六CNN层的各CNN单元中，以对所述第三中级特征向量进行特征提取，将各CNN单元的输出进行拼接，得到所述语音信息的第三高级特征向量，作为第三特征向量。

在本申请的一些实施例中，在上述装置中，融合单元630，用于根据指定拼接形式，将所述第二特征向量中的各元素按照原始顺序放置到所述第一特征向量之后的相应位置上，并将所述第三特征向量中的各元素按照原始顺序放置到所述第二特征向量之后的相应位置上；若所述第一特征向量、所述第二特征向量和所述第三特征向量为异形矩阵，以元素数量最多的行向量和列向量为基准，将其余向量中缺失的元素设置为空。

在本申请的一些实施例中，在上述装置中，所述全连接网络包括依次连接的第四全连接层、第五全连接层和第六全连接层；其中，所述第四全连接层、所述第五全连接层和所述第六全连接层的神经元的数量依次降低；识别单元 640，用于使得所述融合向量依次进入所述第四全连接层、所述第五全连接层和所述第六全连接层，以将所述融合向量表征的特征进行压缩，并确定出意图识别结果。

在本申请的一些实施例中，在上述装置中，获取单元610，用于获取所述待识别问题对应的目标视频流；确定目标视频流中的多个连续关键帧；将从所述连续关键帧中分离出的语音，作为语音信息；

将所述语音信息转化为文字信息；将连续关键帧中的至少一帧作为图像信息。

图7是本申请的一个实施例电子设备的结构示意图。请参考图7，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成意图识别装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

上述如本申请图6所示实施例揭示的意图识别装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor， NP)等；还可以是数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field －Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图6中意图识别装置执行的方法，并实现意图识别装置在图6所示实施例的功能，本申请实施例在此不再赘述。

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的电子设备执行时，能够使该电子设备执行图6所示实施例中意图识别装置执行的方法，并具体用于执行：

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种意图识别方法，其特征在于，所述意图识别方法是基于意图识别模型实现的，所述意图识别模型包括语音特征提取网络、文本特征提取网络、图像特征提取网络以及全连接网络，其中，所述语音特征提取网络、所述文本特征提取网络和所述图像特征提取网络分别连接所述全连接网络；

所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述语音特征提取网络包括：依次连接的第一CNN层、第二CNN层和第三CNN层；

其中，所述第一CNN层、第二CNN层和第三CNN层分别包括多个并列设置的CNN单元，其中，各CNN单元的卷积层的卷积核大小不同；

所述基于所述语音特征提取网络，确定所述语音信息的第一特征向量，包括：

对所述语音信息进行预处理；

使预处理后的语音信息分别进入所述第一CNN层的各CNN单元中，以对所述语音信息进行特征提取，将各CNN单元的输出进行拼接，得到所述语音信息的第一初级特征向量；

对所述第一初级特征向量进行降维处理，使降维后的第一初级特征向量进入所述第二CNN层的各CNN单元中，以对所述第一初级特征向量进行特征提取，将各CNN单元的输出进行拼接，得到所述语音信息的第一中级特征向量；

对所述第一中级特征向量进行降维处理，使降维后的第一中级特征向量进入所述第三CNN层的各CNN单元中，以对所述第一中级特征向量进行特征提取，将各CNN单元的输出进行拼接，得到所述语音信息的第一高级特征向量，作为第一特征向量。

3.根据权利要求1所述的方法，其特征在于，所述文本特征提取网络包括：依次连接的Embedding层、第一全连接层、第二全连接层和第三全连接层；其中，所述第一全连接层、所述第二全连接层和所述第三全连接层的神经元的数量依次降低；

所述基于所述文本特征提取网络，确定所述文本信息的第二特征向量，包括：

对所述文本信息进行分词处理，使处理后的文本信息进入所述Embedding层，以使所述文本信息转化为文本输入向量；

使所述文本输入向量进入所述第一全连接层，以对所述文本输入向量进行特征提起，得到所述文本信息的第二初级特征向量；

使所述第二初级特征向量进入所述第二全连接层，以对所述第二初级特征向量进行特征提起，得到所述文本信息的第二中级特征向量；

使所述第二中级特征向量进入所述第三全连接层，以对所述第二中级特征向量进行特征提起，得到所述文本信息的第二高级特征向量，作为第二特征向量。

4.根据权利要求1所述的方法，其特征在于，所述图像特征提取网络包括：依次连接的第四CNN层、第五CNN层和第六CNN层；

其中，所述第四CNN层、所述第五CNN层和所述第六CNN层分别包括多个并列设置的CNN单元，其中，各CNN单元的卷积层的卷积核大小不同；

所述基于所述图像特征提取网络，确定所述图像信息的第三特征向量，包括：

使图像信息分别进入所述第四CNN层的各CNN单元中，以对所述图像信息进行特征提取，将各CNN单元的输出进行拼接，得到所述图像信息的第三初级特征向量；

对所述第三初级特征向量进行降维处理，使降维后的初级特征向量进入所述第五CNN层的各CNN单元中，以对所述第三初级特征向量进行特征提取，将各CNN单元的输出进行拼接，得到所述语音信息的第三中级特征向量；

对所述第三中级特征向量进行降维处理，使降维后的第三初级特征向量进入所述第六CNN层的各CNN单元中，以对所述第三中级特征向量进行特征提取，将各CNN单元的输出进行拼接，得到所述语音信息的第三高级特征向量，作为第三特征向量。

5.根据权利要求1所述的方法，其特征在于，所述融合所述第一特征向量、所述第二特征向量和所述第三特征向量，得到融合向量，包括：

根据指定拼接形式，将所述第二特征向量中的各元素按照原始顺序放置到所述第一特征向量之后的相应位置上，并将所述第三特征向量中的各元素按照原始顺序放置到所述第二特征向量之后的相应位置上；

若所述第一特征向量、所述第二特征向量和所述第三特征向量为异形矩阵，以元素数量最多的行向量和列向量为基准，将其余向量中缺失的元素设置为空。

6.根据权利要求1所述的方法，其特征在于，所述全连接网络包括依次连接的第四全连接层、第五全连接层和第六全连接层；其中，所述第四全连接层、所述第五全连接层和所述第六全连接层的神经元的数量依次降低；

所述基于所述全连接网络，根据所述融合向量，确定意图识别结果，包括：

使得所述融合向量依次进入所述第四全连接层、所述第五全连接层和所述第六全连接层，以将所述融合向量表征的特征进行压缩，并确定出意图识别结果。

7.根据权利要求1～6中任一项所述的方法，其特征在于，所述获取待识别问题的多种模拟态信息，包括：

获取所述待识别问题对应的目标视频流；

确定目标视频流中的多个连续关键帧；

将从所述连续关键帧中分离出的语音，作为语音信息；

将所述语音信息转化为文字信息；

将连续关键帧中的至少一帧作为图像信息。

8.一种意图识别装置，其特征在于，所述意图识别装置部署有意图识别模型，所述意图识别模型包括语音特征提取网络、文本特征提取网络、图像特征提取网络以及全连接网络，其中，所述语音特征提取网络、所述文本特征提取网络和所述图像特征提取网络分别连接所述全连接网络；

所述装置包括：

9.一种意图识别模型，其特征在于，所述意图识别模型包括语音特征提取网络、文本特征提取网络、图像特征提取网络以及全连接网络，其中，所述语音特征提取网络、所述文本特征提取网络和所述图像特征提取网络分别连接所述全连接网络；

10.一种电子设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行所述权利要求1～7所述方法。