CN111681645B

CN111681645B - 情绪识别模型训练方法、情绪识别方法、装置及电子设备

Info

Publication number: CN111681645B
Application number: CN201910141010.XA
Authority: CN
Inventors: 何亚豪; 蒋栋蔚; 韩堃
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-02-25
Filing date: 2019-02-25
Publication date: 2023-03-31
Anticipated expiration: 2039-02-25
Also published as: CN111681645A

Abstract

本申请提供了一种情绪识别模型训练方法、情绪识别方法、装置及电子设备，其中，该方法包括：获取用户数据，所述用户数据包括语音数据；将每一条所述语音数据转化为文本数据；将每一条所述用户数据与所述用户数据包含的语音数据所转化的文本数据融合成一条训练特征，得到的所有用户数据对应的训练特征形成训练数据；将所述训练数据输入初始网络模型中进行训练，得到情绪识别模型。本申请实施例通过语音、以及语音转换的文本两类特征形成训练数据训练得到情绪识别模型，可以使情绪识别模型适应性更强，训练得到的模型的识别效果更好。

Description

情绪识别模型训练方法、情绪识别方法、装置及电子设备

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种情绪识别模型训练方法、情绪识别方法、装置及电子设备。

背景技术

网约服务的普及带来了生活上的方便，但是也伴随着一些用户情况的不确定性的问题。现有的技术中，通过多方用户的身份信息进行验证来实现对用户的认证，以对用户的情况的了解；但是身份信息并不能表现用户的状态。

发明内容

有鉴于此，本申请实施例的目的在于提供一种情绪识别模型训练方法、情绪识别方法、装置及电子设备，能够通过语音，语音转换的文本两类特征形成训练数据训练得到情绪识别模型，可以使情绪识别模型适应性更强，训练得到的模型的识别效果更好。

根据本申请的一个方面，提供一种电子设备，可以包括一个或多个存储介质和一个或多个与存储介质通信的处理器。一个或多个存储介质存储有处理器可执行的机器可读指令。当电子设备运行时，处理器与存储介质之间通过总线通信，处理器执行所述机器可读指令，以执行一个或多个以下操作：

获取用户数据，所述用户数据包括语音数据；

将每一条所述语音数据转化为文本数据；

将每一条所述用户数据与所述用户数据包含的语音数据所转化的文本数据融合成一条训练特征，得到的所有用户数据对应的训练特征形成训练数据；

将所述训练数据输入初始网络模型中进行训练，得到情绪识别模型。

本申请实施例提供的情绪识别模型训练方法，采语音、以及语音转换的文本两类特征形成训练数据训练得到情绪识别模型，与现有技术中的采用单一数据类型对模型进行训练相比，其可以使情绪识别模型适应性更强，训练得到的模型的识别效果更好。另外，通过训练得到的用户情绪识别模型可以实现对应用户状态的识别。

在一些实施例中，所述将每一条所述用户数据与所述用户数据包含的语音数据所转化的文本数据融合成一条训练特征，得到的所有用户数据对应的训练特征形成训练数据的步骤，包括：

将每一条文本数据进行特征提取得到文本特征；

将每一条语音数据进行特征提取得到语音特征；

将任一条语音特征与所述任一条语音特征对应的文本特征融合得到一条训练特征，得到的所有用户数据对应的训练特征形成训练数据。

在一些实施例中，所述将每一条文本数据进行特征提取得到文本特征的步骤，包括：

把所述文本数据映射到超平面空间，形成所述超平面空间中的一文本点；

将所述文本点在第一卷积网络上进行编码操作，得到第一中间特征；

将所述第一中间特征通过最大值池化处理提取重要特征，得到文本特征。

在一些实施例中，所述将所述文本点在第一卷积网络上进行编码操作，得到第一中间特征的步骤，包括：

将所述文本点在第一卷积网络进行处理得到，第一原始特征；

将所述第一原始特征通过注意力机制进行处理得到，第一注意特征；

将所述第一原始特征与所述第一注意特征进行加权处理得到第一中间特征。

在一些实施例中，所述将每一条语音数据进行特征提取得到语音特征的步骤，包括：

将语音数据通过第二卷积网络进行处理，得到第二中间特征；

将所述第二中间特征输入至长短期记忆模型网络，识别所述第二中间特征的上下文的依赖关系；

通过最大值池化处理提取第二中间特征种的重要特征得到语音特征。

在一些实施例中，所述将语音数据通过第二卷积网络进行处理，得到第二中间特征的步骤，包括：

将所述语音数据在第二卷积网络进行处理得到，第二原始特征；

将所述第二原始特征通过注意力机制进行处理得到，第二注意特征；

将所述第二原始特征与所述第二注意特征进行加权处理得到第二中间特征。

在一些实施例中，所述将任一条语音特征与所述任一条语音特征对应的文本特征融合得到一条训练特征的步骤，包括：

将任一条语音特征与所述任一条语音特征对应的文本特征拼接形成一条训练特征。

在一些实施例中，所述将任一条语音特征与所述任一条语音特征对应的文本特征拼接形成一条训练特征的步骤，包括：

将每一条文本特征与每一条语音特征补充设定数量的设定值，得到补充文本特征和补充语音特征；

将任一条补充文本特征和所述任一条补充文本特征对应的语音特征做外积，得到训练特征。

在一些实施例中，所述用户数据还包括图像数据，所述将每一条所述用户数据与所述用户数据包含的语音数据所转化的文本数据融合成一条训练特征，得到的所有用户数据对应的训练特征形成训练数据的步骤，包括：

将任一图像数据、与所述任一图像数据对应的语音数据、以及语音数据所转化的文本数据融合形成一条训练特征，得到的所有用户数据对应的训练特征形成训练数据。

本实施例中的方法，通过在训练数据中增加图像数据，增加模型训练数据的类型，可以训练出各类数据之前的关系，提高训练得到的模型的适应性，从而可以使训练出来的情绪识别模型的识别成功率更高。

将所述图像数据进行特征提取，得到图像特征；

将任一条文本特征与所述任一条文本特征对应的语音特征和图像特征进行融合得到一条训练特征，得到的所有用户数据对应的训练特征形成训练数据。

在一些实施例中，所述将所述图像数据进行特征提取，得到图像特征的步骤，包括：

将图像数据通过第三卷积网络进行处理得到第三中间特征；

将所述第三中间特征输入至长短期记忆模型网络，识别所述第三中间特征中的上下文的依赖关系；

通过最大值池化处理提取所述第三中间特征种的重要特征得到语音特征。

在一些实施例中，所述将图像数据通过第三卷积网络进行处理得到第三中间特征的步骤，包括：

将所述图像数据在第三卷积网络进行处理得到，第三原始特征；

将所述第三原始特征通过注意力机制进行处理得到，第三注意特征；

将所述第三原始特征与所述第三注意特征进行加权处理得到第三中间特征。

在一些实施例中，所述将所述训练数据输入初始网络模型中进行训练，得到情绪识别模型的步骤，包括：

将所述训练数据输入最新的训练模型中进行计算，得到初始计算结果；

将所述初始计算结果与所述训练数据对应的标注结果进行计算，计算得到当前模型的当前误差；

若当前误差大于设定值，通过设定计算方式调整所述初始网络模型中的参数，更新的训练模型；

若所述当前误差小于设定值，并将当前误差小于设定值对应的训练模型作为情绪识别模型。

在一些实施例中，所述将所述初始计算结果与所述训练数据对应的标注结果进行计算，计算得到当前模型的当前误差的步骤，包括：通过施加惩罚项的方式将所述初始计算结果与所述训练数据对应的标注结果进行计算，计算得到当前模型的当前误差；或者，

所述将所述训练数据输入最新的训练模型中进行计算，得到初始计算结果的步骤包括：通过施加惩罚项的方式将所述训练数据输入最新的训练模型中进行计算，得到初始计算结果。

本实施例中的方法，通过在训练过程中使用施加惩罚项的方式可以提高模型的泛化能力。

在另一方面，本申请实施例还提供一种情绪识别方法，包括：

获取目标用户的当前用户数据；

将所述当前用户数据输入上述的情绪识别模型中进行识别，得到所述目标用户的当前状态。

在一些实施例中，所述方法还包括：

若所当前状态表征所述目标用户为不安全状态，则生成提示消息，并将所述提示消息发送给目标用户终端或关联的平台。

在另一方面，本申请实施例还提供一种情绪识别模型训练装置，包括：

第一获取模块，用于获取用户数据，所述用户数据包括语音数据；

转化模块，用于将每一条所述语音数据转化为文本数据；

融合模块，用于将每一条所述用户数据与所述用户数据包含的语音数据所转化的文本数据融合成一条训练特征，得到的所有用户数据对应的训练特征形成训练数据；

训练模块，用于将所述训练数据输入初始网络模型中进行训练，得到情绪识别模型。

在一些实施例中，所述融合模块，还用于：

将每一条文本数据进行特征提取得到文本特征；

将每一条语音数据进行特征提取得到语音特征；

在一些实施例中，所述融合模块，还用于：

在一些实施例中，所述用户数据还包括图像数据，所述融合模块，还用于：

在一些实施例中，所述融合模块，还用于：

将所述图像数据进行特征提取，得到图像特征；

在一些实施例中，所述融合模块，还用于：

将图像数据通过第三卷积网络进行处理得到第三中间特征；

在一些实施例中，所述融合模块，还用于：

在一些实施例中，所述训练模块，还用于：

通过施加惩罚项的方式将所述初始计算结果与所述训练数据对应的标注结果进行计算，计算得到当前模型的当前误差；或者，

通过施加惩罚项的方式将所述训练数据输入最新的训练模型中进行计算，得到初始计算结果。

在另一方面，本申请实施例还提供一种情绪识别装置，包括：

第二获取模块，用于获取目标用户的当前用户数据；

识别模块，用于将所述当前用户数据输入上述的情绪识别模型中进行识别，得到所述目标用户的当前状态。

在一些实施例中，所述装置还包括：

提示模块，用于若所当前状态表征所述目标用户为不安全状态，则生成提示消息，并将所述提示消息发送给目标用户终端或关联的平台。

在另一方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述的实施方式中情绪识别模型训练方法的步骤。

在另一方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述的实施方式中情绪识别方法的步骤。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种电子设备的结构示意图；

图2示出了本申请实施例所提供的一种情绪识别模型训练方法的流程图；

图3示出了本申请实施例提供的一实例中的训练模型的示意图；

图4示出了本申请实施例所提供的一种情绪识别方法的流程图；

图5示出了本申请实施例所提供的一种情绪识别模型训练装置的结构示意图；

图6示出了本申请实施例所提供的一种情绪识别装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，网约服务成为我们生活中的重要部分，但是由于网约服务中对服务方与被服务方有一些不确定性。因此，网约服务可能存在一些安全的问题。例如，在网约车服务中，司机和乘客会处在一个小空间中，司机和乘客双方会存在一些未知的动作或者情绪，未知的动作或者情绪可能可以表示用户的当前的状态。但是现有技术中，并没有对网约服务过程中的服务方与被服务方的状态的识别。

基于此，发明人对网约服务中对服务方与被服务方双方用户的监控进行了研究，提出了可以通过对用户双方的产生的语音消息进行监控，通过对语音消息的识别来实现对用户的状态的监控。但是，语音消息是单一的，可能不能很好地表现出用户的状态。基于此，发明人进行了进一步地研究，可以对语音消息转化成文本消息，从而对多种模态的数据进行识别，从而提高对用户的状态的识别的准确性。

对于上述发明人的研究成果，下面通过多个实施例进行详细地描述。

为了使得本领域技术人员能够使用本申请内容，结合特定应用场景“网约车服务”，给出以下实施方式。对于本领域技术人员来说，在不脱离本申请的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕网约车服务进行描述，但是应该理解，这仅是一个示例性实施例。本申请可以应用于任何其他交通运输类型。例如，本申请可以应用于不同的运输***环境，包括陆地，海洋，或航空等，或其任意组合。运输***的交通工具可以包括出租车、私家车、顺风车、公共汽车、火车、子弹头列车、高速铁路、地铁、船只、飞机、宇宙飞船、热气球、或无人驾驶车辆等，或其任意组合。本申请还可以包括用于存在网约服务或双方服务的任何服务***，例如，用于发送和/或接收快递的***、用于买卖双方交易的服务***。本申请的***或方法的应用可以包括网页、浏览器的插件、客户端终端、定制***、内部分析***、或人工智能机器人等，或其任意组合。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

值得注意的是，在本申请提出申请之前，仅对司机或乘客进行身份验证等操作，以实现对服务提供方和服务请求方的了解。然而，本申请提供的情绪识别模型训练方法、情绪识别方法及装置可以对用户的情绪实现识别或者提供识别用户情绪的模型。

实施例一

图1示出根据本申请的一些实施例为电子设备100的示例性硬件和软件组件的示意图。例如，电子设备的处理器上，用于执行本申请中的功能。

电子设备100可以是通用计算机或特殊用途的计算机，两者都可以用于实现本申请的情绪识别模型训练方法或情绪识别方法。本申请尽管仅示出了一个计算机，但是为了方便起见，可以在多个类似平台上以分布式方式实现本申请描述的功能，以均衡处理负载。

例如，电子设备100可以包括连接到网络的网络端口110、用于执行程序指令的一个或多个处理器120、通信总线130、和不同形式的存储介质140，例如，磁盘、ROM、或RAM，或其任意组合。示例性地，计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备100还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output，I/O)接口150。

为了便于说明，在电子设备100中仅描述了一个处理器。然而，应当注意，本申请中的电子设备100还可以包括多个处理器，因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如，若电子设备100的处理器执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一处理器和第二处理器共同执行步骤A和B。

实施例二

本实施例提供一种情绪识别模型训练方法。本实施例中的方法可以由一电子设备执行。图2示出了本申请一个实施例中的情绪识别模型训练方法的流程图。下面对图2所示的情绪识别模型训练方法的流程进行详细描述。

步骤S201，获取用户数据。

用户数据可以包括语音数据。上述的用户数据可以是在设定应用环境中产生的历史数据；也可以是按照设定规则产生的用户数据。

在一个实例中，上述的用户数据可以是网约车服务过程中产生的数据。在网约车服务场景中，用户数据可以是由司机产生的数据，例如，司机说话的声音；用户数据还可以是由乘客产生的数据；用户数据还可以是司机和乘客产生的对话数据。

在另一个实例中，上述的用户数据可以是外卖服务过程中产生的数据。

步骤S202，将每一条所述语音数据转化为文本数据。

步骤S203，将每一条所述用户数据与所述用户数据包含的语音数据所转化的文本数据融合成一条训练特征，得到的所有用户数据对应的训练特征形成训练数据。

在一种实施方式中，若用户数据中包括语音数据，则将每一条语音数据与该语音数据转化的文本数据合成一条训练特征，则有多少条语音数据则可以形成多少条训练特征。上述的训练数据的数量可以与语音数据的数量相同。

在一些实施例中，所述步骤S203可以包括：

步骤S2031，将每一条文本数据进行特征提取得到文本特征。

在一些实施例中，步骤S2031可以包括：把所述文本数据映射到超平面空间，形成所述超平面空间中的一文本点；将所述文本点在第一卷积网络上进行编码操作，得到第一中间特征；将所述第一中间特征通过最大值池化处理提取重要特征，得到文本特征。

具体在一个实例中，请参阅图3所示在进行情绪识别模型训练方法过程中所使用的网络模型示意图，关于步骤S2301的实现可以参考TEXT的处理路径的示意；步骤S2031的实现过程中可以是：先将文本数据输入经过EMBEDDING层的处理把所述文本数据映射到超平面空间，形成所述超平面空间中的一文本点；再经过CONV层进行编码操作，得到第一中间特征；最后，通过MAX POOLING(最大池化)层的最大值池化提取重要特征，得到文本特征。

其中，MAX POOLING，即对邻域内特征点取最大。可以减少卷积层参数误差造成估计均值的偏移带来的误差，更多地保留纹理信息。

上述的超平面空间一维小于其环境空间的子空间。在一种可选的实施方式中，上述的超平面空间可以选择高维稠密的超平面空间。

在执行将所述文本点在第一卷积网络进行处理得到，第一原始特征可以包括：将一文本点输入两层卷积网络进行处理，然后将处理结果输入上述的时序网络中进行处理，得到上述的第一中间特征。

上述的时序网络可以是LSTM(long-short term memory，中文称：长短期记忆模型)网络。

基于上述的步骤S2031的实现方式可以进行进一步的研究，在编码操作之后还可以增设注意力(Attention)机制，通过注意力机制可以根据一原始特征得到一个新的特征，通过将原始特征和新的特征进行加权处理，可以使加权处理得到的特征更好地表征特征需要表达的内容。

上述的将所述文本点在第一卷积网络上进行编码操作，得到第一中间特征可以包括：将所述文本点在第一卷积网络进行处理得到，第一原始特征；将所述第一原始特征通过注意力机制进行处理得到，第一注意特征；将所述第一原始特征与所述第一注意特征进行加权处理得到第一中间特征。

将第一原始特征和第一注意特征进行加权求和可以得到第一中间特征。其中，第一原始特征的权重与第一注意特征的权重可以分别设置成0.7和0.3；当然也可以设置成0.8和0.2；还可以设置成0.6和0.4。具体的权重可以是根据具体的需求进行设置。

步骤S2032，将每一条语音数据进行特征提取得到语音特征。

在一些实施例中，步骤S2032可以包括：将语音数据通过第二卷积网络进行处理，得到第二中间特征；将所述第二中间特征输入至长短期记忆模型网络，识别所述第二中间特征的上下文的依赖关系；通过最大值池化处理提取第二中间特征种的重要特征得到语音特征。

在一个实例中，可以根据语音数据提取出fbank特征。

基于上述的步骤S2032的实现方式可以进行进一步的研究，在编码操作之后还可以增设注意力(Attention)机制，通过注意力机制可以根据一原始特征得到一个新的特征，通过将原始特征和新的特征进行加权处理，可以使加权处理得到的特征更好地表征特征需要表达的内容。

具体在一个实例中，可以参考图3所示的AUDIO的处理路径的示意，步骤S2032可以实现为：语音数据先输入第二卷积网络，也就是图示3中的CONV层进行处理，得到一第二中间特征；将上述的第二中间特征可以输入一LSTM层进行识别，从而识别所述第二中间特征的上下文的依赖关系，然后进一步地输入MAX POOLING层处理，可以得到能够表达一条语音数据中的特征的语音特征。

在一些实施例中，上述的将语音数据通过第二卷积网络进行处理，得到第二中间特征可以包括：将所述语音数据在第二卷积网络进行处理得到，第二原始特征；将所述第二原始特征通过注意力机制进行处理得到，第二注意特征；将所述第二原始特征与所述第二注意特征进行加权处理得到第二中间特征。

将第二原始特征和第二注意特征进行加权求和可以得到第二中间特征。其中，第二原始特征的权重与第二注意特征的权重可以分别设置成0.7和0.3；当然也可以设置成0.8和0.2；还可以设置成0.6和0.4。具体的权重可以是根据具体的需求进行设置。

步骤S2033，将任一条语音特征与所述任一条语音特征对应的文本特征融合得到一条训练特征，得到的所有用户数据对应的训练特征形成训练数据。

步骤S2033可以包括：将任一条语音特征与所述任一条语音特征对应的文本特征拼接形成一条训练特征。

在一种实施方式中，上述的将任一条语音特征与所述任一条语音特征对应的文本特征拼接形成一条训练特征可以包括：将每一条文本特征与每一条语音特征补充设定数量的设定值，得到补充文本特征和补充语音特征；将任一条补充文本特征和所述任一条补充文本特征对应的语音特征做外积，得到训练特征。

上述的设定数量可以是1、2等需要的数量。上述的设定数量还可以是两个特征之前的差值，例如，语音特征比文本特征长度长3，则文本特征对应的设定数量可以是3，语音特征对应的设定数量可以是0。

上述的设定值可以是二进制数1。

在一个实例中，可以将语音特征和任一条语音特征对应的文本特征(例如，10x1的向量)做外积，在每个特征向量上都补上“1”后，相乘得到11x11矩阵。

在另一种实施方式中，上述的将任一条语音特征与所述任一条语音特征对应的文本特征拼接形成一条训练特征可以包括：可以将任一条语音特征与所述任一条语音特征对应的文本特征直接合并成一条训练特征。

通过将特征的拼接可以提升训练出的情绪识别模型的预测效果。

上述的用户数据还可以包括图像数据，步骤S203可以包括：将任一图像数据、与所述任一图像数据对应的语音数据、以及语音数据所转化的文本数据融合形成一条训练特征，得到的所有用户数据对应的训练特征形成训练数据。

具体地，融合成一条训练特征可以是将一条语音数据及语音数据转化的文本数据进行融合，也就是说，融合得到的训练特征还是同一语音的相关数据的融合。

通过在训练数据中增加图像数据，增加模型训练数据的类型，可以训练出各类数据之前的关系，提高训练得到的模型的适应性，从而可以使训练出来的情绪识别模型的识别成功率更高。

上述的用户数据还可以包括图像数据，步骤S203可以包括：将所述图像数据进行特征提取，得到图像特征；将任一条文本特征与所述任一条文本特征对应的语音特征和图像特征进行融合得到一条训练特征，得到的所有用户数据对应的训练特征形成训练数据。

上述的将所述图像数据进行特征提取，得到图像特征的步骤，包括：将图像数据通过第三卷积网络进行处理得到第三中间特征；将所述第三中间特征输入至长短期记忆模型网络，识别所述第三中间特征中的上下文的依赖关系；通过最大值池化处理提取所述第三中间特征种的重要特征得到语音特征。

具体在一个实例中，可以参考图3所示的IMAGE处理路径中的示意，上述的将所述图像数据进行特征提取，得到图像特征可以实现为：图像数据先输入第三卷积网络，也就是图示3中的CONV层进行处理，得到一第三中间特征；将上述的第二中间特征可以输入一LSTM层进行识别，从而识别所述第三中间特征的上下文的依赖关系，然后进一步地输入MAXPOOLING层处理，可以得到能够表达一条语音数据中的特征的语音特征。

基于上述的将所述图像数据进行特征提取，得到图像特征的实现方式可以进行进一步的研究，在编码操作之后还可以增设注意力(Attention)机制，通过注意力机制可以根据一原始特征得到一个新的特征，通过将原始特征和新的特征进行加权处理，可以使加权处理得到的特征更好地表征特征需要表达的内容。

在一些实施例中，所述将图像数据通过第三卷积网络进行处理得到第三中间特征的步骤，包括：将所述图像数据在第三卷积网络进行处理得到，第三原始特征；将所述第三原始特征通过注意力机制进行处理得到，第三注意特征；将所述第三原始特征与所述第三注意特征进行加权处理得到第三中间特征。

将第三原始特征和第三注意特征进行加权求和可以得到第三中间特征。其中，第三原始特征的权重与第三注意特征的权重可以分别设置成0.7和0.3；当然也可以设置成0.8和0.2；还可以设置成0.6和0.4。具体的权重可以是根据具体的需求进行设置。

通过注意力机制的加入，可以使训练处理的模型可以更加的准确。

将图像数据、语音数据及文本数据进行也特征提取后可以使用图3所示的FUSION层进行融合，可以得到包括图像数据、语音数据及文本数据各个所携带的特征的训练特征。

步骤S204，将所述训练数据输入初始网络模型中进行训练，得到情绪识别模型。

上述的初始网络模型可以是多层前馈神经网络(multilayer feedforwardneural network)。

上述的步骤S204可以包括：将所述训练数据输入最新的训练模型中进行计算，得到初始计算结果；将所述初始计算结果与所述训练数据对应的标注结果进行计算，计算得到当前模型的当前误差；若当前误差大于设定值，通过设定计算方式调整所述初始网络模型中的参数，更新的训练模型；若所述当前误差小于设定值，并将当前误差小于设定值对应的训练模型作为情绪识别模型。

当初始网络模型的模型太大，可能会带来一些风险。基于此，还可以在训练模型过程中增加一些惩罚项，从而提高模型训练的效果。

在一种实施方式中，可以通过在损失函数中增加正则项；或者，在上述的初始网络模型设置成带有惩罚权重的惩罚函数。

在一些实施例中，上述的将所述初始计算结果与所述训练数据对应的标注结果进行计算，计算得到当前模型的当前误差可以包括：通过施加惩罚项的方式将所述初始计算结果与所述训练数据对应的标注结果进行计算，计算得到当前模型的当前误差。

在一个实例中，将损失函数可以描述为：

上述C₀表示经验风险，后半部分的

称为结构风险；λ表示一个常数；n表示一训练模型中的训练单元的数量。经验风险就是指由于拟合结果和样本标签之间的残差总和所产生的经验性差距所带来的风险，是欠拟合的风险；结构风险就是模型不够简洁带来的风险。

结构风险就是把整个模型中的所有权重w的绝对值加起来除以样本数量，权重w表示一个惩罚的权重，可以称为正则化系数或者惩罚系数，表示对惩罚的重视程度。如果很重视结构风险，即不希望结构风险太大，可以使整个损失函数向着权值w减小的方向移动，换句话说，w的值越多、越大，整个因子的值就越大，也就是模型越不简洁。上述的损失函数提供的损失函数中的结构风险的正则化因子叫做L1正则化项。

在另一个实例中，上述的结构风险也可以使用带有L2正则化项，损失函数则可以表示为：

在另一个实施方式中，上述的将所述训练数据输入最新的训练模型中进行计算，得到初始计算结果可以包括：通过施加惩罚项的方式将所述训练数据输入最新的训练模型中进行计算，得到初始计算结果。

具体地，通过施加惩罚项的方式可以在每次训练过程中可以随机忽略模型中的部分函数的训练，可以降低每次训练的训练量，可以提高模型的泛化能力。

在一个实例中，请参阅图3所示，在训练过程中，将经过融合后的训练特征输入DENSE层进行计算，在经过分类层SOFTMAX实现分类得到训练的输出结果。

本申请实施例提供的情绪识别模型训练方法，采语音、以及语音转换的文本两类特征形成训练数据训练得到情绪识别模型，与现有技术中的采用单一数据类型对模型进行训练相比，其可以使情绪识别模型适应性更强，训练得到的模型的识别效果更好。另外，用户情绪识别模型可以实现对应用户状态的识别。

实施例三

本实施例提供一种情绪识别方法。本实施例中的方法可以由一电子设备执行。本实施例中的情绪识别方法可以由执行实施例二中的情绪识别模型训练方法的电子设备不同的设备执行；也可以由执行实施例二中的情绪识别模型训练方法的电子设备相同的设备执行。图4示出了本申请一个实施例中的情绪识别方法的流程图。下面对图4所示的情绪识别模型训练方法的流程进行详细描述。

步骤S301，获取目标用户的当前用户数据。

本实施例中的方法可以应用于用户终端。上述的步骤S301可以被实施为：通过用户终端的图像采集装置获取用户的图片或者视频；还可以通过语音采集装置采集用户的语音数据。

在一个应用场景中，本实施例中的情绪识别方法可以用于网约车服务中，上述的步骤S301可以被实施为：通过与用户终端连接的车内摄像头采集到是视频数据、图像数据等。

用户终端中也可以安装有一目标应用程序，该目标应用程序中可以设置有采集模块，用于采集用户数据。

本实施例中的方法也可以应用于与用户终端通信连接的服务器。服务器获取用户终端采集到的用户数据。

步骤S302，将所述当前用户数据输入上述的情绪识别模型中进行识别，得到所述目标用户的当前状态。

通过上述的情绪识别模型可以识别出用户数据匹配的状态是否是安全的概率。

可选地，若输出的概率大于设定值，则得到目标用户的当前状态为不安全状态；若输出的概率值小于设定值，则得到目标用户的当前状态为安全状态。

在一些实施例中，所述方法还包括：若所当前状态表征所述目标用户为不安全状态，则生成提示消息，并将所述提示消息发送给目标用户终端或关联的平台。

上述的提示消息可以包括，但不限于，目标用户的当前位置、当前状态、采集到的目标用户的当前图像、提示语音等。

若输出结果为“安全状态”，则表示目标用户处于安全状态，可以不进行其它处理。若输出结果为“不安全状态”，则表示目标用户可能存在一些安全隐患，可以采取一些提示措施。

在一种实施方式中，上述的情绪识别方法用于用户终端的话，则可以对在用户终端中输出提示消息中的提示语音。

在另一中实施方式中，上述的用户终端中可以安装有一目标应用程序，则还可以将上述的提示消息发送给提供上述的目标应用程序的各个服务模块的后台服务器中，从而进一步地提交给相关管理人员的终端中。

还有一种实施方式中，还可以将上述提示消息可以发送给警方账号中，实现直接向警方报警。

通过多种方式实现对不安全的状态进行有效提醒，可以提高目标用户的安全。

实施例四

基于同一申请构思，本申请实施例中还提供了与情绪识别模型训练方法对应的情绪识别模型训练装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述情绪识别模型训练方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

图5是示出本申请的一些实施例的情绪识别模型训练装置的框图，该情绪识别模型训练装置实现的功能对应上述方法执行的步骤。该装置可以理解为上述服务器，或服务器的处理器，也可以理解为独立于上述服务器或处理器之外的在服务器控制下实现本申请功能的组件，如图所示，情绪识别模型训练装置可以包括：第一获取模块401、转化模块402、融合模块403、以及训练模块404，其中，

第一获取模块401，用于获取用户数据，所述用户数据包括语音数据；

转化模块402，用于将每一条所述语音数据转化为文本数据；

融合模块403，用于将每一条所述用户数据与所述用户数据包含的语音数据所转化的文本数据融合成一条训练特征，得到的所有用户数据对应的训练特征形成训练数据；

训练模块404，用于将所述训练数据输入初始网络模型中进行训练，得到情绪识别模型。

在一些实施例中，所述融合模块403，还用于：

将每一条文本数据进行特征提取得到文本特征；

将每一条语音数据进行特征提取得到语音特征；

在一些实施例中，所述融合模块403，还用于：

在一些实施例中，所述用户数据还包括图像数据，所述融合模块403，还用于：

在一些实施例中，所述融合模块403，还用于：

将所述图像数据进行特征提取，得到图像特征；

在一些实施例中，所述融合模块403，还用于：

将图像数据通过第三卷积网络进行处理得到第三中间特征；

在一些实施例中，所述融合模块403，还用于：

在一些实施例中，所述训练模块404，还用于：

上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等，或其任意组合。无线连接可以包括通过LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接，或其任意组合。两个或更多个模块可以组合为单个模块，并且任何一个模块可以分成两个或更多个单元。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

实施例五

基于同一申请构思，本申请实施例中还提供了与情绪识别方法对应的情绪识别装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述情绪识别方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

图6是示出本申请的一些实施例的情绪识别装置的框图，该情绪识别装置实现的功能对应上述方法执行的步骤。该装置可以理解为上述服务器，或服务器的处理器，也可以理解为独立于上述服务器或处理器之外的在服务器控制下实现本申请功能的组件，如图6所示，情绪识别装置可以包括：第二获取模块501，以及识别模块502，其中，

第二获取模块501，用于获取目标用户的当前用户数据；

识别模块502，用于将所述当前用户数据输入上述的情绪识别模型中进行识别，得到所述目标用户的当前状态。

在一些实施例中，情绪识别装置还包括：

提示模块503，用于若所当前状态表征所述目标用户为不安全状态，则生成提示消息，并将所述提示消息发送给目标用户终端或关联的平台。

此外，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的情绪识别模型训练方法的步骤。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的情绪识别方法的步骤。

本申请实施例所提供的情绪识别模型训练方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的情绪识别模型训练方法的步骤，具体可参见上述方法实施例，在此不再赘述。

本申请实施例所提供的情绪识别方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的情绪识别方法的步骤，具体可参见上述方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种情绪识别模型训练方法，其特征在于，包括：

获取用户数据，所述用户数据包括语音数据；

将每一条所述语音数据转化为文本数据；

将所述训练数据输入初始网络模型中进行训练，得到情绪识别模型；

其中，所述将每一条所述用户数据与所述用户数据包含的语音数据所转化的文本数据融合成一条训练特征，得到的所有用户数据对应的训练特征形成训练数据的步骤，包括：将每一条文本数据进行特征提取得到文本特征；将每一条语音数据进行特征提取得到语音特征；将任一条语音特征与所述任一条语音特征对应的文本特征融合得到一条训练特征，得到的所有用户数据对应的训练特征形成训练数据；

所述将每一条语音数据进行特征提取得到语音特征的步骤，包括：将语音数据通过第二卷积网络进行处理，得到第二中间特征；将所述第二中间特征输入至长短期记忆模型网络，识别所述第二中间特征的上下文的依赖关系；通过最大值池化处理提取第二中间特征中的重要特征得到语音特征。

2.如权利要求1所述的方法，其特征在于，所述将每一条文本数据进行特征提取得到文本特征的步骤，包括：

3.如权利要求2所述的方法，其特征在于，所述将所述文本点在第一卷积网络上进行编码操作，得到第一中间特征的步骤，包括：

4.如权利要求1所述的方法，其特征在于，所述将语音数据通过第二卷积网络进行处理，得到第二中间特征的步骤，包括：

5.如权利要求1所述的方法，其特征在于，所述将任一条语音特征与所述任一条语音特征对应的文本特征融合得到一条训练特征的步骤，包括：

6.如权利要求5所述的方法，其特征在于，所述将任一条语音特征与所述任一条语音特征对应的文本特征拼接形成一条训练特征的步骤，包括：

7.如权利要求1所述的方法，其特征在于，所述用户数据还包括图像数据，所述将每一条所述用户数据与所述用户数据包含的语音数据所转化的文本数据融合成一条训练特征，得到的所有用户数据对应的训练特征形成训练数据的步骤，包括：

8.如权利要求7所述的方法，其特征在于，所述将每一条所述用户数据与所述用户数据包含的语音数据所转化的文本数据融合成一条训练特征，得到的所有用户数据对应的训练特征形成训练数据的步骤，包括：

将所述图像数据进行特征提取，得到图像特征；

9.如权利要求8所述的方法，其特征在于，所述将所述图像数据进行特征提取，得到图像特征的步骤，包括：

将图像数据通过第三卷积网络进行处理得到第三中间特征；

通过最大值池化处理提取所述第三中间特征中的重要特征得到语音特征。

10.如权利要求9所述的方法，其特征在于，所述将图像数据通过第三卷积网络进行处理得到第三中间特征的步骤，包括：

11.如权利要求1所述的方法，其特征在于，所述将所述训练数据输入初始网络模型中进行训练，得到情绪识别模型的步骤，包括：

12.如权利要求11所述的方法，其特征在于，所述将所述初始计算结果与所述训练数据对应的标注结果进行计算，计算得到当前模型的当前误差的步骤，包括：通过施加惩罚项的方式将所述初始计算结果与所述训练数据对应的标注结果进行计算，计算得到当前模型的当前误差；或者，

13.一种情绪识别方法，其特征在于，包括：

获取目标用户的当前用户数据；

将所述当前用户数据输入权利要求1-12任意一项所述的情绪识别模型中进行识别，得到所述目标用户的当前状态。

14.如权利要求13所述的方法，其特征在于，所述方法还包括：

15.一种情绪识别模型训练装置，其特征在于，包括：

转化模块，用于将每一条所述语音数据转化为文本数据；

训练模块，用于将所述训练数据输入初始网络模型中进行训练，得到情绪识别模型；

其中，所述融合模块，还用于：将每一条文本数据进行特征提取得到文本特征；将每一条语音数据进行特征提取得到语音特征；将任一条语音特征与所述任一条语音特征对应的文本特征融合得到一条训练特征，得到的所有用户数据对应的训练特征形成训练数据；

所述融合模块，还用于将语音数据通过第二卷积网络进行处理，得到第二中间特征；将所述第二中间特征输入至长短期记忆模型网络，识别所述第二中间特征的上下文的依赖关系；通过最大值池化处理提取第二中间特征中的重要特征得到语音特征。

16.如权利要求15所述的装置，其特征在于，所述融合模块，还用于：

17.如权利要求16所述的装置，其特征在于，所述融合模块，还用于：

18.如权利要求17所述的装置，其特征在于，所述融合模块，还用于：

19.如权利要求15所述的装置，其特征在于，所述融合模块，还用于：

20.如权利要求19所述的装置，其特征在于，所述融合模块，还用于：

21.如权利要求15所述的装置，其特征在于，所述用户数据还包括图像数据，所述融合模块，还用于：

22.如权利要求21所述的装置，其特征在于，所述融合模块，还用于：

将所述图像数据进行特征提取，得到图像特征；

23.如权利要求22所述的装置，其特征在于，所述融合模块，还用于：

将图像数据通过第三卷积网络进行处理得到第三中间特征；

24.如权利要求23所述的装置，其特征在于，所述融合模块，还用于：

25.如权利要求15所述的装置，其特征在于，所述训练模块，还用于：

26.如权利要求25所述的装置，其特征在于，所述训练模块，还用于：

27.一种情绪识别装置，其特征在于，包括：

第二获取模块，用于获取目标用户的当前用户数据；

识别模块，用于将所述当前用户数据输入权利要求1-12任意一项所述的情绪识别模型中进行识别，得到所述目标用户的当前状态。

28.如权利要求27所述的装置，其特征在于，所述装置还包括：

29.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至14任一所述的方法的步骤。

30.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至14任一所述的方法的步骤。