CN110556129B

CN110556129B - 双模态情感识别模型训练方法及双模态情感识别方法

Info

Publication number: CN110556129B
Application number: CN201910851155.9A
Authority: CN
Inventors: 邹月娴; 张钰莹; 甘蕾
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2022-04-19
Anticipated expiration: 2039-09-09
Also published as: CN110556129A

Abstract

本申请提供了一种双模态情感识别模型训练方法及双模态情感识别方法，其中，该双模态情感识别模型训练方法包括：将语音训练数据输入第一神经网络模型进行训练，以得到语音情感识别模型；将图像训练数据输入第二神经网络模型，采用第一损失函数进行第一阶段的有监督训练，以得到第一阶段的初始图像情感识别模型；将图像训练数据输入第一阶段的初始图像情感识别模型，采用第二损失函数进行第二阶段的有监督训练，以得到目标图像情感识别模型，将所述语音情感识别模型及所述目标图像情感识别模型进行决策级融合，以得到双模态情感识别模型。

Description

双模态情感识别模型训练方法及双模态情感识别方法

技术领域

本申请涉及语音处理和图像处理技术领域，具体而言，涉及一种双模态情感识别模型训练方法及双模态情感识别方法。

背景技术

双模态情感识别融合了语音信号处理、数字图像处理、模式识别、心理学等多种学科，是人机交互的重要分支，有助于为人机交互提供更好、更人性化的用户体验，使得机器人能够感知用户的情感状态并进行分析、随之产生相应的响应，因此，情感识别作为机器人的一项重要能力有着广泛的研究和应用前景。但是现有的情感识别的准确率相对较低。

发明内容

有鉴于此，本申请实施例的目的在于提供一种双模态情感识别模型训练方法及双模态情感识别方法。能够达到更准确地识别出用户的情感效果。

第一方面，本申请实施例提供了一种双模态情感识别模型训练方法，包括：

将语音训练数据输入第一神经网络模型进行训练，以得到语音情感识别模型；

将图像训练数据输入第二神经网络模型，采用第一损失函数进行第一阶段的有监督训练，以得到第一阶段的初始图像情感识别模型；

将所述图像训练数据输入所述第一阶段的初始图像情感识别模型，采用第二损失函数进行第二阶段的有监督训练，以得到目标图像情感识别模型；

将所述语音情感识别模型及所述目标图像情感识别模型进行决策级融合，以得到双模态情感识别模型。

结合第一方面，本申请实施例提供了第一方面的第一种可能的实施方式，其中：所述将图像训练数据输入第二神经网络模型，采用第一损失函数进行第一阶段的有监督训练，以得到第一阶段的初始图像情感识别模型的步骤，包括：

将所述图像训练数据输入所述第二神经网络模型，采用交叉熵损失函数进行第一阶段的有监督训练，以得到第一阶段的初始图像情感识别模型；

所述将所述图像训练数据输入所述第一阶段的初始图像情感识别模型，采用第二损失函数进行第二阶段的有监督训练，以得到目标图像情感识别模型的步骤，包括：

将所述图像训练数据输入所述第一阶段的初始图像情感识别模型，采用焦点损失函数进行第二阶段的有监督训练，以得到目标图像情感识别模型。

本申请实施例提供的图像情感识别模型训练方法，由于难分人脸表情样本的存在，直接采用交叉熵损失函数进行网络训练不能有效解决表情错分问题，因此在人脸表情识别中使用了双阶段训练策略来提取更具可区分性的人脸表情特征。详细地，在图像情感识别模型训练的第一阶段使用交叉熵损失函数进行有监督的训练使训练得到的模型具有初步的区分能力，进一步地第二阶段使用焦点损失函数进行有监督的训练使训练得到的模型能够对易混淆的特征进行细致的区分，从而可以使训练得到的模型的识别的准确率相对更高。

结合第一方面或第一方面的第一种可能的实施方式，本申请实施例提供了第一方面的第二种可能的实施方式，其中：所述第二神经网络模型包括激活函数、优化器，所述激活函数包括线性整流函数，所述优化器包括随机梯度下降算法。

本申请实施例提供的图像情感识别模型训练方法，结合上述的线性整流函数可以更好地适应图像情感识别模型所需的多样化要求，优化器包括随机梯度下降算法可以实现相对快速收敛，提高图像情感识别模型的训练速度。

结合第一方面，本申请实施例提供了第一方面的第三种可能的实施方式，其中，所述将语音训练数据输入第一神经网络模型进行训练，以得到语音情感识别模型的步骤，包括：

将语音训练数据输入第一神经网络模型，采用亲和力损失函数和焦点损失函数组成的联合损失函数进行有监督的训练，以得到语音情感识别模型。

本申请实施例提供的语音情感识别模型训练方法，还可以使用Affinity loss对第一神经网络模型进行有监督的训练，从而可以使得训练得到的模型能够更好地识别语音中的特性。针对情感易混淆问题和情感数据类别不平衡问题，语音情感识别模型借鉴度量学***衡问题。

结合第一方面或第一方面的第三种可能的实施方式，本申请实施例提供了第一方面的第四种可能的实施方式，其中，所述第一神经网络模型包括输入层、隐藏层、输出层和优化器，其中，所述隐藏层和所述输出层包括激活函数，所述隐藏层的激活函数包括最大特征映射函数，所述输出层的激活函数包括softmax函数，所述优化器包括RMSProp函数。

本申请实施例提供的双模态情感识别模型训练方法，还可以通过上述的第一神经网络模型的结构，可以实现对语音情感识别模型的初始模型的建立。

结合第一方面，本申请实施例提供了第一方面的第五种可能的实施方式，其中，所述方法还包括：

构建包括所述语音训练数据及所述图像训练数据的训练数据库。

结合第一方面的第五种可能的实施方式，本申请实施例提供了第一方面的第六种可能的实施方式，其中，所述构建包括所述语音训练数据及所述图像训练数据的训练数据库的步骤，包括：

使用声学矢量传感器录制目标环境中的语音，并使用指定位的脉冲编码调制对采集到的语音信号进行编码，得出初始语音数据集；

将所述初始语音数据集进行预处理，所述预处理包括：选择所述初始语音数据集中的完整的语句语音数据、去除所述初始语音数据集中的语音数据的噪音、去除所述初始语音数据集中的语音数据中的静音数据中的一种或多种操作；

将预处理后的初始语音数据按照第一设定命名规则进行命名，得到语音训练数据集，所述语音训练数据为所述语音训练数据集中的数据；

录制所述目标环境中的视频，得到初始视频数据；

将所述初始视频数据与所述语音训练数据集中的语音数据对应剪切得到视频训练数据集，所述图像训练数据为所述视频训练数据集中的视频数据中的一帧或多帧图像，所述训练数据库包括所述语音训练数据集和所述视频训练数据集。

本申请实施例提供的双模态情感识别模型训练方法，还可以根据现场采集的数据形成语音训练数据和视频训练数据，可以更好地表示用户的表情，从而使用于训练的数据能够更好地对模型实现训练。

第二方面，本申请实施例还提供一种双模态情感识别方法，包括：

获取目标用户在目标时间段产生的语音数据；

获取所述目标用户在所述目标时间段的视频数据；

使用第一方面或第一方面的任意一种可能的实施方式中的语音情感识别模型对所述语音数据进行识别，得到第一情感识别结果；

使用第一方面或第一方面的任意一种可能的实施方式中的图像情感识别模型对所述视频数据中的每一张图片进行情感识别，得到每一张图片的图像情感识别结果；

根据每一张图像的所述图像情感识别结果确定出第二情感识别结果；

根据所述第一情感识别结果及所述第二情感识别结果确定出所述目标用户的情感识别结果。

本申请实施例提供的双模态情感识别方法，通过双模型分别对语音和图像进行训练的结合可以更好地表示用户的情感。进一步地，关于可以对一视频中的多张图片进行识别，基于多张图像的识别结果进行融合，从而可以更好地表示用户脸上的表情，从而可以更形象地表示用户情感。

结合第二方面，本申请实施例提供了第二方面的第一种可能的实施方式，其中：所述第一情感识别结果为各个情感分类对应的概率值形成的第一概率矩阵，所述第二情感识别结果为各个情感分类对应的概率值形成的第二概率矩阵；所述根据所述第一情感识别结果及所述第二情感识别结果确定出所述目标用户的情感识别结果的步骤，包括：

将所述第一概率矩阵及所述第二概率矩阵进行加权求和，确定出所述目标用户的情感概率矩阵；

根据所述情感概率矩阵确定出所述目标用户的当前情感类别。

本申请实施例提供的双模态情感识别方法，还可以就第一概率矩阵和第二概率矩阵进行加权求和，可以有效匹配第一概率矩阵和第二概率矩阵的重要性，从而实现情感的识别。

结合第二方面，本申请实施例提供了第二方面的第二种可能的实施方式，其中：所述将所述第一概率矩阵及所述第二概率矩阵进行加权求和，确定出所述目标用户的情感概率矩阵的步骤，包括：

使用第一权重对所述第一概率矩阵进行加权，使用第二权重对所述第二概率矩阵进行加权；

对加权后的第一概率矩阵和加权后的第二概率矩阵进行求和，以得到所述目标用户的情感概率矩阵，其中，所述第一权重等于所述第二权重。

本申请实施例提供的双模态情感识别模型训练方法，其中，第一权重等于所述第二权重可以均衡语音和表情的重要性，从而均衡地表达用户的情感。

第三方面，本申请实施例还提供一种双模态情感识别模型训练装置，包括：

第一训练模块，用于将语音训练数据输入第一神经网络模型进行训练，以得到语音情感识别模型；

第二训练模块，用于将图像训练数据输入第二神经网络模型，采用第一损失函数进行第一阶段的有监督训练，以得到第一阶段的初始图像情感识别模型；

第三训练模块，用于将所述图像训练数据输入所述第一阶段的初始图像情感识别模型，采用第二损失函数进行第二阶段的有监督训练，以得到目标图像情感识别模型，将所述语音情感识别模型及所述目标图像情感识别模型进行决策级融合，以得到双模态情感识别模型。

第四方面，本申请实施例还提供一种双模态情感识别装置，包括：

第一获取模块，用于获取目标用户在目标时间段产生的语音数据；

第二获取模块，用于获取所述目标用户在所述目标时间段的视频数据；

第一识别模块，用于使用第一方面或第一方面的任意一种可能的实施方式中的语音情感识别模型对所述语音数据进行识别，得到第一情感识别结果；

第二情感识别模块，用于使用第一方面或第一方面的任意一种可能的实施方式中的目标图像情感识别模型对所述视频数据中的每一张图片进行识别，得到每一张图片的图像情感识别结果；

第一确定模块，用于根据每一张图像的所述图像情感识别结果确定出第二情感识别结果；

第二确定模块，用于根据所述第一情感识别结果及所述第二情感识别结果确定出所述目标用户的情感识别结果。

第五方面，本申请实施例还提供一种电子设备，包括：处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面的任一种可能的实施方式中的方法的步骤。

第六方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面的任意一种可能的实施方式，或第二方面，或第二方面的任意一种可能的实施方式中的方法的步骤。

本申请实施例提供的双模态情感识别模型训练方法、双模态情感识别方法、装置、电子设备及计算机可读存储介质，采用语音情感识别模型和目标图像情感识别模型双重模型的作用，公共形成情感识别模型，进一步地，目标图像情感识别模型的训练过程包括：第一阶段称为“特征可分”阶段，第二个阶段称为“特征更区分”阶段，双阶段的模型训练，可以使双模态情感识别模型的情感识别准确率相对更高。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的电子设备的方框示意图。

图2为本申请实施例提供的双模态情感识别模型训练方法的流程图。

图3为本申请实施例提供的双模态情感识别模型训练方法的部分流程图。

图4为本申请实施例提供的双模态情感识别模型训练装置的功能模块示意图。

图5为本申请实施例提供的双模态情感识别模型训练方法的流程图。

图6为本申请实施例提供的双模态情感识别模型训练方法的步骤406的详细流程图。

图7为本申请实施例提供的双模态情感识别模型训练装置的功能模块示意图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

随着神经网络技术的发展，人类的表情也可以通过机器进行识别。通过表情可以表达出人类的情感，在多个领域中都需要关注相应用户的情感，因此，情感的识别也被应用在各行各业中。例如，情感识别可以用于远程教育中，对学习者的情感状态进行检测并实时反馈给教学者，有助于教学者及时发现情况并作出相应调整，从而提高教学质量。再例如，情感的识别也可以用于车载***，利用情感识别对汽车驾驶员的情感进行监控，对处于疲劳状态或情感强烈变化的驾驶员加以提醒或安抚，从而降低发生交通事故可能性。再例如，情感的识别还可以用于家庭服务机器人，机器人接收到情感信息，进行计算、分析并作出相应的情感反馈，可使消费者有更好的用户体验。再例如，情感识别也可以用在临床医学中，可以借助情感识别对抑郁症患者或自闭症儿童的情感变化进行跟踪，作为疾病诊断和治疗的依据。

现有的情感的识别主要基于单模态情感识别(语音情感识别或者图像情感识别)。然而，单模态的情感识别采用的情感特征信息比较单一，使得情感识别在准确度和表达全面性上存在一定的局限性。例如，人们在愉悦时，除了表现在嘴角上扬，面部肌肉放松外，说话的音调也会稍稍提高，音色会变得轻快，因此单个模态传递的情感信息缺乏完整性。语音情感识别的局限性包括：环境中存在噪声；不同对象的语音之间存在差异；在讲话时，对于一词多义或一句话有多种含义的情况，如果语调、语速没有明显变化则很难判断出说话人此刻的情感状态；缺少大规模训练数据等。这些限制都导致语音情感识别准确率相对不高。人脸表情识别的局限性包括：面部相对僵硬的人，人脸表情变化少且变化幅度也相对较小；遮挡面部和照明的变化可能会误导识别方法等，这对基于人脸表情的情感识别都是非常不利的。由于存在这些局限性，单模态的情感识别往往准确率不高。

因此，发明人的研究，情感的表现形式并不局限于图像能够获取到的表情，情感的表现形式是多样，包括语音、面部表情、肢体语言、手势等多模态。研究表明，人类表达情感时，语音和面部表情传递的信息共占比93％以上，所以语音和面部是人们表达情感的主要方式和载体。语言可以表达人的复杂情感，而语言表达时的声调(如声音的强度、速度等)则能更加生动、完整的表达人的情感状态。面部是最有效的表情器官，面部各组成部分是一个有机整体，它们协调一致进而准确地表达出同一种情感。

基于上述研究，本申请实施例提供了双模态情感识别模型训练方法、双模态情感识别方法，可以结合人类输出的多种信息进行识别，从而可以实现提高人类情感准确率的效果。

实施例一

为便于对本实施例进行理解，首先对执行本申请实施例所公开的双模态情感识别模型训练方法或双模态情感识别方法方法的电子设备进行详细介绍。

如图1所示，是电子设备的方框示意图。电子设备100可以包括存储器111、存储控制器112、处理器113、外设接口114、输入输出单元115、显示单元116。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对电子设备100的结构造成限定。例如，电子设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

上述的存储器111、存储控制器112、处理器113、外设接口114、输入输出单元115及显示单元116各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。上述的处理器113用于执行存储器中存储的可执行模块。

其中，存储器111可以是，但不限于，随机存取存储器(Random Access Memory，简称RAM)，只读存储器(Read Only Memory，简称ROM)，可编程只读存储器(ProgrammableRead-Only Memory，简称PROM)，可擦除只读存储器(Erasable Programmable Read-OnlyMemory，简称EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory，简称EEPROM)等。其中，存储器111用于存储程序，所述处理器113在接收到执行指令后，执行所述程序，本申请实施例任一实施例揭示的过程定义的电子设备100所执行的方法可以应用于处理器113中，或者由处理器113实现。

上述的处理器113可能是一种集成电路芯片，具有信号的处理能力。上述的处理器113可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(digital signalprocessor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

上述的外设接口114将各种输入/输出装置耦合至处理器113以及存储器111。在一些实施例中，外设接口114，处理器113以及存储控制器112可以在单个芯片中实现。在其他一些实例中，他们可以分别由独立的芯片实现。

上述的输入输出单元115用于提供给用户输入数据。所述输入输出单元115可以是，但不限于，鼠标和键盘等。

上述的显示单元在电子设备100与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中，所述显示单元可以是液晶显示器或触控显示器。若为触控显示器，其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作，并将该感应到的触控操作交由处理器进行计算和处理。

本实施例中的电子设备100可以用于执行本申请实施例提供的各个方法中的各个步骤。下面通过几个实施例详细描述双模态情感识别模型训练方法和双模态情感识别方法的实现过程。

实施例二

请参阅图2，是本申请实施例提供的双模态情感识别模型训练方法的流程图。下面将对图2所示的具体流程进行详细阐述。

步骤201，将语音训练数据输入第一神经网络模型进行训练，以得到语音情感识别模型。

可选地，步骤201可以包括：将语音训练数据输入第一神经网络模型，采用亲和力损失函数(Affinity loss)和焦点损失函数(Focal loss)组成的联合损失函数进行有监督的训练，以得到语音情感识别模型。

针对情感易混淆问题和情感数据类别不平衡问题，语音情感识别模型借鉴度量学***衡问题。

本实施例中，第一神经网络模型可以是包括输入层、隐藏层、输出层的深度神经网络(Deep neural network，DNN)模型。DNN的输入为句子级别特征向量，学习目标为情感标签。

示例性地，上述的DNN模型可以包括一个输入层、四个隐含层和输出层。示例性地，输入层可以有第一设定数量个神经元，该第一设定数量可以等于句子级别特征向量的维度。第一隐藏层有512个神经元，第二隐藏层有256个神经元，第三隐藏层有128个神经元，第四隐藏层有64个神经元，输出层有第二设定数量的神经元，该第二设定设定数量可以等于情感类别数。

示例性地，隐藏层中神经元可以采用最大特征映射(Max Feature Map,MFM)作为激活函数。输出层的神经元激活函数可以为softmax。

在训练过程中所使用的优化器可以是RMSProp函数。在一个实例中，初始学习速率可以设定为1e^-3，每经过10个迭代学习速率减少为之前的一半，批处理大小为三十二。

在一个实例中，可以采用滑动长度为25ms的窗口和滑动步长10ms的方式将原始音频按帧提取低阶描述符(Low level descriptors,LLDs)，并计算其统计量，从原始音频中提取384维句子级别(Utterance Level)的特征向量。关于语音情感特征集的特征上采用了包括：声韵、频谱、声音质量等特征，所选择的十六个低阶描述参数分别包括：过零率(zero-crossing rate，ZCR)、能量均方根(Energy Root Mean Square，RMS Energ)、音调频率(pitch frequency)(下表1中使用F0表示)、泛音噪音比(HNR)、梅尔频率倒谱系数(1-12维)(MFCC1-12)。所采用的十二个泛函包括：平均值(Mean)、标准差(standard deviation)、峰度(kurtosis)、偏移态(skewness)、最大和最小值(Extremes:value)、相对位置(relativeposition)与范围(range)与另外两个线性回归系数(linear regression coefficients)及其均方差(MeanSquare Error，MSE)。而对于一个低阶参数，在经由12个泛函计算并经第一和第二阶系数差后，最终特征及包含了16*2*12＝384个特征参数。

采用的语音情感特征集可以如下表1所示。

表1

可选地，使用归一化方法将上述的特征向量进行归一化处理，从而使表示句子的向量限定在设定长度内，以消除各维数据间的数量级差别，并使网络更容易收敛。示例性地，上述的归一化方法可以选择Z-score归一化、小数定标法等。

示例性地，可以将情感类别分为三类：积极、中性和消极。

步骤202，将图像训练数据输入第二神经网络模型，采用第一损失函数进行第一阶段的有监督训练，以得到第一阶段的初始图像情感识别模型。

步骤202可以包括：将所述图像训练数据输入所述第二神经网络模型，采用交叉熵损失函数(Cross-entropy Loss)进行第一阶段的有监督训练，以得到第一阶段的初始图像情感识别模型。

可选地，在将图像训练数据输入第二神经网络模型之前还可以使用人脸检测器进行人脸检测。然后，剪裁得到检测到的人脸区域图像。进一步地，还可以将该人脸区域图像进行归一化处理，将人脸区域图像尺寸均归一化像素为299*299的图像。可以将归一化处理的人脸区域图像作为上述的第二神经网络模型的输入数据。

示例性地，第二神经网络模型可以包括激活函数、优化器，损失函数，所述激活函数包括线性整流函数，该优化器包括随机梯度下降算法，其中的损失函数包括第一模型训练阶段采用的交叉熵损失函数和第二模型训练阶段采用的焦点损失函数。

步骤203，将所述图像训练数据输入所述第一阶段的初始图像情感识别模型，采用第二损失函数进行第二阶段的有监督训练，以得到目标图像情感识别模型，并将所述语音情感识别模型及所述目标图像情感识别模型进行决策级融合，以得到情感识别模型。

示例性地，在两个阶段中，均使用ReLU(Rectified Linear Units)作为激活函数，初始学习率设定为1e^-2，批处理大小为三十二，采用SGD(Stochastic gradient descent)作为优化器。

步骤203可以包括：将所述图像训练数据输入所述第一阶段的初始图像情感识别模型，采用焦点损失函数(Focal loss)进行第二阶段的有监督训练，以得到目标图像情感识别模型。

示例性地，第二神经网络模型可以是深度卷积神经网络(Deep ConvolutionalNeural Network,DCNN)模型：基于深度卷积神经网络Inception模型提取人脸深度情感特征，该DCNN模型可以包括四十七层卷积层，利用卷积池化并行结构，充分提取深度特征。

在一个实例中，在第一阶段，在Cross-entropy Loss的监督下，基于第二神经网络模型中的Inception模型针对每一个输入的人脸区域图像可以提取出2048维人脸深度情感特征。

在第二阶段，在Focal Loss的监督下，上一阶段得到的网络模型继续针对每一个输入的人脸区域图像提取出2048维人脸深度情感特征，此时得到的人脸情感特征更具区分性，再经过一个全连接层，即可得到最终视频情感识别分类结果。

研究表明，儿童情感与成人情感的表达方式是有区别的，需要有针对性地开展相关研究。调研已发表的研究成果，针对儿童的语音情感识别研究少之又少，且识别准确率不高。究其原因，主要有两方面因素：一方面是儿童语音情感数据库的数据量小，样本覆盖性不够，不能充分发挥机器学习的优势；另一方面则是情感识别模型的研究不充分，通常只利用了单种模态的信息。随着生活节奏的加快，父母和孩子相处的时间和情感交流的机会愈发减少，而儿童身心的健康成长离不开充分的情感交流和陪伴体验。具有语音情感识别功能的陪护机器人可以有效地补充这一短板，除了与儿童进行密切的互动，陪护机器人还能将感知到的儿童情感状态及时地反馈给父母，有充足的实用价值。基于上述研究，本申请实施例提供的情感模型识别方法还可以就不同的人群建立对应的数据库，以使本申请实施例训练得到的情感识别模型可以用于不同人群。

因此，在图2所示的基础上，本申请实施例中的情感识别模型训练所述方法还可以构建包括所述语音训练数据及所述图像训练数据的训练数据库。

可选地，如图3所示，上述的构建包括所述语音训练数据及所述图像训练数据的训练数据库的步骤可以包括以下步骤。

步骤204，使用声学矢量传感器录制目标环境中的语音，并使用指定位的脉冲编码调制对采集到的语音信号进行编码，得出初始语音数据集。

可选地，可以基于新型麦克风阵列-声学矢量传感器(Acoustic Vector Sensor,AVS)进行语音采集。

示例性地，使用声学矢量传感器(Acoustic Vector Sensor,AVS)录制语音。在一个实例中，语音信号的采样率为48khz，采用16位PCM编码。本申请实施例建立的数据中的数据可以包括三种情感类别，分别为：积极、中性、消极三类情感的音视频数据。

可选地，可以相对均匀采集三类情感的音频数据。在一个实例中，音视频数据总时长可以为8小时45分钟，其中，积极的音视频数据时长为2小时16分钟、中性的音视频数据时长为3小时2分钟、消极的音视频数据时长为3小时27分钟。

步骤205，将所述初始语音数据集进行预处理。

上述的预处理包括：选择所述初始语音数据集中的完整的语句语音数据、去除所述初始语音数据集中的语音数据的噪音、去除所述初始语音数据集中的语音数据中的静音数据中的一种或多种操作。

可选地，可以采用语音活动检查方法(voice activity detection,VAD)，选择完整的语句，并获取对应的音频和视频数据。

可选地，可以将原始音频按帧提取低阶描述符(Low level descriptors,LLDs)，并计算其统计量，提取句子级别(Utterance Level)的特征向量。

可选地，可以采用语音活动检查方法(voice activity detection,VAD)进行语音检测，选择完整的语句，并去除噪音和静音段，获取对应的音频和视频数据。

步骤206，将预处理后的初始语音数据按照第一设定命名规则进行命名，得到语音训练数据集，所述语音训练数据为所述语音训练数据集中的数据。

在上述的采集了时长为8小时45分钟的音视频的实例中，可以得到12911段音频/视频(音频与视频具有一一对应关系)，可以采取相同的命名方式。例如，<音频数据，标签>，<视频数据，标签>。其中，积极：3459句，中性：4087句，消极：5365句。

可选地，可以将音频数据和视频数据分为训练集和测试集两部分，其中训练集共有24人，10632段语音/视频，其中积极：2640句，中性：3389句，消极：4603句；测试集共有6人，2279段语音/视频，其中积极：819句，中性：698句，消极：762句。

对于语音情感识别，语音情感识别模型训练阶段使用的训练数据为已知情感类别标签的<音频数据，标签>数据对。在语音情感识别模型测试阶段只需要<音频数据>，可以使用<音频数据，标签>数据对来验证模型性能。

步骤207，录制所述目标环境中的视频，得到初始视频数据。

基于Kinect的视频数据采集子***。使用Kinect录制视频场景，视频信号的帧率为15fps，画面大小为720p。

对于人脸情感识别，目标图像情感识别模型的训练阶段使用的训练数据为已知情感类别标签的<图片数据，标签>数据对。目标图像情感识别模型的测试阶段只需要<图片数据>。

步骤208，将所述初始视频数据与所述语音训练数据集中的语音数据对应剪切得到视频训练数据集。

图像训练数据为所述视频训练数据集中的视频数据中的一帧或多帧图像，所述训练数据库包括所述语音训练数据集和所述视频训练数据集。

在一个实例中，如果训练得到的情感识别模型用于对儿童的情感进行识别，则上述的训练数据库可以包括30名年龄在8到10岁之间的学生，男女比例为1:1，办公室环境进行录制，信号采样率为44.1kHz，16位PCM编码，数据总时长为8小时45分钟，12911句话所构成的训练数据库。

可以知道的是，如果情感识别模型用于对其它年龄段的用户的情感进行识别，则可以选择其它年龄段的用户构造训练数据。

本申请实施例中的方法，采用语音情感识别模型和目标图像情感识别模型双重模型的作用，公共形成情感识别模型，进一步地，目标图像情感识别模型的训练过程包括：第一阶段称为“特征可分”阶段，第二个阶段称为“特征更区分”阶段，双阶段的模型训练，可以使情感识别模型的情感识别准确率相对更高。

进一步地，还可以适应性地构造不同年龄段的训练数据库，从而可以使本申请实施例中的情感识别模型灵活性更高。

实施例三

基于同一申请构思，本申请实施例中还提供了与情感识别模型训练方法对应的情感识别模型训练装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述情感识别模型训练方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

请参阅图4，是本申请实施例提供的情感识别模型训练装置的功能模块示意图。本实施例中的情感识别模型训练装置中的各个模块用于执行上述方法实施例中的各个步骤。情感识别模型训练装置包括：第一训练模块301、第二训练模块302及第三训练模块303；其中，

第一训练模块301，用于将语音训练数据输入第一神经网络模型进行训练，以得到语音情感识别模型；

第二训练模块302，用于将图像训练数据输入第二神经网络模型，采用第一损失函数进行第一阶段的有监督训练，以得到第一阶段的初始图像情感识别模型；

第三训练模块303，用于将所述图像训练数据输入所述第一阶段的初始图像情感识别模型，采用第二损失函数进行第二阶段的有监督训练，以得到目标图像情感识别模型，并将所述语音情感识别模型及所述目标图像情感识别模型进行决策级融合，以得到双模态情感识别模型。

一种可能的实施方式中，上述的第二训练模块302，还用于：

上述的第三训练模块303，还用于：

一种可能的实施方式中，所述第二神经网络模型包括激活函数、优化器，所述激活函数包括线性整流函数，所述优化器包括随机梯度下降算法。

一种可能的实施方式中，第一训练模块301，还用于：

一种可能的实施方式中，所述第一神经网络模型包括输入层、隐藏层、输出层和优化器，其中，所述隐藏层和所述输出层包括激活函数，所述隐藏层的激活函数包括最大特征映射函数，所述输出层的激活函数包括softmax函数，所述优化器包括RMSProp函数。

一种可能的实施方式中，本实施例中的，情感识别模型训练装置还包括：构建模块304，用于构建包括所述语音训练数据及所述图像训练数据的训练数据库。

一种可能的实施方式中，构建模块304，还用于：

录制所述目标环境中的视频，得到初始视频数据；

实施例四

请参阅图5，是本申请实施例提供的情感识别方法的流程图。下面将对图5所示的具体流程进行详细阐述。

步骤401，获取目标用户在目标时间段产生的语音数据。

上述的目标时间段可以是需要识别的时间段。上述的目标用户可以是远程教育中的学生，也可以是使用车载***的司机或乘客，也可以是使用家庭服务机器人的用户，还可以是临床医学中抑郁症患者或自闭症儿童等。

可选地，可以使用新型麦克风阵列-声学矢量传感器(Acoustic Vector Sensor,AVS)采集上述的语音数据。

步骤402，获取所述目标用户在所述目标时间段的视频数据。

可选地，可以使用Kinect采集上述的视频数据。

步骤403，使用语音情感识别模型对所述语音数据进行识别，得到第一情感识别结果。

本实施例中的语音情感识别模型可以是上述实施例二中训练得到的语音情感识别模型。

步骤404，使用目标图像情感识别模型对所述视频数据中的每一张图片进行识别，得到每一张图片的情感识别结果。

本实施例中的目标图像情感识别模型可以是上述实施例二中训练得到的目标图像情感识别模型。

步骤405，根据上述视频数据中每一张图像的所述情感识别结果确定出第二情感识别结果。

示例性地，将上述的视频数据中的每一张图像的概率取平均值，得到该视频数据的第二情感识别结果。

下面以情感类别为三类进行示例性描述，第二情感识别结果表示为：

S_video＝{s_1video,s_2video，s_3video}；

其中，S_video表示上述的视频数据对应的第二情感识别结果，s_1video表示上述的视频数据识别为第一类情感的概率，s_2video表示上述的视频数据识别为第二类情感的概率，s_3video表示上述的视频数据识别为第三类情感的概率。

示例性地，上述的视频数据可以包括n张图像，每张图像对应的识别结果表示为：S_face1＝{s_1face1,s_2face1，s_3face1}、S_face2＝{s_1face2,s_2face2，s_3face2}、…、S_facen＝{s_1facen,s_2facen，s_3facen}。

则上述的第二情感识别结果可以表示为：

S_video＝{s_1face1,s_2face1，s_3face1}/n+{s_1face2,s_2face1，s_3face2}/n+、、、+{s_1facen,s_2facen，s_3facen}/n。

步骤406，根据所述第一情感识别结果及所述第二情感识别结果确定出所述目标用户的情感识别结果。

本实施例中，使用加权求和的方法对语音和视频两个模态的第一情感识别结果和第二情感识别进行决策融合，通过融合后的情感概率分布预测情感类别，得到三类情感最终的概率。

上述的第一情感识别结果为各个情感分类对应的概率值形成的第一概率矩阵，所述第二情感识别结果为各个情感分类对应的概率值形成的第二概率矩阵；如图6所示，步骤406可以包括以下步骤。

步骤4061，将所述第一概率矩阵及所述第二概率矩阵进行加权求和，确定出所述目标用户的情感概率矩阵。

使用第一权重对所述第一概率矩阵进行加权，使用第二权重对所述第二概率矩阵进行加权。对加权后的第一概率矩阵和加权后的第二概率矩阵进行求和，以得到所述目标用户的情感概率矩阵。

可选地，第一权重可以等于第二权重。

步骤4062，根据所述情感概率矩阵确定出所述目标用户的当前情感类别。

示例性地，下面通过几个公式表示：

S＝α*S_video+β*S_audio；

其中，S表示目标用户在目标时间段内的情感概率分布，S_audio表示第一情感识别结果，S_video表示上述的视频数据对应的第二情感识别结果，α、β表示第一权重和第二权重。可选地，α+β＝1。在一个实例中，α＝β＝0.5。当然，α、β的取值也可以是其它值，例如，α＝0.4、β＝0.6等。

进一步地，根据上述确定出的S＝{s₁,s₂,s₃}。将s₁,s₂,s₃中最大值对应的情感类别作为目标用户的情感识别结果。

下表2中是一个实例中使用语音情感识别模型确定情感的准确率、图像情感识别模型确定情感的准确率、以及本实施例提供的双模态情感识别模型确定情感的准确率的对比表。

表2

其中，WA表示第一准确率，UA表示第二准确率。WA等于所有分类正确的样本数之和除以样本总数，UA等于每个类别分类正确的样本数除以各类别的样本总数再求和。

通过上表可以了解到，通过使用双模态情感识别模型识别的准确率高于语音情感识别模型确定情感的准确率和图像情感识别模型确定情感的准确率。

实施例五

基于同一申请构思，本申请实施例中还提供了与情感识别方法对应的情感识别装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述情感识别方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

请参阅图7，是本申请实施例提供的情感识别装置的功能模块示意图。本实施例中的情感识别装置中的各个模块用于执行上述方法实施例中的各个步骤。情感识别装置包括：第一获取模块501、第二获取模块502、第一识别模块503、第二情感识别模块504、第一确定模块505以及第二确定模块506，其中；

第一获取模块501，用于获取目标用户在目标时间段产生的语音数据；

第二获取模块502，用于获取所述目标用户在所述目标时间段的视频数据；

第一识别模块503，用于使用所述的语音情感识别模型对所述语音数据进行识别，得到第一情感识别结果；

第二识别模块504，用于使用所述目标图像情感识别模型对所述视频数据中的每一张图片进行识别，得到每一张图片的图像情感识别结果；

第一确定模块505，用于根据每一张图像的所述图像情感识别结果确定出第二情感识别结果；

第二确定模块506，用于根据所述第一情感识别结果及所述第二情感识别结果确定出所述目标用户的情感识别结果。

一种可能的实施方式中，所述第一情感识别结果为各个情感分类对应的概率值形成的第一概率矩阵，所述第二情感识别结果为各个情感分类对应的概率值形成的第二概率矩阵；第二确定模块506包括：计算单元及确定单元；

上述的计算单元，用于将所述第一概率矩阵及所述第二概率矩阵进行加权求和，确定出所述目标用户的情感概率矩阵；

上述的确定单元，用于根据所述情感概率矩阵确定出所述目标用户的当前情感类别。

一种可能的实施方式中，计算单元，还用于：

此外，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的情感识别模型训练方法或情感识别方法的步骤。

本申请实施例所提供的情感识别模型训练方法和情感识别方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的情感识别模型训练方法或情感识别方法的步骤，具体可参见上述方法实施例，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种双模态情感识别模型训练方法，其特征在于，包括：

将图像训练数据输入第二神经网络模型，采用交叉熵损失函数进行第一阶段的有监督训练，以得到第一阶段的初始图像情感识别模型；

将所述图像训练数据输入所述第一阶段的初始图像情感识别模型，采用焦点损失函数进行第二阶段的有监督训练，以得到目标图像情感识别模型；

2.根据权利要求1所述的方法，其特征在于，所述将语音训练数据输入第一神经网络模型进行训练，以得到语音情感识别模型的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

录制所述目标环境中的视频，得到初始视频数据；

将所述初始视频数据与所述语音训练数据集中的语音数据对应剪切得到视频训练数据集，所述图像训练数据为所述视频训练数据集中的视频数据中的一帧或多帧图像，训练数据库包括所述语音训练数据集和所述视频训练数据集。

4.一种双模态情感识别方法，其特征在于，包括：

获取目标用户在目标时间段产生的语音数据；

获取所述目标用户在所述目标时间段的视频数据；

使用权利要求1-3任意一项所述的语音情感识别模型对所述语音数据进行识别，得到第一情感识别结果；

使用权利要求1-3任意一项所述的目标图像情感识别模型对所述视频数据中的每一张图片进行识别，得到每一张图片的图像情感识别结果；

根据所述第一情感识别结果与所述第二情感识别结果的决策级融合确定出所述目标用户的情感识别结果。

5.根据权利要求4所述的方法，其特征在于，所述第一情感识别结果为各个情感分类对应的概率值形成的第一概率矩阵，所述第二情感识别结果为各个情感分类对应的概率值形成的第二概率矩阵；所述根据所述第一情感识别结果及所述第二情感识别结果确定出所述目标用户的情感识别结果的步骤，包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述第一概率矩阵及所述第二概率矩阵进行加权求和，确定出所述目标用户的情感概率矩阵的步骤，包括：

7.一种双模态情感识别模型训练装置，其特征在于，包括：

第二训练模块，用于将图像训练数据输入第二神经网络模型，采用交叉熵损失函数进行第一阶段的有监督训练，以得到第一阶段的初始图像情感识别模型；

第三训练模块，用于将所述图像训练数据输入所述第一阶段的初始图像情感识别模型，采用焦点损失函数进行第二阶段的有监督训练，以得到目标图像情感识别模型，并将所述语音情感识别模型及所述目标图像情感识别模型进行决策级融合，以得到双模态情感识别模型。

8.一种双模态情感识别装置，其特征在于，包括：

第一识别模块，用于使用权利要求1-3任意一项所述的语音情感识别模型对所述语音数据进行识别，得到第一情感识别结果；

第二识别模块，用于使用权利要求1-3任意一项所述的目标图像情感识别模型对所述视频数据中的每一张图片进行识别，得到每一张图片的图像情感识别结果；

9.一种电子设备，其特征在于，包括：处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述机器可读指令被所述处理器执行时执行如权利要求1至6任意一项所述的方法的步骤。