CN109243490A

CN109243490A - 司机情绪识别方法及终端设备

Info

Publication number: CN109243490A
Application number: CN201811181961.1A
Authority: CN
Inventors: 吴壮伟
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-10-11
Filing date: 2018-10-11
Publication date: 2019-01-18

Abstract

本发明适用于计算机应用技术领域，提供了一种司机情绪识别方法、终端设备及计算机可读存储介质，包括：通过获取司机当前的语音数据；从语音数据中提取出梅尔频域特征，并将梅尔频域特征输入完成训练的卷积神经网络，提取出语音数据的短时域的声学特征；从语音数据中提取出文本特征，并将文本特征输入完成训练的长短时记忆神经网络，提取出语音数据的长时域的语言特征；根据声学特征和语言特征确定语音数据对应的情绪类型。通过CNN提取到说话人的声学特征，同时通过LSTM提取到说话人的语言特征，实现了语音特征的完整提取和精确识别，提高了司机情绪识别的准确性和完整性。

Description

司机情绪识别方法及终端设备

技术领域

本发明属于计算机应用技术领域，尤其涉及一种司机情绪识别方法、终端设备及计算机可读存储介质。

背景技术

交通事故的发生有多种原因，一般来说是人的因素、车辆因素、道路和环境因素等，其中人的因素居首位。人的因素中又以驾驶员的因素最为重要。驾驶员的不良情绪是造成交通事故的重要原因。当受到刺激时一般人都是通过面部、动作、眼神等表现出来。在驾驶车辆行驶过程中，当驾驶员心情愉快、满意时能感到心情舒畅、心理舒适，对事物的观察和判断具有积极的促进作用，常常表现出感受力强，勤于观察，反应迅速，判断准确，动作敏捷，有利于车辆行驶安全。反之，如果产生忧愁、恐惧、苦恼、愤怒等情绪波动时，则感受力下降、精力分散、懒于观察思考，一但遇到紧急情况和突发事件时，则发生反应迟钝，判断失误等不良行为。

现有技术中只能通过检测车辆当前的速度是否超过当前路段规定的速度，并在超速时加以提醒，但不能解决由于司机情绪不稳定而增加交通事故发生概率的问题。

发明内容

有鉴于此，本发明实施例提供了一种司机情绪识别方法、终端设备及计算机可读存储介质，以解决现有技术中由于司机情绪不稳定而增加交通事故发生概率的的问题。

本发明实施例的第一方面提供了一种司机情绪识别方法，包括：

获取司机当前的语音数据；

从所述语音数据中提取出梅尔频域特征，并将所述梅尔频域特征输入完成训练的卷积神经网络，提取出所述语音数据的短时域的声学特征；所述卷积神经网络为基于历史语音数据训练得到；

从所述语音数据中提取出文本特征，并将所述文本特征输入完成训练的长短时记忆神经网络，提取出所述语音数据的长时域的语言特征；所述长短时记忆神经网络基于所述历史语音数据训练得到；

根据所述声学特征和所述语言特征确定所述语音数据对应的情绪类型。

本发明实施例的第二方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取司机当前的语音数据；

本发明实施例的第三方面提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。

本发明实施例与现有技术相比存在的有益效果是：

本发明实施例通过获取司机当前的语音数据；从所述语音数据中提取出梅尔频域特征，并将所述梅尔频域特征输入完成训练的卷积神经网络，提取出所述语音数据的短时域的声学特征；所述卷积神经网络为基于历史语音数据训练得到；从所述语音数据中提取出文本特征，并将所述文本特征输入完成训练的长短时记忆神经网络，提取出所述语音数据的长时域的语言特征；所述长短时记忆神经网络基于所述历史语音数据训练得到；根据所述声学特征和所述语言特征确定所述语音数据对应的情绪类型。通过CNN提取到说话人的声学特征，同时通过LSTM提取到说话人的语言特征，实现了语音特征的完整提取和精确识别，提高了司机情绪识别的准确性和完整性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的司机情绪识别方法的流程图；

图2是本发明实施例二提供的司机情绪识别方法的流程图；

图3是本发明实施例三提供的终端设备的示意图；

图4是本发明实施例四提供的终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

参见图1，图1是本发明实施例一提供的司机情绪识别方法的流程图。本实施例中司机情绪识别方法的执行主体为终端。终端包括但不限于智能手机、平板电脑、可穿戴设备等移动终端，还可以是台式电脑等。如图所示的司机情绪识别方法可以包括以下步骤：

S101：获取司机当前的语音数据。

交通事故的发生有多种原因，一般来说是人的因素、车辆因素、道路和环境因素等，其中人的因素居首位。人的因素中又以驾驶员的因素最为重要。驾驶员的不良情绪是造成交通事故的重要原因。当受到刺激时一般人都是通过面部、动作、眼神等表现出来。在驾驶车辆行驶过程中，当驾驶员心情愉快、满意时能感到心情舒畅、心理舒适，对事物的观察和判断具有积极的促进作用，常常表现出感受力强，勤于观察，反应迅速，判断准确，动作敏捷，有利于车辆行驶安全。反之，如果产生忧愁、恐惧、苦恼、愤怒等情绪波动时，则感受力下降、精力分散、懒于观察思考，开起车来胆大气粗，一但遇到紧急情况和突发事件时，则发生反应迟钝，判断失误等不良行为。因此，要确保安全行车，及时检测驾驶员面部等处的变化从而判断其情绪变化，及时提醒驾驶员保持情绪稳定及施加相应的车辆控制是非常重要的。

在本实施例中，通过获取司机当前的语音数据，对该语音数据进行分析数据。在获取司机当前的语音数据时，可以实时获取，不进行任何提醒，只在司机说话的时候出发语音获取功能；也可以向用户播放提示音，提示用户说出一段语音，再同时采集这些应用数据。

进一步的，在实际应用中，如果当前车辆中有很多乘客，而这些乘客都在说话的情况下，通过播放提示司机说话的提示音，提示司机说话，并进行采集，防止采集到除司机之外的其他乘客的语音数据。

S102：从所述语音数据中提取出梅尔频域特征，并将所述梅尔频域特征输入完成训练的卷积神经网络，提取出所述语音数据的短时域的声学特征；所述卷积神经网络为基于历史语音数据训练得到。

在语音识别和话者识别方面，最常用到的语音特征就是梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients，MFCC)。根据人耳听觉机理的研究发现，人耳对不同频率的声波有不同的听觉敏感度。从200Hz到5000Hz的语音信号对语音的清晰度影响对大。两个响度不等的声音作用于人耳时，则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受，使其变得不易察觉，这种现象称为掩蔽效应。由于频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音，故一般来说，低音容易掩蔽高音，而高音掩蔽低音较困难。在低频处的声音掩蔽的临界带宽较高频要小。所以，从低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器，对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征，对此特征经过进一步处理后就可以作为语音的输入特征。由于这种特征不依赖于信号的性质，对输入信号不做任何的假设和限制，又利用了听觉模型的研究成果。因此，这种参数比基于声道模型的线性预测倒谱系数(Linear Prediction Cepstrum Coefficient，LPCC)相比具有更好的鲁邦性，更符合人耳的听觉特性，而且当信噪比降低时仍然具有较好的识别性能。

MFCC是在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特性，它与频率的关系可用下式近似表示：

式中f用于表示频率，单位为Hz。

通过提取到语音数据中的梅尔频域特征，并将该梅尔频域特征输入完成训练的卷积神经网络(Convolutional Neural Network，CNN)，提取出该语音数据的短时域的声学特征。在本实施例中，CNN为基于历史语音数据训练得到，一般地，CNN的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，这种特有的两次特征提取结构减小了特征分辨率。

CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形，该部分功能主要由池化层实现。由于CNN的特征检测层通过训练数据进行学习，所以在使用CNN时，避免了显式的特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。

S103：从所述语音数据中提取出文本特征，并将所述文本特征输入完成训练的长短时记忆神经网络，提取出所述语音数据的长时域的语言特征；所述长短时记忆神经网络基于所述历史语音数据训练得到。

语音信号是一种常见的时间序列，它以离散信号的形式被编码，然后使用一定的文件格式来存储。在当前与语音有关的应用中，出了单纯的录制、不做任何处理之后播放之外，几乎所有的应用都要涉及到语音特征的提取，例如语音文本转换、说话人识别、语音情感识别等等。此外，在进行音乐信息检索的时候，也需要类似的处理。语音特征提取就是从数字信号中提取出与我们所要得到的主要信息相关的内容，一般会从视域和频域两个不同的角度去进行。在实际应用中，可以通过语音识别的方式识别语音数据中的语音信息，再将语音信息中的文字信息识别出来，得到文本特征。

在本实施例中，长短时记忆神经网络(Long Short-Term Memory，LSTM)在算法中加入了一个判断信息有用与否的处理器，这个处理器作用的结构被称为cell。一个cell当中被放置了三扇门，分别叫做输入门、遗忘门和输出门。一个信息进入LSTM的网络当中，可以根据规则来判断是否有用。只有符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘。本实施例利用LSTM对所有时间步进行长时域建模，以此得到维度为256的特征数据。为了对提取到的频域和时域特征进行更好的处理，以更适合分类，LSTM能够学习信号长时依赖，有效提取时域信息。

LSTM的核心是细胞状态，其独特的门控机制控制信息的选择性通过进而控制细胞状态的改变。LSTM记忆单元结构包括三个门控单元，即遗忘门、输入门和输出门。记忆单元结构中相关公式如下所示：

z_t＝σ(W_z·[h_t-1,x_t])；

r_t＝σ(W_r·[h_t-1,x_t])；

其中，r_t表示重置门，z_t表示更新门。重置门决定是否将之前的状态忘记，其作用相当于合并了LSTM中的遗忘门和传入门。当r_t趋于0的时候，前一个时刻的状态信息h_t-1会被忘掉，隐藏状态会被重置为当前输入的信息。更新门决定是否要将隐藏状态更新为新的状态其作用相当于LSTM中的输出门。

将每个时间步的语音信号经过卷积神经网络的特征提取操作后，把每个时间步的特征数据一维化，得到的数据维度为(30，768)，其中，30为时间步个数，768为每个时间步一维化后的特征大小。算法使用2个LSTM层，每层的记忆单元个数均为256。以每个时间步一维化后的特征数据作为LSTM的输入，第一个LSTM层返回其全部输出序列，维度为(30，256)。第二个LSTM层则返回其输出序列的最后一步结果，维度为256。通过两个LSTM层，可以学习语音信号上下文信息，提取长时域特征，得到语音特征。

S104：根据所述声学特征和所述语言特征确定所述语音数据对应的情绪类型。

在获取到声学特征和语言特征之后，通过声学特征和语言特征确定更改语言数据对应的情绪类型。需要说明的是，在本实施例中，声学特征用来表示说话人的音色、语言情绪等信息，语言特征用来表示所说出的语音的文字信息，通过将情绪信息和文字信息结合起来，便可以完整的确定说话人的情绪类型。

在实际应用中，LSTM网络与CNN网络主要的不同之处在于它能够持续保留信息，能够根据之前状态推出后面的状态，从而学习到视频的全局运动特征。为了对视频序列的静态特征、局部运动特征、全局运动特征进行建模，本实施例融合了CNN网络与LSTM网络，通过CNN网络获取到说话人声学特征，同时通过LSTM网络获取到说话人的语言特征，实现了语音数据特征的完整提取与情绪类型的认定。

上述方案，通过获取司机当前的语音数据；从所述语音数据中提取出梅尔频域特征，并将所述梅尔频域特征输入完成训练的卷积神经网络，提取出所述语音数据的短时域的声学特征；所述卷积神经网络为基于历史语音数据训练得到；从所述语音数据中提取出文本特征，并将所述文本特征输入完成训练的长短时记忆神经网络，提取出所述语音数据的长时域的语言特征；所述长短时记忆神经网络基于所述历史语音数据训练得到；根据所述声学特征和所述语言特征确定所述语音数据对应的情绪类型。通过CNN提取到说话人的声学特征，同时通过LSTM提取到说话人的语言特征，实现了语音特征的完整提取和精确识别，提高了司机情绪识别的准确性和完整性。

参见图2，图2是本发明实施例二提供的司机情绪识别方法的流程图。本实施例中司机情绪识别方法的执行主体为终端。终端包括但不限于智能手机、平板电脑、可穿戴设备等移动终端，还可以是台式电脑等。如图所示的司机情绪识别方法可以包括以下步骤：

S201：检测当前是否开启语音获取权限。

本实施中通过终端获取司机的语音数据。其中，该终端可以是手机、平板电脑等设备，还可以是安装在车辆上边的终端装置，进一步的，还可以在这些终端中安装应用程序，用以通过该应用程序执行语音数据的获取、识别或者检测等操作。同时，用户可以根据自己的身份信息在该应用程序中进行注册并登陆，因此，在本实施例中，每个终端中都安装有应用程序，用户根据自己的账号登录该应用程序。

并且，本实施例中的应用程序中设定有用户权限，用户权限可以包括获取用户语音数据的权限，对用户语音数据进行发送或者分析等操作的权限。因此，在获取语音数据之前，先检测当前是否开启语音获取权限，通过检测是否开通该权限，再执行相关的语音获取操作，可以保证用户语音数据的安全性和私密性，保障用户的信息安全。

S202：若已开启所述语音获取权限，则在检测到所述车辆的行进速度达到预设的速度阈值时，获取所述司机的语音数据。

在检测到当前已经开启语音获取权限时，进行用户语音数据的获取。

进一步的，在检测到当前已经开启语音获取权限之后，检测车辆的行进速度达到预设的速度阈值时，触发获取所述司机的语音数据。

可选的，当检测到驾驶速度在两分钟内达到0米每秒时，则退出用户语音数据的获取。

S203：从所述语音数据中提取出梅尔频域特征，并将所述梅尔频域特征输入完成训练的卷积神经网络，提取出所述语音数据的短时域的声学特征；所述卷积神经网络为基于历史语音数据训练得到。

在获取到司机的语音数据之后，从语音数据中提取出梅尔频域特征，并将所述梅尔频域特征输入完成训练的卷积神经网络，提取出所述语音数据的短时域的声学特征；所述卷积神经网络为基于历史语音数据训练得到。

进一步的，步骤S203中还可以包括步骤S2031～S2035：

S2031：按照预设的采样率对所述语音数据进行重采样，得到采样数据。

在实际应用中，我们遇到的语音信号可能来自不同的设备，它们在录制的时候所设置的参数也不尽相同，最重要的一个就是采样率。根据奈奎斯特采样定律，采样频率需要大于等于信号本身最大频率分量的2倍，才能保证能够拿采样之后的数据来恢复信号。即通常语音的频率范围是50Hz–6kHz，乐器声音的频率范围大概是50Hz–8kHz。因此，可以把语音信号按照16kHz的频率进行重新采样。这样既方便处理，也能在适当地提升后续的处理效率，因为现在的设备的采样率很多都高于16kHz。

S2032：对所述采样数据按照预设的帧长进行分帧处理，得到单帧的短时信号。

对采样数据进行预加重处理，预加重处理其实是将语音信号通过一个高通滤波器：H(Z)＝1-μz^-1。式中μ的值介于0.9-1.0之间。预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。同时，也是为了消除发生过程中声带和嘴唇的效应，来补偿语音信号受到发音***所抑制的高频部分，也为了突出高频的共振峰。

先将N个采样点集合成一个观测单位，称为帧。通常情况下N的值为256或512，涵盖的时间约为20～30ms左右。为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，通常M的值约为N的1/2或1/3。通常语音识别所采用语音信号的采样频率为8KHz或16KHz，以8KHz来说，若帧长度为256个采样点，则对应的时间长度是256/80001000＝32ms。

将每一帧乘以汉明窗，以增加帧左端和右端的连续性。假设分帧后的信号为S(n),n＝0,1,…,N-1,N为帧的大小，那么乘上汉明窗后S′(n)＝S(n)×W(n)，其中，W(n)形式如下：

其中，不同的a值会产生不同的汉明窗，一般情况下a取0.46。

S2033：对每个所述短时信号进行傅里叶变换得到频域数据，并计算所述频域数据的功率谱。

由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。所以在乘上汉明窗后，每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。设语音信号的DFT为：

其中，x(n)用于表示输入的语音信号，N表示傅里叶变换的点数。

S2034：计算所述功率谱在预设的梅尔滤波器中的能量值，并对所述能量值取对数，得到所述梅尔频域特征。

根据语音信号的离散傅里叶变换，计算功率谱在梅尔滤波器中的能量值为：E_a(k)＝|X_a(k)|²。此外，一帧的音量，即能量，也是语音的重要特征，而且非常容易计算。因此，通常再加上一帧的对数能量。即一帧内信号的平方和，再取以10为底的对数值，再乘以10，使得每一帧基本的语音特征就多了一维，包括一个对数能量和剩下的倒频谱参数。若要加入其它语音特征以测试识别率，也可以在此阶段加入，这些常用的其它语音特征包含音高、过零率以及共振峰等。

S2035：将所述梅尔频域特征通过预先训练得到的卷积神经网络，提取出所述语音数据的短时域的声学特征。

CNN由卷积层和池化层组成，具有局部感知、权值共享和池化的特征。卷积层中包含若干个滤波器，当使用梅尔频谱特征作为模型输入，每个滤波器作用于整一张梅尔频谱图，共享相同的权重和偏置，通过卷积操作提取局部特征，卷积结果为音数据的短时域的声学特征。

在本方案中，特征图中每个特征点的计算方式为：其中，用于表示第l+1层的特征图的第i个输出，用于表示第为第l+1层第j个特征图的第i个滤波器的输出，用于表示偏置，*用于表示卷积运算，f(～)为激励函数。池化层通过降采样操作，降低特征数据维度，对尺度、旋转以及缩放具有不变性，并减少模型计算量，不仅可以提取频域方向特征，还可以提取短时域方向的特征。

在实际应用中，CNN的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，这种特有的两次特征提取结构减小了特征分辨率。

S204：从所述语音数据中提取出文本特征，并将所述文本特征输入完成训练的长短时记忆神经网络，提取出所述语音数据的长时域的语言特征；所述长短时记忆神经网络基于所述历史语音数据训练得到。

在本实施例中S204与图1对应的实施例中S103的实现方式完全相同，具体可参考图1对应的实施例中的S103的相关描述，在此不再赘述。

S205：将所述声学特征和所述语言特征进行特征均衡，得到预设维度的特征数据。

语音情感分类神经网络利用框架中的时间步包装器将CNN的特征提取操作应用到输入的每个时间步的梅尔频谱特征上，再利用LSTM对所有时间步进行长时域建模，以此得到维度为256的特征数据，根据这些特征数据和预设的情感分类确定语音数据对应的情感类型。

S206：根据所述特征数据和预设的情绪类型确定所述语音数据对应的情绪类型。

本实施例中提出的算法的情感分类结果包括“愤怒”、“激动”、“兴奋”、“平静”和“悲伤”，在确定特征数据之后，根据所述特征数据和预设的情绪类型确定所述语音数据对应的情绪类型。

进一步的，所述根据所述声学特征和所述语言特征确定所述语音数据对应的情绪类型之后，还包括：

若所述情绪类型是悲伤的情绪类型，则播放预存的欢快音乐；或者

若所述情绪类型是生气的情绪类型，则播放预存的舒缓音乐，搜索最近的休息场所并发送阻尼控制指令；或者

若所述情绪类型是激动的情绪类型，则播放所述舒缓音乐，并通过播放预存的情绪舒缓提示音提示所述司机保持心情平静。

具体的，在检测到司机的情绪之后，判断是否属于兴奋情绪，如果属于悲伤的情绪类型，则播放预存的欢快音乐；如果属于生气情绪，则播放控制生气情绪、注意行车安全的一组提示音，并播放缓解生气情绪的乐曲或歌曲，同时发送阻尼控制指令和最近休息场所搜索指令；如果属于激动情绪，则播放控制激动情绪、注意行车安全的一组提示音，并播放缓解激动情绪的乐曲或歌曲，同时发送阻尼控制指令和最近休息场所搜索指令。通过这些调整措施缓解司机当前的情绪，保证行车安全。

上述方案，通过获取司机当前的语音数据；从所述语音数据中提取出梅尔频域特征，并将所述梅尔频域特征输入完成训练的卷积神经网络，提取出所述语音数据的短时域的声学特征；所述卷积神经网络为基于历史语音数据训练得到；从所述语音数据中提取出文本特征，并将所述文本特征输入完成训练的长短时记忆神经网络，提取出所述语音数据的长时域的语言特征；所述长短时记忆神经网络基于所述历史语音数据训练得到；根据所述声学特征和所述语言特征确定所述语音数据对应的情绪类型。通过CNN网络提取到说话人声学特征，同时通过LSTM网络提取到说话人的语言特征，以精确确定司机的情绪，并根据当前的情绪对其进行相应的提醒和调整，保证行车安全。

参见图3，图3是本发明实施例三提供的一种终端设备的示意图。终端设备包括的各单元用于执行图1～图2对应的实施例中的各步骤。具体请参阅图1～图2各自对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。本实施例的终端设备300包括：

数据获取单元301，用于获取司机当前的语音数据；

第一特征单元302，用于从所述语音数据中提取出梅尔频域特征，并将所述梅尔频域特征输入完成训练的卷积神经网络，提取出所述语音数据的短时域的声学特征；所述卷积神经网络为基于历史语音数据训练得到；

第二特征单元303，用于从所述语音数据中提取出文本特征，并将所述文本特征输入完成训练的长短时记忆神经网络，提取出所述语音数据的长时域的语言特征；所述长短时记忆神经网络基于所述历史语音数据训练得到；

情绪确定单元304，用于根据所述声学特征和所述语言特征确定所述语音数据对应的情绪类型。

进一步的，所述数据获取单元301可以包括：

检测单元，用于检测当前是否开启语音获取权限；

获取单元，用于若已开启所述语音获取权限，则在检测到所述车辆的行进速度达到预设的速度阈值时，获取所述司机的语音数据。

进一步的，所述第一特征单元302可以包括：

采样单元，用于按照预设的采样率对所述语音数据进行重采样，得到采样数据；

分帧单元，用于对所述采样数据按照预设的帧长进行分帧处理，得到单帧的短时信号；

变换单元，用于对每个所述短时信号进行傅里叶变换得到频域数据，并计算所述频域数据的功率谱；

对数单元，用于计算所述功率谱在预设的梅尔滤波器中的能量值，并对所述能量值取对数，得到所述梅尔频域特征；

提取单元，用于将所述梅尔频域特征通过预先训练得到的卷积神经网络，提取出所述语音数据的短时域的声学特征。

进一步的，所述情绪确定单元303可以包括：

均衡单元，用于将所述声学特征和所述语言特征进行特征均衡，得到预设维度的特征数据；

确定单元，用于根据所述特征数据和预设的情绪类型确定所述语音数据对应的情绪类型。

进一步的，所述终端设备还可以包括：

第一控制单元，用于若所述情绪类型是悲伤的情绪类型，则播放预存的欢快音乐；或者

第二控制单元，用于若所述情绪类型是生气的情绪类型，则播放预存的舒缓音乐，搜索最近的休息场所并发送阻尼控制指令；或者

第三控制单元，用于若所述情绪类型是激动的情绪类型，则播放所述舒缓音乐，并通过播放预存的情绪舒缓提示音提示所述司机保持心情平静。

图4是本发明实施例四提供的终端设备的示意图。如图4所示，该实施例的终端设备4包括：处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42。所述处理器40执行所述计算机程序42时实现上述各个司机情绪识别方法实施例中的步骤，例如图1所示的步骤101至104。或者，所述处理器40执行所述计算机程序42时实现上述各装置实施例中各模块/单元的功能，例如图3所示单元301至304的功能。

示例性的，所述计算机程序42可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器41中，并由所述处理器40执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序42在所述终端设备4中的执行过程。

所述终端设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器40、存储器41。本领域技术人员可以理解，图4仅仅是终端设备4的示例，并不构成对终端设备4的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器40可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器41可以是所述终端设备4的内部存储单元，例如终端设备4的硬盘或内存。所述存储器41也可以是所述终端设备4的外部存储设备，例如所述终端设备4上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card，FC)等。进一步地，所述存储器41还可以既包括所述终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种司机情绪识别方法，其特征在于，包括：

获取司机当前的语音数据；

2.如权利要求1所述的司机情绪识别方法，其特征在于，所述获取司机当前的语音数据，包括：

检测当前是否开启语音获取权限；

若已开启所述语音获取权限，则在检测到所述车辆的行进速度达到预设的速度阈值时，获取所述司机的语音数据。

3.如权利要求1所述的司机情绪识别方法，其特征在于，所述从所述语音数据中提取出梅尔频域特征，并将所述梅尔频域特征输入完成训练的卷积神经网络，提取出所述语音数据的短时域的声学特征，包括：

按照预设的采样率对所述语音数据进行重采样，得到采样数据；

对所述采样数据按照预设的帧长进行分帧处理，得到单帧的短时信号；

对每个所述短时信号进行傅里叶变换得到频域数据，并计算所述频域数据的功率谱；

计算所述功率谱在预设的梅尔滤波器中的能量值，并对所述能量值取对数，得到所述梅尔频域特征；

将所述梅尔频域特征通过预先训练得到的卷积神经网络，提取出所述语音数据的短时域的声学特征。

4.如权利要求1所述的司机情绪识别方法，其特征在于，所述根据所述声学特征和所述语言特征确定所述语音数据对应的情绪类型，包括：

将所述声学特征和所述语言特征进行特征均衡，得到预设维度的特征数据；

根据所述特征数据和预设的情绪类型确定所述语音数据对应的情绪类型。

5.如权利要求1-4任一项所述的司机情绪识别方法，其特征在于，所述根据所述声学特征和所述语言特征确定所述语音数据对应的情绪类型之后，还包括：

6.一种终端设备，其特征在于，包括存储器以及处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如下步骤：

获取司机当前的语音数据；

7.如权利要求6所述的终端设备，其特征在于，所述获取司机当前的语音数据，包括：

检测当前是否开启语音获取权限；

8.如权利要求6所述的终端设备，其特征在于，所述从所述语音数据中提取出梅尔频域特征，并将所述梅尔频域特征输入完成训练的卷积神经网络，提取出所述语音数据的短时域的声学特征，包括：

9.如权利要求6所述的终端设备，其特征在于，所述根据所述声学特征和所述语言特征确定所述语音数据对应的情绪类型，包括：

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。