CN111354377A

CN111354377A - 通过声音识别情绪的方法及装置、电子设备

Info

Publication number: CN111354377A
Application number: CN201910569691.XA
Authority: CN
Inventors: 鲁召选
Original assignee: Shenzhen Honghe Innovation Information Technology Co Ltd
Current assignee: Shenzhen Honghe Innovation Information Technology Co Ltd
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2020-06-30
Anticipated expiration: 2039-06-27
Also published as: CN111354377B

Abstract

本发明公开了一种通过声音识别情绪的方法及装置、电子设备，包括：获取识别对象的语音信号；对所述语音信号进行处理，得到语音特征向量；将所述语音特征向量输入情绪识别模型，识别得到第一情绪识别结果；根据所述语音特征向量，查找情绪词数据库，得到第二情绪识别结果；根据所述第一情绪识别结果和所述第二情绪识别结果，得到最终的情绪识别结果。本发明能够通过声音识别情绪。

Description

通过声音识别情绪的方法及装置、电子设备

技术领域

本发明涉及人工智能技术领域，特别是指一种通过声音识别情绪的方法及装置、电子设备。

背景技术

声音具有多种特征，通过声音能够识别发出声音的个体类别，对于人类，能够根据声音的不同特征，识别人的情绪。在教育领域，通过声音识别学生的情绪，能够帮助教师及时了解学生的情况，便于教师调整教学方式，提高教学效果，或是及时发现情绪异常的学生并进行正面引导。

发明内容

有鉴于此，本发明的目的在于提出一种通过声音识别情绪的方法及装置、电子设备，能够通过声音识别情绪。

基于上述目的，本发明提供了一种通过声音识别情绪的方法，包括：

获取识别对象的语音信号；

对所述语音信号进行处理，得到语音特征向量；

将所述语音特征向量输入情绪识别模型，识别得到第一情绪识别结果；

根据所述语音特征向量，查找情绪词数据库，得到第二情绪识别结果；

根据所述第一情绪识别结果和所述第二情绪识别结果，得到最终的情绪识别结果。

可选的，所述语音特征向量包括语气特征、语速特征、语调特征、发音频率特征、口音特征和用词。

可选的，将所述语气特征、语速特征、语调特征、发音频率特征输入所述情绪识别模型，识别得到所述第一情绪识别结果。

可选的，根据所述口音特征、用词查找所述情绪词数据库，得到所述第二情绪识别结果。

可选的，所述方法还包括：

根据所述语音特征向量，查找身份信息数据库，得到与所述识别对象匹配的身份信息。

本发明实施例还提供一种通过声音识别情绪的装置，包括：

语音获取模块，用于获取识别对象的语音信号；

语音处理模块，用于对所述语音信号进行处理，得到语音特征向量；

第一识别模块，用于将所述语音特征向量输入情绪识别模型，识别得到第一情绪识别结果；

第二识别模块，用于根据所述语音特征向量，查找情绪词数据库，得到第二情绪识别结果；

识别结果模块，用于根据所述第一情绪识别结果和所述第二情绪识别结果，得到最终的情绪识别结果。

可选的，语音特征向量包括语气特征、语速特征、语调特征、发音频率特征、口音特征和用词。

可选的，所述第一识别模块，用于将所述语气特征、语速特征、语调特征、发音频率特征输入所述情绪识别模型，识别得到所述第一情绪识别结果。

可选的，所述第二识别模块，用于根据所述口音特征、用词查找所述情绪词数据库，得到所述第二情绪识别结果。

可选的，所述装置还包括：

身份识别模块，用于根据所述语音特征向量，查找身份信息数据库，得到与识别对象匹配的身份信息。

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述通过声音识别情绪的方法。

从上面所述可以看出，本发明提供的通过声音识别情绪的方法及装置、电子设备，通过获取识别对象的语音信号，对语音信号进行处理，得到语音特征向量，根据语音特征向量，利用情绪识别模型识别得到第一情绪识别结果，根据语音特征向量，查找情绪词数据库，得到第二情绪识别结果，根据第一、第二情绪识别结果，得到最终的情绪识别结果。本发明能够通过声音识别情绪。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的方法流程示意图；

图2为本发明实施例的装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

图1为本发明实施例的方法流程示意图。如图所示，本发明实施例的通过声音识别情绪的方法，包括：

S10：获取识别对象的语音信号；

于一些实施例中，可通过语音采集设备采集识别对象的语音信号。

在学校的应用场景，可于每个学生的课桌位置配置一部语音采集设备，在上课过程中，可通过各语音采集设备采集对应学生的语音信号。各语音采集设备采集的语音信号经传输至服务器，服务器获取语音信号，对语音信号进行后续的语音识别与分析处理。

S11：对语音信号进行处理，得到语音特征向量；

对语音信号进行处理，得到语音特征向量，语音特征向量包括语气特征、语速特征、语调特征、发音频率特征、口音特征和用词等语音特征。其中，语音信号处理方法包括频域信号处理、时域信号处理、去噪处理、语音增强处理等，语音信号处理方法已属于现有技术，本申请不对语音信号处理的具体方法流程进行详细描述。

S12：将语音特征向量输入情绪识别模型，识别得到第一情绪识别结果；

于一些实施例中，预先建立情绪识别模型，建立方法是，采集若干识别对象的语音信号，对语音信号进行处理，得到若干组语音特征向量，将若干组语音特征向量作为训练样本，输入分类器进行分类训练，得到情绪识别模型。其中，可利用梅尔频率倒谱系数方法对语音信号处理得到MFCC特征，作为模型的训练样本。

可选的，情绪识别模型能够根据输入的语音特征向量中的语气特征、语速特征、语调特征、发音频率特征识别高兴、伤心、愤怒、害怕、惊讶、疑惑等其中一种情绪识别结果。例如，语气缓和、语速慢、语调为降调、发音频率较低，情绪识别模型输出的第一情绪识别结果为伤心，语气为疑问、语调为升调，情绪识别模型输出的第一情绪识别结果为疑惑，语气怒、语速快、语调为升调、发音频率快，情绪识别模型输出的第一情绪识别结果为愤怒等。其中，语气类型、语速快慢、语调类型、发音频率快慢均可以根据预设的阈值确定。

S13：根据语音特征向量，查找情绪词数据库，得到第二情绪识别结果；

于一些实施例中，预先建立情绪词数据库，情绪词数据库中包括各种情绪对应的不同口音的用词，根据语音特征向量中的口音特征、用词查找情绪词数据库，得到第二情绪识别结果。例如，用词为“呵呵”、“哈哈”、“太好了”，查找得到第二情绪识别结果为高兴，用词为“什么”，查找得到第二情绪识别结果为疑惑或是惊讶，用词为不文明用语，查找得到第二情绪识别结果为愤怒等。

S14：根据第一情绪识别结果和第二情绪识别结果，得到最终的情绪识别结果。

于一些实施例中，通过语气特征、语速特征、语调特征、发音频率特征，利用情绪识别模型识别得到第一情绪识别结果，通过口音特征、用词，通过情绪词数据库识别得到第二情绪识别结果，综合根据第一情绪识别结果和第二情绪识别结果，得到最终的情绪识别结果。例如，若第一情绪识别结果和第二情绪识别结果均为高兴，则最终的情绪识别结果为高兴，若第一情绪识别结果为疑惑，第二情绪识别结果为疑惑或是惊讶，则最终的情绪识别结果为疑惑，若第一情绪识别结果为愤怒，第二情绪识别结果未匹配，则最终的情绪识别结果为愤怒等。

于一些实施例中，还包括身份信息数据库，用于存储识别对象的语音特征向量。预先采集识别对象的语音信号，对语音信号进行处理，得到语音特征向量，将识别对象的身份信息及对应的语音特征向量，保存于身份信息数据库。根据获取的语音信号，对语音信号进行处理，得到待匹配语音特征向量，根据待匹配语音特征向量，查找身份信息数据库，若得到查找结果，将查找结果作为匹配的身份信息，即，本发明实施例能够根据识别对象的语音信号，识别出识别对象的身份信息。

在学校的应用场景，通过每个学生课桌上的语音采集设备采集的每个学生的语音信号，各语音采集设备采集的各路语音信号发送至服务器，服务器根据获取的多路语音信号，对各路语音信号进行语音信号处理，得到各路语音信号对应的语音特征向量。根据各组语音特征向量查找身份信息数据库，查找得到与各组语音特征向量匹配的身份信息，即根据语音特征向量识别学生的身份信息(姓名、性别、班级等信息)；根据各组语音特征向量，利用情绪识别模型识别得到各组语音特征向量分别对应的第一情绪识别结果；根据各组语音特征向量，查找情绪词数据库，得到各组语音特征向量分别对应的第二情绪识别结果，最后，根据第一情绪识别结果和第二情绪识别结果，得到各组语音特征向量分别对应的情绪识别结果，结合识别出的身份信息，得到每个学生的情绪状态。

图2为本发明实施例的装置结构示意图。如图所示，本发明实施例提供的通过声音识别情绪的装置，包括：

语音获取模块，用于获取识别对象的语音信号；

语音处理模块，用于对语音信号进行处理，得到语音特征向量；

第一识别模块，用于将语音特征向量输入情绪识别模型，识别得到第一情绪识别结果；

第二识别模块，用于根据语音特征向量，查找情绪词数据库，得到第二情绪识别结果；

识别结果模块，用于根据第一情绪识别结果和第二情绪识别结果，得到最终的情绪识别结果。

在学校的应用场景，可于每个学生的课桌位置配置一部语音采集设备，在上课过程中，可通过各语音采集设备采集对应学生的语音信号。各语音采集设备采集的语音信号经传输至服务器，服务器的语音获取模块获取语音信号，对语音信号进行后续的语音识别与分析处理。

于一些实施例中，语音处理模块对语音信号进行处理，得到语音特征向量，语音特征向量包括语气特征、语速特征、语调特征、发音频率特征、口音特征、用词等语音特征。其中，语音信号处理方法包括频域信号处理、时域信号处理、去噪处理、语音增强处理等，语音信号处理方法已属于现有技术，本申请不对语音信号处理的具体方法流程进行详细描述。

于一些实施例中，预先建立情绪识别模型，建立方法是，采集若干识别对象的语音信号，对语音信号进行处理，得到若干组语音特征向量，将若干组语音特征向量作为训练样本，进行分类训练，得到情绪识别模型。

其中，第一识别模块利用情绪识别模型能够根据输入的语音特征向量中的语气特征、语速特征、语调特征、发音频率特征识别高兴、伤心、愤怒、害怕、惊讶、疑惑等其中一种情绪识别结果。例如，语气缓和、语速慢、语调为降调、发音频率较低，情绪识别模型输出的第一情绪识别结果为伤心，语气疑问、语调为升调，情绪识别模型输出的第一情绪识别结果为疑惑，语气怒、语速快、语调为升调、发音频率快，情绪识别模型输出的第一情绪识别结果为愤怒等。

于一些实施例中，预先建立情绪词数据库，情绪词数据库中包括各种情绪对应的不同口音的用词，第二识别模块根据语音特征向量中的口音特征、用词查找情绪词数据库，得到第二情绪识别结果。例如，用词为“呵呵”、“哈哈”、“太好了”，查找得到第二情绪识别结果为高兴，用词为“什么”，查找得到第二情绪识别结果为疑惑或是惊讶，用词为不文明用语，查找得到第二情绪识别结果为愤怒等。

于一些实施例中，通过语气特征、语速特征、语调特征、发音频率特征，利用情绪识别模型识别得到第一情绪识别结果，通过口音特征、用词，通过情绪词数据库识别得到第二情绪识别结果，识别结果模块综合根据第一情绪识别结果和第二情绪识别结果，得到最终的情绪识别结果。例如，若第一情绪识别结果和第二情绪识别结果均为高兴，则最终的情绪识别结果为高兴，若第一情绪识别结果为疑惑，第二情绪识别结果为疑惑或是惊讶，则最终的情绪识别结果为疑惑，若第一情绪识别结果为愤怒，第二情绪识别结果未匹配，则最终的情绪识别结果为愤怒等。

本发明实施例的通过声音识别情绪的装置，还包括：

身份识别模块，用于根据语音特征向量，查找身份信息数据库，得到与识别对象匹配的身份信息。

于一些实施例中，身份识别模块根据语音特征向量，查找身份信息数据库，根据查找结果得到识别对象的身份信息。

所述身份信息数据库，用于存储识别对象的语音特征向量。预先采集识别对象的语音信号，对语音信号进行处理，得到语音特征向量，将识别对象的身份信息及对应的语音特征向量，保存于身份信息数据库。根据获取的语音信号，对语音信号进行处理，得到待匹配语音特征向量，根据待匹配语音特征向量，查找身份信息数据库，若得到查找结果，将查找结果作为匹配的身份信息，即，本发明实施例能够根据识别对象的语音信号，识别识别对象的身份信息。

基于上述目的，本发明实施例还提出了一种执行所述通过声音识别情绪的方法的装置的一个实施例。所述装置包括：

一个或多个处理器以及存储器。

所述执行所述通过声音识别情绪的方法的装置还可以包括：输入装置和输出装置。

处理器、存储器、输入装置和输出装置可以通过总线或者其他方式连接。

存储器作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的通过声音识别情绪的方法对应的程序指令/模块。处理器通过运行存储在存储器中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的通过声音识别情绪的方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据执行所述通过声音识别情绪的方法的装置的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至会员用户行为监控装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置可接收输入的数字或字符信息，以及产生与执行通过声音识别情绪的方法的装置的用户设置以及功能控制有关的键信号输入。输出装置可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器中，当被所述一个或者多个处理器执行时，执行上述任意方法实施例中的通过声音识别情绪的方法。所述执行所述通过声音识别情绪的方法的装置的实施例，其技术效果与前述任意方法实施例相同或者类似。

本发明实施例还提供了一种非暂态计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的列表项操作的处理方法。所述非暂态计算机存储介质的实施例，其技术效果与前述任意方法实施例相同或者类似。

最后需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。所述计算机程序的实施例，其技术效果与前述任意方法实施例相同或者类似。

此外，典型地，本公开所述的装置、设备等可为各种电子终端设备，例如手机、个人数字助理(PDA)、平板电脑(PAD)、智能电视等，也可以是大型终端设备，如服务器等，因此本公开的保护范围不应限定为某种特定类型的装置、设备。本公开所述的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。

此外，根据本公开的方法还可以被实现为由CPU执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时，执行本公开的方法中限定的上述功能。

此外，上述方法步骤以及***单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。

此外，应该明白的是，本文所述的计算机可读存储介质(例如，存储器)可以是易失性存储器或非易失性存储器，或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的，非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM)，该RAM可以充当外部高速缓存存储器。作为例子而非限制性的，RAM可以以多种形式获得，比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)以及直接RambusRAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。

上述实施例的装置用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种通过声音识别情绪的方法，其特征在于，包括：

获取识别对象的语音信号；

对所述语音信号进行处理，得到语音特征向量；

2.根据权利要求1所述的方法，其特征在于，所述语音特征向量包括语气特征、语速特征、语调特征、发音频率特征、口音特征和用词。

3.根据权利要求2所述的方法，其特征在于，将所述语气特征、语速特征、语调特征、发音频率特征输入所述情绪识别模型，识别得到所述第一情绪识别结果。

4.根据权利要求2所述的方法，其特征在于，根据所述口音特征、用词查找所述情绪词数据库，得到所述第二情绪识别结果。

5.根据权利要求1所述的方法，其特征在于，还包括：

6.一种通过声音识别情绪的装置，其特征在于，包括：

语音获取模块，用于获取识别对象的语音信号；

7.根据权利要求6所述的装置，其特征在于，语音特征向量包括语气特征、语速特征、语调特征、发音频率特征、口音特征和用词。

8.根据权利要求7所述的装置，其特征在于，

所述第一识别模块，用于将所述语气特征、语速特征、语调特征、发音频率特征输入所述情绪识别模型，识别得到所述第一情绪识别结果。

9.根据权利要求7所述的装置，其特征在于，

所述第二识别模块，用于根据所述口音特征、用词查找所述情绪词数据库，得到所述第二情绪识别结果。

10.根据权利要求6所述的装置，其特征在于，还包括：

11.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任意一项所述的方法。