CN108305642A

CN108305642A - 情感信息的确定方法和装置

Info

Publication number: CN108305642A
Application number: CN201710527116.4A
Authority: CN
Inventors: 刘海波
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-06-30
Filing date: 2017-06-30
Publication date: 2018-07-20
Anticipated expiration: 2037-06-30
Also published as: CN108305642B

Abstract

本发明公开了一种情感信息的确定方法和装置。其中，该方法包括：获取目标音频；从目标音频中识别出第一文本信息，目标音频具有语音特征，第一文本信息具有文本特征；基于第一文本信息具有的文本特征和目标音频具有的语音特征确定目标音频的目标情感信息。本发明解决了相关技术中无法准确识别说话者的情感信息的技术问题。

Description

情感信息的确定方法和装置

技术领域

本发明涉及互联网领域，具体而言，涉及一种情感信息的确定方法和装置。

背景技术

现在，伴随着多媒体内容的增加，从市场上需求可进行短时间内的视听的内容概要技术。此外，内容的种类呈现多样化的趋势，例如电影、连续剧、家庭录像、新闻、纪录片、音乐内容、生活实时场景、网络小说、文字新闻等，对应于此，试听者的视听要求也越来越多样化。

伴随着这种视听要求的多样化，需要用于对试听者的视听要求立即检索、提示要观看的适配、场面的技术。例如内容概要技术，即基于包含的文字信息而概要内容，在内容概要技术中，通过对文字信息进行分析，从而确定文字信息携带的情感，如笑、生气、悲伤等。

上述的分析方法中，可采用基于音频的情感检测方法对说话者的音频进行检测，使用音频进行情感检测，对说话者具有比较明显的情感表达的情况具有比较好的作用，当说话人的情感表达不强烈，比如一个很高兴的事情，用很平淡的语气表达出来，此时音频中几乎不带有用于表达高兴的特征，对于这种情况，基于语音的情感检测就失去作用，没有办法根据语音特征进行准确判决，甚至可能得到错误的判决结果。

针对相关技术中无法准确识别说话者的情感信息的技术问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种情感信息的确定方法和装置，以至少解决相关技术中无法准确识别说话者的情感信息的技术问题。

根据本发明实施例的一个方面，提供了一种情感信息的确定方法，该确定方法包括：获取目标音频；从目标音频中识别出第一文本信息，目标音频具有语音特征，第一文本信息具有文本特征；基于第一文本信息具有的文本特征和目标音频具有的语音特征确定目标音频的目标情感信息。

根据本发明实施例的另一方面，还提供了一种情感信息的确定装置，该确定装置包括：获取单元，用于获取目标音频；识别单元，用于从目标音频中识别出第一文本信息，目标音频具有语音特征，第一文本信息具有文本特征；确定单元，用于基于第一文本信息具有的文本特征和目标音频具有的语音特征确定目标音频的目标情感信息。

在本发明实施例中，在获取到目标音频时，从目标音频中识别出第一文本信息，然后基于第一文本信息具有的文本特征和目标音频具有的语音特征确定目标音频的目标情感信息，也即在文本信息具有明显的情感表露时能够通过文本信息的文本特征来确定情感信息，在目标音频具有明显的情感表露时能够通过目标音频的语音特征来确定情感信息，可以解决相关技术中无法准确识别说话者的情感信息的技术问题，进而达到提高识别说话者的情感信息的准确度的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的情感信息的确定方法的硬件环境的示意图；

图2是根据本发明实施例的一种可选的情感信息的确定方法的流程图；

图3是根据本发明实施例的可选的训练卷积神经网络模型的流程图；

图4是根据本发明实施例的可选的训练深度神经网络模型的流程图；

图5是根据本发明实施例的一种可选的情感信息的确定方法的流程图；

图6是根据本发明实施例的一种可选的情感信息的确定装置的示意图；

图7是根据本发明实施例的一种可选的情感信息的确定装置的示意图；以及

图8是根据本发明实施例的一种终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种情感信息的确定方法的方法实施例。

可选地，在本实施例中，上述情感信息的确定方法可以应用于如图1所示的由服务器102和终端104所构成的硬件环境中。如图1所示，服务器102通过网络与终端104进行连接，上述网络包括但不限于：广域网、城域网或局域网，终端104并不限定于PC、手机、平板电脑等。本发明实施例的情感信息的确定方法可以由服务器102来执行，也可以由终端104来执行，还可以是由服务器102和终端104共同执行。其中，终端104执行本发明实施例的情感信息的确定方法也可以是由安装在其上的客户端来执行。

当本发明实施例的情感信息的确定方法由服务器或终端来单独执行时，直接在服务器或终端上来执行与本申请的方法对应的程序代码即可。

当本发明实施例的情感信息的确定方法由服务器和终端共同来执行时，由终端发起识别目标音频的需求，此时，由终端将待识别的目标语音发送给服务器，再由服务器来执行与本申请的方法对应的程序代码，并将识别的结果反馈给终端。

下面以在服务器或终端上来执行与本申请的方法对应的程序代码为例详述本申请的实施例，图2是根据本发明实施例的一种可选的情感信息的确定方法的流程图，如图2所示，该方法可以包括以下步骤：

步骤S202，获取目标音频。

可以是终端主动获取目标音频，或者接收其它设备发送的目标音频，或者在目标指令的触发下获取目标音频。目标指令相当于用户或者终端触发的用于识别目标音频的指令。获取目标音频是为了识别目标音频的情感信息，该情感信息为通过目标音频表述文本信息时所表露(包括但不局限于通过文本中的字眼或文字、音频中的音调、音色等所表露出)出来的情感信息。

上述的文本信息是指一个句子或多个句子的组合，一个文本包括但不局限于一个句子(Sentence)、一个段落(Paragraph)或者一个篇章(Discourse)。

情感信息是用于描述说话者情感的信息，如在聊到某件事时，表达出与高兴相关的情感(高兴、平淡、悲伤)，如接收到别人道歉时，表达出与原谅相关的情感(原谅、不置可否、不原谅)等。

步骤S204，从目标音频中识别出第一文本信息，目标音频具有语音特征，第一文本信息具有文本特征。

从目标音频中识别出第一文本信息，是指通过语音识别的方式识别出目标音频所表达的第一文本信息(此处识别出的第一文本信息可能与实际表述的文本信息存在细微区别)。

对于语音识别而言，语音特征包括以下几方面的特征：感知加权线性预测PLP(Perceptual Linear Predictive)、Mel频率倒谱系数MFCC(Mel-Frequency CepstralCoefficients)、FBANK(Filter-bank特征)、音调PITCH(如高低音)、语音能量ENERGY、I-VECTOR(反映说话人声学差异的一种重要特征)等。本申请中的使用的特征可以为上述中的一个或多个，优选地使用多个。

对于文本识别而言，可以通过语音识别引擎从目标音频中识别出上述的第一文本信息，文本信息的文本特征包括文本中每个短语或词汇的情感类型、情感倾向、情感强度等特征，还可以是短语之间的关联关系特征等。

步骤S206，基于第一文本信息具有的文本特征和目标音频具有的语音特征确定目标音频的目标情感信息。

在确定目标音频的目标情感信息时，综合考虑了第一文本信息具有的文本特征和目标音频具有的语音特征，相对于相关技术中，仅采用基于音频的情感检测方法对说话者的音频进行检测而言，既可以使用音频进行情感检测，对说话者具有比较明显的情感表达的情况具有比较好的作用，但当说话人的情感表达不强烈，比如一个很高兴的事情，用很平淡的语气表达出来时，音频中几乎不带有用于表达高兴的特征，对于这种情况，还可以使用基于文本的情感检测方法对说话者的音频中的文本信息进行检测，从而可以根据文本特征进行准确判决，以弥补仅仅通过音频来进行情感检测的不足，达到提高判决结果的准确度的效果。

通过上述步骤S202至步骤S206，在获取到目标音频时，从目标音频中识别出第一文本信息，然后基于第一文本信息具有的文本特征和目标音频具有的语音特征确定目标音频的目标情感信息，也即在文本信息具有明显的情感表露时能够通过文本信息的文本特征来确定情感信息，在目标音频具有明显的情感表露时能够通过目标音频的语音特征来确定情感信息，可以解决相关技术中无法准确识别说话者的情感信息的技术问题，进而达到提高识别说话者的情感信息的准确度的技术效果。

仅采用基于音频的情感检测方法对说话者的音频进行检测而言，对说话者具有比较明显的情感表达的情况具有比较好的作用，使用基于文本的情感检测方法对说话者的音频中的文本信息具有比较明显的情感表达的情况具有比较好的作用，然而，何时(即什么样的场景或什么样的语音)利用基于音频的情感检测方法进行检测，何时利用基于文本的情感检测方法进行检测是未知的，不可能提前预知使用哪一种方法来对当前待检测音频的检测效果更好。

申请人考虑到，对于某些情感比较明显的文本若使用平淡的语气表述(如情感为高兴的文本若使用平淡的语气表述)，使用基于文本的情感检测方法的识别效果明显较好，对于某些情感比平淡显的文本若使用带明显情感的语气表述(如比较平淡的文本用高兴的语气表述)，基于音频的情感检测方法的识别效果明显较好，上述情感比较明显的文本可以使用平淡的语气或情感比较明显的语气表述，情感比较平淡的文本也可以使用带显著情感的语气或平淡的语气表述，不会出现某些正向情感比较明显的文本使用反向情感的语气表述，如带高兴情感色彩的文本使用悲伤的语气来表述。

因此，在上述认识的基础上，只要语音和文字之一带明显的情感色彩(即第一情感等级的情感信息)，则可以确定目标语音为带有情感色彩的语音。基于第一文本信息具有的文本特征和目标音频具有的语音特征确定目标音频的目标情感信息时，获取根据文本特征确定的第一识别结果，第一识别结果用于表示根据文本特征识别出的情感信息；获取根据语音特征确定的第二识别结果，第二识别结果用于表示根据语音特征识别出的情感信息；在第一识别结果和第二识别结果中的至少之一表示的情感信息为第一情感等级的情感信息时，将目标音频的目标情感信息确定为第一情感等级的情感信息。

上述的第一情感等级为带比较明显情感信息的等级，而不是趋于中间平淡(不带明显情感)的信息，如对于高兴、平淡、悲伤这一组情感信息而言，第一情感等级的情感信息是指高兴或悲伤，而不是平淡，对于其他类型的情感信息，与此类似，不再赘述。

在本申请的上述进行识别的技术方案中，包括但不局限于采用普通的算法或者机器学习相关的算法进行特征识别和情感信息的识别，为了提高的准确度，可以采用机器学习相关的算法来进行特征识别和情感信息的识别。下面进行具体说明：

(1)基于文本识别的CNN训练流程

在执行本申请的上述步骤S202至步骤S206之前，可先对算法模型进行训练：在获取目标音频之前，使用第二文本信息(训练文本)和第一情感信息对第二卷积神经网络模型(原始卷积神经网络模型)进行训练，以确定第二卷积神经网络模型中参数的取值，并将确定了参数的取值之后的第二卷积神经网络模型设置为第一卷积神经网络模型，其中，第一情感信息为第二文本信息的情感信息。如图3所示：

步骤S301，对训练文本进行分词。

对训练语句进行分词，比如对例句“今天发工资了，我非常开心”分词的结果为：今天、发工资、了、我、非常、开心。这个训练的语句的情感标签(实际情感信息)是高兴。

步骤S302，训练CNN模型(即第二卷积神经网络模型)。

步骤S3021，Word2vector(词向量化)。

词向量顾名思义是用一个向量的形式表示一个词。由于机器学习任务需要把输入量化成数值表示，然后通过充分利用计算机的计算能力，计算得出最终想要的结果，所以需要将词向量化。

根据训练语句中分词的个数，形成一个n*k的矩阵，其中，n是训练语句词的个数，k为向量vector的维数，这个矩阵的类型可以是固定的，也可以是动态的，根据具体的情况进行选择。

目前word2vector有比较多并且稳定的算法，本申请可以选择CBOW和Skip-gram实现，对于CBOW算法模型和Skip-gram算法模型，可以Huffman树作为基础，Huffman树中非叶节点存储的中间向量的初始化值是零向量，而叶节点对应的单词的词向量是随机初始化的。

步骤S3022，卷积层进行特征提取。

步骤S3021生成的n*k矩阵，经过卷积层，得到若干个列数为1的矩阵，这个层类似一个特征提取层进行特征提取。

步骤S3023，池层进行池化处理。

步骤S3022生成的若干个列为1的矩阵，可以根据实际情况选取特征值最大的一个或者最大的几个作为新的特征，经过这一层之后形成固定维数的特征，以解决句子长短的问题。

步骤S3024，NN层的处理。

步骤S3023生成的新特征可以根据实际情况经过一层或者多层的神经网络层，最后一层为softmax层，经过NN层，得到一个属性的标签或者得分。

步骤S3025，Back-Propagation(BP)的处理。

当步骤S3024得到一个属性标签或者得分时，根据训练语句的实际情感标签与识别属性之间的误差进行回退对参数进行更新，进过几轮迭代使模型达到最优，由此训练过程完成，得到CNN模型(第一卷积神经网络模型)。

(2)基于语音的DNN训练过程

在执行本申请的上述步骤S202至步骤S206之前，可先对算法模型进行训练还包括：在获取目标音频之前，使用训练音频(或训练语音)和第二情感信息对第二深度神经网络模型进行训练，以确定第二深度神经网络模型中参数的取值，并将确定了参数的取值之后的第二深度神经网络模型设置为第一深度神经网络模型，其中，第二情感信息为训练音频的情感信息。下面结合图4进行详述：

步骤S401，对训练音频进行特征提取。

对训练语音进行特征提取，提取的特征可以有很多种，比如PLP，MFCC，FBANK，PITCH，ENERGY，I-VECTOR等，可以提取这多种特征中的一个或者多个，本申请优先使用的特征是多种特征的融合。

步骤S402，利用提取的特征对DNN(第二深度神经网络模型)进行训练。

根据实际情况选择包括一层或者多层神经网络层的DNN模型，DNN模型的最后一层是softmax层(回归模型)，将前一步骤得到的融合特征经过前后帧的扩展进入深度神经网络DNN层，然后经过softmax层输出。

DNN模型还可包括Back-Propagation(反向传播算法BP层)，BP层将softmax层的输入标签或者是得分与情感标签的结果的差值使用BP算法进行处理，对DNN的参数进行更新，进过几轮迭代使模型达到一个最优，得到第一深度神经网络模型；识别过程不需要进行该步骤。

(3)基于语音和文本的联合训练

在上述的(1)和(2)中是分别对两个模型进行训练，在识别时并未挖掘语音和文本的内在关联，而是对文本和语音进行分别识别。为了挖掘语音和文本的内在关联可以使用语音和文本对模型进行联合训练：

在获取目标音频之前，使用训练音频和第二文本信息对第二深度神经网络模型进行训练，以确定第二深度神经网络模型中参数的取值，并将确定了参数的取值之后的第二深度神经网络模型设置为第一深度神经网络模型。

上述的训练音频具有第二语音特征，第二文本信息具有第二文本特征，其中，使用训练音频和第二文本信息对第二深度神经网络模型进行训练，以确定第二深度神经网络模型中参数的取值，并将确定了参数的取值之后的第二深度神经网络模型设置为第一深度神经网络模型具体包括：

步骤1，将第二语音特征和第二文本特征作为第二深度神经网络模型的输入，以对第二深度神经网络模型进行训练，其中，对第二深度神经网络模型进行训练包括为第二深度神经网络模型中的参数赋值，训练音频携带有第一情感信息；

步骤2，在第二深度神经网络模型输出的第二情感信息与第一情感信息匹配的情况下，将对参数赋值后的第二深度神经网络模型设置为第一深度神经网络模型，其中，第一深度神经网络模型用于根据关联关系识别情感信息，关联关系用于描述情感信息与语音特征、第一文本特征之间的关联关系；

步骤3，在第二情感信息与第一情感信息不匹配的情况下，调整赋予第二深度神经网络模型中参数的取值，以使调整赋予参数的取值后的第二深度神经网络模型输出的第二情感信息与第一情感信息匹配；

步骤4，在使用经过训练后的模型进行识别时(即执行基于第一文本信息具有的文本特征和目标音频具有的语音特征确定目标音频的目标情感信息时)，将第一语音特征和第一文本特征作为第一深度神经网络模型的输入，并获取第一深度神经网络模型根据第一语音特征和第一文本特征确定的目标音频的目标情感信息。

在步骤S202提供的技术方案中，获取目标音频，如在终端上获取用户通过音频输入设备(如麦克风)输入的一段音频。

在步骤S204提供的技术方案中，从目标音频中识别出第一文本信息，目标音频具有语音特征，第一文本信息具有文本特征。

声学特征的提取与选择是语音识别的一个重要环节，声学特征的提取既是一个信息大幅度压缩的过程，也是一个信号解卷过程，目的是使模式划分器能更好地划分。由于语音信号的时变特性，特征提取必须在一小段语音信号上进行，也即进行短时分析。这一段被认为是平稳的分析区间称之为帧，帧与帧之间的偏移通常取帧长的1/2或1/3。通常提取目标音频中的语音特征的过程中，可对信号进行预加重以提升高频，对信号加窗以避免短时语音段边缘的影响。上述的得到第一文本信息的过程可以通过语音识别引擎实现。

在步骤S206提供的技术方案中，基于第一文本信息具有的文本特征和目标音频具有的语音特征确定目标音频的目标情感信息。步骤S206提供的技术方案包括至少以下两种实现方式：

(1)方式一

基于第一文本信息具有的文本特征和目标音频具有的语音特征确定目标音频的目标情感信息时，获取根据文本特征确定的第一识别结果，第一识别结果用于表示根据文本特征识别出的情感信息；获取根据语音特征确定的第二识别结果，第二识别结果用于表示根据语音特征识别出的情感信息；在第一识别结果和第二识别结果中的至少之一表示的情感信息为第一情感等级的情感信息时，将目标音频的目标情感信息确定为第一情感等级的情感信息。如对于高兴、平淡、悲伤这一组情感信息而言，在第一识别结果和第二识别结果中只要有一个为高兴或悲伤，则最终的结果(目标情感信息)为高兴或悲伤，而忽略无明显情感倾向的平淡第一等级的情感信息的影响。

上述的第一识别结果和第二识别结果可以直接是识别出的情感信息，也可以是用于指示识别出的情感信息的其他信息(如情感分数、情感类型等)。

可选地，文本特征的识别通过第一卷积神经网络模型实现，在获取根据文本特征确定的第一识别结果时，直接从第一卷积神经网络模型获取根据从第一文本信息中识别出的文本特征确定的第一识别结果。

上述的获取第一卷积神经网络模型根据从第一文本信息中识别出的文本特征确定的第一识别结果包括：通过第一卷积神经网络模型的特征提取层在多个特征维度上对第一文本信息进行特征提取，得到多个文本特征，在每个特征维度上提取得到一个文本特征；通过第一卷积神经网络模型的分类层对多个文本特征中的第一文本特征进行特征识别，得到第一识别结果(也即选取特征值最大的一个或者几个特征)，文本特征包括第一文本特征和第二文本特征，第一文本特征的特征值大于任意一个第二文本特征的特征值。

语音特征的识别通过第一深度神经网络模型实现，在获取根据语音特征确定的第二识别结果时，直接从第一深度神经网络模型获取根据从目标音频识别出的语音特征确定的第二识别结果。

(2)方式二

基于第一文本信息具有的文本特征和目标音频具有的语音特征确定目标音频的目标情感信息包括：获取根据文本特征确定的第一识别结果，第一识别结果包括用于指示根据文本特征识别出的情感信息的第一情感参数；获取根据语音特征确定的第二识别结果，第二识别结果包括用于指示根据语音特征识别出的情感信息的第二情感参数；将用于指示目标情感信息的第三情感参数final_score设置为：第一情感参数Score1*为第一情感参数设置的权重a+第二情感参数Score2*为第二情感参数设置的权重(1-a)；将位于第二情感等级的情感信息确定为目标情感信息，第二情感等级是与第三情感参数所在的情感参数区间对应的情感等级，每个情感等级对应有一个情感参数区间。

需要说明的是，在获取根据文本特征确定的第一识别结果时，和获取根据语音特征确定的第二识别结果时，可参见上述的方式一中使用的模型进行计算。

可选地，在基于第一文本信息具有的文本特征和目标音频具有的语音特征确定目标音频的目标情感信息之后，播放目标音频并展示目标音频的目标情感信息；接收用户的反馈信息，反馈信息中包括用于指示识别出的目标情感信息是否正确的指示信息，在不正确的情况下，反馈信息中还包括用户根据播放的目标音频识别出的实际情感信息。

若识别出的目标情感信息不正确，则说明卷积神经网络模型和深度神经网络模型的识别准确度有待提高，尤其是对于这一类识别错误的音频信息，其识别率更差，此时，利用负反馈机制来提高识别率，具体可利用这一类识别错误的音频信息按照上述的方式对卷积神经网络模型和深度神经网络模型进行重新训练，以调整两个模型中参数的值，提高其识别准确率。

可选地，基于第一文本信息具有的文本特征和目标音频具有的语音特征确定目标音频的目标情感信息时，可将目标音频划分为若干个音频段，从多个音频段中识别出多个第一文本信息，其中，任意一个第一文本信息是从对应的一个音频段中识别出的，音频段具有语音特征，第一文本信息具有文本特征，从而可基于多个音频段的语音特征和多个第一文本信息具有的文本特征确定多个音频段的目标情感信息。

基于多个音频段的语音特征和多个第一文本信息具有的文本特征确定多个音频段的目标情感信息包括按照如下方式确定每个音频段的目标情感信息：获取根据第一文本信息的文本特征确定的第一识别结果(也即获取的卷积神经网络模型根据从第一文本信息中识别出的文本特征确定的第一识别结果)，第一识别结果用于表示根据文本特征识别出的情感信息；获取根据与第一文本信息对应的音频段的语音特征确定的第二识别结果(也即获取的深度神经网络模型根据从音频段识别出的语音特征确定的第二识别结果)，其中，第二识别结果用于表示根据语音特征识别出的情感信息；在第一识别结果和第二识别结果中的至少之一表示的情感信息为第一情感等级的情感信息时，将所音频段的目标情感信息确定为第一情感等级的情感信息。

上述的卷积神经网络模型根据从第一文本信息中识别出的文本特征确定的第一识别结果可以通过如下方式实现：通过卷积神经网络模型的特征提取层在多个特征维度上对第一文本信息进行特征提取，得到多个文本特征，其中，在每个特征维度上提取得到一个文本特征；通过卷积神经网络模型的分类层对多个文本特征中的第一文本特征进行特征识别，得到第一识别结果，其中，文本特征包括第一文本特征和第二文本特征，第一文本特征的特征值大于任意一个第二文本特征的特征值。

对于获取的深度神经网络模型根据从音频段识别出的语音特征确定的第二识别结果，与上述获取第一识别结果的方式类似，在此不再赘述。

在该方案中，是基于本文和语音相融合的方法，可以弥补利用单一特征进行识别的缺点，两者的融合是文本和音频训练相融合，融合的方法可以是文本输出结果和音频输出结果中间使用一个权重进行加和得到最终结果，且不是整段的加和，而是分段的加和，因为说话人的情感不可能一整段保持不变，而是会有所起伏的，并且一段话中可能就几个关键词的情感比较强烈，采用这种方式能够识别出整段话中不同阶段说话者的情绪特征。

在上述认识的基础上，只要语音或文字带明显的情感色彩(即第一情感等级的情感信息)，则可以确定目标语音为带有情感色彩的语音。在基于多个音频段的语音特征和多个第一文本信息具有的文本特征确定多个音频段的目标情感信息之后，可获取多个目标情感信息中每个目标情感信息所属的情感等级；在多个目标情感信息中包括第一情感等级的情感信息时，确定目标音频的情感信息为第一情感等级的情感信息。

作为一种可选的实施例，下面结合图5详述本申请的实施例：

步骤S501，提取目标音频中的语音特征(也即声学特征)。

步骤S502，通过语音识别引擎进行语音识别。

在语音识别引擎的训练阶段，可将词汇表中的每一词依次说一遍，并且将其特征矢量作为模板存入模板库。

在通过语音识别引擎进行语音识别的阶段，将输入语音的声学特征矢量依次与模板库中的每个模板进行相似度比较，将相似度最高者作为识别结果输出。

步骤S503，得到文字识别结果(即第一文本信息)。

步骤S504，对第一文本信息进行分词，如对“明天就要放假了，我好开心啊”分词的结果为：明天、就要、放假、了、我、好、开心、啊。

步骤S505，将上述的分词得到的多个词语作为CNN模型的输入，CNN模型对多个词语进行卷积、分类、识别处理。

步骤S506，得到CNN模型输出的第一识别结果score1。

步骤S507，通过DNN模型对目标音频的语音特征进行处理。

DNN模型根据上述识别出的语音特征(感知加权线性预测PLP、Mel频率倒谱系数MFCC、FBANK、音调PITCH、语音能量ENERGY、I-VECTOR中的多个)进行识别处理。

步骤S508，得到第二识别结果score2。

利用DNN模型的卷积层对这些融合特征(多个特征)进行卷积、分类处理，得到最终的识别结果score2。

步骤S509，对识别结果进行融合处理得到最终结果。

输入的目标音频，经过特征提取，特征提取分为两种一种用于语音识别，经过语音识别引擎，得到语音识别结果，语音识别结果经过分词，送到文本情感检测引擎，得到文本情感得分score1；另外一种用于基于音频情感检测得分，经过特征提取送到音频情感检测，得到音频得分score2，然后经过一个权重因子得到最终得分final_score：

final_score＝a*score1+(1-a)*score2。

a是经过开发集训练得到的权重值，最终的得分是0-1之间的得分。

例如，悲伤对应的得分区间为[0,0.3)，平淡对应的得分区间为[0.3,0.7)，高兴对应的得分[0.7,1]，即可根据最终得到的分值确定实际的情感为高兴、悲伤或者平淡。

在本申请的实施例中，采用基于本文和语音相融合的方法，可以弥补单独的不同方法的缺点，在两者相融合的过程中可以增加一个权重因子用于调节两种方法的权重，以适用不同的场合。本申请可分为两个模块，训练模块和识别模块，训练模块可以单独进行训练，根据不同的情况选取不同的文本和音频，本申请中三种情绪特征，高兴、正常和不高兴，高兴和不高兴的程度都可以用得分来表示，情感的得分在0-1之间，越接近零情绪越消极，越接近1情绪越积极，针对的应用可以是整句判别。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述情感信息的确定方法的情感信息的确定装置。图6是根据本发明实施例的一种可选的情感信息的确定装置的示意图，如图6所示，该装置可以包括：获取单元61、识别单元62以及确定单元63。

获取单元61，用于获取目标音频。

可以是终端主动获取目标音频，或者接收其它设备发送的目标音频，或者在目标指令的触发下获取目标音频。目标指令相当于用户或者终端触发的用于识别目标音频的指令。获取目标音频是为了识别目标音频的情感信息，该情感信息为通过目标音频表述文本信息时所表露(包括但不局限于通过文本中的字眼或文字、音频中的音调、音色等所表露出的)出来的情感信息。

识别单元62，用于从目标音频中识别出第一文本信息，目标音频具有语音特征，第一文本信息具有文本特征。

确定单元63，用于基于第一文本信息具有的文本特征和目标音频具有的语音特征确定目标音频的目标情感信息。

需要说明的是，该实施例中的获取单元61可以用于执行本申请实施例1中的步骤S202，该实施例中的识别单元62可以用于执行本申请实施例1中的步骤S204，该实施例中的确定单元63可以用于执行本申请实施例1中的步骤S206。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。

通过上述模块，在获取到目标音频时，从目标音频中识别出第一文本信息，然后基于第一文本信息具有的文本特征和目标音频具有的语音特征确定目标音频的目标情感信息，也即在文本信息具有明显的情感表露时能够通过文本信息的文本特征来确定情感信息，在目标音频具有明显的情感表露时能够通过目标音频的语音特征来确定情感信息，可以解决相关技术中无法准确识别说话者的情感信息的技术问题，进而达到提高识别说话者的情感信息的准确度的技术效果。

因此，在上述认识的基础上，只要语音或文字带明显的情感色彩(即第一情感等级的情感信息)，则可以确定目标语音为带有情感色彩的语音。如图7所示，确定单元可以通过如下模块实现上述技术方案：第一获取模块631，用于获取根据文本特征确定的第一识别结果，其中，第一识别结果用于表示根据文本特征识别出的情感信息；第二获取模块632，用于获取根据语音特征确定的第二识别结果，其中，第二识别结果用于表示根据语音特征识别出的情感信息；第一确定模块633，用于在第一识别结果和第二识别结果中的至少之一表示的情感信息为第一情感等级的情感信息时，将目标音频的目标情感信息确定为第一情感等级的情感信息。

在本申请的上述进行识别的技术方案中，包括但不局限于采用普通的算法或者机器学习相关的算法进行特征识别和情感信息的识别，为了提高的准确度，可以采用机器学习相关的算法来进行特征识别和情感信息的识别。

可选地，在获取单元获取到目标音频之前，第一训练单元使用第二文本信息和第一情感信息对第二卷积神经网络模型进行训练，以确定第二卷积神经网络模型中参数的取值，并将确定了参数的取值之后的第二卷积神经网络模型设置为第一卷积神经网络模型，其中，第一情感信息为第二文本信息的情感信息。

可选地，在获取单元获取到目标音频之前，第二训练单元使用训练音频和第二情感信息对第二深度神经网络模型进行训练，以确定第二深度神经网络模型中参数的取值，并将确定了参数的取值之后的第二深度神经网络模型设置为第一深度神经网络模型，其中，第二情感信息为训练音频的情感信息。

在训练好了识别模型之后，上述的第一获取模块获取第一卷积神经网络模型根据从第一文本信息中识别出的文本特征确定的第一识别结果时，获取第一卷积神经网络模型根据从第一文本信息中识别出的文本特征确定的第一识别结果。通过第一卷积神经网络模型的特征提取层在多个特征维度上对第一文本信息进行特征提取，得到多个文本特征，其中，在每个特征维度上提取得到一个文本特征；通过第一卷积神经网络模型的分类层对多个文本特征中的第一文本特征进行特征识别，得到第一识别结果，其中，文本特征包括第一文本特征和第二文本特征，第一文本特征的特征值大于任意一个第二文本特征的特征值。

上述的第二获取模块获取根据语音特征确定的第二识别结果是，获取第一深度神经网络模型根据从目标音频识别出的语音特征确定的第二识别结果。

可选地，本申请的确定单元还可包括：第三获取模块，用于获取根据文本特征确定的第一识别结果，其中，第一识别结果包括用于指示根据文本特征识别出的情感信息的第一情感参数；第四获取模块，用于获取根据语音特征确定的第二识别结果，其中，第二识别结果包括用于指示根据语音特征识别出的情感信息的第二情感参数；设置模块，用于将用于指示目标情感信息的第三情感参数设置为：第一情感参数*为第一情感参数设置的权重+第二情感参数*为第二情感参数设置的权重；第二确定模块，用于将位于第二情感等级的情感信息确定为目标情感信息，其中，第二情感等级是与第三情感参数所在的情感参数区间对应的情感等级，每个情感等级对应有一个情感参数区间。

final_score＝a*score1+(1-a)*score2。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

实施例3

根据本发明实施例，还提供了一种用于实施上述情感信息的确定方法的服务器或终端(也即电子装置)。

图8是根据本发明实施例的一种终端的结构框图，如图8所示，该终端可以包括：一个或多个(图8中仅示出一个)处理器801、存储器803、以及传输装置805(如上述实施例中的发送装置)，如图8所示，该终端还可以包括输入输出设备807。

其中，存储器803可用于存储软件程序以及模块，如本发明实施例中的情感信息的确定方法和装置对应的程序指令/模块，处理器801通过运行存储在存储器803内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的情感信息的确定方法。存储器803可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器803可进一步包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置805用于经由一个网络接收或者发送数据，还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置805包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置805为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器803用于存储应用程序。

处理器801可以通过传输装置805调用存储器803存储的应用程序，以执行下述步骤：获取目标音频；从目标音频中识别出第一文本信息，目标音频具有语音特征，第一文本信息具有文本特征；基于第一文本信息具有的文本特征和目标音频具有的语音特征确定目标音频的目标情感信息。

处理器801还用于执行下述步骤：获取根据文本特征确定的第一识别结果，其中，第一识别结果用于表示根据文本特征识别出的情感信息；获取根据语音特征确定的第二识别结果，其中，第二识别结果用于表示根据语音特征识别出的情感信息；在第一识别结果和第二识别结果中的至少之一表示的情感信息为第一情感等级的情感信息时，将目标音频的目标情感信息确定为第一情感等级的情感信息。

采用本发明实施例，在获取到目标音频时，从目标音频中识别出第一文本信息，然后基于第一文本信息具有的文本特征和目标音频具有的语音特征确定目标音频的目标情感信息，也即在文本信息具有明显的情感表露时能够通过文本信息的文本特征来确定情感信息，在目标音频具有明显的情感表露时能够通过目标音频的语音特征来确定情感信息，可以解决相关技术中无法准确识别说话者的情感信息的技术问题，进而达到提高识别说话者的情感信息的准确度的技术效果。

可选地，本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图8所示的结构仅为示意，终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices，MID)、PAD等终端设备。图8其并不对上述电子装置的结构造成限定。例如，终端还可包括比图8中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图8所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例4

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行情感信息的确定方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

S11，获取目标音频；

S12，从目标音频中识别出第一文本信息，目标音频具有语音特征，第一文本信息具有文本特征；

S13，基于第一文本信息具有的文本特征和目标音频具有的语音特征确定目标音频的目标情感信息。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：

S21，获取根据文本特征确定的第一识别结果，其中，第一识别结果用于表示根据文本特征识别出的情感信息；

S22，获取根据语音特征确定的第二识别结果，其中，第二识别结果用于表示根据语音特征识别出的情感信息；

S23，在第一识别结果和第二识别结果中的至少之一表示的情感信息为第一情感等级的情感信息时，将目标音频的目标情感信息确定为第一情感等级的情感信息。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种情感信息的确定方法，其特征在于，包括：

获取目标音频；

从所述目标音频中识别出第一文本信息，其中，所述目标音频具有语音特征，所述第一文本信息具有文本特征；

基于所述第一文本信息具有的文本特征和所述目标音频具有的语音特征确定所述目标音频的目标情感信息。

2.根据权利要求1所述的方法，其特征在于，基于所述第一文本信息具有的文本特征和所述目标音频具有的语音特征确定所述目标音频的目标情感信息包括：

获取根据所述文本特征确定的第一识别结果，其中，所述第一识别结果用于表示根据所述文本特征识别出的情感信息；

获取根据所述语音特征确定的第二识别结果，其中，所述第二识别结果用于表示根据所述语音特征识别出的情感信息；

在所述第一识别结果和所述第二识别结果中的至少之一表示的情感信息为第一情感等级的情感信息时，将所述目标音频的目标情感信息确定为所述第一情感等级的情感信息。

3.根据权利要求2所述的方法，其特征在于，

获取根据所述文本特征确定的第一识别结果包括：获取第一卷积神经网络模型根据从所述第一文本信息中识别出的所述文本特征确定的所述第一识别结果；

获取根据所述语音特征确定的第二识别结果包括：获取第一深度神经网络模型根据从所述目标音频识别出的所述语音特征确定的所述第二识别结果。

4.根据权利要求3所述的方法，其特征在于，获取第一卷积神经网络模型根据从所述第一文本信息中识别出的所述文本特征确定的所述第一识别结果包括：

通过所述第一卷积神经网络模型的特征提取层在多个特征维度上对所述第一文本信息进行特征提取，得到多个所述文本特征，其中，在每个所述特征维度上提取得到一个所述文本特征；

通过所述第一卷积神经网络模型的分类层对多个所述文本特征中的第一文本特征进行特征识别，得到所述第一识别结果，其中，所述文本特征包括所述第一文本特征和第二文本特征，所述第一文本特征的特征值大于任意一个所述第二文本特征的特征值。

5.根据权利要求3所述的方法，其特征在于，在获取目标音频之前，所述方法还包括：

使用第二文本信息和第一情感信息对第二卷积神经网络模型进行训练，以确定所述第二卷积神经网络模型中参数的取值，并将确定了所述参数的取值之后的所述第二卷积神经网络模型设置为所述第一卷积神经网络模型，其中，所述第一情感信息为所述第二文本信息的情感信息。

6.根据权利要求3所述的方法，其特征在于，在获取目标音频之前，所述方法还包括：

使用训练音频和第二情感信息对第二深度神经网络模型进行训练，以确定所述第二深度神经网络模型中参数的取值，并将确定了所述参数的取值之后的所述第二深度神经网络模型设置为所述第一深度神经网络模型，其中，所述第二情感信息为所述训练音频的情感信息。

7.根据权利要求1所述的方法，其特征在于，基于所述第一文本信息具有的文本特征和所述目标音频具有的语音特征确定所述目标音频的目标情感信息包括：

获取根据所述文本特征确定的第一识别结果，其中，所述第一识别结果包括用于指示根据所述文本特征识别出的情感信息的第一情感参数；

获取根据所述语音特征确定的第二识别结果，其中，所述第二识别结果包括用于指示根据所述语音特征识别出的情感信息的第二情感参数；

将用于指示所述目标情感信息的第三情感参数设置为：所述第一情感参数*为所述第一情感参数设置的权重+所述第二情感参数*为所述第二情感参数设置的权重；

将位于第二情感等级的情感信息确定为所述目标情感信息，其中，所述第二情感等级是与所述第三情感参数所在的情感参数区间对应的情感等级，每个情感等级对应有一个情感参数区间。

8.一种情感信息的确定装置，其特征在于，包括：

获取单元，用于获取目标音频；

识别单元，用于从所述目标音频中识别出第一文本信息，其中，所述目标音频具有语音特征，所述第一文本信息具有文本特征；

确定单元，用于基于所述第一文本信息具有的文本特征和所述目标音频具有的语音特征确定所述目标音频的目标情感信息。

9.根据权利要求8所述的装置，其特征在于，所述确定单元包括：

第一获取模块，用于获取根据所述文本特征确定的第一识别结果，其中，所述第一识别结果用于表示根据所述文本特征识别出的情感信息；

第二获取模块，用于获取根据所述语音特征确定的第二识别结果，其中，所述第二识别结果用于表示根据所述语音特征识别出的情感信息；

第一确定模块，用于在所述第一识别结果和所述第二识别结果中的至少之一表示的情感信息为第一情感等级的情感信息时，将所述目标音频的目标情感信息确定为所述第一情感等级的情感信息。

10.根据权利要求8所述的装置，其特征在于，所述确定单元包括：

第三获取模块，用于获取根据所述文本特征确定的第一识别结果，其中，所述第一识别结果包括用于指示根据所述文本特征识别出的情感信息的第一情感参数；

第四获取模块，用于获取根据所述语音特征确定的第二识别结果，其中，所述第二识别结果包括用于指示根据所述语音特征识别出的情感信息的第二情感参数；

设置模块，用于将用于指示所述目标情感信息的第三情感参数设置为：所述第一情感参数*为所述第一情感参数设置的权重+所述第二情感参数*为所述第二情感参数设置的权重；

第二确定模块，用于将位于第二情感等级的情感信息确定为所述目标情感信息，其中，所述第二情感等级是与所述第三情感参数所在的情感参数区间对应的情感等级，每个情感等级对应有一个情感参数区间。

11.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至7任一项中所述的方法。

12.一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器通过所述计算机程序执行上述权利要求1至7任一项中所述的方法。