CN113053417B

CN113053417B - 带噪语音情感识别方法、***、设备及存储介质

Info

Publication number: CN113053417B
Application number: CN202110332451.5A
Authority: CN
Inventors: 姜晓庆; 陈贞翔; 杨倩; 郑永强
Original assignee: Shandong Sizheng Information Technology Co ltd; University of Jinan
Current assignee: Shandong Sizheng Information Technology Co ltd; University of Jinan
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2022-04-19
Anticipated expiration: 2041-03-29
Also published as: CN113053417A

Abstract

本发明公开了带噪语音情感识别方法、***、设备及存储介质，获取待识别的带噪语音信号；对待识别的带噪语音信号进行端点检测处理；根据端点得到若干个有声音的语音片段；对有声音的语音片段进行特征提取，得到语音特征；将语音特征输入到训练后的语音情感识别模型中，输出情感类别。端点检测方法可以在样本重建过程中，计算正交匹配追踪算法算法迭代过程中预测残差与上一次迭代的信号估计值之间的条件熵，根据迭代前后的残差条件熵差值，在样本重建完成的同时直接给出重建样本的端点检测结果，充分利用样本重建过程中产生的数据，节省***后续的分析与处理时间，且由于该端点检测方法是建立在压缩感知重建算法之上的，具有抗噪性能。

Description

带噪语音情感识别方法、***、设备及存储介质

技术领域

本申请涉及语音情感识别技术领域，特别是涉及带噪语音情感识别方法、***、设备及存储介质。

背景技术

本部分的陈述仅仅是提到了与本申请相关的背景技术，并不必然构成现有技术。

语音端点检测方法在语音信号处理领域中有广泛且重要的应用，对于减少处理的数据量、语音的有效特征学习、语音识别及语音情感识别的精确度等方面具有重要的研究意义。

无处不在噪声的存在往往使语音端点检测准确度下降，目前研究已表明压缩感知(Compressed Sensing，CS)在语音信号的去噪方面也具有优越的性能。根据CS理论，语音信号在经适当的稀疏基与观测矩阵变换后所获得的观测值中包含了语音信号中的全部有用信息，观测值经传输后在接收端可采用一定的重建算法可重建语音信号，而噪声无法实现稀疏性因而不可重建，所以压缩感知在大大减少语音传输数据量的同时、在重建过程中同时也实现了去噪处理。同时，由于语音信号中的清音段具有类噪声特性，在重建过程中会被抑制，使重建样本的清浊划分更为准确，有助于提高后续语音特征参数的提取精确度。现有研究也表明，压缩感知理论下的重建语音样本可以有效应用于带噪语音情感识别。

在以往的研究中，人们关注的重点在于信号重建，忽视重建过程中产生的参数及数据的特性的研究与应用，造成数据资源的浪费。比如若对重建样本需要进行语音样本端点检测，则需要在获取重建样本之后，然后对重建样本采用某种端点检测算法进行分析，无法实现重建的同时给出端点检测结果，所以现有的端点检测处理方法无疑会增加***处理的时延。另外，现有的端点检测算法均是基于语音信号本身进行处理，数据维度高，运算效率低。

发明内容

为了解决现有技术的不足，本申请提供了带噪语音情感识别方法及***；

第一方面，本申请提供了带噪语音情感识别方法；

带噪语音情感识别方法，包括：

获取待识别的带噪语音信号；

对待识别的带噪语音信号进行端点检测处理；根据端点得到若干个有声音的语音片段；

对有声音的语音片段进行特征提取，得到语音特征；

将语音特征输入到训练后的语音情感识别模型中，输出情感类别。

第二方面，本申请提供了带噪语音情感识别***；

带噪语音情感识别***，包括：

获取模块，其被配置为：获取待识别的带噪语音信号；

端点检测模块，其被配置为：对待识别的带噪语音信号进行端点检测处理；根据端点得到若干个有声音的语音片段；

特征提取模块，其被配置为：对有声音的语音片段进行特征提取，得到语音特征；

输出模块，其被配置为：将语音特征输入到训练后的语音情感识别模型中，输出情感类别。

第三方面，本申请还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述第一方面所述的方法。

第四方面，本申请还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本申请的有益效果是：

(1)本发明提出一种基于迭代过程中所产生的残差条件熵差值的语音端点检测方法，并将该方法有效的应用于带噪情感语音识别。该端点检测方法可以在样本重建过程中，计算正交匹配追踪算法(OMP)算法迭代过程中预测残差与上一次迭代的信号估计值之间的条件熵，根据迭代前后的残差条件熵差值，在样本重建完成的同时直接给出重建样本的端点检测结果，充分利用样本重建过程中产生的数据，节省***后续的分析与处理时间，且由于该端点检测方法是建立在压缩感知重建算法之上的，具有抗噪性能。

(2)采用压缩感知理论处理情感视频中的情感语音分量，使用离散余弦变换完成情感语音的稀疏性变换，以高斯随机矩阵为观测矩阵，以正交匹配追踪算法(OMP)算法为重建算法，提出情感语音压缩感知重建的预测残差条件熵参数；

(3)提出OMP重建迭代前后的残差条件熵差值分析思路；

(4)根据残差条件熵差值结合阈值判定条件在样本重建完成的同时，给出端点检测结果；

(5)基于端点检测结果，实现带噪情感语音测试样本的语音情感识别。

(6)采用残差条件熵差值的语音信号端点检测方法基于压缩感知理论，在样本重建时完成端点检测，由于噪声无稀疏性不可能重建，因而该方法所获得的语音端点检测结果具有抗噪性能；

(7)采用残差条件熵差值的语音信号端点检测方法在重建语音时根据计算的残差条件熵差值获得语音帧是否为有声段的判断结果，不需要对重建语音样本进行处理，时延小，可实现快速判定；

(8)采用残差条件熵差值的语音信号端点检测方法通过信息论参量的计算深入有效地挖掘重建过程中的数据特性，充分利用样本重建过程中的数据，节省计算资源；

(9)采用残差条件熵差值的语音信号端点检测方法可以有效应用于带噪语音情感识别。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为第一个实施例的方法流程图；

图2(a)为第一个实施例的时域波形示意图；

图2(b)为第一个实施例的带噪语音时域波形示意图；

图2(c)为第一个实施例的残差条件熵差值及进行端点检测时的阈值；

图3为第一个实施例的端点检测流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供了带噪语音情感识别方法；

如图1所示，带噪语音情感识别方法，包括：

S100：获取待识别的带噪语音信号；

S200：对待识别的带噪语音信号进行端点检测处理；根据端点得到若干个有声音的语音片段；

S300：对有声音的语音片段进行特征提取，得到语音特征；

S400：将语音特征输入到训练后的语音情感识别模型中，输出情感类别。

作为一个或多个实施例，所述S200：对待识别的带噪语音信号进行端点检测处理；根据端点得到若干个有声音的语音片段；具体包括：

S201：对待识别的带噪语音信号进行稀疏转换处理；

S202：对稀疏转换处理后的语音信号，随机生成高斯随机矩阵；将高斯随机矩阵作为语音信号的观测矩阵；

S203：基于观测矩阵，采用正交匹配追踪算法OMP进行样本重建，得到端点检测结果。

进一步地，所述S201：对待识别的带噪语音信号进行稀疏转换处理；具体包括：

采用离散余弦变换，对待识别的带噪语音信号进行稀疏转换处理。

进一步地，所述S202：对稀疏转换处理后的语音信号，随机生成高斯随机矩阵；其中，高斯随机矩阵服从均值为0，方差为1，标准差为1的正态分布。

作为一个或多个实施例，如图3所示，所述S203：基于观测矩阵，采用正交匹配追踪算法OMP进行样本重建，得到端点检测结果；具体包括：

S2031：根据观测矩阵，得到每一帧的语音观测值；

S2032：首次运行时，残差设定为语音观测值，计算残差与传感矩阵的相关系数；

非首次运行时，计算上一次迭代估计值与语音观测值的残差，和残差与传感矩阵的相关系数；

S2033：在传感矩阵中，寻找相关系数最大原子，利用相关系数最大原子更新信号重建的支撑集；

S2034：基于支撑集，使用最小二乘法对观测值进行逼近，得到的信号的估计值；

S2035：更新残差，计算残差条件熵；

S2036：判断是否达到稀疏度条件，如果是，就返回S2032；如果否，就计算第一次迭代与最后一次迭代的残差条件熵差值，由此时的信号的估计值可获得重建样本；

S2037：判断第一次迭代与最后一次迭代的残差条件熵差值是否高于设定阈值，如果高于设定阈值，则认为当前帧语音为有声段；如果低于设定阈值，则认为当前帧语音为无声段，获得当前帧语音的端点检测结果；

S2038：基于端点检测结果，获得重建样本中的有声音的语音片段。

进一步地，所述S2031：根据观测矩阵，得到每一帧的语音观测值；具体包括：

若某帧语音信号为x，经离散余弦变换完成稀疏转换，此时信号为离散余弦系数α，即x＝Ψα，其中Ψ是由DCT基构成的稀疏矩阵；则观测值为y＝θα，其中Θ＝ΦΨ，Φ为观测矩阵。

进一步地，所述S2032：计算上一次迭代估计值与语音观测值的残差，和残差与传感矩阵的相关系数；具体包括：

第t次迭代所获得的重建残差r_t的计算公式为：

其中，A_t是OMP算法第t次迭代过程中由传感矩阵的原子构成的支撑集，

为第t次迭代过程中最小二乘法计算的估计值，y是观测值。

进一步地，残差与传感矩阵的相关系数，使用残差和传感矩阵列向量的内积来计算得到。

应理解的，所述传感矩阵，用稀疏变换的稀疏矩阵与观测矩阵相乘得到，可保证信号同时实现采样与压缩。

进一步地，所述S2033：在传感矩阵中，寻找相关系数最大原子，利用相关系数最大原子更新信号重建的支撑集；其中，支撑集就是从传感矩阵中根据相关系数寻找出来的列构成的集合。

进一步地，所述S2035：更新残差，计算残差条件熵；具体包括：

对每次迭代得到的残差进行存储，更新残差；

基于更新后的残差，计算残差条件熵。

进一步地，所述基于更新后的残差，计算残差条件熵；残差条件熵σ_e的计算公式为：

A_t-1是OMP算法第t-1次迭代过程中由传感矩阵的原子构成的支撑集，

为t-1次迭代过程中最小二乘法计算的估计值。

进一步地，所述S2036：判断是否达到稀疏度条件，如果是，就返回S2032；如果否，就计算第一次迭代与最后一次迭代的残差条件熵差值；具体包括：

第一次迭代获得的残差条件熵与最后一次迭代获得的残差条件熵相减得到的差值。

进一步地，稀疏度条件指的是在样本重建过程中每次迭代完之后要判断迭代次数与稀疏度K的大小来判断是否终止迭代。如果迭代次数小于K要继续迭代，否则终止迭代。

进一步地，S300：对每个有声音的语音片段进行特征提取，得到语音特征；具体语音特征包括：韵律特征(如基频、短时能量、时间相关特征如样本时长、浊音段时长、语速等)、音质特征(如第一、第二、第三共振峰等)、谱特征(如MFCC参数)，以及上述特征的统计学参数(最大值、最小值、均值)等。

进一步地，所述S400：将语音特征输入到训练后的语音情感识别模型中，输出情感类别；训练后的语音情感识别模型的训练步骤包括：

构建神经网络模型；所述神经网络模型为卷积神经网络；

构建训练集，所述训练集包括已知情感类别的语音特征；

将训练集输入到神经网络模型中进行训练，当损失函数达到最小值时或者达到设定迭代次数后，停止训练，得到训练后的语音情感识别模型。

压缩感知应用于语音信号处理，若选择离散余弦变换完成语音信号的稀疏变换、采用高斯随机矩阵为观测矩阵、采用正交匹配追踪算法(OMP)算法为样本重建算法。

本发明所提出的采用残差条件熵差值的语音信号端点检测方法是建立OMP迭代执行过程中所产生的预测残差基础上的。OMP算法是语音信号重建中的一种常用算法，该算法通过计算每次迭代估计值与观测值的残差及残差与传感矩阵的相关性，更新信号重建的支撑集，直至达到稀疏度条件后完成信号重建。残差的计算是OMP算法中的重要一环，从信息论的角度来看在迭代过程中语音信息的获取意味着残差熵的减少。本发明采用引入第t次迭代的残差与上一次迭代的信号估计值之间的条件熵σ_e来判断重建残差中的语音分量提取程度。

在OMP算法中，第t次迭代所获得的重建残差r_t的计算公式为：

为第t次迭代过程中最小二乘法计算的估计值。

σ_e的计算公式为：

为t-1次迭代过程中最小二乘法计算的估计值。

在迭代完成时，求解最后一次迭代与第一次迭代的残差条件熵差值，并通过阈值判断，即可获取端点检测结果。

图2(a)给出采用OMP算法对某语音样本重建过程中语音时域波形、图2(b)给出带噪语音的时域波形，图2(c)给出最后一次迭代与第一次迭代的残差条件熵差值及阈值。

从图上可以看出，该样本噪声级较强，该带噪样本的信噪比为0dB，语音信号被噪声掩盖，但根据本算法，残差条件熵差值在噪声环境下较为稳健，具有较好的鲁棒性，通过较小的阈值设置就可以对带噪的语音检测出其起点与终点。

可见，在迭代过程中残差条件熵的差值很好地对应了语音样本中的有效成分，σ_e的变化趋势是与原始波形中的有声段(含清音与浊音)的位置相对应，采用经验的阈值条件就可以完成重建语音样本的起终点判定，如图2(c)中采用较低的阈值(如0.01)就可以实现带噪语音的端点检测。而且该算法样本重建的同时就可以获取重建样本端点，不需要对重建样本实施其它的端点检测算法。

采用残差条件熵差值的语音信号端点检测方法的带噪语音情感识别整体流程图如图1所示。由图1可见，在带噪情感语音在重建的同时可获得重建样本的端点检测结果，依据端点检测结果可以进行后续的特征提取与特征学习，使用情感语音的特征参数集可以训练有效的情感识别模型，进而实现带噪语音情感识别。

实施例二

本实施例提供了带噪语音情感识别***；

带噪语音情感识别***，包括：

获取模块，其被配置为：获取待识别的带噪语音信号；

此处需要说明的是，上述获取模块、端点检测模块、特征提取模块和输出模块对应于实施例一中的步骤S100至S400，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为***的一部分可以在诸如一组计算机可执行指令的计算机***中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的***，可以通过其他的方式实现。例如以上所描述的***实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个***，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.带噪语音情感识别方法，其特征是，包括：

获取待识别的带噪语音信号；

对有声音的语音片段进行特征提取，得到语音特征；

将语音特征输入到训练后的语音情感识别模型中，输出情感类别；

所述对待识别的带噪语音信号进行端点检测处理；根据端点得到若干个有声音的语音片段；具体包括：

对待识别的带噪语音信号进行稀疏转换处理；

对稀疏转换处理后的语音信号，随机生成高斯随机矩阵；将高斯随机矩阵作为语音信号的观测矩阵；

基于观测矩阵，采用正交匹配追踪算法OMP进行样本重建，得到端点检测结果；

所述基于观测矩阵，采用正交匹配追踪算法OMP进行样本重建，得到端点检测结果；具体包括：

(1)：根据观测矩阵，得到每一帧的语音观测值；

(2)：首次运行时，残差设定为语音观测值，计算残差与传感矩阵的相关系数；

(3)：在传感矩阵中，寻找相关系数最大原子，利用相关系数最大原子更新信号重建的支撑集；

(4)：基于支撑集，使用最小二乘法对观测值进行逼近，得到的信号的估计值；

(5)：更新残差，计算残差条件熵；

(6)：判断是否达到稀疏度条件，如果是，就返回(2)；如果否，就计算第一次迭代与最后一次迭代的残差条件熵差值，且此时的信号的估计值认为是重建样本；

(7)：判断第一次迭代与最后一次迭代的残差条件熵差值是否高于设定阈值，如果高于设定阈值，则认为当前帧语音为有声段；如果低于设定阈值，则认为当前帧语音为无声段，获得当前帧语音的端点检测结果；

(8)：基于端点检测结果，获得重建样本中的有声音的语音片段。

2.如权利要求1所述的带噪语音情感识别方法，其特征是，对待识别的带噪语音信号进行稀疏转换处理；具体包括：

3.如权利要求1所述的带噪语音情感识别方法，其特征是，计算上一次迭代估计值与语音观测值的残差，和残差与传感矩阵的相关系数；具体包括：

第t次迭代所获得的重建残差r_t的计算公式为：

为第t次迭代过程中最小二乘法计算的估计值，y是观测值。

4.如权利要求1所述的带噪语音情感识别方法，其特征是，更新残差，计算残差条件熵；具体包括：

对每次迭代得到的残差进行存储，更新残差；

基于更新后的残差，计算残差条件熵；

所述基于更新后的残差，计算残差条件熵；残差条件熵σ_e的计算公式为：

为t-1次迭代过程中最小二乘法计算的估计值。

5.如权利要求1所述的带噪语音情感识别方法，其特征是，稀疏度条件指的是在样本重建过程中每次迭代完之后要判断迭代次数与稀疏度K的大小来判断是否终止迭代；如果迭代次数小于K要继续迭代，否则终止迭代。

6.带噪语音情感识别***，其特征是，包括：

获取模块，其被配置为：获取待识别的带噪语音信号；

对待识别的带噪语音信号进行稀疏转换处理；

(1)：根据观测矩阵，得到每一帧的语音观测值；

(5)：更新残差，计算残差条件熵；

(8)：基于端点检测结果，获得重建样本中的有声音的语音片段；

7.一种电子设备，其特征是，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述权利要求1-5任一项所述的方法。

8.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-5任一项所述的方法。