CN113053417B - 带噪语音情感识别方法、***、设备及存储介质 - Google Patents

带噪语音情感识别方法、***、设备及存储介质 Download PDF

Info

Publication number
CN113053417B
CN113053417B CN202110332451.5A CN202110332451A CN113053417B CN 113053417 B CN113053417 B CN 113053417B CN 202110332451 A CN202110332451 A CN 202110332451A CN 113053417 B CN113053417 B CN 113053417B
Authority
CN
China
Prior art keywords
voice
iteration
residual
noise
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110332451.5A
Other languages
English (en)
Other versions
CN113053417A (zh
Inventor
姜晓庆
陈贞翔
杨倩
郑永强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Sizheng Information Technology Co ltd
University of Jinan
Original Assignee
Shandong Sizheng Information Technology Co ltd
University of Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Sizheng Information Technology Co ltd, University of Jinan filed Critical Shandong Sizheng Information Technology Co ltd
Priority to CN202110332451.5A priority Critical patent/CN113053417B/zh
Publication of CN113053417A publication Critical patent/CN113053417A/zh
Application granted granted Critical
Publication of CN113053417B publication Critical patent/CN113053417B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了带噪语音情感识别方法、***、设备及存储介质,获取待识别的带噪语音信号;对待识别的带噪语音信号进行端点检测处理;根据端点得到若干个有声音的语音片段;对有声音的语音片段进行特征提取,得到语音特征;将语音特征输入到训练后的语音情感识别模型中,输出情感类别。端点检测方法可以在样本重建过程中,计算正交匹配追踪算法算法迭代过程中预测残差与上一次迭代的信号估计值之间的条件熵,根据迭代前后的残差条件熵差值,在样本重建完成的同时直接给出重建样本的端点检测结果,充分利用样本重建过程中产生的数据,节省***后续的分析与处理时间,且由于该端点检测方法是建立在压缩感知重建算法之上的,具有抗噪性能。

Description

带噪语音情感识别方法、***、设备及存储介质
技术领域
本申请涉及语音情感识别技术领域,特别是涉及带噪语音情感识别方法、***、设备及存储介质。
背景技术
本部分的陈述仅仅是提到了与本申请相关的背景技术,并不必然构成现有技术。
语音端点检测方法在语音信号处理领域中有广泛且重要的应用,对于减少处理的数据量、语音的有效特征学习、语音识别及语音情感识别的精确度等方面具有重要的研究意义。
无处不在噪声的存在往往使语音端点检测准确度下降,目前研究已表明压缩感知(Compressed Sensing,CS)在语音信号的去噪方面也具有优越的性能。根据CS理论,语音信号在经适当的稀疏基与观测矩阵变换后所获得的观测值中包含了语音信号中的全部有用信息,观测值经传输后在接收端可采用一定的重建算法可重建语音信号,而噪声无法实现稀疏性因而不可重建,所以压缩感知在大大减少语音传输数据量的同时、在重建过程中同时也实现了去噪处理。同时,由于语音信号中的清音段具有类噪声特性,在重建过程中会被抑制,使重建样本的清浊划分更为准确,有助于提高后续语音特征参数的提取精确度。现有研究也表明,压缩感知理论下的重建语音样本可以有效应用于带噪语音情感识别。
在以往的研究中,人们关注的重点在于信号重建,忽视重建过程中产生的参数及数据的特性的研究与应用,造成数据资源的浪费。比如若对重建样本需要进行语音样本端点检测,则需要在获取重建样本之后,然后对重建样本采用某种端点检测算法进行分析,无法实现重建的同时给出端点检测结果,所以现有的端点检测处理方法无疑会增加***处理的时延。另外,现有的端点检测算法均是基于语音信号本身进行处理,数据维度高,运算效率低。
发明内容
为了解决现有技术的不足,本申请提供了带噪语音情感识别方法及***;
第一方面,本申请提供了带噪语音情感识别方法;
带噪语音情感识别方法,包括:
获取待识别的带噪语音信号;
对待识别的带噪语音信号进行端点检测处理;根据端点得到若干个有声音的语音片段;
对有声音的语音片段进行特征提取,得到语音特征;
将语音特征输入到训练后的语音情感识别模型中,输出情感类别。
第二方面,本申请提供了带噪语音情感识别***;
带噪语音情感识别***,包括:
获取模块,其被配置为:获取待识别的带噪语音信号;
端点检测模块,其被配置为:对待识别的带噪语音信号进行端点检测处理;根据端点得到若干个有声音的语音片段;
特征提取模块,其被配置为:对有声音的语音片段进行特征提取,得到语音特征;
输出模块,其被配置为:将语音特征输入到训练后的语音情感识别模型中,输出情感类别。
第三方面,本申请还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述第一方面所述的方法。
第四方面,本申请还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
与现有技术相比,本申请的有益效果是:
(1)本发明提出一种基于迭代过程中所产生的残差条件熵差值的语音端点检测方法,并将该方法有效的应用于带噪情感语音识别。该端点检测方法可以在样本重建过程中,计算正交匹配追踪算法(OMP)算法迭代过程中预测残差与上一次迭代的信号估计值之间的条件熵,根据迭代前后的残差条件熵差值,在样本重建完成的同时直接给出重建样本的端点检测结果,充分利用样本重建过程中产生的数据,节省***后续的分析与处理时间,且由于该端点检测方法是建立在压缩感知重建算法之上的,具有抗噪性能。
(2)采用压缩感知理论处理情感视频中的情感语音分量,使用离散余弦变换完成情感语音的稀疏性变换,以高斯随机矩阵为观测矩阵,以正交匹配追踪算法(OMP)算法为重建算法,提出情感语音压缩感知重建的预测残差条件熵参数;
(3)提出OMP重建迭代前后的残差条件熵差值分析思路;
(4)根据残差条件熵差值结合阈值判定条件在样本重建完成的同时,给出端点检测结果;
(5)基于端点检测结果,实现带噪情感语音测试样本的语音情感识别。
(6)采用残差条件熵差值的语音信号端点检测方法基于压缩感知理论,在样本重建时完成端点检测,由于噪声无稀疏性不可能重建,因而该方法所获得的语音端点检测结果具有抗噪性能;
(7)采用残差条件熵差值的语音信号端点检测方法在重建语音时根据计算的残差条件熵差值获得语音帧是否为有声段的判断结果,不需要对重建语音样本进行处理,时延小,可实现快速判定;
(8)采用残差条件熵差值的语音信号端点检测方法通过信息论参量的计算深入有效地挖掘重建过程中的数据特性,充分利用样本重建过程中的数据,节省计算资源;
(9)采用残差条件熵差值的语音信号端点检测方法可以有效应用于带噪语音情感识别。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为第一个实施例的方法流程图;
图2(a)为第一个实施例的时域波形示意图;
图2(b)为第一个实施例的带噪语音时域波形示意图;
图2(c)为第一个实施例的残差条件熵差值及进行端点检测时的阈值;
图3为第一个实施例的端点检测流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例提供了带噪语音情感识别方法;
如图1所示,带噪语音情感识别方法,包括:
S100:获取待识别的带噪语音信号;
S200:对待识别的带噪语音信号进行端点检测处理;根据端点得到若干个有声音的语音片段;
S300:对有声音的语音片段进行特征提取,得到语音特征;
S400:将语音特征输入到训练后的语音情感识别模型中,输出情感类别。
作为一个或多个实施例,所述S200:对待识别的带噪语音信号进行端点检测处理;根据端点得到若干个有声音的语音片段;具体包括:
S201:对待识别的带噪语音信号进行稀疏转换处理;
S202:对稀疏转换处理后的语音信号,随机生成高斯随机矩阵;将高斯随机矩阵作为语音信号的观测矩阵;
S203:基于观测矩阵,采用正交匹配追踪算法OMP进行样本重建,得到端点检测结果。
进一步地,所述S201:对待识别的带噪语音信号进行稀疏转换处理;具体包括:
采用离散余弦变换,对待识别的带噪语音信号进行稀疏转换处理。
进一步地,所述S202:对稀疏转换处理后的语音信号,随机生成高斯随机矩阵;其中,高斯随机矩阵服从均值为0,方差为1,标准差为1的正态分布。
作为一个或多个实施例,如图3所示,所述S203:基于观测矩阵,采用正交匹配追踪算法OMP进行样本重建,得到端点检测结果;具体包括:
S2031:根据观测矩阵,得到每一帧的语音观测值;
S2032:首次运行时,残差设定为语音观测值,计算残差与传感矩阵的相关系数;
非首次运行时,计算上一次迭代估计值与语音观测值的残差,和残差与传感矩阵的相关系数;
S2033:在传感矩阵中,寻找相关系数最大原子,利用相关系数最大原子更新信号重建的支撑集;
S2034:基于支撑集,使用最小二乘法对观测值进行逼近,得到的信号的估计值;
S2035:更新残差,计算残差条件熵;
S2036:判断是否达到稀疏度条件,如果是,就返回S2032;如果否,就计算第一次迭代与最后一次迭代的残差条件熵差值,由此时的信号的估计值可获得重建样本;
S2037:判断第一次迭代与最后一次迭代的残差条件熵差值是否高于设定阈值,如果高于设定阈值,则认为当前帧语音为有声段;如果低于设定阈值,则认为当前帧语音为无声段,获得当前帧语音的端点检测结果;
S2038:基于端点检测结果,获得重建样本中的有声音的语音片段。
进一步地,所述S2031:根据观测矩阵,得到每一帧的语音观测值;具体包括:
若某帧语音信号为x,经离散余弦变换完成稀疏转换,此时信号为离散余弦系数α,即x=Ψα,其中Ψ是由DCT基构成的稀疏矩阵;则观测值为y=θα,其中Θ=ΦΨ,Φ为观测矩阵。
进一步地,所述S2032:计算上一次迭代估计值与语音观测值的残差,和残差与传感矩阵的相关系数;具体包括:
第t次迭代所获得的重建残差rt的计算公式为:
Figure BDA0002996707110000071
其中,At是OMP算法第t次迭代过程中由传感矩阵的原子构成的支撑集,
Figure BDA0002996707110000072
为第t次迭代过程中最小二乘法计算的估计值,y是观测值。
进一步地,残差与传感矩阵的相关系数,使用残差和传感矩阵列向量的内积来计算得到。
应理解的,所述传感矩阵,用稀疏变换的稀疏矩阵与观测矩阵相乘得到,可保证信号同时实现采样与压缩。
进一步地,所述S2033:在传感矩阵中,寻找相关系数最大原子,利用相关系数最大原子更新信号重建的支撑集;其中,支撑集就是从传感矩阵中根据相关系数寻找出来的列构成的集合。
进一步地,所述S2035:更新残差,计算残差条件熵;具体包括:
对每次迭代得到的残差进行存储,更新残差;
基于更新后的残差,计算残差条件熵。
进一步地,所述基于更新后的残差,计算残差条件熵;残差条件熵σe的计算公式为:
Figure BDA0002996707110000081
At-1是OMP算法第t-1次迭代过程中由传感矩阵的原子构成的支撑集,
Figure BDA0002996707110000082
为t-1次迭代过程中最小二乘法计算的估计值。
进一步地,所述S2036:判断是否达到稀疏度条件,如果是,就返回S2032;如果否,就计算第一次迭代与最后一次迭代的残差条件熵差值;具体包括:
第一次迭代获得的残差条件熵与最后一次迭代获得的残差条件熵相减得到的差值。
进一步地,稀疏度条件指的是在样本重建过程中每次迭代完之后要判断迭代次数与稀疏度K的大小来判断是否终止迭代。如果迭代次数小于K要继续迭代,否则终止迭代。
进一步地,S300:对每个有声音的语音片段进行特征提取,得到语音特征;具体语音特征包括:韵律特征(如基频、短时能量、时间相关特征如样本时长、浊音段时长、语速等)、音质特征(如第一、第二、第三共振峰等)、谱特征(如MFCC参数),以及上述特征的统计学参数(最大值、最小值、均值)等。
进一步地,所述S400:将语音特征输入到训练后的语音情感识别模型中,输出情感类别;训练后的语音情感识别模型的训练步骤包括:
构建神经网络模型;所述神经网络模型为卷积神经网络;
构建训练集,所述训练集包括已知情感类别的语音特征;
将训练集输入到神经网络模型中进行训练,当损失函数达到最小值时或者达到设定迭代次数后,停止训练,得到训练后的语音情感识别模型。
压缩感知应用于语音信号处理,若选择离散余弦变换完成语音信号的稀疏变换、采用高斯随机矩阵为观测矩阵、采用正交匹配追踪算法(OMP)算法为样本重建算法。
本发明所提出的采用残差条件熵差值的语音信号端点检测方法是建立OMP迭代执行过程中所产生的预测残差基础上的。OMP算法是语音信号重建中的一种常用算法,该算法通过计算每次迭代估计值与观测值的残差及残差与传感矩阵的相关性,更新信号重建的支撑集,直至达到稀疏度条件后完成信号重建。残差的计算是OMP算法中的重要一环,从信息论的角度来看在迭代过程中语音信息的获取意味着残差熵的减少。本发明采用引入第t次迭代的残差与上一次迭代的信号估计值之间的条件熵σe来判断重建残差中的语音分量提取程度。
在OMP算法中,第t次迭代所获得的重建残差rt的计算公式为:
Figure BDA0002996707110000091
其中,At是OMP算法第t次迭代过程中由传感矩阵的原子构成的支撑集,
Figure BDA0002996707110000092
为第t次迭代过程中最小二乘法计算的估计值。
σe的计算公式为:
Figure BDA0002996707110000101
At-1是OMP算法第t-1次迭代过程中由传感矩阵的原子构成的支撑集,
Figure BDA0002996707110000102
为t-1次迭代过程中最小二乘法计算的估计值。
在迭代完成时,求解最后一次迭代与第一次迭代的残差条件熵差值,并通过阈值判断,即可获取端点检测结果。
图2(a)给出采用OMP算法对某语音样本重建过程中语音时域波形、图2(b)给出带噪语音的时域波形,图2(c)给出最后一次迭代与第一次迭代的残差条件熵差值及阈值。
从图上可以看出,该样本噪声级较强,该带噪样本的信噪比为0dB,语音信号被噪声掩盖,但根据本算法,残差条件熵差值在噪声环境下较为稳健,具有较好的鲁棒性,通过较小的阈值设置就可以对带噪的语音检测出其起点与终点。
可见,在迭代过程中残差条件熵的差值很好地对应了语音样本中的有效成分,σe的变化趋势是与原始波形中的有声段(含清音与浊音)的位置相对应,采用经验的阈值条件就可以完成重建语音样本的起终点判定,如图2(c)中采用较低的阈值(如0.01)就可以实现带噪语音的端点检测。而且该算法样本重建的同时就可以获取重建样本端点,不需要对重建样本实施其它的端点检测算法。
采用残差条件熵差值的语音信号端点检测方法的带噪语音情感识别整体流程图如图1所示。由图1可见,在带噪情感语音在重建的同时可获得重建样本的端点检测结果,依据端点检测结果可以进行后续的特征提取与特征学习,使用情感语音的特征参数集可以训练有效的情感识别模型,进而实现带噪语音情感识别。
实施例二
本实施例提供了带噪语音情感识别***;
带噪语音情感识别***,包括:
获取模块,其被配置为:获取待识别的带噪语音信号;
端点检测模块,其被配置为:对待识别的带噪语音信号进行端点检测处理;根据端点得到若干个有声音的语音片段;
特征提取模块,其被配置为:对有声音的语音片段进行特征提取,得到语音特征;
输出模块,其被配置为:将语音特征输入到训练后的语音情感识别模型中,输出情感类别。
此处需要说明的是,上述获取模块、端点检测模块、特征提取模块和输出模块对应于实施例一中的步骤S100至S400,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为***的一部分可以在诸如一组计算机可执行指令的计算机***中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的***,可以通过其他的方式实现。例如以上所描述的***实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个***,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1.带噪语音情感识别方法,其特征是,包括:
获取待识别的带噪语音信号;
对待识别的带噪语音信号进行端点检测处理;根据端点得到若干个有声音的语音片段;
对有声音的语音片段进行特征提取,得到语音特征;
将语音特征输入到训练后的语音情感识别模型中,输出情感类别;
所述对待识别的带噪语音信号进行端点检测处理;根据端点得到若干个有声音的语音片段;具体包括:
对待识别的带噪语音信号进行稀疏转换处理;
对稀疏转换处理后的语音信号,随机生成高斯随机矩阵;将高斯随机矩阵作为语音信号的观测矩阵;
基于观测矩阵,采用正交匹配追踪算法OMP进行样本重建,得到端点检测结果;
所述基于观测矩阵,采用正交匹配追踪算法OMP进行样本重建,得到端点检测结果;具体包括:
(1):根据观测矩阵,得到每一帧的语音观测值;
(2):首次运行时,残差设定为语音观测值,计算残差与传感矩阵的相关系数;
非首次运行时,计算上一次迭代估计值与语音观测值的残差,和残差与传感矩阵的相关系数;
(3):在传感矩阵中,寻找相关系数最大原子,利用相关系数最大原子更新信号重建的支撑集;
(4):基于支撑集,使用最小二乘法对观测值进行逼近,得到的信号的估计值;
(5):更新残差,计算残差条件熵;
(6):判断是否达到稀疏度条件,如果是,就返回(2);如果否,就计算第一次迭代与最后一次迭代的残差条件熵差值,且此时的信号的估计值认为是重建样本;
(7):判断第一次迭代与最后一次迭代的残差条件熵差值是否高于设定阈值,如果高于设定阈值,则认为当前帧语音为有声段;如果低于设定阈值,则认为当前帧语音为无声段,获得当前帧语音的端点检测结果;
(8):基于端点检测结果,获得重建样本中的有声音的语音片段。
2.如权利要求1所述的带噪语音情感识别方法,其特征是,对待识别的带噪语音信号进行稀疏转换处理;具体包括:
采用离散余弦变换,对待识别的带噪语音信号进行稀疏转换处理。
3.如权利要求1所述的带噪语音情感识别方法,其特征是,计算上一次迭代估计值与语音观测值的残差,和残差与传感矩阵的相关系数;具体包括:
第t次迭代所获得的重建残差rt的计算公式为:
Figure FDA0003434575060000021
其中,At是OMP算法第t次迭代过程中由传感矩阵的原子构成的支撑集,
Figure FDA0003434575060000022
为第t次迭代过程中最小二乘法计算的估计值,y是观测值。
4.如权利要求1所述的带噪语音情感识别方法,其特征是,更新残差,计算残差条件熵;具体包括:
对每次迭代得到的残差进行存储,更新残差;
基于更新后的残差,计算残差条件熵;
所述基于更新后的残差,计算残差条件熵;残差条件熵σe的计算公式为:
Figure FDA0003434575060000031
At-1是OMP算法第t-1次迭代过程中由传感矩阵的原子构成的支撑集,
Figure FDA0003434575060000032
为t-1次迭代过程中最小二乘法计算的估计值。
5.如权利要求1所述的带噪语音情感识别方法,其特征是,稀疏度条件指的是在样本重建过程中每次迭代完之后要判断迭代次数与稀疏度K的大小来判断是否终止迭代;如果迭代次数小于K要继续迭代,否则终止迭代。
6.带噪语音情感识别***,其特征是,包括:
获取模块,其被配置为:获取待识别的带噪语音信号;
端点检测模块,其被配置为:对待识别的带噪语音信号进行端点检测处理;根据端点得到若干个有声音的语音片段;
所述对待识别的带噪语音信号进行端点检测处理;根据端点得到若干个有声音的语音片段;具体包括:
对待识别的带噪语音信号进行稀疏转换处理;
对稀疏转换处理后的语音信号,随机生成高斯随机矩阵;将高斯随机矩阵作为语音信号的观测矩阵;
基于观测矩阵,采用正交匹配追踪算法OMP进行样本重建,得到端点检测结果;
所述基于观测矩阵,采用正交匹配追踪算法OMP进行样本重建,得到端点检测结果;具体包括:
(1):根据观测矩阵,得到每一帧的语音观测值;
(2):首次运行时,残差设定为语音观测值,计算残差与传感矩阵的相关系数;
非首次运行时,计算上一次迭代估计值与语音观测值的残差,和残差与传感矩阵的相关系数;
(3):在传感矩阵中,寻找相关系数最大原子,利用相关系数最大原子更新信号重建的支撑集;
(4):基于支撑集,使用最小二乘法对观测值进行逼近,得到的信号的估计值;
(5):更新残差,计算残差条件熵;
(6):判断是否达到稀疏度条件,如果是,就返回(2);如果否,就计算第一次迭代与最后一次迭代的残差条件熵差值,且此时的信号的估计值认为是重建样本;
(7):判断第一次迭代与最后一次迭代的残差条件熵差值是否高于设定阈值,如果高于设定阈值,则认为当前帧语音为有声段;如果低于设定阈值,则认为当前帧语音为无声段,获得当前帧语音的端点检测结果;
(8):基于端点检测结果,获得重建样本中的有声音的语音片段;
特征提取模块,其被配置为:对有声音的语音片段进行特征提取,得到语音特征;
输出模块,其被配置为:将语音特征输入到训练后的语音情感识别模型中,输出情感类别。
7.一种电子设备,其特征是,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述权利要求1-5任一项所述的方法。
8.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-5任一项所述的方法。
CN202110332451.5A 2021-03-29 2021-03-29 带噪语音情感识别方法、***、设备及存储介质 Active CN113053417B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110332451.5A CN113053417B (zh) 2021-03-29 2021-03-29 带噪语音情感识别方法、***、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110332451.5A CN113053417B (zh) 2021-03-29 2021-03-29 带噪语音情感识别方法、***、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113053417A CN113053417A (zh) 2021-06-29
CN113053417B true CN113053417B (zh) 2022-04-19

Family

ID=76516320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110332451.5A Active CN113053417B (zh) 2021-03-29 2021-03-29 带噪语音情感识别方法、***、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113053417B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103474066A (zh) * 2013-10-11 2013-12-25 福州大学 基于多频带信号重构的生态声音识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345923B (zh) * 2013-07-26 2016-05-11 电子科技大学 一种基于稀疏表示的短语音说话人识别方法
CN107293302A (zh) * 2017-06-27 2017-10-24 苏州大学 一种用于语音测谎***中的稀疏谱特征提取方法
CN107657964B (zh) * 2017-08-15 2021-01-05 西北大学 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器
CN109243493B (zh) * 2018-10-30 2022-09-16 南京工程学院 基于改进长短时记忆网络的婴儿哭声情感识别方法
CN111081280B (zh) * 2019-12-30 2022-10-04 思必驰科技股份有限公司 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103474066A (zh) * 2013-10-11 2013-12-25 福州大学 基于多频带信号重构的生态声音识别方法

Also Published As

Publication number Publication date
CN113053417A (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
Giraldo et al. Vocell: A 65-nm speech-triggered wake-up SoC for 10-$\mu $ W keyword spotting and speaker verification
KR101988222B1 (ko) 대어휘 연속 음성 인식 장치 및 방법
CN113076847B (zh) 一种多模态情感识别方法及***
CN111785288B (zh) 语音增强方法、装置、设备及存储介质
CN109448746B (zh) 语音降噪方法及装置
Kheder et al. Additive noise compensation in the i-vector space for speaker recognition
JP2010078650A (ja) 音声認識装置及びその方法
CN111754983A (zh) 一种语音去噪方法、装置、电子设备及存储介质
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
CN113643693A (zh) 以声音特征为条件的声学模型
CN112489625A (zh) 语音情绪识别方法、***、移动终端及存储介质
CN101123090B (zh) 通过使用平方根折扣的统计语言的语音识别
CN110648655B (zh) 一种语音识别方法、装置、***及存储介质
Helali et al. Real time speech recognition based on PWP thresholding and MFCC using SVM
Sharma et al. Automatic speech recognition systems: challenges and recent implementation trends
CN113053417B (zh) 带噪语音情感识别方法、***、设备及存储介质
CN113065449B (zh) 面部图像采集方法、装置、计算机设备及存储介质
KR20170088165A (ko) 심층 신경망 기반 음성인식 방법 및 그 장치
Mendiratta et al. Automatic speech recognition using optimal selection of features based on hybrid ABC-PSO
Han et al. Reverberation and noise robust feature compensation based on IMM
CN112397087B (zh) 共振峰包络估计、语音处理方法及装置、存储介质、终端
Nicolson et al. Sum-product networks for robust automatic speaker identification
CN108962389A (zh) 用于风险提示的方法及***
CN112216285A (zh) 多人会话检测方法、***、移动终端及存储介质
Nidhyananthan et al. A review on speech enhancement algorithms and why to combine with environment classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant