CN115116475B - 一种基于时延神经网络的语音抑郁症自动检测方法和装置 - Google Patents

一种基于时延神经网络的语音抑郁症自动检测方法和装置 Download PDF

Info

Publication number
CN115116475B
CN115116475B CN202210663429.3A CN202210663429A CN115116475B CN 115116475 B CN115116475 B CN 115116475B CN 202210663429 A CN202210663429 A CN 202210663429A CN 115116475 B CN115116475 B CN 115116475B
Authority
CN
China
Prior art keywords
voice
time
short
frame
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210663429.3A
Other languages
English (en)
Other versions
CN115116475A (zh
Inventor
李雅
刘勇
王栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202210663429.3A priority Critical patent/CN115116475B/zh
Publication of CN115116475A publication Critical patent/CN115116475A/zh
Application granted granted Critical
Publication of CN115116475B publication Critical patent/CN115116475B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/937Signal energy in various frequency bands

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供一种基于时延神经网络的语音抑郁症自动检测方法和装置,所述方法的步骤包括,获取初始语音信号,将所述初始语音信号划分为多个语音段,每个语音段包括至少一个语音帧,分别计算所述初始语音信号中每一个语音段的短时能量与短时过零率;基于短时能量和短时过零率得到有效语音片段;对每个有效语音片段进行预加重处理,对预加重处理后的有效语音片段基于时间进行分帧,得到多个帧片段,计算每个帧片段对应的梅尔频率倒谱系数;将梅尔频率倒谱系数输入预设的时延神经网络模型中,采用层次残差卷积以及压缩激励机制提取帧级特征,基于注意力机制的统计池化合并帧级特征并经过分类模型得到概率参数;最后投票集成得到预测结果。

Description

一种基于时延神经网络的语音抑郁症自动检测方法和装置
技术领域
本发明涉及语音处理技术领域,尤其涉及一种基于时延神经网络的语音抑郁症自动检测方法和装置。
背景技术
抑郁症是一种常见的精神疾病,主要表现为情绪低落,思维迟缓和意志减退,已经成为了目前世界范围内主要的健康问题之一。造成抑郁症危害严重的另一因素是目前对于抑郁症的诊断缺乏客观的检查手段,对于其评估和诊断主要依赖于神经科医生的精神检查,很大程度上依赖医生的主观经验,而诊断工具也仅限于调查问卷以及诊断量表。
现有的抑郁症诊断方法主要依靠医生的诊断经验,因此对医生的经验要求较高,对于经验较少的医生难以保证诊断质量。
语音作为人类传递信息的最直接的方式,其中蕴含了大量人类健康状态的信息,已有大量研究表明抑郁症患者的发音特点正常人相比具有显著差异,比如基频、响度以及语速等相关特征会产生较大变化。
因此,现有技术亟需一种基于人工智能与语音信号处理技术的抑郁症诊断方法。
发明内容
鉴于此,本发明的实施例提供了一种基于时延神经网络的语音抑郁症自动检测方法和装置,以消除或改善现有技术中存在的一个或更多个缺陷。
本发明的第一方面提供了一种基于时延神经网络的语音抑郁症自动检测方法,所述方法的步骤包括,
获取初始语音信号,将所述初始语音信号划分为多个语音段,每个语音段包括至少一个语音帧,分别计算所述初始语音信号中每一个语音段的短时能量与短时过零率;
基于所述短时能量获取所述初始语音信号的语音段中的浊音片段,基于所述短时过零率获取所述初始语音信号的语音段中的清音片段,组合初始语音信号中的所有浊音片段和清音片段,得到有效语音片段;
对每个所述有效语音片段进行预加重处理,对预加重处理后的有效语音片段基于时间进行分帧,得到多个帧片段,计算每个帧片段对应的梅尔频率倒谱系数;
将所述梅尔频率倒谱系数输入预设的时延神经网络模型中,基于所述时延神经网络模型的特征提取模块计算得到梅尔频率倒谱系数对应的特征向量,基于所述时延神经网络模型的特征汇聚模块计算得到每个特征向量对应的均值和方差,将每个特征向量对应的均值和方差输入所述时延神经网络模型的分类模块,得到概率参数。
采用上述方案,本发明与使用抑郁量表进行诊断的方法相比,无需依赖专业医生的经验进行诊断,且不需要昂贵的基础设施以及复杂的操作流程,本发明基于梅尔频率倒谱系数(MFCC)特征对语音特征提取,使用深度学习方法进行处理,对长段语音进行切分,作为时延神经网络输入分类结果,并进行集成以获得抑郁症诊断结果。
在本发明的一些实施方式中,在将所述梅尔频率倒谱系数输入预设的时延神经网络模型中的步骤之前还包括步骤,
对所述梅尔频率倒谱系数通过频谱遮罩进行特征数据增强,将增强后的梅尔频率倒谱系数输入预设的时延神经网络模型。
在本发明的一些实施方式中,所述频谱遮罩的方式包括但不限于时域遮罩或频域遮罩。
在本发明的一些实施方式中,在分别计算所述初始语音信号中每一个语音段的短时能量与短时过零率的步骤中,基于如下公式计算短时能量:
Ex表示语音段x的短时能量,N表示语音段x中的帧总数,n表示N个的帧中的任一个,x[n]表示N帧中的第n帧的幅值。
在本发明的一些实施方式中,在分别计算所述初始语音信号中每一个语音段的短时能量与短时过零率的步骤中,基于如下公式计算短时过零率:
Zx表示语音段x的短时过零率,N表示语音段x中的帧总数,n表示N个的帧中的任一个,x(n)表示N帧中的第n帧的幅值,x(n-1)表示N帧中的第n-1帧的幅值,sgn表示符号函数。
在本发明的一些实施方式中,在基于所述短时能量获取所述初始语音信号的语音段中的浊音片段,基于所述短时过零率获取所述初始语音信号的语音段中的清音片段的步骤中,
预设短时能量阈值和短时过零率阈值;
基于对比每个语音段的短时能量值和短时能量阈值,获取语音段中的浊音片段;
基于对比每个语音段的短时过零率值和短时过零率阈值,获取语音段中的清音片段。
在本发明的一些实施方式中,基于如下公式,对每个所述有效语音片段进行预加重处理;
y(n)=x(n)-αx(n-1)
x(n)表示N帧中的第n帧的幅值,x(n-1)表示N帧中的第n-1帧的幅值,y(n)为经过预加重处理后有效语音片段的N帧中的第n帧的幅值,α为预加重因子。
在本发明的一些实施方式中,在对预加重处理后的有效语音片段基于时间进行分帧,得到多个帧片段的步骤中,
将每第一时间长度的有效语音片段划分为一个帧片段,相邻的帧片段存在第二时间长度的重合段。
在本发明的一些实施方式中,计算每个帧片段对应的梅尔频率倒谱系数的步骤包括:
对每个帧片段基于窗函数进行加窗处理;
对加窗后的帧片段进行快速傅里叶变换,将时域信号转化为频域信号;
基于梅尔滤波器将频域信号的频率转化到梅尔频率,得到梅尔频率信号;
对梅尔频率信号进行反傅里叶变换,将梅尔频率信号转化到时域,得到梅尔频率倒谱系数。
在本发明的一些实施方式中,所述特征提取模块包括多个连续的Se-Res2模块,每个 Se-Res2模块设置有Res2Net层进行卷积处理,所述特征提取模块采用分层残差连接提取帧级特征;所述特征汇聚模块包括注意力机制层,基于注意力机制计算每个特征向量对应的均值和方差;所述分类模块包括顺序连接的全连接层和Softmax层,由Softmax层输出概率参数。
在本发明的一些实施方式中,在Res2Net层进行卷积处理步骤中,引入层次残差连接的模式,在一维空洞卷积时将特征在通道上进行拆分,进行不同尺度的抑郁相关特征提取,再融合分组的特征。嵌入压缩激励模块,该模块利用全局信息评估各个特征通道的重要程度,即学习到表征各个通道重要程度的权重信息,重新调整卷积后输出的各个通道的特征,实现突出对抑郁诊断更为关键的信息,抑制无关冗余信息。
在本发明的一些实施方式中,在所述特征提取模块采用分层残差连接提取帧级特征步骤中:
将梅尔频率倒谱系数经过一次一维卷积调整尺寸变为第一特征图,将第一特征图输入 Se-Res2模块,每次经过Se-Res2模块将输入数据平均分为四个特征子图并分别卷积,将卷积后的特征子图进行拼接,将拼接后的特征图再次经过一维卷积得到层次残差卷积的输出,并由最后一个Se-Res2模块输出第二特征图,根据如下公式,对特征子图进行卷积:
yi表示卷积后的特征子图,i表示特征子图的序号,yi-1表示第i-1个特征子图xi-1卷积后的特征子图,Ki代表第i个特征子图xi所对应的3x3卷积。
在本发明的一些实施方式中,在最后一个Se-Res2模块输出第二特征图的步骤中,基于预设的压缩激励模块对最后一个Se-Res2模块输出第二特征图进行调整,具体包括步骤,
基于预设的压缩激励模块得到权重因子,将权重因子加权到每个Se-Res2模块的输出特征图,权重因子加权到的特征图包括最后一个Se-Res2模块输出第二特征图,得到调整后第二特征图:
根据如下公式,基于预设的压缩激励模块得到权重因子:
s=σ1(W2f1(W1z+b1)+b2)
z为通道描述符,R表示第一特征图的总帧数,r表示R帧中的第r帧,γr表示第一特征图第r帧的特征向量,W1、W2、b1、b2分别为两个全连接层的参数,f1为relu激活函数,σ1为sigmod激活函数,s表示权重因子。
在本发明的一些实施方式中,在基于注意力机制计算每个特征向量对应的均值和方差的步骤中:
根据如下公式,计算每个特征向量对应的放缩因子,并进行归一化:
et=vTf2(Wht+b)+k;
et表示第t个帧片段的注意力得分,f2表示非线性激活函数,W表示权重参数,ht表示第t个帧片段的特征向量,b表示偏置参数,vT与k均为预设的线性层学习的参数,αt表示为经过softmax归一化后的注意力得分,T表示帧片段的总数;
根据如下公式,基于放缩因子计算每个特征向量对应的均值和方差:
μ表示均值,σ2表示方差,t表示第t个帧片段。
本发明的第二方面提供了一种基于时延神经网络的语音抑郁症自动检测装置,该装置包括计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现上述方法的步骤。
本发明的第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述基于时延神经网络的语音抑郁症自动检测方法的步骤。。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。
图1为本发明基于时延神经网络的语音抑郁症自动检测方法一种实施方式的示意图;
图2为本发明基于时延神经网络的语音抑郁症自动检测方法的总体框架示意图;
图3为本发明获取梅尔频率倒谱系数的流程示意图;
图4为本发明的时延神经网络模型的处理步骤示意图;
图5为采用三角滤波器方式的图谱示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。
在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
为解决以上问题,如图1、2、3所示,本发明提出一种基于时延神经网络的语音抑郁症自动检测方法,所述方法的步骤包括,
步骤S100,获取初始语音信号,将所述初始语音信号划分为多个语音段,每个语音段包括至少一个语音帧,分别计算所述初始语音信号中每一个语音段的短时能量与短时过零率;
在本发明的一些实施方式中,所述语音帧的时间长度可以为20ms、30ms或50ms等。
步骤S200,基于所述短时能量获取所述初始语音信号的语音段中的浊音片段,基于所述短时过零率获取所述初始语音信号的语音段中的清音片段,组合初始语音信号中的所有浊音片段和清音片段,得到有效语音片段;
在本发明的一些实施方式中,短时能量表示语音信号能量大小的平均值,短时过零率表示一帧语音信号的波形图曲线穿过横轴的次数;
采用上述方案,语音中可分为清音、浊音以及噪音部分,需要从中剔除噪音片段,而浊音的短时能量明显高于清音和噪声,且清音的短时过零率要高于噪声部分,因此可以通过设置合适的阈值达到目的,精确去除噪音片段。
步骤S300,对每个所述有效语音片段进行预加重处理,对预加重处理后的有效语音片段基于时间进行分帧,得到多个帧片段,计算每个帧片段对应的梅尔频率倒谱系数;
在本发明的一些实施方式中,预加重处理能够提升语音信号中的高频部分,使信号的频谱变得平坦,便于进行频谱或声道参数分析。
在本发明的一些实施方式中,所述帧片段的时间长度可以为20ms、30ms或50ms等。
在本发明的一些实施方式中,计算每个帧片段对应的梅尔频率倒谱系数可通过梅尔滤波器实现。
如图4所示,步骤S400,将所述梅尔频率倒谱系数输入预设的时延神经网络模型中,基于所述时延神经网络模型的特征提取模块计算得到梅尔频率倒谱系数对应的特征向量,基于所述时延神经网络模型的特征汇聚模块计算得到每个特征向量对应的均值和方差,将每个特征向量对应的均值和方差输入所述时延神经网络模型的分类模块,得到概率参数。
在本发明的一些实施方式中,特征提取模块基于时延神经网络实现,由三个连续且步幅逐渐增加的SE-Res2模块组成。时延神经网络是一种将历史、当前和未来帧的特征拼接起来的神经网络架构,从而引入了时序信息。该网络可以由多层一维空洞卷积神经网络来实现,可以使得整体参数量更少,降低计算量。
将梅尔频率倒谱系数经过一次一维卷积调整尺寸变为第一特征图,将第一特征图输入 Se-Res2模块,每次经过Se-Res2模块将输入数据平均分为四个特征子图并分别卷积,将卷积后的特征子图进行拼接,将拼接后的特征图再次经过一维卷积得到层次残差卷积的输出,并由最后一个Se-Res2模块输出第二特征图;
在本发明的一些实施方式中,特征汇聚模块输入的特征向量即为调整后第二特征图。
在最后一个Se-Res2模块输出第二特征图的步骤中,基于预设的压缩激励模块对最后一个Se-Res2模块输出第二特征图进行调整,具体包括步骤,
基于预设的压缩激励模块得到权重因子,将权重因子加权到每个Se-Res2模块的输出特征图,权重因子加权到的特征图包括最后一个Se-Res2模块输出第二特征图,得到调整后第二特征图,前一Se-Res2模块的输入作为后一Se-Res2模块的输入,每个Se-Res2模块的输出均由权重因子进行加权处理,最后一个Se-Res2模块输出的第二特征图由权重因子进行加权处理进行调整。
特征提取模块引入Res2Net中层次残差连接的模式,在一维空洞卷积时将特征在通道上进行拆分,进行不同尺度的抑郁相关特征提取,再融合分组的特征,提高网络的表达能力。具体而言,在每个卷积模块中,输入的特征图经过一次一维卷积后,将特征图按顺序划分为四份,以xi表示,i∈{1,2,3,4}。除特征子图x1外,每个特征子图xi都经过3x3卷积后,加上前一个特征子图卷积后的结果输出,对于每个特征子图xi其对应输出yi如下所示:
其中Ki代表第i个特征子图xi所对应的3x3卷积,yi表示卷积后的特征子图,i表示特征子图的序号,yi-1表示第i-1个特征子图xi-1卷积后的特征子图,Ki代表第i个特征子图xi所对应的3x3卷积。
各个特征子图经过卷积后合并,在经过一维卷积得到层次残差卷积的输出。
采用上述方案,在一维空洞卷积中嵌入压缩激励模块,该模块利用全局信息评估各个特征通道的重要程度,即学***均得到通道描述符z,如下所示:
在自适应重调中,使用带有sigmoid激活函数的全连接层,获得归一化后的权重因子 s,来表示各个通道的重要程度。
s=σ1(W2f1(W1z+b1)+b2)
其中W1、W2、b1、b2分别为两个全连接层的参数,f为relu激活函数,σ为sigmod 激活函数。
最后将权重因子加权到每个通道的特征上,完成在通道维度对原始特征的重标定。
在本发明的一些实施方式中,特征汇聚模块通过计算帧级特征的均值和方差,将卷积后的帧级特征映射为固定长度的段级特征。
采用上述方案,特征汇聚模块将通过堆叠帧级特征各个通道的均值和方差,将特征提取模块帧级特征表示映射为整段语音的特征表示。此处在计算机引入了注意力机制,某些语音帧包含更多的抑郁线索,对最终结果的影响更大,通过使用注意力机制可对这些重要帧赋予更高的权重。
在本发明的一些实施方式中,所述分类模块包括两个全连接层和Softmax层,输出语音属于抑郁症或正常人的概率值。
采用上述方案,本发明与使用抑郁量表进行诊断的方法相比,无需依赖专业医生的经验进行诊断,且不需要昂贵的基础设施以及复杂的操作流程,本发明基于梅尔频率倒谱系数(MFCC)特征对语音特征提取,使用深度学习方法进行处理,对长段语音进行切分,作为时延神经网络输入分类结果,并进行集成以获得抑郁症诊断结果。
在本发明的一些实施方式中,在将所述梅尔频率倒谱系数输入预设的时延神经网络模型中的步骤之前还包括步骤,
对所述梅尔频率倒谱系数通过频谱遮罩进行特征数据增强,将增强后的梅尔频率倒谱系数输入预设的时延神经网络模型。
在本发明的一些实施方式中,所述频谱遮罩的方式包括但不限于时域遮罩或频域遮罩。
(1)时域遮罩:将梅尔频率倒谱系数频谱图中的相邻的几帧以0代替;
(2)频域遮罩:与时域遮罩同理,在频域上将相邻的几个频段用0替换。
采用上述方案,频谱遮罩进行特征数据增强,数据增强能够扩充数据样本规模,提高深度学习模型的性能。
在本发明的一些实施方式中,在分别计算所述初始语音信号中每一个语音段的短时能量与短时过零率的步骤中,基于如下公式计算短时能量:
Ex表示语音段x的短时能量,N表示语音段x中的帧总数,n表示N个的帧中的任一个,x[n]表示N帧中的第n帧的幅值。
在本发明的一些实施方式中,在分别计算所述初始语音信号中每一个语音段的短时能量与短时过零率的步骤中,基于如下公式计算短时过零率:
Zx表示语音段x的短时过零率,N表示语音段x中的帧总数,n表示N个的帧中的任一个,x(n)表示N帧中的第n帧的幅值,x(n-1)表示N帧中的第n-1帧的幅值,sgn表示符号函数;
在本发明的一些实施方式中,在基于所述短时能量获取所述初始语音信号的语音段中的浊音片段,基于所述短时过零率获取所述初始语音信号的语音段中的清音片段的步骤中,
预设短时能量阈值和短时过零率阈值;
基于对比每个语音段的短时能量值和短时能量阈值,获取语音段中的浊音片段;
基于对比每个语音段的短时过零率值和短时过零率阈值,获取语音段中的清音片段。
在本发明的一些实施方式中,本方案可以为直接对比短时能量值和短时能量阈值,及短时过零率值和短时过零率阈值的方式,使二者相比较获取语音段中的浊音片段或清音片段;
也可以采用如下方式:
设定一个短时能量高门限值T1和低门限值T2,进行第一次初判,首先依据高门限T1 设定的起点和终点,再根据T2对于选定范围起点向左、终点向右搜索,扩展语音选择范围,通过设定两个门限值能够实现有效的检出连续的浊音片段;
依据噪音的短时过零率,设置一个阈值T3,对于上步所选择的范围再次向前向后扩展,并合并重复区域,这样得到的范围就是原先语音中除噪声外的有声片段,即组合初始语音信号中的所有浊音片段和清音片段,得到有效语音片段。
在本发明的一些实施方式中,基于如下公式,对每个所述有效语音片段进行预加重处理;
y(n)=x(n)-αx(n-1)
x(n)表示N帧中的第n帧的幅值,x(n-1)表示N帧中的第n-1帧的幅值,y(n)为经过预加重处理后有效语音片段的N帧中的第n帧的幅值,α为预加重因子,在本发明的一些实施方式中,α=0.97。
在本发明的一些实施方式中,在对预加重处理后的有效语音片段基于时间进行分帧,得到多个帧片段的步骤中,
将每第一时间长度的有效语音片段划分为一个帧片段,相邻的帧片段存在第二时间长度的重合段。
在本发明的一些实施方式中,在对预加重处理后的有效语音片段基于时间进行分帧,得到多个帧片段的步骤中,把信号分成25ms一段的帧片段,为了避免两帧之间的差距过大,损失边界信息,另两帧之间有一段10ms的重合段。
采用上述方案,有效保留了边界信息。
在本发明的一些实施方式中,计算每个帧片段对应的梅尔频率倒谱系数的步骤包括:
对每个帧片段基于窗函数进行加窗处理;
对加窗后的帧片段进行快速傅里叶变换,将时域信号转化为频域信号;
基于梅尔滤波器将频域信号的频率转化到梅尔频率,得到梅尔频率信号;
对梅尔频率信号进行反傅里叶变换,将梅尔频率信号转化到时域,得到梅尔频率倒谱系数。
采用上述方案,将信号分帧后,需将每一帧代入窗函数,窗外的值设定为0,以消除各个帧两端造成的信号的不连续性;
快速傅里叶变换,将时域信号转化为频域进行后续的频域分析。由于信号在时域上的变换难以看出信号的特征,因此对其进行快速傅里叶变换转换为频域上的能量分布来分析,不同的能量分布就能表示不同的语音特征;
离散余弦变换,此处进行反傅里叶变换,将产生的梅尔频域信号转化到时域,得到梅尔频率倒谱系数。
在本发明的一些实施方式中,对每个帧片段基于窗函数进行加窗处理的步骤中,采用汉明窗函数;
根据如下公式得到汉明窗函数值:
w(a)=(1-α)-βcos[2πa/(A-1)];
w(a)表示汉明窗函数值,A表示窗口长度,a为窗口中的任一处的值,β窗参数。
在本发明的一些实施方式中,根据如下公式,对加窗后的帧片段进行快速傅里叶变换:
δ(a)表示窗口长度中a处的幅值,δa(k)表示快速傅里叶变换后的参数值。
在本发明的一些实施方式中,根据如下公式,基于梅尔滤波器将频域信号的频率转化到梅尔频率:
Hm(k)表示梅尔滤波器的频率响应,M为滤波器的数量,0≤m≤M;取最大频率8kHZ和最小频率300Hz,将其转化到梅尔尺度,分别为401.25Mel与2834.99Mel,从最大频率与最小频率中等距离的选取M个点,分别定义为f(1)、f(2)、……、f(M),则f(0)=401.25, f(M+1)=2834.99,f(0)<k<f(M+1),s(m)表示滤波器组输出的对数能量,C(m)表示梅尔频率,g表示梅尔倒谱系数。
梅尔滤波组过滤,由于人耳对于不同频率信号感知的灵敏度是不同的,通常会更多的关注于低频信号,因此通过使用梅尔滤波器组将原始的频率信号转化到梅尔频率,三角滤波器如图5所示。
如图4所示,在本发明的一些实施方式中,所述特征提取模块包括多个连续的Se-Res2 模块,每个Se-Res2模块设置有Res2Net层进行卷积处理;所述特征汇聚模块包括注意力机制层,基于注意力机制计算每个特征向量对应的均值和方差;所述分类模块包括顺序连接的全连接层和Softmax层,由Softmax层输出概率参数。
特征提取模块在处理过程中首先在时间域上的特征值取平均产生通道描述符z,然后计算每个通道的权重,最后将权重值s乘以原先的特征,得到加权的特征。
在本发明的一些实施方式中,在基于注意力机制计算每个特征向量对应的均值和方差的步骤中:
根据如下公式,计算每个特征向量对应的放缩因子,并进行归一化:
et=vTf2(Wht+b)+k;
et表示第t个帧片段的注意力得分,f2表示非线性激活函数,W表示权重参数,ht表示第t个帧片段的特征向量,b表示偏置参数,vT与k均为预设的线性层学习的参数,αt表示为经过softmax归一化后的注意力得分,T表示帧片段的总数;
根据如下公式,基于放缩因子计算每个特征向量对应的均值和方差:
μ表示均值,σ2表示方差,t表示第t个帧片段。
采用上述方案,特征汇聚模块通过计算帧级特征的均值和方差,将卷积后的帧级特征映射为固定长度的段级特征,此处在计算时引入了注意力机制。某些语音帧包含更多的抑郁线索,对最终结果的影响更大,通过使用注意力机制可对这些重要帧赋予更高的权重。
本申请的时延神经网络模型采用交叉熵损失函数计算网络的输出值和真实值的误差,使用反向传播算法传播误差值,不断优化更新网络参数的权重。
在本发明的一些实施方式中,本申请的时延神经网络模型可以为ECAPA-TDNN网络模型。
在本发明的一些实施方式中,由于ECAPA-TDNN输入长度的限制,将每个人的语音切分为多个初始语音信号后,将每个初始语音信号均作为模型的输入,输出每个初始语音信号的结果的概率参数,最后结合多个结果输出该人是否患有抑郁症的结果,最终每个人会产生很多段语音,该步骤将一个人产生不同语音段的预测结果采用投票表决的方法,获得该人是否患有抑郁症的结果,集成每个人产生的多段语音的预测结果。
在本发明的一些实施方式中,在结合多个结果输出该人是否患有抑郁症的结果的步骤中,也可以采用为时间较长的初始语音信号赋予较大的权重,计算多个结果的概率参数加权平均值的方式,得到最终的预测参数,将最终的预测参数与预设的预测阈值相比较,得到该人是否患有抑郁症的结果;
具体可以为若预测参数大于预设的预测阈值则该人患有抑郁症;
若预测参数不大于预设的预测阈值则该人未患有抑郁症。
综上所述,抑郁症的语音数据容易获取,只需记录患者与医生按照诊断流程进行访谈的过程即可,是一种方便快捷的方式,本发明实验的平均预测准确率为90.3%,重复五次实验模型实验结果变化幅度很小,在预测抑郁症方面稳定性和准确性表现良好,证明了方法的有效性。该发明采取人工智能与语音信号处理技术,解决实际医疗问题,具有较高的实用价值。
本发明的第二方面提供了一种基于时延神经网络的语音抑郁症自动检测装置,该装置包括计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现上述方法的步骤。
本发明的第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述基于时延神经网络的语音抑郁症自动检测方法的步骤。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、***和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,做出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于时延神经网络的语音抑郁症自动检测方法,其特征在于,所述方法的步骤包括,
获取初始语音信号,将所述初始语音信号划分为多个语音段,每个语音段包括至少一个语音帧,分别计算所述初始语音信号中每一个语音段的短时能量与短时过零率;
基于所述短时能量获取所述初始语音信号的语音段中的浊音片段,基于所述短时过零率获取所述初始语音信号的语音段中的清音片段,组合初始语音信号中的所有浊音片段和清音片段,得到有效语音片段;
对每个所述有效语音片段进行预加重处理,对预加重处理后的有效语音片段基于时间进行分帧,得到多个帧片段,计算每个帧片段对应的梅尔频率倒谱系数;
将所述梅尔频率倒谱系数输入预设的时延神经网络模型中,基于所述时延神经网络模型的特征提取模块计算得到梅尔频率倒谱系数对应的特征向量,基于所述时延神经网络模型的特征汇聚模块计算得到每个特征向量对应的均值和方差,将每个特征向量对应的均值和方差输入所述时延神经网络模型的分类模块,得到概率参数,所述特征提取模块包括多个连续的Se-Res2模块,每个Se-Res2模块设置有Res2Net层进行卷积处理,所述特征提取模块采用分层残差连接提取帧级特征;
在所述特征提取模块采用分层残差连接提取帧级特征步骤中:
将梅尔频率倒谱系数经过一次一维卷积调整尺寸变为第一特征图,将第一特征图输入Se-Res2模块,每次经过Se-Res2模块将输入数据平均分为四个特征子图并分别卷积,将卷积后的特征子图进行拼接,将拼接后的特征图再次经过一维卷积得到层次残差卷积的输出,并由最后一个Se-Res2模块输出第二特征图,根据如下公式,对特征子图进行卷积:
yi表示卷积后的特征子图,i表示特征子图的序号,yi-1表示第i-1个特征子图xi-1卷积后的特征子图,Ki代表第i个特征子图xi所对应的3x3卷积;在最后一个Se-Res2模块输出第二特征图的步骤中,基于预设的压缩激励模块对最后一个Se-Res2模块输出第二特征图进行调整,具体包括步骤,
基于预设的压缩激励模块得到权重因子,将权重因子加权到每个Se-Res2模块的输出特征图,权重因子加权到的特征图包括最后一个Se-Res2模块输出第二特征图,得到调整后第二特征图:
根据如下公式,基于预设的压缩激励模块得到权重因子:
s=σ1(W2f1(W1z+b1)+b2)
z为通道描述符,R表示第一特征图的总帧数,r表示R帧中的第r帧,γr表示第一特征图第r帧的特征向量,W1、W2、b1、b2分别为两个全连接层的参数,f1为relu激活函数,σ1为sigmod激活函数,s表示权重因子。
2.根据权利要求1所述的基于时延神经网络的语音抑郁症自动检测方法,其特征在于,在将所述梅尔频率倒谱系数输入预设的时延神经网络模型中的步骤之前还包括步骤,
对所述梅尔频率倒谱系数通过频谱遮罩进行特征数据增强,将增强后的梅尔频率倒谱系数输入预设的时延神经网络模型。
3.根据权利要求1所述的基于时延神经网络的语音抑郁症自动检测方法,其特征在于,在分别计算所述初始语音信号中每一个语音段的短时能量与短时过零率的步骤中,基于如下公式计算短时能量:
Ex表示语音段x的短时能量,N表示语音段x中的帧总数,n表示N个的帧中的任一个,x[n]表示N帧中的第n帧的幅值;
在分别计算所述初始语音信号中每一个语音段的短时能量与短时过零率的步骤中,基于如下公式计算短时过零率:
Zx表示语音段x的短时过零率,N表示语音段x中的帧总数,n表示N个的帧中的任一个,x(n)表示N帧中的第n帧的幅值,x(n-1)表示N帧中的第n-1帧的幅值,sgn表示符号函数。
4.根据权利要求1所述的基于时延神经网络的语音抑郁症自动检测方法,其特征在于,在基于所述短时能量获取所述初始语音信号的语音段中的浊音片段,基于所述短时过零率获取所述初始语音信号的语音段中的清音片段的步骤中,
预设短时能量阈值和短时过零率阈值;
基于对比每个语音段的短时能量值和短时能量阈值,获取语音段中的浊音片段;
基于对比每个语音段的短时过零率值和短时过零率阈值,获取语音段中的清音片段。
5.根据权利要求1所述的基于时延神经网络的语音抑郁症自动检测方法,其特征在于,在对预加重处理后的有效语音片段基于时间进行分帧,得到多个帧片段,计算每个帧片段对应的梅尔频率倒谱系数的步骤包括:
在对预加重处理后的有效语音片段基于时间进行分帧,得到多个帧片段的步骤中,
将每第一时间长度的有效语音片段划分为一个帧片段,相邻的帧片段存在第二时间长度的重合段;
对每个帧片段基于窗函数进行加窗处理;
对加窗后的帧片段进行快速傅里叶变换,将时域信号转化为频域信号;
基于梅尔滤波器将频域信号的频率转化到梅尔频率,得到梅尔频率信号;
对梅尔频率信号进行反傅里叶变换,将梅尔频率信号转化到时域,得到梅尔频率倒谱系数。
6.根据权利要求1-5任一项所述的基于时延神经网络的语音抑郁症自动检测方法,其特征在于,所述特征汇聚模块包括注意力机制层,基于注意力机制计算每个特征向量对应的均值和方差;所述分类模块包括顺序连接的全连接层和Softmax层,由Softmax层输出概率参数。
7.根据权利要求6所述的基于时延神经网络的语音抑郁症自动检测方法,其特征在于,在基于注意力机制计算每个特征向量对应的均值和方差的步骤中:
根据如下公式,计算每个特征向量对应的放缩因子,并进行归一化;
et=vTf2(Wht+b)+k;
et表示第t个帧片段的注意力得分,f2表示非线性激活函数,W表示权重参数,ht表示第t个帧片段的特征向量,b表示偏置参数,vT与k均为预设的线性层学习的参数,αt表示为经过softmax归一化后的注意力得分,T表示帧片段的总数;
根据如下公式,基于放缩因子计算每个特征向量对应的均值和方差;
μ表示均值,σ2表示方差,t表示第t个帧片段。
8.一种基于时延神经网络的语音抑郁症自动检测装置,其特征在于,该装置包括计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如权利要求1-7任一项所述方法的步骤。
CN202210663429.3A 2022-06-13 2022-06-13 一种基于时延神经网络的语音抑郁症自动检测方法和装置 Active CN115116475B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210663429.3A CN115116475B (zh) 2022-06-13 2022-06-13 一种基于时延神经网络的语音抑郁症自动检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210663429.3A CN115116475B (zh) 2022-06-13 2022-06-13 一种基于时延神经网络的语音抑郁症自动检测方法和装置

Publications (2)

Publication Number Publication Date
CN115116475A CN115116475A (zh) 2022-09-27
CN115116475B true CN115116475B (zh) 2024-02-02

Family

ID=83328031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210663429.3A Active CN115116475B (zh) 2022-06-13 2022-06-13 一种基于时延神经网络的语音抑郁症自动检测方法和装置

Country Status (1)

Country Link
CN (1) CN115116475B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116564356A (zh) * 2023-04-26 2023-08-08 新疆大学 一种基于时延神经网络与门控循环单元算法的抑郁症诊断方法与***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109599129A (zh) * 2018-11-13 2019-04-09 杭州电子科技大学 基于注意力机制和卷积神经网络的语音抑郁症识别方法
CN110097894A (zh) * 2019-05-21 2019-08-06 焦点科技股份有限公司 一种端到端的语音情感识别的方法和***
WO2020073665A1 (zh) * 2018-10-11 2020-04-16 平安科技(深圳)有限公司 在频谱上对语音进行情绪识别的方法、***及存储介质
CN111081280A (zh) * 2019-12-30 2020-04-28 苏州思必驰信息科技有限公司 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法
CN111783622A (zh) * 2020-06-29 2020-10-16 北京百度网讯科技有限公司 人脸表情识别的方法、装置、设备和计算机可读存储介质
CN112908435A (zh) * 2021-01-28 2021-06-04 南京脑科医院 一种抑郁症认知行为训练***和语音数据处理方法
CN112992147A (zh) * 2021-02-26 2021-06-18 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020073665A1 (zh) * 2018-10-11 2020-04-16 平安科技(深圳)有限公司 在频谱上对语音进行情绪识别的方法、***及存储介质
CN109599129A (zh) * 2018-11-13 2019-04-09 杭州电子科技大学 基于注意力机制和卷积神经网络的语音抑郁症识别方法
CN110097894A (zh) * 2019-05-21 2019-08-06 焦点科技股份有限公司 一种端到端的语音情感识别的方法和***
CN111081280A (zh) * 2019-12-30 2020-04-28 苏州思必驰信息科技有限公司 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法
CN111783622A (zh) * 2020-06-29 2020-10-16 北京百度网讯科技有限公司 人脸表情识别的方法、装置、设备和计算机可读存储介质
CN112908435A (zh) * 2021-01-28 2021-06-04 南京脑科医院 一种抑郁症认知行为训练***和语音数据处理方法
CN112992147A (zh) * 2021-02-26 2021-06-18 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AUTOMATIC ASSESSMENT OF THE DEGREE OF CLINICAL DEPRESSION FROM SPEECH USING X-VECTORS.《ICASSP 2022》.2022,全文. *
语音识别与理解的研究进展;江铭虎, 朱小燕, 袁保宗;电路与***学报(02);全文 *

Also Published As

Publication number Publication date
CN115116475A (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
CN107657964B (zh) 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器
WO2019232829A1 (zh) 声纹识别方法、装置、计算机设备及存储介质
EP2695160B1 (en) Speech syllable/vowel/phone boundary detection using auditory attention cues
Uria et al. A deep neural network for acoustic-articulatory speech inversion
Su et al. Bandwidth extension is all you need
CN110648684B (zh) 一种基于WaveNet的骨导语音增强波形生成方法
Srinivasan et al. Artificial neural network based pathological voice classification using MFCC features
CN110942766A (zh) 音频事件检测方法、***、移动终端及存储介质
Do et al. Speech source separation using variational autoencoder and bandpass filter
CN115116475B (zh) 一种基于时延神经网络的语音抑郁症自动检测方法和装置
Rajesh Kumar et al. Optimization-enabled deep convolutional network for the generation of normal speech from non-audible murmur based on multi-kernel-based features
Dwijayanti et al. Enhancement of speech dynamics for voice activity detection using DNN
CN110415824B (zh) 脑卒中风的患病风险评估装置和设备
Cheng et al. DNN-based speech enhancement with self-attention on feature dimension
Fonseca et al. Discrete wavelet transform and support vector machine applied to pathological voice signals identification
Thomas et al. Acoustic and data-driven features for robust speech activity detection
Jolad et al. An approach for speech enhancement with dysarthric speech recognition using optimization based machine learning frameworks
CN116570284A (zh) 一种基于语音表征的抑郁症识别方法、***
US20230386504A1 (en) System and method for pathological voice recognition and computer-readable storage medium
Rao Accent classification from an emotional speech in clean and noisy environments
Raju et al. AUTOMATIC SPEECH RECOGNITION SYSTEM USING MFCC-BASED LPC APPROACH WITH BACK PROPAGATED ARTIFICIAL NEURAL NETWORKS.
Jagadeeshwar et al. ASERNet: Automatic speech emotion recognition system using MFCC-based LPC approach with deep learning CNN
Boualoulou et al. CNN and LSTM for the classification of parkinson's disease based on the GTCC and MFCC
Thirumuru et al. Application of non-negative frequency-weighted energy operator for vowel region detection
Shome et al. Non-negative frequency-weighted energy-based speech quality estimation for different modes and quality of speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant