CN112349297B - 一种基于麦克风阵列的抑郁症检测方法 - Google Patents

一种基于麦克风阵列的抑郁症检测方法 Download PDF

Info

Publication number
CN112349297B
CN112349297B CN202011248610.5A CN202011248610A CN112349297B CN 112349297 B CN112349297 B CN 112349297B CN 202011248610 A CN202011248610 A CN 202011248610A CN 112349297 B CN112349297 B CN 112349297B
Authority
CN
China
Prior art keywords
training
voice
neural network
convolutional neural
depression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011248610.5A
Other languages
English (en)
Other versions
CN112349297A (zh
Inventor
焦亚萌
周成智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Polytechnic University
Original Assignee
Xian Polytechnic University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Polytechnic University filed Critical Xian Polytechnic University
Priority to CN202011248610.5A priority Critical patent/CN112349297B/zh
Publication of CN112349297A publication Critical patent/CN112349297A/zh
Application granted granted Critical
Publication of CN112349297B publication Critical patent/CN112349297B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Veterinary Medicine (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Psychiatry (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Educational Technology (AREA)
  • Developmental Disabilities (AREA)
  • Psychology (AREA)
  • Social Psychology (AREA)
  • Epidemiology (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physiology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开的一种基于麦克风阵列的抑郁症检测方法,包括使用麦克风阵列采集目标患者的语音信号并对其进行预处理;提取目标患者预处理后的音频信号和已有抑郁症患者语音数据的MFCC特征,生成音频频谱图;将MFCC特征送入1D卷积神经网络,得到MFCC的P维特征;将音频频谱图送入2D卷积神经网络,得到频谱图的O维特征;将O维特征输入对抗生成网络生成新频谱图像,并将生成的新频谱图像传入2D卷积神经网络进行训练;将MFCC的P维特征和训练得到的特征进行融合并通过全连接层进行降维;降维特征训练分类器;训练分类器识别测试语音,得到识别结果。本发明提高了非实验环境下抑郁症识别的准确率。

Description

一种基于麦克风阵列的抑郁症检测方法
技术领域
本发明属于语音识别方法技术领域,具体涉及一种基于麦克风阵列的抑郁症检测方法。
背景技术
目前语音信号已经在抑郁症检测领域取得了一些进展,但对病人病情的诊断主要要使患者在固定的语音采集装置前进行语音信号的采集并且主要依靠临床医生进行诊断,常见诊断放法有贝克抑郁量表(BDI)、汉米尔顿抑郁量表(HAMD)等,这就使得对于病人的诊断结果十分的依靠医师的经验和能力,更重要的是需要患者的配合。进而使得当前对患者诊察时所采集的语音多数都呈现着程序化和机械化的特点,也就有可能导致采集到的患者语音出现不准确的问题。所以检测装置必须能在患者日常生活自然状态下,去除背景噪音的情况下对患者的语音进行采集。
麦克风阵列是由一定数目的声学传感器组成,是一种用来对声场的空间特性进行采样并处理的***。在复杂的声学环境下,噪声总是来自于四面八方,且其与语音信号在时间和频谱上常常是相互交叠的,再加上回波和混响的影响,利用单麦克风捕捉相对纯净的语音是非常困难的。而麦克风阵列融合了语音信号的空时信息,可以同时提取声源并抑制噪声。
卷积神经网络(CNN,Convolutional Neural Network)是近些年建立起来的深度学习算法之一,其对大型图像处理有良好的分类表现。生成对抗网络(GAN,GenerativeAdversarial Networks)最大的优势在于其解决了样本数据不充分的实验问题,通过构建合适的网络模型生成以假乱真的样本,可以有效帮助到医学疾病的诊断和预测,为医学研究提供更为重要的诊断依据。
将麦克风阵列可以清晰采取声音信号的优点与GAN和CNN两种深度学习方法的优势相结合,进而提高对抑郁症识别的准确率。
发明内容
本发明的目的在于提供一种基于麦克风阵列的抑郁症检测方法,提高了抑郁症识别的准确率。
本发明所采用的技术方案是:一种基于麦克风阵列的抑郁症检测方法,包括以下步骤:
步骤1、使用麦克风阵列采集目标患者的语音信号并对其进行预处理;
步骤2、提取步骤1中目标患者预处理后的音频信号和已有抑郁症患者语音数据的MFCC特征,生成音频频谱图;
步骤3、将步骤2中提取的MFCC特征送入1D卷积神经网络,得到MFCC的P维特征;
步骤4、将步骤2中生成的音频频谱图送入2D卷积神经网络,得到频谱图的O维特征;
步骤5、将步骤4得到的O维特征输入对抗生成网络生成新频谱图像,并将生成的新频谱图像传入步骤4的2D卷积神经网络进行训练;
步骤6、将步骤3提取到的MFCC的P维特征和步骤5训练得到的特征进行融合并通过全连接层进行降维;
步骤7、通过步骤6得到的降维后的特征训练分类器;
步骤8、通过步骤7训练好的分类器识别测试语音,得到识别结果。
本发明的特点还在于,
步骤1具体包括以下步骤:
步骤1.1、通过四元十字麦克风阵列采集目标患者语音信号;
步骤1.2、对采集到的目标患者语音信号进行分帧加窗,利用快速傅里叶变换将信号从时域比变换到频域,通过计算平滑功率谱和噪声功率谱完成谱因子的估算,输出谱减后的信号,最后结合能熵比计算并检测目标患者的语音信号,得到语音的端点值;
步骤1.3、结合端点检测的结果,使用DOA定位方法对声源信号进行位置判断;
步骤1.4、端点检测、声源定位处理后的语音信号,通过超指向性波束形成算法将四路信号合成一路信号,实现麦克风阵列信号的合成、降噪与增强。
步骤2具体包括以下步骤:
步骤2.1、首先通过汉明窗函数将语音信号分成帧;然后生成倒谱特征向量,并为每个帧计算离散傅立叶变换,仅保留振幅谱的对数,频谱经过平滑后,在Mel频率范围内收集44100个频段的24个频谱分量,应用Karhunen-Loeve变换后,将其近似为离散余弦变换;最后每帧获得[f1,f2,...,fN]个倒谱特征;
步骤2.2、根据所设定的帧数,将目标患者语音信号进行分帧加窗,对离散的语音信号x(m)做短时傅里叶变换,计算其在第m帧的功率谱则得到语谱图;选择L个滤波器,在时间方向上选择与滤波器大大小相同的L帧,则生成L×L×3的频谱图,将所生成的彩色图像大小调整为M×M×3。
步骤3的1D卷积神经网络为:使用一个开源的基于Tensorflow的Keras框架,只搭建两个1D卷积层,其中每层均采用纠正线性单元作为激活函数;输入维度为M×1,通过w1个大小为m×1卷积层滤波器,dropout为0.1,最大池步幅为q1,输出为S的特征向量;在训练1D卷积神经网络的阶段,使用遍历的方法依次将每帧语音信号的包含时频信息的MFCC特征读取到内存中,划分出训练集和测试集,并分别对训练集和测试集添加标签,再将处理好的数据按照集合标签传入卷积神经网络中,进行迭代训练,共计迭代B次。
步骤4的2D卷积神经网络为:使用一个开源的基于Tensorflow的Keras框架,搭建一个包含w2个n*n大小的二维卷积层,w1个最大池化层以及1个输出维度为L的全连接层的卷积神经网络,其中在卷积层和全连接层中均采用纠正线性单元作为激活函数;在训练卷积神经网络的阶段,使用遍历的方法依次将每帧语音信号的包含类纹理信息的频谱图特征读取到内存中,划分出训练集和测试集,并分别对训练集和测试集添加标签,再将处理好的数据按照集合标签传入卷积神经网络中,进行迭代训练,共计迭代B次;进行训练卷积神经网络,使用随机梯度下降法作为优化器,设置学习率为ε,每次更新后的学习率衰减值为μ,动力为β。
步骤5的对抗生成网络为:基于DCGAN的网络结构,对其进行简化并进行参数上的调整,网络模型包括生成器和鉴别器,生成器网络模型由1个全连接层、3个转置卷积层和2个批标准化层组成,输出为一张M×M×3大小的彩色图片,鉴别器部分包括3个卷积层和一个带有softmax功能的全连接层;鉴别器网络模型使用7层卷积神经网络模型由3个卷积层、2个批标准化层和2个全连接层组成,最终输出为一个概率值;设定一个概率阈值λ,当经过多次训练后鉴别器产生的概率值>λ时,将此次生成器产生的频谱图保存。
步骤6具体为:通过1D卷积神经网络提取到的MFCC的P维特征与频谱图的O维特征进行融合得到P+O维特征,将P+O维特征通过一个全连接层使其维度变为256维。
步骤7具体为:
步骤7.1、将目标患者语音作为测试语音,已有抑郁症患者的语音数据作为训练数据;训练数据包含X个人的语音信息,将X个人是否患有抑郁症的标签作为标签字典,每个标签有对应的索引号,设置标签索引号为类的索引号;经过一次测试后,将目标患者生成的频谱图加入训练数据集;
步骤7.2、对于每个标签,其总患有抑郁症的语音作为正例样本集,未患有抑郁症的语音作为反例样本集,使用正例样本集和反例样本集训练二分类SVM,得到训练好的二分类SVM。
本发明的有益效果是:本发明一种基于麦克风阵列的抑郁症检测方法,用于语音采集的麦克风方便随身携带,能够采集到患者自然状态下的语音信号;以结合CNN、MFCC特征及GAN增强数据集特征的抑郁症识别研究结果为基础,结合MFCC和CNN的优势,提高了非实验环境下抑郁症识别的准确率。
附图说明
图1是本发明一种基于麦克风阵列的抑郁症检测方法的原理图;
图2是本发明一种基于麦克风阵列的抑郁症检测方法所使用的麦克风阵列示意图;
图3是本发明一种基于麦克风阵列的抑郁症检测方法中CNN模型原理图;
图4是本发明一种基于麦克风阵列的抑郁症检测方法中GAN模型原理图。
具体实施方式
下面结合附图以及具体实施方式对本发明进行详细说明。
本发明提供了一种基于麦克风阵列的抑郁症检测方法,如图1至图4所示,包括以下步骤:
步骤1、通过使用环形麦克风阵列可以进行准确声源定位在目标说话人方向形成拾音波束,抑制噪声和反射声,增强声音信号,在嘈杂环境下可以准确识别3-5m的远距离语音,满足对患者日常生活中语音信号随时采集的需求,具体为:
步骤1.1、通过四元十字麦克风阵列采集患者语音信号;
步骤1.2、对采集到的目标患者语音信号进行分帧加窗,利用快速傅里叶变换将信号从时域比变换到频域,通过计算平滑功率谱和噪声功率谱完成谱因子的估算。输出谱减后的信号。最后,结合能熵比计算并检测是否包含患者语音信号。得到语音的端点值;能熵比的计算过程为:
计算每一帧的能量为:
Figure BDA0002770860390000061
xi(m)为第i帧的信号,帧长为N。能量关系表达式为:
Ei=log10(1+ei/a)
a为常数,适当的调节可以区分清音和噪音。第i帧语音信号经过快速傅里叶变换后为:
Figure BDA0002770860390000071
得到第k条谱线对应频率分量能量谱:
Figure BDA0002770860390000072
则归一化后的谱概率密度为:
Figure BDA0002770860390000073
语音帧短时谱熵定义:
Figure BDA0002770860390000074
能熵比EHi为能量和熵谱的比值:
Figure BDA0002770860390000075
步骤1.3、结合端点检测的结果,使用DOA定位方法对声源信号进行位置判断,以一帧信号数据的处理过程做说明:通过读入语音数据,以第m帧为处理对象,取4路麦克风信号对应第m帧数据,将4路信号结合为1路信号,并对信号进行Wc(k)加权;然后求某个角度在不同频段上的对应能量和Es,计算得到当前帧信号在360个角度对应的能量值Es(i),i的取值为0°~360°。取这360个能量中的最大值Esmax(i),以及能量最大值对应的角度i,则可以输出当前帧确定的声源角度。每一帧信号对应某个角度的频带能量为:
Figure BDA0002770860390000081
式中,f1、f2表示频带的设置范围1~N/2+1,Xsw(k)为对合并后的1路信号进行频带加权处理,公式为:
Figure BDA0002770860390000082
式中,We(k)为频带加权因子,公式为:
Figure BDA0002770860390000083
式中指数0<λ<1,W(k)为掩蔽权重因子,表示针对当前数据,取各频段中信噪比SNR最大的频段。
Xs(k)为将4路信号合并为1路信号,公式为:
Figure BDA0002770860390000084
式中,Xi(k)为4路信号中的1路信号。
步骤1.4、端点检测、声源定位处理后的语音信号,通过超指向性波束形成算法将4路信号合成1路信号,从而实现麦克风阵列信号的合成、降噪与增强。超指向性波束形成算法详细如下:
本发明的麦克风阵列选择四元十字阵列,其可看作是均匀圆阵的一种,由阵列的几何关系可知,接收信号为θ角度的波达方向矢量为:
Figure BDA0002770860390000085
其中,
Figure BDA0002770860390000091
该方法所使用的语音环境主要为室内和日产生活,因此,基于散射噪声场计算噪声矩阵对当前麦克风语音环境具有一定适用性;散射噪声场,仅描述三维球面各同向噪声场,其相关函数表达式为:
Figure BDA0002770860390000092
其中sinc(x)产生的是抽样函数sinπx/πx。由M个阵元构成的麦克风阵列,第i个麦克风接受的信号为:
Figure BDA0002770860390000093
其中f表示频率,Ai表示幅度,
Figure BDA0002770860390000094
表示相位,依据“超指向性”最优解的数学模型理论,空间中任意两点间的噪声信号相关系数为:
Figure BDA0002770860390000095
噪声协方差矩阵归一化为:
Rnn=[ρij](i,j=1,2,...,N-1)
dij表示麦克风阵列中任意两个阵元之间的距离。
本发明采用的是最小方差无失真响应(MVDR)波束形成原理,其是在LCMV方法的约束条件wHa(θ)=1时成立,这种方法会使信号的强度得以保持,而噪声的方差被最小化,可以说MVDR使得阵列输出信号的信噪比(SNR)达到最大。目标是在语音信号无失真的约束条件下,选择滤波系数w使输出总功率最小;因此关键目标在于求解权重系数w最优解,约束表达式为:
Figure BDA0002770860390000096
其中,a(θs)=[a1(θ),...,aM(θ)]T为目标信号导向矢量,表示声源方向和麦克风之间的传递函数,可以通多延迟时间τ计算得到;Rx为空间信号相关协方差矩阵,当时间上彼此不相关的k个噪声信号从不同方向到达麦克风阵元时,空间相关协方差矩阵被定义为:
Figure BDA0002770860390000101
运用lagrange Multiplier法计算得:
Figure BDA0002770860390000102
我们使用已得到的噪声协方差矩阵归一化得到的Rnn代替上式MVDR中的噪声协方差矩阵Rx,可以得到超指向性加权系数为:
Figure BDA0002770860390000103
使用优化后的超指向加权系数完成多声道麦克风的加权波束形成。
步骤2、提取MFCC特征和生成音频频谱图,具体为同时提取音频信号的时频表示和类纹理表示:
步骤2.1、首先通过汉明窗函数将语音信号分成帧。然后生成倒谱特征向量,并为每个帧计算离散傅立叶变换。仅保留振幅谱的对数,频谱经过平滑后,在Mel频率范围内收集44100个频段的24个频谱分量。为每个帧计算的梅尔谱向量的分量是高度相关的。因此,应用了KL(Karhunen-Loeve)变换后,将其近似为离散余弦变换(DCT)。最后,每帧获得[f1,f2,...,fN]个倒谱特征;
步骤2.2、根据所设定的帧数,将患者语音信号进行分帧加窗,对离散的语音信号x(m)做短时傅里叶变换,计算其在第m帧的功率谱则得到了语谱图。为了适应卷积神经网络的输入,选择L个滤波器,在时间方向上选择与滤波器大大小相同的L帧,则生成L×L×3的频谱图,将所生成的彩色图像大小调整为M×M×3。
步骤3、将步骤2的MFCC特征送入1D卷积神经网络,得到MFCC的P维特征,1D卷积神经网络为:使用一个开源的基于Tensorflow的Keras框架,为了防止过拟合问题,只搭建两个一维(1D)卷积层,其中每层均采用纠正线性单元(ReLU)作为激活函数;输入维度为M×1,通过w1个大小为m×1卷积层滤波器,dropout为0.1,最大池步幅为q1,输出为S的特征向量。在训练1D卷积神经网络的阶段,使用遍历的方法依次将每帧语音信号的包含时频信息的MFCC特征读取到内存中,划分出训练集和测试集,并分别对训练集和测试集添加标签,再将处理好的数据按照集合标签传入卷积神经网络中,进行迭代训练,共计迭代B次。
步骤4、将步骤2的频谱图送入2D卷积神经网络,得到频谱图的O维特征,2D卷积神经网络为:使用一个开源的基于Tensorflow的Keras框架,参考AlexNet的网络结构,并加以简化搭建了一个包含w2个n*n大小的二维卷积层,w1个最大池化层以及1个输出维度为L的全连接层的卷积神经网络,其中在卷积层和全连接层中均采用纠正线性单元(ReLU)作为激活函数;在训练卷积神经网络的阶段,使用遍历的方法依次将每帧语音信号的包含类纹理信息的频谱图特征读取到内存中,划分出训练集和测试集,并分别对训练集和测试集添加标签,再将处理好的数据按照集合标签传入卷积神经网络中,进行迭代训练,共计迭代B次。进行训练卷积神经网络,使用随机梯度下降法作为优化器,设置学习率为ε,每次更新后的学习率衰减值为μ,动力为β。
步骤5、将步骤4得到的特征输入对抗生成网络生成新的频谱图像,并将生成的新频谱图放入原始频谱图数据中,再执行步骤4训练。对抗生成网络为:基于DCGAN的网络结构,对其进行简化并进行参数上的调整。网络模型包括生成器(generator)和鉴别器(discriminator),生成器网络模型由1个全连接层、3个转置卷积层和2个批标准化层组成,输出为一张M×M×3大小的彩色图片,鉴别器部分包括3个卷积层和一个带有softmax功能的全连接层;鉴别器网络模型使用7层卷积神经网络模型由3个卷积层、2个批标准化层和2个全连接层组成,最终输出为一个概率值。设定一个概率阈值λ,当经过多次训练后鉴别器产生的概率值>λ时,将此次生成器产生的频谱图保存。将符合标准的生成频谱图传入步骤4的卷积网络进行再训练。
步骤6、将步骤3提取到的MFCC特征和被扩充后的频谱图数据经过步骤4得到的特征进行融合并通过全连接层进行降维,具体为:通过CNN提取到的MFCC的P维特征与频谱图的O维特征进行融合得到P+O维特征,将P+O维特征通过一个全连接层使其维度变为256维。
步骤7、通过步骤6处理的得到的降维后的特征,训练分类器,具体为:
步骤7.1、将目标患者语音作为测试语音,已有抑郁症患者的语音数据作为训练数据。训练数据包含X个人的语音信息,将X个人是否患有抑郁症的标签作为标签字典,每个标签有对应的索引号,设置标签索引号为类的索引号。的经过一次测试后,将目标患者生成的频谱图加入训练数据集。
步骤7.2、对于每个标签,其总患有抑郁症的语音作为正例样本集,未患有抑郁症的语音作为反例样本集。使用正例样本集和反例样本集训练二分类SVM,得到训练好的二分类SVM;分类器训练过程具体如下:
通过循环查看SVM训练集的准确率来确定SVM的核函数和惩罚因子这两个参数,选取最优参数后,利用该参数进行模型训练。设训练样本语音数据为:{xi,yi},xi∈Rn,i=1,2,..,n,xi为O+P维特征向量,yi为是否患有抑郁症标签,SVM利用非线性映射Φ(x)将训练集映射到高维空间,使非线性问题线性的最有分类面描述为:y=ωTΦ(x)+b,ω和b表示SVM的权值和偏向量。
为找到最优的ω和b,于是引入松弛因子ξi对分类平面进行变换,得到其二次优化问题,即:
Figure BDA0002770860390000131
s.t.yi(ω·Φ(xi)+b)≥1-ξi
ξi≥0i=1,2,...,n
式中:C表示惩罚参数。通过引入拉格朗日乘子对二次优化问题进行变换得到:
Figure BDA0002770860390000132
权向量ω的计算公式为:ω=∑αiyiΦ(xi)·Φ(x),支持向量机的决策函数可以描述为:f(x)=sgn(αiyiΦ(xi)·Φ(xj)+b),简化计算,引入高斯径直向基(RBF)核函数则决策函数为:
Figure BDA0002770860390000133
式中σ表示RBF的宽度参数。
步骤8、通过步骤7训练好的分类器识别测试语音。产生的识别结果可以通过WIFI发送给患者的监护人,以便随时观察患者的病情。
通过上述方式,本发明一种基于麦克风阵列的抑郁症检测方法用于语音采集的麦克风方便随身携带,能够采集到患者自然状态下的语音信号;以结合CNN、MFCC特征及GAN增强数据集特征的抑郁症识别研究结果为基础,结合MFCC和CNN的优势,提高了非实验环境下抑郁症识别的准确率。
以AVEC2013视听抑郁症识别挑战赛数据库使用本发明的基于麦克风阵列的抑郁症检测方法进行抑郁症识别测试,该数据集包含340个人的语音信息。具体操作为:
步骤1、使用遍历的方法依次将各个子目录下的语音信号进行预处理,使用汉明窗函数将语音信号分成帧。然后生成倒谱特征向量,并为每一个帧计算离散傅里叶变换。仅保留振幅的对数。频谱经过平滑后,在Mel频率范围内搜集44100个频段的24个频谱分量。每个帧计算的梅尔谱向量的分量是高度相关的。因此,应用了KL(Karhunen-Loeve)变换后,将其近似为离散余弦变换(DCT)。
步骤2、提取预处理信号后的MFCC特征并对MFCC特征进行归一化,通过分割语音片段限定每段语音长度为10秒,每秒为50帧可得到每帧177维的特征向量,每秒语音的通道数为50;再将语音信号转化为频谱图,频谱图则限定采样帧数为每秒64帧;得到频谱图为64×64×3像素的彩色图片,将图片大小调整为200×200×3像素大小。
步骤3、搭建卷积池化层,本发明使用5层卷积神经网络的模型由2个卷积层、2个最大池化层和1个全连接层组成、第一层的输入数据为177×1×50的MFCC特征,采用5×1的卷积核与MFCC特征进行卷积运算,卷积核沿MFCC特征x轴和y轴两个方向移动,步长为1个像素,共使用100个卷积核,生成173×1×100个像素层,使用ReLU函数作为激活函数,这些像素层经过ReLU单元的处理,生成激活像素层,这些激活像素层经过最大池化运算的处理,使用池化运算的尺度为4×1,步长默认为1,则池化后像素尺寸为43×1×100;第二层使用个5×1×200卷积核,经过卷积运算后生成39×1×200个像素层。这些像素层经过ReLU单元的处理,生成激活像素层,这些激活像素层经过最大池运算的处理,使用池化运算尺度为4×1,则池化之后的图像尺寸为9×1×200,然后经过Dropout层更新参数时以10%的概率随即断开输入神经元来更新参数;使用压平层将多维输入一维化,经过“压平”处理后,输出的是一组一维的像素数组,总计包含1800个数据,然后将这些像素作为输入传入全连接层进行下一步运算。
步骤4、搭建卷积池化层,本发明使用7层卷积神经网络模型由3个卷积层、3个最大池化层和1个全连接层组成。第一层的输入数据为200×200×3的谱图,采用3×3×3的卷积核与谱图进行卷积运算,卷积核沿图像x轴和y轴两个方向移动,步长为1个像素,共使用64个卷积核,生成198×198×64个像素层数据,使用ReLU函数作为激活函数,这些像素层经过ReLU单元的处理,生成激活像素层,这些激活像素层经过最大池化运算的处理,使用池化运算的尺度为2×2,步长默认为2,则池化后像素尺寸为99×99×64;反向传播时,每个卷积核对应一个偏差值,即第一层的64个卷积核对应上层输入的64个偏差值;第二层使用32个3×3×64卷积核,经过卷积运算后生成97×97×32个像素层。这些像素层经过ReLU单元的处理,生成激活像素层,这些激活像素层经过最大池运算的处理,使用池化运算尺度为2*2,则池化之后的图像尺寸为48×48×32,然后经过Dropout层更新参数时以10%的概率随即断开输入神经元来更新参数,用来防止过拟合;在这一层中的反向传播中,每个卷积核对应一个偏差值,即第一层的64个卷积核对应上层输入的32个偏差值;同理,第三层使用32个3×3×32卷积核,经过卷积运算后生成46×46×32个像素层。这些像素层经过ReLU单元的处理,生成激活像素层,这些激活像素层经过最大池运算的处理,使用池化运算尺度为2×2,则池化之后的图像尺寸为23×23×32,然后经过Dropout层更新参数时以10%的概率随即断开输入神经元来更新参数;使用压平层将多维输入一维化,经过“压平”处理后,输出的是一组一维的像素数组,总计包含16928个数据,然后将这些像素作为输入传入全连接层进行下一步运算。
为了提取频谱图自身的特征以送入GAN网络生成新的频谱图,需要对其得到的多维特征进行降维,搭建全连接层,全连接(Dense)将输入的16928个数据对128个神经单元进行全连接,然后经过ReLU激活函数处理后生成128个数据,再经过Dropout处理后输出128个数据,作为语音情绪特征。
步骤5、本发明GAN生成器网络模型由1个全连接层、3个转置卷积层和2个批标准化层组成。第一层输入数据为步骤4提取的128个数据,通过一个全连接层与4608个神经元相连,并转换为3×3×512的形状;第二层使用转置卷积将512通道降为256通道,kernel_size为3,步长为3,并通过批标准化层;第三层使用转置卷积将256通道降为128通道,kernel_size为5,步长为2,并通过批标准化层;第四层使用转置卷积将128通道降为3通道,kernel_size为4,步长为3;
本发明GAN鉴别器网络模型使用7层卷积神经网络模型由3个卷积层、2个批标准化层和1个全连接层组成。第一层的输入数据为64×64×3的谱图,采用5×5×3的卷积核与谱图进行卷积运算,卷积核沿图像x轴和y轴两个方向移动,步长为1个像素,共使用64个卷积核,生成60×60×24个像素层数据,使用Leakly-ReLU函数作为激活函数,这些像素层经过Leakly-ReLU单元的处理,生成激活像素层;第二层使用128个5×5×128卷积核,经过卷积运算后生成57×57×128个像素层。这些像素层经过Leakly-ReLU单元的处理,生成激活像素,为防止过拟合将这些激活像素层经过批标准化层;第三层使用256个5×5×256卷积核,经过卷积运算后生成53×53×256个像素层。这些像素层经过Leakly-ReLU单元的处理,生成激活像素,为防止过拟合将这些激活像素层经过批标准化层;使用压平层将多维输入一维化,经过“压平”处理后,然后将这些像素作为输入传入全连接层,最后一层输出层是1个节点,输出概率值;将符合标准的64×64×3的生成频谱图大小修改为200×200×3像素大小并传入步骤4的卷积网络进行再训练。
步骤6、搭建全连接层,将步骤3提取的1800维数据和步骤4中所提取的16928维数据组合为18728维数据与256个神经单元进行全连接,然后经过ReLU激活函数处理后生成256个数据,再经过Dropout处理后输出256个数据,作为语音情绪特征。
步骤7、由于该数据集包含292人,通过剪辑筛选,共使用43,800段语音信息,将292人的是否患有抑郁症的标签作为标签字典,每个标签有对应的索引号,设置标签索引号为类的索引号,对标签使用其90%的语音信号作为训练集,剩余10%的语音信号作为测试集;
对于每个标签,其总患有抑郁症的语音作为正例样本集,未患有抑郁症的语音作为反例样本集。使用正例样本集和反例样本集训练二分类SVM,得到训练好的二分类SVM;
步骤8、通过步骤7训练好的二分类SVM识别测试语音。

Claims (8)

1.一种基于麦克风阵列的抑郁症检测方法,其特征在于,包括以下步骤:
步骤1、使用麦克风阵列采集目标患者的语音信号并对其进行预处理;
步骤2、提取步骤1中目标患者预处理后的音频信号和已有抑郁症患者语音数据的MFCC特征,生成音频频谱图;
步骤3、将步骤2中提取的MFCC特征送入1D卷积神经网络,得到MFCC的P维特征;
步骤4、将步骤2中生成的音频频谱图送入2D卷积神经网络,得到频谱图的O维特征;
步骤5、将步骤4得到的O维特征输入对抗生成网络生成新频谱图像,并将生成的新频谱图像传入步骤4的2D卷积神经网络进行训练;
步骤6、将步骤3提取到的MFCC的P维特征和步骤5训练得到的特征进行融合并通过全连接层进行降维;
步骤7、通过步骤6得到的降维后的特征训练分类器;
步骤8、通过步骤7训练好的分类器识别测试语音,得到识别结果。
2.如权利要求1所述的一种基于麦克风阵列的抑郁症检测方法,其特征在于,所述步骤1具体包括以下步骤:
步骤1.1、通过四元十字麦克风阵列采集目标患者语音信号;
步骤1.2、对采集到的目标患者语音信号进行分帧加窗,利用快速傅里叶变换将信号从时域比变换到频域,通过计算平滑功率谱和噪声功率谱完成谱因子的估算,输出谱减后的信号,最后结合能熵比计算并检测目标患者的语音信号,得到语音的端点值;
步骤1.3、结合端点检测的结果,使用DOA定位方法对声源信号进行位置判断;
步骤1.4、端点检测、声源定位处理后的语音信号,通过超指向性波束形成算法将四路信号合成一路信号,实现麦克风阵列信号的合成、降噪与增强。
3.如权利要求2所述的一种基于麦克风阵列的抑郁症检测方法,其特征在于,所述步骤2具体包括以下步骤:
步骤2.1、首先通过汉明窗函数将语音信号分成帧;然后生成倒谱特征向量,并为每个帧计算离散傅立叶变换,仅保留振幅谱的对数,频谱经过平滑后,在Mel频率范围内收集44100个频段的24个频谱分量,应用Karhunen-Loeve变换后,将其近似为离散余弦变换;最后每帧获得[f1,f2,...,fN]个倒谱特征;
步骤2.2、根据所设定的帧数,将目标患者语音信号进行分帧加窗,对离散的语音信号x(m)做短时傅里叶变换,计算其在第m帧的功率谱则得到语谱图;选择L个滤波器,在时间方向上选择与滤波器大大小相同的L帧,则生成L×L×3的频谱图,将所生成的彩色图像大小调整为M×M×3。
4.如权利要求3所述的一种基于麦克风阵列的抑郁症检测方法,其特征在于,所述步骤3的1D卷积神经网络为:使用一个开源的基于Tensorflow的Keras框架,只搭建两个1D卷积层,其中每层均采用纠正线性单元作为激活函数;输入维度为M×1,通过w1个大小为m×1卷积层滤波器,dropout为0.1,最大池步幅为q1,输出为S的特征向量;在训练1D卷积神经网络的阶段,使用遍历的方法依次将每帧语音信号的包含时频信息的MFCC特征读取到内存中,划分出训练集和测试集,并分别对训练集和测试集添加标签,再将处理好的数据按照集合标签传入卷积神经网络中,进行迭代训练,共计迭代B次。
5.如权利要求4所述的一种基于麦克风阵列的抑郁症检测方法,其特征在于,所述步骤4的2D卷积神经网络为:使用一个开源的基于Tensorflow的Keras框架,搭建一个包含w2个n*n大小的二维卷积层,w1个最大池化层以及1个输出维度为L的全连接层的卷积神经网络,其中在卷积层和全连接层中均采用纠正线性单元作为激活函数;在训练卷积神经网络的阶段,使用遍历的方法依次将每帧语音信号的包含类纹理信息的频谱图特征读取到内存中,划分出训练集和测试集,并分别对训练集和测试集添加标签,再将处理好的数据按照集合标签传入卷积神经网络中,进行迭代训练,共计迭代B次;进行训练卷积神经网络,使用随机梯度下降法作为优化器,设置学习率为ε,每次更新后的学习率衰减值为μ,动力为β。
6.如权利要求5所述的一种基于麦克风阵列的抑郁症检测方法,其特征在于,所述步骤5的对抗生成网络为:基于DCGAN的网络结构,对其进行简化并进行参数上的调整,网络模型包括生成器和鉴别器,生成器网络模型由1个全连接层、3个转置卷积层和2个批标准化层组成,输出为一张M×M×3大小的彩色图片,鉴别器部分包括3个卷积层和一个带有softmax功能的全连接层;鉴别器网络模型使用7层卷积神经网络模型由3个卷积层、2个批标准化层和2个全连接层组成,最终输出为一个概率值;设定一个概率阈值λ,当经过多次训练后鉴别器产生的概率值>λ时,将此次生成器产生的频谱图保存。
7.如权利要求6所述的一种基于麦克风阵列的抑郁症检测方法,其特征在于,所述步骤6具体为:通过1D卷积神经网络提取到的MFCC的P维特征与频谱图的O维特征进行融合得到P+O维特征,将P+O维特征通过一个全连接层使其维度变为256维。
8.如权利要求7所述的一种基于麦克风阵列的抑郁症检测方法,其特征在于,所述步骤7具体为:
步骤7.1、将目标患者语音作为测试语音,已有抑郁症患者的语音数据作为训练数据;训练数据包含X个人的语音信息,将X个人是否患有抑郁症的标签作为标签字典,每个标签有对应的索引号,设置标签索引号为类的索引号;经过一次测试后,将目标患者生成的频谱图加入训练数据集;
步骤7.2、对于每个标签,其总患有抑郁症的语音作为正例样本集,未患有抑郁症的语音作为反例样本集,使用正例样本集和反例样本集训练二分类SVM,得到训练好的二分类SVM。
CN202011248610.5A 2020-11-10 2020-11-10 一种基于麦克风阵列的抑郁症检测方法 Active CN112349297B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011248610.5A CN112349297B (zh) 2020-11-10 2020-11-10 一种基于麦克风阵列的抑郁症检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011248610.5A CN112349297B (zh) 2020-11-10 2020-11-10 一种基于麦克风阵列的抑郁症检测方法

Publications (2)

Publication Number Publication Date
CN112349297A CN112349297A (zh) 2021-02-09
CN112349297B true CN112349297B (zh) 2023-07-04

Family

ID=74362344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011248610.5A Active CN112349297B (zh) 2020-11-10 2020-11-10 一种基于麦克风阵列的抑郁症检测方法

Country Status (1)

Country Link
CN (1) CN112349297B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818892B (zh) * 2021-02-10 2023-04-07 杭州医典智能科技有限公司 基于时间卷积神经网络的多模态抑郁症检测方法及***
CN113012720B (zh) * 2021-02-10 2023-06-16 杭州医典智能科技有限公司 谱减法降噪下多语音特征融合的抑郁症检测方法
CN112687390B (zh) * 2021-03-12 2021-06-18 中国科学院自动化研究所 基于混合网络和lp范数池化的抑郁状态检测方法及装置
CN113223507B (zh) * 2021-04-14 2022-06-24 重庆交通大学 基于双输入互干扰卷积神经网络的异常语音识别方法
CN113205803B (zh) * 2021-04-22 2024-05-03 上海顺久电子科技有限公司 一种具有自适应降噪能力的语音识别方法及装置
CN113476058B (zh) * 2021-07-22 2022-11-29 北京脑陆科技有限公司 对抑郁症患者的干预处理方法、装置、终端及介质
CN113679413B (zh) * 2021-09-15 2023-11-10 北方民族大学 一种基于vmd-cnn的肺音特征识别分类方法及***
CN113820693B (zh) * 2021-09-20 2023-06-23 西北工业大学 基于生成对抗网络的均匀线列阵阵元失效校准方法
CN114219005B (zh) * 2021-11-17 2023-04-18 太原理工大学 一种基于高阶谱语音特征的抑郁症分类方法
CN116978409A (zh) * 2023-09-22 2023-10-31 苏州复变医疗科技有限公司 基于语音信号的抑郁状态评估方法、装置、终端及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705806A (zh) * 2017-08-22 2018-02-16 北京联合大学 一种使用谱图和深卷积神经网络进行语音情感识别的方法
CN108831495A (zh) * 2018-06-04 2018-11-16 桂林电子科技大学 一种应用于噪声环境下语音识别的语音增强方法
CN109599129A (zh) * 2018-11-13 2019-04-09 杭州电子科技大学 基于注意力机制和卷积神经网络的语音抑郁症识别方法
CN110047506A (zh) * 2019-04-19 2019-07-23 杭州电子科技大学 一种基于卷积神经网络和多核学习svm的关键音频检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705806A (zh) * 2017-08-22 2018-02-16 北京联合大学 一种使用谱图和深卷积神经网络进行语音情感识别的方法
CN108831495A (zh) * 2018-06-04 2018-11-16 桂林电子科技大学 一种应用于噪声环境下语音识别的语音增强方法
CN109599129A (zh) * 2018-11-13 2019-04-09 杭州电子科技大学 基于注意力机制和卷积神经网络的语音抑郁症识别方法
CN110047506A (zh) * 2019-04-19 2019-07-23 杭州电子科技大学 一种基于卷积神经网络和多核学习svm的关键音频检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Feature Augmenting Networks for Improving Depression Severity Estimation From Speech Signals;LE YANG等;IEEE ACCESS;全文 *
Recognition of Audio Depression Based on Convolutional Neural Network and Generative Antagonism Network Model;ZHIYONG WANG等;IEEE ACCESS;全文 *
基于深度学习的音频抑郁症识别;李金鸣等;计算机应用与软件;全文 *
基于自编码器的语音情感识别方法研究;钟昕孜 等;电子设计工程(第06期);全文 *

Also Published As

Publication number Publication date
CN112349297A (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
CN112349297B (zh) 一种基于麦克风阵列的抑郁症检测方法
US10901063B2 (en) Localization algorithm for sound sources with known statistics
CN109272989B (zh) 语音唤醒方法、装置和计算机可读存储介质
CN107657964B (zh) 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器
US10127922B2 (en) Sound source identification apparatus and sound source identification method
Glodek et al. Multiple classifier systems for the classification of audio-visual emotional states
Stöter et al. Countnet: Estimating the number of concurrent speakers using supervised learning
US5621848A (en) Method of partitioning a sequence of data frames
JPS62201500A (ja) 連続的スピ−チ認識方法
Suvorov et al. Deep residual network for sound source localization in the time domain
Salvati et al. A late fusion deep neural network for robust speaker identification using raw waveforms and gammatone cepstral coefficients
Venkatesan et al. Binaural classification-based speech segregation and robust speaker recognition system
US5832181A (en) Speech-recognition system utilizing neural networks and method of using same
CN111243621A (zh) 一种用于合成语音检测的gru-svm深度学习模型的构造方法
CN113314127B (zh) 基于空间方位的鸟鸣识别方法、***、计算机设备与介质
CN112329819A (zh) 基于多网络融合的水下目标识别方法
CN115952840A (zh) 波束形成方法、波达方向识别方法及其装置和芯片
Salvati et al. Time Delay Estimation for Speaker Localization Using CNN-Based Parametrized GCC-PHAT Features.
Ganchev et al. Automatic height estimation from speech in real-world setup
Venkatesan et al. Deep recurrent neural networks based binaural speech segregation for the selection of closest target of interest
Kanisha et al. Speech recognition with advanced feature extraction methods using adaptive particle swarm optimization
Sailor et al. Unsupervised Representation Learning Using Convolutional Restricted Boltzmann Machine for Spoof Speech Detection.
Kothapally et al. Speech Detection and Enhancement Using Single Microphone for Distant Speech Applications in Reverberant Environments.
CN115267672A (zh) 声源检测和定位的方法
CN113903344A (zh) 基于多通道小波分解共同降噪的深度学习声纹识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant