CN111951824A - 一种基于声音判别抑郁症的检测方法 - Google Patents
一种基于声音判别抑郁症的检测方法 Download PDFInfo
- Publication number
- CN111951824A CN111951824A CN202010817892.XA CN202010817892A CN111951824A CN 111951824 A CN111951824 A CN 111951824A CN 202010817892 A CN202010817892 A CN 202010817892A CN 111951824 A CN111951824 A CN 111951824A
- Authority
- CN
- China
- Prior art keywords
- depression
- sound
- layer
- output
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000004458 analytical method Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims abstract description 10
- 239000011159 matrix material Substances 0.000 claims abstract description 9
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 238000011156 evaluation Methods 0.000 claims abstract description 8
- 239000011435 rock Substances 0.000 claims abstract description 4
- 239000010410 layer Substances 0.000 claims description 72
- 238000005070 sampling Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 238000001228 spectrum Methods 0.000 claims description 9
- 230000003068 static effect Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000005284 excitation Effects 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 4
- 238000007635 classification algorithm Methods 0.000 claims description 3
- 230000002596 correlated effect Effects 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 239000011229 interlayer Substances 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 230000001815 facial effect Effects 0.000 description 7
- 238000003062 neural network model Methods 0.000 description 7
- 230000000994 depressogenic effect Effects 0.000 description 6
- DBMJMQXJHONAFJ-UHFFFAOYSA-M Sodium laurylsulphate Chemical compound [Na+].CCCCCCCCCCCCOS([O-])(=O)=O DBMJMQXJHONAFJ-UHFFFAOYSA-M 0.000 description 5
- 210000005069 ears Anatomy 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 206010010144 Completed suicide Diseases 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 208000024891 symptom Diseases 0.000 description 3
- 208000020401 Depressive disease Diseases 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000008909 emotion recognition Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 206010022524 Intentional self-injury Diseases 0.000 description 1
- 208000005560 Self Mutilation Diseases 0.000 description 1
- 206010044565 Tremor Diseases 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000009223 counseling Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 208000020016 psychiatric disease Diseases 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明公开了一种基于声音判别抑郁症的检测方法,基于语音特征提取并深度学习处理的抑郁症判别;通过声音要素数据化的采集及存储,对声音文件数据进行BSS算法分析,对语音进行识别;使用MFCC作为特征参数分析所要处理的语音信号,转化到梅尔频率,进行倒谱分析;采用多组训练数据分别采集录音中的数据,建立卷积神经网络模型进行判别;使用BP神经网络方法对得到的测试样本数据进行分类分析;采用基于混淆矩阵的ROC,AUC模型评价方法,来判断基于声音判别个体患抑郁症的概率的准确性。抑郁症判别率有显著提高,且成本低廉。
Description
技术领域
本发明属于语音处理技术领域,更具体地说,涉及一种基于声音判别抑郁症的检测方法。
背景技术
抑郁症是一种伴随有思想和行为异常的精神障碍,已经成为全球范围内严重的公共卫生和社会问题。2017年世界卫生组织发表的报告显示,全球有超过3亿人正在被抑郁症折磨,在中国,抑郁症患者人数已达5400万人(占人口的4.2%),此发病率与全球水平相近(4.4%);在中国15-24岁的年轻人中,约有120万人患有抑郁症;中国大学生抑郁症发病率高达23.8% (与英国大学数据相近);***儿童基金会2015年的报告显示,农村地区青少年抑郁症发病率高于城市同龄人;以中国为例,由抑郁症引起的缺勤、医药费和丧葬费每年造成78亿美元的损失。抑郁症表现为,患有本病的人外表看上去和正常人无异,实则内心痛苦不堪,经常会心情低落、意志消沉,从开始表现的闷闷不乐到自卑、社交困难,到后期甚至有***的想法或行为。为此,降低***率的有效办法之一就是提前做好检测,及时治疗,即基于有效的抑郁症检测方法。近年来,抑郁症诊断还是依赖于传统抑郁症检测方法例如SDS抑郁症自评量表,SDS主要适用于具有抑郁症状的成年人,它对心理咨询门诊及精神科门诊或住院精神病人均可使用。对严重阻滞症状的抑郁病人,评定有困难。国内外学者也做了大量研究, Ozdas等人基于声带抖动和声门波频谱范围探究造成抑郁症和***的风险因素。但是其实验样本数较少,缺少在大样本情况下的验证,且其实验样本的建立环境来自不同的通讯设备和环境。因此,对实验结果的准确性造成了一定的影响。
此外,国内外也有一些期刊文献公开了基于声音来检测抑郁症的方法,例如杨楚珺等人研究了《基于语音和面部特征的抑郁症识别技术研究》,基于语音特征部分,对访谈中记录的音频数据进行分析。数据集提供的音频特征由COVAREP算法从音频记录文件中提取。每 0.3334s为一一个时间戳,提取的音频特征记录在每个时间戳下。根据音频特征的时序特性,建立长短期记忆网络(LSTM),同时对数据集按照性别进行分类,将这些特征按照时间戳的顺序,作为长短期记忆网络(LSTM)的输入,得到一个基于音频特征的预测结果。王田阳等人研究了《基于语音数据的有效特征分析及其在抑郁水平评估中的应用》,本文使用GMM建立多特征集决策***,在多个特征集上分别训练模型,然后对预测结果进行决策融合,在男、女数据上分别得到了70%、75%的分类准确率。
此外,国内也有一些专利文献公开了基于声音来检测抑郁症的方法,例如中国专利CN106725532A公开了一种基于语音特征与机器学习的抑郁症自动评估***和方法,基于语音处理、特征提取、机器学习技术,寻找语音特征与抑郁症之间的联系,为抑郁症的临床诊断提供客观参考依据。中国专利CN107657964A公开了一种基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器,,基于语音和面部情绪共同识别的抑郁症判别;通过逆滤波器实现声门信号的估计,对语音信号采用全局分析,提取特征参数,分析特征参数的时序和分布特点,找到不同情感语音的韵律规律作为情感识别的依据;使用MFCC作为特征参数分析所要处理的语音信号,并用多组训练数据分别采集录音中的数据,建立神经网络模型进行判别。中国专利CN109171769A公开了一种应用于抑郁症检测的语音、面部特征提取方法及***,根据能量信息法将音频数据进行特征提取,得到频谱参数和声学参数;将上述参数输入第一深度神经网络模型,得到语音深度特征数据;将视频图像进行静态特征提取,得到帧图像;将帧图像输入第二深度神经网络模型,得到面部特征数据;将视频图像进行动态特征提取,得到光流图像;将光流图像输入第三深度神经网络模型,得到面部运动特征数据;将面部特征数据和运动特征数据输入第三深度神经网络模型,得到面部深度特征数据;将语音深度特征数据和面部深度特征数据输入第四神经网络模型,得到融合数据。中国专利CN111329494A 公开了一种基于语音关键词检索和语音情绪识别的抑郁症检测方法,通过采集待测人员的语音信息,可以利用从语音信息中提取到的语音特征和语音文本,对待测人员的抑郁情况进行自动识别。
虽然已经有很多尝试用神经网络来检测基于音频的depression,但现有的方法在训练时用单个音频62文件标记一个样本,最终输出总预测准确率,且单个文件没有63个预测正确的概率。本发明就是通过从单个文件进行处理,针对单个个体的独特性进行预估判断,更具有代表性。
综上所述,现有的技术存在的问题是:传统抑郁症检测方法是基于SDS抑郁症自评量表和临床医生的主观判断,存在较大的误差,基于MFCC语音特征提取后没有采用BP神经网络算法二分类以及AUC精确度验证,检测方法缺乏科学性,缺乏有效的客观评价指标。
发明内容
1.要解决的问题
针对现有技术中的不足,本发明提供一种基于声音判别抑郁症的检测方法,在抑郁症识别率方面有很大的提升,并且方法***可以在医院检测仪或电脑上轻松搭建,软硬件成本低廉。
2.技术方案
为了解决上述问题,本发明所采用的技术方案如下:
本发明的一种基于声音判别抑郁症的检测方法,所述基于声音判别抑郁症的检测方法基于语音特征提取并深度学习处理的抑郁症判别;通过声音要素数据化的采集及存储,对声音文件数据进行BSS算法分析,对语音进行识别;使用MFCC作为特征参数分析所要处理的语音信号,转化到梅尔频率,进行倒谱分析;采用多组训练数据分别采集录音中的数据,建立卷积神经网络模型进行判别;使用BP神经网络方法对得到的测试样本数据进行分类分析;采用基于混淆矩阵的ROC,AUC模型评价方法,来判断基于声音判别个体患抑郁症的概率的准确性。
本发明的一种基于声音判别抑郁症的检测方法,包括以下步骤:
步骤S101、对收集的语音wav文件进行BSS算法分析,再进行声音数字化处理;
步骤S102、对语音物理信息进行编码运算,倒谱(频谱包络和细节),得到MFCC的13维特征向量,供机器识别,对原始的MFCC的13维静态系数补充,转化为识别中用到的39 维MFCC,分为:13静态系数+13一阶差分系数+13二阶差分系数,输入卷积神经网络模型;
步骤S103、建立卷积神经网络模型进行训练,自主提取选择特征;
步骤S104、BP网络端接收输出的特征向量,进行误差反传训练,把输入向量二分类;
步骤S105、用统计分析方法得到累计值,得出个体患抑郁症的概率;
步骤S106、利用AUC和ROC对二分类模型进行衡量评价,以支持准确度。
进一步,所述步骤S101具体包括:
(1)对录音进行采样,量化,编码以保证精度;
(2)明确并主要提取声音信号数字化中的3个主要指标:采样频率、量化位数、声道数声。
进一步,所述步骤S102具体包括:
(1)MFCC特征提取,包含两个关键步骤:转化到梅尔频率,然后进行倒谱分析;
(2)梅尔刻度的滤波器组在低频部分的分辨率高,跟人耳的听觉特性是相符的,这也是梅尔刻度的物理意义所在,转化到梅尔频率这一步的含义是首先对时域信号进行傅里叶变换转换到频域,然后再利用梅尔频率刻度的滤波器组对应频域信号进行切分,最后每个频率段对应一个数值;
(3)倒谱分析是对时域信号做傅里叶变换,然后取log,再进行反傅里叶变换,可以分为复倒谱、实倒谱和功率倒谱,有限选择功率倒谱。
进一步,所述步骤S102的MFCC提取特征的具体过程:
(1)预加重,频域乘以一个系数,这个系数跟频率成正相关,所以高频的幅值会有所提升;实际上就是通过了一个H(z)=1-Kz-1高通滤波器,实现S′n=Sn-k*Sn-1;
(2)加窗,使用汉明窗对信号进行加窗处理S′n={0.54-0.46cos(2π(n-1)N-1)}*Sn,相比于矩形窗函数,会减弱FFT以后旁瓣大小以及频谱泄露;
(3)频域转换,将时域信号转化到频域进行后续的频率分析;
(4)使用梅尔刻度滤波器组过滤,对于FFT得到的幅度谱,分别跟每一个滤波器进行频率相乘累加,得到的值即为该帧数据在在该滤波器对应频段的能量值,如果滤波器的个数为22,那么此时应该得到22个能量值;
(5)能量值取log,由于人耳对声音的感知并不是线性的,用log这种非线性关系更好描述,取完log以后才可以进行倒谱分析;
(6)离散余弦变换,进行反傅里叶变换然后通过低通滤波器获得最后的低频信号,获得最后的特征参数;(7)差分,由于语音信号是时域连续的,分帧提取的特征信息只反应了本帧语音的特性,为了使特征更能体现时域连续性,可以在特征维度增加前后帧信息的维度,常用的是一阶差分和二阶差分,将13维的MFCC转化成39维MFCC输入卷积神经网络模型。
进一步,所述步骤S103具体包括:
(1)第一个阶段是数据由低层次向高层次传播的阶段,即前向传播阶段;
(2)另外一个阶段是,当前向传播得出的结果与预期不相符时,将误差从高层次向底层次进行传播训练的阶段,即反向传播阶段;
具体如下:
a.网络进行权值的初始化;
b.输入数据经过卷积层、下采样层、全连接层的向前传播得到输出值;
c.求出网络的输出值与目标值之间的误差;
d.当误差大于我们的期望值时,将误差传回网络中,依次求得全连接层,下采样层,卷积层的误差;
e.当误差等于或小于我们的期望值时,结束训练;
f.根据求得误差进行权值更新,然后在进入到b步。
进一步,所述步骤S104具体包括:
(1)网络初始化,根据***输入输出序列(X,Y)确定网络输入层节点数n、隐含层节点数l,输出层节点数m,初始化输入层、隐含层和输出层神经元之间的链接权值ωij,ωjk,初始化隐含层阈值a,输出层阈值b,给定学习速率和神经元激励函数;
(2)隐含层输出计算,根据输入变量X,输入层和隐含层间连接权值ωij以及隐含层阈值a,计算隐含层输出H,Hj=f(∑ωijxi-aj)j=1,2,…,l,式中,l为隐含层节点数;f为隐含层激励函数;
(3)输出层输出计算,根据隐含层输出H,连接权值ωjk和阈值b,计算BP神经网络输出O,Ok=∑Hjωjk-bk k=1,2,…,m;
(4)误差计算,根据网络预测输出O和期望输出Y,计算网络预测误差e,ek=Yk-Okk=1,2,…,m;
(5)权值更新,根据网络预测误差e更新网络连接权值ωij,ωjk,ωij=ωij+ηHi(1-Hj)x(i) ∑ωijek j=1,2,…,n;j=1,2,…,l;ωjk=ωjk+ηHjek j=1,2,…,l;k=1,2,…,m式中,η为学习速率;
(6)阈值更新,根据网络预测误差e更新网络节点阈值a,b,aj=aj+ηHj(1-Hj)∑ωjkek j=1,2,…,l;bk=bk+ek k=1,2,…,m;
(7)判断算法迭代是否结束,若没有结束,返回(2);
(8)监督型学习分类算法定性输出分类,每帧指向是抑郁症和不是抑郁症。
进一步,所述步骤S105具体包括:
(1)测试数据提取了1000万帧进行训练,统计指向累计值;
(2)设置阈值,假设有800万帧分类指向有抑郁症的话,则可以说此人80%的概率患有抑郁症;1帧20ms,10分钟的录音,若有8分钟长度声音指向此人有抑郁症,则就说此人患有抑郁症。
进一步,所述步骤S106具体包括:
(1)基于混淆矩阵中的Positive、Negative、True、False的概念,称预测类别为1的为 Positive(阳性),预测类别为0的为Negative(阴性),预测正确的为True(真),预测错误的为False(伪),对此四个概念进行组合,就产生了特有的混淆矩阵;
(2)计算True Positive Rate(真阳率)、False Positive(伪阳率),TPRate=TP/(TP+FN), FPRate=FP/(FP+TN),TPRate的意义是所有真实类别为1的样本中,预测类别为1的比例, FPRate的意义是所有真实类别为0的样本中,预测类别为1的比例;
(3)分类器起有效作用时,对于真实类别为1的样本,分类器预测为1的概率(即TPRate),要大于真实类别为0而预测类别为1的概率(即FPRate),即y>x;
(4)经实验设0.8作为阈值,得到一系列TPRate,FPRate,描点,求面积,即可得到AUC值且较高,此时可说明评价基于声音判断抑郁症方法准确度较为可信。
相对比,中国专利CN109599129A公开了一种基于注意力机制和卷积神经网络的语音抑郁症识别方法,首先对语音数据进行预处理,对较长的语音数据进行分割,依据的是分割后的片段能够充分包含抑郁症相关的特征;然后对分割后每个片段提取梅尔频谱图,调整其输入到神经网络模型的频谱图尺寸大小,以便模型的训练;之后用预训练好的Alexnet深度卷积神经网络进行权值的微调,提取梅尔频谱图中更高级的语音特征;然后用注意力机制算法,对片段级语音特征进行权重调整,得到句级的语音特征;最后对句级语音特征用SVM分类模型进行抑郁症的分类。该专利同样通过卷积神经网络对语音数据进行特征提取,提取梅尔频谱图的进行优化调整,将语音信号的特征Mel频率倒谱系数(MFCCs)提取为矩阵向量特征以表征参与者自身声音的特征,后面不断更新权重以此得到最好的预测效果。但是,同时也存在很多不同之处,首先,在语音数据的预处理上,首先,我们删除每个音频文件的长无声部分,并将其余部分拼接成一个全新的。在此之后,向每个文件添加表示参与者是否健康的标签,带有0标签的是属于健康人员,带有1标签的是属于抑郁症人员,通过进行有监督的学习,最后通过softmax层将单个文件预测的概率输出,从而判断测试人员有多大可能性患有抑郁症。
3.有益效果
相比于现有技术,本发明的有益效果为:
(1)本发明与单纯临床检测或者使用SDS抑郁症量表自测相比,本发明可以规避光照、行为、年龄等问题对检测带来的困扰,基于MFCC对语音特征的提取并深度学习处理,对大量的录音数据切帧分析,BP神经网络输出分类加以统计分析得到累计值,得出个体患抑郁症的概率,并利用AUC和ROC对二分类模型进行衡量评价,实验结果支持了准确度,证明本发明所提出的方法可以作为检测抑郁症是否存在的低成本且高效的方法;
(2)本发明基于声音判别抑郁症的检测方法在抑郁症识别率方面有很大的提升,并且方法***可以在医院检测仪或电脑上轻松搭建,软硬件成本低廉;是一种精确、有效的抑郁症检测方法。
附图说明
以下将结合附图和实施例来对本发明的技术方案作进一步的详细描述,但是应当知道,这些附图仅是为解释目的而设计的,因此不作为本发明范围的限定。此外,除非特别指出,这些附图仅意在概念性地说明此处描述的结构构造,而不必要依比例进行绘制。
图1为本发明基于声音判别抑郁症的检测方法流程示意图;
图2为本发明基于声音判别抑郁症的检测方法的一种处理过程;
图3为本发明基于声音判别抑郁症的检测方法的另一种处理过程。
具体实施方式
下文对本发明的示例性实施例进行了详细描述。尽管这些示例性实施例被充分详细地描述以使得本领域技术人员能够实施本发明,但应当理解可实现其他实施例且可在不脱离本发明的精神和范围的情况下对本发明作各种改变。下文对本发明的实施例的更详细的描述并不用于限制所要求的本发明的范围,而仅仅为了进行举例说明且不限制对本发明的特点和特征的描述,以提出执行本发明的最佳方式,并足以使得本领域技术人员能够实施本发明。因此,本发明的范围仅由所附权利要求来限定。
如图1所示,基于声音判别抑郁症的检测方法包括以下步骤:
步骤S101、对收集的语音wav文件进行BSS算法分析,再进行声音数字化处理;
所述步骤S101具体包括:
(1)对录音进行采样,量化,编码以保证精度;
(2)明确并主要提取声音信号数字化中的3个主要指标:采样频率、量化位数、声道数声。
步骤S102、对语音物理信息进行编码运算,倒谱(频谱包络和细节),得到MFCC的13维特征向量,供机器识别,对原始的MFCC的13维静态系数补充,转化为识别中用到的39 维MFCC,分为:13静态系数+13一阶差分系数+13二阶差分系数,输入卷积神经网络模型;
所述步骤S012具体包括:
(1)MFCC特征提取,包含两个关键步骤:转化到梅尔频率,然后进行倒谱分析;
所述MFCC提取特征的具体过程:
(1)预加重,频域乘以一个系数,这个系数跟频率成正相关,所以高频的幅值会有所提升;实际上就是通过了一个H(z)=1-Kz-1高通滤波器,实现S′n=Sn-k*Sn-1;
(2)加窗,使用汉明窗对信号进行加窗处理S′n={0.54-0.46cos(2π(n-1)N-1)}*Sn,相比于矩形窗函数,会减弱FFT以后旁瓣大小以及频谱泄露;
(3)频域转换,将时域信号转化到频域进行后续的频率分析;
(4)使用梅尔刻度滤波器组过滤,对于FFT得到的幅度谱,分别跟每一个滤波器进行频率相乘累加,得到的值即为该帧数据在在该滤波器对应频段的能量值,如果滤波器的个数为22,那么此时应该得到22个能量值;
(5)能量值取log,由于人耳对声音的感知并不是线性的,用log这种非线性关系更好描述,取完log以后才可以进行倒谱分析;
(6)离散余弦变换,进行反傅里叶变换然后通过低通滤波器获得最后的低频信号,获得最后的特征参数;(7)差分,由于语音信号是时域连续的,分帧提取的特征信息只反应了本帧语音的特性,为了使特征更能体现时域连续性,可以在特征维度增加前后帧信息的维度,常用的是一阶差分和二阶差分,将13维的MFCC转化成39维MFCC输入卷积神经网络模型。
(2)梅尔刻度的滤波器组在低频部分的分辨率高,跟人耳的听觉特性是相符的,这也是梅尔刻度的物理意义所在,转化到梅尔频率这一步的含义是首先对时域信号进行傅里叶变换转换到频域,然后再利用梅尔频率刻度的滤波器组对应频域信号进行切分,最后每个频率段对应一个数值;
(3)倒谱分析是对时域信号做傅里叶变换,然后取log,再进行反傅里叶变换,可以分为复倒谱、实倒谱和功率倒谱,有限选择功率倒谱。
步骤S103、建立卷积神经网络模型进行训练,自主提取选择特征;
具体包括:
(1)第一个阶段是数据由低层次向高层次传播的阶段,即前向传播阶段;
(2)另外一个阶段是,当前向传播得出的结果与预期不相符时,将误差从高层次向底层次进行传播训练的阶段,即反向传播阶段;
具体如下:
a.网络进行权值的初始化;
b.输入数据经过卷积层、下采样层、全连接层的向前传播得到输出值;
c.求出网络的输出值与目标值之间的误差;
d.当误差大于我们的期望值时,将误差传回网络中,依次求得全连接层,下采样层,卷积层的误差;
e.当误差等于或小于我们的期望值时,结束训练;
f.根据求得误差进行权值更新,然后在进入到b步。
步骤S104、BP网络端接收输出的特征向量,进行误差反传训练,把输入向量二分类;
具体包括:
(1)网络初始化,根据***输入输出序列(X,Y)确定网络输入层节点数n、隐含层节点数l,输出层节点数m,初始化输入层、隐含层和输出层神经元之间的链接权值ωij,ωjk,初始化隐含层阈值a,输出层阈值b,给定学习速率和神经元激励函数;
(2)隐含层输出计算,根据输入变量X,输入层和隐含层间连接权值ωij以及隐含层阈值a,计算隐含层输出H,Hj=f(∑ωijxi-aj)j=1,2,…,l,式中,l为隐含层节点数;f为隐含层激励函数;
(3)输出层输出计算,根据隐含层输出H,连接权值ωjk和阈值b,计算BP神经网络输出O,Ok=∑Hjωjk-bk k=1,2,…,m;
(4)误差计算,根据网络预测输出O和期望输出Y,计算网络预测误差e,ek=Yk-Okk=1,2,…,m;
(5)权值更新,根据网络预测误差e更新网络连接权值ωij,ωjk,ωij=ωij+ηHi(1-Hj)x(i) ∑ωijek j=1,2,…,n;j=1,2,…,l;ωjk=ωjk+ηHjek j=1,2,…,l;k=1,2,…,m式中,η为学习速率;
(6)阈值更新,根据网络预测误差e更新网络节点阈值a,b,aj=aj+ηHj(1-Hj)∑ωjkek j=1,2,…,l;bk=bk+ek k=1,2,…,m;
(7)判断算法迭代是否结束,若没有结束,返回(2);
(8)监督型学习分类算法定性输出分类,每帧指向是抑郁症和不是抑郁症。
步骤S105、用统计分析方法得到累计值,得出个体患抑郁症的概率;
具体包括:
(1)测试数据提取了1000万帧进行训练,统计指向累计值;
(2)设置阈值,假设有800万帧分类指向有抑郁症的话,则可以说此人80%的概率患有抑郁症;1帧20ms,10分钟的录音,若有8分钟长度声音指向此人有抑郁症,则就说此人患有抑郁症。
步骤S106、利用AUC和ROC对二分类模型进行衡量评价,以支持准确度。
具体包括:
(1)基于混淆矩阵中的Positive、Negative、True、False的概念,称预测类别为1的为 Positive(阳性),预测类别为0的为Negative(阴性),预测正确的为True(真),预测错误的为False(伪),对此四个概念进行组合,就产生了特有的混淆矩阵;
(2)计算True Positive Rate(真阳率)、False Positive(伪阳率),TPRate=TP/(TP+FN), FPRate=FP/(FP+TN),TPRate的意义是所有真实类别为1的样本中,预测类别为1的比例, FPRate的意义是所有真实类别为0的样本中,预测类别为1的比例;
(3)分类器起有效作用时,对于真实类别为1的样本,分类器预测为1的概率(即TPRate),要大于真实类别为0而预测类别为1的概率(即FPRate),即y>x;
(4)经实验设0.8作为阈值,得到一系列TPRate,FPRate,描点,求面积,即可得到AUC值且较高,此时可说明评价基于声音判断抑郁症方法准确度较为可信。
实施例1
如图2和图3所示,采用Oz(DAIC-WOZ)数据集中的Distress Analysis InterviewCorpus-Wizard作为实验数据,并采用上述的方法。
首先对DAIC-WOZ样本进行预处理,减少对后续特征提取的噪声干扰。由于原始的语音数据,在不经过预处理的情况下,可能会出现空白的间歇阶段。本发明通过灵活设置阈值,确定当前状态是否处于静音状态,如果超过阈值则选择删除,并在音频左右两端加上0.03的空白,以保证声音的稳定性,同时将每个文件标记为“抑郁”或“健康”,方便后续数据的处理;
其次,提取语音信号的Mel频率倒谱系数,通过对声音文件的预加重、分帧加窗、FFT 变换转化、计算Mel滤波等步骤,最终提取MFCCs用于获取参与者独特语音属性的特征数据,这是网络模型完成正常训练至关重要的数据资料;
最后,将提取的MFCCS特征输入到卷积神经网络模型中,在经过不同卷积层、全连接层以及softmax函数的分类预测,得到实际结果与目标值的误差,再使用BP算法反向传播误差值,更新网络权重和优化网络的结构,最终得到单个文件被预测为健康或者抑郁的概率值。将训练过后的模型评估测试集,得到预测的正确帧数在单个文件中的比例,得到单个文件的最终预测精度。
总的来说,总体预测精度为0.86,单个文件的平均预测精度为0.84。利用AUC和ROC的衡量模型预测的准确性,包括健康人被预测为健康的概率(TPR)和抑郁者被预测为抑郁的概率(FPR)。在调整相关训练参数时,模型仍具有较高的稳定性和预测精度,证明了方法的有效性。
Claims (9)
1.一种基于声音判别抑郁症的检测方法,基于语音特征提取并深度学习处理的抑郁症判别,其特征在于,通过声音要素数据化的采集及存储,对声音文件数据进行BSS算法分析,对语音进行识别;使用MFCC作为特征参数分析所要处理的语音信号,转化到梅尔频率,进行倒谱分析;采用多组训练数据分别采集录音中的数据,建立卷积神经网络模型进行判别;使用BP神经网络方法对得到的测试样本数据进行分类分析;采用基于混淆矩阵的ROC、AUC模型评价方法,来判断基于声音判别个体患抑郁症概率的准确性。
2.一种根据权利要求1所述基于声音判别抑郁症的检测方法,其特征在于,包括以下具体步骤:
步骤S101、对收集的语音wav文件进行BSS算法分析,再进行声音数字化处理;
步骤S102、对语音物理信息进行编码运算,倒谱,得到MFCC的13维特征向量,供机器识别,对原始的MFCC的13维静态系数补充,转化为识别中用到的39维MFCC,分为:13静态系数+13一阶差分系数+13二阶差分系数,输入卷积神经网络模型;
步骤S103、建立卷积神经网络模型进行训练,自主提取选择特征;
步骤S104、BP网络端接收输出的特征向量,进行误差反传训练,把输入向量二分类;
步骤S105、用统计分析方法得到累计值,得出个体患抑郁症的概率;
步骤S106、利用AUC和ROC对二分类模型进行衡量评价,以支持准确度。
3.根据权利要求2所述的基于声音判别抑郁症的检测方法,其特征在于,所述步骤S101具体包括:
(1)对录音进行采样、量化、编码以保证精度;
(2)明确并主要提取声音信号数字化中的3个主要指标:采样频率、量化位数、声道数声。
4.根据权利要求2所述的基于声音判别抑郁症的检测方法,其特征在于,所述步骤S102具体包括:
(1)MFCC特征提取,包含两个关键步骤:转化到梅尔频率,然后进行倒谱分析;
(2)首先对时域信号进行傅里叶变换转换到频域,然后再利用梅尔频率刻度的滤波器组对应频域信号进行切分,最后每个频率段对应一个数值;
(3)倒谱分析是对时域信号做傅里叶变换,然后取log,再进行反傅里叶变换,可以分为复倒谱、实倒谱和功率倒谱,优先选择功率倒谱。
5.根据权利要求2所述的基于声音判别抑郁症的检测方法,其特征在于,所述MFCC提取特征的具体包括:
(1)预加重,频域乘以一个系数,系数跟频率成正相关,通过了一个H(z)=1-Kz-1高通滤波器,实现S′n=Sn-k*Sn-1;
(2)加窗,使用汉明窗对信号进行加窗处理S′n={0.54-0.46cos(2π(n-1)N-1)}*Sn;
(3)频域转换,将时域信号转化到频域进行后续的频率分析;
(4)使用梅尔刻度滤波器组过滤,对于FFT得到的幅度谱,分别跟每一个滤波器进行频率相乘累加,得到的值即为该帧数据在在该滤波器对应频段的能量值;
(5)能量值取log,取完log以后进行倒谱分析;
(6)离散余弦变换,进行反傅里叶变换然后通过低通滤波器获得最后的低频信号,获得最后的特征参数;
(7)差分,采用一阶差分和二阶差分,将13维的MFCC转化成39维MFCC输入卷积神经网络模型。
6.根据权利要求2所述的基于声音判别抑郁症的检测方法,其特征在于,所述步骤S103具体包括:
(1)第一个阶段是数据由低层次向高层次传播的阶段,即前向传播阶段;
(2)另外一个阶段是,当前向传播得出的结果与预期不相符时,将误差从高层次向底层次进行传播训练的阶段,即反向传播阶段;具体如下,
a.网络进行权值的初始化;
b.输入数据经过卷积层、下采样层、全连接层的向前传播得到输出值;
c.求出网络的输出值与目标值之间的误差;
d.当误差大于我们的期望值时,将误差传回网络中,依次求得全连接层,下采样层,卷积层的误差;
e.当误差等于或小于我们的期望值时,结束训练;
f.根据求得误差进行权值更新,然后在进入到b步。
7.根据权利要求2所述的基于声音判别抑郁症的检测方法,其特征在于,所述步骤S104具体包括:
(1)网络初始化,根据***输入输出序列(X,Y)确定网络输入层节点数n、隐含层节点数l,输出层节点数m,初始化输入层、隐含层和输出层神经元之间的链接权值ωij,ωjk,初始化隐含层阈值a,输出层阈值b,给定学习速率和神经元激励函数;
(2)隐含层输出计算,根据输入变量X,输入层和隐含层间连接权值ωij以及隐含层阈值a,计算隐含层输出H,Hj=f(∑ωijxi-aj)j=1,2,…,l,式中,l为隐含层节点数;f为隐含层激励函数;
(3)输出层输出计算,根据隐含层输出H,连接权值ωjk和阈值b,计算BP神经网络输出O,Ok=∑Hjωjk-bk,k=1,2,…,m;
(4)误差计算,根据网络预测输出O和期望输出Y,计算网络预测误差e,ek=Yk-Ok k=1,2,…,m;
(5)权值更新,根据网络预测误差e更新网络连接权值ωij,ωjk,ωij=ωij+ηHi(1-Hj)x(i)∑ωijek,j=1,2,…,n;j=1,2,…,l;ωjk=ωjk+ηHjek j=1,2,…,l;k=1,2,…,m式中,η为学习速率;
(6)阈值更新,根据网络预测误差e更新网络节点阈值a,b,aj=aj+ηHj(1-Hj)∑ωjkekj=1,2,…,l;bk=bk+ek,k=1,2,…,m;
(7)判断算法迭代是否结束,若没有结束,返回(2);
(8)监督型学习分类算法定性输出分类,每帧指向是抑郁症和不是抑郁症。
8.根据权利要求2所述的基于声音判别抑郁症的检测方法,其特征在于,所述步骤S105具体包括:
(1)测试数据提取了1000万帧进行训练,统计指向累计值;
(2)设置阈值,假设有800万帧分类指向有抑郁症的话,则此人80%的概率患有抑郁症;1帧20ms,10分钟的录音,若有8分钟长度声音指向此人有抑郁症,则此人患有抑郁症。
9.根据权利要求2所述的基于声音判别抑郁症的检测方法,其特征在于,所述步骤S106具体包括:
(1)基于混淆矩阵中的Positive、Negative、True、False的概念,称预测类别为1的为Positive(阳性),预测类别为0的为Negative(阴性),预测正确的为True(真),预测错误的为False(伪);
(2)计算True Positive Rate(真阳率)、False Positive(伪阳率),TPRate=TP/(TP+FN),FPRate=FP/(FP+TN),TPRate的意义是所有真实类别为1的样本中,预测类别为1的比例,FPRate的意义是所有真实类别为0的样本中,预测类别为1的比例;
(3)分类器起有效作用时,对于真实类别为1的样本,分类器预测为1的概率(即TPRate),要大于真实类别为0而预测类别为1的概率(即FPRate),即y>x;
(4)经实验设0.8作为阈值,得到一系列TPRate、FPRate、描点,求面积,即可得到AUC值且较高,评价基于声音判断抑郁症方法准确度较为可信。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010817892.XA CN111951824A (zh) | 2020-08-14 | 2020-08-14 | 一种基于声音判别抑郁症的检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010817892.XA CN111951824A (zh) | 2020-08-14 | 2020-08-14 | 一种基于声音判别抑郁症的检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111951824A true CN111951824A (zh) | 2020-11-17 |
Family
ID=73343223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010817892.XA Pending CN111951824A (zh) | 2020-08-14 | 2020-08-14 | 一种基于声音判别抑郁症的检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111951824A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112472065A (zh) * | 2020-11-18 | 2021-03-12 | 天机医用机器人技术(清远)有限公司 | 基于咳嗽声识别的病症检测方法及其相关设备 |
CN112818892A (zh) * | 2021-02-10 | 2021-05-18 | 杭州医典智能科技有限公司 | 基于时间卷积神经网络的多模态抑郁症检测方法及*** |
CN112908435A (zh) * | 2021-01-28 | 2021-06-04 | 南京脑科医院 | 一种抑郁症认知行为训练***和语音数据处理方法 |
CN113274023A (zh) * | 2021-06-30 | 2021-08-20 | 中国科学院自动化研究所 | 基于多角度分析的多模态精神状态评估方法 |
CN113509183A (zh) * | 2021-04-21 | 2021-10-19 | 杭州聚视鼎特科技有限公司 | 一种基于ar人工智能分析情感焦虑抑郁紧张的方法 |
CN115346561A (zh) * | 2022-08-15 | 2022-11-15 | 南京脑科医院 | 基于语音特征的抑郁情绪评估预测方法及*** |
CN116978409A (zh) * | 2023-09-22 | 2023-10-31 | 苏州复变医疗科技有限公司 | 基于语音信号的抑郁状态评估方法、装置、终端及介质 |
CN116978408A (zh) * | 2023-04-26 | 2023-10-31 | 新疆大学 | 基于语音预训练模型的抑郁症检测方法及*** |
CN112908435B (zh) * | 2021-01-28 | 2024-05-31 | 南京脑科医院 | 一种抑郁症认知行为训练***和语音数据处理方法 |
-
2020
- 2020-08-14 CN CN202010817892.XA patent/CN111951824A/zh active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112472065A (zh) * | 2020-11-18 | 2021-03-12 | 天机医用机器人技术(清远)有限公司 | 基于咳嗽声识别的病症检测方法及其相关设备 |
CN112908435A (zh) * | 2021-01-28 | 2021-06-04 | 南京脑科医院 | 一种抑郁症认知行为训练***和语音数据处理方法 |
CN112908435B (zh) * | 2021-01-28 | 2024-05-31 | 南京脑科医院 | 一种抑郁症认知行为训练***和语音数据处理方法 |
CN112818892A (zh) * | 2021-02-10 | 2021-05-18 | 杭州医典智能科技有限公司 | 基于时间卷积神经网络的多模态抑郁症检测方法及*** |
CN113509183A (zh) * | 2021-04-21 | 2021-10-19 | 杭州聚视鼎特科技有限公司 | 一种基于ar人工智能分析情感焦虑抑郁紧张的方法 |
CN113274023A (zh) * | 2021-06-30 | 2021-08-20 | 中国科学院自动化研究所 | 基于多角度分析的多模态精神状态评估方法 |
CN113274023B (zh) * | 2021-06-30 | 2021-12-14 | 中国科学院自动化研究所 | 基于多角度分析的多模态精神状态评估方法 |
CN115346561A (zh) * | 2022-08-15 | 2022-11-15 | 南京脑科医院 | 基于语音特征的抑郁情绪评估预测方法及*** |
CN115346561B (zh) * | 2022-08-15 | 2023-11-24 | 南京医科大学附属脑科医院 | 基于语音特征的抑郁情绪评估预测方法及*** |
CN116978408A (zh) * | 2023-04-26 | 2023-10-31 | 新疆大学 | 基于语音预训练模型的抑郁症检测方法及*** |
CN116978408B (zh) * | 2023-04-26 | 2024-04-30 | 新疆大学 | 基于语音预训练模型的抑郁症检测方法及*** |
CN116978409A (zh) * | 2023-09-22 | 2023-10-31 | 苏州复变医疗科技有限公司 | 基于语音信号的抑郁状态评估方法、装置、终端及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111951824A (zh) | 一种基于声音判别抑郁症的检测方法 | |
Godino-Llorente et al. | Automatic detection of voice impairments by means of short-term cepstral parameters and neural network based detectors | |
Fujimura et al. | Classification of voice disorders using a one-dimensional convolutional neural network | |
CN111798874A (zh) | 一种语音情绪识别方法及*** | |
US10548534B2 (en) | System and method for anhedonia measurement using acoustic and contextual cues | |
Vrindavanam et al. | Machine learning based COVID-19 cough classification models-a comparative analysis | |
CN112820279B (zh) | 基于语音上下文动态特征的帕金森检测模型构建方法 | |
Dahmani et al. | Vocal folds pathologies classification using Naïve Bayes Networks | |
CN113012720A (zh) | 谱减法降噪下多语音特征融合的抑郁症检测方法 | |
CN111329494A (zh) | 基于语音关键词检索和语音情绪识别的抑郁症检测方法 | |
CN115346561B (zh) | 基于语音特征的抑郁情绪评估预测方法及*** | |
CN115862684A (zh) | 一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法 | |
CN113674767A (zh) | 一种基于多模态融合的抑郁状态识别方法 | |
WO2023139559A1 (en) | Multi-modal systems and methods for voice-based mental health assessment with emotion stimulation | |
CN113823293A (zh) | 一种基于语音增强的说话人识别方法及*** | |
Jiang et al. | A novel infant cry recognition system using auditory model‐based robust feature and GMM‐UBM | |
Whitehill et al. | Whosecough: In-the-wild cougher verification using multitask learning | |
CN112466284B (zh) | 一种口罩语音鉴别方法 | |
CN113571095B (zh) | 基于嵌套深度神经网络的语音情感识别方法和*** | |
Sabet et al. | COVID-19 detection in cough audio dataset using deep learning model | |
CN117219127A (zh) | 认知状态识别方法以及相关设备 | |
Villanueva et al. | Respiratory Sound Classification Using Long-Short Term Memory | |
CN113571050A (zh) | 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法 | |
Akshay et al. | Identification of Parkinson disease patients classification using feed forward technique based on speech signals | |
CN114038562A (zh) | 一种心理发育评估方法、装置、***及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Room 706, 7th Floor, Building 1, No. 2 Litai Road, Taiping Street, Xiangcheng District, Suzhou City, Jiangsu Province, 215100 Applicant after: Suzhou Guoling technology research Intelligent Technology Co.,Ltd. Address before: Room 609, building C, Caohu science and Technology Park, xijiaoda, No.1, Guantang Road, Caohu street, economic and Technological Development Zone, Xiangcheng District, Suzhou City, Jiangsu Province Applicant before: Suzhou Guoling technology research Intelligent Technology Co.,Ltd. |
|
CB02 | Change of applicant information |