CN118098288B - 一种基于自学习标签校正的弱监督语音抑郁症检测方法 - Google Patents
一种基于自学习标签校正的弱监督语音抑郁症检测方法 Download PDFInfo
- Publication number
- CN118098288B CN118098288B CN202410506018.2A CN202410506018A CN118098288B CN 118098288 B CN118098288 B CN 118098288B CN 202410506018 A CN202410506018 A CN 202410506018A CN 118098288 B CN118098288 B CN 118098288B
- Authority
- CN
- China
- Prior art keywords
- label
- correction
- sample
- depression
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title claims abstract description 124
- 238000001514 detection method Methods 0.000 title claims abstract description 76
- 238000009826 distribution Methods 0.000 claims abstract description 68
- 238000000034 method Methods 0.000 claims abstract description 52
- 230000006870 function Effects 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000013528 artificial neural network Methods 0.000 claims description 25
- 238000013527 convolutional neural network Methods 0.000 claims description 18
- 125000004122 cyclic group Chemical group 0.000 claims description 15
- 238000005096 rolling process Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 230000003001 depressive effect Effects 0.000 claims description 6
- 230000015654 memory Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 4
- 230000007774 longterm Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000012886 linear function Methods 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000002441 reversible effect Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 abstract description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000004580 weight loss Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000007787 long-term memory Effects 0.000 description 3
- 208000020401 Depressive disease Diseases 0.000 description 2
- 230000000994 depressogenic effect Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 206010010144 Completed suicide Diseases 0.000 description 1
- 206010071299 Slow speech Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009429 distress Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于自学习标签校正的弱监督语音抑郁症检测方法,属于抑郁症检测技术领域;方法为:收集抑郁症检测数据;建抑郁症检测模型,得到每个样本的预测抑郁概率分布;制定标签校正策略,对训练集数据进行标签校正;采用损失函数对抑郁症检测模型进行训练,得到最终的抑郁症检测模型。本发明通过制定不同的标签校正策略,有效识别并校正训练集的错误标签,减轻数据集中不准确标记对自动抑郁检测模型性能的影响;同时,采用深度学习的方法构建抑郁症检测模型,获取语音信号中更深层次的时空信息,从全局角度更全面地检测音频中的抑郁信号,损失函数在优化网络参数的同时尽可能保留准确的标签,增强了对抑郁症检测的准确性。
Description
技术领域
本发明属于抑郁症检测技术领域,具体涉及一种基于自学习标签校正的弱监督语音抑郁症检测方法。
背景技术
在医学上抑郁症的检测方法主要是临床诊断和量表问卷评估,常见的量表有汉密尔顿抑郁量表、PHQ-9健康问卷、Beck抑郁自评量表等等,然而传统的方法往往带有较强的主观性,从而导致抑郁症检测效率较低。随着人工智能技术在自然语言处理、语音处理和情感计算等领域的研究逐渐成熟,近年来出现了较多通过人工智能技术辅助抑郁症诊断的方法。其中,利用视觉线索或脑电图(EEG)等各种模态的抑郁症检测方法受到广泛关注,这些方法旨在通过僵硬的面部表情或异常的脑电图模式捕捉抑郁信息。同时,语言信号也是诊断抑郁症的基本依据。根据临床研究,抑郁症患者通常表现出明显的言语特征,包括音调降低、语速减慢、词与词之间停顿延长或语调单调。然而,与临床抑郁诊断相关的高昂费用说明了自动解决方案的必要性,这促使人们开发了自动抑郁检测***,使个人能够自我评估其抑郁状态。语音自动抑郁检测的早期工作涉及应用机器学习算法来处理语音信号中的低级描述符,如决策树和隐马尔可夫模型。
最近,深度学习方法被引入到自动抑郁检测方法中,从而能够从语音信号中更深入地提取与抑郁相关的信息。深度神经网络作为主要的深度学习模型之一,通常用于从低级声学特征中获取判别表征。后来,卷积神经网络和基于长短期记忆的循环神经网络逐渐成为构建自动抑郁检测模型的重点。在大多数情况下,卷积神经网络通常用于从各种模态的特征中学习局部时空信息,而长短期记忆网络则侧重于通过时间序列从全局特征中学习序列相关性。此外,Transformer模型因其在自然语言处理领域的显著成功,其应用也扩展到了语音信号分析领域,Transformer利用注意力机制来有效地模拟语音信号中的长期依赖关系,从而促进了密集信息的全面整合。
尽管深度学习在自动抑郁检测建模过程中取得了巨大成功,但目前的算法仍存在一些尚未解决的问题。首先,用于训练抑郁检测模型的数据集通常都是人工标注的,很可能存在错误标注的噪声标签,需要进行校正。此外,自动抑郁检测方法中常用的损失函数无法综合利用校正标签和原始噪声标签来优化网络参数。针对弱标记问题,已经由许多工作对其进行了研究;例如文章名为:Meta label correction for noisy label learning,期刊为:35th AAAI Conference on Artificial Intelligence的11053-11061页中记载:将标签校正过程视为一个元过程,并将元模型校正后的标签作为训练主模型的正确标签,同时优化了元模型和主模型的性能。以及以文章名为:Deep Learning for Suicide andDepression Identification with Unsupervised Label Correctio,期刊为:30thInternational Conference on Artificial Neural Networks的436-447页中记载:使用聚类算法为每个样本生成一个伪标签,如果伪标签的置信度高于调整后的阈值,则校正其噪声标签。但是这些校正方法没有在自动抑郁检测中应用;
中国专利公开了(申请号为:202010817892X)一种基于声音判别抑郁症的检测方法,方法主要为:通过声音要素数据化的采集及存储,对声音文件数据进行BSS算法分析,对语音进行识别;使用MFCC作为特征参数分析所要处理的语音信号,转化到梅尔频率,进行倒谱分析;采用多组训练数据分别采集录音中的数据,建立卷积神经网络模型进行判别;使用BP神经网络方法对得到的测试样本数据进行分类分析;采用基于混淆矩阵的ROC、AUC模型评价方法,来判断基于声音判别个体患抑郁症概率的准确性。
上述方法中存在以下不足:1、用于训练抑郁检测模型的数据集通常都是人工标注的,很可能存在错误标注的噪声标签。
2、自动抑郁检测方法中常用的损失函数无法综合利用校正标签和原始噪声标签来优化网络参数。
因此,如何解决数据集的错误标签校正以及优化网络参数问题,提高标签的准确性,从而提高抑郁症检测的准确率以及在噪声环境中的鲁棒性是本发明想要解决的技术问题。
发明内容
本发明的目的在于提供一种基于自学习标签校正的弱监督语音抑郁症检测方法,以解决上述背景技术中提出的问题以及现有技术的不足。
本发明目的是这样实现的:一种基于自学习标签校正的弱监督语音抑郁症检测方法,其特征在于:该方法包括以下步骤:
步骤S1:收集抑郁症检测数据;
将抑郁症检测数据分成数据集、训练集以及测试集,从抑郁症检测数据的数据集中获取样本语音信号的log梅尔声谱图;
步骤S2:构建抑郁症检测模型,得到每个样本的预测抑郁概率分布;
步骤S3:制定标签校正策略,对训练集数据进行标签校正;
所述标签校正策略包括第一标签校正策略和第二标签校正策略;
步骤S4:建立损失函数对抑郁症检测模型进行训练,得到最终的抑郁症检测模型。
优选的,所述抑郁症检测模型包括卷积神经网络层、循环卷神经网络层以及多层感知器作为深层网络输出预测的分类器,卷积神经网络层包括一个卷积核大小为3的一维卷积神经网络和最大池化层,最大池化层的卷积核大小为2;
所述循环卷神经网络层包括双向长短期记忆网络和全连接层,多层感知器由多个全连接层组成。
优选的,所述步骤S2中构建抑郁症检测模型,得到每个样本的预测抑郁概率分布,具体为:
步骤S2-1:提取样本语音信号的log梅尔声谱图特征,具体为:
对时域信号进行傅里叶变换将其转换到频域;利用梅尔频率刻度的滤波器组对频域信号进行切分,使每个频率段对应一个数值,得到梅尔谱,对梅尔谱进行log计算得到log梅尔谱图;
步骤S2-2:log梅尔声谱图特征输入至抑郁症检测模型,经过一个卷积核大小为3的一维卷积神经网络捕获语音信号中的短期特征,卷积神经网络层的输出经过批量归一化函数和激活函数后,得到音频的短期深层特征;为了进一步降低维度,使用卷积核大小为2的最大池化层对短期深层特征进行下采样,随机丢弃一部分神经元;
步骤S2-3:将经过下采样的输出作为输入,输入循环卷神经网络层,循环卷神经网络层输入分别以正序和逆序进入到两个单向长短期记忆神经网络提取长期特征,将两个输出特征向量拼接,使某一时刻获得特征数据的同时拥有过去和未来的信息;
步骤S2-4:沿时间轴收集音频过去和未来的信息,学习语音信号中的时间信息,输出深层特征;
步骤S2-5:将最后一个时间步的输出作为循环卷神经网络层的输出,循环卷神经网络层后紧跟一个全连接层,将输出特征映射到更低维度的特征图中,并连接一个批量归一化函数和一个激活函数增强网络的鲁棒性;
步骤S2-6:由多层感知器构成的分类器处理从全连接层输出的深层特征得到预测抑郁概率分布。
优选的,所述第一标签校正策略计算概率分布对预测标签的置信度与概率分布对噪声标签之间的似然比,并与设定的阈值进行对比后得到第一个校正结果,具体为:
将样本的语音信号特征输入抑郁症检测模型,从抑郁症检测模型的分类器中输出
样本的预测抑郁概率分布,得到预测标签;
当预测标签和原始噪声标签不一致时,检查预测概率分布对预测标签的置信
度与预测概率分布对噪声标签的置信度之间的似然比,如下公式所示:
;
其中,为样本的预测概率分布对预测标签的置信度;为样本的预测
概率分布对噪声标签的置信度;
将似然比和设定的阈值对比,如果似然比比阈值大,校正结果为预测标签,即;否则校正结果为原始噪声标签,即;当预测标签和原始噪声标签一致时,则;
设置阈值为一个线性函数,初始值为1.2,后续增长为;
其中,为网络经过一次完整训练的次数。
优选的,所述第二标签校正策略计算样本深层特征和类原型深层特征之间的余弦相似度来判断样本的抑郁性质,得到第二个校正结果,具体为:
为每个类别构建类原型集,每个类中选择若干个样本作为类候选集,分别计算每
类中样本的深层特征之间的余弦相似度,得到一个相似度矩阵,其中,为每
个类候选集中样本的数目;
样本和样本之间的余弦相似度,定义为:
;
其中,为样本的深层特征;为样本的深层特征;
通过样本的密度来选择原型,样本密度定义为:
;
其中,是符号函数,c是类别数,是第类中所有相似度的中值;
每类选择密度排名前6的样本深层特征作为类原型,得到一个原型集;计算每个样本的深层特征和不同类原型集之间的余弦相似度,样本和第个类原型集之间的余弦相似度为:
;
其中,m是每个类原型集中原型的数目,m=6;为余弦相似度的计
算;
;
其中,为;为;
选择每类中m个原型的平均相似度作为判断依据,得到校正标签。
优选的,所述标签校正策略包括第一标签校正策略和第二标签校正策略,产生两个校正结果;将两个校正结果按照不同权重组合相加,得到最终的校正标签为:
;
其中,为权重系数,=0.3;为第二标签校正策略获得的校正结果;为第一
标签校正策略获得的校正结果。
优选的,所述损失函数包括用于计算预测概率分布和校正标签分布之间偏差的分类损失、用于计算校正标签分布和原始噪声标签之间偏差的兼容性损失以及用于计算预测概率分布及其log值之间乘积的熵损失;
按照不同权重将三个损失组合相加,构成完整的损失函数,损失函数为:
;
其中,为分类损失,为兼容性损失,为熵损失;为预测抑郁概率分布;为校正标签分布;为原始噪声标签;=0.4,=0.1。
优选的,所述分类损失通过Kullback-Leibler散度函数计算,定义为:
;
;
其中,为样本的校正标签经过softmax操作后的标签分布;为总的训练集样
本数目;为标签类别数目,标签类别包括抑郁类和非抑郁类;为样本的第j个类别的
校正标签;为样本第j个类别的预测概率;为样本的预测概率分布;
所述兼容性损失通过交叉熵损失函数计算,定义为:
;
所述熵损失定义为:
。
与现有技术相比,本发明具有如下改进及优点:
1、通过制定不同的标签校正策略,有效识别并校正训练集的错误标签,减轻数据集中不准确标记对自动抑郁检测模型性能的影响;同时,采用深度学习的方法构建抑郁症检测模型,获取语音信号中更深层次的时空信息,特别是采用长短期记忆网络捕捉语音信号的上下文信息,有利于从全局角度更全面地检测音频中的抑郁信号,增强了对抑郁症检测的准确性。
2、通过损失函数充分利用校正标签、原始噪声标签和模型预测之间的关系,在修正错误标记的同时尽可能保留准确的标签,进一步提高训练集标签的校正效率和测试集预测的准确度。
附图说明
图1为本发明方法的整体流程图。
图2为抑郁症检测模型结构示意图。
图3为抑郁症检测模型的流程图。
图4为抑郁症检测模型的训练流程图。
图5为本发明方法的效果对比图。
具体实施方式
以下结合附图对本发明做进一步概述。
如图1所示,一种基于自学习标签校正的弱监督语音抑郁症检测方法,该方法包括以下步骤:
步骤S1:收集抑郁症检测数据;
将抑郁症检测数据分成数据集、训练集以及测试集,从抑郁症检测数据的数据集中获取样本语音信号的log梅尔声谱图;
步骤S2:构建抑郁症检测模型,得到每个样本的预测抑郁概率分布;
如图2所示,抑郁症检测模型包括卷积神经网络层、循环卷神经网络层以及多层感知器作为深层网络输出预测的分类器,卷积神经网络层包括一个卷积核大小为3的一维卷积神经网络和最大池化层,最大池化层的卷积核大小为2;循环卷神经网络层包括双向长短期记忆网络和全连接层,多层感知器由多个全连接层组成。
如图3所示,构建抑郁症检测模型,得到每个样本的预测抑郁概率分布,具体为:
步骤S2-1:提取样本语音信号的log梅尔声谱图特征,具体为:
对时域信号进行傅里叶变换将其转换到频域;利用梅尔频率刻度的滤波器组对频域信号进行切分,使每个频率段对应一个数值,得到梅尔谱,对梅尔谱进行log计算得到log梅尔谱图;使用80个梅尔滤波器切分频域信号;
步骤S2-2:log梅尔声谱图特征输入至抑郁症检测模型,经过一个卷积核大小为3的一维卷积神经网络捕获语音信号中的短期特征,卷积神经网络层的输出经过批量归一化函数和激活函数后,得到音频的短期深层特征;为了进一步降低维度,使用卷积核大小为2的最大池化层对短期深层特征进行下采样,随机丢弃一部分神经元;
步骤S2-3:将经过下采样的输出作为输入,输入循环卷神经网络层,循环卷神经网络层输入分别以正序和逆序进入到两个单向长短期记忆神经网络提取长期特征,将两个输出特征向量拼接,使某一时刻获得特征数据的同时拥有过去和未来的信息;
步骤S2-4:沿时间轴收集音频过去和未来的信息,学习语音信号中的时间信息,输出深层特征;
步骤S2-5:将最后一个时间步的输出作为循环卷神经网络层的输出,循环卷神经网络层后紧跟一个全连接层,将输出特征映射到更低维度的特征图中,并连接一个批量归一化函数和一个激活函数增强网络的鲁棒性;
步骤S2-6:由多层感知器构成的分类器处理从全连接层输出的深层特征得到预测抑郁概率分布。将前面计算得到的特征空间映射到样本标记空间,利用softmax函数将预测抑郁概率归一化,得到整个模型的输出,即后续用于判断音频样本标签的概率分布。
步骤S3:制定标签校正策略,对训练集数据进行标签校正;
标签校正策略包括第一标签校正策略和第二标签校正策略,第一标签校正策略计算概率分布对预测标签的置信度与概率分布对噪声标签之间的似然比,并与设定的阈值进行对比后得到第一个校正结果;
第二标签校正策略计算样本深层特征和类原型深层特征之间的余弦相似度来判断样本的抑郁性质,得到第二个校正结果;
如图4所示,设计两种不同的标签校正策略并将其校正测过按权重组合相加得到最后的校正标签,具体为:
第一标签校正策略:将样本的语音信号特征输入抑郁症检测模型,从抑郁症检测
模型的分类器中输出样本的预测抑郁概率分布,得到预测标签;
当预测标签和原始噪声标签不一致时,检查预测概率分布对预测标签的置信
度与预测概率分布对噪声标签的置信度之间的似然比,如下公式所示:
;
其中,为样本的预测概率分布对预测标签的置信度;为样本的预测
概率分布对噪声标签的置信度;
将似然比和设定的阈值对比,如果似然比比阈值大,校正结果为预测标签,即;否则校正结果为原始噪声标签,即;当预测标签和原始噪声标签一致时,则;
设置阈值为一个线性函数,初始值为1.2,后续增长为;
其中,为网络经过一次完整训练的次数。
第二标签校正策略:为每个类别构建类原型集,每个类中选择若干个样本作为类
候选集,分别计算每类中样本的深层特征之间的余弦相似度,得到一个相似度矩阵,其中,为每个类候选集中样本的数目;
样本和样本之间的余弦相似度,定义为:
;
其中,为样本的深层特征;为样本的深层特征;
通过样本的密度来选择原型,样本密度定义为:
;
其中,是符号函数,c是类别数,是第类中所有相似度的中值;
每类选择密度排名前6的样本深层特征作为类原型,得到一个原型集;计算每个样本的深层特征和不同类原型集之间的余弦相似度,样本和第个类原型集之间的余弦相似度为:
;
其中,m是每个类原型集中原型的数目,m=6;为余弦相似度的计
算;
;
其中,为;为;
选择每类中m个原型的平均相似度作为判断依据,得到校正标签。
将两个校正结果按照不同权重组合相加,得到最终的校正标签为:
;
其中,为权重系数,=0.3;为第二标签校正策略获得的校正结果;为第一
标签校正策略获得的校正结果。
步骤S4:建立损失函数对抑郁症检测模型进行训练,得到最终的抑郁症检测模型,具体为:
在损失计算过程中,利用对校正标签使用softmax操作得到的校正标签分布,
原始噪声标签和模型预测概率分布,计算分类损失,兼容性损失和熵损失,
并按照不同权重将三个损失组合相加,构成完整的损失函数,损失函数为:
;
其中,为分类损失,为兼容性损失,为熵损失;为预测抑郁概率分布;为校正标签分布;为原始噪声标签;=0.4,=0.1。
分类损失用于计算预测概率分布和校正标签分布之间的偏差,旨在最小化预测和校正标签之间的距离,默认校正标签可靠并尽可能使训练集中样本的预测靠近校正标签,从而提高测试集样本预测的准确率,分类损失通过Kullback-Leibler散度函数计算,定义为:
;
;
其中,为样本的校正标签经过softmax操作后的标签分布;为总的训练集样
本数目;为标签类别数目,标签类别包括抑郁类和非抑郁类;为样本的第j个类别的
校正标签;为样本第j个类别的预测概率;为样本的预测概率分布。
兼容性损失用于计算校正标签分布和原始噪声标签之间的偏差,旨在避免校正标签与原始噪声标签完全不一致,因为在噪声标签中也存在不少准确的标签,兼容性损失通过交叉熵损失函数计算,定义为:
;
熵损失用于计算预测概率分布及其log值之间的乘积,旨在讲每个标签的概率分布集中在一个类中,避免预测过早地接近校正标签分布而导致网络停止更新,熵损失定义为:
。
在损失计算流程中,利用校正标签、噪声标签和预测概率分布计算损失优化网络参数更新。
为验证本发明提出的方法的可行性和有效性,采用实验进行验证:
经过在Distress Analysis Interview Corpus - Wizard of Oz (DAIC-WOZ)数据集上的训练和测试,包含189组健康样本和抑郁样本的数据集,其中107个音频用于训练,35个音频用于测试,其余47个音频由于没有明确标签被放弃;以未加权平均召回率(UAR)和MF1分数为评判标准,对比结果如表1所示:
表1 对比结果
方法 | UAR↑ | MF1↑ |
无标签校正,交叉熵损失 | 0.524 | 0.494 |
无标签校正,加权损失 | 0.545 | 0.533 |
标签校正(一),加权损失 | 0.603 | 0.560 |
标签校正(二),加权损失 | 0.613 | 0.589 |
标签校正(一+二),加权损失 | 0.648 | 0.649 |
如图5所示,向训练集中的标签添加对称噪声,为实验提供噪声标签。经过在该数据集上的实验,可以看到在没有使用本发明提出的标签校正方法和新的损失函数的情况下,测试集的未加权平均召回率,即UAR分数为0.524,UAR分数通常用于判断抑郁症检测模型的性能和抑郁症判别的效率。而在使用了新的损失函数,同时分别使用第一种校正策略、第二种校正策略和加权融合的校正方法的情况下,抑郁症检测模型的UAR分数分别为0.603、0.613和0.648,说明本发明提出的校正方法和损失函数可以有效提高噪声环境下抑郁症检测模型的性能和判别效率。
以上所述仅为本发明的实施方式而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。
Claims (6)
1.一种基于自学习标签校正的弱监督语音抑郁症检测方法,其特征在于:该方法包括以下步骤:
步骤S1:收集抑郁症检测数据;
将抑郁症检测数据分成数据集、训练集以及测试集,从抑郁症检测数据的数据集中获取样本语音信号的log梅尔声谱图;
步骤S2:构建抑郁症检测模型,得到每个样本的预测抑郁概率分布;
步骤S3:制定标签校正策略,对训练集数据进行标签校正;
所述标签校正策略包括第一标签校正策略和第二标签校正策略,第一标签校正策略计算概率分布对预测标签的置信度与概率分布对噪声标签之间的似然比,并与设定的阈值进行对比后得到第一个校正结果;
第一标签校正策略通过将样本的语音信号特征输入抑郁症检测模型,从抑郁症检测模型的分类器中输出样本的预测抑郁概率分布,得到预测标签;
所述第二标签校正策略计算样本深层特征和类原型深层特征之间的余弦相似度来判断样本的抑郁性质,得到第二个校正结果;
第二标签校正策略通过为每个类别构建类原型集,每个类中选择若干个样本作为类候选集,分别计算每类中样本的深层特征之间的余弦相似度,得到一个相似度矩阵,其中,为每个类候选集中样本的数目;
步骤S4:建立损失函数对抑郁症检测模型进行训练,得到最终的抑郁症检测模型;
在损失计算过程中,利用对校正标签使用softmax操作得到的校正标签分布,原始噪声标签和模型预测概率分布,计算分类损失,兼容性损失和熵损失,并按照不同权重将三个损失组合相加,构成完整的损失函数,损失函数为:
;
其中,为分类损失,为兼容性损失,为熵损失;为预测抑郁概率分布;为校正标签分布;为原始噪声标签;=0.4,=0.1;
分类损失用于计算预测概率分布和校正标签分布之间的偏差,旨在最小化预测和校正标签之间的距离,默认校正标签可靠并尽可能使训练集中样本的预测靠近校正标签,从而提高测试集样本预测的准确率,分类损失通过Kullback-Leibler散度函数计算,定义为:
;
;
其中,为样本的校正标签经过softmax操作后的标签分布;为总的训练集样本数目;为标签类别数目,标签类别包括抑郁类和非抑郁类;为样本的第j个类别的校正标签;为样本第j个类别的预测概率;为样本的预测概率分布;
兼容性损失用于计算校正标签分布和原始噪声标签之间的偏差,旨在避免校正标签与原始噪声标签完全不一致,因为在噪声标签中也存在不少准确的标签,兼容性损失通过交叉熵损失函数计算,定义为:
;
熵损失用于计算预测概率分布及其log值之间的乘积,旨在讲每个标签的概率分布集中在一个类中,避免预测过早地接近校正标签分布而导致网络停止更新,熵损失定义为:
;
在损失计算流程中,利用校正标签、噪声标签和预测概率分布计算损失优化网络参数更新。
2.根据权利要求1所述的一种基于自学习标签校正的弱监督语音抑郁症检测方法,其特征在于:所述抑郁症检测模型包括卷积神经网络层、循环卷神经网络层以及多层感知器作为深层网络输出预测的分类器,卷积神经网络层包括一个卷积核大小为3的一维卷积神经网络和最大池化层,最大池化层的卷积核大小为2;
所述循环卷神经网络层包括双向长短期记忆网络和全连接层,多层感知器由多个全连接层组成。
3.根据权利要求2所述的一种基于自学习标签校正的弱监督语音抑郁症检测方法,其特征在于:所述步骤S2中构建抑郁症检测模型,得到每个样本的预测抑郁概率分布,具体为:
步骤S2-1:提取样本语音信号的log梅尔声谱图特征,具体为:
对时域信号进行傅里叶变换将其转换到频域;利用梅尔频率刻度的滤波器组对频域信号进行切分,使每个频率段对应一个数值,得到梅尔谱,对梅尔谱进行log计算得到log梅尔谱图;
步骤S2-2:log梅尔声谱图特征输入至抑郁症检测模型,经过一个卷积核大小为3的一维卷积神经网络捕获语音信号中的短期特征,卷积神经网络层的输出经过批量归一化函数和激活函数后,得到音频的短期深层特征;为了进一步降低维度,使用卷积核大小为2的最大池化层对短期深层特征进行下采样,随机丢弃一部分神经元;
步骤S2-3:将经过下采样的输出作为输入,输入循环卷神经网络层,循环卷神经网络层输入分别以正序和逆序进入到两个单向长短期记忆神经网络提取长期特征,将两个输出特征向量拼接,使得获得特征数据的同时拥有过去和未来的信息;
步骤S2-4:沿时间轴收集音频过去和未来的信息,学习语音信号中的时间信息,输出深层特征;
步骤S2-5:将最后一个时间步的输出作为循环卷神经网络层的输出,循环卷神经网络层后紧跟一个全连接层,将输出特征映射到更低维度的特征图中,并连接一个批量归一化函数和一个激活函数增强网络的鲁棒性;
步骤S2-6:由多层感知器构成的分类器处理从全连接层输出的深层特征得到预测抑郁概率分布。
4.根据权利要求1所述的一种基于自学习标签校正的弱监督语音抑郁症检测方法,其特征在于:所述步骤S3中第一标签校正策略通过将样本的语音信号特征输入抑郁症检测模型,从抑郁症检测模型的分类器中输出样本的预测抑郁概率分布,得到预测标签,具体为:
当预测标签和原始噪声标签不一致时,检查预测概率分布对预测标签的置信度与预测概率分布对噪声标签的置信度之间的似然比,如下公式所示:
;
其中,为样本的预测概率分布对预测标签的置信度;为样本的预测概率分布对噪声标签的置信度;
将似然比和设定的阈值对比,如果似然比比阈值大,校正结果为预测标签,即;否则校正结果为原始噪声标签,即;当预测标签和原始噪声标签一致时,则;
设置阈值为一个线性函数,初始值为1.2,后续增长为;
其中,为网络经过一次完整训练的次数。
5.根据权利要求1所述的一种基于自学习标签校正的弱监督语音抑郁症检测方法,其特征在于:所述步骤S3中第二标签校正策略为每个类别构建类原型集,每个类中选择若干个样本作为类候选集,分别计算每类中样本的深层特征之间的余弦相似度,得到一个相似度矩阵,其中,为每个类候选集中样本的数目,具体为:
样本和样本之间的余弦相似度,定义为:
;
其中,为样本的深层特征;为样本的深层特征;
通过样本的密度来选择原型,样本密度定义为:
;
其中,是符号函数,c是类别数,是第类中所有相似度的中值;
每类选择密度排名前6的样本深层特征作为类原型,得到一个原型集;计算每个样本的深层特征和不同类原型集之间的余弦相似度,样本和第个类原型集之间的余弦相似度为:
;
其中,m是每个类原型集中原型的数目,m=6;为余弦相似度的计算;
;
其中,为;为;
选择每类中m个原型的平均相似度作为判断依据,得到校正标签。
6.根据权利要求1所述的一种基于自学习标签校正的弱监督语音抑郁症检测方法,其特征在于:所述标签校正策略包括第一标签校正策略和第二标签校正策略,产生两个校正结果;将两个校正结果按照不同权重组合相加,得到最终的校正标签为:
;
其中,为权重系数,=0.3;为第二标签校正策略获得的校正结果;为第一标签校正策略获得的校正结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410506018.2A CN118098288B (zh) | 2024-04-25 | 2024-04-25 | 一种基于自学习标签校正的弱监督语音抑郁症检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410506018.2A CN118098288B (zh) | 2024-04-25 | 2024-04-25 | 一种基于自学习标签校正的弱监督语音抑郁症检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118098288A CN118098288A (zh) | 2024-05-28 |
CN118098288B true CN118098288B (zh) | 2024-06-28 |
Family
ID=91153488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410506018.2A Active CN118098288B (zh) | 2024-04-25 | 2024-04-25 | 一种基于自学习标签校正的弱监督语音抑郁症检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118098288B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111951824A (zh) * | 2020-08-14 | 2020-11-17 | 苏州国岭技研智能科技有限公司 | 一种基于声音判别抑郁症的检测方法 |
CN115862684A (zh) * | 2022-08-01 | 2023-03-28 | 常州大学 | 一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220093121A1 (en) * | 2020-09-23 | 2022-03-24 | Sruthi Kotlo | Detecting Depression Using Machine Learning Models on Human Speech Samples |
CN116824674A (zh) * | 2023-07-06 | 2023-09-29 | 兰州大学 | 抑郁情绪识别方法和*** |
-
2024
- 2024-04-25 CN CN202410506018.2A patent/CN118098288B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111951824A (zh) * | 2020-08-14 | 2020-11-17 | 苏州国岭技研智能科技有限公司 | 一种基于声音判别抑郁症的检测方法 |
CN115862684A (zh) * | 2022-08-01 | 2023-03-28 | 常州大学 | 一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN118098288A (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111461176A (zh) | 基于归一化互信息的多模态融合方法、装置、介质及设备 | |
CN110070895B (zh) | 一种基于监督变分编码器因素分解的混合声音事件检测方法 | |
CN102201237B (zh) | 基于模糊支持向量机的可靠性检测的情感说话人识别方法 | |
Anupam et al. | Preliminary diagnosis of COVID-19 based on cough sounds using machine learning algorithms | |
ul Haq et al. | A survey of deep learning techniques based Parkinson’s disease recognition methods employing clinical data | |
Sharanyaa et al. | Classification of Parkinson's disease using speech attributes with parametric and nonparametric machine learning techniques | |
Song et al. | Contrastive embeddind learning method for respiratory sound classification | |
CN117198468B (zh) | 基于行为识别和数据分析的干预方案智慧化管理*** | |
CN112329974B (zh) | 基于lstm-rnn的民航安保事件行为主体识别与预测方法及*** | |
CN116842460A (zh) | 基于注意力机制与残差神经网络的咳嗽关联疾病识别方法和*** | |
Khan et al. | An intelligent system for spoken term detection that uses belief combination | |
Venu | IOT Based Speech Recognition System to Improve the Performance of Emotion Detection | |
Lu et al. | Speech depression recognition based on attentional residual network | |
CN113674767A (zh) | 一种基于多模态融合的抑郁状态识别方法 | |
Somogyi | The Application of Artificial Intelligence | |
Mounika et al. | Machine learning and deep learning models for diagnosis of parkinson’s disease: a performance analysis | |
Feng | Toward knowledge-driven speech-based models of depression: Leveraging spectrotemporal variations in speech vowels | |
CN112466284B (zh) | 一种口罩语音鉴别方法 | |
Mavaddati | Voice-based age, gender, and language recognition based on ResNet deep model and transfer learning in spectro-temporal domain | |
Valdés et al. | Cough Classification with Deep Derived Features using Audio Spectrogram Transformer | |
CN117219127A (zh) | 认知状态识别方法以及相关设备 | |
CN118098288B (zh) | 一种基于自学习标签校正的弱监督语音抑郁症检测方法 | |
Yildirim et al. | A new hybrid approach based on AOA, CNN and feature fusion that can automatically diagnose Parkinson's disease from sound signals: PDD-AOA-CNN | |
CN113571050A (zh) | 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法 | |
CN107492384B (zh) | 一种基于模糊最近邻算法的语音情感识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |