CN118098288B

CN118098288B - 一种基于自学习标签校正的弱监督语音抑郁症检测方法

Info

Publication number: CN118098288B
Application number: CN202410506018.2A
Authority: CN
Inventors: 孙雁飞; 周媛媛; 亓晋; 徐新洲; 徐飞易; 董振江; 孙莹
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2024-04-25
Filing date: 2024-04-25
Publication date: 2024-06-28
Anticipated expiration: 2044-04-25
Also published as: CN118098288A

Abstract

本发明公开了一种基于自学习标签校正的弱监督语音抑郁症检测方法，属于抑郁症检测技术领域；方法为：收集抑郁症检测数据；建抑郁症检测模型，得到每个样本的预测抑郁概率分布；制定标签校正策略，对训练集数据进行标签校正；采用损失函数对抑郁症检测模型进行训练，得到最终的抑郁症检测模型。本发明通过制定不同的标签校正策略，有效识别并校正训练集的错误标签，减轻数据集中不准确标记对自动抑郁检测模型性能的影响；同时，采用深度学习的方法构建抑郁症检测模型，获取语音信号中更深层次的时空信息，从全局角度更全面地检测音频中的抑郁信号，损失函数在优化网络参数的同时尽可能保留准确的标签，增强了对抑郁症检测的准确性。

Description

一种基于自学习标签校正的弱监督语音抑郁症检测方法

技术领域

本发明属于抑郁症检测技术领域，具体涉及一种基于自学习标签校正的弱监督语音抑郁症检测方法。

背景技术

在医学上抑郁症的检测方法主要是临床诊断和量表问卷评估，常见的量表有汉密尔顿抑郁量表、PHQ-9健康问卷、Beck抑郁自评量表等等，然而传统的方法往往带有较强的主观性，从而导致抑郁症检测效率较低。随着人工智能技术在自然语言处理、语音处理和情感计算等领域的研究逐渐成熟，近年来出现了较多通过人工智能技术辅助抑郁症诊断的方法。其中，利用视觉线索或脑电图（EEG）等各种模态的抑郁症检测方法受到广泛关注，这些方法旨在通过僵硬的面部表情或异常的脑电图模式捕捉抑郁信息。同时，语言信号也是诊断抑郁症的基本依据。根据临床研究，抑郁症患者通常表现出明显的言语特征，包括音调降低、语速减慢、词与词之间停顿延长或语调单调。然而，与临床抑郁诊断相关的高昂费用说明了自动解决方案的必要性，这促使人们开发了自动抑郁检测***，使个人能够自我评估其抑郁状态。语音自动抑郁检测的早期工作涉及应用机器学习算法来处理语音信号中的低级描述符，如决策树和隐马尔可夫模型。

最近，深度学习方法被引入到自动抑郁检测方法中，从而能够从语音信号中更深入地提取与抑郁相关的信息。深度神经网络作为主要的深度学习模型之一，通常用于从低级声学特征中获取判别表征。后来，卷积神经网络和基于长短期记忆的循环神经网络逐渐成为构建自动抑郁检测模型的重点。在大多数情况下，卷积神经网络通常用于从各种模态的特征中学习局部时空信息，而长短期记忆网络则侧重于通过时间序列从全局特征中学习序列相关性。此外，Transformer模型因其在自然语言处理领域的显著成功，其应用也扩展到了语音信号分析领域，Transformer利用注意力机制来有效地模拟语音信号中的长期依赖关系，从而促进了密集信息的全面整合。

尽管深度学习在自动抑郁检测建模过程中取得了巨大成功，但目前的算法仍存在一些尚未解决的问题。首先，用于训练抑郁检测模型的数据集通常都是人工标注的，很可能存在错误标注的噪声标签，需要进行校正。此外，自动抑郁检测方法中常用的损失函数无法综合利用校正标签和原始噪声标签来优化网络参数。针对弱标记问题，已经由许多工作对其进行了研究；例如文章名为：Meta label correction for noisy label learning，期刊为：35th AAAI Conference on Artificial Intelligence的11053-11061页中记载：将标签校正过程视为一个元过程，并将元模型校正后的标签作为训练主模型的正确标签，同时优化了元模型和主模型的性能。以及以文章名为：Deep Learning for Suicide andDepression Identification with Unsupervised Label Correctio，期刊为：30thInternational Conference on Artificial Neural Networks的436-447页中记载：使用聚类算法为每个样本生成一个伪标签，如果伪标签的置信度高于调整后的阈值，则校正其噪声标签。但是这些校正方法没有在自动抑郁检测中应用；

中国专利公开了（申请号为：202010817892X）一种基于声音判别抑郁症的检测方法，方法主要为：通过声音要素数据化的采集及存储，对声音文件数据进行BSS算法分析，对语音进行识别；使用MFCC作为特征参数分析所要处理的语音信号，转化到梅尔频率，进行倒谱分析；采用多组训练数据分别采集录音中的数据，建立卷积神经网络模型进行判别；使用BP神经网络方法对得到的测试样本数据进行分类分析；采用基于混淆矩阵的ROC、AUC模型评价方法，来判断基于声音判别个体患抑郁症概率的准确性。

上述方法中存在以下不足：1、用于训练抑郁检测模型的数据集通常都是人工标注的，很可能存在错误标注的噪声标签。

2、自动抑郁检测方法中常用的损失函数无法综合利用校正标签和原始噪声标签来优化网络参数。

因此，如何解决数据集的错误标签校正以及优化网络参数问题，提高标签的准确性，从而提高抑郁症检测的准确率以及在噪声环境中的鲁棒性是本发明想要解决的技术问题。

发明内容

本发明的目的在于提供一种基于自学习标签校正的弱监督语音抑郁症检测方法，以解决上述背景技术中提出的问题以及现有技术的不足。

本发明目的是这样实现的：一种基于自学习标签校正的弱监督语音抑郁症检测方法，其特征在于：该方法包括以下步骤：

步骤S1：收集抑郁症检测数据；

将抑郁症检测数据分成数据集、训练集以及测试集，从抑郁症检测数据的数据集中获取样本语音信号的log梅尔声谱图；

步骤S2：构建抑郁症检测模型，得到每个样本的预测抑郁概率分布；

步骤S3：制定标签校正策略，对训练集数据进行标签校正；

所述标签校正策略包括第一标签校正策略和第二标签校正策略；

步骤S4：建立损失函数对抑郁症检测模型进行训练，得到最终的抑郁症检测模型。

优选的，所述抑郁症检测模型包括卷积神经网络层、循环卷神经网络层以及多层感知器作为深层网络输出预测的分类器，卷积神经网络层包括一个卷积核大小为3的一维卷积神经网络和最大池化层，最大池化层的卷积核大小为2；

所述循环卷神经网络层包括双向长短期记忆网络和全连接层，多层感知器由多个全连接层组成。

优选的，所述步骤S2中构建抑郁症检测模型，得到每个样本的预测抑郁概率分布，具体为：

步骤S2-1：提取样本语音信号的log梅尔声谱图特征，具体为：

对时域信号进行傅里叶变换将其转换到频域；利用梅尔频率刻度的滤波器组对频域信号进行切分，使每个频率段对应一个数值，得到梅尔谱，对梅尔谱进行log计算得到log梅尔谱图；

步骤S2-2：log梅尔声谱图特征输入至抑郁症检测模型，经过一个卷积核大小为3的一维卷积神经网络捕获语音信号中的短期特征，卷积神经网络层的输出经过批量归一化函数和激活函数后，得到音频的短期深层特征；为了进一步降低维度，使用卷积核大小为2的最大池化层对短期深层特征进行下采样，随机丢弃一部分神经元；

步骤S2-3：将经过下采样的输出作为输入，输入循环卷神经网络层，循环卷神经网络层输入分别以正序和逆序进入到两个单向长短期记忆神经网络提取长期特征，将两个输出特征向量拼接，使某一时刻获得特征数据的同时拥有过去和未来的信息；

步骤S2-4：沿时间轴收集音频过去和未来的信息，学习语音信号中的时间信息，输出深层特征；

步骤S2-5：将最后一个时间步的输出作为循环卷神经网络层的输出，循环卷神经网络层后紧跟一个全连接层，将输出特征映射到更低维度的特征图中，并连接一个批量归一化函数和一个激活函数增强网络的鲁棒性；

步骤S2-6：由多层感知器构成的分类器处理从全连接层输出的深层特征得到预测抑郁概率分布。

优选的，所述第一标签校正策略计算概率分布对预测标签的置信度与概率分布对噪声标签之间的似然比，并与设定的阈值进行对比后得到第一个校正结果，具体为：

将样本的语音信号特征输入抑郁症检测模型，从抑郁症检测模型的分类器中输出样本的预测抑郁概率分布，得到预测标签；

当预测标签和原始噪声标签不一致时，检查预测概率分布对预测标签的置信度与预测概率分布对噪声标签的置信度之间的似然比，如下公式所示：

；

其中，为样本的预测概率分布对预测标签的置信度；为样本的预测概率分布对噪声标签的置信度；

将似然比和设定的阈值对比，如果似然比比阈值大，校正结果为预测标签，即；否则校正结果为原始噪声标签，即；当预测标签和原始噪声标签一致时，则；

设置阈值为一个线性函数，初始值为1.2，后续增长为；

其中，为网络经过一次完整训练的次数。

优选的，所述第二标签校正策略计算样本深层特征和类原型深层特征之间的余弦相似度来判断样本的抑郁性质，得到第二个校正结果，具体为：

为每个类别构建类原型集，每个类中选择若干个样本作为类候选集，分别计算每类中样本的深层特征之间的余弦相似度，得到一个相似度矩阵，其中，为每个类候选集中样本的数目；

样本和样本之间的余弦相似度，定义为：

；

其中，为样本的深层特征；为样本的深层特征；

通过样本的密度来选择原型，样本密度定义为：

；

其中，是符号函数，c是类别数，是第类中所有相似度的中值；

每类选择密度排名前6的样本深层特征作为类原型，得到一个原型集；计算每个样本的深层特征和不同类原型集之间的余弦相似度，样本和第个类原型集之间的余弦相似度为：

；

其中，m是每个类原型集中原型的数目，m=6；为余弦相似度的计算；

；

其中，为；为；

选择每类中m个原型的平均相似度作为判断依据，得到校正标签。

优选的，所述标签校正策略包括第一标签校正策略和第二标签校正策略，产生两个校正结果；将两个校正结果按照不同权重组合相加，得到最终的校正标签为：

；

其中，为权重系数，=0.3；为第二标签校正策略获得的校正结果；为第一标签校正策略获得的校正结果。

优选的，所述损失函数包括用于计算预测概率分布和校正标签分布之间偏差的分类损失、用于计算校正标签分布和原始噪声标签之间偏差的兼容性损失以及用于计算预测概率分布及其log值之间乘积的熵损失；

按照不同权重将三个损失组合相加，构成完整的损失函数，损失函数为：

；

其中，为分类损失，为兼容性损失，为熵损失；为预测抑郁概率分布；为校正标签分布；为原始噪声标签；=0.4，=0.1。

优选的，所述分类损失通过Kullback-Leibler散度函数计算，定义为：

；

其中，为样本的校正标签经过softmax操作后的标签分布；为总的训练集样本数目；为标签类别数目，标签类别包括抑郁类和非抑郁类；为样本的第j个类别的校正标签；为样本第j个类别的预测概率；为样本的预测概率分布；

所述兼容性损失通过交叉熵损失函数计算，定义为：

；

所述熵损失定义为：

。

与现有技术相比，本发明具有如下改进及优点：

1、通过制定不同的标签校正策略，有效识别并校正训练集的错误标签，减轻数据集中不准确标记对自动抑郁检测模型性能的影响；同时，采用深度学习的方法构建抑郁症检测模型，获取语音信号中更深层次的时空信息，特别是采用长短期记忆网络捕捉语音信号的上下文信息，有利于从全局角度更全面地检测音频中的抑郁信号，增强了对抑郁症检测的准确性。

2、通过损失函数充分利用校正标签、原始噪声标签和模型预测之间的关系，在修正错误标记的同时尽可能保留准确的标签，进一步提高训练集标签的校正效率和测试集预测的准确度。

附图说明

图1为本发明方法的整体流程图。

图2为抑郁症检测模型结构示意图。

图3为抑郁症检测模型的流程图。

图4为抑郁症检测模型的训练流程图。

图5为本发明方法的效果对比图。

具体实施方式

以下结合附图对本发明做进一步概述。

如图1所示，一种基于自学习标签校正的弱监督语音抑郁症检测方法，该方法包括以下步骤：

步骤S1：收集抑郁症检测数据；

如图2所示，抑郁症检测模型包括卷积神经网络层、循环卷神经网络层以及多层感知器作为深层网络输出预测的分类器，卷积神经网络层包括一个卷积核大小为3的一维卷积神经网络和最大池化层，最大池化层的卷积核大小为2；循环卷神经网络层包括双向长短期记忆网络和全连接层，多层感知器由多个全连接层组成。

如图3所示，构建抑郁症检测模型，得到每个样本的预测抑郁概率分布，具体为：

步骤S2-1：提取样本语音信号的log梅尔声谱图特征，具体为：

对时域信号进行傅里叶变换将其转换到频域；利用梅尔频率刻度的滤波器组对频域信号进行切分，使每个频率段对应一个数值，得到梅尔谱，对梅尔谱进行log计算得到log梅尔谱图；使用80个梅尔滤波器切分频域信号；

步骤S2-6：由多层感知器构成的分类器处理从全连接层输出的深层特征得到预测抑郁概率分布。将前面计算得到的特征空间映射到样本标记空间，利用softmax函数将预测抑郁概率归一化，得到整个模型的输出，即后续用于判断音频样本标签的概率分布。

步骤S3：制定标签校正策略，对训练集数据进行标签校正；

标签校正策略包括第一标签校正策略和第二标签校正策略，第一标签校正策略计算概率分布对预测标签的置信度与概率分布对噪声标签之间的似然比，并与设定的阈值进行对比后得到第一个校正结果；

第二标签校正策略计算样本深层特征和类原型深层特征之间的余弦相似度来判断样本的抑郁性质，得到第二个校正结果；

如图4所示，设计两种不同的标签校正策略并将其校正测过按权重组合相加得到最后的校正标签，具体为：

第一标签校正策略：将样本的语音信号特征输入抑郁症检测模型，从抑郁症检测模型的分类器中输出样本的预测抑郁概率分布，得到预测标签；

；

设置阈值为一个线性函数，初始值为1.2，后续增长为；

其中，为网络经过一次完整训练的次数。

第二标签校正策略：为每个类别构建类原型集，每个类中选择若干个样本作为类候选集，分别计算每类中样本的深层特征之间的余弦相似度，得到一个相似度矩阵，其中，为每个类候选集中样本的数目；

样本和样本之间的余弦相似度，定义为：

；

其中，为样本的深层特征；为样本的深层特征；

通过样本的密度来选择原型，样本密度定义为：

；

其中，为；为；

将两个校正结果按照不同权重组合相加，得到最终的校正标签为：

；

步骤S4：建立损失函数对抑郁症检测模型进行训练，得到最终的抑郁症检测模型，具体为：

在损失计算过程中，利用对校正标签使用softmax操作得到的校正标签分布，原始噪声标签和模型预测概率分布，计算分类损失，兼容性损失和熵损失，并按照不同权重将三个损失组合相加，构成完整的损失函数，损失函数为：

；

分类损失用于计算预测概率分布和校正标签分布之间的偏差，旨在最小化预测和校正标签之间的距离，默认校正标签可靠并尽可能使训练集中样本的预测靠近校正标签，从而提高测试集样本预测的准确率，分类损失通过Kullback-Leibler散度函数计算，定义为：

；

其中，为样本的校正标签经过softmax操作后的标签分布；为总的训练集样本数目；为标签类别数目，标签类别包括抑郁类和非抑郁类；为样本的第j个类别的校正标签；为样本第j个类别的预测概率；为样本的预测概率分布。

兼容性损失用于计算校正标签分布和原始噪声标签之间的偏差，旨在避免校正标签与原始噪声标签完全不一致，因为在噪声标签中也存在不少准确的标签，兼容性损失通过交叉熵损失函数计算，定义为：

；

熵损失用于计算预测概率分布及其log值之间的乘积，旨在讲每个标签的概率分布集中在一个类中，避免预测过早地接近校正标签分布而导致网络停止更新，熵损失定义为：

。

在损失计算流程中，利用校正标签、噪声标签和预测概率分布计算损失优化网络参数更新。

为验证本发明提出的方法的可行性和有效性，采用实验进行验证：

经过在Distress Analysis Interview Corpus - Wizard of Oz （DAIC-WOZ）数据集上的训练和测试，包含189组健康样本和抑郁样本的数据集，其中107个音频用于训练，35个音频用于测试，其余47个音频由于没有明确标签被放弃；以未加权平均召回率（UAR）和MF1分数为评判标准，对比结果如表1所示：

表1 对比结果

方法	UAR↑	MF1↑
			无标签校正，交叉熵损失	0.524	0.494
无标签校正，加权损失	0.545	0.533
			标签校正（一），加权损失	0.603	0.560
标签校正（二），加权损失	0.613	0.589
			标签校正（一+二），加权损失	0.648	0.649

如图5所示，向训练集中的标签添加对称噪声，为实验提供噪声标签。经过在该数据集上的实验，可以看到在没有使用本发明提出的标签校正方法和新的损失函数的情况下，测试集的未加权平均召回率，即UAR分数为0.524，UAR分数通常用于判断抑郁症检测模型的性能和抑郁症判别的效率。而在使用了新的损失函数，同时分别使用第一种校正策略、第二种校正策略和加权融合的校正方法的情况下，抑郁症检测模型的UAR分数分别为0.603、0.613和0.648，说明本发明提出的校正方法和损失函数可以有效提高噪声环境下抑郁症检测模型的性能和判别效率。

以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。

Claims

1.一种基于自学习标签校正的弱监督语音抑郁症检测方法，其特征在于：该方法包括以下步骤：

步骤S1：收集抑郁症检测数据；

步骤S3：制定标签校正策略，对训练集数据进行标签校正；

所述标签校正策略包括第一标签校正策略和第二标签校正策略，第一标签校正策略计算概率分布对预测标签的置信度与概率分布对噪声标签之间的似然比，并与设定的阈值进行对比后得到第一个校正结果；

第一标签校正策略通过将样本的语音信号特征输入抑郁症检测模型，从抑郁症检测模型的分类器中输出样本的预测抑郁概率分布，得到预测标签；

所述第二标签校正策略计算样本深层特征和类原型深层特征之间的余弦相似度来判断样本的抑郁性质，得到第二个校正结果；

第二标签校正策略通过为每个类别构建类原型集，每个类中选择若干个样本作为类候选集，分别计算每类中样本的深层特征之间的余弦相似度，得到一个相似度矩阵，其中，为每个类候选集中样本的数目；

步骤S4：建立损失函数对抑郁症检测模型进行训练，得到最终的抑郁症检测模型；

；

其中，为分类损失，为兼容性损失，为熵损失；为预测抑郁概率分布；为校正标签分布；为原始噪声标签；=0.4，=0.1；

；

2.根据权利要求1所述的一种基于自学习标签校正的弱监督语音抑郁症检测方法，其特征在于：所述抑郁症检测模型包括卷积神经网络层、循环卷神经网络层以及多层感知器作为深层网络输出预测的分类器，卷积神经网络层包括一个卷积核大小为3的一维卷积神经网络和最大池化层，最大池化层的卷积核大小为2；

3.根据权利要求2所述的一种基于自学习标签校正的弱监督语音抑郁症检测方法，其特征在于：所述步骤S2中构建抑郁症检测模型，得到每个样本的预测抑郁概率分布，具体为：

步骤S2-1：提取样本语音信号的log梅尔声谱图特征，具体为：

步骤S2-3：将经过下采样的输出作为输入，输入循环卷神经网络层，循环卷神经网络层输入分别以正序和逆序进入到两个单向长短期记忆神经网络提取长期特征，将两个输出特征向量拼接，使得获得特征数据的同时拥有过去和未来的信息；

4.根据权利要求1所述的一种基于自学习标签校正的弱监督语音抑郁症检测方法，其特征在于：所述步骤S3中第一标签校正策略通过将样本的语音信号特征输入抑郁症检测模型，从抑郁症检测模型的分类器中输出样本的预测抑郁概率分布，得到预测标签，具体为：

；

设置阈值为一个线性函数，初始值为1.2，后续增长为；

其中，为网络经过一次完整训练的次数。

5.根据权利要求1所述的一种基于自学习标签校正的弱监督语音抑郁症检测方法，其特征在于：所述步骤S3中第二标签校正策略为每个类别构建类原型集，每个类中选择若干个样本作为类候选集，分别计算每类中样本的深层特征之间的余弦相似度，得到一个相似度矩阵，其中，为每个类候选集中样本的数目，具体为：

样本和样本之间的余弦相似度，定义为：

；

其中，为样本的深层特征；为样本的深层特征；

通过样本的密度来选择原型，样本密度定义为：

；

其中，为；为；

6.根据权利要求1所述的一种基于自学习标签校正的弱监督语音抑郁症检测方法，其特征在于：所述标签校正策略包括第一标签校正策略和第二标签校正策略，产生两个校正结果；将两个校正结果按照不同权重组合相加，得到最终的校正标签为：

；