CN115346561B - 基于语音特征的抑郁情绪评估预测方法及*** - Google Patents
基于语音特征的抑郁情绪评估预测方法及*** Download PDFInfo
- Publication number
- CN115346561B CN115346561B CN202210974876.0A CN202210974876A CN115346561B CN 115346561 B CN115346561 B CN 115346561B CN 202210974876 A CN202210974876 A CN 202210974876A CN 115346561 B CN115346561 B CN 115346561B
- Authority
- CN
- China
- Prior art keywords
- voice
- neural network
- voice signal
- model
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013528 artificial neural network Methods 0.000 claims abstract description 52
- 238000000605 extraction Methods 0.000 claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 22
- 230000000994 depressogenic effect Effects 0.000 claims abstract description 11
- 238000013210 evaluation model Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 21
- 238000001228 spectrum Methods 0.000 claims description 19
- 238000001514 detection method Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 9
- 230000005236 sound signal Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000010183 spectrum analysis Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 2
- 230000036651 mood Effects 0.000 claims 1
- 238000011156 evaluation Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 description 13
- 238000005070 sampling Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000012795 verification Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 208000020401 Depressive disease Diseases 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 206010012374 Depressed mood Diseases 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 240000005373 Panax quinquefolius Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000003477 cochlea Anatomy 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 208000024714 major depressive disease Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明公开了一种基于语音特征的抑郁情绪评估预测方法及***,涉及抑郁情绪评估技术领域。具体步骤包括如下:采集语音信号数据集;计算语音信号数据集的上包络线、语谱图、梅尔倒谱系数和LLDs语音特征作为语音信号特征;将语音信号特征分别输入到预训练好的深度神经网络特征提取子模型中提取语音信号特征对应的神经网络特征;将每个子模型输出的所述神经网络特征拼接成一维向量作为多模态语音特征;将所述多模态语音特征输入到训练好的评估模型中进行情绪评估。本发明能够有效的对抑郁情绪进行精准评估,相对于传统量表,提高了抑郁情绪评估的准确率。
Description
技术领域
本发明涉及抑郁情绪评估技术领域,更具体的说是涉及一种基于语音特征的抑郁情绪评估预测方法及***。
背景技术
在现有技术中,主要通过使用各种抑郁量表的方式对患者基本情况量化评估来检查确定治疗效果。抑郁症量表是目前判断患者是否患有抑郁症和治疗疗效的重要依据。临床主要使用的抑郁量表有汉密尔顿抑郁量表、PHQ-9等。一般通过经过专业培训的临床医生或心理测验师采用交谈法和观察法对患者进行检查,最后根据量表评分来判断疗效。这种过多依赖主观的判断很容易导致医生评估标准不一致,进而对患者状态的评估不够准确。因此,对本领域技术人员来说,如何客观准确地对患者的抑郁情绪进行评估预测是亟待解决的问题。
发明内容
有鉴于此,本发明提供了一种基于语音特征的抑郁情绪评估预测方法及***,以解决背景技术中存在的问题。
为了实现上述目的,本发明采用如下技术方案:一种基于卷积神经网络抑郁症治疗效果预测方法,具体步骤包括如下:
采集语音信号数据集;
计算所述语音信号数据集的上包络线、语谱图、梅尔倒谱系数和LLDs语音特征作为语音信号特征;
将所述语音信号特征分别输入到预训练好的深度神经网络特征提取子模型中提取所述语音信号特征对应的神经网络特征;
将每个子模型输出的所述神经网络特征拼接成一维向量作为多模态语音特征;
将所述多模态语音特征输入到训练好的评估模型中进行抑郁情绪评估预测。
可选的,还包括对所述语音信号数据集进行预处理,所述预处理包括将所述语音信号数据集进行降采样操作,以及采用双门限端点检测算法对信号进行端点检测来识别受试者音频信号的起点和终点,对信号进行裁剪。
可选的,使用滑动窗口计算所述语音信号数据集的上包络线;通过librosa工具包计算所述语谱图。
可选的,所述梅尔倒谱系数的计算过程为:
S1、将所述语音信号数据集通过高通滤波器进行预加重,得到第一信号,公式为:
H(Z)=1-μz-1;其中,μ的取值为0.97;
S2、将所述第一信号进行分帧操作,并且为了增加帧的连续性,将每一帧乘以汉明窗,公式为:
其中,S(n)为分帧后的信号,n=0,1...,N-1,N为帧的大小,α的取值为0.46;
S3、将每一帧乘以汉明窗后,每帧还必须再经过快速傅里叶变换得到在频谱上的能量分布,即能量谱;
S4、将所述能量谱通过三角形滤波器组,计算通过所述三角形滤波器组的对数能量,公式为:
其中,M为滤波器的数量
m=1,2,...,M;
S5、在通过的对数能量的基础上,通过离散余弦变换获取频率谱的低频信息,公式为:
其中,s(m)为通过所述三角形滤波器组的对数能量,m=1,2,...,M,L为计算MFCC的阶数。
可选的,所述评估模型的训练过程为:
采集语音信号;
使用所述语音信号计算上包络线、语谱图、梅尔倒谱系数和LLDs语音特征作为语音信号特征;
利用所述语音信号特征预训练特征提取子模型,训练的标签为对应样本的HAMD-17抑郁量表总分;
预训练完成后,将所述特征提取子模型的全连接层输出拼接成一维向量作为样本的深度神经网络特征;
所述深度神经网络特征作为输入用于训练所述评估模型。
可选的,所述上包络线、所述语谱图、所述梅尔倒谱系数均为时序特征,所述时序特征的深度神经网络特征提取子模型采用CuDNNLSTM层作为神经网络的循环层,在所述循环层后增加注意力层对时间步的输出加权,最后通过全连接层对加权后的向量进行运算对标签进行预测;其中注意力层采用自注意力机制。
通过采用上述技术方案,具有以下有益的技术效果:通过自注意力机制对时序语音特征帧加权,重点学习与抑郁情绪高度相关的特征帧,降低了模型的训练难度,并且CuDNNLSTM层能够结合长期记忆和短期记忆信息,还能利用GPU进行快速推理。
可选的,所述LLDs语音特征为非结构特征向量,所述非结构特征向量的深度神经网络特征提取子模型通过全连接层堆叠来构建。
另一方面,提供一种基于卷积神经网络抑郁症治疗效果预测***,包括依次连接的数据获取模块、第一特征提取模块、第二特征提取模块、特征拼接模块、抑郁情绪评估预测模块;其中,
所述数据获取模块,用于采集语音信号数据集;
所述第一特征提取模块,用于计算所述语音信号数据集的上包络线、语谱图、梅尔倒谱系数和LLDs语音特征作为语音信号特征;
所述第二特征提取模块,用于将所述语音信号特征分别输入到预训练好的深度神经网络特征提取子模型中提取所述语音信号特征对应的神经网络特征;
所述特征拼接模块,用于将每个子模型输出的所述神经网络特征拼接成一维向量作为多模态语音特征;
所述抑郁情绪评估预测模块,用于将所述多模态语音特征输入到训练好的评估预测模型中进行抑郁情绪评估预测。
可选的,还包括与所述数据获取模块相连的数据预处理模块,所述数据预处理模块,用于将所述语音信号数据集进行降采样操作,以及采用双门限端点检测算法对信号进行端点检测来识别受试者音频信号的起点和终点,对信号进行裁剪。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于卷积神经网络的抑郁症治疗效果预测方法及***,在实际应用于抑郁症疗效预测和抑郁症的临床治疗具有切实的实际意义,不仅消除了抑郁症患者和临床医师对抑郁症病情诊断的主观影响,而且减少了医生重复评估患者疗效的工作量,并且能提高患者的治疗体验;本发明对抑郁症患者的音频信息进行分析处理,然后输入到神经网络模型中进行特征提取、特征融合和自主学习,通过特征融合可以为模型决策提供更多的信息,从而提高总体决策结果的准确率,能够有效的对抑郁症患者的治疗效果进行评估,提高了临床医生的诊疗效率和患者的治疗体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明的抑郁情绪评估预测方法流程图;
图2为本发明的评估模型训练流程图;
图3为本发明的Attention机制结构图;
图4为本发明的时序特征的深度神经网络特征提取子模型结构图;
图5为本发明的非结构数据子模型结构图
图6为本发明的神经网络特征拼接结构图;
图7为本发明的ROC曲线下面积图;
图8为本发明的混淆矩阵示意图;
图9为本发明的***结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于语音特征的抑郁情绪评估预测方法,如图1所示,具体步骤包括如下:
步骤一、采集语音信号数据集;
步骤二、计算语音信号数据集的上包络线、语谱图、梅尔倒谱系数和LLDs语音特征作为语音信号特征;
步骤三、将语音信号特征分别输入到预训练好的深度神经网络特征提取子模型中提取语音信号特征对应的神经网络特征;
步骤四、将每个子模型输出的神经网络特征拼接成一维向量作为多模态语音特征;
步骤五、将多模态语音特征输入到训练好的评估模型中进行抑郁情绪评估预测。
进一步的,如图2所示,评估模型的训练过程为:
采集语音信号;
使用语音信号计算上包络线、语谱图、梅尔倒谱系数和LLDs语音特征作为语音信号特征;
利用语音信号特征预训练特征提取子模型,训练的标签为对应样本的HAMD-17抑郁量表总分;
预训练完成后,将特征提取子模型的全连接层输出拼接成一维向量作为样本的深度神经网络特征;
深度神经网络特征作为输入用于训练评估模型。
进一步的,在步骤一中,本实施例使用的数据为语音数据,包含健康被试入组和抑郁症患者入组以及每周评估后的录音。参与者被要求在安静的环境下自由朗诵散文诗《生如夏花》,使用录音笔对语音信号进行录制。录音笔被放置在距离被试20-30cm的桌面上,麦克风指向被试者。音频信号使用纽曼RD07录音笔以44.1kHz采样频率和16bit采样深度进行录制,最后以单声道WAV格式保存。
对实验志愿者访谈的过程中,医师需要提前打开录音设备,在音频采集结束后关闭录音设备,这会导致采集到的语音信号前后会有一段与访谈内容无关的内容,这部分会因为有背景噪声或设备底噪给后续数据分析带来干扰。为了避免带来这种干扰,使用双门限端点检测算法对信号进行端点检测。端点检测可以识别一段音频中语音信号的起点和终点,之后就可以对信号进行裁剪。
更进一步的,还包括对语音信号数据集进行预处理,预处理包括针对录音设备采集的音频信号先使用ffmpeg工具进行转写,将录音笔采集到的44.1kHz频率的音频信号降采样到16kHz的采样频率。为了避免期间背景噪声对后续分析造成干扰,同时减少语音信号处理的计算量,采用双门限端点检测算法对信号进行端点检测来识别受试者音频信号起点和终点,对信号进行裁剪。
进一步的,在步骤二中,计算上包络线、语谱图、梅尔倒谱系数和LLDs语音特征的具体方式为:
(1)上包络线
与频率相关的信息可以通过频率谱体现,所以对于波形信号仅期望模型能够通过信号的包络学习到一些有用的信息。本发明使用滑动窗口计算了波形信号低分辨率的上包络线作为模型的一个输入。滑动窗口的大小设置为800个采样点,窗口位移设置为400个采样点。使用窗口内采样值大于0的采样点的均值代表当前窗口的值。
(2)语谱图
时域波形虽然简单直观,但是对于语音这类复杂的信号来说,一些特性要在频域中再能展现出来。
语音信号是一种短时平稳信号,可以在每个时刻用其附近的短时段语音信号分析得到一种频谱,将语音信号连续的进行这种频谱分析,可以得到一种二维图谱,它的横坐标表示时间,纵坐标表示频率,每个像素的灰度大小反应响应时刻和频率的能量。这种时频图称为语谱图。其中能量功率谱可以通过公式计算:
其中,X(n,w)表示在时域以n点为中心的一帧信号的傅里叶变换在w处的大小,通过公式计算得到:
w[n]是一个长度为2N+1的窗函数,一般使用汉明窗作为窗函数。
长时窗(至少两个基音周期)常被用于计算窄带语谱图。窄带语谱图具有较高的频率分辨率和较低的时间分辨率,良好的频率分辨率可以让语音的每个谐波分量更容易被辨别,在语谱图上显示为水平条纹。本发明中,使用librosa工具包计算语音的窄带语谱图,窗函数窗口大小为10ms,窗口位移为2.5ms。
(3)梅尔倒谱系数
MFCC(Mel-Frequency Cepstral Coefficients)全称梅尔频率倒谱系数。它是在1980年由Davis和Mermelstein提出来的,它将人耳的听觉感知特性和语音的产生机制相结合,是一种在自动语音和说话人识别中广泛使用的特征。
人耳使人在嘈杂的环境中能够正常的分辨出各种声音,只关注于某些特定的频率分量。人耳中耳蜗的滤波作用是在对数频率尺度上发挥作用的,在1000Hz以下则为线性尺度,这就使得人耳对低频的信号更加敏感。根据这一现象,语音学家设计了一组类似于耳蜗滤波功能的滤波器组,称为梅尔频率滤波器组。
MFCC的计算流程如下:
S1、将语音信号数据集通过高通滤波器进行预加重,得到第一信号,公式为:
H(Z)=1-μz-1;其中,μ的取值为0.97;
S2、将第一信号进行分帧操作,并且为了增加帧的连续性,将每一帧乘以汉明窗,公式为:
其中,S(n)为分帧后的信号,n=0,1...,N-1,N为帧的大小,α的取值为0.46;
S3、将每一帧乘以汉明窗后,每帧还必须再经过快速傅里叶变换得到在频谱上的能量分布,即能量谱;
S4、将能量谱通过三角形滤波器组,计算通过三角形滤波器组的对数能量,公式为:
其中,M为滤波器的数量
m=1,2,...,M;
S5、在通过的对数能量的基础上,通过离散余弦变换获取频率谱的低频信息,公式为:
其中,s(m)为通过所述三角形滤波器组的对数能量,m=1,2,...,M,L为计算MFCC的阶数。
(4)LLDs
在语音情感识别领域,普遍使用语音的节奏特征、韵律特征等作为特征进行分析。大部分的语音特征都是通过对原始语音波形进行分帧、加窗等预处理操作后,通过精心设计的短时分析算法计算得到。由于语音是一维时序数据,因此经过短时分析后得到往往会得到语音随时间变化的特征序列也被成为低级描述符(LLDs,Low-Level Descriptors)。为了将不定长的低级描述符映射到大小固定的特征向量,会通过对整段语音或LLDs的所有帧做统计而得到的话语级别的动态特征,被称为高级统计功能(HSFs,High-level StaticFunctions)。本发明采用openSMILE提供的emoLarg语音情感特征集合计算音频的HSFs,共包含6552个特征。emoLarge特征集的LLDs中除voiceProb外还计算了其余LLDs的一阶和二阶差分作为动态特征。
为了遵循神经网络特征工程的一般规范,对提取到的6552个HSFs进行了进一步的筛选。计算了HSFs之间的皮尔逊相关系数,以0.7作为阈值删除原特征集合中共线性的特征对,使用最终剩下的590个HSFs作为实验中使用的HSFs语音特征,将其定义为人工语音特征。
本发明将基于神经网络的自学习能力对抑郁情绪在不同类型的语音特征的模式建模,利用预训练的神经网络模型提取语音的高级神经网络特征表示。为了解决部分语音特征时间步过长的问题,设计了自注意力机制对时序语音特征帧加权,重点学习与抑郁情绪高度相关的特征帧,降低模型的训练难度。最后使用特征融合方法对多个高级神经网络特征进行特征融合,特征融合可以将不同特征独有的信息进行相互补充,进一步提高预测的准确率。
进一步的,上包络线、语谱图、梅尔倒谱系数均为时序特征,时序特征的深度神经网络特征提取子模型采用CuDNNLSTM层作为神经网络的循环层,在循环层后增加注意力层对时间步的输出加权,最后通过全连接层对加权后的向量进行运算对标签进行预测;其中注意力层采用自注意力机制。
本实施例中使用的自注意力机制计算方法如下:
Step1:输入向量分别点乘三个可学习矩阵Q、K、V三个向量;
Step2:计算注意力的score;Score=Q·KT
Step3:对score进行归一化并计算Softmax激活函数得到加权权重;
Step4:加权权重对v向量加权,得到加权后的输出;
Context=Weight·V。
为了尽量捕获语音信号中与抑郁状态相关的全部模式,充分利用神经网络自学习的能力,在本实施例中将Attention包装成一个神经网络层,Q、K、V三个矩阵均由原始输入经过神经网络计算得到,其中方阵QKT作为原始输入序列的两两特征帧之间的投影,表示不同时间步之间语音特征的相关性。方阵QKT经过标准化后与原始输入序列的变体V相乘进行加权,最后得到加权的Attention层输出,Attention机制如图3所示,时序特征的深度神经网络特征提取子模型如图4所示。
LLDs语音特征为非结构特征向量,非结构特征向量的深度神经网络特征提取子模型通过全连接层堆叠来构建,如图5所示。
进一步的,在步骤三中,进行神经网络特征提取和拼接的具体过程为:前三个输入(上包络、频谱、梅尔倒谱系数)属于时序数据,在本实施例中使用2层LSTM层和4层全连接层组成的子模型进行训练。对于LLDs语音特征,属于非结构特征,使用4层全连接层组成的子模型进行训练。子模型训练完成后将四个子模型最后一个全连接层的输出作为对应每种类型输入提取到的神经网络特征。
进一步的,在步骤四中,进行神经网络特征的拼接,研究表明,综合多个输入提取到的特征对疗效进行预测和使用单一特征进行预测相比可以有效提高预测性能。如图6所示,预训练的深度神经网络特征提取子模型的最后一层隐藏层为16个单元的全连接层,对于每一个子模型都会输出一个1*16的向量。为了融合不同子模型提取到的信息,对不同模型计算的特征进行信息互补。将四个子模型的输出依次拼接,最后形成一个1*64的向量作为当前样本的深度神经网络特征。
拼接得到的神经网络特征也属于一种非结构的特征,因此预测模型的网络结构使用前文中LLDs特征对应的非结构数据子模型(如图5所示)作为疗效预测模型的网络架构。同时,根据输入数据大小和输出目标调整模型参数。将每层隐藏层的单元数设置为32个,将预测标签进行onehot编码,同时将输出端大小设置为2,使用softmax作为激活函数。
更进一步的,在本实施例中使用对抑郁症患者在治疗过程中采集的语音信号数据进行了效果验证。
使用录音笔每周对精神科住院病人的语音进行采集,语音信号使用录音笔在安静的病房中进行录制,医生要求患者朗读一段散文诗《生如夏花》。采集到的录音被转写为16kHz采样频率和16bit采样位数的wav格式的音频文件。分别使用滑动窗口算法,librosa工具、openSMILE工具对语音信号的上包络线、语谱图、梅尔倒谱系数和HSFs语音特征进行提取。HSFs语音特征量量计算了皮尔逊相关系数,删除了相关系数大于0.7的共线性特征对。四中模态的语音特征被分别输入到子模型中进行预训练,将各子模型最后一层隐藏层输出的向量拼接好后作为多模态语音特征输入到预测模型中对抑郁症患者的抑郁状态进行了预测。
实验使用的数据包含90名抑郁症患者的语音信号数据以及临床医生的评估结果。其中抑郁状态的测评音频数据包含男性12名,女性30名,年龄区间为12-22岁(12±5.61);非抑郁状态时的测评音频数据包含男性11名,女性37名,年龄区间为12-31岁(12±12.12)。
验证采用五折交叉验证,即将数据集平均分为五份,每次使用其中一份作为验证集,其余四份作为训练集。重复验证五次,保证每一份数据都被作为验证集验证。通过综合五次运行的结果,绘制混淆矩阵和ROC曲线对效果进行评估,模型预测准确率为63.33%,混淆矩阵如图8所示,ROC曲线如图7所示。
本发明实施例2提供一种基于语音特征的抑郁情绪评估预测***,如图9所示,包括依次连接的数据获取模块、第一特征提取模块、第二特征提取模块、特征拼接模块、抑郁情绪评估预测模块;其中,
数据获取模块,用于采集语音信号数据集;
第一特征提取模块,用于计算语音信号数据集的上包络线、语谱图、梅尔倒谱系数和LLDs语音特征作为语音信号特征;
第二特征提取模块,用于将语音信号特征分别输入到预训练好的深度神经网络特征提取子模型中提取语音信号特征对应的神经网络特征;
特征拼接模块,用于将每个子模型输出的神经网络特征拼接成一维向量作为多模态语音特征;
抑郁情绪评估预测模块,用于将多模态语音特征输入到训练好的评估预测模型中进行抑郁情绪评估预测。
进一步的,还包括与数据获取模块相连的数据预处理模块,数据预处理模块,用于将语音信号数据集进行降采样操作,以及采用双门限端点检测算法对信号进行端点检测来识别受试者音频信号的起点和终点,对信号进行裁剪。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (3)
1.一种基于语音特征的抑郁情绪评估预测方法,其特征在于,具体步骤包括如下:
步骤一:采集语音信号数据集;
步骤二:计算所述语音信号数据集的上包络线、语谱图、梅尔倒谱系数和LLDs语音特征作为语音信号特征;
所述梅尔倒谱系数的计算过程为:
S1、将所述语音信号数据集通过高通滤波器进行预加重,得到第一信号;
S2、将所述第一信号进行分帧操作,并且为了增加帧的连续性,将每一帧乘以汉明窗;
S3、将每一帧乘以汉明窗后,每帧还必须再经过快速傅里叶变换得到在频谱上的能量分布,即能量谱;
S4、将所述能量谱通过三角形滤波器组,计算通过所述三角形滤波器组的对数能量;
S5、在通过的对数能量的基础上,通过离散余弦变换获取频率谱的低频信息;
步骤三:将所述语音信号特征分别输入到预训练好的深度神经网络特征提取子模型中提取所述语音信号特征对应的神经网络特征;
进行神经网络特征提取和拼接的具体过程为:上包络、频谱、梅尔倒谱系数三个输入属于时序数据,使用2层LSTM层和4层全连接层组成的子模型进行训练;对于LLDs语音特征,属于非结构特征,使用4层全连接层组成的子模型进行训练;子模型训练完成后将四个子模型最后一个全连接层的输出作为对应每种类型输入提取到的神经网络特征;
步骤四:将每个子模型输出的所述神经网络特征拼接成一维向量作为多模态语音特征;
步骤五:将所述多模态语音特征输入到训练好的评估模型中进行抑郁情绪评估预测;
所述评估模型的训练过程为:
采集语音信号;
使用所述语音信号计算上包络线、语谱图、梅尔倒谱系数和LLDs语音特征作为语音信号特征;
利用所述语音信号特征预训练特征提取子模型,训练的标签为对应样本的HAMD-17抑郁量表总分;
预训练完成后,将所述特征提取子模型的全连接层输出拼接成一维向量作为样本的深度神经网络特征;
还包括对所述语音信号数据集进行预处理,所述预处理包括将所述语音信号数据集进行降采样操作,以及采用双门限端点检测算法对信号进行端点检测来识别受试者音频信号的起点和终点,对信号进行裁剪;
使用滑动窗口计算所述语音信号数据集的上包络线;
通过librosa工具包计算所述语谱图,具体为:将所述语音信号进行连续的频谱分析,得到二维图谱,横坐标表示时间,纵坐标表示频率,每个像素的灰度大小反应响应时刻和频率的能量;其中,所述频谱分析为在每个时刻用附近的短时段语音信号分析得到频谱;其中,能量功率谱通过如下式计算:
其中,X(n,w)表示在时域以n点为中心的一帧信号的傅里叶变换在w处的大小,通过公式计算得到:
w[n]是一个长度为2N+1的窗函数,一般使用汉明窗作为窗函数;
通过openSMILE提供的emoLarg语音情感特征集合计算音频的HSFs,并计算HSFs的皮尔逊相关系数,通过预设阈值删除原特征集合中共线性的特征对;
所述深度神经网络特征作为输入用于训练所述评估模型;所述上包络线、所述语谱图、所述梅尔倒谱系数均为时序特征,所述时序特征的深度神经网络特征提取子模型采用CuDNNLSTM层作为神经网络的循环层,在所述循环层后增加注意力层对时间步的输出加权,最后通过全连接层对加权后的向量进行运算对标签进行预测;其中注意力层采用自注意力机制。
2.一种实现如权利要求1所述的基于语音特征的抑郁情绪评估预测方法的***,其特征在于,包括依次连接的数据获取模块、第一特征提取模块、第二特征提取模块、特征拼接模块、抑郁情绪评估预测模块;
其中,所述数据获取模块,用于采集语音信号数据集;
所述第一特征提取模块,用于计算所述语音信号数据集的上包络线、语谱图、梅尔倒谱系数和LLDs语音特征作为语音信号特征;
所述第二特征提取模块,用于将所述语音信号特征分别输入到预训练好的深度神经网络特征提取;
所述特征拼接模块,用于将每个子模型输出的所述神经网络特征拼接成一维向量作为多模态语音特征;
所述抑郁情绪评估预测模块,用于将所述多模态语音特征输入到训练好的评估预测模型中进行抑郁情绪评估预测。
3.根据权利要求2所述的一种基于语音特征的抑郁情绪评估预测***,其特征在于,还包括与所述数据获取模块相连的数据预处理模块,所述数据预处理模块,用于将所述语音信号数据集进行降采样操作,以及采用双门限端点检测算法对信号进行端点检测来识别受试者音频信号的起点和终点,对信号进行裁剪。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210974876.0A CN115346561B (zh) | 2022-08-15 | 2022-08-15 | 基于语音特征的抑郁情绪评估预测方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210974876.0A CN115346561B (zh) | 2022-08-15 | 2022-08-15 | 基于语音特征的抑郁情绪评估预测方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115346561A CN115346561A (zh) | 2022-11-15 |
CN115346561B true CN115346561B (zh) | 2023-11-24 |
Family
ID=83951178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210974876.0A Active CN115346561B (zh) | 2022-08-15 | 2022-08-15 | 基于语音特征的抑郁情绪评估预测方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115346561B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115482837B (zh) * | 2022-07-25 | 2023-04-28 | 科睿纳(河北)医疗科技有限公司 | 一种基于人工智能的情绪分类方法 |
CN116978409A (zh) * | 2023-09-22 | 2023-10-31 | 苏州复变医疗科技有限公司 | 基于语音信号的抑郁状态评估方法、装置、终端及介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960269A (zh) * | 2018-04-02 | 2018-12-07 | 阿里巴巴集团控股有限公司 | 数据集的特征获取方法、装置及计算设备 |
CN109241669A (zh) * | 2018-10-08 | 2019-01-18 | 成都四方伟业软件股份有限公司 | 一种自动建模方法、装置及其存储介质 |
CN111798874A (zh) * | 2020-06-24 | 2020-10-20 | 西北师范大学 | 一种语音情绪识别方法及*** |
CN111951824A (zh) * | 2020-08-14 | 2020-11-17 | 苏州国岭技研智能科技有限公司 | 一种基于声音判别抑郁症的检测方法 |
CN112002348A (zh) * | 2020-09-07 | 2020-11-27 | 复旦大学 | 一种患者语音愤怒情绪识别方法和*** |
CN112351443A (zh) * | 2019-08-08 | 2021-02-09 | 华为技术有限公司 | 通信方法及装置 |
CN112818892A (zh) * | 2021-02-10 | 2021-05-18 | 杭州医典智能科技有限公司 | 基于时间卷积神经网络的多模态抑郁症检测方法及*** |
WO2021104099A1 (zh) * | 2019-11-29 | 2021-06-03 | 中国科学院深圳先进技术研究院 | 一种基于情景感知的多模态抑郁症检测方法和*** |
CN113012720A (zh) * | 2021-02-10 | 2021-06-22 | 杭州医典智能科技有限公司 | 谱减法降噪下多语音特征融合的抑郁症检测方法 |
-
2022
- 2022-08-15 CN CN202210974876.0A patent/CN115346561B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960269A (zh) * | 2018-04-02 | 2018-12-07 | 阿里巴巴集团控股有限公司 | 数据集的特征获取方法、装置及计算设备 |
CN109241669A (zh) * | 2018-10-08 | 2019-01-18 | 成都四方伟业软件股份有限公司 | 一种自动建模方法、装置及其存储介质 |
CN112351443A (zh) * | 2019-08-08 | 2021-02-09 | 华为技术有限公司 | 通信方法及装置 |
WO2021104099A1 (zh) * | 2019-11-29 | 2021-06-03 | 中国科学院深圳先进技术研究院 | 一种基于情景感知的多模态抑郁症检测方法和*** |
CN111798874A (zh) * | 2020-06-24 | 2020-10-20 | 西北师范大学 | 一种语音情绪识别方法及*** |
CN111951824A (zh) * | 2020-08-14 | 2020-11-17 | 苏州国岭技研智能科技有限公司 | 一种基于声音判别抑郁症的检测方法 |
CN112002348A (zh) * | 2020-09-07 | 2020-11-27 | 复旦大学 | 一种患者语音愤怒情绪识别方法和*** |
CN112818892A (zh) * | 2021-02-10 | 2021-05-18 | 杭州医典智能科技有限公司 | 基于时间卷积神经网络的多模态抑郁症检测方法及*** |
CN113012720A (zh) * | 2021-02-10 | 2021-06-22 | 杭州医典智能科技有限公司 | 谱减法降噪下多语音特征融合的抑郁症检测方法 |
Non-Patent Citations (2)
Title |
---|
听视觉抑郁症识别方法研究.中国博士学位论文电子期刊.2022,全文. * |
李伟.音频音乐与计算机交融-音频音乐技术.复旦大学出版社,2020,232-233. * |
Also Published As
Publication number | Publication date |
---|---|
CN115346561A (zh) | 2022-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115346561B (zh) | 基于语音特征的抑郁情绪评估预测方法及*** | |
CN101023469B (zh) | 数字滤波方法和装置 | |
CN109044396B (zh) | 一种基于双向长短时记忆神经网络的智能心音识别方法 | |
CN111798874A (zh) | 一种语音情绪识别方法及*** | |
CN112006697B (zh) | 一种基于语音信号的梯度提升决策树抑郁程度识别*** | |
CN108896878A (zh) | 一种基于超声波的局部放电检测方法 | |
Mittal et al. | Analysis of production characteristics of laughter | |
CN108305639B (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
CN113012720B (zh) | 谱减法降噪下多语音特征融合的抑郁症检测方法 | |
CN108682432B (zh) | 语音情感识别装置 | |
CN105448291A (zh) | 基于语音的帕金森症检测方法及检测*** | |
CN111951824A (zh) | 一种基于声音判别抑郁症的检测方法 | |
CN112820279A (zh) | 基于语音上下文动态特征的帕金森病检测方法 | |
CN113539294A (zh) | 一种生猪异常状态声音采集及识别方法 | |
CN109272986A (zh) | 一种基于人工神经网络的狗声音情感分类方法 | |
CN110415824B (zh) | 脑卒中风的患病风险评估装置和设备 | |
WO2023139559A1 (en) | Multi-modal systems and methods for voice-based mental health assessment with emotion stimulation | |
CN113974607B (zh) | 一种基于脉冲神经网络的睡眠鼾声检测*** | |
CN114842878A (zh) | 一种基于神经网络的语音情感识别方法 | |
CN114255783A (zh) | 声音分类模型的构建方法、声音分类方法和*** | |
CN115910097A (zh) | 一种高压断路器潜伏性故障可听声信号识别方法及*** | |
Kaminski et al. | Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models | |
CN114403878A (zh) | 一种基于深度学习的语音检测疲劳度方法 | |
CN114299925A (zh) | 一种基于语音对帕金森病患者吞咽困难症状重要性度量指标的获取方法和*** | |
Manjutha et al. | An optimized cepstral feature selection method for dysfluencies classification using Tamil speech dataset |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: No.264, Guangzhou road, Nanjing, Jiangsu 210029 Applicant after: NANJING MEDICAL UNIVERSITY AFFILIATED BRAIN Hospital Address before: No.264, Guangzhou road, Nanjing, Jiangsu 210029 Applicant before: NANJING BRAIN Hospital |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |