CN113111151A - 一种基于智能语音问答的跨模态抑郁症检测方法 - Google Patents

一种基于智能语音问答的跨模态抑郁症检测方法 Download PDF

Info

Publication number
CN113111151A
CN113111151A CN202110408462.7A CN202110408462A CN113111151A CN 113111151 A CN113111151 A CN 113111151A CN 202110408462 A CN202110408462 A CN 202110408462A CN 113111151 A CN113111151 A CN 113111151A
Authority
CN
China
Prior art keywords
audio
text
representation
modal
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110408462.7A
Other languages
English (en)
Inventor
武楚涵
张艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing xinnuanzhou Technology Co.,Ltd.
Original Assignee
Beijing Aiyi Warm Boat Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Aiyi Warm Boat Technology Co ltd filed Critical Beijing Aiyi Warm Boat Technology Co ltd
Priority to CN202110408462.7A priority Critical patent/CN113111151A/zh
Publication of CN113111151A publication Critical patent/CN113111151A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/70ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mental therapies, e.g. psychological therapy or autogenous training

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Developmental Disabilities (AREA)
  • Psychiatry (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Child & Adolescent Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Hospice & Palliative Care (AREA)
  • Acoustics & Sound (AREA)
  • Psychology (AREA)
  • Social Psychology (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于智能语音问答的跨模态抑郁症检测方法,涉及心理学、语音处理和自然语言处理技术领域,该方法首先对用户回答的语音进行预处理和语音识别,得到预处理好的回答音频和回答问题的文本,对语音抽取音频局部和全局特征,建模音频语调和韵律特性,对音频特征应用卷积神经网络,得到用户回答的音频的上下文表示,对于文本应用语言模型,获取回答文本的上下文表示,对音频和文本表示进行音频到文本跨模态交互建模,获得跨模态音频和文本表示,对跨模态音频和文本表示进行池化得到用户的表示,对用户表示解码获取抑郁症检测分类概率。本发明,有效地提升了抑郁症检测的性能,可以很好地帮助用户进行抑郁症的早期筛查。

Description

一种基于智能语音问答的跨模态抑郁症检测方法
技术领域
本发明涉及心理学、语音处理和自然语言处理技术领域,尤其涉及一种基于智能语音问答的跨模态抑郁症检测方法。
背景技术
根据世界卫生组织的数据表明,全球约有3.5亿抑郁患者,我国的抑郁患者高达9500万人,当前抑郁症已经成为世界第二大疾病,抑郁症对社会的危害性巨大,每年给我国造成的经济损失高达78亿美元。抑郁症的及时治疗对于康复十分重要,而抑郁症的检测是治愈抑郁症的第一步。
现有的抑郁症检测方法主要包括基于问卷量表的方法、基于社交媒体的方法以及基于眼动仪或者脑成像等设备的检测方法,例如,Kohrt等人探究了基于PHQ-9抑郁症诊断标准的问卷量表对于检测抑郁症的效果;Islam等人从用户在社交媒体上发表的文本提取了词典特征,并使用决策树模型进行抑郁症检测;Ay等人提出使用长短期记忆网络(LSTM)和卷积神经网络(CNN)来处理脑电波数据,用于抑郁症检测。然而,基于问卷量表的抑郁症检测方法往往存在反馈信息较少,结果不够客观准确的问题。基于社交媒体的抑郁症检测方法要求用户在社交媒体上需要有足够的发布内容和行为,无法处理新用户和行为稀疏的用户。基于眼动仪和脑电波的方法设备成本高昂,导致检测成本较高。同时,这些方法涉及的模态较为单一,抑郁症检测的准确率不够令人满意。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种基于智能语音问答的跨模态抑郁症检测方法。
为了实现上述目的,本发明采用了如下技术方案:一种基于智能语音问答的跨模态抑郁症检测方法,包括以下步骤:
先让用户对语音问题进行语音答复或文本式答复,再对用户回答的语音进行预处理和语音识别,得到预处理好的回答音频和回答问题的文本,在对回答音频和回答问题文本进行整合;
对步骤1)中音频语调和韵律特性进行建模,对音频语调和韵律中含有的独特语调和韵律进行单独整合。
对整合好的音频特征应用到卷积神经网络,得到用户回答音频的上下文表示;
对步骤1)语音识别完毕的回答文本应用语言模型,获取回答文本的上下文表示;
对音频和文本的表示进行跨模态处理,获得跨模态音频和文本表示;
对跨模态音频和文本表示进行池化得到用户的表示;
基于用户的表示进行解码,得到预测的抑郁检测分类概率分数,并利用softmax函数对分类概率归一化;
根据标签得到抑郁检测分类损失函数,得到最终的抑郁检测结果。
优选的,对于步骤1)将预处理完毕的音频抽取音频的局部和全局特征,并对局部音频和全局音频进行分类整合,再导入步骤2)。
优选的,对于步骤5)将音频表示和文本表示进行音频到文本跨模态交互建模再导入步骤6)。
优选的,对于步骤8)对抑郁检测的损失函数进行优化,再得到最终抑郁症检测结果。
与现有技术相比,本发明的优点和积极效果在于,从每帧中提取诸如音调和能量之类的局部特征,和从一句话中提取的所有语音特征的统计结果的全局特征。
正常人与抑郁症患者在语音特性上有明显区别。正常人说话时,情感较为丰富,音调也随着情绪变化起伏,听起来抑扬顿挫的感觉清晰而明显;抑郁症患者说话时,情感比较平淡,以负面情绪居多,语气听起来模糊而平淡,体现出患者的无力感与虚无感。这些语言行为可通过多种语音特征表示,如韵律特征、频谱特征、声音质量特征。
本发明实施中提取的局部特征包括帧长、响度、能量、过零率等韵律特征,基频、LPC、LSP、MFCC等频谱特征,频率微扰、振幅微扰、共振峰及其频带等声音质量特征。其中,短时特征以帧长20ms,帧移10ms对音频信号分帧,再通过汉明窗,接着通过FFT变换得到频域值,然后通过自相关函数(ACF)得到基音周期等30维短时特征。由于每个人针对每个问题的回答时长不同,因此每句话的帧数不同,所有话的帧数在300帧到1400帧之间。MFCC的提取是将音频文件分帧后,对语音高频部分进行预加重,增加语音的高频分辨率,再依次进行加窗、FFT变换和梅尔倒谱分析,即可得到13个梅尔倒谱系数。LPC的提取需要经过线性预测编码得到,同时从每帧中提取出LSP。对短时特征MFCC、LPC和LSP进行平滑处理和一阶导数运算,得到29个短时Delta特征。对MFCC进行二次求导运算,得到13个短时特征。因此,关于MFCC、LPC和LSP,共有71维短时特征。从音频模态,共提取了101维短时特征。
将提取出的局部特征值经过7个统计函数可得到全局特征,即通过最大值函数、最小值函数、平均值函数、峰度函数、偏度函数、中位数函数、标准差函数。此时,可从每个音频文件中提取出707维全局特征。
在本发明的一个实施例中,步骤3)包括:使用一个二维多层卷积神经网络,学习音频特征的隐含表示。
具体而言,如图2所示,在这一步骤中,一个二维多层的卷积神经网络(CNN)用于从原始语音特征中提取抽象的隐含语音规律。该CNN的架构从下而上,包括2层具有16个3*3的卷积核,每个卷积核步长为1的卷积层;2个具有3*3区域的最大池化层;2个批归一化层。最终输出的隐含表示矩阵记为
Figure BDA0003023224520000041
其中N是CNN特征矩阵的向量个数。
具体而言,如图2所示,在这一步骤中,本发明的一个实施例使用一个预训练的语言模型BERT将用于从原始文本中学习隐含的文本表示,输出一个隐含文本表示矩阵,记为
Figure BDA0003023224520000042
其中M是问题文本的个数。
具体而言,如图2所示,在这一步骤中,本发明的一个实施例使用一个音频-文本跨模态注意力网络,对音频特征和文本特征的关联进行建模。首先,音频特征作为输入的查询,文本特征作为键和值,输出基于音频增强的文本表示。在每一个注意力头中,输出的表示
Figure BDA0003023224520000043
计算方法如下:
Figure BDA0003023224520000044
其中
Figure BDA0003023224520000045
为模型参数,d为输入向量的维度。最终输出的基于音频增强的文本表示是多个注意力头输出表示的拼接,即
Figure BDA0003023224520000046
其中T是注意力头数。接下来,文本特征作为输入的查询,音频特征作为键和值,输出基于文本增强的音频表示。在每一个注意力头中,输出的表示
Figure BDA0003023224520000047
计算方法如下:
Figure BDA0003023224520000048
其中
Figure BDA0003023224520000049
为模型参数。最终输出的基于文本增强的音频表示是多个注意力头输出表示的拼接,即
Figure BDA00030232245200000410
进一步地,在本发明的一个实施例中,步骤6)包括:对音频表示进行池化,对文本表示进行池化,对模态表示进行池化。
具体而言,如图2所示,在这一步骤中,本发明实施例首先使用一个注意力网络对音频模态进行池化,得到音频模态表示ra,其计算公式如下:
ra=Rasoftmax(Raqa),
其中qa是可学习参数。接下来,本发明实施例使用另一个注意力网络对文本模态进行池化,得到文本模态表示rt,其计算公式如下:
rt=Rtsoftmax(Rtqt),
其中qt是可学习参数。最后,本发明实施例使用一个门控函数池化模态表示,得到最终的用户表示r,其计算公式如下:
α=σ(wT[ra;rt]+b),
r=αra+(1-α)rt
其中w是参数。
具体而言,如图2所示,在这一步骤中,分类的概率计算如下:
Figure BDA0003023224520000051
其中W和b是参数。
具体而言,如图2所示,在这一步骤中,损失函数计算为:
Figure BDA0003023224520000052
其中yi
Figure BDA0003023224520000053
分别为第i类的真实标签和预测概率,K为类别数。本发明实施例通过Adam优化器对损失函数
Figure BDA0003023224520000054
来进行优化训练的模型。在预测阶段,选择
Figure BDA0003023224520000055
最高的对应类别作为抑郁症检测的结果。
附图说明
图1为本发明提出一种基于智能语音问答的跨模态抑郁症检测方法的整体流程图;
图2为本发明提出一种基于智能语音问答的跨模态抑郁症检测方法的工作原理图;
图3为本发明提出一种基于智能语音问答的跨模态抑郁症检测方法图2的部分翻译示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和实施例对本发明做进一步说明。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开说明书的具体实施例的限制。
实施例1,如图1-2所示,本发明提供了一种基于智能语音问答的跨模态抑郁症检测方法,
1)用户通过语音作答与兴趣、情绪、***倾向等抑郁症相关的18个问题。对用户回答的语音进行预处理包括编码和降噪和语音识别,得到预处理好的回答音频和回答问题的文本;
2)对步骤1)预处理完毕的音频抽取音频局部和全局特征,建模音频语调和韵律特性;
进一步地,在本发明的一个实施例中,步骤2)包括:从每帧中提取诸如音调和能量之类的局部特征,和从一句话中提取的所有语音特征的统计结果的全局特征。
正常人与抑郁症患者在语音特性上有明显区别。正常人说话时,情感较为丰富,音调也随着情绪变化起伏,听起来抑扬顿挫的感觉清晰而明显;抑郁症患者说话时,情感比较平淡,以负面情绪居多,语气听起来模糊而平淡,体现出患者的无力感与虚无感。这些语言行为可通过多种语音特征表示,如韵律特征、频谱特征、声音质量特征。
本发明实施中提取的局部特征包括帧长、响度、能量、过零率等韵律特征,基频、LPC、LSP、MFCC等频谱特征,频率微扰、振幅微扰、共振峰及其频带等声音质量特征。其中,短时特征以帧长20ms,帧移10ms对音频信号分帧,再通过汉明窗,接着通过FFT变换得到频域值,然后通过自相关函数(ACF)得到基音周期等30维短时特征。由于每个人针对每个问题的回答时长不同,因此每句话的帧数不同,所有话的帧数在300帧到1400帧之间。MFCC的提取是将音频文件分帧后,对语音高频部分进行预加重,增加语音的高频分辨率,再依次进行加窗、FFT变换和梅尔倒谱分析,即可得到13个梅尔倒谱系数。LPC的提取需要经过线性预测编码得到,同时从每帧中提取出LSP。对短时特征MFCC、LPC和LSP进行平滑处理和一阶导数运算,得到29个短时Delta特征。对MFCC进行二次求导运算,得到13个短时特征。因此,关于MFCC、LPC和LSP,共有71维短时特征。从音频模态,共提取了101维短时特征。
将提取出的局部特征值经过7个统计函数可得到全局特征,即通过最大值函数、最小值函数、平均值函数、峰度函数、偏度函数、中位数函数、标准差函数。此时,可从每个音频文件中提取出707维全局特征。
3)对音频特征应用卷积神经网络,得到用户回答的音频的上下文表示;
进一步地,在本发明的一个实施例中,步骤3)包括:使用一个二维多层卷积神经网络,学习音频特征的隐含表示。
具体而言,如图2所示,在这一步骤中,一个二维多层的卷积神经网络(CNN)用于从原始语音特征中提取抽象的隐含语音规律。该CNN的架构从下而上,包括2层具有16个3*3的卷积核,每个卷积核步长为1的卷积层;2个具有3*3区域的最大池化层;2个批归一化层。最终输出的隐含表示矩阵记为
Figure BDA0003023224520000081
其中N是CNN特征矩阵的向量个数。
4)对步骤1)语音识别完毕的回答文本应用语言模型,获取回答文本的上下文表示;
具体而言,如图2所示,在这一步骤中,本发明的一个实施例使用一个预训练的语言模型BERT将用于从原始文本中学习隐含的文本表示,输出一个隐含文本表示矩阵,记为
Figure BDA0003023224520000082
其中M是问题文本的个数。
5)对音频和文本表示进行音频-文本跨模态交互建模,获得跨模态音频和文本表示;
具体而言,如图2所示,在这一步骤中,本发明的一个实施例使用一个音频-文本跨模态注意力网络,对音频特征和文本特征的关联进行建模。首先,音频特征作为输入的查询,文本特征作为键和值,输出基于音频增强的文本表示。在每一个注意力头中,输出的表示
Figure BDA0003023224520000083
计算方法如下:
Figure BDA0003023224520000084
其中
Figure BDA0003023224520000085
为模型参数,d为输入向量的维度。最终输出的基于音频增强的文本表示是多个注意力头输出表示的拼接,即
Figure BDA0003023224520000086
其中T是注意力头数。接下来,文本特征作为输入的查询,音频特征作为键和值,输出基于文本增强的音频表示。在每一个注意力头中,输出的表示
Figure BDA0003023224520000087
计算方法如下:
Figure BDA0003023224520000088
其中
Figure BDA0003023224520000089
为模型参数。最终输出的基于文本增强的音频表示是多个注意力头输出表示的拼接,即
Figure BDA00030232245200000810
6)对跨模态音频和文本表示进行池化得到用户的表示;
进一步地,在本发明的一个实施例中,步骤6)包括:对音频表示进行池化,对文本表示进行池化,对模态表示进行池化。
具体而言,如图2所示,在这一步骤中,本发明实施例首先使用一个注意力网络对音频模态进行池化,得到音频模态表示ra,其计算公式如下:
ra=Rasoftmax(Raqa),
其中qa是可学习参数。接下来,本发明实施例使用另一个注意力网络对文本模态进行池化,得到文本模态表示rt,其计算公式如下:
rt=Rtsoftmax(Rtqt),
其中qt是可学习参数。最后,本发明实施例使用一个门控函数池化模态表示,得到最终的用户表示r,其计算公式如下:
α=σ(wT[ra;rt]+b),
r=αra+(1-a)rt
其中w是参数。
7)基于用户的表示进行解码,得到预测的抑郁检测分类概率分数,并利用softmax函数对分类概率归一化;
具体而言,如图2所示,在这一步骤中,分类的概率计算如下:
Figure BDA0003023224520000091
其中W和b是参数。
8)根据标签得到抑郁检测分类损失函数,对抑郁检测的损失函数进行优化,得到最终的抑郁检测结果。
具体而言,如图2所示,在这一步骤中,损失函数计算为:
Figure BDA0003023224520000101
其中yi
Figure BDA0003023224520000102
分别为第i类的真实标签和预测概率,K为类别数。本发明实施例通过Adam优化器对损失函数
Figure BDA0003023224520000103
来进行优化训练的模型。在预测阶段,选择
Figure BDA0003023224520000104
最高的对应类别作为抑郁症检测的结果。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域,但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (4)

1.一种基于智能语音问答的跨模态抑郁症检测方法,其特征在于:包括以下步骤:
1)先让用户对语音问题进行语音答复或文本式答复,再对用户回答的语音进行预处理和语音识别,得到预处理好的回答音频和回答问题的文本,在对回答音频和回答问题文本进行整合;
2)对步骤1)中音频语调和韵律特性进行建模,对音频语调和韵律中含有的独特语调和韵律进行单独整合。
3)对整合好的音频特征应用到卷积神经网络,得到用户回答音频的上下文表示;
4)对步骤1)语音识别完毕的回答文本应用语言模型,获取回答文本的上下文表示;
5)对音频和文本的表示进行跨模态处理,获得跨模态音频和文本表示;
6)对跨模态音频和文本表示进行池化得到用户的表示;
7)基于用户的表示进行解码,得到预测的抑郁检测分类概率分数,并利用softmax函数对分类概率归一化;
8)根据标签得到抑郁检测分类损失函数,得到最终的抑郁检测结果。
2.根据权利要求1所述的一种基于智能语音问答的跨模态抑郁症检测方法,其特征在于:对于步骤1)将预处理完毕的音频抽取音频的局部和全局特征,并对局部音频和全局音频进行分类整合,再导入步骤2)。
3.根据权利要求1所述的一种基于智能语音问答的跨模态抑郁症检测方法,其特征在于:对于步骤5)将音频表示和文本表示进行音频到文本跨模态交互建模再导入步骤6)。
4.根据权利要求1所述的一种基于智能语音问答的跨模态抑郁症检测方法,其特征在于:对于步骤8)对抑郁检测的损失函数进行优化,再得到最终抑郁症检测结果。
CN202110408462.7A 2021-04-16 2021-04-16 一种基于智能语音问答的跨模态抑郁症检测方法 Pending CN113111151A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110408462.7A CN113111151A (zh) 2021-04-16 2021-04-16 一种基于智能语音问答的跨模态抑郁症检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110408462.7A CN113111151A (zh) 2021-04-16 2021-04-16 一种基于智能语音问答的跨模态抑郁症检测方法

Publications (1)

Publication Number Publication Date
CN113111151A true CN113111151A (zh) 2021-07-13

Family

ID=76717560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110408462.7A Pending CN113111151A (zh) 2021-04-16 2021-04-16 一种基于智能语音问答的跨模态抑郁症检测方法

Country Status (1)

Country Link
CN (1) CN113111151A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114496221A (zh) * 2022-01-17 2022-05-13 天津大学 基于闭环语音链和深度学习的抑郁症自动诊断***
CN115831352A (zh) * 2022-12-05 2023-03-21 湖南工商大学 一种基于动态纹理特征和时间分片权重网络的检测方法
CN116978409A (zh) * 2023-09-22 2023-10-31 苏州复变医疗科技有限公司 基于语音信号的抑郁状态评估方法、装置、终端及介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114496221A (zh) * 2022-01-17 2022-05-13 天津大学 基于闭环语音链和深度学习的抑郁症自动诊断***
CN114496221B (zh) * 2022-01-17 2024-05-14 天津大学 基于闭环语音链和深度学习的抑郁症自动诊断***
CN115831352A (zh) * 2022-12-05 2023-03-21 湖南工商大学 一种基于动态纹理特征和时间分片权重网络的检测方法
CN115831352B (zh) * 2022-12-05 2023-08-08 湖南工商大学 一种基于动态纹理特征和时间分片权重网络的检测方法
CN116978409A (zh) * 2023-09-22 2023-10-31 苏州复变医疗科技有限公司 基于语音信号的抑郁状态评估方法、装置、终端及介质

Similar Documents

Publication Publication Date Title
Venkataramanan et al. Emotion recognition from speech
CN110400579B (zh) 基于方向自注意力机制和双向长短时网络的语音情感识别
Gómez-García et al. On the design of automatic voice condition analysis systems. Part I: Review of concepts and an insight to the state of the art
CN112006697B (zh) 一种基于语音信号的梯度提升决策树抑郁程度识别***
CN113111151A (zh) 一种基于智能语音问答的跨模态抑郁症检测方法
CN109727608B (zh) 一种基于中文语音的病态嗓音评估***
CN115641543B (zh) 一种多模态抑郁情绪识别方法及装置
CN113012720B (zh) 谱减法降噪下多语音特征融合的抑郁症检测方法
Levitan et al. Combining Acoustic-Prosodic, Lexical, and Phonotactic Features for Automatic Deception Detection.
CN112735404A (zh) 一种语音反讽检测方法、***、终端设备和存储介质
Joshy et al. Dysarthria severity classification using multi-head attention and multi-task learning
Kandali et al. Vocal emotion recognition in five native languages of Assam using new wavelet features
CN117672268A (zh) 基于相对熵对齐融合的多模态语音情感识别方法
CN114898779A (zh) 融合多模态的语音情感识别方法及***
CN111326170A (zh) 联合时频域扩张卷积的耳语音向正常音转换方法及其装置
Liu et al. AI recognition method of pronunciation errors in oral English speech with the help of big data for personalized learning
Usman On the performance degradation of speaker recognition system due to variation in speech characteristics caused by physiological changes
Kaur et al. Impact of feature extraction and feature selection algorithms on Punjabi speech emotion recognition using convolutional neural network
Jin RETRACTED ARTICLE: Research on pronunciation accuracy detection of English Chinese consecutive interpretation in English intelligent speech translation terminal
CN116013371A (zh) 一种神经退行性疾病监测方法、***、装置及存储介质
Zhou et al. Hierarchical multifeature fusion via audio-response-level modeling for depression detection
Kurian et al. Connected digit speech recognition system for Malayalam language
Yousfi et al. Isolated Iqlab checking rules based on speech recognition system
Williams Learning disentangled speech representations
Qasim et al. DESCU: Dyadic emotional speech corpus and recognition system for Urdu language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20211019

Address after: 400050 floor 3, No. 6-8, Xiyuan North Street, Xiyong street, high tech Zone, Shapingba District, Chongqing

Applicant after: Chongqing xinnuanzhou Technology Co.,Ltd.

Address before: 100084 no.cb102-090, ground floor, building 8, yard 1, Zhongguancun East Road, Haidian District, Beijing

Applicant before: Beijing Aiyi warm boat Technology Co.,Ltd.

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210713