CN109431521A - 一种基于音视频信息的多模态双相抑郁障碍自动检测方法 - Google Patents

一种基于音视频信息的多模态双相抑郁障碍自动检测方法 Download PDF

Info

Publication number
CN109431521A
CN109431521A CN201811190958.6A CN201811190958A CN109431521A CN 109431521 A CN109431521 A CN 109431521A CN 201811190958 A CN201811190958 A CN 201811190958A CN 109431521 A CN109431521 A CN 109431521A
Authority
CN
China
Prior art keywords
audio
patient
feature
bipolar depression
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811190958.6A
Other languages
English (en)
Inventor
杨乐
李岩
陈海丰
蒋冬梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201811190958.6A priority Critical patent/CN109431521A/zh
Publication of CN109431521A publication Critical patent/CN109431521A/zh
Pending legal-status Critical Current

Links

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • A61B5/1113Local tracking of patients, e.g. in a hospital or private home
    • A61B5/1114Tracking parts of the body
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Animal Behavior & Ethology (AREA)
  • Public Health (AREA)
  • Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Veterinary Medicine (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Psychiatry (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Child & Adolescent Psychology (AREA)
  • Developmental Disabilities (AREA)
  • Educational Technology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychology (AREA)
  • Social Psychology (AREA)
  • Physiology (AREA)
  • Dentistry (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于音频、视频的多模态双相情感障碍检测方法。此方法分为两步进行:音、视频单模态双相抑郁障碍检测和将音视频融合的多模态双相抑郁障碍检测。在单模态双相抑郁障碍检测阶段,采用音频和视频两种信息流分别对患者双相抑郁症的程度进行初步判断,之后在多模态检测阶段,将前面得到的音、视频的单模态检测结果相结合,进行最终的多模态双相抑郁症程度分类。这种方法在公开的双相抑郁症数据库上已经取得了很好的效果,且整个***复杂度低,只需将采集到的患者音视频信息输入到训练好的模型中即可得到患者的双相抑郁症程度,是一种无创性检测方法,因此该方法具有可推广性。

Description

一种基于音视频信息的多模态双相抑郁障碍自动检测方法
技术领域
本发明采用长短时记忆神经网络(LSTM-RNN)、深度神经网络(DNN)以及随机森林(Random Forest)模型,涉及一种从听觉、视觉信息中对双相抑郁症进行分类的方法。
背景技术
据统计,目前世界上约有3亿人患有抑郁症,每年导致大约80万人死亡,而到 2020年,抑郁症将成为首要的医疗和社会负担。目前临床上对抑郁症的筛查、诊断,以及治疗效果的评价,一般采用哈密尔顿抑郁评估量表(HAMD)和自报告问卷(如白氏抑郁症量表BDI),判断的准确度一方面依赖于病人是否诚实回答了相关问题,另一方面严重依赖于医生的经验和主观判断。在当前抑郁症门诊量激增的情况下,医生问诊时间短,压力大,误诊率高。
作为一种全球性疾病,抑郁症是造成精神疾病主要因素之一,更严重者甚至可导致患者***。抑郁症属于情感性精神障碍,分为单相情感障碍(单相抑郁症)和双相情感障碍(双相抑郁症或者躁狂症)。单相情感障碍患者的主要表现为重复抑郁的状态,长期处于心境低落,沮丧等情绪状态;而双相情感障碍是躁狂(或轻躁狂)与抑郁间歇交替或循环发作的常见心境障碍。被诊断为双相障碍的大多数患者处于抑郁期的时间比处于躁狂期的时间要长,而且抑郁期患者比躁狂期患者更难治疗。因此正确的早期鉴别至关重要。但是目前临床上对这种抑郁障碍的鉴别主要靠主观判断,严重依赖于医生的临床经验,迫切需要无创性检查技术和客观指标进行精准的诊断和鉴别。
人工智能领域已经借助机器学习方法,从音频、视频出发建立了多种多样的抑郁症检测***,来帮助心理学家和医护人员进行临床抑郁症的检测预防和治疗。在过去的几年中,通过音视频信息来进行抑郁症的检测已经取得了许多重要的成果。
目前,双相抑郁症患者的程度判定在医学界已经取得了一定的成果,然而由于抑郁症的复杂性以及个体的差异性,抑郁症的研究仍然面临以下挑战:
1)主观依赖性太强。目前临床上对抑郁症的筛查、诊断,以及治疗效果的评价,一般采用哈密尔顿抑郁评估量表(HAMD)和自报告问卷(如白氏抑郁症量表 BDI),判断的准确度一方面依赖于病人是否诚实回答了相关问题,另一方面严重依赖于医生的经验和主观判断。在当前抑郁症门诊量激增的情况下,医生问诊时间短,压力大,误诊率高。
2)从机器学习和人工智能角度出发,目前学者们对抑郁症的研究相对独立,忽略了抑郁症作为一种特殊的情绪状态,可以将情绪方面的研究同抑郁症的研究结合起来。这种将情感模型用于抑郁症方面的工作目前几乎没有,导致大量有用的信息未被挖掘。
综上所述,现有的双相抑郁障碍的检测方法易受医生主观经验影响,缺少客观评判依据,而且抑郁症的研究相对独立,未与心理学中的情感研究结合起来,导致大量信息未被全面研究,容易造成抑郁症研究精确度低,抑郁症检测分类正确率低。
发明内容
要解决的技术问题
为了避免现有技术的不足之处,本发明提出一种基于音视频信息的多模态双相抑郁障碍自动检测方法。
技术方案
一种基于音视频信息的多模态双相抑郁障碍自动检测方法,其特征在于步骤如下:
步骤1:利用情感维度数据库Recola训练长短时记忆神经网络:提取Recola数据库的音频特征,将其结合数据库标注一同输入LSTM-RNN模型中,进行该模型的训练; LSTM-RNN属于一种时间序列模型,通过循环结构可将前一层的输出作为下一层的输入:
式(1)中,h代表网络隐层向量,当n=0时,代表输入的初级音视频特征, H代表LSTM-RNN的网络函数,c为激活函数,b为网络每层偏置项;则通过多次循环,网络的最终输出为:
其中,WhN表示隐层权重矩阵,式(1)和式(2)中的W和b可以通过网络进行学习得到,最终网络的输出yt就为情感维度中的Arousal数值;
步骤2:利用Recola数据库中的音频数据将LSTM-RNN训练好之后,再针对双相抑郁障碍患者提取相同的音频特征,将这些音频特征输入训练好的LSTM-RNN中得到双相抑郁障碍患者的Arousal预测值;采用直方图方法对Arousal预测值进行统计从而得到Arousal全局统计特征;
步骤3:提取音频Functional特征:使用开源工具包openSMILE提取6902维音频全局Functional特征;
步骤4:提取音频语速、停顿次数特征:使用短时能量计算每帧音频数据的能量大小,通过该能量大小计算出患者讲话时的停顿次数,同时使用开源工具包Praat提取患者的音频语速特征;
步骤5:提取视频中患者手部动作特征:使用Openpose工具包追踪患者手部关键点运动信息,求取帧级别左右双手关键点的欧氏距离:
最后使用直方图进行全局统计,得到手部动作的直方图统计特征;
步骤6:提取视频中患者身体姿态运动信息:使用Openpose工具包提取患者上半身关键点的运动信息,统计这些关键点在时间序列上的位移和速度信息:
其中,np表示第np个关键点,t表示时间,k代表时间间隔,x_coo,y_coo分别代表两个坐标轴方向;Pnp,x_coo,t代表第np个关键点在t时刻x_coo方向上的坐标值,Snp(t) 代表第np个关键点在t时刻的位移信息;在该步骤中取不同的时间间隔k={k1,k2,...,km,},然后将不同时间间隔k下的Snp(t)使用直方图进行统计,最后将m个Snp(t)进行串接,得到患者的身体姿态运动信息;
步骤7:提取视频中患者的面部运动单元特征:使用OpenFace开源工具提取帧级别的面部运动单元信息:Auction Units;最后使用直方图进行统计,得到全局统计信息;
步骤8:将步骤3、4、6和7提取到的特征输入到深度神经网络DNN中,进行双相抑郁障碍程度的划分,得到单模态分类结果;对DNN网络的损失函数进行改进,使其包含两部分损失Loss:分类错误损失和估计错误损失;这两类损失分别由训练DNN模型时,标注与预测之间的欧式距离损失产生;最后将两类损失进行加权求和,反馈到网络中进行权重更新;最终将会训练得到四种DNN模型;
步骤9:针对步骤2和步骤5中提取到的特征,采用统计方法得到各自的双相障碍的严重程度分类;
步骤10:使用步骤8得到的四种单模态DNN模型提取隐层输出,即将这四种模型的最后一层隐层输出进行串接,输入随机森林Random Forest中得到多模态融合结果,再将该随机森林得到的分类结果与步骤9中得到的两种双相障碍的严重程度分类,进行投票,投票最多的双相抑郁障碍程度即为最终分类结果,所述的双相抑郁障碍程度包括恢复期、轻躁狂、重躁狂。
有益效果
本发明结合患者的音频信息、面部表情信息以及身体姿态动作信息,构建一种多模态双相抑郁障碍的分类模型,由于全程采用计算机自动处理数据并得出患者的双相抑郁障碍程度,因此避免了主观因素,加上计算机处理快速简单,提高了诊断效率。同时,该发明首次将抑郁症的研究与心理学情感维度的研究结合起来,为研究抑郁症提供了一种新思路。最后,为了避免过拟合,本发明使用多流信息,各个信息流均会得到双相抑郁障碍的程度分类结果,最后经过随机森林的整合,输出结果,提高分类准确率。具体特点如下:
1)提出了将心理学维度情感模型与双相抑郁障碍结合起来的新思路。这种思路是先使用时间序列模型LSTM-RNN来对情感维度中的Arousal维度进行建模,然后将该模型用于双相抑郁障碍的患者,预测这些患者的Arousal维度数值,进而以此分析情感维度Arousal和双相抑郁障碍之间的关系。这种方法将维度情感与双相抑郁障碍相结合,有效的提高双相抑郁障碍的识别精度。
2)提出一种统计身体关键点运动信息的特征。这种方法首先利用开源软件Openpose将视频信息中患者的上半身关键点提取出来,进而利用这些关键点坐标我们提出一种新的描述关键点运动速度和加速度的特征。
3)本发明将深度神经网络DNN模型和随机森林Random Forest模型相结合,通过将音、视频低层特征得到双相抑郁障碍严重程度的分类。同时为了防止过拟合现象,本发明中采用一种集成学习的策略进行***构建,最终实现双相抑郁障碍的的严重程度分类任务。
具体实施方式
一种基于长短时记忆神经网络(LSTM-RNN)、深度神经网络(DNN)以及随机森林(Random Forest)的多模态双相抑郁障碍严重程度的分类方法,其特点是包括下述步骤:
步骤一、利用情感维度数据库Recola训练长短时记忆神经网络。提取Recola数据库的音频特征,将其结合数据库标注一同输入LSTM-RNN模型中,进行该模型的训练。 LSTM-RNN属于一种时间序列模型,通过循环结构可将前一层的输出作为下一层的输入:
式(1)中,h代表网络隐层向量,t代表时刻信息,n为网络的第n层,当n=0时,代表输入的初级音视频特征,H代表LSTM-RNN的网络函数,c为激活函数,b为网络每层偏置项。则通过多次循环,网络的最终输出为:
WhN表示隐层权重矩阵,式(1)和式(2)中的W和b可以通过网络进行学习得到,最终网络的输出yt就为情感维度中的Arousal数值。
步骤二、利用Recola数据库中的音频数据将LSTM-RNN训练好之后,再针对双相抑郁障碍患者提取相同的的音频特征,将这些音频特征输入训练好的LSTM-RNN中得到双相抑郁障碍患者的Arousal预测值。由于预测出来的Arousal是帧级别的数值,我们采用直方图方法对其进行统计从而得到Arousal全局统计特征。
步骤三、提取音频Functional特征。使用开源工具包openSMILE提取6902维音频全局Functional特征。
步骤四、提取音频语速、停顿次数特征。使用短时能量计算每帧音频数据的能量大小,通过该能量大小可以计算出患者讲话时的停顿次数,同时我们使用开源工具包 Praat提取患者的音频语速特征。
步骤五、提取视频中患者手部动作特征。使用Openpose工具包追踪患者手部关键点运动信息,求取帧级别左右双手关键点的欧氏距离:
最后使用直方图进行全局统计,得到手部动作的直方图统计特征。
步骤六、提取视频中患者身体姿态运动信息。使用Openpose工具包提取患者上半身关键点的运动信息,统计这些关键点在时间序列上的位移和速度信息:
其中,np表示第np个关键点,t表示时间,k代表时间间隔,x_coo,y_coo分别代表两个坐标轴方向。Pnp,x_coo,t代表第np个关键点在t时刻x_coo方向上的坐标值,Snp(t)代表第np个关键点在t时刻的位移信息。在该步骤中我们取不同的时间间隔k={k1,k2,...,km,},然后将不同时间间隔k下的Snp(t)使用直方图进行统计,最后将m个Snp(t)进行串接,得到患者的身体姿态运动信息。
步骤七、提取视频中患者的面部运动单元特征。使用OpenFace开源工具提取帧级别的面部运动单元信息:Auction Units。最后使用直方图进行统计,得到全局统计信息。
步骤八、将步骤三、四、六和七提取到的特征输入到深度神经网络DNN中,进行双相抑郁障碍程度的划分,得到单模态分类结果。在此,我们对DNN网络的损失函数进行改进,使其包含两部分损失(Loss):分类错误损失和估计错误损失。这两类损失分别由训练DNN模型时,标注与预测之间的欧式距离损失产生。最后将两类损失进行加权求和,反馈到网络中进行权重更新。最终将会训练得到四种DNN模型。
步骤九、针对步骤二和步骤五中提取到的特征,我们采用统计方法得到各自的双相障碍的严重程度分类。
步骤十、使用步骤八得到的四种单模态DNN模型提取隐层输出,即将这四种模型的最后一层隐层输出进行串接,输入随机森林Random Forest中得到多模态融合结果,再将该随机森林得到的分类结果与步骤九中得到的两种双相障碍的严重程度分类,进行投票,投票最多的双相抑郁障碍程度(恢复期、轻躁狂、重躁狂)即为最终分类结果。
具体的实施步骤如下:
1、音频特征提取。
1)基于直方图统计的Arousal特征
首先,使用YAAFA开源工具包提取音频158维底层描述符,在此基础上,对每一维度的底层描述特征使用openSMILE统计了29维functional特征,因此,共产生 158*29=4582维音频特征。提取的音频特征如表1和表2所示
表1 YAAFE提取的底层描述符特征*(158)
(*△和△△分别代表了一阶和二阶导数)
表2 openSMILE提取的functional特征(29)
然后对这4582维特征使用SFFS特征选择方法进行特征选择,从而选出具有明显区分度的特征维度。最终我们获得15维特征,将这15维特征输入训练好的LSTM-RNN 模型中,可得到患者的情感维度Arousal数值,再使用直方图进行统计,即可得到基于直方图统计的Arousal特征。
2)提取音频Functional特征
本发明音频Functional采用openSMILE开源工具包提取了238维底层描述符特征,同时在此基础上,对每一维度的底层描述特征统计了29维functional特征,因此,共产生238*29=6902维音频特征。提取的音频底层描述符特征如表3所示,针对每一维度的29维统计特征与表2相同。
表3 openSMILE提取的底层描述符特征*(238)
(*△和△△分别代表了一阶和二阶导数)
由于6902维度过高,我们采用SFFS特征选择方法进行降维,最终得到46维Functional特征。
3)音频语速、停顿次数特征
为了获得语音暂停的次数,我们首先根据短时能量进行语音活动检测。为了增加鲁棒性,我们定义:如果语音暂停持续时间大于0.375秒,则该语音段则属于一次停顿,否则我们将其视为连续语音,即不属于停顿。最后,我们将所有得到的暂停持续时长用0秒-6秒跨度的直方图进行等间距统计,共涉及12个等距间隔的直方图描述符。即获得了12维直方图的语音暂停特征。此外,我们还计算了患者停顿的次数、停顿的最长和最短的时间,与前面得到的12维直方图串接连接,得到15维特征向量。
此外,我们使用音频分析工具包Praat来提取5个与语速相关的特征:发声时间,语速,发音率,平均发言时间和停顿次数。最后,我们将这5个说话速率相关的特征与15个语音停顿特征相结合,产生20维音频语速、停顿次数特征。
2、视频特征提取。
1)手部动作特征
为了捕捉身体运动信息,我们采用Openpose来提取上半身关键点的二维坐标。我们通过计算两只手之间的欧式距离来描述患者手部动作。
为了统计整个视频的手部动作,我们还使用直方图对D(L,R)进行统计,其中用50个bin来描述[0,1500]的距离区间。每个bin的值表示对应距离范围内的帧数。最后,我们获得了患者的50维基于直方图的手部距离特征。
2)身体姿态运动特征
我们还使用文献“Multimodal measurement of depression using deeplearning models”中提出的位移范围直方图(HDR)来描述上半身的二维关键点的移动速度。作为特征的全局统计方法,HDR可以记录身体部位在水平和垂直方向上的位移的范围和速度。有关如何估计HDR的详细信息,请参阅上面的文献。在我们的实验中,HDR方法应用于上半身的8个关键点:左手、左肘、左肩、脖子、鼻子、右手、右肘、右肩和左耳。经过HDR统计,我们可得到400维身体姿态运动特征。
3)脸部运动单元特征
使用OpenFace开源工具提取帧级别的面部运动单元信息:Auction Units。使用18个bin的直方图进行全局统计,最终得到18维脸部运动单元全局统计信息
3、基于深度神经网络DNN的双相抑郁障碍程度分类
a)单模态双相障碍分类
i.基于统计方法的单模态分类
针对基于直方图统计的Arousal特征和手部动作特征,我们采用了统计方法进行单模态双相障碍分类:针对抑郁期、轻躁期和躁狂期这三个不同程度的双相障碍,我们使用遍历方式确定了三个时期各自的范围[R1,R2],[H1,H2]和[M1,M2]。当一个患者过来后,我们分别计算该患者的Arousal特征和手部动作特征落在这三个范围内的直方图数值,最后三个范围中哪个的直方图数值最大,则该患者就属于对应的时期。
ii.基于神经网络的单模态分类
除了上面提到的直方图统计的Arousal特征和手部动作特征,对于其余四种特征(音频Functional特征、音频语速、停顿次数特征、身体姿态运动特征和脸部运动单元特征),我们使用深度神经网络进行分类。该神经网络的输入为四种特征各自的特征向量,最终输出为双相障碍的严重程度。为了提高分类准确率,本发明修改深度神经网络的损失函数为加权多任务损失函数:
式中:K代表双相障碍的程度类别,在该发明中K=3,分别代表严重躁狂、轻度躁狂和恢复期。Nb代表数据样本数。yC,yR分别代表数据库提供的两类样本标注:双相障碍严重程度分类标注和双相障碍程度得分。
最终,针对4种单模态特征,我们可训练得到4种DNN分类器。
b)多模态融合双相障碍分类
在a)中,我们得到4种单模态特征产生的4种DNN分类器。使用这4种DNN分类器提取各自的最后一层隐层输出,并将4种隐层输出串接形成高维数据向量,将该高维向量输入随机森林中进行三分类(恢复期、轻躁狂、重躁狂),可得到分类结果的特征向量。
随后将基于统计方法得到的2类单模态分类结果与经过随机森林得到的结果进行投票,可得最终的分类结果。
本发明利用到了LSTM-RNN、DNN以及随机森林模型实现了双相抑郁障碍严重程度的分类:恢复期、轻躁狂、重躁狂。先使用统计方法和神经网络得到6种单模态分类结果,最后结合DNN输出的隐层特征以及随机森林模型,实现了一个基于音视频的多模态的双相障碍严重程度分类***。经过对本发明进行的实验检验,双相抑障碍严重程度的分类召回率可达到0.574。
本发明公开了一种基于音频、视频的多模态双相情感障碍检测方法。此方法分为两步进行:音、视频单模态双相抑郁障碍检测和将音视频融合的多模态双相抑郁障碍检测。在单模态双相抑郁障碍检测阶段,采用音频和视频两种信息流分别对患者双相抑郁症的程度进行初步判断,之后在多模态检测阶段,将前面得到的音、视频的单模态检测结果相结合,进行最终的多模态双相抑郁症程度分类。这种方法在公开的双相抑郁症数据库上已经取得了很好的效果,且整个***复杂度低,只需将采集到的患者音视频信息输入到训练好的模型中即可得到患者的双相抑郁症程度,是一种无创性检测方法,因此该方法具有可推广性。

Claims (1)

1.一种基于音视频信息的多模态双相抑郁障碍自动检测方法,其特征在于步骤如下:
步骤1:利用情感维度数据库Recola训练长短时记忆神经网络:提取Recola数据库的音频特征,将其结合数据库标注一同输入LSTM-RNN模型中,进行该模型的训练;LSTM-RNN属于一种时间序列模型,通过循环结构可将前一层的输出作为下一层的输入:
式(1)中,h代表网络隐层向量,当n=0时,代表输入的初级音视频特征,H代表LSTM-RNN的网络函数,c为激活函数,b为网络每层偏置项;则通过多次循环,网络的最终输出为:
其中,WhN表示隐层权重矩阵,式(1)和式(2)中的W和b可以通过网络进行学习得到,最终网络的输出yt就为情感维度中的Arousal数值;
步骤2:利用Recola数据库中的音频数据将LSTM-RNN训练好之后,再针对双相抑郁障碍患者提取相同的音频特征,将这些音频特征输入训练好的LSTM-RNN中得到双相抑郁障碍患者的Arousal预测值;采用直方图方法对Arousal预测值进行统计从而得到Arousal全局统计特征;
步骤3:提取音频Functional特征:使用开源工具包openSMILE提取6902维音频全局Functional特征;
步骤4:提取音频语速、停顿次数特征:使用短时能量计算每帧音频数据的能量大小,通过该能量大小计算出患者讲话时的停顿次数,同时使用开源工具包Praat提取患者的音频语速特征;
步骤5:提取视频中患者手部动作特征:使用Openpose工具包追踪患者手部关键点运动信息,求取帧级别左右双手关键点的欧氏距离:
最后使用直方图进行全局统计,得到手部动作的直方图统计特征;
步骤6:提取视频中患者身体姿态运动信息:使用Openpose工具包提取患者上半身关键点的运动信息,统计这些关键点在时间序列上的位移和速度信息:
其中,np表示第np个关键点,t表示时间,k代表时间间隔,x_coo,y_coo分别代表两个坐标轴方向;Pnp,x_coo,t代表第np个关键点在t时刻x_coo方向上的坐标值,Snp(t)代表第np个关键点在t时刻的位移信息;在该步骤中取不同的时间间隔k={k1,k2,...,km,},然后将不同时间间隔k下的Snp(t)使用直方图进行统计,最后将m个Snp(t)进行串接,得到患者的身体姿态运动信息;
步骤7:提取视频中患者的面部运动单元特征:使用OpenFace开源工具提取帧级别的面部运动单元信息:Auction Units;最后使用直方图进行统计,得到全局统计信息;
步骤8:将步骤3、4、6和7提取到的特征输入到深度神经网络DNN中,进行双相抑郁障碍程度的划分,得到单模态分类结果;对DNN网络的损失函数进行改进,使其包含两部分损失Loss:分类错误损失和估计错误损失;这两类损失分别由训练DNN模型时,标注与预测之间的欧式距离损失产生;最后将两类损失进行加权求和,反馈到网络中进行权重更新;最终将会训练得到四种DNN模型;
步骤9:针对步骤2和步骤5中提取到的特征,采用统计方法得到各自的双相障碍的严重程度分类;
步骤10:使用步骤8得到的四种单模态DNN模型提取隐层输出,即将这四种模型的最后一层隐层输出进行串接,输入随机森林Random Forest中得到多模态融合结果,再将该随机森林得到的分类结果与步骤9中得到的两种双相障碍的严重程度分类,进行投票,投票最多的双相抑郁障碍程度即为最终分类结果,所述的双相抑郁障碍程度包括恢复期、轻躁狂、重躁狂。
CN201811190958.6A 2018-10-12 2018-10-12 一种基于音视频信息的多模态双相抑郁障碍自动检测方法 Pending CN109431521A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811190958.6A CN109431521A (zh) 2018-10-12 2018-10-12 一种基于音视频信息的多模态双相抑郁障碍自动检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811190958.6A CN109431521A (zh) 2018-10-12 2018-10-12 一种基于音视频信息的多模态双相抑郁障碍自动检测方法

Publications (1)

Publication Number Publication Date
CN109431521A true CN109431521A (zh) 2019-03-08

Family

ID=65546575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811190958.6A Pending CN109431521A (zh) 2018-10-12 2018-10-12 一种基于音视频信息的多模态双相抑郁障碍自动检测方法

Country Status (1)

Country Link
CN (1) CN109431521A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109935321A (zh) * 2019-04-11 2019-06-25 东南大学 基于功能核磁共振影像数据的抑郁症患者转为双相情感障碍的风险预测模型
CN110046757A (zh) * 2019-04-08 2019-07-23 中国人民解放军第四军医大学 基于LightGBM算法的门诊量预测***及预测方法
CN110675953A (zh) * 2019-09-23 2020-01-10 湖南检信智能科技有限公司 利用人工智能和大数据筛查识别精神病患者的方法
CN111012367A (zh) * 2019-12-27 2020-04-17 华中师范大学 一种精神疾病的智能识别***
CN111261288A (zh) * 2020-04-07 2020-06-09 上海市精神卫生中心(上海市心理咨询培训中心) 一种基于bdnf早期识别双相障碍的方法
CN111358428A (zh) * 2020-01-20 2020-07-03 书丸子(北京)科技有限公司 一种观察能力测试评定方法和装置
CN112185558A (zh) * 2020-09-22 2021-01-05 珠海中科先进技术研究院有限公司 基于深度学习的心理健康及康复评定方法、装置及介质
CN112331337A (zh) * 2021-01-04 2021-02-05 中国科学院自动化研究所 自动抑郁检测方法、装置、设备
CN112687390A (zh) * 2021-03-12 2021-04-20 中国科学院自动化研究所 基于混合网络和lp范数池化的抑郁状态检测方法及装置
CN112735585A (zh) * 2021-04-02 2021-04-30 四川京炜数字科技有限公司 基于神经网络和机器学习的关节炎康复诊疗方法及***
CN112768070A (zh) * 2021-01-06 2021-05-07 万佳安智慧生活技术(深圳)有限公司 一种基于对话交流的精神健康评测方法和***
CN113749658A (zh) * 2021-10-11 2021-12-07 山东大学 基于集成学习的心肺耦合抑郁状态识别方法及***

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046757A (zh) * 2019-04-08 2019-07-23 中国人民解放军第四军医大学 基于LightGBM算法的门诊量预测***及预测方法
CN109935321B (zh) * 2019-04-11 2023-07-07 东南大学 基于功能核磁共振影像数据的抑郁症患者转为双相情感障碍的风险预测***
CN109935321A (zh) * 2019-04-11 2019-06-25 东南大学 基于功能核磁共振影像数据的抑郁症患者转为双相情感障碍的风险预测模型
CN110675953B (zh) * 2019-09-23 2023-06-30 湖南检信智能科技有限公司 利用人工智能和大数据筛查识别精神病患者的***
CN110675953A (zh) * 2019-09-23 2020-01-10 湖南检信智能科技有限公司 利用人工智能和大数据筛查识别精神病患者的方法
CN111012367A (zh) * 2019-12-27 2020-04-17 华中师范大学 一种精神疾病的智能识别***
CN111358428A (zh) * 2020-01-20 2020-07-03 书丸子(北京)科技有限公司 一种观察能力测试评定方法和装置
CN111261288A (zh) * 2020-04-07 2020-06-09 上海市精神卫生中心(上海市心理咨询培训中心) 一种基于bdnf早期识别双相障碍的方法
CN112185558A (zh) * 2020-09-22 2021-01-05 珠海中科先进技术研究院有限公司 基于深度学习的心理健康及康复评定方法、装置及介质
CN112331337B (zh) * 2021-01-04 2021-04-16 中国科学院自动化研究所 自动抑郁检测方法、装置、设备
US11266338B1 (en) 2021-01-04 2022-03-08 Institute Of Automation, Chinese Academy Of Sciences Automatic depression detection method and device, and equipment
CN112331337A (zh) * 2021-01-04 2021-02-05 中国科学院自动化研究所 自动抑郁检测方法、装置、设备
CN112768070A (zh) * 2021-01-06 2021-05-07 万佳安智慧生活技术(深圳)有限公司 一种基于对话交流的精神健康评测方法和***
CN112687390B (zh) * 2021-03-12 2021-06-18 中国科学院自动化研究所 基于混合网络和lp范数池化的抑郁状态检测方法及装置
CN112687390A (zh) * 2021-03-12 2021-04-20 中国科学院自动化研究所 基于混合网络和lp范数池化的抑郁状态检测方法及装置
CN112735585A (zh) * 2021-04-02 2021-04-30 四川京炜数字科技有限公司 基于神经网络和机器学习的关节炎康复诊疗方法及***
CN113749658A (zh) * 2021-10-11 2021-12-07 山东大学 基于集成学习的心肺耦合抑郁状态识别方法及***

Similar Documents

Publication Publication Date Title
CN109431521A (zh) 一种基于音视频信息的多模态双相抑郁障碍自动检测方法
Vásquez-Correa et al. Multimodal assessment of Parkinson's disease: a deep learning approach
JP6858316B2 (ja) 認知機能リハビリテーション訓練方法および装置
Narayanan et al. Behavioral signal processing: Deriving human behavioral informatics from speech and language
Happy et al. Automated alertness and emotion detection for empathic feedback during e-learning
Sethu et al. The ambiguous world of emotion representation
Boyer et al. Dialogue act modeling in a complex task-oriented domain
Jin et al. Attention-block deep learning based features fusion in wearable social sensor for mental wellbeing evaluations
Stathopoulou et al. On assisting a visual-facial affect recognition system with keyboard-stroke pattern information
CN115936944B (zh) 一种基于人工智能的虚拟教学管理方法及装置
Gupta et al. Analysis of engagement behavior in children during dyadic interactions using prosodic cues
Prasomphan Detecting human emotion via speech recognition by using speech spectrogram
Samadani et al. Affective movement recognition based on generative and discriminative stochastic dynamic models
Tabrizi et al. A deep learning approach for table tennis forehand stroke evaluation system using an IMU sensor
Dotti et al. Behavior and personality analysis in a nonsocial context dataset
Zhang et al. Improved visual focus of attention estimation and prosodic features for analyzing group interactions
Lin et al. Looking at the body: Automatic analysis of body gestures and self-adaptors in psychological distress
Kumar et al. Hybrid classification algorithms for predicting student performance
Huang et al. Activity classification and analysis during a sports training session using a fuzzy model
Aly et al. An online fuzzy-based approach for human emotions detection: an overview on the human cognitive model of understanding and generating multimodal actions
Rett Robot-human interface using Laban Movement Analysis inside a Bayesian framework
Schwenker et al. Multiple classifier systems for the recogonition of human emotions
EP4163830A1 (en) Multi-modal prediction system
Chou et al. Learning to Recognize Per-Rater's Emotion Perception Using Co-Rater Training Strategy with Soft and Hard Labels.
Zhao et al. Automatic chinese personality recognition based on prosodic features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190308