CN117894057A

CN117894057A - 用于情感障碍辅助诊断的三维数字人脸处理方法与装置

Info

Publication number: CN117894057A
Application number: CN202410269906.7A
Authority: CN
Inventors: 许迎科; 胡少华; 于佳辉; 张毓桐; 陈京凯; 周和统; 王中; 吕海龙; 来建波
Original assignee: Binjiang Research Institute Of Zhejiang University; Zhejiang University ZJU
Current assignee: Binjiang Research Institute Of Zhejiang University; Zhejiang University ZJU
Priority date: 2024-03-11
Filing date: 2024-03-11
Publication date: 2024-04-16
Anticipated expiration: 2044-03-11
Also published as: CN117894057B

Abstract

本发明涉及计算机技术领域，公开了一种用于情感障碍辅助诊断的三维数字人脸处理方法及装置，所述方法包括：获取第一数据集和第二数据集，第一数据集包括第一人脸图像，第二数据集包括第二人脸图像和情感标注结果；采取第一数据集来训练人脸形状模型，所述人脸形状模型用于根据第一人脸图像中的第一信息建立人脸三维模型，并依据人脸三维模型的二维人脸图像与第一人脸图像的人脸表情特征的一致性来完成人脸形状模型的训练；依据采取第一数据集训练后的人脸形状模型和用于依据人脸形状模型生成的中间结果确定情感分类结果的分类模型组成情感分类模型，并采取第二数据集对情感分类模型进行训练；本方案可以协助医生进行诊断。

Description

用于情感障碍辅助诊断的三维数字人脸处理方法与装置

技术领域

本发明涉及计算机技术领域，尤其是涉及一种用于情感障碍辅助诊断的三维数字人脸处理方法与装置。

背景技术

从专业的医学领域来看，心境障碍（mooddisorders，MD）中最常见和最严重的抑郁是重性抑郁发作。即使是进行最简单的活动，患者都要用全部的努力去完成。MD的典型特征是对事物丧失兴趣和缺乏快感；另外一种特征是躁狂，指的是患者在任何活动中都能体会到极度的快乐。

单相情感障碍（Majordepressivedisorder，MDD）指的是抑郁或躁狂单独出现。单相情感障碍中抑郁患者的比例远高于单狂躁患者。狂躁一般是青少年时期较为频繁，通常受环境压力等多方面因素影响。交替出现抑郁和狂躁状态的患者才具有双相情感障碍（BipolarDisorder，BD）的可能。

现有的方案都是基于医生人工对病人进行关注，缺乏采取模型对目标人物的情感进行关注来协助医生进行诊断的方式。

发明内容

本发明提供一种用于情感障碍辅助诊断的三维数字人脸处理方法与装置，可以采取模型对目标人物的情感进行关注来协助医生进行诊断。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本申请提供了一种用于情感障碍辅助诊断的三维数字人脸处理方法，所述方法包括：获取第一数据集和第二数据集，第一数据集包括第一人脸图像，第二数据集包括第二人脸图像和第二人脸图像的情感标注结果，情感标注结果包括：单相抑郁、双相情感障碍和健康；采取第一数据集来训练人脸形状模型，所述人脸形状模型用于根据第一人脸图像中的第一信息建立人脸三维模型，并依据人脸三维模型的二维人脸图像与第一人脸图像的人脸表情特征的一致性来完成人脸形状模型的训练；第一信息包括：人脸粗略特征、人脸表情特征、人脸细节特征、以及光照特征；依据采取第一数据集训练后的人脸形状模型和用于依据人脸形状模型生成的中间结果确定情感分类结果的分类模型组成情感分类模型，并采取第二数据集对情感分类模型进行训练。

优选的，所述方法还包括：获取待分析的视频数据；将视频数据输入到训练好的情感分类模型中进行分析，确定情感分类结果，情感分类结果包括：单相抑郁、双相情感障碍和健康。

优选的，所述方法还包括：获取图像数据，并提取出图像数据中的目标人脸图像，目标人脸图像包括第一人脸图像或第二人脸图像；所述人脸形状模型，用于依据以下步骤完成训练：依据目标人脸图像进行建模，确定人脸三维模型；依据人脸三维模型生成二维人脸图像；依据目标人脸图像的人脸表情特征和二维人脸图像的人脸表情特征的一致性，对人脸形状模型进行调整。

优选的，所述依据目标人脸图像进行建模，确定人脸三维模型，包括：依据目标人脸图像进行粗略分析，得到第一特征，所述第一特征包括人脸粗略特征、光照特征；依据目标人脸图像进行表情分析，确定人脸表情特征，以确定第二特征，所述第二特征包括：人脸表情特征、下颌姿势特征；所述第二特征还包括脖子的第一旋转特征、眼球的第二旋转特征；依据目标人脸图像进行细节分析，得到第三特征，所述第三特征包括：人脸细节特征，所述人脸细节特征包括以下人脸关键点的特征：双眼角、上下唇、左右唇角、下颌、颧肌；依据第一特征、第二特征和第三特征，确定人脸三维模型。

优选的，所述依据目标人脸图像进行细节分析，得到第三特征，包括：依据目标人脸图像和目标人脸图像的相关人脸图像进行细节分析，确定第三特征，所述相关人脸图像包括目标人脸图像在视频数据中对应的视频帧的前后帧的图像。

优选的，依据人脸三维模型生成二维人脸图像后，所述方法还包括：依据目标人脸图像的第三特征和二维人脸图像的第三特征之间的损失，对人脸三维模型进行调整。

优选的，中间结果包括人脸形状模型建模的人脸三维模型和基于人脸三维模型生成的二维图像数据，所述分类模型，用于：将人脸三维模型输入到第一分类器中，确定第一分析结果；依据人脸三维模型对应的二维图像数据获取表情参数，并将表情参数输入到第二分类器中，确定第二分析结果；依据第一分析结果和第二分析结果进行联合分析，确定情感分析结果。

优选的，所述采取第二数据集对情感分类模型进行训练，包括：获取第二人脸图像对应的情感分析结果，并结合第二人脸图像的情感标注结果，对情感分类模型进行调整。

第二方面，本申请提供了一种用于情感障碍辅助诊断的三维数字人脸处理装置，所述装置包括：数据集获取模块，用于获取第一数据集和第二数据集，第一数据集包括第一人脸图像，第二数据集包括第二人脸图像和第二人脸图像的情感标注结果，情感标注结果包括：单相抑郁、双相情感障碍和健康；第一模型训练模块，用于采取第一数据集来训练人脸形状模型，所述人脸形状模型用于根据第一人脸图像中的第一信息建立人脸三维模型，并依据人脸三维模型的二维人脸图像与第一人脸图像的人脸表情特征的一致性来完成人脸形状模型的训练；第一信息包括：人脸粗略特征、人脸表情特征、人脸细节特征、以及光照特征；第二模型训练模块，用于依据采取第一数据集训练后的人脸形状模型和用于依据人脸形状模型生成的中间结果确定情感分类结果的分类模型组成情感分类模型，并采取第二数据集对情感分类模型进行训练。

第三方面，本申请提供了一种电子设备，包括：存储器和至少一个处理器；所述存储器用于存储计算机执行指令；所述至少一个处理器用于执行所述存储器中存储的计算机执行指令，使得所述至少一个处理器执行如第一方面所述的方法。

第四方面，本申请提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述的方法。

本申请可以应用在辅助医生进行诊断的场景中，本方案可以采取训练好的模型来对目标人物（如患者）的人脸图像进行识别，确定目标人物的情感分析结果，给予医生进行辅助诊断。具体的，本方案可以采取无标注的第一数据集来对模型进行预训练，进一步采取有标注的第二数据集来对预训练后的模型进行迁移，从而使得模型形成对情感障碍进行识别的能力。具体来说，本方案中的情感分类模型由人脸形状模型和分类模型组成。人脸形状模型用于根据人脸图像中的第一信息建立人脸三维模型，并依据人脸三维模型的二维人脸图像的与人脸图像的人脸表情特征的一致性来完成人脸形状模型的训练；第一信息包括：人脸粗略特征、人脸表情特征、人脸细节特征、以及光照特征；分类模型用于依据人脸形状模型生成的中间结果确定情感分类结果，中间结果包括人脸形状模型建模的人脸三维模型和基于人脸三维模型生成的二维图像数据。本方案可以采取无标注的第一数据集来训练人脸形状模型，并依据采取第一数据集训练后的人脸形状模型和分类模型组成情感分类模型，并采取有标注的第二数据集对情感分类模型进行训练。之后，可以依据训练好的情感分类模型来对包含人脸图像的视频数据进行分析，确定情感分类结果，以辅助医生进行诊断，情感分类结果包括：单相抑郁、双相情感障碍和健康。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本申请一个实施例的用于情感障碍辅助诊断的三维数字人脸处理方法的步骤示意图；

图2是本申请一个实施例的用于情感障碍辅助诊断的三维数字人脸处理方法的流程示意图；

图3是本申请一个实施例的用于情感障碍辅助诊断的三维数字人脸处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请可以应用在辅助医生进行诊断的场景中，本方案可以采取训练好的模型来对目标人物（如患者）的人脸图像进行识别，确定目标人物的情感分析结果，给予医生进行辅助诊断。具体的，本方案可以采取无标注的第一数据集来对模型进行预训练，进一步采取有标注的第二数据集来对预训练后的模型进行迁移，从而使得模型形成对情感障碍进行识别的能力。

根据相关调查显示，在临床上，约有25%-30%的人因为急性躁狂的混合发作而住院治疗，因此确认抑郁或躁狂发作的病程或时间段是非常重要的。根据临床诊断的需求：需判断是否反复发病；在反复发病的间歇期间，患者是否完全康复；两次发病期间至少要两个月，是否在间歇期间仍然保持着某种抑郁特征；是否出现抑郁发作或者狂躁发作等。因诊断和康复周期较长，医生无法保证全时间段的观察患者情况的变化，本发明中机器辅助情感障碍诊断在协助医生诊疗的过程中至关重要。

所以在反复发病的期间，为了缓解专业医生紧缺，无法随时在患者身边的情况，便于确定某个时间段患者发生了病情反复的情况。本发明中的双相情感障碍辅助诊断方法、***与装置可以在患者出现频率最高的场所摆放本发明中的设备，实时捕捉，分析患者的面部表情，从而辅助医生进行病情的诊断。

目前在临床对单双相患者初期病情的常规诊断方法是：专业的医生在初步判断患者病情的轻重时，会通过对患者进行外加刺激，如播放不同情绪的视频为测试者提供外加刺激，根据所播放刺激视频的情感变化，通过观察患者对外加刺激的面部表情反映强烈程度，再加上后续进行有关话题的交流，最终可以初步判断一个患者的情感障碍程度。随着发病率越来越高，对专业的医生需求量大大增加，医生在诊疗阶段难免会忽略一些肉眼不易察觉的具有抑郁或狂躁特性的细微面部表情。本方案提出的机器辅助情感障碍诊断模型，可以根据训练医院提供的大规模患者诊疗视频，通过学习到的不同年龄阶段，性别，职业的患者面部微表情，同时迅速给出诊断类型。从而提高诊断准确性，同时在一定程度上缓解专业医生的诊断压力，辅助医生对病情的诊断。

目前还没有根据三维重建后的人脸特征，对面部细节和微表情的建模来诊断双相情感障碍的。考虑到环境的复杂多样性，如光照，面部细微表情等因素，本申请发明了一种基于三维重建的方式对人脸面部情绪进行还原，使重建后的数字人脸与输入图像两者所表达的情绪保持一致，使机器辅助诊断得到的结果更精确，更有利于为医生提供可靠的非临床诊断环境中的辅助诊断信息。

本发明的整体流程的概述如下：

具体来说，首先让患者坐在显示器前，启动计算机对患者播放五种不同刺激下的视频，患者观看视频内容，五种情绪刺激为：高兴（happiness），生气（anger），悲伤（sadness），恐惧（fear），中性（neutral）。在显示器的上方，平行于测试患者的位置摆放摄像头，实时记录患者观看视频的全过程。摆放摄像头的位置要可以完整的记录到完整的人脸的五官及表情变化，便于本发明中的***对肉眼未来得及观察的面部细节进行捕捉。本发明中模型的数据预处理阶段会提取出人脸，目的是排除掉环境背景等因素的干扰，仅集中对患者的面部三维重建，所述的数据预处理为：将输入视频数据逐帧抽取出的单帧图像进行裁剪。将单一的患者面部提取出来。

其次，将患者图像输入到粗略形状编码器和可训练表达形状编码器，然后使用相关的几何和反照率模型作为固定的解码器，并根据回归的表情、身份形状、姿势和反照率参数进行患者面部的三维重建。用于辅助捕捉细微情绪的情感一致性损失在输入图像和渲染后的患者人脸形状经过固定的情感识别网络后，对两张图像之间的情感差异进行正则化。在该阶段，为了学习到患者面部的表情细节，本发明通过损失函数重点关注了双眼角、下颌、上下唇及左右唇角、双颧骨。在进一步的细节训练阶段，图像通过固定的表情编码器，利用回归的表情和下颌姿势参数调节细节编码器，来加深面部褶皱，使患者的微表情更细节，更有利于辅助医生诊断。上述提到的损失函数是：

。

上述公式中表示情绪损失,/>表示光度损失,/>表示眼部闭合损失,/>表示上下唇闭合损失,/>表示左右唇角损失,/>表示左右颧肌损失，/>表示表情正则化器，且每个均由/>加权。

同时双相情感障碍患者发病情况具有不确定性并涉及多种因素相互影响，本项目还综合考虑室外环境下的光照和反射等信息，在数字人脸重建模型中考虑了反照率，可以提高深度学习模型在室外环境中辅助诊断过程中的性能，使诊断场景不仅仅局限在诊断室中。

对于双相情感障碍诊断阶段，本项目使用人脸检测器（如多任务卷积神经网络MTCNN）来定位患者的人脸，将检测到的人脸对齐，进一步利用基于几何的全局特征如患者鼻子周围的标志点、眼睛、嘴巴及纹理的局部特征来捕捉面部表情引起的面部几何形状。将学习到的特征，输入进骨干网络CNN进行特征提取，最后完成双相情感障碍的辅助诊断。上段描述中提到的粗略形状编码器：这个编码器在三维人脸重建流程中扮演关键角色，它负责初步的三维形状估计，如人脸的轮廓，五官的位置，以及面部粗略的纹理，为后续的更精细的形状估计、面部细微的褶皱、面部情绪的重建提供初始近似值。上段描述中的可训练表达形状编码器：是在三维人脸重建中使用的一个重要组件，用于将表情信息从输入图像中编码为三维形状变化。它在重建过程中允许模型根据输入图像的表情特征来调整生成的三维人脸形状，以更准确地反映人脸的表情。先输入图像：用可训练表达形状编码器接收一张包含表情信息的人脸图像；再用卷积神经网络CNN进行表情的编码，来学习如何从输入图像中提取表情信息。其次是编码的输出：可训练表达形状编码器的输出是一个表示表情的低维度向量或编码。这个编码反映了输入图像中的表情信息，以便后续步骤可以使用它来调整生成的三维人脸形状；与粗略形状编码器和其他损失函数的协作：可训练表达形状编码器通常与其他组件协同工作，如粗略形状编码器和光度损失、关键点损失等。它们共同为模型提供了对人脸形状和表情的全面理解，并用于优化生成的三维人脸模型。

可训练表达形状编码器的作用是增强三维人脸重建模型的表情感知能力。它允许模型更好地理解和还原人脸的表情变化，从而提高了模型在情感分析、面部动画、虚拟现实和增强现实应用中的逼真性和准确性。上段描述中的几何反照率模型：几何反照率模型是一种用于描述人脸表面的属性的模型。这个模型有助于在三维重建过程中考虑到物体的表面反照率，从而更准确地模拟光照和阴影对人脸的影响，以适应不同光照条件和环境中的应用，增强现实和面部识别。上段描述中的MTCNN人脸检测器：MTCNN是一种用于人脸检测的深度学习模型，具有多任务级联卷积网络结构。它是一种高效且准确的人脸检测器，常用于实时人脸检测应用。MTCNN具有多任务级联结构：MTCNN由一系列级联的深度卷积神经网络组成，每个网络都负责不同的任务。这些任务通常包括：候选框生成：负责在输入图像中生成候选人脸框；候选框精修：对第一阶段生成的候选框进行进一步的细化和修正，以更准确地框出人脸的位置和形状；人脸分类：负责对精修后的候选框进行人脸分类，以确定每个框内是否包含人脸。该结构有助于提高检测的准确性和效率。

下面，结合图1，对本申请的整体流程进行描述，如图1所示：

S100：人脸特征采集。采用上述搭建的设备，在本地医院相关部门收集情感障碍患者的诊断视频制成第二数据集。该阶段是相关医院提供的第二数据集，这里的第二数据集包括患者的三个种类：单相抑郁、双相情感障碍和健康对照组。数据内容是分别对测试者播放五种刺激视频，然后专业的医生根据测试者的反应进行患病程度的初步判断。

S200：数据预处理。根据医院所提供由专业医生对测试者诊断后对数据手动标签的数据，将每位测试者的一整段连续视频数据按照五种情感刺激分段剪辑为五小段，再用视频帧提取器在连续视频中提取包含人脸信息的帧。

首先使用跨平台计算机视觉（openCV）加载包含人脸的图像，同时openCV也提供了一个已经训练好的基于卷神经网络的人脸检测器，该方法会返回一个包含人脸的位置信息矩形列表，可以按照需求通过调整列表中的参数来获得最佳的检测效果。进一步将检测到的人脸用矩形框标记在图像上，以便可视化。检测到人脸后，可以进行后续的数据预处理。其中包括裁剪人脸、调整大小、灰度化、直方图均衡化、归一化等操作，使进行诊断的人脸图像尺寸规格相同，便于模型识别和判断。

再使用人脸检测器(MTCNN)检测人脸位置，并根据检测到的位置裁剪每一帧的人脸区域，使模型重点关注人脸的面部表情，避免环境因素影响，然后将包含人脸信息的数据传递给模型进行下一步的处理。其中，视频帧提取器：输入：整段视频是这个模型的输入，通常以视频文件或视频流的形式提供。视频可以包含不同的场景、动作和对象。逐帧提取：这个模型会对视频进行逐帧的处理，从视频流中提取每一帧的图像，通常包括视频解码、帧采样和存储每帧图像的步骤。图像存储：提取的每一帧图像通常会被存储在某种数据结构中，这些图像可以在后续处理中用作输入数据。采样率：模型通常需要设置一个帧采样率，以控制从视频中提取图像的速度。

S300：人脸重建。具体包括：S301：数据准备。本发明中收集包含第一数据集和第二数据集：第一数据集是大规模户外的包含不同表情的人脸图像数据集；第二数据集包括医院提供的标注好的五种以视频形式的情绪刺激下三类测试者的诊断视频。为了更好的辅助诊断，本发明中第二数据集为根据五种刺激，将整段测试者数据分五个种类进行分段剪辑，在每种刺激下进行测试者的三维数字人脸重建和后续的辅助诊断。S302：3DMM重建及渲染。其中，上述的3DMM：即3D人脸形状模型，是一种用于三维人脸重建和分析的计算机视觉和计算机图形模型。3DMM被广泛用于从二维图像中还原出三维人脸形状。3DMM是基于一系列人脸的三维形状和纹理数据构建的数学模型，描述了人脸的三维形状和纹理属性，3DMM可以生成新的三维人脸模型，通过在平均形状和纹理上应用形状和纹理参数的变化。这使得可以生成具有不同面部特征和表情的人脸模型。可用于从二维图像中估计三维人脸形状和纹理。在该部分，本发明涉及到重建的有人脸的三维面部的轮廓和人脸形状参数和表情参数，再对生成的三维人脸渲染成二维图像，将渲染后的二维图像和表情参数分别输入进分类网络中，结合起来对测试者进行双情感障碍的辅助诊断。

具体的，首先在训练阶段，输入单张图片进入编码器1，进行细节回归。首先，先回归出一个低维的潜在编码（latentcode）其包含相机、反射、光线、形状，姿势以及表情编码，通过表面光滑的高精度3D人脸模型（FLAME）得到一个粗略的形状，得到一个纹理的映射（map）,再根据相机和光照参数，渲染出一个2D图片，然后最小化输入图像与生成的2D图像之间的差异。

然后通过一个细节的映射增强粗糙的FLAME几何，输入一张图像，通过一个训练好的编码器2得到一个128维的潜在编码来控制一个人特定的静态面部细节，将该编码和从编码器1中得到的表情和下颌姿势参数拼接，来获取测试者的动态表情皱纹细节，得到一个新的编码，被解码器1解码，再转化为法线映射（map）用于后续的渲染。

此处提到的FLAME（表面光滑的高精度3D人脸模型）是一种用来表示人脸形状和表情的高精度的3D人脸模型。它使用对角微注意力机制（DMA）来检测连续视频帧之间的微小差异，以便更好地理解连续视频帧的语义信息。对角微注意力机制，指的是对角微注意力机制（DiagonalMicroAttention，DMA）是一种注意力机制，用于检测两个连续视频帧之间的人的面部表情的微小差异。DMA试图理解连续视频帧的语义信息，解决标记器无法将类似的上下文映射到标记上的问题；DMA是对角线注意力机制（DiagonalAttentionMechanism）的一种变体，它在计算注意力权重时使用了对角线矩阵。关于对角线注意力机制，它是一种特殊的注意力机制，它将注意力权重限制在对角线上，从而使得模型更加稳定和可靠。

除此之外，FLAME模型可以建模脖子的旋转、眼球的旋转等，从而使得FLAME模型表示的表情更加丰富。FLAME模型的参数包括身份参数、姿势参数和面部表情参数。在细节渲染阶段，细节位移模型可以生成带有中等频率的表面细节图片。

使用FLAME的表情，和下颌姿势参数，颧骨姿势参数生成依赖于表情的细节。本发明中为了更好的对测试者进行三维人脸重建，引入了一种新的细节损失，将人类特有的细节和表情变化引起的面部褶皱区分开。这种分离可以使操作者控制表情参数，来合成真实，特定的皱纹，同时还可以保证人脸特定的细节不会发生改变。

该模型最先是从无监督的野外图像中学习的（即第一数据集），并在两个基线（baseline）上都实现了较先进的重建精度。在此基础上，将训练了第一数据集的模型作为预训练模型1。在第二次训练第二数据集时，引入预训练模型1，使本发明中的三维人脸重建部分模型的使用更具普遍性。使诊断场景与常规的不同，不仅仅局限在诊断室中，同时可以应用到非诊断场景中，更广泛的捕捉室外环境下测试者的患病情况。

使用3DMM对每张图像进行三维重建，获得对应的三维人脸模型，模型包括面部形状和纹理信息（形状参数和纹理参数）。这里的3DMM是用于建模和生成人脸形状和纹理的统计模型，用于从二维图像中推断三维人脸形状和纹理信息。将重建的3D人脸模型渲染为2D图像，以与原始输入图像具有相同的视角和尺度。这可以通过透视投影和渲染技术来实现。在本发明中，渲染模块将三维图形投影到二维图像中，其采用输入的顶点，面部信息以及可选的属性信息并生成渲染后的图像，将重建的三维人脸图像投影到二维图像中，其采用输入的顶点，面部信息以及可选的属性信息并生成渲染后的图像。粗略形状可以渲染为2D图像。对于每个渲染的2D人脸图像，使用卷积神经网络（CNN）来提取特征表示。这些特征可以捕获重建后人脸图像中的表情信息。

S400：多层感知器（MLP）网络。接下来，使用MLP网络，将这些提取的图像特征进一步映射到更高级的表示。MLP可以包括多个全连接层，用于学习非线性特征转换。MLP网络的输入层接收原始图像数据和特征向量，然后通过多个隐藏层逐渐提取有助于区分不同人脸的抽象特征。最后，输出层将这些特征用于分类不同的人脸。训练数据和标签用于调整网络的权重和偏差，以便网络能够进行准确的人脸识别。

S500：分类器。本发明中的辅助诊断阶段采用的是多模态模型，将三维人脸重建中输出的人脸形状模型输入进表情分类器1，将输出的人脸表情参数输入进表情分类器2，二者的分类结果相进行联合处理，再做最后的诊断。

具体来说：数据准备：包括三维人脸形状数据和人脸表情参数数据。并根据第二数据集中的医生诊断结果，为每个数据样本分配相应的标签。数据预处理：对人脸形状数据进行降维、特征提取、标准化等操作；对人脸表情参数数据进行标准化和归一化处理。构建两个独立的分类器：分别训练这两个分类器，能够分别对人脸形状和表情参数进行分类。联合处理分类结果：将两个分类器的输出结果根据分类诊断需求进行联合处理。使用神经网络，来融合两个分类结果，以得出最终的综合分类结果，并在步骤600通过计算机进行显示结果。

测试和优化。使用带有3DMM参数的人脸图像进行监督学习，以训练表情分类器。可以使用交叉熵损失或其他适当的损失函数进行训练，并使用梯度下降等优化算法来微调模型参数。在测试阶段，将3DMM参数和重建人脸图像结合，通过训练好的表情分类器来预测人脸图像的表情类别。使用准确性、精确度、召回率等指标来评估模型的性能。具体来说，首先对输入的患者图像进行数据预处理，所述的数据预处理为：将输入视频数据逐帧抽取出的单帧图像进行裁剪。将单一的患者面部提取出来。其次，将输入的患者图像送入到粗略形状编码器和可训练表达形状编码器，然后使用相关的几何和反照率模型作为固定的解码器，并根据回归的表情、身份形状、姿势和反照率参数进行患者面部的三维重建。用于辅助捕捉细微情绪的情感一致性损失在输入图像和渲染后的患者人脸形状经过固定的情感识别网络后，对两张图像之间的情感差异进行正则化。在该阶段，为了学习到患者面部的表情细节，重点关注了双眼角、下颌、上下唇及左右唇角。在进一步的细节训练阶段，图像通过固定的表情编码器，利用回归的表情和下颌姿势参数调节细节编码器，来加深面部褶皱，使患者的微表情更细节，更有利于辅助医生诊断。

同时双相情感障碍患者发病情况具有不确定性并涉及多种因素相互影响，本项目还综合考虑室外环境下的光照和反射等信息，在数字人脸重建模型中考虑了反照率，可以提高深度学习模型在室外环境中辅助诊断过程中的性能，使诊断场景不仅仅局限在诊断室中。对于双相情感障碍诊断阶段，本项目使用人脸检测器MTCNN来定位患者的人脸，将检测到的人脸对齐，进一步利用基于几何的全局特征如患者鼻子周围的标志点、眼睛、嘴巴及纹理的局部特征来捕捉面部表情引起的面部几何形状。将学习到的特征，输入进骨干网络CNN进行特征提取，最后完成双相情感障碍的辅助诊断。

本发明提供一种基于3D人脸重建的情感障碍诊断方法、***，来弥补上述现有技术的空缺，提高双相情感障碍诊断的准确度和解决医疗领域面临的诊断人手不足；双相情感障碍患者的反复发病间歇期间长，通常两到三个月，是否在间歇期间仍然保持着某种抑郁特征；是否出现抑郁发作或者狂躁发作等。因诊断和康复周期较长，医生无法保证全时间段的观察患者情况的变化。本发明中提到的机器辅助情感障碍诊断***，可以在发病间歇期，缓解医生人手不足的情况，更好的协助医生在非诊断场景下诊断病情，及时向医生反馈。本发明的提出可以提高双相情感障碍诊断的准确度和解决人工诊断存在的问题。

本发明提供了一种可以灵活用于诊断场景和非诊断场景情境下的双相情感障碍辅助诊断***。先通过人脸重建模块对测试者的面部进行三维重建，将人脸的整体面部轮廓及面部褶皱和情绪分离开，然后模型将三维人脸模型的几何信息与估计的表情参数相结合，一同输入进多模态神经网络中。使用训练好的情绪分类模型对输入的三维人脸模型和面部表情参数进行推理，以识别人脸的情感。

本申请提出了新的细节连续损失（loss），用于分离人脸ID和表情（颧肌，双眼角，上下唇，左右唇，下颌，颈部），提高诊断准确性。现有的三维人脸重建的模型都是普遍关注人脸的整体轮廓，包括人脸外形，大小和曲线；或是眉骨部位，眼睛的整体轮廓；又或是关注嘴部说话时形状的变化。本发明中，通过观察可视化人脸的数理统计图，细化了数字人脸重建模型关注的部位，发明了双眼角、上下唇、左右唇角、下颌、颧肌的损失来关注面部具体细节以及细节连续损失来将人脸ID和表情分离开，保证原始图像与生成图像之间的连续性和一致性。这里的细节连续损失有助于确保生成的图像在视觉上与生成的三维重建后的图像表达的情感是一致的。首先关注的是双眼角，下颌，上下唇，左右唇角以及鼻子附近的关键点，对面部进行三维重建。又对于专业医生诊断出的双相情感障碍患者数据进行可视化分析，根据辅助诊断的可视化数理统计图显示，情感集中在面部颧肌附近，所以在原基础上增加了颧肌的损失。

细节连续损失的具体形式包括：特征提取：通常使用预训练的CNN（卷积神经网络）来提取；细节特征提取：去除掉模糊版本的特征表示，获取细节特征；计算损失：计算原始图像与生成的重建后的人脸图像之间的细节连续损失；添加到总损失中，有助于生成更加生动更具体的人脸重建图像。总的来说，优化的损失函数为；

其中，表示情绪损失,/>表示光度损失,/>表示眼部闭合损失,/>表示上下唇闭合损失,/>表示左右唇角损失,/>表示左右颧肌损失，/>表示表情正则化器，且每个均由/>加权。通过对双眼角、上下唇、左右唇角、下颌、颧肌部位更细致的关注和学习，解决了人脸重建的面部细微褶皱不明显问题，从而提高了机器辅助诊断双相情感障碍的准确性，使本发明中的重建、分类整体模型的准确率更高，为医生提供更准确的指向；缓解医生忽略细微表情变化而导致漏诊、误诊的情况。

本申请还提出了人脸遮挡，光照，姿态变化（细节分离）光度损失（loss）。本发明提出了一种用于单目野外人脸捕捉的自我监督框架，可以从图像中进行情感分析，并重建具有高度表情的三维人脸。本发明解决了现有技术中由于缺乏多样性的数据集和光照变化等因素导致的三维人脸重建和情感识别的不准确和不稳定的问题。本发明通过将主要传播到重建表情的情感特征与独特的自我监督框架相结合，利用不同表情的大型数据集来学习和重建表情面孔。本发明还使用了一个新颖的光度损失函数，以考虑室外环境下的光照和反射等信息，提高了重建质量和鲁棒性。本发明的优点是它可以从单个视图中恢复准确的三维几何和外观信息，以及对应的情感状态。本发明还可以处理不同情绪状态下的人脸变化，以及遮挡和自遮挡等问题。本发明可以在多种应用场景中使用，例如人机交互、社交媒体、虚拟现实等。

本发明中所述的第一数据集：大规模的包含丰富表情的户外人脸数据集。（预训练模型）本发明中所述的第二数据集：本地医院收集的三类数据，包括单相抑郁患者、双相情感障碍患者和健康对照组。该数据集中医生通过对三类测试者播放五种情绪的刺激视频（Happiness,Anger,Sadness,Fear,Neutral），观察患者在五种刺激下的反应。本发明中先在深度学习模型中使用第一数据集进行训练，并将该模型作为预训练模型，可以学习到大量户外的人脸特征，完成第一次的训练；选择好预训练模型后，加载预训练权重，预训练模型作为特征提取其的一部分，构建一个新的模型框架，再对新构建的模型进行微调来适本发明的辅助诊断任务，使用微调后的模型对第二数据集进行训练，进行模型迁移，根据模型学到的表情细节，使模型可以同时学习到大批量室外的人脸特征。这种训练的策略，学到了大量室外特征，解决了单一场景的诊断问题，可以在户外场景中实现对患者的实时捕捉，使得模型为医生解决人员不足情况下，对康复患者日常生活中的病情监测，使得及时提供准确的单双相抑郁诊断的结果。

具体的，本申请实施例提供了一种用于情感障碍辅助诊断的三维数字人脸处理方法，如图2所示，所述方法包括：

步骤202、获取第一数据集和第二数据集，第一数据集包括第一人脸图像，第二数据集包括第二人脸图像和第二人脸图像的情感标注结果，情感标注结果包括：单相抑郁、双相情感障碍和健康。

步骤204、采取第一数据集来训练人脸形状模型，所述人脸形状模型用于根据第一人脸图像中的第一信息建立人脸三维模型，并依据人脸三维模型的二维人脸图像与第一人脸图像的人脸表情特征的一致性来完成人脸形状模型的训练；第一信息包括：人脸粗略特征、人脸表情特征、人脸细节特征、以及光照特征。光照特征包括照射特征和反射特征。光照特征可以依据人脸图像中的光照确定，也可以通过随机生成的方式进行增加。

步骤206、依据采取第一数据集训练后的人脸形状模型和用于依据人脸形状模型生成的中间结果确定情感分类结果的分类模型组成情感分类模型，并采取第二数据集对情感分类模型进行训练。

本方案可以利用训练好的情感分类模型对需要关注的人物的视频数据进行分析，以辅助诊断，具体的，作为一个可选的实施例，所述方法还包括：获取待分析的视频数据；将视频数据输入到训练好的情感分类模型中进行分析，确定情感分类结果，情感分类结果包括：单相抑郁、双相情感障碍和健康。

第一数据集为包含人脸和背景的图像，为了减少背景的影响，本方案可以先裁剪出人脸图像，以进行后续处理，以避免模型过多关注背景。并且，采取第一数据集对人脸形状模型的训练是无监督的训练，因此，可以通过建模后的人脸三维模型与原图像的人脸表情特征的一致性来完成对模型的训练。具体的，作为一个可选的实施例，所述方法还包括：获取图像数据，并提取出图像数据中的目标人脸图像，目标人脸图像包括第一人脸图像或第二人脸图像；所述人脸形状模型，用于依据以下步骤完成训练：依据目标人脸图像进行建模，确定人脸三维模型；依据人脸三维模型生成二维人脸图像；依据目标人脸图像的人脸表情特征和二维人脸图像的人脸表情特征的一致性，对人脸形状模型进行调整。

本方案可以对模型进行粗略分析、表情分析和细节分析，以建模人脸三维模型。另外，还可以建模人脸三维模型的脖子旋转和眼球旋转，以更好的进行模型训练。具体的，作为一个可选的实施例，所述依据目标人脸图像进行建模，确定人脸三维模型，包括：依据目标人脸图像进行粗略分析，得到第一特征，所述第一特征包括人脸粗略特征、光照特征；依据目标人脸图像进行表情分析，确定人脸表情特征，以确定第二特征，所述第二特征包括：人脸表情特征、下颌姿势特征；所述第二特征还包括脖子的第一旋转特征、眼球的第二旋转特征；依据目标人脸图像进行细节分析，得到第三特征，所述第三特征包括：人脸细节特征，所述人脸细节特征包括以下人脸关键点的特征：双眼角、上下唇、左右唇角、下颌、颧肌；依据第一特征、第二特征和第三特征，确定人脸三维模型。

本方案可以使用对角微注意力机制来检测连续视频帧之间的微小差异，以便更好地理解连续视频帧的语义信息。具体的，作为一个可选的实施例，所述依据目标人脸图像进行细节分析，得到第三特征，包括：依据目标人脸图像和目标人脸图像的相关人脸图像进行细节分析，确定第三特征，所述相关人脸图像包括目标人脸图像在视频数据中对应的视频帧的前后帧的图像。

本申请提出了新的细节连续损失（loss），用于分离人脸ID和表情（颧肌，双眼角，上下唇，左右唇，下颌，颈部），提高诊断准确性。本发明中，通过观察可视化人脸的数理统计图，细化了数字人脸重建模型关注的部位，发明了双眼角、上下唇、左右唇角、下颌、颧肌的损失来关注面部具体细节以及细节连续损失来将人脸ID和表情分离开，保证原始图像与生成图像之间的连续性和一致性。这里的细节连续损失有助于确保生成的图像在视觉上与生成的三维重建后的图像表达的情感是一致的。首先关注的是双眼角，下颌，上下唇，左右唇角以及鼻子附近的关键点，对面部进行三维重建。又对于专业医生诊断出的双相情感障碍患者数据进行可视化分析，根据辅助诊断的可视化数理统计图显示，情感集中在面部颧肌附近，所以在原基础上增加了颧肌的损失。具体的，作为一个可选的实施例，依据人脸三维模型生成二维人脸图像后，所述方法还包括：依据目标人脸图像的第三特征和二维人脸图像的第三特征之间的损失，对人脸三维模型进行调整。

采取人脸形状模型进行建模之后，可以通过分类模型进行进一步分类，具体的，作为一个可选的实施例，中间结果包括人脸形状模型建模的人脸三维模型和基于人脸三维模型生成的二维图像数据，所述分类模型，用于：将人脸三维模型输入到第一分类器中，确定第一分析结果；依据人脸三维模型对应的二维图像数据获取表情参数，并将表情参数输入到第二分类器中，确定第二分析结果；依据第一分析结果和第二分析结果进行联合分析，确定情感分析结果。第二数据集对模型的训练是有监督的训练，可以利用数据对应的标注与模型预测结果之间的差异来完成训练。具体的，作为一个可选的实施例，所述采取第二数据集对情感分类模型进行训练，包括：获取第二人脸图像对应的情感分析结果，并结合第二人脸图像的情感标注结果，对情感分类模型进行调整。

在上述实施例的基础上，本申请实施例还提供一种用于情感障碍辅助诊断的三维数字人脸处理装置，如图3所示，所述装置包括：

数据集获取模块302，用于获取第一数据集和第二数据集，第一数据集包括第一人脸图像，第二数据集包括第二人脸图像和第二人脸图像的情感标注结果，情感标注结果包括：单相抑郁、双相情感障碍和健康。

第一模型训练模块304，用于采取第一数据集来训练人脸形状模型，所述人脸形状模型用于根据第一人脸图像中的第一信息建立人脸三维模型，并依据人脸三维模型的二维人脸图像与第一人脸图像的人脸表情特征的一致性来完成人脸形状模型的训练；第一信息包括：人脸粗略特征、人脸表情特征、人脸细节特征、以及光照特征。

第二模型训练模块306，用于依据采取第一数据集训练后的人脸形状模型和用于依据人脸形状模型生成的中间结果确定情感分类结果的分类模型组成情感分类模型，并采取第二数据集对情感分类模型进行训练。

本申请实施例的实施方式与上述方法实施例的实施方式类似，具体实施方式可以参考上述方法实施例的具体实施方式，此处不再赘述。

在上述实施例的基础上，本申请还提供一种电子设备，包括：存储器和至少一个处理器；所述存储器用于存储计算机执行指令；所述至少一个处理器用于执行所述存储器中存储的计算机执行指令，使得所述至少一个处理器执行如上述实施例所述的方法。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述数据的处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器（Read-OnlyMemory，简称ROM）、随机存取存储器（RandomACGessMemory，简称RAM）、磁碟或者光盘等。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（***）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的定界，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明的实施例可提供为方法、***或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

以上仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种用于情感障碍辅助诊断的三维数字人脸处理方法，其特征在于，所述方法包括：

获取第一数据集和第二数据集，第一数据集包括第一人脸图像，第二数据集包括第二人脸图像和第二人脸图像的情感标注结果，情感标注结果包括：单相抑郁、双相情感障碍和健康；

采取第一数据集来训练人脸形状模型，所述人脸形状模型用于根据第一人脸图像中的第一信息建立人脸三维模型，并依据人脸三维模型的二维人脸图像与第一人脸图像的人脸表情特征的一致性来完成人脸形状模型的训练；第一信息包括：人脸粗略特征、人脸表情特征、人脸细节特征、以及光照特征；

依据采取第一数据集训练后的人脸形状模型和用于依据人脸形状模型生成的中间结果确定情感分类结果的分类模型组成情感分类模型，并采取第二数据集对情感分类模型进行训练。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取待分析的视频数据；

将视频数据输入到训练好的情感分类模型中进行分析，确定情感分类结果，情感分类结果包括：单相抑郁、双相情感障碍和健康。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取图像数据，并提取出图像数据中的目标人脸图像，目标人脸图像包括第一人脸图像或第二人脸图像；

所述人脸形状模型，用于依据以下步骤完成训练：

依据目标人脸图像进行建模，确定人脸三维模型；

依据人脸三维模型生成二维人脸图像；

依据目标人脸图像的人脸表情特征和二维人脸图像的人脸表情特征的一致性，对人脸形状模型进行调整。

4.根据权利要求3所述的方法，其特征在于，所述依据目标人脸图像进行建模，确定人脸三维模型，包括：

依据目标人脸图像进行粗略分析，得到第一特征，所述第一特征包括人脸粗略特征、光照特征；

依据目标人脸图像进行表情分析，确定人脸表情特征，以确定第二特征，所述第二特征包括：人脸表情特征、下颌姿势特征；所述第二特征还包括脖子的第一旋转特征、眼球的第二旋转特征；

依据目标人脸图像进行细节分析，得到第三特征，所述第三特征包括：人脸细节特征，所述人脸细节特征包括以下人脸关键点的特征：双眼角、上下唇、左右唇角、下颌、颧肌；

依据第一特征、第二特征和第三特征，确定人脸三维模型。

5.根据权利要求4所述的方法，其特征在于，所述依据目标人脸图像进行细节分析，得到第三特征，包括：

依据目标人脸图像和目标人脸图像的相关人脸图像进行细节分析，确定第三特征，所述相关人脸图像包括目标人脸图像在视频数据中对应的视频帧的前后帧的图像。

6.根据权利要求4所述的方法，其特征在于，依据人脸三维模型生成二维人脸图像后，所述方法还包括：

依据目标人脸图像的第三特征和二维人脸图像的第三特征之间的损失，对人脸三维模型进行调整。

7.根据权利要求1所述的方法，其特征在于，中间结果包括人脸形状模型建模的人脸三维模型和基于人脸三维模型生成的二维图像数据，所述分类模型，用于：

将人脸三维模型输入到第一分类器中，确定第一分析结果；

依据人脸三维模型对应的二维图像数据获取表情参数，并将表情参数输入到第二分类器中，确定第二分析结果；

依据第一分析结果和第二分析结果进行联合分析，确定情感分析结果。

8.根据权利要求7所述的方法，其特征在于，所述采取第二数据集对情感分类模型进行训练，包括：

获取第二人脸图像对应的情感分析结果，并结合第二人脸图像的情感标注结果，对情感分类模型进行调整。

9.一种用于情感障碍辅助诊断的三维数字人脸处理装置，其特征在于，所述装置包括：

数据集获取模块，用于获取第一数据集和第二数据集，第一数据集包括第一人脸图像，第二数据集包括第二人脸图像和第二人脸图像的情感标注结果，情感标注结果包括：单相抑郁、双相情感障碍和健康；

第一模型训练模块，用于采取第一数据集来训练人脸形状模型，所述人脸形状模型用于根据第一人脸图像中的第一信息建立人脸三维模型，并依据人脸三维模型的二维人脸图像与第一人脸图像的人脸表情特征的一致性来完成人脸形状模型的训练；第一信息包括：人脸粗略特征、人脸表情特征、人脸细节特征、以及光照特征；

第二模型训练模块，用于依据采取第一数据集训练后的人脸形状模型和用于依据人脸形状模型生成的中间结果确定情感分类结果的分类模型组成情感分类模型，并采取第二数据集对情感分类模型进行训练。

10.一种电子设备，其特征在于，包括：存储器和至少一个处理器；

所述存储器用于存储计算机执行指令；

所述至少一个处理器用于执行所述存储器中存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1-8任一项所述的方法。