CN113792574B

CN113792574B - 一种基于度量学习和教师学生模型的跨数据集表情识别方法

Info

Publication number: CN113792574B
Application number: CN202110796949.7A
Authority: CN
Inventors: 孟浩; 袁菲; 田洋; 闫天昊
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2023-12-19
Anticipated expiration: 2041-07-14
Also published as: CN113792574A

Abstract

本发明提出的基于距离度量学习的方法对图像进行权重加权，它显式地减少了训练过程中表情特征之间的类内差异从而使预测的精度更高；本发明使用教师学生模型进行全监督学习从而扩大训练数据的规模和提高训练数据的标签质量，提高深度卷积神经网络模型的性能。本发明采用源数据集和目标数据集的融合在精度和泛化能力之间提供了最佳的折衷，来达到跨数据集人脸表情识别一个较好的结果，提供了一个融合数据集的可选择方案，解决了数据集规模小和跨数据集表情识别忽略源数据集性能的问题；本发明解决了数据集标签错误多的缺点，进而提高深度卷积神经网络的分类精度。

Description

一种基于度量学习和教师学生模型的跨数据集表情识别方法

技术领域

本发明属于深度学习与计算机视觉领域，具体涉及的是一种基于通过度量学习和教师学生模型的跨数据集表情识别方法。

背景技术

大规模的高质量表情数据集是深度学习时代面部表情识别的一个特别重要的条件，但是大多数用于面部表情识别的数据集相对较小，解决该问题的一种常见方法是使用跨数据集策略。然而表情数据集存在遮挡、姿态和光照等因素导致的不明确的表情和低质量的人脸图像等问题，并且由于不同的采集条件和主观标注过程，不同的人脸表情识别数据集之间不可避免地存在数据不一致的问题。对于图像不确定性问题，Kai Wang提出的self-cure-network针对单个数据集的效果很好，但是跨数据集的鲁棒性还有待提高。他利用预先训练的学习者计算的概率分数进行权重加权。在跨数据集FER中，通常是在不同的条件下针对不同的目标任务收集数据，这使得这些数据库之间的条件分布不同，即“畴移”。Liu P提出根据概率分数生成相应的伪标签，是比较容易出错的，进而误导网络学习过程。度量学习通过“学习比较相似度”使得不同类别的图片相似度小而相同类别的图片相似度大，从而来解决分类问题，实验证明会比传统的softmax效果更好，即学习特征分布的相似性对于分类的精度和鲁棒性是很重要的。并且目前大多数跨数据集表情识别的工作是在源数据集上和目标数据集上提取共性表情特征或者比较分类器，使源数据集上训练的CNN最大程度地去适应目标数据集，忽略了源数据集本身的性能。教师学生模型的方法，属于迁移学习的一种。利用一个性能较好的教师模型，在神经元的级别上，来监督学生模型的训练，相当于提高了模型参数的利用率。大量的研究都采用半监督学习，通过扩大训练数据的规模和提高训练数据标签质量来提高深度卷积神经网络模型的性能。这些工作集中在引入大量未标记数据，但是未标记数据的域和现有数据的域之间可能会产生更多偏差，从而会影响整体数据的优化调整过程。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出一种基于度量学习和教师学生模型的跨数据集表情识别方法。

本发明的目的是这样实现的：

一种基于度量学习和教师学生模型的跨数据集表情识别方法，包括以下步骤：

S1：对数据集预处理，利用卷积神经网络提取图像特征；

S2：通过基于距离度量学习方法对表情图像数据集进行图像重要性权重打分；

S3：通过教师学生模型交叉训练重新标记不确定性图像；

S4：确定重要性权重排序后原始教师模型与学生模型在数据集中所占比例；

S5：融合表情数据集训练以得到一个在源数据集和目标数据集上精度和泛化能力最佳的数据集。

本发明还包括这样一些特征：

1.所述的步骤S1包括以下步骤：

S1.1：采用直方图均衡化对数据集进行光照统一；

S1.2：对每个图像样本X_i,利用RESNET18作为Backbone提取图像特征，从头训练特征提取器F_θ(X_i)；

2.所述的步骤S2包括以下步骤：

S2.1:对于输入特征F_θ(X_i)，计算每个类别在特征空间中的质心：

式中，center_j为第j类在特征空间中的质心，y_i表示类别数；

S2.2:对于每个数据样本X_i，计算出其特征F_θ(X_i)与每个面部表情中心之间的Manhattan距离：

d(center_j,F_i)＝||center_j ^p-F_θ(X_i)^p||

式中，p是维度；

S2.3:获得距离与所有类特征学习权重矩阵[w₁,w₂,…,w_n]与之间的余弦相似性得分 [S_i,1,S_i,2,...,S_i,n]，其中：

式中，W_j是权重矩阵；

S2.4:通过softmax函数对这些余弦相似性得分进行归一化来获得每个类的预测概率P；

3.所述的步骤S3包括以下步骤：

S3.1:对于数据特征的学习权重与距离之间的余弦相似性归一化概率值得分低的组，即距离类中心最远的组，剔除掉，对于其余得分高的组重新训练得到一个精度很好的模型作为基模型，即教师模型，是整个训练的原始分类器，并在固定的测试集上测试，获得测试精度；

S3.2:取出得分低的组的一部分子集数据，作为学生模型，对于每个数据X_i，将其反馈给已经学习好的教师模型F_θ(X_i)，在教师模型的指导下，根据S2的公式，计算新的Manhattan 距离和新的余弦相似性得分，此处，在训练学生模型时，以随机数据增加和丢失的形式添加噪声；

S3.3:基于在softmax输出层之前提取的高层特征之间的相似性，根据以下公式为每个需要重新做标记的样本设置伪标签，为学生模型数据选择相关的类别：

其中，P_new是指需要重新标记的样本通过教师模型预测得到的概率值得分，P_old指这些样本最原始标签的概率值得分，γ是边界阈值。Unkown是指一些不知道是什么类别的图片，基本上都不是人脸，是一些其它的东西；

S3.4:确定好这一部分学生模型的标签后，和原来的教师模型数据融合，重新训练得到新的教师模型，获得测试概率，若测试精度大于上一个教师模型的测试精度，则将这个教师模型作为新的教师模型，再取出之前得分低的组的一部分需要重新标记的数据作为新的学生模型生成新的伪标签；若测试精度小于上一个教师模型的测试精度，则先进行判断不确定数据是否用尽，若用尽，则停止训练，若没用尽，则重新取出之前得分低的组的一部分需要重新标记的数据作为新的学生模型生成新的伪标签；

S3.5:重复S32到S34的训练过程，迭代训练不断反馈给教师模型F_θ(X_i)来细化参数θ和分类器参数W，教师模型和学生模型一直都在训练变化，一直持续到性能饱和为止。

4.所述的步骤S4包括以下步骤：

S4.1：对于每个表情图像计算得到标签的概率得分即重要性权重，进行排序；

S4.2：分别剔除掉排序靠后的40％、30％、20％、10％的低分数据，用剩下的高分数据，重新训练,得到的模型作为教师模型；

S4.3：对于之前剔除的40％、30％、20％、10％的低分数据，每一次使用一部分子集根据 S33进行标签重新标记，作为学生模型，根据S3，采用教师学生模型进行迭代训练，保存最终的模型，在测试集上进行测试；

S4.4：根据测试结果进行比较，确定最好的效果对应的原始教师模型和学生模型在数据集上所占的比例；

5.所述的步骤S5包括以下步骤：

S5.1：将需要的每一个数据集分为训练集和测试集；

S5.2：将每个数据集的训练集分别作为源数据集训练，进行Inner-dataset和Cross-dataset 实验，在每个数据集的测试集上进行测试，得到源数据集在每个目标数据集上的识别率和平均识别率；

S5.3：根据单个数据集的实验结果，将数据集的训练集两两融合作为源数据集进行训练，分别在目标测试集即每个数据集的测试集上进行测试，得到融合两个数据集作为源数据集在每个目标数据集上的识别率和平均识别率；

S5.4：根据S53的平均识别率的结果，分析后进一步进行融合三个数据集作为源数据集的实验，在得到的平均识别率的基础上，进一步进行融合，在源数据集中迭代增加目标数据集，以更新训练集，直到融合所有的数据集，得到一个在源数据集和目标数据集上效果最好的模型。这里融合数据集的原则，第一是按照每一步实验源数据集在目标数据集上得到的平均识别率的大小一步一步融合的规则，第二是遵循实验数据量大可以提高数据集泛化能力的规则。

与现有技术相比，本发明的有益效果是：

1.提出的基于距离度量学习的方法对图像进行权重加权，它显式地减少了训练过程中表情特征之间的类内差异从而使预测的精度更高；

2.使用教师学生模型进行全监督学习从而扩大训练数据的规模和提高训练数据的标签质量，提高深度卷积神经网络模型的性能。此处引入的大量数据属于源数据集的一部分，而不是额外再添加的从未出现的数据，使得未标记数据的域和现有数据的域之间不会产生更多偏差，从而不会影响整体数据的优化调整过程。

3.采用源数据集和目标数据集的融合在精度和泛化能力之间提供了最佳的折衷，来达到跨数据集人脸表情识别一个较好的结果，提供了一个融合数据集的可选择方案，解决了数据集规模小和跨数据集表情识别忽略源数据集性能的问题；

4.提出了一种提高大规模数据集确定性的方法，解决了数据集标签错误多的缺点，进而提高深度卷积神经网络的分类精度。

附图说明

图1为本发明的整体结构图；

图2为特征分布图；

图3为重要性权重图；

图4为数据集里unknown图像；

图5为教师学生重新标记机制流程图；

图6为部分重新标签图像；

图7为直方图均衡化统一光照图；

图8为剔除不同比例低分数据结果对比图；

图9为本发明法和SCN在单个数据集上实验结果对比图；

图10为本发明法和最新的跨数据集方法实验结果对比图；

具体实施方式

下面结合附图对本发明具体实施方式做进一步说明。

如图1所示，为本发明的网络结构图。首先对数据集进行预处理，利用卷积神经网络提取面部表情图像特征；然后通过基于距离度量学习方法对表情图像数据集进行图像重要性权重打分；再通过教师学生模型交叉训练重新标记不确定性图像；确定重要性权重排序后原始教师模型与学生模型在数据集中所占比例；最后融合表情数据集训练以得到一个在源数据集和目标数据集上精度和泛化能力最佳的数据集，从而实现对面部表情的识别。

一种基于度量学习和教师学生模型的跨数据集表情识别方法，它包括以下步骤：

S1:对数据集预处理，利用卷积神经网络提取图像特征；

特征在视觉识别任务中起着关键作用，目前的算法主要是利用深层神经网络来提取可学习的视觉特征。然而，不同深度网络所提取的特征具有不同的识别和泛化能力。不同的数据集光照色彩不同会带来跨数据集的噪声。

所述的步骤S1包括以下子步骤：

S1.1：采用直方图均衡化对数据集进行光照统一；

直方图均衡化进行统一光照如图7所示；

S2:通过基于距离度量学习方法对表情图像数据集进行图像重要性权重打分；

根据概率分数生成相应的伪标签，是比较容易出错的，进而误导网络学习过程。度量学习通过“学习比较相似度”使得不同类别的图片相似度小而相同类别的图片相似度大，从而来解决分类问题，实验证明会比传统的softmax效果更好，即学习特征分布的相似性对于分类的精度和鲁棒性是很重要的；

所述的步骤S2包括以下子步骤：

式中，center_j为第j类在特征空间中的质心，y_i表示类别数；

d(center_j,F_i)＝||center_j ^p-F_θ(X_i)^p||

式中，p是维度；

S2.3:获得距离与所有类特征学习权重矩阵[w₁,w₂,…,w_n]与之间的余弦相似性得分[S_i,1,S_i,2,...,S_i,n]，其中：

式中，W_j是权重矩阵；

数据集特征分布如图2所示，对数据集重要性权重打分图如图3所示；

S3:通过教师学生模型交叉训练重新标记不确定性图像；

通过扩大训练数据的规模和提高训练数据标签质量来提高深度卷积神经网络模型的性能；

所述的步骤S3包括以下子步骤：

数据集里需要删除的unknown图像如图4所示；教师学生模型交叉训练流程图如图5所示；部分重新标签图像如图6所示；

S4:确定重要性权重排序后原始教师模型与学生模型比例；

原始不同教师学生模型比例会对最终的表情识别准确率有影响；

所述的步骤S4包括以下子步骤：

剔除不同比例低分数据结果对比图如图8所示；

S5:融合表情数据集训练以得到一个在源数据集和目标数据集上精度和泛化能力最佳的数据集；

大多数用于面部表情识别的数据集相对较小，解决该问题的一种常见方法是使用跨数据集策略，考虑源数据集本身的性能，在源数据集中迭代增加目标数据集，以更新训练集，用最少的数据集得到一个在各个表情数据集上平均识别率更好的源数据集。源数据集和目标数据集的融合在精度和泛化能力之间提供了最佳的折衷；

所述的步骤S5包括以下子步骤：

S5.1：将需要的每一个数据集分为训练集和测试集；

本发明提出的方法和SCN方法在单个数据集上比较图如图9所示；本发明提出的方法和最新的跨数据集表情识别实验结果对比图如图10所示。

上述实施例为本发明的最佳实施方式，但本发明的实施方式不受限于上述实施例，其他的任何不脱离本发明原理所作的诸如简化、改变、替换、组合的置换方式，都包含在本发明的保护范围之类。

Claims

1.一种基于度量学习和教师学生模型的跨数据集表情识别方法，其特征是：包括以下步骤：

S1：对数据集预处理，利用卷积神经网络提取图像特征；

S1.1：采用直方图均衡化对数据集进行光照统一；

S2.1：对于输入特征F_θ(X_i)，计算每个类别在特征空间中的质心：

式中，center_j为第j类在特征空间中的质心，y_i表示类别数；

S2.2：对于每个数据样本X_i，计算出其特征F_θ(X_i)与每个面部表情中心之间的Manhattan距离：

d(center_j,F_i)＝||center_j ^p-F_θ(X_i)^p||

式中，p是维度；

S2.3：获得距离与所有类特征学习权重矩阵[w₁,w₂,…,w_n]与之间的余弦相似性得分[S_i,1,S_i,2,...,S_i,n]，其中：

式中，W_j是权重矩阵；

S2.4：通过softmax函数对这些余弦相似性得分进行归一化来获得每个类的预测概率P；

S3：通过教师学生模型交叉训练重新标记不确定性图像；

S3.1：对于数据特征的学习权重与距离之间的余弦相似性归一化概率值得分低的组，即距离类中心最远的组，剔除掉，对于其余得分高的组重新训练得到一个精度很好的模型作为基模型，即教师模型，是整个训练的原始分类器，并在固定的测试集上测试，获得测试精度；

S3.2：取出得分低的组的一部分子集数据，作为学生模型，对于每个数据X_i，将其反馈给已经学习好的教师模型F_θ(X_i)，在教师模型的指导下，根据S2的公式，计算新的Manhattan距离和新的余弦相似性得分，此处，在训练学生模型时，以随机数据增加和丢失的形式添加噪声；

S3.3：基于在softmax输出层之前提取的高层特征之间的相似性，根据以下公式为每个需要重新做标记的样本设置伪标签，为学生模型数据选择相关的类别：

其中，P_new是指需要重新标记的样本通过教师模型预测得到的概率值得分，P_old指这些样本最原始标签的概率值得分，γ是边界阈值；Unkown是指一些不知道是什么类别的图片，基本上都不是人脸，是一些其它的东西；

S3.4：确定好这一部分学生模型的标签后，和原来的教师模型数据融合，重新训练得到新的教师模型，获得测试概率，若测试精度大于上一个教师模型的测试精度，则将这个教师模型作为新的教师模型，再取出之前得分低的组的一部分需要重新标记的数据作为新的学生模型生成新的伪标签；若测试精度小于上一个教师模型的测试精度，则先进行判断不确定数据是否用尽，若用尽，则停止训练，若没用尽，则重新取出之前得分低的组的一部分需要重新标记的数据作为新的学生模型生成新的伪标签；

S3.5：重复S3.2到S3.4的训练过程，迭代训练不断反馈给教师模型F_θ(X_i)来细化参数θ和分类器参数W，教师模型和学生模型一直都在训练变化，一直持续到性能饱和为止；

S4.2：分别剔除掉排序靠后的40％、30％、20％、10％的低分数据，用剩下的高分数据，重新训练，得到的模型作为教师模型；

S4.3：对于之前剔除的40％、30％、20％、10％的低分数据，每一次使用一部分子集根据S3.3进行标签重新标记，作为学生模型，根据S3，采用教师学生模型进行迭代训练，保存最终的模型，在测试集上进行测试；

S5：融合表情数据集训练以得到一个在源数据集和目标数据集上精度和泛化能力最佳的数据集；

S5.1：将需要的每一个数据集分为训练集和测试集；

S5.2：将每个数据集的训练集分别作为源数据集训练，进行Inner-dataset和Cross-dataset实验，在每个数据集的测试集上进行测试，得到源数据集在每个目标数据集上的识别率和平均识别率；

S5.4：根据S5.3的平均识别率的结果，分析后进一步进行融合三个数据集作为源数据集的实验，在得到的平均识别率的基础上，进一步进行融合，在源数据集中迭代增加目标数据集，以更新训练集，直到融合所有的数据集，得到一个在源数据集和目标数据集上效果最好的模型；这里融合数据集的原则，第一是按照每一步实验源数据集在目标数据集上得到的平均识别率的大小一步一步融合的规则，第二是遵循实验数据量大可以提高数据集泛化能力的规则。