CN113420806B

CN113420806B - 一种人脸检测质量评分方法及***

Info

Publication number: CN113420806B
Application number: CN202110688239.2A
Authority: CN
Inventors: 刘芳; 任保家; 黄欣研; 李玲玲; 刘洋; 刘旭; 郭雨薇; 郝泽华
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2023-02-03
Anticipated expiration: 2041-06-21
Also published as: CN113420806A

Abstract

本发明公开了一种人脸检测质量评分方法及***，构造人脸检测网络并进行预训练，使得模型可以准确定位出人脸的位置；同时提出了一种可以在训练过程中对奖惩进行自动调节的奖励函数，并与人脸检测网络组成环境生成器；使用浅层卷积神经网络构成智能体对人脸质量进行评分。训练智能体时采用了经验回放策略和目标Q网络算法，可以有效的提升训练速度和模型的性能。本发明利用不同质量的人脸之间的差异性较大这一特性，并结合深度强化学习思想与自调节奖惩机制实现对人脸的质量评分，能够高效的从视频数据中选出质量较好的人脸，提升人脸识别***的性能。

Description

一种人脸检测质量评分方法及***

技术领域

本发明属于计算机视觉技术领域，具体涉及一种人脸检测质量评分方法及***。

背景技术

近年来，借助深度学习技术的飞速发展，人脸检测技术取得了长足的进步。这得益于不断更新换代的先进神经网络架构和科研工作者在人脸检测理论上的坚持不懈的付出。基于深度学习的人脸检测技术的进步也推动着相关的应用产品的成功落地，依托深度神经网络的强大的特征提取能力和轻量化神经网络的实时性能，人脸检测已经在校园安全、生活服务等领域取得了较为不错的成果。

但是，对于整个人脸识别***而言，依然存在一定的问题。对于能不能检测到人脸的问题，当前的人脸检测算法可以很好的处理；但是，对于检测到人脸的质量是否能够达到进行识别的标准，却有些力不从心。在真实的视频监控场景中，人出现在视频画面中的状态是随机的。这种随机性包括两个方面。首先，外部环境的变化是随机的，捉摸不定的天气状况，昼夜更替的时间都会影响视频的质量；其次，人出现在画面时的面部表情和姿态也是不确定的。这些因素都对最终的识别结果起着至关重要的影响。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种人脸检测质量评分方法及***，通过在基于深度学习的人脸检测方法的基础上结合强化学习方法训练一个由浅层卷积网络构成的智能体对人脸质量进行评分，并提出一种可以在训练过程中自动调节奖惩力度的奖励函数，使得算法在准确的检测到人脸的同时也可以给出一个质量分数，可以高效的从视频数据中选出关键人脸。

本发明采用以下技术方案：

一种人脸检测质量评分方法，包括以下步骤：

S1、获取人脸图像及其对应的标注数据，构造形式为人脸-人脸标注的成对数据集；

S2、构造人脸检测网络D，将步骤S1构造的成对数据集分批次输入到人脸检测网络D中进行训练，每批次的大小为B；

S3、构造智能体RLQAgent，智能体RLQAgent的输入是状态s；

S4、构造训练过程中自动调整奖惩力度的奖励函数R(s,a)；并与步骤S2的人脸检测网络D组合成环境生成器Env，Env产生状态s，将状态s输入到步骤S3构造的智能体RLQAgent中，得到决策动作a；根据状态s和决策动作a得到奖励值R；

S5、构造经验回放池ReplayBuffer，对步骤S4得到的数据[s,a,R,s′]进行缓存，s′为下一时刻环境Env产生的状态；

S6、构造目标Q网络Q_target和实时Q网络Q_real，将目标Q网络Q_target作为参考的智能体RLQAgent，用于输出累计奖励值的期望；将实时Q网络Q_real作为实时训练的智能体RLQAgent，使用步骤S5构造的经验回放池ReplayBuffer对实时Q网络Q_real进行训练，得到实时Q网络Q_real的网络权重Θ；

S7、使用步骤S6得到的网络权重Θ初始化智能体RLQAgent，并与步骤S2的人脸检测网络D进行组合，实现在检测到人脸F的同时完成对人脸F的质量评分。

具体的，步骤S2中，构造人脸检测网络D具体为：

S201、构造骨干网络Resnet50，产生3种不同尺度的特征T₁，T₂，T₃；

S202、构造包括第一上采样层U₁、第二上采样层U₂、第三上采样层U₃的特征金字塔网络FPN，得到中间特征T₁，T₂，T₃；

S203、构造包括第一3×3卷积层、第一5×5卷积层、第二5×5卷积层、第一7×7卷积层和第二7×7卷积层的上下文信息模块SSH，得到最终特征F₁，F₂，F₂；

S204、构造人脸框头部BoxHead、关键点头部LandMarkHead、二分类器Classification；产生最终的人脸位置、人脸关键点和是否为人脸的概率。

具体的，步骤S3中，构造智能体RLQAgent的步骤具体为：

S301、构造包含第一卷积层、第一最大池化层、第一BatchNorm层、第二卷积层、第二最大池化层、第二BatchNorm层、第三卷积层、第三最大池化层、第三BatchNorm层和全连接层的智能体网络；

S302、通过智能体网络输出动作分类a和期望奖励值Q。

具体的，步骤S4中，奖励函数R(s,a)具体为：

其中，Epochs为总训练代数，epoch为当前代数。

具体的，步骤S5中，经验回放池ReplayBuffer为双端队列，容量为固定值512。

具体的，步骤S6具体为：

S601、重置环境Env，得到初始的状态s₀；

S602、随机初始化经验回放池ReplayBuffer，得到[s,a,R,s′]数据，[s,a,R,s′]数据中的s为步骤S601中得到的初始状态s₀；

S603、从经验回放池ReplayBuffer中获取64个样本；

S604、使用步骤S603中得到的64个样本训练实时Q网络Q_real并计算损失值，并增加正则项部分对模型进行约束，通过批随机梯度下降的方法更新实时Q网络Q_real中的网络权重Θ；

S605、将实时Q网络Q_real与环境Env交互，并将产生新的[s,a,R,s′]的记录存放到经验回放池ReplayBuffer；

S606、重复步骤S605，直到达到512次；

S607、根据更新频率判断是否需要更新目标Q网络Q_target，如果需要更新，转到步骤S608，否则，转到步骤S609；

S608、将智能体Q_real的权重Θ拷贝到目标Q网络Q_target中；

S609、重复步骤S603～步骤S608，直到完成训练，并输出实时Q网络Q_real中的权重Θ。

进一步的，步骤S604中，损失值L(Θ)计算如下：

其中，

为累计奖励期望值，L(Θ)为损失值，γ为衰减因子；λ为正则项系数，Θ为实时Q网络Q_real的权重。

进一步的，步骤S609的次数为200次。

具体的，步骤S7具体为：

S701、将图像I输入到人脸检测网络D中，得到人脸的具***置P；

S702、根据人脸的具***置P得到人脸F；

S703、将人脸F输入到RLQAgent智能体中进行网络评分，得到质量分数score；

S704、输出人脸和其对应的分数[F,score]。

本发明的另一技术方案是，一种人脸检测质量评分***，包括：

数据模块，获取人脸图像及其对应的标注数据，构造形式为人脸-人脸标注的成对数据集；

训练模块，构造人脸检测网络D，将数据模块构造的成对数据集分批次输入到人脸检测网络D中进行训练，每批次的大小为B；

智能体模块，构造智能体RLQAgent，智能体RLQAgent的输入是状态s；

奖励模块，构造训练过程中自动调整奖惩力度的奖励函数R(s,a)；并与训练模块的人脸检测网络D组合成环境生成器Env，Env产生状态s，将状态s输入到智能体模块构造的智能体RLQAgent中，得到决策动作a；根据状态s和决策动作a得到奖励值R；

经验模块，构造经验回放池ReplayBuffer，对奖励模块得到的数据[s,a,R,s′]进行缓存，s′为下一时刻环境Env产生的状态；

权重模块，构造目标Q网络Q_targer和实时Q网络Q_real，将目标Q网络Q_target作为参考的智能体RLQAgent，用于输出累计奖励值的期望；将实时Q网络Q_real作为实时训练的智能体RLQAgent，使用经验模块构造的经验回放池ReplayBuffer对实时Q网络Q_real进行训练，得到实时Q网络Q_real的网络权重Θ；

评分模块，使用权重模块得到的网络权重Θ初始化智能体RLQAgent，并与训练模块的人脸检测网络D进行组合，实现在检测到人脸F的同时完成对人脸F的质量评分。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种基于深度强化学习与自调节奖惩机制的人脸检测质量评分方法，与现有的人脸检测方法不同，本方法可以在检测到人脸的同时完成对人脸质量的评分。首先构造人脸检测网络并进行预训练，使得模型可以准确定位出人脸的位置；同时提出了一种渐次收敛的奖励函数，并与人脸检测网络组成环境生成器；使用浅层卷积神经网络构成智能体对人脸质量进行评分，在实现评分功能的同时，增加的计算量可以忽略不计。训练智能体时采用了经验回放策略和目标Q网络算法，可以有效的提升训练速度和模型的性能。本发明利用不同质量的人脸之间的差异性较大这一特性，并结合深度强化学习与自调节奖惩机制思想实现对人脸的质量评分，能够高效的处理从视频数据中选出关键人脸的问题。

进一步的，使用数据集对人脸检测网络D进行预训练，使得可以准确的从视频或者图像中检测出人脸的具***置P。

进一步的，构造智能体RLQAgent，其由浅层卷积神经网络，采用强化学习方法进行训练后可以在不增加开销的情况下与人脸检测网络D结合实现对人脸质量的评分。

进一步的，构造一种渐次收敛的奖励函数R(s,a)，在智能体训练的早期阶段，因为模型进行决策时具有较大的随机性，更容易做出错误的决定。所以在这一阶段，需要加大惩罚的力度。随着训练的进行，模型的决策能力也在不断的增强；因此，在训练的后期逐渐降低惩罚力度，恢复到与奖励相同的水平。

进一步的，构建经验回放池ReplayBuffer，用于缓存[s,a,R,s′]数据。采用经验回放的策略可以大幅度的缩短模型的训练时间。

进一步的，使用目标Q网络算法对智能体RLQAgent进行训练，结合经验回放策略可以快速的训练出具有良好决策能力的智能体对人脸进行质量评分。

综上所述，本发明首先构造人脸检测网络并进行预训练，使得模型可以准确定位出人脸的位置；同时提出了一种渐次收敛的奖励函数，并与人脸检测网络组成环境生成器；使用浅层卷积神经网络构成智能体对人脸质量进行评分，在实现评分功能的同时，增加的计算量可以忽略不计。训练智能体时采用了经验回放策略和目标Q网络算法，可以有效的提升训练速度和模型的性能。本发明利用不同质量的人脸之间的差异性较大这一特性，并结合深度强化学习与自调节奖惩机制思想实现对人脸的质量评分，能够高效的处理从视频数据中选出关键人脸的问题。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的人脸检测网络D的结构图；

图2为智能体RLQAgent的网络结构图；

图3为智能体RLQAgent与环境Env交互图；

图4为目标Q网络算法原理示意图；

图5为评分结果对比图，其中，(a)为本发明方法，(b)为FaceQNet方法。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明提供了一种人脸检测质量评分方法，基于深度强化学习与自调节奖惩机制，首先构造人脸检测网络并进行预训练，使得模型可以准确定位出人脸的位置；同时提出了一种渐次收敛的奖励函数，并与人脸检测网络组成环境生成器；使用浅层卷积神经网络构成智能体对人脸质量进行评分，在实现评分功能的同时，增加的计算量可以忽略不计。训练智能体时采用了经验回放策略和目标Q网络算法，可以有效的提升训练速度和模型的性能。本发明利用不同质量的人脸之间的差异性较大这一特性，并结合深度强化学习与自调节奖惩机制思想实现对人脸的质量评分，能够高效的处理从视频数据中选出关键人脸的问题。

本发明一种人脸检测质量评分方法，包括以下步骤：

S1、获取人脸图像

及其对应的标注数据

X为人脸图像，K为人脸图像的数量，其中X∈R^NxN，R表示实数域。I(X)∈{0,1}，表示是否为人脸；P(X)∈R^8x1，表示人脸的位置；L(X)∈R^10x，表示人脸关键点位置；构造形式为“人脸-人脸标注”的成对数据集

S2、构造人脸检测网络D，将步骤S1中的成对数据集

分批次输入到人脸检测网络D中进行训练，每批次的大小为B；

请参阅图1，人脸检测网络D具体为：

S201、构造骨干网络Resnet50，用于产生3种不同尺度的特征T₁，T₂，T₃；

S202、构造特征金字塔网络FPN，其由第一上采样层U₁、第二上采样层U₂、第三上采样层U₃组成，用于得到中间特征T₁，T₂，T₃；

S203、构造上下文信息模块SSH，其由第一3×3卷积层、第一5×5卷积层、第二5×5卷积层、第一7×7卷积层和第二7×7卷积层组成，用于得到最终特征F₁，F₂，F₃；

S204、构造人脸框头部BoxHead、关键点头部LandMarkHead、二分类器Classification；用于产生最终的人脸位置、人脸关键点和是否为人脸的概率。

S3、构造智能体RLQAgent，其输入是状态s，即不同姿态的人脸图像；在训练阶段输出的是动作a，即判断人脸质量的好与坏；在推理阶段输出的是人脸分数q，q∈[0,1]；

请参阅图2，构造智能体RLQAgent具体为：

S301、构造智能体网络，其由第一卷积层、第一最大池化层、第一BatchNorm层、第二卷积层、第二最大池化层、第二BatchNorm层、第三卷积层、第三最大池化层、第三BatchNorm层和全连接层组成；

S302、输出动作分类a和期望奖励值Q。

S4、构造奖励函数R(s,a)。并与人脸检测网络D组合成环境生成器Env。Env产生状态s，送入步骤S3中的智能体RLQAgent，得到决策动作a；然后根据状态s和动作a得到奖励值R；构造的奖励函数R(s,a)的公式具体为：

其中，a为智能体根据状态产生的动作，Epochs为总训练代数，epoch为当前代数。

S5、构造经验回放池ReplayBuffer，用于缓存[s,a,R,s′]数据；a为智能体RLQAgent根据状态s执行的动作，R为环境给出的奖励值，s′为下一时刻环境Env产生的状态；

具体的，构造的经验回放池为双端队列，容量为固定值512，用于存放智能体进行决策的历史数据[s,a,R,s′]。

请参阅图3，智能体与环境进行交互并存储经验数据的具体过程：人脸检测网络D输出不同质量的人脸，即状态s，智能体RLQAgent根据状态s得到动作a；使用奖励函数R(s,a)计算具体的奖励值R；人脸检测网络D输出下一时刻状态s′；将数据对[s,a,R,s′]缓存到经验回放池ReplayBuffer中。

S6、构造目标Q网络Q_target和实时Q网络Q_real，Q_target为作为参考的智能体，，用于输出累计奖励值的期望；Q_real为实时训练的智能体；并使用步骤S5中的经验回放池ReplayBuffer对实时Q网络Q_real进行训练，得到网络权重Θ；

请参阅图4，目标Q网络算法的流程具体为：

S601、重置环境Env，得到初始状态s₀；

S602、随机初始化经验回放池ReplayBuffer，得到[s,a,R,s′]数据，ReplayBuffer中的第一条数据中的s为步骤S601中得到s₀；

S603、从经验回放池ReplayBuffer中获取64个样本；

S604、计算损失值，并增加正则项部分对模型进行约束。通过批随机梯度下降的方法更新实时Q网络Q_real中的权重Θ；计算损失值L(Θ)的公式如下所示：

其中，R(s,a)为环境根据状态s和智能体采取的动作a输出的奖励值；γ为衰减因子；λ为正则项系数，Θ为实时Q网络Q_real的权重。

S605、智能体Q_real与环境Env交互，并将产生新的[s,a,R(s,a),s′]的记录存放到经验回放池ReplayBuffer；

S606、重复步骤S604，直到达到512次；

S607、根据更新频率判断是否需要更新目标Q网络Q_target，如果需要则转到步骤S608，否则，转到步骤S609；

S608、将智能体Q_real的权重Θ拷贝到目标Q网络Q_target中；

S609、重复步骤S603～步骤S608，直到达到200次数。

S7、将智能体RLQAgent与人脸检测网络D进行组合，实现在检测到人脸F的同时完成对F的质量评分。

S701、将图像I输入到人脸检测网络D中，得到人脸的具***置P；

S702、根据人脸的具***置P得到人脸F；

S704、输出人脸和其对应的分数[F，score]。

本发明再一个实施例中，提供一种人脸检测质量评分***，该***能够用于实现上述人脸检测质量评分方法，具体的，该人脸检测质量评分***包括数据模块、训练模块、智能体模块、奖励模块、经验模块、权重模块以及评分模块。

其中，数据模块，获取人脸图像及其对应的标注数据，构造形式为人脸-人脸标注的成对数据集；

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于人脸检测质量评分方法的操作，包括：

获取人脸图像及其对应的标注数据，构造形式为人脸-人脸标注的成对数据集；构造人脸检测网络D，将成对数据集分批次输入到人脸检测网络D中进行训练，每批次的大小为B；构造智能体RLQAgent，智能体RLQAgent的输入是状态s；构造训练过程中自动调整奖惩力度的奖励函数R(s,a)；并与人脸检测网络D组合成环境生成器Env，Env产生状态s，将状态s输入到智能体RLQAgent中，得到决策动作a；根据状态s和决策动作a得到奖励值R；构造经验回放池ReplayBuffer，对数据[s,a,R,s′]进行缓存，s′为下一时刻环境Env产生的状态；构造目标Q网络Q_target和实时Q网络Q_real，将目标Q网络Q_target作为参考的智能体RLQAgent，用于输出累计奖励值的期望；将实时Q网络Q_real作为实时训练的智能体RLQAgent，使用经验回放池ReplayBuffer对实时Q网络Q_real进行训练，得到实时Q网络Q_real的网络权重Θ；使用网络权重Θ初始化智能体RLQAgent，并与人脸检测网络D进行组合，实现在检测到人脸F的同时完成对人脸F的质量评分。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作***。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关人脸检测质量评分方法的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的效果可通过以下仿真结果进一步说明

1.仿真条件

本发明仿真的硬件条件为：智能感知与图像理解实验室图形工作站，搭载四块显存为11G的GPU；本发明仿真所使用的数据集为CFP人脸图像集和CAS-PEAL人脸数据集。CFP数据集包含了约500个ID，约7000张图片。CAS-PEAL数据集包含了约1040个ID，约99,450张图片。根据数据集中人脸的姿态将数据分为质量良好与质量较差两类。数据中的80％用于训练，20％用于测试。

2.仿真内容

利用上述数据集，我们就提出的方法和仅使用深度学习的评分方法进行对比，在测试集上的准确率结果见表1。

表1

3.仿真结果分析

请参阅图5，给出了本发明提出的RLQAgent模型和FaceQNet模型对CFP测试集和CAS-PEAL数据集中的大约100000张人脸数据进行评分的结果的直方图。可以看出，使用本章提出的方法，识别分数集中在两个区间内，[0,0.4]区间内的点数与[0.65，1.0]之间的点数基本持平，这与测试数据的分布是相符合的。而FaceQNet网络的大部分得分则散落在区间[0.2，0.6]之间。表1是以上几种方法在测试集上的分类准确率结果，可以看出本发明提出的方法取得了较好的结果。

综上所述，本发明一种基于深度强化学习与自调节奖惩机制的人脸检测质量评分方法，可以在检测到人脸的同时完成对人脸质量的评分。首先构造人脸检测网络并进行预训练，使得模型可以准确定位出人脸的位置；同时提出了一种可以使模型快速收敛的奖励函数，并与人脸检测网络组成环境生成器；使用浅层卷积神经网络构成智能体对人脸质量进行评分，在实现评分功能的同时，增加的计算量可以忽略不计。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种人脸检测质量评分方法，其特征在于，包括以下步骤：

S3、构造智能体RLQAgent，智能体RLQAgent的输入是状态s；

S6、构造目标Q网络Q_target和实时Q网络Q_real，将目标Q网络Q_target作为参考的智能体RLQAgent，用于输出累计奖励值的期望；将实时Q网络Q_real作为实时训练的智能体RLQAgent，使用步骤S5构造的经验回放池ReplayBuffer对实时Q网络Q_real进行训练，得到实时Q网络Q_real的网络权重Θ，具体为：

S601、重置环境Env，得到初始的状态s₀；

S603、从经验回放池ReplayBuffer中获取64个样本；

S604、使用步骤S603中得到的64个样本训练实时Q网络Q_real并计算损失值，并增加正则项部分对模型进行约束，通过批随机梯度下降的方法更新实时Q网络Q_real中的网络权重Θ，损失值L(Θ)计算如下：

其中，

为累计奖励期望值，L(Θ)为损失值；λ为正则项系数，Θ为实时Q网络Q_real的权重；

S606、重复步骤S605，直到达到512次；

S608、将智能体Q_real的权重Θ拷贝到目标Q网络Q_target中；

S609、重复步骤S603～步骤S608，直到200次数，并输出实时Q网络Q_real中的权重Θ；

2.根据权利要求1所述的方法，其特征在于，步骤S2中，构造人脸检测网络D具体为：

S203、构造包括第一3×3卷积层、第一5×5卷积层、第二5×5卷积层、第一7×7卷积层和第二7×7卷积层的上下文信息模块SSH，得到最终特征F₁，F₂，F₃；

S204、构造BoxHead、LandMarkHead、Classification；产生最终的人脸位置、人脸关键点和是否为人脸的概率。

3.根据权利要求1所述的方法，其特征在于，步骤S3中，构造智能体RLQAgent的步骤具体为：

S302、通过智能体网络输出动作分类a和期望奖励值Q。

4.根据权利要求1所述的方法，其特征在于，步骤S4中，奖励函数R(s,a)具体为：

其中，Epochs为总训练代数，epoch为当前代数。

5.根据权利要求1所述的方法，其特征在于，步骤S5中，经验回放池ReplayBuffer为双端队列，容量为固定值512。

6.根据权利要求1所述的方法，其特征在于，步骤S7具体为：

S701、将图像I输入到人脸检测网络D中，得到人脸的具***置P；

S702、根据人脸的具***置P得到人脸F；

S704、输出人脸和其对应的分数[F,score]。

7.一种人脸检测质量评分***，其特征在于，包括：

权重模块，构造目标Q网络Q_tatget和实时Q网络Q_real，将目标Q网络Q_target作为参考的智能体RLQAgent，用于输出累计奖励值的期望；将实时Q网络Q_real作为实时训练的智能体RLQAgent，使用经验模块构造的经验回放池ReplayBuffer对实时Q网络Q_real进行训练，得到实时Q网络Q_real的网络权重Θ，具体为：

重置环境Env，得到初始的状态s₀；随机初始化经验回放池ReplayBuffer，得到[s,a,R,s′]数据，[s,a,R,s′]数据中的s为步骤S601中得到的初始状态s₀；从经验回放池ReplayBuffer中获取64个样本；使用64个样本训练实时Q网络Q_real并计算损失值，并增加正则项部分对模型进行约束，通过批随机梯度下降的方法更新实时Q网络Q_real中的网络权重Θ，损失值L(Θ)计算如下：

其中，

将实时Q网络Q_real与环境Env交互，并将产生新的[s,a,R,s′]的记录存放到经验回放池ReplayBuffer；重复直到达到512次；根据更新频率判断是否需要更新目标Q网络Q_target，如果需要更新，返回，否则，将智能体Q_real的权重Θ拷贝到目标Q网络Q_target中；重复200次数，并输出实时Q网络Q_real中的权重Θ；