CN112668465A

CN112668465A - 一种基于多级cnn的影片人脸提取的方法

Info

Publication number: CN112668465A
Application number: CN202011572417.7A
Authority: CN
Inventors: 王梓鉴; 孙伟
Original assignee: Second Shadow Workshop Beijing Technology Co ltd
Current assignee: Second Shadow Workshop Beijing Technology Co ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-16

Abstract

本发明公开了一种基于多级CNN的影片人脸提取的方法，其特征在于：具体步骤如下：S1、从视频连续帧中生成scaling系数为0.7的图片处理过程，设置符合短视频常规情况的最小的人脸检测尺寸阈值；S2、通过CNN全连接层网络，获得建议人脸候选池，输出包含人脸的候选区域，本发明充分挖掘了每一帧图像中人脸的特征，减少过滤，增加特征点跟踪，提高识别的准确率，通过重叠区域快速整合，提高了提取时间效率和计算消耗，经过分层多次CNN网络处理，达到多个小消耗CNN达到一个大消耗CNN所很难达到的提取效果，考虑了视频相对图片的更丰富时间连续特征，人脸的关键点位置拥有连续运动轨迹，对于孤立考虑单张图片的传统方法更接近人脑本身的处理方式。

Description

一种基于多级CNN的影片人脸提取的方法

技术领域

本发明涉及影片人脸提取技术领域，具体为一种基于多级CNN的影片人脸提取的方法。

背景技术

人脸特征提取是指对人脸的器官特征、纹理区域和预定义的特征点进行定位和提取，它是人脸表情识别中的核心步骤，是识别技术的关键，它决定着最终的识别结果，直接影响识别率的高低；

现有人脸提取的方法效率低，准确率低，特别是对多人短视频的计算成本高，处理效率低，人脸的不同角度、光照、遮挡等都会使提取的准确度降低，传统的人脸检测方式没有考虑人脸检测和人脸对齐两个重要步骤之间的关联，没有这两个任务之间的关联，做人脸检测没有结合人脸特征点，以前少量的图片类人脸检测可以通过AE的软件人工获得，但短视频等视频领域，需要高效的获得人脸情况，很难高质量快速的达成，而传统CNN的人脸提取，在一些过滤中缺少特征多样性，限制了产生差异性描述的可能性，对于传统CNN而言，人脸检测是个十分有挑战的二分类问题，所以过多的过滤显得很无用，而需要更多的特征辨别能力。

发明内容

本发明提供一种基于多级CNN的影片人脸提取的方法，可以有效解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于多级CNN的影片人脸提取的方法，具体步骤如下：

S1、从视频连续帧中生成scaling系数为0.7的图片处理过程，设置符合短视频常规情况的最小的人脸检测尺寸阈值；

S2、通过CNN全连接层网络，获得建议人脸候选池，输出包含人脸的候选区域；

S3、通过用于修正结果集的CNN对第一步中产生的候选人脸池进行初步修正，通过消除识别错误的case，来拟合更准的结果；

S4、使用size、深度、宽度更大的CNN网络，对第二步产生的结果进一步拟合，再去除一次false positive，得到比第二部更准的结果；

S5、将第S4步的结果反scaling回来到原始坐标，形成大小不一候选框集合，带有区域框位置，其中左上右下实际坐标，人脸关键点位置；

S6、对于S5产生的候选集合，有很多的置信度不一重叠区域，所以要用到重叠检测，将所有候选人脸做重叠度检测；

S7、将重叠度检测结果中区域聚合的部分，极大值留下，其他全部删除，留下了我们所要提取的某一帧的人脸；

S8、通过循环，使用叠加CNN连续处理人脸拟合获取整个视频在时间线上的连续帧，获得视频的演员人脸集合；

S9、针对临近时间线因素，对人脸关键点位置做最后一次线性状态测试，进一步refine，排除异常结果。

根据上述技术方案，所述S1中阀值以原始帧开始，循环产生0.7上一次图片大小的图片，直到最小检测尺寸，形成图片金字塔。

根据上述技术方案，所述S2中输出是16个通道的map，包含了是否是人脸，人脸框的位置范围，以及定位到的关键点人脸位置，包括左眼，右眼，鼻子，左嘴角，右嘴角，其中位置等数据都是相对于原点的offset。

与现有技术相比，本发明的有益效果：本发明结构科学合理，使用安全方便，本发明公开了一种基于多级CNN的处理方法，提取每帧的人脸，在图片金字塔的基础上，加上时间线拟合，充分考虑不同光照分辨率的视频人脸信息，不同人脸间的差异，找到人脸信息，在短视频领域找到演员的脸特征。这里用到的多级的CNN，充分挖掘视频信息，做流水线化的视频处理和人脸提取。整个过程是从粗到细的过程，用到了在线困难样本深度挖掘策略方案，加入了人脸对齐的级联学习过程；

充分挖掘了每一帧图像中人脸的特征，减少过滤，增加特征点跟踪，提高识别的准确率，通过重叠区域快速整合，提高了提取时间效率和计算消耗，经过分层多次CNN网络处理，达到多个小消耗CNN达到一个大消耗CNN所很难达到的提取效果，考虑了视频相对图片的更丰富时间连续特征，人脸的关键点位置拥有连续运动轨迹，对于孤立考虑单张图片的传统方法更接近人脑本身的处理方式。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明的方法结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例：如图1所示，本发明提供技术方案，一种基于多级CNN的影片人脸提取的方法，具体步骤如下：

根据上述技术方案，S1中阀值以原始帧开始，循环产生0.7上一次图片大小的图片，直到最小检测尺寸，形成图片金字塔。

根据上述技术方案，S2中输出是16个通道的map，包含了是否是人脸，人脸框的位置范围，以及定位到的关键点人脸位置，包括左眼，右眼，鼻子，左嘴角，右嘴角，其中位置等数据都是相对于原点的offset。

最后应说明的是：以上所述仅为本发明的优选实例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多级CNN的影片人脸提取的方法，其特征在于：具体步骤如下：

2.根据权利要求1所述的一种基于多级CNN的影片人脸提取的方法，其特征在于，所述S1中阀值以原始帧开始，循环产生0.7上一次图片大小的图片，直到最小检测尺寸，形成图片金字塔。

3.根据权利要求1所述的一种基于多级CNN的影片人脸提取的方法，其特征在于，所述S2中输出是16个通道的map，包含了是否是人脸，人脸框的位置范围，以及定位到的关键点人脸位置，包括左眼，右眼，鼻子，左嘴角，右嘴角，其中位置等数据都是相对于原点的offset。