CN112001355A

CN112001355A - 室外视频下模糊人脸识别的训练数据预处理方法

Info

Publication number: CN112001355A
Application number: CN202010917070.9A
Authority: CN
Inventors: 焦振秋; 徐晓刚; 毕海; 满庆奎
Original assignee: Hangzhou Yunqi Smart Vision Technology Co Ltd
Current assignee: Hangzhou Yunqi Smart Vision Technology Co Ltd
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2020-11-27

Abstract

本发明公开了一种室外视频下模糊人脸识别的训练数据预处理方法，利用拉普拉斯算子对图片进行卷积运算，以获得清晰度评估图；计算所述清晰度评估图的方差，如果方差大于设定清晰度阈值，则选择执行如下步骤之一：高斯模糊处理、运动模糊处理、下采样模糊处理或者亮度处理，尽量模拟出室外复杂场景下的人脸，将特征映射到同一个空间，提高同一个人不同场景下，人脸之间的相似度，以便为行人重识别算法提供足够的训练数据，提高模糊人脸识别能力。

Description

室外视频下模糊人脸识别的训练数据预处理方法

技术领域

本发明涉及室外视频下模糊人脸识别的训练数据预处理方法。

背景技术

目前的人脸识别技术一般应用于配合场景下，如门禁、上班打卡、手机解锁、人脸抓拍机等能够检测到高分辨率且是正脸的识别场景。

室外街道摄像头这种复杂场景下，影响因素很多，如摄像头角度、高度、行人的自由行走、阳光等。这么多的不确定因素导致检测到的人脸会产生运动模糊、分辨率低、人脸角度多样等问题，原本人脸与人脸之间的可分性就不高，再加上这些因素的影响，对人脸识别是一个很大的挑战。行人重识别技术(Reid)就用来解决室外这种复杂场景下的行人识别，但是Reid也有自己的局限性，它无法对隔天换装后与换装前的人实现准确的识别。这样就又绕回到人脸识别技术，在这样的需求下，如何提高室外这种复杂场景的人脸识别精度成为问题。

对于低分辨率人脸识别有两种方法，1)对于检测到的低分辨率人脸进行四周的外扩，保证在计算相似度时是高分辨率的图片。2)将检测到的人脸根据尺寸大小与相同大小的人脸进行计算相似度，也就是保证低分辨率人脸与低分辨率人脸进行计算相似度，高分辨率人脸与高分辨率人脸进行计算相似度。这两种方法仅仅针对解决低分辨率问题，且实施起来较为繁琐。

神经网络是一个黑盒子，喂给它什么样的数据，训练出的网络就会学到相应的数据分布。对于室外这种复杂场景，准确且多样化的训练数据无疑是提高人脸识别精度最简单有效的方法。但是，在基于图像的行人重识别技术的研究中，没有足够的数据用来训练基于图像的行人重识别算法的卷积神经网络。

发明内容

本发明的目的在于提供一种室外视频下模糊人脸识别的训练数据预处理方法，以便为行人重识别算法提供足够的训练数据。

本发明的目的采用如下技术方案实现：

室外视频下模糊人脸识别的训练数据预处理方法，包括：

利用拉普拉斯算子对图片进行卷积运算，以获得清晰度评估图；

计算所述清晰度评估图的方差，如果方差大于设定清晰度阈值，则选择执行如下步骤之一：

高斯模糊处理、运动模糊处理、下采样模糊处理或者亮度处理。

进一步的，所述高斯模糊处理，选取高斯核的大小计算高斯核的数值，将高斯核当作一个的滑动窗重新计算图片上每个位置的像素值。

进一步的，所述高斯核的大小选取1*1、3*3、5*5、7*7其中之一。

进一步的，所述运动模糊处理，定义单位矩阵的大小为模糊等级，计算运动模糊矩阵，将运动模糊矩阵当作一个的滑动窗重新计算图片上每个位置的像素值。

进一步的，所述模糊等级选取3、4、5其中之一。

进一步的，所述下采样模糊处理，将图片原尺寸下采样到指定尺寸，然后再上采样到图片原尺寸。

进一步的，所述亮度处理是通过公式I＝I^g对每个像素I进行幂指处理，

其中，I为图片上每个坐标点对应的像素值；

g为0.5～1.5之间的一个随机小数。

进一步的，所述清晰度阈值为1000。

本发明是在人脸识别训练过程中，通过对数据进行多样化的预处理，尽量模拟出室外复杂场景下的人脸，将特征映射到同一个空间，提高同一个人不同场景下人脸之间的相似度，以便为行人重识别算法提供足够的训练数据，提高模糊人脸识别能力。

附图说明

图1为举例一个8*8(宽*高)单通道图片所对应的每个位置的像素值。

图2为将高斯核当作一个的滑动窗重新计算图片上每个位置的像素值的示意图。

具体实施方式

本发明的训练数据预处理方法是针对在数据加载器(dataloader)从训练集中随机载入一张图片开始训练过程之前对图片所进行的预处理。

一张图片由很多像素组成，每个像素都对应着一个0～255之间的数字，如图1所示是一个8*8(宽*高)单通道图片所对应的每个位置的像素值。

用Laplacian公式重新计算图片上每个位置(每个像素点)的像素值，提取图片上的边缘信息，获得清晰度评估图。

Laplacian公式为

其中，x表示图片上的横轴，y表示图片上的纵轴，f(x，y)则表示图片上坐标为(x，y)所对应的像素值。

例如：

重新计算坐标(0，0)对应的像素值15，因为f(-1，0)与f(0，-1)不存在，所以让f(-1，0)＝f(1，0)、f(0，-1)＝f(0，1)。

重新计算坐标(1，1)对应的像素值67，

以此类推，重新计算所有坐标对应的像素值。计算结果则会突显出图片上的边缘轮廓，越清晰的图片边缘轮廓越多。

然后计算整张图片的方差，方差数值越大，表示图片上的突变像素点越多，也就表示图片越清晰。

上述Laplacian公式计算结果为

根据公式(1)计算均值μ，再根据公式(2)计算Variance。

其中，n＝7，即图片上横轴的最大坐标值。

如果计算得出的方差大于清晰度阈值1000时，表示图片较为清晰，选择执行如下步骤之一：高斯模糊处理、运动模糊处理、下采样模糊处理或者亮度处理。

高斯模糊处理

进行不同程度的高斯模糊。根据试验高斯核的大小为1*1、3*3、5*5、7*7时符合需求，从中随机选取一个。

以3*3的高斯核为例，高斯核的数值计算公式为

其中，σ＝((ksize-1)*0.5-1)*0.3+0.8

ksize为高斯核的大小；

(x，y)为3*3高斯核每个值的坐标。

比如高斯核中心坐标为(0，0)，其余8个坐标分别为(-1，1)、(0，1)、(1，1)、(-1，0)、(1，0)、(-1，-1)、(0，-1)、(1，-1)，将坐标值代入即可算出高斯核的数值，将高斯核当作一个的滑动窗重新计算图片上每个位置的像素值。如图2所示，先将图片(图示位于下方的图片)最外圈填充一圈0像素，每次高斯核移动前将高斯核与图片的对应位置相乘再加权，即可得到最终结果(图示位于上方的图片)。

例如图片宽w、高h，最外圈填充一圈0后，则图片宽(w+2)、高(h+2)，高斯核K，则可通过下述公式计算最终结果。

其中，out是最终结果图片；

u∈[0，w-1]、v∈[0，h-1]是最终结果图片上每一个像素的坐标；

input是最外圈填充0后的图片；

K_size是高斯核的大小；

K_i，j是前述高斯核的数值，i∈[0，K_size-1]、j∈[0，K_size-1]是高斯核上每个位置的坐标。以3*3的高斯核为例，高斯核上每个位置对应的值表示为K_0，0、K_1，0、K_2，0、K_0，1、K_1，1、K_2，1、K_0，2、K_1，2、K_2，2。

滑动窗口的过程可以理解为每一个像素都取其周边像素的平均值，在数值上，这是一种平滑化。在图形上，就相当于产生模糊效果，中间点失去细节。

运动模糊处理

单位矩阵src是除对角线上都是1外其余地方都是0的一个矩阵，定义单位矩阵src的大小为模糊等级。

例如一个3*3的单位矩阵src，即为除对角线上都是1外其余地方都是0的一个矩阵

单位矩阵大小为3*3，即对应的模糊等级为3，生成的运动模糊矩阵dst大小也为3*3，当运动模糊矩阵大小越大时，则生成的图像也就越模糊。

通过试验模糊等级为3、4、5时符合需求，从中随机选取一个。

以模糊等级3为例，先计算出旋转矩阵

其中，θ是从1～360中随机选取的一个旋转角度；

center_x、center_y是旋转的中心点坐标，也就是单位矩阵src的中心坐标；

center_x＝center_y＝模糊等级/2。

根据旋转矩阵M与公式dst(x，y)＝src(M₁₁*x+M₁₂*y+M₁₃，M₂₁*x+M₂₂*y+M₂₃)生成对应的运动模糊矩阵dst。

其中，x、y表示坐标；

dst(x，y)表示坐标对应的值；

M₁₁＝cos(θ)

M₁₂＝sin(θ)

M₁₃＝(1-cos(θ))*center_x-sin(θ)*center_y

M₂₁＝-sin(θ)

M₂₂＝cos(θ)

M₂₃＝sin(θ)*center_x-(1-cos(θ))*center_y

将运动模糊矩阵当作一个的滑动窗重新计算图片上每个位置的像素值。如图2所示，先将图片(图示位于下方的图片)最外圈填充一圈0像素，每次高斯核移动前将高斯核与图片的对应位置相乘再加权，即可得到最终结果(图示位于上方的图片)。

其中，out是最终结果图片；

input是最外圈填充0后的图片；

K_size是高斯核的大小；

K_i，j就是前述运动模糊矩阵dst；

i∈[0，K_size-1]、j∈[0，K_size-1]是高斯核上每个位置的坐标。

通过运动模糊矩阵重新计算的图片会产生运动模糊的效果，模拟实际场景中摄像机产生抖动时拍摄的图片。

下采样模糊处理

为了提高不同分辨率的识别能力而进行下采样模糊处理。从24*24(宽*高)、32*32(宽*高)、40*40(宽*高)、48*48(宽*高)、56*56(宽*高)中随机选取一个尺寸，将图片进行下采样(缩小图像)到随机选中的尺寸，后再上采样(放大图像)到原先的尺寸，通过这个过程让网络将不同分辨率下的图片映射到同一个特征空间。

例如图片原尺寸为64*64(宽*高)，假设随机选取的下采样尺寸为32*32(宽*高)，根据公式(3)、(4)、(5)计算下采样后图片上每个坐标点的像素值。再上采样到原先的尺寸64*64(宽*高)，同样根据公式(3)、(4)、(5)计算上采样后图片上每个做标点的像素值。由于采样前与采样后宽高尺寸不同，进而最终计算的像素值也不同。

src_x＝dst_x*(src_width/dst_width) (3)

src_y＝dst_y*(src_heght/dst_heght) (4)

dst(x，y)＝(1-a)(1-b)src(x′+1，y′+1)+(1-a)b*src(x′+1，y′)+(1-b)a*src(x′，y′+1)+a*b*src(x′，y′) (5)

其中，dst_x与dst_y为采样后图片上每个像素点的坐标；

src_x与src_y为采样前图片上每个像素点的坐标；

a＝src_x；

b＝src_y；

x′为src_x取整；

y′为src_y取整；

dst(x，y)为采样后图片上坐标为(x，y)所对应的像素值；

src(x′，y′)为采样前图片上坐标为(x′，y′)所对应的像素值。

亮度处理

不同摄像头位置不同，阳光对其拍摄的影响也不同，为适应这种变化，通过公式I＝I^g对每个像素I进行幂指处理(I为图片上每个坐标点对应的像素值；g为0.5～1.5之间的一个随机小数)，从而达到对图片整体的亮暗度改变。

较为清晰的图片在经过上述方法处理后输出，可以为行人重识别算法提供足够的训练数据。

本发明结合真实场景下可能会出现的问题，分析每一个场景，经过多次实验，得到一系列经验值，分别采取不同的计算过程来处理图片，尽可能的模拟可能出现的场景，增加样本的多样性。

Claims

1.室外视频下模糊人脸识别的训练数据预处理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述高斯模糊处理，选取高斯核的大小计算高斯核的数值，将高斯核当作一个的滑动窗重新计算图片上每个位置的像素值。

3.如权利要求2所述的方法，其特征在于，所述高斯核的大小选取1*1、3*3、5*5、7*7其中之一。

4.如权利要求1所述的方法，其特征在于，所述运动模糊处理，定义单位矩阵的大小为模糊等级，计算运动模糊矩阵，将运动模糊矩阵当作一个的滑动窗重新计算图片上每个位置的像素值。

5.如权利要求4所述的方法，其特征在于，所述模糊等级选取3、4、5其中之一。

6.如权利要求1所述的方法，其特征在于，所述下采样模糊处理，将图片原尺寸下采样到指定尺寸，然后再上采样到图片原尺寸。

7.如权利要求1所述的方法，其特征在于，所述亮度处理是通过公式I＝I^g对每个像素I进行幂指处理，

其中，I为图片上每个坐标点对应的像素值；

g为0.5～1.5之间的一个随机小数。

8.如权利要求1-7任一项所述的方法，其特征在于，所述清晰度阈值为1000。