CN115272136B - 基于大数据的证件照眼镜反光消除方法、装置、介质及设备 - Google Patents
基于大数据的证件照眼镜反光消除方法、装置、介质及设备 Download PDFInfo
- Publication number
- CN115272136B CN115272136B CN202211178451.5A CN202211178451A CN115272136B CN 115272136 B CN115272136 B CN 115272136B CN 202211178451 A CN202211178451 A CN 202211178451A CN 115272136 B CN115272136 B CN 115272136B
- Authority
- CN
- China
- Prior art keywords
- image
- network
- glasses
- eyeglass
- reflection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000011521 glass Substances 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 66
- 238000013528 artificial neural network Methods 0.000 claims abstract description 57
- 230000003042 antagnostic effect Effects 0.000 claims abstract description 33
- 238000011282 treatment Methods 0.000 claims description 42
- 238000012545 processing Methods 0.000 claims description 33
- 238000011176 pooling Methods 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 26
- 230000004913 activation Effects 0.000 claims description 23
- 230000011218 segmentation Effects 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 19
- 108091006146 Channels Proteins 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 230000008030 elimination Effects 0.000 claims description 10
- 238000003379 elimination reaction Methods 0.000 claims description 10
- 238000005096 rolling process Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 230000008485 antagonism Effects 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 5
- 230000000873 masking effect Effects 0.000 claims description 4
- 230000009467 reduction Effects 0.000 abstract description 6
- 239000004973 liquid crystal related substance Substances 0.000 description 6
- 238000002372 labelling Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 2
- 230000010287 polarization Effects 0.000 description 2
- 230000036544 posture Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004313 glare Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/60—Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于大数据的证件照眼镜反光消除方法、装置、介质及设备,包括:构建对抗神经网络,所述对抗神经网络包括生成网络和判别网络,所述生成网络用于以眼镜反光区域的掩码图像作为注意力导向图来消除输入图像中的眼镜反光区域,所述判别网络用于判别所述生成网络的输出图像是否存在眼镜反光;获取训练样本集,采用所述训练样本集对所述对抗神经网络中的生成网络和判别网络进行交替训练;获取待处理图像,通过训练好的所述生成网络对所述待处理图像中的眼镜反光区域进行消除,得到无眼镜反光图像。本发明有效地提高了图像的还原度、稳定性,提高了证件照的拍摄质量,且降低了算法运算量,用户可快速获取高质量合格的证件照。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于大数据的证件照眼镜反光消除方法、装置、介质及设备。
背景技术
在使用证照机拍摄证件照时,证照机一般都会在正面打光以使用户脸上的光照更加均匀。若用户佩戴眼镜,正面灯光照射到眼镜上会形成反射,从而导致拍摄出来的用户证件照在眼镜区域产生反光,遮挡眼睛,导致证件照不合格。
在现有的技术中,202010189327.3公开了一种图像处理方法、装置及***、电子设备。该方法涉及图像处理技术领域,包括:对目标图像进行区域分割,得到目标图像中的目标区域;将目标图像及目标图像的目标区域输入图像处理模型,以使图像处理模型对目标图像的目标区域进行图像处理,得到目标图像对应的处理后图像,能够在一定程度上去除夜景下自拍时发光物体导致的自拍图像中的眼镜镜片反光。然而,该方法采用多阶段分割合成算法,运算量较大,且由于分割不精准导致融合效果差,图像还原度较低,遇到强光时,无法进行深度还原。图像处理模型在训练之前需要对数据进行像素级标注,容易因为人为标注误差导致训练结果不精确。
发明内容
本发明实施例提供了一种基于大数据的证件照眼镜反光消除方法、装置、介质及设备,以解决现有技术在消除眼镜反光时存在的运算量大、还原度低、人工误差的问题。
一种基于大数据的证件照眼镜反光消除方法,所述方法包括:
构建对抗神经网络,所述对抗神经网络包括生成网络和判别网络,所述生成网络用于以眼镜反光区域的掩码图像作为注意力导向图来消除输入图像中的眼镜反光区域,所述判别网络用于判别所述生成网络的输出图像是否存在眼镜反光;
获取训练样本集,采用所述训练样本集对所述对抗神经网络中的生成网络和判别网络进行交替训练;
获取待处理图像,通过训练好的所述生成网络对所述待处理图像中的眼镜反光区域进行消除,得到无眼镜反光图像。
可选地,所述生成网络包括语义分割模块和下采样模块;所述生成网络用于:
通过所述语义分割模块对输入图像进行语义分割得到眼镜反光区域的特征信息;
通过所述下采样模块对所述输入图像进行降采样,得到第一特征图;
融合所述第一特征图和眼镜反光区域的特征信息,得到第二特征图;
将所述眼镜反光区域的特征信息依次进行卷积和池化处理、通道顺序随机变换处理shuffle、若干次卷积和上采样处理,得到第一掩码图像;
对所述第一掩码图像进行若干次卷积和池化处理,得到眼镜反光区域的第二掩码图像;
对所述第二特征图进行若干次卷积和激活处理,得到第三特征图;
对所述第三特征图和第二掩码图像进行拼接,得到第四特征图;
对所述第四特征图进行池化处理和若干次上采样处理,得到无眼镜反光图像,作为所述生成网络的输出图像。
可选地,所述生成网络的损失函数由输出图像的像素损失和眼镜反光区域的反光掩码的像素损失构成。
可选地,所述判别网络用于:
对所述生成网络的输出图像和基准图像进行通道堆叠,得到预设尺寸的输入图像;
对堆叠得到的所述输入图像进行多级的卷积、激活和池化处理,得到预设尺寸的特征图;
将所述特征图转换为预设维度向量,对所述预设维度向量进行多级全连接和激活处理,得到图像的判断信息;
所述判断信息包括所述生成网络的输出图像为无眼镜反光图像、所述生成网络的输出图像为有眼镜反光图像。
可选地,所述判别网络的损失函数采用交叉熵损失函数。
可选地,所述训练样本集包括若干对样本数据;
每一对样本数据包括输入图像、基准图像以及掩码图像;同一对样本数据内的所述输入图像、基准图像和掩码图像均为根据同一用户的同一姿态获取到,其中所述输入图像为有眼镜反光图像,所述基准图像为无眼镜反光图像,所述掩码图像为对输入图像中的眼镜反光区域进行掩码标注得到的图像。
可选地,所述采用所述训练样本集对所述对抗神经网络中的生成网络和判别网络进行交替训练包括:
将所述训练样本集中的M对样本数据作为一个批次输入所述对抗神经网络,使用随机梯度下降法SGD对每个批次的对抗神经网络的损失函数进行优化,并进行反向传播,当所述对抗神经网络的损失代价下降到预设精度时停止迭代;
在训练每个批次后,将训练样本集中的N对样本数据作为一个批次输入所述对抗神经网络进行训练验证。
一种基于大数据的证件照眼镜反光消除装置,所述装置包括:
构建模块,用于构建对抗神经网络,所述对抗神经网络包括生成网络和判别网络,所述生成网络用于以眼镜反光区域的掩码图像作为注意力导向图来消除输入图像中的眼镜反光区域,所述判别网络用于判别所述生成网络的输出图像是否存在眼镜反光;
训练模块,用于获取训练样本集,采用所述训练样本集对所述对抗神经网络中的生成网络和判别网络进行交替训练;
消除模块,用于获取待处理图像,通过训练好的所述生成网络对所述待处理图像中的眼镜反光区域进行消除,得到无眼镜反光图像。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于大数据的证件照眼镜反光消除方法。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的基于大数据的证件照眼镜反光消除方法。
本发明实施例所构建的对抗神经网络包括生成网络和判别网络,其中所述生成网络用于以眼镜反光区域的掩码图像作为注意力导向图来消除输入图像中的眼镜反光区域,所述判别网络用于判别所述生成网络的输出图像是否存在眼镜反光;获取训练样本集,采用所述训练样本集对所述对抗神经网络中的生成网络和判别网络进行交替训练;获取待处理图像,通过训练好的所述生成网络对所述待处理图像中的眼镜反光区域进行消除,得到无眼镜反光图像,使得消除眼镜反光后的图像更加自然,有效地提高了图像的还原度、稳定性,尤其是灯光充足情况下拍摄出的眼镜反光区域,提高了证件照的拍摄质量,且降低了算法运算量,用户可快速获取高质量合格的证件照。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的基于大数据的证件照眼镜反光消除方法的流程图;
图2是本发明一实施例提供的生成网络示意图;
图3是本发明一实施例提供的基于大数据的证件照眼镜反光消除装置的结构示意图;
图4是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的基于大数据的证件照眼镜反光消除方法采用对抗神经网络,所述对抗神经网络包括生成网络和判别网络,所述生成网络采用眼镜反光区域的掩码图像作为注意力导向图来消除输入图像中的眼镜反光区域,从而有效地提高了图像的还原度、稳定性,使得消除眼镜反光后的图像更加自然,尤其是灯光充足情况下拍摄出的眼镜反光区域,进而提高了证件照的拍摄质量,且降低了运算量,用户可快速获取高质量合格的证件照。
以下对本实施例提供的基于大数据的证件照眼镜反光消除方法进行详细的描述,如图1所示,所述基于大数据的证件照眼镜反光消除方法包括:
在步骤S101中,构建对抗神经网络,所述对抗神经网络包括生成网络和判别网络,所述生成网络用于以眼镜反光区域的掩码图像作为注意力导向图来消除输入图像中的眼镜反光区域,所述判别网络用于判别所述生成网络的输出图像是否存在眼镜反光。
其中,所述对抗神经网络(Lens reflection remove,简称LRR-GAN)是指利用生成网络和判别网络互相间的对抗关系形成的神经网络,其中生成网络通过不断优化输出让判别网络判断不出来,判别网络通过不断优化使判断结果更准确,二者形成对抗。生成网络的目标是能够生成以假乱真的数据,判别模块的目标是能够鉴别出以假乱真的数据,可见,所述对抗神经网络的优化目标是完美的判别模块无法识别出完美的生成模块输出的假数据。
本发明实施例采用对抗神经网络针对证件照拍摄过程中的正面光造成的眼镜反光进行去反光。所述生成网络用于生成无眼镜反光的图像,应用于训练过程和推理过程;所述判别网络用于判断生成网络的输出图像是否真的无眼镜反光,仅应用于训练过程中。
由于在单张图像中,眼镜区域所占图像的比例小,在图像反光矫正的过程中需要重点关注眼镜区域。因此,为了增强生成网络的输出图像的真实性和稳定性,使得生成网络的输出图像更加自然,本发明实施例在构建生成网络时对生成网络进行改进,利用眼镜反光区域的掩码图像作为注意力导向图来合成无眼镜反光的图像。
作为本发明的一个优选示例,所述生成网络包括语义分割模块和下采样模块。所述生成网络用于:
通过所述语义分割模块对输入图像进行语义分割得到眼镜反光区域的特征信息;
通过所述下采样模块对所述输入图像进行降采样,得到第一特征图;
融合所述第一特征图和眼镜反光区域的特征信息,得到第二特征图;
将所述眼镜反光区域的特征信息依次进行卷积和池化处理、通道顺序随机变换处理shuffle、若干次卷积和上采样处理,得到第一掩码图像;
对所述第一掩码图像进行若干次卷积和池化处理,得到眼镜反光区域的第二掩码图像;
对所述第二特征图进行若干次卷积和激活处理,得到第三特征图;
对所述第三特征图和第二掩码图像进行拼接,得到第四特征图;
对所述第四特征图进行池化处理和若干次上采样处理,得到无眼镜反光图像,作为所述生成网络的输出图像。
其中,所述语义分割模块和下采样模块通过两路通道同步进行。所述语义分割可以通过多次卷积和池化实现。图2为本发明实施例提供的生成网络示意图。假设输入图像I的尺寸为640*640*3,第一通道通过语义分割模块对输入图像进行多次卷积和池化处理,其中第一次卷积和池化处理得到尺寸为320*320*64的特征图D1,第二次卷积和池化处理得到尺寸为160*160*128的特征图D2,第三次卷积和池化处理得到尺寸为80*80*256的特征图D3,从而产生眼镜反光区域的特征信息。此时第二通道通过所述下采样模块将输入图像下采样至尺寸为80*80*3的第一特征图I1。将所述第一特征图与眼镜反光区域的特征信息进行拼接,得到尺寸为80*80*259的第二特征图I2,从而使得降采样后的输入图像获取到眼镜反光处的高级特征。第一通道继续对尺寸为80*80*256的特征图进行卷积和池化得到尺寸为40*40*256的特征图。为了使特征能够进行深层次融合,本实施例将所述尺寸为40*40*256的特征图进行通道顺序随机变换处理shuffle,将shuffle处理后的特征图再进行多次卷积和上采样处理,其中第一次卷积和上采样处理得到尺寸为80*80*128的特征图,第二次卷积和上采样处理得到尺寸为160*160*128的特征图,第三次卷积和上采样处理得到尺寸为320*320*64的特征图,第四次卷积和上采样处理得到尺寸为640*640*3的特征图,从而产生第一掩码图像SP1。其中,生成网络在训练过程中,在生成第一掩码图像SPI时,本发明实施例还通过掩码图像Ground truth Mask来监督第一掩码图像SPI的生成质量。将所述第一掩码图像SP1进行多次卷积和池化处理,其中第一次卷积和池化处理得到尺寸为320*320*64的特征图,第二次卷积和池化处理得到80*80*128的特征图,从而产生眼镜反光区域的第二掩码图像SP2,即反光掩码。第二通道继续对所述第二特征图I2进行若干次卷积和激活处理,其中第一次卷积和激活处理得到尺寸为80*80*256的特征图,第二次卷积和激活处理得到尺寸为80*80*128的特征图,以所述尺寸为80*80*128的特征图作为第三特征图I3。将所述第三特征图I3和第二掩码图像SP2进行拼接,得到第四特征图I4,尺寸为80*80*256,此过程以眼镜反光区域作为注意力导向图,大大地提高了反卷积过程中对眼镜反光区域的敏感度。最后对所述第四特征图I4进行池化处理和若干次上采样处理,其中第一次上采样处理得到尺寸为160*160*128的特征图,第二次上采样处理得到尺寸为320*320*64的特征图,第三次上采样处理得到尺寸为640*640*3的无眼镜反光图像P,作为所述生成网络的输出图像。本发明实施例通过改进生成网络生成图像的原理,利用眼镜反光区域的掩码图像作为注意力导向图来合成无眼镜反光的图像,使得合成后的图像更稳定更自然。
对于判别网络,在本发明实施例中主要用于判断生成网络的输出图像是否真的无眼镜反光。作为本发明的一个优选示例,所述判别网络用于:
对所述生成网络的输出图像和基准图像进行通道堆叠,得到预设尺寸的输入图像;
对堆叠得到的所述输入图像进行多级的卷积、激活和池化处理,得到预设尺寸的特征图;
将所述特征图转换为预设维度向量,对所述预设维度向量进行多级全连接和激活处理,得到图像的判断信息;
所述判断信息包括所述生成网络的输出图像为无眼镜反光图像、所述生成网络的输出图像为有眼镜反光图像。
其中,所述基准图像为判别网络对生成网络的输出图像进行判断的参照图像。以上文生成网络输出尺寸为640*640*3的无眼镜反光图像为例,所述判别网络将生成网络的输出图像和基准图像Ground truth G进行通道堆叠,得到尺寸为640*640*6的输入图像,然后对堆叠得到的所述输入图像进行多级的卷积、激活和池化处理,其中第一次卷积、激活和池化处理得到尺寸为160*160*128的特征图,第二次卷积、激活和池化处理得到尺寸为40*40*256的特征图,第三次卷积、激活和池化处理得到尺寸为10*10*512的特征图。 将尺寸为10*10*512的特征图进行展开,转换为预设维度向量,比如51200维向量。对所述预设维度向量进行多级全连接和激活处理,其中第一次全连接和激活处理得到1280维向量,第二次全连接和激活处理得到2维向量,从而得到图像的判断信息,包括标签值fake和标签值real,标签值real表示所述生成网络的输出图像为无眼镜反光图像,标签值fake表示所述生成网络的输出图像为有眼镜反光图像。
在完成对对抗神经网络的构建后,对所述对抗神经网络进行训练,所述方法还包括:
在步骤S102中,获取训练样本集,采用所述训练样本集对所述对抗神经网络中的生成网络和判别网络进行交替训练。
其中,所述训练样本集包括若干对样本数据;每一对样本数据包括输入图像、基准图像以及掩码图像。同一对样本数据内的所述输入图像、基准图像和掩码图像均为根据同一用户的同一姿态获取到的图像信息,其中所述输入图像为有眼镜反光图像,所述基准图像为无眼镜反光图像,所述掩码图像为对输入图像中的眼镜反光区域进行掩码标注得到的图像,用于在生成网络的训练过程中监督掩码的生成质量。
可选地,作为本发明的一个优选示例,以下提供样本数据的采集说明。本示例采用偏振光源作为前置拍照灯,利用偏振光消除原理进行样本数据的采集。在镜头前方添加偏振光过滤片,首先对佩戴眼镜的拍摄者进行正面拍照,偏振光源的偏振方向和过滤片的偏振方向平行,光源发出的光被镜片反射后进入相机,此时相机拍摄得到的图像上拍摄者的眼镜被光斑遮挡,以此场景下所拍摄到的图像作为样本数据中的输入图像。在极短时间内快速旋转过滤片,使过滤片与光源偏振方向垂直,拍摄者保持姿态不变,光源发出的光通过眼镜反射后被镜头前方的偏振光过滤片过滤掉,此时相机拍摄得到的图像上拍摄者的眼镜没有被光斑遮挡,以此场景下所拍摄到的图像作为样本数据中的基准图像。对所述输入图像中的眼镜反光区域进行掩码标注,得到掩码图像。组合所述输入图像、基准图像和掩码图像,得到一对样本数据。可见,本发明实施例中的样本数据无需对图像进行像素级的人工标注,有效地避免了因为人为标注误差导致的训练结果不精确的问题。
对若干个拍摄者按上述方法分别采集不同姿态下若干对样本数据,记为输入图像X={x1,…xi,…xn},基准图像Y={y1,…yi,…yn},掩码图像M={m1,…mi,…mn},n表示训练样本集中样本数据的总对数。按照预设比例将所述训练样本集划分为训练集、验证集以及测试集,可选地,所述预设比例可以为7:2:1。
采用所述训练样本集对所述对抗神经网络中的生成网络和判别网络进行交替训练。其中,所述输入图像作为所述生成网络的输入,通过生成网络消除眼镜反光区域。所述生成网络的结构和功能具体参见上文的叙述,此处不再赘述。所述生成网络的输出图像和基准图像继续作为所述判别网络的输入,通过判别网络对两者进行对比,得到所述生成网络的输出图像和基准图像的相似度,实现对生成网络的结果检测。所述判别网络的结构和功能具体参见上文的叙述,此处不再赘述。
作为本发明的一个优选示例,所述采用所述训练样本集对所述对抗神经网络中的生成网络和判别网络进行交替训练包括:
将所述训练样本集中的M对样本数据作为一个批次输入所述对抗神经网络,使用随机梯度下降法SGD优化器对每个批次的对抗神经网络的损失函数进行优化,并进行反向传播,当所述对抗神经网络的损失代价下降到预设精度时停止迭代;
在训练每个批次后,将训练样本集中的N对样本数据作为一个批次输入所述对抗神经网络进行训练验证。
在这里,随机梯度下降法(Stochastic gradient descent,简称SGD)是一种简单有效的方法,多用于支持向量机、逻辑回归等凸损失函数下的线性分类器的学习。本发明实施例使用SGD优化器对每一个批次的对抗神经网络损失函数进行优化。示例性地,可以采用每批次128对样本数据对所述对抗神经网络进行迭代训练,并在停止迭代后,采用每批次64对样本数据对所述对抗神经网络进行测试,观察测试集的准确率和召回率。可选地,在训练过程中,所述生成网络的损失函数由输出图像的像素损失和眼镜反光区域的反光掩码的像素损失构成,具体为:
其中,表示生成网络的损失函数,i表示第i对样本数据,表示i对样本数据中图像的宽,表示第i对样本数据中图像的高,表示第i对样本数据中基准图像的像素(x,y)的像素值,表示第i对样本数据中输入图像经过生成网络后得到的输出图像的像素(x,y)的像素值,表示第i对样本数据中掩码图像的像素(x,y)的像素值,表示第i对样本数据中输入图像经过生成网络后得到的掩码图像的像素(x,y)的像素值。
所述判别网络的损失函数采用交叉熵损失函数,具体为:
其中,表示判别网络的损失函数,表示基准图像的标签值,为输入图像经过生成网络后的输出图像的标签值。
所述对抗神经网络的损失函数为:
其中,表示对抗神经网络的损失函数,D(x)表示判别网络的返回值,G(z)表示生成网络的返回值。
最终训练好的对抗神经网络,以生成网络用于推理过程,应用于比如证照机,对证件照的眼镜反光区域进行消除。
在步骤S103中,获取待处理图像,通过训练好的所述生成网络对所述待处理图像中的眼镜反光区域进行消除,得到无眼镜反光图像。
在这里,所述待处理图像为存在眼镜反光区域的图像,本发明实施例将所述待处理图像输入上述训练好的生成网络,通过所述生成网络以眼镜反光区域的掩码图像作为注意力导向图来消除输入图像中的眼镜反光区域,得到无眼镜反光图像;有效地提高了图像的还原度、稳定性,使得消除眼镜反光后的图像更加自然,尤其是灯光充足情况下拍摄出的眼镜反光区域,提高了证件照的拍摄质量,且降低了算法运算量,用户可快速获取高质量合格的证件照。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,本发明还提供一种基于大数据的证件照眼镜反光消除装置,该基于大数据的证件照眼镜反光消除装置与上述实施例中基于大数据的证件照眼镜反光消除方法一一对应。如图3所示,该基于大数据的证件照眼镜反光消除装置包括构建模块31、训练模块32、消除模块33。各功能模块详细说明如下:
构建模块31,用于构建对抗神经网络,所述对抗神经网络包括生成网络和判别网络,所述生成网络用于以眼镜反光区域的掩码图像作为注意力导向图来消除输入图像中的眼镜反光区域,所述判别网络用于判别所述生成网络的输出图像是否存在眼镜反光;
训练模块32,用于获取训练样本集,采用所述训练样本集对所述对抗神经网络中的生成网络和判别网络进行交替训练;
消除模块33,用于获取待处理图像,通过训练好的所述生成网络对所述待处理图像中的眼镜反光区域进行消除,得到无眼镜反光图像。
可选地,所述生成网络包括语义分割模块和下采样模块;所述生成网络用于:
通过所述语义分割模块对输入图像进行语义分割得到眼镜反光区域的特征信息;
通过所述下采样模块对所述输入图像进行降采样,得到第一特征图;
融合所述第一特征图和眼镜反光区域的特征信息,得到第二特征图;
将所述眼镜反光区域的特征信息依次进行卷积和池化处理、通道顺序随机变换处理shuffle、若干次卷积和上采样处理,得到第一掩码图像;
对所述第一掩码图像进行若干次卷积和池化处理,得到眼镜反光区域的第二掩码图像;
对所述第二特征图进行若干次卷积和激活处理,得到第三特征图;
对所述第三特征图和第二掩码图像进行拼接,得到第四特征图;
对所述第四特征图进行池化处理和若干次上采样处理,得到无眼镜反光图像,作为所述生成网络的输出图像。
可选地,所述生成网络的损失函数由输出图像的像素损失和眼镜反光区域的反光掩码的像素损失构成。
可选地,所述判别网络用于:
对所述生成网络的输出图像和基准图像进行通道堆叠,得到预设尺寸的输入图像;
对堆叠得到的所述输入图像进行多级的卷积、激活和池化处理,得到预设尺寸的特征图;
将所述特征图转换为预设维度向量,对所述预设维度向量进行多级全连接和激活处理,得到图像的判断信息;
所述判断信息包括所述生成网络的输出图像为无眼镜反光图像、所述生成网络的输出图像为有眼镜反光图像。
可选地,所述判别网络的损失函数采用交叉熵损失函数。
可选地,所述训练样本集包括若干对样本数据;
每一对样本数据包括输入图像、基准图像以及掩码图像;同一对样本数据内的所述输入图像、基准图像和掩码图像均为根据同一用户的同一姿态获取到,其中所述输入图像为有眼镜反光图像,所述基准图像为无眼镜反光图像,所述掩码图像为对输入图像中的眼镜反光区域进行掩码标注得到的图像。
可选地,所述训练模块32包括:
训练单元,用于将所述训练样本集中的M对样本数据作为一个批次输入所述对抗神经网络,使用随机梯度下降法SGD对每个批次的对抗神经网络的损失函数进行优化,并进行反向传播,当所述对抗神经网络的损失代价下降到预设精度时停止迭代;
验证单元,用于在训练每个批次后,将训练样本集中的N对样本数据作为一个批次输入所述对抗神经网络进行训练验证。
关于基于大数据的证件照眼镜反光消除装置的具体限定可以参见上文中对于基于大数据的证件照眼镜反光消除方法的限定,在此不再赘述。上述基于大数据的证件照眼镜反光消除装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于大数据的证件照眼镜反光消除方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
构建对抗神经网络,所述对抗神经网络包括生成网络和判别网络,所述生成网络用于以眼镜反光区域的掩码图像作为注意力导向图来消除输入图像中的眼镜反光区域,所述判别网络用于判别所述生成网络的输出图像是否存在眼镜反光;
获取训练样本集,采用所述训练样本集对所述对抗神经网络中的生成网络和判别网络进行交替训练;
获取待处理图像,通过训练好的所述生成网络对所述待处理图像中的眼镜反光区域进行消除,得到无眼镜反光图像。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于大数据的证件照眼镜反光消除方法,其特征在于,包括:
构建对抗神经网络,所述对抗神经网络包括生成网络和判别网络,所述生成网络用于以眼镜反光区域的掩码图像作为注意力导向图来消除输入图像中的眼镜反光区域,所述判别网络用于判别所述生成网络的输出图像是否存在眼镜反光;
获取训练样本集,采用所述训练样本集对所述对抗神经网络中的生成网络和判别网络进行交替训练;
获取待处理图像,通过训练好的所述生成网络对所述待处理图像中的眼镜反光区域进行消除,得到无眼镜反光图像;
所述生成网络包括语义分割模块和下采样模块;所述生成网络用于:
通过所述语义分割模块对输入图像进行语义分割得到眼镜反光区域的特征信息;
通过所述下采样模块对所述输入图像进行降采样,得到第一特征图;
融合所述第一特征图和眼镜反光区域的特征信息,得到第二特征图;
将所述眼镜反光区域的特征信息依次进行卷积和池化处理、通道顺序随机变换处理shuffle、若干次卷积和上采样处理,得到第一掩码图像;
对所述第一掩码图像进行若干次卷积和池化处理,得到眼镜反光区域的第二掩码图像;
对所述第二特征图进行若干次卷积和激活处理,得到第三特征图;
对所述第三特征图和第二掩码图像进行拼接,得到第四特征图;
对所述第四特征图进行池化处理和若干次上采样处理,得到无眼镜反光图像,作为所述生成网络的输出图像。
2.如权利要求1所述的基于大数据的证件照眼镜反光消除方法,其特征在于,所述生成网络的损失函数由输出图像的像素损失和眼镜反光区域的反光掩码的像素损失构成。
3.如权利要求1所述的基于大数据的证件照眼镜反光消除方法,其特征在于,所述判别网络用于:
对所述生成网络的输出图像和基准图像进行通道堆叠,得到预设尺寸的输入图像;
对堆叠得到的所述输入图像进行多级的卷积、激活和池化处理,得到预设尺寸的特征图;
将所述特征图转换为预设维度向量,对所述预设维度向量进行多级全连接和激活处理,得到图像的判断信息;
所述判断信息包括所述生成网络的输出图像为无眼镜反光图像、所述生成网络的输出图像为有眼镜反光图像。
4.如权利要求3所述的基于大数据的证件照眼镜反光消除方法,其特征在于,所述判别网络的损失函数采用交叉熵损失函数。
5.如权利要求1至4任一项所述的基于大数据的证件照眼镜反光消除方法,其特征在于,所述训练样本集包括若干对样本数据;
每一对样本数据包括输入图像、基准图像以及掩码图像;同一对样本数据内的所述输入图像、基准图像和掩码图像均为根据同一用户的同一姿态获取到,其中所述输入图像为有眼镜反光图像,所述基准图像为无眼镜反光图像,所述掩码图像为对输入图像中的眼镜反光区域进行掩码标注得到的图像,用于在生成网络的训练过程中监督掩码的生成质量。
6.如权利要求5所述的基于大数据的证件照眼镜反光消除方法,其特征在于,所述采用所述训练样本集对所述对抗神经网络中的生成网络和判别网络进行交替训练包括:
将所述训练样本集中的M对样本数据作为一个批次输入所述对抗神经网络,使用随机梯度下降法SGD对每个批次的对抗神经网络的损失函数进行优化,并进行反向传播,当所述对抗神经网络的损失代价下降到预设精度时停止迭代;
在训练每个批次后,将训练样本集中的N对样本数据作为一个批次输入所述对抗神经网络进行训练验证。
7.一种基于大数据的证件照眼镜反光消除装置,其特征在于,所述装置包括:
构建模块,用于构建对抗神经网络,所述对抗神经网络包括生成网络和判别网络,所述生成网络用于以眼镜反光区域的掩码图像作为注意力导向图来消除输入图像中的眼镜反光区域,所述判别网络用于判别所述生成网络的输出图像是否存在眼镜反光;
训练模块,用于获取训练样本集,采用所述训练样本集对所述对抗神经网络中的生成网络和判别网络进行交替训练;
消除模块,用于获取待处理图像,通过训练好的所述生成网络对所述待处理图像中的眼镜反光区域进行消除,得到无眼镜反光图像;
所述生成网络包括语义分割模块和下采样模块;所述生成网络用于:
通过所述语义分割模块对输入图像进行语义分割得到眼镜反光区域的特征信息;
通过所述下采样模块对所述输入图像进行降采样,得到第一特征图;
融合所述第一特征图和眼镜反光区域的特征信息,得到第二特征图;
将所述眼镜反光区域的特征信息依次进行卷积和池化处理、通道顺序随机变换处理shuffle、若干次卷积和上采样处理,得到第一掩码图像;
对所述第一掩码图像进行若干次卷积和池化处理,得到眼镜反光区域的第二掩码图像;
对所述第二特征图进行若干次卷积和激活处理,得到第三特征图;
对所述第三特征图和第二掩码图像进行拼接,得到第四特征图;
对所述第四特征图进行池化处理和若干次上采样处理,得到无眼镜反光图像,作为所述生成网络的输出图像。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的基于大数据的证件照眼镜反光消除方法。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的基于大数据的证件照眼镜反光消除方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211178451.5A CN115272136B (zh) | 2022-09-27 | 2022-09-27 | 基于大数据的证件照眼镜反光消除方法、装置、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211178451.5A CN115272136B (zh) | 2022-09-27 | 2022-09-27 | 基于大数据的证件照眼镜反光消除方法、装置、介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115272136A CN115272136A (zh) | 2022-11-01 |
CN115272136B true CN115272136B (zh) | 2023-05-05 |
Family
ID=83756506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211178451.5A Active CN115272136B (zh) | 2022-09-27 | 2022-09-27 | 基于大数据的证件照眼镜反光消除方法、装置、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115272136B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117333382A (zh) * | 2023-09-07 | 2024-01-02 | 广东奥普特科技股份有限公司 | 反光擦除网络的训练及其反光擦除方法、装置和设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020191389A1 (en) * | 2019-03-21 | 2020-09-24 | Illumina, Inc. | Training data generation for artificial intelligence-based sequencing |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846355B (zh) * | 2018-06-11 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 图像处理方法、人脸识别方法、装置和计算机设备 |
CN110503654B (zh) * | 2019-08-01 | 2022-04-26 | 中国科学院深圳先进技术研究院 | 一种基于生成对抗网络的医学图像分割方法、***及电子设备 |
CN113112411B (zh) * | 2020-01-13 | 2023-11-24 | 南京信息工程大学 | 基于多尺度特征融合的人脸图像语义修复方法 |
CN111612717A (zh) * | 2020-05-20 | 2020-09-01 | 上海杉达学院 | 一种基于对抗网络的水面图像去反光修复方法和装置 |
-
2022
- 2022-09-27 CN CN202211178451.5A patent/CN115272136B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020191389A1 (en) * | 2019-03-21 | 2020-09-24 | Illumina, Inc. | Training data generation for artificial intelligence-based sequencing |
Also Published As
Publication number | Publication date |
---|---|
CN115272136A (zh) | 2022-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109416727B (zh) | 一种人脸图像中眼镜去除方法及装置 | |
Chaudhuri et al. | Depth from defocus: a real aperture imaging approach | |
CN110428366A (zh) | 图像处理方法和装置、电子设备、计算机可读存储介质 | |
WO2021238420A1 (zh) | 图像去雾方法、终端及计算机存储介质 | |
CN111080669B (zh) | 一种图像反射分离方法及装置 | |
EP3992904A1 (en) | Image restoration method and apparatus | |
CN111163265A (zh) | 图像处理方法、装置、移动终端及计算机存储介质 | |
CN113421276B (zh) | 一种图像处理方法、装置及存储介质 | |
CN115272136B (zh) | 基于大数据的证件照眼镜反光消除方法、装置、介质及设备 | |
JP2022514580A (ja) | 機械学習による光学補正 | |
CN110023989A (zh) | 一种素描图像的生成方法及装置 | |
CN111402217A (zh) | 一种图像分级方法、装置、设备和存储介质 | |
CN109726195A (zh) | 一种数据增强方法及装置 | |
Zheng et al. | Constrained predictive filters for single image bokeh rendering | |
CN116757986A (zh) | 一种红外与可见光图像融合方法及装置 | |
Zheng et al. | A simple framework for 3d lensless imaging with programmable masks | |
KR20230039520A (ko) | 영상 처리 방법, 장치, 기록 매체 및 전자 장치 | |
CN109447942B (zh) | 图像模糊度确定方法、装置、计算机设备及存储介质 | |
CN111966219B (zh) | 一种眼动跟踪方法、装置、设备及存储介质 | |
US20230194847A1 (en) | Microscopy System and Method for Modifying Microscope Images in the Feature Space of a Generative Network | |
CN115689947A (zh) | 一种图像锐化的方法、***、电子装置和存储介质 | |
CN110717969A (zh) | 一种阴影生成方法和装置 | |
CN112329736B (zh) | 人脸识别方法及金融*** | |
CN114998980A (zh) | 一种虹膜检测方法、装置、电子设备及存储介质 | |
US20200184184A1 (en) | Biometric analysis structure, method and neural network with coding mask |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |