CN111461959A - 人脸情绪合成方法及装置 - Google Patents
人脸情绪合成方法及装置 Download PDFInfo
- Publication number
- CN111461959A CN111461959A CN202010095755.XA CN202010095755A CN111461959A CN 111461959 A CN111461959 A CN 111461959A CN 202010095755 A CN202010095755 A CN 202010095755A CN 111461959 A CN111461959 A CN 111461959A
- Authority
- CN
- China
- Prior art keywords
- image
- face
- face image
- contour
- synthesized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 72
- 238000001308 synthesis method Methods 0.000 title claims abstract description 9
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 19
- 230000015572 biosynthetic process Effects 0.000 claims description 23
- 238000003786 synthesis reaction Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 19
- 238000005070 sampling Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 15
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 13
- 230000002194 synthesizing effect Effects 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 238000003702 image correction Methods 0.000 claims description 2
- 230000001815 facial effect Effects 0.000 claims 1
- 230000036544 posture Effects 0.000 abstract description 6
- 238000005286 illumination Methods 0.000 abstract description 4
- 230000007613 environmental effect Effects 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 206010063659 Aversion Diseases 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/169—Holistic features and representations, i.e. based on the facial image taken as a whole
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种人脸情绪合成方法及装置。包括获取当前帧彩色图像,并提取人脸图像,调整到预设大小;检测人脸图像的若干个预设关键点位置,根据关键点位置绘制人脸各个部分的轮廓图,获取人脸轮廓图像;将人脸图像,人脸轮廓图像以及目标情绪标签输入至第一级卷积神经网络获取粗合成人脸图像;利用粗合成人脸图像和原始人脸图像的残差图像作为输入,使用第二级卷积神经网络预测图像掩膜;根据粗合成人脸图像,人脸图像和图像掩膜计算修正的合成人脸图像。可以在多种环境光照,人脸遮挡和极端姿态条件下合成自然逼真的具有目标情绪的人脸图像或人脸视频。
Description
技术领域
本发明属于人脸情绪合成技术领域,特别涉及人脸情绪合成方法及装置。
背景技术
人脸情绪合成是指通过技术手段改变给定的图像或者视频中人物的情绪表达,例如自然,高兴,惊讶,伤心等。人脸情绪合成在图像编辑软件,拍照软件,小视频软件中有较多娱乐应用,在图片制作,影视制作领域也有商业应用价值。然而,现有的人脸情绪合成还不够成熟,主要在一些特效APP上使用,应用能力还不够强。当前技术主要有以下缺点:(1)情绪不够丰富;(2)对视频进行逐帧处理得到的合成视频连贯性不够,已有效果合成的情绪表达方式比较统一,例如对人物演讲的视频进行处理后,无法保留人物原本演讲的内容,不够自然,限制了在小视频,影视制作领域的应用能力;(3)在复杂的光照环境,人脸有遮挡和人物姿态较大的情况下,合成效果不稳定,鲁棒性较差。
发明内容
为了解决上述技术问题,本发明提出一种可以在多种环境光照,人脸遮挡和极端姿态条件下合成自然逼真的具有目标情绪的人脸图像或人脸视频的方法,并设计了一种用于实现该方法的装置。
本发明具体采用如下技术方案:
一种人脸情绪合成方法,包括:
步骤S101,获取当前帧彩色图像;
步骤S102,从所述当前帧彩色图像中提取人脸图像,调整所述人脸图像到预设大小;
步骤S103,根据所述人脸图像的若干个预设关键点位置,获取人脸轮廓图像;
步骤S104,设定目标情绪标签,将所述人脸图像,所述人脸轮廓图像以及目标情绪标签输入至第一级卷积神经网络,获取粗合成人脸图像;所述目标情绪标签是指所期望的粗合成人脸图象的情绪;
步骤S105,将所述粗合成人脸图像和所述人脸图像作差获取残差图像,输入至第二级卷积神经网络获得图像掩膜;
步骤S106,利用所述图像掩膜对所述粗合成人脸图像和所述人脸图像进行计算,获取最终修正的合成人脸图像。
作为本发明的优选,所述第一级卷积神经网络包括图像编码器、轮廓编码器、图像解码器和轮廓解码器;所述图像编码器和轮廓编码器均由若干个下采样层组成,将调整后的所述人脸图像输入至图像编码器,将所述人脸轮廓图像和情绪标签拼接后输入至轮廓编码器,将图像编码器与轮廓编码器输出的编码特征拼接,经若干个级联的残差块处理后得到混合特征;所述图像解码器包括若干个上采样层和拼接层,每一个上采样层之后跟着一个拼接层,最后一个拼接层连接输出层;所述轮廓解码器由若干个上采样层组成,最后一个上采样层连接输出层;将所述混合特征输入至图像解码器,其中每经过一层上采样层,将得到的特征与由图像编码器计算得到的同尺寸特征进行拼接,获得粗合成人脸图像;将所述混合特征输入至轮廓解码器,获得合成人脸轮廓图像。
作为本发明的优选,所述第二级卷积神经网络包括若干个残差块以及一层卷积层;将所述粗合成人脸图像减去调整后的所述人脸图像,获得残差图像;将所述残差图像输入至若干个级联的残差块,最后经过一层卷积层处理,获得图像掩模。
针对上述人脸情绪合成方法,本发明公开了一种人脸情绪合成装置,包括图像获取模块、人脸提取模块、轮廓提取模块、粗合成模块和修正模块;所述图像获取模块用于获取当前帧的彩色图像;人脸提取模块用于从当前帧的彩色图像中提取人脸图像并调整大小;轮廓提取模块用于从所述人脸图像中检测若干个关键点坐标并绘制人脸轮廓图像;粗合成模块用于利用第一级卷积神经网络对调整后的所述人脸图像,所述人脸轮廓图像以及目标情绪标签进行处理,获取粗合成的人脸图像,其中,所述目标情绪标签是指所期望的粗合成人脸图象的情绪;修正模块用于利用第二级神经网络对调整后的所述人脸图像,所述粗合成的人脸图像之间的残差进行处理,获取图像掩膜,并根据图像掩膜计算最终修正的合成人脸图像。
本发明与现有技术相比存在的有益效果是:
本发明方案获取当前帧彩色图像,从该图像中提取人脸图像,检测人脸图像的若干关键点坐标并绘制人脸轮廓图像,使用第一级卷积神经网络处理所述人脸图像,所述人脸轮廓图像以及目标情绪标签,获取粗合成的人脸图像,再使用第二级卷积神经网络处理所述粗合成的人脸图像和所述人脸图像的残差图像,获取图像掩膜,最后计算得到最终修正的合成人脸图像。本发明方案通过所述人脸轮廓图像和第一级卷积神经网络提高粗合成人脸图像在复杂光照,人脸遮挡以及极端姿态条件下的鲁棒性。此外,还通过第一级卷积神经网络和第二级卷积神经网络的级联提高了对视频处理后得到的合成视频的图像连贯性。本发明方案能够在任意图像或视频拍摄环境下,任意姿态下合成自然逼真的人物情绪表达。
附图说明
图1为本发明一实施例中人脸情绪合成方法的流程图;
图2为本发明一实施例中人脸情绪合成装置的结构示意图;
图3为本发明中的第一级卷积神经网络的结构图;图中,31图像编码器、32轮廓编码器、33图像解码器、34轮廓解码器;
图4为本发明中的第二级卷积神经网络的结构图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
如图1所示,本发明的第一方面,设计一种人脸情绪合成方法S100,包括:
步骤S101,获取当前帧彩色图像;
在本发明的一个具体实施例中,可以提供事先拍摄好的图像或者视频片段,也可以通过摄像头直接获取当前帧彩色图像。
步骤S102,从所述当前帧彩色图像中提取人脸图像,调整所述人脸图像到预设大小;
在本发明的一个具体实施例中,使用OpenCV或者Dlib等机器学习库的人脸检测器进行人脸检测,并在获取检测到的人脸图像后将人脸图像调整到预设大小。预设大小可以设置为M*M(例如128*128),其中,M为大于零的整数。
需要说明的是,获取人脸图像时可以包含一定的背景信息,不仅限于人脸部分,一般情况下所述人脸图像应当包含人物头部与部分背景。
步骤S103,检测所述人脸图像的若干个预设关键点位置,根据所述关键点位置在空白图像上绘制人脸各个部分的轮廓,获取人脸轮廓图像;
在本发明的一个具体实施例中,使用face_alignment库获取人脸68个关键点的坐标,然后绘制人脸轮廓图像,face_alignment库是由python编写的专用于检测人脸关键点的机器学习库。所述人脸轮廓图像应当与调整后的所述人脸图像对应,即大小相同,关键点坐标相对应。
步骤S104,设定目标情绪标签,将所述人脸图像,所述人脸轮廓图像以及目标情绪标签输入至第一级卷积神经网络,获取粗合成人脸图像;所述目标情绪标签是指所期望的粗合成人脸图象的情绪;
在本发明的一个具体实施例中,第一级卷积神经网络的结构如图3所示,将所述人脸图像输入至图像编码器,将所述人脸轮廓图像以及目标情绪标签拼接后输入至轮廓编码器;将两个编码器编码获得的编码向量拼接,然后经过若干个残差块处理后得到混合特征,此处残差块数量为3;将所述混合特征输入至图像解码器,每经过一层上采样,就将当前获取的特征和前述编码器编码得到的同尺寸特征进行拼接,将拼接后的特征输入至下一层上采样层,最后获取粗合成的人脸图像;可选的,将混合特征输入至轮廓解码器,获取合成的人脸轮廓图像。
所述的第一级卷积神经网络的训练方法具体为:获取带有表情标签的野外公开数据集,对所述数据集中的所有图像进行预处理(从所处图像中提取人脸图像并缩放到预设大小,绘制对应的人脸轮廓图像),获得大小为预设大小的人脸图像和人脸轮廓图像。第一级卷积神经网络包括图像编码器,轮廓编码器,图像解码器,轮廓解码器以及若干个残差块。在训练阶段首先接收人脸图像,人脸轮廓图像以及目标情绪标签作为输入,同时输出粗合成人脸图像以及与其对应的人脸轮廓图像,训练过程采用对抗生成网络的训练方式,除了第一级卷积神经网络以外,还需设置两个不同的卷积神经网络分辨监督与判断所述粗合成人脸图像和与其对应的人脸轮廓图像的真实性以及情绪标签,此外,还需再次将所述粗合成人脸图像,与其对应的人脸轮廓图像以及原人脸图像的情绪标签输入第一级神经网络,使第一级神经网络能够恢复出原始的人脸图像以及原始的人脸轮廓图像,然后进行损失函数Loss的计算,并使用Adam优化器进行模型优化,其中所有网络的学习率可以为0.0001,总的迭代次数可以是300000次,并且每1000输出结果进行观察,测试数据集同样进行预处理获得大小为预设大小的人脸图像和人脸轮廓图像。测试与实际使用时可以舍弃第一级卷积神经网络中的轮廓解码器。
其中,所述目标情绪标签指代对应人脸图像的情绪表达,包括但不限于自然、高兴、惊讶、伤心、生气、厌恶、害怕等,例如,目标情绪标签可以为0(自然)、1(高兴)、0(惊讶)、0(伤心)、0(生气)、0(厌恶)、0(害怕),则对应该情绪标签的人脸图像的情绪表达为高兴。
步骤S105,将所述粗合成人脸图像减去所述人脸图像获取残差图像,该残差图像经第二级卷积神经网络处理后,获取预测的图像掩膜。第二级卷积神经网络的结构如图4所示,由若干个残差块和一个卷积层组成。
在本发明的一个具体实施例中,将所述粗合成人脸图像与所述人脸图像作差后得到的残差图像经过若干个残差块处理后,再经过一层卷积层,预测最终的图像掩膜。
所述的第二级神经网络的训练方法具体为:获取带有表情标签的野外公开数据集并按照上述的第一级卷积神经网络训练方法获取训练好的第一级卷积神经网络,使用第一级卷积神经网络得到粗合成图像后,使用该粗合成图像减去对应的人脸图像获得残差图像,经第二级卷积神经网络处理后得到图像掩膜,然后按照步骤S106计算得到最终修正的合成人脸图像,第二级卷积神经网络由若干个残差块以及一层卷积层组成。训练过程采用对抗生成网络的训练方式,需要额外设置一个卷积神经网络判断所述的最终修正的合成人脸图像的真实性,然后进行损失函数Loss的计算,并使用Adam优化器进行模型优化,其中所有网络的学习率可以为0.0001,总的迭代次数可以为10000次,并且每1000次输出结果进行观察,测试数据集同样进行处理获取所述残差图像。
步骤S106,利用所述图像掩膜对所述粗合成人脸图像和所述人脸图像进行计算,获取最终修正的合成人脸图像;
最终修正的合成人脸图像满足下述关系式:
I=Isrc*(1-Mask)+Isyn*Mask
其中,I为最终修正的合成人脸图像,Isrc为所述调整后的人脸图像,Isyn为所述粗合成的人脸图像,Mask为所述图像掩膜。
本发明的人脸情绪合成方法,能够合成更丰富的情绪;本发明使用人脸关键点和人脸轮廓信息辅助,因此能够适应复杂的光照环境,人脸遮挡以及极端姿态条件,有很好的鲁棒性;本发明使用两个卷积神经网络级联来进一步优化结果,因此能合成更自然逼真的图像或者连贯的视频。
本发明的第二方面,如图2所示,提供了一种人脸情绪合成装置20,包括:
图像获取模块21,用于获取当前帧的彩色图像;
人脸提取模块22,用于从当前帧的彩色图像中提取人脸图像并调整大小;
轮廓提取模块23,用于从所述人脸图像中检测若干个关键点坐标并绘制人脸轮廓图像;
粗合成模块24,用于利用第一级卷积神经网络对调整后的所述人脸图像,所述人脸轮廓图像以及目标情绪标签进行处理,获取粗合成的人脸图像,其中,所述目标情绪标签是指所期望的粗合成人脸图象的情绪。
修正模块24,用于利用第二级神经网络对调整后的所述人脸图像,所述粗合成的人脸图像之间的残差进行处理,获取图像掩膜,并根据掩膜计算最终修正的合成人脸图像。
在本发明的一个具体实施例中,所述人脸提取模块包括:
提取单元:用于从当前帧彩色图像中提取所述人脸图像;
调整单元:用于调整所述人脸图像到预设大小。
在本发明的一个具体实施例中,所述轮廓提取模块包括:
检测单元:用于从调整后的所述人脸图像检测68个关键点的坐标;
绘制单元:用于创建预设大小的空白图像并根据68个关键点坐标绘制对应的人脸部分的轮廓。
在本发明的一个具体实施例中,所述粗合成模块包括:
合成单元:用于使用第一级卷积神经网络对调整后的所述人脸图像,所述人脸轮廓图像以及目标情绪标签进行处理,获取粗合成的人脸图像;其中目标情绪标签是预先设定并输入到合成单元中,粗合成的人脸图像具有与目标情绪标签对应的情绪。
在本发明的一个具体实施例中,所述修正模块包括:
残差计算单元:用于计算所述粗合成的人脸图像与调整后的所述人脸图像的残差图像;
预测单元:用于使用第二级卷积神经网络对该残差图像进行处理,预测图像掩膜;
修正单元:用于利用所述粗合成的人脸图像,调整后的所述图像以及预测的图像掩膜计算最终修正的合成人脸图像。
在本发明的一个具体实施例中,所述人脸情绪合成装置20的工作过程具体为:采用图像获取模块获取当前帧的彩色图像,图像获取模块依次连接提取单元和调整单元,从所述当前帧彩色图像中提取人脸图像,调整所述人脸图像到预设大小;所述调整单元的输出连接检测单元的输入,检测单元获得调整后的人脸图像的关键点坐标并输入到绘制单元中,绘制单元根据人脸关键点坐标绘制对应的人脸部分的轮廓。绘制单元、调整单元的输出均连接合成单元,所述合成单元还包括一个目标情绪标签的输入口,合成单元中载入了训练好的第一级卷积神经网络模型,合成单元的输出连接修正模块,所述修正模块中载入了训练好的第二级卷积神经网络模型,最终得到修正后的合成人脸图像。
本发明实施例提供的人脸情绪合成装置可以应用在前文人脸情绪合成方法的相关实施例中,详情参见上述方法的描述,在此不再赘述。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,依然可以对前述所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,这些修改和替换也视为本发明的保护范围。
Claims (10)
1.一种人脸情绪合成方法,其特征在于,包括:
步骤S101,获取当前帧彩色图像;
步骤S102,从所述当前帧彩色图像中提取人脸图像,调整所述人脸图像到预设大小;
步骤S103,根据所述人脸图像的若干个预设关键点位置,获取人脸轮廓图像;
步骤S104,设定目标情绪标签,将所述人脸图像,所述人脸轮廓图像以及目标情绪标签输入至第一级卷积神经网络,获取粗合成人脸图像;所述目标情绪标签是指所期望的粗合成人脸图象的情绪;
步骤S105,将所述粗合成人脸图像和所述人脸图像作差获取残差图像,输入至第二级卷积神经网络获得图像掩膜;
步骤S106,利用所述图像掩膜对所述粗合成人脸图像和所述人脸图像进行计算,获取最终修正的合成人脸图像。
2.根据权利要求1所述的人脸情绪合成方法,其特征在于,所述步骤S103具体为:检测调整后的所述人脸图像的68个关键点坐标,根据68个关键点坐标在预设大小的空白图像上绘制人脸各个部分的轮廓,获取人脸轮廓图像。
3.根据权利要求1所述的人脸情绪合成方法,其特征在于,所述第一级卷积神经网络包括图像编码器、轮廓编码器、图像解码器和轮廓解码器;所述图像编码器和轮廓编码器均由若干个下采样层组成,将调整后的所述人脸图像输入至图像编码器,将所述人脸轮廓图像和情绪标签拼接后输入至轮廓编码器,将图像编码器与轮廓编码器输出的编码特征拼接,经若干个级联的残差块处理后得到混合特征;
所述图像解码器包括若干个上采样层和拼接层,每一个上采样层之后跟着一个拼接层,最后一个拼接层连接输出层;所述轮廓解码器由若干个上采样层组成,最后一个上采样层连接输出层;将所述混合特征输入至图像解码器,其中每经过一层上采样层,将得到的特征与由图像编码器计算得到的同尺寸特征进行拼接,获得粗合成人脸图像;将所述混合特征输入至轮廓解码器,获得合成人脸轮廓图像。
4.根据权利要求1所述的人脸情绪合成方法,其特征在于,所述第二级卷积神经网络包括若干个残差块以及一层卷积层;将所述粗合成人脸图像减去调整后的所述人脸图像,获得残差图像;将所述残差图像输入至若干个级联的残差块,最后经过一层卷积层处理,获得图像掩模。
5.根据权利要求1所述的人脸情绪合成方法,其特征在于,在步骤S106中,最终修正的合成人脸图像满足下述关系式:
I=Isrc*(1-Mask)+Isyn*Mask
其中,I为最终修正的合成人脸图像,Isrc为所述调整后的人脸图像,Isyn为所述粗合成的人脸图像,Mask为所述图像掩膜。
6.一种人脸情绪合成装置,其特征在于,包括:
图像获取模块,用于获取当前帧的彩色图像;
人脸提取模块,用于从当前帧的彩色图像中提取人脸图像并调整大小;
轮廓提取模块,用于从所述人脸图像中检测若干个关键点坐标并绘制人脸轮廓图像;
粗合成模块,用于利用第一级卷积神经网络对调整后的所述人脸图像、人脸轮廓图像以及目标情绪标签进行处理,获取粗合成的人脸图像,其中,目标情绪标签是指所期望的粗合成人脸图象的情绪;
修正模块,用于利用第二级神经网络对调整后的所述人脸图像,所述粗合成的人脸图像之间的残差进行处理,获取图像掩膜,并根据图像掩膜计算最终修正的合成人脸图像。
7.如权利要求6所述的人脸情绪合成装置,其特征在于,所述人脸提取模块包括:
提取单元:用于从当前帧彩色图像中提取所述人脸图像;
调整单元:用于调整所述人脸图像到预设大小。
8.如权利要求6所述的人脸情绪合成装置,其特征在于,所述轮廓提取模块包括:
检测单元:用于从调整后的所述人脸图像检测关键点的坐标;
绘制单元:用于创建预设大小的空白图像并根据关键点坐标绘制对应的人脸部分的轮廓。
9.如权利要求6所述的人脸情绪合成装置,其特征在于,所述修正模块包括:
残差计算单元:用于计算所述粗合成的人脸图像与调整后的所述人脸图像的残差图像;
预测单元:用于使用第二级卷积神经网络对该残差图像进行处理,预测图像掩膜;
修正单元:用于利用所述粗合成的人脸图像,调整后的所述图像以及预测的图像掩膜计算最终修正的合成人脸图像。
10.如权利要求6所述的人脸情绪合成装置,其特征在于,所述第一级卷积神经网络的结构中包括图像编码器、轮廓编码器、图像解码器和轮廓解码器;
所述图像编码器和轮廓编码器均由若干个下采样层组成,图像编码器和轮廓编码器的输出依次连接拼接层和若干个级联的残差块;
所述图像解码器包括若干个上采样层和拼接层,每一个上采样层之后跟着一个拼接层,最后一个拼接层连接输出层;所述轮廓解码器由若干个上采样层组成,最后一个上采样层连接输出层;
所述第二级卷积神经网络由输入层、若干个级联的残差块、卷积层和输出层依次连接组成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010095755.XA CN111461959B (zh) | 2020-02-17 | 2020-02-17 | 人脸情绪合成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010095755.XA CN111461959B (zh) | 2020-02-17 | 2020-02-17 | 人脸情绪合成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111461959A true CN111461959A (zh) | 2020-07-28 |
CN111461959B CN111461959B (zh) | 2023-04-25 |
Family
ID=71680899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010095755.XA Active CN111461959B (zh) | 2020-02-17 | 2020-02-17 | 人脸情绪合成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111461959B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101320A (zh) * | 2020-11-18 | 2020-12-18 | 北京世纪好未来教育科技有限公司 | 模型训练方法、图像生成方法、装置、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107067429A (zh) * | 2017-03-17 | 2017-08-18 | 徐迪 | 基于深度学习的人脸三维重建和人脸替换的视频编辑***及方法 |
CN108460812A (zh) * | 2018-04-04 | 2018-08-28 | 北京红云智胜科技有限公司 | 一种基于深度学习的表情包生成***及方法 |
CN109087379A (zh) * | 2018-08-09 | 2018-12-25 | 北京华捷艾米科技有限公司 | 人脸表情的迁移方法和人脸表情的迁移装置 |
CN109151340A (zh) * | 2018-08-24 | 2019-01-04 | 太平洋未来科技(深圳)有限公司 | 视频处理方法、装置及电子设备 |
CN109840477A (zh) * | 2019-01-04 | 2019-06-04 | 苏州飞搜科技有限公司 | 基于特征变换的受遮挡人脸识别方法及装置 |
CN110046551A (zh) * | 2019-03-18 | 2019-07-23 | 中国科学院深圳先进技术研究院 | 一种人脸识别模型的生成方法及设备 |
CN110427867A (zh) * | 2019-07-30 | 2019-11-08 | 华中科技大学 | 基于残差注意力机制的面部表情识别方法及*** |
US10552977B1 (en) * | 2017-04-18 | 2020-02-04 | Twitter, Inc. | Fast face-morphing using neural networks |
-
2020
- 2020-02-17 CN CN202010095755.XA patent/CN111461959B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107067429A (zh) * | 2017-03-17 | 2017-08-18 | 徐迪 | 基于深度学习的人脸三维重建和人脸替换的视频编辑***及方法 |
US10552977B1 (en) * | 2017-04-18 | 2020-02-04 | Twitter, Inc. | Fast face-morphing using neural networks |
CN108460812A (zh) * | 2018-04-04 | 2018-08-28 | 北京红云智胜科技有限公司 | 一种基于深度学习的表情包生成***及方法 |
CN109087379A (zh) * | 2018-08-09 | 2018-12-25 | 北京华捷艾米科技有限公司 | 人脸表情的迁移方法和人脸表情的迁移装置 |
CN109151340A (zh) * | 2018-08-24 | 2019-01-04 | 太平洋未来科技(深圳)有限公司 | 视频处理方法、装置及电子设备 |
CN109840477A (zh) * | 2019-01-04 | 2019-06-04 | 苏州飞搜科技有限公司 | 基于特征变换的受遮挡人脸识别方法及装置 |
CN110046551A (zh) * | 2019-03-18 | 2019-07-23 | 中国科学院深圳先进技术研究院 | 一种人脸识别模型的生成方法及设备 |
CN110427867A (zh) * | 2019-07-30 | 2019-11-08 | 华中科技大学 | 基于残差注意力机制的面部表情识别方法及*** |
Non-Patent Citations (1)
Title |
---|
井长兴;章东平;杨力;: "级联神经网络人脸关键点定位研究" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101320A (zh) * | 2020-11-18 | 2020-12-18 | 北京世纪好未来教育科技有限公司 | 模型训练方法、图像生成方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111461959B (zh) | 2023-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108596024B (zh) | 一种基于人脸结构信息的肖像生成方法 | |
CN110659573B (zh) | 一种人脸识别方法、装置、电子设备及存储介质 | |
CN111931736B (zh) | 利用非自回归模型与整合放电技术的唇语识别方法、*** | |
KR20220097121A (ko) | 랜덤 널링 인공신경망을 이용한 입모양 합성 장치 및 방법 | |
US6014625A (en) | Method and apparatus for producing lip-movement parameters in a three-dimensional-lip-model | |
CN112070114B (zh) | 基于高斯约束注意力机制网络的场景文字识别方法及*** | |
CN114419702B (zh) | 数字人生成模型、模型的训练方法以及数字人生成方法 | |
CN115004236A (zh) | 来自音频的照片级逼真说话面部 | |
CN113808005A (zh) | 一种基于视频驱动的人脸姿态迁移方法及装置 | |
CN113838174A (zh) | 一种音频驱动人脸动画生成方法、装置、设备与介质 | |
CN111462274A (zh) | 一种基于smpl模型的人体图像合成方法及*** | |
CN115100329A (zh) | 基于多模态驱动的情感可控面部动画生成方法 | |
CN115471886A (zh) | 一种数字人生成方法及*** | |
CN115731597A (zh) | 一种人脸口罩掩膜图像自动分割与修复管理平台及方法 | |
CN111461959B (zh) | 人脸情绪合成方法及装置 | |
CN112906675B (zh) | 一种固定场景中的无监督人体关键点检测方法及*** | |
CN113255429B (zh) | 一种视频中人体姿态估计与跟踪方法及*** | |
CN115984949B (zh) | 一种带有注意力机制的低质量人脸图像识别方法及设备 | |
CN116362995A (zh) | 一种基于标准先验的牙齿图像修复方法和*** | |
CN116092189A (zh) | 一种基于rgb数据和骨骼数据的双模态人体行为识别方法 | |
CN114943746A (zh) | 一种利用深度信息辅助和轮廓增强损失的运动迁移方法 | |
CN115482265A (zh) | 一种基于连续视频流的室外场景深度补全方法 | |
CN112818950B (zh) | 一种基于生成对抗网络和时间卷积网络的唇语识别方法 | |
CN114283181A (zh) | 一种基于样例的动态纹理迁移方法及*** | |
CN117710986B (zh) | 一种基于掩码的交互式增强图像文本识别的方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |