CN112241708A - 用于由原始人物图像生成新的人物图像的方法及装置 - Google Patents
用于由原始人物图像生成新的人物图像的方法及装置 Download PDFInfo
- Publication number
- CN112241708A CN112241708A CN202011120139.1A CN202011120139A CN112241708A CN 112241708 A CN112241708 A CN 112241708A CN 202011120139 A CN202011120139 A CN 202011120139A CN 112241708 A CN112241708 A CN 112241708A
- Authority
- CN
- China
- Prior art keywords
- image
- background
- original
- foreground
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 239000013598 vector Substances 0.000 claims abstract description 110
- 238000000605 extraction Methods 0.000 claims abstract description 28
- 238000003062 neural network model Methods 0.000 claims abstract description 13
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 12
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 30
- 230000009467 reduction Effects 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000003042 antagnostic effect Effects 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 2
- 239000011800 void material Substances 0.000 claims description 2
- 238000005260 corrosion Methods 0.000 claims 1
- 230000007797 corrosion Effects 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 7
- 238000003709 image segmentation Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 230000003628 erosive effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 3
- 230000010339 dilation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000519995 Stachys sylvatica Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 210000003423 ankle Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 210000003414 extremity Anatomy 0.000 description 1
- 238000005429 filling process Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Processing Or Creating Images (AREA)
- Image Processing (AREA)
Abstract
本发明涉及人工智能领域。具体涉及一种用于由原始人物图像生成新的人物图像的方法,包括:提供第一原始人物图像;获取第一原始人物图像的姿态关键点;将第一原始人物图像分割成前景图像和背景图像;将前景图像及姿态关键点数据输入前景特征提取模型以提取外观特征向量和姿态特征向量,将背景图像输入背景特征提取模型以提取背景特征向量;和将外观特征向量、姿态特征向量和背景特征向量输入合成模型以合成重建图像。方法还包括:将第一和第二原始人物图像输入给经训练的神经网络模型以合成新人物图像,新的人物图像具有第一原始人物图像中的人物外观及第二原始人物图像中的背景和人物姿态。还涉及一种用于由原始人物图像生成新的人物图像的装置。
Description
技术领域
本发明涉及一种用于由原始人物图像生成新的人物图像的方法。本发明还涉及一种用于由原始人物图像生成新的人物图像的装置。
背景技术
近年来,随着深度学习与神经网络等人工智能的发展,以对抗式生成网络(Generative Adavsiral Network,GAN)、变分自编码(Variational Autoencoder,VAE)为代表的生成式模型取得了长足的进步,并广泛应用于图像、语音等数据的生成。
在图像生成领域中,人物图像生成方法也正成为研究的热点。然而,目前的人物生成式网络/算法通常将包含人物的图像以矩形块(bounding box或patch)的形式裁剪出来,然后输入到网络中进行训练,且在训练中往往只关注于前景(即人物)图像区域的恢复和重建能力,而忽略了对背景图像的重建。由于没有对背景和前景解耦,这种方法一方面背景重建能力较差,生成的图像背景较为模糊,无法辨识具体场景;另一方面由于网络算力被背景像素分散,前景图像的复原能力尤其是细节等高频信息也无法达到最佳。此外,由于数据输入形式无法对背景进行有效控制,因此基于这种方法的生成图像往往只能局限于人物尺寸大小,且前景背景的语义一致性不佳,无法生成具有全场景信息的图像,严重限制了生成式模型的应用场景的泛化能力。
此外,在影音娱乐领域,例如在影视制作和电子游戏制作行业中,存在人物“外观迁移”的需求,也即将图像A中的人物外观变换成图像B中的人物的外观而不改变图像A中的人物姿态和背景。但是,现有的生成式网络难以实现真实且自然的“外观迁移”。
因此,期待提供一种能实现人物图像中的姿态、前景和背景的可控化并能生成姿态、前景及背景三者良好地融合的人物图像生成方法。
发明内容
本发明的目的通过提供一种用于由原始人物图像生成新的人物图像的方法来实现,所述方法至少包括以下步骤:
i)提供第一原始人物图像;
ii)获取第一原始人物图像中的人物的姿态关键点数据;
iii)将第一原始人物图像分割成前景图像和背景图像;
根据本发明的另一方面,本发明的目的还通过一种用于由原始人物图像生成新的人物图像的方法来实现,所述方法至少包括以下步骤:
i’)提供第一原始人物图像和不同于第一原始人物图像的第二原始人物图像;
ii’)获取第一原始人物图像和第二原始人物图像中各自的人物的姿态关键点数据;
iii’)将第一原始人物图像和第二原始人物图像分别分割成前景图像和背景图像;
iv’)将第一原始人物图像的前景图像和第二原始人物图像的姿态关键点数据输入前景特征向量提取模型以提取人物外观特征向量和人物姿态关键点特征向量将第二原始人物图像的背景图像输入背景特征向量提取模型以提取背景特征向量以及
根据本发明的一可选实施例,前景特征向量提取模型配置成用于重建或生成前景图像的前景生成式网络,所提取的人物外观特征向量和人物姿态关键点特征向量是前景生成式网络中从前景图像和姿态关键点数据抽取的降维特征。
根据本发明的一可选实施例,采用以下生成式网络中的任一种来构建前景或背景生成式网络模型:生成式对抗神经网络,变分自编码及其衍生模型。
根据本发明的一可选实施例,采用以下方式执行步骤iii)或iii’):
a)基于姿态关键点数据生成人物掩模;
b)利用人物掩模对第一、第二原始人物图像进行图像分割,以生成只包含人物的前景图像和只包含背景的背景图像。
根据本发明的一可选实施例,采用以下方式执行步骤a):
-基于真实人体骨骼结构将姿态关键点相互连接以生成骨架二值图像;
-对骨架二值图像进行膨胀和/或腐蚀处理;以及
-对经膨胀和/或腐蚀的骨架二值图像中的孤立的零值空洞区域进行填充,以便生出人物掩模。
根据本发明的又一方面,本发明的目的还通过一种用于由原始人物图像生成新的人物图像的方法来实现,所述方法包括:将第一原始人物图像或者第一和第二原始人物图像输入给由前景生成式网络模型、背景生成式网络模型和合成网络模型组成的经训练的神经网络模型以合成新的人物图像;所述神经网络模型是采用以下方式来训练的:
i”)提供包含人物的训练图像;
ii”)获取训练图像中的人物的姿态关键点数据;
iii”)将训练图像分割成前景图像和背景图像;
iv”)将前景图像及姿态关键点数据输入前景生成式网络模型以训练前景生成式网络模型,将背景图像输入背景生成式网络模型以训练背景生成式网络模型;以及
v”)将前景生成式网络模型中从前景图像和姿态关键点数据抽取的作为降维特征的人物外观特征向量和人物姿态关键点特征向量以及背景生成式网络模型中从背景图像抽取的作为降维特征的背景特征向量输入合成网络模型以训练合成网络模型。
根据本发明的一可选实施例,独立地、交互地或关联地训练前景生成式网络模型、背景生成式网络模型和合成网络模型。
根据本发明的更一方面,本发明的目的还通过一种用于由原始人物图像生成新的人物图像的装置来实现,所述装置包括处理器和与处理器通信连接的计算机可读存储装置,计算机可读存储装置中存储有计算机程序,当所述计算机程序被处理器执行时,用于实施本文所描述的方法。
根据本发明的又一方面,本发明的目的还通过一种用于由原始人物图像生成新的人物图像的装置来实现,所述装置配置成用于实施本文所描述的方法并包括:
姿态关键点识别装置,其配置成用于确定输入的原始人物图像中的人物的姿态关键点数据;
人物掩模生成模型,其配置成用于生成人物掩模;
前背景分割模型,其配置成用于将输入的原始人物图像分割成前景图像和背景图像;
根据本发明,实现了:在训练过程中,通过对前景背景进行解耦,然后通过两个独立生成网络对前景背景进行学习,并通过合成网络将前景背景进行融合,从而完成整幅图像生成模型的混合训练。
本发明提出了一种基于生成网络和前景、背景混合训练的行人图像生成方法,通过对行人及背景在不同阶段进行解耦和融合的混合训练从而有效提高生成人物图像前景和背景的图像质量以及前景和背景的语义一致性,并大大提高生成式模型应用场景的泛化能力。
从说明书、附图和权利要求书中,本发明主题的其他优点和有利实施例是显而易见的。
附图说明
本发明的更多特征及优点可以通过下述参考附图的具体实施例的详细说明来进一步阐述。所述附图为:
图1示出根据本发明的一示例性实施例的用于由原始人物图像生成新的人物图像的装置100的示意性结构框图;
图2示出根据本发明的一示例性实施例的姿态关键点的示意图;
图3示出了根据本发明的一示例性实施例的图像分割过程的流程图;
图4示出根据本发明的一示例性实施例的用于由原始人物图像生成新的人物图像的神经网络模型的示意性结构框图;
图5示出根据本发明的一示例性实施例的用于训练神经网络模型的模型训练方法200的流程图;
图6示出根据本发明的一示例性实施例的图像分割步骤的流程图;
图7示出根据本发明的一示例性实施例的人物掩模生成步骤的流程图;
图8示出根据本发明的一示例性实施例的用于由两幅原始人物图像合成新的人物图像的方法的流程图;以及
图9示出根据本发明的一示例性实施例的用于重建原始人物图像的方法的流程图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案以及有益的技术效果更加清楚明白,以下将结合附图以及多个示例性实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,而不是用于限定本发明的保护范围。在附图中,相同或类似的附图标记指代相同或等价的部件。
图1示出根据本发明的一示例性实施例的用于由原始人物图像生成新的人物图像的装置100的示意性结构框图。装置100包括处理器10和与处理器10通信连接的计算机可读存储装置20。计算机可读存储装置20中存储有计算机程序,当所述计算机程序被处理器10执行时,用于实施将在下文予以详细解释的用于生成人物图像的方法。
根据一示例性实施例,与处理器10通信连接的显示装置30被提供。借助于显示装置30,用户可以查看将被装置100处理的原始人物图像和由装置100生成的新的人物图像。
根据一示例性实施例,与处理器10通信连接的输入装置40被提供。借助于输入装置40,用户可以选择或输入将被装置100处理的原始人物图像。输入装置40例如可以包括:键盘、鼠标和/或触控屏。
根据一示例性实施例,与处理器10通信连接的摄像装置50被提供。借助于摄像装置50,用户可以拍摄人物图像以作为将被装置100处理的原始人物图像。摄像装置50例如是车载摄像装置。
根据一示例性实施例,由多个人物图像构成的人物图像集被提供。原始人物图像集可以存储在计算机可读存储装置20或与处理器10通信连接的另外的存储装置中。
图4示出根据本发明的一示例性实施例的用于由原始人物图像生成新的人物图像的神经网络模型400的示意性结构框图。
神经网络模型400主要包括:姿态关键点识别模型410,其配置成用于识别输入的原始人物图像中的人体姿态关键点;人物掩模生成模型420,其配置成用于生成恰好遮盖输入的原始人物图像中的完整人物的人物掩模IMask;前背景分割模型430,其配置成用于例如基于人物掩模IMask来将输入的原始人物图像分割成前景图像和背景图像;前景特征向量提取模型440,其配置成用于提取人物外观特征向量和人物姿态关键点特征向量背景特征向量提取模型450,其配置成用于提取背景特征向量以及图像合成模型460,其配置成用于由人物外观特征向量人物姿态关键点特征向量和背景特征向量合成新的人物图像。
在一示例中,前景特征向量提取模型440、背景特征向量提取模型450和图像合成模型460配置为适当形式的神经网络模型、例如生成式网络模型,尤其分别配置成通过将在下文中参考图5所详细描述的模型训练方法200所训练的前景生成式网络模型、背景生成式网络模型和合成网络模型。
在一示例中,当输入的原始人物图像带有标注的姿态关键点信息时,姿态关键点识别模型可以被省去。
图5示出根据本发明的一示例性实施例的用于训练用于由原始人物图像生成新的人物图像的神经网络模型400的模型训练方法200的流程图。
根据模型训练方法200,在步骤S210中,提供原始人物图像。示例性地,原始人物图像可以是上文提到的原始人物图像集中的任一幅图像。替代地,原始人物图像是用户借助摄像装置50、例如车载摄像装置所拍摄的人物、例如行人图像或者是从视频流中截取的一帧人物图像。
接下来,在步骤S220中,获取原始人物图像中的人物的姿态关键点(key points)数据。姿态关键点通常包括但不局限于:左右眼睛,左右耳朵,鼻子,嘴巴,颈部,左右肩膀,左右胯,左右手肘,左右手腕,左右膝盖,左右脚踝等,如图2中的多个白斑点50所示。
在一示例中,可以通过对图像进行人工标注的方式来获取姿态关键点数据。在另一示例中,可以通过将原始人物图像输入姿态关键点识别模型410来计算姿态关键点数据。姿态关键点识别模型可以采用人物检测算法、例如Open Pose、Pifpaf、HR-Net等来构建。
根据本发明的一示例性实施例,可以对原始人物图像集中的每幅图像执行姿态关键点的提前标注。在这种情况下,在步骤S210中提供原始人物图像的同时也一并提供了该原始人物图像中的人物的姿态关键点数据。
附加地或替代地,经标注后的原始人物图像集可以分为训练子集datatrain、验证子集dataval和测试子集datatest。
然后,在步骤S230中,基于步骤S220中获取的姿态关键点数据例如借助于人物掩模生成模型420和前背景分割模型430来分割原始人物图像的前景和背景以获得前景图像和背景图像。
根据一示例性实施例,步骤S220进而包括(参见图6):
在步骤S221中,基于姿态关键点数据生成人物掩模IMask;
然后,在步骤S222中,利用人物掩模IMask对原始人物图像进行图像分割,以生成只包含人物的前景图像和只包含背景的背景图像。
为此,可参见图3,图3示出了根据本发明的一示例性实施例的图像分割过程,其中,原始人物图像31借助于生成的人物掩模32被分割成背景图像33和前景图像34。
进一步而言,示例性地,步骤S221进而可以包括(参见图7):
在步骤S2211中,基于真实人体骨骼结构将所获取的姿态关键点相互连接以生成人物骨架二值图像;
在步骤S2212中,对骨架二值图像进行闭运算(closing operation),即先膨胀(dilation)后腐蚀(erosion)处理;以及
在步骤S2213中,对经膨胀和腐蚀的骨架二值图像进行填充处理(fill holes),以填充骨架二值图像中孤立的零值空洞区域,从而获得人物掩模IMask。
在一示例中,膨胀和/或腐蚀算子的尺度可以根据人体骨架尺寸来确定。
替代地,也可以采用现有技术中已知的其它适当的方法、比如人工语义分割标注(也即通过人工将原始人物图像中包含人物的像素标注出来)或图像预处理来生成人物掩模。
根据一示例性实施例,所获取的前景图像和背景图像可以与原始人物图像具有相同的尺寸,只是前景图像中的背景区域为零值,而背景图像中的前景区域为零值,如图3所示。
接下来,在步骤S240中,将步骤S230中获取的前景图像以及步骤S220中获取的姿态关键点数据输入前景生成式网络模型以训练前景生成式网络模型,其中,前景生成式网络模型配置成用于实现前景人物的重建与生成。前景生成式网络模型对应于或包括在前描述的前景特征向量提取模型440。
总的来说,可以采用以下方程来描述前景生成式网络模型:
根据一示例性实施例,采用以下生成式网络中的任一种来构建前景生成式网络模型:生成式对抗神经网络,变分自编码及其衍生模型。
根据一示例性实施例,前景生成式网络模型的生成器包含编码(encode)和解码(decode)的过程。在训练和生成过程中,生成器将数据xc和xa进行编码降维,最终进入瓶颈层(bottle neck layer)得到降维后的特征向量和该层特征包含人物结构和外观的主成分信息并具有较强的可控性。随后,降维后的特征向量和进入解码过程,以获得生成或重建的前景图像在训练过程中,为引导模型Gf收敛,达到较好的图像复原能力及泛化能力,通过适当地设计损失函数来对前景生成式网络模型的训练过程进行约束。
其中,Div(·)表示特征向量散度,L(·)表示L1或L2范数损失,GAN(·)表示GAN损失,λ1和λ2分别表示权重参数。上述参数的详细定义本发明不作具体限制。
根据一示例性实施例,在将前景图像输入生成器之前,首先对前景图像实施图像预处理并进而将经预处理的前景图像输入生成器以实施编码和解码过程。示例性地,所述图像预处理包括:基于姿态关键点数据对前景图像实施人物肢体裁剪、旋转、和/或归一化等一系列图像预处理操作。对于图像预处理操作的特征和细节,本发明不作具体的限定。
在步骤S250中,将步骤S230中获取的背景图像输入背景生成式网络模型以训练背景生成式网络模型,其中,背景生成式网络模型配置成用于实现背景的重建。背景生成式网络模型可以对应于或包括在前描述的背景特征向量提取模型450。
与前景生成式网络模型不同的是,背景生成式网络模型关注于背景的重建,不需要对背景所包含内容进行更改和迁移。
总的来说,可以采用以下方程来描述背景生成式网络模型:
根据一示例性实施例,采用以下生成式网络中的任一种来构建背景生成式网络模型:生成式对抗神经网络,变分自编码及其衍生模型。
不失一般性的,同前景生成式网络模型相似,背景生成式网络模型的生成器也包含编码和解码的过程。在训练和生成过程中,生成器首先将输入的背景图像数据xb进行编码降维,最终进入瓶颈层得到降维后的特征向量该层特征一般包含背景的主成分信息并具有较强的可控性。随后,特征向量进入解码过程,以获得重建的背景图像进一步而言,在训练过程中,为引导模型Gb收敛,达到较好的背景重建能力,通过适当地设计损失函数来对背景生成式网络模型的训练过程进行约束。
其中,Φ表示视觉特征向量提取器,其可以是VGG、Resnet等网络或其中几层,也可以是原始图像像素本身;L表示用来度量两个视觉特征向量的相似性的相似度方程,其可以是已知的L1距离方程和/或L2距离方程。
根据一示例性实施例,可以直接将步骤S230中获取的背景图像输入背景生成式网络模型的生成器以实施编码和解码过程。替代地,也可以在将背景图像输入背景生成式网络模型的生成器之前,首先对背景图像进行区域规划或裁剪以获得的一系列图像块(patch)的组合并进而将所获得的图像块的组合输入生成器以实施编码和解码过程。
总的来说,可以采用以下方程来描述合成网络模型:
其中,Φ表示视觉特征向量提取器,其可以是VGG、Resnet等网络或其中几层,也可以是原始图像像素本身;L表示用来度量两个视觉特征向量的相似性的相似度方程,其可以是L1距离方程和/或L2距离方程等。
在根据本发明的模型训练方法中,可以独立、交互地或联合地训练用于生成或重建前景图像的前景生成式网络模型、用于重建背景图像的背景生成式网络模型和合成网络模型。特别地,可以采用任意适当的顺序或者任意适当的交互或联合方式来实施这三个网络模型的训练。
图8示出根据本发明的一示例性实施例的用于由两幅原始人物图像合成新的人物图像的方法300的流程图。该方法300可以通过将待合成的两幅原始人物图像输入经过上文结合图5所解释的模型训练方法200所训练的神经网络模型400来实施。
在方法300中,在步骤S310中,提供第一原始人物图像。
然后,在步骤S320中,例如通过将第一原始人物图像输入姿态关键点识别模型410来获取第一原始人物图像中的姿态关键点数据。
在步骤S330中,基于步骤S320中所获取的姿态关键点数据例如借助于人物掩模生成模型420和前背景分割模型430来将第一原始人物图像分割成前景图像和背景图像。
在另一方面,在步骤S340中,提供不同于第一原始人物图像的第二原始人物图像。
接下来,在步骤S350中,例如通过将第二原始人物图像输入姿态关键点识别模型410来获取第二原始人物图像中的姿态关键点数据。
在步骤S360中,基于步骤S350中所获取的姿态关键点数据例如借助于人物掩模生成模型420和前背景分割模型430来将第二原始人物图像分割成前景图像和背景图像。
然后,在步骤S370中,例如通过将步骤S330中获取的第一原始人物图像的前景图像和步骤S350中获取的第二原始人物图像中的姿态关键点数据输入前景特征向量提取模型440来从第一原始人物图像的前景图像和第二原始人物图像的姿态关键点数据提取作为降维后的特征(例如编码器瓶颈层的特征)的人物外观特征向量和人物姿态关键点特征向量
在另一方面,在步骤S380中,例如通过将步骤S360中获取的第二原始人物图像的背景图像输入背景特征向量提取模型450来从第二原始人物图像的背景图像提取作为降维后的特征(例如编码器瓶颈层的特征)的背景特征向量
接下来,在步骤S390中,例如通过将步骤S370中提取的人物外观特征向量和人物姿态关键点特征向量和步骤S380中提取的背景特征向量输入图像合成模型460中来合成新的人物图像。该新的人物图像具有第二原始人物图像中的背景和人物姿态但具有第一原始人物图像中的人物外观(即样貌和着装)。
因而,方法300实质上可以理解成一种将一幅人物图像中的人物的外观变换成另一幅人物图像中的人物外观而保持其背景和人物姿态不变的方法。该方法300可以用于多种场合,比如数据增强或者影音娱乐领域。
图9示出根据本发明的一示例性实施例的用于重建原始人物图像的方法500的流程图。该方法500可以通过将待重建的一幅原始人物图像输入经过上文结合图5所解释的模型训练方法200所训练的神经网络模型400来实施。
在方法500中,在步骤S510中,提供原始人物图像。
然后,在步骤S520中,例如通过将原始人物图像输入姿态关键点识别模型410来获取原始人物图像中的姿态关键点数据。
在步骤S530中,基于步骤S520中所获取的姿态关键点数据例如借助于人物掩模生成模型420和前背景分割模型430来将原始人物图像分割成前景图像和背景图像。
然后,在步骤S540中,例如通过将步骤S530中获取的前景图像和步骤S520中获取的姿态关键点数据输入前景特征向量提取模型440来从前景图像和姿态关键点数据提取作为降维后的特征(例如编码器瓶颈层的特征)的人物外观特征向量和人物姿态关键点特征向量
接下来,在步骤S560中,例如通过将步骤S540中提取的人物外观特征向量和人物姿态关键点特征向量以及步骤S550中提取的背景特征向量输入图像合成模型460中来合成新的人物图像。该新的人物图像是对输入的原始人物图像的整幅图的重建或者说复原。
该方法500可以用于多种场合,比如数据增强或者是影音娱乐领域。
根据本发明,由于采用了前景、背景和合成三个网络模型,因此生成的图像不但具有逼真的前景和背景,而且前景与背景过渡自然,具有显著增强的场景语义一致性。
尽管一些实施例已经被说明,但是这些实施例仅仅是以示例的方式予以呈现,而没有旨在限定本发明的范围。所附的权利要求和它们的等价形式旨在覆盖落在本发明范围和精神内的所有改型、替代和改变。
Claims (10)
2.一种用于由原始人物图像生成新的人物图像的方法(300),所述方法(300)至少包括以下步骤:
i’)提供第一原始人物图像和不同于第一原始人物图像的第二原始人物图像;
ii’)获取第一原始人物图像和第二原始人物图像中各自的人物的姿态关键点数据;
iii’)将第一原始人物图像和第二原始人物图像分别分割成前景图像和背景图像;
iv’)将第一原始人物图像的前景图像和第二原始人物图像的姿态关键点数据输入前景特征向量提取模型(440)以提取人物外观特征向量和人物姿态关键点特征向量将第二原始人物图像的背景图像输入背景特征向量提取模型(450)以提取背景特征向量以及
4.根据权利要求3所述的方法(300,500),其特征在于,
采用以下生成式网络中的任一种来构建前景或背景生成式网络模型:生成式对抗神经网络(GAN),变分自编码(VAE)及其衍生模型。
5.根据前述权利要求中任一项所述的方法(300,500),其特征在于,采用以下方式执行步骤iii)或iii’):
a)基于姿态关键点数据生成人物掩模;
b)利用人物掩模对第一、第二原始人物图像进行图像分割,以生成基本上只包含人物的前景图像和基本上只包含背景的背景图像。
6.根据权利要求5所述的方法(300,500),其特征在于,采用以下方式执行步骤a):
基于真实人体骨骼结构将姿态关键点相互连接以生成骨架二值图像;
对骨架二值图像进行膨胀和/或腐蚀处理;以及
对经膨胀和/或腐蚀的骨架二值图像中的孤立的零值空洞区域进行填充,以便生出人物掩模。
7.一种用于由原始人物图像生成新的人物图像的方法(300,500),所述方法包括:将第一原始人物图像或者第一和第二原始人物图像输入由前景生成式网络模型、背景生成式网络模型和合成网络模型组成的经训练的神经网络模型以合成新的人物图像;所述神经网络模型是采用以下方式来训练的:
i”)提供包含人物的训练图像;
ii”)获取训练图像中的人物的姿态关键点数据;
iii”)将训练图像分割成前景图像和背景图像;
iv”)将前景图像及姿态关键点数据输入前景生成式网络模型以训练前景生成式网络模型,将背景图像输入背景生成式网络模型以训练背景生成式网络模型;以及
8.根据权利要求7所述的方法(300,500),其特征在于,
独立地、交互地或联合地训练前景生成式网络模型、背景生成式网络模型和合成网络模型。
9.一种用于由原始人物图像生成新的人物图像的装置(100),所述装置(100)包括处理器(10)和与处理器(10)通信连接的计算机可读存储装置(20),计算机可读存储装置(20)中存储有计算机程序,当所述计算机程序被处理器(10)执行时,用于实施根据前述权利要求中任一项所述的方法(300,500)。
10.一种用于由原始人物图像生成新的人物图像的装置(400),所述装置(400)配置成用于实施根据权利要求1-8中任一项所述的方法(300,500)并包括:
姿态关键点识别装置(410),其配置成用于确定输入的原始人物图像中的人物的姿态关键点数据;
人物掩模生成模型(420),其配置成用于生成人物掩模;
前背景分割模型(430),其配置成用于将输入的原始人物图像分割成前景图像和背景图像;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011120139.1A CN112241708A (zh) | 2020-10-19 | 2020-10-19 | 用于由原始人物图像生成新的人物图像的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011120139.1A CN112241708A (zh) | 2020-10-19 | 2020-10-19 | 用于由原始人物图像生成新的人物图像的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112241708A true CN112241708A (zh) | 2021-01-19 |
Family
ID=74169181
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011120139.1A Pending CN112241708A (zh) | 2020-10-19 | 2020-10-19 | 用于由原始人物图像生成新的人物图像的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112241708A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112991484A (zh) * | 2021-04-28 | 2021-06-18 | 中国科学院计算技术研究所数字经济产业研究院 | 智能人脸编辑方法、装置、存储介质及设备 |
CN113919998A (zh) * | 2021-10-14 | 2022-01-11 | 天翼数字生活科技有限公司 | 一种基于语义和姿态图引导的图片匿名化方法 |
-
2020
- 2020-10-19 CN CN202011120139.1A patent/CN112241708A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112991484A (zh) * | 2021-04-28 | 2021-06-18 | 中国科学院计算技术研究所数字经济产业研究院 | 智能人脸编辑方法、装置、存储介质及设备 |
CN113919998A (zh) * | 2021-10-14 | 2022-01-11 | 天翼数字生活科技有限公司 | 一种基于语义和姿态图引导的图片匿名化方法 |
WO2023060918A1 (zh) * | 2021-10-14 | 2023-04-20 | 天翼数字生活科技有限公司 | 一种基于语义和姿态图引导的图片匿名化方法 |
CN113919998B (zh) * | 2021-10-14 | 2024-05-14 | 天翼数字生活科技有限公司 | 一种基于语义和姿态图引导的图片匿名化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | A state-of-the-art review on image synthesis with generative adversarial networks | |
Din et al. | A novel GAN-based network for unmasking of masked face | |
CN111340122B (zh) | 一种多模态特征融合的文本引导图像修复方法 | |
CN109919830B (zh) | 一种基于美学评价的带参考人眼图像修复方法 | |
CN110222668A (zh) | 基于生成对抗网络的多姿态面部表情识别方法 | |
CN110796593A (zh) | 基于人工智能的图像处理方法、装置、介质及电子设备 | |
CN112241708A (zh) | 用于由原始人物图像生成新的人物图像的方法及装置 | |
KR102373606B1 (ko) | 영상 형성을 위한 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램 | |
CN114283080A (zh) | 一种多模态特征融合的文本指导图像压缩噪声去除方法 | |
CN111612687B (zh) | 一种人脸图像自动上妆方法 | |
Liang et al. | PCGAN: Partition-controlled human image generation | |
CN114863533A (zh) | 数字人生成方法和装置及存储介质 | |
CN114724214B (zh) | 一种基于面部动作单元的微表情编辑方法及*** | |
Peng et al. | Difffacesketch: High-fidelity face image synthesis with sketch-guided latent diffusion model | |
Tan et al. | Style2talker: High-resolution talking head generation with emotion style and art style | |
CN117333604A (zh) | 一种基于语义感知神经辐射场的人物面部重演方法 | |
CN112990123B (zh) | 图像处理方法、装置、计算机设备和介质 | |
Gowda et al. | From pixels to portraits: A comprehensive survey of talking head generation techniques and applications | |
CN116385606A (zh) | 一种语音信号驱动的个性化三维人脸动画生成方法及其应用 | |
Choi et al. | Improving diffusion models for virtual try-on | |
CN109657589B (zh) | 一种基于人体交互动作的体验者动作生成方法 | |
Jiang et al. | Multi-modality deep network for jpeg artifacts reduction | |
Xia et al. | 3D information guided motion transfer via sequential image based human model refinement and face-attention GAN | |
Zheng et al. | Attributes and semantic constrained GAN for face sketch-photo synthesis | |
Li et al. | HUMOD: High-Quality Human Modeling From Monocular Virtual Try-On Image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |