CN113283372A - 用于处理人物图像的方法和设备 - Google Patents

用于处理人物图像的方法和设备 Download PDF

Info

Publication number
CN113283372A
CN113283372A CN202110641759.8A CN202110641759A CN113283372A CN 113283372 A CN113283372 A CN 113283372A CN 202110641759 A CN202110641759 A CN 202110641759A CN 113283372 A CN113283372 A CN 113283372A
Authority
CN
China
Prior art keywords
image
person
original
feature vector
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110641759.8A
Other languages
English (en)
Inventor
支蓉
郭子杰
张武强
王宝锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mercedes Benz Group AG
Original Assignee
Daimler AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daimler AG filed Critical Daimler AG
Priority to CN202110641759.8A priority Critical patent/CN113283372A/zh
Publication of CN113283372A publication Critical patent/CN113283372A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉领域及自动驾驶领域。本发明提供一种用于处理人物图像的方法,所述方法包括以下步骤:提供用于训练人物图像生成模型的原始人物图像;结合注意力机制从原始人物图像提取第一特征向量和第二特征向量,所述第一特征向量不同于第二特征向量;借助人物图像生成模型的生成网络,基于第一特征向量和第二特征向量合成新的人物图像。本发明还提供用于借助人物图像生成模型来生成人物图像的方法,一种用于处理人物图像的设备和一种计算机程序产品。本发明旨在通过引入注意力机制使编码器更好地提取有用特征,并且还提供了一条基于隐空间一致性的路径,能够帮助生成网络在无需配对标注数据的情况下完成特定人物外观的合理约束。

Description

用于处理人物图像的方法和设备
技术领域
本发明涉及一种用于处理人物图像的方法、一种用于生成人物图像的方法、一种用于处理人物图像的设备和一种计算机程序产品。
背景技术
随着深度神经网络在计算机视觉中的广泛应用,旨在利用人物图像生成技术获得越来越真实、自然的合成图像。人物姿态迁移是该领域中一个非常重要的主题。例如,可以给定一个含有人物的图像并且同时提供任意目标姿态,通过目标姿态迁移过程即可重构出具有原始人物外观,但同时具有不同姿态的全新人物图像,这在自动驾驶(例如行人重识别)以及商业展示(例如换装展示)等应用领域中具有重要价值。
现有技术中提出生成任意姿态的行人图像的方法,在该方法中,利用热力图或目标姿态图作为训练数据,然后再使用生成对抗网络(GAN)或变分自编码器(VAE)之类的生成网络成新的人物图像。此外,很多方法依赖人物图像提取感兴趣区域(ROI)来实现人物前景背景与姿态的分割。
但是,上述解决方案仍存在诸多不足,特别是,目前的图像生成方法在人物信息提取方面均需要利用掩模或通过划定感兴趣区域来帮助进行特征解耦,而且在人物重构方面往往需要借助配对标注数据(即同一人物在不同姿态或视角下的标注数据集)来辅助训练。因此,对诸如目标检测、人物姿态识别、人物身份识别等对于神经网络的整体表现和图像质量均有较高要求的任务而言,现有的网络结构和图像生成方法仍无法满足这些需求。
在这种背景下,期待提供一种改进的人物图像生成方法,能够在无需配对的真实目标图像的情况下完成特定外观和姿态的迁移过程,由此生成图像清晰、神态丰富的人物图像。
发明内容
本发明的目的在于提供一种用于处理人物图像的方法、一种用于生成人物图像的方法、一种用于处理人物图像的设备和一种计算机程序产品,以至少解决现有技术中的部分问题。
根据本发明的第一方面,提供一种用于处理人物图像的方法,所述方法包括以下步骤:
S1:提供用于训练人物图像生成模型的原始人物图像;
S2:结合注意力机制从原始人物图像提取第一特征向量和第二特征向量,所述第一特征向量不同于第二特征向量;以及
S3:借助人物图像生成模型的生成网络,基于第一特征向量和第二特征向量合成新的人物图像。
本发明尤其包括以下技术构思:通过引入注意力机制,可以使特征提取器更准确地寻找并以更高权重聚焦有用信息,而弱化无用信息。由此改善了不同图像特征之间的自动解耦,同时也加速了训练过程的收敛速度。
可选地,所述方法还包括以下步骤:
S4:将原始人物图像和新的人物图像作为条件信息输入到人物图像生成模型的判别网络中判别真假;
S5:计算预设的损失函数;以及
S6:判断对人物图像生成模型的训练是否达到预设的训练步数,如果没有达到预设的训练步数,则将损失函数更新梯度反向传播至人物图像生成模型的网络参数中,并继续训练人物图像生成模型;如果达到预设的训练步数,则结束对人物图像生成模型的训练。
在此,尤其实现以下技术优点:通过生成对抗过程以及适当的损失函数设计,可以确保对人物图像高频信息的准确复原,使得最终合成的人物图像质量更高,同时可以稳定人物图像生成模型的训练过程,让网络最终趋于收敛。
可选地,所述步骤S2包括:
S21:借助预训练的姿态检测模型检测原始人物图像的姿态关键点,将姿态关键点拼接和可视化成人物姿态图像;以及
S22:将人物姿态图像输入到人物图像生成模型的第一特征提取网络中,以得到关于目标人物姿态的第一特征向量。
可选地,所述步骤S2还包括:
S23:基于所检测的关键点从原始人物图像裁切出包含完整人物轮廓以及周边背景的图像块;
S24:将所述图像块输入到人物图像生成模型的第二特征提取网络中;以及
S25:借助注意力机制、尤其CBAM注意力机制对人物前景背景与人物姿态进行解耦,以得到关于目标人物前景背景的第二特征向量。
可选地,在步骤S25中,根据图像块的空间信息和通道信息筛选出待提取的特征向量,并且主动忽略不相关部分。
在此,尤其实现以下技术优点:通过学习两个维度之间的信息,可以让特征提取器沿着空间和通道两个维度依次推断出注意力权重值,从而自主学习并突出重点特征,同时抑制对当前任务影响较小的特征。
可选地,所述方法还包括以下步骤:
生成原始人物图像的前景背景特征在隐空间中的第一表达;
生成新的人物图像的前景背景特征在隐空间中的第二表达;以及
在隐空间中衡量所述第一表达和所述第二表达之间的一致性。
在此,尤其实现以下技术优点:本发明通过上述操作引入一条基于隐空间的一致性路径,由此帮助人物图像生成模型在无配对训练数据的情况下良好地约束并保留原始人物图像中的前景背景特征。因此,有利地降低了最终生成的图像在外观方面的失真现象。
可选地,对人物图像生成模型使用的损失函数包括隐向量一致性损失,其通过以下等式表示:
Lz=Ez(z-z′)2
其中,z是原始人物图像经过特征提取之后得到的第二特征向量,z′是所合成的新的人物图像经过特征提取之后得到的新的第二特征向量,Ez表示期望。
在此,尤其实现以下技术优点:通过建立隐向量损失,可以在整个网络的训练过程中定量描述人物外观方面的一致性偏差,并且通过最小化该损失函数来约束合成的新人物图像与原始人物图像的外观(即前景背景)一致性,从而在网络训练完毕时,人物生成器能够很好地保留原始人物图像的外观特征。
根据本发明的第二方面,提供一种用于借助人物图像生成模型来生成人物图像的方法,所述人物图像生成模型借助根据本发明的第一方面所述的方法所训练,所述方法包括以下步骤:
提供第一原始人物图像和第二原始人物图像;以及
将第一原始人物和第二原始人物图像输入到经训练的人物图像生成模型中以合成新的人物图像,所述新的人物图像具有第一原始人物图像的前景背景以及第二原始人物图像的人物姿态。
根据本发明的第三方面,提供一种用于处理人物图像的设备,所述设备包括处理器和与处理器通信连接的计算机可读存储装置,计算机可读存储装置中存储有计算机程序,当所述计算机程序被处理器执行时,用于实施根据本发明的第一方面所述的方法。
根据本发明的第四方面,提供一种计算机程序产品,其中,所述计算机程序产品包括计算机程序,所述计算机程序用于在被计算机执行时实施根据本发明的第一方面所述的方法。
附图说明
下面,通过参看附图更详细地描述本发明,可以更好地理解本发明的原理、特点和优点。附图包括:
图1示出了根据本发明的一个示例性实施例的用于处理人物图像的设备的示意性结构框图;
图2示出了根据本发明的一个示例性实施例的用于处理人物图像的方法的流程图;
图3示出了根据本发明的一个示例性实施例的用于处理人物图像的方法的一个步骤的流程图;
图4示出了根据本发明的一个示例性实施例的用于生成人物图像的方法的流程图;
图5示出了根据本发明的一个示例性实施例的人物图像生成模型的功能的示意图;
图6示出了在根据本发明的方法中使用的特征提取器的示意图;以及
图7示出了在根据本发明的方法中使用的特征提取器中引入注意力机制的示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案以及有益的技术效果更加清楚明白,以下将结合附图以及多个示例性实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,而不是用于限定本发明的保护范围。
图1示出了根据本发明的一示例性实施例的用于处理人物图像的设备100的示意性结构框图。设备100包括处理器10和与处理器10通信连接的计算机可读存储装置20。计算机可读存储装置20中存储有计算机程序,当所述计算机程序被处理器10执行时,用于实施将在下文予以详细解释的用于处理人物图像的方法。
根据一示例性实施例,与处理器10通信连接的显示装置30被提供。借助于显示装置30,用户可以查看将被设备100处理的原始人物图像和由设备100生成的新的人物图像。
根据一示例性实施例,与处理器10通信连接的输入装置40被提供。借助于输入装置40,用户可以选择或输入将被设备100处理的原始人物图像。输入装置40例如可以包括:键盘、鼠标和/或触控屏。
根据一示例性实施例,与处理器10通信连接的摄像装置50被提供。借助于摄像装置50,用户可以拍摄人物图像以作为将被设备100处理的原始人物图像。
根据一示例性实施例,由多个人物图像构成的图像集作为训练数据集被提供。图像集可以存储在计算机可读存储装置20或与处理器10通信连接的另外的存储装置中。
图2示出了根据本发明的一个示例性实施例的用于处理人物图像的方法的流程图。该方法可以是一种生成人物图像的模型训练方法。
在步骤S1中,提供用于训练人物图像生成模型的原始人物图像。在本发明的意义上,原始人物图像尤其理解为从真实图像中(人工地或机器地)选取出的或者从视频流中截取的包括人物的图像,这些真实图像例如可以通过图像获取装置采集。
在步骤S2中,结合注意力机制从原始人物图像提取第一特征向量和第二特征向量。在此,第一特征向量不同于第二特征向量,第一特征向量例如表示人物姿态信息,第二特征向量例如表示人物外观信息(即前景背景信息)。例如可以将原始人物图像经过简单处理之后输入到特征提取网络(例如相应的编码器网络)中,以便得到人物姿态特征向量和人物外观特征向量。编码器网络的种类有很多,示例性地,可以在人物姿态信息的提取方面使用U-NET网络的编码器部分,而在人物外观信息的提取方面引入VAE网络的编码器部分以实现人物图像的不同特征向量提取。
在此,引入注意力机制意味着可以在特征提取阶段帮助实现人物外观和姿态的自动解耦,从而使不同提取器通过自学习方式获得每个特征的重要程度,然后依照重要程度去提升有用特征,并抑制对当前任务影响较小的特征。
接下来,在步骤S3中,借助人物图像生成模型的生成网络,基于第一特征向量和第二特征向量合成新的人物图像。具体而言,例如可以将所提取的特征向量输入到生成对抗网络的生成式网络(即解码器)中生成复原人物图像,从而复原的人物图像分别具有第一特征向量和第二特征向量所表示的人物信息。
在步骤S4中,将原始人物图像和新的人物图像作为条件信息输入到人物图像生成模型的判别网络中判别真假。在此,例如可以将复原人物图像和原始人物图像共同输入到生成对抗网络的判别式网络中判别真伪。例如可以使用马尔可夫判别器(Patch-GAN)作为相应的判别式网络,该判别器完全由卷积层构成,其输出的是n×n的矩阵,最后将输出矩阵的均值作为真伪(True/False)的输出。基于这种判别器,可以对原始人物图像中的各个图像块分别进行真伪判断并进行加权平均,从而能够在总体上得出最终判断:生成的人物图像与原始人物图像是否为相同的人物图像。
在步骤S5中,计算新的人物图像与原始人物图像之间的特征差值、也即损失函数。
根据一示例性实施例,对生成式网络部分采用的损失函数包括四部分:
第一部分是基于VGG19在MS COCO上的预训网络的内容损失(特征L2损失),其公式表示如下
Figure BDA0003108156000000071
其中,F为网络特征参数,X为输入的原始人物图像,
Figure BDA0003108156000000072
为生成的复原人物图像,{lc}为VGG19对应的特征层;
第二部分是KL散度距离,其公式表示如下:
Figure BDA0003108156000000073
其中,X为输入的原始人物图像,Y为输入的人物姿态图像,z为提取到的图像整体特征,
Figure BDA0003108156000000074
Figure BDA0003108156000000075
分别表示后验概率和先验概率并且在这里代表了特征提取网络中间的未经采样的特征向量。
第三部分是判别器损失,其公式表示如下:
Figure BDA0003108156000000076
其中,D为判别式网络的网络特征参数,
Figure BDA0003108156000000077
为生成的复原人物图像,Y为输入的人物姿态图像,
Figure BDA0003108156000000078
表示期望。
第四部分是隐向量一致性损失,其公式表示如下:
Lz=Ez(z-z′)2
其中,z是原始人物图像经过特征提取之后得到的第二特征向量,z′是所合成的新的人物图像(同一外观不同姿态)经过特征提取之后得到的新的第二特征向量,Ez表示期望。
在此提出的隐向量一致性损失可以保证整个网络在训练过程中通过损失函数来约束生成的人物图像与原始人物图像的外观特征,通过在隐空间中构建一致性路径,并且在隐空间中不断进行这种迭代运算,能够在人物图像生成过程中单独控制外观方面的特定参数。由此,解决了在无配对训练数据情况下无法约束生成图像人物前景背景特征的问题。
将这些项结合起来为生成式网络部分的损失函数,生成式网络的目的是最小化此处的损失函数。这样设计损失函数的目的是在保留图像内容与图像风格的情况下,把人物姿态与外观特征解耦开来,以便在人物图像生成过程中可以控制这些参数,判别式网络损失则可以极大程度上保留图像在高频部分的真实性,使得生成的图像质量更高,同时可以稳定判别式网络的训练过程,让网络最终趋于收敛。类似的损失函数设计方式还有很多,在具备各项损失函数功能的前提下,本发明对此部分损失函数的具体设计方式和占比均不作限制。
在本示例性实施例中,对判别式网络部分采用的损失函数为log损失,其公式表示如下:
Figure BDA0003108156000000081
其中,X为输入的原始人物图像,
Figure BDA0003108156000000082
为生成的复原人物图像,Y为输入的人物姿态图像,EX,Y
Figure BDA0003108156000000083
分别表示期望。
判别式网络的目的是最大化该损失函数,由此可以训练判别式网络分辨出真假图像。继而在训练过程中可以与生成器进行对抗式训练,间接促使生成器达到更好的生成效果。类似的损失函数设计方式还有很多,在具备判别式网络功能的前提下,本发明对此部分损失函数的具体设计和占比均不作限制。
然后在步骤S6中判断对人物图像生成模型的训练是否达到预设的训练步数,如果没有达到预设的训练步数,则将损失函数更新梯度反向传播至人物图像生成模型的网络参数中,并继续训练人物图像生成模型;如果达到预设的训练步数,则结束对人物图像生成模型的训练。
图3示出了根据本发明的一个示例性实施例的用于处理人物图像的方法(例如可以是一种生成人物图像的模型训练方法)的一个步骤的流程图。
在步骤S21中,借助预训练的姿态检测模型检测原始人物图像的姿态关键点,将姿态关键点拼接和可视化成人物姿态图像。作为示例,姿态关键点识别模型是利用MS COCO数据集对Open Pose模型进行训练而得到的预训练模型。替代地,姿态关键点识别模型也可以是现有技术中已知的任何其它适当的模型。然后,例如可以将获得的人物姿态关键点信息根据现实生活中的人体骨架连接方式进行拼接,并借助RGB图像进行可视化处理,由此得到人物姿态图像。本发明对具体的拼接顺序和可视化处理方式不进行具体限制。
在步骤S22中,将人物姿态图像输入到人物图像生成模型的第一特征提取网络中,以得到关于目标人物姿态的第一特征向量。作为示例,可以在人物姿态信息的提取方面使用U-NET网络的编码器。
在步骤S23中,基于所检测的关键点从原始人物图像裁切出包含完整人物轮廓以及周边背景的图像块。在此,例如可以基于在步骤S21中检测到的姿态关键点计算出人物边缘框,并把人物边缘框向外扩张以形成包含完整人物且大于人物的图像快,此处尤其应确保原始人物图像的部分背景保留在该裁切出的人物图像块中。这种图像块可用作后续的前景背景特征向量(即第二特征向量)的提取基础。
在步骤S24中,将所述图像块输入到人物图像生成模型的第二特征提取网络中。作为示例,可以在人物外观信息的提取方面VAE(变分自编码器)的编码器部分作为特征提取网络,在此对外观特征(即前景背景特征)的提取为VAE中间层采样过后的结果。
在步骤S25中,借助注意力机制、尤其CBAM注意力机制对人物前景背景与人物姿态进行解耦,以得到关于目标人物前景背景的第二特征向量。作为示例,可以借助CBAM根据图像块的空间信息和通道信息有选择地提取特征信息,由此帮助实现人物外观和姿态的解耦。
图4示出了根据本发明的一个示例性实施例的用于生成人物图像的方法的流程图。
在步骤401中,提供第一原始人物图像。
在步骤402中,从第一原始人物图像提取前景背景特征。在此,例如首先通过检测姿态关键点确定包含整个人体的轮廓,并基于该轮廓从第一原始人物图像裁切出人物图像块。然后,可以将该人物图像块输入到用于预训练的人物图像生成模型的外观提取器(例如VAE的编码器输入端),以提取到第一原始人物图像的前景和背景的特征向量。
在步骤403中,提供第二原始人物图像。在此,第二原始人物图像尤其与第一原始人物图像不属于同一图像,或者说包含不同人物及前景背景。
在步骤404中,从第二原始人物图像提取姿态特征。在此,例如针对第二原始人物图像检测人物姿态关键点并按照人体肢体顺序拼接起来,并可视化。然后,将得到的人物姿态图像输入到预训练的人物图像生成模型的姿态提取器(例如U-NET的编码器输入端),从而提取到第二原始人物图像的姿态特征向量。
在步骤405中,将分别在步骤403、404得到的特征向量输入到预训练的人物图像生成模型的生成式网络中(例如U-NET的解码器输入端),从而生成目标图像。在此,该目标图像具有第一原始人物图像的前景背景特征以及第二原始人物图像的人物姿态。
图5示出了根据本发明的一个示例性实施例的人物图像生成模型的功能的示意图。
如图5所示,将具有原始人物姿态501的原始人物图像502以及目标人物姿态503共同输入到借助根据本发明的方法训练过的人物图像生成模型505中。
可以看出,由人物图像生成模型505输出的新的人物图像504不再具有原始人物图像502的原始人物姿态501,而是在保留了原始人物图像502的外观的同时,具有与目标人物姿态503相同的姿态。
在此过程中,尤其不需要配对的标注数据,但是生成的图像清晰、质量高且人物神态真实、姿态丰富。这种合成的人物图像尤其可以用作其他感知模型的训练数据集。
图6示出了在根据本发明的方法中使用的特征提取器的示意图。
在此使用U-NET与VAE的组合作为人物图像生成模型的生成式网络。具体地,可以采用VAE的编码器603来实现从原始人物图像块对人物外观特征向量(即前景背景特征向量)的提取,采用U-NET的编码器609来实现从姿态图像对姿态特征向量的提取。在此,生成复原人物图像过程中采用的U-NET解码器部分611可以与特征提取阶段采用的U-NET编码器部分609的相应层数进行跳跃连接。
U-NET网络分为两部分,第一部分、即编码器609用于逐渐减少空间维度,以便对输入的人物姿态图像602进行特征提取,于是得到相应的人物姿态特征向量610。第二部分、即解码器611用于进行上采样,以便逐步修复物体的细节和空间维度,从而形成输出图像612。在编码器609与解码器611之间通常存在快捷连接,因此能帮助解码器更好地修复目标细节。
VAE网络包括编码器部分603,其作为人物外观的特征提取器用于将输入的人物图像块601编码成均值向量604和方差向量605。
在此,为了对前景背景特征的提取时强化有意义特征,同时弱化无用特征,将注意力模块613、尤其CBAM注意力模块引入到VAE的编码器部分603。在此,CBAM注意力模块613作为轻量级的通用模块尤其可作为即插即用的模块(插件)无缝地集成到任何CNN架构中,然而这里的CBAM也可以替换成其他注意力机制。
通过在特征提取过程中引入这种注意力机制,对于VAE而言,可以结合通道信息和空间信息而在训练过程中将更多注意力分配到待学习的重点特征(即前景背景特征)上,而给输入的人物图像块中包含的其他不相关特征(即姿态特征)分配更小的注意力,由此忽略它的影响。
在经过VAE的编码器部分603的特征提取之后,将VAE网络中间层采样过后的特征向量606提取为所需的人物外观特征向量。
在分别获得了人物姿态特征向量610和人物外观特征向量606之后,将VAE网络的中间层输出结果606与U-NET网络的中间层耦合在一起,以确保最后由条件U-NET生成的复原图像612不但具有原始输入图像的固定变现(外观特征),而且纳入了随机姿态的潜在表征,使得生成的图像与所提取的姿态特征表现出一致性。
图7示出了在根据本发明的方法中使用的特征提取器中引入注意力机制的示意图。
在图7上部示出了在本发明中采用的VAE编码器700的结构示意图。该VAE编码器700例如包括多个层701、702、703、704。在此,相对于常规VAE编码器结构的改进之处在于:为了使其在特征提取阶段更关注有用信息,因此在VAE编码器700的不同层之间分别引入注意力模块705。这种注意力模块例如基于空间和通道的向量形成插件,并其***到编码器700的不同层之间。
在图7下部示出了注意力模块705的具体结构。在每个注意力模块705处,先后集成了通道注意力模块707和空间注意力模块708。在输入端由前一层给定一个中间特征图706,沿着空间和通道两个维度依次推断出注意力权重,然后通过分别与该中间特征图706相乘进行自适应权重调整,并使用广播机制对原有特征图进行信息提炼,从而最后得到提炼后的特征图709。这种特征图709又重新作为输入被提供给编码器700的下一层。因此,通过重复的注意力引入,在空间和通道两个维度上不断强调了有意义特征。
尽管这里详细描述了本发明的特定实施方式,但它们仅仅是为了解释的目的而给出的,而不应认为它们对本发明的范围构成限制。在不脱离本发明精神和范围的前提下,各种替换、变更和改造可被构想出来。

Claims (10)

1.一种用于处理人物图像的方法,所述方法包括以下步骤:
S1:提供用于训练人物图像生成模型的原始人物图像;
S2:结合注意力机制从原始人物图像提取第一特征向量(610)和第二特征向量(606),所述第一特征向量(610)不同于第二特征向量(606);以及
S3:借助人物图像生成模型的生成网络,基于第一特征向量(610)和第二特征向量(606)合成新的人物图像(612)。
2.根据权利要求1所述的方法,其中,所述方法还包括以下步骤:
S4:将原始人物图像和新的人物图像(612)作为条件信息输入到人物图像生成模型的判别网络中判别真假;
S5:计算预设的损失函数;以及
S6:判断对人物图像生成模型的训练是否达到预设的训练步数,如果没有达到预设的训练步数,则将损失函数更新梯度反向传播至人物图像生成模型的网络参数中,并继续训练人物图像生成模型;如果达到预设的训练步数,则结束对人物图像生成模型的训练。
3.根据权利要求1或2所述的方法,其中,所述步骤S2包括:
S21:借助预训练的姿态检测模型检测原始人物图像的姿态关键点,将姿态关键点拼接和可视化成人物姿态图像;以及
S22:将人物姿态图像输入到人物图像生成模型的第一特征提取网络(609)中,以得到关于目标人物姿态的第一特征向量(610)。
4.根据权利要求3所述的方法,其中,所述步骤S2还包括:
S23:基于所检测的关键点从原始人物图像裁切出包含完整人物轮廓以及周边背景的图像块;
S24:将所述图像块输入到人物图像生成模型的第二特征提取网络(603)中;以及
S25:借助注意力机制、尤其CBAM注意力机制对人物前景背景与人物姿态进行解耦,以得到关于目标人物前景背景的第二特征向量(606)。
5.根据权利要求4所述的方法,其中,在步骤S25中,根据图像块的空间信息和通道信息筛选出待提取的特征向量,并且主动忽略不相关部分。
6.根据权利要求1至5中任一项所述的方法,其中,所述方法还包括以下步骤:
生成原始人物图像的前景背景特征在隐空间中的第一表达;
生成新的人物图像(612)的前景背景特征在隐空间中的第二表达;以及
在隐空间中衡量所述第一表达和所述第二表达之间的一致性。
7.根据权利要求6所述的方法,其中,对人物图像生成模型使用的损失函数包括隐向量一致性损失,其通过以下等式表示:
Lz=Ez(z-z′)2
其中,z是原始人物图像经过特征提取之后得到的第二特征向量(606),z′是所合成的新的人物图像(612)经过特征提取之后得到的新的第二特征向量(606),Ez表示期望。
8.一种用于借助人物图像生成模型(505)来生成人物图像的方法,所述人物图像生成模型(505)借助根据权利要求1至7中任一项所述的方法所训练,所述方法包括以下步骤:
提供第一原始人物图像(502)和第二原始人物图像(503);以及
将第一原始人物(502)和第二原始人物图像(503)输入到经训练的人物图像生成模型(505)中以合成新的人物图像(504),所述新的人物图像(504)具有第一原始人物图像(502)的前景背景以及第二原始人物图像(503)的人物姿态。
9.一种用于处理人物图像的设备(100),所述设备(100)包括处理器(10)和与处理器(10)通信连接的计算机可读存储装置(20),计算机可读存储装置(20)中存储有计算机程序,当所述计算机程序被处理器(10)执行时,用于实施根据权利要求1至7中任一项所述的方法。
10.一种计算机程序产品,其中,所述计算机程序产品包括计算机程序,所述计算机程序用于在被计算机执行时实施根据权利要求1至7中任一项所述的方法。
CN202110641759.8A 2021-06-09 2021-06-09 用于处理人物图像的方法和设备 Pending CN113283372A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110641759.8A CN113283372A (zh) 2021-06-09 2021-06-09 用于处理人物图像的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110641759.8A CN113283372A (zh) 2021-06-09 2021-06-09 用于处理人物图像的方法和设备

Publications (1)

Publication Number Publication Date
CN113283372A true CN113283372A (zh) 2021-08-20

Family

ID=77283881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110641759.8A Pending CN113283372A (zh) 2021-06-09 2021-06-09 用于处理人物图像的方法和设备

Country Status (1)

Country Link
CN (1) CN113283372A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113706650A (zh) * 2021-08-27 2021-11-26 深圳龙岗智能视听研究院 一种基于注意力机制和流模型的图像生成方法
CN114025198A (zh) * 2021-11-08 2022-02-08 深圳万兴软件有限公司 基于注意力机制的视频卡通化方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113706650A (zh) * 2021-08-27 2021-11-26 深圳龙岗智能视听研究院 一种基于注意力机制和流模型的图像生成方法
CN114025198A (zh) * 2021-11-08 2022-02-08 深圳万兴软件有限公司 基于注意力机制的视频卡通化方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
Zhang et al. Facial: Synthesizing dynamic talking face with implicit attribute learning
CN109815826B (zh) 人脸属性模型的生成方法及装置
Zhou et al. Photorealistic facial expression synthesis by the conditional difference adversarial autoencoder
WO2021036059A1 (zh) 图像转换模型训练方法、异质人脸识别方法、装置及设备
CN112163498B (zh) 前景引导和纹理聚焦的行人重识别模型建立方法及其应用
CN110111316B (zh) 基于眼部图像识别弱视的方法及***
CN113283372A (zh) 用于处理人物图像的方法和设备
CN111369646B (zh) 一种融合注意力机制的表情合成方法
CN101958000A (zh) 基于稀疏表示的人脸画像-照片生成方法
CN113724354A (zh) 基于参考图颜色风格的灰度图像着色方法
CN112232220A (zh) 生成人物图像的方法、训练方法和装置及存储介质
CN114120389A (zh) 网络训练及视频帧处理的方法、装置、设备及存储介质
CN115423908A (zh) 虚拟人脸的生成方法、装置、设备以及可读存储介质
Vanaja et al. Hand Gesture Recognition for Deaf and Dumb Using CNN Technique
CN112232221A (zh) 用于人物图像处理的方法、***和程序载体
KR101621304B1 (ko) 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템
CN116152926A (zh) 基于视觉和骨架信息融合的手语识别方法、装置及***
CN113269068B (zh) 一种基于多模态特征调节与嵌入表示增强的手势识别方法
CN110796150B (zh) 一种基于情感显著性区域检测的图片情感识别方法
CN114943746A (zh) 一种利用深度信息辅助和轮廓增强损失的运动迁移方法
Takayama et al. Sign words annotation assistance using Japanese sign language words recognition
Mishra et al. Environment descriptor for the visually impaired
KR102591082B1 (ko) 딥 러닝 기반 합성 영상 콘텐츠 생성 방법 및 장치
Kaushik et al. A Survey of Approaches for Sign Language Recognition System
US20240169701A1 (en) Affordance-based reposing of an object in a scene

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication