CN115880526A - 图像处理方法、装置、电子设备及存储介质 - Google Patents
图像处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115880526A CN115880526A CN202211529157.4A CN202211529157A CN115880526A CN 115880526 A CN115880526 A CN 115880526A CN 202211529157 A CN202211529157 A CN 202211529157A CN 115880526 A CN115880526 A CN 115880526A
- Authority
- CN
- China
- Prior art keywords
- dimensional
- model
- sampling points
- synthesized
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 40
- 238000012545 processing Methods 0.000 title claims abstract description 37
- 238000005070 sampling Methods 0.000 claims abstract description 173
- 230000000007 visual effect Effects 0.000 claims abstract description 58
- 238000000034 method Methods 0.000 claims abstract description 30
- 230000004927 fusion Effects 0.000 claims description 28
- 230000002776 aggregation Effects 0.000 claims description 20
- 238000004220 aggregation Methods 0.000 claims description 20
- 238000012937 correction Methods 0.000 claims description 10
- 230000015572 biosynthetic process Effects 0.000 abstract description 8
- 238000003786 synthesis reaction Methods 0.000 abstract description 8
- 230000000694 effects Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 18
- 238000012549 training Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000005855 radiation Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000001537 neural effect Effects 0.000 description 4
- 210000001508 eye Anatomy 0.000 description 3
- 210000004709 eyebrow Anatomy 0.000 description 3
- 238000007499 fusion processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 210000001331 nose Anatomy 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Landscapes
- Image Processing (AREA)
Abstract
本公开实施例提供了一种图像处理方法、装置、电子设备及存储介质。该方法包括:获取多个待合成采样点对应的第一位置信息以及与多个待合成采样点对应的第一视角信息;基于第一位置信息以及第一视角信息和多个第一模型,获得多个与待合成采样点对应的局部三维语义特征;基于多个局部三维语义特征确定与多个待合成采样点对应的第一二维特征图;基于第一二维特征图确定与第一视角信息对应的目标图像。上述技术方案实现了对多个待合成采样点进行分区域处理,提升了生成图像的精细化程度,优化了图像处理效果;可以通过控制输入的视角信息,获得多视角的图像合成结果;通过控制图像局部区域对应的第一模型的参数,改变局部区域图像风格。
Description
技术领域
本公开实施例涉及图像处理技术,尤其涉及一种图像处理方法、装置、电子设备及存储介质。
背景技术
随着人工智能技术的发展,其广泛应用于各种场景中。常见的应用场景之一,便是将人工智能技术与图像处理技术相结合。
相关技术中,图像生成技术仅能从整体上操纵人像姿态,无法操纵生成图像的局部特征,或者在生成局部特征时不够精细。
发明内容
本公开提供一种图像处理方法、装置、电子设备及存储介质,以提升生成图像的精细化程度,优化了图像处理效果。
第一方面,本公开实施例提供了一种图像处理方法,包括:
获取多个待合成采样点对应的第一位置信息以及与所述多个待合成采样点对应的第一视角信息;
基于所述第一位置信息以及所述第一视角信息和多个第一模型,获得多个与所述待合成采样点对应的局部三维语义特征,其中,所述第一模型生成的局部三维语义特征与目标图像的局部图像信息相对应;
基于多个所述局部三维语义特征确定与所述多个待合成采样点对应的第一二维特征图;
基于所述第一二维特征图确定与所述第一视角信息对应的目标图像。
第二方面,本公开实施例还提供了一种图像处理装置,包括:
信息输入模块,用于获取多个待合成采样点对应的第一位置信息以及与所述多个待合成采样点对应的第一视角信息;
语义特征获得模块,用于基于所述第一位置信息以及所述第一视角信息和多个第一模型,获得多个与所述待合成采样点对应的局部三维语义特征,其中,所述第一模型生成的局部三维语义特征与目标图像的局部图像信息相对应;
中间图像确定模块,用于基于多个所述局部三维语义特征确定与所述多个待合成采样点对应的第一二维特征图;
目标图像生成模块,用于基于所述第一二维特征图确定与所述第一视角信息对应的目标图像。
第三方面,本公开实施例还提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本公开任一实施例所述的图像处理方法。
第四方面,本公开实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本公开任一实施例所述的图像处理方法。
本公开实施例,通过获取多个待合成采样点对应的第一位置信息以及与多个待合成采样点对应的第一视角信息,实现了多个待合成采样点数据的获取,进而基于第一位置信息以及第一视角信息和多个第一模型,获得多个与待合成采样点对应的局部三维语义特征,实现了局部三维语义特征的提取,其中,第一模型生成的局部三维语义特征与目标图像的局部图像信息相对应,进而基于多个局部三维语义特征确定与多个待合成采样点对应的第一二维特征图,实现了二维特征图的提取;进而基于第一二维特征图确定与第一视角信息对应的目标图像,实现了多个待合成采样点对应视角下图像的获取,换而言之,可以对多个待合成采样点进行分区域处理,提升了生成图像的精细化程度,优化了图像处理效果;可以通过控制输入的视角信息,获得多视角的图像合成结果;通过控制图像局部区域对应的第一模型的参数,改变局部区域图像风格。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1是本公开实施例所提供的一种图像处理方法流程示意图;
图2是本公开实施例所提供的另一种图像处理方法流程示意图;
图3是本公开实施例所提供的另一种图像处理方法流程示意图;
图4是本公开实施例所提供的另一种图像处理方法流程示意图;
图5是本公开实施例所提供的另一种图像处理方法流程示意图;
图6是本公开实施例所提供的一种局部语义三维生成器的架构示意图;
图7是本公开实施例所提供的一种组合式神经辐射场网络的架构示意图;
图8是本公开实施例所提供的一种用于执行本公开实施例的图像处理方法的模型训练场景示意图;
图9是本公开实施例所提供的一种图像处理装置的结构示意图;
图10是本公开实施例所提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
图1为本公开实施例所提供的一种图像处理方法的流程示意图,本公开实施例适用于自动生成对象目标视角图像的情形,该方法可以由图像处理装置来执行,该装置可以通过软件和/或硬件的形式实现,可选的,通过电子设备来实现,该电子设备可以是移动终端、PC端或服务器等。
如图1所示,本实施例的方法具体可包括:
S110、获取多个待合成采样点对应的第一位置信息以及与所述多个待合成采样点对应的第一视角信息。
本公开实施例中,待合成采样点是指用于合成图像的空间采样点。其中,图像可以为三维或者其他多维图像,图像中可以包含一个或多个目标对象。例如目标对象可以是人、动物或者其他立体对象。待合成采样点可以根据设定的视场均匀采样得到。设定的视场可以使设定长度和宽度的视场,具体可以是网格状结构。多个待合成采样点对应的第一位置信息可以是图像中目标对象的任一局部区域位置。其中,局部区域可以包括但不限于眼睛、嘴巴、眉毛、鼻子等局部区域。多个待合成采样点对应的第一视角信息可以是相机视角方向信息,可以包括俯仰角和偏航角。
可选地,所述待合成采样点从随机分布中采样的空间点。具体地,待合成采样点可以是在预设视场范围内均匀采样得到的空间点。
示例性的,待合成采样点对应的第一位置信息可以是待合成采样点对应的的三维空间坐标。第一位置信息和第一视角信息可以是用户通过软件界面输入的信息。
S120、基于所述第一位置信息以及所述第一视角信息和多个第一模型,获得多个与所述待合成采样点对应的局部三维语义特征,其中,所述第一模型生成的局部三维语义特征与目标图像的局部图像信息相对应。
本公开实施例中,第一模型是指能够进行局部三维语义特征生成的网络模型。所述第一模型用于生成与目标图像的局部图像信息相对应的局部三维语义特征。在本公开实施例中,第一模型的数量为多个,每个第一模型可以对其相对应的图像局部区域进行特征生成,换而言之,不同的第一模型可以与目标图像不同的局部图像区域相对应。局部三维语义特征的数量可以与第一模型的数量相同。局部图像信息是指与局部三维语义特征相对应的图像信息。以面部图像为例,局部图像信息可以包括但不限于眼睛、嘴巴、眉毛、鼻子等局部区域对应的图像信息。局部三维语义特征是指目标图像的局部图像信息相对应的三维语义特征。
具体的,将第一位置信息以及第一视角信息作为各第一模型的输入信息,各第一模型根据第一位置信息以及第一视角信息实现对三维图像多个局部区域的语义特征提取,从而得到多个与待合成采样点对应的局部三维语义特征。
示例性地,局部三维语义特征可以包括但不限于第一三维特征值、第一三维颜色值、第一三维语义掩膜值以及第一残差有向距离场值等语义特征中的至少一种。
S130、基于多个所述局部三维语义特征确定与所述多个待合成采样点对应的第一二维特征图。
本公开实施例中,第一二维特征图是指局部三维语义特征经处理得到的二维特征图。
在一些实施例中,可以对多个局部三维语义特征进行组合处理,得到多个待合成采样点对应的第一二维特征图。在一些实施例中,可以将多个局部三维语义特征作为模型的输入信息,模型根据多个局部三维语义特征实现对局部三维语义特征的融合和聚合,从而得到多个待合成采样点对应的第一二维特征图。确定第一二维特征图的具体实现方式在此不做限定。
S140、基于所述第一二维特征图确定与所述第一视角信息对应的目标图像。
本公开实施例中,目标图像是指目标对象在目标视角下的图像,其中,目标视角可以为第一视角信息对应的视角。示例性的,可以根据第一二维特征图进行高分辨率图像合成处理,从而得到与第一视角信息对应的目标图像。
在本公开实施例中,可选地,基于所述第一二维特征图确定与所述第一视角信息对应的目标图像。在此基础上,可以基于多个第一局部三维语义特征和第二模型,确定与多个待合成采样点对应的第一二维特征图和第一二维掩膜图;进一步地,还可基于第一二维特征图和第一二维掩膜图确定与第一视角信息对应的目标图像。再进一步,还可基于第一二维特征图和第一二维掩膜图确定与目标图像对应的目标掩膜图像。
需要说明的是,在本公开实施例中“第一模型”、“第二模型”、“第三模型”和“第四模型”等模型均可以为预先训练的人工智能模型。其中,人工智能模型包括但不限于机器学习模型以及深度学习模型等。可选地,第一模型和第二模型可以基于神经辐射场构建。示例性地,第一模型可以由可调制的多层感知机和全连接层构成。第三模型和第四模型也可以基于多层感知机构建。
本公开实施例的技术方案,通过获取多个待合成采样点对应的第一位置信息以及与多个待合成采样点对应的第一视角信息,实现了多个待合成采样点数据的获取,进而基于第一位置信息以及第一视角信息和多个第一模型,获得多个与待合成采样点对应的局部三维语义特征,实现了局部三维语义特征的提取,其中,第一模型生成的局部三维语义特征与目标图像的局部图像信息相对应,进而基于多个局部三维语义特征确定与多个待合成采样点对应的第一二维特征图,实现了二维特征图的提取;进而基于第一二维特征图确定与第一视角信息对应的目标图像,实现了多个待合成采样点对应视角下图像的获取,换而言之,可以对多个待合成采样点进行分区域处理,提升了生成图像的精细化程度,优化了图像处理效果;可以通过控制输入的视角信息,获得多视角的图像合成结果;通过控制图像局部区域对应的第一模型的参数,改变局部区域图像风格。
图2为本公开实施例所提供的另一种图像处理方法的流程示意图。本公开实施例的技术方案在上述实施例的基础上,对如何基于所述第一位置信息以及所述第一视角信息和多个第一模型,获得多个与所述待合成采样点对应的局部三维语义特征进行进一步细化。可选地,所述基于所述第一位置信息以及所述第一视角信息和多个第一模型,获得多个与所述待合成采样点对应的局部三维语义特征,包括:确定与所述第一模型对应的第一调制潜编码,其中,所述第一调制潜编码包括用于调制所述第一模型中的形状感知网络的形状调制潜编码和用于调制所述第一模型中的纹理感知网络的纹理调制潜编码;将所述第一位置信息、所述第一视角信息以及所述第一调制潜编码输入至多个第一模型,获得多个与所述待合成采样点对应的局部三维语义特征。具体实施方式可以参见本公开实施例的说明。与前述实施例相同或相似的技术特征在此不再赘述。
如图2所示,本实施例的方法具体可包括:
S210、获取多个待合成采样点对应的第一位置信息以及与所述多个待合成采样点对应的第一视角信息。
S220、确定与所述第一模型对应的第一调制潜编码,其中,所述第一调制潜编码包括用于调制所述第一模型中的形状感知网络的形状调制潜编码和用于调制所述第一模型中的纹理感知网络的纹理调制潜编码。
本公开实施例中,第一调制潜编码是指对图像潜在向量空间采样得到的编码信息。第一调制潜编码可用于指示第一模型生成的局部三维语义特征对应的风格,换言之,可以用于指示目标图像的局部图像信息对应的图像风格。可选地,第一调制潜编码包括用于调制第一模型中的形状感知网络的形状调制潜编码和用于调制第一模型中的纹理感知网络的纹理调制潜编码,其中,形状感知网络或者纹理感知网络可以由多层感知机(Multilayer Perceptron,MLP)构成。换而言之,通过第一模型中的形状感知网络和纹理感知网络可以学习到目标对象局部区域的形状特征和纹理特征。
可以理解的是,每一个第一模型可以具有对应的调制潜编码,即第一调制潜编码需与第一模型对应设置。不同的第一模型可以对应相同或不同的第一调制潜编码。需要说明的是,第一位置信息和第一视角信息可以为共享参数,即每一个第一模型输入的第一位置信息和第一视角信息相同。
S230、将所述第一位置信息、所述第一视角信息以及所述第一调制潜编码输入至多个第一模型,获得多个与所述待合成采样点对应的局部三维语义特征。
具体的,对于每个第一模型,可以将第一位置信息、第一视角信息和第一调制潜编码作为第一模型的输入信息,进而将第一位置信息、第一视角信息和第一调制潜编码输入至第一模型中,第一模型输出与多个待合成采样点对应的局部三维语义特征。
需要说明的是,本公开实施例中将第一调制潜编码作为第一模型的输入信息,使第一模型可以学习到目标对象局部区域的形状特征和纹理特征,从而提高提取的局部三维语义特征的精度。
在一些可选实施方式中,确定与第一模型对应的第一调制潜编码,包括:基于标准高斯分布中采样的噪声向量以及第四模型确定与所述第一模型对应的第一调制潜编码。
其中,第四模型是指可进行潜编码处理的网络模型。示例性的,第四模型可以由多层感知机构成,具体而言,第一调制潜编码可以由标准高斯分布中采样的噪声向量经过多层感知机映射层得到。
S240、基于多个所述局部三维语义特征确定与所述多个待合成采样点对应的第一二维特征图。
S250、基于所述第一二维特征图与所述第一视角信息对应的目标图像。
本公开实施例的技术方案,将第一位置信息、第一视角信息和第一调制潜编码输入至第一模型中,使第一模型可以有针对性地学习到目标对象局部区域的形状特征和纹理特征,从而提高局部三维语义特征的生成精度,而且可以通过第一调制潜编码对图像局部区域的风格进行调整,实现图像的多样化,丰富目标图像的生成效果。
图3为本公开实施例所提供的另一种图像处理方法的流程示意图。本公开实施例的技术方案在上述实施例的基础上,对“基于所述局部三维语义特征确定与所述多个待合成采样点对应的第一二维特征图”进一步细化。可选地,所述基于所述多个局部三维语义特征确定与所述多个待合成采样点对应的第一二维特征图,包括:基于多个所述局部三维语义特征和第二模型,确定与所述多个待合成采样点对应的第一二维特征图。具体实施方式可以参见本公开实施例的说明。其中,与前述实施例相同或相似的技术特征在此不再赘述。
如图3所示,本实施例的方法具体可包括:
S310、获取多个待合成采样点对应的第一位置信息以及与所述多个待合成采样点对应的第一视角信息。
S320、基于所述第一位置信息以及所述第一视角信息和多个第一模型,获得多个与所述待合成采样点对应的局部三维语义特征,其中,所述第一模型生成的局部三维语义特征与目标图像的局部图像信息相对应。
S330、基于多个所述局部三维语义特征和第二模型,确定与所述多个待合成采样点对应的第一二维特征图。
本公开实施例中,第二模型是指进行对局部三维语义特征进行处理的网络模型。第一二维特征图是指经第二模型处理得到的二维特征图。
具体的,将多个局部三维语义特征作为第二模型的输入信息,第二模型根据多个局部三维语义特征实现对局部三维语义特征的全局融合和体积聚合,从而得到多个待合成采样点对应的第一二维特征图。
在一些可选实施方式中,所述第二模型包括加权融合层和体积聚合层,所述局部三维语义特征包括第一三维特征值、第一三维颜色值、第一三维语义掩膜值以及第一残差有向距离场值;所述基于多个所述局部三维语义特征和第二模型,确定与所述多个待合成采样点对应的第一二维特征图,包括:将多个所述第一三维特征值、所述第一三维颜色值和所述第一三维语义掩膜值输入至所述第二模型的加权融合层,得到与所述多个待合成采样点对应的第二三维特征值和第二三维颜色值;基于多个所述第一残差有向距离场值,确定与所述多个待合成采样点对应的第一图像体密度值;将所述第二三维特征值、所述第二三维颜色值、所述第一三维语义掩膜值和所述第一图像体密度值输入至所述第二模型的体积聚合层,得到与所述多个待合成采样点对应的第一二维特征图、第一二维颜色图和第一二维掩膜图。
本公开实施例中,第一三维特征值是指待合成采样点对应的三维特征值,第一三维特征值的数量与待合成采样点的数量相同,示例性的,第一三维特征值的维度可以为64×64×24×128,其中24表示采样点数。第一三维颜色值是指待合成采样点对应的三维颜色值,第一三维颜色值的数量与待合成采样点的数量相同,示例性的,第一三维颜色值的维度可以为64×64×24×3,其中24表示采样点数。第一三维语义掩膜值是指待合成采样点对应的三维语义掩膜值,第一三维语义掩膜值的数量与待合成采样点的数量相同,示例性的,第一三维语义掩膜值的维度可以为64×64×24×3,其中24表示采样点数。第一残差有向距离场值是指待合成采样点对应的残差有向距离场值,第一残差有向距离场值的数量与待合成采样点的数量相同,示例性的,第一残差有向距离场值的维度可以为64×64×24×1,其中24表示采样点数。其中,有向距离场(Signed Distance Field,SDF)为一种体积密度函数的代理表示。
本公开实施例中,第二模型的加权融合层是指对三维特征值、三维颜色值和三维语义掩膜值进行加权融合处理的网络层。具体地,将多个第一三维特征值、第一三维颜色值和第一三维语义掩膜值输入至第二模型的加权融合层,以使加权融合层基于第一三维语义掩膜值分别对各个第一模型输出的多个待合成采样点对应的第一三维特征值和第一三维颜色值进行加权融合,得到与多个待合成采样点对应的第二三维特征值和第二三维颜色值。第二三维特征值是指多个第一三维特征值加权融合处理后对应的三维特征值。同理,第二三维颜色值是指多个第一三维颜色值加权融合处理后对应的三维颜色值。
在一些可选实施方式中,将多个第一三维特征值、第一三维颜色值和第一三维语义掩膜值输入至第二模型的加权融合层,得到与多个待合成采样点对应的第二三维特征值和第二三维颜色值,包括:在第二模型的加权融合层中,通过第一三维语义掩膜值分别对多个第一三维特征值和第一三维颜色值进行加权融合,得到与多个待合成采样点对应的第二三维特征值和第二三维颜色值。
具体的,对于任一组待合成采样点,将每个第一模型输出的该组待合成采样点对应的第一三维特征值与第一三维语义掩膜值相乘,得到该组待合成采样点对应的第二三维特征值;同理,将每个第一模型输出的该组待合成采样点对应的第一三维颜色值与第一三维语义掩膜值相乘,得到该组待合成采样点对应的第二三维颜色值。
本公开实施例中,第一图像体密度值是指多个第一残差有向距离场值通过体积密度函数转变得到的体密度函数值。
在一些可选实施方式中,基于多个第一残差有向距离场值,确定与多个待合成采样点对应的第一图像体密度值,包括:确定与第一残差有向距离场值对应的初始化为球面的第一初始有向距离场值;将第一残差有向距离场值与第一初始有向距离场值相加,得到与多个待合成采样点对应的第一图像有向距离场值;基于第一图像有向距离场值以及预设的体密度函数,确定与多个待合成采样点对应的第一图像体密度值。
其中,第一初始有向距离场值是指初始化为球面的全局有向距离场值,为初始化参数。预设的体密度函数可以将有向距离场值转变为体密度值。
示例性的,将第一残差有向距离场值与第一初始有向距离场值相加,得到第一图像有向距离场值,将第一图像有向距离场值代入预设的体密度函数,得到第一图像体密度值。其中,体密度函数可以根据实际情况进行设置,在此并不做具体限定。
本公开实施例中,第二模型的体积聚合层是指对三维特征值、三维颜色值、三维语义掩膜值和图像体密度值进行体积聚合处理的网络层。
示例性的,体积聚合层可以使用神经辐射场体积聚合方法,利用第一图像体密度值对第二三维特征值进行体积聚合,得到二维的第一二维特征图;并利用第一图像体密度值对第二三维颜色值进行体积聚合,得到第一二维颜色图;并利用第一图像体密度值对第一三维语义掩膜值进行体积聚合,得到第一二维掩膜图。
S340、基于所述第一二维特征图确定与所述第一视角信息对应的目标图像。
本公开实施例的技术方案,将多个第一三维特征值、第一三维颜色值和第一三维语义掩膜值输入至第二模型的加权融合层,得到与多个待合成采样点对应的第二三维特征值和第二三维颜色值;基于多个第一残差有向距离场值,确定与多个待合成采样点对应的第一图像体密度值;将第二三维特征值、第二三维颜色值、第一三维语义掩膜值和第一图像体密度值输入至第二模型的体积聚合层,得到与多个待合成采样点对应的第一二维特征图、第一二维颜色图和第一二维掩膜图,该过程将多个待合成采样点对应的局部特征进行全局融合和体积聚合,提高了图像全局特征的生成精度。
图4为本公开实施例所提供的另一种图像处理方法的流程示意图。本公开实施例的技术方案在上述实施例的基础上,对“基于所述第一二维特征图确定与所述第一视角信息对应的目标图像”进行进一步细化。可选地,所述基于所述第一二维特征图确定与所述第一视角信息对应的目标图像,包括:基于所述第一二维特征图和第三模型,确定与所述第一视角信息对应的目标图像。具体实施方式可以参见本公开实施例的说明。其中,与前述实施例相同或相似的技术特征在此不再赘述。
如图4所示,本公开实施例的方法具体可包括:
S410、获取多个待合成采样点对应的第一位置信息以及与所述多个待合成采样点对应的第一视角信息。
S420、基于所述第一位置信息以及所述第一视角信息和多个第一模型,获得多个与所述待合成采样点对应的局部三维语义特征,其中,所述第一模型生成的局部三维语义特征与目标图像的局部图像信息相对应。
S430、基于多个所述局部三维语义特征确定与所述多个待合成采样点对应的第一二维特征图。
S440、基于所述第一二维特征图和第三模型,确定与所述第一视角信息对应的目标图像。
本公开实施例中,第三模型是指根据第一二维特征图进行高分辨率合成的网络模型。具体的,将第一二维特征图作为第三模型的输入信息,第三模型根据第一二维特征图进行图像的高分辨率合成,从而得到与第一视角信息对应的目标图像。
在一些可选的实施方式中,所述基于所述第一二维特征图和第三模型,确定与所述第一视角信息对应的目标图像,包括:确定第三模型对应的第二调制潜编码;将所述第二调制潜编码、所述第一二维特征图和第一二维掩膜图输入至所述第三模型中,生成与所述第一视角信息对应的目标图像以及与所述目标图像对应的目标掩膜图像。
本公开实施例中,第三模型是指对第二调制潜编码、第一二维特征图和第一二维掩膜图进行高分辨率合成的网络模型。第一二维掩膜图是指经第二模型处理得到的二维掩膜图。需要说明的是,通过第三模型对第二调制潜编码、第一二维特征图、第一二维掩膜图进行处理,可以输出高分辨率的目标图像以及目标掩膜图像,提升了图像质量。
本公开实施例中,第二调制潜编码是指对图像潜在向量空间采样得到的编码信息,可以包含目标对象局部区域的形状特征和纹理特征。
示例性的,第三模型可以是训练完成的StyleGAN2模型,具体而言,可以将第二调制潜编码、第一二维特征图和第一二维掩膜图输入至StyleGAN2模型,得到目标图像以及与目标图像对应的目标掩膜图像。
在一些可选的实施方式中,确定第三模型对应的第二调制潜编码,包括:将第一模型对应的第一调制潜编码作为第三模型对应的第二调制潜编码;或者,基于第一模型对应的第一调制潜编码以及第五模型确定第三模型对应的第二调制潜编码;或者,基于标准高斯分布中采样的噪声向量以及第六模型确定第三模型对应的第二调制潜编码。
本公开实施例中,第五模型或者第六模型可以为多层感知机。
示例性的,可以将第一调制潜编码直接作为第二调制潜编码,可以减少图像处理步骤;或者,可以将第一调制潜编码输入至多层感知机,得到比第一调制潜编码更为精确的第二调制潜编码;又或者,第二调制潜编码可以由标准高斯分布中采样的噪声向量经过多层感知机映射层得到。
在一些可选的实施方式中,第三模型基于如下方式训练得到:将样本二维特征图与样本二维掩膜图输入至与第三模型对应的待训练模型中,得到模型输出图像,其中,模型输出图像包括模型合成图像以及与模型合成图像对应的输出掩膜图像;将模型输出图像输入至第三判别器中,得到第三鉴别结果,基于第三鉴别结果对与第三模型对应的待训练模型的模型参数进行调整,以得到第三模型。
本公开实施例中,样本二维特征图与样本二维掩膜图可以为训练完成的第二模型的输出数据,换而言之,样本二维特征图可以为训练完成的第二模型输出的二维特征图,样本二维掩膜图可以为训练完成的第二模型输出的二维掩膜图。
示例性的,第三模型可以为高分辨率二维图像生成器,其可以由StyleGAN2模型构成。第三判别器可以为高分辨率判别器,用于监督第三模型的训练。具体而言,将训练完成的第二模型的输出数据作为训练样本,输入至StyleGAN2模型,StyleGAN2模型输出模型合成图像以及与模型合成图像对应的输出掩膜图像,进而将模型合成图像以及与模型合成图像对应的输出掩膜图像输入至高分辨率判别器,判断模型合成图像以及与模型合成图像对应的输出掩膜图像的真假,基于判断结果调整StyleGAN2模型的模型参数进行调整,以得到训练完成的StyleGAN2模型。
本公开实施例的技术方案,通过第三模型对第二调制潜编码、第一二维特征图、第一二维掩膜图进行处理,可以输出高分辨率的目标图像以及目标掩膜图像,提高了图像质量。
图5为本公开实施例所提供的另一种图像处理方法的流程示意图。本公开实施例的技术方案在上述实施例的基础上,对第一模型训练过程进行进一步细化。具体实施方式可以参见本公开实施例的说明。其中,与前述实施例相同或相似的技术特征在此不再赘述。
如图5所示,本公开实施例的方法具体可包括:
S510、获取多个待合成采样点对应的第一位置信息以及与所述多个待合成采样点对应的第一视角信息。
S520、基于所述第一位置信息以及所述第一视角信息和多个第一模型,获得多个与所述待合成采样点对应的局部三维语义特征,其中,所述多个第一模型的模型参数基于第一判别器和第二判别器的鉴别结果调整。
其中,第一判别器用于第一模型的全局参数校正,第二判别器用于第一模型的局部参数校正。需要说明的是,第二判别器可以分别对多个第一模型的局部参数校正,以得到能够提取不同局部区域特征的第一模型。
在一些可选的实施方式中,第一判别器用于输出对第二模型针对多个样本采样点输出的第二二维颜色图和第二二维掩膜图的第一鉴别结果以及与第二二维颜色图和第二二维掩膜图对应的第三视角信息;第二判别器用于输出语义颜色图的第二鉴别结果以及与语义颜色图对应的判断语义类别,语义颜色图由第二模型针对多个样本采样点输出的第二二维颜色图和第二二维掩膜图相乘得到。
其中,第二二维颜色图是指样本采样点对应二维颜色图;第二二维掩膜图是指样本采样点对应二维掩膜图。第一鉴别结果可以根据第二二维颜色图和第二二维掩膜图确定得到。第三视角信息是指通过第一判别器对第二二维颜色图和第二二维掩膜图判别得到的视角方向信息。语义颜色图可以由第二二维颜色图与第二二维掩膜图相乘得到。第二鉴别结果可以根据语义颜色图确定得到。判断语义类别是指通过第二判别器对语义颜色图判别得到的语义类别信息。
在一些实施例中,第一模型基于如下方式训练得到:获取多个样本采样点对应的第二位置信息以及与所述多个样本采样点对应的第二视角信息,将所述第二位置信息与所述第二视角信息作为第二输入信息;基于多个与第一模型对应的第一待训练模型,确定所述第二输入信息对应的多个样本局部三维语义特征;将所述多个样本局部三维语义特征输入至与第二模型中,得到与所述多个样本采样点对应的第二二维特征图、第二二维颜色图和第二二维掩膜图;基于目标判别器确定与所述第二二维特征图和所述第二二维掩膜图对应的目标鉴别结果;基于所述目标鉴别结果对所述第一模型的模型参数进行调整,以得到所述第一模型。
本公开实施例中,用于训练第一模型的多个样本采样点对应的第二位置信息可以是根据设定的视场均匀采样得到。多个样本采样点对应的第二视角信息可以是相机视角方向信息,可以包括俯仰角和偏航角。第二视角信息可以通过在预设的采样范围内随机采样得到。
本公开实施例中,样本局部三维语义特征是指对第二输入信息进行三维语义特征提取的结果。样本局部三维语义特征可以包括第二三维特征值、第二三维颜色值、第二三维语义掩膜值。
示例性的,以生成人脸图像为例,第一模型可以为局部语义三维生成器,每个局部语义三维生成器可以用于生成人脸图像的多个局部区域,局部区域可以包括:背景、面部、眼睛、眉毛、鼻子、嘴、耳朵、头发和脸部中的至少一个。图6是本公开实施例所提供的一种局部语义三维生成器的架构示意图,每个局部语义三维生成器可以由可调制的多层感知机(包括形状感知网络和纹理感知网络)和全连接层(FC)构成,并输出样本局部三维语义特征。局部语义三维生成器生成的样本局部三维语义特征可以包括局部区域的第二三维特征值(fi(x,v))、第二三维颜色值(ci(x,v))、第二三维语义掩膜值(mi(x,v))、以及残差SDF值(Δdi(x))。其中,wi表示调制潜编码,x表示第二位置信息,v表示第二视角信息,i表示第i个局部语义三维生成器。
本公开实施例中,第二二维特征图是指样本采样点对应二维特征图。
示例性的,图7是本公开实施例所提供的一种组合式神经辐射场网络架构示意图;组合式神经辐射场网络架构由第一模型(G1…Gk)和第二模型(加权融合层和体积聚合层)。每个局部语义三维生成器的输出,可以采用第二三维语义掩膜值加权的方式进行融合,得到整体的人脸图像的三维特征值(f(x,v))和三维颜色值(c(x,v))。此外,可以将每个局部语义三维生成器输出的(Δdi(x))相加,并与初始化为球面的全局SDF值(d0(x))相加,得到真实的可学习的整体图像SDF值(d(x))。将该整体图像SDF值代入Ka可以计算出体密度值σ。进一步的,使用体积聚合方法,利用σ对(f(x,v))、(c(x,v))和(mi(x,v))进行体积聚合,得到第二二维特征图、第二二维颜色图和第二二维掩膜图。其中,w表示调制潜编码,k表示局部语义区域类别数。在模型训练时,每个局部语义三维生成器输入的第二位置信息与第二视角信息是共享的。可以采用64×64分辨率渲染第二二维特征图、第二二维颜色图和第二二维掩膜图。
其中,目标判别器可以监督第一模型的训练,可以用于判断模型输出数据的真假。在一些可选实施方式中,目标判别器包括第一判别器和第二判别器;基于目标判别器确定与第二二维特征图和第二二维掩膜图对应的目标鉴别结果,包括:将第二二维颜色图和第二二维掩膜图拼接后输入至第一判别器中,得到第一鉴别结果,并输出与第二二维颜色图和第二二维掩膜图对应的第三视角信息;将第二二维颜色图乘以第二二维掩膜图得到语义颜色图,将语义颜色图输入至第二判别器中,得到第二鉴别结果,并输出与语义颜色图对应的判断语义类别;相应地,基于目标鉴别结果对第一模型对应的待训练模型的模型参数进行调整,包括:基于第一鉴别结果、第二鉴别结果、第三视角信息、与第三视角信息对应的第二视角信息、判断语义类别以及与判断语义类别对应的期望语义类别,对第一模型对应的待训练模型的模型参数进行调整。
其中,第一判别器可用于判断输入的第二二维颜色图和第二二维掩膜图的真假。第二判别器可用于判断输入的语义颜色图的真假。第三视角信息是指通过第一判别器鉴别得到的视角方向信息。判断语义类别是指通过第二判别器鉴别得到的局部区域的语义类别。可以理解的是,在训练第一判别器的过程中,第二视角信息可以预先得知。在训练第二判别器的过程中,期望语义类别可以预先得知。示例性的,若第三视角信息与第二视角信息不同,则根据第三视角信息以及与第三视角信息对应的第二视角信息计算出第一模型和的模型损失,用于调整第一模型对应的待训练模型的模型参数,以使第一模型针对输入的视角信息能够更好地处理。若判断语义类别与期望语义类别不同,则根据判断语义类别以及与判断语义类别对应的期望语义类别计算出第一模型的待训练模型的模型损失,用于调整第一模型对应的待训练模型的模型参数,以使第一模型针对局部语义能够更好地处理。
如前所述,不同的第一模型用于生成不同图像局部区域的局部三维语义特征,因此,可以基于第二鉴别器分别对每种语义类别对应的判断语义类别与期望语义类别,计算第一模型的待训练模型的模型损失,即,可针对第一模型对应的语义类别对第一模型的待训练模型的模型参数进行调整,以得到调整后的第一模型。
示例性的,图8是本公开实施例所提供的一种用于执行本公开实施例的图像处理方法的模型训练场景示意图。其中,第一判别器可以为全局判别器,第二判别器可以为语义判别器。具体而言,可以将第二二维颜色图和第二二维掩膜图拼接后输入至第一判别器中,得到第一鉴别结果,并输出与第二二维颜色图和第二二维掩膜图对应的第三视角信息;将第二二维颜色图乘以第二二维掩膜图得到语义颜色图,进而可以将语义颜色图输入至第二判别器中,得到第二鉴别结果,并输出与语义颜色图对应的判断语义类别;基于第一鉴别结果、第二鉴别结果、第三视角信息、与第三视角信息对应的第二视角信息、判断语义类别以及与判断语义类别对应的期望语义类别,对第一模型对应的待训练模型的模型参数进行调整,以得到第一模型。此外,图8中的z~N(0,1)表示由标准高斯分布中采样的噪声向量。基于样式的二维生成器(Style-based 2D Generator)表示上述实施例中的第三模型,高分辨率判别器(High-Res Discriminator)表示上述实施例中的第三判别器。
在两阶段模型训练之后,通过该两阶段模型能够生成三维视角一致性的人脸图像,通过输入视角信息,就可以生成该视角信息下的人脸图像。
在一些实施例中,可以同时单独操控每个局部区域的形状和纹理。具体而言,可以对调制潜编码中的形状参数和/或纹理参数进行操作,从而实现对该局部区域内的形状和纹理的单独控制,提升了图像操作的灵活度。
S530、基于多个所述局部三维语义特征确定与所述多个待合成采样点对应的第一二维特征图。
S540、基于所述第一二维特征图确定与所述第一视角信息对应的目标图像。
本公开实施例的技术方案,通过第一判别器和第二判别器的鉴别结果调整多个第一模型的模型参数,其中,第一判别器用于第一模型的全局参数校正,第二判别器用于第一模型的局部参数校正,以得到预测精度更高的第一模型。
图9为本公开实施例所提供的一种图像处理装置结构示意图,如图9所示,所述装置包括:信息输入模块610、语义特征获得模块620、中间图像确定模块630以及目标图像生成模块640。
其中,信息输入模块610,用于获取多个待合成采样点对应的第一位置信息以及与所述多个待合成采样点对应的第一视角信息;语义特征获得模块620,用于基于所述第一位置信息以及所述第一视角信息和多个第一模型,获得多个与所述待合成采样点对应的局部三维语义特征,其中,所述第一模型生成的局部三维语义特征与目标图像的局部图像信息相对应;中间图像确定模块630,用于基于多个所述局部三维语义特征确定与所述多个待合成采样点对应的第一二维特征图;目标图像生成模块640,用于基于所述第一二维特征图确定与所述第一视角信息对应的目标图像。
本公开实施例的技术方案,通过获取多个待合成采样点对应的第一位置信息以及与多个待合成采样点对应的第一视角信息,实现了多个待合成采样点数据的获取,进而基于第一位置信息以及第一视角信息和多个第一模型,获得多个与待合成采样点对应的局部三维语义特征,实现了局部三维语义特征的提取,其中,第一模型生成的局部三维语义特征与目标图像的局部图像信息相对应,进而基于多个局部三维语义特征确定与多个待合成采样点对应的第一二维特征图,实现了二维特征图的提取;进而基于第一二维特征图确定与第一视角信息对应的目标图像,实现了多个待合成采样点对应视角下图像的获取,换而言之,可以对多个待合成采样点进行分区域处理,提升了生成图像的精细化程度,优化了图像处理效果;可以通过控制输入的视角信息,获得多视角的图像合成结果;通过控制图像局部区域对应的第一模型的参数,改变局部区域图像风格。
可选的,语义特征获得模块620,具体用于:
确定与所述第一模型对应的第一调制潜编码,其中,所述第一调制潜编码包括用于调制所述第一模型中的形状感知网络的形状调制潜编码和用于调制所述第一模型中的纹理感知网络的纹理调制潜编码;
将所述第一位置信息、所述第一视角信息以及所述第一调制潜编码输入至多个第一模型,获得多个与所述待合成采样点对应的局部三维语义特征。
可选的,中间图像确定模块630,包括:
第二模型处理单元,用于基于多个所述局部三维语义特征和第二模型,确定与所述多个待合成采样点对应的第一二维特征图。
可选的,所述第二模型包括加权融合层和体积聚合层,所述局部三维语义特征包括第一三维特征值、第一三维颜色值、第一三维语义掩膜值以及第一残差有向距离场值;第二模型处理单元,包括:
加权融合子单元,用于将多个所述第一三维特征值、所述第一三维颜色值和所述第一三维语义掩膜值输入至所述第二模型的加权融合层,得到与所述多个待合成采样点对应的第二三维特征值和第二三维颜色值;
体密度值确定子单元,用于基于多个所述第一残差有向距离场值,确定与所述多个待合成采样点对应的第一图像体密度值;
体积聚合子单元,用于将所述第二三维特征值、所述第二三维颜色值、所述第一三维语义掩膜值和所述第一图像体密度值输入至所述第二模型的体积聚合层,得到与所述多个待合成采样点对应的第一二维特征图、第一二维颜色图和第一二维掩膜图。
可选的,加权融合子单元,具体用于:
在所述第二模型的加权融合层中,通过所述第一三维语义掩膜值分别对多个所述第一三维特征值和第一三维颜色值进行加权融合,得到与所述多个待合成采样点对应的第二三维特征值和第二三维颜色值。
可选的,体密度值确定子单元,具体用于:
确定与所述第一残差有向距离场值对应的初始化为球面的第一初始有向距离场值;
将所述第一残差有向距离场值与所述第一初始有向距离场值相加,得到与所述多个待合成采样点对应的第一图像有向距离场值;
基于所述第一图像有向距离场值以及预设的体密度函数,确定与所述多个待合成采样点对应的第一图像体密度值。
可选的,目标图像生成模块640,包括:
第三模型处理单元,用于基于所述第一二维特征图和第三模型,确定与所述第一视角信息对应的目标图像。
可选的,第三模型处理单元,包括:
调制潜编码确定子单元,用于确定第三模型对应的第二调制潜编码;
图像预测子单元,用于将所述第二调制潜编码、所述第一二维特征图和第一二维掩膜图输入至所述第三模型中,生成与所述第一视角信息对应的目标图像以及与所述目标图像对应的目标掩膜图像。
可选的,图像预测子单元,具体用于:
将所述第一模型对应的第一调制潜编码作为第三模型对应的第二调制潜编码;或者,
基于所述第一模型对应的第一调制潜编码以及第五模型确定第三模型对应的第二调制潜编码;或者,
基于标准高斯分布中采样的噪声向量以及第六模型确定第三模型对应的第二调制潜编码。
可选的,所述多个第一模型的模型参数基于第一判别器和第二判别器的鉴别结果调整,所述第一判别器用于第一模型的全局参数校正,所述第二判别器用于第一模型的局部参数校正。
可选的,所述第一判别器用于输出对第二模型针对多个样本采样点输出的第二二维颜色图和第二二维掩膜图的第一鉴别结果以及与所述第二二维颜色图和所述第二二维掩膜图对应的第三视角信息;所述第二判别器用于输出语义颜色图的第二鉴别结果以及与所述语义颜色图对应的判断语义类别,所述语义颜色图由第二模型针对多个样本采样点输出的第二二维颜色图和第二二维掩膜图相乘得到。
本公开实施例所提供的图像处理装置可执行本公开任意实施例所提供的图像处理方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述装置所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本公开实施例的保护范围。
图10为本公开实施例所提供的一种电子设备的结构示意图。下面参考图10,其示出了适于用来实现本公开实施例的电子设备(例如图10中的终端设备或服务器)500的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图10示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图10所示,电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。编辑/输出(I/O)接口505也连接至总线504。
通常,以下装置可以连接至I/O接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507;包括例如磁带、硬盘等的存储装置508;以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图10示出了具有各种装置的电子设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从ROM 502被安装。在该计算机程序被处理装置501执行时,执行本公开实施例的方法中限定的上述功能。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
本公开实施例提供的电子设备与上述实施例提供的图像处理方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例与上述实施例具有相同的有益效果。
本公开实施例提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例所提供的图像处理方法。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:
获取多个待合成采样点对应的第一位置信息以及与所述多个待合成采样点对应的第一视角信息;
基于所述第一位置信息以及所述第一视角信息和多个第一模型,获得多个与所述待合成采样点对应的局部三维语义特征,其中,所述第一模型生成的局部三维语义特征与目标图像的局部图像信息相对应;
基于多个所述局部三维语义特征确定与所述多个待合成采样点对应的第一二维特征图;
基于所述第一二维特征图确定与所述第一视角信息对应的目标图像。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上***(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的一个或多个实施例,【示例一】提供了一种图像处理方法,包括:
获取多个待合成采样点对应的第一位置信息以及与所述多个待合成采样点对应的第一视角信息,将所述第一位置信息与所述第一视角信息作为第一输入信息;
获取多个待合成采样点对应的第一位置信息以及与所述多个待合成采样点对应的第一视角信息;
基于所述第一位置信息以及所述第一视角信息和多个第一模型,获得多个与所述待合成采样点对应的局部三维语义特征,其中,所述第一模型生成的局部三维语义特征与目标图像的局部图像信息相对应;
基于多个所述局部三维语义特征确定与所述多个待合成采样点对应的第一二维特征图;
基于所述第一二维特征图确定与所述第一视角信息对应的目标图像。
根据本公开的一个或多个实施例,【示例二】提供了一种图像处理方法,还包括:
所述基于所述第一位置信息以及所述第一视角信息和多个第一模型,获得多个与所述待合成采样点对应的局部三维语义特征,包括:
确定与所述第一模型对应的第一调制潜编码,其中,所述第一调制潜编码包括用于调制所述第一模型中的形状感知网络的形状调制潜编码和用于调制所述第一模型中的纹理感知网络的纹理调制潜编码;
将所述第一位置信息、所述第一视角信息以及所述第一调制潜编码输入至多个第一模型,获得多个与所述待合成采样点对应的局部三维语义特征。
根据本公开的一个或多个实施例,【示例三】提供了一种图像处理方法,还包括:
所述基于所述多个局部三维语义特征确定与所述多个待合成采样点对应的第一二维特征图,包括:
基于多个所述局部三维语义特征和第二模型,确定与所述多个待合成采样点对应的第一二维特征图。
根据本公开的一个或多个实施例,【示例四】提供了一种图像处理方法,还包括:
所述第二模型包括加权融合层和体积聚合层,所述局部三维语义特征包括第一三维特征值、第一三维颜色值、第一三维语义掩膜值以及第一残差有向距离场值;
所述基于多个所述局部三维语义特征和第二模型,确定与所述多个待合成采样点对应的第一二维特征图,包括:
将多个所述第一三维特征值、所述第一三维颜色值和所述第一三维语义掩膜值输入至所述第二模型的加权融合层,得到与所述多个待合成采样点对应的第二三维特征值和第二三维颜色值;
基于多个所述第一残差有向距离场值,确定与所述多个待合成采样点对应的第一图像体密度值;
将所述第二三维特征值、所述第二三维颜色值、所述第一三维语义掩膜值和所述第一图像体密度值输入至所述第二模型的体积聚合层,得到与所述多个待合成采样点对应的第一二维特征图、第一二维颜色图和第一二维掩膜图。
根据本公开的一个或多个实施例,【示例五】提供了一种图像处理方法,还包括:
所述将多个所述第一三维特征值、所述第一三维颜色值和所述第一三维语义掩膜值输入至所述第二模型的加权融合层,得到与所述多个待合成采样点对应的第二三维特征值和第二三维颜色值,包括:
在所述第二模型的加权融合层中,通过所述第一三维语义掩膜值分别对多个所述第一三维特征值和第一三维颜色值进行加权融合,得到与所述多个待合成采样点对应的第二三维特征值和第二三维颜色值。
根据本公开的一个或多个实施例,【示例六】提供了一种图像处理方法,还包括:
所述基于多个所述第一残差有向距离场值,确定与所述多个待合成采样点对应的第一图像体密度值,包括:
确定与所述第一残差有向距离场值对应的初始化为球面的第一初始有向距离场值;
将所述第一残差有向距离场值与所述第一初始有向距离场值相加,得到与所述多个待合成采样点对应的第一图像有向距离场值;
基于所述第一图像有向距离场值以及预设的体密度函数,确定与所述多个待合成采样点对应的第一图像体密度值。
根据本公开的一个或多个实施例,【示例七】提供了一种图像处理方法,还包括:
所述基于所述第一二维特征图确定与所述第一视角信息对应的目标图像,包括:
基于所述第一二维特征图和第三模型,确定与所述第一视角信息对应的目标图像。
根据本公开的一个或多个实施例,【示例八】提供了一种图像处理方法,还包括:
所述基于所述第一二维特征图和第三模型,确定与所述第一视角信息对应的目标图像,包括:
确定第三模型对应的第二调制潜编码;
将所述第二调制潜编码、所述第一二维特征图和第一二维掩膜图输入至所述第三模型中,生成与所述第一视角信息对应的目标图像以及与所述目标图像对应的目标掩膜图像。
根据本公开的一个或多个实施例,【示例九】提供了一种图像处理方法,还包括:
所述多个第一模型的模型参数基于第一判别器和第二判别器的鉴别结果调整,所述第一判别器用于第一模型的全局参数校正,所述第二判别器用于第一模型的局部参数校正。
根据本公开的一个或多个实施例,【示例十】提供了一种图像处理方法,还包括:
所述第一判别器用于输出对第二模型针对多个样本采样点输出的第二二维颜色图和第二二维掩膜图的第一鉴别结果以及与所述第二二维颜色图和所述第二二维掩膜图对应的第三视角信息;
所述第二判别器用于输出语义颜色图的第二鉴别结果以及与所述语义颜色图对应的判断语义类别,所述语义颜色图由第二模型针对多个样本采样点输出的第二二维颜色图和第二二维掩膜图相乘得到。
根据本公开的一个或多个实施例,【示例十一】提供了一种图像处理装置,该装置包括:
信息输入模块,用于获取多个待合成采样点对应的第一位置信息以及与所述多个待合成采样点对应的第一视角信息;
语义特征获得模块,用于基于所述第一位置信息以及所述第一视角信息和多个第一模型,获得多个与所述待合成采样点对应的局部三维语义特征,其中,所述第一模型生成的局部三维语义特征与目标图像的局部图像信息相对应;
中间图像确定模块,用于基于多个所述局部三维语义特征确定与所述多个待合成采样点对应的第一二维特征图;
目标图像生成模块,用于基于所述第一二维特征图确定与所述第一视角信息对应的目标图像。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
Claims (13)
1.一种图像处理方法,其特征在于,包括:
获取多个待合成采样点对应的第一位置信息以及与所述多个待合成采样点对应的第一视角信息;
基于所述第一位置信息以及所述第一视角信息和多个第一模型,获得多个与所述待合成采样点对应的局部三维语义特征,其中,所述第一模型生成的局部三维语义特征与目标图像的局部图像信息相对应;
基于多个所述局部三维语义特征确定与所述多个待合成采样点对应的第一二维特征图;
基于所述第一二维特征图确定与所述第一视角信息对应的目标图像。
2.根据权利要求1所述的图像处理方法,其特征在于,所述基于所述第一位置信息以及所述第一视角信息和多个第一模型,获得多个与所述待合成采样点对应的局部三维语义特征,包括:
确定与所述第一模型对应的第一调制潜编码,其中,所述第一调制潜编码包括用于调制所述第一模型中的形状感知网络的形状调制潜编码和用于调制所述第一模型中的纹理感知网络的纹理调制潜编码;
将所述第一位置信息、所述第一视角信息以及所述第一调制潜编码输入至多个第一模型,获得多个与所述待合成采样点对应的局部三维语义特征。
3.根据权利要求1所述的图像处理方法,其特征在于,所述基于所述多个局部三维语义特征确定与所述多个待合成采样点对应的第一二维特征图,包括:
基于多个所述局部三维语义特征和第二模型,确定与所述多个待合成采样点对应的第一二维特征图。
4.根据权利要求3所述的图像处理方法,其特征在于,所述第二模型包括加权融合层和体积聚合层,所述局部三维语义特征包括第一三维特征值、第一三维颜色值、第一三维语义掩膜值以及第一残差有向距离场值;
所述基于多个所述局部三维语义特征和第二模型,确定与所述多个待合成采样点对应的第一二维特征图,包括:
将多个所述第一三维特征值、所述第一三维颜色值和所述第一三维语义掩膜值输入至所述第二模型的加权融合层,得到与所述多个待合成采样点对应的第二三维特征值和第二三维颜色值;
基于多个所述第一残差有向距离场值,确定与所述多个待合成采样点对应的第一图像体密度值;
将所述第二三维特征值、所述第二三维颜色值、所述第一三维语义掩膜值和所述第一图像体密度值输入至所述第二模型的体积聚合层,得到与所述多个待合成采样点对应的第一二维特征图、第一二维颜色图和第一二维掩膜图。
5.根据权利要求4所述的图像处理方法,其特征在于,所述将多个所述第一三维特征值、所述第一三维颜色值和所述第一三维语义掩膜值输入至所述第二模型的加权融合层,得到与所述多个待合成采样点对应的第二三维特征值和第二三维颜色值,包括:
在所述第二模型的加权融合层中,通过所述第一三维语义掩膜值分别对多个所述第一三维特征值和第一三维颜色值进行加权融合,得到与所述多个待合成采样点对应的第二三维特征值和第二三维颜色值。
6.根据权利要求4所述的图像处理方法,其特征在于,所述基于多个所述第一残差有向距离场值,确定与所述多个待合成采样点对应的第一图像体密度值,包括:
确定与所述第一残差有向距离场值对应的初始化为球面的第一初始有向距离场值;
将所述第一残差有向距离场值与所述第一初始有向距离场值相加,得到与所述多个待合成采样点对应的第一图像有向距离场值;
基于所述第一图像有向距离场值以及预设的体密度函数,确定与所述多个待合成采样点对应的第一图像体密度值。
7.根据权利要求1所述的图像处理方法,其特征在于,所述基于所述第一二维特征图确定与所述第一视角信息对应的目标图像,包括:
基于所述第一二维特征图和第三模型,确定与所述第一视角信息对应的目标图像。
8.根据权利要求7所述的图像处理方法,其特征在于,所述基于所述第一二维特征图和第三模型,确定与所述第一视角信息对应的目标图像,包括:
确定第三模型对应的第二调制潜编码;
将所述第二调制潜编码、所述第一二维特征图和第一二维掩膜图输入至所述第三模型中,生成与所述第一视角信息对应的目标图像以及与所述目标图像对应的目标掩膜图像。
9.根据权利要求1所述的图像处理方法,其特征在于,所述多个第一模型的模型参数基于第一判别器和第二判别器的鉴别结果调整,所述第一判别器用于第一模型的全局参数校正,所述第二判别器用于第一模型的局部参数校正。
10.根据权利要求9所述的图像处理方法,其特征在于,所述第一判别器用于输出对第二模型针对多个样本采样点输出的第二二维颜色图和第二二维掩膜图的第一鉴别结果以及与所述第二二维颜色图和所述第二二维掩膜图对应的第三视角信息;
所述第二判别器用于输出语义颜色图的第二鉴别结果以及与所述语义颜色图对应的判断语义类别,所述语义颜色图由第二模型针对多个样本采样点输出的第二二维颜色图和第二二维掩膜图相乘得到。
11.一种图像处理装置,其特征在于,包括:
信息输入模块,用于获取多个待合成采样点对应的第一位置信息以及与所述多个待合成采样点对应的第一视角信息;
语义特征获得模块,用于基于所述第一位置信息以及所述第一视角信息和多个第一模型,获得多个与所述待合成采样点对应的局部三维语义特征,其中,所述第一模型生成的局部三维语义特征与目标图像的局部图像信息相对应;
中间图像确定模块,用于基于多个所述局部三维语义特征确定与所述多个待合成采样点对应的第一二维特征图;
目标图像生成模块,用于基于所述第一二维特征图确定与所述第一视角信息对应的目标图像。
12.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10中任一所述的图像处理方法。
13.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-10中任一所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211529157.4A CN115880526A (zh) | 2022-11-30 | 2022-11-30 | 图像处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211529157.4A CN115880526A (zh) | 2022-11-30 | 2022-11-30 | 图像处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115880526A true CN115880526A (zh) | 2023-03-31 |
Family
ID=85765227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211529157.4A Pending CN115880526A (zh) | 2022-11-30 | 2022-11-30 | 图像处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115880526A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116612204A (zh) * | 2023-06-01 | 2023-08-18 | 北京百度网讯科技有限公司 | 图像生成方法、训练方法、装置、电子设备以及存储介质 |
-
2022
- 2022-11-30 CN CN202211529157.4A patent/CN115880526A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116612204A (zh) * | 2023-06-01 | 2023-08-18 | 北京百度网讯科技有限公司 | 图像生成方法、训练方法、装置、电子设备以及存储介质 |
CN116612204B (zh) * | 2023-06-01 | 2024-05-03 | 北京百度网讯科技有限公司 | 图像生成方法、训练方法、装置、电子设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109816589B (zh) | 用于生成漫画风格转换模型的方法和装置 | |
CN115690382B (zh) | 深度学习模型的训练方法、生成全景图的方法和装置 | |
CN109754464B (zh) | 用于生成信息的方法和装置 | |
CN111524216B (zh) | 生成三维人脸数据的方法和装置 | |
CN113327318B (zh) | 图像显示方法、装置、电子设备和计算机可读介质 | |
CN114004905B (zh) | 人物风格形象图的生成方法、装置、设备及存储介质 | |
CN114549722A (zh) | 3d素材的渲染方法、装置、设备及存储介质 | |
CN112381707B (zh) | 图像生成方法、装置、设备以及存储介质 | |
CN111968029A (zh) | 表情变换方法、装置、电子设备和计算机可读介质 | |
CN111833242A (zh) | 人脸变换方法、装置、电子设备和计算机可读介质 | |
CN113344776A (zh) | 图像处理方法、模型训练方法、装置、电子设备及介质 | |
CN110288532B (zh) | 生成全身图像的方法、装置、设备及计算机可读存储介质 | |
CN115880526A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN114863482A (zh) | 图像处理方法、装置、电子设备以及存储介质 | |
CN113673446A (zh) | 图像识别方法、装置、电子设备和计算机可读介质 | |
CN109816791B (zh) | 用于生成信息的方法和装置 | |
CN116309137A (zh) | 一种多视点图像去模糊方法、装置、***和电子介质 | |
CN110619602A (zh) | 一种图像生成方法、装置、电子设备及存储介质 | |
CN114913061A (zh) | 一种图像处理方法、装置、存储介质及电子设备 | |
CN115035223A (zh) | 一种图像处理方法、装置、设备及介质 | |
CN113850716A (zh) | 模型训练方法、图像处理方法、装置、电子设备及介质 | |
CN116883770A (zh) | 深度估计模型的训练方法、装置、电子设备及存储介质 | |
CN114419298A (zh) | 虚拟物体的生成方法、装置、设备及存储介质 | |
CN112070903A (zh) | 虚拟对象的展示方法、装置、电子设备及计算机存储介质 | |
CN114418835B (zh) | 图像处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |