CN111292408A

CN111292408A - 一种基于注意力机制的阴影生成方法

Info

Publication number: CN111292408A
Application number: CN202010070261.6A
Authority: CN
Inventors: 肖春霞; 刘大全
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2020-06-16
Anticipated expiration: 2040-01-21
Also published as: CN111292408B

Abstract

本发明提供一种基于注意力机制的阴影生成方法，首先对合成图像中的背景真实环境使用注意力机制提取有助于虚拟物体阴影生成推断的真实阴影与真实阴影的投射物等线索特征，然后使用深度神经网络模型生成虚拟物体的阴影，最后使用生成对抗训练优化整个模型。本发明有如下优点：能直接生成虚拟物体的阴影而不需要繁琐而困难的逆渲染过程；注意力机制提取线索特征与图像特征融合能生成合理的虚拟物体阴影；使用生成对抗方式进一步优化训练模型能够保留更好的细节。

Description

一种基于注意力机制的阴影生成方法

技术领域

本发明属于计算图形学和计算机视觉领域，涉及一种阴影生成方法，尤其是一种基于注意力机制的阴影生成方法。

背景技术

增强现实技术将计算机生成的虚拟信息如图片、文字、三维物体或声音等无缝地与真实环境进行叠加融合。近年来，随着科技的飞速发展，硬件的计算能力大幅度提升，这使得增强现实技术在娱乐、教育与医疗等领域具有巨大的需求量。增强现实技术尽可能让合成图像或视频具有较强的真实感，其中光照一致性体现在合成图像中虚拟物体的阴影、明暗等方面，因此，虚拟物体的阴影生成是提升合成图像真实感的重要技术。但是现有方法通常使用逆渲染的方式估计出场景的三维几何信息、表面反射率、完整光照条件等信息，再通过这些信息完成三维物体的渲染得到包含虚拟物体阴影的合成图像。通过这样的方式生成虚拟物体的阴影需要依赖逆渲染过程中每一步的结果，但是在现有条件下，各个步骤均难以实现准确的估计，除此之外各个步骤的错误会逐步积累从而导致渲染得到的三维物体的阴影不合理。另一方面，如果采用现有逆渲染方式生成虚拟物体阴影的方式，在获取到以上信息之后依然需要大量的人机交互，比如光照方位角调整、光照参数设置、虚拟物体的摆放或虚拟平面设置等，这对于增强现实应用而言成本太高。

发明内容

本发明的目的是克服上述现有方法存在的缺陷，提供了一种基于注意力机制的直接为合成图像生成虚拟物体阴影的方法，利用合成图像中的真实环境背景信息使用注意力机制提取合成图像中真实阴影与产生真实阴影的遮挡物等线索信息的特征，然后使用深度神经网络模型生成虚拟物体的阴影，最后使用生成对抗训练优化整个模型。为了方便叙述，下文将“产生真实阴影的遮挡物”简单地表述为“投射物”。

本发明的上述技术问题主要是通过以下技术方案得以解决的，一种基于注意力机制的阴影生成方法，包括以下步骤：

步骤1，拍摄用于构建数据集的原始图像数据并标定拍摄时的相机参数与光照条件，然后标注出原始图像中的真实阴影掩码图像与对应投射物的掩码图像；

步骤2，根据步骤1获取的相机参数与光照信息，以原始图像为背景渲染虚拟3D模型，得到同一条件下的有虚拟阴影合成图像、无虚拟阴影合成图像以及虚拟物体的掩码图像，这些图像与步骤1得到的掩码图像合在一起构成数据集。数据集划分为训练集与测试集；

步骤3，采用ResNet34模型的部分降采样模块与两个结构完全相同的插值-卷积上采样模块作为注意力模型，并用步骤2获取的数据子集进行参数预训练，然后用预训练的注意力模型提取出输入合成图像中真实阴影与相应投射物的注意力特征；

步骤4，采用ResNet34模型的部分降采样模块提取输入合成图像的全局特征，将步骤3提取到的注意力特征与图像特征进行特征融合，得到虚拟物体阴影生成的线索特征，然后将线索特征与虚拟物体掩码输入插值-卷积上采样模块得到虚拟物体阴影的残差图像，与输入图像相加得到最终的包含虚拟物体阴影的合成图像；

步骤5，利用步骤2获取的训练集，以监督学习的方式与条件对抗生成网络的形式训练步骤4的网络模型学习输入无虚拟物体阴影合成图像到输出有虚拟物体阴影合成图像的映射关系。

进一步的，步骤1中描述的相机参数为：相机中心偏移、焦距以及相机相对于世界坐标系的旋转与平移矩阵。步骤1中描述的光照信息分为两种：室内条件下的光照信息为产生最明显阴影的单个光源的几何中心位置坐标；室外条件下的光照信息为太阳光的方向向量坐标。步骤1基于特殊黑白标记物建立笛卡尔坐标系，相机的旋转与平移通过特殊黑白标记物的检测与识别完成，光照信息在特殊黑白标记物所定义的笛卡尔坐标系下测量得到。步骤1中描述的原始图像用焦距固定为668像素的Logitech C920高清摄像头以640x480分辨率拍摄得到，每张图像中需要出现特殊黑白方形标记物，且需要有不少于1个实例的真实阴影与其投射物同时出现。真实阴影与其投射物的掩码图像通过labelme标注工具手动标注得到。

进一步的，步骤2中描述的数据集的一条完整有效的数据记录包括5种图像：无虚拟物体阴影的合成图像、虚拟物体的掩码图像、有虚拟物体阴影的合成图像、真实阴影的掩码图像以及真实阴影投射物的掩码图像。一条完整的数据记录对应一个背景场景与一个***其中的虚拟物体，掩码图像要能够与图像中的物体对齐。步骤2中描述的数据集中的合成图像需要通过以下方式得到：以真实照片为背景，以虚拟物体为前景，利用步骤1描述的相机参数与光照信息渲染得到合成图像，用Shadow Mapping方式渲染虚拟物体阴影。通过控制是否渲染阴影得到无阴影与有阴影的对应，通过设置前景白色与背景黑色得到精确的虚拟物体掩码图像。权利要求1所述的一种基于注意力机制的阴影生成方法输入无虚拟物体阴影的合成图像与虚拟物体的掩码图像，输出有虚拟物体阴影的合成图像。

进一步的，步骤3使用注意力模型提取输入图像的注意力特征，训练时对于一张图像的损失函数定义如下：

{A_i}＝sigmoid(Attn(x，m))

其中，Attn(.)表示ResNet34降采样模块与插值-卷积上采样模块组成的注意力模型输出的注意力特征图，A表示注意力特征图经过sigmoid函数激活后的结果，x表示输入的无虚拟物体阴影合成图像，m表示虚拟物体掩码，图像的像素值全部归一化到范围[-1，1]。||.||₂表示2-范数，M表示步骤1标注的真实阴影与阴影投射物掩码图像，i为类别编号，i为0表示真实阴影，i为1表示阴影投射物。

进一步的，步骤4的具体实现方式如下：

步骤4.1，输入不含虚拟物体阴影的合成图像与虚拟物体的掩码，与步骤3的注意力机制提取的注意力特征融合；

X_feature＝f_usion(x，m，{A_i})

其中，x与m的含义与上述相同，fusion(.)表示注意力机制提取的线索特征与图像特征的融合，具体采用将特征图按通道合并的方式实现。

步骤4.2，输入步骤4.1得到的融合特征X_feature，用ResNet34降采样模块与插值-卷积上采样模块组成的深度神经网络为虚拟物体生成阴影；

R_feature＝G(X_feature)

y′＝tanh(x+R_feature)

其中，x与X_feature的含义与上述相同，G(.)表示深度神经网络生成的虚拟物体阴影特征图，虚拟物体阴影表示为残差图的形式，与输入图像x相加并通过双曲正切函数tanh激活得到最终的包含虚拟物体阴影的合成图像y’。

进一步的，步骤5以监督学习的形式，用生成对抗训练步骤4的网络模型，对于一张图像，其训练的损失函数定义如下：

L＝β₁L_adv+β₂L_gen+β₃L_per

其中，L_adv为生成对抗训练误差，L_gen为像素级别的误差，L_per为全局图像的感知损失误差。参数β₁，β₂与β₃用于控制三种误差的对生成结果的影响比重。

L_adv为是生成对抗训练的损失函数，其定义如下：

L_adv＝log[D(y)]+log[1-D(y′)]

y’的含义与前步骤相同，y表示数据集中x与m对应的包含虚拟物体阴影的目标合成图像，D为用深度卷积神经网络定义的判别器，D(.)表示判别器判定输入为真的概率，在本发明中D(y)应趋向于1.0，D(y’)应趋向于0.0，其网络的具体参数在生成对抗中学习得到。

L_gen为像素级别的误差损失函数，其定义如下：

L_gen＝||y-y′||₂

所有符号的含义与前步骤相同。

L_per为全局图像的感知损失误差，其定义如下：

L_per＝10^-5*||Vgg(y)-Vgg(y′)||₂

其中，Vgg(.)表示VGG19网络第10层提取的特征图，该项用于衡量输出图像与目标图像之间的全局语义一致性。

在每个迭代中，用生成对抗策略训练网络模型：判别器的优化策略使L最大化，而生成器的优化策略使L最小化。

与现有技术相比，本发明有如下优点：

1.本发明的阴影生成方法简单直观，不需要任何逆渲染过程，大大减少人机交互操作；

2.本发明的注意力机制增强有利于阴影生成的背景线索特征；

3.本发明使用生成对抗训练进一步优化训练模型获得更高质量的生成图像。

附图说明

图1是本发明的总流程图。

图2为本发明的实验效果图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步说明。

如图1所示，一种基于注意力机制的阴影生成方法，包括如下步骤：

步骤1中描述的相机参数为：相机中心偏移、焦距以及相机相对于世界坐标系的旋转与平移矩阵。步骤1中描述的光照信息分为两种：室内条件下的光照信息为产生最明显阴影的单个光源的几何中心位置坐标；室外条件下的光照信息为太阳光的方向向量坐标。步骤1基于特殊黑白标记物建立笛卡尔坐标系，相机的旋转与平移通过特殊黑白标记物的检测与识别完成，光照信息在特殊黑白标记物所定义的笛卡尔坐标系下测量得到。步骤1中描述的原始图像用焦距固定为668像素的Logitech C920高清摄像头以640x480分辨率拍摄得到，每张图像中需要出现特殊黑白方形标记物，且需要有不少于1个实例的真实阴影与其投射物同时出现。真实阴影与其投射物的掩码图像通过labelme标注工具手动标注得到。

步骤2，步骤2中描述的数据集的一条完整有效的数据记录包括5种图像：无虚拟物体阴影的合成图像、虚拟物体的掩码图像、有虚拟物体阴影的合成图像、真实阴影的掩码图像以及真实阴影投射物的掩码图像。一条完整的数据记录对应一个背景场景与一个***其中的虚拟物体，掩码图像要能够与图像中的物体对齐。步骤2中描述的数据集中的合成图像需要通过以下方式得到：以真实照片为背景，以虚拟物体为前景，利用步骤1描述的相机参数与光照信息渲染得到合成图像，用Shadow Mapping方式渲染虚拟物体阴影。通过控制是否渲染阴影得到无阴影与有阴影的对应，通过设置前景白色与背景黑色得到精确的虚拟物体掩码图像。权利要求1所述的一种基于注意力机制的阴影生成方法输入无虚拟物体阴影的合成图像与虚拟物体的掩码图像，输出有虚拟物体阴影的合成图像。

步骤2中描述的数据集的一条完整有效的数据记录包括5种图像：无虚拟物体阴影的合成图像、虚拟物体的掩码图像、有虚拟物体阴影的合成图像、真实阴影的掩码图像以及真实阴影投射物的掩码图像。权利要求1所述的一种基于注意力机制的阴影生成方法输入无虚拟物体阴影的合成图像与虚拟物体的掩码图像，输出有虚拟物体阴影的合成图像。

步骤3使用注意力模型提取输入图像的注意力特征，训练时对于一张图像的损失函数定义如下：

{A_i}＝sigmoid(Attn(x，m))

其中，Attn(.)表示ResNet34降采样模块与插值-卷积上采样模块组成的注意力模型输出的注意力特征图，A表示注意力特征图经过sigmoid函数激活后的结果，x表示输入的无虚拟物体阴影合成图像，m表示虚拟物体掩码，图像的像素值全部归一化到范围[-1,1]。||.||₂表示2-范数，M表示步骤1标注的真实阴影与阴影投射物掩码图像，i为类别编号，i为0表示真实阴影，i为1表示阴影投射物。sigmoid为S型函数，能返回(0,1)区间的实数值，定义如下：

步骤4包括如下子步骤：

X_feature＝fusion(x，m，{A_i，})

R_feature＝G(X_feature)

y′＝tanh(x+R_feature)

其中，x与X_feature的含义与上述相同，G(.)表示深度神经网络生成的虚拟物体阴影特征图，虚拟物体阴影表示为残差图的形式，与输入图像x相加并通过双曲正切函数tanh激活得到最终的包含虚拟物体阴影的合成图像y’。双曲正切函数tanh返回区间(-1,1)中的实数值，定义如下：

步骤5，利用步骤2获取的数据子集，以监督学习的方式与条件对抗生成网络的形式训练步骤4的网络模型学习输入无虚拟物体阴影合成图像到输出有虚拟物体阴影合成图像的映射关系。

步骤5以监督学习的形式，用生成对抗训练步骤4的网络模型，对于一张图像，其训练的损失函数定义如下：

L＝β₁L_adv+β₂L_gen+β₃L_per

其中，L_adv为生成对抗训练误差，L_gen为像素级别的误差，L_per为全局图像的感知损失误差。超参数β₁，β₂与β₃用于控制三种误差对生成结果的影响比重。某一超参数值所占的比重越大，其控制的相应误差越小，需要根据具体训练情况进行调整。

L_adv为是生成对抗训练的损失函数，其定义如下：

L_adv＝log[D(y)]+log[1-D(y′)]

L_gen为像素级别的误差损失函数，其定义如下：

L_gen＝||y-y′||₂

所有符号的含义与前步骤相同。

L_per为全局图像的感知损失误差，其定义如下：

L_per＝10^-5*||Vgg(y)-Vgg(y′)||₂

在每个迭代中，监督训练优化策略使得L_gen与L_per最小化。然后进一步通过生成对抗策略训练网络模型：判别器的优化策略使L最大化，而生成器的优化策略使L最小化。

图2为本发明的其中一实验效果图，在该实验中，超参数的取值分别为β₁＝1，β₂＝100，β₃＝10，由图中所示，得到了质量较高的阴影生成图像。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于注意力机制的阴影生成方法，其特征在于，包括以下步骤：

步骤2，根据步骤1获取的相机参数与光照信息，以原始图像为背景渲染虚拟3D模型，得到同一条件下的有虚拟阴影合成图像、无虚拟阴影合成图像以及虚拟物体的掩码图像，这些图像与步骤1得到的掩码图像合在一起构成数据集；

步骤5，利用步骤2获取的数据集中的训练数据集，以监督学习的方式与条件对抗生成网络的形式训练步骤4的网络模型学习输入无虚拟物体阴影合成图像到输出有虚拟物体阴影合成图像的映射关系。

2.根据权利要求1所述的一种基于注意力机制的阴影生成方法，其特征在于：步骤1中描述的相机参数包括：相机中心偏移、焦距以及相机相对于世界坐标系的旋转与平移矩阵；步骤1中描述的光照信息分为两种：室内条件下的光照信息为产生最明显阴影的单个光源的几何中心位置坐标；室外条件下的光照信息为太阳光的方向向量坐标；步骤1基于特殊黑白标记物建立笛卡尔坐标系，相机的旋转与平移通过特殊黑白标记物的检测与识别完成，光照信息在特殊黑白标记物所定义的笛卡尔坐标系下测量得到。

3.根据权利要求1所述的一种基于注意力机制的阴影生成方法，其特征在于：所述步骤1中描述的原始图像用焦距固定为668像素的Logitech C920高清摄像头以640x480分辨率拍摄得到，每张图像中需要出现特殊黑白方形标记物，且需要有不少于1个实例的真实阴影与其投射物同时出现；真实阴影与其投射物的掩码图像通过labelme标注工具手动标注得到。

4.根据权利要求1所述的一种基于注意力机制的阴影生成方法，其特征在于：所述步骤2中描述的数据集的一条完整有效的数据记录包括5种图像：无虚拟物体阴影的合成图像、虚拟物体的掩码图像、有虚拟物体阴影的合成图像、真实阴影的掩码图像以及真实阴影投射物的掩码图像；一条完整的数据记录对应一个背景场景与一个***其中的虚拟物体，掩码图像与图像中的物体对齐。

5.根据权利要求1所述的一种基于注意力机制的阴影生成方法，其特征在于：所述步骤2中描述的数据集中的合成图像需要通过以下方式得到：以真实照片为背景，以虚拟物体为前景，利用步骤1描述的相机参数与光照信息渲染得到合成图像，用Shadow Mapping方式渲染虚拟物体阴影，通过控制是否渲染阴影得到无阴影与有阴影的对应，通过设置前景白色与背景黑色得到精确的虚拟物体掩码图像。

6.根据权利要求1所述的一种基于注意力机制的阴影生成方法，其特征在于：步骤3使用注意力模型提取输入图像的注意力特征，训练时对于一张图像的损失函数定义如下：

{A_i}＝sigmoid(Attn(x，m))

其中，Attn(.)表示ResNet34降采样模块与插值-卷积上采样模块组成的注意力模型输出的注意力特征图，A表示注意力特征图经过sigmoid函数激活后的结果，x表示输入的无虚拟物体阴影合成图像，m表示虚拟物体掩码，图像的像素值全部归一化到范围[-1,1]；||.||₂表示2-范数，M表示步骤1标注的真实阴影与阴影投射物掩码图像，i为类别编号，i为0表示真实阴影，i为1表示阴影投射物；sigmoid为S型函数，能返回(0,1)区间的实数值，定义如下：

7.根据权利要求1所述的一种基于注意力机制的阴影生成方法，其特征在于：步骤4的具体步骤如下：

X_feature＝fusion(x，m，{A_i})

其中，x与m的含义与上述相同，fusion(.)表示注意力机制提取的线索特征与图像特征的融合，具体采用将特征图按通道合并的方式实现；

R_feature＝G(X_feature)

y′＝tanh(x+R_feature)

其中，x与X_feature的含义与上述相同，G(.)表示深度神经网络生成的虚拟物体阴影特征图，虚拟物体阴影表示为残差图的形式，与输入图像x相加并通过双曲正切函数tanh激活得到最终的包含虚拟物体阴影的合成图像y’；双曲正切函数tanh返回区间(-1，1)中的实数值，定义如下：

8.根据权利要求1所述的一种基于注意力机制的阴影生成方法，其特征在于：步骤5以监督学习的形式，用生成对抗训练步骤4的网络模型，对于一张图像，其训练的损失函数定义如下：

L＝β₁L_adv+β₂L_gen+β₃L_per

其中，L_adv为生成对抗训练误差，L_gen为像素级别的误差，L_per为全局图像的感知损失误差，参数β₁，β₂与β₃用于控制三种误差的对生成结果的影响比重；

L_adv为是生成对抗训练的损失函数，其定义如下：

L_adv＝log[D(y)]+log[1-D(y＇)]

y’的含义与前步骤相同，y表示数据集中x与m对应的包含虚拟物体阴影的目标合成图像，D为用深度卷积神经网络定义的判别器，D(.)表示判别器判定输入为真的概率，在本发明中D(y)应趋向于1.0，D(y’)应趋向于0.0，其网络的具体参数在生成对抗中学习得到；

L_gen为像素级别的误差损失函数，其定义如下：

L_gen＝||y-y′||₂

所有符号的含义与前步骤相同；

L_per为全局图像的感知损失误差，其定义如下：

L_per＝10^-5*||Vgg(y)-Vgg(y′)||₂

其中，Vgg(.)表示VGG19网络第10层提取的特征图，该项用于衡量输出图像与目标图像之间的全局语义一致性；

在每个迭代中，监督训练优化策略使得L_gen与L_per最小化，然后进一步通过生成对抗策略训练网络模型：判别器的优化策略使L最大化，而生成器的优化策略使L最小化。