CN115641253A

CN115641253A - 一种面向内容美学质量提升的材料神经风格迁移方法

Info

Publication number: CN115641253A
Application number: CN202211182280.3A
Authority: CN
Inventors: 陈森霖; 沈玉龙; 袁博; 胡凯
Original assignee: Nanjing Baituo Vision Technology Co ltd
Current assignee: Nanjing Baituo Vision Technology Co ltd
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2023-01-24
Anticipated expiration: 2042-09-27
Also published as: CN115641253B

Abstract

本发明公开了一种面向内容美学质量提升的材料神经风格迁移方法，包括，步骤1，在风格材质数据集筛选出材质部分占图片总面积较大、且较美的图片；并对图片增加被选次数标签；步骤2，使用美学指数较高的、以及被选的次数较多的风格材质图片对原图I_org神经风格迁移，生成多张迁移后图片I_gen；步骤3，从原图I_org的中分割出待迁移材质的区域RegionTarget；步骤4，将多个迁移后图像I_gen中与RegionTarget区域相对应的内容，与原图的背景部分合成，形成多个合成图像；步骤5，选出多个合成图像中最美的一个，并将其对应的风格材质图片的被选次数标签值加1。从而能够生成最美的图片，且把相关经验保留。

Description

一种面向内容美学质量提升的材料神经风格迁移方法

发明领域

本发明属于一种图像处理领域，具体来讲，是一种基于把图像进行风格转换的神经风格迁移类算法，它主要应用在虚拟现实/增强现实领域。

发明背景

材料神经风格迁移算法的作用是把原始图像中某种原始材料转化成指定的另一种材料，例如把原始图像A中石头材质的内容，转化成指定的金属材质的内容，所述金属材质的内容风格来源于数据集中的图像B，把一个石头材质的房子转化为金属材质的房子，其余保持不变，得到合成的图像C。这种算法可以被广泛应用在虚拟现实领域的图像合成方向，具有很好的应用价值。

目前，其结果的效果依靠的是生成图片和指定材质部分的风格相似性来判断，但是除了相似性这一特征外，生成图片的形式还是可以***的，这些***的结果中，如何选择出最美的图片，即上面所说的合成出的金属材质的房子，其风格是金属的，但是金属房子也还是可以有很多种效果的，如何进一步选择出最美的图像结果，这个问题目前没有相关研究方案。

发明内容

本发明要解决的技术问题是如何从风格迁移后的多种图像效果中，选取出最美的图像，原材料的图像B是美的，如果迁移后生成的图像C是美的，就把相关经验反馈到原材料领域的图像，使得下一次任务时，学习这一经验知识；因此，本发明提出了一种面向内容美学质量提升的材料神经风格迁移方法，一是能够在经典的材质神经风格迁移算法的基础上，对生成的图像在实现风格迁移的基础上，能够生成最美的图片，那么就可以更加美丽的实现虚拟现实的效果，增加人机交互的舒适度；二是把相关经验保留，在下一次任务中被学习到，那么就可以减少计算资源，获得更好的工程效果。

本发明基于深度学习、美学指标等基础，面向生成图片的美学问题，它能够对生成的图像在实现风格迁移的基础上，生成出客观的、最美的图片，可以更加美丽的实现虚拟现实的效果，增加人机交互的舒适度。

本发明提出的一种面向内容美学质量提升的材料神经风格迁移方法，包括的步骤有，数据集预处理、原图整体神经风格迁移、原图分割、合成、评估反馈。具体如下

步骤1，对风格材质数据集Dataset1预处理，筛选出材质部分占图片总面积比大于阈值T1的风格材质图片，形成数据集Dataset3；

从数据集Dataset3中进一步筛选出美学指标分数大于阈值T2的风格材质图片，形成数据集Dataset4；

对数据集Dataset4中所有风格材质图片增加被选次数标签Pic4_selected；

该过程的主要内容是一是要求Dataset3数据集的样本中的材质部分占图片总面积比越大越好，二是这个部分的美学指标分数越高越好。

步骤2，选取美学指数较高的风格材质图片、以及被选的次数Pic4_selected较多的图片将原图I_org整体神经风格迁移，生成多张迁移后图片I_gen；

步骤3，对原图I_org的材料进行精细化分割，分割出原图I_org中待转化材质部分RegionTarget，定义一张与图像I_org大小完全一致、数值全部为0的矩阵I_mask，并把I_mask对应到待转化材质部分RegionTarget位置的部分全部设置为1。

步骤4，图像合成，并输出图片I_out，表示如下：

I_out＝I_genI_mask+I_org(1-I_mask)

其中，I_gen是合成后的图像，每个合成图像I_out的与一个迁移后图片I_gen对应；

步骤5，计算所有合成图像I_out的NIMA指标，得到NIMA值最大的合成图像I_out，即为最终得到的图像，并将其对应的风格材质图片的Pic4_selected标签值加1。

进一步的，步骤1中筛选出材质部分占图片总面积比大于阈值T1的风格材质图片，形成数据集Dataset3；具体包括如下步骤：

步骤1.1，获取初级的材料区域标签数据集SegDateset2；

从FMD和EFMD中所有图像级标签图片样本随机抽取获得数据集SegDateset1；

使用弱监督的方案，从多标签CNN网络的类激活映射图CAM中学习像素级语义亲和性PSA，从图像级标签的数据集SegDateset1中获得初级的材料区域标签数据集SegDateset2。

步骤1.2，采用初级的材料区域标签数据集SegDateset2进行训练名称为HarDNet1的谐波密集连接网络HarDNet，并使用另一组像素级注释数据集SegDateset3对该网络HarDNet1进行微调，得到训练好的谐波密集连接网络HarDNet_seg；

所述数据集SegDateset3是从FMD和EFMD中所有像素级标签图片样本随机抽取得到。

步骤1.3，采用训练好的HarDNet1的谐波密集连接网络分割出数据集Dataset1中所有图像的像素级语义；并标签为Dataset2；

步骤1.4，统计数据集Dataset2图像中各种语义内容的像素总数，并计算出其与整幅图的比例，由高到低排序，对数据集Dataset2中每幅图只输出排序最高的语义归类的面积比Ph2(i)，i是编号，从1到Dataset2的图片总数itotal。

定义阈值T1(0～1)，删除Dataset2中Ph2(i)<＝T1的图片，将剩下的图片输出为Dataset3，得到一个单个材质的面积占整个图片超过T1的像素级语义数据集Dataset3。

进一步的，步骤2中选取美学指数较高的风格材质图片、以及被选的次数Pic4_selected较多的图片将原图I_org整体神经风格迁移，生成多张迁移后图片I_gen；具体步骤如下：

步骤2.1，对数据集Dataset4中的每类图片按美学NIMA指标从高到低排序，待迁移的风格材质类别中共有K张图片，采用前N1个风格图片对原图I_org整体神经风格迁移，分别得到N1个迁移后输出图片I_gen(n1)；其中,n1取值范围为1～N1；

步骤2.2，在待迁移的风格材质类别中；当该类中所有图片的Pic4_selected值均为0时，则令N3＝0；进入步骤2.4；

否则，在待迁移的风格材质类别中按图片的Pic4_selected值进行从高到低排序，选出Pic4_selected值不为0的风格材质图片，取前N2个风格材质图片；

步骤2.3，从所述前N2个风格材质图片中去掉与步骤2.1中前N1个风格材质图片中重复的图片，得到N3个风格材质图片，

步骤2.4，采用该N3个风格材质图片对原图I_org整体神经风格迁移；分别得到N3个迁移后图片I_gen(n3)；其中,n3取值范围为1～N3；

步骤2.5，最终得到N1+N3个迁移后I_gen图片集合。

进一步的，步骤2中采用经典神经风格迁移方法进行材质迁移，修改损失函数为：

其中，α和β均为权重系数，

表示内容损失指标，

表风格损失指标，NIMA(k,clas)表示clas类中第k个风格材质图片的NIMA值；

进一步的，步骤3中采用了步骤1中训练好的谐波密集连接网络HarDNet_seg对原图I_org的材料进行精细化分割。

有益效果：通过实现本发明，一是能够在经典的材质神经风格迁移算法的基础上，对生成的图像在实现风格迁移的基础上，能够生成最美的图片，可以更加美丽的实现虚拟现实的效果，增加人机交互的舒适度；二是把相关经验保留，在下一次任务中被学习到，可以减少计算资源，获得更好的工程效果。

附图说明

附图1是本发明的整体流程图；

具体实施例

本发明的一种面向内容美学质量提升的材料神经风格迁移方法，包括如下步骤：

步骤1，对风格材质数据集Dataset1预处理，筛选出材质部分占图片总面积比大于阈值T1的图片，形成数据集Dataset3；从数据集Dataset3中进一步筛选出美学指标分数大于阈值T2的图片，形成数据集Dataset4；并对数据集Dataset4中所有风格材质图片增加被选次数标签Pic4_selected，每个风格材质图片的被选次数标签Pic4_selected初始值设为0；

具体步骤如下：

步骤1.1，筛选出材质部分占图片总面积比大于阈值T1的图片，形成数据集Dataset3；

一般而言，现有的数据集中，标有图像级语义样本的数量多，例如一张图中，大面积的是石头，整个这个图被人工标记语义为石头，而像素级语义样本的数量少，例如一张图中，大面积的是石头，石头材质的部分每个像素均被标记为石头，其它材质的部分每个像素分别被标记为其他语义，本步骤需要的是精细化的像素级语义识别。

步骤1.1.1，获取初级的材料区域标签数据集SegDateset2；

Flickr材料数据库(FMD)和扩展FMD(EFMD)中的图片样本包括图像级标签图片样本和像素级标签图像样本，本实施例中，所述数据集SegDateset1是把FMD和EFMD中所有图像级标签图片样本随机抽取90％后汇总获得，这一步方案的过程中的模型设置与Ahn和Kwak提议的方案一致。

本文使用Ahn和Kwak提议的方案(Ahn,J.；Kwak,S.Learning pixel-levelsemantic affinity with image-level supervision for weakly supervised semanticsegmentation.In Proceedings of the Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.IEEE,2018,pp.4981–4990.)，使用弱监督的方案，从多标签CNN网络的类激活映射图(CAM)(Zhou,B.；Khosla,A.；Lapedriza,A.；Oliva,A.；Torralba,A.Learning deep features for discriminative localization.InProceedings of the Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.IEEE,2016,pp.2921–2929.)中学习像素级语义亲和性(PSA)，从获取成本低、数据量高的图像级标签(语义标签)的大数据集SegDateset1中获得初级的材料区域标签数据集SegDateset2。

步骤1.1.2，采用初级的材料区域标签数据集SegDateset2进行训练名称为HarDNet1的谐波密集连接网络(HarDNet)(Chao,P.；Kao,C.Y.；Ruan,Y.S.；Huang,C.H.；Lin,Y.L.Hardnet:Alow memory traffific network.In Proceedings of theProceedings of the IEEE International Conference on Computer Vision.IEEE,2019,pp.3552–3561.)，并使用另一组像素级注释数据集SegDateset3对该网络HarDNet1进行微调。

本实施例中，所述数据集SegDateset3是通过把FMD数和EFMD中所有像素级标签图片样本，随机抽取90％汇总得到。HarDNet1的网络结构与Chao,P的论文中的结构一致，微调过程一致。得到训练好的谐波密集连接网络(HarDNet_seg),用于后面步骤中原有图像I_org材质部分精细化分割。

步骤1.1.3，采用训练好的HarDNet1的谐波密集连接网络分割出数据集Dataset1中所有图像的像素级语义；并标签为Dataset2；

步骤1.1.4，统计数据集Dataset2图像中各种语义内容的像素总数，并计算出其与整幅图的比例，由高到低排序，对数据集Dataset2中每幅图只输出排序最高的语义归类的面积比Ph2(i)，i是编号，从1到Dataset2的图片总数itotal。

步骤1.2，从数据集Dataset3中进一步筛选出美学NIMA指标分数大于阈值T2的图片，并对数据集Dataset3中的每类图片按美学NIMA指标从高到低排序，形成数据集Dataset4；

所述NIMA指标来源于《Neural Image Assessment》这篇论文，谷歌研究团队在其中，提出了一种深度CNN，能够从直接观感(技术角度)与吸引程度(美学角度)预测人类对图像评估意见的分布。在谷歌所采用的方法中，NIMA 模型并不是简单地将图像划出高分或低分，也不是针对平均分做回归，而是对任意图像都做一个评分分布——在1到10的范围内，NIMA会将这张图的得分可能性分配给这10个分数，其质量随得分从高到低排序。

步骤1.2.1，使用《Neural Image Assessment》这篇论文中的方法，对Dataset3中所有图像计算NIMA，得到图片j的NIMA指标结果NIMA(j)，j取值范围为从1到Dataset3的图片总数jtotal。

步骤1.2.2，定义阈值T2(0～1)，删除Dataset3中所有NIMA(j)<＝T2的图片，在剩下的图片中，对每类风格材质按美学NIMA指标单独从高到低排序，形成数据集Dataset4，数据集Dataset4中每个图片中增加了美学指标的值NIMA，以及被选的次数Pic4_selected；

本实施例中，T2设置为3，这样那些不清晰、饱和度差、美感差等内容的图片基本被删除。

数据集Dataset4中的图片表示为Pic4(k,clas)，k是这幅图在clas类中的编号，k的取值范围为1到K，K表示各个clas类中图片总数，同时Dataset4中带有每副图的NIMA(k,clas)值，作为后期检索时使用，clas是该类的编号，例如数据集中有10个材质类，如果石头是第1个材质类的话，那么其clas就是1。采用Pic4_selected(k,clas)表示clas类中第k个图片被选用的次数。

这样，就得到了一个经过预处理、筛选后的数据集，该数据集中所有主体材质面积占图像比大、且图像美学指标高，数据集中图像按照材质类单独做表，按照图像美学指标高低排序，并保留美学指标的值，并对每副图Pic4(k,clas)设置一个已经被选的次数变量Pic4_selected(k,clas)，Pic4_selected(k,clas)变量初始时全部为0。

步骤2，选取美学指数较高的风格材质图片、以及已经被选的次数Pic4_selected较多的图片将原图I_org整体神经风格迁移，生成多张迁移后图片I_gen；

使用Gatys的传统神经风格迁移方法(Gatys,L.A.；Ecker,A.S.；Bethge,M.Imagestyle transfer using convolutional neural networks.In Proceedings of theProceedings of the IEEE Conference on Computer Vision and PatternRecognition.IEEE,2016,pp.2414–2423.)进行材料转换，该方法使用预先训练的VGG19网络来提取内容和样式特征。按照定义经典传统神经风格迁移方法的损失函数为新的内容损失函数和经典风格损失函数，其中具体通过最小化特征距离除以图像美学指标(内容损失指标

/NIMA(k,clas))及其Gram矩阵(风格损失指标

)来优化迁移后的图像。

在对数据集中检索转换材质图像B时，除了经典传统神经风格迁移方法的内容损失指标

和风格损失指标

而且还把Dataset4中风格材质图片的美学指标NIMA计算在内，由于NIMA是越大越好，而损失函数是越小越好，所以得取倒数，这样得到新的损失函数：

由于在任务时，是已知目标类，所以clas是已知数，检索对象的k是这幅图在clas类编号，k也是已知的，NIMA(k,clas)就是已知的。所以整体上不影响经典神经风格迁移方法的计算。本实施例中，α和β都被设置为0.5。

原图迁移具体步骤如下：

步骤2.1，在数据集Dataset4中，待迁移的风格材质类别中共有K张图片，采用前N1个风格图片对原图I_org整体神经风格迁移，分别得到N1个迁移后输出图片I_gen(n1)；其中,n1取值范围为1～N1；

否则，按图片的Pic4_selected值进行从高到低排序，选出Pic4_selected值不为0的图片，取前N2个图片；

步骤2.3，从所述前N2个图片中去掉与步骤2.1中前N1个图片中重复的图片，得到N3个图片；

步骤2.4，采用该N3个图片对原图I_org整体神经风格迁移；分别得到N3个迁移后图片I_gen(n3)；其中,n3取值范围为1～N3；

步骤2.5，得到N1+N3个迁移后I_gen图片集合；

步骤3，使用训练好的谐波密集连接网络(HarDNet_seg)，对原图的材料进行精细化分割，分割出原图I_org中待转化材质部分RegionTarget，定义一张与图像I_org大小完全一致、数值全部为0的矩阵I_mask，并把I_mask对应到待转化材质部分RegionTarget位置的部分全部设置为1。

步骤4，将迁移后图像I_gen与矩阵I_mask相乘，得到迁移后图像I_gen中与RegionTarget区域对应的内容，即迁移后图像的材质区域；

将原始图像I_org与矩阵I_mask相乘，得到原始图像I_org的背景区域；

将迁移后图像的材质区域和原始图像I_org的背景区域合成到最终输出(I_out)中，其定义如下：

I_out＝I_genI_mask+I_org(1-I_mask)

这里，I_gen是合成后的图像，I_mask∈{0,1}是通过HarDNet得到区域掩码，I_org是带有原始目标的内容图像。所以，由于迁移后图像I_gen有N1+N3个，所以也会得到对应数量的一组图片；

步骤5，评估寻优

在这一步骤中，本发明要解决的一是生成后的图像C是美的；二是生成后的图像C是美的，就把相关经验反馈到原材料领域的图像，使得下一次任务时，学习这一经验知识。

具体操作包括：

步骤5.1，对这一组I_out图像，使用《Neural Image Assessment》这篇论文中的方法计算，得到NIMA指标，从高到低，选择出NIMA值为最大的图片作为整个算法的最终输出；

步骤5.2，把这个被选出的图片在Dataset4中的原图的Pic4_selected(k,clas)变量增加1，增大下次任务时，该风格图像在步骤2中被再次选中的概率，实现经验知识的学习。

所以，通过实现本发明，一是能够在经典的材质神经风格迁移算法的基础上，对生成的图像在实现风格迁移的基础上，能够生成最美的图片，可以更加美丽的实现虚拟现实的效果，增加人机交互的舒适度；二是把相关经验保留，在下一次任务中被学习到，可以减少计算资源，获得更好的工程效果。

假设原图I_org的内容包括有一个木头材质的碗、一个石头材质的勺子，其中，木头材质的碗是将被替代风格的材质部分。材质风格迁移的任务是把木头材质的碗转化为目标风格材质金属，其余保持不变，即石头材质的勺子不变。步骤2是选取金属类中，NIMA指标高、已被选用次数多的多张金属风格材质图片；对先把原图I_org所有内容进行整体风格迁移，即木头材质的碗、石头材质的勺子全部被转为金属的，得到多张图片I_gen。步骤3是把原图I_org中的木头材质的碗的部分的位置RegionTarget分割出来，并形成一个掩码矩阵I_mask。步骤4是通过掩码矩阵I_mask把I_gen中金属碗的部分去替换原图I_org中的木头碗的部分，得到多张个输出I_out。步骤5是从多张个输出I_out中选出最美的那张I_out，并把其对应的风格材质图片的已选用次数加1，以增加下次该张被选用的概率。

Claims

1.一种面向内容美学质量提升的材料神经风格迁移方法，其特征在于，包括如下步骤：

步骤2，选用美学指数较高的风格材质图片、以及被选的次数Pic4_selected较多的风格材质图片，将原图I_org整体神经风格迁移，生成多张迁移后图片I_gen；

步骤3，对原图I_org的材料进行精细化分割，分割出原图I_org中待转化材质部分RegionTarget，定义一张与图像I_org大小完全一致、数值全部为0的矩阵I_mask，并把I_mask对应到待转化材质部分RegionTarget位置的部分全部设置为1；

步骤4，图像合成，并输出图片I_out，表示如下：

I_out＝I_genI_mask+I_org(1-I_mask)

2.根据权利要求1所述一种面向内容美学质量提升的材料神经风格迁移方法，其特征在于，步骤1中筛选出材质部分占图片总面积比大于阈值T1的风格材质图片，形成数据集Dataset3；

具体包括如下步骤：

步骤1.1，获取初级的材料区域标签数据集SegDateset2；

使用弱监督的方案，从多标签CNN网络的类激活映射图CAM中学习像素级语义亲和性PSA，从图像级标签的数据集SegDateset1中获得初级的材料区域标签数据集SegDateset2；

所述数据集SegDateset3是从FMD和EFMD中所有像素级标签图片样本随机抽取得到；

步骤1.1.4，统计数据集Dataset2图像中各种语义内容的像素总数，并计算出其与整幅图的比例，由高到低排序，对数据集Dataset2中每幅图只输出排序最高的语义归类的面积比Ph2(i)，i是编号，从1到Dataset2的图片总数itotal；

3.根据权利要求1所述一种面向内容美学质量提升的材料神经风格迁移方法，其特征在于，步骤2中选取美学指数较高的风格材质图片、以及被选的次数Pic4_selected较多的图片将原图I_org整体神经风格迁移，生成多张迁移后图片I_gen；具体步骤如下：

步骤2.3，从所述前N2个风格材质图片中去掉与步骤2.1中前N1个风格材质图片中重复的图片，得到N3个风格材质图片；

步骤2.5，最终得到N1+N3个迁移后I_gen图片集合。

4.根据权利要求1所述一种面向内容美学质量提升的材料神经风格迁移方法，其特征在于，步骤2中采用经典神经风格迁移方法进行材质迁移，修改损失函数为：

其中，α和β均为权重系数，

表示内容损失指标，

表风格损失指标，NIMA(k,clas)表示clas类中第k个风格材质图片的NIMA值。

5.根据权利要求2所述一种面向内容美学质量提升的材料神经风格迁移方法，其特征在于，步骤3中采用了步骤1中训练好的谐波密集连接网络HarDNet_seg对原图I_org的材料进行精细化分割。