CN115641253A - 一种面向内容美学质量提升的材料神经风格迁移方法 - Google Patents
一种面向内容美学质量提升的材料神经风格迁移方法 Download PDFInfo
- Publication number
- CN115641253A CN115641253A CN202211182280.3A CN202211182280A CN115641253A CN 115641253 A CN115641253 A CN 115641253A CN 202211182280 A CN202211182280 A CN 202211182280A CN 115641253 A CN115641253 A CN 115641253A
- Authority
- CN
- China
- Prior art keywords
- style
- pictures
- data set
- image
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000000463 material Substances 0.000 title claims abstract description 121
- 238000013508 migration Methods 0.000 title claims abstract description 45
- 230000005012 migration Effects 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 32
- 210000005036 nerve Anatomy 0.000 title claims description 10
- 230000001537 neural effect Effects 0.000 claims abstract description 20
- 238000012216 screening Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 2
- 230000004048 modification Effects 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 abstract 1
- 239000004575 stone Substances 0.000 description 11
- 230000000694 effects Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 7
- 239000002184 metal Substances 0.000 description 7
- 229910052751 metal Inorganic materials 0.000 description 7
- 239000002023 wood Substances 0.000 description 6
- 230000003993 interaction Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 239000007769 metal material Substances 0.000 description 3
- 239000002994 raw material Substances 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000581017 Oliva Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种面向内容美学质量提升的材料神经风格迁移方法,包括,步骤1,在风格材质数据集筛选出材质部分占图片总面积较大、且较美的图片;并对图片增加被选次数标签;步骤2,使用美学指数较高的、以及被选的次数较多的风格材质图片对原图Iorg神经风格迁移,生成多张迁移后图片Igen;步骤3,从原图Iorg的中分割出待迁移材质的区域RegionTarget;步骤4,将多个迁移后图像Igen中与RegionTarget区域相对应的内容,与原图的背景部分合成,形成多个合成图像;步骤5,选出多个合成图像中最美的一个,并将其对应的风格材质图片的被选次数标签值加1。从而能够生成最美的图片,且把相关经验保留。
Description
发明领域
本发明属于一种图像处理领域,具体来讲,是一种基于把图像进行风格转换的神经风格迁移类算法,它主要应用在虚拟现实/增强现实领域。
发明背景
材料神经风格迁移算法的作用是把原始图像中某种原始材料转化成指定的另一种材料,例如把原始图像A中石头材质的内容,转化成指定的金属材质的内容,所述金属材质的内容风格来源于数据集中的图像B,把一个石头材质的房子转化为金属材质的房子,其余保持不变,得到合成的图像C。这种算法可以被广泛应用在虚拟现实领域的图像合成方向,具有很好的应用价值。
目前,其结果的效果依靠的是生成图片和指定材质部分的风格相似性来判断,但是除了相似性这一特征外,生成图片的形式还是可以***的,这些***的结果中,如何选择出最美的图片,即上面所说的合成出的金属材质的房子,其风格是金属的,但是金属房子也还是可以有很多种效果的,如何进一步选择出最美的图像结果,这个问题目前没有相关研究方案。
发明内容
本发明要解决的技术问题是如何从风格迁移后的多种图像效果中,选取出最美的图像,原材料的图像B是美的,如果迁移后生成的图像C是美的,就把相关经验反馈到原材料领域的图像,使得下一次任务时,学习这一经验知识;因此,本发明提出了一种面向内容美学质量提升的材料神经风格迁移方法,一是能够在经典的材质神经风格迁移算法的基础上,对生成的图像在实现风格迁移的基础上,能够生成最美的图片,那么就可以更加美丽的实现虚拟现实的效果,增加人机交互的舒适度;二是把相关经验保留,在下一次任务中被学习到,那么就可以减少计算资源,获得更好的工程效果。
本发明基于深度学习、美学指标等基础,面向生成图片的美学问题,它能够对生成的图像在实现风格迁移的基础上,生成出客观的、最美的图片,可以更加美丽的实现虚拟现实的效果,增加人机交互的舒适度。
本发明提出的一种面向内容美学质量提升的材料神经风格迁移方法,包括的步骤有,数据集预处理、原图整体神经风格迁移、原图分割、合成、评估反馈。具体如下
步骤1,对风格材质数据集Dataset1预处理,筛选出材质部分占图片总面积比大于阈值T1的风格材质图片,形成数据集Dataset3;
从数据集Dataset3中进一步筛选出美学指标分数大于阈值T2的风格材质图片,形成数据集Dataset4;
对数据集Dataset4中所有风格材质图片增加被选次数标签Pic4_selected;
该过程的主要内容是一是要求Dataset3数据集的样本中的材质部分占图片总面积比越大越好,二是这个部分的美学指标分数越高越好。
步骤2,选取美学指数较高的风格材质图片、以及被选的次数Pic4_selected较多的图片将原图Iorg整体神经风格迁移,生成多张迁移后图片Igen;
步骤3,对原图Iorg的材料进行精细化分割,分割出原图Iorg中待转化材质部分RegionTarget,定义一张与图像Iorg大小完全一致、数值全部为0的矩阵Imask,并把Imask对应到待转化材质部分RegionTarget位置的部分全部设置为1。
步骤4,图像合成,并输出图片Iout,表示如下:
Iout=IgenImask+Iorg(1-Imask)
其中,Igen是合成后的图像,每个合成图像Iout的与一个迁移后图片Igen对应;
步骤5,计算所有合成图像Iout的NIMA指标,得到NIMA值最大的合成图像Iout,即为最终得到的图像,并将其对应的风格材质图片的Pic4_selected标签值加1。
进一步的,步骤1中筛选出材质部分占图片总面积比大于阈值T1的风格材质图片,形成数据集Dataset3;具体包括如下步骤:
步骤1.1,获取初级的材料区域标签数据集SegDateset2;
从FMD和EFMD中所有图像级标签图片样本随机抽取获得数据集SegDateset1;
使用弱监督的方案,从多标签CNN网络的类激活映射图CAM中学习像素级语义亲和性PSA,从图像级标签的数据集SegDateset1中获得初级的材料区域标签数据集SegDateset2。
步骤1.2,采用初级的材料区域标签数据集SegDateset2进行训练名称为HarDNet1的谐波密集连接网络HarDNet,并使用另一组像素级注释数据集SegDateset3对该网络HarDNet1进行微调,得到训练好的谐波密集连接网络HarDNet_seg;
所述数据集SegDateset3是从FMD和EFMD中所有像素级标签图片样本随机抽取得到。
步骤1.3,采用训练好的HarDNet1的谐波密集连接网络分割出数据集Dataset1中所有图像的像素级语义;并标签为Dataset2;
步骤1.4,统计数据集Dataset2图像中各种语义内容的像素总数,并计算出其与整幅图的比例,由高到低排序,对数据集Dataset2中每幅图只输出排序最高的语义归类的面积比Ph2(i),i是编号,从1到Dataset2的图片总数itotal。
定义阈值T1(0~1),删除Dataset2中Ph2(i)<=T1的图片,将剩下的图片输出为Dataset3,得到一个单个材质的面积占整个图片超过T1的像素级语义数据集Dataset3。
进一步的,步骤2中选取美学指数较高的风格材质图片、以及被选的次数Pic4_selected较多的图片将原图Iorg整体神经风格迁移,生成多张迁移后图片Igen;具体步骤如下:
步骤2.1,对数据集Dataset4中的每类图片按美学NIMA指标从高到低排序,待迁移的风格材质类别中共有K张图片,采用前N1个风格图片对原图Iorg整体神经风格迁移,分别得到N1个迁移后输出图片Igen(n1);其中,n1取值范围为1~N1;
步骤2.2,在待迁移的风格材质类别中;当该类中所有图片的Pic4_selected值均为0时,则令N3=0;进入步骤2.4;
否则,在待迁移的风格材质类别中按图片的Pic4_selected值进行从高到低排序,选出Pic4_selected值不为0的风格材质图片,取前N2个风格材质图片;
步骤2.3,从所述前N2个风格材质图片中去掉与步骤2.1中前N1个风格材质图片中重复的图片,得到N3个风格材质图片,
步骤2.4,采用该N3个风格材质图片对原图Iorg整体神经风格迁移;分别得到N3个迁移后图片Igen(n3);其中,n3取值范围为1~N3;
步骤2.5,最终得到N1+N3个迁移后Igen图片集合。
进一步的,步骤2中采用经典神经风格迁移方法进行材质迁移,修改损失函数为:
进一步的,步骤3中采用了步骤1中训练好的谐波密集连接网络HarDNet_seg对原图Iorg的材料进行精细化分割。
有益效果:通过实现本发明,一是能够在经典的材质神经风格迁移算法的基础上,对生成的图像在实现风格迁移的基础上,能够生成最美的图片,可以更加美丽的实现虚拟现实的效果,增加人机交互的舒适度;二是把相关经验保留,在下一次任务中被学习到,可以减少计算资源,获得更好的工程效果。
附图说明
附图1是本发明的整体流程图;
具体实施例
本发明的一种面向内容美学质量提升的材料神经风格迁移方法,包括如下步骤:
步骤1,对风格材质数据集Dataset1预处理,筛选出材质部分占图片总面积比大于阈值T1的图片,形成数据集Dataset3;从数据集Dataset3中进一步筛选出美学指标分数大于阈值T2的图片,形成数据集Dataset4;并对数据集Dataset4中所有风格材质图片增加被选次数标签Pic4_selected,每个风格材质图片的被选次数标签Pic4_selected初始值设为0;
具体步骤如下:
步骤1.1,筛选出材质部分占图片总面积比大于阈值T1的图片,形成数据集Dataset3;
一般而言,现有的数据集中,标有图像级语义样本的数量多,例如一张图中,大面积的是石头,整个这个图被人工标记语义为石头,而像素级语义样本的数量少,例如一张图中,大面积的是石头,石头材质的部分每个像素均被标记为石头,其它材质的部分每个像素分别被标记为其他语义,本步骤需要的是精细化的像素级语义识别。
步骤1.1.1,获取初级的材料区域标签数据集SegDateset2;
Flickr材料数据库(FMD)和扩展FMD(EFMD)中的图片样本包括图像级标签图片样本和像素级标签图像样本,本实施例中,所述数据集SegDateset1是把FMD和EFMD中所有图像级标签图片样本随机抽取90%后汇总获得,这一步方案的过程中的模型设置与Ahn和Kwak提议的方案一致。
本文使用Ahn和Kwak提议的方案(Ahn,J.;Kwak,S.Learning pixel-levelsemantic affinity with image-level supervision for weakly supervised semanticsegmentation.In Proceedings of the Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.IEEE,2018,pp.4981–4990.),使用弱监督的方案,从多标签CNN网络的类激活映射图(CAM)(Zhou,B.;Khosla,A.;Lapedriza,A.;Oliva,A.;Torralba,A.Learning deep features for discriminative localization.InProceedings of the Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.IEEE,2016,pp.2921–2929.)中学习像素级语义亲和性(PSA),从获取成本低、数据量高的图像级标签(语义标签)的大数据集SegDateset1中获得初级的材料区域标签数据集SegDateset2。
步骤1.1.2,采用初级的材料区域标签数据集SegDateset2进行训练名称为HarDNet1的谐波密集连接网络(HarDNet)(Chao,P.;Kao,C.Y.;Ruan,Y.S.;Huang,C.H.;Lin,Y.L.Hardnet:Alow memory traffific network.In Proceedings of theProceedings of the IEEE International Conference on Computer Vision.IEEE,2019,pp.3552–3561.),并使用另一组像素级注释数据集SegDateset3对该网络HarDNet1进行微调。
本实施例中,所述数据集SegDateset3是通过把FMD数和EFMD中所有像素级标签图片样本,随机抽取90%汇总得到。HarDNet1的网络结构与Chao,P的论文中的结构一致,微调过程一致。得到训练好的谐波密集连接网络(HarDNet_seg),用于后面步骤中原有图像Iorg材质部分精细化分割。
步骤1.1.3,采用训练好的HarDNet1的谐波密集连接网络分割出数据集Dataset1中所有图像的像素级语义;并标签为Dataset2;
步骤1.1.4,统计数据集Dataset2图像中各种语义内容的像素总数,并计算出其与整幅图的比例,由高到低排序,对数据集Dataset2中每幅图只输出排序最高的语义归类的面积比Ph2(i),i是编号,从1到Dataset2的图片总数itotal。
定义阈值T1(0~1),删除Dataset2中Ph2(i)<=T1的图片,将剩下的图片输出为Dataset3,得到一个单个材质的面积占整个图片超过T1的像素级语义数据集Dataset3。
步骤1.2,从数据集Dataset3中进一步筛选出美学NIMA指标分数大于阈值T2的图片,并对数据集Dataset3中的每类图片按美学NIMA指标从高到低排序,形成数据集Dataset4;
所述NIMA指标来源于《Neural Image Assessment》这篇论文,谷歌研究团队在其中,提出了一种深度CNN,能够从直接观感(技术角度)与吸引程度(美学角度)预测人类对图像评估意见的分布。在谷歌所采用的方法中,NIMA 模型并不是简单地将图像划出高分或低分,也不是针对平均分做回归,而是对任意图像都做一个评分分布——在1到10的范围内,NIMA会将这张图的得分可能性分配给这10个分数,其质量随得分从高到低排序。
步骤1.2.1,使用《Neural Image Assessment》这篇论文中的方法,对Dataset3中所有图像计算NIMA,得到图片j的NIMA指标结果NIMA(j),j取值范围为从1到Dataset3的图片总数jtotal。
步骤1.2.2,定义阈值T2(0~1),删除Dataset3中所有NIMA(j)<=T2的图片,在剩下的图片中,对每类风格材质按美学NIMA指标单独从高到低排序,形成数据集Dataset4,数据集Dataset4中每个图片中增加了美学指标的值NIMA,以及被选的次数Pic4_selected;
本实施例中,T2设置为3,这样那些不清晰、饱和度差、美感差等内容的图片基本被删除。
数据集Dataset4中的图片表示为Pic4(k,clas),k是这幅图在clas类中的编号,k的取值范围为1到K,K表示各个clas类中图片总数,同时Dataset4中带有每副图的NIMA(k,clas)值,作为后期检索时使用,clas是该类的编号,例如数据集中有10个材质类,如果石头是第1个材质类的话,那么其clas就是1。采用Pic4_selected(k,clas)表示clas类中第k个图片被选用的次数。
这样,就得到了一个经过预处理、筛选后的数据集,该数据集中所有主体材质面积占图像比大、且图像美学指标高,数据集中图像按照材质类单独做表,按照图像美学指标高低排序,并保留美学指标的值,并对每副图Pic4(k,clas)设置一个已经被选的次数变量Pic4_selected(k,clas),Pic4_selected(k,clas)变量初始时全部为0。
步骤2,选取美学指数较高的风格材质图片、以及已经被选的次数Pic4_selected较多的图片将原图Iorg整体神经风格迁移,生成多张迁移后图片Igen;
使用Gatys的传统神经风格迁移方法(Gatys,L.A.;Ecker,A.S.;Bethge,M.Imagestyle transfer using convolutional neural networks.In Proceedings of theProceedings of the IEEE Conference on Computer Vision and PatternRecognition.IEEE,2016,pp.2414–2423.)进行材料转换,该方法使用预先训练的VGG19网络来提取内容和样式特征。按照定义经典传统神经风格迁移方法的损失函数为新的内容损失函数和经典风格损失函数,其中具体通过最小化特征距离除以图像美学指标(内容损失指标/NIMA(k,clas))及其Gram矩阵(风格损失指标)来优化迁移后的图像。
在对数据集中检索转换材质图像B时,除了经典传统神经风格迁移方法的内容损失指标和风格损失指标而且还把Dataset4中风格材质图片的美学指标NIMA计算在内,由于NIMA是越大越好,而损失函数是越小越好,所以得取倒数,这样得到新的损失函数:
由于在任务时,是已知目标类,所以clas是已知数,检索对象的k是这幅图在clas类编号,k也是已知的,NIMA(k,clas)就是已知的。所以整体上不影响经典神经风格迁移方法的计算。本实施例中,α和β都被设置为0.5。
原图迁移具体步骤如下:
步骤2.1,在数据集Dataset4中,待迁移的风格材质类别中共有K张图片,采用前N1个风格图片对原图Iorg整体神经风格迁移,分别得到N1个迁移后输出图片Igen(n1);其中,n1取值范围为1~N1;
步骤2.2,在待迁移的风格材质类别中;当该类中所有图片的Pic4_selected值均为0时,则令N3=0;进入步骤2.4;
否则,按图片的Pic4_selected值进行从高到低排序,选出Pic4_selected值不为0的图片,取前N2个图片;
步骤2.3,从所述前N2个图片中去掉与步骤2.1中前N1个图片中重复的图片,得到N3个图片;
步骤2.4,采用该N3个图片对原图Iorg整体神经风格迁移;分别得到N3个迁移后图片Igen(n3);其中,n3取值范围为1~N3;
步骤2.5,得到N1+N3个迁移后Igen图片集合;
步骤3,使用训练好的谐波密集连接网络(HarDNet_seg),对原图的材料进行精细化分割,分割出原图Iorg中待转化材质部分RegionTarget,定义一张与图像Iorg大小完全一致、数值全部为0的矩阵Imask,并把Imask对应到待转化材质部分RegionTarget位置的部分全部设置为1。
步骤4,将迁移后图像Igen与矩阵Imask相乘,得到迁移后图像Igen中与RegionTarget区域对应的内容,即迁移后图像的材质区域;
将原始图像Iorg与矩阵Imask相乘,得到原始图像Iorg的背景区域;
将迁移后图像的材质区域和原始图像Iorg的背景区域合成到最终输出(Iout)中,其定义如下:
Iout=IgenImask+Iorg(1-Imask)
这里,Igen是合成后的图像,Imask∈{0,1}是通过HarDNet得到区域掩码,Iorg是带有原始目标的内容图像。所以,由于迁移后图像Igen有N1+N3个,所以也会得到对应数量的一组图片;
步骤5,评估寻优
在这一步骤中,本发明要解决的一是生成后的图像C是美的;二是生成后的图像C是美的,就把相关经验反馈到原材料领域的图像,使得下一次任务时,学习这一经验知识。
具体操作包括:
步骤5.1,对这一组Iout图像,使用《Neural Image Assessment》这篇论文中的方法计算,得到NIMA指标,从高到低,选择出NIMA值为最大的图片作为整个算法的最终输出;
步骤5.2,把这个被选出的图片在Dataset4中的原图的Pic4_selected(k,clas)变量增加1,增大下次任务时,该风格图像在步骤2中被再次选中的概率,实现经验知识的学习。
所以,通过实现本发明,一是能够在经典的材质神经风格迁移算法的基础上,对生成的图像在实现风格迁移的基础上,能够生成最美的图片,可以更加美丽的实现虚拟现实的效果,增加人机交互的舒适度;二是把相关经验保留,在下一次任务中被学习到,可以减少计算资源,获得更好的工程效果。
假设原图Iorg的内容包括有一个木头材质的碗、一个石头材质的勺子,其中,木头材质的碗是将被替代风格的材质部分。材质风格迁移的任务是把木头材质的碗转化为目标风格材质金属,其余保持不变,即石头材质的勺子不变。步骤2是选取金属类中,NIMA指标高、已被选用次数多的多张金属风格材质图片;对先把原图Iorg所有内容进行整体风格迁移,即木头材质的碗、石头材质的勺子全部被转为金属的,得到多张图片Igen。步骤3是把原图Iorg中的木头材质的碗的部分的位置RegionTarget分割出来,并形成一个掩码矩阵Imask。步骤4是通过掩码矩阵Imask把Igen中金属碗的部分去替换原图Iorg中的木头碗的部分,得到多张个输出Iout。步骤5是从多张个输出Iout中选出最美的那张Iout,并把其对应的风格材质图片的已选用次数加1,以增加下次该张被选用的概率。
Claims (5)
1.一种面向内容美学质量提升的材料神经风格迁移方法,其特征在于,包括如下步骤:
步骤1,对风格材质数据集Dataset1预处理,筛选出材质部分占图片总面积比大于阈值T1的风格材质图片,形成数据集Dataset3;
从数据集Dataset3中进一步筛选出美学指标分数大于阈值T2的风格材质图片,形成数据集Dataset4;
对数据集Dataset4中所有风格材质图片增加被选次数标签Pic4_selected;
步骤2,选用美学指数较高的风格材质图片、以及被选的次数Pic4_selected较多的风格材质图片,将原图Iorg整体神经风格迁移,生成多张迁移后图片Igen;
步骤3,对原图Iorg的材料进行精细化分割,分割出原图Iorg中待转化材质部分RegionTarget,定义一张与图像Iorg大小完全一致、数值全部为0的矩阵Imask,并把Imask对应到待转化材质部分RegionTarget位置的部分全部设置为1;
步骤4,图像合成,并输出图片Iout,表示如下:
Iout=IgenImask+Iorg(1-Imask)
其中,Igen是合成后的图像,每个合成图像Iout的与一个迁移后图片Igen对应;
步骤5,计算所有合成图像Iout的NIMA指标,得到NIMA值最大的合成图像Iout,即为最终得到的图像,并将其对应的风格材质图片的Pic4_selected标签值加1。
2.根据权利要求1所述一种面向内容美学质量提升的材料神经风格迁移方法,其特征在于,步骤1中筛选出材质部分占图片总面积比大于阈值T1的风格材质图片,形成数据集Dataset3;
具体包括如下步骤:
步骤1.1,获取初级的材料区域标签数据集SegDateset2;
从FMD和EFMD中所有图像级标签图片样本随机抽取获得数据集SegDateset1;
使用弱监督的方案,从多标签CNN网络的类激活映射图CAM中学习像素级语义亲和性PSA,从图像级标签的数据集SegDateset1中获得初级的材料区域标签数据集SegDateset2;
步骤1.2,采用初级的材料区域标签数据集SegDateset2进行训练名称为HarDNet1的谐波密集连接网络HarDNet,并使用另一组像素级注释数据集SegDateset3对该网络HarDNet1进行微调,得到训练好的谐波密集连接网络HarDNet_seg;
所述数据集SegDateset3是从FMD和EFMD中所有像素级标签图片样本随机抽取得到;
步骤1.1.3,采用训练好的HarDNet1的谐波密集连接网络分割出数据集Dataset1中所有图像的像素级语义;并标签为Dataset2;
步骤1.1.4,统计数据集Dataset2图像中各种语义内容的像素总数,并计算出其与整幅图的比例,由高到低排序,对数据集Dataset2中每幅图只输出排序最高的语义归类的面积比Ph2(i),i是编号,从1到Dataset2的图片总数itotal;
定义阈值T1(0~1),删除Dataset2中Ph2(i)<=T1的图片,将剩下的图片输出为Dataset3,得到一个单个材质的面积占整个图片超过T1的像素级语义数据集Dataset3。
3.根据权利要求1所述一种面向内容美学质量提升的材料神经风格迁移方法,其特征在于,步骤2中选取美学指数较高的风格材质图片、以及被选的次数Pic4_selected较多的图片将原图Iorg整体神经风格迁移,生成多张迁移后图片Igen;具体步骤如下:
步骤2.1,对数据集Dataset4中的每类图片按美学NIMA指标从高到低排序,待迁移的风格材质类别中共有K张图片,采用前N1个风格图片对原图Iorg整体神经风格迁移,分别得到N1个迁移后输出图片Igen(n1);其中,n1取值范围为1~N1;
步骤2.2,在待迁移的风格材质类别中;当该类中所有图片的Pic4_selected值均为0时,则令N3=0;进入步骤2.4;
否则,在待迁移的风格材质类别中按图片的Pic4_selected值进行从高到低排序,选出Pic4_selected值不为0的风格材质图片,取前N2个风格材质图片;
步骤2.3,从所述前N2个风格材质图片中去掉与步骤2.1中前N1个风格材质图片中重复的图片,得到N3个风格材质图片;
步骤2.4,采用该N3个风格材质图片对原图Iorg整体神经风格迁移;分别得到N3个迁移后图片Igen(n3);其中,n3取值范围为1~N3;
步骤2.5,最终得到N1+N3个迁移后Igen图片集合。
5.根据权利要求2所述一种面向内容美学质量提升的材料神经风格迁移方法,其特征在于,步骤3中采用了步骤1中训练好的谐波密集连接网络HarDNet_seg对原图Iorg的材料进行精细化分割。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211182280.3A CN115641253B (zh) | 2022-09-27 | 2022-09-27 | 一种面向内容美学质量提升的材料神经风格迁移方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211182280.3A CN115641253B (zh) | 2022-09-27 | 2022-09-27 | 一种面向内容美学质量提升的材料神经风格迁移方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115641253A true CN115641253A (zh) | 2023-01-24 |
CN115641253B CN115641253B (zh) | 2024-02-20 |
Family
ID=84941974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211182280.3A Active CN115641253B (zh) | 2022-09-27 | 2022-09-27 | 一种面向内容美学质量提升的材料神经风格迁移方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115641253B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458750A (zh) * | 2019-05-31 | 2019-11-15 | 北京理工大学 | 一种基于对偶学习的无监督图像风格迁移方法 |
CN111242841A (zh) * | 2020-01-15 | 2020-06-05 | 杭州电子科技大学 | 一种基于语义分割和深度学习的图片背景风格迁移方法 |
CN111950655A (zh) * | 2020-08-25 | 2020-11-17 | 福州大学 | 一种基于多领域知识驱动的图像美学质量评价方法 |
WO2022090483A1 (en) * | 2020-11-02 | 2022-05-05 | Tomtom Global Content B.V. | Neural network models for semantic image segmentation |
CN114581356A (zh) * | 2022-05-09 | 2022-06-03 | 南京理工大学 | 基于风格迁移数据增广的图像增强模型泛化方法 |
-
2022
- 2022-09-27 CN CN202211182280.3A patent/CN115641253B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458750A (zh) * | 2019-05-31 | 2019-11-15 | 北京理工大学 | 一种基于对偶学习的无监督图像风格迁移方法 |
CN111242841A (zh) * | 2020-01-15 | 2020-06-05 | 杭州电子科技大学 | 一种基于语义分割和深度学习的图片背景风格迁移方法 |
CN111950655A (zh) * | 2020-08-25 | 2020-11-17 | 福州大学 | 一种基于多领域知识驱动的图像美学质量评价方法 |
WO2022090483A1 (en) * | 2020-11-02 | 2022-05-05 | Tomtom Global Content B.V. | Neural network models for semantic image segmentation |
CN114581356A (zh) * | 2022-05-09 | 2022-06-03 | 南京理工大学 | 基于风格迁移数据增广的图像增强模型泛化方法 |
Non-Patent Citations (2)
Title |
---|
HOSSEIN TALEBI: "NIMA: Neural Image Assessment", 《ARXIV》, pages 1 - 15 * |
孙冬: "局部图像风格迁移绘制算法", 《安徽大学学报(自然科学版)》, pages 72 - 78 * |
Also Published As
Publication number | Publication date |
---|---|
CN115641253B (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107977671B (zh) | 一种基于多任务卷积神经网络的舌象分类方法 | |
CN107256246B (zh) | 基于卷积神经网络的印花织物图像检索方法 | |
CN110837836B (zh) | 基于最大化置信度的半监督语义分割方法 | |
CN107622104B (zh) | 一种文字图像识别标注方法及*** | |
CN110866896B (zh) | 基于k-means与水平集超像素分割的图像显著性目标检测方法 | |
Chang et al. | Multi-lane capsule network for classifying images with complex background | |
CN108734719A (zh) | 一种基于全卷积神经网络的鳞翅目昆虫图像前背景自动分割方法 | |
CN108846444A (zh) | 面向多源数据挖掘的多阶段深度迁移学习方法 | |
CN102314614A (zh) | 一种基于类共享多核学习的图像语义分类方法 | |
CN106874862B (zh) | 基于子模技术和半监督学习的人群计数方法 | |
Akhand et al. | Convolutional Neural Network based Handwritten Bengali and Bengali-English Mixed Numeral Recognition. | |
CN112507800A (zh) | 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法 | |
Zhao et al. | Semi-supervised learning-based live fish identification in aquaculture using modified deep convolutional generative adversarial networks | |
Qi et al. | Personalized sketch-based image retrieval by convolutional neural network and deep transfer learning | |
Qi et al. | Im2sketch: Sketch generation by unconflicted perceptual grouping | |
CN111783543B (zh) | 一种基于多任务学习的面部活动单元检测方法 | |
CN109213886B (zh) | 基于图像分割和模糊模式识别的图像检索方法及*** | |
CN113807176A (zh) | 一种基于多知识融合的小样本视频行为识别方法 | |
CN110991554B (zh) | 一种基于改进pca的深度网络图像分类方法 | |
CN115457332A (zh) | 基于图卷积神经网络和类激活映射的图像多标签分类方法 | |
CN116310466A (zh) | 基于局部无关区域筛选图神经网络的小样本图像分类方法 | |
CN116612307A (zh) | 一种基于迁移学习的茄科病害等级识别方法 | |
Al-Hmouz et al. | Enhanced numeral recognition for handwritten multi-language numerals using fuzzy set-based decision mechanism | |
Wang et al. | Facial expression recognition based on CNN | |
CN114219049A (zh) | 一种基于层级约束的细粒度笔石图像分类方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |