CN109685718B - 图片方形化缩放方法、***及装置 - Google Patents
图片方形化缩放方法、***及装置 Download PDFInfo
- Publication number
- CN109685718B CN109685718B CN201811545250.8A CN201811545250A CN109685718B CN 109685718 B CN109685718 B CN 109685718B CN 201811545250 A CN201811545250 A CN 201811545250A CN 109685718 B CN109685718 B CN 109685718B
- Authority
- CN
- China
- Prior art keywords
- network
- scaling
- loss
- perception
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000012549 training Methods 0.000 claims abstract description 63
- 230000006870 function Effects 0.000 claims abstract description 59
- 230000008447 perception Effects 0.000 claims abstract description 55
- 238000003466 welding Methods 0.000 claims abstract description 33
- 238000010008 shearing Methods 0.000 claims abstract description 27
- 230000008569 process Effects 0.000 claims abstract description 16
- 238000004821 distillation Methods 0.000 claims abstract description 12
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 9
- 238000003860 storage Methods 0.000 claims description 11
- 239000000126 substance Substances 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 2
- 238000009826 distribution Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4023—Scaling of whole images or parts thereof, e.g. expanding or contracting based on decimating pixels or lines of pixels; based on inserting pixels or lines of pixels
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及图片缩放技术领域,尤其涉及一种图片方形化缩放方法、***及设备,旨在解决解决现有图像缩放方法场景适应性差的问题。本发明方法包括:获取输入图像;将所述输入图像通过训练好的缩放网络生成缩放参数;根据所生成的缩放参数对输入图像进行缩放;其中,训练好的缩放网络,通过网络蒸馏的方法对感知网络和缩放网络进行训练后获取;在训练过程中,将感知网络的输出作为监督信息输出给缩放网络,并基于整体损失函数对感知网络、缩放网络进行整体训练;感知网络基于卷积神经网络构建,该网络包含接缝焊接、剪切、插值三个算子。本方明能在保证算法的普适性的同时能够引入人的感知倾向,能够得到更为符合使用者偏好的方形化结果。
Description
技术领域
本发明涉及图片缩放技术领域,尤其涉及一种图片方形化缩放方法、***及设备。
背景技术
当代社会,用户习惯于在网络上分享他们的想法、见解以及经历。在社交媒体中,在一些固定的场合下譬如图册封面,图像往往被限制到一个固定的形状——正方形。而目前绝大部分社交网络默认使用的缩略图产生算法是裁剪(Cropping)技术,但是采用裁剪技术得到的缩略图,并不能保留住原图像的主要信息。
基于内容的图像缩放算法是解决图像方形化问题的一种思路,这种算法可以尽可能的保护原图像的内容不损失,并且已经有相当的研究成果。但是,绝大部分算法都是基于某种特定的场景下使用,使得单一的基于内容的图像缩放算法难以具有良好的多场景适应性。
多算子缩放技术能很好的解决场景适应性的问题,不同的算子可以估计到原图像内容、构图等多个方面,然而缺少了人的交互作为输入,多算子的使用权重只能依靠图像的相似性来分配而不能将人的倾向性在结果中体现。而人的偏好在实际的结果展示中十分重要,这一缺点限制了这类算法的使用。
鉴于上述原因,有必要提出一种图片智能缩放方法。
发明内容
为了解决上述问题,即为了解决现有图像缩放方法场景适应性差的问题,本发明的一方面,提出了一种图片方形化缩放方法,包括以下步骤:
获取输入图像;
将所述输入图像通过训练好的缩放网络生成缩放参数;
根据所生成的缩放参数对输入图像进行缩放,获取缩放后的图像;
其中,
所述的训练好的缩放网络,通过网络蒸馏的方法对感知网络和缩放网络进行训练后获取;在训练过程中,将所述感知网络的输出作为监督信息输出给缩放网络,并基于整体损失函数对所述感知网络、所述缩放网络进行整体训练;
所述感知网络基于卷积神经网络构建,该网络包含接缝焊接、剪切、插值三个算子;
所述整体损失函数包括第一损失函数、第二损失函数;所述第一损失函数为所述感知网络的损失函数;所述第二损失函数为所述缩放网络输出目标结果损失函数。
在一些优选实施例中,所述感知网络进行分类任务训练前还包括对感知结果的one-hot编码;所述感知结果包括接缝焊接、剪切、插值。
在一些优选实施例中,所述缩放网络的训练的目标函数为
avg min||r*-r||2
s.t.rsc *,rcr *,rsl *≥0
rsc *+rcr *+rsl *=1
其中,r*是缩放网络输出的缩放参数,r是训练样本标注的缩放参数,rsc *、rcr *、rsl *分别为缩放网络输出的接缝焊接、剪切、插值参数,R* sc为缩放网络输出的接缝被裁剪的条数,R* cr为缩放网络输出的被裁剪的像素列数,R* sl为缩放网络输出的按比例去掉的像素的列数,R*为缩放网络输出的需要减少的像素总列数。
在一些优选实施例中,所述缩放网络的损失函数Loss(r*,rp,r)为
Loss(r*,rp,r)=Lossperception(r*,rp)+λ*Losstarget(r*,r)
Lossperception(r*,rp)=||r*-rp||2
Losstarget(r*,r)=Lossreg(r*,r)+βLosscons(r*)
Lossreg(r*,r)=||r*-r||2
其中,
rp是感知网络输出的缩放参数;Lossperception(r*,rp)为感知网络损失函数,Losstarget(r*,r)为缩放网络损失函数,λ、β分别为预设的第一比例因子、第二比例因子;
rsc、rcr、rsl分别为训练样本标注的接缝焊接、剪切、插值参数,Rsc为训练样本标注的接缝被裁剪的条数,Rcr为训练样本标注的被裁剪的像素列数,Rsl为训练样本标注的按比例去掉的像素的列数,R为训练样本标注的需要减少的像素总列数。
r*(1)=rsc *、r*(2)=rcr *、r*(3)=rsl *。
在一些优选实施例中,所述感知网络和/或所述缩放网络中多个算子的执行顺序为:接缝焊接算子、剪切算子、插值算子。
在一些优选实施例中,训练样本标注的需要减少的像素总列数R为R=Rsc+Rcr+Rsl或R=max(w,h)-t,其中(w,h)为训练样本图像的大小,t=min(w,h);
缩放网络输出的需要减少的像素总列数R*为R*=R* sc+R* cr+R* sl或R*=max(w*,h*)-t*,其中(w*,h*)为缩放网络输出图像的大小,t*=min(w*,h*)。
本发明的另一方面,提出了一种图片方形化缩放***,包括输入模块、缩放参数生成模块、缩放模块;
所述输入模块,配置为获取输入图像;
所述缩放参数生成模块,配置为将所述输入图像通过训练好的缩放网络生成缩放参数;
所述缩放模块,配置为根据所生成的缩放参数对输入图像进行缩放,获取缩放后的图像;
其中,
所述的训练好的缩放网络,通过网络蒸馏的方法对感知网络和缩放网络进行训练后获取;在训练过程中,将所述感知网络的输出作为监督信息输出给缩放网络,并基于整体损失函数对所述感知网络、所述缩放网络进行整体训练;
所述感知网络基于卷积神经网络构建,该网络包含接缝焊接、剪切、插值三个算子;
所述整体损失函数包括第一损失函数、第二损失函数;所述第一损失函数为所述感知网络的损失函数;所述第二损失函数为所述缩放网络输出目标结果损失函数。
在一些优选实施例中,还包括one-hot编码模块,配置为在所述感知网络进行分类任务训练前对感知结果的one-hot编码;所述感知结果包括接缝焊接、剪切、插值。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现权利要求1-6所述的图片方形化缩放方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现权利要求1-6所述的图片方形化缩放方法。
本发明有益效果:
本发明采用的训练好的缩放网络通过网络蒸馏的方法对感知网络和缩放网络进行训练获取,并在训练过程中,将所述感知网络的输出作为监督信息输出给缩放网络,并基于整体损失函数对所述感知网络、所述缩放网络进行整体训练,能在保证算法的普适性的同时能够引入人的感知倾向,使得网络能够感知到人对于方形结果的权重分配,得到的方形图在内容、形状以及构图三个方面更适合人的偏好,从而能够得到更为符合使用者偏好的方形化结果。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是当前社交媒体上方形化图片结果与期望结果的示例;
图2是本发明一种实施例中缩放网络的训练方法示意图;
图3是人对多因子感知的权重统计与FMo方法的权重统计示例;
图4是本发明一种实施例的方法缩放结果和其他算法缩放结果的对比示例图;
图5是本发明另一种实施例的方法缩放结果和其他算法缩放结果的对比示例图;
图6为本发明一种实施例的多因子的平衡感知能力示例图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1以图例的形式表明了当前社交媒体上方形化图片方法的缺点。从图中容易发现,其相册的封面默认为正方形,且***自动产生的缩放结果并不理想,信息缺失现象明显,基于此,本发明将这一问题构建为视觉缩放感知问题。借助多算子方法,来探究用户是如何平衡图像的内容、形状和布局这三个方面的权重。本发明以接缝焊接(Seam Carving)来估量用户对于图像内容损失的感知;以剪切(Cropping)来估量用户对图像中物体形状损失的感知;以插值(Scaling)来估量用户对图像构图损失的感知。图1中ORIGINAL为原图、SYSTEMATIC为现有***生成的缩放图、OURS为期望生成的图。
本发明的一种图片方形化缩放方法,如图1所示,包括以下步骤:
获取输入图像;
将所述输入图像通过训练好的缩放网络生成缩放参数;
根据所生成的缩放参数对输入图像进行缩放,获取缩放后的图像;
其中,
所述的训练好的缩放网络,通过网络蒸馏的方法对感知网络和缩放网络进行训练后获取;在训练过程中,将所述感知网络的输出作为监督信息输出给缩放网络,并基于整体损失函数对所述感知网络、所述缩放网络进行整体训练;
所述感知网络基于卷积神经网络构建,该网络包含接缝焊接、剪切、插值三个算子;
所述整体损失函数包括第一损失函数、第二损失函数;所述第一损失函数为所述感知网络的损失函数;所述第二损失函数为所述缩放网络输出目标结果损失函数。
优选的,所述感知网络进行分类任务训练前中还包括对感知结果的one-hot编码;所述感知结果包括接缝焊接、剪切、插值。这样使得感知网络的输出结果能够体现优势算子信息,并使网络能够学习到三类算子的内部关系,从而为后面的蒸馏网络提供更为细化的监督信息。
在很多例子中,相同的多算子配置,在不同的算子执行顺序下可能产生不同的结果。考虑到人们相较于物体的形状更关心图像的内容,故本算法将多算子的执行顺序固定为Seam Carving,Cropping和Scaling。
进一步需要说明的是,本实施例中所述的对图片进行方形化权重调整,还可以是对图片进行其它纵横比例的调整,可以根据需要进行设定。本发明实施例中优选为对图片进行方形化调整,获得缩放后最适合的方形图片。
为了更清晰地对本发明图片方形化缩放方法进行说明,下面结合附图从网络的建模、训练方法设计两部分进行详细描述。
1、网络的建模
本发明实施例将缩放视觉感知问题构建为回归问题,解决的问题是图像方形化的应用,即,对于大小为(w,h)的原图像,目标正方形的边长t可表示为t=min(w,h)。本发明实施例选择接缝焊接、剪切、插值组成多算子方法,定义[Rsc,Rcr,Rsl]来表示用户对于这三种算子的使用分配情况,其中Rsc表示有Rsc条接缝被裁剪,而后有Rcr列像素被剪切,最后再按照比例均匀去掉Rsl列像素。
对数据集中的图像,需要减少的总长为R列像素,大小为R=max(w,h)-t或R=Rsc+Rcr+Rsl。为了归一化表示,定义rsc+rcr+rsl=1,其中,rsc、rcr、rsl分别为训练样本标注的接缝焊接、剪切、插值参数,Rsc为训练样本标注的接缝被裁剪的条数,Rcr为训练样本标注的被裁剪的像素列数,Rsl为训练样本标注的按比例去掉的像素的列数,R为训练样本标注的需要减少的像素总列数,此处(w,h)为训练样本图像的大小。
故本实施例中缩放网络的目标函数可以表示为式(1):
avg min||r*-r||2 (1)
s.t.rsc *,rcr *,rsl *≥0
rsc *+rcr *+rsl *=1
其中,r*是缩放网络输出的缩放参数,r是训练样本标注的缩放参数,rsc *、rcr *、rsl *分别为缩放网络输出的接缝焊接、剪切、插值参数,R* sc为缩放网络输出的接缝被裁剪的条数,R* cr为缩放网络输出的被裁剪的像素列数,R* sl为缩放网络输出的按比例去掉的像素的列数,R*为缩放网络输出的需要减少的像素总列数。
缩放网络输出的需要减少的像素总列数R*为R*=R* sc+R* cr+R* sl或R*=max(w*,h*)-t*,其中(w*,h*)为缩放网络输出图像的大小,t*=min(w*,h*)。
2、训练方法设计
如图2所示,本发明实施例中采用卷积神经网络构建了两个网络模型---感知网络、缩放网络。训练数据包换原始尺寸图像及将其缩放至正方形时所需要的缩放参数,首先对缩放参数进行one-hot编码,并将编码后的信息作为类别监督信息训练感知网络,训练时使用交叉能量损失为网络优化目标。而后将此感知网络的输出作为附加信息传递给缩放网络,缩放网络以原图为输入,以原始缩放参数及感知网络输出为监督信息进行训练,训练时使用附加和值约束的欧氏距离度量压缩网络输出与感知网络输出及原始缩放参数之间的损失。
期望学习网络能够学习到人对于不同图片的内容、形状、构图三个方面的权重分配偏好。将数据集部分的图片和权重分配输入感知网络,感知网络没有直接对人的算子感知分配结果进行预测,而是先对人的感知结果进行one-hot编码,这一操作可以使得感知网络的输出结果能够体现优势算子信息,并使网络能够学习到三类算子的内部关系,从而为后面的蒸馏网络提供更为细化的监督信息,将感知网络的输出表示为rp。将感知网络的输出作为监督信息,输出给蒸馏网络。故损失函数分为两个部分,一部分是感知网络损失,另一部分为目标结果损失,整体损失可以通过损失函数Loss(r*,rp,r)表示为公式(2),其中各部分分别通过公式(3)-(6)获取。
Loss(r*,rp,r)=Lossperception(r*,rp)+λ*Losstarget(r*,r) (2)
其中,r*是缩放网络输出的缩放参数,r是训练样本标注的缩放参数,rp是感知网络输出的缩放参数;Lossperception(r*,rp)为感知网络损失函数;Losstarget(r*,r)为缩放网络损失函数;λ为预设的第一比例因子,本实施例中可以设λ=2。
感知网络损失函数Lossperception(r*,rp)表示为公式(3),
Lossperception(r*,rp)=||r*-rp||2 (3)
Losstarget(r*,r)=Lossreg(r*,r)+βLosscons(r*) (4)
其中,β为预设的第二比例因子。
回归损失Lossreg表示网络预测值与人的标注值的差距,如公式(5)所示,
Lossreg(r*,r)=||r*-r||2 (5)
其中,r*(1)=rsc *、r*(2)=rcr *、r*(3)=rs1 *。
在训练过程中,可以基于损失函数Loss(r*,rp,r)进行网络训练,获取训练后的缩放网络,基于该网络对任意纵横比的输入图像进行缩放参数的生成,并获取缩放后的正方形图片。
本发明所采用的技术方案是:构建数据集,借助接缝焊接(Seam Carving),剪切(Cropping),插值(Scaling),组成的多算子缩放策略,并以此分别对应图像的内容、形状、以及构图三个方面,由操作者来进行手动标注,以此来探究人在图像方形化时对于这三个层面的偏好。借助深度学习策略,使得网络具备预测人对于上述三方面的权重的能力。本发明能在保证算法的普适性的同时能够引入人的感知倾向,引入深度学习模型,使得网络能够感知到人对于方形结果的权重分配,得到的方形图在内容、形状以及构图三个方面更适合人的偏好,从而能够得到更为合理的方形化结果。
在本发明的一个实施例中,在网络上收集了5084张共享知识产权图片,对这些图片进行手动方形化权重调整,记录人观察下满意的方形化结果对应的权重值,每一张图片与其权重对应记录,为后面网络的训练提供标签数据。其中,对图片进行手动方形化权重调整,可以采用网络工具进行。如在一些标注网站中通过人为手动的进行图像方形化调整,通过滑动滑动条的滑块来调整人对于原图在内容、形状和构图三个方面的权重偏好,直到获得满意的结果。将认为手动对图片方形化调整得到的权重比数据记录下来,将作为后续算法的输入值。
其中,需要说明的是,在网络上收集的图片的种类是多样的,在数据收集时分别以自然风景、人像、动物、食物、艺术、时尚、建筑等为关键字进行搜索,以保证数据种类的多样性。
图3是人对多因子感知的权重统计与FMo方法的权重统计示例。Human为人对多因子感知的权重统计数据,FMo是一种先进的缩放算法,FMo具体可参考:Weiming Dong,Guanbo Bao,Xiaopeng Zhang,and Jean-Claude Paul.2012.Fast multi-operator imageresizing and evaluation.Journal of Computer Science and Technology 27,1(2012),121–134.该图中的多因子分别为:接缝焊接(Seam Carving)、剪切(Crop)、插值(Scale)。AVE为假设三个算子平均使用时的比例标记线,即算子使用比重为(0.33,0.33,0.33)时的标记线。
图4和图5是本发明结果和其他算法结果的对比图。分别对一些示例的OriginalPhoto(原始图片),通过以下方法生成的缩放图进行展示对比:CR(Cropping,裁剪)、SC(Seam Carving,图像接缝焊接)、WARP(图像扭曲)、FMO(先进多算子算法结果)、Human(人工标注的结果)、Ours(本发明方法结果)。由图可知,我们的结果能得到一个更好的平衡了原图的内容、形状、构图三个方面的方形化图。
图6为展示了,本发明学***衡感知能力,可以在一些图片上适用在其他缩放尺寸上,并取得好的缩放结果。在优选实例上,通过设置将原图片的长边缩放至原来尺寸的75%,62.5%,50%,我们可以发现,其均可取得理想的缩放效果。
我们将得到的结果,进行使用者调查来进行结果评价。结果评价部分包括多种算法结果使用者投票评价和使用者结果再优化变化评价。
根据本发明方法,表1是本发明的方法与几种单路网络的损失对比测试数据示例。表1中参与对比的单路网络为:Shallow(浅层神经网络)、VGG16(16层VGG卷积神经网络)、ResNet(残差神经网络)、FMo(先进多算子算法结果)、Ours(本发明方法);MAE(采用平均绝对误差法统计的数据)、RMSE(采用均方根误差法统计的数据);reg.表示回归损失,cons.表示约束损失。
表1
由表1可知,本发明可以取得更好的回归结果。
为了验证本发明输出结果的适应性,采用多种算法生成结果让投票者评价,展示96组图像,每组图像均包括以下缩放算法的输出结果:CR(Cropping,裁剪)、FMO(先进多算子算法结果)、AAD(先进的图像扭曲算法,详情参见Daniele Panozzo,Ofir Weber,andOlga Sorkine.2012.Robust Image Retargeting via Axis-AlignedDeformation.Computer Graphics Forum 31,2(2012),229-236)、SC(Seam Carving,图像接缝焊接)、Human(人工标注的结果)、Ours(本发明方法结果)。投票者从6个方形化结果中选择最好的3个结果。统计结果展示在了表2中。
表2
表2中的数据说明,本发明得到的结果具有良好的用户反映并且具有和人为标注结果相当的得票率。
为了保证验证的全面性,针对表2中评价的96组图像,我们进行了结果重感知实验即使用者结果再优化变化实验,即将对比的结果再次使用标注程序进行显示,程序展示的起始结果,分别设置为的本方法的预测结果和FMO的预测结果,调查者分别从起始结果为出发点依据自己的感知对初始结果进行优化直至达到满意的效果,在这个过程中我们记录下调查者的调整变化比例,统计结果记录在了表3中。
表3
表3中数据表明,采用本发明的方法,调查者的调整程度明显小于FMO的结果。
本发明一种实施例的图片方形化缩放***,包括输入模块、缩放参数生成模块、缩放模块;
所述输入模块,配置为获取输入图像;
所述缩放参数生成模块,配置为将所述输入图像通过训练好的缩放网络生成缩放参数;
所述缩放模块,配置为根据所生成的缩放参数对输入图像进行缩放,获取缩放后的图像;
其中,
所述的训练好的缩放网络,通过网络蒸馏的方法对感知网络和缩放网络进行训练后获取;在训练过程中,将所述感知网络的输出作为监督信息输出给缩放网络,并基于整体损失函数对所述感知网络、所述缩放网络进行整体训练;
所述感知网络基于卷积神经网络构建,该网络包含接缝焊接、剪切、插值三个算子;
所述整体损失函数包括第一损失函数、第二损失函数;所述第一损失函数为所述感知网络的损失函数;所述第二损失函数为所述缩放网络输出目标结果损失函数。
为了使得感知网络的输出结果能够体现优势算子信息,并使网络能够学习到三类算子的内部关系,从而为后面的蒸馏网络提供更为细化的监督信息,本发明实施例的图片方形化缩放***还包括one-hot编码模块,配置为在所述感知网络进行分类任务训练前对感知结果的one-hot编码;所述感知结果包括接缝焊接、剪切、插值。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的图片方形化缩放***,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明一种实施例的存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的图片方形化缩放方法。
本发明一种实施例的处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的图片方形化缩放***方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (9)
1.一种图片方形化缩放方法,其特征在于,包括以下步骤:
获取输入图像;
将所述输入图像通过训练好的缩放网络生成缩放参数;
根据所生成的缩放参数对输入图像进行缩放,获取缩放后的图像;
其中,
所述的训练好的缩放网络,通过网络蒸馏的方法对感知网络和缩放网络进行训练后获取;在训练过程中,将所述感知网络的输出作为监督信息输出给缩放网络,并基于整体损失函数对所述感知网络、所述缩放网络进行整体训练;
所述感知网络基于卷积神经网络构建,该网络包含接缝焊接、剪切、插值三个算子;
所述整体损失函数为:
Loss(r*,rp,r)=Lossperception(r*,rp)+λ*Losstarget(r*,r)
Lossperception(r*,rp)=||r*-rp||2
Losstarget(r*,r)=Lossreg(r*,r)+βLosscons(r*)
Lossreg(r*,r)=||r*-r||2
其中,Loss(r*,rp,r)为整体损失函数,Lossperception(r*,rp)为感知网络损失函数,Losstarget(r*,r)为缩放网络损失函数,rp是感知网络输出的缩放参数,r*是缩放网络输出的缩放参数,r是训练样本标注的缩放参数;λ、β分别为预设的第一比例因子、第二比例因子,r*(1)=rsc *、r*(2)=rcr *、r*(3)=rsl *,rsc *、rcr *、rsl *分别为缩放网络输出的接缝焊接、剪切、插值参数;rsc、rcr、rsl分别为训练样本标注的接缝焊接、剪切、插值参数,Rsc为训练样本标注的接缝被裁剪的条数,Rcr为训练样本标注的被裁剪的像素列数,Rsl为训练样本标注的按比例去掉的像素的列数,R为训练样本标注的需要减少的像素总列数。
2.根据权利要求1所述的图片方形化缩放方法,其特征在于,所述感知网络进行分类任务训练前中还包括对感知结果的one-hot编码;所述感知结果包括接缝焊接、剪切、插值。
4.根据权利要求1-3任一项所述的图片方形化缩放方法,其特征在于,所述感知网络和/或所述缩放网络中多个算子的执行顺序为:接缝焊接算子、剪切算子、插值算子。
5.根据权利要求3所述的图片方形化缩放方法,其特征在于,训练样本标注的需要减少的像素总列数R为R=Rsc+Rcr+Rsl或R=max(w,h)-t,其中(w,h)为训练样本图像的大小,t=min(w,h);
缩放网络输出的需要减少的像素总列数R*为R*=R* sc+R* cr+R* sl或R*=max(w*,h*)-t*,其中(w*,h*)为缩放网络输出图像的大小,t*=min(w*,h*)。
6.一种图片方形化缩放***,其特征在于,包括输入模块、缩放参数生成模块、缩放模块;
所述输入模块,配置为获取输入图像;
所述缩放参数生成模块,配置为将所述输入图像通过训练好的缩放网络生成缩放参数;
所述缩放模块,配置为根据所生成的缩放参数对输入图像进行缩放,获取缩放后的图像;
其中,
所述的训练好的缩放网络,通过网络蒸馏的方法对感知网络和缩放网络进行训练后获取;在训练过程中,将所述感知网络的输出作为监督信息输出给缩放网络,并基于整体损失函数对所述感知网络、所述缩放网络进行整体训练;
所述感知网络基于卷积神经网络构建,该网络包含接缝焊接、剪切、插值三个算子;
所述整体损失函数为:
Loss(r*,rp,r)=Lossperception(r*,rp)+λ*Losstarget(r*,r)
Lossperception(r*,rp)=||r*-rp||2
Losstarget(r*,r)=Lossreg(r*,r)+βLosscons(r*)
Lossreg(r*,r)=||r*-r||2
其中,Loss(r*,rp,r)为整体损失函数,Lossperception(r*,rp)为感知网络损失函数,Losstarget(r*,r)为缩放网络损失函数,rp是感知网络输出的缩放参数,r*是缩放网络输出的缩放参数,r是训练样本标注的缩放参数;λ、β分别为预设的第一比例因子、第二比例因子,r*(1)=rsc *、r*(2)=rcr *、r*(3)=rsl *,rsc *、rcr *、rsl *分别为缩放网络输出的接缝焊接、剪切、插值参数;rsc、rcr、rsl分别为训练样本标注的接缝焊接、剪切、插值参数,Rsc为训练样本标注的接缝被裁剪的条数,Rcr为训练样本标注的被裁剪的像素列数,Rsl为训练样本标注的按比例去掉的像素的列数,R为训练样本标注的需要减少的像素总列数。
7.根据权利要求6所述的图片方形化缩放***,其特征在于,还包括one-hot编码模块,配置为在所述感知网络进行分类任务训练前对感知结果的one-hot编码;所述感知结果包括接缝焊接、剪切、插值。
8.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-5所述的图片方形化缩放方法。
9.一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-5所述的图片方形化缩放方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811545250.8A CN109685718B (zh) | 2018-12-17 | 2018-12-17 | 图片方形化缩放方法、***及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811545250.8A CN109685718B (zh) | 2018-12-17 | 2018-12-17 | 图片方形化缩放方法、***及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109685718A CN109685718A (zh) | 2019-04-26 |
CN109685718B true CN109685718B (zh) | 2020-11-10 |
Family
ID=66186226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811545250.8A Active CN109685718B (zh) | 2018-12-17 | 2018-12-17 | 图片方形化缩放方法、***及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109685718B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112581364B (zh) * | 2019-09-30 | 2024-04-09 | 西安诺瓦星云科技股份有限公司 | 图像处理方法及装置、视频处理器 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104992167B (zh) * | 2015-07-28 | 2018-09-11 | 中国科学院自动化研究所 | 一种基于卷积神经网络的人脸检测方法及装置 |
US10218975B2 (en) * | 2015-09-29 | 2019-02-26 | Qualcomm Incorporated | Transform precision manipulation in video coding |
CN106897732B (zh) * | 2017-01-06 | 2019-10-08 | 华中科技大学 | 一种基于连接文字段的自然图片中多方向文本检测方法 |
CN106980641B (zh) * | 2017-02-09 | 2020-01-21 | 上海媒智科技有限公司 | 基于卷积神经网络的无监督哈希快速图片检索***及方法 |
US10657838B2 (en) * | 2017-03-15 | 2020-05-19 | International Business Machines Corporation | System and method to teach and evaluate image grading performance using prior learned expert knowledge base |
CN108230292B (zh) * | 2017-04-11 | 2021-04-02 | 北京市商汤科技开发有限公司 | 物体检测方法和神经网络的训练方法、装置及电子设备 |
CN107862300A (zh) * | 2017-11-29 | 2018-03-30 | 东华大学 | 一种基于卷积神经网络的监控场景下行人属性识别方法 |
CN108399362B (zh) * | 2018-01-24 | 2022-01-07 | 中山大学 | 一种快速行人检测方法及装置 |
CN108376244B (zh) * | 2018-02-02 | 2022-03-25 | 北京大学 | 一种自然场景图片中的文本字体的识别方法 |
CN108460356B (zh) * | 2018-03-13 | 2021-10-29 | 上海海事大学 | 一种基于监控***的人脸图像自动处理*** |
-
2018
- 2018-12-17 CN CN201811545250.8A patent/CN109685718B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109685718A (zh) | 2019-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6862579B2 (ja) | 画像特徴の取得 | |
CN108304435B (zh) | 信息推荐方法、装置、计算机设备及存储介质 | |
CN108140032B (zh) | 用于自动视频概括的设备和方法 | |
Li et al. | Aesthetic quality assessment of consumer photos with faces | |
Gygli et al. | The interestingness of images | |
US8379999B2 (en) | Methods, circuits, devices, apparatuses and systems for providing image composition rules, analysis and improvement | |
CN112800097A (zh) | 基于深度兴趣网络的专题推荐方法及装置 | |
CN107610110B (zh) | 一种全局和局部特征相结合的跨尺度图像质量评价方法 | |
EP3005236A1 (en) | Evaluating image sharpness | |
WO2013044019A1 (en) | Image quality analysis for searches | |
Romero et al. | Using complexity estimates in aesthetic image classification | |
CN107545301B (zh) | 页面展示方法及装置 | |
Vieira et al. | Learning good views through intelligent galleries | |
JP2020522061A (ja) | サンプル重み設定方法及び装置、電子装置 | |
CN111291799A (zh) | 房间窗户分类模型构建方法、房间窗户分类方法及*** | |
CN114821102A (zh) | 密集柑橘数量检测方法、设备、存储介质及装置 | |
CN109685718B (zh) | 图片方形化缩放方法、***及装置 | |
CN112242002A (zh) | 基于深度学习的物体识别和全景漫游方法 | |
CN109063120A (zh) | 一种基于聚类的协同过滤推荐方法和装置 | |
CN111325705A (zh) | 图像处理方法、装置、设备及存储介质 | |
Swanson et al. | Learning visual composition preferences from an annotated corpus generated through gameplay | |
CN110147464B (zh) | 视频推荐方法、装置、电子设备及可读存储介质 | |
JP2007164301A (ja) | 情報処理装置、データ解析方法、プログラム及び情報記憶媒体 | |
JP6367169B2 (ja) | 画像処理装置、画像処理方法、プログラムおよび記録媒体 | |
CN110460770B (zh) | 一种图像处理方法和*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |