CN112017193A - 一种基于视觉显著性和美学分数的图像裁切装置及方法 - Google Patents

一种基于视觉显著性和美学分数的图像裁切装置及方法 Download PDF

Info

Publication number
CN112017193A
CN112017193A CN202010858270.1A CN202010858270A CN112017193A CN 112017193 A CN112017193 A CN 112017193A CN 202010858270 A CN202010858270 A CN 202010858270A CN 112017193 A CN112017193 A CN 112017193A
Authority
CN
China
Prior art keywords
image
frame
cropping
module
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010858270.1A
Other languages
English (en)
Inventor
吕亚奇
熊永春
李云夕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Quwei Science & Technology Co ltd
Original Assignee
Hangzhou Quwei Science & Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Quwei Science & Technology Co ltd filed Critical Hangzhou Quwei Science & Technology Co ltd
Priority to CN202010858270.1A priority Critical patent/CN112017193A/zh
Publication of CN112017193A publication Critical patent/CN112017193A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Image Analysis (AREA)

Abstract

一种基于视觉显著性和美学分数的图像裁切装置及方法,所述装置包括操作模块、显著性检测模块、裁切处理模块、美学质量评价模块以及展示模块;所述显著性检测模块以及美学质量评价模块为深度卷积神经网络;本发明通过设置裁切处理模块,并根据显著目标框以及裁切的宽高比,得到初始裁切框,并依次通过单一的裁切框的宽、高以及中心点x、y坐标变换,不需要遍历显著目标框,加快裁切速度。

Description

一种基于视觉显著性和美学分数的图像裁切装置及方法
技术领域
本发明涉及图像分析领域,特别是涉及一种基于视觉显著性和美学分数的图像裁切装置及方法。
背景技术
随着智能设备的发展,对于智能设备的要求也越来越高,从最初的实现自动化处理,逐步演变为自动、高效处理。其中为了应对对于大量图片的快速处理,设计了种类繁多的图片处理软件,图片处理软件能够对图片进行自动裁切、美化等操作。其中现有的图片裁切方法主要包含三类:
第一类是直接从图像的中心点作为中心开始裁切。该种裁切方法对于目标裁切区域不在图片中心的情况,适用性差,裁切效果不理想。
第二类是基于人脸信息的识别或者传统的显著性算法对图像进行自动裁切。该种算法对于复杂场景图像的识别度低,而且裁切图像进行的过程中需要遍历显著图像才能够输出裁切的结果,速度慢,另一方面如果图像中不存在显著的目标就会裁切失败。
第三类是基于深度学习得到的图像裁切模型,常规的图像裁切模型由于训练样本数量的限制,导致泛化能力差,而且对于图像裁切区域的宽高比不能够任意指定,难以适应任意比例的裁切需求。
上述三种图片裁切方法都包含不足之处,因此急需一种能够灵活适应任意裁切比例图像并且容错率高、泛用性广的图像裁切方法。
发明内容
本发明的目的是解决现有技术的不足,提供一种基于视觉显著性和美学分数的图像裁切装置及方法,高效、快速裁切处理大量图像,使用方便。
一种基于视觉显著性和美学分数的图像裁切装置,包括操作模块、显著性检测模块、裁切处理模块、美学质量评价模块以及展示模块;操作模块与显著性检测模块、裁切处理模块以及展示模块电性连接,操作模块将初始图像信息通过连接线路传输到显著性检测模块,将操作指令通过连接线路传输到裁切处理模块;显著性模块对图像的显著性区域进行识别;裁切处理模块根据图像的显著性区域以及操作指令对图像进行裁切框划分,完成裁切框划分的图像通过连接线路发送到美学质量评价模块;美学质量评价模块经过训练后能够对裁切框内的图像进行评分;美学质量评分最高的图像会根据裁切框进行裁切,得到的裁切图像作为最终裁切图像发送到展示模块;展示模块能够展示最终裁切图像。
进一步的,所述展示模块同时展示操作模块传输的初始图像以及美学质量评价模块传输的最终裁切图像;所述操作模块接收操作人员输入的待裁切的初始图像以及操作指令,操作指令包括裁切的宽高比。
进一步的,所述显著性检测模块以及美学质量评价模块为深度卷积神经网络。
一种基于视觉显著性和美学分数的图像裁切方法,包括如下步骤:
步骤S1:操作模块接收初始图像和裁切的宽高比,并将初始图像发送至显著性检测模块,将裁切的宽高比发送至裁切处理模块;
步骤S2:显著性检测模块接收初始图像进行显著性区域检测,得到带有显著目标框的初始图像,并将带有显著目标框的初始图像发送至裁切处理模块;
步骤S3:裁切处理模块根据显著目标框以及裁切的宽高比得到带有初始裁切框的初始图像,并基于初始裁切框生成带有一组候选裁切框的初始图像;一组候选裁切框中至少包含一个候选裁切框;将每个候选裁切框与初始图像进行结合,并根据候选裁切框进行裁切,得到一组候选裁切图像;将候选裁切图像发送至美学质量评价模块;
步骤S4:美学质量评价模块对每张候选裁切图像进行美学质量分数的评估,将美学质量分数最高的候选裁切图像作为最终裁切图像发送至展示模块;
步骤S5:展示模块接收美学质量评价模块发送的最终裁切图像,并与初始图像同时进行展示;
其中显著性检测模块以及美学质量评价模块需要先经过训练。
进一步的,所述步骤S2中显著目标框标记为bsalient,显著目标框根据式(1)得出:
bsalient=S(Iinput) (1)
其中Iinput表示初始图像的三维矩阵表现形式;S为显著性检测模块经过训练后得到的算子。
进一步的,所述步骤S3中生成候选裁切框,并根据候选裁切框进行裁切的步骤包括:
S31:确定裁切的宽高比rw/h以及显著目标框bsalient
S32:以显著目标框的中心为原点,结合裁切的宽高比rw/h,得到包含显著目标框图像范围的初始裁切框binit
S33:根据得到的初始裁切框binit,生成一组候选裁切框;
S34:将每个候选裁切框与初始图像进行匹配,并进行裁切,得到候选裁切图像。
进一步的,所述S32中为了获得初始裁切框,首先需要定义hsalient,wsalient,xsalient,ysalient分别为显著目标框bsalient的高、宽以及中心点的x坐标和y坐标;其次根据显著目标框bsalient以及裁切的宽高比rw/h计算初始裁切框binit,如式(2)所示:
Figure BDA0002647136440000031
其中hinit,winit,xinit,yinit分别为初始裁切框binit的高、宽以及中心点的x坐标和y坐标;
如果满足winit≥wsalient,则输出初始裁切框binit;否则根据式(3)更新初始裁切框binit的宽高以及中心点数据为:
Figure BDA0002647136440000032
输出初始裁切框binit
进一步的,所述S33中,生成一组候选裁切框,生成步骤包括:
S331:将初始裁切框的binit在设定的高变换比例范围内进行变换,得到n1个裁切框;其中每个裁切框的高变换比例根据高变换比例范围与(n1-1)的比值获得;
S332:将步骤S311获得的裁切框的winit在设定的宽变换比例范围内进行变换,得到n1*n2个裁切框;其中每个裁切框的宽变换比例根据宽变换比例范围与(n2-1)的比值获得;
S333:将步骤S332获得的裁切框的xinit在设定的中心点变换比例范围内进行变换,得到n1*n2*n3个裁切框;其中每个裁切框的中心点变换比例根据中心点变换比例范围与(n3-1)的比值获得;
S334:将步骤S333获得的裁切框的yinit在设定的中心点变换比例范围内进行变换,得到n1*n2*n3*n4个裁切框;其中每个裁切框的中心点变换比例根据中心点变换比例范围与(n4-1)的比值获得;
S335:从步骤S334获得的n1*n2*n3*n4个裁切框中随机挑选n个裁切框作为候选裁切框。
进一步的,所述步骤S4中将候选裁切图像输入美学质量评价模块,得到美学质量分数qk,如式(4)所示:
Figure BDA0002647136440000041
其中
Figure BDA0002647136440000042
表示候选裁切图像的三维形式,k∈1,...,n,n表示候选裁切框的数量;A为美学质量评价模块经过训练后得到的算子。
进一步的,所述S33中,需要将hinit,winit,xinit,yinit中的每一个参数依次在设定的比例范围内随机变换一次获得一个候选裁切框,并重复n次获得n个候选裁切框。
本发明的有益效果为:
通过设置裁切处理模块,并根据显著目标框以及裁切的宽高比,得到初始裁切框,并通过独立地、依次地变换裁切框的宽、高以及中心点x、y坐标,不需要遍历显著目标框,加快裁切速度;
通过设置显著性检测模块、美学质量评价模块,并对其进行训练,能够自动判断显著目标框,并对候选裁切图像进行评分和挑选,算法鲁棒性好;
本发明中的展示模块能够将初始图像和最终裁切图像同时输出,方便比对,并且能够展示图像的中间处理过程,能够对处理过程进行校正检验;
本发明通过对不同阶段的图像进行标记,便于区分目前图像正处的阶段,通过检查图像的裁切过程,能够发现错误图像所处的阶段,并及时校正相应模块。
附图说明
图1为本发明实施例一的流程框图;
图2为本发明实施例一的初始图像的示意图:
图3为本发明实施例一的带有显著目标框的初始图像示意图;
图4为本发明实施例一的带有初始裁切框的初始裁剪图像示意图;
图5为本发明实施例一的带有一组候选裁切框的初始图像示意图;
图6为本发明实施例一的带有候选裁切框的初始图像示意图;
图7为本发明实施例一的最终裁切图像。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
实施例一:
一种基于视觉显著性和美学分数的图像裁切装置,包括操作模块、显著性检测模块、裁切处理模块、美学质量评价模块以及展示模块。
所述操作模块能够接收操作人员输入的待裁切的初始图像以及操作指令,操作指令包括裁切的宽高比。操作模块与显著性检测模块、裁切处理模块以及展示模块电性连接,操作模块能够将接收的初始图像信息通过连接线路传输到显著性检测模块,将操作指令通过连接线路传输到裁切处理模块。在本实施例中显著性检测模块为深度卷积神经网络,显著性检测模块与操作模块、裁切处理模块以及展示模块电性连接。其中显著性模块经过训练后能够对图像的显著性区域进行识别,其中理想的显著性区域表示包含显著性目标的最小框图区域,框图为正立的框图而非倾斜的框图。裁切处理模块根据图像的显著性区域以及操作指令对图像进行裁切框划分,完成裁切框划分的图像根据裁切框进行裁切得到候选裁切图像,其中候选裁切图像通过连接线路发送到美学质量评价模块。裁切处理模块与显著性检测模块、美学质量评价模块以及展示模块电性连接。美学质量评价模块为深度卷积神经网络,美学质量评价模块经过训练后能够对候选裁切图像进行评分,其中美学质量评分最高候选裁切图像作为最终裁切图像发送到展示模块。美学质量评价模块与裁切处理模块以及展示模块电性连接。展示模块能够展示最终裁切图像,在本实施例中展示模块还能够同时展示操作模块输入的初始图像作为比对;展示模块还能够显示图像的中间处理过程,便于回溯和检查。
如图1-7所示,一种凭借上述图像裁切装置的基于视觉显著性和美学分数的图像裁切方法,包括如下步骤:
步骤S1:操作模块接收初始图像和裁切的宽高比,并将初始图像发送至显著性检测模块,将裁切的宽高比发送至裁切处理模块;
步骤S2:显著性检测模块接收初始图像进行显著性区域检测,得到带有显著目标框的初始图像,并将带有显著目标框的初始图像发送至裁切处理模块;
步骤S3:裁切处理模块根据显著目标框以及裁切的宽高比得到带有初始裁切框的初始图像,并基于初始裁切框生成带有一组候选裁切框的初始图像;一组候选裁切框中至少包含一个候选裁切框;将每个候选裁切框与初始图像进行结合,并根据候选裁切框进行裁切,得到一组候选裁切图像;将候选裁切图像发送至美学质量评价模块;
步骤S4:美学质量评价模块对每张候选裁切图像进行美学质量分数的评估,将美学质量分数最高的候选裁切图像作为最终裁切图像发送至展示模块;
步骤S5:展示模块接收美学质量评价模块发送的最终裁切图像,并与初始图像同时进行展示。
其中显著性检测模块以及美学质量评价模块需要先经过训练。
如图3所示,所述步骤S2中显著目标框标记为bsalient,显著目标框根据式(1)得出:
bsalient=S(Iinput) (1)
其中Iinput表示初始图像的三维矩阵表现形式;S为显著性检测模块经过训练后得到的算子。在本实施例中显著性检测模块在一个私有的数据集上进行训练,数据集包括20000张已经标明显著目标框的彩色图像,其中显著性检测模块的训练为常规的基于深度学习的目标检测训练。
如图4、5所示,所述步骤S3对图像进行裁切,并根据候选裁切框进行裁切的步骤包括:
S31:确定裁切的宽高比rw/h以及显著目标框bsalient
S32:以显著目标框的中心为原点,结合裁切的宽高比rw/h,得到包含显著目标框图像范围的初始裁切框binit
S33:根据得到的初始裁切框binit,生成一组候选裁切框;
S34:将每个候选裁切框与初始图像进行匹配,并进行裁切,得到候选裁切图像。
其中S32中得到初始裁切框从高或者宽的长度方向上恰好包含显著目标框,为了获得初始裁切框首先需要定义hsalient,wsalient,xsalient,ysalient分别为显著目标框bsalient的高、宽以及中心点的x坐标和y坐标;其次根据显著目标框bsalient以及裁切的宽高比rw/h计算初始裁切框binit,如式(2)所示:
Figure BDA0002647136440000071
其中hinit,winit,xinit,yinit分别为初始裁切框binit的高、宽以及中心点的x坐标和y坐标。
如果满足winit≥wsalient,则输出初始裁切框binit;否则根据式(3)更新初始裁切框binit的宽高以及中心点数据为:
Figure BDA0002647136440000072
输出初始裁切框binit
需要说明的是在一些其他实施方式中也能够先根据式(3)得到初始裁切框的数据,如果满足hinit≥hsalient,则输出初始裁切框binit;否则再根据式(2)更新初始裁切框数据并输出。
其中S33中,生成一组候选裁切框,生成步骤包括:
S331:将初始裁切框的binit在设定的高变换比例范围内进行变换,得到n1个裁切框;其中每个裁切框的高变换比例根据高变换比例范围与(n1-1)的比值获得;
S332:将步骤S311获得的裁切框的winit在设定的宽变换比例范围内进行变换,得到n1*n2个裁切框;其中每个裁切框的宽变换比例根据宽变换比例范围与(n2-1)的比值获得;
S333:将步骤S332获得的裁切框的xinit在设定的中心点变换比例范围内进行变换,得到n1*n2*n3个裁切框;其中每个裁切框的中心点变换比例根据中心点变换比例范围与(n3-1)的比值获得;
S334:将步骤S333获得的裁切框的yinit在设定的中心点变换比例范围内进行变换,得到n1*n2*n3*n4个裁切框;其中每个裁切框的中心点变换比例根据中心点变换比例范围与(n4-1)的比值获得;
S335:从步骤S334获得的n1*n2*n3*n4个裁切框中随机挑选n个裁切框作为候选裁切框。
在本实施例中高变换比例范围、宽变换比例范围以及中心点变换比例范围均为[-20%,20%],并且n1、n2、n3、n4均为5,也就意味着在步骤S334中得到5*5*5*5=625个裁切框,从625个裁切框中随机选取20个裁切框作为本实施例的候选裁切框。在本实施例中n1的值为5,以S331中的候选裁切框为例:
Figure BDA0002647136440000081
得到S331中候选裁切框的高变换比例分别为-20%、-10%、0、10%以及20%,通过步骤S331的变换,能够获得五个裁切框,五个裁切框的高度分别为初始裁切框高度的80%、90%、1、110%以及120%。
需要说明的是在生成候选裁切框的时候,也可以将hinit,winit,xinit,yinit中的每一个参数依次在设定的比例范围内随机变换一次进而获得一个候选裁切框,并重复n次获得n个候选裁切框。比如假定hinit,winit,xinit,yinit的变换比例范围均为[-20%,20%],首先需要将初始裁切框于高度[80%,120%]的范围内随机变换一次,随后再于宽度[80%,120%]的范围内随机变换一次,随后再于中心点的x坐标[80%,120%]的范围内随机变换一次,最后再于中心点的y坐标[80%,120%]的范围内随机变换一次得到一个候选裁切框;将上述随机变换重复20次,就能够获得20个随机的候选裁切框。
在步骤S34中,候选裁切框能够超出初始图像的边界,在裁切过程中对于超出初始图像边界的部分采用白色像素进行填充。
如图6所示,所述步骤S4中将候选裁切图像输入美学质量评价模块,得到美学质量分数qk,如式(4)所示:
Figure BDA0002647136440000091
其中
Figure BDA0002647136440000092
表示候选裁切图像的三维形式,k∈1,...,n,在本实施例中n为20,n表示候选裁切框的数量;A为美学质量评价模块经过训练后得到的算子。在本实施例中美学质量评价模块在一个私有的数据集上进行训练,数据集包括q张已经进行人工打分的图像,其中美学质量评估模块的训练为常规的基于深度学习的目标检测训练。
图像在显著性检测模块、裁切处理模块以及美学质量评价模块中处理时也会在展示模块进行展示,并对不同阶段的图像进行标记,在本实施例中为颜色结合虚实线进行标记,其中显著目标框为红色实线,初始裁切框为绿色实线,候选裁切框表示为浅色虚线框,美学质量分数最高的候选裁切框表示为黄色实线。在一些其他实施方式中也能够采用其他方式对不同阶段的图像进行标记,比如文字标记。
在实施过程中首先训练显著性检测模块以及美学质量评价模块,训练完成后在操作模块输入待裁切的初始图像,经过显著性检测模块的检测以及裁切处理模块的裁切得到候选裁切框,最后由美学质量评价模块对候选裁切框进行打分,将最高分的候选裁切框中的图像作为最终裁切图像输出到展示模块,实现图像的自动裁切;结合裁切处理模块生成候选裁切框的方式能够实现快速、大量的处理图像。
以上描述仅是本发明的一个具体实例,不构成对本发明的任何限制。显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims (10)

1.一种基于视觉显著性和美学分数的图像裁切装置,其特征在于,包括操作模块、显著性检测模块、裁切处理模块、美学质量评价模块以及展示模块;操作模块与显著性检测模块、裁切处理模块以及展示模块电性连接,操作模块将初始图像信息通过连接线路传输到显著性检测模块,将操作指令通过连接线路传输到裁切处理模块;显著性模块对图像的显著性区域进行识别,显著性区域表示包含显著目标的最小框图区域;裁切处理模块根据图像的显著性区域以及操作指令对图像进行裁切框划分,完成裁切框划分的图像通过连接线路发送到美学质量评价模块;美学质量评价模块经过训练后能够对裁切框内的图像进行评分;美学质量评分最高的图像会根据裁切框进行裁切,得到的裁切图像作为最终裁切图像发送到展示模块;展示模块能够展示最终裁切图像。
2.根据权利要求1所述的一种基于视觉显著性和美学分数的图像裁切装置,其特征在于,所述展示模块同时展示操作模块传输的初始图像以及美学质量评价模块传输的最终裁切图像;所述操作模块接收操作人员输入的待裁切的初始图像以及操作指令,操作指令包括裁切的宽高比。
3.根据权利要求1所述的一种基于视觉显著性和美学分数的图像裁切装置,其特征在于,所述显著性检测模块以及美学质量评价模块为深度卷积神经网络。
4.一种基于视觉显著性和美学分数的图像裁切方法,其特征在于,包括如下步骤:
步骤S1:操作模块接收初始图像和裁切的宽高比,并将初始图像发送至显著性检测模块,将裁切的宽高比发送至裁切处理模块;
步骤S2:显著性检测模块接收初始图像进行显著性区域检测,得到带有显著目标框的初始图像,并将带有显著目标框的初始图像发送至裁切处理模块;
步骤S3:裁切处理模块根据显著目标框以及裁切的宽高比得到带有初始裁切框的初始图像,并基于初始裁切框生成带有一组候选裁切框的初始图像;一组候选裁切框中至少包含一个候选裁切框;将每个候选裁切框与初始图像进行结合,并根据候选裁切框进行裁切,得到一组候选裁切图像;将候选裁切图像发送至美学质量评价模块;
步骤S4:美学质量评价模块对每张候选裁切图像进行美学质量分数的评估,将美学质量分数最高的候选裁切图像作为最终裁切图像发送至展示模块;
步骤S5:展示模块接收美学质量评价模块发送的最终裁切图像,并与初始图像同时进行展示;
其中显著性检测模块以及美学质量评价模块需要先经过训练。
5.根据权利要求4所述的一种基于视觉显著性和美学分数的图像裁切方法,其特征在于,所述步骤S2中显著目标框标记为bsalient,显著目标框根据式(1)得出:
bsalient=S(Iinput) (1)
其中Iinput表示初始图像的三维矩阵表现形式;S为显著性检测模块经过训练后得到的算子。
6.根据权利要求4所述的一种基于视觉显著性和美学分数的图像裁切方法,其特征在于,所述步骤S3生成候选裁切框,并根据候选裁切框进行裁切的步骤包括:
S31:确定裁切的宽高比rw/h以及显著目标框bsalient
S32:以显著目标框的中心为原点,结合裁切的宽高比rw/h,得到包含显著目标框图像范围的初始裁切框binit
S33:根据得到的初始裁切框binit,生成一组候选裁切框;
S34:将每个候选裁切框与初始图像进行匹配,并进行裁切,得到候选裁切图像。
7.根据权利要求6所述的一种基于视觉显著性和美学分数的图像裁切方法,其特征在于,所述S32中为了获得初始裁切框,首先需要定义hsalient,wsalient,xsalient,ysalient分别为显著目标框bsalient的高、宽以及中心点的x坐标和y坐标;其次根据显著目标框bsalient以及裁切的宽高比rw/h计算初始裁切框binit,如式(2)所示:
Figure FDA0002647136430000021
其中hinit,winit,xinit,yinit分别为初始裁切框binit的高、宽以及中心点的x坐标和y坐标;
如果满足winit≥wsalient,则输出初始裁切框binit;否则根据式(3)更新初始裁切框binit的宽高以及中心点数据为:
Figure FDA0002647136430000031
输出初始裁切框binit
8.根据权利要求4所述的一种基于视觉显著性和美学分数的图像裁切方法,其特征在于,所述S33中,生成一组候选裁切框,生成步骤包括:
S331:将初始裁切框的binit在设定的高变换比例范围内进行变换,得到n1个裁切框;其中每个裁切框的高变换比例根据高变换比例范围与(n1-1)的比值获得;
S332:将步骤S311获得的裁切框的winit在设定的宽变换比例范围内进行变换,得到n1*n2个裁切框;其中每个裁切框的宽变换比例根据宽变换比例范围与(n2-1)的比值获得;
S333:将步骤S332获得的裁切框的xinit在设定的中心点变换比例范围内进行变换,得到n1*n2*n3个裁切框;其中每个裁切框的中心点变换比例根据中心点变换比例范围与(n3-1)的比值获得;
S334:将步骤S333获得的裁切框的yinit在设定的中心点变换比例范围内进行变换,得到n1*n2*n3*n4个裁切框;其中每个裁切框的中心点变换比例根据中心点变换比例范围与(n4-1)的比值获得;
S335:从步骤S334获得的n1*n2*n3*n4个裁切框中随机挑选n个裁切框作为候选裁切框。
9.根据权利要求8所述的一种基于视觉显著性和美学分数的图像裁切方法,其特征在于,所述步骤S4中将候选裁切图像输入美学质量评价模块,得到美学质量分数qk,如式(4)所示:
Figure FDA0002647136430000032
其中
Figure FDA0002647136430000033
表示候选裁切图像的三维形式,k∈1,...,n,n表示候选裁切框的数量;A为美学质量评价模块经过训练后得到的算子。
10.根据权利要求4所述的一种基于视觉显著性和美学分数的图像裁切方法,其特征在于,所述S33中,需要将hinit,winit,xinit,yinit中的每一个参数依次在设定的比例范围内随机变换一次获得一个候选裁切框,并重复n次获得n个候选裁切框。
CN202010858270.1A 2020-08-24 2020-08-24 一种基于视觉显著性和美学分数的图像裁切装置及方法 Pending CN112017193A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010858270.1A CN112017193A (zh) 2020-08-24 2020-08-24 一种基于视觉显著性和美学分数的图像裁切装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010858270.1A CN112017193A (zh) 2020-08-24 2020-08-24 一种基于视觉显著性和美学分数的图像裁切装置及方法

Publications (1)

Publication Number Publication Date
CN112017193A true CN112017193A (zh) 2020-12-01

Family

ID=73505712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010858270.1A Pending CN112017193A (zh) 2020-08-24 2020-08-24 一种基于视觉显著性和美学分数的图像裁切装置及方法

Country Status (1)

Country Link
CN (1) CN112017193A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115082673A (zh) * 2022-06-14 2022-09-20 阿里巴巴(中国)有限公司 图像处理方法、装置、设备和存储介质
WO2022227752A1 (zh) * 2021-04-26 2022-11-03 荣耀终端有限公司 拍照方法及装置
WO2023075936A1 (en) * 2021-10-29 2023-05-04 Microsoft Technology Licensing, Llc. Ai-based aesthetical image modification
CN116543004A (zh) * 2023-07-05 2023-08-04 荣耀终端有限公司 图像裁切方法、装置、终端设备及计算机可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040004626A1 (en) * 2002-07-05 2004-01-08 Takashi Ida Image editing method and image editing apparatus
CN103440304A (zh) * 2013-08-22 2013-12-11 宇龙计算机通信科技(深圳)有限公司 一种图片存储方法及存储装置
CN104247392A (zh) * 2012-03-06 2014-12-24 苹果公司 用于媒体编辑应用程序的扇形用户界面控件
CN105956999A (zh) * 2016-04-28 2016-09-21 努比亚技术有限公司 缩略图生成装置和方法
CN106681606A (zh) * 2016-12-06 2017-05-17 宇龙计算机通信科技(深圳)有限公司 一种图片处理方法及终端
CN107545576A (zh) * 2017-07-31 2018-01-05 华南农业大学 基于构图规则的图像编辑方法
CN109146892A (zh) * 2018-07-23 2019-01-04 北京邮电大学 一种基于美学的图像裁剪方法及装置
CN110349082A (zh) * 2019-06-28 2019-10-18 腾讯科技(深圳)有限公司 图像区域的裁剪方法和装置、存储介质及电子装置
CN110909724A (zh) * 2019-10-08 2020-03-24 华北电力大学 一种多目标图像的缩略图生成方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040004626A1 (en) * 2002-07-05 2004-01-08 Takashi Ida Image editing method and image editing apparatus
CN104247392A (zh) * 2012-03-06 2014-12-24 苹果公司 用于媒体编辑应用程序的扇形用户界面控件
CN103440304A (zh) * 2013-08-22 2013-12-11 宇龙计算机通信科技(深圳)有限公司 一种图片存储方法及存储装置
CN105956999A (zh) * 2016-04-28 2016-09-21 努比亚技术有限公司 缩略图生成装置和方法
CN106681606A (zh) * 2016-12-06 2017-05-17 宇龙计算机通信科技(深圳)有限公司 一种图片处理方法及终端
CN107545576A (zh) * 2017-07-31 2018-01-05 华南农业大学 基于构图规则的图像编辑方法
CN109146892A (zh) * 2018-07-23 2019-01-04 北京邮电大学 一种基于美学的图像裁剪方法及装置
CN110349082A (zh) * 2019-06-28 2019-10-18 腾讯科技(深圳)有限公司 图像区域的裁剪方法和装置、存储介质及电子装置
CN110909724A (zh) * 2019-10-08 2020-03-24 华北电力大学 一种多目标图像的缩略图生成方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022227752A1 (zh) * 2021-04-26 2022-11-03 荣耀终端有限公司 拍照方法及装置
WO2023075936A1 (en) * 2021-10-29 2023-05-04 Microsoft Technology Licensing, Llc. Ai-based aesthetical image modification
US11961261B2 (en) 2021-10-29 2024-04-16 Microsoft Technology Licensing, Llc AI-based aesthetical image modification
CN115082673A (zh) * 2022-06-14 2022-09-20 阿里巴巴(中国)有限公司 图像处理方法、装置、设备和存储介质
CN115082673B (zh) * 2022-06-14 2024-06-25 阿里巴巴(中国)有限公司 图像处理方法、装置、设备和存储介质
CN116543004A (zh) * 2023-07-05 2023-08-04 荣耀终端有限公司 图像裁切方法、装置、终端设备及计算机可读存储介质
CN116543004B (zh) * 2023-07-05 2024-04-19 荣耀终端有限公司 图像裁切方法、装置、终端设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN112017193A (zh) 一种基于视觉显著性和美学分数的图像裁切装置及方法
CN109583483B (zh) 一种基于卷积神经网络的目标检测方法和***
CN107408211A (zh) 用于物体的再识别的方法
CN112101138B (zh) 基于深度学习的桥梁拉索表面缺陷实时识别***及方法
US20110018975A1 (en) Stereoscopic image generating method and system
CN107622247A (zh) 一种快递运单的定位与提取方法
CN111738133A (zh) 模型训练方法、目标检测方法、装置、电子设备及可读存储介质
CN115810197A (zh) 一种多模态电力表单识别方法及装置
CN116824347A (zh) 一种基于深度学习的道路裂纹检测方法
CN116416628A (zh) 基于手写字体识别的方法及识别***
CN109583341B (zh) 对包含人像的图像的多人骨骼关键点检测方法及装置
US20240161461A1 (en) Object detection method, object detection apparatus, and object detection system
CN116311536B (zh) 一种视频动作评分方法、计算机可读存储介质及***
CN110135274B (zh) 一种基于人脸识别的人流量统计方法
CN110400333A (zh) 教练式双目立体视觉装置及高精度立体视觉图像获取方法
CN114782936B (zh) 一种基于改进yolov5s网络的行为检测方法
CN107067368A (zh) 基于影像变形的街景影像拼接方法及***
CN116188763A (zh) 一种基于YOLOv5的纸箱识别定位及放置角度的测量方法
CN112991455B (zh) 一种点云与图片融合标注的方法及***
JP2981382B2 (ja) パターンマッチング方法
CN114821493A (zh) 基于计算机视觉、ais和雷达的船舶信息显示方法及***
JPH0528254A (ja) 図画データの自動ベクトル化処理方法、及びそれに使用する装置
CN111768333A (zh) 标识去除方法、装置、设备及存储介质
CN116580277B (zh) 一种基于深度学习的底部电子识别标签丢失图像识别方法
WO2022239671A1 (ja) 画像処理方法、コンピュータプログラム、画像処理装置、および、訓練方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination