CN112017193A

CN112017193A - 一种基于视觉显著性和美学分数的图像裁切装置及方法

Info

Publication number: CN112017193A
Application number: CN202010858270.1A
Authority: CN
Inventors: 吕亚奇; 熊永春; 李云夕
Original assignee: Hangzhou Quwei Science & Technology Co ltd
Current assignee: Hangzhou Quwei Science & Technology Co ltd
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2020-12-01

Abstract

一种基于视觉显著性和美学分数的图像裁切装置及方法，所述装置包括操作模块、显著性检测模块、裁切处理模块、美学质量评价模块以及展示模块；所述显著性检测模块以及美学质量评价模块为深度卷积神经网络；本发明通过设置裁切处理模块，并根据显著目标框以及裁切的宽高比，得到初始裁切框，并依次通过单一的裁切框的宽、高以及中心点x、y坐标变换，不需要遍历显著目标框，加快裁切速度。

Description

一种基于视觉显著性和美学分数的图像裁切装置及方法

技术领域

本发明涉及图像分析领域，特别是涉及一种基于视觉显著性和美学分数的图像裁切装置及方法。

背景技术

随着智能设备的发展，对于智能设备的要求也越来越高，从最初的实现自动化处理，逐步演变为自动、高效处理。其中为了应对对于大量图片的快速处理，设计了种类繁多的图片处理软件，图片处理软件能够对图片进行自动裁切、美化等操作。其中现有的图片裁切方法主要包含三类：

第一类是直接从图像的中心点作为中心开始裁切。该种裁切方法对于目标裁切区域不在图片中心的情况，适用性差，裁切效果不理想。

第二类是基于人脸信息的识别或者传统的显著性算法对图像进行自动裁切。该种算法对于复杂场景图像的识别度低，而且裁切图像进行的过程中需要遍历显著图像才能够输出裁切的结果，速度慢，另一方面如果图像中不存在显著的目标就会裁切失败。

第三类是基于深度学习得到的图像裁切模型，常规的图像裁切模型由于训练样本数量的限制，导致泛化能力差，而且对于图像裁切区域的宽高比不能够任意指定，难以适应任意比例的裁切需求。

上述三种图片裁切方法都包含不足之处，因此急需一种能够灵活适应任意裁切比例图像并且容错率高、泛用性广的图像裁切方法。

发明内容

本发明的目的是解决现有技术的不足，提供一种基于视觉显著性和美学分数的图像裁切装置及方法，高效、快速裁切处理大量图像，使用方便。

一种基于视觉显著性和美学分数的图像裁切装置，包括操作模块、显著性检测模块、裁切处理模块、美学质量评价模块以及展示模块；操作模块与显著性检测模块、裁切处理模块以及展示模块电性连接，操作模块将初始图像信息通过连接线路传输到显著性检测模块，将操作指令通过连接线路传输到裁切处理模块；显著性模块对图像的显著性区域进行识别；裁切处理模块根据图像的显著性区域以及操作指令对图像进行裁切框划分，完成裁切框划分的图像通过连接线路发送到美学质量评价模块；美学质量评价模块经过训练后能够对裁切框内的图像进行评分；美学质量评分最高的图像会根据裁切框进行裁切，得到的裁切图像作为最终裁切图像发送到展示模块；展示模块能够展示最终裁切图像。

进一步的，所述展示模块同时展示操作模块传输的初始图像以及美学质量评价模块传输的最终裁切图像；所述操作模块接收操作人员输入的待裁切的初始图像以及操作指令，操作指令包括裁切的宽高比。

进一步的，所述显著性检测模块以及美学质量评价模块为深度卷积神经网络。

一种基于视觉显著性和美学分数的图像裁切方法，包括如下步骤：

步骤S1：操作模块接收初始图像和裁切的宽高比，并将初始图像发送至显著性检测模块，将裁切的宽高比发送至裁切处理模块；

步骤S2：显著性检测模块接收初始图像进行显著性区域检测，得到带有显著目标框的初始图像，并将带有显著目标框的初始图像发送至裁切处理模块；

步骤S3：裁切处理模块根据显著目标框以及裁切的宽高比得到带有初始裁切框的初始图像，并基于初始裁切框生成带有一组候选裁切框的初始图像；一组候选裁切框中至少包含一个候选裁切框；将每个候选裁切框与初始图像进行结合，并根据候选裁切框进行裁切，得到一组候选裁切图像；将候选裁切图像发送至美学质量评价模块；

步骤S4：美学质量评价模块对每张候选裁切图像进行美学质量分数的评估，将美学质量分数最高的候选裁切图像作为最终裁切图像发送至展示模块；

步骤S5：展示模块接收美学质量评价模块发送的最终裁切图像，并与初始图像同时进行展示；

其中显著性检测模块以及美学质量评价模块需要先经过训练。

进一步的，所述步骤S2中显著目标框标记为b_salient，显著目标框根据式(1)得出：

b_salient＝S(I_input) (1)

其中I_input表示初始图像的三维矩阵表现形式；S为显著性检测模块经过训练后得到的算子。

进一步的，所述步骤S3中生成候选裁切框，并根据候选裁切框进行裁切的步骤包括：

S31：确定裁切的宽高比r_w/h以及显著目标框b_salient；

S32：以显著目标框的中心为原点，结合裁切的宽高比r_w/h，得到包含显著目标框图像范围的初始裁切框b_init；

S33：根据得到的初始裁切框b_init，生成一组候选裁切框；

S34：将每个候选裁切框与初始图像进行匹配，并进行裁切，得到候选裁切图像。

进一步的，所述S32中为了获得初始裁切框，首先需要定义h_salient，w_salient，x_salient，y_salient分别为显著目标框b_salient的高、宽以及中心点的x坐标和y坐标；其次根据显著目标框b_salient以及裁切的宽高比r_w/h计算初始裁切框b_init，如式(2)所示：

其中h_init，w_init，x_init，y_init分别为初始裁切框b_init的高、宽以及中心点的x坐标和y坐标；

如果满足w_init≥w_salient，则输出初始裁切框b_init；否则根据式(3)更新初始裁切框b_init的宽高以及中心点数据为：

输出初始裁切框b_init。

进一步的，所述S33中，生成一组候选裁切框，生成步骤包括：

S331：将初始裁切框的b_init在设定的高变换比例范围内进行变换，得到n1个裁切框；其中每个裁切框的高变换比例根据高变换比例范围与(n1-1)的比值获得；

S332：将步骤S311获得的裁切框的w_init在设定的宽变换比例范围内进行变换，得到n1*n2个裁切框；其中每个裁切框的宽变换比例根据宽变换比例范围与(n2-1)的比值获得；

S333：将步骤S332获得的裁切框的x_init在设定的中心点变换比例范围内进行变换，得到n1*n2*n3个裁切框；其中每个裁切框的中心点变换比例根据中心点变换比例范围与(n3-1)的比值获得；

S334：将步骤S333获得的裁切框的y_init在设定的中心点变换比例范围内进行变换，得到n1*n2*n3*n4个裁切框；其中每个裁切框的中心点变换比例根据中心点变换比例范围与(n4-1)的比值获得；

S335：从步骤S334获得的n1*n2*n3*n4个裁切框中随机挑选n个裁切框作为候选裁切框。

进一步的，所述步骤S4中将候选裁切图像输入美学质量评价模块，得到美学质量分数q_k，如式(4)所示：

其中

表示候选裁切图像的三维形式，k∈1，...，n，n表示候选裁切框的数量；A为美学质量评价模块经过训练后得到的算子。

进一步的，所述S33中，需要将h_init，w_init，x_init，y_init中的每一个参数依次在设定的比例范围内随机变换一次获得一个候选裁切框，并重复n次获得n个候选裁切框。

本发明的有益效果为：

通过设置裁切处理模块，并根据显著目标框以及裁切的宽高比，得到初始裁切框，并通过独立地、依次地变换裁切框的宽、高以及中心点x、y坐标，不需要遍历显著目标框，加快裁切速度；

通过设置显著性检测模块、美学质量评价模块，并对其进行训练，能够自动判断显著目标框，并对候选裁切图像进行评分和挑选，算法鲁棒性好；

本发明中的展示模块能够将初始图像和最终裁切图像同时输出，方便比对，并且能够展示图像的中间处理过程，能够对处理过程进行校正检验；

本发明通过对不同阶段的图像进行标记，便于区分目前图像正处的阶段，通过检查图像的裁切过程，能够发现错误图像所处的阶段，并及时校正相应模块。

附图说明

图1为本发明实施例一的流程框图；

图2为本发明实施例一的初始图像的示意图：

图3为本发明实施例一的带有显著目标框的初始图像示意图；

图4为本发明实施例一的带有初始裁切框的初始裁剪图像示意图；

图5为本发明实施例一的带有一组候选裁切框的初始图像示意图；

图6为本发明实施例一的带有候选裁切框的初始图像示意图；

图7为本发明实施例一的最终裁切图像。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

实施例一：

一种基于视觉显著性和美学分数的图像裁切装置，包括操作模块、显著性检测模块、裁切处理模块、美学质量评价模块以及展示模块。

所述操作模块能够接收操作人员输入的待裁切的初始图像以及操作指令，操作指令包括裁切的宽高比。操作模块与显著性检测模块、裁切处理模块以及展示模块电性连接，操作模块能够将接收的初始图像信息通过连接线路传输到显著性检测模块，将操作指令通过连接线路传输到裁切处理模块。在本实施例中显著性检测模块为深度卷积神经网络，显著性检测模块与操作模块、裁切处理模块以及展示模块电性连接。其中显著性模块经过训练后能够对图像的显著性区域进行识别，其中理想的显著性区域表示包含显著性目标的最小框图区域，框图为正立的框图而非倾斜的框图。裁切处理模块根据图像的显著性区域以及操作指令对图像进行裁切框划分，完成裁切框划分的图像根据裁切框进行裁切得到候选裁切图像，其中候选裁切图像通过连接线路发送到美学质量评价模块。裁切处理模块与显著性检测模块、美学质量评价模块以及展示模块电性连接。美学质量评价模块为深度卷积神经网络，美学质量评价模块经过训练后能够对候选裁切图像进行评分，其中美学质量评分最高候选裁切图像作为最终裁切图像发送到展示模块。美学质量评价模块与裁切处理模块以及展示模块电性连接。展示模块能够展示最终裁切图像，在本实施例中展示模块还能够同时展示操作模块输入的初始图像作为比对；展示模块还能够显示图像的中间处理过程，便于回溯和检查。

如图1-7所示，一种凭借上述图像裁切装置的基于视觉显著性和美学分数的图像裁切方法，包括如下步骤：

步骤S5：展示模块接收美学质量评价模块发送的最终裁切图像，并与初始图像同时进行展示。

如图3所示，所述步骤S2中显著目标框标记为b_salient，显著目标框根据式(1)得出：

b_salient＝S(I_input) (1)

其中I_input表示初始图像的三维矩阵表现形式；S为显著性检测模块经过训练后得到的算子。在本实施例中显著性检测模块在一个私有的数据集上进行训练，数据集包括20000张已经标明显著目标框的彩色图像，其中显著性检测模块的训练为常规的基于深度学习的目标检测训练。

如图4、5所示，所述步骤S3对图像进行裁切，并根据候选裁切框进行裁切的步骤包括：

S31：确定裁切的宽高比r_w/h以及显著目标框b_salient；

S33：根据得到的初始裁切框b_init，生成一组候选裁切框；

其中S32中得到初始裁切框从高或者宽的长度方向上恰好包含显著目标框，为了获得初始裁切框首先需要定义h_salient，w_salient，x_salient，y_salient分别为显著目标框b_salient的高、宽以及中心点的x坐标和y坐标；其次根据显著目标框b_salient以及裁切的宽高比r_w/h计算初始裁切框b_init，如式(2)所示：

其中h_init，w_init，x_init，y_init分别为初始裁切框b_init的高、宽以及中心点的x坐标和y坐标。

输出初始裁切框b_init。

需要说明的是在一些其他实施方式中也能够先根据式(3)得到初始裁切框的数据，如果满足h_init≥h_salient，则输出初始裁切框b_init；否则再根据式(2)更新初始裁切框数据并输出。

其中S33中，生成一组候选裁切框，生成步骤包括：

在本实施例中高变换比例范围、宽变换比例范围以及中心点变换比例范围均为[-20％，20％]，并且n1、n2、n3、n4均为5，也就意味着在步骤S334中得到5*5*5*5＝625个裁切框，从625个裁切框中随机选取20个裁切框作为本实施例的候选裁切框。在本实施例中n1的值为5，以S331中的候选裁切框为例：

得到S331中候选裁切框的高变换比例分别为-20％、-10％、0、10％以及20％，通过步骤S331的变换，能够获得五个裁切框，五个裁切框的高度分别为初始裁切框高度的80％、90％、1、110％以及120％。

需要说明的是在生成候选裁切框的时候，也可以将h_init，w_init，x_init，y_init中的每一个参数依次在设定的比例范围内随机变换一次进而获得一个候选裁切框，并重复n次获得n个候选裁切框。比如假定h_init，w_init，x_init，y_init的变换比例范围均为[-20％，20％]，首先需要将初始裁切框于高度[80％，120％]的范围内随机变换一次，随后再于宽度[80％，120％]的范围内随机变换一次，随后再于中心点的x坐标[80％，120％]的范围内随机变换一次，最后再于中心点的y坐标[80％，120％]的范围内随机变换一次得到一个候选裁切框；将上述随机变换重复20次，就能够获得20个随机的候选裁切框。

在步骤S34中，候选裁切框能够超出初始图像的边界，在裁切过程中对于超出初始图像边界的部分采用白色像素进行填充。

如图6所示，所述步骤S4中将候选裁切图像输入美学质量评价模块，得到美学质量分数q_k，如式(4)所示：

其中

表示候选裁切图像的三维形式，k∈1，...，n，在本实施例中n为20，n表示候选裁切框的数量；A为美学质量评价模块经过训练后得到的算子。在本实施例中美学质量评价模块在一个私有的数据集上进行训练，数据集包括q张已经进行人工打分的图像，其中美学质量评估模块的训练为常规的基于深度学习的目标检测训练。

图像在显著性检测模块、裁切处理模块以及美学质量评价模块中处理时也会在展示模块进行展示，并对不同阶段的图像进行标记，在本实施例中为颜色结合虚实线进行标记，其中显著目标框为红色实线，初始裁切框为绿色实线，候选裁切框表示为浅色虚线框，美学质量分数最高的候选裁切框表示为黄色实线。在一些其他实施方式中也能够采用其他方式对不同阶段的图像进行标记，比如文字标记。

在实施过程中首先训练显著性检测模块以及美学质量评价模块，训练完成后在操作模块输入待裁切的初始图像，经过显著性检测模块的检测以及裁切处理模块的裁切得到候选裁切框，最后由美学质量评价模块对候选裁切框进行打分，将最高分的候选裁切框中的图像作为最终裁切图像输出到展示模块，实现图像的自动裁切；结合裁切处理模块生成候选裁切框的方式能够实现快速、大量的处理图像。

以上描述仅是本发明的一个具体实例，不构成对本发明的任何限制。显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修改和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于视觉显著性和美学分数的图像裁切装置，其特征在于，包括操作模块、显著性检测模块、裁切处理模块、美学质量评价模块以及展示模块；操作模块与显著性检测模块、裁切处理模块以及展示模块电性连接，操作模块将初始图像信息通过连接线路传输到显著性检测模块，将操作指令通过连接线路传输到裁切处理模块；显著性模块对图像的显著性区域进行识别，显著性区域表示包含显著目标的最小框图区域；裁切处理模块根据图像的显著性区域以及操作指令对图像进行裁切框划分，完成裁切框划分的图像通过连接线路发送到美学质量评价模块；美学质量评价模块经过训练后能够对裁切框内的图像进行评分；美学质量评分最高的图像会根据裁切框进行裁切，得到的裁切图像作为最终裁切图像发送到展示模块；展示模块能够展示最终裁切图像。

2.根据权利要求1所述的一种基于视觉显著性和美学分数的图像裁切装置，其特征在于，所述展示模块同时展示操作模块传输的初始图像以及美学质量评价模块传输的最终裁切图像；所述操作模块接收操作人员输入的待裁切的初始图像以及操作指令，操作指令包括裁切的宽高比。

3.根据权利要求1所述的一种基于视觉显著性和美学分数的图像裁切装置，其特征在于，所述显著性检测模块以及美学质量评价模块为深度卷积神经网络。

4.一种基于视觉显著性和美学分数的图像裁切方法，其特征在于，包括如下步骤：

5.根据权利要求4所述的一种基于视觉显著性和美学分数的图像裁切方法，其特征在于，所述步骤S2中显著目标框标记为b_salient，显著目标框根据式(1)得出：

b_salient＝S(I_input) (1)

6.根据权利要求4所述的一种基于视觉显著性和美学分数的图像裁切方法，其特征在于，所述步骤S3生成候选裁切框，并根据候选裁切框进行裁切的步骤包括：

S31：确定裁切的宽高比r_w/h以及显著目标框b_salient；

S33：根据得到的初始裁切框b_init，生成一组候选裁切框；

7.根据权利要求6所述的一种基于视觉显著性和美学分数的图像裁切方法，其特征在于，所述S32中为了获得初始裁切框，首先需要定义h_salient，w_salient，x_salient，y_salient分别为显著目标框b_salient的高、宽以及中心点的x坐标和y坐标；其次根据显著目标框b_salient以及裁切的宽高比r_w/h计算初始裁切框binit，如式(2)所示：

输出初始裁切框b_init。

8.根据权利要求4所述的一种基于视觉显著性和美学分数的图像裁切方法，其特征在于，所述S33中，生成一组候选裁切框，生成步骤包括：

9.根据权利要求8所述的一种基于视觉显著性和美学分数的图像裁切方法，其特征在于，所述步骤S4中将候选裁切图像输入美学质量评价模块，得到美学质量分数q_k，如式(4)所示：

其中

10.根据权利要求4所述的一种基于视觉显著性和美学分数的图像裁切方法，其特征在于，所述S33中，需要将h_init，w_init，x_init，y_init中的每一个参数依次在设定的比例范围内随机变换一次获得一个候选裁切框，并重复n次获得n个候选裁切框。