CN110458203B

CN110458203B - 一种广告图像素材检测方法

Info

Publication number: CN110458203B
Application number: CN201910654454.3A
Authority: CN
Inventors: 殷绪成; 徐奔; 杨春
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2021-11-30
Anticipated expiration: 2039-07-19
Also published as: CN110458203A

Abstract

本发明提供一种广告图像素材检测方法，能够实现精细的广告图像素材检测。所述方法包括：获取广告图像素材检测训练集；构建多尺度实例分割网络，利用获取的训练集中的图像训练所述多尺度实例分割网络，其中，所述多尺度实例分割网络，用于对提取的语义信息和连接信息进行带孔空间金字塔池化处理，得到不同尺度的素材特征，基于得到的每一尺度的素材特征进行语义预测，并级联得到的素材特征得到表示像素间连接关系的连接预测和表示广告图像素材边界的轮廓预测，将语义损失、连接损失和轮廓损失组成损失函数，联合优化所述多尺度实例分割网络，将连接预测结果和任一语义预测结果进行连接，输出图像中的广告图像素材。本发明涉及计算机视觉领域。

Description

一种广告图像素材检测方法

技术领域

本发明涉及计算机视觉领域，特别是指一种广告图像素材检测方法。

背景技术

广告图像在人们的日常生活中扮演着越来越重要的作用。广告图像素材指的是广告图像中那些包含有效商品信息的图像区域，而与广告图像中的文字、表格等背景内容区分开来。尽管广告图像素材在广告领域有广阔的应用价值，比如用作动态视频广告的图像素材、训练深度模型的数据等等，然而当前却缺少较好的用于广告图像素材提取的有效方法。虽然通用目标检测方法(Liu,Li,et al."Deep learning for generic objectdetection:A survey."arXiv preprint arXiv:1809.02165(2018))也可以用于广告素材提取，但如果直接应用到广告图像素体提取上，仍存在以下问题：1)对语义的把握不精准：容易将一些文字背景、表格等类似广告素材的内容误检测为广告素材；2)对边缘的定位不准确：轮廓信息在广告素材提取任务中是重要的。然而基于通用的目标检测方法很容易在素材的边界位置产生较大的偏移，并不能很好地把握素材的轮廓信息；3)难以检测到不同尺度的广告图像素材：由于广告素材的尺度是多种多样的，广告图像的尺度也多种多样；从而导致广告图像素材检测精度低。

发明内容

本发明要解决的技术问题是提供一种广告图像素材检测方法，以解决现有技术所存在的通用目标检测方法导致广告图像素材检测精度低的问题。

为解决上述技术问题，本发明实施例提供一种广告图像素材检测方法，包括：

获取广告图像素材检测训练集；

构建多尺度实例分割网络，利用获取的训练集中的图像训练所述多尺度实例分割网络，其中，所述多尺度实例分割网络，用于提取图像中多个尺度的像素级的语义信息和像素间的连接信息，并对提取的语义信息和连接信息进行带孔空间金字塔池化处理，得到不同尺度的素材特征，基于得到的每一尺度的素材特征进行语义预测，并级联得到的素材特征得到表示像素间连接关系的连接预测和表示广告图像素材边界的轮廓预测，将语义损失、连接损失和轮廓损失组成损失函数，联合优化所述多尺度实例分割网络，将连接预测结果和任一语义预测结果进行连接，输出图像中的广告图像素材；

通过训练好的所述多尺度实例分割网络提取图像中的广告图像素材。

进一步地，所述提取图像中多个尺度的像素级的语义信息和像素间的连接信息包括：

通过多尺度实例分割网络中的卷积神经网络编码器，提取图像中三个尺度的像素级的语义信息和像素间的连接信息。

进一步地，所述对提取的语义信息和连接信息进行带孔空间金字塔池化处理，得到不同尺度的素材特征包括：

在提取的每种尺度的语义信息和连接信息上，通过多尺度实例分割网络中的带孔空间金字塔池化模块进行带孔空间金字塔池化处理，得到三个尺度的素材特征。

进一步地，所述基于得到的每一尺度的素材特征进行语义预测，级联得到的素材特征得到表示像素间连接关系的连接预测和表示广告图像素材边界的轮廓预测包括：

将得到的三个尺度的素材特征分别进行第一卷积操作和上采样；

对上采样进行第二卷积操作，根据第二卷积操作得到的特征进行语义预测；

级联上采样得到的特征；

将级联后的特征进行第三卷积操作，得到表示像素间连接关系的连接预测；

将级联后的特征进行第四卷积操作，得到表示广告图像素材边界的轮廓预测。

进一步地，语义预测得到的语义值表示当前像素存在于一个实例的概率；

连接预测包含8个通道，分别对应每个像素的8个邻域；对一给定的当前像素和其任一邻域，连接预测中对应通道的连接值表示对应的邻域像素和当前像素存在于同一个实例的概率。

进一步地，所述将连接预测结果和任一语义预测结果进行连接，输出图像中的广告图像素材包括：

H1，判断当前像素的语义值是否大于预设的语义阈值，若是，则当前像素为正的语义像素；

H2，判断连接预测中对应通道的连接值是否大于预设的连接阈值，若是，则该通道对应的邻域像素和当前像素为正的连接像素；

H3，对于正的语义像素，若在连接预测的相同位置的8个通道中存在一个正的连接像素，则该语义像素和该通道对应的邻域像素属于同一个实例；

H4，在全图范围内，按照步骤H1-H3迭代，得到不同的实例，针对得到的实例，从中滤除边长小于边长最小值的实例及误检测的实例，将剩余的每个实例的最小外接包围框作为检测到的广告图像素材，其中，误检测的实例为实例中正语义像素占整个实例像素个数的比例小于预设的像素比例阈值。

进一步地，语义损失、连接损失和轮廓损失组成的损失函数L表示为：

L＝L_{semantic_1}+λ₁L_{semantic_2}+λ₂L_{semantic_3}+λ₃L_link+λ₄L_contour

其中，λ₁,λ₂,λ₃,λ₄是超参数；L_{semantic_1}、L_{semantic_2}、L_{semantic_3}表示三个尺度的语义损失函数；L_link表示连接损失函数；L_contour表示轮廓真值和轮廓预测的交叉熵损失函数。

进一步地，任一尺度的语义损失表示为：

其中，L_{semantic_CE}表示语义上的交叉熵损失函数矩阵；W是通过每个像素的权重w_i生成的权重矩阵，

A_i表示第i个实例的总权重，S_i表示第i个实例的面积，N表示实例的数目。

进一步地，连接损失表示为：

其中，Y_link表示连接真值的矩阵，i表示连接真值矩阵中第i个像素，j表示第i个像素的第j邻域，L_{link_CE}是连接预测和连接真值的交叉熵损失函数矩阵。

本发明的上述技术方案的有益效果如下：

上述方案中，利用获取的训练集中的图像训练所述多尺度实例分割网络，其中，所述多尺度实例分割网络，用于提取图像中多个尺度的像素级的语义信息和像素间的连接信息，并对提取的语义信息和连接信息进行带孔空间金字塔池化处理，得到不同尺度的素材特征，基于得到的每一尺度的素材特征进行语义预测，并级联得到的素材特征得到表示像素间连接关系的连接预测和表示广告图像素材边界的轮廓预测，将语义损失、连接损失和轮廓损失组成损失函数，联合优化所述多尺度实例分割网络，将连接预测结果和任一语义预测结果进行连接，输出图像中的广告图像素材；通过训练好的所述多尺度实例分割网络提取图像中的广告图像素材。这样，利用金字塔结构的多层级特征预测得到的多尺度特征和语义预测、连接预测，并辅以轮廓信息联合优化整个多尺度实例分割网络，能够提升定位素材边界的能力，从而提高广告图像素材提取的精度，实现精细的广告图像素材检测。

附图说明

图1为本发明实施例提供的广告图像素材检测方法的流程示意图；

图2为本发明实施例提供的多尺度实例分割网络的结构示意图；

图3为本发明实施例提供的训练集的样本示意图，其中，广告图像素材用虚线框标出；

图4为本发明实施例提供的Mask R-CNN和多尺度实例分割网络的检测效果对比示意图；

图5为本发明实施例提供的多尺度实例分割网络中各个组成部分的检测效果对比示意图，其中，第一行是只使用1/32尺度特征预测得到的结果，第二行是使用了三种尺度特征预测得到的结果，第三行是使用了三种尺度特征和轮廓信息得到的结果。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的通用目标检测方法导致广告图像素材检测精度低的问题，提供一种广告图像素材检测方法。

如图1所示，本发明实施例提供的广告图像素材检测方法，包括：

S101，获取广告图像素材检测训练集；

S102，构建多尺度实例分割网络，利用获取的训练集中的图像训练所述多尺度实例分割网络，其中，所述多尺度实例分割网络，用于提取图像中多个尺度的像素级的语义信息和像素间的连接信息，并对提取的语义信息和连接信息进行带孔空间金字塔池化处理，得到不同尺度的素材特征，基于得到的每一尺度的素材特征进行语义预测，并级联得到的素材特征得到表示像素间连接关系的连接预测和表示广告图像素材边界的轮廓预测，将语义损失、连接损失和轮廓损失组成损失函数，联合优化所述多尺度实例分割网络，将连接预测结果和任一语义预测结果进行连接，输出图像中的广告图像素材；

S103，通过训练好的所述多尺度实例分割网络提取图像中的广告图像素材。

本发明实施例所述的广告图像素材检测方法，利用获取的训练集中的图像训练所述多尺度实例分割网络，其中，所述多尺度实例分割网络，用于提取图像中多个尺度的像素级的语义信息和像素间的连接信息，并对提取的语义信息和连接信息进行带孔空间金字塔池化处理，得到不同尺度的素材特征，基于得到的每一尺度的素材特征进行语义预测，并级联得到的素材特征得到表示像素间连接关系的连接预测和表示广告图像素材边界的轮廓预测，将语义损失、连接损失和轮廓损失组成损失函数，联合优化所述多尺度实例分割网络，将连接预测结果和任一语义预测结果进行连接，输出图像中的广告图像素材；通过训练好的所述多尺度实例分割网络提取图像中的广告图像素材。这样，利用金字塔结构的多层级特征预测得到的多尺度特征和语义预测、连接预测，并辅以轮廓信息联合优化整个多尺度实例分割网络，能够提升定位素材边界的能力，从而提高广告图像素材提取的精度，实现精细的广告图像素材检测。

本实施例中，为了得到更细粒度的语义信息，提取了图像中多个尺度的像素级的语义信息和像素间的连接信息；为了检测不同尺度的广告图像素材，使用了金字塔结构的多层级特征预测；为了提升定位素材边界的能力，引入了轮廓损失。

本实施例所述的广告图像素材检测方法的目标是以细粒度的形式得到完整的广告图像素材。为了更好地理解本发明实施例所述的广告图像素材检测方法，对其进行详细说明，具体可以包括以下步骤：

S101，获取广告图像素材检测训练集。

广告图像素材检测是计算视觉应用中一个新的话题，并且缺少公开的测评数据集。为了填补这项空白，建立了一个新的广告图像素材检测数据集，所述数据集的主要内容是电商网站中的服装广告图像，可以从京东、唯品会、拼多多等电商网站收集。

服装广告图像中最普遍的形式是矩形素材，同时，圆形素材也占了较小的一部分，而其他内容如文字、表格等内容，可能也会具有类似的形状，但不会看作是广告图像素材。广告图像素材都是用矩形包围框进行标注的，如图3所示，图3(b)中的鞋子***被黑色实线包围，因此这个区域都会被看作是广告图像素材；图3(d)中的四个广告图像素材虽然位置相邻，但在交界处却是能区分处不同的，因此看作四个独立的素材。

将建立的广告图像素材检测数据集划分为训练集和测试集，假设，训练集包含2834张图像；测试集包含400张图像。

对训练集和测试集中图像的广告图像素材的包围框进行标注，这里称为真值包围框，以便与多尺度实例分割网络预测的包围框进行区分。

在包围框内部的像素，将语义标签设为1；如果存在重叠区域，则未重叠的像素被设置为1；其他的像素都设为0。对一个给定的正语义像素和8个邻域中任意一个邻域，如果邻域像素和当前像素属于同一个广告图像素材实例(下文简称：实例)，那么对应该邻域的通道的连接值在该空间位置被设置为1，否则被设为0。为了生成轮廓真值，利用S_contour表示每个真值包围框***轮廓的像素，按照式(1)中的方法生成真值：

其中，i表示轮廓中第i个像素，j表示轮廓中第j个像素，x_i表示轮廓中第i个像素赋予的值，范围是在0-1内的，这里就只有(0，0.6，1三个值)，Dist(i,j)＝＝1表示第i个像素是第j个像素的8邻域中其中的一个，就是刚好相邻或在斜对角；

表示存在，意思是，如果j属于S_contour，并且i和j是一个邻域关系，那么轮廓中第i个像素的值就设为0.6。

如果不满足式(1)的条件，就在轮廓中置0，最后生成的语义真值、连接真值、轮廓真值的大小都为输入大小的1/4，这是由于本实施例中的多尺度实例分割网络的结构决定的。

S102，构建多尺度实例分割网络，如图2所示，利用获取的训练集中的图像训练所述多尺度实例分割网络，具体步骤如下：

A21，通过多尺度实例分割网络中的卷积神经网络编码器(例如，ResNet-50)，提取图像中三个尺度(1/32、1/16、1/8)的像素级的语义信息和像素间的连接信息，所述卷积神经网络编码器的输入是单一尺度的任意大小的图像。

本实施例中，由于广告图像包含不同尺度的广告图像素材，单一尺度特征的预测会缺少对多尺度素材的适应性。在经过充分训练的卷积神经网络，低级层次的特征通常包含丰富的边缘信息(像素间的连接信息)，高级层次的特征通常包含更抽象的像素级的语义信息。

A22，为了检测到不同尺度的广告图像素材，引入了金字塔结构的多层级特征预测。

为了利用不同尺度的信息，在三个不同尺度上，每种尺度的语义信息和连接信息都被用来做语义预测。为了在每一个特征上进一步提取多尺度信息，引入了带孔空间金字塔池化模块，带孔空间金字塔池化模块由多个包含不同采样率的带孔卷积操作和一个全局的图像池化操作组成。以1/16尺度的语义信息和连接信息为例，首先使用一个带孔空间金字塔池化模块(ASPP)进行带孔空间金字塔池化处理，得到1/16尺度的素材特征，然后将该特征进行第一卷积操作(1x1卷积操作)、上采样、第二卷积操作(1x1卷积操作)，将其缩放到输入图像大小的1/4，最后，得到了三种尺度上的语义预测信息，并分别计算语义损失函数。相比于单一尺度的语义损失函数，三种尺度的语义损失可以学到更全面的语义特征。不同于通常的语义分割任务，这里不融合三种尺度的语义特征，而是分别做预测。因为发现，每个尺度下预测的语义信息是相对独立的，而融合策略会扰乱广告图像素材内部语义预测的一致性。

A23，实例分割

为了区分不同实例，使用连接预测将在同一个实例内的像素连接在一起，因此，需要将三个尺度下得到的特征级联起来，分别用于生成连接预测和轮廓预测。具体可以包括以下步骤：

级联上采样得到的特征；将级联后的特征进行第三卷积操作(1x1卷积操作)，得到表示像素间连接关系的连接预测；将级联后的特征进行第四卷积操作(1x1卷积操作)，得到表示广告图像素材边界的轮廓预测。

本实施例中，在生成连接预测和轮廓预测之后，将连接预测结果和任一语义预测结果进行连接，输出图像中的广告图像素材；实际上发现，使用1/32尺度下的语义预测和连接信息结合，可以生成三种尺度下最好的结果。因为1/32尺度的特征和大尺度的广告图像是最为适应的。

本实施例中，语义预测得到的语义值表示当前像素存在于一个实例的概率。连接预测用来判别不同实例，连接预测包含8个通道，分别对应每个像素的8个邻域。对一给定的当前像素和其任一邻域，连接预测中对应通道的连接值表示对应的邻域像素和当前像素存在于同一个实例的概率。

本实施例中，将连接预测结果和任一语义预测结果进行连接，输出图像中的广告图像素材，具体可以包括以下步骤：

H1，判断当前像素的语义值是否大于预设的语义阈值(例如，thresh_semantic＝0.8)，若是，则当前像素为正的语义像素，否则，当前像素为负的语义像素；

H2，判断连接预测中对应通道的连接值是否大于预设的连接阈值(例如，thresh_link＝0.8)，若是，则该通道对应的邻域像素和当前像素为正的连接像素，否则，则该通道对应的邻域像素和当前像素为负的连接像素；

本实施例中，在经过语义阈值、连接阈值过滤后，语义预测和连接预测都转变成了二值结果。

本实施例中，H4中得到了一系列实例，但是不是所有的实例。广告图像素材的形状通常近似于矩形或圆形，而且边长一般大于80像素。因此，设置边长最小值：min_side_length＝80用于过滤小的噪声实例。设置thresh_ratio＝0.6表示正语义像素占整个实例像素个数的比例，用于过滤误检测的实例，然后，将每个实例的最小外接矩形框作为最终的检测到的广告图像素材。

A24，将语义损失、连接损失和轮廓损失组成损失函数，联合优化所述多尺度实例分割网络。

本实施例中，语义损失、连接损失和轮廓损失组成的损失函数L表示为：

L＝L_{semantic_32}+λ₁L_{semantic_16}+λ₂L_{semantic_8}+λ₃L_link+λ₄L_contour (2)

其中，λ₁,λ₂,λ₃,λ₄是超参数，并且都设为1.0；L_{semantic_32}、L_{semantic_16}、L_{semantic_8}是尺度分别为1/32、1/16、1/8的语义损失函数；L_link表示连接损失函数；L_contour表示轮廓真值和轮廓预测的交叉熵损失函数，使用轮廓损失函数来增强网络鉴别每个广告素材边界的能力。

在三个尺度上计算语义损失，每个尺度的损失计算方式是相同的。考虑到不同的图像素材有不同的尺度大小，在语义预测上使用实例平衡的损失函数。将小的素材区域和大的素材区域看成包含相同的权重。对于N个实例，第i个实例的面积是S_i,每个像素的权重是w_i，所有实例的总面积是S，第i个实例的总权重是A_i，任意一个尺度的语义损失表示为：

式(3)中，W是通过每个像素的权重w_i生成的权重矩阵，负的语义像素的权重是1；L_{semantic_CE}是语义上的交叉熵损失函数矩阵。

本实施例中，连接预测的损失函数L_link只在正的语义像素上计算，并且正的连接像素和负的连接像素的个数是不平衡的，所以使用了一个可以平衡正连接像素和负连接像素的损失函数，如式(4)所示。

式(4)中，Y_link是连接真值的矩阵，i表示连接真值矩阵中第i个像素，j表示第i个像素的第j邻域，L_{link_CE}是连接预测和连接真值的交叉熵损失函数矩阵。S103，通过训练好的所述多尺度实例分割网络提取图像中的广告图像素材。

S104，实验验证

1)实验描述

为了评估本实施例所述的广告图像素材检测方法的有效性，在每张图像上计算每个预测包围框和每个真值包围框的交并比(IoU)。设置thresh_IoU＝0.8，仅当IoU大于thresh_IoU时，才将其视为被预测正确的正样本(TP)。真值标注框的个数被视为预测成正样本且预测对了和预测为负样本且预测错了的和(TP+FN)，预测包围框的个数被视为预测为正样本且预测对了和预测为正样本且预测错了的和(TP+FP)。这样就能计算精确度precision和召回率recall：

2)实验结果

利用本实施例所述的广告图像素材检测方法和Mask R-CNN，分别提取测试集中的广告图像素材；其中，Mask R-CNN是当前通用目标检测方法中检测性能处于前列的模型。相比于Mask R-CNN，本实施例所述的广告图像素材检测方法在判断广告素材的语义和精细化的检测具有优势。如图4(a)-(c)所示，Mask R-CNN在层次化的素材提取上更容易出错，而且容易将文本内容误认为广告素材。图4(e)表示，本实施例所述的广告图像素材检测方法在检测大尺度目标时，比Mask R-CNN做的更好。然而本实施例所述的广告图像素材检测方法在图4(d)中，更难将两个素材区分开，这里有两个原因：一是，使用矩形框对圆形素材进行标注和训练；二是，基于语义的实例分割网络相比于滑动窗口机制的回归方法，在区分不同实例这件事上略有不足。本实施例所述的广告图像素材检测方法的连接信息和轮廓信息不能完全解决分割不同实例的困难。图4(b)展示的是一个困难样本，本实施例所述的广告图像素材检测方法和Mask R-CNN都不能完全处理好这种样本，但本实施例所述的广告图像素材检测方法在视觉上表现得更好。

本实施例中，进一步验证了多尺度实例分割网络中多尺度语义预测和轮廓信息的作用。首先，只使用1/32单一尺度下的特征，得到检测结果。然后，结合1/32，1/16，1/8三种尺度下的特征，得到检测结果。最后，不仅结合这三种尺度的特征，还利用轮廓信息进行训练，也就是图2中使用的多尺度实例分割网络结构，得到检测结果。比较这三种结果和MaskR-CNN的结果，如表1所示，从表1可以看出，Mask R-CNN在精确度上较低，但在召回率上较高。使用三种尺度特征的金字塔层次预测能够大幅提升检测结果。本申请中的多尺度实例分割网络进一步利用轮廓信息，可以在细节上做的更好，帮助提升检测效果。最终，相比于Mask R-CNN，本实施例所述的广告图像素材检测方法在F1-score这个评估指标上能高出0.4％，并且检测得到的结果更美观更精细。图5(a)、(b)显示了金字塔层次预测比只是用1/32尺度特征预测可以得到更好的结果，这是因为1/32尺度特征容易忽视局部的特征信息，从而不容易将相近的广告素材区分开。图5(c)表明，加入了轮廓信息，可以使预测结果更细致，从而提升了本实施例所述的广告图像素材检测方法的检测准确率。

表1测试集的测试结果

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种广告图像素材检测方法，其特征在于，包括：

获取广告图像素材检测训练集；

通过训练好的所述多尺度实例分割网络提取图像中的广告图像素材；

其中，语义预测得到的语义值表示当前像素存在于一个实例的概率；

连接预测包含8个通道，分别对应每个像素的8个邻域；对一给定的当前像素和其任一邻域，连接预测中对应通道的连接值表示对应的邻域像素和当前像素存在于同一个实例的概率；

其中，所述将连接预测结果和任一语义预测结果进行连接，输出图像中的广告图像素材包括：

2.根据权利要求1所述的广告图像素材检测方法，其特征在于，所述提取图像中多个尺度的像素级的语义信息和像素间的连接信息包括：

3.根据权利要求2所述的广告图像素材检测方法，其特征在于，所述对提取的语义信息和连接信息进行带孔空间金字塔池化处理，得到不同尺度的素材特征包括：

4.根据权利要求3所述的广告图像素材检测方法，其特征在于，所述基于得到的每一尺度的素材特征进行语义预测，级联得到的素材特征得到表示像素间连接关系的连接预测和表示广告图像素材边界的轮廓预测包括：

级联上采样得到的特征；

5.根据权利要求1所述的广告图像素材检测方法，其特征在于，语义损失、连接损失和轮廓损失组成的损失函数L表示为：

6.根据权利要求1所述的广告图像素材检测方法，其特征在于，任一尺度的语义损失表示为：

7.根据权利要求1所述的广告图像素材检测方法，其特征在于，连接损失表示为：