CN110458203B - 一种广告图像素材检测方法 - Google Patents

一种广告图像素材检测方法 Download PDF

Info

Publication number
CN110458203B
CN110458203B CN201910654454.3A CN201910654454A CN110458203B CN 110458203 B CN110458203 B CN 110458203B CN 201910654454 A CN201910654454 A CN 201910654454A CN 110458203 B CN110458203 B CN 110458203B
Authority
CN
China
Prior art keywords
semantic
connection
prediction
pixel
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910654454.3A
Other languages
English (en)
Other versions
CN110458203A (zh
Inventor
殷绪成
徐奔
杨春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN201910654454.3A priority Critical patent/CN110458203B/zh
Publication of CN110458203A publication Critical patent/CN110458203A/zh
Application granted granted Critical
Publication of CN110458203B publication Critical patent/CN110458203B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/181Segmentation; Edge detection involving edge growing; involving edge linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种广告图像素材检测方法,能够实现精细的广告图像素材检测。所述方法包括:获取广告图像素材检测训练集;构建多尺度实例分割网络,利用获取的训练集中的图像训练所述多尺度实例分割网络,其中,所述多尺度实例分割网络,用于对提取的语义信息和连接信息进行带孔空间金字塔池化处理,得到不同尺度的素材特征,基于得到的每一尺度的素材特征进行语义预测,并级联得到的素材特征得到表示像素间连接关系的连接预测和表示广告图像素材边界的轮廓预测,将语义损失、连接损失和轮廓损失组成损失函数,联合优化所述多尺度实例分割网络,将连接预测结果和任一语义预测结果进行连接,输出图像中的广告图像素材。本发明涉及计算机视觉领域。

Description

一种广告图像素材检测方法
技术领域
本发明涉及计算机视觉领域,特别是指一种广告图像素材检测方法。
背景技术
广告图像在人们的日常生活中扮演着越来越重要的作用。广告图像素材指的是广告图像中那些包含有效商品信息的图像区域,而与广告图像中的文字、表格等背景内容区分开来。尽管广告图像素材在广告领域有广阔的应用价值,比如用作动态视频广告的图像素材、训练深度模型的数据等等,然而当前却缺少较好的用于广告图像素材提取的有效方法。虽然通用目标检测方法(Liu,Li,et al."Deep learning for generic objectdetection:A survey."arXiv preprint arXiv:1809.02165(2018))也可以用于广告素材提取,但如果直接应用到广告图像素体提取上,仍存在以下问题:1)对语义的把握不精准:容易将一些文字背景、表格等类似广告素材的内容误检测为广告素材;2)对边缘的定位不准确:轮廓信息在广告素材提取任务中是重要的。然而基于通用的目标检测方法很容易在素材的边界位置产生较大的偏移,并不能很好地把握素材的轮廓信息;3)难以检测到不同尺度的广告图像素材:由于广告素材的尺度是多种多样的,广告图像的尺度也多种多样;从而导致广告图像素材检测精度低。
发明内容
本发明要解决的技术问题是提供一种广告图像素材检测方法,以解决现有技术所存在的通用目标检测方法导致广告图像素材检测精度低的问题。
为解决上述技术问题,本发明实施例提供一种广告图像素材检测方法,包括:
获取广告图像素材检测训练集;
构建多尺度实例分割网络,利用获取的训练集中的图像训练所述多尺度实例分割网络,其中,所述多尺度实例分割网络,用于提取图像中多个尺度的像素级的语义信息和像素间的连接信息,并对提取的语义信息和连接信息进行带孔空间金字塔池化处理,得到不同尺度的素材特征,基于得到的每一尺度的素材特征进行语义预测,并级联得到的素材特征得到表示像素间连接关系的连接预测和表示广告图像素材边界的轮廓预测,将语义损失、连接损失和轮廓损失组成损失函数,联合优化所述多尺度实例分割网络,将连接预测结果和任一语义预测结果进行连接,输出图像中的广告图像素材;
通过训练好的所述多尺度实例分割网络提取图像中的广告图像素材。
进一步地,所述提取图像中多个尺度的像素级的语义信息和像素间的连接信息包括:
通过多尺度实例分割网络中的卷积神经网络编码器,提取图像中三个尺度的像素级的语义信息和像素间的连接信息。
进一步地,所述对提取的语义信息和连接信息进行带孔空间金字塔池化处理,得到不同尺度的素材特征包括:
在提取的每种尺度的语义信息和连接信息上,通过多尺度实例分割网络中的带孔空间金字塔池化模块进行带孔空间金字塔池化处理,得到三个尺度的素材特征。
进一步地,所述基于得到的每一尺度的素材特征进行语义预测,级联得到的素材特征得到表示像素间连接关系的连接预测和表示广告图像素材边界的轮廓预测包括:
将得到的三个尺度的素材特征分别进行第一卷积操作和上采样;
对上采样进行第二卷积操作,根据第二卷积操作得到的特征进行语义预测;
级联上采样得到的特征;
将级联后的特征进行第三卷积操作,得到表示像素间连接关系的连接预测;
将级联后的特征进行第四卷积操作,得到表示广告图像素材边界的轮廓预测。
进一步地,语义预测得到的语义值表示当前像素存在于一个实例的概率;
连接预测包含8个通道,分别对应每个像素的8个邻域;对一给定的当前像素和其任一邻域,连接预测中对应通道的连接值表示对应的邻域像素和当前像素存在于同一个实例的概率。
进一步地,所述将连接预测结果和任一语义预测结果进行连接,输出图像中的广告图像素材包括:
H1,判断当前像素的语义值是否大于预设的语义阈值,若是,则当前像素为正的语义像素;
H2,判断连接预测中对应通道的连接值是否大于预设的连接阈值,若是,则该通道对应的邻域像素和当前像素为正的连接像素;
H3,对于正的语义像素,若在连接预测的相同位置的8个通道中存在一个正的连接像素,则该语义像素和该通道对应的邻域像素属于同一个实例;
H4,在全图范围内,按照步骤H1-H3迭代,得到不同的实例,针对得到的实例,从中滤除边长小于边长最小值的实例及误检测的实例,将剩余的每个实例的最小外接包围框作为检测到的广告图像素材,其中,误检测的实例为实例中正语义像素占整个实例像素个数的比例小于预设的像素比例阈值。
进一步地,语义损失、连接损失和轮廓损失组成的损失函数L表示为:
L=Lsemantic_11Lsemantic_22Lsemantic_33Llink4Lcontour
其中,λ1234是超参数;Lsemantic_1、Lsemantic_2、Lsemantic_3表示三个尺度的语义损失函数;Llink表示连接损失函数;Lcontour表示轮廓真值和轮廓预测的交叉熵损失函数。
进一步地,任一尺度的语义损失表示为:
Figure BDA0002136401510000031
其中,Lsemantic_CE表示语义上的交叉熵损失函数矩阵;W是通过每个像素的权重wi生成的权重矩阵,
Figure BDA0002136401510000032
Ai表示第i个实例的总权重,Si表示第i个实例的面积,N表示实例的数目。
进一步地,连接损失表示为:
Figure BDA0002136401510000033
其中,Ylink表示连接真值的矩阵,i表示连接真值矩阵中第i个像素,j表示第i个像素的第j邻域,Llink_CE是连接预测和连接真值的交叉熵损失函数矩阵。
本发明的上述技术方案的有益效果如下:
上述方案中,利用获取的训练集中的图像训练所述多尺度实例分割网络,其中,所述多尺度实例分割网络,用于提取图像中多个尺度的像素级的语义信息和像素间的连接信息,并对提取的语义信息和连接信息进行带孔空间金字塔池化处理,得到不同尺度的素材特征,基于得到的每一尺度的素材特征进行语义预测,并级联得到的素材特征得到表示像素间连接关系的连接预测和表示广告图像素材边界的轮廓预测,将语义损失、连接损失和轮廓损失组成损失函数,联合优化所述多尺度实例分割网络,将连接预测结果和任一语义预测结果进行连接,输出图像中的广告图像素材;通过训练好的所述多尺度实例分割网络提取图像中的广告图像素材。这样,利用金字塔结构的多层级特征预测得到的多尺度特征和语义预测、连接预测,并辅以轮廓信息联合优化整个多尺度实例分割网络,能够提升定位素材边界的能力,从而提高广告图像素材提取的精度,实现精细的广告图像素材检测。
附图说明
图1为本发明实施例提供的广告图像素材检测方法的流程示意图;
图2为本发明实施例提供的多尺度实例分割网络的结构示意图;
图3为本发明实施例提供的训练集的样本示意图,其中,广告图像素材用虚线框标出;
图4为本发明实施例提供的Mask R-CNN和多尺度实例分割网络的检测效果对比示意图;
图5为本发明实施例提供的多尺度实例分割网络中各个组成部分的检测效果对比示意图,其中,第一行是只使用1/32尺度特征预测得到的结果,第二行是使用了三种尺度特征预测得到的结果,第三行是使用了三种尺度特征和轮廓信息得到的结果。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的通用目标检测方法导致广告图像素材检测精度低的问题,提供一种广告图像素材检测方法。
如图1所示,本发明实施例提供的广告图像素材检测方法,包括:
S101,获取广告图像素材检测训练集;
S102,构建多尺度实例分割网络,利用获取的训练集中的图像训练所述多尺度实例分割网络,其中,所述多尺度实例分割网络,用于提取图像中多个尺度的像素级的语义信息和像素间的连接信息,并对提取的语义信息和连接信息进行带孔空间金字塔池化处理,得到不同尺度的素材特征,基于得到的每一尺度的素材特征进行语义预测,并级联得到的素材特征得到表示像素间连接关系的连接预测和表示广告图像素材边界的轮廓预测,将语义损失、连接损失和轮廓损失组成损失函数,联合优化所述多尺度实例分割网络,将连接预测结果和任一语义预测结果进行连接,输出图像中的广告图像素材;
S103,通过训练好的所述多尺度实例分割网络提取图像中的广告图像素材。
本发明实施例所述的广告图像素材检测方法,利用获取的训练集中的图像训练所述多尺度实例分割网络,其中,所述多尺度实例分割网络,用于提取图像中多个尺度的像素级的语义信息和像素间的连接信息,并对提取的语义信息和连接信息进行带孔空间金字塔池化处理,得到不同尺度的素材特征,基于得到的每一尺度的素材特征进行语义预测,并级联得到的素材特征得到表示像素间连接关系的连接预测和表示广告图像素材边界的轮廓预测,将语义损失、连接损失和轮廓损失组成损失函数,联合优化所述多尺度实例分割网络,将连接预测结果和任一语义预测结果进行连接,输出图像中的广告图像素材;通过训练好的所述多尺度实例分割网络提取图像中的广告图像素材。这样,利用金字塔结构的多层级特征预测得到的多尺度特征和语义预测、连接预测,并辅以轮廓信息联合优化整个多尺度实例分割网络,能够提升定位素材边界的能力,从而提高广告图像素材提取的精度,实现精细的广告图像素材检测。
本实施例中,为了得到更细粒度的语义信息,提取了图像中多个尺度的像素级的语义信息和像素间的连接信息;为了检测不同尺度的广告图像素材,使用了金字塔结构的多层级特征预测;为了提升定位素材边界的能力,引入了轮廓损失。
本实施例所述的广告图像素材检测方法的目标是以细粒度的形式得到完整的广告图像素材。为了更好地理解本发明实施例所述的广告图像素材检测方法,对其进行详细说明,具体可以包括以下步骤:
S101,获取广告图像素材检测训练集。
广告图像素材检测是计算视觉应用中一个新的话题,并且缺少公开的测评数据集。为了填补这项空白,建立了一个新的广告图像素材检测数据集,所述数据集的主要内容是电商网站中的服装广告图像,可以从京东、唯品会、拼多多等电商网站收集。
服装广告图像中最普遍的形式是矩形素材,同时,圆形素材也占了较小的一部分,而其他内容如文字、表格等内容,可能也会具有类似的形状,但不会看作是广告图像素材。广告图像素材都是用矩形包围框进行标注的,如图3所示,图3(b)中的鞋子***被黑色实线包围,因此这个区域都会被看作是广告图像素材;图3(d)中的四个广告图像素材虽然位置相邻,但在交界处却是能区分处不同的,因此看作四个独立的素材。
将建立的广告图像素材检测数据集划分为训练集和测试集,假设,训练集包含2834张图像;测试集包含400张图像。
对训练集和测试集中图像的广告图像素材的包围框进行标注,这里称为真值包围框,以便与多尺度实例分割网络预测的包围框进行区分。
在包围框内部的像素,将语义标签设为1;如果存在重叠区域,则未重叠的像素被设置为1;其他的像素都设为0。对一个给定的正语义像素和8个邻域中任意一个邻域,如果邻域像素和当前像素属于同一个广告图像素材实例(下文简称:实例),那么对应该邻域的通道的连接值在该空间位置被设置为1,否则被设为0。为了生成轮廓真值,利用Scontour表示每个真值包围框***轮廓的像素,按照式(1)中的方法生成真值:
Figure BDA0002136401510000061
其中,i表示轮廓中第i个像素,j表示轮廓中第j个像素,xi表示轮廓中第i个像素赋予的值,范围是在0-1内的,这里就只有(0,0.6,1三个值),Dist(i,j)==1表示第i个像素是第j个像素的8邻域中其中的一个,就是刚好相邻或在斜对角;
Figure BDA0002136401510000071
表示存在,意思是,如果j属于S_contour,并且i和j是一个邻域关系,那么轮廓中第i个像素的值就设为0.6。
如果不满足式(1)的条件,就在轮廓中置0,最后生成的语义真值、连接真值、轮廓真值的大小都为输入大小的1/4,这是由于本实施例中的多尺度实例分割网络的结构决定的。
S102,构建多尺度实例分割网络,如图2所示,利用获取的训练集中的图像训练所述多尺度实例分割网络,具体步骤如下:
A21,通过多尺度实例分割网络中的卷积神经网络编码器(例如,ResNet-50),提取图像中三个尺度(1/32、1/16、1/8)的像素级的语义信息和像素间的连接信息,所述卷积神经网络编码器的输入是单一尺度的任意大小的图像。
本实施例中,由于广告图像包含不同尺度的广告图像素材,单一尺度特征的预测会缺少对多尺度素材的适应性。在经过充分训练的卷积神经网络,低级层次的特征通常包含丰富的边缘信息(像素间的连接信息),高级层次的特征通常包含更抽象的像素级的语义信息。
A22,为了检测到不同尺度的广告图像素材,引入了金字塔结构的多层级特征预测。
为了利用不同尺度的信息,在三个不同尺度上,每种尺度的语义信息和连接信息都被用来做语义预测。为了在每一个特征上进一步提取多尺度信息,引入了带孔空间金字塔池化模块,带孔空间金字塔池化模块由多个包含不同采样率的带孔卷积操作和一个全局的图像池化操作组成。以1/16尺度的语义信息和连接信息为例,首先使用一个带孔空间金字塔池化模块(ASPP)进行带孔空间金字塔池化处理,得到1/16尺度的素材特征,然后将该特征进行第一卷积操作(1x1卷积操作)、上采样、第二卷积操作(1x1卷积操作),将其缩放到输入图像大小的1/4,最后,得到了三种尺度上的语义预测信息,并分别计算语义损失函数。相比于单一尺度的语义损失函数,三种尺度的语义损失可以学到更全面的语义特征。不同于通常的语义分割任务,这里不融合三种尺度的语义特征,而是分别做预测。因为发现,每个尺度下预测的语义信息是相对独立的,而融合策略会扰乱广告图像素材内部语义预测的一致性。
A23,实例分割
为了区分不同实例,使用连接预测将在同一个实例内的像素连接在一起,因此,需要将三个尺度下得到的特征级联起来,分别用于生成连接预测和轮廓预测。具体可以包括以下步骤:
级联上采样得到的特征;将级联后的特征进行第三卷积操作(1x1卷积操作),得到表示像素间连接关系的连接预测;将级联后的特征进行第四卷积操作(1x1卷积操作),得到表示广告图像素材边界的轮廓预测。
本实施例中,在生成连接预测和轮廓预测之后,将连接预测结果和任一语义预测结果进行连接,输出图像中的广告图像素材;实际上发现,使用1/32尺度下的语义预测和连接信息结合,可以生成三种尺度下最好的结果。因为1/32尺度的特征和大尺度的广告图像是最为适应的。
本实施例中,语义预测得到的语义值表示当前像素存在于一个实例的概率。连接预测用来判别不同实例,连接预测包含8个通道,分别对应每个像素的8个邻域。对一给定的当前像素和其任一邻域,连接预测中对应通道的连接值表示对应的邻域像素和当前像素存在于同一个实例的概率。
本实施例中,将连接预测结果和任一语义预测结果进行连接,输出图像中的广告图像素材,具体可以包括以下步骤:
H1,判断当前像素的语义值是否大于预设的语义阈值(例如,threshsemantic=0.8),若是,则当前像素为正的语义像素,否则,当前像素为负的语义像素;
H2,判断连接预测中对应通道的连接值是否大于预设的连接阈值(例如,threshlink=0.8),若是,则该通道对应的邻域像素和当前像素为正的连接像素,否则,则该通道对应的邻域像素和当前像素为负的连接像素;
本实施例中,在经过语义阈值、连接阈值过滤后,语义预测和连接预测都转变成了二值结果。
H3,对于正的语义像素,若在连接预测的相同位置的8个通道中存在一个正的连接像素,则该语义像素和该通道对应的邻域像素属于同一个实例;
H4,在全图范围内,按照步骤H1-H3迭代,得到不同的实例,针对得到的实例,从中滤除边长小于边长最小值的实例及误检测的实例,将剩余的每个实例的最小外接包围框作为检测到的广告图像素材,其中,误检测的实例为实例中正语义像素占整个实例像素个数的比例小于预设的像素比例阈值。
本实施例中,H4中得到了一系列实例,但是不是所有的实例。广告图像素材的形状通常近似于矩形或圆形,而且边长一般大于80像素。因此,设置边长最小值:min_side_length=80用于过滤小的噪声实例。设置thresh_ratio=0.6表示正语义像素占整个实例像素个数的比例,用于过滤误检测的实例,然后,将每个实例的最小外接矩形框作为最终的检测到的广告图像素材。
A24,将语义损失、连接损失和轮廓损失组成损失函数,联合优化所述多尺度实例分割网络。
本实施例中,语义损失、连接损失和轮廓损失组成的损失函数L表示为:
L=Lsemantic_321Lsemantic_162Lsemantic_83Llink4Lcontour (2)
其中,λ1234是超参数,并且都设为1.0;Lsemantic_32、Lsemantic_16、Lsemantic_8是尺度分别为1/32、1/16、1/8的语义损失函数;Llink表示连接损失函数;Lcontour表示轮廓真值和轮廓预测的交叉熵损失函数,使用轮廓损失函数来增强网络鉴别每个广告素材边界的能力。
在三个尺度上计算语义损失,每个尺度的损失计算方式是相同的。考虑到不同的图像素材有不同的尺度大小,在语义预测上使用实例平衡的损失函数。将小的素材区域和大的素材区域看成包含相同的权重。对于N个实例,第i个实例的面积是Si,每个像素的权重是wi,所有实例的总面积是S,第i个实例的总权重是Ai,任意一个尺度的语义损失表示为:
Figure BDA0002136401510000091
式(3)中,W是通过每个像素的权重wi生成的权重矩阵,负的语义像素的权重是1;Lsemantic_CE是语义上的交叉熵损失函数矩阵。
本实施例中,连接预测的损失函数Llink只在正的语义像素上计算,并且正的连接像素和负的连接像素的个数是不平衡的,所以使用了一个可以平衡正连接像素和负连接像素的损失函数,如式(4)所示。
Figure BDA0002136401510000101
式(4)中,Ylink是连接真值的矩阵,i表示连接真值矩阵中第i个像素,j表示第i个像素的第j邻域,Llink_CE是连接预测和连接真值的交叉熵损失函数矩阵。S103,通过训练好的所述多尺度实例分割网络提取图像中的广告图像素材。
S104,实验验证
1)实验描述
为了评估本实施例所述的广告图像素材检测方法的有效性,在每张图像上计算每个预测包围框和每个真值包围框的交并比(IoU)。设置threshIoU=0.8,仅当IoU大于threshIoU时,才将其视为被预测正确的正样本(TP)。真值标注框的个数被视为预测成正样本且预测对了和预测为负样本且预测错了的和(TP+FN),预测包围框的个数被视为预测为正样本且预测对了和预测为正样本且预测错了的和(TP+FP)。这样就能计算精确度precision和召回率recall:
Figure BDA0002136401510000102
2)实验结果
利用本实施例所述的广告图像素材检测方法和Mask R-CNN,分别提取测试集中的广告图像素材;其中,Mask R-CNN是当前通用目标检测方法中检测性能处于前列的模型。相比于Mask R-CNN,本实施例所述的广告图像素材检测方法在判断广告素材的语义和精细化的检测具有优势。如图4(a)-(c)所示,Mask R-CNN在层次化的素材提取上更容易出错,而且容易将文本内容误认为广告素材。图4(e)表示,本实施例所述的广告图像素材检测方法在检测大尺度目标时,比Mask R-CNN做的更好。然而本实施例所述的广告图像素材检测方法在图4(d)中,更难将两个素材区分开,这里有两个原因:一是,使用矩形框对圆形素材进行标注和训练;二是,基于语义的实例分割网络相比于滑动窗口机制的回归方法,在区分不同实例这件事上略有不足。本实施例所述的广告图像素材检测方法的连接信息和轮廓信息不能完全解决分割不同实例的困难。图4(b)展示的是一个困难样本,本实施例所述的广告图像素材检测方法和Mask R-CNN都不能完全处理好这种样本,但本实施例所述的广告图像素材检测方法在视觉上表现得更好。
本实施例中,进一步验证了多尺度实例分割网络中多尺度语义预测和轮廓信息的作用。首先,只使用1/32单一尺度下的特征,得到检测结果。然后,结合1/32,1/16,1/8三种尺度下的特征,得到检测结果。最后,不仅结合这三种尺度的特征,还利用轮廓信息进行训练,也就是图2中使用的多尺度实例分割网络结构,得到检测结果。比较这三种结果和MaskR-CNN的结果,如表1所示,从表1可以看出,Mask R-CNN在精确度上较低,但在召回率上较高。使用三种尺度特征的金字塔层次预测能够大幅提升检测结果。本申请中的多尺度实例分割网络进一步利用轮廓信息,可以在细节上做的更好,帮助提升检测效果。最终,相比于Mask R-CNN,本实施例所述的广告图像素材检测方法在F1-score这个评估指标上能高出0.4%,并且检测得到的结果更美观更精细。图5(a)、(b)显示了金字塔层次预测比只是用1/32尺度特征预测可以得到更好的结果,这是因为1/32尺度特征容易忽视局部的特征信息,从而不容易将相近的广告素材区分开。图5(c)表明,加入了轮廓信息,可以使预测结果更细致,从而提升了本实施例所述的广告图像素材检测方法的检测准确率。
表1测试集的测试结果
Figure BDA0002136401510000111
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种广告图像素材检测方法,其特征在于,包括:
获取广告图像素材检测训练集;
构建多尺度实例分割网络,利用获取的训练集中的图像训练所述多尺度实例分割网络,其中,所述多尺度实例分割网络,用于提取图像中多个尺度的像素级的语义信息和像素间的连接信息,并对提取的语义信息和连接信息进行带孔空间金字塔池化处理,得到不同尺度的素材特征,基于得到的每一尺度的素材特征进行语义预测,并级联得到的素材特征得到表示像素间连接关系的连接预测和表示广告图像素材边界的轮廓预测,将语义损失、连接损失和轮廓损失组成损失函数,联合优化所述多尺度实例分割网络,将连接预测结果和任一语义预测结果进行连接,输出图像中的广告图像素材;
通过训练好的所述多尺度实例分割网络提取图像中的广告图像素材;
其中,语义预测得到的语义值表示当前像素存在于一个实例的概率;
连接预测包含8个通道,分别对应每个像素的8个邻域;对一给定的当前像素和其任一邻域,连接预测中对应通道的连接值表示对应的邻域像素和当前像素存在于同一个实例的概率;
其中,所述将连接预测结果和任一语义预测结果进行连接,输出图像中的广告图像素材包括:
H1,判断当前像素的语义值是否大于预设的语义阈值,若是,则当前像素为正的语义像素;
H2,判断连接预测中对应通道的连接值是否大于预设的连接阈值,若是,则该通道对应的邻域像素和当前像素为正的连接像素;
H3,对于正的语义像素,若在连接预测的相同位置的8个通道中存在一个正的连接像素,则该语义像素和该通道对应的邻域像素属于同一个实例;
H4,在全图范围内,按照步骤H1-H3迭代,得到不同的实例,针对得到的实例,从中滤除边长小于边长最小值的实例及误检测的实例,将剩余的每个实例的最小外接包围框作为检测到的广告图像素材,其中,误检测的实例为实例中正语义像素占整个实例像素个数的比例小于预设的像素比例阈值。
2.根据权利要求1所述的广告图像素材检测方法,其特征在于,所述提取图像中多个尺度的像素级的语义信息和像素间的连接信息包括:
通过多尺度实例分割网络中的卷积神经网络编码器,提取图像中三个尺度的像素级的语义信息和像素间的连接信息。
3.根据权利要求2所述的广告图像素材检测方法,其特征在于,所述对提取的语义信息和连接信息进行带孔空间金字塔池化处理,得到不同尺度的素材特征包括:
在提取的每种尺度的语义信息和连接信息上,通过多尺度实例分割网络中的带孔空间金字塔池化模块进行带孔空间金字塔池化处理,得到三个尺度的素材特征。
4.根据权利要求3所述的广告图像素材检测方法,其特征在于,所述基于得到的每一尺度的素材特征进行语义预测,级联得到的素材特征得到表示像素间连接关系的连接预测和表示广告图像素材边界的轮廓预测包括:
将得到的三个尺度的素材特征分别进行第一卷积操作和上采样;
对上采样进行第二卷积操作,根据第二卷积操作得到的特征进行语义预测;
级联上采样得到的特征;
将级联后的特征进行第三卷积操作,得到表示像素间连接关系的连接预测;
将级联后的特征进行第四卷积操作,得到表示广告图像素材边界的轮廓预测。
5.根据权利要求1所述的广告图像素材检测方法,其特征在于,语义损失、连接损失和轮廓损失组成的损失函数L表示为:
L=Lsemantic_11Lsemantic_22Lsemantic_33Llink4Lcontour
其中,λ1234是超参数;Lsemantic_1、Lsemantic_2、Lsemantic_3表示三个尺度的语义损失函数;Llink表示连接损失函数;Lcontour表示轮廓真值和轮廓预测的交叉熵损失函数。
6.根据权利要求1所述的广告图像素材检测方法,其特征在于,任一尺度的语义损失表示为:
Figure FDA0003217000110000031
其中,Lsemantic_CE表示语义上的交叉熵损失函数矩阵;W是通过每个像素的权重wi生成的权重矩阵,
Figure FDA0003217000110000032
Ai表示第i个实例的总权重,Si表示第i个实例的面积,N表示实例的数目。
7.根据权利要求1所述的广告图像素材检测方法,其特征在于,连接损失表示为:
Figure FDA0003217000110000033
其中,Ylink表示连接真值的矩阵,i表示连接真值矩阵中第i个像素,j表示第i个像素的第j邻域,Llink_CE是连接预测和连接真值的交叉熵损失函数矩阵。
CN201910654454.3A 2019-07-19 2019-07-19 一种广告图像素材检测方法 Active CN110458203B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910654454.3A CN110458203B (zh) 2019-07-19 2019-07-19 一种广告图像素材检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910654454.3A CN110458203B (zh) 2019-07-19 2019-07-19 一种广告图像素材检测方法

Publications (2)

Publication Number Publication Date
CN110458203A CN110458203A (zh) 2019-11-15
CN110458203B true CN110458203B (zh) 2021-11-30

Family

ID=68481561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910654454.3A Active CN110458203B (zh) 2019-07-19 2019-07-19 一种广告图像素材检测方法

Country Status (1)

Country Link
CN (1) CN110458203B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259764A (zh) * 2020-01-10 2020-06-09 中国科学技术大学 文本检测方法、装置、电子设备及存储装置
CN112819008B (zh) * 2021-01-11 2022-10-28 腾讯科技(深圳)有限公司 实例检测网络的优化方法、装置、介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203399A (zh) * 2016-07-27 2016-12-07 厦门美图之家科技有限公司 一种图像处理方法、装置和计算设备
CN106846322A (zh) * 2016-12-30 2017-06-13 西安电子科技大学 基于曲线波滤波器和卷积结构学习的sar图像分割方法
WO2018035805A1 (en) * 2016-08-25 2018-03-01 Intel Corporation Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation
CN108985250A (zh) * 2018-07-27 2018-12-11 大连理工大学 一种基于多任务网络的交通场景解析方法
CN109583324A (zh) * 2018-11-12 2019-04-05 武汉大学 一种基于单点多盒检测器的指针仪表读数自动识别方法
CN109740482A (zh) * 2018-12-26 2019-05-10 北京科技大学 一种图像文本识别方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106327469B (zh) * 2015-06-29 2019-06-18 北京航空航天大学 一种语义标签引导的视频对象分割方法
US9972073B2 (en) * 2016-06-22 2018-05-15 Adobe Systems Incorporated Enhanced vectorization of raster images

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203399A (zh) * 2016-07-27 2016-12-07 厦门美图之家科技有限公司 一种图像处理方法、装置和计算设备
WO2018035805A1 (en) * 2016-08-25 2018-03-01 Intel Corporation Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation
CN106846322A (zh) * 2016-12-30 2017-06-13 西安电子科技大学 基于曲线波滤波器和卷积结构学习的sar图像分割方法
CN108985250A (zh) * 2018-07-27 2018-12-11 大连理工大学 一种基于多任务网络的交通场景解析方法
CN109583324A (zh) * 2018-11-12 2019-04-05 武汉大学 一种基于单点多盒检测器的指针仪表读数自动识别方法
CN109740482A (zh) * 2018-12-26 2019-05-10 北京科技大学 一种图像文本识别方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PixelLink: Detecting Scene Text via Instance Segmentation;Dan Deng 等;《Thirty-Second AAAI Conference on Artificial Intelligence》;20180427;第32卷(第1期);6773-6780 *

Also Published As

Publication number Publication date
CN110458203A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN111275688A (zh) 基于注意力机制的上下文特征融合筛选的小目标检测方法
CN102915438B (zh) 一种视频字幕的提取方法及装置
Wang et al. FE-YOLOv5: Feature enhancement network based on YOLOv5 for small object detection
CN106384112A (zh) 基于多通道多尺度与级联过滤器的快速图像文本检测方法
Fu et al. MCFF-CNN: Multiscale comprehensive feature fusion convolutional neural network for vehicle color recognition based on residual learning
CN112528997B (zh) 一种基于文本中心区域扩增的藏汉双语场景文本检测方法
CN114187311A (zh) 一种图像语义分割方法、装置、设备及存储介质
CN102867183B (zh) 一种车辆遗撒物检测方法、装置及智能交通监控***
Fabrizio et al. Text segmentation in natural scenes using toggle-mapping
CN110020658B (zh) 一种基于多任务深度学习的显著目标检测方法
CN105760472A (zh) 视频检索方法及***
CN110458203B (zh) 一种广告图像素材检测方法
CN102385592A (zh) 图像概念的检测方法和装置
CN111783514A (zh) 面部解析方法、装置及计算机可读存储介质
Zhang et al. Feature extraction for high-resolution imagery based on human visual perception
Han et al. Improved visual background extractor using an adaptive distance threshold
CN106326451A (zh) 一种基于视觉特征提取的网页传感信息块判决方法
WO2020119624A1 (zh) 一种基于深度学习的类别敏感型边缘检测方法
CN114926826A (zh) 场景文本检测***
Dong et al. A cloud detection method for GaoFen-6 wide field of view imagery based on the spectrum and variance of superpixels
CN110647897B (zh) 一种基于多部分注意力机制的零样本图像分类识别方法
Jia et al. AADH-YOLOv5: improved YOLOv5 based on adaptive activate decoupled head for garbage detection
CN114581928A (zh) 一种表格识别方法及***
Qin et al. Dense sampling and detail enhancement network: Improved small object detection based on dense sampling and detail enhancement
CN104537392A (zh) 一种基于判别性语义部件学习的对象检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant