CN107944443A - 一种基于端到端深度学习进行对象一致性检测方法 - Google Patents
一种基于端到端深度学习进行对象一致性检测方法 Download PDFInfo
- Publication number
- CN107944443A CN107944443A CN201711139653.8A CN201711139653A CN107944443A CN 107944443 A CN107944443 A CN 107944443A CN 201711139653 A CN201711139653 A CN 201711139653A CN 107944443 A CN107944443 A CN 107944443A
- Authority
- CN
- China
- Prior art keywords
- mrow
- roi
- consistency
- detection
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Neurology (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于端到端深度学习进行对象一致性检测方法,旨在同时找到图像中对象的位置,类别和一致性,采用兴趣区域对齐层从图像特征图正确计算兴趣区域的特征,利用卷积层序列将RoI特征图上采样到高分辨卷积层获得一致性图,采用鲁棒策略调整训练模型来监督其一致性。对象检测用于对象定位,一致性检测将对象中的每个像素分配给其一致性标签,使用多任务损失进行训练包围盒分类、位置和一致性的映射,最后训练和推理获得一致性标签。本发明采用端到端深度学习,使用多任务损失函数联合优化对象检测和一致性检测,不需要额外信息,降低了训练和测试过程中的复杂性,有效地提高了检测的准确性,适用于实时机器人的应用。
Description
技术领域
本发明涉及计算机视觉领域,尤其是涉及了一种基于端到端深度学习进行对象一致性检测方法。
背景技术
在计算机视觉中,同时检测对象和分割对象越来越受欢迎,对象可以通过各种视觉属性例如颜色、形状或物理属性例如重量、体积和材料进行描述,这些属性对于识别对象或将其分类到不同的类别是有用的,在许多机器人应用中,识别对象一致性是至关重要的,然而机器人可能依然需要更多信息来完成任务,机器人不仅必须检测对象一致性,而且也要能够定位和识别相关的对象。对象一致性检测作为新兴课题,在许多领域有着实用性发展,例如场景理解、视频搜索、物体检测、行为分析、三维场景重建、人机交互等方面,特别地,在交通领域中的无人驾驶、智能家居中的对象检测、医疗诊断中的人机交互等都具有广阔的应用前景。理解对象或对象一致性不同于仅描述对象的视觉物理属性,还需要获得对象一致性信息以及和人类的交互,因此,理解对象一致性是自主机器人与对象交互并协助人们进行各种日常工作的关键。
然而,检测对象的一致性比传统的语义分割问题更为困难,两个具有不同外观的对象可能具有相同的一致性标签,因为一致性标签是基于人类对对象行为的抽象概念,另外,对于一致性进行实时检测以及对无法看见对象的概括也是至关重要的。现有常用方法使用两个连续的深层神经网络,非常耗时,不适用于实时应用。
本发明提出了一种基于端到端深度学习进行对象一致性检测方法,旨在同时找到图像中对象的位置,类别和一致性,采用兴趣区域对齐层(RoIAlign)从图像特征图正确计算兴趣区域(RoI)的特征,利用卷积层序列将RoI特征图上采样到高分辨卷积层获得一致性图,采用鲁棒策略调整训练模型来监督其一致性。对象检测用于对象定位,一致性检测将对象中的每个像素分配给其一致性标签,使用多任务损失进行训练包围盒分类、位置和一致性的映射,最后训练和推理获得一致性标签。本发明采用端到端深度学习,使用多任务损失函数联合优化对象检测和一致性检测,不需要额外信息,降低了训练和测试过程中的复杂性,有效地提高了检测的准确性,适用于实时机器人的应用。
发明内容
针对耗时间、不适用于实时应用的问题,本发明采用端到端深度学习,使用多任务损失函数联合优化对象检测和一致性检测,不需要额外信息,降低了训练和测试过程中的复杂性,有效地提高了检测的准确性,适用于实时机器人的应用。
为解决上述问题,本发明提供一种基于端到端深度学习进行对象一致性检测方法,主要包括:
问题定式化(一);
一致性网络架构(二);
多任务损失(三);
训练和推理(四)。
其中,所述的问题定式化,框架旨在同时找到对象的位置,对象类别和图像中的对象的一致性,按照计算机视觉中的标准设计,对象的位置由相对于图像的左上角矩形定义,对象类别由矩形框定义,在矩形框内的每个像素编码其一致性,物体像素区域具有相同的功能,认为是一致的,理想情况下,检测图像中的所有相关对象,并将这些对象中的每个像素映射到最可能的一致性标签。
其中,所述的一致性网络架构,有三个主要组成部分:1)兴趣区域对齐层(RoIAlign)用于从图像特征图正确计算兴趣区域(RoI)的特征;2)卷积层序列将RoI特征图上采样到高分辨卷积层获得光滑、细腻的一致性图;3)采用鲁棒策略调整训练模型来监督其一致性。
进一步地,所述的兴趣区域对齐层(RoIAlign),区域建议网络(RPN)基于区域进行目标探测,该网络与主卷积骨干共享权重,输出不同大小的包围盒,每个RoI使用RoIPool层从图像特征图集合层中汇集成固定大小的小特征映射(例如7×7),RoIAlign层适当地将提取的特征与RoI对齐,不使用舍入操作,RoIAlign层采用双线性插值计算每个RoI格子中规则采样位置的内插值,使用最大运算来聚合结果,避免RoI和提取的特征之间的失调。
进一步地,所述高分辨卷积层,使用小的固定大小的模型(例如14×14或28×28)来表示对象分割模型,RoI的每个预测模型中的像素值是二进制的,即前景和背景,因为每个对象中都有多个一致性类,使用小型模型在提供检测问题中不能很好地工作,故使用解卷积层来实现高分辨率一致性模型,形式上,给定输入特征图尺寸为Si,解卷积层执行与卷积层相反的操作,为了构建更大的输出图尺寸So,Si与So的关系为:
So=s*(Si-1)+Sf-2*d (1)
其中Sf是过滤器尺寸;s和d分别是步幅和填充参数;实际上,RoIAlign层输出尺寸为7×7的特征图,使用三个解卷积层将该图上采样到更高的分辨率,第一个解卷积层填充参数d=1,步幅s=1,内核大小Sf=8,创建尺寸为30×30的图,类似地,第二层参数为(d=1,s=4,Sf=8),第三层参数为(d=1,s=2,Sf=4)创建尺寸为244×244的最终高分辨率图,在每个解卷积层之前,使用卷积层来学习特征将用于去卷积,卷积层可以看作是两个连续的解卷积层之间的适配。
进一步地,所述的训练模型,一致性模型检测分支需要一个固定的尺寸(例如244×244)监督训练,使用单个阈值在一致性检测问题中不起作用,故提出多阈值策略调整尺寸,给定一个原始对照组模型,在不失一般性的情况下,设模型中n个独立标签P=(c0,c1,…,cn-1),将P中的值线性映射设为使用从P到的映射来将原始模型转化为新的模型;将转换的模型调整为预定义的模型尺寸,并在调整尺寸的模型上使用阈值,如下所示:
其中,ρ(x,y)是调整模型的像素值;是的值中的一个;α是超级参数,设为0.005;将阈值模型中的值重新映射到原始标签值(通过使用从到P的映射)来实现对象训练模型。
进一步地,所述的端到端深度学习,网络由两个分支组成,用于对象检测和一致性检测,给定输入图像,使用VGG16网络作为骨干从图像中提取深层特征,然后使用与卷积骨架共享权重的RPN来生成候选包围盒(RoIs),对于每个RoI,RoIAlign层提取并将其相应的特征汇聚到一个7×7大小的特征图中,在对象检测分支中,使用两个完全连接的层,每层都有4096个神经元,其次分类层对对象进行分类,回归层回归对象位置;在一致性检测分支中,7×7大小的特征图上采样放大到244×244获得高分辨率图,使用softmax层将244×244映射中的每个像素分配给其最可能的一致性类,整个网络使用多任务丢失函数进行端到端的训练。
其中,所述的多任务损失,端到端架构中,在K+1个对象类型分类层输出概率分布p=(p0,…,pK),p是softmax层的输出,回归层输出K+1个包围盒回归偏移(每个偏移包括框中心和框大小):每个偏移量tk对应于每个类别k,对tk进行参数化,tk指定一个尺度不变的转化,高度/宽度相对移位关系RPN包围盒,一致性检测分支输出每个像素i的RoI内一组概率分布m={mi}i∈RoI,其中是在包括背景的C+1一致性标签上定义的softmax层输出;使用一个多任务损失L进行联合训练包围盒分类、包围盒位置和一致性映射,如下:
L=Lcls+Lloc+Laff (3)
其中Lcls定义为分类层的输出,Lloc定义为回归层的输出,Laff定义为一致性检测分支的输出。
进一步地,每个RoI的预测对象是对照组对象类u,对照组包围盒偏移υ和目标一致性模型s,训练数据集提供u和υ的值,目标一致性模型s是RoI与其相关联的对照组模型之间的交集,对于不属于交集的RoI内部像素,我们将其标记为背景,将对象掩码调整为固定的大小(即244×244),将公式(3)写为:
L(p,u,tu,v,m,s)=Lcls(p,u)+I[u≥1]Lloc(tu,v)+I[u≥1]Laff(m,s) (4)
第一个损失Lcls(p,u)是多项分类的交叉熵损失,计算如下:
Lcls(p,u)=-log(pu) (5)
其中,pu是对照组对象类u的softmax输出,第二个损失Lloc(tu,v)是回归框偏移tu(对应于对照组对象类u)和对照组包围盒偏移υ之间的平滑L1损失,计算如下:
其中:
Laff(m,s)是一致性检测分支的多项交叉熵损失,计算如下:
其中,是真实标签si的像素i处的softmax输出;N是RoI中的像素数;
在等式(4)中,I[u≥1]是一个指标函数,当u≥1时输出1,否则为0,只定义框位置损失Lloc,只有RoI为正时,定义一致性检测损失Laff,RoI的值为正或负时,定义物体分类损失Lcls,一致性检测分支损失与实例分割损失不同,每个RoI中的分割为二进制分割,即前景和背景,在一致性检测问题中,一致性标签与对象标签不同,每个RoI中的一致性标签数量不是二进制的,即它总是大于2(包括背景),因此,一致性标签依赖于每个像素的softmax和多项交叉熵损失。
其中,所述的训练和推理,以端到端的方式训练网络,采用0.9动量和0.0005重量衰减的随机梯度下降法,该网络进行20万次迭代训练,前15万次的学习率设置为0.001,最后5万次的学习率降低,输入图像被调整大小,使得短的边缘为600像素,长的边缘不超过1000像素;如果较长的边缘超过1000像素,则较长的边缘设置为1000像素,并且基于该边缘调整图像大小;在RPN中使用15个锚点,RPN的前2000个RoI用于计算多任务损失;在推理阶段,选择RPN生成的前1000个RoI,在这些RoI上运行对象检测分支,从检测分支的输出,选择分类分数高于0.9的输出框作为最终检测到的对象,如果没有满足该条件的框,则选择具有最高分类分数的一个作为唯一检测对象,使用检测到的对象作为供应检测分支的输入,对于检测到的对象中的每个像素,一致性分类预测获得每个像素的输出一致性标签;最后,采用调整大小策略将每个对象预测的244×244一致性模型调整为对象(框)大小,如果检测到的对象之间存在重叠,最终一致性标签基于优先级来确定。
附图说明
图1是本发明一种基于端到端深度学习进行对象一致性检测方法的***流程图。
图2是本发明一种基于端到端深度学习进行对象一致性检测方法的一致性网络架构图。
图3是本发明一种基于端到端深度学习进行对象一致性检测方法的解卷积上采样图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于端到端深度学习进行对象一致性检测方法的***流程图。主要包括:问题定式化(一);一致性网络架构(二);多任务损失(三);训练和推理(四)。
问题定式化框架旨在同时找到对象的位置,对象类别和图像中的对象的一致性,按照计算机视觉中的标准设计,对象的位置由相对于图像的左上角矩形定义,对象类别由矩形框定义,在矩形框内的每个像素编码其一致性,物体像素区域具有相同的功能,认为是一致的,理想情况下,检测图像中的所有相关对象,并将这些对象中的每个像素映射到最可能的一致性标签。
端到端架构中,在K+1个对象类型分类层输出概率分布p=(p0,…,pK),p是softmax层的输出,回归层输出K+1个包围盒回归偏移(每个偏移包括框中心和框大小):每个偏移量tk对应于每个类别k,对tk进行参数化,tk指定一个尺度不变的转化,高度/宽度相对移位关系RPN包围盒,一致性检测分支输出每个像素i的RoI内一组概率分布m={mi}i∈RoI,其中是在包括背景的C+1一致性标签上定义的softmax层输出;使用一个多任务损失L进行联合训练包围盒分类、包围盒位置和一致性映射,如下:
L=Lcls+Lloc+Laff (1)
其中Lcls定义为分类层的输出,Lloc定义为回归层的输出,Laff定义为一致性检测分支的输出。
每个RoI的预测对象是对照组对象类u,对照组包围盒偏移υ和目标一致性模型s,训练数据集提供u和υ的值,目标一致性模型s是RoI与其相关联的对照组模型之间的交集,对于不属于交集的RoI内部像素,我们将其标记为背景,将对象掩码调整为固定的大小(即244×244),将公式写为:
L(p,u,tu,v,m,s)=Lcls(p,u)+I[u≥1]Lloc(tu,v)+I[u≥1]Laff(m,s) (2)
第一个损失Lcls(p,u)是多项分类的交叉熵损失,计算如下:
Lcls(p,u)=-log(pu) (3)
其中,pu是对照组对象类u的softmax输出,第二个损失Lloc(tu,v)是回归框偏移tu(对应于对照组对象类u)和对照组包围盒偏移υ之间的L1平滑损失,计算如下:
其中:
Laff(m,s)是一致性检测分支的多项交叉熵损失,计算如下:
其中,是真实标签si的像素i处的softmax输出;N是RoI中的像素数;
在等式(1)中,I[u≥1]是一个指标函数,当u≥1时输出1,否则为0,只定义框位置损失Lloc,只有RoI为正时,定义一致性检测损失Laff,RoI的值为正或负时,定义物体分类损失Lcls,一致性检测分支损失与实例分割损失不同,每个RoI中的分割为二进制分割,即前景和背景,在一致性检测问题中,一致性标签与对象标签不同,每个RoI中的一致性标签数量不是二进制的,即它总是大于2(包括背景),因此,一致性标签依赖于每个像素的softmax和多项交叉熵损失。
以端到端的方式训练网络,采用0.9动量和0.0005重量衰减的随机梯度下降法,该网络进行20万次迭代训练,前15万次的学习率设置为0.001,最后5万次的学习率降低,输入图像被调整大小,使得短的边缘为600像素,长的边缘不超过1000像素;如果较长的边缘超过1000像素,则较长的边缘设置为1000像素,并且基于该边缘调整图像大小;在RPN中使用15个锚点,RPN的前2000个RoI用于计算多任务损失;在推理阶段,选择RPN生成的前1000个RoI,在这些RoI上运行对象检测分支,从检测分支的输出,选择分类分数高于0.9的输出框作为最终检测到的对象,如果没有满足该条件的框,则选择具有最高分类分数的一个作为唯一检测对象,使用检测到的对象作为供应检测分支的输入,对于检测到的对象中的每个像素,一致性分类预测获得每个像素的输出一致性标签;最后,采用调整大小策略将每个对象预测的244×244一致性模型调整为对象(框)大小,如果检测到的对象之间存在重叠,最终一致性标签基于优先级来确定。
图2是本发明一种基于端到端深度学习进行对象一致性检测方法的一致性网络架构图。一致性网络架构有三个主要组成部分:1)兴趣区域对齐层(RoIAlign)用于从图像特征图正确计算兴趣区域(RoI)的特征;2)卷积层序列将RoI特征图上采样到高分辨卷积层获得光滑、细腻的一致性图;3)采用鲁棒策略调整训练模型来监督其一致性。
兴趣区域对齐层(RoIAlign),区域建议网络(RPN)基于区域进行目标探测,该网络与主卷积骨干共享权重,输出不同大小的包围盒,每个RoI使用RoIPool层从图像特征图集合层中汇集成固定大小的小特征映射(例如7×7),RoIAlign层适当地将提取的特征与RoI对齐,不使用舍入操作,RoIAlign层采用双线性插值计算每个RoI格子中规则采样位置的内插值,使用最大运算来聚合结果,避免RoI和提取的特征之间的失调。
一致性模型检测分支需要一个固定的尺寸(例如244×244)监督训练,使用单个阈值在一致性检测问题中不起作用,故提出多阈值策略调整尺寸,给定一个原始对照组模型,在不失一般性的情况下,设模型中n个独立标签P=(c0,c1,…,cn-1),将P中的值线性映射设为 使用从P到的映射来将原始模型转化为新的模型;将转换的模型调整为预定义的模型尺寸,并在调整尺寸的模型上使用阈值,如下所示:
其中,ρ(x,y)是调整模型的像素值;是的值中的一个;α是超级参数,设为0.005;将阈值模型中的值重新映射到原始标签值(通过使用从到P的映射)来实现对象训练模型。
端到端深度学习网络由两个分支组成,用于对象检测和一致性检测,给定输入图像,使用VGG16网络作为骨干从图像中提取深层特征,然后使用与卷积骨架共享权重的RPN来生成候选包围盒(RoIs),对于每个RoI,RoIAlign层提取并将其相应的特征汇聚到一个7×7大小的特征图中,在对象检测分支中,使用两个完全连接的层,每层都有4096个神经元,其次分类层对对象进行分类,回归层回归对象位置;在一致性检测分支中,7×7大小的特征图上采样放大到244×244获得高分辨率图,使用softmax层将244×244映射中的每个像素分配给其最可能的一致性类,整个网络使用多任务丢失函数进行端到端的训练。
图3是本发明一种基于端到端深度学习进行对象一致性检测方法的解卷积上采样图。高分辨卷积层使用小的固定大小的模型(例如14×14或28×28)来表示对象分割模型,RoI的每个预测模型中的像素值是二进制的,即前景和背景,因为每个对象中都有多个一致性类,使用小型模型在提供检测问题中不能很好地工作,故使用解卷积层来实现高分辨率一致性模型,形式上,给定输入特征图尺寸为Si,解卷积层执行与卷积层相反的操作,为了构建更大的输出图尺寸So,Si与So的关系为:
So=s*(Si-1)+Sf-2*d (7)
其中Sf是过滤器尺寸;s和d分别是步幅和填充参数;实际上,RoIAlign层输出尺寸为7×7的特征图,使用三个解卷积层将该图上采样到更高的分辨率,第一个解卷积层填充参数d=1,步幅s=1,内核大小Sf=8,创建尺寸为30×30的图,类似地,第二层参数为(d=1,s=4,Sf=8),第三层参数为(d=1,s=2,Sf=4)创建尺寸为244×244的最终高分辨率图,在每个解卷积层之前,使用卷积层来学习特征将用于去卷积,卷积层可以看作是两个连续的解卷积层之间的适配。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
Claims (10)
1.一种基于端到端深度学习进行对象一致性检测方法,其特征在于,主要包括问题定式化(一);一致性网络架构(二);多任务损失(三);训练和推理(四)。
2.基于权利要求书1所述的问题定式化(一),其特征在于,框架旨在同时找到对象的位置,对象类别和图像中的对象的一致性,按照计算机视觉中的标准设计,对象的位置由相对于图像的左上角矩形定义,对象类别由矩形框定义,在矩形框内的每个像素编码其一致性,物体像素区域具有相同的功能,认为是一致的,理想情况下,检测图像中的所有相关对象,并将这些对象中的每个像素映射到最可能的一致性标签。
3.基于权利要求书1所述的一致性网络架构(二),其特征在于,一致性网络架构的三个主要组成部分:1)兴趣区域对齐层(RoIAlign)用于从图像特征图正确计算兴趣区域(RoI)的特征;2)卷积层序列将RoI特征图上采样到高分辨卷积层获得光滑、细腻的一致性图;3)采用鲁棒策略调整训练模型来监督其一致性。
4.基于权利要求书3所述的兴趣区域对齐层(RoIAlign),其特征在于,区域建议网络(RPN)基于区域进行目标探测,该网络与主卷积骨干共享权重,输出不同大小的包围盒,每个RoI使用RoIPool层从图像特征图集合层中汇集成固定大小的小特征映射(例如7×7),RoIAlign层适当地将提取的特征与RoI对齐,不使用舍入操作,RoIAlign层采用双线性插值计算每个RoI格子中规则采样位置的内插值,使用最大运算来聚合结果,避免RoI和提取的特征之间的失调。
5.基于权利要求书3所述高分辨卷积层,其特征在于,使用小的固定大小的模型(例如14×14或28×28)来表示对象分割模型,RoI的每个预测模型中的像素值是二进制的,即前景和背景,因为每个对象中都有多个一致性类,使用小型模型在提供检测问题中不能很好地工作,故使用解卷积层来实现高分辨率一致性模型,形式上,给定输入特征图尺寸为Si,解卷积层执行与卷积层相反的操作,为了构建更大的输出图尺寸So,Si与So的关系为:
So=s*(Si-1)+Sf-2*d (1)
其中Sf是过滤器尺寸;s和d分别是步幅和填充参数;实际上,RoIAlign层输出尺寸为7×7的特征图,使用三个解卷积层将该图上采样到更高的分辨率,第一个解卷积层填充参数d=1,步幅s=1,内核大小Sf=8,创建尺寸为30×30的图,类似地,第二层参数为(d=1,s=4,Sf=8),第三层参数为(d=1,s=2,Sf=4)创建尺寸为244×244的最终高分辨率图,在每个解卷积层之前,使用卷积层来学习特征将用于去卷积,卷积层可以看作是两个连续的解卷积层之间的适配。
6.基于权利要求书3所述的训练模型,其特征在于,一致性模型检测分支需要一个固定的尺寸(例如244×244)监督训练,使用单个阈值在一致性检测问题中不起作用,故提出多阈值策略调整尺寸,给定一个原始对照组模型,在不失一般性的情况下,设模型中n个独立标签P=(c0,c1,…,cn-1),将P中的值线性映射设为使用从P到的映射来将原始模型转化为新的模型;将转换的模型调整为预定义的模型尺寸,并在调整尺寸的模型上使用阈值,如下所示:
其中,ρ(x,y)是调整模型的像素值;是的值中的一个;α是超级参数,设为0.005;将阈值模型中的值重新映射到原始标签值(通过使用从到P的映射)来实现对象训练模型。
7.基于权利要求书1所述的端到端深度学习,其特征在于,网络由两个分支组成,用于对象检测和一致性检测,给定输入图像,使用VGG16网络作为骨干从图像中提取深层特征,然后使用与卷积骨架共享权重的RPN来生成候选包围盒(RoIs),对于每个RoI,RoIAlign层提取并将其相应的特征汇聚到一个7×7大小的特征图中,在对象检测分支中,使用两个完全连接的层,每层都有4096个神经元,其次分类层对对象进行分类,回归层回归对象位置;在一致性检测分支中,7×7大小的特征图上采样放大到244×244获得高分辨率图,使用softmax层将244×244映射中的每个像素分配给其最可能的一致性类,整个网络使用多任务丢失函数进行端到端的训练。
8.基于权利要求书1所述的多任务损失(三),其特征在于,端到端架构中,在K+1个对象类型分类层输出概率分布p=(p0,…,pK),p是softmax层的输出,回归层输出K+1个包围盒回归偏移(每个偏移包括框中心和框大小):每个偏移量tk对应于每个类别k,对tk进行参数化,tk指定一个尺度不变的转化,高度/宽度相对移位关系RPN包围盒,一致性检测分支输出每个像素i的RoI内一组概率分布m={mi}i∈RoI,其中是在包括背景的C+1一致性标签上定义的softmax层输出;使用一个多任务损失L进行联合训练包围盒分类、包围盒位置和一致性映射,如下:
L=Lcls+Lloc+Laff (3)
其中Lcls定义为分类层的输出,Lloc定义为回归层的输出,Laff定义为一致性检测分支的输出。
9.基于权利要求书8所述的损失,其特征在于,每个RoI的预测对象是对照组对象类u,对照组包围盒偏移υ和目标一致性模型s,训练数据集提供u和υ的值,目标一致性模型s是RoI与其相关联的对照组模型之间的交集,对于不属于交集的RoI内部像素,我们将其标记为背景,将对象掩码调整为固定的大小(即244×244),将公式(3)写为:
L(p,u,tu,v,m,s)=Lcls(p,u)+I[u≥1]Lloc(tu,v)+I[u≥1]Laff(m,s) (4)
第一个损失Lcls(p,u)是多项分类的交叉熵损失,计算如下:
Lcls(p,u)=-log(pu) (5)
其中,pu是对照组对象类u的softmax输出,第二个损失Lloc(tu,v)是回归框偏移tu(对应于对照组对象类u)和对照组包围盒偏移υ之间的L1平滑损失,计算如下:
<mrow>
<msub>
<mi>L</mi>
<mrow>
<mi>l</mi>
<mi>o</mi>
<mi>c</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msup>
<mi>t</mi>
<mi>u</mi>
</msup>
<mo>,</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>&Element;</mo>
<mo>{</mo>
<mi>x</mi>
<mo>,</mo>
<mi>y</mi>
<mo>,</mo>
<mi>w</mi>
<mo>,</mo>
<mi>h</mi>
<mo>}</mo>
</mrow>
</munder>
<msub>
<mi>Smooth</mi>
<mrow>
<mi>L</mi>
<mn>1</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msubsup>
<mi>t</mi>
<mi>i</mi>
<mi>u</mi>
</msubsup>
<mo>-</mo>
<msub>
<mi>v</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>6</mn>
<mo>)</mo>
</mrow>
</mrow>
其中:
Laff(m,s)是一致性检测分支的多项交叉熵损失,计算如下:
<mrow>
<msub>
<mi>L</mi>
<mrow>
<mi>a</mi>
<mi>f</mi>
<mi>f</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mo>,</mo>
<mi>s</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</mfrac>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>&Element;</mo>
<mi>R</mi>
<mi>o</mi>
<mi>I</mi>
</mrow>
</munder>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>m</mi>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mi>i</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>7</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,是真实标签si的像素i处的softmax输出;N是RoI中的像素数;在等式(4)中,I[u≥1]是一个指标函数,当u≥1时输出1,否则为0,只定义框位置损失Lloc,只有RoI为正时,定义一致性检测损失Laff,RoI的值为正或负时,定义物体分类损失Lcls,一致性检测分支损失与实例分割损失不同,每个RoI中的分割为二进制分割,即前景和背景,在一致性检测问题中,一致性标签与对象标签不同,每个RoI中的一致性标签数量不是二进制的,即它总是大于2(包括背景),因此,一致性标签依赖于每个像素的softmax和多项交叉熵损失。
10.基于权利要求书1所述的训练和推理(四),其特征在于,以端到端的方式训练网络,采用0.9动量和0.0005重量衰减的随机梯度下降法,该网络进行20万次迭代训练,前15万次的学习率设置为0.001,最后5万次的学习率降低,输入图像被调整大小,使得短的边缘为600像素,长的边缘不超过1000像素;如果较长的边缘超过1000像素,则较长的边缘设置为1000像素,并且基于该边缘调整图像大小;在RPN中使用15个锚点,RPN的前2000个RoI用于计算多任务损失;在推理阶段,选择RPN生成的前1000个RoI,在这些RoI上运行对象检测分支,从检测分支的输出,选择分类分数高于0.9的输出框作为最终检测到的对象,如果没有满足该条件的框,则选择具有最高分类分数的一个作为唯一检测对象,使用检测到的对象作为供应检测分支的输入,对于检测到的对象中的每个像素,一致性分类预测获得每个像素的输出一致性标签;最后,采用调整大小策略将每个对象预测的244×244一致性模型调整为对象(框)大小,如果检测到的对象之间存在重叠,最终一致性标签基于优先级来确定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711139653.8A CN107944443A (zh) | 2017-11-16 | 2017-11-16 | 一种基于端到端深度学习进行对象一致性检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711139653.8A CN107944443A (zh) | 2017-11-16 | 2017-11-16 | 一种基于端到端深度学习进行对象一致性检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107944443A true CN107944443A (zh) | 2018-04-20 |
Family
ID=61932635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711139653.8A Withdrawn CN107944443A (zh) | 2017-11-16 | 2017-11-16 | 一种基于端到端深度学习进行对象一致性检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107944443A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145898A (zh) * | 2018-07-26 | 2019-01-04 | 清华大学深圳研究生院 | 一种基于卷积神经网络和迭代机制的物体检测方法 |
CN109190537A (zh) * | 2018-08-23 | 2019-01-11 | 浙江工商大学 | 一种基于掩码感知深度强化学习的多人物姿态估计方法 |
CN109299434A (zh) * | 2018-09-04 | 2019-02-01 | 重庆公共运输职业学院 | 货物海关通关大数据智能评级及抽检率计算*** |
CN109801297A (zh) * | 2019-01-14 | 2019-05-24 | 浙江大学 | 一种基于卷积实现的图像全景分割预测优化方法 |
CN109871798A (zh) * | 2019-02-01 | 2019-06-11 | 浙江大学 | 一种基于卷积神经网络的遥感影像建筑物提取方法 |
CN110008808A (zh) * | 2018-12-29 | 2019-07-12 | 北京迈格威科技有限公司 | 全景分割方法、装置和***及存储介质 |
CN110298364A (zh) * | 2019-06-27 | 2019-10-01 | 安徽师范大学 | 面向功能性脑网络的多阈值下基于多任务的特征选择方法 |
CN110349167A (zh) * | 2019-07-10 | 2019-10-18 | 北京悉见科技有限公司 | 一种图像实例分割方法及装置 |
CN110633595A (zh) * | 2018-06-21 | 2019-12-31 | 北京京东尚科信息技术有限公司 | 一种利用双线性插值的目标检测方法和装置 |
CN110909748A (zh) * | 2018-09-17 | 2020-03-24 | 斯特拉德视觉公司 | 应用多馈送的图像编码方法和装置 |
CN110956131A (zh) * | 2019-11-27 | 2020-04-03 | 北京迈格威科技有限公司 | 单目标追踪方法、装置及*** |
WO2020156303A1 (zh) * | 2019-01-30 | 2020-08-06 | 广州市百果园信息技术有限公司 | 语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质 |
WO2020155518A1 (zh) * | 2019-02-03 | 2020-08-06 | 平安科技(深圳)有限公司 | 物体检测方法、装置、计算机设备及存储介质 |
CN112684704A (zh) * | 2020-12-18 | 2021-04-20 | 华南理工大学 | 基于深度学习的端到端运动控制方法、***、装置及介质 |
CN112692875A (zh) * | 2021-01-06 | 2021-04-23 | 华南理工大学 | 一种焊接机器人运行与维护的数字孪生*** |
CN112799401A (zh) * | 2020-12-28 | 2021-05-14 | 华南理工大学 | 一种端到端的机器人视觉-运动导航方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106204555A (zh) * | 2016-06-30 | 2016-12-07 | 天津工业大学 | 一种结合Gbvs模型和相位一致性的视盘定位方法 |
CN106599939A (zh) * | 2016-12-30 | 2017-04-26 | 深圳市唯特视科技有限公司 | 一种基于区域卷积神经网络的实时目标检测方法 |
CN106780536A (zh) * | 2017-01-13 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于对象掩码网络的形状感知实例分割方法 |
-
2017
- 2017-11-16 CN CN201711139653.8A patent/CN107944443A/zh not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106204555A (zh) * | 2016-06-30 | 2016-12-07 | 天津工业大学 | 一种结合Gbvs模型和相位一致性的视盘定位方法 |
CN106599939A (zh) * | 2016-12-30 | 2017-04-26 | 深圳市唯特视科技有限公司 | 一种基于区域卷积神经网络的实时目标检测方法 |
CN106780536A (zh) * | 2017-01-13 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于对象掩码网络的形状感知实例分割方法 |
Non-Patent Citations (1)
Title |
---|
THANH-TOAN DO ET AL.: "AffordanceNet: An End-to-End Deep Learning Approach for Object Affordance Detection", 《ARXIV》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110633595B (zh) * | 2018-06-21 | 2022-12-02 | 北京京东尚科信息技术有限公司 | 一种利用双线性插值的目标检测方法和装置 |
CN110633595A (zh) * | 2018-06-21 | 2019-12-31 | 北京京东尚科信息技术有限公司 | 一种利用双线性插值的目标检测方法和装置 |
CN109145898A (zh) * | 2018-07-26 | 2019-01-04 | 清华大学深圳研究生院 | 一种基于卷积神经网络和迭代机制的物体检测方法 |
CN109190537A (zh) * | 2018-08-23 | 2019-01-11 | 浙江工商大学 | 一种基于掩码感知深度强化学习的多人物姿态估计方法 |
CN109190537B (zh) * | 2018-08-23 | 2020-09-29 | 浙江工商大学 | 一种基于掩码感知深度强化学习的多人物姿态估计方法 |
CN109299434A (zh) * | 2018-09-04 | 2019-02-01 | 重庆公共运输职业学院 | 货物海关通关大数据智能评级及抽检率计算*** |
CN110909748A (zh) * | 2018-09-17 | 2020-03-24 | 斯特拉德视觉公司 | 应用多馈送的图像编码方法和装置 |
CN110909748B (zh) * | 2018-09-17 | 2023-09-19 | 斯特拉德视觉公司 | 应用多馈送的图像编码方法和装置 |
CN110008808A (zh) * | 2018-12-29 | 2019-07-12 | 北京迈格威科技有限公司 | 全景分割方法、装置和***及存储介质 |
CN109801297A (zh) * | 2019-01-14 | 2019-05-24 | 浙江大学 | 一种基于卷积实现的图像全景分割预测优化方法 |
WO2020156303A1 (zh) * | 2019-01-30 | 2020-08-06 | 广州市百果园信息技术有限公司 | 语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质 |
CN109871798A (zh) * | 2019-02-01 | 2019-06-11 | 浙江大学 | 一种基于卷积神经网络的遥感影像建筑物提取方法 |
WO2020155518A1 (zh) * | 2019-02-03 | 2020-08-06 | 平安科技(深圳)有限公司 | 物体检测方法、装置、计算机设备及存储介质 |
CN110298364A (zh) * | 2019-06-27 | 2019-10-01 | 安徽师范大学 | 面向功能性脑网络的多阈值下基于多任务的特征选择方法 |
CN110349167A (zh) * | 2019-07-10 | 2019-10-18 | 北京悉见科技有限公司 | 一种图像实例分割方法及装置 |
CN110956131A (zh) * | 2019-11-27 | 2020-04-03 | 北京迈格威科技有限公司 | 单目标追踪方法、装置及*** |
CN110956131B (zh) * | 2019-11-27 | 2024-01-05 | 北京迈格威科技有限公司 | 单目标追踪方法、装置及*** |
CN112684704A (zh) * | 2020-12-18 | 2021-04-20 | 华南理工大学 | 基于深度学习的端到端运动控制方法、***、装置及介质 |
CN112799401A (zh) * | 2020-12-28 | 2021-05-14 | 华南理工大学 | 一种端到端的机器人视觉-运动导航方法 |
CN112692875B (zh) * | 2021-01-06 | 2021-08-10 | 华南理工大学 | 一种焊接机器人运行与维护的数字孪生*** |
CN112692875A (zh) * | 2021-01-06 | 2021-04-23 | 华南理工大学 | 一种焊接机器人运行与维护的数字孪生*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107944443A (zh) | 一种基于端到端深度学习进行对象一致性检测方法 | |
CN110428428B (zh) | 一种图像语义分割方法、电子设备和可读存储介质 | |
CN104809187B (zh) | 一种基于rgb‑d数据的室内场景语义标注方法 | |
Zhang et al. | Mask SSD: An effective single-stage approach to object instance segmentation | |
CN105869178B (zh) | 一种基于多尺度组合特征凸优化的复杂目标动态场景无监督分割方法 | |
CN110929665B (zh) | 一种自然场景曲线文本检测方法 | |
CN106920243A (zh) | 改进的全卷积神经网络的陶瓷材质件序列图像分割方法 | |
CN105825502B (zh) | 一种基于显著性指导的词典学习的弱监督图像解析方法 | |
CN107909015A (zh) | 基于卷积神经网络及空谱信息融合的高光谱图像分类方法 | |
CN104281853A (zh) | 一种基于3d卷积神经网络的行为识别方法 | |
CN106599805A (zh) | 一种基于有监督数据驱动的单目视频深度估计方法 | |
CN106570874A (zh) | 一种结合图像局部约束与对象全局约束的图像标记方法 | |
CN104298974A (zh) | 一种基于深度视频序列的人体行为识别方法 | |
CN112734789A (zh) | 一种基于半监督学习和点渲染的图像分割方法及*** | |
CN109726725A (zh) | 一种基于大间隔类间互异性多核学习的油画作者识别方法 | |
Liu et al. | Robust salient object detection for RGB images | |
Hernández et al. | CUDA-based parallelization of a bio-inspired model for fast object classification | |
Vinoth Kumar et al. | A decennary survey on artificial intelligence methods for image segmentation | |
CN107657276B (zh) | 一种基于寻找语义类簇的弱监督语义分割方法 | |
CN103440651A (zh) | 一种基于秩最小化的多标签图像标注结果融合方法 | |
Liu et al. | Dunhuang murals contour generation network based on convolution and self-attention fusion | |
CN117422978A (zh) | 基于动态双级视觉信息融合的接地视觉问答方法 | |
CN104778683A (zh) | 一种基于泛函映射的多模态图像分割方法 | |
Wang et al. | Self-attention deep saliency network for fabric defect detection | |
CN110378880A (zh) | 基于视觉的火化机燃烧时间计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180420 |