CN107944443A

CN107944443A - 一种基于端到端深度学习进行对象一致性检测方法

Info

Publication number: CN107944443A
Application number: CN201711139653.8A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-11-16
Filing date: 2017-11-16
Publication date: 2018-04-20

Abstract

本发明提出了一种基于端到端深度学习进行对象一致性检测方法，旨在同时找到图像中对象的位置，类别和一致性，采用兴趣区域对齐层从图像特征图正确计算兴趣区域的特征，利用卷积层序列将RoI特征图上采样到高分辨卷积层获得一致性图，采用鲁棒策略调整训练模型来监督其一致性。对象检测用于对象定位，一致性检测将对象中的每个像素分配给其一致性标签，使用多任务损失进行训练包围盒分类、位置和一致性的映射，最后训练和推理获得一致性标签。本发明采用端到端深度学习，使用多任务损失函数联合优化对象检测和一致性检测，不需要额外信息，降低了训练和测试过程中的复杂性，有效地提高了检测的准确性，适用于实时机器人的应用。

Description

一种基于端到端深度学习进行对象一致性检测方法

技术领域

本发明涉及计算机视觉领域，尤其是涉及了一种基于端到端深度学习进行对象一致性检测方法。

背景技术

在计算机视觉中，同时检测对象和分割对象越来越受欢迎，对象可以通过各种视觉属性例如颜色、形状或物理属性例如重量、体积和材料进行描述，这些属性对于识别对象或将其分类到不同的类别是有用的，在许多机器人应用中，识别对象一致性是至关重要的，然而机器人可能依然需要更多信息来完成任务，机器人不仅必须检测对象一致性，而且也要能够定位和识别相关的对象。对象一致性检测作为新兴课题，在许多领域有着实用性发展，例如场景理解、视频搜索、物体检测、行为分析、三维场景重建、人机交互等方面，特别地，在交通领域中的无人驾驶、智能家居中的对象检测、医疗诊断中的人机交互等都具有广阔的应用前景。理解对象或对象一致性不同于仅描述对象的视觉物理属性，还需要获得对象一致性信息以及和人类的交互，因此，理解对象一致性是自主机器人与对象交互并协助人们进行各种日常工作的关键。

然而，检测对象的一致性比传统的语义分割问题更为困难，两个具有不同外观的对象可能具有相同的一致性标签，因为一致性标签是基于人类对对象行为的抽象概念，另外，对于一致性进行实时检测以及对无法看见对象的概括也是至关重要的。现有常用方法使用两个连续的深层神经网络，非常耗时，不适用于实时应用。

本发明提出了一种基于端到端深度学习进行对象一致性检测方法，旨在同时找到图像中对象的位置，类别和一致性，采用兴趣区域对齐层(RoIAlign)从图像特征图正确计算兴趣区域(RoI)的特征，利用卷积层序列将RoI特征图上采样到高分辨卷积层获得一致性图，采用鲁棒策略调整训练模型来监督其一致性。对象检测用于对象定位，一致性检测将对象中的每个像素分配给其一致性标签，使用多任务损失进行训练包围盒分类、位置和一致性的映射，最后训练和推理获得一致性标签。本发明采用端到端深度学习，使用多任务损失函数联合优化对象检测和一致性检测，不需要额外信息，降低了训练和测试过程中的复杂性，有效地提高了检测的准确性，适用于实时机器人的应用。

发明内容

针对耗时间、不适用于实时应用的问题，本发明采用端到端深度学习，使用多任务损失函数联合优化对象检测和一致性检测，不需要额外信息，降低了训练和测试过程中的复杂性，有效地提高了检测的准确性，适用于实时机器人的应用。

为解决上述问题，本发明提供一种基于端到端深度学习进行对象一致性检测方法，主要包括：

问题定式化(一)；

一致性网络架构(二)；

多任务损失(三)；

训练和推理(四)。

其中，所述的问题定式化，框架旨在同时找到对象的位置，对象类别和图像中的对象的一致性，按照计算机视觉中的标准设计，对象的位置由相对于图像的左上角矩形定义，对象类别由矩形框定义，在矩形框内的每个像素编码其一致性，物体像素区域具有相同的功能，认为是一致的，理想情况下，检测图像中的所有相关对象，并将这些对象中的每个像素映射到最可能的一致性标签。

其中，所述的一致性网络架构，有三个主要组成部分：1)兴趣区域对齐层(RoIAlign)用于从图像特征图正确计算兴趣区域(RoI)的特征；2)卷积层序列将RoI特征图上采样到高分辨卷积层获得光滑、细腻的一致性图；3)采用鲁棒策略调整训练模型来监督其一致性。

进一步地，所述的兴趣区域对齐层(RoIAlign)，区域建议网络(RPN)基于区域进行目标探测，该网络与主卷积骨干共享权重，输出不同大小的包围盒，每个RoI使用RoIPool层从图像特征图集合层中汇集成固定大小的小特征映射(例如7×7)，RoIAlign层适当地将提取的特征与RoI对齐，不使用舍入操作，RoIAlign层采用双线性插值计算每个RoI格子中规则采样位置的内插值，使用最大运算来聚合结果，避免RoI和提取的特征之间的失调。

进一步地，所述高分辨卷积层，使用小的固定大小的模型(例如14×14或28×28)来表示对象分割模型，RoI的每个预测模型中的像素值是二进制的，即前景和背景，因为每个对象中都有多个一致性类，使用小型模型在提供检测问题中不能很好地工作，故使用解卷积层来实现高分辨率一致性模型，形式上，给定输入特征图尺寸为S_i，解卷积层执行与卷积层相反的操作，为了构建更大的输出图尺寸S_o，S_i与S_o的关系为：

S_o＝s*(S_i-1)+S_f-2*d (1)

其中S_f是过滤器尺寸；s和d分别是步幅和填充参数；实际上，RoIAlign层输出尺寸为7×7的特征图，使用三个解卷积层将该图上采样到更高的分辨率，第一个解卷积层填充参数d＝1，步幅s＝1，内核大小S_f＝8，创建尺寸为30×30的图，类似地，第二层参数为(d＝1，s＝4，S_f＝8)，第三层参数为(d＝1，s＝2，S_f＝4)创建尺寸为244×244的最终高分辨率图，在每个解卷积层之前，使用卷积层来学习特征将用于去卷积，卷积层可以看作是两个连续的解卷积层之间的适配。

进一步地，所述的训练模型，一致性模型检测分支需要一个固定的尺寸(例如244×244)监督训练，使用单个阈值在一致性检测问题中不起作用，故提出多阈值策略调整尺寸，给定一个原始对照组模型，在不失一般性的情况下，设模型中n个独立标签P＝(c₀,c₁,…,c_n-1)，将P中的值线性映射设为使用从P到的映射来将原始模型转化为新的模型；将转换的模型调整为预定义的模型尺寸，并在调整尺寸的模型上使用阈值，如下所示：

其中，ρ(x,y)是调整模型的像素值；是的值中的一个；α是超级参数，设为0.005；将阈值模型中的值重新映射到原始标签值(通过使用从到P的映射)来实现对象训练模型。

进一步地，所述的端到端深度学习，网络由两个分支组成，用于对象检测和一致性检测，给定输入图像，使用VGG16网络作为骨干从图像中提取深层特征，然后使用与卷积骨架共享权重的RPN来生成候选包围盒(RoIs)，对于每个RoI，RoIAlign层提取并将其相应的特征汇聚到一个7×7大小的特征图中，在对象检测分支中，使用两个完全连接的层，每层都有4096个神经元，其次分类层对对象进行分类，回归层回归对象位置；在一致性检测分支中，7×7大小的特征图上采样放大到244×244获得高分辨率图，使用softmax层将244×244映射中的每个像素分配给其最可能的一致性类，整个网络使用多任务丢失函数进行端到端的训练。

其中，所述的多任务损失，端到端架构中，在K+1个对象类型分类层输出概率分布p＝(p₀,…,p_K)，p是softmax层的输出，回归层输出K+1个包围盒回归偏移(每个偏移包括框中心和框大小)：每个偏移量t^k对应于每个类别k，对t^k进行参数化，t^k指定一个尺度不变的转化，高度/宽度相对移位关系RPN包围盒，一致性检测分支输出每个像素i的RoI内一组概率分布m＝{mⁱ}_i∈RoI，其中是在包括背景的C+1一致性标签上定义的softmax层输出；使用一个多任务损失L进行联合训练包围盒分类、包围盒位置和一致性映射，如下：

L＝L_cls+L_loc+L_aff (3)

其中L_cls定义为分类层的输出，L_loc定义为回归层的输出，L_aff定义为一致性检测分支的输出。

进一步地，每个RoI的预测对象是对照组对象类u，对照组包围盒偏移υ和目标一致性模型s，训练数据集提供u和υ的值，目标一致性模型s是RoI与其相关联的对照组模型之间的交集，对于不属于交集的RoI内部像素，我们将其标记为背景，将对象掩码调整为固定的大小(即244×244)，将公式(3)写为：

L(p,u,t^u,v,m,s)＝L_cls(p,u)+I[u≥1]L_loc(t^u,v)+I[u≥1]L_aff(m,s) (4)

第一个损失L_cls(p,u)是多项分类的交叉熵损失，计算如下：

L_cls(p,u)＝-log(p_u) (5)

其中，p_u是对照组对象类u的softmax输出，第二个损失L_loc(t^u,v)是回归框偏移t^u(对应于对照组对象类u)和对照组包围盒偏移υ之间的平滑L1损失，计算如下：

其中：

L_aff(m,s)是一致性检测分支的多项交叉熵损失，计算如下：

其中，是真实标签s_i的像素i处的softmax输出；N是RoI中的像素数；

在等式(4)中,I[u≥1]是一个指标函数，当u≥1时输出1，否则为0，只定义框位置损失L_loc，只有RoI为正时，定义一致性检测损失L_aff，RoI的值为正或负时，定义物体分类损失L_cls，一致性检测分支损失与实例分割损失不同，每个RoI中的分割为二进制分割，即前景和背景，在一致性检测问题中，一致性标签与对象标签不同，每个RoI中的一致性标签数量不是二进制的，即它总是大于2(包括背景)，因此，一致性标签依赖于每个像素的softmax和多项交叉熵损失。

其中，所述的训练和推理，以端到端的方式训练网络，采用0.9动量和0.0005重量衰减的随机梯度下降法，该网络进行20万次迭代训练，前15万次的学习率设置为0.001，最后5万次的学习率降低，输入图像被调整大小，使得短的边缘为600像素，长的边缘不超过1000像素；如果较长的边缘超过1000像素，则较长的边缘设置为1000像素，并且基于该边缘调整图像大小；在RPN中使用15个锚点，RPN的前2000个RoI用于计算多任务损失；在推理阶段，选择RPN生成的前1000个RoI，在这些RoI上运行对象检测分支，从检测分支的输出，选择分类分数高于0.9的输出框作为最终检测到的对象，如果没有满足该条件的框，则选择具有最高分类分数的一个作为唯一检测对象，使用检测到的对象作为供应检测分支的输入，对于检测到的对象中的每个像素，一致性分类预测获得每个像素的输出一致性标签；最后，采用调整大小策略将每个对象预测的244×244一致性模型调整为对象(框)大小，如果检测到的对象之间存在重叠，最终一致性标签基于优先级来确定。

附图说明

图1是本发明一种基于端到端深度学习进行对象一致性检测方法的***流程图。

图2是本发明一种基于端到端深度学习进行对象一致性检测方法的一致性网络架构图。

图3是本发明一种基于端到端深度学习进行对象一致性检测方法的解卷积上采样图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于端到端深度学习进行对象一致性检测方法的***流程图。主要包括：问题定式化(一)；一致性网络架构(二)；多任务损失(三)；训练和推理(四)。

问题定式化框架旨在同时找到对象的位置，对象类别和图像中的对象的一致性，按照计算机视觉中的标准设计，对象的位置由相对于图像的左上角矩形定义，对象类别由矩形框定义，在矩形框内的每个像素编码其一致性，物体像素区域具有相同的功能，认为是一致的，理想情况下，检测图像中的所有相关对象，并将这些对象中的每个像素映射到最可能的一致性标签。

端到端架构中，在K+1个对象类型分类层输出概率分布p＝(p₀,…,p_K)，p是softmax层的输出，回归层输出K+1个包围盒回归偏移(每个偏移包括框中心和框大小)：每个偏移量t^k对应于每个类别k，对t^k进行参数化，t^k指定一个尺度不变的转化，高度/宽度相对移位关系RPN包围盒，一致性检测分支输出每个像素i的RoI内一组概率分布m＝{mⁱ}_i∈RoI，其中是在包括背景的C+1一致性标签上定义的softmax层输出；使用一个多任务损失L进行联合训练包围盒分类、包围盒位置和一致性映射，如下：

L＝L_cls+L_loc+L_aff (1)

每个RoI的预测对象是对照组对象类u，对照组包围盒偏移υ和目标一致性模型s，训练数据集提供u和υ的值，目标一致性模型s是RoI与其相关联的对照组模型之间的交集，对于不属于交集的RoI内部像素，我们将其标记为背景，将对象掩码调整为固定的大小(即244×244)，将公式写为：

L(p,u,t^u,v,m,s)＝L_cls(p,u)+I[u≥1]L_loc(t^u,v)+I[u≥1]L_aff(m,s) (2)

第一个损失L_cls(p,u)是多项分类的交叉熵损失，计算如下：

L_cls(p,u)＝-log(p_u) (3)

其中，p_u是对照组对象类u的softmax输出，第二个损失L_loc(t^u,v)是回归框偏移t^u(对应于对照组对象类u)和对照组包围盒偏移υ之间的L1平滑损失，计算如下：

其中：

L_aff(m,s)是一致性检测分支的多项交叉熵损失，计算如下：

在等式(1)中，I[u≥1]是一个指标函数，当u≥1时输出1，否则为0，只定义框位置损失L_loc，只有RoI为正时，定义一致性检测损失L_aff，RoI的值为正或负时，定义物体分类损失L_cls，一致性检测分支损失与实例分割损失不同，每个RoI中的分割为二进制分割，即前景和背景，在一致性检测问题中，一致性标签与对象标签不同，每个RoI中的一致性标签数量不是二进制的，即它总是大于2(包括背景)，因此，一致性标签依赖于每个像素的softmax和多项交叉熵损失。

以端到端的方式训练网络，采用0.9动量和0.0005重量衰减的随机梯度下降法，该网络进行20万次迭代训练，前15万次的学习率设置为0.001，最后5万次的学习率降低，输入图像被调整大小，使得短的边缘为600像素，长的边缘不超过1000像素；如果较长的边缘超过1000像素，则较长的边缘设置为1000像素，并且基于该边缘调整图像大小；在RPN中使用15个锚点，RPN的前2000个RoI用于计算多任务损失；在推理阶段，选择RPN生成的前1000个RoI，在这些RoI上运行对象检测分支，从检测分支的输出，选择分类分数高于0.9的输出框作为最终检测到的对象，如果没有满足该条件的框，则选择具有最高分类分数的一个作为唯一检测对象，使用检测到的对象作为供应检测分支的输入，对于检测到的对象中的每个像素，一致性分类预测获得每个像素的输出一致性标签；最后，采用调整大小策略将每个对象预测的244×244一致性模型调整为对象(框)大小，如果检测到的对象之间存在重叠，最终一致性标签基于优先级来确定。

图2是本发明一种基于端到端深度学习进行对象一致性检测方法的一致性网络架构图。一致性网络架构有三个主要组成部分：1)兴趣区域对齐层(RoIAlign)用于从图像特征图正确计算兴趣区域(RoI)的特征；2)卷积层序列将RoI特征图上采样到高分辨卷积层获得光滑、细腻的一致性图；3)采用鲁棒策略调整训练模型来监督其一致性。

兴趣区域对齐层(RoIAlign)，区域建议网络(RPN)基于区域进行目标探测，该网络与主卷积骨干共享权重，输出不同大小的包围盒，每个RoI使用RoIPool层从图像特征图集合层中汇集成固定大小的小特征映射(例如7×7)，RoIAlign层适当地将提取的特征与RoI对齐，不使用舍入操作，RoIAlign层采用双线性插值计算每个RoI格子中规则采样位置的内插值，使用最大运算来聚合结果，避免RoI和提取的特征之间的失调。

一致性模型检测分支需要一个固定的尺寸(例如244×244)监督训练，使用单个阈值在一致性检测问题中不起作用，故提出多阈值策略调整尺寸，给定一个原始对照组模型，在不失一般性的情况下，设模型中n个独立标签P＝(c₀,c₁,…,c_n-1)，将P中的值线性映射设为使用从P到的映射来将原始模型转化为新的模型；将转换的模型调整为预定义的模型尺寸，并在调整尺寸的模型上使用阈值，如下所示：

端到端深度学习网络由两个分支组成，用于对象检测和一致性检测，给定输入图像，使用VGG16网络作为骨干从图像中提取深层特征，然后使用与卷积骨架共享权重的RPN来生成候选包围盒(RoIs)，对于每个RoI，RoIAlign层提取并将其相应的特征汇聚到一个7×7大小的特征图中，在对象检测分支中，使用两个完全连接的层，每层都有4096个神经元，其次分类层对对象进行分类，回归层回归对象位置；在一致性检测分支中，7×7大小的特征图上采样放大到244×244获得高分辨率图，使用softmax层将244×244映射中的每个像素分配给其最可能的一致性类，整个网络使用多任务丢失函数进行端到端的训练。

图3是本发明一种基于端到端深度学习进行对象一致性检测方法的解卷积上采样图。高分辨卷积层使用小的固定大小的模型(例如14×14或28×28)来表示对象分割模型，RoI的每个预测模型中的像素值是二进制的，即前景和背景，因为每个对象中都有多个一致性类，使用小型模型在提供检测问题中不能很好地工作，故使用解卷积层来实现高分辨率一致性模型，形式上，给定输入特征图尺寸为S_i，解卷积层执行与卷积层相反的操作，为了构建更大的输出图尺寸S_o，S_i与S_o的关系为：

S_o＝s*(S_i-1)+S_f-2*d (7)

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于端到端深度学习进行对象一致性检测方法，其特征在于，主要包括问题定式化(一)；一致性网络架构(二)；多任务损失(三)；训练和推理(四)。

2.基于权利要求书1所述的问题定式化(一)，其特征在于，框架旨在同时找到对象的位置，对象类别和图像中的对象的一致性，按照计算机视觉中的标准设计，对象的位置由相对于图像的左上角矩形定义，对象类别由矩形框定义，在矩形框内的每个像素编码其一致性，物体像素区域具有相同的功能，认为是一致的，理想情况下，检测图像中的所有相关对象，并将这些对象中的每个像素映射到最可能的一致性标签。

3.基于权利要求书1所述的一致性网络架构(二)，其特征在于，一致性网络架构的三个主要组成部分：1)兴趣区域对齐层(RoIAlign)用于从图像特征图正确计算兴趣区域(RoI)的特征；2)卷积层序列将RoI特征图上采样到高分辨卷积层获得光滑、细腻的一致性图；3)采用鲁棒策略调整训练模型来监督其一致性。

4.基于权利要求书3所述的兴趣区域对齐层(RoIAlign)，其特征在于，区域建议网络(RPN)基于区域进行目标探测，该网络与主卷积骨干共享权重，输出不同大小的包围盒，每个RoI使用RoIPool层从图像特征图集合层中汇集成固定大小的小特征映射(例如7×7)，RoIAlign层适当地将提取的特征与RoI对齐，不使用舍入操作，RoIAlign层采用双线性插值计算每个RoI格子中规则采样位置的内插值，使用最大运算来聚合结果，避免RoI和提取的特征之间的失调。

5.基于权利要求书3所述高分辨卷积层，其特征在于，使用小的固定大小的模型(例如14×14或28×28)来表示对象分割模型，RoI的每个预测模型中的像素值是二进制的，即前景和背景，因为每个对象中都有多个一致性类，使用小型模型在提供检测问题中不能很好地工作，故使用解卷积层来实现高分辨率一致性模型，形式上，给定输入特征图尺寸为S_i，解卷积层执行与卷积层相反的操作，为了构建更大的输出图尺寸S_o，S_i与S_o的关系为：

S_o＝s*(S_i-1)+S_f-2*d (1)

6.基于权利要求书3所述的训练模型，其特征在于，一致性模型检测分支需要一个固定的尺寸(例如244×244)监督训练，使用单个阈值在一致性检测问题中不起作用，故提出多阈值策略调整尺寸，给定一个原始对照组模型，在不失一般性的情况下，设模型中n个独立标签P＝(c₀,c₁,…,c_n-1)，将P中的值线性映射设为使用从P到的映射来将原始模型转化为新的模型；将转换的模型调整为预定义的模型尺寸，并在调整尺寸的模型上使用阈值，如下所示：

7.基于权利要求书1所述的端到端深度学习，其特征在于，网络由两个分支组成，用于对象检测和一致性检测，给定输入图像，使用VGG16网络作为骨干从图像中提取深层特征，然后使用与卷积骨架共享权重的RPN来生成候选包围盒(RoIs)，对于每个RoI，RoIAlign层提取并将其相应的特征汇聚到一个7×7大小的特征图中，在对象检测分支中，使用两个完全连接的层，每层都有4096个神经元，其次分类层对对象进行分类，回归层回归对象位置；在一致性检测分支中，7×7大小的特征图上采样放大到244×244获得高分辨率图，使用softmax层将244×244映射中的每个像素分配给其最可能的一致性类，整个网络使用多任务丢失函数进行端到端的训练。

8.基于权利要求书1所述的多任务损失(三)，其特征在于，端到端架构中，在K+1个对象类型分类层输出概率分布p＝(p₀,…,p_K)，p是softmax层的输出，回归层输出K+1个包围盒回归偏移(每个偏移包括框中心和框大小)：每个偏移量t^k对应于每个类别k，对t^k进行参数化，t^k指定一个尺度不变的转化，高度/宽度相对移位关系RPN包围盒，一致性检测分支输出每个像素i的RoI内一组概率分布m＝{mⁱ}_i∈RoI，其中是在包括背景的C+1一致性标签上定义的softmax层输出；使用一个多任务损失L进行联合训练包围盒分类、包围盒位置和一致性映射，如下：

L＝L_cls+L_loc+L_aff (3)

9.基于权利要求书8所述的损失，其特征在于，每个RoI的预测对象是对照组对象类u，对照组包围盒偏移υ和目标一致性模型s，训练数据集提供u和υ的值，目标一致性模型s是RoI与其相关联的对照组模型之间的交集，对于不属于交集的RoI内部像素，我们将其标记为背景，将对象掩码调整为固定的大小(即244×244)，将公式(3)写为：

L(p,u,t^u,v,m,s)＝L_cls(p,u)+I[u≥1]L_loc(t^u,v)+I[u≥1]L_aff(m,s) (4)

第一个损失L_cls(p,u)是多项分类的交叉熵损失，计算如下：

L_cls(p,u)＝-log(p_u) (5)

<mrow> <msub> <mi>L</mi> <mrow> <mi>l</mi> <mi>o</mi> <mi>c</mi> </mrow> </msub> <mrow> <mo>(</mo> <msup> <mi>t</mi> <mi>u</mi> </msup> <mo>,</mo> <mi>v</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>&Element;</mo> <mo>{</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>,</mo> <mi>w</mi> <mo>,</mo> <mi>h</mi> <mo>}</mo> </mrow> </munder> <msub> <mi>Smooth</mi> <mrow> <mi>L</mi> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <msubsup> <mi>t</mi> <mi>i</mi> <mi>u</mi> </msubsup> <mo>-</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

其中：

L_aff(m,s)是一致性检测分支的多项交叉熵损失，计算如下：

<mrow> <msub> <mi>L</mi> <mrow> <mi>a</mi> <mi>f</mi> <mi>f</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>m</mi> <mo>,</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mo>-</mo> <mn>1</mn> </mrow> <mi>N</mi> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>&Element;</mo> <mi>R</mi> <mi>o</mi> <mi>I</mi> </mrow> </munder> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <msubsup> <mi>m</mi> <msub> <mi>s</mi> <mi>i</mi> </msub> <mi>i</mi> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

其中，是真实标签s_i的像素i处的softmax输出；N是RoI中的像素数；在等式(4)中，I[u≥1]是一个指标函数，当u≥1时输出1，否则为0，只定义框位置损失L_loc，只有RoI为正时，定义一致性检测损失L_aff，RoI的值为正或负时，定义物体分类损失L_cls，一致性检测分支损失与实例分割损失不同，每个RoI中的分割为二进制分割，即前景和背景，在一致性检测问题中，一致性标签与对象标签不同，每个RoI中的一致性标签数量不是二进制的，即它总是大于2(包括背景)，因此，一致性标签依赖于每个像素的softmax和多项交叉熵损失。

10.基于权利要求书1所述的训练和推理(四)，其特征在于，以端到端的方式训练网络，采用0.9动量和0.0005重量衰减的随机梯度下降法，该网络进行20万次迭代训练，前15万次的学习率设置为0.001，最后5万次的学习率降低，输入图像被调整大小，使得短的边缘为600像素，长的边缘不超过1000像素；如果较长的边缘超过1000像素，则较长的边缘设置为1000像素，并且基于该边缘调整图像大小；在RPN中使用15个锚点，RPN的前2000个RoI用于计算多任务损失；在推理阶段，选择RPN生成的前1000个RoI，在这些RoI上运行对象检测分支，从检测分支的输出，选择分类分数高于0.9的输出框作为最终检测到的对象，如果没有满足该条件的框，则选择具有最高分类分数的一个作为唯一检测对象，使用检测到的对象作为供应检测分支的输入，对于检测到的对象中的每个像素，一致性分类预测获得每个像素的输出一致性标签；最后，采用调整大小策略将每个对象预测的244×244一致性模型调整为对象(框)大小，如果检测到的对象之间存在重叠，最终一致性标签基于优先级来确定。