CN110689037B

CN110689037B - 用于使用深度网络的自动对象注释的方法和***

Info

Publication number: CN110689037B
Application number: CN201910611726.1A
Authority: CN
Inventors: 钱丹·库马尔·辛格; 阿尼玛·马朱姆德; 萨瓦加特·库马尔; 拉克米达尔·比赫拉
Original assignee: Tata Consultancy Services Ltd
Current assignee: Tata Consultancy Services Ltd
Priority date: 2018-07-06
Filing date: 2019-07-08
Publication date: 2023-03-24
Anticipated expiration: 2039-07-08
Also published as: EP3591582A1; AU2019204878A1; JP6932159B2; JP2020009446A; CN110689037A; US10936905B2; AU2019204878B2; US20200193222A1

Abstract

当需要注释大量数据时，图像的对象注释是冗长耗时的任务。现有方法限制了用于注释的半自动方法。本文的实施例提供了基于深度网络的架构以用于自动对象注释的方法和***。所使用的深度网络是两阶段网络，其中第一阶段是作为注释模型，包括更快速基于区域的完全卷积网络(F‑RCNN)和基于区域的完全卷积网络(RFCN)，提供了两类分类以从单个对象测试图像集中生成注释图像。此外，新注释的测试对象图像然后被用于合成地生成杂波图像及其对应注释，其用于训练深度网络的第二阶段，包括使用F‑RCNN和RFCN作为基础网络而设计的多类对象检测/分类模型，以实时自动注释输入测试图像。

Description

用于使用深度网络的自动对象注释的方法和***

相关申请的交叉引用

本申请要求于2018年7月6日提交的印度临时专利申请号201821025354 的优先权。前述申请的全部内容通过引用并入本文。

技术领域

本公开一般涉及对象注释，并且更特别地涉及使用深度网络的自动对象注释。

背景技术

在基于深度学习的对象识别***的时代，其中训练需要大量经注释的图像，对每个对象进行手动注释是具有挑战性的工作。几十年来，研究人员一直主要依靠手动注释技术，使用像LabelMe^TM或ELAN^TM的工具，其中图像中的每个对象都用矩形或多边形边界框手动标记。这种手动注释方法是非常乏味和耗时的工作。它们甚至会遭受错误，并且在执行工作时通常需要专家的监督。训练数据生成中的这一挑战促使许多研究人员开发出全自动或半自动数据注释技术。仅举几例，自举和主动学习是半自动注释技术中的现有技术。自举包括在学习过程中选择硬底片样本(hard negative sample)，以便更好地分类靠近边界的类。主动学习方法包括在图像中注释硬正片(hard positive)和硬底片(hardnegatives)。所有这些半自动方法都建议了其中可以手动绘制边界框的可能的区域，这再次需要大量的手工劳动，几乎不会在成本上增加任何显著改善。

仓库(warehouse)是一个示例区域，其中在自动化仓库任务时需要用于识别对象的注释。在这个方向上进行的工作很少。Huval等人使用深度神经网络，以使用Pascal VOC数据集进行类通用对象检测。在最近的一项工作中，Milan 等人利用基于RefineNet架构的语义分割技术来注释对象。然而，在F测量方面的分割精度并不令人满意。而且，现有方法需要人为干预来纠正错误分割的对象，从而使得该方法是半自动的。在另一种现有方法中，Hemandez等人使用深度相机将已知对象几何结构注册到点云。因此，这种现有方法需要特殊的深度感测相机，增加了成本。

发明内容

本公开的实施例呈现了技术改进，作为本发明人认识到的传统***中的上述技术问题中的一个或多个的解决方案。例如，在一个实施例中，提供了一种使用深度网络进行自动对象注释的方法。该方法包括接收手动注释的图像集，其中每个图像包括已知背景上的单个注释对象。此外，该方法包括：通过对来自手动注释的图像集的每个图像应用仿射变换和颜色增强来生成多个合成单个对象图像，其中所生成的多个合成单个对象图像根据对应的手动注释的图像而被自动注释。此外，该方法包括：使用被合成生成的单个对象图像和手动注释的单个对象图像来训练用于两类对象检测和分类的注释模型，以检测对应于图像中的对象的前景感兴趣区域(ROI)，其中注释模型包括：更快速基于区域的卷积神经网络(F-RCNN)和基于区域的完全卷积网络(RFCN)。此外，该方法包括：使用经训练的注释模型来分析包括被放置在已知背景上的未知对象的单个对象测试图像集，以生成注释图像集。此外，该方法包括使用注释图像集来合成地生成具有对应注释的多个杂波图像。此外，该方法包括：利用多个杂波图像和对应的注释来训练使用RCNN和RFCN作为基础网络而设计的多类对象检测和分类模型。多类对象检测框架通过以下来实时地注释输入测试图像：识别对应于输入测试图像中的一个或多个对象的一个或多个ROI以及与该一个或多个对象相关联的类标签，其中输入测试图像是单个对象输入图像或杂波输入图像之一，其中每个ROI被具有包括xmin，ymin，xmax，ymax的位置坐标的边界框限定。

在另一方面，提供了一种使用深度网络进行自动对象注释的***。该*** 包括：存储指令的存储器；一个或多个输入/输出(I/O)接口；以及经由一个或多个I/O接口耦合到存储器的处理器，其中处理器通过指令被配置为接收手动注释的图像集，其中每个图像包括已知背景上的单个注释对象。此外，处理器被配置为：通过对来自手动注释的图像集的每个图像应用仿射变换和颜色增强来生成多个合成单个对象图像，其中所生成的多个合成单个对象图像根据对应的手动注释的图像而被自动注释。此外，处理器被配置为：使用被合成生成的单个对象图像和手动注释的单个对象图像来训练用于两类对象检测和分类的注释模型，以检测对应于图像中的对象的前景感兴趣区域(ROI)，其中注释模型包括更快速基于区域的卷积神经网络(F-RCNN)和基于区域的完全卷积网络 (RFCN)。此外，处理器被配置为：使用经训练的注释模型来分析包括被放置在已知背景上的未知对象的单个对象测试图像集，以生成注释图像集。此外，处理器被配置为使用注释图像集来合成地生成具有对应注释的多个杂波图像。此外，处理器被配置为利用多个杂波图像和对应的注释来训练使用基于区域的完全卷积网络(RCNN)和基于区域的完全卷积网络(RFCN)作为基础网络而设计的多类对象检测和分类模型。多类对象检测框架通过以下来实时地注释输入测试图像：识别对应于输入测试图像中的一个或多个对象的一个或多个ROI 以及与该一个或多个对象相关联的类标签，其中输入测试图像是单个对象输入图像或杂波输入图像之一，其中每个ROI被具有包括xmin，ymin，xmax，ymax的位置坐标的边界框限定。

在又另一方面，提供了一个或多个非暂时性机器可读信息存储介质，其包括一个或多个指令，一个或多个指令在由一个或多个硬件处理器执行时致使提供一种使用深度网络进行自动对象注释的方法。该方法包括接收手动注释的图像集，其中每个图像包括已知背景上的单个注释对象。此外，该方法包括：通过对来自手动注释的图像集的每个图像应用仿射变换和颜色增强来生成多个合成单个对象图像，其中所生成的多个合成单个对象图像根据对应的手动注释的图像而被自动注释。此外，该方法包括：使用被合成生成的单个对象图像和手动注释的单个对象图像来训练用于两类对象检测和分类的注释模型，以检测对应于图像中的对象的前景感兴趣区域(ROI)，其中注释模型包括：更快速基于区域的卷积神经网络(F-RCNN)和基于区域的完全卷积网络(RFCN)。此外，该方法包括：使用经训练的注释模型来分析包括被放置在已知背景上的未知对象的单个对象测试图像集，以生成注释图像集。此外，该方法包括使用注释图像集来合成地生成具有对应注释的多个杂波图像。此外，该方法包括：利用多个杂波图像和对应的注释来训练使用RCNN和RFCN作为基础网络而设计的多类对象检测和分类模型。多类对象检测框架通过以下来实时地注释输入测试图像：识别对应于输入测试图像中的一个或多个对象的一个或多个ROI以及与该一个或多个对象相关联的类标签，其中输入测试图像是单个对象输入图像或杂波输入图像之一，其中每个ROI被具有包括xmin，ymin，xmax，ymax的位置坐标的边界框限定。

要理解的是，前面的一般性描述和下面的详细描述两者都只是示例性和说明性的，并不是对所要求保护的本发明的限制。

附图说明

并入本公开中并构成本公开的一部分的附图示出了示例性实施例，并且与说明书一起用于解释所公开的原理：

图1是根据本公开的一些实施例的用于使用深度网络的自动对象注释的系统的功能框图。

图2A和图2B是示出根据本公开的一些实施例的用于使用图1的***的基于深度网络的自动对象注释的方法的流程图。

图3A至图3C示出了根据本公开的一些实施例的由图1的***通过对来自经手动注释的图像集的每个图像应用仿射变换和颜色增强而生成的示例合成单个对象图像。

图4示出了根据本公开的一些实施例的图1的***的经训练的注释模型的一些示例输出图像，其从注释模型已知的背景上的新单个对象测试图像提供注释对象。

图5A、图5B和图5C示出了根据本公开的一些实施例的由具有不同程度的杂波的图的***的合成生成的杂波图像的几个示例。

图6描绘了根据本公开的一些实施例的图1的***的注释模型的训练的各个阶段。

图7A至图7D示出了根据本公开的一些实施例的由图1的***提供的用于包括***已知和***未知的对象的杂波输入图像的几个示例输出图像。

图8示出了根据本公开的一些实施例的图1的***的经训练的注释模型的一些示例输出图像，其从注释模型未知的不同背景上的新单个对象测试图像提供注释对象。

具体实施方式

所述参考附图描述示例性实施例。在附图中，附图标记的最左边的一个或多个数字标识其中首次出现附图标记的图。在任何方便的地方，在整个附图中使用相同的附图标记来表示相同或相似的部分。虽然本文描述了所公开原理的示例和特征，但是在不脱离所公开实施例的范围的情况下，修改、改编和其他实施方式是可能的。所意图的是，以下详细描述仅被考虑为示例性的，其中真正的范围由所附权利要求指示。

本文的实施例提供了用于基于深度网络的架构的方法和***，其用于训练用于自动对象注释的深度网络模型。所利用的深度网络是包括两类分类模型的两级网络，称为注释模型和多类对象检测和分类模型。第一阶段是注释模型，包括更快速基于区域的完全卷积网络(F-RCNN)和基于区域的完全卷积网络 (RFCN)，提供两类分类以从单个对象测试图像的集合生成注释图像，其为注释模型未知的全新对象。使用***生成的合成单个对象图像和手动注释的单个对象图像来训练注释模型。注释模型的贡献在于其检测(注释)放置在熟悉背景中的任何新对象的能力。

此外，新注释的测试对象图像然后用于合成地生成杂波图像及其对应的注释。合成生成的杂波图像连同其注释被用于训练深度网络的第二阶段，包括使用F-RCNN和RFCN作为基础网络而设计的多类对象检测/分类模型，以实时自动注释输入测试图像。

现在参考附图，并且更具体地参考图1至图7，其中类似的附图标记在整个附图中始终表示对应的特征，示出了优选实施例，并且这些实施例被描述在以下示例性***和/或方法的上下文中。

在一个实施例中，***100包括一个或多个处理器104、一个或多个通信接口设备(可替选地称为一个或多个输入/输出(I/O)接口106)、以及被可操作地耦合到一个或多个处理器104的一个或多个数据存储设备或存储器102。一个或多个处理器104可以是一个或多个硬件处理器。在一个实施例中，一个或多个硬件处理器可以被实施为一个或多个微处理器、微计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令操纵信号的任何设备。在其他能力中，一个或多个处理器被配置为取出并执行存储在存储器中的计算机可读指令。在一个实施例中，***100可以被实施在各种计算***中，诸如膝上型计算机、笔记本、手持设备、工作站、大型计算机、服务、网络云等。

一个或多个I/O接口106可以包括各种软件和硬件接口，例如，web接口、图形用户接口等，并且可以促进各种网络N/W和协议类型之内的多个通信，包括例如LAN、电缆等的有线网络以及诸如WLAN、蜂窝或卫星的无线网络。在一个实施例中，一个或多个I/O接口设备可以包括一个或多个端口，以用于将多个设备彼此连接或连接到另一个服务器。I/O接口106提供与多分辨率多相机相机设置110连接的接口，该多分辨率多相机相机设置110捕获跨背景114放置的一个或多个对象112的各种图像。可以根据***100的训练阶段和测试阶段的需要来捕获图像。

存储器102可以包括本领域中已知的任何计算机可读介质，包括例如易失性存储器(诸如静态随机存取存储器(SRAM)和动态随机存取存储器(DRAM)) 和/或非易失性存储器(诸如只读存储器(ROM)、可擦除可编程ROM、闪存、硬盘、光盘和磁带)。在一个实施例中，存储器102包括深度网络的模型，诸如注释模型，其包括较快的RCNN和RFCN，提供两类分类以从单个对象测试图像集生成注释图像，其为注释模型未知的全新对象。存储器102还包括诸如多类对象检测和分类模型的模型，其实时自动注释输入测试图像。存储器102还可以存储通过多相机多分辨率设置112捕获的所有图像，诸如输入图像集、多个合成单个对象图像、合成生成的多个杂波图像、自动注释的训练图像和测试图像。因此，存储器102可以包括与由本公开的***100的一个或多个处理器 104和本公开的方法执行的每个步骤的一个或多个输入/一个或多个输出有关的信息。

在一个实施例中，***100包括可操作地耦合到一个或多个处理器104的一个或多个数据存储设备或存储器102，并且被配置为存储用于由一个或多个处理器104执行方法200的步骤的指令。现在将参考如图1描绘的***100的组件或块以及如图2描绘的流程图的步骤来解释本公开的方法200的步骤。尽管可以按连续顺序描述处理步骤、方法步骤、技术等，但是这种处理、方法和技术可以被配置为以交替顺序工作。换句话说，可以描述的任何步骤的序列或顺序不一定指示要按该顺序执行步骤的要求。本文描述的处理的步骤可以以任何实际的顺序执行。此外，可以同时执行一些步骤。

图像获取：在处理捕获到的输入图像之前，由多相机多分辨率设置112针对用于对象的自动注释的***100的训练和测设阶段执行图像获取。在一个实施例中，多相机多分辨率设置112包括不同的相机。示例性设置组合包括Foscam ^TM、Realtek^TM和网络摄像头，以在各种取向上捕获N(例如N＝40)个不同对象的图像。具有多种分辨率(诸如(800×800)、(600×600)、(1320×1080)、(540 ×480))的图像被用于在训练集和测试集中。用于针对训练阶段捕获的图像的该多相机多分辨率设置112使得***100能够检测任何分辨率的新对象。相机被安装在旋转平台上。背景图像(其中要放置的对象、图中描绘的示例情况中的红色手提包)也在不同方向上被捕获。N个不同对象的集合被单独地放置在手提包中，并且被捕获为用于训练阶段的单个对象图像。

手动注释：手动注释捕获到的图像以生成用于对两类分类器(前景和背景) 建模的训练集。例如在本文中，LabelMe^TM，一种广泛使用的软件工具，用于以像素方式语义分割来注释每个图像。因此，每个训练图像具有对应的注释图像，其包含被称为掩模图像的图像中的对象的分割区域。因此，存在手动注释的2000 个图像(可替选地称为手动注释的图像集)，来自40个对象中的每个对象的50 个图像并且被存储在存储器102中。

参考方法200的步骤，在步骤202处，一个或多个处理器104被配置为接收手动注释的图像集，其中每个图像包括熟悉或已知背景(在示例情况下为红色手提包)上的单个注释对象。

参考方法200的步骤，在步骤204，一个或多个处理器104被配置为通过对来自手动注释的图像集的每个图像应用仿射变换和颜色增强来生成多个合成单个对象图像。生成的多个合成单个对象图像根据对应的手动注释图像自动注释。多个合成单个对象图像的生成也称为数据增强。

数据增强：图像的增强和杂波的合成生成主要用于在非常短的持续时间内自动生成足够大的数据。大尺寸是训练任何深度网络的主要要求。该方法公开的数据增强技术的另一个优点是它可以防止网络过度拟合并使网络对于检测新对象更通用(即使在未知环境中)。当提供单独对象的图像和掩模时，仿射变换还有助于在非常短的持续时间内生成大量杂波数据。

仿射变换是通过选择使用θ进行旋转(逆时针)、以λ进行缩放、由Tx进行水平平移和由Ty进行垂直平移的10个组合来完成的。因此，它为给定的手动注释的图像生成10个新图像。因此，变换矩阵(H)被给出为：

通过使用对应的原始图像的地面实况点[xmin，ymin]和[xmax，ymax]的仿射变换来针对生成增强图像的注释。

颜色增强：颜色通道增强应用于其感兴趣区域(ROI)周围的每个对象(从掩模图像获得)。通过应用R、G、B通道的多个组合来完成增强。在这种情况下，通过交换掩模区域的R、G、B通道，6个新图像可用于每个对象实例。在图3A和图3B中示出了很少的经颜色增强的图像。如下面的方法1中呈现的以下技术用于防止可重复性的机会(如图3C所示)。阈值是凭经验找到的。在大多数情况下，它被设置为100。值越高，派生图像之间的差异就越大。

方法1：没有可重复性的颜色增强技术。

通过交换R、G和B通道完成颜色通道增强。

要求：获得手动注释的数据集

而数据集中的对象实例数量

计算每个像素处R、G、B通道之间的绝对差。获得每个像素处的绝对差分

别为_rg、_rb和_gb。

找出所有三个绝对差_rg、_rb和_gb的平均值为ravg、gavg和bavg

设置阈值_。

如果以下条件中的一个为真：ravg＞_或

gavg＞_或bavg＞_则

针对对象实例生成一个增强。

结束条件

如果满足以下条件中的两个：ravg＞_

或gavg＞_或bavg＞_则

针对对象实例生成两个增强图像。

否则

针对对象实例生成所有六个增强图像

结束条件

结束时

在对包含单独对象的图像应用颜色增强和仿射变换之后，应用杂波生成方法。方法200的步骤206、208和210描述了杂波生成方法。

参考方法200的步骤，在步骤206处，一个或多个处理器104被配置为使用合成生成的单个对象图像和手动注释的单个对象图像来训练用于两类对象检测和分类的注释模型。一旦被训练，注释模型就检测对应于图像中的对象的前景ROI。注释模型包括更快速RCNN和RFCN。更快速RCNN和R-FCN分别用于微调VGG-16和ResNet-101。

如图6描绘的，训练注释模型包括第一训练阶段，其用于创建多个区域提议，以提供由测试图像中的多个边界框限定的多个可能的前景ROI。接着是第二训练阶段，其用于识别多个可能的前景ROI当中的由边界框限定的前景ROI。

返回参考方法200的步骤，在步骤208处，一个或多个处理器104被配置为使用经训练的注释模型分析包括被放置在熟悉或已知背景上的未知对象的单个对象测试图像集以生成注释图像集。图4描绘了使用全新的对象集在相同颜色背景(红色)上测试时几个图像的自动注释结果。这些对象以前从未示出给模型。可以观察到，即使如透明玻璃和具有红色背景的红色文件等对象也能被精确检测到。

返回参考方法200的步骤，在步骤210处，一个或多个处理器104被配置为使用注释图像集合成地生成具有对应注释的多个杂波图像。该方法使用的杂波生成技术包括在感兴趣的背景上生成每个杂波图像(已知，这里是红色手提包图像)。

杂波生成：因此，在第一步处，选择背景图像并将其分成多个网格。此后，使用手动生成的掩模来裁剪来自手动注释图像集和多个合成单个对象图像的对象。此外，将裁剪的对象随机粘贴在多个网格上。此外，对于不同的对象，将不同的二进制值分配给所生成的掩模，以便在生成的每个杂波图像中清楚地获得前景ROI。

在应用方法200的杂波创建技术之后生成的具有不同杂波程度的一些合成杂波图像在图5A、图5B和图5C中示出。生成的杂波包括所有可能的遮挡、亮度变化、取向、比例和所有40个对象的组合。最后，在对2000个手动注释图像应用仿射变换和颜色增强之后，生成包括40个对象的总共110,000个训练图像。对于40个对象中的每一个，捕获50个图像以维持平衡的数据分布。训练数据生成过程，通过将对象图像映射到对应的手动注释图像来自动设置杂波中每个对象的标签。由于每个新对象拍摄的图像数量设置为固定数量，因此标签会自动设置为自动注释的每个对象。还提供了为每个对象手动设置标签的规定，即使对于具有杂波的环境中的对象也是如此。

参考方法200的步骤，在步骤212处，一个或多个处理器104被配置为利用多个杂波图像和对应的注释来训练使用RCNN和RFCN作为基础网络而设计的多类对象检测和/分类模型。多类对象检测框架通过识别与输入测试图像中的一个或多个对象相对应的一个或多个ROI以及与该一个或多个对象相关联的类标签来实时地注释输入测试图像。输入测试图像可以是单个对象输入图像或杂波输入图像之一，其中每个检测到的ROI由具有包括xmin、ymin、xmax、ymax 的位置坐标的边界框限定。预训练模型Vgg16和RestNet-101分别用于快速 RCNN(F-RCNN)和RFCN。

图7A至图7D描绘了当对象被放置在不同程度的杂波中时自动地面实况检测结果的几个示例图像。注释模型检测ROI，并且给予最终用户在每个检测到的ROI上写标签以供进一步分类对象的规定。杂波包含已知的对象集以及未知对象两者。

提出的网络被设计成完全符合仓库的环境，其中对象和背景不同。我们已经测试了具有多种背景颜色的图像以验证网络性能。即使在不同的背景下(除了用于训练的红色之外)，该模型仍然能够成功地检测具有相当高的平均精度均值(mAP)的ROI。这些测试结果中的一些在图8中示出，其描绘了当使用全新的对象集在不同背景上测试时的几个图像的自动注释结果。用于训练的手动注释图像仅包含红色背景。此外，测试对象以前从未示出给模型。通过对背景图像使用颜色增强使得这种检测成为可能。通过增强具有不同背景的新的训练数据集来进行进一步的实验。这是通过在不同颜色背景上粘贴手动注释的对象图像的掩模来完成的。表I给出了实验结果的总体总结。五个不同的集用于验证所提出的方法的注释性能。性能以平均精度均值(mAP)给出，其由Pascal VOC 标准化。观察表明，所提出的ResNet-101模型的性能略高于基于更快速RCNN 的技术。但是，前者的训练时间比后一种方法的训练时间要高得多。用户可以选择基于任何的网络。

下面的表I提供了具有多个背景的新的对象集的测试结果。Brown(1)代表使用旋转平台拍摄的对象图像集，并且Brown(2)代表从机架拍摄的测试集图像。第三列示出每个测试集中的图像数量，第四列给出对应的新对象计数。针对给定测试集呈现了基于更快速RCNN(F-RCNN)和RFCN的方法的平均精度均值(mAP)。训练分两步完成：首先使用仅具有红色背景的对象图像。第二部分使用增强背景。BG代表背景。

表1：

该方法通过使用基于F-RCNN的多类对象检测器实现99.19％的平均精度均值(mAP)，并且使用基于RFCN的网络实现99.61％的mAP。但是，后一种方法的培训时间远远高于之前的方法。为了训练模型，使用的是单GPU机器 (Quadro M5000M)。对于F-RCNN，训练110,000大小的整个数据集大约需要8 小时，对于基于RFCN的网络大约需要13小时。当使用相当于训练数据大小的 20％的新数据集进行测试时，独立对象的精度值在下面的表II中给出。观察表明，多类检测结果的性能高于二元类检测任务的性能。在多类检测中，我们使用了来自同一类的测试对象的不同实例，而在情况中。

因此，提出的对象注释方法基于深度学习网络。对具有经过预先训练的 VGG-16的更快速RCNN和具有ResNet-101的RFCN进行微调，以将对象分类为前景或背景。该***解决了当今基于深度学习的对象识别技术中的主要挑战之一，其中大尺寸的注释数据是主要要求。引入颜色增强和其他增强方法，如仿射变换，有助于生成训练所提出的二元类检测器所需的显着大尺寸(几乎是手动注释图像的十倍)的无偏数据集。通过各种实验结果描述了所提出方法的性能，并且已经观察到，所提出的自动注释方法即使在未知环境中也非常有效地检测任何未知对象。当在全新的对象集上进行测试时，已经使用前景检测结果证明了模型对任何新对象的稳健性。该模型还被证明对任何相机分辨率和不同照明条件的图像都很稳健。本文中使用的杂波生成技术使网络能够检测具有人口密集环境的对象。这是对自动注释的重要贡献，这是因为它可以大大减少杂波中对象注释的手工劳动。通过使用自动生成的数据集来检测多类对象来验证所提出的体系结构的性能。83个不同的类别的对象(如下表2中示出的)用于此目的。手动注释验证集的识别性能表明了所提出的注释方法的熟练程度。所提出的方法对仓库应用具有很大影响，诸如对象类别识别和实例识别。这些分析还得出结论：该模型已经有效地学习了背景，使得任何外来对象落在无约束的环境中的任何背景上都能被高精度地自动检测。提出的注释方法被构造为围绕每个对象生成矩形ROI，但是将不能使用给定的体系结构生成分割的对象区域。为了获得对象的精确轮廓，可以通过应用像素方式的语义分割技术(如掩模RCNN或PSPNet代替更快速RCNN/RFCN)来扩展该***。然而，这些方法在计算上更复杂。

表2：

/>

/>

/>

/>

与可以仅注释现有方法所使用的NN模型已知的那些对象的一些现有自动注释方法不同，本文公开的方法可以解决对现有***完全未知/未见的任何新对象。此外，现有方法可以处理的类别的数量是固定的，相反，这里公开的方法可以处理任何数量的对象/类别，使其成为全自动注释方法。

书面描述描述了本文的主题，以使本领域技术人员能够制造和使用这些实施例。主题实施例的范围由权利要求限定，并且可以包括本领域技术人员想到的其他修改。如果这些其他修改具有与权利要求的字面语言没有不同的相似元素，或者如果它们包括与权利要求的字面语言无实质差别的等效元素，则这些其他修改旨在落入权利要求的范围内。

应当理解，保护范围扩展到这样的程序，并且除了其中具有消息的计算机可读装置之外；当程序在服务器或移动装置或任何合适的可编程装置上运行时，这种计算机可读存储装置包含用于实施该方法的一个或多个步骤的程序代码装置。硬件装置可以是任何类型的可以编程的装置，包括例如任何类型的计算机，如服务器或个人计算机等，或其任何组合。该装置还可以包括可以是以下的装置：例如硬件装置，如，例如专用集成电路(ASIC)、现场可编程门阵列(FPGA)；或硬件和软件装置的组合，例如ASIC和FPGA，或至少一个微处理器和至少一个存储器，其中具有位于其中的软件处理组件。因此，该装置可以包括硬件装置和软件装置。这里描述的方法实施例可以用硬件和软件实现。该装置还可以包括软件装置。可替选地，实施例可以在不同的硬件装置上实现，例如使用多个CPU。

本文的实施例可包括硬件和软件元素。以软件实施的实施例包括但不限于固件、驻留软件、微代码等。由本文描述的各种组件执行的功能可以在其他组件或其他组件的组合中实施。出于本说明书的目的，计算机可用或计算机可读介质可以是能够包括、存储、通信、传播或传输程序以供指令执行***、设备或装置使用或与之结合使用的任何设备。

所示出的步骤被阐述以解释所示出的示例性实施例，并且应该预期正在进行的技术开发将改变执行特定功能的方式。出于说明而非限制的目的，本文提出了这些示例。此外，为了便于描述，这里任意地定义了功能构建块的边界。可以定义替代边界，只要适当地执行指定的功能及其关系即可。基于本文包含的教导，相关领域的技术人员将清楚替代方案(包括本文描述的那些的等同物、扩展、变化、偏差等)。这些替代方案落入所公开实施例的范围内。此外，词语 “包含”、“具有”、“含有”和“包括”以及其他类似形式在意义上旨在是等同的并且是开放式的，在于在这些词中的任何一个之后的一个或多个条目不是意味着是这些一个或多个条目的详尽清单，或意味着仅限于列出的一个或多个条目。还必须注意，如本文和所附权利要求中所使用的，单数形式“一”、“一个” 和“该”包括复数指代，除非上下文另有明确说明。

此外，一个或多个计算机可读存储介质可用于实施与本公开一致的实施例。计算机可读存储介质指的是可以存储处理器可读的信息或数据的任何类型的物理存储器。因此，计算机可读存储介质可以存储用于由一个或多个处理器执行的指令，包括用于使一个或多个处理器执行与本文描述的实施例一致的步骤或阶段的指令。术语“计算机可读介质”应该被理解为包括有形条目并且不包括载波和瞬态信号，即，是非暂时的。示例包括随机存取存储器(RAM)、只读存储器(ROM)、易失性存储器、非易失性存储器、硬盘驱动器、CDROM、DVD、闪存驱动器、磁盘和任何其他已知的物理存储介质。

意图是本公开和示例仅被视为示例性的，所公开的实施例的真实范围由所附权利要求指示。

Claims

1.一种使用深度网络进行自动对象注释的处理器实现的方法，所述方法包括：

接收手动注释的图像集，其中每个图像包括已知背景上的单个注释对象；

通过对来自所述手动注释的图像集的每个图像应用仿射变换和颜色增强来生成多个合成单个对象图像，其中所生成的多个合成单个对象图像根据对应的手动注释的图像而被自动注释；

使用被合成生成的单个对象图像和手动注释的单个对象图像来训练用于两类对象检测和分类的注释模型，以检测对应于图像中的对象的前景感兴趣区域ROI，其中所述注释模型包括：更快速基于区域的卷积神经网络F-RCNN和基于区域的完全卷积网络RFCN，并且其中，训练所述注释模型包括：

第一训练阶段，其用于创建多个区域提议，所述多个区域提议提供了由测试图像中的多个边界框限定的多个潜在前景ROI；和

第二训练阶段，其用于在所述多个潜在前景ROI当中识别由所述边界框限定的前景ROI；

使用经训练的注释模型来分析包括被放置在已知背景上的未知对象的单个对象测试图像集，以生成注释图像集；

使用所述注释图像集来合成地生成具有对应注释的多个杂波图像；以及

利用所述多个杂波图像和对应的注释来训练使用RCNN和RFCN作为基础网络而设计的多类对象检测和分类模型，其中多类对象检测框架通过以下来实时地注释输入测试图像：

识别对应于所述输入测试图像中的一个或多个对象的一个或多个ROI以及与所述一个或多个对象相关联的类标签，其中所述输入测试图像是单个对象输入图像或杂波输入图像之一，其中每个ROI由具有包括xmin，ymin，xmax，ymax的位置坐标的边界框限定。

2.根据权利要求1所述的方法，其中，从所述手动注释的图像集和所述多个合成单个对象图像生成包括多个对象的多个杂波图像包括：针对要生成的每个杂波图像，

选择背景图像；

将所述背景图像分成多个网格；

使用手动生成的掩模从所述手动注释的图像集和所述多个合成单个对象图像中裁剪对象；

将裁剪的对象随机粘贴在所述多个网格上；以及

针对不同的对象而将不同的二进制值分配到所生成的掩模，以便在所生成的每个杂波图像中清楚地获得前景ROI。

3.根据权利要求1所述的方法，其中，所述方法还包括使用多分辨率多相机设置，其中每个相机被安装在旋转平台上，以用于捕获：

用于生成所述手动注释的图像的图像集；

未知对象的测试图像集；

用于实时测试的输入测试图像；以及

用于创建杂波图像的背景图像。

4.一种使用深度网络进行自动对象注释的***(100)，包括：

存储指令的存储器(102)；

一个或多个输入/输出I/O接口(106)；以及

处理器(104)，所述处理器(104)经由一个或多个输入/输出I/O接口(106)被耦合到所述存储器(102)，其中所述处理器(104)通过所述指令被配置为：

第一训练阶段，其用于创建多个区域提议，所述多个区域提议提供了由测试图像中的多个边界框限定的多个潜在前景感兴趣区域ROI；和

第二训练阶段，其用于在所述多个潜在前景感兴趣区域ROI当中识别由所述边界框限定的前景感兴趣区域ROI；

利用所述多个杂波图像和对应的注释来训练使用所述基于区域的完全卷积网络(RCNN)和所述基于区域的完全卷积网络(RFCN)作为基础网络而设计的多类对象检测和分类模型，其中多类对象检测框架通过以下来实时地注释输入测试图像：

识别对应于所述输入测试图像中的一个或多个对象的一个或多个ROI以及与所述一个或多个对象相关联的类标签，其中所述输入测试图像是单个对象输入图像或杂波输入图像之一，其中每个前景感兴趣区域ROI由具有包括xmin，ymin，xmax，ymax的位置坐标的边界框限定。

5.根据权利要求4所述的***(100)，其中，所述处理器(104)被配置为通过以下从所述手动注释的图像集和所述多个合成单个对象图像生成包括多个对象的多个杂波图像：

针对要生成的每个杂波图像：

选择背景图像；

将所述背景图像分成多个网格；

将裁剪的对象随机粘贴在所述多个网格上；以及

针对不同的对象而将不同的二进制值分配到所生成的掩模，以便在所生成的每个杂波图像中清楚地获得前景感兴趣区域ROI。

6.根据权利要求4所述的***(100)，其中，所述处理器(104)还被配置为接收由多分辨率多相机设置捕获到的以下内容，其中每个相机被安装在旋转平台上：

用于生成所述手动注释的图像的图像集；

未知对象的测试图像集；

用于实时测试的输入测试图像；以及

用于创建杂波图像的背景图像。

7.一种非暂时性计算机可读介质，所述非暂时性计算机可读介质存储指令，所述指令在由硬件处理器执行时致使所述硬件处理器执行包括以下的动作：

使用被合成生成的单个对象图像和手动注释的单个对象图像来训练用于两类对象检测和分类的注释模型，以检测对应于图像中的对象的前景感兴趣区域ROI，其中，所述注释模型包括：更快速基于区域的卷积神经网络F-RCNN和基于区域的完全卷积网络RFCN，并且其中，训练所述注释模型包括：

识别对应于所述输入测试图像中的一个或多个对象的一个或多个感兴趣区域ROI以及与所述一个或多个对象相关联的类标签，其中所述输入测试图像是单个对象输入图像或杂波输入图像之一，其中每个ROI由具有包括xmin，ymin，xmax，ymax的位置坐标的边界框限定。

8.根据权利要求7所述的非暂时性计算机可读介质，还包括通过以下从所述手动注释的图像集和所述多个合成单个对象图像生成包括多个对象的多个杂波图像：

针对要生成的每个杂波图像：

选择背景图像；

将所述背景图像分成多个网格；

将裁剪的对象随机粘贴在所述多个网格上；以及

9.根据权利要求7所述的非暂时性计算机可读介质，还包括使用多分辨率多相机设置，其中每个相机被安装在旋转平台上，以用于捕获：

用于生成所述手动注释的图像的图像集；

未知对象的测试图像集；

用于实时测试的输入测试图像；以及

用于创建杂波图像的背景图像。