CN110689037B - 用于使用深度网络的自动对象注释的方法和*** - Google Patents
用于使用深度网络的自动对象注释的方法和*** Download PDFInfo
- Publication number
- CN110689037B CN110689037B CN201910611726.1A CN201910611726A CN110689037B CN 110689037 B CN110689037 B CN 110689037B CN 201910611726 A CN201910611726 A CN 201910611726A CN 110689037 B CN110689037 B CN 110689037B
- Authority
- CN
- China
- Prior art keywords
- image
- images
- annotation
- clutter
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 95
- 238000012360 testing method Methods 0.000 claims abstract description 61
- 238000001514 detection method Methods 0.000 claims abstract description 32
- 238000013145 classification model Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 44
- 230000015654 memory Effects 0.000 claims description 22
- 239000002131 composite material Substances 0.000 claims description 21
- 230000009466 transformation Effects 0.000 claims description 15
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 13
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000013459 approach Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/02—Affine transformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/06—Recognition of objects for industrial automation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
当需要注释大量数据时,图像的对象注释是冗长耗时的任务。现有方法限制了用于注释的半自动方法。本文的实施例提供了基于深度网络的架构以用于自动对象注释的方法和***。所使用的深度网络是两阶段网络,其中第一阶段是作为注释模型,包括更快速基于区域的完全卷积网络(F‑RCNN)和基于区域的完全卷积网络(RFCN),提供了两类分类以从单个对象测试图像集中生成注释图像。此外,新注释的测试对象图像然后被用于合成地生成杂波图像及其对应注释,其用于训练深度网络的第二阶段,包括使用F‑RCNN和RFCN作为基础网络而设计的多类对象检测/分类模型,以实时自动注释输入测试图像。
Description
相关申请的交叉引用
本申请要求于2018年7月6日提交的印度临时专利申请号201821025354 的优先权。前述申请的全部内容通过引用并入本文。
技术领域
本公开一般涉及对象注释,并且更特别地涉及使用深度网络的自动对象注 释。
背景技术
在基于深度学习的对象识别***的时代,其中训练需要大量经注释的图像, 对每个对象进行手动注释是具有挑战性的工作。几十年来,研究人员一直主要 依靠手动注释技术,使用像LabelMeTM或ELANTM的工具,其中图像中的每个对象 都用矩形或多边形边界框手动标记。这种手动注释方法是非常乏味和耗时的工 作。它们甚至会遭受错误,并且在执行工作时通常需要专家的监督。训练数据 生成中的这一挑战促使许多研究人员开发出全自动或半自动数据注释技术。仅 举几例,自举和主动学习是半自动注释技术中的现有技术。自举包括在学习过 程中选择硬底片样本(hard negative sample),以便更好地分类靠近边界的类。 主动学习方法包括在图像中注释硬正片(hard positive)和硬底片(hardnegatives)。所有这些半自动方法都建议了其中可以手动绘制边界框的可能的区 域,这再次需要大量的手工劳动,几乎不会在成本上增加任何显著改善。
仓库(warehouse)是一个示例区域,其中在自动化仓库任务时需要用于识 别对象的注释。在这个方向上进行的工作很少。Huval等人使用深度神经网络, 以使用Pascal VOC数据集进行类通用对象检测。在最近的一项工作中,Milan 等人利用基于RefineNet架构的语义分割技术来注释对象。然而,在F测量方面 的分割精度并不令人满意。而且,现有方法需要人为干预来纠正错误分割的对 象,从而使得该方法是半自动的。在另一种现有方法中,Hemandez等人使用深 度相机将已知对象几何结构注册到点云。因此,这种现有方法需要特殊的深度 感测相机,增加了成本。
发明内容
本公开的实施例呈现了技术改进,作为本发明人认识到的传统***中的上 述技术问题中的一个或多个的解决方案。例如,在一个实施例中,提供了一种 使用深度网络进行自动对象注释的方法。该方法包括接收手动注释的图像集, 其中每个图像包括已知背景上的单个注释对象。此外,该方法包括:通过对来 自手动注释的图像集的每个图像应用仿射变换和颜色增强来生成多个合成单个 对象图像,其中所生成的多个合成单个对象图像根据对应的手动注释的图像而 被自动注释。此外,该方法包括:使用被合成生成的单个对象图像和手动注释 的单个对象图像来训练用于两类对象检测和分类的注释模型,以检测对应于图 像中的对象的前景感兴趣区域(ROI),其中注释模型包括:更快速基于区域的 卷积神经网络(F-RCNN)和基于区域的完全卷积网络(RFCN)。此外,该方法 包括:使用经训练的注释模型来分析包括被放置在已知背景上的未知对象的单 个对象测试图像集,以生成注释图像集。此外,该方法包括使用注释图像集来 合成地生成具有对应注释的多个杂波图像。此外,该方法包括:利用多个杂波 图像和对应的注释来训练使用RCNN和RFCN作为基础网络而设计的多类对象 检测和分类模型。多类对象检测框架通过以下来实时地注释输入测试图像:识 别对应于输入测试图像中的一个或多个对象的一个或多个ROI以及与该一个或 多个对象相关联的类标签,其中输入测试图像是单个对象输入图像或杂波输入 图像之一,其中每个ROI被具有包括xmin,ymin,xmax,ymax的位置坐标的边界 框限定。
在另一方面,提供了一种使用深度网络进行自动对象注释的***。该*** 包括:存储指令的存储器;一个或多个输入/输出(I/O)接口;以及经由一个或 多个I/O接口耦合到存储器的处理器,其中处理器通过指令被配置为接收手动注 释的图像集,其中每个图像包括已知背景上的单个注释对象。此外,处理器被 配置为:通过对来自手动注释的图像集的每个图像应用仿射变换和颜色增强来 生成多个合成单个对象图像,其中所生成的多个合成单个对象图像根据对应的 手动注释的图像而被自动注释。此外,处理器被配置为:使用被合成生成的单 个对象图像和手动注释的单个对象图像来训练用于两类对象检测和分类的注释 模型,以检测对应于图像中的对象的前景感兴趣区域(ROI),其中注释模型包 括更快速基于区域的卷积神经网络(F-RCNN)和基于区域的完全卷积网络 (RFCN)。此外,处理器被配置为:使用经训练的注释模型来分析包括被放置 在已知背景上的未知对象的单个对象测试图像集,以生成注释图像集。此外, 处理器被配置为使用注释图像集来合成地生成具有对应注释的多个杂波图像。 此外,处理器被配置为利用多个杂波图像和对应的注释来训练使用基于区域的 完全卷积网络(RCNN)和基于区域的完全卷积网络(RFCN)作为基础网络而 设计的多类对象检测和分类模型。多类对象检测框架通过以下来实时地注释输 入测试图像:识别对应于输入测试图像中的一个或多个对象的一个或多个ROI 以及与该一个或多个对象相关联的类标签,其中输入测试图像是单个对象输入 图像或杂波输入图像之一,其中每个ROI被具有包括xmin,ymin,xmax,ymax的 位置坐标的边界框限定。
在又另一方面,提供了一个或多个非暂时性机器可读信息存储介质,其包 括一个或多个指令,一个或多个指令在由一个或多个硬件处理器执行时致使提 供一种使用深度网络进行自动对象注释的方法。该方法包括接收手动注释的图 像集,其中每个图像包括已知背景上的单个注释对象。此外,该方法包括:通 过对来自手动注释的图像集的每个图像应用仿射变换和颜色增强来生成多个合 成单个对象图像,其中所生成的多个合成单个对象图像根据对应的手动注释的 图像而被自动注释。此外,该方法包括:使用被合成生成的单个对象图像和手 动注释的单个对象图像来训练用于两类对象检测和分类的注释模型,以检测对 应于图像中的对象的前景感兴趣区域(ROI),其中注释模型包括:更快速基于 区域的卷积神经网络(F-RCNN)和基于区域的完全卷积网络(RFCN)。此外, 该方法包括:使用经训练的注释模型来分析包括被放置在已知背景上的未知对 象的单个对象测试图像集,以生成注释图像集。此外,该方法包括使用注释图 像集来合成地生成具有对应注释的多个杂波图像。此外,该方法包括:利用多 个杂波图像和对应的注释来训练使用RCNN和RFCN作为基础网络而设计的多 类对象检测和分类模型。多类对象检测框架通过以下来实时地注释输入测试图 像:识别对应于输入测试图像中的一个或多个对象的一个或多个ROI以及与该 一个或多个对象相关联的类标签,其中输入测试图像是单个对象输入图像或杂 波输入图像之一,其中每个ROI被具有包括xmin,ymin,xmax,ymax的位置坐标 的边界框限定。
要理解的是,前面的一般性描述和下面的详细描述两者都只是示例性和说 明性的,并不是对所要求保护的本发明的限制。
附图说明
并入本公开中并构成本公开的一部分的附图示出了示例性实施例,并且与 说明书一起用于解释所公开的原理:
图1是根据本公开的一些实施例的用于使用深度网络的自动对象注释的系 统的功能框图。
图2A和图2B是示出根据本公开的一些实施例的用于使用图1的***的基 于深度网络的自动对象注释的方法的流程图。
图3A至图3C示出了根据本公开的一些实施例的由图1的***通过对来自 经手动注释的图像集的每个图像应用仿射变换和颜色增强而生成的示例合成单 个对象图像。
图4示出了根据本公开的一些实施例的图1的***的经训练的注释模型的 一些示例输出图像,其从注释模型已知的背景上的新单个对象测试图像提供注 释对象。
图5A、图5B和图5C示出了根据本公开的一些实施例的由具有不同程度的 杂波的图的***的合成生成的杂波图像的几个示例。
图6描绘了根据本公开的一些实施例的图1的***的注释模型的训练的各 个阶段。
图7A至图7D示出了根据本公开的一些实施例的由图1的***提供的用于 包括***已知和***未知的对象的杂波输入图像的几个示例输出图像。
图8示出了根据本公开的一些实施例的图1的***的经训练的注释模型的 一些示例输出图像,其从注释模型未知的不同背景上的新单个对象测试图像提 供注释对象。
具体实施方式
所述参考附图描述示例性实施例。在附图中,附图标记的最左边的一个或 多个数字标识其中首次出现附图标记的图。在任何方便的地方,在整个附图中 使用相同的附图标记来表示相同或相似的部分。虽然本文描述了所公开原理的 示例和特征,但是在不脱离所公开实施例的范围的情况下,修改、改编和其他 实施方式是可能的。所意图的是,以下详细描述仅被考虑为示例性的,其中真 正的范围由所附权利要求指示。
本文的实施例提供了用于基于深度网络的架构的方法和***,其用于训练 用于自动对象注释的深度网络模型。所利用的深度网络是包括两类分类模型的 两级网络,称为注释模型和多类对象检测和分类模型。第一阶段是注释模型, 包括更快速基于区域的完全卷积网络(F-RCNN)和基于区域的完全卷积网络 (RFCN),提供两类分类以从单个对象测试图像的集合生成注释图像,其为注 释模型未知的全新对象。使用***生成的合成单个对象图像和手动注释的单个 对象图像来训练注释模型。注释模型的贡献在于其检测(注释)放置在熟悉背 景中的任何新对象的能力。
此外,新注释的测试对象图像然后用于合成地生成杂波图像及其对应的注 释。合成生成的杂波图像连同其注释被用于训练深度网络的第二阶段,包括使 用F-RCNN和RFCN作为基础网络而设计的多类对象检测/分类模型,以实时自 动注释输入测试图像。
现在参考附图,并且更具体地参考图1至图7,其中类似的附图标记在整个 附图中始终表示对应的特征,示出了优选实施例,并且这些实施例被描述在以 下示例性***和/或方法的上下文中。
图1是根据本公开的一些实施例的用于使用深度网络的自动对象注释的系 统的功能框图。
在一个实施例中,***100包括一个或多个处理器104、一个或多个通信接 口设备(可替选地称为一个或多个输入/输出(I/O)接口106)、以及被可操作地 耦合到一个或多个处理器104的一个或多个数据存储设备或存储器102。一个或 多个处理器104可以是一个或多个硬件处理器。在一个实施例中,一个或多个 硬件处理器可以被实施为一个或多个微处理器、微计算机、微控制器、数字信 号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令操纵信号的任 何设备。在其他能力中,一个或多个处理器被配置为取出并执行存储在存储器 中的计算机可读指令。在一个实施例中,***100可以被实施在各种计算***中,诸如膝上型计算机、笔记本、手持设备、工作站、大型计算机、服务、网 络云等。
一个或多个I/O接口106可以包括各种软件和硬件接口,例如,web接口、 图形用户接口等,并且可以促进各种网络N/W和协议类型之内的多个通信,包 括例如LAN、电缆等的有线网络以及诸如WLAN、蜂窝或卫星的无线网络。在 一个实施例中,一个或多个I/O接口设备可以包括一个或多个端口,以用于将多 个设备彼此连接或连接到另一个服务器。I/O接口106提供与多分辨率多相机相 机设置110连接的接口,该多分辨率多相机相机设置110捕获跨背景114放置的 一个或多个对象112的各种图像。可以根据***100的训练阶段和测试阶段的 需要来捕获图像。
存储器102可以包括本领域中已知的任何计算机可读介质,包括例如易失 性存储器(诸如静态随机存取存储器(SRAM)和动态随机存取存储器(DRAM)) 和/或非易失性存储器(诸如只读存储器(ROM)、可擦除可编程ROM、闪存、 硬盘、光盘和磁带)。在一个实施例中,存储器102包括深度网络的模型,诸如 注释模型,其包括较快的RCNN和RFCN,提供两类分类以从单个对象测试图 像集生成注释图像,其为注释模型未知的全新对象。存储器102还包括诸如多 类对象检测和分类模型的模型,其实时自动注释输入测试图像。存储器102还 可以存储通过多相机多分辨率设置112捕获的所有图像,诸如输入图像集、多 个合成单个对象图像、合成生成的多个杂波图像、自动注释的训练图像和测试 图像。因此,存储器102可以包括与由本公开的***100的一个或多个处理器 104和本公开的方法执行的每个步骤的一个或多个输入/一个或多个输出有关的 信息。
图2A和图2B是示出根据本公开的一些实施例的用于使用图1的***的基 于深度网络的自动对象注释的方法的流程图。
在一个实施例中,***100包括可操作地耦合到一个或多个处理器104的 一个或多个数据存储设备或存储器102,并且被配置为存储用于由一个或多个处 理器104执行方法200的步骤的指令。现在将参考如图1描绘的***100的组 件或块以及如图2描绘的流程图的步骤来解释本公开的方法200的步骤。尽管 可以按连续顺序描述处理步骤、方法步骤、技术等,但是这种处理、方法和技 术可以被配置为以交替顺序工作。换句话说,可以描述的任何步骤的序列或顺 序不一定指示要按该顺序执行步骤的要求。本文描述的处理的步骤可以以任何 实际的顺序执行。此外,可以同时执行一些步骤。
图像获取:在处理捕获到的输入图像之前,由多相机多分辨率设置112针 对用于对象的自动注释的***100的训练和测设阶段执行图像获取。在一个实 施例中,多相机多分辨率设置112包括不同的相机。示例性设置组合包括Foscam TM、RealtekTM和网络摄像头,以在各种取向上捕获N(例如N=40)个不同对象 的图像。具有多种分辨率(诸如(800×800)、(600×600)、(1320×1080)、(540 ×480))的图像被用于在训练集和测试集中。用于针对训练阶段捕获的图像的 该多相机多分辨率设置112使得***100能够检测任何分辨率的新对象。相机 被安装在旋转平台上。背景图像(其中要放置的对象、图中描绘的示例情况中 的红色手提包)也在不同方向上被捕获。N个不同对象的集合被单独地放置在 手提包中,并且被捕获为用于训练阶段的单个对象图像。
手动注释:手动注释捕获到的图像以生成用于对两类分类器(前景和背景) 建模的训练集。例如在本文中,LabelMeTM,一种广泛使用的软件工具,用于以 像素方式语义分割来注释每个图像。因此,每个训练图像具有对应的注释图像, 其包含被称为掩模图像的图像中的对象的分割区域。因此,存在手动注释的2000 个图像(可替选地称为手动注释的图像集),来自40个对象中的每个对象的50 个图像并且被存储在存储器102中。
参考方法200的步骤,在步骤202处,一个或多个处理器104被配置为接 收手动注释的图像集,其中每个图像包括熟悉或已知背景(在示例情况下为红 色手提包)上的单个注释对象。
参考方法200的步骤,在步骤204,一个或多个处理器104被配置为通过对 来自手动注释的图像集的每个图像应用仿射变换和颜色增强来生成多个合成单 个对象图像。生成的多个合成单个对象图像根据对应的手动注释图像自动注释。 多个合成单个对象图像的生成也称为数据增强。
数据增强:图像的增强和杂波的合成生成主要用于在非常短的持续时间内 自动生成足够大的数据。大尺寸是训练任何深度网络的主要要求。该方法公开 的数据增强技术的另一个优点是它可以防止网络过度拟合并使网络对于检测新 对象更通用(即使在未知环境中)。当提供单独对象的图像和掩模时,仿射变换 还有助于在非常短的持续时间内生成大量杂波数据。
仿射变换是通过选择使用θ进行旋转(逆时针)、以λ进行缩放、由Tx进 行水平平移和由Ty进行垂直平移的10个组合来完成的。因此,它为给定的手 动注释的图像生成10个新图像。因此,变换矩阵(H)被给出为:
通过使用对应的原始图像的地面实况点[xmin,ymin]和[xmax,ymax]的仿 射变换来针对生成增强图像的注释。
颜色增强:颜色通道增强应用于其感兴趣区域(ROI)周围的每个对象(从 掩模图像获得)。通过应用R、G、B通道的多个组合来完成增强。在这种情况 下,通过交换掩模区域的R、G、B通道,6个新图像可用于每个对象实例。在 图3A和图3B中示出了很少的经颜色增强的图像。如下面的方法1中呈现的以 下技术用于防止可重复性的机会(如图3C所示)。阈值是凭经验找到的。在大 多数情况下,它被设置为100。值越高,派生图像之间的差异就越大。
方法1:没有可重复性的颜色增强技术。
通过交换R、G和B通道完成颜色通道增强。
要求:获得手动注释的数据集
而数据集中的对象实例数量
计算每个像素处R、G、B通道之间的绝对差。获得每个像素处的绝对差分
别为_rg、_rb和_gb。
找出所有三个绝对差_rg、_rb和_gb的平均值为ravg、gavg和bavg
设置阈值_。
如果以下条件中的一个为真:ravg>_或
gavg>_或bavg>_则
针对对象实例生成一个增强。
结束条件
如果满足以下条件中的两个:ravg>_
或gavg>_或bavg>_则
针对对象实例生成两个增强图像。
否则
针对对象实例生成所有六个增强图像
结束条件
结束时
在对包含单独对象的图像应用颜色增强和仿射变换之后,应用杂波生成方 法。方法200的步骤206、208和210描述了杂波生成方法。
参考方法200的步骤,在步骤206处,一个或多个处理器104被配置为使 用合成生成的单个对象图像和手动注释的单个对象图像来训练用于两类对象检 测和分类的注释模型。一旦被训练,注释模型就检测对应于图像中的对象的前 景ROI。注释模型包括更快速RCNN和RFCN。更快速RCNN和R-FCN分别用 于微调VGG-16和ResNet-101。
如图6描绘的,训练注释模型包括第一训练阶段,其用于创建多个区域提 议,以提供由测试图像中的多个边界框限定的多个可能的前景ROI。接着是第 二训练阶段,其用于识别多个可能的前景ROI当中的由边界框限定的前景ROI。
返回参考方法200的步骤,在步骤208处,一个或多个处理器104被配置 为使用经训练的注释模型分析包括被放置在熟悉或已知背景上的未知对象的单 个对象测试图像集以生成注释图像集。图4描绘了使用全新的对象集在相同颜 色背景(红色)上测试时几个图像的自动注释结果。这些对象以前从未示出给 模型。可以观察到,即使如透明玻璃和具有红色背景的红色文件等对象也能被 精确检测到。
返回参考方法200的步骤,在步骤210处,一个或多个处理器104被配置 为使用注释图像集合成地生成具有对应注释的多个杂波图像。该方法使用的杂 波生成技术包括在感兴趣的背景上生成每个杂波图像(已知,这里是红色手提 包图像)。
杂波生成:因此,在第一步处,选择背景图像并将其分成多个网格。此后, 使用手动生成的掩模来裁剪来自手动注释图像集和多个合成单个对象图像的对 象。此外,将裁剪的对象随机粘贴在多个网格上。此外,对于不同的对象,将 不同的二进制值分配给所生成的掩模,以便在生成的每个杂波图像中清楚地获 得前景ROI。
在应用方法200的杂波创建技术之后生成的具有不同杂波程度的一些合成 杂波图像在图5A、图5B和图5C中示出。生成的杂波包括所有可能的遮挡、亮 度变化、取向、比例和所有40个对象的组合。最后,在对2000个手动注释图 像应用仿射变换和颜色增强之后,生成包括40个对象的总共110,000个训练图 像。对于40个对象中的每一个,捕获50个图像以维持平衡的数据分布。训练 数据生成过程,通过将对象图像映射到对应的手动注释图像来自动设置杂波中 每个对象的标签。由于每个新对象拍摄的图像数量设置为固定数量,因此标签 会自动设置为自动注释的每个对象。还提供了为每个对象手动设置标签的规定,即使对于具有杂波的环境中的对象也是如此。
参考方法200的步骤,在步骤212处,一个或多个处理器104被配置为利 用多个杂波图像和对应的注释来训练使用RCNN和RFCN作为基础网络而设计 的多类对象检测和/分类模型。多类对象检测框架通过识别与输入测试图像中的 一个或多个对象相对应的一个或多个ROI以及与该一个或多个对象相关联的类 标签来实时地注释输入测试图像。输入测试图像可以是单个对象输入图像或杂 波输入图像之一,其中每个检测到的ROI由具有包括xmin、ymin、xmax、ymax 的位置坐标的边界框限定。预训练模型Vgg16和RestNet-101分别用于快速 RCNN(F-RCNN)和RFCN。
图7A至图7D描绘了当对象被放置在不同程度的杂波中时自动地面实况检 测结果的几个示例图像。注释模型检测ROI,并且给予最终用户在每个检测到 的ROI上写标签以供进一步分类对象的规定。杂波包含已知的对象集以及未知 对象两者。
提出的网络被设计成完全符合仓库的环境,其中对象和背景不同。我们已 经测试了具有多种背景颜色的图像以验证网络性能。即使在不同的背景下(除 了用于训练的红色之外),该模型仍然能够成功地检测具有相当高的平均精度均 值(mAP)的ROI。这些测试结果中的一些在图8中示出,其描绘了当使用全 新的对象集在不同背景上测试时的几个图像的自动注释结果。用于训练的手动 注释图像仅包含红色背景。此外,测试对象以前从未示出给模型。通过对背景 图像使用颜色增强使得这种检测成为可能。通过增强具有不同背景的新的训练 数据集来进行进一步的实验。这是通过在不同颜色背景上粘贴手动注释的对象 图像的掩模来完成的。表I给出了实验结果的总体总结。五个不同的集用于验证 所提出的方法的注释性能。性能以平均精度均值(mAP)给出,其由Pascal VOC 标准化。观察表明,所提出的ResNet-101模型的性能略高于基于更快速RCNN 的技术。但是,前者的训练时间比后一种方法的训练时间要高得多。用户可以 选择基于任何的网络。
下面的表I提供了具有多个背景的新的对象集的测试结果。Brown(1)代 表使用旋转平台拍摄的对象图像集,并且Brown(2)代表从机架拍摄的测试集 图像。第三列示出每个测试集中的图像数量,第四列给出对应的新对象计数。 针对给定测试集呈现了基于更快速RCNN(F-RCNN)和RFCN的方法的平均精 度均值(mAP)。训练分两步完成:首先使用仅具有红色背景的对象图像。第二 部分使用增强背景。BG代表背景。
表1:
该方法通过使用基于F-RCNN的多类对象检测器实现99.19%的平均精度均 值(mAP),并且使用基于RFCN的网络实现99.61%的mAP。但是,后一种方 法的培训时间远远高于之前的方法。为了训练模型,使用的是单GPU机器 (Quadro M5000M)。对于F-RCNN,训练110,000大小的整个数据集大约需要8 小时,对于基于RFCN的网络大约需要13小时。当使用相当于训练数据大小的 20%的新数据集进行测试时,独立对象的精度值在下面的表II中给出。观察表 明,多类检测结果的性能高于二元类检测任务的性能。在多类检测中,我们使用了来自同一类的测试对象的不同实例,而在情况中。
因此,提出的对象注释方法基于深度学习网络。对具有经过预先训练的 VGG-16的更快速RCNN和具有ResNet-101的RFCN进行微调,以将对象分类 为前景或背景。该***解决了当今基于深度学习的对象识别技术中的主要挑战 之一,其中大尺寸的注释数据是主要要求。引入颜色增强和其他增强方法,如 仿射变换,有助于生成训练所提出的二元类检测器所需的显着大尺寸(几乎是 手动注释图像的十倍)的无偏数据集。通过各种实验结果描述了所提出方法的 性能,并且已经观察到,所提出的自动注释方法即使在未知环境中也非常有效 地检测任何未知对象。当在全新的对象集上进行测试时,已经使用前景检测结 果证明了模型对任何新对象的稳健性。该模型还被证明对任何相机分辨率和不 同照明条件的图像都很稳健。本文中使用的杂波生成技术使网络能够检测具有 人口密集环境的对象。这是对自动注释的重要贡献,这是因为它可以大大减少 杂波中对象注释的手工劳动。通过使用自动生成的数据集来检测多类对象来验 证所提出的体系结构的性能。83个不同的类别的对象(如下表2中示出的)用 于此目的。手动注释验证集的识别性能表明了所提出的注释方法的熟练程度。 所提出的方法对仓库应用具有很大影响,诸如对象类别识别和实例识别。这些 分析还得出结论:该模型已经有效地学习了背景,使得任何外来对象落在无约 束的环境中的任何背景上都能被高精度地自动检测。提出的注释方法被构造为 围绕每个对象生成矩形ROI,但是将不能使用给定的体系结构生成分割的对象 区域。为了获得对象的精确轮廓,可以通过应用像素方式的语义分割技术(如 掩模RCNN或PSPNet代替更快速RCNN/RFCN)来扩展该***。然而,这些方 法在计算上更复杂。
表2:
与可以仅注释现有方法所使用的NN模型已知的那些对象的一些现有自动 注释方法不同,本文公开的方法可以解决对现有***完全未知/未见的任何新对 象。此外,现有方法可以处理的类别的数量是固定的,相反,这里公开的方法 可以处理任何数量的对象/类别,使其成为全自动注释方法。
书面描述描述了本文的主题,以使本领域技术人员能够制造和使用这些实 施例。主题实施例的范围由权利要求限定,并且可以包括本领域技术人员想到 的其他修改。如果这些其他修改具有与权利要求的字面语言没有不同的相似元 素,或者如果它们包括与权利要求的字面语言无实质差别的等效元素,则这些 其他修改旨在落入权利要求的范围内。
应当理解,保护范围扩展到这样的程序,并且除了其中具有消息的计算机 可读装置之外;当程序在服务器或移动装置或任何合适的可编程装置上运行时, 这种计算机可读存储装置包含用于实施该方法的一个或多个步骤的程序代码装 置。硬件装置可以是任何类型的可以编程的装置,包括例如任何类型的计算机, 如服务器或个人计算机等,或其任何组合。该装置还可以包括可以是以下的装 置:例如硬件装置,如,例如专用集成电路(ASIC)、现场可编程门阵列(FPGA); 或硬件和软件装置的组合,例如ASIC和FPGA,或至少一个微处理器和至少一 个存储器,其中具有位于其中的软件处理组件。因此,该装置可以包括硬件装 置和软件装置。这里描述的方法实施例可以用硬件和软件实现。该装置还可以包括软件装置。可替选地,实施例可以在不同的硬件装置上实现,例如使用多 个CPU。
本文的实施例可包括硬件和软件元素。以软件实施的实施例包括但不限于 固件、驻留软件、微代码等。由本文描述的各种组件执行的功能可以在其他组 件或其他组件的组合中实施。出于本说明书的目的,计算机可用或计算机可读 介质可以是能够包括、存储、通信、传播或传输程序以供指令执行***、设备 或装置使用或与之结合使用的任何设备。
所示出的步骤被阐述以解释所示出的示例性实施例,并且应该预期正在进 行的技术开发将改变执行特定功能的方式。出于说明而非限制的目的,本文提 出了这些示例。此外,为了便于描述,这里任意地定义了功能构建块的边界。 可以定义替代边界,只要适当地执行指定的功能及其关系即可。基于本文包含 的教导,相关领域的技术人员将清楚替代方案(包括本文描述的那些的等同物、 扩展、变化、偏差等)。这些替代方案落入所公开实施例的范围内。此外,词语 “包含”、“具有”、“含有”和“包括”以及其他类似形式在意义上旨在是等同 的并且是开放式的,在于在这些词中的任何一个之后的一个或多个条目不是意 味着是这些一个或多个条目的详尽清单,或意味着仅限于列出的一个或多个条 目。还必须注意,如本文和所附权利要求中所使用的,单数形式“一”、“一个” 和“该”包括复数指代,除非上下文另有明确说明。
此外,一个或多个计算机可读存储介质可用于实施与本公开一致的实施例。 计算机可读存储介质指的是可以存储处理器可读的信息或数据的任何类型的物 理存储器。因此,计算机可读存储介质可以存储用于由一个或多个处理器执行 的指令,包括用于使一个或多个处理器执行与本文描述的实施例一致的步骤或 阶段的指令。术语“计算机可读介质”应该被理解为包括有形条目并且不包括 载波和瞬态信号,即,是非暂时的。示例包括随机存取存储器(RAM)、只读存 储器(ROM)、易失性存储器、非易失性存储器、硬盘驱动器、CDROM、DVD、 闪存驱动器、磁盘和任何其他已知的物理存储介质。
意图是本公开和示例仅被视为示例性的,所公开的实施例的真实范围由所 附权利要求指示。
Claims (9)
1.一种使用深度网络进行自动对象注释的处理器实现的方法,所述方法包括:
接收手动注释的图像集,其中每个图像包括已知背景上的单个注释对象;
通过对来自所述手动注释的图像集的每个图像应用仿射变换和颜色增强来生成多个合成单个对象图像,其中所生成的多个合成单个对象图像根据对应的手动注释的图像而被自动注释;
使用被合成生成的单个对象图像和手动注释的单个对象图像来训练用于两类对象检测和分类的注释模型,以检测对应于图像中的对象的前景感兴趣区域ROI,其中所述注释模型包括:更快速基于区域的卷积神经网络F-RCNN和基于区域的完全卷积网络RFCN,并且其中,训练所述注释模型包括:
第一训练阶段,其用于创建多个区域提议,所述多个区域提议提供了由测试图像中的多个边界框限定的多个潜在前景ROI;和
第二训练阶段,其用于在所述多个潜在前景ROI当中识别由所述边界框限定的前景ROI;
使用经训练的注释模型来分析包括被放置在已知背景上的未知对象的单个对象测试图像集,以生成注释图像集;
使用所述注释图像集来合成地生成具有对应注释的多个杂波图像;以及
利用所述多个杂波图像和对应的注释来训练使用RCNN和RFCN作为基础网络而设计的多类对象检测和分类模型,其中多类对象检测框架通过以下来实时地注释输入测试图像:
识别对应于所述输入测试图像中的一个或多个对象的一个或多个ROI以及与所述一个或多个对象相关联的类标签,其中所述输入测试图像是单个对象输入图像或杂波输入图像之一,其中每个ROI由具有包括xmin,ymin,xmax,ymax的位置坐标的边界框限定。
2.根据权利要求1所述的方法,其中,从所述手动注释的图像集和所述多个合成单个对象图像生成包括多个对象的多个杂波图像包括:针对要生成的每个杂波图像,
选择背景图像;
将所述背景图像分成多个网格;
使用手动生成的掩模从所述手动注释的图像集和所述多个合成单个对象图像中裁剪对象;
将裁剪的对象随机粘贴在所述多个网格上;以及
针对不同的对象而将不同的二进制值分配到所生成的掩模,以便在所生成的每个杂波图像中清楚地获得前景ROI。
3.根据权利要求1所述的方法,其中,所述方法还包括使用多分辨率多相机设置,其中每个相机被安装在旋转平台上,以用于捕获:
用于生成所述手动注释的图像的图像集;
未知对象的测试图像集;
用于实时测试的输入测试图像;以及
用于创建杂波图像的背景图像。
4.一种使用深度网络进行自动对象注释的***(100),包括:
存储指令的存储器(102);
一个或多个输入/输出I/O接口(106);以及
处理器(104),所述处理器(104)经由一个或多个输入/输出I/O接口(106)被耦合到所述存储器(102),其中所述处理器(104)通过所述指令被配置为:
接收手动注释的图像集,其中每个图像包括已知背景上的单个注释对象;
通过对来自所述手动注释的图像集的每个图像应用仿射变换和颜色增强来生成多个合成单个对象图像,其中所生成的多个合成单个对象图像根据对应的手动注释的图像而被自动注释;
使用被合成生成的单个对象图像和手动注释的单个对象图像来训练用于两类对象检测和分类的注释模型,以检测对应于图像中的对象的前景感兴趣区域ROI,其中所述注释模型包括:更快速基于区域的卷积神经网络F-RCNN和基于区域的完全卷积网络RFCN,并且其中,训练所述注释模型包括:
第一训练阶段,其用于创建多个区域提议,所述多个区域提议提供了由测试图像中的多个边界框限定的多个潜在前景感兴趣区域ROI;和
第二训练阶段,其用于在所述多个潜在前景感兴趣区域ROI当中识别由所述边界框限定的前景感兴趣区域ROI;
使用经训练的注释模型来分析包括被放置在已知背景上的未知对象的单个对象测试图像集,以生成注释图像集;
使用所述注释图像集来合成地生成具有对应注释的多个杂波图像;以及
利用所述多个杂波图像和对应的注释来训练使用所述基于区域的完全卷积网络(RCNN)和所述基于区域的完全卷积网络(RFCN)作为基础网络而设计的多类对象检测和分类模型,其中多类对象检测框架通过以下来实时地注释输入测试图像:
识别对应于所述输入测试图像中的一个或多个对象的一个或多个ROI以及与所述一个或多个对象相关联的类标签,其中所述输入测试图像是单个对象输入图像或杂波输入图像之一,其中每个前景感兴趣区域ROI由具有包括xmin,ymin,xmax,ymax的位置坐标的边界框限定。
5.根据权利要求4所述的***(100),其中,所述处理器(104)被配置为通过以下从所述手动注释的图像集和所述多个合成单个对象图像生成包括多个对象的多个杂波图像:
针对要生成的每个杂波图像:
选择背景图像;
将所述背景图像分成多个网格;
使用手动生成的掩模从所述手动注释的图像集和所述多个合成单个对象图像中裁剪对象;
将裁剪的对象随机粘贴在所述多个网格上;以及
针对不同的对象而将不同的二进制值分配到所生成的掩模,以便在所生成的每个杂波图像中清楚地获得前景感兴趣区域ROI。
6.根据权利要求4所述的***(100),其中,所述处理器(104)还被配置为接收由多分辨率多相机设置捕获到的以下内容,其中每个相机被安装在旋转平台上:
用于生成所述手动注释的图像的图像集;
未知对象的测试图像集;
用于实时测试的输入测试图像;以及
用于创建杂波图像的背景图像。
7.一种非暂时性计算机可读介质,所述非暂时性计算机可读介质存储指令,所述指令在由硬件处理器执行时致使所述硬件处理器执行包括以下的动作:
接收手动注释的图像集,其中每个图像包括已知背景上的单个注释对象;
通过对来自所述手动注释的图像集的每个图像应用仿射变换和颜色增强来生成多个合成单个对象图像,其中所生成的多个合成单个对象图像根据对应的手动注释的图像而被自动注释;
使用被合成生成的单个对象图像和手动注释的单个对象图像来训练用于两类对象检测和分类的注释模型,以检测对应于图像中的对象的前景感兴趣区域ROI,其中,所述注释模型包括:更快速基于区域的卷积神经网络F-RCNN和基于区域的完全卷积网络RFCN,并且其中,训练所述注释模型包括:
第一训练阶段,其用于创建多个区域提议,所述多个区域提议提供了由测试图像中的多个边界框限定的多个潜在前景感兴趣区域ROI;和
第二训练阶段,其用于在所述多个潜在前景感兴趣区域ROI当中识别由所述边界框限定的前景感兴趣区域ROI;
使用经训练的注释模型来分析包括被放置在已知背景上的未知对象的单个对象测试图像集,以生成注释图像集;
使用所述注释图像集来合成地生成具有对应注释的多个杂波图像;以及
利用所述多个杂波图像和对应的注释来训练使用RCNN和RFCN作为基础网络而设计的多类对象检测和分类模型,其中多类对象检测框架通过以下来实时地注释输入测试图像:
识别对应于所述输入测试图像中的一个或多个对象的一个或多个感兴趣区域ROI以及与所述一个或多个对象相关联的类标签,其中所述输入测试图像是单个对象输入图像或杂波输入图像之一,其中每个ROI由具有包括xmin,ymin,xmax,ymax的位置坐标的边界框限定。
8.根据权利要求7所述的非暂时性计算机可读介质,还包括通过以下从所述手动注释的图像集和所述多个合成单个对象图像生成包括多个对象的多个杂波图像:
针对要生成的每个杂波图像:
选择背景图像;
将所述背景图像分成多个网格;
使用手动生成的掩模从所述手动注释的图像集和所述多个合成单个对象图像中裁剪对象;
将裁剪的对象随机粘贴在所述多个网格上;以及
针对不同的对象而将不同的二进制值分配到所生成的掩模,以便在所生成的每个杂波图像中清楚地获得前景ROI。
9.根据权利要求7所述的非暂时性计算机可读介质,还包括使用多分辨率多相机设置,其中每个相机被安装在旋转平台上,以用于捕获:
用于生成所述手动注释的图像的图像集;
未知对象的测试图像集;
用于实时测试的输入测试图像;以及
用于创建杂波图像的背景图像。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN201821025354 | 2018-07-06 | ||
IN201821025354 | 2018-07-06 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110689037A CN110689037A (zh) | 2020-01-14 |
CN110689037B true CN110689037B (zh) | 2023-03-24 |
Family
ID=67184865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910611726.1A Active CN110689037B (zh) | 2018-07-06 | 2019-07-08 | 用于使用深度网络的自动对象注释的方法和*** |
Country Status (5)
Country | Link |
---|---|
US (1) | US10936905B2 (zh) |
EP (1) | EP3591582A1 (zh) |
JP (1) | JP6932159B2 (zh) |
CN (1) | CN110689037B (zh) |
AU (1) | AU2019204878B2 (zh) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11244484B2 (en) * | 2018-04-23 | 2022-02-08 | Accenture Global Solutions Limited | AI-driven design platform |
EP3591582A1 (en) * | 2018-07-06 | 2020-01-08 | Tata Consultancy Services Limited | Method and system for automatic object annotation using deep network |
US11257240B2 (en) * | 2019-10-29 | 2022-02-22 | International Business Machines Corporation | Accelerated object labeling using prior geometric knowledge |
US11704802B2 (en) | 2019-11-07 | 2023-07-18 | Accenture Global Solutions Limited | Multi-dimensional model merge for style transfer |
US11455552B2 (en) | 2019-11-22 | 2022-09-27 | Accenture Global Solutions Limited | Intelligent design platform using industrialized experience in product designs |
KR102311798B1 (ko) * | 2019-12-12 | 2021-10-08 | 포항공과대학교 산학협력단 | 다중 객체 추적 방법 및 장치 |
US11244203B2 (en) * | 2020-02-07 | 2022-02-08 | International Business Machines Corporation | Automated generation of structured training data from unstructured documents |
CN111462218A (zh) * | 2020-03-16 | 2020-07-28 | 西安理工大学 | 一种基于深度学习技术的城市内涝积水面积监测方法 |
JP7145440B2 (ja) * | 2020-03-26 | 2022-10-03 | パナソニックIpマネジメント株式会社 | 学習データ生成方法、学習データ生成装置、及び、プログラム |
US20210334955A1 (en) * | 2020-04-24 | 2021-10-28 | Nvidia Corporation | Image annotation using one or more neural networks |
CN111612045B (zh) * | 2020-04-29 | 2023-06-23 | 杭州电子科技大学 | 一种获取目标检测数据集的通用方法 |
US11586783B2 (en) | 2020-05-21 | 2023-02-21 | Accenture Global Solutions Limited | Intelligent design platform using digital assistants for design process support |
JP7463186B2 (ja) * | 2020-05-26 | 2024-04-08 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
CN111626208B (zh) * | 2020-05-27 | 2023-06-13 | 阿波罗智联(北京)科技有限公司 | 用于检测小目标的方法和装置 |
US11189375B1 (en) * | 2020-05-27 | 2021-11-30 | GE Precision Healthcare LLC | Methods and systems for a medical image annotation tool |
KR102185777B1 (ko) * | 2020-06-18 | 2020-12-02 | 호서대학교 산학협력단 | 컴퓨터를 이용한 딥러닝과 plsi 기반 이미지객체의 의미관계 인식방법 |
CN111832629A (zh) * | 2020-06-23 | 2020-10-27 | 成都恒创新星科技有限公司 | 一种基于FPGA的faster-RCNN目标检测方法 |
CN111723764A (zh) * | 2020-06-29 | 2020-09-29 | 中国农业大学 | 改进Faster RCNN水培蔬菜幼苗状态检测方法 |
CN111832493A (zh) * | 2020-07-17 | 2020-10-27 | 平安科技(深圳)有限公司 | 图像交通信号灯检测方法、装置、电子设备及存储介质 |
US10885388B1 (en) * | 2020-08-04 | 2021-01-05 | Superb Ai Co., Ltd. | Method for generating training data to be used for training deep learning network capable of analyzing images and auto labeling device using the same |
CN112327265A (zh) * | 2020-10-23 | 2021-02-05 | 北京理工大学 | 一种基于语义分割网络的分治检测方法 |
CN112767239A (zh) * | 2021-01-12 | 2021-05-07 | 云南电网有限责任公司电力科学研究院 | 一种样本自动生成方法、***、设备和存储介质 |
US11941771B2 (en) | 2021-02-03 | 2024-03-26 | Accenture Global Solutions Limited | Multi-dimensional model texture transfer |
US11410388B1 (en) | 2021-03-16 | 2022-08-09 | Huawei Technologies Co., Ltd. | Devices, systems, methods, and media for adaptive augmentation for a point cloud dataset used for training |
US11354485B1 (en) * | 2021-05-13 | 2022-06-07 | iCIMS, Inc. | Machine learning based classification and annotation of paragraph of resume document images based on visual properties of the resume document images, and methods and apparatus for the same |
CN113420790A (zh) * | 2021-06-02 | 2021-09-21 | 深圳海翼智新科技有限公司 | 用于目标检测的自动标注方法和装置 |
CN113807414A (zh) * | 2021-08-30 | 2021-12-17 | 中科尚易健康科技(北京)有限公司 | 基于深度学习的人体经络自动标注方法和装置、设备及存储介质 |
KR20230100927A (ko) * | 2021-12-29 | 2023-07-06 | 한국전자기술연구원 | 회전형 바운딩박스 기반 객체 검출 딥러닝 네트워크 |
CN115049884B (zh) * | 2022-08-15 | 2022-10-25 | 菲特(天津)检测技术有限公司 | 基于Faster RCNN网络的广义少样本目标检测方法及*** |
CN115965824B (zh) * | 2023-03-01 | 2023-06-06 | 安徽蔚来智驾科技有限公司 | 点云数据标注方法、点云目标检测方法、设备及存储介质 |
US11887361B1 (en) * | 2023-05-10 | 2024-01-30 | King Faisal University | Automated whiteboard cleaning system |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3171297A1 (en) * | 2015-11-18 | 2017-05-24 | CentraleSupélec | Joint boundary detection image segmentation and object recognition using deep learning |
CN107085585A (zh) * | 2016-02-12 | 2017-08-22 | 奥多比公司 | 用于图像搜索的准确的标签相关性预测 |
CN107918767A (zh) * | 2017-11-27 | 2018-04-17 | 北京旷视科技有限公司 | 目标检测方法、装置、电子设备及计算机可读介质 |
CN108052881A (zh) * | 2017-11-30 | 2018-05-18 | 华中科技大学 | 一种实时检测施工现场图像中多类实体对象的方法及设备 |
CN108229347A (zh) * | 2016-12-22 | 2018-06-29 | Tcl集团股份有限公司 | 用于人识别的拟吉布斯结构采样的深层置换的方法和装置 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3773670B2 (ja) * | 1998-09-30 | 2006-05-10 | 株式会社東芝 | 情報呈示方法および情報呈示装置および記録媒体 |
US7894647B2 (en) * | 2004-06-21 | 2011-02-22 | Siemens Medical Solutions Usa, Inc. | System and method for 3D contour tracking of anatomical structures |
US8705694B2 (en) * | 2009-11-11 | 2014-04-22 | Physical Optics Corporation | X-ray imaging system and method |
US8407635B2 (en) * | 2011-01-31 | 2013-03-26 | Cadence Design Systems, Inc. | System and method for automatic extraction of power intent from custom analog/custom digital/mixed signal schematic designs |
US8903167B2 (en) * | 2011-05-12 | 2014-12-02 | Microsoft Corporation | Synthesizing training samples for object recognition |
US9356574B2 (en) * | 2012-11-20 | 2016-05-31 | Karl L. Denninghoff | Search and navigation to specific document content |
US9437027B2 (en) * | 2013-06-03 | 2016-09-06 | Microsoft Technology Licensing, Llc | Layered image understanding |
CN103823845B (zh) | 2014-01-28 | 2017-01-18 | 浙江大学 | 一种基于深度学习的遥感影像自动标注方法 |
US9836839B2 (en) * | 2015-05-28 | 2017-12-05 | Tokitae Llc | Image analysis systems and related methods |
US9811765B2 (en) * | 2016-01-13 | 2017-11-07 | Adobe Systems Incorporated | Image captioning with weak supervision |
US9916522B2 (en) * | 2016-03-11 | 2018-03-13 | Kabushiki Kaisha Toshiba | Training constrained deconvolutional networks for road scene semantic segmentation |
US10019655B2 (en) | 2016-08-31 | 2018-07-10 | Adobe Systems Incorporated | Deep-learning network architecture for object detection |
US10242449B2 (en) * | 2017-01-04 | 2019-03-26 | Cisco Technology, Inc. | Automated generation of pre-labeled training data |
US10049308B1 (en) * | 2017-02-21 | 2018-08-14 | A9.Com, Inc. | Synthesizing training data |
CN107480730A (zh) * | 2017-09-05 | 2017-12-15 | 广州供电局有限公司 | 电力设备识别模型构建方法和***、电力设备的识别方法 |
EP3591582A1 (en) * | 2018-07-06 | 2020-01-08 | Tata Consultancy Services Limited | Method and system for automatic object annotation using deep network |
US10860836B1 (en) * | 2018-11-15 | 2020-12-08 | Amazon Technologies, Inc. | Generation of synthetic image data for computer vision models |
-
2019
- 2019-07-05 EP EP19184646.8A patent/EP3591582A1/en active Pending
- 2019-07-05 US US16/504,095 patent/US10936905B2/en active Active
- 2019-07-08 JP JP2019126832A patent/JP6932159B2/ja active Active
- 2019-07-08 AU AU2019204878A patent/AU2019204878B2/en active Active
- 2019-07-08 CN CN201910611726.1A patent/CN110689037B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3171297A1 (en) * | 2015-11-18 | 2017-05-24 | CentraleSupélec | Joint boundary detection image segmentation and object recognition using deep learning |
CN107085585A (zh) * | 2016-02-12 | 2017-08-22 | 奥多比公司 | 用于图像搜索的准确的标签相关性预测 |
CN108229347A (zh) * | 2016-12-22 | 2018-06-29 | Tcl集团股份有限公司 | 用于人识别的拟吉布斯结构采样的深层置换的方法和装置 |
CN107918767A (zh) * | 2017-11-27 | 2018-04-17 | 北京旷视科技有限公司 | 目标检测方法、装置、电子设备及计算机可读介质 |
CN108052881A (zh) * | 2017-11-30 | 2018-05-18 | 华中科技大学 | 一种实时检测施工现场图像中多类实体对象的方法及设备 |
Non-Patent Citations (1)
Title |
---|
面向社群图像的显著区域检测方法;梁晔等;《智能***学报》;20171109(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
EP3591582A1 (en) | 2020-01-08 |
AU2019204878A1 (en) | 2020-01-23 |
JP6932159B2 (ja) | 2021-09-08 |
JP2020009446A (ja) | 2020-01-16 |
CN110689037A (zh) | 2020-01-14 |
US10936905B2 (en) | 2021-03-02 |
AU2019204878B2 (en) | 2020-04-16 |
US20200193222A1 (en) | 2020-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110689037B (zh) | 用于使用深度网络的自动对象注释的方法和*** | |
CN110008956B (zh) | ***关键信息定位方法、装置、计算机设备及存储介质 | |
CN105868758B (zh) | 图像中文本区域检测方法、装置及电子设备 | |
JP5775225B2 (ja) | マルチレイヤ連結成分をヒストグラムと共に用いるテキスト検出 | |
TW201911129A (zh) | 車險圖像處理方法、裝置、伺服器及系統 | |
CN107977639B (zh) | 一种人脸清晰度判断方法 | |
CN107330027B (zh) | 一种弱监督的深度台标检测方法 | |
CN111145209A (zh) | 一种医学图像分割方法、装置、设备及存储介质 | |
Vanetti et al. | Gas meter reading from real world images using a multi-net system | |
WO2020001219A1 (zh) | 图像处理方法和装置、存储介质、电子设备 | |
CN112560698A (zh) | 图像处理方法、装置、设备和介质 | |
CN111626295A (zh) | 车牌检测模型的训练方法和装置 | |
CN108664970A (zh) | 一种快速目标检测方法、电子设备、存储介质及*** | |
CN112101386A (zh) | 文本检测方法、装置、计算机设备和存储介质 | |
CN111401421A (zh) | 基于深度学习的图像类别判定方法、电子设备以及介质 | |
Liu et al. | Multi-component fusion network for small object detection in remote sensing images | |
CN112597940B (zh) | 证件图像识别方法、装置及存储介质 | |
CN113780116A (zh) | ***分类方法、装置、计算机设备和存储介质 | |
CN112287905A (zh) | 车辆损伤识别方法、装置、设备及存储介质 | |
CN116167910B (zh) | 文本编辑方法、装置、计算机设备及计算机可读存储介质 | |
CN113065559B (zh) | 图像比对方法、装置、电子设备及存储介质 | |
Wang et al. | Oil tank detection via target-driven learning saliency model | |
Hu et al. | Accurate and fast building detection using binary bag-of-features | |
CN112307908B (zh) | 一种视频语义提取方法及装置 | |
Barbosa et al. | Automatic analogue gauge reading using smartphones for industrial scenarios |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |