CN109685199B - 创建包含关于池化类型的信息的表的方法和装置及使用其的测试方法和测试装置 - Google Patents

创建包含关于池化类型的信息的表的方法和装置及使用其的测试方法和测试装置 Download PDF

Info

Publication number
CN109685199B
CN109685199B CN201811217692.XA CN201811217692A CN109685199B CN 109685199 B CN109685199 B CN 109685199B CN 201811217692 A CN201811217692 A CN 201811217692A CN 109685199 B CN109685199 B CN 109685199B
Authority
CN
China
Prior art keywords
creating
bounding box
training
image
pooling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811217692.XA
Other languages
English (en)
Other versions
CN109685199A (zh
Inventor
金镕重
南云铉
夫硕焄
成明哲
吕东勋
柳宇宙
张泰雄
郑景中
诸泓模
赵浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of CN109685199A publication Critical patent/CN109685199A/zh
Application granted granted Critical
Publication of CN109685199B publication Critical patent/CN109685199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0007Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/203Drawing of straight lines or curves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种用于创建包括关于池化类型的信息的表的方法,所述池化类型基于用于创建表的至少一个图像中的至少一个对象的比例的范围。该方法包括以下步骤:通过应用最大池化来生成第一池化特征映射,并且通过应用平均池化来生成第二池化特征映射;通过使用第一池化特征映射来获取第一候选边界框,并且通过使用第二池化特征映射来获取第二候选边界框;比较第一候选边界框和GT边界框之间的第一相似度与第二候选边界框和GT边界框之间的第二相似度从而创建表,以包括关于基于对象的比例的各范围的各最优池化类型的信息。

Description

创建包含关于池化类型的信息的表的方法和装置及使用其的 测试方法和测试装置
技术领域
本发明涉及用于创建包含关于池化类型的信息的表的方法和装置以及使用其的测试方法和测试装置,更具体地,涉及包括以下步骤的方法:(a)表创建装置获取包含作为具有调整参数的CNN的输入对象的、用于创建表的图像,其中,所述调整参数已经通过学***均池化运算,生成用于训练的第二池化特征映射,其中,所述平均池化运算中的每一个对多个子区域的每一个中包含的所有像素值进行平均;以及(iii)(iii-1)允许第一FC层通过对用于训练的第一池化特征映射应用回归运算来获取关于用于训练的第一候选边界框的像素数据的信息,并且允许第一损失层通过比较关于用于训练的第一候选边界框的像素数据的信息与第一GT图像的边界框的像素数据的信息来获取第一比较数据,从而使用所述第一比较数据在反向传播处理过程中调整CNN的至少一个参数,(iii-2)允许第二FC层通过对用于训练的第二池化特征映射应用回归运算来获取关于用于训练的第二候选边界框的像素数据的信息,并且允许第二损失层通过比较关于用于训练的第二候选边界框的像素数据的信息与第一GT图像的边界框的像素数据的信息来获取第二比较数据,由此使用第二比较数据在反向传播处理过程中调整CNN的至少一个参数;(b)表创建装置允许多个卷积层对用于创建表的图像应用卷积运算从而获取用于创建表的一个或多个特征映射,并且允许RPN对用于创建表的特征映射中的至少一个执行特定运算从而获取用于创建表的ROI;(c)表创建装置(ii-1)通过对一个或多个特征映射中的与用于创建表的ROI相对应的一个或多个区域应用一个或多个最大池化运算来生成用于创建表的第一池化特征映射,并且(ii-2)通过对一个或多个特征映射中的与用于创建表的ROI相对应的一个或多个区域应用一个或多个平均池化运算来生成用于创建表的第二池化特征映射;并且(iii-1)允许第一FC层通过对用于创建表的第一池化特征映射应用回归运算来获取关于用于创建表的第一候选边界框的像素数据的信息,并且(iii-2)允许第二FC层通过对用于创建表的第二池化特征映射应用回归运算来获取关于用于创建表的第二候选边界框的像素数据的信息;以及(d)表创建装置比较(i)用于创建表的第一候选边界框和第二GT图像中的边界框之间的第一相似度与(ii)用于创建表的第二候选边界框和第二GT图像中的边界框之间的第二相似度,从而创建表,以包括关于基于第二GT图像中的对象或用于创建表的图像中的对象的比例的各范围的各最优池化类型的信息。
背景技术
在机器学习中,卷积神经网络(CNN或ConvNet)是一类已经成功地应用于视觉表象的分析的深度前馈人工神经网络。
图1是示意性地示出根据现有技术的以往CNN的学习处理的图。具体地,图1示出了将基于学习装置的预测的边界框与真实数据(GT)边界框进行比较的处理。这里,损失代表预测边界框和GT边界框之间的差异,并且如图1所示表示为。
首先,如图1所示,学习装置可以获取RGB图像作为将要馈送到卷积块中包含的多个卷积层、即卷积滤波器中的输入。在通道的数量随着RGB图像通过多个卷积层而增加的同时,RGB图像的大小、例如宽度和高度变得更小。
如图1所示,学***均池化运算),将与建议盒对应的特征映射上的区域的大小调整到预定大小,例如2×2的大小。其结果,获取池化特征映射。作为参照,池化特征映射也可以称为特征向量。在本文中,最大池化运算是如下的运算:通过该运算,从特征映射上的对象区域划分的每个子区域中的每个最大值被选择作为对象区域的代表值中的每一个,如图1的右下所示。
接着,可以允许将池化特征映射馈送到完全连接(FC)层。
然后,学习装置可以允许FC层识别RGB图像中的对象的类别。此外,RGB图像中的预测边界框可以通过FC层获取,并且损失可以也通过比较预测边界框和真实数据(GT)边界框之间来获取。在本文中,GT边界框表示精确围绕RGB图像中的对象的边界框,通常可以由人准备。
最后,图1中的学习装置可以通过在反向传播处理的过程中使用损失来调整FC层、RPN或多个卷积层中包含的参数中的至少一个。
此后,具有拥有调整参数的CNN的测试装置(未示出)可以稍后获取围绕测试图像中的对象的边界框。然而,即使测试装置具有包含调整参数的CNN,也很难获取精确围绕测试图像中的对象的边界框,因为进行预定的池化运算(例如,最大池化运算或平均池化运算)而不考虑输入图像中的对象的类别或比例。
因此,为了克服上述缺点,本发明的申请人提出一种用于创建包括关于最优池化类型的信息的表的方法和装置、以及使用其的测试方法和测试装置。
发明内容
本发明的一个目的是解决上述问题。
本发明的另一个目的是确定基于对象的各类别和/或比例的最优池化类型,并创建包括关于基于各类别和/或基于对象的各比例的最优池化类型的信息的表。
本发明的又一个目的是通过参照包括关于最优池化类型的信息的表来对测试图像应用池化运算。根据本发明的一个方面,提供一种用于创建包括关于基于用于创建表的至少一个图像中的至少一个对象的比例的范围的池化类型的信息的表的方法,该方法包括以下步骤:(a)表创建装置获取或支持另一个装置获取包含对象的用于创建表的图像作为具有调整参数的CNN的输入,其中,所述调整参数已经通过学***均池化运算来生成用于训练的第二池化特征映射,其中,所述平均池化运算中的每一个对所述多个子区域中的每一个中包含的所有像素值进行平均;以及(iii)(iii-1)允许第一FC层通过对用于训练的所述第一池化特征映射应用回归运算来获取关于用于训练的第一候选边界框的像素数据的信息,并且允许第一损失层通过比较关于用于训练的所述第一候选边界框的像素数据的信息与第一GT图像的边界框的像素数据的信息来获取第一比较数据,从而使用所述第一比较数据在反向传播处理过程中调整所述CNN的至少一个参数,(iii-2)允许第二FC层通过对用于训练的所述第二池化特征映射应用回归运算来获取关于用于训练的第二候选边界框的像素数据的信息,并且允许第二损失层通过比较关于用于训练的所述第二候选边界框的像素数据的信息与所述第一GT图像的边界框的像素数据的信息来获取第二比较数据,从而使用所述第二比较数据在反向传播处理过程中调整所述CNN的至少一个参数;(b)所述表创建装置允许多个卷积层对用于创建表的图像应用所述卷积运算从而获取用于创建表的一个或多个特征映射,并且允许所述RPN对用于创建表的特征映射中的至少一个执行特定运算从而获取用于创建表的ROI;(c)所述表创建装置(c-1)通过对所述一个或多个特征映射中的与用于创建表的ROI相对应的一个或多个区域应用一个或多个最大池化运算来生成用于创建表的第一池化特征映射,并且(c-2)通过对所述一个或多个特征映射中的与用于创建表的所述ROI相对应的一个或多个区域应用一个或多个平均池化运算来生成用于创建表的第二池化特征映射;并且(c-3)允许所述第一FC层通过对用于创建表的所述第一池化特征映射应用回归运算来获取关于用于创建表的第一候选边界框的像素数据的信息,并且(c-4)允许所述第二FC层通过对用于创建表的所述第二池化特征映射应用回归运算来获取关于用于创建表的第二候选边界框的像素数据的信息;以及(d)所述表创建装置比较用于创建表的所述第一候选边界框和第二GT图像中的边界框之间的第一相似度与用于创建表的所述第二候选边界框和所述第二GT图像中的边界框之间的第二相似度从而创建表,以包括关于各最优池化类型的信息,所述各最优池化类型基于所述第二GT图像中的对象或用于创建表的图像中的对象的比例的各范围。
根据本发明的另一个方面,提供一种通过使用包括CNN的测试装置来针对至少一个测试图像中用于测试的至少一个对象使用包括关于池化类型的信息的表的方法,所述方法包括以下步骤:(a)所述测试装置在以下条件下获取或支持另一装置获取所述测试图像,所述条件为:(I)表创建装置已经获取包含用于创建表的至少一个对象的用于创建表的至少一个图像作为具有调整参数的CNN的输入,其中,所述调整参数已经通过学***均池化运算来生成用于训练的第二池化特征映射,其中,所述平均池化运算中的每一个对所述多个子区域的每一个中包含的所有像素值进行平均;以及(iii)(iii-1)允许第一FC层通过对用于训练的所述第一池化特征映射应用回归运算来获取关于用于训练的第一候选边界框的像素数据的信息,并且允许第一损失层通过比较关于用于训练的所述第一候选边界框的像素数据的信息与第一GT图像的边界框的像素数据的信息来获取第一比较数据,从而使用所述第一比较数据在反向传播处理过程中调整所述CNN的至少一个参数,(iii-2)允许第二FC层通过对用于训练的所述第二池化特征映射应用回归运算来获取关于用于训练的第二候选边界框的像素数据的信息,并且允许第二损失层通过比较关于用于训练的所述第二候选边界框的像素数据的信息与所述第一GT图像的边界框的像素数据的信息来获取第二比较数据,从而使用所述第二比较数据在反向传播处理过程中调整CNN的至少一个参数;(II)所述表创建装置已经允许多个卷积层对用于创建表的所述图像应用所述卷积运算从而获取用于创建表的一个或多个特征映射,并且允许所述RPN对用于创建表的至少一个特征映射执行特定运算从而获取用于创建表的ROI;(III)所述表创建装置(ii-1)已经通过对所述一个或多个特征映射中的与用于创建表的所述ROI相对应的一个或多个区域应用一个或多个最大池化运算生成了用于创建表的第一池化特征映射并且(ii-2)已经通过对所述一个或多个特征映射中的与用于创建表的所述ROI相对应的一个或多个区域应用一个或多个平均池化运算生成了用于创建表的第二池化特征映射;并且(iii-1)已经允许所述第一FC层通过对用于创建表的所述第一池化特征映射应用回归运算来获取关于用于创建表的第一候选边界框的像素数据的信息并且(iii-2)已经允许所述第二FC层通过对用于创建表的所述第二池化特征映射应用回归运算来获取关于用于创建表的第二候选边界框的像素数据的信息;以及(IV)所述表创建装置已经比较(i)用于创建表的所述第一候选边界框和第二GT图像中的边界框之间的第一相似度与(ii)用于创建表的所述第二候选边界框和所述第二GT图像中的边界框之间的第二相似度从而创建表,以包括关于各最优池化类型的信息,所述各最优池化类型基于所述第二GT图像中的对象或用于创建表的图像中的对象的比例的各范围;(b)所述测试装置允许所述多个卷积层对所述测试图像应用所述卷积运算从而获取用于测试的一个或多个特征映射,并且允许所述RPN对用于测试的至少一个特征映射执行特定运算从而获取用于测试的ROI;(c)所述测试装置通过使用从最大池化类型和平均池化类型中选择的特定最优池化类型生成用于测试的池化特征映射,其中,所述特定最优池化类型通过参照包括与用于测试的所述ROI的比例相对应的信息的所述表来确定;(d)所述测试装置通过经由所述FC层对用于测试的所述池化特征映射应用回归运算来获取用于测试的边界框。
根据本发明的又一个方面,提供一种用于创建包括关于池化类型的信息的表的表创建装置,所述池化类型基于用于创建表的至少一个图像中的至少一个对象的比例的范围,所述表创建装置包括:通信部,用于获取或支持另一个装置获取包含对象的用于创建表的图像作为具有调整参数的CNN的输入,其中,所述调整参数已经通过学***均池化运算来生成用于训练的第二池化特征映射,其中,所述平均池化运算中的每一个对所述多个子区域的每一个中包含的所有像素值进行平均;以及(iii)(iii-1)允许第一FC层通过对用于训练的所述第一池化特征映射应用回归运算来获取关于用于训练的第一候选边界框的像素数据的信息,并且允许第一损失层通过比较关于用于训练的所述第一候选边界框的像素数据的信息与第一GT图像的边界框的像素数据的信息来获取第一比较数据,从而使用所述第一比较数据在反向传播处理过程中调整CNN的至少一个参数,(iii-2)允许第二FC层通过对用于训练的所述第二池化特征映射应用回归运算来获取关于用于训练的第二候选边界框的像素数据的信息,并且允许第二损失层通过比较关于用于训练的所述第二候选边界框的像素数据的信息与所述第一GT图像的边界框的像素数据的信息来获取第二比较数据,从而使用所述第二比较数据在反向传播处理过程中调整所述CNN的至少一个参数;处理器,用于(I)允许多个卷积层对用于创建表的图像应用所述卷积运算从而获取用于创建表的一个或多个特征映射,并且允许所述RPN对用于创建表的至少一个特征映射执行特定运算从而获取用于创建表的ROI;(II)(II-1)通过对所述一个或多个特征映射中的与用于创建表的所述ROI相对应的一个或多个区域应用一个或多个最大池化运算来生成用于创建表的第一池化特征映射并且(II-2)通过对所述一个或多个特征映射中的与用于创建表的所述ROI相对应的一个或多个区域应用一个或多个平均池化运算来生成用于创建表的第二池化特征映射;并且(II-3)允许所述第一FC层通过对用于创建表的所述第一池化特征映射应用回归运算来获取关于用于创建表的第一候选边界框的像素数据的信息并且(II-4)允许所述第二FC层通过对用于创建表的所述第二池化特征映射应用回归运算来获取关于用于创建表的第二候选边界框的像素数据的信息;并且(III)比较用于创建表的所述第一候选边界框和第二GT图像中的边界框之间的第一相似度与用于创建表的所述第二候选边界框和所述第二GT图像中的边界框之间的第二相似度以创建表,以包括关于各最优池化类型的信息,所述各最优池化类型基于所述第二GT图像中的对象或用于创建表的图像中的对象的比例的各范围。
根据本发明的另一个方面,提供一种针对至少一个测试图像中用于测试的至少一个对象使用包括关于池化类型的信息的表的测试装置,该测试装置包括:通信部,用于在以下条件下获取或支持另一装置获取测试图像,所述条件为:(I)表创建装置已经获取包含用于创建表的至少一个对象的用于创建表的至少一个图像作为具有调整参数的CNN的输入,其中,所述调整参数已经通过学***均池化运算来生成用于训练的第二池化特征映射,其中,所述平均池化运算中的每一个对所述多个子区域中的每一个中包含的所有像素值进行平均;以及(iii)(iii-1)允许第一FC层通过对用于训练的所述第一池化特征映射应用回归运算来获取关于用于训练的第一候选边界框的像素数据的信息,并且允许第一损失层通过比较关于用于训练的所述第一候选边界框的像素数据的信息与第一GT图像的边界框的像素数据的信息来获取第一比较数据,从而使用所述第一比较数据在反向传播处理过程中调整所述CNN的至少一个参数,(iii-2)允许第二FC层通过对用于训练的所述第二池化特征映射应用回归运算来获取关于用于训练的第二候选边界框的像素数据的信息,并且允许第二损失层通过比较关于用于训练的所述第二候选边界框的像素数据的信息与所述第一GT图像的边界框的像素数据的信息来获取第二比较数据,从而使用所述第二比较数据在反向传播处理过程中调整所述CNN的至少一个参数;(II)所述表创建装置已经允许多个卷积层对用于创建表的所述图像应用所述卷积运算从而获取用于创建表的一个或多个特征映射,并且允许所述RPN对用于创建表的至少一个特征映射执行特定运算从而获取用于创建表的ROI;(III)所述表创建装置(ii-1)已经通过对所述一个或多个特征映射中的与用于创建表的所述ROI相对应的一个或多个区域应用一个或多个最大池化运算生成了用于创建表的第一池化特征映射并且(ii-2)已经通过对所述一个或多个特征映射中的与用于创建表的所述ROI相对应的一个或多个区域应用一个或多个平均池化运算生成了用于创建表的第二池化特征映射;并且(iii-1)已经允许第一FC层通过对用于创建表的所述第一池化特征映射应用回归运算来获取关于用于创建表的第一候选边界框的像素数据的信息并且(iii-2)已经允许第二FC层通过对用于创建表的所述第二池化特征映射应用回归运算来获取关于用于创建表的第二候选边界框的像素数据的信息;以及(IV)所述表创建装置已经比较(i)用于创建表的所述第一候选边界框和第二GT图像中的边界框之间的第一相似度与(ii)用于创建表的所述第二候选边界框和所述第二GT图像中的边界框之间的第二相似度从而创建表,以包括关于各最优池化类型的信息,所述各最优池化类型基于所述第二GT图像中的对象或用于创建表的图像中的对象的比例的各范围;处理器,用于(AA)允许所述多个卷积层对所述测试图像应用所述卷积运算从而获取用于测试的一个或多个特征映射,并且允许所述RPN对用于测试的至少一个特征映射执行特定运算从而获取用于测试的ROI;(BB)通过使用在最大池化类型和平均池化类型中选择的特定最优池化类型生成用于测试的池化特征映射,其中,所述特定最优池化类型通过参照包括与用于测试的所述ROI的比例相对应的信息的所述表来确定;(CC)通过经由所述FC层对用于测试的所述池化特征映射应用回归运算来获取用于测试的边界框。
附图说明
以下附图是为了解释本发明的示例性实施例,并且仅仅是本发明的优选实施例的一部分。其他附图可以基于本文的附图获得,而不需要本领域技术人员的创造性工作。通过以下结合附图给出的优选实施例的描述,本发明的上述和其他目的和特征将变得显然,其中:
图1是示意性地示出了根据现有技术的以往CNN的学习处理的图。
图2是示意性地示出了根据本发明的一个示例实施例的表创建装置200的框图。
图3是示意性地示出了通过对输入图像中与感兴趣区域(ROI)相对应的特征映射上的区域分别应用最大池化运算或平均池化运算来获取相应边界框的处理的图。
图4是示例性地示出了在所述区域上执行的最大池化运算和平均池化运算的图。
图5是示出了根据本发明一个示例实施例的基于输入图像中的对象的比例的各范围创建的表的图。
图6是示意性地示出了根据本发明的一个示例实施例的测试装置的框图。
具体实施方式
为了使本发明的目的、技术方案和优点变得清楚而参照了附图,附图通过图示方式示出了可以实践本发明的更详细的示例实施例。优选的实施例被描述地足够详细以使本领域技术人员能够实践本发明。
应当理解,本发明的各种实施例虽然不同,但并不一定相互排斥。例如,本文结合一个实施例描述的特定特征、结构或特性可以在不脱离本发明的精神和范围的情况下在其他实施例中实现。此外,应当理解,在不脱离本发明的精神和范围的情况下,可以修改每个公开的实施例中的各个元件的位置或布置。因此,以下详细描述不理解为限制性意义,并且本发明的范围仅由适当解释的所附权利要求书以及权利要求书有权享有的等同物的全部范围来限定。在附图中,相似的附图标记在所有视图中指相同或相似的功能。
在下文中,将参照附图详细描述本发明的优选实施例,以便本领域技术人员可以容易地实施本发明。
图2是示意性地示出了根据本发明的一个示例实施例的表创建装置200的框图。
如图2所示,具有CNN的表创建装置200可以包括通信部210和处理器220。并且,不同于图2,表创建装置200还可以包括数据库230。根据具体情况,表创建装置200可以和图2一样不包括数据库230。
在学***均池化运算来生成用于训练的第二池化特征映射;以及(iii)(iii-1)允许第一FC层通过对用于训练的第一池化特征映射应用回归运算来获取关于用于训练的第一候选边界框的像素数据的信息,并且允许第一损失层通过比较关于用于训练的第一候选边界框的像素数据的信息与用于训练的GT边界框的像素数据的信息来获取第一比较数据,从而使用第一比较数据在反向传播处理过程中调整CNN的至少一个参数,(iii-2)允许第二FC层通过对用于训练的第二池化特征映射应用回归运算来获取关于用于训练的第二候选边界框的像素数据的信息,并且允许第二损失层通过比较关于用于训练的第二候选边界框的像素数据的信息与用于训练的GT边界框的像素数据的信息来获取第二比较数据,从而使用第二比较数据在反向传播处理过程中调整CNN的至少一个参数。也就是说,表创建装置200的通信部210可以从另一个装置中的区域建议网络(RPN)获取RGB格式的用于创建表的输入图像或者关于用于创建表的ROI的信息。
在下文中,为了方便解释图2至5,将省略“用于创建表”的表述。
另一方面,表创建装置200的处理器220可以被配置为通过使用关于针对输入图像中的对象的比例的范围中的每一个和/或针对其类别中的每一个确定为最大池化或平均池化的最优池化类型的信息来创建表。关于确定最优池化类型的更多细节将在本公开中稍后公开和描述。
此外,数据库230可以被配置为存储用于创建表的信息和记录在表中的信息,例如,用于对象的各比例和/或各类别的最优池化类型,并且数据库230可以被表创建装置200的通信部210访问。
作为参照,可以采用具有执行本公开中公开的运算或计算的至少一个处理器的任何数字计算装置作为表创建装置200。
图3是示意性地示出了表创建装置200通过分别对输入图像中与感兴趣区域(ROI)对应的特征映射上的区域应用最大池化运算或平均池化运算来获取各边界框的过程。作为参照,如图3所示的CNN的配置可以不仅包含在表创建装置200中,而且还可以包含在学习装置中。表创建装置200和学习装置之间的CNN配置的不同之处在于,学习装置还包括至少一个用于反向传播过程的损失层。
另一方面,图4是示例性地示出了在所述区域上执行的最大池化运算和平均池化运算的图。
学习装置(未示出)和包括具有图3所示的配置的CNN的表创建装置200可以包括卷积块、区域建议网络(RPN)、ROI池化层以及至少一个全连接(FC)层等。
特别地,表创建装置200的通信部210可以在步骤S305接收或支持另一装置接收输入图像,例如,RGB图像,然后其处理器220可以允许多个卷积层在步骤S310对图像应用卷积运算以在步骤S315获取一个或多个特征映射,并且允许RPN在步骤S320对至少一个特征映射执行特定运算以在步骤S325获取ROI。
此后,表创建装置200的处理器220可被配置为在步骤S330(i)通过对至少一个特征映射中的与ROI对应的一个或多个区域应用一个或多个最大池化运算来生成第一池化特征映射,并且(ii)通过对至少一个特征映射中的也与ROI对应的一个或多个区域应用一个或多个平均池化运算来生成第二池化特征映射。
作为图4所示的示例,ROI可以表示为4×4像素(即16像素)的区域410。
在图4中,示出了与从RPN获取的用于创建表的ROI对应的区域410。例如,区域410中的像素数据被表示为数值,但不限于此。区域410可以划分为四个子区域,每个子区域具有2×2像素的大小。显然,对于本领域技术人员来说,包含在多个子区域中的每一个中的像素的数量以及多个划分的子区域的数量不一定限于此。
参照图4,通过对区域410应用最大池化运算获取了第一池化特征映射420,而通过对同一区域410应用平均池化运算获取了第二池化特征映射430。根据最大池化运算,选择多个子区域中的每一个中的像素中的具有每个最大像素值的每个像素作为第一池化特征映射,并且根据平均池化运算,对多个子区域中的每一个中包含的像素值进行平均,然后将每个平均值确定为第二池化特征映射。
再次参照图3,表创建装置的处理器可以被配置为允许第一FC层通过在步骤S335对第一池化特征映射应用回归运算来在步骤S340获取关于第一候选边界框的像素的信息,并且被配置为允许第二FC层通过在步骤S345对第二池化特征映射应用回归运算来在步骤S350获取关于第二候选边界框的像素的信息。作为参照,关于像素的信息可以是像素坐标,但并不一定限于此。在本文中,根据具体情况,第一FC层和第二FC层可以不是单独的层。然而,在学习装置或表创建装置由多个计算装置组成的情况下,第一FC层和第二FC层可以分别包含在不同的计算装置中。
此后,表创建装置200的处理器220可以被配置为比较(i)第一候选边界框和GT边界框之间的第一相似度与(ii)第二候选边界框和GT边界框之间的第二相似度从而创建表,以包括关于各最优池化类型的信息,各最优池化类型基于GT图像中的对象或输入图像中的对象的比例的各范围。再例如,表可以被创建为包括关于各最优池化类型的信息,所述各最优池化类型不仅基于对象的比例的各范围而且基于GT图像中的对象或输入图像中的对象的各类别。
图5是示出了根据本发明一个示例实施例的基于输入图像中的对象的比例的各范围创建的表的图。
参见图5,表被创建为存储关于基于GT图像中的对象的比例的各范围和/或其类别的各最优池化类型的信息,但是不限于此。
特别地,表创建装置200的处理器220可以被配置为比较第一候选边界框和GT边界框以获取它们之间的第一相似度。同样,表创建装置200的处理器220可以被配置为比较第二候选边界框和GT边界框以获取它们之间的第二相似度。
在本文中,第一相似度(或第二相似度)被计算为(i)与第一候选边界框中的区域(或第二候选边界框中的区域)和GT边界框中的区域的交集相对应的面积和(ii)与第一候选边界框中的区域(或第二候选边界框中的区域)和GT边界框中的区域的并集相对应的面积之比。
例如,如果第一相似度是3/4,第二相似度是1/3,则应用最大池化运算的结果被确定为比应用平均池化运算的结果更接近GT边界框。
作为参照,任何可以区分第一候选边界框和GT边界框之间或第二候选边界框和GT边界框之间的差异的信息都可以用来计算相应的相似度。这样的信息可以是下列信息中的至少一种:候选边界框和GT边界框的中心坐标(或其他预定坐标)、它们的宽度或它们的高度。
此外,表创建装置200的处理器220可以被配置为还存储关于基于比例的各范围和/或各类别的如图5所示的表中的各最优池化类型的信息。
在本文中,各对象的比例可以随着对GT边界框中的区域(或第一候选边界框中的区域或第二候选边界框中的区域)的像素的数量应用平方根运算来确定,但是不限于此。例如,可以将其他运算应用于该区域以获取比例。平方根运算的结果可以是实数。如果结果是14,则它落在如图5所示的表中的包含在0到15的范围内的“比例1”的范围内。
具体地,对GT边界框中的区域执行平方根运算可以获得可以落在比例的范围之一以下的值。显然,对于本领域技术人员来说,比例的范围是基于一定标准确定的,并因此可以不限于此。
作为另一示例,表创建装置200的处理器220可以被配置为通过多次比较第一相似度和第二相似度来创建表,以确定各对象的最优池化类型。
具体地,每当获取了比较的每个结果时,最大池化运算的精度计数或平均池化运算的精度计数就增加1。并且,通过比较对象的比例的各范围和/或其各类别的最大池化运算的精度计数与平均池化运算的精度计数,表创建装置200的处理器220能够确定对象的比例的各范围和/或其各类别的最优池化类型。
例如,如果1000个输入图像包含具有特定范围的比例(例如,比例2)的对象,并且如果最大池化运算的精度计数是500且平均池化运算的精度计数是800,则表创建装置200的处理器220可以确定比例2的最优池化类型是平均池化。
作为又一示例,可以将所有类别的对象的特定范围的比例的最优池化类型确定为同一个,例如,平均池化,而不管在特定范围内的比例的各对象的类别如何,但是不限于此。
例如,如果存在10个类,例如,行人、车辆、道路和建筑物等,并且如果除行人之外的大多数类(即类别)表明它们相应的最优池化类型是最大池化,则即使行人的最优池化类型是平均池化,包含行人的所有类别的对象的最优池化类型仍可被设置为最大池化。
作为又一示例,表创建装置200的处理器220还可以存储和管理针对对象的各类别的比例的临界范围。
在本文中,针对对象的各类别的比例的临界范围是比例的下述范围:一个相似度从该范围的比例开始变得大于或等于另一个相似度。
通常,对较小比例的对象执行平均池化运算,而对较大比例的对象应用最大池化运算。
因此,随着比例的增加,对于对象的每个类别,存在其相应的特定临界范围,其中根据最大池化运算的相似度变得大于或等于根据平均池化运算的相似度。
因此,表创建装置200可以存储和管理每种对象的比例的临界范围。
此外,根据本发明的另一个示例实施例,如果通过卷积层从每个输入图像生成了多个特征映射,则表创建装置200通过对特定多个特征映射中的与ROI对应的特定多个区域应用最大池化运算来生成第一池化特征映射,并且通过对该特定多个特征映射中的与该ROI对应的该特定多个区域应用平均池化运算来生成第二池化特征映射。
在本文中,每个最优池化类型包括(i)与特定多个特征映射对应的特定多个子池化类型或(ii)通过参照特定多个子池化类型确定的整体池化类型。
例如,如果每个最优池化类型包括(i)与特定多个(=3)特征映射对应的特定多个(=3)子池化类型,只要从每个输入图像生成了具有不同大小的三个特征映射,则将要被记录在表的单元格中的三个特征映射中的每一个的每一个最优子池化类型可以表示为a1、a2、a3。在本文中,可以通过比较关于三个特征映射的最大池化运算和平均池化运算的不同组合来确定最优子池化类型,以计算出组合中的哪一个可以生成以最高精度与GT边界框重叠的候选边界框。根据具体情况,可以对三个特征映射应用一系列最大池化运算或一系列平均池化运算。
另一方面,如果每个最优池化类型包括(ii)通过参照特定多个子池化类型确定的整体池化类型,则表创建装置200的处理器220可以参照相应特征映射的最优子池化类型以获取用于多个特征映射的单个最优池化类型。例如,如果三个特征映射的最优子池化类型是a1max、a2avg、a3max或a1max、a2max、a3avg,那么可以将amax确定为CNN的单个最优池化类型。
作为参照,表创建装置200的输入图像可以不同于用于训练的输入图像,但是,根据具体情况,表创建装置200的输入图像可以与用于训练的输入图像相同。因此,用于创建表的GT图像可以与用于训练的GT图像不同或相同。
图6是示意性地示出了根据本发明的一个示例实施例的测试装置600的框图。
如图6所示,测试装置600可以包括通信部610和处理器620。并且,不同于图6,测试装置600还可以包括数据库630。根据具体情况,测试装置600也可以不包括数据库630。
作为参照,测试装置600、表创建装置200和学习装置(未示出)可以是相同的计算装置,但是,显然,对于本领域技术人员来说,上述装置也可以是单独的计算装置。
测试装置600可以使用包括关于至少一个测试图像中的用于测试的至少一个对象的最优池化类型的信息的表。
在下述过程之后,测试装置600的通信部610可以获取或支持另一个装置获取测试图像:(I)表创建装置200已经获取了包含用于创建表的至少一个对象的用于创建表的至少一个图像作为具有调整参数的CNN的输入,其中,调整参数已经通过学***均池化运算来生成用于训练的第二池化特征映射;以及(iii)(iii-1)允许第一FC层通过对用于训练的第一池化特征映射应用回归运算来获取关于用于训练的第一候选边界框的像素数据的信息,并且允许第一损失层通过比较关于用于训练的第一候选边界框的像素数据的信息与用于训练的GT边界框的像素数据的信息来获取第一比较数据,从而使用第一比较数据在反向传播处理过程中调整CNN的至少一个参数,(iii-2)允许第二FC层通过对用于训练的第二池化特征映射应用回归运算来获取关于用于训练的第二候选边界框的像素数据的信息,并且允许第二损失层通过比较关于用于训练的第二候选边界框的像素数据的信息与用于训练的GT边界框的像素数据的信息来获取第二比较数据,从而使用第二比较数据在反向传播处理过程中调整CNN的至少一个参数;(II)表创建装置已经允许多个卷积层对用于创建表的图像应用卷积运算以获取用于创建表的一个或多个特征映射,并且允许RPN对用于创建表的特征映射中的至少一个执行特定运算以获取用于创建表的ROI;(III)表创建装置200(ii-1)已经通过对一个或多个特征映射中的与用于创建表的ROI对应的一个或多个区域应用一个或多个最大池化运算生成了用于创建表的第一池化特征映射并且(ii-2)已经通过对一个或多个特征映射中的与用于创建表的ROI对应的一个或多个区域应用一个或多个平均池化运算生成了用于创建表的第二池化特征映射;并且(iii-1)已经允许第一FC层通过对用于创建表的第一池化特征映射应用回归运算来获取关于用于创建表的第一候选边界框的像素数据的信息并且(iii-2)已经允许第二FC层通过对用于创建表的第二池化特征映射应用回归运算来获取关于用于创建表的第二候选边界框的像素数据的信息;并且(IV)表创建装置200已经比较(i)用于创建表的第一候选边界框和用于创建表的GT边界框之间的第一相似度与(ii)用于创建表的第二候选边界框和用于创建表的GT边界框之间的第二相似度以创建表,以便包括关于基于GT图像或用于创建表的图像中的对象的比例的各范围的各最优池化类型的信息。
然后,测试装置600可以允许多个卷积层对测试图像应用卷积运算以获取用于测试的一个或多个特征映射,并且允许RPN对用于测试的特征映射中的至少一个执行特定运算以获取用于测试的ROI。
此后,测试装置600可以通过使用在最大池化类型和平均池化类型中选择的特定最优池化类型来生成用于测试的池化特征映射,其中,特定最优池化类型通过参照包括与用于测试的对象的比例的范围和/或类别对应的信息的表来确定。
因此,测试装置600可以通过经由FC层对用于测试的池化特征映射应用回归运算来获取用于测试的边界框。
本发明具有基于输入图像中的相应对象的比例和/或类别应用不同的池化方案的效果。
此外,本发明还具有将最大池化运算与平均池化运算结合以获取池化运算的最佳组合以减少特征损失的另一效果。
此外,本发明还具有通过基于对象的比例和/或类别应用不同的池化方案来提高对象检测的精度和特征表达的另一效果。
如上所述的本发明的实施例可以通过可记录到计算机可读介质的各种计算机装置以可执行程序命令的形式实现。计算机可读介质可以包括单独或组合的程序命令、数据文件和数据结构。记录到介质的程序命令可以是专门为本发明设计的组件,或者对相关领域的技术人员可用。计算机可读记录介质包括专门设计来存储和执行程序的诸如硬盘、软盘和磁带的磁性介质、诸如CD-ROM和DVD的光学介质、诸如软磁光盘的磁光介质以及诸如ROM、RAM和闪存的硬件装置。程序命令不仅包括由编译器生成的机器语言代码,还包括可以由计算装置执行的解释器等使用的高级代码。上述硬件装置可以不仅仅像软件模块一样工作以执行本发明的技术特征,并且它们在相反的情况下也可以执行本发明的技术特征。
如上所述,本发明已经通过诸如详细组件、有限实施例和附图的事项进行了具体描述。虽然已经就优选实施例示出和描述了本发明,然而,本领域技术人员可以理解,在不背离如所附权利要求所定义的本发明的精神和范围的情况下,可以进行各种改变和修改。
因此,本发明的思想不能局限于所解释的优选或示例实施例,并且所附专利权利要求以及包括等于或等同于专利权利要求的变体的所有内容都属于本发明的思想的范畴。

Claims (26)

1.一种用于创建包括关于池化类型的信息的表的方法,所述池化类型基于用于创建表的至少一个图像中的至少一个对象的比例的范围,所述方法包括以下步骤:
(a)表创建装置获取或支持另一个装置获取包含所述对象的用于创建表的图像作为具有调整参数的CNN的输入,其中,所述调整参数已经通过学***均池化运算来生成用于训练的第二池化特征映射,其中,所述平均池化运算中的每一个对所述多个子区域中的每一个中包含的所有像素值进行平均;以及(iii)(iii-1)允许第一FC层通过对用于训练的所述第一池化特征映射应用回归运算来获取关于用于训练的第一候选边界框的像素数据的信息,并且允许第一损失层通过比较关于用于训练的所述第一候选边界框的像素数据的信息与第一GT图像的边界框的像素数据的信息来获取第一比较数据,从而使用所述第一比较数据在反向传播处理过程中调整所述CNN的至少一个参数,(iii-2)允许第二FC层通过对用于训练的所述第二池化特征映射应用回归运算来获取关于用于训练的第二候选边界框的像素数据的信息,并且允许第二损失层通过比较关于用于训练的所述第二候选边界框的像素数据的信息与所述第一GT图像的边界框的像素数据的信息来获取第二比较数据,从而使用所述第二比较数据在反向传播处理过程中调整所述CNN的至少一个参数;
(b)所述表创建装置允许多个卷积层对用于创建表的图像应用所述卷积运算从而获取用于创建表的一个或多个特征映射,并且允许所述RPN对用于创建表的至少一个特征映射执行特定运算从而获取用于创建表的ROI;
(c)所述表创建装置(c-1)通过对所述一个或多个特征映射中的与用于创建表的ROI相对应的一个或多个区域应用一个或多个最大池化运算来生成用于创建表的第一池化特征映射,并且(c-2)通过对所述一个或多个特征映射中的与用于创建表的所述ROI相对应的一个或多个区域应用一个或多个平均池化运算来生成用于创建表的第二池化特征映射;并且(c-3)允许所述第一FC层通过对用于创建表的所述第一池化特征映射应用回归运算来获取关于用于创建表的第一候选边界框的像素数据的信息,并且(c-4)允许所述第二FC层通过对用于创建表的所述第二池化特征映射应用回归运算来获取关于用于创建表的第二候选边界框的像素数据的信息;以及
(d)所述表创建装置比较用于创建表的所述第一候选边界框和第二GT图像中的边界框之间的第一相似度与用于创建表的所述第二候选边界框和所述第二GT图像中的边界框之间的第二相似度,从而创建表,以包括关于各最优池化类型的信息,所述各最优池化类型基于所述第二GT图像中的对象或用于创建表的图像中的对象的比例的各范围。
2.根据权利要求1所述的方法,其中,在步骤(c)中的处理(c-1)和(c-2)中,所述表创建装置通过对所述一个或多个特征映射中的特定特征映射中的与用于创建表的ROI相对应的特定区域应用所述最大池化运算中的一个来生成用于创建表的所述第一池化特征映射,并且通过对所述一个或多个特征映射中的所述特定特征映射中的与用于创建表的ROI相对应的所述特定区域应用所述平均池化运算中的一个来生成用于创建表的所述第二池化特征映射。
3.根据权利要求1所述的方法,其中,在步骤(c)中的处理(c-1)和(c-2)中,所述表创建装置通过对所述一个或多个特征映射中的特定多个特征映射中的与用于创建表的ROI相对应的特定多个区域应用所述最大池化运算来生成用于创建表的所述第一池化特征映射,并且通过对所述一个或多个特征映射中的所述特定多个特征映射中的与用于创建表的ROI相对应的所述特定多个区域应用所述平均池化运算来生成用于创建表的所述第二池化特征映射。
4.根据权利要求3所述的方法,其中,在步骤(d)中,所述最优池化类型中的每一个包括(i)与所述特定多个特征映射相对应的特定多个子池化类型或(ii)通过参照所述特定多个子池化类型确定的整体池化类型。
5.根据权利要求1所述的方法,其中,在步骤(d)中,所述表创建装置比较(i)用于创建表的所述第一候选边界框和所述第二GT图像中的边界框之间的第一相似度与(ii)用于创建表的所述第二候选边界框和所述第二GT图像中的边界框之间的第二相似度,从而创建表,以包括关于各最优池化类型的信息,所述各最优池化类型基于(i)所述第二GT图像中的对象或用于创建表的图像中的对象的比例的各范围和(ii)其中的对象的各类别。
6.根据权利要求1所述的方法,其中,在步骤(d)中,所述表创建装置参照针对所述对象的比例的每个范围确定的具有最大池化类型的类别的数量与具有平均池化类型的类别的数量的比率创建表,以包括关于各最优池化类型的信息,所述各最优池化类型基于所述对象的比例的各范围。
7.根据权利要求1所述的方法,其中,所述表创建装置针对所述对象的每个类别指定并管理所述对象的比例的临界范围,其中,所述临界范围是所述第一相似度大于或等于所述第二相似度的对象的比例的特定范围。
8.根据权利要求1所述的方法,其中,相似度被确定为与用于创建表的候选边界框的面积和所述第二GT图像中的边界框的面积的交集相对应的面积相对于与用于创建表的所述候选边界框的面积和所述第二GT图像中的边界框的面积的并集相对应的面积的比例,其中,所述相似度包括所述第一相似度和所述第二相似度,并且用于创建表的所述候选边界框包括用于创建表的所述第一候选边界框和用于创建表的所述第二候选边界框。
9.根据权利要求1所述的方法,其中,通过参照与用于创建表的图像中的对象相对应的所述第一候选边界框和所述第二候选边界框中包含的像素数据的数量、以及所述第二GT图像的边界框中包含的像素数据的数量中的至少一者来确定所述对象的所述比例。
10.一种通过使用包括CNN的测试装置来针对至少一个测试图像中用于测试的至少一个对象使用包括关于池化类型的信息的表的方法,所述方法包括以下步骤:
(a)所述测试装置在以下条件下获取或支持另一装置获取所述测试图像,所述条件为:(I)表创建装置已经获取包含用于创建表的至少一个对象的用于创建表的至少一个图像作为具有调整参数的CNN的输入,其中,所述调整参数已经通过学***均池化运算来生成用于训练的第二池化特征映射,其中,所述平均池化运算中的每一个对所述多个子区域的每一个中包含的所有像素值进行平均;以及(iii)(iii-1)允许第一FC层通过对用于训练的所述第一池化特征映射应用回归运算来获取关于用于训练的第一候选边界框的像素数据的信息,并且允许第一损失层通过比较关于用于训练的所述第一候选边界框的像素数据的信息与第一GT图像的边界框的像素数据的信息来获取第一比较数据,从而使用所述第一比较数据在反向传播处理过程中调整所述CNN的至少一个参数,(iii-2)允许第二FC层通过对用于训练的所述第二池化特征映射应用回归运算来获取关于用于训练的第二候选边界框的像素数据的信息,并且允许第二损失层通过比较关于用于训练的所述第二候选边界框的像素数据的信息与所述第一GT图像的边界框的像素数据的信息来获取第二比较数据,从而使用所述第二比较数据在反向传播处理过程中调整CNN的至少一个参数;(II)所述表创建装置已经允许多个卷积层对用于创建表的所述图像应用所述卷积运算从而获取用于创建表的一个或多个特征映射,并且允许所述RPN对用于创建表的至少一个特征映射执行特定运算从而获取用于创建表的ROI;(III)所述表创建装置(ii-1)已经通过对所述一个或多个特征映射中的与用于创建表的所述ROI相对应的一个或多个区域应用一个或多个最大池化运算生成了用于创建表的第一池化特征映射并且(ii-2)已经通过对所述一个或多个特征映射中的与用于创建表的所述ROI相对应的一个或多个区域应用一个或多个平均池化运算生成了用于创建表的第二池化特征映射;并且(iii-1)已经允许所述第一FC层通过对用于创建表的所述第一池化特征映射应用回归运算来获取关于用于创建表的第一候选边界框的像素数据的信息并且(iii-2)已经允许所述第二FC层通过对用于创建表的所述第二池化特征映射应用回归运算来获取关于用于创建表的第二候选边界框的像素数据的信息;以及(IV)所述表创建装置已经比较(i)用于创建表的所述第一候选边界框和第二GT图像中的边界框之间的第一相似度与(ii)用于创建表的所述第二候选边界框和所述第二GT图像中的边界框之间的第二相似度,从而创建表,以包括关于各最优池化类型的信息,所述各最优池化类型基于所述第二GT图像中的对象或用于创建表的图像中的对象的比例的各范围;
(b)所述测试装置允许所述多个卷积层对所述测试图像应用所述卷积运算从而获取用于测试的一个或多个特征映射,并且允许所述RPN对用于测试的至少一个特征映射执行特定运算从而获取用于测试的ROI;
(c)所述测试装置通过使用从最大池化类型和平均池化类型中选择的特定最优池化类型生成用于测试的池化特征映射,其中,所述特定最优池化类型通过参照包括与用于测试的所述ROI的比例相对应的信息的表来确定;以及
(d)所述测试装置通过经由所述FC层对用于测试的所述池化特征映射应用回归运算来获取用于测试的边界框。
11.根据权利要求10所述的方法,其中,在作为对所述测试图像应用卷积运算的结果获取了不同大小的用于测试的特征映射的条件下,所述测试装置通过使用与用于测试的特征映射相对应的子池化类型来生成用于测试的所述池化特征映射,其中,所述子池化类型通过参照包括与用于测试的对象的比例相对应的信息的表来确定。
12.根据权利要求10所述的方法,其中,在步骤(b)中,所述测试装置通过使用在所述最大池化类型和所述平均池化类型中选择的所述特定最优池化类型来生成用于测试的池化特征映射,其中,所述特定最优池化类型通过参照包括与用于测试的所述ROI的比例及用于测试的对象的类别相对应的信息的表来确定。
13.根据权利要求10所述的方法,其中,在步骤(b)中,用于测试的所述ROI的比例通过参照其中包含的像素数据的数量来确定。
14.一种用于创建包括关于池化类型的信息的表的表创建装置,所述池化类型基于用于创建表的至少一个图像中的至少一个对象的比例的范围,所述表创建装置包括:
通信部,用于获取或支持另一个装置获取包含对象的用于创建表的图像作为具有调整参数的CNN的输入,其中,所述调整参数已经通过学***均池化运算来生成用于训练的第二池化特征映射,其中,所述平均池化运算中的每一个对所述多个子区域的每一个中包含的所有像素值进行平均;以及(iii)(iii-1)允许第一FC层通过对用于训练的所述第一池化特征映射应用回归运算来获取关于用于训练的第一候选边界框的像素数据的信息,并且允许第一损失层通过比较关于用于训练的所述第一候选边界框的像素数据的信息与第一GT图像的边界框的像素数据的信息来获取第一比较数据,从而使用所述第一比较数据在反向传播处理过程中调整CNN的至少一个参数,(iii-2)允许第二FC层通过对用于训练的所述第二池化特征映射应用回归运算来获取关于用于训练的第二候选边界框的像素数据的信息,并且允许第二损失层通过比较关于用于训练的所述第二候选边界框的像素数据的信息与所述第一GT图像的边界框的像素数据的信息来获取第二比较数据,从而使用所述第二比较数据在反向传播处理过程中调整所述CNN的至少一个参数;以及
处理器,用于(I)允许多个卷积层对用于创建表的图像应用所述卷积运算从而获取用于创建表的一个或多个特征映射,并且允许所述RPN对用于创建表的至少一个特征映射执行特定运算从而获取用于创建表的ROI;(II)(II-1)通过对所述一个或多个特征映射中的与用于创建表的所述ROI相对应的一个或多个区域应用一个或多个最大池化运算来生成用于创建表的第一池化特征映射并且(II-2)通过对所述一个或多个特征映射中的与用于创建表的所述ROI相对应的一个或多个区域应用一个或多个平均池化运算来生成用于创建表的第二池化特征映射;并且(II-3)允许所述第一FC层通过对用于创建表的所述第一池化特征映射应用回归运算来获取关于用于创建表的第一候选边界框的像素数据的信息并且(II-4)允许所述第二FC层通过对用于创建表的所述第二池化特征映射应用回归运算来获取关于用于创建表的第二候选边界框的像素数据的信息;并且(III)比较用于创建表的所述第一候选边界框和第二GT图像中的边界框之间的第一相似度与用于创建表的所述第二候选边界框和所述第二GT图像中的边界框之间的第二相似度,从而创建表,以包括关于各最优池化类型的信息,所述各最优池化类型基于所述第二GT图像中的对象或用于创建表的图像中的对象的比例的各范围。
15.根据权利要求14所述的表创建装置,其中,在处理(II-1)和(II-2)中,所述处理器通过对所述一个或多个特征映射中的特定特征映射中的与用于创建表的所述ROI相对应的特定区域应用所述最大池化运算中的一个来生成用于创建表的所述第一池化特征映射,并且通过对所述一个或多个特征映射中的所述特定特征映射中的与用于创建表的所述ROI相对应的所述特定区域应用所述平均池化运算中的一个来生成用于创建表的所述第二池化特征映射。
16.根据权利要求14所述的表创建装置,其中,在处理(II-1)和(II-2)中,所述处理器通过对所述一个或多个特征映射中的特定多个特征映射中的与用于创建表的所述ROI相对应的特定多个区域应用所述最大池化运算来生成用于创建表的所述第一池化特征映射,并且通过对所述一个或多个特征映射中的所述特定多个特征映射中的与用于创建表的所述ROI相对应的所述特定多个区域应用所述平均池化运算来生成用于创建表的所述第二池化特征映射。
17.根据权利要求16所述的表创建装置,其中,在处理(III)中,所述最优池化类型中的每一个包括(i)与所述特定多个特征映射相对应的特定多个子池化类型或(ii)通过参照所述特定多个子池化类型确定的整体池化类型。
18.根据权利要求14所述的表创建装置,其中,在处理(III)中,所述处理器比较(i)用于创建表的所述第一候选边界框和所述第二GT图像中的边界框之间的第一相似度与(ii)用于创建表的所述第二候选边界框和所述第二GT图像中的边界框之间的第二相似度,从而创建表,以包括关于各最优池化类型的信息,所述所述各最优池化类型基于(i)所述第二GT图像中的对象或用于创建表的图像中的对象的比例的各范围以及(ii)其中的对象的各类别。
19.根据权利要求14所述的表创建装置,其中,在处理(III)中,所述处理器参照针对所述对象的比例的每个范围确定的、具有最大池化类型的类别的数量与具有平均池化类型的类别的数量的比率创建表,以包括关于各最优池化类型的信息,所述各最优池化类型基于所述对象的比例的各范围。
20.根据权利要求14所述的表创建装置,其中,所述处理器针对所述对象的每个类别指定并管理所述对象的比例的临界范围,其中,所述临界范围是所述第一相似度大于或等于所述第二相似度的对象的比例的特定范围。
21.根据权利要求14所述的表创建装置,其中,相似度被确定为与用于创建表的候选边界框的面积和所述第二GT图像中的边界框的面积的交集相对应的面积相对于与用于创建表的所述候选边界框的面积和所述第二GT图像中的边界框的面积的并集相对应的区域的比例,其中,所述相似度包括所述第一相似度和所述第二相似度,并且用于创建表的所述候选边界框包括用于创建表的所述第一候选边界框和用于创建表的所述第二候选边界框。
22.根据权利要求14所述的表创建装置,其中,通过参照与用于创建表的图像中的对象相对应的所述第一候选边界框和所述第二候选边界框中包含的像素数据的数量、以及所述第二GT图像的边界框中包含的像素数据的数量中的至少一者来确定所述对象的所述比例。
23.一种针对至少一个测试图像中用于测试的至少一个对象使用包括关于池化类型的信息的表的测试装置,所述测试装置包括:
通信部,用于在以下条件下获取或支持另一装置获取所述测试图像,所述条件为:(I)表创建装置已经获取包含用于创建表的至少一个对象的用于创建表的至少一个图像作为具有调整参数的CNN的输入,其中,所述调整参数已经通过学***均池化运算来生成用于训练的第二池化特征映射,其中,所述平均池化运算中的每一个对所述多个子区域的每一个中包含的所有像素值进行平均;以及(iii)(iii-1)允许第一FC层通过对用于训练的所述第一池化特征映射应用回归运算来获取关于用于训练的第一候选边界框的像素数据的信息,并且允许第一损失层通过比较关于用于训练的所述第一候选边界框的像素数据的信息与第一GT图像的边界框的像素数据的信息来获取第一比较数据,从而使用所述第一比较数据在反向传播处理过程中调整所述CNN的至少一个参数,(iii-2)允许第二FC层通过对用于训练的所述第二池化特征映射应用回归运算来获取关于用于训练的第二候选边界框的像素数据的信息,并且允许第二损失层通过比较关于用于训练的所述第二候选边界框的像素数据的信息与所述第一GT图像的边界框的像素数据的信息来获取第二比较数据,从而使用所述第二比较数据在反向传播处理过程中调整所述CNN的至少一个参数;(II)所述表创建装置已经允许多个卷积层对用于创建表的图像应用所述卷积运算从而获取用于创建表的一个或多个特征映射,并且允许所述RPN对用于创建表的至少一个特征映射执行特定运算从而获取用于创建表的ROI;(III)所述表创建装置(ii-1)已经通过对所述一个或多个特征映射中的与用于创建表的所述ROI相对应的一个或多个区域应用一个或多个最大池化运算生成了用于创建表的第一池化特征映射并且(ii-2)已经通过对所述一个或多个特征映射中的与用于创建表的所述ROI相对应的一个或多个区域应用一个或多个平均池化运算生成了用于创建表的第二池化特征映射;并且(iii-1)已经允许所述第一FC层通过对用于创建表的所述第一池化特征映射应用回归运算来获取关于用于创建表的第一候选边界框的像素数据的信息并且(iii-2)已经允许所述第二FC层通过对用于创建表的所述第二池化特征映射应用回归运算来获取关于用于创建表的第二候选边界框的像素数据的信息;以及(IV)所述表创建装置已经比较(i)用于创建表的所述第一候选边界框和第二GT图像中的边界框之间的第一相似度与(ii)用于创建表的所述第二候选边界框和所述第二GT图像中的边界框之间的第二相似度,从而创建表,以包括关于各最优池化类型的信息,所述各最优池化类型基于所述第二GT图像中的对象或用于创建表的图像中的对象的比例的各范围;
处理器,用于(AA)允许所述多个卷积层对所述测试图像应用所述卷积运算从而获取用于测试的一个或多个特征映射,并且允许所述RPN对用于测试的至少一个特征映射执行特定运算从而获取用于测试的ROI;(BB)通过使用在最大池化类型和平均池化类型中选择的特定最优池化类型生成用于测试的池化特征映射,其中,所述特定最优池化类型通过参照包括与用于测试的所述ROI的比例相对应的信息的表来确定;(CC)通过经由所述FC层对用于测试的所述池化特征映射应用回归运算来获取用于测试的边界框。
24.根据权利要求23所述的测试装置,其中,在作为对所述测试图像应用卷积运算的结果获取了不同大小的用于测试的特征映射的条件下,所述处理器通过使用与用于测试的特征映射相对应的子池化类型来生成用于测试的所述池化特征映射,其中,所述子池化类型通过参照包括与用于测试的对象的比例相对应的信息的表来确定。
25.根据权利要求23所述的测试装置,其中,在处理(AA)中,所述处理器通过使用在所述最大池化类型和所述平均池化类型中选择的所述特定最优池化类型来生成用于测试的所述池化特征映射,其中,所述特定最优池化类型通过参照包括与用于测试的所述ROI的比例及用于测试的所述对象的类别相对应的信息的表来确定。
26.根据权利要求23所述的测试装置,其中,在处理(AA)中,用于测试的所述ROI的比例通过参照其中包含的像素数据的数量来确定。
CN201811217692.XA 2017-10-18 2018-10-18 创建包含关于池化类型的信息的表的方法和装置及使用其的测试方法和测试装置 Active CN109685199B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/786,680 2017-10-18
US15/786,680 US9953437B1 (en) 2017-10-18 2017-10-18 Method and device for constructing a table including information on a pooling type and testing method and testing device using the same

Publications (2)

Publication Number Publication Date
CN109685199A CN109685199A (zh) 2019-04-26
CN109685199B true CN109685199B (zh) 2023-07-28

Family

ID=61952390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811217692.XA Active CN109685199B (zh) 2017-10-18 2018-10-18 创建包含关于池化类型的信息的表的方法和装置及使用其的测试方法和测试装置

Country Status (5)

Country Link
US (1) US9953437B1 (zh)
EP (1) EP3474191A1 (zh)
JP (1) JP6707608B2 (zh)
KR (1) KR102114357B1 (zh)
CN (1) CN109685199B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10706267B2 (en) * 2018-01-12 2020-07-07 Qualcomm Incorporated Compact models for object recognition
DE102018212049A1 (de) * 2018-07-19 2020-01-23 Conti Temic Microelectronic Gmbh Verfahren zur dreidimensionalen bildlichen Rekonstruktion eines Fahrzeugs
US10325179B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Learning method and learning device for pooling ROI by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same
US10402686B1 (en) * 2019-01-25 2019-09-03 StradVision, Inc. Learning method and learning device for object detector to be used for surveillance based on convolutional neural network capable of converting modes according to scales of objects, and testing method and testing device using the same
US10445611B1 (en) * 2019-01-25 2019-10-15 StradVision, Inc. Method for detecting pseudo-3D bounding box to be used for military purpose, smart phone or virtual driving based-on CNN capable of converting modes according to conditions of objects and device using the same
US10650279B1 (en) * 2019-01-31 2020-05-12 StradVision, Inc. Learning method and learning device for heterogeneous sensor fusion by using merging network which learns non-maximum suppression
US10713815B1 (en) * 2019-01-31 2020-07-14 StradVision, Inc. Method and device for supporting administrators to processes of object detectors to provide logical driving
US10817777B2 (en) * 2019-01-31 2020-10-27 StradVision, Inc. Learning method and learning device for integrating object detection information acquired through V2V communication from other autonomous vehicle with object detection information generated by present autonomous vehicle, and testing method and testing device using the same
CN110490813B (zh) * 2019-07-05 2021-12-17 特斯联(北京)科技有限公司 卷积神经网络的特征图增强方法、装置、设备及介质
CN111127587B (zh) * 2019-12-16 2023-06-23 杭州电子科技大学 一种基于对抗生成网络的无参考图像质量地图生成方法
CN111339884B (zh) * 2020-02-19 2023-06-06 浙江大华技术股份有限公司 图像识别方法以及相关设备、装置
US11854239B2 (en) * 2021-01-07 2023-12-26 Canon Kabushiki Kaisha Image processing device, imaging device, image processing method, and recording medium
CN112991735B (zh) * 2021-03-05 2022-10-14 北京百度网讯科技有限公司 交通流量监测***的测试方法、装置及设备
US20220301311A1 (en) * 2021-03-17 2022-09-22 Qualcomm Incorporated Efficient self-attention for video processing

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8467607B1 (en) * 2011-11-21 2013-06-18 Google Inc. Segmentation-based feature pooling for object models
CN104217208A (zh) * 2013-06-03 2014-12-17 株式会社理光 目标检测方法和装置
CN104504743A (zh) * 2014-12-30 2015-04-08 深圳先进技术研究院 重建内部感兴趣区域图像的方法及***
CN107229904A (zh) * 2017-04-24 2017-10-03 东北大学 一种基于深度学习的目标检测与识别方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150104102A1 (en) * 2013-10-11 2015-04-16 Universidade De Coimbra Semantic segmentation method with second-order pooling
CN106156807B (zh) * 2015-04-02 2020-06-02 华中科技大学 卷积神经网络模型的训练方法及装置
US9286524B1 (en) * 2015-04-15 2016-03-15 Toyota Motor Engineering & Manufacturing North America, Inc. Multi-task deep convolutional neural networks for efficient and robust traffic lane detection
US20170124409A1 (en) * 2015-11-04 2017-05-04 Nec Laboratories America, Inc. Cascaded neural network with scale dependent pooling for object detection
US9965719B2 (en) * 2015-11-04 2018-05-08 Nec Corporation Subcategory-aware convolutional neural networks for object detection
US10002313B2 (en) * 2015-12-15 2018-06-19 Sighthound, Inc. Deeply learned convolutional neural networks (CNNS) for object localization and classification

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8467607B1 (en) * 2011-11-21 2013-06-18 Google Inc. Segmentation-based feature pooling for object models
CN104217208A (zh) * 2013-06-03 2014-12-17 株式会社理光 目标检测方法和装置
CN104504743A (zh) * 2014-12-30 2015-04-08 深圳先进技术研究院 重建内部感兴趣区域图像的方法及***
CN107229904A (zh) * 2017-04-24 2017-10-03 东北大学 一种基于深度学习的目标检测与识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于搜索区域条件概率CNN的精确目标探测方法;熊丽婷;张青苗;沈克永;;计算机工程与应用(20);第139-145页 *

Also Published As

Publication number Publication date
JP2019075122A (ja) 2019-05-16
KR20190043468A (ko) 2019-04-26
US9953437B1 (en) 2018-04-24
EP3474191A1 (en) 2019-04-24
JP6707608B2 (ja) 2020-06-10
CN109685199A (zh) 2019-04-26
KR102114357B1 (ko) 2020-06-17

Similar Documents

Publication Publication Date Title
CN109685199B (zh) 创建包含关于池化类型的信息的表的方法和装置及使用其的测试方法和测试装置
CN109670523B (zh) 用包括跟踪网的卷积神经网络获取与图像中的对象对应的边界框的方法和使用其的计算装置
CN109670573B (zh) 利用损失增加调整cnn的参数的学习方法和学习装置以及使用它们的测试方法和测试装置
US10007865B1 (en) Learning method and learning device for adjusting parameters of CNN by using multi-scale feature maps and testing method and testing device using the same
US8180154B2 (en) Method and apparatus for region-based segmentation image processing using region mapping
CN109378052B (zh) 图像标注的预处理方法及***
JP5948138B2 (ja) 欠陥解析支援装置、欠陥解析支援装置で実行されるプログラム、および欠陥解析システム
US10304009B1 (en) Learning method and testing method for object detector based on R-CNN, and learning device and testing device using the same
CN109598781B (zh) 通过回归分析从2d边界框获取伪3d框的方法以及使用该方法的学习装置和测试装置
CN111462193B (zh) 用于多摄像机或环绕视图监控的对象检测方法及装置
CN109583483A (zh) 一种基于卷积神经网络的目标检测方法和***
CN101454798B (zh) 红眼检测仪器和红眼检测方法
CN110414559A (zh) 智能零售柜商品目标检测统一框架的构建方法及商品识别方法
CN110737785B (zh) 一种图片标注的方法及装置
US20210350521A1 (en) Method for computer-implemented determination of blade-defects of a wind turbine
CN107977624A (zh) 一种语义分割方法、装置以及***
KR20200027888A (ko) 차선 모델을 이용하여 차선을 검출할 수 있는 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
CN115810133B (zh) 基于图像处理和点云处理的焊接控制方法及相关设备
US20200234025A1 (en) Image analysis system and method of using the image analysis system
CN114781514A (zh) 一种融合注意力机制的漂浮物目标检测方法及***
CN113205511B (zh) 基于深层神经网络的电子元器件批量信息检测方法及***
CN110310270B (zh) 基于U-net网络模型的肿瘤微球轮廓检测方法及装置
CN116596895A (zh) 一种变电设备图像缺陷识别方法及***
CN114118127B (zh) 一种视觉场景标志检测与识别方法及装置
CN104851817B (zh) 电子束检测优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant