CN109670573A - 利用损失增加调整cnn的参数的学习方法和学习装置以及使用它们的测试方法和测试装置 - Google Patents

利用损失增加调整cnn的参数的学习方法和学习装置以及使用它们的测试方法和测试装置 Download PDF

Info

Publication number
CN109670573A
CN109670573A CN201811191012.1A CN201811191012A CN109670573A CN 109670573 A CN109670573 A CN 109670573A CN 201811191012 A CN201811191012 A CN 201811191012A CN 109670573 A CN109670573 A CN 109670573A
Authority
CN
China
Prior art keywords
characteristic pattern
information
bounding box
pond
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811191012.1A
Other languages
English (en)
Other versions
CN109670573B (zh
Inventor
金镕重
南云铉
夫硕焄
成明哲
吕东勋
柳宇宙
张泰雄
郑景中
诸泓模
赵浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chastelard Vision Inc
Original Assignee
Chastelard Vision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chastelard Vision Inc filed Critical Chastelard Vision Inc
Publication of CN109670573A publication Critical patent/CN109670573A/zh
Application granted granted Critical
Publication of CN109670573B publication Critical patent/CN109670573B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

提供了一种利用损失增加来调整CNN的参数的学习方法。该方法包括以下步骤:学习装置获取:(a)特征图,从训练图像获取;(b)(i)与对象对应的建议ROI,使用RPN获取,以及第一池化特征图,通过对特征图上与建议ROI对应的区域进行池化获取,以及(ii)与对象对应的GT ROI,在训练图像上获取,以及第二池化特征图,通过对特征图上与GT ROI对应的区域进行池化获取;以及(c)(i)关于第一边界框的像素数据的信息,当第一池化特征图和第二池化特征图被输入到FC层中时获取,(ii)关于第一边界框和GT边界框的像素数据的信息之间的比较数据,以及关于比较数据反向传播信息,用于调整参数。

Description

利用损失增加调整CNN的参数的学习方法和学习装置以及使 用它们的测试方法和测试装置
技术领域
本发明涉及一种利用损失增加调整CNN的参数的学习方法和学习装置以及使用它们的测试方法和测试装置;更具体地,涉及如下的方法:(a)从训练图像获取至少一个特征图,(b)通过使用RPN获取与训练图像上的至少一个对象相对应的一个或多个建议ROI,并通过对特征图上与建议ROI相对应的区域应用池化运算创建至少一个第一池化特征图,(c)在训练图像上获取对应于对象的GT ROI,并通过对特征图上对应于GT ROI的区域应用池化运算创建第二池化特征图,(d)当第一池化特征图和第二池化特征图被输入到第一FC层时,通过回归获取关于第一边界框的像素数据的信息,(e)通过比较关于第一边界框的像素数据的信息和关于GT边界框的像素数据的信息获取第一比较数据,以及(f)将关于第一比较数据的信息反向传播从而执行至少部分参数的第一调整。
背景技术
在机器学习中,卷积神经网络(CNN或ConvNet)是一类深度前馈人工神经网络,已成功应用于分析视觉意象。
图1是示意性地示出使用传统CNN的学习过程的图,其将预测边界框与地面真值(GT)边界框进行比较从而获取损失值。例如,损失值可以包括dxc、dyc、dw、dh,如图1所示。
首先,如图1所示的传统学习装置的包括至少一个卷积滤波器的卷积层可以接收对象的训练图像,例如RGB图像,然后通过使用训练图像创建至少一个特征图。特征图的宽度和高度可以在通过卷积层时减小,但是其通道数可以增加。
接下来,当特征图被输入到区域建议网络(RPN)时,传统学习装置可以允许RPN获取至少一个感兴趣区域(ROI)。具体地,如果将特征图输入到RPN中,则RPN可以创建一个或多个锚框(anchor box),并且通过将锚框的每一个与GT边界框进行比较,确定锚框中与GT边界框匹配程度等于或大于预定阈值的特定锚框来作为ROI。
然后,传统学***均池化操作应用于特征图上对应于ROI的像素数据。这里,最大池化可以将特征图划分为一组非重叠子区域,并且对于子区域的每一个,在子区域的每一个中的像素值中输出其对应的最大值,并且平均值池化可以将特征图划分为一组非重叠的子区域,并且对于子区域的每一个,输出其对应的平均值。
接下来,图1中的传统学***均池化的结果而获取的池化特征图输入到完全连接(FC)层中,以及(ii)允许FC层通过对池化特征图应用分类操作来确认对象的类型,即类。作为参考,可以将池化特征图称为特征向量。
此外,图1中的传统学习装置可以允许FC层获取训练图像上的边界框,然后允许损失层获取表示所获取的边界框与GT边界框之间的差异的损失值。这里,GT边界框可以是准确地包含训练图像中的对象的边界框,并且通常可以由人为创建。
最后,图1中的传统学习装置可以调整FC层的一个或多个参数、RPN的一个或多个参数以及卷积层的一个或多个参数的至少一部分,以减少反向传播过程期间的损失值。通过调整参数,可以提高之后在测试图像中获取边界框的精度。
传统上,池化层可以对特征图上对应于由RPN确定的ROI的区域应用池化操作。然而,由于ROI可能不准确地包含对象,因此从该区域池化的特征可能不是对象的所需特征。因此,这种池化的特征可能对CNN的学习产生不良影响。
因此,本发明的发明人提出了一种在学习中除了利用传统ROI之外还利用GT ROI的技术。
发明内容
本发明的一个目的是解决所有上述问题。
本发明的另一个目的是(i)连接(i-1)通过对特征图上与使用RPN获取的ROI对应的区域应用池化运算获取的池化特征图和(i-2)通过对特征图上与GT ROI对应的区域应用池化运算获取的池化特征图,(ii)将连接的池化特征图输入到FC层以通过回归获取边界框,(iii)反向传播关于通过在获取的边界框和GT边界框之间进行比较而获取的损失的信息,从而调整参数,以及(iv)通过使用调整后的参数,支持另一装置在测试图像上获取更准确地包含对象的边界框。
根据本发明的一个方面,提供了一种通过利用损失增加来调整卷积神经网络(CNN)的一个或多个参数的学习方法,包括以下步骤:(a)学习装置从训练图像获取或支持另一装置从训练图像获取至少一个特征图;(b)学习装置执行或支持另一装置执行如下过程:(i)通过使用RPN在训练图像上获取与至少一个对象对应的一个或多个建议ROI的过程和通过对特征图上与建议ROI对应的区域应用池化运算创建至少一个第一池化特征图的过程,以及(ii)在训练图像上获取与对象对应的GT ROI的过程和通过对特征图上与GTROI对应的区域应用池化运算创建第二池化特征图的过程;(c)学习装置执行或支持另一装置执行如下过程:(i)当第一池化特征图和第二池化特征图被输入到第一FC层中时,通过回归获取关于第一边界框的像素数据的信息的过程,(ii)通过在关于第一边界框的像素数据的信息和关于GT边界框的像素数据的信息之间进行比较来获取第一比较数据的过程,以及(iii)反向传播关于第一比较数据的信息从而执行至少部分参数的第一调整的过程。
根据本发明的另一方面,提供了一种通过使用包括卷积神经网络(CNN)的测试装置在测试图像上获取用于测试的对象的用于测试的边界框的方法,包括以下步骤:(a)在包括CNN的学习装置执行或支持另一装置执行如下过程的条件下,测试装置获取或支持另一装置获取测试图像,然后通过使用CNN从测试图像获取用于测试的特征图,其中CNN具有通过学习装置执行第一调整和第二调整而调整的参数:(1)从训练图像获取用于训练的特征图的过程,(2)(i)(i-1)通过使用RPN在训练图像上获取与用于训练的至少一个对象对应的用于训练的一个或多个建议ROI的过程以及(i-2)通过对用于训练的特征图上与用于训练的建议ROI对应的区域应用池化运算创建至少一个第一池化特征图的过程,以及(ii)(ii-1)在训练图像上获取与用于训练的对象相对应的GT ROI的过程以及(ii-2)通过对用于训练的特征图上与GT ROI对应的区域应用池化运算创建第二池化特征图的过程,(3)(i)(i-1)当第一池化特征图和第二池化特征图被输入到第一FC层中时,通过回归获取关于用于训练的第一边界框的像素数据的信息的过程,(i-2)通过在关于用于训练的第一边界框的像素数据的信息和关于用于训练的GT边界框的像素数据的信息之间进行比较来获取第一比较数据的过程,(i-3)反向传播关于第一比较数据的信息从而执行CNN的至少部分参数的第一调整的过程,(ii)(ii-1)当第一池化特征图被输入到第二FC层中时,通过回归获取关于用于训练的第二边界框的像素数据的信息的过程,(ii-2)通过在关于用于训练的第二边界框的像素数据的信息和关于用于训练的GT边界框的像素数据的信息之间进行比较获取第二比较数据的过程,以及(ii-3)反向传播关于第二比较数据的信息从而执行CNN的至少部分参数的第二调整的过程;(b)通过使用RPN,测试装置在测试图像上获取或支持另一装置在测试图像上获取与用于测试的对象相对应的用于测试的一个或多个建议ROI;(c)通过对用于测试的特征图上与用于测试的建议ROI对应的区域应用池化运算,测试装置创建或支持另一装置创建用于测试的至少一个池化特征图;以及(d)当用于测试的池化特征图被输入到第二FC层中时,测试装置通过回归获取或支持另一装置获取用于测试的边界框。
根据本发明的另一方面,提供了一种通过利用损失增加调整卷积神经网络(CNN)的一个或多个参数的学习装置,包括:通信部,用于获取或支持另一装置获取训练图像或其对应的至少一个特征图;以及处理器,用于执行或支持另一装置执行如下过程:(i)通过使用RPN在训练图像上获取与至少一个对象相对应的一个或多个建议ROI的过程以及通过对从通信部获取的特征图或通过对从通信部获取的训练图像应用一个或多个卷积运算计算得到的特征图上与建议ROI对应的区域应用池化运算创建至少一个第一池化特征图的过程;(ii)在训练图像上获取与对象对应的GT ROI的过程以及通过对特征图上与GT ROI对应的区域应用池化运算创建第二池化特征图的过程;(iii)当第一池化特征图和第二池化特征图被输入到第一FC层中时,通过回归获取关于第一边界框的像素数据的信息的过程;(iv)通过在关于第一边界框的像素数据的信息和关于GT边界框的像素数据的信息之间进行比较来获取第一比较数据的过程;以及(v)反向传播关于第一比较数据的信息从而执行至少部分参数的第一调整的过程。
根据本发明的又一方面,提供了一种通过使用包括卷积神经网络(CNN)的测试装置在测试图像上获取用于测试的对象的用于测试的边界框的测试装置,包括:通信部,在包括CNN的学习装置执行或支持另一装置执行如下过程的条件下,用于获取或支持另一装置获取测试图像或其对应的用于测试的至少一个特征图,(1)从训练图像获取用于训练的特征图的过程,(2)(i)(i-1)通过使用RPN在训练图像上获取与用于训练的至少一个对象对应的用于训练的一个或多个建议ROI的过程以及(i-2)通过对用于训练的特征图上与用于训练的建议ROI对应的区域应用池化运算创建至少一个第一池化特征图的过程,以及(ii)(ii-1)在训练图像上获取与用于训练的对象相对应的GT ROI的过程以及(ii-2)通过对用于训练的特征图上与GT ROI对应的区域应用池化运算创建第二池化特征图的过程,(3)(i)(i-1)当第一池化特征图和第二池化特征图被输入到第一FC层中时,通过回归获取关于用于训练的第一边界框的像素数据的信息的过程,(i-2)通过在关于用于训练的第一边界框的像素数据的信息和关于用于训练的GT边界框的像素数据的信息之间进行比较来获取第一比较数据的过程,(i-3)反向传播关于第一比较数据的信息从而执行CNN的至少部分参数的第一调整的过程,(ii)(ii-1)当第一池化特征图被输入到第二FC层中时,通过回归获取关于用于训练的第二边界框的像素数据的信息的过程,(ii-2)通过在关于用于训练的第二边界框的像素数据的信息和关于用于训练的GT边界框的像素数据的信息之间进行比较获取第二比较数据的过程,以及(ii-3)反向传播关于第二比较数据的信息从而执行CNN的至少部分参数的第二调整的过程;以及处理器,用于:(i)通过使用RPN在测试图像上获取或支持另一装置在测试图像上获取与用于测试的对象对应的用于测试的一个或多个建议ROI;(ii)通过对从通信部获取的用于测试的特征图或通过使用CNN计算得到的特征图上与用于测试的建议ROI对应的区域应用池化运算,创建或支持另一装置创建用于测试的至少一个池化特征图,其中所述CNN具有通过所述学习装置对从所述通信部获取的所述测试图像执行所述第一调整和所述第二调整而调整的参数;(iii)当用于测试的池化特征图被输入到第二FC层中时,通过回归获取或支持另一装置获取用于测试的边界框。
附图说明
通过下面结合附图对优选实施例的描述,本发明的上述和其它目的和特征将变得明显,其中:
图1是示意性地示出获取边界框并将其与GT边界框进行比较的传统学习装置的过程的图;
图2是示意性地示出根据本发明的一个示例实施例的学习装置的框图;
图3A是示意性地示出根据本发明的一个示例实施例的由包括第一FC层和第一损失层的学习装置使用GT ROI调整参数的过程的图;
图3B是示意性地示出根据本发明的另一示例实施例的由包括第一FC层、第二FC层、第一损失层和第二损失层的学习装置使用GT ROI调整参数的过程的图;
图4是示例性地示出根据本发明的一个示例实施例的池化和连接GT ROI和从RPN获取的建议ROI的过程的图;
图5是根据本发明的一个示例实施例的测试装置的框图;
图6A是示意性地示出根据本发明的一个示例实施例的由包括第一FC层的测试装置使用调整后的参数获取边界框的过程的图;
图6B是示意性地示出根据本发明另一示例实施例的由包括第二FC层的测试装置使用调整后的参数获取边界框的过程的图。
具体实施方式
在以下详细描述中,参考了附图,附图通过图示的方式示出了可以实践本发明的具体实施例。足够详细地描述了这些实施例,以使本领域技术人员能够实践本发明。应该理解,本发明的各种实施例虽然不同,但不一定是相互排斥的。例如,在不脱离本发明的精神和范围的情况下,可以在其他实施例中实现本文中结合一个实施例描述的特定特征、结构或特性。另外,应该理解,在不脱离本发明的精神和范围的情况下,可以修改每个公开的实施例中的各个元件的位置或布置。因此,以下详细描述不应被视为具有限制意义,并且本发明的范围仅由所附权利要求限定,并由权利要求以及权利要求所赋予的等同物的全部范围适当地解释。在附图中,相同的附图标记在若干视图中指代相同或相似的功能。
为了使本领域技术人员容易地实施本发明,通过参考附图对本发明的示例性实施例进行详细说明,如下所示。
图2是示意性地示出根据本发明的一个示例实施例的学习装置100的框图。
如图2所示,本发明的学习装置100可以包括通信部110和处理器120,并且视情况而定可以包括与图2不同的数据库130。
这里,本发明的学习装置100可以是具有能够根据本发明进行计算的处理器的数字装置。
通信部110可以被配置为获取训练图像或来自训练图像的至少一个特征图。
学习装置100的处理器120可以执行以下过程:(i)预测训练图像上的边界框,(ii)通过比较预测边界框与GT边界框获取比较数据,以及(iii)通过反向传播关于所获取的比较数据的信息调整CNN的参数。稍后将详细描述这一点。
数据库130可以由学习装置100的通信部110访问,并且可以存储关于比较数据的信息、关于表示对象是否是车辆、行人等的类的信息、关于ROI的信息以及关于参数的信息。
图3A是示出根据本发明的一个示例实施例的执行以下过程的学习装置100的图:(i)连接(i-1)通过由第一ROI池化层320对特征图上与从RPN 315输出的一个或多个建议ROI对应的区域应用池化运算获取的至少一个第一池化特征图和(i-2)通过由第二ROI池化层325对特征图上与GT ROI对应的区域应用池化运算获取的至少一个第二池化特征图,(ii)如果连接的特征图被输入到第一FC层330中,则通过回归获取边界框,以及(iii)通过反向传播关于由第一损失层335将边界框与GT边界框进行比较而获取的一个或多个损失值的信息调整CNN的参数。
尽管学习装置100示出为被配置为根据本说明书中的附图的一个装置,但是学习装置可以被划分为若干装置以执行其功能。为方便起见,本发明的说明书假设学习装置是单个装置。
通过参考图3A,本发明的学习装置100可以包括卷积层310、区域建议网络(RPN)315、第一FC层330和第一损失层335的至少一部分,其中卷积层310包括至少一个卷积滤波器。
如果通过通信部110获取训练图像,则处理器120可以允许卷积层310通过对训练图像应用卷积运算来产生特征图。根据具体情况,通信部110可以通过通信部110直接获取由另一个学习装置中包括的另一个卷积层预先创建的特征图。
作为参考,卷积层310可以被配置为包括一个或多个卷积滤波器,并且每当训练图像通过每个卷积滤波器时,训练图像的大小或其对应的特征图的大小可以减小到一半,而特征图的通道数可以增加到两倍。
例如,如果训练图像的大小是640×480并且其通道数是3,则第一特征图的大小是320×240并且其通道数是6,并且第二特征图的大小是160×120而其通道数是12,依此类推。
作为参考,相应的增加量和减少量可以根据卷积层中包括的每个卷积滤波器的参数而不同。
处理器120可以在训练图像上获取从RPN315输出的与对象相对应的建议ROI。
如果获取了建议ROI,则处理器120可以允许第一ROI池化层320通过对特征图上与建议ROI对应的区域应用池化运算来产生至少一个第一池化特征图。这里,池化运算可以包括最大池化运算、平均池化运算或任何其他操作。
另一方面,处理器120可以在训练图像上获取与对象对应的GT ROI,然后通过允许第二ROI池化层325将池化运算应用于特征图上与GT ROI对应的区域来产生至少一个第二池化特征图。这里,GT ROI可以是与被人为选择为在训练图像上准确地包含对象的GT边界框相同的区域。
作为参考,为了方便起见,说明书将ROI视为存在于训练图像上,然而,它可以根据具体情况指示特征图上的区域。
此外,处理器120可以执行以下过程:(i)如果第一池化特征图和第二池化特征图被输入到第一FC层330中,则通过回归获取关于第一边界框的像素数据的信息,(ii)通过第一损失层335将关于第一边界框的像素数据的信息与关于GT边界框的像素数据的信息进行比较获取第一比较数据,然后反向传播关于第一比较数据的信息。
输入到第一FC层中的数据可以包括由第一池化特征图和第二池化特征图的级联产生的至少一个特征向量。这将参考图4进行说明。
图4是示例性地示出根据本发明的一个示例实施例的对特征图上与GTROI和从RPN输出的建议ROI对应的各个区域进行池化以及连接各个池化特征图的过程的图。
作为参考,在图4中从获取训练图像的步骤到将池化特征图输入到第一FC层440中的步骤的过程与在图3A中从获取训练图像的步骤到将池化特征图输入到第一FC层330中的步骤的过程相同,因此,省略了详细说明。
另一方面,假设在训练图像通过卷积层之后获取具有M个通道的特征图(w/32×h/32),则通过对具有M个通道的特征图(w/32×h/32)应用池化运算而获取的第一池化特征图与第二池化特征图也可以分别具有M个通道。这里,池化特征图可以是N×N维的方阵,并且可以称为特征向量。
处理器120可以执行以下过程:(i)通过将具有M个通道的第一池化特征图和具有M个通道的第二池化特征图沿通道轴连接,获取N×N×(2×M)维的至少一个特征向量,(ii)通过将获取的特征向量输入到第一FC层440中,获取关于第一边界框的像素数据的信息。这里,关于第一边界框的像素数据的信息可以包括像素坐标。
此外,处理器120可以允许图3A中的第一损失层335在第一边界框的像素坐标与GT边界框的像素坐标之间进行比较产生第一比较数据。这里,像素坐标可以是每个边界框的点的坐标,包括中心和顶点等的坐标。
此外,处理器120可以通过反向传播关于第一比较数据的信息来执行CNN的一个或多个参数的第一调整。可以执行反向传播以减小包括损失值的第一比较数据的值。参数可以是第一FC层、RPN和卷积层中的至少一个。
处理器120可以通过使用多个训练图像来执行或支持另一装置执行如上所述的参数的第一调整。
图3B是示出根据本发明的另一示例实施例的包括第一FC层330和第二FC层340的学习装置100执行以下过程的图:(i)通过第一损失层335将关于第一边界框的像素数据的信息与关于GT边界框的像素数据的信息进行比较获取第一比较数据,(ii)通过第二损失层345将关于第二边界框的像素数据的信息与关于GT边界框的像素数据的信息进行比较获取第二比较数据,以及(iii)通过反向传播关于第一比较数据和第二比较数据的信息来调整参数。
如上所示,图3B中所示的过程包括图3A中所示的过程,并且还包括第二FC层340的附加过程和利用第二损失层345的步骤。
学习装置100可以执行以下过程:(i)当第一池化特征图被输入到第二FC层340中时,通过回归获取关于第二边界框的像素数据的信息,(ii)通过第二损失层345将关于第二边界框的像素数据的信息与关于GT边界框的像素数据的信息进行比较获取第二比较数据,以及(iii)通过反向传播关于第二比较数据的信息支持对CNN的至少一个参数的第二调整。
处理器120可以通过使用多个训练图像来执行或支持另一装置执行如上所述的参数的第二调整。
也就是说,可以通过允许第二损失层345由关于GT边界框的像素数据的信息与仅第一池化特征图被输入的第二FC层340的输出之间进行比较产生第二比较数据来执行参数的第二调整。这里,参数可以是卷积层、RPN和第二FC层中的至少一个。
因此,第一调整可以包括调整卷积层、RPN和第一FC层的至少一个参数的调整,第二调整可以包括调整卷积层、RPN和第二FC层的至少一个参数的调整。
此外,处理器120可以将第一边界框的像素坐标与GT边界框的像素坐标进行比较。
这里,像素坐标可以是如上所述的每一个边界框的点的坐标。例如,假设第一边界框的中心的坐标为x和y,其宽度和高度为w和h,GT边界框的中心的坐标为x’和y’,其宽度和高度为w’和h’,则第一比较数据可以是x’-x,y’-y,w’-w和h’-h。相似的原理适用于第二比较数据的情况。
另一方面,RPN可以获取一个或多个锚框,并通过参考等于或大于预定值的分数设置锚框中选择的一些锚框作为建议ROI,其中通过在关于每一个锚框的像素数据的信息和关于GT边界框的像素数据的信息之间进行比较获取分数。
通常,单个像素可以用作若干锚框的锚点,因此,具有多个像素的训练图像明显地表现出多个锚框。这里,特征图上对应于多个锚框的区域可以是经历池化运算的候选。
作为参考,特征图上符合建议ROI的区域可以与通过调整训练图像上一部分锚框的宽度和高度的大小获取的区域对应。这是因为,如上所述,通过卷积层调整训练图像的宽度和高度的大小来获取特征图。类似地,特征图上与GT ROI对应的区域(即GT边界框)可以与通过调整GT边界框的宽度和高度的大小而获得的区域对应。
另一方面,可以通过使用将与锚框中的一个和GT边界框的交集对应的面积除以与锚框中的所述一个和GT边界框的并集对应的面积而获得的比率来执行各个比较,比率是针对锚框的每一个计算的。这里,每个比率可以用作分数。
例如,如果第一锚框和GT边界框的比率是四分之三,并且第二锚框和GT边界框的比率是三分之一,则第一锚框的分数可以被确定为比第二锚框的分数大。
此外,可以利用各种数据来计算分数,这些数据例如为,锚框的中心与GT边界框的中心之间的距离、锚框的高度与GT边界框的高度的差或比率、锚框的宽度与GT边界框的宽度的差或比率以及锚框的任意点与GT边界框的任意点之间的距离。
例如,RPN可以确定具有等于或大于0.7的分数的锚框作为建议ROI的候选。
图5是根据本发明的一个示例实施例的测试装置500的框图。这里,形容词短语“用于训练的”描述了用于解释学习装置100的概念,并且如下与用于解释测试装置500的“用于测试的”对比地使用。仅为方便起见,在上述说明中省略了形容词短语“用于训练的”。
如图5所示,本发明的测试装置500可以包括通信部510和处理器520,并且根据具体情况可以包括与图5不同的数据库530。在图中,测试装置500和学习装置100被示为单独的装置,然而,它们可以是相同的装置。
作为参考,在完成(i)作为卷积层、RPN和第一FC层中的至少一个的参数的调整的第一调整和/或(ii)作为卷积层、RPN和第二FC层中的至少一个的参数的调整的第二调整时,测试装置500的处理器520可以执行获取测试图像并找到包括用于测试的至少一个对象的用于测试的至少一个边界框的过程。
图6A是示意性地示出根据本发明的一个示例实施例的由包括第一FC层630的测试装置500使用调整后的参数获取用于测试的边界框的过程的图。
作为参考,图6A是示意性地示出包括具有通过学习装置100由第一调整获取的参数的CNN的测试装置500的过程的图,并且除了在双点划线矩形中的过程之外,所有过程类似于图3A中的过程,在双点划线矩形中的过程包括对与GT ROI对于的区域应用池化运算的过程以及反向传播关于所获取的第一比较数据的信息的过程。
包括具有通过第一调整的参数的CNN的测试装置500可以经由通信部510接收测试图像或从其获取的用于测试的特征图。此外,视情况而定,可以接收从RPN输出的关于用于测试的一个或多个建议ROI的信息。
如果经由通信部510获取测试图像,则处理器520可以将测试图像输入到卷积层610中以获取用于测试的特征图。
此外,处理器520可以执行以下过程:(i)通过使用RPN 615在测试图像上获取与用于测试的对象相对应的用于测试的建议ROI,以及(ii)通过ROI池化层620将池化运算应用于用于测试的特征图上与用于测试的建议ROI对应的区域来创建用于测试的池化特征图。
接下来,处理器520可以将用于测试的池化特征图输入到第一FC层630中,以通过回归获取用于测试的边界框。
与通过使用没有第一调整的参数获取的边界框相比,用于测试的边界框可以更准确地包括用于测试的对象。
图6B是示意性地示出根据本发明另一示例实施例的由包括第二FC层640的测试装置500获取用于测试的边界框的过程的图。
作为参考,图6B是示意性地示出包括具有通过学习装置100由第一调整和第二调整获取的参数的CNN的测试装置500的过程的图,并且除了在双点划线矩形中的过程之外,所有过程类似于图3B中的过程,在双点划线矩形中的过程包括(i)对与GT ROI对应的区域应用池化运算的过程,(ii)反向传播关于所获取的第一比较数据和第二比较数据的信息的过程,以及(iii)通过使用第一FC层630获取用于测试的边界框的过程。
作为参考,在图6B中用双点划线表示从第一FC层630获取边界框的过程的原因是,第一FC层630用于调整训练过程中的参数,并且在测试过程中仅使用第二FC层640。
包括具有通过第一调整和第二调整获取的参数的CNN的测试装置500可以经由通信部510接收测试图像或从其获取的用于测试的特征图。
如果经由通信部510获取测试图像,则处理器520可以允许卷积层610通过对测试图像应用卷积运算来产生用于测试的特征图。
此外,处理器520可以执行以下过程:(i)通过使用RPN 615在测试图像上获取与用于测试的对象相对应的用于测试的建议ROI,以及(ii)通过ROI池化层620将池化运算应用于用于测试的特征图上与用于测试的建议ROI对应的区域来创建用于测试的池化特征图。
接下来,处理器520可以将用于测试的池化特征图输入到第二FC层640中,从而通过回归获取用于测试的边界框。
与通过使用没有第一调整和第二调整的参数获得的边界框相比,用于测试的边界框可以更准确地包括用于测试的对象。
本发明具有以下效果:(i)连接(i-1)通过对特征图上与使用RPN获取的ROI对应的区域应用池化运算获取的池化特征图和(i-2)通过对特征图上与GT ROI对应的区域应用池化运算获取的池化特征图,(ii)将连接的池化特征图输入到FC层以通过回归获取边界框,(iii)反向传播关于通过在获取的边界框和GT边界框之间进行比较而获取的损失值的信息,从而调整参数,以及(iv)通过使用调整后的参数,支持另一装置在测试图像上获取更准确地包含用于测试的对象的用于测试的边界框。
如上所述的本发明的实施例可以通过可记录到计算机可读介质的各种计算机装置以可执行程序命令的形式实现。计算机可读介质可以单独地或组合地包括程序命令、数据文件和数据结构。记录到介质的程序命令可以是为本发明专门设计的组件,或者对于计算机软件领域的技术人员可用。计算机可读记录介质包括:诸如硬盘、软盘和磁带的磁介质;诸如CD-ROM和DVD的光学介质;诸如光盘的磁光介质;诸如ROM、RAM的硬件装置;以及专门用于存储和执行程序的闪存。程序命令不仅包括由编译器产生的机器语言代码,还包括可由通过计算机执行的解释器等使用的高级代码。上述硬件装置可以不止作为软件模块工作来执行本发明的动作,并且它们在相反的情况下可以做同样的工作。
如上所述,已经通过诸如详细组件、有限实施例和附图的具体事项解释了本发明。提供它们仅仅是为了帮助更全面地理解本发明。然而,本领域技术人员将理解,在不脱离所附权利要求限定的本发明的精神和范围的情况下,可以从说明书中进行各种改变和修改。
因此,本发明的思想不应局限于所解释的实施例,并且以下专利权利要求以及包括与专利权利要求等同或等同的变化的所有内容都属于本发明的思想范畴。

Claims (24)

1.一种通过利用损失增加来调整卷积神经网络(CNN)的一个或多个参数的学习方法,包括以下步骤:
(a)学习装置从训练图像获取或支持另一装置从训练图像获取至少一个特征图;
(b)所述学习装置执行或支持另一装置执行如下过程:(i)通过使用RPN在所述训练图像上获取与至少一个对象对应的一个或多个建议ROI的过程和通过对所述特征图上与所述建议ROI对应的区域应用池化运算创建至少一个第一池化特征图的过程,以及(ii)在所述训练图像上获取与所述对象对应的GT ROI的过程和通过对所述特征图上与所述GT ROI对应的区域应用池化运算创建第二池化特征图的过程;以及
(c)所述学习装置执行或支持另一装置执行如下过程:(i)当所述第一池化特征图和所述第二池化特征图被输入到第一FC层中时,通过回归获取关于第一边界框的像素数据的信息的过程,(ii)通过在关于所述第一边界框的像素数据的信息和关于GT边界框的像素数据的信息之间进行比较来获取第一比较数据的过程,以及(iii)反向传播关于所述第一比较数据的信息从而执行至少部分所述参数的第一调整的过程。
2.根据权利要求1所述的方法,其中,在所述步骤(c)中,所述学习装置执行或支持另一装置执行如下过程:(i)当所述第一池化特征图被输入到第二FC层中时,通过回归获取关于第二边界框的像素数据的信息的过程,(ii)通过在关于所述第二边界框的像素数据的信息和关于所述GT边界框的像素数据的信息之间进行比较来获取第二比较数据的过程,以及(iii)反向传播关于所述第二比较数据的信息从而执行至少部分所述参数的第二调整的过程。
3.根据权利要求2所述的方法,其中,所述参数的所述第一调整包括卷积层、所述RPN和所述第一FC层中的至少一个的参数的调整,并且所述参数的所述第二调整包括所述卷积层、所述RPN和所述第二FC层中的至少一个的参数的调整。
4.根据权利要求1所述的方法,其中,在所述步骤(c)中,所述学习装置执行或支持另一装置执行如下过程:(i)通过连接所述第一池化特征图和所述第二池化特征图获取至少一个特征向量的过程,(ii)当所述特征向量被输入到所述第一FC层时,通过回归获取关于所述第一边界框的像素数据的信息的过程,(iii)通过在关于所述第一边界框的像素数据的信息和关于所述GT边界框的像素数据的信息之间进行比较获取所述第一比较数据的过程,以及(iv)反向传播关于所述第一比较数据的信息从而执行至少部分所述参数的所述第一调整的过程。
5.根据权利要求1所述的方法,其中,在所述步骤(c)中,当所述第一池化特征图和所述第二池化特征图被输入到所述第一FC层中时,所述学习装置通过回归获取或支持另一装置获取关于所述第一边界框的像素数据的信息,然后所述学习装置比较或支持另一装置比较所述第一边界框的像素坐标与所述GT边界框的像素坐标。
6.根据权利要求1所述的方法,其中,所述学习装置允许所述RPN在所述训练图像上获取或支持另一装置在所述训练图像上获取分数等于或大于第一阈值的一个或多个锚框作为所述建议ROI,其中,通过在关于各个所述锚框的像素数据的信息和关于所述GT边界框的像素数据的信息之间分别进行比较来获取所述分数。
7.根据权利要求6所述的方法,其中,通过使用将与所述锚框中的一个和所述GT边界框的交集对应的面积除以与所述锚框中的所述一个和所述GT边界框的并集对应的面积而获得的比率来分别执行比较,其中,所述比率是针对所述锚框的每一个计算得到的。
8.一种通过使用包括卷积神经网络(CNN)的测试装置在测试图像上获取用于测试的对象的用于测试的边界框的方法,包括以下步骤:
(a)在包括所述CNN的学习装置执行或支持另一装置执行如下过程的条件下,所述测试装置获取或支持另一装置获取所述测试图像,然后通过使用所述CNN从所述测试图像获取用于测试的特征图,其中所述CNN具有通过所述学习装置执行第一调整和第二调整而调整的参数:(1)从训练图像获取用于训练的特征图的过程,(2)(i)(i-1)通过使用RPN在所述训练图像上获取与用于训练的至少一个对象对应的用于训练的一个或多个建议ROI的过程以及(i-2)通过对用于训练的所述特征图上与用于训练的所述建议ROI对应的区域应用池化运算创建至少一个第一池化特征图的过程,以及(ii)(ii-1)在所述训练图像上获取与用于训练的所述对象对应的GT ROI的过程以及(ii-2)通过对用于训练的所述特征图上与所述GT ROI对应的区域应用池化运算创建第二池化特征图的过程,(3)(i)(i-1)当所述第一池化特征图和所述第二池化特征图被输入到第一FC层中时,通过回归获取关于用于训练的第一边界框的像素数据的信息的过程,(i-2)通过在关于用于训练的所述第一边界框的像素数据的信息和关于用于训练的GT边界框的像素数据的信息之间进行比较来获取第一比较数据的过程,(i-3)反向传播关于所述第一比较数据的信息从而执行所述CNN的至少部分参数的所述第一调整的过程,(ii)(ii-1)当所述第一池化特征图被输入到第二FC层中时,通过回归获取关于用于训练的第二边界框的像素数据的信息的过程,(ii-2)通过在关于用于训练的所述第二边界框的像素数据的信息和关于用于训练的所述GT边界框的像素数据的信息之间进行比较获取第二比较数据的过程,以及(ii-3)反向传播关于所述第二比较数据的信息从而执行所述CNN的至少部分参数的所述第二调整的过程;
(b)通过使用所述RPN,所述测试装置在所述测试图像上获取或支持另一装置在所述测试图像上获取与用于测试的所述对象对应的用于测试的一个或多个建议ROI;
(c)通过对用于测试的所述特征图上与用于测试的所述建议ROI对应的区域应用池化运算,所述测试装置创建或支持另一装置创建用于测试的至少一个池化特征图;以及
(d)当用于测试的所述池化特征图被输入到所述第二FC层中时,所述测试装置通过回归获取或支持另一装置获取用于测试的边界框。
9.根据权利要求8所述的方法,其中,所述参数的所述第一调整包括卷积层、所述RPN和所述第一FC层中的至少一个的参数的调整,并且所述参数的所述第二调整包括所述卷积层、所述RPN和所述第二FC层中的至少一个的参数的调整。
10.根据权利要求8所述的方法,其中,所述学习装置执行或支持另一装置执行如下过程:(i)通过连接所述第一池化特征图和所述第二池化特征图获取至少一个特征向量的过程,(ii)当所述特征向量被输入到所述第一FC层中时,通过回归获取关于用于训练的所述第一边界框的像素数据的信息的过程,(iii)通过在关于所述第一边界框的像素数据的信息和关于用于训练的所述GT边界框的像素数据的信息之间进行比较获取所述第一比较数据的过程,以及(iv)反向传播关于所述第一比较数据的信息从而执行所述CNN的至少部分所述参数的所述第一调整的过程。
11.根据权利要求8所述的方法,其中,当所述第一池化特征图和所述第二池化特征图被输入到所述第一FC层中时,如果通过回归获取关于用于训练的所述第一边界框的像素坐标的信息,则所述学习装置比较或支持另一装置比较用于训练的所述第一边界框的像素坐标和用于训练的所述GT边界框的像素坐标。
12.根据权利要求8所述的方法,其中,所述学习装置允许所述RPN在所述训练图像上获取或支持另一装置在所述训练图像上获取分数等于或大于第二阈值的一个或多个锚框作为用于训练的所述建议ROI,其中,通过在关于各个所述锚框的像素数据的信息和关于用于训练的所述GT边界框的像素数据的信息之间分别进行比较来获取所述分数。
13.一种通过利用损失增加调整卷积神经网络(CNN)的一个或多个参数的学习装置,包括:
通信部,用于获取或支持另一装置获取训练图像或其对应的至少一个特征图;以及
处理器,用于执行或支持另一装置执行如下过程:(i)通过使用RPN在所述训练图像上获取与至少一个对象对应的一个或多个建议ROI的过程以及通过对从所述通信部获取的所述特征图或通过对从所述通信部获取的所述训练图像应用一个或多个卷积运算计算得出的特征图上与所述建议ROI对应的区域应用池化运算创建至少一个第一池化特征图的过程;(ii)在所述训练图像上获取与所述对象对应的GT ROI的过程以及通过对所述特征图上与所述GT ROI对应的区域应用池化运算创建第二池化特征图的过程;(iii)当所述第一池化特征图和所述第二池化特征图被输入到第一FC层中时,通过回归获取关于第一边界框的像素数据的信息的过程;(iv)通过在关于所述第一边界框的像素数据的信息和关于GT边界框的像素数据的信息之间进行比较来获取第一比较数据的过程;以及(v)反向传播关于所述第一比较数据的信息从而执行至少部分参数的第一调整的过程。
14.根据权利要求13所述的学习装置,其中,在所述过程(ii)之后,所述处理器还执行或支持另一装置执行如下过程:(a)当所述第一池化特征图被输入到第二FC层时,通过回归获取关于第二边界框的像素数据的信息的过程,(b)通过在关于所述第二边界框的像素数据的信息和关于所述GT边界框的像素数据的信息之间进行比较获取第二比较数据的过程,以及(c)反向传播关于所述第二比较数据的信息从而执行至少部分参数的第二调整的过程。
15.根据权利要求14所述的学习装置,其中,所述参数的所述第一调整包括卷积层、所述RPN和所述第一FC层中的至少一个的参数的调整,并且所述参数的所述第二调整包括所述卷积层、所述RPN和所述第二FC层中的至少一个的参数的调整。
16.根据权利要求13所述的学习装置,其中,在所述过程(iii)至过程(v)中,所述处理器执行或支持另一装置执行如下过程:(a)通过连接所述第一池化特征图和所述第二池化特征图获取至少一个特征向量的过程,(b)当所述特征向量被输入到所述第一FC层时,通过回归获取关于所述第一边界框的像素数据的信息的过程,(c)通过在关于所述第一边界框的像素数据的信息和关于所述GT边界框的像素数据的信息之间进行比较获取所述第一比较数据的过程,以及(d)反向传播关于所述第一比较数据的信息从而执行至少部分参数的所述第一调整的过程。
17.根据权利要求13所述的学习装置,其中,在所述过程(iv)中,当所述第一池化特征图和所述第二池化特征图被输入到第一FC层中时,所述处理器通过回归获取或支持另一装置获取关于所述第一边界框的像素数据的信息,然后所述处理器比较或支持另一装置比较所述第一边界框的像素坐标与所述GT边界框的像素坐标。
18.根据权利要求13所述的学习装置,其中,所述处理器允许所述RPN在所述训练图像上获取或支持另一装置在所述训练图像上获取分数等于或大于第一阈值的一个或多个锚框作为所述建议ROI,其中,通过在关于各个所述锚框的像素数据的信息和关于所述GT边界框的像素数据的信息之间分别进行比较获取所述分数。
19.根据权利要求18所述的学习装置,其中,通过使用将与所述锚框中的一个和所述GT边界框的交集对应的面积除以与所述锚框中的所述一个和所述GT边界框的并集对应的面积而获得的比率来分别执行比较,其中,所述比率是针对所述锚框的每一个计算得到的。
20.一种通过使用包括卷积神经网络(CNN)的测试装置在测试图像上获取用于测试的对象的用于测试的边界框的测试装置,包括:
通信部,在包括所述CNN的学习装置执行或支持另一装置执行如下过程的条件下,所述通信部用于获取或支持另一装置获取所述测试图像或其对应的用于测试的至少一个特征图:(1)从训练图像获取用于训练的特征图的过程,(2)(i)(i-1)通过使用RPN在所述训练图像上获取与用于训练的至少一个对象对应的用于训练的一个或多个建议ROI的过程以及(i-2)通过对用于训练的所述特征图上与用于训练的所述建议ROI对应的区域应用池化运算创建至少一个第一池化特征图的过程,以及(ii)(ii-1)在所述训练图像上获取与用于训练的所述对象对应的GT ROI的过程以及(ii-2)通过对用于训练的所述特征图上与所述GTROI对应的区域应用池化运算创建第二池化特征图的过程,(3)(i)(i-1)当所述第一池化特征图和所述第二池化特征图被输入到第一FC层中时,通过回归获取关于用于训练的第一边界框的像素数据的信息的过程,(i-2)通过在关于用于训练的所述第一边界框的像素数据的信息和关于用于训练的GT边界框的像素数据的信息之间进行比较来获取第一比较数据的过程,(i-3)反向传播关于所述第一比较数据的信息从而执行所述CNN的至少部分参数的第一调整的过程,(ii)(ii-1)当所述第一池化特征图被输入到第二FC层中时,通过回归获取关于用于训练的第二边界框的像素数据的信息的过程,(ii-2)通过在关于用于训练的所述第二边界框的像素数据的信息和关于用于训练的所述GT边界框的像素数据的信息之间进行比较获取第二比较数据的过程,以及(ii-3)反向传播关于所述第二比较数据的信息从而执行所述CNN的至少部分参数的第二调整的过程;以及
处理器,用于:(i)通过使用所述RPN在所述测试图像上获取或支持另一装置在所述测试图像上获取与用于测试的所述对象对应的用于测试的一个或多个建议ROI;(ii)通过对从所述通信部获取的用于测试的所述特征图或通过使用所述CNN计算得到的特征图上与用于测试的所述建议ROI对应的区域应用池化运算,创建或支持另一装置创建用于测试的至少一个池化特征图,其中所述CNN具有通过所述学习装置对从所述通信部获取的所述测试图像执行所述第一调整和所述第二调整而调整的参数;以及(iii)当用于测试的所述池化特征图被输入到所述第二FC层中时,通过回归获取或支持另一装置获取用于测试的边界框。
21.根据权利要求20所述的测试装置,其中,所述参数的所述第一调整包括卷积层、所述RPN和所述第一FC层中的至少一个的参数的调整,并且所述参数的所述第二调整包括所述卷积层、所述RPN和所述第二FC层中的至少一个的参数的调整。
22.根据权利要求20所述的测试装置,其中,所述学习装置执行或支持另一装置执行如下过程:(i)通过连接所述第一池化特征图和所述第二池化特征图获取至少一个特征向量的过程,(ii)当所述特征向量被输入到所述第一FC层中时,通过回归获取关于用于训练的所述第一边界框的像素数据的信息的过程,(iii)通过在关于所述第一边界框的像素数据的信息和关于用于训练的所述GT边界框的像素数据的信息之间进行比较获取所述第一比较数据的过程,以及(iv)反向传播关于所述第一比较数据的信息从而执行所述CNN的至少部分所述参数的所述第一调整的过程。
23.根据权利要求20所述的测试装置,其中,当所述第一池化特征图和所述第二池化特征图被输入到所述第一FC层中时,如果通过回归获取关于用于训练的所述第一边界框的像素坐标的信息,则所述学习装置比较或支持另一装置比较用于训练的所述第一边界框的像素坐标和用于训练的所述GT边界框的像素坐标。
24.根据权利要求20所述的测试装置,其中,所述学习装置允许所述RPN在所述训练图像上获取或支持另一装置在所述训练图像上获取分数等于或大于第二阈值的一个或多个锚框作为用于训练的所述建议ROI,其中,通过在关于各个所述锚框的像素数据的信息和关于用于训练的所述GT边界框的像素数据的信息之间分别进行比较来获取所述分数。
CN201811191012.1A 2017-10-13 2018-10-12 利用损失增加调整cnn的参数的学习方法和学习装置以及使用它们的测试方法和测试装置 Active CN109670573B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/783,481 US10169679B1 (en) 2017-10-13 2017-10-13 Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same
US15/783,481 2017-10-13

Publications (2)

Publication Number Publication Date
CN109670573A true CN109670573A (zh) 2019-04-23
CN109670573B CN109670573B (zh) 2023-07-28

Family

ID=63517814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811191012.1A Active CN109670573B (zh) 2017-10-13 2018-10-12 利用损失增加调整cnn的参数的学习方法和学习装置以及使用它们的测试方法和测试装置

Country Status (5)

Country Link
US (1) US10169679B1 (zh)
EP (1) EP3477554B1 (zh)
JP (1) JP6716662B2 (zh)
KR (1) KR102229328B1 (zh)
CN (1) CN109670573B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532954A (zh) * 2019-08-30 2019-12-03 重庆信络威科技有限公司 一种基于结构化语义信息的车辆检测方法
CN111209962A (zh) * 2020-01-06 2020-05-29 电子科技大学 一种联合热图特征回归的基于cnn特征提取网络的联合图像分类方法
CN111860823A (zh) * 2019-04-30 2020-10-30 北京市商汤科技开发有限公司 神经网络训练、图像处理方法及装置、设备及存储介质

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10402628B2 (en) * 2016-10-10 2019-09-03 Gyrfalcon Technology Inc. Image classification systems based on CNN based IC and light-weight classifier
US10614574B2 (en) * 2017-10-16 2020-04-07 Adobe Inc. Generating image segmentation data using a multi-branch neural network
JP6542406B1 (ja) * 2018-02-16 2019-07-10 株式会社東芝 読取システム、読取方法、プログラム、及び記憶媒体
US10304009B1 (en) * 2018-10-08 2019-05-28 StradVision, Inc. Learning method and testing method for object detector based on R-CNN, and learning device and testing device using the same
US10311321B1 (en) * 2018-10-26 2019-06-04 StradVision, Inc. Learning method, learning device using regression loss and testing method, testing device using the same
WO2020176064A1 (en) 2018-12-31 2020-09-03 Didi Research America, Llc Method and system of annotation densification for semantic segmentation
US10467500B1 (en) 2018-12-31 2019-11-05 Didi Research America, Llc Method and system for semantic segmentation involving multi-task convolutional neural network
US10387752B1 (en) * 2019-01-22 2019-08-20 StradVision, Inc. Learning method and learning device for object detector with hardware optimization based on CNN for detection at distance or military purpose using image concatenation, and testing method and testing device using the same
US10423860B1 (en) * 2019-01-22 2019-09-24 StradVision, Inc. Learning method and learning device for object detector based on CNN to be used for multi-camera or surround view monitoring using image concatenation and target object merging network, and testing method and testing device using the same
US10430691B1 (en) * 2019-01-22 2019-10-01 StradVision, Inc. Learning method and learning device for object detector based on CNN, adaptable to customers' requirements such as key performance index, using target object merging network and target region estimating network, and testing method and testing device using the same to be used for multi-camera or surround view monitoring
US10402692B1 (en) * 2019-01-22 2019-09-03 StradVision, Inc. Learning method and learning device for fluctuation-robust object detector based on CNN using target object estimating network adaptable to customers' requirements such as key performance index, and testing device using the same
US10509987B1 (en) * 2019-01-22 2019-12-17 StradVision, Inc. Learning method and learning device for object detector based on reconfigurable network for optimizing customers' requirements such as key performance index using target object estimating network and target object merging network, and testing method and testing device using the same
US10387753B1 (en) * 2019-01-23 2019-08-20 StradVision, Inc. Learning method and learning device for convolutional neural network using 1×1 convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same
US10395140B1 (en) * 2019-01-23 2019-08-27 StradVision, Inc. Learning method and learning device for object detector based on CNN using 1×1 convolution to be used for hardware optimization, and testing method and testing device using the same
US10387754B1 (en) * 2019-01-23 2019-08-20 StradVision, Inc. Learning method and learning device for object detector based on CNN using 1×H convolution to be used for hardware optimization, and testing method and testing device using the same
US10402695B1 (en) * 2019-01-23 2019-09-03 StradVision, Inc. Learning method and learning device for convolutional neural network using 1×H convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same
US10402686B1 (en) * 2019-01-25 2019-09-03 StradVision, Inc. Learning method and learning device for object detector to be used for surveillance based on convolutional neural network capable of converting modes according to scales of objects, and testing method and testing device using the same
US10496899B1 (en) * 2019-01-25 2019-12-03 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN in which residual networks are provided for meta learning, and testing method and testing device using the same
US10445611B1 (en) * 2019-01-25 2019-10-15 StradVision, Inc. Method for detecting pseudo-3D bounding box to be used for military purpose, smart phone or virtual driving based-on CNN capable of converting modes according to conditions of objects and device using the same
US10373323B1 (en) * 2019-01-29 2019-08-06 StradVision, Inc. Method and device for merging object detection information detected by each of object detectors corresponding to each camera nearby for the purpose of collaborative driving by using V2X-enabled applications, sensor fusion via multiple vehicles
US11087175B2 (en) * 2019-01-30 2021-08-10 StradVision, Inc. Learning method and learning device of recurrent neural network for autonomous driving safety check for changing driving mode between autonomous driving mode and manual driving mode, and testing method and testing device using them
US10373027B1 (en) * 2019-01-30 2019-08-06 StradVision, Inc. Method for acquiring sample images for inspecting label among auto-labeled images to be used for learning of neural network and sample image acquiring device using the same
US10890916B2 (en) * 2019-01-30 2021-01-12 StradVision, Inc. Location-specific algorithm selection for optimized autonomous driving
US10872297B2 (en) * 2019-01-30 2020-12-22 StradVision, Inc. Learning method and learning device for generating training data from virtual data on virtual world by using generative adversarial network, to thereby reduce annotation cost required in training processes of neural network for autonomous driving, and a testing method and a testing device using the same
US10726303B1 (en) * 2019-01-30 2020-07-28 StradVision, Inc. Learning method and learning device for switching modes of autonomous vehicle based on on-device standalone prediction to thereby achieve safety of autonomous driving, and testing method and testing device using the same
US10540572B1 (en) * 2019-01-31 2020-01-21 StradVision, Inc. Method for auto-labeling training images for use in deep learning network to analyze images with high precision, and auto-labeling device using the same
US10796434B1 (en) * 2019-01-31 2020-10-06 Stradvision, Inc Method and device for detecting parking area using semantic segmentation in automatic parking system
US10650279B1 (en) * 2019-01-31 2020-05-12 StradVision, Inc. Learning method and learning device for heterogeneous sensor fusion by using merging network which learns non-maximum suppression
US10824947B2 (en) * 2019-01-31 2020-11-03 StradVision, Inc. Learning method for supporting safer autonomous driving without danger of accident by estimating motions of surrounding objects through fusion of information from multiple sources, learning device, testing method and testing device using the same
US10817777B2 (en) 2019-01-31 2020-10-27 StradVision, Inc. Learning method and learning device for integrating object detection information acquired through V2V communication from other autonomous vehicle with object detection information generated by present autonomous vehicle, and testing method and testing device using the same
US10831189B2 (en) * 2019-01-31 2020-11-10 StradVision, Inc. Learning method and learning device for providing functional safety by warning driver about potential dangerous situation by using explainable AI which verifies detection processes of autonomous driving network, and testing method and testing device using the same
CN109961009B (zh) * 2019-02-15 2023-10-31 平安科技(深圳)有限公司 基于深度学习的行人检测方法、***、装置及存储介质
CN110210400B (zh) * 2019-06-03 2020-11-17 上海眼控科技股份有限公司 一种表格文件检测方法及设备
CN110399884B (zh) * 2019-07-10 2021-08-20 浙江理工大学 一种特征融合自适应锚框模型车辆检测方法
US11087163B2 (en) * 2019-11-01 2021-08-10 Vannevar Labs, Inc. Neural network-based optical character recognition
US11450008B1 (en) * 2020-02-27 2022-09-20 Amazon Technologies, Inc. Segmentation using attention-weighted loss and discriminative feature learning

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599939A (zh) * 2016-12-30 2017-04-26 深圳市唯特视科技有限公司 一种基于区域卷积神经网络的实时目标检测方法
CN106845430A (zh) * 2017-02-06 2017-06-13 东华大学 基于加速区域卷积神经网络的行人检测与跟踪方法
US20170206431A1 (en) * 2016-01-20 2017-07-20 Microsoft Technology Licensing, Llc Object detection and classification in images
CN106980858A (zh) * 2017-02-28 2017-07-25 中国科学院信息工程研究所 一种语言文本检测与定位***及应用该***的语言文本检测与定位方法
CN107203754A (zh) * 2017-05-26 2017-09-26 北京邮电大学 一种基于深度学习的车牌定位方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10410096B2 (en) * 2015-07-09 2019-09-10 Qualcomm Incorporated Context-based priors for object detection in images
WO2017015947A1 (en) * 2015-07-30 2017-02-02 Xiaogang Wang A system and a method for object tracking
US9965719B2 (en) * 2015-11-04 2018-05-08 Nec Corporation Subcategory-aware convolutional neural networks for object detection
US9881234B2 (en) * 2015-11-25 2018-01-30 Baidu Usa Llc. Systems and methods for end-to-end object detection
WO2017139927A1 (en) * 2016-02-17 2017-08-24 Intel Corporation Region proposal for image regions that include objects of interest using feature maps from multiple layers of a convolutional neural network model
US20170262996A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Action localization in sequential data with attention proposals from a recurrent network
WO2017173605A1 (en) * 2016-04-06 2017-10-12 Xiaogang Wang Method and system for person recognition
US9830529B2 (en) * 2016-04-26 2017-11-28 Xerox Corporation End-to-end saliency mapping via probability distribution prediction
US10755082B2 (en) * 2016-10-25 2020-08-25 Deep North, Inc. Point to set similarity comparison and deep feature learning for visual recognition
AU2017361061B2 (en) * 2016-11-15 2022-02-03 Magic Leap, Inc. Deep learning system for cuboid detection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170206431A1 (en) * 2016-01-20 2017-07-20 Microsoft Technology Licensing, Llc Object detection and classification in images
CN106599939A (zh) * 2016-12-30 2017-04-26 深圳市唯特视科技有限公司 一种基于区域卷积神经网络的实时目标检测方法
CN106845430A (zh) * 2017-02-06 2017-06-13 东华大学 基于加速区域卷积神经网络的行人检测与跟踪方法
CN106980858A (zh) * 2017-02-28 2017-07-25 中国科学院信息工程研究所 一种语言文本检测与定位***及应用该***的语言文本检测与定位方法
CN107203754A (zh) * 2017-05-26 2017-09-26 北京邮电大学 一种基于深度学习的车牌定位方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XINYU OU: "Adult Image and Video Recognition by a Deep Multicontext Network and Fine-to-Coarse Strategy", 《ACM TRANSACTIONS ON INTELLIGENT SYSTEMS AND TECHNOLOGY》 *
叶国林等: "基于加速区域卷积神经网络的夜间行人检测研究", 《激光与光电子学进展》 *
大雄的机器梦: "Faster R-CNN", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/24916624》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860823A (zh) * 2019-04-30 2020-10-30 北京市商汤科技开发有限公司 神经网络训练、图像处理方法及装置、设备及存储介质
CN111860823B (zh) * 2019-04-30 2024-06-11 北京市商汤科技开发有限公司 神经网络训练、图像处理方法及装置、设备及存储介质
CN110532954A (zh) * 2019-08-30 2019-12-03 重庆信络威科技有限公司 一种基于结构化语义信息的车辆检测方法
CN111209962A (zh) * 2020-01-06 2020-05-29 电子科技大学 一种联合热图特征回归的基于cnn特征提取网络的联合图像分类方法
CN111209962B (zh) * 2020-01-06 2023-02-03 电子科技大学 一种联合热图特征回归的基于cnn特征提取网络的联合图像分类方法

Also Published As

Publication number Publication date
EP3477554A2 (en) 2019-05-01
EP3477554A3 (en) 2019-06-05
JP2019075117A (ja) 2019-05-16
KR20190041925A (ko) 2019-04-23
EP3477554C0 (en) 2024-03-06
JP6716662B2 (ja) 2020-07-01
EP3477554B1 (en) 2024-03-06
US10169679B1 (en) 2019-01-01
CN109670573B (zh) 2023-07-28
KR102229328B1 (ko) 2021-03-19

Similar Documents

Publication Publication Date Title
CN109670573A (zh) 利用损失增加调整cnn的参数的学习方法和学习装置以及使用它们的测试方法和测试装置
JP7051135B2 (ja) マルチスケール特徴マップを利用してcnnのパラメータを調節するための学習方法、学習装置及びこれを利用したテスティング方法、テスティング装置
US10043113B1 (en) Method and device for generating feature maps by using feature upsampling networks
US11610082B2 (en) Method and apparatus for training neural network model used for image processing, and storage medium
US9946960B1 (en) Method for acquiring bounding box corresponding to an object in an image by using convolutional neural network including tracking network and computing device using the same
US9953437B1 (en) Method and device for constructing a table including information on a pooling type and testing method and testing device using the same
He et al. Autoencoder based self-supervised test-time adaptation for medical image analysis
US10095977B1 (en) Learning method and learning device for improving image segmentation and testing method and testing device using the same
US9984325B1 (en) Learning method and learning device for improving performance of CNN by using feature upsampling networks, and testing method and testing device using the same
KR102144381B1 (ko) 이미지 세그멘테이션을 위한 학습 방법 및 학습 장치, 그리고 이를 이용한 이미지 세그멘테이션 방법 및 이미지 세그멘테이션 장치
KR102261894B1 (ko) 객체인식장치 및 객체인식방법
CN109033945A (zh) 一种基于深度学习的人体轮廓提取方法
CN109919915A (zh) 基于深度学习的视网膜眼底图像异常区域检测方法及设备
KR102645698B1 (ko) 얼굴의 정렬 형태에 강인한 얼굴 인식 방법 및 그 장치
CN109740451A (zh) 基于重要性加权的道路场景图像语义分割方法
CN111626379B (zh) 肺炎x光图像检测方法
KR102336003B1 (ko) 패치 정합을 이용한 학습 데이터 증가 장치 및 방법
JP4530173B2 (ja) 顔パーツの位置の検出方法及び検出システム
US11315261B2 (en) Image processing method and apparatus
KR102486795B1 (ko) 딥러닝 성능향상을 위한 주파수 도메인에서의 데이터 증강 방법 및 장치
Pathompatai et al. Region-focus training: Boosting accuracy for deep-learning image segmentation
US20230062014A1 (en) Image processing device, image processing method, and learning system
CN118135389A (zh) 一种基于有效感受野调控的水下声学目标识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant