CN111008999B - 用包含跟踪网络的cnn跟踪对象的方法和使用该方法的装置 - Google Patents

用包含跟踪网络的cnn跟踪对象的方法和使用该方法的装置 Download PDF

Info

Publication number
CN111008999B
CN111008999B CN201910916111.XA CN201910916111A CN111008999B CN 111008999 B CN111008999 B CN 111008999B CN 201910916111 A CN201910916111 A CN 201910916111A CN 111008999 B CN111008999 B CN 111008999B
Authority
CN
China
Prior art keywords
training
box
prediction
image frame
bounding box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910916111.XA
Other languages
English (en)
Other versions
CN111008999A (zh
Inventor
金桂贤
金镕重
金寅洙
金鹤京
南云铉
夫硕焄
成明哲
吕东勋
柳宇宙
张泰雄
郑景中
诸泓模
赵浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of CN111008999A publication Critical patent/CN111008999A/zh
Application granted granted Critical
Publication of CN111008999B publication Critical patent/CN111008999B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及用包含跟踪网络的CNN跟踪对象的方法和使用该方法的装置,包括以下步骤:(a)测试装置用当前影像帧获得特征映射,并使区域提议网络将运算应用于特征映射,生成提议框的信息;(b)测试装置执行以下处理:(i)(i‑1)根据先前边界框的先前状态向量,通过用卡尔曼滤波算法生成先前边界框的预测状态向量,(i‑2)与预测状态向量对应地,生成当前影像帧上的预测边界框,(i‑3)将选择的特定提议框确定为种子框;(ii)输出位置敏感得分图;(c)使池化层对在位置敏感得分图上与种子框对应的区域进行池化,计算出类别得分和回归增量;(d)参考回归增量和种子框,生成当前边界框,用卡尔曼滤波算法调整当前边界框。

Description

用包含跟踪网络的CNN跟踪对象的方法和使用该方法的装置
技术领域
本发明涉及一种用包含跟踪网络的卷积神经网络来跟踪至少一个对象的方法以及使用该方法的装置,该方法包括以下步骤:(a)测试装置使用输入影像的当前影像帧获得至少一个特征映射(feature map),并使区域提议网络(RPN,Region Proposal Network)将至少一次运算应用于特征映射,生成关于与所述对象对应的至少一个提议框(proposalbox)的信息;(b)测试装置执行以下处理:(i)(i-1)根据与位于先前影像帧上的所述对象对应的至少一个先前的边界框的先前状态向量,通过使用卡尔曼滤波算法(Kalman filteralgorithm)生成至少预测所述对象位于当前影像帧上的所述先前的边界框的至少一个预测状态向量,(i-2)与预测状态向量对应地,生成从先前的边界框的位置跟踪的所述当前影像帧上的至少一个预测边界框,其中,与所述预测状态向量对应的所述预测边界框包含与预测位置对应的信息,(i-3)将从所述提议框中参考所述预测边界框来选择的至少一个特定提议框确定为至少一个种子框(seed box);以及(ii)使全卷积网络(FCN)将至少一次完整卷积运算应用于所述特征映射,输出至少一个位置敏感得分图(position sensitivescore map);(c)测试装置使至少一个池化层(pooling layer)对在所述位置敏感得分图上与所述种子框对应的区域进行池化,计算出对应于所述特定提议框的至少一个类别得分和至少一个回归增量;以及(d)测试装置参考所述回归增量和所述种子框,生成与所述当前影像帧上的所述对象对应的至少一个当前边界框,并使用所述卡尔曼滤波算法调整边界框。
背景技术
被称为视觉跟踪的对象跟踪是从一系列的图像或影像中检测、提取、识别、以及定位目标的过程。是具有包括交通流量监控、医疗诊断、视觉监控和人机交互等的广泛的实际应用的基本的计算机视觉操作。
以往的基于外观的跟踪方法(appearance-based tracking)大多引起基于检测的跟踪问题。根据模型构建机制,统计建模被分为如下三种:生成建模(generativemodeling)、判别建模(discriminative modeling)、混合生成判别建模(hybridgenerative discriminative modeling)。主要缺点是,无法捕获目标的语义信息(semantic information),对重要的形状变化不具有鲁棒性,辨别性(discriminativepower)有限,因此依赖于低级的手动操作。
深度学习自2006年推出以来,极大地改进了对文本、图像、影像、语音以及其他许多领域(如新药开发和基因组学等)进行处理的最新技术。特别是,卷积神经网络(CNN)最近应用于各种计算机视觉任务,如图像分类、语义分割、对象检测等。
CNN的巨大成功很大程度上归功于其在表示视觉数据方面的卓越表现。虽然基于低级手工功能的方式在实用中仍然运作良好,然而在影像处理应用中难以收集大量的训练数据,并且还没有专门用于对象训练的训练算法,因此,对象跟踪受CNN的流行趋势的影响较小。最近的几种跟踪算法通过在大型分类数据集(如ImageNet)中发送预训练的CNN来解决数据不足的问题。
虽然这些方法可能足以获得一般的特征表示,但由于分类和跟踪问题、即在预测任意类的目标与对象类标签之间的根本上的不一致,在跟踪方面其效果受到限制。
发明内容
本发明所要解决的课题
本发明的目的是解决上述所有问题。
本发明的另一个目的是,提供一种用包含跟踪网络的CNN来跟踪至少一个对象的方法。
本发明的又另一个目的是,提供一种包含跟踪网络的CNN,该跟踪网络不需要为对象跟踪而另外进行学习。
本发明的又另一个目的是,提供一种通过使用由对象检测器训练的CNN来执行对象跟踪的方法。
本发明的又另一个目的是,提供一种跟踪对象的方法,与执行对象检测的现有CNN相比,其计算量更少。
用于解决课题的技术手段
用于实现如上所述的本发明目的和实现后述的本发明的特征效果的本发明的特征结构如下。
根据本发明的一个方式,提供一种用包含跟踪网络的卷积神经网络来跟踪至少一个对象的方法,其特征在于,包括以下步骤:(a)测试装置使用输入影像的当前影像帧获得至少一个特征映射,并使区域提议网络将至少一次运算应用于所述特征映射,生成关于与所述对象对应的至少一个提议框的信息;(b)所述测试装置执行以下处理:(i)(i-1)根据与位于先前影像帧上的所述对象对应的至少一个先前边界框的至少一个先前状态向量,通过使用卡尔曼滤波算法生成至少预测所述对象位于所述当前影像帧上的所述先前边界框的至少一个预测状态向量,(i-2)与所述预测状态向量对应地,生成从所述先前边界框的位置跟踪的所述当前影像帧上的至少一个预测边界框,其中,与所述预测状态向量对应的所述预测边界框包含与预测位置对应的信息,(i-3)将从所述提议框中参考所述预测边界框来选择的至少一个特定提议框确定为至少一个种子框;以及(ii)使全卷积网络将至少一次完整卷积运算应用于所述特征映射,输出至少一个位置敏感得分图;(c)所述测试装置使至少一个池化层对在所述位置敏感得分图上与所述种子框对应的区域进行池化,计算出对应于所述特定提议框的至少一个类别得分和至少一个回归增量;以及所述(d)测试装置参考所述回归增量和所述种子框,生成与所述当前影像帧上的所述对象对应的至少一个当前边界框,并使用所述卡尔曼滤波算法调整所述当前边界框。
在一个实施例中,在所述步骤(b)中,所述测试装置通过使用所述卡尔曼滤波算法,参考所述先前影像帧的至少一个先前误差协方差(Error Covariance),计算所述当前影像帧的至少一个预测误差协方差。
在一个实施例中,在所述步骤(d)中,所述测试装置,(i)使用所述预测误差协方差获得卡尔曼增益,(ii)使用所述卡尔曼增益和所述预测状态向量,更新基于所述当前边界框的位置信息的所述当前边界框的当前状态向量,(iii)通过使用所述卡尔曼增益和所述预测误差协方差来更新所述当前影像帧的当前误差协方差。
在一个实施例中,在所述步骤(c)中,所述测试装置将池化运算应用到与所述位置敏感得分图中的所述种子框相对应的至少一个区域,并对所述池化的位置敏感得分图应用全局池化运算,计算出与所述特定提议框对应的所述类别得分和所述回归增量。
在一个实施例中,在所述步骤(b)中,所述测试装置参考以下信息中的一种信息来确定所述种子框:(i)所述预测边界框的位置信息和所述各个提议框的各位置信息,(ii)所述预测边界框与所述每个提议框之间的各个重叠区域的面积,以及(iii)所述预测边界框的所述位置信息、所述各个提议框的各位置信息和所述各重叠区域的面积。
在一个实施例中,在所述步骤(a)中,所述测试装置使得至少一个卷积层对所述当前影像帧应用至少一次卷积运算,以获得所述特征映射,并支持所述区域提议网络输出与所述特征映射上的估计包含所述对象的区域对应的所述提议框。
在一个实施例中,在所述步骤(a)之前,学习装置(i)使所述卷积层对至少一个训练图像应用至少一次卷积运算,以获得至少一个训练用特征映射,(ii)(ii-1)使得所述区域提议网络分别生成与所述训练用特征映射上的预测包含至少一个训练对象的各个区域相对应的至少一个训练用提议框;(ii-2)使得全卷积网络通过对所述训练用特征映射应用至少一次完整卷积运算,生成至少一个训练用位置敏感得分图;(iii)使所述池化层对所述训练用位置敏感得分图上的各区域进行池化,分别计算出与各个所述训练提议框对应的各训练用类别得分和各训练用回归增量;(iv)使至少一个损失层通过参考所述各训练用回归增量、所述各训练用类别得分及其相对应的地面实况来计算至少一个损失,通过反向传播所述损失来学习所述全卷积网络和所述卷积层的参数。
根据本发明的另一方式,提供一种用包含跟踪网络的卷积神经网络来跟踪至少一个对象的方法,其特征在于,包括以下步骤:(a)测试装置使用输入影像的当前影像帧获得至少一个特征映射,并使区域提议网络将至少一次运算应用于所述特征映射,生成关于与所述对象对应的至少一个提议框的信息;(b)所述测试装置执行以下处理:(i)根据与位于先前影像帧上的所述对象对应的至少一个先前边界框的至少一个先前状态向量,通过使用卡尔曼滤波算法生成至少预测所述对象位于所述当前影像帧上的所述先前边界框的至少一个预测状态向量;(ii)与所述预测状态向量对应地,生成从所述先前边界框的位置跟踪的所述当前影像帧上的至少一个预测边界框,其中,与所述预测状态向量对应的所述预测边界框包含与预测位置对应的信息;(iii)将从所述提议框中参考所述预测边界框来选择的至少一个所述特定提议框确定为至少一个种子框;(c)所述测试装置使至少一个池化层在所述特征映射上池化对应于所述种子框的至少一个区域,生成至少一个特征向量,并使至少一个全连接层对所述特征向量应用至少一次全连接运算,计算出对应于所述特定提议框的至少一个类别得分和至少一个回归增量;以及(d)所述测试装置参考所述回归增量和所述种子框,生成与所述当前影像帧上的所述对象对应的至少一个当前边界框,并使用所述卡尔曼滤波算法调整所述当前边界框。
在一个实施例中,在所述步骤(b)中,所述测试装置通过使用所述卡尔曼滤波算法,参考所述先前影像帧的至少一个先前误差协方差,计算所述当前影像帧的至少一个预测误差协方差。
在一个实施例中,在所述步骤(d)中,所述测试装置,(i)使用所述预测误差协方差获得卡尔曼增益,(ii)使用所述卡尔曼增益和所述预测状态向量,更新基于所述当前边界框的位置信息的所述当前边界框的当前状态向量,(iii)通过使用所述卡尔曼增益和所述预测误差协方差来更新所述当前影像帧的当前误差协方差。
在一个实施例中,在所述步骤(b)中,所述测试装置参考以下信息中的一种信息来确定所述种子框:(i)所述预测边界框的位置信息和所述各个提议框的各位置信息,(ii)所述预测边界框与所述每个提议框之间的各个重叠区域的面积,以及(iii)所述预测边界框的所述位置信息、所述各个提议框的各位置信息和所述各重叠区域的面积。
在一个实施例中,在所述步骤(a)中,所述测试装置使得至少一个卷积层对所述当前影像帧应用至少一次卷积运算,以获得所述特征映射,并支持所述区域提议网络输出与所述特征映射上的估计包含所述对象的区域对应的所述提议框。
在一个实施例中,在所述步骤(a)之前,学习装置(i)使所述卷积层对至少一个训练图像应用卷积运算,以获得至少一个训练用特征映射;(ii)使得所述区域提议网络分别生成与所述训练用特征映射上的预测包含至少一个训练对象的各个区域相对应的至少一个训练用提议框;(iii)使所述池化层对所述训练用特征映射上的分别对应于所述训练提议框的各区域进行池化,计算与所述训练提议框中的各个对应的至少一个训练用特征向量,并使所述全连接层对所述训练用特征向量应用全连接运算,计算出对应于各训练提议框的各类别得分和各回归增量;(iv)使至少一个损失层通过参考各训练用回归增量、各训练用类别得分及其相对应的地面实况来计算至少一个损失,通过反向传播所述损失来学习所述全卷积网络和所述卷积层的参数。
根据本发明的另一方式,提供一种用包含跟踪网络的卷积神经网络来跟踪至少一个对象的装置,其特征在于,包括:通信部,获取被输入的影像的至少一个影像帧;以及处理器,执行以下处理:(I)使用输入影像的当前影像帧获得至少一个特征映射,并使区域提议网络将至少一次运算应用于所述特征映射,生成关于与所述对象对应的至少一个提议框的信息;(II)(II-1)(i)根据与位于先前影像帧上的所述对象对应的至少一个先前边界框的至少一个先前状态向量,通过使用卡尔曼滤波算法生成至少预测所述对象位于所述当前影像帧上的所述先前边界框的至少一个预测状态向量,(ii)与所述预测状态向量对应地,生成从所述先前边界框的位置跟踪的所述当前影像帧上的至少一个预测边界框,其中,与所述预测状态向量对应的所述预测边界框包含与预测位置对应的信息,(iii)将从所述提议框中参考所述预测边界框来选择的至少一个特定提议框确定为至少一个种子框;以及(II-2)使全卷积网络将至少一次完整卷积运算应用于所述特征映射,输出至少一个位置敏感得分图(position sensitive score map);(III)使至少一个池化层对在所述位置敏感得分图上与所述种子框对应的区域进行池化,计算出对应于所述特定提议框的至少一个类别得分和至少一个回归增量;以及(IV)参考所述回归增量和所述种子框,生成与所述当前影像帧上的所述对象对应的至少一个当前边界框,并使用所述卡尔曼滤波算法调整所述当前边界框。
在一个实施例中,所述处理器,在所述(II)处理中,通过使用所述卡尔曼滤波算法,参考所述先前影像帧的至少一个先前误差协方差,计算所述当前影像帧的至少一个预测误差协方差。
在一个实施例中,所述处理器,在所述(IV)处理中,使用所述预测误差协方差获得卡尔曼增益,并使用所述卡尔曼增益和所述预测状态向量,更新基于所述当前边界框的位置信息的所述当前边界框的当前状态向量,通过使用所述卡尔曼增益和所述预测误差协方差来更新所述当前影像帧的当前误差协方差。
在一个实施例中,所述处理器,在所述(III)处理中,将池化运算应用到与所述位置敏感得分图中的所述种子框相对应的至少一个区域,并对所述池化的位置敏感得分图应用全局池化运算,计算出与所述特定提议框对应的所述类别得分和所述回归增量。
在一个实施例中,所述处理器,在所述(II)处理中,参考以下信息中的一种信息来确定所述种子框:(i)所述预测边界框的位置信息和所述各个提议框的各位置信息,(ii)所述预测边界框与所述各个提议框之间的各重叠区域的面积,以及(iii)所述预测边界框的所述位置信息、所述各个提议框的各位置信息和所述各重叠区域的面积。
在一个实施例中,所述处理器,在所述(I)处理中,使得至少一个卷积层对所述当前影像帧应用至少一次卷积运算,以获得所述特征映射,并支持所述区域提议网络输出与所述特征映射上的估计包含所述对象的区域对应的所述提议框。
在一个实施例中,所述处理器,在所述(I)处理之前,(i)使所述卷积层对至少一个训练图像应用至少一次卷积运算,以获得至少一个训练用特征映射,(ii)(ii-1)使得所述区域提议网络,分别生成与所述训练用特征映射上的预测包含至少一个训练对象的各个区域相对应的至少一个训练用提议框;(ii-2)使得所述全卷积网络通过对所述训练用特征映射应用至少一次完整卷积运算,生成至少一个训练用位置敏感得分图;(iii)使所述池化层,对所述训练用位置敏感得分图上的所述各区域进行池化,分别计算出与各个所述训练提议框对应的各训练用类别得分和各训练用回归增量;(iv)使至少一个损失层通过参考所述各训练用回归增量、所述各训练用类别得分及其相对应的地面实况来计算至少一个损失,通过反向传播所述损失来学习所述全卷积网络和所述卷积层的参数。
根据本发明的另一方式,提供一种用包含跟踪网络的卷积神经网络来跟踪至少一个对象的装置,其特征在于,包括:通信部,获取被输入的影像的至少一个影像帧;以及处理器,执行以下处理:(I)使用输入影像的当前影像帧获得至少一个特征映射,并使区域提议网络将至少一次运算应用于所述特征映射,生成关于与所述对象对应的至少一个提议框的信息;(II)(i)根据与位于先前影像帧上的所述对象对应的至少一个先前边界框的至少一个先前状态向量,通过使用卡尔曼滤波算法(生成至少预测所述对象位于所述当前影像帧上的所述先前边界框的至少一个预测状态向量;(ii)与所述预测状态向量对应地,生成从所述先前边界框的位置跟踪的所述当前影像帧上的至少一个预测边界框,其中,与所述预测状态向量对应的所述预测边界框包含与预测位置对应的信息;(iii)将从所述提议框中参考所述预测边界框来选择的至少一个特定提议框确定为至少一个种子框;(III)使至少一个池化层在所述特征映射上池化对应于所述种子框的至少一个区域,生成至少一个特征向量,并使至少一个全连接层对所述特征向量应用至少一次全连接运算,计算出对应于所述特定提议框的至少一个类别得分和至少一个回归增量;以及(IV)参考所述回归增量和所述种子框,生成与所述当前影像帧上的所述对象对应的至少一个当前边界框,并使用所述卡尔曼滤波算法调整所述当前边界框。
在一个实施例中,所述处理器,在所述(II)处理中,通过使用所述卡尔曼滤波算法,参考所述先前影像帧的至少一个先前误差协方差,计算所述当前影像帧的至少一个预测误差协方差。
在一个实施例中,所述处理器,在所述(IV)处理中,使用所述预测误差协方差获得卡尔曼增益,并使用所述卡尔曼增益和所述预测状态向量,更新基于所述当前边界框的位置信息的所述当前边界框的当前状态向量,通过使用所述卡尔曼增益和所述预测误差协方差来更新所述当前影像帧的当前误差协方差。
在一个实施例中,所述处理器,在所述(II)处理中,参考以下信息中的一种信息来确定所述种子框:(i)所述预测边界框的位置信息和所述各个提议框的各位置信息,(ii)所述预测边界框与所述各个提议框之间的各重叠区域的面积,以及(iii)所述预测边界框的所述位置信息、所述各个提议框的各位置信息和所述各重叠区域的面积。
在一个实施例中,所述处理器,在所述(I)处理中,使得至少一个卷积层对所述当前影像帧应用至少一次卷积运算,以获得所述特征映射,并支持所述区域提议网络输出与所述特征映射上的估计包含所述对象的区域对应的所述提议框。
在一个实施例中,所述处理器,在所述(I)处理之前,通过学习装置(i)使所述卷积层对至少一个训练图像应用卷积运算,以获得至少一个训练用特征映射;(ii)使得所述区域提议网络分别生成与所述训练用特征映射上的预测包含至少一个训练对象的各个区域相对应的至少一个训练用提议框;(iii)使所述池化层对所述训练用特征映射上的分别对应于所述训练提议框的各区域进行池化,计算与所述训练提议框中的各个对应的至少一个训练用特征向量,并使所述全连接层对所述训练用特征向量应用全连接运算,计算出对应于各训练提议框的各类别得分和各回归增量;(iv)使至少一个损失层通过参考各训练用回归增量、各训练用类别得分及其相对应的地面实况来计算至少一个损失,通过反向传播所述损失来学习所述全卷积网络和所述卷积层的参数。
发明效果
本发明能够用包含跟踪网络的CNN来跟踪对象。
另外,本发明能够提供包含跟踪网络的CNN,该跟踪网络不需要为对象跟踪而另外进行学习。
另外,本发明通过使用通过对象检测来学习的CNN实现对象跟踪,由此能够最小化开发对象跟踪所需的成本和时间。
另外,与执行对象检测的现有CNN相比,本发明能够以少的计算量进行对象跟踪。
附图说明
本发明的实施例的说明中所用的以下附图仅仅是本发明实施例中的一部分,本领域技术人员在不进行发明操作的情况下,也能够根据这些附图来得出其他附图。
图1示意性地示出本发明的一实施例涉及的用包含跟踪网络的CNN来跟踪至少一个对象的测试装置。
图2示意性地示出本发明的一实施例涉及的用包含跟踪网络的CNN来跟踪对象的方法。
图3示意性地示出在本发明的一实施例涉及的用包含跟踪网络的CNN来跟踪对象的方法中获得至少一个特征映射的状态。
图4示意性地示出在本发明的一实施例涉及的用包含跟踪网络的CNN来跟踪对象的方法中获取一个或多个提议框的状态。
图5示意性地示出在本发明的一实施例涉及的用包含跟踪网络的CNN来跟踪对象的方法中获得至少一个预测边界框的状态。
图6示意性地示出本发明的一实施例涉及的用包含跟踪网络的CNN来跟踪对象的方法中的卡尔曼滤波算法。
图7示意性地示出在本发明的一实施例涉及的用包含跟踪网络的CNN来跟踪对象的方法中获得至少一个种子框的状态。
图8示意性地示出在本发明的一实施例涉及的用包含跟踪网络的CNN跟踪对象的方法中获得对象的至少一个边界框的状态。
图9示意性地示出本发明的另一实施例涉及的用于用包含跟踪网络的CNN来跟踪对象的测试装置。
图10示意性地示出本发明另一实施例涉及的用包含跟踪网络的CNN来跟踪对象的方法。
具体实施方式
后述的对本发明的详细说明参照作为例示本发明可实施的特定实施例而图示的附图。足够详细说明这些实施例,以使本领域技术人员能够实施本发明。
应该理解的是,本发明的各种实施例虽然彼此不同,但并不是相互排斥的。例如,在不脱离本发明的精神和范围内,可以通过其他实施例来实现这里描述的特定形状、结构和特性。另外,应当理解的是,在不脱离本发明的精神和范围的情况下,可以改变每个公开的实施例中的各个构成要素的位置或配置。因此,以下的详细描述不应被视为具有限制意义,如果适当地描述,则本发明的范围仅由所附权利要求以及与这些权利要求所主张的范围等同的全部范围来限定。附图中相同的附图标记在很多方面上指相同或相似的功能。
本发明中提到的各种图像可以包括与铺砌或未铺砌道路相关的图形,在这种情况下,可以包括可能出现在道路环境中的对象(例如,如汽车、人、动物、植物、物体、建筑物、飞机或无人机那样的飞行物、其他障碍物),但并不限于此,并且本发明中提到的各种图像可以是与道路无关的图像(例如,与未铺砌道路、小巷、空地、海洋、湖泊、河流、山脉、森林、沙漠、天空、室内相关的影像),在这种情况下,可以象征可能出现在未铺砌道路、小巷、空地、海洋、湖泊、河流、山脉、森林、沙漠、天空、室内环境中的对象(例如,如汽车、人、动物、植物、物体、建筑物、飞机或无人机那样的飞行物、其他障碍物),但并不限于此。
另外,在本发明的整个说明书和权利要求书中,词语“包括”及其变形并不旨在排除其他技术特征、附加物等、构成要素等或步骤等。对于本领域技术人员来说,本发明的其他目的、优点和特征的一部分可以从本说明书中得出、其他一部分从本发明的实施中得出。以下示例和附图是以举例说明的方式提供的,并不旨在限制本发明。
以下,为了使本领域技术人员能够容易地实施本发明,将参考附图详细描述本发明的优选实施例。
图1示意性地示出本发明的一实施例涉及的用包含跟踪网络的CNN来跟踪对象的测试装置100,参考图1,测试装置100包括通信部110和处理器120。
首先,通信部110可以获得被输入的影像中的至少一个当前影像帧。在这种情况下,影像可以包括图像序列。
接着,处理器120可以执行(i)第一处理,使用输入影像的当前影像帧获得至少一个特征映射(feature map),并使区域提议网络(RPN,Region Proposal Network)将至少一次运算应用于特征映射,生成关于与所述对象对应的至少一个提议框(proposal box)的信息;(ii)第二处理,(ii-1)根据与位于先前影像帧上的所述对象对应的至少一个先前边界框的至少一个先前状态向量,通过使用卡尔曼滤波算法(Kalman filter algorithm)生成至少预测所述对象位于当前影像帧上的所述先前边界框的至少一个预测状态向量,(ii-2)与预测状态向量对应地,生成从先前边界框的位置跟踪的所述当前影像帧上的至少一个预测边界框,其中,与所述预测状态向量对应的所述预测边界框包含与预测位置对应的信息,(ii-3)将从所述提议框中参考所述预测边界框来选择的至少一个特定提议框确定为至少一个种子框(seed box),(ii-4)使全卷积网络(FCN)将至少一次完整卷积运算应用于所述特征映射,输出至少一个位置敏感得分图(position sensitive score map);(iii)第三处理,使至少一个池化层(pooling layer)对在所述位置敏感得分图上与所述种子框对应的区域进行池化,计算出对应于所述特定提议框的至少一个类别得分和至少一个回归增量;以及(iv)第四处理,参考所述回归增量和所述种子框,生成与所述当前影像帧上的所述对象对应的至少一个当前边界框,并使用所述卡尔曼滤波算法调整当前边界框。
此时,本发明的一实施例涉及的测试装置100是计算机设备,只要是搭载有处理器并且具有计算能力的装置,就可以作为本发明涉及的测试装置100。另外,尽管在图1中仅示出了一个测试装置100,但是本发明不限于此,测试装置可以分成多个来执行功能。
参考图2说明利用本发明的一实施例涉及的测试装置100执行用包含跟踪网络的卷积神经网络(CNN)来跟踪对象的方法。
首先,测试装置100从输入影像的当前影像帧VF获得特征映射FM。
作为一个例子,参照图3,当输入由视觉传感器(未示出)等拍摄的影像时,测试装置100获取或者支持其他装置获取输入影像的当前影像帧VF,使得至少一个卷积层121对当前影像帧VF应用一次或多次卷积运算,输出特征映射FM。在这种情况下,当前影像帧VF可以是具有RGB的3个通道的大小为1280×720的图像,特征映射FM可以具有40×23大小的256个通道,但是各尺寸和通道深度不限于此,可以具有各种尺寸和各种通道深度。
接下来,测试装置100将获取的特征映射FM输入到区域提议网络(RegionProposal Network:RPN)122,并使RPN对特征映射应用至少一次运算,生成与对象对应的有关提议框PB的信息。
作为一个例子,参考图4,测试装置100可以支持区域提议网络122输出与估计在特征映射FM上包括对象的区域对应的提议框PB1、PB2、PB3、PB4。在这里,尽管在图4中示出了四个提议框PB1、PB2、PB3、PB4,但这是为了便于描述,与对象对应的提议框的数量不限于此。另外,在图4中,示例性地示出了一个要跟踪的对象,但是,本发明不限于此,可以跟踪两个或更多的对象,可以针对要跟踪的多个对象中的每一个输出多个提议框。并且,在图4中,在当前影像帧VF中示出了多个提议框PB1、PB2、PB3、PB4,但是应该理解这是为了便于说明。
再参照图2,测试装置100可以使用卡尔曼滤波算法123生成或支持其他装置生成在当前影像帧VF中被预测为至少一个对象的位置的至少一个预测边界框EBB(预测边界框是从先前边界框跟踪的边界框,先前边界框是与位于先前影像帧上的对象对应的边界框)。
作为一个例子,参考图5,测试装置100(i)根据与位于先前影像帧上的所述对象对应的至少一个先前边界框的先前状态向量,通过使用卡尔曼滤波算法123生成至少被估计为所述对象位于当前影像帧上的所述先前边界框(未图示)上的至少一个预测状态向量;(ii)与预测状态向量对应地,生成从先前边界框的位置跟踪的所述当前影像帧上的至少一个预测边界框EBB,其中,与所述预测状态向量对应的所述预测边界框包含有关估计的位置的信息。
另外,测试装置100可以使用卡尔曼滤波算法123并参考所述先前影像帧的至少一个先前误差协方差(Error Covariance)来计算出所述当前影像帧的至少一个预测误差协方差。
这里,参考图6,对通过卡尔曼滤波算法获得预测边界框EBB和预测误差协方差的操作进行更加详细说明如下。
首先,可以如下初始设置卡尔曼滤波器。
1.转移矩阵(transition matrix):12x12
A=[1,0,0,0,1,0,0,0,0.5,0,0,0,
0,1,0,0,0,1,0,0,0,0.5,0,0,
0,0,1,0,0,0,1,0,0,0,0.5,0,
0,0,0,1,0,0,0,1,0,0,0,0.5,
0,0,0,0,1,0,0,0,1,0,0,0,
0,0,0,0,0,1,0,0,0,1,0,0,
0,0,0,0,0,0,1,0,0,0,1,0,
0,0,0,0,0,0,0,1,0,0,0,1,
0,0,0,0,0,0,0,0,1,0,0,0,
0,0,0,0,0,0,0,0,0,1,0,0,
0,0,0,0,0,0,0,0,0,0,1,0,
0,0,0,0,0,0,0,0,0,0,0,1]
2.观察矩阵(observation matrix):4x12
H=[1,0,0,0,0,0,0,0,0,0,0,0,
0,1,0,0,0,0,0,0,0,0,0,0,
0,0,1,0,0,0,0,0,0,0,0,0,
0,0,0,1,0,0,0,0,0,0,0,0]
3.测量噪声协方差矩阵(measurement noise covariance matrix):4x4
R=[r,0,0,0,
0,r,0,0,
0,0,r,0,
0,0,0,r]
4.过程噪声协方差矩阵(process noise covariance matrix):12x12Q=[q,0,0,0,0,0,0,0,0,0,0,0,
0,q,0,0,0,0,0,0,0,0,0,0,
0,0,q,0,0,0,0,0,0,0,0,0,
0,0,0,q,0,0,0,0,0,0,0,0,
0,0,0,0,q,0,0,0,0,0,0,0,
0,0,0,0,0,q,0,0,0,0,0,0,
0,0,0,0,0,0,q,0,0,0,0,0,
0,0,0,0,0,0,0,q,0,0,0,0,
0,0,0,0,0,0,0,0,q,0,0,0,
0,0,0,0,0,0,0,0,0,q,0,0,
0,0,0,0,0,0,0,0,0,0,q,0,
0,0,0,0,0,0,0,0,0,0,0,q]
5.误差协方差矩阵(error covariance matrix):12x12P=[p,0,0,0,0,0,0,0,0,0,0,0,
0,p,0,0,0,0,0,0,0,0,0,0,
0,0,p,0,0,0,0,0,0,0,0,0,
0,0,0,p,0,0,0,0,0,0,0,0,
0,0,0,0,p,0,0,0,0,0,0,0,
0,0,0,0,0,p,0,0,0,0,0,0,
0,0,0,0,0,0,p,0,0,0,0,0,
0,0,0,0,0,0,0,p,0,0,0,0,
0,0,0,0,0,0,0,0,p,0,0,0,
0,0,0,0,0,0,0,0,0,p,0,0,
0,0,0,0,0,0,0,0,0,0,p,0,
0,0,0,0,0,0,0,0,0,0,0,p]
6.状态向量(state vector):12x1
x=[initial_x1,
initial_y1,
initial_x2,
initial_y2,
0,
0,
0,
0,
0,
0,
0,
0]
7.观察向量(observation vector):4x1
z=[current_x1,
current_y1,
current_x2,
current_y2]
在这种进行了初始设置状态下,卡尔曼滤波器通过时间更新预测,根据先前影像帧中关于对象的先前边界框的状态向量和误差协方差(Pk-1),利用以下的数学式1和数学式2,分别生成当前影像帧中的预测边界框的状态向量/>和预测误差协方差
[数学式1]
[数学式2]
也就是说,通过使用先前边界框的位置信息,预测作为先前边界框在当前影像帧上的变更后的位置信息的当前位置信息、即预测x=[predict_x1、prediction_y1、predict_x2、predict_y2、...]。此时,(x1,y1)可以是先前边界框的左上点的坐标信息,(x2,y2)可以是先前边界框的右下点的坐标信息。
再参照图2,测试装置100使种子框选择层124将从多个提议框PB1、PB2、PB3、PB4中参考预测边界框EBB来选择的至少一个特定提议框确定为种子框SB。
作为一个例子,测试装置100可以将多个提议框PB1、PB2、PB3、PB4中最靠近预测边界框EBB的提议框确定为种子框SB。
此时,测试装置100可以参考以下信息中的一种信息来确定种子框:(i)预测边界框的位置信息和各个提议框的各位置信息,(ii)预测边界框与每个提议框之间的各重叠区域的面积,以及(iii)预测边界框的位置信息、各个提议框的各位置信息和各重叠区域的面积。
接下来,测试装置100使全卷积网络(FCN)125通过对特征映射FM应用完全卷积运算来输出位置敏感得分图PSSM,使池化层126对在所述位置敏感得分图PSSM上与所述种子框SB对应的至少一个区域进行至少一次池化,计算出对应于所述特定提议框的至少一个类别得分CS和至少一个回归增量RD。在这里,测试装置可以对与种子框SB对应的至少一个区域应用池化运算、或者支持其他装置应用池化运算,并对位置敏感得分图PSSM上被池化后的位置敏感得分图PSSM应用至少一次全局池化运算、或者支持其他装置应用全局池化运算,由此可以输出与特定提议框对应的类别得分CS和回归增量RD。
在上述的说明中,依次说明了使用特征映射FM的区域提议网络122的处理、利用卡尔曼滤波算法123来确定种子框SB的处理、使用特征映射FM生成位置敏感得分图PSSM的全卷积网络125的处理,但是,可以与此不同地不管顺序而并行地执行处理,也可以相反地先执行PSSM的生成再确定种子框。
另外,由于池化层126仅使用对应于对象的一个种子框SB来执行池化,因此,与以往的检测对象的CNN中,对对应于对象的多个提议框中的每一个执行池化相比,可以用较少的计算量来跟踪对象。
接下来,测试装置100参考回归增量RD和种子框SB,生成或支持其他装置生成与当前影像帧VF上的对象对应的至少一个当前边界框CBB,并且可以通过使用卡尔曼滤波算法123校正当前边界框CBB,输出校正后的当前边界框ABB。
在这里,卡尔曼滤波算法123如以下的数学式3所示的那样利用预测误差协方差来获取卡尔曼增益(Kk),如以下的数学式4所示那样,利用卡尔曼增益(Kk)和预测状态向量/>来更新根据当前边界框CBB的位置信息(zk)的当前边界框CBB的当前状态向量如以下的数学式5所示那样,利用卡尔曼增益(Kk)和预测误差协方差/>来更新当前影像帧的当前误差协方差(Pk)。
[数学式3]
[数学式4]
[数学式5]
另一方面,在参考图1至图8说明的测试装置100的处理之前,包含跟踪网络的CNN可以处于由学习装置学习的状态。
也就是说,通过学习装置(未示出),使得卷积层121对至少一个训练图像应用至少一次卷积运算,以获得至少一个训练用特征映射,使得所述区域提议网络122,分别生成与所述训练用特征映射上的预测包含至少一个训练对象的各个区域相对应的至少一个训练用提议框,使得所述全卷积网络125,通过对所述训练用特征映射应用至少一次完整卷积运算,生成至少一个训练用位置敏感得分图,并使得池化层126,对所述训练用位置敏感得分图上的各区域进行池化,分别计算出与各个所述训练提议框对应的各训练用类别得分和各训练用回归增量,使至少一个损失层(loss layer),通过参考各训练用回归增量、各训练用类别得分及其相对应的地面实况(Ground Truth:GT)来计算至少一个损失,将所述损失反向传播,从而学习所述全卷积网络125和所述卷积层121的参数。
接着,图9示意性地示出本发明的另一实施例涉及的用包含跟踪网络的CNN来跟踪对象的测试装置200,参考图9,测试装置200包括通信部210和处理器220。
首先,通信部210可以获得被输入的影像的当前影像帧。在这种情况下,影像可以包括图像序列。
接着,处理器220可以执行(i)第一处理,使用输入影像的当前影像帧获得至少一个特征映射(feature map),并使区域提议网络(RPN,Region Proposal Network)将至少一次运算应用于特征映射,生成关于与所述对象对应的至少一个提议框(proposal box)的信息;(ii)第二处理,(ii-1)根据与位于先前影像帧上的所述对象对应的至少一个先前边界框的至少一个先前状态向量,通过使用卡尔曼滤波算法(Kalman filter algorithm)生成至少预测所述对象位于当前影像帧上的所述先前边界框的至少一个预测状态向量,(ii-2)与预测状态向量对应地,生成从先前边界框的位置跟踪的所述当前影像帧上的至少一个预测边界框,其中,与所述预测状态向量对应的所述预测边界框包含与预测位置对应的信息,(ii-3)将从所述提议框中参考所述预测边界框来选择的至少一个特定提议框确定为至少一个种子框(seed box),(iii)第三处理,使至少一个池化层(pooling layer)对在所述位置敏感得分图上与所述种子框对应的至少一个区域进行池化,生成至少一个特征向量,使得至少一个FC层(FC layer),对所述特征向量应用至少一次全连接运算(fully connectedoperation),计算出对应于所述特定提议框的至少一个类别得分和至少一个回归增量;以及(iv)第四处理,参考所述回归增量和所述种子框,生成与所述当前影像帧上的所述对象对应的至少一个当前边界框,并使用所述卡尔曼滤波算法调整当前边界框。
此时,本发明的实施例涉及的测试装置200是计算机设备,只要是搭载有处理器并且具有计算能力的装置,就可以作为本发明涉及的测试装置200。另外,尽管在图9中仅示出了一个测试装置200,但是本发明不限于此,测试装置可以分成多个来执行功能。
参考图10说明利用本发明的一实施例涉及的测试装置200执行用包含跟踪网络的卷积神经网络(CNN)来跟踪对象的方法。在以下的说明中,将省略从图1至图8的说明中容易理解的部分的详细说明。
首先,测试装置200从输入影像的当前影像帧VF获得至少一个特征映射FM。
作为一个例子,当输入由视觉传感器(未示出)等拍摄的影像时,测试装置200获取或者支持其他装置获取输入影像的当前影像帧VF,使得至少一个卷积层221对当前影像帧VF应用一次或多次卷积运算,输出特征映射FM。
接下来,测试装置200将获取的特征映射FM输入到区域提议网络(RegionProposal Network:RPN)222,并使RPN对特征映射应用至少一次运算,获取与对象对应的有关提议框PB的信息。
作为一个例子,测试装置200可以支持区域提议网络222输出与估计在特征映射FM上包括对象的区域对应的提议框PB1、PB2、PB3、PB4。
并且,测试装置200可以使用卡尔曼滤波算法223生成或支持其他装置生成在当前影像帧VF中被预测为至少一个对象的位置的至少一个预测边界框EBB(预测边界框是从先前边界框跟踪的边界框,先前边界框是与位于先前影像帧上的对象对应的边界框)。
另外,测试装置200可以使用卡尔曼滤波算法223并参考所述先前影像帧的至少一个先前误差协方差(Error Covariance)来计算出所述当前影像帧的至少一个预测误差协方差。
接下来,测试装置200使种子框选择层224将从多个提议框PB1、PB2、PB3、PB4中参考预测边界框EBB来选择的至少一个特定提议框确定为种子框SB。
并且,使池化层225对在所述特征映射上与所述种子框SB对应的至少一个区域进行池化,生成至少一个特征向量,使得至少一个FC层226,对所述特征向量应用至少一次全连接运算(fully connected operation),计算出对应于所述特定提议框的至少一个类别得分CS和至少一个回归增量RD。
接下来,测试装置200参考所述回归增量RD和所述种子框SB,生成与所述当前影像帧VF上的对象对应的至少一个当前边界框CBB,并且可以使用卡尔曼滤波算法123校正当前边界框CBB,输出校正后的当前边界框ABB。
另一方面,在上述的测试方法之前,包含跟踪网络的CNN可以处于由学习装置学习的状态。
也就是说,通过学习装置(未示出),使得所述卷积层221对至少一个训练图像应用卷积运算,以获得至少一个训练用特征映射,使得所述区域提议网络222,分别生成与所述训练用特征映射上的预测包含至少一个训练对象的各个区域相对应的至少一个训练用提议框,使得池化层225,对所述训练用特征映射上的与所述训练用提议框中的各个对应的各区域进行池化,计算出与所述训练用提议框中的各个对应的至少一个训练用特征向量,使得所述FC层226,对所述训练用特征向量应用全连接运算,计算出与各个所述训练提议框对应的各训练用类别得分和各训练用回归增量,使至少一个损失层(未图示),通过参考各训练用回归增量、各训练用类别得分及其相对应的地面实况(GT)来计算至少一个损失,通过反向传播所述损失来学习所述全卷积网络和所述卷积层221的参数。
另外,上述的根据本发明的实施例可以以程序指令的形式实现,该程序指令可以由各种计算机部件执行,并且可以记录在计算机可读记录介质中。计算机可读记录介质可以单独或组合地包括程序指令、数据文件、数据结构等。记录在计算机可读记录介质上的程序指令可以是为本发明专门设计和配置的程序指令,或者可以是计算机软件领域的技术人员已知并可用的。计算机可读记录介质的示例包括诸如硬盘、软盘和磁带的磁介质、诸如CD-ROM和DVD的光学记录介质,诸如光磁软盘(floptical disk)的磁光介质(magneto-optical media)、以及ROM、RAM、闪存等的特别构成为存储并执行程序指令的硬件装置。程序指令的示例不仅包括由编译器生成的机器代码,还包括可以由计算机使用解释器等执行的高级语言代码。硬件装置可以配置为作为一个或多个软件模块操作来执行根据本发明的处理,反之亦然。
尽管已经通过诸如特定部件和有限的实施例和附图的特定实施例来描述了本发明,但这些仅仅是为了更全面地理解本发明而提供的,本发明不限于上述实施例。对于本领域技术人员来说,可以从这些描述中进行各种修改和变更。
因此,本发明的宗旨不应限于上述实施例,并且不仅是后附的权利要求,与这些权利要求等同或等价的变形也包括在本发明的宗旨的范围内。

Claims (22)

1.一种用包含跟踪网络的卷积神经网络来跟踪至少一个对象的方法,其特征在于,包括以下步骤:
(a)测试装置使用输入影像的当前影像帧获得至少一个特征映射,并使区域提议网络将至少一次运算应用于所述特征映射,生成关于与所述对象对应的至少一个提议框的信息;
(b)所述测试装置执行以下处理:(i)(i-1)根据与位于先前影像帧上的所述对象对应的至少一个先前边界框的至少一个先前状态向量,通过使用卡尔曼滤波算法生成至少预测所述对象位于所述当前影像帧上的所述先前边界框的至少一个预测状态向量,(i-2)与所述预测状态向量对应地,生成从所述先前边界框的位置跟踪的所述当前影像帧上的至少一个预测边界框,其中,与所述预测状态向量对应的所述预测边界框包含与预测位置对应的信息,(i-3)将从所述提议框中参考所述预测边界框来选择的至少一个提议框确定为种子框;以及(ii)使全卷积网络将至少一次完整卷积运算应用于所述特征映射,输出至少一个位置敏感得分图;
(c)所述测试装置使至少一个池化层对在所述位置敏感得分图上与所述种子框对应的区域进行池化,计算出对应于所述种子框的至少一个类别得分和至少一个回归增量;以及
(d)所述测试装置参考所述回归增量和所述种子框,生成与所述当前影像帧上的所述对象对应的至少一个当前边界框,并使用所述卡尔曼滤波算法调整所述当前边界框,
在所述步骤(b)中,
所述测试装置参考以下信息中的一种信息来确定所述种子框:(i)所述预测边界框的位置信息和各个所述提议框的各位置信息,(ii)所述预测边界框与各个所述提议框之间的各重叠区域的面积,以及(iii)所述预测边界框的所述位置信息、各个所述提议框的各位置信息和所述各重叠区域的面积。
2.根据权利要求1所述的方法,其特征在于,
在所述步骤(b)中,
所述测试装置通过使用所述卡尔曼滤波算法,参考所述先前影像帧的至少一个先前误差协方差,计算所述当前影像帧的至少一个预测误差协方差。
3.根据权利要求2所述的方法,其特征在于,
在所述步骤(d)中,
所述测试装置,(i)使用所述预测误差协方差获得卡尔曼增益,(ii)使用所述卡尔曼增益和所述预测状态向量,更新基于所述当前边界框的位置信息的所述当前边界框的当前状态向量,(iii)通过使用所述卡尔曼增益和所述预测误差协方差来更新所述当前影像帧的当前误差协方差。
4.根据权利要求1所述的方法,其特征在于,
在所述步骤(c)中,
所述测试装置将池化运算应用到与所述位置敏感得分图中的所述种子框相对应的至少一个区域,并对所述池化的位置敏感得分图应用全局池化运算,计算出与所述种子框对应的所述类别得分和所述回归增量。
5.根据权利要求1所述的方法,其特征在于,
在所述步骤(a)中,
所述测试装置使得至少一个卷积层对所述当前影像帧应用至少一次卷积运算,以获得所述特征映射,并支持所述区域提议网络输出与所述特征映射上的估计包含所述对象的区域对应的所述提议框。
6.根据权利要求5所述的方法,其特征在于,
在所述步骤(a)之前,
学习装置(i)使所述卷积层对至少一个训练图像应用至少一次卷积运算,以获得至少一个训练用特征映射,(ii)(ii-1)使得所述区域提议网络分别生成与所述训练用特征映射上的预测包含至少一个训练对象的各个区域相对应的至少一个训练用提议框;(ii-2)使得全卷积网络通过对所述训练用特征映射应用至少一次完整卷积运算,生成至少一个训练用位置敏感得分图;(iii)使所述池化层对所述训练用位置敏感得分图上的各区域进行池化,分别计算出与各个所述训练用提议框对应的各训练用类别得分和各训练用回归增量;(iv)使至少一个损失层通过参考所述各训练用回归增量、所述各训练用类别得分及其相对应的地面实况来计算至少一个损失,通过反向传播所述损失来学习所述全卷积网络和所述卷积层的参数。
7.一种用包含跟踪网络的卷积神经网络来跟踪至少一个对象的方法,其特征在于,包括以下步骤:
(a)测试装置使用输入影像的当前影像帧获得至少一个特征映射,并使区域提议网络将至少一次运算应用于所述特征映射,生成关于与所述对象对应的至少一个提议框的信息;
(b)所述测试装置执行以下处理:(i)根据与位于先前影像帧上的所述对象对应的至少一个先前边界框的至少一个先前状态向量,通过使用卡尔曼滤波算法生成至少预测所述对象位于所述当前影像帧上的所述先前边界框的至少一个预测状态向量;(ii)与所述预测状态向量对应地,生成从所述先前边界框的位置跟踪的所述当前影像帧上的至少一个预测边界框,其中,与所述预测状态向量对应的所述预测边界框包含与预测位置对应的信息;(iii)将从所述提议框中参考所述预测边界框来选择的至少一个提议框确定为种子框;
(c)所述测试装置使至少一个池化层在所述特征映射上池化对应于所述种子框的至少一个区域,生成至少一个特征向量,并使至少一个全连接层对所述特征向量应用至少一次全连接运算,计算出对应于所述种子框的至少一个类别得分和至少一个回归增量;以及
(d)所述测试装置参考所述回归增量和所述种子框,生成与所述当前影像帧上的所述对象对应的至少一个当前边界框,并使用所述卡尔曼滤波算法调整所述当前边界框,
在所述步骤(b)中,
所述测试装置参考以下信息中的一种信息来确定所述种子框:(i)所述预测边界框的位置信息和各个所述提议框的各位置信息,(ii)所述预测边界框与各个所述提议框之间的各重叠区域的面积,以及(iii)所述预测边界框的所述位置信息、各个所述提议框的各位置信息和所述各重叠区域的面积。
8.根据权利要求7所述的方法,其特征在于,
在所述步骤(b)中,
所述测试装置通过使用所述卡尔曼滤波算法,参考所述先前影像帧的至少一个先前误差协方差,计算所述当前影像帧的至少一个预测误差协方差。
9.根据权利要求8所述的方法,其特征在于,
在所述步骤(d)中,
所述测试装置,(i)使用所述预测误差协方差获得卡尔曼增益,(ii)使用所述卡尔曼增益和所述预测状态向量,更新基于所述当前边界框的位置信息的所述当前边界框的当前状态向量,(iii)通过使用所述卡尔曼增益和所述预测误差协方差来更新所述当前影像帧的当前误差协方差。
10.根据权利要求7所述的方法,其特征在于,
在所述步骤(a)中,
所述测试装置使得至少一个卷积层对所述当前影像帧应用至少一次卷积运算,以获得所述特征映射,并支持所述区域提议网络输出与所述特征映射上的估计包含所述对象的区域对应的所述提议框。
11.根据权利要求10所述的方法,其特征在于,
在所述步骤(a)之前,
学习装置(i)使所述卷积层对至少一个训练图像应用卷积运算,以获得至少一个训练用特征映射;(ii)使得所述区域提议网络分别生成与所述训练用特征映射上的预测包含至少一个训练对象的各个区域相对应的至少一个训练用提议框;(iii)使所述池化层对所述训练用特征映射上的分别对应于所述训练用提议框的各区域进行池化,计算与所述训练用提议框中的各个对应的至少一个训练用特征向量,并使所述全连接层对所述训练用特征向量应用全连接运算,计算出对应于各所述训练用提议框的各类别得分和各回归增量;(iv)使至少一个损失层通过参考各训练用回归增量、各训练用类别得分及其相对应的地面实况来计算至少一个损失,通过反向传播所述损失来学习全卷积网络和所述卷积层的参数。
12. 一种用包含跟踪网络的卷积神经网络来跟踪至少一个对象的装置,其特征在于,包括:
通信部,获取被输入的影像的至少一个影像帧;以及
处理器,执行以下处理:
(I) 使用输入影像的当前影像帧获得至少一个特征映射,并使区域提议网络将至少一次运算应用于所述特征映射,生成关于与所述对象对应的至少一个提议框的信息;
(II) (II-1)(i)根据与位于先前影像帧上的所述对象对应的至少一个先前边界框的至少一个先前状态向量,通过使用卡尔曼滤波算法生成至少预测所述对象位于所述当前影像帧上的所述先前边界框的至少一个预测状态向量,(ii)与所述预测状态向量对应地,生成从所述先前边界框的位置跟踪的所述当前影像帧上的至少一个预测边界框,其中,与所述预测状态向量对应的所述预测边界框包含与预测位置对应的信息,(iii)将从所述提议框中参考所述预测边界框来选择的至少一个提议框确定为种子框;以及(II-2)使全卷积网络将至少一次完整卷积运算应用于所述特征映射,输出至少一个位置敏感得分图;
(III) 使至少一个池化层对在所述位置敏感得分图上与所述种子框对应的区域进行池化,计算出对应于所述种子框的至少一个类别得分和至少一个回归增量;以及
(IV) 参考所述回归增量和所述种子框,生成与所述当前影像帧上的所述对象对应的至少一个当前边界框,并使用所述卡尔曼滤波算法调整所述当前边界框,
在所述(II)处理中,参考以下信息中的一种信息来确定所述种子框:(i)所述预测边界框的位置信息和各个所述提议框的各位置信息,(ii)所述预测边界框与各个所述提议框之间的各重叠区域的面积,以及(iii)所述预测边界框的所述位置信息、各个所述提议框的各位置信息和所述各重叠区域的面积。
13.根据权利要求12所述的装置,其特征在于,
所述处理器,
在所述(II)处理中,通过使用所述卡尔曼滤波算法,参考所述先前影像帧的至少一个先前误差协方差,计算所述当前影像帧的至少一个预测误差协方差。
14.根据权利要求13所述的装置,其特征在于,
所述处理器,
在所述(IV)处理中,使用所述预测误差协方差获得卡尔曼增益,并使用所述卡尔曼增益和所述预测状态向量,更新基于所述当前边界框的位置信息的所述当前边界框的当前状态向量,通过使用所述卡尔曼增益和所述预测误差协方差来更新所述当前影像帧的当前误差协方差。
15.根据权利要求12所述的装置,其特征在于,
所述处理器,
在所述(III)处理中,将池化运算应用到与所述位置敏感得分图中的所述种子框相对应的至少一个区域,并对所述池化的位置敏感得分图应用全局池化运算,计算出与所述种子框对应的所述类别得分和所述回归增量。
16.根据权利要求12所述的装置,其特征在于,
所述处理器,
在所述(I)处理中,使得至少一个卷积层对所述当前影像帧应用至少一次卷积运算,以获得所述特征映射,并支持所述区域提议网络输出与所述特征映射上的估计包含所述对象的区域对应的所述提议框。
17.根据权利要求16所述的装置,其特征在于,
所述处理器,
在所述(I)处理之前,(i)使所述卷积层对至少一个训练图像应用至少一次卷积运算,以获得至少一个训练用特征映射,(ii)(ii-1)使得所述区域提议网络分别生成与所述训练用特征映射上的预测包含至少一个训练对象的各个区域相对应的至少一个训练用提议框;(ii-2)使得所述全卷积网络通过对所述训练用特征映射应用至少一次完整卷积运算,生成至少一个训练用位置敏感得分图;(iii)使所述池化层对所述训练用位置敏感得分图上的各区域进行池化,分别计算出与各个所述训练用提议框对应的各训练用类别得分和各训练用回归增量;(iv)使至少一个损失层通过参考所述各训练用回归增量、所述各训练用类别得分及其相对应的地面实况来计算至少一个损失,通过反向传播所述损失来学习所述全卷积网络和所述卷积层的参数。
18. 一种用包含跟踪网络的卷积神经网络来跟踪至少一个对象的装置,其特征在于,包括:
通信部,获取被输入的影像的至少一个影像帧;以及
处理器,执行以下处理:
(I) 使用输入影像的当前影像帧获得至少一个特征映射,并使区域提议网络将至少一次运算应用于所述特征映射,生成关于与所述对象对应的至少一个提议框的信息;
(II)(i)根据与位于先前影像帧上的所述对象对应的至少一个先前边界框的至少一个先前状态向量,通过使用卡尔曼滤波算法生成至少预测所述对象位于所述当前影像帧上的所述先前边界框的至少一个预测状态向量;(ii)与所述预测状态向量对应地,生成从所述先前边界框的位置跟踪的所述当前影像帧上的至少一个预测边界框,其中,与所述预测状态向量对应的所述预测边界框包含与预测位置对应的信息;(iii)将从所述提议框中参考所述预测边界框来选择的至少一个提议框确定为种子框;
(III) 使至少一个池化层在所述特征映射上池化对应于所述种子框的至少一个区域,生成至少一个特征向量,并使至少一个全连接层对所述特征向量应用至少一次全连接运算,计算出对应于所述种子框的至少一个类别得分和至少一个回归增量;以及
(IV) 参考所述回归增量和所述种子框,生成与所述当前影像帧上的所述对象对应的至少一个当前边界框,并使用所述卡尔曼滤波算法调整所述当前边界框,
在所述(II)处理中,参考以下信息中的一种信息来确定所述种子框:(i)所述预测边界框的位置信息和各个所述提议框的各位置信息,(ii)所述预测边界框与各个所述提议框之间的各重叠区域的面积,以及(iii)所述预测边界框的所述位置信息、各个所述提议框的各位置信息和所述各重叠区域的面积。
19.根据权利要求18所述的装置,其特征在于,
所述处理器,
在所述(II)处理中,通过使用所述卡尔曼滤波算法,参考所述先前影像帧的至少一个先前误差协方差,计算所述当前影像帧的至少一个预测误差协方差。
20.根据权利要求19所述的装置,其特征在于,
所述处理器,
在所述(IV)处理中,使用所述预测误差协方差获得卡尔曼增益,并使用所述卡尔曼增益和所述预测状态向量,更新基于所述当前边界框的位置信息的所述当前边界框的当前状态向量,通过使用所述卡尔曼增益和所述预测误差协方差来更新所述当前影像帧的当前误差协方差。
21.根据权利要求18所述的装置,其特征在于,
所述处理器,
在所述(I)处理中,使得至少一个卷积层对所述当前影像帧应用至少一次卷积运算,以获得所述特征映射,并支持使所述区域提议网络输出与所述特征映射上的估计包含所述对象的区域对应的所述提议框。
22.根据权利要求21所述的装置,其特征在于,
所述处理器,
在所述(I)处理之前,
通过学习装置(i)使所述卷积层对至少一个训练图像应用卷积运算,以获得至少一个训练用特征映射;(ii)使得所述区域提议网络分别生成与所述训练用特征映射上的预测包含至少一个训练对象的各个区域相对应的至少一个训练用提议框;(iii)使所述池化层对所述训练用特征映射上的分别对应于所述训练用提议框的各区域进行池化,计算与所述训练用提议框中的各个对应的至少一个训练用特征向量,并使所述全连接层对所述训练用特征向量应用全连接运算,计算出对应于各训练用提议框的各类别得分和各回归增量;(iv)使至少一个损失层通过参考各训练用回归增量、各训练用类别得分及其相对应的地面实况来计算至少一个损失,通过反向传播所述损失来学习全卷积网络和所述卷积层的参数。
CN201910916111.XA 2018-10-05 2019-09-26 用包含跟踪网络的cnn跟踪对象的方法和使用该方法的装置 Active CN111008999B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/152,937 US10269125B1 (en) 2018-10-05 2018-10-05 Method for tracking object by using convolutional neural network including tracking network and computing device using the same
US16/152,937 2018-10-05

Publications (2)

Publication Number Publication Date
CN111008999A CN111008999A (zh) 2020-04-14
CN111008999B true CN111008999B (zh) 2023-09-26

Family

ID=66175023

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910916111.XA Active CN111008999B (zh) 2018-10-05 2019-09-26 用包含跟踪网络的cnn跟踪对象的方法和使用该方法的装置

Country Status (5)

Country Link
US (1) US10269125B1 (zh)
EP (1) EP3633618B1 (zh)
JP (1) JP6869562B2 (zh)
KR (1) KR102296507B1 (zh)
CN (1) CN111008999B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10572770B2 (en) * 2018-06-15 2020-02-25 Intel Corporation Tangent convolution for 3D data
US10915793B2 (en) * 2018-11-08 2021-02-09 Huawei Technologies Co., Ltd. Method and system for converting point cloud data for use with 2D convolutional neural networks
CN110176944A (zh) * 2019-04-25 2019-08-27 中国科学院上海微***与信息技术研究所 一种基于深度学习的智能抗干扰装置及方法
CN110400304B (zh) * 2019-07-25 2023-12-12 腾讯科技(深圳)有限公司 基于深度学习的物体检测方法、装置、设备及存储介质
CN110634151B (zh) * 2019-08-01 2022-03-15 西安电子科技大学 一种单目标跟踪方法
CN111352415B (zh) * 2019-10-11 2020-12-29 西安科技大学 一种煤矿蛇形探测机器人定位方法
CN110930434B (zh) * 2019-11-21 2023-05-12 腾讯科技(深圳)有限公司 目标对象跟随方法、装置、存储介质和计算机设备
US11669745B2 (en) * 2020-01-13 2023-06-06 Salesforce.Com, Inc. Proposal learning for semi-supervised object detection
CA3110657A1 (en) * 2020-02-28 2021-08-28 Invision Ai, Inc. Scene-aware object detection
US11195039B2 (en) * 2020-03-10 2021-12-07 International Business Machines Corporation Non-resource-intensive object detection
EP4128025A1 (en) * 2020-03-25 2023-02-08 FLIR Systems Trading Belgium BVBA Multi-sensor occlusion-aware tracking of objects in traffic monitoring systems and methods
CN111881907B (zh) * 2020-06-22 2021-07-27 浙江大华技术股份有限公司 一种边框回归的定位方法、装置和电子设备
US10902297B1 (en) * 2020-08-04 2021-01-26 SUPERB Al CO., LTD. Method for auto-labeling test image by using class-agnostic refinement module, and auto-labeling device using the same
KR20220094416A (ko) 2020-12-29 2022-07-06 (주)에이아이매틱스 근미래 객체 위치 예측 시스템
CN112861830B (zh) * 2021-04-13 2023-08-25 北京百度网讯科技有限公司 特征提取方法、装置、设备、存储介质以及程序产品
KR102637343B1 (ko) * 2021-05-26 2024-02-16 삼성전자주식회사 오브젝트 추적 방법 및 장치
KR102649119B1 (ko) * 2021-10-14 2024-03-20 한양대학교 산학협력단 좌표 정보를 이용한 객체 검출 네트워크 기법
KR102617846B1 (ko) * 2022-12-22 2023-12-27 주식회사 핀텔 영상 내 움직임이 있는 객체 검출 방법 및 시스템
CN116977367A (zh) * 2023-07-14 2023-10-31 陕西师范大学 基于Transformer与卡尔曼滤波的校园多目标跟踪方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9070202B2 (en) * 2013-03-14 2015-06-30 Nec Laboratories America, Inc. Moving object localization in 3D using a single camera
US9946960B1 (en) * 2017-10-13 2018-04-17 StradVision, Inc. Method for acquiring bounding box corresponding to an object in an image by using convolutional neural network including tracking network and computing device using the same
US10127439B2 (en) * 2015-01-15 2018-11-13 Samsung Electronics Co., Ltd. Object recognition method and apparatus

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170098172A1 (en) * 2015-10-06 2017-04-06 Evolv Technologies, Inc. Training Artificial Intelligence
US10204423B2 (en) * 2017-02-13 2019-02-12 Adobe Inc. Visual odometry using object priors

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9070202B2 (en) * 2013-03-14 2015-06-30 Nec Laboratories America, Inc. Moving object localization in 3D using a single camera
US10127439B2 (en) * 2015-01-15 2018-11-13 Samsung Electronics Co., Ltd. Object recognition method and apparatus
US9946960B1 (en) * 2017-10-13 2018-04-17 StradVision, Inc. Method for acquiring bounding box corresponding to an object in an image by using convolutional neural network including tracking network and computing device using the same

Also Published As

Publication number Publication date
KR20200039547A (ko) 2020-04-16
CN111008999A (zh) 2020-04-14
JP2020061144A (ja) 2020-04-16
EP3633618B1 (en) 2024-06-12
US10269125B1 (en) 2019-04-23
JP6869562B2 (ja) 2021-05-12
KR102296507B1 (ko) 2021-09-02
EP3633618A1 (en) 2020-04-08

Similar Documents

Publication Publication Date Title
CN111008999B (zh) 用包含跟踪网络的cnn跟踪对象的方法和使用该方法的装置
EP3735625B1 (en) Method and system for training the navigator of an object tracking robot
Zhang et al. Neural slam: Learning to explore with external memory
CN107450593B (zh) 一种无人机自主导航方法和***
US10410120B1 (en) Learning method and testing method of object detector to be used for surveillance based on R-CNN capable of converting modes according to aspect ratios or scales of objects, and learning device and testing device using the same
KR20200091329A (ko) 타겟 객체 예측 네트워크 및 타겟 객체 통합 네트워크를 이용하여 핵심성과지표와 같은 사용자 요구 사항에 따른 최적화를 위해 재구성 가능한 네트워크 기반의 객체 검출기를 학습하는 방법 및 학습 장치, 그리고 이를 이용한 테스팅 방법 및 테스팅 장치
CN111488786B (zh) 基于cnn的监视用客体检测器的方法及装置
CN113433937B (zh) 基于启发式探索的分层导航避障***、分层导航避障方法
CN111507152B (zh) 基于内置独立型预测来转换自动驾驶模式的方法及装置
KR20200095387A (ko) 협업 주행을 수행하는 자동차들로부터 획득된 주행 이미지들을 통합하는 방법 및 이를 이용한 주행 이미지 통합 장치
CN110879961A (zh) 利用车道模型的车道检测方法和装置
KR20200094644A (ko) V2x 정보 융합 기술을 통해 획득된, 각 객체에 대한 깊이 예측 정보 및 각 객체에 대한 클래스 정보를 이용해 3d 공간을 재구축함으로써 hd 맵을 업데이트하는 학습 방법 및 학습 장치, 그리고 이를 이용한 테스팅 방법 및 테스팅 장치
Kojima et al. To learn or not to learn: Analyzing the role of learning for navigation in virtual environments
US20200401151A1 (en) Device motion control
CN114127810A (zh) 车辆自主级功能
JP6810432B2 (ja) 物体の条件に応じてモードを切り換えることができるcnn基盤で軍事目的、スマートフォン又は仮想走行に使用される疑似3dバウンディングボックスを検出する方法及びこれを利用した装置
US20210341904A1 (en) Device and method for controlling a robot
CN116448134B (zh) 基于风险场与不确定分析的车辆路径规划方法及装置
Neloy et al. Alpha-N-V2: Shortest path finder automated delivery robot with obstacle detection and avoiding system
JP2020126621A (ja) 自律走行に対する論理的根拠を提示するために、管理者が物体検出器の検出プロセスを評価できるように支援する方法及び装置
CN115061499A (zh) 无人机控制方法及无人机控制装置
Gao et al. A prediction method of localizability based on deep learning
CN113158539A (zh) 交通参与者的长期轨迹预测的方法
Lu et al. LPNet: A reaction-based local planner for autonomous collision avoidance using imitation learning
Charroud et al. Enhanced autoencoder-based LiDAR localization in self-driving vehicles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant