CN111104838B - 基于障碍物的下端线检测roi的方法和装置 - Google Patents

基于障碍物的下端线检测roi的方法和装置 Download PDF

Info

Publication number
CN111104838B
CN111104838B CN201910852957.1A CN201910852957A CN111104838B CN 111104838 B CN111104838 B CN 111104838B CN 201910852957 A CN201910852957 A CN 201910852957A CN 111104838 B CN111104838 B CN 111104838B
Authority
CN
China
Prior art keywords
learning
test
feature map
columns
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910852957.1A
Other languages
English (en)
Other versions
CN111104838A (zh
Inventor
金桂贤
金镕重
金寅洙
金鹤京
南云铉
夫硕焄
成明哲
呂东勋
柳宇宙
张泰雄
郑景中
诸泓模
赵浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of CN111104838A publication Critical patent/CN111104838A/zh
Application granted granted Critical
Publication of CN111104838B publication Critical patent/CN111104838B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • G08G1/166Anti-collision systems for active traffic, e.g. moving vehicles, pedestrians, bikes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明是基于障碍物的下端线检测ROI的方法和装置。本发明提供一种基于输入图像中近距离障碍物的下端线来检测关注区域(ROI)的卷积神经网络(CNN)参数的学习方法。其中,该方法包括以下步骤:使第1至第N卷积层依次从所述输入图像生成第1至第N编码特征图;使第N至第1反卷积层从所述第N编码特征图依次生成第N至第1解码特征图;将特定解码特征图按行和列方向进行划分后,参照第N至第1解码特征图,生成障碍物分割结果;使区域建议网络(RPN)参照各锚框生成ROI边界框,参照所述ROI边界框及其相应的地面实况(GT)图像,生成损失;反向传播所述损失,学习所述参数。

Description

基于障碍物的下端线检测ROI的方法和装置
技术领域
本发明涉及从至少一个输入图像中基于至少一个近距离障碍物的至少一个下端线(bottom line)来检测至少一个ROI(Region of Interest,关注区域)的CNN(Convolutional Neural Network,卷积神经网络)参数的学习方法。尤其涉及对从所述输入图像中基于所述近距离障碍物所述下端线来检测所述ROI的所述CNN的所述参数进行学习的所述方法,以及使用其的学习装置、测试方法及测试装置。
背景技术
深度学习是适用于将事物或数据聚类或分类的技术。例如,计算机无法单凭照片区分狗和猫,而人可以轻易区分。为此研发了“机器学习(Machine Learning)”的方法。这是一种将很多数据输入到计算机,并将类似数据进行分类的技术。如果输入与储存的狗照片相似的照片,计算机就会将其分类为狗照片。
有关如何分类数据,已有了很多机器学习算法,如“决策树”或“贝页斯网络”、“支持向量机(Support Vector Machine,SVM)”、“人工神经网络”等为代表。其中,深度学习是人工神经网络的后裔。
深层卷积神经网络(Deep Convolutional Neural Network;Deep CNN)可谓深层学习领域飞速发展的核心。为了解决文字识别问题,早在90年代就已经使用了CNN,而像现在如此广泛应用,得益于最近的研究成果。这样的深度CNN在2012年ImageNet图像分类大赛中战胜了其他竞争者,赢得了冠军。之后,卷积神经网络成为了机器学习(MachineLearning)领域中非常有用的工具。
图1是基于现有CNN的一般性分割的现有流程的简略图。
如图1所示,在现有车道线的检测方法中,学习装置被输入输入图像后,在多个卷积层执行多次卷积运算和ReLU(Rectified Linear Unit,修正线性单元)等非线性运算,生成特征图,并在多个反卷积层中对所述特征图的最后一个图(Map)执行多次反卷积运算及归一化指数(SoftMax)运算,生成分割结果。
另一方面,根据现有的道路分割方法,在所述输入图像中,所有像素都要进行分割,并需要考虑所有像素方能识别出该像素是属于道路的像素,还是不属于道路的像素。此种方法,因为需要对所有像素进行判断,存在运算量大的问题。
另一方面,为了汽车的自主驾驶而进行所述道路分割时,则无需在所述输入图像中对所有物体或车道线上的所有物体进行分割,只针对妨碍自动驾驶的障碍物(obstacle)进行检测即可。
因此,需要提出在输入图像中只检测所述障碍物的新方法。
同时,需要提出一种找出所述物体边界框的方法,其借由对有可能妨碍道路行驶的障碍物的检测方法,在RPN演算时也能减少运算量。
发明内容
发明所要解决的课题
本发明目的在于,提供一种在汽车的自主驾驶中用于检测有可能妨碍道路行驶的近距离障碍物的新方法。
并且,本发明的目的在于,提供一种无需考虑输入图像的所有像素,只需少量的运算量便能快速地只掌握近距离障碍物的位置,并以此为基础易于找出物体边界框的方法。
并且,本发明的目的在于,提供一种减少RPN运算量的方法。
用于解决课题的技术方案
本发明的一个方式为,一种从至少一个输入图像中基于至少一个近距离障碍物的至少一个下端线检测至少一个ROI的CNN参数的学习方法,其特征在于,包括:步骤(a),学习装置,使第1卷积层至第N卷积层,依次从所述输入图像各自生成第1编码特征图至第N编码特征图;步骤(b),所述学习装置,使第N反卷积层至第1反卷积层,从所述第N编码特征图依次生成第N解码特征图至第1解码特征图;步骤(c),将所述第N解码特征图至第1解码特征图中至少一个特定解码特征图,按其行方向的第1方向和其列方向的第2方向进行划分,从而生成具备多个列和多个行的栅格各单元后,所述学习装置,参照所述第N解码特征图至所述第1解码特征图中至少一部分特征图的至少一个特征,生成至少一个障碍物分割结果,其按所述列分别显示推定为存在有各所述近距离障碍物各所述下端线的各特定行;步骤(d),所述学习装置,从基于各所述特定行而推定出的各锚定行的像素中,按各所述列分别确定在生成各所述ROI检测用锚框时、作为各自的基础的锚;步骤(e),所述学习装置,使区域建议网络RPN,(i)参照各所述锚框,生成至少一个ROI边界框,其中,所述锚框中至少一个是以各所述锚为基础而推定出的,(ii)参照所述ROI边界框及其相应的至少一个第1GT图像,生成至少一个第1损失,其中,所述ROI边界框是所述锚框中推定为包含特定客体的概率较高的特定锚框,所述第1GT图像显示所述输入图像中实际包含所述特定客体的边界框;以及步骤(f),所述学习装置,反向传播所述第1损失,学习所述CNN的所述参数。
一个实施例,其特征在于,所述步骤(c)包括:步骤(c1),所述栅格各单元是将所述至少一个解码特征图在所述第1方向按每第1间隔进行划分,并在所述第2方向按每第2间隔进行划分而生成的,所述学习装置,按各所述列,将各所述行各特征分别向信道方向进行级联,从而生成至少一个修正的特征图;以及步骤(c2),所述学习装置,参照所述修正的特征图,在按所述列分别经过级联后的信道上,确认各自的所述近距离障碍物各所述下端线的各推定位置,从而生成所述障碍物分割结果,其按所述列分别显示在所述行中推定为存在有各所述近距离障碍物各所述下端线的行,其中,所述障碍物分割结果是通过SoftMax运算而生成的,其按所述列分别将对应于各信道的各值进行归一化。
另一个实施例,其特征在于,所述步骤(c)包括:步骤(c3),所述学习装置,(i)在至少一个第2GT图像上按各所述列分别显示各所述近距离障碍物各所述下端线所处位置的实际行后,参照各所述实际行的位置,及(ii)所述障碍物分割结果中,按各所述列分别推定为存在有各所述近距离障碍物各所述下端线的所述特定行的各位置,生成至少一个第2损失;在所述步骤(f),所述学习装置反向传播所述第1损失及所述第2损失,学习所述CNN的所述参数。
另一个实施例,其特征在于,在所述步骤(e),在所述锚框中,参照至少一个(i)比例尺及(ii)纵横比中的至少一个,设置所述锚各自的多个互不相同的锚框。
另一个实施例,其特征在于,各所述列在所述第1方向包括一个以上像素;各所述行在所述第2方向包括一个以上像素。
另一个实施例,其特征在于,在所述输入图像划分为Nc个行的情况下,所述第1GT图像,按各所述列分别包含有各所述近距离障碍物各所述下端线在所述行中实际所处的行的信息,在所述输入图像划分为所述Nc个行的情况下,所述障碍物的分割结果,按所述列分别显示在所述行中推定为存在有各所述近距离障碍物各所述下端线的行。
另一个实施例,其特征在于,在所述步骤(c)中,推定出各所述列上存在有所述近距离障碍物各所述下端线后,生成所述障碍物分割结果值,其在所述Nc个行中的各所述列上,在位于各所述特定行的各所述下端线的各推定位置,具有相应的最大值,而在位于剩余行中的位置,具有较小的值。
本发明的另一个方式为,一种从至少一个测试图像中基于至少一个测试用近距离障碍物的至少一个下端线检测至少一个测试用ROI的CNN的测试方法,其特征在于,包括:步骤(a),学习装置执行以下过程:过程(1),使第1卷积层至第N卷积层,依次从一个训练图像各自生成学习用第1编码特征图至学习用第N编码特征图;过程(2),使第N反卷积层至第1反卷积层,从所述学习用第N编码特征图依次生成学习用第N解码特征图至学习用第1解码特征图;过程(3),将所述学习用第N解码特征图至所述学习用第1解码特征图中至少一个特定学习用解码特征图,按其行方向的第1方向和其列方向的第2方向进行划分,从而生成具备多个列和多个行的栅格各单元后,参照所述学习用第N解码特征图至所述学习用第1解码特征图中至少一部分特征图的至少一个特征,生成至少一个学习用障碍物分割结果,其按所述列分别显示推定为存在有至少一个各学习用近距离障碍物各下端线的各学习用特定行;过程(4),从基于各所述学习用特定行而推定出的学习用各锚定行的像素中,确定按各所述列的学习用锚,以其作为各自的基础而生成用于各所述学习用ROI检测的学习用锚框;过程(5),使RPN,(i)参照各所述学习用锚框,生成至少一个学习用ROI边界框,其中,所述学习用锚框中至少一个是以各所述学习用锚为基础而推定出的,(ii)参照所述学习用ROI边界框及其相应的至少一个第1GT图像,生成至少一个第1损失,其中,所述学习用ROI边界框是所述学习用锚框中推定为包含学习用特定客体的概率较高的特定学习用锚框,所述第1GT图像显示所述训练图像中实际包含所述学习用特定客体的学习用边界框;以及过程(6),反向传播所述第1损失,学习所述CNN参数,在学习装置执行了以上步骤的情况下,测试装置获得所述测试图像;步骤(b),所述测试装置,使所述第1卷积层至所述第N卷积层,依次从所述测试图像各自生成测试用第1编码特征图至测试用第N编码特征图;步骤(c),所述测试装置,使第N反卷积层至所述第1反卷积层,从所述测试用第N编码特征图依次生成测试用第N解码特征图至测试用第1解码特征图;步骤(d),将所述测试用第N解码特征图至所述测试用第1解码特征图中的至少一个特定测试用解码特征图,按其行方向的第1方向和其列方向的第2方向进行划分,从而生成具备多个列和多个行的栅格各单元后,所述测试装置,参照所述测试用第N解码特征图至所述测试用第1解码特征图中至少一部分特征图的至少一个特征,生成至少一个测试用障碍物分割结果,其按所述列分别显示推定为存在有各所述测试用近距离障碍物各所述下端线的各特定行;步骤(e),所述测试装置,在基于所述测试用特定行而推定出的测试用各锚定行的像素中,确定按各所述列的测试用锚,以其作为各自的基础而生成用于各测试用ROI检测的测试用锚框;以及步骤(f),所述测试装置,使所述RPN,参照各所述测试用锚框,生成至少一个测试用ROI边界框,其中,所述测试用锚框中至少一个是以各所述测试用锚为基础而推定出的。
一个实施例,其特征在于,所述步骤(d)包括:步骤(d1),所述栅格各单元是将所述测试用第N解码特征图至所述测试用第1解码特征图中的至少一个特定测试用解码特征图,在所述第1方向按每第1间隔进行划分,并在所述第2方向按每第2间隔进行划分而生成的,所述测试装置,按各所述列,将各所述行各测试用特征分别向信道方向进行级联,从而生成至少一个修正的测试用特征图;以及步骤(d2),所述测试装置,参照所述修正的测试用特征图,在按所述列分别经过级联后的信道上,确认各自的所述测试用近距离障碍物各所述下端线的各推定位置,从而生成所述测试用障碍物分割结果,其按所述列分别显示在所述行中推定为存在有各所述近距离障碍物各所述下端线的行,其中,所述测试用障碍物分割结果是通过SoftMax运算生成的,其按所述列分别将对应于各信道的各值进行归一化。
另一个实施例,其特征在于,在所述步骤(f),在所述测试用锚框中,参照至少一个(i)比例尺及(ii)纵横比中的至少一个,设置所述测试用锚各自的多个互不相同的锚框。
另一个实施例,其特征在于,各所述列在所述第1方向包括一个以上像素;各所述行在所述第2方向包括一个以上像素。
另一个实施例,其特征在于,在所述训练图像划分为Nc个行的情况下,所述第1GT图像,按所述列分别包含有各所述学习用近距离障碍物各所述下端线在所述行中实际所处的行的信息,在所述训练图像划分为所述Nc个行的情况下,所述学习用障碍物分割结果,按所述列分别显示在所述行中推定为存在有各所述学习用近距离障碍物各所述下端线的行;在所述步骤(d),所述测试图像划分为Nc个行的情况的下,推定各所述列上存在有各所述测试用近距离障碍物各所述下端线后,生成所述测试用障碍物分割结果值,其在所述Nc个行中,在位于各所述测试用特定行的各所述下端线各推定位置,具有各所述列相应的最大值,而在位于剩余行中的位置,具有较小的值。
本发明的另一个方式为,一种从至少一个输入图像中基于至少一个近距离障碍物至少一个下端线检测至少一个ROI的CNN参数的学习装置,其特征在于,包括:通讯部,用于获取所述输入图像;以及处理器,用于执行以下过程:过程(I),使第1卷积层至第N卷积层,依次从一个所述输入图像各自生成第1编码特征图至第N编码特征图;过程(II),使第N反卷积层至第1反卷积层,从所述第N编码特征图依次生成第N解码特征图至第1解码特征图;过程(III),将所述第N解码特征图至所述第1解码特征图中至少一个特定解码特征图,按其行方向的第1方向和其列方向的第2方向进行划分,从而生成具备多个列和多个行的栅格各单元后,参照所述第N解码特征图至所述第1解码特征图中至少一部分特征图的至少一个特征,生成至少一个障碍物分割结果,其按所述列分别显示推定为存在有各所述近距离障碍物各所述下端线的各特定行;过程(IV),从基于各所述特定行而推定出的各锚定行的像素中,按各所述列分别确定在生成各所述ROI检测用锚框时、作为各自的基础的锚;过程(V),使RPN,(i)参照各所述锚框,生成至少一个ROI边界框,其中,所述锚框中至少一个是以各所述锚为基础而推定出的,(ii)参照所述ROI边界框及其相应的至少一个第1GT图像,生成至少一个第1损失,其中,所述ROI边界框是所述锚框中推定为包含特定客体的概率较高的特定锚框,所述第1GT图像显示所述输入图像中实际包含所述特定客体的边界框;以及过程(VI),反向传播所述第1损失,学习所述CNN所述参数。
一个实施例,其特征在于,所述过程(III)包括:过程(III-1),所述栅格各单元是将所述至少一个解码特征图在所述第1方向按每第1间隔进行划分,并在所述第2方向按每第2间隔进行划分而生成的,按各所述列,将各所述行各特征分别向信道方向进行级联,从而生成至少一个修正的特征图;以及过程(III-2),参照所述修正的特征图,在按所述列分别经过级联后的信道上,确认各自的所述近距离障碍物各所述下端线的各推定位置,从而生成所述障碍物分割结果,其按所述列分别显示在所述行中推定为存在有各所述近距离障碍物各所述下端线的行,其中,所述障碍物分割结果是通过SoftMax运算而生成的,其按所述列分别将对应于各信道的各值进行归一化。
另一个实施例,其特征在于,所述过程(III)包括:过程(III-3),(i)在至少一个第2GT图像按各所述列分别显示各所述近距离障碍物各所述下端线所处位置的实际行后,参照各所述实际行的位置,及(ii)所述障碍物分割结果中按各所述列分别推定为存在有各所述近距离障碍物各所述下端线的所述特定行的各位置,生成至少一个第2损失;在所述步骤(VI),所述处理器反向传播所述第1损失及所述第2损失,学习所述CNN的所述参数。
另一个实施例,其特征在于,在所述步骤(V),在所述锚框中,参照至少一个(i)比例尺及(ii)纵横比中的至少一个,设置所述锚各自的多个互不相同的锚框。
另一个实施例,其特征在于,各所述列在所述第1方向包括一个以上像素;各所述行在所述第2方向包括一个以上像素。
另一个实施例,其特征在于,所述输入图像划分为Nc个行的情况下,所述第1GT图像按各所述列分别包含有各所述近距离障碍物各所述下端线在所述行中实际所处的行的信息;在所述输入图像划分为所述Nc个行的情况下,所述障碍物分割结果,按所述列分别显示在所述行中推定为存在有各所述近距离障碍物各所述下端线的行。
另一个实施例,其特征在于,在所述步骤(III)中,推定出各所述列上存在有所述近距离障碍物各所述下端线后,生成所述障碍物分割结果值,其在所述Nc个行中的各所述列上,在位于各所述特定行的各所述下端线的各推定位置,具有相应的最大值,而在位于剩余行中的位置,具有较小的值。
本发明的另一个方式为,一种从至少一个测试图像中基于至少一个测试用近距离障碍物的至少一个下端线检测至少一个测试用ROI的CNN的测试装置,其特征在于,包括:通讯部,用于在学习装置执行了以下过程的情况下,获取所述测试图像,所述过程包括:过程(1),使第1卷积层至第N卷积层,依次从一个训练图像各自生成学习用第1编码特征图至学习用第N编码特征图;过程(2),使第N反卷积层至第1反卷积层,从所述学习用第N编码特征图依次生成学习用第N解码特征图至学习用第1解码特征图;过程(3),将所述学习用第N解码特征图至所述学习用第1解码特征图中至少一个特定学习用解码特征图,按其行方向的第1方向和其列方向的第2方向进行划分,从而生成具备多个列和多个行的栅格各单元后时,参照所述学习用第N解码特征图至所述学习用第1解码特征图中至少一部分特征图的至少一个特征,生成至少一个学习用障碍物分割结果,其按所述列分别显示推定为存在有至少一个各学习用近距离障碍物各下端线的各学习用特定行;过程(4),从基于各所述学习用特定行而推定出的学习用各锚定行的像素中,确定按各所述列的学习用锚,以其作为各自的基础而生成用于各所述学习用ROI检测的学习用锚框;过程(5),使RPN,(i)参照各所述学习用锚框,生成至少一个学习用ROI边界框,其中,所述学习用锚框中至少一个是以各所述学习用锚为基础而推定出的,(ii)参照所述学习用ROI边界框及其相应的至少一个第1GT图像,生成至少一个第1损失,其中,所述学习用ROI边界框是所述学习用锚框中推定为包含学习用特定客体的概率较高的特定学习用锚框,所述第1GT图像显示所述训练图像中实际包含所述学习用特定客体的学习用边界框;以及过程(6),反向传播所述第1损失,学习所述CNN参数;以及处理器,用于执行以下过程:过程(I),使所述第1卷积层至所述第N卷积层,依次从所述测试图像各自生成测试用第1编码特征图至测试用第N编码特征图;过程(II),使所述第N反卷积层至所述第1反卷积层,从所述测试用第N编码特征图依次生成测试用第N解码特征图至测试用第1解码特征图;过程(III),将所述测试用第N解码特征图至所述测试用第1解码特征图中的至少一个特定测试用解码特征图,按其行方向的第1方向和其列方向的第2方向进行划分,从而生成具备多个列和多个行的栅格各单元后,参照所述测试用第N解码特征图至所述测试用第1解码特征图中至少一部分特征图的至少一个特征,生成至少一个测试用障碍物分割结果,其按所述列分别显示推定为存在有各所述测试用近距离障碍物各所述下端线的各特定行;过程(IV),在基于所述测试用特定行而推定出的测试用各锚定行的像素中,确定按各所述列的测试用锚,以其作为各自的基础而生成用于各测试用ROI检测的测试用锚框;以及过程(V),使所述RPN,参照各所述测试用锚框,生成至少一个测试用ROI边界框,其中,所述测试用锚框中至少一个是以各所述测试用锚为基础而推定出的。
一个实施例,其特征在于,所述过程(III)包括:过程(III-1),所述栅格各单元是将所述测试用第N解码特征图至所述测试用第1解码特征图中的至少一个特定测试用解码特征图,在所述第1方向按每第1间隔进行划分,在所述第2方向按每第2间隔进行划分而生成的,按各所述列,将各所述行各测试用特征分别向信道方向进行级联,从而生成至少一个修正的测试用特征图;以及过程(III-2),参照所述修正的测试用特征图,在按所述列分别经过级联后的信道上,确认各所述测试用近距离障碍物各所述下端线的各推定位置,从而生成所述测试用障碍物分割结果,其按所述列分别显示在所述行中推定为存在有各所述近距离障碍物各所述下端线的行,其中,所述测试用障碍物分割结果是通过SoftMax运算生成的,其按所述列分别将对应于各信道的各值进行归一化。
另一个实施例,其特征在于,在所述过程(V),在所述测试用锚框中,参照至少一个(i)比例尺及(ii)纵横比中的至少一个,设置所述测试用锚各自的多个互不相同的锚框。
另一个实施例,其特征在于,各所述列在所述第1方向包括一个以上像素;各所述行在所述第2方向包括一个以上像素。
另一个实施例,其特征在于,在所述训练图像划分为Nc个行的情况下,所述第1GT图像,按所述列分别包含有各所述学习用近距离障碍物各所述下端线在所述行中实际所处的行的信息,在所述训练图像划分为所述Nc个行的情况下,所述学习用障碍物的分割结果,按所述列分别显示在所述行中推定为存在有各所述学习用近距离障碍物各所述下端线的行;在所述过程(III),所述测试图像划分为Nc个行的情况的下,推定各所述列上存在有各所述测试用近距离障碍物各所述下端线后,生成所述测试用障碍物分割结果值,其在使所述Nc个行中,在位于各所述测试用特定行的各所述下端线各推定位置,具有各所述列相应的最大值,而在位于剩余行中的位置,具有较小的值。
发明效果
本发明的有益效果如下:
在将输入图像划分为规定间隔而生成的栅格上,按各个列检测近距离障碍物位于哪一行,在自主驾驶时易于掌握汽车可以行驶的路径;
进一步,根据本发明,无需考虑所述输入图像内所有像素,易于通过少量的运算量仅检测出所述近距离障碍物;
进一步,本发明的有益效果为,所述用于近距离障碍物检测的新方法可适用于检测所述近距离障碍物的所述下端线,且仅对所述客体所述下端线的周边区域执行所述RPN运算,可大大减少所述ROI检测的运算量。
附图说明
图1是基于现有技术的CNN的一般性分割的现有过程的示意图;
图2是本发明提供的用于近距离障碍物检测的CNN的学习方法的流程示意图;
图3是为了说明本发明提供的所述近距离障碍物检测用CNN学习方法而示例性地表示对于输入图像的运算过程的图;
图4是本发明提供的用于所述近距离障碍物检测的修正(reshaping)过程的示意图;
图5是本发明提供的用于所述近距离障碍物检测的所述输入图像及对应于其的GT图像的示例图;
图6是为了说明本发明提供的用于检测近距离障碍物的CNN测试方法而示例性地表示对于所述输入图像的运算过程的图;
图7a是现有技术所涉及的物体检测结果的示意图,图7b和图7c是本发明提供的物体检测结果的示意图。
图8是本发明提供的至少一个ROI的检测方法的流程示意图。
图9a是利用现有技术的RPN的过程的示意图,图9b是利用本发明提供的所述RPN的过程的示意图。
具体实施方式
以下所描述的有关本发明的详细说明,是本发明的具体实施例,可参考附图。这些实施例的详细说明,足以让本技术领域的技术人员能够实施本发明。应当理解,本发明的多种实施例各不相同,但相互之间并不需要是排他的。例如,在此记载的与一个实施例有关的具体形状、结构及特性,在不脱离本发明的精神及范围的情况下,可作为其他实施例加以体现。另外,应当理解,每个公开的实施例中的个别构成要素的位置或安排,在不脱离本发明的精神及发明的情况下可以进行分类。因此,后述的详细说明的旨意并不在于限定,而本发明的范围,如能适当说明,仅限定于与其权利要求所主张的内容等同的所有范围和所附权利要求。附图中类似的参照符号,从多种层面上意指相同或类似的功能。
下面,为了让本发明所属的技术领域的普通技术人员容易实施本发明,结合附图详细描述本发明的最佳实施例。
本发明所提出的技术涉及一种算法,其能够通过快速且少量的运算,从高分辨率的图像检测近距离障碍物。本发明技术提供的所述近距离障碍物检测方法,其目的在于,在输入图像中寻找道路与至少一个障碍物之间的分界。为此,当将所述输入图像的行方向定为第1方向,列方向定为第2方向时,将所述第1方向划分为第1间隔,形成多个列,将所述第2方向划分为第2间隔,形成多个行,从而可形成栅格。将各个所述列从对应于其的所述栅格最下端单元开始,按所述第2方向进行确认,以此对推定出各自存在所述近距离障碍物的各个所述列,通过特定行的信息,检测所述近距离障碍物在道路上的位置。并且,本发明通过(i)基于高分辨率信息的多重损失(Multi-loss)学习过程及(ii)仅利用低分辨率特征的测试过程,减少运算量。
图2是本发明提供的所述近距离障碍物检测用CNN的学习方法的流程示意图。图3是为了说明本发明提供的所述障碍物检测用所述CNN的学习方法而提出的关于输入图像的运算过程的示例图。
参考图2和图3,详细说明本发明提供的所述近距离障碍物检测用CNN的所述学习方法。
本发明提供的所述近距离障碍物检测过程,开始于从至少一个输入图像生成编码特征图及解码特征图的步骤(S01)。所述S01步骤中,当其所包含的学习装置接收所述输入图像作为训练图像后,所述学习装置使第1至第N卷积层从所述训练图像依次各自生成第1编码特征图至第N编码特征图。在此,所述第1至第N卷积层包含于所述近距离障碍物检测用所述CNN。并且,所述近距离障碍物检测用所述CNN包含对应于所述第1至第N卷积层的第N至第1反卷积层,而所述学习装置使所述第N至第1反卷积层从所述第N编码特征图依次生成第N解码特征图至第1解码特征图。
例如,如图3所示,所述近距离障碍物检测用所述CNN,可包含所述第1卷积层至第5卷积层(11至15)和第5反卷积层至所述第1反卷积层(16至20),所述学习装置可接收3ch,640×256尺寸的所述训练图像(100)。此输入图像,被输入到所述第1卷积层(11),生成8ch,320×128尺寸的所述第1编码特征图(110);被输入到第2卷积层(12),生成16ch,160×64尺寸的第2编码特征图(120);被输入到第3卷积层(13),生成32ch,80×32尺寸的第3编码特征图(130);被输入到第4卷积层(14),生成64ch,40×16尺寸的第4编码特征图(140),被输入到第5卷积层(15),生成128ch,20×8尺寸的第5编码特征图(150)。
如此,所述卷积层,通过增加所述输入图像或特征图的信道,减少横向与纵向尺寸,执行生成所述编码特征图的功能。如,所述第2卷积层(12)至所述第5卷积层(15),将所述输入的特征图的所述信道增加至2倍,将横向与纵向的尺寸各自减少至1/2,以此生成所述编码特征图。
另一方面,所述学习装置使对应于所述第N卷积层的所述第N反卷积层,将所述第N编码特征图的横向尺寸增加至规定倍数,从而生成所述第N解码特征图。例如,如图3所示的实施例,所述学习装置使所述第5反卷积层(16),从128h,20×8尺寸的所述第5编码特征图(150)生成64ch,40×8尺寸的第5解码特征图(160)。
通常,反卷积层是减少信道数,增加横向与纵向的尺寸,而本发明提供的所述第N反卷积层是减少所述第N编码特征图的信道,增加所述横向尺寸至规定倍数(例如2倍),而所述特征图的所述纵向尺寸则可不变。其理由如上所述,本发明只要能在所述栅格的所述列中识别出哪一个位置的计分最高即可。即,在本发明中,与现有分割不同,无需确认所有像素,也无需增加所述纵向尺寸。本发明提出的方法具有输入和输出的横向分辨率相同的效果,不存在现有横向分辨率降低的问题。纵向分辨率也高纵然更好,但也会随之产生运算量大的问题。因此,在本发明中,为了通过少量的运算量检测所述近距离障碍物,提出了仅增加所述横向分辨率的方法。为此,如上所述,所述第N反卷积层减少所述第N编码特征图的所述信道数,仅将所述横向尺寸增加至规定倍数(例如2倍),而所述纵向尺寸则不作改变。
进一步,参考如图3所示的解码过程,所述学习装置,使所述第4反卷积层(17),从64ch,40×8尺寸的所述第5解码特征图(160)生成32ch,80×16尺寸的所述第4解码特征图(170);使所述第3反卷积层(18),从32ch,80×16尺寸的所述第4解码特征图(170)生成16ch,160×32尺寸的所述第3解码特征图(180);使所述第2反卷积层(19),从16ch,160×32尺寸的所述第3解码特征图(180)生成8ch,320×64尺寸的所述第2解码特征图(190);使所述第1反卷积层(20),从8ch,320×64尺寸的所述第2解码特征图(190)生成4ch,640×128尺寸的所述第1解码特征图(200)。
如此,所述反卷积层将输入的特征图的信道数减少,将所述横向与纵向尺寸增加,以执行生成解码特征图的功能。如,所述第4反卷积层(17)至所述第1反卷积层(20),将所述信道数减少至1/2,将所述输入的特征图的所述横向与纵向尺寸各自增加至2倍,以此生成所述解码特征图。
另一方面,所述卷积层可执行卷积、最大池化(max pooling)、ReLU中至少一种运算,所述反卷积层可执行反卷积和ReLU中至少一种运算。
进一步,如图2所示,步骤S02中,所述学习装置可利用具备Ci×Wi×Hi尺寸的所述解码特征图,生成具备CiHi×Wi×1尺寸的第1修正后的特征图,此时,所述Ci是所述信道数,所述Wi是所述列尺寸,所述Hi是所述解码特征图的所述行尺寸。
即,在本发明提供的修正(reshaping)过程中,对于所述至少一个解码特征图,将所述第1方向划分为所述第1间隔,将所述第2方向划分为第2间隔,生成具备多个列和多个行的所述栅格的各单元时,所述学习装置按所述列分别将各所述行的各特征向所述信道方向进行级联(concatenating),从而生成至少一个修正后的特征图。
图4是本发明提供的所述障碍物检测中用到的所述修正过程的示意图。
如图4所示,在所述修正过程中,如用附图符号410表示的特征图所示,解码特征图被分成行后,如用附图符号420表示的特征图所示,按所述列分别将各所述行的各个所述特征向所述信道方向进行级联。从而,(C×W×H)尺寸的特征图转换为((C*H)×W×1)尺寸的特征图。
在图4所示的示例中,所述用附图符号410表示的特征图中,用粗线画出的各个四方形表示的是对应于所述解码特征图第1列的各行的各个特征。假如所述用附图符号410表示的特征图具有8个行,所述用附图符号420表示的特征图将具备增加至所述信道数8倍的信道数和所述用附图符号410表示的特征图高度的1/8的高度。
在图3所示的示例中,64ch,40×8尺寸的所述第5解码特征图(160)通过第1修正过程(reshape 5-1),转换为64*8ch,40×1尺寸的所述第1修正后的特征图(161);32ch,80×16尺寸的所述第4解码特征图(170)通过第1修正过程(reshape 4-1),转换为32*16ch,80×1尺寸的所述第1修正后的特征图(171);16ch,160×32尺寸的所述第3解码特征图(180)通过第1修正过程(reshape 3-1),转换为16*32ch,160×1尺寸的所述第1修正后的特征图(181);8ch,320×64尺寸的所述第2解码特征图(190)通过第1修正过程(reshape 2-1),转换为8*64ch,320×1尺寸的所述第1修正后的特征图(191);4ch,640×128尺寸的所述第1解码特征图(200)通过第1修正过程(reshape 1-1),转换为4*128ch,640×1尺寸的所述第1修正后的特征图(201)。
另外,在图3中,虽然说明了对所有解码特征图执行所述第1修正过程的情况,但无需对所有解码特征图执行修正过程,仅对部分所述解码特征图执行修正过程也可。
之后,在步骤S03中,可执行将具备CiHi×Wi×1尺寸的所述第1修正后的特征图转换为尺寸的所述第1修正后的特征图的所述卷积运算。在此,所述WI是所述训练图像的列尺寸,所述Wi是所述解码特征图的列尺寸。虽然此卷积运算是1×1卷积,其横向、纵向只包括1格,却是以贯穿所有信道的所述栅格内单元为操作数(operand)而进行的运算,是在每个第1修正后的特征图的Nc个各列中,识别出所述近距离障碍物下端线各自位于何处的过程,而所述Nc是将所述输入图像的所述第2方向分割为规定尺寸的个数。因为,通过所述第1修正过程,所述解码特征图的所有所述列方向的信息,已经被统合到能够同时运算的所述信道,因此,可通过所述卷积运算,确认所有所述信道的信息,按各列分别识别所述近距离障碍物的所述下端线各自位于何处。
当然,如所述第5解码特征图(160)的示例所示,没有修正过程而进行8×1卷积运算时,也可以同时进行所述第1修正运算和所述1×1卷积运算。即,假设特定的特征图的高为N,则可使用N×1卷积。但是,通常在硬件上,所述1×1卷积运算是可以快速执行的,但并不常用的8×1内核或N×1内核的计算速度则明显缓慢,因此,将所述修正过程的运算和所述1×1卷积运算分开,效率更高。
如所述1×1卷积运算的结果所示,假设所述输入的特征图的所述列尺寸为Wi,所述原图像的所述列尺寸为WI,则所述输入特征图将被转换为具备尺寸的信道。
在图3所示的示例中,64*8ch,40×1尺寸的所述第5解码特征图的第1修正后的特征图(161),通过所述1×1卷积运算转换为Nc*16ch,40×1尺寸的第1修正后的特征图(162);32*16ch,80×1尺寸的所述第4解码特征图的第1修正后的特征图(171),通过所述1×1卷积运算转换为Nc*8ch,80×1尺寸的第1修正后的特征图(172);16*32ch,160×1尺寸的所述第3解码特征图的第1修正后的特征图(181),通过所述1×1卷积运算转换为Nc*4ch,160×1尺寸的第1修正后的特征图(182);8*64ch,320×1尺寸的所述第2解码特征图的第1修正后的特征图(191),通过1×1卷积运算转换为Nc*2ch,320×1尺寸的第1修正后的特征图(192);4*128ch,640×1尺寸的所述第1解码特征图的第1修正后的特征图(201),通过所述1×1卷积运算转换为Ncch,640×1尺寸的第1修正后的特征图(202)。
再如图2所示,在步骤S04中,尺寸的所述第1修正后的特征图可被修正为具备Nc×WI×1尺寸的第2修正后的特征图。在此,所述Nc个是为了识别各个所述近距离障碍物的各所述下端线位于每个所述列的何处而划分所述输入图像所述第2方向所得到的所述行的个数。
在步骤S05中,对每个所述第2修正后的特征图的所述列,进行将对应于所述Nc个信道的各个值归一化(normalizing)的SoftMax(归一化指数)运算,在步骤S06中,按照所述第2方向对每个所述列从对应于其的最下端单元开始进行确认,以此生成所述输入图像内各所述列的所述分割结果,其在推定存在所述近距离障碍物的各所述特定行上,表示各所述近距离障碍物各所述下端线的各推定位置。
在所述第2修正过程(S04)中,对于所述输出的尺寸的特征图,可以不改变数据而只改变形状,而转换成Nc×WI×1尺寸的形态。并且,所述SoftMax过程(S05)中,在每个列对所述Nc个信道的所述值进行从0至1的值的归一化,并基于所述归一化的值,对各所述列找出对应于其的具有最大值的各特定信道,进而推定各所述近距离障碍物各所述下端线在各所述列上的位置。
从而,通过所述1×1卷积运算(S03)和所述修正运算(S04)可生成如下特征图,即,在各所述列的所述行上的各所述近距离障碍物各所述下端线的各所述推定位置,各自具有各自相对应的最大值,而在各所述列的所述行上的剩余位置、即剩余行具有更小的值。所述SoftMax运算(S05)用于从所述输入图像的各个列找出所述Nc个值中最大值后输出其位置,从而找出所述近距离障碍物的各个所述位置。进而,基于所述归一化的值,如果按所述列分别推定出具有所述信道的值中最大值的各特定信道上存在各所述近距离障碍物各下端线,那么将生成如下的所述分割结果,即所述Nc行中,在各所述列的所述行中各所述近距离障碍物各所述下端线的各推定位置具有对应的最大值,而在各所述列的所述行中剩余位置则具有更小的值。
想要理解此过程,需要理解最终结果(所述SoftMax运算的结果)的形态。所述CNN的所述学习方法有望得到的输出,是从所述输入图像中识别出各所述列的所述Nc个行中具备最大值的各行而作为所述近距离障碍物的位置的。为此,按列分别需要Nc个计分。如果所述输入图像中的所述列的个数(即,所述输入图像的所述宽)为640个(即,640个像素或640个列),那么需要产生Nc(信道)×640(宽)×1(高)尺寸的计分图(Score Map)而作为输出。
作为所述输出生成Nc(信道)×640(宽)×1(高)尺寸的所述计分图的所述过程如下。例如,通过所述第1修正(reshape 5-1)过程,生成512(64*8)(信道)×40(宽)×1(高)尺寸的所述第5解码特征图的所述第1修正后的特征图(161)时,该第1修正后的特征图的列仅为所述输入图像的列(640个)的1/16,即40个。因此,这种情况下,仅用16次的所述1×1卷积运算而输出16次Nc个计分就可解决。因此,应设计成在图3中自CONV_OUT5产生的所述输出(162)的尺寸为(Nc*16)(信道)×40(宽)×1(高)。而为了将(Nc*16)(信道)×40(宽)×1(高)尺寸的所述计分图转换为Nc(信道)×640(宽)×1(高)尺寸的所述计分图,需要所述第2修正过程(reshape 5-2)。
如图3所示的示例,通过所述1×1卷积的CONV_OUT5,将Nc*16ch,40×1尺寸的所述特征图(162)转换为Ncch,640×1尺寸的所述特征图(163),通过所述SoftMax运算生成如下的输出(164),即在640个列各自的所述Nc个行中,按各所述列,所述行的各所述近距离障碍物各所述下端线的每个所述推定位置具有相对应的最大值,并按各所述列,所述行的所述剩余位置具有更小的值。另外,Nc*8ch,80×1尺寸的所述特征图(172)、Nc*4ch,160×1尺寸的所述特征图(182)、Nc*2ch,320×1尺寸的所述特征图(192)、Ncch,640×1尺寸的所述特征图(202),分别通过CONV_OUT4至CONV_OUT1的所述1×1卷积运算,分别转换为Ncch,640×1尺寸的所述特征图(173,183,193,203),并通过所述SoftMax运算生成如下的各输出(174,184,194,204),即在640个每个列的所述Nc个行中,在各所述近距离障碍物各所述下端线的所述推定位置具有其所在的所述列相对应的最大值,并在所述列的所述行中的剩余位置具有更小的值。
即,所述学习装置,可从所述至少一个解码特征图生成表示各所述推定位置的所述分割结果,并对每个所述列从对应于其的最下端单元开始按所述第2方向(即,渐升)进行确认,以此推定各所述近距离障碍物各所述下端线的各所述推定位置。所述学习装置,在所述修正后的特征图的、按所述列分别经过了级联后的信道上,对各所述近距离障碍物各下端线的各所述推定位置进行识别,从而生成所述分割结果。
进一步参考图2,在步骤S07中,参照所述分割结果和对应于其的至少一个GT图像,可生成至少一个损失,而在步骤S08中,通过反向传播(backpropagation)所述损失,使所述CNN的参数被学习或最优化。
此时,所述GT图像,是当对各所述列从对应于其的最下端单元按所述第2方向(即,渐升)进行确认后时,显示所述近距离障碍物各自实际所处的各GT位置所对应的各列的图像。图5是本发明提供的所述障碍物检测用所述输入图像及对应于其的GT图像的示例图。如图5所示,在所述输入图像中,按各列(将640个像素以所述第1间隔为单位划分而生成的各列或所述640个各像素)分别从所述下端开始向上端进行确认时,指定近距离障碍物为所述近距离障碍物,从而可生成所述GT图像。所述GT图像包括表示所述输入图像中各所述列上,各所述近距离障碍物各所述下端线在所述Nc个行中实际所处的行的信息,所述分割结果包括所述输入图像中各所述列上,各所述近距离障碍物各所述下端线在所述Nc个行中所处位置的推定信息,因此,修正了所述解码特征图而生成的所有所述修正后的特征图(164,174,184,194,204)均具备所述Nc个信道。
所述步骤S07中的所述损失可以是交叉熵损失(Cross-entropy loss)。为了学习或最优化所述CNN的所述参数而反响传播所述损失。图3所示的示例中,由于介由5个解码特征图生成输出,因而产生5个损失,但是也可以参照来自所述5个解码特征图中至少一部分的所述损失和所述输出执行反向传播。尤其是参照从所述第1卷积层(20)输出的所述第1解码特征图而生成的所述损失,虽然利用它是最优选,但并不是必须的。
经过上述过程,在对所述CNN的所述参数进行了学习的情况下,利用了具有所述经过学习的参数的所述CNN的测试装置,可以从作为所述输入图像的至少一个测试图像中检测出近距离障碍物。
图6是为了说明本发明提供的所述障碍物检测用所述CNN测试方法而示例性地表示出关于所述输入图像的运算过程的图。如图6所示,与图3的所述学习装置不同,仅生成一个输出即足够,并且利用所述第5解码特征图便可生成所述输出,因此,可以省略所述第4反卷积层至所述第1反卷积层。作为其他例子,包括所述省略的反卷积层中的一部分也无妨。
具体所述过程与图3中说明的内容相似,因此,如下简要说明图6的所述近距离障碍物检测过程。首先,所述测试装置可接收所述测试图像(100),使所述第1至第N卷积层(11至15),自所述测试图像(100)依次各自生成测试用第1编码特征图(110,120,130,140,150)。此外,所述测试装置可以使至少一个反卷积层(16)从所述测试用第N编码特征图(150)生成测试用解码特征图(160)。并且,从所述测试用解码特征图(160),以所述栅格为参照,将按照所述第2方向排列的各所述列所述行的各特征向所述信道方向进行级联,生成测试用修正后的特征图(161)。然后,通过所述1×1卷积运算及追加修正过程,生成变更了信道的测试用特征图(162)和如下的测试用特征图(163),即该测试用特征图(163)的相应信道调整为了Nc个,相应列的所述横轴个数调整为了所述测试图像的所述横轴个数。并且,所述测试用装置在所述测试用修正后的特征图的、按所述列分别经过了级联后的信道上,对各所述近距离障碍物的各所述下端线在各所述列所述行中的所述推定位置进行识别,从而生成测试用分割结果(164),以此检测出所述近距离障碍物。
图7a是所述现有的障碍物检测结果的示意图,图7b和图7c是本发明提供的所述障碍物检测结果的示意图。
图7a显示根据所述现有的检测方法检测到所述近距离障碍物的例子,需要考虑所有像素才能识别出所述像素是否属于所述道路的像素,因此,运算量大是不可避免的。但是,根据图7b及图7c中所示的本发明提供的方法,为了推定每个所述近距离障碍物的各所述下端线的位置(粗黑实线标注),通过从图像的下端到上端确认规定个数(例如Nc个)的所述栅格单元,检测所述近距离障碍物,其结果,可通过较小的运算快速而高分辨率地检测出所述近距离障碍物。
进一步地,所述现有技术由于处理时间的原因,存在所述障碍物检测结果的所述横向分辨率低于所述输入图像的所述分辨率的问题,而在本发明新提出的方法中,所述输入图像和所述输出结果的横向分辨率相同,可解决此问题。
另外,在本发明中,利用多重损失进行学习时使用高分辨率信息,实际测试时,仅从低分辨率特征图即可输出高分辨率结果。从而,可以从所述低分辨率特征图输出高分辨率信息,进而运算量也减少,处理速度也会加快。
图8是本发明提供的至少一个ROI(Region of Interest)的检测过程的流程示意图。
以下,参考图8,参照通过如上所述的所述近距离障碍物检测方法而生成的各所述近距离障碍物的各所述下端线的信息,详细说明用于所述ROI检测的所述方法。
首先,如图8所示,利用参考图2至图7说明的所述障碍物检测方法,从所述输入图像生成至少一个障碍物分割结果(S81)。这与图2的所述步骤S06相同。
具体地,如参考图2至图6进行的说明,当划分所述至少一个所述特定解码特征图而生成了所述栅格各单元后,所述学习装置,参照所述第N解码特征图至所述第1解码特征图中至少一部分的至少一个特征,生成所述障碍物分割结果或辅助其生成,该障碍物分割结果以按所述列分别级联起来的信道值为根据而确定并显示各所述近距离障碍物各最低部分所处的各所述特定行。此时,通过对按所述列分别对应于各所述行的各值进行归一化的SoftMax运算,获得例如将所述各值以1与0之间的值作为结果的所述障碍物分割结果。
并且,参照至少一个GT图像及所述障碍物分割结果,生成至少一个障碍物损失(S82),其中(i)所述GT图像是,按所述列分别从其相应的最下端单元开始向所述第2方向进行确认时,分别显示各所述近距离障碍物的所述下端线实际所处的各GT位置所对应的各列;(ii)所述障碍物分割结果的各所述特定行推定为是在各所述列上的各所述近距离障碍物的各所述下端线。这与图2的所述步骤S07相同。
其次,在各所述特定行为基础而确定的各锚定行(anchoring row)的像素中,按各所述列分别指定在生成各自所述ROI检测用锚框(anchor box)时,作为各自的生成基础的锚(S83)。例如,按各所述列,其各所述锚定行,将从各所述列的各所述特定行开始向所述第2方向分别位于第1间距以内,或从各所述列的各所述特定行开始向所述第2方向相反方向分别位于第2间距以内。并且,RPN(Region Proposal Network)以所述指定的各锚为基础设置至少一个所述锚框(S84),根据各所述锚框,生成至少一个ROI边界框(S85),该边界框是所述锚框中被推定为包含特定客体的概率较高的特定锚框。
即,当要从所述输入图像中检测所述近距离障碍物边界框时,将所述步骤S81中找到的各所述近距离障碍物的各最下面部分确定为所述近距离障碍物各所述下端线,所述RPN仅对所述下端线的周边部分执行运算。
图9a是利用现有技术的RPN的过程的示意图,图9b是利用本发明提供的所述RPN的过程的示意图。
如图9a所示,利用所述现有技术的RPN的所述过程,对所述特征图上的所有点设置各自的锚,各锚各自生成比例尺(scale)或纵横比(aspect ratio)互不相同的多个互不相同的锚框,执行RPN运算。此时,所述所有点可以是像素单位,也可以是特定间隔像素。
与此相比,在图9b所示的利用本发明提供的所述RPN的所述过程,在显示所述近距离障碍物下端部分(911)的图像(910)中,将所述近距离障碍物(911)周边的规定区域(921)(用白色圆标注)设定为锚,而剩余区域的点或像素(922)(黑色圆标注)不被设定为锚。
即,图9b中显示的线(911)通过检测被确定为所述近距离障碍物的下端线,从所述已确定的下端线开始向所述第2方向位于规定范围内的点(921),可被设定为所述锚,利用多个互不相同的锚框的各比例尺或纵横比对各所述锚设置所述多个互不相同的锚框,从而执行所述RPN运算。
此时,所述各列,在所述第1方向可包含至少一个像素,各所述行,在所述第2方向可包含至少一个像素,因此,所述点或像素(922)可以是所述列方向上的分别按每个列的像素,也可以是分割为Nc个的所述栅格内所述单元中的一个。
如此,根据所述近距离障碍物周边的所述锚,只计算所述锚框,因此,可显著地减少所述RPN的所述运算量。另外,可通过按每个锚增加所述锚框的个数,即增加所述比例尺与所述纵横比的个数,来提高所述客体的检测结果,因此,还具有在减少运算量的同时,增加所述锚框的可组合个数的附加效果。
再次参考图8,参照所述推定的边界框和与其对应的GT图像,生成至少一个边界框损失或至少一个RPN损失,其中,所述GT图像包括所述输入图像中实际包含各所述近距离障碍物的各至少一个边界框(S86),所述边界框损失被反向传播,可学习所述CNN的所述参数(S87)。此时,在所述步骤S87,同时利用所述步骤S82中生成的所述障碍物损失和所述步骤S86中生成的所述边界框损失,对所述CNN的所述参数进行学习。例如,如果已经对有关所述近距离障碍物检测的所述CNN的所述参数进行过学习,那么,将有关所述障碍物损失的至少一个加权值设置成较小值,将所述边界框损失的至少一个加权值设置成较大值,从而执行所述反向传播。
如图8及图9b所示的所述学习方法,也可直接适用于所述测试方法。
即,从至少一个测试图像中基于所述近距离障碍物所述下端线来检测所述ROI的所述CNN的测试方法,可包括:步骤(a),所述学习装置执行:过程(i),所述学习装置,作为训练图像获得所述输入图像,使所述第1卷积层至所述第N卷积层,依次从一个所述训练图像各自生成学习用第1编码特征图至学习用第N编码特征图;过程(ii),使所述第N反卷积层至所述第1反卷积层,从所述学习用第N编码特征图依次生成学习用第N解码特征图至学习用第1解码特征图;过程(iii),将所述学习用第N解码特征图至所述学习用第1解码特征图中至少一个特定解码特征图,按其行方向的第1方向和其列方向的第2方向进行划分,生成具备多个列和多个行的栅格各单元后,基于所述学习用第N解码特征图至所述学习用第1解码特征图中至少一部分特征图的至少一个特征,生成至少一个学习用障碍物分割结果,其按所述列分别显示推定为存在有各至少一个学习用近距离障碍物各下端线的各学习用特定行;过程(iv),从根据各所述学习用特定行而推定出的学习用锚定行各像素中,确定按各所述列的学习用锚,以其作为各自的基础而生成用于各所述学习用ROI检测的学习用锚框;过程(v),使所述RPN,(v-1)参照各所述学习用锚框,生成至少一个ROI边界框,其中,所述学习用锚框中的至少一个是以各所述学习用锚为基础而推定出的,(v-2)参照所述学习用ROI边界框及其相应的至少一个第1GT图像,生成至少一个第1损失,其中,所述学习用ROI边界框是所述学习用锚框中被推定为包含学习用特定客体的概率较高的特定的学习用锚框,所述第1GT图像显示所述训练图像中实际包含所述学习用特定客体的学习用边界框;以及过程(vi),反向传播所述第1损失,学习所述CNN参数,在学习装置执行了上述过程的情况下,使用被所述学习装置学习过的所述CNN所述参数的测试装置,作为测试图像获得所述输入图像;步骤(b),所述测试装置,使所述第1卷积层至所述第N卷积层,依次从所述测试图像各自生成测试用第1编码特征图至测试用第N编码特征图;步骤(c),所述测试装置,使所述第N反卷积层至所述第1反卷积层,从所述测试用第N编码特征图依次生成测试用第N解码特征图至测试用第1解码特征图;步骤(d),将所述测试用第N解码特征图至所述测试用第1解码特征图中至少一个特定测试用解码特征图,按其行方向的所述第1方向和其列方向的所述第2方向进行划分,生成具备多个列和多个行的栅格各单元后,所述测试装置,基于所述测试用第N解码特征图至所述测试用第1解码特征图中至少一部分特征图的至少一个特征,生成至少一个测试用障碍物分割结果,其按所述列分别显示推定为存在有各所述测试用近距离障碍物的各所述下端线的各特定行;步骤(e),所述测试装置,在根据各所述测试用特定行而推定出的测试用各锚定行的像素中,确定按各所述列的各测试用锚,以其作为各自的基础而生成用于各自的测试用ROI检测的测试用锚框;以及步骤(f),所述测试装置,使所述RPN,参照各所述测试用锚框,生成至少一个测试用ROI边界框,其中,所述测试用锚框中的至少一个是以各所述测试用锚为基础而推定出的。
如此,本发明提供的用于检测所述近距离障碍物的所述新方法,可适用于所述近距离障碍物所述下端线的检测,且仅对所述客体所述下端线周边区域执行所述RPN运算,具有可大幅减少所述ROI检测运算量的效果。
上述技术领域的普通技术人员能够理解,例如所述训练图像,所述测试图像及所述输入图像等图像数据的发送和接收,可通过所述学习装置及所述测试装置的通信部实现,用于执行特征图和运算的数据可借由所述学习装置及所述测试装置的处理器(和/或存储器)保存/维持,而卷积运算、反卷积运算及损失值运算,可由所述学习装置及所述测试装置的所述处理器执行,但本发明不限于此。
以上说明的本发明提供的实施例,是以通过多种计算机构成要素执行的程序指令的形式体现,从而可载入计算机可读存储介质中。所述计算机可读存储介质可单独或组合包含程序指令、数据文件、数据结构等。记录在所述计算机可读存储介质上的程序指令,可以是为了本发明特别设计和构成的,或者也可以是计算机软件领域的从业者公知使用的。计算机可读存储介质的示例包括硬盘、软盘及磁带等磁媒体,CD-ROM、DVD等光盘,光磁盘(floptical disk)等磁-光介质(magneto-optical media),以及ROM、RAM、闪存存储器等为了储存程序指令并执行而特别构成的硬件设备。程序指令的示例不仅包括由编译器生成的机器语言代码,还包括可通过解释器由计算机执行的高级语言代码。为执行本发明提供的处理,上述硬件设备可由一个或多个软件模块来运行,反之亦然。
以上用具体构成要素等特定事项和限定的实施例及附图来说明了本发明,但这只是为了帮助对本发明更全面的理解而提供的,本发明并不仅限于上述实施例,在本发明所属的技术领域中拥有一般知识的人,可以基于这些描述进行多样的修改和变换。
因此,本发明的思想不应局限于所述说明的实施例而定,不仅是后述的权利要求范围,与本权利要求范围均等或等价的任何变换都属于本发明的思想范筹。

Claims (20)

1.一种从至少一个输入图像中基于至少一个近距离障碍物的至少一个下端线检测至少一个关注区域ROI的卷积神经网络CNN参数的学习方法,其特征在于,包括:
步骤(a),学习装置,使第1卷积层至第N卷积层,依次从所述输入图像各自生成第1编码特征图至第N编码特征图;
步骤(b),所述学习装置,使第N反卷积层至第1反卷积层,从所述第N编码特征图依次生成第N解码特征图至第1解码特征图;
步骤(c),将所述第N解码特征图至第1解码特征图中至少一个特定解码特征图,按其行方向的第1方向和其列方向的第2方向进行划分,从而生成具备多个列和多个行的栅格各单元后,所述学习装置,参照所述第N解码特征图至所述第1解码特征图中至少一部分特征图的至少一个特征,生成至少一个障碍物分割结果,其按所述列分别显示推定为存在有各所述近距离障碍物各所述下端线的各特定行;
步骤(d),所述学习装置,从基于各所述特定行而推定出的各锚定行的像素中,按各所述列分别确定在生成各ROI检测用锚框时、作为各自的基础的锚;
步骤(e),所述学习装置,使区域建议网络RPN,(i)参照各所述锚框,生成至少一个ROI边界框,其中,所述锚框中至少一个是以各所述锚为基础而推定出的,(ii)参照所述ROI边界框及其相应的至少一个第1地面实况图像、即第1GT 图像,生成至少一个第1损失,其中,所述ROI边界框是所述锚框中推定为包含特定客体的概率较高的特定锚框,所述第1GT图像显示所述输入图像中实际包含所述特定客体的边界框;以及
步骤(f),所述学习装置,反向传播所述第1损失,学习所述CNN的所述参数,其中,
所述步骤(c)包括:
步骤(c1),所述栅格各单元是将所述至少一个解码特征图在所述第1方向按每第1间隔进行划分,并在所述第2方向按每第2间隔进行划分而生成的,所述学习装置,按各所述列,将各所述行各特征分别向信道方向进行级联,从而生成至少一个修正的特征图;以及
步骤(c2),所述学习装置,参照所述修正的特征图,在按所述列分别经过级联后的信道上,确认各自的所述近距离障碍物各所述下端线的各推定位置,从而生成所述障碍物分割结果,其按所述列分别显示在所述行中推定为存在有各所述近距离障碍物各所述下端线的行,其中,所述障碍物分割结果是通过归一化指数SoftMax运算而生成的,其按所述列分别将对应于各信道的各值进行归一化。
2.根据权利要求1所述的方法,其特征在于,
所述步骤(c)包括:
步骤(c3),所述学习装置,(i)在至少一个第2GT图像上按各所述列分别显示各所述近距离障碍物各所述下端线所处位置的实际行后,参照各所述实际行的位置,及(ii)所述障碍物分割结果中,按各所述列分别推定为存在有各所述近距离障碍物各所述下端线的所述特定行的各位置,生成至少一个第2损失;
在所述步骤(f),所述学习装置反向传播所述第1损失及所述第2损失,学习所述CNN的所述参数。
3.根据权利要求1所述的方法,其特征在于,
在所述步骤(e),在所述锚框中,参照至少一个(i)比例尺及(ii)纵横比中的至少一个,设置所述锚各自的多个互不相同的锚框。
4.根据权利要求1所述的方法,其特征在于,
各所述列在所述第1方向包括一个以上像素;
各所述行在所述第2方向包括一个以上像素。
5.一种从至少一个输入图像中基于至少一个近距离障碍物的至少一个下端线检测至少一个关注区域ROI的卷积神经网络CNN参数的学习方法,其特征在于,包括:
步骤(a),学习装置,使第1卷积层至第N卷积层,依次从所述输入图像各自生成第1编码特征图至第N编码特征图;
步骤(b),所述学习装置,使第N反卷积层至第1反卷积层,从所述第N编码特征图依次生成第N解码特征图至第1解码特征图;
步骤(c),将所述第N解码特征图至第1解码特征图中至少一个特定解码特征图,按其行方向的第1方向和其列方向的第2方向进行划分,从而生成具备多个列和多个行的栅格各单元后,所述学习装置,参照所述第N解码特征图至所述第1解码特征图中至少一部分特征图的至少一个特征,生成至少一个障碍物分割结果,其按所述列分别显示推定为存在有各所述近距离障碍物各所述下端线的各特定行;
步骤(d),所述学习装置,从基于各所述特定行而推定出的各锚定行的像素中,按各所述列分别确定在生成各ROI检测用锚框时、作为各自的基础的锚;
步骤(e),所述学习装置,使区域建议网络RPN,(i)参照各所述锚框,生成至少一个ROI边界框,其中,所述锚框中至少一个是以各所述锚为基础而推定出的,(ii)参照所述ROI边界框及其相应的至少一个第1地面实况图像、即第1GT 图像,生成至少一个第1损失,其中,所述ROI边界框是所述锚框中推定为包含特定客体的概率较高的特定锚框,所述第1GT图像显示所述输入图像中实际包含所述特定客体的边界框;以及
步骤(f),所述学习装置,反向传播所述第1损失,学习所述CNN的所述参数,其中,
在所述输入图像划分为Nc个行的情况下,所述第1GT图像,按各所述列分别包含有各所述近距离障碍物各所述下端线在所述行中实际所处的行的信息,
在所述输入图像划分为所述Nc个行的情况下,所述障碍物的分割结果,按所述列分别显示在所述行中推定为存在有各所述近距离障碍物各所述下端线的行。
6.根据权利要求5所述的方法,其特征在于,
在所述步骤(c)中,推定出各所述列上存在有所述近距离障碍物各所述下端线后,生成所述障碍物分割结果值,其在所述Nc个行中的各所述列上,在位于各所述特定行的各所述下端线的各推定位置,具有相应的最大值,而在位于剩余行中的位置,具有较小的值。
7.一种从至少一个测试图像中基于至少一个测试用近距离障碍物的至少一个下端线检测至少一个测试用ROI的CNN的测试方法,其特征在于,包括:
步骤(a),学习装置执行以下过程:过程(1),使第1卷积层至第N卷积层,依次从一个训练图像各自生成学习用第1编码特征图至学习用第N编码特征图;过程(2),使第N反卷积层至第1反卷积层,从所述学习用第N编码特征图依次生成学习用第N解码特征图至学习用第1解码特征图;过程(3),将所述学习用第N解码特征图至所述学习用第1解码特征图中至少一个特定学习用解码特征图,按其行方向的第1方向和其列方向的第2方向进行划分,从而生成具备多个列和多个行的栅格各单元后,参照所述学习用第N解码特征图至所述学习用第1解码特征图中至少一部分特征图的至少一个特征,生成至少一个学习用障碍物分割结果,其按所述列分别显示推定为存在有至少一个各学习用近距离障碍物各下端线的各学习用特定行;过程(4),从基于各所述学习用特定行而推定出的学习用各锚定行的像素中,确定按各所述列的学习用锚,以其作为各自的基础而生成用于各学习用ROI检测的学习用锚框;过程(5),使RPN,(i)参照各所述学习用锚框,生成至少一个学习用ROI边界框,其中,所述学习用锚框中至少一个是以各所述学习用锚为基础而推定出的,(ii)参照所述学习用ROI边界框及其相应的至少一个第1GT图像,生成至少一个第1损失,其中,所述学习用ROI边界框是所述学习用锚框中推定为包含学习用特定客体的概率较高的特定学习用锚框,所述第1GT图像显示所述训练图像中实际包含所述学习用特定客体的学习用边界框;以及过程(6),反向传播所述第1损失,学习所述CNN参数,在学习装置执行了以上步骤的情况下,测试装置获得所述测试图像;
步骤(b),所述测试装置,使所述第1卷积层至所述第N卷积层,依次从所述测试图像各自生成测试用第1编码特征图至测试用第N编码特征图;
步骤(c),所述测试装置,使第N反卷积层至所述第1反卷积层,从所述测试用第N编码特征图依次生成测试用第N解码特征图至测试用第1解码特征图;
步骤(d),将所述测试用第N解码特征图至所述测试用第1解码特征图中的至少一个特定测试用解码特征图,按其行方向的第1方向和其列方向的第2方向进行划分,从而生成具备多个列和多个行的栅格各单元后,所述测试装置,参照所述测试用第N解码特征图至所述测试用第1解码特征图中至少一部分特征图的至少一个特征,生成至少一个测试用障碍物分割结果,其按所述列分别显示推定为存在有各所述测试用近距离障碍物各所述下端线的各特定行;
步骤(e),所述测试装置,在基于所述特定行而推定出的测试用各锚定行的像素中,确定按各所述列的测试用锚,以其作为各自的基础而生成用于各测试用ROI检测的测试用锚框;以及
步骤(f),所述测试装置,使所述RPN,参照各所述测试用锚框,生成至少一个测试用ROI边界框,其中,所述测试用锚框中至少一个是以各所述测试用锚为基础而推定出的,其中,
所述步骤(d)包括:
步骤(d1),所述栅格各单元是将所述测试用第N解码特征图至所述测试用第1解码特征图中的至少一个特定测试用解码特征图,在所述第1方向按每第1间隔进行划分,并在所述第2方向按每第2间隔进行划分而生成的,所述测试装置,按各所述列,将各所述行各测试用特征分别向信道方向进行级联,从而生成至少一个修正的测试用特征图;以及
步骤(d2),所述测试装置,参照所述修正的测试用特征图,在按所述列分别经过级联后的信道上,确认各自的所述测试用近距离障碍物各所述下端线的各推定位置,从而生成所述测试用障碍物分割结果,其按所述列分别显示在所述行中推定为存在有各所述近距离障碍物各所述下端线的行,其中,所述测试用障碍物分割结果是通过SoftMax运算生成的,其按所述列分别将对应于各信道的各值进行归一化。
8.根据权利要求7所述的方法,其特征在于,
在所述步骤(f),在所述测试用锚框中,参照至少一个(i)比例尺及(ii)纵横比中的至少一个,设置所述测试用锚各自的多个互不相同的锚框。
9.根据权利要求7所述的方法,其特征在于,
各所述列在所述第1方向包括一个以上像素;
各所述行在所述第2方向包括一个以上像素。
10.一种从至少一个测试图像中基于至少一个测试用近距离障碍物的至少一个下端线检测至少一个测试用ROI的CNN的测试方法,其特征在于,包括:
步骤(a),学习装置执行以下过程:过程(1),使第1卷积层至第N卷积层,依次从一个训练图像各自生成学习用第1编码特征图至学习用第N编码特征图;过程(2),使第N反卷积层至第1反卷积层,从所述学习用第N编码特征图依次生成学习用第N解码特征图至学习用第1解码特征图;过程(3),将所述学习用第N解码特征图至所述学习用第1解码特征图中至少一个特定学习用解码特征图,按其行方向的第1方向和其列方向的第2方向进行划分,从而生成具备多个列和多个行的栅格各单元后,参照所述学习用第N解码特征图至所述学习用第1解码特征图中至少一部分特征图的至少一个特征,生成至少一个学习用障碍物分割结果,其按所述列分别显示推定为存在有至少一个各学习用近距离障碍物各下端线的各学习用特定行;过程(4),从基于各所述学习用特定行而推定出的学习用各锚定行的像素中,确定按各所述列的学习用锚,以其作为各自的基础而生成用于各学习用ROI检测的学习用锚框;过程(5),使RPN,(i)参照各所述学习用锚框,生成至少一个学习用ROI边界框,其中,所述学习用锚框中至少一个是以各所述学习用锚为基础而推定出的,(ii)参照所述学习用ROI边界框及其相应的至少一个第1GT图像,生成至少一个第1损失,其中,所述学习用ROI边界框是所述学习用锚框中推定为包含学习用特定客体的概率较高的特定学习用锚框,所述第1GT图像显示所述训练图像中实际包含所述学习用特定客体的学习用边界框;以及过程(6),反向传播所述第1损失,学习所述CNN参数,在学习装置执行了以上步骤的情况下,测试装置获得所述测试图像;
步骤(b),所述测试装置,使所述第1卷积层至所述第N卷积层,依次从所述测试图像各自生成测试用第1编码特征图至测试用第N编码特征图;
步骤(c),所述测试装置,使第N反卷积层至所述第1反卷积层,从所述测试用第N编码特征图依次生成测试用第N解码特征图至测试用第1解码特征图;
步骤(d),将所述测试用第N解码特征图至所述测试用第1解码特征图中的至少一个特定测试用解码特征图,按其行方向的第1方向和其列方向的第2方向进行划分,从而生成具备多个列和多个行的栅格各单元后,所述测试装置,参照所述测试用第N解码特征图至所述测试用第1解码特征图中至少一部分特征图的至少一个特征,生成至少一个测试用障碍物分割结果,其按所述列分别显示推定为存在有各所述测试用近距离障碍物各所述下端线的各特定行;
步骤(e),所述测试装置,在基于所述特定行而推定出的测试用各锚定行的像素中,确定按各所述列的测试用锚,以其作为各自的基础而生成用于各测试用ROI检测的测试用锚框;以及
步骤(f),所述测试装置,使所述RPN,参照各所述测试用锚框,生成至少一个测试用ROI边界框,其中,所述测试用锚框中至少一个是以各所述测试用锚为基础而推定出的,其中,
在所述训练图像划分为Nc个行的情况下,所述第1GT图像,按所述列分别包含有各所述学习用近距离障碍物各所述下端线在所述行中实际所处的行的信息,在所述训练图像划分为所述Nc个行的情况下,所述学习用障碍物分割结果,按所述列分别显示在所述行中推定为存在有各所述学习用近距离障碍物各所述下端线的行;
在所述步骤(d),所述测试图像划分为Nc个行的情况的下,推定各所述列上存在有各所述测试用近距离障碍物各所述下端线后,生成所述测试用障碍物分割结果值,其在所述Nc个行中,在位于各测试用特定行的各所述下端线各推定位置,具有各所述列相应的最大值,而在位于剩余行中的位置,具有较小的值。
11. 一种从至少一个输入图像中基于至少一个近距离障碍物至少一个下端线检测至少一个ROI的CNN参数的学习装置,其特征在于,包括:
通讯部,用于获取所述输入图像;以及
处理器,用于执行以下过程:过程(I),使第1卷积层至第N卷积层,依次从一个所述输入图像各自生成第1编码特征图至第N编码特征图;过程(II),使第N反卷积层至第1反卷积层,从所述第N编码特征图依次生成第N解码特征图至第1解码特征图;过程(III),将所述第N解码特征图至所述第1解码特征图中至少一个特定解码特征图,按其行方向的第1方向和其列方向的第2方向进行划分,从而生成具备多个列和多个行的栅格各单元后,参照所述第N解码特征图至所述第1解码特征图中至少一部分特征图的至少一个特征,生成至少一个障碍物分割结果,其按所述列分别显示推定为存在有各所述近距离障碍物各所述下端线的各特定行;过程(IV),从基于各所述特定行而推定出的各锚定行的像素中,按各所述列分别确定在生成各ROI检测用锚框时、作为各自的基础的锚;过程(V),使RPN,(i)参照各所述锚框,生成至少一个ROI边界框,其中,所述锚框中至少一个是以各所述锚为基础而推定出的,(ii)参照所述ROI边界框及其相应的至少一个第1GT图像,生成至少一个第1损失,其中,所述ROI边界框是所述锚框中推定为包含特定客体的概率较高的特定锚框,所述第1GT图像显示所述输入图像中实际包含所述特定客体的边界框;以及过程(VI),反向传播所述第1损失,学习所述CNN所述参数,其中,
所述过程(III)包括:
过程(III-1),所述栅格各单元是将所述至少一个解码特征图在所述第1方向按每第1间隔进行划分,并在所述第2方向按每第2间隔进行划分而生成的,按各所述列,将各所述行各特征分别向信道方向进行级联,从而生成至少一个修正的特征图;以及
过程(III-2),参照所述修正的特征图,在按所述列分别经过级联后的信道上,确认各自的所述近距离障碍物各所述下端线的各推定位置,从而生成所述障碍物分割结果,其按所述列分别显示在所述行中推定为存在有各所述近距离障碍物各所述下端线的行,其中,所述障碍物分割结果是通过SoftMax运算而生成的,其按所述列分别将对应于各信道的各值进行归一化。
12.根据权利要求11所述的学习装置,其特征在于,
所述过程(III)包括:
过程(III-3),(i)在至少一个第2GT图像按各所述列分别显示各所述近距离障碍物各所述下端线所处位置的实际行后,参照各所述实际行的位置,及(ii)所述障碍物分割结果中按各所述列分别推定为存在有各所述近距离障碍物各所述下端线的所述特定行的各位置,生成至少一个第2损失;
在所述过程(VI),所述处理器反向传播所述第1损失及所述第2损失,学习所述CNN的所述参数。
13.根据权利要求11所述的学习装置,其特征在于,
在所述过程(V),在所述锚框中,参照至少一个(i)比例尺及(ii)纵横比中的至少一个,设置所述锚各自的多个互不相同的锚框。
14.根据权利要求11所述的学习装置,其特征在于,
各所述列在所述第1方向包括一个以上像素;
各所述行在所述第2方向包括一个以上像素。
15. 一种从至少一个输入图像中基于至少一个近距离障碍物至少一个下端线检测至少一个ROI的CNN参数的学习装置,其特征在于,包括:
通讯部,用于获取所述输入图像;以及
处理器,用于执行以下过程:过程(I),使第1卷积层至第N卷积层,依次从一个所述输入图像各自生成第1编码特征图至第N编码特征图;过程(II),使第N反卷积层至第1反卷积层,从所述第N编码特征图依次生成第N解码特征图至第1解码特征图;过程(III),将所述第N解码特征图至所述第1解码特征图中至少一个特定解码特征图,按其行方向的第1方向和其列方向的第2方向进行划分,从而生成具备多个列和多个行的栅格各单元后,参照所述第N解码特征图至所述第1解码特征图中至少一部分特征图的至少一个特征,生成至少一个障碍物分割结果,其按所述列分别显示推定为存在有各所述近距离障碍物各所述下端线的各特定行;过程(IV),从基于各所述特定行而推定出的各锚定行的像素中,按各所述列分别确定在生成各ROI检测用锚框时、作为各自的基础的锚;过程(V),使RPN,(i)参照各所述锚框,生成至少一个ROI边界框,其中,所述锚框中至少一个是以各所述锚为基础而推定出的,(ii)参照所述ROI边界框及其相应的至少一个第1GT图像,生成至少一个第1损失,其中,所述ROI边界框是所述锚框中推定为包含特定客体的概率较高的特定锚框,所述第1GT图像显示所述输入图像中实际包含所述特定客体的边界框;以及过程(VI),反向传播所述第1损失,学习所述CNN所述参数,其中,
所述输入图像划分为Nc个行的情况下,所述第1GT图像按各所述列分别包含有各所述近距离障碍物各所述下端线在所述行中实际所处的行的信息;
在所述输入图像划分为所述Nc个行的情况下,所述障碍物分割结果,按所述列分别显示在所述行中推定为存在有各所述近距离障碍物各所述下端线的行。
16.根据权利要求15所述的学习装置,其特征在于,
在所述过程(III)中,推定出各所述列上存在有所述近距离障碍物各所述下端线后,生成所述障碍物分割结果值,其在所述Nc个行中的各所述列上,在位于各所述特定行的各所述下端线的各推定位置,具有相应的最大值,而在位于剩余行中的位置,具有较小的值。
17.一种从至少一个测试图像中基于至少一个测试用近距离障碍物的至少一个下端线检测至少一个测试用ROI的CNN的测试装置,其特征在于,包括:
通讯部,用于在学习装置执行了以下过程的情况下,获取所述测试图像,所述过程包括:过程(1),使第1卷积层至第N卷积层,依次从一个训练图像各自生成学习用第1编码特征图至学习用第N编码特征图;过程(2),使第N反卷积层至第1反卷积层,从所述学习用第N编码特征图依次生成学习用第N解码特征图至学习用第1解码特征图;过程(3),将所述学习用第N解码特征图至所述学习用第1解码特征图中至少一个特定学习用解码特征图,按其行方向的第1方向和其列方向的第2方向进行划分,从而生成具备多个列和多个行的栅格各单元后时,参照所述学习用第N解码特征图至所述学习用第1解码特征图中至少一部分特征图的至少一个特征,生成至少一个学习用障碍物分割结果,其按所述列分别显示推定为存在有至少一个各学习用近距离障碍物各下端线的各学习用特定行;过程(4),从基于各所述学习用特定行而推定出的学习用各锚定行的像素中,确定按各所述列的学习用锚,以其作为各自的基础而生成用于各学习用ROI检测的学习用锚框;过程(5),使RPN,(i)参照各所述学习用锚框,生成至少一个学习用ROI边界框,其中,所述学习用锚框中至少一个是以各所述学习用锚为基础而推定出的,(ii)参照所述学习用ROI边界框及其相应的至少一个第1GT图像,生成至少一个第1损失,其中,所述学习用ROI边界框是所述学习用锚框中推定为包含学习用特定客体的概率较高的特定学习用锚框,所述第1GT图像显示所述训练图像中实际包含所述学习用特定客体的学习用边界框;以及过程(6),反向传播所述第1损失,学习所述CNN参数;以及
处理器,用于执行以下过程:过程(I),使所述第1卷积层至所述第N卷积层,依次从所述测试图像各自生成测试用第1编码特征图至测试用第N编码特征图;过程(II),使所述第N反卷积层至所述第1反卷积层,从所述测试用第N编码特征图依次生成测试用第N解码特征图至测试用第1解码特征图;过程(III),将所述测试用第N解码特征图至所述测试用第1解码特征图中的至少一个特定测试用解码特征图,按其行方向的第1方向和其列方向的第2方向进行划分,从而生成具备多个列和多个行的栅格各单元后,参照所述测试用第N解码特征图至所述测试用第1解码特征图中至少一部分特征图的至少一个特征,生成至少一个测试用障碍物分割结果,其按所述列分别显示推定为存在有各所述测试用近距离障碍物各所述下端线的各特定行;过程(IV),在基于所述特定行而推定出的测试用各锚定行的像素中,确定按各所述列的测试用锚,以其作为各自的基础而生成用于各测试用ROI检测的测试用锚框;以及过程(V),使所述RPN,参照各所述测试用锚框,生成至少一个测试用ROI边界框,其中,所述测试用锚框中至少一个是以各所述测试用锚为基础而推定出的,其中,
所述过程(III)包括:
过程(III-1),所述栅格各单元是将所述测试用第N解码特征图至所述测试用第1解码特征图中的至少一个特定测试用解码特征图,在所述第1方向按每第1间隔进行划分,在所述第2方向按每第2间隔进行划分而生成的,按各所述列,将各所述行各测试用特征分别向信道方向进行级联,从而生成至少一个修正的测试用特征图;以及
过程(III-2),参照所述修正的测试用特征图,在按所述列分别经过级联后的信道上,确认各所述测试用近距离障碍物各所述下端线的各推定位置,从而生成所述测试用障碍物分割结果,其按所述列分别显示在所述行中推定为存在有各所述近距离障碍物各所述下端线的行,其中,所述测试用障碍物分割结果是通过SoftMax运算生成的,其按所述列分别将对应于各信道的各值进行归一化。
18.根据权利要求17所述的测试装置,其特征在于,
在所述过程(V),在所述测试用锚框中,参照至少一个(i)比例尺及(ii)纵横比中的至少一个,设置所述测试用锚各自的多个互不相同的锚框。
19.根据权利要求17所述的测试装置,其特征在于,
各所述列在所述第1方向包括一个以上像素;
各所述行在所述第2方向包括一个以上像素。
20.一种从至少一个测试图像中基于至少一个测试用近距离障碍物的至少一个下端线检测至少一个测试用ROI的CNN的测试装置,其特征在于,包括:
通讯部,用于在学习装置执行了以下过程的情况下,获取所述测试图像,所述过程包括:过程(1),使第1卷积层至第N卷积层,依次从一个训练图像各自生成学习用第1编码特征图至学习用第N编码特征图;过程(2),使第N反卷积层至第1反卷积层,从所述学习用第N编码特征图依次生成学习用第N解码特征图至学习用第1解码特征图;过程(3),将所述学习用第N解码特征图至所述学习用第1解码特征图中至少一个特定学习用解码特征图,按其行方向的第1方向和其列方向的第2方向进行划分,从而生成具备多个列和多个行的栅格各单元后时,参照所述学习用第N解码特征图至所述学习用第1解码特征图中至少一部分特征图的至少一个特征,生成至少一个学习用障碍物分割结果,其按所述列分别显示推定为存在有至少一个各学习用近距离障碍物各下端线的各学习用特定行;过程(4),从基于各所述学习用特定行而推定出的学习用各锚定行的像素中,确定按各所述列的学习用锚,以其作为各自的基础而生成用于各学习用ROI检测的学习用锚框;过程(5),使RPN,(i)参照各所述学习用锚框,生成至少一个学习用ROI边界框,其中,所述学习用锚框中至少一个是以各所述学习用锚为基础而推定出的,(ii)参照所述学习用ROI边界框及其相应的至少一个第1GT图像,生成至少一个第1损失,其中,所述学习用ROI边界框是所述学习用锚框中推定为包含学习用特定客体的概率较高的特定学习用锚框,所述第1GT图像显示所述训练图像中实际包含所述学习用特定客体的学习用边界框;以及过程(6),反向传播所述第1损失,学习所述CNN参数;以及
处理器,用于执行以下过程:过程(I),使所述第1卷积层至所述第N卷积层,依次从所述测试图像各自生成测试用第1编码特征图至测试用第N编码特征图;过程(II),使所述第N反卷积层至所述第1反卷积层,从所述测试用第N编码特征图依次生成测试用第N解码特征图至测试用第1解码特征图;过程(III),将所述测试用第N解码特征图至所述测试用第1解码特征图中的至少一个特定测试用解码特征图,按其行方向的第1方向和其列方向的第2方向进行划分,从而生成具备多个列和多个行的栅格各单元后,参照所述测试用第N解码特征图至所述测试用第1解码特征图中至少一部分特征图的至少一个特征,生成至少一个测试用障碍物分割结果,其按所述列分别显示推定为存在有各所述测试用近距离障碍物各所述下端线的各特定行;过程(IV),在基于所述特定行而推定出的测试用各锚定行的像素中,确定按各所述列的测试用锚,以其作为各自的基础而生成用于各测试用ROI检测的测试用锚框;以及过程(V),使所述RPN,参照各所述测试用锚框,生成至少一个测试用ROI边界框,其中,所述测试用锚框中至少一个是以各所述测试用锚为基础而推定出的,其中,
在所述训练图像划分为Nc个行的情况下,所述第1GT图像,按所述列分别包含有各所述学习用近距离障碍物各所述下端线在所述行中实际所处的行的信息,在所述训练图像划分为所述Nc个行的情况下,所述学习用障碍物的分割结果,按所述列分别显示在所述行中推定为存在有各所述学习用近距离障碍物各所述下端线的行;
在所述过程(III),所述测试图像划分为Nc个行的情况的下,推定各所述列上存在有各所述测试用近距离障碍物各所述下端线后,生成所述测试用障碍物分割结果值,其在使所述Nc个行中,在位于各测试用特定行的各所述下端线各推定位置,具有各所述列相应的最大值,而在位于剩余行中的位置,具有较小的值。
CN201910852957.1A 2018-10-26 2019-09-10 基于障碍物的下端线检测roi的方法和装置 Active CN111104838B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/171645 2018-10-26
US16/171,645 US10438082B1 (en) 2018-10-26 2018-10-26 Learning method, learning device for detecting ROI on the basis of bottom lines of obstacles and testing method, testing device using the same

Publications (2)

Publication Number Publication Date
CN111104838A CN111104838A (zh) 2020-05-05
CN111104838B true CN111104838B (zh) 2023-08-11

Family

ID=68101980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910852957.1A Active CN111104838B (zh) 2018-10-26 2019-09-10 基于障碍物的下端线检测roi的方法和装置

Country Status (5)

Country Link
US (1) US10438082B1 (zh)
EP (1) EP3644240B1 (zh)
JP (1) JP6908939B2 (zh)
KR (1) KR102280401B1 (zh)
CN (1) CN111104838B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11555701B2 (en) 2019-05-02 2023-01-17 Corelogic Solutions, Llc Use of a convolutional neural network to auto-determine a floor height and floor height elevation of a building
WO2021098554A1 (zh) * 2019-11-20 2021-05-27 Oppo广东移动通信有限公司 一种特征提取方法、装置、设备及存储介质
US11450008B1 (en) * 2020-02-27 2022-09-20 Amazon Technologies, Inc. Segmentation using attention-weighted loss and discriminative feature learning
CN111524165B (zh) * 2020-04-22 2023-08-25 北京百度网讯科技有限公司 目标跟踪方法和装置
KR102270198B1 (ko) 2020-06-08 2021-06-28 주식회사 에스아이에이 앵커-프리 rpn 기반의 물체 검출 방법
CN112528907B (zh) * 2020-12-18 2024-04-09 四川云从天府人工智能科技有限公司 锚框生成及其标注框适配方法、装置及计算机存储介质
CN112906732B (zh) * 2020-12-31 2023-12-15 杭州旷云金智科技有限公司 目标检测方法、装置、电子设备及存储介质
CN112396044B (zh) * 2021-01-21 2021-04-27 国汽智控(北京)科技有限公司 车道线属性信息检测模型训练、车道线属性信息检测方法
CN113841154A (zh) * 2021-03-30 2021-12-24 华为技术有限公司 一种障碍物检测方法及装置
CN113361326B (zh) * 2021-04-30 2022-08-05 国能浙江宁海发电有限公司 一种基于计算机视觉目标检测的智慧电厂管控***
CN114038239B (zh) * 2021-11-08 2022-11-25 青岛海信网络科技股份有限公司 一种车辆碰撞预警方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599939A (zh) * 2016-12-30 2017-04-26 深圳市唯特视科技有限公司 一种基于区域卷积神经网络的实时目标检测方法
US9760806B1 (en) * 2016-05-11 2017-09-12 TCL Research America Inc. Method and system for vision-centric deep-learning-based road situation analysis
CN107169421A (zh) * 2017-04-20 2017-09-15 华南理工大学 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法
CN108073876A (zh) * 2016-11-14 2018-05-25 北京三星通信技术研究有限公司 面部解析设备和面部解析方法
US10007865B1 (en) * 2017-10-16 2018-06-26 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using multi-scale feature maps and testing method and testing device using the same
CN108681718A (zh) * 2018-05-20 2018-10-19 北京工业大学 一种无人机低空目标精准检测识别方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7697786B2 (en) * 2005-03-14 2010-04-13 Sarnoff Corporation Method and apparatus for detecting edges of an object
US9202144B2 (en) * 2013-10-30 2015-12-01 Nec Laboratories America, Inc. Regionlets with shift invariant neural patterns for object detection
JP6265095B2 (ja) * 2014-09-24 2018-01-24 株式会社デンソー 物体検出装置
US9811756B2 (en) * 2015-02-23 2017-11-07 Mitsubishi Electric Research Laboratories, Inc. Method for labeling images of street scenes
US10410096B2 (en) * 2015-07-09 2019-09-10 Qualcomm Incorporated Context-based priors for object detection in images
US10019631B2 (en) * 2015-11-05 2018-07-10 Qualcomm Incorporated Adapting to appearance variations when tracking a target object in video sequence
US9858496B2 (en) * 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images
US10032067B2 (en) * 2016-05-28 2018-07-24 Samsung Electronics Co., Ltd. System and method for a unified architecture multi-task deep learning machine for object recognition
KR102628654B1 (ko) * 2016-11-07 2024-01-24 삼성전자주식회사 차선을 표시하는 방법 및 장치
KR20230170119A (ko) * 2016-11-15 2023-12-18 매직 립, 인코포레이티드 큐보이드 검출을 위한 딥 러닝 시스템
US10380741B2 (en) * 2016-12-07 2019-08-13 Samsung Electronics Co., Ltd System and method for a deep learning machine for object detection
US10262237B2 (en) * 2016-12-08 2019-04-16 Intel Corporation Technologies for improved object detection accuracy with multi-scale representation and training
US10635927B2 (en) * 2017-03-06 2020-04-28 Honda Motor Co., Ltd. Systems for performing semantic segmentation and methods thereof
US10460180B2 (en) * 2017-04-20 2019-10-29 GM Global Technology Operations LLC Systems and methods for visual classification with region proposals
US10579897B2 (en) * 2017-10-02 2020-03-03 Xnor.ai Inc. Image based object detection
US10223610B1 (en) * 2017-10-15 2019-03-05 International Business Machines Corporation System and method for detection and classification of findings in images

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9760806B1 (en) * 2016-05-11 2017-09-12 TCL Research America Inc. Method and system for vision-centric deep-learning-based road situation analysis
CN108073876A (zh) * 2016-11-14 2018-05-25 北京三星通信技术研究有限公司 面部解析设备和面部解析方法
CN106599939A (zh) * 2016-12-30 2017-04-26 深圳市唯特视科技有限公司 一种基于区域卷积神经网络的实时目标检测方法
CN107169421A (zh) * 2017-04-20 2017-09-15 华南理工大学 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法
US10007865B1 (en) * 2017-10-16 2018-06-26 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using multi-scale feature maps and testing method and testing device using the same
CN108681718A (zh) * 2018-05-20 2018-10-19 北京工业大学 一种无人机低空目标精准检测识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JeongYeol Baek et al..Scene Understanding Networks for Autonomous Driving based on Around View Monitoring System.《PROCEEDINGS 2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS》.2018,第1074-1081页. *

Also Published As

Publication number Publication date
CN111104838A (zh) 2020-05-05
JP2020068013A (ja) 2020-04-30
JP6908939B2 (ja) 2021-07-28
KR102280401B1 (ko) 2021-07-23
KR20200047303A (ko) 2020-05-07
US10438082B1 (en) 2019-10-08
EP3644240B1 (en) 2024-06-19
EP3644240A1 (en) 2020-04-29

Similar Documents

Publication Publication Date Title
CN111104838B (zh) 基于障碍物的下端线检测roi的方法和装置
CN110879958B (zh) 用于检测障碍物的方法和装置
CN111104839B (zh) 用于检测客体存在性的方法及装置
US10540572B1 (en) Method for auto-labeling training images for use in deep learning network to analyze images with high precision, and auto-labeling device using the same
JP6360802B2 (ja) ニューラルネットワーク処理装置、ニューラルネットワーク処理方法、検出装置、検出方法、および、車両
US10262214B1 (en) Learning method, learning device for detecting lane by using CNN and testing method, testing device using the same
US10402977B1 (en) Learning method and learning device for improving segmentation performance in road obstacle detection required to satisfy level 4 and level 5 of autonomous vehicles using laplacian pyramid network and testing method and testing device using the same
CN111008626B (zh) 基于r-cnn检测客体的方法和装置
KR20200047307A (ko) 유용한 학습 데이터를 취사 선별하기 위한 cnn 기반 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
CN111476248B (zh) 利用用于识别图像的1x1卷积的CNN方法及装置
US10311578B1 (en) Learning method and learning device for segmenting an image having one or more lanes by using embedding loss to support collaboration with HD maps required to satisfy level 4 of autonomous vehicles and softmax loss, and testing method and testing device using the same
CN113343989B (zh) 一种基于前景选择域自适应的目标检测方法及***
CN111104840B (zh) 基于回归损失的学习及测试的方法及装置
CN110909588B (zh) 基于cnn的用于车道线检测的方法和装置
KR102224778B1 (ko) 횡 필터 마스크를 이용하여 자율 주행 차량의 주행 경로를 계획하기 위해 차선 요소를 검출하는 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant