CN114820644A - 对图像的像素进行分类的方法和设备 - Google Patents

对图像的像素进行分类的方法和设备 Download PDF

Info

Publication number
CN114820644A
CN114820644A CN202210101395.9A CN202210101395A CN114820644A CN 114820644 A CN114820644 A CN 114820644A CN 202210101395 A CN202210101395 A CN 202210101395A CN 114820644 A CN114820644 A CN 114820644A
Authority
CN
China
Prior art keywords
edge detection
detection algorithm
pixels
image
ground truth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210101395.9A
Other languages
English (en)
Inventor
I·弗里曼
P·科林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aptiv Technologies Ltd
Original Assignee
Aptiv Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aptiv Technologies Ltd filed Critical Aptiv Technologies Ltd
Publication of CN114820644A publication Critical patent/CN114820644A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30261Obstacle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Geometry (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及对图像的像素进行分类的方法和设备。提供了一种用于对图像的像素进行分类的方法。由传感器设备捕获包含多个像素的图像。使用神经网络来估计各个像素的概率值,各个概率值指示相应像素与多个预定类别中的一个预定类别相关联的概率。基于相应概率值来将类别中的一个类别指配给图像的各个像素,以便创建预测分割图。为了训练神经网络,通过将预测分割图与地面实况标记相关联来生成损失函数。此外,将边缘检测算法应用于预测分割图和地面实况标记中的至少一者,其中,边缘检测算法预测对象之间的边界。生成损失函数的步骤基于边缘检测算法的结果。

Description

对图像的像素进行分类的方法和设备
技术领域
本公开涉及通过对图像的多个像素进行分类来执行语义分割的方法和设备。
背景技术
对于自主驾驶和驾驶员辅助***,重要的是具有对车辆环境的可靠感知。环境感知的一个重要基础是语义分割,即对环境中的对象进行分类并确定例如环境图像中由特定对象类型或对象类别占据的区域。
对于语义分割,通常为可能出现在环境图像中的对象限定多个预定类别。例如,预定类别可以包括用于其它车辆、用于行人、用于道路、用于建筑物等的相应类别。还可以对环境图像的像素执行语义分割。即,图像的各个像素被指配给预定类别中的一个类别。
目前,卷积神经网络(CNN)主要用于语义分割任务。CNN是特殊类型的神经网络,其被配置成模拟从眼睛到视觉皮层的人类视觉处理***。CNN包括任意数量的连续层,它们被一起训练以完成给定的任务,即,在当前情况下,对由图像的像素表示的对象进行分类,像素各自被指配给预定类别中的一个类别。
为了训练任何神经网络,必须具有可靠的损失函数,以便实现网络输出的期望确定性。损失函数包括神经网络的输出或预测与也被称为地面实况标记的期望输出之间的某种比较。在训练神经网络期间,通过将大的损失值指配给不期望的输出数据并且通过最小化总损失来执行回归。
在对图像内的大量像素进行语义分割的情况下,总损失通常被估计为所有像素的损失值的平均值。因此,单独的像素对总损失的比例贡献很小。结果,图像中对于分类更具挑战性的区域(例如对象边界)根据它们的大小而不是它们的重要性进行加权。因此,当在现场车载***中运行时,经训练的神经网络可能错误地分类这种小对象和对象边界的像素。
因此,需要一种能够为小对象和对象边界提供可靠语义分割的方法和设备。
发明内容
本公开提供一种计算机实现方法、计算机***和非暂时性计算机可读介质。在从属权利要求、说明书和附图中给出了实施方式。
在一个方面,本公开涉及一种对图像的像素进行分类的计算机实现方法。根据该方法,接收由传感器设备捕获的图像,其中,该图像包含多个像素。使用在处理设备上实现的神经网络来估计各个像素的概率值,其中,各个概率值指示相应像素与多个预定类别中的一个预定类别相关联的概率。基于各个像素的相应概率值来将多个预定类别中的一个类别指配给图像的各个像素,以便创建图像的预测分割图。为了训练神经网络,通过将预测分割图与地面实况标记相关联来生成损失函数。此外,将边缘检测算法应用于预测分割图和地面实况标记中的至少一者,其中,边缘检测算法预测在预测分割图和地面实况标记中对象之间的边界。生成损失函数的步骤基于边缘检测算法的结果。
传感器设备可以包括摄像头和/或激光雷达***。因此,术语“图像”通常是指传感器设备的输出,并且可以包括包含相应多个像素的二维或三维矩阵。
多个预定类别是指预期在图像中看到的对象的类型。各个类别可以由可以指配给图像的各像素的指示符来表示。对于汽车应用,这些类别可以包括“其它车辆”、“行人”、“道路”、“建筑物”等。
地面实况标记是指对于各个像素已知相应对象的类型的图像。即,地面实况标记表示神经网络和整个方法的期望输出。因此,在神经网络的训练期间比较神经网络的预测和地面实况标记,并且经由损失函数量化预测与地面实况标记之间的偏差,因此最小化损失函数。
边缘检测算法可以基于例如Sobel算子,用于提取属于不同类别的对象之间的边界。由于边缘检测算法的结果被结合到损失函数的定义或生成中,所以大大增强了对象边界对损失函数的贡献。因此,小对象的贡献也被增强,因为与大对象相比,它们的属于与它们的像素总数相关的边界的像素分数更大。
总之,由于在生成损失函数时考虑了边缘检测算法的结果,所以要着重于图像内的小对象和对象边界来训练神经网络。由此,通过根据本公开的方法改进了图像内的像素的整个语义分割或分类。对于本方法的汽车应用,它有助于防止以错误的方式忽略或评估小对象和对象边界。因此,如果在自主驾驶或驾驶员辅助***的框架内使用语义分割,则该方法可以提高安全性。
该方法可以包括以下特征中的一个或更多个特征:
边缘检测算法可以仅应用于预测分割图。另选地,边缘检测算法可以仅应用于地面实况标记,或者边缘检测算法可以应用于预测分割图和地面实况标记两者。将边缘检测算法应用于所述预测分割图的结果以及将所述边缘检测算法应用于所述地面实况标记的结果是通过针对各个像素选择相应结果的最大值来合并的。
可以将所述边缘检测算法的结果应用于将所述预测分割图与所述地面实况标记相关联的结果,以生成损失函数。此外,边缘检测算法的结果可以是覆盖预测边界的像素的掩码。所述掩码可以包括针对各个像素的相应元素,可以通过将所述预测分割图与所述地面实况标记相关联来计算包括针对各个像素的元素的损失矩阵,并且当生成损失函数时,掩码的各个元素可以乘以损失矩阵的针对各个像素的对应元素。像素在预测边界之外的掩码的元素可以被指配接近零的值。
所述边缘检测算法可以包括Sobel算子,所述Sobel算子包括两个预定卷积内核和通过旋转所述两个预定卷积内核而生成的两个附加内核。所述边缘检测算法可以包括用于增加对象之间的预测边界的宽度的结果卷积内核。附加卷积内核可以是双变量高斯内核。
根据实施方式,边缘检测算法可以仅应用于预测分割图。另选地,边缘检测算法可以仅应用于地面实况标记。通过在应用边缘检测算法时考虑预测分割图或地面实况标记,减少了基于边缘检测算法的结果来生成损失函数所需的计算量。如果考虑了预测分割图,则在神经网络的训练中可以抑制错误分类的“幻觉”对象,因为它们在损失函数内的权重可能增加,并且在地面实况标记内可能没有对应对象。因此,在神经网络的训练期间最小化总损失可导致对幻觉对象的抑制。另一方面,如果边缘检测算法仅考虑地面实况标记,则可以确保在损失函数中考虑最重要的对象,即,与它们经由神经网络的预测分类无关。
根据进一步的实施方式,边缘检测算法可以仅应用于预测分割图和地面实况标记两者。对于该实施方式,前面描述的两个实施方式的优点都是有效的,即抑制“幻觉”对象和正确考虑最重要的对象。可以将相同的边缘检测算法应用于预测分割图和地面实况标记,以便生成边缘检测算法的最终结果。通过在执行边缘检测时除了预测分割图之外还考虑地面实况标记,即使是神经网络基础模型遗漏并因此在预测分割图中遗漏的对象也可以得到强调。
将边缘检测算法应用于所述预测分割图的结果以及将所述边缘检测算法应用于所述地面实况标记的结果可以通过针对各个像素选择相应结果的最大值来合并。也就是说,边缘检测的最终结果可以通过将像素级最大化算子应用于将边缘检测算法应用于预测和地面实况的单独结果来生成。与算术合并相比,可以改进边缘检测的最终结果。
可以将所述边缘检测算法的结果应用于将所述预测分割图与所述地面实况标记相关联的结果,以生成所述损失函数。详细地,“初步损失”可以通过预测分割图和地面实况标记的关系来估计,例如通过应用交叉熵损失函数。此后,可以将边缘检测算法的结果应用于初步损失以估计最终损失函数,以便增加小对象和对象边界的贡献。换句话说,可以增强对象之间的边界的贡献,因为不属于边界的所有像素被抑制。
边缘检测算法的结果可以是覆盖预测边界的像素的掩码。所述掩码可以包括针对各个像素的相应元素,可以通过将所述预测分割图与所述地面实况标记相关联来计算包括针对各个像素的元素的损失矩阵,并且当生成损失函数时,掩码的各个元素可以乘以损失矩阵的针对各个像素的对应元素。在另一方面,像素在检测边界之外的掩码的元素可以被指配接近零的值。详细地,掩码可以包括0至1之间的值。如果像素属于对象之间的边界,则可以为该像素的掩码元素指配值1或接近1,而可以为不属于对象之间的边界的像素指配小的值,例如0.1。这种接近零的小值可以确保在生成损失函数时考虑所有像素。然而,可以强烈地抑制不属于对象之间的边界的像素的贡献。
根据进一步的实施方式,所述边缘检测算法可以包括Sobel算子,所述Sobel算子包括两个预定卷积内核和通过旋转所述两个预定卷积内核而生成的两个附加内核。Sobel算子本身是用于边缘检测的公知手段,并且通常具有两个预限定且恒定的卷积内核。然而,已经证明标准的Sobel内核不能为检测对象之间的对角边缘或边界提供良好结果。因此,在边缘检测算法中可以包括两个附加卷积内核,它们是原始Sobel内核的旋转版本。例如,可以将原始Sobel内核旋转+/-45°。通过这种方式,与仅应用原始Sobel算子相比,可以改进边缘检测算法的结果。
此外,所述边缘检测算法可以包括用于增加对象之间的预测边界的宽度的结果卷积内核。附加卷积内核可以是双变量高斯内核。附加内核也可以被称为填充内核,因为它可以在表示对象之间的边界的原始行之前添加例如三个像素的填充,并且在表示对象之间的边界的原始行之后添加三个像素的填充。通过增加对象之间的边界的宽度,可以支持神经网络的成功学***均值可以是一。
在另一方面,本公开涉及一种用于对图像的像素进行分类的***。该***包括被配置成捕获包含多个像素的图像的传感器设备,以及处理设备。该处理设备被配置成接受来自传感器设备的图像,实现神经网络以用于估计各个像素的概率值,其中,各个概率值指示相应像素与多个预定类别中的一个预定类别相关联的概率。所述处理设备还被配置成:基于各个像素的相应概率值来将所述多个预定类别中的一个预定类别指配给所述图像的各个像素,以便创建所述图像的预测分割图,通过将所述预测分割图与地面实况标记相关联来生成用于训练所述神经网络的损失函数,以及将边缘检测算法应用于所述预测分割图和所述地面实况标记中的至少一者,其中,所述边缘检测算法预测所述预测分割图和所述地面实况标记中的对象之间的边界。生成损失函数的步骤基于边缘检测算法的结果。
如本文所使用的,术语处理设备、处理单元和模块可以指代、是以下项中的部分或者包括:专用集成电路(ASIC)、电子电路、组合逻辑电路、现场可编程门阵列(FPGA)、执行代码的处理器(共享的、专用的、或分组的)、提供上述功能的其它合适部件或者上述中的一些或全部组合(诸如,在片上***(system-on-chip)中)。术语模块可以包括存储由处理器执行的代码的存储器(共享的、专用的或分组的)。
总之,根据本公开的***包括传感器设备(例如摄像头和/或激光雷达***)以及处理设备,该处理设备被配置成执行如上所述的用于对应方法的步骤。因此,如上所述的用于该方法的益处、优点和公开内容对于根据本公开的***也是有效的。
在另一方面,本公开涉及计算机***,所述计算机***被配置成执行本文所描述的计算机实现方法的几个或全部步骤。
该计算机***可以包括处理单元、至少一个存储单元和至少一个非易失性数据存储器。该非暂时性数据存储器和/或存储单元可以包括计算机程序,该计算机程序用于指示计算机执行本文所描述的计算机实现方法的几个或全部步骤或方面。
在另一方面,本公开涉及一种非暂时性计算机可读介质,该非暂时性计算机可读介质包含用于执行本文所描述的计算机实现方法的几个或全部步骤或方面的指令。计算机可读介质可以被配置成:诸如光盘(CD)或数字通用盘(DVD)的光学介质;诸如硬盘驱动器(HDD)的磁性介质;固态驱动器(SSD);只读存储器(ROM);闪速存储器;等。此外,计算机可读介质可以被配置成经由诸如互联网连接的数据连接能够访问的数据存储部。计算机可读介质可以例如是在线数据存储库或云存储。
本公开还涉及一种计算机程序,该计算机程序用于指示计算机执行本文所描述的计算机实现方法的几个或全部步骤或方面。
附图说明
本文结合示意性示出的以下附图描述本公开的示例实施方式和功能:
图1示出了根据本公开的***的高级图,
图2示出了根据背景技术的语义分割的结果,其中,左侧为地面实况,右侧为网络预测,
图3示出了根据本公开的方法的流程图,
图4a至图4c示出了边缘检测结果及其对地面实况标记的应用,
图5和图6对基于背景技术和基于根据本公开的方法的相应语义分割进行比较,其中,图5和图6的上方为根据背景技术的方法,下方为根据本公开的方法,以及
图7a至图7c示出了语义分割的验证的可视化,包括边界交并比及其补码(complement)。
参考编号列表
10 ***
11 摄像头、传感器设备
13 图像
15 处理设备
17 图像的语义分割
21 小对象
23 对象之间的边界
25 小对象的网络预测(背景技术)
27 对象边界的网络预测(背景技术)
31 方法
33 卷积神经网络
35 预测分割图
37 损失函数
39 地面实况标记
41 边缘检测算法
43 预测掩码
44 地面实况掩码
45 最大化算子
47 最终或合并掩码
50 元素
51 环绕区域
53 杆
55 交通灯
57 行人
具体实施方式
图1示意性地示出了用于对图像的像素进行分类、即用于执行图像的语义分割的***10的高级图。该***包括作为传感器设备的摄像头11和处理设备15。摄像头11安装在车辆上并且能够捕获车辆环境(例如在车辆前方)的图像13。另选地,可以使用激光雷达***来捕获图像13,在这种情况下,图像13可以是像素的三维矩阵。
由摄像头11捕获的图像13被用作处理设备15的输入,该处理设备15被配置成生成卷积神经网络33(参见图3),用于执行图像13的语义分割。对于语义分割,处理设备15使用下面将在图3的上下文中描述的方法31。处理设备15的输出(即图像13的语义分割17)被提供作为车辆的其它设备的输入,所述其它设备是例如驾驶员辅助***的一部分。
图2示出了根据背景技术的语义分割的结果。即,由摄像头11捕获的图像13内的区域被指配给对象的预定类型或对象类别,例如被指配给对象类别“其它客车”、“卡车”、“道路”、“人行道”、“行人”等中的一者。由特定对象类型占据的区域在图2中由唯一颜色表示。
在图2的左侧,示出了两个不同场景的地面实况标记。对于这些场景,知道哪个区域属于哪个对象类型。图2左侧所示的地面实况标记用于训练卷积神经网络,该卷积神经网络为图像13的语义分割提供分别在图2右侧所示的网络预测。详细地,基于相应图像13的像素执行对象的语义分割或分类。例如,各个图像13包括r=2048行和c=1024列,即几乎210万像素。对于各个像素,卷积神经网络提供关于对象类别的预测,即,它将特定对象类别的指示符指配给各个像素。因此,如图2左侧所示并且具有特定颜色的各个区域包含多个像素,这些像素被卷积神经网络分类成对象的特定类型。
如图2的左侧所示,图像13的相应地面实况标记包括许多小对象21以及对象之间的边界23。如图2的右侧所示,根据背景技术的相应网络预测不能正确地分类小对象21和边界23。详细地,在由25表示的区域中,小对象21缺失或几乎缺失。另外,如图2左侧所示的对象之间的清晰边界23在网络预测中也不能被正确识别,如27所示。对象之间的清晰边界23在卷积神经网络的输出中似乎被破坏。
根据背景技术的网络预测的错误或不令人满意的分类的原因涉及通常用于训练卷积神经网络的损失函数。鲁棒的损失函数通常对于任何神经网络的学习或训练过程都是必要的。损失函数通常包括神经网络的预测输出与期望输出(即地面实况标记)的某种比较。通常,通过将大的损失值指配给网络预测内的不期望的值并且此后在神经网络的训练期间使总损失最小化来执行回归。
为了评估神经网络的输出或预测,通常将所谓的交叉熵函数用作损失函数,并将其限定成
Figure BDA0003492397700000081
其中,yi表示神经网络的输出或预测,而
Figure BDA0003492397700000082
表示期望的或地面实况标记。然后将总损失限定成图像13内所有像素的平均值。由于对于具有2048行和1024列并且因此具有几乎210万像素的图像,单个像素对损失函数或总损失的贡献被近似地通过1/(2.1*106)加权。结果,在根据背景技术的损失函数中没有正确地表示包括相当少量像素的小对象以及对象之间的边界,在背景技术中,所有像素对于它们对损失函数的贡献具有相同的权重。因此,期望具有一种用于训练卷积神经网络的损失函数,其中,改进了小对象以及对象之间的边界的表示。
图3示出了根据本公开的方法31的流程图。方法31被提供用于对由摄像头11(参见图1)捕获的图像13的像素进行分类。即,提供包含多个像素的图像13作为该方法的输入,即作为由处理设备15(参见图1)生成的卷积神经网络33的输入。卷积神经网络33(参见图3)包括基于底层模型的多个层。
神经网络33估计各个像素的概率值。各个概率值指示相应像素的与多个预定类别中的一个类别相关联的概率。基于各个像素的相应概率值,将图像13的各个像素指配给多个类别中的一个类别,即通过选择具有最高概率值的类别来进行指配。预定类别包括摄像头11可见的对象的预定类型,即其它车辆、道路、人行道、行人等。作为输出,卷积神经网络33创建预测分割图35,预测分割图包括各个像素的预测类别。在如图3所示的预测分割图35和如图5和图6所示的类似预测分割图中,对象的不同类型由不同的颜色表示。
为了训练神经网络33,将预测分割图35与地面实况标记39(即卷积神经网络33的期望输出)相关。对于地面实况标记39,针对图像13的各个像素,到相应类别或对象类型的正确指配是已知的。预测分割图35经由损失函数37与地面实况标记39相关,损失函数37基于上面在图2的上下文中描述的交叉熵函数。在卷积神经网络33的训练期间,由损失函数37提供的总损失将被最小化。
如上所述,通常使用的基于交叉熵函数的损失函数的缺点是所有像素的贡献相同,这导致在估计损失函数时对小对象和对象边界的低估,并因此导致对小对象和对象边界的错误或缺失分类。
为了克服这个缺点,该方法包括提供损失函数的修改版本37,其中,小对象和对象边界设置有更大的权重,以便增加它们对总损失的贡献。
为了增加小对象和对象边界对损失函数37的贡献,将边缘检测算法41应用于预测分割图35和地面实况标记39。当应用于预测分割图35时,边缘检测算法41的输出是预测掩码43,并且当应用于地面实况标记39时,边缘检测算法41的输出是地面实况图44。在掩码43、44内,对象之间的所有边界在图3中被突出显示,因为掩码向检测到的边界或边缘的像素指配比不属于边界的像素高得多的权重。
边缘检测算法41基于能够提取预测类别之间的边界的所谓Sobel算子。标准Sobel算子包括两个预限定且恒定的卷积内核:
Figure BDA0003492397700000101
通过使用这些内核,可以检测图像13中的颜色梯度。
然而,已经证明基于预限定的恒定卷积内核的标准Sobel算子不足以成功地对损失函数37进行加权。详细地,当试图检测对角线边缘时,(2)中限定的Sobel内核表现出很小的性能。因此,添加了原始Sobel内核旋转+/-45°的两个附加卷积内核。
另外,不属于检测到的边缘的像素通过在掩码中将它们的值设置为接近零而被抑制。因此,几乎没有损失值被指配给预测分割图35中的主要部分以创建掩模43、44。然而,由于仍然要为图像13的所有像素提供预测,因此相应掩码43或44中的所有像素至少具有例如0.1的小值,以便说明所有像素的损失值。
此外,结果是由边缘检测算法41提供的结果边缘到目前为止不足以支持卷积网络33的成功学习或训练。因此,应用相应的卷积内核,它是具有预限定大小的双变量高斯内核。详细地,使用由下式给出的3×3填充内核
Figure BDA0003492397700000102
当在边缘检测算法41内执行卷积时,附加内核在相应对象之间的原始线或边界之前添加三个像素的填充,并在其之后添加三个像素的填充。因此,增加了掩码43、44中表示的边界的宽度。实际上,使用大约30×30像素的附加填充内核。与被归一化使得其所有元素的和等于1的经典高斯内核相比,根据本公开的方法使双变量高斯内核归一化,使得其元素的平均值为一。
在基于包括附加内核的修改的或扩展的Sobel算子生成相应掩码43、44之后,通过使用45处的像素级最大化算子来合并两个掩码43、44。即,对于各个像素,相应掩码43、44的较大值被选择,以便生成最终或合并掩码47。对于各个像素,最终掩码47被包括在损失函数37的生成中。即,对于各个像素,根据如(1)中所限定的交叉熵函数来计算对损失的贡献,使得生成“初步损失”或损失矩阵,其中,各个元素包括相应像素的贡献。此后,将最终掩码47应用于初步损失或损失矩阵。详细地,对于各个像素,初步损失乘以最终掩码47的对应元素。因此,对象边界和小对象对损失函数37的贡献大于不属于检测到的对象之间的边界的区域。
根据图3所示的实施方式,该方法包括:生成边缘检测算法41应用于预测分割图35的预测掩码43;生成边缘检测算法41应用于地面实况标记39的地面实况掩码44;以及生成将掩码43、44合并并且在生成损失函数37时应用的最终掩码47。然而,对于另一实施方式,预测掩码43仅应用于地面实况标记39。即,最终掩码47与本实施方式的预测掩码43相同,因为不执行两个掩码43、44的合并。对于另选实施方式,仅使用地面实况掩码44以便生成最终掩码47,即,省略预测掩码43且不执行两个掩码43、44的合并。换句话说,对于该另选实施方式,将地面实况掩码44直接应用于损失函数37,即应用于初步损失。
图4a示出了预测掩码43的放大示例。图4b示出了将来自图4a的预测掩码43应用到地面实况标记39的结果。通过使用预测掩码43,可以抑制错误分类的或“幻觉的”对象。在图4b的左下角可以识别这样的幻觉对象。由于在计算总损失时由于预测掩码43而增加了该幻觉对象的权重或贡献,所以在训练期间损失函数最小化之后,这些对象将被经训练的神经网络抑制。此外,图4b还表示该方法的实施方式的掩码地面实况标记,对于该方法的实施方式,预测掩码43被考虑用于仅生成损失函数37。
相比之下,图4c示出了已将合并的最终掩码47应用于原始地面实况标记39的掩码地面实况标记。即,图4c表示如图3所示的实施方式的掩码地面实况标记,其中,通过合并两个掩码43、44来生成最终掩码47。通过另外考虑地面实况掩码44,确保适当地考虑图像的最重要部分。从图4c的右上角可以看出,属于粉色元素50的边界的贡献被强烈地增强,因为另外考虑了地面实况掩码44。粉色元素50的权重在预测掩码43中几乎缺失,如在图4a的右上角可以认识到的。
注意,图4a中所示的预测掩码43和合并的最终掩码47(参见图3)仅出于例示的目的而被应用于地面实况标记39或与地面实况标记39相乘,即用于演示掩码43、47对图像13内的各对象的影响。然而,为了生成损失函数37并估计总损失,将掩码应用于(或乘以)“初步损失”,即基于交叉熵函数计算的损失矩阵,但不直接应用于地面实况标记39。
图5和图6示出了由根据背景技术的方法(图5和图6的上部)执行的和由根据本公开的方法(图5和图6的下部)执行的相应图像的语义分割的比较。如在环绕区域51中可见,对象之间的边界在根据本公开的方法的分割结果中更加清楚。另外,根据背景技术的方法,一些小对象几乎完全以错误的方式被分类。例如,在根据背景技术的分割结果中不能识别图6的图像中右侧的杆,而当通过根据本公开的方法执行分割时清楚地显现。对于如55处所示的交通灯也是如此。另外,通过根据本公开的方法改进了行人57的识别,如图6的右侧所示。
如图5和图6的相应下部所示的改进的分割结果是由于以下事实,当生成损失函数37时,边缘检测算法41(参见图3)被结合到方法31中。由于边缘检测算法41的结果在经由损失函数37将预测分割图35与地面实况标记39相关联之前被应用于地面实况标记39,所以在神经网络33的训练过程期间增强了对象边界和小对象对损失函数37的贡献。由于小对象和对象边界在如图5和图6(相应下部)所示的语义分割结果中可以更好地识别,所以如果根据本公开的方法例如结合驾驶员辅助***和自主驾驶来应用,则可以提高车辆的安全性。
对于分割结果的详细验证,已经估计了所谓的边界交并比(边界IoU(borderintersection over union))。例如在Milioto,A等人的"RangeNet++:Fast and accurateLiDAR semantic segmentation",2019IEEE/RSJ International Conference onIntelligent Robots and Systems(IROS),pp.4213-4220.IEEE,2019中限定和应用边界IoU。交并比(IoU)通常用于描述集合、向量和对象的相似性。在语义分割中,IoU通常被用作评估标记性能的度量,其将网络预测的真阳性与神经网络的真阳性、假阳性和假阴性预测的总和相关联。对于边界IoU,该评估密钥仅应用于对象之间的边界。
这在图7a至图7c中可见。图7a示出了由安装在车辆中的摄像头11(参见图1)捕获的原始图像13。图7b示出了边界IoU,其中,图像13的被评估的像素用它们的被指配给相应对象类别的相应颜色来掩蔽。在图7c中,示出了所谓的内部IoU,其被评估为图7b中所示的边界IoU的补码。对于几乎所有的对象类别,与基于根据背景技术的方法的语义分割相比,所有度量(即“正常”IoU、内部IoU并且特别是边界IoU)为基于根据本公开的方法的语义分割提供了更好的值。

Claims (15)

1.一种对图像(13)的像素进行分类的计算机实现方法(31),所述计算机实现方法(31)包括:
接收由传感器设备(11)捕获的图像(13),所述图像(13)包含多个像素;
使用在处理设备(12)上实现的神经网络(33)来估计各个像素的概率值,其中,各个概率值指示相应像素与多个预定类别中的一个预定类别相关联的概率;
基于各个像素的相应概率值来将所述多个预定类别中的一个预定类别指配给所述图像(13)的各个像素,以便创建所述图像(13)的预测分割图(35);
通过将所述预测分割图(35)与地面实况标记(39)相关联来生成用于训练所述神经网络(33)的损失函数(37);以及
将边缘检测算法(41)应用于所述预测分割图(35)和所述地面实况标记(39)中的至少一者,所述边缘检测算法(41)预测所述预测分割图(35)中的对象和所述地面实况标记(39)中的对象之间的边界,
其中,生成所述损失函数(37)的步骤基于所述边缘检测算法(41)的结果。
2.根据权利要求1所述的计算机实现方法(31),其中,所述边缘检测算法(41)仅应用于所述预测分割图(35)。
3.根据权利要求1所述的计算机实现方法(31),其中,所述边缘检测算法(41)仅应用于所述地面实况标记(39)。
4.根据权利要求1所述的计算机实现方法(31),其中,所述边缘检测算法(41)应用于所述预测分割图(35)和所述地面实况标记(39)。
5.根据权利要求4所述的计算机实现方法(31),其中,将所述边缘检测算法(41)应用于所述预测分割图(35)的结果以及将所述边缘检测算法(41)应用于所述地面实况标记(39)的结果是通过针对各个像素选择相应结果的最大值来合并的。
6.根据前述权利要求中任一项所述的计算机实现方法(31),其中,将所述边缘检测算法(41)的结果应用于将所述预测分割图(35)与所述地面实况标记(39)相关联的结果,以生成所述损失函数(37)。
7.根据前述权利要求中任一项所述的计算机实现方法(31),其中,所述边缘检测算法(41)的结果是覆盖预测边界的像素的掩码(43、44、47)。
8.根据权利要求7所述的计算机实现方法(31),其中,所述掩码(43、44、47)包括针对各个像素的相应元素,
通过将所述预测分割图(35)与所述地面实况标记(39)相关联来计算包括针对各个像素的矩阵元素的损失矩阵,并且
当生成所述损失函数时,所述掩码(43、44、47)的各个元素乘以所述损失矩阵的针对各个像素的对应矩阵元素。
9.根据权利要求7或8所述的计算机实现方法(31),其中,像素在预测边界之外的掩码(43、44、47)的元素被指配接近零的值。
10.根据前述权利要求中任一项所述的计算机实现方法(31),其中,所述边缘检测算法(41)包括Sobel算子,所述Sobel算子包括两个预定卷积内核和通过旋转所述两个预定卷积内核而生成的两个附加内核。
11.根据权利要求10所述的计算机实现方法(31),其中,所述边缘检测算法(41)包括用于增加对象之间的预测边界的宽度的结果卷积内核。
12.根据权利要求11所述的计算机实现方法(31),其中,所述附加卷积内核是双变量高斯内核。
13.一种用于对图像(13)的像素进行分类的***(10),所述***(10)包括:
传感器设备(11),所述传感器设备被配置成捕获包含多个像素的图像(13);以及
处理设备(12),所述处理设备被配置成:
接收来自所述传感器设备(11)的所述图像(13);
实现神经网络(33)以用于估计各个像素的概率值,其中,各个概率值指示相应像素与多个预定类别中的一个预定类别相关联的概率;
基于各个像素的相应概率值来将所述多个预定类别中的一个预定类别指配给所述图像(13)的各个像素,以便创建所述图像(13)的预测分割图(35);
通过将所述预测分割图(35)与地面实况标记(39)相关联来生成用于训练所述神经网络(33)的损失函数(37);并且
将边缘检测算法(41)应用于所述预测分割图(35)和所述地面实况标记(39)中的至少一者,所述边缘检测算法(41)预测所述预测分割图(35)中的对象和所述地面实况标记(39)中的对象之间的边界,
其中,生成所述损失函数(37)的步骤基于所述边缘检测算法(41)的结果。
14.一种计算机***,所述计算机***被配置成执行根据权利要求1至12中的至少一项所述的计算机实现方法。
15.一种非暂时性计算机可读介质,所述非暂时性计算机可读介质包含用于执行根据权利要求1至12中的至少一项所述的计算机实现方法的指令。
CN202210101395.9A 2021-01-29 2022-01-27 对图像的像素进行分类的方法和设备 Pending CN114820644A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP21154378.0A EP4036792A1 (en) 2021-01-29 2021-01-29 Method and device for classifying pixels of an image
EP21154378.0 2021-01-29

Publications (1)

Publication Number Publication Date
CN114820644A true CN114820644A (zh) 2022-07-29

Family

ID=74418332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210101395.9A Pending CN114820644A (zh) 2021-01-29 2022-01-27 对图像的像素进行分类的方法和设备

Country Status (3)

Country Link
US (1) US20220245955A1 (zh)
EP (1) EP4036792A1 (zh)
CN (1) CN114820644A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116052061A (zh) * 2023-02-21 2023-05-02 嘉洋智慧安全科技(北京)股份有限公司 事件监测方法、装置、电子设备及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12002217B1 (en) * 2021-10-25 2024-06-04 Zoox, Inc. Detection box determination based on pixel clustering
IL297653B2 (en) * 2022-10-25 2024-03-01 Geox Gis Innovations Ltd A system and method for segment-aware semantic segmentation

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346620B (zh) * 2013-07-25 2017-12-29 佳能株式会社 对输入图像中的像素分类的方法和装置及图像处理***
US10635927B2 (en) * 2017-03-06 2020-04-28 Honda Motor Co., Ltd. Systems for performing semantic segmentation and methods thereof
CN112070779B (zh) * 2020-08-04 2022-03-15 武汉大学 一种基于卷积神经网络弱监督学习的遥感影像道路分割方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116052061A (zh) * 2023-02-21 2023-05-02 嘉洋智慧安全科技(北京)股份有限公司 事件监测方法、装置、电子设备及存储介质
CN116052061B (zh) * 2023-02-21 2024-02-27 嘉洋智慧安全科技(北京)股份有限公司 事件监测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
EP4036792A1 (en) 2022-08-03
US20220245955A1 (en) 2022-08-04

Similar Documents

Publication Publication Date Title
CN109978893B (zh) 图像语义分割网络的训练方法、装置、设备及存储介质
CN111160379B (zh) 图像检测模型的训练方法及装置、目标检测方法及装置
CN109478239B (zh) 检测图像中的对象的方法和对象检测***
CN109815997B (zh) 基于深度学习的识别车辆损伤的方法和相关装置
US20190019042A1 (en) Computer implemented detecting method, computer implemented learning method, detecting apparatus, learning apparatus, detecting system, and recording medium
CN114820644A (zh) 对图像的像素进行分类的方法和设备
CN102693432B (zh) 使用可靠局部模型更新来调节畅通路径检测
CN109086668B (zh) 基于多尺度生成对抗网络的无人机遥感影像道路信息提取方法
JP5815910B2 (ja) マルチキュー・オブジェクトの検出および分析のための方法、システム、製品、およびコンピュータ・プログラム(マルチキュー・オブジェクトの検出および分析)
CN111767878B (zh) 嵌入式设备中基于深度学习的交通标志检测方法及***
CN102682301B (zh) 使用附加分类器来调节畅通路径检测
CN110781980B (zh) 目标检测模型的训练方法、目标检测方法及装置
US10824881B2 (en) Device and method for object recognition of an input image for a vehicle
KR20200096114A (ko) 자율 주행 네트워크의 검출 프로세스를 검증하는 설명 가능한 인공지능을 사용하여 운전자에게 잠재적 위험 상황에 대해 경고함으로써 기능적 안전성을 제공하는 학습 방법 및 학습 장치, 그리고 이를 이용한 테스팅 방법 및 테스팅 장치
JP2021528757A (ja) 機械学習モデルの出力から推論されるインスタンスセグメンテーション
US11908178B2 (en) Verification of computer vision models
CN112241757A (zh) 用于操作神经网络的设备和方法
CN115100614A (zh) 车辆感知***的评估方法、装置、车辆及存储介质
Saravanarajan et al. Improving semantic segmentation under hazy weather for autonomous vehicles using explainable artificial intelligence and adaptive dehazing approach
CN113903041A (zh) 文本识别方法、装置、车辆及存储介质
CN112241758A (zh) 用于评估显著性图确定器的设备和方法
CN111401359A (zh) 目标识别方法、装置、电子设备和存储介质
CN111860261B (zh) 一种客流值的统计方法、装置、设备及介质
CN114360291A (zh) 驾驶员危险预警方法、装置、设备及存储介质
KR20190093752A (ko) 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240308

Address after: Luxembourg

Applicant after: Aptiv Manufacturing Management Services Co.

Country or region after: Luxembourg

Address before: Babado J San Michael

Applicant before: Aptiv Technologies Ltd.

Country or region before: Barbados

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240320

Address after: Schaffhausen

Applicant after: APTIV Technology Co.,Ltd.

Country or region after: Switzerland

Address before: Luxembourg

Applicant before: Aptiv Manufacturing Management Services Co.

Country or region before: Luxembourg