CN115147580A

CN115147580A - 图像处理装置、图像处理方法、移动装置和存储介质

Info

Publication number: CN115147580A
Application number: CN202210328099.2A
Authority: CN
Inventors: 儿玉成绪
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-03-30
Filing date: 2022-03-30
Publication date: 2022-10-04
Also published as: KR20220136196A; US20220319145A1; EP4068220A1; JP2022153857A

Abstract

本发明提供图像处理装置、图像处理方法、移动装置和存储介质。为了实现能够在抑制处理负荷的同时获得高精度区域分割结果的图像处理装置，图像处理装置包括：对象检测单元，其被配置为从图像数据检测物体；区域设置单元，其被配置为根据所述对象检测单元的检测结果来设置目标区域，其中在所述目标区域中向像素分配类别；以及类别分配单元，其被配置为向属于所述区域设置单元所设置的所述目标区域的所述类别的像素分配所述类别。

Description

图像处理装置、图像处理方法、移动装置和存储介质

技术领域

本发明涉及图像处理装置、图像处理方法、移动装置和存储介质等。

背景技术

针对车辆的自动驾驶和自推进机器人的周围环境的理解的技术开发已经取得进展，并且特别地，使用机器学习来估计到目标物体的距离的技术已经取得进展。例如，为了在车辆正在行进时估计到交通信号灯的距离，存在如下的技术：通过将标准所规定的交通信号灯的发光部分的实际大小与由机器学习模型进行区域分割的图像上的发光部分的直径的像素数或其面积相比较，来估计到交通信号灯的距离。作为区域分割方法，存在机器学习模型识别(归类)图像上的交通信号灯并设置包括物体的矩形(检测区域)的对象检测。可选地，存在被称为语义划分(semantic segmentation)的方法，在该方法中，通过以像素单位进行类别分类来进行语义区域分割。

Lubor Ladicky,Paul Sturgess,Karteek Alahari,Chris Russell,and PhilipH.S.Torr,What,Where&How Many？Combining Object Detectors and CRFs,ECCV2010

为了提高区域分割的精度，上述文献公开了如下的技术：从对象检测结果估计物体的存在范围，提升物体存在于该估计范围内的可能性，然后进行语义划分。

可选地，上述文献公开了如下的技术：从图像检测目标存在的区域，通过放大来自图像的该区域来切出第一图像，从区域中的目标生成第二图像，并且使用第一图像和第二图像来进行机器学习。

针对对象检测，提出了能够高速处理的多个神经网络结构。另一方面，已知与对象检测相比，语义划分虽然能够以高精度进行区域分割，但是常常需要大量计算。由于上述文献中所公开的技术实现这些机器学习模型中的每一个，因此存在针对诸如自动操作等的需要实时性的处理的处理的负荷过高的问题。

因此，本发明的一个目的是提供能够在抑制处理负荷的同时获得高精度区域分割结果的图像处理装置等。

发明内容

根据本发明的一方面，提供一种图像处理装置，包括至少一个处理器或电路，所述至少一个处理器或电路被配置为用作：对象检测单元，其被配置为从图像数据检测物体；区域设置单元，其被配置为根据所述对象检测单元的检测结果来设置目标区域，其中在所述目标区域中向像素分配类别；以及类别分配单元，其被配置为向属于所述区域设置单元所设置的所述目标区域的所述类别的像素分配所述类别。

根据本发明的另一方面，提供一种图像处理装置，包括至少一个处理器或电路，所述至少一个处理器或电路被配置为用作：对象检测单元，其被配置为从图像数据检测物体，并且输出所述物体的类别和检测到所述物体的预定检测区域；类别分配单元，其被配置为向属于所述检测区域的所述图像数据中的所述类别的像素分配所述类别；以及第一变倍单元，其被配置为在所述检测区域的所述图像数据被供给至所述类别分配单元之前，以第一变倍率对所述图像数据进行变倍。

根据本发明的另一方面，提供一种图像处理方法，包括：从图像数据检测物体；根据在物体检测中的检测结果来设置目标区域，其中在所述目标区域中向像素分配类别；以及向属于在区域设置中所设置的所述目标区域的所述类别的像素分配所述类别。

根据本发明的另一方面，提供一种移动装置，在所述移动装置中安装有图像处理装置，所述图像处理装置包括：对象检测单元，其被配置为从图像数据检测物体；区域设置单元，其被配置为根据所述对象检测单元的检测结果来设置目标区域，其中在所述目标区域中向像素分配类别；以及类别分配单元，其被配置为向属于所述区域设置单元所设置的所述目标区域的所述类别的像素分配所述类别，其中，所述移动装置包括控制单元，所述控制单元被配置为基于在所述类别分配单元向属于所述类别的像素分配所述类别之后的所述图像数据，来控制警告或所述移动装置的移动操作。

根据本发明的另一方面，提供一种非暂时性计算机可读存储介质，其被配置为存储计算机程序，所述计算机程序用于使图像处理装置执行如下步骤：从图像数据检测物体；根据在物体检测中的检测结果来设置目标区域，其中在所述目标区域中向像素分配类别；以及向属于在区域设置中所设置的所述目标区域的所述类别的像素分配所述类别。

根据本发明的另一方面，提供一种暂时性计算机可读存储介质，其被配置为存储计算机程序，所述计算机程序用于使移动装置执行如下步骤：从图像数据检测物体；根据在物体检测中的检测结果来设置目标区域，其中在所述目标区域中向像素分配类别；向属于在区域设置中所设置的所述目标区域的所述类别的像素分配所述类别；以及基于在类别分配中向属于所述类别的像素分配所述类别之后的所述图像数据，来控制警告或所述移动装置的移动操作。

从如下参考附图的实施例的描述，本发明的其他特征将变得明显。

附图说明

图1是示出本发明的第一实施例中的图像处理装置的结构示例的块图。

图2是示出第一实施例中的图像处理单元的结构示例的功能块图。

图3是示出第一实施例中的图像处理单元的操作示例的流程图。

图4A至图4D是示出第一实施例中的图像数据的示例的图。

图5A至图5C是示出第一实施例中的目标区域设置的图。

图6A至图6B示出第一实施例中的区域偏移估计的图。

图7是示出第二实施例中的图像处理单元的结构示例的块图。

图8是示出第二实施例中的图像处理单元的操作示例的流程图。

图9是示出图8后续的操作示例的流程图。

图10是示出第二实施例中的变倍率的确定方法的图。

图11是示出第三实施例中的图像合成方法的图。

图12是示出第三实施例中的用于模型学习的学习图像的创建方法。

具体实施方式

下文将参考附图使用实施例来描述本发明的有利模式。在各个图中，相同的附图标记应用至相同的构件或元件，并且重复描述将省略或简化。

可选地，在实施例中，将描述作为图像处理装置应用至车载照相机的示例。然而，图像处理装置包括诸如数字静态照相机、数字摄像机、具有照相机的智能电话、具有照相机的平板计算机、网络照相机、无人机照相机和安装在机器人上的照相机等的具有摄像功能的任意电子器件。

可选地，在实施例中，将描述作为移动装置的汽车中所安装的图像处理装置的示例，但是移动装置不限于汽车，并且可以是诸如飞机、船、机器人或无人机等的可移动装置。

(第一实施例)

在本发明的第一实施例中，对图像数据进行对象检测，并且指定类别及其检测区域。此外，将描述如下的示例：基于通过对象检测所指定的检测区域中的相对于预期的正解(correct-answer)区域的偏离度，来切出具有放大的检测区域的图像数据，并且对放大的图像数据进行语义划分。作为本实施例的语义划分中所处理的检测目标的类别是诸如人物、动物、汽车、二轮车辆、建筑物、道路、交通信号灯和交通标志等的自然物体和人造物体。

(图像处理装置的结构)

图1是示出根据本实施例的图像处理装置的结构示例的块图。图像处理装置包括CPU 100、RAM 101、ROM 102、摄像单元103、图像处理单元104、I/F(接口)单元105和总线106。

CPU 100使用RAM 101和ROM 102中所存储的计算机程序和数据来控制整个图像处理装置的操作。

RAM 101具有用于临时存储通过I/F单元105加载的计算机程序、针对最新的数帧的图像数据、图像处理单元104中所使用的处理参数等的存储区域。可选地，RAM具有在CPU100执行各种处理时所使用的存储区域、或在图像处理单元104进行图像处理时所使用的存储区域。因此，RAM 101可以适当地提供各种存储区域。

ROM 102存储本装置的设置数据和引导程序等。

摄像单元103是由光学镜头或CMOS图像传感器等构成的照相机，并且获取作为摄像目标的视频数据。在本实施例中，通过进行一般传感器校正或去马赛克处理而转换为RGB颜色图像的图像被存储在RAM 101中。

图像处理单元104作为能够执行ROM 102等中所存储的计算机程序的处理器或专用图像处理电路来实现，并且进行本实施例的图像处理方法。例如，如果从CPU 100接受执行图像处理的指示，则处理RAM 101中所存储的图像数据，并且输出对包括检测目标的区域进行了语义划分的区域分割图(region division map)。可选地，在图像处理时，在适当地读出RAM 101中所存储的处理参数的同时，进行处理。此外，由语义划分形成的区域分割图指示针对各个像素(例如，针对各个像素或针对多个像素中的各个像素)分配了类别信息的图。

I/F单元105用作用于将本装置连接至外部存储装置或因特网的接口。

各个上述单元连接至总线106。

此外，本实施例的图像处理装置的结构不限于图1所示的结构。

(图像处理单元的结构)

接下来，图2是示出第一实施例中的图像处理单元的结构示例的功能块图，并且如果图像处理单元104作为专用图像处理电路来实现，则其可以由图2所示的功能块构成。

在本实施例中，图像处理单元104是能够执行ROM 102等中所存储的计算机程序的处理器，并且根据图3所示的处理流程图通过执行处理来实现图2的各个块的功能。

如图2所示，图像处理单元104包括图像获取单元200、对象检测单元201、区域设置单元202、目标图像获取单元203、语义划分单元204和区域偏移估计单元205。附图标记200至205中的各个附图标记是由处理器实现的功能块。

图像获取单元200获取RAM 101中所存储的作为处理目标的图像数据。

对象检测单元201使用预定方法从图像数据检测多个物体，并且识别并输出这些物体的类别和检测到物体的检测区域。

区域设置单元202将预定检测区域设置为用于进行语义划分的目标区域，其中，该预定检测区域中，根据相对于具有针对检测区域实际存在正解区域的可能性的区域的偏移，来校正检测区域。即，区域设置单元根据对象检测单元的检测结果设置将类别分配至像素的目标区域。

目标图像获取单元203从RAM 101获取由区域设置单元202设置的区域的图像数据。

语义划分单元通过目标图像获取单元203输入由区域设置单元202设置的目标区域的图像数据，并且根据类别来对物体和背景进行区域分割。这里，语义划分单元用作用于向属于目标区域的图像数据中的预定类别的像素分配该类别的类别分配单元。

此外，在针对各个像素分配类别时，代替针对各个像素，可以针对多个像素中的各个像素来分配类别。

区域偏移估计单元205将对象检测单元201和语义划分单元204的输出结果相比较，并且估计对象检测单元201中发生的区域偏移量。

(图像处理单元的操作的描述)

图3是示出第一实施例中的图像处理单元的操作示例的流程图。通过图像处理单元104中的处理器执行计算机程序，实现图2所示的各个块的功能，并且进行图3的各个步骤的处理。

如果处理开始，则在步骤S300中，首先由图像获取单元200从RAM 101获取图像数据。

图4A至图4D是示出第一实施例中的图像数据的示例的图，并且图4A所示的图像数据是人物、汽车和交通标志是道路上的目标物体的示例。

在步骤S301中，对象检测单元201检测图像数据中的物体，并且识别并输出与物体的类别相关的信息和检测到物体的检测区域(对象检测步骤)。对象检测方法可以是与现有技术的方法相同的处理。已知基于区域的CNN(region-based CNN(R-CNN))、你只看一次(you only look once(YOLO))和单步检测器(single shot detector(SSD))等，作为具有相对低的处理负荷并且可以以高稳健性进行对象检测的神经网络。

在本实施例中，针对这些一般神经网络，使用经过利用学习图像数据集的机器学习的模型来进行对象检测，该图像数据集中，类别(人物、车辆、标志)与针对各个类别的检测区域的正解数据彼此关联。如果检测区域变得等于或大于与正解区域的预定重叠率，并且然后检测到的类别被校正为正解，则认为检测成功，并且计算指示对象检测中的检测精度的检测率。使用交并比(IoU)等作为针对检测区域与正解区域之间的重叠率的标准。另外，作为预定重叠率的示例，可以考虑50％或75％等。

在本实施例中，图4B示出进行对象检测的情况下的示意图。对象检测神经网络从学习数据自动定义对象检测所需的特征，并且逐渐汇总这些局部特征以获得全面判断。因此，例如，如果不存在足够大的网络规模以表达目标物体的识别所需的特征，或者如果学习数据与实际参考的图像数据之间存在特征差等，则对象检测的性能可能不能完全展示。

因此，检测区域(如果对图像数据进行对象检测，则输出该检测区域)经受相对于被认为是正解的检测区域的区域的偏移。在本实施例中，通过在考虑该区域偏移的同时设置针对语义划分的区域来提高语义划分的精度。

在步骤S302中，根据是否存在未处理物体来进行分支(branching)。如果存在未处理物体，则处理进入步骤S303，并且如果处理了全部未检测和检测到的物体，则处理完成。

在步骤S303中，区域设置单元202根据相对于具有针对检测区域实际存在正解区域的可能性的区域的偏移来校正由对象检测单元201输出的检测区域。由此，用于进行语义划分的目标区域被设置为最优化(区域设置步骤)。将参考图5A至图5C来描述区域设置方法。

图5A至图5C是示出第一实施例中的目标区域设置的图，并且图5A示出在检测到车辆的情况下的检测区域(图中虚线的框)和假设为正解的区域(图中实线的框)。假设为正解的区域被假设为与目标物体外接的矩形。

如图所示，检测区域具有发生相对于正解区域的区域偏移的可能性。因此，在本实施例中，通过根据相对于正解区域的区域偏移而校正检测区域来设置用于进行语义划分的区域。图5B示出在IoU＝50％的情况下检测区域与正解区域之间的关系的示例。图5B中左侧的两个示出以包括在正解区域中的方式输出检测区域的情况，并且图5B中右侧的两个示出以包括正解区域的方式输出检测区域的情况。

从图5B假设IoU＝50％，可以理解，检测区域的宽度w1处于w0/2至w0*/2的范围内，并且检测区域的高度h1处于h1/2至h1*/2的范围内。因此，假设为针对用于基于IoU＝50％的获得检测率的对象检测模型所检测到的检测区域，在上述范围中存在实际正解区域。图5C示出将检测区域的变动率I设置为0.5(相当于IoU＝50％)的情况下的校正区域(图中外侧的矩形)。通过根据图5B所示的正解区域与检测区域之间的关系、沿水平方向扩展(1/I-1)*w1的区域，并且沿垂直方向扩展(1/I-1)*h1的区域，可以将检测区域校正为包括正解区域的区域。

假设检测区域以IoU＝50％以上与正解区域重叠，通过将检测区域的宽度和高度放大为三倍来获得校正区域。即使在检测区域变动的情况下，物体也包括在校正区域中，并且因此可以可靠地进行区域分割。另一方面，通过使区域的扩展最小化，可以抑制后续语义划分的处理量。

在本实施例中，以该方式，检测区域(该检测区域例如根据具有相对于针对检测区域实际存在正解区域的可能性的区域的偏移、通过放大而被校正)被设置为用于语义划分的目标区域。此外，作为由于对象检测而引起的变动率，可以使用在水平方向和垂直方向上不同的变动率，或者可以使用根据类别值而不同的变动率。即，区域设置单元可以根据类别来校正检测区域，并且设置目标区域。

此外，如果进行检测区域中包括正解区域的对象检测，则可以在不扩展检测区域的情况下进行语义划分。

在步骤S304中，目标图像获取单元203从RAM 101获取步骤S303中所设置的目标区域的图像数据。由于这里所获取的图像数据限制在目标区域，因此可以减少对RAM 101的访问次数。可选地，为了进一步减少对RAM 101的访问次数，可以使用高速缓存结构，其中在高速缓存结构中，在图像获取单元200中确保用于临时保持图像数据的存储区域，并且如果在该存储区域中存在目标区域的图像数据，则从该存储区域读出图像数据。

在步骤S305中，语义划分单元204通过向属于目标区域的图像数据中的预定类别的像素分配类别，来进行基于类别的针对各个像素的区域分割(类别分配步骤)。语义划分方法可以是与现有技术的方法相同的处理。已知SegNet和U-Net等作为能够以高精度水平进行区域分割的神经网络。

这些网络被称为编码器-解码器型，并且在对编码器侧的前半部分进行池化的同时，对类别分类所需的特征进行全面汇总。接下来，在对解码器侧的后半部分进行上采样的同时，从以区域为单位的类别判断到以像素为单位的类别判断，一步步地实现区域分割(类别分类)。

在本实施例中，针对这些一般神经网络，使用利用与针对各个像素的类别(人物、车辆、标志)判断相关联的学习数据集进行机器学习的模型，来进行语义划分。图4C示出针对图像数据的语义划分结果。在本实施例中，根据对象检测中的检测区域(由虚线框所示)设置基于IoU等所放大的目标区域(由实线框所示)，并且对该目标区域进行语义划分。因此，可以以高精度对物体(人物、车辆、标志)和背景部分进行区域分割。

接下来，在步骤S306中，区域偏移估计单元205估计检测区域中所包括的区域偏移量。在步骤S303中，已经描述了假设IoU＝50％的情况下估计区域偏移量的方法。这作为在预先已知对象检测的检测精度的情况下假设区域偏移量的方法是有效的。然而，实际上，对象检测的检测精度根据摄像环境和目标物体的变化而变化。因此，期望通过来自实际检测到的物体的类别和摄像环境的实时反馈来估计区域偏移量，并且在本实施例中使用这种结构。

将参考图6A和图6B来描述从基于本实施例的对象检测的检测区域和语义划分的结果来估计针对各个类别的区域偏移量的方法。

图6A和图6B是示出第一实施例中的区域偏移估计的图；图6A示出人物的示例，并且图6B示出道路标志的语义划分的示例。在各个情况下，虚线框示出基于对象检测的检测区域；图6A的斜线部分是人物的示例，并且图6B的黑色部分是基于类别通过语义划分来对道路标志进行区域分割的示例。

首先，针对基于类别通过语义划分进行区域分割的物体，估计正解区域。正解区域是与进行区域分割的上述物体外接的矩形区域。具体地，可以通过如下操作来获得正解区域：使从区域分割图上的对象检测区域沿垂直和水平方向充分扩展的矩形区域沿缩小方向逐渐变窄，并且停止在上、下、右、左侧最初接触检测目标的类别值(人物、车辆、标志)的边的缩小。以该方式，通过计算被分配了类别的物体的正解区域(由实线示出)的位置与对象检测区域的位置之间的差来估计目标区域的偏移。

将检测区域的左侧的差设置为Ex0，将其右侧的差设置为Ex1，将其上侧的差设置为Ey0，并且将其下侧的差设置为Ey1。通过检测区域的宽度或高度的比来估计区域偏移量。具体地，估计检测区域与正解区域之间的左侧的偏移量是Ex0/w1，估计右侧的偏移量是Ex1/w1，估计上侧的偏移量是Ey0/h1，并且估计下侧的偏移量是Ey1/h1。它们是以具有正负的比来估计的，正比指示检测区域放大的方向，并且负比指示检测区域缩小的方向。

这里所估计的偏移量被反馈至区域设置单元202，并且在区域设置期间校正检测区域的情况下作为沿垂直和水平方向增加和减少的比被参考。此外，对象检测和语义划分根据图像数据输出包括变动的结果。因此，在区域偏移量的估计中，可以通过对沿各个方向的多个区域偏移量进行平滑并计算区域偏移量来以更高的精度估计区域偏移量。因此，可以使用这种结构。

可选地，由于区域偏移量可能突然增加，因此可以针对所估计的区域偏移量，在放大检测区域的方向上提供余裕。此外，区域偏移量的趋势根据要检测的类别而不同。例如，由于图6A所示的类别是人物的检测区域具有诸如人物的身体形状、服装和姿势等的许多可变因素，因此区域偏移量趋于增加。另一方面，由于图6B所示的标志的大小、颜色和形状在一定程度上由交通标准等确定，因此检测区域中的偏移量相对小。

因此，在估计区域偏移量时，可以估计根据类别的区域偏移量，并且可以在区域设置单元202中使用根据类别的区域偏移量来校正检测区域。

通过上述处理，在通过针对通过对象检测而以高稳健性检测到的物体对最小所需区域进行语义划分来抑制处理负荷的情况下，可以实现高精度区域分割。

(图像处理单元的修改例1)

以上，示出了针对通过对象检测而检测到的各个物体设置目标区域并进行语义划分的示例。在该修改例中，可以针对检测到的多个物体设置包括这些物体的一个目标区域，并且可以进行语义划分。

图4D是如下的示例：针对各个个体物体计算校正的检测区域，然后将包括多个校正的检测区域的区域400设置为语义划分的目标区域，并且进行语义划分。随着要检测的物体的数量增加并且密度增加，可以认为区域彼此重叠。在这种情况下，可能可以通过将诸如区域400等的全面区域设置为目标区域并进行语义划分来减小整体处理负荷。

(图像处理单元的修改例2)

以上，作为用于语义划分的机器学习模型，已经描述了使用以使得可以基于类别(人物、车辆、标志)来分割区域的方式进行了学习的模型的示例。另一方面，已经描述了针对通过对象检测而检测到的各个物体设置目标区域并进行语义划分的示例。即，针对进行语义划分的区域，预先已知尝试要进行区域分割的类别。因此，可以根据类别来切换语义划分方法。

在例如道路标志的情况下，可能可以通过将利用标准预先确定的标准标志图像保持作模板并且通过与该模板匹配而进行区域分割，来抑制处理负荷。可选地，关于车辆的区域分割，可以通过临时进行车辆型号等的估计并使用该车辆型号作为附加信息而进行语义划分来提高区域分割的精度。

可以确定为通过在预先根据类别单独地学习的模型之间或在定义学习内容的不同参数集之间进行切换来进行语义划分。这使得可以容易地提高个体类别中区域分割的学习效率，或者可以添加用于以后区域分割的类别。

(第二实施例)

在本发明的第二实施例中，对图像数据进行对象检测，并且指定其类别和检测区域。此外，将描述将包括检测到的目标物体的区域变倍至预期具有语义划分的最高分割精度的区域大小并且处理该区域的示例。

本实施例的图像处理装置的结构可以是与图1所示的第一实施例的结构相同的结构，因此将省略其描述。

(图像处理单元的结构)

图7是示出第二实施例中的图像处理单元的结构示例的块图。

可选地，图8是示出第二实施例中的图像处理单元104的操作的流程图。此外，将省略具有相同名称和相同附图标记的上述组件的详细描述，并且将仅在存在差异的情况下给出其描述。

第二实施例的图像处理单元104包括图像获取单元200、对象检测单元201、区域设置单元202、目标图像获取单元203和语义划分单元204。此外，图像处理单元包括第一变倍单元206、图像合成单元207、图像切出单元208和第二变倍单元209。在由区域设置单元设置的目标区域的图像数据被供给至语义划分单元之前，由第一变倍单元以第一变倍率对图像数据进行变倍。

可选地，图像合成单元207将由第一变倍单元变倍的目标区域的图像数据与其他目标区域的图像数据进行合成，然后将其供给至语义划分单元。可选地，在语义划分单元将类别分配至属于类别的像素之后的图像数据被第二变倍单元209以第二变倍率进行变倍。此外，尽管图7未示出，与第一实施例的区域偏移估计单元205类似的区域偏移估计单元205可以设置在第二变倍单元209等的后面。

可选地，在第二实施例中，附图标记200至209等中的各个附图标记是由处理器实现的功能块。

第一变倍单元206以使得检测目标的图像上的大小变为适合于语义划分的大小的变倍率将目标区域的图像数据进行放大或缩小。图像合成单元207对多个目标区域的图像数据进行合成，并且生成用于进行语义划分的图像数据。

图像切出单元208从进行语义划分的区域分割图切出目标物体的区域。即，在向属于各个类别的像素分配类别之后的图像数据被语义划分单元供给至第二变倍单元之前，针对各个目标区域切出图像数据。

第二变倍单元209以作为第一变倍单元206中的变倍率的倒数的变倍率将区域分割图进行放大或缩小，并且获得具有与输入图像数据中的目标物体相同的分辨率的区域分割图。

(图像处理单元的操作描述)

图8是示出第二实施例中的图像处理单元的操作示例的流程图，并且图9是示出图8后续的操作示例的流程图。通过图像处理单元104中的处理器执行计算机程序，实现图7所示的各个块的功能，并且进行图8和图9中各个步骤的处理。此外，将省略具有上述相同名称和相同附图标记的步骤的详细描述，并且将在存在差异的情况下添加其描述。

如果处理开始，则在步骤S300和S301中，对图像数据进行对象检测，并且获得与物体的类别相关的信息和检测区域。可选地，如果步骤S302中存在未处理物体，则在步骤S303中使用与第一实施例相同的方法来适应性地校正各个物体的检测区域，设置与校正后的检测区域对应的目标区域，并且在步骤S304获得目标区域的图像数据。如果步骤S302中不存在未处理物体，则处理结束。

在步骤S307中，确定目标区域的图像数据的变倍率，使得具有适合于后续级中的语义划分单元的图像大小。在使用机器学习的神经网络结构中，为了增强图像中的检测到的物体的大小的稳健性，在多个级中设置池化层，以各个分辨率提取特征。

由此，如果物体的轮廓清楚，则不依赖于图像上的大小的对象检测和区域分割是可能的。然而，随着隐藏层的级数增加，用于推断的计算量和保持参数集的存储量急剧增加，因此需要根据相应的检测到的物体的大小的变动量来适当地设置隐藏层的级数。

图10是示出第二实施例中的变倍率的确定方法的图。

在第二实施例中，假设VGA图像(宽度为640个像素并且高度为480个像素)作为用于语义划分的输入图像的大小，并且作为指导，用于进行区域分割的最佳物体大小是约100个像素×约100个像素。以该方式，通过将用于语义划分的最佳物体大小确定为特定大小，可以省略网络结构的隐藏层并减小处理负荷。

可选地，作为能够减少隐藏层的标准，如果N和M是正整数，则优选将物体大小进行变倍，使得它落入N个像素×M个像素至N/2个像素×M/2个像素的范围内。这是因为池化处理通常将沿垂直和水平方向的数据量减半，并且针对物体大小的变动，根据池化的次数来切换有效特征。可选地，即使在用于进行区域分割的最佳物体大小不清楚的模型的情况下，也可以通过对大小已经改变的物体图像进行实际处理并确认分割的精度来预先确定最佳物体大小。

考虑到该最佳物体大小的指导和对象检测中的检测区域包括变动量，VGA图像被分割为通过将图像垂直地和水平地分割为16个部分而获得的具有宽度为160个像素并且高度为120个像素的大小的小区域。设置变倍率，使得包括物体的检测区域(考虑变动量而放大的区域)进入该小区域。在检测到的物体的宽度是W个像素并且其高度是H个像素的情况下，通过在以(W/160)倍和(H/120)倍获得的变倍率结果中选择可以变倍至能够存储在小区域中的大小(宽度、高度)的变倍率，能够在不改变物体的纵横比的情况下确定第一变倍率。

在步骤S308中，第一变倍单元206使用上述第一变倍率来进行第一变倍处理(第一变倍步骤)。作为变倍处理的方法，可以使用已知方法。此外，在根据变倍率来缩小和放大的情况下，可以改变变倍处理的方法。在基于语义划分的区域分割中，物体形状的清楚度极大影响区域分割的精度，但是在缩小的情况下，原图像数据的形状不大可能劣化，因此可以使用低阶插值方法(双线性插值)。另一方面，由于在放大的情况下形状趋于劣化，因此可以使用高阶插值方法(诸如双三次插值或Lanczos插值)来对计算量和区域分割的精度进行平衡。

在步骤S309中，图像合成单元207生成用于输入至语义划分单元204的合成图像数据(图像合成步骤)。在本实施例中，如图9所示，在通过将VGA图像分割为16个部分而获得的各个小区域中，通过将包括已经以不同变倍率调整了大小的物体的区域顺次进行合成来生成图像数据。

此外，如果物体检测数小于16，则可以在存在小的空白区域的状态下进行语义划分。在后续级中的图像切出单元208中，小的空白区域不被切出，因此即使存在小的空白区域，也没有影响。此外，步骤S309中进行合成的原因是提高语义划分单元204中的处理效率。

在步骤S310中，判断合成图像是否完成，并且进行分支。如果合成图像没有完成，则处理返回至步骤S303，并且合成用于下一物体的处理区域。可选地，如果合成图像完成，则处理进入图9的步骤S305，并且通过对合成图像进行语义划分来获得合成图像的区域分割图。

在步骤S311中，在合成图像的区域分割图中，判断是否存在未输出的小区域并且进行分支。如果存在未输出的小区域，则处理进入步骤S312，并且如果已经输出全部小区域，则处理进入步骤S302。

在步骤S312中，图像切出单元208从合成图像的区域分割图切出针对一个物体的区域分割图。在本实施例中，由于合成图像由16个分割的小区域构成，因此顺次切出小区域。

在步骤S313中，计算第二变倍率。第二变倍率是将合成图像的小区域恢复至原分辨率的变倍率。因此，它是通过计算第一变倍率的倒数来计算的。

在步骤S314中，第二变倍单元209基于第二变倍率来进行第二变倍处理(第二变倍步骤)。对区域分割图进行第二变倍处理。与普通图像数据不同地，区域分割图利用指示类别被添加至像素值的值来进行存储。此外，不优选使用插值处理来输出与类别值不同的值。因此，在本实施例中，作为第二变倍处理，使用诸如最近邻插值等的、在插值之后的图中仅出现类别值的插值方法。

上述处理使得能够在减小语义划分的处理负荷的同时实现高效和高精度的区域分割。此外，本实施例所示的合成图像用于提高处理效率，并且可以至少使用适合于区域分割的第一变倍处理和用于恢复至输入分辨率的第二变倍处理来获得本实施例的效果。

(第三实施例)

在第三实施例中，通过将目标区域的图像数据布置在根据对象检测所检测到的类别而预先确定的预定图像位置处或者在多个类别所共用的预定位置处来生成合成图像。然后，对合成图像进行语义划分。

应用第三实施例的图像处理装置的结构可以是与第一实施例和第二实施例的结构相同的结构，并且将省略其描述。可选地，可以通过第二实施例的结构来实现图像处理单元104的结构，因此将省略其描述。

在本实施例中，通过图7所示的图像合成单元207和图像切出单元208的操作来增强语义划分的学习效率。

图11是示出第三实施例中的图像合成方法的图，并且示出由图像合成单元207合成的合成图像1000。合成图像1000被分割为根据类别预先固定位置的小区域和类别共同的小区域。

可选地，箭头指示：基于通过对象检测而检测到的物体的类别和检测区域，考虑到相对于具有正解区域实际存在的可能性的区域的偏移，根据类别而在哪个位置布置并合成所放大的目标区域。

通过根据物体的类别而预先限制物体存在的图像的区域，来在实现视线语义划分时的模型中可以省略全面特征的学习。特别地，在具有被称为瓶颈层的影响大部分图像的隐藏层的网络结构中，可以获得高学习效率效果。

在模型学习时，一般不知道物体出现在图像上的哪个位置，因此在物体的类别和物体出现的位置的组合中，需要假设各种模式并进行学习。然而，通过如第三实施例中那样地组合对象检测，可以固定物体的类别和物体出现的位置并且可以通过限制学习模式来提高学习效率。另外，由于小区域之间的边界总是存在，因此将必要特征的范围限制在小区域之间，因此可以省略瓶颈层的学习。

图12是示出第三实施例中的用于模型学习的学习图像的创建方法，并且与图8中的步骤S309的合成处理相对应。通过图像处理单元104中的处理器执行计算机程序，实现图7所示的各个块的功能，并且进行图12中的各个步骤的处理。

本实施例中的学习图像的创建方法的前提是预先准备(设置)一般数据集(输入图像和针对输入图像中存在的物体的各个类别而分割的区域分割图的集合)。

因此，在步骤S1100中，在区域分割图中设置针对图像中的各个物体(类别值)的检测区域。检测区域设置与物体外接的矩形区域。在区域分割图中，由于相同的物体通过相同的类别值而彼此连接，因此通过使矩形区域沿物体的垂直和水平方向逐渐变窄并且固定与类别值接触的边，可以在某种程度上自动进行设置。

在步骤S1101中，考虑到对象检测中的变动，相对于步骤S1100中的检测区域将检测区域进行放大。对于放大检测区域的方法，可以使用第一实施例所述的方法来放大。

在步骤S1102中，针对与类别值相对应的位置处的小区域，布置步骤S1101中所放大的检测区域。在该情况下，根据小区域的大小，在进行变倍之后布置放大的检测区域。在步骤S1102中，生成在学习期间用作输入数据的图像数据和与图像数据相关联的区域分割图这两者。

在步骤S1103中，针对共用位置处的小区域，布置步骤S1101中所放大的检测区域。在该情况下，根据共用位置处的小区域的大小来进行变倍处理，但是如果其与步骤S1102中的各个类别的小区域的大小不同，则以不同的变倍率进行变倍。另外，在步骤S1103中，虽然生成在学习期间用作输入数据的图像数据和与图像数据相关联的区域分割图这两者，但是可以以覆盖步骤S1102中所生成的数据的形式来生成。

在步骤S1104中，对数据集的输入图像中的全部物体进行处理或分支。

在步骤S1105中，对数据集中的全部图像进行处理或分支。

通过上述处理，可以获得本实施例中的学习期间的输入图像数据和作为正解的区域分割图。这些数据集可以用于高效学习语义划分的模型。

可选地，通过如第三实施例中那样地预先确定小区域使用类别，如果物体的出现存在偏差，例如，如果车辆类别中存在大量物体等，则语义划分的执行效率可能降低。另一方面，在本实施例中，通过设置共用小区域，可以防止执行效率根据物体的出现频率而降低。此外，设置共用小区域与学习效率具有折衷关系。

可选地，通过根据小区域使用类别将检测区域的图像数据布置在预定纵横比的区域中以生成合成图像，可以更高效地生成合成图像。例如，通过在车辆类别的情况下设置接近正方形的小区域并且在人物类别的情况下设置垂直方向上长的小区域，可以高效地铺上小区域并且提高语义划分的执行效率。

如上所述，通过对根据物体的类别而预先确定了放置位置的图像数据进行合成并且对合成的图像数据进行语义划分，可以高效地实现高稳健性和高精度的区域分割。

可选地，如果本实施例中具有图像处理装置的摄像装置或图像处理装置安装在诸如汽车等的移动装置中，则其具有例如如下结构。即，语义划分单元204提供控制单元，该控制单元基于在将类别分配至属于类别的像素之后的图像数据，来控制与障碍物相关的警告或诸如移动装置的方向或速率等的移动操作。

在本实施例的图像处理装置中，可以在抑制处理负荷的同时获得高稳健性和高精度区域分割的结果，因此可以更快速地识别例如远处前方车辆或障碍物等，并获得诸如能够快速地避免事故等的优异效果。

尽管已经参考示例性实施例描述了本发明，但是应理解，本发明不限于所公开的示例性实施例。所附权利要求的范围将符合最广泛的解释，以涵盖所有这样的修改和等同的结构和功能。此外，作为根据本实施例的控制的部分或全部，可以通过网络或各种存储介质将实现上述实施例的功能的计算机程序供给至图像处理设备。然后，图像处理设备的计算机(或CPU或MPU等)可以被配置为读取并执行程序。在这种情况下，程序和存储该程序的存储介质构成本发明。

本申请要求2021年3月30日提交的日本专利申请2021-056596的权益，该申请在此通过引用整体并入本文。

Claims

1.一种图像处理装置，包括至少一个处理器或电路，所述至少一个处理器或电路被配置为用作：

对象检测单元，其被配置为从图像数据检测物体；

区域设置单元，其被配置为根据所述对象检测单元的检测结果来设置目标区域，其中在所述目标区域中向像素分配类别；以及

类别分配单元，其被配置为向属于所述区域设置单元所设置的所述目标区域的所述类别的像素分配所述类别。

2.根据权利要求1所述的图像处理装置，其中，所述区域设置单元通过对所述对象检测单元检测所述物体的检测区域进行放大来设置所述目标区域。

3.根据权利要求2所述的图像处理装置，其中，所述区域设置单元通过根据所述类别校正所述检测区域来设置所述目标区域。

4.根据权利要求1所述的图像处理装置，还包括区域偏移估计单元，所述区域偏移估计单元被配置为基于被所述类别分配单元分配了所述类别的所述物体的位置来估计所述目标区域的偏移。

5.根据权利要求4所述的图像处理装置，其中，所述区域设置单元通过参考所述区域偏移估计单元所估计的区域偏移来设置所述目标区域。

6.根据权利要求5所述的图像处理装置，其中，所述区域偏移估计单元通过将被所述类别分配单元分配了所述类别的所述物体的位置与所述对象检测单元检测所述物体的检测区域的位置相比较，来估计所述区域偏移。

7.根据权利要求4所述的图像处理装置，其中，所述区域偏移估计单元根据所述类别来估计区域偏移量。

8.根据权利要求2所述的图像处理装置，其中，所述区域设置单元校正所述对象检测单元所检测到的多个检测区域中的各个检测区域，并且将包括校正后的所述多个检测区域的区域设置为所述目标区域。

9.根据权利要求1所述的图像处理装置，其中，所述类别分配单元根据所述对象检测单元所检测到的所述物体的所述类别，使用不同的参数集来分配所述类别。

10.一种图像处理装置，包括至少一个处理器或电路，所述至少一个处理器或电路被配置为用作：

对象检测单元，其被配置为从图像数据检测物体，并且输出所述物体的类别和检测到所述物体的预定检测区域；

类别分配单元，其被配置为向属于所述检测区域的所述图像数据中的所述类别的像素分配所述类别；以及

第一变倍单元，其被配置为在所述检测区域的所述图像数据被供给至所述类别分配单元之前，以第一变倍率对所述图像数据进行变倍。

11.根据权利要求10所述的图像处理装置，还包括第二变倍单元，所述第二变倍单元被配置为以第二变倍率对在所述类别分配单元向属于所述类别的像素分配所述类别之后的所述图像数据进行变倍。

12.根据权利要求11所述的图像处理装置，其中，所述第二变倍率是所述第一变倍率的倒数。

13.根据权利要求10所述的图像处理装置，还包括图像合成单元，所述图像合成单元被配置为对所述第一变倍单元变倍后的所述检测区域的所述图像数据与其他检测区域的图像数据进行合成，然后将合成图像数据供给至所述类别分配单元。

14.根据权利要求13所述的图像处理装置，其中，所述图像合成单元通过将所述检测区域的所述图像数据布置在根据所述类别的预定位置处或者多个类别共用的预定位置处来生成合成图像。

15.根据权利要求13所述的图像处理装置，其中，所述图像合成单元通过将所述检测区域的所述图像数据布置在根据所述类别的预定位置处来生成合成图像。

16.根据权利要求13所述的图像处理装置，其中，所述图像合成单元通过将所述检测区域的所述图像数据布置在具有根据所述类别的预定纵横比的区域中来生成合成图像。

17.根据权利要求11所述的图像处理装置，还包括切出单元，所述切出单元被配置为在所述类别分配单元向属于所述类别的像素分配所述类别之后，在所述图像数据被供给至所述第二变倍单元之前，针对各个目标区域切出所述图像数据。

18.根据权利要求10所述的图像处理装置，其中，所述类别分配单元包括机器学习模型，所述机器学习模型被配置为向属于所述检测区域的图像数据内的所述类别的像素分配所述类别。

19.根据权利要求18所述的图像处理装置，其中，所述类别分配单元对所述检测区域进行语义划分。

20.一种图像处理方法，包括：

从图像数据检测物体；

根据在物体检测中的检测结果来设置目标区域，其中在所述目标区域中向像素分配类别；以及

向属于在区域设置中所设置的所述目标区域的所述类别的像素分配所述类别。

21.根据权利要求20所述的图像处理方法，还包括：

在类别分配中供给在所述区域设置中所设置的所述目标区域的所述图像数据之前，以第一变倍率对所述图像数据进行第一变倍；以及

以第二变倍率对在所述类别分配中向属于所述类别的像素分配所述类别之后的所述图像数据进行第二变倍。

22.根据权利要求21所述的图像处理方法，其中，所述第二变倍率是所述第一变倍率的倒数。

23.根据权利要求21所述的图像处理方法，还包括：对在所述第一变倍中所变倍后的所述目标区域的所述图像数据与其他目标区域的图像数据进行合成，然后为所述类别分配供给合成图像数据。

24.一种移动装置，在所述移动装置中安装有图像处理装置，所述图像处理装置包括：

对象检测单元，其被配置为从图像数据检测物体；

类别分配单元，其被配置为向属于所述区域设置单元所设置的所述目标区域的所述类别的像素分配所述类别，

其中，所述移动装置包括控制单元，所述控制单元被配置为基于在所述类别分配单元向属于所述类别的像素分配所述类别之后的所述图像数据，来控制警告或所述移动装置的移动操作。

25.一种非暂时性计算机可读存储介质，其被配置为存储计算机程序，所述计算机程序用于使图像处理装置执行如下步骤：

从图像数据检测物体；

26.一种暂时性计算机可读存储介质，其被配置为存储计算机程序，所述计算机程序用于使移动装置执行如下步骤：

从图像数据检测物体；

根据在物体检测中的检测结果来设置目标区域，其中在所述目标区域中向像素分配类别；

向属于在区域设置中所设置的所述目标区域的所述类别的像素分配所述类别；以及

基于在类别分配中向属于所述类别的像素分配所述类别之后的所述图像数据，来控制警告或所述移动装置的移动操作。