CN114118188A

CN114118188A - 针对待检测图像中移动对象的处理***、方法和存储介质

Info

Publication number: CN114118188A
Application number: CN202010894972.5A
Authority: CN
Inventors: 李航宇; 吴婧怡
Original assignee: Audi AG
Current assignee: Audi AG
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2022-03-01

Abstract

本发明要求保护一种针对待检测图像中移动对象的处理***、相应的方法、计算机设备和计算机可读存储介质。所述处理***包括：图像识别单元，被配置为：基于预设的机器学习模型和几何计算方法识别待检测图像中的移动对象；移动对象标识单元，被配置为：对于基于预设的机器学习模型和几何计算方法之一或二者识别出的移动对象，在待检测图像中使用标识层标记所识别出的移动对象；图像处理单元，被配置为：去除待检测图像中由标识层标记的移动对象所在的区域。利用本发明的技术方案，可以准确、高效地识别并去除待检测图像中的移动对象，并且通过本发明方案识别处理后的图像，可提高基于高精地图的导航定位的精度，另外也可有利于3D重构。

Description

针对待检测图像中移动对象的处理***、方法和存储介质

技术领域

本发明涉及图像处理技术领域，更具体而言，涉及一种针对待检测图像中移动对象的处理***、相应的方法、计算机设备和计算机可读存储介质。

背景技术

在车辆开启自动驾驶模式利用高精地图进行导航过程中、或者在需要进行3D地图重建的应用场景中，都会受到目标地图区域或重建场景中的移动对象的干扰，从而影响导航***的定位准确度或影响3D地图重建。现有技术中，通常是单独采用机器学习方法或者几何方法识别图像中的所述移动对象，但是单独利用机器学习方法可能会导致无法识别所有的移动对象(例如，本身不属于动态物体但是位置发生变化的半静态物体和静态物体)，而单独使用几何方法又可能会由于无法准确调节识别精度导致将未移动的物体错误地识别为移动对象。

因此，需要设计一种技术方案来准确、高效地识别并去除场景图像中的移动对象，以便于基于识别处理后的场景图像进行导航定位或3D重构。

发明内容

至少为了解决上述技术问题，本发明提出了一种针对待检测图像中的移动对象的处理方案，旨在准确、高效地识别并去除所述待检测图像中的移动对象。

作为本发明的第一方面，提供一种针对待检测图像中移动对象的处理***，其中，所述处理***包括：

图像识别单元，被配置为：基于预设的机器学习模型和几何计算方法识别所述待检测图像中的移动对象；

移动对象标识单元，被配置为：对于基于预设的机器学习模型和几何计算方法之一或二者识别出的移动对象，在所述待检测图像中使用标识层标记所识别出的移动对象；

图像处理单元，被配置为：去除所述待检测图像中由所述标识层标记的移动对象所在的区域。

在一个实施例中，其中预定义物体分类属性包括静态物体、半静态物体和动态物体，所述基于预设的机器学习模型和几何计算方法识别所述待检测图像中的移动对象，包括：

使用所述机器学习模型识别所述待检测图像中的动态物体；和/或

使用所述几何计算方法识别所述待检测图像中的位置发生变化的半静态物体和/或动态物体。

在一个实施例中，所述机器学习模型包括基于预定义物体分类属性和深度卷积神经网络预先训练的分类模型，其中，

所述使用所述机器学习模型识别所述待检测图像中的动态物体，包括：

使用所述分类模型按照所述物体分类属性对所述待检测图像中的物体进行识别和分类，以确定所述动态物体；和/或

所述使用所述几何计算方法识别所述待检测图像中的位置发生变化的半静态物体和/或动态物体，包括：

构建与所述待检测图像关联的用于比对的参考图像的参考图像集；

从所述参考图像集中选取与所述待检测图像重合度最大的参考图像；

确定所述参考图像中的至少一个检测点在所述待检测图像中的投影点，计算任一成对的所述检测点与投影点之间的汉明距离，判断所述汉明距离是否大于预设阈值；

响应于所述汉明距离大于预设阈值，确定所述待检测图像中的投影点对应的物体的位置发生了变化。

在一个实施例中，所述图像处理单元被进一步配置为：

从与所述待检测图像关联的参考图像中获取与该待检测图像中被去除的区域对应的位置的像素信息，基于所述像素信息填充所述待检测图像中被去除的区域。

作为本发明的第二方面，提供一种针对待检测图像中的移动对象的处理方法，其中，所述处理方法包括：

基于预设的机器学习模型和几何计算方法识别所述待检测图像中的移动对象；

对于基于预设的机器学习模型和几何计算方法之一或二者识别出的移动对象，在所述待检测图像中使用标识层标记所识别出的移动对象；

去除所述待检测图像中由所述标识层标记的移动对象所在的区域。

在一个实施例中，所述处理方法还包括：

作为本发明第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序在被处理器执行时实现本发明所述的处理方法。

作为本发明第四方面，提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中，所述处理器执行所述计算机程序时实现本发明所述的处理方法。

利用本发明的技术方案，通过所述预设的机器学习模型与几何计算方法的结合，既可以保证对所述待检测图像中的移动对象识别准确度，也可提高识别效率，同时降低预设的机器学习模型的训练数据量和复杂度。进一步地，通过本发明所述方案识别处理后的图像，不仅可提高基于高精地图的导航定位的精度，也有利于3D重构。

附图说明

以示例的方式参考以下附图描述本发明的非限制性且非穷举性实施方案，其中：

图1示出根据本发明一个实施方案的针对待检测图像中移动对象的处理***的示意图；

图2示出根据本发明一个实施方案的针对待检测图像中移动对象的处理方法的流程图；

图3a-3c示出根据本发明一个实施方案的针对待检测图像中移动对象的处理***和/或方法的应用示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施方案对本申请进行进一步详细说明。应当理解，此处描述的具体实施方案仅仅用以解释本申请，并不用于限定本申请。

作为本发明第一方面，提供一种针对待检测图像中移动对象的处理***100。具体地，所述处理***100包括图像识别单元110、移动对象标识单元120以及图像处理单元130，且各单元之间可通信地耦合。

如能理解的，为了对所述待检测图像中的移动对象进行识别，需要对待检测图像中的物体分类属性进行预定义，例如，所述预定义的物体分类属性可以包括静态物体、半静态物体和动态物体。具体地，以道路交叉口场景为例，所述静态物体可包括交通标志牌、车道边建筑物以及斑马线等；所述半静态物体可包括沿街商户的门、路边停靠的车辆等；所述动态物体可包括移动的行人、行驶的车辆等。所述预定义的物体分类属性可以由本领域技术人员在所述处理***100初始化时根据需要进行预先设定，也可以后续根据应用需求进行相应调整。

图像识别单元110可以被配置为：基于预设的机器学习模型和几何计算方法识别所述待检测图像中的移动对象。

根据情况，图像识别单元110可以首先使用所述机器学习模型识别所述待检测图像中的动态物体，然后使用所述几何计算方法识别所述待检测图像中的位置发生变化的半静态物体和/或动态物体；或者，也可以同时执行前述两种方法，然后根据两种方法的共同识别结果来识别图像中的所有移动对象。

在一个实施例中，所述预设的机器学习模型可以为基于预定义物体分类属性、预先获取的训练数据集以及深度卷积神经网络预先训练的分类模型，其中，所述训练数据集可以为图像数据集，其中每一张图像中包含有与预定义物体分类属性对应的物体。图像识别单元110可以使用所述分类模型按照所述物体分类属性对所述待检测图像中的物体进行识别和分类，以确定所述动态物体。

在另一个实施例中，图像识别单元110可以通过以下步骤识别所述待检测图像中的位置发生变化的半静态物体和/或动态物体：步骤1、构建与所述待检测图像关联的用于比对的参考图像的参考图像集；步骤2、从所述参考图像集中选取与所述待检测图像重合度最大的参考图像；步骤3、确定所述参考图像中的至少一个检测点在所述待检测图像中的投影点，计算任一成对的所述检测点与投影点之间的汉明距离，判断所述汉明距离是否大于预设阈值；步骤4、响应于所述汉明距离大于预设阈值，确定所述待检测图像中的投影点对应的物体的位置发生了变化。

具体地，在步骤1中，可以将与所述待检测图像相关联的多组环境图像(其中，该环境图像不包括任何移动对象)的集合作为参考图像集；如果没有不包括任何移动对象的环境图像或者这样的环境图像的数量不足，也可以将环境图像中不包括移动对象的图像区域作为所述参考图像集中的参考图像。

在步骤2中，图像识别单元110可以提取所述参考图像集中任意一帧参考图像的点特征，然后对输入所述处理***100的任意一帧待检测图像，从所述参考图像集中基于所述点特征选取与该当前待检测图像重合度最大的一帧图像作为参考图像。具体地，图像识别单元110可以利用快速特征点提取和描述算法提取所述参考图像集中任意一帧参考图像的多个点特征，并确定该多个点特征在所述待检测图像中的对应的投影，分别计算每一帧参考图像的多个点特征与在所述待检测图像上对应的投影之间的汉明距离的绝对值之和，选出其中绝对值之和最小的一组，从而确定出该绝对值之和最小的一组中对应的参考图像与所述当前待检测图像的重合度最大。其中，所述快速特征点提取和描述算法例如可以为定向快速旋转策略(ORB)。

在步骤3和步骤4中，图像识别单元110可基于步骤2中筛选出的与待检测图像重合度最大的参考图像，确定该参考图像中的至少一个检测点x，例如可以参照步骤2利用快速特征点提取和描述算法确定点特征的方式来确定所述检测点x，然后计算该参考图像中的检测点x在所述当前待检测图像中的投影点x'；基于多个检测点x和对应的投影点x'，计算所述参考图像与所述当前待检测图像之间的视角差α，判断所述视角差α是否大于预设的视角差阈值；响应于所述视角差α小于预设的视角差阈值，分别计算所述参考图像中的检测点x的特征描述符B_x和所述当前待检测图像中的投影点x'的特征描述符B_x'，基于所述特征描述符的标识，确定成对的所述检测点x和投影点x'，计算每一对所述检测点x和投影点x'之间的汉明距离H_dist，判断所述汉明距离H_dist是否大于预设汉明距离阈值τ_B；响应于所述汉明距离H_dist大于预设的汉明距离阈值τ_B，则确定所述当前环境图像中的投影点x'对应的物体属于位置发生变化的半静态物体和/或动态物体。

例如，视角差阈值优选为20°至30°。另外，所述预设汉明距离阈值τB可以根据不同需求或场景调整。设定合适的预设汉明距离阈值τB存在技术困难，具体地，如果预设汉明距离阈值τB设置的非常小，则会导致通过几何方法识别待检测图像时会将静态物体误识别为动态物体；而如果预设汉明距离阈值τB设置的非常大，则会导致通过几何方法识别待检测图像时会将动态物体误识别为静态物体。因此为了克服这一技术困难，优选地，在本发明的方案中，可以不需要特别准确地设置所述预设汉明距离阈值τB，只要设置的预设汉明距离阈值τB能够使得一部分动态物体被识别为静态物体即可。因为即使所述预设汉明距离阈值τB的设置使得一部分动态物体被识别为静态物体，也可以通过机器学习模型进行纠正。例如，如果在几何计算方法中设置预设汉明距离阈值τB导致忽略一部分动态物体，但是可以提高几何计算方法的识别效率，另外可利用机器学习模型(人工智能分类模型)识别出被忽略的动态物体。而对于机器学习模型本身，只需要考虑应用场景中经常出现的动态物体(例如，在道路交叉口的场景中，只需考虑行人、车辆)进行学习训练即可，从而减小训练数据量和复杂度，从整体上，通过对机器学习模型与几何计算方法二者各自识别结果的结合，既可以保证对所述待检测图像中的移动对象识别准确度，也可提高识别效率。

移动对象标识单元120可以被配置为：对于基于预设的机器学习模型和几何计算方法之一或二者识别出的移动对象，在所述待检测图像中使用标识层标记所识别出的移动对象。

如能理解的，在识别所述待检测图像中的移动对象的阶段，参考图像和所述待检测图像均为RGB图像。而在移动对象标识单元120对识别出的移动对象进行标识时，需要将所述待检测图像由RGB图像转换为深度图像，但是由于RGB与深度图像之间的时间差以及移动对象本身的深度不连续性，导致所述移动对象在深度图像中的位置与在RGB图像中存在误差，因此，为了消除该误差，可通过预设或可用的图像分割算法将所述移动对象的分割区域扩大，然后基于扩大后的分割区域使用标识层标记，以确保所述移动对象被标记。所述标记可以高亮或其他形式突出显示出所述移动对象所在区域。

图像处理单元130可以被配置为：去除所述待检测图像中由所述标识层标记的移动对象所在的区域。

如能理解的，可以利用任何可用的图像处理算法实现去除所述待检测图像中由所述标识层标记的移动对象所在的区域。例如，所述图像处理算法可以为基于区域的分割方法(FCN)或基于边缘的分割方法(Mask-RCNN)。

优选地，所述图像处理单元130可被进一步配置为：从与所述待检测图像关联的参考图像中获取与该待检测图像中被去除的区域对应的位置的像素信息，基于所述像素信息填充所述待检测图像中被去除的区域。

根据情况，如果所述待检测图像在去除所述移动对象以后，将用于进行3D重构，那么所述待检测图像中被去除的区域留下的“空白”由于缺失像素信息而影响3D重构。例如，在利用3D重构构建高精地图时，如果所述“空白”未做填充，则3D重建时因为缺少像素信息无法对这些“空白”所在区域进行地图重构。

为解决这一问题，如上所述，可从包括所述待检测图像的系列参考图像帧中(例如，从前一帧和后一帧)获取到被去除的区域对应的位置的像素信息，然后基于所述像素信息填充所述待检测图像中被去除的区域。

根据本发明的第二方面，提供一种针对待检测图像中的移动对象的处理方法200。其中，所述处理方法200包括：

S210、基于预设的机器学习模型和几何计算方法识别所述待检测图像中的移动对象；

S220、对于基于预设的机器学习模型和几何计算方法之一或二者识别出的移动对象，在所述待检测图像中使用标识层标记所识别出的移动对象；

S230、去除所述待检测图像中由所述标识层标记的移动对象所在的区域。

在一个实施例中，预定义物体分类属性包括静态物体、半静态物体和动态物体，所述基于预设的机器学习模型和几何计算方法识别所述待检测图像中的移动对象，包括：使用所述机器学习模型识别所述待检测图像中的动态物体；和/或使用所述几何计算方法识别所述待检测图像中的位置发生变化的半静态物体和/或动态物体。

在一个实施例中，所述机器学习模型包括基于预定义物体分类属性和深度卷积神经网络预先训练的分类模型，其中，所述使用所述机器学习模型识别所述待检测图像中的动态物体，包括：使用所述分类模型按照所述物体分类属性对所述待检测图像中的物体进行识别和分类，以确定所述动态物体；和/或所述使用所述几何计算方法识别所述待检测图像中的位置发生变化的半静态物体和/或动态物体，包括：构建与所述待检测图像关联的用于比对的参考图像的参考图像集；从所述参考图像集中选取与所述待检测图像重合度最大的参考图像；确定所述参考图像中的至少一个检测点在所述待检测图像中的投影点，计算任一成对的所述检测点与投影点之间的汉明距离，判断所述汉明距离是否大于预设阈值；响应于所述汉明距离大于预设阈值，确定所述待检测图像中的投影点对应的物体的位置发生了变化。

在一个实施例中，所述处理方法还包括：从与所述待检测图像关联的参考图像中获取与所述待检测图像中被去除的区域对应的位置的像素信息，基于所述像素信息填充所述待检测图像中被去除的区域。

应理解，本文中前述的第一方面关于针对待检测图像中移动对象的处理***所描述的具体特征也可类似地应用于第二方面的针对待检测图像中移动对象的处理方法中进行类似扩展。为简化起见，未对其进行详细描述。

下面结合图3a-3c对本发明所述针对待检测图像中移动对象的处理***和/或方法的应用进行示意性说明。

如能理解的，图3a-3c所示应用场景为车辆在道路上利用高精地图导航。如图所示，例如场景(以灰度图呈现)中可以包括：当前车辆O，交通标志牌A，车道边建筑物B，斑马线C，移动的行人D，前方车辆E，坐轮椅的残疾人F，宠物狗G以及路边可移动的水果摊H。需要说明的是，场景中的移动对象以矩形框图形式示出，其中可被识别出的移动对象对应的矩形框图内填充斜线，不能被识别出的移动对象对应的矩形框图内填充灰色。

参照图3a，如果仅利用预设的机器学习模型对该场景的图像进行识别，则可能会由于训练数据有限仅能识别出前方车辆E和移动的行人D为移动对象，其他未经过训练的移动对象类型(例如坐轮椅的残疾人F)就不能被识别。由于没学习过的物体类型不能通过预设的机器学习模型识别出，这也意味着要经过海量数据训练才可能实现应对复杂路况的识别。

参考图3b，如果仅利用几何计算方法对该场景的图像进行识别，由于无法确定预设汉明距离阈值τ_B的合理取值，可能会导致针对场景中局部地方(特别是远距离处的物体)的移动对象由于差异性较小可能无法识别出来，或者相反地会导致将静态物体错误地识别为移动对象。例如，可能会导致无法识别出相对当前车辆O较远的移动的行人D(灰色)，或者由于光线变化将交通标志牌A错误地识别为移动对象，而仅识别出相对当前车辆O较近的移动的行人D(斜线)、坐轮椅的残疾人F、路边可移动的水果摊H以及前方车辆E是移动对象。

参照图3c，在本发明中，将所述预设的机器学习模型与所述几何计算方法结合使用，在基于所述几何计算方法识别时，可以将所述预设汉明距离阈值τ_B设定大一些，这样设置虽然会忽略一部分动态物体(例如上述那些远距离处的动态物体)，但是可以提高几何计算方法的识别效率，然后可利用机器学习模型(分类模型)识别出被忽略的动态物体，而对于机器学习模型本身，则只需要考虑应用场景中经常出现的动态物体(例如，在道路交叉口的场景中，只需考虑行人、车辆)进行学习训练即可，从而减小训练数据量和复杂度，从整体上，通过对机器学习模型与几何计算方法二者各自识别结果的结合，既可以保证对所述待检测图像中的移动对象识别准确度，也可提高识别效率。例如，图3c所示，可以是识别出场景中绝大部分的移动对象，包括移动的行人D(斜线)、宠物狗G、坐轮椅的残疾人F、路边可移动的水果摊H以及前方车辆E。

基于上述对图3a-3c不同情况的描述可知，当前车辆O基于图3c所示的识别结果进行高精地图导航时的导航定位准确度是最高的，因为被识别出的移动对象去除后，滤除了移动对象的干扰，场景中剩下的仅为交通标志牌A、车道边建筑物B以及斑马线C，均为静态物体，与高精地图中的数据吻合，易于实现精准定位。

对于3D重构，例如当前车辆O的导航***要更新高精地图时，也可利用车辆摄像装置采集道路环境图像，此时就可优选地利用图3c所示的识别结果，去除全部移动对象，然后仅仅基于场景中剩下的仅为交通标志牌A、车道边建筑物B以及斑马线C构建高精地图，滤除移动对象的干扰，地图更精准。

应理解，本发明的针对待检测图像中的移动对象的处理***100的各个单元可全部或部分地通过软件、硬件、固件或其组合来实现。所述各单元各自可以硬件或固件形式内嵌于计算机设备的处理器中或独立于所述处理器，也可以软件形式存储于计算机设备的存储器中以供处理器调用来执行所述各单元的操作。所述各单元各自可以实现为独立的部件或模块，或者两个或更多个单元可实现为单个部件或模块。

本领域普通技术人员应理解，图1中示出的针对待检测图像中的移动对象的处理***100的示意图仅仅是与本发明的方案相关的部分结构的示例性说明框图，并不构成对体现本发明的方案的计算机设备、处理器或计算机程序的限定。具体的计算机设备、处理器或计算机程序可以包括比图中所示更多或更少的部件或模块，或者组合或拆分某些部件或模块，或者可具有不同的部件或模块布置。

作为本发明第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时实现本发明第二方面的方法的步骤。在一个实施例中，所述计算机程序被分布在网络耦合的多个计算机设备或处理器上，以使得所述计算机程序由一个或多个计算机设备或处理器以分布式方式存储、访问和执行。单个方法步骤/操作，或者两个或更多个方法步骤/操作，可以由单个计算机设备或处理器或由两个或更多个计算机设备或处理器执行。一个或多个方法步骤/操作可以由一个或多个计算机设备或处理器执行，并且一个或多个其他方法步骤/操作可以由一个或多个其他计算机设备或处理器执行。一个或多个计算机设备或处理器可以执行单个方法步骤/操作，或执行两个或更多个方法步骤/操作。

作为本发明第四方面，提供了一种计算机设备，其包括存储器和处理器，所述存储器上存储有可由处理器执行的计算机指令，所述计算机指令在由所述处理器执行时指示所述处理器执行本发明第二方面的针对待检测图像中的移动对象的处理方法的各步骤。该计算机设备可以广义地为服务器、车载终端，或任何其他具有必要的计算和/或处理能力的电子设备。在一个实施例中，该计算机设备可包括通过***总线连接的处理器、存储器、网络接口、通信接口等。该计算机设备的处理器可用于提供必要的计算、处理和/或控制能力。该计算机设备的存储器可包括非易失性存储介质和内存储器。该非易失性存储介质中或上可存储有操作***、计算机程序等。该内存储器可为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口和通信接口可用于与外部的设备通过网络连接和通信。该计算机程序被处理器执行时执行本发明的方法的步骤。

本领域普通技术人员可以理解，本发明的针对待检测图像中的移动对象的处理方法的全部或部分步骤可以通过计算机程序来指示相关的硬件如计算机设备或处理器完成，所述的计算机程序可存储于非暂时性计算机可读存储介质中，该计算机程序被执行时实现本发明的针对待检测图像中的移动对象的处理方法的步骤。根据情况，本文中对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。非易失性存储器的示例包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、闪存、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘等。易失性存储器的示例包括随机存取存储器(RAM)、外部高速缓冲存储器等。

以上描述的各技术特征可以任意地组合。尽管未对这些技术特征的所有可能组合进行描述，但这些技术特征的任何组合都应当被认为由本说明书涵盖，只要这样的组合不存在矛盾。

尽管结合实施例对本发明进行了描述，但本领域技术人员应理解，上文的描述和附图仅是示例性而非限制性的，本发明不限于所公开的实施例。在不偏离本发明的精神的情况下，各种改型和变体是可能的。

Claims

1.一种针对待检测图像中移动对象的处理***，其特征在于，所述处理***包括：

2.根据权利要求1所述的处理***，其特征在于，其中预定义物体分类属性包括静态物体、半静态物体和动态物体，所述基于预设的机器学习模型和几何计算方法识别所述待检测图像中的移动对象，包括：

3.根据权利要求2所述的处理***，其特征在于，所述机器学习模型包括基于预定义物体分类属性和深度卷积神经网络预先训练的分类模型，其中，

4.根据权利要求3所述的处理***，其特征在于，所述图像处理单元被进一步配置为：

5.一种针对待检测图像中的移动对象的处理方法，其特征在于，所述处理方法包括：

6.根据权利要求5所述的处理方法，其特征在于，其中预定义物体分类属性包括静态物体、半静态物体和动态物体，所述基于预设的机器学习模型和几何计算方法识别所述待检测图像中的移动对象，包括：

7.根据权利要求6所述的处理方法，其特征在于，所述机器学习模型包括基于预定义物体分类属性和深度卷积神经网络预先训练的分类模型，其中，

8.根据权利要求7所述的处理方法，其特征在于，所述处理方法还包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序在被处理器执行时实现权利要求5-8中任一项所述的处理方法。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求5-8中任一项所述的处理方法。