CN113514053B

CN113514053B - 生成样本图像对的方法、装置和更新高精地图的方法

Info

Publication number: CN113514053B
Application number: CN202110793044.4A
Authority: CN
Inventors: 何雷; 宋适宇
Original assignee: Apollo Intelligent Technology Beijing Co Ltd
Current assignee: Apollo Intelligent Technology Beijing Co Ltd
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2024-03-26
Anticipated expiration: 2041-07-13
Also published as: CN113514053A

Abstract

本公开提供了一种生成样本图像对的方法、装置、电子设备和存储介质。涉及人工智能领域，具体涉及计算机视觉、智能交通、自动驾驶和深度学习领域。该生成样本图像对的方法包括：基于与实景图像对应的第一地图信息，确定实景图像包括的目标对象的位置信息；基于预定类别，确定实景图像包括的目标对象的一种随机类别组合；基于实景图像包括的目标对象的位置信息，确定针对实景图像的删除对象的位置信息；以及基于删除对象的位置信息、实景图像包括的目标对象的位置信息和随机类别组合，生成针对实景图像的第一待更新图像，并对由第一待更新图像与实景图像构成的图像对添加标签。其中，预定类别包括添加类别和无变化类别。

Description

生成样本图像对的方法、装置和更新高精地图的方法

技术领域

本公开涉及人工智能技术领域，具体涉及计算机视觉、智能交通、自动驾驶和深度学习技术领域，更具体地涉及一种生成图像样本对的方法、装置、电子设备和存储介质，以及一种更新高精地图的方法。

背景技术

随着计算机技术和网络技术的发展，自动驾驶技术和智能导航技术逐渐成熟。该两项技术均需依赖于包含丰富的环境信息的高精地图(High definition map)。该高精地图可以表示由道路、交通信号灯等构成的交通拓扑结构。

随着城市的发展和交通规划的变化，需要不断地更新已生成的高精地图，以使得高精地图可以表示实际的交通拓扑结构，为自动驾驶技术和智能导航技术所提供的服务提供支持，提高所提供的服务的用户体验。

发明内容

本公开提供了一种生成样本图像对的方法、装置、电子设备和存储介质，以基于生成的样本图像对训练目标检测模型，使得目标检测模型可以检测图像的变化。

根据本公开的一个方面，提供了一种生成样本图像对的方法，包括：基于与目标实景图像对应的第一地图信息，确定目标实景图像包括的目标对象的位置信息；基于预定类别，确定目标实景图像包括的目标对象的一种随机类别组合；基于目标实景图像包括的目标对象的位置信息，确定针对目标实景图像的删除对象的位置信息；以及基于删除对象的位置信息、目标实景图像包括的目标对象的位置信息和随机类别组合，生成针对目标实景图像的第一待更新图像，并对由第一待更新图像与目标实景图像构成的图像对添加标签，其中，标签指示目标实景图像相对于第一待更新图像的实际更新信息，预定类别包括添加类别和无变化类别。

根据本公开的另一方面，提供了一种生成样本图像对的装置，包括：第一位置确定模块，用于基于与目标实景图像对应的第一地图信息，确定目标实景图像包括的目标对象的位置信息；类别组合确定模块，用于基于预定类别，确定目标实景图像包括的目标对象的一种随机类别组合；第二位置确定模块，用于基于目标实景图像包括的目标对象的位置信息，确定针对目标实景图像的删除对象的位置信息；第一图像生成模块，用于基于删除对象的位置信息、目标实景图像包括的目标对象的位置信息和随机类别组合，生成针对目标实景图像的第一待更新图像；以及第一标签添加模块，用于对由第一待更新图像与目标实景图像构成的图像对添加标签，其中，标签指示目标实景图像相对于第一待更新图像的实际更新信息，预定类别包括添加类别和无变化类别。

根据本公开的另一个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的生成样本图像对的方法。

根据本公开的另一个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的生成样本图像对的方法。

根据本公开的另一个方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开提供的生成样本图像对的方法。

根据本公开的另一个方面，提供了一种更新高精地图的方法，包括：确定高精地图中与采集的实景图像相对应的图像，获得第三待更新图像；将采集的实景图像输入目标检测模型的第一特征提取网络，得到第一特征数据；将第三待更新图像输入目标检测模型的第二特征提取网络，得到第二特征数据；将第一特征数据和第二特征数据输入目标检测模型的目标检测网络，得到采集的实景图像相对于第三待更新图像的更新信息；以及基于更新信息，对高精地图进行更新。目标检测模型是基于本公开提供的生成样本图像对的方法所生成的样本图像对训练得到的。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的生成样本图像对的方法的流程示意图；

图2是根据本公开实施例的生成针对实景图像的第一待更新图像的原理示意图；

图3是根据本公开实施例的确定删除对象的位置信息的原理示意图；

图4是根据本公开实施例的基于实景视频生成样本图像对的方法的原理示意图；

图5是根据本公开实施例的目标检测模型的训练方法的流程示意图；

图6是根据本公开一实施例的目标检测模型的结构示意图；

图7是根据本公开另一实施例的目标检测模型的结构示意图；

图8是根据本公开另一实施例的目标检测模型的结构示意图；

图9是根据本公开另一实施例的目标检测模型的结构示意图；

图10是根据本公开实施例的并行交叉差单元的结构示意图；

图11是根据本公开实施例的采用目标检测模型确定图像的更新信息的方法的流程图；

图12是根据本公开实施例的生成样本图像对的装置的结构框图；

图13是根据本公开实施例的目标检测模型的训练装置的结构框图；

图14是根据本公开实施例的采用目标检测模型确定图像的更新信息的装置的结构框图；以及

图15是用来实施本公开实施例提供的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

自动驾驶技术和智能导航技术均需依赖于包含丰富的环境信息的高精地图。环境信息例如包括有车道信息、人行横道信息、交通信号灯的位置信息和交叉口的位置信息等。高精地图是先验知识的重要来源，必须通过不断地更新迭代来充分保持其对现实世界最新变化的反映能力。现实世界的变化例如可以包括指示灯的安装或移除、便携式交通信号灯的位置的移动等。

相关技术中，与地图更新相关的任务有检测场景变化的任务，该任务采用的技术方案主要分为三类。第一类是利用预先构建的3D CAD模型和通过经典的多视角立体(Multi-View Stereo，MVS)方法构建的重建模型进行3D模型与3D模型之间的比较。该方法较为耗时，仅适用于离线场景。第二种方法是通过对新获取的图像与原始三维模型进行比较，来推断场景的变化。特别地，通过比较3D体素模型的体素颜色与对应的图像的像素颜色来推测变化率。相关可替代的方法是在给定的3D模型的帮助下，通过将新图像重新投影到旧图像上来识别变化，并比较得到新图像与旧图像之间不一致的信息。第三种方法是采用表示场景旧状态的图像与表示场景新状态的图像进行二维比较。该方法包括预先准备2D图像的步骤。

除了检测场景中的变化外，高精地图的变化检测任务例如还应识别高精地图中发生变化的元素和变化的类型。一种简单的方法是使用标准的目标检测器识别图像中的地图元素、将地图元素投影到图像上，将投影与检测关联起来，最后通过交叉比较来得到相应的变化。其中，目标检测是计算机视觉中的一个经典问题。解决方案主要分为两类，即两阶段方法和一阶段方法。从该简单的方法可以看出，整个过程涉及到多个步骤。每一个步骤都有其优化目标，因此，检测变化的整个方法难以实现整体的最优解。例如，目标检测器通常通过设置阈值检测置信分数和运行非最大抑制(Non-Maximum Suppression，NMS)来权衡精度和召回量。该方法忽略了高精地图的重要先验信息。

为了实现高精地图的变化检测任务，本公开提供了一种端到端学习的方法来直接检测图像变化。更具体地说，使用目标检测模型来检测高精地图中缺失或冗余的元素。为了在高精地图中加入先验信息，可以将地图中的元素投影到图像上，得到待更新图像。将待更新图像和实景图像都作为目标检测模型的输入，由目标检测模型检测从该两个图像中提取的特征之间的差异，并基于该差异来预测得到地图中缺失或冗余的元素。本公开的方法可以推广到形状规则的任意物体的变化检测任务中，本公开对此不做限定。

这是由于高精地图的变化检测(The HD Map Change Detection，HMCD)任务的形式类似于目标检测问题。目标是识别预定义的对象类(例如交通信号灯、道路导引牌、限速牌等)的变化。使用二维包围盒(Bounding Box)可以描述检测到的对象在图像中的位置，并为其指定正确的更改类别，该类别可以包括添加、删除和无变化等。例如，带有to_add属性的对象是高精地图丢失的对象(应当添加)，带有to del属性的对象是高精地图中冗余的对象(应当删除)，带有correct属性的对象是高精地图中无变化的对象。形式上，对于使用单个图像作为输入的在线HMCD任务，解决的问题可以采用以下公式表示：

D_k＝f_θ(M，I_k，T_k，K)。

其中，I_k是视频流中的第k个图像帧，T_k是由自动驾驶汽车中的定位***估计的全局相机姿态，K是图像采集装置的内参矩阵，M是高精地图。Dk是一组具有相应变化类别的二维包围盒，由HMCD预测器f_θ基于一组可学习的参数θ而得到。其中，HMCD预测器可以为本公开提供的目标检测模型。

以下将通过图1～图4对用来训练该目标检测模型的样本图像对的生成方法进行描述。

图1是根据本公开实施例的生成样本图像对的方法的流程示意图。

如图1所示，该实施例的生成样本图像对的方法100可以包括操作S110～操作S150。

在操作S110，基于与目标实景图像对应的第一地图信息，确定目标实景图像包括的目标对象的位置信息。

根据本公开的实施例，目标实景图像例如可以为车辆行驶过程中实时拍摄的图像。其中，车辆例如可以为自动驾驶车辆，该自动驾驶车辆上例如可以配备有图像采集装置(例如相机)，经由该图像采集装置采集实时图像。该实时图像可以为单独的图像，也可以为采集的视频数据中的关键帧。

根据本公开的实施例，该车辆例如还可以配置有全球导航卫星***(GlobalNavigation Satellite System，GNSS)。可以将图像采集装置采集目标实景图像时，全球导航卫星***定位到的高精地图图像作为第一地图信息。其中，该高精地图可以是最新更新得到的地图。该高精地图中具有目标对象(例如前述的预定义的对象类)的位置信息。该位置信息可以为全球定位信息，或者可以为由全球定位信息转换得到的相对于高精地图图像的二维平面坐标信息。其中，转换规则与相关技术中导航***所采用的转换规则类似，在此不再详述。

在一实施例中，以目标对象为交通指示灯为例，通过操作S110，可以得到采集的目标实景图像中交通指示灯的位置信息。在一实施例中，该位置信息例如可以由针对目标对象的包围盒的位置信息来表示。例如，目标对象的位置信息包括包围盒的中心点坐标，以及该包围盒的宽度和高度。

根据本公开的实施例，可以从采集的多个实景图像中选择满足预定位置约束条件的实景图像，得到生成样本的目标实景图像。也可以基于预先采集的目标实景图像来生成样本。例如，可以从实景图像库中获取满足该预定位置约束条件的图像，作为目标实景图像。其中，预定位置约束条件可以包括图像采集装置与现实场景中目标对象之间的距离小于等于预定距离。例如，约束条件可以为现实场景中的目标对象与图像采集装置的中心之间的距离小于等于100m。或者，预定位置约束条件可以包括图像采集装置的方向与目标对象的反向法线方向之间的夹角不大于预定角度。该预定角度例如可以为30°等较小的值。通过该预定位置约束条件的限制，可以提高生成样本的目标实景图像中目标对象的清晰度。并因此可以提高基于生成样本训练得到的目标检测模型的精度，提高对高精地图的更新准确性。

根据本公开的实施例，可以基于针对目标实景图像的图像采集装置的姿态来确定离线地图(例如高精地图)中与目标实景图像相对应的第一地图信息。例如，可以基于采集目标实景图像时图像采集装置的全局姿态(例如包括位置和方向等)，从高精地图中定位到感兴趣区域(Region of Interest，ROI)，并将该感兴趣区域的二维图像作为第一地图信息。通过该方式，可以使得得到的第一地图信息与目标实景图像更为匹配，并因此提高得到的目标对象位置信息的准确性。

在操作S120，基于预定类别，确定目标实景图像包括的目标对象的随机类别组合。

根据本公开的实施例，基于前述确定的第一地图信息，可以查询到目标对象元素。在高精地图为最新更新得到的地图时，该查询到的目标对象元素可以表示目标实景图像包括的目标对象，从而可以得到目标对象的位置信息和数量。为了生成样本图像对，可以设定目标实景图像中的任一目标对象的类别，可以是相对于未更新高精地图添加的目标对象，也可以是相对于未更新高精地图未发生变化的目标对象。

在HMCD任务中，该预定类别可以包括添加类别和无变化类别。若该目标实景图像中的目标对象为一个，则随机类别组合可以为：目标对象为添加类别，或目标对象为无变化类别。若该目标实景图像中的目标对象为n个，n为大于1的整数，则n个目标对象的类别组合可以有2n种情况，该实施例可以从该2ⁿ种情况中随机选择一种，作为随机类别组合。

在操作S130，基于目标实景图像包括的目标对象的位置信息，确定针对目标实景图像的删除对象的位置信息。

根据本公开的实施例，可以将目标实景图像中除目标对象的位置信息所表示的区域外的任意区域作为删除对象的位置，并将该任意区域的位置信息作为删除对象的位置信息。具体可以将除目标对象的位置信息所表示的区域外的区域中，能够容纳一个目标对象的任意一个区域的位置坐标，作为针对目标实景图像的删除对象的位置信息。该删除对象的位置信息与前述目标对象的位置信息类似，可以包括该任意一个区域的中心位置坐标和该任意一个区域的高度和宽度。该任意一个区域可以为该删除对象的包围盒所占的区域。

在操作S140，基于删除对象的位置信息、目标实景图像包括的目标对象的位置信息和随机类别组合，生成针对目标实景图像的第一待更新图像。

在操作S150，对由第一待更新图像与目标实景图像构成的图像对添加标签。

根据本公开的实施例，可以生成与目标实景图像相同尺寸的像素值均为0的基础图像。基于随机类别组合，确定无变化类别的目标对象。随后基于删除对象的位置信息和无变化类别的目标对象的位置信息，在该基础图像中添加能够指示对象位置的感兴趣区，得到掩膜(Mask)图像，并将该掩膜图像作为第一待更新图像。如此，目标实景图像中添加类别的目标对象即为相对于该第一待更新图像添加的对象。目标实景图像中无变化类别的目标对象即为相对于该第一待更新图像未发生变化的对象。第一待更新图像中指示删除对象位置的感兴趣区即为目标实景图像相对于第一待更新图像删除的对象所在的区域。

基于此，该实施例可以将目标实景图像和针对目标实景图像的第一待更新图像构成图像对，得到输入目标检测模型的实景图像和待更新图像。随后，基于各类别的目标对象的位置信息对图像对进行标注，得到具有指示目标对象的包围盒的图像对，并将目标对象的类别相应地标注为包围盒的类别，完成对图像对添加标签的操作，得到具有标签的图像对。该具有标签的图像对即可作为一个样本图像对。例如，添加的标签可以由为图像对中的实景图像添加的包围盒及为该包围盒添加的类别来体现，从而使得该添加的标签可以指示实景图像相对于待更新图像的实际更新信息。通过添加该标签，可以实现对目标检测模型的有监督的训练。具体地，可以根据目标检测模型得到的预测更新信息和该实际更新信息之间的差异，来对目标检测模型进行训练。

综上可知，本公开实施例在构建样本图像对时，通过基于高精地图来定位得到目标对象的位置信息，基于该添加类别和无变化类别的目标对象的位置来推算删除对象的位置信息，并随机确定目标对象的类别组合，可以实现待更新图像及标签的自动生成，而无需人工预先标注，可以降低生成样本图像对的人工成本。再者，由于可以自动生成样本图像对中的待更新图像，而无需预先召回，可以避免因样本稀疏导致的样本图像对收集困难的情况，并因此降低生成样本图像对的难度，便于提高对目标检测模型的训练精度。

图2是根据本公开实施例的生成针对实景图像的第一待更新图像的原理示意图。

根据本公开的实施例，可以采用将高精地图图像转换为栅格图像的方式来得到第一待更新图像。由于高精地图图像的各像素位置为先验信息，因此相较于基于实景图像得到第一待更新图像的技术方案，该实施例可以提高生成第一待更新图像的效率和精度。

例如，该实施例可以先基于第一地图信息和目标实景图像包括的目标对象的位置信息，生成针对目标实景图像的第一栅格图像。该第一栅格图像可以指示目标实景图像包括的目标对象的位置。具体地，如图2所示，该实施例200中，可以先基于目标对象的位置信息，将作为第一地图信息的高精地图图像210转换为第一栅格图像220。该第一栅格图像220中，除与目标对象对应的区域外，其他区域被填充了像素值均为0的黑色。目标对象对应的区域被填充了像素值均为255的白色。

在得到该第一栅格图像220后，生成第一待更新图像的操作可以包括：基于删除对象的位置信息和随机类别组合，对第一栅格图像进行调整，得到第一待更新图像。例如，可以基于删除对象的位置信息230，将该第一栅格图像中对应该删除对象的区域的像素颜色更改为白色，以指示该删除对象的位置。可以根据随机类别组合确定添加类别的目标对象，基于该添加类别的目标对象的位置信息(即添加对象的位置信息240)，将第一栅格图像中对应该添加对象的区域的像素颜色由白色更改为黑色，以去除对该添加对象的位置的指示信息，得到第一待更新图像250。例如，若第一栅格图像220中，自左向右第三个像素颜色为白色的区域指示添加对象的位置，则得到的第一待更新图像250中该区域的像素颜色为黑色。若删除对象对应的区域位于第一栅格图像220中自左向右第五个像素颜色为白色的区域的右侧，则得到的第一待更新图像250中，在该第五个像素颜色为白色的区域的右侧，新增了白色区域。最终得到的第一待更新图像250可以指示删除对象在目标实景图像中的位置和目标实景图像中无变化对象类别的目标对象的位置。

图3是根据本公开实施例的基于实景视频生成样本图像对的方法的原理示意图。

根据本公开的实施例，在生成图像样本对之前，可以对尺寸彼此相等的多个目标实景图像包括的目标对象的位置信息进行统计，得到该些目标对象的位置分布信息，作为预定位置分布信息。在生成样本对时，基于该预定位置分布信息来定位删除对象的位置。如此，可以使得得到的删除对象的位置信息更为符合实际场景，便于提高目标检测模型的学习能力和模型精度。

如图3所示，该实施例300可以基于前述的预定位置约束条件，从实景图像库中召回多个目标实景图像。为了便于目标检测模型进行特征提取和将实景图像与待更新图像进行比对，该多个目标实景图像的尺寸彼此相等，且该多个目标实景图像的尺寸均与对应的待更新图像的尺寸相等。基于前文确定目标对象位置信息的方法，可以得到与多个目标实景图像中每个实景图像对应的地图信息，并得到每个实景图像包括的目标对象的位置信息。基于此，可以生成针对每个实景图像的栅格图像，得到多个栅格图像310。通过统计多个目标实景图像包括的目标对象的位置信息，例如可以生成目标对象的位置分布密度图320。将该位置分布密度图320作为预定位置分布信息。

该实施例可以基于预定位置分布信息确定分布密度大于预定密度的区域，来确定删除对象的位置信息。具体地，可以基于预定位置分布信息，确定分布密度大于预定密度的区域，并将该区域映射到针对目标实景图像340的第一栅格图像中的第一区域，将该第一区域作为候选区域。

示例性地，考虑到各目标实景图像的尺寸相等，则可以基于如图3所示的背景图像330来表示该候选区域。该背景图像330的尺寸与第一栅格图像的尺寸相等。将该分布密度大于预定密度的区域映射到该背景图像330中，即可得到候选区域331。

在基于多个目标实景图像中的目标实景图像340生成样本图像对时，可以先根据与该目标实景图像340对应的第一地图信息，得到目标对象的位置信息350。基于该位置信息，可以得到目标实景图像中目标对象的位置分布图360。该位置分布图360与背景图像330、目标实景图像340的尺寸均相等。

在得到候选区域后，可以从候选区域中剔除第二区域，基于该第二区域外的其他区域来确定删除对象的位置信息。其中，第二区域是指示目标实景图像340包括的目标对象位置的区域。例如，如图3所示，对于候选区域331，可以将与位置分布图360中表示目标对象A、B、C的区域相重叠的区域作为第二区域。从该候选区域中剔除第二区域后，可以得到指示其他区域的背景图像370。该实施例可以从其他区域中选择能够容纳一个目标对象的任意区域，并将该任意区域的位置信息作为针对目标实景图像340的删除对象的位置信息。例如，背景图像370中的圆点371的位置可以为该任意区域的中心位置。

根据本公开的实施例，可以基于目标实景图像中包括的目标对象的尺寸平均值，作为删除对象的尺寸。这是由于前述最新更新的高精地图中没有该删除对象，直接基于与目标实景图像对应的第一地图信息无法确定该删除对象的尺寸。如此，可以基于该删除对象的尺寸，确定能够容纳删除对象的任意区域。通过该方式，可以提高确定的删除对象的位置信息的准确性。

示例性地，可以基于前述第二区域的尺寸和目标实景图像包括的目标对象的个数，确定目标尺寸。并确定前述其他区域中尺寸等于目标尺寸的任意区域，得到删除对象的位置信息。其中，目标尺寸即为删除对象的尺寸，为目标实景图像中包括的目标对象的尺寸平均值。例如，在实施例300中，目标实景图像包括的目标对象包括A、B、C。第二区域的尺寸即为A、B、C在候选区域331中所占的宽度总和及高度总和。将该宽度总和及高度总和分别除以目标对象的个数3，即可得到目标尺寸中的宽度和高度。

基于上述流程，可以得到目标实景图像340包括的目标对象的位置信息以及删除对象的位置信息。为了便于理解，该实施例提供了位置图像380，该位置图像380可以指示目标对象A、B、C的位置和删除对象D的位置。随后，可以根据目标实景图像中目标对象的类别和删除对象的删除类别，来对针对目标实景图像340的第一光栅图像进行调整。例如，A、B、C、D中，B为添加类别，A、C为无变化类别，D为删除类别。该实施例应在第一栅格图像中删除指示B的位置的信息，增加指示D的位置的信息，从而得到针对目标实景图像340的第一待更新图像390。该第一待更新图像390和目标实景图像340可以构成图像对。随后，可以基于A、B、C、D的位置，在第一待更新图像390和目标实景图像340中标注该A、B、C、D的位置，并为该位置标注指示对象类别的标签，完成标签的添加，得到一个样本图像对。

图4是根据本公开实施例的基于实景视频生成样本图像对的方法的原理示意图。

根据本公开的实施例，还可以采用采集的视频数据中的视频帧来生成样本图像对。可以将视频数据中的每个视频帧作为目标实景图像，采用前文描述的生成样本图像对的方法，来生成包括该每个视频帧的样本图像对。

根据本公开的实施例，在采用视频数据生成样本图像对时，例如还可以先从视频数据中抽取目标帧，将该目标帧作为目标实景图像，来生成包括该目标帧的样本图像对。随后，基于该目标帧包括的目标对象的位置信息和类别，推测得到视频数据中除该目标帧外其他视频帧包括的目标对象的位置信息和类别。这是由于视频数据是由连续的多个视频帧组成的，多个视频帧之间不是独立的。相应地，前文描述的目标实景图像可以包括实景视频中的目标帧。目标帧例如可以为实景视频中的关键帧(Key Frame)。为了便于理解，可以预先对视频数据进行切分，使得切分得到的每个实景视频中各视频帧包括的目标对象相同。

示例性地，如图4所示，该实施例400中基于实景视频生成样本图像对的流程，可以包括操作S410～操作S440。在操作S410，先选择目标帧，并生成针对目标帧的标签401。该标签401可能包括有针对目标对象的标签，该目标对象可以包括三个类别中的至少一个。三个类别即为前述的删除类别、添加类别和无变化类别。在一实施例中，实景视频可以包括M帧图像，M为大于1的自然数，从该实景视频中选择第k个视频帧Ok作为目标帧。设定该目标帧包括添加类别的目标对象a₁和无变化类别的目标对象a₂，且相对于第一待更新图像有删除了删除类别的目标对象a₃。则得到的标签401中即包括指示添加类别的目标对象a₁的包围盒，指示无变化类别的目标对象a₂的包围盒和指示删除类别的目标对象a₃的包围盒。

以该添加类别的目标对象a₁和无变化类别的目标对象a₂为参考，可以执行操作S420，为实景视频中除目标帧外的其他帧添加针对无变化对象的标签和针对添加对象的标签。例如，可以采用前文中确定目标实景图像包括的目标对象的位置信息的方法，基于与其他帧对应的第二地图信息，确定其他帧包括的目标对象的位置信息。该第二地图信息与前文描述的第一地图信息的类似，在此不再赘述。随后，基于目标帧包括的目标对象的类别，来确定其他帧包括的目标对象的类别。基于该其他帧包括的目标对象的类别和位置信息，即可向其他帧添加针对无变化对象的标签和针对添加对象的标签。

示例性地，可以基于生成高精地图时所采用的二维与三维空间的转换关系，将高精地图中三维空间的目标对象A₁和A₂的位置信息进行投影，得到视频帧中A₁和A₂的位置信息。

由于最新更新的高精地图中没有删除对象。该实施例可以通过操作S430对删除对象进行三维重建，得到删除对象的三维空间信息。示例性地，可以基于目标帧包括的目标对象的深度和删除对象的位置信息，来确定删除对象的三维空间信息，以基于该三维空间信息实现删除对象的三维重建。其中，可以先将目标帧包括的目标对象的深度平均值作为删除对象的深度。随后基于该删除对象的深度、删除对象的包围盒的位置信息和采集目标帧时图像采集装置的定位信息来得到删除对象的三维空间信息。在得到三维空间信息时，例如还需要考虑图像采集装置的内参矩阵。

在一实施例中，三维空间信息P_{to_del}可以采用以下公式表示：

P_{to_del}＝R^-1[K-¹(d_{to_del}×pto_{_del})-t]。

其中，R为图像采集装置的旋转矩阵，t为图像采集装置的平移矩阵，d_{to_del}为删除对象的深度，p_{to_del}为删除对象的边界框的位置信息。

在得到三维空间信息后，该实施例可以基于该三维空间信息、其他帧的目标对象的位置信息和类别，来生成针对其他帧的第二待更新图像，并对由第二待更新图像和其他帧构成的图像对添加标签。

根据本公开的实施例，第二待更新图像的生成方法与前文描述的第一待更新图像的生成方法类似。例如，在生成第二待更新图像之前，可以先基于第二地图信息和其他帧包括的目标对象的位置信息，来生成针对其他帧的第二栅格图像。该第二栅格图像指示其他帧包括的目标对象的位置。该第二栅格图像的生成方法与前文描述的生成第一栅格图像的方法类似，该第二栅格可以在操作S430之前执行，也可以在操作S430之后执行。在得到第二栅格图像后，可以基于三维空间信息和其他帧包括的目标对象的类别，第二栅格图像进行调整，得到第二待更新图像。该方法与前述对第一栅格图像进行调整的方法类似。区别在于，该实施例在对第二栅格图像进行调整之前，需要对重建的三维删除对象进行二维投影(操作S440)，得到其他帧中删除对象的位置信息。得到的第二待更新图像可以指示删除对象在其他帧中的位置和其他帧中无变化类别的目标对象的位置。

类似地，可以采用与前述对由第一待更新图像和目标实景图像构成的图像对添加标签的方法类似的方法，基于得到的删除对象的位置信息、其他帧包括的目标对象的位置信息和类别，来对由第二待更新图像和其他帧构成的图像对添加标签。

在视频数据中除目标帧外还包括多个视频帧时，针对每个视频帧，均可以采用前述方法得到一个样本图像对。如此，基于一个视频数据，可以得到由多个样本图像对构成的样本图像对集。

本公开实施例通过基于目标帧的删除对象对删除对象进行三维重建，并基于得到的三维空间信息来生成样本图像对，可以保证删除对象的位置在实景视频中各个视频帧中的一致性，并在一定程度上提高生成删除对象的标签的效率，降低基于实景视频生成样本图像对的成本。

根据本公开的实施例，基于前述方法，可以生成两个样本集，一个包括基于单帧的实景图像构建的多个样本图像集(SICD)，一个包括基于视频数据构建的多个样本图像集(VSCD)。可以在环境变化较少的情况下采集实景图像和视频数据，以全面验证采用不同的目标检测模型得到的检测结果的区别。为了实现对目标检测模型的测试，还可以基于现有高精地图更新过程采用的待更新图像和实景图像构成测试集。该测试集中每个图像对的标签可以是人工标注的。为了进一步提高样本的多样性，该实施例可以在多个城市采集实景图像和视频数据。

根据本公开的实施例，在基于目标对象和删除对象的位置信息、类别对图像对进行标注时，例如可以针对不同种类的对象，在图像对中添加不同颜色的包围盒，以将本公开实施例的方法推广到多种类对象的变化检测中。经实验可以得知，当在其他检测任务中对图像进行栅格化处理时，不同颜色的包围盒的选择对检测结果不会产生明显的影响。

在构建得到样本集后，可以基于样本集中的样本图像对，对目标检测模型进行训练。

以下将通过图5～图9对本公的提供的目标检测模型的训练方法进行详细描述。

图5是根据本公开实施例的目标检测模型的训练方法的流程示意图。

如图5所示，该实施例的目标检测模型的训练方法500可以包括操作S510～操作S540。该目标检测模型包括第一特征提取网络、第二特征提取网络和目标检测网络。

在操作S510，将样本图像对中的第一实景图像输入第一特征提取网络，得到第一特征数据。

其中，样本图像对是采用前文描述的方法生成的，该样本图像包括实景图像和待更新图像。且该样本图像对具有标签，标签指示实景图像相对于待更新图像的实际更新信息。该实际更新信息包括更新类别和更新位置信息。更新类别包括添加类别、删除类别和无变化类别，更新位置信息由目标对象的包围盒的位置来表示。

根据本公开的实施例，第一特征提取网络可以包括卷积神经网络或深度残差网络等。例如，卷积神经网络可以包括单次查看检测器v3(You Only Look Once V3，YOLO v3)中的DarkNet-53网络，以较好地平衡精度和推断速度。可以理解的是，上述第一特征提取网络的类型仅作为示例以利于理解本公开，本公开对此不做限定。

在操作S520，将样本图像对中的第一待更新图像输入第二特征提取网络，得到第二特征数据。

根据本公开的实施例，第二特征提取网络可以包括卷积神经网络。其中，考虑到第一待更新图像为前述的栅格图像，与实景图像相比较为简单，因此，该第二特征提取网络的网络结构与第一特征提取网络的网络结构相比，可以设置的较为简单。例如，该第二特征提取网络可以包括步长stride为2，层数为11的浅层卷积神经网络，该卷积神经网络中的卷积核大小可以为3×3，以便增大栅格图像的感受野。

在操作S530，将第一特征数据和第二特征数据输入目标检测网络，得到第一实景图像相对于第一待更新图像的预测更新信息。

根据本公开的实施例，目标检测网络例如可以采用基于锚(anchor)定框的检测方法来得到预测更新信息。例如，该目标检测网络可以先对第一特征数据和第二特征数据进行拼接，随后基于拼接得到的特征向量来得到预测更新信息。该目标检测网络可以为一阶检测网络或二阶检测网络中除特征提取结构外的其他网络结构。

预测更新信息可以包括预测到的目标对象的位置信息(可以由目标对象的包围盒的位置来表示)以及目标对象的类别。其中，目标对象的类别可以由目标对象属于添加类别、删除类别和无变化类别的概率来表示。

在操作S540，基于实际更新信息和预测更新信息，对目标检测模型进行训练。

根据本公开的实施例，可以基于实际更新信息与预测更新信息之间的差异，采用梯度下降算法或反向传播算法等来对目标检测模型进行训练。例如，可以基于实际更新信息与预测更新信息来确定该预定损失函数的取值，随后基于预定损失函数的取值来对目标检测模型进行训练。具体可以确定预定损失函数最小时目标检测模型中参数的取值，基于该参数的取值对目标检测模型进行调整。

其中，预定损失函数例如可以由类别损失函数和定位损失函数构成。类别损失函数可以为交叉熵损失函数或者焦点损失(Focal Loss)改进的交叉熵损失函数等，定位损失函数可以为平均绝对误差函数、均方误差损失函数等。

在一实施例中，目标检测网络可以采用YOLO v3网络，则得到的预测更新信息还可以包括置信度，用于表示包围盒有对象的概率。预定损失函数可以不仅包括类别损失函数和定位损失函数，还可以包括置信度损失函数，以期提高复杂分类的性能。该置信度损失函数分为两个部分，一个部分为有目标的置信度损失，另一个部分为无目标的置信度损失。如此，在确定预定损失函数的取值时，可以基于样本图像对的标签所指示的实际位置信息和预测位置信息，来确定定位损失函数的取值，得到第一取值。基于实际位置信息和置信度，来确定置信度损失函数的取值，得到第二取值。基于实际类别和预测类别，确定类别损失函数的取值，得到第三取值。最后将第一取值、第二取值和第三取值的加权和，作为预定损失函数的取值。

示例性地，预定损失函数L可以采用以下公式表示：

L＝λ₁L_GIoU+λ₂L_conf+λ_3Lprob。

其中，L_GIoU为定位损失函数，L_conf为置信度损失函数，L_prob_为类别损失函数。λ₁、λ₂、λ₃分别为向L_GIoU、L_conf和L_prob分配的权重。该权重的取值可以根据实际需求进行设定，例如可以均设定为1，本公开对此不做限定。

在一实施例中，定位损失函数例如可以采用交并比损失作为局部度量，以此提高预测的包围盒的定位精度，尤其增加对非重叠包围盒的关注度。例如，该定位损失函数可以采用以下公式表示：

其中，Q表示包围盒的个数，Di表示预测更新信息中的第i个包围盒，表示实际更新信息中的第i个包围盒，/>表示Di与/>的最小包围凸包(minimum enclosingconvex hull)。/>表示D_i与/>的交集面积，/>表示Di与/>的并集面积。

在一实施例中，置信度损失函数可以采用以下公式表示：

其中，S²是实景图像中网格单元的数目，B是网格单元内锚定框的数目。表示第i个单元中的第j个边界框是否有预测目标对象，若有，则取值为1，否则取值为0。/>的取值与/>的取值相反，在没有预测目标对象时，取值为1，否则取值为0。f_ce()表示交叉熵，/>表示第i个网格单元中第j个边界框的置信度，/>表示第i个网格单元中第j个边界框的真值置信度。该真值置信度可以根据目标对象的实际位置信息来确定。具体地，若根据实际位置信息确定该第i个网格单元中有目标对象，则该真值置信度为1，否则为0。α和γ是焦点损失参数，该焦点损失参数的取值可以根据实际需求进行设定，例如，α和γ可以分别设置为0.5和2，本公开对此不做限定。

在一实施例中，类别损失函数例如可以采用以下公式表示：

其中，classes可以包括表示无变化类别的correct，表示添加类别的to_add，表示删除类别的to_del。表示对象是否出现在第i个网格单元中，若出现，则取值为1，否则取值为0。/>表示第i个网格单元中目标对象属于第b个类别的预测概率。/>表示第i个网格单元中目标对象属于第b个类别的实际概率。若该第i个网格单元中有b类别的目标对象，则该实际概率的取值为1，否则取值为0。

综上可知，本公开实施例通过基于样本图像对来训练目标检测模型，可以使得目标检测模型具有检测图像变化的能力。训练好的目标检测模型的输入为实景图像和待更新的高精地图转换得到的栅格图像，由该目标检测模型可以直接输出预测的更新信息。因此，可以实现对图像变化的端到端的检测。相较于相关技术，可以实现检测任务整体的最优解，从而可以提高检测精度。再者，由于输入图像包括高精地图转换得到的栅格图像，因此可以有效考虑高精地图的先验信息，可以进一步提高训练得到的目标检测模型的精度。

图6是根据本公开一实施例的目标检测模型的结构示意图。

根据本公开的实施例，目标检测网络可以基于第一特征数据和第二特征数据之间的差异进行更新信息的预测。相较于根据两个特征数据的拼接数据来预测更新信息的技术方案，可以在一定程度上提高预测精度。

相应地，前述的目标检测网络可以包括并行交叉差单元和特征检测单元。并行交叉差单元用于计算第一特征数据和第二特征数据之间的差异。特征检测单元用于根据两个特征数据之间的差异来预测实景图像的目标对象相较于栅格图像指示的目标对象的变化。

示例性地，如图6所示，该实施例600中的目标检测模型包括第一特征提取网络610、第二特征提取网络620和目标检测网络630。第一特征提取网络610例如可以由分别具有32、64和128个通道的三个第一卷积层构成，以对第一实景图像601依次处理，并依次得到特征数据第二特征提取网络620例如可以由分别具有32、64和128个通道的三个第二卷积层构成，以对第一待更新图像602依次处理，并依次得到特征数据其中，第一卷积层的卷积核可以大于第二卷积层的卷积核。这是由于第一待更新图像为栅格图像，第一实景图像601中包含的信息相较于第一待更新图像包含的信息更多一些，通过该设置，可以保证对第一实景图像601的特征提取的准确性。目标检测网络630可以包括并行交叉差(Parallel Cross Difference，PCD)单元631和特征检测单元632，该特征检测单元632例如可以采用相关技术中目标检测模型的特征解码器(FeatureDecoder，FD)。

示例性地，PCD单元631例如可以包括取反层和融合层。其中，取反层用于对第一特征数据和第二特征数据中的一个特征数据进行取反。融合层可以用于对第一特征数据和第二特征数据中的另一特征数据与取反得到的特征数据进行相加，从而得到并行交叉差特征。FD单元632可以采用基于锚(anchor)定框的检测方法来对融合后特征进行处理，从而得到预测更新信息。可以理解的是，该PCD单元631的结构仅作为示例以利于理解本公开，本公开的PCD单元631例如还可以先计算第一特征数据减去第二特征数据得到的数据，作为第一特征差，并计算第二特征数据减去第一特征数据得到的数据，作为第二特征差。随后将该第一特征差和第二特征差拼接后得到并行交叉差数据。其中，例如可以采用concat()函数来对特征进行拼接。

基于此，该实施例在得到第一特征数据和第二特征数据后，可以基于该第一特征数据和第二特征数据，采用PCD单元631获得并行交叉差数据。随后将获得的并行交叉差数据输入FD单元632，获得预测更新信息。

例如可以将第一特征数据和第二特征数据输入PCD单元631，由PCD单元631输出并行交叉差数据。该并行交叉差数据输入FD单元632后，由FD单元632输出预测更新信息603。

图7是根据本公开另一实施例的目标检测模型的结构示意图。

根据本公开的实施例，不仅可以在第一特征提取网络和第二特征提取网络中设置提取特征的特征提取单元，还可以在该特征提取单元之后设置N个依次连接的特征投影层，以将提取的特征投影到N个不同维度，并基于该N个不同维度的特征来进行更新信息的预测。通过该方式，便于目标检测模型学习到图像的不同分辨率的特征。同时，基于该不同分辨率的特征来预测更新信息，可以提高预测结果的精度。其中，N为大于1的整数。

相应地，该实施例将第一实景图像输入第一特征提取网络，得到第一特征数据的过程可以包括将第一实景图像输入第一特征提取网络包括的特征提取单元，将得到的特征数据作为第一初始数据的操作。还包括以下操作：将该第一初始数据输入第一特征提取网络包括的N个特征投影层中的第一投影层，第一投影层输出的数据输入第二投影层，以此类推，直至将第(N-1)个特征投影层输出的数据输入第N特征投影层，N个特征投影层中每个投影层可以输出一个第一实景图像的特征数据，得到N个数据。例如，第i个投影层输出第一实景图像的第i数据。该N个数据组成第一特征数据。

类似地，以第一待更新图像输入第二特征提取网络，得到第二特征数据的过程可以包括将第一待更新图像输入第二特征提取网络包括的特征提取单元，将得到的特征数据作为第二初始数据的操作。还可以包括以下操作：将该第二初始数据输入第二特征提取网络包括的N个特征投影层中的第一投影层，第一投影层输出的数据输入第二投影层，以此类推，直至第(N-1)个特征投影层输出的数据输入第N投影层，N个特征投影层中每个投影层可以输出一个第一待更新图像的特征数据，得到N个数据。例如，第j个投影层输出第一待更新图像的第j数据。该N个数据组成第二特征数据。

示例性地，如图7所示，该实施例700中，以N为3为例，目标检测模型包括的第一特征提取网络包括特征提取单元711、特征投影层712、特征投影层713和特征投影层714。其中，特征提取单元711的结构与前文图6中描述的第一特征提取网络的结构类似，包括通道数分别为32、64、128的三个卷积层，可以分别提取得到第一实景图像701的特征数据特征数据/>经由特征投影层712的处理，例如可以得到大小为76*76*256的特征数据/>特征数据/>经由特征投影层713的处理，例如可以得到大小为38*38*512的特征数据/>特征数据/>经由特征投影层714的处理，例如可以得到大小为19*19*1024的特征数据/>特征数据/>共同构成第一特征数据。可以理解的是，上述各特征数据的大小仅作为示例以利于理解本公开，本公开对此不做限定。

类似地，目标检测模型包括的第二特征提取网络包括特征提取单元721、特征投影层722、特征投影层723和特征投影层724。其中，特征提取单元721的结构与前文图6中描述的第二特征提取网络的结构类似，包括通道数分别为32、64、128的三个卷积层，可以分别提取得到第一待更新图像702的特征数据特征数据/>依次经由特征投影层722、特征投影层723和特征投影层724处理后，可以分别得到特征数据该特征数据/>共同构成第二特征数据。可以理解的是，该第二特征提取网络中各特征投影层的尺寸与第一特征提取网络中对应的特征投影层的尺寸可以相等，以使得特征数据/> 的大小分别与特征数据/>的大小相等。

根据本公开的实施例，在得到N个不同维度的特征数据后，目标检测模型中的目标检测网络例如可以对第一特征数据和第二特征数据中相同维度的数据计算差值，得到N个差值。最后基于该N个差值拼接后得到的数据来预测更新信息。以此使得预测得到的更新信息充分考虑了多个不同维度的特征，避免基于一对特征数据预测更新信息所存在的缺失元素、冗余元素较多及局部化噪声影响等问题。

根据本公开的实施例，在得到N个不同维度的特征数据后，目标检测模型中的目标检测网络例如可以基于第一特征数据和第二特征数据中相同维度的数据进行一次目标检测，总共进行N次目标检测。最终对N次目标检测的结果作为候选预测信息进行筛选，得到最终的预测更新信息。相应地，目标检测网络可以包括N个并行交叉差单元、N个特征检测单元和信息筛选子网络，且一个并行交叉差单元和一个特征检测单元可以构成一个检测子网络，总共得到N个检测子网络。每个检测子网络进行一次目标检测，得到一个候选预测信息。信息筛选子网络从得到的N个候选预测信息中筛选出最终的预测预测信息。

具体地，可以基于第一实景图像的第i数据和第一待更新图像的第i数据，采用第(N-i+1)个检测子网络中的并行交叉差单元获得第(N-i+1)个并行交叉差数据。将第(N-i+1)个并行交叉差数据输入(N-i+1)个检测子网络中的特征检测单元，可以得到第(N-i+1)个候选预测信息(即检测得到的检测结果)。将得到的N个候选预测信息输入信息筛选子网络，可以得到第一实景图像相对于第一待更新图像的预测更新信息。

如图7所示，以N为3为例，3个PCD单元和3个FD单元可以构成第一检测子网络731、第二检测子网络732和第三检测子网络733。特征投影层724输出的数据和特征投影层714输出的数据输入第一检测子网络731中的PCD单元7311，得到第一个并行交叉差数据。该第一个并行交叉差数据输入第一检测子网络731中的FD单元7312，得到第一个候选预测信息。类似地，特征投影层723输出的数据和特征投影层713输出的数据经由第二检测子网络732中的PCD单元7321和FD单元7322处理后，可以得到第二个候选预测信息。特征投影层722输出的数据和特征投影层712输出的数据经由第三检测子网络733中的PCD单元7331和FD单元7332处理后，可以得到第三个候选预测信息。信息筛选子网络734例如可以采用NMS方法来从三个候选预测信息中筛选得到最终的预测更新信息703。

图8是根据本公开另一实施例的目标检测模型的结构示意图。

根据本公开的实施例，在基于不同维度的特征来进行更新信息的预测时，例如可以将基于低维度的特征得到的并行交叉差数据传递给基于高维度的特征得到并行交叉差数据的并行交叉差单元。以此充分利用深度学习网络的强大功能，很好的解决复杂问题，提高模型精度。

示例性地，前述N个检测子网络中的第1～第(N-1)个检测子网络各自还可以包括特征传播单元，以将各自得到的交叉差数据传播给下一个检测子网络中的并行交叉差单元。

在一实施例中，对于i小于N的情况，在获得前述的第(N-i+1)个并行交叉差数据时，可以将第(N-i)个并行交叉差数据和第一实景图像的第i数据输入第(N-i)个检测子网络的特征传播单元，得到融合数据。随后将该融合数据和第一待更新图像的第i数据输入第(N-i+1)个检测子网络的并行交叉差单元，由该第(N-i+1)个检测子网络的并行交叉差单输出第(N-i+1)个并行交叉差数据。对于i等于N的情况，可以将第一实景图像的第i数据和第一待更新图像的第i数据输入第1个检测子网络中的并行交叉差单元，从而获得第1个并行交叉差数据。这是由于，对于第1个检测子网络，不存在前一检测子网络。其中，之所以将实景图像的特征数据与并行交叉差数据进行融合，是因为实景图像的特征数据能够反映现实场景中目标对象的细粒度特征，本公开对此不做限定。例如，在另一实施例中，特征传播单元的输入数据可以为待更新图像的特征数据与并行交叉差数据，以先对待更新图像的特征数据与并行交叉差数据进行融合。

例如，如图8所示，该实施例800中，尺寸大小为608*608的第一实景图像801经由特征提取单元821、三个特征投影层822～824处理后得到第3数据尺寸大小为608*608的第一待更新图像802经由特征提取单元811、三个特征投影层812～814处理后得到第3数据/>该两个第3数据输入第一检测子网络831中PCD单元8311的输入，PCD单元8311的输出作为FD单元8312以及第一特征传播(Feature Propagation，FP)单元8313的输入，经由FD单元8312处理后，输出的候选更新信息作为信息筛选子网络834的输入。同时通过将经由特征投影层813输出的特征数据/>作为FP单元8313的输入，经由FP单元8313对PCD单元8311输出的数据和特征数据/>进行处理所得到的输出作为第二检测子网络832中PCD单元8321的输入。同时通过将经由特征投影层823输出的特征数据/>作为PCD单元8321的输入，经由PCD单元8321对FP单元8313输出的数据和特征数据/>进行处理所得到的输出作为FD单元8322和FP单元8323的输入。以此类推，可以得到由FD单元8322输出的候选更新信息，以及由第三检测子网络833中的FD单元8332对PCD8331输出的数据进行处理而输出的候选更新信息。信息筛选子网络834基于NMS方法对候选更新信息处理后，可以输出预测更新信息803。

通过该实施例，PCD单元以较粗的粒度输出的特征可以经过FP单元传播，以将特征尺度放大到更细的粒度，然后按尺度比例与实景图像特征进行拼接，可以实现不同维度特征的融合，提高得到的预测更新信息的精度。

根据本公开的实施例，本公开使用VSCD数据集，基于图6描述的目标检测模型对PCD单元和FP单元对检测结果的影响进行了研究。如以下表1所示，Diff-Net指图6中模型去除PCD单元后的模型。本公开通过将从不同的分支(实景图像分支和待更新图像分支)提取的特征简单的拼接起来，作为下游单元的特征。其中，下游单元可以既不包括PCD单元，也不包括FP单元，可以仅包括PCD单元(可以组成图7中模型)，以及还可以既包括PCD单元，也包括FP单元(可以组成图8中模型)。以此通过下游单元来计算不同的分支提取的特征之间的差异。以均值平均精度(Mean Average Precision，MAP)为度量，对该几种下游单元的结构进行了性能评估，评估结果如表1所示。根据该表1可知，引入PCD单元，可以使得MAP提高8％。在PCD单元的基础上再引入FP单元，以将特征从较粗的层次传播到较细的层次，可以使得MAP进一步提高7.6％。

表1

图9是根据本公开另一实施例的目标检测模型的结构示意图。

根据本公开的实施例，在实景图像为实景视频中的视频帧时，还可以在目标检测模型中设置循环神经网络单元，以利于捕捉预测更新信息与时间之间的相关性，提高目标检测模型的精度。这是由于在交通领域的目标检测中，采集的数据通常为视频流，而非稀疏的图像。

示例性地，循环神经网络单元可以与一个并行交叉差单元、一个目标检测单元、一个特征传播单元组成第1个检测子网络。如此，在获得第1个并行交叉差数据时，可以先将第一实景图像的第N数据和第一待更新图像的第N数据输入第1个检测子网络中的并行交叉差单元，将该并行交叉差单元的输出作为初始交叉差数据。随后将该初始交叉差数据和循环神经网络单元的当前状态数据输入循环神经网络单元，由循环神经网络单元输出第1个并行交叉差数据。其中，循环神经网络单元的当前状态数据是循环神经网络给予当前视频帧的在前视频帧获得的。

其中，循环神经网络单元可以为长短期记忆网络单元。该长短期记忆网络单元的状态数据包括隐藏状态数据和元胞状态数据。其中，隐藏状态数据可以作为第1个并行交叉差数据。该长短期记忆网络单元可以采用ELU激活函数和层归一化函数来实现，本公开对此不做限定。

示例性地，如图9所示，该实施例900中的目标检测模型与前述图8描述的目标检测模型类似，区别在于，该实施例的目标检测模型中，PCD单元9311、FD单元9312、FP单元9313和卷积长短期记忆网络单元(Conv LSTM)9314共同构成第一个检测子网络。可以理解的是，该图9与图8中相似的标号表示相同的元素。

在该实施例中，设定样本图像对至少包括由实景视频中的两个视频帧分别构成的两个样本图像对。两个视频帧分别为实景视频中的第(k-1)个个视频帧和第k个视频帧。第(k-1)个视频帧作为实景图像p_k-1902，与待更新图像p_k-1901共同构成一个第一样本图像对。第k个视频帧作为实景图像pk 902’，与待更新图像pk 901’共同构成一个第二样本图像对。在对目标检测模型进行训练的过程中，可以先将第一样本图像对中的两个图像并行输入目标检测模型，以卷积长短期记忆网络单元9314的当前状态数据Cpk-2903和Hpk-2904以及PCD 9311单元输出的数据作为卷积长短期记忆网络单元9314的输入，可以得到更新后的状态数据Cp_k-1903’和Hpk-1904’。其中，状态数据Hpk-1904’可以作为并行交叉差数据输入FD单元9312和FP单元9313，经由后续处理后得到预测更新信息905。随后，可以将第二样本图像对中的两个图像并行输入目标检测模型，以卷积长短期记忆网络单元9314的当前状态数据Cpk-1903’和Hpk-1904’以及PCD9311单元输出的数据作为卷积长短期记忆网络单元9314的输入，可以得到更新后的状态数据Cpk903”和Htk904”。其中，状态数据Hpk904”可以作为并行交叉差数据输入FD单元9312和FP单元9313，经由后续处理后得到预测更新信息905’。在训练过程中，可以将实景视频中各视频帧构成的样本图像对依次输入目标检测模型中，得到多个预测更新信息。基于该多个预测更新信息来对目标检测模型进行一次优化。

图10是根据本公开实施例的并行交叉差单元的结构示意图。

根据本公开的实施例，如图10所示，该实施例1000中，并行交叉差单元1010可以包括第一取反层1011、第二取反层1012、第一拼接层1013、第二拼接层1014、第三拼接层1015和数据融合层1016。相应地，在前述采用第(N-i+1)个检测子网络中的PCD单元获得第(N-i+1)个并行交叉差数据时，可以将输入PCD单元的第一数据作为第一取反层1011的输入，经由该第一取反层1011处理后，得到第一取反数据。例如，该第一数据可以为特征提取单元提取得到的待更新图像的第i数据(例如)，则经由该第一取反层1011处理后，可以得到数据-/>类似地，可以将输入PCD单元的第二数据作为第二取反层1012的输入，经由该第二取反层1012处理后，得到第二取反数据。例如，若i等于N，该第二数据可以为实景图像的第N数据。若i小于N，该第二数据可以为实景图像的第i数据与第(N-i)个并行交叉差数据融合得到的融合数据。以第二数据为前文描述的实景图像的第3数据/>为例，经由该第二取反层1012处理后，可以得到数据-/>以第一数据和第二数据作为第一拼接层1013的输入，可以得到第一拼接数据。以第二数据和第一取反数据作为第二拼接层1014的输入，可以得到第二拼接数据。以第一数据和第二数据作为第三拼接层1015的输入，可以得到第三拼接数据。最后将第一拼接数据、第二拼接数据和第三拼接数据输入数据融合层1016，从而获得第(N-i+1)个并行交叉差数据。

示例性地，在PCD单元构成第一个检测子网络时，可以将数据融合层1016输出的数据输入循环神经网络单元中，从而将循环神经网络单输出的数据作为第1个并行交叉差数据。

示例性地，如图10所示，第一特征提取网络和第二特征提取网络还可以在各特征投影层后设置转换层，以分别将第一特征提取网络得到的特征数据由c个通道维数转换为c/2个通道维数，得到特征数据/>将第二特征提取网络得到的特征数据其中，在N为3的情况下，d的取值可以为4、5、6。前述的第一数据为特征数据/>第二数据为/>或者为基于/>与第(N-i)个并行交叉差数据得到的融合数据。该两个转换层中卷积核的大小例如可以为3×3。

示例性地，如图10所示，PCD单元1010还可以包括有依次连接的多个卷积层1017，以对数据融合层1016输出对数据进行通道数的转换，使得得到的特征数据能够更好的表达实景图像的特征与待更新图像之间的差异。例如，该多个卷积层1017为4个，4个卷积层的卷积核大小分别3×3、1×1、3×3和1×1。该4个卷积层分别用于将数据融合层1016的输出由3c/2个通道维数转换至c个通道维数，将数据由c个通道维数转换为c/2个通道维数，将数据由c/2个通道维数转换为c个通道维数，将数据由c个通道维数转换为c/2个通道维数，最终得到PCD单元1010输出的特征数据

其中，特征数据可以作为检测子网络中的FD单元1020和FP单元1030的输入。可以理解的是，在第1检测子网络中设置有循环神经网络单元时，该特征数据/>作为循环神经网络单元的输入，循环神经网络单元的输出数据作为检测子网络中的FD单元1020和FP单元1030的输入。

如图10所示，FD单元1020可以设置有卷积层1021，该卷积层的卷积核大小可以为3×3，用于将输入数据的通道维数由c/2提升到c。随后采用卷积层1022来生成建议的区域，该卷积层1022的卷积核大小可以为1×1。从而得到通道数据为S×S×[3×(num_class+5)的张量。其中，num_class表示目标对象类别的数目(例如为3，类别分别为前述的添加、删除和无变化)，5表示包围盒的位置的4个通道和置信度的1个通道，3表示S²网格单元中锚定框的数目。S的取值例如可以为7。

类似于YOLO v3模型，FD单元1020有两个分支用于进行目标对象的变化检测，一个分支使用softmax操作来输出目标对象的变化类别，另一个分支用于基于宽度先验知识w和高度先验知识h，推测目标对象的几何位置(u，v，w，h)。最后，可以采用NMS方法来消除冗余检测。

如图10所示，FP单元1030可以包括有卷积层1031和上采样层1032。经由该卷积层1031和上采样层1032，可以将输入数据的通道维数由c/2下降到c/4。在该FP单元1030属于第1检测子网络～第(N-1)检测子网络时，该通道维数为c/4的特征数据可以与特征数据进行融合。其中，在第一特征提取网络和第二特征提取网络在各特征投影层后设置转换层的情况下，该通道维数为c/4的特征数据可以与特征数据/>经由concat()函数进行融合。如图10所示，该FP单元1030还可以设置有另一卷积层1033，以得到更精细尺度的特征数据传递给下一检测子网络中的PCD单元。例如，卷积层1033的卷积核大小为1×1，经由该卷积层1033处理，可以将数据的通道维数由3c/4转换为c/2。

可以理解的是，上述PCD单元、FD单元和PF单元的结构设置仅作为示例以利于理解本公开，本公开对此不做限定。例如，各单元中卷积层的卷积核大小，卷积层个数等可以根据实际需求进行设定。

本公开采用收集的SICD数据集和VSCD数据集，对基于前述图6、图8和图10中的模型结构进行训练得到的目标检测模型进行了测试，以MAP为度量，对该几种模型的性能进行了性能地评估，评估结果如以下表2所示。根据该测试结果可知，三种模型相较于传统方法，性能都得到了较大的改进，端到端学习的网络模型实现了变化检测任务的联合优化，总体性能得到提高。图8和图10中的模型相较于图6中的模型，性能显著提高。在视频数据方面，图10中的模型性能更好，可以达到76.1％的MAP。

表2

本公开还引入了一个实际场景中采集的数据集R-VSCD，该数据集中的数据指示真实场景中目标对象的变化。基于该数据集R-VSCD，本公开评估了前述图6、图8和图10中的模型结构进行训练得到的目标检测模型在高精地图变化检测场景中的性能。由于数据集R-VSCD采集的数据量有限，无法产生有意义的MAP。本公开采用top-1精度来评估各模型在该高精地图变化检测场景中的性能。其中，top-1精度是指概率最大的类别与实际类别相符的准确率，若果预测结果中概率最大的类别与实际类别相符，则预测准确，否则预测错误。评估结果如以下表3所示。基于该评估结果可知，图10中的模型的精度可以达到81％。其中，数据集R-VSCD中可以包括从多个不同的城市采集的数据。由于不同城市的交通信号灯等目标对象的设置明显不同，这可以在一定程度上为目标检测模型提出了更高的挑战，并在一定程度上可以说明本公开提供的端到端学习的网络模型的泛化能力较强。

方法	Top-1精度
		YoLov3+D	0.558
Diff_Net	0.725
		Diff_Net+ConvLSTM	0.810

表3

经过测试，本公开发现粗尺度下的特征更为关注较大的对象，而精细尺度下的特征更为关注较小的对象，这与本公开的设计目的相符。通过多个尺度特征的提取和比较，可以实现对不同尺寸对象的精准识别，提高确定的预测更新信息的精度。

根据本公开的实施例，本公开的目标检测模型的训练和使用PaddlePaddle飞桨平台和TensorFlow框架来实现。在训练目标检测模型时，可以在工作站上使用8个NVIDIATesla P40图形处理器来运行。在训练过程中，例如可以采用Adam优化算法，设定学习率为e-4。训练过程中的批量大小为48，在Epoch达到40时，停止训练。对于图10所示的模型的训练，设定批量大小为8。

基于前述的目标检测模型的训练方法，本公开还提供了一种采用目标检测模型确定图像的更新信息的方法。以下将结合图11对该方法进行描述。

图11是根据本公开实施例的采用目标检测模型确定图像的更新信息的方法的流程图。

如图11所示，该实施例的采用目标检测模型确定图像的更新信息的方法1100可以包括操作S1110～操作S1140。该目标检测模型为采用前文描述的训练方法训练得到的。

在操作S1110，确定与第二实景图像对应的第二待更新图像。

根据本公开的实施例，可以先确定离线地图中与第二实景图像相对应的图像，将该图像作为初始图像。随后基于该初始图像包括的目标对象，将初始图像转换为栅格图像，从而得到第二待更新图像。可以理解的是，该第二待更新图像的确定方法与前文描述的确定栅格图像的方法类似，在此不再赘述。

可以理解的是，可以基于针对第二实景图像的图像采集装置的姿态，来确定离线地图中与第二实景图像相对应的图像。其中，针对第二实景图像的图像采集装置的姿态即为图像采集装置采集第二实景图像时的姿态。基于图像采集装置的姿态获得相对应的图像的方法与前文描述的方法类似，在此不再赘述。

在操作S1120，将第二实景图像输入目标检测模型的第一特征提取网络，得到第三特征数据。该操作S1120与前文描述的操作S510类似，在此不再赘述。

在操作S1130，将第二待更新图像输入目标检测模型的第二特征提取网络，得到第四特征数据。该操作S1130与前文描述的操作S520类似，在此不再赘述。

在操作S1140，将第三特征数据和所述第四特征数据输入目标检测模型的目标检测网络，得到第二实景图像相对于第二待更新图像的更新信息。该操作S1140与前文描述的操作S530类似，在此不再赘述。

根据本公开的实施例，前述的离线地图可以为高精地图。本公开提供的采用目标检测模型确定图像的更新信息的方法可以应用在对高精地图进行更新的场景中。

相应地，本公开还提供了一种更新高精地图的方法，该方法可以先确定高精地图中与采集的实景图像(例如第三实景图像)相对应的图像，获得第三待更新图像。随后采用前述的采用目标检测模型确定图像的更新信息的方法来得到第三实景图像相对于第三待更新图像的更新信息。从而可以基于该更新信息对该高精地图进行更新。例如，若确定的更新信息中包括删除类别的目标对象和该目标对象的位置信息，则可以基于该位置信息定位到高精地图中的目标对象，并从高精地图中删除该定位到的目标对象。其中，第三待更新图像的获得方法与前文描述的获得第二待更新图像的方法类似，在此不再赘述。

基于前述的生成样本图像对的方法，本公开还提供了一种生成样本图像对的装置。以下将结合图12对该装置进行详细描述。

图12是根据本公开实施例的生成样本图像对的装置的结构框图。

如图12所示，该实施例的生成样本图像对的装置1200可以包括第一位置确定模块1210、类别组合确定模块1220、第二位置确定模块1230、第一图像生成模块1240和第一标签添加模块1250。

第一位置确定模块1210用于基于与实景图像对应的第一地图信息，确定实景图像包括的目标对象的位置信息。在一实施例中，第一位置确定模块1210可以用于执行前文描述的操作S110，在此不再赘述。

类别组合确定模块1220用于基于预定类别，确定实景图像包括的目标对象的一种随机类别组合。其中，预定类别可以包括添加类别和无变化类别。在一实施例中，类别组合确定模块1220可以用于执行前文描述的操作S120，在此不再赘述。

第二位置确定模块1230用于基于实景图像包括的目标对象的位置信息，确定针对实景图像的删除对象的位置信息。在一实施例中，第二位置确定模块1230可以用于执行前文描述的操作S130，在此不再赘述。

第一图像生成模块1240用于基于删除对象的位置信息、实景图像包括的目标对象的位置信息和随机类别组合，生成针对实景图像的第一待更新图像。在一实施例中，第一图像生成模块1240可以用于执行前文描述的操作S140，在此不再赘述。

第一标签添加模块1250可以用于对由第一待更新图像与实景图像构成的图像对添加标签。在一实施例中，第一标签添加模块1250可以用于执行前文描述的操作S150，在此不再赘述。

根据本公开的实施例，上述生成样本图像对的装置1200还可以包括第二图像生成模块，用于基于第一地图信息和实景图像包括的目标对象的位置信息，生成针对实景图像的第一栅格图像，该第一栅格图像指示实景图像包括的目标对象的位置。其中，上述第一图像生成模块1240具体用于：基于删除对象的位置信息和随机类别组合，对第一栅格图像进行调整，得到第一待更新图像。第一待更新图像指示删除对象在实景图像中的位置和实景图像中无变化类别的目标对象的位置。

根据本公开的实施例，第二位置确定模块包括：候选区域确定子模块，用于基于预定位置分布信息，确定第一栅格图像中的第一区域，作为候选区域第一区域包括基于位置分布信息确定的分布密度大于预定密度的区域；以及位置确定子模块，用于基于候选区域中除第二区域外的其他区域，确定删除对象的位置信息，第二区域包括指示实景图像包括的目标对象的位置的区域。其中，预定位置分布信息是根据多个实景图像包括的目标对象的位置信息确定的，多个实景图像的尺寸彼此相等。

根据本公开的实施例，位置确定子模块包括尺寸确定单元和位置确定单元。尺寸确定单元用于基于第二区域的尺寸和实景图像包括的目标对象的个数，确定目标尺寸。位置确定单元用于确定其他区域中尺寸等于目标尺寸的任意区域，得到删除对象的位置信息。

根据本公开的实施例，上述生成样本图像对的装置1200还可以包括图像获得模块，用于从实景图像库中获取满足预定位置约束条件的图像，得到前述实景图像。

根据本公开的实施例，实景图像包括实景视频中的目标帧，上述生成样本图像对的装置1200还可以包括第三位置确定模块、类别确定模块、空间信息确定模块、第三图像生成模块和第二标签添加模块。第三位置确定模块用于针对实景视频中除目标帧外的其他帧，基于与其他帧对应的第二地图信息，确定其他帧包括的目标对象的位置信息。类别确定模块用于基于目标帧包括的目标对象的类别，确定其他帧包括的目标对象的类别。空间信息确定模块用于基于目标帧包括的目标对象的深度和删除对象的位置信息，确定删除对象的三维空间信息。第三图像生成模块用于基于三维空间信息和其他帧包括的目标对象的位置信息及类别，生成针对其他帧的第二待更新图像。第二标签添加模块用于对由第二待更新图像和其他帧构成的图像对添加标签。

根据本公开的实施例，上述生成样本图像对的装置1200还可以包括第四图像生成模块，用于基于第二地图信息和其他帧包括的目标对象的位置信息，生成针对其他帧的第二栅格图像，第二栅格图像指示其他帧包括的目标对象的位置。其中，第三图像生成模块用于基于三维空间信息和其他帧包括的目标对象的类别，对第二栅格图像进行调整，得到第二待更新图像。第二待更新图像指示删除对象在其他帧中的位置和其他帧中无变化类别的目标对象的位置。

根据本公开的实施例，上述生成样本图像对的装置1200还可以包括地图信息确定模块，用于基于针对实景图像的图像采集装置的姿态，确定离线地图中与实景图像相对应的第一地图信息。

基于本公开提供的目标检测模型的训练方法，本公开还提供了一种目标检测模型的训练装置。以下将结合图13对该装置进行详细描述。

图13是根据本公开实施例的目标检测模型的训练装置的结构框图。

如图13所示，该实施例的目标检测模型的训练装置1300可以包括第一数据获得模块1310、第二数据获得模块1320、更新信息预测模块1330和模型训练模块1340。其中，目标检测模型包括第一特征提取网络、第二特征提取网络和目标检测网络。

第一数据获得模块1310用于将样本图像对中的第一实景图像输入第一特征提取网络，得到第一特征数据。在一实施例中，第一数据获得模块1310可以用于执行前文描述的操作S510，在此不再赘述。

第二数据获得模块1320用于将样本图像对中的第一待更新图像输入第二特征提取网络，得到第二特征数据。其中，样本图像对具有标签，标签指示第一实景图像相对于第一待更新图像的实际更新信息。在一实施例中，第二数据获得模块1320可以用于执行前文描述的操作S520，在此不再赘述。

更新信息预测模块1330用于将第一特征数据和第二特征数据输入目标检测网络，得到第一实景图像相对于第一待更新图像的预测更新信息。在一实施例中，更新信息预测模块1330可以用于执行前文描述的操作S530，在此不再赘述。

模型训练模块1340用于基于实际更新信息和预测更新信息，对目标检测模型进行训练。在一实施例中，模型训练模块1340可以用于执行前文描述的操作S540，在此不再赘述。

根据本公开的实施例，目标检测网络包括并行交叉差单元和特征检测单元。更新信息预测模块1330可以包括交叉差获得子模块和更新预测子模块。交叉差获得子模块用于基于第一特征数据和第二特征数据，采用并行交叉差单元获得并行交叉差数据。更新预测子模块用于将获得的并行交叉差数据输入特征检测单元，获得预测更新信息。

根据本公开的实施例，第一特征提取网络和第二特征提取网络均包括特征提取单元和依次连接的N个特征投影层，N为大于1的整数。上述第一数据获得模块可以包括第一数据获得子模块和第二数据获得子模块。第一数据获得子模块用于将第一实景图像输入第一特征提取网络包括的特征提取单元，得到第一初始数据。第二数据获得子模块用于将第一初始数据输入第一特征提取网络包括的N个特征投影层中的第一投影层，得到第i个投影层输出的第一实景图像的第i数据。第二数据获得模块包括第三数据获得子模块和第四数据获得子模块。第三数据获得子模块用于将第一待更新图像输入第二特征提取网络包括的特征提取单元，得到第二初始数据。第四数据获得子模块用于将第二初始数据输入第二特征提取网络包括的N个特征投影层中的第一投影层，得到第j个投影层输出的第一待更新图像的第j数据。

根据本公开的实施例，目标检测网络包括信息筛选子网络、N个并行交叉差单元和N个特征检测单元。其中一个并行交叉差单元和一个特征检测单元构成一个检测子网络。交叉差获得子模块用于基于第一实景图像的第i数据和第一待更新图像的第i数据，采用第(N-i+1)个检测子网络中的并行交叉差单元获得第(N-i+1)个并行交叉差数据。更新预测子模块包括候选信息获得单元和信息筛选单元。候选信息获得单元用于将第(N-i+1)个并行交叉差数据输入(N-i+1)个检测子网络中的特征检测单元，得到第(N-i+1)个候选预测信息。信息筛选单元用于将得到的N个候选预测信息输入信息筛选子网络，得到第一实景图像相对于第一待更新图像的预测更新信息。

根据本公开的实施例，第1～第(N-1)个检测子网络各自还包括特征传播单元。上述交叉差获得子模块可以包括数据融合单元和交叉差获得单元。数据融合单元用于在i小于N的情况下，将第(N-i)个并行交叉差数据和第一实景图像的第i数据输入第(N-i)个检测子网络的特征传播单元，得到融合数据。交叉差获得单元用于将融合数据和第一待更新图像的第i数据输入第(N-i+1)个检测子网络的并行交叉差单元，得到第(N-i+1)个并行交叉差数据。其中，交叉差获得单元还用于在i等于N的情况下，将第一实景图像的第i数据和第一待更新图像的第i数据输入第1个检测子网络中的并行交叉差单元，获得第1个并行交叉差数据。

根据本公开的实施例，第一实景图像包括视频帧，第1个检测子网络还包括循环神经网络单元。上述交叉差获得单元用于通过以下方式获得第1个并行交叉差数据：将第一实景图像的第N数据和所述第一待更新图像的第N数据输入第1个检测子网络中的并行交叉差单元，得到初始交叉差数据；以及将初始交叉差数据和循环神经网络单元的状态数据输入循环神经网络单元，得到第1个并行交叉差数据。其中，状态数据是循环神经网络单元基于当前视频帧的在前视频帧获得的。

根据本公开的实施例，并行交叉差单元可以包括第一取反层、第二取反层、第一拼接层、第二拼接层、第三拼接层和数据融合层。交叉差获得子模块用于通过以下方式获得第(N-i+1)个并行交叉差数据：以输入并行交叉差单元的第一数据作为第一取反层的输入，得到第一数据的第一取反数据；以输入并行交叉差单元的第二数据作为第二取反层的输入，得到第二数据的第二取反数据；以第一数据和所述第二数据作为；第一拼接层的输入，得到第一拼接数据；以第二数据和第一取反数据作为第二拼接层的输入，得到第二拼接数据；以第一数据和第二取反数据作为第三拼接层的输入，得到第三拼接数据；以及将第一拼接数据、第二拼接数据和第三拼接数据输入数据融合层，得到第(N-i+1)个并行交叉差数据。

根据本公开的实施例，模型训练模块1340可以包括损失确定子模块和模型训练子模块。损失确定子模块用于基于实际更新信息和预测更新信息，确定预定损失函数的取值。模型训练子模块用于基于预定损失函数的取值，对目标检测模型进行训练。

根据本公开的实施例，实际更新信息包括目标对象的实际位置信息和实际类别；预测更新信息包括目标对象的预测位置信息、预测类别和置信度。上述损失确定子模块可以包括第一确定单元、第二确定单元、第三确定单元和损失确定单元。第一确定单元用于基于实际位置信息和预测位置信息，确定预定损失函数中定位损失函数的取值，得到第一取值。第二确定单元用于基于实际位置信息和置信度，确定预定损失函数中置信度损失函数的取值，得到第二取值。第三确定单元用于基于实际类别和预测类别，确定预定损失函数中类别损失函数的取值，得到第三取值。损失确定单元，用于确定第一取值、第二取值和第三取值的加权和，得到预定损失函数的取值。

基于本公开提供的采用目标检测模型确定图像的更新信息的方法，本公开还提供了一种采用目标检测模型确定图像的更新信息的装置。以下将结合图14对该装置进行详细描述。

图14是根据本公开实施例的采用目标检测模型确定图像的更新信息的装置的结构框图。

如图14所示，该实施例的采用目标检测模型确定图像的更新信息的装置1400可以包括图像确定模块1410、第三数据获得模块1420、第四数据获得模块1430和更新信息确定模块1440。其中，目标检测模型是采用前文描述的目标检测模型的训练装置训练得到的。

图像确定模块1410用于确定与第二实景图像对应的第二待更新图像。在一实施例中，图像确定模块1410可以用于执行前文描述的操作S1110，在此不再赘述。

第三数据获得模块1420用于将第二实景图像输入目标检测模型的第一特征提取网络，得到第三特征数据。在一实施例中，第三数据获得模块1420可以用于执行前文描述的操作S1120，在此不再赘述。

第四数据获得模块1430用于将第二待更新图像输入目标检测模型的第二特征提取网络，得到第四特征数据。在一实施例中，第四数据获得模块1430可以用于执行前文描述的操作S1130，在此不再赘述。

更新信息确定模块1440用于将第三特征数据和第四特征数据输入目标检测模型的目标检测网络，得到第二实景图像相对于第二待更新图像的更新信息。在一实施例中，更新信息确定模块1440可以用于执行前文描述的操作S1140，在此不再赘述。

根据本公开的实施例，图像确定模块1410可以包括图像确定子模块和图像转换子模块。图像确定子模块用于确定离线地图中与第二实景图像相对应的图像，作为初始图像。图像转换子模块用于基于初始图像包括的目标对象，将初始图像转换为栅格图像，得到第二待更新图像。

根据本公开的实施例，图像确定子模块用于基于针对第二实景图像的图像采集装置的姿态，确定离线地图中与第二实景图像相对应的图像。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的获取、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图15示出了可以用来实施本公开实施例的方法的示例电子设备1500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图15所示，设备1500包括计算单元1501，其可以根据存储在只读存储器(ROM)1502中的计算机程序或者从存储单元1508加载到随机访问存储器(RAM)1503中的计算机程序，来执行各种适当的动作和处理。在RAM 1503中，还可存储设备1500操作所需的各种程序和数据。计算单元1501、ROM 1502以及RAM 1503通过总线1504彼此相连。输入/输出(I/O)接口1505也连接至总线1504。

设备1500中的多个部件连接至I/O接口1505，包括：输入单元1506，例如键盘、鼠标等；输出单元1507，例如各种类型的显示器、扬声器等；存储单元1508，例如磁盘、光盘等；以及通信单元1509，例如网卡、调制解调器、无线通信收发机等。通信单元1509允许设备1500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1501执行上文所描述的各个方法和处理，例如以下方法中的至少之一：生成样本图像对的方法、目标检测模型的训练方法和采用目标检测模型确定图像的更新信息的方法。例如，在一些实施例中，生成样本图像对的方法、目标检测模型的训练方法和采用目标检测模型确定图像的更新信息的方法中的至少之一可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1502和/或通信单元1509而被载入和/或安装到设备1500上。当计算机程序加载到RAM1503并由计算单元1501执行时，可以执行上文描述的生成样本图像对的方法、目标检测模型的训练方法和采用目标检测模型确定图像的更新信息的方法中的至少之一的一个或多个步骤。备选地，在其他实施例中，计算单元1501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行以下方法中的至少之一：生成样本图像对的方法、目标检测模型的训练方法和采用目标检测模型确定图像的更新信息的方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种生成样本图像对的方法，包括：

基于与目标实景图像对应的第一地图信息，确定所述目标实景图像包括的目标对象的位置信息；

基于所述第一地图信息和所述目标实景图像包括的目标对象的位置信息，生成针对所述目标实景图像的第一栅格图像，所述第一栅格图像指示所述目标实景图像包括的目标对象的位置；

基于预定类别，确定所述目标实景图像包括的目标对象的一种随机类别组合；

基于所述目标实景图像包括的目标对象的位置信息，确定针对所述目标实景图像的删除对象的位置信息；以及

基于所述删除对象的位置信息、所述目标实景图像包括的目标对象的位置信息和所述随机类别组合，对所述第一栅格图像进行调整，得到针对所述目标实景图像的第一待更新图像，并对由所述第一待更新图像与所述目标实景图像构成的图像对添加标签，所述第一待更新图像指示所述删除对象在所述目标实景图像中的位置和所述目标实景图像中无变化类别的目标对象的位置，

其中，所述标签指示所述目标实景图像相对于所述第一待更新图像的实际更新信息；所述预定类别包括添加类别和无变化类别。

2.根据权利要求1所述的方法，其中，确定删除对象的位置信息包括：

基于预定位置分布信息，确定所述第一栅格图像中的第一区域，作为候选区域，所述第一区域包括基于所述位置分布信息确定的分布密度大于预定密度的区域；以及

基于所述候选区域中除第二区域外的其他区域，确定所述删除对象的位置信息，所述第二区域包括指示所述目标实景图像包括的目标对象的位置的区域，

其中，所述预定位置分布信息是根据多个目标实景图像包括的目标对象的位置信息确定的；所述多个目标实景图像的尺寸彼此相等。

3.根据权利要求2所述的方法，其中，所述基于所述候选区域中除第二区域外的其他区域，确定所述删除对象的位置信息包括：

基于所述第二区域的尺寸和所述目标实景图像包括的目标对象的个数，确定目标尺寸；以及

确定所述其他区域中尺寸等于所述目标尺寸的任意区域，得到所述删除对象的位置信息。

4.根据权利要求1所述的方法，还包括：

从实景图像库中获取满足预定位置约束条件的图像，得到所述目标实景图像。

5.根据权利要求1所述的方法，其中，所述目标实景图像包括实景视频中的目标帧；所述方法还包括针对所述实景视频中除所述目标帧外的其他帧：

基于与所述其他帧对应的第二地图信息，确定所述其他帧包括的目标对象的位置信息；

基于所述目标帧包括的目标对象的类别，确定所述其他帧包括的目标对象的类别；

基于所述目标帧包括的目标对象的深度和所述删除对象的位置信息，确定所述删除对象的三维空间信息；以及

基于所述三维空间信息和所述其他帧包括的目标对象的位置信息及类别，生成针对所述其他帧的第二待更新图像，并对由所述第二待更新图像和所述其他帧构成的图像对添加标签。

6.根据权利要求5所述的方法，还包括：

基于所述第二地图信息和所述其他帧包括的目标对象的位置信息，生成针对所述其他帧的第二栅格图像，所述第二栅格图像指示所述其他帧包括的目标对象的位置；

其中，生成与所述其他帧相对应的第二待更新图像包括：基于所述三维空间信息和所述其他帧包括的目标对象的类别，对所述第二栅格图像进行调整，得到所述第二待更新图像，

其中，所述第二待更新图像指示所述删除对象在所述其他帧中的位置和所述其他帧中无变化类别的目标对象的位置。

7.根据权利要求1所述的方法，还包括：

基于针对所述目标实景图像的图像采集装置的姿态，确定离线地图中与所述目标实景图像相对应的第一地图信息。

8.一种生成样本图像对的装置，包括：

第一位置确定模块，用于基于与目标实景图像对应的第一地图信息，确定所述目标实景图像包括的目标对象的位置信息；

第二图像生成模块，用于基于所述第一地图信息和所述目标实景图像包括的目标对象的位置信息，生成针对所述目标实景图像的第一栅格图像，所述第一栅格图像指示所述目标实景图像包括的目标对象的位置；

类别组合确定模块，用于基于预定类别，确定所述目标实景图像包括的目标对象的一种随机类别组合；

第二位置确定模块，用于基于所述目标实景图像包括的目标对象的位置信息，确定针对所述目标实景图像的删除对象的位置信息；

第一图像生成模块，用于基于所述删除对象的位置信息、所述目标实景图像包括的目标对象的位置信息和所述随机类别组合，对所述第一栅格图像进行调整，得到针对所述目标实景图像的第一待更新图像，所述第一待更新图像指示所述删除对象在所述目标实景图像中的位置和所述目标实景图像中无变化类别的目标对象的位置；以及

第一标签添加模块，用于对由所述第一待更新图像与所述目标实景图像构成的图像对添加标签，

9.根据权利要求8所述的装置，其中，第二位置确定模块包括：

候选区域确定子模块，用于基于预定位置分布信息，确定所述第一栅格图像中的第一区域，作为候选区域，所述第一区域包括基于所述位置分布信息确定的分布密度大于预定密度的区域；以及

位置确定子模块，用于基于所述候选区域中除第二区域外的其他区域，确定所述删除对象的位置信息，所述第二区域包括指示所述目标实景图像包括的目标对象的位置的区域，

10.根据权利要求9所述的装置，其中，所述位置确定子模块包括：

尺寸确定单元，用于基于所述第二区域的尺寸和所述目标实景图像包括的目标对象的个数，确定目标尺寸；以及

位置确定单元，用于确定所述其他区域中尺寸等于所述目标尺寸的任意区域，得到所述删除对象的位置信息。

11.根据权利要求8所述的装置，还包括：

图像获得模块，用于从实景图像库中获取满足预定位置约束条件的图像，得到所述目标实景图像。

12.根据权利要求8所述的装置，其中，所述目标实景图像包括实景视频中的目标帧；所述装置包括：

第三位置确定模块，用于针对所述实景视频中除所述目标帧外的其他帧，基于与所述其他帧对应的第二地图信息，确定所述其他帧包括的目标对象的位置信息；

类别确定模块，用于基于所述目标帧包括的目标对象的类别，确定所述其他帧包括的目标对象的类别；

空间信息确定模块，用于基于所述目标帧包括的目标对象的深度和所述删除对象的位置信息，确定所述删除对象的三维空间信息；

第三图像生成模块，用于基于所述三维空间信息和所述其他帧包括的目标对象的位置信息及类别，生成针对所述其他帧的第二待更新图像；以及

第二标签添加模块，用于对由所述第二待更新图像和所述其他帧构成的图像对添加标签。

13.根据权利要求12所述的装置，还包括：

第四图像生成模块，用于基于所述第二地图信息和所述其他帧包括的目标对象的位置信息，生成针对所述其他帧的第二栅格图像，所述第二栅格图像指示所述其他帧包括的目标对象的位置；

其中，所述第三图像生成模块具体用于：基于所述三维空间信息和所述其他帧包括的目标对象的类别，对所述第二栅格图像进行调整，得到所述第二待更新图像，

14.根据权利要求8所述的装置，还包括：

地图信息确定模块，用于基于针对所述目标实景图像的图像采集装置的姿态，确定离线地图中与所述目标实景图像相对应的第一地图信息。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1～7中任一项所述的方法。

18.一种更新高精地图的方法，包括：

确定高精地图中与采集的实景图像相对应的图像，获得第三待更新图像；

将所述采集的实景图像输入目标检测模型的第一特征提取网络，得到第一特征数据；

将所述第三待更新图像输入所述目标检测模型的第二特征提取网络，得到第二特征数据；

将所述第一特征数据和所述第二特征数据输入所述目标检测模型的目标检测网络，得到所述采集的实景图像相对于所述第三待更新图像的更新信息；以及

基于所述更新信息，对所述高精地图进行更新，

其中，所述目标检测模型是基于权利要求1～7中任一项所述的方法所生成的样本图像对训练得到的。