CN115187941A

CN115187941A - 目标检测定位方法、***、设备及存储介质

Info

Publication number: CN115187941A
Application number: CN202210722634.2A
Authority: CN
Inventors: 张力; 项超; 许豪; 谢肖坡
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2022-10-14

Abstract

本发明提供了目标检测定位方法、***、设备及存储介质，通过光学采集设备采集实景图像，将实景图像输入目标检测模型，通过目标检测模型对实景图像进行切片，并对图像切片进行目标检测，在检测到目标的情况下，根据图像切片在实景图像中的位置信息确定目标在实景图像中的图像位置，根据图像位置定位目标所对应实景环境中的实景对象。在这种情况下，图像切片相比于实景图像具有较小尺寸，图像切片中的目标区域占比更大，因此能够检测到中、远距离目标对象或小尺寸目标对象，实现目标对象的精确定位。

Description

目标检测定位方法、***、设备及存储介质

技术领域

本发明涉及计算机技术领域，具体地说，涉及目标检测定位方法、***、设备及存储介质。

背景技术

作为人工智能技术的应用，辅助驾驶、自动驾驶或车路协同需要对道路交通环境进行感知。为了能够准确的对道路交通环境进行感知，需要知道行车路径上的行人、车辆、车道线等各种信息，来保障在一定的行车路径上进行驾驶，并避免碰撞到其他车辆和行人。在相关技术中，使用光学采集终端采集相机周围的光学图像，并采用人工智能模型对图像进行目标对象检测。

需要说明的是，上述背景技术部分公开的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

针对现有技术中的问题，本发明的目的在于目标检测定位方法、***、设备及存储介质，克服了现有技术的困难，能够提升目标检测精度。

本发明的实施例提供一种目标检测定位方法，其包括：

通过光学采集设备采集实景图像；

将实景图像输入目标检测模型，通过目标检测模型对实景图像进行切片，并对图像切片进行目标检测；

在检测到目标的情况下，根据图像切片在实景图像中的位置信息确定目标在实景图像中的图像位置；

根据图像位置定位目标所对应实景环境中的实景对象。

可选地，根据图像位置定位目标所对应实景环境中的实景对象，包括：

根据目标的图像位置预测目标所对应实景对象到光学采集设备的距离预测值；

基于距离与误差之间的函数关系获得距离预测值对应的预测误差，并根据预测误差对距离预测值进行误差补偿，得到目标距离。

可选地，根据目标的图像位置预测目标所对应实景对象到光学采集设备的距离预测值，包括：

根据光学采集设备的光学参数、图像位置及相似三角形原理估计目标所对应实景对象到光学采集设备的距离预测值。

可选地，根据图像位置定位目标所对应实景环境中的实景对象，还包括：

在基于多帧实景图像获得目标所对应实景对象的目标距离变化的情况下，基于目标距离变化及时间信息估计实景对象的速度；

在速度不大于速度阈值的情况下，采用帧差法对实景图像进行实景对象的静止识别。

可选地，采用帧差法对实景图像进行实景对象的静止识别，包括：

在多帧实景图像取第一帧实景图像和第二帧实景图像，基于目标在第一帧实景图像中的图像位置对第一帧实景图像进行区域截图，得到第一截图，并基于目标在第一帧实景图像中的图像位置对第二帧实景图像进行相同位置的区域截图，得到第二截图；

将第一截图和第二截图各自进行灰度图变换和高斯模糊，并对高斯模糊后的第一截图和第二截图做差分运算，得到非零像素的占比；

根据非零像素的占比与阈值的对比结果对实景图像进行静止识别。

可选地，基于目标距离变化及时间信息估计实景对象的速度，包括：

使用DeepSort目标跟踪算法对多帧实景图像进行目标的区域匹配，得到目标距离变化，并基于目标距离变化及多帧实景图像的时间戳差值进行速度计算，得到实景对象的速度。

可选地，通过目标检测模型对实景图像进行切片，包括：

通过目标检测模型对实景图像进行切片，得到呈行列方式排布的多个图像切片，相邻两个图像切片之间形成有重叠区域。

可选地，对图像切片进行目标检测，还包括：

在对图像切片进行目标检测得到第一目标检测结果的情况下，还通过目标检测模型对实景图像进行目标检测，得到第二目标检测结果；

根据图像切片在实景图像中的位置信息确定目标在实景图像中的图像位置，包括：

根据图像切片在实景图像中的位置信息，将第一目标检测结果和第二目标检测结果进行融合，得到目标在实景图像中的定位信息。

可选地，目标检测模型采用如下方式训练得到：

将图像样本输入待训练的目标检测模型，通过待训练的目标检测模型对图像样本进行目标检测并在检测到目标的情况下，获得目标在图像样本中的图像位置并基于图像位置标记预测检测框；

计算预测检测框与目标在图像样本中的实际检测框之间的定位差值，定位差值包括预测检测框的底部中点与实际检测框的底部中点之间的高度；

利用定位差值计算待训练的目标检测模型的训练损失函数，并利用训练损失函数训练待训练的目标检测模型。

本公开实施例还提供一种目标检测定位***，其包括：

采集模块，通过光学采集设备采集实景图像；

目标检测模块，将实景图像输入目标检测模型，通过目标检测模型对实景图像进行切片，并对图像切片进行目标检测；

目标定位模块，在检测到目标的情况下，根据图像切片在实景图像中的位置信息确定目标在实景图像中的图像位置；

实景对象定位模块，根据图像位置定位目标所对应实景环境中的实景对象。

本发明的实施例还提供一种电子备，包括：

处理器；

存储器，其中存储有处理器的可执行指令；

其中，处理器配置为经由执行可执行指令来执行上述目标检测定位方法的步骤。

本发明的实施例还提供一种计算机可读存储介质，用于存储程序，程序被执行时实现上述检测定位方法的步骤。

本发明的目的在于提供目标检测定位方法、***、设备及存储介质，通过光学采集设备采集实景图像，将实景图像输入目标检测模型，通过目标检测模型对实景图像进行切片，并对图像切片进行目标检测，在检测到目标的情况下，根据图像切片在实景图像中的位置信息确定目标在实景图像中的图像位置，根据图像位置定位目标所对应实景环境中的实景对象。在这种情况下，图像切片相比于实景图像具有较小尺寸，图像切片中的目标区域占比更大，因此能够检测到中、远距离目标对象或小尺寸目标对象，实现目标对象的精确定位。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。

图1是本发明的目标检测定位方法的实施例之一的流程图；

图2是本发明实施例的目标检测模型训练阶段的原理示意图；

图3是本发明实施例的目标检测定位方法中的图片切片原理示意图；

图4是本发明的目标检测定位方法中测距原理示意图；

图5是本发明的目标检测定位方法中静止目标识别原理示意图；

图6是本发明的目标检测定位方法中的速度感知原理示意图；

图7是本发明的目标检测定位方法的实施例之二的流程图；

图8是本发明的目标检测定位方法预测的距离测量误差散点图和趋势线；

图9是距离补偿之后的距离测量误差散点图和趋势线；

图10是本发明的目标检测定位***的实施例的结构图；

图11是本发明的电子设备运行的示意图；

图12示出了根据本公开实施方式的存储介质的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式。相反，提供这些实施方式使本发明全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

附图仅为本发明的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件转发模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

此外，附图中所示的流程仅是示例性说明，不是必须包括所有的步骤。例如，有的步骤可以分解，有的步骤可以合并或部分合并，且实际执行的顺序有可能根据实际情况改变。具体描述时使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。需要说明的是，在不冲突的情况下，本发明的实施例及不同实施例中的特征可以相互组合。

本公开实施例提供一种目标检测定位方法，通过光学采集设备采集实景图像，将实景图像输入目标检测模型，通过目标检测模型对实景图像进行切片，并对图像切片进行目标检测，在检测到目标的情况下，根据图像切片在实景图像中的位置信息确定目标在实景图像中的图像位置，根据图像位置定位目标所对应实景环境中的实景对象。

在这种情况下，图像切片相比于实景图像具有较小尺寸，图像切片中的目标区域占比更大，因此能够检测到中、远距离目标对象或小尺寸目标对象，提升远距离目标及小目标的检测效果。

图1为本公开实施例提供的目标检测定位方法的流程图，该目标检测定位方法的执行主体为车载端、路端、或对应的云服务器，在此不作限定。

如图1所示，目标检测定位方法包括如下步骤：

步骤110：通过光学采集设备采集实景图像；

步骤120：将实景图像输入目标检测模型，通过目标检测模型对实景图像进行切片，并对图像切片进行目标检测；

步骤130：在检测到目标的情况下，根据图像切片在实景图像中的位置信息确定目标在实景图像中的图像位置；

步骤140：根据图像位置定位目标所对应实景环境中的实景对象。

在本公开实施例中，图像切片相比于原始采集的实景图像具有较小尺寸，待检测的目标在实景图像中的区域占比更大，从而目标检测模型能够更聚焦小尺寸目标的特征，因此能够检测到中、远距离目标或小尺寸目标，因此对于中、远距离目标或小尺寸目标，本实施例具有较高的检测精度和召回率。

本公开实施例的目标检测模型可以是采用如下方式训练得到：

如图2所示，d’即为预测检测框Y的底部中点与实际检测框S的底部中点之间的高度。训练目标在于，使得d’接近并趋近于0。

在本公开实施例中，底部中点反映了目标与底面的接触点，通过底部中点的高度差能够更好地指导和约束目标检测模型对接地点的定位精度，对目标进行准确定位。

在本公开实施例中，定位差值还可以包括重叠面积、及预测检测框与实际检测框之间的宽高比。

具体地，定位损失(box loss)函数可表征为：

完整的损失函数计算方式可表征为：

使用原始的网络模型损失函数记为模型A，使用CIoU_cyloss损失函数的模型记为模型B，共进行设定次迭代训练。

从训练数据集随机抽取多帧图像，并统计多类交通目标，如汽车、货车、公交车、交通锥等目标边界框底边中点绝对误差的绝对值。由表1可知，在Car等类别的检测中，模型B在接触点的定位精度比模型A平均提高了1.62个像素。

表1误差绝对值均值(单位：像素)

本公开实施例使用切片辅助推理SAHI(Slicing Aided Hyper Inference)的图像切片方案，其技术思想是，对原始的实景图像较小切片执行推理，然后合并实景图像上的图像切片预测。

在这种情况下，通过目标检测模型对实景图像进行切片，包括：

其中，通过在相邻两个图像切片之间形成重叠区域，在面对同一目标被切割为位于不同图像切片中的两个部分的场景时，能够避免对同一目标的两个部分认定为不同目标，提升目标检测精度。

在本公开实施例中，对图像切片进行目标检测，还包括：

在这种情况下，若图像切片检测到的目标为第二目标检测结果中同一位置一个目标的一部分，则将第二目标检测结果中检测到的目标作为其在待检测图像中的定位信息。

其中，第二目标检测结果显示检测到的目标信息及其在原始的待检测图像中的位置信息，第一目标检测结果包含对应的图像切片在原始的待检测图像中的位置信息，则能够根据图像切片的位置信息将图像切片映射回原始的待检测图像，并在第一目标检测结果包括检测到的目标时，在待检测图像中的相应位置进行定位。

本实施例将原始的实景图像划分为多个图像切片并对每个图像切片独立地进行目标检测的正向传输，同时利用原始的实景图像进行全推理(FI)，检测出较大的目标。最后，将重叠的目标区域进行融合。因此，本实施例能够提升目标检测的准确度。

在可选实施例中，在第一目标检测结果与第二目标检测结果进行融合的过程中，采用非极大值抑制(Non Maximum Suppression,NMS)来消除冗余的边界框。具体地，比预设匹配阈值的IOU比值更高的检测框被匹配，并且对于每个匹配，低于阈值的检测框被删除。

在一种应用场景中，结合图3所示，将实景图像分割成M×N个重叠的图像切片patch，然后，在保持高宽比的同时，调整每个patch的大小。然后，对每个重叠的patch都独立地应用目标检测正向传递，这样对每个patch可得到独立的目标检测结果，最后将各个patch的目标检测结果进行组合，映射回原始的实景图像，实现实景图像目标检测及定位。

如图3所示，本实施例对每个切片，如P₁₁、P_M1，独立进行目标检测的正向传输，同时可利用原始实景图像进行全推理(FI)，检测出较大的目标。最后，将目标检测结果进行融合，如将重叠的预测进行融合、删除冗余的预测，得到最终的检测结果。

这能够提高远端目标和较小目标的检测精度和召回率，为后续的距离检测提供了良好的检测依据。

在本公开可选实施例中，也可以不对原始的实景图像进行目标检测，即不进行全推理。

本公开实施例提供的目标检测模型为YOLOv5目标检测器，利用深度卷积神经网络学习的特征来检测目标。YOLOv5采用卷积网络来提取特征，然后使用全连接层来得到目标检测结果。

在本公开实施例中，目标检测模型还可使用卷积神经网络(ConvolutionalNeural Networks，CNN)、基于区域的卷积神经网络(Region-based Convolutional NeuralNetworks，RCNN)、基于单个深层神经网络的对象检测(Single Shot MultiBox Detector，SSD)、深度前馈(Deep Feedforward，DFF)神经网络以及递归神经网络(Recurrent NeuralNetwork，RNN)、CenterNet、基于Transformer的检测网络或其他用于目标检测的算法等，在此不做限定。

在本公开实施例中，在实景图像中进行目标检测及图像定位的情况下，可根据图像位置定位目标所对应实景环境中的实景对象，包括：

本公开实施例在预测实景对象到光学采集设备的距离时，提出距离补偿，以提升目标距离精确度。

其中，目标与道路之间的误差在1像素以内，因此接地点n个像素点的定位误差引起的距离(O_CM)误差Z_err可表示为

因为n≈1且fH＞＞nZcosα，故有

其中，Z：距离预测值；

Zn：距离真值；

H：相机安装高度；

n：目标点在图像坐标系下的y轴坐标误差；

y：目标点在图像坐标系下的y轴坐标；

f：相机焦距；

α：光学采集设备安装俯仰角。

由上可知，误差随距离的增加呈二次型增长。因此，可以根据拟合的二次函数对距离进行补偿，如下式所示：

其中，a、b、c为拟合出的二次方程系数；

Z’：补偿后的目标距离。

在本公开实施例中，采用相似三角形的原理预测目标到光学采集设备之间的距离预测值。具体地，根据目标的图像位置预测目标所对应实景对象到光学采集设备的距离预测值，包括：

在距离估计过程中，以实景图像中标记的目标所在检测框底部中点作为待测点，估计该待测点与光学采集设备之间的距离预测值。待测点为地面点P，取自物体边界框下方两个端点的中点。

如图4所示，O_g、O_C、O_I分别为地面坐标系、相机坐标系和图像坐标系，阴影部分为图像平面和地面。待测点为地面点P，取自目标边界框下方两个端点的中点。对于常规道路，假定路面水平，不考虑道路的坡度；

O_g为O_C在地面上的投影点，Zc表示相机坐标系的Z轴及光轴；

Q′是P′在图像坐标系y轴上的投影，且

γ＝α+β

O_CM＝O_CQ×cosβ

O_CM为目标在摄像机坐标系中的深度值Z；

在拍摄过程中，待测点P经历了从地面坐标系到相机坐标系再到图像坐标系的转换。转换关系如下图所示，相机坐标系与图像坐标系的转换公式如下：

式中，T_I2P为摄像机坐标系到图像坐标系的变换矩阵；

u和υ分别代表图像坐标系的X_I轴坐标和Y_I轴坐标。

将深度信息Z_C代入相机成像模型得到：

其表征目标在相机坐标系中的坐标值，其中，depth为光学采集设备的高度H。

如上采用基于单目视觉的测距方案，具体阐释如下。

步骤一，光学采集设备采用单目摄像机，对其进行内参标定，得到摄像机的内参矩阵[f_x,0,u₀；0,f_y,v₀；0,0,1]，其中u₀是实景图像的中心，v₀是实景图像的中心和原点O_I相差的像素数量，f_x和f_y分别是相机在图像坐标系中x和y方向的焦距，d_x和d_y是像素尺寸；

步骤二，通过已标定的单目摄像机拍摄含有目标的单帧图像，并对获得的图像进行处理，提取目标区域，计算出该区域像素坐标纵坐标最大值，及其对应的横坐标的平均值，将组合得到的坐标作为图像中目标所对应待测点P，其中，P’为P在实景图像所在图像平面上的投影点，Q为P在光轴上的投影点；

步骤三，根据摄像机标定原理，由待测点P所对应像素坐标P’(u,v)可以获得待测点P在世界坐标系下的三维坐标值P_c(x_c,y_c,z_c)，进而可以计算出待测点P的距离预测值，具体方法如下所示：

1)由步骤一可以获得摄像机的内参矩阵，由步骤二可以获得待测点P的像素点P’。

进一步化简为到图像坐标系，其关系如下：

2)在三角几何关系中，O_CQ距离参考如上公式。

3)将图像坐标转换到相机坐标，像素坐标系与摄像机坐标系转换关系。将观测点P的图像坐标P’和上一步中获得的观测点P在相机坐标系下的深度信息z_c结合，即可求得目标在摄像机坐标系中的坐标Pc(x_c,y_c,z_c)。

4)根据P_c(x_c,y_c,z_c)计算观测点P的距离预测值。

在本公开实施例中，在获得多帧实景图像并估计实景对象的距离变化的情况下，则能够对目标进行速度估计。具体地，根据图像位置定位目标所对应实景环境中的实景对象，还包括：

本公开实施例能够实现静止物体补偿。目标检测输出的检测框的抖动会对速度测量产生不利影响，特别是对于低速和静止的目标，会导致较大的相对误差。本公开实施例通过引入基于帧差法的静止物体速度补偿进一步区分低速物体与静止物体，提升目标检测的精度。

例如，在车路协同场景下，由于光学采集设备设置于路边，其位置是固定的，所以拍摄的静止物体的位置和画面基本不变，可以据此对静止物体进行检测和补偿。

本公开实施例的目标检测定位方法对于无遮挡或轻度遮挡的物体是非常有效的。特别是在航空图像的检测中，车辆之间没有遮挡，可以有效的检测出静止的物体，对于有频繁遮挡的场景，可以通过调整阈值来达到更好的效果。

在本公开实施例中，基于目标距离变化及时间信息估计实景对象的速度，包括：

在本公开实施例中，采用帧差法对实景图像进行实景对象的静止识别，包括：

在本公开实施例中，第一帧实景图像和第二帧实景图像可以相邻或不相邻，在不相邻的情况下，可根据需要设定相隔时间差。

其中，第一帧实景图像和第二帧实景图像之间的先后时序关系不受限定，第一帧实景图像可比第二帧实景图像时序在前或时序在后。

在本公开实施例中，在检测到多个目标的情况下，则可对多个目标的图像区域进行截图并做静止识别，在此不作限定。

在一种具体可选实施例中，结合图5所示，通过目标检测模型输出当前帧检测到的所有目标坐标，分别在前一帧中找到对应的目标区域，将两者转化为灰度图像并进行高斯模糊处理，以减少光和噪声对图像的影响。而后计算两帧区域图像的绝对差值，并统计其中非零像素的比例。最后，将得到的比例与预先设定的阈值进行比较，得出目标是静止还是运动。

本公开实施例提出速度感知方案，如图6所示，对输入的实景图像进行2D目标检测，得到边界框(BBox)、置信度和特征输入至DeepSort网络进行多目标跟踪，其中置信度用于过滤部分BBox，BBox和特征用于与***进行匹配计算。

其中，跟踪过程主要分为预测和更新两部分，追踪器使用卡尔曼滤波对跟踪目标进行预测，更新模块进行匹配、***更新和特征集更新。

(1)级联匹配

这一步为每个目标检测模型分配一个***，并将每个***设置为time_since_update参数。如果***完成匹配并更新，则将参数重置为0，否则+1。级联匹配时，先匹配较小的参数，后匹配较大的参数，出现越频繁的对象优先级越高。

(2)添加马氏距离和余弦距离

这一步计算运动信息和外观信息。马氏距离避免了欧氏距离中不同数据特征方差的不足，在计算中加入协方差矩阵对方差进行归一化，使“距离”更符合数据特征和实际意义。余弦距离是相似度的度量。前者以位置区分，后者以方向区分。

(3)添加深度学习功能

这一步是ReID模块。对于所有已确认的追踪器，每次完成匹配对应的检测特征图将被存储进一个列表，存储的数量使用budget超参数(100帧)进行限制，并在每次匹配后进行更新，如去除掉一些已经出镜头的目标的特征集，保留新特征、去除老特征。

(4)IoU和匈牙利算法

若A检测器可以和a、c***完成匹配(与a匹配置信度更高)，但是B检测器只能和a***完成匹配，则让A与c完成匹配，B与a完成匹配，从而降低对于置信度的考虑。

最后，删除未匹配的***，初始化不匹配的检测器，并将初始化未匹配的检测器，将将匹配的追踪器使用对应的检测器进行赋值，作为输出，进入下次循环。

在使用目标检测模型得到每一帧大检测实景图像中的目标的情况下，通过卡尔曼滤波KF(Kalman filter)预测目标在下一帧的位置，将预测的位置与检测器实际检测的位置做相似度计算(IOU)；

最后通过匈牙利算法匹配对应轨迹和目标框，匹配结果分为三种：

(1)***匹配到轨迹track，直接丢弃；

(2)未匹配的目标框，则一个目标没有和之前记录的track相关联，那么从该目标开始，初始化一个新的目标，初始化为新的track；

(3)***匹配成功的轨迹与目标框，通过卡尔曼滤波更新检测框位置，获取最优估计。

其中，目标检测模型可以对检测框进行非极大值抑制(NMS)后处理。

在进行多目标跟踪得到目标到相机距离变化的情况下，速度可以通过相邻两帧图像中物体相对位置的变化和时间差得到：

其中(x₀,y₀,z₀)和(x₁,y₁,z₁)分别为目标在相机坐标系中的坐标，s₀和s₁分别为当前帧和前一帧的时间戳。同样，可以得到目标在x、y方向上的速度，进而得到运动目标当前的朝向。

需要指出的是，距离和速度的测量是自动驾驶和车路协同技术的核心，经常用于驾驶辅助***和移动机器人中。相关技术常用的测距方法有基于传感器的测距方法和基于视觉的测距方法。其中，前者采用激光雷达、雷达和超声波进行传感，精度优于视觉方法。然而，高昂的成本和复杂的模型使得大规模快速部署变得困难。后者具有成本低、速度快、使用方便等优点。视觉测距算法主要包括多视点立体视觉和单目视觉。多视点立体视觉通过特征点匹配获得景深信息，耗时长，难以实现实时性要求。此外，多摄像机的安装和校准过程比较复杂。单目视觉模型结构简单，无需数据融合，实时性好。因此，本公开实施例提出一种基于单目视觉的距离测量方法。

基于单目视觉的距离和速度估计大致可分为两种。一种是基于深度学习直接估计深度图，在获取检测边界框的同时回归车辆的距离和速度。另一种是通过传统的机器视觉，利用几何光学获取深度和速度信息。前者需要大量的数据和大量的先验信息来支持，模型复杂，计算量大。本发明主要讨论后者。

另一种相关技术提出使用成像几何，结合相机的焦距和高度等参数，计算出它与前面汽车的距离。精度约为10％为90m和5％为44m。通过利用MobileEye的***获得距离，计算接触时间(TTC)来确定碰撞的概率。此外，相关还有许多其他研究使用类似的方法。

再一种相关技术通过灭点原理得到道路场景的几何关系，然后得到距离。根据目标检测得到的图像中车辆的大小和位置估计虚拟视界，并利用虚拟视界计算出与图像中车辆位置的距离。

其他相关技术还提出一种数据融合方法来检测车辆，该方法结合了边缘和角落特征、时间和动态强度信息以及一种称为虚拟对称检测(VSD)的互补技术。然后，基于一种混合方法进行单目距离估计，该方法结合了鸟瞰图固有的选项和基于姿态的三角函数。

其他相关技术还通过计算特征点的运动得到摄像机的运动，由其平移矢量推导出俯仰角，进而计算出前面车辆的距离。

上述相关技术的方法主要针对车载摄像头，通过被检测物体的2D边界框，通过摄像头的姿态和路面假设，直接估计前方车辆的距离。但在行驶过程中，车载摄像机的高度和姿态角度会发生动态变化，导致测量结果不稳定，误差较大。而且由于高度低，视野受限，无法捕捉远处的车辆信息。

本公开实施例的光学采集设备可采用路边摄像头，由于其位置固定，视野宽，不需要对其位置和姿态进行补偿，可以获得更准确、更全面的检测信息。同时，对检测方法进行了优化，使检测精度更高。

本公开实施例通过基于路侧单目视觉的算法进行目标距离和速度估计，以减少对激光雷达的依赖，有效降低车路协同感知领域的硬件部署成本。

本公开实施例提供的目标检测定位方法技术架构如图7所示。

首先，将实景图像序列依次输入到基于改进YOLOv5的图像目标检测算法网络中，从而得到目标类别和位置信息。然后进行基于DeepSort的多目标跟踪，对检测到的候选目标区域进行匹配，定位图像序列中的位置信息。最后，根据目标检测结果，基于相似三角形法计算出目标的距离，并结合相邻帧间的时间差得到瞬时速度。

本公开实施例提出目标检测模型优化方案。

目标检测模型优化主要是解决两个问题，一是提高目标检测中目标接地点的定位精度，二是提高远端小目标的检测精度和召回率。为此，对模型定位损失函数函数进行了优化，并引入了切片辅助超推理和微调(SAHI)。

其中，基于单目视觉的距离估计的精度相对依赖于目标在图像中的定位精度，特别是目标接地点的定位精度。而以YOLO系列为代表的一阶段目标检测模型实现了计算精度和计算复杂度的平衡。本公开实施例选择YOLOv5部署优化策略。

YOLOv5的网络结构可以分为四个部分：输入、骨干、颈部和预测。

为了加强网络之间的特征融合，骨干网采用CSP1_1和CSP1_3结构，颈部采用CSP2_1结构。主干主要采用Focus结构和Cross Stage Partial(CSP)结构。

颈部中增加了FPN(Feature Pyramid Network)和PAN(Path AggregationNetwork)结构。预测将边界损失函数从GIoU损失改进为CIoU损失。最后采用非极大值抑制(Non Maximum Suppression,NMS)来消除冗余的边界框。

YOLOv5的原始损失函数为分类损失、定位损失和置信度损失的总和。而CIoU作为定位损失，可以找到比GIoU更合适的位置。优化后的定位损失函数考虑了三个重要的几何因素：重叠面积、底部中点的高度和宽高比，可以更好地指导和约束目标检测模型，对目标进行准确定位。

本公开实施例提供对目标检测定位方法的实验结果。

图像样本数据集按7:2:1分为训练集、测试集和测试集。

评价实验中使用的计算平台和摄像机参数如表2所示。

表2计算平台及感知设备

可以从数据集中同一视角下的图像序列中随机选取了42帧数据进行测试。根据摄像机和激光雷达的标定数据计算出摄像机的安装高度和俯仰角。计算待测点到相机的直线距离，以所开发算法的输出作为预测值，以激光雷达的同步标定数据的输出作为真值，计算并比较二者的绝对误差及其绝对值的均值。

距离测量误差散点图和趋势线如图8所示，误差函数补偿后的结果如图9所示。本公开实施例对大于40米的预测距离进行了补偿。

在不使用SAHI的情况下，检测速度在34fps左右，满足了实时检测的要求。使用SAHI时，速度与切片大小和重叠率有关，可以通过调整参数达到效果与速度的平衡。

由于0-15m通常为路侧相机的感知盲区，120以外的成像质量较差，统计时，目标与相机之间的距离根据雷达真值分为三个范围：近、中、远，对应15-40m、40-80m和80-120m，分别进行精度统计并计算均值。结果如表3所示，其中不带'和带'的项分别表示误差函数补偿前后的值。

表3距离检测评价结果

可以看出,该方法的相对误差随探测距离的增加,15-40m范围内的平均相对误差在2.32％，40-80m的在4.97％，80-120m的在7.51％。因此，在特定场景下，单目相机可以有效取代激光雷达。

速度的计算依赖于距离检测的精度，所以这里不验证速度的计算，只对速度补偿进行计算。随机选取多帧，统计静止物体补偿前后静止物体的统计量。

表4静止物体统计

从表4可以看出，通过本公开实施例提出的补偿方法，对静止目标的检测精度达到93.98％，比之前提高了27.71％。可以看出，通过对静止物体进行补偿，可以很好地纠正由于BBox抖动引起的一些误差。

图10是本公开提供的目标检测定位***的一种实施例的模块示意图，如图10所示，目标检测定位***包括但不限于如下模块：

采集模块1010，通过光学采集设备采集实景图像；

目标检测模块1020，将实景图像输入目标检测模型，通过目标检测模型对实景图像进行切片，并对图像切片进行目标检测；

目标定位模块1030，在检测到目标的情况下，根据图像切片在实景图像中的位置信息确定目标在实景图像中的图像位置；

实景对象定位模块1040，根据图像位置定位目标所对应实景环境中的实景对象。

使用本公开实施例的目标检测定位***，

图像切片相比于实景图像具有较小尺寸，图像切片中的目标区域占比更大，因此能够检测到中、远距离目标对象或小尺寸目标对象，实现目标对象的精确定位。

上述模块的实现原理参见目标检测定位方法中的相关介绍，此处不再赘述。

可选地，实景对象定位模块1040具体用于：

可选地，实景对象定位模块1040具体还用于：

可选地，目标检测模块1020具体用于：

可选地，目标检测模型采用如下方式训练得到：

本发明实施例还提供一种电子设备，包括处理器。存储器，其中存储有处理器的可执行指令。其中，处理器配置为经由执行可执行指令来执行的目标检测定位方法的步骤。

如上所示，本公开实施例的电子设备通过光学采集设备采集实景图像，将实景图像输入目标检测模型，通过目标检测模型对实景图像进行切片，并对图像切片进行目标检测，在检测到目标的情况下，根据图像切片在实景图像中的位置信息确定目标在实景图像中的图像位置，根据图像位置定位目标所对应实景环境中的实景对象。在这种情况下，图像切片相比于实景图像具有较小尺寸，图像切片中的目标区域占比更大，因此能够检测到中、远距离目标对象或小尺寸目标对象，实现目标对象的精确定位。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为***、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“平台”。

图11本发明的电子设备的结构示意图。下面参照图11来描述根据本发明的这种实施方式的电子设备1100。图11显示的电子设备1100仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，电子设备1100以通用计算设备的形式表现。电子设备1100的组件可以包括但不限于：至少一个处理单元1110、至少一个存储单元1120、连接不同平台组件(包括存储单元1120和处理单元1110)的总线1130、显示单元1140等。

其中，存储单元存储有程序代码，程序代码可以被处理单元1110执行，使得处理单元1110执行本说明书上述目标检测定位方法部分中描述的根据本发明各种示例性实施方式的步骤。例如，处理单元1110可以执行如图1所示的步骤。

存储单元1120可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)1121和/或高速缓存存储单元1122，还可以进一步包括只读存储单元(ROM)1123。

存储单元1120还可以包括具有一组(至少一个)程序模块1125的程序/实用工具1124，这样的程序模块1125包括但不限于：处理***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1130可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1100也可以与一个或多个外部设备1170(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1100交互的设备通信，和/或与使得该电子设备1100能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1150进行。

并且，电子设备1100还可以通过网络适配器1160与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器1160可以通过总线1130与电子设备1100的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1100使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储平台等。

本发明实施例还提供一种计算机可读存储介质，用于存储程序，程序被执行时实现的目标检测定位方法的步骤。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述目标检测定位方法部分中描述的根据本发明各种示例性实施方式的步骤。

参考图12所示，描述了根据本公开实施方式的用于实现上述方法的程序产品1200。根据本发明的实施方式的用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明处理的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

综上，本发明的目的在于提供目标检测定位方法、***、设备及存储介质，通过光学采集设备采集实景图像，将实景图像输入目标检测模型，通过目标检测模型对实景图像进行切片，并对图像切片进行目标检测，在检测到目标的情况下，根据图像切片在实景图像中的位置信息确定目标在实景图像中的图像位置，根据图像位置定位目标所对应实景环境中的实景对象。

在这种情况下，图像切片相比于实景图像具有较小尺寸，图像切片中的目标区域占比更大，因此能够检测到中、远距离目标对象或小尺寸目标对象，实现目标对象的精确定位。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种目标检测定位方法，其特征在于，包括：

通过光学采集设备采集实景图像；

将所述实景图像输入目标检测模型，通过所述目标检测模型对所述实景图像进行切片，并对图像切片进行目标检测；

在检测到所述目标的情况下，根据所述图像切片在所述实景图像中的位置信息确定所述目标在所述实景图像中的图像位置；

根据所述图像位置定位所述目标所对应实景环境中的实景对象。

2.根据权利要求1所述的目标检测定位方法，其特征在于，根据所述图像位置定位所述目标所对应实景环境中的实景对象，包括：

根据所述目标的图像位置预测所述目标所对应实景对象到所述光学采集设备的距离预测值；

基于距离与误差之间的函数关系获得所述距离预测值对应的预测误差，并根据所述预测误差对所述距离预测值进行误差补偿，得到目标距离。

3.根据权利要求2所述的目标检测定位方法，其特征在于，根据所述目标的图像位置预测所述目标所对应实景对象到所述光学采集设备的距离预测值，包括：

根据所述光学采集设备的光学参数、所述图像位置及相似三角形原理估计所述目标所对应实景对象到所述光学采集设备的距离预测值。

4.根据权利要求2所述的目标检测定位方法，其特征在于，根据所述图像位置定位所述目标所对应实景环境中的实景对象，还包括：

在基于多帧所述实景图像获得所述目标所对应实景对象的目标距离变化的情况下，基于所述目标距离变化及时间信息估计所述实景对象的速度；

在所述速度不大于速度阈值的情况下，采用帧差法对所述实景图像进行所述实景对象的静止识别。

5.根据权利要求4所述的目标检测定位方法，其特征在于，采用帧差法对所述实景图像进行所述实景对象的静止识别，包括：

在多帧所述实景图像取第一帧实景图像和第二帧实景图像，基于所述目标在所述第一帧实景图像中的图像位置对所述第一帧实景图像进行区域截图，得到第一截图，并基于所述目标在所述第一帧实景图像中的图像位置对所述第二帧实景图像进行相同位置的区域截图，得到第二截图；

将所述第一截图和第二截图各自进行灰度图变换和高斯模糊，并对高斯模糊后的所述第一截图和第二截图做差分运算，得到非零像素的占比；

根据所述非零像素的占比与阈值的对比结果对所述实景图像进行静止识别。

6.根据权利要求4所述的目标检测定位方法，其特征在于，基于所述目标距离变化及时间信息估计所述实景对象的速度，包括：

使用DeepSort目标跟踪算法对多帧所述实景图像进行所述目标的区域匹配，得到所述目标距离变化，并基于所述目标距离变化及多帧所述实景图像的时间戳差值进行速度计算，得到所述实景对象的速度。

7.根据权利要求1所述的目标检测定位方法，其特征在于，通过所述目标检测模型对所述实景图像进行切片，包括：

通过所述目标检测模型对所述实景图像进行切片，得到呈行列方式排布的多个图像切片，相邻两个所述图像切片之间形成有重叠区域。

8.根据权利要求1所述的目标检测定位方法，其特征在于，对图像切片进行目标检测，还包括：

在对图像切片进行目标检测得到第一目标检测结果的情况下，还通过所述目标检测模型对所述实景图像进行目标检测，得到第二目标检测结果；

根据所述图像切片在所述实景图像中的位置信息确定所述目标在所述实景图像中的图像位置，包括：

根据所述图像切片在所述实景图像中的位置信息，将所述第一目标检测结果和第二目标检测结果进行融合，得到所述目标在所述实景图像中的定位信息。

9.根据权利要求1所述的目标检测定位方法，其特征在于，所述目标检测模型采用如下方式训练得到：

将图像样本输入待训练的目标检测模型，通过所述待训练的目标检测模型对图像样本进行目标检测并在检测到所述目标的情况下，获得所述目标在所述图像样本中的图像位置并基于所述图像位置标记预测检测框；

计算所述预测检测框与所述目标在图像样本中的实际检测框之间的定位差值，所述定位差值包括预测检测框的底部中点与实际检测框的底部中点之间的高度；

利用所述定位差值计算所述待训练的目标检测模型的训练损失函数，并利用所述训练损失函数训练所述待训练的目标检测模型。

10.一种目标检测定位***，其特征在于，包括：

采集模块，通过光学采集设备采集实景图像；

目标检测模块，将所述实景图像输入目标检测模型，通过所述目标检测模型对所述实景图像进行切片，并对图像切片进行目标检测；

目标定位模块，在检测到所述目标的情况下，根据所述图像切片在所述实景图像中的位置信息确定所述目标在所述实景图像中的图像位置；

实景对象定位模块，根据所述图像位置定位所述目标所对应实景环境中的实景对象。

11.一种电子设备，其特征在于，包括：

处理器；

存储器，其中存储有所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至9任意一项所述目标检测定位方法的步骤。

12.一种计算机可读存储介质，用于存储程序，其特征在于，所述程序被处理器执行时实现权利要求1至9任意一项所述目标检测定位方法的步骤。