WO2020233414A1

WO2020233414A1 - 物体识别方法、装置及车辆

Info

Publication number: WO2020233414A1
Application number: PCT/CN2020/089116
Authority: WO
Inventors: 苗振伟; 陈纪凯; 王兵; 王刚
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2019-05-20
Filing date: 2020-05-08
Publication date: 2020-11-26
Also published as: CN111967290A; CN111967290B

Abstract

一种物体识别方法、装置及车辆，以及一种物体本体特征提取模型构建方法、装置及设备，以及车辆。其中，物体识别方法包括：确定多个环境图像中的物体图像（S101）；通过物体本体特征提取模型确定所述物体图像的物体本体特征数据（S103）；根据所述物体本体特征数据确定不同物体图像间的相似度（S105）；根据所述相似度确定与所述多个环境图像中各个物体分别对应的不同物体图像（S107）。采用这种处理方式在不同环境图像中识别出同一物体，可以有效提升在不同环境图像中出现的同一物体的识别准确率。

Description

物体识别方法、装置及车辆

本申请要求2019年05月20日递交的申请号为201910421145.1、发明名称为“物体识别方法、装置及车辆”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及图像处理技术领域，具体涉及物体识别方法、装置及设备，物体本体特征提取模型构建方法、装置及设备，以及车辆。

背景技术

在自动驾驶领域中，机器感知是重要组成部分。多传感器融合的感知***利用不同类型的传感器探测行驶车辆周围的环境，以使车辆准确判断交通情况。

可见，多传感器数据的准确融合是实现道路交通安全和通向自动驾驶的关键。

多摄像头传感器方案是目前常见的车辆多传感器方案，该方案中的自动驾驶车辆通过装载的多个摄像头观察车辆多个视角，尽可能全方面覆盖周围的环境。自动驾驶的车辆在配置多摄像头方案情况下，需要将不同摄像头的同一物体融合起来，找出不同摄像头拍摄的物体之间的空间及时序对应关系是一个重要课题。在多摄像头方案中，具体涉及两类数据融合处理：1)不同摄像头可能会拍摄到同一个物体，找出不同摄像头拍摄到不同图像中的同一物体，能帮助自动驾驶车辆更好的感知周围环境；2)对于单一摄像头，也需要将不同时刻同一物体关联起来，可以做跟踪，或者辅助其它传感器获取信息，从而更好地感知周围环境。

然而，在实现本发明过程中，发明人发现目前采用的相关技术方案均存在无法准确地对出现在不同交通环境图像中的同一交通物体图像进行关联的问题，换句话说，就是对在不同交通环境图像中出现的同一交通物体的识别准确率较低。

发明内容

本申请提供物体识别方法，以解决现有技术存在的无法准确识别出不同环境图像中的同一物体的问题。本申请另外提供物体识别装置及设备，物体本体特征提取模型构建方法、装置及设备，以及车辆。

本申请提供一种物体识别方法，包括：

确定多个环境图像中的物体图像；

通过物体本体特征提取模型，确定所述物体图像的物体本体特征数据；

根据所述物体本体特征数据，确定不同物体图像间的相似度；

根据所述相似度，确定与所述多个环境图像中各个物体分别对应的不同物体图像。

可选的，所述物体本体特征提取模型从具有物体标识标注数据的物体特征数据训练集中学习得到。

可选的，还包括：

确定多个物体特征数据与物体标识之间的对应关系集，作为训练数据集；

构建所述物体本体特征提取模型的网络结构，所述网络结构的输入数据为物体特征数据，输出数据为物体本体特征数据；

基于三元组损失函数，从所述训练数据集中学习得到所述物体本体特征提取模型；所述三元组包括具有相同物体标识的物体对应的两组物体特征数据、和其他物体对应的一组物体特征数据。

可选的，所述确定多个环境图像中的物体图像，包括：

通过物体检测模型，确定所述物体图像；

所述通过物体本体特征提取模型，并确定所述物体图像的物体本体特征数据，包括：

获取所述物体检测模型包括的至少一个物体特征提取层在检测物体图像过程中输出的物体特征图；以及，获取所述物体图像在所述环境图像中的位置数据；

根据所述位置数据和所述至少一个物体特征图，确定所述物体图像的至少一个深度等级的特征数据；

通过所述物体本体特征提取模型，根据所述至少一个深度等级的特征数据确定所述物体本体特征数据。

可选的，所述根据所述位置数据和所述至少一个物体特征图，并确定所述物体图像的至少一个深度等级的特征数据，包括：

根据所述位置数据确定所述物体图像在各个物体特征图中的特征数据；

获取与各个物体特征提取层分别对应的特征维数；

针对各个物体特征图，将所述物体图像在所述物体特征图中的特征数据变换为具有所述特征维数的特征数据；

将各个物体特征提取层的具有所述特征维数的特征数据的合集作为所述至少一个深度等级的特征数据。

可选的，所述根据所述位置数据确定所述物体图像在各个物体特征图中的特征数据，包括：

根据所述位置数据和所述至少一个物体特征提取层之间的图像尺寸比例关系，获取所述物体图像在各个物体特征图中的特征数据。

可选的，所述根据所述物体本体特征数据，并确定不同物体图像间的相似度，包括：

将所述物体本体特征提取模型输出的实数型的物体本体特征数据转换为二进制的物体本体特征数据；

对所述不同物体图像的二进制的物体本体特征数据执行同或运算，作为所述相似度。

可选的，所述多个环境图像包括：多个图像采集装置拍摄的同一时刻的交通环境图像，同一图像采集装置拍摄的不同时刻的交通环境图像，多个图像采集装置拍摄的不同时刻的交通环境图像；

所述物体包括：交通物体。

可选的，所述物体包括：车辆，人，障碍物。

本申请还提供一种物体本体特征提取模型构建方法，包括：

构建物体本体特征提取模型的网络结构，所述网络结构的输入数据为物体特征数据，输出数据为物体本体特征数据；

本申请还提供一种物体识别装置，包括：

物体图像确定单元，用于确定多个环境图像中的物体图像；

物体本体特征提取单元，用于通过物体本体特征提取模型，确定所述物体图像的物体本体特征数据；

相似度确定单元，用于根据所述物体本体特征数据，确定不同物体图像间的相似度；

图像关联单元，用于根据所述相似度，确定与所述多个环境图像中各个物体分别对应的不同物体图像。

本申请还提供一种物体本体特征提取模型构建装置，包括：

训练数据确定单元，用于确定多个物体特征数据与物体标识之间的对应关系集，作为训练数据集；

模型网络构建单元，用于构建物体本体特征提取模型的网络结构，所述网络结构的输入数据为物体特征数据，输出数据为物体本体特征数据；

模型训练单元，用于基于三元组损失函数，从所述训练数据集中学习得到所述物体本体特征提取模型；所述三元组包括具有相同物体标识的物体对应的两组物体特征数据、和其他物体对应的一组物体特征数据。

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现物体识别方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定多个环境图像中的物体图像；通过物体本体特征提取模型，确定所述物体图像的物体本体特征数据；根据所述物体本体特征数据，确定不同物体图像间的相似度；根据所述相似度，确定与所述多个环境图像中各个物体分别对应的不同物体图像。

本申请还提供一种车辆，包括：

至少一个图像采集装置；

处理器；以及

存储器，用于存储实现交通物体识别方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定多个交通环境图像中的交通物体图像；通过物体本体特征提取模型，确定所述交通物体图像的物体本体特征数据；根据所述物体本体特征数据，确定不同交通物体图像间的相似度；根据所述相似度，确定与所述多个交通环境图像中各个交通物体分别对应的不同交通物体图像。

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现物体本体特征提取模型构建方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定多个物体特征数据与物体标识之间的对应关系集，作为训练数据集；构建物体本体特征提取模型的网络结构，所述网络结构的输入数据为物体特征数据，输出数据为物体本体特征数据；基于三元组损失函数，从所述训练数据集中学习得到所述物体本体特征提取模型；所述三元组包括具有相同物体标识的物体对应的两组物体特征数据、和其他物体对应的一组物体特征数据。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各种方法。

本申请还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各种方法。

与现有技术相比，本申请具有以下优点：

本申请实施例提供的物体识别方法，通过确定多个环境图像中的物体图像；通过物体本体特征提取模型确定所述物体图像的物体本体特征数据；根据所述物体本体特征数据确定不同物体图像间的相似度；根据所述相似度确定与所述多个环境图像中各个物体分别对应的不同物体图像；这种处理方式，使得提取不同物体图像的物体本体特征数据，根据该物体本体特征数据间的相似度，在不同环境图像中识别出同一物体；因此，可以有效提升在不同环境图像中出现的同一物体的识别准确率。

本申请实施例提供的物体本体特征提取模型构建方法，通过确定多个物体特征数据与物体标识之间的对应关系集，作为训练数据集；构建物体本体特征提取模型的网络结构，所述网络结构的输入数据为物体特征数据，输出数据为物体本体特征数据；基于三元组损失函数，从所述训练数据集中学习得到所述物体本体特征提取模型；所述三元组包括具有相同物体标识的物体对应的两组物体特征数据、和其他物体对应的一组物体特征数据；这种处理方式，使得从具有物体标识标注数据的物体特征数据训练集中学习得到物体本体特征提取模型；因此，可以有效提升物体本体特征提取模型的准确度。

附图说明

图1是本申请提供的物体识别方法的实施例的流程图；

图2是本申请提供的物体识别方法的实施例的具体流程图；

图3是本申请提供的物体识别方法的实施例的具体流程图；

图4是本申请提供的物体识别装置的实施例的示意图；

图5是本申请提供的电子设备的实施例的示意图；

图6是本申请提供的车辆的实施例的示意图；

图7是本申请提供的物体本体特征提取模型构建方法的实施例的流程图；

图8是本申请提供的物体本体特征提取模型构建装置的实施例的示意图；

图9是本申请提供的电子设备的实施例的示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请中，提供了物体识别方法、装置及设备，物体本体特征提取模型构建方法、装置及设备，以及车辆。在下面的实施例中逐一对各种方案进行详细说明。

第一实施例

请参考图1，其为本申请提供的一种物体识别方法实施例的流程图。该方法的执行主体包括但不限于无人驾驶车辆，如智能物流车等等，可识别的物体包括交通物体，如道路中行人、车辆、障碍物等等，也可识别其他物体。下面以交通物体的识别为例，对该方法进行说明。本申请提供的一种物体识别方法包括：

步骤S101：确定多个环境图像中的物体图像。

本实施例的多个环境图像为交通环境图像，可以包括多个图像采集装置拍摄的同一时刻的交通环境图像，也可以包括同一图像采集装置拍摄的不同时刻的交通环境图像，还可以包括多个图像采集装置拍摄的不同时刻的交通环境图像。所述图像采集装置，可以是摄像头，也可以是普通相机等等。

本实施例的物体可以是交通物体。所述交通物体，可以是车辆，也可以是人，还可以是障碍物，如树木等等。

本申请实施例提供的方法可应用在拥有一路或多路摄像头的自动驾驶方案中。如图2所示，在多路摄像头的自动驾驶方案中，车辆装载k个摄像头，从k个视角观察车辆周围的环境。这k个摄像头在t _n-τ,…,t _n-1,t _n，这τ+1个时刻共采集了k*(τ+1)张车辆驾驶途中的环境图像，本实施例将其称为交通环境图像。通过本实施例提供的方法，可找出k个摄像头拍摄到的k*(τ+1)张交通环境图像中的同属于同一物体的各个交通物体图像，由此可帮助自动驾驶车辆更好的感知周围环境。在一路摄像头的自动驾驶方案中，车辆只装载1个摄像头，对于单一摄像头，通过本实施例提供的方法，可将τ+1个时刻的同一交通物体关联起来，可以做跟踪，或者辅助其它传感器获取信息，从而更好地感知周围环境。

车辆装载的摄像头拍摄到图像之后，可将交通环境图像数据传输到交通物体检测模型(又称为交通物体探测器)，通过该模型检测得到交通物体(交通参与者)及其在交通环境图像中的位置数据，也就是说确定出交通环境图像中的交通物体图像。

所述位置数据，可以是交通物体图像的矩形包围盒的顶点坐标数据，即位置数据可以是一个四维向量，分别表示左上角和右下角的x坐标和y坐标。

如图2所示，在本实施例的所述交通物体检测模型可采用基于深度学习的RefineDet方法，该方法在借鉴SSD这类单阶段方法运行速率快的基础上，又结合了Faster R-CNN这类两阶段方法，因此具有物体检测准确率高的优点。该方法在检测到交通环境图像中的交通物体(对正在行驶的车辆而言交通物体就是障碍物)图像时，即得到交通物体图像的包围盒(bounding box)坐标，即所述交通物体图像在交通环境图像中的位置数据。

在确定多个交通环境图像中的交通物体图像后，就可以进入下一步通过物体本体特征提取模型确定所述交通物体图像的物体本体特征数据。

步骤S103：通过物体本体特征提取模型，确定所述物体图像的物体本体特征数据。

与同一交通物体对应的多个交通环境图像中的不同交通物体图像，通常具有不同的图像尺寸，同时图像的拍摄角度可能也不相同，但是由于这些图像同属一个交通物体，因此这些图像间通常具有相似的特征数据，本申请实施例将这种特征数据称为所述物体本体特征数据。

本申请实施例提供的方法，通过所述物体本体特征提取模型确定所述物体本体特征数据。所述物体本体特征提取模型，可从大量标注有物体标识的交通物体特征数据训练集中学习得到。所述物体本体特征提取模型，可从具有相同或不同特征维数的大量交通物体特征数据中，提取出具有相同维数的物体本体特征数据。

请参考图3，其为本申请实施例提供的方法的具体流程图。在本实施例中，所述方法还可包括如下步骤：

步骤S301：确定多个物体特征数据与物体标识之间的对应关系集，作为训练数据集。

本实施例的物体特征数据包括交通物体特征数据，该特征数据不同于所述物体本体特征数据。所述交通物体特征数据，可以是交通物体图像本身，也就是说，包括交通物体图像中各个像素点的数据。所述交通物体特征数据，也可以是图像尺寸归一化的交通物体图像，也就是说，包括图像尺寸归一化后的交通物体图像中各个像素点的数据。所述交通物体特征数据，还可以是表征交通物体类别的特征数据等等。

在本实施例中，所述交通物体特征数据采用所述表征交通物体类别的特征数据，该类特征数据可采用如下步骤确定：

步骤S3011：获取包括交通物体图像的交通环境图像与交通物体标识之间的对应关系集。

表1示出了本实施例中涉及车辆的对应关系集。

表1

交通环境图像标识	交通物体标识	交通环境图像备注
1	车辆001	车辆A的摄像头c在t1时刻拍到的图像
…	…	…
100	车辆001	车辆C的摄像头f在t3时刻拍到的图像
101	车辆002	车辆B的摄像头c在t1时刻拍到的图像
…	…	…
200	车辆002	车辆H的摄像头f在t3时刻拍到的图像
…	…	…

由表1可见，该对应关系集可包括多个车辆装载的多个摄像头在多个时刻拍摄的交通环境图像。在本实施例中，与每个车辆对应的交通环境图像数量为100，也就是说，对于一个车辆而言，要采集100张包括该车辆的交通环境图像。

步骤S3013：通过交通物体检测模型确定交通物体图像在交通环境图像中的位置数据、及所述交通物体检测模型包括的至少一个交通物体特征提取层在检测过程中输出的交通物体特征图。

步骤S101已对确定交通物体图像在交通环境图像中的位置数据的方式进行了说明，此处不再赘述。

所述交通物体检测模型可包括一个或多个交通物体特征提取层，本实施例还要获取该模型包括的至少一个交通物体特征提取层在物体检测过程中输出的交通物体特征图。所述交通物体检测模型的网络结构可以是卷积神经网络，该网络可包括多个卷积层，即所述交通物体特征提取层，通过所述交通物体特征提取层可以从该层的输入特征图中提取出较输入特征图更为深度的图像特征，这些图像特征形成输出特征图。由于基于卷积神经网络的交通物体检测模型属于较为成熟的现有技术，因此此处不再赘述。

具体实施时，可以选取交通物体检测模型中的所有交通物体特征提取层的交通物体特征提取层，也可以选取模型中部分交通物体特征提取层的交通物体特征提取层。如果选取交通物体检测模型中的所有交通物体特征提取层的交通物体特征提取层，则特征保留的比较全面，因此可以有效提升物体本体特征提取模型的准确度，从而提升物体本体特征数据的准确度，但是会占用较多的计算单元及存储单元；如果选取交通物体检测模型中的部分交通物体特征提取层的交通物体特征提取层，则会导致部分特征流失，因此会降低物体本体特征提取模型的准确度，从而降低物体本体特征数据的准确度，但是可以有效节约计算单元及存储单元。

步骤S3015：根据所述位置数据和所述至少一个交通物体特征图，确定所述交通物体图像的至少一个深度等级的特征数据，作为所述交通物体特征数据。

在确定出交通物体图像在交通环境图像中的位置数据、及交通物体特征图后，就可以根据该位置数据从至少一个交通物体特征图中确定出与交通物体图像对应的各个深度等级的特征数据，将这些特征数据作为所述交通物体特征数据。

在一个示例中，可采用如下步骤确定所述交通物体图像的至少一个深度等级的特征数据：

1)根据所述位置数据确定所述交通物体图像在各个交通物体特征图中的特征数据。

所述至少一个交通物体特征图的图像尺寸可以相同，也可以不同。

在图像尺寸不同的情况下，本步骤可采用如下方式实现：根据所述位置数据和所述至少一个交通物体特征提取层之间的图像尺寸比例关系，获取所述交通物体图像在各个交通物体特征图中的特征数据。

根据交通物体检测模型的网络结构可确定出至少一个交通物体特征提取层之间的图像尺寸比例关系，例如，交通物体检测模型包括6个交通物体特征提取层，交通环境图像的尺寸为1000*500，该图像中一个车辆的位置数据是(x _left，y _left，x _right，y _right)，第5层交通物体特征提取层的输出特征图的图像尺寸为100*100，第6层交通物体特征提取层的输出特征图的图像尺寸为50*50，则两个层的比例关系为2:1，可先根据车辆的位置数据及第6层的图像尺寸确定该车辆在第6层的输出特征图中的对应位置数据，将该范围内的像素值作为第6深度等级的特征数据，然后再根据第5层与第6层间的图像比例关系和第6层的位置数据，确定出第5层的输出特征图中的对应位置数据，将该范围内的像素值作为第5深度等级的特征数据，等等。

在图像尺寸相同的情况下，可以是直接将交通物体特征图中所述位置数据范围内的图像数据作为该层的深度等级的特征数据。

2)获取与各个交通物体特征提取层分别对应的特征维数。

不同交通物体特征提取层可具有相同的特征维数，也可具有不同的特征维数。通过该步骤使得同一交通物体在不同交通环境图像中的不同大小的交通物体图像的同一深度等级的特征数据具有同样的特征维度，也即归一化不同大小的交通物体图像的同一深度等级的特征数据的维度，以便于计算两个特征数据的相似度，从而确定在不同交通环境图像中的不同大小的交通物体图像是否为同一交通物体。

例如，交通物体检测模型包括6个交通物体特征提取层，与第1层交通物体特征提取层对应的特征维数为1000维，与第2层交通物体特征提取层对应的特征维数为800维，…，与第6层交通物体特征提取层对应的特征维数为900维。

3)针对各个交通物体特征图，将所述交通物体图像在所述交通物体特征图中的特征数据变换为具有所述特征维数的特征数据。

具体实施时，可通过ROIAlign操作或ROIPooling操作，将所述交通物体图像在所述交通物体特征图中的特征数据变换为具有所述特征维数的特征数据。

在本实施例中，ROIAlign层(目标检测特殊层)是一种区域特征聚集方式,可以解决ROI Pooling操作中两次量化造成的区域不匹配(mis-alignment)的问题。实验显示，在检测任务中将ROI Pooling替换为ROI Align可以提升检测模型的准确性。

最后，将各个交通物体特征提取层的具有所述特征维数的特征数据的合集作为所述交通物体特征数据。

例如，通过所述交通物体检测模型对于摄像头c的时刻t拍摄的交通环境图像进行交通物体图像检测，检测得到的第i个前景(交通物体图像)记为

它所得到的在交通环境图像中的矩形框坐标为

它是一个四维的向量，分别表示左上角和右下角的x坐标和y坐标。在基于深度学习的检测模型里面，选定k个中间层产生的特征图{F ₀，F ₁，…,F _k}，输入矩形框坐标

之后，经过RoiAlign操作可以得到该物体

的k个深度等级的特征{f ₀，f ₁，…,f _k},将这些特征全部连接(concatenate)起来得到该物体的特征

需要说明的是，由于确定了与各个交通物体特征提取层分别对应的特征维数，因此对于任一摄像头产生的任一个尺寸的物体图像，它们产生的特征

维度是完全相同的。

表2示出了本实施例中交通物体特征数据与交通物体标识之间的对应关系集。

表2

由表2可见，对于一个车辆而言，由于其在不同交通环境图像中的位置、大小、拍摄角度的不同，因此该车辆在100张交通环境图像中的交通物体特征数据通常并不相同。

综上所述，本实施例通过上述步骤S3011-S3015实现利用交通物体检测模型(RefineDet模块)的中间层的输出特征图(feature map)和交通物体检测后的交通物体图像包围盒(bounding box)，并使用RoiAlign层输出固定大小的特征图，将固定大小特征图的合集作为交通物体特征数据。

步骤S303：构建所述物体本体特征提取模型的网络结构。

所述物体本体特征提取模型，属于“相似性保持哈希”(Similarity Preserving Hashing)范畴，它旨在找到一个哈希映射函数，将原始特征映射到海明空间(Hamming Space)，同时要保持原特征之间的相似性，因此该模型的网络结构可以是哈希网络结构。所述网络结构的输入数据为所述交通物体特征数据，输出数据为所述交通物体图像的物体本体特征数据。

在本实施例中，所述网络结构包括1个1*1的卷积层和一个全连接层，输出q维的向量，即物体本体特征维度为q维，该向量是经压缩后富含“物体是谁”信息量非常紧致的特征。具体实施时，所述网络结构也可以包括多个卷积层，卷积核的大小也可以根据业务需求(如物体识别精度等等)确定。

步骤S305：基于三元组损失函数，从所述训练数据集中学习得到所述物体本体特征提取模型。

本实施例使用三元组损失函数来训练得到哈希网络的模型。所述三元组包括具有相同物体标识的物体对应的两组交通物体特征数据、和其他交通物体对应的一组交通物体特征数据。

在本实施例中，根据训练数据集构造大量三元组，具体而言就是利用训练数据中的交通物体特征数据和交通物体标识构造三元组，这些三元组的定义如下:

{f _i，f _j，f _k}:～(f _i，f _j)＞(f _i，f _k)

该三元组的含义是交通物体特征数据f _i，f _j之间的相似度大于f _i，f _k之间的相似度，在多摄像头的任务中，f _i，f _j相当于同一个实际交通物体在不同摄像头中的图像块转化成的特征，f _k是任意不相关的物体图像的特征。

如果记特征f _i经过哈希网络得到的哈希码为h _i，则三元组损失函数(Triplet Loss)定义为：

l(h _i,h _j,h _k)＝max(0,ξ-||h _i-h _j||+||h _i-h _k||)

其中ξ，用来控制同一交通物体的不同图像的相似特征的哈希码之间的第一距离、与不同交通物体的不同图像的不相似特征的哈希码之间第二距离的偏置量，即两个距离之间的差至少要达到ξ。在获得训练数据、构建出哈希网络结构和三元组损失函数的情况下，就可以训练该网络结构得到网络里的权重。

具体而言，在模型训练过程中，根据构造的三元组和三元组损失函数确定所述物体本体特征提取模型在训练过程中的损失值，所述三元组损失函数使得第一距离与第二距离间差值达到距离阈值ξ，所述第一距离是与所述两组交通物体特征数据对应的物体本体特征数据间的距离，所述第二距离是所述两组交通物体特征数据中的一组交通物体特征数据、与其他交通物体的一组交通物体特征数据间的距离；如果所述损失值达到损失阈值，则停止训练所述物体本体特征提取模型。

在本实施例中，对所述物体本体特征提取模型输出的物体本体特征数据执行量化处理，经过量化之后可以得到q维的0-1向量，本实施例将0-1向量称为哈希码(Hash Code)，该哈希码已经具有对应物体的显著特征。也就是说，本实施例中的所述物体本体特征提取模型输出q维0-1向量表达的物体本体特征数据。采用这种处理方式，一方面，0-1向量可以使用计算机内置的位操作大大加快运算速度，另一方面，它的存储效率高，占用内存少。

至此，对所述物体本体特征提取模型及其构建方式进行了说明。构建完成物体本体特征提取模型后，就可以利用该模型提取所述交通物体图像的物体本体特征数据。

在本实施例中，步骤是S103可包括如下子步骤：

步骤S1031：获取所述交通物体检测模型包括的至少一个交通物体特征提取层在检测交通物体图像过程中输出的交通物体特征图；以及，获取所述交通物体图像在所述交通环境图像中在位置数据。

步骤S1031与上述步骤S3013相对应，相关说明强参见步骤S3013部分，此处不再赘述。

步骤S1033：根据所述位置数据和所述至少一个交通物体特征图，确定所述交通物体图像的至少一个深度等级的特征数据。

具体实施时，步骤S1033可包括如下子步骤：1)根据所述位置数据确定所述交通物体图像在各个交通物体特征图中的特征数据；2)获取与各个交通物体特征提取层分别对应的特征维数；3)针对各个交通物体特征图，将所述交通物体图像在所述交通物体特征图中的特征数据变换为具有所述特征维数的特征数据；4)将各个交通物体特征提取层的具有所述特征维数的特征数据的合集作为所述至少一个深度等级的特征数据。

其中，步骤1可采用如下方式实现：根据所述位置数据和所述至少一个交通物体特征提取层之间的图像尺寸比例关系，获取所述交通物体图像在各个交通物体特征图中的特征数据。

步骤S1033与上述步骤S3015相对应，相关说明强参见步骤S3015部分，此处不再赘述。

步骤S1035：通过所述物体本体特征提取模型，根据所述至少一个深度等级的特征数据确定所述物体本体特征数据。

本步骤将所述至少一个深度等级的特征数据作为待识别的交通物体图像的交通物体特征数据，将这些特征数据输入至所述物体本体特征提取模型，通过该模型确定待识别的交通物体图像的所述物体本体特征数据。

步骤S105：根据所述物体本体特征数据，确定不同物体图像间的相似度。

通过上述步骤获得多个待识别的交通环境图像中各个交通物体图像的所述物体本体特征数据，对于其中任意交通物体图像的两两组合，根据各个交通物体图像的物体本体特征数据确定不同交通物体图像间的相似度。

在本实施例中，在步骤S103后，还可包括如下步骤：将所述物体本体特征提取模型输出的实数型的物体本体特征数据转换为二进制的物体本体特征数据；相应的，步骤S105可采用如下方式实现：对所述不同交通物体图像的二进制的物体本体特征数据执行同或运算，作为所述相似度。

步骤S103在使用训练得到的哈希网络做预测时，分别将经检测和RoiAlign得到的交通物体输入特征数据到哈希网络中，得到q维的实数特征h _i。本实施例再将h _i量化后得到q维的二进制哈希码，即对于任一维度，如果该值小于阈值τ，则取值为0，反之置为1。

本实施例对于每个摄像头在任一时刻检测到的每一个物体，输入到哈希网络中可以得到相应的0-1二进制哈希码，任意两个哈希码之间的相似度可以用这两个哈希码同或(XNOR)后‘1‘的比特位数来衡量，该相似度用两个二进制码之间具有相同二进制位的位数N来衡量，即：二进制位相同的数量(h _i,h _j)＝N；这种处理方式，使得采用计算机内置的同或操作计算相似度；因此，可以有效提升计算速度。

步骤S107：根据所述相似度，确定与所述多个环境图像中各个物体分别对应的不同物体图像。

本申请实施例提供的方法，不仅可以对不同摄像头的物体之间分别计算相似度，也可以对同一摄像头不同时序上的物体之间分别计算相似度，相似度高的就可以认为两者之间是同一物体，从而可以快速找到不同摄像头之间在空间和时间上的相关联物体。

从上述实施例可见，本申请实施例提供的物体识别方法，通过确定多个环境图像中的物体图像；通过物体本体特征提取模型确定所述物体图像的物体本体特征数据；根据所述物体本体特征数据确定不同物体图像间的相似度；根据所述相似度确定与所述多个环境图像中各个物体分别对应的不同物体图像；这种处理方式，使得提取不同物体图像的物体本体特征数据，根据该物体本体特征数据间的相似度，在不同环境图像中识别出同一物体；因此，可以有效提升在不同环境图像中出现的同一物体的识别准确率。

第二实施例

在上述的实施例中，提供了一种物体识别方法，与之相对应的，本申请还提供一种物体识别装置。该装置是与上述方法的实施例相对应。

请参看图4，其为本申请的物体识别装置的实施例的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种物体识别装置，包括：

物体图像确定单元401，用于确定多个环境图像中的物体图像；

物体本体特征提取单元403，用于通过物体本体特征提取模型，确定所述物体图像的物体本体特征数据；

相似度确定单元405，用于根据所述物体本体特征数据，确定不同物体图像间的相似度；

图像关联单元407，用于根据所述相似度，确定与所述多个环境图像中各个物体分别对应的不同物体图像。

可选的，还包括：

模型网络构建单元，用于构建所述物体本体特征提取模型的网络结构，所述网络结构的输入数据为物体特征数据，输出数据为物体本体特征数据；

可选的，所述物体图像确定单元401，具体用于通过物体检测模型，确定所述物体图像；

所述物体本体特征提取单元403，包括：

物体特征图获取子单元，用于获取所述物体检测模型包括的至少一个物体特征提取层在检测物体图像过程中输出的物体特征图；

位置数据获取子单元，用于获取所述物体图像在所述环境图像中的位置数据；

第一特征数据确定子单元，用于根据所述位置数据和所述至少一个物体特征图，确定所述物体图像的至少一个深度等级的特征数据；

第二特征数据子单元，用于通过所述物体本体特征提取模型，根据所述至少一个深度等级的特征数据确定所述物体本体特征数据。

可选的，所述第一特征数据确定子单元包括：

特征数据裁剪子单元，用于根据所述位置数据确定所述物体图像在各个物体特征图中的特征数据；

特征维数获取子单元，用于获取与各个物体特征提取层分别对应的特征维数；

特征数据维数归一化子单元，用于针对各个物体特征图，将所述物体图像在所述物体特征图中的特征数据变换为具有所述特征维数的特征数据；

特征数据合并子单元，用于将各个物体特征提取层的具有所述特征维数的特征数据的合集作为所述至少一个深度等级的特征数据。

可选的，所述特征数据裁剪子单元，具体用于根据所述位置数据和所述至少一个物体特征提取层之间的图像尺寸比例关系，获取所述物体图像在各个物体特征图中的特征数据。

可选的，相似度确定单元405包括：

特征数据转换子单元，用于将所述物体本体特征提取模型输出的实数型的物体本体特征数据转换为二进制的物体本体特征数据；

相似度计算子单元，用于对所述不同物体图像的二进制的物体本体特征数据执行同或运算，作为所述相似度。

可选的，所述多个环境图像包括：多个图像采集装置拍摄的同一时刻的交通环境图像，同一图像采集装置拍摄的不同时刻的交通环境图像，多个图像采集装置拍摄的不同时刻的交通环境图像；相应的，所述物体包括：交通物体。

可选的，所述物体包括：车辆，人，障碍物。

第三实施例

在上述的实施例中，提供了一种物体识别方法，与之相对应的，本申请还提供一种电子设备。该设备的实施例是与上述方法的实施例相对应。

请参看图5，其为本申请的电子设备的实施例的示意图。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本申请另外提供一种电子设备，包括：处理器501；以及存储器502，用于存储实现物体识别方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定多个环境图像中的物体图像；通过物体本体特征提取模型，确定所述物体图像的物体本体特征数据；根据所述物体本体特征数据，确定不同物体图像间的相似度；根据所述相似度，确定与所述多个环境图像中各个物体分别对应的不同物体图像。

第四实施例

在上述的实施例中，提供了一种物体识别方法，与之相对应的，本申请还提供一种车辆。该设备的实施例是与上述方法的实施例相对应。

请参看图6，其为本申请的车辆的实施例的示意图。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本申请另外提供一种车辆，包括：至少一个图像采集装置601；处理器602；以及存储器603，用于存储实现交通物体识别方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定多个交通环境图像中的交通物体图像；通过物体本体特征提取模型，确定所述交通物体图像的物体本体特征数据；根据所述物体本体特征数据，确定不同交通物体图像间的相似度；根据所述相似度，确定与所述多个交通环境图像中各个交通物体分别对应的不同交通物体图像。

第五实施例

在上述的实施例中，提供了一种物体识别方法，与之相对应的，本申请还提供一种物体本体特征提取模型构建方法。该方法是与上述方法的实施例相对应。

请参看图7，其为本申请的物体本体特征提取模型构建方法的实施例的流程图。由于该方法实施例基本相似于上述方法实施例，所以描述得比较简单，相关之处参见上述方法实施例的部分说明即可。下述描述的方法实施例仅仅是示意性的。

本申请另外提供一种物体本体特征提取模型构建方法，包括：

步骤S701：确定多个物体特征数据与物体标识之间的对应关系集，作为训练数据集；

步骤S703：构建物体本体特征提取模型的网络结构，所述网络结构的输入数据为物体特征数据，输出数据为物体本体特征数据；

步骤S705：基于三元组损失函数，从所述训练数据集中学习得到所述物体本体特征提取模型；所述三元组包括具有相同物体标识的物体对应的两组物体特征数据、和其他物体对应的一组物体特征数据。

第六实施例

在上述的实施例中，提供了一种物体本体特征提取模型构建方法，与之相对应的，本申请还提供一种物体本体特征提取模型构建装置。该装置是与上述方法的实施例相对应。

请参看图8，其为本申请的物体本体特征提取模型构建装置的实施例的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种物体本体特征提取模型构建装置，包括：

训练数据确定单元801，用于确定多个物体特征数据与物体标识之间的对应关系集，作为训练数据集；

模型网络构建单元803，用于构建物体本体特征提取模型的网络结构，所述网络结构的输入数据为物体特征数据，输出数据为物体本体特征数据；

模型训练单元805，用于基于三元组损失函数，从所述训练数据集中学习得到所述物体本体特征提取模型；所述三元组包括具有相同物体标识的物体对应的两组物体特征数据、和其他物体对应的一组物体特征数据。

第七实施例

在上述的实施例中，提供了一种物体本体特征提取模型构建方法，与之相对应的，本申请还提供一种电子设备。该设备的实施例是与上述方法的实施例相对应。

请参看图9，其为本申请的电子设备的实施例的示意图。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本申请另外提供一种电子设备，包括：处理器901；以及存储器902，用于存储实现物体本体特征提取模型构建方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定多个物体特征数据与物体标识之间的对应关系集，作为训练数据集；构建物体本体特征提取模型的网络结构，所述网络结构的输入数据为物体特征数据，输出数据为物体本体特征数据；基于三元组损失函数，从所述训练数据集中学习得到所述物体本体特征提取模型；所述三元组包括具有相同物体标识的物体对应的两组物体特征数据、和其他物体对应的一组物体特征数据。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

一种物体识别方法，其特征在于，包括：

确定多个环境图像中的物体图像；

通过物体本体特征提取模型，确定所述物体图像的物体本体特征数据；

根据所述物体本体特征数据，确定不同物体图像间的相似度；

根据所述相似度，确定与所述多个环境图像中各个物体分别对应的不同物体图像。
根据权利要求1所述的方法，其特征在于，所述物体本体特征提取模型从具有物体标识标注数据的物体特征数据训练集中学习得到。
根据权利要求2所述的方法，其特征在于，还包括：

确定多个物体特征数据与物体标识之间的对应关系集，作为训练数据集；

构建所述物体本体特征提取模型的网络结构，所述网络结构的输入数据为物体特征数据，输出数据为物体本体特征数据；

基于三元组损失函数，从所述训练数据集中学习得到所述物体本体特征提取模型；所述三元组包括具有相同物体标识的物体对应的两组物体特征数据、和其他物体对应的一组物体特征数据。
根据权利要求1所述的方法，其特征在于，

所述确定多个环境图像中的物体图像，包括：

通过物体检测模型，确定所述物体图像；

所述通过物体本体特征提取模型，并确定所述物体图像的物体本体特征数据，包括：

获取所述物体检测模型包括的至少一个物体特征提取层在检测物体图像过程中输出的物体特征图；以及，获取所述物体图像在所述环境图像中的位置数据；

根据所述位置数据和所述至少一个物体特征图，确定所述物体图像的至少一个深度等级的特征数据；

通过所述物体本体特征提取模型，根据所述至少一个深度等级的特征数据确定所述物体本体特征数据。
根据权利要求4所述的方法，其特征在于，所述根据所述位置数据和所述至少一个物体特征图，并确定所述物体图像的至少一个深度等级的特征数据，包括：

根据所述位置数据确定所述物体图像在各个物体特征图中的特征数据；

获取与各个物体特征提取层分别对应的特征维数；

针对各个物体特征图，将所述物体图像在所述物体特征图中的特征数据变换为具有所述特征维数的特征数据；

将各个物体特征提取层的具有所述特征维数的特征数据的合集作为所述至少一个深度等级的特征数据。
根据权利要求5所述的方法，其特征在于，所述根据所述位置数据确定所述物体图像在各个物体特征图中的特征数据，包括：

根据所述位置数据和所述至少一个物体特征提取层之间的图像尺寸比例关系，获取所述物体图像在各个物体特征图中的特征数据。
根据权利要求1所述的方法，其特征在于，所述根据所述物体本体特征数据，并确定不同物体图像间的相似度，包括：

将所述物体本体特征提取模型输出的实数型的物体本体特征数据转换为二进制的物体本体特征数据；

对所述不同物体图像的二进制的物体本体特征数据执行同或运算，作为所述相似度。
根据权利要求1所述的方法，其特征在于，

所述多个环境图像包括：多个图像采集装置拍摄的同一时刻的交通环境图像，同一图像采集装置拍摄的不同时刻的交通环境图像，多个图像采集装置拍摄的不同时刻的交通环境图像；

所述物体包括：交通物体。
根据权利要求1所述的方法，其特征在于，所述物体包括：车辆，人，障碍物。
一种物体本体特征提取模型构建方法，其特征在于，包括：

确定多个物体特征数据与物体标识之间的对应关系集，作为训练数据集；

构建物体本体特征提取模型的网络结构，所述网络结构的输入数据为物体特征数据，输出数据为物体本体特征数据；

基于三元组损失函数，从所述训练数据集中学习得到所述物体本体特征提取模型；所述三元组包括具有相同物体标识的物体对应的两组物体特征数据、和其他物体对应的一组物体特征数据。
一种物体识别装置，其特征在于，包括：

物体图像确定单元，用于确定多个环境图像中的物体图像；

物体本体特征提取单元，用于通过物体本体特征提取模型，确定所述物体图像的物体本体特征数据；

相似度确定单元，用于根据所述物体本体特征数据，确定不同物体图像间的相似度；

图像关联单元，用于根据所述相似度，确定与所述多个环境图像中各个物体分别对应的不同物体图像。
一种物体本体特征提取模型构建装置，其特征在于，包括：

训练数据确定单元，用于确定多个物体特征数据与物体标识之间的对应关系集，作为训练数据集；

模型网络构建单元，用于构建物体本体特征提取模型的网络结构，所述网络结构的输入数据为物体特征数据，输出数据为物体本体特征数据；

模型训练单元，用于基于三元组损失函数，从所述训练数据集中学习得到所述物体本体特征提取模型；所述三元组包括具有相同物体标识的物体对应的两组物体特征数据、和其他物体对应的一组物体特征数据。
一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储实现物体识别方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定多个环境图像中的物体图像；通过物体本体特征提取模型，确定所述物体图像的物体本体特征数据；根据所述物体本体特征数据，确定不同物体图像间的相似度；根据所述相似度，确定与所述多个环境图像中各个物体分别对应的不同物体图像。
一种车辆，其特征在于，包括：

至少一个图像采集装置；

处理器；以及

存储器，用于存储实现交通物体识别方法的程序，该车辆通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定多个交通环境图像中的交通物体图像；通过物体本体特征提取模型，确定所述交通物体图像的物体本体特征数据；根据所述物体本体特征数据，确定不同交通物体图像间的相似度；根据所述相似度，确定与所述多个交通环境图像中各个交通物体分别对应的不同交通物体图像。
一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储实现物体本体特征提取模型构建方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定多个物体特征数据与物体标识之间的对应关系集，作为训练数据集；构建物体本体特征提取模型的网络结构，所述网络结构的输入数据为物体特征数据，输出数据为物体本体特征数据；基于三元组损失函数，从所述训练数据集中学习得到所述物体本体特征提取模型；所述三元组包括具有相同物体标识的物体对应的两组物体特征数据、和其他物体对应的一组物体特征数据。