CN114547249B

CN114547249B - 一种基于自然语言和视觉特征的车辆检索方法

Info

Publication number: CN114547249B
Application number: CN202210173817.3A
Authority: CN
Inventors: 高文飞; 王瑞雪; 王磊; 王辉; 郭丽丽
Original assignee: Jinan Rongling Technology Development Co ltd
Current assignee: Jinan Rongling Technology Development Co ltd
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2024-06-07
Anticipated expiration: 2042-02-24
Also published as: CN114547249A

Abstract

本发明公开了一种基于自然语言和视觉特征的车辆检索方法，包括如下步骤：S1、构建车辆重识别数据集，通过从不同摄像头采集视频，之后利用检测模型从视频中检测出车辆图片，构建数据集；S2、使用多任务学习框架作为基础模型，训练车辆重识别模型；S3、获得特征提取器；S4、构建基于自然语言和视觉特征的多模态车辆轨迹检索***，对车辆轨迹进行检索。该种基于自然语言和视觉特征的车辆检索方法，可以通过自然语言方便的找到和语义匹配的车辆，相比之前仅仅基于视觉的车辆检索***更具灵活性，降低了检索的门槛，同时利用车辆重识别模型提取出辨别能力强的车辆的视觉特征，丰富了特征的细粒度信息。

Description

一种基于自然语言和视觉特征的车辆检索方法

技术领域

本发明涉及智慧交通技术领域，具体为一种基于自然语言和视觉特征的车辆检索方法。

背景技术

目标追踪是计算机视觉研究的热门领域之一，是指在一段连续的视频帧中，利用人工智能技术，自动追踪视频连续帧中出现的某个固定目标。目标追踪作为一项基础技术广泛应用于各种领域，例如：自动驾驶、智慧城市以及智能监控等多个场景。

基于自然语言和视觉特征的车辆检索方法在智慧城市交通的目标追踪中发挥着重要作用。基于自然语言和视觉特征的车辆检索任务是指，给定自然语言需要从视频片段库中将对应的车辆轨迹片段检索出来，比如“一辆红色的SUV在路口右转”，需要将对应的车辆轨迹片段检索召回，然而在现有技术中，基于自然语言和视觉特征的跨模态车辆检索，使用的视觉特征比较简单，比如基于ImageNet预训练，与车辆在域上的差异比较大，无法提取高效辨别能力强的特征，或者仅仅基于视觉模态检索，缺少灵活性，同时检索的门槛也较高，跨模态车辆检索使用的特征较为简单，无法对车辆进行细粒度级别的描述。因此我们对此做出改进，提出一种基于自然语言和视觉特征的车辆检索方法。

发明内容

为了解决上述技术问题，本发明提供了如下的技术方案：

本发明一种基于自然语言和视觉特征的车辆检索方法，包括如下步骤：

S1、构建车辆重识别数据集，通过从不同摄像头采集视频，之后利用检测模型从视频中检测出车辆图片，构建数据集；

S2、使用多任务学习框架作为基础模型，训练车辆重识别模型，具体步骤如下：

S2-1、将车辆图片进行一些数据预处理，包括随机擦除、随机剪切和标准化处理，然后构建批训练数据，具体为从库中不放回的抽取P各类，每个类K张图片，使用这些图片作为训练的批数据；

S2-2、将批数据送入到一个残差网络中，通过卷积操作，得到特征图，然后对这个特征图进行广义平均池化，将特征图转化为一位向量，并定义这个特征为F₁，之后利用此一位向量计算度量学习损失；

S2-3、将特征F₁经过一个批归一化层，得到特征F₂，然后使用这个特征计算分类损失；

S2-4、通过反向传播对网络参数进行优化，通过多次迭代，此时网络具备分辨不同车辆的能力，之后将训练好的网络参数保存；

S3、获得特征提取器，去掉Re-ID模型的头部即分类层，也就是BN后的所有部分，然后使用BN后的获得的特征即上述的特征F₂作为车辆的特征表示，便可得到车辆的特征提取器；

S4、构建基于自然语言和视觉特征的多模态车辆轨迹检索***，对车辆轨迹进行检索，具体步骤如下：

S4-1、视觉特征提取，对每段视频进行视频抽帧，并从每一帧中将车辆的主体部分裁剪出来，之后使用S3中的车辆特征提取器对每张帧图片进行特征提取，并将其转化为特征向量V，最后通过GRU模型挖掘时序信息进行融合，得到视觉特征f_v；

S4-2、自然语言特征提取，输入N段自然语言，并对于每一段自然语言，使用在大规模语料数据上预训练的GLove模型提取词向量特征S，之后使用通过GRU模型对词向量特征进行融合，得到自然语言特征f_s；

S4-3、对比学习，使用得到的视觉特征f_v和自然语言特征f_s，在高维空间上计算对比损失，计算自然语言与车辆轨迹视频的匹配度，即余弦相似度，之后将车辆轨迹按照匹配度进行排序，将相似度最高的若干个车辆轨迹进行返回，便可现实通过自然语言对车辆轨迹进行检索。

作为本发明的一种优选技术方案，在S1中，构建数据集的具体方式为：将相同车牌号视为一类，顺序给予其ID标签，并将ID数目定义为N。

作为本发明的一种优选技术方案，在S2-2中，计算度量学习损失是利用三元组损失计算，三元组损失如下：

式中：L_t代表三元组损失，f(*)代表网络的映射函数，即将图片转化为一维向量的函数，x_a，x_p，x_n分表代表三元组的锚图像、正例图像和反例图像，三元组是通过一种难采样方式获取的，具体为，针对一组批数据，会循环将每一个图片作为锚图像，然后找到距离最远的同类图片作为正例图像以及距离最近的不同类图片作为反例图像，以此来构建一个三元组。

作为本发明的一种优选技术方案，在S2-3中，计算分类损失，这里的分类损失标签是之前设定的ID标签，使用的损失函数为交叉熵损失：

式中：L_s代表分类学习损失，即交叉熵损失，y_i是一个指示变量，如果第i个类别和目标类别匹配则y_i＝1否则为0，p_i为图片属于第i类的预测出来的可能性。

作为本发明的一种优选技术方案，在S4-1中，特征向量V＝其中T_v是一段视频中的帧数，c_t是第t帧的特征表示，2048是特征的维度，之后将T_v个特征通过GRU挖掘时序信息进行融合/>得到融合后的特征/>最后通过一个全连接层将特征映射到高维空间并经过批标准化，得到最后的视觉特征/>这里的W_α和b_α代表全连接层的权重和偏差。

作为本发明的一种优选技术方案，在S4-2中，词向量特征其中T_s代表这段自然语言中词语的数目，w_t代表第t个词向量，之后使用另一个GRU模块对词向量特征进行融合/> 最后将融合后的特征/>通过一个全连接和批处理层得到最后的自然语言特征/>这里的W_γ和b_γ代表全连接层的权重和偏差。

作为本发明的一种优选技术方案，在S4-3中，定义对比损失为L，其中N代表样本对数目，d代表两种特征的欧式距离，即d＝||f_s-f_v||₂，y代表两种特征是否匹配，当自然语言特征和视觉特征是匹配情况下，y＝1，反之不匹配时，y＝0，m为预设的阈值。

本发明的有益效果是：

该种基于自然语言和视觉特征的车辆检索方法，可以通过自然语言方便的找到和语义匹配的车辆，相比之前仅仅基于视觉的车辆检索***更具灵活性，降低了检索的门槛，同时利用车辆重识别模型提取出辨别能力强的车辆的视觉特征，丰富了特征的细粒度信息。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

在附图中：

图1是本发明车辆重识别模型示意图；

图2是本发明车辆轨迹检索***示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1

S2、如图1所示，使用多任务学习框架作为基础模型，训练车辆重识别模型，具体步骤如下：

S3、获得特征提取器，去掉Re-ID模型的头部即分类层，也就是BN后的所有部分，然后使用BN后的获得的特征即上述的特征F₂作为车辆的特征表示，便可得到车辆的特征提取器，这个特征提取器的作用是把一张车辆图片转换为一个特征向量，这个特征向量是对一个车辆包含高级语义信息的完整描述，因为这个特征提取器已经使用ID标签进行了完整训练；

S4、如图2所示，构建基于自然语言和视觉特征的多模态车辆轨迹检索***对车辆轨迹进行检索，具体步骤如下：

S4-3、对比学习，使用得到的视觉特征f_v和自然语言特征f_s，在高维空间上计算对比损失，拉近匹配的自然语言特征和视觉特征的距离，同时拉远不匹配的自然语言特征和视觉特征的距离，计算自然语言与车辆轨迹视频的匹配度，即余弦相似度，之后将车辆轨迹按照匹配度进行排序，将相似度最高的若干个车辆轨迹进行返回，便可现实通过自然语言对车辆轨迹进行检索。

其中，在S1中，构建数据集的具体方式为：将相同车牌号视为一类，顺序给予其ID标签，并将ID数目定义为N。

其中，在S2-2中，计算度量学习损失是利用三元组损失计算，三元组损失如下：

其中，在S2-3中，计算分类损失，这里的分类损失标签是之前设定的ID标签，使用的损失函数为交叉熵损失：

式中：L_s代表分类学习损失，即交叉熵损失，y_i是一个指示变量，如果第i个类别和目标类别匹配则y_i＝1否则为0，p_i为图片属于第i类的预测出来的可能性，这样通过度量学习和分类学习的多任务学习机制可以缓解车辆重识别中存在的类内差异大，类间差异小的问题。

其中，在S4-1中，特征向量其中T_v是一段视频中的帧数，c_t是第t帧的特征表示，2048是特征的维度，之后将T_v个特征通过GRU挖掘时序信息进行融合/>得到融合后的特征/>最后通过一个全连接层将特征映射到高维空间并经过批标准化，得到最后的视觉特征f_v，/>这里的W_α和b_α代表全连接层的权重和偏差。

其中，在S4-2中，词向量特征其中T_s代表这段自然语言中词语的数目，w_t代表第t个词向量，之后使用另一个GRU模块对词向量特征进行融合最后将融合后的特征/>通过一个全连接和批处理层得到最后的自然语言特征/>这里的W_γ和b_γ代表全连接层的权重和偏差。

其中，在S4-3中，定义对比损失为L，其中N代表样本对数目，d代表两种特征的欧式距离，即d＝||f_s-f_v||₂，y代表两种特征是否匹配，当自然语言特征和视觉特征是匹配情况下，y＝1，反之不匹配时，y＝0，m为预设的阈。

在对模型训练完成后，利用上述模型的自然语言部分对Query库中所有自然语言进行特征提取，将自然语言转化为特征表示，同时，利用上述模型的视觉特征部分对Gallery集中的车辆轨迹视频进行特征提取。针对一段自然语言，计算它与Gallery库中的所有的车辆轨迹的匹配度，即余弦相似度，然后我们将车辆轨迹按照匹配度进行排序，将相似度最高的若干个车辆轨迹进行返回，此时便完成了通过自然语言对车辆轨迹进行检索。

本发明的车辆检索方式更加灵活，所需要的检索门槛较低，是一句自然语言；同时利用车辆重识别模型提取出辨别能力强的车辆的视觉特征，丰富了特征的细粒度信息。

实施例2

本发明一种基于自然语言和视觉特征的车辆检索方法在CityFlow-NL数据集上的表现，如下表所示：

方法	MRR	Recall@5	Recall@10
				基础方法	0.0269	0.0264	0.0491
本发明的方法(ImageNet特征)	0.1091	0.1669	0.3178
				本发明的方法(Re-ID特征)	0.1613	0.2585	0.3925

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自然语言和视觉特征的车辆检索方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法，其特征在于，在S1中，构建数据集的具体方式为：将相同车牌号视为一类，顺序给予其ID标签，并将ID数目定义为N。

3.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法，其特征在于，在S2-2中，计算度量学习损失是利用三元组损失计算，三元组损失如下：

4.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法，其特征在于，在S2-3中，计算分类损失，这里的分类损失标签是之前设定的ID标签，使用的损失函数为交叉熵损失：

5.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法，其特征在于，在S4-1中，特征向量其中T_v是一段视频中的帧数，c_t是第t帧的特征表示，2048是特征的维度，之后将T_v个特征通过GRU挖掘时序信息进行融合/> 得到融合后的特征/>最后通过一个全连接层将特征映射到高维空间并经过批标准化，得到最后的视觉特征f_v，/> 这里的W_α和b_α代表全连接层的权重和偏差。

6.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法，其特征在于，在S4-2中，词向量特征其中T_s代表这段自然语言中词语的数目，w_t代表第t个词向量，之后使用另一个GRU模块对词向量特征进行融合/> 最后将融合后的特征/>通过一个全连接和批处理层得到最后的自然语言特征/>这里的W_γ和b_γ代表全连接层的权重和偏差。

7.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法，其特征在于，在S4-3中，定义对比损失为L，yd²+(1-y)max(m-d,0)²，其中N代表样本对数目，d代表两种特征的欧式距离，即d＝||f_s-f_v||₂，y代表两种特征是否匹配，当自然语言特征和视觉特征是匹配情况下，y＝1，反之不匹配时，y＝0，m为预设的阈值。