CN114547249B - 一种基于自然语言和视觉特征的车辆检索方法 - Google Patents

一种基于自然语言和视觉特征的车辆检索方法 Download PDF

Info

Publication number
CN114547249B
CN114547249B CN202210173817.3A CN202210173817A CN114547249B CN 114547249 B CN114547249 B CN 114547249B CN 202210173817 A CN202210173817 A CN 202210173817A CN 114547249 B CN114547249 B CN 114547249B
Authority
CN
China
Prior art keywords
vehicle
natural language
features
feature
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210173817.3A
Other languages
English (en)
Other versions
CN114547249A (zh
Inventor
高文飞
王瑞雪
王磊
王辉
郭丽丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Rongling Technology Development Co ltd
Original Assignee
Jinan Rongling Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Rongling Technology Development Co ltd filed Critical Jinan Rongling Technology Development Co ltd
Priority to CN202210173817.3A priority Critical patent/CN114547249B/zh
Publication of CN114547249A publication Critical patent/CN114547249A/zh
Application granted granted Critical
Publication of CN114547249B publication Critical patent/CN114547249B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于自然语言和视觉特征的车辆检索方法,包括如下步骤:S1、构建车辆重识别数据集,通过从不同摄像头采集视频,之后利用检测模型从视频中检测出车辆图片,构建数据集;S2、使用多任务学习框架作为基础模型,训练车辆重识别模型;S3、获得特征提取器;S4、构建基于自然语言和视觉特征的多模态车辆轨迹检索***,对车辆轨迹进行检索。该种基于自然语言和视觉特征的车辆检索方法,可以通过自然语言方便的找到和语义匹配的车辆,相比之前仅仅基于视觉的车辆检索***更具灵活性,降低了检索的门槛,同时利用车辆重识别模型提取出辨别能力强的车辆的视觉特征,丰富了特征的细粒度信息。

Description

一种基于自然语言和视觉特征的车辆检索方法
技术领域
本发明涉及智慧交通技术领域,具体为一种基于自然语言和视觉特征的车辆检索方法。
背景技术
目标追踪是计算机视觉研究的热门领域之一,是指在一段连续的视频帧中,利用人工智能技术,自动追踪视频连续帧中出现的某个固定目标。目标追踪作为一项基础技术广泛应用于各种领域,例如:自动驾驶、智慧城市以及智能监控等多个场景。
基于自然语言和视觉特征的车辆检索方法在智慧城市交通的目标追踪中发挥着重要作用。基于自然语言和视觉特征的车辆检索任务是指,给定自然语言需要从视频片段库中将对应的车辆轨迹片段检索出来,比如“一辆红色的SUV在路口右转”,需要将对应的车辆轨迹片段检索召回,然而在现有技术中,基于自然语言和视觉特征的跨模态车辆检索,使用的视觉特征比较简单,比如基于ImageNet预训练,与车辆在域上的差异比较大,无法提取高效辨别能力强的特征,或者仅仅基于视觉模态检索,缺少灵活性,同时检索的门槛也较高,跨模态车辆检索使用的特征较为简单,无法对车辆进行细粒度级别的描述。因此我们对此做出改进,提出一种基于自然语言和视觉特征的车辆检索方法。
发明内容
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明一种基于自然语言和视觉特征的车辆检索方法,包括如下步骤:
S1、构建车辆重识别数据集,通过从不同摄像头采集视频,之后利用检测模型从视频中检测出车辆图片,构建数据集;
S2、使用多任务学习框架作为基础模型,训练车辆重识别模型,具体步骤如下:
S2-1、将车辆图片进行一些数据预处理,包括随机擦除、随机剪切和标准化处理,然后构建批训练数据,具体为从库中不放回的抽取P各类,每个类K张图片,使用这些图片作为训练的批数据;
S2-2、将批数据送入到一个残差网络中,通过卷积操作,得到特征图,然后对这个特征图进行广义平均池化,将特征图转化为一位向量,并定义这个特征为F1,之后利用此一位向量计算度量学习损失;
S2-3、将特征F1经过一个批归一化层,得到特征F2,然后使用这个特征计算分类损失;
S2-4、通过反向传播对网络参数进行优化,通过多次迭代,此时网络具备分辨不同车辆的能力,之后将训练好的网络参数保存;
S3、获得特征提取器,去掉Re-ID模型的头部即分类层,也就是BN后的所有部分,然后使用BN后的获得的特征即上述的特征F2作为车辆的特征表示,便可得到车辆的特征提取器;
S4、构建基于自然语言和视觉特征的多模态车辆轨迹检索***,对车辆轨迹进行检索,具体步骤如下:
S4-1、视觉特征提取,对每段视频进行视频抽帧,并从每一帧中将车辆的主体部分裁剪出来,之后使用S3中的车辆特征提取器对每张帧图片进行特征提取,并将其转化为特征向量V,最后通过GRU模型挖掘时序信息进行融合,得到视觉特征fv
S4-2、自然语言特征提取,输入N段自然语言,并对于每一段自然语言,使用在大规模语料数据上预训练的GLove模型提取词向量特征S,之后使用通过GRU模型对词向量特征进行融合,得到自然语言特征fs
S4-3、对比学习,使用得到的视觉特征fv和自然语言特征fs,在高维空间上计算对比损失,计算自然语言与车辆轨迹视频的匹配度,即余弦相似度,之后将车辆轨迹按照匹配度进行排序,将相似度最高的若干个车辆轨迹进行返回,便可现实通过自然语言对车辆轨迹进行检索。
作为本发明的一种优选技术方案,在S1中,构建数据集的具体方式为:将相同车牌号视为一类,顺序给予其ID标签,并将ID数目定义为N。
作为本发明的一种优选技术方案,在S2-2中,计算度量学习损失是利用三元组损失计算,三元组损失如下:
式中:Lt代表三元组损失,f(*)代表网络的映射函数,即将图片转化为一维向量的函数,xa,xp,xn分表代表三元组的锚图像、正例图像和反例图像,三元组是通过一种难采样方式获取的,具体为,针对一组批数据,会循环将每一个图片作为锚图像,然后找到距离最远的同类图片作为正例图像以及距离最近的不同类图片作为反例图像,以此来构建一个三元组。
作为本发明的一种优选技术方案,在S2-3中,计算分类损失,这里的分类损失标签是之前设定的ID标签,使用的损失函数为交叉熵损失:
式中:Ls代表分类学习损失,即交叉熵损失,yi是一个指示变量,如果第i个类别和目标类别匹配则yi=1否则为0,pi为图片属于第i类的预测出来的可能性。
作为本发明的一种优选技术方案,在S4-1中,特征向量V=其中Tv是一段视频中的帧数,ct是第t帧的特征表示,2048是特征的维度,之后将Tv个特征通过GRU挖掘时序信息进行融合/>得到融合后的特征/>最后通过一个全连接层将特征映射到高维空间并经过批标准化,得到最后的视觉特征/>这里的Wα和bα代表全连接层的权重和偏差。
作为本发明的一种优选技术方案,在S4-2中,词向量特征 其中Ts代表这段自然语言中词语的数目,wt代表第t个词向量,之后使用另一个GRU模块对词向量特征进行融合/> 最后将融合后的特征/>通过一个全连接和批处理层得到最后的自然语言特征/>这里的Wγ和bγ代表全连接层的权重和偏差。
作为本发明的一种优选技术方案,在S4-3中,定义对比损失为L,其中N代表样本对数目,d代表两种特征的欧式距离,即d=||fs-fv||2,y代表两种特征是否匹配,当自然语言特征和视觉特征是匹配情况下,y=1,反之不匹配时,y=0,m为预设的阈值。
本发明的有益效果是:
该种基于自然语言和视觉特征的车辆检索方法,可以通过自然语言方便的找到和语义匹配的车辆,相比之前仅仅基于视觉的车辆检索***更具灵活性,降低了检索的门槛,同时利用车辆重识别模型提取出辨别能力强的车辆的视觉特征,丰富了特征的细粒度信息。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1是本发明车辆重识别模型示意图;
图2是本发明车辆轨迹检索***示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1
本发明一种基于自然语言和视觉特征的车辆检索方法,包括如下步骤:
S1、构建车辆重识别数据集,通过从不同摄像头采集视频,之后利用检测模型从视频中检测出车辆图片,构建数据集;
S2、如图1所示,使用多任务学习框架作为基础模型,训练车辆重识别模型,具体步骤如下:
S2-1、将车辆图片进行一些数据预处理,包括随机擦除、随机剪切和标准化处理,然后构建批训练数据,具体为从库中不放回的抽取P各类,每个类K张图片,使用这些图片作为训练的批数据;
S2-2、将批数据送入到一个残差网络中,通过卷积操作,得到特征图,然后对这个特征图进行广义平均池化,将特征图转化为一位向量,并定义这个特征为F1,之后利用此一位向量计算度量学习损失;
S2-3、将特征F1经过一个批归一化层,得到特征F2,然后使用这个特征计算分类损失;
S2-4、通过反向传播对网络参数进行优化,通过多次迭代,此时网络具备分辨不同车辆的能力,之后将训练好的网络参数保存;
S3、获得特征提取器,去掉Re-ID模型的头部即分类层,也就是BN后的所有部分,然后使用BN后的获得的特征即上述的特征F2作为车辆的特征表示,便可得到车辆的特征提取器,这个特征提取器的作用是把一张车辆图片转换为一个特征向量,这个特征向量是对一个车辆包含高级语义信息的完整描述,因为这个特征提取器已经使用ID标签进行了完整训练;
S4、如图2所示,构建基于自然语言和视觉特征的多模态车辆轨迹检索***对车辆轨迹进行检索,具体步骤如下:
S4-1、视觉特征提取,对每段视频进行视频抽帧,并从每一帧中将车辆的主体部分裁剪出来,之后使用S3中的车辆特征提取器对每张帧图片进行特征提取,并将其转化为特征向量V,最后通过GRU模型挖掘时序信息进行融合,得到视觉特征fv
S4-2、自然语言特征提取,输入N段自然语言,并对于每一段自然语言,使用在大规模语料数据上预训练的GLove模型提取词向量特征S,之后使用通过GRU模型对词向量特征进行融合,得到自然语言特征fs
S4-3、对比学习,使用得到的视觉特征fv和自然语言特征fs,在高维空间上计算对比损失,拉近匹配的自然语言特征和视觉特征的距离,同时拉远不匹配的自然语言特征和视觉特征的距离,计算自然语言与车辆轨迹视频的匹配度,即余弦相似度,之后将车辆轨迹按照匹配度进行排序,将相似度最高的若干个车辆轨迹进行返回,便可现实通过自然语言对车辆轨迹进行检索。
其中,在S1中,构建数据集的具体方式为:将相同车牌号视为一类,顺序给予其ID标签,并将ID数目定义为N。
其中,在S2-2中,计算度量学习损失是利用三元组损失计算,三元组损失如下:
式中:Lt代表三元组损失,f(*)代表网络的映射函数,即将图片转化为一维向量的函数,xa,xp,xn分表代表三元组的锚图像、正例图像和反例图像,三元组是通过一种难采样方式获取的,具体为,针对一组批数据,会循环将每一个图片作为锚图像,然后找到距离最远的同类图片作为正例图像以及距离最近的不同类图片作为反例图像,以此来构建一个三元组。
其中,在S2-3中,计算分类损失,这里的分类损失标签是之前设定的ID标签,使用的损失函数为交叉熵损失:
式中:Ls代表分类学习损失,即交叉熵损失,yi是一个指示变量,如果第i个类别和目标类别匹配则yi=1否则为0,pi为图片属于第i类的预测出来的可能性,这样通过度量学习和分类学习的多任务学习机制可以缓解车辆重识别中存在的类内差异大,类间差异小的问题。
其中,在S4-1中,特征向量其中Tv是一段视频中的帧数,ct是第t帧的特征表示,2048是特征的维度,之后将Tv个特征通过GRU挖掘时序信息进行融合/>得到融合后的特征/>最后通过一个全连接层将特征映射到高维空间并经过批标准化,得到最后的视觉特征fv,/>这里的Wα和bα代表全连接层的权重和偏差。
其中,在S4-2中,词向量特征其中Ts代表这段自然语言中词语的数目,wt代表第t个词向量,之后使用另一个GRU模块对词向量特征进行融合最后将融合后的特征/>通过一个全连接和批处理层得到最后的自然语言特征/>这里的Wγ和bγ代表全连接层的权重和偏差。
其中,在S4-3中,定义对比损失为L, 其中N代表样本对数目,d代表两种特征的欧式距离,即d=||fs-fv||2,y代表两种特征是否匹配,当自然语言特征和视觉特征是匹配情况下,y=1,反之不匹配时,y=0,m为预设的阈。
在对模型训练完成后,利用上述模型的自然语言部分对Query库中所有自然语言进行特征提取,将自然语言转化为特征表示,同时,利用上述模型的视觉特征部分对Gallery集中的车辆轨迹视频进行特征提取。针对一段自然语言,计算它与Gallery库中的所有的车辆轨迹的匹配度,即余弦相似度,然后我们将车辆轨迹按照匹配度进行排序,将相似度最高的若干个车辆轨迹进行返回,此时便完成了通过自然语言对车辆轨迹进行检索。
本发明的车辆检索方式更加灵活,所需要的检索门槛较低,是一句自然语言;同时利用车辆重识别模型提取出辨别能力强的车辆的视觉特征,丰富了特征的细粒度信息。
实施例2
本发明一种基于自然语言和视觉特征的车辆检索方法在CityFlow-NL数据集上的表现,如下表所示:
方法 MRR Recall@5 Recall@10
基础方法 0.0269 0.0264 0.0491
本发明的方法(ImageNet特征) 0.1091 0.1669 0.3178
本发明的方法(Re-ID特征) 0.1613 0.2585 0.3925
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于自然语言和视觉特征的车辆检索方法,其特征在于,包括如下步骤:
S1、构建车辆重识别数据集,通过从不同摄像头采集视频,之后利用检测模型从视频中检测出车辆图片,构建数据集;
S2、使用多任务学习框架作为基础模型,训练车辆重识别模型,具体步骤如下:
S2-1、将车辆图片进行一些数据预处理,包括随机擦除、随机剪切和标准化处理,然后构建批训练数据,具体为从库中不放回的抽取P各类,每个类K张图片,使用这些图片作为训练的批数据;
S2-2、将批数据送入到一个残差网络中,通过卷积操作,得到特征图,然后对这个特征图进行广义平均池化,将特征图转化为一位向量,并定义这个特征为F1,之后利用此一位向量计算度量学习损失;
S2-3、将特征F1经过一个批归一化层,得到特征F2,然后使用这个特征计算分类损失;
S2-4、通过反向传播对网络参数进行优化,通过多次迭代,此时网络具备分辨不同车辆的能力,之后将训练好的网络参数保存;
S3、获得特征提取器,去掉Re-ID模型的头部即分类层,也就是BN后的所有部分,然后使用BN后的获得的特征即上述的特征F2作为车辆的特征表示,便可得到车辆的特征提取器;
S4、构建基于自然语言和视觉特征的多模态车辆轨迹检索***,对车辆轨迹进行检索,具体步骤如下:
S4-1、视觉特征提取,对每段视频进行视频抽帧,并从每一帧中将车辆的主体部分裁剪出来,之后使用S3中的车辆特征提取器对每张帧图片进行特征提取,并将其转化为特征向量V,最后通过GRU模型挖掘时序信息进行融合,得到视觉特征fv
S4-2、自然语言特征提取,输入N段自然语言,并对于每一段自然语言,使用在大规模语料数据上预训练的GLove模型提取词向量特征S,之后使用通过GRU模型对词向量特征进行融合,得到自然语言特征fs
S4-3、对比学习,使用得到的视觉特征fv和自然语言特征fs,在高维空间上计算对比损失,计算自然语言与车辆轨迹视频的匹配度,即余弦相似度,之后将车辆轨迹按照匹配度进行排序,将相似度最高的若干个车辆轨迹进行返回,便可现实通过自然语言对车辆轨迹进行检索。
2.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法,其特征在于,在S1中,构建数据集的具体方式为:将相同车牌号视为一类,顺序给予其ID标签,并将ID数目定义为N。
3.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法,其特征在于,在S2-2中,计算度量学习损失是利用三元组损失计算,三元组损失如下:
式中:Lt代表三元组损失,f(*)代表网络的映射函数,即将图片转化为一维向量的函数,xa,xp,xn分表代表三元组的锚图像、正例图像和反例图像,三元组是通过一种难采样方式获取的,具体为,针对一组批数据,会循环将每一个图片作为锚图像,然后找到距离最远的同类图片作为正例图像以及距离最近的不同类图片作为反例图像,以此来构建一个三元组。
4.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法,其特征在于,在S2-3中,计算分类损失,这里的分类损失标签是之前设定的ID标签,使用的损失函数为交叉熵损失:
式中:Ls代表分类学习损失,即交叉熵损失,yi是一个指示变量,如果第i个类别和目标类别匹配则yi=1否则为0,pi为图片属于第i类的预测出来的可能性。
5.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法,其特征在于,在S4-1中,特征向量 其中Tv是一段视频中的帧数,ct是第t帧的特征表示,2048是特征的维度,之后将Tv个特征通过GRU挖掘时序信息进行融合/> 得到融合后的特征/>最后通过一个全连接层将特征映射到高维空间并经过批标准化,得到最后的视觉特征fv,/> 这里的Wα和bα代表全连接层的权重和偏差。
6.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法,其特征在于,在S4-2中,词向量特征 其中Ts代表这段自然语言中词语的数目,wt代表第t个词向量,之后使用另一个GRU模块对词向量特征进行融合/> 最后将融合后的特征/>通过一个全连接和批处理层得到最后的自然语言特征/>这里的Wγ和bγ代表全连接层的权重和偏差。
7.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法,其特征在于,在S4-3中,定义对比损失为L,yd2+(1-y)max(m-d,0)2,其中N代表样本对数目,d代表两种特征的欧式距离,即d=||fs-fv||2,y代表两种特征是否匹配,当自然语言特征和视觉特征是匹配情况下,y=1,反之不匹配时,y=0,m为预设的阈值。
CN202210173817.3A 2022-02-24 2022-02-24 一种基于自然语言和视觉特征的车辆检索方法 Active CN114547249B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210173817.3A CN114547249B (zh) 2022-02-24 2022-02-24 一种基于自然语言和视觉特征的车辆检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210173817.3A CN114547249B (zh) 2022-02-24 2022-02-24 一种基于自然语言和视觉特征的车辆检索方法

Publications (2)

Publication Number Publication Date
CN114547249A CN114547249A (zh) 2022-05-27
CN114547249B true CN114547249B (zh) 2024-06-07

Family

ID=81678470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210173817.3A Active CN114547249B (zh) 2022-02-24 2022-02-24 一种基于自然语言和视觉特征的车辆检索方法

Country Status (1)

Country Link
CN (1) CN114547249B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115841596B (zh) * 2022-12-16 2023-09-15 华院计算技术(上海)股份有限公司 多标签图像分类方法及其模型的训练方法、装置
CN115880661B (zh) * 2023-02-01 2023-06-23 天翼云科技有限公司 一种车辆匹配的方法及装置、电子设备、存储介质
CN117171382B (zh) * 2023-07-28 2024-05-03 宁波善德电子集团有限公司 一种基于综合特征和自然语言的车辆视频检索方法
CN117630344B (zh) * 2024-01-25 2024-04-05 西南科技大学 实时在线检测混凝土坍落度范围的方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647700A (zh) * 2018-04-14 2018-10-12 华中科技大学 基于深度学习的多任务车辆部件识别模型、方法和***
CN109871449A (zh) * 2019-03-18 2019-06-11 北京邮电大学 一种基于语义描述的端到端的零样本学习方法
CN110073371A (zh) * 2017-05-05 2019-07-30 辉达公司 用于以降低精度进行深度神经网络训练的损失缩放
KR102095685B1 (ko) * 2019-12-02 2020-04-01 주식회사 넥스파시스템 차량 식별 방법 및 장치
CN111914664A (zh) * 2020-07-06 2020-11-10 同济大学 基于重识别的车辆多目标检测和轨迹跟踪方法
CN111931902A (zh) * 2020-07-03 2020-11-13 江苏大学 一种生成对抗网络模型、及利用该生成对抗网络模型的车辆轨迹预测方法
WO2022001489A1 (zh) * 2020-06-28 2022-01-06 北京交通大学 一种无监督域适应的目标重识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110073371A (zh) * 2017-05-05 2019-07-30 辉达公司 用于以降低精度进行深度神经网络训练的损失缩放
CN108647700A (zh) * 2018-04-14 2018-10-12 华中科技大学 基于深度学习的多任务车辆部件识别模型、方法和***
CN109871449A (zh) * 2019-03-18 2019-06-11 北京邮电大学 一种基于语义描述的端到端的零样本学习方法
KR102095685B1 (ko) * 2019-12-02 2020-04-01 주식회사 넥스파시스템 차량 식별 방법 및 장치
WO2022001489A1 (zh) * 2020-06-28 2022-01-06 北京交通大学 一种无监督域适应的目标重识别方法
CN111931902A (zh) * 2020-07-03 2020-11-13 江苏大学 一种生成对抗网络模型、及利用该生成对抗网络模型的车辆轨迹预测方法
CN111914664A (zh) * 2020-07-06 2020-11-10 同济大学 基于重识别的车辆多目标检测和轨迹跟踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多任务学习的车辆重识别***研究与实现;王崇屹;《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》;20200131;C034-1266 *

Also Published As

Publication number Publication date
CN114547249A (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN114547249B (zh) 一种基于自然语言和视觉特征的车辆检索方法
Tsintotas et al. The revisiting problem in simultaneous localization and mapping: A survey on visual loop closure detection
CN109815364B (zh) 一种海量视频特征提取、存储和检索方法及***
Su et al. Multi-type attributes driven multi-camera person re-identification
US11263753B2 (en) Method for training a convolutional neural network for image recognition using image-conditioned masked language modeling
Lin et al. RSCM: Region selection and concurrency model for multi-class weather recognition
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN111709311B (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN110163117B (zh) 一种基于自激励判别性特征学习的行人重识别方法
CN114358188A (zh) 特征提取模型处理、样本检索方法、装置和计算机设备
CN110196918B (zh) 一种基于目标检测的无监督深度哈希方法
CN111652035B (zh) 一种基于ST-SSCA-Net的行人重识别方法及***
Wu et al. Person attribute recognition by sequence contextual relation learning
CN112836675B (zh) 一种基于聚类生成伪标签的无监督行人重识别方法及***
CN111291705B (zh) 一种跨多目标域行人重识别方法
Zhang et al. Appearance-based loop closure detection via locality-driven accurate motion field learning
CN116186328A (zh) 一种基于预聚类引导的视频文本跨模态检索方法
CN115187910A (zh) 视频分类模型训练方法、装置、电子设备及存储介质
Li et al. Video is graph: Structured graph module for video action recognition
CN110287369A (zh) 一种基于语义的视频检索方法及***
Zhao et al. BUPT-MCPRL at TRECVID 2016.
CN112084353A (zh) 一种快速陆标-卷积特征匹配的词袋模型方法
Chen et al. DVHN: A deep hashing framework for large-scale vehicle re-identification
CN114581956A (zh) 一种多分支细粒度特征融合的行人重识别方法
CN114049582A (zh) 基于网络结构搜索和背景-动作增强的弱监督行为检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant