CN112800934A - 一种多类别工程车的行为识别方法及装置 - Google Patents

一种多类别工程车的行为识别方法及装置 Download PDF

Info

Publication number
CN112800934A
CN112800934A CN202110098578.5A CN202110098578A CN112800934A CN 112800934 A CN112800934 A CN 112800934A CN 202110098578 A CN202110098578 A CN 202110098578A CN 112800934 A CN112800934 A CN 112800934A
Authority
CN
China
Prior art keywords
frame
prediction
behavior recognition
detection model
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110098578.5A
Other languages
English (en)
Other versions
CN112800934B (zh
Inventor
汪霖
李一荻
曹世闯
汪照阳
胡莎
刘成
陈晓璇
姜博
李艳艳
周延
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern University
Original Assignee
Northwestern University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern University filed Critical Northwestern University
Priority to CN202110098578.5A priority Critical patent/CN112800934B/zh
Publication of CN112800934A publication Critical patent/CN112800934A/zh
Application granted granted Critical
Publication of CN112800934B publication Critical patent/CN112800934B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供的一种多类别工程车的行为识别方法及装置,通过将所述待识别视频输入训练好的目标检测模型,以使训练好的目标检测模型对所述待识别视频进行识别,输出包含待识别视频中的工程车目标的预测框,并且工程车目标所在的预测框对应工程车目标的位置坐标以及类别,之后将预测框范围内的图像以连续帧的形式输入训练好的行为识别网络中,以使行为识别网络对待识别视频进行关键帧的提取以及工程车目标行为的识别,获得待识别视频中工程车目标的行为所属类别,该行为识别网络通过不同组特征向量在channel维度的移位来模拟时域信息,因此行为识别过程的速度大大提升,可以实时识别多个工程车的不同行为。

Description

一种多类别工程车的行为识别方法及装置
技术领域
本发明属于视频图像识别技术领域,具体涉及一种多类别工程车的行为识别方法及装置。
背景技术
在视频行为识别领域,现有的方法主要分为两类。第一类是基于视频帧图像信息的行为识别方法,如two-stream方法和三维卷积方法。two-stream方法是将光流图和视频帧送入卷积神经网络(Convolutional Neural Networks,CNN)中联合训练获得行为类别;三维卷积方法是将时间维度信息加入视频帧序列中,对序列直接做三维卷积获得行为类别。第二类方法是基于骨架的行为识别方法,该方法首先通过RGB图像进行关键节点估计,再通过循环神经网络(Recurrent Neural Network,RNN)或长短期记忆网络(Long Short-Term Memory,LSTM)进行行为预测,但该方法多适用于人体行为识别等骨架固定场景中。
现有的基于视频帧图像信息的行为识别方法,输入一段视频进行识别时,只能识别出一个对象以及该对象一个动作类别。而基于骨架的行为识别方法可以识别出多个目标,但由于其需要将固定的骨架结构编码成向量输入到网络中进行动作分类,当待识别对象的动作变动较大,该识别方法将难以识别出。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种多类别工程车的行为识别方法及装置。本发明要解决的技术问题通过以下技术方案实现:
第一方面,本发明提供的一种多类别工程车的行为识别方法包括:
获取待识别视频;
其中,待识别视频包含多帧图像,每帧图像包含多个工程车目标;
将所述待识别视频输入训练好的目标检测模型,以使训练好的目标检测模型对所述待识别视频进行识别,输出预测框;
其中,所述预测框中包含所述待识别视频中的工程车目标,工程车目标所在的预测框对应工程车目标的位置坐标以及类别,所述训练好的目标检测模型是通过获取第一训练集,所述第一训练集中包括多个第一样本,每个第一样本中的工程车目标用真实框标注出,将第一训练集进行聚类得到k个先验框,将先验框输入预设的目标检测模型中,以使所述预设的目标检测模型确定与所述真实框交并比最大的先验框,计算预测框与该先验框之间偏移量,输出一个包含目标的预测框,迭代训练所述预设的目标检测模型,直至达到第一训练截止条件;
将所述预测框范围内的图像以连续帧的形式输入训练好的行为识别网络中,以使行为识别网络对所述待识别视频进行关键帧的提取以及工程车目标行为的识别,获得所述待识别视频中工程车目标的行为所属类别;
其中,所述训练好的行为识别网络是通过获取第二训练集,所述第二训练集中包括多个第二样本,每个第二样本包括工程车目标的真实行为类别,将所述第二样本输入预设的行为识别网络中,以使所述预设的行为识别网络中每一层输出的维特征图按照输入图像的时序进行分组,使得每组之间包含的维度特征图个数差距最小,按照组的序号,将每组维度特征图进行移位,将移位后的维度特征图对应的特征向量中空位补0,迭代训练所述预设的行为识别网路,直至达到第二训练截止条件,获得训练好的行为识别网络。
可选的,所述训练好的目标检测模型通过如下步骤获得:
步骤1:获取原始图像数据;
步骤2:将所述原始数据划分为训练集,测试集以及验证集;
步骤3:对所述训练集,测试集以及验证集中的工程车目标使用真实框进行标注;
步骤4:对所述训练集使用k-means聚类算法进行聚类,得到k个先验框尺度;
其中,每一个先验框对应先验框信息,所述先验框信息包括先验框的尺度,所述尺度包括宽度以及高度;
步骤5:将所述训练集中的每个样本进行数据增强;
步骤6:将增强后的每个样本分为s×s个格子;
其中,每个格子对应多个先验框,每个格子的每个先验框预测一个置信度以及c个类别概率;
步骤7:将所述先验框信息以及所述物体中心位置坐标输入预设的目标检测模型中,以使所述预设的目标检测模型确定与所述真实框并交比最大的先验框,并基于与所述真实框并交比最大的先验框以及所述物体中心位置所在的格子的置信度,使用反向传播算法调整所述预设的目标检测模型中的参数,计算预测框与先验框之间的偏移量,输出预测框;
步骤8:基于所述预测框与真实框,计算所述预设的目标检测模型的损失函数;
步骤9:重复步骤7至步骤8直至达到第一训练截止条件;
其中,所述第一训练截止条件包括:所述预设的目标检测模型的损失函数值不再变化或者所述损失函数值低于第一阈值;
步骤10:将损失函数达到最小的预设的目标检测模型确定为训练好的目标检测模型。
可选的,所述步骤7包括:
将所述先验框信息以及所述物体中心位置坐标输入预设的目标检测模型中,以使所述预设的目标检测模型确定与所述真实框并交比最大的先验框,并基于所述基于与所述真实框并交比最大的先验框以及所述物体中心位置所在的格子的置信度,使用下述公式(1)计算预测框与先验框之前的偏移量,输出预测框;
公式(1)为:
bx=σ(tx)+cx
by=σ(ty)+cy
Figure BDA0002914865230000041
Figure BDA0002914865230000042
其中,bx表示预测框的横坐标,by表示预测框的纵坐标,bw表示预设的目标检测模型预测的预测框相对于与真实框交并比最大的先验框的宽偏移量,bh表示预设的目标检测模型预测的预测框相对于与真实框交并比最大的先验框的高偏移量,pw表示当前先验框宽,ph表示当前先验框高;cx和cy表示中心点所处网格左上角坐标,σ(tx)和σ(ty)表示预测框中心点C与中心点所处网格左上角坐标的距离,tw表示所述预设的目标检测模型预测的先验框相对于真实框的宽偏移量,th为所述预设的目标检测模型预测的先验框相对于真实框高偏移量,σ表示Sigmoid函数,作用是将坐标偏移量化到(0,1)区间。
其中,所述损失函数为:
loss=lbox+lcls+lobj
Figure BDA0002914865230000051
Figure BDA0002914865230000052
Figure BDA0002914865230000053
其中,lbox表示预测框与真实框的位置损失,λcoord表示位置损失的权重,S*S表示生成的网格数,B表示每个网格设置的先验框个数。
Figure BDA00029148652300000510
表示预测框包含物体的判断值,若包含为1,不包含为0,xi、yi表示真实框的坐标,wi、hi表示真实框的宽高值,
Figure BDA0002914865230000058
表示预测框的坐标,
Figure BDA0002914865230000059
表示预测框的坐标和宽高值;lcls表示类别损失,λclass表示类别损失的权重,通过交叉熵损失函数
Figure BDA0002914865230000054
计算类别损失,pi(c)表示预测框预测的类别c与真实类别相同的概率,相同为1,不同为0,
Figure BDA0002914865230000055
表示预测为类别c的概率;lobj表示置信度损失,λnoobj表示预测框没有包含实际工程车目标的权重,λobj表示预测框包含了实际工程车目标的权重,
Figure BDA0002914865230000056
表示i,j处的预测框若没有工程车目标为1,有工程车目标为0,ci表示预测框的置信度,
Figure BDA0002914865230000057
表示为预测框预测到的置信度。
可选的,所述训练好的行为识别网络通过如下步骤获得:
步骤1:获取第二数据集;
步骤2:将所述第二数据集中的每个样本依次输入预设的行为识别网络中,获得预设的行为识别网络识别出的行为类别;
步骤3:调整预设的行为识别网络的参数;
步骤4:针对每个样本,将预设的行为识别网络识别出的该样本的行为类别与该样本的真实行为类别进行比较,计算预设的行为识别网络的损失函数;
步骤5:重复步骤2至步骤4,直至所述预设的行为识别网络达到第二训练截止条件;
其中,所述第二训练截止条件包括:预设的行为识别网络的损失函数值不再变化或者损失函数值低于第二阈值;
步骤6:将达到第二训练截止条件的预设的行为识别网络确定为训练好的行为识别网络。
可选的,所述预设的行为识别网络为TSN基于时序分割网络,在该TSN网络残差层之间连接有TSM时间位移模块,每一层的TSM时间位移模块将上一层残差层输出的特征维度图,按照组的序号进行对应位置的移位,将移位后的维度特征图对应的特征向量中空位补0。
可选的,所述每一层的TSM时间位移模块将上一层残差层输出的特征维度图,按照组的序号进行对应位置的移位,将移位后的维度特征图对应的特征向量中空位补0包括:
所述每一层的TSM时间位移模块将上一层残差层输出的特征维度图按照视频帧的时序分为3组;
将第一组的维度特征图按照图像的时序向左移一位,将移位后该组特征维度图对应的特征向量空位补0;
将第二组的维度特征图按照图像的时序向右移一位,将移位后该组特征维度图对应的特征向量空位补0。
可选的,在将所述预测框以连续帧的形式输入训练好的行为识别网络中之前,所述行为识别方法还包括:
将预测框范围内的图像按照图像时序进行相等的帧间划分,并对每一个子帧段随机抽取一帧作为关键帧,堆叠所有的关键帧获得划分后的图像数据;
将所述图像数据输入至所述训练好的行为识别网络中。
可选的,所述训练好的行为识别模型输出的识别结果为:
OutPut={TSN1(T1,T2,...Tk),TSN2(T1,T2,...Tk),...,TSNm(T1,T2,...Tk)};
TSN(T1,T2,...Tk)=H(G(F(T1,w),F(T2,w)...F(Tk,w)))
其中,(T1,T2,...Tk)表示视频关键帧序列,每个关键帧Tk从其对应的视频段Sk中随机采样得到;F(Tk,w)表示采用w作为参数的卷积网络作用于帧Tk,函数F返回Tk相对于所有类别的得分;G为段共识函数,表示结合多个Tk的类别得分输出它们之间总的类别预测值,H为softmax预测函数,用来预测整段视频属于每个行为类别的概率。
第二方面,本发明提供的一种多类别工程车的行为识别装置包括:
获取模型,用于获取待识别视频;
其中,待识别视频包含多帧图像,每帧图像包含多个工程车目标;
检测模块,用于将所述待识别视频输入训练好的目标检测模型,以使训练好的目标检测模型对所述待识别视频进行识别,输出预测框;
其中,所述预测框中包含所述待识别视频中的工程车目标,工程车目标所在的预测框对应工程车目标的位置坐标以及类别,所述训练好的目标检测模型是通过获取第一训练集,所述第一训练集中包括多个第一样本,每个第一样本中的工程车目标用真实框标注出,将第一训练集进行聚类得到k个先验框,将先验框输入预设的目标检测模型中,以使所述预设的目标检测模型确定与所述真实框交并比最大的先验框,计算预测框与该先验框之间偏移量,输出一个包含目标的预测框,迭代训练所述预设的目标检测模型,直至达到第一训练截止条件;
识别模块,用于将所述预测框范围内的图像以连续帧的形式输入训练好的行为识别网络中,以使行为识别网络对所述待识别视频进行关键帧的提取以及工程车目标行为的识别,获得所述待识别视频中工程车目标的行为所属类别;
其中,所述训练好的行为识别网络是通过获取第二训练集,所述第二训练集中包括多个第二样本,每个第二样本包括工程车目标的真实行为类别,将所述第二样本输入预设的行为识别网络中,以使所述预设的行为识别网络中每一层输出的维特征图按照输入图像的时序进行分组,使得每组之间包含的维度特征图个数差距最小,按照组的序号,将每组维度特征图进行移位,将移位后的维度特征图对应的特征向量中空位补0,迭代训练所述预设的行为识别网路,直至达到第二训练截止条件,获得训练好的行为识别网络。
本发明提供的一种多类别工程车的行为识别方法,通过将所述待识别视频输入训练好的目标检测模型,以使训练好的目标检测模型对所述待识别视频进行识别,输出包含所述待识别视频中的工程车目标的预测框,并且工程车目标所在的预测框对应工程车目标的位置坐标以及类别,之后将所述预测框范围内的图像以连续帧的形式输入训练好的行为识别网络中,以使行为识别网络对所述待识别视频进行关键帧的提取以及工程车目标行为的识别,获得所述待识别视频中工程车目标的行为所属类别,该训练好的行为识别网络是获取第二训练集,将第二训练集中的第二样本输入预设的行为识别网络中,以使所述预设的行为识别网络中每一层输出的维特征图按照输入图像的时序进行分组,使得每组之间包含的维度特征图个数差距最小,按照组的序号,将每组维度特征图进行移位,将移位后的维度特征图对应的特征向量中空位补0,迭代训练所述预设的行为识别网路,直至达到第二训练截止条件获得的,该行为识别网络通过不同组特征向量在channel维度的的左移和右移来模拟时域信息,因此行为识别过程的速度大大提升,可以实时识别多个工程车的不同行为。
以下将结合附图及实施例对本发明做进一步详细说明。
附图说明
图1是本发明实施例提供的一种多类别工程车的行为识别方法的流程图;
图2是本发明实施例提供目标检测模型的训练流程示意图;
图3是DarkNet53网络结构的示意图;
图4是先验框与预测框偏移量的计算示意图;
图5是TSN架构的示意图;
图6是时间位移模块的***TSN架构的示意图;
图7是本发明实施例提供的一种多类别工程车的行为识别装置的结构图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
实施例一
如图1所示,本发明提供的一种多类别工程车的行为识别方法包括:
S1,获取待识别视频;
其中,待识别视频包含多帧图像,每帧图像包含多个工程车目标;
S2,将所述待识别视频输入训练好的目标检测模型,以使训练好的目标检测模型对所述待识别视频进行识别,输出预测框;
其中,所述预测框中包含所述待识别视频中的工程车目标,工程车目标所在的预测框对应工程车目标的位置坐标以及类别,所述训练好的目标检测模型是通过获取第一训练集,所述第一训练集中包括多个第一样本,每个第一样本中的工程车目标用真实框标注出,将第一训练集进行聚类得到k个先验框,将先验框输入预设的目标检测模型中,以使所述预设的目标检测模型确定与所述真实框交并比最大的先验框,计算预测框与该先验框之间偏移量,输出一个包含目标的预测框,迭代训练所述预设的目标检测模型,直至达到第一训练截止条件;
S3,将所述预测框范围内的图像以连续帧的形式输入训练好的行为识别网络中,以使行为识别网络对所述待识别视频进行关键帧的提取以及工程车目标行为的识别,获得所述待识别视频中工程车目标的行为所属类别;
其中,所述训练好的行为识别网络是通过获取第二训练集,所述第二训练集中包括多个第二样本,每个第二样本包括工程车目标的真实行为类别,将所述第二样本输入预设的行为识别网络中,以使所述预设的行为识别网络中每一层输出的维特征图按照输入图像的时序进行分组,使得每组之间包含的维度特征图个数差距最小,按照组的序号,将每组维度特征图进行移位,将移位后的维度特征图对应的特征向量中空位补0,迭代训练所述预设的行为识别网路,直至达到第二训练截止条件,获得训练好的行为识别网络。
本发明提供的一种多类别工程车的行为识别方法,通过将所述待识别视频输入训练好的目标检测模型,以使训练好的目标检测模型对所述待识别视频进行识别,输出包含所述待识别视频中的工程车目标的预测框,并且工程车目标所在的预测框对应工程车目标的位置坐标以及类别,之后将所述预测框范围内的图像以连续帧的形式输入训练好的行为识别网络中,以使行为识别网络对所述待识别视频进行关键帧的提取以及工程车目标行为的识别,获得所述待识别视频中工程车目标的行为所属类别,该训练好的行为识别网络是获取第二训练集,将第二训练集中的第二样本输入预设的行为识别网络中,以使所述预设的行为识别网络中每一层输出的维特征图按照输入图像的时序进行分组,使得每组之间包含的维度特征图个数差距最小,按照组的序号,将每组维度特征图进行移位,将移位后的维度特征图对应的特征向量中空位补0,迭代训练所述预设的行为识别网路,直至达到第二训练截止条件获得的,该行为识别网络通过不同组特征向量在channel维度的的左移和右移来模拟时域信息,因此行为识别过程的速度大大提升,可以实时识别多个工程车的不同行为。
实施例二
作为本发明一种可选的实施例,所述训练好的目标检测模型通过如下步骤获得:
步骤1:获取原始图像数据;
由于工程车包含不同类别,如挖掘机,渣土车,推土机等,其骨架结构和动作模式各不相同,具有推土,挖掘,倾倒等多种动作行为,因此将包含多类别工程车的视频数据作为原始数据。首先在原始视频数据中抽取多帧作为目标检测数据并划分训练集、测试集和验证集,使用标注工具对这些视频帧进行标注。为了防止过拟合,提高检测精度,在目标检测之前通过添加高斯噪声,并对数据随机进行镜像和旋转以获得数据增强效果。
步骤2:将所述原始数据划分为训练集,测试集以及验证集;
步骤3:对所述训练集,测试集以及验证集中的工程车目标使用真实框进行标注;
步骤4:对所述训练集使用k-means聚类算法进行聚类,得到k个先验框尺度;
其中,每一个先验框对应先验框信息,所述先验框信息包括先验框的尺度,所述尺度包括宽度以及高度;
步骤5:将所述训练集中的每个样本进行数据增强;
步骤6:将增强后的每个样本分为s×s个格子;
其中,每个格子对应多个先验框,每个格子的每个先验框预测一个置信度以及c个类别概率;
步骤7:将所述先验框信息以及所述物体中心位置坐标输入预设的目标检测模型中,以使所述预设的目标检测模型确定与所述真实框并交比最大的先验框,并基于与所述真实框并交比最大的先验框以及所述物体中心位置所在的格子的置信度,使用反向传播算法调整所述预设的目标检测模型中的参数,计算预测框与先验框之间的偏移量,输出预测框;
步骤8:基于所述预测框与真实框,计算所述预设的目标检测模型的损失函数;
步骤9:重复步骤7至步骤8直至达到第一训练截止条件;
其中,所述第一训练截止条件包括:所述预设的目标检测模型的损失函数值不再变化或者所述损失函数值低于第一阈值;
其中,第一阈值可以根据实际经验预先设置。
步骤10:将损失函数达到最小的预设的目标检测模型确定为训练好的目标检测模型。
其中,所述损失函数为:
loss=lbox+lcls+lobj
Figure BDA0002914865230000131
Figure BDA0002914865230000132
Figure BDA0002914865230000133
其中,lbox表示预测框与真实框的位置损失,λcoord表示位置损失的权重,S*S表示生成的网格数,B表示每个网格设置的先验框个数。
Figure BDA0002914865230000134
表示预测框包含物体的判断值,若包含为1,不包含为0,xi、yi表示真实框的坐标,wi、hi表示真实框的宽高值,
Figure BDA0002914865230000135
表示预测框的坐标,
Figure BDA0002914865230000136
表示预测框的坐标和宽高值;lcls表示类别损失,λclass表示类别损失的权重,通过交叉熵损失函数
Figure BDA0002914865230000137
计算类别损失,pi(c)表示预测框预测的类别c与真实类别相同的概率,相同为1,不同为0,
Figure BDA0002914865230000138
表示预测为类别c的概率;lobj表示置信度损失,λnoobj表示预测框没有包含实际工程车目标的权重,λobj表示预测框包含了实际工程车目标的权重,
Figure BDA0002914865230000139
表示i,j处的预测框若没有工程车目标为1,有工程车目标为0,ci表示预测框的置信度,
Figure BDA00029148652300001310
表示为预测框预测到的置信度。
参考图2,本发明实施例可以使用YOLO算法进行目标检测部分的计算,其中骨干网络采用DarkNet53,在训练集上通过聚类获得先验框尺度。先验框是从训练集所有真实标注框中聚类出来的,在训练集中最经常出现的几个形状和尺寸。预先将这些统计上的先验经验加入到模型中,有助于模型快速收敛。
在训练集上通过聚类获得先验框尺度。先验框是从训练集所有真实标注框中聚类出来的在训练集中最经常出现的几个形状和尺寸。预先将这些统计上的先验经验加入到模型中,有助于模型快速收敛。
设定预选框数量为k,利用k-means聚类算法得到最合适的k个先验框尺度值,此处的k个尺度值相对于图像的长宽均做了归一化,使得这k个框能够最大程度地表示数据集中真实物体的形状。在聚类时,评价标准为两个边框之间的距离d(box,centroid)=1-IoU(box,centroid)。采用先验框和真实框的交并比(Intersection over Union,IoU)作为标准来衡量一组预选框的好坏。
预测先验框与真实物体的偏移量。将数据增强后的视频帧resize至416×416大小,分成s×s个格子,这里的先验框以聚类得到的不同尺度为基础进行设置,以这些先验框为基础来预测物体的位置。先验框信息(x,y,w,h)分别为物体中心位置的坐标、先验框的宽度和高度,并使这几个值对图像宽高均进行归一化。通过darknet53网络为每个格子的每一个先验框预测一个置信度(confidence score)和c个类别概率。置信度表示为
Figure BDA0002914865230000141
Pr(Object)表示格子是否包含真实物体中心点。若某个物体的中心位置坐标落入到某一个格子,那么这个格子的Pr(Object)为1,表示检测出该物体。
Figure BDA0002914865230000142
表示预测框与真实物体的交并比。
Yolo3的网络结构如图3所示,Darknet53通过给不同层添加上采样将深层和浅层的特征图进行通道拼接(Concat)操作,并在输出端融合了深浅层特征,最终输出13×13、26×26、52×52三种尺寸的特征图。深层的特征图尺寸小,感受野大,有利于检测大尺度物体,而浅层底的特征图则与之相反,更有利于检测小尺寸物体。
通过以上网络对目标检测网络进行训练,使得损失函数的损失值不断减小直到收敛,并使用测试集数据验证其功能。不断优化网络结构和参数,直到输出达到最佳为止。最终优化完成的模型即是***中负责目标检测部分的模型。将视频数据输入模型中,即得到各类别工程车的位置坐标和类别信息。
实施例三
作为本发明一种可选的实施例,所述步骤7包括:
将所述先验框信息以及所述物体中心位置坐标输入预设的目标检测模型中,以使所述预设的目标检测模型确定与所述真实框并交比最大的先验框,并基于所述基于与所述真实框并交比最大的先验框以及所述物体中心位置所在的格子的置信度,使用下述公式(1)计算预测框与先验框之前的偏移量,输出预测框;
公式(1)为:
bx=σ(tx)+cx
by=σ(ty)+cy
Figure BDA0002914865230000151
Figure BDA0002914865230000152
其中,bx表示预测框的横坐标,by表示预测框的纵坐标,bw表示预设的目标检测模型预测的预测框相对于与真实框交并比最大的先验框的宽偏移量,bh表示预设的目标检测模型预测的预测框相对于与真实框交并比最大的先验框的高偏移量,pw表示当前先验框宽,ph表示当前先验框高;cx和cy表示中心点所处网格左上角坐标,σ(tx)和σ(ty)表示预测框中心点C与中心点所处网格左上角坐标的距离,tw表示所述预设的目标检测模型预测的先验框相对于真实框的宽偏移量,th为所述预设的目标检测模型预测的先验框相对于真实框高偏移量,σ表示Sigmoid函数,作用是将坐标偏移量化到(0,1)区间,这样得到的预测边框中心坐标bx,by限制在当前区域内,保证一个区域只预测中心点在该区域内的物体,有利于模型收敛。整个预测的过程是将先验框输入目标检测模型中,通过模型计算得到tw、th、tx、ty的过程。
参考图4,将视频帧和先验框信息输入darknet53网络中,首先找到包含真实物体中心点的网格,再选择这个网格生成的所有先验框中与真实框IOU最大的那个,通过网络预测此先验框与真实框的偏移量,通过这些偏移值得到预测框,模型自身在内部计算最终输出预测框。
实施例四
作为本发明一种可选的实施例,所述训练好的行为识别网络通过如下步骤获得:
步骤1:获取第二数据集;
步骤2:将所述第二数据集中的每个样本依次输入预设的行为识别网络中,获得预设的行为识别网络识别出的行为类别;
步骤3:调整预设的行为识别网络的参数;
步骤4:针对每个样本,将预设的行为识别网络识别出的该样本的行为类别与该样本的真实行为类别进行比较,计算预设的行为识别网络的损失函数;
步骤5:重复步骤2至步骤4,直至所述预设的行为识别网络达到第二训练截止条件;
其中,所述第二训练截止条件包括:预设的行为识别网络的损失函数值不再变化或者损失函数值低于第二阈值;
其中,第二阈值为预先设定的数值,可以根据行业经验获得。
步骤6:将达到第二训练截止条件的预设的行为识别网络确定为训练好的行为识别网络。
实施例五
作为本发明一种可选的实施例,所述预设的行为识别网络为TSN基于时序分割网络,在该TSN网络残差层之间连接有TSM时间位移模块,每一层的TSM时间位移模块将上一层残差层输出的特征维度图,按照组的序号进行对应位置的移位,将移位后的维度特征图对应的特征向量中空位补0。
参考图5,基于时序分割网络(Temporal Segment Networks,TSN)网络的行为识别。视频流数据经过目标检测模型,接着将各类工程车的位置信息以bounding box形式依次输入到行为识别网络中,采用TSN架构进行关键帧的提取和行为的识别。
实施例六
作为本发明一种可选的实施例,所述每一层的TSM时间位移模块将上一层残差层输出的特征维度图,按照组的序号进行对应位置的移位,将移位后的维度特征图对应的特征向量中空位补0包括:
所述每一层的TSM时间位移模块将上一层残差层输出的特征维度图按照视频帧的时序分为3组;
将第一组的维度特征图按照图像的时序向左移一位,将移位后该组特征维度图对应的特征向量空位补0;
将第二组的维度特征图按照图像的时序向右移一位,将移位后该组特征维度图对应的特征向量空位补0。
由于行为识别依赖于时序建模,因此在TSN架构的基础上再添加TSM(TemporalShift Module)模块来进行时序建模。每一个时间位移模块,将网络中间层生成的batch_size×segment×channel×h×w维特征图按channel数均分为3组,通过不同组特征向量在channel维度的的左移和右移来模拟时域信息。如果移动的比例太大,空间特征建模能力会被削弱,有可能破坏原始帧的图像信息,如果移动的比例太小,会影响模型的时间建模能力,因此选择将这3组特征图分别左移一位,右移一位,不移动来模拟时域感受野,移动后为空的特征向量以0填充。这一操作在时间维度上移动了帧与帧之间的一些channel,帧间信息得到了交换,时域信息进一步融合,因此使得模型在行为识别上更加有效。
图5中的2DConvNet采用常规的图像分类网络,如ResNet50,ResNet101,BN-Inception等,本发明采用的网络为ResNet50,为50个残差网络的叠加。将TSM时间位移模块***ResNet50的每一个残差块中,***方式如图6所示。在每一个残差结构支路1上的第一层进行时间位移操作,残差块的其余结构和计算方式不变。这样既保留了支路2上的原始帧信息,又在支路1上交换了帧间信息,每一个残差块都融合了这两种信息,使得网络更适用于行为识别。连接50层这样的经过时间位移的残差块,作为行为识别网络的基础结构,最后再加入一层全连接层作分类,以此来识别多类别目标的行为。
实施例七
作为本发明一种可选的实施例,在将所述预测框以连续帧的形式输入训练好的行为识别网络中之前,所述行为识别方法还包括:
步骤1:将预测框范围内的图像按照图像时序进行相等的帧间划分,并对每一个子帧段随机抽取一帧作为关键帧,堆叠所有的关键帧获得划分后的图像数据;
步骤2:将所述图像数据输入至所述训练好的行为识别网络中。
其中,所述训练好的行为识别模型输出的识别结果为:
OutPut={TSN1(T1,T2,...Tk),TSN2(T1,T2,...Tk),...,TSNm(T1,T2,...Tk)};
TSN(T1,T2,...Tk)=H(G(F(T1,w),F(T2,w)...F(Tk,w)))
其中,(T1,T2,...Tk)表示视频关键帧序列,每个关键帧Tk从其对应的视频段Sk中随机采样得到;F(Tk,w)表示采用w作为参数的卷积网络作用于帧Tk,函数F返回Tk相对于所有类别的得分;G为段共识函数,表示结合多个Tk的类别得分输出它们之间总的类别预测值,H为softmax预测函数,用来预测整段视频属于每个行为类别的概率。
TSN是一种行为识别网络架构,其核心在于时域的分割。给定一段视频V,其中包含了m个待检测行为的对象,将这m个对象采用步骤S2中的方法进行提取后,再以连续帧的形式依次输入TSN网络中。以某一个待测工程车目标为例,将其按相等的帧间隔分为k个段{S1,S2,...Sk},因此行为识别的输出结果为:
TSN(T1,T2,...Tk)=H(G(F(T1,w),F(T2,w)...F(Tk,w)))
OutPut={TSN1(T1,T2,...Tk),TSN2(T1,T2,...Tk),...,TSNm(T1,T2,...Tk)}
其中,(T1,T2,...Tk)表示视频关键帧序列,每个关键帧Tk从其对应的视频段Sk中随机采样得到;F(Tk,w)表示采用w作为参数的卷积网络作用于帧Tk,函数F返回Tk相对于所有类别的得分;G为段共识函数,表示结合多个Tk的类别得分输出它们之间总的类别预测值,一般是求其k个预测结果的最大值;H为softmax预测函数,用来预测整段视频属于每个行为类别的概率。
通过网络进行训练,优化网络结构和模型参数,使测试的各项结果达到最优,最终得到一个行为识别网络。将视频帧中各类别工程车目标输入到该网络中,最终得到各类别工程车目标的行为。
实施例八
如图7,本发明提供的一种多类别工程车的行为识别装置,包括:
获取模型71,用于获取待识别视频;
其中,待识别视频包含多帧图像,每帧图像包含多个工程车目标;
检测模块72,用于将所述待识别视频输入训练好的目标检测模型,以使训练好的目标检测模型对所述待识别视频进行识别,输出预测框;
其中,所述预测框中包含所述待识别视频中的工程车目标,工程车目标所在的预测框对应工程车目标的位置坐标以及类别,所述训练好的目标检测模型是通过获取第一训练集,所述第一训练集中包括多个第一样本,每个第一样本中的工程车目标用真实框标注出,将第一训练集进行聚类得到k个先验框,将先验框输入预设的目标检测模型中,以使所述预设的目标检测模型确定与所述真实框交并比最大的先验框,计算预测框与该先验框之间偏移量,输出一个包含目标的预测框,迭代训练所述预设的目标检测模型,直至达到第一训练截止条件;
识别模块73,用于将所述预测框范围内的图像以连续帧的形式输入训练好的行为识别网络中,以使行为识别网络对所述待识别视频进行关键帧的提取以及工程车目标行为的识别,获得所述待识别视频中工程车目标的行为所属类别;
其中,所述训练好的行为识别网络是通过获取第二训练集,所述第二训练集中包括多个第二样本,每个第二样本包括工程车目标的真实行为类别,将所述第二样本输入预设的行为识别网络中,以使所述预设的行为识别网络中每一层输出的维特征图按照输入图像的时序进行分组,使得每组之间包含的维度特征图个数差距最小,按照组的序号,将每组维度特征图进行移位,将移位后的维度特征图对应的特征向量中空位补0,迭代训练所述预设的行为识别网路,直至达到第二训练截止条件,获得训练好的行为识别网络。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种多类别工程车的行为识别方法,其特征在于,包括:
获取待识别视频;
其中,待识别视频包含多帧图像,每帧图像包含多个工程车目标;
将所述待识别视频输入训练好的目标检测模型,以使训练好的目标检测模型对所述待识别视频进行识别,输出预测框;
其中,所述预测框中包含所述待识别视频中的工程车目标,工程车目标所在的预测框对应工程车目标的位置坐标以及类别,所述训练好的目标检测模型是通过获取第一训练集,所述第一训练集中包括多个第一样本,每个第一样本中的工程车目标用真实框标注出,将第一训练集进行聚类得到k个先验框,将先验框输入预设的目标检测模型中,以使所述预设的目标检测模型确定与所述真实框交并比最大的先验框,计算预测框与该先验框之间偏移量,输出一个包含目标的预测框,迭代训练所述预设的目标检测模型,直至达到第一训练截止条件;
将所述预测框范围内的图像以连续帧的形式输入训练好的行为识别网络中,以使行为识别网络对所述待识别视频进行关键帧的提取以及工程车目标行为的识别,获得所述待识别视频中工程车目标的行为所属类别;
其中,所述训练好的行为识别网络是通过获取第二训练集,所述第二训练集中包括多个第二样本,每个第二样本包括工程车目标的真实行为类别,将所述第二样本输入预设的行为识别网络中,以使所述预设的行为识别网络中每一层输出的维特征图按照输入图像的时序进行分组,使得每组之间包含的维度特征图个数差距最小,按照组的序号,将每组维度特征图进行移位,将移位后的维度特征图对应的特征向量中空位补0,迭代训练所述预设的行为识别网路,直至达到第二训练截止条件,获得训练好的行为识别网络。
2.根据权利要求1所述的行为识别方法,其特征在于,所述训练好的目标检测模型通过如下步骤获得:
步骤1:获取原始图像数据;
步骤2:将所述原始数据划分为训练集,测试集以及验证集;
步骤3:对所述训练集,测试集以及验证集中的工程车目标使用真实框进行标注;
步骤4:对所述训练集使用k-means聚类算法进行聚类,得到k个先验框尺度;
其中,每一个先验框对应先验框信息,所述先验框信息包括先验框的尺度,所述尺度包括宽度以及高度;
步骤5:将所述训练集中的每个样本进行数据增强;
步骤6:将增强后的每个样本分为s×s个格子;
其中,每个格子对应多个先验框,每个格子的每个先验框预测一个置信度以及c个类别概率;
步骤7:将所述先验框信息以及所述物体中心位置坐标输入预设的目标检测模型中,以使所述预设的目标检测模型确定与所述真实框并交比最大的先验框,并基于与所述真实框并交比最大的先验框以及所述物体中心位置所在的格子的置信度,使用反向传播算法调整所述预设的目标检测模型中的参数,计算预测框与先验框之间的偏移量,输出预测框;
步骤8:基于所述预测框与真实框,计算所述预设的目标检测模型的损失函数;
步骤9:重复步骤7至步骤8直至达到第一训练截止条件;
其中,所述第一训练截止条件包括:所述预设的目标检测模型的损失函数值不再变化或者所述损失函数值低于第一阈值;
步骤10:将损失函数达到最小的预设的目标检测模型确定为训练好的目标检测模型。
3.根据权利要求2所述的行为识别方法,其特征在于,所述步骤7包括:
将所述先验框信息以及所述物体中心位置坐标输入预设的目标检测模型中,以使所述预设的目标检测模型确定与所述真实框并交比最大的先验框,并基于所述基于与所述真实框并交比最大的先验框以及所述物体中心位置所在的格子的置信度,使用下述公式(1)计算预测框与先验框之前的偏移量,输出预测框;
公式(1)为:
bx=σ(tx)+cx
by=σ(ty)+cy
Figure FDA0002914865220000031
Figure FDA0002914865220000032
其中,bx表示预测框的横坐标,by表示预测框的纵坐标,bw表示预设的目标检测模型预测的预测框相对于与真实框交并比最大的先验框的宽偏移量,bh表示预设的目标检测模型预测的预测框相对于与真实框交并比最大的先验框的高偏移量,pw表示当前先验框宽,ph表示当前先验框高;cx和cy表示中心点所处网格左上角坐标,σ(tx)和σ(ty)表示预测框中心点C与中心点所处网格左上角坐标的距离,tw表示所述预设的目标检测模型预测的先验框相对于真实框的宽偏移量,th为所述预设的目标检测模型预测的先验框相对于真实框高偏移量,σ表示Sigmoid函数,作用是将坐标偏移量化到(0,1)区间。
4.根据权利要求2所述的行为识别方法,其特征在于,所述损失函数为:
loss=lbox+lcls+lobj
Figure FDA0002914865220000041
Figure FDA0002914865220000042
Figure FDA0002914865220000043
其中,lbox表示预测框与真实框的位置损失,λcoord表示位置损失的权重,S*S表示生成的网格数,B表示每个网格设置的先验框个数。
Figure FDA0002914865220000044
表示预测框包含物体的判断值,若包含为1,不包含为0,xi、yi表示真实框的坐标,wi、hi表示真实框的宽高值,
Figure FDA0002914865220000045
表示预测框的坐标,
Figure FDA0002914865220000046
表示预测框的坐标和宽高值;lcls表示类别损失,λclass表示类别损失的权重,通过交叉熵损失函数
Figure FDA0002914865220000047
计算类别损失,pi(c)表示预测框预测的类别c与真实类别相同的概率,相同为1,不同为0,
Figure FDA0002914865220000048
表示预测为类别c的概率;lobj表示置信度损失,λnoobj表示预测框没有包含实际工程车目标的权重,λobj表示预测框包含了实际工程车目标的权重,
Figure FDA0002914865220000049
表示i,j处的预测框若没有工程车目标为1,有工程车目标为0,ci表示预测框的置信度,
Figure FDA00029148652200000410
表示为预测框预测到的置信度。
5.根据权利要求1所述的行为识别方法,其特征在于,所述训练好的行为识别网络通过如下步骤获得:
步骤1:获取第二数据集;
步骤2:将所述第二数据集中的每个样本依次输入预设的行为识别网络中,获得预设的行为识别网络识别出的行为类别;
步骤3:调整预设的行为识别网络的参数;
步骤4:针对每个样本,将预设的行为识别网络识别出的该样本的行为类别与该样本的真实行为类别进行比较,计算预设的行为识别网络的损失函数;
步骤5:重复步骤2至步骤4,直至所述预设的行为识别网络达到第二训练截止条件;
其中,所述第二训练截止条件包括:预设的行为识别网络的损失函数值不再变化或者损失函数值低于第二阈值;
步骤6:将达到第二训练截止条件的预设的行为识别网络确定为训练好的行为识别网络。
6.根据权利要求5所述的行为识别方法,其特征在于,所述预设的行为识别网络为TSN基于时序分割网络,在该TSN网络残差层之间连接有TSM时间位移模块,每一层的TSM时间位移模块将上一层残差层输出的特征维度图,按照组的序号进行对应位置的移位,将移位后的维度特征图对应的特征向量中空位补0。
7.根据权利要求6所述的行为识别方法,其特征在于,所述每一层的TSM时间位移模块将上一层残差层输出的特征维度图,按照组的序号进行对应位置的移位,将移位后的维度特征图对应的特征向量中空位补0包括:
所述每一层的TSM时间位移模块将上一层残差层输出的特征维度图按照视频帧的时序分为3组;
将第一组的维度特征图按照图像的时序向左移一位,将移位后该组特征维度图对应的特征向量空位补0;
将第二组的维度特征图按照图像的时序向右移一位,将移位后该组特征维度图对应的特征向量空位补0。
8.根据权利要求1所述的行为识别方法,其特征在于,在将所述预测框以连续帧的形式输入训练好的行为识别网络中之前,所述行为识别方法还包括:
将预测框范围内的图像按照图像时序进行相等的帧间划分,并对每一个子帧段随机抽取一帧作为关键帧,堆叠所有的关键帧获得划分后的图像数据;
将所述图像数据输入至所述训练好的行为识别网络中。
9.根据权利要求8所述的行为识别方法,其特征在于,所述训练好的行为识别模型输出的识别结果为:
OutPut={TSN1(T1,T2,...Tk),TSN2(T1,T2,...Tk),...,TSNm(T1,T2,...Tk)};
TSN(T1,T2,...Tk)=H(G(F(T1,w),F(T2,w)...F(Tk,w)))
其中,(T1,T2,...Tk)表示视频关键帧序列,每个关键帧Tk从其对应的视频段Sk中随机采样得到;F(Tk,w)表示采用w作为参数的卷积网络作用于帧Tk,函数F返回Tk相对于所有类别的得分;G为段共识函数,表示结合多个Tk的类别得分输出它们之间总的类别预测值,H为softmax预测函数,用来预测整段视频属于每个行为类别的概率。
10.一种多类别工程车的行为识别装置,其特征在于,包括:
获取模型,用于获取待识别视频;
其中,待识别视频包含多帧图像,每帧图像包含多个工程车目标;
检测模块,用于将所述待识别视频输入训练好的目标检测模型,以使训练好的目标检测模型对所述待识别视频进行识别,输出预测框;
其中,所述预测框中包含所述待识别视频中的工程车目标,工程车目标所在的预测框对应工程车目标的位置坐标以及类别,所述训练好的目标检测模型是通过获取第一训练集,所述第一训练集中包括多个第一样本,每个第一样本中的工程车目标用真实框标注出,将第一训练集进行聚类得到k个先验框,将先验框输入预设的目标检测模型中,以使所述预设的目标检测模型确定与所述真实框交并比最大的先验框,计算预测框与该先验框之间偏移量,输出一个包含目标的预测框,迭代训练所述预设的目标检测模型,直至达到第一训练截止条件;
识别模块,用于将所述预测框范围内的图像以连续帧的形式输入训练好的行为识别网络中,以使行为识别网络对所述待识别视频进行关键帧的提取以及工程车目标行为的识别,获得所述待识别视频中工程车目标的行为所属类别;
其中,所述训练好的行为识别网络是通过获取第二训练集,所述第二训练集中包括多个第二样本,每个第二样本包括工程车目标的真实行为类别,将所述第二样本输入预设的行为识别网络中,以使所述预设的行为识别网络中每一层输出的维特征图按照输入图像的时序进行分组,使得每组之间包含的维度特征图个数差距最小,按照组的序号,将每组维度特征图进行移位,将移位后的维度特征图对应的特征向量中空位补0,迭代训练所述预设的行为识别网路,直至达到第二训练截止条件,获得训练好的行为识别网络。
CN202110098578.5A 2021-01-25 2021-01-25 一种多类别工程车的行为识别方法及装置 Active CN112800934B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110098578.5A CN112800934B (zh) 2021-01-25 2021-01-25 一种多类别工程车的行为识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110098578.5A CN112800934B (zh) 2021-01-25 2021-01-25 一种多类别工程车的行为识别方法及装置

Publications (2)

Publication Number Publication Date
CN112800934A true CN112800934A (zh) 2021-05-14
CN112800934B CN112800934B (zh) 2023-08-08

Family

ID=75811658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110098578.5A Active CN112800934B (zh) 2021-01-25 2021-01-25 一种多类别工程车的行为识别方法及装置

Country Status (1)

Country Link
CN (1) CN112800934B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255616A (zh) * 2021-07-07 2021-08-13 中国人民解放军国防科技大学 一种基于深度学习的视频行为识别方法
CN113361519A (zh) * 2021-05-21 2021-09-07 北京百度网讯科技有限公司 目标处理方法、目标处理模型的训练方法及其装置
CN114419508A (zh) * 2022-01-19 2022-04-29 北京百度网讯科技有限公司 识别方法、训练方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086792A (zh) * 2018-06-26 2018-12-25 上海理工大学 基于检测和识别网络架构的细粒度图像分类方法
WO2020206861A1 (zh) * 2019-04-08 2020-10-15 江西理工大学 基于YOLO v3的针对交通枢纽关键物体的检测方法
CN111950583A (zh) * 2020-06-05 2020-11-17 杭州电子科技大学 一种基于gmm聚类的多尺度识别交通信号标志的方法
CN112084890A (zh) * 2020-08-21 2020-12-15 杭州电子科技大学 基于gmm和cqfl的多尺度识别交通信号标志的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086792A (zh) * 2018-06-26 2018-12-25 上海理工大学 基于检测和识别网络架构的细粒度图像分类方法
WO2020206861A1 (zh) * 2019-04-08 2020-10-15 江西理工大学 基于YOLO v3的针对交通枢纽关键物体的检测方法
CN111950583A (zh) * 2020-06-05 2020-11-17 杭州电子科技大学 一种基于gmm聚类的多尺度识别交通信号标志的方法
CN112084890A (zh) * 2020-08-21 2020-12-15 杭州电子科技大学 基于gmm和cqfl的多尺度识别交通信号标志的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王建林;付雪松;黄展超;郭永奇;王汝童;赵利强;: "改进YOLOv2卷积神经网络的多类型合作目标检测", 光学精密工程, no. 01 *
赵宇航;左辰煜;朱俊杰;钱诚;: "基于YOLO V3的无人机航拍车辆检测方法", 电子世界, no. 13 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361519A (zh) * 2021-05-21 2021-09-07 北京百度网讯科技有限公司 目标处理方法、目标处理模型的训练方法及其装置
CN113361519B (zh) * 2021-05-21 2023-07-28 北京百度网讯科技有限公司 目标处理方法、目标处理模型的训练方法及其装置
CN113255616A (zh) * 2021-07-07 2021-08-13 中国人民解放军国防科技大学 一种基于深度学习的视频行为识别方法
CN113255616B (zh) * 2021-07-07 2021-09-21 中国人民解放军国防科技大学 一种基于深度学习的视频行为识别方法
CN114419508A (zh) * 2022-01-19 2022-04-29 北京百度网讯科技有限公司 识别方法、训练方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112800934B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
CN109118479B (zh) 基于胶囊网络的绝缘子缺陷识别定位装置及方法
CN111091105B (zh) 基于新的边框回归损失函数的遥感图像目标检测方法
CN109784203B (zh) 基于分层传播和激活的弱监督x光图像违禁品检查方法
CN112233097B (zh) 基于空时域多维融合的道路场景他车检测***和方法
CN112800934A (zh) 一种多类别工程车的行为识别方法及装置
CN112183414A (zh) 一种基于混合空洞卷积的弱监督遥感目标检测方法
CN111476302A (zh) 基于深度强化学习的Faster-RCNN目标物体检测方法
CN110991444B (zh) 面向复杂场景的车牌识别方法及装置
CN112633149B (zh) 一种域自适应雾天图像目标检测方法和装置
CN111832615A (zh) 一种基于前景背景特征融合的样本扩充方法及***
CN111681259B (zh) 基于无Anchor机制检测网络的车辆跟踪模型建立方法
CN113920107A (zh) 一种基于改进yolov5算法的绝缘子破损检测方法
CN114841972A (zh) 基于显著性图和语义嵌入特征金字塔的输电线路缺陷识别方法
CN108171119B (zh) 基于残差网络的sar图像变化检测方法
CN116342894B (zh) 基于改进YOLOv5的GIS红外特征识别***及方法
CN112906816A (zh) 基于光微分与双通道神经网络的目标检测方法和装置
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
CN115984537A (zh) 图像处理方法、装置及相关设备
CN113609895A (zh) 基于改进Yolov3的获取道路交通信息方法
CN114972759A (zh) 基于分级轮廓代价函数的遥感图像语义分割方法
CN115937659A (zh) 基于Mask-RCNN的室内复杂环境下多目标检测方法
CN117274774A (zh) 一种基于YOLOv7的X射线安检图像危险品检测算法
CN111833353B (zh) 一种基于图像分割的高光谱目标检测方法
CN112418358A (zh) 一种强化深度融合网络的车辆多属性分类方法
CN112085001A (zh) 一种基于多尺度边缘特征检测的隧道识别模型及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant