CN110309790B - 一种用于道路目标检测的场景建模方法和装置 - Google Patents
一种用于道路目标检测的场景建模方法和装置 Download PDFInfo
- Publication number
- CN110309790B CN110309790B CN201910599129.1A CN201910599129A CN110309790B CN 110309790 B CN110309790 B CN 110309790B CN 201910599129 A CN201910599129 A CN 201910599129A CN 110309790 B CN110309790 B CN 110309790B
- Authority
- CN
- China
- Prior art keywords
- scene
- network
- transformation
- block
- target detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000009466 transformation Effects 0.000 claims abstract description 86
- 238000010586 diagram Methods 0.000 claims abstract description 64
- 238000012545 processing Methods 0.000 claims abstract description 37
- 230000008859 change Effects 0.000 claims abstract description 22
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 22
- 238000005070 sampling Methods 0.000 claims abstract description 15
- 238000009826 distribution Methods 0.000 claims description 39
- 230000008569 process Effects 0.000 claims description 9
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 9
- 238000013508 migration Methods 0.000 abstract description 4
- 230000005012 migration Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 41
- 238000012549 training Methods 0.000 description 38
- 238000004590 computer program Methods 0.000 description 6
- 238000003860 storage Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/02—Affine transformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
- G06V20/36—Indoor scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
- G06T2207/30256—Lane; Road marking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/61—Scene description
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
Description
技术领域
本发明涉及计算机软件领域,特别涉及一种用于道路目标检测的场景建模方法和装置。
背景技术
伴随着城市中监控摄像头以及车辆行车记录仪的大量普及,这些摄像头采集了大量包含道路目标的视频和图像数据。对于这类大量产生且实时性强的视频流,通过人工查看方式进行分析,不能满足智慧城市以及自动驾驶等应用的需求。对此类包含道路目标的视频和图像进行实时分析,是目前工业界和学术界都关注的问题。
目标检测(Object Detection)作为一种视频和图像分析中的基础技术,是目标跟踪、行为分析等更高级的场景理解方法中不可或缺的模块。目前,包含目标检测在内的技术所采用的主流解决方案是神经网络,大致上分为以Faster RCNN、R-FCN等为代表的基于目标题名(Object Proposals)的方法,以及以YOLO、SSD、DSOD等为代表的单次(One-shot)方法。上述两类方法都没有直接考虑场景的布局,即根据场景的类型和行车道、人行道、建筑物等的方位来推断物体大体上可能出现的位置。
虽然道路布局有很强的先验性和规则性,但在不同城市的道路场景中,道路场景的布局仍然有很大的不同。此外,由于摄像头视角变化等因素,更增加了场景布局的多样性。表示场景布局的传统方法以参数化方法为主,如针对室外场景的分段平面假设法以及针对室内场景的曼哈顿世界假设法,同时还有专门针对道路场景的顶视图参数化方法等。此类参数化方法的主要局限性在于难以穷尽地刻画道路场景布局的多样性,遇到方法设计时未考虑到的场景布局时,方法有效性受到较大影响。
发明内容
为此,有必要提供一种用于道路目标检测的场景建模方法。基于此,发明人提供了一种用于道路目标检测的场景建模方法,包括如下步骤:
通过目标检测模块的基础网络获得各分块的特征;
通过卷积层和全连接层作回归处理,通过空间变换网络求出对应的变换前坐标;
进一步地,所述的用于道路目标检测的场景建模方法中,所述精细化处理具体包括:
进一步地,所述的用于道路目标检测的场景建模方法中,评估所述场景建模方法的联合训练的损失函数L包括场景分类损失函数Lcls和场景变换损失函数Lstn,所述场景分类损失函数Lcls为:
进一步地,所述的用于道路目标检测的场景建模方法中,所述场景变换的损失函数为:
其中,
发明人同时还提供了一种用于道路目标检测的场景建模装置,包括分块特征获取单元、计算单元、场景变换单元、基础特征获取单元、目标检测单元;
所述分块特征获取单元用于通过目标检测模块的基础网络获得各分块的特征;
进一步地,所述的用于道路目标检测的场景建模装置中,所述场景变换单元包括空间变换模块与精细化处理模块;所述空间变换模块用于进行空间变换处理,具体包括:
通过卷积层和全连接层作回归处理,通过空间变换网络求出对应的变换前坐标;
进一步地,所述的用于道路目标检测的场景建模装置中,还包括损失函数评估单元,用于评估所述场景建模方法的联合训练的损失函数L,所述场景建模方法的联合训练的损失函数L包括场景分类损失函数Lcls和场景变换损失函数Lstn,所述场景分类损失函数Lcls为:
进一步地,所述的用于道路目标检测的场景建模装置中,所述场景变换的损失函数为:
其中,
区别于现有技术,上述技术方案能够利用基于迁移(对应场景分类网络)和变换(场景变换网络)两个步骤进行的场景建模,提供了一种可与目标检测联合训练的方案,提高目标检测算法性能的同时,得到不同类别、不同尺度、不同长宽比目标的空间分布热力图。该热力图可作为一种通用图像特征,用于其它场景的场景理解任务。
附图说明
图1为本发明一实施方式所述的用于道路目标检测的场景建模方法的流程图;
图2为本发明一实施方式所述的用于道路目标检测的场景建模装置的结构示意图。
附图标记说明:
1-分块特征获取单元
2-计算单元
3-场景变换单元;31-空间变换模块;32-精细化处理模块
4-基础特征获取单元
5-目标检测单元
6-损失函数评估单元
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1,为本发明一实施方式所述的用于道路目标检测的场景建模方法的流程图;所述方法包括如下步骤:
S1、通过目标检测模块的基础网络获得各分块的特征;
通过卷积层和全连接层作回归处理,通过空间变换网络求出对应的变换前坐标;
所述精细化处理具体包括:
进一步地,本实施方式中,还可以对所述的用于道路目标检测的场景建模方法进行评估其的联合训练的损失函数L。L包括场景分类损失函数Lcls和场景变换损失函数Lstn;
所述场景分类损失函数Lcls为:
所述场景变换的损失函数为:
其中,
本实施方式技术方案的实质是提出一种用于道路目标检测的非参数布局迁移变换场景建模方法,具体而言,通过共享卷积神经网络的特征层,在得到目标检测边界盒(BoundingBox)的同时,得到输入图像或视频帧的场景目标空间分布热力图。该热力图的形式是给定目标类别、尺度和长宽比时,目标在成像平面上出现的概率分布热力图。
其中,对所谓共享卷积神经网络的特征层的理解如下:由于卷积神经网络的基础网络的作用是特征提取,而这部分特征是可以同时用于目标检测与场景布局估计的,所以共享这些特征层,可以减少计算量。具体举例来说,例如步骤S1所述:通过目标检测模块的基础网络获得各分块的特征。对此处分块的理解如下:由于本实施方式采用ResNet作为基础网络,ResNet中就有分块这一概念,即把一系列结构相对固定的神经网络层统称为一个分块。分块概念是为了用模块化的方式,比较方便地表示层数很多且结构自相似的神经网络。而这里各分块的特征,具体指的是上述每一个分块中最后一层的特征。在本发明涉及的技术方案中,这些不同分块的特征一般是自底向上逐渐抽象的图像的语义特征。
举一例进行说明:例如分块从第一至第六分块分别为{C1,C2,C3,C4,C5,C6},根据卷积神经网络的特性,不同分块的特征分辨率逐块减半,这是由于使用了ResNet作为基础网络的缘故所产生的特点:特征分辨率逐块减半是自底向上的。假如输入的图像是512*768,则C1中最后一层特征分辨率是256*384,C2是128*192,以此类推,C5是16*24,C6是8*12。
对目标检测边界盒的理解:目标检测边界盒是一种对目标的姿态的简化数学表示,例如,可以用一个矩形框来表示目标的位置,此时往往表示为框住目标的矩形框的左上角和右下角在图像平面上的x、y坐标,共4个实数。
对场景目标的空间分布热力图的理解:为了构建空间分布热力图,需要对待检测的目标进行基于混合模型(mixture model)的建模,也就是将目标根据不同的语义类别、不同尺度、不同长宽比分入K个混合模型成分(component)中,其中每一个成分对应特定目标类别、特定尺度、特定长宽比,并且对应一张大小为W*H的空间概率分布的热力图,其中W和H分别是热力图的宽度和高度。这张热力图的每一个像素位置对应的是输入图像对应位置上出现特定目标类别、特定尺度、特定长宽比目标的概率,因此每个像素位置上的实数取值范围都是[0,1](可通过归一化实现),全部K个场景目标空间分布热力图维度是W*H*K。)该特征与卷积神经网络的特征层进行级联(Concatenation)后,共同作为目标检测模块的输入特征。从而,在目标检测模块中实现了与场景布局在特征层的早期融合,而非后期融合。
对步骤S2“以一分块特征作为场景分类网络的输入,获得场景分类网络的输出,所述场景分类网络的输出为N个聚类的场景码本的第i个聚类统计的不同目标类别在不同条件下的空间分布热力图”,可以参照以下的例子进行理解:使用基础网络中某一分块,例如C6的特征,作为场景分类网络的输入,得到以空间分布热力图为形式的输出,为一个预先聚类得到的共计N个聚类的场景码本的第i个聚类,i∈{1,...,N}。并且,第i个类别对应聚类时统计的不同目标类别在不同尺度、长宽比下的空间分布热力图亦即场景目标的空间分布热力图。该步骤通过非参数方法找寻聚类中码本中的最近邻,并采用检索(retrieval)的方式得到目标的空间分布热力图。
其中,场景分类网络是一个由若干卷积层和全连接层构成的子网络。它的输入是C6的特征,如输入图像是512*768,那么C6的维度就是8*12*256,其中256是通道数。这是一个高维特征,对其通过若干卷积层和全连接层降维后,可以得到一个固定长度的一维向量,其长度为N,即聚类的个数。这样加上Softmax层就可以进行分类了(通过将长度为N的one-hot向量再变回为长度为1的向量,可以认为输出是i,但实际上输出准确地说是一个长度为N的one-hot向量)。这个场景分类网络可以看做是从基础网络中独立出来的一个分支,该分支的作用就是对场景进行分类。分类的结果又会继续作为后续步骤的场景变换网络的输入之一。
步骤S3进行的是场景变换处理,其必要性在于:通过检索得到的场景目标的空间分布热力图可能存在以下问题:(1)由于聚类数量相比场景的变化而相对有限,得到的场景目标的空间分布热力图较为粗糙,无法得到物体的准确位置;(2)该特征所反映的是一类场景布局下物体的分布情况,无法对输入图片有更准确的目标位置、尺度估计。因此,通过步骤S3所述的场景目标的空间分布热力图进行变换,得到根据输入图像或视频帧校准后的场景目标的空间分布热力图其中T为场景变换网络。
步骤S31中,空间变换使用空间变换网络(SpatialTransformerNetwork),该网络的主要特征是:支持任何可参数化的特征变换,且可以进行梯度反向传播。以2D仿射变换为例,设xc=(ax,ay),并设变换前后的坐标是(ax,ay)和则该变换可以写为以下齐次坐标形式:
空间变换网络的输入是和基础网络的某一分块,如C6,通过卷积层处理后将两个特征进行级联,再通过卷积层和全连接层回归得到θ=[θ11,θ12,θ13,θ21,θ22,θ23]。由于变换后坐标定义在网格上,可以通过式(1)求出对应的变换前坐标(ax,ay)并在变换前的场景目标的空间分布热力图上采样,得到经过仿射变换后的特征
本发明中的场景模型的重要特点之一是:与目标检测算法在特征层进行融合,并可实现目标检测与场景建模的联合训练。联合训练的损失函数L的数学表达式如下:
L=Ldet+Lcls+Lstn (2)
其中Ldet是目标检测的多任务损失函数,包括目标分类与边界盒回归等。Lcls和Lstn为场景分类损失函数和场景变换损失函数。
场景分类的损失函数为以下多类别交叉熵:
场景变换的损失函数为以下形式:
式(3)右边的项是正则项,其中θ*是恒等变换,Nθ是θ的元素个数。加入该正则项可以使得训练更容易收敛,并且能避免过拟合。
对步骤S4、“将与各分块进行预设方案的上下采样和级联处理后获得卷积神经网络基础特征,并以此卷积神经网络基础特征作为目标检测模块的输入特征,进行目标检测。”的理解具体如下:将与进行必要的上/下采样并级联后得到新的卷积神经网络基础特征,并作为目标检测模块的输入特征,进行目标检测。由于在具体实现中,和都是固定分辨率的,因为是通过检索方式得到的,那么存储的时候必定是以某个固定的分辨率,比如是64*96进行存储。而又是进一步变换得到的,因此也是同样的分辨率,即同样是64*96。但是C1-C6的分辨率是逐层对半下采样的,比如C1是256*384,C2就是128*192……。这时候,为了使和C1-C6能够进行直接的级联(concatenation,因为级联的要求是分辨率要一样),我们就对通过双线性插值法进行上下采样,使得它的分辨率与C1-C6完全相同。比如要级联的是C1,那么就把通过插值从64*96变成256*384,等等。)
在具体应用中,所述的场景分类网络需要使用场景码本作为输入,场景码本的构建可以有多种方法,一个实施方式的码本构建方法如下:使用预训练的用于图像分类的神经网络特征(如:ResNet-50的pool5层特征),对图像用标准聚类方法(如:K-means)进行聚类,类别数为N;对第i个聚类,统计属于该聚类的所有训练图像的地真标注,获取场景目标的空间分布热力图具体方法可举例如下:对于每一张训练图像,将图像切分为4*4=16个网格区域,统计每个网格区域的每一类目标地真标注的数量,并进行数量归一化后缓存到作为场景目标的空间分布热力图。该热力图的主要特点是:包含了第i个聚类中不同位置的每一类目标的分布信息。构建场景码本后,使用基础网络的某一分块,如C6作为输入,通过带有一个或多个卷积层以及全连接层的神经网络,使用Softmax函数得到场景分类属于第i类(Softmax输出的第i个logit最大)后,从码本中选取作为场景变换网络的输入。
本发明技术方案在进行模型训练时,需要使用带有地真标注的训练数据库,可使用公开的数据库如MIO-TCD、KITTI等,也可以使用任何人工标注边界盒的数据库,并确定训练集和测试集。同时需要确定所结合使用的目标检测算法,如FasterRCNN、YOLO、DSOD等。
本发明另一实施方式提供了一种用于道路目标检测的场景建模方法,包括场景分类网络、场景变换网络以及与之相匹配的基础网络与目标检测算法。此外具体实施中需要的硬件还包括影像采集设备(如摄像头)与计算设备(如计算机),摄像头用于采集交通监控图像或行车记录仪图像等,计算机的主要作用包括:(1)模型的训练,下面详述;(2)处理视频图像输出场景目标的空间分布热力图与目标检测结果。实施的具体步骤如下:
1、准备带有地真标注的训练数据库,可使用公开的数据库如MIO-TCD、KITTI等,也可以使用任何人工标注边界盒的数据库,并确定训练集和测试集。同时确定所结合使用的目标检测算法为Faster RCNN。
3、进行基于损失函数Ldet的第一次训练,即在训练数据集上单独对Faster RCNN进行初始化训练。训练时使用FasterRCNN文献中的标准方法进行。对大目标RPN的anchor大小为32,小目标为8。训练图像的输入尺度为短边500像素。
4、进行场景分类网络的训练。场景分类网络的输入是基础网络,由最大值池化层maxpool,卷积层conv,全连接层fc和输出层softmax组成。训练使用随机梯度下降(SGD)法,初始化学习率为0.0025,训练回合数为30000(根据数据库规模进行调整),期间学习率下降一次,下降后为0.00025,时机为第20000回合。训练时基础网络部分固定,损失函数为Lcls。
5、进行场景变换网络的训练。场景变换网络由空间变换(SpatialTransformation)和精细化处理(Refinement)两个模块组成。训练时固定网络其它部分,损失函数为Lstn。
6、空间变换模块的输入为:(1)基础网络,(2)根据场景分类结果,由聚类得到的场景目标的空间分布热力图该模块由三个卷积层conv1,conv2,conv3与两个全连接层fc1,fc2,以及空间变换网络(Spatial Transformation Network)组成(包含网格生成器和采样器)。
7、精细化处理模块的输入为:(1)基础网络,(2)空间变换网络的输出场景目标的空间分布热力图。该模块由两个卷积层conv4,conv5组成,是一个全卷积网络。
8、再次固定场景分类网络和场景变换网络,基于损失函数Ldet对目标检测算法进行再次训练,初始化学习率为0.01,训练回合数为50000(根据数据库规模进行调整),期间学习率下降一次,下降后为0.001,时机为第40000回合。
9、训练完成后进行目标检测,同时得到场景目标的空间分布热力图。
参照图2,为发明人同时提供的一种用于道路目标检测的场景建模装置的结构示意图,所述装置包括分块特征获取单元1、计算单元2、场景变换单元3、基础特征获取单元4、目标检测单元5;
所述分块特征获取单元1用于通过目标检测模块的基础网络获得各分块的特征;
进一步地,所述的用于道路目标检测的场景建模装置中,所述场景变换单元3包括空间变换模块31与精细化处理模块32;所述空间变换模块31用于进行空间变换处理,具体包括:
通过卷积层和全连接层作回归处理,通过空间变换网络求出对应的变换前坐标;
进一步地,所述的用于道路目标检测的场景建模装置中,还包括损失函数评估单元6,用于评估所述场景建模方法的联合训练的损失函数L,所述场景建模方法的联合训练的损失函数L包括场景分类损失函数Lcls和场景变换损失函数Lstn,所述场景分类损失函数Lcls为:
进一步地,所述的用于道路目标检测的场景建模装置中,所述场景变换的损失函数为:
其中,
区别于现有技术,上述技术方案能够利用基于迁移(对应场景分类网络)和变换(场景变换网络)两个步骤进行的场景建模,提供了一种可与目标检测联合训练的方案,提高目标检测算法性能的同时,得到不同类别、不同尺度、不同长宽比目标的空间分布热力图。该热力图可作为一种通用图像特征,用于其它场景的场景理解任务。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
本领域内的技术人员应明白,上述各实施例可提供为方法、装置、或计算机程序产品。这些实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。上述各实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机设备可读取的存储介质中,用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备,包括但不限于:个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等;所述的存储介质,包括但不限于:RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。
上述各实施例是参照根据实施例所述的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到计算机设备的处理器以产生一个机器,使得通过计算机设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机设备以特定方式工作的计算机设备可读存储器中,使得存储在该计算机设备可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机设备上,使得在计算机设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。
Claims (6)
4.一种基于道路目标检测的场景建模装置,其特征在于,包括分块特征获取单元、计算单元、场景变换单元、基础特征获取单元、目标检测单元;
所述分块特征获取单元用于通过目标检测模块的基础网络获得各分块的特征;所述分块指一系列结构相对固定的神经网络层;所述各分块的特征指上述每一个分块中最后一层的特征;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910599129.1A CN110309790B (zh) | 2019-07-04 | 2019-07-04 | 一种用于道路目标检测的场景建模方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910599129.1A CN110309790B (zh) | 2019-07-04 | 2019-07-04 | 一种用于道路目标检测的场景建模方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110309790A CN110309790A (zh) | 2019-10-08 |
CN110309790B true CN110309790B (zh) | 2021-09-03 |
Family
ID=68079104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910599129.1A Active CN110309790B (zh) | 2019-07-04 | 2019-07-04 | 一种用于道路目标检测的场景建模方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110309790B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110969138A (zh) * | 2019-12-10 | 2020-04-07 | 上海芯翌智能科技有限公司 | 人体姿态估计方法及设备 |
CN113542800B (zh) * | 2021-06-28 | 2023-07-18 | 宜宾中星技术智能***有限公司 | 视频画面定标方法、装置、终端设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106529467A (zh) * | 2016-11-07 | 2017-03-22 | 南京邮电大学 | 基于多特征融合的群体行为识别方法 |
CN108229474A (zh) * | 2017-12-29 | 2018-06-29 | 北京旷视科技有限公司 | 车牌识别方法、装置及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012061896A1 (en) * | 2010-11-11 | 2012-05-18 | The University Of Sydney | Radar image processing |
CN105574488B (zh) * | 2015-12-07 | 2019-03-22 | 北京航空航天大学 | 一种基于低空航拍红外图像的行人检测方法 |
-
2019
- 2019-07-04 CN CN201910599129.1A patent/CN110309790B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106529467A (zh) * | 2016-11-07 | 2017-03-22 | 南京邮电大学 | 基于多特征融合的群体行为识别方法 |
CN108229474A (zh) * | 2017-12-29 | 2018-06-29 | 北京旷视科技有限公司 | 车牌识别方法、装置及电子设备 |
Non-Patent Citations (4)
Title |
---|
Target recognition in large scene SAR images based on region proposal regression;Sifei Wang et al;《2017 IEEE International Geoscience and Remote Sensing Symposium (IGARSS)》;20171004;3297-3300 * |
基于CNN模型的遥感图像复杂场景分类;张康等;《国土资源遥感》;20181231;第30卷(第4期);49-55 * |
复杂背景下对地多运动目标检测;许倩倩;《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》;20190215;第2019年卷(第2期);第1.2.2.1节,第4.1、4.3、4.5.1节 * |
自适应调节学习率和样本训练方式的场景分类;储珺等;《模式识别与人工智能》;20180731;第31卷(第7期);625-633 * |
Also Published As
Publication number | Publication date |
---|---|
CN110309790A (zh) | 2019-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11232318B2 (en) | Methods and apparatuses for vehicle appearance feature recognition, methods and apparatuses for vehicle retrieval, storage medium, and electronic devices | |
Tian et al. | A dual neural network for object detection in UAV images | |
CN114202672A (zh) | 一种基于注意力机制的小目标检测方法 | |
Workman et al. | A unified model for near and remote sensing | |
CN110176024B (zh) | 在视频中对目标进行检测的方法、装置、设备和存储介质 | |
CN111242127A (zh) | 基于非对称卷积的具有粒度级多尺度特性的车辆检测方法 | |
US10289884B2 (en) | Image analyzer, image analysis method, computer program product, and image analysis system | |
CN111260037B (zh) | 图像数据的卷积运算方法、装置、电子设备及存储介质 | |
CN110825900A (zh) | 特征重构层的训练方法、图像特征的重构方法及相关装置 | |
CN110309790B (zh) | 一种用于道路目标检测的场景建模方法和装置 | |
CN112529068B (zh) | 一种多视图图像分类方法、***、计算机设备和存储介质 | |
WO2023221790A1 (zh) | 图像编码器的训练方法、装置、设备及介质 | |
Atto et al. | Timed-image based deep learning for action recognition in video sequences | |
Bhuiyan et al. | Video analytics using deep learning for crowd analysis: a review | |
WO2021047492A1 (zh) | 目标跟踪方法、装置及计算机*** | |
CN116310688A (zh) | 基于级联融合的目标检测模型及其构建方法、装置及应用 | |
Yang et al. | Increaco: incrementally learned automatic check-out with photorealistic exemplar augmentation | |
Li et al. | Enhanced bird detection from low-resolution aerial image using deep neural networks | |
CN111260687A (zh) | 一种基于语义感知网络和相关滤波的航拍视频目标跟踪方法 | |
CN114169425A (zh) | 训练目标跟踪模型和目标跟踪的方法和装置 | |
Fan et al. | Generating high quality crowd density map based on perceptual loss | |
CN112651351B (zh) | 一种数据处理的方法和装置 | |
Chen et al. | Object counting in remote sensing via selective spatial‐frequency pyramid network | |
Huang | Moving object detection in low-luminance images | |
Huang et al. | Research on motion recognition algorithm based on bag-of-words model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |