CN109190458A - 一种基于深度学习的小人头检测方法 - Google Patents
一种基于深度学习的小人头检测方法 Download PDFInfo
- Publication number
- CN109190458A CN109190458A CN201810800214.5A CN201810800214A CN109190458A CN 109190458 A CN109190458 A CN 109190458A CN 201810800214 A CN201810800214 A CN 201810800214A CN 109190458 A CN109190458 A CN 109190458A
- Authority
- CN
- China
- Prior art keywords
- people
- image
- test
- training
- person
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
- G06V20/36—Indoor scenes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的小人头检测方法,包括下述步骤:(1)采集大量图像形成训练集和测试集;(2)对训练集和测试集进行精准贴边的人头标注;(3)利用R‑FCN框架,构造深度卷积神经网络,然后利用训练集图像并采用批量训练的随机梯度下降法对所构造的深度神经网络进行训练;(4)基于视觉透视变换对测试图像进行切割再部分放大;(5)将切割并放大后的测试图像,输入步骤(3)所构造的深度卷积神经网络,神经网络输出结果通过Softmax激活函数得到每个预测框的概率分布,计算最小损失函数,根据最小损失函数输出检测结果。本发明通过深度学习算法从图片样本中自动学习出人头与其它背景的不同特征,能够智能的对密集的小人头进行检测。
Description
技术领域
本发明涉及模式识别与人工智能技术领域,特别涉及一种基于深度学习的小人头检测方法。
背景技术
随着计算机技术的快速发展和安全意识的增强,监控摄像头在安防方面有重要的作用。同时小人头检测在监控安全,智慧教室,智能交通等各行各业也有了广泛的运用,人们对小人头检测的精度也有更高的要求。小人头检测的应用具有很大的便利,因此提高小人头检测的准确性具有重要意义。
卷积神经网络是人工神经网络的一种,是为了识别二维形状而设计的多层感知器这种网络结构平移,比例缩放,倾斜或者其他形式的变形具有不变性,已经成为当前语音和图像识别领域的研究热点。卷积神经网络类似于生物神经网络,具有权值共享网络结构,大大降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的比较明显,图像可以作为网络输入,避免了传统识别算法复杂特征提取和数据重建过程。
近几年来,卷积神经的研究工作不断深入,已经取得了很大的进展,其在语音和图片领域解决了许多问题表现出了良好的智能特性。
发明内容
本发明的目的在于克服现有技术中的缺点与不足,提供一种基于深度学习的小人头检测方法,该方法能够学习检测出人头特征从而更好的检测不同角度,不同像素的人头,具有效率高、识别率高的特点。
为实现以上目的,本发明采取如下技术方案:
一种基于深度学习的小人头检测方法,包括下述步骤:
(1)获取数据:采集不同室内场景的大量图像形成训练集和测试集;
(2)对所述训练集和测试集图像进行精准贴边的人头标注;
(3)利用R-FCN框架,构造深度卷积神经网络,然后利用训练集图像并采用批量训练的随机梯度下降法对所构造的深度神经网络进行训练,设定网络初始参数及迭代更新方式;
(4)对测试集图像进行变换处理,具体为:基于视觉透视变换对测试集图像进行聚类切割再部分放大;
(5)将变换处理后的测试集图像输入步骤(3)训练完成的深度卷积神经网络,得到概率分布,再通过计算损失函数,输出识别结果。
作为优选的技术方案,在步骤(1)中,通过采集课室内监控以及网络爬虫后再通过人工筛选出复杂的图像样本来获得数据,在所形成的训练集中,人头样本包括不同角度不同人数的大小人头,部分遮挡人头,重叠人头的正、侧、后部和顶部。
作为优选的技术方案,步骤(2)中,通过人工严格标注,将训练集和测试集图像放大到原来的5倍,并紧贴人头边缘进行标注。
作为优选的技术方案,步骤(3)中,利用R-FCN框架,构造深度卷积神经网络,具体过程如下:
基于R-FCN框架,将图像输入宽为Wtrain,高为Htrain的图像作为训练图像;
构造深度卷积神经网络,该网络包括:输入层、13个卷积层、RPN部分、RoI部分和输出层,其中,每个卷积层紧跟一个RELU激活层,在第二、第四、第七、第十、第十三个RELU激活层后紧跟一个池化层;
所述输入层接收的图片尺寸大小为1000×600像素;所述13个卷积层的卷积核大小都为3×3,步长都为1,输出特征图分别为64,64,128,128,256,256,256,512,512,512,512,512,512;所述ReLu激活层对卷积得到的特征进行线性修正;所述池化层采用最大池化法对修正后的特征提取极大值;输出层为softmax层,输出的是图像中人头的概率分布。
作为优选的技术方案,步骤(3)中,对所构造的深度神经网络进行训练的步骤,具体过程如下:
设定每一次批量训练的图像数目为Btrain张,将所述训练图像输入到构建的深度卷积神经网络中进行批量训练,并采用随机梯度下降方法对构建的深度卷积神经网络进行训练;
设定网络初始参数,所述参数包括:初始学习率lr0、学习率变化的底数gamma、学习率变化的间隔数stepsize和最大训练迭代次数itersmax;其中,所述初始学习率lr0即表示网络在训练样本中寻找最优解的起始迭代速率;
学习速率的更新方式为梯度递减,更新方式如下:
lritem=lr0×gammafloor(iter-stepsize)
其中初始学习率lr0取值为0.01,学习率变化的底数gamma取值为0.1,最大训练迭代次数itersmax的范围为40000~60000,学习率变化的间隔数stepsize的范围为10000~15000。
作为优选的技术方案,步骤(4)中,所述基于视觉透视变换对测试集图像进行切割再部分放大,具体为:
基于R-FCN框架,将图像输入宽为Wtrain,高为Htrain的图像作为测试图像;根据视觉成像近大远小的成像原理,将分布于图像上方的人头定为小人头,由xml文件计算出训练集和测试集图像中每个人头标注的长宽,用k-means聚类划分成大人头和小人头以及计算大人头和小人头的平均长宽,由计算出的平均长宽对比原来xml文件中的每个人头标注的长宽,计算大小人头在图像中的行列位置,所述行列位置是指大人头和小人头所在的区域分别在图像的前部和后部,其中图像的前部为大人头区域,分界线位置距离图片底部为Wtest,图像的前部为小人头区域,分界线距离图片顶部距离为L,然后将分类后小人头区域的图像部分放大η倍,其中η为大小人头的平均面积比例。
作为优选的技术方案,使用k-means算法计算人头大小及位置,其具体过程如下:
(a)通过xml文件中的位置计算人头的面积,记作Si,其中i为第i个人头,任意选取2个人头的面积作为初始聚类中心Sc1、Sc2;
(b)将初始聚类中心Sc1、Sc2与其他人头面积Si的欧氏距离作为聚类中心与其他人头面积数据的距离,计算聚类中心与其他人头面积的距离,将之归到最近的聚类中心并作为一类;
(c)重新计算聚类中心Sc1、Sc2,要求聚类中心是与类间的人头数据的距离之和最小,计算出聚类中心之后,应算出小人头区域分界线距离该图片顶端的长度L以及大人头与小人头平均面积比例η,迭代步骤(b)和步骤(c)。
作为优选的技术方案,步骤(5),具体过程如下:
(501)设定每一次批量测试的图像数为Btest,且将每一张变换处理过的图像与其原图像作为一组测试图像imgtest,并依次通过测试网络;
(502)将步骤(501)所述的测试图像输入训练完成的深度卷积神经网络,将深度卷积神经网络卷积的输出结果通过Softmax激活函数得到每个预测框的概率分布,Softmax激活函数公式如下:
其中,Z表示为一个数组,包含n个元素;zi和zj分别表示为Z中的第i个和第j个元素的值;
再通过使用交叉熵来计算分类的损失函数,使用SmoothL1loss损失函数来计算回归的损失函数,根据分类和回归的损失函数的和,要求损失最小作为输出识别结果;
总的损失函数公式如下:
分类的损失函数使用交叉熵计算,公式如下:
回归损失函数使用SmoothL1loss损失函数进行计算,公式如下:
其中
上式中,Ncls为分类的样本数量;Nreg为回归的样本数量;i是输入图片中的类别数;pi是预测概率;为有无物体的判决,有物体时为1,否则为0;ti为一个预测坐标的向量;为一个标注包围盒的坐标向量;λ为规定系数。
作为优选的技术方案,测试过程中,对任意一组测试图像imgtest,将变换处理过的图像缩小到宽与原图一致,高为小人头区域分界线距离图片顶部的距离,即宽为Wtrain,高为L,然后与原图像一同通过非极大值抑制筛选出置信度最高的输出。
本发明相对于现有技术具有如下的优点和效果:
(1)本发明针对于监控等低分辨率的图片,能够较好的从较模糊的图像中得到需要的人头的准确性特征,避免低分辨率图片增强等复杂过程。
(2)本发明使用深度卷积神经网络,能够提取到较好的局部特征,具备平移不变性,避免传统算法中复杂的特征提取和数据重建过程,提高本发明的检测准确性能与健壮性。
(3)本发明的算法识别率高,鲁棒性强,能够从训练图像集中学习到人头特征,并且在测试结构上进行优化获得更好的检测性能,并且提高了检测效率。
附图说明
图1为本发明的基于深度学习的小人头检测方法流程图;
图2为本发明构建的神经网络结构图。
具体实施方式
为了使本发明的目的、技术方案以及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不限于本发明。
实施例
如图1所示,一种基于深度学习的小人头检测方法,包括下述步骤:
(1)获取数据:采集课室等不同室内场景的大量图像形成训练集和测试集;
通过采集课室内监控以及网络爬虫后再通过人工筛选出复杂的图像样本来获得数据,在所形成的训练集中,人头样本包括不同角度不同人数的大小人头,部分遮挡人头,重叠人头的正、侧、后部和顶部。
(2)对所述训练集和测试集图像进行精准贴边的人头标注,具体为:通过人工严格标注,将训练集和测试集图像放大到原来的5倍,并紧贴人头边缘进行标注。
(3)利用R-FCN框架,构造深度卷积神经网络,然后利用训练集图像并采用批量训练的随机梯度下降法对所构造的深度神经网络进行训练,设定网络初始参数及迭代更新方式;
所述步骤(3)具体包括下述步骤:
(301)基于R-FCN框架,将图像输入宽为Wtrain,高为Htrain的图像作为训练图像;
(302)构造深度卷积神经网络,该网络包括:输入层、13个卷积层、RPN部分、RoI部分和输出层,其中每个卷积层紧跟一个RELU激活层,在第二、第四、第七、第十、第十三个RELU激活层后紧跟一个池化层;
如图2所示,本实施例构建的深度卷积神经网络如下:
Input(1000×600)->64C(3×3)S1P1->ReLu->64C(3×3)S1P1->ReLu->MP2->128C(3×3)
S1P1->ReLu->128C(3×3)S1P1->ReLu->MP2->256C(3×3)S1P1->ReLu->256C(3×3)
S1P1->ReLu->256C(3×3)S1P1->ReLu->MP2->512C(3×3)S1P1->ReLu->512C(3×3)
S1P1->ReLu->512C(3×3)S1P1->ReLu->MP2->512C(3×3)S1P1->ReLu->512C(3×3)
S1P1->ReLu->512C(3×3)S1P1->ReLu->MP2->->RPN->RoIPooling->Softmax/Output。
其中Input(1000×600)表示输入层接受的图片大小为1000×600像素,64C(3×3)S1P1表示对输入图像进行特征提取的卷积层,核大小为3×3,步长为1,输出64的特征图;ReLu表示对卷积得到的特征层进行修正的线性纠正激活层;MP2表示对修正后的特征进行提取极大值的最大池化层,核大小为2×2,步长为2;RPN表示R-FCN框架内的RPN部分;RoIPooling表示R-FCN框架内ROI部分;Softmax/Output表示输出层为softmax层,输出的是图片中人头的概率分布。
(303)利用训练集图像训练所构建的深度卷积神经网络:
(3031)设定每一次批量训练的图像数目为64张,将所述训练图像输入到构建的深度卷积神经网络中进行批量训练,并采用随机梯度下降方法对构建的深度卷积神经网络进行训练;
(3032)设定网络初始参数,所述参数包括:初始学习率(网络在训练样本中寻找最优解的起始迭代速率)lr0、学习率变化的底数gamma、学习率变化的间隔数stepsize和最大训练迭代次数itersmax;
学习速率的更新方式为梯度递减,更新方式如下:
lritem=lr0×gammafloor(iter-stepsize)
其中初始学习率lr0取值为0.01,学习率变化的底数gamma取值为0.1,最大训练迭代次数itersmax的范围为40000~60000,学习率变化的间隔数stepsize的范围为10000~15000。
(4)对测试集图像进行变换处理,具体为:基于视觉透视变换对测试集图像进行切割再部分放大;
(401)基于R-FCN框架,将图像输入为1200*1000的图像作为测试图像。
(402)根据视觉成像近大远小的成像原理,将分布于图像上方的人头定为小人头,由xml文件计算出训练集和测试集图像中每个人头标注的长宽,用k-means聚类划分成大人头和小人头以及计算大人头和小人头的平均长宽,由计算出的平均长宽对比原来xml文件中的每个人头标注的长宽,计算大小人头在图像中的行列位置,所述行列位置是指大人头和小人头所在的区域分别在图像的前部和后部,其中图像的前部为大人头区域,分界线位置距离图片底部为Wtest,图像的前部为小人头区域,分界线距离图片顶部距离为L;
其中,使用k-means算法计算人头大小及位置,其具体过程如下:
(a)通过xml文件中的位置计算人头的面积,记作Si,其中i为第i个人头,任意选取2个人头的面积作为初始聚类中心Sc1、Sc2;
(b)将初始聚类中心Sc1、Sc2与其他人头面积Si的欧氏距离作为聚类中心与其他人头面积数据的距离,计算聚类中心与其他人头面积的距离,将之归到最近的聚类中心并作为一类;
(c)重新计算聚类中心Sc1、Sc2,要求聚类中心是与类间的人头数据的距离之和最小,计算出聚类中心之后,应算出小人头区域分界线距离该图片顶端的长度L以及大人头与小人头平均面积比例η,迭代步骤(b)和步骤(c)。
(403)将经过步骤(4-2)产生的部分图像(宽为300的小人头图像)放大,放大倍数为η=1.3。
(5)将变换处理后的测试集图像输入步骤(3)所训练完成的深度卷积神经网络,得到概率分布,再通过计算损失函数,输出识别结果;
所述步骤(5)具体包括下述步骤:
(501)设定每一次批量测试的图像数为32,且将每一张变换处理过的图像与其原图像作为一组测试图像imgtest,并依次通过测试网络;测试过程中,对任意一组测试图像imgtest,将变换处理过的图像缩小到宽与原图一致,高为小人头区域分界线距离图片顶部的距离,即宽为Wtrain,高为L,然后与原图像一同通过NMS(非极大值抑制)筛选出置信度最高的输出。
(502)将步骤(501)所述的测试图像输入训练完成的深度卷积神经网络,将深度卷积神经网络卷积的输出结果通过Softmax激活函数得到每个预测框的概率分布,Softmax激活函数公式如下:
其中,Z表示为一个数组,包含n个元素;zi和zj分别表示为Z中的第i个和第j个元素的值;
再通过使用交叉熵来计算分类的损失函数,使用SmoothL1loss损失函数来计算回归的损失函数,根据分类和回归的损失函数的和,要求损失最小作为输出识别结果;
总的损失函数公式如下:
分类的损失函数使用交叉熵计算,公式如下:
回归损失函数使用SmoothL1loss损失函数进行计算,公式如下:
其中
上式中,Ncls为分类的样本数量;Nreg为回归的样本数量;i是输入图片中的类别数;pi是预测概率;为有无物体的判决,有物体时为1,否则为0;ti为一个预测坐标的向量;为一个标注包围盒的坐标向量;λ为规定系数。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以权利要求所述为准。
Claims (9)
1.一种基于深度学习的小人头检测方法,其特征在于,包括下述步骤:
(1)获取数据:采集不同室内场景的大量图像形成训练集和测试集;
(2)对所述训练集和测试集图像进行精准贴边的人头标注;
(3)利用R-FCN框架,构造深度卷积神经网络,然后利用训练集图像并采用批量训练的随机梯度下降法对所构造的深度神经网络进行训练,设定网络初始参数及迭代更新方式;
(4)对测试集图像进行变换处理,具体为:基于视觉透视变换对测试集图像进行聚类切割再部分放大;
(5)将变换处理后的测试集图像输入步骤(3)训练完成的深度卷积神经网络,得到每个预测框的概率分布,再通过计算损失函数,输出识别结果。
2.根据权利要求1所述的基于深度学习的小人头检测方法,其特征在于,在步骤(1)中,通过采集课室内监控以及网络爬虫后再通过人工筛选出复杂的图像样本来获得数据,在所形成的训练集中,人头样本包括不同角度不同人数的大小人头,部分遮挡人头,重叠人头的正、侧、后部和顶部。
3.根据权利要求1所述的基于深度学习的小人头检测方法,其特征在于,步骤(2)中,通过人工严格标注,将训练集和测试集图像放大到原来的5倍,并紧贴人头边缘进行标注。
4.根据权利要求1所述的基于深度学习的小人头检测方法,其特征在于,步骤(3)中,利用R-FCN框架,构造深度卷积神经网络,具体过程如下:
基于R-FCN框架,将图像输入宽为Wtrain,高为Htrain的图像作为训练图像;
构造深度卷积神经网络,该网络包括:输入层、13个卷积层、RPN部分、RoI部分和输出层,其中,每个卷积层紧跟一个RELU激活层,在第二、第四、第七、第十、第十三个RELU激活层后紧跟一个池化层;
所述输入层接收的图片尺寸大小为1000×600像素;所述13个卷积层的卷积核大小都为3×3,步长都为1,输出特征图分别为64,64,128,128,256,256,256,512,512,512,512,512,512;所述ReLu激活层对卷积得到的特征进行线性修正;所述池化层采用最大池化法对修正后的特征提取极大值;输出层为softmax层,输出的是图像中人头的概率分布。
5.根据权利要求4所述的基于深度学习的小人头检测方法,其特征在于,步骤(3)中,对所构造的深度神经网络进行训练的步骤,具体过程如下:
设定每一次批量训练的图像数目为Btrain张,将所述训练图像输入到构建的深度卷积神经网络中进行批量训练,并采用随机梯度下降方法对构建的深度卷积神经网络进行训练;
设定网络初始参数,所述参数包括:初始学习率lr0、学习率变化的底数gamma、学习率变化的间隔数stepsize和最大训练迭代次数itersmax;其中,所述初始学习率lr0即表示网络在训练样本中寻找最优解的起始迭代速率;
学习速率的更新方式为梯度递减,更新方式如下:
lritem=lr0×gammafloor(iter-stepsize)
其中初始学习率lr0取值为0.01,学习率变化的底数gamma取值为0.1,最大训练迭代次数itersmax的范围为40000~60000,学习率变化的间隔数stepsize的范围为10000~15000。
6.根据权利要求1所述的基于深度学习的小人头检测方法,其特征在于,步骤(4)中,所述基于视觉透视变换对测试集图像进行切割再部分放大,具体为:
基于R-FCN框架,将图像输入宽为Wtrain,高为Htrain的图像作为测试图像;根据视觉成像近大远小的成像原理,将分布于图像上方的人头定为小人头,由xml文件计算出训练集和测试集图像中每个人头标注的长宽,用k-means聚类划分成大人头和小人头以及计算大人头和小人头的平均长宽,由计算出的平均长宽对比原来xml文件中的每个人头标注的长宽,计算大小人头在图像中的行列位置,所述行列位置是指大人头和小人头所在的区域分别在图像的前部和后部,其中图像的前部为大人头区域,分界线位置距离图片底部为Wtest,图像的前部为小人头区域,分界线距离图片顶部距离为L,然后将分类后小人头区域的图像部分放大η倍,其中η为大小人头的平均面积比例。
7.根据权利要求6所述的基于深度学习的小人头检测方法,其特征在于,使用k-means算法计算人头大小及位置,其具体过程如下:
(a)通过xml文件中的位置计算人头的面积,记作Si,其中i为第i个人头,任意选取2个人头的面积作为初始聚类中心Sc1、Sc2;
(b)将初始聚类中心Sc1、Sc2与其他人头面积Si的欧氏距离作为聚类中心与其他人头面积数据的距离,计算聚类中心与其他人头面积的距离,将之归到最近的聚类中心并作为一类;
(c)重新计算聚类中心Sc1、Sc2,要求聚类中心是与类间的人头数据的距离之和最小,计算出聚类中心之后,应算出小人头区域分界线距离该图片顶端的长度L以及大人头与小人头平均面积比例η,迭代步骤(b)和步骤(c)。
8.根据权利要求1所述的基于深度学习的小人头检测方法,其特征在于,步骤(5),具体过程如下:
(501)设定每一次批量测试的图像数为Btest,且将每一张变换处理过的图像与其原图像作为一组测试图像imgtest,并依次通过测试网络;
(502)将步骤(501)所述的测试图像输入训练完成的深度卷积神经网络,将深度卷积神经网络卷积的输出结果通过Softmax激活函数得到每个预测框的概率分布,Softmax激活函数公式如下:
其中,Z表示为一个数组,包含n个元素;zi和zj分别表示为Z中的第i个和第j个元素的值;
再通过使用交叉熵来计算分类的损失函数,使用SmoothL1loss损失函数来计算回归的损失函数,根据分类和回归的损失函数的和,要求损失最小作为输出识别结果;
总的损失函数公式如下:
分类的损失函数使用交叉熵计算,公式如下:
回归损失函数使用SmoothL1loss损失函数进行计算,公式如下:
其中
上式中,Ncls为分类的样本数量;Nreg为回归的样本数量;i是输入图片中的类别数;pi是预测概率;为有无物体的判决,有物体时为1,否则为0;ti为一个预测坐标的向量;为一个标注包围盒的坐标向量;λ为规定系数。
9.根据权利要求1所述的基于深度学习的小人头检测方法,其特征在于,测试过程中,对任意一组测试图像imgtest,将变换处理过的图像缩小到宽与原图一致,高为小人头区域分界线距离图片顶部的距离,即宽为Wtrain,高为L,然后与原图像一同通过非极大值抑制筛选出置信度最高的输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810800214.5A CN109190458B (zh) | 2018-07-20 | 2018-07-20 | 一种基于深度学习的小人头检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810800214.5A CN109190458B (zh) | 2018-07-20 | 2018-07-20 | 一种基于深度学习的小人头检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109190458A true CN109190458A (zh) | 2019-01-11 |
CN109190458B CN109190458B (zh) | 2022-03-25 |
Family
ID=64936466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810800214.5A Active CN109190458B (zh) | 2018-07-20 | 2018-07-20 | 一种基于深度学习的小人头检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109190458B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934949A (zh) * | 2019-03-12 | 2019-06-25 | 上海商汤智能科技有限公司 | 考勤方法及装置、设备、存储介质 |
CN109948497A (zh) * | 2019-03-12 | 2019-06-28 | 北京旷视科技有限公司 | 一种物体检测方法、装置及电子设备 |
CN109977997A (zh) * | 2019-02-13 | 2019-07-05 | 中国科学院自动化研究所 | 基于卷积神经网络快速鲁棒的图像目标检测与分割方法 |
CN111931670A (zh) * | 2020-08-14 | 2020-11-13 | 成都数城科技有限公司 | 基于卷积神经网的深度图像头部检测与定位方法及*** |
WO2021103675A1 (zh) * | 2019-11-29 | 2021-06-03 | 百果园技术(新加坡)有限公司 | 神经网络的训练及人脸检测方法、装置、设备和存储介质 |
CN113129306A (zh) * | 2021-05-10 | 2021-07-16 | 电子科技大学成都学院 | 一种基于深度学习的遮挡物体分割求解方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650725A (zh) * | 2016-11-29 | 2017-05-10 | 华南理工大学 | 基于全卷积神经网络的候选文本框生成和文本检测方法 |
CN106874894A (zh) * | 2017-03-28 | 2017-06-20 | 电子科技大学 | 一种基于区域全卷积神经网络的人体目标检测方法 |
CN107292333A (zh) * | 2017-06-05 | 2017-10-24 | 浙江工业大学 | 一种基于深度学习的快速图像分类方法 |
US20180047272A1 (en) * | 2016-08-15 | 2018-02-15 | Nec Laboratories America, Inc. | Baby detection for electronic-gate environments |
WO2018028255A1 (zh) * | 2016-08-11 | 2018-02-15 | 深圳市未来媒体技术研究院 | 基于对抗网络的图像显著性检测方法 |
CN108154110A (zh) * | 2017-12-22 | 2018-06-12 | 任俊芬 | 一种基于深度学习人头检测的密集人流量统计方法 |
CN108229242A (zh) * | 2016-12-13 | 2018-06-29 | 上海安维尔信息科技股份有限公司 | 针对固定野外场景中样本缺失情况下的行人检测方法 |
-
2018
- 2018-07-20 CN CN201810800214.5A patent/CN109190458B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018028255A1 (zh) * | 2016-08-11 | 2018-02-15 | 深圳市未来媒体技术研究院 | 基于对抗网络的图像显著性检测方法 |
US20180047272A1 (en) * | 2016-08-15 | 2018-02-15 | Nec Laboratories America, Inc. | Baby detection for electronic-gate environments |
CN106650725A (zh) * | 2016-11-29 | 2017-05-10 | 华南理工大学 | 基于全卷积神经网络的候选文本框生成和文本检测方法 |
CN108229242A (zh) * | 2016-12-13 | 2018-06-29 | 上海安维尔信息科技股份有限公司 | 针对固定野外场景中样本缺失情况下的行人检测方法 |
CN106874894A (zh) * | 2017-03-28 | 2017-06-20 | 电子科技大学 | 一种基于区域全卷积神经网络的人体目标检测方法 |
CN107292333A (zh) * | 2017-06-05 | 2017-10-24 | 浙江工业大学 | 一种基于深度学习的快速图像分类方法 |
CN108154110A (zh) * | 2017-12-22 | 2018-06-12 | 任俊芬 | 一种基于深度学习人头检测的密集人流量统计方法 |
Non-Patent Citations (1)
Title |
---|
金连文等: "深度学习在手写汉字识别中的应用综述", 《自动化学报》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977997A (zh) * | 2019-02-13 | 2019-07-05 | 中国科学院自动化研究所 | 基于卷积神经网络快速鲁棒的图像目标检测与分割方法 |
CN109977997B (zh) * | 2019-02-13 | 2021-02-02 | 中国科学院自动化研究所 | 基于卷积神经网络快速鲁棒的图像目标检测与分割方法 |
CN109934949A (zh) * | 2019-03-12 | 2019-06-25 | 上海商汤智能科技有限公司 | 考勤方法及装置、设备、存储介质 |
CN109948497A (zh) * | 2019-03-12 | 2019-06-28 | 北京旷视科技有限公司 | 一种物体检测方法、装置及电子设备 |
CN109948497B (zh) * | 2019-03-12 | 2022-01-28 | 北京旷视科技有限公司 | 一种物体检测方法、装置及电子设备 |
WO2021103675A1 (zh) * | 2019-11-29 | 2021-06-03 | 百果园技术(新加坡)有限公司 | 神经网络的训练及人脸检测方法、装置、设备和存储介质 |
CN111931670A (zh) * | 2020-08-14 | 2020-11-13 | 成都数城科技有限公司 | 基于卷积神经网的深度图像头部检测与定位方法及*** |
CN111931670B (zh) * | 2020-08-14 | 2024-05-31 | 成都数城科技有限公司 | 基于卷积神经网的深度图像头部检测与定位方法及*** |
CN113129306A (zh) * | 2021-05-10 | 2021-07-16 | 电子科技大学成都学院 | 一种基于深度学习的遮挡物体分割求解方法 |
CN113129306B (zh) * | 2021-05-10 | 2022-12-02 | 电子科技大学成都学院 | 一种基于深度学习的遮挡物体分割求解方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109190458B (zh) | 2022-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109190458A (zh) | 一种基于深度学习的小人头检测方法 | |
CN105718868B (zh) | 一种针对多姿态人脸的人脸检测***及方法 | |
CN106295124B (zh) | 多种图像检测技术综合分析基因子图相似概率量的方法 | |
CN109344693A (zh) | 一种基于深度学习的人脸多区域融合表情识别方法 | |
CN106529448A (zh) | 利用聚合通道特征进行多视角人脸检测的方法 | |
CN110532900A (zh) | 基于U-Net和LS-CNN的人脸表情识别方法 | |
CN105825502B (zh) | 一种基于显著性指导的词典学习的弱监督图像解析方法 | |
CN106446930A (zh) | 基于深层卷积神经网络的机器人工作场景识别方法 | |
CN109241913A (zh) | 结合显著性检测和深度学习的船只检测方法及*** | |
CN107229929A (zh) | 一种基于r‑cnn的车牌定位方法 | |
CN109255375A (zh) | 基于深度学习的全景图像对象检测方法 | |
CN105894047A (zh) | 一种基于三维数据的人脸分类*** | |
US11194997B1 (en) | Method and system for thermal infrared facial recognition | |
CN108280397A (zh) | 基于深度卷积神经网络的人体图像头发检测方法 | |
CN105678231A (zh) | 一种基于稀疏编码和神经网络的行人图片检测方法 | |
CN106529504B (zh) | 一种复合时空特征的双模态视频情感识别方法 | |
CN108154102A (zh) | 一种道路交通标志识别方法 | |
CN106023257A (zh) | 一种基于旋翼无人机平台的目标跟踪方法 | |
CN107808376A (zh) | 一种基于深度学习的举手检测方法 | |
CN110543906B (zh) | 基于Mask R-CNN模型的肤质自动识别方法 | |
CN106203284B (zh) | 基于卷积神经网络和条件随机场的人脸检测方法 | |
CN106373146A (zh) | 一种基于模糊学习的目标跟踪方法 | |
CN111860297A (zh) | 一种应用于室内固定空间的slam回环检测方法 | |
CN108256462A (zh) | 一种商场监控视频中的人数统计方法 | |
CN106023155A (zh) | 基于水平集的在线目标轮廓跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |