CN111079516B - 基于深度神经网络的行人步态分割方法 - Google Patents
基于深度神经网络的行人步态分割方法 Download PDFInfo
- Publication number
- CN111079516B CN111079516B CN201911050215.3A CN201911050215A CN111079516B CN 111079516 B CN111079516 B CN 111079516B CN 201911050215 A CN201911050215 A CN 201911050215A CN 111079516 B CN111079516 B CN 111079516B
- Authority
- CN
- China
- Prior art keywords
- mask
- pedestrian
- gait
- size
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明针对行人步态分割时对双腿间的“O型”形状难以分割以及腿型分割不够精细的问题,提出一种基于深度神经网络的行人步态分割方法。本发明通过设计空洞卷积残差卷积网络和添加边缘检测器分支两步实现对行人步态的精细分割;利用空洞卷积替换resnet最后阶段的普通卷积来提高浅层网络的感受野,得到更多信息的特征传入到下个阶段,最后得到的mask再输入至由边缘检测算子组成的边缘检测器中,很好地解决了行人步态中步态边缘不拟合的问题,从而得到更加精确的行人步态边缘,提高了腿部分割的精细度。
Description
技术领域
本发明涉及计算机视觉中图像处理和模式识别技术领域,具体涉及一种基于深度神经网络的行人步态分割方法。
背景技术
近年来,视频监控广泛地运用在交通、军事、城市建设、安全等领域,其重要性越来越不可忽视。
行人的步态分割是视频监控技术中不可或缺的一部分。从行人步态的图像视频中提取行人区域是行人步态识别的一个重要环节,也是最苛刻的计算机视觉任务之一。
目前,针对行人步态分割的研究较少,而对实例分割的研究相对更加成熟。实例分割是一种基本的计算机视觉技术,是从图像处理到图像分析的关键步骤,是进行图像分析的第一步工作,也是最苛刻的计算机视觉任务之一,它涉及了目标定位和分割对象实例。近年来大量的实例分割论文的发表,提供了大量的实例分割的方法,这为行人步态分割提供了良好的技术基础。
发明内容
本发明的目的是提供一种基于深度神经网络的行人步态分割方法。
为了达到上述目的,本发明通过以下技术方案来实现:
基于深度神经网络的行人步态分割方法,其特征在于包括如下步骤:
S1)预测行人的步态边界
在给定一个图片或视频的情况下,预测图片或视频中1个或多个行人的步态边界;
对于图片,检测单一图片中所有行人的目标,对目标进行步态分割;
对于视频,输入每一帧,检测视频每一帧中所有行人的目标,对目标进行步态分割,输出处理后的每一帧并组合成为一个分割好的行人步态视频;
S2)图像预处理和制作标签
将分割好的行人步态图像的大小统一调整为h*w,其中,h为图像的高,w为图像的宽;
制作标签,对图像相同位置的目标进行像素值处理,将行人的位置采用像素值为14的像素描边,非行人位置统一设置像素值为0,表示背景;
S3)构建步态分割深度卷积神经网络
S3-1)采用基础网络进行特征提取
采用resnet50网络作为基础网络,在resnet50网络结构上,利用空洞率为2的空洞卷积替换resnet50最后一个阶段的普通卷积;
S3-2)将步骤S2)预处理的图像输入至步骤S3-1)的基础网络中,图像经过基础网络后输入至FPN进一步提取各维度的特征,利用FPN从下至上各个层对同一scale图片不同维度的特征表达结构,有效生成对图片的多维度特征表达的方法;
S3-3)将步骤S3-2)中提取到的特征再通过ROIAlign生成14*14*256大小的ROIfeatures,通过ROIAlign生成候选框region proposal映射产生固定大小的feature map,通过采用双线性插值法获得更加准确的行人候选框;
S3-4)将步骤S3-3)中14*14*256大小的feature map经过5个卷积后再经过反卷积变换为28*28*1大小的行人P_mask;
S3-5)将步骤S3-4)得到的28*28*1大小的P_mask进行kernel size为2、stride为2的max pooling layer,使得预测的mask具有与步骤S3-3)的输出相同的空间尺寸,再和步骤S3-3)的输出进行组合,得到14*14*257大小的特征图;
该特征图经过4个卷积层,这4个卷积层的核大小和滤波器个数分别设置为3和256;再添加3个全卷积层,前面两个全卷积设置为1024,后一个全卷积设置为类别数量,数量为1,即行人一类;该输出的值为mask的评分,设置阈值为0.5,采用阈值大于0.5的mask,定义为GT_mask;
S4)使用二分类交叉熵损失函数Binary_Cross_Entropy来构造损失函数,将真实
的概率表达为,预测概率表达为,其中,y表示样本属于行人的概
率,1-y表示样本属于背景的概率,表示预测行人的概率,表示预测背景的概率,通过
交叉熵来测量p和q之间的相似度,公式如下:
S5)使用二分类交叉熵损失函数Binary_Cross_Entropy比较GT_mask和P_mask中每个像素点的信息;
S6)将步骤S3)得到的P_mask和GT_mask输入至边缘检测器,该边缘检测器由3*3*1
大小的一个边缘检测算子构成,两个mask会和边缘检测算子进行卷积得到两个mask的边
缘,对于P_mask输入后得到的边缘结果将其定义为,对于GT_mask输入后得到的边缘结
果将其定义为;
本发明与现有技术相比,具有以下优点:
本发明针对行人步态存在O型腿和难以勾勒腿型的情况,提出一种基于深度神经网络的行人步态分割方法。本发明通过设计空洞卷积残差卷积网络和添加边缘检测器分支两步实现对行人步态的精细分割;利用空洞卷积替换resnet最后阶段的普通卷积来提高浅层网络的感受野,得到更多信息的特征传入到下个阶段,最后得到的mask再输入至由边缘检测算子组成的边缘检测器中,很好地解决了行人步态中步态边缘不拟合的问题,从而得到更加精确的行人步态边缘。
具体实施方式
基于深度神经网络的行人步态分割方法,其特征在于包括如下步骤:
S1)预测行人的步态边界
在给定一个图片或视频的情况下,预测图片或视频中1个或多个行人的步态边界;
对于图片,检测单一图片中所有行人的目标,对目标进行步态分割;
对于视频,输入每一帧,检测视频每一帧中所有行人的目标,对目标进行步态分割,输出处理后的每一帧并组合成为一个分割好的行人步态视频。
S2)图像预处理和制作标签
将分割好的行人步态图像的大小统一调整为h*w,其中,h为图像的高,w为图像的宽;
制作标签,对图像相同位置的目标进行像素值处理,将行人的位置采用像素值为14的像素描边,非行人位置统一设置像素值为0,表示背景。
S3)构建步态分割深度卷积神经网络
S3-1)采用基础网络进行特征提取
采用resnet50网络作为基础网络,在resnet50网络结构上,利用空洞率为2的空洞卷积替换resnet50最后一个阶段的普通卷积;这扩大了网络的感受野,有利于后续深层网络的特征提取;其中,resnet,即deep residual network,resnet50网络为50层残差卷积网络;
S3-2)将步骤S2)预处理的图像输入至步骤S3-1)的基础网络中,图像经过基础网络后输入至FPN进一步提取各维度的特征,FPN是一种高效的CNN特征提取方法,利用FPN从下至上各个层对同一scale图片不同维度的特征表达结构,有效生成对图片的多维度特征表达的方法,从而生成表达力更强的feature map以供下一阶段的计算机视觉任务;
S3-3)将步骤S3-2)中提取到的特征再通过ROIAlign生成14*14*256大小的ROIfeatures,通过ROIAlign生成候选框region proposal映射产生固定大小的feature map,通过采用双线性插值法获得更加准确的行人候选框;ROIAlign是在Kaiming He,et al.,Mask R-CNN,ICCV2017这篇论文里提出的一种区域特征聚集方式;
S3-4)将步骤S3-3)中14*14*256大小的feature map经过5个卷积后再经过反卷积变换为28*28*1大小的行人P_mask;
S3-5)将步骤S3-4)得到的28*28*1大小的P_mask进行kernel size为2、stride为2的max pooling layer,使得预测的mask具有与步骤S3-3)的输出相同的空间尺寸,再和步骤S3-3)的输出进行组合,得到14*14*257大小的特征图;
该特征图经过4个卷积层,这4个卷积层的核大小和滤波器个数分别设置为3和256;再添加3个全卷积层,前面两个全卷积设置为1024,后一个全卷积设置为类别数量,数量为1,即行人一类;该输出的值为mask的评分,设置阈值为0.5,采用阈值大于0.5的mask,定义为GT_mask。
S4)使用二分类交叉熵损失函数Binary_Cross_Entropy来构造损失函数,将真实
的概率表达为,预测概率表达为,其中,y表示样本属于行人的概率,1-
y表示样本属于背景的概率,表示预测行人的概率,表示预测背景的概率,通过交叉
熵来测量p和q之间的相似度,公式如下:
S5)使用二分类交叉熵损失函数Binary_Cross_Entropy比较GT_mask和P_mask中每个像素点的信息。
S6)将步骤S3)得到的P_mask和GT_mask输入至边缘检测器,该边缘检测器由3*3*1
大小的一个边缘检测算子构成,两个mask会和边缘检测算子进行卷积得到两个mask的边
缘,对于P_mask输入后得到的边缘结果将其定义为,对于GT_mask输入后得到的边缘结
果将其定义为。
经过边缘检测器后的行人步态边缘拟合度大大提高,可以检测出双腿之间的空隙轮廓。
以上所述仅是本发明优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明构思的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明保护范围内。
Claims (1)
1.基于深度神经网络的行人步态分割方法,其特征在于包括如下步骤:
S1)预测行人的步态边界
在给定一个图片或视频的情况下,预测图片或视频中1个或多个行人的步态边界;
对于图片,检测单一图片中所有行人的目标,对目标进行步态分割;
对于视频,输入每一帧,检测视频每一帧中所有行人的目标,对目标进行步态分割,输出处理后的每一帧并组合成为一个分割好的行人步态视频;
S2)图像预处理和制作标签
将分割好的行人步态图像的大小统一调整为h*w,其中,h为图像的高,w为图像的宽;
制作标签,对图像相同位置的目标进行像素值处理,将行人的位置采用像素值为14的像素描边,非行人位置统一设置像素值为0,表示背景;
S3)构建步态分割深度卷积神经网络
S3-1)采用基础网络进行特征提取
采用resnet50网络作为基础网络,在resnet50网络结构上,利用空洞率为2的空洞卷积替换resnet50最后一个阶段的普通卷积;
S3-2)将步骤S2)预处理的图像输入至步骤S3-1)的基础网络中,图像经过基础网络后输入至FPN进一步提取各维度的特征,利用FPN从下至上各个层对同一scale图片不同维度的特征表达结构,有效生成对图片的多维度特征表达的方法;
S3-3)将步骤S3-2)中提取到的特征再通过ROIAlign生成14*14*256大小的ROIfeatures,通过ROIAlign生成候选框region proposal映射产生固定大小的feature map,通过采用双线性插值法获得更加准确的行人候选框;
S3-4)将步骤S3-3)中14*14*256大小的feature map经过5个卷积后再经过反卷积变换为28*28*1大小的行人P_mask;
S3-5)将步骤S3-4)得到的28*28*1大小的P_mask进行kernel size为2、stride为2的max pooling layer,使得预测的mask具有与步骤S3-3)的输出相同的空间尺寸,再和步骤S3-3)的输出进行组合,得到14*14*257大小的特征图;
该特征图经过4个卷积层,这4个卷积层的核大小和滤波器个数分别设置为3和256;再添加3个全卷积层,前面两个全卷积设置为1024,后一个全卷积设置为类别数量,数量为1,即行人一类;该输出的值为mask的评分,设置阈值为0.5,采用阈值大于0.5的mask,定义为GT_mask;
S4)使用二分类交叉熵损失函数Binary_Cross_Entropy来构造损失函数,将真实的概率表达为p∈{y,1−y},预测概率表达为q∈{ ,1-},其中,y表示样本属于行人的概率,1-y表示样本属于背景的概率,表示预测行人的概率,1-表示预测背景的概率,通过交叉熵来测量p和q之间的相似度,公式如下:
S5)使用二分类交叉熵损失函数Binary_Cross_Entropy比较GT_mask和P_mask中每个像素点的信息;
S6)将步骤S3)得到的P_mask和GT_mask输入至边缘检测器,该边缘检测器由3*3*1大小的一个边缘检测算子构成,两个mask会和边缘检测算子进行卷积得到两个mask的边缘,对于P_mask输入后得到的边缘结果将其定义为,对于GT_mask输入后得到的边缘结果将其定义为;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911050215.3A CN111079516B (zh) | 2019-10-31 | 2019-10-31 | 基于深度神经网络的行人步态分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911050215.3A CN111079516B (zh) | 2019-10-31 | 2019-10-31 | 基于深度神经网络的行人步态分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111079516A CN111079516A (zh) | 2020-04-28 |
CN111079516B true CN111079516B (zh) | 2022-12-20 |
Family
ID=70310602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911050215.3A Active CN111079516B (zh) | 2019-10-31 | 2019-10-31 | 基于深度神经网络的行人步态分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111079516B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898533B (zh) * | 2020-07-30 | 2023-11-28 | 中国计量大学 | 一种基于时空特征融合的步态分类方法 |
CN113160297A (zh) * | 2021-04-25 | 2021-07-23 | Oppo广东移动通信有限公司 | 图像深度估计方法和装置、电子设备、计算机可读存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348445A (zh) * | 2019-06-06 | 2019-10-18 | 华中科技大学 | 一种融合空洞卷积和边缘信息的实例分割方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10223582B2 (en) * | 2014-10-28 | 2019-03-05 | Watrix Technology | Gait recognition method based on deep learning |
-
2019
- 2019-10-31 CN CN201911050215.3A patent/CN111079516B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348445A (zh) * | 2019-06-06 | 2019-10-18 | 华中科技大学 | 一种融合空洞卷积和边缘信息的实例分割方法 |
Non-Patent Citations (3)
Title |
---|
Rethinking Atrous Convolution for Semantic Image Segmentation;Liang-Chieh Chen et al.;《arXiv》;20171205;全文 * |
基于Mask R-CNN的舰船目标检测研究;吴金亮等;《无线电工程》;20181019(第11期);全文 * |
基于深度卷积网络与空洞卷积融合的人群计数;盛馨心等;《上海师范大学学报(自然科学版)》;20191015(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111079516A (zh) | 2020-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106845478B (zh) | 一种字符置信度的二次车牌识别方法及装置 | |
WO2019169816A1 (zh) | 一种用于精细化识别车辆属性的深度神经网络及训练方法 | |
CN107204006B (zh) | 一种基于双背景差分的静止目标检测方法 | |
CN109685045B (zh) | 一种运动目标视频跟踪方法及*** | |
CN105488812A (zh) | 一种融合运动特征的时空显著性检测方法 | |
CN102915544A (zh) | 基于纹理检测和颜色分割的视频图像运动目标提取方法 | |
CN101945257A (zh) | 基于监控视频内容提取车辆底盘图像的合成方法 | |
CN111368742B (zh) | 基于视频分析的双黄交通标线的重建识别方法及*** | |
CN111079516B (zh) | 基于深度神经网络的行人步态分割方法 | |
WO2023159898A1 (zh) | 一种动作识别***、方法、装置及模型训练方法、装置、计算机设备及计算机可读存储介质 | |
CN105405138A (zh) | 基于显著性检测的水面目标跟踪方法 | |
CN111028263B (zh) | 一种基于光流颜色聚类的运动物体分割方法及其*** | |
Bisio et al. | Traffic analysis through deep-learning-based image segmentation from UAV streaming | |
CN105354547A (zh) | 一种结合纹理和彩色特征的行人检测方法 | |
Wu et al. | Video surveillance object recognition based on shape and color features | |
CN109241932A (zh) | 一种基于运动方差图相位特征的热红外人体动作识别方法 | |
CN110570450B (zh) | 一种基于级联的上下文感知框架的目标跟踪方法 | |
Bailke et al. | Real-time moving vehicle counter system using opencv and python | |
Ouzounis et al. | Interactive collection of training samples from the max-tree structure | |
Chen et al. | Stingray detection of aerial images with region-based convolution neural network | |
CN110390283B (zh) | 一种商业场景下跨摄像头行人重检索方法 | |
CN106603888A (zh) | 图像颜色提取处理结构 | |
CN106951831B (zh) | 一种基于深度摄像机的行人检测跟踪方法 | |
CN113657225B (zh) | 一种目标检测方法 | |
Li et al. | Global anomaly detection in crowded scenes based on optical flow saliency |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |