CN106960181B - 一种基于rgbd数据的行人属性识别方法 - Google Patents
一种基于rgbd数据的行人属性识别方法 Download PDFInfo
- Publication number
- CN106960181B CN106960181B CN201710112262.0A CN201710112262A CN106960181B CN 106960181 B CN106960181 B CN 106960181B CN 201710112262 A CN201710112262 A CN 201710112262A CN 106960181 B CN106960181 B CN 106960181B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- region
- classification model
- whole body
- height
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/469—Contour-based spatial representations, e.g. vector-coding
- G06V10/473—Contour-based spatial representations, e.g. vector-coding using gradient analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于RGBD数据的行人属性识别方法,其特征在于,包括步骤:步骤1,利用深度摄像机获取RGBD数据,对行人区域矩形框进行标注,形成行人属性识别训练样本;步骤2,对深度图进行阈值分割得到行人的前景区域的模板,并对RGB图像做掩模操作,得到前景区域图像;步骤3,取全身R1、上半身R2、下半身R3三个区域;步骤4,分别训练性别分类模型M1、年龄段分类模型M2、长短发分类模型M3、是否戴帽分类模型M4和是否带包分类模型M5;步骤5,对RGBD测试样本,利用步骤2和步骤3提取特征向量,并用步骤4中的分类模型M1‑M5进行预测,输出对行人的性别、年龄段、长短发、是否戴帽子和是否带包的属性预测分值。
Description
技术领域
本发明涉及计算机视觉领域,特别涉及一种同时利用RGBD数据对行人的属性进行识别的方法。
背景技术
在视频监控、机器人、智能家居和人机交互等领域中,经常需要对行人的性别、年龄段、头发长短、是否戴帽子、是否带包等属性进行识别。这些属性对于犯罪取证、确定人的身份和社会角色具有重要作用,行人属性识别在上述应用领域中起着关键的作用。在实际应用中,行人属性识别的困难因素包括低分辨率、遮挡、视角变化、复杂背景等因素的影响。
现有基于RGB图像的行人属性识别方法及其不足。
目前的行人属性识别方法都是基于RGB图像进行识别的。基于RGB 图像的行人属性识别方法主要步骤是:首先检测行人图像区域,然后提取图像区域特征并进行属性分类。
专利Multispectral Detection of Personal Attributes for VideoSurveillance(美国专利数据库,申请号US20120027249A1)公开了一种从头部图像检测人的属性的方法,对头顶、眼周、下巴等区域分别提取Haar 特征并采用Adaboost对是否戴帽子、是否戴眼镜和是否留有大胡子进行分类。该方法有以下不足:第一,需要输入头部清晰图像,对低分辨率行人难以识别;第二,容易受到复杂背景干扰,使头部区域定位不准,从而影响到识别效果;第三,所用到的Haar特征为局部二值特征,表达能力较弱,分类效果较差。
本发明一种基于RGBD数据的行人属性识别方法,利用深度信息能够有效去除背景干扰,提高行人区域图像特征表达的鲁棒性及行人属性分类的正确率。名称为“行人再识别方法及设备”,申请号为201580000333.7 的中国专利公开了一种利用深度图进行行人再识别的方法。该方法也涉及到行人前景区域的提取,但该方法是利用人体骨架关节点对行人前景区域进行提取的,需要事先获取人体骨架点的坐标。而本方法是直接对深度图进行阈值分割来得到行人前景区域的,并不需要人体骨架关节点作为输入。名称为“多模态性别识别”,申请号为201110170752.9的中国专利公开了一种利用深度图像识别人的性别的方法,但是与本发明有比较明显的区别。第一,该方法同时利用音频信息、深度信息、RGB图像信息进行识别,而本方法只利用深度图和RGB图像两者的特征,没有用到音频信息;第二,该方法指能识别人的性别属性,无法识别年龄段、头发长短、是否戴帽子、是否带包等属性。
发明内容
本发明的目的在于提供了一种基于RGBD数据的行人属性识别方法,其特征在于,包括步骤:步骤1,利用深度摄像机获取RGBD数据,对行人区域矩形框进行标注,形成行人属性识别训练样本;步骤2,对深度图进行阈值分割得到行人的前景区域的模板,并对RGB图像做掩模操作,得到前景区域图像;步骤3,在步骤2得到的前景区域图像上,取全身 R1、上半身R2、下半身R3三个区域,分别提取梯度方向直方图特征F1、 F2、F3并串起来形成特征向量F=[F1F2F3];步骤4,利用步骤2和步骤3中方法对训练样本提取特征向量,用支持向量机分别训练性别分类模型M1、年龄段分类模型M2、长短发分类模型M3、是否戴帽分类模型 M4和是否带包分类模型M5;步骤5,对RGBD测试样本,利用步骤2和步骤3提取特征向量,并用步骤4中的分类模型M1-M5进行预测,输出对行人的性别、年龄段、长短发、是否戴帽子和是否带包的属性预测分值。
优选地,步骤1所述的构建行人属性识别训练样本集的步骤为:
步骤1a,在RGB图像中对行人的外接矩形框进行标记;
步骤1b,对行人的性别、年龄段、长短发、是否戴帽子和是否带包属性进行人工标注。
优选地,所述步骤2中对深度图进行阈值分割具体过程:
步骤2a,所选取深度图的平均深度的0.6倍作为阈值,将深度小于阈值的区域作为候选前景区域,其像素值标记为1;
步骤2b,计算候选区域的外接矩形框,将宽高比大于1或者高度小于深度图高度的1/3区域像素置0;
步骤2c,将像素值为1的区域作为前景区域。
优选地,其特征在于:所述步骤2中对RGB图像做掩模操作,是指保留模板上值为1处的像素值,而将其它位置的像素值置为0。
优选地,步骤3中全身R1区域为步骤2中前景区域的外接矩形框;上半身R2区域为全身R1区域的上半部分,宽度与R1相同,高度为全身高度的0.6倍;下半身R3区域为全身R1的下半部分,宽度与R1相同,高度为全身高度的0.4倍。
优选地,所述步骤4中用支持向量机对模型M1-M5进行训练,采用的是机器学习领域所熟知的对偶坐标下降法。
附图说明
参考随附的附图,本发明更多的目的、功能和优点将通过本发明实施方式的如下描述得以阐明,其中:
图1为本发明对行人属性进行预测的流程示意图;
图2为本发明的全身R1、头部R2、上半身R3三个区域的等比例示意图。
具体实施方式
通过参考示范性实施例,本发明的目的和功能以及用于实现这些目的和功能的方法将得以阐明。然而,本发明并不受限于以下所公开的示范性实施例;可以通过不同形式来对其加以实现。说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。
在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
本发明一种二维图像人体关节点定位方法,它能同时对自遮挡和它遮挡进行建模,并学习人体部件之间以及部件和背景之间的遮挡关系;本发明针对上述遮挡关系图模型还提出一种高效的带环图模型推理方法,能使本发明所提出的遮挡关系图模型既能对遮挡关系进行表达,又具有和树型结构模型相近的推理复杂度。本发明方法包括以下步骤:
本发明的目的在于提供了一种基于RGBD数据的行人属性识别方法,步骤如图1所示:
步骤101,利用深度摄像机获取RGBD数据,对行人区域矩形框进行标注,形成行人属性识别训练样本;
根据本发明的一个实施例,步骤101所述的构建行人属性识别训练样本集的步骤为:
步骤1a,在RGB图像中对行人的外接矩形框进行标记;
步骤1b,对行人的性别、年龄段、长短发、是否戴帽子和是否带包属性进行人工标注。
步骤102,对深度图进行阈值分割得到行人的前景区域的模板,并对 RGB图像做掩模操作,得到前景区域图像;
根据本发明的一个实施例,所述步骤102中对深度图进行阈值分割具体过程:
步骤2a,所选取深度图的平均深度的0.6倍作为阈值,将深度小于阈值的区域作为候选前景区域,其像素值标记为1;
步骤2b,计算候选区域的外接矩形框,将宽高比大于1或者高度小于深度图高度的1/3区域像素置0;
步骤2c,将像素值为1的区域作为前景区域。
根据本发明的一个实施例,所述步骤102中对RGB图像做掩模操作,是指保留模板上值为1处的像素值,而将其它位置的像素值置为0。
步骤103,在步骤102得到的前景区域图像上,取全身R1、上半身 R2、下半身R3三个区域,分别提取梯度方向直方图特征F1、F2、F3并串起来形成特征向量F=[F1F2F3];
根据本发明的一个实施例,步骤103中全身R1区域为步骤102中前景区域的外接矩形框;上半身R2区域为全身R1区域的上半部分,宽度与R1相同,高度为全身高度的0.6倍;下半身R3区域为全身R1的下半部分,宽度与R1相同,高度为全身高度的0.4倍。步骤104,利用步骤 102和步骤103中方法对训练样本提取特征向量,用支持向量机分别训练性别分类模型M1、年龄段分类模型M2、长短发分类模型M3、是否戴帽分类模型M4和是否带包分类模型M5;
根据本发明的一个实施例,所述步骤104中用支持向量机对模型 M1-M5进行训练,采用的是机器学习领域所熟知的对偶坐标下降法。
步骤105,对RGBD测试样本,利用步骤102和步骤103提取特征向量,并用步骤104中的分类模型M1-M5进行预测,输出对行人的性别、年龄段、长短发、是否戴帽子和是否带包的属性预测分值。
根据本发明的一个实施例,步骤5中用支持向量机对行人属性进行预测的过程如下:设属性有K类,标记为0,1,…,K-1,属性k对应的模型参数为[Ak bk],步骤2和步骤3中方法对待测样本提取的特征向量为 F。属性k的分类器响应值为Yk=AkF+bk。属性k的预测概率为pk= exp(Yk)/∑exp(Yi),i=1,…,K-1。对待测样本的属性类别预测值为 argmax(pi)。
结合这里披露的本发明的说明和实践,本发明的其他实施例对于本领域技术人员都是易于想到和理解的。说明和实施例仅被认为是示例性的,本发明的真正范围和主旨均由权利要求所限定。
Claims (5)
1.一种基于RGBD数据的行人属性识别方法,其特征在于,包括步骤:
步骤1,利用深度摄像机获取RGBD数据,在RGB图像中对行人的外接矩形框进行标记,对行人的性别、年龄段、长短发、是否戴帽子和是否带包属性进行人工标注;
步骤2,对深度图进行阈值分割得到行人的前景区域的模板,并对RGB图像做掩模操作,得到前景区域图像;
步骤3,在步骤2得到的前景区域图像上,取全身R1、上半身R2、下半身R3三个区域,分别提取梯度方向直方图特征F1、F2、F3并串起来形成特征向量F=[F1 F2 F3];
步骤4,利用步骤2和步骤3中方法对训练样本提取特征向量,用支持向量机分别训练性别分类模型M1、年龄段分类模型M2、长短发分类模型M3、是否戴帽分类模型M4和是否带包分类模型M5;
步骤5,对RGBD测试样本,利用步骤2和步骤3提取特征向量,并用步骤4中的分类模型M1-M5进行预测,输出对行人的性别、年龄段、长短发、是否戴帽子和是否带包的属性预测分值。
2.根据权利要求1所述的方法,其特征在于:所述步骤2中对深度图进行阈值分割具体过程:
步骤2a,所选取深度图的平均深度的0.6倍作为阈值,将深度小于阈值的区域作为候选前景区域,其像素值标记为1;
步骤2b,计算候选区域的外接矩形框,将宽高比大于1或者高度小于深度图高度的1/3区域像素置0;
步骤2c,将像素值为1的区域作为前景区域。
3.根据权利要求1所述的方法,其特征在于:所述步骤2中对RGB图像做掩模操作,是指保留模板上值为1处的像素值,而将其它位置的像素值置为0。
4.根据权利要求1所述的方法,其特征在于:步骤3中全身R1区域为步骤2中前景区域的外接矩形框;上半身R2区域为全身R1区域的上半部分,宽度与R1相同,高度为全身高度的0.6倍;下半身R3区域为全身R1的下半部分,宽度与R1相同,高度为全身高度的0.4倍。
5.根据权利要求1所述的方法,其特征在于:所述步骤4中用支持向量机对模型M1-M5进行训练,采用的是机器学习领域所熟知的对偶坐标下降法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710112262.0A CN106960181B (zh) | 2017-02-28 | 2017-02-28 | 一种基于rgbd数据的行人属性识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710112262.0A CN106960181B (zh) | 2017-02-28 | 2017-02-28 | 一种基于rgbd数据的行人属性识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106960181A CN106960181A (zh) | 2017-07-18 |
CN106960181B true CN106960181B (zh) | 2020-04-24 |
Family
ID=59470133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710112262.0A Active CN106960181B (zh) | 2017-02-28 | 2017-02-28 | 一种基于rgbd数据的行人属性识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106960181B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875501B (zh) * | 2017-11-06 | 2021-10-15 | 北京旷视科技有限公司 | 人体属性识别方法、装置、***及存储介质 |
CN109063535B (zh) * | 2018-05-30 | 2021-09-28 | 华侨大学 | 一种基于联合深度学习的行人再辨识和行人性别分类方法 |
CN109934081A (zh) * | 2018-08-29 | 2019-06-25 | 厦门安胜网络科技有限公司 | 一种基于深度神经网络的行人属性识别方法、装置及存储介质 |
CN109359543B (zh) * | 2018-09-19 | 2021-10-01 | 武汉烽火众智数字技术有限责任公司 | 一种基于骨骼化的人像检索方法及装置 |
CN109344813B (zh) * | 2018-11-28 | 2023-11-28 | 北醒(北京)光子科技有限公司 | 一种基于rgbd的目标识别和场景建模方法 |
CN109829356B (zh) * | 2018-12-05 | 2021-04-06 | 科大讯飞股份有限公司 | 神经网络的训练方法及基于神经网络的行人属性识别方法 |
CN111191503A (zh) * | 2019-11-25 | 2020-05-22 | 浙江省北大信息技术高等研究院 | 一种行人属性识别方法、装置、存储介质及终端 |
CN111274945B (zh) * | 2020-01-19 | 2023-08-08 | 北京百度网讯科技有限公司 | 一种行人属性的识别方法、装置、电子设备和存储介质 |
CN111753658A (zh) * | 2020-05-20 | 2020-10-09 | 高新兴科技集团股份有限公司 | 一种睡岗告警方法、装置和计算机设备 |
CN112329693B (zh) * | 2020-11-17 | 2024-01-19 | 汇纳科技股份有限公司 | 性别年龄识别模型的训练方法、识别方法、介质及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012124837A1 (en) * | 2011-03-14 | 2012-09-20 | Lg Electronics Inc. | An apparatus and a method for gesture recognition |
CN105518744A (zh) * | 2015-06-29 | 2016-04-20 | 北京旷视科技有限公司 | 行人再识别方法及设备 |
-
2017
- 2017-02-28 CN CN201710112262.0A patent/CN106960181B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012124837A1 (en) * | 2011-03-14 | 2012-09-20 | Lg Electronics Inc. | An apparatus and a method for gesture recognition |
CN105518744A (zh) * | 2015-06-29 | 2016-04-20 | 北京旷视科技有限公司 | 行人再识别方法及设备 |
Non-Patent Citations (1)
Title |
---|
基于时空测地线传播的RGB-D视频分割;王斌;《计算机辅助设计与图形学学报》;20151031;第27卷(第10期);1816-1822 * |
Also Published As
Publication number | Publication date |
---|---|
CN106960181A (zh) | 2017-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106960181B (zh) | 一种基于rgbd数据的行人属性识别方法 | |
US9798956B2 (en) | Method for recognizing target object in image, and apparatus | |
Yi et al. | Assistive text reading from complex background for blind persons | |
CN108520226B (zh) | 一种基于躯体分解和显著性检测的行人重识别方法 | |
Pan et al. | A robust system to detect and localize texts in natural scene images | |
CN111563452B (zh) | 一种基于实例分割的多人体姿态检测及状态判别方法 | |
CN109684959B (zh) | 基于肤色检测和深度学习的视频手势的识别方法及装置 | |
CN106384345B (zh) | 一种基于rcnn的图像检测以及流量统计方法 | |
KR102005150B1 (ko) | 머신 러닝을 이용한 얼굴 표정 인식 시스템 및 방법 | |
CN103824052A (zh) | 一种基于多层次语义特征的人脸特征提取方法及识别方法 | |
CN107679512A (zh) | 一种基于手势关键点的动态手势识别方法 | |
Shanta et al. | Bangla sign language detection using sift and cnn | |
Cai et al. | Traffic sign recognition algorithm based on shape signature and dual-tree complex wavelet transform | |
Joshi et al. | A random forest approach to segmenting and classifying gestures | |
CN112101208A (zh) | 高龄老人特征串联融合手势识别方法及装置 | |
Mannan et al. | Classification of degraded traffic signs using flexible mixture model and transfer learning | |
Weerasekera et al. | Robust asl fingerspelling recognition using local binary patterns and geometric features | |
Ghadiri et al. | From superpixel to human shape modelling for carried object detection | |
Das | Human’s facial parts extraction to recognize facial expression | |
CN109165607B (zh) | 一种基于深度学习的驾驶员手持电话检测方法 | |
Jindal et al. | Sign Language Detection using Convolutional Neural Network (CNN) | |
Işikdoğan et al. | Automatic recognition of Turkish fingerspelling | |
Boruah et al. | Different face regions detection based facial expression recognition | |
CN106897665B (zh) | 应用于智能机器人的物体识别方法及*** | |
Starostenko et al. | Real-time facial expression recognition using local appearance-based descriptors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |