CN111062311B - 一种基于深度级可分离卷积网络的行人手势识别与交互方法 - Google Patents
一种基于深度级可分离卷积网络的行人手势识别与交互方法 Download PDFInfo
- Publication number
- CN111062311B CN111062311B CN201911281009.3A CN201911281009A CN111062311B CN 111062311 B CN111062311 B CN 111062311B CN 201911281009 A CN201911281009 A CN 201911281009A CN 111062311 B CN111062311 B CN 111062311B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- depth
- gesture recognition
- network
- separable convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明涉及一种深度级可分离卷积网络的行人手势识别与交互方法,包括:通过安装在车辆上的前视相机***采集包含行人的图像;将图像输入深度可分离卷积网络,检测行人包围盒,将包围盒区域的图像输入手势识别网络,输出行人区域的特征图。将行人所在区域的图像输入手势识别网络进行手势识别。手势识别网络通过深度级可分离卷积层提取特征,在输出特征图的每个点都预测12个人体关节点信息以及对应的12个偏移向量,最后通过对关节点分类理解行人手势,车辆根据识别到的行人手势,结合手势优先级,采取最保守策略做出决策。本发明使用深度级可分离卷积实现模型,成倍缩小模型规模,可以在智能手机等低功耗移动终端实现检测。
Description
技术领域
本发明涉及一种基于深度级可分离卷积网络的行人手势识别与交互技术,属于高级汽车驾驶员辅助技术领域。
背景技术
驾驶环境感知功能是高级汽车驾驶员辅助***ADAS(Advanced DriverAssistance System)的一项重要功能。行人作为公共交通场景中的重要组成部分,行人的意图对车辆驾驶决策有重要的影响。目前,大多数研究集中在如何让自主驾驶车辆高效安全驾驶,而缺少与行人交互方面的研究。因此,作为驾驶环境感知的重要部分,识别行人手势并进行行人交互有着迫切的需求。
目前,为了完成识别行人手势的任务,主要有两种方法:一种是基于传统的统计学习方法,依赖繁琐复杂的特征工程来得到行人手势信息;另外一种方法是使用深度学习方法,依赖卷积网络提取图像信息,对特征图输出设计合适的损失函数来训练模型,最终达到识别行人手势的目的。传统的基于特征工程的统计学习方法虽然计算量较小,简便易行,但是由于特征工程过于复杂,导致识别精度差;而基于深度卷积网络的模型虽然识别精度高,但是大多需要高性能的GPU才能勉强达到实时识别效果。
中国专利申请公布号CN107423679A的专利提出了一种行人意图检测方法和***,所述方法包括:设置距离传感器来采集观测区域内的目标形态数据;基于目标的现有状态信息,获知其轨迹信息;针对每个目标的移动轨迹及空间信息,判定该目标的行动意图。该方法只是获取到了行人的行走轨迹的预测,并没有达到行人和车辆交互的效果。另外,中国专利申请公布号CN104915628A的专利提出了一种用于自动化车辆的行人意图检测模型,所述方法包括:获取与行人运动意图相关的行人周围的交通场景的基本场景元素;基于基本场景元素以及行人的随着时间变化的三维3D距离信息,分析行人行走时的状态变化与每个周围基本场景元素之间的关系以获得基本场景元素与行人状态变化之间的关系;利用获得的关系,建立行人与周围所有基本场景元素之间的上下文相关模型;以及基于实时获得的与当前行人相关的当前场景元素,利用建立的上下文相关模型,对行人下一步的运动状态进行预测,以生成行人下一步的运动预测结果。该方法同样没有行人与车辆的交互过程,并且需要识别更多的额外场景信息和3D信息,计算量十分庞大,此外,该方法也没有指明当多个行人同时出现时该如何应对。
发明内容
本发明所要解决的技术问题是:
为了解决自主驾驶汽车行人手势识别与交互过程中存在的模型运算量大、识别速度慢、行人与车辆交互性差的问题,本发明提出一种基于深度级可分离卷积网络的行人手势识别与交互方法。
本发明为解决上述技术问题采用以下技术方案:
本发明提出一种基于深度级可分离卷积网络的行人手势识别与交互方法,其特征在于,包含以下步骤:
步骤一、采集包含行人的图像;
步骤二、将图像输入深度可分离卷积网络,检测行人包围盒,将包围盒区域的图像输入手势识别网络,输出行人区域的特征图;
步骤三、计算关节点坐标并对关节点坐标分类得到手势识别结果;
步骤四、对手势的优先级进行排序;
步骤五、根据优先级在前的手势表达的示意,得到移动车辆的最终交互决策。
如前所述的一种基于深度级可分离卷积网络的行人手势识别与交互方法,进一步地,步骤二所述深度级可分离卷积神经网络具体包括:
步骤2.1、深度卷积;
步骤2.2、批归一化;
步骤2.3、Relu激活;
步骤2.4、点卷积;
步骤2.5、批归一化;
步骤2.6、Relu激活。
如前所述的一种基于深度级可分离卷积网络的行人手势识别与交互方法,进一步地,步骤二所述特征图中的特征点包含12个人体关节点在该特征点存在的概率以及每个关节点在该点的偏移向量。
如前所述的一种基于深度级可分离卷积网络的行人手势识别与交互方法,进一步地,步骤二所述对关节点分类采用深度级可分离卷积结构精简模型。
如前所述的一种基于深度级可分离卷积网络的行人手势识别与交互方法,进一步地,步骤三所述对关节点分类的具体步骤包括:
步骤3.1、计算关节点坐标:由步骤二得到的特征点中包含的人体关节点分布特征图的置信度,结合对应点的偏移向量特征图,找到每个特征图中置信度最高的点以确定关节点类别,再从偏移向量得到关节点位置,从而得到人体关节点的完整信息;
步骤3.2、归一化:得到人体关节点坐标后,以左右肩连线的中心点为中心,将所有的关节点减去中心点的坐标后,进行归一化处理;
步骤3.3、分类:将归一化后的数据使用支持向量机或者一层全连接网络进行分类,得到最终的行人手势识别结果。
如前所述的一种基于深度级可分离卷积网络的行人手势识别与交互方法,进一步地,所述步骤五中,当同时检测到车辆周围有多个行人作出不同的手势的时候,根据行人手势的优先级不同,采用最保守策略作出行动决策。当车辆前方同时出现多个行人时,模型需要同时对多个行人的手势进行识别;得到多个行人的手势信息之后,根据手势信息的优先级对这些手势进行排序,然后才采取最保守策略做出回应。比如,有的行人要求车辆减速,有的行人要求车辆停车,那么优先执行停车策略。这样可以最大概率保证交通安全。
模型及时更新视野内行人状态,当视野内没有行人或者所有行人的手势均不要求车辆作出让步的时候,车辆进入正常行驶的状态。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
由于本发明所述的方法基于深度级可分离卷积模型实现,相比于传统的深度学习模型,规模成倍缩小,且不需要专用硬件或者GPU的设备的支持,降低了应用成本。同时可以保证识别精度,大大开阔了应用场景。本发明提出的技术方案可以实现在手机等低功耗移动设备上实时识别行人手势信息。并且,识别到信息之后,车辆和行人做出了有效交互。除此之外,对于车辆前方有多个行人的场景,模型会根据行人手势的优先级采取最保守策略进行决策,最大限度保证交通安全。
附图说明
图1是深度可分离卷积网络示意图;
图2是本发明所述方法示意图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本发明提出一种基于深度级可分离卷积网络的行人手势识别与交互方法。图2是本发明所述方法示意图。如图2所示。步骤包括:
首先通过安装在车辆前方的摄像机拍摄前方图像。本发明使用的前视相机采集的视频数据参数为1280×720@60FPS,视频帧为彩色图像,包含RGB三通道色彩信息,用(1280,720,3)维度的张量表示,张量中每个元素为整数,取值范围为[0,255]。
然后将图像输入深度级可分离卷积神经网络,检测行人包围盒。本发明利用深度级可分离卷积结构,将传统的卷积结构分为深度卷积和点卷积两个步骤,这样划分可以在保证模型识别效果的前提下,成倍缩小模型体积。图1是深度可分离卷积网络示意图。如图1所示,该结构将普通的卷积操作分为深度卷积和点卷积。其中,深度卷积针对每个输入通道采用不同的卷积核,就是说一个卷积核对应一个输入通道;点卷积就是普通的卷积,只不过其采用1×1 的卷积核。通过若干个深度级可分离卷积模块级联,提取特征图,在特征图中得到行人的包围盒。
然后将得到的行人区域图像输入手势识别网络。通过若干个深度级可分离卷积模块级联,构建人体关节点的特征提取网络。行人手势识别网络输出的特征图包含S×S×36个特征,其中S代表输出特征图的尺寸,每个特征点由一个包含36个数据的特征向量组成。这36个数据包含12个人体关节点在该特征点存在的概率,以及每个关节点在该点的偏移向量。通过结合概率特征图和偏移向量图,得到行人人体关节点坐标。
得到人体关节点坐标后,以左右肩连线的中心点为中心,将所有的关节点减去中心点的坐标后,进行归一化处理,最后将归一化后的数据使用支持向量机或者一层全连接网络进行分类,从而得到最终的行人手势识别结果。
在本步骤中,手势识别网络利用深度级可分离卷积结构精简模型,最后用支持向量机或者一层全连接层得到手势分类结果。
当车辆前方同时出现多个行人时,模型需要同时对多个行人的手势进行识别;得到多个行人的手势信息之后,根据手势信息的优先级对这些手势进行排序,然后采取最保守策略做出回应。比如,有的行人要求车辆减速,有的行人要求车辆停车,那么优先执行停车策略。这样可以最大概率保证交通安全。
当车辆前方没有行人,或者视野内的行人手势没有对车辆作出额外要求时,车辆进入正常行驶状态。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (5)
1.一种基于深度级可分离卷积网络的行人手势识别与交互方法,其特征在于,包含以下步骤:
步骤一、采集包含行人的图像;
步骤二、将图像输入深度可分离卷积网络,检测行人包围盒,将包围盒区域的图像输入手势识别网络,输出行人区域的特征图;
步骤三、计算关节点坐标并对关节点坐标分类得到手势识别结果,具体步骤包括:
步骤3.1、计算关节点坐标:由步骤二得到的特征点中包含的人体关节点分布特征图的置信度,结合对应点的偏移向量特征图,找到每个特征图中置信度最高的点以确定关节点类别,再从偏移向量得到关节点位置,从而得到人体关节点的完整信息;
步骤3.2、归一化:得到人体关节点坐标后,以左右肩连线的中心点为中心,将所有的关节点减去中心点的坐标后,进行归一化处理;
步骤3.3、分类:将归一化后的数据使用支持向量机或者一层全连接网络进行分类,得到最终的行人手势识别结果;
步骤四、对手势的优先级进行排序;
步骤五、根据优先级在前的手势表达的示意,得到移动车辆的最终交互决策。
2.根据权利要求1所述的一种基于深度级可分离卷积网络的行人手势识别与交互方法,其特征在于,步骤二所述深度级可分离卷积神经网络具体包括:
步骤2.1、深度卷积;
步骤2.2、批归一化;
步骤2.3、Relu激活;
步骤2.4、点卷积;
步骤2.5、批归一化;
步骤2.6、Relu激活。
3.根据权利要求1所述的一种基于深度级可分离卷积网络的行人手势识别与交互方法,其特征在于,步骤二所述特征图中的特征点包含12个人体关节点在该特征点存在的概率以及每个关节点在该点的偏移向量。
4.根据权利要求1所述的一种基于深度级可分离卷积网络的行人手势识别与交互方法,其特征在于,步骤三所述对关节点坐标分类采用深度级可分离卷积结构精简模型。
5.根据权利要求1所述的一种基于深度级可分离卷积网络的行人手势识别与交互方法,其特征在于,所述步骤五中,当同时检测到车辆周围有多个行人作出不同的手势的时候,根据行人手势的优先级不同,采用最保守策略作出行动决策。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911281009.3A CN111062311B (zh) | 2019-12-13 | 2019-12-13 | 一种基于深度级可分离卷积网络的行人手势识别与交互方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911281009.3A CN111062311B (zh) | 2019-12-13 | 2019-12-13 | 一种基于深度级可分离卷积网络的行人手势识别与交互方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111062311A CN111062311A (zh) | 2020-04-24 |
CN111062311B true CN111062311B (zh) | 2023-05-23 |
Family
ID=70301176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911281009.3A Active CN111062311B (zh) | 2019-12-13 | 2019-12-13 | 一种基于深度级可分离卷积网络的行人手势识别与交互方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111062311B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115546824B (zh) * | 2022-04-18 | 2023-11-28 | 荣耀终端有限公司 | 禁忌图片识别方法、设备及存储介质 |
CN117711014A (zh) * | 2023-07-28 | 2024-03-15 | 荣耀终端有限公司 | 隔空手势识别方法、装置、电子设备及可读存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109117701B (zh) * | 2018-06-05 | 2022-01-28 | 东南大学 | 基于图卷积的行人意图识别方法 |
CN109613930B (zh) * | 2018-12-21 | 2022-05-24 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 无人飞行器的控制方法、装置、无人飞行器及存储介质 |
CN110096968B (zh) * | 2019-04-10 | 2023-02-07 | 西安电子科技大学 | 一种基于深度模型优化的超高速静态手势识别方法 |
CN110096973A (zh) * | 2019-04-16 | 2019-08-06 | 东南大学 | 一种基于orb算法和深度级可分离卷积网络的交警手势识别方法 |
-
2019
- 2019-12-13 CN CN201911281009.3A patent/CN111062311B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111062311A (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112417953B (zh) | 道路状况检测和地图数据更新方法、装置、***及设备 | |
Hoang et al. | Enhanced detection and recognition of road markings based on adaptive region of interest and deep learning | |
CN111860274B (zh) | 基于头部朝向与上半身骨架特征的交警指挥手势识别方法 | |
JP2017191608A (ja) | 対象識別方法、対象識別装置、及び分類器訓練方法 | |
WO2021218786A1 (zh) | 一种数据处理***、物体检测方法及其装置 | |
CN106648078B (zh) | 应用于智能机器人的多模态交互方法及*** | |
CN110210474A (zh) | 目标检测方法及装置、设备及存储介质 | |
CN102609724B (zh) | 一种基于双摄像头的周围环境信息提示方法 | |
CN110781964A (zh) | 一种基于视频图像的人体目标检测方法及*** | |
CN113378641B (zh) | 基于深度神经网络和注意力机制的手势识别方法 | |
CN103020606A (zh) | 一种基于时空上下文信息的行人检测方法 | |
CN111062311B (zh) | 一种基于深度级可分离卷积网络的行人手势识别与交互方法 | |
CN103955682A (zh) | 基于surf兴趣点的行为识别方法及装置 | |
CN111967396A (zh) | 障碍物检测的处理方法、装置、设备及存储介质 | |
WO2023279799A1 (zh) | 对象识别方法、装置和电子*** | |
CN116824533A (zh) | 一种基于注意力机制的远小目标点云数据特征增强方法 | |
CN112508839A (zh) | 对象检测***及其对象检测方法 | |
CN115661522A (zh) | 一种基于视觉语义矢量的车辆导引方法、***、设备和介质 | |
CN108881846B (zh) | 信息融合方法、装置及计算机可读存储介质 | |
US20200298847A1 (en) | Systems for determining object importance in on-road driving scenarios and methods thereof | |
CN111339834B (zh) | 车辆行驶方向的识别方法、计算机设备及存储介质 | |
CN116823884A (zh) | 多目标跟踪方法、***、计算机设备及存储介质 | |
CN113449629B (zh) | 基于行车视频的车道线虚实识别装置、方法、设备及介质 | |
Sun et al. | Semantic-aware 3D-voxel CenterNet for point cloud object detection | |
Roncancio et al. | Ceiling analysis of pedestrian recognition pipeline for an autonomous car application |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |