CN113220114B - 一种融合人脸识别的可嵌入非接触式电梯按键交互方法 - Google Patents
一种融合人脸识别的可嵌入非接触式电梯按键交互方法 Download PDFInfo
- Publication number
- CN113220114B CN113220114B CN202110086981.6A CN202110086981A CN113220114B CN 113220114 B CN113220114 B CN 113220114B CN 202110086981 A CN202110086981 A CN 202110086981A CN 113220114 B CN113220114 B CN 113220114B
- Authority
- CN
- China
- Prior art keywords
- elevator
- image
- coordinate system
- elevator key
- horizontal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/753—Transform-based matching, e.g. Hough transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02B—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
- Y02B50/00—Energy efficient technologies in elevators, escalators and moving walkways, e.g. energy saving or recuperation technologies
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Psychiatry (AREA)
- Databases & Information Systems (AREA)
- Social Psychology (AREA)
- Medical Informatics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Indicating And Signalling Devices For Elevators (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种融合人脸识别的可嵌入非接触式电梯按键交互方法,首先通过Laplace滤波算子对原始图像中的拍摄区域进行边缘检测并得到边缘图像,利用水平方向和垂直方向直线滤波算子对边缘图像进行滤波;然后采用霍夫直线检测算法对水平方向滤波和垂直方向滤波后的图像分别进行直线检测,以对电梯按键面板的区域进行定位,并求解出单应性变换矩阵;再利用改进的YOLOv3算法对电梯使用者的手指头进行检测与定位,根据单应性变换矩阵得到手指头所指的楼层按键,同时获取住户人脸信息来进行双重验证。本发明可准确识别电梯使用者所选的电梯按键,可以实现非接触式搭乘电梯,并通过楼层和住户人脸信息双重验证,保障住户的安全。
Description
技术领域
本发明涉及计算机视觉和人机交互技术领域,具体涉及一种融合人脸识别的可嵌入非接触式电梯按键交互方法。
背景技术
当今,电梯在城市高层建筑中的广泛应用,已成为在高层生活和工作的人们必不可少的搭乘工具。通常,电梯按键采用接触式,人们需要接触电梯按键来选择前往的楼层和控制电梯门开、关,而在电梯里每天都会有不同的人按电梯按键,这会使得电梯按键上带有多种细菌或病毒,容易引起交叉感染,极易增大传播几率。
随着科学技术的发展,人机交互技术变得多样化,人们不再满足于单纯地呈现虚拟场景,开始探索与虚拟世界的交互方法,因而越来越多的新型人机交互技术应运而生。人机交互技术分为几类:以键盘、鼠标为输入的传统交互技术;基于触控屏设备的交互技术,如智能手机、平板电脑;基于机器视觉、图像处理技术的非接触式交互技术,如虚拟键盘、手势交互***等。
Hiroki Goto等人研究了一种基于帧差法和手部肤色提取方法的摄像投影交互***:首先基于手部肤色在HSV、YCbCr空间下的聚类特征将手部从场景中分离出来,然后在分离出的前景图上利用模板匹配方法来检测指尖位置,进而实现用户与电脑或者家庭电视的投影交互。Fitriani等人提出一种基于可变形投影表面的人机交互***,该***将虚拟场景投影到易变形的物体表面上,然后检测用户触碰投影屏幕时产生的形变,通过图像处理算法和物体的形变模型解析出交互信息。
然而,上述基于机器视觉技术和图像处理算法的方案,都有着一个共同的缺点:不能保证投影场景的多样性。比如说,在基于手部肤色的交互***下,当投影出的场景与手部肤色相似时,手部前景分离算法的效果大打折扣。对于基于形变表面的交互***,虽然在***设定的投影场景下,***能保持稳定地运行,但如果应用到多变的投影场景下,投影图像的形变检测会变得不准确,需要针对不同场景设计不同方案,***的开发成本较高。
发明内容
本发明的第一目的在于克服现有技术的缺点和不足,提供一种融合人脸识别的可嵌入非接触式电梯按键交互方法,该方法可应用在多变环境下,能够准确识别电梯使用者所选的电梯按键,可以实现非接触式搭乘电梯,并通过楼层和住户人脸信息双重验证,保障住户的安全。
本发明的第二目的在于提供一种计算设备。
本发明的第三目的在于提供一种电梯。
本发明的第一目的通过以下技术方案实现:一种融合人脸识别的可嵌入非接触式电梯按键交互方法,包括下列步骤:
S1、获取电梯轿厢内摄像头拍摄的原始图像,通过Laplace滤波算子对原始图像的拍摄区域进行边缘检测,从而得到边缘图像;
S2、利用水平方向和垂直方向直线滤波算子对边缘图像进行滤波,以增强水平和垂直方向的直线型边缘,在剔除噪声的同时保留了电梯按键面板区域的边缘;
S3、采用霍夫直线检测算法对水平方向滤波后的图像和垂直方向滤波后的图像分别进行直线检测,以对电梯按键面板的区域进行定位;
S4、利用单应性变换矩阵求解视角变换下的映射关系;
S5、利用改进的YOLOv3算法对原始图像中电梯使用者的手指头进行检测与定位,并根据单应性变换矩阵得到手指头所指的楼层按键;
S6、获取手指头所指楼层的住户人脸信息,对电梯使用者是否为住户和手指头所指楼层是否为该电梯使用者所居住楼层进行双重验证,双重验证通过情况下该楼层按键才被选中,最终控制电梯轿厢运行至该楼层。
优选的,摄像头安装在电梯按键面板上方,并往下拍摄电梯按键面板;
在步骤S1中,通过Laplace滤波算子对摄像头拍摄区域进行边缘检测的过程如下:
S11、对原始图像进行灰度化处理,得到灰度图像;
S12、基于不漏检电梯按键面板边界的原则,采用二阶梯度Laplace滤波算子检测灰度图像的边缘,其中Laplace滤波算子具体是利用二阶差分计算边缘梯度,过程如下:
考虑到一维序列{f(1),f(2),…f(x-1),f(x),f(x+1)}在x位置的二阶差分表示为:
f``(x)=(f(x+1)-f(x))-(f(x)-f(x-1))
进一步化简为:
f``(x)=f(x-1)-2*f(x)+f(x+1)
即一维离散序列的二阶差分可表示为序列与一维卷积核[+1,-2,+1]相卷积的结果,将该结论推广到灰度图像的二维矩阵中:
对于灰度图像Igray,定义尺度为3*3的二维内核KL:
由于二维内核只考虑水平方向和垂直方向,故将斜对角信息加入考虑,上述卷积核KL替换为:
灰度图像的二阶差分信息由该卷积核与灰度图像卷积得到,即:
G=KL*Igray
随着卷积核尺度的增大,所检测到的边缘越明显;
取出卷积结果为0的点,这些点即为边缘,边缘图像就是灰度图像中灰度变化明显的点的集合。
优选的,步骤S2的过程如下:
S21、定义大小为1×n对水平直线滤波算子Khorizontal和大小为n×1的垂直直线滤波算子Kvertical:
式中,T表示向量对转置,n表示滤波算子的大小;Khorizontal对水平直线型边缘敏感,Kvertical对垂直直线型边缘敏感;
S22、将Laplace滤波后的边缘图像ILaplace,分别与两个算子相卷积,得到水平方向滤波图像Ihorizontal和垂直方向滤波图像Ivertical:
Ihorizontal=Khorizontal*ILaplace
Ivertical=Kvertical*ILaplace。
优选的,步骤S3的过程如下:
S31、考虑到边缘图像经水平方向和垂直方向滤波后,其非水平或垂直直线型的边缘会得到抑制,先使用阈值将非水平直线型边缘和非垂直直线型边缘分割出来并去除;
S32、然后使用霍夫直线检测算法分别对经过阈值分割后的水平方向滤波图像和竖直方向滤波图像进行直线检测,最终得到四条电梯按键面板边界直线;
S33、对这四条电梯按键面板边界直线,两两求其交点,得到原始图像中电梯按键面板区域的左上、左下、右下、右上四个顶点坐标(xlt,ylt),(xlb,ylb),(xrb,yrb),(xrt,yrt)。
更进一步的,单应性变换,反映的是从一个二维平面映射到三维空间,再从三维空间映射到另一个二维平面的过程,以X-Y-Z为三维空间坐标系,可理解为世界坐标系,x-y为像素平面空间坐标系,x′-y′为电梯按键面板平面坐标系;单应性变换可以描述为:x-y坐标系上的一点(x,y),在X-Y-Z坐标系上对应一条经过原点和该点的直线该直线与x′-y′坐标系平面相交于点(x′,y′),则从点(x,y)到点(x′,y′)的过程称为单应性变换;
利用单应性变换矩阵求解视角变换下的映射关系的过程如下:
S41、设x′-y′平面与X-Y-Z空间坐标系的Z轴垂直,且与Z轴相交于点(0,0,1),即x′-y′平面坐标下的点(x′,y′)为X-Y-Z空间坐标系下的点(x′,y′,1),利用单应性变换矩阵H描述x-y平面坐标系与X-Y-Z空间坐标系映射关系:
式中,h1~h9为单应性矩阵的9个变换参数;
进而得x-y平面坐标系到x′-y′平面坐标系的映射关系为:
H矩阵拥有9个变换参数,但实际上只拥有8个自由度,这是因为X-Y-Z空间坐标系为齐次坐标系,不考虑坐标缩放这一坐标变换,当对H矩阵乘以一个缩放因子k,则:
k*H与H实际上表示相同的映射关系,因此H只有8个自由度;
S42、在求解H时,其中一种方法是将h9置为1,则待求解的方程为:
另一种方法是给单应性矩阵H添加约束,令其模等于1,如下:
则待求解的方程为:
S43、由步骤S3所得到的像素坐标系下电梯按键面板的四个顶点,定义各自在电梯按键面板场景坐标系下的目标坐标点:
(xlt,ylt)→(xlt′,ylt′)
(xlb,ylb)→(xlb′,ylb′)
(xrb,yrb)→(xrb′,yrb′)
(xrt,yrt)→(xrt′,yrt′)
将这些目标坐标分别代入步骤S42的待求解方程中,联立求解出H矩阵。
优选的,改进的YOLOv3算法包括在YOLOv3目标检测算法的基础上对其损失函数进行改进,以及采用自适应剪枝算法来缩减YOLOv3网络的特征提取部分。
更进一步的,YOLOv3网络的损失函数设计如下:
式中,第一项为坐标误差损失,λcoord为坐标损失函数系数;S表示将输入图像分为S×S个网格;B表示一个网格内包含的边框数;表示第i个网格的第j个边框是否包含物体,包含时值为1,不包含时值为0;x、y分别表示边框的中心坐标;w、h分别表示边框的长和宽;rij表示第i个网格的第j个预测框的x,y,w,h;/>表示第i个网络的第j个真实框的x,y,w,h;
第二项以及第三项为置信度损失,表示第i个网格的第j个边框是否不包含物体,不包含时值为1,包含时值为0;λnoobj为平衡有物体和无物体网格的损失权重,目的是降低不含物体的网格边框的置信度损失;Cij表示第i个网格的第j个边框预测的置信度;/>表示第i个网格的第j个边框真实的置信度;
损失函数的改进具体如下:
(1)为第三项即置信度损失引用FocalLoss,以提高模型对困难样本的学习能力,其中,Focalloss基于交叉熵进行改进,其函数形式如下:
改进后的置信度损失函数如下:
(2)为第一项即坐标损失增加一个自适应缩放因子,该缩放因子如下:
改进后的坐标损失如下:
更进一步的,YOLOv3网络采用darknet-53作为特征提取主体,针对darknet-53复杂度冗余的问题,采用基于结构剪枝方法中networkslimming算法对网络进行通道级别的剪枝,以减少网络的特征通道数:
首先为每个卷积层后面添加一个BN层,在卷积神经网络中使用BN操作时,会给每个输入的特征通道分配单独的γik和βik参数,BN层的输出结果表示为:
γik相当于一个缩放因子,networkslimming利用该缩放因子作为特征通道的权重,并通过Lasso算法稀疏化这些缩放因子:
式中,lossnew为最终的损失函数,lossold为改进后的损失函数,Layers为YOLOv3网络的网络层数,Channels为YOLOv3网络的通道数;
最后对所有的γ参数按照从大到小的顺序进行排列,然后按比例删除排序在后的γik所对应的特征通道以及BN通道。
本发明的第二目的通过以下技术方案实现:一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现本发明第一目的所述的融合人脸识别的可嵌入非接触式电梯按键交互方法。
本发明的第三目的通过以下技术方案实现:一种电梯,所述电梯通过本发明第一目的所述的融合人脸识别的可嵌入非接触式电梯按键交互方法,实现楼层按键的识别和轿厢的运行控制。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明方法先通过边缘检测、滤波及直线检测操作对图像中电梯按键面板的区域进行定位,并求解出单应性变换矩阵,然后利用深度学习技术对图像中的电梯使用者手指进行检测,根据求解的单应性变换矩阵变换得到电梯使用者手指所选的楼层按键。本发明避免了环境因素对目标检测的干扰,提高了所选楼层按键识别的精确度,也使得本发明方法可以应用在多变环境下,交互场景更具有多样性。
(2)本发明方法可应用在疫情期间实现非接触式电梯按键,避免了多人多次触碰电梯按键所造成的交叉感染。
(3)本发明通过计算机视觉技术识别电梯使用者所选楼层按键的同时,加入了人脸识别技术,构成双重验证,确保目标楼层进出人员为住户或者有住户带领,极大地提高了电梯的交互性以及住户的安全性。
(4)YOLOv3算法本身在速度上就占有优势,本发明在此基础上,通过提高YOLOv3网络对困难样本的学习能力和提高小物体的损失,可进一步提高YOLOv3网络的训练速度;通过减少YOLOv3网络的特征通道数,可进一步降低计算复杂度,使得目标检测效率大大提高,有利于实时检测。
(5)在本发明中,由于提取出的边缘图像为包含水平边缘和垂直边缘的合并图像,使用水平直线滤波算子和垂直滤波算子对边缘图像再进一步滤波即可以划分为仅包含水平方向滤波图像和垂直方向滤波图像,之后再进行直线检测,如此可以避免水平通道和垂直通道边缘合并后的冗余检测,有效降低直线检测算法的复杂度。
附图说明
图1是本发明融合人脸识别的可嵌入非接触式电梯按键交互方法的流程图。
图2是笛卡尔坐标的霍夫直线检测算法示意图。
图3是极坐标系的霍夫直线检测算法示意图。
图4是单应性变换的示意图。
图5是networkslimming的剪枝示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
本实施例公开了一种融合人脸识别的可嵌入非接触式电梯按键交互方法,该方法可应用在电梯中,电梯通过该方法来实现楼层按键的识别和轿厢的运行控制。如图1所示,该方法包括如下步骤:
S1、获取电梯轿厢内摄像头拍摄的原始图像,这里,摄像头安装在电梯按键面板上方,并以一定角度往下拍摄电梯按键面板。
然后通过Laplace滤波算子对原始图像的拍摄区域进行边缘检测,从而得到边缘图像:
S11、对原始图像进行灰度化处理,得到灰度图像;
S12、因为边缘是图像中亮度变化明显的点的集合,而梯度能在数值上反映出变化的快慢,故基于不漏检电梯按键面板边界的原则,采用二阶梯度Laplace滤波算子检测灰度图像的边缘,其中Laplace滤波算子采用大尺度卷积核,具体是利用二阶差分计算边缘梯度,过程如下:
考虑到一维序列{f(1),f(2),…f(x-1),f(x),f(x+1)}在x位置的二阶差分表示为:
f``(x)=(f(x+1)-f(x))-(f(x)-f(x-1))
进一步化简为:
f``(x)=f(x-1)-2*f(x)+f(x+1)
即一维离散序列的二阶差分可表示为序列与一维卷积核[+1,-2,+1]相卷积的结果,将该结论推广到灰度图像的二维矩阵中,一维序列可以理解为水平方向或者垂直方向的一个个像素值:
对于灰度图像Igray,定义尺度为3*3的二维内核KL:
由于上述二维内核只考虑水平方向和垂直方向,故将斜对角信息加入考虑,上述卷积核KL替换为:
灰度图像的二阶差分信息由该卷积核与图像卷积得到,即:
G=KL*Igray
卷积核KL即Laplace滤波算子,随着卷积核尺度的增大,所检测到的边缘越明显。
取出卷积结果为0的点,这些点即为边缘,边缘图像就是灰度图像中灰度变化明显的点的集合。此处提取出来的边缘图像即为包含水平边缘和垂直边缘的合并图像。
S2、利用水平方向和垂直方向直线滤波算子对边缘图像进行滤波。
由于经过大尺度卷积核的Laplace算子而得的边缘图像会出现很多的噪声点,而电梯按键面板区域的定位关键点在于边界四条直线的定位,且四条直线在图像中呈现出的是水平或垂直的状态,通过水平方向和垂直方向的直线滤波算子可以对水平和垂直方向的直线型边缘进行增强,在剔除噪声的同时保留了电梯按键面板区域的边缘。滤波过程如下:
S21、定义大小为1×n对水平直线滤波算子Khorizontal和大小为n×1的垂直直线滤波算子Kvertical:
式中,T表示向量对转置,n表示滤波算子的大小;Khorizontal对水平直线型边缘敏感,Kvertical对垂直直线型边缘敏感,两个算子可以有效地剔除孤点噪声。一般地,n越大对直线的长度要求就越高,也越有利于剔除非直线型的噪声部分;但n值过大时对直线角度敏感度也增加,可能导致轻微倾斜的直线被过滤掉,而所采集图像中的投影区域边界一般情况下不是严格水平或垂直的,因此n值也不能设置过大,需根据实际情况设置。
S22、将Laplace滤波后的边缘图像ILaplace,分别与两个算子相卷积,得到水平方向滤波图像Ihorizontal和垂直方向滤波图像Ivertical:
Ihorizontal=Khorizontal*ILaplace
Ivertical=Kvertical*ILaplace
S3、采用霍夫直线检测算法对水平方向滤波后的图像和垂直方向滤波后的图像分别进行直线检测,以对电梯按键面板的区域进行定位:
S31、考虑到边缘图像经水平方向和垂直方向滤波后,其非水平或垂直直线型的边缘会得到抑制,先使用阈值将非水平直线型边缘和非垂直直线型边缘分割出来并去除;
S32、然后使用霍夫直线检测算法分别对经过阈值分割后的水平方向滤波图像和竖直方向滤波图像进行直线检测,最终得到四条电梯按键面板边界直线。
由于步骤S1提取出来的边缘图像为包含水平边缘和垂直边缘的合并图像,在步骤S2使用水平直线滤波算子和垂直滤波算子对边缘图像再进一步滤波即可以划分为仅包含水平方向滤波图像和垂直方向滤波图像,之后再在步骤S3进行直线检测,如此可以避免水平通道和垂直通道边缘合并后的冗余检测,有效降低直线检测算法的复杂度。
这里的霍夫直线检测算法是利用笛卡尔坐标系与霍夫空间的点线对偶性原理,将笛卡尔坐标系上的每一个点映射至霍夫空间中的一条直线,那么在霍夫空间中经过多条直线的一个交点就对应笛卡尔坐标系中一条经过多个点的直线。
具体来说,对于笛卡尔坐标系上的一条直线y=kx+b,其中(x,y)表示坐标系下坐标点,k表示直线斜率,b表示直线截距。将该直线变换为:b=y-xk,并定义霍夫空间中横坐标为k,纵坐标为b,则b=y-xk为霍夫空间下斜率为-x,截距为y的一条直线。笛卡尔坐标系上同一直线上的若干点(x1,y1),(x2,y2),…,(xn,yn),在霍夫空间上对应若干条直线,这些直线的共同交点(k,b)即是笛卡尔坐标系中相同直线的斜率和截距,示意图如图2所示。
由于图像中垂直的直线斜率无法计算,因此一般采用极坐标的形式进行霍夫变换。具体地,将直线用极坐标方程ρ=xcosθ+ysinθ表示,其中ρ为极距,即极坐标空间下原点到直线的距离;θ为极角,即经过原点且垂直于直线的线段与x轴的夹角。定义霍夫空间中横坐标为θ,纵坐标为ρ,则极坐标系上同一直线上的若干点坐标(x1,y1),(x2,y2),…,(xn,yn),在霍夫空间上对应若干条曲线,这些曲线的共同交点(θ,ρ)即是极坐标系中相同直线的极角与极距,示意图如图3所示。
S33、对这四条电梯按键面板边界直线,两两求其交点,得到原始图像中电梯按键面板区域的左上、左下、右下、右上四个顶点坐标(xlt,ylt),(xlb,ylb),(xrb,yrb),(xrt,yrt)。
S4、利用单应性变换矩阵求解视角变换下的映射关系:
S41、单应性变换反映的是从一个二维平面映射到三维空间,再从三维空间映射到另一个二维平面的过程,以X-Y-Z为三维空间坐标系,可理解为世界坐标系,x-y为像素平面空间坐标系;x′-y′为电梯按键面板平面坐标系,单应性变换可以描述为:x-y坐标系上的一点(x,y),在X-Y-Z坐标系上对应一条经过原点和该点的直线该直线与x′-y′坐标系平面相交于点(x′,y′),则从点(x,y)到点(x′,y′)的过程称为单应性变换。
设x′-y′平面与X-Y-Z空间坐标系的Z轴垂直,且与Z轴相交于点(0,0,1),即x′-y′平面坐标下的点(x′,y′)为X-Y-Z空间坐标系下的点(x′,y′,1),利用单应性变换矩阵H描述x-y平面坐标系与X-Y-Z空间坐标系映射关系:
式中,h1~h9为单应性矩阵的9个变换参数;
进而得x-y平面坐标系到x′-y′平面坐标系的映射关系为:
H矩阵拥有9个变换参数,但实际上只拥有8个自由度,这是因为X-Y-Z空间坐标系为齐次坐标系,不考虑坐标缩放这一坐标变换,当对H矩阵乘以一个缩放因子k,则:
k*H与H实际上表示相同的映射关系,因此H只有8个自由度;
S42、在求解H时,其中一种方法是将h9置为1,则待求解的方程为:
另一种方法是给单应性矩阵H添加约束,令其模等于1,如下:
则待求解的方程为:
S43、由步骤S3所得到的像素坐标系下电梯按键面板的四个顶点,定义各自在电梯按键面板场景坐标系下的目标坐标点:
(xlt,ylt)→(xlt′,ylt′)
(xlb,ylb)→(xlb′,ylb′)
(xrb,yrb)→(xrb′,yrb′)
(xrt,yrt)→(xrt′,yrt′)
将这些目标坐标分别代入步骤S42的待求解方程中,由于像素坐标系下的四个顶点坐标已先求解得到,因此可以联立求解出H矩阵。
S5、利用改进的YOLOv3算法对原始图像中电梯使用者的手指头进行检测与定位,在得到手指头的位置坐标之后,通过单应性变换矩阵进行映射转换,得到对应的在电梯按键面板中的位置坐标,进而确定该位置坐标是位于哪个楼层按键,即可确定手指头所指的楼层按键。
网络的输入是电梯轿厢内摄像头采集的原始图像,输出是原始图像中电梯使用者手指头的位置坐标(x,y,w,h)以及置信度,在训练时以已知电梯使用者手指头的位置坐标、置信度(1或0)和分类概率(即是手指头的概率)的原始图像作为训练数据。在网络训练之前需先设计好网络的损失函数。
这里,改进的YOLOv3算法包括在YOLOv3目标检测算法(也即YOLOv3网络)的基础上对其损失函数进行改进,以及采用自适应剪枝算法来缩减YOLOv3网络的特征提取部分。
具体来说,对于YOLOv3网络,其损失函数设计如下:
式中,第一项为坐标误差损失,λcoord为坐标损失函数系数;S表示将输入图像分为S×S个网格;B表示一个网格内包含的边框数;表示第i个网格的第j个边框是否包含物体,包含时值为1,不包含时值为0;x、y分别表示边框的中心坐标;w、h分别表示边框的长和宽;rij表示第i个网格的第j个预测框的x,y,w,h;/>表示第i个网格的第j个真实框的x,y,w,h;
第二项以及第三项为置信度损失,表示第i个网格的第j个边框是否不包含物体,不包含时值为1,包含时值为0;λnoobj为平衡有物体和无物体网格的损失权重,目的是降低不含物体的网格边框的置信度损失;Cij表示第i个网格的第j个边框预测的置信度;/>表示第i个网格的第j个边框真实的置信度;
上述YOLOv3虽然采用了一个正负样本平衡因子λnoobj来降低多数不负责预测目标的网格带来的置信度损失,在一定程度上可以降低正负样本(正样本指网络所要检测的目标,负样本即是除目标之外的背景)的不平衡,但并没有解决困难样本的训练问题。因此,本实施例对损失函数的第三项即置信度损失引用FocalLoss,以提高模型对困难样本的学习能力。
其中,Focalloss基于交叉熵进行改进,其函数形式如下:
Focalloss为正样本和负样本分别设置了(1-y)α及yα两个权重,以负样本为例,当其易于学习时,y接近于0,则权重yα的数值也很小;而样本难以学习时,y接近0.5,权重yα的数值较大。这样使得分类困难的样本拥有比分类容易的样本更高的权重,因此能提高模型学习困难样本的能力。
改进后的置信度损失函数如下:
另外,由于在电梯应用场景中,电梯使用者手指头在图像中只占了很小的区域,即数据集中小物体的边框占了很大比例,因此通过提高小物体的损失能加快网络的训练速度,故本实施例还为第一项即坐标损失增加一个自适应缩放因子,该缩放因子如下:
改进后的坐标损失如下:
在卷积神经网络结构中,一个卷积通道代表了图像的某一种特征,模型通过综合所有通道的特征信息进行预测,因此结构越复杂的网络能提取越多的特征。YOLOv3网络采用了darknet-53作为特征提取主体,该结构拥有53个卷积层,每下采样一次卷积层通道数翻倍,总通道数达到17856,而电梯所需检测的目标为手指头,从直观角度上分析,darknet-53的结构拥有足够的复杂度以提取箭矢特征且存在大量冗余,因此需要对网络结构或大小进行缩减。
目前卷积神经网络的剪枝技术可分为以下几类:基于权重量化(WeightQuantization)的方法,如HashNet等,该方法通过hash将权重变量分组,同一组中的变量共享相同的权重数值,这种方法虽然有效降低了模型的参数大小,但不能提高网络的前向计算速度;基于权重稀疏化的方法,该方法将网络中的权重变量做稀疏训练,然后可以删除网络中大量接近0的权重变量,但这种方法只有在特殊的硬件下才能加速前向计算过程;基于结构剪枝的方法,该方法通过训练数据然后自适应地缩减网络的结构,因此能有效降低模型参数大小以及提高运行速度。
因此,本实施例针对darknet-53复杂度冗余的问题,采用基于结构剪枝方法中networkslimming算法对网络进行通道级别的剪枝,以减少网络的特征通道数。
为利用Lasso算法对网络进行通道级别的剪枝,networksliming的做法是:
首先为每个卷积层后面添加一个BN层,在卷积神经网络中使用BN操作时,会给每个输入的特征通道分配单独的γik和βik参数,BN层的输出结果表示为:
γik相当于一个缩放因子,networkslimming利用该缩放因子作为特征通道的权重,并通过Lasso算法稀疏化这些缩放因子:
式中,lossnew为最终的损失函数,lossold为上述改进后的损失函数,Layers为YOLOv3网络的网络层数,Channels为YOLOv3网络的通道数;
最后对所有的γ参数按照从大到小的顺序进行排列,然后按比例删除排序在后(数值较小)的γik所对应的特征通道以及BN通道。networkslimming的剪枝示意图如图4所示。
S6、获取手指头所指楼层的住户人脸信息,住户的人脸信息可以在电梯后台***中提前注册;
然后对电梯使用者是否为住户和手指头所指楼层是否为该电梯使用者所居住楼层进行双重验证,双重验证通过情况下该楼层按键才被选中,最终控制电梯轿厢运行至该楼层,如此可以确保电梯使用者为该楼层住户,极大地提高电梯的交互性和住户之间的安全性。
可通过各种手段实施本发明描述的技术。举例来说,这些技术可实施在硬件、固件、软件或其组合中。对于硬件实施方案,处理模块可实施在一个或一个以上专用集成电路(ASIC)、数字信号处理器(DSP)、可编程逻辑装置(PLD)、现场可编辑逻辑门阵列(FPGA)、处理器、控制器、微控制器、电子装置、其他经设计以执行本发明所描述的功能的电子单元或其组合内。
对于固件和/或软件实施方案,可用执行本文描述的功能的模块(例如,过程、步骤、流程等)来实施所述技术。固件和/或软件代码可存储在存储器中并由处理器执行。存储器可实施在处理器内或处理器外部。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。例如,硬件为包括处理器以及用于存储处理器可执行程序的存储器的计算设备,所述处理器执行存储器存储的程序时,实现上述可嵌入非接触式电梯按键交互方法。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (8)
1.一种融合人脸识别的可嵌入非接触式电梯按键交互方法,其特征在于,包括下列步骤:
S1、获取电梯轿厢内摄像头拍摄的原始图像,通过Laplace滤波算子对原始图像的拍摄区域进行边缘检测,从而得到边缘图像;
S2、利用水平方向和垂直方向直线滤波算子对边缘图像进行滤波,以增强水平和垂直方向的直线型边缘,在剔除噪声的同时保留了电梯按键面板区域的边缘;
S3、采用霍夫直线检测算法对水平方向滤波后的图像和垂直方向滤波后的图像分别进行直线检测,以对电梯按键面板的区域进行定位;
S4、利用单应性变换矩阵求解视角变换下的映射关系;
S5、利用改进的YOLOv3算法对原始图像中电梯使用者的手指头进行检测与定位,并根据单应性变换矩阵得到手指头所指的楼层按键;
改进的YOLOv3算法包括在YOLOv3目标检测算法的基础上对其损失函数进行改进,以及采用自适应剪枝算法来缩减YOLOv3网络的特征提取部分;
YOLOv3网络的损失函数设计如下:
式中,第一项为坐标误差损失,λcoord为坐标损失函数系数;S表示将输入图像分为S×S个网格;B表示一个网格内包含的边框数;表示第i个网格的第j个边框是否包含物体,包含时值为1,不包含时值为0;x、y分别表示边框的中心坐标;w、h分别表示边框的长和宽;rij表示第i个网格的第j个预测框的x,y,w,h;/>表示第i个网络的第j个真实框的x,y,w,h;
第二项以及第三项为置信度损失,表示第i个网格的第j个边框是否不包含物体,不包含时值为1,包含时值为0;λnoobj为平衡有物体和无物体网格的损失权重,目的是降低不含物体的网格边框的置信度损失;Cij表示第i个网格的第j个边框预测的置信度;/>表示第i个网格的第j个边框真实的置信度;
损失函数的改进具体如下:
(1)为第三项即置信度损失引用FocalLoss,以提高模型对困难样本的学习能力,其中,Focalloss基于交叉熵进行改进,其函数形式如下:
改进后的置信度损失函数如下:
(2)为第一项即坐标损失增加一个自适应缩放因子,该缩放因子如下:
改进后的坐标损失如下:
S6、获取手指头所指楼层的住户人脸信息,对电梯使用者是否为住户和手指头所指楼层是否为该电梯使用者所居住楼层进行双重验证,双重验证通过情况下该楼层按键才被选中,最终控制电梯轿厢运行至该楼层。
2.根据权利要求1所述的融合人脸识别的可嵌入非接触式电梯按键交互方法,其特征在于,摄像头安装在电梯按键面板上方,并往下拍摄电梯按键面板;
在步骤S1中,通过Laplace滤波算子对摄像头拍摄区域进行边缘检测的过程如下:
S11、对原始图像进行灰度化处理,得到灰度图像;
S12、基于不漏检电梯按键面板边界的原则,采用二阶梯度Laplace滤波算子检测灰度图像的边缘,其中Laplace滤波算子具体是利用二阶差分计算边缘梯度,过程如下:
考虑到一维序列{f(1),f(2),...f(x-1),f(x),f(x+1)}在x位置的二阶差分表示为:
f``(x)=(f(x+1)-f(x))-(f(x)-f(x-1))
进一步化简为:
f``(x)=f(x-1)-2*f(x)+f(x+1)
即一维离散序列的二阶差分可表示为序列与一维卷积核[+1,-2,+1]相卷积的结果,将该结论推广到灰度图像的二维矩阵中:
对于灰度图像Igray,定义尺度为3*3的二维内核KL:
由于二维内核只考虑水平方向和垂直方向,故将斜对角信息加入考虑,上述卷积核KL替换为:
灰度图像的二阶差分信息由该卷积核与灰度图像卷积得到,即:
G=KL*Igray
随着卷积核尺度的增大,所检测到的边缘越明显;
取出卷积结果为0的点,这些点即为边缘,边缘图像就是灰度图像中灰度变化明显的点的集合。
3.根据权利要求1所述的融合人脸识别的可嵌入非接触式电梯按键交互方法,其特征在于,步骤S2的过程如下:
S21、定义大小为1×n对水平直线滤波算子Khorizontal和大小为n×1的垂直直线滤波算子Kvertical:
式中,T表示向量对转置,n表示滤波算子的大小;Khorizontal对水平直线型边缘敏感,Kvertical对垂直直线型边缘敏感;
S22、将Laplace滤波后的边缘图像ILaplace,分别与两个算子相卷积,得到水平方向滤波图像Ihorizontal和垂直方向滤波图像Ivertical:
Ihorizontal=Khorizontal*ILaplace
Ivertical=Kvertical*ILaplace。
4.根据权利要求1所述的融合人脸识别的可嵌入非接触式电梯按键交互方法,其特征在于,步骤S3的过程如下:
S31、考虑到边缘图像经水平方向和垂直方向滤波后,其非水平或垂直直线型的边缘会得到抑制,先使用阈值将非水平直线型边缘和非垂直直线型边缘分割出来并去除;
S32、然后使用霍夫直线检测算法分别对经过阈值分割后的水平方向滤波图像和竖直方向滤波图像进行直线检测,最终得到四条电梯按键面板边界直线;
S33、对这四条电梯按键面板边界直线,两两求其交点,得到原始图像中电梯按键面板区域的左上、左下、右下、右上四个顶点坐标(xlt,ylt),(xlb,ylb),(xrb,yrb),(xrt,yrt)。
5.根据权利要求4所述的融合人脸识别的可嵌入非接触式电梯按键交互方法,其特征在于,单应性变换,反映的是从一个二维平面映射到三维空间,再从三维空间映射到另一个二维平面的过程,以X-Y-Z为三维空间坐标系,可理解为世界坐标系,x-y为像素平面空间坐标系,x′-y′为电梯按键面板平面坐标系;单应性变换可以描述为:x-y坐标系上的一点(x,y),在X-Y-Z坐标系上对应一条经过原点和该点的直线l:该直线与x′-y′坐标系平面相交于点(x′,y,),则从点(x,y)到点(x′,y′)的过程称为单应性变换;
利用单应性变换矩阵求解视角变换下的映射关系的过程如下:
S41、设x′-y′平面与X-Y-Z空间坐标系的Z轴垂直,且与Z轴相交于点(0,0,1),即x′-y′平面坐标下的点(x′,y′)为X-Y-Z空间坐标系下的点(x′,y′,1),利用单应性变换矩阵H描述x-y平面坐标系与X-Y-Z空间坐标系映射关系:
式中,h1~h9为单应性矩阵的9个变换参数;
进而得x-y平面坐标系到x′-y′平面坐标系的映射关系为:
H矩阵拥有9个变换参数,但实际上只拥有8个自由度,这是因为X-Y-Z空间坐标系为齐次坐标系,不考虑坐标缩放这一坐标变换,当对H矩阵乘以一个缩放因子k,则:
k*H与H实际上表示相同的映射关系,因此H只有8个自由度;
S42、在求解H时,其中一种方法是将h9置为1,则待求解的方程为:
另一种方法是给单应性矩阵H添加约束,令其模等于1,如下:
则待求解的方程为:
S43、由步骤S3所得到的像素坐标系下电梯按键面板的四个顶点,定义各自在电梯按键面板场景坐标系下的目标坐标点:
(xlt,ylt)→(xlt′,ylt′)
(xlb,ylb)→(xlb′,ylb′)
(xrb,yrb)→(xrb′,yrb′)
(xrt,yrt)→(xrt′,yrt′)
将这些目标坐标分别代入步骤S42的待求解方程中,联立求解出H矩阵。
6.根据权利要求1所述的融合人脸识别的可嵌入非接触式电梯按键交互方法,其特征在于,YOLOv3网络采用darknet-53作为特征提取主体,针对darknet-53复杂度冗余的问题,采用基于结构剪枝方法中networkslimming算法对网络进行通道级别的剪枝,以减少网络的特征通道数:
首先为每个卷积层后面添加一个BN层,在卷积神经网络中使用BN操作时,会给每个输入的特征通道分配单独的γik和βik参数,BN层的输出结果表示为:
γik相当于一个缩放因子,networkslimming利用该缩放因子作为特征通道的权重,并通过Lasso算法稀疏化这些缩放因子:
式中,lossnew为最终的损失函数,lossold为改进后的损失函数,Layers为YOLOv3网络的网络层数,Channels为YOLOv3网络的通道数;
最后对所有的γ参数按照从大到小的顺序进行排列,然后按比例删除排序在后的γik所对应的特征通道以及BN通道。
7.一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1至6中任一项所述的融合人脸识别的可嵌入非接触式电梯按键交互方法。
8.一种电梯,其特征在于,所述电梯通过权利要求1至6中任一项所述的融合人脸识别的可嵌入非接触式电梯按键交互方法,实现楼层按键的识别和轿厢的运行控制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110086981.6A CN113220114B (zh) | 2021-01-22 | 2021-01-22 | 一种融合人脸识别的可嵌入非接触式电梯按键交互方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110086981.6A CN113220114B (zh) | 2021-01-22 | 2021-01-22 | 一种融合人脸识别的可嵌入非接触式电梯按键交互方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113220114A CN113220114A (zh) | 2021-08-06 |
CN113220114B true CN113220114B (zh) | 2023-06-20 |
Family
ID=77084468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110086981.6A Active CN113220114B (zh) | 2021-01-22 | 2021-01-22 | 一种融合人脸识别的可嵌入非接触式电梯按键交互方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113220114B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113658088B (zh) * | 2021-08-27 | 2022-12-02 | 诺华视创电影科技(江苏)有限公司 | 一种基于多判别器的人脸合成方法及装置 |
TWI836406B (zh) * | 2022-04-20 | 2024-03-21 | 邁啟科技股份有限公司 | 非接觸式按鍵觸發方法 |
CN115969144A (zh) * | 2023-01-09 | 2023-04-18 | 东莞市智睿智能科技有限公司 | 一种鞋底喷胶轨迹生成方法、***、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1887317A1 (en) * | 2006-08-04 | 2008-02-13 | Fasep 2000 S.r.l. | Method and device for non-contact measurement of the alignment of motor vehicle wheels |
CN102701033A (zh) * | 2012-05-08 | 2012-10-03 | 华南理工大学 | 一种基于图像识别技术的电梯按键及方法 |
CN106598221A (zh) * | 2016-11-17 | 2017-04-26 | 电子科技大学 | 基于眼部关键点检测的3d视线方向估计方法 |
JP2019177973A (ja) * | 2018-03-30 | 2019-10-17 | 三菱電機株式会社 | 入力装置及び入力方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8180114B2 (en) * | 2006-07-13 | 2012-05-15 | Northrop Grumman Systems Corporation | Gesture recognition interface system with vertical display |
US8768492B2 (en) * | 2012-05-21 | 2014-07-01 | Tait Towers Manufacturing Llc | Automation and motion control system |
US9292103B2 (en) * | 2013-03-13 | 2016-03-22 | Intel Corporation | Gesture pre-processing of video stream using skintone detection |
-
2021
- 2021-01-22 CN CN202110086981.6A patent/CN113220114B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1887317A1 (en) * | 2006-08-04 | 2008-02-13 | Fasep 2000 S.r.l. | Method and device for non-contact measurement of the alignment of motor vehicle wheels |
CN102701033A (zh) * | 2012-05-08 | 2012-10-03 | 华南理工大学 | 一种基于图像识别技术的电梯按键及方法 |
CN106598221A (zh) * | 2016-11-17 | 2017-04-26 | 电子科技大学 | 基于眼部关键点检测的3d视线方向估计方法 |
JP2019177973A (ja) * | 2018-03-30 | 2019-10-17 | 三菱電機株式会社 | 入力装置及び入力方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113220114A (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113220114B (zh) | 一种融合人脸识别的可嵌入非接触式电梯按键交互方法 | |
CN111709310B (zh) | 一种基于深度学习的手势跟踪与识别方法 | |
CN106682598B (zh) | 一种基于级联回归的多姿态的人脸特征点检测方法 | |
Gurav et al. | Real time finger tracking and contour detection for gesture recognition using OpenCV | |
CN110688965B (zh) | 基于双目视觉的ipt模拟训练手势识别方法 | |
CN103098076B (zh) | 电视机控制用手势识别*** | |
AU2022202817A1 (en) | Method for identifying an object within an image and mobile device for executing the method | |
CN102426480A (zh) | 一种人机交互***及其实时手势跟踪处理方法 | |
CN110569817B (zh) | 基于视觉实现手势识别的***和方法 | |
CN110163111A (zh) | 基于人脸识别的叫号方法、装置、电子设备及存储介质 | |
CN110795990A (zh) | 一种面向水下设备的手势识别方法 | |
CN106502390B (zh) | 一种基于动态3d手写数字识别的虚拟人交互***及方法 | |
CN111444764A (zh) | 一种基于深度残差网络的手势识别方法 | |
CN109033978A (zh) | 一种基于纠错策略的cnn-svm混合模型手势识别方法 | |
CN115147488B (zh) | 一种基于密集预测的工件位姿估计方法与抓取*** | |
Liu et al. | Hand Gesture Recognition Based on Single‐Shot Multibox Detector Deep Learning | |
CN105007525A (zh) | 一种面向智能电视应用的交互情景事件关联智能感知方法 | |
CN112507918A (zh) | 一种手势识别方法 | |
CN103793056A (zh) | 基于距离向量的空中手势漫游控制方法 | |
CN114792443A (zh) | 一种基于图像识别的智能设备手势识别控制方法 | |
CN112712068A (zh) | 一种关键点检测方法、装置、电子设备及存储介质 | |
CN107918507A (zh) | 一种基于立体视觉的虚拟触摸板方法 | |
CN111160372B (zh) | 一种基于高速卷积神经网络的大目标识别方法 | |
Bai et al. | Dynamic hand gesture recognition based on depth information | |
CN115187660A (zh) | 一种基于知识蒸馏的多人人体姿态估计方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |