CN112199994A - 一种实时检测rgb视频中的3d手与未知物体交互的方法和装置 - Google Patents

一种实时检测rgb视频中的3d手与未知物体交互的方法和装置 Download PDF

Info

Publication number
CN112199994A
CN112199994A CN202010916742.4A CN202010916742A CN112199994A CN 112199994 A CN112199994 A CN 112199994A CN 202010916742 A CN202010916742 A CN 202010916742A CN 112199994 A CN112199994 A CN 112199994A
Authority
CN
China
Prior art keywords
hand
neural network
video
convolutional neural
interactive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010916742.4A
Other languages
English (en)
Other versions
CN112199994B (zh
Inventor
薛聪
吴彦坤
向继
查达仁
王雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN202010916742.4A priority Critical patent/CN112199994B/zh
Publication of CN112199994A publication Critical patent/CN112199994A/zh
Application granted granted Critical
Publication of CN112199994B publication Critical patent/CN112199994B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种实时检测RGB视频中的3D手与未知物体交互的方法和装置。该方法的步骤包括:以视频帧作为输入训练卷积神经网络,卷积神经网络预测每帧图像的3D手姿势、6D物体姿态、手部动作和物体类别;以卷积神经网络检测到的3D手姿势、6D物体姿态作为输入训练交互循环神经网络,循环神经网络利用视频中的时序信息得出视频中的手与物体的交互类别;将待检测视频输入训练完成的卷积神经网络和交互循环神经网络,得到视频中每帧图像的3D手姿势、6D物体姿态、手部动作、物体类别和视频中手与物体的交互动作。本发明不需要深度照片或真实物体姿态坐标作为输入,提升了手部动作识别准确率,大大提升了识别范围,更方便应用于生活中。

Description

一种实时检测RGB视频中的3D手与未知物体交互的方法和 装置
技术领域
本发明涉及手与物体交互识别,目的在于实时检测RGB视频中手与未知物体的运动轨迹和交互类别,该方法基于卷积神经网络技术和循环神经网络技术实现,属于计算机视觉领域中的行为理解子领域。
背景技术
近年来,随着计算机视觉与虚拟现实技术的发展以及日益增长的生活家居智能化的需求,“以人为中心”的动作识别和行为理解逐渐成为计算机视觉领域的研究热点。而在行为理解领域里,手与物体交互的识别是至关重要的,识别手与物体的交互包括识别手部动作类别以及物体类别,有了手与物体交互的语义信息我们才能更好地理解用户意图和预测其下一步动作。同时,检测实时手形与动作跟踪也一直是手语识别与手势控制***中最为核心的组成部分,在部分增强现实体验中也扮演着重要的角色。
目前,手部的识别主要可分为基于视觉的非接触式和基于传感器信息的接触式两类。基于传感器信息的方法需要操作者穿戴数据手套等设备,且更换操作者后需重新调整参数,虽能实时直接获得手势在空间的三维位姿信息,但由于其操作不便性,在现实中普及具有一定难度。与之相比,基于视觉的手势识别能够使操作者以更加自然的方式进行人机交互。所以在未来人机交互和监控中,很大程度上需要依靠视觉***来使机器感知人的意图,其中基于视觉的动作识别和行为理解便尤为重要。
然而,尽管对于视觉场景的语义上有意义的解释至关重要,但共同理解人类和物体的问题却很少受到关注。目前大量研究集中在对人类和物体彼此隔离的视觉理解上。传统的识别手部动作的方法将第一视角下的手部单独分割出来识别其手势(G.Rogez,J.Supancic,and D.Ramanan.First-Person Pose Recognition Using EgocentricWorkspaces.In CVPR,2015.),或在第一视角与第三视角RGB图像中识别的手部姿势(U.Iqbal,P.Molchanov,T.Breuel,J.Gall,and J.Kautz.Hand Pose Estimation viaLatent 2.5D Heatmap Regression.In ECCV,2018.),但这些并没有对与手有交互的物体共同建模。有的方法在估计手部动作的时候将物体交互作为附加约束(C.Choi,S.H.Yoon,C.Chen,and K.Ramani.Robust Hand Pose Estimation during the Interaction withan Unknown Object.In ICCV,2017.),提高了手部动作识别的准确率,但依赖深度图像作为输入。有的方法对手与物体的姿态重构(Learning Joint Reconstruction of Handsand Manipulated Objects.Yana Hasson,Gul Varol,Dimitrios Tzionas,IgorKalevatykh,Michael J.Black,Ivan Laptev,Cordelia Schmid.In CVPR,2019),但并没有学习到语义信息。有的方法可以识别手与物体的交互(Tekin B,Bogo F,Pollefeys M.H+O:Unified egocentric recognition of3d hand-object poses and interactions.InCVPR,2019.),但只能识别数据集中已知的物体,缺乏泛化性。
虽然已有方法可以分析手与物体交互的语义信息,但能识别的物体类别受手部数据集的限制,而已有的手部运动数据集中与手交互的物体类别非常有限,标注新数据又需要耗费大量的人力物力。所以,提出一个可以根据RGB视频来识别手与未知物体的交互的方法是很有现实意义的。
发明内容
本发明的目的是提出一种根据RGB视频,能实时检测出3D手与未知物体的空间姿态和交互类别的方法和装置。
发明人发现,现有技术中的许多方法都是解决手或物体孤立状态下的姿态,而这些识别手势的方法只能识别出手部的形态和一些简单手势(如竖起大拇指、胜利的手势),不能识别与物体之间的交互关系;有些重建手与物体姿态的方法对物体边缘都得到了很好的还原,但并没有分析出此场景的语义信息;有些识别动作的方法则需要依赖深度图像的输入,否则准确率很低;有些估计物体姿态的方法并不直接算出6D姿态,而是先生成2D框架,再通过PnP算法计算6D姿态,从而损失了部分信息。本发明解决了以上问题,且可以一次完成多项任务,是一个端到端的,输入RGB视频便可以同时预测出3D手和物体姿态及动作和类别估计的方法,且不需要深度照片或真实物体姿态坐标作为输入,并提升了手部动作识别准确率。
如图1所示,本发明发明主要为一个卷积神经网络(CNN)和一个交互循环神经网络(交互RNN),卷积神经网络用来识别每帧图像的3D手姿势、6D物体姿态(物体的3D位置和3D方向)、手部动作(倒、打开、关闭等)、物体类别(牛奶、洗洁精、果汁盒等),循环神经网络用于提取整合视频中的时序特征,得出整个视频的手与物体的交互类别(倒牛奶、打开果汁盒等)。本发明的方法分为训练过程和使用过程。在训练过程阶段,分两步分别训练,首先以视频帧作为输入,训练卷积神经网络,预测每帧图像的3D手姿势、6D物体姿态、手部动作和物体类别,训练好后固定其参数,接着训练循环神经网络,将其检测到的手与物体关键点坐标作为循环神经网络的输入,输出整个视频中的手与物体的交互类别估计。在使用过程阶段,完整的模型以一系列视频帧作为输入,经过两个神经网络后输出每帧3D手姿势和物体姿态预测以及整个视频帧序列的物体和动作类别的估计。
本发明所采用的技术方案主要包括以下步骤(如无特殊说明,以下步骤均由计算机和电子设备的软硬件执行):
(1)模型搭建与训练。对于首次使用该模型时,用户首先需要对卷积神经网络与交互循环神经网络进行训练,然后才能使用训练好的模型进行动作识别。
(2)视频输入。输入一段RGB视频,本发明的模型可以实时检测出视频中每帧图像的手的3D位置(即3D姿势)、物体的6D姿态、手的动作、物体类别估计以及整段视频中手与物体的交互动作。
进一步地,在模型的详细设计中,如图2,指定了手与物体各有21个关键点(手的关键点为每根手指的四个关节和手腕节点,物体的关键点为物体边界框的八个顶点、中心点以及12条边的中点),通过预测关键点的坐标来确定其姿势(即3D手姿势和6D物体姿态)。
进一步地,所述卷积神经网络预测关键点的坐标以及预测手部动作和物体类别的方法是:
如图3、图4,将每个图片帧划分H×W个网格,并往深度扩展D个网格(H、W、D分别表示高度、宽度、深度),在平面上以像素(pixels)为单位,在深度方向以米(meters)为单位,即每个网格大小为Cu×Cv像素×Cz米。在这个网格坐标系中以网格左上角为坐标系原点,以一个网格为单位。
为了能同时联合预测手和物体的姿态与类别,如图4,在每个单元格(即网格)中都储存两个向量
Figure BDA0002665281180000031
来分别预测手和物体的特征,其中
Figure BDA0002665281180000032
分别是手和物体关键点的坐标,
Figure BDA0002665281180000033
Nc为手或物体关键点个数,
Figure BDA0002665281180000034
为动作类别概率,
Figure BDA0002665281180000035
Na为动作类别数,
Figure BDA0002665281180000036
为物体类别概率,
Figure BDA0002665281180000037
No为物体类别数(本发明添加了一类背景类,若物体为未知物体则会被分为背景类,再进入零次学习分类器来识别未知的物体)。其中手腕节点与物体中心点所在的网格用来预测动作与物体的类别。
Figure BDA0002665281180000038
为置信度,
Figure BDA0002665281180000039
每个单元格储存的这两个向量由卷积神经网络得出。本发明先确定关键点所在的单元格的坐标(u,v,z),再预测关键点相对于所在单元格左上角在三个维度上的偏移Δu,Δv,Δz,便可以得出关键点在网格坐标系中的坐标:
Figure BDA00026652811800000310
Figure BDA00026652811800000311
Figure BDA00026652811800000312
其中,由于手腕节点和物体中心点所在单元格负责预测动作和物体类别,所以用g(x)来控制这两个点的偏移在[0,1]之间,从而确定负责预测动作与物体类别的单元格。g(x)表达式如下:
Figure BDA0002665281180000041
其中,g(x)表示约束手腕节点与物体中心点的偏移的函数,x表示关键点相对于所在单元格左上角在三个维度上的偏移Δu,Δv,Δz,sigmoid表示激活函数,取值范围为(0,1),它可以将一个实数映射到(0,1)的区间,利用这个函数使手腕节点与物体中心点偏移后仍然处于所在的单元格内来预测动作与物体类别。
另外,有了在网格坐标系的三维位置和相机内参K,便可以算出关键点在相机坐标系中的三维坐标为:
Figure BDA0002665281180000042
进一步地,对手或物体存在的网格设定更高的置信度,设定置信度函数为:
Figure BDA0002665281180000043
其中,DT(x)是预测点与真实点的欧式距离,α表示超参,dth表示设定的阈值,当预测值越接近于真实值时,DT(x)越小,c(x)越大,表示置信度越大,反之,表示置信度越小。总置信度为:
Figure BDA0002665281180000044
其中:
Figure BDA0002665281180000045
进一步地,当物体的背景类别的概率最大时,判定这物体属于未知的类别。如图6,利用一个零次学习分类器模块,通过引入语义信息来识别未知的物体类别。零次学习分类器模块将除背景外其他的预测类的概率分别与其在语义空间中的向量相乘,再将得到的这些语义向量相加,作为最终预测的语义向量,接下来计算语义空间中的类别与其相似度,当相似度最高值不低于阈值时,认为此未知物体属于相似度最高的类。
进一步地,本发明的卷积神经网络的总损失函数为:
Figure BDA0002665281180000051
其中,λpose表示预测手与物***置的损失函数参数,λconf表示置信度的损失函数参数,λactcls表示预测动作类别的损失函数参数,λobjcls表示预测物体类别的损失函数参数,Gt表示划分图片的规则固定网格;
Figure BDA0002665281180000052
表示预测的手坐标,
Figure BDA0002665281180000053
表示预测的物体坐标,
Figure BDA0002665281180000054
表示预测的手动作类别的置信度,
Figure BDA0002665281180000055
表示预测的物体类别的置信度,
Figure BDA0002665281180000056
表示预测的物体类别概率,
Figure BDA0002665281180000057
表示预测的动作类别概率。
进一步地,由于卷积网络只学习了每帧图像的信息,而并没有利用视频中的时序信息,所以本发明添加了交互循环神经网络部分,如图5,以卷积网络算出的手与物体的关键点坐标向量
Figure BDA0002665281180000058
输入一个多层感知机建模它们的关系,再将其作为循环神经网络的输入,循环网络的模型如下:
Figure BDA0002665281180000059
其中,fφ是一个循环神经网络模型,gθ是一个多层感知机模型,最后输出这个视频中手与物体的交互类别。
基于同一发明构思,本发明还提供一种采用上述方法的实时检测RGB视频中的3D手与未知物体交互的装置,其包括:
模型训练模块,用于以视频帧作为输入,训练卷积神经网络,所述卷积神经网络预测每帧图像的3D手姿势、6D物体姿态、手部动作和物体类别;并以卷积神经网络检测到的3D手姿势、6D物体姿态作为输入,训练交互循环神经网络,所述循环神经网络利用视频中的时序信息得出视频中的手与物体的交互类别;
实时检测模块,用于将待检测视频输入训练完成的卷积神经网络和交互循环神经网络,得到视频中每帧图像的3D手姿势、6D物体姿态、手部动作、物体类别和视频中手与物体的交互动作。
本发明中的RGB视频中识别3D手与物体交互的方法,极大提高了实用性,具体包括:
(1)本发明方法不需要依赖RGB-D相机拍摄的深度图像,且只需要输入一系列帧便可以检测RGB视频中的手物交互,使得生活中可以应用的范围大大增加。
(2)本发明方法可以以实时的速度同时检测出手与物体的位置轨迹以及动作类别和物体类别估计,可以应用于异常行为检测。
(3)本发明方法可检测出不在训练集中的未知的物体类别,大大提升了识别范围,提高了泛化性,更方便应用于生活中。
附图说明
图1是基于RGB视频的识别3D手与物体交互的方法流程示意图;其中I1~IN表示N个视频帧,CNN为卷积神经网络,RNN为循环神经网络。
图2是手与物体关键点示意图;其中(a)图示意了21个手的关键点,(b)图示意了21个物体关键点,(a)图中P、R、M、I、T表示5个手指,TIP表示指尖,DIP表示远指关节,PIP表示近指关节,MCP表示指掌关节,Wrist为手腕。
图3是输入图像的网格坐标系示意图;
图4是在网格坐标系中,手与物***置以及其所在单元格存储的向量示意图;
图5是模型中的交互循环网络示意图,其中x1~xN表示该交互循环神经网络的输入。
图6是模型中的零次学习分类器模块示意图。
具体实施方式
下面结合附图和具体实施例对本发明方法作进一步描述。
本发明的手部动作识别方法不需要依赖外部检测算法,仅需对单张图像进行的端到端训练。输入单个RGB图像,通过神经网络进行一次前馈传递后,便可以共同估计出3D手和物体姿态,对它们的交互进行建模并识别物体与动作类别,当物体类别被识别为背景类时,通过零次学习分类器模块在语义空间中计算并寻找最相近的类别来预测物体未知的类别。接着,进一步在时域中合并和传播手与物体的姿态信息,以推断手和对象轨迹之间的交互并识别动作。本方法将一系列帧作为输入,便可输出每帧3D手和物体姿态预测以及整个序列的物体与动作类别的估计。
图1为基于RGB视频的识别3D手与物体交互的方法流程示意图,其方法主要包括以下步骤:
(1)模型训练。模型训练分为两部分,先训练卷积神经网络,再固定其训练交互循环神经网络。卷积神经网络是基于YOLO的架构,网络总共有31层,除最后一层为预测器之外,其余层均为卷积层或池化层等,经过最后的预测器后得到一个H*W*D*2*(3×Nc+1+Na+No)的向量,对应网格中每个格子里包含的两个手和物体的向量。本实施例的方法中,H=W=13,D=5。本实施例输入的图片大小为416*416。训练好卷积网络后,将每帧图像经过卷积网络得出的手和物体的关键点向量经过一层隐藏层的多层感知机来学习他们的交互关系,再输入两层隐藏层的循环神经网络,最后输出交互类别估计。本实施例训练的数据集为First-Person Hand Action(FPHA)数据集,是一个可公开获得的3D手-物体交互识别数据集,其中包含3D手姿势,6D物体姿势和动作类别的标签。FPHA包含的视频属于6个演员的45个不同活动类别,受试者执行与日常人类活动相对应的复杂动作。数据集的一个子集包含物体6D姿势的注释,以及涉及10个不同动作类别的4个物体的对应网格模型。将训练集根据与手交互的物体类别分为两部分,训练集和测试集,其中测试集中包括未出现在训练集的物体类别(未知类)。
(2)检测阶段。将一系列视频帧输入至模型中,便可估计出每帧图像的手和物体的3D姿态以及整个序列中手与物体的交互类别。当预测物体为背景类时,便通过零次学习分类器来预测出物体的未知类别。
图2为手与物体的关键点示意图,为了方便统一计算,均取21个关键点。手的关键点为每根手指的四个关节,以及手腕节点。物体的关键点取其边界框的八个顶点、中心点以及12条边的中点。其中,手腕节点与物体中心点所在的格子用来预测物体与动作的类别。
图3是输入图像的网格坐标系示意图,设网格左上角为坐标原点,每个格子为一个单位,格子坐标即为相对左上角偏移的格子数。
图4是在网格坐标系中,手与物***置以及其所在单元格存储的向量示意图,单元格有无物体是以有无关键点落入格子中为判定标准。
图5是模型中的交互循环网络示意图,将每帧图像先经过卷积网络,取其中得出的手和物体的关键点向量
Figure BDA0002665281180000071
先经过多层感知机来建模他们的关系,再将得出的向量经过两层隐藏层的循环神经网络来学习视频中的时序信息,最后输出交互类别估计。
图6是模型中的零次学习分类器模块示意图,当背景类的概率最大时,判定这物体属于未知的类别。将除背景外其他的预测类的概率分别与其在语义空间中的向量相乘,再将得到的这些语义向量相加,作为最终预测的语义向量,接下来计算语义空间中的类别与其相似度,当相似度最高值不低于阈值时,认为此未知物体属于相似度最高的类。
即使在复杂的现实场景下,本发明的方法也可以从RGB视频中,实时高效地识别手与未知物体的轨迹、类别与交互动作,并从中得到视频中的语义信息和捕捉序列的时序信息,大幅提高了动作识别效率,同时能够解决在传统手势识别中不能识别与物体交互的语义信息的问题,且不需要深度图像或是真实物体坐标数据的输入,也可以识别出与手交互的未知的物体,为其广泛应用提供了良好的理论基础。
以上实施例的模块卷积神经网络、零次学习分类器以及循环神经网络可以进行任意的组合,为使描述简洁,未对上述实施例中的各个模块所有可能的组合都进行描述,然而,只要这些模块的组合不存在矛盾,都应当认为是本说明书记载的范围。
基于同一发明构思,本发明的另一个实施例提供一种采用上述方法的实时检测RGB视频中的3D手与未知物体交互的装置,其包括:
模型训练模块,用于以视频帧作为输入,训练卷积神经网络,所述卷积神经网络预测每帧图像的3D手姿势、6D物体姿态、手部动作和物体类别;并以卷积神经网络检测到的3D手姿势、6D物体姿态作为输入,训练交互循环神经网络,所述循环神经网络利用视频中的时序信息得出视频中的手与物体的交互类别;
实时检测模块,用于将待检测视频输入训练完成的卷积神经网络和交互循环神经网络,得到视频中每帧图像的3D手姿势、6D物体姿态、手部动作、物体类别和视频中手与物体的交互动作。
基于同一发明构思,本发明的另一个实施例提供一种电子装置(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
基于同一发明构思,本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (10)

1.一种实时检测RGB视频中的3D手与未知物体交互的方法,其特征在于,包括以下步骤:
以视频帧作为输入,训练卷积神经网络,所述卷积神经网络预测每帧图像的3D手姿势、6D物体姿态、手部动作和物体类别;
以卷积神经网络检测到的3D手姿势、6D物体姿态作为输入,训练交互循环神经网络,所述循环神经网络利用视频中的时序信息得出视频中的手与物体的交互类别;
将待检测视频输入训练完成的卷积神经网络和交互循环神经网络,得到视频中每帧图像的3D手姿势、6D物体姿态、手部动作、物体类别和视频中手与物体的交互动作。
2.根据权利要求1所述的方法,其特征在于,指定手与物体的各21个关键点,所述卷积神经网络通过预测关键点的坐标来确定3D手姿势和6D物体姿态,其中手的关键点为每根手指的四个关节和手腕节点,物体的关键点为物体边界框的八个顶点、中心点以及12条边的中点。
3.根据权利要求2所述的方法,其特征在于,所述卷积神经网络采用以下步骤预测关键点的坐标,并预测手部动作和物体类别:
将每个图片帧划分H×W个网格,并往深度扩展D个网格,在平面上以像素为单位,在深度方向以米为单位,即每个网格大小为Cu×Cv像素×Cz米,在这个网格坐标系中以网格左上角为坐标系原点,以一个网格为单位;
在每个单元格中都储存两个向量
Figure FDA0002665281170000011
来分别预测手和物体的特征,其中
Figure FDA0002665281170000012
Figure FDA0002665281170000013
分别是手和物体关键点的坐标,
Figure FDA0002665281170000014
Nc为手或物体关键点个数,
Figure FDA0002665281170000015
为动作类别概率,
Figure FDA0002665281170000016
Na为动作类别数,
Figure FDA0002665281170000017
为物体类别概率,
Figure FDA0002665281170000018
No为物体类别数;其中手腕节点与物体中心点所在的网格用来预测动作与物体的类别;
Figure FDA0002665281170000019
为置信度,
Figure FDA00026652811700000110
每个单元格储存的这两个向量由卷积神经网络得出;
先确定关键点所在的单元格的坐标(u,v,z),再预测关键点相对于所在单元格左上角在三个维度上的偏移Δu,Δv,Δz,便可以得出关键点在网格坐标系中的坐标:
Figure FDA00026652811700000111
Figure FDA00026652811700000112
Figure FDA00026652811700000113
其中,由于手腕节点和物体中心点所在单元格负责预测动作和物体类别,所以用g(x)来控制这两个点的偏移在[0,1]之间,从而确定负责预测动作与物体类别的单元格;g(x)表达式如下:
Figure FDA0002665281170000021
其中,g(x)表示约束手腕节点与物体中心点的偏移的函数,x表示关键点相对于所在单元格左上角在三个维度上的偏移Δu,Δv,Δz,sigmoid表示激活函数,取值范围为(0,1),它可以将一个实数映射到(0,1)的区间。
4.根据权利要求3所述的方法,其特征在于,对手或物体存在的网格设定更高的置信度,设定置信度函数为:
Figure FDA0002665281170000022
其中,DT(x)是预测点与真实点的欧式距离,α表示超参,dth表示设定的阈值;总置信度为:
Figure FDA0002665281170000023
其中:
Figure FDA0002665281170000024
5.根据权利要求3所述的方法,其特征在于,当物体的背景类别的概率最大时,判定该物体属于未知的类别,利用零次学习分类器,通过引入语义信息来识别未知的物体类别;所述零次学习分类器将除背景外其他的预测类的概率分别与其在语义空间中的向量相乘,再将得到的这些语义向量相加,作为最终预测的语义向量,然后计算语义空间中的类别与其相似度,当相似度最高值不低于阈值时,认为此未知物体属于相似度最高的类。
6.根据权利要求3所述的方法,其特征在于,所述卷积神经网络的总损失函数为:
Figure FDA0002665281170000025
Figure FDA0002665281170000026
Figure FDA0002665281170000027
Figure FDA0002665281170000028
其中,λpose表示预测手与物***置的损失函数参数,λconf表示置信度的损失函数参数,λactcls表示预测动作类别的损失函数参数,λobjcls表示预测物体类别的损失函数参数,Gt表示划分图片的规则固定网格;
Figure FDA0002665281170000031
表示预测的手坐标,
Figure FDA0002665281170000032
表示预测的物体坐标,
Figure FDA0002665281170000033
表示预测的手动作类别的置信度,
Figure FDA0002665281170000034
表示预测的物体类别的置信度,
Figure FDA0002665281170000035
表示预测的物体类别概率,
Figure FDA0002665281170000036
表示预测的动作类别概率。
7.根据权利要求3所述的方法,其特征在于,所述交互循环神经网络以所述卷积神经网络得到的手与物体的关键点坐标向量为输入,通过一个多层感知机建模其交互关系,作为循环神经网络的输入,最后输出视频中手与物体的交互类别。
8.一种采用权利要求1~7中任一权利要求所述方法的实时检测RGB视频中的3D手与未知物体交互的装置,其特征在于,包括:
模型训练模块,用于以视频帧作为输入,训练卷积神经网络,所述卷积神经网络预测每帧图像的3D手姿势、6D物体姿态、手部动作和物体类别;并以卷积神经网络检测到的3D手姿势、6D物体姿态作为输入,训练交互循环神经网络,所述循环神经网络利用视频中的时序信息得出视频中的手与物体的交互类别;
实时检测模块,用于将待检测视频输入训练完成的卷积神经网络和交互循环神经网络,得到视频中每帧图像的3D手姿势、6D物体姿态、手部动作、物体类别和视频中手与物体的交互动作。
9.一种电子装置,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~7中任一权利要求所述方法的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~7中任一权利要求所述的方法。
CN202010916742.4A 2020-09-03 2020-09-03 一种实时检测rgb视频中的3d手与未知物体交互的方法和装置 Active CN112199994B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010916742.4A CN112199994B (zh) 2020-09-03 2020-09-03 一种实时检测rgb视频中的3d手与未知物体交互的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010916742.4A CN112199994B (zh) 2020-09-03 2020-09-03 一种实时检测rgb视频中的3d手与未知物体交互的方法和装置

Publications (2)

Publication Number Publication Date
CN112199994A true CN112199994A (zh) 2021-01-08
CN112199994B CN112199994B (zh) 2023-05-12

Family

ID=74005883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010916742.4A Active CN112199994B (zh) 2020-09-03 2020-09-03 一种实时检测rgb视频中的3d手与未知物体交互的方法和装置

Country Status (1)

Country Link
CN (1) CN112199994B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112720504A (zh) * 2021-01-20 2021-04-30 清华大学 从rgbd视频中学习手与物体交互运动控制方法和装置
CN112949501A (zh) * 2021-03-03 2021-06-11 安徽省科亿信息科技有限公司 一种从示教视频学习物体的可供性方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168527A (zh) * 2017-04-25 2017-09-15 华南理工大学 基于区域卷积神经网络的第一视角手势识别与交互方法
CN107590432A (zh) * 2017-07-27 2018-01-16 北京联合大学 一种基于循环三维卷积神经网络的手势识别方法
US20190107894A1 (en) * 2017-10-07 2019-04-11 Tata Consultancy Services Limited System and method for deep learning based hand gesture recognition in first person view
CN109919078A (zh) * 2019-03-05 2019-06-21 腾讯科技(深圳)有限公司 一种视频序列选择的方法、模型训练的方法及装置
CN111104820A (zh) * 2018-10-25 2020-05-05 中车株洲电力机车研究所有限公司 一种基于深度学习的手势识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168527A (zh) * 2017-04-25 2017-09-15 华南理工大学 基于区域卷积神经网络的第一视角手势识别与交互方法
CN107590432A (zh) * 2017-07-27 2018-01-16 北京联合大学 一种基于循环三维卷积神经网络的手势识别方法
US20190107894A1 (en) * 2017-10-07 2019-04-11 Tata Consultancy Services Limited System and method for deep learning based hand gesture recognition in first person view
CN111104820A (zh) * 2018-10-25 2020-05-05 中车株洲电力机车研究所有限公司 一种基于深度学习的手势识别方法
CN109919078A (zh) * 2019-03-05 2019-06-21 腾讯科技(深圳)有限公司 一种视频序列选择的方法、模型训练的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YANKUN WU 等: "A Method for Detecting Interaction between 3D Hands and Unknown Objects in RGB Video", 《2021 2ND INTERNATIONAL WORKSHOP ON ELECTRONIC COMMUNICATION AND ARTIFICIAL INTELLIGENCE (IWECAI 2021)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112720504A (zh) * 2021-01-20 2021-04-30 清华大学 从rgbd视频中学习手与物体交互运动控制方法和装置
CN112949501A (zh) * 2021-03-03 2021-06-11 安徽省科亿信息科技有限公司 一种从示教视频学习物体的可供性方法
CN112949501B (zh) * 2021-03-03 2023-12-08 安徽省科亿信息科技有限公司 一种从示教视频学习物体的可供性方法

Also Published As

Publication number Publication date
CN112199994B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
Doosti et al. Hope-net: A graph-based model for hand-object pose estimation
Kwon et al. H2o: Two hands manipulating objects for first person interaction recognition
Wang et al. Atloc: Attention guided camera localization
CN110147743B (zh) 一种复杂场景下的实时在线行人分析与计数***及方法
Lao et al. Automatic video-based human motion analyzer for consumer surveillance system
Gao et al. Dynamic hand gesture recognition based on 3D hand pose estimation for human–robot interaction
Han et al. Enhanced computer vision with microsoft kinect sensor: A review
Wang et al. Hmor: Hierarchical multi-person ordinal relations for monocular multi-person 3d pose estimation
Elgammal et al. Tracking people on a torus
Wang et al. Predicting camera viewpoint improves cross-dataset generalization for 3d human pose estimation
Deng et al. MVF-Net: A multi-view fusion network for event-based object classification
CN108171133B (zh) 一种基于特征协方差矩阵的动态手势识别方法
CN110555481A (zh) 一种人像风格识别方法、装置和计算机可读存储介质
WO2021098802A1 (en) Object detection device, method, and systerm
Li et al. Hmor: Hierarchical multi-person ordinal relations for monocular multi-person 3d pose estimation
Zhang et al. Handsense: smart multimodal hand gesture recognition based on deep neural networks
CN112199994B (zh) 一种实时检测rgb视频中的3d手与未知物体交互的方法和装置
Cao et al. Real-time gesture recognition based on feature recalibration network with multi-scale information
Wu et al. Context-aware deep spatiotemporal network for hand pose estimation from depth images
Kourbane et al. A graph-based approach for absolute 3D hand pose estimation using a single RGB image
Le et al. A survey on 3D hand skeleton and pose estimation by convolutional neural network
Raman et al. Emotion and Gesture detection
Nie et al. A child caring robot for the dangerous behavior detection based on the object recognition and human action recognition
Lu et al. Dynamic hand gesture recognition using HMM-BPNN model
Song et al. 3D hand pose estimation via graph-based reasoning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant