CN114036969A - 一种多视角情况下的3d人体动作识别算法 - Google Patents

一种多视角情况下的3d人体动作识别算法 Download PDF

Info

Publication number
CN114036969A
CN114036969A CN202110280476.5A CN202110280476A CN114036969A CN 114036969 A CN114036969 A CN 114036969A CN 202110280476 A CN202110280476 A CN 202110280476A CN 114036969 A CN114036969 A CN 114036969A
Authority
CN
China
Prior art keywords
neural network
layer
joint
coordinates
human body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110280476.5A
Other languages
English (en)
Other versions
CN114036969B (zh
Inventor
石昕
邵慧杨
翟庆庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202110280476.5A priority Critical patent/CN114036969B/zh
Publication of CN114036969A publication Critical patent/CN114036969A/zh
Application granted granted Critical
Publication of CN114036969B publication Critical patent/CN114036969B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多视角情况下的3D人体动作识别算法,分为单视图3D姿势估计和多视图3D姿势估计;关于单视图3D姿势估计可以分为两个子类别,第一类使用高质量的2D姿态估计引擎,随后通过深度神经网络将2D坐标分别提升为3D;第二类使用卷积神经网络直接从图像推断3D坐标;关于多视图3D姿势估计,旨在获得单眼3D人体姿势估计的真实注释,将所有视图中的关节2D坐标串联为一个批次,作为对完全连接的网络的输入,该网络经过训练可以预测全局3D关节坐标。本发明的优点是:提出一种多视角情况下的3D人体动作识别算法,是通过采用计算机视觉识别算法对涉及人体的动作进行检测和识别并将其转换为用户可理解的数据展示。

Description

一种多视角情况下的3D人体动作识别算法
技术领域
本发明涉及计算机视觉识别,实时数据可视化,大数据并行处理领域,具体来说,涉及一种多视角情况下的3D人体动作识别算法。
背景技术
随着社会的发展和进步,人体行为识别技术在社会中承担的角色越来越重要,并具有广泛的应用场景。三维人体模型重建和动作识别是目前计算机视觉领域研究中的一个热点,其目的是通过各种图像处理和识别分类技术对视频中的动作进行提取和分析,合理的构建完整的三维人体模型,以判断视频中的人物所进行的动作,从而得出有用的信息,具有十分广泛的用途。人体行为识别技术可被应用到视频监控(学校、食堂、公司等环境)、人机交互(火车站等场景)、足球或者篮球运动自动解说等领域。
此外,人体姿势识别在计算机视觉领域是一个非常重要的领域。根据最终目标和假设规则制定的不同,可以延伸出很多不同的方向;
(1)预测人体的二维或者三维动作。
(2)从视频中的单一序列或者帧中预测人体动作。
(3)从单一或者多个摄像头中预测人体动作。
本发明中,我们只关注于多摄像头条件下,在固定帧的范围内三维空间下人体动作的识别。从更广泛的角度来看,本发明提出的动作检测框架可以作为一个统一的识别框架同时识别2D和3D中的人体动作。
3D人体动作识别是计算机视觉中的基础问题,平时应用于体育动作识别,计算机辅助直播,人机交互,特效制作等。目前大多数传统算法关注于单一视角的3D人体动作预测。尽管最近已经有学者做了很多相关的工作,但是多摄像机条件下对人体动作的识别还远远没有被解决。因此,本发明提出一种多视角情况下的3D人体动作识别算法。
多视角条件下的人体动作识别有很高的研究价值,原因有二:第一首先,在户外复杂场景下,多视角的人体动作识别无可争论的是最好的动作识别方式。这是因为诸如基于标记的运动捕获和视觉惯性方法之类的竞争技术具有一定的局限性,例如无法捕获丰富的姿势表示形式(例如,估计手部姿势和面部姿势以及肢体姿势)以及各种其他限制。先前的方法的缺点是,该工作使用多视图三角剖分来构建数据集,数据集依赖于过多,几乎不切实际的视图数来获得足够质量的3D真实动作。这使得用于3D姿态识别的新的数据集的收集非常具有挑战性,目前急需减少精确三角剖分所需的视图数量。其次在某些情况下,此算法可以将其直接用于实时跟踪人体姿势,以达到对动作进行识别的最终目的。这是因为在诸如运动或计算机辅助生活之类的各种应用程序的背景下,多摄像机的配置逐渐变得可用。在这种情况下,现代多视图方法的准确性可与发达的单眼方法相媲美。因此,从很少的视图中提高多视图姿势估计的准确性是直接实际应用中的重要挑战。
发明内容
本发明的目的在于提供一种多视角情况下的3D人体动作识别算法,是通过采用计算机视觉识别算法对涉及人体的动作进行检测和识别并将其转换为用户可理解的数据展示。
本发明采用的技术方案如下:一种多视角情况下的3D人体动作识别算法,其特征在于:多视图下2D姿势估计后采用多角度信息聚合方法进行3D姿势估计。
关于单视图3D姿势估计分为两个子类别,第一类使用高质量的2D姿态估计引擎,随后通过深度神经网络(完全连接,卷积或递归)将2D坐标分别提升为3D;第二类使用深度卷积神经网络直接从图像推断3D坐标;3D人体动作识别算法使用的是第一类方法作为主框架,使用深度卷积神经网络作为高质量的2D姿态估计引擎;
关于多视图3D姿势估计,旨在获得单眼3D人体姿势估计的真实注释,将所有视图中的关节2D坐标串联为一个批次,作为对完全连接的网络的输入,该网络经过训练能够预测全局3D关节坐标;其中将2D坐标串联到同一个坐标系下的方法称为多角度信息聚合方法。
所述深度卷积神经网络是一类包含数学中的卷积计算且具有多层深度结构的前馈神经网络,深度卷积神经网络的输入层能够处理多维数据,一维卷积神经网络的输入层接收一维或二维数组甚至三维数据,其中一维数组通常为时间序列数据;二维数组大多数为灰度图;二维卷积神经网络的输入层接收RGB图像的三维数组;
深度卷积神经网络的隐含层包含卷积层、池化层和全连接层3类结构;卷积层中的卷积核包含权重系数,池化层不包含权重系数,卷积层的功能是对输入数据进行特征提取,其内部包含多个卷积核,组成卷积核的每个元素都对应一个权重系数和一个偏差量,类似于一个前馈神经网络的神经元;其中卷积层的算法为:
Figure BDA0002978076000000031
在卷积层进行特征提取后,输出的特征图会被传递至池化层进行特征选择和信息过滤;池化层包含预设定的池化函数,其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量;池化层选取池化区域与卷积核扫描特征图步骤相同,由池化大小、步长和填充控制;其一般表示形式为:
Figure BDA0002978076000000032
卷积神经网络中输出层的上游通常是全连接层,其结构和工作原理与传统前馈神经网络中的输出层相同。
多角度信息聚合方法是一种多视角人体坐标系转换方法,具体形式为代数三角变换;使用三角变换来单独处理每个关节j;是建立在2D坐标中的三角变换方法之上,其中人体关节坐标的信息来自于动作识别框架中不同角度的热度图;Hc,j=hθ(Ic)j为了估计2D关节位置信息,首先计算空间轴上的softmax层:
Figure BDA0002978076000000033
其次计算各个节点的2D位置信息热度图的中心位置作为该节点为位置预估,叫做soft-argmax;
Figure BDA0002978076000000034
Soft-argmax的一个重要特征就是不获取最大特征的索引,方便热度图Hc进行梯度反向传播;二维人体识别框架使用Loss进行预训练,通过把热度图和反转热度参数α相乘来调整图中关节热度,soft-argmax的训练过程的开始阶段就输出了最大可能的位置;
从2D关节位置信息xc,j推断三维关节位置信息,使用线性三角变换方法,该方法减少了对关节yj的3D坐标的搜索量,解决了关节y的齐次3D坐标矢量上的超定方程组:
Ajyj=0
其中
Figure BDA0002978076000000041
是xc,j的投射矩阵。
所述线性三角变换方法为:假设每个视图的关节坐标彼此独立,因此都对三角变化做出了可比的贡献;不同角度下对应的系数矩阵的可学习权重wc
Figure BDA0002978076000000042
wj=(ω1,j2,j,…,ωC,j);°运算符表示Hadamard乘积,权重ωc,j是卷积神经网络
Figure BDA0002978076000000043
所输出的结果:
Figure BDA0002978076000000044
该方法的输入是一组具有已知相机参数的RGB图像;2D人体识别算法产生关节的热图和相机关节的置信度,通过应用soft-argmax,可从2D关节热图推断出关节的2D位置,2D位置和置信度一起传递到代数三角变换模块,该模块输出三角剖分的3D姿态,所有模块都允许反向传播梯度,因此可以端到端地训练模型。
单视图3D姿势估计第一类的优势是:简单,快速,可以在运动捕获数据上进行训练(带有骨架/视图增强),并且可以在训练后切换2D骨架;
其中多视图3D姿势估计的优势是:这种方法可以有效地使用来自不同视图的信息,并可以在运动捕获数据上进行训练。
实际上目前主流研究中,很少有研究在多视图设置中使用体积姿势表示。具体来说,利用2D关键点概率热图(从预先训练的2D关键点检测器获得)的未投影到体积以及随后的不可学习的聚合。我们的工作在两个方面有所不同。首先,我们以可学习的方式处理卷内的信息。其次,我们对网络进行端到端训练,从而调整2D主干网并减轻2D热图可解释性的需求。这允许将几个自洽的姿势假设从2D检测器转移到体积聚集阶段(以前的设计是不可能的)。
也有研究使用了一个多阶段方法,先于外部3D姿态从2D关节的坐标推断出3D姿态。在第一阶段中,所有视图的图像都通过深度卷积神经网络传递,以获得2D关节的热图。热图中的最大值位置通过优化3D姿态先验空间中的潜在坐标,共同用于推断3D姿态。在随后的每个阶段,将3D姿势重新投影到所有摄影机视图,并与来自上一层的预测(通过卷积网络)融合在一起。接下来,根据热图最大值的位置重新估算3D姿态,然后重复该过程。这样的程序允许通过对人体姿势的间接整体推理来校正2D联合热图的预测。与我们的方法相反,有的研究没有从3D预测到2D热图的梯度流,因此没有直接信号来校正3D坐标的预测。
一种多视角情况下的3D人体动作识别算法,是在多摄像头条件下,在固定帧的范围内三维空间下人体动作的识别,动作检测框架可以作为一个统一的识别框架同时识别2D和3D中的人体动作,通过该框架,可以快速的将2D动作识别扩展到3D动作识别。我们在三维空间中使用此框架添加从图片中获取到的人体骨骼,关节,和各种约束。
关于动作识别框架,假设我们已经使用投影矩阵同步了C个摄像机至统一的全局坐标系下,方便获取场景中人体数据;我们的目标是估计全局坐标系下的在时间t下,关节j∈(1…,J)的人体三维关节点位的位置yj,t。对每帧来说,我们使用现成的2D人体检测算法或者数据集中自带的边界框来剪裁图像。随后我们使用剪裁后的图像Ic作为训练数据传递到深度卷积神经网络框架。
关于深度卷积神经网络框架由ResNet-152(参数权重为θ,网络输出为gθ),一系列输出中间热度图的转置卷积层(输出为fθ)和一个使用1×1大小的核把中间热度图转换成可解释的关节热度图的卷积神经网络(输出为hθ,输出维度和关节数量相同)。
本发明的优点是:提出一种多视角情况下的3D人体动作识别算法,是通过采用计算机视觉识别算法对涉及人体的动作进行检测和识别并将其转换为用户可理解的数据展示。
附图说明
图1为本发明一个实施例中从多角度识别人体动作的方法的示意图;
图2为本发明一个实施例中深度卷积神经网络的结构示意图;
图3为本发明一个实施例中多角度信息聚合方法的结构示意图。
具体实施方式
本发明提出一种多视角情况下的3D人体动作识别算法,其特征在于:该人体动作识别算法分为单视图3D姿势估计和多视图3D姿势估计;
关于单视图3D姿势估计可以分为两个子类别,第一类使用高质量的2D姿态估计引擎,随后通过深度神经网络(完全连接,卷积或递归)将2D坐标分别提升为3D;第二类使用深度卷积神经网络直接从图像推断3D坐标;本发明使用的是第一类方法作为主框架,使用深度卷积神经网络作为高质量的2D姿态估计引擎。
深度卷积神经网络
深度卷积神经网络是一类包含数学中的卷积计算且具有多层深度结构的前馈神经网络,是深度学***移不变分类,因此也被称为“平移不变人工神经网络”。近年来,卷积神经网络在各个图像识别大赛上大放异彩。所以,本发明使用深度卷积神经网络作为2D姿态估计引擎,关于卷积神经网络的结构图如图2所示。
深度卷积神经网络的输入层可以处理多维数据,常见地,一维卷积神经网络的输入层接收一维或二维数组甚至三维数据,其中一维数组可能通常为时间序列数据;二维数组大多数为灰度图;二维卷积神经网络的输入层接收RGB图像的三维数组。
深度卷积神经网络的隐含层包含卷积层、池化层和全连接层3类常见结构。在常见构筑中,卷积层和池化层为深度卷积神经网络特有。卷积层中的卷积核包含权重系数,而池化层不包含权重系数。卷积层的功能是对输入数据进行特征提取,其内部包含多个卷积核,组成卷积核的每个元素都对应一个权重系数和一个偏差量,类似于一个前馈神经网络的神经元。其中卷积层的算法为:
Figure BDA0002978076000000061
在卷积层进行特征提取后,输出的特征图会被传递至池化层进行特征选择和信息过滤。池化层包含预设定的池化函数,其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量。池化层选取池化区域与卷积核扫描特征图步骤相同,由池化大小、步长和填充控制。其一般表示形式为:
Figure BDA0002978076000000071
卷积神经网络中输出层的上游通常是全连接层,因此其结构和工作原理与传统前馈神经网络中的输出层相同。对于人体动作识别问题,输出层是不同动作的分类标签,具体表现形式如图2所示。
关于多视图3D姿势估计,旨在获得单眼3D人体姿势估计的真实注释,将所有视图中的关节2D坐标串联为一个批次,作为对完全连接的网络的输入,该网络经过训练可以预测全局3D关节坐标。其中将2D坐标串联到同一个坐标系下的方法称为多角度信息聚合方法。多角度信息聚合方法是本发明提出的新的多视角人体坐标系转换方法。
多角度信息聚合方法
多角度信息聚合方法具体形式为代数三角变换。我们可以使用三角变换来单独处理每个关节j。此方法建立在2D坐标中的三角变换方法之上,其中人体关节坐标的信息来自于动作识别框架中不同角度的热度图。Hc,j=hθ(Ic)j.为了估计2D关节位置信息,我们首先计算空间轴上的softmax层:
Figure BDA0002978076000000072
参数α后续会讨论,随后我们计算各个节点的2D位置信息热度图的中心位置作为该节点为位置预估(所以叫做soft-argmax)。
Figure BDA0002978076000000073
Soft-argmax的一个重要特征就是不获取最大特征的索引,这样就方便热度图Hc进行梯度反向传播。因为二维人体识别框架使用Loss进行预训练。我们通过把热度图和反转热度参数α相乘来调整图中关节热度,所以soft-argmax的训练过程的开始阶段就输出了最大可能的位置。
为了从2D关节位置信息xc,j推断三维关节位置信息,我们使用了线性三角变换方法。该方法减少了对关节yj的3D坐标的搜索量,从而解决了关节y的齐次3D坐标矢量上的超定方程组:
Ajyj=0
其中
Figure BDA0002978076000000081
是xc,j的投射矩阵。
朴素的三角变换算法假设每个视图的关节坐标彼此独立,因此都对三角变化做出了可比的贡献。但是,在某些视图上,关节的2D位置无法可靠估计(例如,由于关节闭塞),从而导致最终三角变换结果不尽人意。这极大地加剧了优化代数重投影误差的方法趋向于对不同方向上的不均衡程度的趋势。可以通过将RANSAC与Huber损失一起使用(用于对与内部误差相对应的重投影误差进行评分)来解决该问题。但是,这有相对于的缺点。例如,使用RANSAC可能会完全切断到排除摄像机的梯度流。为了解决以上提到的文通,我们附加了不同角度下对应的系数矩阵的可学习权重wc
Figure BDA0002978076000000082
wj=(ω1,j2,j,…,ωC,j);°运算符表示Hadamard乘积。权重ωc,j是卷积神经网络
Figure BDA0002978076000000083
所输出的结果。
Figure BDA0002978076000000084
基于具有学习置信度的三角变换方法的概述。该方法的输入是一组具有已知相机参数的RGB图像。2D人体识别算法产生关节的热图和相机关节的置信度。通过应用soft-argmax,可从2D关节热图推断出关节的2D位置。2D位置和置信度一起传递到代数三角变换模块,该模块输出三角剖分的3D姿态。所有模块都允许反向传播梯度,因此可以端到端地训练模型。
关于本发明的应用场景,随着现代网络技术与计算机技术的快速发展,人们逐渐走向了信息化与智能化时代。人体姿态识别技术是通过利用计算机对输入的视频或者图像序列进行处理,分析和理解,最终得到人体姿态的高级语义解释与自动判断结果的一个过程。人体姿态识别技术在智能楼宇监控,运动物体分析,虚拟现实,感知接口,电影以及游戏动作录制以及军事目标识别等多个领域有着广泛的应用和发展前景。本发明中的人体姿态是基于人体骨架特征来进行识别的,骨架是物体的一种拓扑结构描述方式,它被广泛地应用于道路探询,路径规划和特征识别等领域。本发明主要工作目标和工作内容是寻找一种计算简便的框架。随着现代网络技术与计算机技术的快速发展,人们逐渐走向了信息化与智能化时代。人体姿态识别技术是通过利用计算机对输入的视频或者图像序列进行处理,分析和理解,最终得到人体姿态的高级语义解释与自动判断结果的一个过程。人体姿态识别技术在智能楼宇监控,运动物体分析,虚拟现实,感知接口以及军事目标识别等多个领域有着广泛的应用和发展前景。
关于骨骼跟踪原理和我们的研究之间的联系,普通的骨骼跟踪原理简单的使用了单一摄像头的图片信息,采用普通的CNN网络直接对其拟合,其效果完全取决于数据集的丰富性。由于人体肢体遮挡等问题,我们采用了多摄像头解决看不见的肢体识别问题,通过采用高准确度的2D姿势估计并通过三角变换转换成了3D的姿势,提高了识别结果的准确性。
本发明介绍了两种基于可学***滑的姿态序列,它可以潜在地改善目标数据集的标注问题。我们推测,由于该方法在学习人的姿势具有透视能力,因此对人的遮挡和部分视图具有鲁棒性。该方法的另一个重要优点是,它明确地将摄像机参数作为独立输入。最后,如果已知人类的大概位置,则体积三角剖分也可以推广到单眼图像,从而产生接近最新技术的结果。

Claims (4)

1.一种多视角情况下的3D人体动作识别算法,其特征在于:该人体动作识别算法分为单视图3D姿势估计和多视图3D姿势估计:
关于单视图3D姿势估计分为两个子类别,第一类使用高质量的2D姿态估计引擎,随后通过完全连接,卷积或递归的深度神经网络将2D坐标分别提升为3D;第二类使用深度卷积神经网络直接从图像推断3D坐标;3D人体动作识别算法使用的是第一类方法作为主框架,使用深度卷积神经网络作为高质量的2D姿态估计引擎;
关于多视图3D姿势估计,旨在获得单眼3D人体姿势估计的真实注释,将所有视图中的关节2D坐标串联为一个批次,作为对完全连接的网络的输入,该网络经过训练能够预测全局3D关节坐标;其中将2D坐标串联到同一个坐标系下的方法称为多角度信息聚合方法。
2.根据权利要求1所述的一种多视角情况下的3D人体动作识别算法,其特征在于:
所述深度卷积神经网络是一类包含数学中的卷积计算且具有多层深度结构的前馈神经网络,多维数据可以作为深度卷积神经网络的输入层的输入,我们将一维数据或者二维数据作为输入传递给深度卷积神经网络的输入层,其中一维数组通常为时间序列数据;二维数组大多数为灰度图;本发明采用的卷积神经网络的输入层接收RGB图像的三维数组;
深度卷积神经网络的隐含层包含卷积层、池化层和全连接层3类结构;卷积层中的卷积核包含权重系数,池化层不包含权重系数,卷积层的功能是对输入数据进行特征提取,其内部包含多个卷积核,组成卷积核的每个元素都对应一个权重系数和一个偏差量,类似于一个前馈神经网络的神经元;其中卷积层的算法为:
Figure FDA0002978075990000011
在卷积层进行特征提取后,输出的特征图会被传递至池化层进行特征选择和信息过滤;池化层包含预设定的池化函数,其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量;池化层选取池化区域与卷积核扫描特征图步骤相同,由池化大小、步长和填充控制;其一般表示形式为:
Figure FDA0002978075990000021
卷积神经网络中输出层的上游通常是全连接层,其结构和工作原理与传统前馈神经网络中的输出层相同。
3.根据权利要求1所述的一种多视角情况下的3D人体动作识别算法,其特征在于:
多角度信息聚合方法是一种多视角人体坐标系转换方法,具体形式为代数三角变换;使用三角变换来单独处理每个关节j;是建立在2D坐标中的三角变换方法之上,其中人体关节坐标的信息来自于动作识别框架中不同角度的热度图;Hc,j=hθ(Ic)j为了估计2D关节位置信息,首先计算空间轴上的softmax层:
Figure FDA0002978075990000022
其次计算各个节点的2D位置信息热度图的中心位置作为该节点为位置预估,叫做soft-argmax;
Figure FDA0002978075990000023
Soft-argmax的一个重要特征就是不获取最大特征的索引,方便热度图Hc进行梯度反向传播;二维人体识别框架使用Loss进行预训练,通过把热度图和反转热度参数α相乘来调整图中关节热度,soft-argmax的训练过程的开始阶段就输出了最大可能的位置;
从2D关节位置信息xc,j推断三维关节位置信息,使用线性三角变换方法,该方法减少了对关节yj的3D坐标的搜索量,解决了关节y的齐次3D坐标矢量上的超定方程组:
Ajyj=0
其中
Figure FDA0002978075990000024
是xc,j的投射矩阵。
4.根据权利要求1所述的一种多视角情况下的3D人体动作识别算法,其特征在于:
所述线性三角变换方法为:假设每个视图的关节坐标彼此独立,因此都对三角变化做出了可比的贡献;不同角度下对应的系数矩阵的可学习权重wc
Figure FDA0002978075990000031
wj=(ω1,j2,j,…,ωC,j);
Figure FDA0002978075990000032
运算符表示Hadamard乘积,权重ωc,j是卷积神经网络
Figure FDA0002978075990000033
所输出的结果:
Figure FDA0002978075990000034
该方法的输入是一组具有已知相机参数的RGB图像;2D人体识别算法产生关节的热图和相机关节的置信度,通过应用soft-argmax,可从2D关节热图推断出关节的2D位置,2D位置和置信度一起传递到代数三角变换模块,该模块输出三角剖分的3D姿态,所有模块都允许反向传播梯度,因此可以端到端地训练模型。
CN202110280476.5A 2021-03-16 2021-03-16 一种多视角情况下的3d人体动作识别算法 Active CN114036969B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110280476.5A CN114036969B (zh) 2021-03-16 2021-03-16 一种多视角情况下的3d人体动作识别算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110280476.5A CN114036969B (zh) 2021-03-16 2021-03-16 一种多视角情况下的3d人体动作识别算法

Publications (2)

Publication Number Publication Date
CN114036969A true CN114036969A (zh) 2022-02-11
CN114036969B CN114036969B (zh) 2023-07-25

Family

ID=80134245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110280476.5A Active CN114036969B (zh) 2021-03-16 2021-03-16 一种多视角情况下的3d人体动作识别算法

Country Status (1)

Country Link
CN (1) CN114036969B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863556A (zh) * 2022-04-13 2022-08-05 上海大学 一种基于骨骼姿态的多神经网络融合连续动作识别方法
CN116310217A (zh) * 2023-03-15 2023-06-23 精创石溪科技(成都)有限公司 基于三维数字图像相关法的人体运动中肌肉动态评估方法
CN116403288A (zh) * 2023-04-28 2023-07-07 中南大学 运动姿态的识别方法、识别装置及电子设备

Citations (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120163675A1 (en) * 2010-12-22 2012-06-28 Electronics And Telecommunications Research Institute Motion capture apparatus and method
US20130271458A1 (en) * 2012-04-11 2013-10-17 Disney Enterprises, Inc. Modeling human-human interactions for monocular 3d pose estimation
US20150278589A1 (en) * 2014-03-27 2015-10-01 Avago Technologies General Ip (Singapore) Pte. Ltd. Image Processor with Static Hand Pose Recognition Utilizing Contour Triangulation and Flattening
CN106780569A (zh) * 2016-11-18 2017-05-31 深圳市唯特视科技有限公司 一种人体姿态估计行为分析方法
CN107945282A (zh) * 2017-12-05 2018-04-20 洛阳中科信息产业研究院(中科院计算技术研究所洛阳分所) 基于对抗网络的快速多视角三维合成和展示方法及装置
CN108389227A (zh) * 2018-03-01 2018-08-10 深圳市唯特视科技有限公司 一种基于多视图深感知器框架的三维姿势估计方法
CN108460338A (zh) * 2018-02-02 2018-08-28 北京市商汤科技开发有限公司 人体姿态估计方法和装置、电子设备、存储介质、程序
CN109087329A (zh) * 2018-07-27 2018-12-25 中山大学 基于深度网络的人体三维关节点估计框架及其定位方法
US20190147245A1 (en) * 2017-11-14 2019-05-16 Nuro, Inc. Three-dimensional object detection for autonomous robotic systems using image proposals
CN110427877A (zh) * 2019-08-01 2019-11-08 大连海事大学 一种基于结构信息的人体三维姿态估算的方法
CN110543581A (zh) * 2019-09-09 2019-12-06 山东省计算中心(国家超级计算济南中心) 基于非局部图卷积网络的多视图三维模型检索方法
CN110598590A (zh) * 2019-08-28 2019-12-20 清华大学 基于多视角相机的紧密交互人体姿态估计方法及装置
CN110766746A (zh) * 2019-09-05 2020-02-07 南京理工大学 一种基于联合2d-3d神经网络的3d驾驶员姿态估计方法
CN111382300A (zh) * 2020-02-11 2020-07-07 山东师范大学 基于组对深度特征学习的多视图三维模型检索方法及***
US20200234398A1 (en) * 2019-01-22 2020-07-23 Fyusion, Inc Extraction of standardized images from a single view or multi-view capture
CN111523377A (zh) * 2020-03-10 2020-08-11 浙江工业大学 一种多任务的人体姿态估计和行为识别的方法
CN111583386A (zh) * 2020-04-20 2020-08-25 清华大学 基于标签传播算法的多视角人体姿态重建方法
CN111738220A (zh) * 2020-07-27 2020-10-02 腾讯科技(深圳)有限公司 三维人体姿态估计方法、装置、设备及介质
CN111815757A (zh) * 2019-06-29 2020-10-23 浙江大学山东工业技术研究院 基于图像序列的大型构件三维重建方法
US20200342270A1 (en) * 2019-04-26 2020-10-29 Tata Consultancy Services Limited Weakly supervised learning of 3d human poses from 2d poses
US10853970B1 (en) * 2019-03-22 2020-12-01 Bartec Corporation System for estimating a three dimensional pose of one or more persons in a scene
WO2020250046A1 (en) * 2019-06-14 2020-12-17 Wrnch Inc. Method and system for monocular depth estimation of persons
US20210019507A1 (en) * 2019-07-19 2021-01-21 Sri International Centimeter human skeleton pose estimation
CN112329513A (zh) * 2020-08-24 2021-02-05 苏州荷露斯科技有限公司 一种基于卷积神经网络的高帧率3d体态识别方法

Patent Citations (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120163675A1 (en) * 2010-12-22 2012-06-28 Electronics And Telecommunications Research Institute Motion capture apparatus and method
US20130271458A1 (en) * 2012-04-11 2013-10-17 Disney Enterprises, Inc. Modeling human-human interactions for monocular 3d pose estimation
US20150278589A1 (en) * 2014-03-27 2015-10-01 Avago Technologies General Ip (Singapore) Pte. Ltd. Image Processor with Static Hand Pose Recognition Utilizing Contour Triangulation and Flattening
CN106780569A (zh) * 2016-11-18 2017-05-31 深圳市唯特视科技有限公司 一种人体姿态估计行为分析方法
US20190147245A1 (en) * 2017-11-14 2019-05-16 Nuro, Inc. Three-dimensional object detection for autonomous robotic systems using image proposals
CN107945282A (zh) * 2017-12-05 2018-04-20 洛阳中科信息产业研究院(中科院计算技术研究所洛阳分所) 基于对抗网络的快速多视角三维合成和展示方法及装置
CN108460338A (zh) * 2018-02-02 2018-08-28 北京市商汤科技开发有限公司 人体姿态估计方法和装置、电子设备、存储介质、程序
CN108389227A (zh) * 2018-03-01 2018-08-10 深圳市唯特视科技有限公司 一种基于多视图深感知器框架的三维姿势估计方法
CN109087329A (zh) * 2018-07-27 2018-12-25 中山大学 基于深度网络的人体三维关节点估计框架及其定位方法
US20200234398A1 (en) * 2019-01-22 2020-07-23 Fyusion, Inc Extraction of standardized images from a single view or multi-view capture
US10853970B1 (en) * 2019-03-22 2020-12-01 Bartec Corporation System for estimating a three dimensional pose of one or more persons in a scene
US20200342270A1 (en) * 2019-04-26 2020-10-29 Tata Consultancy Services Limited Weakly supervised learning of 3d human poses from 2d poses
WO2020250046A1 (en) * 2019-06-14 2020-12-17 Wrnch Inc. Method and system for monocular depth estimation of persons
CN111815757A (zh) * 2019-06-29 2020-10-23 浙江大学山东工业技术研究院 基于图像序列的大型构件三维重建方法
US20210019507A1 (en) * 2019-07-19 2021-01-21 Sri International Centimeter human skeleton pose estimation
CN110427877A (zh) * 2019-08-01 2019-11-08 大连海事大学 一种基于结构信息的人体三维姿态估算的方法
CN110598590A (zh) * 2019-08-28 2019-12-20 清华大学 基于多视角相机的紧密交互人体姿态估计方法及装置
CN110766746A (zh) * 2019-09-05 2020-02-07 南京理工大学 一种基于联合2d-3d神经网络的3d驾驶员姿态估计方法
CN110543581A (zh) * 2019-09-09 2019-12-06 山东省计算中心(国家超级计算济南中心) 基于非局部图卷积网络的多视图三维模型检索方法
CN111382300A (zh) * 2020-02-11 2020-07-07 山东师范大学 基于组对深度特征学习的多视图三维模型检索方法及***
CN111523377A (zh) * 2020-03-10 2020-08-11 浙江工业大学 一种多任务的人体姿态估计和行为识别的方法
CN111583386A (zh) * 2020-04-20 2020-08-25 清华大学 基于标签传播算法的多视角人体姿态重建方法
CN111738220A (zh) * 2020-07-27 2020-10-02 腾讯科技(深圳)有限公司 三维人体姿态估计方法、装置、设备及介质
CN112329513A (zh) * 2020-08-24 2021-02-05 苏州荷露斯科技有限公司 一种基于卷积神经网络的高帧率3d体态识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ROSS A. CLARK ET.AL: "Three-dimensional cameras and skeleton pose tracking for physical function assessment: A review of uses, validity, current developments and Kinect alternatives", 《GAIT & POSTURE》, vol. 68, pages 193 - 200 *
曹明伟: "数据驱动的多视图三维重建", 《中国博士学位论文全文数据库 信息科技辑》 *
陈秋敏: "基于深度学习的多视图物体三维重建研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863556A (zh) * 2022-04-13 2022-08-05 上海大学 一种基于骨骼姿态的多神经网络融合连续动作识别方法
CN116310217A (zh) * 2023-03-15 2023-06-23 精创石溪科技(成都)有限公司 基于三维数字图像相关法的人体运动中肌肉动态评估方法
CN116310217B (zh) * 2023-03-15 2024-01-30 精创石溪科技(成都)有限公司 基于三维数字图像相关法的人体运动中肌肉动态评估方法
CN116403288A (zh) * 2023-04-28 2023-07-07 中南大学 运动姿态的识别方法、识别装置及电子设备

Also Published As

Publication number Publication date
CN114036969B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN110135375B (zh) 基于全局信息整合的多人姿态估计方法
CN111968217B (zh) 基于图片的smpl参数预测以及人体模型生成方法
CN114036969B (zh) 一种多视角情况下的3d人体动作识别算法
WO2017133009A1 (zh) 一种基于卷积神经网络的深度图像人体关节定位方法
CN106780543B (zh) 一种基于卷积神经网络的双框架估计深度和运动方法
CN107204010A (zh) 一种单目图像深度估计方法与***
CN107871106A (zh) 人脸检测方法和装置
CN111062326B (zh) 一种基于几何驱动的自监督人体3d姿态估计网络训练方法
CN112232134B (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
CN110399809A (zh) 多特征融合的人脸关键点检测方法及装置
CN113205595B (zh) 一种3d人体姿态估计模型的构建方法及其应用
CN110781736A (zh) 基于双流网络将姿态和注意力相结合的行人重识别方法
CN111199207B (zh) 基于深度残差神经网络的二维多人体姿态估计方法
CN112037310A (zh) 基于神经网络的游戏人物动作识别生成方法
CN113989928B (zh) 一种动作捕捉和重定向方法
CN111191630A (zh) 适用于智能交互观演场景的演艺动作识别方法
Liu Aerobics posture recognition based on neural network and sensors
CN111598995B (zh) 一种基于原型分析的自监督多目三维人体姿态估计方法
CN114882493A (zh) 一种基于图像序列的三维手部姿态估计与识别方法
Fu et al. CBAM-SLAM: A semantic slam based on attention module in dynamic environment
Yang et al. Human action recognition based on skeleton and convolutional neural network
Kurmankhojayev et al. Monocular pose capture with a depth camera using a Sums-of-Gaussians body model
CN115496859A (zh) 基于散乱点云交叉注意学习的三维场景运动趋势估计方法
CN112419387B (zh) 一种日光温室番茄植株图像无监督深度估计方法
CN114548224A (zh) 一种用于强交互人体运动的2d人***姿生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant