CN117593762A - 一种融合视觉和压力的人体姿态估计方法、设备及介质 - Google Patents

一种融合视觉和压力的人体姿态估计方法、设备及介质 Download PDF

Info

Publication number
CN117593762A
CN117593762A CN202311302990.XA CN202311302990A CN117593762A CN 117593762 A CN117593762 A CN 117593762A CN 202311302990 A CN202311302990 A CN 202311302990A CN 117593762 A CN117593762 A CN 117593762A
Authority
CN
China
Prior art keywords
pressure
human body
convolution
layers
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311302990.XA
Other languages
English (en)
Inventor
应恩挺
郭珏
郭诗辉
石祥仁
邱明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202311302990.XA priority Critical patent/CN117593762A/zh
Publication of CN117593762A publication Critical patent/CN117593762A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01LMEASURING FORCE, STRESS, TORQUE, WORK, MECHANICAL POWER, MECHANICAL EFFICIENCY, OR FLUID PRESSURE
    • G01L5/00Apparatus for, or methods of, measuring force, work, mechanical power, or torque, specially adapted for specific purposes
    • G01L5/0028Force sensors associated with force applying means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明涉及一种融合视觉和压力的人体姿态估计方法、设备及介质,该方法中利用单目相机获取的图像数据和传感器获取的压力数据,并通过构建融合图像特征和压力特征的人体姿态识别模型,基于深度学习和数据融合,实现对人体姿态的三维估计。本发明相比于现有的方法,实现了更准确的3D人体姿势估计。

Description

一种融合视觉和压力的人体姿态估计方法、设备及介质
技术领域
本发明涉及计算机视觉领域,尤其涉及一种融合视觉和压力的人体姿态估计方法、设备及介质。
背景技术
近年来,3D人体姿态估计技术在多个领域(如人机交互、虚拟现实、增强现实和医疗康复等)逐渐显现出其重要性。这项技术能够追踪和定位人体各个关节在三维空间中的姿态,为实时互动、运动分析、医疗康复等应用提供关键支持。
当前,人们为了提高3D人体姿态的估计准确度,将对人体姿态估计的研究主要集中在深度卷积神经网络的设计上。然而,这些方法存在一些局限,特别是在全局信息获取方面效果不佳。考虑到人体姿态可视为图结构,其中关节作为节点,骨骼作为边,图神经网络(GNN)应运而生,一些研究使用全连接网络和GNN编码局部关节间的关系。近年来,具备强大全局自注意力能力的Transformer模型也逐渐引起关注。然而,无论采用哪一种算法来进行预测,其估计结果中均存在着下半身识别不准确的问题。这是由于在仅使用单目相机这一条件下,其无法直接获取深度信息,进而导致估计结果中出现脚部漂浮或偏移等问题。这种问题在动态场景、复杂姿态和下半身姿态时尤为突出,这限制了方法的准确性和适用性。
在传感领域,有一些工作研究通过人与周围环境之间的压力信息来探索人类活动,这些研究进一步显示了压力传感技术在人体姿态估计领域的潜力和重要性。然而,这些方法主要适用于那些需要广泛与传感表面接触的姿势,例如躺卧的姿态。对于绝大多数日常生活中主要涉及到脚与传感表面接触的姿势而言,这种方式并不适用。这种局限通常导致对于上半身姿势的估计不准确,因为上半身部位,如手臂和头部,通常不会显著地影响来自脚部的触觉信号。
因此,单纯依赖视觉或压力方法都是不够可靠的。
发明内容
为了解决上述问题,本发明提出了一种融合视觉和压力的人体姿态估计方法、设备及介质。
具体方案如下:
一种融合视觉和压力的人体姿态估计方法,包括以下步骤:
S1:通过单目相机采集待测区域的视频帧图像,通过压力传感器采集待测区域的压力分布数据,将同一时间段内的视频帧图像序列和压力分布数据序列组成训练集;
S2:构建人体姿态识别模型,通过训练集对模型进行训练;
模型包括图像特征提取模块、压力特征提取模块和多模态特征融合模块;
图像特征提取模块的输入为视频帧图像序列,其网络结构依次包括:第一卷积层、最大池化层、五组残差模块和第二卷积层,且第一卷积层和第二卷积层后面均连接激活函数批量归一化和带泄露线性整流函数;
压力特征提取模块的输入为压力分布数据序列,其网络结构包括7层卷积层,其中第2、4和7层卷积层之后连接最大池化层;
多模态特征融合模块的输入为图像特征提取模块的输出和压力特征提取模块的输出融合后的特征,其网络结构包括5层卷积层,并在5层卷积层的中间***一层转换层,以增加特征的分辨率;5层卷积层的前4层卷积层和中间的转换层之后均连接激活函数批量归一化和带泄露线性整流函数,最后一层卷积层之后连接S型激活函数;
S3:通过训练后的模型对人体姿态进行估计。
进一步的,图像特征提取模块中的五组残差模块中每组包含的残差块数量分别为:三个、四个、六个、三个和一个,每个残差块内部均包含两个1×1的卷积核和一个内核大小为3×3、填充为1的卷积核。
进一步的,图像特征提取模块中的第一卷积层中卷积核的内核大小为7×7,设定步长为2,最大池化层大小为3×3,且设定步长为2,第二卷积层中卷积核的内核大小为3×4。
进一步的,压力特征提取模块包括的7层卷积层中,前5层和第7层卷积层使用大小为3×3的内核和大小为1×1的填充,第6层卷积层使用大小为7×7的内核,没有填充;所应用的最大池化层大小均为2×2。
进一步的,多模态特征融合模块包括的5层卷积层中每层的内核大小为3×3×3,填充为1×1×1;中间层的内核大小为2×2×2,且设定的步长为2。
进一步的,模型的损失函数为:
其中,N表示人体关键点的数量,i表示人体关键点的序号,N-1为人体骨架中的骨骼数量,Hi表示3D关键点置信图的真实值,表示3D关键点置信图的预测值,/>表示偏差值,Ki为根据模型预测结果计算出的骨骼长度,/>和/>分别表示预设的骨骼长度的最小值和最大值,||.||表示L2范数。
进一步的,通过压力传感器采集待测区域的压力分布数据的方式为:在待测区域布设均与布设多块压力传感器,将所有压力传感器采集的数据进行拼接组成压力分布数据。
进一步的,还包括对用于拼接的数据通过线性回归方法进行转准和对拼接后的压力分布数据进行降噪处理。
一种融合视觉和压力的人体姿态估计终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。
本发明采用如上技术方案,相比于现有的方法,本发明综合利用视觉和压力传感器数据,以及深度学习等先进技术,实现了更准确的3D人体姿势估计。
附图说明
图1所示为本发明实施例一的流程图。
图2所示为该实施例中压力传感器的布设示意图。
图3所示为该实施例中模型的网络概要图。
图4所示为该实施例中模型的网络结构示意图。
图5所示为该实施例中实验定量效果图。
图6所示为该实施例中实验定性效果图。
具体实施方式
为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。
现结合附图和具体实施方式对本发明进一步说明。
实施例一:
本发明实施例提供了一种融合视觉和压力的人体姿态估计方法,如图1所示,所述方法包括以下步骤:
S1:通过单目相机采集待测区域的视频帧图像,通过压力传感器采集待测区域的压力分布数据,将同一时间段内的视频帧图像序列和压力分布数据序列组成训练集。
单目相机可压力传感器均可以通过USB接口与终端设备连接。本实施例中单目相机以30fps的帧率以及720p的分辨率捕获视频数据。在压力传感器的布设中,可以根据待测区域的大小,将多个压力传感器均匀分布在待测区域内,如本实施例中在待测区域布设4块压力传感器,如图2所示,则采集的压力分布数据由4块压力传感器的数据拼接组成。在压力传感器的数据拼接中,可以根据压力数据记录的方向和压力传感器的物理位置进行拼接。进一步的,为了提高后续姿态估计的准确性,本实施例中包括对拼接前的数据通过线性回归方法进行转准和对拼接后的压力分布数据进行降噪处理,即剔除其中的噪声数据,具体方式可以采用现有的分箱方法,将压力数据通过bin均值进行平滑处理,一个bin内的每个值都被属于同一bin的所有值的平均值代替。
训练集中的每个训练数据均包括一个视频帧图像序列和一个压力分布数据序列,训练数据的标签为该时间段内的人体姿态对应的关键点图像。
S2:构建人体姿态识别模型,通过训练集对模型进行训练。
如图3和4所示,本实施例中人体姿态识别模型包括图像特征提取模块、压力特征提取模块和多模态特征融合模块。
(1)图像特征提取模块的输入为视频帧图像序列,其网络结构依次包括:第一卷积层、最大池化层、五组残差模块和第二卷积层,且第一卷积层和第二卷积层后面均连接激活函数批量归一化和带泄露线性整流函数。通过将激活函数批量归一化和带泄露线性整流函数放置在权重层之前,可以简化模型的训练过程,并提高模型的泛化能力。
本实施例中第一卷积层中卷积核的内核大小为7×7,设定步长为2,最大池化层大小为3×3,且设定步长为2,第二卷积层中卷积核的内核大小为3×4,第二卷积层用于将图像特征映射到适合后续特征融合的大小。五组残差模块中每组包含的残差块数量分别为:三个、四个、六个、三个和一个,每个残差块内部均包含两个1×1的卷积核和一个内核大小为3×3、填充为1的卷积核。最大池化层的大小为3×3、步长为2,用于将输入的图像数据降低为160×180的特征图。
(2)压力特征提取模块的输入为压力分布数据序列,其网络结构包括7层卷积层,其中第2、4和7层卷积层之后连接最大池化层。
本实施例中前5层和第7层卷积层使用大小为3×3的内核和大小为1×1的填充,第6层卷积层使用更大的内核(即大小为7×7的内核),没有填充,且所应用的最大池化层大小均为2×2。
(3)多模态特征融合模块的输入为图像特征提取模块的输出和压力特征提取模块的输出融合后的特征,其网络结构包括5层卷积层,并在5层卷积层的中间(如图4中在第2层和第3层之间***)***一层转换层,以增加特征的分辨率;5层卷积层的前4层卷积层和中间的转换层之后均连接激活函数批量归一化和带泄露线性整流函数,最后一层卷积层之后连接S型激活函数(Sigmoid)最终回归得到3D关键点的置信度。
在两种特征的融合中,可以按照x-y-z的体素空间顺序进行重新构建。压力数据的特征大小变为1024×8×8×1,而图像特征大小变为1024×8×1×10。然后,将这两种特征进行相乘,得到一个大小为1024×8×8×10新的3D融合特征。
本实施例在5层卷积层中,每层的内核大小为3×3×3、填充为1×1×1;中间的转换层中采用2×2×2的内核大小,且设定的步长为2,以将特征分辨率从8×8×10增加到16×16×20。
为了更好的优化模型,本实施例中模型使用Adam优化器,通过最小化关键点置信图的预测值和真实值之间的均方误差来优化模型。
具体的损失函数为:
其中,N表示人体关键点的数量,i表示人体关键点的序号,N-1为人体骨架中的骨骼数量,Hi表示3D关键点置信图的真实值,表示3D关键点置信图的预测值,/>表示偏差值,Ki为根据模型预测结果计算出的骨骼长度,/>和/>分别表示预设的骨骼长度的最小值和最大值,||.||表示L2范数。
S3:通过训练后的模型对人体姿态进行估计。
当需要对人体姿态进行估计时,通过步骤S1的方式得到一段时间内待测区域的视频帧图像序列和压力分布数据序列输入训练后的模型,将模型输出的结果作为人体姿态的估计结果。
为了评估本实施例方法所取得的效果,本实施例中采用定量、定性两种方法进行评估,其中定量方法采用3D人体姿态估计领域内最常用的一种数据指标来评估模型的预测能力,即平均每关节位置误差(Mean Per Joint Position Error,MPJPE)。
图5展示了本发明在定量指标上所取得的成效。相较于Intelligent Carpet方法,本发明在MPJPE数据分布上明显更优,预测效果在各个关键点上显著改善了一个数量级。对上半身和下半身姿态的预测效果更为平衡,整体姿态的精度相差不大,更符合实际应用的需求。此外,相较于其他纯视觉方法,本发明的评估指标均优于这些方法,平均MPJPE为56.0毫米,比纯视觉方法最好的结果(79.6毫米)下降了23.6毫米。对于复杂脚部变化的动作,如“踢踏舞”、“芭蕾舞”和“跳绳”,本发明相比其他方法取得了显著的改进。
图6展示了,本发明在定性指标上所取得的成效,可以从视觉上直观地体现出本发明能提供更精准的3D人体姿态估计的能力。
本发明实施例方法对于不断发展的人机界面,具备重要作用,其在虚拟现实游戏中身临其境的交互、医疗康复领域的姿态监测、体育运动分析的动作评估等领域具有广泛应用前景。
实施例二:
本发明还提供一种融合视觉和压力的人体姿态估计终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。
进一步地,作为一个可执行方案,所述融合视觉和压力的人体姿态估计终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述融合视觉和压力的人体姿态估计终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,上述融合视觉和压力的人体姿态估计终端设备的组成结构仅仅是融合视觉和压力的人体姿态估计终端设备的示例,并不构成对融合视觉和压力的人体姿态估计终端设备的限定,可以包括比上述更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述融合视觉和压力的人体姿态估计终端设备还可以包括输入输出设备、网络接入设备、总线等,本发明实施例对此不做限定。
进一步地,作为一个可执行方案,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述融合视觉和压力的人体姿态估计终端设备的控制中心,利用各种接口和线路连接整个融合视觉和压力的人体姿态估计终端设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述融合视觉和压力的人体姿态估计终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序;存储数据区可存储根据手机的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。
所述融合视觉和压力的人体姿态估计终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)以及软件分发介质等。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。

Claims (10)

1.一种融合视觉和压力的人体姿态估计方法,其特征在于,包括以下步骤:
S1:通过单目相机采集待测区域的视频帧图像,通过压力传感器采集待测区域的压力分布数据,将同一时间段内的视频帧图像序列和压力分布数据序列组成训练集;
S2:构建人体姿态识别模型,通过训练集对模型进行训练;
模型包括图像特征提取模块、压力特征提取模块和多模态特征融合模块;
图像特征提取模块的输入为视频帧图像序列,其网络结构依次包括:第一卷积层、最大池化层、五组残差模块和第二卷积层,且第一卷积层和第二卷积层后面均连接激活函数批量归一化和带泄露线性整流函数;
压力特征提取模块的输入为压力分布数据序列,其网络结构包括7层卷积层,其中第2、4和7层卷积层之后连接最大池化层;
多模态特征融合模块的输入为图像特征提取模块的输出和压力特征提取模块的输出融合后的特征,其网络结构包括5层卷积层,并在5层卷积层的中间***一层转换层,以增加特征的分辨率;5层卷积层的前4层卷积层和中间的转换层之后均连接激活函数批量归一化和带泄露线性整流函数,最后一层卷积层之后连接S型激活函数;
S3:通过训练后的模型对人体姿态进行估计。
2.根据权利要求1所述的融合视觉和压力的人体姿态估计方法,其特征在于:图像特征提取模块中的五组残差模块中每组包含的残差块数量分别为:三个、四个、六个、三个和一个,每个残差块内部均包含两个1×1的卷积核和一个内核大小为3×3、填充为1的卷积核。
3.根据权利要求1所述的融合视觉和压力的人体姿态估计方法,其特征在于:图像特征提取模块中的第一卷积层中卷积核的内核大小为7×7,设定步长为2,最大池化层大小为3×3,且设定步长为2,第二卷积层中卷积核的内核大小为3×4。
4.根据权利要求1所述的融合视觉和压力的人体姿态估计方法,其特征在于:压力特征提取模块包括的7层卷积层中,前5层和第7层卷积层使用大小为3×3的内核和大小为1×1的填充,第6层卷积层使用大小为7×7的内核,没有填充;所应用的最大池化层大小均为2×2。
5.根据权利要求1所述的融合视觉和压力的人体姿态估计方法,其特征在于:多模态特征融合模块包括的5层卷积层中每层的内核大小为3×3×3,填充为1×1×1;中间层的内核大小为2×2×2,且设定的步长为2。
6.根据权利要求1所述的融合视觉和压力的人体姿态估计方法,其特征在于:模型的损失函数为:
其中,N表示人体关键点的数量,i表示人体关键点的序号,N-1为人体骨架中的骨骼数量,Hi表示3D关键点置信图的真实值,表示3D关键点置信图的预测值,/>表示偏差值,Ki为根据模型预测结果计算出的骨骼长度,/>和/>分别表示预设的骨骼长度的最小值和最大值,||.||表示L2范数。
7.根据权利要求1所述的融合视觉和压力的人体姿态估计方法,其特征在于:通过压力传感器采集待测区域的压力分布数据的方式为:在待测区域布设均与布设多块压力传感器,将所有压力传感器采集的数据进行拼接组成压力分布数据。
8.根据权利要求7所述的融合视觉和压力的人体姿态估计方法,其特征在于:还包括对用于拼接的数据通过线性回归方法进行转准和对拼接后的压力分布数据进行降噪处理。
9.一种融合视觉和压力的人体姿态估计终端设备,其特征在于:包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~8中任一所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1~8中任一所述方法的步骤。
CN202311302990.XA 2023-10-10 2023-10-10 一种融合视觉和压力的人体姿态估计方法、设备及介质 Pending CN117593762A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311302990.XA CN117593762A (zh) 2023-10-10 2023-10-10 一种融合视觉和压力的人体姿态估计方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311302990.XA CN117593762A (zh) 2023-10-10 2023-10-10 一种融合视觉和压力的人体姿态估计方法、设备及介质

Publications (1)

Publication Number Publication Date
CN117593762A true CN117593762A (zh) 2024-02-23

Family

ID=89910394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311302990.XA Pending CN117593762A (zh) 2023-10-10 2023-10-10 一种融合视觉和压力的人体姿态估计方法、设备及介质

Country Status (1)

Country Link
CN (1) CN117593762A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118135668A (zh) * 2024-05-07 2024-06-04 北京睛采智能科技有限公司 视觉与光学动捕相结合的姿态识别方法、***和设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118135668A (zh) * 2024-05-07 2024-06-04 北京睛采智能科技有限公司 视觉与光学动捕相结合的姿态识别方法、***和设备

Similar Documents

Publication Publication Date Title
CN110517759B (zh) 一种待标注图像确定的方法、模型训练的方法及装置
EP3961500A1 (en) Medical image detection method based on deep learning, and related device
WO2021227726A1 (zh) 面部检测、图像检测神经网络训练方法、装置和设备
CN110838125B (zh) 医学图像的目标检测方法、装置、设备、存储介质
JP2022505775A (ja) 画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラム
CN110807788A (zh) 医学图像处理方法、装置、电子设备及计算机存储介质
WO2021203865A9 (zh) 分子结合位点检测方法、装置、电子设备及存储介质
WO2023151237A1 (zh) 人脸位姿估计方法、装置、电子设备及存储介质
CN112419326B (zh) 图像分割数据处理方法、装置、设备及存储介质
WO2021098802A1 (en) Object detection device, method, and systerm
CN110738650B (zh) 一种传染病感染识别方法、终端设备及存储介质
CN117593762A (zh) 一种融合视觉和压力的人体姿态估计方法、设备及介质
CN111091010A (zh) 相似度确定、网络训练、查找方法及装置和存储介质
CN114419732A (zh) 基于注意力机制优化的HRNet人体姿态识别方法
CN116129141A (zh) 医学数据处理方法、装置、设备、介质和计算机程序产品
CN117710760A (zh) 残差的注意神经网络用于胸部x线病灶检测的方法
CN113887501A (zh) 行为识别方法、装置、存储介质及电子设备
WO2023207531A1 (zh) 一种图像处理方法及相关设备
CN113610856B (zh) 训练图像分割模型和图像分割的方法和装置
CN114463346B (zh) 一种基于移动端的复杂环境快速舌分割装置
CN113762231B (zh) 端对端的多行人姿态跟踪方法、装置及电子设备
CN113255514A (zh) 基于局部场景感知图卷积网络的行为识别方法
CN117036788B (zh) 图像分类方法、训练图像分类模型的方法及装置
CN116959120B (zh) 一种基于手部关节的人手姿态估计方法及***
Farooq et al. A review of monocular depth estimation methods based on deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication