CN110532874B - 一种物体属性识别模型的生成方法、存储介质及电子设备 - Google Patents

一种物体属性识别模型的生成方法、存储介质及电子设备 Download PDF

Info

Publication number
CN110532874B
CN110532874B CN201910673879.9A CN201910673879A CN110532874B CN 110532874 B CN110532874 B CN 110532874B CN 201910673879 A CN201910673879 A CN 201910673879A CN 110532874 B CN110532874 B CN 110532874B
Authority
CN
China
Prior art keywords
sequence
object attribute
joint
inputting
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910673879.9A
Other languages
English (en)
Other versions
CN110532874A (zh
Inventor
黄惠
郑倩
吴伟锴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN201910673879.9A priority Critical patent/CN110532874B/zh
Priority to US17/266,256 priority patent/US20210303833A1/en
Priority to PCT/CN2019/102641 priority patent/WO2021012348A1/zh
Publication of CN110532874A publication Critical patent/CN110532874A/zh
Application granted granted Critical
Publication of CN110532874B publication Critical patent/CN110532874B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • G06V2201/033Recognition of patterns in medical or anatomical images of skeletal patterns

Abstract

本发明公开了一种物体属性识别模型的生成方法、存储介质及电子设备,所述方法包括:通过以包括动作序列以及目标物体属性标签的训练样本对预设神经网络进行训练,所述动作序列为人体与物体的交互动作序列,这样训练得到的物体属性识别模型可以从人体与物体的交互动作中识别到物体属性,所述物体属性包括且不仅限于为物体重量、形状以及软硬程度等,使得训练得到的识别模块对物体属性识别具有通用性,使用范围广的特点。

Description

一种物体属性识别模型的生成方法、存储介质及电子设备
技术领域
本发明涉及计算机图形学技术领域,特别涉及一种物体属性识别模型的生成方法、存储介质及电子设备。
背景技术
随着近年来深度学习的发展,人体动作行为识别等类似的问题普遍使用神经网络来解决。目前现有的识别方法普遍为使用循环神经网络(RNN)结构来进行骨架序列识别以及采用卷积神经网络(CNN)对骨架序列提取特,这些方法的主要差异在于骨架序列的表示以及网络结构。然而现有识别方法主要是针对人的不同行为的人体静态姿态,限制了根据人体行为对物体属性的识别。
发明内容
本发明要解决的技术问题在于,针对现有技术的不足,提供一种物体属性识别模型的生成方法、存储介质及电子设备。
为了解决上述技术问题,本发明所采用的技术方案如下:
一种物体属性识别模型的生成方法,其包括:
获取训练样本集,所述训练样本集包括多组训练样本,每组训练样本包括所述训练样本集的交互动作序列以及目标物体属性标签;
将所述训练样本集中动作序列输入预设神经网络模型,并获取所述预设神经网络模型所输出的生成物体属性标签;
根据所述目标物体属性标签和所述生成物体属性标签对所述预设神经网络模型的模型参数进行修正,直至所述预设神经网络模型的训练情况满足预设条件,以得到已训练的物体属性识别模型。
所述物体属性识别模型的生成方法,其中,所述动作序列包括预设数量的骨骼序列帧,每一张骨骼序列帧包括人体骨骼数据,其中,所述人体骨骼数据为树状序列结构并以关节为节点。
所述物体属性识别模型的生成方法,其中,所述物体属性识别模型包括图卷积模块、门控循环单元模块以及全连接模块;所述将所述训练样本集中动作序列输入预设神经网络模型,并获取所述预设神经网络模型所输出的生成物体属性标签具体包括:
将所述动作序列的关节特征输入图卷积模块,通过所述图卷积模块提取用于输入门控循环单元模块的关节特征,其中,图卷积模块的输入包括关节位置和关节速度;
将用于输入门控循环单元模块的关节特征输入门控循环单元模块,通过门控循环单元模块输出在时序维度上的关节特征,其中,所述门控循环单元模块带有注意力子模块,所述注意力子模块用于获取各关节对物体属性的重要程度系数;
将所述权重系数以及关节特征输入所述全连接模块,通过所述全连接模块输出所述动作序列对应的生成物体属性标签。
所述物体属性识别模型的生成方法,其中,所述图卷积层输出的关节特征的表达式为:
Figure BDA0002140683910000021
其中,xt,i为输入图卷积层的第i各关节的关节特征,j为i的父节点的索引,t为人体骨骼数据帧的帧序号,Wg和b为图卷积层的权重系数。
所述物体属性识别模型的生成方法,其中,所述重要程度系数的计算公式为:
Figure BDA0002140683910000022
其中,Wha,Wxa,ba为循环神经网络的网络参数,
Figure BDA0002140683910000023
为输入门控循环单元模块的第i各关节的关节特征,Ht-1为循环神经网络的隐含状态,t,t-1为人体骨骼数据帧的帧序号。
一种基于交互动作序列识别物体属性的方法,其应用如上任一所述的物体属性识别模型,所述方法包括
获取待识别的交互动作序列,并将所述交互动序列作输入已训练的物体属性识别模型;
通过所述物体属性识别模型对所述交互动作序列进行识别,以得到所述交互动作序列对应的物体属性。
所述基于交互动作序列识别物体属性的方法,其中,所述获取待识别的交互动作序列,并将所述交互动序列作输入已训练的物体属性识别模型具体包括:
获取待识别的交互动作序列,并对所述交互动作序列进行预处理,以得到预设数量的图像帧;
获取各图像帧对应的人体骨骼数据帧,将获取到所有人体骨骼数据帧输入已训练的物体属性识别模型,其中,所述人体骨骼数据帧按照图像帧的帧时间顺序排列。
一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上任一所述的物体属性识别模型的生成方法中的步骤,或者以实现如上任一所述的基于交互动作序列识别物体属性的方法中的步骤。
一种电子设备,其包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如上任一所述的物体属性识别模型的生成方法中的步骤,或者实现如上任一所述的基于交互动作序列识别物体属性的方法中的步骤。
有益效果:与现有技术相比,本发明提供了一种物体属性识别模型的生成方法、存储介质及电子设备,所述方法包括:通过以包括动作序列以及目标物体属性标签的训练样本对预设神经网络进行训练,所述动作序列为人体与物体的交互动作序列,这样使得训练得到的物体属性识别模型可以从人体与物体的交互动作中识别到物体属性,所述物体属性可以为物体重量、形状以及软硬程度等,扩大了物体属性识别的全面性,从而提高了物体属性识别模型的适用范围。
附图说明
图1为本发明提供的物体属性识别模型的生成方法的流程图。
图2为本发明提供的物体属性识别模型的生成方法的动作序列的示意图。
图3为本发明提供的物体属性识别模型的生成方法中人体骨骼关节示意图。
图4为本发明提供的物体属性识别模型的生成方法中预设神经网络的处理过程的流程图。
图5为本发明提供的物体属性识别模型的生成方法中步骤S20的流程示意图。
图6为本发明提供的物体属性识别模型的生成方法中不同图卷积方法在不同属性推断任务下的准确率的曲线图。
图7为本发明提供的一种电子设备的结构原理图。
具体实施方式
本发明提供一种物体属性识别模型的生成方法、存储介质及电子设备,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
下面结合附图,通过对实施例的描述,对发明内容作进一步说明。
本实施例提供了一种基于交互动作序列识别物体属性的方法,如图1所示,所述方法包括:
S10、获取训练样本集,所述训练样本集包括多组训练样本,每组训练样本包括交互动作序列以及目标物体属性标签。
具体地,所述动作序列为人体与物体交互形成的动作序列,所述目标物体属性标签为动作序列中与人体进行交互的物体的物体属性。例如,例如,所述动作序列为人体搬动重量为5kg的箱子的动作序列,那么所述目标物体属性标签为箱子重量为5kg。
进一步,在本实施例中的一个实现方式中,所述初始训练样本可以根据人体标签进行分类,例如,所述训练样本集中包括的训练样本对应的人体行包括标签包括走路、钓鱼、倾倒、弯曲臂力器、坐下、喝水、搬箱子和搬碗;训练样本可以分为分别为走路类训练样本、钓鱼类训练样本、倾倒类训练样本、弯曲臂力器类训练样本、坐下类训练样本、喝水类训练样本、搬箱子类训练样本和搬碗类训练样本。而在对所述各物体属性采用其对应的训练样本类进行训练,例如,对于箱子重量进行训练时,用搬箱类训练样本进行训练;对杯子水量进行训练时,用于喝水类训练样本进行训练。
进一步,在本实施例的一个实现方式中,为了便于对交互动作序列的学习,如图2所示,所述动作序列包括预设数量的骨骼序列帧形成的骨骼序列,其中,所述骨骼序列可以表示成一个T×J×D的三维张量,其中T表示序列的帧数,J表示骨骼上关节点的数量,D表示每个关节上特征的维度,其中,所述关节点的数量优选为23。而每一张骨骼序列帧包括人体骨骼数据,所述人体骨骼数据为树状序列结构并以关节为节点。
进一步,所述人体关节位置为三维数据,所述人体关节位置定义在人体局部坐标系中,如图3所示,所述人体局部坐标系的原点位于盆骨关节(根节点)上,Z轴垂直于地板,X轴平行与盆骨朝前的方向,这样可以忽略盆骨的全局运动,降低人体骨骼数据的复杂性。此外,图3中所述的人体骨骼中,骨骼序列的方块表示每一帧上关节的关节特征。其中,所述关节特征包括关节位置以及关节速度,所述关节速度指的是下一前骨骼序列帧中一关节点的关节位置与当前骨骼序列帧中所述关节点的关节位置。例如,第t帧上的第i个关节记为
Figure BDA0002140683910000061
关节速度
Figure BDA0002140683910000062
近似为两个关节的坐标在时间维度上的差
Figure BDA0002140683910000063
同时在本实施例中,所述预设数量的骨骼序列帧为通过对获取到人与物体交互动作动画进行处理得到,所述人与物体交互动作动画可以是通过动作捕捉设备获取的。例如,人体可以穿MVN惯性动作捕捉服,通过MVN惯性动作捕捉服捕捉到人与物体交互的动作,并以三维骨骼序列的形式保存;人体头上可以戴着运动相机,录制被试者第一视角的视频。此外,人体周围设置有三个摄像头,以通过所述三个摄像头来录制三个不同视角的视频。这样可以使得训练样本包含三维骨架运动序列、与三维骨架运动序列对应的RGB视频、以及交互物体的物体属性,其中,所述物体属性可以但不限于包括重量、长度、体积以及硬度等。
此外,由于采集到的动作序列的时长各不相同,为提高预设神经网络的训练速度,在获取到动作序列后,可以将所述动作序列进行处理,从所述动作序列中选取预设数量的图像帧,并获取各图像帧对应的人体骨骼数据帧,并将获取到所有人体骨骼数据帧作为动作序列,其中,所述人体骨骼数据帧的数量优选为30帧。此外,为了增加训练样本的数量,在获取到动作序列后,将每个动作序列绕重力方向旋转10次,然后再从中裁剪成10个子序列作为增强后的动作序列。其中,旋转的角度服从均匀分布,在[0,π]之间。裁剪的子序列的长度为原序列的[0.9,1],服从均匀分布。
S20、将所述训练样本集中的动作序列输入预设神经网络模型,并获取所述预设神经网络模型所输出的生成物体属性标签。
具体地,所述预设神经网络包括图卷积模块、门控循环单元模块以及全连接模块,所述图卷积模块用于根据已知的人体骨骼拓扑结构来计算每个关节的特征,所述门控循环单元模块为带注意力机制的门控循环单元模块,带注意力机制用于融合所有帧的信息并给出每个关节对于目标物体属性标签的重要性。相应的,如图4和5所示,所述将所述训练样本集中动作序列输入预设神经网络模型,并获取所述预设神经网络模型所输出的生成物体属性标签具体包括:
S21、将所述动作序列的关节特征输入图卷积模块,通过所述图卷积模块提取用于输入门控循环单元模块的关节特征,其中,图卷积模块的输入包括关节位置和关节速度;
将用于输入门控循环单元模块的关节特征输入门控循环单元模块,通过门控循环单元模块输出在时序维度上的关节特征,其中,所述门控循环单元模块带有注意力子模块,所述注意力子模块用于获取各关节对物体属性的重要程度系数;
S22、将用于输入门控循环单元模块的关节特征输入门控循环单元模块,通过门控循环单元模块输出在时序维度上的关节特征,其中,所述门控循环单元模块带有注意力子模块,所述注意力子模块用于获取各关节对物体属性的重要程度系数;
S23、将所述权重系数以及各人体骨骼数据所对应的关节特征输入所述全连接模块,通过所述全连接模块输出所述动作序列对应的生成物体属性标签。
具体地,由于所述人体骨骼数据为树结构,从而在进行图卷积运算时,对于每一个关节,仅将所述关节的父节点作为所述关节的邻近节点,那么对于第t人体骨骼数据帧上的第i个关节,第i个关在经过图卷积层后的关节特征x′t,i如下:
Figure BDA0002140683910000081
其中,xt,i为输入图卷积层的第i各关节的关节特征,j为i的父节点的索引,t为人体骨骼数据帧的帧序号,Wg和b为图卷积层的权重系数。
此外,为了说明把人体骨骼作为树状结构,采用关节的父节点作为邻域,通过采用图卷积模块计算关节特征可以提高物体属性识别模型对属性推断的准确率。假设网络中的其它层的固定不变,改变两个图卷积层的设定,并记录下不同图卷积层对物体属性推断准确率的影响,两个图卷积层的设定分别为:1.将关节点之间的骨骼连接关系忽略,仅考虑关节自身去计算关节特征;2.把人体骨骼看作是一个树状的结构,其为有向图(directedgraph);3.把人体骨骼看成是一个无向图(undirectedgraph)。同时,测试了取不同邻近点数量对结果的影响,测试中k=1,2,3,测试结果如图6所示,图中每条线表示不同的图卷积设定在不同任务时的属性推断准确率。由图6可以看出,把人体骨骼看作是树状结构,仅考虑关节的父节点作为邻域,可以使得物体属性识别模型具有很好的准确性。
进一步,所述带注意力机制的门控循环单元模块为在循环神经网络中加入判断关节重要性的门,每个关节的重要性程度可以通过循环神经网络的隐含状态Ht-1来计算,这样可以发现对识别物体属性贡献大的关节和人体骨骼数据帧,即得到关键关节和关键人体骨骼数据帧。在本实施中,所述重要程度系数的计算公式为:
Figure BDA0002140683910000091
其中,Wha,Wxa,ba为循环神经网络的网络参数,
Figure BDA0002140683910000092
为输入门控循环单元模块的第i各关节的关节特征,Ht-1为循环神经网络的隐含状态,t,t-1为人体骨骼数据帧的帧序号。
S30、根据所述目标物体属性标签和所述生成物体属性标签对所述预设神经网络模型的模型参数进行修正,直至所述预设神经网络模型的训练情况满足预设条件,以得到已训练的物体属性识别模型。
具体地,所述预设条件包括损失值满足预设要求或者训练次数达到预设次数。所述预设要求可以是根据物体属性识别模型精度来确定,这里不做详细说明,所述预设次数可以为预设神经网络的最大训练次数,例如,1000次等。由此,在预设神经网络输出生成动作序列,根据所述生成物体属性标签以及所述目标物体属性标签来计算预设神经网络的损失值,在计算得到损失值后,判断所述损失值是否满足预设要求;若损失值满足预设要求,则结束训练;若损失值不满足预设要求,则判断所述预设神经网络的训练次数是否达到预测次数,若未达到预设次数,则根据所述损失值对所述预设神经网络的网络参数进行修正;若达到预设次数,则结束训练。这样通过损失值和训练次数来判断预设神经网络训练是否结束,可以避免因损失值无法达到预设要求而造成预设神经网络的训练进入死循环。
此外,本实施例在提供了所述物体属性识别模型的生成方法的过程中,提供了一训练样本数据集,所述训练样本数据集包括100名被试者,每名被试者做8组与不同物体的交互动作,其中,所述被试者的年龄在20-35岁之间,身高在150cm-195cm之间,性别有男有女,强壮程度亦有不同。
1、数据采集方式
所述训练样本数据集采用多输入源数据来构建我们的数据集,所述被试者在执行动作时,会身穿MVN惯性动作捕捉服,通过MVN惯性动作捕捉服捕捉到人的动作并以三位骨骼序列的形式保存;被试者头上会戴着运动相机,录制被试者第一视角的视频。另外,我们还使用了三个固定在被试者周围的摄像头来录制三个不同视角的视频。当然,在实际应用中,还可以通过其他可以采集到三维骨骼数据的方式获取三维骨骼数据。
2、人与物体的交互动作
被试者将会和多个不同属性的同种物体发生交互,其中,所述交互动作包括走路Walking、钓鱼Fishing、倾倒Pouring、弯曲臂力器Bending、坐下Sitting、喝水Drinking、搬箱子Lifting和搬碗Moving。
所述交互动作走路用于从走路动作推测路的宽度,即所述交互动作走路对应的物体属性为道路宽度,交互动作走路的采集过程为:每个被试者在三条不同宽度的道路往复一次,具体地,在地板上贴上两条直线代表一条道路,被试者在道路上走时,两脚的活动范围始终要在直线之间,且不能触碰到边缘的直线。
所述交互动作钓鱼用于推断鱼竿的长度,即所述交互动作钓鱼对应的物体属性为鱼竿长度,交互动作钓鱼的采集过程为:每个被试者采用三种不同长度的末端装有磁铁的鱼竿“钓”地上的磁铁鱼。
所述交互动作倾倒用于推测杯子内所装内容物的类型,即所述交互动作倾倒对应的物体属性为杯子所装物品的类型,交互动作倾倒的采集过程为:每个被试者将装有三个杯子内的物品倾倒到另外三个杯子中,其中,三个杯子内的物品分别为水、洗衣液和米。
所述交互动作弯曲臂力器用于推断弯曲臂力器所需要的力量,即所述交互动作弯曲臂力器对应的物体属性为力量,交互动作弯曲臂力器的采集过程为:被试者将弯曲三个不同强度的臂力器,其中,臂力器的三个强度从弱到强。
所述交互动作坐下用于推断凳子的软硬程度,即所述交互动作坐下对应的物体属性为凳子的软硬程度,交互动作坐下的采集过程为:被试者依次坐到四张同一高度但不同软硬程度的凳子上,例如,最硬的凳子是一张塑料等,最软的凳子是一个充气不足的瑜伽球。
所述交互动作喝水用于推断杯子内的水的数量,即所述交互动作喝水对应的物体属性为杯子内的水的体积,交互动作喝水的采集过程为:桌子上摆有三个装有不同水量的杯子,被试者会依次拿起水杯抿一口后放下,其中,三个杯子的水的体积可以分别是水的体积等于杯子的容积,水的体积等于杯子的容积的一般,以及水的体积为零。
所述交互动作搬箱子用于从人搬箱子的动作中推断箱子的重量,即所述交互动作搬箱子对应的物体属性为箱子重量,交互动作推箱子的采集过程为:被试者将会连续地将箱子搬到四个不同地高度:1.把箱子从地上搬到沙发上。2.把箱子从沙发搬到桌子上。3.把箱子从桌子上搬到书柜的顶上。4.把箱子重新放回到地面上。在搬动箱子之前,被试者将不会知道箱子的重量。箱子将会有6种不同的重量,从0到25公斤不等,每个不同的箱子间隔5公斤,乱序后给被试者依次搬动。
所述交互动作搬碗用于推断碗中内容物是否容易撒出来地程度,即所述交互动作搬碗对应的物体属性为碗中内容物是撒出的程度,交互动作搬碗的采集过程为:被试者会连续地将三个碗依次搬到四个不同的高度,其中,三个碗未配置碗盖,两个碗分别装有米和水,一个碗是空碗。
3、物体属性推断结果评估
将数据分成训练集、验证集、测试集三部分,来测试我们模型在推断物体属性上的表现。具体地,将100个被试者与物体交互的骨骼序列分成上述三个部分,训练集60人,验证集和测试集各20人,并且保证同一个被试者的序列不会同时出现在上述的三个子集中。在网络训练的过程中,将验证误差最小的网络参数作为物体属性识别模型的网络参数,并将测试集包含的测试数据依次输入所述物体属性识别模型。
具体地,将各交互动作对应的测试集依次输入物体属性识别模型,物体属性识别模型对各交互动作对应的物体属性的识别准确率如表1所示。例如,对于搬箱子动作序列集,其中,所述推箱子动作序列集中箱子的重量分别为:0kg、5kg、10kg、15kg、20kg和25kg。所述物体属性识别模型的识别结果如表1所示,所述物体属性识别模型的准确率约为62%。
表1不同任务下的物体属性推断准确率
物体属性 准确率
搬箱子推断重量(6) 61.8
搬碗推断易洒程度(3) 77.5
走路推断路的宽度(3) 83.9
钓鱼推断鱼竿长度(3) 80.7
倾倒推断液体类型(3) 62.8
弯曲推断臂力器强度(3) 71.6
坐下推断凳子软硬程度(4) 73.7
喝水推断杯子内水量(3) 62.5
其中,各物体属性后括号内的数字表示物体属性的数量,例如,搬箱子推断重量(6)中的6表示箱子的重量有6种。
4、评估不同骨骼序列的数据表示形式对属性推断准确率的影响
数据表示形式指的是同样的一段人的运动中人体运动的动态属性,其中,所述动态属性可以通过关节的位置坐标、骨骼的旋转矩阵来表示、关节的移动速度、骨骼之间的旋转角速度来等表示。这里以三种物体的属性推断上面做测试,其中,所述交互动作分别为搬箱子,走路和钓鱼,对几种不同数据表示形式以及他们的组合对属性推断准确率的影响,各数据表示形式如表2所示。表2展示了不同表示形式情况下属性推断的表现。可以看到,使用关节位置加上关节速度,在总体上的表现最好。于是我们在后面的测试中也将沿用这个设置。
表2不同数据表示形式的物体属性推断准确率
搬箱子(6) 走路(3) 钓鱼(3)
位置 57.82 76.84 84.21
欧拉角 43.38 81.58 73.68
速度 59.93 79.82 69.40
角速度 47.46 73.16 63.51
位置、欧拉角 55.70 79.65 71.58
位置、速度 61.81 83.93 80.70
位置、角速度 64.58 79.47 77.54
速度、角速度 55.70 84.39 76.49
速度、欧拉角 50.56 70.00 66.67
欧拉角、角速度 56.06 80.53 72.28
位置、欧拉角、角速度 50.35 78.42 70.18
位置、速度、角速度 62.32 82.98 78.95
位置、欧拉角、速度 56.55 81.58 71.93
位置、欧拉角、速度、角速度 58.73 82.98 78.95
基于上述物体属性识别模型的生成方法,本发明还提供了一种基于交互动作序列识别物体属性的方法,其应用如上实施例所述的物体属性识别模型,所述方法包括:
获取待识别的交互动作序列,并将所述交互动序列作输入已训练的物体属性识别模型;
通过所述物体属性识别模型对所述交互动作序列进行识别,以得到所述交互动作序列对应的物体属性。
在所述基于交互动作序列识别物体属性的方法中,所述获取待识别的交互动作序列,并将所述交互动序列作输入已训练的物体属性识别模型具体包括:
获取待识别的交互动作序列,并对所述交互动作序列进行预处理,以得到预设数量的图像帧;
获取各图像帧对应的人体骨骼序列帧,将获取到所有人体骨骼序列帧输入已训练的物体属性识别模型,其中,所述人体骨骼数据帧按照图像帧的帧时间顺序排列。
基于上述基于交互动作序列识别物体属性的方法以及物体属性识别模型的生成方法,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述实施例所述的基于交互动作序列识别物体属性的方法中的步骤,或者如上述实施例所述的物体属性识别模型的生成方法中的步骤。
基于上述基于交互动作序列识别物体属性的方法以及物体属性识别模型的生成方法,本发明还提供了一种电子设备,如图7所示,其包括至少一个处理器(processor)20;显示屏21;以及存储器(memory)22,还可以包括通信接口(Communications Interface)23和总线24。其中,处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令,以执行上述实施例中的方法。
此外,上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器22作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
存储器22可包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
此外,上述存储介质以及电子设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈述。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种物体属性识别模型的生成方法,其特征在于,其包括:
获取训练样本集,所述训练样本集包括多组训练样本,每组训练样本包括动作序列以及目标物体属性标签;
特征在于,所述动作序列包括预设数量的骨骼序列帧,每一张骨骼序列帧包括人体骨骼数据,其中,所述人体骨骼数据为树状序列结构并以关节为节点;
将所述训练样本集中的动作序列输入预设神经网络模型,并获取所述预设神经网络模型所输出的生成物体属性标签;
所述物体属性识别模型包括图卷积模块、门控循环单元模块以及全连接模块;将所述训练样本集中动作序列输入预设神经网络模型,并获取所述预设神经网络模型所输出的生成物体属性标签具体包括:
将所述动作序列的关节特征输入图卷积模块,通过所述图卷积模块提取用于输入门控循环单元模块的关节特征,其中,图卷积模块的输入包括关节位置和关节速度;
将用于输入门控循环单元模块的关节特征输入门控循环单元模块,通过门控循环单元模块输出在时序维度上的关节特征,其中,所述门控循环单元模块带有注意力子模块,所述注意力子模块用于获取各关节对物体属性的重要程度系数;
所述重要程度系数的计算公式为:
Figure 82226DEST_PATH_IMAGE001
其中,
Figure 427757DEST_PATH_IMAGE002
为循环神经网络的网络参数,
Figure 515798DEST_PATH_IMAGE003
为输入门控循环单元模块的第i个关节的关节特征,
Figure 313990DEST_PATH_IMAGE004
为循环神经网络的隐含状态,
Figure 44049DEST_PATH_IMAGE005
为人体骨骼数据帧的帧序号;
将所述重要程度系数以及关节特征输入所述全连接模块,通过所述全连接模块输出所述动作序列对应的生成物体属性标签;
根据所述目标物体属性标签和所述生成物体属性标签对所述预设神经网络模型的模型参数进行修正,直至所述预设神经网络模型的训练情况满足预设条件,以得到已训练的物体属性识别模型。
2.根据权利要求1所述物体属性识别模型的生成方法,其特征在于,所述图卷积模块输出的关节特征的表达式为:
Figure 978507DEST_PATH_IMAGE006
其中,
Figure 598686DEST_PATH_IMAGE007
为输入图卷积层的第i各关节的关节特征,j为i的父节点的索引,t为人体骨骼数据帧的帧序号,Wg和b为图卷积模块的权重系数。
3.一种基于交互动作序列识别物体属性的方法,其特征在于,其应用如权利要求1-2任一所述的物体属性识别模型的生成方法得到的识别模型,所述基于交互动作序列识别物体属性的方法包括:
获取待识别的交互动作序列,并将所述交互动作序列输入已训练的物体属性识别模型;
通过所述物体属性识别模型对所述交互动作序列进行识别,以得到所述交互动作序列对应的物体属性。
4.根据权利要求3所述基于交互动作序列识别物体属性的方法,其特征在于,所述获取待识别的交互动作序列,并将所述交互动作 序列输入已训练的物体属性识别模型具体包括:
获取待识别的交互动作序列,并对所述交互动作序列进行预处理,以得到预设数量的图像帧;
获取各图像帧对应的人体骨骼数据帧,将获取到所有人体骨骼数据帧输入已训练的物体属性识别模型,其中,所述人体骨骼数据帧按照图像帧的帧时间顺序排列。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序被一个或者多个处理器执行,以实现如权利要求1~2任意一项所述的物体属性识别模型的生成方法中的步骤,或者以实现如权利要求3~4任意一项所述的基于交互动作序列识别物体属性的方法中的步骤。
6.一种电子设备,其特征在于,包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如权利要求1~2任意一项所述的物体属性识别模型的生成方法中的步骤,或者实现如权利要求3~4任意一项所述的基于交互动作序列识别物体属性的方法中的步骤。
CN201910673879.9A 2019-07-23 2019-07-23 一种物体属性识别模型的生成方法、存储介质及电子设备 Active CN110532874B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910673879.9A CN110532874B (zh) 2019-07-23 2019-07-23 一种物体属性识别模型的生成方法、存储介质及电子设备
US17/266,256 US20210303833A1 (en) 2019-07-23 2019-08-26 Object attribute inference method, storage medium and electronic device
PCT/CN2019/102641 WO2021012348A1 (zh) 2019-07-23 2019-08-26 一种物体属性识别模型的生成方法、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910673879.9A CN110532874B (zh) 2019-07-23 2019-07-23 一种物体属性识别模型的生成方法、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN110532874A CN110532874A (zh) 2019-12-03
CN110532874B true CN110532874B (zh) 2022-11-11

Family

ID=68661306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910673879.9A Active CN110532874B (zh) 2019-07-23 2019-07-23 一种物体属性识别模型的生成方法、存储介质及电子设备

Country Status (3)

Country Link
US (1) US20210303833A1 (zh)
CN (1) CN110532874B (zh)
WO (1) WO2021012348A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11443141B2 (en) * 2020-02-27 2022-09-13 International Business Machines Corporation Using video tracking technology to create machine learning datasets for tasks
JP7413836B2 (ja) * 2020-02-28 2024-01-16 富士通株式会社 行動認識方法、行動認識プログラム及び行動認識装置
CN111476181B (zh) * 2020-04-13 2022-03-04 河北工业大学 一种人体骨架动作的识别方法
CN114239754B (zh) * 2022-02-24 2022-05-03 中国科学院自动化研究所 基于属性特征学习解耦的行人属性识别方法及***
CN114978624B (zh) * 2022-05-09 2023-11-03 深圳大学 钓鱼网页检测方法、装置、设备及存储介质
CN114724254B (zh) * 2022-05-16 2022-12-30 北京百度网讯科技有限公司 确定动作类别的方法、装置、设备、存储介质
CN115410280B (zh) * 2022-11-03 2023-06-16 合肥中科类脑智能技术有限公司 一种基于人体朝向判断的钓鱼行为检测方法
CN117436354B (zh) * 2023-12-21 2024-02-20 北京捷世智通科技股份有限公司 一种称重抄网

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855496A (zh) * 2012-08-24 2013-01-02 苏州大学 遮挡人脸认证方法及***
CN104317386A (zh) * 2014-06-25 2015-01-28 西南科技大学 一种姿势序列有限状态机动作识别方法
CN104353240A (zh) * 2014-11-27 2015-02-18 北京师范大学珠海分校 基于Kinect的跑步机***
CN107908300A (zh) * 2017-11-17 2018-04-13 哈尔滨工业大学(威海) 一种用户鼠标行为的合成与模拟方法及***
CN108416440A (zh) * 2018-03-20 2018-08-17 上海未来伙伴机器人有限公司 一种神经网络的训练方法、物体识别方法及装置
CN108821249A (zh) * 2018-06-12 2018-11-16 桑德集团有限公司 碳氮材料及其制备方法以及包含其的锂硫电池正极材料和锂硫电池
CN109409214A (zh) * 2018-09-14 2019-03-01 浙江大华技术股份有限公司 一种对运动的目标物体进行分类的方法与设备
CN109754605A (zh) * 2019-02-27 2019-05-14 中南大学 一种基于注意力时态图卷积网络的交通预测方法
CN110002414A (zh) * 2019-03-22 2019-07-12 张家港市东大工业技术研究院 一种多孔氮化碳纳米管的制备方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8144155B2 (en) * 2008-08-11 2012-03-27 Microsoft Corp. Example-based motion detail enrichment in real-time
US8608480B2 (en) * 2008-10-31 2013-12-17 The Invention Science Fund I, Llc System and method of training by providing motional feedback
US8213680B2 (en) * 2010-03-19 2012-07-03 Microsoft Corporation Proxy training data for human body tracking
CN105389549B (zh) * 2015-10-28 2019-08-13 北京旷视科技有限公司 基于人体动作特征的对象识别方法及装置
CN105872477B (zh) * 2016-05-27 2018-11-23 北京旷视科技有限公司 视频监控方法和视频监控***
KR20180092778A (ko) * 2017-02-10 2018-08-20 한국전자통신연구원 실감정보 제공 장치, 영상분석 서버 및 실감정보 제공 방법
CN109697395A (zh) * 2017-10-24 2019-04-30 华为技术有限公司 物体属性预测方法、装置及设备
CN108304790B (zh) * 2018-01-19 2022-03-18 腾讯科技(深圳)有限公司 骨骼运动预测处理方法、装置和肢体运动预测处理方法
CN108388876B (zh) * 2018-03-13 2022-04-22 腾讯科技(深圳)有限公司 一种图像识别方法、装置以及相关设备
CN109446927B (zh) * 2018-10-11 2021-11-23 西安电子科技大学 基于先验知识的双人交互行为识别方法
CN109492612A (zh) * 2018-11-28 2019-03-19 平安科技(深圳)有限公司 基于骨骼点的跌倒检测方法及其跌倒检测装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855496A (zh) * 2012-08-24 2013-01-02 苏州大学 遮挡人脸认证方法及***
CN104317386A (zh) * 2014-06-25 2015-01-28 西南科技大学 一种姿势序列有限状态机动作识别方法
CN104353240A (zh) * 2014-11-27 2015-02-18 北京师范大学珠海分校 基于Kinect的跑步机***
CN107908300A (zh) * 2017-11-17 2018-04-13 哈尔滨工业大学(威海) 一种用户鼠标行为的合成与模拟方法及***
CN108416440A (zh) * 2018-03-20 2018-08-17 上海未来伙伴机器人有限公司 一种神经网络的训练方法、物体识别方法及装置
CN108821249A (zh) * 2018-06-12 2018-11-16 桑德集团有限公司 碳氮材料及其制备方法以及包含其的锂硫电池正极材料和锂硫电池
CN109409214A (zh) * 2018-09-14 2019-03-01 浙江大华技术股份有限公司 一种对运动的目标物体进行分类的方法与设备
CN109754605A (zh) * 2019-02-27 2019-05-14 中南大学 一种基于注意力时态图卷积网络的交通预测方法
CN110002414A (zh) * 2019-03-22 2019-07-12 张家港市东大工业技术研究院 一种多孔氮化碳纳米管的制备方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Model-based restoration of underwater spectral images captured with narrowband filters";Yilu Guo et al.;《OPTICS EXPRESS》;20160610;第24卷(第12期);全文 *

Also Published As

Publication number Publication date
CN110532874A (zh) 2019-12-03
WO2021012348A1 (zh) 2021-01-28
US20210303833A1 (en) 2021-09-30

Similar Documents

Publication Publication Date Title
CN110532874B (zh) 一种物体属性识别模型的生成方法、存储介质及电子设备
JP6522060B2 (ja) オブジェクト認識装置、分類ツリー学習装置及びその動作方法
Remez et al. Learning to segment via cut-and-paste
Bertiche et al. Pbns: Physically based neural simulator for unsupervised garment pose space deformation
CN110827383B (zh) 三维模型的姿态模拟方法、装置、存储介质和电子设备
CN110533752B (zh) 一种人体动作编辑模型的生成方法、存储介质及电子设备
CN107679522A (zh) 基于多流lstm的动作识别方法
CN104899561A (zh) 一种并行化的人体行为识别方法
CN108229268A (zh) 表情识别及卷积神经网络模型训练方法、装置和电子设备
Martínez-González et al. Efficient convolutional neural networks for depth-based multi-person pose estimation
CN109948526A (zh) 图像处理方法及装置、检测设备及存储介质
CN103733227A (zh) 三维对象建模拟合与跟踪
CN109766856A (zh) 一种双流RGB-D Faster R-CNN识别哺乳母猪姿态的方法
CN109685037A (zh) 一种实时动作识别方法、装置及电子设备
CN111160294B (zh) 基于图卷积网络的步态识别方法
Xu et al. Scene image and human skeleton-based dual-stream human action recognition
CN109847366A (zh) 用于游戏的数据处理方法和装置
CN116362133A (zh) 一种基于骨架的预测目标姿势下布料静态变形的双相流网络方法
CN109407826A (zh) 球类运动模拟方法、装置、存储介质及电子设备
Trivedi et al. Learning task-independent game state representations from unlabeled images
JP2019016164A (ja) 学習データ生成装置、推定装置、推定方法及びコンピュータプログラム
Faujdar et al. Human Pose Estimation using Artificial Intelligence with Virtual Gym Tracker
Usman et al. Skeleton-based motion prediction: A survey
CN116433808A (zh) 角色动画的生成方法、动画生成模型的训练方法及装置
KR101547208B1 (ko) 손목 궤적을 이용한 전신 동작 생성 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant