CN114078193A - 图像处理方法、设备和介质 - Google Patents

图像处理方法、设备和介质 Download PDF

Info

Publication number
CN114078193A
CN114078193A CN202010805332.2A CN202010805332A CN114078193A CN 114078193 A CN114078193 A CN 114078193A CN 202010805332 A CN202010805332 A CN 202010805332A CN 114078193 A CN114078193 A CN 114078193A
Authority
CN
China
Prior art keywords
feature map
key point
keypoint
feature
point feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010805332.2A
Other languages
English (en)
Inventor
赵颖
张毅飞
王刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to CN202010805332.2A priority Critical patent/CN114078193A/zh
Priority to JP2021131444A priority patent/JP7230963B2/ja
Publication of CN114078193A publication Critical patent/CN114078193A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

公开了图像处理方法、设备和介质。所述图像处理方法包括:基于输入图像,提取预定数量的关键点特征图,其中每一幅关键点特征图对应于一种身体部位的关键点;基于所述预定数量的关键点特征图,提取每一幅关键点特征图的关系特征图,所述关系特征图能够描述每一幅关键点特征图与其他关键点特征图中的多个之间的关系;基于每一幅关键点特征图及其对应的关系特征图,更新每一幅关键点特征图;以及基于更新后的关键点特征图,确定所述输入图像中各个身体部位的关键点位置。

Description

图像处理方法、设备和介质
技术领域
本公开总的来说计算机视觉领域,更具体地说,涉及图像处理方法、设备和介质。
背景技术
随着现代科技的发展,特别是计算机技术的迅猛进步,如何使机器实现人类的视觉功能已成为科学家面临的一个极富挑战的研究课题,并形成计算机视觉学科。计算机视觉的总体研究目标是从可视媒体(包括图像及视频)中创建或恢复世界模型,然后认知现实世界。而在这个世界上,人的运动携带了大量对于对人类社会而言非常重要的信息,人与人、人与物体及人与环境之间的交互构成了可视媒体的主要内容。因此,研究可视媒体中的人体运动信息,对其进行有效的表示、分析和理解,具有着重要的意义。姿态估计问题,作为计算机视觉研究中的一个重要类别已经引起了广泛的关注。当然,取决于具体的应用场景,姿态估计的主体可以是真实的人,也可以是虚拟的形象。
一般而言,通过在图像中确定待估计主体(如,真实人或虚拟形象)的各个身体部位关键点,并基于这些关键点来估计姿态。然而,在用于姿态估计的图像中,对于待估计的主体的遮挡(如,人与人之间的遮挡、物体与人之间的遮挡)是不可避免的。如何在待估计主体的身体的一部分被遮挡的情况下,鲁棒地检测出各个身体部位的关键点是一个亟待解决的问题。
目前的姿态估计方法通常利用相邻的关键点之间的关系来应对遮挡的问题。然而,长距离关键点的贡献并没有充分发掘甚至直接被忽视。
发明内容
鉴于以上情形,期望提供新的、基于全局关系的图像处理方法、设备和介质,其能够学习任意关键点之间的关系,并基于充分探索的关键点关系来优化最终的关键点确定结果。
根据本公开的一个方面,提供了图像处理方法,包括:基于输入图像,提取预定数量的关键点特征图,其中每一幅关键点特征图对应于一种身体部位的关键点;基于所述预定数量的关键点特征图,提取每一幅关键点特征图的关系特征图,所述关系特征图能够描述每一幅关键点特征图与其他关键点特征图中的多个之间的关系;基于每一幅关键点特征图及其对应的关系特征图,更新每一幅关键点特征图;以及基于更新后的关键点特征图,确定所述输入图像中各个身体部位的关键点位置。
另外,在根据本公开实施例的图像处理方法中,在基于所述预定数量的关键点特征图,提取每一幅关键点特征图的关系特征图之前,进一步包括:确定中心点特征图,其中所述中心点为所有关键点的平均;提取每一幅关键点特征图与所述中心点特征图之间的关系特征图,并基于所述关系特征图更新每一幅关键点特征图。
另外,在根据本公开实施例的图像处理方法中,基于所述预定数量的关键点特征图,提取每一幅关键点特征图的关系特征图包括:依次将每一幅关键点特征图作为当前关键点特征图,重复地执行以下步骤:将除当前关键点特征图之外的其他关键点特征图分为多个组,其中每一组包括至少一幅关键点特征图;分别将当前关键点特征图与其他关键点特征图中的每一组作为输入,执行卷积处理,以得到能够描述当前关键点特征图与每一组其他关键点特征图之间的关系的关系特征图。
另外,在根据本公开实施例的图像处理方法中,在所述卷积处理中,每一组其他关键点特征图中的每一幅特征图都具有对应的第一权重,其中基于每一组其他关键点特征图中的每一幅特征图所对应的身体部位与所述当前关键点特征图所对应的身体部位之间的关系,确定第一权重的初始值。
另外,在根据本公开实施例的图像处理方法中,基于每一幅关键点特征图及其对应的关系特征图,更新每一幅关键点特征图包括:分别将每一幅关键点特征图及其对应的关系特征图作为输入,执行卷积处理;基于卷积后得到的特征图,更新每一幅关键点特征图。
另外,在根据本公开实施例的图像处理方法中,在所述卷积处理中,每一幅关系特征图都具有对应的第二权重,其中基于每一幅关系特征图中所有像素点的最大像素值或平均像素值,来确定所述第二权重的初始值。
另外,在根据本公开实施例的图像处理方法中,通过特征提取网络从输入图像提取关键点特征图,通过关系提取网络提取所述关系特征图,并且通过融合网络基于每一幅关键点特征图及其对应的关系特征图,更新每一幅关键点特征图,所述特征提取网络、所述关系提取网络和所述融合网络通过以下训练步骤来训练:将训练图像作为输入图像提供至所述特征提取网络;基于从所述特征提取网络输出的关键点特征图,确定所述训练图像中的关键点粗略位置,并基于所述关键点粗略位置与真实关键点位置之间的差异而确定第一损失函数;基于通过所述特征提取网络、所述关系提取网络和所述融合网络后输出的关键点位置与真实关键点位置之间的差异而确定第二损失函数;基于所述第一损失函数和所述第二损失函数,调整所述特征提取网络、所述关系提取网络和所述融合网络的参数。
根据本公开的另一方面,提供了一种图像处理设备,包括:关键点特征图提取装置,用于基于输入图像,提取预定数量的关键点特征图,其中每一幅关键点特征图对应于一种身体部位的关键点;关系特征图提取装置,用于基于所述预定数量的关键点特征图,提取每一幅关键点特征图的关系特征图,所述关系特征图能够描述每一幅关键点特征图与其他关键点特征图中的多个之间的关系;关键点特征图更新装置,用于基于每一幅关键点特征图及其对应的关系特征图,更新每一幅关键点特征图;以及关键点位置确定装置,用于基于更新后的关键点特征图,确定所述输入图像中各个身体部位的关键点位置。
另外,在根据本公开实施例的图像处理设备中,所述关键点特征图提取装置进一步被配置为:确定中心点特征图,其中所述中心点为所有关键点的平均;提取每一幅关键点特征图与所述中心点特征图之间的关系特征图,并基于所述关系特征图更新每一幅关键点特征图。
另外,在根据本公开实施例的图像处理设备中,所述关系特征图提取装置被配置为:依次将每一幅关键点特征图作为当前关键点特征图,重复地执行以下步骤:将除当前关键点特征图之外的其他关键点特征图分为多个组,其中每一组包括至少一幅关键点特征图;分别将当前关键点特征图与其他关键点特征图中的每一组作为输入,执行卷积处理,以得到能够描述当前关键点特征图与每一组其他关键点特征图之间的关系的关系特征图。
另外,在根据本公开实施例的图像处理设备中,在所述卷积处理中,每一组其他关键点特征图中的每一幅特征图都具有对应的第一权重,其中基于每一组其他关键点特征图中的每一幅特征图所对应的身体部位与所述当前关键点特征图所对应的身体部位之间的关系,确定第一权重的初始值。
另外,在根据本公开实施例的图像处理设备中,所述关键点特征图更新装置被配置为:分别将每一幅关键点特征图及其对应的关系特征图作为输入,执行卷积处理;基于卷积后得到的特征图,更新每一幅关键点特征图。
另外,在根据本公开实施例的图像处理设备中,在所述卷积处理中,每一幅关系特征图都具有对应的第二权重,其中基于每一幅关系特征图中所有像素点的最大像素值或平均像素值,来确定所述第二权重的初始值。
另外,在根据本公开实施例的图像处理设备中,通过特征提取网络从输入图像提取关键点特征图,通过关系提取网络提取所述关系特征图,并且通过融合网络基于每一幅关键点特征图及其对应的关系特征图,更新每一幅关键点特征图,所述特征提取网络、所述关系提取网络和所述融合网络通过以下训练步骤来训练:将训练图像作为输入图像提供至所述特征提取网络;基于从所述特征提取网络输出的关键点特征图,确定所述训练图像中的关键点粗略位置,并基于所述关键点粗略位置与真实关键点位置之间的差异而确定第一损失函数;基于通过所述特征提取网络、所述关系提取网络和所述融合网络后输出的关键点位置与真实关键点位置之间的差异而确定第二损失函数;基于所述第一损失函数和所述第二损失函数,调整所述特征提取网络、所述关系提取网络和所述融合网络的参数。
根据本公开的再一方面,提供了一种图像处理设备,包括:存储器,用于在其上存储计算机程序;以及处理器,用于当执行所述存储器上存储的计算机程序时,执行以下处理:基于输入图像,提取预定数量的关键点特征图,其中每一幅关键点特征图对应于一种身体部位的关键点;基于所述预定数量的关键点特征图,提取每一幅关键点特征图的关系特征图,所述关系特征图能够描述每一幅关键点特征图与其他关键点特征图中的多个之间的关系;基于每一幅关键点特征图及其对应的关系特征图,更新每一幅关键点特征图;以及基于更新后的关键点特征图,确定所述输入图像中各个身体部位的关键点位置。
根据本公开的又一方面,提供了一种计算机可读记录介质,其上存储有计算机程序,当由处理器执行所述计算机程序执行上文中所述的方法。
在根据本公开的图像处理方法、设备和介质中,基于全局关系,即:不仅提取相邻关键点之间的关系,而且还考虑远距离关键点关系,从相关的关键点中提取上下文信息来推断被遮挡的关键点,以便确定输入图像中的所有关键点位置。因此,即使被遮挡的身体部位的关键点也能够被可靠地预测。
附图说明
图1是示出了根据本公开的一种可能的应用场景的示意图;
图2是图示根据本公开实施例的图像处理方法的具体过程的流程图;
图3示出了人体关键点的一种设置示例;
图4示出了图3中所示的人体关键点之间的连接关系的一种示例;
图5是示出了用于进行关键点特征图的更新过程的网络结构的示意图;
图6是图示用于训练特征提取网络、关系提取网络和融合网络的具体过程的流程图;
图7是图示根据本公开的实施例的图像处理设备的配置的功能性框图;以及
图8示出了根据本公开实施例的一种示例性的计算设备的架构的示意图。
具体实施方式
下面将参照附图对本公开的各个优选的实施方式进行描述。提供以下参照附图的描述,以帮助对由权利要求及其等价物所限定的本公开的示例实施方式的理解。其包括帮助理解的各种具体细节,但它们只能被看作是示例性的。因此,本领域技术人员将认识到,可对这里描述的实施方式进行各种改变和修改,而不脱离本公开的范围和精神。而且,为了使说明书更加清楚简洁,将省略对本领域熟知功能和构造的详细描述。
首先,在描述根据本公开的图像处理方法之前,参照图1描述所述图像处理方法的一种可能的应用场景。由相机101拍摄用户图像,然后通过根据本公开的图像处理方法得到该用户图像中与各个身体部位对应的多个关键点102。基于确定出的多个关键点102,可以联动地控制虚拟形象103的姿态。例如,这在交互式游戏中是特别有用的,可以追踪人类玩家的运动,并使用它来渲染游戏中对应的虚拟人物的动作。
当然,根据本公开实施例的图像处理方法可以应用于多种场景,并不仅限于图1所示的场景。通过根据本公开的图像处理方法来确定与各个身体部位对应的多个关键点,可以追踪人体在一段时间内姿态的变化,以用于活动、手势和步态识别。例如,可能的应用场景示例包括但不限于:智能视频监控、病人监护***、自动驾驶、人机交互、虚拟现实、人体动画、智能家居、智能安防、运动员辅助训练等等。
接下来,将参照图2描述根据本公开实施例的图像处理方法。如图2所示,所述图像处理方法包括以下步骤。
首先,在步骤S201,基于输入图像,提取预定数量的关键点特征图,其中每一幅关键点特征图对应于一种身体部位的关键点。
这里,对应于身体部位的关键点可以理解为骨骼关键点。骨骼关键点对于描述形象(如,人、动物或虚拟形象)的姿态并预测形象行为是至关重要的。因此,对于特定形象,可以预先设置预定数量的、规定骨骼部位的关键点。
图3示出了人体关键点的设置示例。如图3所示,共设置17个人体关键点,从上至下依次包括:鼻子P1、左眼P2、右眼P3、左耳P4、右耳P5、左肩P6、右肩P7、左手肘P8、右手肘P9、左手腕P10、右手腕P11、左臀P12、右臀P13、左膝盖P14、右膝盖P15、左脚踝P16和右脚踝P17。也就是说,在按照图3所示的示例来设置人体关键点的情况下,当在步骤S201输入一张用户图像时,将提取如图3中所示的17个身体部位的关键点的特征图。在下文的描述中,将以图3所示的人体关键点设置为例进行描述。当然,可以理解,取决于具体的应用,任何其他的关键点设置都是可能的。
可以通过卷积神经网络来实现步骤S201的关键点特征图的提取处理。例如,可以将这里的卷积神经网络称作特征提取网络。卷积神经网络可以包括输入层、隐含层和输出层。输入层用于接收待识别的图像。隐含层用于对输入的图像执行特征分析和提取处理。输出层用于输出最终提取出的预定数量的关键点特征图。
隐含层可以包括卷积层、池化层和全连接层。在卷积神经网络中,特征提取可以使用若干卷积层(可能包括串联、并联、跨层连接等复杂结构)。利用多组不同参数的卷积、归一化和池化过程来提取不同层次的特征。首先利用卷积核对输入图像进行卷积,得到卷积映射。然后,利用常规的校正线性单元和批量归一化方法对卷积映射进行归一化,得到归一化卷积映射。然后,对归一化卷积映射应用最大或平均池化过程。在卷积层进行特征提取后,输出的特征图会被传递至池化层进行特征选择和信息过滤。池化层包含预设定的池化函数,其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量。例如,最大池化是将单个像素点的值替换为其相邻区域的像素点的最大值。平均池化是将单个像素点的值替换为其相邻区域的像素点的平均值。为了获得丰富的、多尺度的特征,隐含层中可以设置多个卷积层和多个池化层,并多次重复上述过程。另外,通过多次下采样过程提取多尺度特征映射。
基于由隐含层提取的多尺度特征映射,输出层可以最终输出预定数量的关键点特征图。当输入图像是真实的用户图像时,在按照图3所示的人体关键点设置的情况下,输出层将输出17幅关键点特征图。
这里,需要说明的是,输出层输出的17幅关键点特征图是按照规定的身体部位类别排序的。例如,第1幅关键点特征图是左眼特征图,第2幅关键点特征图是右眼特征图,第3幅关键点特征图是鼻子特征图,……。在每一幅关键点特征图中,仅包含与一个身体部位对应的关键点。例如,在左眼特征图中,仅包含与左眼关键点相关的特征。另外,在输入图像中仅包括一个人的情况下,每一幅关键点特征图中仅包括与一个关键点相关的特征。例如,在左眼特征图中,仅包含与一个左眼关键点相关的特征。但是,在输入图像中包括多个人的情况下,每一幅关键点特征图中可能包括与多个关键点相关的特征。例如,在左眼特征图中,可能包含与两个左眼关键点相关的特征,但是这两个关键点都是对应于同一个身体部位(左眼)的关键点。
返回参照图2,在步骤S201提取出预定数量的关键点特征图之后,处理进行到步骤S202。在步骤S202,基于所述预定数量的关键点特征图,提取能够描述每一幅关键点特征图与其他关键点特征图中的多个之间的关系的关系特征图。
具体来说,依次将每一幅关键点特征图作为当前关键点特征图,重复地执行以下步骤。
首先,将除当前关键点特征图之外的其他关键点特征图分为多个组,其中每一组包括至少一幅关键点特征图。
然后,分别将当前关键点特征图与其他关键点特征图中的每一组作为输入,执行卷积处理。例如,这里的卷积处理可以通过卷积神经网络来实现。例如,可以将这里的卷积神经网络称作关系提取网络。当然,这里的卷积神经网络与在步骤S201中用于提取关键点特征图的卷积神经网络的具体网络参数(如,网络深度、节点权重等)是不同的。将两幅或更多幅关键点特征图作为输入提供至卷积神经网络。卷积神经网络对输入的关键点特征图进行特征提取,输出对于输入的关键点特征图的特征描述。由于输入的每一幅关键点特征图分别与关键点相关,因此输出的、作为卷积结果而获得的特征图可以看作是关键点之间关系的一种描述。换言之,通过将两幅或多幅关键点特征图执行卷积处理,可以认为得到了能够描述当前关键点特征图与每一组其他关键点特征图之间的关系。并且,作为卷积处理的结果而得到特征图可以被称为关系特征图。
例如,针对每一幅关键点特征图,可以提取其与其他关键点特征图中的每一幅特征图之间的关系特征图。或者,也可以提取其与其他关键特征图中的多幅特征图之间的关系特征图。这里,其他关键点特征图中的多幅特征图所对应的关键点并不一定仅仅包括当前考虑的关键点的相邻关键点。如下文中所述,相邻关键点可以是距离为1的关键点。其他关键点特征图中的多幅特征图所对应的关键点还可以包括当前考虑的关键点的远距离关键点(例如,距离大于1的关键点)。
另外,作为一种可能的实施方式,在所述卷积处理中,每一组其他关键点特征图中的每一幅特征图可以具有对应的第一权重。
例如,可以基于每一组其他关键点特征图中的每一幅特征图所对应的身体部位与所述当前关键点特征图所对应的身体部位之间的关系,确定第一权重的值。沿用图3的人体关键点设置示例,每一幅关键点特征图所对应的权重可以从17行×17列的二维矩阵G17×17来获得。二维矩阵G17×17用于表示各个关键点之间的距离d。其中,距离d以两个关键点之间经由几个中间点连接而确定。这里,关键点之间的连接关系(如,哪些点能够连接、哪些点不能连接、如何连接)预先基于人体骨骼结构而确定。例如,图4示出了关键点之间的连接关系的一种示例。如图4所示,鼻子P1和右眼P3可以直接相连,但鼻子P1与左臀P12只能经由中心点Pc作为中间点连接。这里,中心点PC是基于17个人体关键点的位置的平均值的点。从而,关键点鼻子P1与关键点右眼P3之间的距离为1,而关键点P1与左臀P12之间的距离为2。相应地,G17×17中的元素G(1,3)=1且G(1,12)=2。G17×17中包括的所有元素以及相应的元素值如下:
Figure BDA0002628913300000091
对于第i幅关键点特征图而言,在确定与第j幅关键点特征图之间的关系特征图时,第j幅关键点特征图所对应的第一权重可以基于二维矩阵G17×17中的元素G(i,j)来获得。关键点之间的距离越短,则认为其之间的关联越大。因此,可以分配较大的权重。反之亦然。
另外,作为一种可能的实施方式,每一组其他关键点特征图中的每一幅特征图所对应的第一权重可以通过将在后面描述的训练过程而学习得到。并且,将上文中所述的基于关键点之间的距离而确定的权重作为初始值。在所述初始值的基础上进行有监督的训练。
在步骤S202,针对每一幅关键点特征图,提取与其他关键点特征图中的多个的关系特征图。也就是说,不仅提取相邻关键点之间的关系,而且还考虑了远距离的关键点关系。
通过针对每一幅关键点特征图,提取与其他关键点特征图之间的关系特征图,能够引入更多的信息(如,与其他关键点相关的信息)。并且,如果将一幅关键点特征图看作是单通道的,那么由于生成了与该关键点特征图对应的多幅关系特征图,因此可以认为特征图的通道数增加。从而,通过结合关键点特征图及其对应的关系特征图,特征表达能力更强,更有助于后续关键点的检测。
沿用图3的人体关键点设置示例,在这种情况下,对于每一幅关键点特征图,分别提取其与其他16幅关键点特征图中的每一个的关系特征图。即,对于每一幅关键点特征图,将获得16幅关系特征图。当然,对于每一幅关键点特征图,也可以提取其与其他16幅关键点特征图中的任意多个(如,2个)的关系特征图。例如,在针对每一幅关键点特征图,提取其与两个其他特征图的关系特征图的情况下,可以获得8幅关系特征图。
另外,作为另一种可能的实施方式,在进行步骤S202的处理之前,还可以对在步骤S201获得的预定数量的关键点特征图进行初步的优化。具体来说,在步骤S201与步骤S202之间,可以进一步包括以下步骤。
首先,确定中心点特征图。如以上参照图4所述,所述中心点为所有关键点的平均。中心点特征图可以通过以下两种方式获得。第一种方式是,将所有关键点特征图取平均后得到的特征图作为中心点特征图。第二种方式是调整用于提取关键点特征图的卷积神经网络的结构,使其除了输出预定数量(如,17个)的关键点特征图,还进一步输出中心点特征图。
然后,提取每一幅关键点特征图与所述中心点特征图之间的关系特征图,并基于所述关系特征图更新每一幅关键点特征图。这里,提取每一幅关键点特征图与所述中心点特征图之间的关系特征图的具体方式与提取关键点特征图之间的关系特征图的方式类似。例如,针对某一幅关键点特征图,将其与中心点特征图执行卷积处理,并得到一个新的特征图。在这个新的特征图中,融合了这个关键点与中心点之间的关系。并且,将这个新的特征图作为优化后的关键点特征图。
通过提取每一幅关键点特征图与所述中心点特征图之间的关系特征图,并以得到的关系特征图替换每一幅关键点特征图,可以在每一幅关键点特征图中融合与中心相关的特征。进而,在后续的步骤S202提取各关键点之间的关系时,可以使用中心点作为连接桥来构建各关键点之间的关系。因此,在提取关键点之间的关系时,能够不仅仅提取它们之间的空间关系,而且还能够提取它们之间的骨骼关系。这样的关系是更准确的。
返回参照图2,在步骤S202之后,处理进行到步骤S203。在步骤S203,基于每一幅关键点特征图及其对应的关系特征图,更新每一幅关键点特征图。
具体来说,分别将每一幅关键点特征图及其对应的关系特征图作为输入,执行卷积处理,以融合关键点特征图及其对应的关系特征图中的特征。然后,基于卷积后得到的特征图,更新每一幅关键点特征图。例如,这里的卷积处理可以通过卷积神经网络来实现。例如,可以将这里的卷积神经网络称作融合网络。当然,这里的融合网络与在步骤S201中用于提取关键点特征图的特征提取网络以及步骤S202中用于提取关键点特征图之间的关系特征图的关系提取网络的具体网络参数(如,网络深度、节点权重等)是不同的。这里,卷积神经网络的具体结构是本领域技术人员熟知的。根据具体的功能设计要求,可以灵活地增加或减少卷积神经网络的层数,和修改各个节点的权重参数。将关键点特征图以及对应的全部关系特征图作为多个通道的输入提供至卷积神经网络。然后,由卷积神经网络输出一个通道的特征图,作为关键点特征图以及对应的全部关系特征图的卷积结果。通过以该输出的特征图来替换关键点特征图,来更新关键点特征图。
在所述卷积处理中,每一幅关系特征图都具有对应的第二权重。第二权重可以在初始值的基础上,通过将在后面描述的训练过程而学***均像素值,来确定所述第二权重的初始值。具体来说,对于一幅关系特征图,可以确定其中所包括的所有像素点的像素值的最大值或平均值,并基于该最大值或平均值来确定这幅关系特征图所对应的第二权重。
图5是示出了用于进行关键点特征图的更新过程的网络结构的示意图。在图5中,为了方便起见,以三幅关键点特征图为例,并且以分别确定每一幅关键点特征图与其他任意一幅关键点特征图的关系特征图为例进行绘制。
在图5中,分别以方块501、502、503表示在步骤S201中提取的关键点i、关键点j和关键点k的特征图。这里,需要注意的是,关键点i仅代表一类关键点,如鼻子关键点,但关键点i的特征图中并不一定意味着只有一个关键点i。例如,在多人的情况下,可能存在多个鼻子关键点。
在图5中,分别以圆圈504-509表示6个不同的卷积神经网络,用于执行步骤S202中的关系特征图的提取处理,并且以方块510-515表示得到的各幅关系特征图。举例而言,504表示输入为2通道(即,关键点i特征图和关键点j特征图),且输出为1通道(即,i、j之间的关系特征图)的卷积神经网络。块510、511分别表示关键点i与j之间的关系特征图以及关键点i与k之间的关系特征图。
另外,在图5中,分别以圆圈516-518表示3个不同的卷积神经网络,用于执行步骤S203中的特征融合处理。这三个卷积神经网络的输入均为3通道(即,一幅关键点特征图以及相关的两幅关系特征图),且输出均为1通道(即,特征融合后得到的新的特征图)。分别以方块519-521表示这三个卷积神经网络输出的经特征融合后的特征图,并且将其作为关键点i、j、k的更新后的特征图。
在图5中,示出虚线框500,以包括所有卷积神经网络。可以将虚线框500所包括的网络的整体看作关系编码网络,其接收关键点特征图作为输入,并用于对任意的关键点特征图之间的关系进行编码,最后输出关系编码后的特征图,作为更新后的关键点特征图。
返回参照图2,在步骤S203之后,处理进行到步骤S204。在步骤S204,基于更新后的关键点特征图,确定所述输入图像中各个身体部位的关键点位置。例如,作为一种可能的实施方式,基于更新后的关键点特征图,可以得到与每一种关键点对应的热度图。在该热度图中,各像素点的像素值为该点是否为关键点的概率值。所述概率值为0到1之间的值。因此,在热度图中,可以通过寻找局部极值来来确定关键点位置。
因此,在通过根据本公开实施例的图像处理方法中,通过充分的关系感知,即:不仅提取相邻关键点之间的关系,而且还考虑远距离关键点关系,从而,对于输入图像而言,可以更精确地确定关键点的位置,从而实现精准的姿态识别。此外,根据本发明的技术,即使被遮挡的身体部位的关键点也能够被可靠地预测。例如,如果某个关键点被遮挡,可以通过该关键点与其它关键点之间的关系特征图来预测该关键点的大致位置(如,右眼被遮挡,可以通过右眼-鼻子,右眼-嘴,右眼-右手等等之间的关系来预测右眼的大致位置)。
如上文中所述,图2中的步骤S201、步骤S202和步骤S203的处理都是通过具体的卷积神经网络来实现的。具体来说,通过特征提取网络从输入图像提取关键点特征图,通过关系提取网络提取所述关系特征图,并且通过融合网络基于每一幅关键点特征图及其对应的关系特征图,更新每一幅关键点特征图。
接下来,将参照图6描述用于训练所述特征提取网络、所述关系提取网络和所述融合网络的具体过程。
首先,在步骤S601,将训练图像作为输入图像提供至所述特征提取网络。这里,训练图像与在上文中的步骤S201中的输入图像之间的区别在于,训练图像是有标注数据的。也就是说,在训练数据中,各个身体部位关键点的位置是已知的。
然后,在步骤S602,基于从所述特征提取网络输出的关键点特征图,确定所述训练图像中的关键点粗略位置。这里,由于从所述特征提取网络输出的关键点特征图没有经过后续的特征融合,因此基于这样的关键点特征图得到的关键点位置是相对粗略的或相对不准确的。基于所述关键点粗略位置与真实关键点位置之间的差异而确定第一损失函数。
然后,在步骤S603,基于通过所述特征提取网络、所述关系提取网络和所述融合网络后更新的关键点位置与真实关键点位置之间的差异而确定第二损失函数。
最后,在步骤S604,基于所述第一损失函数和所述第二损失函数,调整所述特征提取网络、所述关系提取网络和所述融合网络的参数。可以基于第一损失函数和第二损失函数,确定总的损失函数。例如,可以对第一损失函数和第二损失函数求平均,来得到总的损失函数。当然,本公开并不仅限于此。还可以通过别的方式来结合第一损失函数和第二损失函数来得到总的损失函数。当总的损失函数收敛时,所述特征提取网络、所述关系提取网络和所述融合网络的训练结束。
可见,本公开通过端到端的方式学习不同关键点之间的关系,并且可以容易地扩展到任何对象的关键点关系提取。
如上所述,通过根据本公开实施例的图像处理方法,可以得到输入图像中包含的各个身体部位的关键点位置。基于各个身体部位的关键点位置,取决于具体的应用场景,例如,可以进一步估计形象(例如,虚拟人物或真实用户)的姿态,以便进行例如监视和人机交互。当然,本公开并不仅限于此。任何需要利用提取出的关键点位置的应用场景都可以类似地应用根据本公开的方法。
在上文中,参照图1至图6详细描述了根据本公开的图像处理方法。接下来,将参照图7描述根据本公开的图像处理设备。
图像处理设备700包括:关键点特征图提取装置701、关系特征图提取装置702、关键点特征图更新装置703和关键点位置确定装置704。
关键点特征图提取装置701用于基于输入图像,提取预定数量的关键点特征图,其中每一幅关键点特征图对应于一种身体部位的关键点。
这里,对应于身体部位的关键点可以理解为骨骼关键点。骨骼关键点对于描述形象(如,人、动物或虚拟形象)的姿态并预测形象行为是至关重要的。因此,对于特定形象,可以预先设置预定数量的、规定骨骼部位的关键点。例如,可以按照图3所示的示例,来预先设置对应于身体各个部位的关键点。
例如,关键点特征图提取装置701可以通过卷积神经网络来实现关键点特征图的提取处理。例如,可以将这里的卷积神经网络称作特征提取网络。卷积神经网络可以包括输入层、隐含层和输出层。输入层用于接收待识别的图像。隐含层用于对输入的图像执行特征分析和提取处理。输出层用于输出最终提取出的预定数量的关键点特征图。
隐含层可以包括卷积层、池化层和全连接层。在卷积神经网络中,特征提取可以使用若干卷积层(可能包括串联、并联、跨层连接等复杂结构)。利用多组不同参数的卷积、归一化和池化过程来提取不同层次的特征。首先利用卷积核对输入图像进行卷积,得到卷积映射。然后,利用常规的校正线性单元和批量归一化方法对卷积映射进行归一化,得到归一化卷积映射。然后,对归一化卷积映射应用最大或平均池化过程。在卷积层进行特征提取后,输出的特征图会被传递至池化层进行特征选择和信息过滤。池化层包含预设定的池化函数,其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量。例如,最大池化是将单个像素点的值替换为其相邻区域的像素点的最大值。平均池化是将单个像素点的值替换为其相邻区域的像素点的平均值。为了获得丰富的、多尺度的特征,隐含层中可以设置多个卷积层和多个池化层,并多次重复上述过程。另外,通过多次下采样过程提取多尺度特征映射。
基于由隐含层提取的多尺度特征映射,输出层可以最终输出预定数量的关键点特征图。当输入图像是真实的用户图像时,在按照图3所示的人体关键点设置的情况下,输出层将输出17幅关键点特征图。
关系特征图提取装置702用于基于所述预定数量的关键点特征图,提取能够描述每一幅关键点特征图与其他关键点特征图中的多个之间的关系的关系特征图。
具体来说,所述关系特征图提取装置702被配置为:依次将每一幅关键点特征图作为当前关键点特征图,重复地执行以下步骤。
首先,将除当前关键点特征图之外的其他关键点特征图分为多个组,其中每一组包括至少一幅关键点特征图。
然后,分别将当前关键点特征图与其他关键点特征图中的每一组作为输入,执行卷积处理。例如,这里的卷积处理可以通过卷积神经网络来实现。例如,可以将这里的卷积神经网络称作关系提取网络。当然,这里的卷积神经网络与关键点特征图提取装置701提取关键点特征图所使用的卷积神经网络的具体网络参数(如,网络深度、节点权重等)是不同的。将两个或更多幅关键点特征图作为输入提供至卷积神经网络。卷积神经网络对输入的关键点特征图进行特征提取,输出对于输入的关键点特征图的特征描述。由于输入的每一幅关键点特征图分别与关键点相关,因此输出的、作为卷积结果而获得的特征图可以看作是关键点之间关系的一种描述。换言之,通过将两幅或多幅关键点特征图执行卷积处理,可以认为得到了能够描述当前关键点特征图与每一组其他关键点特征图之间的关系。并且,作为卷积处理的结果而得到特征图可以被称为关系特征图。
例如,针对每一幅关键点特征图,可以提取其与其他关键点特征图中的每一幅特征图之间的关系特征图。或者,也可以提取其与其他关键特征图中的多幅特征图之间的关系特征图。这里,其他关键点特征图中的多幅特征图所对应的关键点并不一定仅仅包括当前考虑的关键点的相邻关键点。如下文中所述,相邻关键点可以是距离为1的关键点。其他关键点特征图中的多幅特征图所对应的关键点还可以包括当前考虑的关键点的远距离关键点(例如,距离大于1的关键点)。
另外,作为一种可能的实施方式,在所述卷积处理中,每一组其他关键点特征图中的每一幅特征图都具有对应的第一权重。
例如,可以基于每一组其他关键点特征图中的每一幅特征图所对应的身体部位与所述当前关键点特征图所对应的身体部位之间的关系,确定第一权重的值。例如,如上文中所述,可以基于关键点之间的距离来确定对应的权重。关键点之间的距离越短,则认为其之间的关联越大。因此,可以分配较大的权重。反之亦然。
另外,作为一种可能的实施方式,每一组其他关键点特征图中的每一幅特征图所对应的第一权重可以通过将在后面描述的训练过程而学习得到。并且,将上文中所述的基于关键点之间的距离而确定的权重作为初始值。在所述初始值的基础上进行有监督的训练。
关系特征图提取装置702针对每一幅关键点特征图,提取与其他关键点特征图中的多个的关系特征图。也就是说,关系特征图提取装置702不仅提取相邻关键点之间的关系,而且还考虑了远距离的关键点关系。
通过针对每一幅关键点特征图,提取与其他关键点特征图之间的关系特征图,能够引入更多的信息(如,与其他关键点相关的信息)。并且,如果将一幅关键点特征图看作是单通道的,那么由于生成了与该关键点特征图对应的多幅关系特征图,因此可以认为特征图的通道数增加。从而,通过结合关键点特征图及其对应的关系特征图,特征表达能力更强,更有助于后续关键点的检测。
沿用图3的人体关键点设置示例,在这种情况下,对于每一幅关键点特征图,分别提取其与其他16幅关键点特征图中的每一个的关系特征图。即,对于每一幅关键点特征图,将获得16幅关系特征图。当然,对于每一幅关键点特征图,也可以提取其与其他16幅关键点特征图中的任意多个(如,2个)的关系特征图。例如,在针对每一幅关键点特征图,提取其与任意两个其他特征图的关系特征图的情况下,可以获得8幅关系特征图。
另外,作为另一种可能的实施方式,在从输入图像中提取出关键点特征图之后,所述关键点特征图提取装置701还可以进一步被配置为:确定中心点特征图,其中所述中心点为所有关键点的平均;提取每一幅关键点特征图与所述中心点特征图之间的关系特征图,并基于所述关系特征图更新每一幅关键点特征图。
如上文中所述,中心点特征图可以通过以下两种方式获得。第一种方式是,将所有关键点特征图取平均后得到的特征图作为中心点特征图。第二种方式是调整用于提取关键点特征图的卷积神经网络的结构,使其除了输出预定数量(如,17幅)的关键点特征图,还进一步输出中心点特征图。
并且,提取每一幅关键点特征图与所述中心点特征图之间的关系特征图的具体方式与提取关键点特征图之间的关系特征图的方式类似。例如,针对某一幅关键点特征图,将其与中心点特征图执行卷积处理,并得到一幅新的特征图。在这幅新的特征图中,融合了这个关键点与中心点之间的关系。并且,将这幅新的特征图作为优化后的关键点特征图。
通过提取每一幅关键点特征图与所述中心点特征图之间的关系特征图,并以得到的关系特征图替换每一幅关键点特征图,可以在每一幅关键点特征图中融合与中心相关的特征。进而,在后续的关系特征图提取装置702提取各关键点之间的关系时,可以使用中心点作为连接桥来构建各关键点之间的关系。因此,在提取关键点之间的关系时,能够不仅仅提取它们之间的空间关系,而且还能够提取它们之间的骨骼关系。这样的关系是更准确的。
关键点特征图更新装置703用于基于每一幅关键点特征图及其对应的关系特征图,更新每一幅关键点特征图。
具体来说,所述关键点特征图更新装置被配置为:分别将每一幅关键点特征图及其对应的关系特征图作为输入,执行卷积处理,以融合关键点特征图及其对应的关系特征图中的特征。然后,基于卷积后得到的特征图,更新每一幅关键点特征图。例如,这里的卷积处理可以通过卷积神经网络来实现。例如,可以将这里的卷积神经网络称作融合网络。当然,这里的融合网络与所述关键点特征图提取装置提取关键点特征图所使用的特征提取网络以及所述关系特征图提取装置提取关键点特征图之间的关系特征图所使用的关系提取网络的具体网络参数(如,网络深度、节点权重等)是不同的。这里,卷积神经网络的具体结构是本领域技术人员熟知的。根据具体的功能设计要求,可以灵活地增加或减少卷积神经网络的层数,和修改各个节点的权重参数。将关键点特征图以及对应的全部关系特征图作为多个通道的输入提供至卷积神经网络。然后,由卷积神经网络输出一个通道的特征图,作为关键点特征图以及对应的全部关系特征图的卷积结果。关键点特征图更新装置703通过以该输出的特征图来替换关键点特征图,来更新关键点特征图。
在所述卷积处理中,每一幅关系特征图都具有对应的第二权重。第二权重可以在初始值的基础上,通过将在后面描述的训练过程而学***均像素值,来确定所述第二权重的初始值。具体来说,对于一幅关系特征图,可以确定其中所包括的所有像素点的像素值的最大值或平均值,并基于该最大值或平均值来确定这幅关系特征图所对应的第二权重。
关键点位置确定装置704用于基于更新后的关键点特征图,确定所述输入图像中各个身体部位的关键点位置。例如,作为一种可能的实施方式,关键点位置确定装置704基于更新后的关键点特征图,可以得到与每一种关键点对应的热度图。在该热度图中,各像素点的像素值为该点是否为关键点的概率值。所述概率值为0到1之间的值。因此,在热度图中,可以通过寻找局部极值来来确定关键点位置。
因此,在通过根据本公开实施例的图像处理设备中,通过充分的关系感知,即:不仅提取相邻关键点之间的关系,而且还考虑远距离关键点关系,从而,对于输入图像而言,可以更精确地确定关键点的位置,从而实现精准的姿态识别。此外,根据本发明的技术,即使被遮挡的身体部位的关键点也能够被可靠地预测。例如,如果某个关键点被遮挡,可以通过该关键点与其它关键点之间的关系特征图来预测该关键点的大致位置(如,右眼被遮挡,可以通过右眼-鼻子,右眼-嘴,右眼-右手等等之间的关系来预测右眼的大致位置)。
如上文中所说,关键点特征图提取装置701通过特征提取网络从输入图像提取关键点特征图,关系特征图提取装置702通过关系提取网络提取所述关系特征图,并且关键点特征图更新装置703通过融合网络基于每一幅关键点特征图及其对应的关系特征图,更新每一幅关键点特征图。
所述特征提取网络、所述关系提取网络和所述融合网络通过上文中参照图6所述的训练步骤来训练。
通过根据本公开实施例的图像处理设备,可以得到输入图像中包含的各个身体部位的关键点位置。基于各个身体部位的关键点位置,取决于具体的应用场景,例如,图像处理设备还可以进一步包括姿态估计装置,用于估计形象(例如,虚拟人物或真实用户)的姿态,以便进行例如监视和人机交互。当然,本公开并不仅限于此。任何需要利用提取出的关键点位置的应用场景都可以类似地应用根据本公开的方法。
此外,根据本公开的图像处理设备可以包括:存储器,用于在其上存储计算机程序;以及处理器,用于当执行所述存储器上存储的计算机程序时,执行以下处理:基于输入图像,提取预定数量的关键点特征图,其中每一幅关键点特征图对应于一种身体部位的关键点;基于所述预定数量的关键点特征图,提取每一幅关键点特征图的关系特征图,所述关系特征图能够描述每一幅关键点特征图与其他关键点特征图中的多个之间的关系;基于每一幅关键点特征图及其对应的关系特征图,更新每一幅关键点特征图;基于更新后的关键点特征图,确定所述输入图像中各个身体部位的关键点位置。
具体来说,根据本公开实施例的方法或设备也可以借助于图8所示的计算设备800的架构来实现。如图8所示,计算设备800可以包括总线810、一个或多个CPU820、只读存储器(ROM)830、随机存取存储器(RAM)840、连接到网络的通信端口850、输入/输出组件860、硬盘870等。计算设备800中的存储设备,例如ROM 830或硬盘870可以存储本公开提供的图像处理方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。当然,图8所示的架构只是示例性的,在实现不同的设备时,根据实际需要,可以省略图8示出的计算设备中的一个或多个组件。
本公开的实施例也可以被实现为计算机可读存储介质。根据本公开实施例的计算机可读存储介质上存储有计算机可读指令。当所述计算机可读指令由处理器运行时,可以执行参照以上附图描述的根据本公开实施例的图像处理方法。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。
迄今为止,已经参照图1到图8详细描述了根据本公开的实施例的图像处理方法、设备和介质。在根据本公开的图像处理方法、设备和介质中,基于全局关系,即:不仅提取相邻关键点之间的关系,而且还考虑远距离关键点关系,从相关的关键点中提取上下文信息来推断被遮挡的关键点,以便确定输入图像中的所有关键点位置。因此,即使被遮挡的身体部位的关键点也能够被可靠地预测。
需要说明的是,在本说明书中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
最后,还需要说明的是,上述一系列处理不仅包括以这里所述的顺序按时间序列执行的处理,而且包括并行或分别地、而不是按时间顺序执行的处理。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本公开可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过软件来实施。基于这样的理解,本公开的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁盘、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例或者实施例的某些部分所述的方法。
以上对本公开进行了详细介绍,本文中应用了具体个例对本公开的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本公开的方法及其核心思想;同时,对于本领域的一般技术人员,依据本公开的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本公开的限制。

Claims (10)

1.一种图像处理方法,包括:
基于输入图像,提取预定数量的关键点特征图,其中每一幅关键点特征图对应于一种身体部位的关键点;
基于所述预定数量的关键点特征图,提取每一幅关键点特征图的关系特征图,所述关系特征图能够描述每一幅关键点特征图与其他关键点特征图中的多个之间的关系;
基于每一幅关键点特征图及其对应的关系特征图,更新每一幅关键点特征图;以及
基于更新后的关键点特征图,确定所述输入图像中各个身体部位的关键点位置。
2.根据权利要求1所述的方法,其中在基于所述预定数量的关键点特征图,提取每一幅关键点特征图的关系特征图之前,进一步包括:
确定中心点特征图,其中所述中心点为所有关键点的平均;
提取每一幅关键点特征图与所述中心点特征图之间的关系特征图,并基于所述关系特征图更新每一幅关键点特征图。
3.根据权利要求1所述的方法,其中基于所述预定数量的关键点特征图,提取每一幅关键点特征图的关系特征图包括:
依次将每一幅关键点特征图作为当前关键点特征图,重复地执行以下步骤:
将除当前关键点特征图之外的其他关键点特征图分为多个组,其中每一组包括至少一幅关键点特征图;
分别将当前关键点特征图与其他关键点特征图中的每一组作为输入,执行卷积处理,以得到能够描述当前关键点特征图与每一组其他关键点特征图之间的关系的关系特征图。
4.根据权利要求3所述的方法,其中在所述卷积处理中,每一组其他关键点特征图中的每一幅特征图都具有对应的第一权重,
其中基于每一组其他关键点特征图中的每一幅特征图所对应的身体部位与所述当前关键点特征图所对应的身体部位之间的关系,确定第一权重的初始值。
5.根据权利要求1所述的方法,其中基于每一幅关键点特征图及其对应的关系特征图,更新每一幅关键点特征图包括:
分别将每一幅关键点特征图及其对应的关系特征图作为输入,执行卷积处理;
基于卷积后得到的特征图,更新每一幅关键点特征图。
6.根据权利要求5所述的方法,其中在所述卷积处理中,每一幅关系特征图都具有对应的第二权重,
其中基于每一幅关系特征图中所有像素点的最大像素值或平均像素值,来确定所述第二权重的初始值。
7.根据权利要求1所述的方法,其中通过特征提取网络从输入图像提取关键点特征图,通过关系提取网络提取所述关系特征图,并且通过融合网络基于每一幅关键点特征图及其对应的关系特征图,更新每一幅关键点特征图,
所述特征提取网络、所述关系提取网络和所述融合网络通过以下训练步骤来训练:
将训练图像作为输入图像提供至所述特征提取网络;
基于从所述特征提取网络输出的关键点特征图,确定所述训练图像中的关键点粗略位置,并基于所述关键点粗略位置与真实关键点位置之间的差异而确定第一损失函数;
基于通过所述特征提取网络、所述关系提取网络和所述融合网络后输出的关键点位置与真实关键点位置之间的差异而确定第二损失函数;
基于所述第一损失函数和所述第二损失函数,调整所述特征提取网络、所述关系提取网络和所述融合网络的参数。
8.一种图像处理设备,包括:
关键点特征图提取装置,用于基于输入图像,提取预定数量的关键点特征图,其中每一幅关键点特征图对应于一种身体部位的关键点;
关系特征图提取装置,用于基于所述预定数量的关键点特征图,提取每一幅关键点特征图的关系特征图,所述关系特征图能够描述每一幅关键点特征图与其他关键点特征图中的多个之间的关系;
关键点特征图更新装置,用于基于每一幅关键点特征图及其对应的关系特征图,更新每一幅关键点特征图;以及
关键点位置确定装置,用于基于更新后的关键点特征图,确定所述输入图像中各个身体部位的关键点位置。
9.一种图像处理设备,包括:
存储器,用于在其上存储计算机程序;以及
处理器,用于当执行所述存储器上存储的计算机程序时,执行以下处理:
基于输入图像,提取预定数量的关键点特征图,其中每一幅关键点特征图对应于一种身体部位的关键点;
基于所述预定数量的关键点特征图,提取每一幅关键点特征图的关系特征图,所述关系特征图能够描述每一幅关键点特征图与其他关键点特征图中的多个之间的关系;
基于每一幅关键点特征图及其对应的关系特征图,更新每一幅关键点特征图;以及
基于更新后的关键点特征图,确定所述输入图像中各个身体部位的关键点位置。
10.一种计算机可读记录介质,其上存储有计算机程序,当由处理器执行所述计算机程序执行权利要求1-7中任意一项所述的方法。
CN202010805332.2A 2020-08-12 2020-08-12 图像处理方法、设备和介质 Withdrawn CN114078193A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010805332.2A CN114078193A (zh) 2020-08-12 2020-08-12 图像处理方法、设备和介质
JP2021131444A JP7230963B2 (ja) 2020-08-12 2021-08-11 画像処理方法、装置及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010805332.2A CN114078193A (zh) 2020-08-12 2020-08-12 图像处理方法、设备和介质

Publications (1)

Publication Number Publication Date
CN114078193A true CN114078193A (zh) 2022-02-22

Family

ID=80280226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010805332.2A Withdrawn CN114078193A (zh) 2020-08-12 2020-08-12 图像处理方法、设备和介质

Country Status (2)

Country Link
JP (1) JP7230963B2 (zh)
CN (1) CN114078193A (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000251078A (ja) 1998-12-22 2000-09-14 Atr Media Integration & Communications Res Lab 人物の3次元姿勢推定方法および装置ならびに人物の肘の位置推定方法および装置
JP4077622B2 (ja) 2001-11-15 2008-04-16 独立行政法人科学技術振興機構 3次元人物動画像生成システム
JP6433149B2 (ja) 2013-07-30 2018-12-05 キヤノン株式会社 姿勢推定装置、姿勢推定方法およびプログラム
JP6617830B2 (ja) 2016-04-28 2019-12-11 富士通株式会社 骨格推定装置、骨格推定方法および骨格推定プログラム

Also Published As

Publication number Publication date
JP7230963B2 (ja) 2023-03-01
JP2022033037A (ja) 2022-02-25

Similar Documents

Publication Publication Date Title
CN111709409B (zh) 人脸活体检测方法、装置、设备及介质
US11232286B2 (en) Method and apparatus for generating face rotation image
CN111401174B (zh) 一种基于多模态信息融合的排球群体行为识别方法
EP3928248A1 (en) Neural network for skeletons from input images
CN108090561B (zh) 存储介质、电子装置、游戏操作的执行方法和装置
CN108780519A (zh) 卷积神经网络中的结构学习
CN109685037B (zh) 一种实时动作识别方法、装置及电子设备
CN110555481A (zh) 一种人像风格识别方法、装置和计算机可读存储介质
CN109101901B (zh) 人体动作识别及其神经网络生成方法、装置和电子设备
CN111666919B (zh) 一种对象识别方法、装置、计算机设备和存储介质
Ma et al. Ppt: token-pruned pose transformer for monocular and multi-view human pose estimation
CN111582342B (zh) 一种图像识别方法、装置、设备以及可读存储介质
CN112668366B (zh) 图像识别方法、装置、计算机可读存储介质及芯片
CN108985443B (zh) 动作识别方法及其神经网络生成方法、装置和电子设备
Jeong et al. Stereo saliency map considering affective factors and selective motion analysis in a dynamic environment
CN111368751A (zh) 图像处理方法、装置、存储介质及电子设备
CN113822254B (zh) 一种模型训练方法及相关装置
CN111104930A (zh) 视频处理方法、装置、电子设备及存储介质
CN112036260A (zh) 一种自然环境下多尺度子块聚合的表情识别方法及***
CN114625251A (zh) 基于vr的交互方法、装置、计算机设备及存储介质
CN111833360B (zh) 一种图像处理方法、装置、设备以及计算机可读存储介质
CN113570685A (zh) 图像处理方法及装置、电子设备、存储介质
Cao et al. RetinaMOT: rethinking anchor-free YOLOv5 for online multiple object tracking
CN113128526B (zh) 图像识别方法、装置、电子设备和计算机可读存储介质
CN113762041A (zh) 视频分类方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20220222

WW01 Invention patent application withdrawn after publication