CN114092963A - 关键点检测及模型训练方法、装置、设备和存储介质 - Google Patents
关键点检测及模型训练方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN114092963A CN114092963A CN202111196690.9A CN202111196690A CN114092963A CN 114092963 A CN114092963 A CN 114092963A CN 202111196690 A CN202111196690 A CN 202111196690A CN 114092963 A CN114092963 A CN 114092963A
- Authority
- CN
- China
- Prior art keywords
- features
- image
- information
- convolution
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000001514 detection method Methods 0.000 title claims abstract description 49
- 238000012549 training Methods 0.000 title claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 69
- 238000000605 extraction Methods 0.000 claims abstract description 55
- 230000006870 function Effects 0.000 claims description 51
- 238000010586 diagram Methods 0.000 claims description 44
- 239000011159 matrix material Substances 0.000 claims description 28
- 230000008569 process Effects 0.000 claims description 23
- 230000002708 enhancing effect Effects 0.000 claims description 19
- 230000002776 aggregation Effects 0.000 claims description 17
- 238000004220 aggregation Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 8
- 230000003213 activating effect Effects 0.000 claims description 7
- 230000003993 interaction Effects 0.000 abstract description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000006399 behavior Effects 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 210000001015 abdomen Anatomy 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 210000003800 pharynx Anatomy 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种关键点检测及模型训练方法、装置、设备和存储介质,涉及人工智能领域,具体涉及计算机视觉和深度学习技术,具体可用于行为识别、人体特效生成、娱乐游戏交互等场景下。关键点检测方法包括:对图像进行特征提取处理,以获得所述图像的图像特征;基于所述图像特征,获取所述图像中的目标的关键点的图信息,所述图信息包括:所述关键点的位置关系图,以及所述关键点中的中心点的位置信息;基于所述关键点的位置关系图和所述中心点的位置信息,获取所述关键点中的非中心点的位置信息。本公开可以提高关键点检测精度。
Description
技术领域
本公开涉及人工智能领域,具体涉及计算机视觉和深度学习技术,具体可用于行为识别、人体特效生成、娱乐游戏交互等场景下,尤其涉及一种关键点检测及模型训练方法、装置、设备和存储介质。
背景技术
随着社会的进步和科技的发展,短视频、直播、在线教育等行业不断的兴起,在各种交互场景中,基于人体关键点信息进行互动的功能需求越来越多。
相关技术中,一般采用热图或者回归坐标的方式进行人体3D关键点检测。
发明内容
本公开提供了一种关键点检测及模型训练方法、装置、设备和存储介质。
根据本公开的一方面,提供了一种关键点检测方法,包括:对图像进行特征提取处理,以获得所述图像的图像特征;基于所述图像特征,获取所述图像中的目标的关键点的图信息,所述图信息包括:所述关键点的位置关系图,以及所述关键点中的中心点的位置信息;基于所述关键点的位置关系图和所述中心点的位置信息,获取所述关键点中的非中心点的位置信息。
根据本公开的另一方面,提供了一种关键点检测模型的训练方法,包括:对图像样本进行特征提取处理,以获得所述图像样本的图像特征;基于所述图像特征,获取所述图像样本中的目标的关键点的预测图信息,所述预测图信息包括:所述关键点的预测位置关系图,以及所述关键点中的中心点的预测位置信息;基于所述预测位置关系图和所述预测位置信息,构建总损失函数;基于所述总损失函数,训练关键点检测模型。
根据本公开的另一方面,提供了一种关键点检测装置,包括:特征提取模块,用于对图像进行特征提取处理,以获得所述图像的图像特征;图信息提取模块,用于基于所述图像特征,获取所述图像中的目标的关键点的图信息,所述图信息包括:所述关键点的位置关系图,以及所述关键点中的中心点的位置信息;确定模块,用于基于所述关键点的位置关系图和所述中心点的位置信息,获取所述关键点中的非中心点的位置信息。
根据本公开的另一方面,提供了一种关键点图信息提取模型的训练装置,包括:特征提取模块,用于对图像样本进行特征提取处理,以获得所述图像样本的图像特征;图信息提取模块,用于基于所述图像特征,获取所述图像样本中的目标的关键点的预测图信息,所述预测图信息包括:所述关键点的预测位置关系图,以及所述关键点中的中心点的预测位置信息;构建模块,用于基于所述预测位置关系图和所述预测位置信息,构建总损失函数;训练模块,用于基于所述总损失函数,训练关键点检测模型。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。
根据本公开的技术方案,可以提高关键点检测精度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的示意图;
图2是根据本公开第二实施例的示意图;
图3是根据本公开第三实施例的示意图;
图4是根据本公开第四实施例的示意图;
图5是根据本公开第五实施例的示意图;
图6是根据本公开第六实施例的示意图;
图7是根据本公开第七实施例的示意图;
图8是根据本公开第八实施例的示意图;
图9是根据本公开第九实施例的示意图;
图10是根据本公开第十实施例的示意图;
图11是根据本公开第十一实施例的示意图;
图12是用来实现本公开实施例的关键点检测或关键点图信息提取模型的训练方法中任一方法的电子设备的示意图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
相关技术中,一般采用热图或者回归坐标的方式进行人体3D关键点检测。然而,这种定位方式精度存在不足。
为了提高关键点检测的精度,本公开提供如下实施例。
图1是根据本公开第一实施例的示意图,本实施例提供一种关键点检测方法,该方法包括:
101、对图像进行特征提取处理,以获得所述图像的图像特征。
102、基于所述图像特征,获取所述图像中的目标的关键点的图信息,所述图信息包括:所述关键点的位置关系图,以及所述关键点中的中心点的位置信息。
103、基于所述关键点的位置关系图和所述中心点的位置信息,获取所述关键点中的非中心点的位置信息。
本实施例的执行主体可以称为关键点检测装置,关键点检测装置可以为软件、硬件或者软硬结合,该装置可以位于电子设备中。该电子设备可以位于服务端或者用户终端,服务端可以为本地服务器或者云端,用户终端可以包括移动设备(如手机、平板电脑)、车载终端(如车机)、可穿戴式设备(如智能手表、智能手环)、智能家居设备(如智能电视、智能音箱)等。
关键点检测可以应用于多种场景,比如,行为识别,人体特效生成,娱乐游戏交互等场景等。
以用户终端执行为例,如图2所示,可以利用用户终端200(比如手机)上的摄像头201,采集人体图像,传输给用户终端上的需要进行人体互动的APP 202,该APP可以在用户终端本地识别出人体的3D关键点。当然,可以理解的是,APP也可以将人体图像发送给云端,由云端进行3D关键点的定位。
图像是指包含目标的图像,目标是指待检测关键点的对象,比如可以为人脸、手部、人体、动物等。以目标为人体为例,图像可以具体为人体图像。
获取图像后,可以采用各种相关的特征提取网络,提取图像的图像特征。特征提取网络比如为深度卷积神经网络(Deep Convolutional Neural Network,DCNN),其骨干网络(backbone)比如为Hourglass。
基于目标的不同,可以设置不同的待检测的关键点。比如,针对人体,关键点可以具体为3D关键点,3D关键点是指关键点的位置信息为三维空间信息,一般可以用二维的(x,y)和深度信息表示。
如图3所示,可以包括:头顶、鼻子、咽部、左右肩部、左右肘部、左右手部、胃部、下腹部、左右髋部、左右膝盖、左右脚部共17个关键点。
关键点可以分为中心点和非中心点,中心点为关键点中的一个,可以设置,比如,设置下腹部的关键点为中心点,其余为非中心点。比如,参见图3,中心点用黑色圆圈表示,非中心点用白色圆圈表示。
位置关系图用于表明关键点之间的位置关系,进一步地,关键点为3D关键点时,位置关系图为3D位置关系图,或者称为3D结构图、3D向量图等。
位置关系图包括节点和边,节点即为每个关键点,边为节点之间的带方向的连接线。比如,图3为一个人体的关键点的位置关系图,其中包括的各个节点为各个关键点,各个节点之间的边用有向箭头表示。
在关键点为3D关键点时,中心点的位置信息为中心点的3D位置信息,具体包括:中心点的2D热图和中心点的深度信息。
热图还可以称为热力图、高斯热图等,中心点在热图中对应一个点,
2D热图是指中心点对应的热图中的点为2D的,可以将点的2D坐标(x,y)作为中心点的2D位置信息。
假设三维空间的坐标表示为(x,y,z),深度信息一般为1~4000之间的值,通过相机内参可以转换为具体的三维空间z方向的数值。
因此,基于中心点的2D热图和深度信息,可以获得中心点的3D位置信息(x,y,z)。
获得中心点的3D位置信息,以及关键点的3D位置关系图后,可以逐个节点解码,以获得各个关键点的3D位置信息。
基于中心点的2D热图和深度信息后,确定中心点的3D坐标为(x0,y0,z0),假位置关系图中可以包括有向边的信息,比如,图3中,黑色圆点(中心节点)与其连接的白色圆点之间的有向边的3D坐标表示为(Δx,Δy,Δz),则与黑色圆点连接的白色圆点的3D坐标为(x0+Δx,y0+Δy,z0+Δz)。其余节点的解码过程类似。
因此,基于图像特征可以获得中心点的位置信息,基于中心点的位置信息和位置关系图,可以获得非中心点的位置信息,从而获得全部的关键点的位置信息。
以人体关键点检测为例,可以采用深度神经网络检测人体关键点的3D位置信息。
其中,人体关键点的位置关系图可以称为人体关键点的3D向量图,中心点的位置信息可以具体为中心点的3D位置信息,提取3D向量图和中心点的3D位置信息的网络可以称为关键点图信息提取模型(或网络),基于上述的3D向量图和中心点的3D位置信息获得人体关键点的3D位置信息的网络可以称为解码网络。
如图4所示,人体图像输入到关键点图信息提取模型401中后,关键点图信息提取模型401可以对人体图像进行处理,以获得人体关键点的3D向量图和关键点中的中心点的3D位置信息,之后,解码网络402可以对输入的3D向量图和中心点的3D位置信息,进行逐个节点的解码,以获得非中心点的3D位置信息,由于之前已经获得了中心点的3D位置信息,从而获得了全部的关键点的3D位置信息。
进一步地,关键点信息提取模型可以包括:图像特征提取网络4011和图信息提取网络4012。
图像特征提取网络4011对输入的人体图像进行图像特征提取,以获得图像特征。图像特征提取网络可以为DCNN,具体的骨干网络比如为Hourglass。
图信息提取网络4012对输入的图像特征进行处理,以获得人体关键点的3D向量图和中心点的3D位置信息。
本公开实施例中,通过基于图像特征可以获得中心点的位置信息和位置关系图,以及,基于中心点的位置信息和位置关系图获得非中心点的位置信息,即,在关键点定位时可以参考位置关系图,可以提高关键点的检测精度。
一些实施例中,所述基于所述图像特征,获取所述图像中的目标的关键点的图信息,包括:基于所述目标的关键点的位置通道的个数,对所述图像特征进行增强处理,以获得图卷积增强特征;基于所述图卷积增强特征,获得所述图信息。
其中,如图4所示,基于图像特征获取关键点的图信息的网络可以称为图信息提取网络。
进一步地,如图5所示,图信息提取网络可以包括:图卷积网络和输出网络。
图卷积网络的输入和输出分别为图像特征和图卷积增强特征。即,图卷积网络可以基于所述目标的关键点的图特征,对所述图像特征进行增强处理,以获得图卷积增强特征。
图卷积增强特征是对图像特征进行增强后的特征,增强时考虑了关键点的位置特征,并且可以采用卷积处理方式,因此,可以称为图卷积增强特征,可以理解的是,也可以命名为其他名称。关键点的位置特征是基于图像特征投影到位置通道上获得的,具体的获取方式可以参见后续描述。
输出网络的输入和输出分别为图卷积增强特征和图信息。即,输出网络可以基于所述图卷积增强特征,获得所述图信息。
每种图信息可以对应一种输出网络。
进一步地,中心点的3D位置信息可以包括:中心点的2D热图和深度信息,因此,输出网络可以为3个输出网络,分别用于输出人体关键点的3D向量图、中心点的2D热图和中心点的深度信息。
图5中,这三个输出网络可以均为卷积神经网络(Convolutional NeuralNetwork,CNN),分别表示为:第一输出卷积网络、第二输出卷积网络和第三输出卷积网络。
通过基于目标的关键点的位置通道数,获得图卷积增强特征,进而基于图卷积增强特征获得关键点的图信息,可以在图像特征中引入关键点的位置特征,从而可以获得关键点的位置关系图以及中心点的位置信息这些图信息。
一些实施例中,所述所述基于所述关键点的位置通道的个数,对所述图像特征进行增强处理,以获得图卷积增强特征,包括:对所述图像特征进行加权处理,以获得加权图像特征;基于所述关键点的位置通道的个数,确定从所述图像特征的图像通道域到所述关键点的位置通道域的投影矩阵;基于所述投影矩阵,将所述加权图像特征投影到所述位置通道域,以获得所述关键点的位置通道的聚合特征;基于所述聚合特征,获得所述关键点的位置通道的位置特征;基于所述投影矩阵的转置矩阵,将所述位置特征反投影到所述图像通道域,以获得融合特征;基于所述图像特征和所述融合特征,获得所述图卷积增强特征。
其中,图卷积网络可以如图6所示。图6中,图像特征用x表示,维度为H*W*D,其中,H表示高度、W表示宽度、D表示通道数。
如图6所示,加权图像特征用F(x)表示,F(x)的维度与x的维度一致,即H*W*D。
F(x)是对x对应各个通道进行加权后获得的,比如,x一共为D个通道,则可以对第一通道上的H*W个像素值,用第一通道对应的权重系数进行加权;对第二通道上的H*W个像素值,用第二通道对应的权重系数进行加权;依此类推。不同通道上的权重系数可以相同或不同。
一些实施例中,所述图像特征为多个通道的图像特征,所述对所述图像特征进行加权处理,以获得加权图像特征,包括:对所述多个通道中的各个通道的图像特征进行池化、一维卷积和激活处理,以确定所述各个通道的权重系数;基于所述各个通道的权重系数,对所述各个通道的图像特征进行加权处理,以获得所述加权图像特征。
具体地,如图6所示,可以是对应图像特征的每个通道,分别进行池化,如平均池化(avg pooling)、1*1卷积、激活(如sigmoid激活)后,获得各个通道上的权重系数,即,权重系数的维度可以为1*1*D。
通过对图像特征进行池化、一维卷积和激活处理,可以获得各个通道的图像特征的权重系数,进而可以基于权重系数获得加权图像特征。
图6中,图像通道的个数用D表示,关键点的位置通道的个数用M表示,M和D都为设定值,一般来讲,D的数值较大,M可以选择为关键点的个数*位置坐标的维度,比如,关键点的个数为17个,关键点是3D关键点,则M=17*3=51。
图像通道所在的空间域可以称为图像通道域,位置通道所在的空间域可以称为位置通道域,图6中,从图像通道域到位置通道域之间的投影矩阵用θ(x)表示,θ(x)的维度是M*H*W。
具体地,可以采用M个1*1的卷积核,对图像特征x进行卷积处理,以获得投影矩阵θ(x)。
获得加权图像特征F(x)和投影矩阵θ(x)后,可以将两者进行相乘,以将加权图像特征投影到位置通道域。进一步地,在相乘之前,还可以采用1*1的卷积核,对加权图像特征F(x)进行卷积处理,处理后的加权图像特征的维度也为H*W*D。
投影到位置通道域的特征可以称为关键点的位置通道的聚合特征,用V表示,V的维度为M*D。
获得聚合特征后,可以对聚合特征进行解析,获得各个位置通道的位置特征,这些位置特征与关键点的位置信息相关,之后可以基于位置特征获得关键点的位置信息。
一些实施例中,所述基于所述聚合特征,获得所述关键点的位置通道的位置特征,包括:对所述聚合特征进行多个尺度的一维卷积处理,以获得多个尺度的特征;对所述多个尺度的特征进行堆叠处理,以获得堆叠特征;对所述堆叠特征进行多维卷积处理,以获得卷积后特征,所述多维卷积的维度与所述多个尺度的个数相同;基于所述聚合特征和所述卷积后特征,获得所述位置特征。
其中,如图6所示,多个尺度的一维卷积为三个,即,可以采用三个1*1卷积核对聚合特征V进行处理,这三个卷积核的参数分别为3、7、11,每个一维卷积处理后的各个尺度的特征的维度为M*D。
堆叠是指将多个尺度的特征组合在一起,比如,三个尺度的特征经过组合,变为维度为M*D*3的特征。
之后,可以采用3*3的卷积进行处理,以获得位置特征。
图6中,关键点的位置通道的位置特征用GVM表示,维度为M*D。
通过对聚合特征进行多尺度的卷积处理,可以获得更丰富的信息,进而可以提高关键点检测的精度。
投影矩阵的转置矩阵用θt表示,其维度为H*W*D。
反投影是指用位置特征GVM乘以投影矩阵的转置矩阵,从而可以获得融合特征,融合特征用K(x)表示,维度为H*W*D。
获得融合特征K(x)后,可以用原始的图像特征x与融合特征K(x)相加,以获得图卷积增强特征G(x),G(x)的维度为H*W*D。
通过上述的加权、卷积、投影、反投影等处理,可以获得融合关键点的位置特征的图卷积增强特征,进而可以基于图卷积增强特征获得关键点的图信息。
一些实施例中,所述位置关系图为3D位置关系图,所述中心点的位置信息包括:2D热图和深度信息,所述基于所述图卷积增强特征,获得所述图信息,包括:对所述图卷积增强特征,进行第一卷积处理,以获得所述3D位置关系图;对所述图卷积增强特征,进行第二卷积处理,以获得所述中心点的2D热图;对所述图卷积增强特征,进行第三卷积处理,以获得所述中心点的深度信息。
如图5所示,第一卷积处理、第二卷积处理和第三卷积处理对应的网络可以称为第一输出卷积网络、第二输出卷积网络和第三输出卷积网络。
这三个网络可以均为CNN网络,具体地可以不同。
比如,对应3D向量图,第一卷积处理的卷积核的维度为H*W*M,M=关键点个数*坐标个数,比如3D检测,关键点为17个,则M=51,H和W是图像的高度和宽度。
对应中心点的2D热图,第二卷积处理的卷积核的维度为H*W*1,即,可以检测出一个热图,即中心点的2D热图。
对应中心点的深度信息,第三卷积处理的卷积核的维度为H*W*1,即,可以检测出一个深度信息。
通过采用卷积处理,可以基于图卷积增强特征获得关键点的图信息。
一些实施例中,所述位置关系图中包括不同关键点之间的有向边的信息,所述基于所述关键点的位置关系图和所述中心点的位置信息,获取所述关键点中的非中心点的位置信息,包括:从所述中心点的位置信息开始,基于所述有向边的信息,依次解码存在连接关系的非中心点的位置信息。
比如,基于中心点的2D热图和深度信息后,确定中心点的3D坐标为(x0,y0,z0),假位置关系图中可以包括有向边的信息,比如,图3中,黑色圆点(中心节点)与其连接的白色圆点之间的有向边的3D坐标表示为(Δx,Δy,Δz),则与黑色圆点连接的白色圆点的3D坐标为(x0+Δx,y0+Δy,z0+Δz)。其余节点的解码过程类似。
通过从中心点的位置信息开始,依次解码各个非中心点的位置信息,可以获得各个关键点的位置信息。
上述以基于图卷积增强特征获得中心点的深度信息为例,可以理解的是,也可以是图信息包括位置关系图和中心点的2D热图,中心点的深度信息可以基于用户使用的硬件设备获得,比如,用户使用具有深度感应装置的装置,基于该装置可以获得中心点的深度信息,进而可以基于中心点的深度信息进行后续处理。或者,基于该装置可以获取全部关键点的深度信息,上述处理过程只需要构建2D热图。
本公开实施例中,针对人体图像的3D关键点检测,通过获得关键点的图信息,基于图信息进行3D关键点检测,可以解决仅依据热图或回归方式造成的精度差的问题,提升了3D关键点检测的精度。
图7是本公开第七实施例的示意图,本实施例提供一种关键点图信息提取模型的训练方法,该方法包括:
701、对图像样本进行特征提取处理,以获得所述图像样本的图像特征。
702、基于所述图像特征,获取所述图像样本中的目标的关键点的预测图信息,所述预测图信息包括:所述关键点的预测位置关系图,以及所述关键点中的中心点的预测位置信息。
703、基于所述预测位置关系图和所述预测位置信息,构建总损失函数。
704、基于所述总损失函数,训练关键点检测模型。
其中,训练阶段采用的图像可以称为图像样本,可以从已有的训练集中获取图像样本。
获取图像样本时,还可以对图像样本中的目标进行人工标注等处理,获得图像样本中的目标的真值,真值即为目标的真实结果。
在3D关键点检测时,真值可以包括:
所述目标的真实3D位置关系图、所述中心点的真实2D热图和所述中心点的真实深度信息。
其中,中心点的真实深度信息就是一个具体的值,可以采用人工标注,该值一般为1~4000之间的一个值。
以目标为人体为例,对应两个人体,真实3D位置关系图可以如图8所示。
中心点的真实2D热图可以基于真实2D热图获得,真实2D热图可以采用人工方式等进行标注,2D热图是指对应各个关键点标注出其2D位置,比如,参见图9,为人体对应的2D热图,每个黑色圆点对应一个关键点。
因此,可以获得真实3D位置关系图、中心点的真实2D热图和真实深度信息。
与应用阶段的图信息对应,训练阶段的该信息可以称为预测图信息。
一些实施例中,所述预测位置关系图为预测3D位置关系图,所述预测位置信息包括:预测2D热图和预测深度信息,所述基于所述预测位置关系图和所述预测位置信息,构建总损失函数,包括:基于所述预测3D位置关系图和所述目标的真实3D位置关系图,构建第一损失函数;基于所述预测2D热图和所述中心点的真实2D热图,构建第二损失函数;基于所述预测深度信息和所述中心点的真实深度信息,构建第三损失函数;基于所述第一损失函数、所述第二损失函数和所述第三损失函数,构建所述总损失函数。
上述的第一损失函数、第二损失函数和第三损失函数的具体公式不限定,比如,可以是L1损失函数、L2损失函数、交叉熵损失函数等。
构建总损失函数后,基于总损失函数进行训练可以包括:基于总损失函数调整模型参数,直至达到结束条件,结束条件可以包括:预设的迭代次数或者损失函数收敛,将达到结束条件时的模型作为最终模型。
其中,关键点图信息提取模型中包括的深度神经网络可以具体包括:图像特征提取网络和图信息提取网络,图信息提取网络可以包括:图卷积网络和输出卷积网络,因此,调整模型参数时可以是具体调整上述涉及的网络的参数。
可以理解的是,模型训练阶段(图7对应的实施例)和模型应用阶段(图1对应的实施例)的相应过程的原理是一致的,本实施例不再详述,具体内容可以参见上述应用阶段的描述。
本公开实施例中,通过获得预测图信息,基于预测图信息构建总损失函数,可以在模型训练时参见关键点的图信息,可以提高关键点图信息提取模型的精度,进而提高关键点检测的精度。
图9是本公开第九实施例的示意图,本实施例提供一种关键点检测装置,该装置900包括:特征提取模块901、图信息提取模块902和确定模块903。
特征提取模块901用于对图像进行特征提取处理,以获得所述图像的图像特征;图信息提取模块902用于基于所述图像特征,获取所述图像中的目标的关键点的图信息,所述图信息包括:所述关键点的位置关系图,以及所述关键点中的中心点的位置信息;确定模块903用于基于所述关键点的位置关系图和所述中心点的位置信息,获取所述关键点中的非中心点的位置信息。
一些实施例中,所述图信息提取模块902包括:增强单元,用于基于所述关键点的位置通道的个数,对所述图像特征进行增强处理,以获得图卷积增强特征;获取单元,用于基于所述图卷积增强特征,获得所述图信息。
一些实施例中,所述增强单元具体用于:对所述图像特征进行加权处理,以获得加权图像特征;基于所述关键点的位置通道的个数,确定从所述图像特征的图像通道域到所述关键点的位置通道域的投影矩阵;基于所述投影矩阵,将所述加权图像特征投影到所述位置通道域,以获得所述关键点的位置通道的聚合特征;基于所述聚合特征,获得所述关键点的位置通道的位置特征;基于所述投影矩阵的转置矩阵,将所述位置特征反投影到所述图像通道域,以获得融合特征;基于所述图像特征和所述融合特征,获得所述图卷积增强特征。
一些实施例中,所述图像特征为多个通道的图像特征,所述增强单元进一步具体用于:对所述多个通道中的各个通道的图像特征进行池化、一维卷积和激活处理,以确定所述各个通道的权重系数;基于所述各个通道的权重系数,对所述各个通道的图像特征进行加权处理,以获得所述加权图像特征。
一些实施例中,所述增强单元进一步具体用于:对所述聚合特征进行多个尺度的一维卷积处理,以获得多个尺度的特征;对所述多个尺度的特征进行堆叠处理,以获得堆叠特征;对所述堆叠特征进行多维卷积处理,以获得卷积后特征,所述多维卷积的维度与所述多个尺度的个数相同;基于所述聚合特征和所述卷积后特征,获得所述位置特征。
一些实施例中,所述位置关系图为3D位置关系图,所述中心点的位置信息包括:2D热图和深度信息,所述获取单元具体用于:对所述图卷积增强特征,进行第一卷积处理,以获得所述3D位置关系图;对所述图卷积增强特征,进行第二卷积处理,以获得所述中心点的2D热图;对所述图卷积增强特征,进行第三卷积处理,以获得所述中心点的深度信息。
一些实施例中,所述位置关系图中包括不同关键点之间的有向边的信息,所述确定模块903具体用于:从所述中心点的位置信息开始,基于所述有向边的信息,依次解码存在连接关系的非中心点的位置信息。
本公开实施例中,通过基于多个阶段的检测结果获得关键点检测结果,可以在目标结果中参考尺度信息,通过获得多个阶段的检测结果时考虑位置编码,可以参考距离信息,因此,关键点检测结果参考了尺度信息和距离信息,可以提高关键点检测精度。
图10是本公开第十实施例的示意图,本实施例提供一种关键点检测模型的训练装置,该装置1000包括:特征提取模块1001、图信息提取模块1002、构建模块1003和训练模块1004。
特征提取模块1001用于对图像样本进行特征提取处理,以获得所述图像样本的图像特征;图信息提取模块1002用于基于所述图像特征,获取所述图像样本中的目标的关键点的预测图信息,所述预测图信息包括:所述关键点的预测位置关系图,以及所述关键点中的中心点的预测位置信息;构建模块1003用于基于所述预测位置关系图和所述预测位置信息,构建总损失函数;训练模块1004用于基于所述总损失函数,训练关键点检测模型。
一些实施例中,所述预测位置关系图为预测3D位置关系图,所述预测位置信息包括:预测2D热图和预测深度信息,所述构建模块1003具体用于:基于所述预测3D位置关系图和所述目标的真实3D位置关系图,构建第一损失函数;基于所述预测2D热图和所述中心点的真实2D热图,构建第二损失函数;基于所述预测深度信息和所述中心点的真实深度信息,构建第三损失函数;基于所述第一损失函数、所述第二损失函数和所述第三损失函数,构建所述总损失函数。
一些实施例中,所述图信息提取模块1002包括:增强单元,用于基于所述关键点的位置通道的个数,对所述图像特征进行增强处理,以获得图卷积增强特征;获取单元,用于基于所述图卷积增强特征,获得所述预测图信息。
一些实施例中,所述增强单元具体用于:对所述图像特征进行加权处理,以获得加权图像特征;基于所述关键点的位置通道的个数,确定从所述图像特征的图像通道域到所述关键点的位置通道域的投影矩阵;基于所述投影矩阵,将所述加权图像特征投影到所述位置通道域,以获得所述关键点的位置通道的聚合特征;基于所述聚合特征,获得所述关键点的位置通道的位置特征;基于所述投影矩阵的转置矩阵,将所述位置特征反投影到所述图像通道域,以获得融合特征;基于所述图像特征和所述融合特征,获得所述图卷积增强特征。
一些实施例中,所述图像特征为多个通道的图像特征,所述增强单元进一步具体用于:对所述多个通道中的各个通道的图像特征进行池化、一维卷积和激活处理,以确定所述各个通道的权重系数;基于所述各个通道的权重系数,对所述各个通道的图像特征进行加权处理,以获得所述加权图像特征。
一些实施例中,所述增强单元进一步具体用于:对所述聚合特征进行多个尺度的一维卷积处理,以获得多个尺度的特征;对所述多个尺度的特征进行堆叠处理,以获得堆叠特征;对所述堆叠特征进行多维卷积处理,以获得卷积后特征,所述多维卷积的维度与所述多个尺度的个数相同;基于所述聚合特征和所述卷积后特征,获得所述位置特征。
一些实施例中,所述预测位置关系图为预测3D位置关系图,所述中心点的预测位置信息包括:预测2D热图和预测深度信息,所述获取单元具体用于:对所述图卷积增强特征,进行第一卷积处理,以获得所述预测3D位置关系图;对所述图卷积增强特征,进行第二卷积处理,以获得所述中心点的预测2D热图;对所述图卷积增强特征,进行第三卷积处理,以获得所述中心点的预测深度信息。
本公开实施例中,通过基于多个阶段的检测结果构建总损失函数,可以在总损失函数中参考尺度信息,通过获得多个阶段的检测结果时考虑位置编码,可以参考距离信息,因此,总损失函数参考了尺度信息和距离信息,可以提高关键点检测模型的精度。
可以理解的是,本公开实施例中,不同实施例中的相同或相似内容可以相互参考。
可以理解的是,本公开实施例中的“第一”、“第二”等只是用于区分,不表示重要程度高低、时序先后等。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图11所示,电子设备1100包括计算单元1101,其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM 1103中,还可存储电子设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
电子设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106,例如键盘、鼠标等;输出单元1107,例如各种类型的显示器、扬声器等;存储单元1108,例如磁盘、光盘等;以及通信单元1109,例如网卡、调制解调器、无线通信收发机等。通信单元1109允许电子设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理,例如关键点检测方法或关键点检测模型的训练方法。例如,在一些实施例中,关键点检测方法或关键点检测模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到电子设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时,可以执行上文描述的关键点检测方法或关键点检测模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行关键点检测方法或关键点检测模型的训练方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式***的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (31)
1.一种关键点检测方法,包括:
对图像进行特征提取处理,以获得所述图像的图像特征;
基于所述图像特征,获取所述图像中的目标的关键点的图信息,所述图信息包括:所述关键点的位置关系图,以及所述关键点中的中心点的位置信息;
基于所述关键点的位置关系图和所述中心点的位置信息,获取所述关键点中的非中心点的位置信息。
2.根据权利要求1所述的方法,其中,所述基于所述图像特征,获取所述图像中的目标的关键点的图信息,包括:
基于所述关键点的位置通道的个数,对所述图像特征进行增强处理,以获得图卷积增强特征;
基于所述图卷积增强特征,获得所述图信息。
3.根据权利要求2所述的方法,其中,所述基于所述关键点的位置通道的个数,对所述图像特征进行增强处理,以获得图卷积增强特征,包括:
对所述图像特征进行加权处理,以获得加权图像特征;
基于所述关键点的位置通道的个数,确定从所述图像特征的图像通道域到所述关键点的位置通道域的投影矩阵;
基于所述投影矩阵,将所述加权图像特征投影到所述位置通道域,以获得所述关键点的位置通道的聚合特征;
基于所述聚合特征,获得所述关键点的位置通道的位置特征;
基于所述投影矩阵的转置矩阵,将所述位置特征反投影到所述图像通道域,以获得融合特征;
基于所述图像特征和所述融合特征,获得所述图卷积增强特征。
4.根据权利要求3所述的方法,其中,所述图像特征为多个通道的图像特征,所述对所述图像特征进行加权处理,以获得加权图像特征,包括:
对所述多个通道中的各个通道的图像特征进行池化、一维卷积和激活处理,以确定所述各个通道的权重系数;
基于所述各个通道的权重系数,对所述各个通道的图像特征进行加权处理,以获得所述加权图像特征。
5.根据权利要求3所述的方法,其中,所述基于所述聚合特征,获得所述关键点的位置通道的位置特征,包括:
对所述聚合特征进行多个尺度的一维卷积处理,以获得多个尺度的特征;
对所述多个尺度的特征进行堆叠处理,以获得堆叠特征;
对所述堆叠特征进行多维卷积处理,以获得卷积后特征,所述多维卷积的维度与所述多个尺度的个数相同;
基于所述聚合特征和所述卷积后特征,获得所述位置特征。
6.根据权利要求2-5任一项所述的方法,其中,所述位置关系图为3D位置关系图,所述中心点的位置信息包括:2D热图和深度信息,所述基于所述图卷积增强特征,获得所述图信息,包括:
对所述图卷积增强特征,进行第一卷积处理,以获得所述3D位置关系图;
对所述图卷积增强特征,进行第二卷积处理,以获得所述中心点的2D热图;
对所述图卷积增强特征,进行第三卷积处理,以获得所述中心点的深度信息。
7.根据权利要求1-5任一项所述的方法,其中,所述位置关系图中包括不同关键点之间的有向边的信息,所述基于所述关键点的位置关系图和所述中心点的位置信息,获取所述关键点中的非中心点的位置信息,包括:
从所述中心点的位置信息开始,基于所述有向边的信息,依次解码存在连接关系的非中心点的位置信息。
8.一种关键点图信息提取模型的训练方法,包括:
对图像样本进行特征提取处理,以获得所述图像样本的图像特征;
基于所述图像特征,获取所述图像样本中的目标的关键点的预测图信息,所述预测图信息包括:所述关键点的预测位置关系图,以及所述关键点中的中心点的预测位置信息;
基于所述预测位置关系图和所述预测位置信息,构建总损失函数;
基于所述总损失函数,训练关键点检测模型。
9.根据权利要求8所述的方法,其中,所述预测位置关系图为预测3D位置关系图,所述预测位置信息包括:预测2D热图和预测深度信息,所述基于所述预测位置关系图和所述预测位置信息,构建总损失函数,包括:
基于所述预测3D位置关系图和所述目标的真实3D位置关系图,构建第一损失函数;
基于所述预测2D热图和所述中心点的真实2D热图,构建第二损失函数;
基于所述预测深度信息和所述中心点的真实深度信息,构建第三损失函数;
基于所述第一损失函数、所述第二损失函数和所述第三损失函数,构建所述总损失函数。
10.根据权利要求8或9所述的方法,其中,所述基于所述图像特征,获取所述图像中的目标的关键点的预测图信息,包括:
基于所述关键点的位置通道的个数,对所述图像特征进行增强处理,以获得图卷积增强特征;
基于所述图卷积增强特征,获得所述预测图信息。
11.根据权利要求10所述的方法,其中,所述基于所述关键点的位置通道的个数,对所述图像特征进行增强处理,以获得图卷积增强特征,包括:
对所述图像特征进行加权处理,以获得加权图像特征;
基于所述关键点的位置通道的个数,确定从所述图像特征的图像通道域到所述关键点的位置通道域的投影矩阵;
基于所述投影矩阵,将所述加权图像特征投影到所述位置通道域,以获得所述关键点的位置通道的聚合特征;
基于所述聚合特征,获得所述关键点的位置通道的位置特征;
基于所述投影矩阵的转置矩阵,将所述位置特征反投影到所述图像通道域,以获得融合特征;
基于所述图像特征和所述融合特征,获得所述图卷积增强特征。
12.根据权利要求11所述的方法,其中,所述图像特征为多个通道的图像特征,所述对所述图像特征进行加权处理,以获得加权图像特征,包括:
对所述多个通道中的各个通道的图像特征进行池化、一维卷积和激活处理,以确定所述各个通道的权重系数;
基于所述各个通道的权重系数,对所述各个通道的图像特征进行加权处理,以获得所述加权图像特征。
13.根据权利要求11所述的方法,其中,所述基于所述聚合特征,获得所述关键点的位置通道的位置特征,包括:
对所述聚合特征进行多个尺度的一维卷积处理,以获得多个尺度的特征;
对所述多个尺度的特征进行堆叠处理,以获得堆叠特征;
对所述堆叠特征进行多维卷积处理,以获得卷积后特征,所述多维卷积的维度与所述多个尺度的个数相同;
基于所述聚合特征和所述卷积后特征,获得所述位置特征。
14.根据权利要求10所述的方法,其中,所述预测位置关系图为预测3D位置关系图,所述中心点的预测位置信息包括:预测2D热图和预测深度信息,所述基于所述图卷积增强特征,获得所述预测图信息,包括:
对所述图卷积增强特征,进行第一卷积处理,以获得所述预测3D位置关系图;
对所述图卷积增强特征,进行第二卷积处理,以获得所述中心点的预测2D热图;
对所述图卷积增强特征,进行第三卷积处理,以获得所述中心点的预测深度信息。
15.一种关键点检测装置,包括:
特征提取模块,用于对图像进行特征提取处理,以获得所述图像的图像特征;
图信息提取模块,用于基于所述图像特征,获取所述图像中的目标的关键点的图信息,所述图信息包括:所述关键点的位置关系图,以及所述关键点中的中心点的位置信息;
确定模块,用于基于所述关键点的位置关系图和所述中心点的位置信息,获取所述关键点中的非中心点的位置信息。
16.根据权利要求15所述的装置,其中,所述图信息提取模块包括:
增强单元,用于基于所述关键点的位置通道的个数,对所述图像特征进行增强处理,以获得图卷积增强特征;
获取单元,用于基于所述图卷积增强特征,获得所述图信息。
17.根据权利要求16所述的装置,其中,所述增强单元具体用于:
对所述图像特征进行加权处理,以获得加权图像特征;
基于所述关键点的位置通道的个数,确定从所述图像特征的图像通道域到所述关键点的位置通道域的投影矩阵;
基于所述投影矩阵,将所述加权图像特征投影到所述位置通道域,以获得所述关键点的位置通道的聚合特征;
基于所述聚合特征,获得所述关键点的位置通道的位置特征;
基于所述投影矩阵的转置矩阵,将所述位置特征反投影到所述图像通道域,以获得融合特征;
基于所述图像特征和所述融合特征,获得所述图卷积增强特征。
18.根据权利要求17所述的装置,其中,所述图像特征为多个通道的图像特征,所述增强单元进一步具体用于:
对所述多个通道中的各个通道的图像特征进行池化、一维卷积和激活处理,以确定所述各个通道的权重系数;
基于所述各个通道的权重系数,对所述各个通道的图像特征进行加权处理,以获得所述加权图像特征。
19.根据权利要求17所述的装置,其中,所述增强单元进一步具体用于:
对所述聚合特征进行多个尺度的一维卷积处理,以获得多个尺度的特征;
对所述多个尺度的特征进行堆叠处理,以获得堆叠特征;
对所述堆叠特征进行多维卷积处理,以获得卷积后特征,所述多维卷积的维度与所述多个尺度的个数相同;
基于所述聚合特征和所述卷积后特征,获得所述位置特征。
20.根据权利要求16-19任一项所述的装置,其中,所述位置关系图为3D位置关系图,所述中心点的位置信息包括:2D热图和深度信息,所述获取单元具体用于:
对所述图卷积增强特征,进行第一卷积处理,以获得所述3D位置关系图;
对所述图卷积增强特征,进行第二卷积处理,以获得所述中心点的2D热图;
对所述图卷积增强特征,进行第三卷积处理,以获得所述中心点的深度信息。
21.根据权利要求15-19任一项所述的装置,其中,所述位置关系图中包括不同关键点之间的有向边的信息,所述确定模块具体用于:
从所述中心点的位置信息开始,基于所述有向边的信息,依次解码存在连接关系的非中心点的位置信息。
22.一种关键点图信息提取模型的训练装置,包括:
特征提取模块,用于对图像样本进行特征提取处理,以获得所述图像样本的图像特征;
图信息提取模块,用于基于所述图像特征,获取所述图像样本中的目标的关键点的预测图信息,所述预测图信息包括:所述关键点的预测位置关系图,以及所述关键点中的中心点的预测位置信息;
构建模块,用于基于所述预测位置关系图和所述预测位置信息,构建总损失函数;
训练模块,用于基于所述总损失函数,训练关键点检测模型。
23.根据权利要求22所述的装置,其中,所述预测位置关系图为预测3D位置关系图,所述预测位置信息包括:预测2D热图和预测深度信息,所述构建模块具体用于:
基于所述预测3D位置关系图和所述目标的真实3D位置关系图,构建第一损失函数;
基于所述预测2D热图和所述中心点的真实2D热图,构建第二损失函数;
基于所述预测深度信息和所述中心点的真实深度信息,构建第三损失函数;
基于所述第一损失函数、所述第二损失函数和所述第三损失函数,构建所述总损失函数。
24.根据权利要求22或23所述的装置,其中,所述图信息提取模块包括:
增强单元,用于基于所述关键点的位置通道的个数,对所述图像特征进行增强处理,以获得图卷积增强特征;
获取单元,用于基于所述图卷积增强特征,获得所述预测图信息。
25.根据权利要求24所述的装置,其中,所述增强单元具体用于:
对所述图像特征进行加权处理,以获得加权图像特征;
基于所述关键点的位置通道的个数,确定从所述图像特征的图像通道域到所述关键点的位置通道域的投影矩阵;
基于所述投影矩阵,将所述加权图像特征投影到所述位置通道域,以获得所述关键点的位置通道的聚合特征;
基于所述聚合特征,获得所述关键点的位置通道的位置特征;
基于所述投影矩阵的转置矩阵,将所述位置特征反投影到所述图像通道域,以获得融合特征;
基于所述图像特征和所述融合特征,获得所述图卷积增强特征。
26.根据权利要求25所述的装置,其中,所述图像特征为多个通道的图像特征,所述增强单元进一步具体用于:
对所述多个通道中的各个通道的图像特征进行池化、一维卷积和激活处理,以确定所述各个通道的权重系数;
基于所述各个通道的权重系数,对所述各个通道的图像特征进行加权处理,以获得所述加权图像特征。
27.根据权利要求25所述的装置,其中,所述增强单元进一步具体用于:
对所述聚合特征进行多个尺度的一维卷积处理,以获得多个尺度的特征;
对所述多个尺度的特征进行堆叠处理,以获得堆叠特征;
对所述堆叠特征进行多维卷积处理,以获得卷积后特征,所述多维卷积的维度与所述多个尺度的个数相同;
基于所述聚合特征和所述卷积后特征,获得所述位置特征。
28.根据权利要求24所述的装置,其中,所述预测位置关系图为预测3D位置关系图,所述中心点的预测位置信息包括:预测2D热图和预测深度信息,所述获取单元具体用于:
对所述图卷积增强特征,进行第一卷积处理,以获得所述预测3D位置关系图;
对所述图卷积增强特征,进行第二卷积处理,以获得所述中心点的预测2D热图;
对所述图卷积增强特征,进行第三卷积处理,以获得所述中心点的预测深度信息。
29.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-14中任一项所述的方法。
30.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-14中任一项所述的方法。
31.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-14中任一项所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111196690.9A CN114092963B (zh) | 2021-10-14 | 2021-10-14 | 关键点检测及模型训练方法、装置、设备和存储介质 |
EP22189366.2A EP4167194A1 (en) | 2021-10-14 | 2022-08-09 | Key point detection method and apparatus, model training method and apparatus, device and storage medium |
US17/884,968 US20230120054A1 (en) | 2021-10-14 | 2022-08-10 | Key point detection method, model training method, electronic device and storage medium |
JP2022129693A JP7443647B2 (ja) | 2021-10-14 | 2022-08-16 | キーポイント検出及びモデル訓練方法、装置、デバイス、記憶媒体、並びにコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111196690.9A CN114092963B (zh) | 2021-10-14 | 2021-10-14 | 关键点检测及模型训练方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114092963A true CN114092963A (zh) | 2022-02-25 |
CN114092963B CN114092963B (zh) | 2023-09-22 |
Family
ID=80296907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111196690.9A Active CN114092963B (zh) | 2021-10-14 | 2021-10-14 | 关键点检测及模型训练方法、装置、设备和存储介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230120054A1 (zh) |
EP (1) | EP4167194A1 (zh) |
JP (1) | JP7443647B2 (zh) |
CN (1) | CN114092963B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114373080A (zh) * | 2022-03-22 | 2022-04-19 | 中国石油大学(华东) | 基于全局推理的轻量化混合卷积模型的高光谱分类方法 |
CN115375976A (zh) * | 2022-10-25 | 2022-11-22 | 杭州华橙软件技术有限公司 | 图像处理模型训练方法、电子设备和计算机可读存储介质 |
CN115775300A (zh) * | 2022-12-23 | 2023-03-10 | 北京百度网讯科技有限公司 | 人体模型的重建方法、人体重建模型的训练方法及装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116894844B (zh) * | 2023-07-06 | 2024-04-02 | 北京长木谷医疗科技股份有限公司 | 一种髋关节图像分割与关键点联动识别方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929692A (zh) * | 2019-12-11 | 2020-03-27 | 中国科学院长春光学精密机械与物理研究所 | 一种基于多传感器信息融合的三维目标检测方法及装置 |
WO2020199931A1 (zh) * | 2019-04-02 | 2020-10-08 | 腾讯科技(深圳)有限公司 | 人脸关键点检测方法及装置、存储介质和电子设备 |
CN112270669A (zh) * | 2020-11-09 | 2021-01-26 | 北京百度网讯科技有限公司 | 人体3d关键点检测方法、模型训练方法及相关装置 |
CN112733767A (zh) * | 2021-01-15 | 2021-04-30 | 西安电子科技大学 | 一种人体关键点检测方法、装置、存储介质及终端设备 |
CN112991452A (zh) * | 2021-03-31 | 2021-06-18 | 杭州健培科技有限公司 | 基于椎体中心点的端到端椎体关键点定位测量方法及装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210417B (zh) * | 2019-06-05 | 2021-09-28 | 达闼机器人有限公司 | 一种行人运动轨迹的预测方法、终端及可读存储介质 |
EP3792821A1 (en) * | 2019-09-11 | 2021-03-17 | Naver Corporation | Action recognition using implicit pose representations |
US11288835B2 (en) * | 2019-09-20 | 2022-03-29 | Beijing Jingdong Shangke Information Technology Co., Ltd. | Lighttrack: system and method for online top-down human pose tracking |
CN111652124A (zh) * | 2020-06-02 | 2020-09-11 | 电子科技大学 | 一种基于图卷积网络的人体行为识别模型的构建方法 |
CN112446302B (zh) * | 2020-11-05 | 2023-09-19 | 杭州易现先进科技有限公司 | 一种人体姿态检测方法、***、电子设备和存储介质 |
CN112381004B (zh) * | 2020-11-17 | 2023-08-08 | 华南理工大学 | 一种基于骨架的双流自适应图卷积网络行为识别方法 |
CN112597883B (zh) * | 2020-12-22 | 2024-02-09 | 武汉大学 | 一种基于广义图卷积和强化学习的人体骨架动作识别方法 |
CN112580559A (zh) * | 2020-12-25 | 2021-03-30 | 山东师范大学 | 基于骨架特征和视频表征结合的双流视频行为识别方法 |
CN113095254B (zh) * | 2021-04-20 | 2022-05-24 | 清华大学深圳国际研究生院 | 一种人体部位关键点的定位方法及*** |
-
2021
- 2021-10-14 CN CN202111196690.9A patent/CN114092963B/zh active Active
-
2022
- 2022-08-09 EP EP22189366.2A patent/EP4167194A1/en not_active Withdrawn
- 2022-08-10 US US17/884,968 patent/US20230120054A1/en not_active Abandoned
- 2022-08-16 JP JP2022129693A patent/JP7443647B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020199931A1 (zh) * | 2019-04-02 | 2020-10-08 | 腾讯科技(深圳)有限公司 | 人脸关键点检测方法及装置、存储介质和电子设备 |
CN110929692A (zh) * | 2019-12-11 | 2020-03-27 | 中国科学院长春光学精密机械与物理研究所 | 一种基于多传感器信息融合的三维目标检测方法及装置 |
CN112270669A (zh) * | 2020-11-09 | 2021-01-26 | 北京百度网讯科技有限公司 | 人体3d关键点检测方法、模型训练方法及相关装置 |
US20210312171A1 (en) * | 2020-11-09 | 2021-10-07 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Human body three-dimensional key point detection method, model training method and related devices |
CN112733767A (zh) * | 2021-01-15 | 2021-04-30 | 西安电子科技大学 | 一种人体关键点检测方法、装置、存储介质及终端设备 |
CN112991452A (zh) * | 2021-03-31 | 2021-06-18 | 杭州健培科技有限公司 | 基于椎体中心点的端到端椎体关键点定位测量方法及装置 |
Non-Patent Citations (1)
Title |
---|
孙铭?;梁令羽;汪涵;何为;赵鲁阳;: "基于级联卷积网络的面部关键点定位算法", 中国科学院大学学报, no. 04 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114373080A (zh) * | 2022-03-22 | 2022-04-19 | 中国石油大学(华东) | 基于全局推理的轻量化混合卷积模型的高光谱分类方法 |
CN114373080B (zh) * | 2022-03-22 | 2022-07-29 | 中国石油大学(华东) | 基于全局推理的轻量化混合卷积模型的高光谱分类方法 |
CN115375976A (zh) * | 2022-10-25 | 2022-11-22 | 杭州华橙软件技术有限公司 | 图像处理模型训练方法、电子设备和计算机可读存储介质 |
CN115775300A (zh) * | 2022-12-23 | 2023-03-10 | 北京百度网讯科技有限公司 | 人体模型的重建方法、人体重建模型的训练方法及装置 |
CN115775300B (zh) * | 2022-12-23 | 2024-06-11 | 北京百度网讯科技有限公司 | 人体模型的重建方法、人体重建模型的训练方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114092963B (zh) | 2023-09-22 |
US20230120054A1 (en) | 2023-04-20 |
JP7443647B2 (ja) | 2024-03-06 |
EP4167194A1 (en) | 2023-04-19 |
JP2023059231A (ja) | 2023-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114092963B (zh) | 关键点检测及模型训练方法、装置、设备和存储介质 | |
CN114186632B (zh) | 关键点检测模型的训练方法、装置、设备、存储介质 | |
CN113971751A (zh) | 训练特征提取模型、检测相似图像的方法和装置 | |
CN112785625B (zh) | 目标跟踪方法、装置、电子设备及存储介质 | |
CN113205041B (zh) | 结构化信息提取方法、装置、设备和存储介质 | |
CN113362314B (zh) | 医学图像识别方法、识别模型训练方法及装置 | |
CN115482395B (zh) | 模型训练方法、图像分类方法、装置、电子设备和介质 | |
CN115311469A (zh) | 图像标注方法、训练方法、图像处理方法以及电子设备 | |
CN109885444B (zh) | 基于手势识别的测试方法、装置、存储介质及终端设备 | |
CN114792355A (zh) | 虚拟形象生成方法、装置、电子设备和存储介质 | |
CN114120454A (zh) | 活体检测模型的训练方法、装置、电子设备及存储介质 | |
CN112580666A (zh) | 图像特征的提取方法、训练方法、装置、电子设备及介质 | |
WO2023061195A1 (zh) | 图像获取模型的训练方法、图像检测方法、装置及设备 | |
CN114973333B (zh) | 人物交互检测方法、装置、设备以及存储介质 | |
CN113610856B (zh) | 训练图像分割模型和图像分割的方法和装置 | |
CN114674328B (zh) | 地图生成方法、装置、电子设备、存储介质、及车辆 | |
CN113344890B (zh) | 医学图像识别方法、识别模型训练方法及装置 | |
CN115482443A (zh) | 图像特征融合及模型训练方法、装置、设备以及存储介质 | |
CN115409951A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN113378774A (zh) | 手势识别方法、装置、设备、存储介质以及程序产品 | |
CN113781653A (zh) | 对象模型生成方法、装置、电子设备及存储介质 | |
CN113361693B (zh) | 生成卷积神经网络的方法和装置、图像识别方法和装置 | |
CN114998600B (zh) | 图像处理方法、模型的训练方法、装置、设备及介质 | |
CN113378773B (zh) | 手势识别方法、装置、设备、存储介质以及程序产品 | |
CN117333487B (zh) | 一种痘痘分级方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |