CN113468924B - 关键点检测模型训练方法和装置、关键点检测方法和装置 - Google Patents
关键点检测模型训练方法和装置、关键点检测方法和装置 Download PDFInfo
- Publication number
- CN113468924B CN113468924B CN202010243835.5A CN202010243835A CN113468924B CN 113468924 B CN113468924 B CN 113468924B CN 202010243835 A CN202010243835 A CN 202010243835A CN 113468924 B CN113468924 B CN 113468924B
- Authority
- CN
- China
- Prior art keywords
- feature map
- model
- deep learning
- preset
- key point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 93
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000012549 training Methods 0.000 title claims abstract description 60
- 238000012545 processing Methods 0.000 claims abstract description 49
- 238000013136 deep learning model Methods 0.000 claims abstract description 41
- 230000006870 function Effects 0.000 claims abstract description 29
- 238000013135 deep learning Methods 0.000 claims description 66
- 230000004927 fusion Effects 0.000 claims description 45
- 230000009466 transformation Effects 0.000 claims description 38
- 238000010586 diagram Methods 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 27
- 238000007499 fusion processing Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 101100134058 Caenorhabditis elegans nth-1 gene Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本公开提供一种关键点检测模型训练方法和装置、关键点检测方法和装置。关键点检测模型训练装置在预设的搜索空间中搜索出深度学习模型中各节点之间的拓扑关系;利用深度学习模型对预设图像的特征图进行处理,以得到输出特征图;对输出特征图进行处理以生成预设图像的关键点热图;将关键点热图中的关键点位置坐标和预设位置坐标之差作为损失函数,并根据损失函数重复执行在预设的搜索空间中搜索出深度学习模型中各节点之间的拓扑关系的步骤,直到损失函数值满足预设条件或达到预设循环次数为止;利用训练数据对深度学习模型进行训练,以得到关键点检测模型。本公开通过调整深度学习模型中各节点之间的拓扑关系,提供最优关键点检测结果。
Description
技术领域
本公开涉及信息处理领域,特别涉及一种关键点检测模型训练方法和装置、关键点检测方法和装置。
背景技术
人体关键点检测是通过计算机视觉技术获得图像或者视频中人体的关键点位置。在相关技术中,通常采用基于深度学习的网络模型以实现人体关键点检测。这些网络模型是根据人工经验预先设计的。
发明内容
发明人通过研究发现,由于现有的人体关键点检测算法都是基于人工经验设计的网络模型,而网络模型的设计通常需要大量的网络设计经验和调参经验,通常需要花费设计者大量的时间和精力。此外,根据人工经验设计的网络模型和对应的关键点检测任务无法完全匹配,因此对关键点检测任务来说,基于人工经验设计的网络模型无法提供最优的关键点检测结果。
据此,本公开提供一种关键点检测模型训练方案和对应的关键点检测方案。通过动态调整深度学习模型中各节点之间的拓扑关系,从而可提供最优的关键点检测结果。
根据本公开实施例的第一方面,提供一种关键点检测模型训练方法,包括:在预设的搜索空间中搜索出深度学习模型中各节点之间的拓扑关系;从预设图像出提取出对应的特征图;利用所述深度学习模型对所述预设图像的特征图进行处理,以得到输出特征图;对所述输出特征图进行处理以生成所述预设图像的关键点热图;将所述关键点热图中的关键点位置坐标和预设位置坐标之差作为损失函数,并根据所述损失函数重复执行在预设的搜索空间中搜索出深度学习模型中各节点之间的拓扑关系的步骤,直到损失函数值满足预设条件或达到预设循环次数为止;利用训练数据对所述深度学习模型进行训练,以得到关键点检测模型。
在一些实施例中,所述深度学习模型包括第一深度学习子模型、第二深度学习子模型和第三深度学习子模型;利用所述深度学习模型对预设图像的特征图进行处理包括:利用所述第一深度学习子模型对预设图像的特征图进行处理,以得到第一特征图,所述第一特征图和所述预设图像的特征图的尺寸相同;利用所述第二深度学习子模型对所述第一特征图进行处理,以得到第二特征图,所述第二特征图的尺寸小于所述第一特征图的尺寸;利用所述第三深度学习子模型对所述第二特征图和所述第一特征图进行融合处理,以得到所述输出特征图。
在一些实施例中,所述第二深度学习子模型包括N个变换网络模型;利用所述第二深度学习子模型对所述第一特征图进行处理包括:利用第1个变换网络模型对所述第一特征图进行处理,以得到第1个输出特征图,所述第1个输出特征图的尺寸小于所述第一特征图的尺寸;利用第i个变换网络模型对第i-1个输出特征图进行处理,以得到第i个输出特征图,所述第i个输出特征图的尺寸小于第i-1个输出结果的尺寸,2≤i≤N。
在一些实施例中,所述第三深度学习子模型包括N个融合网络模型;利用所述第三深度学习子模型对所述第二特征图和所述第一特征图进行融合处理包括:利用第1个融合网络模型对第N个变换网络模型的输出特征图和第N-1个变换网络模型的输出特征图进行融合,以得到第1个融合特征图;利用第j个融合网络模型对第j-1个融合特征图和第N-j个变换网络模型的输出特征图进行融合,以得到第j个融合特征图,2≤j≤N-1;利用第N个融合网络模型对第N-1个融合特征图和所述第一特征图进行融合,以得到所述输出特征图。
在一些实施例中,每个融合网络模型在进入融合处理的过程中,在接收到的两个特征图中,将尺寸较小的特征图作为第一待处理特征图,将尺寸较大的特征图作为第二待处理特征图;对所述第一待处理特征图进行升采样以得到第三待处理特征图,所述第三待处理特征图和所述第二待处理特征图的尺寸相同;对所述第三待处理特征图和所述第二待处理特征图进行融合处理。
在一些实施例中,所述搜索空间包括卷积、池化、全连接、批量归一化中的至少一种。
根据本公开实施例的第二方面,提供一种关键点检测模型训练装置,包括:搜索模块,被配置为在预设的搜索空间中搜索出深度学习模型中各节点之间的拓扑关系;特征提取模块,被配置为从预设图像出提取出对应的特征图;第一处理模块,被配置为利用所述深度学习模型对所述预设图像的特征图进行处理,以得到输出特征图;第二处理模块,被配置为对所述输出特征图进行处理以生成所述预设图像的关键点热图;第一训练模块,被配置为将所述关键点热图中的关键点位置坐标和预设位置坐标之差作为损失函数,并根据所述损失函数指示搜索模块重复执行在预设的搜索空间中搜索出深度学习模型中各节点之间的拓扑关系的操作,直到损失函数值满足预设条件或达到预设循环次数为止;第二训练模块,被配置为利用训练数据对所述深度学习模型进行训练,以得到关键点检测模型。
根据本公开实施例的第三方面,提供一种关键点检测模型训练装置,包括:存储器,被配置为存储指令;处理器,耦合到存储器,处理器被配置为基于存储器存储的指令执行实现如上述任一实施例所述的关键点检测模型训练方法。
根据本公开实施例的第四方面,提供一种关键点检测方法,包括:采集待检测图像;利用经上述任一实施例所述的关键点检测模型训练方法所训练的关键点检测模型对所述待检测图像进行关键点检测处理,以得到所述待检测图像中的关键点。
根据本公开实施例的第五方面,提供一种关键点检测装置,包括:采集模块,被配置为采集待检测图像;检测模块,被配置为利用经上述任一实施例所述的关键点检测模型训练方法所训练的关键点检测模型对所述待检测图像进行关键点检测处理,以得到所述待检测图像中的关键点。
根据本公开实施例的第六方面,提供一种关键点检测装置,包括:存储器,被配置为存储指令;处理器,耦合到存储器,处理器被配置为基于存储器存储的指令执行实现如上述任一实施例所述的关键点检测方法。
根据本公开实施例的第七方面,提供一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机指令,指令被处理器执行时实现如上述任一实施例涉及的方法。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开一个实施例的关键点检测模型训练方法的流程示意图;
图2为本公开一个实施例的关键点检测模型的结构示意图;
图3为本公开另一个实施例的关键点检测模型训练方法的流程示意图;
图4为本公开另一个实施例的关键点检测模型的结构示意图;
图5为本公开另一个实施例的关键点检测模型的结构示意图;
图6为本公开一个实施例的关键点检测模型训练装置的结构示意图;
图7为本公开另一个实施例的关键点检测模型训练装置的结构示意图;
图8为本公开一个实施例的关键点检测方法的流程示意图;
图9为本公开一个实施例的关键点检测装置的结构示意图;
图10为本公开另一个实施例的关键点检测装置的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1为本公开一个实施例的关键点检测模型训练方法的流程示意图。在一些实施例中,下列的关键点检测模型训练方法步骤由关键点检测模型训练装置执行。相应的关键点检测模型如图2所示。
在步骤101,在预设的搜索空间中搜索出深度学习模型中各节点之间的拓扑关系。
在一些实施例中,搜索空间包括卷积、池化、全连接、批量归一化中的至少一种。
这里需要说明的是,在深度学习中,可认为神经网络由很多神经元节点OP组成,每个OP的操作空间包括卷积、池化、全连接、批量归一化等,每个OP可包含若干输入和输出。任意两个OP之间的连接方式代表了这些操作中的一种。通过在搜索空间进行搜索以选择各OP的相应操作,根据各节点之间的拓扑关系确定相应的神经网络架构。此外,通过限制搜索空间,可提升搜索速度。
由于如何进行搜索本身并不是本公开的发明点所在,因此这里不展开描述。
在步骤102,从预设图像出提取出对应的特征图。
在一些实施例中,利用预设的特征图提取模型(例如,由两个卷积核为3*3、步长为2的卷积神经网络)对预设图像进行处理,以获得预设图像的特征图。
在步骤103,利用深度学习模型对预设图像的特征图进行处理,以得到输出特征图。
通过对预设图像的特征图进行处理,以便通过特征融合,便于后续的热图(heatmap)处理。
在步骤104,对输出特征图进行处理以生成预设图像的关键点热图。
例如,利用预设的热图生成模型(例如,卷积核为1*1、步长为1的卷积神经网络)对输出特征图进行处理以生成对应的关键点热图。
这里需要说明的是,热图数目与关键点的个数相同。例如,人体骨骼有16个关键点,则会生成16个热图,每个热图对应一个关键点。在每个热图上寻找最大概率所在的位置,即作为对应关键点的位置坐标。通过将这16个热图所获得的关键点位置坐标进行汇总,就可获得人体骨骼中16个关键点的位置坐标。
由于热图本身并不是本公开的发明点所在,因此这里不展开描述。
在步骤105,将关键点热图中的关键点位置坐标和预设位置坐标之差作为损失函数,并根据损失函数重复执行在预设的搜索空间中搜索出深度学习模型中各节点之间的拓扑关系的步骤,直到损失函数值满足预设条件或达到预设循环次数为止。
例如,若损失函数值小于预设门限,则可停止搜索过程。此外,还可在循环次数达到预设值的情况下停止搜索过程。
在步骤106,利用训练数据对深度学习模型进行训练,以得到关键点检测模型。
通过利用训练数据对经过搜索过程所确定的深度学习模型进行训练,以便确定最优深度学习模型的相应权重参数。
在本公开上述实施例提供的关键点检测模型训练方法中,通过对深度学习模型中节点的拓扑关系进行优化,从而能够获得与关键点检测任务相匹配的深度学习模型。
图3为本公开另一个实施例的关键点检测模型训练方法的流程示意图。在一些实施例中,下列的关键点检测模型训练方法步骤由关键点检测模型训练装置执行。对应的关键点检测模型如图4所示。
在步骤301,在预设的搜索空间中搜索出第一深度学习子模型、第二深度学习子模型和第三深度学习子模型中各节点之间的拓扑关系。
在一些实施例中,搜索空间包括卷积、池化、全连接、批量归一化中的至少一种。
在步骤302,从预设图像出提取出对应的特征图。
在一些实施例中,利用预设的特征图提取模型(例如,由两个卷积核为3*3、步长为2的卷积神经网络)对预设图像进行处理,以获得预设图像的特征图。
在步骤303,利用第一深度学习子模型对预设图像的特征图进行处理,以得到第一特征图,第一特征图和预设图像的特征图的尺寸相同。
在步骤304,利用第二深度学习子模型对第一特征图进行处理,以得到第二特征图,第二特征图的尺寸小于第一特征图的尺寸。
在步骤305,利用第三深度学习子模型对第二特征图和第一特征图进行融合处理,以得到输出特征图。
这里需要说明的是,由于第二特征图的尺寸小于第一特征图的尺寸,因此第二特征图的分辨率要低于第一特征图的分辨率。通过将不同分辨率的特征图进行融合,有助于后续的关键点热图生成。
在一些实施例中,第三深度学习子模型在进行融合处理时,对第二特征图进行升采样以得到第三特征图,第三特征图和第一特征图的尺寸相同。接下来对第三特征图和第二特征图进行融合处理。由此可获得最佳的融合结果。
例如,通过利用双线性插值以实现升采样。
在步骤306,对输出特征图进行处理以生成预设图像的关键点热图。
这里利用热图生成模型(例如,卷积核为1*1、步长为1的卷积神经网络)对输出特征图进行处理以生成对应的关键点热图。
在步骤307,将关键点热图中的关键点位置坐标和预设位置坐标之差作为损失函数,并根据损失函数重复执行在预设的搜索空间中搜索出第一深度学习子模型、第二深度学习子模型和第三深度学习子模型中各节点之间的拓扑关系的步骤,直到损失函数值满足预设条件或达到预设循环次数为止。
在步骤308,利用训练数据对第一深度学习子模型、第二深度学习子模型和第三深度学习子模型进行训练,以得到关键点检测模型。
通过利用训练数据对经过搜索过程所确定的第一深度学习子模型、第二深度学习子模型和第三深度学习子模型进行训练,以便确定最优的第一深度学习子模型、第二深度学习子模型和第三深度学习子模型的相应权重参数。
在一些实施例中,第二深度学习子模型包括N个变换网络模型,第三深度学习子模型包括N个融合网络模型,N为正整数。
在第二深度学习子模型中,利用第1个变换网络模型对第一特征图进行处理,以得到第1个输出特征图,第1个输出特征图的尺寸小于第一特征图的尺寸。利用第i个变换网络模型对第i-1个输出特征图进行处理,以得到第i个输出特征图,第i个输出特征图的尺寸小于第i-1个输出结果的尺寸,2≤i≤N。在第三深度学习子模型中,利用第1个融合网络模型对第N个变换网络模型的输出特征图和第N-1个变换网络模型的输出特征图进行融合,以得到第1个融合特征图。利用第j个融合网络模型对第j-1个融合特征图和第N-j个变换网络模型的输出特征图进行融合,以得到第j个融合特征图,2≤j≤N-1。利用第N个融合网络模型对第N-1个融合特征图和第一特征图进行融合,以得到输出特征图。
在一些实施例中,每个融合网络模型在进入融合处理的过程中,在接收到的两个特征图中,将尺寸较小的特征图作为第一待处理特征图,将尺寸较大的特征图作为第二待处理特征图。对第一待处理特征图进行升采样以得到第三待处理特征图,第三待处理特征图和第二待处理特征图的尺寸相同。进而对第三待处理特征图和第二待处理特征图进行融合处理。
图5为本公开另一个实施例的关键点检测模型的结构示意图。作为示例,在图5所示实施例中,第二深度学习子模型包括3个变换网络模型,第三深度学习子模型包括3个融合网络模型。
在第二深度学习子模型中,利用变换网络模型1对第一特征图进行处理,以得到第1个输出特征图,第1个输出特征图的尺寸小于第一特征图的尺寸。利用变换网络模型2对第1个输出特征图进行处理,以得到第2个输出特征图,第2个输出特征图的尺寸小于第1个输出结果的尺寸。利用变换网络模型3对第2个输出特征图进行处理,以得到第3个输出特征图,第3个输出特征图的尺寸小于第2个输出结果的尺寸。
在第三深度学习子模型中,利用融合网络模型1对变换网络模型3的输出特征图和变换网络模型2的输出特征图进行融合,以得到第1个融合特征图。利用融合网络模型2对第1个融合特征图和变换网络模型1的输出特征图进行融合,以得到第2个融合特征图。利用第3个融合网络模型对第2个融合特征图和第一特征图进行融合,以得到输出特征图。
图6为本公开一个实施例的关键点检测模型训练装置的结构示意图。如图6所示,关键点检测模型训练装置包括搜索模块61、特征提取模块62、第一处理模块63、第二处理模块64、第一训练模块65和第二训练模块66。相应的关键点检测模型如图2所示。
搜索模块61在预设的搜索空间中搜索出深度学习模型中各节点之间的拓扑关系。
在一些实施例中,搜索空间包括卷积、池化、全连接、批量归一化中的至少一种。
这里需要说明的是,在深度学习中,可认为神经网络由很多神经元节点OP组成,每个OP的操作空间包括卷积、池化、全连接、批量归一化等,每个OP可包含若干输入和输出。任意两个OP之间的连接方式代表了这些操作中的一种。通过在搜索空间进行搜索以选择各OP的相应操作,根据各节点之间的拓扑关系确定相应的神经网络架构。此外,通过限制搜索空间,可提升搜索速度。
特征提取模块62从预设图像出提取出对应的特征图。
在一些实施例中,利用预设的特征图提取模型(例如,由两个卷积核为3*3、步长为2的卷积神经网络)对预设图像进行处理,以获得预设图像的特征图。
第一处理模块63利用深度学习模型对预设图像的特征图进行处理,以得到输出特征图。通过对预设图像的特征图进行处理,以便通过特征融合,便于后续的热图处理。
第二处理模块64对输出特征图进行处理以生成预设图像的关键点热图。
例如,利用预设的热图生成模型(例如,卷积核为1*1、步长为1的卷积神经网络)对输出特征图进行处理以生成对应的关键点热图。
这里需要说明的是,热图数目与关键点的个数相同。例如,人体骨骼有16个关键点,则会生成16个热图,每个热图对应一个关键点。在每个热图上寻找最大概率所在的位置,即作为对应关键点的位置坐标。通过将这16个热图所获得的关键点位置坐标进行汇总,就可获得人体骨骼中16个关键点的位置坐标。
第一训练模块65将关键点热图中的关键点位置坐标和预设位置坐标之差作为损失函数,并根据损失函数指示搜索模块61重复执行在预设的搜索空间中搜索出深度学习模型中各节点之间的拓扑关系的操作,直到损失函数值满足预设条件或达到预设循环次数为止。
例如,若损失函数值小于预设门限,则可停止搜索过程。此外,还可在循环次数达到预设值的情况下停止搜索过程。
第二训练模块66利用训练数据对深度学习模型进行训练,以得到关键点检测模型。
通过利用训练数据对经过搜索过程所确定的深度学习模型进行训练,以便确定最优深度学习模型的相应权重参数。
在一些实施例中,相应的关键点检测模型如图4所示。
搜索模块61在预设的搜索空间中搜索出第一深度学习子模型、第二深度学习子模型和第三深度学习子模型中各节点之间的拓扑关系。
第一处理模块63利用第一深度学习子模型对预设图像的特征图进行处理,以得到第一特征图。第一特征图和预设图像的特征图的尺寸相同。接下来利用第二深度学习子模型对第一特征图进行处理,以得到第二特征图。第二特征图的尺寸小于第一特征图的尺寸。然后利用第三深度学习子模型对第二特征图和第一特征图进行融合处理,以得到输出特征图。
在一些实施例中,第一处理模块63在利用第三深度学习子模型进行融合处理时,对第二特征图进行升采样以得到第三特征图,第三特征图和第一特征图的尺寸相同。接下来对第三特征图和第二特征图进行融合处理。由此可获得最佳的融合结果。
第一训练模块65根据损失函数指示搜索模块61重复执行在预设的搜索空间中搜索出第一深度学习子模型、第二深度学习子模型和第三深度学习子模型中各节点之间的拓扑关系的操作,直到损失函数值满足预设条件或达到预设循环次数为止。
第二训练模块66利用训练数据对第一深度学习子模型、第二深度学习子模型和第三深度学习子模型进行训练,以得到关键点检测模型。
在一些实施例中,第二深度学习子模型包括N个变换网络模型,第三深度学习子模型包括N个融合网络模型。
第一处理模块63利用第1个变换网络模型对第一特征图进行处理,以得到第1个输出特征图,第1个输出特征图的尺寸小于第一特征图的尺寸。第一处理模块63利用第i个变换网络模型对第i-1个输出特征图进行处理,以得到第i个输出特征图,第i个输出特征图的尺寸小于第i-1个输出结果的尺寸,2≤i≤N。
第一处理模块63还利用第1个融合网络模型对第N个变换网络模型的输出特征图和第N-1个变换网络模型的输出特征图进行融合,以得到第1个融合特征图。第一处理模块63还利用第j个融合网络模型对第j-1个融合特征图和第N-j个变换网络模型的输出特征图进行融合,以得到第j个融合特征图,2≤j≤N-1。第一处理模块63利用第N个融合网络模型对第N-1个融合特征图和第一特征图进行融合,以得到输出特征图。
在一些实施例,第一处理模块63在利用每个融合网络模型进入融合处理的过程中,在接收到的两个特征图中,将尺寸较小的特征图作为第一待处理特征图,将尺寸较大的特征图作为第二待处理特征图,对第一待处理特征图进行升采样以得到第三待处理特征图,第三待处理特征图和第二待处理特征图的尺寸相同,对第三待处理特征图和第二待处理特征图进行融合处理。
在一些实施例中,相应的关键点检测模型如图5所示。
第一处理模块63利用变换网络模型1对第一特征图进行处理,以得到第1个输出特征图,第1个输出特征图的尺寸小于第一特征图的尺寸。第一处理模块63利用变换网络模型2对第1个输出特征图进行处理,以得到第2个输出特征图,第2个输出特征图的尺寸小于第1个输出结果的尺寸。第一处理模块63利用变换网络模型3对第2个输出特征图进行处理,以得到第3个输出特征图,第3个输出特征图的尺寸小于第2个输出结果的尺寸。
此外,第一处理模块63利用融合网络模型1对变换网络模型3的输出特征图和变换网络模型2的输出特征图进行融合,以得到第1个融合特征图。第一处理模块63利用融合网络模型2对第1个融合特征图和变换网络模型1的输出特征图进行融合,以得到第2个融合特征图。第一处理模块63利用第3个融合网络模型对第2个融合特征图和第一特征图进行融合,以得到输出特征图。
图7为本公开另一个实施例的关键点检测模型训练装置的结构示意图。如图7所示,训练装置包括存储器71和处理器72。
存储器71用于存储指令,处理器72耦合到存储器71,处理器72被配置为基于存储器存储的指令执行实现如图1或图3中任一实施例涉及的方法。
如图7所示,该装置还包括通信接口73,用于与其它设备进行信息交互。同时,该装置还包括总线74,处理器72、通信接口73、以及存储器71通过总线74完成相互间的通信。
存储器71可以包含高速RAM存储器,也可还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。存储器71也可以是存储器阵列。存储器71还可能被分块,并且块可按一定的规则组合成虚拟卷。
此外,处理器72可以是一个中央处理器CPU,或者可以是专用集成电路ASIC,或是被配置成实施本公开实施例的一个或多个集成电路。
本公开同时还涉及一种计算机可读存储介质,其中计算机可读存储介质存储有计算机指令,指令被处理器执行时实现如图1或图3中任一实施例涉及的方法。
图8为本公开一个实施例的关键点检测方法的流程示意图。在一些实施例中,下列的关键点检测方法步骤由关键点检测装置执行。
在步骤801,采集待检测图像。
在步骤802,利用经图1或图3中任一实施例涉及的关键点检测模型训练方法所训练的关键点检测模型对待检测图像进行关键点检测处理,以得到待检测图像中的关键点。
图9为本公开一个实施例的关键点检测装置的结构示意图。如图9所示,关键点检测装置包括采集模块91和检测模块92。
采集模块91用于采集待检测图像。
检测模块92利用经图1或图3中任一实施例涉及的关键点检测模型训练方法所训练的关键点检测模型对待检测图像进行关键点检测处理,以得到待检测图像中的关键点。
图10为本公开另一个实施例的关键点检测装置的结构示意图。如图10所示,关键点检测装置包括存储器1001、处理器1002、通信接口1003和总线1004。图10与图7的不同之处在于,在图10所示实施例中,处理器1002被配置为基于存储器存储的指令执行实现如图8中任一实施例涉及的方法。
本公开同时还涉及一种计算机可读存储介质,其中计算机可读存储介质存储有计算机指令,指令被处理器执行时实现如图8中任一实施例涉及的方法。
在一些实施例中,在上面所描述的功能单元模块可以实现为用于执行本公开所描述功能的通用处理器、可编程逻辑控制器(Programmable Logic Controller,简称:PLC)、数字信号处理器(Digital Signal Processor,简称:DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,简称:ASIC)、现场可编程门阵列(Field-ProgrammableGate Array,简称:FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本公开的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用,并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。
Claims (10)
1.一种关键点检测模型训练方法,包括:
在预设的搜索空间中搜索出深度学习模型中各节点之间的拓扑关系;
从预设图像出提取出对应的特征图;
利用所述深度学习模型对所述预设图像的特征图进行处理,以得到输出特征图;
对所述输出特征图进行处理以生成所述预设图像的关键点热图;
将所述关键点热图中的关键点位置坐标和预设位置坐标之差作为损失函数,并根据所述损失函数重复执行在预设的搜索空间中搜索出深度学习模型中各节点之间的拓扑关系的步骤,直到损失函数值满足预设条件或达到预设循环次数为止;
利用训练数据对所述深度学习模型进行训练,以得到关键点检测模型;
其中,所述深度学习模型包括第一深度学习子模型、第二深度学习子模型和第三深度学习子模型,所述第二深度学习子模型包括N个变换网络模型,所述第三深度学习子模型包括N个融合网络模型;
利用所述深度学习模型对预设图像的特征图进行处理包括:
利用所述第一深度学习子模型对所述预设图像的特征图进行处理,以得到第一特征图,所述第一特征图和所述预设图像的特征图的尺寸相同;
利用所述第二深度学习子模型对所述第一特征图进行处理,以得到第二特征图,所述第二特征图的尺寸小于所述第一特征图的尺寸;
利用所述第三深度学习子模型对所述第二特征图和所述第一特征图进行融合处理,以得到所述输出特征图;
利用所述第三深度学习子模型对所述第二特征图和所述第一特征图进行融合处理包括:
利用第1个融合网络模型对第N个变换网络模型的输出特征图和第N-1个变换网络模型的输出特征图进行融合,以得到第1个融合特征图;
利用第j个融合网络模型对第j-1个融合特征图和第N-j个变换网络模型的输出特征图进行融合,以得到第j个融合特征图,2≤j≤N-1;
利用第N个融合网络模型对第N-1个融合特征图和所述第一特征图进行融合,以得到所述输出特征图。
2.根据权利要求1所述的方法,其中,
利用所述第二深度学习子模型对所述第一特征图进行处理包括:
利用第1个变换网络模型对所述第一特征图进行处理,以得到第1个输出特征图,所述第1个输出特征图的尺寸小于所述第一特征图的尺寸;
利用第i个变换网络模型对第i-1个输出特征图进行处理,以得到第i个输出特征图,所述第i个输出特征图的尺寸小于第i-1个输出结果的尺寸,2≤i≤N。
3.根据权利要求2所述的方法,其中,
每个融合网络模型在进入融合处理的过程中,在接收到的两个特征图中,将尺寸较小的特征图作为第一待处理特征图,将尺寸较大的特征图作为第二待处理特征图;
对所述第一待处理特征图进行升采样以得到第三待处理特征图,所述第三待处理特征图和所述第二待处理特征图的尺寸相同;
对所述第三待处理特征图和所述第二待处理特征图进行融合处理。
4.根据权利要求1-3中任一项所述的方法,其中,
所述搜索空间包括卷积、池化、全连接、批量归一化中的至少一种。
5.一种关键点检测模型训练装置,包括:
搜索模块,被配置为在预设的搜索空间中搜索出深度学习模型中各节点之间的拓扑关系;
特征提取模块,被配置为从预设图像出提取出对应的特征图;
第一处理模块,被配置为利用所述深度学习模型对所述预设图像的特征图进行处理,以得到输出特征图,其中所述深度学习模型包括第一深度学习子模型、第二深度学习子模型和第三深度学习子模型,所述第二深度学习子模型包括N个变换网络模型,所述第三深度学习子模型包括N个融合网络模型,利用所述第一深度学习子模型对所述预设图像的特征图进行处理,以得到第一特征图,所述第一特征图和所述预设图像的特征图的尺寸相同,利用所述第二深度学习子模型对所述第一特征图进行处理,以得到第二特征图,所述第二特征图的尺寸小于所述第一特征图的尺寸,利用所述第三深度学习子模型对所述第二特征图和所述第一特征图进行融合处理,以得到所述输出特征图,其中利用第1个融合网络模型对第N个变换网络模型的输出特征图和第N-1个变换网络模型的输出特征图进行融合,以得到第1个融合特征图,利用第j个融合网络模型对第j-1个融合特征图和第N-j个变换网络模型的输出特征图进行融合,以得到第j个融合特征图,2≤j≤N-1,利用第N个融合网络模型对第N-1个融合特征图和所述第一特征图进行融合,以得到所述输出特征图;
第二处理模块,被配置为对所述输出特征图进行处理以生成所述预设图像的关键点热图;
第一训练模块,被配置为将所述关键点热图中的关键点位置坐标和预设位置坐标之差作为损失函数,并根据所述损失函数指示搜索模块重复执行在预设的搜索空间中搜索出深度学习模型中各节点之间的拓扑关系的操作,直到损失函数值满足预设条件或达到预设循环次数为止;
第二训练模块,被配置为利用训练数据对所述深度学习模型进行训练,以得到关键点检测模型。
6.一种关键点检测模型训练装置,包括:
存储器,被配置为存储指令;
处理器,耦合到存储器,处理器被配置为基于存储器存储的指令执行实现如权利要求1-4中任一项所述的方法。
7.一种关键点检测方法,包括:
采集待检测图像;
利用经权利要求1-4中任一项所述的关键点检测模型训练方法所训练的关键点检测模型对所述待检测图像进行关键点检测处理,以得到所述待检测图像中的关键点。
8.一种关键点检测装置,包括:
采集模块,被配置为采集待检测图像;
检测模块,被配置为利用经权利要求1-4中任一项所述的关键点检测模型训练方法所训练的关键点检测模型对所述待检测图像进行关键点检测处理,以得到所述待检测图像中的关键点。
9.一种关键点检测装置,包括:
存储器,被配置为存储指令;
处理器,耦合到存储器,处理器被配置为基于存储器存储的指令执行实现如权利要求7所述的方法。
10.一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机指令,指令被处理器执行时实现如权利要求1-4、7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010243835.5A CN113468924B (zh) | 2020-03-31 | 2020-03-31 | 关键点检测模型训练方法和装置、关键点检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010243835.5A CN113468924B (zh) | 2020-03-31 | 2020-03-31 | 关键点检测模型训练方法和装置、关键点检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113468924A CN113468924A (zh) | 2021-10-01 |
CN113468924B true CN113468924B (zh) | 2024-06-18 |
Family
ID=77866085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010243835.5A Active CN113468924B (zh) | 2020-03-31 | 2020-03-31 | 关键点检测模型训练方法和装置、关键点检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113468924B (zh) |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105787439B (zh) * | 2016-02-04 | 2019-04-05 | 广州新节奏智能科技股份有限公司 | 一种基于卷积神经网络的深度图像人体关节定位方法 |
IL274424B2 (en) * | 2017-11-14 | 2024-07-01 | Magic Leap Inc | Meta-learning for multi-task learning for neural networks |
CN110163048B (zh) * | 2018-07-10 | 2023-06-02 | 腾讯科技(深圳)有限公司 | 手部关键点的识别模型训练方法、识别方法及设备 |
CN108985259B (zh) * | 2018-08-03 | 2022-03-18 | 百度在线网络技术(北京)有限公司 | 人体动作识别方法和装置 |
CN109753910B (zh) * | 2018-12-27 | 2020-02-21 | 北京字节跳动网络技术有限公司 | 关键点提取方法、模型的训练方法、装置、介质及设备 |
CN109948526B (zh) * | 2019-03-18 | 2021-10-29 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、检测设备及存储介质 |
CN110309706B (zh) * | 2019-05-06 | 2023-05-12 | 深圳华付技术股份有限公司 | 人脸关键点检测方法、装置、计算机设备及存储介质 |
CN110084221B (zh) * | 2019-05-08 | 2023-02-03 | 南京云智控产业技术研究院有限公司 | 一种基于深度学习的带中继监督的序列化人脸关键点检测方法 |
CN110532981B (zh) * | 2019-09-03 | 2022-03-15 | 北京字节跳动网络技术有限公司 | 人体关键点提取方法、装置、可读存储介质及设备 |
CN110705563B (zh) * | 2019-09-07 | 2020-12-29 | 创新奇智(重庆)科技有限公司 | 一种基于深度学习的工业零件关键点检测方法 |
CN110728359B (zh) * | 2019-10-10 | 2022-04-26 | 北京百度网讯科技有限公司 | 搜索模型结构的方法、装置、设备和存储介质 |
-
2020
- 2020-03-31 CN CN202010243835.5A patent/CN113468924B/zh active Active
Non-Patent Citations (2)
Title |
---|
Deep residual learning for image recognition;He KM 等;Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition;20161231;全文 * |
基于Pytorch和Opencv的人脸关键点检测;孟令军;王静波;;电视技术;20190725(第14期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113468924A (zh) | 2021-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160375B (zh) | 三维关键点预测及深度学习模型训练方法、装置及设备 | |
CN109740534B (zh) | 图像处理方法、装置及处理设备 | |
CN112990297A (zh) | 多模态预训练模型的训练方法、应用方法及装置 | |
CN111179419B (zh) | 三维关键点预测及深度学习模型训练方法、装置及设备 | |
CN110348447B (zh) | 一种具有丰富空间信息的多模型集成目标检测方法 | |
CN113192112B (zh) | 一种基于学习采样的部分对应点云配准方法 | |
US11449728B2 (en) | Method of optimization of operating a convolutional neural network and system thereof | |
CN114896395A (zh) | 语言模型微调方法、文本分类方法、装置及设备 | |
US20220292349A1 (en) | Device and computer-implemented method for the processing of digital sensor data and training method therefor | |
CN110782430A (zh) | 一种小目标的检测方法、装置、电子设备及存储介质 | |
CN113468924B (zh) | 关键点检测模型训练方法和装置、关键点检测方法和装置 | |
CN110728359B (zh) | 搜索模型结构的方法、装置、设备和存储介质 | |
CN110162655B (zh) | 一种基于草图的三维模型局部检索方法、装置、终端设备 | |
CN112801045B (zh) | 一种文本区域检测方法、电子设备及计算机存储介质 | |
CN116503654A (zh) | 基于二分图结构进行人物交互检测的多模态特征融合方法 | |
CN110705695B (zh) | 搜索模型结构的方法、装置、设备和存储介质 | |
CN114913330A (zh) | 点云部件分割方法、装置、电子设备与存储介质 | |
CN111782837B (zh) | 图像检索方法和装置 | |
Knobloch et al. | PROBABILISTIC ANALYSIS OF THE CONVERGENCE OF THE DIFFERENTIAL EVOLUTION ALGORITHM. | |
CN112766465A (zh) | 用于智能转动性能检测的神经网络的训练方法 | |
CN111598092A (zh) | 图像中目标区域的确定方法、目标识别方法及装置 | |
US20230409869A1 (en) | Process for transforming a trained artificial neuron network | |
Matsui et al. | Automatic feature point selection through hybrid metaheauristics based on Tabu search and memetic algorithm for augmented reality | |
CN109582296B (zh) | 一种基于栈增强lstm的程序表示方法 | |
Huang et al. | Lightweight Contrast Modeling for Attention-Aware Visual Localization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |