CN109753910B

CN109753910B - 关键点提取方法、模型的训练方法、装置、介质及设备

Info

Publication number: CN109753910B
Application number: CN201811615301.XA
Authority: CN
Inventors: 喻冬东; 王长虎
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2020-02-21
Anticipated expiration: 2038-12-27
Also published as: WO2020134010A1; CN109753910A

Abstract

本公开涉及一种关键点提取方法、模型的训练方法、装置、介质及设备，所述图像关键点提取模型包括多个级联的子模型，所述方法包括：将训练图像输入图像关键点提取模型，获得各个子模型输出的关键点，作为图像关键点提取模型的一次训练；针对每个子模型，确定该子模型输出的关键点与训练图像中、与该子模型的程度标识对应的关键点之间的差异，其中，程度标识用于表征关键点提取的难易程度；将各个子模型对应的差异之和确定为图像关键点提取模型的目标差异，在图像关键点提取模型的训练次数未达到预设次数时，根据目标差异更新图像关键点提取模型。通过针对不同难易程度的关键点进行分别处理，提高图像关键点提取模型的精度和适用范围。

Description

关键点提取方法、模型的训练方法、装置、介质及设备

技术领域

本公开涉及图像处理领域，具体地，涉及一种关键点提取方法、模型的训练方法、装置、介质及设备。

背景技术

在进行图像关键点提取时，现有技术中，通常是通过卷积神经网络提取图像的关键点，将标记的图像进行统一训练。然而，图像清晰度的不同或是拍摄环境的不同，则会导致提取图像中的关键点时的难易程度不同。因此，在针对上述图像进行统一训练时，获得的网络的适用性较小，准确度较低。

发明内容

本公开的目的是提供一种针对不同难易程度的关键点进行分别处理地关键点提取方法、模型的训练方法、装置、介质及设备。

为了实现上述目的，根据本公开的第一方面，提供一种图像关键点提取模型的训练方法，所述图像关键点提取模型包括多个级联的子模型，所述方法包括：

将训练图像输入图像关键点提取模型，获得各个子模型输出的关键点，作为所述图像关键点提取模型的一次训练；

针对每个子模型，确定该子模型输出的关键点与所述训练图像中、与该子模型的程度标识对应的关键点之间的差异，其中，所述程度标识用于表征关键点提取的难易程度；

将所述各个子模型对应的差异之和确定为所述图像关键点提取模型的目标差异，在所述图像关键点提取模型的训练次数未达到预设次数时，根据所述目标差异更新所述图像关键点提取模型。

可选地，在更新所述图像关键点提取模型之后，返回所述将训练图像输入图像关键点提取模型，获得各个子模型输出的关键点的步骤，直到所述图像关键点提取模型的训练次数达到所述预设次数为止。

可选地，所述图像关键点提取模型中的第一个子模型的输入为所述训练图像中人体图像部分的特征图，所述图像关键点提取模型中的除所述第一个子模型之外的子模型的输入为上一子模型输出的关键点和所述训练图像中人体图像部分的特征图。

可选地，所述训练图像中人体图像部分的特征图通过以下方式确定：

提取所述训练图像的人体图像部分对应的第一图像；

将所述第一图像对应的分辨率调整至预设分辨率，获得第二图像，并根据所述第二图像确定所述训练图像中人体图像部分的特征图。

根据本公开的第二方面，提供一种图像关键点提取方法，所述方法包括：

接收目标图像，所述目标图像中包含人体图像部分；

将所述目标图像输入图像关键点提取模型，将所述图像关键点提取模型的最后一个子模型输出的关键点确定为所述目标图像中人体图像部分的关键点，其中，所述图像关键点提取模型包括多个级联的子模型，所述图像关键点提取模型为根据上述第一方面任一所述方法训练得到的。

根据本公开的第三方面，提供一种图像关键点提取模型的训练装置，所述图像关键点提取模型包括多个级联的子模型，所述装置包括：

处理模块，用于将训练图像输入图像关键点提取模型，获得各个子模型输出的关键点，作为所述图像关键点提取模型的一次训练；

第一确定模块，用于针对每个子模型，确定该子模型输出的关键点与所述训练图像中、与该子模型的程度标识对应的关键点之间的差异，其中，所述程度标识用于表征关键点提取的难易程度；

更新模块，用于将所述各个子模型对应的差异之和确定为所述图像关键点提取模型的目标差异，在所述图像关键点提取模型的训练次数未达到预设次数时，根据所述目标差异更新所述图像关键点提取模型。

可选地，在所述更新模块更新所述图像关键点提取模型之后，触发所述处理模块将训练图像输入图像关键点提取模型，获得各个子模型输出的关键点，直到所述图像关键点提取模型的训练次数达到所述预设次数为止。

可选地，所述训练图像中人体图像部分的特征图通过特征提取模块获得，所述特征提取模块包括：

提取子模块，用于提取所述训练图像的人体图像部分对应的第一图像；

调整子模块，用于将所述第一图像对应的分辨率调整至预设分辨率，获得第二图像，并根据所述第二图像确定所述训练图像中人体图像部分的特征图。

根据本公开的第四方面，提供一种图像关键点提取装置，所述装置包括：

接收模块，用于接收目标图像，所述目标图像中包含人体图像部分；

第二确定模块，用于将所述目标图像输入图像关键点提取模型，将所述图像关键点提取模型的最后一个子模型输出的关键点确定为所述目标图像中人体图像部分的关键点，其中，所述图像关键点提取模型包括多个级联的子模型，所述图像关键点提取模型为根据上述第一方面任一所述方法训练得到的。

根据本公开的第五方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面任一所述方法的步骤。

根据本公开的第六方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第二方面所述方法的步骤。

根据本公开的第七方面，提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现第一方面任一所述方法的步骤。

根据本公开的第八方面，提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现上述第二方面所述方法的步骤。

因此，在上述技术方案中，通过图像关键点提取模型的各个子模型输出关键点，并且针对每个子模型单独计算差异，从而可以使得图像关键点提取模型中的每个子模型可以关注到与其程度标识对应的关键点，从而便于对难易程度不同的关键点进行分别提取。并且，通过各个子模型的差异确定图像关键点提取模型的目标差异，实现对图像关键点提取模型的更新，有效保证图像关键点提取模型的准确度，通过针对不同难易程度的关键点进行分别处理，提高图像关键点提取模型的适用范围，提升用户使用体验。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据本公开的一种实施方式提供的图像关键点提取模型的训练方法的流程图；

图2是获取训练图像中人体图像部分的特征图的一种示例性实现方式的流程图；

图3是根据本公开的一种实施方式提供的图像关键点提取方法的流程图；

图4是根据本公开的一种实施方式提供的图像关键点提取模型的训练装置的框图；

图5是根据本公开的一种实施方式提供的图像关键点提取装置的框图；

图6是根据一示例性实施例示出的一种电子设备的框图；

图7是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

图1所示，为根据本公开的一种实施方式提供的图像关键点提取模型的训练方法的流程图，所述图像关键点提取模型包括多个级联的子模型，如图1所示，所述方法包括：

在S11中，将训练图像输入图像关键点提取模型，获得各个子模型输出的关键点，作为图像关键点提取模型的一次训练。

其中，可以从数据库或者互联网上获取大量的图像。之后，对该图像中的关键点进行标记以确定训练图像。

在S12中，针对每个子模型，确定该子模型输出的关键点与训练图像中、与该子模型的程度标识对应的关键点之间的差异，其中，所述程度标识用于表征关键点提取的难易程度。

示例地，在对训练图像中的关键点信息进行标记时，可以对各个关键点提取的难易程度进行标记。作为示例，可以根据训练图像的属性进行标记，如，在高清晰、高分辨率的训练图像中人体图像部分的关键点提取较为容易，此时可以对该训练图像中的关键点标记第一程度标识，该第一程度标识用于表征该关键点提取比较简单。在模糊、低分辨率的训练图像中人体图像部分的关键点提取较为困难，可以对该训练图像中的关键点标记第二程度标识，该第二程度标识用于表征该关键点提取比较困难。

作为另一示例，可以直接对训练图像中的不同关键点标记程度标识，如，针对该训练图像中提取较难的关键点标记第二程度标识，针对该训练图像中提取较为容易的关键点标记第一程度标识。以上为标记程度标识的示例性实现方式，不对本公开进行限定。

因此，在对图像关键点提取模型进行训练时，可以指定子模型对应的程度标识，其中，针对图像关键点提取模型中各个级联的子模型，按照其级联顺序各个子模型对应的关键点提取的难易程度为由易到难。示例地，第一个子模型对应的程度标识为第一程度标识，下一子模型对应的程度标识为第二程度标识。在确定子模型的差异时，针对第一个子模型，根据第一个子模型输出的关键点、与训练图像中的第一程度标识对应的关键点确定两者之间的差异。针对下一子模型，根据该下一子模型输出的关键点、与训练图像中的第二程度标识对应的关键点确定两者之间的差异。因此，在确定各个子模型对应的差异时，可以使得该子模型只关注该子模型中的程度标识所对应的关键点。

在S13中，将各个子模型对应的差异之和确定为图像关键点提取模型的目标差异，在图像关键点提取模型的训练次数未达到预设次数时，根据目标差异更新图像关键点提取模型。

其中，各个子模型对应的差异可以用于表征该子模型提取其对应程度标识的关键点的准确度，在该差异越小时，表征关键点提取越准确。在确定出各个子模型对应的差异之后，可以将各个子模型对应的差异之和确定为图像关键点提取模型的目标差异，则可以根据各个子模型对应的差异综合表征图像关键点提取模型的差异，从而可以根据该目标差异对该图像关键点提取模型进行更新。

示例地，预设次数可以根据实际使用场景进行设置，示例地，在精准度要求较高的场景下，该预设次数可以设置较大；在精准度要求一般的场景下，预设次数可以设置略小一点。

可选地，在更新所述图像关键点提取模型之后，返回所述将训练图像输入图像关键点提取模型，获得各个子模型输出的关键点的步骤11，直到所述图像关键点提取模型的训练次数达到所述预设次数为止。

其中，更新图像关键点提取模型即根据目标差异对图像关键点提取模型中的权重参数进行调整，其可以通过现有的神经网络反馈更新方式实现，在此不再赘述。

示例地，在重新返回所述将训练图像输入图像关键点提取模型，获得各个子模型输出的关键点的步骤时，所用的训练图像可以是之前使用过的训练图像，也可以是从未参与训练过程的训练图像中选择新的训练图像，本公开对此不进行限定。在图像关键点提取模型的训练次数达到所述预设次数时，便完成图像关键点提取模型的训练过程，获得准确地图像关键点提取模型，为提取图像关键点提供支持。

在该实施例中，针对图像关键点提取模型中的除所述第一个子模型之外的子模型，其输入为上一子模型输出的关键点和所述训练图像中人体图像部分的特征图。因此，在当前子模型进行关键点提取时，可以基于上一子模型输出的关键点进行确定，从而可以有效简化图像关键点提取的流程，避免重复的数据处理与计算，提高图像关键点提取模型的效率。

示例地，所述训练图像中人体图像部分的特征图通过以下方式确定，如图2所示，包括：

在S21中，提取训练图像的人体图像部分对应的第一图像，其中，可以通过现有的人体识别提取算法提取出第一图像，示例地，可以通过faster-rcnn算法或者maskrcnn算法对训练图像中的人体图像进行提取。

在S22中，将第一图像对应的分辨率调整至预设分辨率，获得第二图像，并根据第二图像确定训练图像中人体图像部分的特征图。

不同的训练图像中人体图像部分对应的占比可能相同也可能不同，例如，训练图像是同一用户通过连拍获得的，其中人体图像部分对应的占比一般类似，而对于不同用户拍摄的图像而言，其中人体图像部分对应的占比一般不同。因此，为了便于对训练图像中人体图像部分进行统一的处理，在该实施例中，可以在提取出训练图像中的人体图像部分对应的第一图像之后，将该第一图像的分辨率调整到预设分辨率以获得第二图像。示例地，预设分辨率可以是400*600，当提取出的第一图像的分辨率小于该预设分辨率时，可以通过放大图像的方式使得第一图像的分辨率为400*600；当提取出的第一图像的分辨率大于该预设分辨率时，可以通过缩小图像的方式使得第一图像的分辨率为400*600。其中，对图像进行放大或缩小的方式为现有技术，在此不再赘述。

因此，通过上述技术方案，可以根据不同的训练图像提取出分辨率一致的特征图，便于对特征图进行统一的处理，有效简化处理流程，提高处理速度。同时，贴合用户的使用需求，便于用户使用。

本公开还提供一种图像关键点提取方法，如图3所示，所述方法包括：

在S31中，接收目标图像，所述目标图像中包含人体图像部分，其中，可以通过faster-rcnn算法或者maskrcnn算法对目标图像中的人体图像进行检测。

在S32中，将目标图像输入图像关键点提取模型，将图像关键点提取模型的最后一个子模型输出的关键点确定为目标图像中人体图像部分的关键点，其中，所述图像关键点提取模型包括多个级联的子模型，所述图像关键点提取模型为根据上述任一图像关键点提取模型的训练方法训练得到的。

在该实施例中，通过将目标图像输入至图像关键点提取模型，可以通过该提取目标图像中的关键点进行提取。基于该图像关键点提取模型可以对目标图像中的不同难易程度的关键点进行准确提取，一方面，可以保证关键点提取的全面性和完整性，另一方面，也可以有效保证关键点提取的准确度，为基于该关键点进行后续处理提供准确的数据支持，进一步提升用户使用体验。

可选地，所述人体图像部分的关键点为所述人体图像部分对应的骨骼关键点，在确定出目标图像中的人体图像部分的骨骼关键点后，可以根据该骨骼关键点对目标图像中的人体图像部分进行姿态估计。由此可以提高人体图像部分对应的骨骼关键点的预测准确度，从而保证对目标图像中人体图像部分进行姿态估计的准确性。

本公开还提供一种图像关键点提取模型的训练装置，所述图像关键点提取模型包括多个级联的子模型，如图4所示，所述装置10包括：

处理模块100，用于将训练图像输入图像关键点提取模型，获得各个子模型输出的关键点，作为所述图像关键点提取模型的一次训练；

第一确定模块200，用于针对每个子模型，确定该子模型输出的关键点与所述训练图像中、与该子模型的程度标识对应的关键点之间的差异，其中，所述程度标识用于表征关键点提取的难易程度；

更新模块300，用于将所述各个子模型对应的差异之和确定为所述图像关键点提取模型的目标差异，在所述图像关键点提取模型的训练次数未达到预设次数时，根据所述目标差异更新所述图像关键点提取模型。

可选地，在所述更新模块300更新所述图像关键点提取模型之后，触发所述处理模块将训练图像输入图像关键点提取模型，获得各个子模型输出的关键点，直到所述图像关键点提取模型的训练次数达到所述预设次数为止。

本公开还提供一种图像关键点提取装置，如图5所示，所述装置20包括：

接收模块400，用于接收目标图像，所述目标图像中包含人体图像部分；

第二确定模块500，用于将所述目标图像输入所述图像关键点提取模型，将所述图像关键点提取模型的最后一个子模型输出的关键点确定为所述目标图像中人体图像部分的关键点，其中，所述图像关键点提取模型包括多个级联的子模型，所述图像关键点提取模型为根据上述任一图像关键点提取模型的训练方法训练得到的。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种电子设备700的框图。如图6所示，该电子设备700可以包括：处理器701，存储器702。该电子设备700还可以包括多媒体组件703，输入/输出(I/O)接口704，以及通信组件705中的一者或多者。

其中，处理器701用于控制该电子设备700的整体操作，以完成上述的图像关键点提取模型的训练方法或图像关键点提取方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作，这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-OnlyMemory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near Field Communication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件707可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的图像关键点提取模型的训练方法或图像关键点提取方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的图像关键点提取模型的训练方法或图像关键点提取方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器702，上述程序指令可由电子设备700的处理器701执行以完成上述的图像关键点提取模型的训练方法或图像关键点提取方法。

图7是根据一示例性实施例示出的一种电子设备1900的框图。例如，电子设备1900可以被提供为一服务器。参照图7，电子设备1900包括处理器1922，其数量可以为一个或多个，以及存储器1932，用于存储可由处理器1922执行的计算机程序。存储器1932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器1922可以被配置为执行该计算机程序，以执行上述的图像关键点提取模型的训练方法或图像关键点提取方法。

另外，电子设备1900还可以包括电源组件1926和通信组件1950，该电源组件1926可以被配置为执行电子设备1900的电源管理，该通信组件1950可以被配置为实现电子设备1900的通信，例如，有线或无线通信。此外，该电子设备1900还可以包括输入/输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作***，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM等等。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的图像关键点提取模型的训练方法或图像关键点提取方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器1932，上述程序指令可由电子设备1900的处理器1922执行以完成上述的图像关键点提取模型的训练方法或图像关键点提取方法。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种图像关键点提取模型的训练方法，其特征在于，所述图像关键点提取模型包括多个级联的子模型，所述方法包括：

针对每个子模型，确定该子模型输出的关键点与所述训练图像中、与该子模型的程度标识对应的关键点之间的差异，其中，所述程度标识用于表征关键点提取的难易程度，所述图像关键点提取模型中各个级联的子模型，按照其级联顺序，各个子模型对应的关键点提取的难易程度为由易到难；

2.根据权利要求1所述的方法，其特征在于，在更新所述图像关键点提取模型之后，返回所述将训练图像输入图像关键点提取模型，获得各个子模型输出的关键点的步骤，直到所述图像关键点提取模型的训练次数达到所述预设次数为止。

3.根据权利要求1所述的方法，其特征在于，所述图像关键点提取模型中的第一个子模型的输入为所述训练图像中人体图像部分的特征图，所述图像关键点提取模型中的除所述第一个子模型之外的子模型的输入为上一子模型输出的关键点和所述训练图像中人体图像部分的特征图。

4.根据权利要求3所述的方法，其特征在于，所述训练图像中人体图像部分的特征图通过以下方式确定：

提取所述训练图像的人体图像部分对应的第一图像；

5.一种图像关键点提取方法，其特征在于，所述方法包括：

接收目标图像，所述目标图像中包含人体图像部分；

将所述目标图像输入图像关键点提取模型，将所述图像关键点提取模型的最后一个子模型输出的关键点确定为所述目标图像中人体图像部分的关键点，其中，所述图像关键点提取模型包括多个级联的子模型，所述图像关键点提取模型为根据权利要求1-4中任一所述方法训练得到的。

6.一种图像关键点提取模型的训练装置，其特征在于，所述图像关键点提取模型包括多个级联的子模型，所述装置包括：

第一确定模块，用于针对每个子模型，确定该子模型输出的关键点与所述训练图像中、与该子模型的程度标识对应的关键点之间的差异，其中，所述程度标识用于表征关键点提取的难易程度，所述图像关键点提取模型中各个级联的子模型，按照其级联顺序，各个子模型对应的关键点提取的难易程度为由易到难；

7.一种图像关键点提取装置，其特征在于，所述装置包括：

第二确定模块，用于将所述目标图像输入所述图像关键点提取模型，将所述图像关键点提取模型的最后一个子模型输出的关键点确定为所述目标图像中人体图像部分的关键点，其中，所述图像关键点提取模型包括多个级联的子模型，所述图像关键点提取模型为根据权利要求1-4中任一所述方法训练得到的。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求5所述方法的步骤。

10.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-4中任一项所述方法的步骤。

11.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求5所述方法的步骤。