CN110796096B

CN110796096B - 一种手势识别模型的训练方法、装置、设备及介质

Info

Publication number: CN110796096B
Application number: CN201911047039.8A
Authority: CN
Inventors: 胡玉坤; 刘裕峰; 郑文
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2023-01-24
Anticipated expiration: 2039-10-30
Also published as: CN110796096A

Abstract

本公开关于一种手势识别模型的训练方法、装置、设备及介质，用以解决相关技术中手势识别准确度低，影响用户体验的问题。本公开的手势识别模型的训练方法，包括：从预先获取的包含手势的图片样本中通过标注获得手势关键点数据、手部数据和背景数据；利用所述手势关键点数据和对初始手势识别模型进行训练，得到用于识别手势关键点的主干网络，所述初始手势识别模型包括编码器网络和解码器网络；从所述主干网络中提取出所述编码器网络，利用所述手部数据和所述背景数据对所述编码器网络进行二次训练，得到手势识别模型，所述二次训练包括多分类训练、包围框回归训练和二分类训练。

Description

一种手势识别模型的训练方法、装置、设备及介质

技术领域

本公开涉及深度学习技术领域，尤其涉及一种手势识别模型的训练方法、装置、设备及介质。

背景技术

手势检测与追踪(Hand Gesture Detection and Tracking)是计算机视觉领域的一个经典课题，其主要任务是通过卷积神经网络(Convolutional Neural Networks，CNN)对逐帧视频流中出现的手势信息进行检测和分类，并且对手的包围框位置进行精确回归，同时对图片中是否存在手进行二分类(或者判断)，输出图片中检测出的各类别的置信概率作为检测结果。

然而，现有技术中，均采用直接将所有数据进行处理后训练神经网络，同时训练三个分支，数据比例较难控制，且训练出的神经网络收敛效果较差。同时手势分类会由于用户个体差异而影响识别精确程度，并且部分手势之间较为相似，容易混淆，难以精确识别；手的二分类会由于部分非手样本在颜色和纹理等方面与手非常相似，将对训练产生一定的误差。

发明内容

本公开提供一种手势识别模型的训练方法、装置、设备及介质，以至少解决相关技术中手势识别准确度低，影响用户体验的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种手势识别模型的训练方法，包括：

从预先获取的包含手势的图片样本中通过标注获得手势关键点数据、手部数据和背景数据；

利用手势关键点数据和对初始手势识别模型进行训练，得到用于识别手势关键点的主干网络，初始手势识别模型包括编码器网络和解码器网络；

从主干网络中提取出编码器网络，利用手部数据和背景数据对编码器网络进行二次训练，得到手势识别模型，二次训练包括多分类训练、包围框回归训练和二分类训练。

在一种可能的实施方式中，本公开提供的方法中，二次训练为多分类训练时，利用手部数据和背景数据对编码器网络的进行二次训练，包括：

在解码器网络后连接多分类分支网络；

利用手部数据对多分类分支网络进行训练，得到多分类识别分支网络。

在一种可能的实施方式中，本公开提供的方法中，二次训练为包围框回归训练时，利用手部数据和背景数据对编码器网络的进行二次训练，包括：

在解码器网络后连接包围框回归分支网络；

利用手部数据对包围框回归分支网络进行训练，得到包围框回归识别分支网络。

在一种可能的实施方式中，本公开提供的方法中，二次训练包括多分类训练和包围框回归训练时，利用手部数据和背景数据对编码器网络的进行二次训练，包括：

在解码器网络后分别连接多分类分支网络和包围框回归分支网络；

利用手部数据和背景数据同时对多分类分支网络和包围框回归分支网络进行训练，得到多分类识别分支网络和包围框回归识别分支网络。

在一种可能的实施方式中，本公开提供的方法中，二次训练为二分类训练时，利用手部数据和背景数据对编码器网络的进行二次训练，包括：

在解码器网络后连接二分类分支网络；

利用手部数据和背景数据对二分类分支网络进行训练，得到二分类识别分支网络。

在一种可能的实施方式中，本公开提供的方法中，利用手势关键点数据和背景数据对初始手势识别模型进行训练，包括：

将背景数据的关键点监督信息设置为零，利用手势关键点数据和关键点监督信息设置为零的背景数据对初始手势识别模型进行训练，背景数据与关键点比例相同。

根据本公开实施例的第二方面，提供一种手势识别模型的训练装置，包括：

获取单元，被配置为执行从预先获取的包含手势的图片样本中通过标注获得手势关键点数据、手部数据和背景数据；

第一训练单元，被配置为执行利用手势关键点数据和背景数据对初始手势识别模型进行训练，得到用于识别手势关键点的主干网络，初始手势识别模型包括编码器网络和解码器网络；

第二训练单元，被配置为执行从主干网络中提取出编码器网络，利用手部数据和背景数据对编码器网络进行二次训练，得到手势识别模型，二次训练包括多分类训练、包围框回归训练和二分类训练。

在一种可能的实施方式中，本公开提供的装置中，第二训练单元具体被配置为：

二次训练为多分类训练时，在解码器网络后连接多分类分支网络；

二次训练为包围框回归训练时，在解码器网络后连接包围框回归分支网络；

二次训练包括多分类训练和包围框回归训练时，在解码器网络后分别连接多分类分支网络和包围框回归分支网络；

二次训练为二分类训练时，在解码器网络后连接二分类分支网络；

在一种可能的实施方式中，本公开提供的装置中，获取单元具体被配置为：

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为执行所述指令，以实现本公开实施例第一方面中任一项所述的基于手势识别模型的训练方法。

根据本公开实施例的第四方面，提供一种计算机程序产品，包括：处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为执行所述指令，以实现本公开实施例第一方面中任一项所述的手势识别模型的训练方法。

根据本公开实施例的第五方面，提供一种存储介质，当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开实施例第一方面中任一项所述的手势识别模型的训练方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

从预先获取的包含手势的图片样本中通过标注获得手势关键点数据、手部数据和背景数据，利用手势关键点数据和对初始手势识别模型进行训练，得到用于识别手势关键点的主干网络，再从主干网络中提取出编码器网络，利用手部数据和背景数据对编码器网络进行二次训练，得到手势识别模型。与现有技术中的手势识别模型的训练方法相比，先对手势关键点训练样本进行预训练，再根据预训练结果分别对多分类、二分类和包围框回归进行训练，提高了手势识别模型的识别速度与精确度，增强用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种手势识别模型的人手关键点的位置示意图；

图2是根据一示例性实施例示出的一种手势识别模型的六手势的示意图；

图3是根据一示例性实施例示出的一种手势识别模型的ok手势的示意图；

图4是根据一示例性实施例示出的一种手势识别模型的训练方法的示意流程图；

图5是根据一示例性实施例示出的一种手势识别模型的训练装置的结构示意图；

图6是根据一示例性实施例示出的一种电子设备的结构示意图；

图7是根据一示例性实施例示出的应用手势识别模型的训练方法的终端的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

下面对文中出现的一些词语进行解释：

1、卷积神经网络(Convolutional Neural Network，CNN)是前馈型神经网络的一种，其使用人工神经元响应一定范围的感受野周围的单元，在图像处理领域有出色表现。

2、交并比(Intersection over Union，IoU)，即两个区域的交集面积除以两个区域的并集面积。

3、手势关键点检测，是指输入一张包含人手的RGB图片，使用深度学习算法，输出21个人手关键点的位置，如图1所示，为21个人手关键点的位置。

4、手势检测与追踪(Hand Gesture Detection and Tracking)是计算机视觉领域的一个经典课题，其主要任务是通过卷积神经网络(Convolutional Neural Networks,CNN)对逐帧视频流中出现的手势信息进行检测和分类，并且对手的包围框位置进行精确回归，同时对图片中是否存在手进行判断，输出图片中检测出的各类别的置信概率做为检测结果。

5、以下为本公开中所用手势识别模型可分辨的不同手势类型示例，具体为：

(1)five：五手势，五指张开；

(2)heart：单手比心手势；

(3)great：大拇指翘起；

(4)666：六手势；

(5)lift：托举手势；

(6)victory：剪刀手手势；

(7)pointer：食指指向手势；

(8)heart2：双手比心手势；

(9)ok：ok手势；

(10)fist：握拳手势；

(11)eight：八手势。

图2和图3分别示例了上述手势中的六手势和ok手势。

现有技术中，同时训练手势分类、包围框及手的二分类三个分支，数据比例较难控制，并且同时训练的神经网络收敛效果较差。其中手势分类识别会由于用户个体差异而影响识别精确程度，并且部分手势之间较为相似，容易混淆，难以精确识别；手的二分类会由于部分非手样本在颜色和纹理等方面与手非常相似，将对训练产生一定的误差。

传统的神经网络训练方法，均是直接将所有数据进行处理后训练神经网络，本公开中，先用手势关键点数据对网络进行训练，再分别对网络进行多分类训练、二分类训练与包围框回归训练。

本公开实施例描述的应用场景是为了更加清楚的说明本公开实施例的技术方案，并不构成对于本公开实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用场景的出现，本公开实施例提供的技术方案对于类似的技术问题，同样适用。其中，在本公开的描述中，除非另有说明，“多个”的含义。

本公开实施例提供的手势识别模型的训练方法，如图4所示，具体技术方案如下。

步骤S1，从预先获取的包含手势的图片样本中通过标注获得手势关键点数据、手部数据和背景数据。

具体实施时，预先获取若干包含手势的图片样本，通过人工标注或机器标注的方式，从图片样本中得到手势关键点数据、手部数据和背景数据。手势关键点数据用于进行手势关键点识别，手部数据和背景数据用于二次训练。

需要说明的是由于步骤S3中的二次训练包括多分类训练、二分类训练和包围框回归训练，其中，多分类训练和包围框回归训练仅需要手部数据即可，而二分类训练还需要背景数据，为了使网络能够适应所有的数据分布，使训练数据的参数保持格式一致性，在训练手势关键点得到主干网络时，加入与手势关键点数据同比例的背景数据，并将该背景数据的关键点监督信息设置成全0，以免干扰手势关键点识别，当然，也可以采用其它数据处理方式，本公开实施例对此不做限定。

步骤S2，利用手势关键点数据和对初始手势识别模型进行训练，得到用于识别手势关键点的主干网络，初始手势识别模型包括编码器网络和解码器网络。

具体实施时，由于本公开中使用手势关键点进行训练并为了得到主干网络，所以对手势关键点的准确度要求较低，可以将评判手势关键点准确度的标准设置为手势关键点标注信息中手势关键点位置与通过手势识别模型计算出的手势关键点位置之间的距离。现有技术中，手势关键点训练一般以3个像素为判断标准，本公开中的判断标准可以略宽于这个值，例如以5个像素为判断标准，也可以以6个像素为判断标准，本公开实施例对此不做限定。

手势关键点训练相较于多分类训练、包围框回归训练及二分类训练来说，需要神经网络对图片特征的提取能力更强。若要使训练效果较好，神经网络的深度和参数数据量相对于现有技术均需要一定的提升。具体实施时，可以在初始手势识别模型中多连接一个解码器网络，采用编码器-解码器网络结构，用于提升神经网络的计算量和神经网络参数数据量，并且在主干网络训练完成后，将此多连接的解码器网络去掉，使得最终训练完成手势识别模型的数据大小和计算量并未改变。

步骤S3，从主干网络中提取出编码器网络，利用手部数据和背景数据对编码器网络进行二次训练，得到手势识别模型，二次训练包括多分类训练、包围框回归训练和二分类训练。

具体实施时，在得到主干网络后，从主干网络中取出原先用于多分类训练的网络参数并固定，再在主干网络后连接三个网络分支，分别为二分类网络分支、多分类网络分支和包围框回归网络分支。

连接网络分支之后，利用手部数据对多分类分支网络进行训练，得到多分类识别分支网络；利用手部数据对包围框回归分支网络进行训练，得到包围框回归识别分支网络；利用手部数据和背景数据对二分类分支网络进行训练，得到二分类识别分支网络。多分类识别模型、包围框回归识别模型和二分类识别模型构成手势识别模型。

需要说明的是，二次训练包括多分类训练、二分类训练和包围框回归训练，由于多分类训练和包围框回归训练仅需要手部数据即可完成训练，而二分类训练时，还需要背景数据，所以多分类训练和包围框回归训练可以同时训练，以节省结算量。当然多分类训练、二分类训练和包围框回归训练可以分步训练，也可以任意两个或三个训练同步进行，本公开实施例对此不做限定。

本公开中，通过预先训练生成主干网络，由于先对手势关键点进行预训练，手势识别模型的空间信息较强，使得包围框回归识别的重叠度(Intersection over Union，IOU)提升近3个百分点，二分类识别的准确率提升1个百分点。在同等计算量和参数量的情况下，包围框回归识别的稳定性与准确性大幅提升，二分类识别对异常样本的鲁棒性明显提升。

如图5所示，为本公开实施例提供的一种手势识别模型的训练装置的结构示意图，包括：

获取单元501，被配置为执行从预先获取的包含手势的图片样本中通过标注获得手势关键点数据、手部数据和背景数据；

第一训练单元502，被配置为执行利用手势关键点数据和背景数据对初始手势识别模型进行训练，得到用于识别手势关键点的主干网络，初始手势识别模型包括编码器网络和解码器网络；

第二训练单元503，被配置为执行从主干网络中提取出编码器网络，利用手部数据和背景数据对编码器网络进行二次训练，得到手势识别模型，二次训练包括多分类训练、包围框回归训练和二分类训练。

在一种可能的实施方式中，本公开提供的装置中，第二训练单元503具体被配置为：

利用手部数据对围框回归分支网络进行训练，得到包围框回归识别分支网络。

在一种可能的实施方式中，本公开提供的装置中，获取单元501具体被配置为：

图6是根据一示例性实施例示出的一种电子设备，即手势识别模型的训练设备600的框图。

处理器610；

用于存储所述处理器610可执行指令的存储器620；

其中，所述处理器610被配置为执行所述指令，以实现本公开实施例中的短网址生成方法。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器620，上述指令可由设备600的处理器610执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在本公开实施例中，如图7所示，本公开实施例给出一种应用本公开实施例提供的手势识别模型的训练方法的终端700，包括：射频(Radio Frequency，RF)电路710、电源720、处理器730、存储器770、输入单元750、显示单元760、摄像头770、通信接口780、以及无线保真(Wireless Fidelity，Wi-Fi)模块790等部件。本领域技术人员可以理解，图7中示出的终端的结构并不构成对终端的限定，本申请实施例提供的终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图7对所述终端700的各个构成部件进行具体的介绍：

所述RF电路710可用于通信或通话过程中，数据的接收和发送。特别地，所述RF电路710在接收到基站的下行数据后，发送给所述处理器730处理；另外，将待发送的上行数据发送给基站。通常，所述RF电路710包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier，LNA)、双工器等。

此外，RF电路710还可以通过无线通信与网络和其他终端通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(Global System of Mobilecommunication，GSM)、通用分组无线服务(General Packet Radio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code DivisionMultiple Access，WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

Wi-Fi技术属于短距离无线传输技术，所述终端700通过Wi-Fi模块790可以连接接入点(Access Point，AP)，从而实现数据网络的访问。所述Wi-Fi模块790可用于通信过程中，数据的接收和发送。

所述终端700可以通过所述通信接口780与其他终端实现物理连接。可选的，所述通信接口780与所述其他终端的通信接口通过电缆连接，实现所述终端700和其他终端之间的数据传输。

由于在本申请实施例中，所述终端700能够实现通信业务，向其他联系人发送信息，因此所述终端700需要具有数据传输功能，即所述终端700内部需要包含通信模块。虽然图7示出了所述RF电路710、所述Wi-Fi模块790、和所述通信接口780等通信模块，但是可以理解的是，所述终端700中存在上述部件中的至少一个或者其他用于实现通信的通信模块(如蓝牙模块)，以进行数据传输。

例如，当所述终端700为手机时，所述终端700可以包含所述RF电路710，还可以包含所述Wi-Fi模块790；当所述终端700为计算机时，所述终端700可以包含所述通信接口780，还可以包含所述Wi-Fi模块790；当所述终端700为平板电脑时，所述终端700可以包含所述Wi-Fi模块。

所述存储器770可用于存储软件程序以及模块。所述处理器730通过运行存储在所述存储器770的软件程序以及模块，从而执行所述终端700的各种功能应用以及数据处理，并且当处理器730执行存储器770中的程序代码后，可以实现本公开实施例图4中的部分或全部过程。

可选的，所述存储器770可以主要包括存储程序区和存储数据区。其中，存储程序区可存储操作***、各种应用程序(比如通信应用)以及手势识别模型的训练模块等；存储数据区可存储根据所述终端的使用所创建的数据(比如各种图片、视频文件等多媒体文件，以及手势识别模型的训练信息模板)等。

此外，所述存储器770可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述输入单元750可用于接收用户输入的数字或字符信息，以及产生与所述终端700的用户设置以及功能控制有关的键信号输入。

可选的，输入单元750可包括触控面板751以及其他输入终端752。

其中，所述触控面板751，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在所述触控面板751上或在所述触控面板751附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，所述触控面板751可以包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给所述处理器730，并能接收所述处理器730发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现所述触控面板751。

可选的，所述其他输入终端752可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

所述显示单元760可用于显示由用户输入的信息或提供给用户的信息以及所述终端700的各种菜单。所述显示单元760即为所述终端700的显示***，用于呈现界面，实现人机交互。

所述显示单元760可以包括显示面板761。可选的，所述显示面板761可以采用液晶显示屏(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-EmittingDiode，OLED)等形式来配置。

进一步的，所述触控面板751可覆盖所述显示面板761，当所述触控面板751检测到在其上或附近的触摸操作后，传送给所述处理器730以确定触摸事件的类型，随后所述处理器730根据触摸事件的类型在所述显示面板761上提供相应的视觉输出。

虽然在图7中，所述触控面板751与所述显示面板761是作为两个独立的部件来实现所述终端700的输入和输入功能，但是在某些实施例中，可以将所述触控面板751与所述显示面板761集成而实现所述终端700的输入和输出功能。

所述处理器730是所述终端700的控制中心，利用各种接口和线路连接各个部件，通过运行或执行存储在所述存储器770内的软件程序和/或模块，以及调用存储在所述存储器770内的数据，执行所述终端700的各种功能和处理数据，从而实现基于所述终端的多种业务。

可选的，所述处理器730可包括一个或多个处理单元。可选的，所述处理器730可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到所述处理器730中。

所述摄像头770，用于实现所述终端700的拍摄功能，拍摄图片或视频。所述摄像头770还可以用于实现终端700的扫描功能，对扫描对象(二维码/条形码)进行扫描。

所述终端700还包括用于给各个部件供电的电源720(比如电池)。可选的，所述电源720可以通过电源管理***与所述处理器730逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗等功能。

需要说明的是，本公开实施例处理器730可以执行图6中处理器610的功能，存储器770存储处理器610中的内容。

另外，在示例性实施例中，本公开还提供了一种存储介质，当存储介质中的指令由上述电子设备的处理器执行时，使得上述电子设备能够实现本公开实施例中的手势识别模型的训练方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种手势识别模型的训练方法，其特征在于，包括：

利用所述手势关键点数据和所述背景数据对初始手势识别模型进行训练，得到用于识别手势关键点的主干网络，所述初始手势识别模型包括编码器网络和解码器网络；

从所述主干网络中提取出所述编码器网络，利用所述手部数据和所述背景数据对所述编码器网络进行二次训练，得到手势识别模型，所述二次训练包括多分类训练、包围框回归训练和二分类训练；所述手势识别模型包括多分类识别分支网络、包围框回归识别分支网络和二分类分支网络；

其中，所述从所述主干网络中提取出所述编码器网络，利用所述手部数据和所述背景数据对所述编码器网络进行二次训练，包括：

从所述主干网络中取出用于多分类训练的网络参数并固定，在所述主干网络后连接三个分支网络，所述三个分支网络分别为二分类分支网络、多分类分支网络和包围框回归分支网络；

利用所述手部数据对所述多分类分支网络进行训练，得到多分类识别分支网络；

利用所述手部数据对所述包围框回归分支网络进行训练，得到包围框回归识别分支网络；

利用所述手部数据和所述背景数据对所述二分类分支网络进行训练，得到二分类识别分支网络；

其中，所述二次训练包括多分类训练和包围框回归训练时，所述利用所述手部数据和所述背景数据对所述编码器网络的进行二次训练，包括：

利用所述手部数据和所述背景数据同时对所述多分类分支网络和所述包围框回归分支网络进行训练，得到多分类识别分支网络和包围框回归识别分支网络。

2.根据权利要求1所述的方法，其特征在于，所述利用所述手势关键点数据和所述背景数据对初始手势识别模型进行训练，包括：

将所述背景数据的关键点监督信息设置为零，利用所述手势关键点数据和关键点监督信息设置为零的背景数据对所述初始手势识别模型进行训练，所述背景数据与所述关键点比例相同。

3.一种手势识别模型的训练装置，其特征在于，包括：

第一训练单元，被配置为执行利用所述手势关键点数据和所述背景数据对初始手势识别模型进行训练，得到用于识别手势关键点的主干网络，所述初始手势识别模型包括编码器网络和解码器网络；

第二训练单元，被配置为执行从所述主干网络中提取出所述编码器网络，利用所述手部数据和所述背景数据对所述编码器网络进行二次训练，得到手势识别模型，所述二次训练包括多分类训练、包围框回归训练和二分类训练；所述手势识别模型包括多分类识别分支网络、包围框回归识别分支网络和二分类分支网络；

其中，所述第二训练单元具体被配置为：

所述二次训练包括多分类训练和包围框回归训练时，利用所述手部数据和所述背景数据同时对所述多分类分支网络和所述包围框回归分支网络进行训练，得到多分类识别分支网络和包围框回归识别分支网络。

4.根据权利要求3所述的装置，其特征在于，所述获取单元具体被配置为：

5.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器;

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至2中任一项所述的手势识别模型的训练方法。

6.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至2中任一项所述的手势识别模型的训练方法。