CN111860448A

CN111860448A - 洗手动作识别方法及***

Info

Publication number: CN111860448A
Application number: CN202010764529.6A
Authority: CN
Inventors: 李江; 李骊
Original assignee: Beijing HJIMI Technology Co Ltd
Current assignee: Beijing HJIMI Technology Co Ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-10-30

Abstract

本发明提供洗手动作识别方法及***。该方法包括：在预检测阶段，获取当前帧的图像数据；所述图像数据包括配准后的彩色图像和深度图像；对所述图像数据进行预检测；若通过预检测，使用所述深度图像，对所述彩色图像进行背景去除处理，得到前景图像；使用所述前景图像进行洗手动作识别，得到图像数据对应的识别结果；所述识别结果包括识别出的洗手动作类别。可见，在本发明实施例中，洗手动作识别的实施划分为两步，第一步先进行预检测，预检测通过才会执行第二步：动作识别。并且，在执行第二步的过程中，会利用配准的深度图像辅助进行背景去除，过滤很多背景信息，增大了识别鲁棒性，然后，再对前景图像进行识别，得到识别结果。

Description

洗手动作识别方法及***

技术领域

本发明涉及计算机领域，特别涉及一种洗手动作识别方法及***。

背景技术

很多行业对洗手流程有要求。以往都是通过人为自觉和培训洗手流程，但是缺乏有利监督，难免出现纰漏。因此可以借助计算机视觉结合机器学习的方法进行自动化监督操作，节省人力和成本，同时保障洗手步骤的正确性和规范性。

进行自动化监督的前提是识别出洗手动作。因此，如何进行洗手动作识别是目前研究的热门。

发明内容

有鉴于此，本发明实施例提供一种洗手动作识别方法及***，以实现洗手动作识别。

为实现上述目的，本发明实施例提供如下技术方案：

一种洗手动作识别方法，包括：

在预检测阶段，获取当前帧的图像数据；所述图像数据包括配准后的彩色图像和深度图像；

对所述图像数据进行预检测；

若通过预检测，使用所述深度图像，对所述彩色图像进行背景去除处理，得到前景图像；

使用所述前景图像进行洗手动作识别，得到图像数据对应的识别结果；所述识别结果包括识别出的洗手动作类别。

可选的，所述进行预检测包括：使用所述图像数据进行冲水检测；使用所述图像数据进行泡沫检测；若未处于冲水状态并且不存在泡沫，确定通过预检测。

可选的，在所述预检测阶段之前，还包括样本准备阶段；所述样本准备阶段包括：获取图像样本；所述图像样本包括配准的彩色图像样本、深度图像样本，以及标签；所述标签为第一标签、第二标签或第三标签；其中，所述第一标签包括：表征处于冲水状态的信息；所述第二标签包括：表征存在泡沫的信息；所述第三标签包括洗手动作类别；对配准的彩色图像样本和深度图像样本进行数据增强，以扩充图像样本的数量；对数据增强后得到的每一图像样本进行规范化处理。

可选的，标签为所述第一标签、且经规范化处理的图像样本为第一目标图像样本；标签为所述第二标签、且经规范化处理的图像样本为第二目标图像样本；标签为所述第三标签、且经规范化处理的图像样本中的彩色图像样本为目标彩色图像样本，深度图像样本为目标深度图像样本；所述样本准备阶段还包括：使用所述目标深度图像，对相应的目标彩色图像进行背景去除处理，得到的前景图像与所述目标深度图像和所述第三标签构成第三目标图像样本。

可选的，在所述样本准备阶段之后，所述预检测阶段之前，还包括训练阶段；所述冲水检测由经训练的第一机器学习模型执行，所述泡沫检测由经训练的第二机器学习模型执行，所述洗手动作识别由经训练的第三机器学习模型执行；所述训练阶段包括：基于所述第一目标图像样本对第一机器学习模型执行多次迭代训练，得到所述经训练的第一机器学习模型；基于所述第二目标图像样本对第二机器学习模型执行多次迭代训练，得到所述经训练的第二机器学习模型；基于所述第三目标图像样本对第三机器学习模型执行多次迭代训练，得到所述经训练的第三机器学习模型。

可选的，所述使用配准后的深度图像，对所述彩色图像进行背景去除处理，得到前景图像包括：针对任一像素点，若在深度图像中所述像素点的深度值在预设范围之外，将所述像素点在彩色图像中的像素值设置为0。

可选的，第三机器学习模型包括：多个直接连接的深度可分离卷积层；全卷积层；全局池化层；分类任务层。

可选的，还包括：使用连续多帧图像数据的识别结果，确定并输出当前的洗手动作类别；所述连续多帧图像数据包括所述当前帧的图像数据，以及，所述当前帧的图像数据之前的连续N帧图像数据；N为正整数。

一种洗手动作识别***，包括：

获取单元，用于在预检测阶段，获取当前帧的图像数据；所述图像数据包括配准的彩色图像和深度图像；

预检测单元，用于：对所述图像数据进行预检测；

前处理单元，用于：

洗手动作识别单元，用于：

可见，在本发明实施例中，洗手动作识别的实施划分为两步，第一步先进行预检测，预检测通过才会执行第二步：动作识别。并且，在执行第二步的过程中，会利用配准的深度图像辅助进行背景去除，过滤很多背景信息，增大了识别鲁棒性，然后，再对前景图像进行识别，得到识别结果。

附图说明

图1为本发明实施例提供的洗手动作识别***的一种示例性结构；

图2为本发明实施例提供的洗手动作识别方法的一种示例性流程；

图3为本发明实施例提供的洗手动作识别***的另一种示例性结构；

图4为本发明实施例提供的洗手动作识别方法的另一种示例性流程；

图5为本发明实施例提供的样本准备阶段示例性流程；

图6为本发明实施例提供的CNN模型的示例性结构。

具体实施方式

为了引用和清楚起见，下文中使用的技术名词、简写或缩写总结如下：

CNN：Convolutional Neural Network，卷积神经网络；

深度图像：depth image，也被称为距离影像(range image)，是指将从图像采集器到场景中各点的距离(深度)作为像素值的图像；

3D：3Dimensional，三维；

Loss Function：损失函数；

SGD：Stochastic Gradient Descent，随机梯度下降；

NMS：Non maximum value suppression,非极大值抑制。

目前市场上存在的手势识别方案，几乎均为单纯彩色图手势静态识别方案，通过大量采集不同手型的图像进行各种深度学习分类识别实验。然而，只依靠彩色数据的洗手动作识别精度较差，易受到光照，背景等因素干扰，鲁棒性差。

有鉴于此，本发明提供洗手动作识别方法及***，以实现洗手动作识别并解决上述问题。

请参见图1，上述洗手动作识别***的一种示例性结构包括：获取单元1、预检测单元2、前处理单元3和洗手动作识别单元4。

此外，上述***还可包括输出单元5，用于输出与人交互的信息。例如，识别出的动作，此外，还可包括提示音、报警等等。

其中，获取单元1包括：RGBD数据模组，其中RGB指红绿蓝，D指深度。该模组包括拍摄彩色图像(RGB)的器件(例如摄像头)，以及，拍摄深度图像的器件(例如深度相机)。

深度相机又称之为3D相机。普通的彩色相机拍摄到的图片(2D图像)能看到相机视角内的所有物体并记录下来，但是其所记录的数据不包含这些物体距离相机的距离。通过深度相机获取到的数据，可准确知道图像中每个点离摄像头距离，这样加上该像素点在2D图像中的(x,y)坐标，就能获取图像中每个像素点的三维空间坐标。

获取单元1可设置在洗手处。其部署的位置和角度需要保证能够同时获取彩色图像和深度图像。

获取单元1和输出单元5可安装于同一设备中。

至于预检测单元2、前处理单元3和洗手动作识别单元4，其可与获取单元1安装于同一设备中，也可部署在动作识别服务器中，通过网络进行通讯，或者，预检测单元2、前处理单元3和洗手动作识别单元4可分别为独立的服务器。

图2示出了上述洗手动作识别***所执行的洗手动作识别方法的一种示例性流程，包括：

S1：在预检测阶段，获取当前帧的图像数据。

图像数据(RGBD数据)包括配准后的彩色图像和深度图像。

配准的目的就是想让深度图像和彩色图像重合在一起，即是将深度图像的图像坐标系转换到彩色图像的图像坐标系下。

具体的，可由前述的获取单元1执行步骤S1。

前已述及，获取单元1设置在洗手处，可为RGBD数据模组，周期性地同时采集彩色图像和深度图像。

可将任一采集时刻采集的配准后的彩色图像和深度图像，称为一帧图像数据。当前时刻采集的图像数据可视为当前帧的图像数据。

S2：对图像数据进行预检测。

可由前述的预检测单元2执行步骤S2。

可视情况设计预检测所包含的步骤，例如，设计检测包括：冲水检测或者泡沫检测，或者同时包括冲水检测和泡沫检测。

S3：若通过预检测，使用深度图像，对彩色图像进行背景去除处理，得到前景图像。

可由前述的前处理单元3执行步骤S3。

具体的，针对任一像素点，若在深度图像中像素点的深度值在预设范围之外，将所述像素点在彩色图像中的像素值设置为0。

上述预设范围可视深度相机的最佳识别距离而定，示例性的可在50cm-1.2m之间，而深度值小于50cm或大于1.2米的像素点，在彩色图像中的像素值可设置为0，这样，可较为有效的去掉图像中大部分背景，提取彩色手部图像。

S4：使用前景图像进行洗手动作识别，得到图像数据对应的识别结果。

识别结果包括识别出的洗手动作类别，例如，双手十指交叉搓动，握拳旋转搓动，十指并拢搓动等。

可使用不同的数字或字符来表征不同的洗手动作类别，本领域技术人员可进行灵活设计，在此不作赘述。

可由前述的洗手动作识别单元4执行步骤S4。

此外，对于未通过预检测的图像数据，其对应的识别结果可为预检测识别结果。

预检测的识别结果可包括：表征有无冲水的识别结果，以及，表征有无泡沫的识别结果中的一种或多种。

可见，在本发明实施例中，洗手动作识别的实施划分为两步，第一步先进行预检测(预检测阶段)，预检测通过才会执行第二步：动作识别。并且，在执行第二步的过程中，会利用配准的深度图像辅助进行背景去除，过滤很多背景信息，增大了识别鲁棒性，然后，再对前景图像进行识别，得到识别结果。

实际中，一个洗手动作类别，可包括一连串不同的手部姿态，以握拳旋转搓动为例，其可包括握手、两手处于不同旋转状态的姿态。有时候使用单一帧的图像数据的识别结果，可能会产生误判。

因此，请参见图2，在本发明其他实施例中，在步骤S4后，还可包括如下步骤：

S5：使用连续多帧图像数据的识别结果，确定并输出当前的洗手动作类别。

请参见图3，上述***还可包括后处理单元6，可由后处理单元6执行步骤S5，向输出单元5输出当前的洗手动作类别。

连续多帧图像数据包括当前帧的图像数据，以及，当前帧的图像数据之前的连续N帧图像数据；N为正整数。

也即，可结合连续多帧图像数据的识别结果(有无冲水，有无泡沫，哪种动作类别)，综合考虑输出当前的洗手动作类别。

N的取值可由本领域技术人员灵活设计。

以N＝29为例，可使用连续30帧的识别结果，确定当前的洗手动作类别。

更具体的，对于连续30帧的图像数据，可统计冲水，识别出的洗手动作类别以及泡沫各自的出现次数，当出现次数大于预设阈值(例如10帧)，或者，计算冲水，识别出的洗手动作类别以及泡沫在30帧内的出现次数比例(与总次数相比)，最大比例且超过30％的识别结果可作为向输出单元5输出的洗手动作类别。

在输出后，可去掉30帧内最早的一帧，例如，当前帧为31帧，使用的是2-31帧的识别结果去确定。而当前帧为32帧时，使用的是3-32帧的识别结果去确定。

也可将30帧全部去掉，重新积累30帧。例如，对1-30帧执行一次步骤S5(此时当前帧为第30帧)，再对31-60帧执行一次步骤S5，以此类推，不再赘述。

在本发明其他实施例中，还可以有其他逻辑，去判断用户是否按照设定标准的手势去认真洗手，包括是否有冲水，是否使用洗手液(泡沫检测)，以及手部动作是否符合规范等。

需要说明的是，目前也有基于RGBD数据融合的深度学习模型(将彩色图和深度图一起训练模型)，但其存在如下问题：在有冲水情况下，深度值为0值，无法通过模型训练达到较高要求的识别精度，另外，由于水和泡沫会对手部进行一些遮挡的干扰，会对手部识别结果造成很大程度影响。

为解决上述问题，图4示出了上述洗手动作识别***所执行的洗手动作识别方法的另一种示例性流程，包括：

S41：在预检测阶段，获取当前帧的图像数据。

S41与前述的S1相同，在此不作赘述。

S42：使用图像数据进行冲水检测。

冲水检测由经训练的第一机器学习模型执行。

具体的，可使用深度图像进行冲水检测，也可同时使用深度图像和彩色图像进行冲水检测。

S43：使用图像数据进行泡沫检测。

泡沫检测由经训练的第二机器学习模型执行。

冲水检测和泡沫检测属于预检测。因此，上述预检测单元2可进一步包括：经训练的第一机器学习模型和经训练的第二机器学习模型。

S44：若未处于冲水状态并且不存在泡沫，确定通过预检测。

S45与前述的S3相类似，在此不作赘述。

S46：使用前景图像进行洗手动作识别，得到图像数据对应的识别结果。

洗手动作识别可由经训练的第三机器学习模型执行。

第一至第三机器学习模型示例性的可为CNN模型。

S47与前述的S5相类似，在此不作赘述。

在检测到有冲水或有泡沫后，无法对其进行手部动作识别，也没必要；因此本发明实施例中，洗手动作识别主要是针对在冲水或泡沫过后的手部揉搓动作的识别。在本实施例中，只有当判断当前帧数据没有冲水同时也没有泡沫的情况下，才去识别洗手动作。

此外，为了更好的进行洗手动作识别，在布置好获取单元，可进行测试。

测试步骤可包括：

步骤A：用户执行预设动作；

步骤B：洗手动作识别***予以识别并输出识别出的洗手动作类别，并可判断识别出的洗手动作类别与预期结果是否一致。

也即，在部署好后，会进入测试阶段，提示用户作些预设动作(例如双手合拢、打开水笼头等)，然后采集RGBD图像，对图像进行识别，看是否识别正确。如何识别可参考前述记载，在此不作赘述。

若不一致，可进行在线调整获取单元与水笼头的距离、当前场景下光照强度、色度、饱和度、距离等。

调整完成后，再测试一遍，若仍不一致，则再进行调整，之后再进行测试，以此类推，不作赘述。

上述的第一至第三机器学习模型都需要进行训练。

在训练之前，需要准备好训练样本。

因此，在预检测阶段之前，还需要经过样本准备阶段和训练阶段。下面一一介绍。

一，样本准备阶段。

请参见图5，样本准备阶段示例性的可包括如下步骤：

S51：获取图像样本。

图像样本可包括配准的彩色图像样本、深度图像样本，以及标签。

在一个示例中，图像样本中的彩色图像样本和深度图像样本可通过获取单元的模组进行采集，然后再人工添加标签。

在一个示例中，对于第一至第三机器学习模型，标签可为第一标签、第二标签和第三标签。

其中，第一标签可包括：表征处于冲水状态的信息；

第二标签可包括：表征存在泡沫的信息；

第三标签可包括洗手动作类别。

S52：对配准的彩色图像样本和深度图像样本进行数据增强，以扩充图像样本的数量。

数据增强处理可包括：对图像进行旋转、移动、镜像、加入随机噪声等。

这样，可将一份图像样本，扩充为多份，当然，标签还是不变的。

S53：对数据增强后得到的每一图像样本进行规范化处理。

具体的，是对彩色图像样本进行规范化操作。

规范化操作针对的对象是像像素值，目的是为了提高模型精确度，规范化操作是常规操作，不作赘述。

为区别起见，可将标签为第一标签、且经规范化处理的图像样本称为第一目标图像样本；将标签为第二标签、且经规范化处理的图像样本称为第二目标图像样本；将标签为第三标签、且经规范化处理的图像样本中的彩色图像样本为目标彩色图像样本，深度图像样本称为目标深度图像样本。

对于目标深度图像样本，还可进行如下操作：

S54：使用目标深度图像，对相应的目标彩色图像进行背景去除处理，得到的前景图像与目标深度图像和第三标签构成第三目标图像样本。

如何进行背景去除可参见前述记载，在此不作赘述。

需要说明的是，第一至第三目标图像样本可划分为训练集和测试集。或者说，训练集中包括一部分的第一至第三目标图像样本，测试集中包括一部分第一至第三图像样本。

二，训练阶段；

仍请参见图5，训练阶段包括：

S55：基于第一目标图像样本对第一机器学习模型执行多次迭代训练，得到经训练的第一机器学习模型；

具体的，可使用第一目标图像样本中的深度图像对第一机器学习模型执行迭代训练，也可同时使用深度图像和彩色图像对第一机器学习模型执行迭代训练。

S56：基于第二目标图像样本对第二机器学习模型执行多次迭代训练，得到经训练的第二机器学习模型；

S57：基于第三目标图像样本对第三机器学习模型执行多次迭代训练，得到经训练的第三机器学习模型。

其中，每一次迭代训练包括：

第一/第二/第三机器学习模型基于训练集中的连续多帧图像样本进行学习，得到学习后的第一/第二/第三机器学习模型；

将测试集中的连续多帧图像样本输入学习后的第一/第二/第三机器学习模型，根据学习后的第一/第二/第三机器学习模型所输出的识别结果和图像样本的标签，对其进行参数优化。

下面介绍第三机器学习模型。

在一个示例中，第三机器学习模型可为CNN模型，请参见图6，其可包括；

1，多个直接连接的深度可分离卷积层(或称卷积块，即图6中的Cn)；其中，n表示第n个深度可分离卷积层，其具体可包括：

DepthwiseConv+BN+ReLU+PointwiseConv+BN+ReLU。其中，LU是用来提取图像数据的特征，也是其特征表达；

2，全卷积层C1x1，用于压缩或扩张其通道数；

3，全局池化层(GP)，用于将图片变成一个特征值；

4，分类任务层Cls，用于识别分类的结果概率，哪一类别的概率最大，就将当前数据识别为该类别的动作。

需要说明的是，现有的CNN模型，在各深度可分离卷积层之间就会有池化下采样层。池化下采样层的操作均会造成原始数据的潜在相关信息的缺失，从而影响识别准确性，尤其涉及到一些复杂手势交互的场景，两种细分不同的手势动作，往往可能就差几个像素的判定出错从而导致识别错误。

而本发明中的CNN模型则没有池化下采样层。这样可令分辨率大小不变，其多分辨率扩大感受野策略依靠每次卷积块Cn的卷积核大小，由浅层到深层逐层加大，或者使用空洞卷积(Dilated/Atrous Convolution)扩大感受野(简单来说就是往一般的卷积层中***空洞,进而实现感受野的增大)。

需要说明的是，一般卷积核大小为奇数，越大越能够提取图像的全局特征，同时也会增加计算量，因此一般是3，5，7等。

在卷积神经网络中，感受野(Receptive Field)的定义是卷积神经网络每一层输出的特征图(feature map)上的像素点在输入图片上映射的区域大小。

下面介绍洗手动作识别***。请参见图1，其示例性的包括：

获取单元1，用于在预检测阶段，获取当前帧的图像数据；图像数据包括配准的彩色图像和深度图像；

预检测单元2，用于：对图像数据进行预检测；

前处理单元3，用于：

若通过预检测，使用深度图像，对彩色图像进行背景去除处理，得到前景图像；

洗手动作识别单元4，用于：

使用前景图像进行洗手动作识别，得到图像数据对应的识别结果；识别结果包括识别出的洗手动作类别。

具体细节请参见前述介绍，在此不作赘述。

在一个示例中，请参见图3，上述***还可包括：

后处理单元6，用于：

使用连续多帧图像数据的识别结果，确定并输出当前的洗手动作类别；

具体细节请参见前述介绍，在此不作赘述。

在本发明其他实施例中，在进行背景去除处理方面，上述所有实施例中的预处理单元可具体用于：

针对任一像素点，若在深度图像中像素点的深度值在预设范围之外，将该像素点在彩色图像中的像素值设置为0。

具体细节请参见前述介绍，在此不作赘述。

在本发明其他实施例中，在进行预检测的方面，上述所有实施例中的预检测单元具体用于：

使用深度图像进行冲水检测；

使用彩色图像进行泡沫检测；

若未处于冲水状态并且不存在泡沫，确定通过预检测。

具体细节请参见前述介绍，在此不作赘述。

在一个示例中，预检测单元可进一步包括：经训练的第一机器学习模型和经训练的第二机器学习模型。

其中，冲水检测由经训练的第一机器学习模型执行，泡沫检测由经训练的第二机器学习执行。

在一个示例中，洗手动作识别单元可包括经训练的第三机器学习模型。洗手动作识别由经训练的第三机器学习模型执行。

具体细节请参见前述介绍，在此不作赘述。

在本发明其他实施例中，在预检测阶段之前，还可包括样本准备阶段；

***还可包括：样本获取单元，用于：

获取图像样本；图像样本包括配准的彩色图像样本、深度图像样本，以及标签；标签为第一标签、第二标签和第三标签；其中，第一标签包括：表征处于冲水状态的信息；第二标签包括：表征存在泡沫的信息；第三标签包括洗手动作类别；

对配准的彩色图像样本和深度图像样本进行数据增强，以扩充图像样本的数量；

对数据增强后得到的每一图像样本进行规范化处理。

具体细节请参见前述介绍，在此不作赘述。

可将标签为第一标签、且经规范化处理的图像样本称为第一目标图像样本；将标签为第二标签、且经规范化处理的图像样本称为第二目标图像样本；

将标签为第三标签、且经规范化处理的图像样本中的彩色图像样本称为目标彩色图像样本，深度图像样本为目标深度图像样本；

上述样本获取单元在样本准备阶段还用于：

使用目标深度图像，对相应的目标彩色图像进行背景去除处理，得到的前景图像与目标深度图像和第三标签构成第三目标图像样本。

具体细节请参见前述介绍，在此不作赘述。

在样本准备阶段之后，预检测阶段之前，还包括训练阶段；

上述***还可包括训练单元，用于：

基于第一目标图像样本对第一机器学习模型执行多次迭代训练，得到经训练的第一机器学习模型；

基于第二目标图像样本对第二机器学习模型执行多次迭代训练，得到经训练的第二机器学习模型；

基于第三目标图像样本对第三机器学习模型执行多次迭代训练，得到经训练的第三机器学习模型。

具体细节请参见前述介绍，在此不作赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及模型步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或模型的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、WD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种洗手动作识别方法，其特征在于，包括：

对所述图像数据进行预检测；

2.如权利要求1所述的方法，其特征在于，所述进行预检测包括：

使用所述图像数据进行冲水检测；

使用所述图像数据进行泡沫检测；

若未处于冲水状态并且不存在泡沫，确定通过预检测。

3.如权利要求2所述的方法，其特征在于，在所述预检测阶段之前，还包括样本准备阶段；

所述样本准备阶段包括：

获取图像样本；所述图像样本包括配准的彩色图像样本、深度图像样本，以及标签；所述标签为第一标签、第二标签或第三标签；其中，所述第一标签包括：表征处于冲水状态的信息；所述第二标签包括：表征存在泡沫的信息；所述第三标签包括洗手动作类别；

对数据增强后得到的每一图像样本进行规范化处理。

4.如权利要求3所述的方法，其特征在于，

标签为所述第一标签、且经规范化处理的图像样本为第一目标图像样本；

标签为所述第二标签、且经规范化处理的图像样本为第二目标图像样本；

标签为所述第三标签、且经规范化处理的图像样本中的彩色图像样本为目标彩色图像样本，深度图像样本为目标深度图像样本；

所述样本准备阶段还包括：

使用所述目标深度图像，对相应的目标彩色图像进行背景去除处理，得到的前景图像与所述目标深度图像和所述第三标签构成第三目标图像样本。

5.如权利要求4所述的方法，其特征在于，在所述样本准备阶段之后，所述预检测阶段之前，还包括训练阶段；

所述冲水检测由经训练的第一机器学习模型执行，所述泡沫检测由经训练的第二机器学习模型执行，所述洗手动作识别由经训练的第三机器学习模型执行；

所述训练阶段包括：

基于所述第一目标图像样本对第一机器学习模型执行多次迭代训练，得到所述经训练的第一机器学习模型；

基于所述第二目标图像样本对第二机器学习模型执行多次迭代训练，得到所述经训练的第二机器学习模型；

基于所述第三目标图像样本对第三机器学习模型执行多次迭代训练，得到所述经训练的第三机器学习模型。

6.如权利要求1所述的方法，其特征在于，所述使用配准后的深度图像，对所述彩色图像进行背景去除处理，得到前景图像包括：

针对任一像素点，若在深度图像中所述像素点的深度值在预设范围之外，将所述像素点在彩色图像中的像素值设置为0。

7.如权利要求1所述的方法，其特征在于，第三机器学习模型包括：

多个直接连接的深度可分离卷积层；

全卷积层；

全局池化层；

分类任务层。

8.如权利要求1所述的方法，其特征在于，还包括：

所述连续多帧图像数据包括所述当前帧的图像数据，以及，所述当前帧的图像数据之前的连续N帧图像数据；N为正整数。

9.一种洗手动作识别***，其特征在于，包括：

预检测单元，用于：对所述图像数据进行预检测；

前处理单元，用于：

洗手动作识别单元，用于：