CN112257513B

CN112257513B - 一种手语视频翻译模型的训练方法、翻译方法及***

Info

Publication number: CN112257513B
Application number: CN202011032048.2A
Authority: CN
Inventors: 陈玉明; 戈康启; 秦午阳; 徐鹏翔; 何毅; 梅雪
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2023-07-25
Anticipated expiration: 2040-09-27
Also published as: CN112257513A

Abstract

本发明公开了一种手语视频翻译模型的训练方法、翻译方法及***，属于模式识别与智能***领域。本发明首先对孤立词数据集中的手语视频数据进行预处理，提取手语视频中人物区域，并利用Mask R‑CNN网络模型对运动的手部进行检测和跟踪，使用第一网络模块提取手部特征，使用第二网络模块提取人体特征；将所提取的手部特征与人体特征利用全连接层进行特征信息融合，训练得到孤立词的权重模型；将所得到孤立词的权重模型作为第三网络模块的预训练模型，并利用第三网络模块对连续语句视频进行特征提取；将提取结果，输入Seq2Seq模型中进行训练，得到训练好的手语视频翻译模型，并进一步地提出了翻译方法和***架构。本发明对手语视频翻译的效果好，准确率高。

Description

一种手语视频翻译模型的训练方法、翻译方法及***

技术领域

本发明属于模式识别与智能***领域，具体涉及一种手语视频翻译模型的训练方法、翻译方法及***。

背景技术

我国聋哑人士的数量已达两千多万，手语是聋哑人与外界沟通的主要方式，它是由手型、动作、表情、姿势等共同构成的一套交际工具。我国已经在2018年出台了通用手语标准，但是精通手语的健听人很少，听力受损的群体很难向正常人传达自己的想法与意图，这使得聋哑人的生活与出行依然面临着许多困难。手语识别这一借助机器翻译手语的技术可以方便聋哑人与正常人进行交流，同时，手语识别也可以应用到人机交互领域，满足人与计算机交互自然性越来越高的要求。

目前已有的手语识别技术可以分为两类：接触式和非接触式。手语翻译手套就是典型的接触式装置，戴上手语翻译手套演示手语，手套上的传感器对肢体动作进行分析，然后转化成文字或语音输出，但是这种手套成本昂贵且不便携带，尚不具备很好的实用价值。

非接触式手语识别***是一种基于视觉的***，它的主要输入设备是摄像机，对摄像机输入的视频图像数据进行处理运算，这种方式也引入了一些挑战，例如手和手指位置的检测、分割和遮挡处理。手语视频中手部的形变与遮挡是一个主要问题，例如申请号为202010176300.0的中国专利公开了一种基于计算机视觉的手语翻译***，该***由语义库模块、坐标处理模块、数据处理模块、参考系模块、交叉训练模块与采集识别模块组成，其语义库模块用于构建语义库，搜集分析各手语动作的关键特征，并以此特征录制视频数据；其坐标处理模块与语义库模块连接，坐标处理模块关联openpose模型，利用openpose对左右手各设的21个关键点来标定每个动作视频帧中的手势，并将关键点的坐标输出保存为对应的json文件。该方案建立在openpose对手部关键点的提取上，依靠对关键点的跟踪来训练模型，但是openpose对形变大、易相互遮挡的手部关键点检测并不理想，在关键点缺失的情况下，模型将无法正常进行手语识别。

手语识别***的扩展性、便捷性依然有待改进，例如申请号为201911039201.1的中国专利公开了一种基于机器学习的手语翻译方法及翻译设备，该方法包括：控制深度摄像头拍摄初始影像；采用连续手势识别框架识别初始影像中听障人士的手语信息；采用算法匹配模型匹配得到手语信息对应的若干文字词组；将若干文字词组智能组合为文字语句；输出手语信息对应的文字语句。该方案依赖于深度摄像头获取的视频深度信息，但是深度摄像头价格昂贵且不易普及，而人们日常生活中所使用的摄像头为RGB摄像头，拍摄的视频不具备深度信息。

手语识别的重点是手势和运动的表征，手势检测的难点在于速度快、形变大、以及遮挡，传统机器学习方法和检测网络不能有效地应对检测任务，从而检测效果差，识别准确率低。

发明内容

技术问题：本发明针对现有技术中，进行手语翻译时，检测效果差、翻译准确率低的问题，本发明提供一种手语视频翻译模型的训练方法、翻译方法及翻译***，能够对手语进行更好的检测，提高手语视频翻译的准确率。

技术方案：本发明的手语视频翻译模型的训练方法，包括以下步骤：

步骤1：获取待识别的孤立词手语视频数据，建立手语孤立词数据集；

步骤2：对数据集中的手语视频数据进行预处理，提取手语视频中人物区域，去除背景干扰；

步骤3：利用Mask R-CNN网络模型对所提取的人物区域中的人手进行检测，进行手部分割并提取手部区域，使用第一网络模块对所提取的手部区域进行特征分类，提取手部特征；

步骤4：使用第二网络模块对所提取的人物区域进行特征分类，提取人体特征；

步骤5：将所提取的手部特征与人体特征利用全连接层进行特征信息融合，训练得到孤立词的权重模型；

步骤6：将所得到孤立词的权重模型作为第三网络模块的预训练模型，并利用第三网络模块对连续语句视频进行特征提取，得到若干个手语词识别结果；

步骤7：将手语词识别结果，输入Seq2Seq模型中进行训练，得到训练好的手语视频翻译模型。

进一步地，步骤2中，对手语视频数据进行预处理，提取手语视频中人物区域的方法为：

选择占据画面中心的人体图像作为训练样本，用HOG算法提取人体图像中的对象特征，并将所提取的对象特征利用SVM中进行分类训练，得到训练好的提取模型，将待识别的孤立词手语视频送入训练好的提取模型中进行人体检测，提取出人物区域。

进一步地，步骤3中，在利用Mask R-CNN网络模型检测手部区域时，若某一帧检测失败，则利用跟踪算法跟踪前一帧检测成功的模型，并利用前一帧检测成功的模型对跟踪算法进行初始化。

进一步地，所述追踪算法采用HOG特征与颜色直方图组合的跟踪算法。

进一步地，步骤3，利用Mask R-CNN网络模型对所提取的人物区域中的人手进行检测前，需对Mask R-CNN网络模型进行训练，包括以下子步骤：

步骤3.1：利用COCO数据集对Mask R-CNN网络模型进行预训练，得到预训练好的Mask R-CNN网络模型；

步骤3.2：从中国手语数据集中随机抽取若干帧手语图像，并标注出手部区域位置；

步骤3.3：将标注好的手语图像送入预训练好的Mask R-CNN网络模型中，对网络模型进行微调，得到训练好的Mask R-CNN网络模型。

进一步地，步骤6中，在利用第三网络模块对连续语句手语视频进行特征提取前，将连续语句手语视频分割成若干个片段，每个片段包括16帧视频，且相邻的片段有50％重叠。

进一步地，第一网络模块、第二网络模块和第三网络模块均为I3D或C3D网络。

本发明的手语视频翻译方法，采用本发明的训练方法训练手语视频翻译模型，包括以下步骤：

步骤A：获取待翻译的手语视频；

步骤B：对手语视频进行预处理，提取视频中的人物区域；

步骤C：利用训练好的Mask R-CNN网络模型对所提取的人物区域中的人手进行检测，进行手部分割并提取手部区域，并使用训练好的第一网络模块对提取的手部区域进行特征分类，提取手部特征；

步骤D：使用训练好的第二网络模块对所提取的人物区域进行特征分类，提取人体特征；

步骤E：将所提取的手部特征与人体特征利用全连接层进行特征信息融合，输出词组特征向量；

步骤F：将所得词组特征向量输入训练好的Seq2Seq模型中，输出手语翻译结果。

进一步地，步骤B中，对视频进行预处理，提取视频中的人物区域的方法为：用HOG算法提取人体图像中的对象特征，并将所提取的对象特征利用训练好的SVM模型中进行提取，得到人物区域。

进一步地，步骤C中，利用训练好的Mask R-CNN网络模型检测手部区域时，若某一帧检测失败，则利用追踪算法追踪前一帧检测成功的模型，并利用前一帧检测成功的模型对跟踪算法进行初始化。

本发明的手语视频翻译***，包括：客户端和服务器端；

客户端采集并向服务器端发送待翻译的手语视频，并接收服务器端返回的翻译信息，对用户进行显示输出；

服务器端接收客户端发送来的待翻译的手语视频，并利用本发明的手语视频翻译方法对手语视频信息进行翻译，并将翻译结果发送给客户端进行显示输出。

进一步地，客户端包括：视频采集模块，用于采集手语视频；

客户端信息传输模块，用于将采集的手语视频图像发送给服务器端，并接收服务器端返回的翻译信息；

显示模块，用于将客户端信息传输模块收到的翻译信息显示输出；

服务器端包括：

服务器端信息传输模块，用于接收客户端发送的手语视频，并将翻译信息发送给客户端进行显示输出；

信息处理模块：利用本发明的手语视频翻译方法对手语视频进行翻译；

信息存储模块，用于存储翻译的手语视频以及翻译结果。

有益效果：本发明与现有技术相比，具有以下优点：

(1)本发明的手语视频翻译模型的训练方法在对手语视频数据进行预处理，提取手语视频中人物区域时，采用HOG算法提取人体图像中的对象特征，HOG描述符不仅可以捕捉边缘信息或梯度结构，还可以对图像的几何和光学形变都保持良好的不变性，对于人体检测有很好的效果；并且将所提取的对象特征利用SVM中进行分类训练，从而有效地提高了手语视频预处理的效果，便于后面的过程进行更好地特征提取，从而提高了手语训练模型的准确率，使得训练出来的模型能够更准确地对手语视频进行翻译。

(2)本发明的手语视频翻译模型的训练方法，利用Mask R-CNN网络模型对所提取的人物区域中的人手进行检测，Mask R-CNN网络模型能够在手部目标小、形变大、速度快、互相遮挡等情况下对手部特征进行检测，从而具有更高的检测效果。本发明使用第一网络模块对所提取的手部区域进行特征分类，提取手部特征；使用第二网络模块对所提取的人物区域进行特征分类，提取人体特征；在具体的实施例中，第一网络模块和第二网络模块均采用I3D网络模型等3维网络模型结构，能够同时提取时间和空间特征，能够更好地对手语视频的特征进行提取，从而能够提高模型的训练准确率。

并且在本发明的实施例中，构建了双路神经网络模型，用以完成手部特征和人体特征的提取，并通过全连接层完成特征融合，从而得到孤立词的权重模型，有效地提高了模型训练的准确性，使得训练出的模型能够准确地对手语视频进行翻译。

(3)本发明的手语视频翻译模型的训练方法利用了Seq2Seq模型，该模型引入了注意力机制，能够有效地对手语视频模型进行训练，使得训练出的模型具有更好的准确性，从而能够对手语视频进行翻译。

(4)在本发明的手语视频翻译模型的训练方法，在利用Mask R-CNN模型进行检测时，引入了跟踪算法跟踪前一帧检测成功的模型，并利用前一帧检测成功的模型对跟踪算法进行初始化，避免了Mask R-CNN模型在检测时特征丢失，从而提高了模型训练的准确性，使得训练出的模型能够更准确地对手语视频进行翻译。

(5)在本发明的手语视频翻译方法，利用本发明提出的手语视频翻译模型的训练方法对手语视频翻译模型进行训练，对手语视频翻译时，翻译的准确率高，且能应用于车站、银行等复杂场景。

(6)在本发明的手语视频翻译***，包括客户端和服务器端，客户端采集手语视频信息，在服务器端利用本发明的手语视频翻译方法完成手语视频翻译，并将翻译结果返回客户端，该***翻译准确率高，并且易于将客户端搭在在手机等移动终端上，便于推广。

附图说明

图1为本发明的手语视频翻译模型的训练方法的流程图；

图2为中国手语数据集CSL500数据集的示意图；

图3为本发明的实施例中双路卷积神经网络的示意图；

图4为本发明的手语视频翻译方法的流程图；

图5为利用本发明的手语视频翻译方法翻译的一段手语视频的示意图；

图6为本发明的手语视频翻译***的结构图。

具体实施方式

下面结合实施例和说明书附图对本发明作进一步的说明，其中术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。

结合图1所示，本发明的手语视频翻译模型的训练方法，包括以下步骤：

步骤1：获取待识别的孤立词手语视频，建立手语孤立词数据集。

步骤2：对数据集中的手语视频数据进行预处理，提取手语视频中人物区域，去除背景干扰。该步骤的具体方法为：

选择占据画面中心的人体手语图像作为训练样本，用HOG(Histogram ofOriented Gradient，方向梯度直方图)算法提取人体图像中的对象特征，并将所提取的对象特征利用SVM(Support Vector Machine，支持向量机)进行分类训练，得到训练好的提取模型，将待识别的孤立词手语视频送入训练好的提取模型中进行人体检测，提取出人物区域。

HOG算法中，HOG描述符不仅可以捕捉边缘信息或梯度结构，还可以对图像的几何和光学形变都保持良好的不变性，对于人体检测有很好的效果。利用HOG算法进行特征的提取时，是先将图像进行灰度化、归一化的处理，然后计算每个像素点的梯度，从而可以弱化光照对特征提取的影响。在获得每个像素点的梯度值之后，将图像分成小cells(单元，例如6*6像素点/cell)并统计每个cell的梯度直方图。接着将每几个cell组成一个block块(例如2*2cell/block)，对每一个重叠block块内的cells进行对比度归一化，对比度归一化之后的描述符(向量)即可称之为HOG描述符；最后就是将所有block内的向量组合成一个大的HOG特征向量，可供SVM分类使用。

在利用HOG算法时，需计算每个像素的水平梯度和垂直梯度：

G_x(x,y)＝H(x+1,y)-H(x-1,y)

G_y(x,y)＝H(x,y+1)-H(x,y-1)

G_x(x,y)表示像素点(x,y)处的水平梯度，G_y(x,y)表示像素点(x,y)处的垂直梯度，H(x,y)表示像素点(x,y)处像素值，从而求出像素点(x,y)处的梯度幅度和梯度方向，分别为：

SVM是一种二分类模型，它的目标就是间隔最大化，具体来说就是要能正确区分数据集中的正负样本且使正负样本几何间隔最大的分离超平面。超平面可以定义为：

ω^TX+b＝0

其中，ω是权重向量，ω^T是指ω的转置，X是训练实例，b为常数。

更具体的，利用HOG算法进行特征提取，然后利用SVM进行分类训练的过程为：

步骤1-A：准备训练数据集，数据集包含正样本和负样本，正样本为占据画面中心的人体正面图像，负样本为车站、银行等场景的人流或物品背景图像，将正样本中的人体进行框选并裁剪，并将所有图像调整为同一尺寸。

步骤1-B：提取正负样本的HOG特征，将正负样本分成两类打上标签，正样本是1，负样本为0，然后提取所有样本的HOG特征。

步骤1-C：SVM分类训练：将正负样本的HOG特征与标签输入到SVM中进行训练，得到训练好的提取模型。

因此利用HOG算法结合SVM算法，能够有效地提取出手语视频中的人物区域，能够对银行、车站等复杂背景下的手语视频进行识别，避免了人物背景对识别效果的影响，从而提高了识别的准确性。

步骤3：利用Mask R-CNN网络模型对所提取的人物区域中的人手进行检测，进行手部分割并提取手部区域，使用第一网络模块对所提取的手部区域进行特征分类，提取手部特征。

手部区域提取首先要框选手部区域，由于手部目标的检测面临着目标小、形变大、速度快、互相遮挡等难点，故选用检测效果较好的Mask R-CNN检测网络，利用Mask R-CNN能够有效地提高检测效果。

Mask R-CNN以FasterR-CNN网络模型为原型，新增了一个mask分支用于分割任务，并做了一些改进。其使用深度残差网络ResNet(Deep Residual Network)替换了FasterR-CNN中原有的VGG网络，ResNet具有更深层次的网络结构并引入了恒等映射的方式来应对网络过深而引起的退化问题，确保网络性能不会下降；为了应对小目标检测的问题，如本发明中的手部检测，Mask R-CNN网络模型使用了一种多尺度检测方法FPN(Feature PyramidNetwork)，它利用卷积网络层级特征的金字塔形式，生成融合多层次的特征，便于细致检测，FPN作为一种通用架构，与ResNet结合使用，因此，利用Mask R-CNN网络有效地提高了检测的效果。

在使用Mask R-CNN网络模型对所提取的人物区域中的人手进行检测前，需对MaskR-CNN网络模型进行训练，包括以下子步骤：

步骤3.1：利用COCO(Microsoft Common Objects in Context)数据集对Mask R-CNN网络模型进行预训练，得到预训练好的Mask R-CNN网络模型。

COCO数据集含有80个类别，超过33万张图片，其中20万张有标注，是目前有语义分割的最大数据集，其中“person”类超过25万人。

步骤3.2：从中国手语数据集CSL中随机抽取若干帧手语图像，并标注出手部区域位置。

具体的，在本发明的一个实施例中，从中国手语数据集CSL500中随机抽取1500张图像，用步骤2中的SVM模型进行人体框选并输出图片，然后人工标注每张图片中演示者的左右手与面部。中国手语数据集CSL500中的样本数据示意图如图2所示。

进一步地，考虑到在手形变大或者遮挡时，基于Mask R-CNN网络模型进行检测时有可能会出现缺失，为了在这些缺失帧中定位手部，在算法中***一种目标跟踪算法。现有的跟踪算法中，通常有两种方式，一种是采用HOG特征模型的特征跟踪方法，另一种是采用颜色直方图的跟踪方法。基于HOG特征的目标跟踪可以较好应对运动模糊与光照变化下的跟踪任务，但是对于形变不够鲁棒；而颜色直方图的跟踪方式可以很好地处理形变情况下的跟踪，但是对光照变化不够鲁棒。对此，引入一种HOG特征与颜色直方图组合的算法，两种算法的互补可以有效地在检测缺失情况下重定位左右手。此算法在当前帧检测缺失的情况下调用，跟踪模型使用前一帧成功检测的位置信息来完成跟踪模型的初始化，由于采用的是传统方式进行跟踪，跟踪效率不会对检测效率产生大的影响。

通过引入跟踪算法，避免了在检测过程中，因为手形变大或者遮挡时引起特征缺失，从而提高了检测的准确率。

在本发明的一个实施例中，第一网络模块采用的是I3D(Inflated 3D ConvNet)网络模型，I3D网络模型中使用的是ImageNet的InceptionV1预训练网络，共有8个卷积，4次池化操作，每个卷积层后放置批量归一化(Batch Normalization，BN)层和线性整流函数(Rectified Linear Unit，ReLU)来生成分类的置信度。说明的是，在本发明的其他实施例中，第一网络模块也可以采用其他的网络模型，例如C3D网络模型等。因为I3D网络为三维卷积神经网络，能够提取时间和空间特征，从而能够进行有效地特征提取。

步骤4：使用第二网络模块对所提取的人物区域进行特征分类，提取人体特征。

在本发明的一个实施例中，第二网络模块采用是I3D网络模型，当然在其他的实例中，也可采用C3D网络模型。

步骤5：将所提取的手部特征与人体特征利用全连接层进行特征信息融合，训练得到孤立词的权重模型。

在本发明的实施例中，在步骤3、4和5的具体实践实施过程中，构建了一个双路的卷积神经网络模型，如图3所示，其中第一路神经网络包括依次连接的Mask R-CNN网络模型和第一网络模块，用于局部特征提取，即手部特征；第二路神经网络为第二网络模块，用于全局特征提取，即人体特征；然后第一网络模块和第二网络模块的输出通过全连接层进行融合。在一个优选的实施例中，第一网络模块和第二网络模块采用的均是I3D网络，然后利用预处理后的手语孤立词数据集对所建立的双路的卷积神经网络模型进行训练，从而经过特征提取与特征信息融合，得到孤立词的权重模型。

步骤6：将所得到孤立词的权重模型作为第三网络模块的预训练模型，并利用第三网络模块对连续语句手语视频进行特征提取，得到若干个手语词识别结果。

在本发明的实施例中，第三网络模块采用的I3D网络模型，并且在利用第三网络模块对连续语句手语视频进行特征提取前，将连续语句手语视频分割成若干个片段，每个片段包括16帧视频，且相邻的片段有50％重叠。

Seq2Seq模型是一种非常流行且重要的自然语言处理技术，该技术突破了传统的固定大小输入框架，在自然语言处理方面有突出表现。在未引入注意力机制时，输入视频中每一个片段对输出中的每一个单词的影响都是相同的，且先输入的内容携带的信息会被后面内容的信息所稀释，导致语义向量无法表示整个序列的信息。为了解决上述问题，Seq2Seq引入注意力模型(Attention Model)，为生成词增加了一个“注意力范围”。通过这种方式，模型能有效地选择关注输入序列的有用部分，从而了解它们之间的对齐关系，有助于模型更好地处理较长的输入信息。

利用本发明的手语视频翻译模型的训练方法，训练出来手语视频翻译模型能够更加准确地对手语视频进行翻译。

进一步地，本发明提出一种手语视频翻译方法，在进行手语视频翻译时，利用本发明中训练手语翻译模型的方法完成手语翻译模型训练，然后利用训练好的模型手语视频进行翻译。因为手语翻译模型训练完成后，其中的Mask R-CNN网络模型、第一网络模块、第二网络模块等均已经训练好。并且在本发明的一个实施例中，第一网络模块、第二网络模块均采用的是I3D网络模型，因此，采用的I3D网络模型也已经训练好。

如图4所示，本发明的手语视频翻译方法包括以下步骤：

步骤A：获取待翻译的手语视频。

步骤B：对手语视频进行预处理，提取视频中的人物区域；具体地是用HOG算法提取人体图像中的对象特征，并将所提取的对象特征利用训练好的SVM模型中进行提取，得到人物区域。

步骤C：利用训练好的Mask R-CNN网络模型对所提取的人物区域中的人手进行检测，进行手部分割并提取手部区域，并使用训练好的第一网络模块对提取的手部区域进行特征分类，提取手部特征。

在该步骤中，利用训练好的Mask R-CNN网络模型检测手部区域时，若某一帧检测失败，则利用追踪算法追踪前一帧检测成功的模型，并利用前一帧检测成功的模型对跟踪算法进行初始化。

步骤D：使用训练好的第二网络模块对所提取的人物区域进行特征分类，提取人体特征。

步骤E：将所提取的手部特征与人体特征利用全连接层进行特征信息融合，输出词组特征向量。

本发明的手语视频模型翻译方法，能够有效地提高手语视频翻译的准确率，尤其是针对银行、车站等任务背景复杂的场景下，该翻译方法能够对手语视频进行准确地翻译，在具体进行测试过程中，手语视频翻译的准确率超过85％，因此可以基本满足手语视频翻译的需求。

图5给出了一个利用本发明的方法进行手语视频的实例，该实例中，采集了一段连续手语视频，进行翻译，通过结果显示，能够对手语视频进行准确翻译。

进一步地，基于本发明的手语视频翻译方法，本发明还提供了一种手语视频翻译***，结合图6所示，本发明的手语视频翻译***，包括客户端和服务器端，其中客户端采集并向服务器端发送待翻译的手语视频，并接收服务器端返回的翻译信息，对用户进行显示输出；服务器端接收客户端发送来的待翻译的手语视频，并对手语视频信息进行翻译，并将翻译结果发送给客户端进行显示输出。

在具体的实施例中，客户端可以是手机、平板电脑、计算机等智能终端，服务器端可以利用现有的服务器，或搭建专门的后台服务器。

在本发明的实施例中，客户端包括视频采集模块、客户端信息传输模块和显示模块，其中视频采集模块用于采集手语视频，例如，如果客户端为智能手机时，智能手机中设置有摄像头，摄像头作为视频采集模块，对手语视频进行采集。

客户端信息传输模块用于将采集的手语视频图像发送给服务器端，并接收服务器端返回的翻译信息；例如当客户端为智能手机时，手机中都设置有通信模块或者数据传输模块，可将手语视频发送给服务器端，并接收服务器端发来的数据。

显示模块用于将客户端信息传输模块收到的翻译信息显示输出；显示模块是显示器，可以直接以文字的形式将翻译结果显示，当然，在其他实施例中，显示模块也可以显示视频采集模块的工作状态信息，且可以与用户进行交互，显示客户端信息传送模块与服务端的通讯状况，监测有无通讯异常，也可以与用户互动得到识别正确或错误的反馈信息。

在其他的实施例中，也可以设置语音模块，将翻译结果以语音的形式播放出来。

服务器端包括信息处理模块、服务器端信息传输模块和信息存储模块，其中服务器端信息传输模块，用于接收客户端发送的手语视频，并将翻译信息发送给客户端进行显示输出。在具体的实施例中，在服务器端可采用高性能的GPU进行运算，从而满足了深度网络对设备性能的要求，也满足了手语识别快速、准确的要求。

信息处理模块用于对手语视频进行翻译，在进行手语视频翻译时，利用本发明提出的手语翻译方法对手语视频进行翻译。

信息存储模块用于存储翻译的手语视频以及翻译结果，信息存储模块存储的手语视频还可以用于翻译模型的训练，从而提高翻译的准确率。

该***能够将服务器端方便的搭载在手机、平板电脑等终端上，并利用服务器端进行大量的数据运算，不仅翻译的准确率高，而且速度快，便于使用和推广。

利用本发明的手语翻译模型的训练方法对手语翻译模型进行训练，并利用本发明的手语翻译方法翻译手语视频时，效果好，准确率高；同时，搭建了一种手语视频翻译***，该***能够将客户端搭在移动终端上，便于用户进行手语视频翻译。

上述实施例仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和等同替换，这些对本发明权利要求进行改进和等同替换后的技术方案，均落入本发明的保护范围。

Claims

1.一种手语视频翻译模型的训练方法，其特征在于，包括以下步骤：

步骤2：对数据集中的手语视频数据进行预处理，提取手语视频中人物区域，去除背景干扰；所述对数据集中的手语视频数据进行预处理，提取手语视频中人物区域的方法为选择占据画面中心的人体图像作为训练样本，用HOG算法提取人体图像中的对象特征，并将所提取的对象特征利用SVM中进行分类训练，得到训练好的提取模型，将待识别的孤立词手语视频送入训练好的提取模型中进行人体检测，提取出人物区域；

2.根据权利要求1所述的一种手语视频翻译模型的训练方法，其特征在于，步骤3中，在利用Mask R-CNN网络模型检测手部区域时，若某一帧检测失败，则利用跟踪算法跟踪前一帧检测成功的模型，并利用前一帧检测成功的模型对跟踪算法进行初始化。

3.根据权利要求2所述的一种手语视频翻译模型的训练方法，其特征在于，所述跟踪算法采用HOG特征与颜色直方图组合的跟踪算法。

4.根据权利要求3所述的一种手语视频翻译模型的训练方法，其特征在于，步骤3，利用Mask R-CNN网络模型对所提取的人物区域中的人手进行检测前，需对Mask R-CNN网络模型进行训练，包括以下子步骤：

步骤3.1：利用COCO数据集对Mask R-CNN网络模型进行预训练，得到预训练好的MaskR-CNN网络模型；

5.根据权利要求1所述的一种手语视频翻译模型的训练方法，其特征在于，步骤6中：在利用第三网络模块对连续语句手语视频进行特征提取前，将连续语句手语视频分割成若干个片段，每个片段包括16帧视频，且相邻的片段有50％重叠。

6.根据权利要求1所述的一种手语视频翻译模型的训练方法，其特征在于，第一网络模块、第二网络模块和第三网络模块均为I3D或C3D网络。

7.一种手语视频翻译方法，其特征在于，采用权利要求1-6任一项所述的训练方法训练手语翻译模型，包括以下步骤：

步骤A：获取待翻译的手语视频；

步骤B：对手语视频进行预处理，提取视频中的人物区域；

8.根据权利要求7所述的一种手语视频翻译方法，其特征在于，步骤B中，对视频进行预处理，提取视频中的人物区域的方法为：用HOG算法提取人体图像中的对象特征，并将所提取的对象特征利用训练好的SVM模型中进行提取，得到人物区域。

9.根据权利要求7所述的一种手语视频翻译方法，其特征在于，步骤C中，利用训练好的Mask R-CNN网络模型检测手部区域时，若某一帧检测失败，则利用追踪算法追踪前一帧检测成功的模型，并利用前一帧检测成功的模型对跟踪算法进行初始化。

10.一种手语视频翻译***，其特征在于，包括：客户端和服务器端；

服务器端接收客户端发送来的待翻译的手语视频，并利用权利要求7-9任一项所述的翻译方法对手语视频信息进行翻译，并将翻译结果发送给客户端进行显示输出。

11.根据权利要求10所述的一种手语视频翻译***，其特征在于，客户端包括：视频采集模块，用于采集手语视频；

服务器端包括：

信息处理模块：利用权利要求7-9任一项所述的翻译方法对手语视频进行翻译；

信息存储模块，用于存储翻译的手语视频以及翻译结果。