CN110322760B

CN110322760B - 语音数据生成方法、装置、终端及存储介质

Info

Publication number: CN110322760B
Application number: CN201910611471.9A
Authority: CN
Inventors: 常兵虎; 胡玉坤; 车浩
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2020-11-03
Anticipated expiration: 2039-07-08
Also published as: CN110322760A

Abstract

本公开关于一种语音数据生成方法、装置、终端及存储介质，涉及互联网技术领域，该方法包括：从待处理的视频中获取至少一个目标视频帧；对至少一个目标视频帧的手部图像进行手势识别，得到至少一个目标视频帧对应的手势类型；基于至少一个手势类型以及手势类型与词语的对应关系，得到目标语句，目标语句包含至少一个手势类型对应的词语；根据目标语句，生成目标语句对应的语音数据。通过播放语音数据就可以了解到视频中的手语想要表达的内容，实现了听障人士与健听人士之间的无障碍交流。待处理的视频可以由普通摄像头拍摄得到，该方案不依赖特定的设备，可以直接在手机、电脑等终端上直接运行，没有额外的成本，可以更好地在听障人群中普及。

Description

语音数据生成方法、装置、终端及存储介质

技术领域

本公开涉及互联网技术领域，尤其涉及一种语音数据生成方法、装置、终端及存储介质。

背景技术

中国的听障人群数量超过2000万人口，他们在日常生活中只能通过手语或者文字与其他人进行交流，但是大部分人不能很好地理解手语，因此，听障人士只能通过手写或者在电子设备上输入文字等方式与其他人进行交流，但是这种交流方式极大地降低了交流的效率。

目前，听障人士也可以通过一些体感设备来实现与其他用户的正常交流，该体感设备上设置有深度摄像头，该体感设备通过深度摄像头获取用户的手势动作，对该手势动作进行分析获取该手势动作对应的文字信息，将得到的文字信息显示在屏幕上。

但是，通常情况下该体感设备体积较大，听障人士无法随身携带，因此，这种方案依然无法实现听障人士与其他人的正常交流。

发明内容

本公开提供一种语音数据生成方法、装置、终端及存储介质，以至少解决相关技术中听障人士与健听人士之间交流困难的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种语音数据生成方法，该方法包括：

从待处理的视频中获取至少一个目标视频帧，所述目标视频帧为包括手部图像的视频帧；

对所述至少一个目标视频帧的手部图像进行手势识别，得到所述至少一个目标视频帧对应的手势类型；

基于至少一个手势类型以及手势类型与词语的对应关系，得到目标语句，所述目标语句包含所述至少一个手势类型对应的词语；

根据所述目标语句，生成所述目标语句对应的语音数据。

在一种可能实现方式中，所述对所述至少一个目标视频帧的手部图像进行手势识别，得到所述至少一个目标视频帧对应的手势类型，包括：

对每个目标视频帧的手部图像进行手势识别，基于所述每个目标视频帧中手部图像中的手部轮廓，获取所述每个目标视频帧的手势形状；

基于所述每个目标视频帧的手势形状以及手势形状与手势类型的对应关系，确定所述每个目标视频帧对应的手势类型。

在一种可能实现方式中，所述基于至少一个手势类型以及手势类型与词语的对应关系，得到目标语句之前，所述方法还包括：

当有目标数量的连续目标视频帧的手势类型相同时，将相同的手势类型作为所述连续目标视频帧对应的手势类型。

在一种可能实现方式中，所述基于至少一个手势类型以及手势类型与词语的对应关系，得到目标语句，包括：

当识别出的手势类型为目标手势类型时，基于目标视频帧对应的手势类型、手势类型与词语的对应关系，获取第一目标视频帧和第二目标视频帧之间的目标视频帧对应的词语，所述第一目标视频帧为本次识别出所述目标手势类型的目标视频帧，所述第二目标视频帧为前一次识别出所述目标手势类型的目标视频帧；

将所述至少一个词语进行组合，得到所述目标语句。

每识别出一个手势类型时，基于所述手势类型以及手势类型与词语的对应关系，获取所述手势类型对应的词语，将所述词语作为所述目标语句。

在一种可能实现方式中，所述根据所述目标语句，生成所述目标语句对应的语音数据之后，所述方法还包括：

当识别出的手势类型为目标手势类型时，则对第一目标视频帧和第二目标视频帧之间的目标视频帧所对应的词语进行语法检测，所述第一目标视频帧为本次识别出所述目标手势类型的目标视频帧，所述第二目标视频帧为前一次识别出所述目标手势类型的目标视频帧；

当语法检测未通过时，基于所述第一目标视频帧和第二目标视频帧之间的目标视频帧对应的词语重新生成新的目标语句，所述新的目标语句包括所述至少一个词语。

在一种可能实现方式中，所述根据所述目标语句，生成所述目标语句对应的语音数据，包括下述任一步骤：

当所述目标视频帧中包括人脸图像时，对所述人脸图像进行人脸识别，得到所述人脸图像对应的表情类型，基于所述表情类型，生成第一语音数据，所述第一语音数据的声调符合所述表情类型；

当所述目标视频帧中包括人脸图像时，对所述人脸图像进行人脸识别，得到所述人脸图像所属的年龄范围，基于所述年龄范围，获取所述年龄范围对应的音色数据，基于所述音色数据，生成第二语音数据，所述第二语音数据的音色符合所述年龄范围；

当所述目标视频帧中包括人脸图像时，对所述人脸图像进行人脸识别，得到所述人脸图像对应的性别类型，基于所述性别类型，获取所述性别类型对应的音色数据，基于所述音色数据，生成第三语音数据，所述第三语音数据的音色符合所述性别类型；

基于所述手势类型的变化速度，确定所述变化速度对应的情感数据，基于所述情感数据，生成第四语音数据，所述第四语音数据的音调符合所述变化速度。

在一种可能实现方式中，所述根据所述目标语句，生成所述目标语句对应的语音数据，包括：

基于所述目标语句中的字符元素以及字符元素与发音的对应关系，获取所述目标语句对应的发音序列；

基于所述发音序列，生成所述目标语句对应的语音数据。

在一种可能实现方式中，所述从待处理的视频中获取至少一个目标视频帧，包括：

将所述待处理的视频输入卷积神经网络中，由所述卷积神经网络将所述待处理的视频拆分为多个视频帧；

对于任一视频帧，当检测到所述视频帧中包括手部图像时，对手部图像进行标注，将所述视频帧作为目标视频帧；

当检测到所述视频帧中不包括手部图像时，将所述视频帧丢弃。

根据本公开实施例的第二方面，提供一种语音数据生成装置，该装置包括：获取单元，被配置为执行从待处理的视频中获取至少一个目标视频帧，所述目标视频帧为包括手部图像的视频帧；

识别单元，被配置为执行对所述至少一个目标视频帧的手部图像进行手势识别，得到所述至少一个目标视频帧对应的手势类型；

语句生成单元，被配置为执行基于至少一个手势类型以及手势类型与词语的对应关系，得到目标语句，所述目标语句包含所述至少一个手势类型对应的词语；

语音数据生成单元，被配置为执行根据所述目标语句，生成所述目标语句对应的语音数据。

在一种可能实现方式中，所述识别单元包括：

手势形状获取子单元，被配置为执行对每个目标视频帧的手部图像进行手势识别，基于所述每个目标视频帧中手部图像中的手部轮廓，获取所述每个目标视频帧的手势形状；

手势类型获取子单元，被配置为执行基于所述每个目标视频帧的手势形状以及手势形状与手势类型的对应关系，确定所述每个目标视频帧对应的手势类型。

在一种可能实现方式中，所述装置还包括：

确定单元，被配置为执行当有目标数量的连续目标视频帧的手势类型相同时，将相同的手势类型作为所述连续目标视频帧对应的手势类型。

在一种可能实现方式中，所述语句生成单元包括：

词语获取子单元，被配置为执行当识别出的手势类型为目标手势类型时，基于目标视频帧对应的手势类型、手势类型与词语的对应关系，获取第一目标视频帧和第二目标视频帧之间的目标视频帧对应的词语，所述第一目标视频帧为本次识别出所述目标手势类型的目标视频帧，所述第二目标视频帧为前一次识别出所述目标手势类型的目标视频帧；

组合子单元，被配置为执行将所述至少一个词语进行组合，得到所述目标语句。

在一种可能实现方式中，所述语句生成单元，还被被配置为执行每识别出一个手势类型时，基于所述手势类型以及手势类型与词语的对应关系，获取所述手势类型对应的词语，将所述词语作为所述目标语句。

在一种可能实现方式中，所述装置还包括：

语法检测单元，被配置为执行当识别出的手势类型为目标手势类型时，则对第一目标视频帧和第二目标视频帧之间的目标视频帧所对应的词语进行语法检测，所述第一目标视频帧为本次识别出所述目标手势类型的目标视频帧，所述第二目标视频帧为前一次识别出所述目标手势类型的目标视频帧；

所述语句生成单元，被配置为执行当语法检测未通过时，基于所述第一目标视频帧和第二目标视频帧之间的目标视频帧对应的词语重新生成新的目标语句，所述新的目标语句包括所述至少一个词语。

在一种可能实现方式中，所述语音数据生成单元，被配置为执行下述任一步骤：

在一种可能实现方式中，所述语音数据生成单元包括：

发音序列获取子单元，被配置为执行基于所述目标语句中的字符元素以及字符元素与发音的对应关系，获取所述目标语句对应的发音序列；

语音数据获取子单元，被配置为执行基于所述发音序列，生成所述目标语句对应的语音数据。

在一种可能实现方式中，所述获取单元包括：

输入子单元，被配置为执行将所述待处理的视频输入卷积神经网络中，由所述卷积神经网络将所述待处理的视频拆分为多个视频帧；

标注子单元，被配置为执行对于任一视频帧，当检测到所述视频帧中包括手部图像时，对手部图像进行标注，将所述视频帧作为目标视频帧；

丢弃子单元，被配置为执行当检测到所述视频帧中不包括手部图像时，将所述视频帧丢弃。

根据本公开实施例的第三方面，提供一种终端，包括：

一个或多个处理器；

用于存储所述一个或多个处理器可执行指令的一个或多个存储器；

其中，所述一个或多个处理器被配置为执行上述目标方面任一项所述的语音数据生成方法。

根据本公开实施例的第四方面，提供一种服务器，包括：

一个或多个处理器；

根据本公开实施例的第五方面，提供了一种计算机可读存储介质，当所述存储介质中的指令由计算机设备的处理器执行时，使得计算机设备能够执行上述目标方面任一项所述的语音数据生成方法。

根据本公开实施例的第六方面，提供一种计算机程序产品，包括可执行指令，当所述计算机程序产品中的指令由计算机设备的处理器执行时，使得所述计算机设备能够执行如上述任一项所述的语音数据生成方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开实施例提供的一种语音数据生成方法、装置、终端及存储介质，通过对包括手语的视频进行目标检测与跟踪，得到用户的手势类型，通过手势类型与词语的对应关系，获取到手语对应的语句，并生成该语句的语音数据，后续通过播放语音数据就可以了解到视频中的手语想要表达的内容，实现了听障人士与健听人士之间的无障碍交流。其中，待处理的视频可以由普通摄像头拍摄得到，因此，该方案不依赖特定的设备，可以直接在手机、电脑等终端上直接运行，没有额外的成本，可以更好地在听障人群中普及。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种语音数据生成方法的流程图；

图2是根据一示例性实施例示出的一种语音数据生成方法的流程图；

图3是根据一示例性实施例示出的一种目标视频帧的示意图；

图4是根据一示例性实施例示出的一种语音数据生成方法的流程图；

图5是根据一示例性实施例示出的另一种语音数据生成方法的流程图；

图6是根据一示例性实施例示出的一种语音数据生成装置的框图；

图7是根据一示例性实施例示出的另一种语音数据生成装置的框图；

图8是根据一示例性实施例示出的一种终端的框图；

图9是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“目标”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例可以应用于任一需要对手语进行翻译的场景下。

例如，在直播场景下，主播可以为听障人士，终端拍摄该主播的视频，将该视频上传到与直播软件关联的服务器中，由服务器对手语视频进行分析处理，将视频中的手语翻译为语音数据，将语音数据下发至观看终端，观看终端播放语音数据，从而了解到主播想要表达的语义，实现了主播与观看用户的正常交流。

例如，在听障人士与健听人士的面对面交流的场景下，听障人士可以通过手机等终端拍摄自己的手语视频，通过终端对手语视频进行分析处理，将视频中手语翻译为语音数据，并播放语音数据，从而使得其他人能够快速了解到用户想要表达的语义。

除上述场景之外，本公开实施例提供的方法还可以应用于用户观看听障人士拍摄的视频，由观看终端将视频中的手语翻译成语音数据等其他场景下，本公开实施例对此不做限定。

图1是根据一示例性实施例示出的一种语音数据生成方法的流程图，如图1所示，该语音数据生成方法可以应用于计算机设备中，该计算机设备可以为手机、电脑等终端，也可以为与应用关联的服务器，包括以下步骤：

在步骤S11中，从待处理的视频中获取至少一个目标视频帧，目标视频帧为包括手部图像的视频帧。

在步骤S12中，对至少一个目标视频帧的手部图像进行手势识别，得到至少一个目标视频帧对应的手势类型。

在步骤S13中，基于至少一个手势类型以及手势类型与词语的对应关系，得到目标语句，目标语句包含至少一个手势类型对应的词语。

在步骤S14中，根据目标语句，生成目标语句对应的语音数据。

在一种可能实现方式中，对至少一个目标视频帧的手部图像进行手势识别，得到至少一个目标视频帧对应的手势类型，包括：

对每个目标视频帧的手部图像进行手势识别，基于每个目标视频帧中手部图像中的手部轮廓，获取每个目标视频帧的手势形状；

基于每个目标视频帧的手势形状以及手势形状与手势类型的对应关系，确定每个目标视频帧对应的手势类型。

在一种可能实现方式中，基于至少一个手势类型以及手势类型与词语的对应关系，得到目标语句之前，方法还包括：

当有目标数量的连续目标视频帧的手势类型相同时，将相同的手势类型作为连续目标视频帧对应的手势类型。

在一种可能实现方式中，基于至少一个手势类型以及手势类型与词语的对应关系，得到目标语句，包括：

当识别出的手势类型为目标手势类型时，基于目标视频帧对应的手势类型、手势类型与词语的对应关系，获取第一目标视频帧和第二目标视频帧之间的目标视频帧对应的词语，第一目标视频帧为本次识别出目标手势类型的目标视频帧，第二目标视频帧为前一次识别出目标手势类型的目标视频帧；

将至少一个词语进行组合，得到目标语句。

每识别出一个手势类型时，基于手势类型以及手势类型与词语的对应关系，获取手势类型对应的词语，将词语作为目标语句。

在一种可能实现方式中，根据目标语句，生成目标语句对应的语音数据之后，方法还包括：

当识别出的手势类型为目标手势类型时，则对第一目标视频帧和第二目标视频帧之间的目标视频帧所对应的词语进行语法检测，第一目标视频帧为本次识别出目标手势类型的目标视频帧，第二目标视频帧为前一次识别出目标手势类型的目标视频帧；

当语法检测未通过时，基于第一目标视频帧和第二目标视频帧之间的目标视频帧对应的词语重新生成新的目标语句，新的目标语句包括至少一个词语。

在一种可能实现方式中，根据目标语句，生成目标语句对应的语音数据，包括下述任一步骤：

当目标视频帧中包括人脸图像时，对人脸图像进行人脸识别，得到人脸图像对应的表情类型，基于表情类型，生成第一语音数据，第一语音数据的声调符合表情类型；

当目标视频帧中包括人脸图像时，对人脸图像进行人脸识别，得到人脸图像所属的年龄范围，基于年龄范围，获取年龄范围对应的音色数据，基于音色数据，生成第二语音数据，第二语音数据的音色符合年龄范围；

当目标视频帧中包括人脸图像时，对人脸图像进行人脸识别，得到人脸图像对应的性别类型，基于性别类型，获取性别类型对应的音色数据，基于音色数据，生成第三语音数据，第三语音数据的音色符合性别类型；

基于手势类型的变化速度，确定变化速度对应的情感数据，基于情感数据，生成第四语音数据，第四语音数据的音调符合变化速度。

在一种可能实现方式中，根据目标语句，生成目标语句对应的语音数据，包括：

基于目标语句中的字符元素以及字符元素与发音的对应关系，获取目标语句对应的发音序列；

基于发音序列，生成目标语句对应的语音数据。

在一种可能实现方式中，从待处理的视频中获取至少一个目标视频帧，包括：

将待处理的视频输入卷积神经网络模型中，由卷积神经网络模型将待处理的视频拆分为多个视频帧；

对于任一视频帧，当检测到视频帧中包括手部图像时，对手部图像进行标注，将视频帧作为目标视频帧；

当检测到视频帧中不包括手部图像时，将视频帧丢弃。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图2是根据一示例性实施例示出的一种语音数据生成方法的流程图，如图2所示，该方法可以应用于计算机设备中，该计算机设备可以为手机、电脑等终端，也可以为与应用关联的服务器，本实施例以服务器为执行主体为例进行说明，包括以下步骤：

在步骤S21中，服务器从待处理的视频中获取至少一个目标视频帧，目标视频帧为包括手部图像的视频帧。

其中，待处理的视频可以是由终端拍摄完成之后，上传的一段完整的视频，也可以是由终端进行拍摄实时发送至服务器的视频。该待处理的视频是由一帧一帧的静态图像连接而成的，每个静态图像均为一个视频帧。

上述步骤S21的具体实现方式可以为：服务器在获取到待处理的视频后，对待处理的视频中的每一个视频帧进行手部图像检测，确定视频帧中是否包括手部图像，当视频帧中包括手部图像时，对手部图像所在的区域进行标记，得到目标视频帧；当视频帧中不包括手部图像时，将该视频帧丢弃。通过将一部分无用的视频帧丢弃，减少了后续需要处理的视频帧数量，进而减少了服务器的计算量，提高了处理速度。

其中，服务器确定视频帧中是否包括手部图像的具体过程可以通过第一网络实现，该第一网络可以是SSD(Single Shot multibox Detector，单次多箱探测器)网络、HMM(Hidden Markov Model，隐马尔可夫模型)网络或者其他卷积神经网络。相应地，在该步骤S21的一种可能实现方式中，服务器将待处理的视频拆分为多个视频帧，对于任一视频帧，服务器采用第一网络获取该视频帧的特征数据，确定特征数据中是否包括目标特征数据，该目标特征数据为手部对应的特征数据；当特征数据中包括目标特征数据时，根据目标特征数据的位置，确定手部图像的位置；通过矩形框标注手部图像的位置，输出带有矩形框标注的目标视频帧；当特征数据中不包括目标特征数据时，将该视频帧丢弃。通过卷积神经网络对待处理的视频进行分析，能够快速且准确地对视频进行分析。

其中，带有矩形框标注的目标视频帧可以如图3所示，图3示出了3个目标视频帧，每个目标视频帧中的手部图像均通过矩形框标注了出来。

其中，第一网络可以利用训练样本对卷积神经网络进行训练得到。例如，在采用训练样本对卷积神经网络进行训练的阶段，可以准备大量包括手部图像的图片，对这些图片中的手部图像进行标注，即将图片中手部图像所在的区域通过矩形框标注出来。利用标注后的图片对卷积神经网络中进行训练，得到训练完成的第一网络。

需要说明的是，本实施例仅是以第一网络对待处理的视频分析为例进行说明，在一些实施例中，还可以图像扫描等其他方法对待处理的视频进行分析，本公开实施例对待处理的视频进行分析的方法不做限定。

在步骤S22中，服务器对该至少一个目标视频帧的手部图像进行手势识别，得到该至少一个目标视频帧对应的手势类型。

在本实施例中，服务器对该至少一个目标视频帧的手部图像进行手势识别的时机可以为以下任意时机：(1)在获取到待处理视频的全部目标视频帧之后，对目标视频帧的手部图像进行手势识别，通过将视频帧分为两步处理，减少了运行内存；(2)在获取到一个目标视频帧之后，对该目标视频帧的手部图像进行手势识别，得到该目标视频帧的手势类型之后，执行获取下一目标视频帧的步骤，通过将每一个视频帧进行彻底的处理，有利于提高交流的实时性。

另外，服务器对至少一个目标视频帧的手部图像进行识别的具体过程可以包括下述过程：服务器对每个目标视频帧的手部图像进行手势识别，基于每个目标视频帧中手部图像中的手部轮廓，获取每个目标视频帧的手势形状；基于每个目标视频帧的手势形状以及手势形状与手势类型的对应关系，确定每个目标视频帧对应的手势类型。

另外，上述服务器对手部图像的分析的具体过程可以通过第二网络来实现的，第二网络可以为SSD网络、HMM网络或者其他卷积神经网络。相应地，在该步骤S22的一种可能实现方式中，服务器采用第一网络进行目标检测得到手部图像，采用第二网络对手部图像进行进行跟踪，得到手部图像对应的手势类型。也即，本公开实施例中，服务器采用第二网络对手势进行分类时，还可以采用第一网络对下一视频帧进行目标检测，通过两个网络共同处理得到手势类型的分类，加快了手势分类的速度。

第二网络的训练过程可以为：准备大量不同手势形状的图片，对这些图片进行分类标注。如，手势类型为“比心”的所有图片的标号都为1，手势类型为“好的”的所有图片的标号都为2。将标注后的图片输入卷积神经网络中进行训练，得到训练完成的第二网络。

另外，上述服务器对手部图像的分析过程还可以通过第一网络来实现。也即是，通过同一个网络来实现目标检测以及目标分类。服务器采用第一网络检测视频帧中是否包括手部图像，当检测到手部图像之后，对该手部图像进行手势识别即可得到手部图像对应的手势类型，仅需一个网络即可完成目标检测以及目标的分类，使得分析视频的算法占用内存较小，从而易于终端调用。

需要说明的是，当通过第二网络识别手势类型时，输入第二网络的可以是目标视频帧，也可以是目标视频帧中的手部图像，本公开实施例对此不做限定。

在步骤S23中，当有目标数量的连续目标视频帧的手势类型相同时，服务器将相同的手势类型作为连续目标视频帧对应的手势类型。

由于视频在进行拍摄时，一秒可以获取到多个视频帧，因此，当用户做出手势动作时，同一个手势动作会出现在多个视频帧中。用户在手势动作的变化过程中，可以会产生其他手势类型对应的动作，由于在手势动作变化过程中产生的手势动作的持续时间较短，而用户做出的手语动作持续时间会相对较长，为了确定哪些是用户做出的手语动作，哪些是用户在手势变化过程中产生的动作，当有目标数量的连续目标视频帧的手势类型相同时，服务器可以将相同的手势类型作为连续目标视频帧对应的手势类型，使得用户做出的手势动作，服务器只会生成相应的一个词语或者语句，避免了将手势变化过程中产生的中间手势被误识别，提高了用户的体验，也提高了识别的准确率，还避免了服务器针对用户的一个动作生成多个重复词语。。

上述步骤S23的具体实现方式可以为：服务器在获取到一个手势类型之后，将该手势类型作为待确定的手势类型，服务器再获取下一目标视频帧的手势类型。当下一目标视频帧的手势类型与待确定的手势类型相同时，将待确定的手势类型的连续次数加1，继续执行获取下一目标视频帧的手势类型的步骤；当下一视频帧的手势类型与待确定的手势类型不同时，则确定该待确定手势类型的连续次数是否大于目标数量，若待确定的手势类型的连续次数不小于目标数量，则确定待确定的手势类型为有效手势类型，将下一视频帧的手势类型作为待确定的手势类型；若待确定的手势类型的出现次数小于目标数量，则将待确定的手势类型确定为无效手势类型，将下一目标视频的手势类型作为待确定的手势类型。

其中，目标数量可以为10、15、20等任一取值，目标数量可以由每秒内视频帧的数量确定，或者用户的手势变化速度确定，或者其他方式确定，本公开实施例对此不做限定。

在步骤S24中，当识别出的手势类型为目标手势类型时，基于目标视频帧对应的手势类型、手势类型与词语的对应关系，服务器获取第一目标视频帧和第二目标视频帧之间的目标视频帧对应的词语，第一目标视频帧为本次识别出目标手势类型的目标视频帧，第二目标视频帧为前一次识别出目标手势类型的目标视频帧。

其中，目标手势类型可以为事先设置的一个手势类型，该目标手势用于表示一句话的表述完成。当检测到目标手势类型时，说明用户想要表示这句话已经表述完成。另外，一个手势类型可以对应至少一个词语。

其中，服务器获取第一目标视频帧和第二目标视频帧之间的目标视频帧对应的词语的具体过程可以为：服务器获取多个连续目标视频帧对应的手势类型，从数据库中获取每个手势类型对应的至少一个词语，该数据库用于对应存储手势类型以及手势类型对应的至少一个词语。

需要说明的是，在本公开实施例中，仅是以通过目标手势来表示一句话的完成为例进行说明，在一些实施例中，还可以在拍摄视频的终端上设置按键，通过点击按键来表示一句话的完成，或者通过其他方式来表示一句话的完成，本公开实施例对服务器确定一句话是否完成的方式不做限定。

在步骤S25中，服务器将至少一个词语进行组合，得到多个语句。

当服务器获取到一个词语时，直接将该词语作为语句。当服务器获取到多个词语时，服务器生成语句的具体过程可以为：通过将多个词语顺序组合得到多个语句；或者，基于多个词语检索语料库，获取语料库中的多个语句，其中，语料库中包括大量的真实语句。

在一种可能实现方式中，服务器通过将多个词语顺序组合得到多个语句，具体过程可以为：服务器按照手势类型的时间先后顺序，将每个手势类型对应的一个词语进行组合，得到一个语句，由于有些手势类型对应多个词语，因此，服务器需要将该手势类型的每个词语与其他手势类型的词语进行一次组合，所以得到多个语句。由于手语的语序与口语的语序表述相同，因此，可以直接将手势类型对应的词汇按照时间顺序进行排列组合，在保证准确率的基础上，加快了语句的生成速度。

在另一种可能实现方式中，服务器基于多个词语检索语料库，获取语料库中的多个语句，具体过程可以为：服务器本地存储有语料库，服务器在得到多个词语时，将多个词语进行组合作为检索词，在语料库中进行检索，从语料库中获取多个语句，其中，每个语句包括每个手势类型对应的一个词语。通过在语料库中查找真实语句，保证了得到的语句的通顺性。

由于，有些手势类型对应多个词语，因此，需要将手势类型对应的每个词语与其他手势类型对应的词语进行组合，得到多个检索词汇。针对每个检索词汇，从语料库中获取该检索词汇对应的至少一个语句。

在步骤S26中，服务器对每个语句进行分值计算，将最高分值的语句作为目标语句。

其中，服务器可以按照语句是否通顺、是否包括每一个手势类型对应的词语、词语在语句中的顺序是否与相应的手势类型的发生时间顺序相同等条件对每个语句进行分值计算。根据语句不同的生成方式，服务器可以按照不同的条件对语句进行分值计算。另外，服务器也可以将任意一种或者多种的条件进行组合来进行分值计算。

以服务器通过将多个词语顺序组合得到多个语句为例进行说明，服务器可以依据语句的通顺性对每个语句进行分值计算，将最高分值的语句作为目标语句。由于某些手势类型可以对应多个词语，该多个词语可能语义相差较大，当选择的手势类型对应词语为用户想要表达的词语时，该语句通顺，当选择的手势类型对应词语不是用户想要表达的词语时，该语句可能不通顺。通过判断语句的通顺度，在手势类型对应的多个词语中，获取到用户想要表达的词语，提高了手语翻译的精准度。

服务器可以基于N-gram算法来判断语句是否通顺，N-gram算法可以判断每N个相邻词汇是否搭配，服务器基于N-gram算法可以确定一个语句中每N个相邻词汇的搭配度，基于每N个相邻词汇的搭配度，确定语句的通顺度，其中，N可以是2、3、4、5等任一数字，还可以是该语句中包括的词汇数目。其中，相邻词汇的搭配度越高，语句的通顺度越高。采用N-gram算法能够准确判断出语句的通顺性，从而确定出符合用户要求的语句，进一步提高了手语翻译的精准度。

以服务器基于多个词语检索语料库，获取语料库中的多个语句为例进行说明，基于每个手势类型的发生时间顺序以及每个语句中词语的先后顺序，对每个语句进行分值计算，其中，手势类型的先后顺序与手势类型对应的词语在语句中的先后顺序的相速度越高，语句的分值越高。其中，语料库中的语句是没有语序、逻辑等问题的真实语句，从语料库中筛选出的语句无需验证语序或者逻辑是否存在问题，且是日常生活中的真实语句，能够更好地模拟正常用户之间的交流，提高了手语翻译的效果，并且仅需验证该语句中词语的顺序与手势类型的发生时间顺序是否相同即可，简化了判断流程。

在步骤S27中，服务器基于目标语句，生成目标语句对应的语音数据。

其中，语音数据为目标语句的音频数据。

上述步骤S27的具体实现过程可以为：服务器基于目标语句中的字符元素以及字符元素与发音的对应关系，获取目标语句对应的发音序列，基于发音序列，生成目标语句对应的语音数据。

其中，服务器获取目标语句的发音序列，并根据发音序列生成目标语句对应的语音数据的具体的过程可以包括下述过程：服务器通过文本正则化方法对目标语句进行处理，将目标语句中的非汉字类字符转换成汉字类字符，得到第一目标语句；服务器对第一目标语句进行分词处理和词性标注，得到至少一个分词和该至少一个分词对应的词性结果；基于每个分词的词性结果与发音的对应关系，获取每个分词结果的发音；基于每个分词结果的发音，通过韵律模型对每个分词结果进行韵律预测，得到带有韵律标签的发音序列；服务器采用声学模型对发音序列中的每个发音单元进行声学参数预测，得到每个发音单元对应的声学参数；服务器将每个发音单元对应的声学参数转换成对应的语音数据。其中，声学模型可以采用LSTM(Long Short-Term Memory，长短期记忆)网络模型。

通过将韵律模型将分词结果的发音进行处理，会使得后续生成的语音更加生动，更好地模拟两个用户之间的正常交流，增强了用户体验，提高了手语翻译效果。

另外，在生成语音数据时，还可以参考用户的状态，输出与用户的状态相符的语音数据。在一种可能实现方式中，服务器中存储有多个表情类型以及表情类型对应的声调信息。当目标视频帧中包括人脸图像时，服务器对人脸图像进行人脸识别，得到人脸图像对应的表情类型，基于表情类型，生成第一语音数据，第一语音数据的声调符合表情类型。例如，当服务器检测到用户的表情类型为高兴时，会生成声调比较欢快的第一语音数据。

在另一种可能实现方式中，服务器中存储有多个年龄范围以及年龄范围对应的音色数据。当目标视频帧中包括人脸图像时，服务器对人脸图像进行人脸识别，得到人脸图像所属的年龄范围，基于年龄范围，获取年龄范围对应的音色数据，基于音色数据，生成第二语音数据，第二语音数据的音色符合年龄范围。例如，当服务器检测到用户的年龄范围为5-10岁时，生成音色比较稚嫩的第二语音数据。

在另一种可能实现方式中，服务器中存储有性别类型以及性别类型对应的音色数据。当目标视频帧中包括人脸图像时，对人脸图像进行人脸识别，得到人脸图像对应的性别类型，基于性别类型，获取性别类型对应的音色数据，基于音色数据，生成第三语音数据，第三语音数据的音色符合性别类型。例如，当服务器检测到用户为女性时，会生成音色为女性的第三语音数据。

在另一种可能实现方式中，服务器中存储有多个变化速度以及变化速度对应的情感数据。基于手势类型的变化速度，服务器确定变化速度对应的情感数据，基于情感数据，生成第四语音数据，第四语音数据的音调符合变化速度。例如，当用户的手势变化速度较快时，说明用户的情绪比较激动，则生成语调较高的第四语音数据。

综合上述步骤，本公开实施例提供的语音数据生成方法如图4所示，听障人士通过在摄像头面前展示一段手语，摄像头拍摄包括手语的视频，通过手语识别模块对视频进行手语识别分析，得到多个手势类型，通过手语翻译模块获取手势类型对应的词语，将至少一个词语合成目标语句，通过听语音合成模块生成目标语句的语音数据，将该语音数据播放给健听人士，实现听障人士与健听人士之间的正常交流。

需要说明的是，上述四种生成语音数据的方式，可以选择任意一种或者多种进行结合，还可以由用户选择自己喜欢的音色或者音调，来生成语音数据，本公开实施例仅是对提高语音效果的方式进行举例说明，本公开实施例对提高语音效果的具体方式不做限定。

本公开实施例提供的一种语音数据生成方法，通过对包括手语的视频进行目标检测与跟踪，得到用户的手势类型，通过手势类型与词语的对应关系，获取到手语对应的语句，并生成该语句的语音数据，后续通过播放语音数据就可以了解到视频中的手语想要表达的内容，实现了听障人士与健听人士之间的无障碍交流。其中，待处理的视频可以由普通摄像头拍摄得到，因此，该方案不依赖特定的设备，可以直接在手机、电脑等终端上直接运行，没有额外的成本，可以更好地在听障人群中普及。

另外，通过检测手势的持续时长，判断出有效手势和无效手势，避免了手势变化过程中产生的中间手势被误识别，提高了手语翻译的准确度，提高了用户体验。

另外，服务器在获取到多个目标语句之后，还会按照一定的条件对多个目标语句进行分值计算，将分值最高的语句作为目标语句，使得目标语句更加符合用户的需求，提高了用户体验，增强了手语翻译的效果。

另外，服务器还可以根据用户的状态，生成与用户的状态相符的语音数据，使得该语音数据更好地模拟正常用户之间的交流，使得该交流过程更加生动形象。

上述图2至4所示实施例，是以用户一句话表述完成之后，生成该句话对应的语音数据为例进行说明的，而在一种可能实施例中，服务器在获取到手势类型之后，会实时生成手势类型对应的语音数据。下面基于图5的实施例进一步进行介绍。图5是根据一示例性实施例示出的一种语音数据生成方法的流程图，如图5所示，该方法用于服务器中，包括以下步骤：

在步骤S51中，服务器从待处理的视频中获取至少一个目标视频帧，至少一个目标视频帧为包括手部图像的视频帧。

在步骤S52中，服务器对该至少一个目标视频帧的手部图像进行手势识别，得到该至少一个目标视频帧对应的手势类型。

在步骤S53中，当有目标数量的连续目标视频帧的手势类型相同时，服务器将相同的手势类型作为连续目标视频帧对应的手势类型。

其中，步骤S51至步骤S53与步骤S21至步骤S23类似，在此不再一一赘述。

在步骤S54中，服务器每识别出一个手势类型之后，基于该手势类型以及手势类型与词语的对应关系，获取手势类型对应的词语，将该词语作为目标语句。

其中，一个手势类型对应一个词语，由于该词语与手势类型为一一对应关系，并且手语的语序与健听人士的口语语序是相同的，因此，当服务器确定手势类型之后，即可将该手势类型对应的唯一词语确定为目标语句，该目标语句能够准确表达手语的语义。

在步骤S55中，服务器基于目标语句，生成目标语句对应的语音数据。

求中步骤S55与步骤S27类似，在此不再一一赘述。

在步骤S56中，当识别出的手势类型为目标手势类型时，则服务器对第一目标视频帧和第二目标视频帧之间的目标视频帧所对应的词语进行语法检测，第一目标视频帧为本次识别出目标手势类型的目标视频帧，第二目标视频帧为前一次识别出目标手势类型的目标视频帧。

当用户想要表达的一句话通过手语表达结束时，服务器还可以将该句话实时输出的词语按照时间顺序进行排列，生成一个语句，对该语句进行语法检测，确定实时输出的语句是否准确。

在步骤S57中，当语法检测未通过时，服务器基于第一目标视频帧和第二目标视频帧之间的目标视频帧对应的词语重新生成新的目标语句，新的目标语句包括至少一个词语。

也即，当语法存在问题时，将该句话重新输出，该步骤S24至步骤S26类似，在此不再一一赘述。

需要说明的是，当语法检测通过时，则继续执行对下一视频帧的分析处理的步骤。

在步骤S58中，服务器基于新的目标语句，生成新的目标语句对应的语音数据。

该步骤S58与步骤S27类似，在此不再一一赘述。

本公开实施例提供的一种语音数据生成方法，在确定一个有效手势类型之后，输出该手势类型对应的语音数据，通过实时翻译，提高了翻译的速度，也提高了听障人士与健听人士之间的交流体验，能够更好地模拟健听人士之间的口语交流。并且，服务器在一句话输出完毕之后，还会对该句话进行语法检测，当该句话的语法存在问题时，还会重新生成符合语法的语句，提高了翻译的准确性。

图6是根据一示例性实施例示出的一种语音数据生成装置框图。参照图6，该装置包括获取单元601、识别单元602、语句生成单元603和语音数据生成单元604。

获取单元601，被配置为执行从待处理的视频中获取至少一个目标视频帧，该目标视频帧为包括手部图像的视频帧；

识别单元602，被配置为执行对该至少一个目标视频帧的手部图像进行手势识别，得到该至少一个目标视频帧对应的手势类型；

语句生成单元603，被配置为执行基于至少一个手势类型以及手势类型与词语的对应关系，得到目标语句，该目标语句包含该至少一个手势类型对应的词语；

语音数据生成单元604，被配置为执行根据该目标语句，生成该目标语句对应的语音数据。

本公开实施例提供的语音数据生成装置，通过对包括手语的视频进行目标检测与跟踪，得到用户的手势类型，通过手势类型与词语的对应关系，获取到手语对应的语句，并生成该语句的语音数据，后续通过播放语音数据就可以了解到视频中的手语想要表达的内容，实现了听障人士与健听人士之间的无障碍交流。其中，待处理的视频可以由普通摄像头拍摄得到，因此，该方案不依赖特定的设备，可以直接在手机、电脑等终端上直接运行，没有额外的成本，可以更好地在听障人群中普及。

在一种可能实现方式中，如图7所示，该识别单元602包括：

手势形状获取子单元6021，被配置为执行对每个目标视频帧的手部图像进行手势识别，基于该每个目标视频帧中手部图像中的手部轮廓，获取该每个目标视频帧的手势形状；

手势类型获取子单元6022，被配置为执行基于该每个目标视频帧的手势形状以及手势形状与手势类型的对应关系，确定该每个目标视频帧对应的手势类型。

在一种可能实现方式中，如图7所示，该装置还包括：

确定单元605，被配置为执行当有目标数量的连续目标视频帧的手势类型相同时，将相同的手势类型作为该连续目标视频帧对应的手势类型。

在一种可能实现方式中，如图7所示，该语句生成单元603包括：

词语获取子单元6031，被配置为执行当识别出的手势类型为目标手势类型时，基于目标视频帧对应的手势类型、手势类型与词语的对应关系，获取第一目标视频帧和第二目标视频帧之间的目标视频帧对应的词语，该第一目标视频帧为本次识别出该目标手势类型的目标视频帧，该第二目标视频帧为前一次识别出该目标手势类型的目标视频帧；

组合子单元6032，被配置为执行将该至少一个词语进行组合，得到该目标语句。

在一种可能实现方式中，如图7所示，该语句生成单元603，还被被配置为执行每识别出一个手势类型时，基于该手势类型以及手势类型与词语的对应关系，获取该手势类型对应的词语，将该词语作为该目标语句。

在一种可能实现方式中，如图7所示，该装置还包括：

语法检测单元606，被配置为执行当识别出的手势类型为目标手势类型时，则对第一目标视频帧和第二目标视频帧之间的目标视频帧所对应的词语进行语法检测，该第一目标视频帧为本次识别出该目标手势类型的目标视频帧，该第二目标视频帧为前一次识别出该目标手势类型的目标视频帧；

该语句生成单元603，被配置为执行当语法检测未通过时，基于该第一目标视频帧和第二目标视频帧之间的目标视频帧对应的词语重新生成新的目标语句，该新的目标语句包括该至少一个词语。

在一种可能实现方式中，如图7所示，该语音数据生成单元603，被配置为执行下述任一步骤：

当该目标视频帧中包括人脸图像时，对该人脸图像进行人脸识别，得到该人脸图像对应的表情类型，基于该表情类型，生成第一语音数据，该第一语音数据的声调符合该表情类型；

当该目标视频帧中包括人脸图像时，对该人脸图像进行人脸识别，得到该人脸图像所属的年龄范围，基于该年龄范围，获取该年龄范围对应的音色数据，基于该音色数据，生成第二语音数据，该第二语音数据的音色符合该年龄范围；

当该目标视频帧中包括人脸图像时，对该人脸图像进行人脸识别，得到该人脸图像对应的性别类型，基于该性别类型，获取该性别类型对应的音色数据，基于该音色数据，生成第三语音数据，该第三语音数据的音色符合该性别类型；

基于该手势类型的变化速度，确定该变化速度对应的情感数据，基于该情感数据，生成第四语音数据，该第四语音数据的音调符合该变化速度。

在一种可能实现方式中，如图7所示，该语音数据生成单元604包括：

发音序列获取子单元6041，被配置为执行基于该目标语句中的字符元素以及字符元素与发音的对应关系，获取该目标语句对应的发音序列；

语音数据获取子单元6042，被配置为执行基于该发音序列，生成该目标语句对应的语音数据。

在一种可能实现方式中，如图7所示，该获取单元601包括：

输入子单元6011，被配置为执行将该待处理的视频输入卷积神经网络模型中，由该卷积神经网络模型将该待处理的视频拆分为多个视频帧；

标注子单元6012，被配置为执行对于任一视频帧，当检测到该视频帧中包括手部图像时，对手部图像进行标注，将该视频帧作为目标视频帧；

丢弃子单元6013，被配置为执行当检测到该视频帧中不包括手部图像时，将该视频帧丢弃。

需要说明的是：上述实施例提供的语音数据生成装置在生成语音数据时，仅以上述各功能单元的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元完成，即将语音数据生成装置的内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音数据生成装置与语音数据生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8是本公开实施例提供的一种终端的结构框图。该终端800用于执行上述实施例中终端执行的步骤，可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的语音数据生成方法。

在一些实施例中，终端800还可选包括有：***设备接口803和至少一个***设备。处理器801、存储器802和***设备接口803之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口803相连。具体地，***设备包括：射频电路804、触摸显示屏805、摄像头组件806、音频电路807、定位组件808和电源809中的至少一种。

***设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和***设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和***设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置终端800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在终端800的不同表面或呈折叠设计；在再一些实施例中，显示屏805可以是柔性显示屏，设置在终端800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位终端800的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***或俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。

电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制触摸显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测终端800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在终端800的侧边框和/或触摸显示屏805的下层。当压力传感器813设置在终端800的侧边框时，可以检测用户对终端800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在触摸显示屏805的下层时，由处理器801根据用户对触摸显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹，由处理器801根据指纹传感器814采集到的指纹识别用户的身份，或者，由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置终端800的正面、背面或侧面。当终端800上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商标志集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制触摸显示屏805的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏805的显示亮度；当环境光强度较低时，调低触摸显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时，由处理器801控制触摸显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时，由处理器801控制触摸显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对终端800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图9是根据一示例性实施例示出的一种服务器900的框图。该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)901和一个或一个以上的存储器902，其中，存储器902中存储有至少一条指令，至少一条指令由处理器901加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

服务器900可以用于执行上述语音数据生成方法中服务器所执行的步骤。

在示例性实施例中，还提供了一种计算机可读存储介质，当该存储介质中的指令由计算机设备的处理器执行时，使得计算机设备能够执行本公开实施例提供的语音数据生成方法。

在示例性实施例中，还提供了一种计算机程序产品，包括可执行指令，当该计算机程序产品中的指令由计算机设备的处理器执行时，使得该计算机设备能够执行本公开实施例提供的语音数据生成方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音数据生成方法，其特征在于，所述方法包括：

从待处理的视频中获取至少一个目标视频帧，所述目标视频帧为包括手部图像的视频帧；对所述至少一个目标视频帧的手部图像进行手势识别，得到所述至少一个目标视频帧对应的手势类型；基于至少一个手势类型以及手势类型与词语的对应关系，得到目标语句，所述目标语句包含所述至少一个手势类型对应的词语；根据所述目标语句，生成所述目标语句对应的语音数据；

所述基于至少一个手势类型以及手势类型与词语的对应关系，得到目标语句，包括：当识别出的手势类型为目标手势类型时，基于所述至少一个手势类型，以及手势类型与词语的对应关系，获取第一目标视频帧和第二目标视频帧之间的目标视频帧对应的词语，所述第一目标视频帧为本次识别出所述目标手势类型的目标视频帧，所述第二目标视频帧为前一次识别出所述目标手势类型的目标视频帧，所述目标手势类型用于表示一句话的表述完成；

将获取的至少一个词语进行组合，得到所述目标语句；

所述基于至少一个手势类型以及手势类型与词语的对应关系，得到目标语句之前，所述方法还包括：

获取一个手势类型之后，将所述手势类型作为待确定的手势类型，获取下一目标视频帧的手势类型；当所述下一目标视频帧的手势类型与所述待确定的手势类型相同时，将所述待确定的手势类型的连续次数加1，继续执行获取下一目标视频帧的手势类型的步骤；当所述下一目标视频帧的手势类型与待确定的手势类型不同时，则确定所述待确定的手势类型的连续次数是否大于目标数量，若所述待确定的手势类型的连续次数不小于所述目标数量，则确定所述待确定的手势类型为有效手势类型，将相同的手势类型作为连续目标视频帧对应的手势类型，将下一目标视频帧的手势类型作为待确定的手势类型；若所述待确定的手势类型的出现次数小于所述目标数量，则将所述待确定的手势类型确定为无效手势类型，将下一目标视频的手势类型作为待确定的手势类型。

2.根据权利要求1所述的方法，其特征在于，所述对所述至少一个目标视频帧的手部图像进行手势识别，得到所述至少一个目标视频帧对应的手势类型，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于至少一个手势类型以及手势类型与词语的对应关系，得到目标语句，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述目标语句，生成所述目标语句对应的语音数据之后，所述方法还包括：

当识别出的手势类型为所述目标手势类型时，则对所述第一目标视频帧和所述第二目标视频帧之间的目标视频帧所对应的词语进行语法检测；

当语法检测未通过时，基于所述第一目标视频帧和所述第二目标视频帧之间的目标视频帧对应的词语重新生成新的目标语句，所述新的目标语句包括所述至少一个词语。

5.根据权利要求1所述的方法，其特征在于，所述根据所述目标语句，生成所述目标语句对应的语音数据，包括下述任一步骤：

6.根据权利要求1所述的方法，其特征在于，所述根据所述目标语句，生成所述目标语句对应的语音数据，包括：

基于所述发音序列，生成所述目标语句对应的语音数据。

7.根据权利要求1所述的方法，其特征在于，所述从待处理的视频中获取至少一个目标视频帧，包括：

8.一种语音数据生成装置，其特征在于，所述装置包括：

获取单元，被配置为执行从待处理的视频中获取至少一个目标视频帧，所述目标视频帧为包括手部图像的视频帧；

语音数据生成单元，被配置为执行根据所述目标语句，生成所述目标语句对应的语音数据；

所述语句生成单元包括：词语获取子单元，被配置为执行当识别出的手势类型为目标手势类型时，基于所述至少一个手势类型，以及手势类型与词语的对应关系，获取第一目标视频帧和第二目标视频帧之间的目标视频帧对应的词语，所述第一目标视频帧为本次识别出所述目标手势类型的目标视频帧，所述第二目标视频帧为前一次识别出所述目标手势类型的目标视频帧，所述目标手势类型用于表示一句话的表述完成；组合子单元，被配置为执行将获取的至少一个词语进行组合，得到所述目标语句；

所述装置用于：获取一个手势类型之后，将所述手势类型作为待确定的手势类型，获取下一目标视频帧的手势类型；当所述下一目标视频帧的手势类型与所述待确定的手势类型相同时，将所述待确定的手势类型的连续次数加1，继续执行获取下一目标视频帧的手势类型的步骤；当所述下一目标视频帧的手势类型与待确定的手势类型不同时，则确定所述待确定的手势类型的连续次数是否大于目标数量，若所述待确定的手势类型的连续次数不小于所述目标数量，则确定所述待确定的手势类型为有效手势类型，将相同的手势类型作为连续目标视频帧对应的手势类型，将下一目标视频帧的手势类型作为待确定的手势类型；若所述待确定的手势类型的出现次数小于所述目标数量，则将所述待确定的手势类型确定为无效手势类型，将下一目标视频的手势类型作为待确定的手势类型。

9.根据权利要求8所述的装置，其特征在于，所述识别单元包括：

10.根据权利要求8所述的装置，其特征在于，所述语句生成单元，还被配置为执行每识别出一个手势类型时，基于所述手势类型以及手势类型与词语的对应关系，获取所述手势类型对应的词语，将所述词语作为所述目标语句。

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

语法检测单元，被配置为执行当识别出的手势类型为所述目标手势类型时，则对所述第一目标视频帧和所述第二目标视频帧之间的目标视频帧所对应的词语进行语法检测；

所述语句生成单元，被配置为执行当语法检测未通过时，基于所述第一目标视频帧和所述第二目标视频帧之间的目标视频帧对应的词语重新生成新的目标语句，所述新的目标语句包括所述至少一个词语。

12.根据权利要求8所述的装置，其特征在于，所述语音数据生成单元，被配置为执行下述任一步骤：

13.根据权利要求8所述的装置，其特征在于，所述语音数据生成单元包括：

14.根据权利要求8所述的装置，其特征在于，所述获取单元包括：

15.一种终端，其特征在于，包括：

一个或多个处理器；

其中，所述一个或多个处理器被配置为执行权利要求1至7任一项所述的语音数据生成方法。

16.一种服务器，其特征在于，包括：

一个或多个处理器；

17.一种计算机可读存储介质，当所述存储介质中的指令由计算机设备的处理器执行时，使得所述计算机设备能够执行如权利要求1至7中任一项所述的语音数据生成方法。