CN111147894A

CN111147894A - 一种手语视频的生成方法、装置及***

Info

Publication number: CN111147894A
Application number: CN201911251154.7A
Authority: CN
Inventors: 金国卿
Original assignee: Suning Intelligent Terminal Co ltd
Current assignee: Suning Intelligent Terminal Co ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2020-05-12

Abstract

本申请公开了一种手语视频的生成方法、装置及***，其中方法包括：使用自然语言处理技术对接收的文字流数据进行处理，获得所述文字流数据的分词结果及依存句法分析结果；根据预存的分词与手语图像的映射关系查找并获得所述分词结果对应的手语图像数据；根据所述依存句法分析结果将所述手语图像数据进行排序及组合，生成手语视频并发送给用户端以便用户端进行呈现，实现了将文字流数据转换成听障用户能够观看的手语视频，方便了听障用户观看视频，改善了听障用户的使用体验。

Description

一种手语视频的生成方法、装置及***

技术领域

本发明涉及计算机技术领域，尤其涉及一种手语视频的生成方法、装置及***。

背景技术

在观看电视等视频图像资料时，在视频没有字幕的情况下，听觉功能有障碍的用户常常无法正常进行观看。即使当前视频具有字幕，对于文化水平较低、识字能力较弱的用户也无法准确理解到字幕的含义，导致他们即使有字幕也无法正常观看视频。这给听障用户带来了很大的不便，极大地影响了听障用户的使用体验。

发明内容

为了解决现有技术的不足，本发明的主要目的在于提供一种手语视频的生成方法、装置、***及一种计算机***。

为了达到上述目的，本发明第一方面提供了一种手语视频的生成方法，所述方法包括：

使用自然语言处理技术对接收的文字流数据进行处理，获得所述文字流数据的分词结果及依存句法分析结果；

根据预存的分词与手语图像的映射关系查找并获得所述分词结果对应的手语图像数据；

根据所述依存句法分析结果将所述手语图像数据进行排序及组合，生成手语视频并发送给用户端以便用户端进行呈现。

在一些实施例中，在使用自然语言处理技术对接收的文字流数据进行处理前，所述方法还包括：

接收语音数据并转换为文字流数据。

在一些实施例中，在接收语音数据并转换为文字流数据后，所述方法还包括：

将所述文字流数据发送给用户端以便用户端生成字幕进行呈现。

在一些实施例中，所述根据所述依存句法分析结果将所述手语图像进行排序及组合，生成手语视频具体包括：

根据所述依存句法分析结果，顺序排列所述手语图像数据，获得顺序排列的手语图像数据；

将所述顺序排列的手语图像数据赋予预先构建的虚拟角色，生成手语视频。

第二方面，本发明提供了一种手语视频的生成方法，所述方法包括：

服务端使用自然语言处理技术对接收的文字流数据进行处理，获得所述文字流数据的分词结果及依存句法分析结果；

服务端根据预存的分词与手语图像的映射关系查找并获得所述分词结果对应的手语图像数据；

服务端根据所述依存句法分析结果将所述手语图像数据进行排序及组合，生成手语视频并发送给用户端；

用户端接收所述手语视频并进行呈现。

第三方面，本发明提供了一种手语视频的生成装置，所述装置包括：

通信模块，用于接收文字流数据及将生成的手语视频发送给用户端；

处理模块，用于对文字流数据进行处理；

数据存储模块，用于存储手语图像数据及分词与手语图像的映射关系；

视频生成模块，用于对手语图像进行排序及组合以生成手语视频。

第四方面，本发明提供了一种手语视频的生成***，所述***包括：

服务端，用于对文字流数据进行处理并根据分词结果匹配对应的手语图像生成手语视频数据发送给用户端；

用户端，用于接收服务端返回的手语视频数据并进行呈现。

第五方面，本发明提供了一种计算机***，所述***包括：

一个或多个处理器；

以及与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行如下操作：

根据本申请提供的具体实施例，本申请公开了以下技术效果：

使用自然语言处理技术对文字流数据进行处理，获取分词结果与依存句法分析结果；根据分词与手语图像的映射关系获取对应的手语图像数据并根据依存句法分析结果对手语图像数据进行排序及组合，生成了手语视频，实现了将文字流数据转换成听障用户能够观看的手语视频，方便了听障用户观看视频，改善了听障用户的使用体验；

将语音数据实时转换成文字流数据，实现了最终语音数据至手语视频的转换；

将文字流数据转换为字幕进行呈现，即使当不便于播放声音时依旧能了解视频的语音想传达的信息，提升了所有用户观看视频的效率与便捷性。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请的场景图；

图2是本申请的场景流程图；

图3是本申请的方法流程图；

图4是本申请的方法流程图；

图5是本申请的装置结构图；

图6是本申请的计算机***结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以智能电视为例，当听障用户观看智能电视中播放视频时，由于无法听到电视中播放的音频，若观看的视频没有字幕，听障用户便无法正常观看。

为了提高听障用户的观看体验，本发明旨在提供一种手语视频的生成方法，通过将语音数据转换为文字流数据，然后根据转换得到的文字流数据进行处理，获得分词结果和依存句法分析结果，根据分词结果查找手语库中匹配的手语图像，对匹配获得的手语图像根据依存句法分析结果进行排序，将排序好的手语图像赋予预先构建的虚拟角色之上，生成供听障用户观看的手语视频，极大地方便了听障用户观看无字幕的视频。

本发明所述的依存句法分析可用于确定句子的句法结构或者句子中词汇之间的依存关系。其主要包括两方面的内容，一是确定语言的语法体系，即对语言中合法的句子的语法结构给与形式化的定义；另一方面是句法分析技术，即根据给定的语法体系，自动推导出句子的句法结构，分析句子所包含的句法单位和这些句法单位之间的关系。根据依存句法分析结果可构建句法分析树，并以此确定目标语句的排列顺序。

图1示出了本发明的***结构图，包括了服务端及用户端。服务端可以为云端服务器等具有通信、文字分词、视频生成、数据存储等功能的服务提供方。所述用户端关联的设备可以为智能电视、计算机、手机及平板等任意具有通信和显示功能的设备，可以通过互联网将语音数据上传至服务端，由服务端根据语音数据生成手语视频并传回至用户端，用户端将接收的手语视频以合适的尺寸显示与屏幕之上供用户观看。

本发明中所述的手语图像为预先绘制的手语动作图，通过手语传达其含义，可赋予预先建立的虚拟人物生成手语视频。

本发明亦可用于无听障用户与听障用户的沟通中。无听障用户可通过第一用户端将语音数据上传至服务端，服务端可将接收的语音数据转换为文字流数据，根据转换得到的文字流数据使用本发明提供的手语视频生成方法生成手语视频，并将文字流数据及手语视频发送给听障用户的第二用户端，实现了听障用户与其他用户的无障碍交流。

具体的，如图2所示，以智能电视作为用户端为例，上述方案可具体通过如下步骤实现：

210、智能电视与服务端通过三次握手，建立通信连接。

在三次握手建立通信连接后，服务端调用本地的ASR即语音识别功能模块，同时请求智能电视的地址，判断当前建立通信连接的智能电视是否有权限调用所请求的接口，所述接口可用于实现自然语言分析、语音数据转换、文本分词等功能，以做好接收智能电视上传的语音数据的准备。

220、智能电视将实时语音数据上传至云端服务器。

230、服务端接收并将实时语音数据转换为文字流数据。

服务端调用ASR语音识别功能模块，将智能电视上传的语音数据转换为文字流数据，为后续操作铺垫。

240、服务端将转换得到的文字流数据传回给智能电视。

250、智能电视将接收的文字流数据实时进行显示。

当智能电视判断当前播放的视频没有字幕时或用户发出显示字幕的指令时，即把接收到的文字流数据显示于屏幕上供用户观看。

260、服务端将文字流数据使用自然语言处理技术进行分词及依存句法分析，获得分词结果和依存句法分析结果。

270、服务端根据预存的分词与手语图像的映射关系查找并获得所述分词结果对应的手语图像数据。

服务端根据分词结果，去除分词结果中包含的冠词等无法用手语表达的单词，查找分词结果中包含的剩余单词对应的手语图像，获得分词结果对应的手语图像数据。

280、服务端根据依存句法分析结果，等对获得的手语图像数据进行排序，并将排序好的手语图像数据赋予预先构建的虚拟人物，生成手语动画视频。

服务端根据依存句法分析结果，对手语图像数据按照逻辑关系等影响排序的因素对手语图像数据进行排序，然后将排序好的手语图像数据赋予预先构建的虚拟人物，生成手语动画视频。

所述预先构建的虚拟人物可以使用Unity技术预先创建，所述Unity技术可实现绘制3D动画等图像内容。

290、服务端将生成的手语动画视频发送给智能电视。

智能电视在接收到服务端发送的手语动画视频后，将其以小窗口的形式显示于当前视频的右下角，方便用户观看手语动画视频。

实施例一

对应上述步骤，本发明实施例一提供了一种手语视频的生成方法，应用于服务端，如图3所示，所述方法包括：

310、使用自然语言处理技术对接收的文字流数据进行处理，获得所述文字流数据的分词结果及依存句法分析结果；

320、根据预存的分词与手语图像的映射关系查找并获得所述分词结果对应的手语图像数据；

330、根据所述依存句法分析结果将所述手语图像数据进行排序及组合，生成手语视频并发送给用户端以便用户端进行呈现。

当用户端接收到手语视频即可显示于屏幕上供用户观看，提升了听障用户观看视频节目等的用户体验。

优选的，当用户端发送语音数据至服务端时，在使用自然语言处理技术对接收的文字流数据进行处理前，所述方法还包括：

301、接收语音数据并转换为文字流数据；

优选的，为了提升用户观看视频的用户体验，可将转换生成的文字流数据发送给用户端以生成字幕进行显示；在接收语音数据并转换为文字流数据后，所述方法还包括：

302、将所述文字流数据发送给用户端以便用户端生成字幕进行呈现。

用户端在接收到文字流数据之后，在判断当前视频没有字幕或用户发出显示字幕的指令时，可以将其作为字幕进行显示。

优选的，根据所述依存句法分析结果将所述手语图像数据进行排序及组合可具体包括：

331、根据所述依存句法分析结果，顺序排列所述手语图像数据，获得顺序排列的手语图像数据；

332、将所述顺序排列的手语图像数据赋予预先构建的虚拟角色，生成手语视频。

所述虚拟角色可以是预先构建的虚拟人物，可以是通过Unity技术预先创建的3D人物图像。

实施例二

对应上述实施例，本申请还提供了一种手语视频的生成方法，以实现用户端与服务端的交互。如图4所示，所述方法包括：

410、服务端使用自然语言处理技术对接收的文字流数据进行处理，获得所述文字流数据的分词结果及依存句法分析结果；

420、服务端根据预存的分词与手语图像的映射关系查找并获得所述分词结果对应的手语图像数据；

430、服务端根据所述依存句法分析结果将所述手语图像数据进行排序及组合，生成手语视频并发送给用户端；

440、用户端接收所述手语视频并进行呈现。

优选的，当用户端发送语音数据至服务端时，在服务端使用自然语言处理技术对接收的文字流数据进行处理前，所述方法还包括：

401、服务端接收语音数据并转换为文字流数据。

优选的，为了提升用户观看视频的用户体验，服务端可将转换生成的文字流数据发送给用户端以生成字幕进行显示；在接收语音数据并转换为文字流数据后，所述方法还包括：

402、服务端将所述文字流数据发送给用户端；

403、用户端生成字幕进行呈现。

优选的，服务端根据所述依存句法分析结果将所述手语图像数据进行排序及组合可具体包括：

431、服务端根据所述依存句法分析结果，顺序排列所述手语图像数据，获得顺序排列的手语图像数据；

432、将所述顺序排列的手语图像数据赋予预先构建的虚拟角色，生成手语视频。

实施例三

对应上述实施例一，本申请提供了一种手语视频的生成装置，作用于服务端，如图5所示，所述装置包括：

通信模块510，用于接收文字流数据及将生成的手语视频发送给用户端；

优选的，当用户端发送语音数据时，所述通信模块也可用于接收用户端发出的语音数据。

处理模块520，用于对文字流数据进行处理，获得文字流数据的分词结果及依存句法分析结果；

数据存储模块530，用于存储手语图像数据及分词与手语图像的映射关系；

数据存储模块中包含手语库，保存有手语图像数据及分词与手语图像的映射关系，用以提供所述手语图像数据；

视频生成模块540，用于对手语图像进行排序及组合以生成手语视频。

优选的，为了实现通过用户端发送的语音数据生成手语视频的目的，所述手语视频生成装置还可包括：

语音转换模块550，用于将语音数据转换为文字流数据。

实施例四

对应上述实施例二，本申请还提供了一种手语视频的生成***，如图1所示，包括用户端及服务端：

用户端，用于接收服务端返回的手语视频数据并进行呈现。

实施例五

对应上述实施例，本申请还提供了一种计算机***，包括一个或多个处理器；以及与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行如下操作：

其中，图6示例性的展示出了计算机***的架构，具体可以包括处理器1510，视频显示适配器1511，磁盘驱动器1512，输入/输出接口1513，网络接口1514，以及存储器1520。上述处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，与存储器1520之间可以通过通信总线1530进行通信连接。

其中，处理器1510可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器1520可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1520可以存储用于控制计算机***1500运行的操作***1521，用于控制计算机***1500的低级别操作的基本输入输出***(BIOS)。另外，还可以存储网页浏览器1523，数据存储管理***1524，以及图标字体处理***1525等等。上述图标字体处理***1525就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器1520中，并由处理器1510来调用执行。

输入/输出接口1513用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口1514用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1530包括一通路，在设备的各个组件(例如处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，与存储器1520)之间传输信息。

另外，该计算机***1500还可以从虚拟资源对象领取条件信息数据库1541中获得具体领取条件的信息，以用于进行条件判断，等等。

需要说明的是，尽管上述设备仅示出了处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，存储器1520，总线1530等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，云服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***或***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的***及***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种手语视频的生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的生成方法，其特征在于，在使用自然语言处理技术对接收的文字流数据进行处理前，所述方法还包括：

接收语音数据并转换为文字流数据。

3.根据权利要求2所述的生成方法，其特征在于，在接收语音数据并转换为文字流数据后，所述方法还包括：

4.根据权利要求1-3任一所述的方法，其特征在于，所述根据所述依存句法分析结果将所述手语图像进行排序及组合，生成手语视频具体包括：

5.一种手语视频的生成方法，其特征在于，所述方法包括：

用户端接收所述手语视频并进行呈现。

6.一种手语视频的生成装置，其特征在于，所述装置包括：

处理模块，用于对文字流数据进行处理获得文字流数据的分词结果及依存句法分析结果；

视频生成模块，用于对手语图像数据进行排序及组合以生成手语视频。

7.根据权利要求6所述的生成装置，其特征在于，所述装置还包括：

语音转换模块，用于将语音数据转换为文字流数据。

8.根据权利要求6或7所述的生成装置，其特征在于，所述通信模块还可用于将所述文字流数据发送给用户端。

9.一种手语视频的生成***，其特征在于，所述***包括：

用户端，用于接收服务端返回的手语视频数据并进行呈现。

10.一种计算机***，其特征在于，所述***包括：

一个或多个处理器；