CN101005574A

CN101005574A - 视频虚拟人手语编辑***

Info

Publication number: CN101005574A
Application number: CN 200610023380
Authority: CN
Inventors: 陈益强; 杨长水; 高文; 刘军发
Original assignee: SHANGHAI INSTITUTE OF ZHONGKE COMPUTING TECHNOLOGY
Current assignee: SHANGHAI INSTITUTE OF ZHONGKE COMPUTING TECHNOLOGY
Priority date: 2006-01-17
Filing date: 2006-01-17
Publication date: 2007-07-25

Abstract

本发明涉及视频虚拟人手语编辑***及方法，包括视频输入设备，视频输出设备，中枢计算设备，该中枢计算设备中包含：手语合成模块，用于将输入的节目文本翻译成手语数据；虚拟人合成模块，用于将所述的手语数据通过虚拟人表达出来；支持图像叠加功能的非线性编辑板卡；语音时长同步信息获取模块，记录每一句文本所对应的起始和终止时间；主模块，根据所获取的语音时长信息同步调用对应的文本句子，由手语合成模块翻译成手语数据，再由虚拟人合成模块通过虚拟人表达出来，并通过非线性编辑板卡将手语图片帧叠加到节目流中，叠加过手语图片帧的节目流通过非线性编辑板卡输出到输出设备。用于视频节目制作，具有效率高，成本低等特点。

Description

视频虚拟人手语编辑***

技术领域

本发明涉及视频节目制作技术，具体涉及一种视频节目虚拟人手语编辑***。

背景技术

我国电视网络发展迅速，目前已十分发达，仅仅是具备一定覆盖范围及经济实力的各级电视台就有1000多个。这些电视台都有自办的新闻和专题节目甚至新闻频道，其观众中具有相当人数的聋哑或听力障碍者，考虑到这部分人群的收视需要，很多电视台都已经开办了手语新闻之类的栏目，但是目前采取的办法都是以人力完成手语的转换，且多在新闻重播的时候加入手语显示，因此，无论是时效性和准确性以及手语规范化的程度都存在有许多不足。尽管近期有些电视剧和电视节目试图以字幕形式为这些有听力障碍人群提供理解上的方便，然而，从语言习惯和接受程度上来看，仍不是适合这些特殊人群的最佳手段。实践表明，在电视节目中增加虚拟主持人不失为一种有效手段。

现有技术中的虚拟主持人大致可分为电视虚拟主持人和网络虚拟主持人。无论是电视虚拟主持人还是网络虚拟主持人，其播报方式大致可以分成实时的和非实时的两种。非实时的虚拟主持人节目可以通过后台制作完成，之后便可以作为普通的电视节目播出。而实时的虚拟主持人节目需要由运动跟踪设备实时驱动，或基于人工智能技术由文本实时驱动。

国内目前的大多数虚拟主持人节目一般是非实时的，大量工作需要通过后期制作完成，无法满足广电***对手语新闻的实时性要求，当然目前也有通过由运动跟踪设备实时驱动的，但要求每期节目制作都必须有真实人在进行表演以驱动虚拟人，因而需要投入大量的人力、物力。

发明内容

本发明的目的在于提供一种视频节目虚拟人手语编辑***，实现虚拟人手语视频节目的实时制作，使其能达到广电节目播出的要求，合成出以推广手语以及服务广大聋人为目的的广电节目。

本发明的目的是这样实现的：

本发明的视频虚拟人手语编辑***，包括视频输入设备，视频输出设备，中枢计算设备，该中枢计算设备中包含：

手语合成模块，用于将输入设备输入的节目文本翻译成手语数据；

虚拟人合成模块，用于将所述的手语数据通过虚拟人表达出来；

支持图像叠加功能的非线性编辑板卡；

语音时长同步信息获取模块，记录每一句文本所对应的起始和终止时间；

主模块，根据所获取的语音时长信息同步调用对应的文本句子，由手语合成模块翻译成手语数据，再由虚拟人合成模块通过虚拟人表达出来，并通过非线性编辑板卡将手语图片帧叠加到节目流中，叠加过手语图片帧的节目流通过非线性编辑板卡输出到输出设备。

上述的视频虚拟人手语编辑***，其中，所述输入设备可以是放像机或VCD或DVD，所述输出设备可以是电视机或录像机或电脑显示器，所述中枢计算设备可以是计算机或工控机。

其中，输入设备可以通过S端子或复合信号输入方式输入；输出设备也可以通过S端子或复合信号输出方式输出。

上述的视频虚拟人手语编辑***，其中，支持图像叠加功能的非线性编辑板卡可以是市面上各类专业用视频非线性编辑板卡，支持图像帧的实时叠加，支持S端子输入输出，支持复合信号的输入输出。

上述的视频虚拟人手语编辑***，其中，所述的三维虚拟人模型逼真生成，是基于已经公开报道的虚拟人合成技术实现的。[见《计算机辅助设计与图形学学报》，No.1，2004，“一种个性化虚拟人体模型骨架生成方法”，基于VRML的人体建模研究，计算机仿真学报，2004年1期以及http://vh.ict.ac.cn等]，基于该系列技术，我们用3D MAX三维建模工具制作虚拟人模型，然后输出为标准的VRML文件，然后采用OpenGL技术读取该文件，并在其它场景中进行虚拟人的合成与显示。

上述的视频虚拟人手语编辑***，其中，所述的虚拟人手语逼真合成.是基于已经公开报道的中国手语合成技术[见《软件学报》，Vol.13，No.10，“基于虚拟人合成技术的中国手语合成方法”，http://sy.jdl.ac.cn等]，该技术实现了将文本翻译成中国标准手语。它是先建立一个高质量的手语运动数据库，然后对输入文本进行词语到手语数据的翻译，然后对连续的手语数据进行拼接，最后形成流畅的中国标准手语通过虚拟人表达出来。

上述的视频虚拟人手语编辑***，其中，所述的语音和手语字幕同步信息获取，是通过人工“拍唱词”的方式，获得视频所有文本句子所对应的时间长度信息，便于后期根据时长信息合成手语。具体过程为：节目源从VCD或DVD等输入设备输入，通过位于计算机内的非编板卡，送到软件主模块，经过软件的处理后，再被送到非编板卡的输出口，被电视机等输出设备接收并播放出来。工作人员一边通过电视机等输出设备观看节目，一边在需要的地方拍打一下键盘，使得软件记录下来每一句文本(剧本)所对应的起始时间和终止时间。整个节目播放完毕，所有节目的文本所对应的起始和终止时间也就获得了，也就是语音和手语同步时长信息获取了。此种方式也被称为“拍唱词”方式。

上述的视频虚拟人手语编辑***，其中，主模块起统一调度作用，是在已有虚拟人手语合成以及非线性编辑***的基础上，按照视频的制式以及各项技术指标要求，实现逼真虚拟人手语的视频显示，使虚拟人手语视频显示图像能达到实时生成，并将手语画面合成到视频节目中。其流程为：根据所获取的语音时长信息同步调用对应的文本句子，由手语合成模块翻译成手语数据，再由虚拟人合成模块通过虚拟人表达出来，并通过非线性编辑板卡将手语图片帧叠加到节目流中。

本发明还提供一种利用所述的视频虚拟人手语编辑***进行视频虚拟人手语编辑的方法，包括以下步骤：

1)视频输入设备输入节目文本，语音同步信息获取模块记录每一句文本所对应的起始和终止时间；

2)主模块通过非线性编辑板卡访问到节目流，并根据所获取的时长信息同步调用对应的文本句子；

3)手语合成模块将该文本句子翻译成手语数据；

4)虚拟人合成模块将翻译成的手语数据通过虚拟人表达出来；

5)通过非线性编辑板卡将手语图片帧叠加到节目流中；

6)叠加过手语图片帧的节目流通过非线性编辑板卡输出到输出设备。

本发明的视频虚拟人手语编辑***和方法可以用于电视节目或网络视频节目的制作。

本发明视频虚拟人手语编辑***由于采用了上述的技术方案，使之与现有技术相比，具有以下的优点和积极效果：

本发明的***和方法能够在视频节目中比较自动地合成、叠加手语。相比较目前电视台聘用手语老师而言，具有效率高，投入少，成本低，应用风险小等特点。不仅可以为电视台节省聘请手语老师所需要的人力、物力等开支，还可以节约大量宝贵的节目制作时间，且使用简单方便，具备实时驱动、实时渲染、自动化建模、真实感强，可懂性高等特点。

附图说明

通过以下对本发明视频虚拟人手语编辑***的实施例结合其附图的描述，可以进一步理解其发明的目的、具体结构特征和优点。其中，附图为：

图1为本发明视频虚拟人手语编辑***的结构框图；

图2为本发明视频虚拟人手语编辑***硬件设备的一种工况的结构示意图；

图3为本发明视频虚拟人手语编辑***硬件设备的另一种工况的结构示意图；

图4为本发明语音、手语同步时长信息提取工作流程框图；

图5为本发明手语合成及叠加工作流程框图。

具体实施方式

本发明是基于下述两项目前已经公开报道的技术而发明的一套视频虚拟人手语字幕叠加***及方法。

其中，一项为：虚拟人合成技术[见《计算机辅助设计与图形学学报》，No.1，2004，“一种个性化虚拟人体模型骨架生成方法”，基于VRML的人体建模研究，计算机仿真学报，2004年1期以及http://vh.ict.ac.cn等]，该技术实现了虚拟人在计算机上的合成与显示。另一项为：中国手语合成技术[见《软件学报》，Vol.13，No.10，“基于虚拟人合成技术的中国手语合成方法”，http://sy.jdl.ac.cn等]，该技术实现了将文本翻译成中国标准手语。

本发明的主要功能是将节目文本内容自动翻译成手语，并叠加到电视节目中。既能够从根本上方便聋哑人收看电视节目，还能够为电视台节省大量人力、物力以及宝贵的节目制作时间。以下以电视节目制作为例对本发明作进一步的阐述，当然本发明也可以用于其它视频节目的制作，比如网络视频广播等等。

(一)***结构。参见图1所示的本发明***结构框图，本发明视频虚拟人手语编辑***，由硬件和软件两部分组合构成。

1)硬件。包括：输入设备、输出设备、中枢计算设备、非编板卡；

由于电视信号的标准是统一的，所以其输入设备可以是VCD、DVD、各类放像机等。可以输出两种标准信号PAL或者NTSC。本发明使用了VCD或DVD作为输入设备。

本发明的输出信号也可以是标准电视信号，支持PAL和NTSC制两种标准，所以本发明的输出设备可以是各种品牌的电视机或录像机或广电专用监视器及电脑监视器等。

本发明的中枢计算设备可以是计算机或工控机、主机内设置了嵌入式非线性编辑板卡。由于该非编板卡为现有技术中通用的非线性编辑板卡，非编板卡上分别设有S输入、输出端子；还同时设有复合信号输入、输出端子。因此，对于本发明而言，只要非编板卡能够支持图像叠加功能，即可使用。计算机则采用通用PC机或者工控机，操作***可以为WindowsXP系列。

续请参见图1，本发明的S端子和复合信号方式也是采用通用接口，因此，所有的输入设备均可以通过S端子输入方式输入；所有的输出设备也可以通过S端子输出方式输出。

如图2所示，来自输入设备VCD1或DVD1的节目源，通过设置在VCD1或DVD1上的S端子11，经导线X1传输至嵌设在计算机2或工控机2的主机21内非编板卡4上的输入端41a，又经导线X2通过嵌设在计算机2或工控机2的主机21内非编板卡4上的输出端41b传输至录像、监控器3的输入端31。通过设置在计算机2或工控机2的主机21上的非线性编辑板卡4以及计算机2或工控机2的显示器22以及运行在计算机内的软件，实现手语图片的叠加，最终通过录像、监控器3进行监控和录像。

续请参见图1，所有的输入设备也可以通过复合信号输入方式输入；所有的输出设备也可以通过复合信号输出方式输出。

如图3所示，来自输入设备VCD1或DVD1的节目源，通过设置在VCD1或DVD1上的复合信号输入端子12，经导线X1传输至嵌设在计算机2或工控机2的主机21内非编板卡4上的复合输入端子42a，又经导线X2通过嵌设在计算机2或工控机2的主机21内非编板卡4上的复合信号输出端子42b传输至录像、监控器3的复合输入端32。通过设置在计算机2或工控机2的主机21上的非线性编辑板卡4以及计算机2或工控机2的显示器22以及运行在计算机内的软件，实现手语图片的叠加，最终通过录像、监控器3进行监控和录像。

2)软件。包括：

该软件基于Windows系列操作***，用Visual C++6.0开发工具开发。

(二)本发明整套***的工作过程

大体上分为两个阶段：

第一阶段：语音和手语字幕同步信息获取阶段；

本发明的语音同步信息获取，是通过人工“拍唱词”的方式，获得视频节目所有文本句子所对应的时间长度信息，便于后期根据时长信息合成中国手语。类似于电视台文本字幕叠加过程，一边播放节目，一边通过人工观看节目，并记录时间位置。

第二阶段：***自动合成手语并叠加显示到电视节目阶段。

本发明的虚拟人手语视频叠加显示，是在已有虚拟人合成、手语合成以及非线性编辑***的基础上，按照电视节目的制式以及各项技术指标要求，实现逼真虚拟人手语的视频显示，使虚拟人手语视频显示图像能达到实时生成，以满足25帧每秒50场(PAL)分辨率200*200画面生成，并将手语画面合成叠加到电视节目中。具体过程为：由手语合成模块专门实现手语合成功能，输入是文本，输出是手语图片帧。手语合成功能已经有相应的公开报道[见《软件学报》，Vol.13，No.10，“基于虚拟人合成技术的中国手语合成方法”等]。主模块通过非编板卡访问到节目流，根据节目流的时间信息和先前获得的时长同步信息，在指定的时刻读取相应的文本，输送到手语合成模块，手语合成模块及时地返回相应的手语图片帧，由主模块将图片帧通过非编板卡的编辑功能叠加到节目流中去。叠加过手语图片帧的节目流通过非编板卡输出到输出设备，进行观看、实时监控和最终的节目录制。

本发明将手语图片帧叠加到节目流中时，所使用的功能是由非编板卡支持的，按照非编板卡的开发使用说明书，在程序中可以很方便地实现这一点。手语帧图片可以叠加在整个电视节目的右下角，也可以叠加在其它合适的位置。

图4为本发明语音同步时长信息获取工作流程框图；首先将软件调至同步信息获取模式。电视节目从VCD或DVD等输入设备输入，通过位于计算机内的非编板卡，送到软件主模块。工作人员通过电视机或录像机或广电专用监视器等输出设备观看节目，在语音出现的地方拍打一下键盘，使得软件记录下来每一句文本(剧本)所对应的起始时间，等到该句语音结束后，再拍打一次键盘记录该句文本的终止时间。整个节目播放完毕，所有节目的文本所对应起始和终止时间也就获得了，也就是语音和手语同步时长信息获取了。

图5为本发明手语合成及叠加工作流程框图，在获取了语音和手语同步时长信息之后，工作人员将电视节目从头再播放一遍，这时要将软件调至手语字幕叠加模式。软件主模块通过非编板卡获取节目流的时间信息，然后和前面拍打获得的时间进行比对，这样就可以保证在节目出现语音的时刻，软件就会调用相应的文本句子，并将其送至手语合成模块，当手语合成模块返回手语图片帧之后，通过非编板卡的功能将手语字幕叠加到节目流中，并输出到输出设备，进行录制，所录制的节目就在原有节目基础上新增了手语字幕。节目播放完毕即告结束。至此，便实现了本发明的目的。

本发明可实现各类视频节目的语音和手语字幕叠加，尤其适用于新闻类电视节目的语音和手语字幕叠加。

Claims

1、视频虚拟人手语编辑***，包括视频输入设备，视频输出设备，中枢计算设备，该中枢计算设备中包含：

支持图像叠加功能的非线性编辑板卡；

其特征在于：该中枢计算设备中还包括：

语音时长同步信息获取模块，获取并记录每一句文本所对应的起始和终止时间；

2、如权利要求1所述的视频虚拟人手语编辑***，其特征在于：所述语音时长同步信息获取模块是通过人工“拍唱词”的方式获得电视节目文本句子所对应的时间长度信息。

3、如权利要求2所述的视频虚拟人手语编辑***，其特征在于：所述输入设备可以是放像机或VCD或DVD，所述输出设备可以是电视机或录像机或电脑显示器，所述中枢计算设备可以是计算机或工控机。

4、利用权利要求1所述的视频虚拟人手语编辑***进行视频虚拟人手语编辑的方法，包括以下步骤：

3)手语合成模块将该文本句子翻译成手语数据；

5)通过非线性编辑板卡将手语图片帧叠加到节目流中；

5、如权利要求4所述的视频虚拟人手语编辑的方法，所述同步信息是通过人工“拍唱词”的方式获取。