CN108833810A

CN108833810A - 一种三维虚拟偶像直播中实时生成字幕的方法及装置

Info

Publication number: CN108833810A
Application number: CN201810641288.9A
Authority: CN
Inventors: 周湘君; 芦振华; 陈康兴; 甘靖山
Original assignee: Western Hills Residence Guangzhou Shi You Network Technology Co Ltd; Zhuhai Kingsoft Online Game Technology Co Ltd
Current assignee: Western Hills Residence Guangzhou Shi You Network Technology Co Ltd; Zhuhai Kingsoft Online Game Technology Co Ltd
Priority date: 2018-06-21
Filing date: 2018-06-21
Publication date: 2018-11-16

Abstract

本发明涉及一种三维虚拟偶像直播中实时生成字幕的方法，包括以下步骤：采集动捕演员的动作及语音数据，并将动作与语音进行时间关联；将采集的语音数据实时通过语音云智能识别***进行语音识别，将语音转换为对应的字幕文本；将字幕文本发送至三维虚拟偶像直播图形工作站制作出字幕画面；将采集的动作数据与三维虚拟偶像的模型进行动作匹配生成三维动画；根据动作与语音的时间关联，将三维动画与字幕画面进行叠加处理，生成最终的播放画面。不仅适用于三维虚拟偶像直播中实时生成字幕，还可以适用于传统的网络直播、电视直播中，整个过程是通过计算机装置及程序实时完成，无需人工制作，不存在延迟的问题。

Description

一种三维虚拟偶像直播中实时生成字幕的方法及装置

技术领域

本发明涉及一种实时字幕生成方法及装置，尤其涉及一种三维虚拟偶像直播中实时生成字幕的方法及装置。

背景技术

目前，随着直播行业的火热发展，越来越多的人玩起了直播，直播内容多种多样，丰富了人们的业余生活，但是，现在的直播基本都没有字幕，如果主播发言带点口音或者语速较快就可能听不懂主播在说些什么；长久以来，直播都是以真人的方式进行，如果生动的虚拟形象能替代真人，那直播世界将向更多喜欢二次元世界的人敞开大门，随着中国“二次元经济”热潮的到来，逐渐出现了虚拟偶像直播；在虚拟偶像直播中，同样存在传统真人直播的问题，即无法播放实时字幕，现有直播中的实时字幕往往通过硬延时技术，给原有直播信号加5-10分钟的延时，用这个延时时间完成字幕制作与播放，但这种方式操作成本和人力成本都比较高；而虚拟偶像直播中，往往是根据现有台词实现制作好字幕轨，直播时再***字幕，但是这就有了一定的局限性，当直播中有临时发挥成分时，就无法显示相关部分的字幕。

发明内容

本发明提供一种三维虚拟偶像直播中实时生成字幕的方法及装置，通过虚拟偶像直播技术与AI智能语音云识别技术的结合，将动捕演员的声音实时通过语音云识别转写为字幕文本并传回三维虚拟偶像直播图形工作站进行字幕画面与三维动画的结合，生成带字幕的虚拟偶像直播动画，识别率高，无需进行延迟操作，实现了虚拟偶像直播中播放实时字幕的要求，不会受台词的限制，并且制作过程简单智能。

本发明的技术方案第一方面为一种三维虚拟偶像直播中实时生成字幕的方法，其包括如下步骤：

采集动捕演员的动作及语音数据，并将动作与语音进行时间关联；

将采集的语音数据实时通过语音云智能识别***进行语音识别，将语音转换为对应的字幕文本；

将字幕文本发送至三维虚拟偶像直播图形工作站制作出字幕画面；

将采集的动作数据与三维虚拟偶像的模型进行动作匹配生成三维动画；

根据动作与语音的时间关联，将三维动画与字幕画面进行叠加处理，生成最终的播放画面。

进一步，所述采集动捕演员的动作及语音数据，并将动作与语音进行时间关联，包括：

使用动作捕捉服捕捉动捕演员做出的动作；

使用无线阵列麦克风采集动捕演员的语音；

将采集的动作和语音数据均进行时间标记并根据该时间标记对齐。

进一步，所述将采集的语音数据实时通过语音云智能识别***进行语音识别，包括：

将采集的语音数据转换为音频文件并发送至音频工作站；

音频工作站将音频文件上传至语音云智能识别***的云服务器进行语音识别；

其中，语音识别包括：

提取语音数据的声学特征；

将提取的声学特征与语音云智能识别***的数据库中的声学模型进行匹配，转换为对应的字幕文本。

进一步，所述将字幕文本发送至三维虚拟偶像直播图形工作站制作出字幕画面，包括：

根据语音停顿对字幕文本进行分段处理；

将分段处理的字幕文本输入三维虚拟偶像直播图形工作站进行处理，得到字幕画面。

进一步，所述将采集的动作数据与三维虚拟偶像的模型进行动作匹配生成三维动画，包括：

在动作捕捉服对应活动关节处做标记点；

将标记点与动捕软件中的三维虚拟偶像模型的骨骼进行匹配从而使三维虚拟偶像做出与动捕演员相同的动作；

对三维虚拟偶像模型进行渲染处理生成三维动画。

进一步，所述根据动作与语音的时间关联，将三维动画与字幕画面进行叠加处理，生成最终的播放画面，包括：

根据动捕演员动作与语音的时间关联性，将分段处理的字幕画面与对应时间段的三维动画帧进行叠加渲染处理，生成带有字幕的播放动画。

进一步，该方法还包括：将播放动画实时推送至三维虚拟偶像直播平台。

本发明的技术方案第二方面为一种计算机装置，包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

本发明的技术方案第三方面为一种计算机可读存储介质，其上储存有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

本发明的有益效果为：弥补了虚拟偶像直播中无法进行真正的实时字幕播放的空白，破除了直播内容受台本限制的局限性，减少了人力成本和硬件成本。

附图说明

图1所示为根据本发明的方法的总体流程图；

图2所示为根据本发明的第一实施例的流程示意图；

图3所示为根据本发明的第一实施例的对应框图。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本发明的目的、方案和效果。

在本公开中所使用的单数形式的“一种”、“所述”和“该”旨在包括多数形式，除非上下文清楚地表示其他含义。此外，除非另有定义，本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本文说明书中所使用的术语只是为了描述具体的实施例，而不是为了限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。

应当理解，本文所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例，并且除非另外要求，否则不会对本发明的范围施加限制，另外附图中的“图形工作站”即指代的是实施例中的“三维虚拟偶像直播图形工作站”，“语音云识别服务器”指代“语音云智能识别***的云端服务器”。

参考图1，本发明总体技术方案的三维虚拟偶像直播中实时生成字幕的方法，其包括如下步骤：

参考图2-图3，本发明的第一实施例中，动捕演员穿戴动作捕捉服进行表演，动作捕捉服用于确定动捕演员的头部、手、身体等的位置与方向，准确地跟踪动捕演员的动作，将这些动作实时检测出来，并反馈至动捕软件；动作捕捉服的关键部位有很多标记点，动捕软件将这些标记点与动捕软件中的三维虚拟偶像模型的骨骼进行匹配从而使三维虚拟偶像做出与动捕演员相同的动作，然后将该三维虚拟偶像模型传输至三维虚拟偶像直播图形工作站进行渲染处理获得三维动画；

同时，使用无线阵列麦克风拾取动捕演员表演中的语音并将其转换成音频文件发送至音频工作站，音频工作站使用人工智能语音识别***解析该音频文件并从中提取出语音的声学特征，然后将这些声学特征上传至语音云智能识别***的云端服务器，与其数据库中的声学模型进行对比匹配，从而转换成语音对应的字幕文本，该字幕文本根据语音停顿进行了分段处理，将分段处理后的字幕文本通过网络传回音频工作站后，音频工作站将该字幕文本发送至三维虚拟偶像直播图形工作站制作出与三维动画相适应的字幕画面；

得到三维动画与字幕画面后，三维虚拟偶像直播图形工作站则根据动捕演员表演时的动作与语音的时间相关性，将每一段字幕画面与其对应时间段的三维动画帧进行叠加渲染处理，最终生成实时的带有字幕的播放动画，并将其通过网络实时推送至直播平台进行直播。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机***通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

该发明不仅适用于三维虚拟偶像直播中实时生成字幕，还可以适用于传统的网络直播、电视直播中，整个过程是通过计算机装置及程序实时完成，无需人工制作，不存在延迟的问题。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机***的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的三维虚拟偶像直播中实时生成字幕的方法和技术编程时，本发明还包括计算机本身。

计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims

1.一种三维虚拟偶像直播中实时生成字幕的方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的三维虚拟偶像直播中实时生成字幕的方法，其特征在于，所述采集动捕演员的动作及语音数据，并将动作与语音进行时间关联，包括：

使用动作捕捉服捕捉动捕演员做出的动作；

使用无线阵列麦克风采集动捕演员的语音；

3.根据权利要求1所述的三维虚拟偶像直播中实时生成字幕的方法，其特征在于，所述将采集的语音数据实时通过语音云智能识别***进行语音识别，包括：

将采集的语音数据转换为音频文件并发送至音频工作站；

其中，语音识别包括：

提取语音数据的声学特征；

4.根据权利要求1所述的三维虚拟偶像直播中实时生成字幕的方法，其特征在于，所述将字幕文本发送至三维虚拟偶像直播图形工作站制作出字幕画面，包括：

根据语音停顿对字幕文本进行分段处理；

5.根据权利要求2所述的三维虚拟偶像直播中实时生成字幕的方法，其特征在于，所述将采集的动作数据与三维虚拟偶像的模型进行动作匹配生成三维动画，包括：

在动作捕捉服对应活动关节处做标记点；

对三维虚拟偶像模型进行渲染处理生成三维动画。

6.根据权利要求4所述的三维虚拟偶像直播中实时生成字幕的方法，其特征在于，所述根据动作与语音的时间关联，将三维动画与字幕画面进行叠加处理，生成最终的播放画面，包括：

7.根据权利要求1所述的三维虚拟偶像直播中实时生成字幕的方法，其特征在于，还包括：将播放动画实时推送至三维虚拟偶像直播平台。

8.一种计算机装置，包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现以下步骤：

9.一种计算机可读存储介质，其上储存有计算机程序，所述计算机程序被处理器执行时实现以下步骤：