CN108833810A - 一种三维虚拟偶像直播中实时生成字幕的方法及装置 - Google Patents

一种三维虚拟偶像直播中实时生成字幕的方法及装置 Download PDF

Info

Publication number
CN108833810A
CN108833810A CN201810641288.9A CN201810641288A CN108833810A CN 108833810 A CN108833810 A CN 108833810A CN 201810641288 A CN201810641288 A CN 201810641288A CN 108833810 A CN108833810 A CN 108833810A
Authority
CN
China
Prior art keywords
dimensional
subtitle
live streaming
acquisition
movement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810641288.9A
Other languages
English (en)
Inventor
周湘君
芦振华
陈康兴
甘靖山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Western Hills Residence Guangzhou Shi You Network Technology Co Ltd
Zhuhai Kingsoft Online Game Technology Co Ltd
Original Assignee
Western Hills Residence Guangzhou Shi You Network Technology Co Ltd
Zhuhai Kingsoft Online Game Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Western Hills Residence Guangzhou Shi You Network Technology Co Ltd, Zhuhai Kingsoft Online Game Technology Co Ltd filed Critical Western Hills Residence Guangzhou Shi You Network Technology Co Ltd
Priority to CN201810641288.9A priority Critical patent/CN108833810A/zh
Publication of CN108833810A publication Critical patent/CN108833810A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明涉及一种三维虚拟偶像直播中实时生成字幕的方法,包括以下步骤:采集动捕演员的动作及语音数据,并将动作与语音进行时间关联;将采集的语音数据实时通过语音云智能识别***进行语音识别,将语音转换为对应的字幕文本;将字幕文本发送至三维虚拟偶像直播图形工作站制作出字幕画面;将采集的动作数据与三维虚拟偶像的模型进行动作匹配生成三维动画;根据动作与语音的时间关联,将三维动画与字幕画面进行叠加处理,生成最终的播放画面。不仅适用于三维虚拟偶像直播中实时生成字幕,还可以适用于传统的网络直播、电视直播中,整个过程是通过计算机装置及程序实时完成,无需人工制作,不存在延迟的问题。

Description

一种三维虚拟偶像直播中实时生成字幕的方法及装置
技术领域
本发明涉及一种实时字幕生成方法及装置,尤其涉及一种三维虚拟偶像直播中实时生成字幕的方法及装置。
背景技术
目前,随着直播行业的火热发展,越来越多的人玩起了直播,直播内容多种多样,丰富了人们的业余生活,但是,现在的直播基本都没有字幕,如果主播发言带点口音或者语速较快就可能听不懂主播在说些什么;长久以来,直播都是以真人的方式进行,如果生动的虚拟形象能替代真人,那直播世界将向更多喜欢二次元世界的人敞开大门,随着中国“二次元经济”热潮的到来,逐渐出现了虚拟偶像直播;在虚拟偶像直播中,同样存在传统真人直播的问题,即无法播放实时字幕,现有直播中的实时字幕往往通过硬延时技术,给原有直播信号加5-10分钟的延时,用这个延时时间完成字幕制作与播放,但这种方式操作成本和人力成本都比较高;而虚拟偶像直播中,往往是根据现有台词实现制作好字幕轨,直播时再***字幕,但是这就有了一定的局限性,当直播中有临时发挥成分时,就无法显示相关部分的字幕。
发明内容
本发明提供一种三维虚拟偶像直播中实时生成字幕的方法及装置,通过虚拟偶像直播技术与AI智能语音云识别技术的结合,将动捕演员的声音实时通过语音云识别转写为字幕文本并传回三维虚拟偶像直播图形工作站进行字幕画面与三维动画的结合,生成带字幕的虚拟偶像直播动画,识别率高,无需进行延迟操作,实现了虚拟偶像直播中播放实时字幕的要求,不会受台词的限制,并且制作过程简单智能。
本发明的技术方案第一方面为一种三维虚拟偶像直播中实时生成字幕的方法,其包括如下步骤:
采集动捕演员的动作及语音数据,并将动作与语音进行时间关联;
将采集的语音数据实时通过语音云智能识别***进行语音识别,将语音转换为对应的字幕文本;
将字幕文本发送至三维虚拟偶像直播图形工作站制作出字幕画面;
将采集的动作数据与三维虚拟偶像的模型进行动作匹配生成三维动画;
根据动作与语音的时间关联,将三维动画与字幕画面进行叠加处理,生成最终的播放画面。
进一步,所述采集动捕演员的动作及语音数据,并将动作与语音进行时间关联,包括:
使用动作捕捉服捕捉动捕演员做出的动作;
使用无线阵列麦克风采集动捕演员的语音;
将采集的动作和语音数据均进行时间标记并根据该时间标记对齐。
进一步,所述将采集的语音数据实时通过语音云智能识别***进行语音识别,包括:
将采集的语音数据转换为音频文件并发送至音频工作站;
音频工作站将音频文件上传至语音云智能识别***的云服务器进行语音识别;
其中,语音识别包括:
提取语音数据的声学特征;
将提取的声学特征与语音云智能识别***的数据库中的声学模型进行匹配,转换为对应的字幕文本。
进一步,所述将字幕文本发送至三维虚拟偶像直播图形工作站制作出字幕画面,包括:
根据语音停顿对字幕文本进行分段处理;
将分段处理的字幕文本输入三维虚拟偶像直播图形工作站进行处理,得到字幕画面。
进一步,所述将采集的动作数据与三维虚拟偶像的模型进行动作匹配生成三维动画,包括:
在动作捕捉服对应活动关节处做标记点;
将标记点与动捕软件中的三维虚拟偶像模型的骨骼进行匹配从而使三维虚拟偶像做出与动捕演员相同的动作;
对三维虚拟偶像模型进行渲染处理生成三维动画。
进一步,所述根据动作与语音的时间关联,将三维动画与字幕画面进行叠加处理,生成最终的播放画面,包括:
根据动捕演员动作与语音的时间关联性,将分段处理的字幕画面与对应时间段的三维动画帧进行叠加渲染处理,生成带有字幕的播放动画。
进一步,该方法还包括:将播放动画实时推送至三维虚拟偶像直播平台。
本发明的技术方案第二方面为一种计算机装置,包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
采集动捕演员的动作及语音数据,并将动作与语音进行时间关联;
将采集的语音数据实时通过语音云智能识别***进行语音识别,将语音转换为对应的字幕文本;
将字幕文本发送至三维虚拟偶像直播图形工作站制作出字幕画面;
将采集的动作数据与三维虚拟偶像的模型进行动作匹配生成三维动画;
根据动作与语音的时间关联,将三维动画与字幕画面进行叠加处理,生成最终的播放画面。
本发明的技术方案第三方面为一种计算机可读存储介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
采集动捕演员的动作及语音数据,并将动作与语音进行时间关联;
将采集的语音数据实时通过语音云智能识别***进行语音识别,将语音转换为对应的字幕文本;
将字幕文本发送至三维虚拟偶像直播图形工作站制作出字幕画面;
将采集的动作数据与三维虚拟偶像的模型进行动作匹配生成三维动画;
根据动作与语音的时间关联,将三维动画与字幕画面进行叠加处理,生成最终的播放画面。
本发明的有益效果为:弥补了虚拟偶像直播中无法进行真正的实时字幕播放的空白,破除了直播内容受台本限制的局限性,减少了人力成本和硬件成本。
附图说明
图1所示为根据本发明的方法的总体流程图;
图2所示为根据本发明的第一实施例的流程示意图;
图3所示为根据本发明的第一实施例的对应框图。
具体实施方式
以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本发明的目的、方案和效果。
在本公开中所使用的单数形式的“一种”、“所述”和“该”旨在包括多数形式,除非上下文清楚地表示其他含义。此外,除非另有定义,本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本文说明书中所使用的术语只是为了描述具体的实施例,而不是为了限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。
应当理解,本文所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例,并且除非另外要求,否则不会对本发明的范围施加限制,另外附图中的“图形工作站”即指代的是实施例中的“三维虚拟偶像直播图形工作站”,“语音云识别服务器”指代“语音云智能识别***的云端服务器”。
参考图1,本发明总体技术方案的三维虚拟偶像直播中实时生成字幕的方法,其包括如下步骤:
采集动捕演员的动作及语音数据,并将动作与语音进行时间关联;
将采集的语音数据实时通过语音云智能识别***进行语音识别,将语音转换为对应的字幕文本;
将字幕文本发送至三维虚拟偶像直播图形工作站制作出字幕画面;
将采集的动作数据与三维虚拟偶像的模型进行动作匹配生成三维动画;
根据动作与语音的时间关联,将三维动画与字幕画面进行叠加处理,生成最终的播放画面。
参考图2-图3,本发明的第一实施例中,动捕演员穿戴动作捕捉服进行表演,动作捕捉服用于确定动捕演员的头部、手、身体等的位置与方向,准确地跟踪动捕演员的动作,将这些动作实时检测出来,并反馈至动捕软件;动作捕捉服的关键部位有很多标记点,动捕软件将这些标记点与动捕软件中的三维虚拟偶像模型的骨骼进行匹配从而使三维虚拟偶像做出与动捕演员相同的动作,然后将该三维虚拟偶像模型传输至三维虚拟偶像直播图形工作站进行渲染处理获得三维动画;
同时,使用无线阵列麦克风拾取动捕演员表演中的语音并将其转换成音频文件发送至音频工作站,音频工作站使用人工智能语音识别***解析该音频文件并从中提取出语音的声学特征,然后将这些声学特征上传至语音云智能识别***的云端服务器,与其数据库中的声学模型进行对比匹配,从而转换成语音对应的字幕文本,该字幕文本根据语音停顿进行了分段处理,将分段处理后的字幕文本通过网络传回音频工作站后,音频工作站将该字幕文本发送至三维虚拟偶像直播图形工作站制作出与三维动画相适应的字幕画面;
得到三维动画与字幕画面后,三维虚拟偶像直播图形工作站则根据动捕演员表演时的动作与语音的时间相关性,将每一段字幕画面与其对应时间段的三维动画帧进行叠加渲染处理,最终生成实时的带有字幕的播放动画,并将其通过网络实时推送至直播平台进行直播。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机***通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
该发明不仅适用于三维虚拟偶像直播中实时生成字幕,还可以适用于传统的网络直播、电视直播中,整个过程是通过计算机装置及程序实时完成,无需人工制作,不存在延迟的问题。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机***的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的三维虚拟偶像直播中实时生成字幕的方法和技术编程时,本发明还包括计算机本身。
计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims (9)

1.一种三维虚拟偶像直播中实时生成字幕的方法,其特征在于,所述方法包括以下步骤:
采集动捕演员的动作及语音数据,并将动作与语音进行时间关联;
将采集的语音数据实时通过语音云智能识别***进行语音识别,将语音转换为对应的字幕文本;
将字幕文本发送至三维虚拟偶像直播图形工作站制作出字幕画面;
将采集的动作数据与三维虚拟偶像的模型进行动作匹配生成三维动画;
根据动作与语音的时间关联,将三维动画与字幕画面进行叠加处理,生成最终的播放画面。
2.根据权利要求1所述的三维虚拟偶像直播中实时生成字幕的方法,其特征在于,所述采集动捕演员的动作及语音数据,并将动作与语音进行时间关联,包括:
使用动作捕捉服捕捉动捕演员做出的动作;
使用无线阵列麦克风采集动捕演员的语音;
将采集的动作和语音数据均进行时间标记并根据该时间标记对齐。
3.根据权利要求1所述的三维虚拟偶像直播中实时生成字幕的方法,其特征在于,所述将采集的语音数据实时通过语音云智能识别***进行语音识别,包括:
将采集的语音数据转换为音频文件并发送至音频工作站;
音频工作站将音频文件上传至语音云智能识别***的云服务器进行语音识别;
其中,语音识别包括:
提取语音数据的声学特征;
将提取的声学特征与语音云智能识别***的数据库中的声学模型进行匹配,转换为对应的字幕文本。
4.根据权利要求1所述的三维虚拟偶像直播中实时生成字幕的方法,其特征在于,所述将字幕文本发送至三维虚拟偶像直播图形工作站制作出字幕画面,包括:
根据语音停顿对字幕文本进行分段处理;
将分段处理的字幕文本输入三维虚拟偶像直播图形工作站进行处理,得到字幕画面。
5.根据权利要求2所述的三维虚拟偶像直播中实时生成字幕的方法,其特征在于,所述将采集的动作数据与三维虚拟偶像的模型进行动作匹配生成三维动画,包括:
在动作捕捉服对应活动关节处做标记点;
将标记点与动捕软件中的三维虚拟偶像模型的骨骼进行匹配从而使三维虚拟偶像做出与动捕演员相同的动作;
对三维虚拟偶像模型进行渲染处理生成三维动画。
6.根据权利要求4所述的三维虚拟偶像直播中实时生成字幕的方法,其特征在于,所述根据动作与语音的时间关联,将三维动画与字幕画面进行叠加处理,生成最终的播放画面,包括:
根据动捕演员动作与语音的时间关联性,将分段处理的字幕画面与对应时间段的三维动画帧进行叠加渲染处理,生成带有字幕的播放动画。
7.根据权利要求1所述的三维虚拟偶像直播中实时生成字幕的方法,其特征在于,还包括:将播放动画实时推送至三维虚拟偶像直播平台。
8.一种计算机装置,包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
采集动捕演员的动作及语音数据,并将动作与语音进行时间关联;
将采集的语音数据实时通过语音云智能识别***进行语音识别,将语音转换为对应的字幕文本;
将字幕文本发送至三维虚拟偶像直播图形工作站制作出字幕画面;
将采集的动作数据与三维虚拟偶像的模型进行动作匹配生成三维动画;
根据动作与语音的时间关联,将三维动画与字幕画面进行叠加处理,生成最终的播放画面。
9.一种计算机可读存储介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
采集动捕演员的动作及语音数据,并将动作与语音进行时间关联;
将采集的语音数据实时通过语音云智能识别***进行语音识别,将语音转换为对应的字幕文本;
将字幕文本发送至三维虚拟偶像直播图形工作站制作出字幕画面;
将采集的动作数据与三维虚拟偶像的模型进行动作匹配生成三维动画;
根据动作与语音的时间关联,将三维动画与字幕画面进行叠加处理,生成最终的播放画面。
CN201810641288.9A 2018-06-21 2018-06-21 一种三维虚拟偶像直播中实时生成字幕的方法及装置 Pending CN108833810A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810641288.9A CN108833810A (zh) 2018-06-21 2018-06-21 一种三维虚拟偶像直播中实时生成字幕的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810641288.9A CN108833810A (zh) 2018-06-21 2018-06-21 一种三维虚拟偶像直播中实时生成字幕的方法及装置

Publications (1)

Publication Number Publication Date
CN108833810A true CN108833810A (zh) 2018-11-16

Family

ID=64143189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810641288.9A Pending CN108833810A (zh) 2018-06-21 2018-06-21 一种三维虚拟偶像直播中实时生成字幕的方法及装置

Country Status (1)

Country Link
CN (1) CN108833810A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110769265A (zh) * 2019-10-08 2020-02-07 深圳创维-Rgb电子有限公司 一种同声字幕翻译方法、智能电视及存储介质
CN110933485A (zh) * 2019-10-21 2020-03-27 天脉聚源(杭州)传媒科技有限公司 一种视频字幕生成方法、***、装置和存储介质
CN111010614A (zh) * 2019-12-26 2020-04-14 北京奇艺世纪科技有限公司 一种显示直播字幕的方法、装置、服务器及介质
CN112017264A (zh) * 2020-09-10 2020-12-01 网易(杭州)网络有限公司 虚拟演播厅的显示控制方法及装置、存储介质、电子设备
CN112995706A (zh) * 2019-12-19 2021-06-18 腾讯科技(深圳)有限公司 基于人工智能的直播方法、装置、设备及存储介质
CN113313839A (zh) * 2021-05-27 2021-08-27 百度在线网络技术(北京)有限公司 信息显示方法、装置、设备、存储介质及程序产品
CN113362263A (zh) * 2021-05-27 2021-09-07 百度在线网络技术(北京)有限公司 变换虚拟偶像的形象的方法、设备、介质及程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005159809A (ja) * 2003-11-27 2005-06-16 Toshiba Corp データ通信システム
CN101175264A (zh) * 2006-10-31 2008-05-07 上海晨兴电子科技有限公司 一种可视通信的装置
CN104581221A (zh) * 2014-12-25 2015-04-29 广州酷狗计算机科技有限公司 视频直播的方法和装置
CN107197385A (zh) * 2017-05-31 2017-09-22 珠海金山网络游戏科技有限公司 一种实时虚拟偶像直播方法及***
CN107423809A (zh) * 2017-07-07 2017-12-01 北京光年无限科技有限公司 应用于视频直播平台的虚拟机器人多模态交互方法和***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005159809A (ja) * 2003-11-27 2005-06-16 Toshiba Corp データ通信システム
CN101175264A (zh) * 2006-10-31 2008-05-07 上海晨兴电子科技有限公司 一种可视通信的装置
CN104581221A (zh) * 2014-12-25 2015-04-29 广州酷狗计算机科技有限公司 视频直播的方法和装置
CN107197385A (zh) * 2017-05-31 2017-09-22 珠海金山网络游戏科技有限公司 一种实时虚拟偶像直播方法及***
CN107423809A (zh) * 2017-07-07 2017-12-01 北京光年无限科技有限公司 应用于视频直播平台的虚拟机器人多模态交互方法和***

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110769265A (zh) * 2019-10-08 2020-02-07 深圳创维-Rgb电子有限公司 一种同声字幕翻译方法、智能电视及存储介质
CN110933485A (zh) * 2019-10-21 2020-03-27 天脉聚源(杭州)传媒科技有限公司 一种视频字幕生成方法、***、装置和存储介质
CN112995706A (zh) * 2019-12-19 2021-06-18 腾讯科技(深圳)有限公司 基于人工智能的直播方法、装置、设备及存储介质
CN112995706B (zh) * 2019-12-19 2022-04-19 腾讯科技(深圳)有限公司 基于人工智能的直播方法、装置、设备及存储介质
CN111010614A (zh) * 2019-12-26 2020-04-14 北京奇艺世纪科技有限公司 一种显示直播字幕的方法、装置、服务器及介质
CN112017264A (zh) * 2020-09-10 2020-12-01 网易(杭州)网络有限公司 虚拟演播厅的显示控制方法及装置、存储介质、电子设备
CN112017264B (zh) * 2020-09-10 2023-09-26 网易(杭州)网络有限公司 虚拟演播厅的显示控制方法及装置、存储介质、电子设备
CN113313839A (zh) * 2021-05-27 2021-08-27 百度在线网络技术(北京)有限公司 信息显示方法、装置、设备、存储介质及程序产品
CN113362263A (zh) * 2021-05-27 2021-09-07 百度在线网络技术(北京)有限公司 变换虚拟偶像的形象的方法、设备、介质及程序产品
CN113362263B (zh) * 2021-05-27 2023-09-15 百度在线网络技术(北京)有限公司 变换虚拟偶像的形象的方法、设备、介质及程序产品

Similar Documents

Publication Publication Date Title
CN108833810A (zh) 一种三维虚拟偶像直播中实时生成字幕的方法及装置
JP6019108B2 (ja) 文字に基づく映像生成
CN111741326B (zh) 视频合成方法、装置、设备及存储介质
CN108986189A (zh) 基于三维动画中实时多人动作捕捉并直播的方法和***
CN112333179B (zh) 虚拟视频的直播方法、装置、设备及可读存储介质
CN111325817A (zh) 一种虚拟人物场景视频的生成方法、终端设备及介质
CN108986190A (zh) 一种基于三维动画中非人形角色的虚拟主播的方法和***
JP2014519082A5 (zh)
EP4099709A1 (en) Data processing method and apparatus, device, and readable storage medium
KR20200054613A (ko) 동영상 메타데이터 태깅 시스템 및 그 방법
US11587548B2 (en) Text-driven video synthesis with phonetic dictionary
CN109064532B (zh) 动画角色自动口型生成方法及装置
CN102157007A (zh) 一种表演驱动的制作人脸动画的方法和装置
CN106653050A (zh) 一种动画口型与语音实时匹配的方法
US7257538B2 (en) Generating animation from visual and audio input
Wang et al. High quality lip-sync animation for 3D photo-realistic talking head
WO2021213008A1 (zh) 一种视频的音画匹配方法、相关装置以及存储介质
KR20150012322A (ko) 무대 가상 현실 제공 장치 및 방법
CN108810561A (zh) 一种基于人工智能的三维偶像直播方法及装置
CN113948105A (zh) 基于语音的图像生成方法、装置、设备及介质
CN114419204A (zh) 一种视频生成方法、装置、设备和存储介质
Sui et al. A 3D audio-visual corpus for speech recognition
Wei et al. A practical model for live speech-driven lip-sync
CN108320331B (zh) 一种生成用户场景的增强现实视频信息的方法与设备
CN117315102A (zh) 虚拟主播处理方法、装置、计算设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181116