CN112333179B

CN112333179B - 虚拟视频的直播方法、装置、设备及可读存储介质

Info

Publication number: CN112333179B
Application number: CN202011186517.6A
Authority: CN
Inventors: 朱绍明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2023-11-10
Anticipated expiration: 2040-10-30
Also published as: US11882319B2; CN112333179A; WO2022089167A1; US20230023085A1

Abstract

本申请公开了一种虚拟视频的直播方法、装置、设备及可读存储介质，涉及虚拟直播领域。该方法包括获取直播文本内容，直播文本内容为由虚拟直播中的虚拟主播表达的内容文本；对直播文本内容进行分割，得到依次排列的文本片段；按序依次获取文本片段的直播数据包；根据直播数据包进行渲染，得到用于推流进行虚拟直播的直播画面。通过将长文本的直播文本内容分割为多个短文本片段，从而对多个短文本片段依次获取直播数据包，并根据多个短文本片段的直播数据包依次渲染得到直播画面，避免了长文本的直播数据包获取过程以及渲染过程耗时较长较复杂而导致直播画面的延迟较大的问题，提高了直播视频响应速度，增强了直播视频的实时性。

Description

虚拟视频的直播方法、装置、设备及可读存储介质

技术领域

本申请实施例涉及虚拟直播领域，特别涉及一种虚拟视频的直播方法、装置、设备及可读存储介质。

背景技术

虚拟视频直播技术是指以虚拟主播为直播的主体，通过虚拟主播模拟真实说话以及真实动作进行直播，视频直播技术与人工智能技术的结合可以在许多地方发挥作用，比如代替真人进行新闻虚拟播报、代替游戏主播进行游戏虚拟解说等。

相关技术中，在虚拟视频推送中通常是以动画的形式直接创建直播过程对应的视频流，并获取音频流，从而在推送时将音频流和视频流推送至播放端进行播放。

然而，上述方式是基于稳定的音频和视频数据，而在虚拟视频实时直播中应用上述方式易产生直播视频响应速度慢，实时性较差的问题。

发明内容

本申请实施例提供了一种虚拟视频的直播方法、装置、设备及可读存储介质，能够提高了虚拟视频直播的响应速度，增强了直播视频的实时性。所述技术方案如下：

一方面，提供了一种虚拟视频的直播方法，所述方法包括：

获取直播文本内容，所述直播文本内容为由虚拟直播中的虚拟主播表达的内容文本；

对所述直播文本内容进行分割，得到依次排列的文本片段；

按序依次获取所述文本片段的直播数据包，所述直播数据包中包括与所述文本片段对应的口型数据；

根据所述直播数据包进行渲染，得到用于推流进行虚拟直播的直播画面。

另一方面，提供了一种虚拟视频的直播装置，所述装置包括：

获取模块，用于获取直播文本内容，所述直播文本内容为由虚拟直播中的虚拟主播表达的内容文本；

处理模块，用于对所述直播文本内容进行分割，得到依次排列的文本片段；

所述获取模块，还用于按序依次获取所述文本片段的直播数据包，所述直播数据包中包括与所述文本片段对应的口型数据；

渲染模块，用于根据所述直播数据包进行渲染，得到用于推流进行虚拟直播的直播画面。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的虚拟视频的直播方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的虚拟视频的直播方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的虚拟视频的直播方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过将长文本的直播文本内容分割为多个短文本片段，从而对多个短文本片段依次获取直播数据包，并根据多个短文本片段的直播数据包依次渲染得到直播画面，避免了长文本的直播数据包获取过程以及渲染过程耗时较长较复杂而导致直播画面的延迟较大的问题，由于TTS处理、渲染以及推流串行处理，提高了直播视频响应速度，增强了直播视频的实时性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的虚拟主播独立完成新闻直播的界面示意图；

图2是本申请一个示例性实施例提供的视频直播***的结构框图；

图3是本申请一个示例性实施例提供的虚拟视频的直播方法的流程图；

图4是基于图3示出的实施例提供的虚拟视频推流服务的结构框图；

图5是本申请另一个示例性实施例提供的虚拟视频的直播方法的流程图；

图6是基于图5示出的实施例提供的表情渲染过程的示意图；

图7是本申请另一个示例性实施例提供的虚拟视频的直播方法的流程图；

图8是本申请一个示例性实施例提供的虚拟视频的直播装置的结构框图；

图9是本申请另一个示例性实施例提供的虚拟视频的直播装置的结构框图；

图10是本申请一个示例性实施例提供的服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，针对本申请实施例中涉及的名词进行简单介绍：

人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、三维(3Dimensional，3D)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。本申请实施例中，在进行虚拟视频直播的过程中，根据直播文本内容生成虚拟主播的口型数据，从而通过三维技术将口型数据与虚拟主播的三维模型结合，生成直播视频流。

语音技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition，ASR)和语音合成技术(Text To Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。本申请实施例中，在进行虚拟视频直播的过程中，根据直播文本内容生成音频数据，从而作为虚拟主播发出的音频进行直播。

虚拟视频直播：是指以虚拟主播为直播的主体，通过虚拟主播模拟真实说话以及真实动作进行直播，视频直播技术与人工智能技术的结合可以在许多地方发挥作用，比如代替真人进行新闻虚拟播报、代替游戏主播进行游戏虚拟解说等。

示意性的，请参考图1，其示出了本申请一个示例性实施例提供的虚拟视频直播的界面示意图，其中，上述虚拟主播可以与真实主播一起进行直播，也可以直播，图1以虚拟主播独立完成新闻直播为例进行示意，如图1所示，在直播界面100中显示有虚拟主播110，该虚拟主播110在根据新闻文稿进行新闻直播。其中，虚拟主播110以三维虚拟模型的形式在虚拟或真实的直播环境中进行直播。

相关技术中，视频实时直播方法大都是针对已有稳定的音频、图片数据输入(如本地视频推流)，或者是能够快速获取到音频、图片数据(如摄像头获取数据)等应用场景。依赖稳定的数据源，无法在虚拟视频直播中得到很好应用。

本申请实施例提供了一种减小虚拟视频实时直播延时的方法，通过将输入文本分割多个短文本的方式，来提高音视频数据的获取速度，同时通过并行处理的方式，提高视频合成速度，解决在需要耗费较大计算力用于获取音视频数据的前提下，虚拟视频实时直播实时性差、延时大等问题。

图2是本申请一个示例性实施例提供的视频直播***的结构框图，如图2所示，该视频直播***中包括直播客户端210、虚拟视频推流服务220、TTS服务230以及流媒体服务240；

其中，直播客户端210向虚拟视频推流服务220直播文本内容，虚拟视频推流服务220将输入的长文本使用动态分句的方法分成多个短文本，并将这些短文本按顺序依次提交给TTS服务230。TTS服务230按照请求次序将短文本所对应的口型数据与音频数据，返回给虚拟视频推流服务220。虚拟视频推流服务220对每次获取到的口型数据通过3D渲染处理，获取虚拟角色的表情图片，并将表情图片与获取到的音频数据推送给流媒体服务240进行推流直播。

其中，上述服务可以实现为服务平台，也可以实现为服务器。

在一些实施例中，当流媒体服务240获取到表情图片与音频数据后，向观看虚拟直播的观众客户端推送直播视频流。

值得注意的是，上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

上述直播客户端和观众客户端运行在终端中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

其次，结合上述内容对本申请实施例中涉及的应用场景进行举例说明：

第一，在新闻虚拟直播过程中，主播终端实时向服务器发送直播文本内容，由服务器根据直播文本内容确定虚拟主播的口型数据和音频数据，控制虚拟主播播报新闻内容实现虚拟直播；

第二，在游戏直播解说的过程中，主播终端根据游戏的进度向服务器发送用于解说游戏的直播文本内容，由服务器根据直播文本内容确定虚拟主播的口型数据和音频数据，控制虚拟主播播报游戏过程的解说内容实现虚拟直播。

值得注意的是，上述新闻直播和游戏解说直播仅为本申请应用场景中的示意性的举例，本申请实施例提供的虚拟视频的直播方法还可以应用于其他应用场景中，本申请实施例对此不加以限定。

结合上述内容对本申请实例提供的虚拟视频的直播方法进行介绍。图3是本申请一个示例性实施例提供的虚拟视频的直播方法的流程图，以该方法应用于服务器中为例进行说明，如图3所示，该方法包括：

步骤301，获取直播文本内容，直播文本内容为由虚拟直播中的虚拟主播表达的内容文本。

在一些实施例中，直播文本内容为虚拟直播的过程中由主播终端发送至服务器的。其中，直播文本内容为主播终端根据直播过程实时编辑的，或，直播文本内容为主播终端中提前编辑完毕，并在直播过程中流式发送至服务器的。

本申请实施例中，以直播文本内容为主播终端根据直播过程实时编辑并发送至服务器的为例进行说明。示意性的，以虚拟视频直播实现为游戏解说直播为例进行说明，在游戏直播的过程中，主播终端根据游戏过程生成直播文本内容，用于对游戏过程进行解说，并将直播文本内容发送至服务器。

其中，主播终端根据游戏过程生成直播文本内容的方式包括如下方式中的至少一种：

第一，由解说人员直接根据游戏过程在主播终端中编辑直播文本内容；

第二，由解说人员通过主播终端连接的麦克风进行语音内容的输入，主播终端对语音内容进行转文字处理后，得到直播文本内容；

第三，根据游戏过程中的关键操作自动生成解说内容，并由解说人员对自动生成的解说内容进行调整后，生成直播文本内容。

直播文本内容为虚拟主播需要在虚拟直播中表达的内容，也即，虚拟主播需要在虚拟直播中模拟直播文本内容的播报，其中，包括在播报口型上模拟对直播文本内容的播报，以及在音频上模拟对直播文本内容的播报。

在一些实施例中，虚拟视频直播***中包括虚拟视频推流服务，主播终端在向虚拟视频直播***发送直播文本内容时，向虚拟视频推流服务发送直播文本内容。

步骤302，对在直播文本内容进行分割，得到依次排列的文本片段。

为了避免长文本影响视频的响应速度，服务器将直播文本内容分割为多个短文本。

在一些实施例中，服务器根据直播文本内容中的字符顺序对直播文本内容进行分割，将直播文本内容分割为多个按序排列的文本片段。可选地，在对直播文本内容进行分割时，根据直播文本内容的标点符号分布情况，一次从直播文本内容中分割得到候选文本片段，并根据候选文本片段的字符长度，得到文本片段。

其中，服务器中预先设置有分句标点符号集D，在进行候选文本片段的分割时，根据分句标点符号集D进行分割。示意性的，根据分句标点符号集D中设置的标点符号，与直播文本内容中出现的标点符号进行匹配，将出现分句标点符号集D中标点符号的位置作为候选文本片段的分割点。

示意性的，分句标点符号集D中包括标点符号句号，则对直播文本内容中的字符进行依次遍历，并在直播文本内容中出现句号时，将出现句号的位置作为候选文本片段的一个分割点，从而将起始点与分割点，或相邻两个分割点之间的内容作为候选文本片段。

在一些实施例中，在分割得到候选文本片段后，根据候选文本片段的字符长度确定该候选文本片段是否符合作为文本片段的要求。如：当候选文本片段的字符长度达到要求长度阈值时，确定候选文本片段为文本片段。

在一些实施例中，响应于候选文本片段的字符长度达到要求长度阈值，将候选文本片段直接确定为文本片段。

响应于候选文本片段的字符长度未达到要求长度阈值，将候选文本片段存储至片段组合区域，将片段组合区域中的候选文本片段与后续分割得到的候选文本片段组合作为文本片段。

在一些实施例中，虚拟视频直播***中包括虚拟视频推流服务，主播终端向虚拟视频推流服务发送直播文本内容，并由虚拟视频推流服务将直播文本内容分割为按序排列的多个文本片段。

可选地，视频推流服务中包括文本输入模块，通过文本输入模块接收主播终端发送的直播文本内容，并将直播文本内容分割为多个文本片段。

步骤303，按序依次获取文本片段的直播数据包，直播数据包中包括与文本片段对应的口型数据。

口型数据用于确定虚拟主播在播报直播文本内容时的口型形态。其中，文本片段的直播数据包为按序获取的，也即，由于直播文本内容本身在被分割后得到的是按序排列的文本片段，故在获取直播数据包时，按照文本片段的排列顺序依次获取直播数据包。

在一些实施例中，虚拟视频直播***中包括虚拟视频推流服务和TTS服务，虚拟视频推流服务将直播文本内容分割为按序排列的多个文本片段后，依次将文本片段发送至TTS服务中进行直播数据包的获取，其中，虚拟视频推流服务依次将文本片段发送至TTS服务中，由TTS服务反馈直播数据包后虚拟视频推流服务再向TTS服务继续发送下一个文本片段。

示意性的，虚拟视频推流服务接收到TTS服务反馈的第三个文本片段的直播数据包后，向TTS服务发送第四个文本片段，从而TTS服务对第四个文本片段进行TTS处理，得到第四个直播数据包，TTS服务向虚拟视频推流服务反馈第四个直播数据包后，虚拟视频推流服务继续向TTS服务发送第五个文本片段，以此类推。

可选地，虚拟视频推流服务中包括TTS请求模块，通过TTS请求模块向TTS服务依次发送文本片段，并接收直播数据包。

步骤304，根据直播数据包进行渲染，得到用于推流进行虚拟直播的直播画面。

直播数据包中包括与文本片段对应的口型数据，从而通过该口型数据对虚拟主播的口型进行渲染，得到直播画面。

在一些实施例中，虚拟视频推流服务中还包括3D渲染模块，TTS请求模块接收到TTS服务反馈的直播数据包后，向3D渲染模块发送口型数据，从而3D渲染模块结合虚拟主播的三维模型进行3D渲染处理，得到虚拟主播的表情图片作为直播画面。

其中，该直播画面实现为完整直播画面的部分，或，该直播画面实现为用于直接推流直播的画面。

示意性的，当该直播画面实现为完整直播画面的部分时，完整直播画面为现实主播与虚拟主播共同直播的画面，则直播画面为与虚拟主播对应的显示区域，该在直播画面与现实的直播画面结合后，作为完整的直播画面进行直播。

示意性的，请参考图4，虚拟视频推流服务400中包括文本输入模块410、TTS请求模块420、3D渲染模块430以及视频推流模块440，其中，文本输入模块410接收主播终端送的直播文本内容并将直播文本内容切割为文本片段，通过TTS请求模块420将文本片段发送至TTS服务进行TTS处理，得到对应的直播数据包，TTS请求模块420接收到直播数据包后，向3D渲染模块430发送该直播数据包，3D渲染模块430根据直播数据包中的口型数据渲染得到直播画面，并发送至视频推流模块440进行推流。

综上所述，本实施例提供的虚拟视频的直播方法，通过将长文本的直播文本内容分割为多个短文本片段，从而对多个短文本片段依次获取直播数据包，并根据多个短文本片段的直播数据包依次渲染得到直播画面，避免了长文本的直播数据包获取过程以及渲染过程耗时较长较复杂而导致直播画面的延迟较大的问题，由于TTS处理、渲染以及推流串行处理，提高了直播视频响应速度，增强了直播视频的实时性。

在一个可选的实施例中，直播文本内容的分割是通过设置要求长度阈值实现的。图5是本申请另一个示例性实施例提供的虚拟视频的直播方法的流程图，以该方法应用于服务器中为例进行说明，如图5所示，该方法包括：

步骤501，获取直播文本内容，直播文本内容为由虚拟直播中的虚拟主播表达的内容文本。

步骤502，根据直播文本内容的标点符号分布情况，依次从直播文本内容中分割得到候选文本片段。

步骤503，根据候选文本片段的字符长度，得到文本片段。

在一些实施例中，响应于候选文本片段的字符长度达到第一要求长度阈值，将候选文本片段直接确定为文本片段；响应于候选文本片段的字符长度未达到第一要求长度阈值，将候选文本片段存储至片段组合区域，将片段组合区域中的候选文本片段与后续分割得到的候选文本片段组合作为文本片段。

其中，将片段组合区域中的候选文本片段与后续分割得到的候选文本片段组合得到候选组合片段，响应于候选组合片段的字符长度达到第二要求长度阈值，将候选组合片段确定为文本片段；响应于候选组合片段的字符长度未达到第二要求长度阈值，将候选组合片段与后续分割得到的候选文本片段组合，直至字符长度达到要求长度阈值，清空片段组合区域。

在一些实施例中，上述第一要求长度阈值与第二要求长度阈值数值相等或者不等。本实施例中，以第一要求长度阈值与第二要求长度阈值相等为例进行说明。

可选地，第一要求长度阈值和第二要求长度阈值对应有预先设置的初始长度阈值，第一要求长度阈值和第二要求长度阈值为根据文本片段的分割情况，对初始长度阈值进行调整后的长度阈值。示意性的，文本片段每分割成功一次，在初始长度阈值的基础上增加预设数值作为更新后的第一要求长度阈值和第二要求长度阈值。示意性的，初始长度阈值为60，每分割得到一个文本片段在初始长度阈值的基础上增加10。

值得注意的是，上述表述中的后续分割得到的候选文本片段是指对当前候选文本片段之后的候选文本片段进行依次分割，并依次与片段组合区域中的候选文本片段组合后确定是否存储在片段组合区域中。

示意性的，上述候选文本片段的分割过程如下：

步骤1.1，首先设置文本分割长度初始阈值S＝60，表示当分割的短句长度小于S，则不独立成为一个文本片段，而并入下一个候选文本片段，设定标点符号集D，原始直播文本内容T，设置片段组合区域Th为空。

步骤1.2，根据标点符号集D，将直播文本内容T分割出一个候选文本片段并与Th合并为Ts，判断Ts长度是否大于S；若大于S则跳到步骤1.3，否则跳到步骤1.4；

步骤1.3，Ts分句成功，提交给TTS服务，更新文本T为剩余的待分句直播文本内容，设置Th为空,更新S＝S+10，跳到步骤1.5；

步骤1.4，Ts分句失败，更新Th＝Ts，更新文本T为剩余的待分句长文本；

步骤1.5，判断T是否为空，若T不为空，则跳至步骤1.2；若T为空，则判断Th是否为空，若为空则结果分句，若不为空则将Th作为最后一个短句提交给TTS服务，结束分句。

步骤504，按序依次获取文本片段的直播数据包，直播数据包中包括与文本片段对应的口型数据。

步骤505，根据直播数据包进行渲染，得到用于推流进行虚拟直播的直播画面。

可选地，对口型数据进行三维渲染，得到与虚拟主播的脸部图像；将脸部图像合成至背景图片，生成用于推流进行虚拟直播的直播画面。

其中，将口型数据渲染至虚拟主播的三维脸部模型上，得到与虚拟主播对应的脸部图像。

也即，将口型数据渲染至虚拟主播的三维脸部模型上，并采集三维脸部模型在对应口型数据所表现出的外观形态，获取外观形态对应的图像作为与口型数据对应的虚拟主播的脸部图像。

可选地，服务器中存储有虚拟主播的三维脸部模型数据，在渲染口型数据时，获取虚拟主播的三维脸部模型数据，并将口型数据与三维脸部模型数据结合，得到三维脸部模型对直播文本内容进行发声时的口型，在一些实施例中，服务器需要结合虚拟主播的表情数据和口型数据对三维脸部模型进行渲染，最终得到虚拟主播的脸部图像。

示意性的，请参考图6，其示出了本申请一个示例性实施例提供的表情渲染过程的示意图，如图6所示，服务器中存储有虚拟主播的三维人脸模型610，在根据直播文本内容获取到口型数据620后，结合口型数据620和三维人脸模型610后，得到虚拟主播对直播文本内容进行发声时的脸部图像630。

可选地，虚拟视频直播***中包括3D渲染模块，3D渲染模块可以由开放图形库(Open Graphics Library，OpenGL)工具与卷积神经网络(Convolutional NeuralNetworks，CNN)实现。背景图片包括人物的肢体动作，以及环境背景信息。根据客户端请求文本产生视频长度，从预先保存的通用背景图片中选择n组合适的背景图片与脸部表情进行匹配合成。每一组背景图片都是一个完整的动作，n组背景图片正好能够在视频结束时完成n个动作。

本实施例提供的方法，通过设置要求长度阈值对直播文本内容进行分割，得到多个文本片段，而文本片段的长度通过要求长度阈值进行控制，避免文本片段分割不均，造成分割得到的文本片段过长导致分割效果较差的问题，或，造成分割得到的文本片段过短导致数据交互次数较多的问题，提高了文本分割效率和准确率。

在一些实施例中，直播数据包中还包括音频数据，图7是本申请另一个示例性实施例提供的虚拟视频的直播方法的流程图，以该方法应用于服务器中为例进行说明，如图7所示，该方法包括：

步骤701，获取直播文本内容，直播文本内容为由虚拟直播中的虚拟主播表达的内容文本。

步骤702，对在直播文本内容进行分割，得到依次排列的文本片段。

步骤703，按序依次获取文本片段的直播数据包，直播数据包中包括与文本片段对应的口型数据。

可选地，直播数据包中还包括与文本片段的对应的音频数据，音频数据为TTS服务对文本片段进行转音频处理后得到的数据。

示意性的，向文本转语音服务器发送第i个文本片段，i为正整数；接收文本转语音服务器流式反馈的与第i个文本片段的对应的直播数据包；响应于第i个文本片段的直播数据包接收完毕，向文本转语音服务器发送第i+1个文本片段。

步骤704，根据直播数据包进行渲染，得到用于推流进行虚拟直播的直播画面。

步骤705，将文本片段对应的一组直播画面与音频数据进行打包，得到推流数据包。

可选地，视频推流模块主要使用了ffmpeg工具进行视频推流。当收到第一个推流数据包时，进行ffmpeg推流初始化，并推送音视频；当接收到结束包时，结束ffmpeg推流，完成一个完整的视频推流。

步骤706，根据推流数据包进行虚拟直播的推流。

可选地，视频推流模块每获取到一个3D渲染模块推送过来的推流数据包，提取其中的音频数据与图片帧数据。通过ffmpeg工具将音频、图片帧数据同步推送给流媒体服务，直到接收到结束包后，结束该视频的推送。

可选地，虚拟视频直播服务端选择合适的流媒体服务器地址发送给直播客户端，流媒体服务器地址的选择方式可以是固定的，也可以是预分配选择范围等方式，本申请实施例对此不加以限定。

图8是本申请一个示例性实施例提供的虚拟视频的直播装置结构框图，如图8所示，该装置包括：

获取模块810，用于获取直播文本内容，所述直播文本内容为由虚拟直播中的虚拟主播表达的内容文本；

处理模块820，用于对所述直播文本内容进行分割，得到依次排列的文本片段；

所述获取模块810，还用于按序依次获取所述文本片段的直播数据包，所述直播数据包中包括与所述文本片段对应的口型数据；

渲染模块830，用于根据所述直播数据包进行渲染，得到用于推流进行虚拟直播的直播画面。

在一个可选的实施例中，所述处理模块820，具体用于根据所述直播文本内容的标点符号分布情况，依次从所述直播文本内容中分割得到候选文本片段；根据所述候选文本片段的字符长度，得到所述文本片段。

在一个可选的实施例中，如图9所示，所述处理模块820，包括：

确定单元821，用于响应于所述候选文本片段的字符长度达到第一要求长度阈值，将所述候选文本片段直接确定为所述文本片段；

所述确定单元821，还用于响应于所述候选文本片段的字符长度未达到所述第一要求长度阈值，将所述候选文本片段存储至片段组合区域；将所述片段组合区域中的所述候选文本片段与后续分割得到的候选文本片段组合作为所述文本片段。

在一个可选的实施例中，所述确定单元821，还用于将所述片段组合区域中的所述候选文本片段与后续分割得到的候选文本片段组合得到候选组合片段；

所述确定单元821，还用于响应于所述候选组合片段的字符长度达到第二要求长度阈值，将所述候选组合片段确定为所述文本片段；

所述确定单元821，还用于响应于所述候选组合片段的字符长度未达到所述第二要求长度阈值，将所述候选组合片段与后续分割得到的候选文本片段组合，直至所述字符长度达到所述要求长度阈值，清空所述片段组合区域。

在一个可选的实施例中，所述渲染模块830，具体用于对所述口型数据进行三维渲染，得到与所述虚拟主播对应的脸部图像；将所述脸部图像合成至背景图片，生成用于推流进行虚拟直播的所述直播画面。

在一个可选的实施例中，所述渲染模块830，具体用于将所述口型数据渲染至所述虚拟主播的三维脸部模型上，得到与所述虚拟主播对应的所述脸部图像。

在一个可选的实施例中，所述装置，还包括：

发送模块840，用于向文本转语音服务器发送第i个文本片段，i为正整数；

所述获取模块810，还用于接收所述文本转语音服务器流式反馈的与所述第i个文本片段对应的所述直播数据包；

所述发送模块840，还用于响应于所述第i个文本片段的所述直播数据包接收完毕，向所述文本转语音服务器发送第i+1个文本片段。

在一个可选的实施例中，所述直播数据包中还包括与所述文本片段对应的音频数据；

所述装置，还包括：

发送模块840，用于将所述文本片段对应的一组直播画面与所述音频数据进行打包，得到推流数据包；根据所述推流数据包进行虚拟直播的推流。

综上所述，本实施例提供的虚拟视频的直播装置，通过将长文本的直播文本内容分割为多个短文本片段，从而对多个短文本片段依次获取直播数据包，并根据多个短文本片段的直播数据包依次渲染得到直播画面，避免了长文本的直播数据包获取过程以及渲染过程耗时较长较复杂而导致直播画面的延迟较大的问题，由于TTS处理、渲染以及推流串行处理，提高了直播视频响应速度，增强了直播视频的实时性。

需要说明的是：上述实施例提供的虚拟视频的直播装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的虚拟视频的直播装置与虚拟视频的直播方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图10示出了本申请一个示例性实施例提供的服务器的结构示意图。具体来讲：

服务器1000包括中央处理单元(Central Processing Unit，CPU)1001、包括随机存取存储器(Random Access Memory，RAM)1002和只读存储器(Read Only Memory，ROM)1003的***存储器1004，以及连接***存储器1004和中央处理单元1001的***总线1005。服务器1000还包括用于存储操作***1013、应用程序1014和其他程序模块1015的大容量存储设备1006。

大容量存储设备1006通过连接到***总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。大容量存储设备1006及其相关联的计算机可读介质为服务器1000提供非易失性存储。也就是说，大容量存储设备1006可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory，EEPROM)、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的***存储器1004和大容量存储设备1006可以统称为存储器。

根据本申请的各种实施例，服务器1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1000可以通过连接在***总线1005上的网络接口单元1011连接到网络1012，或者说，也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机***(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

本申请的实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的虚拟视频的直播方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，以实现上述各方法实施例提供的虚拟视频的直播方法。

本申请的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的虚拟视频的直播方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种虚拟视频的直播方法，其特征在于，所述方法包括：

根据所述直播文本内容的标点符号分布情况，依次从所述直播文本内容中分割得到候选文本片段；

响应于所述候选文本片段的字符长度达到第一要求长度阈值，将所述候选文本片段直接确定为文本片段；

响应于所述候选文本片段的字符长度未达到所述第一要求长度阈值，将所述候选文本片段存储至片段组合区域；将所述片段组合区域中的所述候选文本片段与后续分割得到的候选文本片段组合得到候选组合片段；响应于所述候选组合片段的字符长度达到第二要求长度阈值，将所述候选组合片段确定为所述文本片段；响应于所述候选组合片段的字符长度未达到所述第二要求长度阈值，将所述候选组合片段与后续分割得到的候选文本片段组合，直至所述字符长度达到所述要求长度阈值，清空所述片段组合区域；

2.根据权利要求1所述的方法，其特征在于，所述根据所述直播数据包进行渲染，得到用于推流进行虚拟直播的直播画面，包括：

对所述口型数据进行三维渲染，得到与所述虚拟主播对应的脸部图像；

将所述脸部图像合成至背景图片，生成用于推流进行虚拟直播的所述直播画面。

3.根据权利要求2所述的方法，其特征在于，所述对所述口型数据进行三维渲染，得到与所述虚拟主播对应的脸部图像，包括：

将所述口型数据渲染至所述虚拟主播的三维脸部模型上，得到与所述虚拟主播对应的所述脸部图像。

4.根据权利要求1至3任一所述的方法，其特征在于，所述按序依次获取所述文本片段的直播数据包，包括：

向文本转语音服务器发送第i个文本片段，i为正整数；

接收所述文本转语音服务器流式反馈的与所述第i个文本片段对应的所述直播数据包；

响应于所述第i个文本片段的所述直播数据包接收完毕，向所述文本转语音服务器发送第i+1个文本片段。

5.根据权利要求1至3任一所述的方法，其特征在于，所述直播数据包中还包括与所述文本片段对应的音频数据；

所述根据所述直播数据包进行渲染，得到用于推流进行虚拟直播的直播画面之后，还包括：

将所述文本片段对应的一组直播画面与所述音频数据进行打包，得到推流数据包；

根据所述推流数据包进行虚拟直播的推流。

6.一种虚拟视频的直播装置，其特征在于，所述装置包括：

处理模块，用于根据所述直播文本内容的标点符号分布情况，依次从所述直播文本内容分割得到候选文本片段；

所述处理模块，用于响应于所述候选文本片段的字符长度达到第一要求长度阈值，将所述候选文本片段直接确定为文本片段；

所述处理模块，用于响应于所述候选文本片段的字符长度未达到所述第一要求长度阈值，将所述候选文本片段存储至片段组合区域；将所述片段组合区域中的所述候选文本片段与后续分割得到的候选文本片段组合得到候选组合片段；响应于所述候选组合片段的字符长度达到第二要求长度阈值，将所述候选组合片段确定为所述文本片段；响应于所述候选组合片段的字符长度未达到所述第二要求长度阈值，将所述候选组合片段与后续分割得到的候选文本片段组合，直至所述字符长度达到所述要求长度阈值，清空所述片段组合区域；

7.根据权利要求6所述的装置，其特征在于，所述渲染模块，具体用于对所述口型数据进行三维渲染，得到与所述虚拟主播对应的脸部图像；将所述脸部图像合成至背景图片，生成用于推流进行虚拟直播的所述直播画面。

8.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至5任一所述的虚拟视频的直播方法。

9.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至5任一所述的虚拟视频的直播方法。