CN116668733A

CN116668733A - 虚拟主播直播***及方法、相关装置

Info

Publication number: CN116668733A
Application number: CN202310552513.2A
Authority: CN
Inventors: 柴金详; 谭宏冰; 栾欣洋; 周子夏; 解澎莉; 李熹昊
Original assignee: Shanghai Movu Technology Co Ltd; Mofa Shanghai Information Technology Co Ltd
Current assignee: Shanghai Movu Technology Co Ltd; Mofa Shanghai Information Technology Co Ltd
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-08-29

Abstract

本申请提供了虚拟主播直播***、虚拟主播直播方法、主播客户端、运营客户端、服务端、计算机可读存储介质及计算机程序产品，所述***包括主播客户端和运营客户端；所述主播客户端被配置成驱动所述虚拟主播进行直播，所述虚拟主播采用中之人驱动和/或AI驱动；所述运营客户端被配置成编辑所述虚拟主播的形象和场景、搭建直播间以及编辑所述直播间的流程信息和/或商品展示信息。本申请提升了直播的表现和可视化效果，降低了直播的门槛和成本，提高了直播的标准化和智能化程度，提升了真人主播的满意度和观众体验，从而提高直播效率，提升直播质量。

Description

虚拟主播直播***及方法、相关装置

技术领域

本申请涉及虚拟人、人工智能的技术领域，尤其涉及虚拟主播直播***、虚拟主播直播方法、主播客户端、运营客户端、服务端、计算机可读存储介质及计算机程序产品。

背景技术

虚拟对象包括虚拟人、虚拟动物、虚拟卡通形象等。其中，虚拟人是由CG技术构建、以代码形式运行的拟人化形象，具有语言交流、表情表达、动作展示等多种互动方式。虚拟人技术已经在人工智能领域迅速发展，并且在很多技术领域都得到了应用，例如影视、传媒、游戏、金融、文旅、教育、医疗等领域。

在现今社会，网络直播已成为一种广泛流行的娱乐方式和带货方式，各种直播平台层出不穷。然而，传统的直播方式通常需要主播亲自进行直播，这不仅会给主播带来身心压力，还可能导致观众难以获得稳定的观看体验。虚拟主播技术利用计算机图像处理、语音合成等技术，生成虚拟形象代替真人主播进行直播，从而降低真人主播的工作负担并提高观众的观看体验。然而，现有的虚拟主播技术在某些方面仍有改进空间，例如在提高直播效率、提升直播质量等方面。

基于此，本申请提供了虚拟主播直播***、虚拟主播直播方法、主播客户端、运营客户端、服务端、计算机可读存储介质及计算机程序产品，以改进现有技术。

发明内容

本申请的目的在于提供虚拟主播直播***、虚拟主播直播方法、主播客户端、运营客户端、服务端、计算机可读存储介质及计算机程序产品，提高直播效率，提升直播质量。

本申请的目的采用以下技术方案实现：

第一方面，本申请提供了一种虚拟主播直播***，所述***包括主播客户端和运营客户端；

所述主播客户端被配置成驱动所述虚拟主播进行直播，所述虚拟主播采用中之人驱动和/或AI驱动；

所述运营客户端被配置成编辑所述虚拟主播的形象和场景、搭建直播间以及编辑所述直播间的流程信息和/或商品展示信息，所述流程信息用于指示开场、讲品、互动和促单中的一种或多种流程，所述商品展示信息包括商品的广告信息、细节信息、参数信息和试用信息中的一种或多种。

在一些可能的实现方式中，所述主播客户端还被配置成：

当所述虚拟主播采用中之人驱动时，检测是否满足预设的触发条件；所述触发条件包括以下一种或多种：所述直播间的评论出现预设关键词；所述中之人提及所述预设关键词；

如果满足所述触发条件，则触发所述虚拟主播的预设操作或者播放预先录制的标准促单视频；所述预设操作包括以下一种或多种：报库存、引导关注、营造气氛、展示技能和展示商品；在所述标准促单视频中，所述虚拟主播讲解和展示当前商品以促进观众下单。

在一些可能的实现方式中，所述主播客户端还被配置成：

当所述虚拟主播采用AI驱动时，检测是否满足预设的真人驱动条件，如果满足所述真人驱动条件，则提示所述中之人上播，以促进观众下单；

当所述虚拟主播采用中之人驱动时，检测是否满足预设的AI驱动条件，如果满足所述AI驱动条件，则提示所述中之人下播，以降低所述中之人的工作强度。

在一些可能的实现方式中，所述真人驱动条件包括以下一种或多种：

所述直播间的观众人数大于预设人数；

所述直播间的观众的平均观看时长大于第一预设时长；

所述直播间的热度值大于预设热度值；

所述直播间的互动行为的频率大于预设频率；所述互动行为包括点赞、评论、特效和气氛中的一种或多种；

所述直播间的互动行为的数量大于预设数量；

所述直播间的商品销售额大于第一预设销售额；

所述直播间的商品销量大于第一预设销量；

视频库中不存在所述直播间的观众的问题对应的答案视频；

AI驱动出现技术故障或异常情况；

所述AI驱动条件包括以下一种或多种：

所述直播间的直播时长大于第二预设时长；

在所述第三预设时长内所述直播间的商品销售额大于第二预设销售额；所述第二预设销售额大于所述第一预设销售额；

在所述第三预设时长内所述直播间的商品销量大于第二预设销量；所述第二预设销量大于所述第一预设销量；

在所述第四预设时长内所述直播间的观众人数始终不大于所述预设人数；

在所述第四预设时长内所述直播间的热度值始终不大于所述预设热度值；

中之人驱动出现技术故障或异常情况。

在一些可能的实现方式中，所述***还包括数据库；

所述数据库包括角色库、音色库、视频库、关键词库、直播间模板库、直播流程模板库和商品展示模板库中的一种或多种；

所述角色库用于存储多个所述虚拟对象对应的角色数据；

所述音色库用于存储多个音色对应的音色数据；

所述视频库用于存储多个交互视频，交互视频的类型包括标准促单视频、答案视频、欢迎视频、感谢视频、待机视频、过渡视频和技能视频中的一种或多种；

所述关键词库用于存储多个预设关键词；

所述直播间模板库用于存储多个直播间模板；

所述直播流程模板库用于存储多个直播流程模板；

所述商品展示模板库用于存储多个商品展示模板。

在一些可能的实现方式中，所述***还包括服务端；

当所述虚拟主播采用中之人驱动时，所述主播客户端被配置成采集所述中之人的语音、表情和动作，以得到第一语音数据、表情数据和动作数据并上传至所述服务端；

所述服务端被配置成根据所述第一语音数据进行语音合成，以得到所述虚拟主播的第二语音数据；根据所述表情数据和所述动作数据，驱动所述虚拟主播的表情和动作并进行渲染，以得到虚拟主播图像；根据所述虚拟主播图像和场景图像，获取第一图像数据；将所述第二语音数据和所述第一图像数据推流至所述主播客户端；

所述主播客户端还被配置成根据所述第二语音数据和所述第一图像数据，生成第一媒体流并分发至播放端。

在一些可能的实现方式中，所述运营客户端还被配置成接收形象配置操作，以得到形象配置信息；将所述形象配置信息发送至所述服务端；所述形象配置信息包括脸型、五官、妆容、服装、配饰和鞋中的一种或多种；

所述服务端还被配置成根据所述形象配置信息，配置所述虚拟主播的形象并进行渲染，以得到所述虚拟主播的预览形象数据；将所述预览形象数据发送至所述运营客户端；

所述运营客户端还被配置成展示所述预览形象数据，以使运营人员根据预览效果确认或调整所述虚拟主播的形象。

在一些可能的实现方式中，所述主播客户端还被配置成接收技能使用操作，以生成技能使用信息；将所述技能使用信息发送至所述服务端；

所述服务端还被配置成根据所述技能使用信息，调用或生成所述虚拟主播的技能并进行渲染，以得到技能图像和技能语音数据；根据所述技能图像和所述场景图像，获取第二图像数据；将所述技能语音数据和所述第二图像数据推流至所述主播客户端；

所述主播客户端还被配置成根据所述技能语音数据和所述第二图像数据，生成第二媒体流并分发至所述播放端。

在一些可能的实现方式中，所述主播客户端还被配置成接收场景配置操作，以得到场景配置信息；将所述场景配置信息发送至所述服务端；

所述服务端被配置成采用以下方式获取所述场景图像：根据所述场景配置信息，获取所述场景图像。

在一些可能的实现方式中，所述场景配置操作是2D图像选择操作、3D场景选择操作或者实景选择操作。

在一些可能的实现方式中，联播模式包括真实场景联播模式和/或虚拟场景联播模式；

所述主播客户端还被配置成接收联播配置操作，以进入所述真实场景联播模式或者所述虚拟场景联播模式；

在所述真实场景联播模式下，所述服务端被配置成采用以下方式获取所述场景图像和所述第一图像数据：通过摄像头采集得到包含真人主播的实景图像，作为所述场景图像；对所述虚拟主播图像和所述实景图像进行融合，得到所述第一图像数据；

在所述虚拟场景联播模式下，所述服务端被配置成采用以下方式获取所述场景图像和所述第一图像数据：将虚拟场景图像作为所述场景图像；通过所述摄像头采集得到包含所述真人主播的所述实景图像；从所述实景图像中分割得到真人主播图像；对所述真人主播图像、所述虚拟主播图像和所述虚拟场景图像进行融合，得到所述第一图像数据。

在一些可能的实现方式中，物品展示模式包括画中画模式、联播模式和建模模式中的一种或多种；

所述主播客户端还被配置成接收物品展示操作，以进入所述画中画模式、所述联播模式或者所述建模模式；

在所述画中画模式下，所述服务端被配置成采用以下方式获取所述场景图像：获取真实物品图像，所述真实物品图像是通过摄像头对真实物品预先采集得到的，或者，所述真实物品图像是通过所述摄像头对真实物品实时采集得到的；获取背景图像，所述背景图像设置有屏幕区域；对所述真实物品图像和所述背景图像进行融合，以使所述真实物品图像与所述屏幕区域相匹配，得到所述场景图像；

在所述联播模式下，所述服务端被配置成采用以下方式获取所述场景图像：通过所述摄像头实时采集得到包含真人主播和真实物品的实景图像，作为所述场景图像；

在所述建模模式下，所述服务端被配置成采用以下方式获取所述场景图像：对真实物品进行3D建模，以得到真实物品的三维模型；对所述三维模型进行渲染，以得到虚拟物品图像；对所述虚拟物品图像和虚拟场景图像进行融合，得到所述场景图像。

第二方面，本申请提供了一种虚拟主播直播方法，应用于虚拟主播直播***，所述***包括主播客户端和运营客户端；

所述方法包括：

通过所述主播客户端驱动所述虚拟主播进行直播，所述虚拟主播采用中之人驱动和/或AI驱动；

通过所述运营客户端编辑所述虚拟主播的形象和场景、搭建直播间以及编辑所述直播间的流程信息和/或商品展示信息，所述流程信息用于指示开场、讲品、互动和促单中的一种或多种流程，所述商品展示信息包括商品的广告信息、细节信息、参数信息和试用信息中的一种或多种。

第三方面，本申请提供了一种主播客户端，所述主播客户端被配置成：

驱动所述虚拟主播进行直播，所述虚拟主播采用中之人驱动和/或AI驱动。

第四方面，本申请提供了一种运营客户端，所述运营客户端被配置成：

编辑所述虚拟主播的形象和场景、搭建直播间以及编辑所述直播间的流程信息和/或商品展示信息，所述流程信息用于指示开场、讲品、互动和促单中的一种或多种流程，所述商品展示信息包括商品的广告信息、细节信息、参数信息和试用信息中的一种或多种。

第五方面，本申请提供了一种服务端，所述服务端被配置成：

接收主播客户端发送的第一语音数据、表情数据和动作数据；

根据所述第一语音数据进行语音合成，以得到所述虚拟主播的第二语音数据；

根据所述表情数据和所述动作数据，驱动所述虚拟主播的表情和动作并进行渲染，以得到虚拟主播图像；

根据所述虚拟主播图像和场景图像，获取第一图像数据；

将所述第二语音数据和所述第一图像数据推流至所述主播客户端。

第六方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被至少一个处理器执行时实现上述任一项方法的步骤，或者实现上述任一项***的功能，或者实现上述任一项主播客户端的功能，或者实现上述任一项运营客户端的功能，或者实现上述任一项服务端的功能。

第七方面，本申请提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被至少一个处理器执行时实现上述任一项方法的步骤，或者实现上述任一项***的功能，或者实现上述任一项主播客户端的功能，或者实现上述任一项运营客户端的功能，或者实现上述任一项服务端的功能。

相比于现有技术，本申请的有益效果在于：提升了直播的表现和可视化效果，降低了直播的门槛和成本，提高了直播的标准化和智能化程度，提升了真人主播的满意度和观众体验，从而提高直播效率，提升直播质量。

通过采用虚拟主播，可以让直播逐步降低对人的依赖，从而实现更加标准化、智能化和规模化的直播。此外，通过编辑虚拟主播的形象和场景，可以提升直播的表现和可视化效果，吸引更多的用户(或者说观众)观看直播，增加直播的曝光率和转化率。

通过采用虚拟主播和智能化技术，可以减少中之人的工作量和直播成本，从而实现低门槛和低成本的直播。此外，通过搭建标准化的直播间，可以进一步降低直播的成本，实现规模化复制。

通过采用虚拟主播和智能化技术，可以实现更高的标准化和智能化程度。具体来说，通过编辑虚拟主播的形象、场景、技能以及直播间的直播信息、直播流程、商品展示方式和特效等，可以实现更加标准化的直播。此外，通过智能化技术，可以实现机器辅助人、甚至机器换人的方式，降低人的投入，降低人的劳动负荷，实现更高效的直播。

通过降低直播的门槛和成本，提高直播的标准化和智能化程度，可以实现更低的操作频率、更低的操作强度和更好的直播呈现，这将有助于提升主播的满意度和观众体验。

附图说明

下面结合说明书附图和具体实施方式进一步说明本申请。

图1是本申请实施例提供的一种虚拟主播直播***的结构框图。

图2是本申请实施例提供的一种虚拟主播直播方法的流程示意图。

图3是本申请实施例提供的一种主播形象配置过程的流程示意图。

图4是本申请实施例提供的一种技能使用过程的流程示意图。

图5是本申请实施例提供的一种场景配置过程的流程示意图。

图6是本申请实施例提供的一种虚拟主播和真人主播联播过程的流程示意图。

图7是本申请实施例提供的一种物品展示过程的流程示意图。

图8是本申请实施例提供的一种计算机程序产品的结构示意图。

具体实施方式

下面将结合本申请的说明书附图以及具体实施方式，对本申请中的技术方案进行描述，需要说明的是，在不相冲突的前提下，以下描述的各实施方式之间或各技术特征之间可以任意组合形成新的实施方式。

本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施方式或设计方案不应被解释为比其他实施方式或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对数量的特别限定，不能构成对本申请实施例的任何限制。

下面对本申请实施例的技术领域和相关术语进行简单说明。

虚拟对象包括虚拟人、虚拟动物、虚拟卡通形象等。其中，虚拟人是由CG技术构建、以代码形式运行的拟人化形象，具有语言交流、表情表达、动作展示等多种互动方式。虚拟人技术已经在人工智能领域迅速发展，并且在很多技术领域都得到了应用，例如影视、传媒、游戏、金融、文旅、教育、医疗等领域，不仅可以定制化虚拟主持人、虚拟主播、虚拟培训讲师、虚拟客服、虚拟律师、虚拟教师、虚拟偶像、虚拟医生、虚拟讲解员、虚拟助手等，还可以通过文本或音频一键生成视频。在虚拟人中，服务型虚拟人的主要功能为替代真人服务和提供日常陪伴，是现实中服务型角色的虚拟化，其产业价值主要是降低已有服务型产业的成本，为存量市场降本增效。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。计算机程序可以在给定某种类别的任务T和性能度量P下学习经验E，如果其在任务T中的性能恰好可以用P度量，则随着经验E而提高。机器学习专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。

深度学习是一种特殊的机器学习，通过学习将世界使用嵌套的概念层次来表示并实现巨大的功能和灵活性，其中每个概念都定义为与简单概念相关联，而更为抽象的表示则以较不抽象的方式来计算。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

虚拟主播直播应用用于提供虚拟主播直播功能。虚拟主播可以模拟真人主播的交流和行为，并与用户进行互动。这种软件(指虚拟主播直播应用)通常是由人工智能和自然语言处理技术驱动的，并且能够通过文本、语音、图像、表单等方式与用户进行交互。

在现今社会，网络直播已成为一种广泛流行的娱乐方式和带货方式，各种直播平台层出不穷。然而，传统的直播方式通常需要主播亲自进行直播，这不仅会给主播带来身心压力，还可能导致观众难以获得稳定的观看体验。虚拟主播技术利用计算机图像处理、语音合成等技术，生成虚拟形象代替真人主播进行直播，从而降低真人主播的工作负担并提高观众的观看体验。然而，现有的虚拟主播技术在某些方面仍有改进空间，例如在处理主播语音、表情和动作方面的实时性和准确性等。

在网络直播领域中，电商直播已经成为卖货的一种最重要的方式，其最大的特点在于互动性强，实时性好。然而，目前电商带货依然存在着一些问题。电商带货需要强依赖主播，具体而言，需要主播的形象与品牌的目标客群匹配，主播的口才能力要好，能够清楚地讲解产品，并且需要主播比较稳定，能够与品牌长期绑定。

然而，这样的模式对于真人主播来说是比较困难的。首先，客户很难找到完全与自身品牌形象一致的真人主播。即使找到了这样的真人主播，其稳定性也不强。即使能够比较稳定，依然存在风险，主播可能会因为一些问题导致品牌沉淀在主播身上的价值直接归零。因此，针对品牌直播，虚拟主播是一种比较好的选择。

虚拟主播的主要价值点体现在客户可以根据自己的品牌调性和用户人群，针对性地设计自己的虚拟IP形象，并且使用自己的IP形象来进行直播。这样，品牌直播的过程中，价值和流量可以沉淀在品牌自己的虚拟IP身上。此外，品牌可以使用自己的运营团队进行直播。品牌的运营团队是对自己产品最为了解的人，能够把产品讲得最明白。而且，品牌的运营团队本身就需要对营销负责，所以采用品牌的运营团队来播，从降本和增效的角度来看，都是比较好的。但是，品牌的运营团队一般情况下不喜欢直播抛头露面，所以采用虚拟直播是一种比较合适的方式。

然而，品牌选择虚拟主播进行直播带货时通常会遇到几个问题。首先是直播间搭建的门槛问题，包括技术门槛和成本门槛，传统的虚拟主播直播方式需要复杂的影棚和穿戴设备，对于团队的技术门槛和操作门槛都是很高的。其次是虚拟形象的问题，一般的品牌不具备美术能力，难以获得一个好的虚拟IP形象。再者是虚拟直播过程中才艺表演问题，一般来说，电商主播或者品牌运营不具备才艺能力，所以电商直播通常会比较乏味，缺乏才艺表演和趣味性。还有就是虚拟直播过程中场景化直播问题，一般虚拟直播难以融入真实背景，在真实背景中进行虚拟直播，能够增加直播的真实性和沉浸感。最后是虚拟直播过程中的商品展示问题，由于虚拟直播采用虚拟人，而虚拟人很难与真实物品进行交互，就存在真实物品展示问题。

虚拟直播软件产品例如可以包括消费级产品和专业级产品。专业级产品是指专注于提供虚拟人和虚拟内容的运营服务能力，其目标是构建元宇宙的基础设施和虚拟人运营商。虚拟人运营商能够提供“有形象，能表达，可交互”的高质量虚拟人，用于为各行各业提供服务。之所以要开发虚拟直播软件产品，是因为虚拟直播是一个规模庞大、需求广泛、门槛较高的市场。因此，虚拟直播软件产品的业务目标是通过更低的投入实现更高的转化率和更大的规模，从而创造更大的业务价值。

在实现业务目标方面，虚拟直播软件产品可以采用虚拟化、智能化和标准化三个手段。虚拟化让直播逐步脱离对人的依赖，采用虚拟人出镜的方式提升表现，降低门槛，也是智能化和标准化的基础。智能化则是通过机器辅助人和机器换人的方式降低投入和劳动负荷，同时提高标准化程度。标准化包括直播间搭建、开播、货品展示等方面，也是实现规模化复制的基础。

为了满足用户需求，虚拟直播软件产品的设计要让老板、观众、主播和运营四类人群都满意。老板最关心的是更高的投产比和更大的规模，而观众则希望获得更好的产品、更好的价格、更好的展示方式、更好的主播和直播间场景、更好的直播氛围，以及更轻松愉悦的购物体验。主播则希望在更低的操作频率和强度下实现更好的直播呈现，从而提高劳动产出和劳动时间。运营则希望能够更轻松地创建直播间，并获得更好的直播结果。

虚拟直播软件产品可以采用单摄直播和AI直播两种开播模式，并将越来越智能，不断提高产品的质量和用户体验。

本申请实施例提供的方案涉及虚拟人、交互设计、人工智能、3D建模、云计算等技术，具体通过如下实施例进行说明。需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

(虚拟主播直播***)

参见图1，图1是本申请实施例提供的一种虚拟主播直播***的结构框图。

本申请实施例提供了一种虚拟主播直播***，所述***包括主播客户端和运营客户端；

上述实施例中，虚拟主播直播***用于实现虚拟主播直播方法。虚拟主播直播***包括主播客户端和运营客户端。虚拟主播直播***还可以包括服务端，主播客户端、运营客户端、服务端共同实现虚拟主播直播应用的功能。对于该虚拟主播直播应用来说，运行于真人主播(即中之人)、运营人员使用的终端设备的应用程序代码(或者说应用程序模块)称之为客户端，中之人使用的客户端称之为主播客户端，运营人员使用的终端设备称之为运营客户端，运行于服务器的应用程序代码称之为服务端(即服务器端)。

还需说明的是，本申请实施例中，中之人的工作内容包括驱动虚拟主播，运营人员的工作内容包括配置虚拟主播形象、直播间信息、直播流程、商品脚本、商品跳转链接等。直播间信息例如可以包括直播间名称、直播时间段、直播间房号、直播内容简介、嘉宾介绍等。中之人可以是客户的工作人员或者第三方外包人员，运营人员可以是客户的工作人员、第三方外包人员、虚拟主播直播应用提供商的工作人员等。其中，客户是指虚拟主播直播应用的客户，通常是企业(或者说公司)、机关、银行、学校、医院等B端客户，也有少量C端客户。本文中的用户通常是指上述客户的用户(或者说直播间的观众)，而非中之人或者运营人员。

主播客户端用于驱动虚拟主播进行直播。

运营客户端用于编辑虚拟主播的形象和场景、搭建直播间以及编辑直播间的流程信息和/或商品展示信息。举例来说，运营客户端可以提供后台配置界面，允许运营人员创建直播间并为直播间配置名称、直播时间、直播嘉宾、直播简介、布局、色彩、字体、logo、卡片、直播流程、商品脚本、商品展示方式等。

由此，提升了直播的表现和可视化效果，降低了直播的门槛和成本，提高了直播的标准化和智能化程度，提升了真人主播的满意度和观众体验，从而提高直播效率，提升直播质量。

在一些实施例中，所述主播客户端还被配置成：

在实际应用中，所使用的预设关键词可以根据具体情况而定，示例如下：

报库存：使用预设关键词如“有货”、“现货”、“限量”、“热销”、“热卖”、“爆款”等来触发虚拟主播报告库存信息。

引导关注：使用预设关键词如“关注我”、“点赞”、“分享”等来引导观众进行互动并关注主播。

营造气氛：使用预设关键词如“烟花”、“火箭”、“别墅”、“游轮”、“喜欢你”、“爱你”等来触发对应特效，引导观众产生相应的情绪，从而更好地参与到直播中来。

展示技能：使用预设关键词如“唱歌”、“跳舞”、“讲笑话”、“翻跟头”、“弹钢琴”、“吹笛子”、“写毛笔字”、“太极拳”、“跆拳道”等来触发虚拟主播进行技能展示，从而提高直播的趣味性和互动性。

展示商品：使用预设关键词如“上身效果”、“放大”、“细节”等来展示商品的上身效果、放大看细节等，引导观众了解和购买商品。

由此，可以让虚拟主播直播***更加智能化和自动化，减少对中之人的依赖和劳动负荷。通过检测直播间评论或中之人提及的预设关键词来触发虚拟主播的操作，可以增加互动性和吸引力，同时也可以提高观众的参与度和下单率。报库存、引导关注、营造气氛、展示技能和展示商品等预设操作，可以提高商品的曝光率和购买率，从而增加销售额和收益。同时，播放预先录制的标准促单视频也可以提高直播的效率和效果，通过事先录制和编辑好的标准讲品和促单视频，可以在直播过程中触发播放，从而(在解放真人主播的同时)让虚拟主播在直播过程中更加流畅地进行商品介绍和促销，提高观众的购买欲望和下单率。此外，通过标准化录制和编辑，可以保证讲品和促单的质量和效果的一致性，进一步提升直播的效果和用户满意度。

在一些实施例中，所述主播客户端还被配置成：

由此，可以实现虚拟主播的智能化驱动和中之人驱动的自动切换，从而降低中之人的工作强度，提高直播效率和质量。当虚拟主播采用AI驱动时，检测是否需要真人上播，可以提高直播的真实性和参与度，促进观众下单；当虚拟主播采用中之人驱动时，检测是否需要AI上播，可以降低中之人的工作强度和劳动负荷，提高直播的持续时间和质量。这样做的好处是，可以实现直播的智能化和标准化，从而提高直播的效率和质量，降低直播的门槛和成本，实现更好的直播效果和更高的经济效益。

在一些实施例中，所述真人驱动条件包括以下一种或多种：

所述直播间的观众人数大于预设人数；

所述直播间的观众的平均观看时长大于第一预设时长；

所述直播间的热度值大于预设热度值；

所述直播间的互动行为的数量大于预设数量；

所述直播间的商品销售额大于第一预设销售额；

所述直播间的商品销量大于第一预设销量；

视频库中不存在所述直播间的观众的问题对应的答案视频；

AI驱动出现技术故障或异常情况；

所述AI驱动条件包括以下一种或多种：

所述直播间的直播时长大于第二预设时长；

中之人驱动出现技术故障或异常情况。

观众人数：指直播间内实时观看直播的用户数。例如：某直播间内实时观看直播的用户数为500人。

平均观看时长：指观众在直播间内平均观看直播的时长。例如：直播间内3分钟内共有1000人进入，观看30秒的有500人，观看60秒的有300人，观看120秒的有100人，观看180秒的有50人，那么平均观看时长为(30×500+60×300+120×100+180×50)/950＝53.7秒。

热度值：指直播间的实时热度值，通常由观众人数、互动行为、弹幕评论等因素综合计算得出。例如：某直播间的实时热度值为85。

互动行为的频率：指观众在直播间内参与互动的频率，包括点赞、评论、特效和气氛等。例如：在某直播间内，观众平均每分钟发出10个弹幕，点赞次数为每分钟20次，使用特效次数为每分钟5次。

互动行为的数量：指观众在直播间内参与互动的总次数。例如：某直播间内观众发出弹幕1000条，点赞500次，使用特效100次。

商品销售额：指直播间内商品销售的总金额。例如：某直播间内销售的商品共计1000件，每件商品售价为100元，商品销售额为1000×100＝100000元。

商品销量：指直播间内商品销售的总数量。例如：某直播间内销售的商品共计1000件，商品销量为1000件。

直播时长：指直播间内直播的总时长。例如：某直播间的直播时长为2小时。

预设人数：设定的直播间观众数量的阈值，例如500人。

第一预设时长：设定的观众平均观看直播间的时间长度阈值，例如10分钟。

预设热度值：设定的直播间热度值的阈值，例如100。

预设频率：设定的直播间互动行为频率的阈值，例如每分钟至少5次互动行为。

互动行为：包括点赞、评论、特效和气氛等用户在直播间内的互动行为。

预设数量：设定的直播间互动行为数量的阈值，例如每分钟至少5次互动行为。

第一预设销售额：设定的直播间内销售额的阈值，例如50000元。

第一预设销量：设定的直播间内销售量的阈值，例如100件。

第二预设时长：设定的直播间直播时间的阈值，例如120分钟。

第二预设销售额：设定的直播间内第二个时间段内销售额的阈值，例如100000元。

第二预设销量：设定的直播间内第二个时间段内销售量的阈值，例如200件。

第三预设时长：设定的直播间直播时间的阈值，例如30分钟。

第四预设时长：设定的直播间直播时间的阈值，例如30分钟。

中之人驱动出现技术故障或异常情况：指中之人在直播过程中出现的故障或异常情况，例如中之人突然丢失了直播信号或者是中断了直播信号，或者中之人设备或网络出现了问题，导致无法进行正常的直播。此时可以通过AI驱动来替代中之人进行直播，以保证直播的连续性和顺畅性。

AI驱动出现技术故障或异常情况：指AI驱动在直播过程中出现的故障或异常情况，例如程序崩溃、网络中断等。

由此，通过设置不同的预设条件和阈值，自动检测和判断直播间的实时状态和表现，并基于不同的条件和情况，及时调整虚拟主播的驱动方式，以优化直播体验、提高销售效果和降低中之人的工作强度。同时，该实现方式还可以提高直播间的自动化程度，降低人工干预的需求，从而提高直播间的效率和可靠性。

对于虚拟主播直播***而言，合理的真人驱动条件应该能够充分考虑到直播效果和主播体验，同时也应该符合商业实际需求。因此，针对不同的应用场景和商业目标，真人驱动条件的设置可能会有所不同。

观众人数、平均观看时长、热度值和互动行为的频率和数量：这些条件能够反映出直播间的受欢迎程度和观众的参与度。在商业应用中，一个高质量的直播间应该吸引更多的观众参与，这些条件的设置能够确保直播间的观众质量和参与度。同时，这些条件也可以促进观众下单，增加商品销售额和销量，达到商业目标。

商品销售额和商品销量：这些条件是商业实际中非常关键的指标，因为它们能够反映出直播间的实际商业价值。在商业实际中，一个高质量的直播间应该能够增加商品销售额和销量，这些条件的设置能够确保直播间的商业价值，同时也能够促进观众下单，增加直播间的参与度。

AI驱动故障或者异常：该条件设置可以确保***的稳定性和主播体验。如果***出现技术故障或异常情况，能够及时提示主播进行切换，保证直播间的正常运行。

此外，上述各个AI驱动条件的设置考虑到了直播时间、销售额、销量等多个因素，并且设定了不同的预设值，使得虚拟主播在满足这些条件的情况下能够更好地推广商品和服务。

具体来说，所述直播间的直播时长大于第二预设时长、在所述第三预设时长内所述直播间的商品销售额大于第二预设销售额、在所述第三预设时长内所述直播间的商品销量大于第二预设销量这些条件的设定，有利于保证虚拟主播在直播过程中能够持续推广商品并带来销售额和销量的增长。

同时，在所述第四预设时长内所述直播间的观众人数始终不大于所述预设人数、在所述第四预设时长内所述直播间的热度值始终不大于所述预设热度值等条件的设置，则有利于当直播间的观众数量和热度不高时，提示真人主播下播休息，避免真人主播在直播间空转，却无法带来较多收益，能够减轻主播的工作负担，提高主播体验。

总之，AI驱动条件的设置考虑了直播带货的多方面因素，有利于提高虚拟主播的直播效率和效果，同时也有助于维护直播间的品质和稳定性。

在一些实施例中，所述***还包括数据库；

所述角色库用于存储多个所述虚拟对象对应的角色数据；

所述音色库用于存储多个音色对应的音色数据；

所述关键词库用于存储多个预设关键词；

所述直播间模板库用于存储多个直播间模板；

所述直播流程模板库用于存储多个直播流程模板；

所述商品展示模板库用于存储多个商品展示模板。

角色库：存储虚拟教师的角色信息，如姓名、年龄、兴趣爱好等个人信息以及形象配置信息。多个虚拟教师如语文教师、英语教师、数学教师等。形象配置信息用于指示虚拟教师的脸型、五官、妆容、服装、配饰、鞋、袜子、包等形象参数。其中，脸型可以包括圆脸、方脸、菱形脸、鹅蛋脸、长脸、心形脸等，每种脸型之间的最大区别主要在于面部每个部位的长短、宽窄比例不同。妆容可以包括日常妆、职业妆、晚宴妆、舞台妆、婚礼妆、彩妆、特效妆等。服装可以细分为上装、下装、连体装、套装、功能/职业装等。配饰还可以细分为项链、戒指、耳环、手镯、手链、头饰、胸针等。鞋可以包括运动鞋、休闲鞋、皮鞋、靴子、凉鞋、拖鞋等。包可以包括手提包、单肩包、斜挎包、双肩包、背包等。

音色库：存储虚拟教师的音色信息，如声音类型、音色特点等。其中包括多个音色，如低沉男声、甜美女声、清亮男声、性感女声等。

视频库是用来存储多个交互视频的库，包括以下类型：

标准促单视频：用来讲解和展示当前商品的视频，通常包括商品的特点、使用方法、优惠信息等。

答案视频：用来回答观众在直播间中提出的问题，帮助观众解决疑问。

欢迎视频：用来欢迎观众进入直播间，介绍本场直播的主题和内容。

感谢视频：用来感谢观众的支持和参与，提高观众的满意度和忠诚度。

待机视频：用来填充直播间的空白时间，比如等待新商品上架或等待观众进入直播间时播放的视频。

过渡视频：用来过渡不同商品或不同流程之间的转换，让直播间更具连贯性。

技能视频：用来展示虚拟主播的特殊技能，例如唱歌、跳舞、讲故事等。

关键词库：存储多个预设关键词，这些关键词通常是与直播内容相关的，例如与商品相关的产品名称、属性、特点等等。在虚拟主播采用中之人驱动时，可以通过检测直播间的评论或中之人的提及，触发预设操作或播放预先录制的标准促单视频，从而达到引导观众关注、营造气氛、展示技能和商品等目的。预设关键词可以帮助***精准地识别观众在直播间内的关注点，提高互动效果和营销效果。

直播间模板库：存储多个直播间的布局和设计方案，包括直播间的背景、边框、头像、标题、字体、颜色、卡片等元素。这些元素可以根据不同的场景和需求进行组合和定制，以呈现不同的视觉效果和品牌形象。

直播流程模板库：存储多个直播流程的预设方案，包括开场白、主题介绍、商品介绍、互动环节、结尾感谢等环节的内容和顺序。这些模板可以根据不同的直播目的和产品特点进行定制和优化，以提高直播效果和观众参与度。

商品展示模板库：存储多个商品讲解和展示方案，包括商品的分类、排列、介绍、优惠等信息。这些模板可以根据不同的产品特点和营销目标进行定制和优化，以提高商品的曝光度和销售效果。

由此，使用数据库可以有效地管理和存储***所需的各种数据，包括虚拟对象的角色数据、音色数据、交互视频数据、预设关键词、直播间模板、直播流程模板和商品展示模板等。通过将这些数据存储在数据库中，可以方便地进行维护和管理，并能够快速地进行数据检索和查询，提高***的效率和性能。此外，数据库还可以提供数据备份和恢复功能，以保证***数据的安全性和可靠性。

角色库用于存储多个虚拟对象对应的角色数据，包括各个品类(例如运动类、健身类、美食类、美妆类、服饰类等)的虚拟主播或者各个品牌的虚拟主播等，以便运营人员根据不同的直播需求选择不同的虚拟角色进行直播。

音色库用于存储多个音色对应的音色数据，音色是指在虚拟主播直播过程中使用的声音表现方式，不同的音色可以用来表现不同的情感或者场景，从而提升直播的观感和听感。

视频库用于存储多个交互视频，包括标准促单视频、答案视频、欢迎视频、感谢视频、待机视频、过渡视频和技能视频等。这些视频可以通过触发预设条件来自动播放或者人工手动播放，以促进直播间的互动和促单效果。

关键词库用于存储多个预设关键词，这些关键词可以用于触发虚拟主播的预设操作或播放标准促单视频，从而提升直播间的互动和促单效果。

直播间模板库用于存储多个直播间模板，这些模板包括直播间的名称、直播时间、直播嘉宾、直播简介、布局、色彩、字体、logo、卡片等，可以为直播间提供一个美观、舒适的环境，提升直播间的观感和听感，卡片可以用于跳转至对应的商品页面，方便观众下单。

直播流程模板库用于存储多个直播流程模板，这些模板包括开场、讲品、互动、促单等流程的设定，可以为直播流程提供一个有条理、有逻辑的展示方式，提升直播的观感和听感。每个流程包括一个或多个环节，例如每个商品对应的标准讲品流程可以包括广告、细节、参数和试用等环节。

商品展示模板库用于存储多个商品展示模板，这些模板包括商品的广告信息、细节信息、参数信息和试用信息等，可以为商品的展示提供一个美观、清晰的展示方式，提升直播间的促单效果。

在一些可能的实现方式中，所述***还包括服务端；

需要说明的是，本申请实施例中的表情包括口型(即嘴型，或者说口部表情)和其他面部器官(例如眉毛、眼睛、鼻子等)的表情。

主播客户端可以运行于普通的笔记本电脑、台式电脑、智能手机、平板电脑等设备，需要具备采集语音、表情和动作的功能，例如具有麦克风和摄像头等组件。

运营客户端可以运行于普通的笔记本电脑、台式电脑、智能手机、平板电脑等设备。

服务端通常采用高性能的服务器，可以部署在云端或本地，这些服务器需要具备强大的计算能力和渲染能力，以支持高质量的虚拟角色以及复杂的场景和特效。

播放端可以运行于任何能够播放流媒体内容的设备，例如智能手机、平板电脑、笔记本电脑、台式电脑或智能电视等。本申请实施例中，播放端的数量可以是一个或多个，例如可以是1、3、5、8、10、30、50、100、1000、10000、100000、1000000等。

在虚拟主播的直播过程中，主播客户端可以使用麦克风采集中之人的语音，使用摄像头采集中之人的表情和动作，并将采集到的数据上传至服务端进行处理。服务端可以使用语音合成技术将第一语音数据转换为第二语音数据。服务端还可以使用计算机图形学技术根据表情数据和动作数据驱动虚拟主播的表情和动作，并进行渲染得到虚拟主播图像。主播客户端可以使用流媒体技术将第二语音数据和第一图像数据封装成第一媒体流，并分发至播放端进行播放。

上述实施例采用了一种主播客户端+服务端的方案架构，将虚拟角色的驱动和渲染都放在了服务端。这样做的好处至少包括以下两方面。首先，可以充分利用云端的强大计算能力和渲染能力，支持高质量的虚拟角色以及复杂的场景和特效。其次，资产全部存储在云端，方便随时调用并防止资产泄漏。

在主播客户端方面，只需要一个普通的笔记本电脑或者配置较低的台式计算机，甚至可以直接使用手机或者平板电脑，就可以实现对中之人表情和动作的捕捉。中之人的表情和动作捕捉完成后，在主播客户端经过处理，成为简单的动作数据和表情数据，通过网络上传到服务端。服务端获取这些数据后，就可以在服务端驱动虚拟主播(例如虚拟人、虚拟动物、虚拟卡通形象等)，并在服务端经过渲染后推流回到主播客户端，然后通过主播客户端的直播软件进行直播分发。其中，直播软件例如可以是客户自己开发的直播应用、虚拟主播提供商所开发的直播应用或者第三方直播应用等。

另外，在主播客户端上可以配置虚拟主播所需的各种技能、场景和特效。中之人在主播客户端的操作(例如是鼠标操作或者语音控制操作)可以转换成一个指令，直接从服务端调用一个对应的技能，或者通过AI算法直接生成一个技能，并在云端进行渲染，进而推流到主播客户端。

由此，通过主播客户端采集所述中之人的语音、表情和动作数据，并将这些数据上传至服务端进行处理，提高了虚拟主播直播过程的实时性和准确性；采用虚拟主播进行直播，避免了真实主播需要长时间亲自直播的疲劳和压力，同时保持了直播内容的连贯性和观众的观看体验；将虚拟主播与实际场景结合，使观众在观看直播时能够更好地沉浸在虚拟环境中，从而提高观众的观看体验；允许虚拟主播在不同场景下进行直播，可以根据直播内容和观众需求灵活切换，增加了直播的多样性；相比于传统的真人直播，虚拟主播直播***可以减少对主播的依赖，降低人力成本，同时避免因真人主播出现异常情况而导致直播质量下降的风险。此外，该***允许客户在虚拟主播的形象、场景和技能等方面进行配置，客户可以根据自己的喜好和需求定制虚拟主播，使直播内容更具个性化和吸引力；采用虚拟主播直播***能够节省人力、物力等资源，降低直播成本，实现人力资源的合理分配和利用；支持与真人主播进行联播，无论是真实场景还是虚拟场景，都能够满足用户的互动需求，为观众带来丰富多样的观看体验；虚拟主播直播***可以广泛应用于各种直播场景，如电商、教育、娱乐、新闻、体育等领域，为各行各业提供高质量的直播服务，满足不同行业的需求。

综上所述，本申请提供的虚拟主播直播***，结合了虚拟主播的高度仿真、多样化场景选择、实时性与稳定性、高效的媒体流生成与分发等优点，为观众带来了更好的观看体验。同时，该***具有较强的扩展性和升级性，可以适应未来技术发展和市场需求的变化，为各类虚拟主播直播提供有效支持。另外，充分利用云端的强大的计算能力和渲染能力，可以支持高质量的虚拟主播，以及复杂的场景、特效等，在此基础上，将资产全部存储在云端，方便随时调用，以及防止资产泄露或流失。

假设虚拟主播“小A”要进行一场美妆带货直播。在直播开始之前，品牌方(即虚拟主播直播应用的客户)可以根据自己的品牌调性和用户人群，针对性地设计“小A”的虚拟形象，包括脸型、五官、妆容以及服装和配饰等。

当使用虚拟主播“小A”带货一款口红时，在与观众互动的过程中，“小A”可以通过语音和动作向观众介绍口红的特点和优势，并回答观众提出的问题。例如，观众可能会问“这款口红持久度如何？”或“这款口红适合哪种肤色？”等问题。“小A”可以调用预先合成的回答视频来回答问题，也可以根据品牌方提供的信息通过AI算法实时合成回答视频来回答问题，或者在中之人的实时驱动下回答问题。

在展示商品的过程中，中之人可以通过虚拟形象“小A”展示口红的外观和颜色，并向观众展示如何使用口红进行化妆。或者，运营人员可以预先配置一个化妆技能，直接调用化妆技能，即可让“小A”向观众展示如何使用口红打造不同妆容效果。

在推荐商品的过程中，“小A”可以向观众推荐口红，并提供购买链接。例如，可以说“这款口红颜色饱满持久，非常适合职场女性。现在购买还有优惠哦，点击链接即可购买。”

在一些实施例中，所述运营客户端还被配置成接收形象配置操作，以得到形象配置信息；将所述形象配置信息发送至所述服务端；所述形象配置信息包括脸型、五官、妆容、服装、配饰和鞋中的一种或多种；

针对虚拟主播的多元化和定制化问题，本申请实施例可以提供一个丰富的角色库。同时，对于每个角色提供了自定义功能。运营人员可以通过虚拟角色的脸型、五官、妆容、服装、配饰、鞋、袜子、包等进行自定义配置，轻松获得自己的角色。其中，脸型可以包括圆脸、方脸、菱形脸、鹅蛋脸、长脸、心形脸等，每种脸型之间的最大区别主要在于面部每个部位的长短、宽窄比例不同。妆容可以包括日常妆、职业妆、晚宴妆、舞台妆、婚礼妆、彩妆、特效妆等。服装可以细分为上装、下装、连体装、套装、功能/职业装等。配饰还可以细分为项链、戒指、耳环、手镯、手链、头饰、胸针等。鞋可以包括运动鞋、休闲鞋、皮鞋、靴子、凉鞋、拖鞋等。包可以包括手提包、单肩包、斜挎包、双肩包、背包等。

由此，通过接收形象配置操作，使虚拟主播的形象具有高度的定制性，客户可以根据自己的喜好或品牌需求，选择脸型、五官、妆容、服装、配饰和鞋等不同元素来定制虚拟主播的形象，进一步满足不同场景和客户需求；在形象配置过程中，运营客户端展示预览形象数据，使运营人员能够实时查看虚拟主播的形象效果，便于对虚拟主播形象进行确认或调整，提高了形象设计的效率；通过提供形象配置操作，简化了虚拟主播形象设计的难度，运营人员无需具备专业的设计技能，也能轻松地创建出具有个性化特点的虚拟主播形象；通过定制化的虚拟主播形象，企业和个人可以根据自身品牌特点进行定制，从而提高品牌在市场上的认知度和吸引力，同时，独特的虚拟主播形象有助于形成观众忠实度，提高直播间的粘性。

假设品牌方要配置虚拟主播“小A”的形象。品牌方可以在运营客户端上选择“小A”的脸型(如瓜子脸或圆脸)、五官(如大眼睛或高鼻梁)、妆容(如淡妆或浓妆)、服装(如连衣裙或西装)、配饰(如项链或耳环)和鞋(如高跟鞋或运动鞋)，得到形象配置信息。运营客户端将形象配置信息发送至服务端。服务端根据形象配置信息，配置“小A”的形象并进行渲染，以得到“小A”的预览形象数据。服务端将预览形象数据发送至运营客户端。运营客户端展示预览形象数据，使运营人员根据预览效果确认或调整“小A”的形象。例如，品牌方可以在运营客户端上查看“小A”的预览形象，并根据实际效果进行调整。如果品牌方对预览效果满意，则可以确认“小A”的形象；如果不满意，则可以继续调整形象配置信息，直到满意为止。

在一些实施例中，所述主播客户端还被配置成接收技能使用操作，以生成技能使用信息；将所述技能使用信息发送至所述服务端；

服务端可以从技能库中调用虚拟主播的技能。可供调用的技能库中可以包括各种技能，例如唱歌、跳舞、魔术、乐器演奏、相声、小品、戏剧表演、化妆、翻跟头、杂技表演等。技能库可以是运营人员预先配置的。中之人在直播过程中可以通过关键词匹配或者热词意图识别方式轻松调用这些技能，增强直播的趣味性和吸引力。其中，热词通常指在某一时期内被大量关注的词语，而关键词则是指用于检索信息的词语。热词可以看作是一种特殊的关键词。

由此，通过接收技能使用操作，使虚拟主播能够表演多样化的技能，即提供虚拟主播的才艺表演功能，提升虚拟主播直播过程的趣味性；通过调用或生成虚拟主播的技能，可以实现各种特效、动画和语音等多样化的直播内容，提高直播节目的趣味性和吸引力；客户可以根据自己的需求和场景，为虚拟主播配置不同的技能，满足不同的直播需求，有助于为观众提供丰富多样的直播内容，增加观众的观看兴趣；在生成第二媒体流时，将技能图像与场景图像相结合，使得虚拟主播技能与直播场景更加和谐自然，有助于提高观众观看直播时的视觉体验；允许开发者(或者说，***提供商)和客户根据需求，为虚拟主播添加更多自定义技能，从而实现高度可定制的虚拟主播直播***，有助于满足不断变化的市场需求和观众口味。

假设虚拟主播“小A”正在进行一场直播，品牌方希望“小A”展示唱歌技能。品牌方可以在主播客户端上选择唱歌技能，并指定歌曲和演唱风格等，得到技能使用信息。主播客户端将技能使用信息发送至服务端。服务端根据技能使用信息，调用或生成“小A”的唱歌技能并进行渲染，以得到技能图像和技能语音数据。根据技能图像和场景图像，获取第二图像数据。服务端将技能语音数据和第二图像数据推流至主播客户端。主播客户端可以使用流媒体技术将技能语音数据和第二图像数据封装成第二媒体流，分发至播放端进行播放。观众可以在播放端看到“小A”演唱歌曲的画面和听到歌声。

在一些实施例中，所述主播客户端还被配置成接收场景配置操作，以得到场景配置信息；将所述场景配置信息发送至所述服务端；

在一些实施例中，所述场景配置操作是2D图像选择操作、3D场景选择操作或者实景选择操作。

在一些实施例中，运营人员在直播开始之前可以进行初始场景配置，中之人或者助播在直播过程中可以进行场景切换。

本申请实施例支持多种场景配置，例如2D图像背景、3D场景、实景等。在3D场景中，可以支持不同的摄像机位置和角度配置，以及运动相机(即使用运动相机作为摄像机)，增加直播过程中的画面丰富度。另外，本申请实施例还支持实时视频流作为背景，可以通过一个摄像头(可以是远程摄像头)，实时拍摄真实场景并推流至主播客户端。主播客户端获取到真实场景的视频流后，将其叠放在虚拟人的背景层，实现虚拟人在真实背景中的直播。这些功能为虚拟主播的直播过程提供了更多的选择和可能性，使直播画面更加丰富多彩。

计算机图形学中的渲染，指的是将3D场景中的物体、光源、阴影等信息通过计算机计算，转化成2D图像的过程。在渲染的过程中，需要考虑光线的折射、反射、散射等物理特性，以及材质、纹理、光源等因素的影响，从而让3D场景显得更加真实、具有立体感和质感。常见的渲染方法包括光线追踪、光栅化等。运动相机的渲染方式和其他物体的渲染方式基本相同，都是通过计算机图形学算法将3D场景中的物体、光源、阴影等信息转化成2D图像。然而，由于运动相机使用时通常需要考虑到相机的高速运动，因此在渲染时需要特别注意动态运动和速度的表现，以避免产生模糊或失真的效果。为此，运动相机通常需要采用更高级的渲染方法，如快速暴力渲染(Fast Approximate Anti-Aliasing,FXAA)或超采样抗锯齿(Supersampling Anti-Aliasing,SSAA)等，使得输出的图像更加清晰、细腻。

由此，通过接收场景配置操作，允许品牌方根据需求和场景为虚拟主播配置不同的背景场景，有助于提高直播内容的多样性，为观众提供更丰富的观看体验；运营人员可以在直播开始之前通过运营客户端进行场景配置操作，以预先配置直播的背景场景；中之人或者助播可以在直播过程中通过主播客户端实时进行场景配置操作，使得虚拟主播能够快速适应不同的直播内容和观众需求，提高直播的灵活性和观众满意度；通过根据场景配置信息获取场景图像，为观众提供了更加真实和沉浸式的直播体验，有助于观众更好地融入直播内容，提高观众的观看兴趣；品牌方无需具备专业的场景设计技能，通过简单的场景配置操作，就能为虚拟主播创建合适的场景，降低了直播制作的难度，提高了品牌方的运营体验；相比于传统直播中需要搭建实体场景的方式，通过虚拟场景配置，可以大大降低场景制作和搭建的成本，同时，虚拟场景更易于管理和维护，为直播节省时间和资源。

本申请实施例支持2D图像选择操作、3D场景选择操作和实景选择操作，为品牌方提供了更丰富的场景选择方式，有助于满足不同品牌方的个性化需求，提高直播内容的多样性；通过提供不同类型的场景选择操作，可以根据直播内容和观众喜好，为虚拟主播的直播过程选择合适的2D、3D或实景背景，这将进一步增强观众的观看体验和沉浸感；允许中之人或者助播在直播过程中灵活切换不同类型的场景，以适应直播内容的变化，提高了直播的灵活性，使得虚拟主播能够更好地应对各种直播场景；可以根据需要选择2D图像、3D场景或实景作为背景，无需投入大量时间和资源来搭建复杂的实体场景，降低了直播制作的难度和成本，提高了制作效率；支持不同类型的场景选择操作，使得虚拟主播直播***具有更高的创意表现力，客户可以根据自己的创意和需求，选择合适的场景来丰富直播内容，增加直播的吸引力。

假设虚拟主播“小A”正在进行一场直播，品牌方可以预先通过运营客户端配置直播的背景场景，还可以在直播过程中通过主播客户端更换背景场景。品牌方可以在运营客户端或者主播客户端上进行2D图像选择操作、3D场景选择操作或实景选择操作，以得到场景配置信息。可供选择的2D图像可以包括各种类型的静态图片，如风景照片、插画、绘画、海报等。可供选择的3D场景可以包括各种类型的三维虚拟场景，如城市街道、自然风光、建筑物、室内空间等。可供选择的实景可以包括各种类型的真实场景，如实景拍摄的风景、建筑、室内空间等。实景可以通过摄像头实时拍摄或预先录制的视频来呈现。

主播客户端或运营客户端将场景配置信息发送至服务端。服务端根据场景配置信息，采用相应的方式获取场景图像。例如，如果品牌方进行了2D图像选择操作，则服务端会根据场景配置信息获取相应的2D图像作为背景场景；如果品牌方进行了3D场景选择操作，则服务端会根据场景配置信息获取相应的3D场景作为背景场景；如果品牌方进行了实景选择操作，则服务端会根据场景配置信息获取相应的实景作为背景场景。

在一些实施例中，联播模式包括真实场景联播模式和/或虚拟场景联播模式；

本申请实施例中，联播模式例如可以包括真实场景联播模式和/或虚拟场景联播模式。

本申请实施例在直播过程中，可以支持虚拟主播和真人主播一起直播。这分为两种情况：一种是虚拟主播和真人主播在真实背景中直播，另一种是虚拟主播和真人主播在虚拟场景中直播。

在虚拟主播和真人主播在真实背景中直播的情况下，只需通过透明通道对虚拟主播图像进行抠图处理，将虚拟主播放入真人主播所在的真实场景中即可。

在虚拟主播和真人主播在虚拟场景中直播的情况下，需要对真人主播进行抠图。可以采用绿幕抠图的方式，也可以采用AI无绿幕抠图的方式，将真人主播实时抠出来，放入虚拟背景中。这样，就可以实现虚拟主播和真人主播在虚拟背景中的实时互动。

由此，支持真实场景联播模式和虚拟场景联播模式，使得虚拟主播和真人主播能够更加灵活地进行互动和合作，满足不同直播场景和内容的需求；通过真实场景和虚拟场景的融合，为观众提供了更加丰富和多样的直播内容，虚拟主播与真人主播的联播(即同台直播)可以吸引更多观众，提高观众的观看兴趣和参与度；支持真实场景联播和虚拟场景联播，虚拟主播与真人主播的联动为观众带来更多惊喜，有助于拓展直播的应用场景和创新可能性；无论是在真实场景联播模式还是虚拟场景联播模式下，都能实现虚拟主播与真人主播图像的快速融合，减少了制作成本和制作难度，提高了制作效率；允许虚拟主播与真人主播在同一场景中互动，进一步增强了直播互动性，观众可以与两者互动，提高观众的参与度，从而提升直播的吸引力和观众粘性。

假设虚拟主播“小A”要与真人主播“小B”进行联播。此时，主播客户端被配置成接收联播配置操作，以进入真实场景联播模式或虚拟场景联播模式。

在真实场景联播模式下，服务端通过摄像头采集得到包含真人主播“小B”的实景图像，作为场景图像。对虚拟主播“小A”的图像(即虚拟主播图像)和实景图像进行融合，得到第一图像数据。通过麦克风采集得到真人主播“小B”的第三语音数据。根据第一语音数据进行语音合成，得到虚拟主播“小A”的语音数据(即第二语音数据)。对虚拟主播“小A”的语音数据和真人主播“小B”的第三语音数据进行混流，得到第二语音数据。将第二语音数据和第一图像数据推流至主播客户端。主播客户端根据第二语音数据和第一图像数据生成第一媒体流并分发至播放端。

在虚拟场景联播模式下，服务端获取虚拟场景图像，作为场景图像。通过摄像头采集得到包含真人主播“小B”的实景图像。从实景图像中分割得到真人主播“小B”的图像(即真人主播图像)。对真人主播“小B”的图像、虚拟主播“小A”的图像和虚拟场景图像进行融合，得到第一图像数据。通过麦克风采集得到真人主播“小B”的第三语音数据。根据第一语音数据进行语音合成，得到虚拟主播“小A”的语音数据。对虚拟主播“小A”的语音数据和真人主播“小B”的第三语音数据进行混流，得到第二语音数据。将第二语音数据和第一图像数据推流至主播客户端。主播客户端根据第二语音数据和第一图像数据生成第一媒体流并分发至播放端。

这样，在直播过程中，“小A”和“小B”就可以在同一个画面中进行联播。

在一些实施例中，物品展示模式包括画中画模式、联播模式和建模模式中的一种或多种；

本申请实施例中，物品展示模式例如可以包括画中画模式、联播模式和建模模式中的一种或多种。

在直播过程中，物品展示可以通过以下几种方式进行：

1、画中画(对应画中画模式)：在虚拟场景中设置一个虚拟屏幕，在屏幕上显示真实场景和真实物品。真实物品可以通过提前设置好的图片或视频来显示，也可以通过实时拍摄的视频流来显示。

2、真实背景结合真人展示(对应联播模式)：需要一个真人配合虚拟主播进行真实物品的展示。

3、3D建模(对应建模模式)：对真实物品进行3D建模，然后进行3D展示。此时，还可以通过透视图、***图等方式进行展示，体现商品(或者说产品)的内部结构，方便观众了解更多商品细节，放心地选购商品。

在一些实施例中，在画中画模式下，对真实物品图像和背景图像进行融合，以使真实物品图像与屏幕区域相匹配，得到场景图像的过程包括：

首先，确定屏幕区域的位置和大小。屏幕区域是背景图像中用来显示真实物品图像的区域。

然后，将真实物品图像调整到与屏幕区域相匹配的大小。这一步可以通过调整图像大小来实现。

之后，使用图像融合算法将真实物品图像与背景图像进行融合。这一步通常需要对两个图像进行预处理，以便它们能够更好地融合在一起。

最后，对融合后的场景图像进行后处理，以提高其质量。

其中，对于将真实物品图像与背景图像进行融合，可以使用多种不同的图像融合算法。选择哪种算法取决于具体需求和应用场景。例如，如果希望融合后的图像能够保留两个图像中的细节信息，那么可以使用多尺度变换方法，如小波变换或拉普拉斯金字塔变换。如果希望融合后的图像能够更好地符合人眼的视觉感知，那么可以使用基于模型的融合方法，如稀疏表示。此外，还可以使用混合融合方法，结合两种或两种以上的算法进行融合，以达到最佳效果。

假设品牌A需要直播带货一款手机，虚拟主播是“小A”。在画中画模式下，服务端可以通过摄像头对手机进行预先采集或实时采集，得到真实物品图像。同时，服务端获取背景图像，该背景图像设置有屏幕区域。然后，对真实物品图像和背景图像进行融合，使真实物品图像与屏幕区域相匹配，得到场景图像。根据虚拟主播“小A”的图像(即虚拟主播图像)和场景图像，获取第一图像数据，并将第二语音数据和第一图像数据推流至主播客户端。主播客户端根据第二语音数据和第一图像数据，生成第一媒体流并分发至播放端。

假设品牌B需要直播带货一款化妆品，虚拟主播是“小A”，真人主播是“小B”。在联播模式下，服务端通过摄像头采集得到包含真人主播“小B”和化妆品的实景图像，作为场景图像。根据虚拟主播“小A”的图像和场景图像，获取第一图像数据，并将第二语音数据和第一图像数据推流至主播客户端。主播客户端根据第二语音数据和第一图像数据，生成第一媒体流并分发至播放端。

假设品牌C需要直播带货一款汽车，虚拟主播是“小A”。在建模模式下，服务端对汽车进行3D建模，以得到汽车的三维模型。然后对三维模型进行渲染，以得到虚拟物品图像。接着对虚拟物品图像和虚拟场景图像进行融合，得到场景图像。根据虚拟主播“小A”的图像和场景图像，获取第一图像数据，并将第二语音数据和第一图像数据推流至主播客户端。主播客户端根据第二语音数据和第一图像数据，生成第一媒体流并分发至播放端。

由此，提供了画中画模式、联播模式和建模模式三种不同的物品展示方式，使得虚拟主播在直播过程中可以根据不同的展示需求进行灵活调整，提高了直播内容的丰富性和观众的观看体验；通过真实物品图像的融合和三维建模技术，为观众提供了更加逼真的物品展示效果，提高了观众对直播内容的信任度和购买意愿；各种物品展示模式可以增强虚拟主播与观众之间的互动，使得观众能够更直观地了解物品信息，提高观众的参与度和满意度；支持预先采集和实时采集真实物品图像，以及对真实物品进行3D建模，使得客户无需投入大量时间和资源来搭建复杂的展示场景，降低了制作成本和难度；通过提供多种物品展示方式，可以帮助虚拟主播更好地展示商品和服务，满足不同场景的需求，为直播行业拓展新的应用领域。

在一个具体应用场景中，本申请实施例还提供了一种虚拟主播直播***，***包括主播客户端和服务端，该***提供主播形象配置功能、场景配置功能、虚拟主播直播功能、技能使用功能、真人主播和虚拟主播联播功能、物品展示功能，具体实现过程如下：

1、主播形象配置过程包括：

运营客户端接收形象配置操作，以得到形象配置信息；将形象配置信息发送至服务端；形象配置信息包括脸型、五官、妆容、服装、配饰和鞋中的一种或多种；

服务端根据形象配置信息，配置虚拟主播的形象并进行渲染，以得到虚拟主播的预览形象数据；将预览形象数据发送至运营客户端；

运营客户端展示预览形象数据，以使运营人员根据预览效果确认或调整虚拟主播的形象；

2、场景配置过程包括：

主播客户端接收场景配置操作，以得到场景配置信息；将场景配置信息发送至服务端；场景配置操作是2D图像选择操作、3D场景选择操作或者实景选择操作。

服务端根据场景配置信息，获取场景图像；

3、虚拟主播直播过程包括：

当虚拟主播采用中之人驱动时，主播客户端采集中之人的语音、表情和动作，以得到第一语音数据、表情数据和动作数据并上传至服务端；

服务端根据第一语音数据进行语音合成，以得到虚拟主播的第二语音数据；根据表情数据和动作数据，驱动虚拟主播的表情和动作并进行渲染，以得到虚拟主播图像；根据虚拟主播图像和场景图像，获取第一图像数据；将第二语音数据和第一图像数据推流至主播客户端；

主播客户端根据第二语音数据和第一图像数据，生成第一媒体流并分发至播放端；播放端的数量可以是1个或多个；例如，可以将第一媒体流分发至同一直播间中的所有观众的终端设备，观众的终端设备包括智能手机、平板电脑、笔记本电脑、台式计算机、智能穿戴设备等；

4、技能使用过程包括：

主播客户端接收技能使用操作，以生成技能使用信息；将技能使用信息发送至服务端；

服务端根据技能使用信息，调用或生成虚拟主播的技能并进行渲染，以得到技能图像和技能语音数据；根据技能图像和场景图像，获取第二图像数据；将技能语音数据和第二图像数据推流至主播客户端；

主播客户端根据技能语音数据和第二图像数据，生成第二媒体流并分发至播放端；

5、联播过程包括：

主播客户端接收联播配置操作，以进入真实场景联播模式或者虚拟场景联播模式；

在真实场景联播模式下，服务端通过摄像头采集得到包含真人主播的实景图像，作为场景图像；对虚拟主播图像和实景图像进行融合，得到第一图像数据；通过麦克风采集得到真人主播的第三语音数据；根据第一语音数据进行语音合成，得到虚拟主播语音数据；对虚拟主播语音数据和第三语音数据进行混流，得到第二语音数据；将第二语音数据和第一图像数据推流至主播客户端；主播客户端根据第二语音数据和第一图像数据生成第一媒体流并分发至播放端；

在虚拟场景联播模式下，服务端获取虚拟场景图像，作为场景图像；通过摄像头采集得到包含真人主播的实景图像；从实景图像中分割得到真人主播图像；对真人主播图像、虚拟主播图像和虚拟场景图像进行融合，得到第一图像数据；通过麦克风采集得到真人主播的第三语音数据；根据第一语音数据进行语音合成，得到虚拟主播语音数据；对虚拟主播语音数据和第三语音数据进行混流，得到第二语音数据；将第二语音数据和第一图像数据推流至主播客户端；主播客户端根据第二语音数据和第一图像数据生成第一媒体流并分发至播放端；

6、物品展示过程包括：

主播客户端接收物品展示操作，以进入画中画模式、联播模式或者建模模式；

在画中画模式下，服务端获取真实物品图像，真实物品图像是通过摄像头对真实物品预先采集得到的，或者，真实物品图像是通过摄像头对真实物品实时采集得到的；获取背景图像，背景图像设置有屏幕区域；对真实物品图像和背景图像进行融合，以使真实物品图像与屏幕区域相匹配，得到场景图像；根据虚拟主播图像和场景图像，获取第一图像数据；将第二语音数据和第一图像数据推流至主播客户端；主播客户端根据第二语音数据和第一图像数据，生成第一媒体流并分发至播放端；

在联播模式下，服务端通过摄像头采集得到包含真人主播和真实物品的实景图像，作为场景图像；根据虚拟主播图像和场景图像，获取第一图像数据；将第二语音数据和第一图像数据推流至主播客户端；主播客户端根据第二语音数据和第一图像数据，生成第一媒体流并分发至播放端；

在建模模式下，服务端对真实物品进行3D建模，以得到真实物品的三维模型；对三维模型进行渲染，以得到虚拟物品图像；对虚拟物品图像和虚拟场景图像进行融合，得到场景图像；根据虚拟主播图像和场景图像，获取第一图像数据；将第二语音数据和第一图像数据推流至主播客户端；主播客户端根据第二语音数据和第一图像数据，生成第一媒体流并分发至播放端。

本申请实施例中，虚拟主播直播***的目标是实现高效率(低成本)、高质量、低门槛、规模化、高易用性。为了实现高效率(低成本)，可以考虑降低直播人数(即直播间的工作人员人数)、降低真人主播工作量、简化真人主播操作等。虚拟主播直播***可以包括智能助播子***、智能主播辅助子***、智能主播操作辅助子***等。为了实现高质量，可以考虑保障直播商品展示效果、保障主播表现效果等。为了实现低门槛，可以考虑降低主播门槛、硬件门槛、直播间装修门槛等。为了实现规模化，可以考虑设置角色资产库、音色库等。

降低直播人数的关键指标例如是将标准直播间的直播人数从4人(真人主播+中控+助播+运营)缩减至2人(真人主播+小助手/助播)。具体而言，可以通过智能助播子***实现中控和助播的智能化，包括报库存、引导关注、营造气氛等，根据直播间的直播情况智能触发上述功能，或者通过主播主动触发上述功能。智能助播子***涉及热词意图识别算法(基于已有的分词模型+NLP热词)，其中，热词需要提前定义，以及设定好动作，采集数据进行训练等。其中，热词需要提前定义并设定好动作，然后采集数据进行训练，这样，当输入与热词相关的查询时，算法就能够识别出观众的意图，并根据预先设定的动作进行响应。

假设定义了一个热词“手机”，当观众在虚拟主播的带货直播间中输入“手机”时，算法就能够识别出观众的意图，并根据预先设定的动作报告手机的库存情况。例如，虚拟主播可以会回答：“感谢您对我们的手机感兴趣！目前我们的库存充足，欢迎选购。”

假设定义了一个热词“喜欢”，当观众在虚拟主播的带货直播间中输入“喜欢”时，算法就能够识别出观众的意图，并根据预先设定的动作引导观众关注。例如，虚拟主播可以会回答：“感谢您的喜欢！如果您想了解更多关于我或者我们品牌的信息，请点击关注我们的直播间。”

降低真人主播工作量的关键指标例如是在单位时长里，将真人主播的工作量至少减少到原来的1/3。具体而言，真人主播可以通过智能主播辅助子***录制虚拟主播的标准讲品环节，以及标准促单环节，并可以对录制的视频进行二次编辑，在直播过程中可以以关键词的形式触发播放录制的视频。

简化真人主播操作的关键指标例如是在单位操作时长内，将真人主播的手动操作量减少到原来的1/3。当前，在真人主播的带货直播间里，真人主播的手动操作包括手动展示产品的外观、功能和使用方法等。具体而言，可以通过智能主播操作辅助子***识别真人主播的关键热词，识别真人主播的意图，触发对应的动作。也就是说，智能主播操作辅助子***也涉及热词意图识别算法。

假设定义了一个热词“扫地机器人”，当真人主播在直播过程中提到“扫地机器人”时，算法就能够识别出真人主播的意图，并根据预先设定的动作自动展示扫地机器人的使用方法。例如，智能主播操作辅助子***可能会自动播放一段视频，演示如何使用扫地机器人进行清洁。这样，真人主播就不需要手动演示扫地机器人的使用方法，从而减少了手动操作量。

保障直播商品展示效果的关键指标例如是实现直播间的进入率、停留时长、商品点击率跟相同条件的真人直播间持平。具体而言，可以通过标准化直播流程和标准化货品展示来实现。标准化直播流程是指针对各品类，将一场直播的标准流程标准化，包括开场、讲品、互动、促单等环节。***可以提供多种配置好的直播流程模板，方便运营人员选用。标准化货品展示是指针对品类，将一个单品的讲解和展示流程标准化，包括商品的广告、细节、参数、试用等相关环节的讲解和展示。***可以提供多种配置好的商品讲解和展示模板，方便运营人员选用。

在一些实施例中，所述虚拟主播可以使用多模态信息与用户进行交互，所述多模态信息包括以下一种或多种：文字、语音、图像、视频和动画。

(虚拟主播直播方法)

本申请实施例还提供了一种虚拟主播直播方法，其具体实施例与上述***实施例中记载的实施例、所达到的技术效果一致，部分内容不再赘述。

参见图2，图2是本申请实施例提供的一种虚拟主播直播方法的流程示意图。

所述方法应用于虚拟主播直播***，所述***包括主播客户端和运营客户端；

所述方法包括：

在一些实施例中，所述方法还包括：

当所述虚拟主播采用中之人驱动时，通过所述主播客户端检测是否满足预设的触发条件；所述触发条件包括以下一种或多种：所述直播间的评论出现预设关键词；所述中之人提及所述预设关键词；

在一些实施例中，所述方法还包括：

当所述虚拟主播采用AI驱动时，通过所述主播客户端检测是否满足预设的真人驱动条件，如果满足所述真人驱动条件，则提示所述中之人上播，以促进观众下单；

当所述虚拟主播采用中之人驱动时，通过所述主播客户端检测是否满足预设的AI驱动条件，如果满足所述AI驱动条件，则提示所述中之人下播，以降低所述中之人的工作强度。

在一些实施例中，所述真人驱动条件包括以下一种或多种：

所述直播间的观众人数大于预设人数；

所述直播间的观众的平均观看时长大于第一预设时长；

所述直播间的热度值大于预设热度值；

所述直播间的互动行为的数量大于预设数量；

所述直播间的商品销售额大于第一预设销售额；

所述直播间的商品销量大于第一预设销量；

视频库中不存在所述直播间的观众的问题对应的答案视频；

AI驱动出现技术故障或异常情况；

所述AI驱动条件包括以下一种或多种：

所述直播间的直播时长大于第二预设时长；

中之人驱动出现技术故障或异常情况。

在一些实施例中，所述***还包括数据库；

所述角色库用于存储多个所述虚拟对象对应的角色数据；

所述音色库用于存储多个音色对应的音色数据；

所述关键词库用于存储多个预设关键词；

所述直播间模板库用于存储多个直播间模板；

所述直播流程模板库用于存储多个直播流程模板；

所述商品展示模板库用于存储多个商品展示模板。

在一些实施例中，所述***还包括服务端；

所述通过所述主播客户端驱动所述虚拟主播进行直播，包括：

步骤S101：当所述虚拟主播采用中之人驱动时，通过主播客户端采集所述中之人的语音、表情和动作，以得到第一语音数据、表情数据和动作数据；

步骤S102：根据所述第一语音数据进行语音合成，以得到所述虚拟主播的第二语音数据；

步骤S103：根据所述表情数据和所述动作数据，驱动所述虚拟主播的表情和动作并进行渲染，以得到虚拟主播图像；

步骤S104：根据所述虚拟主播图像和场景图像，获取第一图像数据；

步骤S105：将所述第二语音数据和所述第一图像数据推流至所述主播客户端，以使所述主播客户端根据所述第二语音数据和所述第一图像数据，生成第一媒体流并分发至播放端。

所述虚拟主播直播方法可以在电子设备上运行，电子设备和服务端可以各自独立，电子设备也可以和服务端结合为一体。当电子设备和服务端各自独立时，电子设备可以是计算机、服务器(包括云服务器)等具有计算能力的设备。

参见图3，图3是本申请实施例提供的一种主播形象配置过程的流程示意图。

在一些可能的实现方式中，所述方法还包括：

步骤S201：通过所述运营客户端接收形象配置操作，以得到形象配置信息，所述形象配置信息包括脸型、五官、妆容、服装、配饰和鞋中的一种或多种；

步骤S202：根据所述形象配置信息，配置所述虚拟主播的形象并进行渲染，以得到所述虚拟主播的预览形象数据；

步骤S203：将所述预览形象数据发送至所述运营客户端；

步骤S204：通过所述运营客户端展示所述预览形象数据，以使运营人员根据预览效果确认或调整所述虚拟主播的形象。

参见图4，图4是本申请实施例提供的一种技能使用过程的流程示意图。

在一些可能的实现方式中，所述方法还包括：

步骤S301：通过所述主播客户端接收技能使用操作，以生成技能使用信息；

步骤S302：根据所述技能使用信息，调用或生成所述虚拟主播的技能并进行渲染，以得到技能图像和技能语音数据；

步骤S303：根据所述技能图像和所述场景图像，获取第二图像数据；

步骤S304：将所述技能语音数据和所述第二图像数据推流至所述主播客户端，以使所述主播客户端根据所述技能语音数据和所述第二图像数据，生成第二媒体流并分发至所述播放端。

参见图5，图5是本申请实施例提供的一种场景配置过程的流程示意图。

在一些可能的实现方式中，所述方法还包括：

步骤S401：通过所述主播客户端接收场景配置操作，以得到场景配置信息；

步骤S402：根据所述场景配置信息，获取所述场景图像。

参见图6，图6是本申请实施例提供的一种虚拟主播和真人主播联播过程的流程示意图。

所述方法还包括：

通过所述主播客户端接收联播配置操作，以进入所述真实场景联播模式或者所述虚拟场景联播模式；

在所述真实场景联播模式下，获取所述场景图像和所述第一图像数据的过程包括：

通过摄像头采集得到包含真人主播的实景图像，作为所述场景图像；

对所述虚拟主播图像和所述实景图像进行融合，得到所述第一图像数据；

在所述虚拟场景联播模式下，获取所述场景图像和所述第一图像数据的过程包括：

将虚拟场景图像作为所述场景图像；

通过所述摄像头采集得到包含所述真人主播的所述实景图像；

从所述实景图像中分割得到真人主播图像；

对所述真人主播图像、所述虚拟主播图像和所述虚拟场景图像进行融合，得到所述第一图像数据。

参见图7，图7是本申请实施例提供的一种物品展示过程的流程示意图。

所述方法还包括：

通过所述主播客户端接收物品展示操作，以进入所述画中画模式、所述联播模式或者所述建模模式；

在所述画中画模式下，获取所述场景图像的过程包括：

获取真实物品图像，所述真实物品图像是通过摄像头对真实物品预先采集得到的，或者，所述真实物品图像是通过所述摄像头对真实物品实时采集得到的；

获取背景图像，所述背景图像设置有屏幕区域；

对所述真实物品图像和所述背景图像进行融合，以使所述真实物品图像与所述屏幕区域相匹配，得到所述场景图像；

在所述联播模式下，获取所述场景图像的过程包括：

通过所述摄像头实时采集得到包含真人主播和真实物品的实景图像，作为所述场景图像；

在所述建模模式下，获取所述场景图像的过程包括：

对真实物品进行3D建模，以得到真实物品的三维模型；

对所述三维模型进行渲染，以得到虚拟物品图像；

对所述虚拟物品图像和虚拟场景图像进行融合，得到所述场景图像。

在一个具体应用场景中，本申请实施例还提供了一种虚拟主播直播方法，所述方法包括主播形象配置过程、场景配置过程、虚拟主播直播过程、技能使用过程、真人主播和虚拟主播联播过程、物品展示过程，具体实现步骤如下：

1、主播形象配置过程包括：

通过所述运营客户端接收形象配置操作，以得到形象配置信息，所述形象配置信息包括脸型、五官、妆容、服装、配饰和鞋中的一种或多种；

根据所述形象配置信息，配置所述虚拟主播的形象并进行渲染，以得到所述虚拟主播的预览形象数据；

将所述预览形象数据发送至所述运营客户端；

通过所述运营客户端展示所述预览形象数据，以使运营人员根据预览效果确认或调整所述虚拟主播的形象；

2、场景配置过程包括：

通过所述主播客户端接收场景配置操作，以得到场景配置信息；所述场景配置操作是2D图像选择操作、3D场景选择操作或者实景选择操作；

根据所述场景配置信息，获取所述场景图像；

3、虚拟主播直播过程包括：

当所述虚拟主播采用中之人驱动时，通过主播客户端采集所述中之人的语音、表情和动作，以得到第一语音数据、表情数据和动作数据；

根据所述虚拟主播图像和场景图像，获取第一图像数据；

将所述第二语音数据和所述第一图像数据推流至所述主播客户端，以使所述主播客户端根据所述第二语音数据和所述第一图像数据，生成第一媒体流并分发至播放端；

4、技能使用过程包括：

通过所述主播客户端接收技能使用操作，以生成技能使用信息；

根据所述技能使用信息，调用或生成所述虚拟主播的技能并进行渲染，以得到技能图像和技能语音数据；

根据所述技能图像和所述场景图像，获取第二图像数据；

将所述技能语音数据和所述第二图像数据推流至所述主播客户端，以使所述主播客户端根据所述技能语音数据和所述第二图像数据，生成第二媒体流并分发至所述播放端；

5、真人主播和虚拟主播联播过程包括：

通过所述主播客户端接收联播配置操作，以进入真实场景联播模式或者虚拟场景联播模式；

在所述真实场景联播模式下，通过摄像头采集得到包含真人主播的实景图像，作为所述场景图像；

通过麦克风采集得到真人主播的第三语音数据；

根据第一语音数据进行语音合成，得到虚拟主播语音数据；

对虚拟主播语音数据和第三语音数据进行混流，得到第二语音数据；

将第二语音数据和第一图像数据推流至主播客户端，以使主播客户端根据第二语音数据和第一图像数据生成第一媒体流并分发至播放端；

在所述虚拟场景联播模式下，将虚拟场景图像作为所述场景图像；

从所述实景图像中分割得到真人主播图像；

对所述真人主播图像、所述虚拟主播图像和所述虚拟场景图像进行融合，得到所述第一图像数据；

通过麦克风采集得到真人主播的第三语音数据；

根据第一语音数据进行语音合成，得到虚拟主播语音数据；

6、物品展示过程包括：

通过所述主播客户端接收物品展示操作，以进入画中画模式、联播模式或者建模模式；

在所述画中画模式下，获取真实物品图像，所述真实物品图像是通过摄像头对真实物品预先采集得到的，或者，所述真实物品图像是通过所述摄像头对真实物品实时采集得到的；

获取背景图像，所述背景图像设置有屏幕区域；

根据虚拟主播图像和场景图像，获取第一图像数据；

将第二语音数据和第一图像数据推流至主播客户端，以使主播客户端根据第二语音数据和第一图像数据，生成第一媒体流并分发至播放端；

在所述联播模式下，通过所述摄像头实时采集得到包含真人主播和真实物品的实景图像，作为所述场景图像；

根据虚拟主播图像和场景图像，获取第一图像数据；

在所述建模模式下，对真实物品进行3D建模，以得到真实物品的三维模型；

对所述三维模型进行渲染，以得到虚拟物品图像；

对所述虚拟物品图像和虚拟场景图像进行融合，得到所述场景图像；

根据虚拟主播图像和场景图像，获取第一图像数据；

将第二语音数据和第一图像数据推流至主播客户端，以使主播客户端根据第二语音数据和第一图像数据，生成第一媒体流并分发至播放端。

本申请实施例中，获取第二语音数据和第一图像数据的步骤可以同步进行或者异步进行，当采用异步进行时，本申请实施例对二者的先后顺序不作限定。

需要注意的是，以上实施例中，各过程中的各步骤的描述顺序不作为对优选顺序的限定。在能够实现的前提下，上述各过程中的各步骤的顺序可以发生改变，本申请实施例对此不作限定。

(主播客户端)

本申请实施例还提供了一种主播客户端，其具体实施例与上述***实施例中记载的实施例、所达到的技术效果一致，部分内容不再赘述。

所述主播客户端被配置成：

在一些实施例中，当所述虚拟主播采用中之人驱动时，所述主播客户端被配置成：

采集中之人的语音、表情和动作，以得到第一语音数据、表情数据和动作数据并上传至服务端；

接收所述服务端发送的第二语音数据和第一图像数据；

根据所述第二语音数据和所述第一图像数据，生成第一媒体流并分发至播放端。

由此，主播客户端集成了采集中之人的语音、表情和动作，上传数据至服务端，以及接收服务端发送的数据并生成第一媒体流等功能，这种集成使得主播客户端操作更为便捷，降低了使用难度；通过实时采集中之人的语音、表情和动作数据，并上传至服务端进行处理，主播客户端能够快速接收到服务端生成的第二语音数据和第一图像数据，为观众提供了更加真实、流畅的互动体验；主播客户端能够根据服务端发送的第二语音数据和第一图像数据，快速生成第一媒体流并分发至播放端，这种高效的数据处理与传输方式有助于降低直播过程中的延迟，提高观众的观看体验；主播客户端具有较强的通用性和兼容性，客户可以灵活选择不同的服务端，以满足各种直播需求；通过实时采集、处理和传输中之人的语音、表情和动作数据，有助于提高虚拟主播的表现力和观众的观看体验，从而提升整体直播质量。

(运营客户端)

本申请实施例还提供了一种运营客户端，其具体实施例与上述***实施例中记载的实施例、所达到的技术效果一致，部分内容不再赘述。

所述运营客户端被配置成：

(服务端)

本申请实施例还提供了一种服务端，其具体实施例与上述***实施例中记载的实施例、所达到的技术效果一致，部分内容不再赘述。

所述服务端被配置成：

根据所述虚拟主播图像和场景图像，获取第一图像数据；

由此，服务端具有强大的数据处理能力，能够接收并处理来自主播客户端的第一语音数据、表情数据和动作数据，实现对虚拟主播的第二语音数据的语音合成、表情和动作的渲染；服务端能够根据虚拟主播图像和场景图像获取第一图像数据，使虚拟主播能够在各种场景中表现，为观众提供更加丰富多样的直播内容；通过将第二语音数据和第一图像数据推流至主播客户端，服务端能够为观众提供高质量的媒体流，提高观众的观看体验；服务端能够实时处理主播客户端发送的数据，并将处理后的数据推流至主播客户端，保证了虚拟主播直播的实时性与稳定性，满足观众对实时性的需求；服务端具有较强的扩展性和升级性，可以根据未来的技术发展和市场需求进行功能的扩展和升级，以满足更多不同类型的虚拟主播直播需求。

(计算机可读存储介质)

本申请实施例还提供了一种计算机可读存储介质，其具体实施例与上述***实施例中记载的实施例、所达到的技术效果一致，部分内容不再赘述。

所述计算机可读存储介质存储有计算机程序，所述计算机程序被至少一个处理器执行时实现上述任一项方法的步骤或者实现上述任一项电子设备的功能。

其中，处理器可以执行存储器所存储的计算机程序，以及可以执行实用工具。处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

存储器可以包括易失性存储器形式的(计算机)可读介质，例如随机存取存储器(RAM)和/或高速缓存存储器，还可以进一步包括只读存储器(ROM)。存储器存储有计算机程序，计算机程序可以被处理器执行，使得处理器实现上述任一项方法的步骤。存储器还可以包括具有至少一个程序模块的实用工具，这样的程序模块包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例的每一个或某种组合中可能包括网络环境的实现。

计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。在本申请实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。计算机可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读存储介质还可以是任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向偶像的程序设计语言诸如Java、C++等，还包括常规的过程式程序设计语言诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

(计算机程序产品)

本申请实施例还提供了一种计算机程序产品，其具体实施例与上述***实施例中记载的实施例、所达到的技术效果一致，部分内容不再赘述。

本申请提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被至少一个处理器执行时实现上述任一项方法的步骤或者实现上述任一项电子设备的功能。

参见图8，图8是本申请实施例提供的一种计算机程序产品的结构示意图。

所述计算机程序产品用于实现上述任一项方法的步骤或者实现上述任一项电子设备的功能。计算机程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的计算机程序产品不限于此，计算机程序产品可以采用一个或多个计算机可读介质的任意组合。

本申请从使用目的上，效能上，进步及新颖性等观点进行阐述，已符合专利法所强调的功能增进及使用要件，本申请以上的说明书及说明书附图，仅为本申请的较佳实施例而已，并非以此局限本申请，因此，凡一切与本申请构造，装置，特征等近似、雷同的，即凡依本申请专利申请范围所作的等同替换或修饰等，皆应属本申请的专利申请保护的范围之内。

Claims

1.一种虚拟主播直播***，其特征在于，所述***包括主播客户端和运营客户端；

2.根据权利要求1所述的虚拟主播直播***，其特征在于，所述主播客户端还被配置成：

3.根据权利要求1所述的虚拟主播直播***，其特征在于，所述主播客户端还被配置成：

4.根据权利要求3所述的虚拟主播直播***，其特征在于，所述真人驱动条件包括以下一种或多种：

所述直播间的观众人数大于预设人数；

所述直播间的观众的平均观看时长大于第一预设时长；

所述直播间的热度值大于预设热度值；

所述直播间的互动行为的数量大于预设数量；

所述直播间的商品销售额大于第一预设销售额；

所述直播间的商品销量大于第一预设销量；

视频库中不存在所述直播间的观众的问题对应的答案视频；

AI驱动出现技术故障或异常情况；

所述AI驱动条件包括以下一种或多种：

所述直播间的直播时长大于第二预设时长；

中之人驱动出现技术故障或异常情况。

5.根据权利要求1所述的虚拟主播直播***，其特征在于，所述***还包括数据库；

所述角色库用于存储多个所述虚拟对象对应的角色数据；

所述音色库用于存储多个音色对应的音色数据；

所述关键词库用于存储多个预设关键词；

所述直播间模板库用于存储多个直播间模板；

所述直播流程模板库用于存储多个直播流程模板；

所述商品展示模板库用于存储多个商品展示模板。

6.根据权利要求1所述的虚拟主播直播***，其特征在于，所述***还包括服务端；

7.根据权利要求6所述的虚拟主播直播***，其特征在于，所述运营客户端还被配置成接收形象配置操作，以得到形象配置信息；将所述形象配置信息发送至所述服务端；所述形象配置信息包括脸型、五官、妆容、服装、配饰和鞋中的一种或多种；

8.根据权利要求6所述的虚拟主播直播***，其特征在于，所述主播客户端还被配置成接收技能使用操作，以生成技能使用信息；将所述技能使用信息发送至所述服务端；

9.根据权利要求6所述的虚拟主播直播***，其特征在于，所述主播客户端还被配置成接收场景配置操作，以得到场景配置信息；将所述场景配置信息发送至所述服务端；

10.根据权利要求9所述的虚拟主播直播***，其特征在于，所述场景配置操作是2D图像选择操作、3D场景选择操作或者实景选择操作。

11.根据权利要求6所述的虚拟主播直播***，其特征在于，联播模式包括真实场景联播模式和/或虚拟场景联播模式；

12.根据权利要求6所述的虚拟主播直播***，其特征在于，物品展示模式包括画中画模式、联播模式和建模模式中的一种或多种；

13.一种虚拟主播直播方法，其特征在于，应用于虚拟主播直播***，所述***包括主播客户端和运营客户端；

所述方法包括：

14.一种主播客户端，其特征在于，所述主播客户端被配置成：

15.一种运营客户端，其特征在于，所述运营客户端被配置成：

16.一种服务端，其特征在于，所述服务端被配置成：

根据所述虚拟主播图像和场景图像，获取第一图像数据；

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被至少一个处理器执行时实现权利要求13所述方法的步骤，或者实现权利要求1-12任一项所述***的功能，或者实现权利要求14所述主播客户端的功能，或者实现权利要求15所述运营客户端的功能，或者实现权利要求16所述服务端的功能。

18.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被至少一个处理器执行时实现权利要求13所述方法的步骤，或者实现权利要求1-12任一项所述***的功能，或者实现权利要求14所述主播客户端的功能，或者实现权利要求15所述运营客户端的功能，或者实现权利要求16所述服务端的功能。