CN115442495A

CN115442495A - 一种ai演播室***

Info

Publication number: CN115442495A
Application number: CN202211000551.9A
Authority: CN
Inventors: 李宁
Original assignee: Hebei Yuanzhi Technology Co ltd
Current assignee: Hebei Yuanzhi Technology Co ltd
Priority date: 2022-08-19
Filing date: 2022-08-19
Publication date: 2022-12-06

Abstract

本发明公开了一种AI演播室***，该***包括：服务端，接收使用者上传的第三方实时数据流；服务端，将第三方实时数据流中的视频流数据，广播至预先建立通讯连接的至少一个显示端，以在至少一个显示端对第三方实时数据流中的视频流数据进行显示；服务端，还对第三方实时数据流中的文本数据，采用虚拟数字人技术和知识图谱技术进行处理后，再通过通讯端口广播至至少一个显示端，以在至少一个显示端对基于第三方实时数据流中的文本数据进行处理得到的虚拟数字人和智能媒体进行显示。该方案，通过采用虚拟数字人技术和知识图谱技术，构建三维虚拟场景和三维虚拟AI形象角色，降低了虚拟视频内容的制作难度和制作成本。

Description

一种AI演播室***

技术领域

本发明属于计算机技术领域，具体涉及一种AI演播室***。

背景技术

虚拟演播室(The Virtual Studio System，VSS)，又称虚拟演播室***，是近年来随着计算机技术飞速发展和色键技术不断改进而出现的一种新的视频内容制作***。在虚拟演播室***中，使用实体摄像机拍摄真实主持人或真实演员置身于蓝色背景幕布前的表演活动，利用色键功能将主持人从蓝色背景中分离出来形成前景；同时利用实体摄像机、真实人物的数据关系生成虚拟场景的三维模型，最终得到把实拍的人物与虚拟景物无缝地融合起来的画面。其中，色键是一种用电子技术方法所完成的特技功能，是一种键控特技效果，其键控信号取自彩色电视信号的色度分量，用来控制一个高速电子开关。

虚拟演播室***可以引入虚拟特殊环境与道具，创作更丰富的视频内容，较大程度上摆脱了时间、空间和道具制作方面的限制，获得了更大的创作的想象空间。虚拟演播室***虽然具有诸多的优越性，但它由于价格昂贵，需要专业人员操作和专业设备，普及和推广有一定的难度。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的目的在于，提供一种AI演播室***，以解决相关方案中的虚拟演播室***，由于价格昂贵且专业性强，存在虚拟视频内容的制作难度和制作成本均较大的问题，达到通过采用虚拟数字人技术和知识图谱技术，构建三维虚拟场景和三维虚拟AI形象角色，降低了虚拟视频内容的制作难度和制作成本的效果。

本发明提供一种AI演播室***，包括：服务端；所述服务端，具有第三方数据接口和通讯端口；其中，所述服务端，被配置为通过所述第三方数据接口，接收使用者上传的第三方实时数据流；所述第三方实时数据流，包括：视频流数据和文本数据；所述服务端，被配置为通过所述通讯端口，将所述第三方实时数据流中的视频流数据，广播至预先建立通讯连接的至少一个显示端，以在所述至少一个显示端对所述第三方实时数据流中的视频流数据进行显示；所述服务端，还被配置为对所述第三方实时数据流中的文本数据，采用虚拟数字人技术和知识图谱技术进行处理后，再通过所述通讯端口广播至所述至少一个显示端，以在所述至少一个显示端对基于所述第三方实时数据流中的文本数据进行处理得到的虚拟数字人和智能媒体进行显示；其中，通过在所述至少一个显示端，对所述第三方实时数据流中的视频流数据的显示、以及基于所述第三方实时数据流中的文本数据进行处理得到的虚拟数字人和智能媒体的显示，实现对三维虚拟场景和三维虚拟AI形象角色的构建并在客户端显示。

在一些实施方式中，所述服务端，包括：接收单元、处理单元和广播单元；其中，所述接收单元，被配置为通过所述第三方数据接口，接收使用者上传的第三方实时数据流；所述处理单元，被配置为对所述第三方实时数据流中的文本数据，采用虚拟数字人技术和知识图谱技术进行处理；所述广播单元，被配置为通过所述通讯端口，将所述第三方实时数据流中的视频流数据，广播至预先建立通讯连接的至少一个显示端；以及，所述广播单元，还被配置为通过所述通讯端口，将基于所述第三方实时数据流中的文本数据进行处理得到的虚拟数字人数据和智能媒体数据，广播至预先建立通讯连接的所述至少一个显示端。

在一些实施方式中，所述第三方实时数据流中的文本数据的输入形式，包括：语音形式和文本形式中的至少一种形式；所述服务端，对所述第三方实时数据流中的文本数据，采用虚拟数字人技术和知识图谱技术进行处理，包括：在所述第三方实时数据流中的文本数据的输入形式为语音形式的情况下，接收使用者上传的语音数据，再将所述语音数据转换为文本数据，作为所述第三方实时数据流中的文本数据；采用虚拟数字人技术，将所述第三方实时数据流中的文本数据，进行语音合成，进行情感判定，并生成虚拟数字人的行为数据，以利用所述虚拟数字人的行为数据，驱动显示端的虚拟AI角色模型按设定的AI演播场景进行显示；采用知识图谱技术，对所述第三方实时数据流中的文本数据进行语义识别和知识图谱数据库查询，返回查询结果，以在显示端以图、文、声、像中的至少一种展示形式展现所述查询结果。

在一些实施方式中，所述设定的AI演播场景，包括：虚拟实时演播场景、AI智能问答场景、视频内容生成场景中的任一场景。

在一些实施方式中，所述服务端，采用虚拟数字人技术，将所述第三方实时数据流中的文本数据，进行语音合成，包括：确定所述第三方实时数据流中的文本数据中的文本内容，按预先训练得到的统计模型，基于所述文本内容按时间顺序产生语音参数，再将所述语音参数转化为波形，得到由所述文本内容转化而来的语音内容，作为语音数据。

在一些实施方式中，所述服务端，采用虚拟数字人技术，将所述第三方实时数据流中的文本数据，进行情感判定，包括：确定所述第三方实时数据流中的文本数据中的文本内容，按预先训练得到的情感分析模型，对所述文本内容进行情感分析，以确定所述文本内容所表达的情感是正向情感还是负向情感，作为情感数据。

在一些实施方式中，所述服务端，采用虚拟数字人技术，将所述第三方实时数据流中的文本数据，进行语音合成，进行情感判定，生成虚拟数字人的行为数据，包括：将所述第三方实时数据流中的文本数据，进行语音合成得到语音数据，进行情感判定得到情感数据，进而，利用预先设置的虚拟数字人驱动模块，基于所述语音数据和情感数据中的至少之一，生成AI虚拟角色模型的肢体行为、口型、表情中的至少之一，作为虚拟数字人的行为数据。

在一些实施方式中，在所述虚拟数字人的行为数据中，无语音时AI虚拟角色模型的口型进入等待状态，有语音时AI虚拟角色模型的口型进入讲话状态，有正向情感和/或负向情感时AI虚拟角色模型的肢体行为和表情进入对应的肢体行为状态和表情状态。

在一些实施方式中，所述服务端，采用知识图谱技术，对所述第三方实时数据流中的文本数据进行语义识别和知识图谱数据库查询，包括：利用自然语言处理技术预先配置知识图谱，对所述第三方实时数据流中的文本数据进行语义解析和语义转化后，得到关键词；利用所述关键词查询所述知识图谱，以得到查询结果。

由此，本发明的方案，通过设置服务端，利用服务端接收第三方实时数据，对接收到的第三方实时数据中的视频数据进行广播，并对接收到的第三方实时数据中的文本数据采用虚拟数字人技术和知识图谱技术处理后再广播至客户端，实现对三维虚拟场景和三维虚拟AI形象角色的构建并在客户端显示，从而，通过采用虚拟数字人技术和知识图谱技术，构建三维虚拟场景和三维虚拟AI形象角色，降低了虚拟视频内容的制作难度和制作成本。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的AI演播室***的一实施例的流程示意图；

图2为本发明的AI演播室***中采用虚拟数字人技术和知识图谱技术进行处理的一实施例的流程示意图；

图3为虚拟实时演播的流程示意图；

图4为AI智能问答的流程示意图；

图5为视频内容生成的流程示意图；

图6为本发明的AI演播室***的组成结构示意图；

图7为本发明的AI演播室***的三方交互流程示意图；

图8为显示交互端的组成结构示意图；

图9为数据服务端的组成结构示意图；

图10为虚拟数字人的流程示意图；

图11为文本数据的渲染流程示意图；

图12为知识图谱的构建流程示意图；

图13为数据与本体之间的映射关系示意图；

图14为文本数据的抽取流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

AI(Artificial Intelligence，人工智能)演播室，是元宇宙技术的一项高科技应用。AI演播室，将基于数据层、AI层技术虚拟数字人技术、基于三维引擎的虚拟角色与场景实时渲染技术、基于AR(Augmented Reality，增强现实)/VR(Virtual Reality，虚拟现实)/MR(Mix reality，混合现实)的扩展现实技术、基于本体知识库与人工自然语言处理的知识图谱技术有机结合，实现虚拟场景中的可交互的AI虚拟数字人演播、问答、展示***。AI演播室的目的，是代替真人进行内容生产和交互，降低对真人、场地的需求，减少内容制作成本，为企业、单位提供虚拟直播、虚拟办公、AI问答、虚拟视频等服务。

考虑到，虚拟演播室***虽然具有诸多的优越性，但它由于价格昂贵，需要专业人员操作和专业设备，普及和推广有一定的难度。本发明提供一种AI演播室***，以相对于虚拟演播室***而言，减少专业人员操作事项，减少专业设备，并降低成本，以有利于普及和推广。

根据本发明的实施例，提供了一种AI演播室***，如图1所示本发明的AI演播室***的一实施例的结构示意图。该AI演播室***可以包括：服务端。所述服务端，具有第三方数据接口和通讯端口。使用者即用户使用所述AI演播室***时，可以登录客户端，自客户端登录该AI演播室***。该AI演播室***的执行流程如下：

其中，在步骤S110处，所述服务端，被配置为通过所述第三方数据接口，接收使用者上传的第三方实时数据流。所述第三方实时数据流，包括：视频流数据和文本数据。其中，视频流数据，是指利用数据流传播技术传播的多媒体数据。文本数据，是指不能参与算术运算的任何字符，也称为字符型数据，如英文字母、汉字、不作为数值使用的数字(以单引号开头)和其他可输入的字符。

在步骤S120处，所述服务端，被配置为通过所述通讯端口，将所述第三方实时数据流中的视频流数据，广播至预先建立通讯连接的至少一个显示端，以在所述至少一个显示端对所述第三方实时数据流中的视频流数据进行显示。当然，显示端，可以是通过客户端进行显示。

在步骤S130处，所述服务端，还被配置为对所述第三方实时数据流中的文本数据，采用虚拟数字人技术和知识图谱技术进行处理后，再通过所述通讯端口广播至所述至少一个显示端，以在所述至少一个显示端对基于所述第三方实时数据流中的文本数据进行处理得到的虚拟数字人和智能媒体进行显示。

其中，通过在所述至少一个显示端，对所述第三方实时数据流中的视频流数据的显示、以及基于所述第三方实时数据流中的文本数据进行处理得到的虚拟数字人和智能媒体的显示，实现对三维虚拟场景和三维虚拟AI形象角色的构建并在客户端显示。

图6为本发明的AI演播室***的组成结构示意图。如图6所示，本发明的方案提供的AI演播室***，包括：显示交互端、服务端、第三方数据端，三端(即显示交互端、服务端、第三方数据端)之间通过网络进行数据交互。

本发明的方案提供的AI演播室***，在相关方案中的虚拟演播室***的基础上，使用虚拟人(即虚拟数字人)技术和知识图谱技术，构建三维虚拟场景和三维虚拟AI形象角色，实现完全的虚拟数字环境，减去了拍摄设备、专业的拍摄人员以及真实的主持人或演员，进一步降低了视频内容制作难度以及人员成本。并且，本发明的方案提供的一种AI演播室***，支持多种设备平台联合使用，扩充了应用场景。多种设备平台联合使用。

例如：多种设备平台联合使用，可以是：使用一台计算机作为服务器，承载AI演播室的计算和数据服务；客户端开发为多个不同平台不同设备的客户端软件，如windows平台的客户端，安卓平台的客户端，各个VR设备的客户端，以在不同的设备上运行。通过与服务器端进行通信获取数据，在各个客户端进行显示和交互应用。

其中，虚拟数字人(即虚拟AI形象)，可分为交互型和非交互型。交互型就是具备类似于人的沟通和互动能力，能实时与人双向交流，可以用在客户服务、教育培训、营销导购等互动式场景，非交互型主要是指按照事先设定好的内容和情境单向输出内容。虚拟数字人的呈现形式，可分为真人形象、仿真和卡通类型。真人形象是2D为主、3D为辅，2D能做到对人的形象还原，3D真人要做到实时驱动唇形、动作、表情。

在一些实施方式中，所述服务端，包括：接收单元、处理单元和广播单元。

其中，所述接收单元，被配置为通过所述第三方数据接口，接收使用者上传的第三方实时数据流。

所述处理单元，被配置为对所述第三方实时数据流中的文本数据，采用虚拟数字人技术和知识图谱技术进行处理。

所述广播单元，被配置为通过所述通讯端口，将所述第三方实时数据流中的视频流数据，广播至预先建立通讯连接的至少一个显示端。以及，

所述广播单元，还被配置为通过所述通讯端口，将基于所述第三方实时数据流中的文本数据进行处理得到的虚拟数字人数据和智能媒体数据，广播至预先建立通讯连接的所述至少一个显示端。

图7为本发明的AI演播室***的三方交互流程示意图。如图7所示，本发明的方案提供的AI演播室***，划分为显示交互端、服务器端两个部分。显示交互端(即显示和交互端)用于数据显示和交互。服务器端主要为数据库存储和各类数据服务。

在一些实施方式中，所述第三方实时数据流中的文本数据的输入形式，包括：语音形式和文本形式中的至少一种形式。

所述服务端，对所述第三方实时数据流中的文本数据，采用虚拟数字人技术和知识图谱技术进行处理的具体过程，参见以下示例性说明。

下面结合图2所示本发明的AI演播室***中采用虚拟数字人技术和知识图谱技术进行处理的一实施例流程示意图，进一步说明步骤S120中采用虚拟数字人技术和知识图谱技术进行处理的具体过程，包括：步骤S210至步骤S230。

步骤S210，所述服务端，具体还被配置为在所述第三方实时数据流中的文本数据的输入形式为语音形式的情况下，接收使用者上传的语音数据，再将所述语音数据转换为文本数据，作为所述第三方实时数据流中的文本数据。当然，在所述第三方实时数据流中的文本数据的输入形式为文本形式的情况下，直接将文本形式的文本数据，作为所述第三方实时数据流中的文本数据。

步骤S220，所述服务端，具体还被配置为采用虚拟数字人技术，将所述第三方实时数据流中的文本数据，进行语音合成，进行情感判定，并生成虚拟数字人的行为数据，以利用所述虚拟数字人的行为数据，驱动显示端的虚拟AI角色模型按设定的AI演播场景进行显示。

步骤S230，所述服务端，具体还被配置为采用知识图谱技术，对所述第三方实时数据流中的文本数据进行语义识别和知识图谱数据库查询，返回查询结果，以在显示端以图、文、声、像中的至少一种展示形式展现所述查询结果。

图9为数据服务端的组成结构示意图。如图9所示，数据服务端，包括数据库模块，知识图谱模块，虚拟数字人处理模块，数据展示模块和数据更新模块。

其中，数据库模块是基础数据存储，包括三维虚拟环境库，知识图谱库和媒体资源库。

知识图谱模块包括语义分析部分和语义检索部分，语义分析的作用是将文本数据解析转化为计算机可识别的检索语言。语义检索是负责对知识图谱库和媒体资源库的知识进行检索计算，生成检索结果。

虚拟数字人处理模块主要包括语音识别、语音合成、情感分析和行为驱动部分。语音识别负责将输入的语音转换为文本数据。语音合成是负责将文本数据生成虚拟数字人的音频。情感分析负责对文本进行分析并活的正向或负向的情感数据。行为驱动将语音与情感数据进行混合，生成虚拟角色的实时口型、表情和肢体动作的行为数据。

第三方数据处理模块用于接入第三方***的文本、音频视频流等各类数据，并将其推送到显示端。

知识图谱模块通过对第三方数据或用户的的文本数据进行解析、检索查询，将结果数据以对应的显示形式(图、文、声、像)在显示端显示。

数据更新模块主要为知识抽取，即将新的结构化和非结构化数据抽取为知识图谱结构化数据，并实现相应的数据存储。

在一些实施方式中，其中，所述设定的AI演播场景，包括：虚拟实时演播场景、AI智能问答场景、视频内容生成场景中的任一场景。

下面结合附图，对本发明的方案在不同应用场景下的具体实现过程，进行示例性说明。

图3为虚拟实时演播的流程示意图。如图3所示，虚拟实时演播的流程，包括：

步骤11、用户登录各客户端(如PC/VR/AR等多平台)，进入本发明的AI演播室***，由于设备的不同其显示方式不同，但本发明的方案提供的AI演播室***中的各模块基本相同。本发明的AI演播室***提供第三方视频流数据的播放面板，提供虚拟环境及其内的虚拟AI形象(即虚拟数字人)，提供一个智能媒体显示面板用于显示从知识图谱库中查询到的图、文、声、像数据。

本发明的AI演播室***的服务端，通过数据接口接入第三方的实时数据流。第三方的实时数据流，可以包括视频流数据和文本数据。

其中，需要说明的是，在本发明的方案中，涉及到的第三方数据，都作为第三方实时数据流，其数据流主要包括视频流数据和文本数据。

步骤12、本发明的AI演播室***的服务端，通过数据接口接入的视频流数据，再通过服务端直接广播，以分发到各客户端用于第三方视频流数据的显示，即通过各客户端对第三方视频流数据进行显示。

步骤13、本发明的AI演播室***的服务端，通过数据接口接入的文本数据，经过虚拟数字人驱动模块完成语音合成、情感生成、以及行为(如口型、表情、肢体动作等)生成，并将语音合成、情感生成和行为生成后的数据，广播到各客户端，以利用语音合成、情感生成和行为生成后的数据驱动各客户端的三维虚拟AI形象完成相应动作。

步骤13、同时，服务器端的知识图谱模块，将文本数据解析、查询、计算结果，广播到各客户端，各客户端接收数据并按照数据类型动态显示图、文、声、像数据。

具体实施时，前期，可以结合自然语言处理技术，建立该应用场景下的文本标注数据集并通过神经网络训练数据模型实现对该应用场景的文本内容实体识别。应用时，文本数据通过自然语言处理技术完成文本中实体识别，并转化为知识图谱的标准查询语句，通过语句查询知识图谱库中的数据，并广播到各端。

图4为AI智能问答的流程示意图。如图4所示，在虚拟讲解、智能客服等场景，本发明的AI演播室***的AI智能问答流程，包括：

步骤21、用户登录各端(如PC/VR/AR多平台)，进入本发明的方案提供的AI演播室***，由于设备的不同其显示方式不同，但本发明的方案提供的AI演播室***中的各模块基本相同，提供虚拟环境及其内的虚拟AI形象(即虚拟数字人)，提供一个智能媒体显示面板用于显示从知识图谱库中查询到的图、文、声、像数据。

步骤22、用户通过语音实现问题输入，各端采集语音并返回到服务器端，服务器通过语音转文本将语音数据转化为文本数据。

其中，语音转文本(语音识别)，可以使用如科大讯飞、百度、阿里云等第三方服务。

语音转文本，本质上还是图像识别。简单来说，机器把声音变成图片(声音频谱图)，然后使用深度学习，对它进行识别(和对应的文本匹配)。

步骤23、知识图谱模块将文本数据识别语义，查询知识图谱数据库并返回结果，智能媒体展示以图、文、声、像的形式展现查询结果。

步骤24、虚拟数字人处理模块将文本内容，完成语音合成和情感判定，通过声音进一步生成虚拟数字人的口型、表情和肢体的行为数据，从而驱动客户端的虚拟AI角色模型进行语音讲解播报。

图5为视频内容生成的流程示意图。如图5所示，本发明的方案提供的AI演播室***的视频内容生成流程，包括：

步骤31、用户制作文案自动生成视频讲解内容，并录制为视频文件。

步骤32、用户登录各端(如PC/VR/AR多平台)，进入本发明的方案提供的AI演播室***，由于设备的不同其显示方式不同，但本发明的方案提供的AI演播室***中的各模块基本相同，提供虚拟环境及其内的虚拟AI形象(即虚拟数字人)，提供一个智能媒体显示面板用于显示从知识图谱库中查询到的图、文、声、像数据。

步骤33、用户将文案上传到客户端，客户端上传至服务端。

步骤34、知识图谱模块将文本数据识别语义，查询知识图谱数据库并返回结果，智能媒体展示以图、文、声、像的形式展现查询结果。

步骤35、虚拟数字人处理模块将文本内容，完成语音合成和情感判定，通过声音进一步生成虚拟数字人的口型、表情和肢体的行为数据，从而驱动客户端的虚拟AI角色模型进行语音讲解播报。

步骤36、通过录制功能生成各端适配的视频内容，包括普通视频和全景3D视频。

如图7所示，本发明的AI演播室***的方案提供的三方交互流程，包括：

第三方数据流通过数据接口的形式实现数据接入，用于获取第三方***中的实时文本数据、推送的视频数据或者其数据库中的数据。其数据主要文本类型和视频流类型。

其中的视频流经由服务端直接广播给各客户端。

其中的文本数据分别传递到服务端的虚拟数字人驱动部分和知识图谱部分，经处理之后，生成虚拟数字人的数据(语音、口型、表情、肢体)广播给客户端的虚拟数字人播报模块。形成智能媒体展示数据(图、文、声、像)广播给客户端的智能媒体展示模块。

在问答场景下，用户通过客户端语音输入，其语音数据上传至客户端，经客户端的语音转文本部分转换为文本数据，进入知识图谱模块，知识图谱模块查询计算的数据交由虚拟数字人驱动(文本数据)生成数据并驱动客户端虚拟数字人。其图文声像数据广播至客户端的智能媒体显示模块进行显示。

图8为显示交互端的组成结构示意图。如图8所示，显示交互端(多版本客户端程序)支持PC大屏、VR/AR等多平台设备。包括三维环境渲染模块、语音交互模块、虚拟数字人播报模块、智能媒体展示模块、第三方视频显示模块。

其中，三维环境渲染模块提供三维环境，完成虚拟环境的渲染显示，三维虚拟数字人的动态渲染显示。语音交互模块，提供用户语音输入功能。虚拟数字人播报模块提供AI数字虚拟人语音播报功能。提供第三方数据展示面板(视频流展示)，提供AI智能媒体展示面板(提供图、文、声、像的展示。)

在一些实施方式中，所述服务端，采用虚拟数字人技术，将所述第三方实时数据流中的文本数据，进行语音合成，包括：所述服务端，具体还被配置为确定所述第三方实时数据流中的文本数据中的文本内容，按预先训练得到的统计模型，基于所述文本内容按时间顺序产生语音参数，再将所述语音参数转化为波形，得到由所述文本内容转化而来的语音内容，作为语音数据。

其中，语音合成，具体是将文本数据中的文本内容转化，按文本含义转化为语音内容。具体的转化过程，可以是基于文本数据中的文本内容，根据统计模型来产生每时每刻的语音参数(包括基频、共振峰频率等)，然后把这些参数转化为波形，得到语音内容。

更具体地，利用统计模型，将文本内容转化为语音内容的过程，可以是：输入文本→分词→词性标注(名词动词等)→命名实体识别(即识别文本中具有特定意义的实体如人名、地名等)→韵律词预测→韵律短语预测→多音字消歧→字音转换→输出韵律文本→语音参数生成→参数合成器→合成语音。

当然，使用统计模型时，事先需要进行数据准备和模型训练，录制音频--标注韵律文本--训练发声模型。另外，也可以使用语音合成平台进行语音合成，语音合成对于一般的应用考虑使用第三方平台的语音合成服务，如可以采用科大讯飞发音人自训练平台进行语音合成。

在一些实施方式中，所述服务端，采用虚拟数字人技术，将所述第三方实时数据流中的文本数据，进行情感判定，包括：所述服务端，具体还被配置为确定所述第三方实时数据流中的文本数据中的文本内容，按预先训练得到的情感分析模型，对所述文本内容进行情感分析，以确定所述文本内容所表达的情感是正向情感还是负向情感，作为情感数据。其中，根据价值的正负变化方向的不同，情感可分为正向情感与负向情感。正向情感是人对正向价值的增加或负向价值的减少所产生的情感，如愉快、信任、感激、庆幸等。负向情感是人对正向价值的减少或负向价值的增加所产生的情感，如痛苦、鄙视、仇恨、嫉妒等。

其中，情感分析，可以使用情感分析模型，分析文本内容是正向还是负向情感。具体地，基于文本内容，可以经过输入文本→分词→词性标注→命名实体识别→情感判断，得到情感分析数据。

当然，情感分析模型可以预先训练得到，也可以也考虑使用第三方的情感分析模型，如飞桨的情感分析模型、科大讯飞的情感分析模型等。

在一些实施方式中，所述服务端，采用虚拟数字人技术，将所述第三方实时数据流中的文本数据，进行语音合成，进行情感判定，生成虚拟数字人的行为数据，包括：所述服务端，具体还被配置为将所述第三方实时数据流中的文本数据，进行语音合成得到语音数据，进行情感判定得到情感数据，进而，利用预先设置的虚拟数字人驱动模块，基于所述语音数据和情感数据中的至少之一，生成AI虚拟角色模型的肢体行为、口型、表情中的至少之一，作为虚拟数字人的行为数据。

其中，行为生成，具体可以是建立行为数据模型，通过语音数据及情感数据生成肢体行为、口型、表情。

其中，口型生成，具体可以是建立可视音素模型(如元音a，e，i，o，u等，辅音音素p、m、t、n、l、k、ts、s等)，每个可视音素绑定口型触发事件。应用时，利用可视音素模型，可以经过文本→解析为可视音素→转换为口型事件→广播至客户端，显示人物行为。当然，也可以考虑使用第三方工具，如微软azure的speech sdk，生成可视音素。

表情生成，具体可以是建立表情模型并绑定表情触发事件，应用时依据语音及情感状态触发相应表情事件。如随机表情、正向表情、负向表情。

肢体行为，具体可以是建立肢体行为触发事件，依据语音状态触发。如无语音时进入等待状态，有语音时的肢体状态，正向情感状态和负向情感状态。

需要说明的是，表情及肢体行为是预先穷举所有表情及动作，建立有限条件的状态机，依据口型、表情数据触发相应的状态，发送给客户端。

其中，各客户端内置三维虚拟AI形象模型(三维模型具有绑定好的口型、表情、肢体控制***以及预设的动作)，接收到服务器端的各项数据之后，实时解析并执行相应的动作。

也就是说，建立行为数据模型，通过语音数据及情感数据生成肢体行为、口型、表情，如无语音时人物进入等待的动作状态，有语音时人物进入讲话肢体状态，有正向、负向情感时人物进入表情、肢体状态。

图10为虚拟数字人的流程示意图，图11为文本数据的渲染流程示意图。如图10和图11所示，首先使用三维软件进行虚拟人形象建模，形成三维模型。然后对三维模型进行骨骼关键和表情、口型的绑定约束，使的三维模型可被数据驱动。之后配置虚拟人数据模型，包括音色配置、表情数据模型、口型数据模型和肢体动作模型，形成虚拟数字人。运行时通过语音合成功能合成角色声音，通过数据模型实时解析文本并驱动三维模型，渲染显示。

在一些实施方式中，所述服务端，采用知识图谱技术，对所述第三方实时数据流中的文本数据进行语义识别和知识图谱数据库查询，包括：所述服务端，具体还被配置为利用自然语言处理技术预先配置知识图谱，对所述第三方实时数据流中的文本数据进行语义解析和语义转化后，得到关键词。利用所述关键词查询所述知识图谱，以得到查询结果。

图12为知识图谱的构建流程示意图。如图12所示，知识图谱利用自然语言处理技术实现知识抽取，结合领域知识描述框架(本体)构建而成，是虚拟数字人的基础支撑，其主要包括以下几个步骤：

步骤41、本体设计。其中本体是一种对领域内知识的形式化的描述术语与术语见关系的概念模型。一般选择领域专家构建的方法。

步骤42、配置数据来源。

步骤43、知识抽取。知识抽取是对领域内数据的知识抽取方法，分为结构化、半结构化和非结构化数据类型。

对于结构化、半结构化数据，如数据库、表格，网页类型的数据，采用以下方法：通过直接映射或者映射工具、包装器等工具完成处理，将数据、知识导入到知识图谱中。

图13为数据与本体之间的映射关系示意图。如图13所示，对于非结构化数据，如纯文本。借助自然语言处理技术，通过定义、训练领域内数据的知识抽取模型，通过实体识别、关系抽取、事件抽取的方法，形成知识实例、关系和属性，存储到知识图谱中。

步骤44、质量控制，知识融合，知识推理，得到知识图谱。图14为文本数据的抽取流程示意图。如图14所示，将数据进行消歧、融合处理，形成有效的知识图谱数据。

本发明的方案提供的一种AI演播室***，采用的关键技术如三维建模技术、虚拟现实和增强现实技术、知识图谱技术、自然语言处理技术和数字虚拟人技术等，通过这些关键技术的使用，至少具有以下优势特性：

(1)降低技术门槛：将专业化的演播、拍摄生产流程，转换为虚拟化、自动化的流程，不再需要专业的拍摄技术人员、设备，降低了技术门槛。而虚拟演播室***，需要专业设备如实体摄像机、灯光、绿幕等设备，需要专业人员如摄影师、灯光师、化妆等人员。

(2)自主生产内容：用户仅需要制作文案，即可自主生产内容。

(3)替代真人服务，减少用人成本：采用虚拟数字人技术，通过建立三维虚拟AI形象，实现演播、拍摄服务，取代真实主持人，降低了内容制作的复杂度并减少人员。

(4)具备极强的代入感和沉浸感：集成了多种设备平台，可在VR/AR/MR设备中进行联合应用，结合VR/AR/MR设备具备沉浸感和真实感的特点，具备了虚拟现实、增强现实的沉浸感和真实感的特性。

(5)定制形象、场景：具备三维虚拟环境，可依据需求设计、定制虚拟AI形象、三维虚拟场景，具备更好的表现力和个性化需求。

(6)语义问答：通过知识图谱技术和自然语言处理技术，具备语义问答的能力。其中，知识图谱提供了知识库，自然语言处理技术实现语义理解。例如：用户问“我想查一下明天天气怎么样？”，自然语言处理技术能够识别到用户所问的一句话的关键信息如明天/天气/如何，并将识别到的关键信息转化为查询语句，查询语句去查询知识图谱库的数据，匹配数据或计算出结果并返回。

采用本实施例的技术方案，通过设置服务端，利用服务端接收第三方实时数据，对接收到的第三方实时数据中的视频数据进行广播，并对接收到的第三方实时数据中的文本数据采用虚拟数字人技术和知识图谱技术处理后再广播至客户端，实现对三维虚拟场景和三维虚拟AI形象角色的构建并在客户端显示，从而，通过采用虚拟数字人技术和知识图谱技术，构建三维虚拟场景和三维虚拟AI形象角色，降低了虚拟视频内容的制作难度和制作成本。

综上，本领域技术人员容易理解的是，在不冲突的前提下，上述各有利方式可以自由地组合、叠加。

以上所述仅为本发明的实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种AI演播室***，其特征在于，包括：服务端；所述服务端，具有第三方数据接口和通讯端口；其中，

所述服务端，被配置为通过所述第三方数据接口，接收使用者上传的第三方实时数据流；所述第三方实时数据流，包括：视频流数据和文本数据；

所述服务端，被配置为通过所述通讯端口，将所述第三方实时数据流中的视频流数据，广播至预先建立通讯连接的至少一个显示端，以在所述至少一个显示端对所述第三方实时数据流中的视频流数据进行显示；

所述服务端，还被配置为对所述第三方实时数据流中的文本数据，采用虚拟数字人技术和知识图谱技术进行处理后，再通过所述通讯端口广播至所述至少一个显示端，以在所述至少一个显示端对基于所述第三方实时数据流中的文本数据进行处理得到的虚拟数字人和智能媒体进行显示；

2.根据权利要求1所述的AI演播室***，其特征在于，所述服务端，包括：接收单元、处理单元和广播单元；其中，

所述接收单元，被配置为通过所述第三方数据接口，接收使用者上传的第三方实时数据流；

所述处理单元，被配置为对所述第三方实时数据流中的文本数据，采用虚拟数字人技术和知识图谱技术进行处理；

所述广播单元，被配置为通过所述通讯端口，将所述第三方实时数据流中的视频流数据，广播至预先建立通讯连接的至少一个显示端；以及，

3.根据权利要求1或2所述的AI演播室***，其特征在于，所述第三方实时数据流中的文本数据的输入形式，包括：语音形式和文本形式中的至少一种形式；

所述服务端，对所述第三方实时数据流中的文本数据，采用虚拟数字人技术和知识图谱技术进行处理，包括：

在所述第三方实时数据流中的文本数据的输入形式为语音形式的情况下，接收使用者上传的语音数据，再将所述语音数据转换为文本数据，作为所述第三方实时数据流中的文本数据；

采用虚拟数字人技术，将所述第三方实时数据流中的文本数据，进行语音合成，进行情感判定，并生成虚拟数字人的行为数据，以利用所述虚拟数字人的行为数据，驱动显示端的虚拟AI角色模型按设定的AI演播场景进行显示；

采用知识图谱技术，对所述第三方实时数据流中的文本数据进行语义识别和知识图谱数据库查询，返回查询结果，以在显示端以图、文、声、像中的至少一种展示形式展现所述查询结果。

4.根据权利要求3所述的AI演播室***，其特征在于，其中，所述设定的AI演播场景，包括：虚拟实时演播场景、AI智能问答场景、视频内容生成场景中的任一场景。

5.根据权利要求3所述的AI演播室***，其特征在于，所述服务端，采用虚拟数字人技术，将所述第三方实时数据流中的文本数据，进行语音合成，包括：

确定所述第三方实时数据流中的文本数据中的文本内容，按预先训练得到的统计模型，基于所述文本内容按时间顺序产生语音参数，再将所述语音参数转化为波形，得到由所述文本内容转化而来的语音内容，作为语音数据。

6.根据权利要求3所述的AI演播室***，其特征在于，所述服务端，采用虚拟数字人技术，将所述第三方实时数据流中的文本数据，进行情感判定，包括：

确定所述第三方实时数据流中的文本数据中的文本内容，按预先训练得到的情感分析模型，对所述文本内容进行情感分析，以确定所述文本内容所表达的情感是正向情感还是负向情感，作为情感数据。

7.根据权利要求3所述的AI演播室***，其特征在于，所述服务端，采用虚拟数字人技术，将所述第三方实时数据流中的文本数据，进行语音合成，进行情感判定，生成虚拟数字人的行为数据，包括：

将所述第三方实时数据流中的文本数据，进行语音合成得到语音数据，进行情感判定得到情感数据，进而，利用预先设置的虚拟数字人驱动模块，基于所述语音数据和情感数据中的至少之一，生成AI虚拟角色模型的肢体行为、口型、表情中的至少之一，作为虚拟数字人的行为数据。

8.根据权利要求7所述的AI演播室***，其特征在于，其中，在所述虚拟数字人的行为数据中，无语音时AI虚拟角色模型的口型进入等待状态，有语音时AI虚拟角色模型的口型进入讲话状态，有正向情感和/或负向情感时AI虚拟角色模型的肢体行为和表情进入对应的肢体行为状态和表情状态。

9.根据权利要求3所述的AI演播室***，其特征在于，所述服务端，采用知识图谱技术，对所述第三方实时数据流中的文本数据进行语义识别和知识图谱数据库查询，包括：

利用自然语言处理技术预先配置知识图谱，对所述第三方实时数据流中的文本数据进行语义解析和语义转化后，得到关键词；利用所述关键词查询所述知识图谱，以得到查询结果。