CN113742473A

CN113742473A - 一种数字虚拟人交互***及其计算传输优化方法

Info

Publication number: CN113742473A
Application number: CN202111091529.5A
Authority: CN
Inventors: 曹文浩
Original assignee: Hangzhou Yizhi Intelligent Technology Co ltd
Current assignee: Hangzhou Yizhi Intelligent Technology Co ltd
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2021-12-03

Abstract

本发明提出了一种数字虚拟人交互***及其计算传输优化方法，属于音视频传输技术领域。包括：可视化大屏，其用于展示虚拟人形象以及图表、文字数据；RTSP服务器集群，用于为可视化大屏提供音视频媒体流；代理服务器，其连接在可视化大屏与RTSP服务器集群之间，用于转发RTSP服务器生成的实时音视频媒体流，以及用于提供自身存储的本地音视频媒体流至可视化大屏；用户客户端，其用于连接可视化大屏并实现与可视化大屏中虚拟人的交互。本发明在RTSP服务端和可视化大屏之间增加了代理，可以实时***体流的传输，有助于对可视化大屏进行管理，优化了音视频流的传输方式。

Description

一种数字虚拟人交互***及其计算传输优化方法

技术领域

本发明涉及音视频传输技术领域，具体涉及一种数字虚拟人交互***及其计算传输优化方法。

背景技术

随着企业数据的海量积累，大屏数据可视化需求正在逐步扩大：监控中心、指挥调度中心需要依据实时数据快速做出决策；公司展厅、展览中心需要数据展示平台；电商类企业在大促活动时，通过对外公布实时销售数据作为广告手段；演示场景如会议厅、演播厅、购物中心、车站、机场需要通过大屏进行信息展示、宣传广告等。

实时流传输协议(RTSP)是TCP/IP协议族中的一种应用层协议，该协议位于实时传输协议(RTP)和实时传输控制协议(RTCP)之上，RTSP协议定义了一些控制行为，包括OPTIONS、DESCRIBE、SETUP、TEARDOWN、PLAY、PAUSE、SCALE、GET_PARAMETER。

基于实时流传输协议(RTSP)进行RTSP服务端与大屏之间的数据传输的技术日渐成熟，但当前可视化数据大屏可交互性差，浪费RTSP服务端资源，这是由于当前可视化大屏端拉取RTSP流无法进行流的中间处理，在集群环境下，可视化大屏端也无法进行有效的负载均衡，并且在无用户使用时，可视化大屏端需要一直占用RTSP连接，不能充分利用RTSP服务端资源。

发明内容

为了解决上述技术问题，本发明提出了一种数字虚拟人交互***及其计算传输优化方法，在RTSP服务器和可视化大屏端之间设置实时流协议代理服务器，其具有负载均衡和媒体流代理转发的功能，并且支持在可视化大屏端无用户使用时播放本地音视频数据。

为了实现上述目的，本发明采用的技术方案如下：

本发明的其中一个目的是提供一种数字虚拟人交互***，包括：

可视化大屏，其用于展示虚拟人形象以及图表、文字数据；所述的图表、文字数据根据虚拟人形象的表达内容进行匹配更新；

RTSP服务器集群，其由若干RTSP服务器构成，用于为可视化大屏提供音视频媒体流，所述的音视频媒体流包括用于驱动虚拟人形象的肢体、五官动作视频和相对应的音频；

代理服务器，其连接在可视化大屏与RTSP服务器集群之间，用于转发RTSP服务器生成的实时音视频媒体流，以及用于提供自身存储的本地音视频媒体流至可视化大屏；所述的代理服务器实时监督可视化大屏的交互状态，当可视化大屏处于交互状态时，利用负载均衡器从RTSP服务器集群中选中并连接一台RTSP服务器；当可视化大屏处于非交互状态时，断开与RTSP服务器的连接，利用可视化大屏播放代理服务器中存储的本地音视频媒体并展示相对应的图表、文字数据；

用户客户端，其用于连接可视化大屏并实现与可视化大屏中虚拟人的交互。

进一步的，所述的RTSP服务器集群中还包括：

语音收集模块，其用于获取用户提问的语音音频；

文本转换模块，其用于将用户的语音音频转换为文字语句；

意图识别模块，其用于根据意图识别模型获取文字语句所对应的意图；

对话知识库，其存储有不同意图的问题所对应的答案，用于接收识别到的意图并输出最佳答案；

TTS模块，其用于将对话知识库输出的答案转换为音频；

虚拟人动作合成模块，其用于根据答案对应的音频数据拟合虚拟人的肢体动作和五官动作，生成与音频内容相匹配的虚拟人形象视频。

进一步的，所述的RTSP服务器集群连接外部资源数据库，当对话知识库输出答案的同时，从外部资源数据库中获取对应该答案的图表、文字数据，与音频和视频一同输出至可视化大屏进行展示。

本发明的另一个目的是提供一种上述数字虚拟人交互***的计算传输优化方法，包括以下步骤：

步骤一：用户客户端连接可视化大屏，请求与可视化大屏进行交互，并利用客户端自身的麦克风收集用户提问的语音音频；

步骤二：代理服务器监督到可视化大屏处于交互状态，利用负载均衡器从RTSP服务器集群中选择其中一台RTSP服务器进行连接，将用户提问的语音音频传输至语音收集模块，再经文本转换模块得到用户提问的文字语句；将文字语句作为意图识别模块的输入，根据意图识别结果从对话知识库中检索到最佳答案，并获取最佳答案对应的图表和/或文字数据；

之后，利用TTS模块实现文字到语音的转换，以及利用虚拟人动作合成模块拟合虚拟人的肢体动作和五官动作，生成与音频内容相匹配的虚拟人形象视频；

步骤三：代理服务器将音视频流、以及图表和/或文字数据传回可视化大屏，驱动虚拟人形象进行表达，同时展示对应的表达内容。

与现有技术相比，本发明的优势在于：本发明在RTSP服务器集群和可视化大屏端之间设置实时流协议代理服务器，其具有负载均衡和媒体流代理转发的功能，并且支持在可视化大屏端无用户使用时播放本地音视频数据，能够实时***体流的传输，减少了RTSP服务端与可视化大屏端之间不必要的连接，提高了资源利用率，增强了对可视化大屏的管理。此外，RTSP服务器集群的设计提供了高可拓展性和容错能力，由于***采用了集群模式部署，可以通过真实需求进行服务器的增减，当集群中的某个节点宕机后不会影响整个RTSP服务，避免了单节点部署方式下一旦节点宕机整个服务不可用的情况。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据一示例性实施例示出的本发明的数字虚拟人交互***示意图；

图2是根据一示例性实施例示出的本发明中音视频流传输方式示意图；

图3是根据一示例性实施例示出的本发明中计算传输优化方法的流程图；

图4是根据一示例性实施例示出的本发明中整体交互过程的数据处理流程示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明提出的一种数字虚拟人交互***，包括：

在本实施例中，RTSP服务器集群中由若干RTSP服务器组成，各个服务器均可以实现相同的功能，若干个可视化大屏共享一个RTSP服务器集群。每一个服务器中设有：

语音收集模块，其用于获取用户提问的语音音频；

文本转换模块，其用于将用户的语音音频转换为文字语句；

意图识别模块，其用于根据意图识别模型获取文字语句所对应的意图，例如深度学习算法Bi-LSTM-CRF、基于attention-based RNN等已有报道的技术均能够实现该功能；

TTS模块，其用于将对话知识库输出的答案转换为音频；TTS深度学习模型TACOTRON是一个端到端的TTS模型，模型核心是seq2seq+attention，根据输入的一系列文本字向量生成对应音频。

围绕大数据领域下的社会数字化、一体化、现代化，将大屏数据可视化与人工智能技术结合，通过人工智能技术，辅助人类查找，剖析数据，增强大屏的人机协作能力，是一种新型的创新和尝试。可视化大屏的功能可以在本实施例示出的基础上进行拓展，例如，可视化大屏上除了布置虚拟人形象之外，还可以提供UI界面由于直观展示相关的图表、文字数据。可以通过将RTSP服务器集群连接外部资源数据库实现，当对话知识库输出答案的同时，从外部资源数据库中获取对应该答案的图表、文字数据，与音频和视频一同输出至可视化大屏进行展示。

例如，针对一种布置在AI示范化工业园区的数字虚拟人交互***，可将多个可视化大屏安装在园区的不同位置。当用户连接某一大屏并提问：“A接待处如何走”？通过代理服务器连接其中一台RTSP服务器并获取到答案后，由虚拟人形象播报路线，并调取外部资源库将园区地图直观的展示在大屏UII界面上，在地图上标注大屏位置以及目的地A接待处位置，并给出路线指引及文字说明。该示例中的地图、路线、文字说明等就是从外部资源数据库中获取到的对应该答案的图表、文字数据。

获取用户提问的语音方式有多种，可以直接通过用户客户端上的麦克风进行收集。例如，可以直接将用户的手机作为用户客户端，利用手机自带的麦克风录制问题语音。在需要与大屏进行交互时，每一个用户客户端只能连接一台可视化大屏，本实施例中，可以通过小程序或APP扫描可视化大屏上的二维码，实现用户客户端与可视化大屏的连接。客户端上也可以实时同步可视化大屏上展示的图表、文字数据，方便用户查阅。

数字虚拟人形象的合成技术，可以根据文本内容(答案对应的文本)，合成同步的唇齿及其它语意相关的人物动作。例如，结合语音合成模型、ASR技术、WebSocketjishu、TTS模型、视频生成模型等的现有成果，在人说话的任意近景视频集合上进行训练，实时生成虚拟人读随机文本的序列帧，且口型完全对照，表情逼真。

以图4为例，微信扫码后通过小程序连接，将手机变成麦克风收音设备，将音频传递给ASR，ASR负责将音频设备采集的语音转换为文字内容，再由NLP对文字内容进行处理，理解文字所表达的意图，并从知识库中找到意图对应的回复答案，最后将答案文本传递给TTS，并同步给到虚拟人，合成最终的音频及视频流返回给可视化大屏，由可视化大屏进行渲染播放。

现有的语音合成技术日趋成熟，在智能语音对话机器人中，采用VAD(语音活动检测)算法，结合VAD+ASR能够实现毫秒级打断式回复：机器人说话过程中，用户可以随时打断咨询，机器人能够实时识别并快速响应，提高用户体验；实现语音准确转换为文本，并且能正确处理多音字异读、方言异读等例外情况。转换时间非常实时，线程数小于等于CPU物理核数时，实时率在200ms左右，人机沟通交流通畅。

意图识别模块与对话知识库在实现其功能时，能够针对具体的业务领域对话，结合上下文进行对话的生成或检索，并结合言外行为、当前语境的主题，利用深度学习对上下文语义进行建模，最后对待选答案根据语境进行排序，选取出最适合当前语境的答案作为回复内容。

由于当前可视化大屏端拉取RTSP流无法进行流的中间处理，在集群环境下，可视化大屏端也无法进行有效的负载均衡，并且在无用户使用时，可视化大屏端需要一直占用RTSP连接，不能充分利用RTSP服务端资源。本发明引入的代理服务器将源RTSP音视频媒体流通过代理服务器进行转发，并通过代理服务器***体流播放的暂停与进行，并且通过代理服务器可以对可视化大屏状态进行监控，如：大屏连接时间、大屏断开连接时间、连接的客户端数量等，以此可以对大屏进行更好的管理。除此之外，由于在没有用户使用时也需要播放音视频，但如果一直维持RTSP服务器与客户端之间的连接，则会造成资源的浪费，因此代理服务器支持播放默认的静态视频，在有用户使用时才真正切换到与RTSP服务器的连接上去，以此可以做到服务端和客户端的关系为多比一，而不是一比一。

基于此，本实施例中还提供了一种数字虚拟人交互***的计算传输优化方法，其核心在于：在没有用户客户端连接可视化大屏时，代理服务器传输默认的音视频流给可视化大屏，可视化大屏进行渲染播放；当用户开始使用可视化大屏时，代理服务器从RTSP服务集群中获取答案对应的媒体流，然后转发给可视化大屏进行渲染播放。

如图2和图3所示，计算传输优化方法的实施包括以下步骤：

步骤一：用户客户端连接可视化大屏，请求与可视化大屏进行交互，并利用客户端自身的麦克风收集用户提问的语音音频。

当连接的RTSP服务器宕机后，立即利用负载均衡器从RTSP服务器集群中选择其中另一台RTSP服务器进行切换。

在本发明的一项具体实施中，当用户客户端未连接可视化大屏时，代理服务器监督到可视化大屏处于非交互状态，此时代理服务器将本地的音视频流及对应的图表和/或文字数据的RTSP URL地址返回给可视化大屏，可视化大屏通过RTSP URL地址获取本地资源进行播放。在进行实时媒体流播放时，通过代理服务器获取实时媒体流，同样采用提供RTSPURL地址的方式返回给可视化大屏。

通过上述方法，能够将RTSP服务端对大屏端隐藏，在集群模式下，大屏端不需要关心自己连接的具体是哪一台服务器，只需要向代理服务器中的负载均衡器申请一个RTSP资源，再由代理服务器中的负载均衡器根据一定算法从RTSP集群中申请一个RTSP资源并将其资源返回，可支持的负载均衡算法包括随机法、轮询法、源地址哈希法等。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，也可通过其它的方式实现。以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数字虚拟人交互***，其特征在于，包括：

2.根据权利要求1所述的数字虚拟人交互***，其特征在于，所述的RTSP服务器集群中还包括：

语音收集模块，其用于获取用户提问的语音音频；

文本转换模块，其用于将用户的语音音频转换为文字语句；

TTS模块，其用于将对话知识库输出的答案转换为音频；

3.根据权利要求2所述的数字虚拟人交互***，其特征在于，所述的RTSP服务器集群连接外部资源数据库，当对话知识库输出答案的同时，从外部资源数据库中获取对应该答案的图表、文字数据，与音频和视频一同输出至可视化大屏进行展示。

4.根据权利要求2所述的数字虚拟人交互***，其特征在于，所述的用户提问的语音音频通过用户客户端上的麦克风收集。

5.根据权利要求1所述的数字虚拟人交互***，其特征在于，所述的用户客户端通过小程序或APP扫描可视化大屏上的二维码，实现用户客户端与可视化大屏的连接。

6.根据权利要求5所述的数字虚拟人交互***，其特征在于，所述的客户端上实时同步可视化大屏上展示的图表、文字数据。

7.一种基于权利要求3所述的数字虚拟人交互***的计算传输优化方法，其特征在于，包括以下步骤：

8.根据权利要求7所述的数字虚拟人交互***的计算传输优化方法，其特征在于，当用户客户端未连接可视化大屏时，代理服务器监督到可视化大屏处于非交互状态，此时代理服务器将本地的音视频流及对应的图表和/或文字数据的RTSP URL地址返回给可视化大屏，可视化大屏通过RTSP URL地址获取本地资源进行播放。

9.根据权利要求7所述的数字虚拟人交互***的计算传输优化方法，其特征在于，若干个可视化大屏共享一个RTSP服务器集群。

10.根据权利要求7所述的数字虚拟人交互***的计算传输优化方法，其特征在于，当步骤二中连接的RTSP服务器宕机后，立即利用负载均衡器从RTSP服务器集群中选择其中另一台RTSP服务器进行切换。