CN111405234A

CN111405234A - 一种云端和边缘计算融合的视频会议信息***和方法

Info

Publication number: CN111405234A
Application number: CN202010304820.5A
Authority: CN
Inventors: 徐佳辉; 万小贞; 万志强
Original assignee: Hangzhou Dayi Technology Co ltd
Current assignee: Hangzhou Dayi Technology Co ltd
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2020-07-10

Abstract

本发明提供了一种云端和边缘计算融合的视频会议信息***和方法，***包括云端服务器和多个用户终端，每个用户终端均包括功能增强模块和网络检测模块；用户终端用于获取当前用户的会议场景音视频，网络检测模块用于实时监测并判断网络状态，功能增强模块用于对会议场景音视频进行功能增强；云端服务器用于根据相应用户终端上传的会议场景音视频建立和训练相应的云端会议场景模型，并将计算处理后的会议场景音视频分别传输给视频会议其他用户终端。通过该***和方法，可以根据实时网络环境决定会议场景构建和功能增强的执行主体是云端节点或边缘节点，具有视频会议连接稳定、音视频会议场景高质流畅、语音保真还原和环境噪音小等优点。

Description

一种云端和边缘计算融合的视频会议信息***和方法

技术领域

本发明涉及云计算、边缘计算和通信技术领域，具体涉及一种云端和边缘计算融合的视频会议信息***和方法。

背景技术

视频会议，是指两个或两个以上不同地方的个人或群体，通过传输线路及多媒体设备，将声音、影像及文件资料互传，实现即时且互动的沟通。视频会议的使用类似电话，除了能看到与你通话的人并进行语言交流外，还能看到他们的表情和动作，使处于不同地方的人就像在同一会议室内沟通。随着视频会议***的广泛使用，在基本的多方语音和视频相互传输的基础上，增加集成了越来越多的功能，比如影像画质增强、语音音质增强和环境噪声去除等等，从而来增强视频会议的会议效果，方便了工作交流。

视频会议时通信质量很重要，会受通信网络环境较大的影响，目前，视频会议***存在以下不足：1、当下大部分的视频会议都是以智能手机等移动设备作为会议终端，然后通过移动互联网作为传输途径，不同的区域或空间移动网络的信号差距会很大，比如，用wifi网络时距路由器越近信号越好，在车库、地铁站和电梯等封闭空间移动网络信号很差，这些因素会导致移动网络出现网速不稳定和视频连接不稳定，从而影响频会议效果。2、视频会议时，影像画质增强、语音音质增强和环境噪声去除等功能会增大移动网络的数据传输量，从而带来更长的网络延迟，当网络环境不好的时候上述功能会出现被迫关闭、加剧视频会议的卡顿或中断等现象。

发明内容

针对现有技术存在的上述不足，本发明的目的在于：提供一种云端和边缘计算融合的视频会议信息***和方法，以视频会议的用户终端作为边缘节点、以云端服务器作为云端节点，二者融合计算来实现视频会议的音视频会议场景构建以及各种功能增强，可以根据实时网络环境决定会议场景构建和功能增强的执行主体是云端节点或边缘节点，具有视频会议连接稳定、音视频会议场景高质流畅、语音保真还原和环境噪音小等优点。

一种云端和边缘计算融合的视频会议信息***，包括云端服务器和多个用户终端，每个用户终端均包括功能增强模块和网络检测模块；用户终端用于获取当前用户的会议场景音视频，展示视频会议其他用户的会议场景音视频；网络检测模块用于实时监测并判断网络状态，功能增强模块用于对会议场景音视频进行功能增强；云端服务器用于根据相应用户终端上传的会议场景音视频建立和实时训练相应的云端会议场景模型，该云端会议场景模型和相应的视频会议用户拟合，并将计算处理后的会议场景音视频分别传输给视频会议其他用户终端。

进一步地，所述功能增强模块用于对会议场景音视频进行功能增强，包括提取人脸ROI特征进行人脸检测、人脸美颜增强、画质增强、提取画面前景区域ROI特征检测进行背景模糊化、语音增强、语音保真还原和环境噪声去除。

进一步地，根据每个用户终端上传的会议场景音视频的数据量，来判断对应的云端会议场景模型对网络状态的容忍度；当用户终端上传的会议场景音视频的数据量小于预设阈值，对应的云端会议场景模型和该用户的拟合度低，则判断对应的云端会议场景模型对网络状态的容忍度高，采用功能增强模块对当前用户的会议场景音视频进行功能增强；当用户终端上传的会议场景音视频的数据量大于预设阈值，对应的云端会议场景模型和该用户的拟合度高，则判断对应的云端会议场景模型对网络状态的容忍度低，采用当前用户的基础数据融合计算虚拟完整的会议场景音视频。

进一步地，当网络状态恶劣时，用户终端将当前用户的会议基础数据信息上传到到云端服务器，对应用户的云端会议场景模型停止训练，所述用户终端根据该用户终端采集的会议场景音视频建立和训练对应的用户端会议场景模型；当网络状态恢复良好时，对应的云端会议场景模型继续训练，用户端会议场景模型将当前用户的模型训练数据同步到对应的云端会议场景模型。

进一步地，所述网络检测模块根据数据包的丢包率、数据包发送后的反馈时延来判断当前的网络状态。

一种云端和边缘计算融合的视频会议信息方法，包括以下步骤：

S1：通过用户终端获取当前用户的会议场景音视频，展示视频会议其他用户的会议场景音视频；

S2：采用功能增强模块对会议场景音视频进行功能增强，并将增强后的会议场景音视频上传到到云端服务器；云端服务器根据相应用户终端上传的会议场景音视频建立和实时训练相应的云端会议场景模型，该云端会议场景模型和相应的视频会议用户拟合；

S3：采用网络检测模块实时监测网络状态，并实时判断网络状态是否良好；若是，则执行步骤S4，若否，则执行步骤S5；

S4：采用功能增强模块对当前用户的会议场景音视频进行功能增强，并将增强后的会议场景音视频上传到到云端服务器；云端服务器将增强后的会议场景音视频分别传输给视频会议其他用户终端；

S5：用户终端将当前用户的会议基础数据信息上传到到云端服务器，相应的云端会议场景模型根据该用户的基础数据融合计算虚拟完整的会议场景音视频；云端服务器将虚拟完整的会议场景音视频分别传输给视频会议其他用户终端。

进一步地，所述采用功能增强模块对会议场景音视频进行功能增强，包括提取人脸ROI特征进行人脸检测、人脸美颜增强、画质增强、提取画面前景区域ROI特征检测进行背景模糊化、语音增强、语音保真还原和环境噪声去除。

相比于现有技术，本发明具有以下优点：

本发明提供了一种云端和边缘计算融合的视频会议信息***和方法，以视频会议的用户终端作为边缘节点，以视频会议的云端服务器作为云端节点；在云端服务器为每个参加视频会议的用户建立和训练一一对应的云端会议场景模型；当网络状态良好时，采用边缘增强模式，然后将增强后的会议场景音视频分别传输给视频会议其他用户终端；当网络状态不佳时，采用云端和边缘融合计算模式，然后将虚拟完整的会议场景音视频分别传输给视频会议其他用户终端。可以根据实时网络环境决定会议场景构建和功能增强的执行主体是云端节点或边缘节点，具有视频会议连接稳定、音视频会议场景高质流畅、语音保真还原和环境噪音小等优点。

附图说明

图1为本发明实施例一中云端和边缘计算融合的视频会议信息***的***框架图；

图2为本发明实施例二中云端和边缘计算融合的视频会议信息方法的流程图；

图3为本发明实施例一或实施例二中功能增强模块的框图；

图4为本发明实施例一或实施例二中会议场景模型和用户拟合度的判断流程图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只是作为示例，而不能以此来限制本发明的保护范围。

实施例一：

参照图1，一种云端和边缘计算融合的视频会议信息***，包括云端服务器和多个用户终端，每个用户终端均包括功能增强模块和网络检测模块；用户终端用于获取当前用户的会议场景音视频，展示视频会议其他用户的会议场景音视频；网络检测模块用于实时监测并判断网络状态，功能增强模块用于对会议场景音视频进行功能增强；云端服务器用于根据相应用户终端上传的会议场景音视频建立和训练相应的云端会议场景模型，该云端会议场景模型和相应的视频会议用户拟合，并将计算处理后的会议场景音视频分别传输给视频会议其他用户终端。具体地，用户终端可以是智能手机等移动设备，也可以是台式电脑、笔记本电脑或ipad等等；当前用户的会议场景音视频包括在视频会议过程中通过用户终端拍摄和录制的当前用户的视频信息和音频信息；网络检测模块可以实时监测每个用户终端的网络状态，并根据视频会议数据传输时数据包的丢包率、数据包发送后的反馈时延来判断当前的网络状态。参照图3，采用功能增强模块对会议场景音视频进行功能增强，包括提取人脸ROI特征进行人脸检测、人脸美颜增强、画质增强、提取画面前景区域ROI特征检测进行背景模糊化、语音增强、语音保真还原和环境噪声去除。在云端服务器为每个参加视频会议的用户建立一一对应的云端会议场景模型，并采用每个用户终端上传的多个会议场景音视频来实时训练模型。

上述视频会议信息***中，云端会议场景模型包括人物模型、前景模型和去噪语音模型，人物模型训练方法为：从用户终端上传的视频信息中对参加视频会议的用户进行人脸识别、表情分析和姿态分析等，然后构建和训练该用户的人物模型，并将模型数据存入云端服务器。前景模型训练方法为：从用户终端上传的视频信息帧中提取前景帧，采用多个前景帧构建和训练该用户的前景模型，并将模型数据存入云端服务器。去噪语音模型训练方法为：对用户终端上传的音频信息进行识别分析，将参会用户的音频和会议场景的音频区分开，并将模型数据存入云端服务器，根据参会用户的音频实时更新去噪语音模型；优选地，还可以将参会用户的音频作为加权参数来修正用户的表情数据。

上述视频会议信息***中，当网络检测模块监测到网络状态良好时，采用功能增强模块对当前用户的会议场景音视频进行功能增强，并将增强后的会议场景音视频上传到到云端服务器；云端服务器将增强后的会议场景音视频分别传输给视频会议其他用户终端。当网络检测模块监测到网络状态差时，此时，不再对会议场景音视频进行功能增强处理，用户终端只将当前用户的会议基础数据信息上传到到云端服务器，然后实施云端和边缘融合计算，将该用户的基础数据代入该用户对应的云端会议场景模型，融合计算虚拟完整的会议场景音视频；云端服务器将虚拟完整的会议场景音视频分别传输给视频会议其他用户终端。具体地，会议基础数据信息主要指语音信息，还可以是对用户身体区域或人脸区域进行提取和降采样之后的缩略图像信息。当网络检测模块监测到网络状态从差恢复到良好时，则从云端和边缘融合计算模式的会议场景音视频生成，恢复为边缘化的会议场景音视频生成。

参照图4，上述视频会议信息***中，每个云端会议场景模型的构建和训练都需要对应用户终端上传一定数量的会议场景音视频，数据量越充分，则训练得到的模型和该用户的拟合效果越好。因此，视频会议开始后，可以根据每个用户终端上传的会议场景音视频的数据量，来判断对应的云端会议场景模型对网络状态的容忍度。当用户终端上传的会议场景音视频的数据量较少的情况下，小于预设阈值，对应的云端会议场景模型和该用户的拟合度低，则判断对应的云端会议场景模型对网络状态的容忍度高，则更多采用边缘增强的模式，即采用功能增强模块对当前用户的会议场景音视频进行功能增强；随着用户上传的会议场景音视频的数据量增多，大于预设阈值，对应的云端会议场景模型和该用户的拟合度高，则判断对应的云端会议场景模型对网络状态的容忍度低，则更多采用云端和边缘融合的计算模式，即采用当前用户的基础数据融合计算虚拟完整的会议场景音视频。具体地，根据云端会议场景模型和用户的拟合度来反推预设阈值的具体数值。

具体实施时，当网络状态不佳的情况下，用户终端只能上传该用户的会议基础数据，此时无法对相应的云端会议场景模型进行训练；或者，当用户由于一些原因，例如驾车、跑步等，不便于直接参加视频会议的时候；此时，可以在用户终端为该用户建立一个用户端会议场景模型，用户终端根据该用户终端采集的会议场景音视频建立和训练对应的用户端会议场景模型；当网络状态恢复良好时，对应的云端会议场景模型继续训练，用户端会议场景模型将当前用户的模型训练数据同步到对应的云端会议场景模型。

上述视频会议信息***，以视频会议的用户终端作为边缘节点，以视频会议的云端服务器作为云端节点，二者融合计算来实现视频会议的音视频会议场景构建以及各种功能增强，可以根据实时网络环境决定会议场景构建和功能增强的执行主体是云端节点或边缘节点，具有视频会议连接稳定、音视频会议场景高质流畅、语音保真还原和环境噪音小等优点。

实施例二：

参照图2，一种云端和边缘计算融合的视频会议信息方法，包括以下步骤：

S2：采用功能增强模块对会议场景音视频进行功能增强，并将增强后的会议场景音视频上传到到云端服务器；云端服务器根据相应用户终端上传的会议场景音视频建立和训练相应的云端会议场景模型，该云端会议场景模型和相应的视频会议用户拟合；

具体地，用户终端可以是智能手机等移动设备，也可以是台式电脑、笔记本电脑或ipad等等；当前用户的会议场景音视频包括在视频会议过程中通过用户终端拍摄和录制的当前用户的视频信息和音频信息；网络检测模块可以实时监测每个用户终端的网络状态，并根据视频会议数据传输时数据包的丢包率、数据包发送后的反馈时延来判断当前的网络状态。参照图3，采用功能增强模块对会议场景音视频进行功能增强，包括提取人脸ROI特征进行人脸检测、人脸美颜增强、画质增强、提取画面前景区域ROI特征检测进行背景模糊化、语音增强、语音保真还原和环境噪声去除。在云端服务器为每个参加视频会议的用户建立一一对应的云端会议场景模型，并采用每个用户终端上传的多个会议场景音视频来实时训练模型。

上述视频会议信息方法中，云端会议场景模型包括人物模型、前景模型和去噪语音模型，人物模型训练方法为：从用户终端上传的视频信息中对参加视频会议的用户进行人脸识别、表情分析和姿态分析等，然后构建和训练该用户的人物模型，并将模型数据存入云端服务器。前景模型训练方法为：从用户终端上传的视频信息帧中提取前景帧，采用多个前景帧构建和训练该用户的前景模型，并将模型数据存入云端服务器。去噪语音模型训练方法为：对用户终端上传的音频信息进行识别分析，将参会用户的音频和会议场景的音频区分开，并将模型数据存入云端服务器，根据参会用户的音频实时更新去噪语音模型；优选地，还可以将参会用户的音频作为加权参数来修正用户的表情数据。

上述视频会议信息方法中，当网络检测模块监测到网络状态良好时，采用功能增强模块对当前用户的会议场景音视频进行功能增强，并将增强后的会议场景音视频上传到到云端服务器；云端服务器将增强后的会议场景音视频分别传输给视频会议其他用户终端。当网络检测模块监测到网络状态差时，此时，不再对会议场景音视频进行功能增强处理，用户终端只将当前用户的会议基础数据信息上传到到云端服务器，然后实施云端和边缘融合计算，将该用户的基础数据代入该用户对应的云端会议场景模型，融合计算虚拟完整的会议场景音视频；云端服务器将虚拟完整的会议场景音视频分别传输给视频会议其他用户终端。具体地，会议基础数据信息主要指语音信息，还可以是对用户身体区域或人脸区域进行提取和降采样之后的缩略图像信息。当网络检测模块监测到网络状态从差恢复到良好时，则从云端和边缘融合计算模式的会议场景音视频生成，恢复为边缘化的会议场景音视频生成。

参照图4，上述视频会议信息方法中，每个云端会议场景模型的构建和训练都需要对应用户终端上传一定数量的会议场景音视频，数据量越充分，则训练得到的模型和该用户的拟合效果越好。因此，视频会议开始后，可以根据每个用户终端上传的会议场景音视频的数据量，来判断对应的云端会议场景模型对网络状态的容忍度。当用户终端上传的会议场景音视频的数据量较少的情况下，小于预设阈值，对应的云端会议场景模型和该用户的拟合度低，则判断对应的云端会议场景模型对网络状态的容忍度高，则更多采用边缘增强的模式，即采用功能增强模块对当前用户的会议场景音视频进行功能增强；随着用户上传的会议场景音视频的数据量增多，大于预设阈值，对应的云端会议场景模型和该用户的拟合度高，则判断对应的云端会议场景模型对网络状态的容忍度低，则更多采用云端和边缘融合的计算模式，即采用当前用户的基础数据融合计算虚拟完整的会议场景音视频。具体地，根据云端会议场景模型和用户的拟合度来反推预设阈值的具体数值。

上述视频会议信息方法，以视频会议的用户终端作为边缘节点，以视频会议的云端服务器作为云端节点，二者融合计算来实现视频会议的音视频会议场景构建以及各种功能增强，可以根据实时网络环境决定会议场景构建和功能增强的执行主体是云端节点或边缘节点，具有视频会议连接稳定、音视频会议场景高质流畅、语音保真还原和环境噪音小等优点。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的保护范围当中。

Claims

1.一种云端和边缘计算融合的视频会议信息***，其特性在于，包括云端服务器和多个用户终端，每个用户终端均包括功能增强模块和网络检测模块；用户终端用于获取当前用户的会议场景音视频，展示视频会议其他用户的会议场景音视频；网络检测模块用于实时监测并判断网络状态，功能增强模块用于对会议场景音视频进行功能增强；云端服务器用于根据相应用户终端上传的会议场景音视频建立和实时训练相应的云端会议场景模型，该云端会议场景模型和相应的视频会议用户拟合，并将计算处理后的会议场景音视频分别传输给视频会议其他用户终端。

2.根据权利要求1所述的视频会议信息***，其特性在于，所述功能增强模块用于对会议场景音视频进行功能增强，包括提取人脸ROI特征进行人脸检测、人脸美颜增强、画质增强、提取画面前景区域ROI特征检测进行背景模糊化、语音增强、语音保真还原和环境噪声去除。

3.根据权利要求1所述的视频会议信息***，其特性在于，根据每个用户终端上传的会议场景音视频的数据量，来判断对应的云端会议场景模型对网络状态的容忍度；当用户终端上传的会议场景音视频的数据量小于预设阈值，对应的云端会议场景模型和该用户的拟合度低，则判断对应的云端会议场景模型对网络状态的容忍度高，采用功能增强模块对当前用户的会议场景音视频进行功能增强；当用户终端上传的会议场景音视频的数据量大于预设阈值，对应的云端会议场景模型和该用户的拟合度高，则判断对应的云端会议场景模型对网络状态的容忍度低，采用当前用户的基础数据融合计算虚拟完整的会议场景音视频。

4.根据权利要求1所述的视频会议信息***，其特性在于，当网络状态恶劣时，用户终端将当前用户的会议基础数据信息上传到到云端服务器，对应用户的云端会议场景模型停止训练，所述用户终端根据该用户终端采集的会议场景音视频建立和训练对应的用户端会议场景模型；当网络状态恢复良好时，对应的云端会议场景模型继续训练，用户端会议场景模型将当前用户的模型训练数据同步到对应的云端会议场景模型。

5.根据权利要求1所述的视频会议信息***，其特性在于，所述网络检测模块根据数据包的丢包率、数据包发送后的反馈时延来判断当前的网络状态。

6.如权利要求1~5任一所述视频会议信息***的使用方法，其特征在于，包括以下步骤：

7.根据权利要求6所述的视频会议信息方法，其特征在于，所述采用功能增强模块对会议场景音视频进行功能增强，包括提取人脸ROI特征进行人脸检测、人脸美颜增强、画质增强、提取画面前景区域ROI特征检测进行背景模糊化、语音增强、语音保真还原和环境噪声去除。

8.根据权利要求6所述的视频会议信息方法，其特征在于，根据每个用户终端上传的会议场景音视频的数据量，来判断对应的云端会议场景模型对网络状态的容忍度；当用户终端上传的会议场景音视频的数据量小于预设阈值，对应的云端会议场景模型和该用户的拟合度低，则判断对应的云端会议场景模型对网络状态的容忍度高，采用功能增强模块对当前用户的会议场景音视频进行功能增强；当用户终端上传的会议场景音视频的数据量大于预设阈值，对应的云端会议场景模型和该用户的拟合度高，则判断对应的云端会议场景模型对网络状态的容忍度低，采用当前用户的基础数据融合计算虚拟完整的会议场景音视频。

9.根据权利要求6所述的视频会议信息方法，其特征在于，当网络状态恶劣时，用户终端将当前用户的会议基础数据信息上传到到云端服务器，对应用户的云端会议场景模型停止训练，所述用户终端根据该用户终端采集的会议场景音视频建立和训练对应的用户端会议场景模型；当网络状态恢复良好时，对应的云端会议场景模型继续训练，用户端会议场景模型将当前用户的模型训练数据同步到对应的云端会议场景模型。

10.根据权利要求6所述的视频会议信息方法，其特征在于，所述网络检测模块根据数据包的丢包率、数据包发送后的反馈时延来判断当前的网络状态。