CN1206860C

CN1206860C - 一种智能控制视频会议的混音***及控制会议进程的方法

Info

Publication number: CN1206860C
Application number: CN 03102814
Authority: CN
Inventors: 姚亚群; 陈伟; 石向荣; 王洪涛
Original assignee: NANWANG IMAGE INFORMATION INDUSTRY Co Ltd ZHEJIANG
Current assignee: NANWANG IMAGE INFORMATION INDUSTRY Co Ltd ZHEJIANG
Priority date: 2003-01-16
Filing date: 2003-01-16
Publication date: 2005-06-15
Anticipated expiration: 2023-01-16
Also published as: CN1443006A

Abstract

本发明涉及智能控制视频会议的混音***及控制会议进程的方法，其目的是简化会议的进程，使得“询问-应答”过程变得没有必要，减小网络负荷，操作更为方便。混音***分为客户端和服务器端，客户端有会议***、***指定的发言人及若干个旁听者三种终端；服务器端有网络接口、中央处理器、启动快闪存储器、程序快闪存储器、随机存储器、缓冲器及数据总线和地址总线；客户端和服务器端连接成一个声音采集、处理、发送硬件***。控制方法也分为客户端和服务器端实现的步骤，根据声音数据“捎带”的发言人状况信息，判断是否为***、***指定的发言人或旁听者，再根据当时的情况实际发送或不发送该路音频数据。本发明用于在网络中召开视频会议。

Description

一种智能控制视频会议的混音***及控制会议进程的方法

技术领域

本发明涉及一种在视频会议中智能控制会议进程的混音***及控制会议进程的方法。适用于在网络中召开视频会议。

背景技术

目前，视频会议的服务器端一般都使用了混音器，用于混合不同与会者的声音，并将混合后的音频数据发送到各客户端。在视频会议中，存在一些身份不同的角色，有“会议***”，***指定的“发言人”，以及“旁听者”。作为旁听者如果要插话，需通过操作界面向会议***提出申请，经***同意后才取得发言权，***开始传送该插话人的声音数据；同样，发言完毕后，通过操作界面向会议***提出退出申请，经***同意之后退出发言，***停止发送该路数据。由于旁听者每一次加入或退出发言，都需要经历一次“询问-应答”过程，在此过程中旁听者/插话人和***需要进行额外的操作，这样不但增加了网络的负荷，也不能集中精力于会议本身。

发明内容

本发明要解决的技术问题是：提供一种智能控制视频会议的混音***及控制会议进程的方法，该混音***解决了在视频会议进程中加入和退出发言的繁琐操作，使得“询问-应答”过程变得没有必要，减小了网络的负荷，使操作更加方便。

本发明所采用的技术方案是：智能控制视频会议的混音***，该混音***分为客户端A和服务器端B，其中：

i)客户端A包括会议***a、***指定的发言人b及若干个旁听者c三种终端；

ii)服务器端B包括网络接口、中央处理器、启动快闪存储器、程序快闪存储器、随机存储器、缓冲器及数据总线和地址总线；

iii)客户端A和服务器端B连接成一个声音采集、处理、发送硬件***；

iv)客户端A的音频数据首先通过麦克风进入模数转换器A/D，A/D将音频信号数字化成PCM格式的数据流，通过网络接口发送至服务器端B，其特点在于：

v)服务器端通电时从启动快闪存储器启动，然后将固化在程序快闪存储器中的声音处理程序载入内存区，中央处理器从内存区调入指令，这些指令根据设定的三个门限值即阈值上限、阈值下限和声音停止时间逻辑判断出是否该路数据参加混音，对于不参加的PCM流不做处理，对于参加混音的数据流进行混音运算，混音算法即是对各路数据进行线性叠加，具体算法由固化在程序快闪存储器中的程序提供，在运行时被载入内存区供中央处理器调度；

vi)混音后的数据仍然保持PCM格式，这些PCM流通过网络接口传送到相应的终端，在终端D/A转换器将PCM流转换成模拟信号，输出到音频播放设备。

vii)在服务器端B，所述设定的三个门限值是用于比较声音数据的“过零率”的，即单位时间内信号波穿过横轴，也就是过零电平的次数，混音器在每次得到采样数据后，对数据的过零率加以分析，有两种情况：

i)如果超出一定的数值，即阈值上限，则认定数据为“有声”，只有被认定为有声的数据才参加混音；

ii)设定声音停止时间，对这一段时间内的过零率进行累加，如果数值小于某一特定的值，即阈值下限，则可以断定为“无声”，只要被认定为无声，就应该立即退出发言。

本发明智能控制视频会议进程的方法包括客户端A实现的步骤I和服务器端B实现的步骤II，其中：

步骤I表现为1)、客户端A程序对声音数据“捎带”的发言人状况信息I进行判断，若是***a或***指定的发言人b，直接向服务器B发送声音数据，若否，判断是否是插话人，如旁听者c；

2)、客户端程序不间断地取得发言人状况信息I，并且解析出最多两个发言人ID，对照自身的ID，即可得出两个简单的事实，即“自身是否插话人”和“当前是否可插话”，如果解析出的两个ID中有一个和自身相等则是插话人c，继续向服务器发送声音数据，如果不等则自身不是插话人c；

3)、再根据发言人状况信息I判断是否可以插话，如果解析出的两个ID均非0，说明插话人名额已满，不发送数据，如果只有一个ID非0或两个都是0，则当前状态可插话，开始向服务器发送声音数据；

步骤II表现为1)、服务器端B在网络中检测到客户端A发来的声音数据后，取得该路数据中的ID，如果是***a或者***指定的发言人b终端发来的声音数据，直接参混，否则认定是插话人，如旁听者c；

2)服务器端程序先计算过零率R和时间T内的总过零率A，然后程序根据解析出的ID判断是否当前插话人，若是，根据值A考察是否变为无声，如果变为无声，进行信息设定，从发言人状况信息I中剔除该路ID，并停止(发送)混合该路音频数据，如果没有变为无声，继续(发送)混合该路音频数据；

3)若不是当前插话人，根据值R判断是否变为有声，如果变为有声，进行信息设定，从发言人状况信息I中加入该路ID，并开始(发送)混合该路音频数据，如果没有变为有声，抛弃该数据包。

本发明的有益效果是：由于本发明是通过“有声/无声检测”简化了旁听者/插话人和***的操作，使“询问-应答”过程变得没有必要，减小了网络的负荷，使与会者能够集中精力于会议本身。

附图说明

图1是本发明的硬件结构框图。

图2是客户端A的工作流程图。

图3是服务器端B的工作流程图。

具体实施方式

本发明混音***分为客户端A和服务器端B，客户端终端有会议***a、***指定的发言人b和若干个旁听者/插话人c。

服务器端B在硬件实现方面由网络接口1(100BASE-T)、中央处理器2(MPC860)、随机存储器3、启动快闪存储器4、程序快闪存储器5、缓冲器6、数据总线7、9和地址总线8、10组成(参阅图1)。

客户端A的音频数据首先通过麦克风进入模数转换器A/D，A/D将音频信号数字化成PCM(pulse code modulation)格式的数据流，通过网络接口1发送至服务器端B。

服务器端B通电时从启动快闪存储器4启动，然后将固化在程序快闪存储器5中的声音处理程序载入内存区，中央处理器2从内存区调入指令，这些指令根据设定的三个门限值即阈值上限、阈值下限和声音停止时间逻辑判断出是否该路数据参加混音，对于不参加的PCM流不做处理，对于参加混音的数据流进行混音运算，混音算法即是对各路数据进行线性叠加，具体算法由固化在程序快闪存储器5中的程序提供，在运行时被载入内存区供中央处理器2调度；混音后的数据仍然保持PCM格式，这些PCM流通过网络接口1传送到相应的终端，在终端D/A转换器将PCM流转换成模拟信号，输出到音频播放设备。

在服务器端B的声音处理程序中，和这些预置的门限值(阈值上限、阈值下限和声音停止时间)进行比较的是声音数据的“过零率”，即单位时间内信号波穿过横轴(零电平)的次数，混音器在每次得到采样数据后，对数据的过零率加以分析，如果超出一定的数值，即阈值上限，则认定数据为“有声”，只有被认定为有声的数据才参加混音；设定声音停止时间，对这一段时间内的过零率进行累加，如果数值小于某一特定的值，即阈值下限，则可以断定为“无声”，只要被认定为无声，就应该立即退出发言。

服务器端的声音处理程序还对“当前插话人状况”信息进行设定，并将它打包到不间断发送的音频数据里，向客户端转发。客户端装有“信息解析程序”，客户端通过解析收到的音频数据，将其中“当前插话人状况”的信息I解析出来，直接决定本地是否有必要向服务器发送声音数据。

由前面的分析可知，这里的发言人状况信息I通过音频数据被“捎带”到客户端，所以起着纽带的作用，而信息设定是由声音检测的结果带动改为引发的，这里需要获取的是两个重要转变，有声向无声的转变和无声向有声的转变。通过这两个转变，自动进行加入和退出会议的操作，而“审批”过程由客户端A代替会议***根据信息I自动完成，实现会议进程的自动有序控制。例如，对于每一个终端，都有一个独立的非0数值ID，长度为1个字节，如果***允许的最大插话人数N为2，那么我们就把信息I规定为2字节长，其内容分别就是两个插话人的ID，(有必要说明一下为什么是两个，因为一般最多允许4个人同时讲话，去掉a，b，所以插话人数最多为2)，不难想象，如果只有一个插话人或者没有插话人，那么对应的位置就为0。

图2所示的是客户端A的工作流程图，其步骤为：

1)、客户端A程序对声音数据“捎带”的发言人状况信息I进行判断，若是***或***指定的发言人，直接向服务器B发送声音数据，若否，判断是否是插话人；

2)、客户端程序不间断地取得发言人状况信息I，并且解析出最多两个发言人ID，对照自身的ID，即可得出两个简单的事实，即“自身是否插话人”和“当前是否可插话”，如果解析出的两个ID中有一个和自身相等则是插话人，继续向服务器发送声音数据，如果不等则自身不是插话人；

3)、再根据发言人状况信息I判断是否可以插话，如果解析出的两个ID均非0，说明插话人名额已满，不发送数据，如果只有一个ID非0或两个都是0，则当前状态可插话，开始向服务器发声音数据。

图3所示的是服务器端B的工作流程图，其步骤为：

1)、服务器端B在网络中检测到客户端A发来的声音数据后，取得该路数据中的ID，如果是***或者***指定的发言人终端发来的声音数据，直接参混，否则认定是插话人即旁听者；

Claims

1、一种智能控制视频会议的混音***，该混音器分为客户端A和服务器端B，其中：

ii)服务器端B包括网络接口(1)、中央处理器(2)、启动快闪存储器(4)、程序快闪存储器(5)、随机存储器(3)、缓冲器(6)及数据总线(7、9)和地址总线(8、10)；

iv)客户端A的音频数据首先通过麦克风进入模数转换器A/D，A/D将音频信号数字化成PCM格式的数据流，通过网络接口(1)发送至服务器端B，其特征在于：

v)服务器端通电时从启动快闪存储器(4)启动，然后将固化在程序快闪存储器(5)中的声音处理程序载入内存区，中央处理器(2)从内存区调入指令，这些指令根据设定的三个门限值即阈值上限、阈值下限和声音停止时间逻辑判断出是否该路数据参加混音，对于不参加的PCM流不做处理，对于参加混音的数据流进行混音运算，混音算法即是对各路数据进行线性叠加，具体算法由固化在程序快闪存储器(5)中的程序提供，在运行时被载入内存区供中央处理器(2)调度；

vi)混音后的数据仍然保持PCM格式，这些PCM流通过网络接口(1)传送到相应的终端，在终端D/A转换器将PCM流转换成模拟信号，输出到音频播放设备。

2、一种智能控制视频会议进程的方法，该方法包括客户端A实现的步骤I和服务器端B实现的步骤II，其中：

2)服务器端程序先计算过零率R和时间T内的总过零率A，然后程序根据解析出的ID判断是否当前插话人，若是，根据值A考察是否变为无声，如果变为无声，进行信息设定，从发言人状况信息I中剔除该路ID，并停止发送混合该路音频数据，如果没有变为无声，继续发送混合该路音频数据；

3)若不是当前插话人，根据值R判断是否变为有声，如果变为有声，进行信息设定，从发言人状况信息I中加入该路ID，并开始发送混合该路音频数据，如果没有变为有声，抛弃该数据包。