CN108833825B

CN108833825B - 视频会议发言人终端的确定方法、装置、设备和存储介质

Info

Publication number: CN108833825B
Application number: CN201810670266.5A
Authority: CN
Inventors: 王运璇
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shizhen Information Technology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shizhen Information Technology Co Ltd
Priority date: 2018-06-26
Filing date: 2018-06-26
Publication date: 2020-07-31
Anticipated expiration: 2038-06-26
Also published as: CN108833825A

Abstract

本发明实施例公开了一种视频会议发言人终端的确定方法、装置、设备和存储介质，该方法包括：获取来自终端的音频包的音频级别；根据设定的平滑参数确定各音频包所占的比例系数，其中，各比例系数之间依次成等比数列关系；叠加所述各音频包的音频级别，将叠加结果作为所述终端的目标音频级别；确定当前时刻最大的目标音频级别对应的终端作为视频会议发言人终端。不依赖于终端发送音频包的频率，将收到的音频包的音频级别以等比数列的形式进行累加，更准确地确定视频会议发言人终端。

Description

视频会议发言人终端的确定方法、装置、设备和存储介质

技术领域

本发明涉及通信技术，尤其涉及一种视频会议发言人终端的确定方法、装置、设备和存储介质。

背景技术

视频会议，是指位于两个或多个地点的人通过通信设备和网络，进行面对面交谈的会议。在视频会议中，参会者可以听到其他会场的声音、看到其他会场与会人的形象、动作和表情，还可以发送电子演示内容。

视频会议中往往存在两个以上的终端，而客户端常常存在显示窗口数量少于会议中的终端的数量的问题。在实际的视频会议***中，也存在将与会人员的注意力快速转移到会议中正在发言的人身上的需求。因此，如何确定视频会议发言人终端是视频会议***中亟待解决的问题。

在实现本发明的过程中，发明人发现现有技术中至少存在如下问题。终端按照一定频率将会议参与者正在讲话的状态发送给服务器，服务器来判断当前会议发言人终端，但是数秒的延迟会给用户造成比较差的体验；或者统计各个与会者的音频采样数据在预设频段中出现的次数来判断当前会议发言人终端来排除一些特定频段的噪声，对环境的要求较高，这种方法切换发言人的灵敏度也比较迟钝；或者终端根据采集到的预设长度阈值的连贯语音信号来判断当前会议发言人终端，当使用人数比较多时，很可能存在多个终端的语音信号长度同时达到预设长度时，很难确定发言人终端。

发明内容

本发明实施例提供一种视频会议发言人终端的确定方法、装置、设备和存储介质，以实现在不依赖于终端发送音频包的频率的情况下，更准确地确定视频会议发言人终端。

第一方面，本发明实施例提供了一种视频会议发言人终端的确定方法，该方法包括：

获取来自终端的音频包的音频级别；

根据设定的平滑参数确定各音频包所占的比例系数，其中，各比例系数之间依次成等比数列关系；

叠加所述各音频包的音频级别，将叠加结果作为所述终端的目标音频级别；

确定当前时刻最大的目标音频级别对应的终端作为视频会议发言人终端。

第二方面，本发明实施例还提供了一种视频会议发言人终端的确定装置，该装置包括：

音频级别获取模块，用于获取来自终端的音频包的音频级别；

比例系数确定模块，用于根据设定的平滑参数确定各音频包所占的比例系数，其中，各比例系数之间依次成等比数列关系；

目标音频级别确定模块，用于叠加所述各音频包的音频级别，将叠加结果作为所述终端的目标音频级别；

发言人终端确定模块，用于确定当前时刻最大的目标音频级别对应的终端作为视频会议发言人终端。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明实施例中任一所述的视频会议发言人终端的确定方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例中任一所述的视频会议发言人终端的确定方法。

本发明实施例中，获取来自终端的音频包的音频级别；根据设定的平滑参数确定各音频包所占的比例系数，其中，各比例系数之间依次成等比数列关系；叠加所述各音频包的音频级别，将叠加结果作为所述终端的目标音频级别；确定当前时刻最大的目标音频级别对应的终端作为视频会议发言人终端。不依赖于终端发送音频包的频率，将收到的音频包的音频级别以等比数列的形式进行累加，更准确地确定视频会议发言人终端。

附图说明

图1是本发明实施例一中的一种视频会议发言人终端的确定方法的流程图；

图2是本发明实施例二中的一种视频会议发言人终端的确定方法的流程图；

图3是本发明实施例三中的一种视频会议发言人终端的确定装置的结构示意图；

图4是本发明实施例四中的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

本发明实施例中，多个地点的人通过通信设备和网络进行面对面交谈的会议称为视频会议，其中，通信设备包括智能会议平板、智能手机和智能电视等。不同通信设备的屏幕显示尺寸不同，当多个(如4个)与会者的画面需要在通信设备屏幕上展示，例如，左上角显示窗口1为北京、右上角显示窗口2为上海、左下角显示窗口3为广州、右下角显示窗口4为深圳。当通信设备的屏幕显示尺寸过小时(例如智能手机)，将与会者的当前画面全部显示会导致每个与会者的显示窗口过小。本发明实施例针对这一问题，确定当前视频会议发言人终端，继而可以进行后续操作，例如，突出或放大显示当前视频会议发言人终端的显示画面。

实施例一

图1为本发明实施例一提供的一种视频会议发言人终端的确定方法的流程图，本实施例可适用于如何将与会人员的注意力快速转移到会议中发言人终端的情况，该方法可以由本发明实施例提供的视频会议发言人终端的确定装置来执行，该装置可采用软件和/或硬件的方式实现。参考图1，该方法具体可以包括如下步骤：

S110、获取来自终端的音频包的音频级别。

具体的，以基于WebRTC(Web Real-Time Communication，网页实时通信)的音频传输方案为例，WebRTC是一个支持网页浏览器进行实时语音对话或视频对话的技术，实现了基于网页的视频会议。终端在对与会者进行音频采集和发送的过程中，会给每个RTP(Real-time Transport Protocol，实时传输协议)包附加当前音频包的音频级别。其中，音频级别用AudioLevel表示。服务器对各个终端发送的音频包进行解析，获取来自终端的音频包的音频级别。终端以智能会议平板为例，智能会议平板向服务器发送附带音频级别的音频包，服务器获取来自智能会议平板的音频包的音频级别。在一个具体的例子、中，按照获取到音频包的时间顺序，各音频包的音频级别可以用a₁、a₂、a₃、……、a_n表示，n取正整数。

S120、根据设定的平滑参数确定各音频包所占的比例系数，其中，各比例系数之间依次成等比数列关系。

各音频包按照设定的频率向服务器发送音频包，其中，设定的频率可以变化，也可以不变，为了提高确定视频会议发言人终端的准确性，不同终端发送音频包的频率须保持一致。因此，每当收到一个音频包时，可以确定当前时刻的终端的音频级别，以此来确定视频会议发言人终端。

具体的，服务器设定终端的音频级别平滑参数λ，λ可变且设置一定的上限。根据λ确定各音频包所占的比例系数，也即，音频包的音频级别所占的比例系数。其中，所述比例系数可以是对λ进行一定的数学运算后得到。各个音频包对应的比例系数之间依次成等比数列关系，在一个具体的例子中，a₁、a₂、a₃、……、a_n分别对应的比例系数为x₁、x₂、x₃、……、x_n，其中，x₁、x₂、x₃、……、x_n依次成等比数列关系，公比为q。

S130、叠加所述各音频包的音频级别，将叠加结果作为所述终端的目标音频级别。

具体的，由于音频包是持续发送，因此，不同时刻对应不同终端的音频级别，终端的音频级别是指，不同终端在不同时刻的音频级别，终端的音频级别和当前时刻和历史时刻收到的音频包的数量以及每个音频包的音频级别有关。l_n为当前时刻终端的音频级别，l_n-1为上一个音频包发送时刻该终端的音频级别。

针对同一个终端，叠加各音频包的音频级别，将叠加结果作为终端的目标音频级别。在一个具体的例子中，每收到一个音频包，则可以根据该音频包的音频包级别和上一次计算出的终端的音频级别来得到当前时刻的终端的目标音频级别。

S140、确定当前时刻最大的目标音频级别对应的终端作为视频会议发言人终端。

具体的，利用本实施例中的方法计算出各个终端的目标音频级别，比较各个终端的目标音频级别，将当前时刻最大的目标音频级别对应的终端作为视频会议发言人终端。

在一个具体的例子中，如果一个会议场景中有两个智能会议平板，在某一时刻，智能会议平板A的音频级别是100，智能会议平板B的音频级别是150，则可以判断智能会议平板B是当前时刻的视频会议发言人终端。

可选的，获取来自终端的音频包的音频级别具体乐意通过如下方式实现：根据所述音频包中携带的客户端标识符确定所述音频包来源的客户端；根据客户端与终端的对应关系确定所述音频包来源的客户端对应的终端；确定来自终端的各音频包的音频级别。

其中，每个音频包中携带对应的标识数据，包括该音频包来源的客户端的客户端标识，该客户端标识符可以用SSRC(Synchronization source，同步源)，标识，用RTP报头中的32位数值的SSRC标识符进行标识，使其不依赖于网络地址，通常麦克风、音频接口、摄像头或视频接口的变化，都会导致SSRC的变化。因此，在收到音频包后，可以确定该音频包来源的客户端，客户端可以是XXX视频会议***等。

在一个具体的例子中，终端仍以智能会议平板为例，智能会议平板A中配置有XXX视频会议***，智能会议平板B中配置有YYYY视频会议***，根据客户端与终端的对应关系确定音频包来源的客户端对应的终端。当多个智能会议平板中配置有同一种类型的客户端时，可以根据该客户端的出厂标识来确定与其对应的智能会议平板。

本发明实施例中，获取来自终端的音频包的音频级别；根据设定的平滑参数确定各音频包所占的比例系数，其中，各比例系数之间依次成等比数列关系；叠加所述各音频包的音频级别，将叠加结果作为所述终端的目标音频级别；确定当前时刻最大的目标音频级别对应的终端作为视频会议发言人终端。不依赖于终端发送音频包的频率，即使在终端发送音频包频率不同的少数情况下依然能够正常进行判断，将收到的音频包的音频级别以等比数列的形式进行累加，确地确定视频会议发言人终端。此外，还可以对视频会议发言人终端进行突出显示，以将与会人员的注意力转移至当前会议发言人身上。

在上述技术方案的基础上，本发明实施例提供的视频会议发言人终端的确定方法还包括：检测到视频会议发言人终端的切换频率大于设定频率切换阈值，更新所述平滑参数以通过调节所述比例系数来更新所述视频会议发言人终端。

在一个具体的例子中，视频会议发言人终端的切换频率是指，视频会议发言人终端的改变距离上一次视频会议发言人终端的改变之间的时间间隔。如果服务器记录到最近2分钟内平均每5秒钟就有一次视频会议发言人终端的改变，可以判断出服务器认为会议所设置的λ值不够大，即最近一个音频包对终端的音频级别的影响力太大，造成视频会议发言人终端频繁变更。此时，服务器为λ加1，然后继续检测视频会议发言人终端的改变频率。例如，还可以给λ设置上限，以16为上限，上限的存在是为了避免过去音频包的影响力过强，使视频会议发言人终端切换过于缓慢。

实施例二

图2为本发明实施例二提供的一种视频会议发言人终端的确定方法的流程图，本实施例在上述实施例的基础上，对“根据设定的平滑参数确定各音频包所占的比例系数，其中，各比例系数之间依次成等比数列关系”进行了优化。参考图2，该方法具体可以包括如下步骤：

S210、获取来自终端的音频包的音频级别。

S220、对设定的平滑参数进行指定运算，确定至少两个比例系数，所述至少两个比例系数之间依次成等比数列关系。

具体的，对λ进行指定运算，比例系数为x₁、x₂、x₃、……、x_n-1、x_n可以是

当λ取16时，各比例系数为

公比q为

S230、将所述比例系数与所述音频包一一对应，确定各音频包所占的比例系数。

其中，给每个音频包按照λ指定运算的结果分配对应的比例系数，确定各音频包所占的比例系数。可选的，按照接收音频包的时间先后顺序给各个音频包分配比例系数，其中，所述比例系数从小到大进行分配，所述比例系数与所述音频包一一对应。

按照接收各个音频包的时间先后顺序给各个音频包分配比例系数，例如，比例系数从小到大进行分配，也即，最先接收的音频包的比例系数最大，最近接收的音频包的比例系数最小，以λ取16为例，第一个音频包的音频级别a₁的比例系数为

第二个音频包的音频级别a₂的比例系数为

第三个音频包的音频级别a₃的比例系数为

……，第n个音频包的音频级别a_n的比例系数为

S240、叠加所述各音频包的音频级别，将叠加结果作为所述终端的目标音频级别。

S250、确定当前时刻最大的目标音频级别对应的终端作为视频会议发言人终端。

本发明实施例中，对设定的平滑参数进行指定运算，确定至少两个比例系数，所述至少两个比例系数之间依次成等比数列关系，将所述比例系数与所述音频包一一对应，确定各音频包所占的比例系数。将收到的音频包以等比数列的形式进行累加，防止了发言人切换过于频繁，考虑了终端接收到的全部音频包的音频级别，也保证了最近采集的音频级别对客户端音频级别的影响力。且可以对不同的音频包的比例系数进行调整，来调整视频会议发言人终端的切换频率。

考虑到一些不均匀的环境噪声和一些人为噪声的影响，即使没有发言的终端也可能会在一个瞬间的音频级别大于正在发言的终端。如果直接以最新的音频级别作为终端的音频级别，并以此为依据确定视频会议发言人终端，则会产生视频会议发言人终端频繁切换的后果，会对用户造成不好的影响，需要进行平滑处理。

本发明实施例中，采取基于一种累加的公式对终端的音频级别进行平滑的方法，终端的音频级别除了依赖最近收到的音频包以外，还依赖之前收到的所有音频包的音频级别，也即，

l_n代表第n次音频级别，也即同一终端在不同时刻的音频级别。

为了使方便的表述更清楚，用一个具体的例子进行说明。

第一次音频级别：

第二次音频级别：

第n次音频级别：

由此可以看出，最终当前时刻的终端的音频级别是收到的所有音频包的音频级别的等比数列之和。距离当前时间越久的音频包，对当前时刻的终端的音频级别影响越小。λ的取值是可变的，λ越大，过去的音频包的影响越大；λ越小，过去的音频包的影响越小。调节λ，直到达到最佳的会议体验效果。

实施例三

图3是本发明实施例三提供的一种视频会议发言人终端的确定装置的结构示意图，该装置适用于执行本发明实施例提供给的一种视频会议发言人终端的确定方法。如图3所示，该装置具体可以包括：

音频级别获取模块310，用于获取来自终端的音频包的音频级别；

比例系数确定模块320，用于根据设定的平滑参数确定各音频包所占的比例系数，其中，各比例系数之间依次成等比数列关系；

目标音频级别确定模块330，用于叠加所述各音频包的音频级别，将叠加结果作为所述终端的目标音频级别；

发言人终端确定模块340，用于确定当前时刻最大的目标音频级别对应的终端作为视频会议发言人终端。

进一步的，音频级别获取模块310具体用于：

根据所述音频包中携带的客户端标识符确定所述音频包来源的客户端；

根据客户端与终端的对应关系确定所述音频包来源的客户端对应的终端；

确定来自终端的各音频包的音频级别。

进一步的，比例系数确定模块320，包括：

平滑参数运算子模块，用于对设定的平滑参数进行指定运算，确定至少两个比例系数，所述至少两个比例系数之间依次成等比数列关系；

比例系数确定子模块，用于将所述比例系数与所述音频包一一对应，确定各音频包所占的比例系数。

进一步的，所述比例系数确定子模块具体用于：

按照接收音频包的时间先后顺序给各个音频包分配比例系数，其中，所述比例系数从小到大进行分配，所述比例系数与所述音频包一一对应。

进一步的，还包括：

发言人终端更新模块，用于检测到视频会议发言人终端的切换频率大于设定频率切换阈值，更新所述平滑参数以通过调节所述比例系数来更新所述视频会议发言人终端。

本发明实施例提供的视频会议发言人终端的确定装置可执行本发明任意实施例提供的视频会议发言人终端的确定方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4为本发明实施例四提供的一种计算机设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图4显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，***存储器28，连接不同***组件(包括***存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。

计算机设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器28可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***34可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。***存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如***存储器28中，这样的程序模块42包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图4中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理单元16通过运行存储在***存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的视频会议发言人终端的确定方法：

也即，所述处理单元执行所述程序时实现：获取来自终端的音频包的音频级别；根据设定的平滑参数确定各音频包所占的比例系数，其中，各比例系数之间依次成等比数列关系；叠加所述各音频包的音频级别，将叠加结果作为所述终端的目标音频级别；确定当前时刻最大的目标音频级别对应的终端作为视频会议发言人终端。

实施例五

本发明实施例五提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请所有发明实施例提供的视频会议发言人终端的确定方法：

也即，该程序被处理器执行时实现：获取来自终端的音频包的音频级别；根据设定的平滑参数确定各音频包所占的比例系数，其中，各比例系数之间依次成等比数列关系；叠加所述各音频包的音频级别，将叠加结果作为所述终端的目标音频级别；确定当前时刻最大的目标音频级别对应的终端作为视频会议发言人终端。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种视频会议发言人终端的确定方法，其特征在于，包括：

获取来自终端的音频包的音频级别；

根据设定的平滑参数确定同一终端按时间排序的各音频包所对应的比例系数，其中，各比例系数之间依次成等比数列关系；

将所述各音频包的音频级别与其一一对应的比例系数分别相乘，对相乘结果求和得到当前时刻所述终端的目标音频级别；

2.根据权利要求1所述的方法，其特征在于，获取来自终端的音频包的音频级别，包括：

确定来自终端的各音频包的音频级别。

3.根据权利要求1所述的方法，其特征在于，根据设定的平滑参数确定同一终端按时间排序的各音频包所对应的比例系数，其中，各比例系数之间依次成等比数列关系，包括：

对设定的平滑参数进行指定运算，确定至少两个比例系数，所述至少两个比例系数之间依次成等比数列关系；

将所述比例系数与所述音频包一一对应，确定各音频包所对应的比例系数。

4.根据权利要求3所述的方法，其特征在于，将所述比例系数与所述音频包一一对应，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，还包括：

检测到视频会议发言人终端的切换频率大于设定频率切换阈值，更新所述平滑参数以通过调节所述比例系数来更新所述视频会议发言人终端。

6.一种视频会议发言人终端的确定装置，其特征在于，包括：

比例系数确定模块，用于根据设定的平滑参数确定同一终端按时间排序的各音频包所对应的比例系数，其中，各比例系数之间依次成等比数列关系；

目标音频级别确定模块，用于将所述各音频包的音频级别与其一一对应的比例系数分别相乘，对相乘结果求和得到当前时刻所述终端的目标音频级别；

7.根据权利要求6所述的装置，其特征在于，所述音频级别获取模块具体用于：

确定来自终端的各音频包的音频级别。

8.根据权利要求6所述的装置，其特征在于，所述比例系数确定模块，包括：

比例系数确定子模块，用于将所述比例系数与所述音频包一一对应，确定各音频包所对应的比例系数。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5中任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的方法。