CN115695705A

CN115695705A - 实时通信方法、计算机可读存储介质和终端设备

Info

Publication number: CN115695705A
Application number: CN202110846062.4A
Authority: CN
Inventors: 关智博
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2023-02-03

Abstract

本发明公开了一种实时通信方法和终端设备，包括：在将接入网络会议室的终端设备进行分组后，确定每个分组的主终端设备；获取每个分组中主终端设备的音视频输入信息，并通过每个分组中主终端设备接收相应分组中其他终端设备发送的第一有效码流信息；对音视频输入信息进行有效判定，获得第二有效码流信息；将第一有效码流信息和第二有效码流信息进行混流处理，获得第一混流数据，并将第一混流数据发送到云端服务器。由此，通过对接入网络会议室的终端设备进行分组，并确定分组内的主终端，直接通过主终端与主终端之间进行数据传输，从而能够减少经过网络传输的数据量，减轻网络负载量，改善网络质量。

Description

实时通信方法、计算机可读存储介质和终端设备

技术领域

本发明涉及通信技术领域，尤其涉及一种实时通信方法、一种计算机可读存储介质和一种终端设备。

背景技术

随着技术的发展进步，越来越多的人开始采用远程会议的方式进行沟通交流，这需要优良的实时音视频技术支持。目前比较常见的实现方式是每个需要参加会议的终端设备连接进入同一个网络会议室(注册在云端服务器)，任何一个终端，其上传的信息将通过云端服务器传送到每个连接进入相同网络会议室的所有其它终端设备，并且通过云端服务器接收所有其它终端设备上传的信息在本地播放显示。

在实时音视频通信中，对于N个终端注册接入网络会议室的情况，总共有N路上行信号，每路上行信号需要经过云端服务器后传送至其它(N-1)个终端，所以，实际在网络上传输的信号一共有N*(N-1)路，每个终端需要处理一个上行信号，N-1个下行信号。由此可知，随着接入终端数量的增加，所需的网络带宽急剧增加。

在参会人数不多的情况下，现有的网络带宽以及终端计算能力完全可以胜任实时音视频通信的要求。但是随着接入终端的持续增加，所需的网络带宽越来越大，终端所需的计算能力也越来越大，会导致通信严重卡顿，甚至无法正常通信。每一路终端需要接收其它所有终端的码流并进行解码及各种后处理，终端所需的计算能力会很大，如果是手持设备，将严重影响电池续航能力。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的第一个目的在于提出一种实时通信方法，通过对接入网络会议室的终端设备进行分组，并确定分组内的主终端，直接通过主终端与主终端之间进行数据传输，从而能够减少经过网络传输的数据量，减轻网络负载量，改善网络质量。

本发明的第二个目的在于提出一种计算机可读存储介质。

本发明的第三个目的在于提出一种终端设备。

为达到上述目的，本发明第一方面实施例提出了一种实时通信方法，包括：在将接入网络会议室的终端设备进行分组后，确定每个分组的主终端设备；获取所述每个分组中主终端设备的音视频输入信息，并通过所述每个分组中主终端设备接收相应组中其他终端设备发送的第一有效码流信息；对所述音视频输入信息进行有效判定，获得第二有效码流信息；将所述第一有效码流信息和所述第二有效码流信息进行混流处理，获得第一混流数据，并将所述第一混流数据发送到云端服务器。

根据本发明实施例的实时通信方法，在将接入网络会议室的终端设备进行分组后，确定每个分组的主终端设备；获取每个分组中主终端设备的音视频输入信息，并通过每个分组中主终端设备接收相应分组中其他终端设备发送的第一有效码流信息；对音视频输入信息进行有效判定，获得第二有效码流信息；将第一有效码流信息和第二有效码流信息进行混流处理，获得第一混流数据，并将第一混流数据发送到云端服务器。由此，该方法通过对接入网络会议室的终端设备进行分组，并确定分组内的主终端，直接通过主终端与主终端之间进行数据传输，从而能够减少经过网络传输的数据量，减轻网络负载量，改善网络质量。

另外，根据本发明上述实施例的实时通信方法，还可以具有如下的附加技术特征：

根据本发明的一个实施例，将接入网络会议室的终端设备进行分组的方式包括以下一种或几种：根据每个终端设备的接入网关信息对所述接入网络会议室的终端设备进行分组；根据每个终端设备的位置信息对所述接入网络会议室的终端设备进行分组；根据每个终端设备的音频输入信息对所述接入网络会议室的终端设备进行分组；根据每个终端设备的视频输入信息对所述接入网络会议室的终端设备进行分组。

根据本发明的一个实施例，确定每个分组的主终端设备，包括：根据每个分组中的每个终端设备与网关的信号强度、每个终端设备的性能及负载情况、以及每个终端设备是否连接电源综合确定每个分组的主终端设备。

根据本发明的一个实施例，每个分组中的所有终端设备处于同一局域网内。

根据本发明的一个实施例，在获取所述主终端设备的音视频输入信息之前，还对所述主终端设备的当前用户是否为发言人进行检测，并在所述主终端设备的当前用户为旁听者时，停止获取所述主终端设备的音视频输入信息；或者仅获取所述主终端设备视频输入信息；或者仅获取所述主终端设备的降质视频输入信息。

根据本发明的一个实施例，在通过所述每个分组中主终端设备接收相应分组中其他终端设备发送的第一有效码流信息之前，还对所述其他终端设备的当前用户是否为发言人进行检测，并在所述其他终端设备的当前用户为发言人时，对所述其他终端设备的音视频输入信息进行有效判定。

根据本发明的一个实施例，对所述其他终端设备的音视频输入信息进行有效判定，包括：在所述其他终端设备的音频输入信息中存在当前用户的语音时，将所述当前用户的语音转换成文字信息，并对所述文字信息进行有效判定。

根据本发明的一个实施例，对所述当前用户是否为发言人进行检测，包括：采集所述当前用户的视频信息和/或音频信息，并根据所述当前用户的视频信息和/或音频信息分析所述当前用户是否为发言人。

根据本发明的一个实施例，将所述第一混流数据发送到云端服务器，包括：将所述第一混流数据进行RTP(Real-time Transport Protocol，实时协议传输)封包后，采用UDP(User Datagram Protocol，用户数据报协议)发送方式发送到所述云端服务器。

根据本发明的一个实施例，上述的实时通信方法，还包括：采用UDP接收方式接收所述云端服务器发送的第二混流数据包，并对所述第二混流数据包进行RTP解包后再进行解码及丢包补偿处理，获得第三有效码流信息，以及根据所述第三有效码流信息进行音视频播放。

根据本发明的一个实施例，在获得第三有效码流信息之后，还包括：接收所述其他终端设备发送的数据请求，并根据所述数据请求将所述第三有效码流信息发送给所述其他终端设备进行音视频播放。

为达到上述目的，本发明第二方面实施例提出了一种计算机可读存储介质，其上存储有实时通信程序，该实时通信程序被处理器执行时实现上述的实时通信方法。

本发明实施例的计算机可读存储介质，通过执行上述的实时通信方法，能够减少经过网络传输的数据量，减轻网络负载量，改善网络质量。

为达到上述目的，本发明第三方面实施例提出的一种终端设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的实时通信程序，所述处理器执行所述实时通信程序时，实现上述的实时通信方法。

本发明实施例的终端设备，通过执行上述的实时通信方法，能够减少经过网络传输的数据量，减轻网络负载量，改善网络质量。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1为根据本发明实施例的实时通信方法的流程图；

图2为根据本发明一个实施例的实时通信方法的工作流程示意图；

图3为根据本发明实施例的终端设备的方框示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例提出的实时通信方法、计算机可读存储介质和终端设备。

图1为根据本发明实施例的实时通信方法的流程图。

在本发明的一个实施例中，由自组网的管理节点执行下述的实时通信方法，也可以由上层服务器执行下述的实时通信方法，还可以为一个终端设备执行下述实时通信方法。

如图1所示，本发明实施例的实时通信方法，可包括以下步骤：

S1，在将接入网络会议室的终端设备进行分组后，确定每个分组的主终端设备。

具体而言，对于大量终端接入同一会议室的情形，虽然对于网络会议室而言，每个接入的终端都是独立不相关的。但是大部分终端都是互有关联的，例如具有相同的局域网，又如物理距离很近等。

例如，A公司和B公司进行电话会议，A公司中有10台电脑在同一个会议室，B公司中有2台电脑在同一会议室，对于网络云端服务器而言，总共有12台终端注册接入了会议室，这12台终端是同等地位的，它们独立的进行上传下载操作，网络上需要传输12*11路数据流。对于A公司的10台电脑而言，它们主要目的是接收B公司的信息，希望接收到的信息应该是相等的，对于B公司的2台电脑而言，它们主要目的是接收A公司的信息，希望接收到的信息应该也是相等的。由此可见，虽然网络上实时传输了那么多路码流，但是大部分码流信息却是重复冗余的。对于A公司而言，不可能所有电脑在同一时刻需要上传信息，对于B公司而言，也不可能所有电脑在同一时刻需要上传信息，也就是说，网络上传输的码流很多是无意义的。如果把A公司的10路码流合并成一路码流，把B公司的2路码流也合并成一路码流，则网络上仅需要传输2*1路数据流，可以大幅降低网络带宽需求。

因此，针对网络会议的这些特性，可以通过分组的方式降低网络带宽需求。具体地，在正常通信开始之前，对接入网络会议室的所有终端设备进行自动分组，并且每间隔一段时间检测各终端的变化，对分组进行修改，同时，有终端退出或者新加入网络会议室时，也对分组进行修改。分组的原则如下：

第一，根据网关信息进行分组。终端接入互联网比较常见的方式为路由器或者移动通信基站(包括但不局限于这两种方式，随着技术的进步，有可能产生更多更先进的连接方式)。然而，对于连接在同一网关的终端，所有上传信息都会在此网关汇合后才经由网络传输，所有下载信息也都会先抵达此网关后再分发给各个终端。所以，网络中最靠近通信终端的路由关口可以作为分组的一种方式。

第二，通过蓝牙距离测试、GPS(Global Positioning System，全球定位***)定位、终端信号强度等辅助技术。也就是说，通过第一种方式初步划分后，还需要确保分组内的终端处于相邻物理位置。可以避免分组内终端设备虽然使用相同的路由器，但是物理距离很远，导致数据传输数据慢。

第三，通过对每个终端设备输入的音频信息进行分析，进一步进行分组。有许多音频技术可以被用来检测相应终端是否相邻，例如，对于相邻很近的几个终端，其麦克风输入音频具有相似的幅度和很强的相关性，也可以通过所有分组内终端播放人耳无法感知的高频声波(可以同频声波轮循播放，或者播放不同频的声波)，其它终端是否检测到的方法。当然，还可以通过其它音频分析技术，对于同一分组内的终端更进一步分组。

第四，通过对每个终端设备输入的视频信息进行分析，进一步进行分组。对于相邻很近的几个终端，其摄像头捕获的图像具有很强的相似性，通过相似性确定终端的物理距离。也可以通过其它视频分析技术同一分组内的终端更进一步分组。

通过以上4步，可以将所有终端进行分组，同一分组内的终端共用相同的网关，并且在物理位置上邻近(比方说同一会议室的几台连接相同WIFI(无线通信技术)的终端会被分在同一分组内)。每个分组中终端的个数还需被控制在一个用户定义的合理范围，防止终端数量过多，影响数据传输的速度。

需要说明的是，上述分组过程并非全部必须，如果可以提前确认符合要求的分组结果，后续分组判断可以省略，如果有些分组技术不可用，也可以跳过，如果几个不同步骤分析结果冲突，能根据一定的优化准则进行综合校正判决。随着技术的进步，也可以采用更多的新技术来进一步完善分组结果。同时，也支持人工手动分组，即在用户明确知道分组信息的情况下，可以手动设定哪些终端在同一分组内。

在本发明的一个实施例中，每个分组中的所有终端设备处于同一局域网内。也就是说，在将所有的终端设备进行分组完成后，每个分组内的所有终端设备处于同一个局域网内，才认为本次分组能够实现数据传输，不会影响数据传输的传输速度。需要说明的是，同一个局域网可以包括不同的网关。

进一步地，根据本发明的一个实施例，确定每个分组的主终端设备，包括：根据每个分组中的每个终端设备与网关的信号强度、每个终端设备的性能及负载情况、以及每个终端设备是否连接电源综合确定每个分组的主终端设备。

具体而言，在成功分组后，每一个分组选择一个终端作为主终端。由于主终端需要进行更多的运算，占用更多的CPU(central processing unit，中央处理器)，消耗更多的电量，因此，在选择主终端时可以依据每个终端与路由网关的信号强度、每个终端的性能、负载情况、是否连接电源等信息综合选择一个合适的终端作为每个分组的主终端。在用户了解每个终端的性能的情况下，也可以由用户手动选择主终端。

对于每个终端而言，其不再需要和所有其它终端进行交互，只需要和分组内的主终端进行交互，这种交互是基于局域网进行的，网络带宽比较容易保证。而对于主终端而言，其需要和分组内有限个终端进行交互，也需要和其它分组的有限个主终端进行交互，网络带宽需求大大降低。由于主终端是根据综合情况选出来的，其运算性能，电源供应和网络连接也是比较能保证的。

需要说明的是，分组和主终端的选择并不是一成不变的，每隔一定时间或者有用户进入或者退出，都会重新检查并调整原始的分组和主终端的选择。

S2，获取每个分组中主终端设备的音视频输入信息，并通过每个分组中主终端设备接收相应分组中其他终端设备发送的第一有效码流信息。

根据本发明的一个实施例，在通过每个分组中主终端设备接收相应分组中其他终端设备发送的第一有效码流信息之前，还对其他终端设备的当前用户是否为发言人进行检测，并在其他终端设备的当前用户为发言人时，对其他终端设备的音视频输入信息进行有效判定。

进一步地，根据本发明的一个实施例，对其他终端设备的音视频输入信息进行有效判定，包括：在其他终端设备的音频输入信息中存在当前用户的语音时，将当前用户的语音转换成文字信息，并对文字信息进行有效判定。

根据本发明的一个实施例，对当前用户是否为发言人进行检测，包括：采集当前用户的视频信息和/或音频信息，并根据当前用户的视频信息和/或音频信息分析当前用户是否为发言人。

具体而言，首先确定用户设定的模式，如果用户手动设置成说话人模式或者手动播放图片声音等情况，则无条件进行信息传输(在用户设置为说话人模式又长时间不说话时，可以提示用户退出说话人模式)。在其它情况下，通过摄像头和麦克风采集用户的视频和音频信息，对输入的视频信息进行处理后，获取当前用户的面部图片，分析用户是否在发言，如果用户紧闭嘴唇，则可以认为当前用户为旁听者；当视频无法判断用户是否为旁听者的情况下，获取音频信息，信号前处理后进行音频语音检测，如果未检测到语音，则认为当前用户为旁听者；如果还是无法确定用户是否为旁听者，则将语音转换成文字，并且对转换的文字进行语义分析，根据分析结果的合理性来判断用户是否在说话；如果经过上述所有判断还是无法确认是否为旁听者，则认为当前用户为说话者。上述几个步骤中任何一个步骤都可以视实际实现情况进行省略或者变换顺序实现。当判断结果当前用户正在说话时，则完整传输音频文字视频至主终端；当判断结果当前用户为旁听者时，则根据主终端控制信息不进行音频文字和视频传输，或者仅传输视频或者降质视频。主终端根据侦测到的网络状况，动态调节控制指令以保证传输数据量和网络状态之间的平衡。如果需要传输视频，可以在终端进行视频压缩或者在主端进行视频压缩。

在其他终端设备的当前用户为发言人时，需要先对其他终端设备的音视频输入信息进行有效判定，例如，将当前用户的语音信息转换为文字信息，以根据文字信息来确定用户的语音信息是否与参会内容相关，如果相关，则认为该音视频输入信息有效，记为第一有效码流信息，此时该终端设备将第一有效码流信息发送至分组内的主终端。

S3，对音视频输入信息进行有效判定，获得第二有效码流信息。

根据本发明的一个实施例，在获取主终端设备的音视频输入信息之前，还对主终端设备的当前用户是否为发言人进行检测，并在主终端设备的当前用户为旁听者时，停止获取主终端设备的音视频输入信息；或者仅获取主终端设备视频输入信息；或者仅获取主终端设备的降质视频输入信息。

具体而言，对于视频会议而言，人们往往只关注说话人的声音信息和视频画面(包括：发言者分享的图片，例如PPT等)，对于旁听者而言，并不关注其声音和视频画面。任何时刻，发言的总是少数几个人，绝大部分人都是旁听者。对于发言者而言，需要将完整的声音文字和视频到传输到各个终端，而对于旁听者而言，无须传输声音文字和视频到各个终端，或者仅需传输视频或者降质视频(分辨率和帧率等下调，下同)到各个终端，可以视网络情况和用户设置进行调节。

不仅需要对其他终端设备进行判断是否为发言人，也需要对主终端设备判断是否为发言人，在确定主终端设备为发言人时，主终端将完整传输音频文字视频保存，以获得第二有效码流信息。在主终端设备的当前用户为旁听者时，如果停止获取主终端设备的音视频输入信息，那么第二有效码流信息为空的信息；如果仅获取主终端设备视频输入信息，那么第二有效码流信息为视频输入信息；如果仅获取主终端设备的降质视频输入信息，那么第二有效码流信息为降质视频输入信息。

S4，将第一有效码流信息和第二有效码流信息进行混流处理，获得第一混流数据，并将第一混流数据发送到云端服务器。

根据本发明的一个实施例，将第一混流数据发送到云端服务器，包括：将第一混流数据进行RTP封包后，采用UDP发送方式发送到云端服务器。

具体而言，当主终端接收到所有分组内终端设备发送的信息后，将进行合流，并通过网络发送到其它分组的主终端。并从其它分组的主终端接收信息，处理后分流发送给分组内终端(当分组内终端过多，局域网络带宽负载过重时，主终端也可以对接收到的信息进行降质再编码后分流)。如图2所示，假设总共有N个分组内终端(主终端本身也是一个分组内终端)。

主终端接收所有N路分组内终端传送过来的音频文字视频输入流，旁听者对应的终端，其输入的音频和文字为空，视频流则视控制信息而定的完整视频流或者降质视频流或者为空。主终端对N路输入流根据网络状态进行混流(网络很好，终端数很少的情况下，甚至可以不混流)。其中，音频混合成一路或者若干路流，文字直接组合或者分析语义后混合，视频丢弃或者降质传输或者完全传输，此混流过程及策略视输入情况及网络情况动态调节。

经过混流后，得到第一混流数据(包括：音频、文字、视频)，经过音频和视频编码后，进行RTP打包后，采用UDP方式发送到云端服务器。

继续参照图2，上述的实时通信方法还可包括：采用UDP接收方式接收云端服务器发送的第二混流数据包，并对第二混流数据包进行RTP解包后再进行解码及丢包补偿处理，获得第三有效码流信息，以及根据第三有效码流信息进行音视频播放。其中，第二混流数据包可以和第一混流数据包相同，也可以不同，具体根据分组情况确定，如果分为两组，第二混流数据包和第一混流数据包相同，如果分为多组，第一混流数据包和第一混流数据包可能相同，也可能不同。

进一步地，在获得第三有效码流信息之后，还包括：接收其他终端设备发送的数据请求，并根据数据请求将第三有效码流信息发送给其他终端设备进行音视频播放。

具体而言，下行接收模块，采用UDP接收方式接收云端服务器发送的封包数据(第二混流数据包)后，经过RTP解包，NETEQ解码后处理等传统实时音视频技术处理后，获得音频、文字和视频信息。主终端将文字和视频视情况发送给各个终端或者丢弃。各分组内终端视情况向主终端请求音频文字或者视频流进行显示播放。同时，如果分组内成员过多，超过局域网有效带宽时，主终端也可以对原始音视频进行再编码后再分发，以保证通话质量。

需要说明的是，本申请虽然只是以本地终端设备为主要情景终端作说明，实际情况下，部分终端也可以扩展成广义意义上的终端设备，例如对于采用分级服务器交互音视频码流或者多级局域网路由的情况，部分靠近最终用户终端的上层网关服务或者基层服务器也可以看作是一个终端，承担本申请主终端或辅助终端的工作，只要其采用与本专利所述技术类似的方法，则属于本专利保护的范围。

综上，本发明的方法，对于参会人数较多的情况下，可以大幅减少需要经过网络传输的数据量，减轻网络负载量，改善网络质量。同时避免一个终端接收并处理所有其它终端的数据或者所有混流分流集中在一台或者若干台设备上而造成其CPU负载过高，由此而导致的严重卡顿或者电池续航的快速下降。

综上所述，根据本发明实施例的实时通信方法，在将接入网络会议室的终端设备进行分组后，确定每个分组的主终端设备，其中，每个分组中的所有终端设备满足预设要求；获取每个分组中主终端设备的音视频输入信息，并通过每个分组中主终端设备接收相应分组中其他终端设备发送的第一有效码流信息；对音视频输入信息进行有效判定，获得第二有效码流信息；将第一有效码流信息和第二有效码流信息进行混流处理，获得第一混流数据，并将第一混流数据发送到云端服务器。由此，该方法通过对接入网络会议室的终端设备进行分组，并确定分组内的主终端，直接通过主终端与主终端之间进行数据传输，从而能够减少经过网络传输的数据量，减轻网络负载量，改善网络质量。

对应上述实施例，本发明还提出了一种计算机可读存储介质，其上存储有实时通信程序，该实时通信程序被处理器执行时实现上述的实时通信方法。

对应上述实施例，本发明还提出了一种终端设备。

如图3所示，本发明实施例的终端设备100包括：存储器110、处理器120及存储在存储器110上并可在处理器120上运行的实时通信程序，处理器120执行实时通信程序时，实现上述的实时通信方法。

需要说明的是，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种实时通信方法，其特征在于，包括：

在将接入网络会议室的终端设备进行分组后，确定每个分组的主终端设备；

获取所述每个分组中主终端设备的音视频输入信息，并通过所述每个分组中主终端设备接收相应分组中其他终端设备发送的第一有效码流信息；

对所述音视频输入信息进行有效判定，获得第二有效码流信息；

将所述第一有效码流信息和所述第二有效码流信息进行混流处理，获得第一混流数据，并将所述第一混流数据发送到云端服务器。

2.根据权利要求1所述的方法，其特征在于，将接入网络会议室的终端设备进行分组的方式包括以下一种或几种：

根据每个终端设备的接入网关信息对所述接入网络会议室的终端设备进行分组；

根据每个终端设备的位置信息对所述接入网络会议室的终端设备进行分组；

根据每个终端设备的音频输入信息对所述接入网络会议室的终端设备进行分组；

根据每个终端设备的视频输入信息对所述接入网络会议室的终端设备进行分组。

3.根据权利要求1所述的方法，其特征在于，确定每个分组的主终端设备，包括：

根据每个分组中的每个终端设备与网关的信号强度、每个终端设备的性能及负载情况、以及每个终端设备是否连接电源综合确定每个分组的主终端设备。

4.根据权利要求1所述的方法，其特征在于，每个分组中的所有终端设备处于同一局域网内。

5.根据权利要求1-4中任一项所述的方法，其特征在于，在获取所述主终端设备的音视频输入信息之前，还对所述主终端设备的当前用户是否为发言人进行检测，并在所述主终端设备的当前用户为旁听者时，

停止获取所述主终端设备的音视频输入信息；或者

仅获取所述主终端设备视频输入信息；或者

仅获取所述主终端设备的降质视频输入信息。

6.根据权利要求1-4中任一项所述的方法，其特征在于，在通过所述每个分组中主终端设备接收相应分组中其他终端设备发送的第一有效码流信息之前，还对所述其他终端设备的当前用户是否为发言人进行检测，并在所述其他终端设备的当前用户为发言人时，对所述其他终端设备的音视频输入信息进行有效判定。

7.根据权利要求6所述的方法，其特征在于，对所述其他终端设备的音视频输入信息进行有效判定，包括：

在所述其他终端设备的音频输入信息中存在当前用户的语音时，将所述当前用户的语音转换成文字信息，并对所述文字信息进行有效判定。

8.根据权利要求5或6所述的方法，其特征在于，对所述当前用户是否为发言人进行检测，包括：

采集所述当前用户的视频信息和/或音频信息，并根据所述当前用户的视频信息和/或音频信息分析所述当前用户是否为发言人。

9.根据权利要求1所述的方法，其特征在于，将所述第一混流数据发送到云端服务器，包括：

将所述第一混流数据进行RTP封包后，采用UDP发送方式发送到所述云端服务器。

10.根据权利要求9所述的方法，其特征在于，还包括：

采用UDP接收方式接收所述云端服务器发送的第二混流数据包，并对所述第二混流数据包进行RTP解包后再进行解码及丢包补偿处理，获得第三有效码流信息，以及根据所述第三有效码流信息进行音视频播放。

11.根据权利要求10所述的方法，其特征在于，在获得第三有效码流信息之后，还包括：

接收所述其他终端设备发送的数据请求，并根据所述数据请求将所述第三有效码流信息发送给所述其他终端设备进行音视频播放。

12.一种计算机可读存储介质，其特征在于，其上存储有实时通信程序，该实时通信程序被处理器执行时实现根据权利要求1-11中任一项所述的实时通信方法。

13.一种终端设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的实时通信程序，所述处理器执行所述实时通信程序时，实现根据权利要求1-11中任一项所述的实时通信方法。