CN111556279A

CN111556279A - 即时会话的监控方法和通信方法

Info

Publication number: CN111556279A
Application number: CN202010441307.0A
Authority: CN
Inventors: 栾磊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2020-08-18

Abstract

公开了一种即时会话的监控方法、通信方法和通信***。在该即时会话的监控方法中，该即时会话由第一客户端与至少一个第二客户端通过后台服务器建立，该监控方法包括：对于该至少一个第二客户端中至少一部分第二客户端中的每个第二客户端，获取在该第二客户端处采集的多媒体信息；基于所获取的多媒体信息，识别该第二客户端处的用户参与状态，其中，用户参与状态为第二客户端处的用户参与即时会话的状态；在该用户参与状态为异常状态的情况下，生成与该第二客户端相关联的异常提示信息。本公开通过云计算来对听众的环境进行声音识别和图像识别，实时展示和提示听众的环境状态变化，来帮助老师或会议发言人掌握课堂或者会议纪律。

Description

即时会话的监控方法和通信方法

技术领域

本公开涉及云计算领域，更具体地涉及一种即时会话的监控方法、通信方法、通信***和计算机可读存储介质。

背景技术

随着互联网技术和无线通信的发展和普及，越来越多的用户利用移动终端或计算机进行各种形式的即时会话。即时会话的典型示例包括：直播、视频/语音聊天、视频/语音通话、视频/语音会议、在线一对一授课、在线一对多授课等等。

然而，在会议或者授课场景中，会议发言人或老师往往会把注意力放在正在会议内容或授课内容上，因而无法把精力放在听众参与会议状态或学生听课的状态上。由于屏幕大小局限性，即时会话应用也无法全部展示所有听众的参与即时会话的状态。

发明内容

本公开的实施例提供了一种即时会话的监控方法、通信方法、通信***和计算机可读存储介质。

本公开的实施例提供了一种即时会话的监控方法，所述即时会话由第一客户端与至少一个第二客户端通过后台服务器建立，所述监控方法包括：获取在所述第二客户端处采集的多媒体信息；基于所获取的多媒体信息，识别所述第二客户端处的用户参与状态，其中，所述用户参与状态用于第一客户端处的用户监控所述第二客户端处的用户参与所述即时会话的状态；在所述用户参与状态为异常状态的情况下，生成与所述第二客户端相关联的异常提示信息。

例如，所述即时会话包括语音会话,所述在第二客户端处采集的多媒体信息包括利用所述第二客户端的麦克风捕获的第二客户端处的声音信息；其中，所述基于所获取的多媒体信息，识别所述第二客户端处的用户参与状态还包括：基于所述声音信息，识别所述声音信息中的发音对象；以及在所述发音对象包括干扰对象的情况下，确定用户参与状态为异常状态，其中，所述干扰对象为干扰第二客户端的用户参与即时会话的发音对象。

例如，所述即时会话包括视频会话，所述在第二客户端处采集的多媒体信息包括利用所述第二客户端的摄像头捕获的第二客户端处的视频信息；其中，所述基于所获取的多媒体信息，识别所述第二客户端处的用户参与状态还包括：基于所述视频信息，识别所述视频信息中的活动对象；在所述活动对象包括干扰对象或者所述活动对象不包括第二客户端处的用户的情况下，确定用户参与状态为异常状态，其中，所述干扰对象为干扰第二客户端的用户参与即时会话的活动对象。

例如，所述异常提示信息包括所述干扰对象的唯一标识符和/或所述干扰对象对应的图标。

例如，所述监控方法由所述第一客户端、所述第二客户端或所述后台服务器执行，或者由所述第一客户端、所述第二客户端或所述后台服务器配合执行。

本公开的实施例提供了一种即时会话的通信方法，所述通信方法由第一客户端执行，所述通信方法包括：与至少一个第二客户端通过网络建立即时会话；在所述至少一个第二客户端中确定被监控的第二客户端，以监控所述被监控的第二客户端处的用户参与即时会话的用户参与状态；接收与所述至少一部分第二客户端相关联的异常提示信息，其中，所述异常提示信息指示所述至少一个第二客户端处的用户参与状态为异常状态；基于所述异常提示信息，显示与所述被监控的第二客户端处于异常状态。

例如，所述显示与所述被监控的第二客户端处于异常状态还包括：对于所述被监控的第二客户端中的每一个第二客户端，显示干扰所述第二客户端的用户参与即时会话的一个或多个干扰对象的图标。

例如，所述显示与所述被监控的第二客户端处于异常状态还包括：对于所述被监控的第二客户端中的每一个第二客户端，确定获取所述第二客户端的干扰对象数量；对所述被监控的第二客户端的干扰对象数量进行降序排序，以获取所述被监控的第二客户端的显示序列；根据所述显示序列，显示所述被监控的第二客户端中每个客户端的客户端标识及干扰所述第二客户端的用户参与即时会话的一个或多个干扰对象的图标。

本公开的实施例提供了一种即时会话的通信方法，所述通信方法由第二客户端执行，所述通信方法包括：与第一客户端通过网络建立即时会话；确定所述第二客户端处的用户参与所述即时会话的状态是否由第一客户端处的用户监控；在确定所述第二客户端处的用户参与所述即时会话的状态是由第一客户端处的用户监控的情况下，采集并发送所述第二客户端处的多媒体信息。

例如，所述即时会话包括语音会话,所述采集所述第二客户端处的多媒体信息还包括：利用所述第二客户端的麦克风捕获的第二客户端处的用户的声音信息作为所述多媒体信息。

例如，所述即时会话包括视频会话，所述采集所述第二客户端处的多媒体信息还包括：利用所述第二客户端的摄像头捕获的第二客户端处的用户的视频信息作为所述多媒体信息。

例如，所述利用所述第二客户端的麦克风捕获的第二客户端处的声音信息作为所述多媒体信息还包括：确定所述声音信息的强度是否高于预定阈值；在确定所述声音信息的强度高于预定阈值的情况下，将所述声音信息作为所述多媒体信息。

例如，所述即时会话的通信方法还包括：从所述第一客户端接收由第一客户端共享的多媒体内容，在所述多媒体内容包括音频内容的情况下，利用所述第二客户端的扬声器播放所述音频内容；以及在所述多媒体内容包括视频内容的情况下，利用所述第二客户端的屏幕上显示所述视频内容。

本公开的实施例提供了一种即时会话的通信***，包括：第一客户端，所述第一客户端执行上述即时会话的通信方法；第二客户端，所述第二客户端执行上述即时会话的通信方法；以及后台服务器，所述后台服务器执行上述的即时会话的监控方法。

本公开的实施例提供了一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现上述方法中的任一项。

本公开的实施例通过云计算来对听众的环境进行声音识别和图像识别，实时展示和提示听众的环境状态变化，来帮助老师或会议发言人掌握课堂或者会议纪律。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的描述中所需要使用的附图作简单的介绍。下面描述中的附图仅仅是本公开的示例性实施例。

图1示出根据本公开实施例的即时会话的场景的示意图。

图2A是示出根据本公开实施例的即时会话的监控方法的示意图。

图2B是示出根据本公开实施例的即时会话的监控方法的流程图。

图3A是示出根据本公开实施例的由第一客户端执行的即时会话的通信方法的流程图。

图3B是示出根据本公开实施例的即时会话的通信方法的示意图。

图3C是示出根据本公开实施例的第一客户端执行通信方法时的界面示意图。

图4A是示出根据本公开实施例的由第二客户端执行的即时会话的通信方法的流程图。

图4B是示出根据本公开实施例的第二客户端执行通信方法时的界面示意图。

图5是示出根据本公开实施例的即时会话的通信***的示意图。

图6是示出根据本公开实施例的后台服务器、第一客户端和第二客户端的结构图。

具体实施方式

为了使得本公开的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

在本说明书和附图中，具有基本上相同或相似步骤和元素用相同或相似的附图标记来表示，且对这些步骤和元素的重复描述将被省略。同时，在本公开的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性或排序。

本公开的实施例提供了一种即时会话的监控方法、通信方法、通信***和计算机可读存储介质。本公开的实施例通过云计算来对听众的环境进行声音识别和图像识别，实时展示和提示听众的环境状态变化，来帮助老师或会议发言人掌握课堂或者会议纪律。其中，云计算(cloud computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，以使得即时会话通信***能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。对听众的环境进行声音识别和图像识别所需的“云”资源可以是无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。

图1是示出根据本公开实施例的即时会话的场景100的示意图。

参考图1，在场景100中，用户A利用第一客户端101通过后台服务器103与一个或多个用户(例如，用户B、用户C、用户D)进行即时会话。用户B、用户C和用户D分别通过第二客户端102-1、第二客户端102-2和第二客户端102-N接收用户A共享的多媒体内容(包括音频内容和/或视频内容)。为了方便说明下文中的第二客户端102可以指代第二客户端102-1、第二客户端102-2和第二客户端102-N中的任意一个。

本领域技术人员应当理解，第二客户端的数量可以仅为一个，或者第二客户端的数量为几十个或几百个，或者更多数量。本申请实施例对第一客户端和第二客户端的数量和设备类型不加以限定。

后台服务器103通过分析第一客户端101与各个第二客户端102之间的交互信息来确定即时会话消息的流转和/或共享。例如，当用户A为老师或会议主持人时，第二客户端102上可以显示老师或会议主持人共享的屏幕、幻灯片、真人演示、实时视频等等。当用户A请用户B-D中的任意一位发言时，第二客户端上也可以显示正在发言的用户共享的屏幕或真人演示等等。

第一客户端101和第二客户端102可以是任何的电子设备，例如，智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。第一客户端101和第二客户端102还可以是能够在上述设备中搭载的各种应用软件，例如，诸如微信、QQ等社交软件，诸如腾讯会议、腾讯课堂等的企业级应用软件，或者直播软件、短视频社交软件等。

第一客户端101和第二客户端102之间通过后台服务器103进行即时会话消息的交互。后台服务器103可以作为云计算资源池的一部分。例如，后台服务器103可以包括服务器动态集群。即时会话应用的后台运营商作为云计算的基础能力提供商，可以建立云计算资源池平台(简称云平台，一般称为IaaS(Infrastructure as a Service，基础设施即服务)，在资源池中部署多种类型的虚拟资源，供第一客户端101或第二客户端102处的用户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作***)、存储设备、网络设备。后台服务器103中的即时会话的应用架构按照逻辑功能划分,可以包括IaaS层、PaaS层和SaaS层。在IaaS(Infrastructure as a Service，基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层，PaaS层之上再部署SaaS(Software as aService,软件即服务)层，也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台，如数据库、web容器等。SaaS为各式各样的业务软件，如web门户网站、***器等。一般来说，SaaS和PaaS相对于IaaS是上层。

例如，即时会话可以作为云教育软件的一部分，其通过流媒体经由后台服务器103将第一客户端101处的老师授课视频实时地共享给第二客户端102。此处的云教育(CloudComputing Education简称：CCEDU)，是指基于云计算商业模式应用的教育平台服务。在云平台上，所有的教育机构，培训机构，招生服务机构，宣传机构，行业协会，管理机构，行业媒体，法律结构等都集中云整合成资源池，各个资源相互展示和互动，按需交流，达成意向，从而降低教育成本，提高效率。

例如，即时会话还可以作为云会议软件的一部分，其通过流媒体经由后台服务器103将第一客户端101处的会议发言人的演讲实时地共享给第二客户端102。云会议是基于云计算技术的一种高效、便捷、低成本的会议形式。使用者只需要通过互联网界面，进行简单易用的操作，便可快速高效地与全球各地团队及客户同步分享语音、数据文件及视频，而会议中数据的传输、处理等复杂技术由云会议服务商帮助使用者进行操作。目前国内云会议主要集中在以SaaS(Software as a Service,软件即服务)模式为主体的服务内容，包括电话、网络、视频等服务形式，基于云计算的视频会议就叫云会议。在云会议时代，数据的传输、处理、存储全部由视频会议厂家的计算机资源(例如，后台服务器103)处理，用户无需再购置昂贵的硬件和安装繁琐的软件，只需打开浏览器，登录相应界面，就能进行高效的远程会议。云会议***支持多服务器动态集群部署，并提供多台高性能服务器，大大提升了会议稳定性、安全性、可用性。

可选地，第一客户端101、第二客户端102和后台服务器103上还可以部署人工智能云服务来识别第二客户端102处的用户B-D参与即时会话的状态(也即用户参与状态)，以辅助第一客户端101处的用户A对第二客户端102处的用户B-D中的全部/部分用户的监控。例如，用户A可以选择仅对用户B和C进行监控，而不对用户D进行监控。用户A也可以选择对所有参与即时会话的用户进行监控。例如，在网络直播课程的场景下，作为老师的用户A可能会根据教学经验选择仅监控部分比较调皮的学生。后台服务器103也可以根据之前的监控历史记录向用户A推荐需要重点监控的对象。本公开对第一客户端101所选择监控的第二客户端的数量和选择条件均不进行限制。为便于说明，以下以用户A选择监控用户B和C进行说明。

例如，第一客户端101、第二客户端102和后台服务器103可以通过人工智能云服务来分析处理第二客户端102处的用户B-C参与即时会话的状态，确定用户B-C的注意力是否仍在即时会话上。人工智能云服务，一般也被称作是AIaaS(AI as a Service，中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分(例如声音识别、图像识别、用户参与状态推理等等)，并在云端提供独立或者打包的服务。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的人工智能云服务。

上述的人工智能云服务可以对第二客户端102处的用户B-C所处的环境来进行声音识别、图像识别和干扰对象推理等等，判断该环境中是否存在干扰用户B-C参与即时会话的干扰对象或者用户B-C的注意力是否转移。例如，上述干扰对象可以是宠物猫、宠物狗、嘈杂的音乐声等等。

本公开提供了一种即时会话的监控方法、通信方法、通信***和计算机可读存储介质，其可以应用于场景100中。本公开通过云计算来对听众的环境进行声音识别和图像识别，实时展示和提示听众的环境状态变化，来帮助老师或会议发言人掌握课堂或者会议纪律。

图2A是示出根据本公开实施例的即时会话的监控方法200的示意图。图2B是示出根据本公开实施例的即时会话的监控方法200的流程图。根据本公开的实施例的即时会话的监控方法200可以应用于任何的可联网的设备中，该网络设备可以是云服务器(例如图2A中所示的后台服务器103)，其可以通过有线网络和/或无线网络向各种电子设备发送消息。根据本公开的实施例的即时会话的监控方法200还可以应用于各种用户终端中，例如图2A中所示的第一客户端101和第二客户端102。

后台服务器103可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地，后台服务器103承担主要计算工作，第一客户端101和第二客户端102承担次要计算工作；或者，后台服务器103承担次要计算工作，第一客户端101和第二客户端102承担主要计算工作；或者，后台服务器103、第一客户端101和第二客户端102三者之间采用分布式计算架构进行协同计算。这里提及主要计算工作例如是对听众的环境进行声音识别、图像识别和用户参与状态推理等需要消耗较多计算资源的工作。次要计算工作例如是生成或显示异常提示信息等消耗较低计算资源的工作。

为便于说明，本公开以后台服务器103执行即时会话的监控方法200来进行说明，本领域技术人员应当理解，执行监控方法200的计算实体还可以是其他网络设备。

参考图2A，执行根据本公开实施例的即时会话的监控方法200的后台服务器103可以通过其网络接口而与第一客户端101和第二客户端102可通信的连接，从而第一客户端101与至少一个第二客户端102通过后台服务器103建立了即时会话。可选地，用户A启动第一客户端101中的即时会话应用以连线多个第二客户端102，进而建立即时会话。示例性的，该即时会话具有网络会话号、网络会话房间、或在线课堂房间号等等，第一客户端101和第二客户端102在同一个网络会话中进行通讯。

上述的即时会话包括但不限于：视频会话和语音会话。视频会话可以基于视频流和音频流来在第一客户端101和第二客户端102之间共享音频信息和视频信息。语音会话可以基于音频流来在第一客户端101和第二客户端102之间共享音频信息。当然即时会话还可以包括其他类型的即时会话方式，比如，利用增强现实/虚拟现实等技术实现的立体场景式的即时会话等等，本公开对此不作限制。

其中，上述音频信息可以包括以各种形式被捕捉的声音并将其转换为以数字文件形式存储的音频信号，例如，通过第一客户端101或第二客户端102的麦克风周期性捕捉的音频信号等。音频信息可以是通过第一客户端101的麦克风采集到的老师或会议主持人(用户A)的音频信号。如果第二客户端102处的用户被允许发言，音频信息也可以是通过第二客户端102的麦克风采集到的学生或与会者(用户B-D)的音频信号。音频信息可以被缓存在第一客户端101或第二客户端102的存储器中、或被发送到后台服务器103以进行下一步分析。音频信息可以以.mp3、.wav、.voc和.au格式等进行编码或存储。本公开不对音频信息的格式进行任何限制。

类似地，视频信息可以是通过第一客户端101的摄像头采集到的老师或会议主持人(用户A)的视频信号/画面，或者老师或会议主持人(用户A)共享的幻灯片、黑板等等。如果第二客户端102处的用户被允许发言，视频信息也可以是通过第二客户端102的摄像头捕捉到的学生或与会者(用户B-D)的摄像头画面。

参考图2B，后台服务器103可以执行如下步骤。

在步骤201，获取在第二客户端102处采集的多媒体信息。

多媒体信息可以是通过第二客户端102处的各类传感器、麦克风、摄像头等硬件设备捕捉到的、与第二客户端102的用户参与状态有关的信息。用户参与状态也即用户参与即时会话的状态(例如，用户的注意力是否集中在即时会话上)。例如，用户参与状态可以包括正常状态和异常状态。正常状态表示用户的注意力集中在即时会话上。正常状态例如是“用户正在认真听课”、“与会者正在认真记笔记”、“听众正处于安静无干扰的环境中”、“学生的视线正聚集在老师上”等等。异常状态表示用户的注意力转移到了即时会话以外的其它事件/对象上。异常状态例如是“用户的注意力被转移了”、“用户正在逗猫”、“用户的注意力被音乐干扰了”、“用户正在哼歌”、“用户已经离开第二客户端的摄像头的捕捉范围”、“用户正在开车”、“用户视线涣散”、“用户正在大哭”、“用户正在大笑”等等。后台服务器103可以通过网络从第二客户端102接收多媒体信息来获取在第二客户端102处采集的多媒体信息。

可选地，在即时会话包括语音会话的情况下,在第二客户端102处采集的多媒体信息包括利用第二客户端102的麦克风捕获的第二客户端102处的声音信息。在网络直播课程的场景下，如果第二客户端102处的学生正在用耳机认真听课，那么此时第二客户端102的麦克风捕获到的声音信息可能是分贝很小的白噪声或环境音。而如果第二客户端102处的学生正在使用扬声器认真听课，那么此时第二客户端102的麦克风捕获到的声音信息可能是第一客户端101共享的音频信息(例如老师的讲课声)。如果第二客户端102处的学生的注意力被宠物猫/宠物狗干扰了，则第二客户端102的麦克风捕获到的声音信息可能包括猫叫或狗叫。

可选地，在即时会话包括视频会话的情况下，在第二客户端102处采集的多媒体信息包括利用第二客户端102的摄像头捕获的第二客户端102处的视频信息。在网络直播课程的场景下，如果第二客户端102处的学生正在认真听课，那么此时第二客户端102的摄像头捕获到的视频信息可能是学生正在认真记笔记的画面。在网络会议的场景下，如果第二客户端102处的与会者的注意力被宠物猫干扰了，那么此时第二客户端102的摄像头捕获到的视频信息可能是包括宠物猫的画面。如果第二客户端102处的与会者/学生离开了摄像头可捕捉的范围，那么此时第二客户端102的摄像头捕获到的视频信息中可能不包括与会者/学生。

可选地，在即时会话包括语音会话和视频会话两者的情况下，在第二客户端102处采集的多媒体信息包括利用第二客户端102的麦克风捕获的第二客户端102处的声音信息、以及利用第二客户端102的摄像头捕获的第二客户端102处的视频信息。

在步骤202，基于所获取的多媒体信息，识别该第二客户端处的用户参与状态，其中，该用户参与状态用于第一客户端处的用户监控该第二客户端处的用户参与该即时会话的状态。

可选地，在即时会话包括语音会话的情况下,在第二客户端102处采集的多媒体信息包括利用第二客户端102的麦克风捕获的第二客户端102处的声音信息。后台服务器103可以基于该声音信息，识别声音信息中的发音对象。例如，在网络直播课程的场景下，如果第二客户端102处的学生注意力被宠物猫/宠物狗干扰了，那么后台服务器103可以识别出发音对象为宠物猫/宠物狗。或者，在网络会议的场景下，如果第二客户端102处的与会者处于非常嘈杂的环境(例如高速公路上)中，那么后台服务器103可以识别出发音对象为汽车。

可选地，后台服务器103可以部署人工智能云服务，其使用自动语音识别技术(ASR)和/或声纹识别技术来识别发音对象。自动语音识别技术(ASR)和/或声纹识别技术让计算机能“听见”和“听懂”。后台服务器103中还可以内置/或连接到相关的声音信息库，将声音信息与声音信息库存储的声纹信息进行比对，以确定声音信息中的发音对象。

后台服务器103可以确定声音信息中的发音对象是否包括干扰对象。在该发音对象包括干扰对象的情况下，确定第二客户端102处的用户参与状态为异常状态，其中，该干扰对象为干扰第二客户端的用户参与即时会话的发音对象。例如，在网络直播课程的场景下，如果第二客户端102处的学生注意力被宠物猫/宠物狗干扰了，那么后台服务器103可以确定干扰对象为宠物猫/宠物狗。或者，在网络会议的场景下，如果第二客户端102处的与会者处于非常嘈杂的环境(例如高速公路上)中，那么后台服务器103可以确定干扰对象为汽车。可选地，在网络会议的场景下，后台服务器103可以将除与会者以外的发音对象都确定为干扰对象。在网络直播课程的场景下，后台服务器103可以将除老师和学生以外的发音对象都确定为干扰对象。

可选地，后台服务器103还可以在识别发音对象的基础上，对发音对象所发出的声音中的具体信息进行进一步地语义识别/情感识别。例如，如果第二客户端102处的学生正使用第二客户端102处的音箱播放教师的上课内容，那么后台服务器103可以识别出教师的讲课内容，并将其与第一客户端101处接收到的教师讲课内容进行对比。如果第二客户端102处的学生正在哼歌，或者与其他人谈论与课堂内容无关的内容，后台服务器103也可以识别出此时学生正在唱的歌曲/谈论的内容，并确定其与课堂内容无关，并将此时第二客户端102处的学生的用户参与状态确定为异常状态。如果第二客户端102处的用户正在大笑/哭泣，后台服务器103也可以根据声音信息识别出此时用户的情绪/情感，并判断该情绪/情感是否与课堂内容/会议内容相符。如果后台服务器103发现用户的情绪/情感与课堂内容/会议内容不符，后台服务器103也可以将用户参与状态确定为异常状态。

可选地，在即时会话包括视频会话的情况下，在第二客户端处采集的多媒体信息包括利用该第二客户端的摄像头捕获的第二客户端处的视频信息。后台服务器103可以基于该视频信息，识别该视频信息中的活动对象。例如，在网络直播课程的场景下，如果第二客户端102处的学生注意力被宠物猫/宠物狗干扰了并且摄像头捕获的第二客户端处的画面中包括宠物猫/宠物狗，那么后台服务器103可以识别出活动对象为宠物猫/宠物狗。或者，在网络会议的场景下，如果第二客户端102处的与会者正在高速公路上开车，那么第二客户端102处的摄像头捕获的第二客户端处的画面中包括移动的汽车。此时，后台服务器103可以识别出活动对象为汽车。

可选地，后台服务器103可以部署人工智能云服务，其使用计算机视觉技术(Computer Vision,CV)来识别活动对象。计算机视觉技术是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、视频处理、视频语义理解、视频内容/行为识别等技术，还包括常见的人脸识别技术。后台服务器103中还可以内置/或连接到相关的图像/视频数据库，将视频信息与图像/视频数据库存储的人脸特征信息、动物特征信息、物体特征信息进行比对，以确定视频信息中的活动对象。

后台服务器103可以确定视频信息中的活动对象是否包括干扰对象、或者确定视频信息中的活动对象是否不包括第二客户端102处的用户。在活动对象包括干扰对象或者活动对象不包括第二客户端处的用户的情况下，确定用户参与状态为异常状态，其中，该干扰对象为干扰第二客户端的用户参与即时会话的活动对象。例如，在网络直播课程的场景下，如果第二客户端102处的学生注意力被宠物猫/宠物狗干扰了，那么后台服务器103可以确定干扰对象为宠物猫/宠物狗。或者，在网络会议的场景下，如果第二客户端102处的与会者处于非常嘈杂的环境(例如高速公路上)中，那么后台服务器103可以确定干扰对象为汽车。或者，如果第二客户端102处的摄像头捕获到与会者不在镜头前，那么可以确定用户参与状态为异常状态。

可选地，后台服务器103可以在识别活动对象的基础上，对活动对象的行为进行进一步地图像语义识别/情感识别。例如，后台服务器103还可以识别第二客户端102处的用户的瞳孔的运动状态/视线所瞄准的区域等等。当长时间没有识别到用户的瞳孔的运动状态的变化、或识别出用户瞳孔的正对方向不是屏幕时，可以确定用户的视线并未集中在第二客户端的屏幕上。进而，后台服务器103可以确定第二客户端102处的客户的注意力已经转移了，并标识此时第二客户端102处的用户参与状态为异常状态。例如，后台服务器103还可以识别第二客户端102处的用户表情，判断该用户是否正在大笑、大哭、微笑等等。后台服务器103可以将用户表情与老师讲课的内容进行匹配，确定用户的注意力是否仍集中在上课内容上。

本领域技术人员应当理解，后台服务器103还可以同时通过声音信息和视频信息来识别干扰对象和确定第二客户端处的用户参与状态。可选地，在即时会话包括语音会话和视频会话两者的情况下，在第二客户端102处采集的多媒体信息包括利用第二客户端102的麦克风捕获的第二客户端102处的声音信息、以及利用第二客户端102的摄像头捕获的第二客户端102处的视频信息这两者。此时，后台服务器103将利用声音信息和视频信息这两者来确定第二客户端102处的用户参与状态。后台服务器103可以先对声音信息进行识别，然后再对视频信息进行识别。识别声音信息和视频信息的方法可以类似于上述的方法，本公开对此不再赘述。当后台服务器103通过声音信息识别出第二客户端102处的用户参与状态和通过视频信息识别出的第二客户端102处的用户参与状态均为正常状态时，才确定第二客户端102处的用户参与状态为正常状态。当然，后台服务器103也可以先对视频信息进行识别，然后再对音频信息进行识别，或者对二者同时进行识别，本公对此不进行限制。

在步骤203，在该用户参与状态为异常状态的情况下，生成与该第二客户端相关联的异常提示信息。

异常提示信息指示第二客户端102处的用户正处于异常状态的信息。例如，异常提示信息可以包括干扰对象的唯一标识符和/或干扰对象对应的图标。例如，当干扰对象是宠物猫时，干扰对象的唯一标识符可以为名称：“猫”，或者“猫”的标记码(id)。此时，干扰对象对应的图标可以是对应的小猫的图标。

后台服务器103还可以进一步分析第二客户端102处的用户参与状态的历史记录，并向第一客户端103推荐监控哪些用户。

本领域技术人员应当理解，执行监控方法200的实体还可以是第一客户端101。第一客户端101中也可以部署人工智能服务来执行步骤202和203。此时第一客户端101可以通过显示干扰对象对应的图标来提示老师/会议主持人有学生/与会者的注意力被干扰了。

当然，执行监控方法200的实体还可以是第二客户端102。第二客户端102中也可以部署人工智能服务来执行步骤202和203。此时第二客户端102可以将异常提示信息发送给后台服务器103和/或第一客户端101，以便于第一客户端101显示干扰对象对应的图标来提示老师/会议主持人有学生/与会者的注意力被干扰了。

在目前的语音会话情况下，第一客户端处的用户只能通过要求第二客户端处的用户主动打开麦克风，并通过麦克风小图标展示对方是不是有发出声音。在多人会话的情况下，第二客户端处的用户主动打开麦克风经常会导致语音会话中出现环境杂音，但无法判断环境杂音是哪一个参会者发出的声音。本公开将通过声音识别，将听众周围环境发出的声音以图示的形式展示到会议中，帮助会议主持人/老师判断干扰源，以提高会议/课堂质量。在目前视频环境下，尤其是网课环境下，老师在讲课的时候无法实时监督学生的状态，只能通过主动切换视频窗口才能了解每个学生的状态。本公开将通过图像识别和声音识别的方式，实时监督学生上课状态，并能够实时提示老师课堂异常。

由此，本公开的实施例的监控方法200通过云计算来对听众的环境进行声音识别和图像识别，实时展示和提示听众的环境状态变化，来帮助老师或会议发言人掌握课堂或者会议纪律。

图3A是示出根据本公开实施例的由第一客户端101执行的即时会话的通信方法300的流程图。图3B是示出根据本公开实施例的由第一客户端101执行的即时会话的通信方法300的示意图。图3C是示出根据本公开实施例的第一客户端101执行通信方法300时的界面示意图。

参见图3C，第一客户端101可以通过安装其上的即时会话应用软件来执行通信方法300。该即时会话应用软件的界面可以如图3C所示。该界面上可以包括会话视窗，在该会话视窗中可以显示摄像头画面或共享画面(也即第一客户端101期望向第二客户端共享的多媒体内容)。摄像头画面包括第一客户端101内置的摄像头所采集的摄像头画面(其通常是老师教授课堂的画面或会议主讲人的画面)。共享画面包括：屏幕画面、视频画面、文本(Word)文件画面、演示(PPT)文件画面和电子表格(Excel)文件画面中的至少一种。即时会话应用软件的界面还显示有麦克风按钮，其用于开启或关闭第一客户端101/第二客户端102的麦克风的功能。例如，第一客户端101处的用户可以通过点击用户B头像旁的麦克风按钮，控制用户B的麦克风的开闭。

此外，即时会话应用软件的界面还可以包括其它未示出的按钮，例如，摄像头按钮、屏幕共享按钮、邀请成员按钮、管理成员按钮、聊天按钮、文档发送按钮和设置按钮等等。摄像头按钮是用于开启或关闭本地摄像头的功能控件，屏幕共享按钮是用于共享屏幕或文件的功能控件，邀请成员按钮是用于邀请某个联系人参加当前网络会议/当前直播课堂的功能控件，管理成员是用于管理当前网络会议中的参会人员(或当前直播课堂中的学生)的功能控件，聊天按钮是用于进行文本聊天的按钮，设置按钮是用于提供其他位于次级菜单中功能的功能控件。

参见图3A，在步骤301中，第一客户端101与至少一个第二客户端102通过网络建立即时会话。可选地，该即时会话还可以经由上述的后台服务器103。可选地，用户A启动第一客户端101中的即时会话应用以连线多个第二客户端102，进而建立即时会话。示例性的，该即时会话具有网络会话号、网络会话房间、或在线课堂房间号等等，第一客户端101和第二客户端102在同一个网络会话中进行通讯。

在步骤302中，在至少一个第二客户端102中确定被监控的第二客户端102，以监控该被监控的第二客户端102处的用户参与即时会话的用户参与状态。

参见图3C，第一客户端101上可以展示如图3C所示的用户界面。假设使用第一客户端101的用户为图1中的用户A。用户A可以通过点击用户B的头像来选中用户B，然后点击下方的“开启监控模式”按钮，从而选择监控用户B参与即时会话的状态。此外，用户A还可以通过点击其它参与即时会话的用户的头像来选中该用户，并通过界面上的“开启监控模式”按钮和“关闭监控模式”按钮来确定是否监控这些用户参与即时会话的状态(用户参与状态)。本领域技术人员应当理解，在实际的即时会话应用中，即时会话应用还可以有其它的应用界面排布，本公开并不以此为限。

此时，假设用户A选中了监控用户B和用户C的用户参与状态。

参见图3B，在即时会话是语音会话的情况下，用户A通过选择开启对用户B和用户C的用户参与状态的监控，此时对用户B和用户C对应第二客户端102所在的环境进行声音监听。该声音监听可以包括：利用第二客户端102的麦克风捕获的第二客户端102处的声音信息作为多媒体信息；通过后台服务器103(或第一客户端101、第二客户端102)对在第二客户端处采集的多媒体信息进行识别。如果声音信息中包括噪音，则后台服务器103

(或第一客户端101、第二客户端102)可以基于该声音信息，识别声音信息中的发音对象。例如，在网络直播课程的场景下，如果第二客户端102处的学生注意力被宠物猫/宠物狗干扰了，那么后台服务器103可以识别出发音对象为宠物猫/宠物狗。或者，在网络会议的场景下，如果第二客户端102处的与会者处于非常嘈杂的环境(例如高速公路上)中，那么后台服务器103可以识别出发音对象为汽车。如果声音信息中不包括噪音，则后台服务器103(或第一客户端101、第二客户端102)可以确定用户B和用户C的用户参与状态均为正常状态。当然，后台服务器103还可以通过对声音信息进行语义识别和情感/情绪识别进一步确定用户B和用户C的用户参与状态。然后，后台服务器103(或第一客户端101、第二客户端102)可以将这些干扰用户B或用户C参与即时会话的发音对象映射到图标，例如，将宠物猫/宠物狗映射到宠物猫/宠物狗对应的通用图标。

在即时会话是视频会话的情况下，用户A通过选择开启对用户B和用户C对应第二客户端102所在的环境进行声音监听和/或视频监听。该视频监听可以包括：利用第二客户端102的摄像头捕获的第二客户端102处的视频信息作为多媒体信息；通过后台服务器103(或第一客户端101、第二客户端102)对在第二客户端处采集的多媒体信息进行识别。例如，在网络直播课程的场景下，如果第二客户端102处的学生注意力被宠物猫/宠物狗干扰了并且摄像头捕获的第二客户端处的画面中包括宠物猫/宠物狗，那么后台服务器103可以识别出干扰对象为宠物猫/宠物狗。或者，在网络会议的场景下，如果第二客户端102处的与会者正在高速公路上开车，那么第二客户端102处的摄像头捕获的第二客户端处的画面中包括移动的汽车。此时，后台服务器103可以识别出干扰对象为汽车。当然，后台服务器103还可以通过对视频信息进行图像语义识别和情感/情绪识别进一步确定用户B和用户C的用户参与状态。然后后台服务器103(或第一客户端101、第二客户端102)可以将这些干扰用户B或用户C参与即时会话的干扰对象映射到图标，例如，将汽车映射到汽车对应的通用图标。

在即时会话是语音会话和视频会话两者的情况下，后台服务器103还可以同时通过声音信息和视频信息来识别干扰对象并确定第二客户端处的用户参与状态，其方法与图2A至图2B中描述的方法类似，本公开在此不再赘述。

在步骤303中，第一客户端101接收与该被监控的第二客户端相关联的异常提示信息，其中，该异常提示信息指示该被监控的第二客户端处的用户参与状态为异常状态。

第一客户端101可以从后台服务器103(或第二客户端102)接收第二客户端102处的用户正处于异常状态的信息。例如，异常提示信息可以包括干扰对象的唯一标识符和/或干扰对象对应的图标。例如，当干扰对象是宠物猫时，干扰对象的唯一标识符可以为名称：“猫”，或者“猫”的id。此时，干扰对象对应的图标可以是对应的小猫的图标。

在步骤304中，基于该异常提示信息，显示与该被监控的第二客户端102处于异常状态。

第一客户端101可以根据上述的异常提示信息解析出干扰对象的唯一标识符和/或干扰对象对应的图标。然后通过显示干扰对象的名称、干扰对象对应的图标、或者任何能够提示第二客户端102相关联的异常状态的信息来辅助用户A监控用户B和用户C。

可选地，步骤304还可以包括：对于该至少一部分第二客户端中的每一个第二客户端，显示干扰该第二客户端的用户参与即时会话的一个或多个干扰对象的图标。例如，参见图3B，可以将干扰该第二客户端的用户参与即时会话的一个或多个干扰对象的图标展示到头像界面。

例如，在图3C中，可以将映射的图标显示在用户B和用户C的头像旁边。根据图3C，用户B所在环境中包括干扰对象：宠物狗和汽车。用户C所在环境中包括干扰对象：宠物猫。

此外，如果第二客户端102处的摄像头捕获到与会者/学生不在镜头前，那么也可以确定该用户的用户参与状态为异常状态。此时，该用户的头像旁边可以显示汉字“用户离开！”以向用户A提示有学生/与会者的注意力被干扰了。

可选地，步骤304还可以包括：对于该至少一部分第二客户端中的每一个第二客户端，对该第二客户端对应的一个或多个干扰对象进行计数，以获取该第二客户端的干扰对象数量；对该干扰对象数量进行降序排序，以获取该至少一部分第二客户端的显示序列；根据该显示序列，显示该至少一部分第二客户端的客户端标识。

例如，通过计数，用户B所使用的第二客户端102对应了2个干扰对象(也即，用户B所使用的第二客户端102的干扰对象数量为2)。用户C所使用的第二客户端102对应了1个干扰对象(也即，用户C所使用的第二客户端102的干扰对象数量为1)。通过排序，可知用户B所使用的第二客户端102和用户C所使用的第二客户端102的显示序列应当为：用户B、用户C。第二客户端的客户端标识可以是用户头像。由此，可以将用户B的头像显示在用户C的头像的上方(也即图3B中所示的弹出到聊天列表顶部)。由此，干扰对象数量多的用户可以吸引到老师/会议主持人更多的注意力。

由此，本公开的实施例的通信方法300通过云计算来对听众的环境进行声音识别和图像识别，实时展示和提示听众的环境状态变化，来帮助老师或会议发言人掌握课堂或者会议纪律。

图4A是示出根据本公开实施例的由第二客户端102执行的即时会话的通信方法400的流程图。图4B是示出根据本公开实施例的第二客户端102执行通信方法400时的界面示意图。

第二客户端102可以通过安装其上的即时会话应用软件来执行通信方法400。假设使用第二客户端102的用户为图1中的用户B。该即时会话应用软件的界面的示例可以包括图4B所示的三个界面示例400-1、400-2和400-3。

例如，界面示例400-1可以仅包括会话视窗和监控模式滚动提示窗口。该会话视窗中可以显示摄像头画面或共享画面(也即第一客户端共享的多媒体内容)。摄像头画面包括第一客户端101内置的摄像头所采集的摄像头画面(其通常是老师教授课堂的画面或会议主讲人的画面)。共享画面包括：屏幕画面、视频画面、文本(Word)文件画面、演示(PPT)文件画面和电子表格(Excel)文件画面中的至少一种。

例如，界面示例400-2包括会话视窗、监控模式提示图标以及参与即时会话的人员。其中，在网络直播课堂的情况下，可以通过用户头像的背景来区分学生和教师。例如，界面示例400-2中具有黑色背景头像的用户A为教师，而具有白色背景头像的用户C和用户D均为学生。

例如，界面示例400-3包括会话视窗、监控模式滚动提示窗口、各个与会人员的头像、表示与会人员是否禁言的麦克风图标、与会人员的参与即时会话的干扰图标等等。

本领域技术人员应当理解，用户B的界面中还可以包括其他各种排布方式。此外，即时会话应用软件的界面还可以包括其它未示出的按钮，例如，摄像头按钮、邀请成员按钮、聊天按钮、文档发送按钮和设置按钮等等。摄像头按钮是用于开启或关闭本地摄像头的功能控件，邀请成员按钮是用于邀请某个联系人参加当前网络会议/当前直播课堂的功能控件，聊天按钮是用于进行文本聊天的按钮，设置按钮是用于提供其他位于次级菜单中功能的功能控件。

参见图4A，在步骤401中，第二客户端102与第一客户端101通过网络建立即时会话。

可选地，用户B的第二客户端102的扬声器播放第一客户端101的用户A所共享的音频。可选地，用户B的第二客户端102的屏幕上显示第一客户端共享的图像或视频。例如，可以在会话视窗上显示第一客户端共享的图像(也即摄像头画面或共享画面)或视频。

在步骤402中，确定该第二客户端处的用户参与该即时会话的状态是否由第一客户端处的用户监控。例如，假设用户B是学生，而用户A为老师。在用户B处于被用户A监控的情况下，即时会话应用软件的界面上可以显示滚动提示消息“您正处于被用户A监控的模式下，请注意认真听课”(正如界面示例400-1和界面示例400-3所示)。或者，即时会话应用软件的界面上可以显示一个眼睛图标(正如界面示例400-2所示)，指示用户B处于被用户A监控的状态下。当然，即时会话应用软件的界面还可以以其它方式提示用户B正处于被用户A监控的模式下，本公开对此不做限制。

在步骤403中，第二客户端102在确定该第二客户端处的用户参与该即时会话的状态是由第一客户端处的用户监控的情况下，采集该第二客户端处的多媒体信息。

可选地，在由第一客户端101和后台服务器103基于该第二客户端102处采集的多媒体信息来识别第二客户端处的用户参与状态的情况下，第二客户端102还将第二客户端102处采集的多媒体信息发送到该第一客户端101和后台服务器103。

可选地，该即时会话包括语音会话,步骤403还包括：利用该第二客户端的麦克风捕获的第二客户端处的用户的声音信息作为该多媒体信息。

可选地，该利用该第二客户端的麦克风捕获的第二客户端处的声音信息作为该多媒体信息还包括：确定该声音信息的强度是否高于预定阈值；在确定该声音信息的强度高于预定阈值的情况下，将该声音信息作为该多媒体信息。例如，在网络会议的场景下，第二客户端可以先判断声音信息中是否包括与会者以外的其他发音对象。这些发音对象发出的声音信息也即周围环境声音。当周围环境声音超过60分贝时，第二客户端才将采集到的声音信息作为该多媒体信息，以便基于该多媒体信息进行异常状态识别。或者，第二客户端的用户可能正在使用耳机听课，此时第二客户端可以直接确定声音信息的强度是否高于预定阈值，以确定用户是否处于嘈杂的环境中。例如，当声音信息的强度高于预定阈值60分贝时，第二客户端才将采集到的声音信息作为该多媒体信息，以便基于该多媒体信息进行异常状态识别。

可选地，第二客户端102还可以对多媒体信息(例如包括声音信息)进行进一步分析，例如，对多媒体信息进行识别，以识别出第二客户端处的用户参与状态。在该用户参与状态为异常状态的情况下，生成与该第二客户端相关联的异常提示信息，然后将异常提示信息提供至该第一客户端101或后台服务器103，以供该第一客户端101实现对第二客户端102的参与状态进行监控。如果声音信息中包括噪音，则第二客户端102可以基于该声音信息，识别声音信息中的发音对象。例如，在网络直播课程的场景下，如果第二客户端102处的学生注意力被宠物猫/宠物狗干扰了，那么第二客户端102可以识别出发音对象为宠物猫/宠物狗。或者，在网络会议的场景下，如果第二客户端102处的与会者处于非常嘈杂的环境(例如高速公路上)中，那么第二客户端102可以识别出发音对象为汽车。此时，第二客户端将生成异常提示信息，并将这些异常提示信息提供给后台服务器103或第一客户端101。如果声音信息中不包括噪音，则第二客户端102可以确定用户B的用户参与状态为正常状态。当然，后台服务器103还可以通过对声音信息进行语义识别和情感/情绪识别进一步确定用户参与状态，其方法类似于图2A至图2B中该的方法，本公开在此不再赘述。

可选地，在第一客户端101、第二客户端102或后台服务器103基于该第二客户端102处采集的多媒体信息来识别第二客户端处的用户参与状态的情况下，第二客户端102还可以显示干扰用户参与即时会话的干扰对象。例如，在界面示例400-3中，正在使用第二客户端102的用户B正在听用户A讲课。此时用户B被禁言。通过在第二客户端102采集到的多媒体信息，第一客户端101、第二客户端102或后台服务器103可能识别到用户B被宠物狗和汽车干扰了注意力，因此，在其的头像旁显示小狗和汽车的图标。同时，界面示例400-3中还可以显示其它学生被干扰的情况(例如，用户C正在被小猫干扰)。这样，正在听课的其他同学可能可以提醒这些被干扰的学生，让这些注意力被干扰的学生赶紧集中注意力到课堂上。

可选地，该即时会话包括视频会话，步骤403还包括：利用该第二客户端的摄像头捕获的第二客户端处的用户的视频信息作为该多媒体信息。

可选地，例如，在网络直播课程的场景下，如果第二客户端102处的学生注意力被宠物猫/宠物狗干扰了并且摄像头捕获的第二客户端处的画面中包括宠物猫/宠物狗，那么第二客户端102可以识别出干扰对象为宠物猫/宠物狗。或者，在网络会议的场景下，如果第二客户端102处的与会者正在高速公路上开车，那么第二客户端102处的摄像头捕获的第二客户端处的画面中包括移动的汽车。此时，第二客户端102可以识别出干扰对象为汽车。此时，第二客户端将生成异常提示信息，并将这些异常提示信息提供给后台服务器103或第一客户端101。当然，后台服务器103还可以通过对视频信息进行图像语义识别和情感/情绪识别进一步确定用户参与状态，其方法类似于图2A至图2B中该的方法，本公开在此不再赘述。

当然，本领域技术人员应当理解对多媒体信息进行进一步分析也可以在后台服务器103或第一客户端101处执行，本公开对此不进行限定。

由此，本公开的实施例的通信方法400通过云计算来对听众的环境进行声音识别和图像识别，实时展示和提示听众的环境状态变化，来帮助老师或会议发言人掌握课堂或者会议纪律。

图5是出本公开实施例的即时会话的通信***500的示意图。

通信***500包括第一客户端101、第二客户端102和后台服务器103。其中，第一客户端101执行上述的即时会话的通信方法300。第二客户端102执行上述的即时会话的通信方法400。以及后台服务器103执行上述的即时会话的监控方法200。

通信***500的前端展示可以通过第一客户端101和第二客户端102上的即时会话应用软件界面来实现。

后台服务器103可以负责通信***500中的信息识别和信息比对。信息识别包括确定环境声音是否大于预定阈值或者是否存在与会人以外的干扰对象。信息比对包括：识别干扰对象、将干扰对象与声音信息库/图像数据库进行比较、以及确定干扰对象的图标。

在后台服务器103中部署了人工智能云服务的情况下，后台服务器103可以通过提前存储动物声音/画面、物体发出的声音、物体画面；并不断训练人工智能云服务以提高识别精度。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。本公开通过综合各种智能机器的设计原理与实现方法，使后台服务器103具有感知干扰对象、推理出干扰对象是什么的功能。

人工智能还可以通过机器学习来提高识别干扰对象的精度。机器学习(MachineLearning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。人工智能通过研究怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。本公开不对机器学习和深度学习涉及的技术进行具体限制。

由此，本公开的实施例的通信***500通过云计算来对听众的环境进行声音识别和图像识别，实时展示和提示听众的环境状态变化，来帮助老师或会议发言人掌握课堂或者会议纪律。

图6是示出根据本公开实施例的后台服务器103、第一客户端101和第二客户端102的结构图。

参见图6，后台服务器103、第一客户端101和第二客户端102均可以包括处理器601和存储器602。处理器601和存储器602可以通过总线603相连。后台服务器103可以是塔式服务器、机架服务器(Rack)、刀片服务器(Blade Server)、机柜式服务器等。

处理器601可以根据存储在存储器602中的程序执行各种动作和处理。具体地，处理器601可以是一种集成电路芯片，具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，可以是X86架构或ARM架构的。

存储器602存储有计算机指令，在计算机指令被处理器601执行时实现上述方法200、300或400。存储器602可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、双倍数据速率同步动态随机存取存储器DDRSDRAM)、增强型同步动态随机存取存储器(ESDRAM)、同步连接动态随机存取存储器(SLDRAM)和直接内存总线随机存取存储器(DR RAM)。应注意，本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本公开还提供了一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时可以实现上述的监控方法200、通信方法300、通信方法400中的任一项。类似地，本公开实施例中的计算机可读存储介质可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。应注意，本文描述的计算机可读存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

需要说明的是，附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

一般而言，本公开的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时，将理解此处描述的方框、装置、***、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其某些组合中实施。

在上面详细描述的本发明的示例实施例仅仅是说明性的，而不是限制性的。本领域技术人员应该理解，在不脱离本发明的原理和精神的情况下，可对这些实施例或其特征进行各种修改和组合，这样的修改应落入本发明的范围内。

Claims

1.一种即时会话的监控方法，所述即时会话由第一客户端与至少一个第二客户端通过后台服务器建立，所述监控方法包括：

获取在所述第二客户端处采集的多媒体信息；

基于所获取的多媒体信息，识别所述第二客户端处的用户参与状态，其中，所述用户参与状态为所述第二客户端处的用户参与所述即时会话的状态；

在所述用户参与状态为异常状态的情况下，生成与所述第二客户端相关联的异常提示信息。

2.如权利要求1所述的即时会话的监控方法，其中，所述即时会话包括语音会话,所述在第二客户端处采集的多媒体信息包括利用所述第二客户端的麦克风捕获的第二客户端处的声音信息；

其中，所述基于所获取的多媒体信息，识别所述第二客户端处的用户参与状态还包括：

基于所述声音信息，识别所述声音信息中的发音对象；以及

在所述发音对象包括干扰对象的情况下，确定用户参与状态为异常状态，其中，所述干扰对象为干扰第二客户端的用户参与即时会话的发音对象。

3.如权利要求1所述的即时会话的监控方法，其中，所述即时会话包括视频会话，所述在第二客户端处采集的多媒体信息包括利用所述第二客户端的摄像头捕获的第二客户端处的视频信息；

基于所述视频信息，识别所述视频信息中的活动对象；

在所述活动对象包括干扰对象或者所述活动对象不包括第二客户端处的用户的情况下，确定用户参与状态为异常状态，其中，所述干扰对象为干扰第二客户端的用户参与即时会话的活动对象。

4.如权利要求2或3所述的即时会话的监控方法，其中，所述异常提示信息包括所述干扰对象的唯一标识符和/或所述干扰对象对应的图标。

5.如权利要求1-3中任一项所述的即时会话的监控方法，其中，所述监控方法由所述第一客户端、所述第二客户端或所述后台服务器执行，或者由所述第一客户端、所述第二客户端或所述后台服务器配合执行。

6.一种即时会话的通信方法，所述通信方法由第一客户端执行，所述通信方法包括：

与至少一个第二客户端通过网络建立即时会话；

在所述至少一个第二客户端中确定被监控的第二客户端，以监控所述被监控的第二客户端处的用户参与即时会话的用户参与状态；

获取与所述被监控的第二客户端相关联的异常提示信息，其中，所述异常提示信息指示所述被监控的第二客户端处的用户参与状态为异常状态；

基于所述异常提示信息，显示所述被监控的第二客户端处于异常状态。

7.如权利要求6所述的即时会话的通信方法，其中，所述显示与所述被监控的第二客户端相关联的异常状态还包括：对于所述被监控的第二客户端中的每一个第二客户端，显示干扰所述第二客户端的用户参与即时会话的一个或多个干扰对象的图标。

8.如权利要求7所述的即时会话的通信方法，所述显示与所述至少一部分第二客户端处于异常状态还包括：

对于所述被监控的第二客户端中的每一个第二客户端，确定获取所述第二客户端的干扰对象数量；

对所述被监控的第二客户端的干扰对象数量进行降序排序，以获取所述被监控的第二客户端的显示序列；

根据所述显示序列，显示所述被监控的第二客户端中每个第二客户端的客户端标识以及干扰所述第二客户端的用户参与即时会话的一个或多个干扰对象的图标。

9.一种即时会话的通信方法，所述通信方法由第二客户端执行，所述通信方法包括：

与第一客户端通过网络建立即时会话；

确定所述第二客户端处的用户参与所述即时会话的状态是否由第一客户端处的用户监控；

在确定所述第二客户端处的用户参与所述即时会话的状态是由第一客户端处的用户监控的情况下，采集所述第二客户端处的多媒体信息。

10.如权利要求9所述的即时会话的通信方法，其中，所述即时会话包括语音会话,所述采集所述第二客户端处的多媒体信息还包括：利用所述第二客户端的麦克风捕获的第二客户端处的用户的声音信息作为所述多媒体信息。

11.如权利要求9或10中的任一项所述的即时会话的通信方法，其中，所述即时会话包括视频会话，所述采集所述第二客户端处的多媒体信息还包括：利用所述第二客户端的摄像头捕获的第二客户端处的用户的视频信息作为所述多媒体信息。

12.如权利要求10所述的即时会话的通信方法，其中，所述利用所述第二客户端的麦克风捕获的第二客户端处的声音信息作为所述多媒体信息还包括：

确定所述声音信息的强度是否高于预定阈值；

在确定所述声音信息的强度高于预定阈值的情况下，将所述声音信息作为所述多媒体信息。

13.如权利要求9所述的即时会话的通信方法，还包括：

从所述第一客户端接收由第一客户端共享的多媒体内容，

在所述多媒体内容包括音频内容的情况下，利用所述第二客户端的扬声器播放所述音频内容；以及

在所述多媒体内容包括视频内容的情况下，利用所述第二客户端的屏幕上显示所述视频内容。

14.一种即时会话的通信***，包括：

第一客户端，所述第一客户端执行如权利要求6-8中的任一项所述的即时会话的通信方法；

第二客户端，所述第二客户端执行如权利要求9-13中的任一项所述的即时会话的通信方法；以及

后台服务器，所述后台服务器执行如权利要求1-5中任一项所述的即时会话的监控方法。

15.一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令被处理器执行时实现如权利要求1-13中的任一项所述的方法。