CN111683263B

CN111683263B - 直播指导方法、装置、设备及计算机可读存储介质

Info

Publication number: CN111683263B
Application number: CN202010514863.6A
Authority: CN
Inventors: 陈春勇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-06-08
Filing date: 2020-06-08
Publication date: 2022-06-03
Anticipated expiration: 2040-06-08
Also published as: CN111683263A

Abstract

本申请实施例提供一种直播指导方法、装置、设备及计算机可读存储介质，其中，方法包括：响应于针对主播终端开始直播的启动操作，呈现直播播放界面，并采集媒体数据；基于采集到的媒体数据，在该直播播放页面中呈现直播内容；当基于该采集到的媒体数据确定满足直播指导的执行条件时，获取用于指导主播的指导信息，并在该主播终端的显示界面中加载浮层；在该浮层中呈现用于该指导信息。通过本申请，能够在直播过程中为主播提供实时指导，从而提高主播的直播技巧。

Description

直播指导方法、装置、设备及计算机可读存储介质

技术领域

本申请实施例涉及直播指导技术领域，涉及但不限于一种直播指导方法、装置、设备及计算机可读存储介质。

背景技术

伴随着流媒体技术的发展以及网络直播的广泛普及，网络直播作为一种大众化的娱乐方式已经逐渐步入人们的生活中。而随着直播行业的发展，越来越多的人加入到主播的大军里。针对新手主播，直播平台给的开播指引都是以文案或者长图、小视频的形式，用户观看时不够直观。在开播中遇到一些影响直播体验的事情，***无法及时纠正，导致直播间人气稀少，主播信心不足，进而导致平台新主播流失率严重。

发明内容

本申请实施例提供一种直播指导方法、装置、设备及计算机可读存储介质，通过在直播过程中为主播提供实时指导，能够提高主播的直播技巧，从而提高主播的开播率和留存率。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种直播指导方法，包括：

响应于针对主播终端开始直播的启动操作，呈现直播播放界面，并采集媒体数据；

基于采集到的媒体数据，在该直播播放页面中呈现直播内容；

当基于该采集到的媒体数据确定满足直播指导的执行条件时，获取用于指导直播的指导信息，并在该主播终端的显示界面中加载浮层；

在该浮层中呈现该指导信息。

本申请实施例提供一种直播指导装置，包括：

第一呈现模块，用于响应于针对主播终端开始直播的启动操作，呈现直播播放界面，并采集媒体数据；

第二呈现模块，用于基于采集到的媒体数据，在该直播播放页面中呈现直播内容；

浮层加载模块，用于当基于该采集到的媒体数据确定满足直播指导的执行条件时，获取用于指导直播的指导信息，并在该主播终端的显示界面中加载浮层；

第三呈现模块，用于在该浮层中呈现该指导信息。

本申请实施例提供一种直播指导设备，包括：

存储器，用于存储可执行指令；处理器，用于执行该存储器中存储的可执行指令时，实现上述的方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现上述的方法。

本申请实施例具有以下有益效果：

在主播通过主播终端开始直播后，采集媒体数据(例如可以包括图像数据和音频数据)，并基于采集到的媒体数据，在该直播播放页面中呈现直播内容，在主播直播过程中，当基于采集到的媒体数据确定满足直播指导的执行条件时，在主播终端的显示界面中加载浮层，并在该浮层中呈现用于指导直播的指导信息，以为主播进行实时指导，从而能够提高主播的直播技巧，从而提高主播的开播率和留存率。

附图说明

图1为本申请实施例直播指导方法的网络架构示意图；

图2为本申请实施例提供的主播终端100的结构示意图；

图3为本申请实施例提供的直播指导方法的一个可选的流程示意图；

图4为本申请实施例提供的直播指导方法的另一个可选的流程示意图；

图5为本申请实施例提供的直播指导方法的再一种实现流程示意图；

图6为本申请实施例提供的直播指导方法的实现流程示意图；

图7A为本申请实施例提供的新手直播时的直播间界面；

图7B为本申请实施例提供的在新手直播时的直播间界面输出指导信息的界面示意图；

图8A为本申请实施例提供的监测到主播把人脸移动到推荐位置的界面示意图；

图8B为本申请实施例提供的关闭指导信息浮层的界面示意图；

图9A为本申请实施例在主播终端显示互动指引的界面示意图；

图9B本申请实施例在主播终端显示互动二级界面的界面示意图；

图10为本申请实施例对音频数据进行分帧的示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。除非另有定义，本申请实施例所使用的所有的技术和科学术语与属于本申请实施例的技术领域的技术人员通常理解的含义相同。本申请实施例所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)主播，或者称为主播用户，是指在直播业务中进行表演并将表演分享的用户。

2)直播观众，直播业务中主播用户的表演的受众。

3)直播流数据，主播用户采集的视频和音频进行编码形成的适用于在网络中传输的码流，支持被接收端即时解码播放而不必等待接收全部数据。

4)直播间，与主播用户对应，直播平台中供主播用户发布不同直播业务的应用。

5)直播业务，直播间中主播用户发布的所表演的视频和/或音频内容，根据直播平台的业务规则，直播业务存在时间长度、容量等方面的限制。

6)客户端，以符合超文本标记语言(HTML，Hyper Text Markup Language)的网页的形式呈现直播内容的各种形式的软件，例如浏览器、内嵌浏览器内核以支持HTML的视频客户端、专用的直播客户端和社交网络客户端等，可以具有适应各种平台(例如电脑端、车载端和移动终端)的版本。

7)浮层，也称为蒙层或蒙版，在客户端的界面中能够浮出的、具有特定形状(例如矩形)的视图，还可以具有检测触控(例如点击、滑动)和图像绘制的功能。

8)人脸识别，是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部识别的一系列相关技术，通常也叫做人像识别、面部识别。

为了更好地理解本申请实施例中提供的直播指导方法，首先对相关技术中的直播指导方法进行说明：

相关技术中，直播平台事先做好开播指引的文案、长图或者小视频，在新手主播第一次开播时，后台推送相关的新手指引数据给到主播终端。

上述直播指导方案需要提前设计好，因此灵活性差。用户看完新手指引后在开播过程中容易忘记。当主播在开播中遇到一些影响直播体验的事情，***无法及时纠正，给到互动指引。

基于此，在本申请实施例提供的直播指导方法中，针对房间人气热度低的新手直播间，***基于人脸识别和语音识别，实时检测主播的互动情况，并智能推送相关的互动指引给到主播，不仅可以提高主播的直播技巧，还可以优化新手主播的开播体验。

下面说明本申请实施例提供的直播指导设备的示例性应用，本申请实施例提供的直播指导设备可以实施为笔记本电脑，平板电脑，台式计算机，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)、智能机器人等任意具有屏幕显示功能的终端，也可以实施为服务器。下面，将说明直播指导设备实施为服务器时的示例性应用。

参见图1，图1为本申请实施例直播指导方法的网络架构示意图，如图1所示，在该网络架构中至少包括主播终端100、观众终端400、服务器200和网络300。为实现支撑一个示例性应用，主播终端100和观众终端400分别通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

在主播终端100中可以安装有直播应用程序(Application，App)，用户可以通过该直播的App，进入感兴趣的直播间，从服务器200拉取直播视频数据，观看主播的直播视频，主播终端100中也可以安装有直播App，主播可以通过该直播App进行视频直播，并且将直播数据上传到服务器200，以便用户观看直播视频。本申请实施例提供的直播指导方法可以作为一个功能插件集成在直播引擎中，如果用户启动了直播指导功能，在主播直播过程中，服务器200可以实时监测主播的人脸，当监测到主播人脸不在屏幕的核心位置时，会触发一个温馨提醒返回至主播终端100，并告知合适的直播位置；或者当监测到主播一段时间不说话时，会触发一个引导，引导主播进行互动。

需要说明的是，服务器200不应简单理解为一个或一类服务器，而是根据上述的示例，在实际应用中为了支撑应用或网页而部署的各种可能形式的服务器。例如，可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是基于云技术的云服务器。云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、存储、处理和共享的一种托管技术。在本申请实施例中，当服务器200为云服务器时，提供的云服务可以包括人脸识别和语音识别。

在本申请实施例中，根据直播服务在主播终端100中实现方式，服务器200有各种差异性的部署方式。

例如，当直播服务在主播终端100中是以专用的直播APP的形式实现时，服务器200可以是专用的提供直播视频的一个或多个服务器，其通过网络300直接与主播终端100通信以完成必要的数据和信息的传输。

再例如，当直播服务是在主播终端100中是以耦合到各种已有APP(例如社交APP、购物App)中的模块或插件(例如小程序)实现时，服务器200可以包括用于实现这些已有APP的基本业务功能的业务服务器、以及用于提供直播视频的直播服务器，直播服务器直接与模块或插件通信，也可以间接通过业务服务器与模块或插件通信；当然，可以理解地，直播服务器和业务服务器的区别主要在于所承载业务逻辑，因此，直播服务器和业务服务器实际上也可以是同一服务器。

在下文的描述中，为了描述方便，将上述各种可能方式的服务器都统称为服务器，因此服务器200不应简单理解为一个或一类服务器，而是根据上述的示例，在实际应用中为了支撑直播服务而部署的各种可能形式的服务器。

参见图2，图2为本申请实施例提供的主播终端100的结构示意图，图2所示的主播终端100包括：至少一个处理器110、存储器150、至少一个网络接口120和用户接口130。主播终端100中的各个组件通过总线***140耦合在一起。可理解，总线***140用于实现这些组件之间的连接通信。总线***140除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线***140。

处理器110可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口130包括使得能够呈现媒体内容的一个或多个输出装置131，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口130还包括一个或多个输入装置132，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器150可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器150可选地包括在物理位置上远离处理器110的一个或多个存储设备。

存储器150包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器150旨在包括任意适合类型的存储器。

在一些实施例中，存储器150能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***151，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块152，用于经由一个或多个(有线或无线)网络接口120到达其他计算设备，示例性的网络接口120包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

输入处理模块153，用于对一个或多个来自一个或多个输入装置132之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图2示出了存储在存储器150中的一种直播指导装置154，该直播指导装置154可以是主播终端100中的直播指导装置，其可以是程序和插件等形式的软件，包括以下软件模块：第一呈现模块1541、第二呈现模块1542、浮层加载模块1543和第三呈现模块1544，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的装置可以采用硬件方式实现，作为示例，本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的图像处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件。

为了更好地理解本申请实施例提供的方法，首先对人工智能、人工智能的各个分支，以及本申请实施例提供的方法所涉及的应用领域进行说明。

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。以下对各个方向分别进行说明。

计算机视觉技术(CV，Computer Vision)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。在本申请实施例中，利用计算机视觉技术进行的人脸识别。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR，AutomaticSpeech Recognition)和语音合成技术(TTS，Text To Speech)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一，在本申请实施例中，利用语音技术进行声学特征的提取和语音识别。

下面将结合本申请实施例提供的主播终端100的示例性应用和实施，说明本申请实施例提供的直播指导方法。参见图3，图3为本申请实施例提供的直播指导方法的一个可选的流程示意图，将结合图3示出的步骤进行说明。

步骤S101，响应于针对主播终端开始直播的启动操作，呈现直播播放界面，并采集媒体数据。

这里，在接收到开始直播的启动操作后，而呈现直播播放界面时，可以是以全屏方式呈现直播播放界面，也可以是以非全屏方式呈现直播播放界面。

在本申请实施例中，采集媒体数据可以包括采集图像数据，例如对主播用户本人、以及主播用户所处的环境至少之一进行图像采集，还可以包括采集音频数据。

步骤S102，基于采集到的媒体数据，在该直播播放页面中呈现直播内容。

这里，基于采集到的媒体数据，在该直播播放界面中呈现采集到的图像数据，并且当采集到音频数据时，调用主播终端的音频播放接口输出采集到的音频数据。

步骤S103，当基于采集到的媒体数据确定满足直播指导的执行条件时，获取指导信息，并在主播终端的显示界面中加载浮层。

这里，主播终端在采集到媒体数据之后，可以利用采集到的媒体数据确定是否满足直播指导的执行条件，在实际实现时，可以是主播终端对采集到的图像数据进行人脸检测，在检测到人脸区域后，进一步确定人脸区域的位置信息，并确定人脸区域是否位于预设的推荐区域内，当确定人脸区域不位于推荐区域，且时长达到一定阈值后，确定满足直播指导的执行条件，此时指导信息可以是预设的推荐区域的边缘信息。预设的推荐区域可以是主播终端在启动直播指导功能后，从服务器获取到的。

除了基于图像数据确定是否满足直播指导的执行条件之外，在本申请实施例中，主播终端还可以基于音频数据确定主播是否在说话，如果确定主播一段时间内都没有说话时，确定满足直播指导的执行条件，此时主播终端需要向服务器获取指导信息，此时指导信息可以包括与观众进行互动的互动素材，例如可以是笑话、脑筋急转弯、有趣的新闻等等。

步骤S104，在该浮层中呈现该指导信息。

这里，在主播终端获取到指导信息后，在浮层呈现指导信息，以指导主播将人脸移动至推荐区域，或者提示主播与观众进行互动。在实际实现时，当在浮层中呈现指导信息时，还可以为浮层增加醒目的闪动动画，以更加直观为主播终端呈现指导信息。

在本申请实施例提供的直播指导方法中，在主播通过主播终端开始直播后，采集媒体数据(例如可以包括图像数据和音频数据)，并基于采集到的媒体数据，在该直播播放页面中呈现直播内容，在主播直播过程中，当基于采集到的媒体数据确定满足直播指导的执行条件时，在主播终端的显示界面中加载浮层，并在该浮层中呈现用于指导直播的指导信息，以为主播进行实时指导，从而能够提高主播的直播技巧，从而提高主播的开播率和留存率。

在一些实施例中，该媒体数据至少包括图像数据，对应地，在步骤S103之前，可以通过如图4所示的步骤确定是否满足直播指导的执行条件：

步骤S001A，对采集到的图像数据进行人脸检测，以确定图像数据中是否包括人脸区域。

这里，人脸检测也即对于给定的一幅图像，确定这幅图像中是否有人脸存在，在实现时，可以首先通过对正负样本的训练，获得根据图像的各特征值检测该图像中与各特征值相互对应的各子区是否不属于人脸组成部分的级联分类器，然后将待检测图像转换为灰度图,并进而将灰度图划分为多个图像区域，接着根据所获得的级联分类器分别计算各图像区域的特征值，并根据计算出的各特征值，采用该级联分类器逐级检测各图像区域是否属于人脸组成部分，当存在属于人脸组成部分的图像区域时，确定该图像数据中包括人脸区域，此时进入步骤S002A；当不存在属于人脸组成部分的图像区域时，确定该图像数据中不包括人脸区域，此时进入步骤S103。

步骤S002A，当确定该图像数据中包括人脸区域时，获取人脸区域的位置信息和预设的推荐区域。

这里，当存在属于人脸组成部分的图像区域时，剔除掉不属于人脸组成部分的图像区域，再根据剔除后非人脸组成部分的图像区域后得到的各个图像区域的位置信息确定人脸区域的位置信息。

预设的推荐区域可以是主播终端开启直播指导功能后，即从服务器获取到并存储在自身的存储空间中的。

步骤S003A，确定人脸区域是否位于推荐区域中。

这里，在确定人脸区域是否位于推荐区域中时，可以是判断人脸区域的大部分区域是否位于推荐区域中，譬如可以是判断人脸区域的2/3是否位于推荐区域中，还可以是确定人脸区域的3/4是否位于推荐区域中。当确定人脸区域位于推荐区域中时，确定未满足直播指导的执行条件，此时不执行操作；当确定人脸区域不位于推荐区域中时，进入步骤S103。

这里，当基于该人脸区域的位置信息确定该人脸区域不位于该推荐位置时，确定满足直播指导的执行条件，在实现时可以是，当确定人脸区域不位于该推荐区域时，获取人脸区域不位于该推荐区域的第一时长；并且在第一时长大于预设的第一时长阈值时，确定满足直播指导的执行条件。也就是说，要检测到主播的人脸在一段时间内(例如5s)都不位于推荐区域时，才确定满足直播指导的执行条件，从而避免频繁打扰主播。

对应地，当确定图像数据中不包括人脸区域时，而确定满足直播指导的执行条件，在实现时也可以是，当确定图像数据中不包括人脸区域时，获取图像数据中不包括人脸区域的第四时长，当第四时长大于该第一时长阈值时，确定满足直播指导的执行条件。也就是说，当在一段时间内(例如5秒(second，s)主播的人脸不在采集到的画面中时，同样认为是满足直播指导的执行条件。

在一些实施例中，当基于人脸区域不在推荐区域，或者采集到的图像中不包括人脸区域而确定满足直播指导的执行条件时，对应地，步骤S103中的“在该主播终端的显示界面中加载浮层”可以通过下述步骤S1031A实现：

步骤S1031A，在该直播播放界面的第一区域加载浮层。

这里，第一区域可以是正方形、长方形、圆形等，但是要求第一区域包括该推荐区域。

对应地，步骤S104“在该浮层中呈现该指导信息”可以通过下述的步骤S1041A实现：

S1041A，在该浮层中呈现该推荐区域的边缘，以指导主播将人脸移动至该推荐区域。

在一些实施例中，还可以在浮层中呈现“人脸在这个位置直播效果更好”的提示信息，以使得主播能够更加直观的了解指导信息的真正含义，从而快速调整直播状态。

在一些实施例中，在该浮层中呈现用于指导直播的指导信息之后，当检测到人脸区域移动至该推荐区域中时，还可以执行以下步骤：

步骤S105A，获取人脸区域位于该推荐区域的第二时长。

这里，步骤S105A在实现时，可以是检测到人脸区域移动至该推荐区域中，启动计时器开始计时，从而获取第二时长。

步骤S106A，当确定第二时长大于预设的第二时长阈值时，关闭该浮层。

这里，例如第二时长阈值为5s，当确定第二时长大于第二时长阈值时，关闭该浮层，并且停止计时并将计时器清零。

步骤S107A，当检测到人脸区域移动至该推荐区域中时，在该浮层中呈现第一控件，该第一控件用于指示不再呈现指导信息。

这里，如果接收到针对第一控件的第一操作后，再次满足直播指导的执行条件时，不再呈现指导信息。在一些实施例中，在接收到针对第一控件的第一操作之后，可以直接不监测是否满足直播指导的执行条件。

在一些实施例中，当检测到人脸区域移动至推荐区域中时，还可以在浮层中呈现一些鼓励的提示信息，以提高主播的信心。

在步骤S105A至步骤S107A所在的实施例中，当主播基于指导信息，对自身的人脸位置进行调整后，可以自动关闭浮层，并且还为主播提供不再呈现指导信息的操作控件，从而使得在主播掌握到直播技巧后，避免频繁打扰主播，影响直播效果。

在一些实施例中，媒体数据还包括音频数据，对应地，在步骤S103之前，可以通过如图4所示的步骤S001B至步骤S004B确定是否满足直播指导的执行条件：

步骤S001B，对采集到的音频数据进行声学特征提取，得到该音频数据的声学特征。

这里，步骤S001B在实现时，可以首先对该音频数据进行预处理，得到预处理后的音频数据；然后再对该预处理后的音频数据进行特征提取，得到该预处理后的音频数据的声学特征。声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程，也是一个信号解卷过程。

在本申请实施例中，对该音频数据进行预处理在实现时，可以首先对该音频数据进行静音检测，将该音频数据中的静音成分去除，得到去除静音后的音频数据；再对该去除静音后的音频数据进行分帧处理，得到分帧后的各个帧数据；从而得到预处理后的音频数据。

步骤S002B，基于该声学特征，确定主播是否正在讲话。

这里，在主播开播时，确定是主播在说话时，例如在主播开始直播时进行开场白“hello，大家好，我是XX”时，获取音频数据，并提取到音频数据的声学特征，将此时提取到的声学特征作为主播的参考声学特征。

步骤S002B在实现时，可以根据当前提取到的声学特征与主播的参考声学特征进行相似度计算，当当前提取到的声学特征与主播的参考声学特征之间相似度大于预设的相似度阈值时，确定主播正在讲话，此时不执行操作；当当前提取到的声学特征与主播的参考声学特征之间的相似度小于或者等于相似度阈值时，确定主播没有在讲话，此时进入步骤S003B。

步骤S003B；当确定主播没有讲话时，获取主播没有讲话的第三时长。

这里，步骤S003B在实现时，当确定主播没有讲话时，可以启动计数器进行计时，将计时器的计时时长确定为第三时长。

步骤S004B，判断第三时长是否大于第三时长阈值。

这里，当第三时长大于第三时长阈值时，确定满足直播指导的执行条件，进入步骤S103。

这里，当确定第三时长大于第三时长阈值时，确定满足直播指导的执行条件，此时可以停止计时并将计时器清零。

在一些实施例中，当在第三时长没有达到第三时长阈值时，检测到主播开始讲话，那么此时停止计时并将计时器清零，并确定没有满足直播指导的执行条件。

承接于步骤S001B至步骤S004B所在的实施例，步骤S103中的“在该主播终端的显示界面中加载浮层”可以通过下述步骤S1031B至步骤S1032B实现：

步骤S1031B，当该直播内容是以全屏形式播放时，在该直播播放界面的第二区域加载浮层。

这里，第二区域不包括人脸区域所对应的推荐区域。由于在检测到主播没有讲话而提供指导信息时，指导信息主要用于提供主播与观众之间互动的聊天素材，因此如果直播内容是以全屏形式播放时，为了防止指导信息对主播人脸的遮挡，因此在不包括推荐区域的第二区域加载浮层，其中可以是在第二区域加载具有设定透明度(例如20％透明度)的浮层，降低直播内容对指导信息呈现时的干扰。

步骤S1032B，当该直播内容以非全屏形式播放时，在该直播播放界面之外的显示区域加载浮层。

这里，由于直播内容是非全屏播放的，那么在直播内容的直播播放界面之外的区域加载浮层，也即主播播放界面和浮层分别位于客户端的显示区域的不同位置，由于两者使用了不同的显示区域，从而实现了直播和指导信息的并行互不干扰。

承接于步骤S1031B至步骤S1032B所在的实施例，在确定满足直播指导的执行条件时，主播终端可以向服务器发送第一请求，该第一请求用于获取指导信息，并且在第一请求中携带有请求的指导信息的类型，也即是获取互动素材。服务器在接收到第一请求后，获取对应的指导信息，并将指导信息携带于第一响应中，返回给主播终端。

对应地，步骤S104“在该浮层中呈现该指导信息”可以通过下述的步骤S1041B实现：

步骤S1041B，在该浮层中呈现用于指导主播与观众进行互动的素材标签。

这里，素材标签可以包括笑话、脑筋急转弯、趣闻等等。

对应地，在步骤1041B之后，还可以执行以下步骤：

步骤S105B，响应于针对目标素材标签的选择操作，在该浮层中呈现该目标素材标签对应的互动素材。

这里，步骤S105B在实现时，当接收到针对目标素材标签的选择操作时，响应于该选择操作，向服务器发送第二请求，该第二请求用于请求获取目标素材标签对应的互动素材，该第二请求中携带有目标素材标签的标识，服务器在接收到第二请求后，获取对应的互动素材，并将互动素材携带于第二响应中，返回给主播终端，主播终端接收到第二响应后，在浮层中呈现该目标素材标签对应的互动素材。

步骤S106B，响应于针对目标素材标签的选择操作，在该浮层中呈现更新互动素材的第二控件和关闭浮层的第三控件。

这里，在本申请实施例中，为了保证当在浮层中呈现互动素材不是主播想要与观众互动的内容时，主播可以更新互动素材，因此在浮层中呈现有更新互动素材的第二控件，在实现时，第二控件的标识可以是“换一个”；另外为了保证主播在开始讲话而不需要呈现互动素材时，能够及时关闭浮层，因此在浮层中提供有用于关闭浮层的第三控件。

步骤S107B，当接收到针对该第二控件的第二操作时，响应该第二操作，更新该浮层中呈现的互动素材。

这里，步骤S107B在实现时，可以是在接收到第二操作时，响应于第二操作，主播终端向服务器发送第三请求，该第三请求用于请求更新互动素材，服务器在接收到第三请求后，获取更新后的互动素材，并将更新后的互动素材携带于第三响应中，返回给主播终端，主播终端接收到第三响应后，更新浮层中呈现的互动素材。

步骤S108B，当接收到针对该第三控件的第三操作时，响应于该第三操作，关闭该浮层。

在步骤S105B至步骤S108B所在的实施例中，当监测到主播一段时间没有讲话时，可以在主播终端中呈现用于与观众进行互动的指引信息，主播可以选择对应的互动指引。当主播选择对应的目标素材标签，比如脑筋急转弯时，会跳转到二级页，在浮层中呈现脑筋急转弯的具体内容，主播可以根据话题指引，和用户进行互动，帮助主播提升互动，避免直播间尬聊场景。

在一些实施例中，可以仅针对一些人气比较差的主播进行直播指导，此时在步骤S102之前还可以执行以下步骤：

步骤S201，获取直播间对应的观众人数和关注主播的粉丝人数。

步骤S202，当基于该观众人数和该粉丝分数确定达到预设的判断条件时，判断是否满足直播指导的执行条件。

这里，预设的判断条件可以是观众人数低于第一人数阈值，还可以是粉丝人数低于第二人数阈值，也可以是观众人数低于第一人数阈值且粉丝人数低于第二人数阈值。

假设判断条件为观众人数低于100，且粉丝人数低于50，那么当直播间的观众人数为85，粉丝人数为30时，满足预设的判断条件，说明直播间的人气较低，此时可以认为主播为新手主播，需要为主播进行直播指导，此后执行本申请实施例提供的直播指导时机的判断步骤。

基于前述的实施例，本申请实施例再提供一种直播指导方法，在该直播指导方法中主播终端仅进行媒体数据采集，而由服务器确定是否满足直播指导的执行条件，该方法包括以下步骤：

步骤S401，响应于启动直播App的操作指令，在主播终端呈现直播业务的直播窗口，接收主播用户针对即将初始化的直播业务的设定。

例如，直播业务未初始化之前的直播窗口用于接收主播用户添加在主播用户的直播间中新建直播业务的名称和备注等信息，便于主播用户后续查找。

步骤S402，主播终端向服务器发送直播业务初始化数据。

这里，主播终端向服务器提交直播间中待建立直播间的标识和主播用户的标识等用于初始化直播业务。

步骤S403，主播终端响应于针对主播终端开始直播的启动操作，呈现直播播放界面，并采集媒体数据。

这里，媒体数据包括图像数据和音频数据。

步骤S404，主播终端基于采集到的媒体数据，在该直播播放页面中呈现直播内容。

步骤S405，主播终端将采集到的媒体数据进行编码得到直播流数据，并将直播流数据发送至服务器。

步骤S406，服务器将直播流数据发送至加入主播直播间的观众终端，以在观众终端的直播播放界面层呈现直播内容。

步骤S407，服务器对接收到的直播流数据进行解码，得到图像数据和音频数据。

步骤S408，服务器对图像数据进行人脸识别，并对音频数据进行语音识别，确定是否满足直播指导的执行条件。

这里，服务器对图像数据进行人脸识别，以确定人脸区域是否位于预设的推荐区域内，当监测到人脸区域不位于推荐区域的第一时长大于第一时长阈值时，确定满足直播指导的执行条件。并且，服务器还会对音频数据进行语音识别，以确定主播是否在说话，其中当确定主播不说话的第二时长大于第二时长阈值时，确定满足直播指导的执行条件。

在确定满足直播指导的执行条件时，进入步骤S409；当确定未满足直播指导的执行条件时，继续接收主播终端发送的直播数据流，并监测是否满足直播指导的执行条件。

步骤S409，服务器向主播终端发送指导信息。

这里，当是由于人脸区域不位于推荐区域中而确定满足直播指导的执行条件时，此时服务器将推荐区域的边缘信息确定为指导信息，并返回给主播终端，在一些实施例中，指导信息中还可以包括文本提示信息，以使得主播能够更加直观的了解指导信息。

当是由于主播没有说话而确定满足直播指导的执行条件时，服务器将互动数据确定为指导信息，并返回给主播终端。其中，互动数据可以包括素材标签，在一些实施例中互动数据中还可以包括各个素材标签对应的多个互动素材。

步骤S410，在主播终端的显示界面中加载浮层。

这里，当是由于人脸区域不位于推荐区域中而确定满足直播指导的执行条件时，需要在包括推荐区域的第一区域中加载浮层，此时所加载浮层的透明度可以比较高，例如可以是80％，以使直播内容透过浮层呈现，从而使得主播确定是否将人脸移动至推荐区域。

当是由于主播没有说话而确定满足直播指导的执行条件时，可以是在不包括推荐区域的第二区域中加载浮层，此时所加载的浮层的透明度可以比较低，例如可以是20％，防止直播评论透过浮层呈现，而对互动素材的呈现造成干扰。

步骤S411，在该浮层中呈现用于指导直播的指导信息。

在本申请实施例提供的直播指导方法中，在主播通过主播终端启动直播时，主播终端采集媒体数据，并对媒体数据进行编码得到直播流数据，进而将直播流数据发送至服务器，由服务器将直播流数据发送至主播直播间中的观众终端，从而使得观众终端观看直播内容；并且服务器还基于接收到的直播流数据，进行人脸识别和语音识别，并在主播人脸偏离推荐区域一段时间或者主播在一段时间内没有讲话时，确定到达直播指导时机，并确定对应的指导信息，下发到主播终端，主播终端在接收到指导信息后，在其显示界面中加载浮层，并在浮层中呈现指导信息，由于服务器的计算能力一般远高于主播终端，因此由服务器进行人脸识别和语音识别，并且进而确定直播指导时机，能够减少主播终端的计算量，提高指导效率，使得主播终端能够实时获取到指导信息，在线指导，提高直播技巧。

基于前述的实施例，本申请实施例再提供一种直播指导方法，图5为本申请实施例提供的直播指导方法的再一种实现流程示意图，如图5所示，该方法包括：

步骤S501，响应于启动直播App的操作指令，在主播终端呈现直播业务的直播窗口，接收主播用户针对即将初始化的直播业务的设定。

在本申请实施例中，直播业务未初始化之前的直播窗口用于接收主播用户添加在主播用户的直播间中新建直播业务的名称和备注等信息，便于主播用户后续查找。

步骤S502，主播终端向服务器发送直播业务初始化数据。

步骤S503，主播终端响应于针对主播终端开始直播的启动操作，呈现直播播放界面，并采集媒体数据。

步骤S504，主播终端基于采集到的媒体数据，在该直播播放页面中呈现直播内容。

步骤S505，主播终端将采集到的媒体数据进行编码得到直播流数据，并将直播流数据发送至服务器。

步骤S506，服务器将直播流数据发送至加入主播直播间的观众终端，以在观众终端的直播播放界面层呈现直播内容。

步骤S507，主播终端对采集到的图像数据进行人脸检测。

步骤S508，当主播终端确定该图像数据中包括人脸区域时，获取人脸区域的位置信息。

步骤S509，主播终端将人脸区域的位置信息发送至服务器。

步骤S510，当服务器基于该人脸区域的位置信息确定该人脸区域不位于该推荐区域时，确定满足直播指导的执行条件。

这里，服务器中存储有推荐区域的位置信息，当服务器接收到人脸区域的位置信息后，基于推荐区域的位置信息和人脸区域的位置信息确定人脸区域是否位于推荐区域。

步骤S511，服务器向主播终端下发指导信息。

这里，指导信息中包括推荐区域的边缘信息和提示文本。

步骤S512，主播终端在该直播播放界面的第一区域加载浮层。

这里，第一区域包括该推荐区域。

步骤S513，主播终端在该浮层中呈现该推荐区域的边缘，以指导主播将人脸移动至该推荐区域。

步骤S514，主播终端对采集到的音频数据进行声学特征提取，得到该音频数据的声学特征；

步骤S515，当主播终端确定主播没有讲话时，获取主播没有讲话的第三时长；

步骤S516，当主播终端确定第三时长大于第三时长阈值时，确定满足直播指导的执行条件。

步骤S517，主播终端向服务器发送获取指导信息的第一请求。

步骤S518，服务器向主播终端发送携带有指导信息的第一响应。

步骤S519，主播终端在该浮层中呈现用于指导主播与观众进行互动的素材标签。

步骤S520，主播终端响应于针对目标素材标签的选择操作，在该浮层中呈现该目标素材标签对应的互动素材。

在本申请实施例提供的直播指导方法中，当在主播通过主播终端启动直播时，主播终端采集图像数据和音频数据，并对图像数据进行人脸识别以确定人脸区域的位置信息，并将人脸区域的位置信息发送至服务器，由服务器确定是否满足直播指导的执行条件，服务器在确定满足直播指导的执行条件时下发指导信息；同时主播终端还对音频数据进行语音识别，并在确定主播一段时间内没有说话时，向服务器请求指导信息，主播终端在接收到指导信息后，在其显示界面中加载浮层，并在浮层中呈现指导信息，如此能够在直播过程中实时对主播进行直播指导，提高主播的直播技巧，从而提高主播直播间的人气，提高主播自信心。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

在本申请实施例提供的直播指导方法中，基于人脸识别和语音识别，并结合直播间的人气热度，当直播间的人气热度小于一定数量时，***会实时监测主播的人脸，当监测到主播的人脸不在主播终端的显示屏的核心位置时，会触发一个温馨提醒，并告知合适的直播位置；或者当监测到主播一段时间不说话时，会触发一个引导，引导主播进行互动。如此，通过AI识别，实时的引导主播，不仅可以提高主播的直播技巧，还可以优化新手主播的开播体验。

图6为本申请实施例提供的直播指导方法的实现流程示意图，如图6所示，该流程包括：

步骤S601，主播开始直播，后台实时判断直播间的人气和粉丝量。

这里，后台通过直播间的人气和粉丝量来判断直播间的主播是否为新手主播，在实现时可以通过直播间的人气和粉丝量来判断是否满足新手主播条件。其中，新手主播条件可以是直播间的人气和粉丝量均低于某一阈值(例如，可以是主播人气和粉丝同时小于100)，还可以是直播间的人气低于第一阈值，且粉丝量低于第二阈值。在一些实施例中，新手主播条件还可以是直播间的人气低于第一阈值，或者粉丝量低于第二阈值。

在本申请实施例中，当后台基于直播间的人气和粉丝量确定主播为新手主播时，执行步骤S602和S602’，当确定主播为非新手主播时，进入步骤S605。

步骤S602，通过人脸识别判断主播的人脸位置。

这里，当后台确定主播满足新手主播条件时，通过人脸识别确定主播的人脸位置，并确定人脸位置是否在主播终端显示屏的核心区域，其中，当确定人脸位置在主播终端显示屏的核心区域时，进入后台不推送操作指引；当确定人脸位置不在核心区域时，后台推送操作指引。

步骤S603，当人脸位置不在核心区域后台推送操作指引。

这里，步骤S603在实现时，可以是当确定人脸位置不在核心区域时开始计时，以获取人脸位置不在核心区域的时长，当该时长达到预设的时长阈值(例如5s)时，后台推送操作指引，如此避免主播的人脸位置只是短暂离开核心区域而频繁提示主播。

步骤S602’，通过语音识别判断直播间的情况。

这里，通过语音识别确定主播是否说话，其中，当检测到主播不说话时，启动计时器进行计时，当确定计时时长达到预设阈值时，进入步骤S603’，当启动计时器开始计时后，检测到主播说话时，计时停止并清零，并且后台不推送互动指引。

步骤S603’，当检测到主播不说话超过1分钟，后台推送互动指引。

这里，当检测到主播一段时间不说话时(超过1分钟)，后台会请求服务器，并下发互动指引的数据给到对应id的主播间，客户端再视觉化呈现对应的互动指引浮层给到主播终端，主播可以选择对应的互动指引。

步骤S604，客户端呈现相关指引，以提供给主播参考。

图7A为本申请实施例提供的新手直播时的直播间界面，如图7A所示，主播的人脸位置没有位于主播终端的显示屏的核心推荐位置701。当后台检测到主播的人脸不在直播间核心推荐位置超过5s时，后台会给主播端的背景层加一层蒙版，如图7B所示，并在蒙版上显示推荐的人脸位置区域711，在实现时还可以通过闪动红色方块712的动画，提示主播人脸在推荐位置上，直播效果会更好。

在本申请实施例中，当监测到主播把人脸移动到推荐位置时，可以显示如图8A所示的界面，如图8A所示，当主播把脸移到推荐的人脸位置上时，后台会给一个操作指引鼓励：做的很棒，继续加油。3s后，蒙版自动消失，此时显示如图8B所示的界面。主播如果点击图8A中不再提示的按钮控件801，则说明该主播已经学到这个技巧，本场直播将不会继续推送此条操作指引，避免过度打扰主播。

图9A为本申请实施例在主播终端显示互动指引的界面示意图，如图9A所示，在主播终端显示屏的目标区域901中显示有后台提供的互动指引的各种互动素材类型，其中包括笑话、脑筋急转弯以及闲聊话术。当主播选择某一互动素材类型对应的卡片，比如脑筋急转弯时，会跳转到二级页面，如图9B所示，在目标区域中显示脑筋急转弯的内容，主播可以根据话题指引，和用户进行互动，帮助主播提升互动，避免直播间尬聊和不知道播什么的场景。并且在该目标区域对应的屏幕界面中还提供有换一个按钮控件911和关闭按钮控件912，当主播点击或触控换一个按钮控件时，客户端会重新向后台请求一次数据，并返回更换过后的数据，以使得主播选择更加有趣的互动内容。当主播点击或触控关闭按钮控件时，关闭互动指引浮层。

步骤S605，后台不推送操作指引和互动指引。

在一些实施例中，步骤S602在实现时，可以是客户端实时监测并进行人脸识别，以获取用户的面部特征。主要分为人脸检测(face detection)、特征提取(featureextraction)和人脸识别(face recognition)三个过程。人脸识别完成之后会对人脸位置进行匹配校对，以确定是否满足下发操作指引的触发条件。

首先，进行人脸检测。在实现时，客户端采集图像，并从采集到的图像进行人脸检测。进一步地，可以采用哈尔特征(Haar，Haar-like features)特征和自适应增强(Adaboost)算法，利用训练好的级联分类器对图像中的每一块进行分类。如果某一区域通过了级联分类器，则该图像区域被判别为人脸图像。检测过程中，就是通过在一幅图片中不断的调整检测窗口的位置、比例，来找到人脸。

其次，进行特征提取。在检测到主播的人脸后，对主播的表情特征进行提取。特征提取是指通过一些数字来表征人脸信息，这些数字就是要提取的特征。常见的人脸特征分为两类，一类是几何特征，另一类是表征特征。几何特征是指眼睛、鼻子和嘴等面部特征之间的几何关系，如距离、面积和角度等。表征特征利用人脸图像的灰度信息，通过一些算法提取全局或局部特征。其中比较常用的特征提取算法是局部二值模式(LBP，Local BinaryPattern)算法。LBP方法首先将图像分成若干区域，在每个区域的像素640*960邻域中用中心值作阈值化，将结果看成是二进制数，从而得到人脸特征。

最后，进行人脸识别和位置校对。当提取到主播的脸部特征后，客户端会将提取到的脸部特征，位置信息发送给后台，后台会和***预置的人脸位置进行匹配，确定主播人脸主体的位置是否在***推荐位置之外。

在一些实施例中，步骤S602在实现时，还可以是客户端仅进行图像采集，并将采集后的图像发送至后台，由后台进行人脸检测、特征提取和人脸识别过程，并且由后台进行人脸位置与***推荐位置的匹配，以确定主播人脸主体的位置是否在***推荐位置之外。

步骤S602’在实现时，客户端实时采集直播间主播的说话声音，并对主播的声音进行预处理和声音特征提取。

在开始语音识别之前，需要运用到静音切除操作技术(VAD，Voice ActivityDetection)对声音进行分析，把主播的声音分帧，切开成一小段一小段，每小段称为一帧，帧与帧之间一般是有交叠的(如图10所示)。把首尾端的静音切除，降低对后续步骤造成的干扰。在图10中，两帧音频1001和1002，每帧的长度为25毫秒，每两帧之间有25-10＝15毫秒的交叠。分帧后，语音就变成了很多小段，根据人耳的生理特性，把每一帧波形变成一个多维向量，进行声学特征提取。通过分段的声学特征和声音波频，判断主播是否有在说话。

在一些实施例中，步骤S602’在实现时，可以是客户端采集直播间的音频数据，然后将采集到的音频数据发送至后台，由后台对主播的声音进行预处理和声音特征提取，以确定主播是否在说话。

在本申请实施例提供的直播指导方法中，新手主播开播的场景下，客户端对主播进行人脸识别和语音识别，并结合服务器的数据进行匹配(此数据是针对主播开播技巧的一些指引说明和互动引导，用来辅助新手主播)，当满足触发条件时，后台会请求服务器的数据，并下发给到对应主播id的客户端，客户端视觉化呈现相关指引给到主播。如此，通过AI识别，实时的引导主播，不仅可以提高主播的直播技巧，从而提高主播的自信心，还可以优化新手主播的开播体验，提升平台新主播的开播率和留存率。

需要说明的是，本申请实施例提供的直播指导方法，除了针对新手主播外，也可以用在所有主播开播的场景，基于AI识别和智能化推送操作和互动指引，提高直播间的互动效果。

下面继续说明本申请实施例提供的直播指导装置154实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器150的直播指导装置154中的软件模块可以是主播终端100中的直播指导装置，包括：

第一呈现模块1541，用于响应于针对主播终端开始直播的启动操作，呈现直播播放界面，并采集媒体数据；

第二呈现模块1542，用于基于采集到的媒体数据，在该直播播放页面中呈现直播内容；

浮层加载模块1543，用于当基于该采集到的媒体数据确定满足直播指导的执行条件时，获取用于指导直播的指导信息，并在该主播终端的显示界面中加载浮层；

第三呈现模块1544，用于在该浮层中呈现该指导信息。

在一些实施例中，该媒体数据至少包括图像数据，对应地，该装置还包括：

人脸检测模块，用于对采集到的图像数据进行人脸检测；

第一获取模块，用于当确定该图像数据中包括人脸区域时，获取人脸区域的位置信息和预设的推荐区域；

第一确定模块，用于当基于该人脸区域的位置信息确定该人脸区域不位于该推荐区域时，确定满足直播指导的执行条件。

在一些实施例中，该第一确定模块还用于：

当基于该人脸区域的位置信息确定该人脸区域不位于该推荐区域时，获取人脸区域不位于该推荐区域的第一时长；

当该第一时长大于预设的第一时长阈值时，确定满足直播指导的执行条件。

在一些实施例中，该浮层加载模块1543还用于：

在该直播播放界面的第一区域加载浮层，该第一区域包括该推荐区域；

对应地，该第三呈现模块还用于：

在该浮层中呈现该推荐区域的边缘，以指导主播将人脸移动至该推荐区域。

在一些实施例中，该装置还包括：

第二获取模块，用于当检测到人脸区域移动至该推荐区域中时，获取人脸区域位于该推荐区域的第二时长；

浮层关闭模块，用于当确定第二时长大于预设的第二时长阈值时，关闭该浮层。

在一些实施例中，该装置还包括：

第四呈现模块，用于当检测到人脸区域移动至该推荐区域中时，在该浮层中呈现第一控件，该第一控件用于指示在满足直播指导的执行条件时不再呈现指导信息；

指导关闭模块，用于在接收到针对第一控件的第一操作后，再次满足直播指导的执行条件时，不再呈现指导信息，或者在接收到针对第一控件的第一操作后，不再监测是否满足直播指导的执行条件。

在一些实施例中，该媒体数据还包括音频数据，对应地，该装置还包括：

特征提取模块，用于对采集到的音频数据进行声学特征提取，得到该音频数据的声学特征；

第二确定模块，用于基于该声学特征，确定主播是否正在讲话；

第二获取模块，用于当确定主播没有讲话时，获取主播没有讲话的第三时长；

第三确定模块，用于当确定第三时长大于第三时长阈值时，确定满足直播指导的执行条件。

在一些实施例中，该浮层加载模块1543还用于：

当该直播内容是以全屏形式播放时，在该直播播放界面的第二区域加载浮层，该第二区域不包括人脸区域所对应的推荐区域；

当该直播内容以非全屏形式播放时，在该直播播放界面之外的显示区域加载浮层。

在一些实施例中，该第三呈现模块1544，还用于：

在该浮层中呈现用于指导主播与观众进行互动的素材标签；

对应地，该方法还包括：

响应于针对目标素材标签的选择操作，在该浮层中呈现该目标素材标签对应的互动素材。

在一些实施例中，该装置还包括：

第五呈现模块，用于响应于针对目标素材标签的选择操作，在该浮层中呈现更新互动素材的第二控件和关闭浮层的第三控件；

更新模块，用于当接收到针对该第二控件的第二操作时，响应该第二操作，更新该浮层中呈现的互动素材；

该浮层关闭模块，还用于当接收到针对该第三控件的第三操作时，响应于该第三操作，关闭该浮层。

在一些实施例中，该装置还包括：

第三获取模块，用于获取主播直播间对应的观众人数和关注主播的粉丝人数；

判断模块，用于当基于该观众人数和该粉丝分数确定达到预设的判断条件时，判断是否满足直播指导的执行条件。

在一些实施例中，该装置还包括：

发送模块，用于将采集到的媒体数据发送至服务器，以使得该服务器确定是否满足直播指导的执行条件；

第四确定模块，用于当接收到服务器发送的指导信息时，确定满足直播指导的执行条件。

需要说明的是，本申请实施例装置的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

本申请实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图3、图4、图5和图6示出的方法。

在一些实施例中，存储介质可以是计算机可读存储介质，例如，铁电存储器(FRAM，Ferromagnetic Random Access Memory)、只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM，Electrically Erasable Programmable Read Only Memory)、闪存、磁表面存储器、光盘、或光盘只读存储器(CD-ROM，Compact Disk-Read Only Memory)等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种直播指导方法，其特征在于，包括：

基于采集到的媒体数据，在所述直播播放界面中呈现直播内容；

当基于所述采集到的媒体数据确定满足直播指导的执行条件时，获取用于指导直播的指导信息，并在所述主播终端的显示界面中加载浮层；

在所述浮层中呈现所述指导信息；

当所述媒体数据包括音频数据时，所述指导信息包括与观众进行互动的互动素材；对应地，所述方法还包括：

对采集到的音频数据进行声学特征提取，得到所述音频数据的声学特征；

根据所述声学特征和参考声学特征之间的相似度，确定主播是否正在讲话，所述参考声学特征为预先提取的所述主播的声学特征；

当确定所述主播没有讲话时，获取所述主播没有讲话的第三时长；

当确定所述第三时长大于第三时长阈值时，确定满足直播指导的执行条件。

2.根据权利要求1中所述的方法，其特征在于，当所述媒体数据包括图像数据时，对应地，所述方法还包括：

对采集到的图像数据进行人脸检测；

当确定所述图像数据中包括人脸区域时，获取人脸区域的位置信息和预设的推荐区域；

当基于所述人脸区域的位置信息确定所述人脸区域不位于所述推荐区域时，确定满足直播指导的执行条件。

3.根据权利要求2中所述的方法，其特征在于，当基于所述人脸区域的位置信息确定所述人脸区域不位于所述推荐区域时，确定满足直播指导的执行条件，包括：

当基于所述人脸区域的位置信息确定所述人脸区域不位于所述推荐区域时，获取人脸区域不位于所述推荐区域的第一时长；

当所述第一时长大于预设的第一时长阈值时，确定满足直播指导的执行条件。

4.根据权利要求2中所述的方法，其特征在于，所述在所述主播终端的显示界面中加载浮层，包括：

在所述直播播放界面的第一区域加载浮层，所述第一区域包括所述推荐区域；

对应地，在所述浮层中呈现用于指导直播的指导信息，包括：

在所述浮层中呈现所述推荐区域的边缘，以指导主播将人脸移动至所述推荐区域。

5.根据权利要求2至4中任一项所述的方法，其特征在于，在所述浮层中呈现用于指导直播的指导信息之后，所述方法还包括：

当检测到人脸区域移动至所述推荐区域中时，获取人脸区域位于所述推荐区域的第二时长；

当确定第二时长大于预设的第二时长阈值时，关闭所述浮层。

6.根据权利要求5中所述的方法，其特征在于，所述方法还包括：

当检测到人脸区域移动至所述推荐区域中时，在所述浮层中呈现第一控件，所述第一控件用于指示在满足直播指导的执行条件不再呈现指导信息；

在接收到针对第一控件的第一操作后，再次满足直播指导的执行条件时，不再呈现指导信息，或者在接收到针对第一控件的第一操作后，不再监测是否满足直播指导的执行条件。

7.根据权利要求1中所述的方法，其特征在于，所述在所述主播终端的显示界面中加载浮层，包括：

当所述直播内容是以全屏形式播放时，在所述直播播放界面的第二区域加载浮层，所述第二区域不包括人脸区域所对应的推荐区域；

当所述直播内容以非全屏形式播放时，在所述直播播放界面之外的显示区域加载浮层。

8.根据权利要求7中所述的方法，其特征在于，所述在所述浮层中呈现所述指导信息，包括：

在所述浮层中呈现用于指导主播与观众进行互动的素材标签；

对应地，所述方法还包括：

响应于针对目标素材标签的选择操作，在所述浮层中呈现所述目标素材标签对应的互动素材。

9.根据权利要求8中所述的方法，其特征在于，所述方法还包括：

响应于针对目标素材标签的选择操作，在所述浮层中呈现更新互动素材的第二控件和关闭浮层的第三控件；

当接收到针对所述第二控件的第二操作时，响应所述第二操作，更新所述浮层中呈现的互动素材；

当接收到针对所述第三控件的第三操作时，响应于所述第三操作，关闭所述浮层。

10.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

获取主播直播间对应的观众人数和关注主播的粉丝人数；

当基于所述观众人数和所述粉丝人数确定达到预设的判断条件时，判断是否满足直播指导的执行条件。

11.根据权利要求1中所述的方法，其特征在于，所述方法还包括：

将采集到的媒体数据发送至服务器，以使得所述服务器确定是否满足直播指导的执行条件；

当接收到服务器发送的指导信息时，确定满足直播指导的执行条件。

12.一种直播指导装置，其特征在于，包括：

第二呈现模块，用于基于采集到的媒体数据，在所述直播播放界面中呈现直播内容；

浮层加载模块，用于当基于所述采集到的媒体数据确定满足直播指导的执行条件时，获取用于指导直播的指导信息，并在所述主播终端的显示界面中加载浮层；

第三呈现模块，用于在所述浮层中呈现用于指导直播的指导信息；

当所述媒体数据包括音频数据时，所述指导信息包括与观众进行互动的互动素材；对应地，所述装置还包括：

特征提取模块，用于对采集到的音频数据进行声学特征提取，得到所述音频数据的声学特征；

第二确定模块，用于根据所述声学特征和参考声学特征之间的相似度，确定主播是否正在讲话，所述参考声学特征为预先提取的所述主播的声学特征；

第二获取模块，用于当确定所述主播没有讲话时，获取所述主播没有讲话的第三时长；

第三确定模块，用于当确定所述第三时长大于第三时长阈值时，确定满足直播指导的执行条件。

13.一种直播指导设备，其特征在于，包括：

存储器，用于存储可执行指令；处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至11任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至11任一项所述的方法。