CN112770173A

CN112770173A - 直播画面处理方法、装置、计算机设备及存储介质

Info

Publication number: CN112770173A
Application number: CN202110120986.6A
Authority: CN
Inventors: 刘平
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-05-07

Abstract

本申请公开了一种直播画面处理方法、装置、计算机设备及存储介质，属于计算机技术领域。本申请通过在包含两路视频数据的直播场景中，设置调整第二视频数据的背景图像的功能，根据对第一视频数据中的第一视频帧、第二视频数据中的第二视频帧、语音数据中任一项的识别结果，确定对第二视频数据中的背景图像的调整方式，实现对第二视频数据的背景图像进行灵活地调整，从而提高第二视频数据的显示效果以及直播画面的整体视觉效果，也能够避免第二视频数据对第一视频画面的显示效果造成影响。

Description

直播画面处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种直播画面处理方法、装置、计算机设备及存储介质。

背景技术

随着互联网以及多媒体技术的发展，网络直播逐渐成为一种重要的娱乐方式，直播内容也越来越多样化。目前，在直播界面中可以同时显示两路视频数据，以游戏直播为例，在直播界面中可以显示对游戏的运行画面进行录制所得到的第一视频数据，还可以显示对主播用户进行拍摄所得到的第二视频数据。

通常情况下，该第二视频数据会叠加在第一视频数据上进行显示，这就导致第二视频数据会对第一视频数据中的一部分画面造成遮挡，且第二视频数据的显示效果也会影响整体直播画面的视觉效果。因此，如何对直播画面进行数据处理，以降低第二视频数据对第一视频数据的显示效果的影响，提高第二视频数据以及整体直播画面的视觉效果是一个重要研究方向。

发明内容

本申请实施例提供了一种直播画面处理方法、装置、计算机设备及存储介质，能够提高视频数据的显示效果以及直播画面的整体视觉效果。该技术方案如下：

一方面，提供了一种直播画面处理方法，该方法包括：

获取第一视频数据和第二视频数据，该第一视频数据是对当前显示界面进行录制得到的视频数据，该第二视频数据是实时采集得到的视频数据；

对该第一视频数据中的第一视频帧、该第二视频数据中的第二视频帧或该第二视频数据中的语音数据中的至少一项进行识别，得到识别结果；

基于该识别结果对应的调整方式，对该第二视频帧中的背景图像进行调整；

根据该第一视频帧和调整后的该第二视频帧生成直播画面，将该直播画面显示于直播界面中。

一方面，提供了一种直播画面处理装置，该装置包括：

获取模块，用于获取第一视频数据和第二视频数据，该第一视频数据是对当前显示界面进行录制得到的视频数据，该第二视频数据是实时采集得到的视频数据；

识别模块，用于对该第一视频数据中的第一视频帧、该第二视频数据中的第二视频帧或该第二视频数据中的语音数据中的至少一项进行识别，得到识别结果；

调整模块，用于基于该识别结果对应的调整方式，对该第二视频帧中的背景图像进行调整；

生成模块，用于根据该第一视频帧和调整后的该第二视频帧生成直播画面，将该直播画面显示于直播界面中。

在一种可能实现方式中，该图像截取单元，用于：

获取目标位置信息，该目标位置信息用于指示该目标区域在该第一视频帧图像中的位置；

基于该目标位置信息，从该第一视频帧图像中截取该目标区域的该目标图像。

在一种可能实现方式中，该装置还包括模型训练模块，用于：

获取至少两个第一样本图像，该第一样本图像携带有位置标注信息以及匹配参数标注信息，该标注位置信息用于指示该第一样本图像中包含有关键信息的目标区域的位置，该匹配参数标注信息用于指示该目标区域的目标图像中是否包括待识别的关键信息；

基于该至少两个第一样本图像中该目标区域的目标图像对该第一识别模型进行训练，得到训练完成的该第一识别模型。

在一种可能实现方式中，该识别模块包括，包括下述至少一项：

第二识别子模块，用于对该第二视频帧进行手势识别，得到该第二视频帧所包括的手势，该手势用于指示对该第二视频帧中的背景图像进行调整；

第三识别子模块，用于对该语音数据进行语音识别，得到语音指令，该语音指令用于指示对该第二视频帧中的背景图像进行调整。

在一种可能实现方式中，该调整模块，用于执行下述任一项：

响应于该识别结果对应于第一调整方式，去除该第二视频帧中的背景图像；

响应于该识别结果对应于第二调整方式，对该第二视频帧中的背景图像进行模糊处理；

响应于该识别结果对应于第三调整方式，将该第二视频帧中的背景图像替换为参考图像。

在一种可能实现方式中，该装置还包括：

发送模块，用于将该直播画面发送至服务器，该服务器用于将该直播画面发送至观众用户的终端。

在一种可能实现方式中，该识别模块，用于：

响应于背景调整功能处于开启状态，对该第一视频数据中的第一视频帧、该第二视频数据中的第二视频帧或该第二视频数据中的语音数据中的至少一项进行识别，得到识别结果，该背景调整功能用于指示是否允许调整该第二视频数据的背景图像。

在一种可能实现方式中，该识别模块，用于：

响应于该背景调整功能处于开启状态，且自动调整背景功能处于开启状态，对该第一视频数据中的第一视频帧进行识别，得到第一识别结果；

响应于该背景调整功能处于开启状态，且手势调整背景功能处于开启状态，对该第二视频数据中的视频帧图像进行识别，得到第二识别结果；

响应于该背景调整功能处于开启状态，且语音调整背景功能处于开启状态，对该直播语音数据进行识别，得到第三识别结果。

一方面，提供了一种计算机设备，该计算机设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条计算机程序，该至少一条计算机程序由该一个或多个处理器加载并执行以实现该直播画面处理方法所执行的操作。

一方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行以实现该直播画面处理方法所执行的操作。

一方面，提供了一种计算机程序产品，该计算机程序产品包括至少一条计算机程序，该至少一条计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该至少一条计算机程序，处理器执行该至少一条计算机程序，使得该计算机设备执行上述直播画面处理方法所执行的操作。

本申请实施例提供的技术方案，通过在包含两路视频数据的直播场景中，设置调整第二视频数据的背景图像的功能，根据对第一视频数据中的第一视频帧、第二视频数据中的第二视频帧、语音数据中任一项的识别结果，确定对第二视频数据中的背景图像的调整方式，实现对第二视频数据的背景图像进行灵活地调整，从而提高第二视频数据的显示效果以及直播画面的整体视觉效果，也能够避免第二视频数据对第一视频画面的显示效果造成影响。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种直播画面处理方法的实施环境示意图；

图2是本申请实施例提供的一种直播界面的示意图；

图3是本申请实施例提供的一种直播画面处理方法的流程图；

图4是本申请实施例提供的一种直播界面的示意图；

图5是本申请实施例提供的一种直播画面处理方法的流程图；

图6是本申请实施例提供的一种直播配置界面的示意图；

图7是本申请实施例提供的一种背景调整配置界面的示意图；

图8是本申请实施例提供的一种直播界面的示意图；

图9是本申请实施例提供的一种图像分割的示意图；

图10是本申请实施例提供的一种直播画面的示意图；

图11是本申请实施例提供的一种直播画面处理过程的示意图；

图12是本申请实施例提供的一种直播画面处理装置的结构示意图；

图13是本申请实施例提供的一种终端的结构示意图；

图14是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本申请涉及人工智能(Artificial Intelligence,AI)技术，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请主要涉及人工智能技术中的机器学习技术、计算机视觉技术以及自然语言处理技术，基于机器学习技术，对终端所搭载的图像识别模型、图像分割模型以及语音识别模型进行训练，使终端具备图像识别、图像分割以及语音识别功能。示例性的，在直播过程中，终端调用图像识别功能、语音识别功能，对直播数据中的图像和语音数据进行识别，从而确定出对直播数据中背景图像的处理指令，再调用图像分割功能将直播数据中的背景图像分割出来，对背景图像进行模糊处理、替换等。

以下，对本申请实施例所涉及的名词进行解释：

虚拟摄像头：是指的软件摄像机，能够模拟成为“真实的”摄像机，可以在任一支持摄像头的应用中使用。

触发器：是指当达到某一条件就会触发下一步骤的控制模块，在本申请实施例中，第一终端所运行的第一应用中部署有触发器，用于识别对背景图像进行调整的指令。

游戏直播：是指应用互联网以及流媒体技术在游戏运行的同时，对游戏的运行界面进行播出，使观众用户能够看到主播用户的终端上所呈现的游戏运行界面。

语音识别：是指计算机设备将人类的语音内容识别为相应的文字。

手势识别：是指计算机设备理解人体肢体语言的一种手段，目的是通过数学算法来识别人类手势。

图像识别：是指应用计算机设备对图像进行处理、分析和理解，以识别各种不同模式的目标和对像的技术。

图1是本申请实施例提供的一种直播画面处理方法的实施环境示意图，示例性的，该实施环境包括第一终端101和服务器102。

其中，第一终端101是主播用户使用的终端，该第一终端101安装和运行有支持视频直播的第一应用，例如，该第一应用是直播助手应用，该第一终端101能够通过该第一应用生成直播画面，将直播画面以数据流的形式推送至服务器102。可选的，该第一终端101可以是智能手机、平板电脑、笔记本电脑、电子书阅读器、MP3(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机、台式计算机、智能电视、智能车载设备等，本申请实施例对此不作限定。在一种可能实现方式中，该第一终端101配置有摄像头，或者连接有摄像头，该第一终端101通过摄像头采集视频数据。在一种可能实现方式中，该第一终端101还可以与其他终端相连接，获取其他终端所采集的视频数据，示例性地，该第一终端101是笔记本电脑，该笔记本电脑可以通过有线或无线通信方式与手机相连接，该手机可以通过摄像头采集视频数据，或者进行屏幕录制生成视频数据，将视频数据发送至该笔记本电脑。

服务器102可以是上述第一应用的后台服务器，用于将第一终端101所发送的数据流转发至观众用户所使用的第二终端。可选的，该服务器102是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式***，或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器，本申请实施例对此不作限定。

可选的，上述第一终端101和服务器102之间通过有线或无线通信方式进行直接或间接地连接。本领域技术人员可以知晓，上述终端的数量可以更多或更少，例如，上述终端可以仅为一个，也可以为几十个或几百个，或者更多数量。本申请实施例对上述实施环境中终端的数量和设备类型不加以限定。

本申请实施例提供的直播画面处理方法可以与多种类型的直播场景相结合。以游戏直播场景为例，在游戏直播场景中，为了使观众用户能够更直观的看到主播用户在游戏过程中的状态，通常会采集两路视频数据，一路是用于呈现游戏运行界面的视频数据，另一路是用于呈现主播用户的画面的视频数据，也即是，直播界面除了显示有游戏运行界面以外，还显示有主播用户的画面，参见图2，图2是本申请实施例提供的一种直播界面的示意图，该直播界面包括游戏运行界面201和主播用户的画面202，如图2所示，主播用户的画面202是叠加在游戏运行界面201的上方进行显示的，这就对游戏运行界面201造成了遮挡，而且主播用户的画面202中所呈现的环境杂乱时，也会影响直播界面的整体视觉效果，在这种情况下应用本方案，第一终端可以自动对主播用户的画面中的背景图像进行调整，例如，去除背景图像，更换视觉效果更好的背景图像等，以避免主播用户的画面影响游戏运行界面的显示效果，进而提高直播界面的整体视觉效果。当然，本申请实施例提供的技术方案，也可以应用于其他类型的直播场景中，本申请实施例对此不做限定。

图3是本申请实施例提供的一种直播画面处理方法的流程图。该方法可以应用于上述实施环境，在本申请实施例中，以第一终端作为执行主体，对该直播画面处理方法进行介绍，参见图3，在一种可能实现方式中，该实施例包括以下步骤：

301、第一终端获取第一视频数据和第二视频数据，该第一视频数据是对当前显示界面进行录制得到的视频数据，该第二视频数据是实时采集得到的视频数据。

示例性地，该第一视频数据是该第一终端对当前运行的第二应用的运行界面进行录制得到的视频数据，也可以是其他终端对当前运行的第三应用的运行界面进行录制得到的视频数据，由该其他终端将该第一视频数据发送给该第一终端。其中，该第二应用、第三应用可以为任一类型的应用，例如，该第二应用、第三应用为游戏类应用，本申请实施例对此不做限定。示例性地，该第二视频数据是该第一终端通过内置的摄像头，或者外接的摄像头所实时拍摄的，也可以是通过虚拟摄像头所获取的。需要说明的是，本申请实施例对该第一视频数据、第二视频数据的内容和获取方法不做限定。

302、第一终端对该第一视频数据中的第一视频帧、该第二视频数据中的第二视频帧或该第二视频数据中的语音数据中的至少一项进行识别，得到识别结果。

在一中可能实现方式中，该第一终端对该第一视频帧进行图像识别，判断该第一视频帧中是否有关键信息被遮挡；或者，对第二视数据中的第二视频帧进行图像识别，例如，识别主播用户的手势等动作；或者，对第二视频数据中的语音数据进行识别，判断主播用户是否触发了语音指令。当然，该第一终端可以对第一视频数据、第二视频数据的其他信息进行识别，本申请实施例对该识别结果的获取方法不做限定。在本申请实施例中，通过设置多种识别方式，即设置多种触发背景图像调整的方式，使主播用户能够灵活地对视频数据的背景图像进行调整，提高人机交互的便捷性，提高人机交互效率。

303、第一终端基于该识别结果对应的调整方式，对该第二视频帧中的背景图像进行调整。

其中，对该背景图像进行调整的方式包括去除背景图像、对背景图像进行模糊处理、更换背景图像等。

在一种可能实现方式中，第一终端可以基于该识别结果，确定是否对第二视频帧的背景图像进行调整，以及，基于哪种调整方式对该背景图像进行调整。示例性的，若该第一终端识别到第一视频帧中有关键信息被遮挡，则可以将第二视频帧中的背景图像去除；若该第一终端识别到了目标手势，则基于该目标手势所指示的调整方式，对该背景图像进行调整；若第一终端识别到了语音指令，则基于该语音指令所指示的调整方式，对该背景图像进行调整。

304、第一终端根据该第一视频帧和调整后的该第二视频帧生成直播画面，将该直播画面显示于直播界面中。

在一种可能实现方式中，第一终端对第一视频数据和调整后的第二视频数据进行合并，将合并后的视频数据在直播界面进行显示，也即是，直播界面所显示的直播画面，是由第一视频帧和调整后的第二视频帧合并得到的。图4是本申请实施例提供的一种直播界面的示意图，如图4所示，该直播界面显示有第一视频帧401，以及，去除背景的第二视频帧402。

上述实施例是对本申请技术方案的简要介绍，以下结合图5，对直播画面处理方法进行具体说明。图5是本申请实施例提供的一种直播画面处理方法的流程图，参见图5，在一种可能实现方式中，该实施例包括以下步骤：

501、第一终端显示直播配置界面，获取该直播配置界面中的配置信息。

在本申请实施例中，该第一终端运行有支持视频直播的第一应用，用户可以通过该第一应用来配置直播界面所显示的直播素材，以及，直播素材的所对应的素材采集设备。例如，直播界面显示有至少一个直播素材，该直播素材可以包括***画面、电脑游戏画面、摄像头画面等视频素材，也可以包括图像、文字等，其中，电脑游戏画面、图像所对应的素材采集设备可以是该第一终端，***画面所对应的素材采集设备可以是该第一终端所连接的其他终端，摄像头画面所对应的素材采集设备可以是该第一终端，或者该第一终端所连接的摄像头，文字所对应的素材采集设备可以是该第一终端。需要说明的是，本申请实施例对该直播界面所显示的直播素材以及各个直播素材的获取方式不做限定。

示例性地，第一终端显示有直播配置界面，该直播配置界面用于提供直播素材选择功能，以及，配置直播素材所对应的素材采集设备的功能。图6是本申请实施例提供的一种直播配置界面的示意图，如图6中的(a)图所示，该直播配置界面包括直播素材选择区域601以及素材采集设备配置区域602，该直播素材选择区域601显示有至少一个直播素材对应的选择控件603。以***画面对应的选择控件被选中为例，如图6中的(b)图所示，素材采集设备配置区域显示有多个配置项目，该配置项目用于对运行游戏的目标手机的信息进行配置，示例性地，素材采集设备配置区域显示手机***选择项目、声音播放方式选择项目等。在一种可能实现方式中，该素材采集设备配置区域还显示有二维码，目标手机可以通过扫描该二维码与该第一终端建立起连接，从而将视频数据等发送至该第一终端。需要说明的是，上述对目标手机与第一终端建立连接的方法的说明，仅是一种可能实现方式的示例性说明，本申请实施例对具体采用哪种方法建立设备之间的数据连接不做限定。以直播素材选择区域中摄像头画面对应的选择控件被选中为例，如图6中的(c)图所示，该素材采集设备配置区域显示有第一终端所连接的至少一个摄像头的设备名称，用户可以选择其中任一摄像头作为本次直播所应用的设备，当然，在该素材采集设备配置区域还可以对分辨率、音频输出方式、是否开启美颜等进行配置，本申请实施例对此不做限定。

需要说明的是，上述对直播配置界面的说明，仅是一种示例性说明，本申请实施例对直播配置界面所包括的内容不做限定。在本申请实施例中，该第一终端可以获取该直播配置界面的配置信息，基于该配置信息确定本次直播过程中在直播界面所显示的至少一个直播素材，以及，获取各个直播素材所应用的素材采集设备。

502、第一终端基于该配置信息获取第一视频数据和第二视频数据。

在本申请实施例中，以直播界面至少显示有两个直播素材，且该两个直播素材均为视频素材为例。该第一终端基于该配置信息确定各个视频素材对应的素材采集设备，通过素材采集设备获取第一视频数据和第二视频数据。在一种可能实现方式中，该第一视频数据是对当前显示界面进行录制得到的视频数据，该第二视频数据是实时采集得到的视频数据。示例性地，该第一视频数据是对该第一终端的当前显示界面进行录制得到的视频数据，也可以是对与第一终端相连接的其他终端的当前显示界面进行录制所得到的，例如，该第一视频数据是对***的运行界面进行录制得到的视频数据。在一种可能实现方式中，该第二视频数据包括图像数据以及语音数据。其中，该第二视频数据中的图像数据可以是该第一终端内置的摄像头，或者与该第一终端相连接的摄像头所实时拍摄的，例如，该第二视频数据是摄像头对主播用户进行拍摄所得到的视频数据，该第二视频数据中的图像数据也可以是虚拟摄像头所采集的视频数据，例如，该第二视频数据是包含主播用户的视频数据，也可以是包含主播用户所对应的虚拟形象的视频数据；该第二视频数据中的语音数据可以是第一终端所内置的语音采集设备所采集的，也可以是该第一终端所连接的麦克风所采集的。需要说明的是，本申请实施例对第一视频数据、第二视频数据的具体内容和获取方式不做限定。

503、第一终端检测第二视频数据所对应的背景调整功能的状态，基于该背景调整功能的状态，执行下述步骤504至步骤506。

在一种可能实现方式中，该第一终端所运行的第一应用能够提供对视频数据的背景图像进行调整的功能，例如，对去除视频数据中的背景图像，对背景图像进行模糊处理，对背景图像进行替换等。在本申请实施例中，以对第二视频数据的背景图像进行调整为例，该第一终端显示有背景调整配置界面，该背景调整配置界面包括背景调整功能的开启控件，该背景调整功能用于指示是否允许调整该第二视频数据的背景图像，若该背景调整功能处于开启状态，则表示允许第一终端对该第二视频数据的背景图像进行调整，否则，不允许对该第二视频数据的背景图像进行调整。在一种可能实现方式中，可以通过至少一种触发方式，来触发对第二视频数据的背景图像进行调整。示例性地，该背景调整配置界面显示有自动调整背景功能的开启控件、手势调整背景功能的开启控件、语音调整背景功能的开启控件。其中，该自动调整背景功能是指可以由第一终端智能识别是否需要对第二视频数据的背景图像进行调整，例如，若第一终端识别到第二视频数据对第一视频数据造成了遮挡，则第一终端可以自动去除该第二视频数据的背景图像；该手势调整背景功能是指通过特定手势来触发对第二视频数据的背景图像进行调整，例如，不同手势对应于不同的背景图像调整方式；该语音调整背景功能是指通过语音指令来触发对第二视频数据的背景图像进行调整，例如，主播用户在直播过程中可以下达语音指令，若第一终端识别到该语音指令，则基于该语音指令对该第二视频数据的背景图像进行调整。图7是本申请实施例提供的一种背景调整配置界面的示意图，参见图7，该背景调整配置界面显示有多个功能对应的开启控件，还显示有多个背景调整效果示意图701。需要说明的是，上述对背景调整配置界面的说明，仅是一种示例性说明，本申请实施例对该背景调整配置界面的具体样式不做限定。

在本申请实施例中，响应于该背景调整功能处于开启状态，且自动调整背景功能处于开启状态，该第一终端对该第一视频数据中的第一视频帧进行识别，得到识别结果，也即是，该第一终端执行下述步骤504，判断第二视频数据是否对第一视频数据造成遮挡。响应于该背景调整功能处于开启状态，且手势调整背景功能处于开启状态，该第二终端对该第二视频数据中的视频帧图像进行识别，得到识别结果，也即是，该第二终端执行下述步骤505，识别主播用户的手势指令。响应于该背景调整功能处于开启状态，且语音调整背景功能处于开启状态，该第一终端对该直播语音数据进行识别，得到识别结果，也即是，该第一终端执行下述步骤506，识别主播用户的语音指令。在本申请实施例中，通过设置多种触发背景图像调整的方式，包括AI(Artificial Intelligence，人工智能)智能触发、手势触发、语音触发等，使主播用户能够灵活地对视频数据的背景图像进行调整，提高人机交互的便捷性，提高人机交互效率。

需要说明的是，在本申请实施例中，仅以对第二视频数据的背景图像进行调整为例进行说明，在一些实施例中，也可以对第一视频数据的背景图像进行调整，或者，对第一视频数据、第二视频数据的背景图像均进行调整，本申请实施例对此不做限定。

504、第一终端对该第一视频数据中的第一视频帧进行识别，得到第一识别结果。

在一中可能实现方式中，可以基于第一视频数据和第二视频数据在直播界面中的显示位置，在该第一视频数据的第一视频帧中确定出目标区域，该目标区域是被该第二视频数据的显示区域所遮挡的区域，也即是，在直播界面中，该目标区域与该第二视频数据的显示区域有重合。在一种可能实现方式中，该第一终端可以每隔第一参考时长，从第一视频数据中截取第一视频帧，对该第一视频帧中目标区域的目标图像进行图像识别，得到第一识别结果，即该目标图像对应的关键信息匹配参数。其中，该第一参考时长由开发人员进行设置，本申请实施例对此不做限定。该关键信息匹配参数用于指示该目标图像中所包括的信息与待识别的关键信息之间的匹配度。该待识别的关键信息可以由开发人员进行设置，不同的第一视频数据所包含的关键信息不同，示例性地，以第一视频数据是对竞技对战游戏的运行界面进行录制得到的视频数据为例，则该第一视频帧可以是竞技对战游戏的运行界面，对于该竞技对战游戏来说，该关键信息可以包括竞技对战的虚拟地图、虚拟道具信息、对战信息等，则该目标区域可以是对战的虚拟地图、虚拟道具信息、对战信息等的显示区域。该目标区域的位置可以由开发人员进行设置，该目标区域的数目可以为一个也可以为多个，本申请实施例对此不做限定，在本申请实施例中仅以一个目标区域为例进行说明。图8是本申请实施例提供的一种直播界面的示意图，以游戏直播场景为例，该直播界面中所显示的第一视频帧的画面为竞技对战游戏的运行界面，该第一视频帧中的目标区域为虚拟地图的显示区域，即801区域。

以下，对该目标区域中的目标图像的获取和识别过程进行说明。在一种可能实现方式中，该第一终端先在该第一视频帧图像中截取该目标区域的该目标图像，例如，第一终端该获取目标位置信息，基于该目标位置信息，从该第一视频帧图像中截取该目标区域的该目标图像。其中，该目标位置信息用于指示该目标区域在该第一视频帧图像中的位置，该目标位置信息可以包括目标区域的左上顶点的坐标、该目标区域的宽度值和高度值，在一种可能实现方式中，该目标位置信息可以存储在目标配置文件中读取的，该第一终端通过读取该目标配置文件来获取该目标位置信息。在一中可能实现方式中，该第一终端所运行的第一应用中部署有训练好的第一识别模型，该第一识别模型用于用于识别该目标图像中是否包含待识别的关键信息。示例性地，该第一识别模型是轻量级模型SqueezeNet(压缩卷积神经网络)，该第一识别模型是深度压缩的模型，模型参数较少，可选的，还可以结合上deep compression(深度压缩)技术对该第一识别模型进行进一步压缩，压缩比可以达到461X。在一种可能实现方式中，该第一终端将该目标图像输入第一识别模型，通过该第一识别模型对该目标图像的图像特征与该关键信息对应的关键特征进行对比，得到该关键信息匹配参数。该训练好的该第一识别模型包括待识别的关键信息对应的参考特征，该第一识别网络通过多个运算层对该目标图像进行特征提取，得到该目标图像的图像特征，基于该参考特征以及该图像特征生成关键信息匹配参数，也即是，该第一识别结果。需要说明的是，上述对目标图像的识别和获取方法的说明，仅是一种示例性说明，本申请实施例对采用哪种方法获取和识别该目标图像不做限定。

以下，对该第一识别模型的训练过程进行说明，在一种可能实现方式中，可以通过第三终端对该第一识别模型进行训练，其中，该第三终端是开发人员所使用的终端，在本申请实施例中，模型训练所应用的深度学习框架可以是Caffe(卷积神经网络框架)。在一种可能实现方式中，该第一终端获取至少两个第一样本图像，该第一样本图像携带有位置标注信息以及匹配参数标注信息，该位置标注信息用于指示该第一样本图像中包含有关键信息的目标区域的位置，该匹配参数标注信息用于指示该第一样本图像中是否包括待识别的关键信息。基于该至少两个第一样本图像对第一识别模型进行训练，得到训练完成的该第一识别模型。示例性的，该第一终端可以应用ffmpeg(fast forward mpeg，多媒体数据处理工具)按照每秒一张的速度从第一样本图像中截取该位置标注信息所指示的区域中的图像，将截取到的图像作为训练数据，输入该第一识别模型，该第一识别模型输出该训练数据所对应的关键信息匹配参数，确定该关键信息匹配参数与对应的匹配参数标注信息之间的误差值，将该误差值反向传播至该第一识别模型，对该第一识别模型中各个运算层的参数进行调整，直到该第一识别模型满足模型收敛条件，停止模型训练，得到训练完成的第一识别模型，该训练完成的第一识别模型即为学习到关键信息的参考特征的模型。需要说明的是，上述对第一识别模型的训练方法的说明，仅是一种可能实现方式的示例性说明，本申请实施例对具体采用哪种方式对第一识别模型进行训练不做限定，示例性的，在模型训练过程中，还可以对第一样本数据进行数据增强处理，例如对第一样本数据进行图像对比度变换、增加噪声等，以丰富训练样本。在本申请实施例中，开发人员通过第三终端对该第一识别模型训练完成后，可以将该第一识别模型部署在第一应用中，主播用户所使用的第一终端在应用该第一应用进行直播时，可以调用该第一识别模型对第一视频数据中的视频帧进行图像识别。

在本申请实施例中，通过对目标区域的目标图像进行识别，判断该目标图像中是否包含关键信息，也即是，判断第二视频数据是否对第一视频数据中的关键信息造成遮挡，进而确定是否对第二视频数据的背景图像进行调整，以避免第二视频数据对第一视频数据的显示效果造成影响。

505、第一终端对该第二视频数据中的第二视频帧进行识别，得到第二识别结果。

在一种可能实现方式中，该第一终端可以每隔第二参考时长，从第二视频数据中截取第二视频帧，对该第二视频帧进行手势识别，得到该第二视频帧所包括的手势。其中，该第二参考时长由开发人员进行设置，本申请实施例对此不做限定。该手势用于对指示对该第二视频帧中的背景图像进行调整，示例性的，不同手势对应于不同的背景图像调整方式。在一种可能实现方式中，该第一终端可以调用第二识别模型进行手势识别，该第二识别模型可以部署在该第一应用中，也可以部署在该第一应用所对应的服务器中，该第二识别模型包括至少一种手势所对应的图像特征，示例性的，该第一终端通过该第二识别模型中的多个运算层提取第二视频帧图像特征，基于该第二视频帧的图像特征，识别第二视频帧是否包括手势，以及，该第二识别帧所包括是哪种手势。需要说明的是，上述对手势识别方法的说明，仅是一种示例性说明，本申请实施例对手势识别的方法不做限定。该第二识别模型的训练过程与上述步骤504中第一识别模型的训练过程同理，在此不做赘述。在本申请实施例中，在第二识别模型的训练过程中，所应用的深度学习框架可以是U-Net全卷积神经网络，训练好的第二识别模型可以部署在第一应用中，也可以部署在第一应用对应的服务器中。

以下结合游戏直播场景，以主播用户在游戏直播过程中通过手势调整直播背景为例进行说明，在一种可能实现方式中，第一终端获取第一视频数据和第二视频数据，示例性的，该第一视频数据可以是对游戏运行画面进行录制所得到的视频流数据，第二视频数据是摄像头对主播用户进行拍摄得到的视频流数据，该第一视频数据和第二视频数据的显示方式可以如图2所示，第一视频数据显示在201区域，第二视频数据显示在202区域。在本申请实施例中，在游戏直播过程中，主播用户能够对着摄像头做出任一手势，摄像头将包括主播用户的手势的第二视频数据发送给第一终端，该第一终端对第二视频数据中的第二视频帧进行识别，识别出第二视频帧中所包括的手势。示例性的，第一手势为伸出一个手指，表示去除主播用户的直播背景，即去除第二视频数据中的背景图像；第二手势、第三手势、第四手势分别为伸出两个、三个、四个手指，均表示将主播用户的直播背景替换为其他图像，不同手势所指示的图像不同，也即是，将第二视频数据中的背景图像替换为主播用户的手势所指示的图像；第五手势为伸出五个手指，表示对主播用户的直播背景进行模糊处理；可选的，主播用户还能够对模糊处理的程度进行调整，例如，第五手势表示对背景图像进行轻度模糊处理，第六手势为握拳，表示对背景进行重度模糊处理。需要说明的是，上述对手势与背景图像的处理方式之间的对应关系说明，仅是一种可能实现方式的示例性说明，本申请实施例对此不作限定。在一种可能实现方式中，若第一终端未检测到主播用户做出手势，则不对第二视频数据的背景图像进行处理；或者，若第一终端检测到主播用户所做出的手势不标准，可以不对第二视频数据的背景图像进行处理，在直播界面显示提示信息，该提示信息用于提示主播用户重新做出手势。

需要说明的是，在本申请实施例中，仅以对第二视频帧进行手势识别为例进行说明，在一些实施例中，也可以对第二视频帧进行动作识别、表情识别等，本申请实施例对此不做限定。

在本申请实施例中，通过对第二视频帧进行图像识别，也即是，对包含主播用户的视频画面进行识别，能够实现基于主播用户的手势，来灵活地调整视频数据的背景图像，无需主播用户手动在第一应用中通过选择控件开手动选择，有效提高了背景图像调整过程中的人机交互效率。

506、第一终端对该第二视频数据中的语音数据进行识别，得到第三识别结果。

在一种可能实现方式中，第一终端可以对该直播语音数据进行语音识别，得到语音指令，其中，该语音指令用于指示对该第二视频帧中的背景图像进行调整，不同语音指令对应于不同的背景图像调整方式。在一种可能实现方式中，该第一终端可以调用第三识别模型执行上述语音识别步骤，该第三识别模型可以部署在第一应用中，也可以部署在该第一应用所对应的服务器上，本申请实施例对此不做限定。示例性的，用户可以应用参考句式下达语音指令，该参考句式可以为“魔镜魔镜，第X种背景调整方式”，其中，X可以为任一数字，用于指示背景调整方式的序号，当然，该参考句式也可以为其他句式，本申请实施例对此不做限定。该第三识别模型可以对语音数据中的参考句式进行识别，得到该语音指令，即得到第三识别结果。需要说明的是，本申请实施例对第三识别模型进行语音识别的过程、第三识别模型的训练过程不做限定。

在本申请实施例中，通过对第二视频帧中的语音数据进行识别，也即是，对主播用户的语音指令进行识别，来灵活地调整视频数据的背景图像，无需主播用户手动在第一应用中通过选择控件开手动选择，有效提高了背景图像调整过程中的人机交互效率。

需要说明的是，第一终端在直播过程中，可以执行上述步骤504至步骤506中的至少一项，例如，可以仅对第一视频帧进行识别，也可以对第一视频帧和第二视频帧进行识别，还可以对第一视频帧、第二视频帧以及语音数据均进行识别，本申请实施例对上述识别方式的组合方法不做限定。

507、第一终端基于上述识别结果对应的调整方式，对该第二视频帧中的背景图像进行调整。

在一种可能实现方式中，响应于该识别结果对应于第一调整方式，去除该第二视频帧中的背景图像。示例性的，若该第一终端获取到的识别结果是关键信息匹配参数，且该关键信息匹配参数大于参数阈值，则表示第一视频帧的目标区域的目标图像中包括关键信息，该第一视频帧在直播界面显示时，其中的关键信息会被第二视频帧遮挡，在这种情况下，该第一终端可以基于第一调整方式，去除该第二视频帧中的背景图像。示例性的，在对竞技对战类游戏进行直播的场景中，在进入一局竞技对战后，会在游戏运行界面的目标区域显示本局竞技对战对应的虚拟地图，即显示有关键信息，在未进入竞技对战，或者退出竞技对战后，该目标区域不再显示有虚拟地图，即不再显示关键信息，在这种情况下，只有在用户参与竞技对战时，才对第二视频数据的背景图像进行去除，避免该背景图像遮挡关键信息，可选的，在竞技对战完成后，则可以恢复对该第二视频数据的背景图像的显示。其中，该参数阈值由开发人员进行设置，例如，该参数阈值可以设置为0.95。或者，该第一终端所识别到的手势、语音指令对应于该第一调整方式，则该第一终端去除该第二视频帧中的背景图像。

在一种可能实现方式中，响应于该识别结果对应于第二调整方式，第一终端对该第二视频帧中的背景图像进行模糊处理。示例性的，若该第一终端所识别到的手势、语音指令对应于该第二调整方式，则该第一终端对该第二视频帧中的背景图像进行模糊处理，例如，对该背景图像进行高斯模糊。

在一种可能实现方式中，响应于该识别结果对应于第三调整方式，第一终端将该第二视频帧中的背景图像替换为参考图像。示例性的，若该第一终端所识别到的手势、语音指令对应于该第三调整方式，则该第一终端对该第二视频帧中的背景图像进行替换。在本申请实施例中，可以设置有多个参考图像，不同手势或语音指令，可以对应于不同的参考图像，该参考图像可以由开发人员进行设置，也可以由用户自行上传。

以下，对上述背景图像去除、背景图像模糊处理、背景图像替换的方法进行说明。在一种可能实现方式中，该第一终端所运行的第一应用中部署有图像分割模型，该第一终端将第二视频帧输入该图像分割模型，由图像分割模型对该第二视频帧中的各个像素点进行分类，判断各个像素点属于背景区域，或者前景区域，示例性的，该图像分割模型可以输出第二视频帧中各个像素点的分类信息，该分类信息可以表示为4字节的Float数据，例如，1.0表示像素点属于前景区域，0.0表示像素点属于背景区域，该图像分别模型所输出的分类信息的数据量等于该第二视频帧的宽度值*高度值，图9是本申请实施例提供的一种图像分割的示意图，该第二视频帧如图9中的(a)图所示，基于图像分割模型所得到的图像分割结果如图9中的(b)图所示。在本申请实施例中，该第一终端可以基于第二视频帧中各个像素点的分类信息，对该第二视频帧的背景图像进行进调整。在一种可能实现方式中，该第一终端基于该第二视频帧中各个像素点的颜色，将各个像素点分别表示为一个[r，g，b，a]数组，其中r表示红色色值，g表示绿色色值，b表示蓝色色值，a表示像素点的透明度。对于去除背景图像这种调整方式，该第一终端可以将每个像素点对应的分类信息，赋值给其对应的[r，g，b，a]数组中的a，也即是，对于属于前景区域的像素点，其对应的数组为[r，g，b，1]，即属于前景区域的像素点是不透明的，对于属于背景区域的像素点，其对应的数组为[r，g，b，0]，即属于背景区域的像素点是透明的。在本申请实施例中，通过调整像素点的透明度，可以灵活、准确的去除第二视频帧中的背景图像。对于背景图像模糊处理这种调整方式，第一终端可以对第二视频帧中的各个像素点进行模糊处理，模糊处理后的像素点表示为[r’，g’，b’，a’]，若像素点属于背景区域，则将该像素点所对应的数组调整为[r’，g’，b’，a]，若像素点属于前景区域，则不对该像素点所对应的数组进行调整，即还表示为[r，g，b，a]。对于背景图像替换这种调整方式，以将第二视频帧中的背景图像替换为参考图像为例，该第二终端获取参考图像中的各个像素点对应的数组[r”，g”，b”，a”]，若第二视频帧中的某一像素点属于背景区域，则将该某一像素点对应的数组调整为[r”，g”，b”，a]，若第二视频帧中的某一像素点属于前景区域，则不对该某一像素点所对应的数组进行调整，即还表示为[r，g，b，a]。需要说明的是，上述对第二视频帧的背景图像的调整方法的说明，仅是一种可能实现方式的示例性说明，本申请实施例对具体采用哪种方法调整第二视频帧的背景图像不做限定。

在本申请实施例中，设置多种背景调整方式，主播用户可以基于直播界面中视频数据的实际显示情况，对第二视频数据的背景图像进行调整，例如，若第二视频数据对第一视频数据造成了遮挡，则可以直接对第二视频图像的背景数据进行去除，若第二视频数据的背景图像的视觉效果较差，则可以对该背景图像进行模糊处理，或者图像替换，有效提高直播画面的整体视觉效果，提升观众用户观看直播的视觉体验。

508、第一终端根据该第一视频帧和调整后的该第二视频帧生成直播画面，将该直播画面显示于直播界面中。

在一种可能实现方式中，该第一终端可以基于第一视频帧和第二视频帧在直播界面的显示位置，对该第一视频帧和调整后的第二视频帧进行合并，得到直播画面，将该直播画面显示在直播界面。在本申请实施例中，该第一终端还可以以数据流的形式将直播画面推送至该第一应用对应的服务器，再由服务器将直播画面以数据流的形式发送至各个观众用户的终端，在各个观众用户的终端显示该直播画面。图10是本申请实施例提供的一种直播画面的示意图，图10中的(a)图所示的为去除第二视频帧中背景图像的效果，图10中的(b)图所示的为对第二视频帧中的背景图像进行模糊处理的效果(图中以斜线表示模糊处理效果)，图10中的(c)图所示的为对第二视频帧中的背景图像进行替换的效果。

图11是本申请实施例提供的一种直播画面处理过程的示意图，以下结合图11，以游戏直播场景为例，对上述直播画面的处理过程进行说明，在一种可能实现方式中，第一终端上部署有触发器1101，该触发器用于进行图像识别以及语音数据，即该触发器用于执行上述步骤504至步骤506，该第一终端可以第一应用中已启用的触发方式，将游戏画面、麦克风语音数据以及摄像头画面输入该触发器1101，获取该触发器1101所输出的识别结果，若该识别结果能够触发对摄像头画面的背景图像进行调整，则对当前的摄像头画面进行标注，以指示允许对该摄像头画面以及之后的摄像头画面进行背景调整。该第一终端可以基于该识别结果，确定对摄像头画面的背景图像的调整方式，将摄像头画面输入图像分割引擎1102，由图像分割引擎1102分割出摄像头画面中的背景图像，将图像分割结果输入纹理合成器1103，该纹理合成器基于背景图像的调整方式，对摄像头画面中的背景图像进行调整，包括去除背景图像、对背景图像进行模糊处理，更换背景图像等。在本申请实施例中，通过设置多种触发方式，主播用户可以灵活地对摄像头画面中的背景图像进行调整，即对当前所处直播环境的显示效果进行调整，来优化摄像头画面的显示效果，也能够避免直播的背景过于单调，提高直播的趣味性，提高观众用户观看直播的视觉体验。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图12是本申请实施例提供的一种直播画面处理装置的结构示意图，参见图12，该装置包括：

获取模块1201，用于获取第一视频数据和第二视频数据，该第一视频数据是对当前显示界面进行录制得到的视频数据，该第二视频数据是实时采集得到的视频数据；

识别模块1202，用于对该第一视频数据中的第一视频帧、该第二视频数据中的第二视频帧或该第二视频数据中的语音数据中的至少一项进行识别，得到识别结果；

调整模块1203，用于基于该识别结果对应的调整方式，对该第二视频帧中的背景图像进行调整；

生成模块1204，用于根据该第一视频帧和调整后的该第二视频帧生成直播画面，将该直播画面显示于直播界面中。

在一种可能实现方式中，该识别模块1202包括第一识别子模块，用于：

对该第一视频帧中目标区域的目标图像进行图像识别，得到该目标图像对应的关键信息匹配参数，该关键信息匹配参数用于指示该目标图像中所包括的信息与待识别的关键信息之间的匹配度。

在一种可能实现方式中，该第一识别子模块，包括：

图像截取单元，用于在该第一视频帧图像中截取该目标区域的该目标图像；

图像识别单元，用于将该目标图像输入第一识别模型，通过该第一识别模型对该目标图像的图像特征与该关键信息对应的关键特征进行对比，得到该关键信息匹配参数。

在一种可能实现方式中，该图像截取单元，用于：

在一种可能实现方式中，该识别模块1202包括，包括下述至少一项：

在一种可能实现方式中，该调整模块1203，用于执行下述任一项：

在一种可能实现方式中，该装置还包括：

在一种可能实现方式中，该识别模块1202，用于：

本申请实施例提供的装置，通过在包含两路视频数据的直播场景中，设置调整第二视频数据的背景图像的功能，根据对第一视频数据中的第一视频帧、第二视频数据中的第二视频帧、语音数据中任一项的识别结果，确定对第二视频数据中的背景图像的调整方式，实现对第二视频数据的背景图像进行灵活地调整，从而提高第二视频数据的显示效果以及直播画面的整体视觉效果，也能够避免第二视频数据对第一视频画面的显示效果造成影响。

需要说明的是：上述实施例提供的直播画面处理装置在直播画面处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的直播画面处理装置与直播画面处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图13是本申请实施例提供的一种终端的结构示意图。该终端1300可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1300还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1300包括有：一个或多个处理器1301和一个或多个存储器1302。

处理器1301可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1301可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1301也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1301可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1301还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1302中的非暂态的计算机可读存储介质用于存储至少一条计算机程序，该至少一条计算机程序用于被处理器1301所执行以实现本申请中方法实施例提供的直播画面处理方法。

在一些实施例中，终端1300还可选包括有：***设备接口1303和至少一个***设备。处理器1301、存储器1302和***设备接口1303之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口1303相连。具体地，***设备包括：射频电路1304、显示屏1305、摄像头组件1306、音频电路1307、定位组件1308和电源1309中的至少一种。

***设备接口1303可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器1301和存储器1302。在一些实施例中，处理器1301、存储器1302和***设备接口1303被集成在同一芯片或电路板上；在一些其他实施例中，处理器1301、存储器1302和***设备接口1303中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1304用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1304将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1304包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1304还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1305用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1305是触摸显示屏时，显示屏1305还具有采集在显示屏1305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1301进行处理。此时，显示屏1305还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1305可以为一个，设置终端1300的前面板；在另一些实施例中，显示屏1305可以为至少两个，分别设置在终端1300的不同表面或呈折叠设计；在一些实施例中，显示屏1305可以是柔性显示屏，设置在终端1300的弯曲表面上或折叠面上。甚至，显示屏1305还可以设置成非矩形的不规则图形，也即异形屏。显示屏1305可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1306用于采集图像或视频。可选地，摄像头组件1306包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1306还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1307可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1301进行处理，或者输入至射频电路1304以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1300的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1301或射频电路1304的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1307还可以包括耳机插孔。

定位组件1308用于定位终端1300的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1308可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。

电源1309用于为终端1300中的各个组件进行供电。电源1309可以是交流电、直流电、一次性电池或可充电电池。当电源1309包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1300还包括有一个或多个传感器1310。该一个或多个传感器1310包括但不限于：加速度传感器1311、陀螺仪传感器1312、压力传感器1313、指纹传感器1314、光学传感器1315以及接近传感器1316。

加速度传感器1311可以检测以终端1300建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1311可以用于检测重力加速度在三个坐标轴上的分量。处理器1301可以根据加速度传感器1311采集的重力加速度信号，控制显示屏1305以横向视图或纵向视图进行用户界面的显示。加速度传感器1311还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1312可以检测终端1300的机体方向及转动角度，陀螺仪传感器1312可以与加速度传感器1311协同采集用户对终端1300的3D动作。处理器1301根据陀螺仪传感器1312采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1313可以设置在终端1300的侧边框和/或显示屏1305的下层。当压力传感器1313设置在终端1300的侧边框时，可以检测用户对终端1300的握持信号，由处理器1301根据压力传感器1313采集的握持信号进行左右手识别或快捷操作。当压力传感器1313设置在显示屏1305的下层时，由处理器1301根据用户对显示屏1305的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1314用于采集用户的指纹，由处理器1301根据指纹传感器1314采集到的指纹识别用户的身份，或者，由指纹传感器1314根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1301授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1314可以被设置终端1300的正面、背面或侧面。当终端1300上设置有物理按键或厂商Logo时，指纹传感器1314可以与物理按键或厂商Logo集成在一起。

光学传感器1315用于采集环境光强度。在一个实施例中，处理器1301可以根据光学传感器1315采集的环境光强度，控制显示屏1305的显示亮度。具体地，当环境光强度较高时，调高显示屏1305的显示亮度；当环境光强度较低时，调低显示屏1305的显示亮度。在另一个实施例中，处理器1301还可以根据光学传感器1315采集的环境光强度，动态调整摄像头组件1306的拍摄参数。

接近传感器1316，也称距离传感器，通常设置在终端1300的前面板。接近传感器1316用于采集用户与终端1300的正面之间的距离。在一个实施例中，当接近传感器1316检测到用户与终端1300的正面之间的距离逐渐变小时，由处理器1301控制显示屏1305从亮屏状态切换为息屏状态；当接近传感器1316检测到用户与终端1300的正面之间的距离逐渐变大时，由处理器1301控制显示屏1305从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图13中示出的结构并不构成对终端1300的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图14是本申请实施例提供的一种服务器的结构示意图，该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)1401和一个或多个的存储器1402，其中，该一个或多个存储器1402中存储有至少一条计算机程序，该至少一条计算机程序由该一个或多个处理器1401加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器1400还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1400还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括至少一条计算机程序的存储器，上述至少一条计算机程序可由处理器执行以完成上述实施例中的直播画面处理方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-OnlyMemory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，提供了一种计算机程序产品，该计算机程序产品包括至少一条计算机程序，该至少一条计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该至少一条计算机程序，处理器执行该至少一条计算机程序，使得该计算机设备执行上述直播画面处理方法所执行的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种直播画面处理方法，其特征在于，所述方法包括：

获取第一视频数据和第二视频数据，所述第一视频数据是对当前显示界面进行录制得到的视频数据，所述第二视频数据是实时采集得到的视频数据；

对所述第一视频数据中的第一视频帧、所述第二视频数据中的第二视频帧或所述第二视频数据中的语音数据中的至少一项进行识别，得到识别结果；

基于所述识别结果对应的调整方式，对所述第二视频帧中的背景图像进行调整；

根据所述第一视频帧和调整后的所述第二视频帧生成直播画面，将所述直播画面显示于直播界面中。

2.根据权利要求1所述的方法，其特征在于，所述对所述第一视频数据中的第一视频帧、所述第二视频数据中的第二视频帧或所述第二视频数据中的语音数据中的至少一项进行识别，得到识别结果，包括：

对所述第一视频帧中目标区域的目标图像进行图像识别，得到所述目标图像对应的关键信息匹配参数，所述关键信息匹配参数用于指示所述目标图像中所包括的信息与待识别的关键信息之间的匹配度。

3.根据权利要求2所述的方法，其特征在于，所述对所述第一视频帧中目标区域的目标图像进行图像识别，得到所述目标图像对应的关键信息匹配参数，包括：

在所述第一视频帧图像中截取所述目标区域的所述目标图像；

将所述目标图像输入第一识别模型，通过所述第一识别模型对所述目标图像的图像特征与所述关键信息对应的关键特征进行对比，得到所述关键信息匹配参数。

4.根据权利要求3所述的方法，其特征在于，所述在所述第一视频帧图像中截取所述目标区域的所述目标图像，包括：

获取目标位置信息，所述目标位置信息用于指示所述目标区域在所述第一视频帧图像中的位置；

基于所述目标位置信息，从所述第一视频帧图像中截取所述目标区域的所述目标图像。

5.根据权利要求3所述的方法，其特征在于，所述将所述目标图像输入第一识别模型之前，所述方法还包括：

获取至少两个第一样本图像，所述第一样本图像携带有位置标注信息以及匹配参数标注信息，所述标注位置信息用于指示所述第一样本图像中包含有关键信息的目标区域的位置，所述匹配参数标注信息用于指示所述目标区域的目标图像中是否包括待识别的关键信息；

基于所述至少两个第一样本图像中所述目标区域的目标图像对所述第一识别模型进行训练，得到训练完成的所述第一识别模型。

6.根据权利要求1所述的方法，其特征在于，所述对所述第一视频数据中的第一视频帧、所述第二视频数据中的第二视频帧或所述第二视频数据中的语音数据中的至少一项进行识别，得到识别结果，包括下述至少一项：

对所述第二视频帧进行手势识别，得到所述第二视频帧所包括的手势，所述手势用于指示对所述第二视频帧中的背景图像进行调整；

对所述语音数据进行语音识别，得到语音指令，所述语音指令用于指示对所述第二视频帧中的背景图像进行调整。

7.根据权利要求1所述的方法，其特征在于，所述基于所述识别结果对应的调整方式，对所述第二视频帧中的背景图像进行调整，包括下述任一项：

响应于所述识别结果对应于第一调整方式，去除所述第二视频帧中的背景图像；

响应于所述识别结果对应于第二调整方式，对所述第二视频帧中的背景图像进行模糊处理；

响应于所述识别结果对应于第三调整方式，将所述第二视频帧中的背景图像替换为参考图像。

8.根据权利要求1所述的方法，其特征在于，所述根据所述第一视频帧和调整后的所述第二视频帧生成直播画面之后，所述方法还包括：

将所述直播画面发送至服务器，所述服务器用于将所述直播画面发送至观众用户的终端。

9.根据权利要求1所述的方法，其特征在于，所述对所述第一视频数据中的第一视频帧、所述第二视频数据中的第二视频帧或所述第二视频数据中的语音数据中的至少一项进行识别，得到识别结果，包括：

响应于背景调整功能处于开启状态，对所述第一视频数据中的第一视频帧、所述第二视频数据中的第二视频帧或所述第二视频数据中的语音数据中的至少一项进行识别，得到识别结果，所述背景调整功能用于指示是否允许调整所述第二视频数据的背景图像。

10.根据权利要求9所述的方法，其特征在于，所述响应于背景调整功能处于开启状态，对所述第一视频数据中的第一视频帧、所述第二视频数据中的第二视频帧或所述第二视频数据中的语音数据中的至少一项进行识别，得到识别结果，包括：

响应于所述背景调整功能处于开启状态，且自动调整背景功能处于开启状态，对所述第一视频数据中的第一视频帧进行识别，得到第一识别结果；

响应于所述背景调整功能处于开启状态，且手势调整背景功能处于开启状态，对所述第二视频数据中的视频帧图像进行识别，得到第二识别结果；

响应于所述背景调整功能处于开启状态，且语音调整背景功能处于开启状态，对所述直播语音数据进行识别，得到第三识别结果。

11.一种直播画面处理装置，其特征在于，所述装置包括：

获取模块，用于获取第一视频数据和第二视频数据，所述第一视频数据是对当前显示界面进行录制得到的视频数据，所述第二视频数据是实时采集得到的视频数据；

识别模块，用于对所述第一视频数据中的第一视频帧、所述第二视频数据中的第二视频帧或所述第二视频数据中的语音数据中的至少一项进行识别，得到识别结果；

调整模块，用于基于所述识别结果对应的调整方式，对所述第二视频帧中的背景图像进行调整；

生成模块，用于根据所述第一视频帧和调整后的所述第二视频帧生成直播画面，将所述直播画面显示于直播界面中。

12.根据权利要求11所述的装置，其特征在于，所述识别模块包括第一识别子模块，用于：

13.根据权利要求12所述的装置，其特征在于，所述第一识别子模块，包括：

图像截取单元，用于在所述第一视频帧图像中截取所述目标区域的所述目标图像；

图像识别单元，用于将所述目标图像输入第一识别模型，通过所述第一识别模型对所述目标图像的图像特征与所述关键信息对应的关键特征进行对比，得到所述关键信息匹配参数。

14.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求10任一项所述的直播画面处理方法所执行的操作。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求10任一项所述的直播画面处理方法所执行的操作。