CN114339393A

CN114339393A - 直播画面的显示处理方法、服务器、设备、***及介质

Info

Publication number: CN114339393A
Application number: CN202111362016.3A
Authority: CN
Inventors: 曾家乐
Original assignee: Guangzhou Cubesili Information Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2022-04-12

Abstract

本申请公开了直播画面的显示处理方法、服务器、电子设备、直播***及存储介质。其中方法包括：获取目标对象的目标对象数据和背景图像的背景图像数据；将目标对象数据和背景图像数据发送给用户终端，使得用户终端用于将目标对象数据和背景图像数据进行组合，以在直播画面中将目标对象的图层显示于背景图像的图层之上，且进一步用于响应于视角调整指令以对直播画面中显示的目标对象进行与视角调整指令相匹配的视角调整。通过上述方式，本申请增强直播画面的交互功能。

Description

直播画面的显示处理方法、服务器、设备、***及介质

技术领域

本申请涉及直播技术领域，特别是涉及直播画面的显示处理方法、服务器、电子设备、直播***及存储介质。

背景技术

随着智能设备的普及以及通信技术的发展，社会进入了智能互联的时代。网络通信速度越来越快，人们能够方便地使用智能设备畅游网络。直播技术的出现，丰富了智能设备的使用场景，人们可以随时随地观看直播或者进行直播，进而也丰富了人们的生活。

目前的直播间的直播画面与观众用户之间的交互功能少，且往往容易呈现出呆滞感，导致观众用户的粘性较差。

发明内容

本申请主要解决的技术问题是提供播画面的显示处理方法、服务器、电子设备、直播***及存储介质，能够增强直播画面的交互功能。

为解决上述技术问题，本申请采用的第一个技术方案是：提供一种直播画面的显示处理方法，该方法包括：获取目标对象的目标对象数据和背景图像的背景图像数据；将目标对象数据和背景图像数据发送给用户终端，使得用户终端用于将目标对象数据和背景图像数据进行组合，以在直播画面中将目标对象的图层显示于背景图像的图层之上，且进一步用于响应于视角调整指令以对直播画面中显示的目标对象进行与视角调整指令相匹配的视角调整。

为解决上述技术问题，本申请采用的第二个技术方案是：提供一种直播画面的显示处理方法，该方法包括：获取目标对象的目标对象数据和背景图像的背景图像数据；将目标对象数据和背景图像数据组合，以在直播画面中将目标对象的图层显示于背景图像的图层之上；响应于视角调整指令，至少对直播画面中显示的目标对象进行与视角调整指令相匹配的视角调整。

为解决上述技术问题，本申请采用的第三个技术方案是：提供一种服务器，该服务器包括处理器、收发器和存储器，存储器和收发器分别耦接处理器，存储器存储有计算机程序，处理器能够执行计算机程序以实现如上所述的显示处理方法。

为了解决上述技术问题，本申请采用的第四个技术方案是：提供一种电子设备，该电子设备包括显示器、处理器、收发器和存储器，显示器、存储器和收发器分别耦接处理器，存储器存储有计算机程序，处理器能够执行计算机程序以实现如上所述的显示处理方法。

为了解决上述技术问题，本申请采用的第五个技术方案是：一种直播***，包括如上所述的服务器和如上所述的电子设备，服务器和电子设备通信连接。

为了解决上述技术问题，本申请采用的第六个技术方案是：提供一种计算机可读的存储介质，该存储介质存储有计算机程序，所述计算机程序能够被处理器执行，以实现如上所述的显示处理方法。

本申请的有益效果是：区别于现有技术的情况，通过将目标对象数据和背景图像数据发送给用户终端，使得用户终端将目标对象数据和背景图像数据组合后，直播画面中所呈现的目标对象的图层位于背景图像的图层之上，目标对象和背景图像的图层不同以能够相对独立，并非是同一张图，进而目标对象不受制于背景图像，如此用户能够单独对目标对象或者背景图像进行交互操作，如进行视角调整，用户终端能够响应于视角调整指令对目标对象进行相应的视角调整，有效地增强了直播画面的交互功能，便于用户在直播过程中对目标对象进行视角调整，提升直播过程的可玩性以及观感，减少直播过程的呆滞感，进而提升用户粘性。

附图说明

图1是本申请直播***实施例的***组成示意图；

图2是本申请直播画面的显示处理方法第一实施例的流程示意图；

图3是本申请直播画面的显示处理方法第一实施例的时序流程示意图；

图4是本申请直播画面的显示处理方法第一实施例的一示例性场景示意图；

图5是本申请直播画面的显示处理方法第一实施例的另一示例性场景示意图；

图6是本申请直播画面的显示处理方法第一实施例的全局颜色直方示意图；

图7是本申请直播画面的显示处理方法第二实施例的流程示意图；

图8是本申请服务器实施例的电路结构示意框图；

图9是本申请电子设备实施例的电路结构示意框图；

图10是本申请计算机可读的存储介质的电路结构示意框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的发明人经过长期研究发现，主播在直播时的直播画面往往是相对静态的。例如，主播的神态变化往往是依赖于主播本人的表情以及动作变化，观众不能对此进行交互或者操作，或者直播画面中的其他物体也往往是静止不动的，用户不能改变其状态。观众和直播的交换，往往是在观众赠送虚拟礼物的时候，在直播画面上产生相应的特效，而这实际上也并没有改变直播画面本来的面貌。因此，此种相对静态的画面观感，随着直播时间的持续，存在呆滞之感，交互功能欠缺，导致观众的观看粘性较差。为了改善上述技术问题，本申请提出以下实施例。

如图1所示，本申请直播***实施例描述的直播***1可以包括服务器10、主播端30和观众终端30。主播终端20和观众终端30可以为电子设备，具体地，主播终端20和观众终端30为安装有相应客户端的电子设备，可以是移动终端、计算机、服务器或者其他终端等，移动终端可以是手机、笔记本电脑、平板电脑、智能穿戴设备等，计算机可以是台式电脑等。主播终端20和观众终端30均为用户终端。服务器10可以从主播终端20中进行对直播数据流拉流，并将获取的直播数据流推流到观众终端30。观众终端30获取到直播数据流后即可观看主播或者嘉宾的直播过程。直播数据流的混流可以发生在服务器10、主播终端20和观众终端30中的至少一方。主播终端20和主播终端20之间、主播终端20和观众终端30之间均可以进行视频连麦或语音连麦。在视频连麦中，连麦方可以将包括视频流在内的直播数据流推送到服务器10，进而将相应的直播数据推送至相应的连麦方以及观众终端30。主播终端20和观众终端30能够在直播间中显示到相应的直播画面。直播画面中可以显示有目标对象，例如主播的人脸，或者是其他物体。当然，主播终端20和观众终端30是相对而言的，处于在直播过程中的终端为主播终端20，处于观看直播过程的终端为观众终端30。

如图2所示，本申请直播画面的显示处理方法第一实施例，例如以服务器10为执行主体，包括：

S100：获取目标对象的目标对象数据和背景图像的背景图像数据。

目标对象例如是显示于直播间的直播画面中的物体/对象，可以是人脸对象、躯干对象、动物对象或者其他的静物对象。目标对象数据例如是至少包括目标对象的图像数据在内的数据。背景图像例如是基于直播画面中目标所在的场景，或者用于衬托目标对象的场景等所形成的背景。背景图像数据例如是至少包括背景图像的图像数据在内的数据。

服务器10获取目标对象数据和背景图像数据的方式有多种。其一、服务器10可以从用户终端，例如主播终端20，获取目标对象数据和背景图像数据。其二、服务器10也可以对获取到的视频流进行相应处理后生成目标对象数据和背景图像数据。当然，服务器10还可以从云端、U盘或其他设备等上获取目标对象数据和背景图像数据。

如图3所示，对于服务器10以自行生成方式获取目标对象数据和背景图像数据而言，具体可以参见如下步骤：

S110：采集直播画面对应视频流中的预设视频帧。

视频流是主播终端20在直播过程中所产生的。服务器10在直播过程中可以获取到包括有视频流的直播数据流。观众终端30在接收到其对应的直播数据流后可以呈现出直播画面。服务器10可以采集视频流中的预设视频帧。预设视频帧可以是指在视频流中确定的显示有目标对象的一帧或多帧视频帧。在直播过程中，服务器10可以以预设间隔或者在预设条件触发下采集预设视频帧。

S120：对预设视频帧进行分割处理以生成目标对象数据和背景图像数据。

服务器10在采集到预设视频帧后，对预设视频帧进行分割处理，例如将目标对象从预设视频帧分割出，使得目标对象和背景相互分离，相互独立。服务器10对预设视频帧进行分割处理可以目标对象数据和背景图像数据，如此服务器10也就可以获取到目标对象数据和背景图像数据。

至于具体的分割过程，可以参见步骤S120包括的如下步骤：

S121：在预设视频帧中识别目标对象。

服务器10在采集到预设视频帧后，利用相应的识别算法，例如深度神经网络(比如目标检测算法、图像分割网络)等，识别出目标对象。进一步地，可以利用YOLO算法识别目标对象。例如，目标对象可以为人脸对象，服务器10则利用人脸识别算法在预设视频帧这一图像中识别出人脸对象。

S122：在识别出目标对象后，从预设视频帧中分割出目标对象，以获得目标对象数据。

具体地，服务器10可以利用神经网络算法，例如图像分割网络，从预设视频帧中将目标对象分割出，并获得目标对象数据。目标对象数据例如可以包括目标对象的位置数据、分割位置数据以及图像数据等。

目标对象的分割位置例如为第一分割位置，服务器10可以利用第一分割位置对预设视频帧进行切割。具体可以参见步骤S122包括的如下步骤：

S1221：在预设视频帧中确定用于分割目标对象的第一分割位置。

可选地，服务器10可以利用图像分割网络在预设视频帧中确定第一分割位置。例如，在识别出目标对象后，图像分割网络可以沿目标对象的外边缘确定第一分割位置。第一分割位置可以以坐标数据进行表示，例如在预设视频帧中的坐标位置，或者在显示屏中的坐标位置。

S1222：按照第一分割位置从预设视频帧中分割出目标对象，以获得目标对象的图像数据以及第一分割位置对应的第一分割位置数据。

在确定出第一分割位置后，服务器10可以沿着/按照第一分割位置对预设视频帧进行分割，进而将目标对象从预设视频帧中分割出来，使得目标对象和剩余背景相互分离。如此，能够获取分割出来的目标对象的图像数据和第一分割位置数据，也即上述提及的目标对象数据。第一分割位置数据便于后续用户终端将目标对象重新贴回背景图像中，实现图像组合。

S123：对预设视频帧分割出目标对象后的剩余背景进行填充处理，以获得背景图像数据。

在分割出目标对象之后，预设视频帧的剩余背景会存在原本被目标对象所占据的空缺区域。服务器10可以进一步对预设视频帧分割出目标对象后的剩余背景进行填充处理，具体可以填充空缺区域，以使得剩余背景可以成为一张完整的背景图像，进而获得背景图像数据。

对预设视频帧分割出目标对象后的剩余背景进行填充处理的方式有很多，以下示例性地列举其中的几种。

第一种方式：可以通过生成对抗网络进行填充补全。具体参见如下步骤：

S1231：利用训练好的生成对抗网络对预设视频帧分割出目标对象后的剩余背景中的空缺区域进行填充补全。

生成对抗网络是一种深度学习模型，是一类用于无监督机器学习的人工智能算法。生成对抗网络一般包括两个部分：生成器和判别器，生成器和判别器通过拟合相应的生成和判别函数实现相应的功能。具体地，生成器可以为神经网络模型，判别器也可以为神经网络模型。例如，生成器用来填充剩余背景以生成一张新的背景图像，判断器用于判断该新的背景图像是不是“真实”的，如果不是“真实”的，就把结果反馈给生成器，生成器继续优化后并生成又一张新的背景图像，形成一种动态博弈的过程。目的是生成器最后能够生成一张足以“以假乱真”的背景图像，最后达到将剩余背景填充完整的目的。

如此，利用生成对抗网络对空缺区域进行填充补全，使得背景图像更自然、更协调、更真实，进而提升视觉效果和美观度，便于提升用户粘性。

第二种方式：利用神经网络采集邻近颜色对空缺区域进行补全。具体可以参见如下步骤：

S1232：利用神经网络采集预设视频帧分割出目标对象后的空缺区域邻近的颜色信息对空缺区域进行颜色填充。

利用空缺区域周边的颜色信息对空缺区域进行补全，使得空缺区域在补全后能够和外周邻近区域形成一体，使得背景图像整体更协调和自然。颜色信息可以是指与颜色有关的信息或数据，例如可以包括色值、饱和度、对比度、亮度等中的一者或多者。利用神经网络采集邻近颜色信息对空缺区域进行填充，能够使得空缺区域被补全后显得更加自然和逼真，减少填补痕迹，最终使得背景图像更加完整、协调。

当然，除了上述服务器10对采集到的预设视频帧进行分割处理，并对剩余背景进行填充的方式外，服务器10也可以直接获取由主播终端20发送的目标对象数据和背景图像数据。换言之，上述关于具体如何获得目标对象数据和背景图像数据的步骤也可以在主播终端20上执行。主播终端20通过摄像头等获取到视频流后，可以采集其中的一帧或多帧作为预设视频帧，并对预设视频帧进行分割处理，生成上述描述的目标对象数据和背景图像数据，并发送给服务器10，进而服务器10可以获取到目标对象数据和背景图像数据。

S200：将目标对象数据和背景图像数据发送给用户终端，使得用户终端可以用于将目标对象数据和背景图像数据进行组合，以在直播画面中将目标对象的图层显示于背景图像的图层之上，用户终端可以进一步用于响应于视角调整指令以对直播画面中显示的目标对象进行与视角调整指令相匹配的视角调整。

服务器10将获取到的目标对象数据和背景图像数据随着直播数据流一起发送给用户终端，例如观众终端30。观众终端30可以对视频流进行相应处理，使得在视频帧所呈现出来的直播画面中目标对象的图层显示于背景图像的图层之上。换言之，目标对象和背景图像两者为相互独立的状态，因此可以在不受背景图像影响的前提下对目标对象进行相应的操作，而且对目标对象的操作既不影响背景图像，也不受到背景图像的牵制。

具体地，用户终端可以用于按照第一分割位置数据将目标对象的图像数据和背景图像数据进行组合，以在直播画面中将目标对象的图层在第一分割位置显示于背景图像的图层之上。换言之，用户终端可以将目标对象重新贴回背景图像中的原位置，也即第一分割位置，但目标对象的图层显示于背景图像的图层之上，以使得目标对象能够遮住背景图像的相应区域，在视觉上能够大致还原分割之前的效果，但同时也使得目标对象能够被进行视觉调整，不再受制于背景图像。

具体地，用户终端可以响应于视角调整指令，对直播画面中显示的目标对象进行与视角调整指令相匹配的视角调整。在实际应用中，用户在通过观众终端30观看直播时，可以进行相应的操作。观众终端30可以响应于用户的相应操作而生成视角调整指令，并响应于该视角调整指令对目标对象进行视角调整。

视角调整例如是对直播画面中显示的目标对象转动、变形、缩放、平移以及透视中的至少一者。例如，目标对象可以跟随用户的观看视角转动，使得目标对象时钟朝向用户的观看视角。例如，目标对象通过变形等与用户的视角相对应，比如用户以侧视的视角观看直播画面，那么目标对象可以进行相应变形，以更自然的方式适应用户的侧视视角。例如，目标对象通过透视方式适应于用户的远近观看视角。当然，视角调整的方式还有很多，以上仅为举例。目标对象能够进行视角调整，是指目标对象能够实现3D效果或者类3D效果。用户通过不同视角观看直播画面，目标对象能够进行相应的调整，以使得目标对象呈现出3D或者类3D的效果。

通过将相对独立的目标对象数据和背景图像数据发送给用户终端，使得用户终端将目标对象数据和背景图像数据组合后，直播画面中所呈现的目标对象的图层位于背景图像的图层之上，目标对象和背景图像相对独立，并非是同一张图，进而目标对象不受制于背景图像，如此用户能够单独对目标对象或者背景图像进行交互操作，如进行视角调整，用户终端能够响应于视角调整指令对目标对象进行相应的视角调整，有效地增强了直播画面的交互功能，便于用户在直播过程中对目标对象进行视角调整，提升直播过程的可玩性以及观感，减少直播过程的呆滞感，进而提升用户粘性。

以下以一示例性场景对上述方案进行示例性描述：

如图4所示，服务器10采集到预设视频帧500后，利用相应的识别算法在预设视频帧中识别目标对象510。服务器10在识别出目标对象510后，利用图像分割网络确定第一分割位置，按照第一分割位置将目标对象510从预设视频帧500中分割出来，以获得目标对象的图像数据以及第一分割位置数据等。服务器10将预设视频帧中的剩余背景进行填充处理，获取背景图像520，进而获得背景图像数据等。

如图5所示，用户终端，例如观众终端30，在接收到包含目标对象的图像数据和第一分割位置数据等在内的目标对象数据和背景图像数据进行组合，进而可以在用户终端的直播画面530中将目标对象510的图层显示于背景图像520的图层之上。由于目标对象510和背景图像520是相互独立的两个图层，因此可以对目标对象510进行调整。在图4中示出了一个示例性坐标轴oxyz。例如，目标对象510可以绕任一轴转动，或者沿某方向移动，以及可以进行更复杂的调整。目标对象510在直播画面530中可以呈现3D效果或者类3D效果。用户终端可以响应于视角调整指令，对目标对象510进行相匹配的视角调整，例如将目标对象510绕z轴转动，以可以改变目标对象的朝向。以图5中所示的主播的人脸对象为例，图5中的人脸对象相对于图4中的人脸对象绕z轴进行转动，使得人脸对象可以呈现3D或者类3D效果，提升与观众的互动效果。

进一步地，服务器10对预设视频帧进行分割处理时，还可以对目标对象上的局部特征对象进行分割处理。具体可以参见步骤S122包括的如下步骤：

S1223：在目标对象中进一步识别出目标对象的局部特征对象。

局部特征对象例如是目标对象上的局部特征。服务器10在识别目标对象时，可以在目标对象中进一步识别出目标对象的局部特征对象。以目标对象为脸部对象为例，局部特征对象例如包括眼睛对象、嘴巴对象以及鼻子对象等。例如，通过人脸神经网络识别出人脸对象，并且人脸对象上头发对象、眉毛对象、眼睛对象、眼珠对象、睫毛对象、嘴唇对象、耳朵对象以及面部表情等。

S1224：从目标对象中分割出局部特征对象，以获得局部特征对象的局部特征数据。

具体地，利用图像分割网络将目标对象从预设视频帧中分割出，还进一步将局部特征对象从目标对象中分割出，如此至少可以产生三类对象：预设视频帧的剩余背景、目标对象的剩余背景以及局部特征对象。将局部特征对象从目标对象中分割出，可以获得局部特征对象的局部特征数据。局部特征数据例如包括局部特征对象的图像数据、位置数据以及分割位置数据等。对目标对象的剩余背景进行处理后，获得对象背景图像数据。

S1225：对目标对象分割出局部特征对象的剩余背景进行填充处理，以获得对象背景图像的对象背景图像数据。

将局部特征对象从目标对象分割出后，对目标对象的剩余背景中的空缺区域进行填充处理，使得剩余背景成为一张完整的背景图像。例如，以人脸对象为例，将眼睛对象从人脸对象分割出后，原眼睛位置为空缺区域。将该空缺区域填充完整，使得剩余背景完整，则生成对象背景图像，进而可以获得对象背景图像的对象背景图像数据。如此，目标对象数据至少可以包括第一分割位置数据、局部特征数据以对象背景图像数据等。

用户终端在接收到目标对象数据和背景图像数据后，可以用于将局部特征对象的局部特征数据和对象背景图像数据进行组合，以在直播画面中将局部特征对象的图层显示于对象背景图像的图层之上。如此，用户终端对象背景图像的图层在直播画面中显示于背景图像的图层之上，且局部特征对象的图层显示于对象背景图像的图层之上。通过分割后进行图层叠加的方式，局部特征对象可以不受制于对象背景图像，对象背景图像和局部特征对象也可以不受制于背景图像，使得目标对象可以被调整的对象更多，使得整个目标对象所呈现的3D效果更显著，效果更好。

用户终端可以用于响应于视角调整指令以进一步对直播画面中显示的局部特征对象进行与视角调整指令相匹配的视角调整。换言之，用户终端响应于视角调整指令，相应地可以对局部特征对象以及对象背景图像进行与视角调整指令相匹配的视角调整。当然，局部特征对象和对象背景图像并不一定会被一起调整，可以视情况而定，或者局部特征对象和对象背景图像被调整所需的触发条件可以不同。

例如，目标对象包括人脸对象，局部特征对象包括眼珠对象，用户终端响应于视角调整指令可以分别对直播画面中显示的人脸对象的对象背景图像以及眼珠特征进行与视角调整指令相匹配的转动，以调整对象背景图像和眼珠对象的朝向。

当观众的视角改变时，可以对观众终端30进行相应的操作，使得观众终端30生成相应的视角调整指令，并响应于该视角调整指令对对象背景图像以及眼珠对象进行相应的转动，以实现对象背景图像和眼珠对象随着用户的视角在转动，保持朝向用户的视角。通俗地讲，通过对对象背景图像以及眼珠对象的朝向，实现始终盯着观众，实现3D效果或者类3D效果。如此，有效地增强直播画面的交互功能，实现直播画面和观众的互动，减少直播画面的呆滞感，提升用户的粘性。虽然在图3和图4中并未标注局部特征对象，也并未示意局部特征对象被分割出的过程，但借助图3和图4也能够理解，可以对局部特征对象进行相应的视角调整，使得目标对象所呈现的3D效果或者类3D效果更好。

至于具体对目标对象进行分割，可以参见步骤S1224包括的如下步骤：

S1224a：利用图像分割网络确定在目标对象中分割局部特征对象的第二分割位置。

可选地，服务器10可以利用图像分割网络在预设视频帧中确定第一分割位置，在目标对象中确定第二分割位置。例如，在识别出目标对象后，图像分割网络例如可以沿目标对象的边缘确定第一分割位置，沿局部特征对象的边缘确定第二分割外置。第一分割位置和第二分割位置可以以坐标数据表示，例如在预设视频帧中的坐标位置，或者在显示屏中的坐标位置等，当然第二分割位置还可以以在目标对象中的坐标位置表示。

S1224b：按照第二分割位置从目标对象中分割出局部特征，以获得局部特征数据以及第二分割位置对应的第二分割位置数据。

在确定出第一分割位置和第二分割位置后，服务器10可以沿着/按照第一分割位置分割出目标对象，按照第二分割位置分割出局部特征对象，进而将局部特征对象从目标对象中分割出来，将局部特征对象和对象背景图像相互分离。如此，获取分割出来的对象背景图像数据、局部特征对象的图像数据和第二分割位置数据。服务器10可以将背景图像数据、对象背景图像数据、局部特征对象的图像数据、第一分割位置数据、第二分割位置数据等发送给用户终端。

用户终端可以用于按照第二分割位置数据将局部特征对象的图像数据和对象背景图像进行组合，以在直播画面中将局部特征对象的图层在第二分割位置显示于对象背景图像的图层之上。将局部特征对象重新贴回至对象背景图像的第二分割位置，但局部特征对象的图层显示于对象背景图像的图层之上，在视觉上可以尽量还原分割之前的效果，但同时也使得局部特征对象能够被进行视觉调整，而不受制于对象背景图像。对象背景图像也不受制于背景图像，对象背景图像和局部特征对象均可以被进行视觉调整。

本实施例还可以利用生成测试对象对图像分割网络进行完善。具体可以参见本实施例在步骤S1224b之后包括的如下步骤：

S1224c：按照第二分割位置数据将局部特征对象的图像数据和对象背景图像数据进行组合，以将局部特征对象的图层在第二分割位置显示于对象背景图像的图层之上，生成测试对象。

换言之，服务器10将局部特征对象在第二分割位置贴回对象背景图像之上，重新组合成“新”的目标对象，也即测试对象。

S1224d：将测试对象和目标对象对比，得出两者之间的差异数据，并利用差异数据调整图像分割网络。

服务器10将测试对象和目标对象对比，判断是否是“同一个”目标对象，也即计算两者的相似度，并获得表征两者差异之处的差异数据。利用差异数据反馈给图像分割网络，以调整和完善图像分割网络，使得图像分割网络的精确度越来越高，分割得出的局部特征对象和对象背景图像越来越自然、真实。测试对象和目标对象之间相似度的计算方法可以是现有技术中的计算图像之间相似度的方法，在此不再赘述。

至于具体对目标对象的剩余背景进行填充处理，以下示例出其中两种方式。

第一种方式可以参见步骤S1225包括的如下步骤：

S1225a：获取目标对象的全局颜色直方图。

如图6所示，全局颜色直方图反映图像中颜色的组成分布，即出现了哪些颜色以及各种颜色各自的参数。颜色的参数就是颜色出现的概率。颜色可以用色值表示，全局颜色直方图可以知道图像中出现了哪些色值以及各种色值出现的概率。换言之，全局颜色直方图可以称为色值直方图。

通过对目标对象进行图像分析得出全局颜色直方图后，可以在该直方图中选择至少一种颜色以及出现的概率。具体可以选择一种，也可以选择多种。例如可以选择三种，比如可以选择出现概率排在最前的三种颜色。

S1225b：在全局颜色直方图中确定出现概率位于前列的至少一种颜色，并利用至少一种颜色对目标对象分割出局部特征对象后的空缺区域进行颜色填充。

在全局颜色直方图中确定关键颜色，也即出现概率最高的一种颜色，或者出现概率位于前列的至少两种颜色。出现概率位于前列是指出现概率位于最前，比如出现概率前三的三种颜色，或者出现概率前五的五种颜色。确定出该至少一种颜色后，可以对该至少一种颜色进行处理，例如颜色调和，然后再对空缺区域进行填充。

通过出现概率的高低获取颜色，能够有效地确定目标对象的主要色调，进而使得填充后的空缺区域的色调和目标对象的整体色调大体一致，看起来更统一、协调与自然，即便空缺区域没有被局部特征对象遮挡，也能够具有较好的视觉效果。

第二种方式：通过神经网络算法进行填充处理。可以参见步骤S1225包括的如下步骤：

S1225c：利用神经网络采集目标对象分割出局部特征对象后的空缺区域邻近的颜色信息对空缺区域进行颜色填充。

利用神经网络算法采集目标对象的空缺区域外周的颜色信息对空缺区域进行补全，使得空缺区域在补全后能够和外周形成一体，使得对象背景图像整体更协调，自然。颜色信息可以是指与颜色有关的信息或数据，例如可以包括色值、饱和度、对比度、亮度等中的一者或多者。利用神经网络采集邻近颜色信息对空缺区域进行填充，能够使得空缺区域被补全后显得更加自然和逼真，减少填补痕迹，最终使得背景图像更加完整、协调。

当然，在预设视频帧中，不仅可以对目标对象进行识别，还可以对目标对象之外的对象进行识别并分割。具体可以如下步骤：

S130：获取目标对象的目标对象数据、背景图像的背景图像数据和***对象的***对象数据。

***对象是指不同于目标对象的对象。例如，在预设视频帧中，目标对象之外的对象中的一者或者多者可以作为***对象。例如，以目标对象为人脸对象，***对象例如可以包括主播直播场景中的椅子、键盘、手机、宠物以及柜子等，人脸对象之外的物体均可以作为***物体。

服务器10可以对预设视频帧进行分割处理，以生成目标对象数据、背景图像数据和***对象数据。

具体地，服务器10可以利用深度神经网络等算法识别出直播场景内的目标对象、***对象等，并通过图像分割网络将目标对象和***对象从预设视频帧中分割出，以获得目标对象数据和***对象数据。当然，对于***对象的具体分割过程，可以参照前述目标对象的分割过程，例如确定分割位置以及记录分割位置数据等。

服务器10还对预设视频帧中分割出目标对象后以及***对象后的剩余背景进行填充处理。具体的填充过程可以参照前述S123等步骤的描述。

S230：将目标对象数据、***对象数据和背景图像数据发送给用户终端。

服务器10将获得的目标对象数据、背景图像数据以及***对象数据等随着直播流数据发送给用户终端。用户终端用于将目标对象数据、***对象数据和背景图像数据组合，以在直播画面中将目标对象的图层和***对象的图层显示于背景图像的图层之上。具体地，用户终端可以利用目标对象数据、***对象数据以及背景图像数据对视频帧进行处理，使得在直播画面中所呈现出来的目标对象的图层和***对象的图层均可以显示于背景图像的图层之上。

如此，背景图像是一张单独且完整的背景图像，目标对象和***对象同时也不受制于背景图像，对目标对象进行视角调整以及对***对象进行移动，均不会影响到背景图像的完整度。

用户终端可以响应于视角调整指令，对直播画面中显示的目标对象进行与视角调整指令相匹配的视角调整。

用户终端可以响应于位置调整指令，对直播画面中显示的***对象移动至与位置调整指令相匹配的位置。例如，观众可以在观众终端30的显示屏上，按住拖动直播画面中的***对象，如键盘，将它的位置移动至其他位置，如此用户可以根据自己的需要移动***对象。

当然，同样可以对***对象进行旋转、平移、透视以及缩放等中的至少一种处理。

通过将***对象数据、目标对象数据以及背景图像数据发送给用户终端，使得用户终端能够将***对象数据、目标对象数据以及背景图像数据进行组合，以在直播画面中将***对象以及目标对象的图层显示于背景图像的图层之上，便于用户进行视角调整以及位置调整，进一步增强交互功能，提升交互效率，突破了传统直播技术观众无法与直播画面进行交互的局限，减少了直播画面的呆滞和无趣感，提升用户的粘性。

当然，为了进一步增强观众的粘性以及直播***1的智能化，本实施例还可以包括以下步骤：

S310：获取用户终端的当前用户所关注的各主播用户的属性数据，以形成虚拟属性数据。

具体地，获取用户终端的当前用户所关注的主播用户的属性数据。属性数据例如可以包括外观数据、身材数据、五官数据、服装数据、话题数据以及性格数据等，综合计算出虚拟属性数据。

服务器10可以通过关注的各主播的属性数据通过大数据计算拼合出观众喜欢的虚拟属性数据，进而可以制作出一个虚拟模型。

S320：搜索与属性数据与虚拟属性数据相似的主播用户，并将搜索出的主播用户对应的直播间信息推荐给用户终端。

服务器10还可以利用虚拟属性数据在平台上搜索相似的主播用户。例如，通过计算虚拟属性数据和搜索的主播用户的属性数据的相似度，具体可以以多维向量的方式计算向量之间的距离，并该距离与预设阈值进行比较，以计算两者的相似度。服务器10将搜索出的主播用户的直播间信息(例如直播间ID)推荐给用户终端。如此，服务器10也可以实现更精细的推荐，推荐有效性更高。

当然，观众可以给观看的主播打分，或者进行相应的评价。服务器10可以采集观众的评价，进而优化直播画面，使之更贴合观众的喜好。具体可以参见如下步骤：

S410：获取用户终端的当前用户对不同直播间的目标对象的至少一项属性进行标识所生成的标签数据。

观众在通过观众终端30观看不同的直播间时，可以对直播画面中的目标对象打标签。目标对象例如为人脸对象，人脸对象的属性例如包括眼睛、眉毛、嘴巴、鼻子、头发以及脸型等等。标识例如可以包括：眼睛大小、是否单双眼、眉毛款式、皮肤白皙与否、是否瓜子脸等。观众可以对某主播打标签，比如“大眼，白皮肤，口红色号为XX”等。观众观看不同的主播间，都可以对主播进行打标签。或者，直播间界面可以弹出让观众进行打标签的弹窗，进而获得这些标签数据。因此，服务器10可以获得用户终端对不同直播间的目标对象的至少一项属性进行标识所生成的标签数据。

S420：分别对该至少一项属性各自对应的标签数据进行统计，以确定每项属性中数量最高的标签数据。

服务器10对该用户终端的用户已生成的标签数据进行统计，比如眼睛这一属性中“大眼”标签数量为50，“小眼”标签数量为2，“大眼”标签数量最高。“口红色号为XX1”的标签数量为30，“口红色号为XX2”的标签数量为10，“口红色号为XX1”的标签数量最高。如此统计各属性各自对应的标签数量进行统计，以确定每项属性中数量最高的标签数据。

S430：生成与至少一项属性各自对应的数量最高的标签数据相匹配的第二调整参数。

利用统计得到的每项属性中数量最高的标签数据生成第二调整参数，第二调整参数对下发给客户端的视频流进行调整，比如将视频流的各视频帧中的目标对象进行处理。第二调整参数是用于对视频流中显示有目标对象各属性的视频帧进行图像处理的参数。

S440：利用第二调整参数对视频流中目标对象的至少一项属性进行调整，并将调整后的视频流发送给用户终端。

服务器10利用第二调整参数对视频流中的目标对象的对应属性进行调整。例如，“大眼”的标签数据可以对视频流中的人脸对象的眼睛进行调整，调整成与该标签数据对应的尺寸。“口红色号为XX1”的标签数据可以对视频流中的人脸对象的嘴唇进行颜色调整，以调整成该口红色号。经过第二调整参数调整后，将调整后的视频流发送给用户终端。如此，通过收集、计算以及统计用户对主播打标签的标签数据，进而分析用户的喜好，并生成相应的调整参数，对下发给用户终端的视频流进行调整，进而可以实现个性化调整，使得每个观众都可以看到与自己习惯以及喜好相关的直播画面，更加智能化、个性化，提升用户粘性。

本实施例除了增强观众和直播画面的互动功能之外，也可以增强主播和直播画面的互动功能。本实施例可以建立主播调整机制，具体可以参见在步骤S110之前包括的如下步骤：

S111：接收主播端利用第一调整参数对目标对象进行调整后的视频流，并保存主播端在当次直播的第一调整参数。

主播可以在主播终端20对所采集的视频流中的目标对象进行调整。以目标对象为人脸对象为例，可以建立设置面板，对主播的每个五官位置尺寸、颜色进行调整，如左眼放大，眉毛加粗，头发加粗，鼻子更挺，睫毛，嘴唇变厚，左右眼大小对齐，眉毛对齐，眼珠颜色变化等细节操作。主播可以对设置面板进行操作，主播终端20生成第一调整参数，对采集的视频流的视频帧进行图像处理。主播终端20将调整后的视频流以及相应的第一调整参数发送给服务器10。服务器10保存第一调整参数。

服务器10还可以对设置相应的模板对第一调整参数进行补全。例如第一调整参数没有涉及到的属性，比如皮肤颜色，服务器10可以以默认值对皮肤颜色进行设置，进而使得第一调整参数能够全面地对目标对象的进行调整。例如第一调整参数只涉及到10个项目，而模板设置为12个项目，服务器10可以以默认值配置剩余的两个项目，使得第一调整参数以整套模板样式进行保存。

S112：在当次直播后接收到主播端的新直播请求时，将保存的第一调整参数发送给主播端，使得主播端用于在新直播请求对应的直播中利用保存的第一调整参数对目标对象进行调整。

主播结束了当前直播，开启下次直播时，服务器10可以将保存的第一调整参数下发给主播端。也即，服务器10在当次直播后接收到该主播端的新直播请求，则将保存的第一调整参数发送给主播端，使得主播端用于在新的直播中利用接收到的第一调整参数对目标对象进行调整。如此，能够有效地节省主播的调整时间，提升主播的开播效率。另外，服务器10还可以根据接收到第一调整参数，向该主播端推荐相似的调整方案，使得主播端的调整方案多元化、丰富化，使得主播的调整机制更加便利。

如此，本实施例不仅可以建立主播调整机制，也能够将上次直播的第一调整参数恢复给主播的下一次直播中，能够提升主播的开播效率，节省时间。

在本实施例中，服务器10在直播过程中可以对识别到目标对象的视频帧都作为预设视频帧，依次对各预设视频帧进行相应的识别和分割处理，以获得相应的目标对象数据和背景图像数据等，最终在直播画面的相应视频帧上显示目标对象和背景图像。如果没有识别到目标对象的视频帧可以不进行处理。

当然，服务器10也可以在相应条件下才进行上述的识别和分割处理。随着直播过程的进行，上述内容所提及目标对象数据、***对象数据和背景图像数据等可以在相应条件下会发生更新的。例如，当前获得目标对象数据和背景图像数据所对应的预设视频帧中目标对象和后续的某视频帧中的目标对象形态不接近或者相差过大，则会触发服务器10重新采集新的预设视频帧。例如，当前的预设视频帧中人脸对象为正脸，后续多帧视频帧中人脸对象依旧为正脸，且后续多帧视频帧中的人脸对象和预设视频帧中的人脸对象形态接近或者相似度满足条件，则可以不更新目标对象和背景图像数据。若当前的预设视频帧中人脸对象为正脸，后续某视频帧中人脸对象为侧脸，该人脸对象和预设视频帧中的人脸对象形态不接近或者相似度不满足条件，则服务器10可以重新采集该视频帧作为预设视频帧，进而执行本实施例的显示处理方法。至于相似的计算，例如可以确定目标对象上的多个特征点，建立各个特征点对应的多维特征向量，进而可以计算两个视频帧中多维特征向量的距离，将该距离与预设阈值进行比较，以判断两者的相似度。

如图3和图7所示，本申请直播画面的显示处理方法第二实施例，例如以用户终端为执行主体，具体例如为观众终端30，包括：

M100：获取目标对象的目标对象数据和背景图像的背景图像数据。

观众端20从服务器10中获取目标对象的目标对象数据和背景图像的背景图像数据。服务器10所发送的目标对象数据和背景图像数据可以是自行处理生成的，也可以接收自主播终端20的。关于目标对象数据和背景图像数据等描述可以参见上述本申请直播画面的显示处理方法第一实施例的相关描述，在此不再赘述。

M200：将目标对象数据和背景图像数据组合，以在直播画面中将目标对象的图层显示于背景图像的图层之上。

观众端20接收到目标对象数据和背景图像数据后，例如组合后的图像可以成为视频流中对应的视频帧，进而在该视频帧中，目标对象的图层显示于背景图像的图层之上。换言之，目标对象和背景图像两者为相互独立的状态，因此可以对目标对象进行相应的操作，而不影响到背景图像，也不受到背景图像的牵制。

关于步骤M200更详细的描述可以参见上述本申请直播画面的显示处理方法第一实施例的相关描述，在此不再赘述。

M300：响应于视角调整指令，至少对直播画面中显示的目标对象进行与视角调整指令相匹配的视角调整。

由于目标对象和背景图像是相互独立的状态，因此可以单独对目标对象进行调整。用户可以进行相应的视角调整操作，进而观众终端30可以生成相应视角调整指令，并响应于该视角调整指令至少对直播画面中的目标对象进行与视角调整指令相匹配的视角调整。关于本步骤的详细描述可以参见本申请直播画面的显示处理方法第一实施例中的相关描述，在此不再赘述。

对于获取目标对象的目标对象数据和背景图像的背景图像数据，具体可以参见步骤M100包括的如下步骤：

M110：获取服务器对从直播画面对应的视频流中采集的预设视频帧进行分割处理所生成的目标对象数据和背景图像数据。

关于服务器10从直播画面对应的视频帧中的采集预设视频帧，并进行分割处理的详细内容，可以参见上述本申请直播画面的显示处理方法第一实施例中的相关描述，例如S110和S120等，在此不再赘述。

具体地，至于分割处理的具体过程，可以参见M110包括的如下步骤：

M111：获取服务器在预设视频帧中识别出目标对象后，将目标对象从预设视频帧中分割出所生成的目标对象数据和背景图像数据。

关于步骤M111的详细描述可以参见上述本申请直播画面的显示处理方法第一实施例中的相关描述，例如步骤S121和S122等，在此不再赘述。

可选地，观众端接收到的目标对象数据还可以是进一步对目标对象进行分割处理后生成的。步骤M100可以包括如下步骤：

M120：进一步获取从目标对象中分割出的局部特征对象的局部特征数据和对象背景图像的对象背景图像数据，其中，对象背景图像是对目标对象分割出局部特征的剩余背景进行填充处理所获得的。

关于局部特征对象以及对象背景图像如何形成的过程，可以参见本申请直播画面的显示处理方法第一实施例中的相关描述，如步骤S1223-S1225，在此不再赘述。

观众终端30可以接收到来自于服务器10的背景图像数据、局部特征数据和对象背景图像数据等。也即，目标对象数据可以包括局部特征数据和对象背景图像数据等，当然还可以包括第一分割位置数据等，具体可以参见本申请直播画面的显示处理方法第一实施例中的相关描述。

步骤200可以包括：

M210：将局部特征数据和对象背景数据进行组合，以在直播画面中将局部特征对象的图层显示于对象背景图像的图层之上。

具体地，在直播画面中将局部特征对象的图层显示于对象背景图像的图层之上，将对象背景图像的图层显示于背景图像的图层之上。具体可以参见本申请直播画面的显示处理方法第一实施例中的相关描述，在此不再赘述。

在将目标对象和背景图像组合后，对目标对象进行视觉调整的方式有很多，例如以下步骤所示：

M310：对直播画面中显示的目标对象进行与姿态数据相匹配的转动、变形、缩放、平移以及透视中的至少一者，以相应调整目标对象的视角。

关于M310的详细描述可以参见本申请直播画面的显示处理方法第一实施例中的相关描述，如S200的相关描述，在此不再赘述。

视角调整指令的生成也可以存在多种方式，如下所示：

第一种方式：通过位姿传感器检测观众终端30的位姿，进而生成相应的视角调整指令。具体可以参见步骤M300包括的如下步骤：

M320：获取基于姿态传感器发送的姿态数据所生成的视角调整指令。

观众在通过观众终端30观看直播时，可以通过调整观众终端30的姿态以调整观看视角。在观众终端30的姿态改变时，其内的位姿传感器可以获取相应的位姿数据，该位姿数据相当于对应于观众的观看视角。位姿传感器例如包括陀螺仪和重力传感器，位姿数据例如包括角度数据和重力数据。以陀螺仪和重力传感器为例，观众终端30可以获取至少基于陀螺仪采集的角度数据以及重力传感器采集的重力数据所生成的视角调整指令。

M320：响应于视角调整指令，至少对直播画面中显示的目标对象进行与姿态数据相匹配的视角调整。

观众终端30获取到位姿数据后，利用位姿数据对目标对象进行相应的视角调整，以使得目标对象能够适应于用户的观看视角。此种目标对象的调整，相当于目标对象能够呈现3D效果或者类3D效果。

观众终端30在接收到包括角度数据和重力数据的位姿数据后，可以对直播画面中显示的目标对象进行与重力数据以及角度数据相匹配的转动。具体地，重力数据用于调整目标对象的转向，角度数据用于调整目标对象的转动角度。例如，观众将手机横向握持，并往左侧倾斜，那么用户的视角可能是从右侧斜向屏幕，因此目标对象可以在重力数据的作用下，往右侧转动，并转动与角度数据相匹配的角度。如此使得目标对象根据用户的观看视角转动，例如保持朝向用户，使得用户观看直播画面临场感更强。

例如，目标对象包括人脸对象，局部特征对象包括眼珠对象，步骤M300可以包括如下步骤：

M330：分别对直播画面中显示的人脸对象的对象背景图像以及眼珠对象进行与视角调整指令相匹配的转动，以调整对象背景图像和眼珠对象的朝向。

可选地，可以利用上述位姿数据对人脸对象的对象背景图像(例如脸部)和眼珠进行视角调整，例如进行转动，使得人脸对象的对象背景图像和眼珠对象的朝向随着视角调整指令发生变动。如此，实现对象背景图像和眼珠对象随着用户的视角在转动，保持朝向用户的视角。通俗地讲，通过对对象背景图像以及眼珠对象的朝向，实现始终盯着观众，实现3D效果或者类3D效果。如此，有效地增强直播画面的交互功能，实现直播画面和观众的互动，减少直播画面的呆滞感，提升用户的粘性。如果主播侧着脸，或者脸部的眼睛位置已经无法被采集的情况，陀螺仪以及重力传感器等不需要再作用于眼珠对象等的局部特征数据。

第二种方式：通过观众终端30的摄像头采集用户的观看视角，生成相应的视角调整指令。具体可以如下所示：

M340：通过摄像头采集场景图像。

具体地，通过观众终端30的摄像头，或者在直播场景内安装的其他摄像头等采集观众当前所在场景的场景图像。

M350：在场景图像中识别观众人脸，并在识别出观众人脸后确定观众人脸的位置信息。

利用人脸识别技术在场景图像中识别观众人脸，并计算观众人脸在场景图像中的位置信息。具体地，可以计算观众人脸的眼球的位置信息。

M360：基于观众人脸的位置信息生成视角调整指令。

获得观众人脸的位置信息后，基于位置信息生成视角调整指令，进而用于调整目标对象的视角。

M370：响应于视角调整指令，利用观众人脸的位置信息对直播画面中显示的目标对象进行视角调整，以将直播画面中显示的目标对象的视角调整至朝向观众人脸。

利用观众人脸的位置信息对目标对象进行视角调整，例如对目标对象进行转动，以使得目标对象的视角朝向观众人脸的位置。以主播的人脸对象为例，利用观众人脸的位置对直播画面中人脸对象进行转动，以朝向观众人脸的位置，看来像是朝着观众做动作和说话，进而能够增强与观众的互动感，提升观众的观看体验和粘性。

为了进一步增强观众的临场感和互动感，可以进一步进行以下处理：

M410：在预设视频帧中识别出可反光区域。

可选地，观众终端30可以通过阈值分割算法在预设视频帧中识别出可反光区域，例如镜子、人眼等。

M420：通过摄像头采集场景图像，并将场景图像的尺寸调整至与可反光区域的尺寸相匹配。

观众终端30通过自身的摄像头或者其他摄像头等设备采集观众当前所在场景的场景图像，并将场景图像的尺寸调整至于可反光区域的尺寸相匹配，也即可反光区域能够容纳得下调整后的场景图像。

M430：将调整后的场景图像显示于直播画面中的可反光区域内。

将调整后的场景图像显示于预设视频帧中的可反光区域内，从效果上模拟直播场景和观众是面对面，观众的当前场景可以映入直播场景中的可反光物体内，进而增强观众的临场感。

例如，镜子中加入经光线滤镜处理后的场景图像，眼睛通过加入经眼珠过滤的滤镜来调整显示出眼球反射的场景图像。

通过上述方式，能够从技术上营造出类似于主播和观众面对面聊天，观众临场观看主播的直播过程，进而增强直播***1的互动功能，提升观众的观看体验，提升用户粘性。

当然，除了目标对象外，还可以对目标对象外的对象进行相应的操作。具体可以参见如下步骤：

M130：获取目标对象的目标对象数据、背景图像的背景图像数据和***对象的***对象数据；

M230：将目标对象数据、***对象数据和背景图像数据组合，以在直播画面中将目标对象的图层和***对象的图层显示于背景图像的图层之上。

关于M130和M230的详细描述具体可以参见本申请直播画面的显示处理方法第一实施例中的相关描述，在此不再赘述。

M380：响应于位置调整指令，对直播画面中显示的***对象移动至与位置调整指令相匹配的位置。

关于M380的详细描述具体可以参见本申请直播画面的显示处理方法第一实施例中的相关描述，在此不再赘述。

如图8所示，本申请服务器实施例描述的服务器10可以包括处理器110、存储器120和收发器130。存储器120和收发器130分别耦接处理器110。

处理器110用于控制电子设备100的操作，处理器110还可以称为CPU(CentralProcessing Unit，中央处理单元)。处理器110可能是一种集成电路芯片，具有信号的处理能力。处理器110还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器110也可以是任何常规的处理器等。

存储器120用于存储计算机程序，可以是RAM，也是可以ROM，或者其他类型的存储设备。具体地，存储器可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器中的非暂态的计算机可读存储介质用于存储至少一条程序代码。

收发器130是服务器10用于与外面的设备进行通信连接器件或电路，以使得处理器110能够经收发器130与外界设备进行数据交互。

其中，存储器120存储有计算机程序，处理器110能够执行计算机程序以实现如上述本申请直播画面的显示处理方法第一实施例中描述的显示处理方法。

如图9所示，本申请电子设备实施例描述的电子设备30，例如为观众终端30，包括处理器310和存储器320。存储器320耦接处理器310。

存储器320用于存储计算机程序，可以是RAM，也是可以ROM，或者其他类型的存储设备。具体地，存储器可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器中的非暂态的计算机可读存储介质用于存储至少一条程序代码。

处理器310用于控制电子设备30的操作，处理器310还可以称为CPU(CentralProcessing Unit，中央处理单元)。处理器310可能是一种集成电路芯片，具有信号的处理能力。处理器310还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器310也可以是任何常规的处理器等。

处理器310用于执行存储器320中存储的计算机程序以实现本申请直播画面的显示处理方法第一实施例描述的显示处理方法。

在一些实施方式中，电子设备30还可以包括：***设备接口330和至少一个***设备。处理器310、存储器320和***设备接口330之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口330相连。具体地，***设备包括：射频电路340、显示屏350、音频电路360和电源370中的至少一种。

***设备接口330可被用于将I/O(Input/output，输入/输出)相关的至少一个***设备连接到处理器310和存储器320。在一些实施例中，处理器310、存储器320和***设备接口330被集成在同一芯片或电路板上；在一些其他实施方式中，处理器310、存储器320和***设备接口330中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路340用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号，射频电路340也可以称为收发器。射频电路340通过电磁信号与通信网络以及其他通信设备进行通信。射频电路340将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路340包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路340可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路340还可以包括NFC(Near FieldCommunication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏350用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏350是触摸显示屏时，显示屏350还具有采集在显示屏350的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器310进行处理。此时，显示屏350还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施方式中，显示屏350可以为一个，设置在电子设备30的前面板；在另一些实施方式中，显示屏350可以为至少两个，分别设置在电子设备30的不同表面或呈折叠设计；在另一些实施方式中，显示屏350可以是柔性显示屏，设置在电子设备30的弯曲表面上或折叠面上。甚至，显示屏350还可以设置成非矩形的不规则图形，也即异形屏。显示屏350可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode，有机发光二极管)等材质制备。

音频电路360可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器310进行处理，或者输入至射频电路340以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备30的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器310或射频电路340的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路360还可以包括耳机插孔。

电源370用于为电子设备30中的各个组件进行供电。电源370可以是交流电、直流电、一次性电池或可充电电池。当电源370包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

关于本申请电子设备实施例中各功能模块或者部件功能和执行过程的详细阐述，可以参照上述本申请直播画面的显示处理方法第二实施例中的阐述，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的电子设备和背景处理方法，可以通过其它的方式实现。例如，以上所描述的电子设备各实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

参阅图10，上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在计算机可读的存储介质200中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令/计算机程序用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁碟或者光盘等各种介质以及具有上述存储介质的电脑、手机、笔记本电脑、平板电脑、相机等电子设备。

关于计算机可读的存储介质中的程序数据的执行过程的阐述可以参照上述本申请直播画面的显示处理方法第一实施例和第二实施例中阐述，在此不再赘述。

综上所述，上述各实施例通过将目标对象数据和背景图像数据发送给用户终端，用户终端对目标对象数据和背景图像数据进行组合，以在直播画面中将目标对象的图层置于背景图像的图层之上，使得目标对象和背景图像之间可以相互独立，互不牵制，如此也使得目标对象处于可调整状态，用户终端能够响应视角调整指令，对目标对象进行相匹配的视角调整，使得目标对象呈现出3D或者类3D效果，增强了用户和直播画面的互动功能，减少直播画面的呆滞感，提升用户粘性和观看体验。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种直播画面的显示处理方法，其特征在于，包括：

获取目标对象的目标对象数据和背景图像的背景图像数据；

将所述目标对象数据和所述背景图像数据发送给用户终端，使得所述用户终端用于将所述目标对象数据和所述背景图像数据进行组合，以在所述直播画面中将所述目标对象的图层显示于所述背景图像的图层之上，且进一步用于响应于视角调整指令以对所述直播画面中显示的所述目标对象进行与所述视角调整指令相匹配的视角调整。

2.根据权利要求1所述的显示处理方法，其特征在于：

所述获取目标对象的目标对象数据和背景图像的背景图像数据，包括：

采集所述直播画面对应视频流中的预设视频帧；

对所述预设视频帧进行分割处理以生成所述目标对象数据和所述背景图像数据。

3.根据权利要求2所述的显示处理方法，其特征在于：

所述对所述预设视频帧进行分割处理以生成所述目标对象数据和所述背景图像数据，包括：

在所述预设视频帧中识别所述目标对象；

在识别出所述目标对象后，从所述预设视频帧中分割出所述目标对象，以获得所述目标对象数据；

对所述预设视频帧分割出所述目标对象后的剩余背景进行填充处理，以获得所述背景图像数据。

4.根据权利要求3所述的显示处理方法，其特征在于：

所述从所述预设视频帧中分割出所述目标对象，以获取所述目标对象数据，包括：

在所述预设视频帧中确定用于分割所述目标对象的第一分割位置；

按照所述第一分割位置从所述预设视频帧中分割出所述目标对象，以获得所述目标对象的图像数据以及所述第一分割位置对应的第一分割位置数据，使得所述用户终端用于按照所述第一分割位置数据将所述目标对象的图像数据和所述背景图像数据进行组合，以在所述直播画面中将所述目标对象的图层在所述第一分割位置显示于所述背景图像的图层之上。

5.根据权利要求3所述的显示处理方法，其特征在于：

在所述在识别出所述目标对象之后，从所述预设视频帧中分割出所述目标对象，以获得所述目标对象数据，包括：

在所述目标对象中进一步识别出所述目标对象的局部特征对象；

从所述目标对象中分割出所述局部特征对象，以获得所述局部特征对象的局部特征数据；

对所述目标对象分割出所述局部特征对象的剩余背景进行填充处理，以获得对象背景图像的对象背景图像数据，使得所述用户终端用于将所述局部特征对象的所述局部特征数据和所述对象背景图像数据进行组合，以在所述直播画面中将所述局部特征对象的图层显示于所述对象背景图像的图层之上，且进一步用于响应于所述视角调整指令以进一步对所述直播画面中显示的所述局部特征对象进行与所述视角调整指令相匹配的视角调整。

6.根据权利要求5所述的显示处理方法，其特征在于：

所述从所述目标对象中分割出所述局部特征对象，以获得所述局部特征对象的局部特征数据，包括：

利用图像分割网络确定在所述目标对象中分割所述局部特征对象的第二分割位置；

按照所述第二分割位置从所述目标对象中分割出所述局部特征对象，以获得所述局部特征数据以及所述第二分割位置对应的第二分割位置数据，使得所述用户终端用于按照所述第二分割位置数据将所述局部特征对象的图像数据和所述对象背景图像数据进行组合，以在所述直播画面中将所述局部特征对象的图层在所述第二分割位置显示于所述对象背景图像的图层之上。

7.根据权利要求6所述的显示处理方法，其特征在于，

在所述获得所述局部特征数据以及所述第二分割位置对应的第二分割位置数据之后，包括：

按照所述第二分割位置数据将所述局部特征对象的图像数据和所述对象背景图像数据进行组合，以将所述局部特征对象的图层在所述第二分割位置显示于所述对象背景图像的图层之上，生成测试对象；

将所述测试对象和所述目标对象对比，得出两者之间的差异数据，并利用所述差异数据调整所述图像分割网络。

8.根据权利要求5所述的显示处理方法，其特征在于：

所述对所述目标对象分割出所述局部特征对象的剩余背景进行填充处理，包括：

获取所述目标对象的全局颜色直方图；

在所述全局颜色直方图中确定出现概率位于前列的至少一种颜色，并利用所述至少一种颜色对所述目标对象分割出所述局部特征对象后的空缺区域进行颜色填充。

9.根据权利要求5所述的显示处理方法，其特征在于：

利用神经网络采集所述目标对象分割出所述局部特征对象后的空缺区域邻近的颜色信息对所述空缺区域进行颜色填充。

10.根据权利要求3所述的显示处理方法，其特征在于：

所述对所述预设视频帧分割出所述目标对象后的剩余背景进行填充处理，包括：

利用训练好的生成对抗网络对所述预设视频帧分割出所述目标对象后的剩余背景中的空缺区域进行填充补全。

11.根据权利要求2所述的显示处理方法，其特征在于：

在所述采集所述直播画面对应视频流中的预设视频帧之前，包括：

接收主播终端利用第一调整参数对所述目标对象进行调整后的所述视频流，并保存所述主播终端在当次直播的所述第一调整参数；

在当次直播后接收到所述主播终端的新直播请求时，将保存的所述第一调整参数发送给所述主播终端，使得所述主播终端用于在所述新直播请求对应的直播中利用保存的所述第一调整参数对所述目标对象进行调整。

12.根据权利要求1所述的显示处理方法，其特征在于，包括：

获取所述用户终端的当前用户对不同直播间的所述目标对象的至少一项属性进行标识所生成的标签数据；

分别对所述至少一项属性各自对应的所述标签数据进行统计，以确定每项所述属性中数量最高的所述标签数据；

生成与所述至少一项属性各自对应的数量最高的所述标签数据相匹配的第二调整参数；

利用所述第二调整参数对所述视频流中所述目标对象的所述至少一项属性进行调整，并将调整后的所述视频流发送给用户终端。

13.根据权利要求1所述的显示处理方法，其特征在于，包括：

获取所述用户终端的当前用户所关注的各主播用户的属性数据，以形成虚拟属性数据；

搜索与所述属性数据与所述虚拟属性数据相似的主播用户，并将搜索出的所述主播用户对应的直播间信息推荐给所述用户终端。

14.根据权利要求1所述的显示处理方法，其特征在于：

获取目标对象的目标对象数据和背景图像的背景图像数据，包括：

获取目标对象的目标对象数据、背景图像的背景图像数据和***对象的***对象数据；

所述将所述目标对象数据和所述背景图像数据发送给用户终端，包括：

将所述目标对象数据、***对象数据和所述背景图像数据发送给用户终端，以使得所述用户终端用于将所述目标对象数据、***对象数据和所述背景图像数据组合，以在所述直播画面中将所述目标对象的图层和所述***对象的图层显示于所述背景图像的图层之上。

15.一种直播画面的显示处理方法，其特征在于，包括：

获取目标对象的目标对象数据和背景图像的背景图像数据；

将所述目标对象数据和所述背景图像数据组合，以在所述直播画面中将所述目标对象的图层显示于所述背景图像的图层之上；

响应于视角调整指令，至少对所述直播画面中显示的所述目标对象进行与所述视角调整指令相匹配的视角调整。

16.根据权利要求15所述的显示处理方法，其特征在于：

获取服务器对从所述直播画面对应的视频流中采集的预设视频帧进行分割处理所生成的所述目标对象数据和所述背景图像数据。

17.根据权利要求16所述的显示处理方法，其特征在于：

所述获取服务器对从所述直播画面对应的视频流中采集的预设视频帧进行分割处理所生成的所述目标对象数据和所述背景图像数据，包括：

获取所述服务器在所述预设视频帧中识别出所述目标对象后，将所述目标对象从所述预设视频帧中分割出所生成的所述目标对象数据和所述背景图像数据。

18.根据权利要求16所述的显示处理方法，其特征在于，包括：

在所述预设视频帧中识别出可反光区域；

通过摄像头采集场景图像，并将所述场景图像的尺寸调整至与所述可反光区域的尺寸相匹配；

将调整后的所述场景图像显示于所述直播画面中的所述可反光区域内。

19.根据权利要求15所述的显示处理方法，其特征在于，

所述获取目标对象的目标对象数据和背景图像的背景图像数据，进一步包括：

获取从所述目标对象中分割出的局部特征对象的局部特征数据和对象背景图像的对象背景图像数据，其中，所述对象背景图像是对所述目标对象分割出所述局部特征的剩余背景进行填充处理所获得的；

所述将所述目标对象数据和所述背景图像数据组合，以在所述直播画面中将所述目标对象的图层显示于所述背景图像的图层之上，进一步包括：

将所述局部特征数据和所述对象背景数据进行组合，以在所述直播画面中将所述局部特征对象的图层显示于所述对象背景图像的图层之上。

20.根据权利要求19所述的显示处理方法，其特征在于：

所述目标对象包括人脸对象，所述局部特征对象包括眼珠对象；其中，所述至少对所述直播画面中显示的所述目标对象进行与所述视角调整指令相匹配的视角调整，包括：

分别对所述直播画面中显示的所述人脸对象的所述对象背景图像以及所述眼珠对象进行与视角调整指令相匹配的转动，以调整所述对象背景图像和所述眼珠对象的朝向。

21.根据权利要求15-20任一项所述的显示处理方法，其特征在于：

在所述响应于视角调整指令，至少对所述直播画面中显示的所述目标对象进行与所述视角调整指令相匹配的视角调整之前，包括：

通过摄像头采集的场景图像；

在所述场景图像中识别观众人脸，并在识别出所述观众人脸后确定所述观众人脸的位置信息；

基于所述观众人脸的位置信息生成所述视角调整指令；

所述响应于视角调整指令，至少对所述直播画面中显示的所述目标对象进行与所述视角调整指令相匹配的视角调整，包括：

响应于视角调整指令，利用所述观众人脸的位置信息对所述直播画面中显示的所述目标对象进行视角调整，以将所述直播画面中显示的所述目标对象的视角调整至朝向所述观众人脸。

22.根据权利要求15-20任一项所述的显示处理方法，其特征在于：

获取基于姿态传感器发送的姿态数据所生成的所述视角调整指令；

响应于所述视角调整指令，至少对所述直播画面中显示的所述目标对象进行与所述姿态数据相匹配的视角调整。

23.根据权利要求22所述的显示处理方法，其特征在于：

所述至少对所述直播画面中显示的所述目标对象进行与所述姿态数据相匹配的视角调整，包括：

对所述直播画面中显示的所述目标对象进行与所述姿态数据相匹配的转动、变形、缩放、平移以及透视中的至少一者，以相应调整所述目标对象的视角。

24.根据权利要求22所述的显示处理方法，其特征在于：

所述获取基于姿态传感器发送的姿态数据所生成的所述视角调整指令，包括：

获取至少基于陀螺仪采集的角度数据以及重力传感器采集的重力数据所生成的所述视角调整指令；

所述响应于所述视角调整指令，至少对所述直播画面中显示的所述目标对象进行与所述姿态数据相匹配的视角调整，包括：

利用所述重力数据调整所述直播画面中显示的所述目标对象的转向，且对所述目标对象进行与所述角度数据相匹配的角度的转动。

25.根据权利要求15所述的显示处理方法，其特征在于：

获取所述目标对象的目标对象数据、所述背景图像的背景图像数据和***对象的***对象数据；

所述将所述目标对象数据和所述背景图像数据组合，生成使得所述目标对象显示于所述背景图像的图层之上的目标图像，包括：

将所述目标对象数据、***对象数据和所述背景图像数据组合，以在所述直播画面中将所述目标对象的图层和所述***对象的图层显示于所述背景图像的图层之上。

26.根据权利要求25所述的显示处理方法，其特征在于：

在所述将所述目标对象数据、***对象数据和所述背景图像数据组合之后，包括：

响应于位置调整指令，对所述直播画面中显示的所述***对象移动至与所述位置调整指令相匹配的位置。

27.一种服务器，其特征在于，包括处理器、收发器和存储器，所述存储器和所述收发器分别耦接所述处理器，所述存储器存储有计算机程序，所述处理器能够执行所述计算机程序以实现如权利要求1-14任一项所述的方法。

28.一种电子设备，其特征在于，包括显示器、处理器、收发器和存储器，所述显示器、所述存储器和所述收发器分别耦接所述处理器，所述存储器存储有计算机程序，所述处理器能够执行所述计算机程序以实现如权利要求15-26任一项所述的方法。

29.一种直播***，其特征在于，包括：如权利要求27所述的服务器和如权利要求28所述的电子设备，所述服务器和所述电子设备通信连接。

30.一种计算机可读的存储介质，其特征在于，存储有计算机程序，所述计算机程序能够被处理器执行，以实现如权利要求1-26任一项所述的方法。