CN111669662A

CN111669662A - 显示设备、视频通话方法及服务器

Info

Publication number: CN111669662A
Application number: CN202010635659.XA
Authority: CN
Inventors: 王大勇; 王卫明; 吴超
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2020-09-15

Abstract

本申请实施例提供了一种显示设备、视频通话方法及服务器，显示设备包括：摄像头，用于采集第一深度图像；显示器；分别与显示器及摄像头连接的控制器，控制器被配置为：响应于接收到用户输入的用于指示混合通话的控制信号，向被叫端发送混合通话请求；根据接收到被叫端的确认信号，向服务器发送第一深度图像；根据接收到来自服务器的混合图像，控制显示器显示第一混合图像，其中，第一混合图像包括服务器根据第二人物的深度信息，将第二人物渲染到第一深度图像中得到的深度图像，第二人物为第二深度图像中的人物，第二深度图像为被叫端采集的深度图像。本申请解决了视频通话的双方分别处于不同的背景的问题，提升了用户体验。

Description

显示设备、视频通话方法及服务器

技术领域

本申请涉及显示设备技术领域，尤其涉及一种显示设备、视频通话方法及服务器。

背景技术

在当前快节奏的生活方式下，朋友、家人见面的机会逐渐变少，越来越多地感情联络依托视频通话来进行。目前，具有摄像头的移动设备可通过安装视频通话应用程序实现视频通话，然而，移动设备的显示屏较小，且移动设备通常为手持，导致用户只能看到通话对方人物的头像，通话体验不佳。智能电视通过增加摄像头组件，使得基于电视的视频通话成为可能。智能电视的显示屏较大，且用户与智能电视通常会保持一定距离，使得用户可看到通话对方的更多信息，但是，目前用户在智能电视上看到的视频通话界面，双方人物仍然处在两个不同的窗口中，无法破除通话双方屏幕硬边界限制，通话体验仍有待改善。

发明内容

为解决上述技术问题，本申请提供了一种显示设备、视频通话方法及服务器。

第一方面，本申请提供了一种显示设备，该显示设备包括：

摄像头，用于采集第一深度图像；

显示器，用于显示用户界面，及在所述用户界面中显示用于指示在用户界面中项目被选择的选择器；

分别与所述显示器及摄像头连接的控制器，所述控制器被配置为：

响应于接收到用户输入的用于指示混合通话的控制信号，向被叫端发送混合通话请求；

根据接收到所述被叫端的确认信号，向服务器发送所述第一深度图像；

根据接收到来自所述服务器的混合图像，控制所述显示器显示所述第一混合图像，其中，所述第一混合图像包括所述服务器根据第二人物的深度信息，将所述第二人物渲染到所述第一深度图像中得到的深度图像，所述第二人物为第二深度图像中的人物，所述第二深度图像为所述被叫端采集的深度图像。

在一些实施例中，所述控制器还被配置为：

响应于接收到用户输入的用于指示切换背景的控制信号，向所述服务器发送切换背景请求；

根据接收到来自所述服务器的第二混合图像，控制所述显示器将所述第一混合图像切换为第二混合图像，或控制所述显示器将所述第一混合图像切换为第二混合图像，其中，所述第二混合图像包括所述服务器根据第一人物的深度信息，将所述第一人物渲染到第二深度图像中得到的深度图像，所述第一人物为所述第一深度图像中的人物。

第二方面，本申请实施例提供了一种显示设备，该显示设备包括：

摄像头，用于采集第二深度图像；

响应于接收到主叫端的混合通话请求，控制所述显示器显示请求混合通话的第二提示信息；

响应于接收到用户输入的对应所述第二提示信息控制信号，向服务器发送确认信号；

根据接收到所述服务器的人物深度图像请求，从所述第二深度图像提取出第二人物的深度信息，向所述服务器发送所述第二人物的深度信息；

根据接收到来自所述服务器的第一混合图像，控制所述显示器显示所述第一混合图像，其中，所述第一混合图像包括所述服务器根据所述第二人物的深度信息，将所述第二人物渲染到所述第一深度图像中得到的深度图像，所述第一深度图像为所述主叫端采集的深度图像。

在一些实施例中，所述控制器还被配置为：向所述服务器发送所述第二深度图像，使所述服务器根据第一人物的深度信息，将所述第一人物渲染到所述第二深度图像中得到第二混合图像，所述第一人物为第一深度图像中的人物，所述第一深度图像为所述主叫端采集的深度图像。

第三方面，本申请实施例提供了一种视频通话方法，该视频通话方法包括：

将主叫端的混合通话请求发送到被叫端；

根据接收到被叫端的确认信号，获取所述主叫端采集的第一深度图像；

获取所述被叫端的第二人物的深度信息；

根据所述第二人物的深度信息，将所述第二人物渲染到所述第一深度图像中，得到第一混合图像；

向所述主叫端和被叫端分别发送所述第一混合图像。

第四方面，本申请实施例提供了一种服务器，该服务器被配置为：

将主叫端的混合通话请求发送到被叫端；

获取所述被叫端的第二人物的深度信息；

向所述主叫端和被叫端分别发送所述第一混合图像。

本申请提供的显示设备、视频通话方法及服务器的有益效果包括：

本申请实施例通过3D摄像头模组采集通话双方的深度信息，根据通话双方的深度信息将其中一方的人物渲染到另一方的深度图像中，实现了通话双方在同一真实背景下的实时显示，解决了通话界面上的双方人物处于不同背景的问题，提升了用户的视频通话体验。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1中示例性示出了根据一些实施例的显示设备与控制装置之间操作场景的示意图；

图2中示例性示出了根据一些实施例的显示设备200的硬件配置框图；

图3中示例性示出了根据一些实施例的控制装置100的硬件配置框图；

图4中示例性示出了根据一些实施例的显示设备200中软件配置示意图；

图5中示例性示出了根据一些实施例的显示设备200中应用程序的图标控件界面显示示意图；

图6中示例性示出了根据一些实施例的AR混合通话示意图；

图7中示例性示出了根据一些实施例的混合通话交互示意图；

图8中示例性示出了根据一些实施例的视频通话界面示意图；

图9中示例性示出了根据一些实施例的混合通话界面示意图；

图10中示例性示出了根据另一些实施例的混合通话界面示意图；

图11中示例性示出了根据一些实施例的视频通话方法的流程示意图。

具体实施方式

为使本申请的目的、实施方式和优点更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

基于本申请描述的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请所附权利要求保护的范围。此外，虽然本申请中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明(Unless otherwise indicated)。应该理解这样使用的用语在适当情况下可以互换，例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请中使用的术语“模块”，是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

本申请中使用的术语“遥控器”，是指电子设备(如本申请中公开的显示设备)的一个组件，通常可在较短的距离范围内无线控制电子设备。一般使用红外线和/或射频(RF)信号和/或蓝牙与电子设备连接，也可以包括WiFi、无线USB、蓝牙、动作传感器等功能模块。例如：手持式触摸遥控器，是以触摸屏中用户界面取代一般遥控装置中的大部分物理内置硬键。

本申请中使用的术语“手势”，是指用户通过一种手型的变化或手部运动等动作，用于表达预期想法、动作、目的/或结果的用户行为。

图1中示例性示出了根据实施例中显示设备与控制装置之间操作场景的示意图。如图1中示出，用户可通过移动终端300和控制装置100操作显示设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式等，通过无线或其他有线方式来控制显示设备200。用户可以通过遥控器上按键，语音输入、控制面板输入等输入用户指令，来控制显示设备200。如：用户可以通过遥控器上音量加减键、频道控制键、上/下/左/右的移动按键、语音输入按键、菜单键、开关机按键等输入相应控制指令，来实现控制显示设备200的功能。

在一些实施例中，也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。该应用程序通过配置可以在与智能设备关联的屏幕上，在直观的用户界面(UI)中为用户提供各种控制。

在一些实施例中，移动终端300可与显示设备200安装软件应用，通过网络通信协议实现连接通信，实现一对一控制操作的和数据通信的目的。如：可以实现用移动终端300与显示设备200建立控制指令协议，将遥控控制键盘同步到移动终端300上，通过控制移动终端300上用户界面，实现控制显示设备200的功能。也可以将移动终端300上显示音视频内容传输到显示设备200上，实现同步显示功能。

如图1中还示出，显示设备200还与服务器400通过多种通信方式进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。示例的，显示设备200通过发送和接收信息，以及电子节目指南(EPG)互动，接收软件程序更新，或访问远程储存的数字媒体库。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。通过服务器400提供视频点播和广告服务等其他网络服务内容。

显示设备200，可以液晶显示器、OLED显示器、投影显示设备。具体显示设备类型，尺寸大小和分辨率等不作限定，本领技术人员可以理解的是，显示设备200可以根据需要做性能和配置上一些改变。

显示设备200除了提供广播接收电视功能之外，还可以附加提供计算机支持功能的智能网络电视功能，包括但不限于，网络电视、智能电视、互联网协议电视(IPTV)等。

图2中示例性示出了根据示例性实施例中显示设备200的硬件配置框图。

在一些实施例中，显示设备200中包括控制器250、调谐解调器210、通信器220、检测器230、输入/输出接口255、显示器275，音频输出接口285、存储器260、供电电源290、用户接口265、外部装置接口240中的至少一种。

在一些实施例中，显示器275，用于接收源自第一处理器输出的图像信号，进行显示视频内容和图像以及菜单操控界面的组件。

在一些实施例中，显示器275，包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件。

在一些实施例中，显示视频内容，可以来自广播电视内容，也可以是说，可通过有线或无线通信协议接收的各种广播信号。或者，可显示来自网络通信协议接收来自网络服务器端发送的各种图像内容。

在一些实施例中，显示器275用于呈现显示设备200中产生且用于控制显示设备200的用户操控UI界面。

在一些实施例中，根据显示器275类型不同，还包括用于驱动显示的驱动组件。

在一些实施例中，显示器275为一种投影显示器，还可以包括一种投影装置和投影屏幕。

在一些实施例中，通信器220是用于根据各种通信协议类型与外部设备或外部服务器进行通信的组件。例如：通信器可以包括Wifi芯片，蓝牙通信协议芯片，有线以太网通信协议芯片等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。

在一些实施例中，显示设备200可以通过通信器220与外部控制装置100或内容提供设备之间建立控制信号和数据信号发送和接收。

在一些实施例中，用户接口265，可用于接收控制装置100(如：红外遥控器等)红外控制信号。

在一些实施例中，检测器230是显示设备200用于采集外部环境或与外部交互的信号。

在一些实施例中，检测器230包括光接收器，用于采集环境光线强度的传感器，可以通过采集环境光可以自适应性显示参数变化等。

在一些实施例中，检测器230还可以包括图像采集器，如相机、摄像头等，可以用于采集外部环境场景，以及用于采集用户的属性或与用户交互手势，可以自适应变化显示参数，也可以识别用户手势，以实现与用户之间互动的功能。

在一些实施例中，检测器230还可以包括温度传感器等，如通过感测环境温度。

在一些实施例中，显示设备200可自适应调整图像的显示色温。如当温度偏高的环境时，可调整显示设备200显示图像色温偏冷色调，或当温度偏低的环境时，可以调整显示设备200显示图像偏暖色调。

在一些实施例中，检测器230还可声音采集器等，如麦克风，可以用于接收用户的声音。示例性的，包括用户控制显示设备200的控制指令的语音信号，或采集环境声音，用于识别环境场景类型，使得显示设备200可以自适应适应环境噪声。

在一些实施例中，如图2所示，输入/输出接口255被配置为，可进行控制器250与外部其他设备或其他控制器250之间的数据传输。如接收外部设备的视频信号数据和音频信号数据、或命令指令数据等。

在一些实施例中，外部装置接口240可以包括，但不限于如下：可以高清多媒体接口HDMI接口、模拟或数据高清分量输入接口、复合视频输入接口、USB输入接口、RGB端口等任一个或多个接口。也可以是上述多个接口形成复合性的输入/输出接口。

在一些实施例中，如图2所示，调谐解调器210被配置为，通过有线或无线接收方式接收广播电视信号，可以进行放大、混频和谐振等调制解调处理，从多多个无线或有线广播电视信号中解调出音视频信号，该音视频信号可以包括用户所选择电视频道频率中所携带的电视音视频信号，以及EPG数据信号。

在一些实施例中，调谐解调器210解调的频点受到控制器250的控制，控制器250可根据用户选择发出控制信号，以使的调制解调器响应用户选择的电视信号频率以及调制解调该频率所携带的电视信号。

在一些实施例中，广播电视信号可根据电视信号广播制式不同区分为地面广播信号、有线广播信号、卫星广播信号或互联网广播信号等。或者根据调制类型不同可以区分为数字调制信号，模拟调制信号等。或者根据信号种类不同区分为数字信号、模拟信号等。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。这样，机顶盒将接收到的广播电视信号调制解调后的电视音视频信号输出给主体设备，主体设备经过第一输入/输出接口接收音视频信号。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250可以控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器275上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中，所述对象可以是可选对象中的任何一个，例如超链接或图标。与所选择的对象有关操作，例如：显示连接到超链接页面、文档、图像等操作，或者执行与所述图标相对应程序的操作。用于选择UI对象用户命令，可以是通过连接到显示设备200的各种输入装置(例如，鼠标、键盘、触摸板等)输入命令或者与由用户说出语音相对应的语音命令。

如图2所示，控制器250包括随机存取存储器251(Random Access Memory，RAM)、只读存储器252(Read-Only Memory,ROM)、视频处理器270、音频处理器280、其他处理器253(例如：图形处理器(Graphics Processing Unit，GPU)、中央处理器254(CentralProcessing Unit，CPU)、通信接口(Communication Interface)，以及通信总线256(Bus)中的至少一种。其中，通信总线连接各个部件。

在一些实施例中，RAM 251用于存储操作***或其他正在运行中的程序的临时数据

在一些实施例中，ROM 252用于存储各种***启动的指令。

在一些实施例中，ROM 252用于存储一个基本输入输出***，称为基本输入输出***(Basic Input Output System，BIOS)。用于完成对***的加电自检、***中各功能模块的初始化、***的基本输入/输出的驱动程序及引导操作***。

在一些实施例中，在收到开机信号时，显示设备200电源开始启动，CPU运行ROM252中***启动指令，将存储在存储器的操作***的临时数据拷贝至RAM 251中，以便于启动或运行操作***。当操作***启动完成后，CPU再将存储器中各种应用程序的临时数据拷贝至RAM 251中,然后，以便于启动或运行各种应用程序。

在一些实施例中，CPU处理器254，用于执行存储在存储器中操作***和应用程序指令。以及根据接收外部输入的各种交互指令，来执行各种应用程序、数据和内容，以便最终显示和播放各种音视频内容。

在一些示例性实施例中，CPU处理器254，可以包括多个处理器。多个处理器可包括一个主处理器以及一个或多个子处理器。主处理器，用于在预加电模式中执行显示设备200一些操作，和/或在正常模式下显示画面的操作。一个或多个子处理器，用于在待机模式等状态下一种操作。

在一些实施例中，图形处理器253，用于产生各种图形对象，如：图标、操作菜单、以及用户输入指令显示图形等。包括运算器，通过接收用户输入各种交互指令进行运算，根据显示属性显示各种对象。以及包括渲染器，对基于运算器得到的各种对象，进行渲染，上述渲染后的对象用于显示在显示器上。

在一些实施例中，视频处理器270被配置为将接收外部视频信号，根据输入信号的标准编解码协议，进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等等视频处理，可得到直接可显示设备200上显示或播放的信号。

在一些实施例中，视频处理器270，包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等。

其中，解复用模块，用于对输入音视频数据流进行解复用处理，如输入MPEG-2,则解复用模块进行解复用成视频信号和音频信号等。

视频解码模块，则用于对解复用后的视频信号进行处理，包括解码和缩放处理等。

图像合成模块，如图像合成器，其用于将图形生成器根据用户输入或自身生成的GUI信号，与缩放处理后视频图像进行叠加混合处理，以生成可供显示的图像信号。

帧率转换模块，用于对转换输入视频帧率，如将60Hz帧率转换为120Hz帧率或240Hz帧率，通常的格式采用如插帧方式实现。

显示格式化模块，则用于将接收帧率转换后视频输出信号，改变信号以符合显示格式的信号，如输出RGB数据信号。

在一些实施例中，图形处理器253可以和视频处理器可以集成设置，也可以分开设置，集成设置的时候可以执行输出给显示器的图形信号的处理，分离设置的时候可以分别执行不同的功能，例如GPU+FRC(Frame Rate Conversion))架构。

在一些实施例中，音频处理器280，用于接收外部的音频信号，根据输入信号的标准编解码协议，进行解压缩和解码，以及降噪、数模转换、和放大处理等处理，得到可以在扬声器中播放的声音信号。

在一些实施例中，视频处理器270可以包括一颗或多颗芯片组成。音频处理器，也可以包括一颗或多颗芯片组成。

在一些实施例中，视频处理器270和音频处理器280，可以单独的芯片，也可以于控制器一起集成在一颗或多颗芯片中。

在一些实施例中，音频输出，在控制器250的控制下接收音频处理器280输出的声音信号，如：扬声器286，以及除了显示设备200自身携带的扬声器之外，可以输出至外接设备的发声装置的外接音响输出端子，如：外接音响接口或耳机接口等，还可以包括通信接口中的近距离通信模块，例如：用于进行蓝牙扬声器声音输出的蓝牙模块。

供电电源290，在控制器250控制下，将外部电源输入的电力为显示设备200提供电源供电支持。供电电源290可以包括安装显示设备200内部的内置电源电路，也可以是安装在显示设备200外部电源，在显示设备200中提供外接电源的电源接口。

用户接口265，用于接收用户的输入信号，然后，将接收用户输入信号发送给控制器250。用户输入信号可以是通过红外接收器接收的遥控器信号，可以通过网络通信模块接收各种用户控制信号。

在一些实施例中，用户通过控制装置100或移动终端300输入用户命令，用户输入接口则根据用户的输入，显示设备200则通过控制器250响应用户的输入。

在一些实施例中，用户可在显示器275上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

在一些实施例中，“用户界面”，是应用程序或操作***与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

存储器260，包括存储用于驱动显示设备200的各种软件模块。如：第一存储器中存储的各种软件模块，包括：基础模块、检测模块、通信模块、显示控制模块、浏览器模块、和各种服务模块等中的至少一种。

基础模块用于显示设备200中各个硬件之间信号通信、并向上层模块发送处理和控制信号的底层软件模块。检测模块用于从各种传感器或用户输入接口中收集各种信息，并进行数模转换以及分析管理的管理模块。

例如，语音识别模块中包括语音解析模块和语音指令数据库模块。显示控制模块用于控制显示器进行显示图像内容的模块，可以用于播放多媒体图像内容和UI界面等信息。通信模块，用于与外部设备之间进行控制和数据通信的模块。浏览器模块，用于执行浏览服务器之间数据通信的模块。服务模块，用于提供各种服务以及各类应用程序在内的模块。同时，存储器260还用存储接收外部数据和用户数据、各种用户界面中各个项目的图像以及焦点对象的视觉效果图等。

图3示例性示出了根据示例性实施例中控制装置100的配置框图。如图3所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口、存储器、供电电源。

控制装置100被配置为控制显示设备200，以及可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。如：用户通过操作控制装置100上频道加减键，显示设备200响应频道加减的操作。

在一些实施例中，控制装置100可是一种智能设备。如：控制装置100可根据用户需求安装控制显示设备200的各种应用。

在一些实施例中，如图1所示，移动终端300或其他智能电子设备，可在安装操控显示设备200的应用之后，可以起到控制装置100类似功能。如：用户可以通过安装应用，在移动终端300或其他智能电子设备上可提供的图形用户界面的各种功能键或虚拟按钮，以实现控制装置100实体按键的功能。

控制器110包括处理器112和RAM 113和ROM 114、通信接口130以及通信总线。控制器用于控制控制装置100的运行和操作，以及内部各部件之间通信协作以及外部和内部的数据处理功能。

通信接口130在控制器110的控制下，实现与显示设备200之间控制信号和数据信号的通信。如：将接收到的用户输入信号发送至显示设备200上。通信接口130可包括WiFi芯片131、蓝牙模块132、NFC模块133等其他近场通信模块中至少之一种。

用户输入/输出接口140，其中，输入接口包括麦克风141、触摸板142、传感器143、按键144等其他输入接口中至少一者。如：用户可以通过语音、触摸、手势、按压等动作实现用户指令输入功能，输入接口通过将接收的模拟信号转换为数字信号，以及数字信号转换为相应指令信号，发送至显示设备200。

输出接口包括将接收的用户指令发送至显示设备200的接口。在一些实施例中，可以红外接口，也可以是射频接口。如：红外信号接口时，需要将用户输入指令按照红外控制协议转化为红外控制信号，经红外发送模块进行发送至显示设备200。再如：射频信号接口时，需将用户输入指令转化为数字信号，然后按照射频控制信号调制协议进行调制后，由射频发送端子发送至显示设备200。

在一些实施例中，控制装置100包括通信接口130和输入输出接口140中至少一者。控制装置100中配置通信接口130，如：WiFi、蓝牙、NFC等模块，可将用户输入指令通过WiFi协议、或蓝牙协议、或NFC协议编码，发送至显示设备200.

存储器190，用于在控制器的控制下存储驱动和控制控制设备200的各种运行程序、数据和应用。存储器190，可以存储用户输入的各类控制信号指令。

供电电源180，用于在控制器的控制下为控制装置100各元件提供运行电力支持。可以电池及相关控制电路。

在一些实施例中，***可以包括内核(Kernel)、命令解析器(shell)、文件***和应用程序。内核、shell和文件***一起组成了基本的操作***结构，它们让用户可以管理文件、运行程序并使用***。上电后，内核启动，激活内核空间，抽象硬件、初始化硬件参数等，运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后，再加载Shell和用户应用程序。应用程序在启动后被编译成机器码，形成一个进程。

参见图4，在一些实施例中，将***分为四层，从上至下分别为应用程序(Applications)层(简称“应用层”)，应用程序框架(Application Framework)层(简称“框架层”)，安卓运行时(Android runtime)和***库层(简称“***运行库层”)，以及内核层。

在一些实施例中，应用程序层中运行有至少一个应用程序，这些应用程序可以是操作***自带的窗口(Window)程序、***设置程序、时钟程序、相机应用等；也可以是第三方开发者所开发的应用程序，比如嗨见程序、K歌程序、魔镜程序等。在具体实施时，应用程序层中的应用程序包不限于以上举例，实际还可以包括其它应用程序包，本申请实施例对此不做限制。

框架层为应用程序层的应用程序提供应用编程接口(application programminginterface，API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心，这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口，可在执行中访问***中的资源和取得***的服务

如图4所示，本申请实施例中应用程序框架层包括管理器(Managers)，内容提供者(Content Provider)等，其中管理器包括以下模块中的至少一个：活动管理器(ActivityManager)用与和***中正在运行的所有活动进行交互；位置管理器(Location Manager)用于给***服务或应用提供了***位置服务的访问；文件包管理器(Package Manager)用于检索当前安装在设备上的应用程序包相关的各种信息；通知管理器(NotificationManager)用于控制通知消息的显示和清除；窗口管理器(Window Manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。

在一些实施例中，活动管理器用于：管理各个应用程序的生命周期以及通常的导航回退功能，比如控制应用程序的退出(包括将显示窗口中当前显示的用户界面切换到***桌面)、打开、后退(包括将显示窗口中当前显示的用户界面切换到当前显示的用户界面的上一级用户界面)等。

在一些实施例中，窗口管理器用于管理所有的窗口程序，比如获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕，控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。

在一些实施例中，***运行库层为上层即框架层提供支撑，当框架层被使用时，安卓操作***会运行***运行库层中包含的C/C++库以实现框架层要实现的功能。

在一些实施例中，内核层是硬件和软件之间的层。如图4所示，内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，触摸传感器、压力传感器等)等。

在一些实施例中，内核层还包括用于进行电源管理的电源驱动模块。

在一些实施例中，图4中的软件架构对应的软件程序和/或模块存储在图2或图3所示的第一存储器或第二存储器中。

在一些实施例中，以魔镜应用(拍照应用)为例，当遥控接收装置接收到遥控器输入操作，相应的硬件中断被发给内核层。内核层将输入操作加工成原始输入事件(包括输入操作的值，输入操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，根据焦点当前的位置识别该输入事件所对应的控件以及以该输入操作是确认操作，该确认操作所对应的控件为魔镜应用图标的控件，魔镜应用调用应用框架层的接口，启动魔镜应用，进而通过调用内核层启动摄像头驱动，实现通过摄像头捕获静态图像或视频。

在一些实施例中，对于具备触控功能的显示设备，以分屏操作为例，显示设备接收用户作用于显示屏上的输入操作(如分屏操作)，内核层可以根据输入操作产生相应的输入事件，并向应用程序框架层上报该事件。由应用程序框架层的活动管理器设置与该输入操作对应的窗口模式(如多窗口模式)以及窗口位置和大小等。应用程序框架层的窗口管理根据活动管理器的设置绘制窗口，然后将绘制的窗口数据发送给内核层的显示驱动，由显示驱动在显示屏的不同显示区域显示与之对应的应用界面。

在一些实施例中，如图5中所示，应用程序层包含至少一个应用程序可以在显示器中显示对应的图标控件，如：直播电视应用程序图标控件、视频点播应用程序图标控件、媒体中心应用程序图标控件、应用程序中心图标控件、游戏应用图标控件等。

在一些实施例中，直播电视应用程序，可以通过不同的信号源提供直播电视。例如，直播电视应用程可以使用来自有线电视、无线广播、卫星服务或其他类型的直播电视服务的输入提供电视信号。以及，直播电视应用程序可在显示设备200上显示直播电视信号的视频。

在一些实施例中，视频点播应用程序，可以提供来自不同存储源的视频。不同于直播电视应用程序，视频点播提供来自某些存储源的视频显示。例如，视频点播可以来自云存储的服务器端、来自包含已存视频节目的本地硬盘储存器。

在一些实施例中，媒体中心应用程序，可以提供各种多媒体内容播放的应用程序。例如，媒体中心，可以为不同于直播电视或视频点播，用户可通过媒体中心应用程序访问各种图像或音频所提供服务。

在一些实施例中，应用程序中心，可以提供储存各种应用程序。应用程序可以是一种游戏、应用程序，或某些和计算机***或其他设备相关但可以在智能电视中运行的其他应用程序。应用程序中心可从不同来源获得这些应用程序，将它们储存在本地储存器中，然后在显示设备200上可运行。

在一些实施例中的硬件或软件架构可以基于上述实施例中的介绍，在一些实施例中可以是基于相近的其他硬件或软件架构，可以实现本申请的技术方案即可。

在一些实施例中，显示设备200的图像采集器可包括摄像头，用户可通过显示设备200上安装的视频通话类应用程序，与使用另一个显示设备200的用户进行视频通话。相关技术中，显示设备200显示的通话界面包括两个窗口，视频通话的双方设备采集的图像分别显示在通话界面不同的窗口中。然而，在上述视频通话场景下，两个窗口中人物的背景通常不同，视频通话的双方人物分别处于两个不同背景下，不能破除显示设备200的屏幕硬边界限制，用户体验不佳。

为解决上述技术问题，本申请基于AR技术，提供了一种混合通话方案，该混合通话方案基于显示设备200的摄像头为3D摄像头模组，可实现AR混合通话。在一些实施例中，3D摄像头模组可包括3D摄像头和其他摄像头，如广角摄像头、微距摄像头、主摄像头等摄像头；在另一些实施例中，3D摄像头模组也可仅包括3D摄像头。

参见图6，为根据一些实施例的AR混合通话示意图。如图6所示，两个显示设备200的3D摄像头模组分别采集深度图像，并将各自采集的深度图像上传到服务器，服务器可根据两个深度图像，将视频通话的双方人物混合在同一背景中，进而使两个显示设备200都能显示双方人物在同一背景下的图像，提升了视频聊天体验。

下面对混合通话的过程做进一步描述。参见图7，为根据一些实施例的混合通话交互示意图。如图7所示，在一些实施例中，当双方用户通过两个显示设备200开启视频通话后，主叫端和被叫端可通过服务器进行混合通话，其中，发出混合通话请求的显示设备200可称为主叫端，接收混合通话请求的显示设备200可称为被叫端。

在一些实施例中，视频通话应用程序还具有语音通话功能以及语音通话切换为视频通话功能，因此，本申请实施例提供的混合通话方案，也可适用于语音通话场景，使用户从语音通话切换为混合通话。

参见图8，为根据一些实施例的视频通话界面示意图，如图8所示，视频通话界面包括两个窗口，其中一个窗口显示主叫端的人物及背景，另一个窗口显示被叫端的人物及背景，为便于区分，主叫端的用户可称为第一人物，被叫端的用户可称为第二人物，第一人物和第二人物的背景通常不相同，图8中，横条纹用于表示第一人物的背景，竖条纹用于表示第二人物的背景，实际实施中，横条纹通常为第一人物所在的环境，竖条纹通常为第二人物所在的环境。

在一些实施例中，显示设备200的控制器在视频通话应用程序启动后，可查询是否支持AR混合通话。根据视频通话应用程序具备3D摄像头模组的启用条件，可判定支持AR混合通话。启用条件可包括显示设备200具备3D摄像头模组，视频通话应用程序具有3D摄像头模组的使用权限，以及3D摄像头模组工作正常等条件。如果显示设备200检测到视频通话应用程序具备3D摄像头模组的启用条件，可如图8所示，控制显示器在视频通话界面显示混合通话控件。混合通话控件的名称可为“AR通话”，混合通话控件的触发方式可为语音触发、单击触发等方式，混合通话控件的触发信号可为用于指示混合通话的控制信号，当然，用于指示混合通话的控制信号还可为其他信号，如预设的手势信号、屏幕任意位置的双击信号等信号。

在一些实施例中，显示设备200的控制器在视频通话应用程序启动后，可直接如图8所示显示混合通话控件，在接收到用于指示混合通话的控制信号后，再检测视频通话应用程序是否具备3D摄像头模组的启用条件。

用户在显示设备200上通过单击混合通话控件等方式在显示设备200上输入用于指示混合通话的控制信号后，则该显示设备200成为主叫端，该用户成为第一用户。

由于在一些实施例中，主叫端在检测到支持AR混合通话后再显示混合通话控件，因此，在接收到用于指示混合通话的控制信号后，主叫端可直接生成混合通话请求，通过服务器将混合通话请求发送到被叫端，节省了3D摄像头模组的检测时间；而在一些实施例中，主叫端未在接收到用于指示混合通话的控制信号之前没有检测是否支持AR混合通话，而上述启用条件也可能随时发生变化，如用户关闭了3D摄像头模组的使用权限，因此，主叫端可在用户输入用于指示混合通话的控制信号后，检测是否支持AR混合通话，确保主叫端的3D摄像头模组能正常启用，主叫端在检测到3D摄像头模组能正常启用后，生成混合通话请求，将混合通话发送到服务器，服务器可将混合通话请求发送到被叫端，从而查询被叫端是否支持及接受AR混合通话。

被叫端接收到混合通话请求后，可查询是否支持AR混合通话。根据视频通话应用程序具备3D摄像头模组的启用条件，可判定支持AR混合通话。如果视频通话应用程序不支持AR混合通话，可向服务器反馈不支持AR混合通话的信号，服务器将该不支持AR混合通话的信号发送到主叫端，供主叫端显示对方不支持AR混合通话的提示信息。如果视频通话应用程序支持AR混合通话，则生成第二提示信息，并控制显示器显示第二提示信息。第二提示信息可包括提示框和选择控件，提示框的内容可为提示是否接受混合通话的信息，如“确认进行混合通话？”，选择控件的数量可为两个，一个响应于触发时表明被叫端的用户接受混合通话，另一个响应于触发时表明被叫端的用户拒绝混合通话。

当被叫端接收到用户输入的对应所述第二提示信息控制信号，且该控制信号为拒绝混合通话的信号后，被叫端生成拒绝信号，将拒绝信号发送至服务器，服务器可将该拒绝信号转发至主叫端。

主叫端根据接收到拒绝信号，生成并控制显示器显示第三提示信息。第三提示信息可包括提示框，提示框的内容可为提示对方拒绝混合通话的信息，如“对方已拒绝混合通话”。

当被叫端接收到用户输入的对应所述第二提示信息控制信号，且该控制信号为接受混合通话的信号后，被叫端生成确认信号，将确认信号发送至服务器。

在一些实施例中，服务器可直接将确认信号转发到主叫端，主叫端可根据接收到确认信号，控制3D摄像头模组采集第一深度图像，将第一深度图像发送给服务器。

在一些实施例中，在主叫端发出混合通话请求之前，双方用户进行的通话为语音通话，如果用户误触了混合通话控件，而对方接受了混合通话请求，主叫端根据确认信号直接启动3D摄像头模组可能会导致主叫端的隐私被暴露，或者，主叫端没有误触混合通话控件，确实希望建立混合通话连接，但是主叫端没有做好打开摄像头的准备，为保护主叫端的隐私，服务器可根据被叫端的确认信号，发送第一提示信号到主叫端，主叫端根据接收到第一提示信号，生成并控制显示器显示第一提示信息。第一提示信息可包括提示框和选择控件，提示框的内容可为提示是否接受混合通话的信息，如“确认进行混合通话？”，选择控件的数量可为两个，一个响应于触发时表明主叫端的用户确认进行混合通话，另一个响应于触发时表明主叫端的用户取消混合通话。当主叫端的用户触发表示“确认进行混合通话”的选择控件后，主叫端的视频通话应用程序控制3D摄像头模组采集第一深度图像，将第一深度图像发送给服务器。

第一深度图像可包括含有深度信息的点云。在一些实施例中，主叫端的视频通话应用程序根据第一深度图像、麦克风采集的音频和3D摄像头模组的其他摄像头采集的视频生成混合流发送到服务器，供服务器进行音视频处理，如人像背景虚化、人像美颜、音效设置等处理。

在一些实施例中，服务器可在接收到主叫端发送的第一深度图像后，发送人物深度图像请求到被叫端，以请求被叫端的人物的空间信息，即深度信息。被叫端可根据接收到人物深度图像请求，控制3D摄像头模组采集第二深度图像，第二深度图像可包括含有深度信息的点云，被叫端可从第二深度图像中提取出第二人物的深度信息，即人物空间分割信息，将其发送到服务器。其中，从第二深度图像中提取第二人物的深度信息的方法包括：利用人体识别算法对第二深度图像进行人体识别，识别出第二人物在第二深度图像中的位置；根据第二人物在第二深度图像中的位置进行背景分割，以将第二人物的深度信息从第二深度图像中剥离出来，从而得到第二人物的深度信息。

在一些实施例中，服务器可在接收到主叫端发送的第一深度图像后，发送深度图像请求到被叫端，以请求被叫端提供被叫端的深度信息。被叫端可根据接收到深度图像请求，控制3D摄像头模组采集第二深度图像，将第二深度图像发送到服务器，由服务器从第二深度图像中提取出第二人物的深度信息。

服务器可根据第二人物的深度信息和第一深度图像的深度信息，将第二人物渲染到第一深度图像中，得到第一混合图像，将第一混合图像分别发送至被叫端和主叫端。主叫端和被叫端接收到第一混合图像后，分别控制各自的显示器显示第一混合图像。参见图9，为根据一些实施例示出的混合通话界面示意图。如图9所示，在第一混合图像中，第一人物和第二人物均处于相同的背景中，且背景为第一人物的真实背景。

在一些实施例中，服务器可对第一混合图像进行音视频处理，得到AR混合流，将AR混合流分别发送至主叫端和被叫端，供主叫端和被叫端展示处理后的第一混合图像和音频。

在一些实施例中，混合通话界面可设置有切换背景控件，如图9所示，该控件名称可为“切换背景”，当主叫端的用户或被叫端的用户触发切换背景控件时，服务器可将第一混合图像切换为图10所示的第二混合图像，第二混合图像的背景为第二人物的真实背景，以主叫端的用户触发切换背景控件为例，切换背景的具体过程如下：

当主叫端的用户在主叫端通过单击切换背景控件等方式在主叫端输入用于指示切换背景的控制信号后，主叫端响应于接收到该用于指示切换背景的控制信号，向服务器发送切换背景请求。

由于在一些实施例中，被叫端向服务器发送了第二深度图像，而在一些实施例中，被叫端仅向服务器发送了第二人物的深度信息，而切换至第二人物的背景需要第二人物的背景深度信息。因此，服务器可判断是否具有第二人物的背景深度信息，如果具有第二人物的背景深度信息，服务器可从第一深度图像中提取出第一人物的深度信息，提取方法与从第二深度图像中提取第二人物的深度信息的方法相同，将第一人物渲染到第二深度图像中，得到第二混合图像；如果不具有第二人物的背景深度信息，服务器可向被叫端发送深度图像请求，以请求被叫端提供第二深度图像，进而从第一深度图像中提取出第一人物的深度信息，将第一人物渲染到第二深度图像中，得到第二混合图像。

服务器生成第二混合图像后，将第二混合图像分别发送至被叫端和主叫端。主叫端和被叫端接收到第二混合图像后，分别控制各自的显示器将第一混合图像切换为第二混合图像。

如图10所示，第二混合图像的界面可保留切换背景控件，供用户选择将第二混合图像切换为第一混合图像。

为对上述混合通话方案做进一步说明，本申请实施例还提供了一种视频通话方法，参见图11，该视频通话方法可包括以下步骤：

步骤S110：将主叫端的混合通话请求发送到被叫端。

服务器在接收到主叫端的混合通话请求后，可将主叫端的混合通话请求发送到被叫端。

步骤S120：根据接收到被叫端的确认信号，获取所述主叫端采集的第一深度图像。

在一些实施例中，服务器在接收到被叫端对应混合通话请求的确认信号后，可将确认信号发送至主叫端，使主叫端根据接收到确认信号，控制3D摄像头模组采集第一深度图像，将第一深度图像发送至服务器。

在一些实施例中，服务器在接收到被叫端对应混合通话请求的确认信号后，可发送第一提示信号到主叫端，使主叫端显示第一提示信息，主叫端在接收到对应第一提示信息的确认信号后，控制3D摄像头模组采集第一深度图像，将第一深度图像发送给服务器。

步骤S130：获取所述被叫端的第二人物的深度信息。

服务器可在接收到第一深度信息后，可向被叫端发送人物深度图像请求，获取第二深度图像中的第二人物的深度信息。

步骤S140：根据所述第二人物的深度信息，将所述第二人物渲染到所述第一深度图像中，得到第一混合图像。

服务器可根据第二人物的深度信息和第一深度图像中的背景深度信息，将第二人物渲染到第一深度图像的适宜位置，如与第一人物的同一水平位置，调整第二人物的大小与第一人物的大小相当，最终合成第一混合图像。

步骤S150：向所述主叫端和被叫端分别发送所述第一混合图像。

服务器向主叫端和被叫端分别发送第一混合图像，供主叫端和被叫端在各自的显示器上显示第一混合图像。

进一步的，服务器还可接收来自主叫端或被叫端的切换背景请求，将第一混合图像切换为第二混合图像，或将第二混合图像重新切换为第一混合图像。

本申请实施例还提供一种服务器，可用于执行上述视频通话方法。

由上述实施例可见，本申请实施例通过3D摄像头模组采集通话双方的深度信息，根据通话双方的深度信息将其中一方的人物渲染到另一方的深度图像中，实现了通话双方在同一真实背景下的实时显示，解决了通话界面上的双方人物处于不同背景的问题，提升了用户的视频通话体验。

由于以上实施方式均是在其他方式之上引用结合进行说明，不同实施例之间均具有相同的部分，本说明书中各个实施例之间相同、相似的部分互相参见即可。在此不再详细阐述。

需要说明的是，在本说明书中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或暗示这些实体或操作之间存在任何这种实际的关系或顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的电路结构、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种电路结构、物品或者设备所固有的要素。在没有更多限制的情况下，有语句“包括一个……”限定的要素，并不排除在包括要素的电路结构、物品或者设备中还存在另外的相同要素。

本领域技术人员在考虑说明书及实践这里发明的公开后，将容易想到本申请的其他实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求的内容指出。以上的本申请实施方式并不构成对本申请保护范围的限定。

Claims

1.一种显示设备，其特征在于，包括：

摄像头，用于采集第一深度图像；

2.根据权利要求1所述的显示设备，其特征在于，所述控制器还被配置为：

3.根据权利要求1所述的显示设备，其特征在于，所述响应于接收到用户输入的用于指示混合通话的控制信号，之前还包括：

与被叫端建立视频通话连接；

控制显示器在视频通话的用户界面上显示混合通话控件，其中，所述混合通话控件响应于触发时生成所述指示混合通话的控制信号。

4.根据权利要求1所述的显示设备，其特征在于，所述向服务器发送所述第一深度图像，之前还包括：

控制所述显示器显示确认混合通话的第一提示信息；

接收用户输入的对应所述第一提示信息的控制信号。

5.一种显示设备，其特征在于，包括：

摄像头，用于采集第二深度图像；

6.根据权利要求5所述的显示设备，其特征在于，所述控制器还被配置为：向所述服务器发送所述第二深度图像，使所述服务器根据第一人物的深度信息，将所述第一人物渲染到所述第二深度图像中得到第二混合图像，所述第一人物为第一深度图像中的人物，所述第一深度图像为所述主叫端采集的深度图像。

7.根据权利要求5所述的显示设备，其特征在于，所述从所述第二深度图像提取出第二人物的深度信息，包括：

对所述第二深度图像进行人体识别，得到所述第二人物在所述第二深度图像中的位置；

根据所述第二人物在所述第二深度图像中的位置进行背景分割，得到所述第二人物的深度信息。

8.一种视频通话方法，其特征在于，包括：

将主叫端的混合通话请求发送到被叫端；

获取所述被叫端的第二人物的深度信息；

向所述主叫端和被叫端分别发送所述第一混合图像。

9.根据权利要求8所述的视频通话方法，其特征在于，还包括：

根据接收到切换背景请求，从所述第一深度图像提取出第一人物的深度信息；

根据所述第一人物的深度信息，将所述第一人物渲染到所述第二深度图像中，得到第二混合图像；

向所述主叫端和被叫端分别发送所述第二混合图像。

10.一种服务器，其特征在于，所述服务器被配置为：

将主叫端的混合通话请求发送到被叫端；

获取所述被叫端的第二人物的深度信息；

向所述主叫端和被叫端分别发送所述第一混合图像。