CN116711303A - 三维视频通话方法及电子设备 - Google Patents
三维视频通话方法及电子设备 Download PDFInfo
- Publication number
- CN116711303A CN116711303A CN202180087392.8A CN202180087392A CN116711303A CN 116711303 A CN116711303 A CN 116711303A CN 202180087392 A CN202180087392 A CN 202180087392A CN 116711303 A CN116711303 A CN 116711303A
- Authority
- CN
- China
- Prior art keywords
- face
- dimensional
- subunit
- sub
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 230000005540 biological transmission Effects 0.000 claims abstract description 50
- 108010001267 Protein Subunits Proteins 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 description 53
- 230000008569 process Effects 0.000 description 29
- 239000010410 layer Substances 0.000 description 27
- 238000010586 diagram Methods 0.000 description 23
- 238000013461 design Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 16
- 230000009471 action Effects 0.000 description 14
- 238000004891 communication Methods 0.000 description 13
- 238000007726 management method Methods 0.000 description 13
- 238000010295 mobile communication Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000000153 supplemental effect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012792 core layer Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/194—Transmission of image signals
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
本申请提供一种三维视频通话方法及电子设备,能够实现三维视频通话,并可以降低获取三维视频的时延。该电子设备包括:人脸图像采集模块用于将人脸深度图像划分为包括第一子单元和第二子单元的多个子单元;将人脸二维图像划分为包括第三子单元和第四子单元的多个子单元;向视频编码模块发送第一子单元和第三子单元;然后,向视频编码模块发送第二子单元和第四子单元。视频编码模块用于根据第一子单元和第三子单元获得第一编码单元并发送给网络传输模块;然后,根据第二子单元和第四子单元获得第二编码单元并发送给网络传输模块。网络传输模块,用于向第二电子设备发送第一编码单元;在发送第一编码单元后,向第二电子设备发送第二编码单元。
Description
本申请涉及通信领域,尤其涉及一种三维视频通话方法及电子设备。
随着视频编解码技术的发展,视频通话技术已成为较为流行的社交方式之一。现有的视频通话方案已经能够实现三维视频通话。具体地,视频发送设备先获取二维图像和深度图像,然后将二维图像和深度图像压缩后发送至服务器。服务器对接收的二维图像和深度图像进行解码,根据解码后的二维图像和深度图像生成三维图像,并将三维图像压缩后发送至视频接收设备,以实现用户之间的三维视频通话。
上述视频通话方案中,服务器对接收的二维图像和深度图像进行解码、以及对生成的三维图像进行编码的过程,增加了视频接收设备获取三维视频的时延。
发明内容
本申请实施例提供一种三维视频通话方法及电子设备,可以在视频通话的过程中,降低获取三维视频的时延。为达到上述目的,本申请采用如下技术方案。
第一方面,提供一种电子设备。该电子设备包括:人脸图像采集模块、视频编码模块和网络传输模块。其中,人脸图像采集模块,用于获取人脸深度图像和人脸二维图像;将人脸深度图像划分为包括第一子单元和第二子单元的多个子单元;将人脸二维图像划分为包括第三子单元和第四子单元的多个子单元;向视频编码模块发送第一子单元和第三子单元;在发送第一子单元和第三子单元后,向视频编码模块发送第二子单元和第四子单元。其中,第一子单元对应于第三子单元,第二子单元对应于第四子单元。视频编码模块,用于根据第一子单元和第三子单元获得第一编码单元,向网络传输模块发送第一编码单元;在获得并发送第一编码单元后,根据第二子单元和第四子单元获得第二编码单元,向网络传输模块发送第二编码单元。网络传输模块,用于向第二电子设备发送第一编码单元;在发送第一编码单元后,向第二电子设备发送第二编码单元。
基于第一方面所述的电子设备,该电子设备的人脸图像采集模块将人脸深度图像和人脸二维图像分别划分为多个子单元,向视频编码模块发送一对子单元后再发送下一对子单元,该一对子单元包括人脸深度图像的一个子单元和与该人脸深度图像的一个子单元对应的人脸二维图像的一个子单元。如此,可以缩短视频编码模块等待接收图像的时间。视频编码模块根据一对子单元获得一个编码单元并发送给网络传输模块后,再对下一对子单元做相同处理,可以缩短网络传输模块等待接收编码单元的时间。网络传输模块接收一个编码单元并向第二电子设备发送后,再接收下一个编码单元并向第二电子设备发送,可以缩短第二电子设备等待接收编码单元的时间,从而可以降低第二电子设备获取三维视频的时延。
在一种可能的设计中,人脸图像采集模块,具体可用于接收人脸深度信息;接收 人脸二维信息;根据人脸深度信息获得人脸深度图像,根据人脸二维信息获得人脸二维图像。如此,人脸图像采集模块对人脸深度信息进行处理获得人脸深度图像,从而可以显示真实的三维视频,实现三维视频通话。
在一种可能的设计中,视频编码模块,具体可用于:对第三子单元进行编码,以获得第三编码单元;根据第一子单元和第三编码单元,获得第一编码单元;以及,对第四子单元进行编码,以获得第四编码单元;根据第二子单元和第四编码单元,获得第二编码单元。也就是说,视频编码模块可以先对人脸二维图像的一个子单元进行编码,获得一个编码单元,再将人脸深度图像的一个子单元与该编码单元进行混合编码。如此,将人脸深度图像的子单元与人脸二维图像的子单元编码至同一编码单元中,可以降低传输的复杂度。
需要说明的是,本申请不对电子设备的视频编码模块对人脸二维图像的子单元和人脸深度图像的子单元进行编码的顺序进行限定,例如,视频编码模块可以先对第一子单元进行编码,再将编码后的第一子单元与第三子单元进行混合编码,获得第一编码单元。
在一种可能的设计中,第一方面所述的电子设备还可以包括:人脸三维生成模块和显示模块。其中,人脸三维生成模块,用于根据第一子单元和第三子单元获得第一人脸三维子图像,向显示模块发送第一人脸三维子图像;在获得并发送第一人脸三维子图像后,根据第二子单元和第四子单元获得第二人脸三维子图像,向显示模块发送第二人脸三维子图像。显示模块,用于将第一人脸三维子图像与场景二维图像进行叠加;在将第一人脸三维子图像与场景二维图像进行叠加后,将第二人脸三维子图像与场景二维图像进行叠加。如此,人脸三维生成模块根据一对子单元获得一个人脸三维子图像,并向显示模块发送后,再对下一对子单元进行相同的处理,可以缩短显示模块的等待时间,从而可以降低电子设备获得人脸三维图像的时延,进而可以降低电子设备获取三维视频的时延。
第二方面,提供一种电子设备。该电子设备包括:网络传输模块、视频解码模块、三维人脸生成模块和显示模块。其中,网络传输模块,用于接收来自第一电子设备的第一编码单元,向视频解码模块发送第一编码单元;在接收并发送第一编码单元后,接收来自第一电子设备的第二编码单元,向视频解码模块发送第二编码单元。视频解码模块,用于根据第一编码单元获得第一子单元和第三子单元;在获得第一子单元和第三子单元后,根据第二编码单元获得第二子单元和第四子单元。其中,第一子单元和第二子单元分别为人脸深度图像中的子单元,第三子单元和第四子单元分别为人脸二维图像中的子单元,第一子单元对应于第三子单元,第二子单元对应于第四子单元。三维人脸生成模块,用于根据第一子单元和第三子单元获得第一人脸三维子图像,向显示模块发送第一人脸三维子图像;在获得并发送第一人脸三维子图像后,根据第二子单元和第四子单元获得第二人脸三维子图像,向显示模块发送第二人脸三维子图像。显示模块,用于将第一人脸三维子图像与场景二维图像进行叠加;在将第一人脸三维子图像与场景二维图像进行叠加后,将第二人脸三维子图像与场景二维图像进行叠加。
基于第二方面所述的电子设备,电子设备的网络传输模块接收一个编码单元并向视频解码模块发送后,接收下一个编码单元并向视频解码模块发送,可以缩短视频解 码模块等待的时间。视频解码模块对一个编码单元解码,获得人脸三维图像的一个子单元和人脸二维图像的一个子单元,并向三维人脸生成模块发送后,对下一个编码单元进行相同处理,可以缩短三维人脸生成模块等待的时间。三维人脸生成模块根据一对子单元获得一个人脸三维子图像,并发送给显示模块后,再对下一对子单元进行相同处理,可以缩短显示模块等待的时间,从而可以降低电子设备获取人脸三维图像的时延,降低电子设备获取三维视频的时延。
在一种可能的设计中,视频解码模块,还用于对第一编码单元进行解析,以获得第一子单元和第三编码单元;对第三编码单元进行解码,以获得第三子单元;在对第三编码单元进行解码后,对第二编码单元进行解析,以获得第二子单元和第四编码单元;对第四编码单元进行解码,以获得第四子单元。如此,视频解码模块可从一个编码单元中解码出一对子单元,可以降低获取人脸深度图像的子单元和人脸二维图像的子单元的复杂度。
在一种可能的设计中,第二方面提供的电子设备,还可以包括:触控模块。其中,触控模块,用于检测调整动作。显示模块,用于根据调整动作,调整显示人脸三维图像中人脸的角度。如此,电子设备可以实现显示三维视频中人脸的不同角度。
第三方面,提供一种三维视频通话方法。该三维视频通话方法包括:获取人脸深度图像和人脸二维图像;将人脸深度图像划分为包括第一子单元和第二子单元的多个子单元;将人脸二维图像划分为包括第三子单元和第四子单元的多个子单元。根据第一子单元和第三子单元获得第一编码单元;在获得第一编码单元后,根据第二子单元和第四子单元获得第二编码单元。向第二电子设备发送第一编码单元;在发送第一编码单元后,向第二电子设备发送第二编码单元。其中,第一子单元对应于第三子单元,第二子单元对应于第四子单元。
在一种可能的设计中,上述获取人脸深度图像和人脸二维图像,可以包括:接收人脸深度信息;接收人脸二维信息;根据人脸深度信息获得人脸深度图像,根据人脸二维信息获得人脸二维图像。
在一种可能的设计中,第三方面所述的三维视频通话方法,还可以包括:对第三子单元进行编码,以获得第三编码单元;根据第一子单元和第三编码单元,获得第一编码单元;以及,对第四子单元进行编码,以获得第四编码单元;根据第二子单元和第四编码单元,获得第二编码单元。
在一种可能的设计中,第三方面所述的三维视频通话方法,还可以包括:根据第一子单元和第三子单元获得第一人脸三维子图像;在获得第一人脸三维子图像后,根据第二子单元和第四子单元获得第二人脸三维子图像。将第一人脸三维子图像与场景二维图像进行叠加;在将第一人脸三维子图像与场景二维图像进行叠加后,将第二人脸三维子图像与场景二维图像进行叠加。
此外,第三方面所述的三维视频通话方法的技术效果可以参考第一方面中的任意一种实现方式所述的电子设备的技术效果,此处不再赘述。
第四方面,提供一种三维视频通话方法。该三维视频通话方法包括:接收来自第一电子设备的第一编码单元;在接收第一编码单元后,接收来自第一电子设备的第二编码单元。根据第一编码单元获得第一子单元和第三子单元;在获得第一子单元和第 三子单元后,根据第二编码单元获得第二子单元和第四子单元;其中,第一子单元和第二子单元分别为人脸深度图像中的子单元,第三子单元和第四子单元分别为人脸二维图像中的子单元,第一子单元对应于第三子单元,第二子单元对应于第四子单元。根据第一子单元和第三子单元获得第一人脸三维子图像;在获得第一人脸三维子图像后,根据第二子单元和第四子单元获得第二人脸三维子图像。将第一人脸三维子图像与场景二维图像进行叠加;在将第一人脸三维子图像与场景二维图像进行叠加后,将第二人脸三维子图像与场景二维图像进行叠加。
在一种可能的设计中,第四方面所述的三维视频通话方法,还可以包括:对第一编码单元进行解析,以获得第一子单元和第三编码单元;对第三编码单元进行解码,以获得第三子单元;在对第三编码单元进行解码后,对第二编码单元进行解析,以获得第二子单元和第四编码单元;对第四编码单元进行解码,以获得第四子单元。
在一种可能的设计中,第四方面所述的三维视频通话方法,还可以包括:检测调整动作,响应于调整动作,调整显示人脸三维图像中人脸的角度。
此外,第四方面所述的三维视频通话方法的技术效果可以参考第二方面中的任意一种实现方式所述的电子设备的技术效果,此处不再赘述。
第五方面,提供一种电子设备,该电子设备包括:处理器,处理器与存储器耦合。存储器,用于存储计算机程序。处理器,用于执行存储器中存储的计算机程序,以使得电子设备执行如第三方面至第四方面中任意一种可能的实现方式所述的三维视频通话方法。
在一种可能的设计中,第五方面所述的电子设备还可以包括收发器。该收发器可以为收发电路或输入/输出端口。所述收发器可以用于该电子设备与其他设备通信。
在本申请中,第五方面所述的电子设备可以为电子设备,或者设置于电子设备内部的芯片或芯片***。
此外,第五方面所述的电子设备的技术效果可以参考第三方面至第四方面中任意一种实现方式所述的三维视频通话方法的技术效果,此处不再赘述。
第六方面,提供一种三维视频通话***。该三维视频通话***包括第一方面中任意一种可能的实现方式所述的电子设备,以及第二方面中任意一种可能的实现方式所述的电子设备。
第七方面,提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序或指令,当计算机程序或指令在计算机上运行时,使得计算机执行第三方面至第四方面中任意一种可能的实现方式所述的三维视频通话方法。
第八方面,提供一种计算机程序产品,该计算机程序产品包括:计算机程序或指令,当计算机程序或指令在计算机上运行时,使得计算机执行第三方面至第四方面中任意一种可能的实现方式所述的三维视频通话方法。
图1为本申请实施例提供的三维视频通话***的架构示意图;
图2为本申请实施例提供的电子设备的结构示意图一;
图3为本申请实施例提供的电子设备的软件结构框图;
图4为本申请实施例提供的电子设备的结构示意图二;
图5为本申请实施例提供的人脸图像采集模块的结构示意图;
图6为本申请实施例提供的电子设备的结构示意图三;
图7为本申请实施例提供的三维视频通话方法的流程示意图;
图8为本申请实施例提供的人脸深度图像和人脸二维图像的示意图;
图9为本申请实施例提供的第一电子设备的应用示意图一;
图10为本申请实施例提供的第一电子设备的应用示意图二;
图11为本申请实施例提供的三维视频通话方法的流程示意图二;
图12为本申请实施例提供的码流的结构示意图;
图13为本申请实施例提供的第二电子设备的应用示意图;
图14为本申请实施例提供的人脸三维图像的示意图。
下面结合附图对本申请实施例提供的三维视频通话方法及电子设备进行详细地描述。
本申请的描述中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
在本申请的描述中,除非另有说明,“多个”的含义是指两个或两个以上。本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
本申请实施例描述的应用场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着网络架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
图1为本申请实施例提供的三维视频通话方法所适用的一种三维视频通话***的架构示意图。为便于理解本申请实施例,以图1中示出的三维视频通话***为例详细说明适用于本申请实施例的三维视频通话***。应当指出的是,本申请实施例中的方案还可以应用于其他三维视频通话***中,如第一电子设备对多个第二电子设备、或多个第一电子设备对多个第二电子设备的视频通话场景,相应的名称也可以用其他三维视频通话***中的对应功能的名称进行替代。
如图1所示,该三维视频通话***包括至少两个电子设备,如第一电子设备和第二电子设备。其中,本申请实施例以第一电子设备作为三维视频的发送端、第二电子设备作为三维视频的接收端为例进行阐述。其中,电子设备具体可以是手机、平板电脑、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、 上网本、个人数字助理(personal digital assistant,PDA)、人工智能(artificial intelligence)设备、可穿戴设备等具有视频通话功能的终端设备,可穿戴设备可以是智能手表、智能手环、智能眼镜、智能头盔等。本申请实施例对电子设备的具体类型不作任何限制。
图2为本申请实施例提供的电子设备的结构示意图一。如图2所示,电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,传感器模块190,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processing unit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
其中,控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了***的效率。
在本申请的一些实施例中,电子设备100可以利用处理器110获取人脸深度图像和人脸二维图像,将人脸深度图像划分为多个子单元,将人脸二维图像划分为多个子单元。可选地,电子设备100可以利用处理器110根据人脸深度图像和人脸二维图像获得人脸三维子图像。具体地,电子设备100可以利用处理器110根据人脸深度图像的一个子单元和人脸二维图像的一个子单元获得一个人脸三维子图像,该人脸深度图像的一个子单元与该人脸二维图像的一个子单元相对应。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。
电源管理模块141用于连接电池142、充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,外部存储器,显示屏194,摄像头193,和无线通信模块160等供电。
电子设备100的无线通信功能可以通过天线1、天线2、移动通信模块150、无线通信模块160、调制解调处理器以及基带处理器等实现。
移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。
在本申请的一些实施例中,电子设备100可以利用移动通信模块150向其他电子设备发送编码后的人脸深度图像和人脸二维图像,和/或,接收来自其他电子设备的编码后的人脸深度图像和人脸二维图像。示例性地,电子设备100可以利用移动通信模块150向其他电子设备发送编码后的人脸深度图像的子单元和人脸二维图像的子单元,和/或,接收来自其他电子设备的编码后的人脸深度图像的子单元和人脸二维图像的子单元。
无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wireless local area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星***(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
在本申请的一些实施例中,电子设备100可以利用GPU将人脸三维子图像与场景二维图像进行叠加。
显示屏194用于显示图像,视频等。在一些实施例中,电子设备100可以包括1个或N个显示屏194,N为大于1的正整数。在一些实施例中,电子设备100可以包括1个或N个摄像头193。
电子设备100可以通过ISP、摄像头193、视频编解码器、GPU、显示屏194以及应用处理器等实现拍摄功能。
摄像头193用于捕获静态图像或视频。摄像头193可以包括飞行时间(time of flight,TOF)传感器、三维结构光传感器、以及颜色(red green blue,RGB)传感器等。
在本申请的一些实施例中,电子设备100可以利用摄像头193采集人脸深度图像和人脸二维图像。
在本申请的一些实施例中,电子设备100可以利用视频编解码器对人脸深度图像和人脸二维图像进行编码,和/或,通过解码获得人脸深度图像和人脸二维图像。示例性地,电子设备100可以利用视频编解码器对人脸深度图像的子单元和人脸二维图像的子单元进行编码,和/或,通过解码获得人脸深度图像的子单元和人脸二维图像的子单元。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备100的存储能力。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器110通过运行存储在内部存储器121的指令,和/或存储在设置于处理器中的存储 器的指令,执行电子设备100的各种功能应用以及数据处理。在本申请的一些实施例中,内部存储器121可以用于存储人工智能算法模型、和/或三维人脸生成算法模型等。
音频模块170包括扬声器,受话器,麦克风,耳机接口等。
音频模块170用于将数字音频数据转换成模拟音频电信号输出,也用于将模拟音频电信号输入转换为数字音频数据,音频模块170可以包括模/数转换器和数/模转换器。
在一些实施例中,电子设备100可以通过音频模块170,以及应用处理器等实现音频功能。例如音乐播放,录音等。
传感器模块190可以包括压力传感器,陀螺仪传感器,气压传感器,磁传感器,加速度传感器,距离传感器,接近光传感器,指纹传感器,温度传感器,触摸传感器,环境光传感器,骨传导传感器等。
在本申请的一些实施例中,电子设备100可以利用触摸传感器检测调整动作,以调整显示屏194显示人脸三维图像中人脸的角度。
可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
电子设备100的软件***可以采用分层架构、事件驱动架构、微核架构,微服务架构、或云架构。本发明实施例以分层架构的Android***为例,示例性说明电子设备100的软件结构。
图3为本申请实施例提供的电子设备的软件结构框图。
分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android***分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(Android runtime)和***库,以及内核层。
应用程序层可以包括一系列应用程序包。
如图3所示,应用程序包可以包括相机,日历,地图,WLAN,音乐,短信息,图库,通话,导航等应用程序。
其中,通话应用可用于实现三维视频通话。
应用程序框架层为应用程序层的应用程序提供应用编程接口(application programming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。
如图3所示,应用程序框架层可以包括窗口管理器,内容提供器,视图***,电话管理器,资源管理器,通知管理器等。
在一些实施例中,三维视频通话也可以实现为电子设备应用程序框架层中的模块,如三维视频通话模块。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图***包括可视控件,例如显示文字的控件,显示图片的控件等。视图***可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在***顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,指示灯闪烁等。
Android Runtime包括核心库和虚拟机。Android runtime负责安卓***的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
***库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(Media Libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如:SGL)等。
表面管理器用于对显示子***进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。
2D图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。
图4为本申请实施例提供的电子设备的结构示意图二。
图4所示的电子设备400可以为第一电子设备,即电子设备400可以为三维视频的发送端。如图4所示,本申请实施例提供的第一电子设备400可以包括人脸图像采集模块410、视频编码模块420和网络传输模块430。可选地,第一电子 设备400还可以包括人脸三维生成模块440和显示模块450。
需要说明的是,图4所示的模块能够以电子硬件、计算机软件、或者计算机软件和电子硬件的结合来实现。示例性地,当使用软件实现时,图4所示的模块可以实现为图3所示的应用程序层中的通话应用,或者图4所示的模块也可以实现为图3所示的应用程序框架层中的三维视频通话模块。当使用硬件实现时,脸图像采集模块410、视频编码模块420、人脸三维生成模块440可以实现为图2所示的处理器110,网络传输模块430可以实现为图2所示的移动通信模块150,显示模块450可以实现为图2所示的显示屏194。当以计算机软件和电子硬件的结合来实现时,可将上述使用软件实现的方式和使用硬件实现的方式进行结合,本申请实施例不再赘述。
示例性地,人脸图像采集模块410可用于获取人脸深度图像和人脸二维图像,将人脸深度图像划分为包括第一子单元和第二子单元的多个子单元,将人脸二维图像划分为包括第三子单元和第四子单元的多个子单元。示例性地,人脸图像采集模块410可用于向下述视频编码模块420发送第一子单元和第三子单元;在发送第一子单元和第三子单元后,向下述视频编码模块420发送第二子单元和第四子单元。其中,第一子单元对应于第三子单元,第二子单元对应于第四子单元。
可选地,人脸图像采集模块410可以用于向下述人脸三维生成模块440发送第一子单元和第三子单元;在发送第一子单元和第三子单元后,向下述人脸三维生成模块440发送第二子单元和第四子单元。
可选地,人脸图像采集模块410可以用于获取场景二维图像,向下述人脸三维生成模块440和/或视频编码模块420发送该场景二维图像。示例性地,场景二维图像中包括当前视频场景中的场景图像。
在一些实施例中,人脸图像采集模块410可具体用于接收人脸深度信息,接收人脸二维信息,根据人脸深度信息获得人脸深度图像,根据人脸二维信息获得人脸二维图像。示例性地,人脸深度信息可以是高精度深度摄像头采集的,如TOF传感器、三维结构光传感器等。
示例性地,人脸二维信息可以包括人脸信息和当前视频场景中的场景信息。或者,示例性地,人脸二维信息只包括人脸信息,不包括场景信息。人脸图像采集模块410可用于接收场景二维信息,根据场景二维信息获得场景图像。可选地,人脸二维信息和场景二维信息均可以是二维摄像头采集的,如RGB传感器等。
在另一些实施例中,人脸图像采集模块410可具体用于采集人脸深度信息,采集人脸二维信息,根据人脸深度信息获得人脸深度图像,根据人脸二维信息获得人脸二维图像。也就是说,人脸图像采集模块410可以包括用于采集人脸深度信息的模块和用于采集人脸二维信息的模块。可选地,人脸图像采集模块410可具体用于采集场景二维信息。
示例性地,图5为本申请实施例提供的人脸图像采集模块的结构示意图。如图5所示,人脸图像采集模块410可以包括:人脸深度图像采集子模块411、二维图像采集子模块412和图像信号处理(image signal processing,ISP)子模块413。
其中,人脸深度图像采集子模块411,可用于采集当前视频场景中人脸深度信息,并发送给下述图像信号处理子模块413。示例性地,人脸深度图像采集子模块411可 以为高精度深度摄像头,可以包括但不限于TOF传感器和三维结构光传感器。其中,TOF传感器可以向目标物体连续发送光脉冲,然后接收从目标物体返回的光,通过探测发送和接收光脉冲的飞行(往返)时间获得自身到目标物体距离,并生成深度信息。三维结构光传感器通过投射结构光到目标物体表面,接收目标物体表面反射的光线来获得目标物体表面的深度信息。
二维图像采集子模块412,可用于采集当前视频场景中人脸二维信息,并发送给下述图像信号处理子模块413。示例性地,二维图像采集子模块412可以为RGB传感器等,本申请对此不进行限定。可选地,二维图像采集子模块412,可用于采集当前视频场景中场景二维信息,并发送给下述图像信号处理子模块413。
ISP子模块413,可用于接收来自人脸深度图像采集子模块411的人脸深度信息和来自二维图像采集子模块412的人脸二维信息,并根据人脸深度信息获得人脸深度图像,根据人脸二维信息获得人脸二维图像。可选地,ISP子模块413,可用于根据场景二维信息获得场景二维图像。
具体地,ISP子模块413,可用于将人脸深度图像划分为包括第一子单元和第二子单元的多个子单元;将人脸二维图像划分为包括第三子单元和第四子单元的多个子单元。ISP子模块413,可用于向下述视频编码模块420发送第一子单元和第三子单元;在发送第一子单元和第三子单元后,向下述视频编码模块420发送第二子单元和第四子单元。可选地,ISP子模块413,可用于向下述视频编码模块420发送场景二维图像。
可选地,ISP子模块413,可用于向下述人脸三维生成模块440发送第一子单元和第三子单元;在发送第一子单元和第三子单元后,向人脸三维生成模块440发送第二子单元和第四子单元。ISP子模块413,可用于向下述人脸三维生成模块440发送场景二维图像。
视频编码模块420,可用于根据第一子单元和第三子单元获得第一编码单元,向网络传输模块430发送第一编码单元;在获得并发送第一编码单元后,根据第二子单元和第四子单元获得第二编码单元,向网络传输模块430发送第二编码单元。如此,视频编码模块420以一对子单元为粒度流水线式接收并编码人脸深度图像包括的多个子单元和人脸二维图像包括的多个子单元,该一对子单元包括人脸深度图像的一个子单元和与该人脸深度图像的一个子单元对应的人脸二维图像的一个子单元,从而流水线式获得并发送每一对子单元分别对应的编码单元,可以降低第二电子设备获得人脸三维图像的时延,提高获取三维视频的效率。
可选地,视频编码模块420,具体用于:对第三子单元进行编码,以获得第三编码单元;根据第一子单元和第三编码单元,获得第一编码单元;以及,对第四子单元进行编码,以获得第四编码单元;根据第二子单元和第四编码单元,获得第二编码单元。也就是说,视频编码模块420可对人脸二维图像的子单元进行编码,获得第三编码单元,再将人脸深度图像的子单元与第三编码单元进行编码,获得第一编码单元。
需要说明的是,本申请实施例不对电子设备对第一子单元和第三子单元进行编码的顺序进行限定,例如,可以先对第一子单元进行编码,再将编码后的第一子单元与 第三子单元进行混合编码,获得第一编码单元。
可选地,视频编码模块420可对场景二维图像进行编码,将编码后的场景二维图像发送给网络传输模块430。
网络传输模块430,可用于向第二电子设备发送编码后的人脸深度图像和人脸二维图像。具体地,网络传输模块430可用于向第二电子设备发送第一编码单元;在发送第一编码单元后,向第二电子设备发送第二编码单元。如此,网络传输模块430可以流水线式向第二电子设备发送多对子单元分别对应的编码单元,以使第二电子设备流水线式获得人脸三维子图像,可以降低第二电子设备获得人脸三维图像的时延,降低获得三维视频的时延。
可选地,网络传输模块430,可用于向第二电子设备发送编码后的场景二维图像。
可选地,人脸三维生成模块440,可用于根据人脸深度图像和人脸二维图像获得人脸三维图像。具体地,人脸三维生成模块440,可用于根据第一子单元和第三子单元获得第一人脸三维子图像,向下述显示模块450发送第一人脸三维子图像;在获得并发送第一人脸三维子图像后,根据第二子单元和第四子单元获得第二人脸三维子图像,向下述显示模块450发送第二人脸三维子图像。
可选地,人脸三维生成模块440可用于接收来自人脸图像采集模块410的场景二维图像。或者,人脸三维生成模块440可用于根据人脸二维图像获得的场景二维图像,并发送给下述显示模块450。其中,人脸二维图像包括场景图像和人脸图像。
可选地,人脸三维生成模块440可用于向显示模块450发送场景二维图像。
可选地,显示模块450,用于将第一人脸三维子图像与场景二维图像进行叠加。在将第一人脸三维子图像与场景二维图像进行叠加后,将第二人脸三维子图像与场景二维图像进行叠加。如此,显示模块450可流水线式将多个人脸三维子图像与场景二维图像进行叠加,以显示人脸三维图像。
图6为本申请实施例提供的电子设备的结构示意图三。
图6所示的电子设备600可以为第二电子设备,即电子设备600可以为三维视频的接收端。如图6所示,本申请实施例提供的第二电子设备600可以包括网络传输模块610、视频解码模块620、人脸三维生成模块630和显示模块640。可选地,第二电子设备600还可以包括触控模块650。
需要说明的是,图6所示的模块能够以电子硬件、计算机软件、或者计算机软件和电子硬件的结合来实现。示例性地,当使用软件实现时,图6所示的模块可以实现为图3所示的应用程序层中的通话应用,或者,图6所示的模块也可以实现为图3所示的应用程序框架层中的三维视频通话模块。当使用硬件实现时,视频解码模块620、人脸三维生成模块630可以实现为图2所示的处理器110,网络传输模块610可以实现为图2所示的移动通信模块150,显示模块640可以实现为图2所示的显示屏194,触控模块650可以实现为图2所示的传感器模块190。当以计算机软件和电子硬件的结合来实现时,可将上述使用软件实现的方式和使用硬件实现的方式进行结合,本申请实施例不再赘述。
其中,网络传输模块610,可用于接收编码后的人脸深度图像和人脸二维图像。 具体地,网络传输模块610,可用于接收来自第一电子设备的第一编码单元,向视频解码模块620发送第一编码单元;在接收并发送第一编码单元后,接收来自第一电子设备的第二编码单元,向视频解码模块620发送第二编码单元。可选地,网络传输模块610,可用于接收编码后的场景二维图像,并发送给视频解码模块620。
视频解码模块620,可用于对编码后的人脸深度图像和人脸二维图像进行解码。具体地,视频解码模块620,可用于根据第一编码单元获得第一子单元和第三子单元,向下述人脸三维生成模块630发送第一子单元和第三子单元;在获得并发送第一子单元和第三子单元后,根据第二编码单元获得第二子单元和第四子单元,向下述人脸三维生成模块630发送第二子单元和第四子单元。其中,第一子单元和第二子单元分别为人脸深度图像中的子单元,第三子单元和第四子单元分别为人脸二维图像中的子单元,第一子单元对应于第三子单元,第二子单元对应于第四子单元。
可选地,视频解码模块620,可具体用于对第一编码单元进行解析,以获得第一子单元和第三编码单元;对第三编码单元进行解码,以获得第三子单元。在对第三编码单元进行解码后,对第二编码单元进行解析,以获得第二子单元和第四编码单元;对第四编码单元进行解码,以获得第四子单元。需要说明的是,视频解码模块620解码的方式与视频编码模块420编码的方式相对应,本申请不对视频解码模块620的具体解码方式进行限定。
可选地,视频解码模块620,可用于对编码后的场景二维图像进行解码,以获得场景二维图像,并向人脸三维生成模块630发送场景二维图像。
人脸三维生成模块630,可用于根据人脸深度图像和人脸二维图像获得人脸三维图像。具体地,人脸三维生成模块630,可用于根据第一子单元和第三子单元获得第一人脸三维子图像,向显示模块640发送第一人脸三维子图像。在获得并发送第一人脸三维子图像后,根据第二子单元和第四子单元获得第二人脸三维子图像,向显示模块640发送第二人脸三维子图像。
可选地,人脸三维生成模块630,可用于根据人脸二维图像获得的场景二维图像。其中,人脸二维图像包括场景图像和人脸图像。
可选地,人脸三维生成模块630,可用于向下述显示模块640发送场景二维图像。
显示模块640,用于将第一人脸三维子图像与场景二维图像进行叠加。在将第一人脸三维子图像与场景二维图像进行叠加后,将第二人脸三维子图像与场景二维图像进行叠加。如此,显示模块640可流水线式将多个人脸三维子图像与场景二维图像进行叠加,以显示人脸三维图像。
可选地,触控模块650,用于检测调整动作。
可选地,显示模块640,可用于根据调整动作,调整显示整体三维图像中人脸的角度。也就是说,电子设备600可以通过调整显示三维视频中人脸的不同角度。
下面将结合图7-图14对本申请实施例提供的三维视频通话方法进行具体阐述。
图7为本申请实施例提供的三维视频通话方法的流程示意图一。
如图7所示,该三维视频通话方法包括如下步骤:
S701,第一电子设备获取人脸深度图像和人脸二维图像,将人脸深度图像划分为包括第一子单元和第二子单元的多个子单元,将人脸二维图像划分为包括第三子单元 和第四子单元的多个子单元。
具体地,第一子单元对应于第三子单元,第二子单元对应于第四子单元。也就是说,人脸深度图像的多个子单元与人脸二维图像的多个子单元一一对应。
图8为本申请实施例提供的人脸深度图像和人脸二维图像的示意图。以将人脸深度图像和人脸二维图像分别划分为4个子单元为例。如图8所示,将人脸深度图像划分为子单元1、子单元2、子单元3和子单元4,将人脸二维图像划分为子单元5、子单元6、子单元7和子单元8。其中,子单元1对应于子单元5,子单元2对应于子单元6,子单元3对应于子单元7,子单元4对应于子单元8。
需要说明的是,图8仅为本申请实施例提出的一种将人脸深度图像和人脸二维图像分别划分为多个子单元的方式,例如,还可以将人脸深度图像和人脸二维图像分别沿竖直方向划分为多个子单元,本申请对此不进行限定。
在一种可能的设计方式中,上述S701中,第一电子设备获取人脸深度图像和人脸二维图像,可以包括下述步骤一至步骤三。
步骤一,第一电子设备接收人脸深度信息。
示例性地,人脸深度信息可以是高精度深度摄像头采集的,如TOF传感器、三维结构光传感器等。图9为本申请实施例提供的第一电子设备的应用示意图一。结合图9,人脸图像采集模块410可接收人脸深度信息。
步骤二,第一电子设备接收人脸二维信息。
示例性地,人脸二维信息可以包括人脸信息。可选地,人脸二维信息还可以包括当前视频场景中的场景信息。
在一些实施例中,第一电子设备可以接收场景二维信息。其中,场景二维信息可以包括场景信息。
示例性地,人脸二维信息和场景二维信息均可以是二维摄像头采集的,如RGB传感器等。结合图9,人脸图像采集模块410可接收人脸二维信息。可选地,人脸图像采集模块410还可以接收场景二维信息。
步骤三,第一电子设备根据人脸深度信息获得人脸深度图像,根据人脸二维信息获得人脸二维图像。
结合图9,人脸图像采集模块410将人脸深度信息转化为人脸深度图像,将人脸二维信息转化为人脸二维图像。当人脸二维信息包括人脸信息,不包括场景信息时,人脸二维图像包括人脸图像;当人脸二维信息包括人脸信息和场景信息时,人脸二维图像中包括人脸图像和场景图像。
可选地,人脸图像采集模块410可以将场景二维信息转化为场景二维图像。
需要说明的是,本申请实施例不对上述步骤一至步骤三的执行顺序进行限定,以能够获取人脸深度图像和人脸二维图像为准。
结合图9,人脸图像采集模块410将人脸深度图像划分为包括第一子单元和第二子单元的多个子单元,将人脸二维图像划分为包括第三子单元和第四子单元的多个子单元。可选地,人脸图像采集模块410通过人脸深度图像缓存,将人脸深度图像的多个子单元传输至视频编码模块420和/或人脸三维生成模块440。人脸图像采集模块410通过人脸二维图像缓存,将人脸二维图像的多个子单元和/或场景二维图像传输至 视频编码模块420和/或人脸三维生成模块440。
在另一种可能的设计方式中,上述S701中,第一电子设备获取人脸深度图像和人脸二维图像,可以包括下述步骤四至步骤六。
步骤四,第一电子设备采集人脸深度信息。
图10为本申请实施例提供的第一电子设备的应用示意图二。结合图10,人脸图像采集模块410可以包括:人脸深度图像采集子模块411、二维图像采集子模块412和图像信号处理子模块413。其中,人脸深度图像采集子模块411可采集人脸深度信息,并将该人脸深度信息发送给图像信号处理子模块413。
需要说明的是,图10所示的第一电子设备与图9所示的第一电子设备的区别在于,人脸图像采集模块410的结构不相同,其它部分均相同。下述关于视频编码模块420、网络传输模块430、人脸三维生成模块440和显示模块450的具体阐述,对于图9以及图10所示的第一电子设备均适用。
步骤五,第一电子设备采集人脸二维信息。
结合图10,二维图像采集子模块412可采集人脸二维信息和/或场景二维信息,将人脸二维信息和/或场景二维信息发送给图像信号处理子模块413。关于人脸二维信息和场景二维信息的具体阐述可参照上述步骤二,此处不再赘述。
步骤六,第一电子设备根据人脸深度信息获得人脸深度图像,根据人脸二维信息获得人脸二维图像。
结合图10,图像信号处理子模块413可接收来自人脸深度图像采集子模块411的人脸深度信息,并将人脸深度信息转化为人脸深度图像。图像信号处理子模块413可接收来自二维图像采集子模块412的人脸二维信息和/或场景二维信息,将人脸二维信息转化为人脸二维图像,将场景二维信息转化为场景二维图像。
需要说明的是,关于人脸二维图像和场景二维图像的具体阐述可参照上述步骤三。本申请实施例不对上述步骤四至步骤六的执行顺序进行限定,以能够获取人脸深度图像和人脸二维图像为准。
结合图10,人脸图像采集模块410中的图像信号处理子模块413将人脸深度图像划分为包括第一子单元和第二子单元的多个子单元,将人脸二维图像划分为包括第三子单元和第四子单元的多个子单元。可选地,图像信号处理子模块413通过人脸深度图像缓存,将人脸深度图像的多个子单元传输至视频编码模块420和/或人脸三维生成模块440。图像信号处理子模块413通过人脸二维图像缓存,将人脸二维图像的多个子单元和/或场景二维图像传输至视频编码模块420和/或人脸三维生成模块440。
本申请实施例中,第一电子设备以一对子单元为粒度对人脸深度图像和人脸二维图像进行流水线式处理。其中,一对子单元包括人脸深度图像的一个子单元和与该人脸深度图像的一个子单元对应的人脸二维图像的一个子单元。
图11为本申请实施例提供的三维视频通话方法的流程示意图二。其中,子片可以包括一对子单元,或者与该一对子单元相关的信息。结合图8和图11,子片1可以包括子单元1和子单元5,或者,子片1可以为对子单元1和子单元5进行处理后获得的编码单元1a、或人脸三维子图像1。子片2可以包括子单元2和子单元6,或者,子片2可以为对子单元2和子单元6进行处理后获得的编码单元2a、或人脸三维子图 像2。类似地,子片3可以包括子单元3和子单元7,或者,子片3可以为对子单元3和子单元7进行处理后获得的编码单元3a、或人脸三维子图像3。子片4可以包括子单元4和子单元8,或者,子片4可以为对子单元4和子单元8进行处理后获得的编码单元4a、或人脸三维子图像4。
结合图11,处理视频的周期为T,人脸图像采集模块410可以在第一个T时间内获得子单元1和子单元5,并发送给视频编码模块420。接着在第二个T时间内,获得子单元2和子单元6,并发送给视频编码模块420。在第三个T时间内,获得子单元3和子单元7,并发送给视频编码模块420。在第四个T时间内,获得子单元和子单元8,并发送给视频编码模块420。
类似地,人脸图像采集模块410可以一对子单元为粒度,将人脸深度图像的多个子单元和人脸二维图像的多个子单元流水线式发送给人脸三维生成模块440,图11中未示出,此处不再赘述。
需要说明的是,为了便于描述,图11中所示的时间段T与电子设备的模块处理各子片的时间的最大值相等,在实际应用中,时间段T可大于电子设备的模块处理各子片的时间,本申请实施例不对时间段T的大小进行限定。电子设备的模块包括但不限于图4-图6所示出的模块。
在一些实施例中,电子设备可以采用流水线式处理方案对各个子片进行处理。示例性地,若时间段T大于电子设备的模块处理各子片的时间,电子设备的模块可以在一个T时间内处理子片1后,接着处理子片2。示例性地,人脸图像采集模块410可以在第一个T时间开始时获取子单元1和子单元5,并发送给视频编码模块420,在第一个T时间的四分之三处完成该过程。紧接着获取子单元2和子单元6,并发送给视频编码模块420,在第二个T时间的二分之一处完成该过程。类似地,电子设备的各个模块完成对各个子片的处理,此处不再一一列举。
在另一些实施例中,电子设备可以采用定时处理方案对各个子片进行处理。示例性地,若时间段T大于电子设备中各个模块处理各子片的时间,电子设备的多个模块中的一个或多个模块可以定时处理各个子片。例如,第一个T时间的四分之三处完成对子片1的处理后,不立即处理子片2,而是等到第二个T时间开始时,才处理子片2。示例性地,人脸图像采集模块410在第一个T时间开始时获取子单元1和子单元5,并发送给视频编码模块420,在第一个T时间的四分之三处完成该过程。等待一段时间,当第二个T时间开始时,才获取子单元2和子单元6,并发送给视频编码模块420,在第二个T时间的四分之三处完成该过程。再等待一段时间,当第三个T时间开始时,开始处理下一个子片。类似地,电子设备的各个模块完成对各个子片的处理,此处不再一一列举。
需要说明的是,本申请实施例不对电子设备的各个子模块是否定时处理各个子片进行限定,也不对电子设备的部分子模块或全部模块定时处理各个子片进行限定,可以是电子设备中的部分模块定时处理各个子片,或者,电子设备中的各个模块均定时处理各个子片,或者,电子设备中的各个模块均不定时处理各个子片。
可选地,若电子设备的一个或多个模块处理一个或多个子片的时间大于时间段T,电子设备可以采用如下方式处理各个子片,以电子设备能够正常运行为准。例如,针 对流水线式处理方案,若处理M个子片的时间小于第一子片阈值,则电子设备的模块可流水线式对各个子片进行处理,其中,第一子片阈值可以为预设置的处理M个子片的最大时间;否则,电子设备的模块可以对M个子片中的部分子片进行处理,舍弃对另一部分子片的处理(例如,可以采用上一帧图像对应的子片的处理结果进行替代),M为大于1的整数。又例如,针对定时处理方案,以时间段T小于人脸图像采集模块410处理子片1的时间为例,人脸图像采集模块410可以舍弃对子片1的处理(例如,可以采用上一帧图像对应的子片1的处理结果进行替代),在第二个T时间开始时,定时对子片2进行处理。其中,电子设备的一个或多个模块处理一个或多个子片的时间大于时间段T,可以是电子设备的某个或某些模块故障导致等原因导致,本申请对此不进行限定。舍弃对子片的处理包括:已开始对子片进行处理但未获得处理结果时终断对子片的处理。
S702,第一电子设备根据第一子单元和第三子单元获得第一编码单元;在获得第一编码单元后,根据第二子单元和第四子单元获得第二编码单元。
在一种可能的设计方式中,上述S702,可以包括下述步骤七至步骤十。
步骤七,第一电子设备对第三子单元进行编码,以获得第三编码单元。
示例性地,第三编码单元可以为视频编码层面(video coding layer,VCL)类型的网络抽象层面(network abstraction layer,NAL)单元。
图12为本申请实施例提供的码流的结构示意图。如图12所示,码流可以包括头部(NALU Header)、(sequence paramater set,SPS)序列参数集、(picture paramater set,PPS)图像参数集和至少一个编码单元。第一电子设备可以将子单元5编码为编码单元1b,编码单元1b为VCL类型的NAL单元。
结合图9或图10,视频编码模块420可以对第三子单元进行编码,获得第三编码单元。
步骤八,第一电子设备根据第一子单元和第三编码单元,获得第一编码单元。
示例性地,第一编码单元可以为补充增强信息(supplemental enhancement information,SEI)类型的NAL单元。
结合图12,第一电子设备可以将子单元1填充到编码单元1b的预设字段,获得编码单元1a,编码单元1a为SEI类型的NAL单元。可选地,预设字段可以为补充增强信息SEI字段。
结合图9或图10,视频编码模块420可以对第一子单元和第三编码单元进行编码,获得第一编码单元。
需要说明的是,本申请实施例不对电子设备对第一子单元和第三子单元进行编码的顺序进行限定,例如,可以先对第一子单元进行编码,再将编码后的第一子单元与第三子单元进行混合编码,获得第一编码单元。
本申请实施例中,第一电子设备将人脸深度图像的子单元与人脸二维图像的子单元编码至同一编码单元中,避免将人脸深度图像的子单元与人脸二维图像的子单元独立传输,可以减少因多条码流传输和时间同步而增加的复杂度。
步骤九,第一电子设备对第四子单元进行编码,以获得第四编码单元。
示例性地,第四编码单元可以为VCL类型的NAL单元。
结合图12,第一电子设备可以将子单元6编码为编码单元2b,编码单元2b为VCL类型的NAL单元。
结合图9或图10,视频编码模块420可以对第四子单元进行编码,获得第四编码单元。
步骤十,第一电子设备根据第二子单元和第四编码单元,获得第二编码单元。
示例性地,第二编码单元可以为SEI类型的NAL单元。
结合图12,第一电子设备可以将子单元2填充到编码单元2b的预设字段,获得编码单元2a,编码单元2a为SEI类型的NAL单元。可选地,预设字段可以为补充增强信息SEI字段。
结合图9或图10,视频编码模块420可以对第二子单元和第四编码单元进行编码,获得第二编码单元。
类似地,结合图12,第一电子设备可以采用上述步骤七至步骤八所记载的方式,获得编码单元3b、编码单元3a以及编码单元4b、编码单元4a,此处不再详细赘述。
在本申请实施例中,第一电子设备的视频编码模块可以对流水线式接收的人脸深度图像的子单元和人脸二维图像的子单元进行流水线式编码,从而降低第二电子设备获得人脸三维图像的时延。
结合图9或图10,视频编码模块420可以对第一子单元和第三子单元进行编码,获得第一编码单元;在获得第一编码单元后,对第二子单元和第四子单元进行编码,获得第二编码单元。可选地,视频编码模块420可将编码后的第一编码单元和第二编码单元通过编码单元缓存发送给网络传输模块430。
结合图11,在第二个T时间内,视频编码模块420可对子单元1和子单元5进行编码,获得编码单元1a,并发送给网络传输模块430。在第三个T时间内,视频编码模块420对子单元2和子单元6进行编码,获得编码单元2a,并发送给网络传输模块430。类似地,在第四个T时间内,视频编码模块420可对子单元3和子单元7进行编码,获得编码单元3a,并发送给网络传输模块430。在第五个T时间内,视频编码模块420可对子单元4和子单元8进行编码,获得编码单元4a,并发送给网络传输模块430。
S703,第一电子设备向第二电子设备发送第一编码单元;在发送第一编码单元后,向第二电子设备发送第二编码单元。
结合图9或图10,网络传输模块430可以向第二电子设备发送第一编码单元;在发送第一编码单元后,向第二电子设备发送第二编码单元。
在本申请实施例中,第一电子设备可以流水线式向第二电子设备发送编码后的人脸深度图像子单元和人脸二维图像子单元,以使第二电子设备流水线式获取人脸三维图像,可降低第二电子设备获得人脸三维图像的时延,提高获得三维视频的效率。
结合图11,在第三个T时间内,网络传输模块430可以向第二电子设备发送编码单元1a。在第四个T时间内,网络传输模块430向第二电子设备发送编码单元2a。在第五个T时间内,网络传输模块430向第二电子设备发送编码单元3a。在第六个T时间内,网络传输模块430向第二电子设备发送编码单元4a。
在一些实施例中,第一电子设备可以定时向第二电子设备发送第一编码单元和第 二编码单元。
结合图9或图10,网络传输模块430可以定时向第二电子设备发送第一编码单元和第二编码单元。
在一些实施例中,第一电子设备可以显示第一电子设备的用户当前的视频场景的三维视频,第一电子设备可以对人脸深度图像的多个子单元和人脸二维图像的多个子单元进行流水线式处理,从而提高获取三维视频的效率。
可选地,本申请实施例提供的三维视频通话方法,还可以包括:第一电子设备根据第一子单元和第三子单元获得第一人脸三维子图像;在获得第一人脸三维子图像后,根据第二子单元和第四子单元获得第二人脸三维子图像。
结合图9或图10,人脸三维生成模块440可以根据第一子单元和第三子单元获得第一人脸三维子图像,向显示模块450发送第一人脸三维子图像。在获得并发送第一人脸三维子图像后,根据第二子单元和第四子单元获得第二人脸三维子图像,向显示模块450发送第二人脸三维子图像。
可选地,人脸三维生成模块440可以采用人工智能算法模型、或三维人脸生成算法模型,根据人脸深度图像的子单元和人脸二维图像的子单元获得人脸三维子图像。
结合图8和图9,人脸三维生成模块440可以根据子单元1和子单元5生成人脸三维子图像1,并将其发送给显示模块450。然后,根据子单元2和子单元6生成人脸三维子图像2,并将其发送给显示模块450。根据子单元3和子单元7生成人脸三维子图像3,并将其发送给显示模块450。最后,根据子单元4和子单元8生成人脸三维子图像4,并将其发送给显示模块450。需要说明的是,图10所示的人脸三维生成模块440可实现相同的功能,此处不再赘述。
可选地,人脸三维生成模块440可以将场景二维图像发送给显示模块450。示例性地,当人脸二维图像包括场景图像和人脸图像时,该场景二维图像可以是人脸三维生成模块440根据人脸二维图像获得的。或者,该场景二维图像可以是人脸图像采集模块410发送给人脸三维生成模块440的。
可选地,本申请实施例提供的三维视频通话方法,还可以包括:第一电子设备将第一人脸三维子图像与场景二维图像进行叠加;在将第一人脸三维子图像与场景二维图像进行叠加后,将第二人脸三维子图像与场景二维图像进行叠加。
结合图9或图10,显示模块450可以将第一人脸三维子图像与场景二维图像进行叠加。在将第一人脸三维子图像与场景二维图像进行叠加后,将第二人脸三维子图像与场景二维图像进行叠加。可选地,显示模块450的显示子***可以通过预览缓存流水线式接收多个人脸三维子图像和场景二维图像,并流水线式将人脸三维子***与场景二维图像进行叠加,获得人脸三维图像,然后传输至显示屏进行显示。
示例性地,显示模块450可以将人脸三维子图像1与场景二维图像进行叠加,然后,将人脸三维子图像2与场景二维图像进行叠加,将人脸三维子图像3与场景二维图像进行叠加,最后,将人脸三维子图像4与场景二维图像进行叠加,从而获得人脸三维图像。
如此,第一电子设备通过多次执行上述S701-S704,可以获得多帧人脸三维图像 从而可以显示第一电子设备的用户的三维视频,采用以一对子单元为粒度流水线式对人脸深度图像和人脸二维图像进行处理,可以降低第一电子设备获取人脸三维图像的时延,从而提高显示三维视频的效率。
S704,第二电子设备接收来自第一电子设备的第一编码单元;在接收第一编码单元后,接收来自第一电子设备的第二编码单元。
图13为本申请实施例提供的第二电子设备的应用示意图。结合图13,网络传输模610,可用于接收来自第一电子设备的第一编码单元,向视频解码模块620发送第一编码单元。在接收并发送第一编码单元后,接收来自第一电子设备的第二编码单元,向视频解码模块620发送第二编码单元。
结合图11,在第四个T时间内,网络传输模块610获取编码单元1a并向视频解码模块620发送编码单元1a。在第五个T时间内,获取编码单元2a并向视频解码模块620发送编码单元2a。在第六个T时间内,获取编码单元3a并向视频解码模块620发送编码单元3a。在第七个T时间内,获取编码单元4a并向视频解码模块620发送编码单元4a。
S705,第二电子设备根据第一编码单元获得第一子单元和第三子单元;在获得第一子单元和第三子单元后,根据第二编码单元获得第二子单元和第四子单元。
结合图13,视频解码模块620可对第一编码单元进行解码,获得第一子单元和第三子单元。可选地,视频解码模块620可通过人脸深度图像缓存将第一子单元传输至人脸三维生成模块440,通过人脸二维图像缓存将第三子单元传输至人脸三维生成模块440。类似地,视频解码模块620可对第二编码单元进行解码,获得第二子单元和第四子单元。可选地,视频解码模块620可通过人脸深度图像缓存将第二子单元传输至人脸三维生成模块440,通过人脸二维图像缓存将第四子单元传输至人脸三维生成模块440。
结合图11,视频解码模块620在第五个T时间内,对编码单元1a解码获得子单元1和子单元5,并发送给人脸三维生成模块630。在第六个T时间内,对编码单元2a解码获得子单元2和子单元6,并发送给人脸三维生成模块630。在第七个T时间内,对编码单元3a解码获得子单元3和子单元7,并发送给人脸三维生成模块630。在第八个T时间内,对编码单元4a解码获得子单元4和子单元8,并发送给人脸三维生成模块630。
在一些实施例中,上述S705,可以包括下述步骤十一和步骤十四。
步骤十一,第二电子设备对第一编码单元进行解析,以获得第一子单元和第三编码单元。
结合图13,视频解码模块620可对第一编码单元进行解析,获得第一子单元和第三编码单元。示例性地,视频解码模块620可以对编码单元1a进行解析,获得子单元1和编码单元1b。
步骤十二,第二电子设备对第三编码单元进行解码,以获得第三子单元。
结合图13,视频解码模块620可对第三编码单元进行解码,获得第三子单元。示例性地,视频解码模块620可以对编码单元1b进行解码,获得子单元5。
步骤十三,第二电子设备在对第三编码单元进行解码后,对第二编码单元进行解 析,以获得第二子单元和第四编码单元。
结合图13,视频解码模块620可对第二编码单元进行解析,获得第二子单元和第四编码单元。示例性地,视频解码模块620可以对编码单元2a进行解析,获得子单元2和编码单元2b。
步骤十四,第二电子设备对第四编码单元进行解码,以获得第四子单元。
结合图13,视频解码模块620可对第四编码单元进行解码,获得第四子单元。示例性地,视频解码模块620可以对编码单元2b进行解码,获得子单元6。
类似地,第二电子设备可以采用上述步骤十一至步骤十二所记载的方式,获得子单元3、子单元7以及子单元4、子单元8,此处不再详细赘述。
结合图11,视频解码模块620在第五个T时间内,将编码单元1a进行解析,获得子单元1和编码单元1b,对编码单元1b解码获得子单元5,然后将子单元1和子单元5发送给人脸三维生成模块630。在第六个T时间内,将编码单元2a进行解析,获得子单元2和编码单元2b,对编码单元2b解码获得子单元6,然后将子单元2和子单元6发送给人脸三维生成模块630。在第七个T时间内,将编码单元3a进行解析,获得子单元3和编码单元3b,对编码单元3b解码获得子单元7,然后将子单元3和子单元7发送给人脸三维生成模块630。在第八个T时间内,将编码单元4a进行解析,获得子单元4和编码单元4b,对编码单元4b解码获得子单元8,然后将子单元4和子单元8发送给人脸三维生成模块630。
S706,第二电子设备根据第一子单元和第三子单元获得第一人脸三维子图像;在获得第一人脸三维子图像后,根据第二子单元和第四子单元获得第二人脸三维子图像。
结合图13,人脸三维生成模块630可以根据第一子单元和第三子单元获得第一人脸三维子图像,向显示模块640发送第一人脸三维子图像。在获得并发送第一人脸三维子图像后,根据第二子单元和第四子单元获得第二人脸三维子图像,向显示模块640发送第二人脸三维子图像。
结合图11,人脸三维生成模块630可以在第六个T时间内,根据子单元1和子单元5生成人脸三维子图像1,并将其发送给显示模块640。然后,在第七个T时间内,根据子单元2和子单元6生成人脸三维子图像2,并将其发送给显示模块640。在第八个T时间内,根据子单元3和子单元7生成人脸三维子图像3,并将其发送给显示模块640。在第九个T时间内,根据子单元4和子单元8生成人脸三维子图像4,并将其发送给显示模块640。
可选地,人脸三维生成模块630可以将场景二维图像发送给显示模块640。当人脸二维图像包括场景图像时,该场景二维图像可以是人脸三维生成模块630根据人脸二维图像获得的。当人脸二维图像不包括场景图像时,该场景二维图像可以是第一电子设备发送给人脸三维生成模块630的。
S707,第二电子设备将第一人脸三维子图像与场景二维图像进行叠加;在将第一人脸三维子图像与场景二维图像进行叠加后,将第二人脸三维子图像与场景二维图像进行叠加。
结合图13,显示模块640可以将第一人脸三维子图像与场景二维图像进行叠加;在将第一人脸三维子图像与场景二维图像进行叠加后,将第二人脸三维子图像与场景 二维图像进行叠加。可选地,显示模块640的显示子***可以通过预览缓存流水线式接收多个人脸三维子图像和场景二维图像,并流水线式将人脸三维子***与场景二维图像进行叠加,获得人脸三维图像,然后传输至显示屏进行显示。
示例性地,显示模块640可以将人脸三维图像与场景二维图像进行叠加,以获得人脸三维图像。具体地,结合图11,在第七个T时间内,显示模块640可以将人脸三维子图像1与场景二维图像进行叠加。在第八个T时间内,将人脸三维子图像2与场景二维图像进行叠加。在第九个T时间内,将人脸三维子图像3与场景二维图像进行叠加。在第十个T时间内,将人脸三维子图像4与场景二维图像进行叠加,从而获得人脸三维图像。
在一种可能的设计方式中,本申请实施例提供的三维视频通话方法,还可以包括:检测调整动作,响应于调整动作,调整显示人脸三维图像中人脸的角度。
结合图13,触控模块650,用于检测调整动作,显示模块640,可用于响应于该调整动作,调整显示人脸三维图像中人脸的角度。
示例性地,调整动作可为用户设置的左偏角度或右偏角度。例如,电子设备可以将人脸三维图像正面显示的角度确定为0度,电子设备的显示界面可包括左偏角度设置区域和右偏角度设置区域,用户可通过设置左偏角度设置区域或右偏角度设置区域的数值来调整人脸显示的角度。
示例性地,调整动作可为用户作用于触摸屏的旋转动作。例如,用户将两个手指放置在触摸屏上以顺时针或逆时针方向旋动。如图14中(a)所示,当前三维视频中,显示人脸的正面三维图像,用户用两个手指在放置在触摸屏上以顺时针方向旋转后,调整人脸的显示角度如图14中(b)所示,显示人脸的左侧面三维图像。
需要说明的是,本申请上述实施例提供的三维视频通话方法是以将通话视频中人脸进行三维显示为例进行阐述的,本申请实施例提供的三维视频通话方法还可以将通话视频中人脸和场景均进行三维显示,具体实现方式与上述S701-S707类似,上述人脸深度信息可以包括人脸和场景的深度信息,人脸深度图像可以包括人脸的深度图像和场景的深度图像,此处不再详细赘述。
基于图7所示的三维视频通话方法,第一电子设备将人脸深度图像和人脸二维图像分别划分为多个子单元,并以一对子单元为粒度流水线式对人脸深度图像和人脸二维图像进行编码,且流水线式向第二电子设备发送,第二电子设备流水线式接收并解码,获得人脸深度图像的子单元和人脸二维图像的子单元,流水线式获取人脸三维子图像。如此,可以降低第二电子设备获取人脸三维图像的时延,从而降低获取三维视频的时延。
本申请实施例提供一种三维视频通话***。该***包括上述一个或多个第一电子设备,以及一个或多个第二电子设备。
本申请实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序或指令,当计算机程序或指令在计算机上运行时,使得该计算机执行上述方法实施例所述的三维视频通话方法。
本申请实施例提供一种计算机程序产品,该计算机程序产品包括:计算机程序或指令,当计算机程序或指令在计算机上运行时,使得该计算机执行上述方法实施例所 述的三维视频通话方法。
上述实施例,可以全部或部分地通过软件、硬件(如电路)、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为电子设备、通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元或模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元或模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元或模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或模块可以结合或者可以集成到另一个***,或一些单元或模块可以忽略,或其对应的功能不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元/模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元/模块可以是或者也可以不是物理上分开的,作为单元/模块显示的部件可以是或者也可以不是物理单元/模块,即可以位于一个地方,或者也可以分布到多个网络单元/模块上。可以根据实际的需要选择其中的部分或者全部单 元/模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元/模块可以集成在一个处理单元/模块中,也可以是各个单元/模块单独物理存在,也可以两个或两个以上单元/模块集成在一个单元/模块中。
所述功能如果以软件功能单元/模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请实施例中,在无逻辑矛盾的前提下,各实施例之间可以相互引用,例如方法实施例之间的方法和/或术语可以相互引用,例如装置实施例之间的功能和/或术语可以相互引用,例如装置实施例和方法实施例之间的功能和/或术语可以相互引用。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (15)
- 一种电子设备,其特征在于,包括:人脸图像采集模块、视频编码模块和网络传输模块;其中,所述人脸图像采集模块,用于获取人脸深度图像和人脸二维图像;将所述人脸深度图像划分为包括第一子单元和第二子单元的多个子单元;将所述人脸二维图像划分为包括第三子单元和第四子单元的多个子单元;向所述视频编码模块发送所述第一子单元和所述第三子单元;在发送所述第一子单元和所述第三子单元后,向所述视频编码模块发送所述第二子单元和所述第四子单元;其中,所述第一子单元对应于所述第三子单元,所述第二子单元对应于所述第四子单元;所述视频编码模块,用于根据所述第一子单元和所述第三子单元获得第一编码单元,向所述网络传输模块发送所述第一编码单元;在获得并发送所述第一编码单元后,根据所述第二子单元和所述第四子单元获得第二编码单元,向所述网络传输模块发送所述第二编码单元;所述网络传输模块,用于向第二电子设备发送所述第一编码单元;在发送所述第一编码单元后,向所述第二电子设备发送所述第二编码单元。
- 根据权利要求1所述的电子设备,其特征在于,所述人脸图像采集模块,具体用于接收人脸深度信息;接收人脸二维信息;根据所述人脸深度信息获得所述人脸深度图像,根据所述人脸二维信息获得所述人脸二维图像。
- 根据权利要求1或2所述的电子设备,其特征在于,所述视频编码模块,具体用于:对所述第三子单元进行编码,以获得第三编码单元;根据所述第一子单元和所述第三编码单元,获得第一编码单元;以及,对所述第四子单元进行编码,以获得第四编码单元;根据所述第二子单元和所述第四编码单元,获得第二编码单元。
- 根据权利要求1-3中任一项所述的电子设备,其特征在于,还包括:人脸三维生成模块和显示模块;其中,所述人脸三维生成模块,用于根据所述第一子单元和所述第三子单元获得第一人脸三维子图像,向所述显示模块发送所述第一人脸三维子图像;在获得并发送所述第一人脸三维子图像后,根据所述第二子单元和所述第四子单元获得第二人脸三维子图像,向所述显示模块发送所述第二人脸三维子图像;所述显示模块,用于将所述第一人脸三维子图像与场景二维图像进行叠加;在将所述第一人脸三维子图像与所述场景二维图像进行叠加后,将所述第二人脸三维子图像与所述场景二维图像进行叠加。
- 一种电子设备,其特征在于,包括:网络传输模块、视频解码模块、三维人脸生成模块和显示模块;其中,所述网络传输模块,用于接收来自第一电子设备的第一编码单元,向所述视频解码模块发送所述第一编码单元;在接收并发送所述第一编码单元后,接收来自所述第一电子设备的第二编码单元,向所述视频解码模块发送所述第二编码单元;所述视频解码模块,用于根据所述第一编码单元获得第一子单元和第三子单元;在获得所述第一子单元和所述第三子单元后,根据所述第二编码单元获得第二子单元和第四子单元;其中,所述第一子单元和所述第二子单元分别为人脸深度图像中的子单元,所述第三子单元和第四子单元分别为所述人脸二维图像中的子单元,所述第一子单元对应于所述第三子单元,所述第二子单元对应于所述第四子单元;所述三维人脸生成模块,用于根据所述第一子单元和所述第三子单元获得第一人脸三维子图像,向所述显示模块发送所述第一人脸三维子图像;在获得并发送所述第一人脸三维子图像后,根据所述第二子单元和所述第四子单元获得第二人脸三维子图像,向所述显示模块发送所述第二人脸三维子图像;所述显示模块,用于将所述第一人脸三维子图像与场景二维图像进行叠加;在将所述第一人脸三维子图像与所述场景二维图像进行叠加后,将所述第二人脸三维子图像与所述场景二维图像进行叠加。
- 根据权利要求5所述的电子设备,其特征在于,所述视频解码模块,还用于对所述第一编码单元进行解析,以获得所述第一子单元和第三编码单元;对所述第三编码单元进行解码,以获得所述第三子单元;在对所述第三编码单元进行解码后,对所述第二编码单元进行解析,以获得所述第二子单元和第四编码单元;对所述第四编码单元进行解码,以获得所述第四子单元。
- 一种三维视频通话方法,其特征在于,包括:获取人脸深度图像和人脸二维图像;将所述人脸深度图像划分为包括第一子单元和第二子单元的多个子单元;将所述人脸二维图像划分为包括第三子单元和第四子单元的多个子单元;其中,所述第一子单元对应于所述第三子单元,所述第二子单元对应于所述第四子单元;根据所述第一子单元和所述第三子单元获得第一编码单元;在获得所述第一编码单元后,根据所述第二子单元和所述第四子单元获得第二编码单元;向第二电子设备发送所述第一编码单元;在发送所述第一编码单元后,向所述第二电子设备发送所述第二编码单元。
- 根据权利要求7所述的三维视频通话方法,其特征在于,所述获取人脸深度图像和人脸二维图像,包括:接收人脸深度信息;接收人脸二维信息;根据所述人脸深度信息获得所述人脸深度图像,根据所述人脸二维信息获得所述人脸二维图像。
- 根据权利要求7或8所述的三维视频通话方法,其特征在于,还包括:对所述第三子单元进行编码,以获得第三编码单元;根据所述第一子单元和所述第三编码单元,获得第一编码单元;以及,对所述第四子单元进行编码,以获得第四编码单元;根据所述第二子单元和所述第四编码单元,获得第二编码单元。
- 根据权利要求7-9中任一项所述的三维视频通话方法,其特征在于,还包括:根据所述第一子单元和所述第三子单元获得第一人脸三维子图像;在获得所述第一人脸三维子图像后,根据所述第二子单元和所述第四子单元获得第二人脸三维子图像;将所述第一人脸三维子图像与场景二维图像进行叠加;在将所述第一人脸三维子图像与所述场景二维图像进行叠加后,将所述第二人脸三维子图像与所述场景二维图像进行叠加。
- 一种三维视频通话方法,其特征在于,包括:接收来自第一电子设备的第一编码单元;在接收所述第一编码单元后,接收来自所述第一电子设备的第二编码单元;根据所述第一编码单元获得第一子单元和第三子单元;在获得所述第一子单元和所述第三子单元后,根据所述第二编码单元获得第二子单元和第四子单元;其中,所述第一子单元和所述第二子单元分别为人脸深度图像中的子单元,所述第三子单元和第四子单元分别为所述人脸二维图像中的子单元,所述第一子单元对应于所述第三子单元,所述第二子单元对应于所述第四子单元;根据所述第一子单元和所述第三子单元获得第一人脸三维子图像;在获得所述第一人脸三维子图像后,根据所述第二子单元和所述第四子单元获得第二人脸三维子图像;将所述第一人脸三维子图像与场景二维图像进行叠加;在将所述第一人脸三维子图像与所述场景二维图像进行叠加后,将所述第二人脸三维子图像与所述场景二维图像进行叠加。
- 根据权利要求11所述的三维视频通话方法,其特征在于,还包括:对所述第一编码单元进行解析,以获得所述第一子单元和第三编码单元;对所述第三编码单元进行解码,以获得所述第三子单元;在对所述第三编码单元进行解码后,对所述第二编码单元进行解析,以获得所述第二子单元和第四编码单元;对所述第四编码单元进行解码,以获得所述第四子单元。
- 一种三维视频通话***,其特征在于,所述***包括如权利要求1-4中任一项所述的电子设备,以及如权利要求5-6中任一项所述的电子设备。
- 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序或指令,当所述计算机程序或指令在计算机上运行时,使得所述计算机执行如权利要求7-12中任一项所述的三维视频通话方法。
- 一种计算机程序产品,其特征在于,所述计算机程序产品包括:计算机程序或指令,当所述计算机程序或指令在计算机上运行时,使得所述计算机执行如权利要求7-12中任一项所述的三维视频通话方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2021/070536 WO2022147698A1 (zh) | 2021-01-06 | 2021-01-06 | 三维视频通话方法及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116711303A true CN116711303A (zh) | 2023-09-05 |
Family
ID=82357025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180087392.8A Pending CN116711303A (zh) | 2021-01-06 | 2021-01-06 | 三维视频通话方法及电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116711303A (zh) |
WO (1) | WO2022147698A1 (zh) |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101453662B (zh) * | 2007-12-03 | 2012-04-04 | 华为技术有限公司 | 立体视频通信终端、***及方法 |
CN101765022B (zh) * | 2010-01-22 | 2011-08-24 | 浙江大学 | 一种基于光流与图像分割的深度表示方法 |
CN102413306A (zh) * | 2011-11-21 | 2012-04-11 | 康佳集团股份有限公司 | 基于3d电视机的三维立体视频通话方法及3d电视机 |
CN103208110B (zh) * | 2012-01-16 | 2018-08-24 | 展讯通信(上海)有限公司 | 视频图像的转换方法及装置 |
JP5833526B2 (ja) * | 2012-10-19 | 2015-12-16 | 日本電信電話株式会社 | 映像コミュニケーションシステム及び映像コミュニケーション方法 |
JP5759439B2 (ja) * | 2012-10-19 | 2015-08-05 | 日本電信電話株式会社 | 映像コミュニケーションシステム及び映像コミュニケーション方法 |
CN103024337A (zh) * | 2012-12-31 | 2013-04-03 | 信利光电(汕尾)有限公司 | 一种实现三维可视电话机的通信方法及装置 |
KR101768532B1 (ko) * | 2016-06-08 | 2017-08-30 | 주식회사 맥스트 | 증강 현실을 이용한 화상 통화 시스템 및 방법 |
CN108632597B (zh) * | 2018-05-06 | 2020-01-10 | Oppo广东移动通信有限公司 | 三维视频通信方法及***、电子装置和可读存储介质 |
CN108769646B (zh) * | 2018-05-06 | 2020-02-18 | Oppo广东移动通信有限公司 | 三维视频通信方法及***、电子装置、服务器和可读存储介质 |
-
2021
- 2021-01-06 CN CN202180087392.8A patent/CN116711303A/zh active Pending
- 2021-01-06 WO PCT/CN2021/070536 patent/WO2022147698A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2022147698A1 (zh) | 2022-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109919888B (zh) | 一种图像融合的方法、模型训练的方法以及相关装置 | |
CN115473957B (zh) | 一种图像处理方法和电子设备 | |
US20180063512A1 (en) | Image streaming method and electronic device for supporting the same | |
KR20150082940A (ko) | 화면의 회전을 컨트롤할 수 있는 전자 장치 및 방법 | |
EP4068769A1 (en) | Eye positioning device and method, and 3d display device and method | |
CN112584049A (zh) | 远程交互方法及装置、电子设备、存储介质 | |
CN110673889A (zh) | 折叠屏设备中应用打开方法及相关装置 | |
CN110192391B (zh) | 一种处理的方法及设备 | |
US20240013432A1 (en) | Image processing method and related device | |
US20230335081A1 (en) | Display Synchronization Method, Electronic Device, and Readable Storage Medium | |
CN116052701B (zh) | 一种音频处理方法及电子设备 | |
CN116711303A (zh) | 三维视频通话方法及电子设备 | |
CN112700525A (zh) | 一种图像处理方法及电子设备 | |
US20220191544A1 (en) | Radiative Transfer Signalling For Immersive Video | |
CN115686182B (zh) | 增强现实视频的处理方法与电子设备 | |
CN118043772A (zh) | 绘制方法及电子设备 | |
AU2017320166A1 (en) | Image streaming method and electronic device for supporting the same | |
CN114979533A (zh) | 一种视频录制方法、装置及终端 | |
CN115686700A (zh) | 渲染方法及电子设备 | |
CN113784105A (zh) | 一种沉浸式vr终端的信息处理方法及*** | |
CN116738073B (zh) | 常驻地的识别方法、设备及存储介质 | |
CN116205806B (zh) | 一种图像增强方法及电子设备 | |
CN117635466B (zh) | 图像增强方法、装置、电子设备及可读存储介质 | |
CN116737097B (zh) | 一种投屏图像处理方法及电子设备 | |
CN116708931B (zh) | 图像处理方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |