CN104380704A - 具有三维感知的视频通信 - Google Patents
具有三维感知的视频通信 Download PDFInfo
- Publication number
- CN104380704A CN104380704A CN201380033428.XA CN201380033428A CN104380704A CN 104380704 A CN104380704 A CN 104380704A CN 201380033428 A CN201380033428 A CN 201380033428A CN 104380704 A CN104380704 A CN 104380704A
- Authority
- CN
- China
- Prior art keywords
- local
- long
- range
- video
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/30—Image reproducers
- H04N13/366—Image reproducers using viewer tracking
- H04N13/376—Image reproducers using viewer tracking for tracking left-right translational head movements, i.e. lateral movements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/156—Mixing image signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/30—Image reproducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
- H04N23/611—Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/2224—Studio circuitry; Studio devices; Studio equipment related to virtual studio applications
- H04N5/2226—Determination of depth image, e.g. for foreground/background separation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/161—Encoding, multiplexing or demultiplexing different image signal components
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/194—Transmission of image signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N2013/0074—Stereoscopic image analysis
- H04N2013/0092—Image segmentation from stereoscopic image signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2213/00—Details of stereoscopic systems
- H04N2213/006—Pseudo-stereoscopic systems, i.e. systems wherein a stereoscopic effect is obtained without sending different images to the viewer's eyes
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
Abstract
一般地,本公开通过基于标识、切分和跟踪图像的前景和背景层所生成的视差效应来提供用于具有三维感知图像呈现的实时视频通信的方法和***。所述***可包括:图像切分模块,配置成将当前本地视频帧分为本地前景层和本地背景层,并且基于本地前景层和本地背景层之间估计的边界来生成本地前景掩模,其中,当前本地视频帧包括本地颜***图像帧和本地图像深度数据帧;面部跟踪模块,配置成基于当前本地视频帧以及一个或多个先前本地视频帧来跟踪本地用户的面部的位置;背景层估计模块,配置成估计与从远程视频处理器接收的当前远程视频帧和远程前景掩模关联的远程背景层;以及图像呈现模块,配置成基于所估计的远程背景层、从远程视频处理器接收的当前远程视频帧和远程前景掩模、以及本地用户的面部的所跟踪的位置来呈现3D感知图像。
Description
技术领域
本公开涉及实时视频通信,并且更具体地涉及具有三维感知的实时视频通信。
背景技术
例如各自在计算机上的本地用户和远程用户之间的视频通信变得日益常见和可用。这归因于内置视频摄像机和麦克风的个人计算机的流行以及高速互联网连通性的日益可用性。但是,由于通常与三维(3D)成像关联的所增加的硬件复杂性,大多数视频通信限于提供二维(2D)屏幕图像。这些复杂性可包括使用双摄像机、具有同步和校准的昂贵显示技术和难度。
但是,3D视频通信是值得期望的。深度感知向用户提供视觉提示,并且这些提示可增强与通信体验关联的空间和现实的感觉。如果能够以减少的成本并且无需对诸如第二摄像机或复杂显示器之类的附加硬件的要求来提供深度感知,则可由此增加用户体验的质量和满意。
附图说明
随着下面的详细描述继续并且在参考附图时,所要求保护的主题的实施例的特征和优点将变得明显,在附图中,相似的标号描绘相似的部分,并且其中:
图1示出与本公开一致的视频通信***的一个示范性实施例的顶级***图;
图2示出与本公开一致的视频通信***的一个示范性实施例的框图;
图3示出与本公开一致的示范性实施例的前景切分(segmentation)模块的附加框图细节;
图4示出与本公开的示范性实施例一致的前景掩模(mask)和边界轮廓;
图5示出与本公开一致的示范性实施例的背景估计模块的附加框图细节;
图6示出与本公开一致的示范性实施例的操作的流程图。
虽然下面的详细描述将通过对说明性实施例进行参考来继续,但是本领域技术人员将明白其许多的备选、修改和变形。
具体实施方式
一般地,本公开提供用于具有三维(3D)感知图像的实时视频通信的方法和***,该三维感知图像通过基于标识、切分和跟踪图像的前景和背景层所生成的视差效应来呈现。本地视频图像帧可在本地***或平台中从本地摄像机获得,并且被切分为前景层和背景层。与层边界有关的信息可连同本地视频图像被传送到远程***。远程***可类似将远程视频图像和关联的层边界信息提供给本地***。可检测并且在多个视频帧上跟踪本地用户的面部的位置。本地***可生成具有3D感知的图像,该具有3D感知的图像要通过其中远程前景和远程背景层相对于彼此移动的运动视差的引入在本地显示器上显示给本地用户。通过跟踪本地用户的面部位置来控制相对运动。背景运动可相对于前景运动处于降低的速率,从而能够使用每个平台上的单个摄像机来实现实时视频流传送中的3D感知。
图1示出与本公开一致的一个示范性实施例的顶级***图100。该***可在本地用户120和远程用户122之间提供具有3D感知的流传送视频通信。本地视频摄像机102获得一个或多个图像帧,所述一个或多个图像帧可包括在背景场景或环境118前面的本地用户120。本地视频摄像机102可关联于或集成到本地计算机***或平台,诸如,例如,膝上型计算机或计算机监视器、或者它可以是独立的摄像机。在一些实施例中,本地视频摄像机102可获得颜***图像和深度图像这两者,如下面将更详细地解释的。本地视频帧可被提供给本地3D感知处理模块104,其可将图像切分为本地前景和背景层,从而创建本地前景掩模以及跟踪本地用户的面部的位置,如下面将更详细地解释的。本地前景掩模和本地视频颜色帧可随后在网络106上被传送到与远程用户122的远程计算机***或平台关联的远程3D感知处理模块110。远程3D感知处理模块110可为远程用户122提供本地3D感知处理模块为本地用户122提供的相同或类似的功能性。
本地3D感知处理模块104可在网络106上接收可连同本地用户的面部的所跟踪位置使用的远程前景掩模和远程视频颜色帧,以在本地显示器108上呈现具有3D感知的远程用户和远程背景的图像。3D感知可基于视差运动,该视差运动响应于本地用户的面部的位置在所显示的前景(例如,远程用户)和所显示的远程背景环境之间生成。例如,当本地用户的面部移向本地用户的左方时,远程用户将在本地观看显示器上相对于远程背景显现为右移。
在下面的讨论中,关注将集中在来自本地用户视角的视频通信上。但是,将领会到,这样做是为了便于解释,并且所公开的原理和所描述的示范性实施例可等同地服务于相对于远程用户的通信。因此,可实现具有3D感知的双向流传送视频通信。另外,在以下描述中,本地和远程***可在功能性上被视为互相镜像以作为优先实施例。但是,将领会到,在备选实施例中,可基于对于具体应用或实现的适合性和便利来在本地和远程平台之间重新分布所描述的处理块的任何一个或所有。
在一些实施例中,例如可在本地和远程显示器的任一个或两个上以并排布局来显示本地图像和远程图像这两者。在这样的情况中,将领会到,可针对任何或所有这样的图像来应用本文公开的3D感知呈现技术。
图2示出与本公开一致的视频通信***的一个示范性实施例的框图200。本地3D感知处理模块104被示出包括图像切分模块202、面部跟踪模块204、背景估计模块208和图像呈现模块206。图像切分模块202可将来自由本地摄像机102提供的本地视频流的图像切分为本地前景层和本地背景层。可基于前景和背景层之间的所估计的边界来生成本地前景掩模,如下面将更详细的描述的。网络传送模块210可在网络106上将本地前景掩模连同本地视频帧发送到远程***。在下面所述的一些实施例中,本地视频帧可包括图像深度信息和颜色图像信息这两者,在该情况中,可不需要将图像深度信息分量发送到远程***。
面部跟踪模块204可跟踪本地用户的面部的位置。面部的位置可从本地视频流的图像帧到图像帧在时间上被跟踪。面部跟踪模块能够确定例如在图像帧内用户何时从左移到右,或者反之亦然。
网络接收模块212在网络106上从远程***接收远程视频颜色帧和远程前景掩模。远程视频颜色帧可包括例如远程用户的远程背景和远程前景两者。背景估计模块208接受远程视频颜色帧和远程前景掩模作为输入,并且提取远程背景层。背景估计模块208随后生成远程背景层的估计,所述远程背景层的估计包括当前从远程前景对象来看可能模糊的远程背景的区域,如下面将更详细地讨论的。
所估计的远程背景、远程视频颜色帧、远程前景掩模和本地所跟踪的面部位置都被提供给图像呈现模块206。图像呈现模块206基于远程前景掩模从远程视频颜色帧中提取远程前景图像,并且将所提取的远程前景在由本地跟踪的面部位置确定的偏移位置上合成到所估计的远程背景上。可随着本地用户移动从帧到帧而不同的偏移在所呈现的图像中生成基于视差的3D感知。对于背景图像的偏移位移可被计算为,并且对于前景图像的偏移位移可被计算为,其中,表示包括与本地跟踪的面部位置关联的方向和距离的运动向量。比例因子和一般在0到1的范围中。Kf因子前面的负号指示前景偏移在本地用户运动的相反方向中。
图3示出与本公开一致的图像切分模块202的示范性实施例的附加框图细节300。图像切分模块202被示出包括粗略切分模块306和边界精制模块308。本地摄像机102被示出包括深度成像摄像机302和颜色成像摄像机304。深度成像摄像机302可与颜色成像摄像机304时间同步和空间对齐。粗略切分模块306从深度成像摄像机302获得深度图像数据,并且应用去噪过滤310、阈值化312和连接分量分析(connected component analysis,CCA)314以生成粗略本地前景掩模。在一些实现中,去噪过滤器310可以是中值过滤器或水平集(level-set)过滤器。阈值化模块312可基于深度数据的阈值化将图像切分为初始前景和背景层。可基于视频通信中的深度数据具有双模概率分布的假设来采用适应性阈值化。例如,可使用其中k=2的k-均值聚类(clustering)从每个深度图像的直方图来选择最佳阈值。连接分量分析模块314可过滤掉前景掩模中相对较小的区域以生成具有改进连通性的前景掩模。
由粗略切分模块306生成的粗略本地前景掩模可在对象边界包括不精确度。为此原因,由颜色成像摄像机304提供的颜色图像和粗略前景掩模被提供给边界精制模块308,边界精制模块308执行层绑定(banding)316、图裁剪处理318、并且应用平滑过滤器320以生成精制的本地前景掩模。如图4中所示,层绑定模块316在粗略切分的前景层的轮廓402上操作。沿着轮廓402的内部的N个像素宽度的第一带408被标识为“大致前景”。沿着轮廓402的外部的同样N个像素宽度的第二带406被标识为“大致背景”。前景区内部的所有剩余像素410被标识为“前景”,并且前景区外部的所有剩余像素404被标识为“背景”。所有像素及其带标识以及来自颜色图像的关联颜色值被传递到图裁剪模块318以生成具有增加精确度的前景边界。可以是高斯过滤器的平滑过滤器模块320平滑前景边界以生成精制的本地前景掩模。
图5示出与本公开一致的背景估计模块208的示范性实施例的附加框图细节500。背景估计模块208被示出包括背景初始化模块502、全局背景图像和像素历史存储器模块504和背景更新模块506。背景估计模块208为两个目的来跟踪远程用户的环境的全局背景图像。首先,所呈现的3D感知视图通常会将远程场景的视图从不同于远程物理摄像机实际角度的角度呈现给本地用户,并且因此需要综合或估计来自远程摄像机由前景中的远程用户挡住的远程背景的部分。但是,前景人物一般不是静态的,并且不将持续挡住背景的相同部分,因此跟踪背景允许随时间聚合未挡住的区域以创建全局背景图像。第二个目的由以下事实引起:远程背景环境一般也不是静态的。场景可改变,人们可经过和/或照明环境可变化。背景跟踪允许对这些改变的适应。
背景初始化模块502使用来自第一视频帧的所提取的远程背景层的像素来初始化全局背景图像。背景更新模块506通过结合来自新接收的视频帧的所提取的远程背景层的新背景像素以及为该目的在存储器模块504中维护更新的背景图像和像素历史来更新全局背景图像。
在初始化期间,使用远程用户的第一视频帧中的所有可见背景像素来初始化全局背景图像504中对应的背景像素,即。全局背景图像中的剩余背景像素由远程前景挡住,并且保持未初始化。
在背景更新506期间,第i个视频帧中的每个可见背景像素与其对应的全局背景图像像素一起被检查。如果先前已经被挡住并且未被初始化,则其被更新为。如果已经被初始化,则其被更新为
,
其中,由和的像素历史之间的相似度的测量来确定。例如,每个全局背景图像像素的N个最新的颜色值可被记录为像素的历史 ,并且可由和三维红-绿-蓝(R,G,B)颜色空间中的的平均值之间的归一化距离来确定。例如,
,
其中,可以是任何距离度量,诸如例如L1或L2距离度量。
如果已经被初始化,但是第i个视频帧中其对应的像素是前景像素,则它可被更新为。但是,由于背景照明改变和/或摄像机自动白平衡调节,背景像素的强度可从一个帧到下一个帧显著地改变。假设该强度改变能够由线性函数来模型化,可被更新为
,
其中,a和b可通过求解以下线性方程来计算:
,
其中,和分别是当前和前一个远程视频帧的背景区域的平均强度。
图6示出与本公开一致的示范性实施例的操作的流程图600。在操作610,将当前本地视频帧切分为本地前景层和本地背景层。在操作620,基于本地前景层和本地背景层之间所估计的边界来生成本地前景掩模。在操作630,将当前本地视频帧和本地前景掩模传送到远程视频处理器,该远程视频处理器配置成基于当前本地视频帧和本地前景掩模来呈现3D感知图像。在操作640,从远程视频处理器接收当前远程视频帧和远程前景掩模。在操作650,基于当前本地视频帧以及一个或多个先前本地视频帧来跟踪本地用户的面部的位置。在操作660,基于当前远程视频帧和远程前景掩模来估计远程背景层。在操作670,基于所估计的远程背景层、远程前景掩模、当前远程视频帧和本地用户的面部的所跟踪的位置来呈现3D感知图像。
在一些实施例中,在本地和远程平台的任何一个或两者,双摄像机可以是可用的。当双摄像机可用时,附加深度信息可从这两个摄像机之间的像素差异来获得。该附加深度信息可补充或替换从先前所述的深度成像摄像机所获得的深度信息。
本文所述的方法的实施例可在包括一个或多个存储媒体的***中实现,所述一个或多个存储媒体具有个别或组合地存储于其上的指令,所述指令当由一个或多个处理器运行时执行所述方法。这里,处理器可包括,例如,***CPU(例如,核处理器)和/或可编程电路。因此,意图的是,根据本文所述方法的操作可被分布在多个物理设备上,诸如若干不同的物理位置处的处理结构。同样,意图的是,可个别或子组合地执行方法操作,如本领域的技术人员将理解的。因此,并非每个流程图的所有操作需要被执行,并且本公开明确意图的是,能够实现这样的操作的所有子组合,如本领域的普通技术人员将理解的。
存储媒体可包括任何类型的有形媒体,例如,包括软盘、光盘、紧致盘只读存储器(CD-ROM)、紧致盘可重写(CD-RW)、数字通用盘(DVD)和磁-光盘的任何类型的盘,诸如只读存储器(ROM)、诸如动态和静态RAM的随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪速存储器、磁或光卡之类的半导体设备,或者适合存储电子指令的任何类型的媒体。
如本文任何实施例中使用的“电路”可包括,例如,单个或任何组合的硬连线电路、可编程电路、状态机电路和/或存储由可编程电路运行的指令的固件。应用可作为可在诸如主机处理器或其它可编程电路之类的可编程电路上运行的代码或指令而被实施。如本文任何实施例中使用的模块可作为电路被实施。电路可作为诸如集成电路芯片之类的集成电路被实施。
因此,本公开通过基于标识、切分和跟踪图像的前景和背景层所生成的视差效应来提供用于具有三维感知图像呈现的实时视频通信的方法和***。
所述方法可包括将当前本地视频帧切分为本地前景层和本地背景层。该示例的方法还可包括基于本地前景层和本地背景层之间估计的边界来生成本地前景掩模。该示例的方法还可包括将当前本地视频帧和本地前景掩模传送到远程视频处理器,所述远程视频处理器配置成基于当前本地视频帧和本地前景掩模来呈现3D感知图像。该示例的方法还可包括从远程视频处理器接收当前远程视频帧和远程前景掩模。该示例的方法还可包括跟踪本地用户的面部的位置,所述跟踪基于当前本地视频帧以及一个或多个先前本地视频帧。该示例的方法还可包括基于当前远程视频帧和远程前景掩模来估计远程背景层。该示例的方法还可包括基于所估计的远程背景层、远程前景掩模、当前远程视频帧和本地用户的面部的所跟踪的位置来呈现3D感知图像。
另一个示例方法包括前述的操作,并且当前本地视频帧包括本地颜***图像帧和本地图像深度数据帧,并且以及,传送当前本地视频帧包括传送本地颜***图像帧。
另一个示例方法包括前述的操作,并且生成本地前景掩模还包括基于本地图像深度数据帧来生成粗略前景掩模,并且还包括基于粗略前景掩模和本地颜***图像帧来生成精制的前景掩模。
另一个示例方法包括前述的操作,并且生成粗略前景掩模还包括去噪过滤、阈值化和连接分量分析。
另一个示例方法包括前述的操作,并且生成精制的前景掩模还包括层绑定、图裁剪处理和平滑过滤。
另一个示例方法包括前述的操作,并且所述呈现还包括基于远程前景掩模从当前远程视频帧提取远程前景层,并且合成所提取的远程前景层和所估计的远程背景层,并且所提取的远程前景层被定位在相对于所估计的远程背景层的偏移,该相对的偏移基于本地用户的面部的所跟踪的位置。
另一个示例方法包括前述的操作,并且所估计的远程背景层被定位在第一偏移,,并且所提取的远程前景层被定位在第二偏移,,并且是包括与本地用户的面部位置的所跟踪的位置关联的方向和距离的运动向量,是0到1的范围中的比例因子,并且是0到1的范围中的比例因子。
另一个示例方法包括前述的操作,并且,并且选择和以在所呈现的3D感知图像中生成视差。
根据另一个方面提供一种***。该***可包括图像切分模块,其配置成将当前本地视频帧切分为本地前景层和本地背景层,并且基于本地前景层和本地背景层之间估计的边界来生成本地前景掩模,并且当前本地视频帧包括本地颜***图像帧和本地图像深度数据帧。该示例的***还可包括面部跟踪模块,其配置成基于当前本地视频帧以及一个或多个先前本地视频帧来跟踪本地用户的面部的位置。该示例的***还可包括背景层估计模块,其配置成估计与从远程视频处理器接收的当前远程视频帧和远程前景掩模关联的远程背景层。该示例的***还可包括图像呈现模块,其配置成基于所估计的远程背景层、从远程视频处理器接收的当前远程视频帧和远程前景掩模、以及本地用户的面部的所跟踪的位置来呈现3D感知图像。
另一个示例***包括前述组件,并且图像切分模块还包括配置成基于本地图像深度数据帧来生成粗略前景掩模的粗略切分模块,并且还包括配置成基于粗略前景掩模和本地颜***图像帧来生成精制的前景掩模的边界精制模块。
另一个示例***包括前述组件,并且粗略切分模块还包括去噪过滤模块、耦合到去噪过滤模块的阈值化模块以及耦合到阈值化模块的连接分量分析模块。
另一个示例***包括前述组件,并且边界精制模块还包括层绑定模块、耦合到层绑定模块的图裁剪处理模块、以及耦合到图裁剪处理模块的平滑过滤。
另一个示例***包括前述组件,并且呈现模块还配置成基于远程前景掩模从当前远程视频帧来提取远程前景层,并且合成所提取的远程前景层和所估计的远程背景层,并且所提取的远程前景层被定位在相对于所估计的远程背景层的偏移,该相对的偏移基于本地用户的面部的所跟踪的位置。
另一个示例***包括前述组件,并且呈现模块还配置成使所估计的远程背景层定位在第一偏移,,并且使所提取的远程前景层定位在第二偏移,,并且是包括与跟踪的本地用户的面部位置关联的方向和距离的运动向量,是0到1的范围中的比例因子,并且是0到1的范围中的比例因子。
另一个示例***包括前述组件,并且,并且选择和以在所呈现的3D感知图像中生成视差。
根据另一个方面,提供至少一个计算机可读存储媒体,其具有存储于其上的指令,所述指令当由处理器运行时,使所述处理器执行如上面的示例中所描述的方法的步骤。
本文已经采用的术语和表达用作描述性的而非限制性的术语,并且并不意图在这样的术语和表达的使用中排除所示和所描述的特征(或其部分)的任何等同,并且认识到,各种修改在权利要求的范围内是可能的。因此,权利要求意图涵盖所有这样的等同。本文已经描述了各种特征、方面和实施例。如本领域的技术人员将理解的,所述特征、方面和实施例易于互相组合以及变形和修改。因此,本公开应被认为包含这样的组合、变形和修改。
Claims (23)
1. 一种用于生成三维(3D)感知的方法,所述方法包括:
将当前本地视频帧切分为本地前景层和本地背景层;
基于所述本地前景层和所述本地背景层之间估计的边界来生成本地前景掩模;
将所述当前本地视频帧和所述本地前景掩模传送到远程视频处理器,所述远程视频处理器配置成基于所述当前本地视频帧和所述本地前景掩模来呈现3D感知图像;
从所述远程视频处理器接收当前远程视频帧和远程前景掩模;
跟踪本地用户的面部的位置,所述跟踪基于所述当前本地视频帧以及一个或多个先前本地视频帧;
基于所述当前远程视频帧和所述远程前景掩模来估计远程背景层;以及
基于所述估计的远程背景层、所述远程前景掩模、所述当前远程视频帧和所述本地用户的面部的所述跟踪的位置来呈现3D感知图像。
2. 如权利要求1所述的方法,其中,所述当前本地视频帧包括本地颜***图像帧和本地图像深度数据帧,并且其中,所述传送所述当前本地视频帧包括传送所述本地颜***图像帧。
3. 如权利要求2所述的方法,其中,所述生成所述本地前景掩模还包括基于所述本地图像深度数据帧来生成粗略前景掩模,并且还包括基于所述粗略前景掩模和所述本地颜***图像帧来生成精制的前景掩模。
4. 如权利要求3所述的方法,其中,所述生成所述粗略前景掩模还包括去噪过滤、阈值化和连接分量分析。
5. 如权利要求3所述的方法,其中,所述生成所述精制的前景掩模还包括层绑定、图裁剪处理和平滑过滤。
6. 如权利要求1、4或5所述的方法,其中,所述呈现还包括基于所述远程前景掩模从所述当前远程视频帧提取远程前景层,并且合成所述提取的远程前景层和所述估计的远程背景层,其中,所述提取的远程前景层被定位在相对于所述估计的远程背景层的偏移,所述相对的偏移基于所述本地用户的面部的所述跟踪的位置。
7. 如权利要求6所述的方法,其中,所述估计的远程背景层被定位在第一偏移,,并且所述提取的远程前景层被定位在第二偏移,,其中,是包括与所述本地用户的面部位置的所述跟踪的位置关联的方向和距离的运动向量,是0到1的范围中的比例因子,并且是0到1的范围中的比例因子。
8. 如权利要求7所述的方法,其中,,并且选择和以在所述呈现的3D感知图像中生成视差。
9. 一种用于生成三维(3D)感知的***,所述***包括:
图像切分模块,配置成将当前本地视频帧切分为本地前景层和本地背景层,并且基于所述本地前景层和所述本地背景层之间估计的边界来生成本地前景掩模,其中,所述当前本地视频帧包括本地颜***图像帧和本地图像深度数据帧;
面部跟踪模块,配置成基于所述当前本地视频帧以及一个或多个先前本地视频帧来跟踪本地用户的面部的位置;
背景层估计模块,配置成估计与从远程视频处理器接收的当前远程视频帧和远程前景掩模关联的远程背景层;以及
图像呈现模块,配置成基于所述估计的远程背景层、从所述远程视频处理器接收的所述当前远程视频帧和所述远程前景掩模、以及所述本地用户的面部的所述跟踪的位置来呈现3D感知图像。
10. 如权利要求9所述的***,其中,所述图像切分模块还包括配置成基于所述本地图像深度数据帧来生成粗略前景掩模的粗略切分模块,并且还包括配置成基于所述粗略前景掩模和所述本地颜***图像帧来生成精制的前景掩模的边界精制模块。
11. 如权利要求10所述的***,其中,所述粗略切分模块还包括去噪过滤模块、耦合到所述去噪过滤模块的阈值化模块以及耦合到所述阈值化模块的连接分量分析模块。
12. 如权利要求10所述的***,其中,所述边界精制模块还包括层绑定模块、耦合到所述层绑定模块的图裁剪处理模块、以及耦合到所述图裁剪处理模块的平滑过滤。
13. 如权利要求9、11或12所述的***,其中,所述呈现模块还配置成基于所述远程前景掩模从所述当前远程视频帧来提取远程前景层,并且合成所述提取的远程前景层和所述估计的远程背景层,其中,所述提取的远程前景层被定位在相对于所述估计的远程背景层的偏移,所述相对的偏移基于所述本地用户的面部的所述跟踪的位置。
14. 如权利要求13所述的***,其中,所述呈现模块还配置成使所述估计的远程背景层定位在第一偏移,,并且使所述提取的远程前景层定位在第二偏移,,其中,是包括与所述跟踪本地用户的面部位置关联的方向和距离的运动向量,是0到1的范围中的比例因子,并且是0到1的范围中的比例因子。
15. 如权利要求14所述的***,其中,,并且选择和以在所述呈现的3D感知图像中生成视差。
16. 一种计算机可读存储媒体,具有存储于其上的指令,所述指令当由处理器运行时导致用于生成三维(3D)感知的以下操作,所述操作包括:
将当前本地视频帧切分为本地前景层和本地背景层;
基于所述本地前景层和所述本地背景层之间估计的边界来生成本地前景掩模;
将所述当前本地视频帧和所述本地前景掩模传送到远程视频处理器,所述远程视频处理器配置成基于所述当前本地视频帧和所述本地前景掩模来呈现3D感知图像;
从所述远程视频处理器接收当前远程视频帧和远程前景掩模;
跟踪本地用户的面部的位置,所述跟踪基于所述当前本地视频帧以及一个或多个先前本地视频帧;
基于所述当前远程视频帧和所述远程前景掩模来估计远程背景层;以及
基于所述估计的远程背景层、所述远程前景掩模、所述当前远程视频帧和所述本地用户的面部的所述跟踪的位置来呈现3D感知图像。
17. 如权利要求16所述的计算机可读存储媒体,其中,所述当前本地视频帧包括本地颜***图像帧和本地图像深度数据帧,并且其中,所述传送所述当前本地视频帧包括传送所述本地颜***图像帧。
18. 如权利要求17所述的计算机可读存储媒体,其中,所述生成所述本地前景掩模还包括基于所述本地图像深度数据帧来生成粗略前景掩模的操作,并且还包括基于所述粗略前景掩模和所述本地颜***图像帧来生成精制的前景掩模。
19. 如权利要求18所述的计算机可读存储媒体,其中,所述生成所述粗略前景掩模还包括去噪过滤、阈值化和连接分量分析的操作。
20. 如权利要求18所述的计算机可读存储媒体,其中,所述生成所述精制的前景掩模还包括层绑定、图裁剪处理和平滑过滤的操作。
21. 如权利要求16、19或20所述的计算机可读存储媒体,其中,所述呈现还包括基于所述远程前景掩模从所述当前远程视频帧提取远程前景层、以及合成所述提取的远程前景层和所述估计的远程背景层的操作,其中,所述提取的远程前景层被定位在相对于所述估计的远程背景层的偏移,所述相对的偏移基于所述本地用户的面部的所述跟踪的位置。
22. 如权利要求21所述的计算机可读存储媒体,其中,所述估计的远程背景层被定位在第一偏移,,并且所述提取的远程前景层被定位在第二偏移,,其中,是包括与所述本地用户的面部位置的所述跟踪的位置关联的方向和距离的运动向量,是0到1的范围中的比例因子,并且是0到1的范围中的比例因子。
23. 如权利要求22所述的计算机可读存储媒体,其中,,并且选择和以在所述呈现的3D感知图像中生成视差。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/561,131 US9106908B2 (en) | 2012-07-30 | 2012-07-30 | Video communication with three dimensional perception |
US13/561131 | 2012-07-30 | ||
PCT/US2013/051844 WO2014022170A1 (en) | 2012-07-30 | 2013-07-24 | Video communication with three dimensional perception |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104380704A true CN104380704A (zh) | 2015-02-25 |
CN104380704B CN104380704B (zh) | 2017-11-17 |
Family
ID=49994497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380033428.XA Active CN104380704B (zh) | 2012-07-30 | 2013-07-24 | 具有三维感知的视频通信 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9106908B2 (zh) |
EP (1) | EP2880634A4 (zh) |
CN (1) | CN104380704B (zh) |
WO (1) | WO2014022170A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108024027A (zh) * | 2016-11-02 | 2018-05-11 | 佳能株式会社 | 图像处理设备、图像处理方法和存储介质 |
CN109151489A (zh) * | 2018-08-14 | 2019-01-04 | 广州虎牙信息科技有限公司 | 直播视频图像处理方法、装置、存储介质和计算机设备 |
US10515463B2 (en) | 2018-04-20 | 2019-12-24 | Sony Corporation | Object segmentation in a sequence of color image frames by background image and background depth correction |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140369554A1 (en) * | 2013-06-18 | 2014-12-18 | Nvidia Corporation | Face beautification system and method of use thereof |
US9055186B2 (en) * | 2013-07-23 | 2015-06-09 | Personify, Inc | Systems and methods for integrating user personas with content during video conferencing |
US9386303B2 (en) | 2013-12-31 | 2016-07-05 | Personify, Inc. | Transmitting video and sharing content via a network using multiple encoding techniques |
US9774793B2 (en) * | 2014-08-01 | 2017-09-26 | Adobe Systems Incorporated | Image segmentation for a live camera feed |
JP6365153B2 (ja) * | 2014-09-10 | 2018-08-01 | 株式会社ソシオネクスト | 画像符号化方法および画像符号化装置 |
KR20170035608A (ko) | 2015-09-23 | 2017-03-31 | 삼성전자주식회사 | 화상 통화 시스템, 영상표시장치, 영상표시장치의 구동 방법, 실감 영상 생성 방법 및 컴퓨터 판독가능 기록매체 |
CN105844230B (zh) * | 2016-03-22 | 2019-03-26 | 浙江大学 | 一种基于云平台的遥感影像分割方法 |
CN106204636B (zh) * | 2016-06-27 | 2019-03-22 | 北京大学深圳研究生院 | 基于监控视频的视频前景提取方法 |
US10204418B2 (en) * | 2016-09-07 | 2019-02-12 | Nokia Technologies Oy | Method and apparatus for facilitating stereo vision through the use of multi-layer shifting |
GB2558193B (en) | 2016-09-23 | 2022-07-20 | Displaylink Uk Ltd | Compositing an image for display |
CN106878653B (zh) * | 2017-02-27 | 2017-12-15 | 山东中磁视讯股份有限公司 | 一种用于受限环境下的远程视频会见的方法及*** |
CN108596128B (zh) * | 2018-04-28 | 2020-06-26 | 京东方科技集团股份有限公司 | 对象识别方法、装置及存储介质 |
US11048099B2 (en) * | 2018-11-20 | 2021-06-29 | Disney Enterprises, Inc. | Communication system generating a floating image of a remote venue |
US11451746B1 (en) * | 2020-03-26 | 2022-09-20 | Amazon Technologies, Inc. | Image and audio data processing to create mutual presence in a video conference |
US11887313B2 (en) | 2020-09-30 | 2024-01-30 | Splitmedialabs Limited | Computing platform using machine learning for foreground mask estimation |
US20230412785A1 (en) * | 2022-06-17 | 2023-12-21 | Microsoft Technology Licensing, Llc | Generating parallax effect based on viewer position |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040032906A1 (en) * | 2002-08-19 | 2004-02-19 | Lillig Thomas M. | Foreground segmentation for digital video |
CN102165491A (zh) * | 2009-07-30 | 2011-08-24 | 索尼公司 | 图像处理设备、图像处理方法以及程序 |
US20120162384A1 (en) * | 2010-12-22 | 2012-06-28 | Vesely Michael A | Three-Dimensional Collaboration |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6335765B1 (en) * | 1999-11-08 | 2002-01-01 | Weather Central, Inc. | Virtual presentation system and method |
GB2358098A (en) * | 2000-01-06 | 2001-07-11 | Sharp Kk | Method of segmenting a pixelled image |
DE60237834D1 (de) * | 2001-08-15 | 2010-11-11 | Koninkl Philips Electronics Nv | 3d videokonferenzsystem |
US7085401B2 (en) * | 2001-10-31 | 2006-08-01 | Infowrap Systems Ltd. | Automatic object extraction |
US7167519B2 (en) * | 2001-12-20 | 2007-01-23 | Siemens Corporate Research, Inc. | Real-time video object generation for smart cameras |
KR100464079B1 (ko) | 2002-01-16 | 2004-12-30 | 엘지전자 주식회사 | 화상 통신에서의 얼굴 검출 및 추적 시스템 |
US7883415B2 (en) | 2003-09-15 | 2011-02-08 | Sony Computer Entertainment Inc. | Method and apparatus for adjusting a view of a scene being displayed according to tracked head motion |
US7292257B2 (en) * | 2004-06-28 | 2007-11-06 | Microsoft Corporation | Interactive viewpoint video system and process |
US8098885B2 (en) * | 2005-11-02 | 2012-01-17 | Microsoft Corporation | Robust online face tracking |
US7720283B2 (en) * | 2005-12-09 | 2010-05-18 | Microsoft Corporation | Background removal in a live video |
US20090219379A1 (en) * | 2005-12-30 | 2009-09-03 | Telecom Italia S.P.A. | Average Calculation in Color Space, Particularly for Segmentation of Video Sequences |
KR100846498B1 (ko) * | 2006-10-18 | 2008-07-17 | 삼성전자주식회사 | 영상 해석 방법 및 장치, 및 동영상 영역 분할 시스템 |
US7876947B2 (en) * | 2007-10-10 | 2011-01-25 | Siemens Medical Solutions Usa, Inc. | System and method for detecting tagged material using alpha matting |
KR101401184B1 (ko) * | 2008-02-01 | 2014-05-30 | 고려대학교 산학협력단 | 동영상의 객체 경계 추정 방법 |
KR101636537B1 (ko) * | 2009-11-12 | 2016-07-06 | 삼성전자주식회사 | 깊이감 인지 향상을 위한 영상 처리 장치 및 방법 |
WO2011083092A1 (en) | 2010-01-11 | 2011-07-14 | Alcatel Lucent | Eye - tracking based communication |
RU2010123652A (ru) * | 2010-06-10 | 2011-12-20 | Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." (KR) | Система и способ визуализации стереоизображений и многовидовых изображений для управления восприятием глубины стереоскопического изображения, создаваемого телевизионным приемником |
KR20120067879A (ko) * | 2010-12-16 | 2012-06-26 | 한국전자통신연구원 | 삼차원 영상 표시 장치 및 그 표시 방법 |
US8537246B2 (en) * | 2011-01-31 | 2013-09-17 | Hewlett-Packard Development Company, L.P. | View angle feedback device and method |
US9560314B2 (en) * | 2011-06-14 | 2017-01-31 | Microsoft Technology Licensing, Llc | Interactive and shared surfaces |
US20140306963A1 (en) | 2011-09-12 | 2014-10-16 | Wei Sun | Use motion parallax to create 3d perception from 2d images |
US9060093B2 (en) | 2011-09-30 | 2015-06-16 | Intel Corporation | Mechanism for facilitating enhanced viewing perspective of video images at computing devices |
-
2012
- 2012-07-30 US US13/561,131 patent/US9106908B2/en active Active
-
2013
- 2013-07-24 WO PCT/US2013/051844 patent/WO2014022170A1/en active Application Filing
- 2013-07-24 CN CN201380033428.XA patent/CN104380704B/zh active Active
- 2013-07-24 EP EP13824962.8A patent/EP2880634A4/en not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040032906A1 (en) * | 2002-08-19 | 2004-02-19 | Lillig Thomas M. | Foreground segmentation for digital video |
CN102165491A (zh) * | 2009-07-30 | 2011-08-24 | 索尼公司 | 图像处理设备、图像处理方法以及程序 |
US20120162384A1 (en) * | 2010-12-22 | 2012-06-28 | Vesely Michael A | Three-Dimensional Collaboration |
Non-Patent Citations (1)
Title |
---|
CHRIS HARRISON,SCOTT E. HUDSON: "Pseudo-3D Video Conferencing with a Generic Webcam", 《TENTH IEEE INTERNATIONAL SYMPOSIUM ON MULTIMEDIA》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108024027A (zh) * | 2016-11-02 | 2018-05-11 | 佳能株式会社 | 图像处理设备、图像处理方法和存储介质 |
US10535113B2 (en) | 2016-11-02 | 2020-01-14 | Canon Kabushiki Kaisha | Image processing apparatus, image processing method, and storage medium for generating a mask image |
CN108024027B (zh) * | 2016-11-02 | 2021-02-09 | 佳能株式会社 | 图像处理设备、图像处理方法和存储介质 |
US10515463B2 (en) | 2018-04-20 | 2019-12-24 | Sony Corporation | Object segmentation in a sequence of color image frames by background image and background depth correction |
CN112041884A (zh) * | 2018-04-20 | 2020-12-04 | 索尼公司 | 通过背景图像和背景深度校正在彩色图像帧序列中进行对象分割 |
CN112041884B (zh) * | 2018-04-20 | 2024-05-28 | 索尼公司 | 通过背景图像和背景深度校正在彩色图像帧序列中进行对象分割 |
CN109151489A (zh) * | 2018-08-14 | 2019-01-04 | 广州虎牙信息科技有限公司 | 直播视频图像处理方法、装置、存储介质和计算机设备 |
CN109151489B (zh) * | 2018-08-14 | 2019-05-31 | 广州虎牙信息科技有限公司 | 直播视频图像处理方法、装置、存储介质和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
US9106908B2 (en) | 2015-08-11 |
US20140028794A1 (en) | 2014-01-30 |
WO2014022170A1 (en) | 2014-02-06 |
EP2880634A4 (en) | 2016-04-13 |
EP2880634A1 (en) | 2015-06-10 |
CN104380704B (zh) | 2017-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104380704A (zh) | 具有三维感知的视频通信 | |
US11983893B2 (en) | Systems and methods for hybrid depth regularization | |
US10176390B2 (en) | Method and system for moving object detection with single camera | |
US11481982B2 (en) | In situ creation of planar natural feature targets | |
EP3230950B1 (en) | Method, apparatus and medium for synchronisation of colour and depth videos | |
EP2992508B1 (en) | Diminished and mediated reality effects from reconstruction | |
US8965043B2 (en) | Method, client device and server | |
Feng et al. | Object-based 2D-to-3D video conversion for effective stereoscopic content generation in 3D-TV applications | |
US20120242794A1 (en) | Producing 3d images from captured 2d video | |
US20130215220A1 (en) | Forming a stereoscopic video | |
US20130063556A1 (en) | Extracting depth information from video from a single camera | |
US20140002441A1 (en) | Temporally consistent depth estimation from binocular videos | |
CN103250184A (zh) | 基于全局运动的深度估计 | |
Jang et al. | Efficient disparity map estimation using occlusion handling for various 3D multimedia applications | |
US9661307B1 (en) | Depth map generation using motion cues for conversion of monoscopic visual content to stereoscopic 3D | |
CN112330589A (zh) | 估计位姿的方法、装置及计算机可读存储介质 | |
Kim et al. | 3D video generation and service based on a TOF depth sensor in MPEG-4 multimedia framework | |
Xu et al. | Video-object segmentation and 3D-trajectory estimation for monocular video sequences | |
Min et al. | Temporally consistent stereo matching using coherence function | |
Xu et al. | Video background completion using motion-guided pixel assignment optimization | |
Yang et al. | Depth map generation using local depth hypothesis for 2D-to-3D conversion | |
Tasli et al. | User assisted disparity remapping for stereo images | |
Jin et al. | Parallax tolerant light field stitching for hand-held plenoptic cameras | |
Ko et al. | Disparity Map estimation using semi-global matching based on image segmentation | |
Chen et al. | Improving Graph Cuts algorithm to transform sequence of stereo image to depth map |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |