CN107533640B - 用于视线校正的方法、用户设备和存储介质 - Google Patents

用于视线校正的方法、用户设备和存储介质 Download PDF

Info

Publication number
CN107533640B
CN107533640B CN201680024803.8A CN201680024803A CN107533640B CN 107533640 B CN107533640 B CN 107533640B CN 201680024803 A CN201680024803 A CN 201680024803A CN 107533640 B CN107533640 B CN 107533640B
Authority
CN
China
Prior art keywords
user
template
video
frame
camera
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680024803.8A
Other languages
English (en)
Other versions
CN107533640A (zh
Inventor
M·尼尔松
S·约翰逊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Priority claimed from PCT/US2016/029401 external-priority patent/WO2016176226A1/en
Publication of CN107533640A publication Critical patent/CN107533640A/zh
Application granted granted Critical
Publication of CN107533640B publication Critical patent/CN107533640B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
    • H04N7/144Constructional details of the terminal equipment, e.g. arrangements of the camera and the display camera and display on the same optical axis, e.g. optically multiplexing the camera and display for eye to eye contact
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/52Details of telephonic subscriber devices including functional features of a camera

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Ophthalmology & Optometry (AREA)
  • Geometry (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

在用户的脸的视频中校正用户的视线。多个模板中的每个模板包括直接看着相机的用户的眼睛的不同图像。修改视频的至少一个连续区间的每一帧以用针对该帧所选择的相应模板的眼睛来替换用户的眼睛中的每个眼睛,由此用户在经修改的帧中被感知为直接看着相机。针对连续区间的不同帧来选择不同的模板以使得用户的眼睛在整个连续区间中展现动画。

Description

用于视线校正的方法、用户设备和存储介质
背景技术
常规的通信***允许诸如个人计算机或移动设备之类的设备的用户通过诸如互联网之类的基于分组的计算机网络来进行语音或视频通话。这样的通信***包括通过互联网协议的语音(VoIP)***。这些***有益于用户,这是因为与常规的固定线路或移动蜂窝网络相比其常常具有显著较低的成本。这对于长距离通信的情况而言尤其如此。为了使用VoIP***,用户在他们的设备上安装并执行客户端软件。客户端软件建立VoIP连接并且提供诸如注册和用户认证之类的其他功能。除了语音通信之外,客户端还可以建立针对诸如即时消息传送(“IM”)、SMS消息传送、文件传输、屏幕共享、白板会话、和语音邮件之类的其他通信媒体的连接。
装备有相机和显示器的用户设备可以用于与另一用户设备的用户(远端用户)进行视频通话。用户设备的用户(近端用户)的视频是经由他们的相机捕获的。可以由他们的客户端来处理所述视频以对其进行压缩并且将其转化成数据流格式,以用于经由网络传输给远端用户。类似地压缩的视频流可以从远端用户(中的每个)处接收、解压缩、并且在近端用户的设备的显示器上输出。例如,视频流可以经由一个或多个视频中继服务器来发送,或其可以例如经由对等连接而“直接地”发送。可以结合这两种方法,以使得通话的一个或多个流是经由服务器发送的,并且通话的一个或多个其他流是直接地发送的。
发明内容
提供本发明内容用以用简化的形式引入将在下文的具体实施方式中进一步描述的概念的选择。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。
用于校正用户的视线的用户设备包括:输入端,其被配置为从相机接收用户的脸的视频;计算机存储器;视线校正模块;以及模板选择模块。计算机存储器保存多个模板(例如,在一些实施例中,其可以来自模板视频的时间上连续的帧),每个模板包括直接看相机的用户的眼睛的不同图像。视线校正模块被配置为修改视频的至少一个连续区间中的每一帧,以用针对该帧所选择的相应的模板的用户的眼睛来替换用户的眼睛中的每个,由此用户在经修改的帧中被感知为直接看着相机。模板选择模块被配置为针对连续区间来选择模板。针对连续区间的不同帧来选择不同的模板,以使得用户的眼睛在整个连续区间期间展现动画。
附图说明
为了帮助理解本主题并且示出本主题如何实施,现在将对以下附图进行参考,其中:
图1示出了通信***的示意性框图;
图2示出了通信客户端的功能模块;
图3A描绘了脸部***的功能;
图3B示出了具有6个自由度的坐标***;
图3C示出了用户的脸的角坐标可以如何改变;
图4A示出了视线校正模块的细节;
图4B示出了视线校正机制;
图5示出了在活动跟踪模式中但是接近失败时脸部***的行为;
图6是动态模板选择的方法的流程图。
具体实施方式
在真实世界中,眼神接触是人与人之间面对面对话的关键方面。各种心理学研究已经证明,在人际沟通期间,当人们能够进行眼神接触时他们更有可能彼此接洽。然而,在视频通话期间,通话参与者通常花费通话的大部分时间看着他们的显示器,这是因为另外的参与者的视频在显示器上可见。这意味着,对该通话的大部分时间而言,他们将不直接看着其相机,并且因此其他参与者将感知到没有与他们进行眼神接触。例如,如果参与者的相机位于其显示器的上方,则他们将被感知为注视着另外的参与者眼睛下方的点。
本公开的方面涉及修改用户的脸的视频,以使得在经修改的视频中他们被感知为直接看着相机。这被称为校正用户的视线。修改视频以当用户的眼睛出现在其中时,利用他们眼睛的预先录制的具有期望的视线的图像中的眼睛来替换用户的眼睛。因此,观看经修改的视频的另一个人将感知到用户正在与其进行眼神接触。在视频通话的上下文中,所感知的眼神接触鼓励通话的参与者更好地彼此接洽。
视线校正是已知的,但是,现有的视线校正***倾向于看起来伪造的且没有人情的视觉伪迹。在本文中提供了各种技术,它们提供没有这样的伪迹的看起来自然的视线校正。当在视频通话上下文中实现时,在本文中呈现的技术因此促成了与利用现有的视线校正***实现的技术相比更加自然的对话体验。
图1示出了通信***100,其包括网络116、用户102(近端用户)能够访问的用户设备104、以及另一用户118(远端用户)能够访问的另一用户设备120。用户设备104和另一用户设备120连接至网络116。网络116是诸如互联网之类的基于分组的网络。
用户设备104包括:处理器108,例如由连接至网络接口114的一个或多个CPU(中央处理单元)和/或一个或多个GPU(图形处理单元)组成,(其中,用户设备104经由网络接口114连接至网络116);以存储器110为形式的计算机存储器;以屏幕为形式的显示器106;相机124;以及(在一些实施例中)深度传感器126。用户设备104是采取多种形式的计算机,例如台式计算机或膝上型计算机设备、移动电话(例如,智能电话)、平板计算设备、可穿戴计算机设备、电视机(例如,智能TV)、机顶盒、游戏操作杆等。相机124和深度传感器126可以被集成在用户设备104中,或者它们可以是外部组件。例如,它们可以被集成在诸如
Figure GDA0002797866470000031
Figure GDA0002797866470000032
设备之类的外部设备中。相机将视频捕获为一系列的帧F,其在该示例中是未经压缩的RGB(红绿蓝)格式,但其他格式可以被构想并且将是显而易见的。
相机具有视场,可以由其图像捕获组件通过该视场接收光。相机124在显示器附近。例如,其可以位于显示器的边缘附近,例如,在顶部或底部或在显示器的一侧。相机124具有面向显示器外的图像捕获组件。即,相机124相对于显示器而定位,以使得当用户102在显示器的前面并看着显示器时,相机124捕获用户的脸的前视图。例如,相机可以在可附接至显示器的网络摄像头中实施,或者其可以是与显示器集成在同一设备(例如,智能通话、平板或外部显示屏幕)中的前置相机。可替代地,相机和显示器可以被集成在分别的设备中。例如,相机可以被集成在膝上型计算机中,而显示器可以被集成在分别的外部显示器(例如,电视机屏幕)中。
存储器110保存软件等,特别是通信客户端112。客户端112使得能够经由网络116在用户设备104与其他用户设备120之间建立实时视频(例如,VoIP)通话,从而使得用户102和其他用户118可以经由网络116彼此通信。例如,客户端112可以是由可执行代码形成的独立通信客户端应用,或者其可以是在处理器108上执行的另一应用的插件,例如作为其他应用的一部分运行的网络浏览器。
客户端112提供了用户接口(UI),以用于从用户102处接收信息并且向用户102输出信息,例如经由显示器106显示(例如,作为视频)和/或经由相机124捕获的可视信息。显示器106可以包括触摸屏,以使得其充当输入和输出设备两者,并且其可以集成或不集成在用户设备104中。例如,显示器106可以是外部设备(例如耳机、智能手表等)的一部分,其可以经由合适的的接口连接至用户设备104。
用户界面可以包括例如经由显示器106输出信息的图形用户界面(GUI)和/或使得用户能够以自然的方式与设备进行交互的自然用户界面(NUI),其免受由诸如鼠标、键盘、远程控制器等之类的某些输入设备所施加的人工约束。NUI方法的示例包括利用以下这些的方法:触摸感应显示器、语音和话音识别、意图和目标理解、使用深度相机(例如,立体或飞行时间相机***、红外相机***、RGB相机***、以及这些的组合)的运动姿势检测、使用加速度计/陀螺仪的运动姿势检测、脸部识别、3D显示、头部、眼睛、和视线跟踪、浸入式增强现实和虚拟现实***等。
图2示出了用于在用户102与至少另一用户118之间实现视频通话的视频通话***200。视频通话***包括各种功能模块,它们是表示通过在处理器108上运行客户端软件112来实现的功能的软件模块。具体而言,***200包括以下功能模块:视线校正模块202、模板选择模块204、姿势检查模块206、脸部***208、限制设置模块210、模板修改器212、以及模板捕获模块214。模块202-214构成了视频视线校正***201。另外,视频通话***200包括视频压缩器216和视频解压缩器218。视频视线校正***201具有输入端,通过该输入端,视频视线校正***201从相机124接收视频并且从深度传感器126接收传感器数据。
远端视频220是作为经压缩的视频帧的到来的视频流而经由网络116从另一用户设备120接收的,远端视频220由解压缩器218解压缩并且显示在显示器106上。
要向远端设备102发送的视频(近端视频)是由视线校正***201从相机124(在本地)接收的并且在近端设备处被修改,以在发送之前校正用户的视线。在所接收的视频中用户不大可能直接看着相机124,因为他们更可能看着另一用户118的远端视频220在其上显示的显示器106。视线校正模块202修改(在本地)接收的视频,以用看着相机的眼睛的图像替换用户102的眼睛。替换眼睛图像来自“模板”Ts,其存储在存储器110中。脸部***208跟踪用户的脸,而由视线校正模块202对所接收的视频进行的修改是基于由脸部***208对用户的脸的跟踪。具体而言,由脸部***208对用户的脸进行的跟踪指示了在要修改的帧中与用户的眼睛相对应的位置,并且替换眼睛图像被***到匹配的位置处。
修改是选择性的,即,当且仅当视线校正被认为是合适的时修改所接收的视频的帧。在下文给出了在其下修改被认为是合适的条件的进一步的细节。
选择性修改的视频是作为流出的视频馈送由视线校正***201输出的。因为修改是选择性的,所以流出的视频馈送可以有时由经修改的帧(被标记为F’)形成(即,替换眼睛图像被***到其中),而在其他时候,由未经修改的帧(被标记为F)组成,即大体上如从相机124所接收的那样。
向压缩器216提供流出的视频馈送,压缩器216例如使用帧间和帧内压缩的组合来对其进行压缩。经压缩的视频作为流出的视频流而经由网络116发送至远端用户设备120。所述视频是选择性地修改并且实时地发送的,即,以使得在由相机124捕获并到达远端设备120的每一帧之间仅存在较短的区间(例如,大约2秒或更少)。由视线校正模块202对该帧的任何修改在该较短的区间内发生。因此,用户102、118可以实时地进行视频对话。
模板捕获
所存储的模板Ts中的每个模板包括直接看着相机的用户的眼睛中的一只眼睛的不同图像。所述不同可能是轻微的,但是在视觉上可感知。这些直接的相机视线模板由模板捕获模块214收集并且存储在存储器110中,例如,存储在模板数据库中。所述捕获过程可以是“手动”过程,即,其中请求用户直接看着相机,或者自动地使用视线估计***。在本文中所描述的实施例中,模板Ts是当用户直接看着相机124时利用相机124捕获的模板视频的单个帧(模板帧)的部分,并且每个模板包括仅单只眼睛(左或右)。即,模板Ts来自模板视频的时间上连续的帧。模板视频是短的,例如,具有大约1至2秒的持续时间。在该时间期间,用户的眼睛可以展现一个或多个扫视。在该上下文中,扫视是非常迅速的固定的两个(时间)阶段之间的同时运动,其中眼睛在相机124上是固定的。即,扫视是非常迅速的离开然后又回到相机124的运动。应当注意的是,用户被认为在这样的固定阶段期间以及在任何介于中间的扫视整个期间都是直接看着相机。
在下文中,“拼块(patch)”指的是活动的帧或模板或者活动的帧或模板的一部分。
脸部***
图3A示出了脸部***208的功能。脸部***作为输入接收利用相机106捕获的未经修改的帧F和(在一些实施例中)利用深度传感器126捕获的相关联的深度数据D。与特定帧F相关联的深度数据D指示在该帧的不同(x,y)位置处可见的元素的深度尺寸,以使得相机124和深度传感器126的输出一起提供关于相机124的视野内的元素的三维信息。
脸部***208是基于3D网格的脸部***,其在3D空间中给出了6个自由度(DOF)的输出:x、y、z、俯仰(P)、翻滚(R)、和偏转(Y),其是六个独立的变量。这6个自由度构成了在本文中所称的“姿势空间”。如在图3B中所示出的,x、y和z坐标是(笛卡尔)空间坐标,而俯仰、翻滚、和偏转是分别表示关于x、z、和y轴的旋转的角坐标。角坐标指的是定义用户的脸的朝向的坐标。坐标***具有位于相机124的光学中心的原点。虽然方便,但这不是必需的。
当在活动跟踪模式中操作时,脸部***208使用RGB(即,仅相机输出)或RGB和深度输入(即,相机和深度传感器输出)来生成用户的脸的模型M。模型M指示用户的脸的当前朝向和当前位置、以及用户102的脸部特征。
具体而言,用户的脸在该坐标***中具有角坐标α=(P,R,Y)(粗体表示向量),且模型M包括角坐标α的当前值。角坐标α的当前值表示用户的脸相对于相机124的当前朝向。当用户的脸展现关于可应用的轴的旋转运动时,所述值变化-参见图3C。在该示例中,α=(0,0,0)表示中立的姿势,用户利用其在与z轴平行的方向径直往前看。例如,当用户点头时,俯仰改变,而当用户摇头时,偏转改变,而当用户以古怪的方式倾斜其头时,翻滚改变。
用户的脸也具有空间坐标r=(x,y,z),并且在该示例中,模型M还包括空间坐标的当前值。这些表示在用户的脸的三维空间中相对于相机的当前位置。例如,它们可以表示在用户的脸上或接近用户的脸的特定的已知参考点的位置,所述参考点例如他们脸或头的中央点、或者特定的脸部、头盖、或其他头部特征所位于或接近的点。
用户的脸的空间和角坐标(r,α)=(x,y,z,P,R,Y)构成了在本文中被称为用户的姿势的内容,用户当前的姿势由(r,α)的当前值来表示。
在该示例中,模型M包括6-DOF姿势空间中的用户脸部特征中的一些的3D网格表示。即,模型M还描述了用户的脸部特征,例如,通过定义某些已知的、可识别的参考点在用户的脸上和/或其脸的轮廓上的位置。因此,有可能从模型M不仅确定在用户的脸的三维空间中作为整体的当前朝向和位置,而且还确定诸如其眼睛、或者诸如瞳孔、虹膜、巩膜(眼白)、以及周围的皮肤之类的眼睛的特定部分之类的个体的脸部特征的当前的位置和朝向。具体而言,模型M指示与用户的眼睛相对应的位置或多个位置以用于由视线校正模块202使用。
这样的脸部跟踪是已知的并且将不在本文中详细描述。例如,合适的脸部***可以利用
Figure GDA0002797866470000071
“脸部跟踪SDK”(http://msdn.microsoft.com/en-us/library/jj130970.aspx)来实现。
视线校正模块。
视线校正模块202通过混合直接看着相机的用户的眼睛的预先录制的影像(即,来自模板Ts)来生成视线经校正的输出。
在图4A中示出了视线校正模块202的进一步的细节,并且在图4B中以图形示出了其功能中的一些功能。如图所示,视线校正模块202包括视线校正器242、混合器244、控制器247、和眼睛***248。
视线校正器242接收由模板选择模块204针对当前帧所选择的一对模板(模板对)T。在所描述的实施例的上下文中的模板对T指的是可以用于分别代替用户的左眼和右眼的一组左模板和右模板{tl,tr},且在该示例中,其包括分别直接看着相机的用户的左眼和右眼的图像。左模板和右模板可以来自模板视频的相同的模板帧或者它们可以来自模板视频的不同的模板帧。转换该对的每个模板tl、tr以便将其匹配至由眼睛***248指示的用户的当前姿势(参见下文)。
经转换的模板对被标记为T’。经转换的左模板和右模板tl、tr也被称为替代拼块。例如,该转换可以包括缩放和/或旋转模板T的至少一部分以匹配用户的眼睛相对于相机124的当前的朝向和/或深度z,这使得在经转换的模板T’中用户的眼睛的朝向和大小与要被修改的当前的帧F中的用户的眼睛的朝向和大小相匹配。在该示例中,针对模板对的模板tl、tr执行分别的、独立的转换。
混合器244通过将混合函数Mx应用至拼块来用当前帧F的对应部分(输入拼块)与每个替代拼块混合。混合函数Mx将用户的眼睛的任何踪迹从当前帧F(其通常将不看着相机124)中移除,并且用来自输入拼块的对应的眼睛图像(其在看着相机124)将其整个替代。
在该示例中,模板Ts中的每个模板包括用户的眼睛的图像以及围绕该眼睛的用户的脸的至少一部分。混合函数Mx是混合函数,除了替换在当前帧F中适用的眼睛之外,用在当前帧F中的对应区域与模板F中围绕该眼睛的区域混合,如在图4B中针对经转换的左眼模板t’l所示出的,以供其将输入拼块INl对应至用户的脸的左边。尽管没有明确示出,但是针对经转换的右眼模板t’r执行等价的混合以供其将输入拼块对应至用户的脸的右边。这确保了该修改是视觉上无缝的。以该方式,混合器244混合了输入和替代拼块以便防止在当前帧内的任何视觉的不连续。
在视线校正模块202初始化之后,由脸部***208生成的模型M被使用,并且具体而言,由眼睛***248确定(至少粗略估计)用户的眼睛的当前位置。此后,模型坐标不用于对眼睛定位直到重新初始化发生为止,这是因为使用模型坐标将单独引起眼睛随着时间明显的抖动。相反,在初始化之后,由眼睛***248例如基于图像识别在直播视频中针对规模、位置、和旋转分别地跟踪眼睛。模板是由眼睛***248基于该跟踪转换的以匹配当前跟踪的用户眼睛的朝向和尺度。混合函数也是由眼睛***248基于该跟踪来计算的,以使得替换帧F的正确部分,即其中存在适用的眼睛。
眼睛***248还被约束为总是在脸部***眼睛位置的区域内——如果出现不匹配,则假定已经发生了失败并且终止校正。
每只眼睛独立地执行眼睛跟踪和混合——这给予眼睛模板更大的一般性。
应当注意的是,即使当视线校正模块202是活动的时,视线校正可以暂时地被停止以便不修改某些帧。视线校正模块包括控制器247。在该示例中,控制器247包括眨眼检测器246,其检测用户102何时眨眼。当替换拼块中的至少一个及其对应的输入拼块之间的差异足够大时(即,超过阈值时),这触发眨眼检测。这暂时地停止了对帧F的修改直到该差异再次落到低于阈值为止。以此方式,当在某些帧中检测到用户102眨眼时,保持这些帧不被修改以便在流出的视频馈送中眨眼保持可见。当检测到眨眼结束且用户的眼睛再次睁开时,修改恢复。如果模型M指示的眼睛与眼睛***248指示的当前被跟踪的眼睛位置差得太大,则位置控制器246也暂时地停止视线校正模块202。所有这样的***停止触发重新初始化尝试(参见先前的段落),以在此后合适的时间恢复视线校正。
视线校正的选择性激活
实施例使用脸部***208的6个自由度的输出来决定是否校正用户的视线。如果且仅如果用户的头部的姿势在特定的3D空间的区域内且朝向相机,则执行视线校正。
仅当用户的脸的角坐标在某些操作限制之内时脸部***208是操作的,即是适当地工作的(即,在活动跟踪模式中)——一旦用户的头部在任何方向上旋转太多,则***失败,即***不再能够在活动跟踪模式中操作。即,对用户的脸的角坐标设置操作限制,在该限制之外,脸部***208失败。当用户在z方向上移动得太远离相机或太靠近其视野的(x,y)限制时,脸部***也可能失败,即,可以对空间坐标施加类似的运行限制,在该限制之外,脸部***208也失败。
更加具体地,脸部***208仅当用户的姿势坐标(r,α)=(x,y,z,P,R,Y)中的一个或多个中的每个具有在可能值的相应范围之内的相应当前值时才能够适当地正常。如果这些坐标中的任何一个坐标移动到其可能值的相应范围之外,则***失败,并且因此模型M变得对其他功能模块不可用。***只能重新进入活动跟踪模式,以使得当这些坐标中的每个坐标已经返回到其可能值的相应范围之内时,所述模型再次变得对其他功能模块可用。
现有的视线校正***仅仅在***失败之后才禁用视线校正。然而,该方法存在问题。首先,在连续运行的***中,用户可能不想总是看起来直接看着相机。示例将是如果他们利用其头部从身体上将目光移向别处。在该情况下,仍然跟踪脸但是将眼睛校正成看着相机将显得不自然:例如,如果用户适度地将他或她的头转离显示器106以看向窗外,则“校正”他或她的眼睛看着相机将在视觉上不和谐。其次,所有的***具有在其内它们表现地很好的姿势空间,例如,用户通常面朝相机、或具有3/4的视野。然而,在朝向其操作的限制的情况下,脸***倾向于表现糟糕。图5示出了由于用户将脸转离相机而导致***接近失败的情况,但尽管如此其仍在运行。如果在该情况下***输出将被用作视线校正的基础,则结果将在视觉上令人不悦——例如,用户的右眼(从其角度)没有被正确跟踪,这将导致对应的替换眼睛的不正确的放置。
实施例通过在***仍然起作用时(即,在脸部***208失败之前)有意地停止视线校正来克服这一点。即,与已知的***相对比,即使当脸部***208仍然运行在活动跟踪模式中时,也可以根据环境来停止视线校正。具体而言,仅当头部的姿势在一组有效的、预先定义的范围内时,才启用视线校正。这通过每当脸部***208操作时使用其报告的6-DOF姿势(r,α)=(x,y,z,P,R,Y)来实现。相对于相机来对这些参数设置限制并且相应地启用或禁用视线校正。
主要的目标是使得仅仅在用户实际上想要执行校正的姿势空间内部(即,仅仅当他们看着显示器106并且因此仅仅当他们的脸朝向相机124但他们没有直接看着相机时)才启用眼睛替换。次要的目标是在***失败之前(即,在到达脸部***的姿势范围的操作限制之前)禁用眼睛替换的能力。这区别于现有***,现有***仅仅当其不再知道眼睛的位置时才停止替换。
由于用户的当前姿势(r,α)是由脸部***208相对于相机124计算的,所以可以对这些值设置限制(在本文中和附图中用△来表示),在该限制内可以执行准确的视线校正。只要被跟踪的姿势保持在这些限制△之内,则视线校正模块202保持活动并且将其结果输出为由经修改的帧F’形成的新的RGB视频(受到视线校正模块202中的任何内部激活/去激活,例如当由眨眼检测触发时)。相反地,如果所跟踪的姿势不在所定义的限制△内,则提供原始的视频以用于进行未经修改的压缩和传输。
在本文中描述的实施例中,限制△以一组子范围为形式——针对6个坐标中的每个坐标的值的相应子范围。如果且仅如果个体坐标x,y,z,P,R,Y中的每个都在其相应的子范围之内,则用户的姿势(r,α)才在△之内。在其他实施例中,可以仅将限制设置在坐标中的一个或一些坐标上——例如在一些场景中,仅在一个角坐标上施加限制就足够了。针对在其上施加了这样的约束的一个或多个坐标中的每个坐标,相应的子范围是在脸部***208失败之前坐标能够采取的可能值的范围的受约束的子范围,即相应的子范围在坐标能够采取的可能值的范围之内并且比坐标能够采取的可能值的范围更窄。
施加在角坐标上的子范围是这样的以便将帧修改限制为当用户的脸朝向相机时,并且当脸部***208操作达到可接受的精确度等级时,即,使得如由脸部***208指示的眼睛的位置确实与眼睛的实际位置对应达到可接受的精确度等级时。施加在空间坐标上的子范围是这样的以使得将帧修改限制为当用户的脸在受约束的空间区域内时,以其包含严格小于相机的视野的立体角的意义来约束。
跟踪相机和(在适用的情况下)深度传感器的输出以给出6-DOF的姿势。由姿势检查器206将用户的姿势(r,α)与△进行比较,以检查姿势(r,α)当前是否在△内。使用该检查的结论来启用或禁用视线校正器242并且通知混合器244。即,每当用户的姿势(r,α)移动到△之外时,姿势检查器424就将视线校正模块202去激活,并且每当用户的姿势移动回来时,将实现校正模块重新激活,这使得视线校正模块当且仅当用户的姿势在△之内时才是活动的(受到控制器246的暂时禁用,例如,如所提及的,由眨眼检测所导致的)。如果姿势是有效的,即在△之内,则混合器输出经视线校正的RGB视频帧(受到控制器246的暂时禁用),而如果姿势在△之外,则混合器输出原始的视频。即当活动时,视线校正模块202如在上文中所描述的那样操作以修改实时视频帧F,且(受到例如眨眼检测的)经修改的帧F’作为流出的视频馈送而从视线校正***201输出。当视线校正模块202不活动时,视线校正***201的输出是未经修改的视频帧F。
对空间坐标设置限制也可以是适当的——例如,如果用户在xy平面上移动得太远至相机视野的边缘,则修改其眼睛可能看上去奇怪,特别是如果替换眼睛图像是在用户接近相机视野的中心即(x,y)≈(0,0)时捕获的时。作为另一示例,当用户在z方向上移动得足够远离相机时,眼睛替换可能是不必要的。
应当注意的是,还可能对其他视线校正算法施加这样的限制——例如,对实时视频应用转换以有效地“旋转”用户的整张脸的那些算法。这样的算法是本领域公知的并且将不在本文中详细描述。
限制设置。
在本文中描述的实施例中,集合△中的范围是由限制设置模块210动态地计算的并且因此所述限制自身受到变化。这也基于脸部***208的输出。例如,当用户的脸在xy平面移动时,适合针对角坐标中的一个或多个来调整相应的范围,这是因为用户正看着显示器106的角坐标值的范围将随着用户的脸在该方向上移动而改变。
在一些实施例中,作为可替代或另外的,限制△是基于本地显示数据来计算的。本地显示数据传达关于远端视频220当前如何在显示器106上呈现的信息,并且例如,可以指示远端视频220当前在其上被显示的显示器106上的位置和/或当前其占据的显示器106的区域。例如,可以基于显示器数据来设置限制,以使得视线校正仅仅当用户正看着显示器106或者正朝显示器106上的远端视频看时才执行视线校正。这指的是仅当近端用户102实际上正看着远端用户118时,才针对远端用户118创建眼神接触的错觉。这可以在近端用户102的行为与远端用户118的感知之间提供更好的关联,由此向其间的对话增加了甚至更加自然的特征。
可替代地或额外地,可以基于相机的当前位置来计算限制。例如,在相机和显示器被集成在同一设备(例如,智能通话或相机)中的情况下,可以从所检测到的设备的朝向来推断相机的位置,即该朝向指示相机是在显示器的上方、下方、左侧、还是右侧。关于相机的当前位置的进一步信息可以例如从显示器的一个或多个物理维度来推断。
在其他实施例中,可以替代地使用固定的限制△,例如,基于用户的脸保持接近相机视野的中心的假设设置的限制且这不将如何显示远端视频的任何特征考虑在内。
通常而言,可以由在具体相机/显示器设置中的视线校正算法的性能来确定特定的阈值。
动画的眼睛——模板选择。
先前的视线校正方法仅利用在所检测到的眨眼之间的单个模板来替换用户的眼睛,这可能导致不自然的、盯着看的外观。具体而言,当仅利用单个的静态的直接视线拼块来替换时,用户可能偶尔看起来“奇怪的”,即具有关于其的呆滞无神的外观,具体而言,这是因为这些眼睛缺乏在真实的眼睛中存在的高频扫视。如在上文中所指示的,扫视是两只眼睛来回地迅速、同时的移动。
在实施例中,替代地用在训练时间期间收集的时间序列的模板来替换眼睛以使得眼睛展现出动画。即,直接视线拼块的序列暂时地混合以看起来逼真。模板选择模块201针对从相机124接收的视频的至少一个连续区间的不同帧而选择模板Ts中的不同模板,连续区间是由完整的(子)系列的连续的帧形成的。例如,连续区间可以在两个连续的眨眼或其他重新初始化触发事件之间。进而,视线校正模块202修改视频的连续区间的每一帧以用针对该帧所选择的任何一个模板的眼睛来替换用户的眼睛。由于上述选择有意在整个连续区间中不同,用户的眼睛由于在所存储的模板Ts之间展现的视觉上的变化而在整个连续区间中展现出动画。当用户的眼睛是以该方式的动画时,其在经修改的视频中显得更加自然。
在通话期间,用户倾向于关注彼此的眼睛,因此该替换不可感知是重要的。在某些实施例中,模板旋转模块204以每帧为基础(或至少非常少的,例如两帧)来选择模板,即可以针对连续区间中的每一帧(或,例如每两帧)来执行新鲜的、个体的模板旋转以使得选择被每帧地更新。在一些这样的实施例中,模板选择可以在整个连续区间中每帧(或,例如,每两帧)地改变,即,针对每一帧(或例如,每两帧),可以选择与针对在紧前面的帧所选择的模板不同的模板,以使得经更新的选择总是相对于上一个选择的模板来改变所选择的帧。换句话说,模板的改变可以以大体上与视频的帧速率匹配的速率进行。即,研究图像可以以所述帧速率改变以避免任何感知迟缓。在其他情况下,较不频繁地(例如,每两帧改变模板)是足够的。可以期望的是,当模板的改变以每秒大约10次改变或更低的速率进行时,一些感知迟缓将是显而易见的,这使得对于要修改的具有每秒大约30帧的帧速率的视频而言,替换图像保持不变以持续大约3帧。一般而言,模板的改变以足够高以使得用户的眼睛展示动画的速率进行,即,以使得不存在由于用户能够个别地感知替换眼睛图像而导致的感知迟缓,即高于人视觉感知的阈值。这将总是模板的改变的速率大体上与帧速率匹配(或超过)的情况,尽管在一些情况下,较低的改变速率根据上下文(例如,根据视频质量)也是可以接受的——例如,在一些环境中,当可以保证每秒10个或更多个模板的改变时,在其他(例如,其中视频质量差得可以在某一程度上使静态的眼睛模糊)情况下,较低的速率是可以接受的,例如,每第三或甚至每第四或第五帧;或者在极端的情况下(例如,在视频质量尤其差的情况下)模板(仅)每秒改变甚至可以是可接受的。
在一些实施例中,静态眼睛替换图像可以用于例如大约一秒的持续时间,并且接着,利用替换扫视视频眼睛短暂地进行动画(即,在短暂的连续区间上)。在实施例中,模板的改变可以多至每帧地进行。
如所指示的,模板Ts是在所描述的实施例中的直接视线视频的帧,即,它们构成了有序序列的直接视线帧。可以从该序列中选择帧以用于用以下方式进行替换。
可能仅有较短的直接视线视频可用——例如大约1至2秒有价值的帧。例如,针对手动捕获,可以仅要求用户在训练期间看着相机大约持续1秒。由于该原因,循环该模板帧。帧的简单循环将再次在视觉上看起来奇怪,这是因为其将引入规则的、周期性的变化。人的视觉***对于这样的变化是敏感的并且因此它们在流出的视频馈送中是可感知的。
因此,替代地通过找到最小化视觉差异的转变来随机地循环这些帧。
图6示出了可以用于该目的的合适的方法的流程图。方法在每次发生控制器247重新初始化时重置,例如,由被检测的视频中用户的眨眼所触发。视频修改在重新初始化之后被恢复(S602)。在步骤S604处,如下选择要用于视线校正的初始模板对T={t1,tr},即要用于视频修改的恢复之后的第一个模板对。将多个模板Ts中的数个(一些或全部)模板与如从相机124接收的一个或多个当前的和/或最近的实时帧进行比较以找到与当前帧匹配的模板对,并且由模板选择模块204选择(S606)匹配的模板对以由视线校正模块202用于校正当前帧。最近的帧指的是在来自当前视频的较小数量的帧内——例如顺序1或10。模板对与当前帧匹配指的是展现较高等级的视觉相似度的左模板和右模板,其中它们当前的和/或最近的帧分别的对应部分相对于与当前的和/或最近的帧比较的任何其他的模板帧。这确保了平滑地转换回活动视线校正。
在步骤S602处选择的左模板和右模板中的每个模板来自模板视频的相应帧。
在步骤S608处,针对左眼和右眼中的每一个,所述方法随机地分支到步骤S610或步骤S612。如果方法针对该眼睛而分支到步骤S610,则针对下一个直播帧来选择模板视频中的下一个模板视频帧的适用的部分(即,如果适用的话,包括右眼或左眼),即,紧跟在上一个选择的模板帧之后的模板帧的适用的部分被选择以用于紧跟在上一个校正的实时帧之后的直播帧。然而,如果该方法针对该眼睛而分支到步骤S612,则针对下一实时帧而选择与模板视频中的下一模板帧不同的模板帧的适用的部分。该不同的模板帧可以比针对该眼睛上一次使用的模板帧更早或更晚,即,这包含在模板视频中向前或向后跳转。该不同的模板帧的部分与上一次选择的模板相匹配(在与上文中所描述的意义相同),并且以该基础选择以使得该跳跃不奇怪。该方法以该方式循环直到发生另一重新初始化为止,例如,如由被检测的用户的另一眨眼所触发的(S614),在该点处,将方法重置到S602。应当注意的是,“随机地”并不排除在进行决定时的一些智能,只要存在随机化的元素。例如,如果没有近得足够匹配上一次选择的模板帧的其他的模板帧,则来自S608至S612的预期的分支可以“被改写”以迫使该方法替代地跳转至S610。
通过针对要以该方式校正的不同的实时帧来选择不同的模板帧,流出的视频中的替换眼睛总是展现动画。
步骤S608-S612构成随机化的选择过程,并且是在步骤S608处引入的随机元素避免了替换眼睛展现能够由人视觉***感知为不自然外观的规则的、周期性的动画。可以调节步骤S608的分支以调整跳跃至步骤S614或步骤SS16的可能性,以实现最自然的效果从而作为正常设计过程的一部分。
可以从相同的或不同的模板帧来选择构成模板对T的左模板和右模板(tl,tr)。它们以这样的方式链接:即使它们来自不同的视频帧,经修改的视频帧中用户的瞳孔之间的距离也是大体上未改变的。这确保了替换眼睛不会无意地出现否则有可能出现的内斜视(或者如果用户实际上内斜视,则保留其自然的内斜视状态),例如,在扫视运动期间捕获的眼睛的模板,以及在固定阶段所捕获的其他模板中的一个。换句话说,左模板和右模板被链接,即选择它们来彼此匹配,以便大体上保持在经修改的帧F’中用户的自然眼睛对齐。因此,在步骤S606和S612的选择中、以及在步骤S608的分支中,存在一些相互依赖以确保每个模板对中的个体模板总是大体上彼此匹配。
模板修改。
用于替换用户的眼睛的模板Ts能够由模板修改模块212访问。眼睛替换模板Ts中的像素具有语义含义——皮肤、虹膜、巩膜等——其可以例如由图像识别来确定。这允许在将眼睛外观投入到实时视频之前对眼睛外观进行修改,例如,改变虹膜颜色、使得眼睛对称、执行眼睛变白等。该改变可以基于用户输入的修改数据,例如,由用户经由UI、自动化、或两者的组合来输入一个或多个修改设置。
当视线校正***201运行时,可以在通话期间执行该模板修改。
尽管针对每一只眼睛独立地选择了模板对,但这不是必须的。例如,可以针对任何给定的要修改的帧总是选择单个模板(例如,以信号模板视频帧的形式),其中两个替换眼睛图像都来自该单个帧,以使得所述对不是针对每只眼睛独立地选择的。此外,尽管在上文中,在近端设备处执行的近端视频的视线校正可以在已经经由网络和解压缩从近端设备接收了其之后在远端设备处实现。此外,同时使用深度传感器和相机两者来进行脸部跟踪可以提供更准确的脸部跟踪。但是,仍然有可能仅使用相机或仅使用深度传感器来执行可接受地准确的脸部跟踪,并且在实践中,已经发现具有深度和没有深度的结果没有显著不同。还有可能使用不同的相机来跟踪用户的脸以作为替代或补充(例如,两个立体地布置的相机可以提供3D跟踪)。
应当注意的是,在本文中记载的存储的多模板每个包括不同的图像,这不排除也存储有一些重复的模板的可能性。即,术语仅意味着存在多个模板,其中的至少一些是不同的以使得可以选择不同的眼睛图像来实现期望的动画。
根据第一方面,一种用于校正用户的视线的用户设备包括:输入端,其被配置为从相机接收用户的脸的视频;脸部跟踪模块,其被配置为在活动跟踪模式中跟踪所述用户的脸的至少一个角坐标并且输出在可能值的范围内的所述至少一个角坐标的当前值;以及视线校正模块,其被配置为仅当所述脸部跟踪模块处于所述活动跟踪模式中并且所述当前值在所述用户的脸朝向所述相机的可能值的范围的受限子范围之内时修改所述视频的帧,以校正所述用户的视线,由此所述用户在经修改的帧中被感知为直接看着所述相机。
在实施例中,所述脸部跟踪模块还被配置为跟踪所述用户的脸的至少一个空间坐标并且输出各自在可能的值的相应范围之内的所跟踪的坐标的当前值;以及,仅当所述脸部跟踪模块处于活动跟踪模式之下并且当前值各自在所述用户的脸朝向相机的可能值的范围的受限子范围之内并且在受限空间区域之内时,才可以修改所述帧。例如,所述至少一个空间坐标可以包括所述用户的脸的至少两个或至少三个空间坐标。
所述脸部跟踪模块可以被配置为跟踪所述用户的脸的至少两个角坐标并且输出所跟踪的各自在可能值的相应范围之内的至少两个坐标的当前值;并且仅当跟踪模块处于活动跟踪模式中并且当前值各自在所述用户的脸朝向相机的可能值的相应范围的相应受限子范围之内时,才可以修改所述帧。例如,所述至少两个角坐标可以包括所述用户的脸的至少三个角坐标。
所述脸部跟踪模块可以被配置为跟踪所述用户的脸的至少一个空间坐标,并且所述用户设备可以包括限制设置模块,所述限制设置模块被配置为基于对所述至少一个空间坐标的跟踪而改变所述至少一个角坐标的受限子范围。
所述用户设备可以包括显示器和限制设置模块,所述限制设置模块被配置为基于指示所述显示器的当前状态的显示数据来改变所述至少一个角坐标的受限子范围。例如,所述用户设备可以包括网络接口,所述网络接口被配置为接收在显示器上显示的另一用户的远端视频,并且基于显示所述远端视频的当前显示参数来改变所述至少一个角坐标的受限子范围。例如,可以基于远端视频在显示器上占据的当前位置和/或当前区域来改变所述至少一个角坐标的受限子范围。
所述用户设备可以包括保存一个或多个模板的计算机存储,每个计算机存储包括直接看着相机的用户的眼睛的图像,其中通过用相应的模板替换用户的眼睛中的每个眼睛来校正视线。
在一些这样的实施例中,所述一个或多个模板中的每个模板可以包括直接看着相机的用户的眼睛的图像以及围绕眼睛的用户的脸的至少部分,其中,所述视线校正模块被配置为将这些部分与帧的对应部分混合。
可替代地或另外地,用户设备可以包括模板修改模块,模板修改模块被配置为修改模板,以修改眼睛的视觉外观。例如,模板修改模块可以被配置为修改模板,以:改变虹膜颜色、校正眼睛的不对称性、和/或使眼睛变白。
可替代地或另外地,视频的至少一个连续区间的每一帧可以被修改为用针对该帧所选择的相应的模板来替换用户的眼睛中的每个眼睛;所述用户设备可以包括模板选择模块,其被配置为选择针对所述连续区间来选择模板,不同的模板是针对所述连续区间的不同帧来选择的以使得所述用户的眼睛在整个所述连续区间期间展现动画。
用户设备可以包括网络接口,所述网络接口被配置为在流出的视频流中将经修改的帧经由网络发送至另一用户设备。
根据校正用户的视线的方法的第二方面包括:从相机接收所述用户的脸的视频;当脸部跟踪模块处于活动跟踪模式中时,从脸部跟踪模块接收脸部跟踪模块正在跟踪的用户的脸的至少一个角坐标的当前值;以及仅当脸部跟踪模块处于活动模式下并且当前值在所述用户的脸朝向相机的可能值的范围的受限子范围之内时修改视频的帧以校正所述用户的视线,由此所述用户在经修改的帧中被感知为直接看着相机。
所述方法可以包括根据在本文中所公开的用户设备和/或***功能中的任何一个的步骤。
根据第三方面,用于校正用户的视线的用户设备包括:输入端,其被配置为从相机接收用户的脸的视频;保存多个模板的计算机存储,每个模板包括直接看着相机的用户的眼睛的不同图像;视线校正模块,其被配置为修改视频的至少一个连续区间的每一帧,以用针对所述帧所选择的相应模板中的眼睛来替换所述用户的眼睛中的每个眼睛,由此所述用户在经修改的帧中被感知为直接看着所述相机;以及模板选择模块,其被配置为针对所述连续区间来选择模板,其中,针对所述连续区间的不同帧来选择不同的模板以使得所述用户的眼睛在整个所述连续区间期间展现动画。
在实施例中,多个模板中的每个模板可以是模板视频的帧的至少一部分。
所述模板选择模块可以被配置为使用随机化的选择过程来选择模板。
作为特定的示例,所述随机化选择过程可以包括,在已经选择了用于由视线校正模块使用的初始模板之后,随机地选择接下来要由视线校正模块使用的模板,即以下中的一个:模板视频中的下一帧的至少一部分或者模板视频中与初始模板相匹配并且不是模板视频中下一帧的帧的至少一部分。
所述用户设备可以包括眨眼检测模块,其被配置为检测所述用户何时眨眼,并且针对其中检测到所述用户在眨眼的所接收的视频的帧而停止由所述视线校正模块进行的修改。
在一些情况下,在检测到用户眨眼之后,可以将至少一些模板与所接收的视频的当前帧进行比较以选择与所接收的视频的当前帧匹配的初始模板。在一些这样的情况下,可以根据在上文中所提及的特定示例的随机化选择过程来选择模板,此后直到用户再次眨眼为止。
所述模板选择模块可以被配置为针对至少一个连续区间的每一帧或每两帧而执行个体的模板选择。例如,模板选择模块可以被配置为使得模板每一帧或每两帧地改变。
所述用户设备可以包括模板捕获模块,其被配置为向用户输出他们应该直接看着相机的通知,并且当他们这么做时捕获所述模板。
作为另一示例,所述用户设备包括模板捕获模块,其被配置为自动地检测用户何时直接看着相机,并且作为响应捕获所述模板。
所述用户设备可以包括相机或被配置为从所述相机接收视频的外部接口。例如,所述外部接口可以是经由其从网络接收视频的网络接口。
所述用户设备可以包括模板修改模块,其被配置为修改所述模板以便修改所述眼睛的视觉外观,例如用于:改变虹膜颜色、校正眼睛的不对称、和/或使眼睛变白。
所述用户设备可以包括网络接口,其被配置为在流出视频流中将经修改的帧经由网络发送至另一用户设备。
所述模板中的每个模板可以包括直接看着相机的用户的眼睛的图像和围绕所述眼睛的用户的脸的至少一部分,并且所述视线校正模块可以被配置为当针对所述帧来选择所述模板时,将所述部分与所述帧的相应部分混合。
所述用户设备可以包括脸部跟踪模块,其被配置为在活动跟踪模式中,跟踪用户的脸的至少一个角坐标并且输出在可能值的范围之内的至少一个角坐标的当前值;仅当脸部跟踪模块处于活动模式下并且当前值在所述用户的脸朝向相机的可能值的范围的受限子范围之内时修改所接收的视频。
根据第四方面,校正用户的视线的方法包括:从相机接收用户的脸的视频;访问所存储的多个模板,每个模板包括直接看着相机的用户的眼睛的不同图像;以及修改所述视频的至少一个连续区间的每一帧,以用针对所述帧所选择的相应模板中的眼睛来替换所述用户的眼睛中的每个眼睛,由此所述用户在经修改的帧中被感知为直接看着所述相机,其中,针对所述连续区间的不同帧来选择不同的模板以使得所述用户的眼睛在整个所述连续区间期间展现动画。
所述方法可以包括根据在本文中所描述的用户设备和/或***功能中的任何一个的步骤。
根据第五方面,一种用于校正用户的视线的用户设备,包括:输入端,其被配置为从相机接收用户的脸的视频;保存一个或多个模板的计算机存储,每个模板包括直接看着相机的用户的眼睛的不同图像;视线校正模块,其被配置为修改视频的至少一些帧,以用相应模板的眼睛来替换用户的眼睛中的每个眼睛,由此用户在经修改的帧中被感知为直接看着相机;以及模板修改模块,其被配置为修改用于所述替换的一个或多个模板,以便在经修改的帧中修改用户的眼睛的视觉外观。
还公开了一种对应的计算机实现的方法。
应当注意的是,第一方面和第二方面的实施例的任何特征还可以在第三方面和第四方面的实施例中实现,并且反之亦然。同样内容加上必要的变更等同地适用于于第五方面。
根据第六方面,一种用于校正用户的视线的计算机程序产品,包括在计算机可读存储介质上存储并且当在计算机上运行时被配置为实现在本文中所公开的功能中的任何一个功能的代码。
通常而言,可以使用软件、固件、硬件(例如,固定逻辑电路)、或这些实现的组合来实现在本文中所描述的功能中的任何一个功能。如在本文中所使用的,术语“模块”、“功能”、“组件”和“逻辑”一般表示软件、固件、硬件、或其组合。在软件实现的情况下,模块、功能、或逻辑表示当在处理器(例如,一个CPU或多个CPU)上执行时执行指定任务的程序代码。所述程序代码可以存储在一个或多个计算机可读存储设备中。下文描述的技术的特征是与平台无关的,这意味着这些技术可以在具有多种处理器的多种商业计算平台上实现。
例如,诸如用户设备104、120之类的设备还可以包括使得设备的硬件执行操作的实体(例如,软件),例如处理器功能块等。例如,计算设备可以包括可以被配置为保存使得计算设备并且更加特别地使得操作***和计算设备的相关联的硬件执行操作的计算机可读介质。因此,所述指令用于配置操作***和相关联的硬件执行操作,并且以该方式引起操作***和相关联的硬件转换以执行功能。所述指令可以是由计算机可读介质通过多种不同的配置而向计算设备提供的。
计算机可读介质的一个这样的配置是信号承载介质,并且因此被配置为例如经由网络向计算设备发送指令(例如,作为载波)。计算机可读介质还可以被配置为计算机可读存储介质并且因此不是信号承载介质。计算机可读存储介质的示例包括随机存取存储器(RAM)、只读存储器(ROM)、光盘、闪速存储器、硬盘存储器、以及可以使用磁的、光学的、以及其他技术来存储指令和其他数据的其他存储器设备。
尽管已经用特定于结构特征和/或方法动作的语言描述了实施例,但应当理解的是,在所附权利要求中所定义的实施例不一定限于所描述的具体的特征或动作。相反,具体的特征和动作是作为实现所要求保护的实施例的示例形式而公开的。

Claims (14)

1.一种用于校正用户的视线的用户设备,包括:
输入端,其被配置为从相机接收所述用户的脸的视频;
保存多个模板的计算机存储器,每个模板包括直接看着所述相机的所述用户的眼睛的不同图像;
视线校正模块,其被配置为修改所述视频的至少一个连续区间的每一帧,以用针对所述帧所选择的相应模板中的眼睛来替换所述用户的眼睛中的每个眼睛,由此所述用户在经修改的帧中被感知为直接看着所述相机;以及
模板选择模块,其被配置为针对所述连续区间来选择所述模板,其中,针对所述连续区间的不同帧来选择不同的模板以使得所述用户的眼睛在整个所述连续区间期间展现动画;
其中,所述模板选择模块被配置为使用随机化选择过程来选择所述模板。
2.根据权利要求1所述的用户设备,其中,所述多个模板中的每个模板是模板视频的帧的至少一部分。
3.根据权利要求1和2所述的用户设备,其中所述随机化选择过程包括,在选择了初始模板以用于由所述视线校正模块使用之后,随机地选择模板以由所述视线校正模块接下来使用,所述模板是以下中的一个:所述模板视频中下一帧的至少一部分,或者所述模板视频中与所述初始模板相匹配并且不是所述模板视频中所述下一帧的帧的至少一部分。
4.根据前述权利要求中的任何一项所述的用户设备,包括眨眼检测模块,其被配置为检测所述用户何时眨眼,其中,针对其中检测到所述用户在眨眼的所接收的视频的帧而停止由所述视线校正模块进行的修改。
5.根据权利要求4所述的用户设备,其中,在检测到所述用户眨眼之后,将所述模板中的至少一些模板与所述所接收的视频的当前帧进行比较,以选择与所述所接收的视频的所述当前帧相匹配的初始模板。
6.根据权利要求5所述的用户设备,其中,根据权利要求3的随机化选择过程来选择模板,此后直到所述用户再次眨眼为止。
7.根据前述权利要求中的任何一项所述的用户设备,包括模板修改模块,其被配置为修改所述模板以便修改所述眼睛的视觉外观。
8.根据权利要求7所述的用户设备,其中,所述模板修改模块被配置为修改所述模板以:改变虹膜颜色、校正所述眼睛的不对称、和/或使所述眼睛变白。
9.根据权利要求1至8中的任何一项所述的用户设备,其中,所述模板选择模块被配置为使得模板每帧或每两帧地改变。
10.根据权利要求1至8中的任何一项所述的用户设备,包括模板捕获模块,其被配置为:
向所述用户输出他们应该直接看着所述相机的通知,并且当他们这样做时捕获所述模板;或者
检测所述用户何时直接看着所述相机,并且作为响应捕获所述模板。
11.根据权利要求1至8中的任何一项所述的用户设备,包括网络接口,所述网络接口被配置为在流出的视频流中将经修改的帧经由网络发送至另一用户设备。
12.根据权利要求1至8中的任何一项所述的用户设备,其中,所述模板中的每个模板包括直接看着所述相机的所述用户的眼睛的图像以及围绕所述眼睛的所述用户的脸的至少一部分,其中,所述视线校正模板被配置为,当针对帧而选择所述模板时,将所述至少一部分与所述帧的对应的部分混合。
13.一种计算机可读存储介质,其存储用于校正用户的视线的计算机代码,当所述计算机代码在计算机上运行时被配置为执行以下操作:
从相机接收所述用户的脸的视频;
访问经存储的多个模板,每个模板包括直接看着所述相机的所述用户的眼睛的不同图像;以及
修改所述视频的至少一个连续区间的每一帧,以用针对所述帧所选择的相应模板中的眼睛来替换所述用户的眼睛中的每个眼睛,由此所述用户在经修改的帧中被感知为直接看着所述相机,其中,针对所述连续区间的不同帧来选择不同的模板以使得所述用户的眼睛在整个所述连续区间期间展现动画;
其中,所述模板的选择是使用随机化选择过程来执行的。
14.一种校正用户的视线的方法,包括:
从相机接收所述用户的脸的视频;
访问经存储的多个模板,每个模板包括直接看着所述相机的所述用户的眼睛的不同图像;以及
修改所述视频的至少一个连续区间的每一帧,以用针对所述帧所选择的相应模板中的眼睛来替换所述用户的眼睛中的每个眼睛,由此所述用户在经修改的帧中被感知为直接看着所述相机,其中,针对所述连续区间的不同帧来选择不同的模板以使得所述用户的眼睛在整个所述连续区间期间展现动画;
其中,所述模板的选择是使用随机化选择过程来执行的。
CN201680024803.8A 2015-04-28 2016-04-27 用于视线校正的方法、用户设备和存储介质 Active CN107533640B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
GB1507210.1 2015-04-28
GBGB1507210.1A GB201507210D0 (en) 2015-04-28 2015-04-28 Eye gaze correction
US14/792,327 2015-07-06
US14/792,327 US9749581B2 (en) 2015-04-28 2015-07-06 Eye gaze correction
PCT/US2016/029401 WO2016176226A1 (en) 2015-04-28 2016-04-27 Eye gaze correction

Publications (2)

Publication Number Publication Date
CN107533640A CN107533640A (zh) 2018-01-02
CN107533640B true CN107533640B (zh) 2021-06-15

Family

ID=53488775

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680024803.8A Active CN107533640B (zh) 2015-04-28 2016-04-27 用于视线校正的方法、用户设备和存储介质

Country Status (4)

Country Link
US (1) US9749581B2 (zh)
EP (1) EP3275181B1 (zh)
CN (1) CN107533640B (zh)
GB (1) GB201507210D0 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2596062C1 (ru) 2015-03-20 2016-08-27 Автономная Некоммерческая Образовательная Организация Высшего Профессионального Образования "Сколковский Институт Науки И Технологий" Способ коррекции изображения глаз с использованием машинного обучения и способ машинного обучения
GB201507224D0 (en) 2015-04-28 2015-06-10 Microsoft Technology Licensing Llc Eye gaze correction
US10404938B1 (en) 2015-12-22 2019-09-03 Steelcase Inc. Virtual world method and system for affecting mind state
ES2912310T3 (es) 2016-01-05 2022-05-25 Reald Spark Llc Corrección de la mirada en imágenes multivista
US9905267B1 (en) * 2016-07-13 2018-02-27 Gracenote, Inc. Computing system with DVE template selection and video content item generation feature
US10032259B2 (en) 2016-08-04 2018-07-24 International Business Machines Corporation Persisting image modifications for user profile
US10452226B2 (en) * 2017-03-15 2019-10-22 Facebook, Inc. Visual editor for designing augmented-reality effects
EP3665553B1 (en) 2017-08-08 2023-12-13 RealD Spark, LLC Adjusting a digital representation of a head region
CN107590463A (zh) * 2017-09-12 2018-01-16 广东欧珀移动通信有限公司 人脸识别方法及相关产品
US11017575B2 (en) 2018-02-26 2021-05-25 Reald Spark, Llc Method and system for generating data to provide an animated visual representation
US10554921B1 (en) * 2018-08-06 2020-02-04 Microsoft Technology Licensing, Llc Gaze-correct video conferencing systems and methods
US10929982B2 (en) * 2019-01-25 2021-02-23 Google Llc Face pose correction based on depth information
US11410331B2 (en) * 2019-10-03 2022-08-09 Facebook Technologies, Llc Systems and methods for video communication using a virtual camera
US11647158B2 (en) * 2020-10-30 2023-05-09 Microsoft Technology Licensing, Llc Eye gaze adjustment
US11871147B2 (en) 2021-06-09 2024-01-09 Microsoft Technology Licensing, Llc Adjusting participant gaze in video conferences
CN115707355A (zh) * 2021-06-16 2023-02-17 华为技术有限公司 图像处理方法、装置及存储介质
US20230177879A1 (en) * 2021-12-06 2023-06-08 Hewlett-Packard Development Company, L.P. Videoconference iris position adjustments

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163331A (zh) * 2010-02-12 2011-08-24 王炳立 采用标定方法的图像辅助***
CN102542249A (zh) * 2010-11-01 2012-07-04 微软公司 视频内容中的脸部识别

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5333029A (en) 1990-10-12 1994-07-26 Nikon Corporation Camera capable of detecting eye-gaze
US6807290B2 (en) * 2000-03-09 2004-10-19 Microsoft Corporation Rapid computer modeling of faces for animation
US6806898B1 (en) 2000-03-20 2004-10-19 Microsoft Corp. System and method for automatically adjusting gaze and head orientation for video conferencing
AUPQ896000A0 (en) 2000-07-24 2000-08-17 Seeing Machines Pty Ltd Facial image processing system
US6578962B1 (en) 2001-04-27 2003-06-17 International Business Machines Corporation Calibration-free eye gaze tracking
US6659611B2 (en) 2001-12-28 2003-12-09 International Business Machines Corporation System and method for eye gaze tracking using corneal image mapping
US6771303B2 (en) * 2002-04-23 2004-08-03 Microsoft Corporation Video-teleconferencing system with eye-gaze correction
US6943754B2 (en) 2002-09-27 2005-09-13 The Boeing Company Gaze tracking system, eye-tracking assembly and an associated method of calibration
WO2006108017A2 (en) 2005-04-04 2006-10-12 Lc Technologies, Inc. Explicit raytracing for gimbal-based gazepoint trackers
US7542210B2 (en) 2006-06-29 2009-06-02 Chirieleison Sr Anthony Eye tracking head mounted display
US8077914B1 (en) 2006-08-07 2011-12-13 Arkady Kaplan Optical tracking apparatus using six degrees of freedom
WO2010102037A2 (en) 2009-03-03 2010-09-10 The Ohio State University Gaze tracking measurement and training system and method
KR20120081127A (ko) 2009-09-11 2012-07-18 코닌클리케 필립스 일렉트로닉스 엔.브이. 이미지 처리 시스템
WO2011148366A1 (en) 2010-05-26 2011-12-01 Ramot At Tel-Aviv University Ltd. Method and system for correcting gaze offset
KR20120057033A (ko) 2010-11-26 2012-06-05 한국전자통신연구원 Iptv 제어를 위한 원거리 시선 추적 장치 및 방법
US8670019B2 (en) 2011-04-28 2014-03-11 Cisco Technology, Inc. System and method for providing enhanced eye gaze in a video conferencing environment
US8510166B2 (en) 2011-05-11 2013-08-13 Google Inc. Gaze tracking system
US9036069B2 (en) * 2012-02-06 2015-05-19 Qualcomm Incorporated Method and apparatus for unattended image capture
KR101977638B1 (ko) 2012-02-29 2019-05-14 삼성전자주식회사 영상 내 사용자의 시선 보정 방법, 기계로 읽을 수 있는 저장 매체 및 통신 단말
US8957943B2 (en) 2012-07-02 2015-02-17 Bby Solutions, Inc. Gaze direction adjustment for video calls and meetings
KR101979669B1 (ko) 2012-07-13 2019-05-17 삼성전자주식회사 이미지 내 사용자의 시선 보정 방법, 기계로 읽을 수 있는 저장 매체 및 통신 단말
US9282285B2 (en) * 2013-06-10 2016-03-08 Citrix Systems, Inc. Providing user video having a virtual curtain to an online conference
CN103345619A (zh) 2013-06-26 2013-10-09 上海永畅信息科技有限公司 视频聊天中的人眼自然对视自适应矫正方法
US9344673B1 (en) * 2014-03-14 2016-05-17 Brian K. Buchheit Enhancing a camera oriented user interface via an eye focus guide
EP3134847A1 (en) * 2014-04-23 2017-03-01 Google, Inc. User interface control using gaze tracking
US9411417B2 (en) 2014-07-07 2016-08-09 Logitech Europe S.A. Eye gaze tracking system and method
GB201507224D0 (en) 2015-04-28 2015-06-10 Microsoft Technology Licensing Llc Eye gaze correction

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163331A (zh) * 2010-02-12 2011-08-24 王炳立 采用标定方法的图像辅助***
CN102542249A (zh) * 2010-11-01 2012-07-04 微软公司 视频内容中的脸部识别

Also Published As

Publication number Publication date
US20160323541A1 (en) 2016-11-03
CN107533640A (zh) 2018-01-02
EP3275181B1 (en) 2020-02-12
EP3275181A1 (en) 2018-01-31
US9749581B2 (en) 2017-08-29
GB201507210D0 (en) 2015-06-10

Similar Documents

Publication Publication Date Title
CN107533640B (zh) 用于视线校正的方法、用户设备和存储介质
CN107534755B (zh) 用于视线校正的设备和方法
US20240127400A1 (en) Gaze direction-based adaptive pre-filtering of video data
CN109643162B (zh) 用现实世界内容增强虚拟现实内容
EP3757727B1 (en) Image re-projection for foveated rendering
US9325936B2 (en) Hybrid visual communication
JP5208810B2 (ja) 情報処理装置、情報処理方法、情報処理プログラム、およびネットワーク会議システム
US9998705B2 (en) Hybrid visual communication
US20210281802A1 (en) IMPROVED METHOD AND SYSTEM FOR VIDEO CONFERENCES WITH HMDs
WO2018155233A1 (ja) 画像処理装置、画像処理方法、および画像システム
CN112470164A (zh) 姿态校正
Hsu et al. Look at me! correcting eye gaze in live video communication
US20230281901A1 (en) Moving a direction of gaze of an avatar
US20220172440A1 (en) Extended field of view generation for split-rendering for virtual reality streaming
WO2016176226A1 (en) Eye gaze correction
US20240257434A1 (en) Prioritizing rendering by extended reality rendering device responsive to rendering prioritization rules
EP4113982A1 (en) Method for sensing and communicating visual focus of attention in a video conference
WO2016176225A1 (en) Eye gaze correction
US20240070955A1 (en) Refinement of facial keypoint metadata generation for video conferencing or other applications
US11294615B2 (en) Incorporating external guests into a virtual reality environment
WO2015091488A1 (en) Method for conducting a remote video communication session
JP2020520487A (ja) Vrインタラクションの改良された方法およびシステム
WO2022242855A1 (en) Extended reality rendering device prioritizing which avatar and/or virtual object to render responsive to rendering priority preferences

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant