KR102054363B1 - 시선 보정을 위한 화상 회의에서 영상 처리를 위한 방법 및 시스템 - Google Patents

시선 보정을 위한 화상 회의에서 영상 처리를 위한 방법 및 시스템 Download PDF

Info

Publication number
KR102054363B1
KR102054363B1 KR1020147024495A KR20147024495A KR102054363B1 KR 102054363 B1 KR102054363 B1 KR 102054363B1 KR 1020147024495 A KR1020147024495 A KR 1020147024495A KR 20147024495 A KR20147024495 A KR 20147024495A KR 102054363 B1 KR102054363 B1 KR 102054363B1
Authority
KR
South Korea
Prior art keywords
face
talker
image
depth map
scene
Prior art date
Application number
KR1020147024495A
Other languages
English (en)
Other versions
KR20150053730A (ko
Inventor
클라우디아 쿠스터
티베리우 포파
장-찰스 바진
마르쿠스 그로스
크라이그 고트스만
Original Assignee
뮤즈 캐피탈 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 뮤즈 캐피탈 엘엘씨 filed Critical 뮤즈 캐피탈 엘엘씨
Publication of KR20150053730A publication Critical patent/KR20150053730A/ko
Application granted granted Critical
Publication of KR102054363B1 publication Critical patent/KR102054363B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Processing Or Creating Images (AREA)
  • Telephonic Communication Services (AREA)

Abstract

적어도 하나의 실제 카메라(1)에 의해 캡쳐된 하나의 영상 또는 일련의 영상에서 대화자(9)의 시선을 보정하기 위한, 화상 회의에서 영상 처리를 위한 방법으로서,
Figure 112014083270638-pct00025
적어도 하나의 실제 카메라(1)가 대화자(9)의 원래의 영상을 획득하는 단계;
Figure 112014083270638-pct00026
대화자(9)의 시선상에 위치하고 대화자(9)를 향하는 가상 카메라(3)에 의해 보이는 바와 같이 대화자(9) 얼굴의, 보정된 장면을 합성하는 단계;
Figure 112014083270638-pct00027
대화자(9) 얼굴의 보정된 장면을 합성된 장면으로부터 원래의 영상(10) 안으로 옮기고, 그렇게 함으로써 최종 영상(12)을 생성하는 단계;
Figure 112014083270638-pct00028
최종 영상(12)을 표시하는 단계 및 최종 영상(12)을 전송하는 단계 중 적어도 하나의 단계; 를 포함하는, 화상 회의에서 영상 처리를 위한 방법.

Description

시선 보정을 위한 화상 회의에서 영상 처리를 위한 방법 및 시스템{METHOD AND SYSTEM FOR IMAGE PROCESSING IN VIDEO CONFERENCING FOR GAZE CORRECTION}
본 발명은 비디오 영상 처리 분야에 관한 것이며, 해당 독립항의 전제부에 기재된 바와 같이 특히 화상 회의에서 영상 처리를 위한 방법 및 시스템에 관한 것이다.
현재의 화상 회의 시스템을 이용하는 효과적인 의사소통은 주체와 카메라의 위치 사이의 격차(disparity)로 인한 아이 콘택트(eye contact)의 부족에 의해 심하게 방해된다. 이러한 문제는 고급의 비싼 화상 회의 시스템에 대해서는 부분적으로 해결되었지만, 소비자 수준의 설비에 대해서는 확실하게 해결되지 않았다.
상호 시선 인식(즉, 아이 콘택트)이, 직접 또는 화상 회의 시스템과 같은 전자 링크를 통해 모두 [Grayson and Monk 2003; Mukawa et al. 2005; Monk and Gale 2002], 인간 의사 소통의 중요한 측면이라는 것은 확고하게 확립되어 왔다 [Argyle and Cook 1976; Chen 2002; Macrae et al. 2002]. 따라서, 가상 의사소통에서 현실-세계 의사소통 패턴을 현실성 있게 모방하기 위해서, 아이 콘택트가 유지되는 것이 중요하다. 불행하게도, 소비자 화상 회의를 위한 종래의 하드웨어 설비들은 본질적으로 이것을 막았다. 세션 중에 우리는, 전형적으로 화면의 상단 또는 하단에 위치하는 카메라가 아니라, 표시부 내의 창에 제공되는, 말하는 사람의 얼굴을 보는 경향이 있다. 따라서, 아이 콘택트를 하는 것이 가능하지 않다. 스카이프(Skype)와 같은 소비자 화상 회의 시스템을 사용하는 사람들은 자주 이러한 문제를 경험한다. 그들은 그들의 대화 상대가 그들의 위 또는 아래의 어딘가를 보고 있다는 착각을 끊임없이 갖는다. 아이 콘택트의 부족은 통신을 어색하고 부자연스럽게 한다. 이러한 문제는 화상 회의의 시작 이래로 주위에 있어 왔고 [Stokes 1969] 소비자 수준의 시스템에 대해서 아직 확실하게 다루어지지 않았다. 완전한 시선 인식은 복잡한 심리적 현상이지만 [Chen 2002; Argyle and Cook 1976], 상호 시선 또는 아이 콘택트는 간단한 기하학적 설명을 갖는다: 아이 콘택트를 하게 하는 주체는 그들 상호 시선의 중심에 있어야 한다 [Monk and Gale 2002]. 이러한 간략화된 모델을 사용하여, 시선 문제는 새로운 장면 합성 문제로서 캐스팅될 수 있다: 시선을 따라 배치된 가상 카메라로부터 장면을 렌더링한다 [Chen 2002]. 이렇게 하는 한 가지 방법은 거울 시스템을 이용하여 카메라의 위치를 변경하는, 맞춤 하드웨어 설비들의 이용을 통하는 것이다 [Okada et al. 1994; Ishii and Kobayashi 1992]. 이러한 설비들은 보통 소비자 수준의 시스템에 대해 너무 비싸다.
대안은 실제 카메라의 그것과는 다른 새로운 관점으로부터 영상을 합성하기 위해서 소프트웨어 알고리즘을 사용하는 것이다. 새로운 장면 합성을 확실하게 수행할 수 있는 시스템은 전형적으로 복수의 카메라 설비들로 구성되고 [Matusik et al. 2000; Matusik and Pfister 2004; Zitnick et al. 2004; Petit et al. 2010; Kuster et al. 2011] 두 단계로 진행한다. 제1 단계에서 그것들은 장면의 형상을 재구성하고, 제2 단계에서 새로운 관점으로부터 형상을 렌더링한다. 이러한 방법들은 너무 많은 수의 카메라를 필요로 해서 일반 소비자에게 현실적이지 않거나 감당할 수 없다. 그것들은 복잡한 설비를 가지며, 실시간으로 실행하기 어렵다.
키넥트(Kinect)와 같은 소비자 수준의 깊이 및 컬러 카메라의 출현으로 [Microsoft 2010], 컬러 및 형상 둘 모두를 실시간으로 획득하는 것이 가능하다. Kuster 등 [2011]에 의해 증명된 바와 같이, 이것은 새로운 장면 합성 문제에 대한 해결책을 매우 용이하게 할 수 있다. 이미 천오백만이 넘는 키넥트 장치들이 판매되었기 때문에, 기술 전문가들은 곧 깊이/컬러 하이브리드 카메라가 웹캠만큼 흔해질 것이고 몇 년 안에 모바일 장치에도 이용 가능할 것이라고 예측한다. 그러한 하이브리드 센서의 최근 압도적인 인기를 감안할 때, 우리는 단지 하나의 그러한 장치로 구성된 설비를 제안한다. 언뜻 보기에 해결책은 분명한 것 같다: 장면에서 객체의 형상 및 외관이 알려진 경우에, 이후 수행될 필요가 있는 모든 것은 올바른 새로운 관점으로부터 이러한 3D 장면을 렌더링하는 것이다. 그러나, 몇 가지 기본적인 도전 및 제한사항에 주의해야 한다:
- 가능한 형상은 단일 관점으로부터 깊이 맵(depth map)으로 제한된다. 그와 같이, 그것은 폐색(occlusion)에 매우 민감하고, 임의의 (새로운) 관점으로부터 장면을 합성하는 것은, 도 2(왼쪽)에 도시된 바와 같이, 컬러 및 깊이 정보 둘 모두의 부족으로 인해 많은 구멍을 초래할 수 있다. 텍스처 합성 방법을 사용하여 그럴듯하게 이 구멍들을 채우는 것이 가능할 수 있지만, 그것들은 진정한 배경에 대응하지 않을 것이다.
- 깊이 맵은 윤곽(silhouette)을 따라 부분적으로 부정확한 경향이 있고, 많은 깜박이는 아티팩트(artifact)로 이어질 것이다.
- 인간은 얼굴에 매우 민감하며, 그래서 형상에서 작은 오류는 기하학적 의미에서는 작지만 지각적인 의미에서는 매우 클 수 있는 왜곡으로 이어질 수 있다.
시선 보정은 원격 회의 및 그것을 지원하는 많은 실험적이고 상업적인 시스템들을 위한 매우 중요한 사안이다 [Jones et al. 2009; Nguyen and Canny 2005; Gross et al. 2003; Okada et al. 1994]. 그러나, 이 시스템들은 주류 가정용으로 적합하지 않은 비싼 맞춤 하드웨어 장치들을 종종 사용한다. 개념적으로, 시선 보정 문제는 실시간의 새로운-장면 합성 문제에 밀접하게 관련된다 [Matusik et al. 2000; Matusik and Pfister 2004; Zitnick et al. 2004; Petit et al. 2010; Kuster et al. 2011]. 실제로 장면이 임의의 관점으로부터 렌더링될 수 있는 경우, 가상 카메라가 주체의 시선을 따라 배치될 수 있고 이것이 아이 콘택트를 달성할 것이다. 간단한 비디오 카메라를 사용하는 새로운 장면 합성이 지난 15년 동안 연구되어 왔지만, 많은 수의 비디오 카메라를 사용하지 않고서는, 높은-품질의 결과를 얻기가 어렵다. 그러한 설비들은 실시간 처리 및 저렴한 하드웨어를 겨냥하는 우리의 응용 모델에 적합하지 않다.
저렴한 설비에 더 적합한, 특별히 시선 보정을 위해 설계된 몇 가지 기술들이 있다. 몇몇 시스템들은 얼굴의 시선-보정된 영상을 합성하기 위해서 2개의 카메라를 단지 필요로 한다 [Criminisi et al. 2003; Yang and Zhang 2002]. 그것들은 두 영상의 스마트 블렌딩(smart blending)을 수행함으로써 이것을 완수한다. 이러한 설비는 2개의 실제 카메라 사이의 경로에 가상 카메라의 위치를 강제한다. 더 중요하게, 그 설비는 세심한 교정을 필요로 하고 조명 조건에 민감하며, 이것은 그 설비가 주류 사용에 실용적이지 않게 한다.
몇몇 방법들은 시선 보정을 수행하기 위해서 단 하나의 컬러 카메라를 사용한다. 이들 중 일부 [Cham et al. 2002]는 영상의 최적 변형(warp)을 찾기 위해 노력하면서 순전히 영상 공간에서 작동하고, 단지 아주 작은 보정에 대해서만 합리적인 결과를 얻을 수 있다. 이것은 얼굴의 형상에 대한 어떤 사전 지식 없이는 확실한 영상을 합성하기가 어렵기 때문이다. 따라서 다른 방법들은 시선-보정된 영상을 합성하기 위해서 프록시 형상(proxy geometry)을 이용한다. Yip 등 [2003]은 머리에 대해 타원형 모델을 사용하며, Gemmell [2000]은 얼굴 특징에 기초한 애드호크 모델(ad-hoc model)을 사용한다. 그러나, 템플릿(template)은 정적이고 얼굴은 동적이다. 그래서 단일 정적 템플릿은 매우 다양한 얼굴 표정들과 직면하는 경우에 훌륭히 작업을 수행하는 것에 일반적으로 실패할 것이다.
많은 이러한 방법들의 주요 초점은 머리 또는 얼굴의 기본 형상을 재구성하는 것이기 때문에, 실시간 형상 및 컬러 정보에 쉽게 접근하게 하는, 키넥트와 같은 소비자 수준의 깊이/컬러 센서의 출현은 문제를 해결하기 위해 이용될 수 있는 중요한 기술적 돌파구이다. Zhu 등 [2011]은 1개의 깊이 카메라(depth camera) 및 3개의 컬러 카메라를 포함한 설비를 제안했으며, 깊이 맵을 컬러 카메라로부터의 스테레오 재구성과 결합했다. 그러나 이 설비는 전경 영상(foreground image)을 단지 재구성할 뿐이며, 여전히 저렴하지 않다.
따라서, 앞서 언급된 단점들을 극복하는, 처음에 언급된 유형의 화상 회의에서 영상 처리를 위한 방법 및 시스템을 창안하는 것이 본 발명의 목적이다.
이 목적은 대응하는 독립항에 따른 화상 회의에서 영상 처리를 위한 방법 및 시스템에 의해 달성된다.
적어도 하나의 실제 카메라에 의해 캡쳐된 하나의 영상 또는 일련의 영상에서 인간 대화자 (또는 사용자)의 시선을 보정하기 위한, 화상 회의에서 영상 처리를 위한 방법은
Figure 112014083270638-pct00001
적어도 하나의 실제 카메라가 대화자의 원래의 영상(original image)을 획득하는 단계;
Figure 112014083270638-pct00002
대화자의 시선상에 위치하고 (특히 시선을 따라) 대화자 쪽으로 향하는 가상 카메라에 의해 보이는 바와 같이 대화자 얼굴의, 보정되거나 또는 새로운 장면을 합성하는, 즉, 계산하는 단계;
Figure 112014083270638-pct00003
대화자 얼굴의 보정된 장면을 합성된 장면으로부터 원래의 영상 안으로 옮기고, 그렇게 함으로써 최종 영상을 생성하는 단계;
Figure 112014083270638-pct00004
일반적으로 다른 사용자의 컴퓨터에서 디스플레이를 위한 데이터 통신 네트워크를 통해: 최종 영상을 표시하는 단계 및 최종 영상을 전송하는 단계 중 적어도 하나의 단계
를 포함한다.
시선 보정 시스템은, 평균 소비자 하드웨어상에서 실시간으로 작동하는 피어-투-피어(peer-to-peer) 화상 회의 모델을 겨냥하고, 한 실시형태에서, 키넥트와 같은 단 하나의 하이브리드 깊이/컬러 센서를 필요로 한다. 하나의 목표는 사람 또는 대화자의 얼굴 표정을 완전히 보존하면서 영상의 무결성을 손상시키지 않고 (즉, 정보의 손실 또는 시각적 아티팩트 없이) 시선 보정을 수행하는 것이다. 시스템의 주요 구성 요소는, 시선이 올바른, 주체 얼굴의 새로운 장면을 합성하고 그것을 원래의 컬러 영상 안으로 이음매 없이(seamlessly) 옮기는, 얼굴 대체 알고리즘이다. 이것은, 주체가 아이 콘택트를 하는, 누락된 화소 또는 중요한 시각적 아티팩트가 없는 영상의 결과를 가져온다. 합성된 영상에는, 정보의 손실이 없으며, 얼굴 표정이 원래의 영상에서와 같이 보존되고 배경도 또한 유지된다. 일반적으로, 얼굴의 영상을 보정된 영상으로부터 원본에 옮기는 것은 얼굴과 신체의 나머지 부분의 수직 시차(vertical parallax) 사이에 불일치로 이어질 수 있다. 큰 회전에 대해서 이것은, 예를 들어 얼굴은 똑바로 보고 있고 머리는 위로 회전된 경우에, 원근법 일탈(perspective aberration)로 이어질 수 있다. 중요한 관찰은, 일반적인 회의 응용에서 시선을 보정하기 위해 요구되는 변형은 작으며, 몸 전체가 아니라, 얼굴을 단지 변형하는 것으로 충분하다는 것이다.
본문의 나머지에서, 시선 보정 시스템 및 방법이 깊이 맵 외에 단 하나의 실제 비디오 카메라 (즉, 컬러 또는 흑백 영상 카메라)를 사용하는 시스템의 관점에서 설명될 것이다. 복수의 카메라를 사용하기 위해 시스템 및 방법을 확장하는 것은 간단하다.
일 실시 형태에서, 방법은 각 원래의 영상에 대해, 일반적으로 동시에, 대화자의 얼굴을 포함하는 관련 깊이 맵을 획득하는 단계를 포함하고, 거기에서 대화자 얼굴의 보정된 장면을 합성하는 단계는 깊이 맵에 기초한 대화자 얼굴의 3D 모델 위에 원래의 영상을 맵핑(mapping)하고 추정 대화자의 시선을 따라 배치된 가상 카메라로부터 3D 모델을 렌더링하는 것을 포함한다. 하나 보다 많은 카메라가 사용가능한 경우, 그들 각각의 영상은 3D 모델 위에서 혼합될 수 있다.
대안적으로, 일 실시형태에서, 예를 들어 영상에서 인식된 얼굴 특징에 일반적인 3D 모델을 조정함으로써, 하나 또는 그 이상의 영상만으로부터 3D 얼굴 모델을 추정하는 것도 또한 가능하다. 또한, 일반적인 3D 얼굴 모델은 그것을 영상에 조정함이 없이 사용될 수 있다.
시선 보정 접근법은 마이크로소프트 키넥트 센서와 같은 단일 깊이 스캐너로 얻은 깊이 맵에 기초할 수 있고, 거의 아티팩트가 없는(artifact-free) 상을 생산하면서, 전체로서 장면의 충실도뿐만 아니라 얼굴의 무결성과 표현력 둘 모두를 보존한다. 방법은 주류 가정 화상 회의에 적합하다: 그것은 저렴한 소비자 하드웨어를 사용하고, 실시간 수행을 달성하며, 단지 간단하고 짧은 설비를 필요로 한다. 접근법은 그러한 응용을 위해 단지 보정된 얼굴을 합성하는 것이 충분하다는 관찰에 기초한다. 따라서 우리는 장면의 시선-보정된 3D 모델을 렌더링하고, 얼굴 추적자(face tracker)의 도움으로, 시선-보정된 얼굴 부분을 이음매 없이 원래의 영상에 옮길 수 있다.
일 실시형태에서, 대화자 얼굴의 보정된 장면을 합성된 장면으로부터 원래의 영상 안으로 옮기는 단계는, 이음매 선(seam line)을 따라서 보정된 장면과 원래 영상 사이의 차이의 총합을 최소화하는, 보정된 장면과 원래 영상 사이의 최적의 이음매 선을 결정하는 것을 포함한다. 일 실시형태에서, 차이는 강도 차이(intensity difference)이다. 여기서 고려되는 강도는 그레이 값(grey value) 또는 그레이 레벨(gray level)일 수 있거나, 또는 다른 컬러 채널로부터 강도 차이의 조합일 수 있다.
일 실시형태에서, 최적의 이음매 선을 결정하는 것은
Figure 112014083270638-pct00005
얼굴 추적자에 의해 결정된 턱 지점에 맞춰진 타원체 모양의 다각형
Figure 112014083270638-pct00006
또는 일련의 영상의 이전 영상에 대해 결정된 다각형
중 어느 하나로 시작하는 것과 차이의 총합을 최소화하기 위해 다각형의 꼭지점을 조정하는 것을 포함한다.
일 실시형태에서는, 대화자 얼굴의 위쪽 부분에 대응하는, 다각형의 위쪽 부분의, 특히 다각형의 위쪽 절반의, 꼭지점들만이 조정된다.
일 실시형태에서, 방법은, 각 깊이 맵에서 대화자 머리의 3D 위치를 추정하고 현재의 깊이 맵에서 관찰되는 바와 같이 꼭지점들의 3D 위치를, 적어도 하나의 선행하는 깊이 맵에서 그들의 위치로부터, 그리고 머리의 3D 위치 및 방향에서의 변화로부터, 특히: 현재의 깊이 맵에 선행하는 깊이 맵으로부터, 계산된 그들 위치의 예측과 결합함으로써, 일련의 깊이 맵을 통해 얼굴 추적 꼭지점들의 3D 위치를 시간적으로 매끄럽게 하는 단계를 포함한다.
일 실시형태에서, 방법은, 교정 단계(calibration phase)에서, 최종 영상이 만족스러울 때까지 변형 파라미터를 조정하기 위해서 대화자에게 최종 영상을 표시하고 대화자로부터 사용자 입력을 받아들임으로써, 실제 카메라 및 가상 카메라의 위치 및 방향을 결부시키는 기하학적 변형체를 위한 변형 파라미터를 결정하는 단계를 포함한다. 이것은 화면에 표시된 그래픽 사용자 인터페이스 요소에서 "OK" 버튼을 클릭하는 것과 같이 대응하는 사용자 입력을 제출하는 대화자에 의해 수행될 수 있다.
일 실시형태에서, 방법은, 교정 단계에서,
Figure 112014083270638-pct00007
대화자가 실제 카메라를 보고 있는 경우에 최소한 대화자 얼굴의 제1 깊이 맵을 획득하고;
Figure 112014083270638-pct00008
대화자가 대화자의 회의 상대방의 영상을 표시하기 위해 배치되는 표시 화면을 보고 있는 경우에 최소한 대화자 얼굴의 제2 깊이 맵을 획득하며; 그리고
Figure 112014083270638-pct00009
제1 및 제2 깊이 맵을 결부시키는 변형체로부터 변형 파라미터를 계산함으로써
실제 카메라 및 가상 카메라의 위치 및 방향을 결부시키는 기하학적 변형체를 위한 변형 파라미터를 결정하는 단계를 포함한다.
일 실시형태에서, 방법은, 교정 단계에서, 최종 영상이 만족스러울 때까지 2D 변환 벡터를 조정하기 위해서 대화자에게 최종 영상을 표시하고 대화자로부터 사용자 입력을 받아들임으로써, 원래의 영상에서 대화자 얼굴의 보정된 장면을 위치시키기 위해 2D 변환 벡터를 조정하는 단계를 포함한다. 이 실시형태의 변형에서, 2D 변환 벡터를 조정하는 것은 앞에서 언급된 변형 파라미터를 결정하는 것과 같은 단계에서 수행된다.
일 실시형태에서, 방법은 얼굴 추적자를 이용하여 대화자 안구의 3D 위치를 식별하고, 안구의 모양을 구에 의해 근접하게 하며, 획득된 깊이 맵 정보를 대신해서 이 근사치를, 눈의 위치에 있는 깊이 맵에서, 이용하는 단계를 포함한다.
일 실시형태에서, 방법은, 특히 라플라시안 평활화(Laplacian smoothing)에 의해, 대화자의 얼굴을 포함하는 깊이 맵을 매끄럽게 하는(smoothing) 단계를 포함한다.
일 실시형태에서, 방법은 대화자의 얼굴을 포함하는 깊이 맵을 인위적으로 확대하는 단계를 포함한다. 부가적으로 또는 대안적으로, 깊이 맵 내의 구멍을 채우는 단계가 수행될 수 있다.
본 발명의 한 측면에 따르면, 영상 및 형상 처리 방법은 기록된 대화자의 시선을 보정하는 역할을 하며, 대화자의 시선이 카메라와 일렬로 정렬되지 않은 단 하나의 (깊이 및 컬러) 카메라를 필요로 하고, 다음 단계들을 포함한다:
a. 적절한 알고리즘을 사용함으로써 대화자의 머리의 둘레를 국한하는 단계, 그리고
b. 식별된 머리 둘레의 외부의 영상을 본질적으로 변하지 않도록 두면서, 시선이 카메라와 일렬로 정렬되도록 식별된 둘레 내부의 영상에 변형을 적용함으로써 새로운 장면을 생성하는 단계.
이러한 측면에 따른 본 영상 및 형상 처리 방법의 일 실시형태에서는, 매끄럽게 하는 것이, 바람직하게는 라플라시안 평활화가, 깊이 맵에 적용된다.
이러한 측면에 따른 본 영상 및 형상 처리 방법의 일 실시형태에서는, 깊이 맵에서 불연속성을 통한 식별된 둘레 주위의 형상이 깊이 맵의 낮은 해상도를 고려하기 위해서 인위적으로 확대된다.
이러한 측면에 따른 본 영상 및 형상 처리 방법의 일 실시형태에서는, 식별된 둘레 내부의 변형된 영상이, 원래의 영상과 변형된 영상을 비교할 때 가능한 적은 변화를 갖는 최적화된 이음매를 따라, 원래의 영상에 다시 붙여진다.
이러한 측면에 따른 본 영상 및 형상 처리 방법의 일 실시형태에서, 방법은, 카메라에 대한 시선의 상대적인 위치를 정의하면서, 식별된 둘레 내부의 영상에 수행될 필요가 있는 변형을 설정하는 교정 단계를 부가적으로 포함한다.
일 실시형태에서, 화상 회의에서 영상 처리를 위한 컴퓨터 프로그램 또는 컴퓨터 프로그램 제품은, 디지털 컴퓨터 또는 컴퓨터 시스템의 내부 메모리 내에 로딩 가능(loadable)하고, 컴퓨터 또는 컴퓨터 시스템의 하나 이상의 프로세서로 하여금 화상 회의에서 영상 처리를 위한 방법을 실행하게 하는 컴퓨터-실행가능한 명령을 포함한다. 다른 실시형태에서, 컴퓨터 프로그램 제품은 거기에 기록된 컴퓨터-실행가능한 명령을 갖는 컴퓨터 판독가능한 매체를 포함한다. 컴퓨터 판독가능한 매체는 바람직하게는 비-일시적(non-transitory)이며; 즉, 유형적이다. 또 다른 실시형태에서, 컴퓨터 프로그램은 재생할 수 있는 컴퓨터-판독가능한 신호로서 구현되고, 따라서 그러한 신호의 형태로 전송될 수 있다.
비-일시적 컴퓨터 판독가능한 매체를 제조하는 방법은, 컴퓨팅 시스템(computing system)의 프로세서에 의해 실행되는 경우에, 컴퓨팅 시스템으로 하여금 본 문서에 기재된 바와 같이 화상 회의에서 영상 처리를 위한 방법 단계들을 수행하게 하는 컴퓨터-실행가능한 명령을, 컴퓨터 판독가능한 매체에, 저장하는 단계를 포함한다.
추가 실시형태들은 종속적인 특허 청구항들로부터 명백하다. 방법 청구항의 특징들은 장치 청구항의 특징들과 결합될 수 있고, 그 반대도 또한 가능하다.
본 발명의 요지는 첨부된 도면에 도시되어 있는 예시적인 실시형태들을 참조하여 다음에서 더 상세하게 설명될 것이다.
본 발명은, 앞서 언급된 단점들을 극복하는, 처음에 언급된 유형의 화상 회의에서 영상 처리를 위한 방법 및 시스템을 창안하는 효과가 있다.
도 1은 시스템의 사용자 인터페이스 하드웨어의 설비를 도시한다;
도 2는 시스템에 의해 처리되고 결합된 영상을 도시한다;
도 3은 다른 접근법의 비교를 도시한다;
도 4는 시스템에 의해 생성된 영상의 실시예를 도시한다;
도 5는 2D 오프셋 보정의 이행을 도시한다; 그리고
도 6은 붙여진 영상 조각의 경계에서 z-값의 보정을 도시한다.
도면에 사용된 참조 부호들과 그 의미는 참조 부호의 목록에 요약 형태로 나열되어 있다. 원칙적으로, 동일한 부분은 도면에서 동일한 참조 부호와 함께 제공된다.
아래에 기재된 시스템 및 방법은 청구된 발명의 가능한 실시형태들을 대표한다. 그것들은, 도 1에 개략적으로 도시된 바와 같이, 깊이 스캐너(2)와 결합된 실제 카메라(1)를 이용함으로써 실현될 수 있다. 화상 회의 시스템의 추가 요소는 마이크(4), 디스플레이(5), 스피커(6), 범용 컴퓨터(7)에 일반적으로 연결되는 모든 것 또는, 데이터 처리 유닛을 포함하고 여기에 기재된 바와 같은 방법을 수행하도록 프로그래밍 된, 전용 화상 회의 장치를 포함한다. 그러한 요소들의 조합과 특히 카메라 및 깊이 스캐너의 조합은, 예를 들어, 하이브리드 깊이/컬러 영상을 얻을 수 있는 마이크로소프트 키넥트 장치에서 구현되며, 거기에서 컬러 영상, 이 문맥에서 "원래의 영상" (10)은 일반 카메라를 사용하여 얻어지고 깊이 맵(13)은 구조화된 적외선 영상의 반사 패턴으로부터 얻어진다. 일반적으로, 컬러 또는 깊이 정보는 임의의 다른 적절한 방법에 의해 회수될 수 있다. 컬러 영상(10) 대신에, 흑백 영상(10)이 사용될 수도 있다.
일 실시 형태에서, 요구되는 유일한 장치는 키넥트와 같은 단일 하이브리드 깊이/컬러 센서이다. 웹캠은 보통 화면의 상단에 장착되지만, 현재의 하이브리드 센서 장치들은 일반적으로 꽤 부피가 크고 화면의 하단에 그것들을 배치하는 것이 더 자연스럽다. 도 1에 예시적으로 도시된 바와 같이, 설비는, 화상 회의에서 사람(9) 또는 주체 또는 대화자를 바라보는 실제 카메라(1) 및 깊이 스캐너(2) 둘 모두를 포함하는, 단일 키넥트 장치를 포함한다. 키넥트와 화면 창(screen window)(5) 사이의 각도는 일반적으로 19 내지 25도이다. 시선 보정 시스템은, 주체(9)가 깊이 카메라로부터 형상을 사용하여 아이 콘택트를 하는, 새로운 장면을 먼저 합성한다 (도 2b). 결과 영상은 폐색 및 깊이 에러로 인해 윤곽 주위에 구멍과 아티팩트를 갖는다. 배경 및 전경의 무결성, 주체(9)의 얼굴 표정뿐만 아니라 아이 콘택트, 둘 모두 보존하는 완벽한 영상을 구성하기 위해, 우리는 합성된 장면으로부터 이음매 없이 원래의 영상(10) 안으로 단지 얼굴만 옮긴다. 이것은, 동시에 주체(9)의 얼굴 표정을 보존하면서, 정보 및 아이 콘택트 달성의 어떠한 손실 없이 영상의 공간적 및 시간적 무결성 둘 다를 완전하게 보존하도록 한다.
시스템 개요:
a) 입력: 키넥트로부터 컬러 및 깊이 영상.
b) (머리 형상의 적절한 3D 변형을 수행함으로써) 보정된 시선과 함께 주체의 영상을 합성하라.
Figure 112014083270638-pct00010
위: 얼굴 추적자(눈, 코, 입 및 턱 주위의 작은 점들) 및 얼굴 추적자(큰 점들)의 턱 지점에 맞춰진 타원 형상의 이음매 선(14)과 겹쳐 놓인 주체.
Figure 112014083270638-pct00011
아래: 시선-보정된 렌더링을 복사하고 원래의 영상(10) 안에 그것을 붙이기 위한 스텐실(stencil)로서 타원을 사용하라. 이음매 아티팩트가 가시적이다.
c) 이음매 선(14)을 최적화하라.
Figure 112014083270638-pct00012
위: 새로운 이음매 선(14)(큰 점들)과 겹쳐 놓인 주체. 훨씬 더 적은 가시 아티팩트.
d) 최종 결과를 얻기 위해 꼭지점들을 연결하는 가장자리에 의해 정의되는 이음매 선을 따라서 영상을 혼합하라.
알고리즘의 단계는 다음과 같다:
1. 라플라시안 평활화를 사용하여 키넥트 깊이 맵(13) (도 2a) 상에서 매끄럽게 하고 구멍을 채워라. 실제로, 성능을 개선하기 위해서, 우리는 단순 깊이 임계값(simple depth threshold)을 사용하여 얻어진 전경 객체 상에서만 이것을 수행한다. 또한, 키넥트로부터의 윤곽은 매우 부정확하고, 특히 얼굴 주위의 가장자리에서, 얼굴 형상의 덩어리가 누락될 수 있는 것이 가능하다. 따라서, 우리는 약 25 픽셀만큼 인위적으로 형상을 확대하며 그리고/또는 깊이 맵 내의 임의의 구멍들(즉, 깊이 정보가 없는 점들)을 채운다.
2. 시선이 보정된 (도 2b, 위) 새로운 장면 또는 보정된 장면(11)을 생성하라. 이것은, 가상 카메라(3)를 보도록, 즉 대화자의 시선이 가상 카메라(3) 쪽을 향하도록 배향된, 가상 카메라(3)의 좌표 프레임 내에 주체를 위치시키기 위해서 형상에 변형을 적용함으로써 달성된다. 이 변형의 파라미터는 교정 단계 동안 단 한 번만 계산된다(섹션 3.1 참조). 얼굴은 이제 올바른 시선을 갖지만, 영상은 더 이상 완전하고 일관성 있지 않다. 시선은, 예를 들어, 머리에, 즉 머리 배향의 방향에, 직교하는 선으로서, 3D 머리 위치 탐지에 의해 결정되고, 하나의 눈을 통해 또는 두 눈 사이의 중간 지점을 통해 지나간다.
3. 보정된 영상(11)으로부터 얼굴을 추출하고, 원래의 영상(10) 안으로 그것을 이음매 없이 옮겨라 (도 2b, 아래). 우리는 원래의 컬러 영상에서 얼굴의 특징점들을 추적하기 위해 최첨단의 얼굴 추적자[Saragih et al. 2011]를 사용한다. 추적자는 턱, 코, 눈 및 눈썹을 따라, 예를 들어 66개의 특징점들을 계산한다 (또한 도 6을 참조). 우리는 변형된, 즉 보정된 영상으로부터 얼굴을 잘라내기 위해 최적의 스텐실 또는 이음매 선(14)을 계산한다 (도 2c, 위 및 아래). 최적의 스텐실은 바람직하게는 시퀀스(sequence)의 시간적 일관성뿐만 아니라 영상의 공간적 일관성을 보장한다. 얼굴, 즉, 보정된 영상의 조각(15)은 경계를 따라 좁은 5 - 10 픽셀 폭의 밴드 위에서 두 영상을 혼합함으로써 옮겨진다 (도 2d).
인위적으로 형상을 확대하는 것 및/또는 깊이 맵 내의 임의의 구멍들을 채우는 것은 다음의 단계들과 함께 수행될 수 있다:
Figure 112014083270638-pct00013
크기 K = 25 의 실시예에 대해서, 커널(kernel), 즉 창을 선택하라,
Figure 112014083270638-pct00014
알려지지 않은 깊이의 각 픽셀에 대해, 그것의 중심이 이 픽셀에 있도록 커널을 위치시키고, 이 커널 내부의 알려진 깊이 값의 평균값을 계산하고 (알려진 값이 없는 경우에는, 알려진 깊이 값을 갖지 않는 픽셀을 건너뛰어라, 즉 무시하라), 검토된 중심 픽셀에 이 값을 할당하라.
이것은 그 크기가 K 보다 더 작은 구멍들을 채울 것이다. 처리되는 픽셀의 순서는 알려진 깊이의 픽셀 바로 옆에 놓여있는 픽셀과 함께 일반적으로 시작한다.
중요한 관찰은, 일반적인 회의 응용에서 시선을 보정하기 위해 요구되는 변형은 작고, 몸 전체가 아니라, 얼굴을 단지 변형하는 것이 충분하다는 것이다. 도 3은 이러한 관찰을 예시한다. 왼쪽 열은 시선이 카메라로부터 벗어난 두 다른 주체의 원래의 영상(10)을 보여준다. 중간 열에서는 그들의 시선이, 보정된 장면(11)을 제공하는, 형상을 단지 회전시킴으로써 보정된다. 오른쪽 열은 결과, 즉 최종 영상(12)을 보여준다. 회전된 얼굴을 원래의 영상(10)에 옮기는 것은 원근법 일탈로 이어지지 않는다. 사람(9)의 외관은 우리가 장면의 무결성을 보존할 수 있는 이점을 갖고 전체 형상을 단지 변형하는 것과 유사하다는 점을 부디 주목하라. 도 4는, 위 열에 원래의 영상(10) 및 아래 열에 보정된 시선을 갖는 최종 영상(12) (또는 출력 영상)과 함께, 시스템 또는 방법의 응용의 추가 실시예를 보여준다.
초기 교정
시스템의 몇몇 파라미터들은 임의의 주어진 사용자에게 특유한 특정 구성 및 얼굴 특성에 의존한다. 예를 들어, 가상 카메라(3)의 위치는 사람(9)의 높이 및 깊이 센서(2)의 위치뿐만 아니라 표시 화면(5) 위에 화상 회의 응용 창의 위치에도 의존한다. 이 파라미터들은 간단하고 직관적인 인터페이스를 사용하여 세션의 시작에서 단 한 번만 사용자에 의해 설정된다. 교정 프로세스는 일반적으로 30초보다 더 적게 걸린다. 그 이후에 시스템은 완전히 자동으로 실행된다.
설정될 필요가 있는 제1 파라미터는 가상 카메라(3)의 위치이다. 이것은, 형상에 적용될 때, 아이 콘택트를 하는 영상의 결과를 가져오는, 엄격한 변형을 찾는 것과 동일하다. 우리는 그것을 위해 두 가지 메커니즘을 제공한다. 첫 번째 것에서, 우리는 사용자로 하여금, 트랙볼-같은(trackball-like) 인터페이스를 사용하여, 그/그녀 스스로 최적의 변형을 찾는 것을 허용한다. 우리는 사용자가 보고 있는 창 위에 보정된 형상을 렌더링함으로써 시각적 피드백을 제공한다. 이렇게 해서, 사용자(9)는 아이 콘택트를 하게 하는 지점을 완전히 통제할 수 있다. 두 번째 것은 두 개의 스냅샷(snapshot)이 키넥트 카메라(1)로부터 찍히는 반-자동 기술이다: 하나는 사용자가 키넥트 카메라(1)를 똑바로 보고 있는 동안, 그리고 하나는 사용자가 디스플레이(5) 상의 화상 회의 창을 똑바로 보고 있는 동안. 이 두 개의 깊이 영상으로부터 우리는 하나를 다른 것으로 맵핑하는 엄격한 변형을 계산할 수 있다. 이것은 두 개의 대응하는 컬러/깊이 영상에서 눈-추적자 점들을 매칭(matching)함으로써 달성될 수 있다.
원래의 영상(10)에 시선 보정된 영상으로부터의 얼굴을 엄격하게 붙일 때 우리는 여전히 두 가지 정도의 자유를 갖는다: 원래의 영상(10)에 보정된 얼굴을 위치시키는 2D 변환 벡터. 따라서 초기 설정을 필요로 하는 두 번째 파라미터는 붙여진 얼굴 오프셋이다. 이 파라미터를 결정하는 가장 간단한 방법은 눈과 입의 위치가 대략 일치하도록 얼굴의 특징들을 자동으로 정렬하는 것이다 (도 5 왼쪽). 불행하게도, 이것은 매력적인 결과로 이어지지 않는데, 왜냐하면 얼굴의 비율이 여전히 부자연스럽기 때문이다. 예를 들어, 이마가 부자연스럽게 수축되어 보일 것이다. 이것은 실제에서 우리가 머리를 회전시킬 때, 눈 및 입과 같은 얼굴 특징들이 원근 변형(perspective transformation)에서 더 낮게 이동되기 때문이다. 데칼(decal)을 아래로 약간 이동시킴으로써 (도 5 오른쪽) 얼굴의 비율이 복원될 수 있다. 동일한 문제가 턱을 따라서는 나타나지 않는데, 왜냐하면 턱은 실제 카메라와 가상 카메라(3) 둘 다로부터의 깊이 불연속이 있는 얼굴의 실제 윤곽에 속하기 때문이다. 사용자는, 원래의 영상에(11) 옮겨지는, 얼굴의 데칼, 즉 보정된 영상의 조각(15)을 비율이 자연스럽게 보일 때까지 한 프레임 아래로 드래그(drag) 할 수 있다. 그 후에 이 오프셋은 프로세스 전반에 걸쳐 사용될 수 있다.
이음매 최적화
원래의 영상(10)에 보정된 영상(11)으로부터의 얼굴을 옮기기 위해서, 시각적 아티팩트를 최소화하는 이음매가 모든 프레임에서 찾아져야 한다. 이것을 달성하기 위해서 우리는 원천 영상 및 보정된 영상에서 가능한 유사한 다각형의 이음매 선(14) 또는 이음매(S)를 계산한다. 함께 혼합되는 경우에, 이음매는 매끄럽게 나타날 것이다. 우리는 [Dale et al. 2011] 과 유사하게, 다음의 에너지를 최소화한다:
Figure 112014083270638-pct00015
여기서 I o I s 는 원래의 영상과 합성된 영상에서 픽셀 강도(pixel intensity)이고, B(p) p 주위의 픽셀의 5 x 5 블록이다. 픽셀 강도는, 예를 들어, 그레이 값(grey value) 또는 컬러 강도의 조합이다.
성능 제약으로 인해, 국부적인 최적화 기법이 선택될 수 있다. 이것은 전체적으로 최적의 해법으로 이어지지 않지만, 실험은 그것이 일반적으로 가시적인 아티팩트 없는 해법으로 이어지는 것을 보여준다. 먼저 타원이 얼굴 추적자의 턱 지점에 맞춰지고 교정에 따라 오프셋 된다 (도 2b). 타원 위쪽 절반의 각 꼭지점은 타원 중심에 꼭지점을 연결하는 선을 따라 그것을 이동시킴으로써 반복적으로 최적화된다. 우리는 총 20 내지 30 개의 점을 갖는 타원을 구성하고 방식은 약 4번의 반복에 수렴한다. 이 절차는 매우 효율적인데 왜냐하면 각 꼭지점이 단지 한 방향으로만 움직이지만 (최종 솔루션은 항상 간단한 별모양의 다각형이 될 것이다), 아티팩트-없는 이음매 선(14)의 결과를 가져오기 때문이다. 우리는 타원의 위쪽 절반만 최적화하는데 왜냐하면, 이마와 달리, 턱 이음매는 얼굴에서 진정한 깊이 불연속에 대응하기 때문이다. 따라서, 우리는 턱을 구별되게 하는 불연속을 볼 것으로 예상한다. 턱을 따라 매끄러운 이음매를 부과하는 것은 부자연스러운 시각적 아티팩트로 이어질 것이다. 프로세스의 속도를 더 높이기 위해, 최적화는 시간적 간섭성을 이용하고, 각 프레임에서 초기 추측으로서 이전 프레임으로부터의 다각형으로 시작한다.
눈 형상 보정
인간의 얼굴을 합성하는 것에서 한 가지 중요한 도전이, 인간의 지각(perception)은 얼굴, 특히 눈에 매우 민감하다는 사실로부터 생겨난다. 얼굴의 형상에서 비교적 작은 변화는 큰 지각의 왜곡(perceptual distortion)으로 이어질 수 있다.
깊이 센서로부터의 형상은 매우 거칠고, 그 결과 아티팩트가 나타날 수 있다. 얼굴의 가장 민감한 부분은 안구의 반사 특성으로 인해 형상이 신뢰할 수 없는 눈 근처이다. 따라서, 눈이 부자연스럽게 보일 수 있다. 다행히도 눈은 사람마다 비교적 적은 형상 변화를 갖는 특징이고, 약 2.5 ㎝ 의 반경을 갖는 구에 의해 잘 근접해질 수 있다. 그것들은 얼굴 추적자를 사용하여 눈 위치를 식별함으로써, 깊이 센서에 의해 제공된 깊이 값을 대체하여, 깊이 맵(13)에 인위적으로 더해질 수 있다.
시간적 안정화
키넥트 또는 깊이 맵 형상으로부터의 큰 시간적 불연속은 불안하게 하는 깜박이는 아티팩트로 이어질 수 있다. 2D 얼굴 추적 점 (얼굴 특징점)은 원래의 컬러 영상에서 상당히 안정적이지만, 형상 위에 투영될 때, 그것들의 3D 위치는, 특히 윤곽과 같은 깊이 불연속부 근처에서, 신뢰할 수 없다. 도 6은 추적된 얼굴 특징점들의 3D 위치를 보여준다. 왼쪽: 안정화 없이. - 카메라의 관점으로부터 - 깊이 불연속부 근처의 점들은 화살표로 표시된 z-방향, 즉 카메라의 각각의 투영 광선을 따라 임의로 미끄러져 이동할 수 있다. 이 오류는 초기 장면의 z-방향에서 가장 우세하기 때문에, 우리는 각각의 투영 광선을 따라 얼굴 추적자 꼭지점을 최적화함으로써 문제를 해결한다. 몇몇 프레임에 걸쳐 (카메라 좌표계에서) z-값의 단순 평균을 내는 것은 스텐실을 안정시킬 것이지만, 사람(9)이 앞뒤로 움직이는 경우에 스트로빙 아티팩트(strobing artifact)를 만들어 낼 것이다. 대신에, 우리는 눈 주위의 추적된 점들을 이용하여 머리의 병진 3D 움직임을 먼저 추정한다. 이 점들은 더 신뢰할 수 있는데, 왜냐하면 그것들은 깊이 불연속부 근처에 위치하지 않기 때문이다. 이 정보를 사용하여 우리는, 프레임들 사이의 전체적인 병진 이동을 공제하여, 몇몇 프레임에 걸쳐 z-값을 평균함으로써 3D 얼굴 추적 꼭지점의 시간적 평활화를 수행한다. 결과적인 보정된 얼굴 특징점들이 도 6, 오른쪽에 도시된다. 이 안정화 기법은 리소스(resource)를 계산함에 있어서 거의 불이익이 없고, 주체가 넓은 범위의 움직임을 수행하는 경우에도 시간적으로 일관된 시선 보정을 성공적으로 제공한다.
결과 및 논의
시스템을 증명하고 입증하기 위해서, 우리는 36 명의 주체에 그것을 작동시켰다. 우리는 각 사용자에 대해 시스템을 교정하고, 사용들로 하여금 잠깐 동안 화상 회의 설비에서 말하도록 했다. 주체에 따라서, 형상에 대해 적용되는 변형의 회전은 19 에서 25 도까지 다양하다. 교정 프로세스는 매우 짧고 (즉, 약 30초), 그 결과는 다양한 얼굴 유형, 헤어-스타일, 인종 등에 대해 설득력 있다. 주체의 표현성은, 얼굴 표정과 몸짓 둘 다의 측면에서 보존된다. 이것은, 비언어적인 의사소통의 의미가 변경되지 않아야 하기 때문에, 화상 회의에서 중요하다. 시스템은 두 사람의 시선을 동시에 바로잡을 수 있다. 이것은 창을 분할하고 개별적으로 각 얼굴에 방법을 적용함으로써 이루어진다. 시스템은 조명 조건 (흐릿한 빛과 과다 노출) 및 조명 변화에 대해 강하다. 이것은 스테레오-기반의 방법에 대한 문제를 야기할 것이다. 방법은 외관 변화에 강하다. 주체가 그들의 머리를 뒤로 당기거나 또는 그들의 헤어 스타일을 바꾸는 경우에, 시선은 여전히 정확하게 보존되고 동적 이음매(dynamic seam)는 어떠한 아티팩트도 보이지 않는다.
시스템은 소비자 컴퓨터에서 약 20 Hz 에서 실행된다. 방법과 함께 얻어진 설득력 있는 결과와 이용의 단순함이 스카이프 플러그인의 개발에 동기를 부여했다. 사용자는 몇 번의 클릭으로 저자의 웹사이트로부터 그것을 다운로딩 할 수 있고 그들 자신의 컴퓨터에 그것을 설치할 수 있다. 플러그인은 스카이프 내에 매끄럽게 통합되고 사용하기 매우 쉽다: 간단한 온/오프 버튼이 알고리즘을 작동하게/작동을멈추게 한다. 플러그인은 전 세계의 수백만 스카이프 사용자들에게 실시간 및 자동의 시선 보정을 가져온다.
한계: 주체의 얼굴이 거의 차단되는 경우에, 추적자는 실패하는 경향이 있다 [Saragih et al. 2011]. 이것은 자동으로 감지될 수 있고, 카메라로부터의 원래의 화면(original footage)이 표시된다. 시스템은 사람(9)이 착용할 수 있는 많은 액세서리에 강하지만, 안경과 같은 반사하는 표면은 시각적 아티팩트를 초래하여 잘 재구성될 수 없다. 방법은 다중-시점 렌더링(multi-perspective rendering)을 수행하기 때문에, 얼굴 비율은 특히 회전이 큰 경우에 변경될 수 있다.
결론
시스템은 화상 회의의 맥락에서 두 가지 중요한 목적을 달성한다. 맨 먼저, 그것은 전경 및 배경 객체 둘 다에 대한 영상의 무결성 및 정보를 유지하면서 확실하게 시선을 보정하여, 가시적인 외관 및 의사소통의 측면에서 아티팩트가 없는 결과로 이어진다. 두 번째로, 교정은 짧고 간단하며, 방법은 가까운 미래에 웹캠만큼 흔하게 될, 저렴하고 이용가능한 장비를 사용한다. 결과의 품질 및 이용의 단순함이 주어지는 경우에, 시스템은 가정용 화상-회의에 이상적이다. 마지막으로, 직관적인 스카이프 플러그인은 주류 및 소비자 수준에 시선 보정을 가져온다.
본 발명이 본 실시 형태들 내에서 설명되었지만, 본 발명은 거기에 한정되지 않고 청구항의 범위 내에서 다양하게 구현되고 실시될 수 있다는 것이 명백히 이해된다.
참고문헌
ARGYLE, M., AND COOK, M. 1976. Gaze and mutual gaze. Cambridge University Press.
CHAM, T.-J., KRISHNAMOORTHY, S., AND JONES, M. 2002. Analogous view transfer for gaze correction in video sequences. In ICARCV, vol. 3, 1415-1420.
CHEN, M. 2002. Leveraging the asymmetric sensitivity of eye contact for videoconference. In CHI, 49-56.
CRIMINISI, A., SHOTTON, J., BLAKE, A., AND TORR, P. H. S. 2003. Gaze manipulation for one-to-one teleconferencing. In ICCV, 191-198.
DALE, K., SUNKAVALLI, K., JOHNSON, M. K., VLASIC, D., MATUSIK, W., AND PFISTER, H. 2011. Video face replacement. In SIGGRAPH Asia, 1-10.
GEMMELL, J., TOYAMA, K., ZITNICK, C. L., KANG, T., AND SEITZ, S. 2000. Gaze awareness for video-conferencing: Asoftware approach. IEEE MultiMedia 7, 26-35.
GRAYSON, D. M., AND MONK, A. F. 2003. Are you looking at me? eye contact and desktop video conferencing. ACM Trans. Comput.-Hum. Interact. 10, 221-243.
GROSS, M., WUERMLIN, S., NAEF, M., LAMBORAY, E., SPAGNO, C., KUNZ, A., KOLLER-MEIER, E., SVOBODA, T., VAN GOOL, L., LANG, S., STREHLKE, K., MOERE, A. V., AND STAADT, O. 2003. Blue-c: a spatially immersive display and 3D video portal for telepresence. In SIGGRAPH, 819-827.
ISHII, H., AND KOBAYASHI, M. 1992. Clearboard: a seamless medium for shared drawing and conversation with eye contact. In CHI, 525-532.
JONES, A., LANG, M., FYFFE, G., YU, X., BUSCH, J., MCDOWALL, I., BOLAS, M., AND DEBEVEC, P. 2009. Achieving eye contact in a one-to-many 3D video teleconferencing system. In SIGGRAPH, 64:1-64:8.
KUSTER, C., POPA, T., ZACH, C., GOTSMAN, C., AND GROSS, M. 2011. FreeCam: a hybrid camera system for interactive free viewpoint video. In VMV, 17-24.
MACRAE, C. N., HOOD, B., MILNE, A. B., ROWE, A. C., AND MASON, M. F. 2002. Are you looking at me? eye gaze and person perception. In Psychological Science, 460-464.
MATUSIK, W., AND PFISTER, H. 2004. 3D TV: a scalable system for real-time acquisition, transmission, and autostereoscopic display of dynamic scenes. In SIGGRAPH, 814-824.
MATUSIK, W., BUEHLER, C., RASKAR, R., GORTLER, S. J., AND MCMILLAN, L. 2000. Image-based visual hulls. In SIGGRAPH,369-374.
MICROSOFT, 2010. http://www.xbox.com/en-US/kinect.
MONK, A. F., AND GALE, C. 2002. A look is worth a thousand words: Full gaze awareness in video-mediated conversation. Discourse Processes 33, 3, 257-278.
MUKAWA, N., OKA, T., ARAI, K., AND YUASA, M. 2005. What is connected by mutual gaze?: user's behavior in video-mediated communication. In CHI, 1677-1680.
NGUYEN, D., AND CANNY, J. 2005. Multiview: spatially faithful group video conferencing. In CHI, 799-808.
OKADA, K.-I., MAEDA, F., ICHIKAWAA, Y., AND MATSUSHITA, Y. 1994. Multiparty videoconferencing at virtual social distance: Majic design. In Proc. Conference on Computer supported cooperative work (CSW), 385-393.
PETIT, B., LESAGE, J.-D., MENIER, C., ALLARD, J., FRANCO, J.-S., RAFFIN, B., BOYER, E., AND FAURE, F. 2010. Multicamera real-time 3D modeling for telepresence and remote collaboration. Intern. Journ. of Digital Multi. Broadcasting.
SARAGIH, J., LUCEY, S., AND COHN, J. 2011. Deformable model fitting by regularized landmark mean-shift. IJCV 91, 200-215.
STOKES, R. 1969. Human factors and appearance design considerations of the mod II picturephone station set. IEEE Transactions on Communication Technology 17, 2, 318-323.
YANG, R., AND ZHANG, Z. 2002. Eye gaze correction with stereovision for video-teleconferencing. In ECCV, 479-494.
YIP, B., AND JIN, J. S. 2003. Face re-orientation in video conference using ellipsoid model. In OZCHI, 167-173.
ZHU, J., YANG, R., AND XIANG, X. 2011. Eye contact in video conference via fusion of time-of-flight depth sensor and stereo. 3D Research 2, 1-10.
ZITNICK, C. L., KANG, S. B., UYTTENDAELE, M., WINDER, S., AND SZELISKI, R. 2004. High-quality video view interpolation using a layered representation. SIGGRAPH 23, 600-608.

Claims (16)

  1. 적어도 하나의 실제 카메라(1)에 의해 캡쳐된 하나의 영상 또는 일련의 영상에서 대화자(9)의 시선을 보정하기 위한, 화상 회의에서 영상 처리를 위한 방법으로서,
    Figure 112019087276712-pct00016
    적어도 하나의 실제 카메라(1)가 대화자(9)의 원래의 영상을 획득하는 단계 및 대화자(9)의 얼굴의 둘레를 국한(localizing)하는 단계;
    Figure 112019087276712-pct00017
    대화자(9)의 시선상에 위치하고 대화자(9) 쪽으로 향하는 가상 카메라(3)에 의해 보이는 바와 같이 대화자(9) 얼굴만의, 보정된 장면을 합성하는 단계;
    Figure 112019087276712-pct00018
    이음매 선을 따라 보정된 장면으로부터 대화자(9) 얼굴을 잘라내기 위해 보정된 장면과 원래의 영상 사이의 이음매 선을 결정하고, 이음매 선을 따라 보정된 장면과 원래의 영상을 혼합함으로써, 대화자(9) 얼굴만의 보정된 장면을 합성된 장면으로부터 원래의 영상(10) 안으로 옮기고, 그렇게 함으로써 대화자 시선 보정의 목적으로 대화자(9) 얼굴의 식별된 둘레 외부 영상은 변하지 않도록 두면서, 최종 영상(12)을 생성하는 단계;
    Figure 112019087276712-pct00019
    최종 영상(12)을 표시하는 단계 및 최종 영상(12)을 전송하는 단계 중 적어도 하나의 단계
    를 포함하는 것을 특징으로 하는 화상 회의에서 영상 처리를 위한 방법.
  2. 제1항에 있어서, 대화자(9) 얼굴의 보정된 장면을 합성하는 단계는 대화자(9) 얼굴의 3D 모델 위에 원래의 영상(10)을 맵핑(mapping)하고 대화자(9)의 시선의 추정을 따라 배치된 가상 카메라(3)로부터 3D 모델을 렌더링하는 것을 포함하는 것을 특징으로 하는 화상 회의에서 영상 처리를 위한 방법.
  3. 제1항 또는 제2항에 있어서, 대화자(9) 얼굴의 보정된 장면을 합성된 장면으로부터 원래의 영상(10) 안으로 옮기는 단계가, 이음매 선(14)을 따라 보정된 장면과 원래 영상(10) 사이의 차이의 총합을 최소화하는, 보정된 장면과 원래 영상(10) 사이의 최적의 이음매 선(14)을 결정하는 것을 포함하는 것을 특징으로 하는 화상 회의에서 영상 처리를 위한 방법.
  4. 제3항에 있어서, 최적의 이음매 선(14)을 결정하는 것은
    Figure 112014093895351-pct00035
    얼굴 추적자에 의해 결정된 턱 지점에 맞춰진 타원체 모양의 다각형
    Figure 112014093895351-pct00036
    또는 일련의 영상의 이전 영상에 대해 결정된 다각형
    중 어느 하나로 시작하는 것과 차이의 총합을 최소화하기 위해 다각형의 꼭지점을 조정하는 것을 포함하는 것을 특징으로 하는 화상 회의에서 영상 처리를 위한 방법.
  5. 제1항에 있어서, 교정 단계에서, 최종 영상(12)이 만족스러울 때까지 변형 파라미터를 조정하기 위해서 대화자(9)에게 최종 영상(12)을 표시하고 대화자(9)로부터 사용자 입력을 받아들임으로써, 실제 카메라(1) 및 가상 카메라(3)의 위치 및 방향을 결부시키는 기하학적 변형체를 위한 변형 파라미터를 결정하는 단계를 포함하는 것을 특징으로 하는 화상 회의에서 영상 처리를 위한 방법.
  6. 제1항에 있어서, 교정 단계에서,
    Figure 112019087276712-pct00037
    대화자(9)가 실제 카메라(1)를 보고 있는 경우에 최소한 대화자(9) 얼굴의 제1 깊이 맵(13)을 획득하고;
    Figure 112019087276712-pct00038
    대화자(9)가 대화자(9)의 회의 상대방의 영상을 표시하기 위해 배치되는 표시 화면을 보고 있는 경우에 최소한 대화자(9) 얼굴의 제2 깊이 맵(13)을 획득하며; 그리고
    Figure 112019087276712-pct00039
    제1 및 제2 깊이 맵(13)을 결부시키는 변형체로부터 변형 파라미터를 계산함으로써
    실제 카메라(1) 및 가상 카메라(3)의 위치 및 방향을 결부시키는 기하학적 변형체를 위한 변형 파라미터를 결정하는 단계를 포함하는 것을 특징으로 하는 화상 회의에서 영상 처리를 위한 방법.
  7. 제1항에 있어서, 교정 단계에서, 최종 영상(12)이 만족스러울 때까지 (2D) 변환 벡터를 조정하기 위해서 대화자(9)에게 최종 영상(12)을 표시하고 대화자(9)로부터 사용자 입력을 받아들임으로써, 원래의 영상(10)에서 대화자(9) 얼굴의 보정된 장면을 위치시키기 위해 2D 변환 벡터를 조정하는 단계를 포함하는 것을 특징으로 하는 화상 회의에서 영상 처리를 위한 방법.
  8. 제2항에 있어서, 하나 이상의 원래의 영상에서 인식된 얼굴 특징에 일반적인 3D 모델을 조정함으로써, 대화자(9) 얼굴의 3D 모델을 추정하는 단계를 포함하는 것을 특징으로 하는 화상 회의에서 영상 처리를 위한 방법.
  9. 제2항에 있어서, 대화자(9) 얼굴의 일반적인 3D 모델을 하나 이상의 원래의 영상에 그것을 조정함이 없이 사용하는 단계를 포함하는 것을 특징으로 하는 화상 회의에서 영상 처리를 위한 방법.
  10. 제2항에 있어서, 각 원래의 영상(10)에 대해, 대화자(9)의 얼굴을 포함하는 관련 깊이 맵(13)을 획득하고 그 깊이 맵(13)에 기초한 대화자(9) 얼굴의 3D 모델을 결정하는 단계를 포함하는 것을 특징으로 하는 화상 회의에서 영상 처리를 위한 방법.
  11. 제10항에 있어서, 각 깊이 맵(13)에서 대화자(9) 머리의 3D 위치를 추정하고 현재의 깊이 맵(13)에서 관찰되는 바와 같이 꼭지점들의 3D 위치를 적어도 하나의 선행하는 깊이 맵(13)에서 그들의 위치로부터 그리고 머리의 3D 위치 및 방향에서의 변화로부터 계산된 그들 위치의 예측과 결합함으로써, 일련의 깊이 맵(13)을 통해 얼굴 추적 꼭지점들의 3D 위치를 시간적으로 매끄럽게 하는 단계를 포함하는 것을 특징으로 하는 화상 회의에서 영상 처리를 위한 방법.
  12. 제10항에 있어서, 얼굴 추적자를 이용하여 대화자(9) 안구의 3D 위치를 식별하고, 안구의 모양을 구에 의해 근접하게 하며, 획득된 깊이 맵(13) 정보를 대신해서 이 근사치를, 눈의 위치에 있는 깊이 맵(13)에서, 이용하는 단계를 포함하는 것을 특징으로 하는 화상 회의에서 영상 처리를 위한 방법.
  13. 제10항에 있어서, 특히 라플라시안 평활화에 의해, 대화자(9)의 얼굴을 포함하는 깊이 맵(13)을 매끄럽게 하는 단계를 포함하는 것을 특징으로 하는 화상 회의에서 영상 처리를 위한 방법.
  14. 제10항 내지 제13항 중 한 항에 있어서, 그 경계에서 대화자(9)의 얼굴을 포함하는 깊이 맵(13)을 인위적으로 확대하며, 그리고/또는 깊이 맵(13) 내의 구멍을 채우는 단계를 포함하는 것을 특징으로 하는 화상 회의에서 영상 처리를 위한 방법.
  15. 적어도 하나의 실제 카메라(1)에 의해 캡쳐된 하나의 영상 또는 일련의 영상에서 대화자(9)의 시선을 보정하기 위한, 화상 회의에서 영상 처리를 위한 데이터 처리 시스템으로서, 대화자(9)의 영상을 얻기 위한 적어도 하나의 실제 카메라(1)를 포함하고, 제1항에 따른 방법을 실행하도록 프로그래밍 되는, 화상 회의에서 영상 처리를 위한 데이터 처리 시스템.
  16. 컴퓨터 프로그램을 부호화(encoding)하는 컴퓨터 판독가능한 프로그램 코드를 포함하는 비-일시적인 컴퓨터 판독가능한 매체로서, 컴퓨터에서 로딩되고 실행되는 경우에, 컴퓨터로 하여금 제1항에 따른 방법을 실행하도록 하는, 비-일시적인 컴퓨터 판독가능한 매체.
KR1020147024495A 2012-02-27 2012-11-13 시선 보정을 위한 화상 회의에서 영상 처리를 위한 방법 및 시스템 KR102054363B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP12001264 2012-02-27
EP12001264.6 2012-02-27
PCT/EP2012/004710 WO2013127418A1 (en) 2012-02-27 2012-11-13 Method and system for image processing in video conferencing for gaze correction

Publications (2)

Publication Number Publication Date
KR20150053730A KR20150053730A (ko) 2015-05-18
KR102054363B1 true KR102054363B1 (ko) 2019-12-11

Family

ID=47215489

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147024495A KR102054363B1 (ko) 2012-02-27 2012-11-13 시선 보정을 위한 화상 회의에서 영상 처리를 위한 방법 및 시스템

Country Status (5)

Country Link
US (1) US9684953B2 (ko)
EP (2) EP2820842A1 (ko)
JP (1) JP6234383B2 (ko)
KR (1) KR102054363B1 (ko)
WO (1) WO2013127418A1 (ko)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103489107B (zh) * 2013-08-16 2015-11-25 北京京东尚科信息技术有限公司 一种制作虚拟试衣模特图像的方法和装置
CN103646394B (zh) * 2013-11-26 2016-08-17 福州大学 一种基于Kinect摄像机的混合视觉***标定方法
US9958938B2 (en) * 2014-01-24 2018-05-01 Sony Corporation Gaze tracking for a mobile device
US9948911B2 (en) * 2014-09-05 2018-04-17 Qualcomm Incorporated Method and apparatus for efficient depth image transformation
US10008027B1 (en) 2014-10-20 2018-06-26 Henry Harlyn Baker Techniques for determining a three-dimensional representation of a surface of an object from a set of images
CN104504856A (zh) * 2014-12-30 2015-04-08 天津大学 基于Kinect及人脸识别的疲劳驾驶检测方法
US9300916B1 (en) 2015-02-10 2016-03-29 International Business Machines Corporation Natural gazes during online video conversations
US10225442B2 (en) * 2015-02-16 2019-03-05 Mediatek Inc. Electronic device and method for sensing air quality
RU2596062C1 (ru) 2015-03-20 2016-08-27 Автономная Некоммерческая Образовательная Организация Высшего Профессионального Образования "Сколковский Институт Науки И Технологий" Способ коррекции изображения глаз с использованием машинного обучения и способ машинного обучения
US10220172B2 (en) 2015-11-25 2019-03-05 Resmed Limited Methods and systems for providing interface components for respiratory therapy
US10321123B2 (en) 2016-01-05 2019-06-11 Reald Spark, Llc Gaze correction of multi-view images
EP3232368A1 (en) * 2016-04-14 2017-10-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Determining facial parameters
US10423830B2 (en) * 2016-04-22 2019-09-24 Intel Corporation Eye contact correction in real time using neural network based machine learning
US10664949B2 (en) 2016-04-22 2020-05-26 Intel Corporation Eye contact correction in real time using machine learning
KR102044003B1 (ko) * 2016-11-23 2019-11-12 한국전자통신연구원 영상 회의를 위한 전자 장치 및 그의 동작 방법
CN106652026A (zh) * 2016-12-23 2017-05-10 安徽工程大学机电学院 基于多传感器融合的三维空间自动标定的方法
CN106846324B (zh) * 2017-01-16 2020-05-01 河海大学常州校区 一种基于Kinect的非规则物体高度测量方法
WO2018141408A1 (en) * 2017-02-03 2018-08-09 Vestel Elektronik Sanayi Ve Ticaret A.S. IMPROVED METHOD AND SYSTEM FOR VIDEO CONFERENCES WITH HMDs
TWI672938B (zh) * 2017-03-31 2019-09-21 鈺立微電子股份有限公司 可校正遮蔽區的深度圖產生裝置
US10154176B1 (en) * 2017-05-30 2018-12-11 Intel Corporation Calibrating depth cameras using natural objects with expected shapes
WO2018225518A1 (ja) 2017-06-07 2018-12-13 ソニー株式会社 画像処理装置、画像処理方法、プログラム、およびテレコミュニケーションシステム
EP3665553B1 (en) 2017-08-08 2023-12-13 RealD Spark, LLC Adjusting a digital representation of a head region
CN109559349B (zh) * 2017-09-27 2021-11-09 虹软科技股份有限公司 一种用于标定的方法和装置
US11017575B2 (en) 2018-02-26 2021-05-25 Reald Spark, Llc Method and system for generating data to provide an animated visual representation
US11089265B2 (en) 2018-04-17 2021-08-10 Microsoft Technology Licensing, Llc Telepresence devices operation methods
CN108629756B (zh) * 2018-04-28 2021-06-25 东北大学 一种Kinectv2深度图像无效点修复方法
US10554921B1 (en) * 2018-08-06 2020-02-04 Microsoft Technology Licensing, Llc Gaze-correct video conferencing systems and methods
JPWO2020089971A1 (ja) * 2018-10-29 2021-02-15 有限会社 アドリブ 画像処理装置、方法、コンピュータプログラム
CN109544620B (zh) * 2018-10-31 2021-03-30 Oppo广东移动通信有限公司 图像处理方法和装置、计算机可读存储介质和电子设备
US10977767B2 (en) * 2018-11-28 2021-04-13 Adobe Inc. Propagation of spot healing edits from one image to multiple images
US11074733B2 (en) 2019-03-15 2021-07-27 Neocortext, Inc. Face-swapping apparatus and method
US11360555B2 (en) 2019-05-20 2022-06-14 Cyberlink Corp. Systems and methods for automatic eye gaze refinement
US11270464B2 (en) * 2019-07-18 2022-03-08 Microsoft Technology Licensing, Llc Dynamic detection and correction of light field camera array miscalibration
US11064154B2 (en) 2019-07-18 2021-07-13 Microsoft Technology Licensing, Llc Device pose detection and pose-related image capture and processing for light field based telepresence communications
US11553123B2 (en) 2019-07-18 2023-01-10 Microsoft Technology Licensing, Llc Dynamic detection and correction of light field camera array miscalibration
US11082659B2 (en) * 2019-07-18 2021-08-03 Microsoft Technology Licensing, Llc Light field camera modules and light field camera module arrays
CN112307848B (zh) * 2019-08-01 2024-04-30 惠普发展公司,有限责任合伙企业 检测视频会议中的欺骗说话者
US10893231B1 (en) 2020-04-14 2021-01-12 International Business Machines Corporation Eye contact across digital mediums
CN112070052A (zh) * 2020-09-16 2020-12-11 青岛维感科技有限公司 一种间距监测方法、装置、***及存储介质
EP3993410A1 (en) * 2020-10-28 2022-05-04 Ningbo Geely Automobile Research & Development Co., Ltd. A camera system and method for generating an eye contact image view of a person
KR20220074092A (ko) * 2020-11-27 2022-06-03 삼성전자주식회사 화상 회의를 제공하는 전자 장치 및 그 방법
WO2022115119A1 (en) * 2020-11-30 2022-06-02 Google Llc Three-dimensional (3d) facial feature tracking for autostereoscopic telepresence systems
WO2022261856A1 (zh) * 2021-06-16 2022-12-22 华为技术有限公司 图像处理方法、装置及存储介质
WO2021207747A2 (en) * 2021-08-10 2021-10-14 Futurewei Technologies, Inc. System and method for 3d depth perception enhancement for interactive video conferencing
US20230177879A1 (en) * 2021-12-06 2023-06-08 Hewlett-Packard Development Company, L.P. Videoconference iris position adjustments

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005117106A (ja) * 2003-10-02 2005-04-28 Nec Corp 撮像機能付携帯電話機とその制御方法及び制御プログラム
US20110267348A1 (en) 2010-04-29 2011-11-03 Dennis Lin Systems and methods for generating a virtual camera viewpoint for an image

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0690445A (ja) * 1992-09-09 1994-03-29 Hitachi Ltd 映像入出力装置
US5500671A (en) * 1994-10-25 1996-03-19 At&T Corp. Video conference system and method of providing parallax correction and a sense of presence
JPH09305798A (ja) * 1996-05-10 1997-11-28 Oki Electric Ind Co Ltd 画像表示装置
KR100307854B1 (ko) * 1999-11-10 2001-11-02 전병우 단일카메라를 이용한 시선 맞춤 보정 방법 및 그 장치
GB2378337B (en) * 2001-06-11 2005-04-13 Canon Kk 3D Computer modelling apparatus
US7174050B2 (en) * 2002-02-12 2007-02-06 International Business Machines Corporation Space-optimized texture maps
US6771303B2 (en) * 2002-04-23 2004-08-03 Microsoft Corporation Video-teleconferencing system with eye-gaze correction
TW200502874A (en) 2002-12-11 2005-01-16 Koninkl Philips Electronics Nv Method and apparatus for correcting a head pose in a video phone image
GB0507204D0 (en) * 2005-04-08 2005-05-18 Leuven K U Res & Dev Maxillofacial and plastic surgery
US8106924B2 (en) * 2008-07-31 2012-01-31 Stmicroelectronics S.R.L. Method and system for video rendering, computer program product therefor
KR20110088361A (ko) * 2010-01-26 2011-08-03 한국전자통신연구원 정면 얼굴 영상 생성 장치 및 방법
RU2565482C2 (ru) * 2010-03-22 2015-10-20 Конинклейке Филипс Электроникс Н.В. Система и способ для отслеживания точки взгляда наблюдателя
WO2014055058A1 (en) * 2012-02-15 2014-04-10 Thomson Licensing Video conference system and method for maintaining participant eye contact

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005117106A (ja) * 2003-10-02 2005-04-28 Nec Corp 撮像機能付携帯電話機とその制御方法及び制御プログラム
US20110267348A1 (en) 2010-04-29 2011-11-03 Dennis Lin Systems and methods for generating a virtual camera viewpoint for an image

Also Published As

Publication number Publication date
US20150009277A1 (en) 2015-01-08
EP2820842A1 (en) 2015-01-07
US9684953B2 (en) 2017-06-20
JP2015513833A (ja) 2015-05-14
EP3429195A1 (en) 2019-01-16
JP6234383B2 (ja) 2017-11-22
WO2013127418A1 (en) 2013-09-06
KR20150053730A (ko) 2015-05-18

Similar Documents

Publication Publication Date Title
KR102054363B1 (ko) 시선 보정을 위한 화상 회의에서 영상 처리를 위한 방법 및 시스템
Kuster et al. Gaze correction for home video conferencing
US11960639B2 (en) Virtual 3D methods, systems and software
US10504274B2 (en) Fusing, texturing, and rendering views of dynamic three-dimensional models
US11995902B2 (en) Facial signature methods, systems and software
US8928659B2 (en) Telepresence systems with viewer perspective adjustment
TWI712918B (zh) 擴增實境的影像展示方法、裝置及設備
KR101560508B1 (ko) 3차원 이미지 모델 조정을 위한 방법 및 장치
WO2018188277A1 (zh) 视线校正方法、装置、智能会议终端及存储介质
Giger et al. Gaze correction with a single webcam
KR102067823B1 (ko) 비디오 영상기반 2d/3d ar 실감체험 방법 및 장치
CN114219878A (zh) 虚拟角色的动画生成方法及装置、存储介质、终端
US20200151427A1 (en) Image processing device, image processing method, program, and telecommunication system
US20230024396A1 (en) A method for capturing and displaying a video stream
JPH11175762A (ja) 光環境計測装置とそれを利用した仮想画像への陰影付与装置及び方法
CN117278731B (zh) 多视频与三维场景融合方法、装置、设备及存储介质
US20150116202A1 (en) Image processing device and method, and program
US20230152883A1 (en) Scene processing for holographic displays
US20230122149A1 (en) Asymmetric communication system with viewer position indications
CN109961395B (zh) 深度图像的生成及显示方法、装置、***、可读介质
WO2022180630A1 (en) Camera capture and communications system
WO2022036338A2 (en) System and methods for depth-aware video processing and depth perception enhancement
CN113632458A (zh) 广角相机透视体验的***、算法和设计
Weigel et al. Establishing eye contact for home video communication using stereo analysis and free viewpoint synthesis
GB2548080A (en) A method for image transformation

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant