KR101697495B1

KR101697495B1 - 카메라 흔들림을 검출하는 화상 회의 서버

Info

Publication number: KR101697495B1
Application number: KR1020157016412A
Authority: KR
Inventors: 미하이 파가다르 코스마; 폴 앙리 드’오비니 드’에스미아즈
Original assignee: 알까뗄 루슨트
Priority date: 2012-11-29
Filing date: 2013-11-25
Publication date: 2017-01-18
Also published as: JP6159816B2; US20150304606A1; WO2014082941A1; JP2016503631A; KR20150102985A; EP2739044B1; CN104813656A; EP2739044A1; US9762856B2; CN104813656B

Abstract

화상 회의 서버(100)는 복수의 화상 클라이언트들(101)의 카메라들에 의해 캡쳐된 화상 스트림들을 수신하고 조합하며 이들 화상 클라이언트들(101)로의 전달 및 이들 화상 클라이언트들(101)에 의한 플레이-아웃(play-out)을 위해 몰입형 화상 스트림들(124, 125)을 생성한다. 화상 회의 서버(100)에서의 컷-아웃(cut-out) 모듈(102)은 회의 클라이언트(101)로부터 수신된 화상 프레임(121)에 대한 전경 마스크(122)를 생성한다. 카메라 흔들림 검출기(103)는 화상 프레임(121)에서 피쳐(feature)들의 서브세트에 대한 변위 벡터(123)를 결정한다. 변위 벡터(123)는 배경 마스크와 동일한 회의 클라이언트(101)로부터 수신된 이전 화상 프레임에 대한 이전 배경 마스크 사이의 피쳐들의 서브세트의 2차원 움직임을 표현한다. 카메라 흔들림 정정 모듈(102, 104)은 회의 클라이언트들(101)을 위한 몰입형 화상 스트림들(124, 125)에서의 이용 전에 상기 변위 벡터(123)에 상반되는 변위를 전경 마스크(122)에 적용하고, 시그널링 유닛(104)은 카메라가 흔들거리고 있는 회의 클라이언트(101)에 전달된 몰입형 화상 스트림(124)에 흔들림 표시(311, 312)를 생성한다.

Description

카메라 흔들림을 검출하는 화상 회의 서버{A VIDEOCONFERENCING SERVER WITH CAMERA SHAKE DETECTION}

본 발명은 일반적으로 몰입형 화상 회의(immersive video conferencing) 즉, 회의에 참여하는 복수의 클라이언트들로부터의 화상 스트림들이 모든 참여자들의 가상 존재를 단일 회의 룸으로 확립하기 위해 처리되어 조합되는 화상 회의에 관한 것이다. 전형적으로, 각각의 화상 클라이언트는 그것의 카메라를 통해 화상 스트림을 생성한다. 전경 추출을 통해, 배경 및 전경은 상이한 화상 스트림들에서 분리되고, 상이한 클라이언트들의 전경 이미지들은 각각의 클라이언트에 의한 플레이-아웃(play-out)을 위해 몰입형 화상 스트림들을 생성하도록 조합된다. 전형적으로, 몰입형-화상 스트림들은 개인화되고 각각의 이용자에 대해, 모든 참여자들이 몰입형 스트림이 개인화되는 이용자의 관점에서 보여진 단일 회의 룸 또는 테이블을 공유하는 것과 같이 룩-앤드-사운드(look-and-sound) 환경을 생성한다. 개별적인 이용자에 대해 생성된 몰입형 화상 스트림에서, 그 이용자의 그림자는, 가상 회의 룸 또는 테이블이 그 이용자 뒤의 관점으로부터 뷰잉(viewing)되는 것처럼 통합될 수 있다. 특히, 본 발명은 이러한 몰입형 화상 회의 시스템들을 개선하기 위해 카메라 흔들림 또는 카메라 지터(jitter) 현상을 검출하고 보상하는 것에 관한 것이다.

카메라 흔들림 또는 카메라 지터의 문제점은 예를 들면, 마이크로소프트 화상 키넥트, 또는 이동거리 시간차(Time-Of-Flight; TOF) 카메라들에 기초한 시스템들과 같은, 클라이언트 측에서의 전용 화상 캡쳐 디바이스들의 이용을 통해 완화될 수 있다. 그러나, 이러한 시스템들은 휴대용이 아니고 그들은 몰입형 화상 회의에 대한 유비쿼터스 액세스 즉, 어느 때 어느 곳에서든지 액세스를 가능하게 하지 않는 전용 셋업 절차를 수반한다.

모바일 디바이스의 이용을 통해, 화상 회의에 대한 유비쿼터스 액세스가 가능해졌다. 그러나, 화상 회의에서의 모바일 디바이스들의 증가된 이용을 통해, 카메라 흔들림 또는 카메라 지터 문제점에 접하게 되고, 상기 카메라 흔들림 또는 카메라 지터 문제점은 일반적으로 전경 추출 처리의 출력 품질, 및 결과적으로 또한 추출된 전경 이미지들로부터 생성되는 몰입형 화상 스트림들의 품질을 저하시킨다. 따라서, 적절한 정정 및/또는 방지 조치들을 취하여 몰입형 화상의 품질을 개선하는 것을 가능하게 하기 위해 카메라 흔들림의 신뢰가능한 검출이 바람직하다.

해결책의 하나의 범주는 카메라 흔들림을 검출하기 위해 특정 모바일 폰들, 태블릿-PC들, 등에 존재하는 가속도계들과 같은 디바이스 특정 하드웨어를 이용한다. 그러나, 이들 해결책들은 전용 하드웨어의 존재에 의존하고 따라서, 디바이스에 상관없지(device-agnostic) 않다. 게다가, 이들 해결책들은 예를 들면, 랩톱들과 같은, 이러한 하드웨어가 전형적으로 구비되지 않은 휴대용 디바이스들의 범위가 포함되지 않게 한다.

해결책들의 또 다른 범주는 이미지들을 캡쳐하는 클라이언트 디바이스에서의 카메라 흔들림을 검출하고 정정하는 소프트웨어 알고리즘들에 의존한다. 이러한 알고리즘들의 예들은 예를 들면, 저자 P. O'Donovan으로부터의 논문 "이미지 시퀀스들을 안정화하기 위한 광학 흐름의 이용(Using Optical Flow for Stabilizing Image Sequences)", 및 저자들(K. Pauwels, M. Lappe, 및 M. M. Van Hulle)로부터의 논문 "짧은 이미지 시퀀스들의 안정화를 위한 메커니즘으로서의 고정(Fixation as a Mechanism for Stabilization of Short Image Sequences)"에서 설명된다. 이들 알고리즘들이 클라이언트 측에서의 화상 스트림 처리를 수행하기 때문에, 이들 해결책들은 디바이스에 상관없지 않고 따라서, 모든 디바이스들에 걸친 유비쿼터스의, 코히어런트(coherent) 화상 회의 경험을 보장할 수 없다. 게다가, 이들 알고리즘들은 전형적으로 회의 참여자들의 클라이언트 디바이스들에서 상당한 처리 전력 및 메모리 리소스들을 점유한다.

본 발명의 목적은 기존의 해결책들의 상기 언급된 단점들을 해결하는 몰입형 화상 회의를 위한 방법 및 도구를 제공하는 것이다. 특히, 본 발명의 목적은 회의 참여자들에 의해 이용된 클라이언트 디바이스들과 상관없는 방식으로 카메라 흔들림을 검출하고, 시그널링(signalling)하고 정정함으로써 몰입형 화상 회의의 전체적인 품질을 개선하는 것을 허용하고, 처리 전력 및 메모리의 이용에 관해 제한된 요구조건들로 구현될 수 있는 몰입형 화상 회의 해결책을 개시하는 것이다.

본 발명에 따라, 상기 정의된 목적들은 청구항 제 1 항에 의해 정의된 바와 같은 몰입형 화상 회의를 위한 화상 회의 서버에 의해 실현되고, 화상 회의 서버는 복수의 화상 클라이언트들의 카메라들에 의해 캡쳐된 화상 스트림들을 수신하고 조합하도록 및 복수의 화상 클라이언트들로의 전달 및 상기 복수의 화상 클라이언트들에 의한 플레이-아웃을 위해 몰입형 화상 스트림들을 생성하도록 적응되고, 화상 회의 서버는:

- 회의 클라이언트로부터 수신된 화상 프레임에 대한 전경 마스크를 생성하도록 적응된 컷-아웃(cut-out) 모듈;

- 상기 화상 프레임에서 피쳐(feature)들의 서브세트에 대한 변위 벡터를 결정하도록 적응된 카메라 흔들림 검출기로서, 변위 벡터는 전경 마스크를 반전시킴으로써 얻어진 배경 마스크와 회의 클라이언트로부터 수신된 이전 화상 프레임에 대해 생성된 이전 배경 마스크 사이의 피쳐들의 서브세트의 2차원 움직임을 표현하는, 상기 카메라 흔들림 검출기;

- 몰입형 화상 스트림들에서의 이용 전에 변위 벡터에 상반되는 변위를 상기 전경 마스크에 적용하고 그에 의해 회의 클라이언트의 카메라 흔들림 효과들을 정정하도록 적응된 카메라 흔들림 정정 모듈; 및

- 회의 클라이언트에 전달된 몰입형 화상 스트림에 흔들림 표시를 생성하도록 적응된 시그널링 유닛을 포함한다.

따라서, 본 발명은 서버-측 구현되어, 상기 서버-측이 화상 스트림을 캡쳐하기 위해 이용되는 클라이언트 디바이스들에 상관없음을 보장한다. 본 발명은 예를 들면, 클라우드 환경 즉, 화상 회의에 관여된 당사자들과 상이한, 제 3 자에 의해 동작되고 유지되는 원격 저장 및 처리 환경에서의 처리기에서 구동하는 소프트웨어 프로그램으로서 구현될 수 있다. 본 발명은 몰입형 화상 회의 시스템에서 이용가능한 기술 즉, 전경 추출을 추가로 이용한다. 본 발명은 사실 클라이언트로부터 수신된 화상 스트림들에서 배경 및 전경을 분리시키는 컷-아웃 모듈에 의존한다. 본 발명은 그 다음, 배경에서 피쳐들의 서브세트의 변위를 정량화함으로써 화상 스트림의 배경에서의 글로벌 움직임을 컴퓨팅한다. 카메라 흔들림의 부재 시에, 배경은 안정적이어야 하고 배경에서의 피쳐들의 변위는 0에 가까워야 한다. 반대로 변위가 특정 임계치를 초과하는 크기를 가지면, 본 발명은, 카메라 흔들림 현상이 검출됨을 가정한다. 서버는 그 다음, 클라이언트 디바이스의 이용자가 방지 조치들을 취하는 것을 가능하게 하기 위해 흔들거리고 있는 카메라를 갖는 상기 클라이언트 디바이스에 카메라 흔들림을 시그널링할 것이다. 시스템은 변위를 화상 스트림의 전경 이미지들에 적용함으로써 정정 조치들을 추가로 취할 것이고, 여기서 이들 전경 이미지들이 다른 클라이언트들에 대해 생성되는 몰입형 화상 스트림들에서 이용되기 전에, 흔들림 현상이 검출되었다. 요약하면, 본 발명은 이용자들이 결국 원하지 않는 카메라 흔들림 현상들을 인식하게 하고 본 발명은 추출된 전경 이미지들에서의 검출된 흔들림 현상들에 대해 정정 조치들을 취한다. 이 방식으로, 본 발명은 이미지들을 캡쳐하기 위해 이용된 클라이언트 디바이들의 유형에 상관없이 그리고 이러한 클라이언트 디바이스들에서 처리 및 저장 리소스들의 이용에 악영향을 미치지 않고, 몰입형 화상 회의의 품질에 상당히 기여한다.

청구항 제 2 항에 의해 정의된, 본 발명에 따른 화상 회의 서버의 바람직한 일 실시예에서, 카메라 흔들림 검출기는:

- 화상 프레임 및 이전 화상 프레임에서 피쳐들의 세트를 선택하기 위한 화상 스트림 처리기;

- 화상 프레임의 배경 마스크에 및 이전 프레임의 이전 배경 마스크에 속하는 피쳐들의 서브세트를 얻기 위해 피쳐들의 세트를 필터링하기 위한 필터링 로직; 및

- 피라미드형 루카스-카나데(Lukas-Kanade) 알고리즘을 통해 피쳐들의 서브세트에 대한 드문 광학적 흐름을 컴퓨팅하기 위한 처리 로직을 포함한다.

사실, 본 발명에 따른 카메라 흔들림 검출기는 이미지 배경에 속하는 피쳐들의 서브세트를 선택하고 피라미드형 루카스-카나데(LK) 알고리즘에 따른 드문 광학적 흐름 즉, 하나의 프레임으로부터 또 다른 프레임으로의 이들 피쳐들의 변위를 컴퓨팅한다. 이것은 피쳐들의 서브세트에 대한 속도 벡터들의 세트를 야기하고, 글로벌 변위 벡터 즉, 2개의 프레임들 사이의 카메라 흔들림을 정량화하는 2차원 움직임은 피쳐들의 서브세트로부터 다양한 통계 방법들을 통해 계산될 수 있다.

청구항 제 3 항에 의해 정의된, 본 발명에 따른 화상 회의 서버의 또 다른 양태에 따라, 카메라 흔들림 검출기는:

- 통계 평균화를 통해 피쳐들의 서브세트에 대한 드문 광학적 흐름으로부터 변위 벡터를 형성하는 움직임 크기 및 움직임 방향을 계산하기 위한 통계 로직을 포함한다.

사실, 배경에서의 피쳐들의 서브세트에 대해 컴퓨팅된 속도 벡터들의 평균화를 통해, 카메라 흔들림을 정량화하는 크기 및 배향 또는 방향이 결정될 수 있다. 평균 값, 중간값, 가중 합, 극값, 등과 같은 몇몇 평균화 기술들이 적용될 수 있다.

청구항 제 4 항에 의해 정의된, 본 발명에 따른 화상 회의 서버의 선택적 양태에 따라, 카메라 흔들림 검출기는:

- 피쳐들의 서브세트에서의 각각의 피쳐에 대해, 드문 광학적 흐름의 크기를 미리 결정된 임계치와 비교하도록 구성되고, 드문 광학적 흐름의 크기가 미리 결정된 임계치 미만일 때 변위 벡터를 계산하는 것으로부터 피쳐를 제거하도록 구성된 처리 로직을 추가로 포함한다.

따라서, 본 발명에 따른 카메라 흔들림 검출기는 카메라 흔들림 크기 및 우세 방향(dominant direction)을 정량화하기 위해 이용될 피쳐들을 바람직하게 필터링한다. 피쳐의 변위가 크기 단위의 특정 임계치 미만으로 유지되면, 그것은 잡음으로 고려되고 따라서, 또 다른 계산으로부터 제거되는데, 이는 그것이 글로벌 변위 벡터의 추정으로 에러들을 유발할 것이기 때문이다. 따라서, 카메라 흔들림을 검출하기 위해 이용된 배경 피쳐들을 필터링함으로써, 정확도 및 신뢰도가 개선된다.

청구항 제 5 항에 의해 정의된, 본 발명에 따른 화상 회의 서버의 바람직한 일 실시예에서, 카메라 흔들림 검출기는:

- 피쳐들의 서브세트의 드문 광학적 흐름의 방향에 따라 상기 피쳐들의 서브세트에서의 각각의 피쳐를 각각이 360도/n의 범위를 커버하는 n개의 히스토그램 빈(bin)들의 제 1 세트 중 제 1 빈에 및 각각이 360도/n의 범위를 커버하는 n개의 히스토그램 빈들의 제 2 세트 중 제 2 빈에 할당하도록 구성된 처리 로직으로서, n은 양의 정수 값이고, n개의 빈들의 제 2 세트는 n개의 빈들의 제 1 세트에 대해 180도/n로 회전되는, 상기 처리 로직;

- n개의 빈들의 제 1 세트 및 n개의 빈들의 제 2 세트 중에서 우세 빈을 선택하도록 구성된 처리 로직으로서, 상기 우세 빈은 피쳐들의 서브세트로부터 가장 많은 양의 피쳐들을 포함하는, 상기 처리 로직; 및

- 변위 벡터를 계산하는 것으로부터 우세 빈에 속하지 않은 모든 피쳐들을 제거하도록 구성된 처리 로직을 추가로 포함한다.

사실, 카메라 흔들림의 우세 방향을 결정하기 위해, n개의 빈들의 2개의 히스토그램들이 고려될 수 있다. 이들 빈들에서, 서브세트의 피쳐들은 그들의 변위의 배향에 따라 그룹핑(grouping)된다. 각각의 빈은 360°/n의 범위를 커버한다. 제 1 히스토그램은 예를 들면, 0°에서 시작할 것이다. n개의 빈들의 제 2 히스토그램은 제 1 빈에 대해 180°/n로 회전될 것이다. 2개의 히스토그램들 중에서 가장 큰 수의 피쳐들을 포함하는 빈이 선택된다. 이 빈에 속하지 않은 피쳐들은 우세 방향 계산으로부터 제거된다. 제 2 히스토그램은, 우세 방향이 2개의 빈들 사이의 경계와 일치하지 않을 것임을 보장하는 것이 필요하다. 다시, 빈들의 2개의 히스토그램들에 기초하여 우세 방향 계산을 위해 이용되는 피쳐들을 필터링하기 위한 메커니즘은 본 발명의 정확도 및 신뢰도를 증가시킨다.

청구항 제 1 항에 의해 정의된 바와 같은 화상 회의 서버에 더하여, 본 발명은 또한 청구항 제 6 항에 의해 정의된 바와 같은 화상 회의 서버에서의 카메라 흔들림 검출을 위한 대응하는 방법에 관한 것이고, 화상 회의 서버는 복수의 화상 클라이언트들의 카메라들에 의해 캡쳐된 화상 스트림들을 수신하고 조합하도록 및 복수의 화상 클라이언트들로의 전달 및 상기 복수의 화상 클라이언트들에 의한 플레이-아웃을 위해 몰입형 화상 스트림들을 생성하도록 적응되고, 방법은:

- 회의 클라이언트로부터 수신된 화상 프레임에 대한 전경 마스크를 생성하는 단계;

- 화상 프레임에서 피쳐들의 서브세트에 대한 변위 벡터를 결정하는 단계로서, 변위 벡터는 전경 마스크를 반전시킴으로써 얻어진 배경 마스크와 회의 클라이언트로부터 수신된 이전 화상 프레임에 대해 생성된 이전 배경 마스크 사이의 피쳐들의 서브세트의 2차원 움직임을 표현하는, 상기 변위 벡터를 결정하는 단계;

- 몰입형 화상 스트림들에서의 이용 전에 변위 벡터에 상반되는 변위를 상기 전경 마스크에 적용하는 단계로서, 그에 의해 상기 회의 클라이언트의 카메라 흔들림 효과들을 정정하는, 상기 적용하는 단계; 및

- 회의 클라이언트에 전달된 몰입형 화상 스트림에 흔들림 표시를 생성하는 단계를 포함한다.

본 발명은 또한 방법을 실행하기 위한 수단을 포함하는, 청구항 제 7 항에 의해 정의된 바와 같은 대응하는 데이터 처리 시스템에 관한 것이다.

본 발명은 추가로 방법을 수행하도록 적응된 소프트웨어 코드를 포함하는, 청구항 제 8 항에 의해 정의된 바와 같은 대응하는 컴퓨터 프로그램, 및 컴퓨터 프로그램을 포함하는, 청구항 제 9 항에 의해 정의된 바와 같은 컴퓨터 판독가능한 저장 매체에 관한 것이다.

도 1은 본 발명에 따른 화상 회의 서버(100)의 일 실시예의 기능 블록.
도 2는 본 발명의 일 실시예에서의 카메라 흔들림 결정을 위해 이용될 피쳐들의 서브세트를 필터링하기 위한 히스토그램들의 이용을 도시한 도면.
도 3은 본 발명의 일 실시예에서의 흔들림 표시를 통한 카메라 흔들림의 시그널링을 도시한 도면.

도 1은 몰입형 화상 회의 서버(100)에 접속된, 화상 클라이언트(101)(클라이언트1)를 보여준다. 몰입형 화상 회의 서버(100)는 예를 들면, 클라우드 환경에서 구동하는 즉, 시스템을 이용하는 클라이언트들과 상이한, 제 3 자에 의해 호스팅(hosting)되고 유지되는 처리 및 메모리 리소스들을 이용하는 소프트웨어 애플리케이션일 수 있다.

몰입형 화상 회의 서버(100)는 화상 스트림 송수신 채널들(111, 112, 113, 11i)(비디오스트림1, 비디오스트림2, 비디오스트림3, 비디오스트림i), 컷-아웃 모듈(102)(CM), 흔들림 검출기(103)(SD), 및 장면 구성기(104)(SC)를 포함한다. 컷-아웃 모듈(102), 흔들림 검출기(103) 및 장면 구성기(104)는 공동으로 몰입형 화상 회의 플랫폼의 화상 처리 파이프라인을 형성한다.

화상 스트림 송수신 채널(111)은 화상 회의 클라이언트(101)에 통합되거나 접속된 카메라에 의해 캡쳐된 화상 스트림을 수신한다. 화상 스트림 송수신 채널(111)은 화상 스트림(121)을 컷-아웃 모듈(102), 흔들림 검출기(103) 및 장면 구성기(104)에 전달한다. 컷-아웃 모듈(102)은 최신의 전경 추출 기술을 이용하여 각각의 화상 프레임에서의 배경으로부터 전경을 분리한다. 전경 마스크(122)가 본 발명에서의 핵심 요소를 표현하는 흔들림 검출기(103)에 제공된다. 흔들림 검출기(103)는 컷-아웃 모듈(102)로부터 수신된 전경 마스크(122) 및 화상 회의 클라이언트(101)로부터 발생하는 원래의 화상 프레임(121)을 이용하여 카메라 흔들림 방향 및 크기를 표현하는 2차원 이미지 좌표들에서의 변위 벡터를 독립변수(argument)로서 수반하는 흔들림 검출 결과를 생성한다.

본 발명의 기초가 되는 원리들이 3차원 카메라 흔들림 검출에 적용될 수 있을지라도, 흔들림 검출기(103)가 바람직하게, 카메라 흔들림 정정 알고리즘을 단순하기 위해 그리고 로버스트니스(robustness) 및 응답 시간을 증가시키기 위해 이미지의 X 및 Y 축들에 따른, 즉 2차원들의 카메라 흔들림 이동들을 단지 다룸이 주목된다.

흔들림 검출기(103)는 카메라 흔들림 변위 벡터를 결정하기 위해 다음 알고리즘을 구현한다. 현재 화상 프레임(F_t) 및 이전 화상 프레임(F_t _-1)으로부터 시작하면, 드문 광학적 흐름은 피라미드형 루카스-카나데(LK) 접근법을 이용하여 컴퓨팅된다. 광학적 흐름 추정의 신뢰도 및 정확도를 증가시키기 위해 그리고 드문 피쳐들의 더 큰 세트를 얻기 위해, 캐니 연산자(Canny operator)를 적용함으로써 얻어진 광학적 흐름이 프레임들의 에지 이미지들(

및

) 사이에서 계산된다. 스퓨리어스 피쳐(spurious feature)들을 제거하기 위해, LK 알고리즘에 의해 생성된 결과적인 드문 피쳐 세트는 각각의 피쳐(f)에 대해, 그 지점에서의 절대 프레임 차가 주어진 임계치(Tdiff)를 초과해야 한다는 조건:

을 부과함으로써 필터링된다.

결과는 하나의 프레임으로부터 또 다른 프레임까지 컴퓨팅된 드문 피쳐들의 변위 벡터들과 함께 상기 드문 피쳐들을 포함하는 피쳐 세트(

)이다.

컷-아웃 모듈(102)에 의해 생성된 전경 마스크(12)는 배경 마스크를 얻기 위해 흔들림 검출기(103)에 의해 반전된다. 이 배경 마스크는 이미지 배경에 속하는 피쳐들의 서브세트(

)를 생성하기 위해 피쳐 세트()에 적용된다. 이후에, 흔들림 검출기(103)는 장면 구성기(104)로 포워딩(forwarding)되고 컷-아웃 모듈(102)에 피드백되는 2차원 벡터(123)의 형태로 배경에서 글로벌 움직임을 결정하기 위해 이미지 통계들을 피쳐들의 서브세트(

)에 적용한다.

카메라 흔들림으로 인한 단지 피쳐들의 이동을 고려하기 위해, 임계치(T_v)는 각각의 피쳐의 변위의 크기에 적용된다. 피쳐의 변위의 크기가 임계치(T_v) 미만이면, 그것이 글로벌 변위 벡터의 추정에서 에러를 유발할 것이기 때문에 잡음으로서 고려되고 제거될 것이다.

또한, n개의 빈들 각각을 갖는 도 2에서의 2개의 히스토그램들(히스토그램1 및 히스토그램2)은 그들이 배향에 따라 피쳐들을 그룹핑하기 위해 이용된다. 각각의 빈 즉, 히스토그램1에 대한 211...21N 및 히스토그램2에 대한 221...22n은 360°/n의 범위를 커버한다. 제 1 히스토그램은 0°에서 시작하는 반면에, 제 2 히스토그램은 제 1 히스토그램에 대해 180°/n의 각으로 회전된다. 피쳐들 예를 들면, 도 2에서의 201은 2개의 프레임들 사이의 그들의 개별적인 변위의 배향에 따라 히스토그램1에서의 빈 및 히스토그램2에서의 빈에 모두 할당된다. 히스토그램들 둘 모두 중에서 최대 수의 피쳐들을 갖는 빈이 선택되고 이 빈에 속하지 않은 모든 피쳐들은 글로벌 변위 계산으로부터 제거된다. 도 2에서, 가장 큰 수의 피쳐들을 포함하는 빈은 22n이다. 피쳐들의 이 히스토그램에 기초한 필터링은 광학 흐름 추정 에러들로 인한 스퓨리어스 움직임이 제거되고 우세 방향이 선택됨을 보장한다. 서로에 대해 회전된 2개의 히스토그램들의 이용은 우세 방향이 2개의 빈들 사이의 경계와 일치하지 않고, 그 결과로 이 우세 방향을 따라 변위된 피쳐들이 2개의 빈들에 걸쳐 확산될 것이고 가장 큰 양의 피쳐들을 갖는 빈을 찾는 알고리즘이 완전하게 상이한 빈 및 잘못된 우세 방향으로 끝날 수 있음을 보장한다.

이후에, 흔들림 검출기(103)는 나머지 피쳐들에 걸친 평균 배향(θ)을 계산한다. 배향의 표준 편차(

)는, 이 결과가 추출된 전경 이미지에서 카메라 흔들림 효과를 정정하기 위해 컷아웃 알고리즘에 의해 이용될 수 있는지를 추정하는 것을 가능하게 한다. 표준 편차(

)가 미리 정의된 차이(

)보다 적으면, 클라이언트에서의 카메라 흔들림 효과들의 결과로서의 변위는 충분한 정확도로 결정된다. 피쳐 변위들의 평균 각(θ) 및 평균 크기는 그 다음, 2차원 변위 벡터를 표현하고, 상기 2차원 변위 벡터는 다른 클라이언트들에 대해 장면 구성기(104)에 의해 생성된 몰입형 화상 스트림들(125)에서 및 흔들림 카메라를 갖는 클라이언트(101)에 대해 장면 구성기(104)에 의해 생성될 몰입형 화상 스트림(124)에서 이용될 전경 이미지에서의 카메라 흔들림 효과를 정정하기 위해 컷-아웃 모듈에 의해 신뢰가능하게 이용될 수 있다.

흔들림 검출기(103)는 변위 벡터 정보(123)를 컷-아웃 모듈(102)로 전송한다. 변위 벡터의 크기가 애플리케이션 임계치(T_shake)를 초과하면, 정정 조치들이 안정적인 컷-아웃 전경 마스크를 얻기 위해 적용된다. 이들 정정 조치들은 변위 벡터와 동일한 크기 그러나, 반대 방향 즉, θ+180°로 배향된 변위를 이용하는 현재 전경 마스크에서의 각각의 픽셀의 병진을 야기한다.

게다가, 흔들림 검출기(103)는 변위 벡터 정보(123)를 장면 구성기(104)로 또한 전송한다. 장면 구성기(104)는 몰입형 장면을 생성할 책임이 있고, 여기서 가각의 이용자의 컷-아웃은 자연적 상호작용의 느낌 및 공통 가상 공간의 공유를 자극하는(stimulating) 방식으로 통합된다. 장면은 화상 회의에 대한 각각의 참여자를 위해 커스터마이징(customizing)된다. 도 3은 예를 들면, 제 1 참여자의 관점으로부터의 장면을 보여주고, 도 3에서 그 자신의 컷-아웃(301)은 그림자로서 나타나며, 제 2 참여자의 컷-아웃(302) 및 제 2 참여자의 컷-아웃(303)은 자연스러운 대화에서와 같이 그와 대면한다. 제 1 참여자는 예를 들면, 도 1에서의 화상 클라이언트(101)의 이용자일 수 있다.

카메라 흔들림이 클라이언트(101)에 대해 검출되었음을 고려하면, 장면 구성기(104)는 현상의 존재를 시그널링하기 위해 도 3에서의 시각적 흔들림 표시자(312)를 참여자의 그림자 표현으로 삽입할 것이다. 흔들림 표시자(312)는 종래의 다이얼로그 박스들 또는 통보 메시지들이 구현된 클라이언트-측에 의존해야 하지 않고 메시지를 이용자에 전달하기 위해, 참여자의 그림자 경계(310)의 변위 벡터의 방향에 따른 감지하기 힘든 위글 효과(wiggle effect)를 동반한다.

부가적으로, 장면 구성기(104)는 참여자의 컷-아웃을 안정화하기 위해, 정정된 컷-아웃 마스크를 적용하기 전에 컷-아웃 모듈(102)과 동일한 병진을 화상 프레임(121)에 적용한다. 이 접근법의 장점은 장면 구성기(104)가 새로운 효과들 서버-측으로 업데이트될 수 있다는 것이고, 상기 새로운 효과들은 클라이언트들이 렌더링이 어떻게 수행되어야하는지를 알 필요 없이 상기 클라이언트들에 의해 디스플레이될 것이라는 점이다. 이것은 처리 전력을 거의 요구하지 않고 예를 들면, 브라우저에 호스팅될 수 있는 씬 클라이언트(thin client)들을 가능하게 한다.

본 발명에 따른 방법은 전형적으로 예를 들면, 클라우드 서비스 운영자에 의한 제어 하에서 데이터 처리 시스템 또는 컴퓨팅 디바이스 상에 컴퓨터-구현될 것이다. 본 발명에 따라 동작되는 데이터 처리 시스템 또는 컴퓨팅 디바이스는 당업자들에 의해 이해될 바와 같이, 워크스테이션, 서버, 랩톱, 데스크톱, 핸드-헬드 디바이스, 모바일 디바이스, 태블릿 컴퓨터, 또는 다른 컴퓨팅 디바이스를 포함할 수 있다.

데이터 처리 시스템 또는 컴퓨팅 디바이스는 몇몇 구성요소들 사이를 직접적이거나 간접적으로 접속하기 위한 버스 또는 네트워크, 메모리 또는 데이터베이스, 하나 이상의 처리기들, 입력/출력 포트들, 전원, 등을 포함할 수 있다. 당업자는 버스 또는 네트워크가 어드레스 버스, 데이터 버스와 같은 하나 이상의 버스들, 또는 그의 임의의 조합을 포함할 수 있거나, 하나 이상의 네트워크 링크들을 포함할 수 있음을 이해할 것이다. 당업자는 부가적으로 의도된 애플리캐이션들 및 특정한 실시예의 이용들에 의존하여, 이들 구성요소들 중 다수가 단일 디바이스에 의해 구현될 수 있음을 이해할 것이다. 유사하게, 일부 예들에서, 단일 구성요소는 다수의 디바이스들에 의해 구현될 수 있다.

데이터 처리 시스템 또는 컴퓨팅 디바이스는 본 발명에 따른 방법을 실행하는 것을 가능하게 하는 컴퓨터 프로그램을 보유하는 다양한 컴퓨터-판독가능한 매체들을 포함할 수 있거나 상기 다양한 컴퓨터-판독가능한 매체들과 상호작용할 수 있다. 예를 들면, 컴퓨터-판독가능한 매체들은 정보를 인코딩하기 위해 이용될 수 있고 데이터 처리 시스템 또는 컴퓨팅 디바이스에 의해 액세스될 수 있는 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 전기적으로 소거가능하고 프로그래밍가능한 판독 전용 메모리(EEPROM), 플래시 메모리 또는 다른 메모리 기술들, CDROM, 디지털 다기능 디스크들(DVD) 또는 다른 광학 또는 홀로그래픽 매체들, 자기 카세트들, 자기 테이프, 자기 디스크 저장장치 또는 다른 자기 저장 디바이스들을 포함할 수 있다. 메모리는 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터-저장 매체들을 포함할 수 있다. 메모리는 착탈가능하거나, 착탈가능하지 않거나, 그의 임의의 조합일 수 있다. 예시적인 하드웨어 디바이스들은 하드 드라이브들, 고체 상태 메모리, 광학 디스크 드라이브들, 등과 같은 디바이스들이다. 데이터 처리 시스템 또는 컴퓨팅 디바이스는 메모리, 다양한 I/O 구성요소들, 등과 같은 구성요소들로부터 데이터를 판독하는 하나 이상의 처리기들을 포함할 수 있다.

본 발명이 특정 실시예들에 대한 참조로써 도시되었을지라도, 본 발명이 상기 예시적인 실시예들의 상세들로 제한되지 않고, 본 발명이 그의 범위를 벗어나지 않고 다양한 변경들 및 수정들로 구현될 수 있음이 당업자들에 명백할 것이다. 본 실시예들은 따라서, 모든 점에서 예시적이고 제한되지 않는 것으로서 고려되어야 하고, 본 발명의 범위는 상기 설명에 의한 것보다는 첨부된 청구항들에 의해 표시되며, 청구항들의 등가의 의미 및 범위 내에 있는 모든 변경들은 따라서, 그 안에 포괄되도록 의도된다. 즉, 기본적인 근본 원리들의 범위 내에 있는 임의의 및 모든 수정들, 변형들 또는 등가물들을 커버하도록 고려되고 그의 필수적인 속성들은 본 특허 출원에서 주장된다. 단어들 "포함하는" 또는 "포함하다"이 다른 요소들 또는 단계들을 배제하지 않고, 단어들 "a" 또는 "an"이 복수를 배제하지 않으며, 컴퓨터 시스템, 처리기, 또는 또 다른 집적 회로와 같은, 단일 소자가 청구항들에서 나열된 몇몇 수단의 기능들을 충족시킬 수 있음이 본 특허 출원의 판독자에 의해 또한 이해될 것이다. 청구항들에서의 임의의 참조 부호들은 관련된 각각의 청구항들을 제한하는 것으로서 해석되지 않을 것이다. 설명에서 또는 청구항들에서 이용될 때, 용어들 "제 1", "제 2", "제 3", "a", "b", "c", 등은 유사한 소자들 또는 단계들 사이를 구별하기 위해 도입되고 반드시 순차적이거나 연대 순으로 설명되고 있지 않다. 유사하게, "상부", "하부", "~의 위에", "~의 아래에", 등과 같은 용어들은 설명적인 목적들을 위해 도입되고 반드시 상대적인 위치들을 나타내기 위해 도입되지 않는다. 이렇게 이용된 용어들이 적절한 환경들 하에서 상호변경가능하고 본 발명의 실시예들이 본 발명에 따라 다른 시퀀스들로, 또는 상기 설명되거나 도시된 배향(들)과 상이한 배향들로 동작할 수 있음이 이해되어야 한다.

100: 몰입형 화상 회의 서버 101: 화상 클라이언트
102: 컷-아웃 모듈 103: 흔들림 검출기
104: 장면 구성기
111, 112, 113, 11i: 화상 스트림 송수신 채널들
121: 화상 스트림 122: 전경 마스크
123: 2차원 벡터
124, 125: 몰입형 비디오 스트림들 312: 시각적 흔들림 표시자

Claims

몰입형 화상 회의(immersive video conferencing)를 위한 화상 회의 서버(100)로서, 복수의 화상 클라이언트들(101)의 카메라들에 의해 캡쳐된 화상 스트림들을 수신하고 조합하도록 및 상기 복수의 화상 클라이언트들(101)로의 전달 및 상기 복수의 화상 클라이언트들(101)에 의한 플레이-아웃(play-out)을 위해 몰입형 화상 스트림들(124, 125)을 생성하도록 적응되는, 상기 화상 회의 서버(100)에 있어서:
- 회의 클라이언트(101)로부터 수신된 화상 프레임(121)에 대한 전경 마스크(122)를 생성하도록 적응된 컷-아웃(cut-out) 모듈(102);
- 상기 화상 프레임(121)에서 피쳐(feature)들의 서브세트에 대한 변위 벡터(123)를 결정하도록 적응된 카메라 흔들림 검출기(103)로서, 상기 변위 벡터(123)는 상기 전경 마스크(122)를 반전시킴으로써 얻어진 배경 마스크와 상기 회의 클라이언트(101)로부터 수신된 이전 화상 프레임에 대해 생성된 이전 배경 마스크 사이의 피쳐들의 상기 서브세트의 2차원 움직임을 표현하는, 상기 카메라 흔들림 검출기(103);
- 상기 몰입형 화상 스트림들(124, 125)에서의 이용 전에 상기 변위 벡터(123)에 상반되는 변위를 상기 전경 마스크(122)에 적용하고, 그에 의해 상기 회의 클라이언트의 카메라 흔들림 효과들을 정정하도록 적응된 카메라 흔들림 정정 모듈(102, 104); 및
- 상기 회의 클라이언트에 전달된 몰입형 화상 스트림(124)에 흔들림 표시(311, 312)를 생성하도록 적응된 시그널링 유닛(104)을 포함하는, 몰입형 화상 회의를 위한 화상 회의 서버.
제 1 항에 있어서,
상기 카메라 흔들림 검출기(103)는:
- 상기 화상 프레임 및 상기 이전 화상 프레임에서 피쳐들의 세트를 선택하기 위한 화상 스트림 처리기;
- 상기 화상 프레임의 상기 배경 마스크에 및 상기 이전 프레임의 상기 이전 배경 마스크에 속하는 피쳐들의 서브세트를 얻기 위해 피쳐들의 상기 세트를 필터링하기 위한 필터링 로직; 및
- 피라미드형 루카스-카나데(Lukas-Kanade) 알고리즘을 통해 피쳐들의 상기 서브세트에 대한 드문 광학적 흐름을 컴퓨팅하기 위한 처리 로직을 포함하는, 몰입형 화상 회의를 위한 화상 회의 서버.
제 2 항에 있어서,
상기 카메라 흔들림 검출기(103)는:
- 통계 평균화를 통해 피쳐들의 상기 서브세트에 대한 상기 드문 광학적 흐름으로부터 상기 변위 벡터(123)를 형성하는 움직임 크기 및 움직임 방향을 계산하기 위한 통계 로직을 추가로 포함하는, 몰입형 화상 회의를 위한 화상 회의 서버.
제 2 항에 있어서,
상기 카메라 흔들림 검출기(103)는:
- 피쳐들의 상기 서브세트에서의 각각의 피쳐에 대해, 상기 드문 광학적 흐름의 크기를 미리 결정된 임계치와 비교하도록 구성되고, 상기 드문 광학적 흐름의 상기 크기가 상기 미리 결정된 임계치 미만일 때 상기 변위 벡터를 계산하는 것으로부터 상기 피쳐를 제거하도록 구성된 처리 로직을 추가로 포함하는, 몰입형 화상 회의를 위한 화상 회의 서버.
제 2 항에 있어서,
상기 카메라 흔들림 검출기(103)는:
- 피쳐들의 서브세트의 드문 광학적 흐름의 방향에 따라 상기 피쳐들의 상기 서브세트에서의 각각의 피쳐(201)를 각각이 360도/n의 범위를 커버하는 n개의 히스토그램 빈(bin)들의 제 1 세트 중 제 1 빈(211...21n)에 및 각각이 360도/n의 범위를 커버하는 n개의 히스토그램 빈들의 제 2 세트 중 제 2 빈(221...22n)에 할당하도록 구성된 처리 로직으로서, n은 양의 정수 값이고, n개의 빈들의 상기 제 2 세트는 n개의 빈들의 상기 제 1 세트에 대해 180도/n로 회전되는, 상기 처리 로직;
- n개의 빈들의 상기 제 1 세트 및 n개의 빈들의 상기 제 2 세트 중에서 우세 빈(22n)을 선택하도록 구성된 처리 로직으로서, 상기 우세 빈은 피쳐들의 상기 서브세트로부터 가장 많은 양의 피쳐들을 포함하는, 상기 처리 로직; 및
- 상기 변위 벡터(123)를 계산하는 것으로부터 상기 우세 빈(22n)에 속하지 않은 모든 피쳐들을 제거하도록 구성된 처리 로직을 추가로 포함하는, 몰입형 화상 회의를 위한 화상 회의 서버.
화상 회의 서버(100)에서의 카메라 흔들림 검출을 위한 방법으로서, 상기 화상 회의 서버(100)는 복수의 화상 클라이언트들(101)의 카메라들에 의해 캡쳐된 화상 스트림들을 수신하고 조합하도록 및 상기 복수의 화상 클라이언트들(101)로의 전달 및 상기 복수의 화상 클라이언트들(101)에 의한 플레이-아웃을 위해 몰입형 화상 스트림들(124, 125)을 생성하도록 적응되는, 상기 방법에 있어서:
- 회의 클라이언트(101)로부터 수신된 화상 프레임(121)에 대한 전경 마스크(122)를 생성하는 단계;
- 상기 화상 프레임(121)에서 피쳐들의 서브세트에 대한 변위 벡터(123)를 결정하는 단계로서, 상기 변위 벡터(123)는 상기 전경 마스크(122)를 반전시킴으로써 얻어진 배경 마스크와 상기 회의 클라이언트(101)로부터 수신된 이전 화상 프레임에 대해 생성된 이전 배경 마스크 사이의 피쳐들의 상기 서브세트의 2차원 움직임을 표현하는, 상기 변위 벡터(123)를 결정하는 단계;
- 상기 몰입형 화상 스트림들(124, 125)에서의 이용 전에 상기 변위 벡터(123)에 상반되는 변위를 상기 전경 마스크(122)에 적용하는 단계로서, 그에 의해 상기 회의 클라이언트(101)의 카메라 흔들림 효과들을 정정하는, 상기 적용하는 단계; 및
- 상기 회의 클라이언트(101)에 전달된 몰입형 화상 스트림(124)에 흔들림 표시(311, 312)를 생성하는 단계를 포함하는, 화상 회의 서버에서의 카메라 흔들림 검출을 위한 방법.
제 6 항의 방법을 실행하기 위한 수단을 포함하는, 데이터 처리 시스템.
제 6 항의 방법을 수행하도록 적응된 소프트웨어 코드를 포함하는 컴퓨터 프로그램이 기록된, 컴퓨터 판독가능한 기록 매체.
삭제