KR100869447B1

KR100869447B1 - 3차원 모델링 없이 이미지 처리에 의해 타겟을 지시하는 장치 및 방법

Info

Publication number: KR100869447B1
Application number: KR1020027000699A
Authority: KR
Inventors: 웨인스홀다프나; 이미-순
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2000-05-17
Filing date: 2001-05-08
Publication date: 2008-11-21
Also published as: JP4768196B2; DE60133386T2; DE60133386D1; ATE390664T1; CN1380996A; EP1292877A1; CN1222859C; WO2001088681A1; KR20020025198A; EP1292877B1; JP2003533817A

Abstract

한 쌍의 카메라를 사용하여, 사용자가 포인팅하는 평면상의 타켓의 좌표가 3차원 모델링 없이 그리고 3차원 장면 데이터 없이 각각의 이미지들로부터 유도된 데이터만으로 얻어질 수 있다. 각 카메라는 타켓이 방향을 따라 있는 방향의 지시자와 평면상의 적어도 4개의 등록 포인트들을 본다. 제 1 이미지의 선형 변환은 제 2 이미지로 방향 지시의 평면 투사를 맵핑한다. 제 2 이미지에서, 타켓의 좌표는 제 1 이미지로부터 변환된 투사와 제 2 이미지의 방향의 투사의 교차점으로부터 결정된다. 다른 실시예에서, 방향들은 각각의 선형 변환들에 의해 제 3 기준 프레임 또는 이미지로 맵핑된다. 이 시스템의 응용은 사용자가 정적 포인팅 제스처를 사용하여 텔레비전 스크린 또는 투사 상의 위치를 지시하도록 한다. 카메라들의 위치들에 관한 정보가 요구되지 않으므로, 이 시스템은 빠르게 설정될 수 있다.

Description

3차원 모델링 없이 이미지 처리에 의해 타겟을 지시하는 장치 및 방법{Apparatus and method for indicating a target by image processing without three-dimensional modeling}

관련 출원들과의 상호 참조

본 출원은 다음과 같은 출원들에 관련되며, 이들의 모든 내용이 마치 본원에서 완전히 설명되는 식으로 본원에 참조로서 통합된다:

"Multi-modal video target acquisition and re-direction system and method"인 2000년 1월 20일자 미국 출원 09/488,028 호,

"Hands-Free Home Video Production Camcorder"인 2000년 3월 21일자 출원된 미국 출원 09/532,820 호, 및

"Method and system for gesture based option selection"인 2000년 12월 22일자 출원된 미국 출원 08/995,823 호.

삭제

발명의 분야

본 발명은 이미지 인식에 관한 것이며, 특히, 평면(plane)상의 타켓 포인트(target point)를 지시하기 위해 사용되는 제스처(gesture)들을 포인팅하는 것을, 장면(scene)의 3차원 모델링 없이, 인식하는 것에 관한 것이다.

배경

제스처 인식으로부터 이익을 볼 수 있는 수많은 응용들이 있다. 예를 들어, 이것은 카메라의 조준(aim)을 제어하기 위한 자연적인 메커니즘이다. 다른 응용은 스크린상의 커서를 움직이는 손 제스처들을 사용한다. 예를 들어, 자신의 손가락으로 스크린상의 목적물을 간단히 포인팅하여, 미래의 스마트한 텔레비전상에서 선택들을 하는 것을 계획할 수 있다. 마우스는 필요하지 않다.

타켓을 지시하는 포인팅 제스처와 같은 제스처들을 해석하기 위해 장면의 이미지들을 사용하는 비디오-기반 시스템들이 급속히 성장하는 분야이다. 컴퓨터들의 속도와 이미지 처리의 속도들이 빠르므로, 카메라들을 조준 및 재조준하기 위한 매우 편리한 메커니즘들이 제공될 수 있다. 예를 들어, 화상 회의 시스템에서, 사용자는 PT 기반 상에 줌 가능한 카메라를 위치시키기 위해 관심있는 대상을 포인팅할 수 있다. 이러한 자동화된 시스템들은, 예를 들어, 음성 명령("명령-제어", 근본적으로, 예를 들어, "PAN-LEFT","UP","DOWN",,등의 명령에 대응하는 각각의 구두 명령을 갖는 언어-기반 심볼 처리기), 조이스틱 제어, 및 계속적인 타켓 추적과 같은 명확한 명령들을 요구하는 종래의 시스템들보다 더 직관적이며 제어하기가 쉽다. 이러한 시스템들에서, 다중 각도 시점(view)들이 장면의 3차원적 모델을 생성하기 위해 종종 결합된다. 그 후, 이 3차원 모델은 사용자가 포인팅하는 타켓을 결정하기 위해 사용된다.

카메라의 제어를 허락하도록 이러한 "스마트"한 기술을 사용하는 하나의 시스템이, 발명의 명칭이 "카메라-기반 제스처 입력들을 사용하는 가상 현실 환경을 통한 3차원 향해를 허용하기 위한 방법 및 시스템"인 1997년 12월 23일 출원된 미국 특허 출원 제 08/996,677 호에 설명되어 있다. 이 특허 출원은, 카메라가 이미지 처리 기술들을 사용하여 배경으로부터 인간 목적물들의 옆얼굴들을 구별하는 장치에 관하여 개시하고 있다. 이미지 처리 기술들은 배경으로부터 목적물을 구별하는 것이 목적이다. 그러면, 목적물들은 팬/기울기/줌(pan/tilt/zoom:PTZ) 카메라에 의해 뒤따를 수 있다. 이러한 시스템은 타켓을 계속적으로 위치시키고 줌하고 포커싱할 수 있어서, 타켓은 상대적으로 스크린상의 중심에 남는다.

미국 특허 제 5,187,574 호에 기술된 바와 같은 다른 기술은, 가상 또는 전자적 줌으로 언급된다. 하나 이상의 고정된 카메라들로부터의 비디오 정보는 전자적으로 처리되어, 관심 타켓은, 목적물이 어떤 특정 카메라의 시점 영역 내에서 중심에 위치할 수 없을 수도 있다는 사실에도 불구하고, 출력 비디오 신호를 여전히 볼 수 있다. 축출 및 보간 동작들을 통해서, 추적 처리는 PTZ 카메라들 보다 일반적으로 덜 비싼 고정된 카메라들을 통해 성취될 수 있다.

다른 시스템은 마사키 퓨쿠모토, 야수히토 수엔가, 및 켄지 마스에 의한 "손가락 포인터': 이미지 처리에 의한 포인팅 인터페이스"의 논문에 상세히 설명된다. 이 논문에서, 저자들은 시스템의 시점 영역 내에 운영자(operator)를 위치시켜서 타켓 상에 포커싱하도록 카메라를 지시하는 시스템이 이 타켓을 포인팅하는 것을 설명한다. 이 시스템은, 이 일반적인 방향으로 조준되도록 카메라를 지시하는 운영자의 손가락의 이미지를 스캐닝하고 처리한다. 또한, 이 논문은 제스처들을 포인팅하는 것과 음성 명령들을 조합하여 사용하는 시스템을 설명한다. 간단한 음성 또는 제스처 명령들의 사용을 통해서, 운영자는 스크린을 줌인 또는 줌아웃, 또는 소거(clear)하는 것과 같은 간단한 기능들을 수행하도록 카메라를 지시할 수 있다. 이 논문은 본원에 완전히 설명되는 것처럼 참조로서 통합된다.

타켓을 표시하기 위한 종래 기술들은 일반적으로, 사용자가 무엇을 포인팅하는지를 결정하기 위해 타켓 영역과 비디오 장면의 3차원적 구성을 컴퓨터 내에 생성하는 것을 일반적으로 필요로 한다. 이는, 전형적으로 상당히 복잡하고 계산 집약적인 3차원적 추론과 다중 카메라들을 필요로 하기 때문에, 셋업하기에 부담이 된다.

이러한 제한을 갖지 않은 하나의 종래 기술은 미국 특허 제 5,454,043 호에 기재되어 있다. 이 '043 특허에서, 손 움직임들이 비디오 카메라에 의해 캡처되고, 방향과 움직임의 패턴들은 이미지 처리에 의해 명령들로 된다. 이 기술은, 종래 기술의 3차원적 모델링 접근들에서와 같이 다른 위치들에 사용자가 서 있을 때는 타켓을 지시하는데 사용될 수 없지만, 예를 들어, 제한된 방법으로 사용자가 비디오 스크린상의 커서를 제어하도록 허용하는 장점을 갖는다.

이 기술의 현재 상태를 고려하면, 포인팅 제스처들과 같은 방향 지시들을 해석할 수 있지만 장면의 3차원적 모델링과 관련된 짧은 시간 내 많은 양의 계산(intensive computation)과 장면의 구성요소들과 장비의 등록에 대한 필요성을 회피하는 시스템에 대한 요구가 있다.

도 1은 본 발명의 한 실시예에 따라 제 2 카메라의 투사를 사용하는 한 카메라의 장면의 투사(또는 기준 투사) 상에 타켓 위치를 식별하기 위한 설정을 비유적으로 나타내는 도면.

도 2는 도 1의 실시예에 따른 카메라들 중 하나에 의해 얻어진 투사에 관한 정의들을 주기 위한 장면을 비유적으로 나타내는 도면.

도 3은 도 2의 카메라에 의해 취해진 장면 투사를 비유적으로 나타내는 도면.

도 4는 도 1의 실시예에서의 카메라들 중 다른 하나에 의해 얻어진 투사에 관한 정의들을 주기 위한 장면을 비유적으로 나타내는 도면.

도 5는 도 4의 카메라에 의해 취해진 장면 투사를 비유적으로 나타내는 도면.

도 6은 타켓의 좌표를 얻기 위해, 도 3의 장면에 평면 투사 변환에 의해 맵핑된 도 5의 장면으로부터 방향-지시 선택된 포인트들을 도시하는 도면.

도 7은 본 발명의 다른 실시예에 따른 두 카메라들로부터 이미지들을 사용하여 기준 투사 상에 타켓 위치의 투사를 식별하기 위해 사용되고 타켓을 지시하는 방향 벡터를 갖는 장면으로 설정을 비유적으로 나타내는 도면.

도 8 및 도 9는 도 7의 실시예에서 카메라 이미지들의 이미지들로부터 투사들을 비유적으로 나타내는 도면.

도 10은 방향 벡터에 의해 지시된 타켓을 식별하기 위해 기준 이미지 상에 단일 방향 벡터의 투사들의 평면 투사 변환들의 조합을 도시하는 도면.

도 11은 본 발명은 적용하기 위해 사용될 수 있는 처리들과 장치들을 도시하는 도면.

발명의 요약

3차원적 타켓들의 특정 서브세트들은 모양이 미리 알려진 표면상에 위치한 것들이다. 예를 들어, 투사 스크린의 평면 표면은 화자가 포인팅할 타켓들을 포함할 것이다. 다른 예는, 시청자가 막대기, 손가락, 손-움직임, 등으로 포인팅하는 것과 같은 몇몇 다른 방향-지시에 의해 포인팅하거나 지시할 비디오 스크린상의 서브이미지이다. 본 발명에 따라, 위에서 설명된 바와 같은 타켓은 이 타켓이 있는 표면 또는 카메라들의 위치들에 관한 어떤 정보를 등록하지 않고 장면의 이미지에서 식별될 수 있다. 사전에 요구되는 유일한 정보는 표면의 형태에 관한 최소한의 몇몇 정보이다.

한 실시예에 따라, 사용자가 포인팅하는 타켓을 결정하는 방법은, 한 실시예에 따라, 포인팅하는 사람과 타켓 영역 둘 다를 포함하는 적어도 2개의 장면의 이미지들을 이용하는 것이다. 이 실시예에서는, 타켓이 두 카메라들의 장면 이미지들에서 볼 수 있는 기준점들(fiducials) 또는 등록 마크들을 갖는 평편한 평면상에 위치한다고 가정한다. 포인팅 제스처는 두 장면들에서 마찬가지로 포착된다. 포인팅 제스처는 장면 자체의 X-Y 좌표의 라인을 결정하기 위해 요구되는 정도까지 처리되고 결정된다. 이것은 두 카메라 장면들에서 이루어진다. 예를 들어, 사용자의 오른쪽 눈과 손가락의 끝과 일치하는 포인트들(픽셀들의 유닛들의 X-Y 좌표로 된) 이 사용될 수 있다. 대안적으로, 라인이 제스처에 의해 지시되는 방향을 표시하기 위해 정의될 수 있으며, 이 라인이 이 라인 상의 어떤 두 임의의 포인트들에 의해 정의될 수 있을 것이다. 이러한 조준되는 두 장면들로부터의 포인트들의 쌍들은 맵핑된다.

각각의 이미지들은 등록 마크들을 통해 변형(morph)되어서 타켓이 일치하는 평면의 외관을 정확히 흉내낸다(mimic). 이는 3차원적 추정을 완전히 생략하여(bypassing) 단지 2차원 추정을 사용하여 타켓이 결정될 수 있도록 한다. 각각의 이미지는 변형되어, 기준 평면으로 불릴 수 있는 타켓 평면상에 모든 포인트들이 기준 평면상에 나타나는 것처럼 정확히 동일한 위치로 이미지에 나타난다. 후술되는 바와 같이, 선형 등록 변환은 4개의 대응하는 점들이 이미지와 기준 평면에서 식별되면 계산될 수 있다. 이 변환은, 포인트들이 기준 평면에서 일직선상으로부터 보여지면 나타날 수 있는 동일한 상대적인 위치들에서의 카메라 이미지에 기준 평면 상의 포인트들이 나타나도록 하는 것이다. 즉, 기준 평면상에 정사각 패턴으로 정렬된 4개의 기준점들이 있을 경우, 비스듬하게 이들 4개의 기준점들을 보는 카메라 이미지는 기준점들이 변형된 이미지에서 다시 한번 정사각형을 형성할 수 있도록 변형될 것이다. 이 변형은 평면 투사적인 변환에 의해 이루어지고, 그래서 장면 내의 모든 포인트들은 왜곡되고, 원 이미지 내의 임의의 직선 상에 있는 모든 점들은 여전히 직선 상에 있다. 제 2 이미지는 유사하게 변형되고, 두 이미지들은 각 이미지의 기준 평면상의 기준점들이 단일 이미지에서 일치하도록 정렬된다. 바람직하게는, 사용자가 다른 카메라 시점에서와 달리 장면의 다른 위치에서 하나의 카메라 시점에 나타나도록, 이미지들은 실질적으로 다른 각도들로부터 취해진다. 직선들은 사용자의 각 이미지의 손가락 끝과 오른쪽 눈 간에 그려지고 이 직선들이 교차하는 곳이 타켓의 위치이다. 물론, 위의 설명은 순전히 비유적인 것이다. 실제 처리는 숫자적으로 이루어지며, 단지 관계된 포인트들만이 변환된다. 이들 포인트들은 사용자의 손가락 끝과 눈의 이미지들을 결합하는 두 이미지들 내의 포인트들이다.

이러한 접근은 많은 변화들(variations)에서 사용될 수 있다. 2개가 바람직한 것으로 고려된다. 먼저, 사용자의 전방에 카메라들이 위치하고 사용자가 카메라들을 향하여 포인팅하는 경우에, 모니터나 뷰 스크린상의 선택들을 지시하는 것과 같은 인간/기계 상호작용에 특히 적합하다. 둘째는, 각각의 카메라에 보이는 2차원 표면을 향해 포인팅하는 것이 화상 회의와 같은 멀티미디어 응용들에서 유용할 수 있다.

"통해서 보는(Peek Through)" 구성으로 불리는 제 1 변동(variation)이, 예를 들어, 컴퓨터 게임을 플레이하거나 메뉴로부터 아이템들을 선택하는 컴퓨터 모니터 또는 TV를 통해 통신하기에 유용할 수 있는 것을 생각할 수 있다. 이 설계에서, 하나 또는 두 개의 다각형의 구멍들(apertures)(나란히 정렬된)을 갖는 수직의 불투명한 평면이 스크린과 거의 동일 평면의 TV 모니터 또는 컴퓨터의 꼭대기 상에 위치된다. 다른 가능성은, 투명한 확장 평면을 사용하는 것인데, 여기서 각각의 구멍이 적어도 4개의 특징 포인트들(feature points)로 대체된다. 이 스크린과 구멍 확장을 포함하는 이 확장된 평면은 "기준 평면"으로 불린다.

두 구멍들 뒤에서 사용자를 보면서 하나 또는 두 개의 카메라들이 확장 평면 뒤에 있다; 각 구멍(또는 4개의 마커 포인트들)은 각각의 이미지 둘레에서 항상 충분히 보여질 수 있다. (대안적으로, 이 두 카메라들은 나란히 2 이미지들을 레코딩하는 1 카메라와 함께 2 개의 거울들로 대체될 수 있다.) 초기에(그리고 단 한번), 기준 평면의 2차원의 왜곡되지 않은 외관을 표현하기 위해, 기준 평면의 정면 이미지(스크린+부착된 구멍들 또는 마커들)는 매우 좁은 시점 영역(field of view)(거의 직각 투사 만큼)에서 취해진다. 이 이미지는 타켓 위치를 계산할 목적들을 위한 기준 프레임이 된다.

필요한 이미지 등록(변형) 변환을 계산하기 위해, 구멍 경계들이 기준 프레임과 각각의 이미지에서 검출된다. 등록은 이미지에 2D 선형 변환을 적용하는 단계를 포함하고, 그 후 이미지에서의 구멍 경계들이 기준 프레임에서 나타나는 것과 같이 정확하게 동일한 관계로 이미지에서의 구멍 경계들이 나타내어 진다. 4개의 포인트들은 명세서에서 상세히 설명되는 바와 같이 이 변환을 계산하기에 충분하다.

이 설계에서, 사용자는 카메라를 향해 포인팅하면서 사진이 찍힌다. 포인팅하는 타켓 위치를 찾기 위해, 사용자의 눈들과 손가락 끝을 검출하는 것이 필요하다. 손가락 끝의 검출을 돕기 위해, 사용자는 밝은 색상의 골무를 낄 수 있다. 이 골무는 원격 제어와 같은 다른 상호 대화 수단을 대체할 수 있다. 손가락 끝 검출을 더 쉽게하는 것에 추가하여, 착용할 수 있는 마우스(wearable mouse)가 다중 사용자들의 포인팅 제스처들 간을 구별할 수 있는 능력을 제공하는 것과 같은 사용자 인터페이스 목적들을 위한 다른 장점들을 갖는다. 그러므로, 다양하게 색상을 갖는 골무들을 착용한 다수의 사용자들은 동일한 타겟 또는 다른 타켓을 동시에 지시할 수 있다.

제 2 변화(variation)인 "직접 보는 구성(Direct view configuration)"은 카메라 셋업이 임시적이거나 이동 가능한 상황들에서 또는 큰 스크린으로 비디오 회의들 또는 프리젠테이션들을 하는 것과 같은 목적들을 위해 가장 유용할 것임을 구상할 수 있다. 이 셋업에서, 타켓 평면 또는 기준 평면 및 사용자들은 두 카메라들로부터 보여질 수 있다. 통해서 보는 구성(Peek Through configuration)에서와 같이, 등록이 이미지 데이터 하나에만 기초한다. 기준 평면상의 4개의 포인트들은 이미지에 2차원적 선형 변환의 적용과 함께 발생하는 등록으로 각 이미지 내에서 식별된다. 기준 평면이 전형적으로 투사 스크린 또는 화이트 보드이기 때문에, 포인트들은 쉽게 검출될 수 있다. 포인트들은 높은 콘트라스트의 투사로부터 형성될 수 있으며 잠시 이 셋업을 캡쳐하기 위해 사용되며, 그후 스크린으로부터 제거된다. 대안적으로, 수평 라인들의 두 세트들은 기준점 마크들 대신에 사용될 수 있다. 스크린 또는 화이트 보드의 경계들이 또한 사용될 수 있다.

마지막 단계에서, 이미지들 중 하나가 기준 프레임으로서 선택될 수 있다. 등록 변환은 4개의 식별된 포인트들을 맵핑하여서, 포인트들이 제 1 이미지에 나타난 것과 같이 동일한 위치로 제 2 이미지에서 나타난다. 등록은, 기준 평면보다 기준 프레임에 대해 이루어지며, 이는 포인팅 타켓의 식별을 위해 충분하다.

본 발명은 다음의 도식적인 도면들을 참조하여 어떤 양호한 실시예들과 관련하여 설명될 것이므로, 더욱 완전히 이해 될 것이다. 도면들을 참조하여, 도시된 특정물들은 단지 본 발명의 양호한 실시예들의 도식적인 개시의 목적과 예시적인 방법에 의한 것이고, 본 발명의 개념적인 측면들과 원리들의 가장 유용하고 쉽게 이해할 수 있다고 생각하는 설명을 제공하는 이유에서 표현됨을 강조한다. 이런점에서, 본 발명의 근본적인 이해에 필수적인 것 보다 더욱 상세하게 본 발명의 구조적인 상세함을 보이는 아무 시도도 이루어지지 않으며, 도면들을 사용한 설명은 어떻게 본 발명의 몇몇 형식들이 실제 구현될 수 있는지를 당업자에게 명확하도록 한다.

바람직한 실시예들의 상세한 설명

도 1을 참조하여, 텔레비전 또는 투사 스크린(10) 또는 벽(도시되지 않음)과 같은 평면 내에/상에 있는 타켓(25)이 사용자(30)에 의해 지시된다. 타켓 위치는 다음에 설명될 방법으로 두 카메라들(35 및 40)로부터 이미지들을 결합하여 두 카메라들(35 및 40) 중 하나의 이미지에서 식별될 수 있다. 이 도면은 포인팅 제스처를 사용하여 사용자(30)가 타켓(25)에 포인팅하는 것을 도시한다. 타켓을 포인팅하기 위해 사람에 의해 사용되는 제스처는 사용자의 손가락 끝, 사용자의 오른쪽(또는 왼쪽) 눈, 및 타켓이 직선으로 연결되는 것으로 실험적으로 결정되어 왔다. 이것은 상기 카메라들 중 하나의 시점(view)에서의 타켓의 평면 투사가 사용자의 눈과 손가락 끝에 의해 정의되는 직선의 평면 투사를 따라 있다는 것을 의미한다. 본 발명에서, 두 개의 평면 투사들은 공통 평면 투사로 변환되며, 이는 임의의 제3 평면 또는 카메라들(35 및 40) 중 어떤 하나가 될 수 있다.

또한, 도 2를 참조하여, 카메라들 각각은 포인팅 장치를 캡처하도록, 이 경우에는, 사용자의 눈(90)과 조합하는 사용자의 손가락 끝(80)을 캡처하도록, 카메라들이 조준된다. 또한, 각 카메라의 시점 영역(field of view)(45 및 50)은 타겟이 위치한 평면상에 4개의 등록 마크들(20)이 보여질 수 있도록 된다. 본 발명의 추가적인 상세한 설명 후에 명확해질 것이지만, 타켓 위치의 정확성에 영향을 주는 정도까지는 제외하고, 카메라들(35 및 40)의 정확한 위치 또는 조준은 본 발명의 실제에서 중요하지 않다. 정확성을 위해, 카메라 이미지들이 카메라 이미지들의 해상도 및 정확도를 (실제 평면 투사를 나타내는 것처럼) 최대한 사용하도록 하는 것을 보장하는 것이 좋다.

도 2 및 도 3을 참조하면, 사용자(30)의 손가락 끝(80)과 눈(90)의 위치는 3차원 벡터(85)로 표현되는데, 카메라(35)의 이미지에서 이 3차원 벡터(85)의 평면 투사는 2차원 벡터(76)로 표현된다. 스크린의 나머지 평면 투사에서, 스크린(11)의 이미지는 통상적인 방법에서의 단축법(foreshortening)에 의해 왜곡되어 보여진다. 정황에서 알려지지 않은 타켓(25)의 위치를 통과하기에 충분히 긴 벡터(76)의 확장(61)이 도시되어 있다. 등록 마크들(20)(도 1)의 좌표의 투사는 x1,y1,...x4,y4로 도 3의 이미지에서 식별된다. 벡터(85)의 투사(76)의 끝 포인트은 x5,y5 및 x6,y6으로 식별된다.

이제 도 4 및 도 5를 참조하면, 다시, 사용자(30)의 손가락 끝(80)과 눈(90)의 위치들은 3차원 벡터(86)에 의해 표현된다. 카메라(40)의 이미지에서 벡터(86)의 평면 투사는 2차원 벡터(87)로서 표현된다. 다시, 스크린(12)의 이미지는 통상적인 방법에서의 단축법(foreshortening)에 의해 왜곡되어 보여지고, 물론 이 왜곡은 카메라(40)의 위치와 방향 때문에 다르다. 타켓(25)의 위치를 통과하기에 충분히 긴 벡터(86)의 확장(62)이 도시되어 있다. 확장(62)의 평면 투사는 63로서 표시된다. 다시, 타켓의 위치의 투사는 미리 알려지지 않는다. 등록 마크들(20)(도 1)의 투사좌표는 p1,q1,...p4,q4로서 도 5의 이미지에서 식별된다. 벡터(85)의 투사(87) 끝 포인트들은 p5,q5 및 p6,q6로서 식별된다.

도 6을 참조하면, 도 5의 투사가 중첩되는 벡터(86)의 투사(87)의 변환된 버전(87')과 함께 도시되어 있다. 변환된 투사(87')는, 포인트들(p1,q1,...p4,q4)이 좌표(x1,y1,...x4,y4)에 각각 정확하게 맵핑되도록, 도 5의 투사를 맵핑하는 2차원 선형 변환 동작에 의해 유도된다. 타켓의 위치는 두 확장 라인들의 교차점과 일치한다.

이 변환은 다음과 같이 표현될 수 있다:

이것은 스케일을 제외한 변환을 나타낸다. 각각의 포인트가 M 에 대해 두개의 제약 조건들을 제공하기 때문에, 그리고 M이 스케일 없이 정의된 3x3 매트릭스이기 때문에, M은 8개의 알려지지 않은 것을 포함하고, 따라서 4개의 독립 포인트들을 사용하여 결정될 수 있다. 이는 4개의 등록 포인트들(20)이 사용되는 이유이다. M은 다음과 같이 정의된다:

4개의 포인트들(p1,q1,...p4,q4)을 고려하면, M에서 모든 알려지지 않은 것들은 다음의 선형 시스템 식들을 풀어서 얻어질 수 있다:

일단, 타켓이 식별되면, 정보는 다양한 특성들을 제공하기 위해 사용될 수 있다. 예를 들어, 스크린상에 투사된 목적물은 포인팅에 의해 제어될 수 있다. 이 예에서, 두 카메라 이미지들이 스크린(10)의 평면으로 변환될 수 있다. 타켓의 스크린(10) 상의 좌표를 고려하면, 임의의 컴퓨터 처리들은 이 정보를 사용할 수 있다. 예를 들어, 많은 플레이어들을 갖는 게임, 각각은 포인팅 제스처들에 의해 제어된다. 다른 색상의 골무들(thimbles) 또는 막대들(wands)은 스크린상에 렌더링된 다른 목적물들을 제어하기 위해, 다른 플레이어들에 의해 사용/끼여질 수 있다. 마우스, 광 연필, 터치 스크린, 등으로 현재 수행되는 어떤 태스크들은 포인팅 제스처들로 수행될 수 있다.

비록 위에 설명된 실시예에서, 타켓이 특정 방법(눈-손가락 끝)으로 포인팅 제스처에 의해 지시되는 것이 기재되었지만, 이 지시가 다른 방법들로 유도될 수 없는 이유는 없다. 예를 들어, 관측 장치(sighting device) 또는 막대가 사용될 수 있다. 또한, 스크린상의 타켓이기 보다, 공통 평면상에 실질적으로 있는 이미지들 또는 어떤 목적물들이 될 수 있다. 또한, 목적물들 또는 타켓들은 단일 평면상에 있을 필요는 없지만, 다중 평면들 상에 있을 수 있으며, 다중 평면들 각각은 각각의 등록 마크들 세트를 갖는다. 또한, 본 발명은 타켓들이 평평한 표면 이외의 표면들 상에 있을 수 있도록 다른 변환들을 사용하여 확장될 수도 있다. 또한, 다른 변환은 방향을 지시하는 제스처의 방법에 있다. 시간 연속들의 이미지들은, 방향을 지시하는 움직이는 제스처를 가질 수 있는 것과 같은, 짧은 간격 시간 동안 손 또는 손가락의 지나가는 방향과 같은 방향을 도출하는데 사용될 수 있다. 또한, 다른 적절한 응용은 화이트 보드 응용이 될 수 있다. 더 나아가, 등록 마크들(20)은 스크린상의 마크들이 될 필요가 없으나, 스크린(10)의 코너들이 될 수 있다. 또한, 등록 마크들은 설정 동안 한 시점에서 스크린상에 투사될 수 있고 이 후 제거된다. 그 다음, 등록 포인트 좌표는, 셋업이 변경될 때까지 등록 마크들을 더 참조하지 않고 변환을 계산하기 위해 사용될 수 있다. 이 기술의 다른 응용은 카메라를 타켓으로 조준하는데 사용하기 위한 것이다. 기준 이미지 내의 좌표가 일단 알려지면, 두 카메라들 중 하나 또는 제 3 카메라가 타켓을 획득하기 위해 재 조준되거나 줌될 수 있다. 이는 자동화된 화상회의 시스템의 환경에서 유용할 것이다.

이제, 도 7을 참조하여, 본 발명의 다른 실시예에 대응하는 설정에서, 벡터(200)는 타켓(226)을 지시한다. 확장 라인(205)은 타켓으로 벡터(200)의 축을 따라 방향이 정해진다. 이전의 실시예들에서 논의된 바와 같이, 벡터(200)는 예를 들어 포인팅 제스처와 같은 수많은 다른 지시 장치들(indicating devices)의 어떤 것을 표현한다. 또한, 타켓(226)은, 이 예에서는 큰 포맷 텔레비전의 예에 대하여 스크린(270), 평면 내에/상에 있다. 카메라들(235 및 240)은 각각의 기준 프레임들(260 및 265)을 통해 조준된다. 기준 프레임들(260 및 265)은 카메라(235)의 시점 영역 내의 등록 포인트들(1-4)과 카메라(240)의 시점 영역 내의 등록 포인트들(5-8)을 간단히 제공한다. 각각의 카메라(235 및 240)가 조준되어, 벡터(200)와 등록 포인트들의 각각의 세트를 본다. 따라서, 예를 들어, 셋업은 사용자에게 조준되고 텔레비전의 꼭대기 상의 카메라들을 갖는 텔레비전의 전방의 의자에 앉아있는 사용자를 포함할 수 있다.

이 실시예에서, 등록 포인트들은 간단히 프레임들(260 및 265)의 코너들(1-8)이다. 이들 코너들의 좌표는, 카메라 특히 비디오 카메라들인 카메라들의 제한된 해상도를 고려하여, 최고 정밀도를 갖는 위치들을 얻기 위해 프레임들의 에지들에 기초하는 외삽법 윤곽 맞추기(extrapolating contour fits)에 의해 양호하게 결정될 수 있다. 이러한 기술들은 당업계에 주지의 기술이다.

도 8과 도 9를 참조하여, 카메라들(240 및 235)의 이미지들은 각각 포인팅 벡터(200)의 각각의 투사들(210 및 220)을 포함한다. 또한, 벡터 투사들(210 및 220)에 의해 지시되는 방향에 의해 결정되는 윤곽들(215,225)이 도시된다. 도 7은 3차원 장면을 도시하기 위해 사용되지만, 이의 배열은 또한 스크린(270)을 향하는 시점 방향으로부터 취해진 투사를 지시한다. 그러한 이미지는 이 실시예에서 기준 이미지로서 사용되며, 두 카메라 이미지들의 벡터들은 기준 이미지 내의 타켓의 좌표를 결정하기 위해 이 이미지로 변환된다.

도 7의 장면 투사를 도시하는 도 10을 참조하여, 벡터 이미지들이 2차원 선형 변환을 사용하여 기준 프레임으로 변환된 후에, 윤곽들(215 및 225)이 각각 윤곽들(285 및 280)로 변환된다. 이 변환은 도 10의 이미지의 대응하는 포인트들로 도 9의 이미지 내의 포인트들(1-4)을 맵핑한다. 그러나, 변환될 필요가 있는 유일한 포인트들은 벡터 투사들(210 및 220)을 정의하는 포인트들이다. 기준 이미지들(도 7 또는 도 10의 기준 이미지와 프레임들(260,265))은 기준 포인트들의 좌표를 결정하기 위해 각각의 셋업에 대해 단지 한번 취해질 필요만 있다.

이제 도 11을 참조하여, 본 발명의 구현 응용들에 사용될 수 있는 처리들과 장치들이 블록 다이어그램 형태로 도시된다. 이미지 처리기(305)는 카메라들(301 및 302)로부터 이미지 데이터를 수신한다. 이미지 및 좌표 데이터는 메모리(310) 또는 비휘발성 저장 장치(320)에 저장될 수 있다. 예를 들어, 일단 계산된 변환 데이터는, 응용 처리(330)에 적용될 수 있는 타켓의 좌표(x,y)를 도출하기 위해 카메라들(301 및 302)로부터 이미지들의 계산에 사용되는 메모리(310) 및 비휘발성 메모리(320) 내에 저장될 수 있다. 이 후, 어플리케이션 처리(330)는 게임의 아바타(avatar)에 대한 제어 데이터 또는 화이트 보드 상에 자취와 같은 출력을 생성한다.

카메라들(301 및 302)에 의해 수집된 투사 데이터가 또한, 음파(sonar), 무선, 초음파 의학 장치 또는 평면 투사를 형성할 수 있는 어떤 다른 장치와 같은 다른 소스들로부터 유도될 수 있다.

본 발명이 앞에 설명한 예시적인 실시예들의 상세한 설명에 제한되지 않는 다는 것과, 본 발명이 본 발명의 근본적인 특성들 또는 정신으로부터 벗어나지 않고 다른 특정 양식들로 구현될 수 있다는 것이 당업자에게 명확할 것이다. 그러므로, 본 발명의 실시예들은 모든 관점에서 예시적이며 제한적이지 않다는 것이 고려되며, 본 발명의 범위는 앞의 설명보다 첨부된 청구항들에 의해 지시되고, 이 청구항들과 동등한 범위와 의미 내에 오는 모든 변화들은 여기에 포함되도록 의도된다.

Claims

평면상에서 타켓(target) 위치를 찾기 위한 장치에 있어서,

장면(5)의 제 1 투사(projection)를 나타내는 제 1 이미지 데이터를 생성하는 제 1 이미지 수집 장치(35);

타켓(25)의 지시자(indicator)(85)를 포함하는 상기 장면;

상기 장면의 제 2 투사를 나타내는 제 2 이미지 데이터를 생성하는 제 2 이미지 수집 장치(40); 및

상기 제 1 및 제 2 이미지 데이터를 수신하도록 접속되는 컴퓨터 장치(305)로서, 상기 컴퓨터 장치는 상기 장면의 상기 제 1 투사 및 상기 제 2 투사 중 하나인 상기 장면의 기준 투사(reference projection) 상에서 상기 타켓의 위치를 얻기 위해, 상기 제 1 및 제 2 중 하나의 이미지 데이터의 적어도 일부에 선형 변환(linear transform)을 적용하고, 상기 제 1 및 제 2 중 나머지 이미지 데이터의 적어도 일부와 상기 선형 변환의 결과를 조합하도록 프로그래밍되거나, 임의의 제3 평면 상에서 상기 타겟의 위치를 얻기 위해, 상기 제 1 및 제 2 이미지 데이터의 각각의 적어도 일부에 선형 변환을 적용하고, 상기 선형 변환의 결과를 조합하도록 프로그래밍되는, 상기 컴퓨터 장치를 포함하는, 평면상에서 타켓 위치를 찾기 위한 장치.
이미지 처리기에 있어서,

장면의 제 1 및 제 2 평면 투사들(planar projections)을 수용하도록 프로그래밍된 처리기(305)를 포함하고,

상기 처리기는 상기 제 1 및 제 2 평면 투사들 각각으로부터 각각의 궤도들(trajectories; 61,63)을 식별하도록 프로그래밍되고;

상기 처리기는 또한 적어도 하나의 변환된 궤도(63')를 생성하기 위해 상기 제 1 및 제 2 평면 투사 궤도들 중 적어도 하나의 변환을 계산하도록 프로그래밍되고;

상기 처리기는 또한 상기 적어도 하나의 변환된 궤도로부터, 상기 제 1 및 제 2 평면 투사들 중 하나 상의 위치 또는 임의의 제 3 평면 상에서의 상기 장면의 투사를 계산하도록 프로그래밍되고, 3차원 표면(11)상의 타켓(25)의 좌표는 상기 제 1 및 제 2 평면 투사 궤도들 중 상기 적어도 하나와 정렬되도록 프로그래밍되는, 이미지 처리기.
타켓 위치를 찾는 방법에 있어서,

평면에 있는 타켓의 지시자(indicator)의 제 1 및 제 2 이미지들을 수집하는 단계; 및

상기 타켓의 좌표를 결정하기 위해 상기 제 1 및 제 2 이미지들 중 적어도 하나의 평면 투사 변환을 수행하는 단계를 포함하는, 타켓 위치를 찾는 방법.
제 3 항에 있어서,

상기 수집하는 단계는 장면의 평면 투사들을 나타내는 각각의 제 1 및 제 2 이미지들을 형성하는 단계를 포함하는, 타켓 위치를 찾는 방법.
제 3 항에 있어서,

상기 수행하는 단계는 인간 포인팅 제스처(human pointing gesture)의 특징들을 식별하는 단계를 포함하는, 타켓 위치를 찾는 방법.
제 3 항에 있어서,

상기 수행하는 단계는 상기 평면에 있는 4개의 등록 마크들(20)의 이미지에서의 좌표들로부터, 상기 평면 투사를 결정하는 단계를 포함하는, 타켓 위치를 찾는 방법.
평면에 있는 타켓을 식별하는 방법에 있어서,

제 1 평면 투사로부터의 적어도 4개의 포인트들과 제 2 평면 투사로부터의 적어도 4개의 포인트들로부터 선형 변환을 계산하는 단계;

상기 제 1 평면 투사에 대응하는 평면 내의 제 1 궤도를 상기 제 2 평면 투사로 변환하는 단계; 및

상기 제 1 궤도의 변환과 상기 제 2 평면 투사에 대응하는 평면 내의 궤도의 교차점을 결정하는 단계를 포함하는, 타켓 식별 방법.
제 7 항에 있어서,

상기 제 1 평면 투사 및 제 2 평면 투사의 각각의 상기 적어도 4개의 포인트들은 모두 기준 평면에 있는 적어도 4개의 포인트들의 단일 세트의 투사들인, 타켓 식별 방법.
평면에 있는 타켓을 식별하는 방법에 있어서,

각각의 투시들(perspectives)로부터 기준 평면에 있는 포인트들을 이미징(imaging)함으로써 선형 변환 동작들(linear transformation operations)을 계산하고, 상기 각각의 투시들로부터 상기 포인트들을 상기 기준 평면의 대응하는 포인트들로 맵핑하도록 하는 변환을 얻는 단계;

상기 선형 변환 동작들 중 하나를 사용하여 3차원 궤도의 제 1 평면투사를 변환하는 단계;

상기 선형 변환 동작들 중 나머지를 사용하여 상기 궤도의 제 2 평면투사를 변환하는 단계; 및

상기 궤도에 의해 지시된 타켓의 상기 기준 평면에서의 좌표를 결정하기 위해 상기 변환하는 단계들로부터 생긴 각각의 상기 궤도의 변환들의 교차점(intersection)을 결정하는 단계로서, 상기 타켓은 상기 기준 평면에 있는, 상기 교차점을 결정하는 단계를 포함하는, 타켓 식별 방법.
기준 표면에 있는 타켓 포인트를 식별하는 방법에 있어서,

상기 기준 표면에서 포인트들의 적어도 제 1 및 제 2 표면 투사들을 형성하는 단계로서, 다수의 상기 포인트들 중 적어도 하나는 상기 기준 표면의 형상에 의해 결정되는, 상기 포인트들의 적어도 제 1 및 제 2 표면 투사들을 형성하는 단계;

상기 표면에서의 상기 포인트들의 상기 투사들에 응답하여 변환을 얻는 단계로서, 상기 변환은 제 3 표면 또는 상기 제 1 및 제 2 투사 표면들 중 하나일 수 있는 결과 투사 표면상의 각각의 포인트로 상기 포인트들 각각을 변환하는 것이고, 그에 따라 상기 기준 표면상의 주어진 포인트의 각각의 투사는 상기 결과 투사 표면상의 동일한 좌표와 일치하여 떨어지는, 상기 변환을 얻는 단계; 및

상기 타켓을 식별하도록 상기 변환을 사용하여 적어도 하나의 궤도의 투사를 변환하는 단계를 포함하는, 타켓 포인트 식별 방법.