KR101605276B1

KR101605276B1 - 오디오 비주얼 재생을 위한 시선 기반 위치 선택

Info

Publication number: KR101605276B1
Application number: KR1020147006266A
Authority: KR
Inventors: 켄턴 엠. 라이온즈; 조슈아 제이. 라트클리프; 트레버 페링
Original assignee: 인텔 코포레이션
Priority date: 2011-09-08
Filing date: 2011-09-08
Publication date: 2016-03-21
Also published as: US20130259312A1; KR20140057595A; EP2754005A4; CN103765346A; CN103765346B; JP2014526725A; WO2013036237A1; JP5868507B2; EP2754005A1

Abstract

사용자가 디스플레이 스크린 상에서 보고 있는 것의 검출에 응답하여, 그 영역과 연관된 오디오 또는 비주얼 미디어의 재생이 변경될 수 있다. 예를 들어, 사용자가 보고 있는 영역 내의 비디오는 빨라지거나 느려질 수 있다. 관심 영역 내의 정지 이미지는 동영상으로 변환될 수 있다. 디스플레이 스크린 상의 관심 영역에 묘사된 오브젝트와 연관된 오디오는 시선 검출에 응답하여 활성화될 수 있다.

Description

오디오 비주얼 재생을 위한 시선 기반 위치 선택{EYE GAZE BASED LOCATION SELECTION FOR AUDIO VISUAL PLAYBACK}

본 발명은 일반적으로 컴퓨터들 및, 특히, 컴퓨터 상에서 이미지들을 디스플레이하고 오디오 비주얼 정보를 재생하는 것에 관한 것이다.

전형적으로, 컴퓨터들은 오디오/비디오 재생을 위한 다수의 컨트롤을 포함한다. 이러한 목적을 위한 입/출력 디바이스들은 키보드들, 마우스들, 및 터치 스크린들을 포함한다. 또한, 그래픽 사용자 인터페이스들은, 비디오 또는 오디오 재생의 시작 및 정지, 비디오 또는 오디오 재생의 일시 정지, 비디오 또는 오디오 재생의 빨리 감기, 및 오디오/비디오 재생의 되감기의 사용자 컨트롤을 가능하게 하도록 디스플레이될 수 있다.

도 1은 본 발명의 일 실시예의 개략도.
도 2는 본 발명의 일 실시예에 대한 흐름도.

일부 실시예들에 따라, 사용자의 시선은, 컴퓨터 디스플레이 스크린 상에서 사용자가 보고 있는 것을 정확히 결정하도록 분석될 수 있다. 시선 검출된 사용자 관심 영역에 기초하여, 오디오 또는 비디오 재생이 제어될 수 있다. 예를 들어, 사용자가 디스플레이 스크린 상의 특정 영역을 볼 때, 선택된 오디오 파일 또는 선택된 비디오 파일은 그 영역에서 재생을 시작할 수 있다.

마찬가지로, 사용자가 어디를 보고 있는지에 기초하여, 그 영역에서 비디오의 모션의 레이트가 변할 수 있다. 또 다른 예시로서, 사용자가 그 영역을 보기 전에 정지해 있던 영역에서 모션이 턴 온(turn on) 될 수 있다. 부가적인 예시들로서, 시선 선택된 영역의 크기는 그 영역을 보는 사용자의 검출에 응답하여 증가되거나 감소될 수 있다. 빨리 감기, 감기, 또는 되감기 컨트롤들은 사용자가 특정 영역을 본다는 사실에 단순히 기초하여 디스플레이 영역에서 실행될 수 있다. 단지 시선을 검출함으로써 구현될 수 있는 그외의 컨트롤들은 일시 정지 및 재생 시작을 포함한다.

도 1을 참조하면, 컴퓨터 시스템(10)은, 데스크톱 컴퓨터 또는, 텔레비전 또는 미디어 플레이어와 같은, 엔터테인먼트 시스템을 포함하는, 임의의 종류의 프로세서 기반 시스템일 수 있다. 그것은 또한, 일부 예시들을 언급하자면, 랩톱 컴퓨터, 태블릿, 셀룰러 전화기, 또는 모바일 인터넷 디바이스와 같은, 모바일 시스템일 수 있다.

시스템(10)은, 컴퓨터 기반 디바이스(14)에 결합된, 디스플레이 스크린(12)을 포함할 수 있다. 컴퓨터 기반 디바이스는, 일부 실시예들에서, 디스플레이(12)와 연관될 수 있는, 비디오 카메라(16)에 결합된, 비디오 인터페이스(22)를 포함할 수 있다. 예를 들어, 일부 실시예들에서, 카메라(16)는 디스플레이(12)와 통합되거나 또는 장착될 수 있다. 일부 실시예들에서, 또한 눈 움직임을 추적하기 위해 카메라가 사용자들의 눈으로부터 적외선 반사들을 검출할 수 있게 하도록 적외선 송신기들이 제공될 수 있다. 본원에서 사용되는 바와 같이, "시선 검출(eye gaze detection)"은 사용자가 보고 있는 것을 결정하기 위한, 눈, 머리, 및 얼굴 추적을 포함하는, 임의의 기법을 포함한다.

프로세서(28)는 저장소(24)와, 디스플레이(12)를 구동하는 디스플레이 인터페이스(26)에 결합될 수 있다. 프로세서(28)는, 중앙 처리 장치 또는 그래픽 처리 장치를 포함하는, 임의의 컨트롤러일 수 있다. 프로세서(28)는, 시선 검출을 이용하여, 디스플레이 스크린(12) 상에 디스플레이되는 이미지 내의 관심 영역들을 식별하는 모듈(18)을 가질 수 있다.

일부 실시예들에서, 디스플레이 스크린 상의 시선 위치의 결정은 이미지 분석에 의해 보완될 수 있다. 구체적으로, 이미지의 콘텐츠는, 묘사 내의 오브젝트들을 인식하고 시선 검출에 의해 제시된 위치가 엄밀히 정확한지를 평가하도록 비디오 이미지 분석을 이용하여 분석될 수 있다. 예시로서, 사용자는 이미지화된 사람의 머리를 보고 있을 수 있지만, 시선 검출 기술은 미세하게 틀릴 수 있어서, 대신, 포커스의 영역을 머리에 인접하지만, 빈 영역 내에 제시하게 된다. 비디오 분석은, 검출된 시선 위치에 인접한 오브젝트만이 이미지화된 사람의 머리라는 것을 검출하는 데 이용될 수 있다. 따라서, 시스템은, 정확한 포커스는 이미지화된 사람의 머리라는 것을 추론할 수 있다. 따라서, 일부 실시예들에서 비디오 이미지 분석은 시선 검출과 함께 이용되어 시선 검출의 정확성을 개선할 수 있다.

관심 영역 식별 모듈(18)은, 관심 영역 및 미디어 링크 모듈(20)에 결합된다. 링크 모듈(20)은, 사용자가 보고 있는 것을 스크린 상에 플레이되고 있는 특정 오디오 비주얼 파일에 링크할 책임이 있을 수 있다. 따라서, 디스플레이 스크린 내의 각 영역은, 일 실시예에서, 오디오 비주얼 정보의 진행 중인 디스플레이 내의 특정 장소들 또는 특정 순간들에서 특정 파일들에 링크된다.

예를 들어, 영화의 타임 코드들은 특정 영역들과 링크될 수 있고 디지털 스트리밍 미디어와 연관된 메타데이터는 프레임들 및 프레임들 내의 사분면(quadrant)들 또는 영역들을 식별할 수 있다. 예를 들어, 각 프레임은 디지털 콘텐츠 스트림의 메타데이터에서 식별되는 사분면들로 분할될 수 있다.

또 다른 예시로서, 특정 오브젝트 또는 특정 영역과 같은, 각 이미지 부분 또는 별개의 이미지는 개별적으로 조작 가능한 파일 또는 디지털 전자 스트림일 수 있다. 이러한 별개의 파일들 또는 스트림들 각각은 특정 환경들 하에서 활성화될 수 있는 그외의 파일들 또는 스트림들에 링크될 수 있다. 또한, 각각의 별개의 파일 또는 스트림은, 이하에 설명되는 바와 같이, 비활성화되거나 또는 제어될 수 있다.

일부 실시예들에서, 디스플레이된 전자 미디어 파일의 상이한 버전들의 시리즈들이 저장될 수 있다. 예를 들어, 제1 버전은 제1 영역에 비디오를 가질 수 있고, 제2 버전은 제2 영역에 비디오를 가질 수 있고, 제3 버전은 비디오를 갖지 않을 수 있다. 사용자가 제1 영역을 보는 경우, 제3 버전의 재생은 제1 버전의 재생으로 대체된다. 이후, 사용자가 제2 영역을 보는 경우, 제1 버전의 재생은 제2 버전의 재생으로 대체된다.

마찬가지로, 오디오는 동일한 방식으로 핸들링될 수 있다. 또한, 빔 형성 기법들이 장면의 오디오를 기록하는 데 이용될 수 있어서, 마이크로폰 어레이 내의 상이한 마이크로폰들과 연관된 오디오가, 이미지화된 장면의 상이한 영역들에 키잉될(keyed) 수 있다. 따라서, 일 실시예에서 사용자가 장면의 하나의 영역을 보는 경우, 가장 인접한 마이크로폰으로부터의 오디오가 플레이될 수 있다. 이러한 방식으로, 오디오 재생은, 사용자가 실제로 응시하는 이미지화된 장면 내의 영역에 상관된다.

일부 실시예들에서, 장면 내의 상이한 오브젝트들에 대해 복수의 비디오가 촬영될 수 있다. 그린 스크린(green screen) 기법들은 이러한 오브젝트들을 기록하는 데 이용될 수 있어서 그것들은 종합적인 합성물로 스티치(stitch)될 수 있다. 따라서, 예를 들면, 물을 뿌리는 공원 내의 분수의 비디오는 그린 스크린 기법들을 이용하여 기록될 수 있다. 이후 플레이되고 있는 비디오는 물을 뿌리지 않는 분수를 나타낼 수 있다. 그러나, 분수 오브젝트의 묘사는 사용자가 그것을 보는 경우 장면으로부터 제거될 수 있고, 실제로 물을 뿌리는 분수의 스티치된 분할된 디스플레이로 대체될 수 있다. 따라서 종합적인 장면은, 사용자가 오브젝트의 위치를 보고 있는 경우 합성물 내로 스티치될 수 있는 분할된 비디오들의 합성물로 구성될 수 있다.

일부 케이스들에서, 디스플레이는 장면 내의 다수의 오브젝트를 표현하는 다양한 비디오들로 분할될 수 있다. 사용자가 이러한 오브젝트들 중 하나를 볼 때는 언제든지, 오브젝트의 비디오는 종합적인 합성물로 스티치되어 오브젝트의 모습을 변화시킬 수 있다.

링크 모듈(20)은 디스플레이를 구동하기 위한 디스플레이 드라이버(26)에 결합될 수 있다. 모듈(20)은 또한, 스크린의 특정 영역들의 선택과 연관되어 활성화되고 플레이될 수 있는 파일들을 저장하기 위한 이용 가능한 저장소(24)를 가질 수 있다.

따라서, 도 2를 참조하면, 시퀀스(30)는, 소프트웨어, 펌웨어, 및/또는 하드웨어에 의해 구현될 수 있다. 소프트웨어 또는 펌웨어 실시예들에서, 시퀀스는, 광, 자기, 또는 반도체 저장소와 같은, 비 일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 판독 가능 명령어들에 의해 구현될 수 있다. 예를 들어, 컴퓨터 판독 가능 명령어들로 구현된 그러한 시퀀스는 저장소(24)에 저장될 수 있다.

일 실시예에서, 시퀀스(30)는, 비디오 카메라(16)로부터 공급된 비디오 내의 사용자의 눈 위치들을 검출함으로써(블록(32)) 시작한다. 사람의 눈과 연관된 공지된 물리적 특성들에 대응하는 이미지 부분들을 식별하기 위해 공지된 기법들이 이용될 수 있다.

다음에, 블록(34)에서, 일 실시예에서, 식별 목적들을 위해 사람의 눈동자의 공지된, 기하학적 형태를 이용하여, 다시, 그것에 대해 눈으로서 식별된 영역이 서치된다.

일단 눈동자의 위치를 찾으면, 종래의 눈 검출 및 추적 기술을 이용하여 눈동자 움직임을 추적할 수 있다(블록(36)).

눈동자의 움직임의 방향(블록(36))은 진행 중인 디스플레이 내의 관심 영역들을 식별하는 데 이용될 수 있다(블록(38)). 예를 들어, 눈동자의 위치는, 특정 픽셀 위치들에 대한 지오메트리(geometry)를 이용하여 상관될 수 있는, 디스플레이 스크린에 대한 시야각의 라인에 대응할 수 있다. 일단 그러한 픽셀 위치들이 식별되면, 데이터베이스 또는 테이블은 특정 픽셀 위치들을, 스크린의 영역들 또는 별개의 세그먼트들 또는 이미지 오브젝트들을 포함하는, 스크린 상의 특정 묘사들에 링크할 수 있다.

마지막으로, 블록(40)에서, 미디어 파일들은 관심 영역에 링크될 수 있다. 다시, 묘사된 영역들 또는 오브젝트들의 다양한 변화들이, 사용자가 실제로 그 영역을 보고 있다는 것의 검출에 응답하여 자동적으로 구현될 수 있다.

예를 들어, 선택된 오디오는, 사용자가 스크린의 한 영역을 보고 있는 경우 플레이될 수 있다. 또 다른 오디오 파일은, 사용자가 스크린의 또 다른 영역을 보고 있는 경우 자동적으로 플레이될 수 있다.

마찬가지로, 비디오는, 사용자가 그 영역을 보는 경우 스크린의 하나의 특정 영역 내에서 시작할 수 있다. 상이한 비디오는, 사용자가 스크린의 상이한 영역을 보는 경우 시작될 수 있다.

마찬가지로, 스크린의 영역에서 모션이 이미 활성이면, 사용자가 그 영역을 보는 경우, 모션의 레이트는 증가될 수 있다. 또 다른 옵션으로서, 모션은, 사용자가 그것을 보는 경우 정지한 영역에서 턴 온되거나 또는 그 반대일 수 있다.

부가적인 예시들로서, 관심 영역의 디스플레이의 크기는 사용자 시선 검출에 응답하여 증가되거나 감소될 수 있다. 또한, 감기 및 되감기는 사용자 시선 검출에 응답하여 선택적으로 구현될 수 있다. 계속해서 부가적인 실시예들은 그 영역 내의 재생을 일시 정지시키거나 또는 시작하는 것을 포함한다. 또 다른 가능성은 관심 영역에서 3차원(3D) 효과들을 구현하거나 또는 관심 영역에서 3D 효과들을 비활성화하는 것이다.

본원에 설명된 그래픽 처리 기법들은 다양한 하드웨어 아키텍처들에서 구현될 수 있다. 예를 들어, 그래픽 기능은 칩셋 내에 집적될 수 있다. 대안으로, 별개의 그래픽 프로세서가 이용될 수 있다. 계속하여 또 다른 실시예로서, 그래픽 기능들은, 멀티 코어 프로세서를 포함하는, 범용 프로세서에 의해 구현될 수 있다.

본 명세서 전체에 걸쳐, "일 실시예" 또는 "실시예"에 대한 참조는, 실시예와 함께 설명된 특정 특징, 구조, 또는 특성이, 본 발명에 포함된 적어도 일 구현에는 포함된다는 것을 의미한다. 따라서, 구절 "일 실시예" 또는 "실시예에서"의 출현은 반드시 동일한 실시예를 지칭하는 것은 아니다. 또한, 특정 특징들, 구조들, 또는 특성들은 예시된 특정 실시예 외에 그외의 적합한 형태들로 개시될 수 있고, 모든 그러한 형태들은 본 출원의 특허청구범위에 포함될 수 있다.

본 발명이 한정된 수의 실시예들에 대해 설명되었지만, 본 기술 분야에 숙련된 자들은 그로부터의 다수의 수정 및 변형을 알 것이다. 첨부된 특허청구범위는, 모든 그러한 수정들 및 변형들을 본 발명의 참된 기술적 사상 및 범위에 속하는 것으로서 포함하는 것으로 의도된다.

Claims

시선 검출(eye gaze detection)을 이용하여 사용자가 디스플레이 스크린의 일부분에서만 보고 있는 오브젝트를 식별하는 단계,
사용자가 상기 디스플레이 스크린 상에서 보고 있는 상기 오브젝트를 애니매이션화(animating)하는 것에 의해 상기 오브젝트를 변경하는 단계, 및
오브젝트가 모션 중에 있는 것으로 검출되었는지를 결정하고, 검출된 것으로 결정되면, 상기 사용자가 보고 있는 상기 디스플레이 스크린의 영역에서 상기 오브젝트의 모션의 레이트를 증가시키는 단계
를 포함하는 방법.
제1항에 있어서,
상기 사용자가 상기 디스플레이 스크린의 영역을 보고 있다는 상기 검출에 응답하여, 상기 사용자가 보고 있는 그 영역에서 2차원의 비디오의 위치에 3차원의 효과들을 플레이하는 단계를 포함하는 방법.
삭제
제1항에 있어서,
상기 사용자가 보고 있는 상기 디스플레이 스크린 상의 영역과 연관된 오디오를 시작하거나 또는 정지시키는 단계를 포함하는 방법.
제1항에 있어서,
상기 사용자가 상기 디스플레이 스크린의 영역을 보고 있다는 것을 검출하는 것에 응답하여 상기 사용자가 보고 있는 그 영역의 크기를 증가시키는 단계를 포함하는 방법.
컴퓨터로 하여금, 시선 검출을 이용하여 사용자가 디스플레이 스크린 상의 상기 디스플레이 스크린의 일부분에서만 보고 있는 오브젝트를 식별하고, 사용자가 상기 디스플레이 스크린 상에서 보고 있는 상기 오브젝트를 애니매이션화하는 것에 의해 상기 오브젝트를 변경하게 하고, 상기 오브젝트가 모션 중에 있는 것으로 검출되었는지를 결정하고, 검출된 것으로 결정되면, 상기 사용자가 보고 있는 영역에서 묘사된 상기 오브젝트의 모션의 레이트를 증가시키기 위한 명령어들을 저장하는 비 일시적 컴퓨터 판독 가능 매체.
제6항에 있어서,
상기 사용자가 보고 있는 영역을 상기 사용자가 보고 있다는 검출에 응답하여 그 영역에서 비디오를 플레이하기 위한 명령어들을 더 저장하는 매체.
삭제
제6항에 있어서,
상기 사용자가 보고 있는 상기 디스플레이 스크린의 영역과 연관된 오디오를 시작하거나 또는 정지시키기 위한 명령어들을 더 저장하는 매체.
제6항에 있어서,
상기 사용자가 영역을 보고 있다는 것을 검출하는 것에 응답하여 상기 사용자가 보고 있는 그 영역의 크기를 증가시키기 위한 명령어들을 더 저장하는 매체.
프로세서, 및
컴퓨터 시스템의 사용자의 비디오를 수신하기 위한 비디오 인터페이스
를 포함하고,
상기 프로세서는, 상기 비디오를 이용하여 사용자가 디스플레이 스크린의 일부분에서만 보고 있는 오브젝트를 식별하고, 상기 사용자가 보고 있는 상기 오브젝트를 애니매이션화하는 것에 의해 상기 오브젝트를 변경하고, 상기 오브젝트가 모션 중에 있는 것으로 검출되었는지를 결정하고, 검출된 것으로 결정되면, 상기 사용자가 보고 있는 상기 오브젝트의 모션의 레이트를 증가시키는 장치.
제11항에 있어서,
상기 프로세서에 결합되는 비디오 디스플레이를 포함하는 장치.
제11항에 있어서,
상기 비디오 디스플레이 상에 장착되고 상기 비디오 인터페이스에 결합되는 카메라를 포함하는 장치.
제11항에 있어서,
상기 프로세서는, 상기 사용자가 디스플레이의 영역을 보고 있다는 검출에 응답하여 그 영역에서 비디오를 재생하는 장치.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제