KR20170038164A

KR20170038164A - 자동 플렌옵틱 비디오 리포커싱을 위한 오디오 이벤트 검출

Info

Publication number: KR20170038164A
Application number: KR1020160124290A
Authority: KR
Inventors: 피에르 헬리어; 꽝 카잉 응옥 듀옹; 발레리 앨리; 필리프 레이엔데커
Original assignee: 톰슨 라이센싱
Priority date: 2015-09-29
Filing date: 2016-09-27
Publication date: 2017-04-06
Also published as: JP2017069949A; EP3151535A1; US10674057B2; US20170094143A1; CN106954121A

Abstract

플렌옵틱 카메라 및 연관된 방법이 제공된다. 카메라는 디지털 이미지들을 생성하기 위한 센서들의 어레이를 갖는다. 이미지들은 연관된 오디오 신호들을 갖는다. 센서들의 어레이는 디폴트 공간 좌표와 연관된 디지털 이미지들을 캡처하도록 구성되고, 또한, 새로운 공간 좌표에서 이벤트의 발생에 기초하여 상기 디폴트 공간 좌표에서 상기 새로운 공간 좌표로 초점을 변경하기 위해 프로세서로부터 입력된 제어를 수신하도록 구성된다.

Description

자동 플렌옵틱 비디오 리포커싱을 위한 오디오 이벤트 검출{AUDIO EVENT DETECTION FOR AUTOMATIC PLENOPTIC VIDEO REFOCUSING}

본 개시는 일반적으로 녹화 및 방송 기술에 관한 것으로서, 특히, 리포커싱 기능(refocusing feature)을 갖는 플렌옵틱 카메라(plenoptic camera)를 사용하는 방송 기술에 관한 것이다.

본 섹션은 독자에게 본 기술의 여러 관점을 소개하고 제공된 여러 실시예들의 더욱 나은 이해를 용이하게 하기 위한 것이다. 이에 따라, 본 설명들은 이러한 관점에서 판독해야 하고 종래의 기술에 대한 인정이 아님을 이해해야 한다.

단순한 배열로 전형적인 3D 이미지를 캡처하는 디바이스는 우안 이미지 및 좌안 이미지 모두를 캡처한다. 이에 따라, 이러한 방법은 최종 제품의 전체 사이즈 및 품질을 증가시키는 두 개의 카메라들을 필요로 한다. 두 개의 카메라들을 동시에 사용하는 부담을 해소하기 위하여, 단일 플렌옵틱 카메라를 이용하여 시차 또는 “멀티-뷰포인트 이미지(multi-viewpoint image)”능력으로 다수의 이미지들을 캡처하기 위한 기술들이 개발되었다. 플렌옵틱 카메라는 이미지 평면에서 렌티큘러 렌즈 어레이(lenticular lens array)의 앞에 배치된 단일 렌즈를 사용하여 이미지들을 캡처한다. 플렌옵틱 카메라에 있어서, 메인 렌즈 구경은 각각의 렌티큘러 요소 뒤에서 이미지화한다. 최종 이미지는 장면을 앞에서 반사하는 각각의 렌즈와 함께 다른 렌즈들에 의해 캡처된 다수의 서브-이미지들로부터 생성된다.

렌티큘러 어레이 뒤의 이미지는 디지털 플렌옵틱 이미지를 획득하기 위해 디지털화된다. 그 결과, 각각의 서브-이미지는 메인 구경에 들어가는 광선들의 경로를 인코딩하는 픽셀들의 국부적인 어레이에 의해 표현된다. 큰 구경에 있어서, 각각의 서브-이미지의 다양한 픽셀들은 서브-이미지를 밝게 비출 것이다. 작은 구경에 있어서, 단지 한 픽셀만이 밝게 비출 것이다.

최근에, 플렌옵틱 카메라의 개발과 함께, 디지털 카메라들 및 디지털 영화 카메라들 전체의 성능 및 기능은 기술의 개선으로 인하여 독립적으로 향상되었다. 예를 들어, 전하 결합 디바이스 어레이들(CCD) 또는 상보성 금속 산화물 반도체 어레이(CMOS)와 같은 일부 고체-상태 이미지 센서들의 사용은 이들 카메라의 품질 및 이용의 편의성을 크게 향상시켰다. 특히, 이미지 센서에 사용하기 위한 픽셀 구조의 사이즈는 반도체 디바이스 처리 기술들의 빠른 발전으로 인하여 더 감소하였고, 이에 의해, 더욱 높은 해상도를 달성한다. 지금, 이미징 기술의 향상과 결합된 플렌옵틱 카메라들의 개발은 많은 수의 픽셀들 및 드라이버들이 이미지 센서에 함께 집적될 수 있게 하고, 이에 의해, 놀라운 결과를 제공한다. 이러한 개발은 보는 즐거움을 향상시킬 수 있고 제시된 이미지들의 해상도를 개선할 수 있다. 그러나, 종래의 기술에 있어서는 몰입형 시청 경험을 창출할 때 그들 개선을 완전히 이용하여 엔터테인먼트의 전체 가치를 개선할 수 있는 디바이스 및 기술들이 전혀 없다.

플렌옵틱 카메라 및 연관된 방법을 제공한다.

플렌옵틱 카메라 및 연관된 방법이 제공된다. 일 실시예에 있어서, 카메라는 디지털 이미지들을 생성하기 위한 센서들의 어레이를 갖는다. 이미지들은 연관된 오디오 신호들을 갖는다. 센서들의 어레이는 디폴트 공간 좌표와 연관된 디지털 이미지들을 캡처하도록 구성되고, 또한, 새로운 공간 좌표에서 이벤트의 발생에 기초하여 상기 디폴트 공간 좌표에서 상기 새로운 공간 좌표로 초점을 변경하기 위해 프로세서로부터 입력된 제어를 수신하도록 구성된다.

다른 실시예에 있어서, 연관된 방법은, 프로세서를 통해 복수의 디지털 이미지들을 플렌옵틱 카메라로부터 수신하는 단계; 프로세서를 통해 이미지들과 연관된 복수의 오디오 신호들을 수신하는 단계; 및 프로세서에 의해 이벤트의 발생을 결정하고, 초점을 디폴트 공간 좌표에서 이벤트의 발생과 연관된 새로운 공간 좌표로 변경하는 단계를 포함한다.

본 발명의 일 실시예에 의해 제공되는 거의 순간적인 재-이동은 이벤트들이 발생하는 시기에 맞추어 방송 이벤트들의 전달을 허용하는 몰입형 경험을 제공할 수 있으며, 이에 따라, 사용자 및 뷰어는 게임, 파티에서 최적의 순간을 용이하게 따를 수 있거나 보안 문제를 인식할 수 있고, 심지어 즉각적인 결과를 제공하는 방식으로 고객들과 상호 작용할 수 있다.

도 1은 복수의 마이크로폰들을 갖는 분배된 플렌옵틱 이미징 시스템을 도시한 블록 다이어그램;
도 2는 도 1의 실시예와 같이 일 실시예에 따른 서로 다른 계산된 관심 스코어들을 예시하는 다른 블록 다이어그램;
도 3은 일 실시예에 따라 추정된 리포커싱 평면을 도시한 블록 다이어그램; 및
도 4는 일 실시예에 따라 이미지들 및 연관된 오디오 신호들의 전달을 나타내는 플로차트이다.

본 발명은, 어떠한 방식의 제한 없이, 첨부된 도면들을 참조하여 다음 실시예 및 실행 예들에 의해 더 이해 및 예시될 것이다.

도 1 내지 도 3에 있어서, 도시된 블록들은 반드시 물리적으로 분리된 실체들에 해당하지 않는 단순히 기능적인 실체들이다. 즉, 도시된 블록들은 소프트웨어, 하드웨어의 형태로 개발될 수 있거나, 하나 이상의 프로세서들을 포함하는 하나 또는 여려 집적 회로들로 구현될 수 있다.

가능한 동일한 참조 부호들은 도면들 전체에 동일하거나 유사한 부분들을 참조하는 것으로 사용될 것이다.

본 발명의 도면들과 설명은, 명확성을 위해, 전형적인 디지털 멀티미디어 콘텐츠 전달 방법들 및 시스템들에서 찾을 수 있는 많은 다른 소자들을 제거하면서, 본 발명의 명료한 이해를 위해 관련된 요소들을 예시하도록 단순화하였음을 이해되어야 한다. 그러나, 그러한 요소들이 본 기술에 잘 공지되어 있기 때문에, 그와 같은 요소들의 상세한 설명은 본 명세서에 제공되지 않는다. 본 명세서의 개시는 모든 이러한 변경안 및 수정안들에 관한 것이다.

도 1은 플렌옵틱 이미징 시스템(100)을 도시한 일 실시예의 예시이다. 게임 또는 콘서트의 방송을 할 수 있는 스포츠 경기장(110)과 같은 장소가 제공될 수 있다. 본 실시예에 있어서, 방송은 130으로 표시된 하나 이상의 플렌옵틱 카메라들을 사용하여 수행된다. 복수의 마이크로폰들(120)은 도시된 경기장(110) 전체에 걸쳐 특정된 원하는 위치들에 선택적으로 배치될 수도 있다. 일반적으로, 방송은 하나 이상의 주로 전자, 통신 매체를 통해 분산된 시청자로의 오디오 및/또는 비디오 콘텐츠의 분배를 포함한다. 경기장(110)과 같은 큰 장소로부터의 방송은 라디오 및 텔레비전(TV) 프로그래밍을 통해 기록적으로 함축된 분배를 갖는다. 그러나, 최근에, 방송은 개인들과 다른 기업들에 의해 인터넷을 통해 이미지들의 스트리밍을 포함할 수 있다.

많은 상황에 있어서, 방송들은 인터넷 상에서 제공되는 것과 같은 많은 시청자들을 위하거나, 라디오 및 텔레비전 시스템들을 사용하여 일반 대중 소비를 위해 이루어진다. 그러나, 도 1에 도시된 본 시스템은, 더욱 크고 더욱 많은 대중 청취자를 위해 방송을 제공할 뿐만 아니라, 더욱 제한된 시청에 적당하다고 간주되도록 제공될 수도 있다. 후자는 백화점, 은행, 아파트 빌딩, 연회장 또는 심지어 가족 또는 학교 이벤트들에 중점을 두는 소규모 장소와 같은 다양한 장소를 포함할 수 있다. 또한, 이 사용은 제품들의 구매를 유혹하는 것부터 보안을 강화하는 범위까지 변경할 수 있다.

일 실시예에 있어서, 시스템(100)은 이미지들 및 오디오의 전체 관리를 허용하는 하나 이상의 컴퓨터 및/또는 프로세서들(150)을 포함하고, 하나 이상의 사용자 디바이스들로의 이미지들 및/또는 오디오의 방송을 제공한다. 도 1에 있어서, 프로세서(150)는 도시된 것과 같은 플렌옵틱 카메라(130)의 일부이지만, 다른 실시예들에 있어서, 프로세서는 별도의 엔티티 또는 하나 이상의 컴퓨터들 및/또는 서버들의 일부가 될 수 있다. 도 1은 단일 장소 시스템을 도시하지만, 다른 실시예들에서는 원격 설비들에 서로 위치될 수 있고 적어도 하나의 플렌옵틱 카메라를 각각 갖는 많은 장소들이 될 수 있다. 분리된 장소들 간의 방송은 프로세서(들) 또는 컴퓨터(들)에 의해 모니터링 및 제어될 것이며, 단일 장소의 시스템들과 유사하게 관리될 수 있다.

몰입형 방송은 특히 경기장들이 대형이거나 이벤트들이 많은 시설 전체에 걸쳐 분산될 때 제공하기 위한 도전이었다. 몰입형 비디오 방송은 리포커싱이 필요한 경기장에서 항상 녹화될 필요가 없다. 플렌옵틱 카메라를 이용하여 녹화 또는 방송될 필요가 있는 임의의 이벤트는 충분히 확대될 수 있으며, 특히 대형 이벤트와 동일하게 특정된 요구들이 있다. 이와 같은 이벤트들의 예들은 콘서트 홀, 스포츠 장소들, 오페라 하우스, 극장, 영화관 등과 같은 무대가 있는 연극 장소들, 또는 회의 및 웨딩홀, 상점과 같은 소형 장소들, 또는 이전에 설명한 보안의 필요성이 있는 호텔, 은행 및 백화점 빌딩을 포함하는 다중 설비 장소들을 포함하는 대형 경기장들을 포함한다.

단일 시설 장소들에 있어서, 도 1에 도시된 것처럼, 비디오 및 오디오는 단일 시설 또는 경기장 주위에 선택된 특정 위치들에서 캡처될 수 있다. 다중-시설 장소들(도시하지 않음)에 있어서도, 공간적으로 위치된 카메라들 및 오디오 디바이스들이 단일 위치에 분산되지 않지만 다중 위치들에 분산되는 것을 제외하고, 여전히 유지할 수 있다. 각각의 경우에 있어서, 하나 이상의 컴퓨터들 및/또는 프로세서들(150)은 많은 디바이스들 사이의 통신을 제어할 수 있다. 일 실시예에 있어서, 플렌옵틱 카메라(130)의 사용은 초점이 경기장의 일부로부터 다른 곳으로 전달되도록 할 수 있다. 이는 다중-시설 환경에서 여러 플렌옵틱 카메라들에 의해 실행된다. 이러한 경우, 디폴트 뷰와 이후에 장면들이 동일한 플렌옵틱 카메라에 의해 동시에 캡처된 다수의 다른 뷰들이 있을 것이다. 방송 이벤트의 초점을 디폴트 장면에서 대안의 장면으로 이동시키는 하나 이상의 미리 선택된 이벤트들이 될 것이다. 본 개념을 더욱 쉽게 이해하기 위하여, 한 예가 도 1의 실시예를 참조하여 제공될 수 있다.

여기서, 장소는 스타디움과 같은 단일 시설 장소일 수 있고, 이벤트는 단지 하나의 카메라에 의해 캡처되는 축구 경기일 수 있다. 디폴트 뷰는 경기장이고, 집중은 축구 경기 자체이다. 미리 선택된 이벤트는 마이크로폰들로부터의 오디오 피드백을 갖는다. 예를 들어, 본 예에 있어서, 스타디움 또는 스포츠 경기장(110)은 그 장소의 곳곳에, 예를 들어, 그 주변을 따라 전략적으로 배치되는 N 마이크로폰들(120)에 의해 둘러싸여 있다. 일 실시예에 있어서, 소리의 갑작스런 증가, 또는 특정된 임계값 또는 데시벨 이상의 소리의 갑작스런 증가는 해당 특정 마이크로폰의 근처 및 바로 옆 주위의 장면이 방송되도록 방송 초점을 해당 구역으로 재-이동시킨다. 다른 실시예들에 있어서, 미리 선택된 이벤트는 오디오 피드백으로 반드시 연결되지 않을 수 있거나, 특정 오디오 피드백에 민감할 수 있다. 예를 들어, 갑작스런 토론 또는 웃음의 소리는 비록 소리가 임계값 데시벨을 초과하지 않아도 리포커싱을 유발할 수 있다.

일 실시예에 있어서, 시스템(100)은 디지털 이미지들을 캡처하도록 구성된 플렌옵틱 카메라(130)와 이 플렌옵틱 카메라(130)와 통신하는 프로세서(150)를 포함한다. 또한, 프로세서(150)는 적어도 하나의 캡처된 디지털 이미지와 연관된 오디오 신호를 수신하기 위한 적어도 하나의 마이크로폰(120)과 통신한다. 프로세서(150)는 디폴트 공간 좌표(도시하지 않음)와 연관된 적어도 하나의 디지털 이미지 및 연관된 오디오를 전달하도록 구성된다. 프로세서(150)는 미리 선택된 분류자의 발생에 기초하여 디지털 이미지들 및 관련된 오디오의 초점 및 전달을 디폴트 공간 좌표에서 새로운 공간 좌표로 변경한다. 분류자는 새로운 공간 좌표와 연관된 이벤트의 발생에 기초한다. 또한, 시스템(100)은 다수의 마이크로폰들과 움직임, 빛, 습기, 온도 또는 본 기술에 숙련된 사람들에 의해 알 수 있는 다른 데이터를 검출할 수 있는 센서들(140)(단지 예로서 도시 및 배치되고 임의의 다른 곳에 위치될 수 있음)을 포함할 수 있다. 이는 다수의 몰입형 기회들을 제공할 수 있다. 일 실시예에 있어서, 예를 들어, 다수의 플레이어들이 공간에서 추적될 수 있고 일 실시예에서 물리적(발한, 맥박수 등)일 수 있는 파라미터들을 측정하는 센서들과 연관(전달 등)될 수 있으며, 이러한 정보는 관심의 최적의 평면을 미세하게 하는데 사용될 수도 있다.

분류자는, 일 실시예에 있어서, 이후에 논의되는 방송을 리포커싱을 맞출 수 있고 이미지를 디폴트 공간 좌표에서 분류자와 연관된 새로운 공간 좌표로 전달할 수 있는 다양한 미리 선택되거나 우선순위의 이벤트들로서 정의될 수 있다. 이 분류자는 오디오, 센서들, 이미지들, 빛 또는 다양한 다른 유사한 제한적인 이벤트들에 의해 검출되는 이벤트와 연관될 수 있다. 예를 들어, 방송 리포커싱은 웃음의 검출, 박수, 볼의 키킹, 또는 심지어, 선수들 사이의 싸움 또는 심판들 사이의 토론과 같은 비정상 이벤트의 발생에 기초하여 발생할 수 있다. 분류자가 오디오 이벤트일 때, 플렌옵틱 획득은 그에 따라 리포커싱될 것이며, 오디오는 분류자(예들 들어, 관심의 특정 이벤트)와 연관된 몰입형 경험을 생성하도록 혼합될 것이다. 시각적 이벤트는 예를 들어, 카메라가 스테이지에서 관객 부분 위로 비행하는 배우로 리포커싱이 맞춰지게 되는 연극 작품에서 스테이지 위로 피터 팬의 비행을 포함할 수 있다. 다시, 관련된 오디오가 있는 경우, 이는 동시에 전달될 것이다. 논의한 것처럼, 소리 및 오디오 피드백은 단지 그러한 미리 선택된 옵션일 수 있지만, 다른 유발된 이벤트들은 이벤트 주최자에 의해 또한 선택될 수 있다.

다른 실시예에 있어서, 하나 이상의 플렌옵틱 카메라(들)는 하나 이상의 시설에 보안을 위해 사용될 수 있다. 소리와 함께, 승인되지 않은 무단 침임을 검출할 수 있는 움직임과 빛 및/또는 열 검출기들이 있을 수 있다. 여러 분류자들이 동시에 발생할 때, 또는 여러 시설이 선택될 때, 일 실시예에 있어서, 분류자들 또는 플렌옵틱 카메라들(시설에 따라)의 우선순위 리스트는 미리 프로세서에 제공되어 설명될 한 위치에 저장될 수 있으며, 그와 같은 우선순위는 프로세서 자체에 의해 결정될 수 있다.

프로세서가 중요성의 순서를 결정할 수 있는 실시예를 설명하기 위하여, 지금 일 예가 이해를 용이하게 하기 위하여 사용된다. 그러나, 알 수 있는 것처럼, 서로 다른 대안의 실시예들은 본 기술에 숙련된 사람들에 의해 인식되는 것으로 제공될 수 있다. 본 예에 있어서, 오디오는 이벤트들(분류자)의 리포커싱 및 전달의 중요한 관점이다. 본 실시예에 있어서, 도 1의 시스템(100)은 공간적으로 보정될 수 있다. 이러한 실시예에 있어서, 마이크로폰 “i”의 포지션 “X_i“는 프로세서(150)에 의해 플렌옵틱 카메라(130)의 좌표 시스템(100)에서 알게 될 것이다. 이러한 시스템(100)은 비디오가 임의의 평면을 사용하여 리포커싱될 수 있는 몰입형 경험을 할 수 있는 기회를 제공한다. 또한, 오디오는 방송이 리포커싱되는 선택된 시점과 일치되도록 혼합(또는 관심의 이벤트의 포지션에 가까운 한 마이크로폰으로부터 선택)될 수 있다. 종래의 기술에 있어서, 대부분의 리포커싱은 수작업으로 수행되어야 한다. 예를 들어, 축구 월드컵 기간 동안 축구 게임에 있어서, 오디오 피드백은 여러 마이크로폰들로부터 혼합되기 때문에 “전경” 소리(예를 들어, 볼 키킹)는 배경 소리(관중 잡담)보다 높은 데시벨 레벨로 제공된다. 이러한 프로세스의 자동화는 단지 몇 초 지속할 수 있는, 특히 심지어 몇 초의 지연이 이벤트를 방송하지 못하게 하는 생방송 동안 이벤트들을 적시에 캡처하는 많은 이득을 제공할 수 있다.

일 실시예에 있어서, 도 1에 도시된 것과 같은 장비는 이벤트 이전에 보정될 수 있다. 이 보정 프로세스는 방송의 개시 이전에 사전-처리 단계로서 수행된다. 본 실시예에 있어서, 보정은 상대적 및 공간적으로 실행된다. 본 실시에에 있어서, 보정은 적어도 하나의 플렌옵틱 카메라(130) 및 마이크로폰들(120)의 배치와, 카메라(130)를 포함하는 좌표 시스템에서 마이크로폰들의 공간적 포지션의 결정이 필요하다. 그 보정 단계 이후에, 일 실시예에 있어서, 포지션들{X_i,i∈[1,N]}의 세트는 카메라 연관된 프로세서(140)를 통해 계산되거나 대안의 컴퓨터들 또는 프로세서들에 의해 계산된다. 본 실시예에 있어서, 서로 다른 마이크로폰들(120)로부터의 신호들은 본 기술에 숙련된 사람들에 의해 공지된 동기화 기술에 의해 동기화될 수 있고, 프로세서(140)에 의해 추가로 조작 및 처리될 수 있다.

다른 실시예에 있어서, 획득 설정은 플렌옵틱 카메라(130)가 장면을 촬영, 녹화 또는 방송할 때 제공될 수 있고, 분배된 마이크로폰들은 오디오를 획득한다. 촬용 동안, 예를 들어, 각각의 마이크로폰에 대해서, 관심의 피처의 검출이 또한 실행될 수 있고, 이는 사전-선택 기준에 연결될 수 있다. 예를 들어, 분류자를 사용하여, 웃음, 박수, 볼 키킹과 같은 특정 소리의 검출은 공지된 기술들을 사용하여 실시간 실행될 수 있다. 또한, 이전에 설명한 것처럼, 오디오 신호들에 대한 비정상들의 검출을 사용하는 것도 가능하다. 그 프로세스의 종료에서, “i”로 색인된 각각의 마이크로폰은 0과 1사이의 관심 스코어를 제공한다. 0의 스코어는 그 신호에 특별한 관심이 없음을 나타내고, 1은 최대 관심을 나타낸다. 수학적으로, 순간(t)에서 스코어들{S_i(t),i∈[1,N]}의 세트가 추정된다. 도 2에 제공된 실시예는 그와 같은 검출의 예를 제공한다.

도 2에 도시된 예에 있어서, 각각의 마이크로폰의 음영은 계산된 관심 스코어를 나타낸다. 본 예에 있어서, 밝은 회색은, 마이크로폰(225)에 의해 도시된 것처럼, 낮은 스코어를 나타내고, 어두운 회색(229)은 높은 스코어에 해당한다. 밝은 색과 어두운 색 사이의 차이는 도 2에서 227 및 228로 도시된 관심 및 스코어의 변화 범위를 나타낸다. 본 예에 있어서, 각각의 순간(t)에서, 리포커싱 평면의 최적의 포지션이 일 실시예에 있어 가중 회귀 문제의 해법으로서 계산될 수 있고, 평균 제곱 오차를 최소화하는 평면 포지션 P(t)를 추정한다.

최소 제곱 과제는 이 과제가 포인트들의 세트에 가장 잘 맞는 초평면을 찾는 것에 대응하기 때문에 해결하기 쉽다. 이러한 해법은 초평면이 포인트들의 중심을 통과해야 한다는 것으로 공지되어 있고, 직교 벡터의 방향은 주 구성 성분 분석으로 쉽게 획득할 수 있다.

본 예에 있어서, 최선의 해결은, 모든 마이크로폰들이 평면(이 경우, 방향(z)가 정확히 상승 또는 중력의 방향)에 거의 정렬되어 있기 때문에, 식 z=0의 평면에 대응한다. 이는 마이크로폰들이 축구장에 있는 예를 생각, 상상하는 것은 간단하다.

보다 더 효율적인 해법을 제공하기 위하여, 다른 실시예에 있어서, 자기 상관 행렬의 두 번째 최소 고유값에 연관된 고유값(방향에 연관된 경우 최소 고유값)을 보유함으로써 해법을 얻을 수 있다. 수학적으로, 추정을 위해 평면에 수직인 단위 벡터가 다음

임을 의미한다. 이러한 제약에 의해, 최적의 평면은 최소 제곱 솔버(least-square solver)를 통해 추정될 수 있다. 도 3은 다른 실시예에 따라 본 리포커싱 평면 추정의 결과를 예시한다.

도 3에 제공된 실시예의 예에 있어서, 마이크로폰들의 배치 및 유효성이 고려되었다. 본 예에 있어서, 리포커싱 평면(300)이 추정된다. 본 해결은 평균 제곱 거리를 최소화한다. 예를 들어, 일 실시예에 있어서, 리포커싱 관점이 최고 관심 스코어로 마이크로폰 주위의 위치에 의해 간단히 선택될 수 있는 하나의 변형안이 있을 수 있고, 이는 예를 들어,

일 때 적용될 수 있다. 다른 실시예에 있어서, 리포커싱 평면의 최적의 포지션이 상대적으로 높은 관심 스코어로 마이크로폰 포지션의 서브-세트로부터 결정되는 다른 변형안이 있을 수 있다(예를 들어,

> 임계값):

사용자 또는 뷰어에 몰입형 경험을 제공하기 위하여, 플렌옵틱 획득을 정확하게 재초점을 위해 사용될 평면은 시각적으로 불편할 수 있는 지터를 방지하기 위하여 시간적으로 필터링된다. 이를 위해, 데이터에 관한 임의의 시간적 필터링은 예를 들어, 칼만 필터링(Kalmann filtering) 또는 휴리스틱 업데이트 규칙(heuristic update rule)으로서 사용될 수 있다.

도 4는 본 예를 사용하는 일부 방법론의 흐름도이다. 본 실시예에 있어서, 방법론은 도 1 내지 도 3을 보면 더 알 수 있다. 단계(410)에 도시된 것처럼, 장소에 있는 적어도 하나의 플렌옵틱 카메라 및 복수의 마이크로폰들과 통신하는 프로세서는 각각의 마이크로폰과 연관된 보정 스코어들을 수신한다. 단계(420)에서, 프로세서는 각각의 마이크로폰과 연관된 관심 스코어를 또한 수신한다. 다음, 단계(430)에 도시된 것처럼, 프로세서는 보정 스코어 및 관심 스코어에 기초하여 마이크로폰들의 각각에 대한 임계값 오디오 범위를 계산한다. 이는, 이전에 설명한 것처럼, 녹화될 수 있는 오디오 신호가 얼마나 중요한가를 각각의 마이크로폰의 위치가 결정할 수 있기 때문이다. 예를 들어, 관중들이 앉아 있는 위치에 있는 마이크로폰은 훨씬 높은 임계값을 가질 수 있으므로, 소음은 관중들 사이의 관중 함성 또는 평상시 토론의 일반적인 레벨에 기초하여 방송 리포커싱을 유발하지 않는다. 그러나, 심판 테이블에 배치된 마이크로폰은 보다 민감하게 될 수 있고 훨씬 낮은 임계값으로 조정될 수 있기 때문에, 심지어 열띤 토론은 방송 리포커싱을 유발할 수 있다. 프로세서는 디지털 이미지들 및 연관된 오디오 신호들을 단계(400)에 도시된 것처럼 디폴트 공간 좌표로부터 통상적으로 전달한다. 그러나, 이러한 전달 및 초점은 단계(440) 내지 단계(460)에 도시된 것처럼 오디오 범위 임계값이 초과되었을 때 디폴트 공간 좌표에서 새로운 공간 좌표로 이동하게 될 것이다. 새로운 공간 좌표는 초과된 임계값 마이크로폰의 위치와 연관된다. 단계(450) 내지 단계(455)에 도시되어 있는 것처럼, 2 이상의 분류자 또는 이벤트가 검출되는 경우에, 이전에 설명한 것처럼 초점 평면의 확립으로 이어질 수 있는 우선순위가 존재할 수 있다.

일 실시예에 의해 제공되는 거의 순간적인 재-이동은 이벤트들이 발생하는 시기에 맞추어 방송 이벤트들의 전달을 허용하는 몰입형 경험을 제공할 수 있다. 따라서, 사용자 및 뷰어는 게임, 파티에서 최적의 순간을 용이하게 따를 수 있거나 보안 문제를 인식할 수 있고, 심지어 즉각적인 결과를 제공하는 방식으로 고객들과 상호 작용할 수 있다.

100...플렌옵틱 이미징 시스템
120...마이크로폰
130...플렌옵틱 카메라
150...프로세서

Claims

연관된 오디오 신호들을 갖는 디지털 이미지들을 생성하기 위한 센서들(140)의 어레이를 갖는 플렌옵틱 카메라(130)로서,
디폴트 공간 좌표(400)와 연관된 디지털 이미지들을 캡처하도록 구성된 센서들의 상기 어레이;
새로운 공간 좌표(460)에서 이벤트(440)의 발생에 기초하여 상기 디폴트 공간 좌표에서 상기 새로운 공간 좌표로 초점을 변경하기 위해 프로세서로부터 입력된 제어를 수신하도록 구성된 센서들의 상기 어레이를 포함하는, 플렌옵틱 카메라.
제 1 항에 있어서,
적어도 하나의 센서(140)는 프로세서와 통신하는, 플렌옵틱 카메라.
제 1 항 또는 제 2 항에 있어서,
상기 이벤트는 상기 센서에 의해 검출된 적어도 하나의 분류자(classifier)의 발생과 연관된, 플렌옵틱 카메라.
제 1 항 또는 제 2 항에 있어서,
상기 오디오 신호들은 복수의 마이크로폰들(120)에 의해 캡처되는, 플렌옵틱 카메라.
제 2 항 또는 제 3 항에 있어서,
2개 이상의 분류자(450)가 존재하고, 리포커싱의 순서는 우선순위 리스트의 분류자들의 선택된 순서에 기초하는, 플렌옵틱 카메라.
제 5 항에 있어서,
적어도 하나의 분류자는 오디오 이벤트인, 플렌옵틱 카메라.
제 6 항에 있어서,
상기 오디오 이벤트들은 웃음, 박수, 또는 볼의 소리 중 하나를 포함하는, 플렌옵틱 카메라.
제 5 항 또는 제 7 항에 있어서,
상기 오디오 이벤트는 미리 선택된 데시벨 임계값보다 큰 임의의 비정상적인 큰 소리인, 플렌옵틱 카메라.
디폴트 공간 좌표(400)에 초점을 맞춘 플렌옵틱 카메라(130)를 사용하여 이미지를 캡처하는 방법으로서,
프로세서를 통해 복수의 디지털 이미지들을 상기 플렌옵틱 카메라로부터 수신하는 단계;
상기 프로세서를 통해 상기 디지털 이미지들과 연관된 복수의 오디오 신호들을 수신하는 단계;
상기 프로세서에 의해 이벤트(440)의 발생을 결정하고, 초점(460)을 상기 디폴트 공간 좌표에서 상기 이벤트의 상기 발생과 연관된 새로운 공간 좌표로 변경하는 단계를 포함하는, 플렌옵틱 카메라를 사용하여 이미지를 캡처하는 방법.
제 9 항에 있어서,
상기 디폴트 공간 좌표들은 장소(110)와 연관되고, 상기 오디오 신호들은 상기 장소(110)의 서로 다른 위치들에 배치된 복수의 마이크로폰들(120)로부터 수신되며,
상기 프로세서에 의해 복수의 보정 스코어들(410)을 상기 복수의 마이크로폰들(120)로부터 수신하는 단계;
상기 프로세서(130)에 의해 상기 마이크로폰들(120)의 각각의 위치와 연관된 관심 스코어(420)를 결정하는 단계;
상기 프로세서에 의해 상기 보정 스코어 및 상기 관심 스코어에 기초하여 상기 마이크로폰들의 각각에 대한 임계값 오디오 범위(430)를 계산하는 단계를 더 포함하고,
상기 프로세서는 오디오 범위 임계값이 초과되었을 때 디지털 이미지들 및 연관된 오디오 신호의 초점 및 전달을 상기 디폴트 공간 좌표(400)에서 새로운 공간 좌표로 변경하고, 상기 새로운 공간 좌표는 상기 초과된 오디오 범위 임계값과 연관된 상기 마이크로폰의 위치와 연관되는, 플렌옵틱 카메라를 사용하여 이미지를 캡처하는 방법.
제 10 항에 있어서,
2 이상의 임계값 범위(450)가 초과될 때, 상기 프로세서는 최고 관심 스코어와 연관된 마이크로폰에 기초하여 상기 새로운 공간 좌표를 제공하는, 플렌옵틱 카메라를 사용하여 이미지를 캡처하는 방법.
제 11 항에 있어서,
상기 프로세서는 상기 마이크로폰들을 관심 스코어들로 분류하는, 플렌옵틱 카메라를 사용하여 이미지를 캡처하는 방법.
제 12 항에 있어서,
상기 분류는 높은 등급에서 낮은 등급까지의 범위에 있고, 리포커싱 평면은 임계값 오디오 범위가 2개 이상의 마이크로폰에 의해 초과했을 때 상기 프로세서에 의해 이미지들의 전달을 위해 계산되는, 플렌옵틱 카메라를 사용하여 이미지를 캡처하는 방법.
제 13 항에 있어서,
상기 리포커싱 평면의 최적의 포지션은 상기 프로세서에 의해 상대적으로 높은 관심 스코어를 갖는 마이크로폰 포지션의 서브-세트로부터 계산되고, 상기 리포커싱 평면은 상기 프로세서에 의해 가중 회귀 값을 계산함으로써 최적화될 수 있는, 플렌옵틱 카메라를 사용하여 이미지를 캡처하는 방법.
제 14 항에 있어서,
상기 가중 회귀 값은 각각의 마이크로폰 및 이에 연관된 관심 스코어의 최소 평균 제곱근의 값에 기초하여 추정되는, 플렌옵틱 카메라를 사용하여 이미지를 캡처하는 방법.