KR102517876B1

KR102517876B1 - 증강 현실 데이터를 레코딩하기 위한 기술

Info

Publication number: KR102517876B1
Application number: KR1020227010984A
Authority: KR
Inventors: 레자 누라이; 마이클 해럴드 리베나우; 로버트 블레이크 테일러; 로버트 와이어트
Original assignee: 매직 립, 인코포레이티드
Priority date: 2017-03-17
Filing date: 2018-03-16
Publication date: 2023-04-03
Also published as: JP2022040219A; KR20230048457A; CN110402415A; US11380068B2; IL290001B; JP7007396B2; AU2018234929B2; IL268777A; EP4329305A2; JP2020511718A; KR102384232B1; EP3596542B1; WO2018170490A1; EP4329305A3; AU2022241459A1; CA3055219A1; KR20220047882A; US10861244B2; US20200151960A1; IL297863A

Abstract

증강 현실 시스템 내의 카메라의 관점으로부터 이 시스템들로부터의 생성된 레코딩에 대한 개선된 접근법이 개시된다. AR 레코딩들을 위해 사용자의 눈들의 관점으로부터의 렌더링된 가상 콘텐츠를 재사용하는 대신, 특히 AR 레코딩을 위해 부가적인 관점으로부터 부가적인 가상 콘텐츠가 렌더링된다. 이 부가적인 가상 콘텐츠는 카메라에 의해 생성된 이미지 프레임들과 결합되어 AR 레코딩을 형성한다.

Description

증강 현실 데이터를 레코딩하기 위한 기술{TECHNIQUE FOR RECORDING AUGMENTED REALITY DATA}

[0001] 본 개시내용은 일반적으로 증강 현실 기술들에 관한 것이다.

[0002] 현대 컴퓨팅 및 디스플레이 기술들은 소위 "가상 현실" 또는 "증강 현실"을 위한 시스템들의 개발을 용이하게 했으며, 여기서 디지털적으로 재생된 이미지들 또는 이미지들의 부분들은, 그들이 실제인 것으로 보이거나, 실제인 것으로 지각될 수 있는 방식으로 사용자에게 제시된다. 가상 현실(virtual reality; VR) 시나리오는 통상적으로 다른 실제 실세계 시각적 입력에 대한 투명성(transparency) 없는 디지털 또는 가상 이미지 정보의 프리젠테이션(presentation)을 수반하는 반면, 증강 현실(augmented reality; AR) 시나리오는 통상적으로 사용자 주위의 실제 실세계의 시각화에 대한 증강으로서 디지털 또는 가상 이미지 정보의 프리젠테이션을 수반한다.

[0003] VR 및 AR 시스템들은 통상적으로 사용자의 머리에 적어도 느슨하게 커플링된 웨어러블 디스플레이 디바이스들(예컨대, 머리-착용 디스플레이들, 헬멧-장착 디스플레이들 또는 스마트 안경)을 사용하고, 이에 따라 최종 사용자의 머리가 움직일 때 움직인다. 최종 사용자의 머리 움직임들이 디스플레이 시스템에 의해 검출되는 경우, 디스플레이되는 데이터는 머리 포즈(예컨대, 사용자의 머리의 배향(orientation) 및/또는 위치)의 변화를 고려하여 업데이트될 수 있다.

[0004] 예로서, 머리-착용 디스플레이를 착용한 사용자가 디스플레이 상의 3차원(3D) 객체의 가상 표현을 뷰잉하고 3D 객체가 나타나는 영역 주위를 걷는 경우, 그 3D 객체는, 각각의 관점에 대해 다시 렌더링되어 최종 사용자가 실제 공간을 점유한 객체 주위를 걷고 있다는 지각을 최종 사용자에게 제공할 수 있다. 머리-착용 디스플레이가 가상 공간 (예컨대, 풍부한 가상 세계) 내에 다수의 객체들을 제시하는 데 사용되는 경우, 최종 사용자의 동적으로 변하는 머리 위치 및 배향에 매칭하도록 장면을 다시 렌더링하고 가상 공간에서의 증가된 몰입감을 제공하도록 머리 포즈의 측정들이 사용될 수 있다.

[0005] AR을 가능하게 하는 머리-착용 디스플레이들은 실제 및 가상 객체들 둘 모두의 동시성 뷰잉(concurrent viewing)을 제공한다. "광학 시-스루(optical see-through)" 디스플레이를 통해, 최종 사용자는 환경의 실제 객체들로부터의 광을 직접 응시하기 위해 디스플레이 시스템의 투명(또는 반투명) 엘리먼트들을 통해 볼 수 있다. "결합기(combiner)"로서 종종 지칭되는 투명 엘리먼트는 실세계의 최종 사용자의 뷰 위에 디스플레이로부터의 광을 중첩하며, 여기서 디스플레이에 의해 생성된 광은 실세계의 시-스루 뷰 위에 가상 콘텐츠의 이미지를 프로젝팅한다. 카메라가 웨어러블 디스플레이 상에 장착되어 사용자에 의해 뷰잉되는 장면의 이미지들 또는 비디오들을 캡처할 수 있다.

[0006] 웨어러블 디스플레이를 동작시킬 때, 사용자는 AR 디바이스를 동작시키는 데 있어 사용자의 경험의 레코딩(recording)을 보존하고자 할 수 있다. 예컨대, 전자 비디오 게임들을 플레이하는 게이머들은 종종, 게임플레이의 실시간 액션의 레코딩을 생성하도록 선택하며, 여기서 레코딩은 나중에 플레이백될 수 있다. AR 시스템들의 맥락에서, 이는 레코딩이 디스플레이 시스템의 동작 동안 결합된 실제 및 가상 객체들의 레코딩을 포함해야 한다는 것을 의미한다.

[0007] 문제는, AR 시스템의 가상 객체들은 사용자의 눈들/머리의 관점으로부터 렌더링되는 반면, 실제 객체들을 실제로 레코딩하는 카메라는 일반적으로 사용자의 눈들과 상이한 위치 및/또는 시야각으로 장착된다는 점이다. 이는, 렌더링된 가상 객체들과 실제 객체들의 레코딩을 단순히 결합하는 레코딩은 제1 관점으로부터의 가상 객체들 및 제2 관점으로부터의 실제 객체들을 보여줄 것이며 ― 이는 잠재적으로 레코딩의 주어진 이미지 프레임에 대한 최종 이미지 결과물에서 가상 객체들의 배향 및/또는 콘텐츠의 상당한 단절을 생성한다는 것을 의미한다.

[0008] 이를 해결하기 위해, 가상 객체들이 비디오 레코딩에 제시되는 방식을 변경하기 위해 "워핑(warping)"이 적용될 수 있다. 이 접근법은 제1 관점으로부터 렌더링된 가상 객체들을 취하고, 제2 관점으로부터 이러한 가상 객체들을 디스플레이하도록 시도하기 위해 가상 객체들이 제시되는 방식을 시프트한다. 이 접근법이 갖는 한가지 문제는 가상 객체가 원래 제1 관점으로부터 렌더링될 때, 렌더링된 가상 객체는 제2 관점으로부터 가상 객체에 관한 디스플레이 가능한 정보를 포함하지 않을 수 있다는 것이다. 예컨대, 제2 가상 객체가 사용자의 눈들의 관점(즉, 제1 관점)으로부터 제1 가상 객체 뒤에 숨겨질 때, 가상 콘텐츠의 렌더링은 제2 가상(숨겨진) 객체(이는 카메라의 관점(즉, 제2 관점)으로부터 볼 수 있음)가 아닌 제1 가상 객체만을 보여줄 수 있다. 이는, 가상 콘텐츠에 대해 워핑이 수행될 때조차도, 워핑된 가상 콘텐츠는 제1 가상 객체에 대한 콘텐츠만을 포함하고 카메라의 관점으로부터 볼 수 있는 제2 가상 객체에 대한 콘텐츠는 여전히 누락할 것임을 의미한다. 따라서, 이 접근법은 레코딩된 이미지/비디오 프레임들의 콘텐츠 진실성에 영향을 주는 비디오 아티팩트들을 생성할 수 있다.

[0009] 이 접근법이 가진 다른 잠재적인 문제는, AR 장비 및 애플리케이션이, 레코딩에 대한 가상 콘텐츠를 워핑하기 위해 필요한 프로세싱을 수행하려고 시도하기 때문에 그것이 레이턴시를 도입한다는 것이다. 이는 웨어러블 디스플레이 상에서 사용자에게 디스플레이하기 위해 실시간 이미지들을 생성하는 데 있어 지각 가능한 지연들을 도입할 수 있다.

[0010] 따라서, 레코딩된 실제 객체들 및 렌더링된 가상 객체들의 결합을 갖는 AR 레코딩들을 생성하기 위한 개선된 접근법에 대한 필요성이 존재한다.

[0011] 일부 실시예들에 따르면, 증강 현실(AR) 레코딩들을 위해 사용자의 눈들의 관점으로부터 렌더링된 가상 콘텐츠를 재사용하는 대신, 특별히 AR 레코딩을 위해 부가적인 관점으로부터 부가적인 가상 콘텐츠가 렌더링된다. 즉, 가상 콘텐츠는 AR 레코딩들을 위한 카메라의 관점으로부터 렌더링된다. 이 부가적인 가상 콘텐츠는 카메라에 의해 생성된 이미지 프레임들과 결합되어 AR 레코딩을 형성한다. 레이턴시 및 컴퓨팅 오버헤드를 감소시키기 위해, 가상 콘텐츠의 부가적인 렌더링을 수행하기 위해 일반 GPU 프로세싱에서의 간극들이 활용(leverage)될 수 있다.

[0012] 일부 실시예들은 이미지 레코딩을 생성하기 위한 방법, 컴퓨터 프로그램 제품 및 시스템에 관한 것으로, 이들은, 카메라로 카메라 이미지 프레임을 캡처하는 것; 카메라 이미지 프레임에 대응하는 포즈 데이터를 식별하는 것 ― 포즈 데이터는 사용자 포즈 데이터 및 카메라 포즈 데이터를 포함하고, 사용자 포즈 데이터는 카메라 포즈 데이터와 상이한 관점으로부터 온 것임 ― ; 증강 현실(AR) 디바이스에서 사용자에게의 즉시 디스플레이를 위해 사용자 포즈 가상 콘텐츠를 렌더링하는 것 ― 사용자 포즈 가상 콘텐츠는 사용자의 관점으로부터의 제1 가상 콘텐츠에 대응함 ― ; 카메라 포즈 가상 콘텐츠를 렌더링하는 것 ― 카메라 포즈 가상 콘텐츠는 카메라의 관점으로부터의 제2 가상 콘텐츠에 대응함 ― ; 및 카메라 이미지 프레임을 카메라 포즈 가상 콘텐츠와 결합함으로써 이미지 레코딩을 합성하는 것을 구현한다.

[0013] 일부 실시예들은, 단일 GPU 프로세싱 사이클은 사용자 포즈 및 카메라 포즈 둘 모두에 대한 가상 콘텐츠를 렌더링하기 위한 프로세싱을 포함하고; 단일 GPU 프로세싱 사이클 동안 렌더링되는, 사용자 포즈 및 카메라 포즈에 대한 가상 콘텐츠는 동일한 프레임에 대한 것이고; 단일 GPU 프로세싱 사이클 동안 렌더링되는, 사용자 포즈 및 카메라 포즈에 대한 가상 콘텐츠는 상이한 프레임들에 대응하고; 합성기(compositor)는 카메라 이미지 프레임을 카메라 포즈 가상 콘텐츠와 결합함으로써 이미지 레코딩을 생성하고; IMU(inertial measurement unit)가 포즈 데이터를 생성하고; 미디어 인코더는 카메라 이미지 프레임을 카메라 포즈 가상 콘텐츠와 결합하는 하나 이상의 이미지 프레임들을 인코딩하고; 그리고/또는 미디어 인코더에 의해 인코딩된 하나 이상의 이미지 프레임들은 단일 이미지 프레임, 또는 다수의 이미지 프레임들의 스트림 중 적어도 하나를 포함하는 것의 임의의 결합을 더 포함한다.

[0014] 일부 실시예들은 프로세서에 의해 실행될 때, 프로세서로 하여금, 위에서 설명된 엘리먼트들의 임의의 결합을 실행하게 하는 명령들의 시퀀스를 저장한 컴퓨터 프로그램 제품에 관한 것이다.

[0015] 일부 실시예들은 이미지 레코딩을 생성하기 위한 시스템에 관한 것이며, 이 시스템은, 3차원 콘텐츠를 디스플레이하는 증강 현실 디스플레이 디바이스; 카메라 이미지 프레임을 캡처하는 카메라; 카메라 이미지 프레임에 대응하는 포즈 데이터를 식별하는 IMU ― 포즈 데이터는 사용자 포즈 데이터 및 카메라 포즈 데이터를 포함하고, 사용자 포즈 데이터는 카메라 포즈 데이터와 상이한 관점으로부터 온 것임 ― ; 사용자 포즈 가상 콘텐츠 및 카메라 포즈 가상 콘텐츠를 둘 모두를 렌더링하는 GPU ― 사용자 포즈 가상 콘텐츠는 증강 현실 디바이스에서 사용자에게의 즉시 디스플레이를 위해 렌더링되고, 사용자 포즈 가상 콘텐츠는 사용자의 관점으로부터의 제1 가상 콘텐츠에 대응하고, 카메라 포즈 가상 콘텐츠는 카메라의 관점으로부터 제2 가상 콘텐츠에 대응함 ― ; 및 카메라 이미지 프레임을 카메라 포즈 가상 콘텐츠와 결합함으로써 이미지 레코딩을 합성하는 합성기를 갖는다. 일부 실시예들은, 카메라 이미지 프레임을 카메라 포즈 가상 콘텐츠와 결합하는 하나 이상의 이미지 프레임들을 인코딩하는 미디어 인코더; 미디어 인코더에 의해 인코딩된 하나 이상의 이미지 프레임들은 단일 이미지 프레임, 또는 다수의 이미지 프레임들의 스트림 중 적어도 하나를 포함하고; 단일 GPU 프로세싱 사이클은 사용자 포즈 및 카메라 포즈 둘 모두에 대한 가상 콘텐츠를 렌더링하기 위한 프로세싱을 포함하고; 단일 GPU 프로세싱 사이클 동안 렌더링되는, 사용자 포즈 및 카메라 포즈에 대한 가상 콘텐츠는 동일한 프레임에 대한 것이고; 단일 GPU 프로세싱 사이클 동안 렌더링되는, 사용자 포즈 및 카메라 포즈에 대한 가상 콘텐츠는 상이한 프레임들에 대응하고; 그리고/또는 합성기는 카메라 이미지 프레임을 카메라 포즈 가상 콘텐츠와 결합함으로써 이미지 레코딩을 생성하는 것의 임의의 결합을 더 포함한다.

[0016] 본 개시내용의 부가적인 그리고 다른 목적들, 특징들 및 이점들은 상세한 설명, 도면들 및 청구항들에서 설명된다.

[0017] 도면들은 본 개시내용의 바람직한 실시예들의 설계 및 유용성을 예시하며, 유사한 엘리먼트들은 공통 참조 번호들에 의해 지칭된다. 본 개시내용들의 위에서 언급된 그리고 다른 이점들 및 목적들이 어떻게 달성되는지를 더 잘 인지하기 위해, 위에서 간략하게 설명한 본 개시내용들의 보다 구체적 설명이 첨부 도면들에서 예시되는 본 발명의 특정 실시예들을 참조하여 제공될 것이다. 이들 도면들이 단지 본 개시내용의 통상적인 실시예들을 도시할 뿐이며, 이에 따라 본 개시내용의 범위를 제한하는 것으로 간주되지 않는다는 것을 이해하면서, 본 개시내용은 첨부된 도면들의 사용을 통해 부가적인 특이성 및 세부사항에 관해 설명되고 기술될 것이다.
[0018] 도 1a 내지 도 1c는 본 개시내용의 일부 실시예들에 따라 구성된 예시적인 증강 현실 시스템들의 블록도들이다.
[0019] 도 2는 일부 실시예들에 따라 AR 레코딩 프로세스를 구현하기 위한 예시적인 아키텍처를 예시한다.
[0020] 도 3은 일부 실시예들에 따라, 워핑을 사용하여 AR 레코딩들을 생성하기 위한 접근법의 흐름도를 도시한다.
[0021] 도 4a 내지 도 4g는 일부 실시예들에 따라, AR 레코딩을 구현하기 위한 워핑 접근법의 예시를 제공한다.
[0022] 도 5는 일부 실시예들에 따라, AR 레코딩 프로세스를 구현하기 위한 아키텍처를 예시한다.
[0023] 도 6은 일부 실시예들에 따라, AR 레코딩들을 생성하기 위한 접근법의 흐름도를 도시한다.
[0024] 도 7a 내지 도 7f는 일부 실시예들에 따라, AR 레코딩들을 생성하기 위한 접근법을 예시한다.
[0025] 도 8은 일부 실시예들에 따라, 예시적인 GPU 프로세싱 사이클을 예시한다.
[0026] 도 9a는 일부 실시예들에 따라, 예시적인 GPU 프로세싱 사이클을 예시한다.
[0027] 도 9b는 일부 실시예들에 따라, GPU 프로세싱 사이클을 구현하기 위한 접근법의 흐름도를 도시한다.
[0028] 도 10a 및 도 10b는 일부 실시예들에 따라, 예시적인 대안적인 GPU 프로세싱 사이클을 예시한다.
[0029] 도 10c는 일부 실시예들에 따라, 대안적인 GPU 프로세싱 사이클을 구현하기 위한 접근법의 흐름도를 도시한다.
[0030] 도 11은 일부 실시예들에 따라, 예시적인 컴퓨팅 시스템의 블록도이다.

[0031] 본 개시내용은 "제3 눈" 가상 콘텐츠 렌더링을 사용하여 증강 현실(AR) 레코딩을 구현하기 위한 접근법에 관한 것이다. 일부 실시예들에 따르면, AR 레코딩들을 위해 사용자의 눈들의 관점으로부터 렌더링된 가상 콘텐츠를 재사용하는 대신에, 부가적인 가상 콘텐츠가 카메라의 관점으로부터 렌더링되고, 이 부가적인 가상 콘텐츠는 실세계의 카메라 레코딩과 결합되어 AR 레코딩을 형성한다. 일부 실시예들에서, 부가적인 가상 콘텐츠 렌더링을 생성하기 위한 부가적인 렌더링을 수행하기 위해 보통의 GPU 프로세싱에서의 간극들이 활용될 수 있다.

[0032] 본 개시내용은 먼저, 본 개시내용의 일부 실시예들이 실시될 수 있는 예시적인 AR 시스템에 대한 설명에 뒤이어, 레코딩들을 위한 AR 콘텐츠를 생성하기 위한 개선된 프로세스 및 메커니즘의 하나 이상의 실시예들의 설명을 제공할 것이다.

예시적인 증강 현실 시스템

[0033] 이어지는 설명은 본 개시내용이 실시될 수 있는 예시적인 증강 현실(AR) 시스템(이는 "증강 현실 시스템", "AR 시스템" 또는 "혼합 현실 시스템" 중 임의의 것으로서 본원에서 지칭될 수 있음)에 관한 것이다. 그러나, 본 개시내용은 또한 그 자체로 다른 유형들의 증강 현실 및 가상 현실 시스템들에서의 애플리케이션들에 적합하며, 이에 따라 본 개시내용은 본원에서 개시된 예시적인 시스템으로만 제한되는 것은 아니라는 것이 이해될 것이다.

[0034] 도 1a는 일 실시예에 따른 증강 현실(AR) 시스템(100a)을 예시하는 블록도이다. AR 시스템(100a)은 증강 현실 제어 시스템(101a)과 함께 동작되어, 최종 사용자(50)의 시야 내의 물리적인 객체들과 혼합되는 가상 객체들의 이미지들을 제공할 수 있다. 이 접근법은, 최종 사용자(50)의 시야 내의 주변 환경을 볼 수 있고 AR 시스템(100a)이 가상 객체들의 이미지들을 생성하는 하나 이상의 적어도 부분적으로 투명한 표면들을 사용한다.

[0035] AR 애플리케이션들의 경우, 최종 사용자(50)의 시야 내의 물리적 객체들에 대해 다양한 가상 객체들을 공간적으로 포지셔닝하는 것이 바람직할 수 있다. 본원에서 가상 태그들 또는 태그 또는 콜 아웃(call out)들로서 또한 지칭되는 가상 객체들은 이미지로서 표현될 수 있는 임의의 다양한 데이터, 정보, 개념 또는 논리 구조를 갖는 매우 다양한 형태들 중 임의의 형태를 취할 수 있다. 가상 객체들의 비-제한적인 예들은 가상 텍스트 객체, 가상 숫자 객체, 가상 영숫자 객체, 가상 태그 객체, 가상 필드 객체, 가상 차트 객체, 가상 맵 객체, 가상 계측 객체, 또는 물리적 객체의 가상 시각적 표현을 포함할 수 있다.

[0036] AR 시스템(100a)은 최종 사용자(50)에 의해 착용된 프레임 구조(102), 프레임 구조(102)에 의해 지지되는 디스플레이 시스템(104) - 디스플레이 시스템(104)은 최종 사용자(50)의 눈들의 전방에 포지셔닝됨 - 및 디스플레이 시스템(104)에 통합되거나 이에 연결된 스피커(106)를 포함한다. 예시된 실시예에서, 스피커(106)는, 스피커(106)(예컨대, 이어버드(earbud) 또는 헤드폰)가 최종 사용자(50)의 외이도에 인접하게(그 안에 또는 그 주변에) 포지셔닝되도록 프레임 구조(102)에 의해 지지된다.

[0037] 디스플레이 시스템(104)은 2-차원 및 3-차원 콘텐츠 둘 모두를 갖는 물리적 현실에 대한 증강들로서 편안하게 지각될 수 있는 포토-기반 방사 패턴(photo-based radiation pattern)들을 최종 사용자(50)의 눈들에 제시하도록 설계된다. 디스플레이 시스템(104)은 단일 코히어런트(coherent) 장면의 지각을 제공하는 고주파수의 프레임들의 시퀀스를 제시한다. 이를 위해, 디스플레이 서브시스템(104)은 프로젝션 서브시스템(108) 및 프로젝션 서브시스템(108)이 이미지들을 프로젝팅하는 부분적으로 투명한 디스플레이 스크린을 포함한다. 디스플레이 스크린은 최종 사용자(50)의 눈들과 주변(예컨대, 물리적) 환경 사이의 최종 사용자(50)의 시야에 포지셔닝된다.

[0038] 일부 실시예들에서, 프로젝션 서브시스템(108)은 스캔-기반 프로젝션 디바이스의 형태를 취하고, 디스플레이 스크린은, 프로젝션 서브시스템(108)으로부터의 스캔된 광이 주입되어 무한대보다 가까운 단일 광학 뷰잉 거리(예컨대, 팔의 길이)에 있는 이미지들, 다수의 이산 광학 뷰잉 거리들 또는 초점 평면들에 있는 이미지들, 및/또는 볼류메트릭 3D 객체들을 표현하도록 다수의 뷰잉 거리들 또는 초점 평면들에 스택된 이미지 층들을 생성하는 도파관-기반 디스플레이의 형태를 취한다. 광 필드에서의 이들 층들은 인간 시각 서브시스템에 연속적으로 나타나도록 함께 충분히 근접하게 스택될 수 있다(예컨대, 하나의 층은 인접한 층의 착란 원뿔(cone of confusion) 내에 있음). 부가적으로 또는 대안적으로, 화상 엘리먼트들은 둘 이상의 층들이 더 희박하게 스택된 경우조차도(예컨대, 하나의 층이 인접한 층의 착란 원뿔 외부에 있음), 광 필드에서 층들 사이의 트랜지션의 지각된 연속성을 증가시키도록 이러한 층들에 걸쳐 블렌딩될 수 있다. 디스플레이 시스템(104)은 단안 또는 양안일 수 있다. 스캐닝 조립체는 광 빔을 생성하는(예컨대, 정의된 패턴들로 상이한 컬러들의 광을 방출하는) 하나 이상의 광 소스들을 포함한다. 광 소스는 매우 다양한 형태들 중 임의의 형태, 예컨대, 픽셀 정보 또는 데이터의 각각의 프레임들에 특정된 정의된 픽셀 패턴들에 따라 적색, 녹색 및 청색 코히어런트 시준 광을 각각 생성하도록 동작 가능한 한 세트의 RGB 소스들(예컨대, 적색, 녹색 및 청색 광을 출력할 수 있는 레이저 다이오드들)의 형태를 취할 수 있다. 레이저 광은 높은 채도 및 높은 에너지 효율을 제공한다. 광학 커플링 서브시스템은 예컨대, 광을 디스플레이 스크린의 단부에 광학적으로 커플링하기 위한 하나 이상의 반사 표면들, 회절 격자들, 미러들, 이색성 미러들 또는 프리즘들과 같은 광학 도파관 입력 장치를 포함한다. 광학 커플링 서브시스템은 광섬유로부터의 광을 시준하는 시준 엘리먼트를 더 포함한다. 선택적으로, 광학 커플링 서브시스템은 광을 시준 엘리먼트로부터 광학 도파관 입력 장치의 중심에 있는 초점을 향해 수렴하도록 구성되어 광학 도파관 입력 장치의 크기가 최소화될 수 있게 하는 광학 변조 장치를 포함한다. 따라서, 디스플레이 시스템(104)은 하나 이상의 가상 객체들의 왜곡되지 않은 이미지를 사용자에게 제시하는 픽셀 정보의 일련의 합성 이미지 프레임을 생성한다. 디스플레이 시스템들을 설명하는 추가의 세부사항들은, "Display Subsystem and Method"라는 명칭으로 2013년 3월 15일에 출원된 미국 가특허 출원 일련 번호 제61/801,219호에서 제공되며, 이 가특허는 2014년 3월 14일 출원된 미국 특허 출원 일련 번호 제14/212,961호 및 "Planar Waveguide Apparatus With Diffraction Element(s) and Subsystem Employing Same"란 명칭으로 2014년 7월 14일 출원된 미국 특허 출원 일련 번호 제14/331,218호로 전환되었다.

[0039] AR 시스템(100a)은 최종 사용자(50)의 머리의 포지션 및 움직임 및/또는 최종 사용자(50)의 눈 포지션 및 미간 거리(inter-ocular distance)를 검출하기 위해 프레임 구조(102)에 장착된 하나 이상의 센서들을 더 포함한다. 이러한 센서(들)는 이미지 캡처 디바이스들(이를테면, 카메라(144)), 마이크로폰들, IMU(inertial measurement unit)들, 가속도계들, 컴퍼스들, GPS 유닛들, 라디오 디바이스들 및/또는 자이로들을 포함할 수 있다. 예컨대, 일 실시예에서, AR 시스템(100a)은 최종 사용자(50)의 머리의 움직임을 나타내는 관성 측정치들을 캡처하기 위해 하나 이상의 관성 트랜스듀서들을 포함하는 머리 착용 트랜스듀서 서브시스템을 포함한다. 이러한 디바이스들은 최종 사용자(50)의 머리 움직임들에 관한 정보를 감지, 측정 또는 수집하는 데 사용될 수 있다. 예컨대, 이들 디바이스들은 최종 사용자(50)의 머리의 치수, 움직임들, 속도들, 가속도들 및/또는 포지션들을 검출하는 데 사용될 수 있다.

[0040] AR 시스템(100a)은 하나 이상의 전향 카메라들(144a)(이하 "카메라(144a)"로서 지칭됨)을 포함한다. 카메라(144a)는 AR 시스템(100a)의 순방향으로부터 이미지들/비디오의 레코딩과 같은 임의의 수의 목적을 위해 사용될 수 있다. 또한, 카메라(144a)는 최종 사용자(50)가 로케이팅되는 환경에 관한 정보, 이를테면, 그 환경에 대한 최종 사용자(50)의 거리, 배향 및/또는 각 포지션을 나타내는 정보 및 그 환경 내의 특정 객체들을 캡처하는 데 사용될 수 있다.

[0041] 일부 실시예들에서, 예컨대, 도 1a에 예시된 바와 같이, 카메라(144)는 프레임 구조(102)에 물리적으로 부착될 수 있고, 다른 실시예들에서, 예컨대, 도 1b에 예시된 바와 같이, 카메라(144b)는 프레임 구조(102)로부터 물리적으로 원격일 수 있다. 예컨대, 카메라(144b)는 사용자가 로케이팅된 룸(room)의 선명한 시야를 갖는 벽 또는 천장 위치들에 배치될 수 있으며, 여기서 카메라(144b)는 룸 내의 알려진 좌표 위치들에 배치된다. 임의의 유형의 카메라(144)(카메라(144)는 카메라(144a, 144b), 또는 임의의 다른 적합한 유형의 이미지 획득 디바이스를 총괄적으로 지칭함)는 본 실시예들에 따라 AR 레코딩을 수행하는 데 사용될 수 있다.

[0042] AR 시스템(100a)은 최종 사용자(50)의 눈들의 각 포지션(angular position)(눈 또는 눈이 가리키는 방향), 깜박임 및 (눈 수렴을 검출함으로써) 초점 심도를 추적하기 위해 후향 카메라들을 더 포함할 수 있다. 이러한 눈 추적 정보는 예컨대, 최종 사용자의 눈들에 광을 프로젝팅하고 그 프로젝팅된 광 중 적어도 일부의 리턴 또는 반사를 검출함으로써 인식될 수 있다.

[0043] 증강 현실 시스템(100a)은 매우 다양한 형태들 중 임의의 형태를 취할 수 있는 제어 서브시스템(101a)을 더 포함한다. 제어 서브시스템(101a)은, 다수의 제어기들, 예컨대, 하나 이상의 마이크로제어기들, 마이크로프로세서들 또는 CPU(central processing unit)들, 디지털 신호 프로세서들, GPU(graphics processing unit)들, 다른 집적 회로 제어기들, 이를테면, ASIC(application specific integrated circuit)들, PGA(programmable gate array)들, 예컨대, FPGA(field PGA)들 및/또는 PLU(programmable logic controller)들을 포함한다. 제어 서브시스템은 DSP(digital signal processor), CPU(central processing unit)(150), GPU(graphics processing unit)(152) 및 하나 이상의 프레임 버퍼들 (154)을 포함할 수 있다. 도 1a는 하나의 프레임 버퍼(154)를 예시하지만, 제어 서브시스템(101a)은 하나 초과의 프레임 버퍼(154)를 포함할 수 있다. 제어 서브시스템(101)은 예컨대, 유선 또는 무선 연결을 통해 프레임 구조(102)에 통신 가능하게 커플링될 수 있다.

[0044] CPU(150)는 AR 시스템(100a)의 전체 동작을 제어한다. CPU(150)는 ROM(read only memory)으로부터 판독하고 RAM(random access memory)에 기록하고 그리고/또는 이로부터 판독할 수 있다.

[0045] GPU(152)는 프레임을 렌더링(예컨대, 3-차원 장면을 2-차원 이미지로 변환)하고 이들 프레임들을 프레임 버퍼(들)(154)에 저장한다. 예시되지 않았지만, 하나 이상의 부가적인 집적 회로들은 프레임 버퍼(들)(154) 내로의 기록 및/또는 이로부터의 판독 및 디스플레이 서브시스템(104)의 스캐닝 디바이스의 동작을 제어할 수 있다. 프레임 버퍼(154) 내로의 기록 그리고/또는 이로부터의 판독은, 예컨대, 프레임들이 오버-렌더링되는 경우 동적 어드레싱을 이용할 수 있다. GPU(152)는 3차원(3D) 데이터베이스(160)로부터 3D 장면들 내에 포함된 가상 사운드 소스와 연관된 합성 사운드 데이터뿐만 아니라 프레임을 렌더링하기 위해 하나 이상의 장면의 3D 데이터에 액세스할 수 있다.

[0046] 증강 현실 시스템(100a)은 사용자 배향 검출 모듈(148)을 더 포함한다. 사용자 배향 모듈(148)은 최종 사용자(50)의 머리의 순간 포지션을 검출하고 센서(들)로부터 수신된 포지션 데이터에 기초하여 최종 사용자(50)의 머리의 포지션을 예측할 수 있다. 사용자 배향 모듈(148)은 또한, 센서(들)로부터 수신된 추적 데이터에 기초하여, 최종 사용자(50)의 눈들, 및 특히 최종 사용자(50)가 포커싱하는 방향 및/또는 거리를 추적한다.

[0047] AR 시스템(100a)의 다양한 컴포넌트들은 분산 서브시스템에 물리적으로 포함될 수 있다. 예컨대, AR 시스템(100a)은 이를테면, 유선 리드 또는 무선 연결에 의해 디스플레이 서브시스템(104)의 일부에 동작 가능하게 커플링된 로컬 프로세싱 및 데이터 모듈을 포함한다. 로컬 프로세싱 및 데이터 모듈은 다양한 구성들로 장착되는데, 이를테면, 프레임 구조(102)에 고정적으로 부착되고, 헬멧 또는 모자에 고정적으로 부착되고, 헤드폰들에 매립되고, 최종 사용자(50)의 몸통에 제거 가능하게 부착되거나, 또는 벨트-커플링 스타일 구성으로 최종 사용자(50)의 엉덩이에 제거 가능하게 부착될 수 있다. AR 시스템(100a)은 이를테면, 유선 리드 또는 무선 연결에 의해, 로컬 프로세싱 및 데이터 모듈에 동작 가능하게 커플링되는 원격 프로세싱 모듈 및 원격 데이터 리포지토리를 더 포함하여서, 이들 원격 모듈들은 서로 동작 가능하게 커플링되고 로컬 프로세싱 및 데이터 모듈에 대한 자원으로서 이용 가능하다. 로컬 프로세싱 및 데이터 모듈은 전력-효율적 프로세서 또는 제어기뿐만 아니라, 디지털 메모리 이를테면, 플래시 메모리를 포함할 수 있으며, 이들 둘 모두는 센서들로부터 캡처되고 그리고/또는 원격 프로세싱 모듈 및/또는 원격 데이터 리포지토리를 이용하여 취득 및/또는 프로세싱되는(이는 가능하다면, 이러한 프로세싱 또는 리트리브 후에 디스플레이 서브시스템(104)으로의 전달을 위한 것임) 데이터의 프로세싱, 캐싱(caching) 및 저장을 보조하기 위해 활용될 수 있다. 원격 프로세싱 모듈은 데이터 및/또는 이미지 정보를 분석 및 프로세싱하도록 구성된 하나 이상의 비교적 강력한 프로세서들 또는 제어기들을 포함할 수 있다. 원격 데이터 리포지토리는 "클라우드" 자원 구성에서 인터넷 또는 다른 네트워킹 구성을 통하여 이용 가능할 수 있는 비교적 대형-스케일 디지털 데이터 저장 설비를 포함할 수 있다. 일 실시예에서, 모든 데이터는 저장되고 모든 컴퓨테이션은 로컬 프로세싱 및 데이터 모듈에서 수행되어, 임의의 원격 모듈들로부터 완전히 자율적인 사용을 허용한다. 위에서 설명된 다양한 컴포넌트들 사이의 커플링(coupling)들은 유선 또는 광학 통신들을 제공하기 위한 하나 이상의 유선 인터페이스들 또는 포트들, 또는 이를테면, RF, 마이크로파 및 IR을 통해, 무선 통신들을 제공하기 위한 하나 이상의 무선 인터페이스들 또는 포트들을 포함할 수 있다. 일부 구현들에서, 모든 통신들은 유선일 수 있지만, 다른 구현들에서, 모든 통신들은 광섬유(들)를 제외하면, 무선일 수 있다.

[0048] 도 1c는 일 실시예에 따른 증강 현실(AR) 시스템(100b)을 예시하는 블록도이다. AR 시스템(100b)은 제어 서브시스템(101b)을 갖는다. 제어 서브시스템(101a)과 관련하여 위에서 앞서 설명된 바와 같이, 제어 시스템(101b)은 또한 프로젝션 서브시스템(108), 하나 이상의 프레임 버퍼(154), GPU(152), 3D 데이터베이스(들)(160), 이미지/비디오 데이터(171) 및 CPU(150)를 포함한다. 제어 서브시스템(101b)은 하나 이상의 IMU(inertial measurement unit)(162), 합성기(compositor)(164), 미디어 인코더(166) 및 레코딩 데이터베이스(168)를 더 포함한다.

[0049] 프로젝션 서브시스템(108)은 최종 사용자(50)의 시야 내의 물리적 객체들과 혼합된 가상 객체들의 이미지들을 제공하며, 여기서 이미지들은 하나 이상의 프레임 버퍼들(154)에 저장될 수 있다.

[0050] IMU(162)는 예컨대, 자이로스코프에 관계된 3도 및 가속도계에 관계된 3도를 갖는 6 자유도에 대응하는 포즈 데이터를 포함하여, AR 시스템에 대한 포즈 데이터를 식별하는 센서/측정 장치에 대응한다. IMU(162)는 최종 사용자(50)의 머리의 순간 포지션을 검출한다. IMU(162)는 최종 사용자(50)의 머리와 IMU(162)가 상주할 수 있는 프레임 구조(102) 사이의 알려진 관계에 기초하여 최종 사용자(50)의 머리의 순간 포지션을 검출할 수 있다. 일부 실시예들에서, IMU(162)는 최종 사용자(50)의 머리의 이전에 검출된 포지션들에 기초하여 최종 사용자(50)의 머리의 포지션을 예측할 수 있다. IMU(162)는 또한 최종 사용자(50)의 눈들, 및 특히 최종 사용자(50)가 포커싱하는 방향 및/또는 거리를 추적할 수 있다. IMU(162)는 추가로, 카메라(144)의 순간 포지션을 검출한다. 일부 실시예들에서, IMU(162)는 카메라(144)와 프레임 구조(102) 사이의 알려진 오프셋에 기초하여, 검출된 순간 포지션으로부터 카메라(144)의 순간 포지션을 추정(extrapolate)한다.

[0051] 일부 실시예들에서, AR 레코딩들을 위해 사용자의 눈들의 관점으로부터 렌더링된 가상 콘텐츠를 재사용하는 대신, 카메라 관점으로부터의 가상 콘텐츠가 대신 렌더링된다. 렌더링된 이러한 가상 콘텐츠는 카메라 레코딩과 결합되어 AR 레코딩을 형성한다. CPU(150)는 GPU(152)가 (IMU(162)에 의해 생성된 카메라(144)에 대한 포즈 데이터를 사용하여) 카메라(144)의 관점으로부터의 가상 콘텐츠를 렌더링하도록 제어 서브시스템(101b)의 동작을 제어한다.

[0052] 합성기(164)는 렌더링된 가상 콘텐츠를 카메라 레코딩 콘텐츠와 결합한다. 합성기(164)는, GPU(152)로부터의 렌더링된 가상 콘텐츠와 적절한 좌표 공간에서 적절히 라인 업(line up)되는, 카메라의 이미지 프레임에서의 실제 콘텐츠의 올바른 상대적 포지셔닝에 따라, GPU(152)로부터의 렌더링된 가상 콘텐츠를 카메라(144b)로부터의 레코딩된 콘텐츠와 중첩시킴으로써 동작한다.

[0053] 미디어 인코더(166)는 합성기(164)로부터 출력 데이터를 취하여 하나 이상의 이미지 프레임(들)을 원하는 미디어 포맷 유형으로 생성한다. 이미지 프레임들은 비디오 파일을 형성하기 위해 단일 이미지 스크린샷 및/또는 이미지 프레임들의 스트림/시퀀스로서 생성될 수 있다. 인코딩된 미디어 데이터는 그 후, 레코딩 데이터베이스(168) 내에 저장된다.

AR 레코딩

[0054] 이어지는 설명은 일부 실시예들에 따라, AR 레코딩들을 생성하기 위한 접근법에 관한 것이다. AR 레코딩들을 위해 사용자의 눈들의 관점으로부터 렌더링된 가상 콘텐츠를 재사용하는 대신에, 부가적인 가상 콘텐츠가 카메라의 관점으로부터 렌더링되고, 이 부가적인 가상 콘텐츠는 카메라 레코딩과 결합되어 AR 레코딩을 형성한다.

[0055] AR 시스템들의 사용자들은 종종, 자신의 AR 경험의 레코딩을 보존하고자 하며, 여기서 레코딩은 AR 시스템에 의해 생성된 실세계 객체들 및 가상 객체(또는 콘텐츠) 둘 모두를 포함한다. 발생하는 문제는, 가상 객체들이 사용자의 눈들의 관점으로부터 렌더링되는 반면, 카메라는 사용자의 눈들의 관점과 상이한 카메라의 관점으로부터 실제 객체를 레코딩한다는 사실로 인해 이미지 아티팩트들이 생성될 수 있다는 점이다.

[0056] 도 2는 일부 실시예들에 따라, 워핑을 사용하여 AR 레코딩 프로세스를 구현하기 위한 예시적인 아키텍처를 예시한다. 일부 실시예들에서, 워핑 프로세스는 이미지 아티팩트들을 초래할 수 있다. 주어진 시점에, AR 디바이스 상의 디스플레이를 위해 가상 이미지 데이터를 생성하라는 요청이 수신될 것이다. (1)에서, 카메라(144)는 카메라 이미지 프레임을 캡처하고 캡처된 카메라 이미지 프레임을 합성기(164)에 송신한다. 일부 실시예들에서, 카메라(144)는 프레임 구조(102)에 부착될 수 있다. 일부 실시예들에서, 카메라(144)는 환경 내의 결정된 위치 및 배향으로 장착될 수 있다.

[0057] (2)에서, IMU(162)는 최종 사용자(50)의 머리 및/또는 눈들에 대한 포즈 데이터를 캡처/식별하고, 카메라(144)에 대한 포즈 데이터를 캡처하고, 캡처된 포즈 데이터를 합성기(164)에 송신한다. 일부 실시예들에서, IMU(162)는 일반적으로 카메라뿐만 아니라 사용자의 눈들 또는 머리의 포즈를 결정하기 위해 AR 시스템에 대한 포즈 데이터를 캡처/식별한다. 본원에서 사용된 바와 같은 "포즈(pose)"라는 용어는 예컨대(X, Y, Z) 좌표 위치들뿐만 아니라 각 방향/위치/배향을 포함한다. 카메라(144)가 프레임 구조(102)에 물리적으로 부착되는 일부 실시예들에서, 카메라(144)에 대한 포즈 데이터는 카메라(144)와 프레임 구조(102) 사이의 알려진 그리고 고정된 오프셋에 기초하여 추정될 수 있다. 카메라(144)가 프레임 구조(102)로부터 물리적으로 원격인 일부 실시예들에서, 예컨대, 시스템 좌표 공간 내에 미리 지정된 카메라(144)에 대한 포즈 데이터는 고정된 위치/배향 데이터를 포함할 수 있다.

[0058] (3)에서, 합성기(164)는 최종 사용자(50)의 머리 및/또는 눈들에 대한 포즈 데이터 및 카메라(144)에 대한 포즈 데이터를 GPU(152)로 전송한다. GPU(152)는 최종 사용자(50)의 머리 및/또는 눈들에 대한 포즈 데이터에 기초하여 가상 콘텐츠를 생성 및 렌더링한다. 일부 실시예들에서, 이 렌더링 액션은, 가상 콘텐츠의 이미지가 최종 사용자(50)의 머리 및/또는 눈들의 관점으로부터 생성되도록 가상 콘텐츠를 생성한다. 3D 데이터베이스(160)는 환경 내의 가상 객체들에 관한 정보(이를테면, 형상, 크기, 표면, 텍스처, 위치, 배향 등에 관한 정보)뿐만 아니라 이러한 형상들에 대하여 렌더링 동작들을 수행하기 위한 구성 정보를 제공하기 위해 사용된다. 최종 사용자(50)의 머리 및/또는 눈들의 관점으로부터 볼 수 있는 가상 객체들은 그 후 최종 사용자(50)의 머리 및/또는 눈들의 관점으로부터의 이미지로서 렌더링된다.

[0059] 일부 실시예들에서, AR 레코딩 프로세스와 관련하여, 합성기 엔진(164)은 AR 레코딩에 적합한 가상 콘텐츠를 생성하도록 AR 애플리케이션/GPU(152)에 요청을 행한다. 특히, (4)에서, 이전에 생성된 가상 콘텐츠는 카메라(144)의 관점으로부터의 가상 콘텐츠를 수정하도록 시도하기 위해 워핑되고 이 워핑된 가상 콘텐츠는 그 후 합성기(164)로 전송된다.

[0060] 문제는, 워핑된 가상 콘텐츠가 카메라의 관점으로부터의 가상 콘텐츠의 충분히 정확한 뷰를 제공하지 않을 수 있다는 것이다. 예컨대, 이는 최종 사용자(50)의 머리 및/또는 눈들의 관점에 기초한 가상 콘텐츠가, 카메라(144)의 관점으로부터 볼 수 있게 될 가상 콘텐츠에 관한 디스플레이 가능 정보를 포함하지 못하는 경우에 발생할 수 있다.

[0061] 합성기(164)는 카메라(144)에 의해 캡처된 카메라 이미지 프레임 및 GPU(152)에 의해 생성된 워핑된 렌더링된 가상 콘텐츠를 중첩시킴으로써 이미지 프레임을 합성한다. (5)에서, 합성기(164)는 합성된 이미지 프레임을 미디어 인코더(166)에 전송한다. 미디어 인코더(166)는 합성된 프레임을 인코딩한다. (6)에서, 미디어 인코더는 인코딩된 이미지 프레임을 레코딩 데이터베이스(168)에 전송한다. 합성기(164)가 워핑된 렌더링된 가상 콘텐츠 및 카메라 이미지 프레임 둘 모두를 갖는 합성된 이미지 프레임을 미디어 인코더(166)에 전송할 때, 미디어 인코더(166)는 레코딩된 이미지/비디오 프레임들의 콘텐츠 진실성에 영향을 주는 비디오 아티팩트들을 포함하는 인코딩된 이미지 프레임을 생성할 수 있다. (6)에서, 가시적인 비디오 아티팩트들을 갖는 그러한 인코딩된 이미지 프레임은 그 후 레코딩 데이터베이스(168)에 레코딩될 수 있다.

[0062] 도 3은 일부 실시예들에 따라, AR 레코딩들을 생성하기 위한 이러한 접근법의 흐름도를 도시한다. 302에서, 이미지를 디스플레이하라는 요청이 수신된다. 요청은 예컨대, 최종 사용자(50)에게 디스플레이하기 위해 새로운 이미지 프레임을 생성하라는 요청에 기초하여 비롯될 수 있다.

[0063] 304에서, 카메라(144)는 카메라 이미지 프레임을 캡처한다. 카메라 이미지 프레임은 카메라(144)의 관점으로부터 이미지 데이터의 프레임을 캡처함으로써 레코딩된다. 그 후, 캡처된 카메라 이미지 프레임은 컴퓨터 판독 가능 매체에 저장될 수 있다. 306에서, IMU(162)는 최종 사용자(50)의 머리 및/또는 눈들에 대한 포즈 데이터 및 카메라(144)에 대한 포즈 데이터를 결정한다. 카메라(144)가 프레임 구조(102)에 물리적으로 부착되는 일부 실시예들에서, 카메라(144)에 대한 포즈 데이터는 카메라(144)와 프레임 구조(102) 사이의 알려진 그리고 고정된 오프셋에 기초하여 추정될 수 있다. 카메라(144)가 프레임 구조(102)로부터 물리적으로 원격인 일부 실시예들에서, 카메라(144)에 대한 포즈 데이터는 예컨대, 시스템 좌표 공간 내에 미리 지정된 고정된 위치/배향 데이터를 포함할 수 있다.

[0064] 308에서, GPU(152)는 사용자의 눈들의 관점으로부터의 가상 콘텐츠만을 렌더링한다. 즉, GPU(152)는 최종 사용자(50)의 머리 및/또는 눈들에 대한 포즈 데이터에 기초하여 가상 콘텐츠를 렌더링한다. 310에서, 프로젝션 서브시스템(108)은 최종 사용자(50)의 머리 및/또는 눈들의 관점으로부터 렌더링된 가상 콘텐츠를 디스플레이한다.

[0065] 312에서, GPU(152)는 카메라(144)에 대한 포즈 데이터에 기초하여 렌더링된 가상 콘텐츠를 워핑한다. 314에서, 합성기(164)는 카메라 이미지 프레임 및 워핑된 렌더링된 가상 콘텐츠를 중첩시킴으로써 이미지 프레임을 합성한다. 316에서, 미디어 인코더(166)는 합성된 이미지 프레임의 인코딩된 버전을 레코딩 데이터베이스(168)에 저장하며, 여기서 레코딩 데이터베이스(168)는 컴퓨터 판독 가능 매체에 대응할 수 있다. 결합된 AR 이미지의 합성된 이미지 프레임은 이미지 데이터의 개별 프레임들을 포함할 수 있거나, 또는 비디오 레코딩을 형성하기 위해 이미지 프레임들의 스트림으로서 저장될 수 있다.

[0066] 도 4a 내지 도 4g는 일부 실시예들에 따른, 이것의 예시를 제공한다. 도 4a는 사용자(예컨대, 최종 사용자(50))의 환경에 존재하는 2개의 실세계 객체들을 도시한다. 이러한 실제 객체들 각각은 실제 객체들의 앞면 상에 글자 "RO"를 갖는 정규 블록/큐브로서 형상화된다. 도 4b에 도시된 바와 같이, AR 시스템(예컨대, AR 시스템(100a 또는 100b))에 의해 구현된 가상 세계는 2개의 실제 객체들로부터의 소정의 상대적 거리에 있는(예컨대, 2개의 가상 객체들 아래의 위치에 있는) 가상 객체를 포함한다고 가정한다. 가상 객체는 실세계에 실제로 존재하지 않고, 이에 따라 AR 시스템(100a 또는 100b)이 없는 최종 사용자(50)에 의해 뷰잉될 수 없거나, 카메라(예컨대, 카메라(144))에 의해 캡처된 이미지 프레임들 내에서 뷰잉될 수 없거나, 또는 AR 시스템 없는 사용자에 의해 뷰잉될 수 없다. 그러나, 가상 객체는 정의된 형상 및 좌표 위치를 가지며, 이에 따라 그의 논리적 위치 및 배향으로 사용자에게 디스플레이되는 가상 콘텐츠로서 AR 시스템(100a 또는 100b)에 의해 렌더링될 수 있다. 가상 객체는 그의 앞면 상에 글자 "VO" 및 측면 상에 글자 "X"를 갖는 정규 블록/큐브 형태로서 형상화된다.

[0067] 최종 사용자(50)의 눈들이 도 4c에 도시된 위치 및 각 포지션에 로케이팅된다고 가정한다. 이 예시적인 상황에서, 최종 사용자(50)의 눈들은 직접적으로 실제 객체들의 앞면에 있는 관점(예컨대, 제1 관점)으로부터 실제 객체들 및 가상 객체의 논리적 위치를 바라본다. 이러한 관점으로부터, 도 4d에 도시된 바와 같이, GPU(예컨대, GPU(152))는 이에 따라 최종 사용자(50)의 눈들이 가상 객체의 앞면을 직접 바라보는 것처럼 가상 객체의 이미지를 렌더링할 것이다. 이는, 가상 객체가 앞면 상에 글자들 "VO" 및 측면 상에 글자 "X"를 갖더라도, 가상 객체는 글자들 "VO"를 갖는 가상 객체의 앞면만을 보여주도록 랜더링될 것임을 의미한다(글자 "X"를 갖는 가상 객체의 측면의 어떠한 부분도 렌더링되지 않음). 따라서 실제 객체 및 렌더링된 가상 객체의 결합은 이러한 실제/가상 객체들의 앞면만을 바라보는 제1 관점으로부터 이러한 실제/가상 객체들 전부를 보여줄 것이다.

[0068] 그러나, 도 4e에 도시된 바와 같이, 카메라(예컨대, 카메라(144))의 현재 위치 및 회전 포지션은 최종 사용자(50)의 눈들의 것과 상이한 관점(예컨대, 제2 관점)에 있다. 이 상황에서, 카메라(144)의 관점은 최종 사용자(50)의 눈들의 관점으로부터 오른쪽으로 소정 거리로 오프셋되고, 실제 객체들의 전방 측 및 우측 둘 모두를 향하는 각도로 배치된다. 이는, 카메라(144)가 실제 객체들의 앞면 및 우측면 둘 모두를 캡처하는 이미지 프레임을 레코딩한다는 것을 의미한다.

[0069] 도 4f에 예시된 바와 같이, 제1 관점으로부터 가상 객체의 렌더링된 이미지를 직접 취하여 그것을 제2 관점으로부터의 실제 객체들의 캡처된 이미지와 중첩하는 것은 이들 객체들의 관점 뷰들에서의 미스매치를 야기한다. 특히, 실제 객체들의 앞면 및 부분 우측면들 둘 모두가 제2 관점으로부터 오는 것으로 나타나는 반면, 가상 객체의 앞면만이 제1 관점으로부터 오는 것으로 나타난다. 이는, 렌더링된 가상 객체들과 실제 객체들의 레코딩을 단순히 결합하는 레코딩은 제1 관점으로부터의 실제 객체들 및 제2 관점으로부터의 가상 객체들을 보여줄 것이며, 이는 잠재적으로 레코딩의 주어진 이미지 프레임에 대한 최종 이미지 결과물에서 객체들의 배향의 상당한 단절을 생성한다는 것을 의미한다.

[0070] 도 4g에 도시된 바와 같이, 가상 객체의 렌더링된 이미지를 변경하여서 그것이 적절한 관점(예컨대, 제1 관점으로부터 제2 관점으로)으로부터 오는 것으로 나타나도록 워핑이 이용될 수 있다. 이 접근법은 가상 객체의 렌더링된 이미지를 취하고, 제2 관점으로부터 가상 객체들을 디스플레이하도록 시도하기 위해 이러한 가상 객체의 렌더링된 이미지의 표면이 제시되는 방식을 시프트한다. 이 접근법의 한가지 문제는 가상 객체가 원래 제1 관점으로부터 렌더링될 때, 렌더링된 가상 객체는 제2 관점으로부터 가상 객체에 관한 디스플레이 가능한 정보를 포함하지 않을 수 있다는 것이다. 여기서, 가상 객체는 가상 객체의 앞면만을 볼 수 있는 제1 관점으로부터 렌더링되었으며, 이는 가상 객체의 다른 측들로부터의 콘텐츠가 렌더링되지 않음을 의미한다. 따라서, 워핑이 적용되는 경우조차도, 가상 객체의 우측면으로부터의 글자 "X"는 워핑된 가상 객체에 존재하지 않을 것인데, 그 이유는 글자 "X"는 제1 관점으로부터의 렌더링된 가상 객체에 있지 않았기 때문이다. 이는, 제1 관점으로부터의 워핑된 가상 객체와 제2 관점으로부터의 실제 객체들의 결합은, 카메라(144)가 최종 사용자(50)의 눈들(예컨대, 제1 관점)과 상이한 뷰잉(viewing) 관점을 갖기 때문에, 제2 관점으로부터 볼 수 있었을 콘텐츠(즉, 가상 객체의 우측 상의 "X")를 누락한다는 것을 의미한다. 이는 레코딩된 이미지/비디오 프레임들의 유용성 및 정확도에 영향을 주는 비디오 아티팩트들을 생성한다.

[0071] 도 5는 일부 실시예들에 따라, AR 레코딩 프로세스를 구현하기 위한 아키텍처를 예시한다. 디스플레이를 위한 가상 이미지 데이터를 생성하라는 요청이 AR 시스템(100a 또는 100b)에 의해 수신된다.

[0072] (1)에서, 카메라(144)는 카메라 이미지 프레임을 캡처하고 캡처된 카메라 이미지 프레임을 합성기(164)에 송신한다. 위에서 설명된 바와 같이, 일부 실시예들에서, 카메라(144)는 프레임 구조(102)에 부착될 수 있다. 일부 실시예들에서, 카메라(144)는 환경 내의 알려진 위치 및 배향으로 장착될 수 있다.

[0073] (2)에서, IMU(162)는 최종 사용자(50)의 머리 및/또는 눈들에 대한 포즈 데이터를 캡처하고, 카메라(144)에 대한 포즈 데이터를 캡처하고, 캡처된 포즈 데이터를 합성기(164)에 송신한다. 카메라(144)가 프레임 구조(102)에 물리적으로 부착되는 일부 실시예들에서, 카메라(144)에 대한 포즈 데이터는 카메라(144)와 프레임 구조(102) 사이의 알려진 그리고 고정된 오프셋에 기초하여 추정될 수 있다. 카메라(144)가 프레임 구조(102)로부터 물리적으로 원격인 일부 실시예들에서, 카메라(144)에 대한 포즈 데이터는 예컨대, 시스템 좌표 공간 내에 미리 지정된 고정된 위치/배향 데이터를 포함할 수 있다.

[0074] 일부 실시예들에서, AR 레코딩 프로세스와 관련하여, 합성기(164)는 AR 레코딩에 적합한 가상 콘텐츠를 생성하도록 AR 애플리케이션/GPU(152)에 요청을 행한다. 합성기 엔진(164)으로부터 애플리케이션/GPU(152)로의 요청은 카메라(144)에 대한 포즈 데이터를 포함한다. 즉, (3)에서, 합성기(164)는 카메라(144)에 대한 포즈 데이터를 AR 애플리케이션/GPU(152)에 전송한다.

[0075] AR 애플리케이션/GPU(152)는 카메라(144)에 대한 포즈 데이터에 기초하여 가상 콘텐츠를 생성 및 렌더링한다. 일부 실시예들에서, 이 렌더링 액션은, 가상 콘텐츠의 이미지가 카메라(144)의 관점으로부터 생성되도록 가상 콘텐츠를 생성한다. 3D 데이터베이스(160)는 환경 내의 가상 객체들에 관한 정보(이를테면, 형상, 크기, 표면, 텍스처, 위치, 배향 등에 관한 정보)뿐만 아니라 이러한 형상들에 대하여 렌더링 동작을 수행하기 위한 구성 정보를 제공하기 위해 사용된다. 카메라(144)의 관점으로부터 볼 수 있는 가상 객체들은 그 후 카메라(144)의 관점으로부터의 이미지로서 렌더링된다. 아래에서 보다 상세히 언급된 바와 같이, 이 이미지에 대한 렌더링의 타이밍은 시스템 상의 컴퓨테이셔널 레이턴시를 최소화하도록 구성될 수 있다.

[0076] (4)에서, AR 애플리케이션/GPU(152)는 렌더링된 가상 콘텐츠를 합성기(164)에 전송한다. 합성기(164)는 카메라(144)에 의해 캡처된 카메라 이미지 프레임 및 AR 애플리케이션/GPU(152)에 의해 생성된 렌더링된 가상 콘텐츠를 중첩시킴으로써 이미지 프레임을 합성한다. 이 동작은, 공통 좌표 공간에 따라 콘텐츠 아이템을 그들의 올바른 포지션들/위치들에 라인 업하여 카메라 이미지 프레임과의 올바른 상대적 포지셔닝에 가상 콘텐츠를 삽입함으로써 수행될 수 있다.

[0077] (5)에서, 합성기(164)는 합성된 이미지 프레임을 미디어 인코더(166)에 전송한다. 미디어 인코더(166)는 합성된 이미지 프레임을 인코딩한다. 구성된 이미지 프레임은 단일 이미지 스크린샷으로서 저장되거나, 또는 이미지 프레임들의 스트림에 배치되어 비디오 파일을 형성할 수 있다. (6)에서, 미디어 인코더(166)는 인코딩된 이미지 프레임을 레코딩 데이터베이스(168)에 전송하며, 여기서 레코딩 데이터베이스(168)는 컴퓨터 판독 가능 매체에 대응할 수 있다.

[0078] 도 6은 일부 실시예들에 따라, AR 레코딩들을 생성하기 위한 접근법의 흐름도를 도시한다. 602에서, 이미지를 디스플레이하라는 요청이 수신된다. 요청은 예컨대, 최종 사용자(50)에게 디스플레이하기 위해 새로운 이미지 프레임을 생성하라는 요청에 기초하여 비롯될 수 있다.

[0079] 604에서, 카메라(144)는 이미지 프레임을 캡처한다. 카메라 이미지 프레임은 카메라(144)의 관점으로부터 이미지 데이터의 프레임을 캡처함으로써 레코딩된다. 그 후, 캡처된 카메라 이미지 프레임은 컴퓨터 판독 가능 매체에 저장될 수 있다.

[0080] 606에서, IMU(162)는 최종 사용자(50)의 머리 및/또는 눈들에 대한 포즈 데이터 및 카메라(144)에 대한 포즈 데이터를 결정한다. 포즈 데이터는 카메라에 대한 포즈 데이터뿐만 아니라 사용자의 머리/눈들에 대한 포즈 데이터를 포함한다. 카메라(144)가 프레임 구조(102)에 물리적으로 부착되는 일부 실시예들에서, 카메라(144)에 대한 포즈 데이터는 카메라(144)와 프레임 구조(102) 사이의 알려진 그리고 고정된 오프셋에 기초하여 추정될 수 있다. 카메라(144)가 프레임 구조(102)로부터 물리적으로 원격인 일부 실시예들에서, 카메라(144)에 대한 포즈 데이터는 예컨대, 시스템 좌표 공간 내에 미리 지정된 고정된 위치/배향 데이터를 포함할 수 있다.

[0081] 608에서, AR 애플리케이션/GPU(152)는 최종 사용자(50)의 머리 및/또는 눈들에 대한 포즈 데이터에 기초하여 가상 콘텐츠를 렌더링하고, 카메라(144)에 대한 포즈 데이터에 기초하여 가상 콘텐츠를 렌더링한다. 즉, AR 애플리케이션/GPU(152)는 가상 콘텐츠를 2번 렌더링하는데, 한번은 최종 사용자(50)의 머리 및/또는 눈들에 대한 포즈 데이터에 기초하고 한번은 카메라(144)에 대한 포즈 데이터에 기초한다. 이 접근법은 단지 최종 사용자(50)의 머리 및/또는 눈들에 대한 포즈 데이터에만 기초하여 가상 콘텐츠를 렌더링하지 않는다. 일부 실시예들에서, 카메라의 위치/각도가 최종 사용자(50)의 머리 및/또는 눈들과 관련하여 알려지고, 최종 사용자(50)의 머리 및/또는 눈들로부터 카메라(144)로의 변환이 AR 애플리케이션/GPU(152)에 대한 피드백 메커니즘으로서 결정 및 사용되어 가상 콘텐츠의 카메라-기반 뷰에 적절한 부가적인 가상 콘텐츠를 생성할 수 있다. 이는, 부가적인 가상 콘텐츠가 최종 사용자(50)의 머리 및/또는 눈들의 관점으로부터 렌더링되는 것이 아니라, 카메라(144)의 관점(및 잠재적으로 실제로 최종 사용자(50)에게 실시간으로 제공되지 않는 관점)으로부터 대신 렌더링될 것임을 의미한다.

[0082] 610에서, 프로젝션 서브시스템(108)은 최종 사용자(50)의 머리 및/또는 눈들의 관점으로부터 렌더링된 가상 콘텐츠를 디스플레이한다. 이는, 최종 사용자(50)의 관점으로부터 환경 내의 실제 객체들의 뷰 상에 중첩되는, 최종 사용자(50)에 대한 가상 콘텐츠의 이미지를 생성하기 위해 (예컨대, 도파관-기반 디스플레이의 적절한 층들에 제공되는 광을 통해) 가상 콘텐츠에 대한 적절한 광 패턴들을 디스플레이 스크린에 주입하도록 위에서 설명된 바와 같이 가상 콘텐츠가 제공됨을 의미한다.

[0083] 614에서, 합성기(164)는 카메라 이미지 프레임 및 렌더링된 가상 콘텐츠를 중첩시킴으로써 이미지 프레임을 합성하며, 렌더링된 가상 콘텐츠는 카메라(144)에 대한 포즈 데이터에 기초하여 AR 애플리케이션/GPU(152)에 의해 렌더링되는 가상 콘텐츠이다. 일부 실시예들에서, 이 액션은 본질적으로 렌더링된 가상 콘텐츠를 카메라 이미지 프레임의 좌표 공간 내로 프로젝팅하여 실제 객체들 및 가상 객체들 둘 모두를 갖는 결합된 이미지를 생성한다.

[0084] 616에서, 미디어 인코더(166)는 합성된 이미지 프레임의 인코딩된 버전을 레코딩 데이터베이스(168)에 저장하며, 여기서 레코딩 데이터베이스(168)는 컴퓨터 판독 가능 매체에 대응할 수 있다. 합성된 이미지 프레임은 이미지 데이터의 개별 프레임들을 포함할 수 있거나, 또는 비디오 레코딩을 형성하기 위해 이미지 프레임들의 스트림으로서 저장될 수 있다.

[0085] 도 7a 내지 도 7f는 일부 실시예들에 따라, (도 4a 내지 도 4g에 대해 이전에 논의된 동일한 구조들을 사용하는) 그것의 예시를 제공한다. 도 7a는 사용자(예컨대, 최종 사용자(50))의 환경에 존재하는 2개의 실세계 객체들을 도시한다. 이러한 실제 객체들 각각은 실제 객체들의 앞면 상에 글자 "RO"를 갖는 정규 블록/큐브로서 형상화된다. 도 7b는 2개의 실제 객체들 아래의 소정의 거리에 논리적으로 배치된 가상 객체를 도시한다. 이전과 마찬가지로, 가상 객체는 그의 앞면 상에 글자 "VO" 및 측면 상에 글자 "X"를 갖는 정규 블록/큐브 형태로서 형상화된다. 최종 사용자(50)의 눈들이 도 7c에 도시된 위치 및 각 포지션에 로케이팅된다고 가정한다. 이 예시적인 상황에서, 최종 사용자(50)의 눈은 직접적으로 실제/가상 객체들의 앞면에 있는 관점(예컨대, 제1 관점)으로부터 실제 객체들 및 가상 객체를 바라본다. 이전에 언급된 바와 같이, 이 관점으로부터, GPU(예컨대, GPU(152))는 최종 사용자(50)의 눈들이 가상 객체의 앞면을 직접 바라보는 것처럼 가상 객체의 이미지를 렌더링할 것이다. 도 7d에 도시된 바와 같이, 이는, 실제 객체 및 렌더링된 가상 객체의 결합은 이러한 객체들의 앞면만을 바라보는 제1 관점으로부터 이러한 실제/가상 객체들 전부를 보여줄 것임을 의미한다. 이는, 가상 객체는 앞면 상에 글자들 "VO" 및 측면 상에 글자 "X"를 갖더라도, 가상 객체는 글자들 "VO"를 갖는 가상 객체의 앞면만을 보여주도록 랜더링될 것임을 의미한다(글자 "X"를 갖는 가상 객체의 측면의 어떠한 부분도 렌더링되지 않음).

[0086] 도 7e에 도시된 바와 같이, 카메라(예컨대, 카메라(144))의 현재 위치 및 회전 포지션은 최종 사용자(50)의 눈들의 것과 상이한 관점에 있다. 이 상황에서, 카메라(144)의 관점은 최종 사용자(50)의 눈들의 포지션으로부터 오른쪽으로 소정 거리로 오프셋되고, 실제 객체들의 전방 측 및 우측 둘 모두를 향하는 각도로 배치된다. 이는, 카메라(144)가 실제 객체들의 앞면 및 우측면 둘 모두를 캡처하는 이미지 프레임을 레코딩한다는 것을 의미한다.

[0087] 도 7f에 예시된 바와 같이, 가상 객체는, 단지 가상 객체의 이전에 렌더링된 이미지를 재사용하는 대신 카메라(144)의 관점으로부터 렌더링된다. 이는, 가상 객체의 렌더링된 뷰는 이제 가상 객체의 앞면의 뷰(글자" V"를 가짐) 뿐만 아니라 가상 객체의 우측면의 부분 뷰(글자 "X"를 가짐)를 포함할 것임을 의미한다. 이는 카메라(144)의 관점으로부터 가상 객체의 훨씬 더 정확한 뷰를 제공한다. 렌더링된 가상 객체는 그 후, 합성기(164)에 의해 실제 객체의 실세계 이미지와 결합되어 결합된 이미지 프레임을 형성한다. 이 결합된 이미지 프레임은 그 후, 미디어 인코더(166)에 의해 인코딩되고 레코딩 데이터베이스(168)에 저장될 수 있으며, 여기서 레코딩 데이터베이스(168)는 컴퓨터 저장 매체일 수 있다.

[0088] 이 접근법은, 카메라(144)의 관점과 가상 객체들의 렌더링된 뷰의 관점 사이에 어떠한 미스매치도 더 이상 존재하지 않기 때문에 다른 접근법들이 AR 레코딩에 영향을 준 유형의 이미지 아티팩트를 제거한다. 이 접근법은 또한, 가상 객체가 적절한 관점으로부터 이미 렌더링되고 있기 때문에 렌더링된 가상 객체의 워핑을 수행하기 위한 컴퓨팅 비용들 초래할 필요성을 제거한다.

[0089] 가상 콘텐츠의 부가적인 렌더링의 프로세싱은 AR 프로세싱 시스템(100a 및/또는 100b) 내의 컴포넌트들에 의해 초래된 오버헤드를 최소화하는 접근법으로 구현될 수 있다. 일부 실시예들에 따라, 가상 콘텐츠의 부가적인 렌더링을 생성하기 위해 보통의 GPU 프로세싱에서의 간극들이 활용된다.

[0090] 설명을 위해, 먼저 도 8에 예시된 GPU/애플리케이션 프로세싱 사이클을 고려한다. 도 8은 AR 시스템에 대한 연속적인 프레임들에 대한 이미지들을 생성하기 위해 수행되는 일련의 활동들을 도시한다. 도 8은 2개의 프레임 프로세싱 사이클들, 즉 프레임 "N" 프로세싱 사이클 및 프레임 "N + 1" 프로세싱 사이클을 예시한다. 각각의 프레임에 대한 프로세싱 사이클은 이전 프레임에 대한 프로세싱의 종료 및 다음 프레임에 대한 프로세싱의 시작을 식별하는 "vsync 마커"에 의해 한정된다. 프레임 "N" 프로세싱 사이클에 대해, 프로세싱 사이클의 초기 부분에서, 애플리케이션은 이미지 프레임 "N"에 대한 워크로드(workload)를 수행한다. 그 동일한 프로세싱 사이클 내에서, GPU는 최종 사용자(50)의 머리 및/또는 눈들의 관점으로부터의 이미지 프레임 "N"에 대한 가상 콘텐츠를 렌더링하기 위한 동작들을 수행한다. 렌더링된 가상 콘텐츠가 웨어러블 AR 디바이스에서 디스플레이하기 위해 생성된다. 이는 vsync 마커까지 이어지는 프로세싱 사이클에서 중요한 부분이며, 여기서 렌더링된 가상 콘텐츠는 사용자에게 디스플레이할 준비가 된다. 이 시간 기간에 수행되는 작업 중 일부는, 렌더링된 가상 콘텐츠를 획득하고, 예컨대, 필요에 따라 렌더링된 가상 콘텐츠를 워핑함으로써 렌더링된 가상 콘텐츠를 머리 포지션에 매칭시키고, 렌더링된 가상 콘텐츠를 포함하는 이미지 프레임을 사용자에게 제공하는 것이다. vsync 마커의 시점에서, 디스플레이가 리프레시되고 최종 사용자(50)는 새로운 콘텐츠를 보고, 리프레시된 콘텐츠의 다음 세트에 대한 프로세싱이 시작된다.

[0091] 이 차트로부터, 각각의 프레임 프로세싱 사이클마다, GPU 처리 종료의 시간과 vsync 마커의 시간 사이에 간극(802)이 존재한다는 것을 알 수 있다. 이 간극은 GPU가 가상 콘텐츠를 렌더링하는 자신의 작업을 마무리하고 렌더링된 가상 콘텐츠를 핸드오프(hand off)하는 것을 보장하도록 충분히 크게 설계된다.

[0092] 도 9a에 도시된 바와 같이, 이 간극 시간 기간에, 예컨대, 카메라의 관점으로부터의 가상 콘텐츠를 렌더링하기 위한 부가적인 작업이 GPU에 부과될 수 있다. 이는, GPU가 디스플레이를 위해 현재 프레임 "N"에 대한 자신의 프로세싱을 이미 완료하였기 때문에, GPLU 사이클의 나머지가 AR 레코딩 프로세싱을 위해 이용 가능하게 되어야 하기 때문이다. 특히, 현재 프로세싱 사이클의 나머지는, 현재 프레임 "N"에 대한 카메라의 관점으로부터의 가상 콘텐츠를 렌더링하기 위한 부가적인 프로세싱 동작을 GPU가 수행하게 하도록 적용될 수 있다. 예컨대, 프레임 "N" 프로세싱 사이클에 대해, 프로세싱 사이클의 초기 부분에서, 애플리케이션은 현재 이미지 프레임 "N"에 대한 워크로드를 수행한다. 그 동일한 프로세싱 사이클 내에서, GPU는 최종 사용자(50)의 머리 및/또는 눈들의 관점으로부터의 이미지 프레임 "N"에 대한 가상 콘텐츠를 렌더링하기 위한 동작들을 수행한다. 렌더링된 가상 콘텐츠가 웨어러블 AR 디바이스 상에서 디스플레이되도록 생성된다. 또한, 동일한 프로세싱 사이클 내에서, GPU는 최종 카메라(144)의 관점으로부터의 이미지 프레임 "N"에 대한 가상 콘텐츠를 렌더링하기 위한 동작들을 수행한다.

[0093] 도 9b는 일부 실시예들에 따라, 이 양상을 구현하기 위한 접근법의 흐름도를 도시한다. 프레임 "N" 프로세싱 기간 동안, 902a에서, 현재 이미지 프레임 "N"에 대한 포즈 데이터가 결정된다. 포즈 데이터는 최종 사용자(50)의 머리 및/또는 눈에 대한 포즈 데이터를 포함하며, 이는, 904a에서, 현재 프레임 "N"에 대한 최종 사용자(50)의 머리 및/또는 눈들의 관점으로부터의 가상 콘텐츠를 렌더링하도록 GPU에 의해 사용된다. 이러한 렌더링된 콘텐츠는 906a에서, 최종 사용자(50)에게의 디스플레이를 위해 프로세싱된다. 908a에서, 렌더링 및 프로세싱된 이미지 프레임 "N"은 그 후 웨어러블 AR 디바이스 상에서 최종 사용자(50)에게 디스플레이된다.

[0094] 902a에서 생성된 포즈 데이터는 또한, 현재 이미지 프레임 "N"에 대한 이미지를 캡처한 카메라(144)에 대한 포즈 데이터를 포함한다. 카메라(144)에 대한 이러한 포즈 데이터는 동일한 프레임 "N" 프로세싱 기간에서 GPU에 의해 사용되며, 여기서 910a에서, GPU는 현재 프레임 "N"에 대해 카메라(144)의 관점으로부터의 가상 콘텐츠를 렌더링한다.

[0095] 912a에서, 카메라(144)의 관점으로부터의 렌더링된 가상 콘텐츠는 914에서, 카메라(144)로부터 캡처된 이미지 데이터와 결합되어 AR 레코딩을 위한 합성 이미지를 생성한다. 이 프로세스는 AR 레코딩을 생성하고자 하는 바램이 존재하는 경우, 각각의 후속 프레임을 통해 계속된다.

[0096] 이 접근법의 하나의 주요 이점은 카메라(144)가 웨어러블 AR 디바이스로부터 완전히 분리될 수 있고 가상 콘텐츠를 포함하는 AR 레코딩을 획득하기 위해 여전히 사용될 수 있다는 점에 주의한다. 이는, 카메라(144)가 사용자 환경 내의 어느 곳에나 배치될 수 있고, 단순히 시스템이 카메라(144)의 관점으로부터의 가상 콘텐츠를 렌더링할 것이기 때문에, AR 레코딩은 여전히 정확하게 획득될 수 있음을 의미한다. 이는, 카메라(144)와 웨어러블 AR 디바이스 사이의 거리가 너무 먼 경우, 종래의 워핑 접근법에 대해 사용되는 워핑 공차는 사실상 어떠한 결과들도 생성하지 않을 것이기 때문에, 카메라(144)가 최종 사용자(50)의 머리 및/또는 눈들에 매우 근접하여 위치되도록 요구되는 접근법들에 비해 유리하다.

[0097] 도 10a는 일부 실시예들에 따라 GPU 프로세싱 간극들을 활용하는 가상 콘텐츠 렌더링을 수행하기 위한 접근법을 예시한다. 도 9a와 도 10a의 차이는, 도 9a에 대해 논의된 바와 같이 동일한 프레임 프로세싱 사이클에서 동일한 프레임에 대한 가상 콘텐츠의 두 세트들을 생성하는 대신에, 도 10a의 접근법은 그 동일한 프레임에 대한 최종 사용자(50)의 머리 및/또는 눈들의 관점으로부터의 가상 콘텐츠와 상이한 프레임 프로세싱 사이클에서 주어진 프레임에 대한 카메라(144)의 관점으로부터의 가상 콘텐츠를 생성한다는 것이다.

[0098] 예컨대, 도 10a에 예시된 바와 같이, 프레임 "N" 프로세싱 사이클에 대해, GPU 프로세싱은 애플리케이션 워크로드가 현재 프레임 "N"에 대한 워크로드를 프로세싱하는 시간 동안, 이전 프레임 "N-1"에 대한 카메라(144)의 관점으로부터의 가상 콘텐츠를 렌더링함으로써 시작된다. GPU가 이전 프레임 "N-1"에 대한 카메라(144)의 관점으로부터의 가상 콘텐츠의 프로세싱을 완료한 후에만, GPU는 그 후 현재 프레임 "N"에 대한 최종 사용자(50)의 머리 및/또는 눈들의 관점으로부터의 가상 콘텐츠를 렌더링하도록 진행할 것이다.

[0099] 일반적인 아이디어는, AR 애플리케이션이 현재 프레임 "N"에 대한 앱 워크로드를 처리하는 동안, GPU가 일반적으로 임의의 다른 작업의 추가의 프로세싱으로부터 스로틀링(throttling)되고 이에 따라 프로세싱에 대해 이용 가능하다는 것이다. 따라서, 이 스로틀 기간 동안, GPU에는 유리하게는, AR 레코딩의 목적으로 카메라(144)의 관점으로부터 이전 프레임 "N-1"에 대한 가상 콘텐츠를 렌더링하는 작업이 할당될 수 있다.

[00100] 일부 실시예들에서, 이는, AR 레코딩을 위한 이전 프레임 "N-1"에 대한 가상 콘텐츠의 렌더링이 현재 프레임 "N"으로부터 적어도 하나의 프레임의 레이턴시 기간을 가질 것임을 의미한다. 그러나 프레임 레이트가 충분히 빠른 경우, 이러한 양의 레이턴시는, AR 레코딩을 추후에 뷰잉하는 사용자가 볼 수 없을 것이다. 예컨대, AR 시스템이 약 60-120Hz의 프레임 레이트를 갖는 경우, 새롭게 레코딩된 프레임의 레이턴시는 기껏해야 8-16 밀리초일 것이며, 이는 사용자가 지각 불가능하다. 새로운 프레임이 (본 개시내용이 적용되는 시스템의 특정 프레임 레이트를 고려하여) 지각 가능한 레벨의 프레임들보다 큰 기간만큼 오프(off)되지 않는 한, 레이턴시 기간에 대한 임의의 수의 프레임들이 수용 가능하다는 것에 주의한다.

[00101] 도 10b는 GPU에 대한 간극 시간 기간이 이전 프레임에 대한 가상 콘텐츠를 렌더링하는 데 사용되는 일부 실시예들을 예시하는 대안적인 방식을 제공한다. 특히, 도 10b는, GPU가 현재 프레임 "N"에 대한 자신의 프로세싱을 완료(그리고, 현재 프레임에 대한 그의 렌더링 결과들을 핸드오프)한 후, GPU는 이 시점에 현재 프레임 "N"에 대해 더 이상 필요하지 않음을 보여준다. 이 시점에, GPU는 일반적으로 임의의 작업의 추가의 프로세싱으로부터 스로틀링되고 이에 따라 프로세싱에 대해 이용 가능하다. 따라서, 이 스로틀 기간 동안, 현재 프레임 "N"에 대해 이전에 렌더링된 이미지가 디스플레이를 위해 병렬로 프로세싱되지만, GPU에는 유리하게는, AR 레코딩의 목적으로 카메라의 관점으로부터 이전 프레임 "N-1"에 대한 가상 콘텐츠를 렌더링하는 작업이 할당될 수 있다.

[00102] 도 10c는 일부 실시예들에 따라, 이 양상을 구현하기 위한 접근법의 흐름도를 도시한다. 도면의 좌측은 현재 프레임 프로세싱 사이클(예컨대, 프레임 "N" 프로세싱 기간) 동안 발생하는 프로세싱을 도시하고, 도면의 우측은, 바로 다음 프레임 프로세싱 사이클(예컨대, 프레임 "N + 1" 프로세싱 기간) 동안 발생하는 프로세싱을 도시한다.

[00103] 프레임 "N" 프로세싱 기간 동안, 902a에서, 현재 이미지 프레임 "N"에 대한 포즈 데이터가 결정된다. 포즈 데이터는 최종 사용자(50)의 머리 및/또는 눈에 대한 포즈 데이터를 포함하며, 이는, 904a에서, 현재 프레임 "N"에 대한 최종 사용자(50)의 머리 및/또는 눈들의 관점으로부터의 가상 콘텐츠를 렌더링하도록 GPU에 의해 사용된다. 이러한 렌더링된 콘텐츠는 906a에서, 최종 사용자(50)에게의 디스플레이를 위해 프로세싱된다. 908a에서, 렌더링 및 프로세싱된 이미지 프레임 "N"은 그 후 웨어러블 AR 디바이스 상에서 최종 사용자(50)에게 디스플레이된다.

[00104] 902a에서 생성된 포즈 데이터는 또한, 현재 이미지 프레임 "N"에 대한 이미지를 캡처한 카메라(144)에 대한 포즈 데이터를 포함한다. 현재 프레임 "N"에 대한 카메라(144)에 대한 이 포즈 데이터는 프레임 "N" 프로세싱 기간에서 프로세싱되지 않는다. 대신에, 카메라(144)에 대한 포즈 데이터는 프레임 "N + 1" 프로세싱 기간 동안 프로세싱을 위해 GPU로 송신된다.

[00105] 프레임 "N + 1" 프로세싱 사이클 동안, 902a에서, 현재 이미지 프레임 "N + 1"에 대한 포즈 데이터가 결정된다. 포즈 데이터는 최종 사용자(50)의 머리 및/또는 눈에 대한 포즈 데이터를 포함하며, 이는, 904b에서, 현재 프레임 "N + 1"에 대한 최종 사용자(50)의 머리 및/또는 눈들의 관점으로부터의 가상 콘텐츠를 렌더링하도록 GPU에 의해 사용된다. 이러한 렌더링된 콘텐츠는 906b에서, 최종 사용자(50)에게의 디스플레이를 위해 프로세싱된다. 908a에서, 렌더링 및 프로세싱된 이미지 프레임 "N + 1"은 그 후 웨어러블 AR 디바이스 상에서 최종 사용자(50)에게 디스플레이된다.

[00106] 그 프레임 "N" + 1 프로세싱 사이클 동안, 910b에서, GPU는 이미지 프레임 "N"으로부터 카메라(144)의 관점으로부터의 가상 콘텐츠를 렌더링할 것이다. 912b에서, 카메라(144)의 관점으로부터의 가상 콘텐츠는 914a에서 프레임 "N" 프로세싱 기간에서 카메라(144)로부터 캡처된 이미지 데이터와 결합되어 AR 레코딩을 위한 합성 이미지를 생성한다. 이 프로세스는 AR 레코딩을 생성하고자 하는 바램이 존재하는 경우, 각각의 후속 프레임을 통해 계속된다.

[00107] 따라서, 설명된 것은 AR 이미지들 및 비디오를 레코딩하기 위해 취해진 종래의 접근법의 부정확성 및 비효율성을 해결하는, AR 레코딩을 생성하기 위한 개선된 접근법이다.

시스템 아키텍처 개요

[00108] 도 11은 이미지 데이터의 위에서 설명된 프로세싱을 위한 본 개시내용의 일 실시예를 구현하기에 적합한 예시적인 컴퓨팅 시스템(1400)의 블록도이다. 컴퓨터 시스템(1400)은 버스(1406) 또는 정보를 통신하기 위한 다른 통신 메커니즘을 포함하며, 이는 서브시스템들 및 디바이스들, 이를테면, 프로세서(1407), 시스템 메모리(1408)(예컨대, RAM), 정적 저장 디바이스(1409)(예컨대, ROM), 디스크 드라이브(1410)(예컨대, 자기 또는 광학), 통신 인터페이스(1414)(예컨대, 모뎀 또는 이더넷 카드), 디스플레이(1411)(예컨대, CRT 또는 LCD), 입력 디바이스(1412)(예컨대, 키보드), 및 커서 제어를 상호연결한다.

[00109] 본 개시내용의 일 실시예에 따라, 컴퓨터 시스템(1400)은, 프로세서(1407)가 시스템 메모리(1408)에 포함된 하나 이상의 명령들의 하나 이상의 시퀀스들을 실행함으로써 특정 동작들을 수행한다. 이러한 명령들은 정적 저장 디바이스(1409) 또는 디스크 드라이브(1410)와 같은 다른 컴퓨터 판독 가능/사용 가능 매체로부터 시스템 메모리(1408)로 판독될 수 있다. 대안적인 실시예들에서, 소프트웨어 명령들을 대신하여 또는 그와 조합하여, 하드-와이어드(hard-wired) 회로가 본 개시내용을 구현하는 데 사용될 수 있다. 따라서, 본 개시내용의 실시예들은 하드웨어 회로 및/또는 소프트웨어의 임의의 특정 조합으로 제한되지 않는다. 일 실시예에서, "로직"이란 용어는 본 개시내용의 전부 또는 일부를 구현하는 데 사용되는, 소프트웨어 또는 하드웨어의 임의의 조합을 의미한다.

[00110] 본원에서 사용되는 바와 같은 "컴퓨터 판독 가능 매체" 또는 "컴퓨터 사용 가능 매체"라는 용어는 실행을 위해 프로세서(1407)에 명령들을 제공하는 데 관여하는 임의의 매체를 지칭한다. 그러한 매체는, 비-휘발성 매체들 및 휘발성 매체들을 포함(그러나 이에 제한되지 않음)하는 다수의 형태들을 취할 수 있다. 비-휘발성 매체들은, 예컨대, 광학 또는 자기 디스크들, 이를테면, 디스크 드라이브(1410)를 포함한다. 휘발성 매체들은 동적 메모리, 이를테면, 시스템 메모리(1408)를 포함한다.

[00111] 일반적인 형태들의 컴퓨터 판독 가능 매체들은, 예컨대, 플로피 디스크, 플렉시블 디스크, 하드 디스크, 자기 테이프, 임의의 다른 자기 매체, CD-ROM, 임의의 다른 광학 매체, 펀치 카드들, 페이퍼 테이프, 홀(hole)들의 패턴들을 갖는 임의의 다른 물리적인 매체, RAM, PROM, EPROM, FLASH-EPROM, 임의의 다른 메모리 칩 또는 카트리지 또는 컴퓨터가 판독할 수 있는 임의의 다른 매체를 포함한다.

[00112] 본 개시내용의 실시예에서, 본 개시내용을 실시하기 위한 명령들의 시퀀스들의 실행은 단일 컴퓨터 시스템(1400)에 의해 수행된다. 본 개시내용의 다른 실시예들에 따라, 통신 링크(1415) (예컨대, LAN, PTSN, 또는 무선 네트워크)에 의해 커플링되는 둘 이상의 컴퓨터 시스템들(1400)은 서로 협력하여 본 개시내용을 실시하는데 필요한 명령들의 시퀀스를 수행할 수 있다.

[00113] 컴퓨터 시스템(1400)은 통신 링크(1415) 및 통신 인터페이스(1414)를 통해 프로그램, 예컨대, 애플리케이션 코드를 포함하는 메시지들, 데이터 및 명령들을 송신 및 수신할 수 있다. 수신된 프로그램 코드는, 그것이 수신될 때 프로세서(1407)에 의해 실행될 수 있고 그리고/또는 추후 실행을 위해 디스크 드라이브(1410) 또는 다른 비-휘발성 저장소에 저장될 수 있다. 컴퓨터 시스템(1400)은 데이터 인터페이스(1433)를 통해 외부 저장 디바이스(1431) 상의 데이터베이스(1432)와 통신할 수 있다.

[00114] 위의 명세서에서, 본 개시내용은 본 개시내용의 특정 실시예들을 참조하여 설명되었다. 그러나, 본 개시내용의 더 넓은 사상 및 범위를 벗어나지 않으면서 다양한 수정들 및 변경들이 본 개시내용에 이루어질 수 있다는 것은 명백할 것이다. 예컨대, 위에서-설명된 프로세스 흐름들은, 프로세스 동작들의 특정한 순서를 참조하여 설명된다. 그러나, 설명된 프로세스 동작들 대부분의 순서는 본 개시내용의 범위 또는 동작에 영향을 주지 않으면서 변경될 수 있다. 따라서, 명세서 및 도면들은 제한적인 의미보다는 예시적인 의미로 간주될 것이다.

Claims

이미지 레코딩을 생성하기 위한 방법으로서,
카메라로 카메라 이미지 프레임을 캡처하는 단계;
상기 카메라 이미지 프레임에 대응하는 포즈 데이터를 획득하는 단계 ― 상기 포즈 데이터는 사용자 포즈 데이터 및 카메라 포즈 데이터를 포함하고, 상기 사용자 포즈 데이터는 상기 카메라 포즈 데이터와 상이한 관점(perspective)으로부터 온 것임 ―;
증강 현실(AR) 디바이스에서 사용자에게 즉시 디스플레이하기 위한 사용자 포즈 가상 콘텐츠를 렌더링하는 단계 ― 상기 사용자 포즈 가상 콘텐츠는 상기 사용자의 관점으로부터의 제1 가상 콘텐츠에 대응함 ―;
상기 카메라 포즈 데이터에 기초하여 상기 사용자 포즈 가상 콘텐츠를 워핑하여 카메라 포즈 가상 콘텐츠를 생성하는 단계 ― 상기 카메라 포즈 가상 콘텐츠는 상기 카메라의 관점으로부터의 제2 가상 콘텐츠에 대응함 ―; 및
상기 카메라 이미지 프레임을 상기 카메라 포즈 가상 콘텐츠와 결합함으로써 상기 이미지 레코딩을 합성하는 단계를 포함하고,
단일 관성 측정 유닛(IMU; inertial measurement unit)이 상기 사용자 포즈 데이터 및 상기 카메라 포즈 데이터 둘 모두를 생성하는,
방법.
제1항에 있어서,
디스플레이 이미지 프레임을 디스플레이하기 위한 요청을 수신하는 단계; 및
상기 디스플레이 이미지 프레임을 디스플레이하기 위한 요청에 응답하여 상기 카메라로 상기 카메라 이미지 프레임을 캡처하는 단계를 더 포함하는,
방법.
제1항에 있어서,
추후 디스플레이를 위해 상기 이미지 레코딩을 저장하는 단계를 더 포함하는,
방법.
제1항에 있어서,
단일 GPU 프로세싱 사이클이, 상기 사용자 포즈 데이터에 기초하여 상기 사용자 포즈 가상 콘텐츠를 렌더링하고, 그리고 상기 카메라 포즈 데이터에 기초하여 상기 사용자 포즈 가상 콘텐츠를 워핑하여 카메라 포즈 가상 콘텐츠를 생성하기 위한 프로세싱을 포함하는,
방법.
제1항에 있어서,
합성기(compositor)가 상기 카메라 이미지 프레임을 상기 카메라 포즈 가상 콘텐츠와 결합함으로써 상기 이미지 레코딩을 생성하는,
방법.
제1항에 있어서,
미디어 인코더가 상기 카메라 이미지 프레임을 상기 카메라 포즈 가상 콘텐츠와 결합한 하나 이상의 이미지 프레임들을 인코딩하는 단계를 더 포함하는,
방법.
제6항에 있어서,
상기 미디어 인코더에 의해 인코딩된 상기 하나 이상의 이미지 프레임들은 단일 이미지 프레임 또는 다수의 이미지 프레임들의 스트림 중 적어도 하나를 포함하는,
방법.
비-일시적인 컴퓨터 판독 가능 저장 매체로서,
상기 비-일시적인 컴퓨터 판독 가능 저장 매체는, 프로세서에 의해 실행될 때 상기 프로세서로 하여금, 이미지 레코딩을 생성하기 위한 방법을 실행하게 하는 명령어들의 시퀀스를 저장하고 있고, 상기 방법은,
카메라로 카메라 이미지 프레임을 캡처하는 단계;
상기 카메라 이미지 프레임에 대응하는 포즈 데이터를 획득하는 단계 ― 상기 포즈 데이터는 사용자 포즈 데이터 및 카메라 포즈 데이터를 포함하고, 상기 사용자 포즈 데이터는 상기 카메라 포즈 데이터와 상이한 관점으로부터 온 것임 ―;
증강 현실(AR) 디바이스에서 사용자에게 즉시 디스플레이하기 위한 사용자 포즈 가상 콘텐츠를 렌더링하는 단계 ― 상기 사용자 포즈 가상 콘텐츠는 상기 사용자의 관점으로부터의 제1 가상 콘텐츠에 대응함 ―;
상기 카메라 포즈 데이터에 기초하여 상기 사용자 포즈 가상 콘텐츠를 워핑하여 카메라 포즈 가상 콘텐츠를 생성하는 단계 ― 상기 카메라 포즈 가상 콘텐츠는 상기 카메라의 관점으로부터의 제2 가상 콘텐츠에 대응함 ―; 및
상기 카메라 이미지 프레임을 상기 카메라 포즈 가상 콘텐츠와 결합함으로써 상기 이미지 레코딩을 합성하는 단계를 포함하고,
단일 관성 측정 유닛(IMU)이 상기 사용자 포즈 데이터 및 상기 카메라 포즈 데이터 둘 모두를 생성하는,
컴퓨터 판독 가능 저장 매체.
제8항에 있어서,
상기 방법은:
디스플레이 이미지 프레임을 디스플레이하기 위한 요청을 수신하는 단계; 및
상기 디스플레이 이미지 프레임을 디스플레이하기 위한 요청에 응답하여 상기 카메라로 상기 카메라 이미지 프레임을 캡처하는 단계를 더 포함하는,
컴퓨터 판독 가능 저장 매체.
제8항에 있어서,
상기 방법은, 추후 디스플레이를 위해 상기 이미지 레코딩을 저장하는 단계를 더 포함하는,
컴퓨터 판독 가능 저장 매체.
제8항에 있어서,
단일 GPU 프로세싱 사이클이, 상기 사용자 포즈 데이터에 기초하여 상기 사용자 포즈 가상 콘텐츠를 렌더링하고, 그리고 상기 카메라 포즈 데이터에 기초하여 상기 사용자 포즈 가상 콘텐츠를 워핑하여 카메라 포즈 가상 콘텐츠를 생성하기 위한 프로세싱을 포함하는,
컴퓨터 판독 가능 저장 매체.
제8항에 있어서,
합성기가 상기 카메라 이미지 프레임을 상기 카메라 포즈 가상 콘텐츠와 결합함으로써 상기 이미지 레코딩을 생성하는,
컴퓨터 판독 가능 저장 매체.
제8항에 있어서,
미디어 인코더가 상기 카메라 이미지 프레임을 상기 카메라 포즈 가상 콘텐츠와 결합한 하나 이상의 이미지 프레임들을 인코딩하는,
컴퓨터 판독 가능 저장 매체.
제13항에 있어서,
상기 미디어 인코더에 의해 인코딩된 상기 하나 이상의 이미지 프레임들은 단일 이미지 프레임 또는 다수의 이미지 프레임들의 스트림 중 적어도 하나를 포함하는,
컴퓨터 판독 가능 저장 매체.
이미지 레코딩을 생성하기 위한 시스템으로서,
3차원 콘텐츠를 디스플레이하는 증강 현실 디스플레이 디바이스;
카메라 이미지 프레임을 캡처하는 카메라;
상기 카메라 이미지 프레임에 대응하는 포즈 데이터를 획득하는 단일 관성 측정 유닛(IMU) ― 상기 포즈 데이터는 사용자 포즈 데이터 및 카메라 포즈 데이터를 포함하고, 상기 사용자 포즈 데이터는 상기 카메라 포즈 데이터와 상이한 관점으로부터 온 것임 ―;
상기 증강 현실 디바이스에서 사용자에게 즉시 디스플레이하기 위한 사용자 포즈 가상 콘텐츠를 렌더링하고 그리고 상기 카메라 포즈 데이터에 기초하여 상기 사용자 포즈 데이터를 워핑하여 카메라 포즈 가상 콘텐츠를 생성하는 단일 그래픽 프로세싱 유닛(GPU) ― 상기 사용자 포즈 가상 콘텐츠는 상기 사용자의 관점으로부터의 제1 가상 콘텐츠에 대응하고, 상기 카메라 포즈 가상 콘텐츠는 상기 카메라의 관점으로부터 제2 가상 콘텐츠에 대응함 ―; 및
상기 카메라 이미지 프레임을 상기 카메라 포즈 가상 콘텐츠와 결합함으로써 상기 이미지 레코딩을 합성하는 합성기를 포함하는,
시스템.
제15항에 있어서,
상기 카메라 이미지 프레임을 상기 카메라 포즈 가상 콘텐츠와 결합하는 하나 이상의 이미지 프레임들을 인코딩하는 미디어 인코더를 더 포함하는,
시스템.
제16항에 있어서,
상기 미디어 인코더에 의해 인코딩된 상기 하나 이상의 이미지 프레임들은 단일 이미지 프레임, 또는 다수의 이미지 프레임들의 스트림 중 적어도 하나를 포함하는,
시스템.
제15항에 있어서,
단일 GPU 프로세싱 사이클이, 상기 사용자 포즈 데이터에 기초하여 상기 사용자 포즈 가상 콘텐츠를 렌더링하고, 그리고 상기 카메라 포즈 데이터에 기초하여 상기 사용자 포즈 가상 콘텐츠를 워핑하여 상기 카메라 포즈 가상 콘텐츠를 생성하기 위한 프로세싱을 포함하는,
시스템.