KR102031302B1

KR102031302B1 - 오브젝트 디지타이제이션 기법

Info

Publication number: KR102031302B1
Application number: KR1020137032547A
Authority: KR
Inventors: 제프리 지저스 에버트; 저스틴 아브람 클라크; 크리스토퍼 할리 윌로우비; 마이크 스캐비즈; 조엘 디게로; 렐자 마코빅; 조 솔라; 데이비드 할리
Original assignee: 마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Priority date: 2011-06-06
Filing date: 2012-06-05
Publication date: 2019-10-11
Also published as: US20120307010A1; JP2014519132A; WO2012170445A2; EP2718897A4; JP5985620B2; US20180225829A1; WO2012170445A3; KR102121707B1; KR20190118207A; CN103703489A; US9953426B2; CN103703489B; US10460445B2; EP2718897B1; KR20140043379A; US9208571B2; EP2718897A2; US20150379719A1

Abstract

본 명세서에서 영상 내의 오브젝트 디지털화하는 것이 논의된다. 사용자는 오브젝트를 카메라에게 프레젠트하며, 카메라는 오브젝트의 정면 및 후면에 대한 컬러 및 깊이 데이터를 포함하는 이미지를 캡쳐한다. 정면 및 후면 이미지들에 대하여, 깊이 데이터를 분석함으로써 카메라에 대해 가장 가까운 포인트가 결정된다. 가장 가까운 포인트들로부터, 깊이 데이터에서의 큰 차이들을 주목함으로써 오브젝트의 에지들이 발견된다. 깊이 데이터는 또한 오브젝트의 정면 및 후면의 포인트 클라우드 구조물들을 구성하기 위하여 사용된다. 에지들을 외삽하고, 심을 제거하고, 컬러를 지능적으로 확장하고, 노이즈를 필터링하고, 오브젝트에 골격 구조를 적용하고, 및 디지타이제이션을 더 최적화하기 위하여 다양한 기법들이 적용된다. 결과적으로, 디지털 표현은 사용자에게 프레젠트되고 잠재적으로 서로 다른 애플리케이션들(예컨대, 게임, 웹 등)에서 사용된다.

Description

오브젝트 디지타이제이션 기법{OBJECT DIGITIZATION}

현대의 게임 및 인터넷 기술은 이들 기술이 과거에 했던 것보다도 훨씬 더 인간적인 방식(personal ways)으로 사용자와 상호작용한다. 게임 콘솔에 연결되어 있는 컨트롤러 상의 버튼을 단순히 치는 것 대신에, 오늘날의 게임 시스템은 카메라 앞에 서있는 플레이어의 움직임 또는 무선 컨트롤러를 가지고 플레이어가 취하는 액션(예컨대, 컨트롤러를 야구 배트처럼 휘두르는 것)을 판독할 수 있다. 이러한 인간적인 상호작용은 완전히 새로운 게임 영역을 열고 있다.

본 요약부(summary)는 아래 상세한 설명 내용(Detailed Description)에서 더 기술되는 개념들의 집합을 간단한 형태로 소개하기 위하여 제공된다. 본 요약부는 청구된 발명 주제의 주요 특징들 또는 본질적인 특징들을 식별하는 것으로 의도되지 않으며, 또한 청구된 발명 주제의 범위를 결정하기 위한 보조자료로 사용되는 것으로도 의도되지 않는다.

일 양상은 이미지 내의 오브젝트의 디지털 표현("디지타이제이션(digitization)")을 생성하는 것에 관한 것이다. 사용자는 카메라에 오브젝트를 프레젠트하며, 카메라는 오브젝트의 정면 및 후면에서 컬러 및 깊이 데이터를 포함하는 이미지를 캡쳐한다. 정면 이미지 및 후면 이미지 양자 모두에 있어서, 깊이 데이터를 분석함으로써 카메라에 대해 가장 가까운 포인트가 결정된다. 가장 가까운 포인트로부터, 깊이 데이터 내의 큰 차이들을 주목함으로써 오브젝트의 에지들이 발견된다. 깊이 데이터는 또한 오브젝트의 정면 및 후면의 포인트 클라우드 구조물을 구성하기 위하여 사용된다. 에지들을 외삽하고, 심들을 제거하며, 컬러를 지능적으로 확장하고, 노이즈를 필터링하며, 오브젝트에 골격 구조를 적용하고, 또한 디지타이제이션을 더 최적화하기 위하여 다양한 기법들이 적용된다. 결과적으로, 디지털 표현이 사용자에게 프레젠트되고 잠재적으로 서로 다른 애플리케이션들(예컨대, 게임, 웹, 등)에서 사용된다.

본 발명의 예시적인 실시예들은 첨부된 도면들을 참조하여 아래에서 상세히 기술되며, 여기서:
도 1은 본 명세서에서 논의되는 실시예들을 구현하는데 적합한 예시적인 컴퓨팅 환경의 블록도이고,
도 2는 일 실시예에 따른, 디지타이제이션을 위해 오브젝트를 프레젠트하는 사용자의 도면이고,
도 3은 일 실시예에 따른, 오브젝트의 디지털화에 대한 동작 흐름도이고,
도 4(a) 및 도 4(b)는 일 실시예에 따른, 디지타이제이션을 위해 오브젝트를 프레젠트하는 사용자의 카메라-시야 관점의 도면들이고,
도 5는 일 실시예에 따른, 오브젝트를 디지털화하기 위하여 사용가능한 세그먼트화된 깊이 이미지(segmented depth image)의 도면이고,
도 6은 일 실시예에 따른, 깊이-대-컬러(depth-to-color) 오프셋의 도면이고,
도 7은 일 실시예에 따른, 오브젝트를 디지털화하기 위하여 사용가능한 소스 컬러 이미지의 도면이고,
도 8은 일 실시예에 따른, 캡쳐된 오브젝트의 컬러 세그먼테이션(segmentation)의 도면이고,
도 9 및 도 10은 일 실시예에 따른, 디지털화될 오브젝트를 붙잡는 것에 대한 안내를 프레젠트하는 사용자 인터페이스(UI)들의 도면들이고,
도 11은 일 실시예에 따른, 오브젝트의 3-차원(3D) 포인트 클라우드(point cloud) 구조물의 도면이고,
도 12는 일 실시예에 따른, 정렬된 포인트 시트들의 2개의 뷰의 도면이고,
도 13은 일 실시예에 따른, 최종 포인트 클라우드 구조물의 도면이고,
도 14는 일 실시예에 따른, 사용자에게 디스플레이된 디지털화된 오브젝트의 확인 이미지를 디스플레이하는 UI의 도면이고,
도 15는 일 실시예에 따른, 캡쳐된 이미지의 메쉬(mesh) 출력의 도면이고,
도 16은 일 실시예에 따른, 오브젝트의 스무딩되고 프로세싱된 이미지의 도면이고,
도 17은 일 실시예에 따른, UV 좌표를 가진 이미지의 도면이고,
도 18은 일 실시예에 따른, 최종 텍스처 맵의 한 부분으로 그려진 정면-대향 트라이앵글 에지(front-facing triangle edge)들의 도면이고,
도 19(a) 내지 도 19(e)는 일 실시예에 따른, 생성된 골격 구조의 서로 다른 뼈들에 추가된 가중치를 도시하는 도면들이고,
도 20(a) 및 도 20(b)는 일 실시예에 따른, 루마/크로마(luma/chroma) 처리 전 및 후를 도시하는 도면들이고,
도 21(a) 및 도 21(b)는 일 실시예에 따른, 에지들이 필터링된 후 소스 이미지 및 출력 이미지를 도시하는 도면들이고,
도 22(a) 및 도 22(b)는 일 실시예에 따른, 에지 복구 필터가 타겟 오브젝트 컬러 및 배경 컬러들을 발견하는 경우의 이미지들을 도시하는 도면들이고,
도 23(a) 및 도 23(b)는 일 실시예에 따른, 에지로부터 문제 되는 영역까지의 거리 및 계산된 배경 가능성 값(background likelihood value)들을 보여주는 이미지들의 도면이고,
도 24는 일 실시예에 따른, 최종 합성 텍스처 맵의 도면이고,
도 25(a) 및 도 25(b)는 일 실시예에 따른, 마스킹된 값 및 심하게 블러링된 정점 컬러들의 도면이고,
도 26(a) 및 도 26(b)는 일 실시예에 따른, 텍스처만을 가진 메쉬 및 마스크 값에 의한 정점 컬러 블렌딩을 가진 텍스처를 가진 상기한 메쉬의 도면들이고,
도 27은 일 실시예에 따른, 디지털화된 오브젝트의 최종 렌더링의 도면이고,
도 28은 일 실시예에 따른, 오브젝트를 디지털화하는 동작들을 상세히 보여주는 흐름도이고,
도 29는 일 실시예에 따른, 오브젝트를 디지털화하는 동작들을 상세히 보여주는 흐름도이다.

본 발명의 실시예들의 주제는 법적인 요구조건을 맞추기 위해 본 명세서에서 구체적으로 기술된다. 그렇지만, 기술 내용 그 자체는 청구항의 범위를 제한하려고 의도되지 않는다. 그 대신, 청구된 발명 대상은, 그 외 다른 현재의 또는 미래의 기술들과 관련하여, 본 문서 내에서 기술된 것들과 유사한 다른 단계들 또는 단계들의 조합들을 포함하는 그 외 다른 방식으로도 구현될 수 있다. 용어들은 개별 단계들의 순서가 명시적으로 기술되지 않는 한 그리고 명시적으로 기술되는 경우를 제외하고 본 명세서에서 개시된 다양한 단계들 사이에 어떠한 특별한 순서를 내포하는 것으로서 해석되지 않아야 한다.

본 명세서에서 기술된 실시예들은 일반적으로 카메라에 의해 캡쳐된 오브젝트의 디지털 표현을 생성하는 것에 관한 것이다. 일 실시예에서, 사용자가 카메라의 전방에서 오브젝트를 잡고 있고, 카메라는 오브젝트의 이미지를 캡쳐하며, 장치는 캡쳐된 오브젝트를 - 예컨대, 비디오 게임 내의 엔터티로서 - 디지털 방식으로 디스플레이될 수 있는 3D 렌디션(rendition)으로 디지털화한다.

예시적으로 설명하기 위하여, 다음의 예를 고려하자. 사용자는 카메라가 설치된 게임 장치에 대해 장난감 문어를 잡고 있다. 카메라를 사용하여, 게임 장치는 오브젝트의 정면 및 후면의 영상을, 각각에 대하여 컬러 및 깊이 데이터 양자 모두를 캡쳐링함으로써 획득한다. 깊이 데이터에 기초하여, 문어의 3D 렌디션이 구축되며, 그러면 컬러 데이터가 3D 렌디션에 추가되어 문어의 디지털 렌디션(본 명세서에서 '디지타이제이션'이라고 지칭됨)을 생성한다. 그런 다음 문어의 디스플레이가 유용한 경우 게임 또는 임의의 그 외 다른 소프트웨어 또는 웹 애플리케이션에 디지타이제이션이 사용될 수 있다.

적어도 일 실시예는 오브젝트의 디지털화에 관한 것이다. 사용자는 컴퓨팅 장치(게임 콘솔과 같은) 상의 카메라에 오브젝트를 프레젠트한다. 장치는 캡쳐된 이미지들을 최적화하기 위해 디스플레이할 오브젝트를 위치시키도록 - 예컨대, 카메라에 의해 보여지고 있는 이미지를 반영하는 스크린 상에 윤곽선을 배치하고 사용자에게 오브젝트를 윤곽선 안으로 이동하여야 함을 지시함으로써 - 사용자에게 지시할 수 있다. 결과적으로, 장치는 오브젝트의 이미지 또는 이미지들을 캡쳐한다. 사용자는 그런 다음 카메라에게 오브젝트의 뒷면을 캡쳐하기 위해 프레젠트하도록 지시받을 수 있다. 그러면 장치는 오브젝트의 뒷면의 이미지 또는 이미지들을 캡쳐할 수 있다. 캡쳐된 정면 이미지 및 후면 이미지는 오브젝트의 3D 디지타이제이션을 구성하기 위하여 프로세싱될 수 있다.

일 실시예에서, 프로세싱은 카메라에 의해 캡쳐된 이미지의 깊이 데이터를 이용한다. 깊이 데이터는 픽셀 단위로 또는 그 외 다른 공간적 표현으로 이미지 내에서 캡쳐된 것들의 근접성을 기술한다. 깊이 데이터를 사용하여, 이미지 내에서 오브젝트의 가장 가까운 포인트가 발견된다. 이 실시예는 가장 가까운 오브젝트가 사용자가 캡쳐하고자 하는 오브젝트 - 예컨대, 카메라에 대해 문어를 잡고 있는 사용자의 의미는 그 문어가 카메라에게 가장 가까운 것일 가능성을 의미할 것이다- 라고 가정한다.

본 발명의 개요를 간략하게 기술하였으므로, 이제 본 발명의 다양한 양상들이 구현될 수 있는 예시적인 동작 환경을 기술한다. 전체적으로 도면들을 참조하되, 먼저 특히 도 1을 참조하면, 본 발명의 실시예들을 구현하기 위한 예시적인 동작 환경이 도시되어 있는데 전체적으로 컴퓨팅 장치(100)로 표시되어 있다. 컴퓨팅 장치(100)는 적절한 컴퓨팅 환경의 일 예에 불과하며 본 발명의 이용 범위나 기능에 대한 어떠한 제한을 암시하는 것으로 의도되지 않는다. 또한 컴퓨팅 장치(100)는 도시된 컴포넌트들의 임의의 하나의 조합 또는 조합들에 종속되거나 관련된 어떠한 요구조건을 가지는 것으로도 해석되지 않아야 한다.

본 발명의 실시예들은, 컴퓨터 또는, PDA(personal data assistant) 또는 그 외 다른 핸드헬드 장치와 같은, 그 외 다른 기계에 의해 실행되는, 프로그램 모듈과 같은 컴퓨터-실행가능 명령어를 포함하여, 컴퓨터 코드 또는 기계-사용가능 명령어(instructions)의 일반적인 맥락으로 기술될 수 있다. 일반적으로, 루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조, 등을 포함하는 프로그램 모듈은 특정 태스크를 수행하거나 또는 특정한 추상적인 데이터 타입을 구현하는 코드를 지칭한다. 본 발명의 실시예들은 핸드헬드 장치, 소비자 전자제품, 범용 컴퓨터, 특수 목적의 컴퓨팅 장치 등을 포함하는, 다양한 시스템 구성으로 실시될 수 있다. 본 발명의 실시예들은 또한 태스크가 통신망을 통해 연결되어 있는 원격 프로세싱 장치들에 의해 수행되는 분산 컴퓨팅 환경에서도 실시될 수 있다.

도 1을 참조하면, 컴퓨팅 장치(100)는 다음 장치들, 즉 메모리(112), 하나 이상의 프로세서들(114), 하나 이상의 프레젠테이션 컴포넌트들(116), 입력/출력(I/O) 포트들(118), 입력/출력 컴포넌트들(120), 및 예시적인 전원 공급부(122)를 직접적으로 또는 간접적으로 연결하는 버스(110)를 포함한다. 버스(110)는 하나 이상의 버스들(어드레스 버스, 데이터 버스, 또는 이것들의 조합과 같은)일 수 있다. 비록 도 1의 여러 블록들은 명확하게 하기 위하여 선으로 도시되어 있으나, 실제로는 여러 컴포넌트들을 그렇게 명확하지 않으며, 비유적으로 말해서, 선들은 보다 회색이거나 흐릿한 것이 더 정확할 것이다. 예를 들어, 디스플레이 장치와 같은 프레젠테이션 컴포넌트를 I/O 컴포넌트라고 생각할 수 있다. 또한 많은 프로세서들은 메모리를 가진다. 본 명세서의 발명자들은 이러한 것이 기술의 본질이라는 것을 알고 있으며, 도 1의 도면은 단순히 본 발명의 하나 이상의 실시예들과 관련하여 사용될 수 있는 예시적인 컴퓨팅 장치를 도시한 것에 불과하다는 점을 되풀이하여 지적한다. "워크스테이션", "서버", "랩탑", "게임 콘솔", "핸드-헬드 장치" 등과 같은 카테고리들 사이에 구별은 없으며, 모두가 도 1의 범위 내에서 고려되며 "컴퓨팅 장치"로 참조된다.

컴퓨팅 장치(100)는 전형적으로 다양한 컴퓨터-판독가능 매체를 포함한다. 컴퓨터-판독가능 매체는 컴퓨팅 장치(100)에 의해 액세스될 수 있는 임의의 이용가능한 매체일 수 있으며 휘발성 및 비휘발성 매체, 탈거가능 및 비-탈거가능 매체를 모두 포함한다. 예를 들어서 비제한적으로 말하자면, 컴퓨터-판독가능 매체는 컴퓨터 스토리지 매체 및 통신 매체를 포함할 수 있다. 컴퓨터 스토리지 매체는 컴퓨터-판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 그 외 다른 데이터와 같은 정보의 저장을 위한 임의의 방법이나 기술에 의해 구현되는 휘발성 및 비휘발성, 탈거가능 및 비-탈거가능 매체를 모두 포함한다. 컴퓨터 스토리지 매체는 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 전자 소거가능 프로그래머블 판독 전용 메모리(EEPROM), 플래시 메모리 또는 그 외 다른 메모리 기술, CD-ROM, 디지털 다기능 디스크(DVD) 또는 그 외 다른 홀로그래픽 메모리, 자기 카세트, 자기 테이프, 자기 디스크 스토리지 또는 그 외 다른 자기 스토리지 장치, 또는 원하는 정보를 저장하기 위하여 사용될 수 있으며 컴퓨팅 장치(100)에 의해 액세스될 수 있는 임의의 다른 매체를 포함하지만 이것들로 제한되는 것은 아니다.

메모리(112)는 휘발성 및/또는 비휘발성 메모리의 형태로 컴퓨터-스토리지 매체를 포함한다. 메모리는 탈거가능, 비-탈거가능, 또는 이들의 조합일 수 있다. 예시적인 하드웨어 장치는 솔리드-스테이트 메모리, 하드 드라이브, 광-디스크 드라이브 등을 포함한다. 컴퓨팅 장치(100)는 메모리(112) 또는 I/O 컴포넌트들(120)과 같은 다양한 엔터티들로부터 데이터를 판독하는 하나 이상의 프로세서들을 포함한다. 프레젠테이션 컴포넌트(들)(116)는 사용자 또는 그 외 다른 장치들에게 데이터 표현을 프레젠트한다. 예시적인 프레젠테이션 컴포넌트들에는 디스플레이 장치, 스피커, 프린팅 컴포넌트, 진동 컴포넌트 등이 포함된다.

I/O 컴포넌트들(120)은 정지 화상 및 비디오를 획득할 수 있는 카메라를 포함할 수 있다. 일 실시예에서, 카메라는 화상을 획득할 때 컬러 데이터(예컨대, 레드, 그린, 블루) 및 깊이 데이터를 캡쳐한다. 깊이 데이터는 카메라에 대하여 카메라에 의해 캡쳐되고 있는 오브젝트들의 근접성 - 일 실시예에서는, 픽셀 단위를 기반으로 함 - 을 나타낸다. 깊이 데이터는 예컨대 투사된 적외선(IR) 광을 판독하는 IR 카메라를 사용하는 것, 투사된 레이저 광을 판독하는 것 등과 같이, 다양한 방식으로 캡쳐될 수 있다. 깊이 데이터는 센티미터 단위로, 미터 단위로, 또는 그 외 다른 공간적인 표현으로 저장될 수 있다. 예를 들어, IR 도트들은 IR 카메라에 의해 투사되고 판독되어, 미터 단위의 지향으로 측정된, 카메라의 바로 전방의 영역에서 이미지의 깊이를 상세히 보여주는 출력 파일을 생성할 수 있다. 덧붙여서, 깊이 데이터는 또한 깊이가 측정된 스크린 영역의 픽셀들을 기록함으로써 캡쳐된 오브젝트의 특정 부분의 지향을 가리킨다. 컬러 카메라 및 깊이 카메라가 서로에 대해 분리되어 위치될 수 있기 때문에, 회수된 컬러 데이터를 대응하는 깊이 데이터에 매핑하기 위하여 변환이 이루어질 수 있다.

I/O 포트들(118)은 컴퓨팅 장치(100)가 논리적으로 I/O 컴포넌트들(120)을 포함하는 다른 장치들과 연결되도록 허용하는데, I/O 컴포넌트들(120) 중 일부는 내장될 수 있다. 예시적인 I/O 컴포넌트들(120)에는 마이크로폰, 조이스틱, 게임 패드, 위성 접시, 스캐너, 프린터, 무선 장치, 등이 포함된다.

앞서 지적한 바와 같이, 몇몇 실시예들은 가상 환경에서 오브젝트의 디지털 렌디션(digital rendition)을 생성하는 것에 관한 것이다. 도 2는 일 실시예에 따른, 사용자(204)가 오브젝트(206)의 디지털 표현을 생성하는 환경(200)의 도면이다. 이것 및 본 명세서에서 기술된 그 외 다른 배열들은 오직 예시로서 제공된다는 점이 이해되어야 한다. 그 외 다른 배열들 및 요소들(예컨대, 머신들, 인터페이스들, 기능들, 순서들, 및 기능들의 집합 등)이 도시된 것에 추가하여 또는 대신에 사용될 수 있고, 몇몇 요소들은 전적으로 생략될 수 있다. 더 나아가, 본 명세서에서 기술된 요소들 중 많은 요소들은 개별적인 또는 분산된 컴포넌트로서 또는 그 외 다른 컴포넌트들/모듈들과 함께, 및 임의의 적절한 조합 및 위치에서 구현될 수 있는 기능적인 엔터티들이다. 하나 이상의 엔터티들에 의해 수행되는 것으로서 본 명세서에서 기술된 다양한 기능들이 하드웨어, 펌웨어, 및/또는 소프트웨어에 의해 수행될 수 있다. 예를 들어, 다양한 기능들은 메모리에 저장된 명령어를 실행하는 프로세서에 의해 수행될 수 있다.

도 2에 집중하면, 환경(200)은 사용자(204)가 문어 인형으로 예시되어 있는 오브젝트(206)를 컴퓨팅 장치(202)에게 프레젠트하는 것을 보여주는데, 컴퓨팅 장치(202)에는 2개의 카메라, 즉 컬러 카메라(208) 및 깊이 카메라(depth camera)(210)가 구비되어 있다. 환경(200)에서, 컴퓨팅 장치(202)는 Microsoft Corporation®에 의해 제작된 Microsoft Kinect^TM과 같은 게임 콘솔이다. 컴퓨팅 장치(202) 상의 카메라들은 오브젝트(206)를 포함하는 하나 이상의 이미지를 캡쳐한다. 컬러 카메라(208)는 이미지에 대한 컬러 데이터를 캡쳐하고, 깊이 카메라(210)는 깊이 데이터(depth data)를 캡쳐한다. 대안적인 실시예들에서, 컴퓨팅 장치(202)는 컬러 및 깊이 데이터 양자 모두를 캡쳐하는 오직 하나의 카메라만을 가질 수 있다.

비록 독립 장치로서 도시되어 있지만, 컴퓨팅 장치(202)는 그 외 다른 컴퓨팅 장치(예컨대, 게임 콘솔, 서버 등)에 통합되거나 통신가능하게 연결될 수 있다. 컴퓨팅 장치(200)의 컴포넌트들은 네트워크를 통해 상호 소통할 수 있는데, 네트워크는 하나 이상의 근거리망(LAN) 및/또는 광대역망(WAN)을 제한없이 포함할 수 있다. 이러한 네트워킹 환경은 사무실, 기업-단위 컴퓨터 네트워크, 인트라넷 및 인터넷에서 흔하다. 몇몇 실시예들은 추가적인 컴퓨팅 장치(202)를 포함할 수 있다는 점이 이해되어야 한다. 각각은 하나의 단일 장치/인터페이스 또는 분산 환경에서 협력하는 다수의 장치들/인터페이스들을 포함할 수 있다.

몇몇 실시예들에서, 본 명세서에서 기술된 하나 이상의 디지타이제이션 기법들은 스탠드-얼론 애플리케이션에 의해 구현될 수 있다. 대안적으로, 하나 이상의 디지타이제이션 기법들은 인터넷과 같은 네트워크에 걸쳐있는 서로 다른 컴퓨팅 장치들에 의해, 또는 하나의 게임 시스템 내부의 하나의 모듈에 의해 구현될 수 있다. 도 2에 도시된 컴포넌트들/모듈들은 본질과 개수에 있어 예시이며 제한으로 간주되지 않아야 한다는 점을 해당 기술 분야의 통상의 지식을 가진 자라면 이해할 것이다. 임의의 개수의 컴포넌트들/모듈들은 본 명세서의 실시예들의 범위 내에서 원하는 기능을 성취하기 위하여 채용될 수 있다. 더 나아가, 컴포넌트들/모듈들은 임의의 개수의 서버 또는 클라이언트 컴퓨팅 장치들 상에서 위치될 수 있다.

비록 사용자가(204)가 컴퓨팅 장치(202)로 오브젝트(206)의 정면을 프레젠팅하는 것으로 도 2에서 도시되어 있으나, 사용자(204)는 오브젝트(206)의 후방 측의 이미지가 캡쳐될 수 있도록 컴퓨팅 장치(202)에게 오브젝트(206)의 후면을 프레젠트할 수 있다. 그런 다음 오브젝트(206)의 3D 렌디션을 생성하기 위해 오브젝트(206)의 후면 이미지는 정면 이미지와 결합될 수 있다. 각각의 캡쳐된 이미지는 컬러 데이터 및 깊이 데이터를 포함할 수 있으며, 두 데이터 모두 컴퓨팅 장치(202)가 오브젝트(206)의 3D 렌디션을 정확하게 생성하도록 허용한다.

다른 실시예들에서, 디지타이제이션을 보조하기 위하여 오브젝트(206)의 추가적인 이미지 뷰들도 또한 사용될 수 있다. 오브젝트(206)는 임의의 상이한 각도에서 사진 촬영되거나 비디오 촬영될 수 있다. 예를 들어, 더 강건한 3D 디지타이제이션을 생서하기 위해, 정면 뷰 및 후면 뷰에 추가하여 또는 그 대신에 서너 개의 이미지들이 오브젝트(206)의 우측, 좌측, 하단 및 상단에서 취해질 수 있다. 예를 들어, 오브젝트(206)의 하나의 특정 면을 디지털화하는데 몇 개의 측면 뷰들이 사용될 수도 있다. 적어도 실시예들에서, 오브젝트(206)의 뷰들이 더 많이 사용될수록 더 완전한 또는 더 정확한 3D 렌디션이 생성된다.

도 3은 일 실시예에 따른, 오브젝트를 디지털화하는 동작 흐름도(300)이다. 먼저, 302에서 도시된 바와 같이, 사용자는 이미지가 촬영되도록 하기 위해 컴퓨팅 장치 상의 카메라에게 오브젝트를 프레젠트한다. 몇몇 실시예들에서, 컴퓨팅 장치는 - 예컨대 디스플레이 상에서 윤곽선을 제공하는 것을 질문하고, 사용자 및 오브젝트의 실-시간 이미지를 보여주며, 그런 다음 윤곽선 안으로 오브젝트를 이동시키도록 사용자에게 지시하여 - 이미지의 최적 이미지를 캡쳐하기 위해 특정 영역 안으로 오브젝트를 이동시키도록 사용자에게 지시할 수 있다. 일단 초기 이미지가 취해지면, 컴퓨팅 장치는 사용자에게 304에서 도시된 바와 같이 캡쳐를 위해 오브젝트의 후면을 프레젠트하도록 지시할 수 있다. 후면을 캡쳐하기 위한 안내는 컴퓨팅 장치에 의해 유사하게 제공될 수 있다. 각각의 캡쳐된 이미지에 있어서, 컬러 및 깊이 데이터가 저장되고 프레젠트되고 있는 오브젝트를 디지털화하기 위하여 사용된다. 더 나아가, 다수의 이미지들이 오브젝트의 정면 및 후면 관점에서 캡쳐될 수 있다. 예를 들어, 컴퓨팅 장치는 10개의 정면 이미지와 10개의 후면 이미지를 취하고, 정면 10개를 합치고 후면 10개를 합치거나 또는 이미지를 디지털화하기 위하여 20개 모두를 사용할 수 있도록 구성될 수 있다. 비록 10개의 이미지가 하나의 오브젝트를 디지털화하기 위하여 이상적인 이미지 개수로서 설명하였지만, 그 외 다른 실시예들은 다른 수의 캡쳐된 이미지들을 사용할 수 있다.

일단 오브젝트의 정면 및 후면 이미지들이 카메라에 의해 캡쳐되면, 일 실시예는 306에서 도시된 바와 같이, 카메라에 대해 이미지 내에서 가장 가까운 포인트를 탐색 - 이미지의 깊이 데이터를 이용하여 - 함으로써 디지털화를 시작한다. 사용자는 아마도 사용자 앞에 디지털화될 오브젝트를 잡고 있고, 따라서 오브젝트는 카메라에 대해 다른 것들보다 더 가까울 것이다. 도 2로 되돌아가면, 사용자(204)가 오브젝트(206)를 사용자 앞에 잡고 있으며 따라서 컴퓨팅 장치(202)에 더 가깝다는 것을 알 수 있다. 이미지 내에서 가장 가까운 오브젝트의 발견은 이미지와 연관되어 있는 깊이 데이터를 사용하여 성취될 수 있으며, 몇몇 실시예들은 정면 및 후면 이미지들 양자 모두에서 가장 가까운 오브젝트를 식별하기 위해 양자 모두에 대해 이 프로세스를 수행한다.

308에서 나타난 바와 같이, 이미지 내에서 식별된 가장 가까운 오브젝트는 이후 그 오브젝트가 끝나는 위치를 식별하기 위해 에지(edge)들이 탐색된다. 이미지 내에서 오브젝트의 에지들을 발견하기 위하여 깊이 데이터가 다시 사용된다. 에지 탐색은 가장 가까운 포인트로부터 바깥쪽으로, 포인트들의 깊이에서 급격한 차이를 찾음으로써 이루어질 수 있다. 예를 들어, 도 2의 문어의 에지는 사용자(204)의 어깨를 나타내는 인접 포인트보다 약 반 미터 더 가까운 포인트를 가질 수 있다. 그러한 급격한 차이는 인접 포인트가 오브젝트의 일부가 아니며 따라서 추가 디지타이제이션 단계들에서 포함되지 않아야 한다는 판독가능한 신호를 나타낸다. 이러한 방식으로 오브젝트의 모든 에지들을 발견함으로써 컴퓨팅 장치는 이미지 내에서 오브젝트를 식별할 수 있다.

일단 오브젝트가 결정되면, 일 실시예는 이미지의 나머지(즉, 오브젝트로서 식별되지 아니한 이미지 부분)와 연관되어 있는 컬러 데이터를 스위치 오프(switch off)시킨다. 몇몇 실시예들에서 다수의 이미지(예컨대, 오브젝트의 정면에서 10개의 이미지 및 오브젝트의 후면에서 10개의 이미지)를 캡쳐하는 것이 필요할 수 있고, 따라서 310에서 도시된 바와 같이 프레임들 사이에서 발견된 에지들을 혼합하기 위하여 스무딩 기법(smoothing technique)이 요구될 수 있다. 예를 들어, 오브젝트는 프레임 1 및 프레임 4 사이에서 이동될 수 있고 프레임들 사이에서 에지들을 스무딩하는 것이 오브젝트의 정확한 표현을 얻기 위해 필요할 수 있다. 덧붙여서, 노이즈, 저해상도, 및 깊이-대-컬러 조정(registration)에서의 결함 때문에 또한 에지들의 추가적인 스무딩 및/또는 필터링이 필요할 수 있다.

일 실시예에서, 최종 스무딩된 및/또는 필터링된 오브젝트는, 312에서 도시된 바와 같이, 확인을 위해 사용자에게 프레젠트된다. 사용자는 최종 오브젝트를 수용하거나 거절할 수 있다. 만약 수용되면, 오브젝트를 디지털화하기 위하여 추가적인 프로세싱이 진행될 수 있다. 만약 거절되면, 실시예들은 사용자에게 오브젝트의 새로운 영상을 취함으로써 프로세스를 시작할 것인지 질문할 수 있거나 또는 단순히 오브젝트를 재-스무딩 또는 재-필터링할 수 있다.

결과적으로, 정면 및 후면 이미지들은 3D 형태로 오브젝트의 포인트 클라우드 구조물(point cloud construction)을 생성하기 위해 사용된다. 도 11에서 상세히 도시된 "포인트 클라우드 구조물"은, 식별된 오브젝트의 각각의 포인트 또는 픽셀의 깊이를 사용한, 3D 공간 안으로의 오브젝트의 정면 및/또는 후면 이미지의 매핑이다. 포인트 클라우드 구조물은 오브젝트의 추가 디지타이제이션에서 사용된다. 하지만, 대안적인 실시예들은 서로 다른 이미지들로부터 오브젝트의 구조물 또는 그 외 다른 타입의 표현을 생성하기 위해 깊이 및 컬러 데이터의 그 외 다른 표현 또는 공간적인 집합을 사용할 수 있다.

도 4 내지 도 26은 디지타이제이션 프로세스에서 다양한 단계들의 이미지들을 보여주며 서로 다른 실시예들에 의해 사용되는 프로세싱을 도시하기 위하여 아래에서 더 상세히 논의될 것이다. 특히, 도 4(a) 및 도 4(b)는 일 실시예에 따른 디지타이제이션을 위해 오브젝트를 프레젠트하고 있는 사용자의 카메라-뷰 관점의 도면이다. 도시된 실시예에서, 오브젝트의 2개의 뷰가 캡쳐된다. 컬러 카메라는 타겟 오브젝트 주위에서 640X480 컬러 윈도우를 얻기 위하여 프레임의 중심으로 줌인(zoom in)되고, 그러면 컬러 윈도우의 코너들은 깊이 프레임 좌표로 변형된다(코너들이 타겟 오브젝트의 정면에 있다고 가정한다). 그런 다음 매칭하는 160X120 윈도우가 깊이 프레임으로부터 획득된다. 이러한 프레임 단위로의 윈도우 조정(카메라에 대한 타겟 오브젝트의 거리에 의존하여)이 없다면, 깊이 및 컬러 윈도우들은 가능한 한 완전히 오버랩되지 않을 수 있다. 더 나아가, 로우(raw) 컬러 및 깊이는 깊이-대-컬러 또는 컬러-대-깊이 조정의 수행없이 캡쳐된다. 해상도 수치 및 윈도우는 단지 예시적인 목적으로 제공되는 것이며, 따라서 다양한 그 외 다른 해상도들이 대안적으로 사용될 수 있다.

일 실시예에서, 깊이 이미지는 타켓 오브젝트로 세크먼트화된다. 이렇게 하기 위하여, 카메라에 대해 가장 가까운 깊이 픽셀이 탐색되고, 이러한 포인트가 타겟 오브젝트 상에 있다고 가정한다면, 발견된다. 그런 다음 이 실시예는 깊이 에지들(즉, 깊이가 오브젝트의 정면에서 너무 멀리 떨어져 있는 위치 또는 아무런 깊이 데이터가 없는 위치)과 마주칠 때까지 발견된 가장 가까운 포인트로부터 바깥쪽으로 플러드-필(flood-fill)한다. 덧붙여서, 급한 경사 영역 주위 및 너무나 적은 이웃들을 가진 포인트들은 제거될 수 있다. 그 결과는, 도 5에 도시된 바와 같이, 타겟 오브젝트 상에 있는 깊이 픽셀들의 마스크(본 명세서에서 "세크먼트화된 깊이 이미지"로서 지칭되는)이다. 세그먼트화된 깊이 이미지는 깊이 프레임들의 링 버퍼(10의 링 버퍼 크기를 가진 BAB/GOE 운반되어)내에 저장되어, 가장 오래된 깊이 프레임을 덮어쓰고 최종 깊이 이미지를 획득하기 위하여 모든 프레임들과 함께 평균화된다. 일 실시예에서, 오직 세그먼트화된 깊이 픽셀들이 최종 평균에 기여한다. 결과적으로, 노이즈는 스무딩되고, 더 안정한 오브젝트 에지로 귀결되며, 오브젝트의 부분들이 노이즈 또는 열악한 IR 반사 물질에 기인하여 세그먼트화 되었다 안되었다 하는 시나리오를 향상시킨다.

도 6은 일 실시예에 따른, 깊이-대-컬러(depth-to-color) 오프셋의 도면이다. 도시된 바와 같이, 일 실시예는 녹색 포인트들을 나타내는 녹색 컬러들(우측 코너에서 보여지는), 붉은 색 컬러들(좌측 아래 코너에서 보여지는), 및 그 사이에서 이 둘을 혼합한 것을 가진 깊이-대-컬러 오프셋 테이블을 구축한다. 각각의 픽셀의 깊이 및 컬러 공간 좌표들 사이의 오프셋들은 컬러 세그먼테이션 및 메쉬 프로세싱 동안에 신속한 룩업을 위해, 뿐만 아니라, 특정 카메라의 눈금 조절 설정치와 상관없이, 오직 2개의 캡쳐된 컬러 이미지를 사용하여 출력 메쉬의 완전한 재생을 돕기 위해 테이블 내에 저장된다. 테이블 외측 영역에서 오브젝트 세그먼테이션은 세그먼테이션의 에지에서 바깥쪽으로 오프셋들을 복사함으로써 채워질 수 있다. 에지에서 복사된 오프셋은, 깊이 이미지 내에 투사된 출력 메쉬 내의 정점들이 깊이 세그먼테이션의 경계 바깥에 떨어지는 경우를 다루기 위하여, 나중에 사용될 수 있다.

도 7은 소스 컬러 이미지의 도면이고, 도 8은 일 실시예에 따른, 캡쳐된 오브젝트의 컬러 세그먼테이션의 도면이다. 깊이 공간 내의 세그먼테이션으로 시작하면, 일 실시예는 별-형태의 스플렛(splat) 패턴을 사용하여, 320X240 컬러 세그먼테이션 버퍼 안으로 각각의 세그먼트화된 깊이 픽셀을 스플렛한다. 그러면 결과적인 패턴은 640X480으로 "업-샘플링된"되고, 각각의 세그먼트화된 컬러 픽셀에 대해 소스 깊이 픽셀이 "이상적인" 거리로부터 얼마나 멀리 있는지를 기술하는 "이상으로부터의 거리(distance-from-ideal)" 값이 계산된다. 이상적인 거리는 깊이 카메라의 전면 클립 면을 가로지르지 않고 가능한 한 많은 컬러/깊이 데이터를 획득하기 위하여 카메라에 대해 얼마나 가까이 사용자가 타겟 오브젝트를 잡고 있어야 하는지를 나타낸다. 이들 값은 캡쳐 프로세스 동안에 사용자에게 피드백으로서 프레젠트될 수 있다. 이상적인 것으로부터 떨어져 있는 픽셀들은 이상적인 것에 더 가까운 픽셀들보다 더 심하게 틴트되거나 블러링될 수 있다. 이상으로부터의 거리 값들은 결과적으로 실시간 프리뷰를 위해 사용되는 컬러 이미지의 알파 채널 안으로 복사된다.

도 9 및 도 10은 일 실시예에 따른, 디지털화될 오브젝트를 잡고 있는 것에 대한 안내를 제공하는 사용자 인터페이스(UI)의 도면들이다. 도 9는 도시된 실시예가 세그먼트화된 픽셀들의 개수, 카메라까지의 거리, 카메라 뷰의 중심으로부터의 거리, 픽셀 안정성, 및 오브젝트 크기를 분석하고, 사용자에게 얼마나 오브젝트를 가장 좋은 위치에 배치할 수 있는가에 대하여 시각적인 피드백 및 텍스트 피드백을 제공한다는 것을 보여준다. 피드백은 스크린 상에서 윤곽선의 형태일 수 있다. 도 10은 위와 동일한 프로세스를 사용하여 타겟 오브젝트의 후면의 이미지의 컬러 및 깊이 데이터를 보여준다. 일 실시예는 세그먼트화된 정면 캡쳐의 윤곽선을 사용하여 정확하게 오브젝트를 지향하도록 사용자를 안내한다. 사용자는 정면 및 후면 캡쳐들이 나중에 자동으로 정렬될 수 있기 때문에 정밀하게 윤곽선을 매칭시킬 필요는 없다.

도 11은 일 실시예에 따른, 포인트 클라우드 구조물을 보여준다. 이 지점에서, 2개의 컬러 및 깊이 이미지들이 타겟 오브젝트에 대해 세그먼트화되었다. 이들 이미지를 사용하여, 타겟 오브젝트의 표면 상에서 포인트들의 포인트 클라우드 구조물이 구축되고 나중에 트라이앵글 메쉬(triangle mesh)를 재구축하기 위하여 사용될 수 있다. 정면 이미지 내의 세그먼트화된 픽셀들은 3D 포인트들의 "시트(sheet)"로 변환된다. 일 실시예에서, 위치들은 깊이 데이터 및 시트의 후면-중심에 있는 원점을 이용하여 깊이 이미지 공간으로부터 모델 공간으로 반투영(un-project)된다. 시트의 에지들은 오브젝트의 면들을 형성하도록 추가적인 포인트들을 추가함으로써 뒤쪽으로 돌출된다. 오브젝트가 얼마나 "깊은지"를 추정하기 위하여, BAB/GOE에서, 돌출 거리에 대한 고정 값이 사용될 수 있다.

유사하게, 후면 깊이 이미지로부터의 3D 포인트들로 이루어진 시트는, 정면 캡쳐의 후면 중심을 원점으로 이용하여 생성된다. 도 12는 일 실시예에 따른, 정렬된 포인트 시트들의 2개의 뷰를 도시한다. 시트들을 정렬하기 위하여, 이 시트를 상향 축(up axis)을 중심으로 180도 회전시켜 그것이 포인트 클라우드의 후면을 형성할 수 있도록 하기 위한 초기 변환이 계산된다. 일 실시예에서, 정면 시트와 후면 시트의 에지들을 가능한 한 가까이 정렬하는 다른 하나의 변환이 계산된다. 정렬 프로세스는 후면 시트의 질량 중심을 정면 시트의 질량 중심과 매칭되도록 하기 위해 후면 시트를 이동시킬 수 있다. 그런 다음, 각각의 정면 에지 포인트로부터 그것의 가장 가까운 후면 에지 포인트까지 거리들의 합계로서 계산되는, "정렬 에러" 값을 최소화하기 위하여 이동 및 회전 범위에 대해 억지 반복(brute-force iterate)이 사용된다. 반복은 다수의 패스(pass)(각각의 패스는 한번에 하나씩 각각의 이동 및 회전 축에 대해 가장 좋은 값을 계산하려고 시도한다)들 안에서 행해질 수 있으며, 각각의 축을 가로지르는 탐색은 효율을 위해 2-티어 계층 접근법을 사용하여 행해진다. 가장 가까운-포인트-찾기(closest-point-finding)는 3D 셀 공간 파티션을 사용하여 가속된다. 일 실시예는 또한 패스트 파인-그레인드(fast fine-grained) 정렬을 위해 반복적인 가장 가까운 포인트(ICP, iterative closest point) 알고리즘을 구현하거나, 또는 대안적으로, 더 나은 컨트롤에 대한 요구로 인해 반복적인 억지 방법만 사용할 수도 있다.

후면 시트 내에 대응하는 포인트를 가지지 않는 정면 시트의 포인트는 가장 가까운 후면 포인트를 발견하기 위하여 각각의 정면 포인트로부터 뒤쪽으로 탐색하도록 선별될 수 있다. 유사하게, 정면 시트 내에서 대응하는 포인트를 가지지 아니하는 후면 시트의 포인트가 선별될 수 있다. 이것은 정면 캡처와 후면 캡쳐 사이에서 불일치하는 시트 부분을 제거하는데, 이 경우는 만약 사용자의 손이 캡쳐 내에 존재하지만 캡쳐들 사이에서 위치를 변경한 경우에, 또는 오브젝트가 정면 및 후면 캡쳐 사이에서 형태가 변화된 경우에 발생할 수 있다.

일 실시예에서, 나머지 포인트들은 최종 포인트 클라우드에 함께 병합되며 각각의 포인트 및 그 우측 및 하부의 이웃들에 의해 형성되는 평면을 이용하여 포인트들의 평균(normal)이 계산된다. 도 13은 일 실시예에 따른, 최종 포인트 클라우드 구조물을 보여준다.

도 14에 도시된 바와 같이, 이후 확인 이미지가 사용자에게 프레젠트될 수 있다. 확인 이미지는 시트 정렬 및 포인트 선별의 결과를 포함하며, 사용자로 하여금 캡쳐, 정렬, 또는 선별이 형편없이 실패한 경우를 검출할 수 있게 하며 구성 프로세스의 나머지를 진행하지 않고 재-캡쳐하도록 허용한다. 이미지는 최종 포인트 클라우드 내의 포인트들을 정면 및 후면 컬러 이미지의 알파 채널 안으로 투사하고 스플렛팅하고, 정렬 변형에 기초하여 후면 이미지를 회전시키며, 또한 몇몇 추가적인 이미지 클린업을 수행함으로써 생성된다.

표면 재구성 단계는 최종 포인트 클라우드를 취하고 트라이앵글 매쉬를 생성한다. 도 15는 표면 재구성을 이용한 메쉬 출력의 도면이다. 일 실시예는 MSR-베이징 소재 Xin Tong의 그룹의 Minmin Gong에 의해 개발되고 Kazhdan, Bolitho, 및 Hoppe에 의한 "Poisson Surface Reconstruction"; 및 Zhou, Gong, Huang, 및 Guo에 의한 "Highly Parallel Surface Reconstruction"에서 상세히 설명되어 있는 포와송 표면 재구성(Poisson Surface Reconstruction) 알고리즘의 하이브리드 CPU/GPU 구현을 사용한다. 이것은 몇몇 실시예들에서 대략 20,000 포인트를 가지는 전형적인 포인트 클라우드 데이터에 대해 10-20 초가 걸리는, 메모리 및 시간 양자 모두에 있어 디지털화의 가장 집중적인 계산이 필요한 부분일 수 있다. 구멍-메우기(hole-filling)의 양은 메모리 사용량의 제어를 유지하기 위해 재구성 동안에 제한될 수 있지만, 그러나 이러한 제한은 만약 포인트 클라우드 내에 큰 구멍들이 존재한다면 논-워터-타이트(non-water-tight) 메쉬로 귀결될 수 있다.

도 16은 일 실시예에 따른 오브젝트의 스무딩되고 처리된 이미지의 도면이다. 정점 인접성 리스트가 구축되고 면과 정점 평균이 계산된다. 그런 다음, 일 실시예는 몇몇 구속조건을 스무딩하기 위하여 라플라시안 알고리즘을 사용한다. 그 결과, 오브젝트의 측면들이 다듬어지고, 노이즈가 제거되며, 포인트 시트가 정렬되어 있지 않은 영역들이 정리된다.

포인트 클라우드의 품질에 의존하여, 표면 재구성은 단일의 큰 메쉬 대신에 기하학적인 작은 "섬들(islands)"을 생성할 수 있다. 일 실시예는 섬들을 발견하고, 그것들의 부피를 계산하고, 가장 큰 섬보다 너무 작은 섬들을 제거하기 위해 연결된 컴포넌트 라벨링을 사용한다.

각각의 정점에 대하여, 일 실시예는 정점의 평균 및 정면 캡쳐 및 후면 캡쳐 뷰 방향 사이의 도트 곱(dot product)을 검사한다. 정면 뷰 방향은 모델-공간의 음의 Z축을 따를 수 있는 반면에, 후면 뷰 방향은 시트 정렬 프로세스의 결과에 의존할 수 있으며 양의 Z축을 따르지 않을 수 있다. 결과적으로, 몇몇 정점들은 정면 및 후면 캡쳐 뷰 내에서 가시적일 수 있고, 몇몇 정점들은 두 뷰 모두에서 가시적이지 않을 수 있다. 몇몇 정점들은 이들의 법선이 후면보다 정면과 대향하고 있다면 "정면"으로 분류될 수 있고, 그 역도 마찬가지이다. 이것은 또한 "심(seam)" 정점(즉, 오브젝트의 정면 뷰 및 후면 뷰에 걸쳐 있는 정점들)의 발견을 허용한다.

최종 메쉬 상에 적용할 텍스처 맵을 생성하기 위하여, 일 실시예는 텍스처의 상부에 정면 캡쳐로부터의 컬러 이미지를 배치하고 정면 캡쳐의 바로 하부에 후면 캡쳐로부터의 컬러 이미지를 배치한다. 텍스처의 상부로부터의 텍셀(texel)들은 일차 정면-대향 트라이앵글 상으로 매핑되고 일차 후면-대향 트라이앵글에 대해서는 그 역이다. 정점들은 초기에 정면-후면 심을 따라 정면 및 후면 트라이앵글 사이에서 공유될 수 있고, 이후, 이들 공유된 정점들은 정면 대 후면 트라이앵글들에 텍스처의 서로 다른 부분들을 매핑할 수 있도록 복제될 수 있다.

도 17은 UV 좌표들을 가진 이미지의 도면을 도시하고, 도 18은 일 실시예에 따른 최종 텍스처 맵의 한 섹션으로 그려진 정면-대향 트라이앵글 에지의 도면을 도시한다. UV 좌표들을 계산하기 위하여, 정면-대향 트라이앵글들은 정면 캡쳐 컬러 이미지가 배치되어 있는 텍스처의 상부로 매핑되며, 하부에 대하여도 마찬가지이다. 정점 위치들은 깊이 카메라의 공간 내에 있으며; 반면, 컬러 이미지들은 컬러 카메라의 공간 내에 있고, 따라서 정면/후면 깊이 이미지들 상으로 정점들을 투사한 이후, 일 실시예는 좌표를 컬러 카메라 공간으로 변환시키기 위해 깊이-대-컬러 오프셋 테이블을 사용한다.

일 실시예에서, 메쉬는 재-센터링되고, 상향 축 주위로 미러링되고 최대 폭/높이 종횡비를 강제하기 위해 스케일링된다. 캡쳐된 컬러 및 깊이 이미지들은 실제 물리적인 오브젝트와 비교하여 미러링되고, 따라서 다른 하나의 미러링이 이것을 역전시키기 위해 사용된다. 골격(skeleton)은 최적화될 수 있고 애니메이션은 더 넓은 오브젝트보다는 더 큰 오브젝트를 위해 추가될 수 있으며, 따라서 폭/높이 종횡비 구속조건은 특정 골격과 매칭되지 아니하는 넓은 오브젝트를 애니메이팅함으로써 야기되는 결함을 속박한다.

일 실시예에서, 하나의 단일 골격이 오브젝트의 모든 애니메이션들에 대해 사용된다. 골격은 타겟 오브젝트가 더 많은 형태를 가지는 것을 요구함이 없이 양호한 범위의 움직임(걷기, 뛰기, 기기, 춤추기, 좌우 보기 등)들을 제공하는 뼈들을 가질 수 있다.

디지털화된 이미지에 피부를 적용하기 위하여, 메쉬는 골격이 그 안에 맞추어지도록 재스케일링되고, 상단 뼈가 오브젝트의 상단으로부터 특정 퍼센트(예컨대, 대략 90%)에 위치되도록 하고(대략적으로 오브젝트의 "머리" 안에 배치하는) 하단 뼈는 오브젝트의 하단 부분에 위치되도록 한다. 그런 다음 상향 축을 따라 각각의 정점에 대해 가장 가까운 뼈들을 발견하고 폴오프(falloff) 곡선을 사용하여 그것들에 가중치를 부여함으로써 뼈 지수(bone indices)가 계산될 수 있고 골격에 가중치가 추가될 수 있다. 도 19(a) 내지 도 19(e)는 일 실시예에 따른, 생성된 골격 구조의 서로 다른 뼈들에 추가된 가중치를 도시하는 도면들이다.

컬러 및/또는 깊이 이미지들은 노이즈를 감소시키고 품질을 향상시키기 위해 프로세싱될 수 있다. 일 실시예에 따른 프로세싱은 정면 이미지 및 후면 이미지에 대해 독립적으로 수행되고, 그 결과들은 하나의 최종 텍스처 맵으로 통합되는데, 이 최종 텍스처 맵은 추가 프로세싱이 요구될 수 있다. 몇몇 실험과 아티스트로부터의 피드백 이후, 다음의 단계들이 최적이라는 점이 발견되었다, 즉: sRGB 컬러들을 선형 공간으로 변형하고, "그레이-세계"에 오토-화이트 밸런스를 적용하고, 에지 결함을 복구하고, 루마 및 크로마 값들을 계산하고, 쌍방 필터링을 적용하고, 히스토그램 균등화, 및 루마에 대해 샤프닝, 크로마에 대해 중간 필터링을 적용하고, sRGB로 다시 변환하고, 마지막으로, 이미지의 디-세그먼트된 영역들로 컬러들의 에지들을 외부로 연장한다. 서로 다른 실시예들에서 그 외 다른 단계들이 추가될 수 있고 위의 몇몇 단계들이 삭제될 수 있다.

도 20(a) 및 도 20(b)는 일 실시예에 따른 루마/크로마 프로세싱 전 및 후의 이미지를 보여준다. 루마/크로마를 독립적으로 프로세싱하는 것은 루마 이미지 내에서 디테일을 보존하는 한편으로 크로마를 훨씬 더 강하게 필터링하는 것을 허용하는데, 이것은 이미지에서 노이즈를 제거하는데 좋다. 히스토그램 균등화는 열악하게 노출된 이미지들을 보상하기 위하여 매우 가볍게 적용될 수 있다.

도 21(a) 및 도 21(b)는 일 실시예에 따른 에지들이 필터링된 이후 소스 및 출력 이미지들을 보여준다. 일 실시예에서, "에지 복구 필터"는 실질적으로 배경으로부터 유래되고 오브젝트 그 자체가 아닌 타겟 오브젝트의 에지들에서 컬러들을 대체하려고 시도한다. 상대적으로 낮은 해상도 및 깊이 이미지의 높은 노이즈 및 불완전한 깊이-대-컬러 조정에 기인하여 불량 컬러들이 발생될 수 있다. 에지 복구 필터는 오브젝트 에지 바로 주위에서 픽셀들의 "문제되는 영역(disputed region)"에 대해 동작한다. 문제되는 영역에 대해 내부의 픽셀들은 확실하게 타겟 오브젝트의 일부이고 먼 외부에 있는 픽셀들은 배경의 일부라는 가정을 이용하여, 문제되는 영역 픽셀 마다 "배경 가능성(background likelihood)" 값이 계산되고 높은 가능성의 배경 픽셀들을 내부 컬러들로 블렌딩하는데 사용된다.

도 22(a) 및 도 22(b)는 일 실시예에 따른 에지 복구 필터가 타겟 컬러들 및 배경 컬러들을 복원하는 경우의 이미지들을 보여준다. 타겟 컬러들은 외부로부터 문제되는 영역 안으로 외삽된다.

도 23(a) 및 도 23(b)는 일 실시예에 따른 에지로부터 문제되는 영역까지의 거리 및 계산된 배경 가능성 값들을 보여주는 이미지들이다. 더 나아가, 도 24는 일 실시예에 따른 비 최종적인 이미지 위에 텍스처가 입혀진 이미지의 최종 합성 텍스처 맵을 보여준다.

정면 이미지 및 후면 이미지를 함께 배치하는 것으로부터 귀결되는 심은 복구될 필요가 있을 수 있다. 메쉬 프로세싱의 최후 비트는 정면-후면 심 근처의 외관 및 캡쳐링 동안에 컬러 카메라에 대해 비가시적이었던 영역들의 외관을 향상시키기 위해 사용된다. 먼저, 정점 마다 해당 정점에서 텍스처 컬러가 얼마나 "불량"일지를 나타내는 마스크 값이 계산된다. 이 값은 임의의 캡쳐된 이미지들에 대해 얼마나 후면-대향되어 있는지(표면이 카메라의 뷰로부터 멀리 향하는 것 및 또한 열악한 텍셀 밀도에 기인하여 텍스처 컬러가 손상되어 있는 위치)와 정점이 심(정면 이미지와 후면 이미지가 접촉하지만 전체적으로 양호하게 라인업되어 있지 아니한 곳)까지 거리의 곱이다. 이들 값은 정점 컬러 알파 채널 내에 저장될 수 있다. 그 다음에, 표면 컬러의 블러링된 버전이 계산되고 정점 컬러 RGB 채널 안으로 저장된다. 이들 컬러는 품질면에서(비록 세부적으로는 낮지만) 상당히 양호하다. 복구가 필요한 네거티브 결함은 상대적으로 로컬화되어 있으며 더 높은 주파수를 가지는데 비해, 블러링(blurring)은 더 전체적인, 낮은-주파수의 컬러를 제공한다.

도 25(a) 및 도 25(b)는 일 실시예에 따른 마스크된 값 및 심하게 블러링된 정점 컬러들을 보여준다. 일 실시예에서, 동작시, 마스크 값은 소스 텍스처와 블러링된 정점 컬러 사이 블렌딩을 위하여 사용된다. 도 26(a) 및 도 26(b)는, 일 실시예에 따른, 텍스처만 가진 메쉬(도 27A) 및 마스크 값에 의한 정점 컬러 블렌딩을 수행한 텍스처를 가진 메쉬(도 27B)의 서로 다른 메쉬들을 보여준다.

도 27은 일 실시예에 따른, 디지털화된 오브젝트의 최종 렌더링을 보여준다. 일 실시예에서, 일단 최종 메쉬 및 텍스처가 완성되면, 언리얼 엔진 3 메쉬(Unreal Engine 3 mesh)가 생성되고 환경 및 가장자리 조명, 자체 그림자 및 애니메이션과 함께 렌더링된다. GOE 앱(app)은 또한 사용자가 골격 상에 누이(Nui) 골격을 매핑함으로써 오브젝트를 아바타화하도록 허용한다.

위의 단계들은 이용가능성, CPU/GPU/메모리 요건, 출력 품질, 아티스트적인 고려, 센서 정확도, 및 개발 시간의 균형을 맞춘다. 모든 시나리오에 대해 특정되지 않을 수 있는 트레이드-오프가 이루어졌다. 그러므로, 상이한 단계들이 추가될 수 있거나 또는 최종 디지타이제이션의 속도 또는 품질을 향상시키기 위해 위의 몇몇이 삭제될 수 있다.

도 28은 일 실시예에 따른 오브젝트를 디지털화하기 위한 동작 흐름도(2800)를 보여준다. 2802에서 도시된 바와 같이, 이미지로부터 컬러 및 깊이 데이터가 수신된다. 깊이 데이터를 분석하여, 사용자가 캡쳐를 위해 카메라에 오브젝트를 프레젠트할 가능성이 가장 높다는 추정에 기초하여, 카메라에 대해 이미지의 가장 가까운 포인트를 식별함으로써 관심있는 오브젝트가 발견된다. 관심있는 오브젝트를 설정하기 위한 대안적인 방식들이 대안적으로 또는 추가적으로 이용될 수 있다. 실시예들은 이미지 내에서 오브젝트를 발견하기 위한 임의의 특정 타입의 수단으로 제한되지 않기 때문에, 여러가지 이미지 인식 또는 알고리즘적인 매칭 기법들이 이미지 내에서 오브젝트를 발견하기 위하여 사용될 수 있다. 또한 실시예들은 오브젝트를 발견하기 위하여 깊이 데이터에 추가하여 또는 대안적으로 이미지의 컬러 데이터를 사용할 수 있다. 예를 들어, 코카-콜라 캔은 붉은 색의 상표를 포함할 수 있으며, 영상 내에서 캔을 발견하려고 시도할 때 컬러 데이터가 특히 관련되도록 한다. 따라서, 관심있는 오브젝트는 많은 여러 가지 방식으로 발견될 수 있다.

일단 관심있는 오브젝트가 발견되면, 2804에서 도시된 바와 같이, 오브젝트의 에지들이 식별된다. 이러한 결정은 오브젝트 주변의 이미지 내에서 컬러, 깊이, 또는 컨트라스트, 차이들을 분석함으로써 이루어질 수 있다. 일단 에지들이 발견되면, 2808에서 도시된 바와 같이, 이미지의 컬러 및 깊이 데이터를 사용하여 오브젝트의 포인트 클라우드 구조물의 생성이 수행될 수 있다. 3D로 오브젝트를 디지털화하기 위하여, 오브젝트의 상이한 면들에 대한 다수의 포인트 클라우드 구조물들이 다수의 이미지들(예컨대, 후면, 정면, 상단, 하단, 등)의 컬러 및 깊이 데이터에 기초하여 생성될 수 있다. 다수의 포인트 클라우드 구조물들은, 일단 생성되면, 2810에서 도시된 바와 같이, 오브젝트의 최종 디지타이제이션을 생성하기 위하여 통합될 수 있다.

도 29는 일 실시예에 따른 오브젝트를 디지털화하는 동작 흐름도(2900)를 보여준다. 2902에서 도시된 바와 같이, 일단 오브젝트의 이미지들이 수신되면, 2904에서 도시된 바와 같이, 이미지의 가장 가까운 포인트들이 식별된다. 2904에서 도시된 바와 같이, 오브젝트의 면들(예컨대, 좌측, 우측, 북쪽, 남쪽, 상단, 하단, 등)이 식별된다. 2908에서 도시된 바와 같이, 이미지들의 포인트 클라우드 구조물들이 생성되고, 2910에서 도시된 바와 같이 하나의 단일 렌디션으로 통합된다. 그런 다음 최종 렌디션이 2912에서 도시된 바와 같이 저장되고, 디스플레이 장치 상에서 프레젠트된다.

도시된 다양한 컴포넌트들 뿐만 아니라 도시되지 아니한 컴포넌트들의 다양한 배열들이 아래의 청구항들의 범위에서 벗어나지 않고도 가능하다. 본 기술의 실시예들은 제한적이 아니라 예시적인 것으로 기술되었다. 대안적인 실시예들은 본 명세서의 독자들에게 명백할 것이다. 상술한 것들을 구현하는 대안적인 수단들은 아래의 청구항들의 범위로부터 벗어나지 않고도 성취될 수 있다. 그 외 다른 특징들 및 하위 조합들을 참조하지 않고도 특정한 특징 및 하위 조합들이 이용될 수 있고 채용될 수 있으며 청구항들의 범위 내에서 고려될 수 있다.

Claims

실행될 경우, 적어도 하나의 카메라에 의해 캡쳐된 오브젝트를 디지털화(digitize)하는 방법을 수행하는 컴퓨터-실행가능 명령어가 포함되어 있는 컴퓨터 저장 장치에 있어서,
상기 방법은,
적어도 하나의 이미지와 연관된 컬러 데이터 및 깊이 데이터를 수신하는 단계와,
상기 깊이 데이터에 기초하여, 상기 적어도 하나의 카메라에 대해 상기 적어도 하나의 이미지에서 가장 가까운 포인트를 식별하는 단계와,
인접한 포인트들 사이에서 깊이의 급격한 차이(drastic difference)를 찾도록 상기 가장 가까운 포인트로부터 바깥쪽으로 이동하면서 포인트들의 깊이를 분석함으로써 상기 적어도 하나의 이미지에서 상기 오브젝트의 에지들을 식별하는 단계와,
상기 에지들 내에서 상기 깊이 데이터를 사용하여 상기 오브젝트의 포인트 클라우드 구조물(point cloud construction)을 생성하는 단계와,
상기 오브젝트의 디지타이제이션(digitization)을 생성하기 위하여 상기 포인트 클라우드 구조물을 이용하는 단계
를 포함하는 것인 컴퓨터 저장 장치.
제 1 항에 있어서, 상기 적어도 하나의 카메라에 대해 상기 적어도 하나의 이미지에서 가장 가까운 포인트를 식별하는 단계는,
상기 적어도 하나의 카메라의 조리개(aperture)와 상기 적어도 하나의 이미지 내의 복수의 포인트들 사이의 거리들을 계산하는 단계와,
상기 거리들 중에서 최단 거리를 선택하는 단계
를 더 포함하는 것인 컴퓨터 저장 장치.
제 2 항에 있어서,
상기 최단 거리로 상기 오브젝트에 연결된 특징(feature)을 식별하는 단계와,
상기 카메라에 대해 상기 오브젝트의 가장 가까운 부분을 나타내는 상기 특징의 표시(indication)를 저장하는 단계
를 더 포함하는 것인 컴퓨터 저장 장치.
제 1 항에 있어서,
상기 오브젝트의 적어도 하나의 제2 이미지에 대한 컬러 데이터 및 깊이 데이터를 수신하는 단계와,
상기 적어도 하나의 제2 이미지에서 제2의 가장 가까운 포인트를 결정하는 단계와,
상기 제2의 가장 가까운 포인트에서 상기 오브젝트를 식별하는 단계와,
상기 적어도 하나의 제2 이미지 내에 지향되어 있는(oriented), 상기 오브젝트의 제2 포인트 클라우드 구조물을 생성하는 단계
를 더 포함하는 것인 컴퓨터 저장 장치.
제 4 항에 있어서, 상기 오브젝트의 3D 렌디션(rendition)을 생성하기 위해 상기 포인트 클라우드 구조물과 상기 제2 포인트 클라우드 구조물을 조합하는 단계를 더 포함하는 것인 컴퓨터 저장 장치.
제 5 항에 있어서,
상기 포인트 클라우드 구조물 및 제2 포인트 클라우드 구조물 사이의 심(seam)을 식별하는 단계와,
상기 심(seam)의 일부를 채우기 위한 필러 컬러(filler color)를 결정하는 단계와,
상기 포인트 클라우드 구조물 및 상기 제2 포인트 클라우드 구조물 사이에 심리스 에지(seamless edge)를 가진 3D 렌디션(rendition)을 생성하기 위하여 상기 필러 컬러로 상기 심(seam)의 일부를 채우는 단계와,
상기 3D 렌디션을 저장하는 단계
를 더 포함하는 것인 컴퓨터 저장 장치.
제 6 항에 있어서, 디스플레이 장치 상에 상기 3D 렌디션을 디스플레이하는 단계를 더 포함하는 것인 컴퓨터 저장 장치.
제 7 항에 있어서,
상기 3D 렌디션의 상이한 특징들의 이동을 통제(govern)하기 위해 규칙들의 세트를 이용하는 단계와,
상기 규칙들 중 하나 이상에 따라 상기 디스플레이 장치 상에서 상기 3D 렌디션을 이동시키는 단계
를 더 포함하는 것인 컴퓨터 저장 장치.
제 1 항에 있어서,
상기 적어도 하나의 이미지 내의 상기 가장 가까운 포인트를 둘러싸는 공간적 구역(spatial region)에서 이미지 분석을 수행하는 단계와,
상기 이미지 분석에 기초하여, 상기 공간적 구역 내의 2개의 영역들 사이의 컬러 차이를 결정하는 단계와,
상기 영역들 중 하나의 영역을 상기 오브젝트와 연관되어 있는 것으로서 지정하는 단계와,
상기 영역들 중 상기 하나의 영역과는 상이한 컬러를 가진 다른 영역을 제거하는 단계
를 더 포함하는 것인 컴퓨터 저장 장치.
제 1 항에 있어서, 하나 이상의 깊이 에지들에 도달할 때까지 상기 가장 가까운 포인트로부터 바깥쪽으로 플러드-필링(flood-filling)하는 단계를 더 포함하는 것인 컴퓨터 저장 장치.
제 1 항에 있어서,
상기 오브젝트와 연관된 이웃 포인트들의 문턱 개수보다 더 적은 포인트를 갖는 영역들 주위에서 상기 적어도 하나의 이미지의 하나 이상의 포인트들을 제거하여, 결과적으로 상기 오브젝트의 깊이 픽셀들의 마스크를 생성하는 단계를 더 포함하는 것인 컴퓨터 저장 장치.
제 11 항에 있어서,
적어도 하나의 깊이 프레임을 덮어쓰고 하나의 최종 깊이 이미지를 생성하기 위하여 다수의 프레임들을 함께 평균화하는 방식으로 깊이 프레임들의 링 버퍼 내에 상기 깊이 픽셀들의 마스크를 저장하는 단계를 더 포함하는 것인 컴퓨터 저장 장치.
적어도 하나의 카메라에 의해 캡쳐된 오브젝트를 디지털화하는 방법에 있어서,
적어도 하나의 이미지와 연관된 컬러 데이터 및 깊이 데이터를 수신하는 단계와,
상기 깊이 데이터에 기초하여, 상기 적어도 하나의 카메라에 대해 상기 적어도 하나의 이미지에서 가장 가까운 포인트를 식별하는 단계와,
인접한 포인트들 사이에서 깊이의 급격한 차이를 찾도록 상기 가장 가까운 포인트로부터 바깥쪽으로 이동하면서 포인트들의 깊이를 분석함으로써 상기 적어도 하나의 이미지에서 상기 오브젝트의 에지들을 식별하는 단계와,
상기 에지들 내에서 상기 깊이 데이터를 사용하여 상기 오브젝트의 포인트 클라우드 구조물을 생성하는 단계와,
상기 오브젝트의 디지타이제이션을 생성하기 위하여 상기 포인트 클라우드 구조물을 이용하는 단계
를 포함하는 오브젝트 디지털화 방법.
제 13 항에 있어서, 상기 적어도 하나의 카메라에 대해 상기 적어도 하나의 이미지에서 가장 가까운 포인트를 식별하는 단계는,
상기 적어도 하나의 카메라의 조리개와 상기 이미지 내의 복수의 포인트들 사이의 거리들을 계산하는 단계와,
상기 거리들 중에서, 최단 거리를 선택하는 단계와,
상기 최단 거리에서 상기 오브젝트에 연결된 특징을 식별하는 단계와,
상기 카메라에 대해 상기 오브젝트의 가장 가까운 부분을 나타내는 상기 특징의 표시를 저장하는 단계
를 더 포함하는 것인 오브젝트 디지털화 방법.
제 13 항에 있어서,
상기 오브젝트의 적어도 하나의 제2 이미지에 대한 컬러 데이터 및 깊이 데이터를 수신하는 단계와,
상기 적어도 하나의 제2 이미지에서 제2의 가장 가까운 포인트를 결정하는 단계와,
상기 제2의 가장 가까운 포인트에서 상기 오브젝트를 식별하는 단계와,
상기 적어도 하나의 제2 이미지 내에 지향되어 있는, 상기 오브젝트의 제2 포인트 클라우드 구조물을 생성하는 단계와
상기 오브젝트의 3D 렌디션을 생성하기 위해 상기 포인트 클라우드 구조물과 상기 제2 포인트 클라우드 구조물을 조합하는 단계와,
상기 포인트 클라우드 구조물 및 제2 포인트 클라우드 구조물 사이의 심(seam)을 식별하는 단계와,
상기 심(seam)의 일부를 채우기 위한 필러 컬러를 결정하는 단계와,
상기 포인트 클라우드 구조물 및 상기 제2 포인트 클라우드 구조물 사이에 심리스 에지를 가진 3D 렌디션을 생성하기 위하여 상기 필러 컬러로 상기 심(seam)의 일부를 채우는 단계와,
상기 3D 렌디션을 저장하는 단계
를 더 포함하는 오브젝트 디지털화 방법.
제 15 항에 있어서,
상기 3D 렌디션의 상이한 특징들의 이동을 통제하기 위해 규칙들의 세트를 이용하는 단계와,
상기 규칙들 중 하나 이상에 따라 상기 3D 렌디션을 이동시키는 단계
를 더 포함하는 오브젝트 디지털화 방법.
제 13 항에 있어서,
상기 적어도 하나의 이미지 내의 상기 가장 가까운 포인트를 둘러싸는 공간적 구역에서 이미지 분석을 수행하는 단계와,
상기 이미지 분석에 기초하여, 상기 공간적 구역 내의 2개의 영역들 사이의 컬러 차이를 결정하는 단계와,
상기 영역들 중 하나의 영역을 상기 오브젝트와 연관되어 있는 것으로서 지정하는 단계와,
상기 영역들 중 상기 하나의 영역과는 상이한 컬러를 가진 다른 영역을 제거하는 단계
를 더 포함하는 오브젝트 디지털화 방법.
컴퓨팅 장치에 있어서,
하나 이상의 프로세서를 포함하고,
상기 하나 이상의 프로세서는,
적어도 하나의 이미지와 연관된 컬러 데이터 및 깊이 데이터를 수신하고,
상기 깊이 데이터에 기초하여, 적어도 하나의 카메라에 대해 상기 적어도 하나의 이미지에서 가장 가까운 포인트를 식별하며,
인접한 포인트들 사이에서 깊이의 급격한 차이를 찾도록 상기 가장 가까운 포인트로부터 바깥쪽으로 이동하면서 포인트들의 깊이를 분석함으로써 상기 적어도 하나의 이미지에서 오브젝트의 에지들을 식별하고,
상기 에지들 내에서 상기 깊이 데이터를 사용하여 상기 오브젝트의 포인트 클라우드 구조물을 생성하며,
상기 오브젝트의 디지타이제이션을 생성하기 위하여 상기 포인트 클라우드 구조물을 이용하도록 구성되는 것인 컴퓨팅 장치.
제 1 항에 있어서, 인접한 포인트들 사이의 깊이의 급격한 차이는 적어도 0.5 미터를 포함하는 것인 컴퓨터 저장 장치.
제 1 항에 있어서, 인접한 포인트들 사이의 깊이의 급격한 차이는 상기 인접 포인트들 중 하나가 상기 캡쳐된 오브젝트의 일부가 아니라는 것을 나타내는 거리에 대응하는 것인 컴퓨터 저장 장치.