KR101840308B1

KR101840308B1 - 3차원 콘텐츠에 관한 영상들을 조합하기 위한 방법

Info

Publication number: KR101840308B1
Application number: KR1020137005018A
Authority: KR
Inventors: 파올로 다마토; 다리오 펜니시; 지오반니 발로카
Original assignee: 에스.아이.에스브이.이엘. 쏘시에타‘ 이탈리아나 퍼 로 스빌루포 델‘엘레트로니카 에스.피.에이.; 쓰리디스위치 에스.알.엘.
Priority date: 2010-07-28
Filing date: 2011-07-28
Publication date: 2018-03-20
Also published as: CN103329543A; CN103329543B; ZA201300610B; US9549163B2; WO2012014171A9; EP2599319A1; EP2599319B1; EA201390178A1; JP2013539256A; WO2012014171A1; PL2599319T3; ITTO20100652A1; IT1401367B1; HUE027682T2; ES2564937T3; BR112013001910A2; TW201223248A; KR20130052621A; US20130135435A1

Abstract

본 발명은 3-차원 콘텐츠 상에 영상들을 중첩시키기 위한 방법에 관한 것이며, 여기서 3-차원 콘텐츠 및 3-차원 콘텐츠 상에 영상들을 중첩시키기 위한 깊이 맵을 포함하는 비디오 스트림이 수신된다. 비디오 스트림이 수신되면, 영상들은 중첩 깊이 맵(DM)에 의존하는 깊이의 위치에서 3-차원 콘텐츠 상에서 중첩된다. 중첩 깊이 맵은 3-차원 콘텐츠의 깊이에 관한 정보를 포함하고, 비디오 스트림의 프레임(C)에 포함된 영상으로서 삽입된다. 깊이 맵은 3-차원 콘텐츠와 연관된 2-차원 영상의 화소보다 적은 수의 화소들을 갖는다. 본 발명은 또는 상기 방법들의 구현을 가능하게 하는 디바이스에 관한 것이다.

Description

3차원 콘텐츠에 관한 영상들을 조합하기 위한 방법{METHOD FOR COMBINING IMAGES RELATING TO A THREE-DIMENSIONAL CONTENT}

본 발명은 입체 디스플레이 디바이스 내에서, 디바이스 자체에 의해 수신된 3-차원 콘텐츠 상에 중첩(superimpose)되는 국부적으로 생성된 영상들을 조합하기 위한 방법들 및 디바이스들에 관한 것이다.

텔레비전 장치들(텔레비전 세트들 및 디코더들)은 텍스트 및 그래픽들을 포함하는 영상들을 국부적으로 생성하고 이들을 수신되는 영상들 상에 중첩시킬 수 있으며; 이에 따라 비디오가 배경에서 재생될 때 사용자에게 다양한 종류들의 유용한 정보를 공급하는 것이 가능하다는 것이 알려져 있다.

이들 영상들은 비디오 신호에 따라 수신되는 정보로부터 시작함으로써 생성될 수 있거나(예를 들어, 부제 및 EPG들로서 또한 알려진 몇몇 전자 프로그램 가이드들의 경우에서와 같이), 또는 이들은 디코더 또는 텔레비전 세트의 구성 및 세팅들에 관한 정보(예를 들어, 볼륨 레벨 및 다른 파라미터들을 표시하는 바(bar)들 또는 메뉴들)를 제공할 수 있다.

근래에, 시장에서 입수 가능한 3D 콘텐츠들의 양이 상당히 증가하였고; 이들 콘텐츠들의 성과(fruition)는 더 이상 영화들로 제한되지 않고 사용자들은 집에서 그들 자신의 텔레비전 세트 상에서 3D 비디오들을 감상할 수 있다.

그러므로 3D 비디오에 대해서도, 수신되고 있는 텔레비전 영상들 상에 국부적으로 생성된 영상들을 중첩시킬 필요가 있다.

2D 비디오 스트림과 비교하면, 3D 비디오 스트림 상의 영상 중첩은 더욱 복잡한데, 그 이유는 비디오 스트림을 구성하는 단일의 영상들에 포함되는 객체들의 상이한 깊이 어레인지먼트를 고려할 필요가 있기 때문이다.

특허 출원 EP2157803 Al은 텔레비전 영상의 전면에 텍스트가 항상 유지되도록 하는 위치에 텍스트를 위치시키는 방법을 교시한다. 특히, 3D 콘텐츠는 2차원 영상 + 깊이 매트릭스로서 브로드캐스트되는 경우, 깊이 매트릭스는 텍스트의 위치를 정의하기 위해 또한 이용될 수 있다.

이 해결책은 매우 큰 깊이 맵을 이용한다는 단점을 갖는데, 그 이유는 이것이 기본적인 2-차원 영상으로부터 시작함으로써 우측 및 좌측 영상들의 쌍(함께 조합될 때 3D 효과를 생성함)을 생성하기 위해 이용되기 때문이다. 텍스트 위치를 정의하기 위해 맵이 분석되어야 할 때 상당한 계산 노력을 요구하는 것 외에, 이러한 맵의 크기는 또한 맵이 수신기에 전송될 때 높은 대역폭 이용을 수반한다.

특허 출원 WO2008/038205는 메인 3D 영상들 및 메인 영상들에 중첩되지 않는, 텍스트들 또는 그래픽들과 같은 부가적인 2D 또는 3D 영상들에 의해 구성되는 (3D 디스플레이 상에 재생될) 3D 영상들을 구성하기 위한 방법을 기술한다. 각각의 타입의 영상은 2D 영상 및 관련 깊이 맵에 의해 구성된다. 각각의 타입의 영상의 깊이 맵은 디스플레이될 영상을 재구성하기 위해 대응하는 2D 영상의 수신시에 조합된다.

특허 출원 EP 1705929는 수신시에 3D 영상을 재구축하는데 유용한, 깊이에 관한 정보로, 3D 영상을 구성하는 2개의 2D 영상들 중 하나를 프레임에서 조합함으로써 3D 영상들의 전송을 구성하기 위한 방법을 기술한다.

본 발명의 목적은 입체 비디오 스트림에 의해 전송되는 3-차원 콘텐츠와 영상들을 조합하기 위한 방법 및 시스템을 제공하는 것이며, 이는 종래 기술의 단점들을 극복하도록 허용한다.

특히, 3D 콘텐츠 재생기 레벨에서 더 낮은 계산 비용을 요구하는, 3D 콘텐츠 상에 영상들을 중첩시키기 위한 방법을 제공하는 것이 본 발명의 하나의 목적이다.

본 발명의 다른 목적은 높은 대역폭 이용을 요구하지 않고 입체 비디오 스트림 코딩 및 디코딩 동작들에 대해 견고한, 입체 비디오 스트림에 의해 전송된 영상들 상에 영상들을 중첩시키는데 필요한 정보를 전송하기 위한 방법을 제공하는 것이 본 발명의 다른 목적이다.

본 발명의 상기 및 다른 목적들은 본 설명의 통합 부분으로서 의도되는 첨부된 청구항들에서 지정되는 특징들을 포함하는, 입체 비디오 스트림에 의해 전송된 영상들 상에 영상들을 중첩시키기 위한 방법 및 시스템을 통해 달성된다.

본 발명을 토대로 한 일반적인 아이디어는 입체 스트림의 프레임에 포함되는 영상 내로 코딩된 중첩 깊이 맵을 재생 단계에서 이용함으로써 입체 스트림 상에 중첩되는 엘리먼트를 디스플레이하는 것이다. 본 발명에서 이용되는 깊이 맵은 입체 비디오 스트림의 코딩을 목적으로 하지 않는데 그 이유는 이 깊이 맵은 적절한 방식으로 입체 영상 상에 국부적으로 생성된 영상들을 중첩시키는데 유용한 정보를 디코더 또는 텔레비전 세트에 공급할 목적만을 갖고 전송되기 때문이다. 이를 위해, 깊이 맵은 더 낮은 해상도 및 이에 따라 입체 쌍의 화소보다 적은 수의 화소들을 가지며, 이에 따라 대역폭 점유를 제한한다. 이는 맵이 3-차원 영상을 생성하기 위해서가 아니라 오버레이(overlay)들을 적절히 위치시키기 위해서만 이용되기 때문에 가능하다.

바람직한 실시예에서, 프레임은 적절히 멀티플렉싱된, 우측 영상, 좌측 영상 및 깊이 맵을 포함하는 합성 영상을 전달한다.

일 실시예에서, 우측 및 좌측 영상들은 종래의 포맷、예를 들어, 사이드-바이-사이드(side-by-side), 상부-하부(top-bottom) 또는 바둑판 포맷에 따라 배열되는 반면에, 깊이 맵은 합성 프레임의 빈 영역 내로 삽입되며 디스플레이를 위해 의도되지 않는다.

대안적인 실시예에서, 우측 및 좌측 영상들은 혁신적인 방식으로 합성 프레임에 배열된다. 이 실시예에서, 프레임은 우측 및 좌측 영상들 둘 다의 원래의 포맷(즉 코딩 이전)의 화소들의 합보다 높은 화소들의 수를 포함하며, 이에 따라 그 영상들은 데시메이션이 되지 않고 입력된다.

이 실시예에서, 제 1 영상(예를 들어, 좌측 영상)의 화소들은 어떠한 변경들도 경험하지 않고 합성 영상 내에 입력되는 반면에, 제 2 영상은 구역으로 세분되며, 이 구역의 화소들은 합성 영상의 빈 영역에 배열된다. 이러한 해결책은, 2개의 영상들 중 하나는 변경되지 않은 채로 남아있고, 이는 재구성된 영상의 품질을 더 양호하게 한다는 이점을 제공한다.

유리하게는, 제 2 영상은 이어서, 압축 단계 동안 가공물들의 생성을 감소시키고 화소들 간의 공간적 상관을 최대화하도록, 최소의 가능한 수의 구역들로 분해된다.

유리한 실시예에서, 제 2 영상의 구역들은 옮김(translation) 또는 회전옮김(rototranslation) 동작들 만에 의해 합성 영상 내로 입력되고, 이에 따라 수평 및 수직 해상도 간의 비율이 변경되지 않은 채로 남아있게 된다.

추가의 실시예에서, 제 2 영상이 분해되는 구역들 중 적어도 하나는 정반전 단계를 경험하는데, 즉, 자신의 측면 중 하나가 2개의 우측 및 좌측 영상들의 동종 화소들 즉, 동일한 로우 및 컬럼에 위치되는 2개의 영상들의 화소들 간에 존재하는 강한 상관으로 인해, 접경하는 측 상에 동일하거나 유사한 화소들을 갖는 다른 영상의 한 측(side)과 접경하도록 하는 방식으로, 하나의 축(특히 한 측)에 대해 뒤집(overtune)이고 합성 영상에 배열된다.

이러한 해결책은 경계 영역에서 가공물들의 생성을 감소시키는 이점을 제공한다. 보다 유리하게는, 제 2 영상이 세분되는 구역들은 직사각형 형상을 갖고; 대각 방향들에서 합성 영상을 가로지르는 경계 영역을 갖고 배열되는 삼각형 구역들을 이용하는 해결책에 비교하면, 이러한 선택은, 특히 후속 압축 단계가 정사각형의 화소들의 블록(예를 들어, H.264 표준에 대해 16x16) 상에서 실행되는 경우 후속 압축 단계에 의해 생성되는 가공물들의 감소를 제공한다.

특히 유리한 실시예에 따라, 가공물들의 형성은 합성 영상에 중복(redundancy)을 도입함으로써, 즉 몇몇 화소들의 그룹들을 수차례 복사함으로써 추가로 감소되거나 심지어 완전히 제거된다. 특히, 이는 구역들의 화소들의 총 수가 분해되는 영상의 화소들의 수를 초과하도록 하는 치수를 갖는 상기 구역들로 합성 영상 내에 입력될 기본 영상을 분해함으로써 달성된다. 즉, 영상은 구역들로 분해되며 이들 중 적어도 2개는 공통으로 영상 부분을 포함한다. 공통 영상 부분은 디어셈블링된 영상에서 서로 인접한 구역들 간의 경계 영역이다. 이러한 공통 부분의 크기는 바람직하게는 합성 영상에 후속적으로 적용될 압축의 타입에 의존하며, 디어셈블링된 영상이 재구성될 때 부분적으로 또는 완전히 제거될 버퍼 영역으로서 작용할 수 있다. 이러한 압축이 버퍼 영역들, 또는 적어도 버퍼 영역들의 최외각 부분을 제거함으로써 상기 구역들의 경계 영역들에 가공물들을 도입할 수 있기 때문에, 임의의 가공물들을 제거하고 원래의 영상에 충실한 영상을 재구성하는 것이 가능하다.

본 발명의 추가의 목적들 및 이점들은 비-제한적인 예로서 제공되는 본 발명의 몇 개의 실시예들의 이어지는 설명으로부터 더욱 자명하게 될 것이다.

상기 실시예들은 첨부 도면들을 참조하여 기술될 것이다.

도 1은 우측 영상 및 좌측 영상을 합성 영상으로 멀티플렉싱하기 위한 디바이스의 블록도.
도 2는 도 1의 디바이스에 의해 실행되는 방법의 흐름도.
도 3은 합성 영상 내로 입력될 영상의 디어셈블리의 제 1 형태를 도시하는 도면.
도 4는 본 발명의 일 실시예에 따라 합성 영상을 구성하는 제 1 단계를 도시하는 도면.
도 5는 도 4의 완전한 합성 영상을 도시하는 도면.
도 6은 합성 영상 내로 입력될 영상의 디어셈블리의 제 2 형태를 도시하는 도면.
도 7은 도 6의 영상을 포함하는 합성 영상을 도시하는 도면.
도 8은 합성 영상 내로 입력될 영상의 디어셈블리의 제 3 형태를 도시하는 도면.
도 9는 도 8의 영상을 포함하는 합성 영상을 도시하는 도면.
도 10은 본 발명의 방법에 따라 생성되는 합성 영상을 수신하기 위한 수신기의 블록도.
도 11은 도 8의 방법에 따라 디어셈블링되고 도 10의 수신기에 의해 수신된 합성 영상 내로 입력되는 영상을 재구성하는 몇몇 단계를 도시하는 도면.
도 12는 도 9에서 도시된 타입의 합성 영상으로 멀티플렉싱되는 우측 및 좌측 영상들을 재구성하기 위한 방법의 흐름도.
도 13은 본 발명의 제 4 실시예에 따른 합성 영상을 도시하는 도면.
도 14a 내지 도 14f는 도 13의 합성 영상내로 우측 영상 및 좌측 영상을 입력하기 위해 수행되는 상이한 프로세싱 단계들에서 우측 영상 및 좌측 영상을 도시하는 도면.

적절한 경우, 유사한 구조들, 컴포넌트들, 물질들 및/또는 엘리먼트들은 상이한 도면들에서 유사한 참조번호들에 의해 지정된다.

도 1은 비디오 스트림에 의해 전송되는 비디오 콘텐츠 상에 영상들을 중첩시키기 위해 깊이 맵을 갖는 입체 비디오 스트림(101)을 생성하기 위한 디바이스(100)의 블록도를 도시한다.

3-차원(또는 3D) 콘텐츠는 가변 깊이를 갖는 것으로서 관찰자에 의해 인식되는 영상 또는 비디오이고, 여기서 본 발명의 목적들을 위해, 영상 또는 비디오가 디스플레이되거나 프로젝팅되는 스크린 평면으로부터 엘리먼트들이 돌출할 수 있다.

여기서의 표현 "2개의 영상들을 중첩"은 예를 들어, 투명한, 반-투명한, 또는 완전히 불투명한 2개의 영상들의 조합의 임의의 형태를 지칭한다.

본 발명은 결국 2차원 또는 3차원이 될 수 있는, 정적 또는 동적인, 즉 고정된 또는 시간-가변적인 그래픽 특성들을 갖는 임의의 타입의 중첩에 균등하게 적용될 수 있다.

3-차원 콘텐츠의 깊이는 3D 콘텐츠가 디스플레이되는 스크린에 직교하는 축을 따라 스크린에 입력되는 3차원 콘텐츠의 차원에 관한 것이다. 본 설명의 목적들을 위해, 스크린은 0 깊이 지점에 대응하는 반면에, "최소 깊이" 지점은 사용자에게 가장 근접한 것으로서 즉, 스크린으로부터 가장 먼 것으로서 사용자에 의해 인식되는 3D 콘텐츠의 그 지점이다. 이에 따라, "최대 깊이" 지점은 스크린 내에 가장 깊은 것으로서, 즉, 스크린 평면을 훨씬 지나서 관찰자로부터 가장 먼 것으로서 관찰자에 의해 인식되는 그 지점이다.

도 1에서, 디바이스(100)는 좌측 눈(L) 및 우측 눈(R) 에 대해 각각 의도되는 2개의 영상 시퀀스들(102 및 103), 예를 들어, 2개의 비디오 스트림들, 및 깊이 맵 시퀀스(106)가 입력된다. 시퀀스(106)의 각각의 깊이 맵은 시퀀스들(102 및 103)에 각각 속하는 우측 및 좌측 영상들의 한 쌍과 연관된다. 이 실시예에서, 깊이 맵은 우측 영상을 좌측 영상에 비교하고 2개의 비교되는 영상들 중 하나의 화소들과 동일한 크기를 갖는 매트릭스(깊이 맵)를 반환하는 원래 알려진 알고리즘들에 의해 생성되며, 그의 엘리먼트들은 디스플레이되는 각각의 화소의 깊이에 비례하는 값을 갖는다. 다른 깊이 맵 생성 기법은 장면을 찍는 비디오 카메라의 쌍으로부터 장면 내의 객체의 거리의 측정에 기초한다. 이러한 거리는 레이저에 의해 쉽게 측정될 수 있다. 전자 컴퓨터들의 도움으로 생성된 인공적인 비디오 스트림들의 경우에, 비디오 카메라들은 이들이 컴퓨터에 의해 인공적으로 생성된 특정한 장면의 2개의 관점으로 구성된다는 점에서 가상의 카메라들이다. 다른 실시예에서, 하나의 깊이 맵은 우측 및 좌측 영상들의 다수의 쌍들과 연관되고; 이 경우에, 깊이 맵의 각각의 엘리먼트에 대해 선택된 값은 상이한 프레임들에서의 화소의 최소 깊이 값이다. 바람직하게는, 이 실시예에서, 깊이 맵은 디바이스(100) 상에 로드를 감소시키도록 그것이 연관되는 각각의 프레임 그룹에 대해 한번 입력되며, 이 디바이스(100)에는 또한 우측 및 좌측 영상들의 다수의 쌍들과 하나의 깊이 맵을 연관시키도록 허용하는 정보의 단편(piece)이 입력된다.

도 1의 예에 대한 대안으로서, 시퀀스(106)의 깊이 맵들이 디바이스(100) 내에서 생성될 수 있다. 이 경우에, 디바이스(100)는 시퀀스들(102 및 103)의 영상들(L 및 R)이 입력되고 이어서 대응하는 깊이 맵들을 생성하는 적합한 모듈을 포함 한다.

디바이스(100)는 2개의 시퀀스들(102 및 103)의 2개의 영상들 및 시퀀스(106)의 깊이 맵을 멀티플렉싱하는 방법을 구현하도록 허용한다.

우측 및 좌측 영상들 및 깊이 맵을 멀티플렉싱하기 위한 방법을 구현하기 위해, 디바이스(100)는 입력 영상(도 1의 예에서 우측 영상)을, 각각이 수신된 영상의 하나의 구역에 대응하는 복수의 서브-영상들로 분해하기 위한 디어셈블러 모듈(104), 깊이 맵을 프로세싱하기 위한 언더샘플링 및 필터링 모듈(107) 및 깊이 맵을 포함하는 수신된 영상들의 화소들을 그의 출력으로서 제공될 단일의 합성 영상내로 입력할 수 있는 어셈블러 모듈(105)을 포함한다. 시퀀스(106)의 프로세싱이 필요하지 않는 경우, 모듈(107)은 생략될 수 있다. 이는 예를 들어, 깊이 맵이 레이저-생성되고, 처음부터 올바르게, 영상들(L 및 R)의 해상도보다 낮은 해상도를 가질 때가 바로 그 경우일 수 있다.

디바이스(100)에 의해 구현되는 멀티플렉싱 방법의 일 예는 도 2를 참조하여 이제 기술될 것이다.

방법은 단계(200)에서 시작한다. 후속적으로 (단계(201)에서), 2개의 입력 영상들(우측 또는 좌측) 중 하나는 도 3에서 도시된 바와 같이 복수의 구역들로 분해된다. 도 3의 예에서, 디어셈블링된 영상은 비디오 스트림(720p)의 프레임(R), 즉, 1280 x 720 화소들의 해상도, 25/30fps(초당 프레임들)를 갖는 진보적인 포맷이다.

도 3의 프레임(R)은 우측 눈에 대해 의도되는 영상들을 전달(carry)하는 비디오 스트림(103)으로부터 오고, 3개의 구역들(R1, R2 및 R3)로 디어셈블링된다.

영상(R)의 디어셈블리는 그것을 동일한 크기의 2개의 부분들로 분할하고 후속적으로 이들 2개의 부분들 중 하나를 동일한 크기의 2개의 부분들로 세분함으로써 획득된다.

구역(R1)은 640x720 화소들의 크기를 가지며, 각각의 로우(row)의 최초의 640개의 화소들을 모두 취함으로써 획득된다. 구역(R2)은 640x360 화소들의 크기를 가지며 최초의 360개의 로우들의 641 내지 720의 화소들을 취함으로써 획득된다. 구역(R3)은 640x360 화소들의 크기를 가지며, 영상(R)의 잔여 화소들, 즉 마지막 360개의 로우들의 641 내지 720의 화소들을 취함으로써 획득된다.

도 1의 예에서, 영상(R)을 디어셈블링하는 단계는 입력 영상(R)(이 경우에 프레임(R))을 수신하고 3개의 구역들(R1, R2 및 R3)에 대응하는 3개의 서브-영상들(즉, 3개의 화소들의 그룹)을 출력하는 모듈(104)에 의해 수행된다.

후속적으로(단계들 (202, 203 및 205)), 합성 영상(C)이 구성되며, 이는 수신된 깊이 맵에 그리고 우측 및 좌측 영상들 둘 다에 속하는 정보를 포함하며; 여기서 기술되는 예에서, 상기 합성 영상(C)은 출력 입체 비디오 스트림의 프레임이고, 이에 따라 그것은 컨테이너 프레임으로서 또한 지칭된다.

가장 먼저(단계(202)), 디바이스(100)에 의해 수신되고 디바이스(105)에 의해 디어셈블링되지 않은 입력 영상(도 1의 예에서 좌측 영상(L))은 둘 다의 입력 영상들의 모든 화소들을 포함하도록 하는 방식으로 크기 조절된 컨테이너 프레임 내로 변경되지 않은 채로 입력된다. 예를 들어, 입력 영상들이 1280x720 화소들의 크기를 갖는 경우, 둘 다를 포함하는데 적합한 컨테이너 프레임은 1920x1080 화소들의 프레임, 예를 들어, 1080p 타입의 비디오 스트림의 프레임(1920 x 1080 화소들을 갖고 초당 25/30 프레임들을 갖는 진보적인 포맷)일 것이다.

도 4의 예에서, 좌측 영상(L)은 컨테이너 프레임(C)에 입력되고 상위 좌측 모서리에 위치된다. 이는 컨테이너 프레임(C)의 최초의 720개의 로우들의 최초의 1280 화소들로 구성되는 영역(C1) 내로 영상(L)의 1280x720 화소들을 복사함으로써 획득된다.

이어지는 설명에서, 영상을 프레임 내로 입력하거나 하나의 프레임에서 다른 프레임으로 화소들을 전달 또는 복사하는 것에 관한 참조가 이루어질 때, 이는 소스 영상과 동일한 화소들을 포함하는 새로운 프레임을 생성(하드웨어 및/또는 소프트웨어 수단을 이용함으로써)하는 프로시저를 실행하는 것을 의미하는 것으로 이해된다.

소스 영상(또는 소스 영상의 화소들의 그룹)을 타깃 영상 내로 재현(reproduce)하기 위한 (소프트웨어 및/또는 하드웨어) 기법들은 본 발명의 목적을 위해 중요하지 않은 것으로 간주되고, 이 기법들은 당업자들에게 원래 알려져 있다는 점에서 더 이상 추가로 여기서 논의되지 않을 것이다.

다음 단계(203)에서, 모듈(104)에 의해 단계(201)에서 디어셈블링된 영상이 컨테이너 프레임 내로 입력된다. 이는 디어셈블링된 영상의 화소들을 영상(L)에 의해 점유되지 않은 그것의 영역들, 즉 영역(C1) 외부의 영역들 내의 컨테이너 프레임(C)에 복사함으로써 모듈(105)에 의해 달성된다.

최상의 가능한 압축을 달성하고 및 비디오 스트림을 압축해제할 때 가공물(artifact)들의 생성을 감소시키기 위해, 모듈(104)에 의해 출력된 서브영상들의 화소들은 각각의 공간적 관계들을 보존함으로써 복사된다. 즉, 구역들(R, R2, 및 R3)은 배타적으로 옮김(translation) 및/또는 회전 동작들에 의해 어떠한 변형도 경험하지 않고 프레임(C)의 각각의 영역들 내로 복사된다.

모듈(105)에 의해 출력된 컨테이너 프레임(C)의 예가 도 5에서 도시된다.

구역(R1)은 최초의 720개의 로우들의 마지막 640개의 화소들 내로, 즉, 이전에 복사된 영상(L) 옆에 복사된다.

구역들(R2 및 R3)은 영역(C1) 아래에, 즉 마지막 360개의 로우들의 최초의 640개의 화소들 및 이어지는 640개의 화소들을 각각 포함하는 영역들(C3 및 C4)에 각각 복사된다.

도 5에서 도시된 해결책에 대한 대안으로서, 구역들(R2 및 R3)은 경계 구역들을 감소시키기 위해 화소들의 그룹에 의해 구분되는 분리된 영역들(disjoined areas) (즉, 오버랩핑하거나 이웃하지 않음)내의 컨테이너 프레임(C) 내에 복사될 수 있다.

컨테이너 프레임 내로 영상들(L 및 R)을 입력하기 위한 동작들은 수평 및 수직 해상도 간의 밸런스에 대한 어떠한 변경들도 암시하진 않는다.

프레임(C)의 빈(free) 화소들, 즉, 영역(C5)에서, 모듈(105)은 영상의 형태로, 입체 쌍(L 및 R)에 속하는 깊이 맵(DM)을 입력한다(단계(205)). 단계(205) 이전에, 깊이 맵(DM)은 모듈(107)에 의해 언더샘플링, 필터링 또는 추가로 프로세싱될 수 있다.

깊이 맵은 바람직하게는 그레이 스케일 영상으로서 복사되며, 이에 따라 그의 정보 콘텐츠는 채도들이 널(null)이기 때문에 휘도 신호 단독에 의해 전송될 수 있으며, 이는 컨테이너 프레임(C)의 효과적인 압축을 달성하도록 허용한다.

도 5의 예에서 도시된 바와 같이, 프레임(C) 내에 입력되는 깊이 맵은 바람직하게는 영상 중첩 깊이 맵이며, 그러므로 깊이 맵의 해상도는, 깊이 맵이 입체 비디오 스트림을 생성하기 위한 것이 아니라, 깊이 면에서의 오버레이들을 위치시키는 목적만으로 전송되기 때문에 쌍(L 및 R)의 해상도보다 낮다. 깊이 맵의 선택된 해상도는 전달을 위해 요구되는 비트 레이트(가능한 낮아야 함)와 오버레이들을 적절히 위치시키기 위해 필요한 정보의 품질 간의 타협(compromise)의 결과이다.

바람직한 실시예에서, 중첩 깊이 맵(DM)은 1280 x 720 화소들의 해상도를 갖는 원래의 깊이 맵의 4-1 언더샘플링(또는 데시메이션(decimation))에 대응하는 640 x 360 화소들의 해상도를 가져서 영상들(L 및 R)의 해상도를 매칭시킨다. 언더샘플링된 맵(DM)의 각각의 화소는 원래의 맵의 2 x 2 화소 구역에 대응한다. 특히, 4-1 언더샘플링 단계는 원래의 맵의 2개 중 하나의 컬럼 및 2개 중 하나의 로우를 선택함으로써 실행될 수 있다.

다른 실시예에서, 데시메이션 이후에, 중첩 깊이 맵(DM)은 그것이 16x16 화소 매크로블록들로 분할되는 프로세싱 단계를 경험하고, 동일한 매크로블록에 속하는 화소들은 달일 깊이 값이 할당된다. 바람직하게는, 이 값은 매크로블록 내의 최소 깊이와 동일한데, 그 이유는 이 값은 오버레이들을 적절히 위치시키기 위해 가장 중요한 값이기 때문이다.

대안적으로, 이 값은 매크로블록 내의 평균 깊이 값과 동일하다.

16x16 화소 매크로블록들의 선택은, 이러한 매크로블록들이 H.264 표준에서 이용된 매크로블록들과 일치하기 때문에 사용중인 압축 표준이 H.264일 때 특히 유리하다. 이러한 해결책을 통해, 사실상, 압축은 더 적은 가공물들을 생성하고 더 낮은 비트 레이트를 요구한다.

8 x 8 또는 4 x 4의 블록들로의 세분은 또한 H.264 압축 알고리즘의 특정한 특성들로 인해, 이들 블록들 내의 화소들이 모두 동일한 경우 압축 이익들이 획득될 수 있다는 점에서 유리한 것으로 간주될 수 있다.

대안적으로는, 화소들이 모두 동일한 매크로블록들 또는 블록들로의 세분을 포기하지만, 640x360 깊이 맵은 2차원 저역-통과 필터로 필터링될 수 있다. 압축 이점들은 이 경우에서도 또한 획득되는데, 그 이유는 최고 공간적 주파수가 제거되거나 감소되기 때문이다.

대안적으로, 깊이 맵은 64-1 언더샘플링으로부터 야기되는 160x90화소들의 해상도를 가질 수 있으며, 여기서 깊이 맵(DM)의 각각의 화소는 원래의 맵의 8x8 구역에 대응한다.

추가의 실시예에서, 컨테이너 프레임(C)내로 입력된 중첩 깊이 맵(DM)은 비균일한 해상도를 가질 수 있는데; 특히 중첩 깊이 맵의 하위 절반 또는 1/3은 상위 부분보다 높은 해상도를 갖는다. 이 해상도는 부제들 또는 일반적으로 영상의 하위 부분에 배치되는 오디오 볼륨과 같은 다른 정보의 위치결정에 관련될 때 특히 유리한 것으로 판명되었다. 수신기는 따라서 관심 구역, 예를 들어, 3D 영상의 하위 1/3의 화소들의 깊이에 관한 보다 정확한 정보를 이용할 수 있고, 그러므로 그 구역에서 올바르게 영상들을(텍스트 또는 그래픽들을) 위치시킬 수 있다. 적어도, 중첩 깊이 맵은 관심의 구역, 특히 3-차원 콘텐츠의 하위 절반 또는 하위 1/3에 위치되는 화소들(화소들 모두 또는 그의 일부만)의 깊이에 관한 정보만을 심지어 포함할 수 있다.

다른 실시예에서, 우측 또는 좌측 영상들에 의해, 그의 부분들에 의해 또는 중첩 깊이 맵에 의해 점유되지 않는 컨테이너 프레임의 구역은 디멀티플렉서 레벨에서 우측 및 좌측 영상들을 재구성하는데 필요한 플래그를 수신하도록 의도된다. 예를 들어, 상기 플래그는 합성 영상이 생성되는 방법에 관련될 수 있다. 바람직하게는, 플래그는 깊이 맵을 적절히 이용하는데 유용한 정보를 포함할 수 있다.

이러한 플래그 구역의 화소들은 예를 들어, 플래그 정보를 전달하는 임의의 종류의 예를 들어, 선형 또는 2-차원의 바코드를 생성하도록, 예를 들어, 2개의 컬러들(예를 들어, 검정색 및 백색)로 채색된다.

컨테이너 프레임 내로 수신되는 양 영상들의 및 중첩 깊이 맵의 (그리고 가능하게는 또한 플래그의) 전달이 완료되면, 디바이스(100)에 의해 구현되는 방법은 종료하고, 컨테이너 프레임은 압축되고 통신 채널 상에서 전송되고 및/또는 적합한 매체(예를 들어, CD, DVD, 블루-레이, 대량 메모리 등) 상에 레코딩될 수 있다.

위에서 설명한 멀티플렉싱 동작들이 하나의 구역 또는 영상의 화소들 간의 공간적 관계를 변경하지 않기 때문에, 디바이스(100)에 의해 출력된 비디오 스트림은, 영상이 상당한 가공물들을 생성함 없이 전송된 영상으로 매우 충실히 재구성될 것이라는 양호한 가능성을 보존하면서 상당한 정도까지 압축될 수 있다.

임의의 추가의 실시예들을 기술하기 전에, 바람직한 실시예에서, 3개의 구역들(R1, R2 및 R3)로의 프레임(R)의 분할은 합성 영상에서 사용 가능한 공간 및 컨테이너 프레임 내로 변경되지 않은 채로 입력되는 좌측 영상에 의해 점유되는 공간을 고려하면, 최소의 가능한 수의 구역들로의 프레임의 분할에 대응한다.

상기 최소수는 다시 말하면, 좌측 영상에 의해 컨테이너 프레임(C)에서 이용 가능하게 남아있는 공간을 점유하는데 필요한 구역들의 최소수이다.

일반적으로, 그러므로 영상이 디어셈블링되어야 하는 구역들의 최소수는 타깃 합성 영상(컨테이너 프레임(C))의 그리고 소스 영상들(우측 및 좌측 영상들)의 포맷의 함수로서 정의된다.

바람직하게는, 프레임 내로 입력될 영상은 최소수의 직사각형 구역들로 영상(예를 들어, 위의 예에서 R)을 분해할 필요성을 고려함으로써 디어셈블링된다.

추가의 실시예에서, 우측 영상(R)은 도 6에서 도시된 바와 같이 디어셈블링된다.

구역(R1')은 도 3의 구역(R1)에 대응하고 그러므로 영상의 모든 720개의 로우들의 최초의 640개의 화소들을 포함한다.

구역(R2')은 구역(R1')에 인접한 화소들의 320개의 컬럼들을 포함하는 반면에, 구역(R3')는 화소들의 마지막 320개의 컬럼들을 포함한다.

컨테이너 프레임(C)은 이에 따라 도 7에서 도시된 바와 같이 구성될 수 있으며, 구역들(R2' 및 R3')은 90˚만큼 회전되고 영상(L) 및 구역(R1') 아래의 영역들(C3' 및 C4')에 배열된다.

이렇게 회전된 구역들(R2' 및 R3')은 320개의 로우들로부터 720개의 화소들을 점유하고, 그러므로 영역들(C3' 및 C4')은 구역(R1')으로부터 그리고 영상(L)으로부터 복사되는 화소들을 포함하는 영역들(C1 및 C2)로부터 구분된다.

바람직하게는, 영역들(C3' 및 C4')은 적어도 하나의 보호 라인에 의해 다른 영역들(C1 및 C2)로부터 구분된다. 특히, 컨테이너 프레임(C)의 마지막 로우들 내로 구역들(R2' 및 R3')의 화소들을 복사하는 것이 유리하고 바람직하다.

이 경우에, 컨테이너 프레임은 1080개의 로우들로 구성되기 때문에, 도 7의 실시예들에서, 회전된 구역들(R2' 및 R3')은 40개의 화소들 높이의 보호 스트립에 의해 위의 영상(L) 및 구역(R1')으로부터 구분된다.

도 7의 예에서, 구역들(R2' 및 R3')은 서로로부터 구분되어서, 이들은 좌측 및 우측 영상들로부터 오는 미리 정의된 컬러(예를 들어, 백색 또는 검정색)의 화소들에 의해 둘러싸인다. 이러한 방식으로 우측 및 좌측 영상들로부터 오는 화소들을 포함하는 구역들 간의 경계 영역들은 감소되는 반면에, 영상 압축에 의해 야기되는 임의의 가공물들을 또한 감소시키고 압축 레이트를 최대화한다.

컨테이너 프레임(C)(도 7을 참조하여 기술된 바와 같은)의 마지막 로우들 내로 R2' 및 R3'를 위치시키는 것에 대한 대안으로서, 바람직한 실시예에서, R2' 및 R3'은 32개의 화소 로우들 높이의 보호 스트립이 L의 하부 에지와 R2' 및 R3'의 상위 에지 간에 남아있게 되는 방식으로 위치된다. 이는 C의 하부 에지와 R2' 및 R3'의 하부 에지 간의 8개의 화소 로우들 높이의 제 2 보호 스트립을 제공한다. 컨테이너 프레임의 폭을 추가로 이용함으로써, R2' 및 R3'가 우측 영상 또는 좌측 영상 어느 것으로부터도 오지 않는 화소들에 의해 완전히 둘러싸이게 되도록 하는 방식으로 R2' 및 R3'를 위치시키는 것이 가능하다.

마지막으로, 프레임(C)의 하부 우측 모서리의 영역(C5')에서, 중첩 깊이 맵(DM')은 앞서 기술된 바와 같이 원래의 깊이 맵을 언더샘플링함으로써 획득되는 160x90 화소들의 해상도로 입력된다. 일반적으로 중첩 깊이 맵은 그것이 프레임(C)의 빈 공간 내에 포함되는 한 어떠한 해상도도 가질 수 있다. 이용 가능한 공간을 더 잘 이용하기 위해, 중첩 깊이 맵은 프레임(C) 내로 입력되기 이전에 회전 및/또는 디어셈블리 단계를 경험할 수 있다.

도 8 및 도 9를 참조하여 여기서 기술되는 추가의 실시예에서, 모듈(104)은 3개의 서브영상들(R1", R2" 및 R3")을 추출하며, 이 서브영역들의 화소들의 총 합은 디어셈블링된 영상의 화소들의 총합을 초과한다.

구역(R1")은 도 6의 구역(R1')에 대응하는 반면에, R2" 및 R3"은 구역들(R2' 및 R3')의 영역 +부가적인 영역(Ra2 및 Ra3)을 포함하며, 이 부가적인 영역은 영상 압축 단계 동안 가공물들의 생성을 최소화하도록 허용한다.

이에 따라 세그먼트(R1")은 640x720 화소들의 크기를 가지며 디어셈블링되는 프레임(R)의 최초의 컬럼들을 점유하는 구역이다.

세그먼트(R3")는 디어셈블링되는 프레임(R)의 마지막 컬럼들을 점유하고 중앙 구역(R2")과 접경한다. R3"은 좌측 상에(R2"와 접경하는 곳), 구역(R2")과 공통되는 화소들을 포함하는 버퍼 스트립(Ra3)을 포함한다. 즉, R2"의 마지막 컬럼 및 R3"의 최초의 컬럼들(버퍼 스트립(Ra3)을 구성함)은 일치한다.

바람직하게는, 버퍼 스트립(Ra3)의 크기는 컨테이너 프레임(C)에 그리고 일반적으로 그것을 포함하는 비디오 스트림에 후속적으로 적용되는 압축의 타입의 함수로서 선택된다. 특히 상기 스트립은 압축 프로세스에서 이용되는 기초 프로세싱 유닛의 2배인 크기를 갖는다. 예를 들어, H.264 표준은 16x16 화소들의 매크로 블록들로 영상을 디어셈블링하는 것을 제공하고, 이들 각각은 표준의 기초 프로세싱 유닛을 나타낸다. 이러한 가정에 기초하여 스트립(Ra3)은 32 화소들의 폭을 갖는다. 세그먼트(R3")는 그러므로 352(320 +32)x720 화소들의 크기를 가지며 영상(R)의 마지막 352 컬럼들의 화소들을 포함한다.

세그먼트(R2")는 디어셈블링되는 영상(R)의 중앙 부분을 점유하고, 그의 좌측 상에는 스트립(Ra3)과 동일한 크기를 갖는 버퍼 스트립(Ra2)을 포함한다. H.264 압축 표준을 고려하는 예에서, 스트립(Ra2)은 이에 따라 32 화소들의 폭이며, 구역(R1")과 공통되는 화소들을 포함한다. 세그먼트(R2")는 그러므로 352x720 화소들의 크기를 가지며 프레임(R)의 608(R1"의 640 - 32) 내지 978의 컬럼들의 화소들을 포함한다.

모듈(104)(도 8에서 가시적임)에 의해 출력되는 구역들(Rl", R2" 및 R3)에 속하는 3개의 서브영상들은 이어서 도 9에서 도시된 바와 같이 컨테이너 프레임(C) 내로 입력된다. 구역들(R2" 및 R3")은 90˚만큼 회전되고 화소들은 영상들(L 및 R1")의 화소들을 포함하는 영역들(C1 및 C2)로부터 영역들(C3" 및 C4")을 구분하는 특정한 수의 보호 화소들을 제공함으로써 프레임(C)의 마지막 로우들(C3" 및 C4"로 지정된 영역들)로 복사된다. 도 9에서 도시된 경우에서, 이 보호 스트립은 8개의 화소 폭이다.

이 실시예에서도, 중첩 깊이 맵(DM')은 프레임(C)의 하부 우측 모서리의 영역(C5')내로 입력된다.

이렇게 획득된 프레임(C)은 후속적으로 압축되고 전송되거나 저장 매체(예를 들어, DVD)에 저장된다. 이 목적을 위해, 압축된 영상 또는 비디오 신호를 레코딩 및/또는 전송하기 위한 수단과 함께, 영상 또는 비디오 신호를 압축하도록 구성된 압축 수단이 제공된다.

도 10은 매체로부터 수신되거나 판독되는 컨테이너 프레임을 압축해제(압축된 경우)하고, 2개의 우측 및 좌측 영상들을 재구성하고 관련된 중첩 깊이 맵에 따라 이들을 비디오 콘텐츠 상에 중첩되는 영상들을 갖는 3D 콘텐츠들의 성과를 허용하는 디스플레이 디바이스(예를 들어, 텔레비전 세트)에 대해 이용 가능하게 하는 수신기(1100)의 블록도를 도시한다. 이 수신기(1100)는 텔레비전 세트 내에 내장된 수신기 또는 셋-톱-박스일 수 있다. 수신기(1100)가 텔레비전 세트 내에 통합되지 않는 셋-톱-박스일 때, 수신기는 자신이 생성하는 그래픽들(예를 들어, 부제들, EPG 및 관련된 메뉴들)을 적절히 위치시키기 위해 내부적으로 깊이 맵을 이용해야 한다는 것에 주의해야 한다. 또한, 수신기(1100)는 텔레비전 세트가 그 자신의 그래픽들(그의 메뉴들)을 적절히 위치시키기 위해 깊이 맵을 필요할 것이라는 점에서 깊이 맵(예를 들어, HDMI 인터페이스를 통해)을 텔레비전 세트에 송신해야 할 것이다.

수신기(1100)에 대해 이루어진 것과 동일한 언급이 판독기(예를 들어, DVD 판독기)에도 또한 적용 가능하며, 이 판독기는 (가능하게는 압축된) 컨테이너 프레임을 판독하고 판독기에 의해 판독된 (가능하게는 압축된) 컨테이너 프레임 내에 입력되는 우측 및 좌측 영상들에 대응하는 프레임들의 한 쌍을 획득하도록 이를 프로세싱한다.

도 10을 다시 참조하면, 수신기는 압축된 입체 비디오 스트림(1101)을 (케이블 또는 안테나를 통해) 수신하고 압축해제 모듈(1102)에 의해 이를 압축해제하고, 그럼으로써 프레임(C)에 대응하는 프레임들(C')의 시퀀스를 포함하는 비디오 프레임을 획득한다. 이상적인 채널이 존재하는 경우 또는 컨테이너 프레임들이 대량의 메모리 또는 데이터 매체(블루-레이, CD, DVD)로부터 판독되는 경우, 프레임들(C')은 압축 프로세스에 의해 도입된 임의의 가공물들을 제외하고 우측 및 좌측 영상들 및 중첩 깊이 맵에 관한 정보를 전달하는 컨테이너 프레임들(C)에 대응한다.

이들 프레임들(C)은 이어서 도 11 및 도 12를 참조하여 아래에서 기술되는 바와 같이 영상 재구성 및 깊이 맵 추출 방법을 실행하는 재구성 모듈(1103)에 공급된다.

비디오 스트림이 압축되지 않는 경우, 압축해제 모듈(1102)은 생략될 수 있고, 비디오 신호는 재구성 모듈(1103)에 직접 공급될 수 있다는 것이 자명하다.

재구성 프로세스는 압축해제된 컨테이너 프레임(C')이 수신될 때 단계(1300)에서 시작한다. 재구성 모듈(1103)은 컨테이너 프레임보다 작은 새로운 프레임, 예를 들어, 720p 스트림의 프레임 내로 압축해제된 프레임의 최초의 720x1080 화소들을 복사함으로써 좌측 영상(L)을 추출한다(단계(1301)). 이렇게 재구성되는 영상(L)은 수신기(110)에 출력된다(단계(1302)).

후속적으로, 방법은 컨테이너 프레임(C')으로부터 우측 영상(R)을 추출하는 것을 제공한다.

우측 영상을 추출하는 단계는 프레임(C')에 포함된 영역(R1")의 부분을 복사함으로써(단계(1303)) 시작한다. 보다 상세히는, R1"의 최초의 624(640-16) 컬럼들의 화소들은 도 11에서 도시된 바와 같이 재구성된 영상(Rout)을 나타내는 새로운 프레임의 대응하는 최초의 624 컬럼들내로 복사된다. 사실상, 이는 예를 들어, H.264 압축 표준에 의해 수행되는 움직임 추정 프로시저의 효과를 통해, 가공물들이 생성될 가능성이 높은 R1"의 16개의 컬럼들을 재구성 단계에서 제거한다.

이어서, R2"의 중앙 부분이 추출된다(단계(1304)). (위에서 언급한 바와 같이, 도 9의 프레임(C)에 대응하는) 압축해제된 프레임(C')으로부터, (소스 구역(R2")에 대응하는) 영역(C3")의 화소들이 선택되고 멀티플렉서(100)에서 실행된 것과 반대의 90˚회전이 이루어지며, 이는 이들이 원래의 로우/컬럼 조건들, 즉, 도 8에서 도시된 것으로 되돌아오게 한다. 이 지점에서, R2"의 최초의 그리고 마지막의 16개의 컬럼들이 제거되고 잔여 352-32=320개의 화소 칼럼들은 R1"으로부터 막 복사된 것에 인접한 빈 컬럼들에 복사된다.

구역(R2")의 16개의 최외곽(outermost) 컬럼들을 자름으로써, 가공물들의 형성이 발생할 가능성이 가장 높은 이러한 컬럼들이 제거된다. 잘려진 영역의 폭(이 경우 16개의 컬럼)은 이용되는 압축의 타입에 의존한다. 상기 영역은 바람직하게는 압축 프로세스에 의해 이용되는 기초 프로세싱 유닛과 동일하며; 여기서 기술된 경우에서, H.264 표준은 16x16 화소들의 블록들 상에서 동작하고 이에 따라 16개의 컬럼들이 잘려질 것이다.

R3"에 관하여(단계(1305)), 구역(C4")의 화소들이 프레임(C')로부터 추출되고 서브영상(R3")은 원래의 로우/컬럼 포맷(도 8 참조)으로 되돌려진다. 후속적으로, (영역(Ra3) 절반에 대응하는) 최초의 16개의 화소 컬럼들이 제거되고 잔여 352-16=336개의 화소 컬럼들은 재구성된 프레임의 좌측의 마지막 빈 컬럼들 내에 복사된다. R2"와 유사하게, R3"에서도, 잘려진 영역은 압축 프로세스에 의해 이용되는 기초 프로세싱 유닛과 동일하다.

물론, 양 구역들(R2" 및 R3")에 대해, 회전 단계가 가상의 방식으로 수행될 수 있는데, 즉, 관심의 화소들의 추출의 견지에서 동일한 결과가 도 8에서 도시된, 잘려질 16개의 컬럼들에 대응하는 영역(C3")(R2"인 경우, R3"인 경우에는 C4")의 마지막 16개의 로우들을 제외하고 새로운 프레임(Rout)의 컬럼의 영역(C3")(R2"인 경우, R3"인 경우에는 C4")의 로우의 화소들을 재구성된 프레임 내로 복사함으로써 획득될 수 있다.

이 지점에서, 우측 영상(Rout)은 완전히 재구성되고 출력될 수 있다(단계(1306)).

마지막으로, 재구성 모듈(1103)은 영역(C5')에 대응하는, 압축해제된 컨테이너 프레임(C')의 마지막 160x90화소들의 휘도 값을 레지스터 내에 복사함으로써 중첩 깊이 맵(DM')을 추출한다(단계(1308)). 상기 레지스터의 콘텐츠는 수신기(1100)에 출력되고(단계(1309)), 입체 비디오 스트림에 의해 전송되는 3차원 콘텐츠와 조합되도록 영상들(텍스트 또는 그래픽들)의 깊이의 위치를 정의하는데 이용될 것이며; 구체적으로는, 상기 레지스터의 콘텐츠는 3차원 콘텐츠 상에 중첩되도록 영상들을 조합하기 위해 이용될 것이다.

입력 프레임들로부터 추출된 영상들(L 및 R) 및 깊이 맵의 콘텐츠를 출력하는 것 외에, 또는 그에 대한 대안으로서, 수신기(1100)는 문자 생성기 및/또는 그래픽 생성기를 포함하고 다른 영상들을 영상들(L 및 R)과, 즉 3-차원 콘텐츠와 조합한다. 조합될 영상들은 수신기의 메모리 영역으로부터 선택되고, 수신기를 제조할 때 저장될 수 있거나(예를 들어, 채널 번호들의 또는 일부 메뉴들의 그래픽들), 또는 비디오 스트림으로부터 추출될 수 있다(예를 들어, 프로그램 가이드 정보 및 부제들).

이들 영상들은 비디오 스트림으로부터 추출된 중첩 깊이 맵들에 의존하는 깊이의 위치들로 3-차원 콘텐츠와 조합된다. 특히, 각각의 입체 영상(영상들(L 및 R)의 쌍에 의해 생성됨)에 대해, 조합된 영상은 입체 영상의 최소 깊이 지점에 배치된다.

영상들이 3D 콘텐츠와 조합된 이후, 이 실시예에서, 수신기(1100)는, 재현될 때 예를 들어, 부제, 메뉴들, 그래픽들 등이 중첩되는 영상들을 갖는, 원래의 것(영상들(L 및 R)에 의해 생성됨)에 대응하는 3-차원 콘텐츠로서 사용자에게 인식될 한 쌍의 영상들(L* 및 R*)을 출력한다.

컨테이너 프레임(C')에 포함된 깊이 맵 및 우측 및 좌측 영상들을 재구성하기 위한 프로세스는 이에 따라 완료된다(단계(1307)). 상기 프로세스는 수신기(1100)에 의해 수신된 비디오 스트림의 각각의 프레임에 대해 반복되어서, 출력은 각각 우측 영상 및 좌측 영상에 대한 2개의 비디오 스트림들(1104 및 1105) 및 중첩 깊이 맵으로부터 유도된 하나의 데이터 신호로 구성될 것이다.

도 10, 도 11 및 도 12를 참조하여 위에서 기술된 우측 및 좌측 영상들 및 중첩 깊이 맵을 재구성하기 위한 프로세스는, 컨테이너 프레임(C)이 어떻게 구축되었는지 디멀티플렉서(1100)가 인지하고 이에 따라 우측 및 좌측 영상들 및 중첩 깊이 맵을 추출할 수 있다는 가정에 기초한다.

물론, 이는 멀티플렉싱 방법이 표준화되는 경우 가능하다.

컨테이너 프레임이 위에서 기술된 방법들 중 임의의 하나에 따라 또는 아무튼 첨부된 청구항들의 요지인 해결책을 활용하는 방법들 중 임의의 하나에 따라 생성될 수 있다는 사실을 고려하기 위해, 디멀티플렉서는 합성 영상의 콘텐츠들이 언팩(unpack)되어야 하는 방법 및 우측 빙 좌측 영상들 및 중첩 깊이 맵을 재구성하는 방법을 인지하기 위해 합성 영상의 미리 정의된 구역에 포함되는 플래그 정보(예를 들어, 앞서 기술된 바와 같은 바코드)를 이용한다.

플래그를 디코딩한 이후, 디멀티플렉서는 변경되지 않은 영상(예를 들어, 위에 기술된 예들에서 좌측 영상)의 위치는 물론 다른 영상들(예를 들어, 위에 기술된 예들에서 우측 영상)이 디어셈블링되었던 구역들의 위치들 또는 임의의 변형들(회전, 옮김 등) 및 중첩 깊이 맵의 위치를 인지할 것이다.

이러한 정보에 의해, 디멀티플렉서는 이에 따라 변경되지 않은 영상(예를 들어, 좌측 영상) 및 깊이 맵을 추출하고 디어셈블링된 영상(예를 들어, 우측 영상)을 재구성할 수 있다.

본 발명이 지금까지 몇몇 바람직하고 유리한 실시예들을 참조하여 예시되었지만, 본 발명은 상기 실시예들로 제한되지 않으며 다수의 변경들은 장면 또는 객체의 2개의 상이한 관점들(우측 및 좌측)에 관한 2개의 영상들을 합성 영상으로 조합하고자 하는 당업자에 의해 상기 실시예들에 대해 이루어질 수 있다는 것이 자명하다.

예를 들어, 위에서-기술된 디바이스들, 특히 디바이스(100) 및 수신기(1100)를 제공하는 전자 모듈들은 다양하게 세분되고 분배될 수 있으며; 또한 이들은 프로세서, 특히 수신된 입력 프레임들을 임시로 저장하기 위한 적합한 메모리 영역들이 장착된 비디오 프로세서에 의해 구현되는 소프트웨어 알고리즘으로서 또는 하드웨어 모듈들의 형태로 제공될 수 있다. 이들 모듈들은 그러므로 본 발명에 따른 영상 멀티플렉싱 및 디멀티플렉싱 방법들의 비디오 프로세싱 단계들 중 하나 이상을 병렬로, 또는 직렬로 실행할 수 있다.

양호한 실시예들이 2개의 720p 비디오 스트림들을 하나의 1080p 비디오 스트림으로 멀티플렉싱하는 것을 참조하지만, 예를 들어, 2개의 640x480 비디오 스트림들을 하나의 1280x720 비디오 스트림들로, 또는 2개의 320x200 비디오 스트림들을 하나의 640x480 비디오 스트림들로 와 같이 다른 포맷들이 또한 이용될 수 있다는 것이 또한 자명하다.

본 발명은, 합성 영상을 생성하기 위한 상이한 해결책들이 특정한 이점들을 제공할 수 있기 때문에 합성 영상의 특정한 타입의 어레인지먼트(arrangement)로 제한되지 않는다.

예를 들어, 도 1 내지 도 12를 참조하여 위에서 기술된 실시예들은 이들이 단지 옮김 또는 회전-옮김(roto-translation) 동작들을 수행하고, 이에 따라 적은 계산 전력만을 요구한다는 이익을 제공한다.

대안적으로, 도 13에서 도시된 타입의 합성 영상을 획득하기 위해, 상기 회전 및/또는 옮김 동작들 외에, 영상들은 또한 정반전 단계들에 또한 처해진다는 것이 예견 가능하다.

이들 부가적인 동작들은 동종의 화소들을 포함하는 구역들 간의 경계 한도(boundary perimeter)들을 최대화할 목적을 위해 수행되고, 그럼으로써 이들 사이에 존재하는 강한 상관을 이용하고 후속 압축 단계에 의해 도입되는 가공물들을 최소화한다. 도 13 및 도 14의 예에서, 2개의 우측 및 좌측 영상들은 이들이 일반적으로 약간 상이할지라도 동일하다는 것을 명확성을 위해 가정한다.

이 도면에서, 좌측 영상(L)(도 14a에서 도시됨)은 최초의 720개의 로우들로부터 마지막 1280 화소들을 점유하도록 컨테이너 프레임(C)의 상위 우측 모서리에 위치된다. 앞서 기술된 예에서와 같이, 영상(L)은 이에 따라 컨테이너 프레임(C)내로 변경되지 않은 채로 복사된다.

대신에, 우측 영상(R)은 도 3의 예에 따라 디어셈블링되고; 도 14b는 3개의 구역들(R1, R2 및 R3)로 분해된 영상(R)을 도시한다.

후속적으로, 몇몇 구역들(도 14의 예에서 구역들(R1 및 R3))은 정반전 동작(specular inversion operation)을 경험하고; 반전은 수직축(즉, 영상의 컬럼에 평행) 또는 수평축(즉, 영상의 로우에 평행)에 대해 발생할 수 있다.

수직축에 대한 반전의 경우에, 컬럼(N, 여기서 N은 1 내지 1080의 정수, 1080은 영상의 컬럼들의 수)의 화소들이 컬럼(1080+1-N) 내로 복사된다.

수평축에 대한 반전의 경우, 로우(M, 여기서 M은 1 내지 720의 정수, 720은 영상의 로우들의 수임)의 화소들이 로우(720+1-N) 내로 복사된다.

도 14c 및 도 14d는 수직 축에 대해, 특히 수직 측에 대해 반전(R1rot)되고 영상(R)으로부터 추출된 구역(R1)을 도시한다.

반전된 구역(R1inv)은 최초의 640개의 화소 로우들로부터 최초의 640개의 화소들 내로 입력된다.

도 13의 예에서 알 수 있는 바와 같이, R1inv가 컨테이너 프레임(C) 내로 회전된 채로 입력될 때, L 상에서 접경하는 R1inv의 화소들은 R1inv 상에서 접경하는 L의 화소들과 매우 유사하다. 이들 화소들 간의 공간적 상관은 가공물들의 형성을 감소시키는 이점을 갖는다.

도 14e 및 도 14f는 도 14b의 영상(R)으로부터 추출된 구역(R3) 및 이어서 수평축, 특히 수평측에 대해 반전된 구역(R3inv)을 도시한다.

구역(R3inv)은 마지막 360개의 로우들의 마지막 640개의 화소들 내로 입력된다. 이는 R3inv와 L 간의 경계 구역들의 화소들이 높은 공간적 상관을 갖는 화소들이기 때문에 가공물들의 생성을 감소시킨다. 이 경계 구역의 화소들은 사실상 영상의 유사하거나 동일한 부분들을 재현한다.

컨테이너 프레임(C)은 이어서 구역(R2)을 입력함으로써 완성된다.

이 예에서, R2가 R 또는 L의 다른 구역의 동종의 화소들로 이루어진 경계 구역과 R2의 경계 구역을 매칭하는 것이 어느 경우에서도 가능하지 않을 것이기 때문에 R2는 반전되지 않고 및/또는 회전되지 않는다.

마지막으로, 본 발명은 또한 본 발명의 보호 범위 내에 속하는 상술한 멀티플렉싱 프로세스들 중 하나를 역전시킴으로써 우측 영상 및 좌측 영상이 합성 영상으로부터 추출되도록 허용하는 임의의 디멀티플렉싱 방법에 관한 것임이 또한 자명하다.

그러므로 본 발명은 또한 합성 영상으로부터 시작하는 영상들의 쌍을 생성하기 위한 방법에 관한 것이며, 이 방법은,

- 상기 합성 영상의 구역으로부터 연속적인 화소들의 하나의 단일 그룹을 복사함으로써 상기 우측 및 좌측 영상들 중 제 1 영상(예를 들어, 좌측 영상)을 생성하는 단계,

- 상기 합성 영상의 상이한 구역들로부터 연속적인 화소들의 다른 그룹들을 복사함으로써 제 2 영상(예를 들어, 우측 영상)을 생성하는 단계를 포함한다.

일 실시예에 따라, 상기 제 2 영상을 생성하기 위한 정보는 상기 합성 영상의 영역으로부터 추출된다. 상기 정보는 바람직하게는 바코드에 따라 인코딩된다.

우측 및 좌측 영상들을 생성하기 위한 방법의 일 실시예에서, 합성 영상에서 디어셈블링된 영상의 생성은 상기 상이한 구역들 중 하나의 화소들의 그룹의 정반전의 적어도 하나의 단계를 포함한다.

우측 및 좌측 영상들을 생성하기 위한 방법의 일 실시예에서, 합성 영상에서 디어셈블링된 영상의 생성은 재구성될 이 영상의 화소들을 포함하는 합성 영상의 구역들 중 하나로부터 화소들을 제거하는 적어도 하나의 단계를 포함한다. 특히, 화소들은 이 구역의 경계 영역으로부터 제거된다.

일 실시예에서, 합성 영상의 상이한 구역들로 디어셈블링된 영상은 디어셈블링될 영상의 화소들을 포함하는 화소 구역들이 단지 옮김 및/또는 회전 동작들에 처해지게 함으로써 재구성된다.

위에서 기술된 실시예의 예는 2개의 우측 및 좌측 영상들 어느 하나가 몇 개의 부분들로 디어셈블링되는 컨테이너 프레임 내에 중첩 깊이 맵을 입력하는 것을 참조하지만, 본 발명은 2개의 우측 및 좌측 영상들이 컨테이너 프레임 내에서 포맷팅되는 방식에 의존하지 않는다는 것이 자명하다.

예를 들어, 2개의 영상들은 언더샘플링되고, 중첩 깊이 맵이 배치될 수 있는 빈 공간을 프레임에 남기기 위해 다른 것의 상부 상에 하나(상부-하부 포맷) 또는 사이드-바이-사이드(side by side)(사이드-바이-사이드 포맷)로 배열될 수 있다. 또한, 우측 및 좌측 영상들 중 어느 하나가 변경되지 않은 채로 남아있을 수 있는 반면에, 다른 하나는 깊이 맵을 위한 공간을 비우기 위해 언더샘플링될 수 있다.

마지막으로, 첨부 도면을 참조하여 위에서 기술된 실시예의 예들이 "전체" 깊이 맵, 즉, 예를 들어, 2개의 영상들(L 및 R) 중 하나와 달리, 그것을 몇 개의 부분들로 세분하지 않고 3D 콘텐츠의 깊이 맵을 데시메이팅 또는 필터링함으로써 계산된 깊이 맵에 관련된다는 것에 주목해야 한다.

그럼에도 불구하고 이는 본 발명의 제한이 아니고, 중첩 깊이 맵은 일단 생성(또는 수신)되면, 인코더에 의해 컨테이너 프레임 내로 입력될 수 있고, 이는 컨테이너 프레임의 상이한 구역들에 배열될 다수의 부분들로 그것을 분해될 것이다. 예를 들어, 알려진 바와 같이, 입체 콘텐츠를 코딩하기 위해, H.264 인코더는 디코더에 의해 잘려질 8개의 부가적인 로우들을 입력해야 하고; 일 실시예에서, 중첩 깊이 맵은 그것을 예를 들어, 적절히 재어샘블링될 때 전송된 입체 콘텐츠에 비례하는 차원을 갖는 영상을 형성할 8x8 크기의 240개의 블록들로 분할함으로써 이들 8개의 부가적인 로우들 내로 입력될 수 있다. 블록 어레인지먼트의 하나의 예는 16에 의해 데시메이팅되고 그에 따라 210x8 화소들의 스트립들이 1080x8-화소 영상을 획득하도록 정렬되는 120x72 해상도를 갖는 깊이 맵의 로우들을 스캐닝함으로써 획득될 수 있다. 다른 실시예에서, 동일한 데시메이팅된 깊이 맵은 8-화소 오프셋 대신 6-화소 오프셋을 이용함으로써 8개의 화소들의 높이의 더 많은 수의 스트립들로 세분될 수 있어서, 콘텐츠는 중복이 되고 콘텐츠 보호는 메인 영상과의 경계에서 조장된다. 이는 프레임 내의 모든 잠재적으로 디스플레이 가능한 화소들, 예를 들어, 1920x1080 포맷의 화소들을 점유하도록 하는 해상도를 통해, 입체 콘텐츠가 상부-하부, 사이드-바이-사이드 또는 바둑판 포맷으로 멀티플렉싱되는 한 쌍의 우측 및 좌측 영상들을 포함할 때마다 특히 유리한 것으로 드러난다.

바람직하게는, 프레임이 비대칭적으로 데시메이팅된 영상들의 쌍을 포함하는 경우에(예를 들어, 컬럼들이 로우들보다 더 많이 데시메이팅되는 사이드-바이-사이드 포맷 또는 컬럼들은 데시메이팅되지 않고 로우들만이 데시메이팅되는 상부-하부 포맷), 중첩 깊이 맵은 동일한 프레임에 배치된 영상들을 샘플링하기 위해 이용되는 것에 비례하는 로우/컬럼 데시메이션 비율로 깊이 맵을 데시메이팅함으로써 획득된다. 예로서, 사이드-바이-사이드 포맷이 우측 및 좌측 영상들을 프레임 내에 멀티플렉싱하기 위해 이용된다고 가정하면, 로우/컬럼 데시메이션 비율은, 모든 로우들이 유지되고 컬럼들이 2에 의해 데시메이팅되기 때문에 1 : 2일 것이다. 이 경우에, 중첩 깊이 맵은 1:2 로우/컬럼 데시메이션 비율로 깊이 맵을 데시메이팅함으로써 획득될 수 있다.

위에서 기술된 것 이외의 상이한 방법들 수신기에 깊이 맵에 의해 점유되는 영역을 시그널링하기 위해 이용될 수 있다는 것이 또한 자명하며, 이는 플래그를 영상에 입력하는 것을 제공하고; 사실상 이러한 플래그는 비디오 스트림들을 전달하는 신호의 데이터 패킷에 또한 포함될 수 있다.

Claims

3-차원 콘텐츠 상에 영상들을 중첩(superimposing)시키기 위한 방법으로서,
상기 3-차원 콘텐츠 상에 영상들을 중첩시키기 위해 상기 3-차원 콘텐츠 및 깊이 맵을 포함하는 합성 프레임(composite frame)을 포함하는 비디오 스트림을 수신하는 단계 ― 상기 3-차원 콘텐츠는 좌측 영상 및 우측 영상을 포함하고, 상기 깊이 맵은 상기 3-차원 콘텐츠의 깊이에 관한 정보를 포함하고, 그리고 상기 깊이 맵은, 상기 비디오 스트림의 상기 합성 프레임에서, 상기 우측 영상과 상기 좌측 영상에 의해 점유되지 않은 합성 프레임의 영역에 영상으로서 위치됨 ―,
오로지 상기 3-차원 콘텐츠에 국부적으로(locally) 생성된 영상들의 중첩을 위한 재생 단계에서 상기 깊이 맵을 사용하는 단계 ― 상기 중첩은 중첩 깊이 맵에 의존하는 깊이에서의 위치에서 이루어짐 ―
를 포함하고,
상기 깊이 맵은 상기 3-차원 영상 콘텐츠와 연관된 2-차원 영상보다 더 적은 수의 화소들을 갖는,
3-차원 콘텐츠 상에 영상들을 중첩시키기 위한 방법.
제 1 항에 있어서,
상기 중첩 깊이 맵은 상기 3-차원 콘텐츠의 하위 1/2 또는 하위 1/3에 위치되는 화소들의 깊이에 관한 정보만을 포함하는,
3-차원 콘텐츠 상에 영상들을 중첩시키기 위한 방법.
제 1 항에 있어서,
상기 중첩 깊이 맵은 비-균일한 해상도를 가지며, 상기 깊이 맵의 하위 1/2 또는 하위 1/3은 상기 깊이 맵의 상위 부분보다 높은 해상도를 갖는,
3-차원 콘텐츠 상에 영상들을 중첩시키기 위한 방법.
제 1 항에 있어서,
상기 중첩 깊이 맵은 상기 3-차원 콘텐츠와 연관된 2-차원 영상보다 낮은 해상도를 갖는,
3-차원 콘텐츠 상에 영상들을 중첩시키기 위한 방법.
제 4 항에 있어서,
상기 3-차원 콘텐츠는 복수의 화소들로 구성되는 영상이고,
상기 깊이 맵은, 상기 3-차원 콘텐츠의 화소들의 깊이에 대응하는 엘리먼트들을 가지는 깊이 맵을 언더샘플링(undersampling)함으로써 획득되는,
3-차원 콘텐츠 상에 영상들을 중첩시키기 위한 방법.
제 5 항에 있어서,
상기 깊이 맵의 언더샘플링 이후에, 언더샘플링된 맵은 블록들로 분할되고, 블록의 각각의 화소에는 상기 블록의 화소들의 최소 깊이 또는 상기 블록의 화소들의 깊이의 평균값과 동일한 동일값(same value)이 주어지는,
3-차원 콘텐츠 상에 영상들을 중첩시키기 위한 방법.
제 5 항에 있어서,
상기 깊이 맵을 언더샘플링하기 이전에, 상기 깊이 맵은 블록들로 분할되고, 블록의 각각의 화소에는 상기 블록의 화소들의 최소 깊이 또는 상기 블록의 화소들의 깊이의 평균 값과 동일한 동일값이 주어지는,
3-차원 콘텐츠 상에 영상들을 중첩시키기 위한 방법.
제 6 항 또는 제 7 항에 있어서,
상기 블록들은 2x2 화소들의 기초 블록의 배수와 동일한 크기를 갖는,
3-차원 콘텐츠 상에 영상들을 중첩시키기 위한 방법.
제 1 항에 있어서,
상기 중첩 깊이 맵은 상기 프레임 중 디스플레이되도록 의도되지 않은 부분에 입력되는,
3-차원 콘텐츠 상에 영상들을 중첩시키기 위한 방법.
제 1 항에 있어서,
상기 깊이 맵은 상기 프레임 중 상기 3-차원 콘텐츠에 의해 점유되지 않은 영역들에 분배되는 블록들로 분할되는,
3-차원 콘텐츠 상에 영상들을 중첩시키기 위한 방법.
제 1 항에 있어서,
상기 프레임은 우측 영상, 좌측 영상 및 상기 깊이 맵을 포함하고,
상기 깊이 맵은 상기 프레임 중 상기 3-차원 콘텐츠에 의해 점유되지 않은 구역들에 분배되는 블록들로 분할되고,
상기 프레임은 H.264 코딩 표준에 따라 코딩되는,
3-차원 콘텐츠 상에 영상들을 중첩시키기 위한 방법.
제 1 항에 있어서,
상기 3-차원 콘텐츠는 2-차원 영상 및 입체 쌍의 다른 영상을 재구축하도록 허용하는 정보를 포함하고,
상기 중첩 깊이 맵은 상기 2-차원 영상의 부분내로 입력되는,
3-차원 콘텐츠 상에 영상들을 중첩시키기 위한 방법.
제 1 항에 있어서,
상기 프레임은 상기 프레임 내의 상기 중첩 깊이 맵의 위치를 수신기에 표시하도록 구성된 플래그를 포함하는,
3-차원 콘텐츠 상에 영상들을 중첩시키기 위한 방법.
제 1 항에 있어서,
상기 비디오 스트림은 상기 프레임 내의 상기 중첩 깊이 맵의 위치를 수신기에 표시하도록 구성된 플래그를 포함하고,
상기 플래그는 상기 프레임 외부에 있는,
3-차원 콘텐츠 상에 영상들을 중첩시키기 위한 방법.
3-차원 콘텐츠를 재현(reproducing)하기 위한 디바이스로서,
3-차원 콘텐츠 및 깊이 맵을 포함하는 합성 프레임을 포함하는 비디오 스트림을 수신하기 위한 수단;
상기 3-차원 콘텐츠와 국부적으로 생성된 영상을 조합하기 위한 수단
을 포함하고,
상기 3-차원 콘텐츠와 국부적으로 생성된 영상을 조합하기 위한 수단은, 제 1 항 내지 제 7 항 및 제 9 항 내지 제 14 항 중 어느 한 항에 따른 방법을 구현하도록 구성된,
3-차원 콘텐츠를 재현하기 위한 디바이스.
삭제