KR20220071935A - 광학 흐름을 이용한 고해상도 깊이 영상 추정 방법 및 장치 - Google Patents

광학 흐름을 이용한 고해상도 깊이 영상 추정 방법 및 장치 Download PDF

Info

Publication number
KR20220071935A
KR20220071935A KR1020210162409A KR20210162409A KR20220071935A KR 20220071935 A KR20220071935 A KR 20220071935A KR 1020210162409 A KR1020210162409 A KR 1020210162409A KR 20210162409 A KR20210162409 A KR 20210162409A KR 20220071935 A KR20220071935 A KR 20220071935A
Authority
KR
South Korea
Prior art keywords
image
optical flow
viewpoint
present disclosure
depth image
Prior art date
Application number
KR1020210162409A
Other languages
English (en)
Inventor
방건
강정원
김수웅
배성준
이진호
이하현
임성창
김민혁
강다현
Original Assignee
한국전자통신연구원
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원, 한국과학기술원 filed Critical 한국전자통신연구원
Publication of KR20220071935A publication Critical patent/KR20220071935A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/282Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

본 개시는 광학 흐름(Optical Flow)을 이용한 고해상도 깊이 영상 추정 방법 및 장치에 대한 것이다. 본 개시의 일 실시예에 따르면, 광학 흐름을 이용한 깊이 영상 추정 방법은, 제1 시점 영상과 제2 시점 영상 간의 광학 흐름을 추정하는 단계, 상기 추정된 광학 흐름에 기초하여 상기 제1 시점 영상의 각 픽셀에 대한 광선 방향을 생성하는 단계, 및 상기 생성된 광선 방향을 이용하여 상기 제1 시점 영상의 깊이 영상을 추정하는 단계를 포함하되, 상기 광선 방향은 3차원 공간 상의 방향벡터로 표현되며, 상기 깊이 영상은, 상기 제1 시점 영상을 촬영한 카메라 파라미터에 기반하여 추정될 수 있다.

Description

광학 흐름을 이용한 고해상도 깊이 영상 추정 방법 및 장치{Method and Apparatus for Deriving High-Resolution Depth Video Using Optical Flow}
본 개시는 광학 흐름(Optical Flow)을 이용한 고해상도 깊이 영상 추정 방법 및 장치에 대한 것이다.
최근 전 세계는 4차산업혁명의 거센 물결을 맞아 급속도로 변화하고 있다. 소위 스마트화로 시작된 변화는 모든 분야를 혁신적으로 바꿔가고 있다. 4차산업혁명으로 인해 우리는 이제 언제 어디서나 모바일, 인터넷과 연결하여 기기를 조작하고 데이터를 수집하는 완전한 디지털화, 인공지능화 시대에 살게 되었다. 4차산업혁명 시대를 주도하는 핵심기술에는 증강 현실(Augmented Reality) 및 가상 현실(Virtual Reality) 등이 있다.
증강현실(AR: Augmented Reality)은 현실세계의 정보에 추가적인 가상 정보를 덧입혀 현실 경험을 증강시키는 시스템이며, 가상현실(VR: Virtual Reality)은 현실세계를 인공적인 기술을 활용하여 실제로 얻기 힘든, 또는 얻을 수 없는 경험이나 환경 등을 제공해 인체의 오감을 자극함으로써 실제와 같이 체험하게 하는 기술을 말한다. 최근 가상현실 기술은 가상현실과 현실을 넘나들며 자유로운 행동과 오감을 통해 소통하는 미래 컴퓨팅 환경 기술로 발전하고 있으며, 사람들의 생활을 변화시키고 광범위한 산업 발전에 영향을 줄 것으로 기대하고 있다.
가상현실(virtual reality) 서비스는 전방위 영상을 실사 혹은 CG(Computer Graphics) 형태로 생성하여 HMD(Head Mounted Display), 스마트폰 등에 재생함으로써 몰입감 및 현장감이 극대화된 서비스를 제공하는 방향으로 진화하고 있다.
이에 따라, 최근 AR/VR 서비스에서 점점 고해상도, 고품질의 영상이 요구되고 있으며 VR/AR에서 제공하는 가상공간 내의 영상에서는 가상시점 영상이 필수적으로 제공되어야 하며 이 역시 고해상도/고품질을 위한 렌더링 기술이 필요하다. 이를 깊이영상의 품질에 따라 가상시점 영상의 품질이 좌우될 수 있으며 깊이영상의 품질을 높이는데 많은 시간과 비용이 발생한다. 따라서 정확한 깊이 영상을 추정하는 방법에 대한 기술이 요구되고 있는 실정이다.
깊이 영상 추정 방법으로는 좌우 영상의 대응점을 찾아 이에 대한 변위를 구한 후 이를 다시 깊이(거리)로 변환하는 방법을 주로 사용하는데 이때 대응점을 찾는 방법에 있어 블록 매칭 방법을 사용하는 것이 일반적인 방법으로 사용되고 있다. 이때 블록 매칭 방법을 사용하는데 있어 좌우 영상간 대응 픽셀 간의 차이가 크게 발생하지 않는 경우에는 깊이 추정이 부정확할 수 있다.
또한, 기존 핀홀(pin hole) 카메라 모델에서 각 영상의 대응점을 고속으로 스캔할 수 있는 스테레오 매칭 기반으로 한 깊이 추정 방법에 의하면, 어안렌즈를 통해서 왜곡된 영상은 에피폴라 기하학 제약(epipolar geometry constraint)을 적용할 수 없기 때문에 기존 방법을 사용하게 되면 부정확한 깊이 추정이 될 수 있다.
본 개시의 목적은, 효율적이고 신속한 광학 흐름을 이용한 고해상도 깊이 영상 추정 기술을 제공하는 데 있다.
본 개시의 목적은, 광학 흐름(optical flow) 계산을 기반으로 한 깊이 추정 기술을 제공하여 자유롭고 보다 정확한 깊이 추정을 가능하게 하는 데 있다.
본 개시의 목적은, 렌즈로부터 촬영상의 왜곡여부와 무관하게 보다 정확한 깊이 영상을 추정하는 데 있다.
본 개시의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 개시의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 개시의 목적 및 장점들은 특허청구범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
본 개시의 일 실시예에 따르면, 광학 흐름을 이용한 깊이 영상 추정 방법은, 제1 시점 영상과 제2 시점 영상 간의 광학 흐름을 추정하는 단계, 상기 추정된 광학 흐름에 기초하여 상기 제1 시점 영상의 각 픽셀에 대한 광선 방향을 생성하는 단계, 및 상기 생성된 광선 방향을 이용하여 상기 제1 시점 영상의 깊이 영상을 추정하는 단계를 포함하되, 상기 광선 방향은 3차원 공간 상의 방향벡터로 표현되며, 상기 깊이 영상은, 상기 제1 시점 영상을 촬영한 카메라 파라미터에 기반하여 추정될 수 있다.
한편, 상기 추정된 광학 흐름은 딥 러닝(deep learning)을 기반으로 추정될 수 있다.
한편, 상기 카메라 파라미터는 상기 카메라의 중심 위치를 포함할 수 있다.
한편, 상기 깊이 영상을 추정하는 단계는, 상기 생성된 광선 방향을 이용하여 상기 제1 시점 영상의 각 픽셀에 대한 상기 3차원 공간 상의 좌표를 구하는 단계를 포함할 수 있다.
한편, 상기 좌표는 최소 MSE를 이용한 경사 하강법(gradient descent)에 기초하여 획득될 수 있다.
본 개시의 일 실시예에 따르면, 광학 흐름을 이용한 깊이 영상 추정 장치는, 데이터를 저장하는 메모리 및 상기 메모리를 제어하는 프로세서를 포함하되, 상기 프로세서는 제1 시점 영상과 제2 시점 영상 간의 광학 흐름을 추정하고, 상기 추정된 광학 흐름에 기초하여 상기 제1 시점 영상의 각 픽셀에 대한 광선 방향을 생성하고, 상기 생성된 광선 방향을 이용하여 상기 제1 시점 영상의 깊이 영상을 추정하되, 상기 광선 방향은 3차원 공간 상의 방향벡터로 표현되며, 상기 깊이 영상은, 상기 제1 시점 영상을 촬영한 카메라 파라미터에 기반하여 추정될 수 있다.
본 개시의 일 실시예에 따르면, 비 일시적 컴퓨터 판독 가능한 매체에 저장된 광학 흐름을 이용한 깊이 영상 추정 프로그램은, 컴퓨터에서, 제1 시점 영상과 제2 시점 영상 간의 광학 흐름을 추정하는 단계, 상기 추정된 광학 흐름에 기초하여 상기 제1 시점 영상의 각 픽셀에 대한 광선 방향을 생성하는 단계, 및 상기 생성된 광선 방향을 이용하여 상기 제1 시점 영상의 깊이 영상을 추정하는 단계를 수행하되, 상기 광선 방향은 3차원 공간 상의 방향벡터로 표현되며, 상기 깊이 영상은, 상기 제1 시점 영상을 촬영한 카메라 파라미터에 기반하여 추정될 수 있다.
본 개시에 의하면, 광학 흐름을 이용하여 효율적이고 신속하게 고해상도 깊이 영상 추정을 수행할 수 있다.
본 개시에 의하면, 주변 시점의 영상을 이용하여 광학 흐름 기반 3차원 좌표 추정 기술을 제공할 수 있다.
본 개시에 의하면, 다수의 광학 흐름으로부터 생성된 광선(light ray)들을 최적화할 수 있다.
본 개시에 의하면, 렌즈로부터 촬영상의 왜곡여부와 무관하게 보다 정확한 깊이 영상을 추정함으로써 다양한 렌즈 기반 환경에 자유롭고 정확한 고해상도 깊이 영상 추정을 수행할 수 있다.
본 개시의 실시 예들에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 이하의 본 개시의 실시 예들에 대한 기재로부터 본 개시의 기술 구성이 적용되는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 도출되고 이해될 수 있다. 즉, 본 개시에서 서술하는 구성을 실시함에 따른 의도하지 않은 효과들 역시 본 개시의 실시 예들로부터 당해 기술 분야의 통상의 지식을 가진 자에 의해 도출될 수 있다.
도 1은 플렌옵틱 포인트 클라우드의 생성 예시를 도시한다.
도 2는 플렌옵틱 포인트에 할당된 속성 정보를 시점의 위치에 따라 표현하는 방식을 설명하기 위한 도면이다.
도 3은 본 개시의 일 실시예에 따른 다시점 영상 생성 방법을 설명하기 위한 도면이다.
도 4 및 도 5는 종래의 에피폴라 기하학 제약(epipolar geometry constraint)의 개념을 설명하기 위한 도면이다.
도 6은 종래의 스테레오 매칭(stereo matching) 기반 깊이 영상을 추정하는 방법을 설명하기 위한 도면이다.
도 7은 본 개시의 일 실시예에 따른 광학 흐름을 이용한 깊이 영상 추정 방법을 설명하기 위한 도면이다.
도 8은 본 개시의 일 실시예에 따른 광학 흐름을 이용한 깊이 영상 추정 장치를 설명하기 위한 도면이다.
이하에서는 첨부한 도면을 참고로 하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나, 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.
본 개시의 실시 예를 설명함에 있어서 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그에 대한 상세한 설명은 생략한다. 그리고, 도면에서 본 개시에 대한 설명과 관계없는 부분은 생략하였으며, 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 개시에 있어서, 서로 구별되는 구성요소들은 각각의 특징을 명확하게 설명하기 위함이며, 구성요소들이 반드시 분리되는 것을 의미하지는 않는다. 즉, 복수의 구성요소가 통합되어 하나의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있고, 하나의 구성요소가 분산되어 복수의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있다. 따라서, 별도로 언급하지 않더라도 이와 같이 통합된 또는 분산된 실시 예도 본 개시의 범위에 포함된다.
본 개시에 있어서, 다양한 실시 예에서 설명하는 구성요소들이 반드시 필수적인 구성요소들을 의미하는 것은 아니며, 일부는 선택적인 구성요소일 수 있다. 따라서, 일 실시 예에서 설명하는 구성요소들의 부분집합으로 구성되는 실시 예도 본 개시의 범위에 포함된다. 또한, 다양한 실시 예에서 설명하는 구성요소들에 추가적으로 다른 구성요소를 포함하는 실시 예도 본 개시의 범위에 포함된다.
한편, 본 개시의 실시예를 설명함에 있어, 두 개 이상의 시점에 대한 영상들이 사용될 수 있는 경우에는, 임의의 한 시점과 다른 시점을 구분하기 위해 현재 시점과 그 외의 시점으로 구분한다. 그러나, 현재 시점이 특정한 한 시점으로 고정되는 것은 아니며, 임의의 시간적 순간에서, 깊이 영상을 추정하고자 하는 대상 시점이 현재 시점으로 지칭될 수도 있다.
이하, 도면을 참조하여 본 개시에 대해 상세히 설명한다.
도 1은 플렌옵틱 포인트 클라우드의 생성 예시를 도시한다. 플렌옵틱 포인트(plenoptic point)는 3차원 공간에서 X, Y, Z 등의 3차원 좌표로 표현되는 하나의 기하(geometry) 정보와 N개의 카메라 시점으로 관측했을 때 획득되는 RGB, YUV 등의 N개의 속성(attribute) 정보를 포함하고 있는 데이터 형태이다. 플렌옵틱 포인트 클라우드(plenoptic point cloud)는 플렌옵틱 포인트의 집합으로, 플렌옵틱 포인트를 최소 하나 이상 포함할 수 있다.
플렌옵틱 포인트 클라우드는 N개의 각 입력 시점 별 2차원 영상과 깊이 정보를 이용하여 생성될 수 있다. 이때, 3차원 공간은 생성한 포인트들을 모두 포함하는 공간을 통해 정의될 수 있다.
여기서, 2D 영상은 다시점(multi-view) 영상, 라이트필드(lightfield) 영상 등 하나 이상의 카메라로 획득된 영상들을 의미할 수 있다. 그리고 다시점 영상은 특정 영역을 서로 다른 시점을 가진 다수의 카메라들이 동시에 촬영한 영상들로 구성될 수 있다.
이때, 정의된 3차원 공간이 일정 단위 복셀로 분할되고 복셀안에 있는 포인트들이 하나의 기하 정보 값을 갖도록 병합될 수 있다. 또한 이때, 3차원 포인트들이 갖고 있던 색상 정보가 모두 저장되고 어느 시점으로부터 생성된 포인트 인지에 관한 정보를 활용하여 플렌옵틱 포인트 클라우드가 생성될 수 있다.
3차원 포인트가 생성되지 않은 시점의 색상 정보는, 같은 복셀에 포함되는 다른 시점들의 색상 정보로부터 유추될 수 있다. 예컨대, 3차원 포인트가 생성되지 않은 시점의 색상 정보는 복셀 안의 다른 시점 또는 포인트들의 색상 정보들의 평균값, 최대값, 최소값 중 적어도 하나를 이용하여 유도될 수 있다. 또한 예컨대, 3차원 포인트가 생성되지 않은 시점의 색상 정보는, 해당 시점 또는 포인트에 인접한 시점 또는 포인트의 색상 정보로부터 유도될 수 있다.
한편, 한 시점에서 생성된 3차원 포인트가 한 복셀에 여러 개 포함되어 있는 경우, 해당 시점의 색상 값들의 평균값, 최대값, 최소값 중 적어도 하나를 저장하는 방법으로 플렌옵틱 포인트 클라우드가 생성될 수 있다.
다른 예로, 한 시점에서 생성된 3차원 포인트가 한 복셀에 여러 개 포함되어 있는 경우, 가장 작은 깊이 정보 또는 가장 큰 깊이 정보를 가진 포인트의 색상 정보를 저장하는 방법으로 플렌옵틱 포인트 클라우드가 생성될 수 있다.
여기서, 하나 이상의 속성 정보를 가지는 복셀을 다속성 복셀이라고 할 수 있다. 즉, 다속성 복셀은 플렌옵틱 포인트를 의미할 수 있다.
도 2는 플렌옵틱 포인트에 할당된 속성 정보를 시점의 위치에 따라 표현하는 방식을 설명하기 위한 도면이다.
도 2의 예와 같이, 생성된 플렌옵틱 포인트에 할당된 속성 정보는 시점의 위치에 따라
Figure pat00001
와 h를 이용한 2차원 형태로 표현할 수 있다. 여기서,
Figure pat00002
는 실수 값, 정수 값 등으로 표현되는 각도를 의미하며, h는 실수 값, 정수 값 등의 표현되는 크기를 의미할 수 있다. 즉, 플렌옵틱 포인트에 할당된 속성 정보는
Figure pat00003
와 h로 표현되는 2차원 좌표 값을 가질 수 있다.
2차원 형태로 표현된 N개 시점의 플렌옵틱 포인트의 속성 정보들 간의 중복성을 효율적으로 제거하기 위해, 속성 분해(analysis)가 수행될 수 있다. 이때, 플렌옵틱 포인트의 속성 분해는 속성 정보에 대해 속성 정보 간 예측(prediction), 속성 정보의 패딩(padding), 속성 정보의 외삽(extrapolation), 속성 정보의 보간(interpolation), 속성 정보의 변환(transform), 속성 정보의 양자화(quantization) 중 적어도 하나를 수행하는 것을 의미할 수 있다.
속성 분해는 시점 종속 속성 정보 및 시점 독립 속성 정보로 속성을 분해하는 것을 의미할 수 있다. 여기서, 시점 종속 속성 정보는 각 시점에서 가지는 고유한 속성 정보를 의미할 수 있고, 시점 독립 속성 정보는 하나 이상의 시점에서 공통적으로 가지는 속성 정보를 의미할 수 있다. 예를 들어, 시점 종속 속성 정보는 정반사(specular) 성분을 의미할 수 있고, 시점 독립 속성 정보는 난반사(diffuse) 성분을 의미할 수 있다.
도 3 본 개시의 일 실시예에 따른 다시점 영상 생성 방법을 설명하기 위한 도면이다.
먼저, 플렌옵틱 포인트 클라우드의 기하 정보를 활용하여, 3차원 물체가 2차원 영상으로 투영될 수 있다(S300). 또한, 플렌옵틱 포인트 클라우드의 폐색 패턴 정보를 활용하여 3차원 물체(포인트)가 2차원 영상으로 투영될 수 있다. 예를 들어, 폐색 패턴 정보 중 임의의 시점에 해당하는 폐색 패턴 정보가 무의미한 속성 정보를 나타내는 경우 해당 포인트는 해당 시점으로 투영이 이루어지지 않을 수 있다. 폐색 패턴 정보는 제1 값으로 '1'을 가질 수 있으며, 제2 값으로 '0'을 가질 수 있다. 예를 들어, 임의 시점의 폐색 패턴 정보가 제1 값을 갖는 경우, 해당 시점으로 투영된 위치의 픽셀 값은 해당 포인트의 해당 시점의 속성 정보로 결정될 수 있다. 반면, 폐색 패턴 정보가 제2 값을 갖는 경우, 해당 시점으로 포인트가 투영되지 않을 수 있다.
이때, 현재 픽셀에 대해 하나의 포인트만이 투영되는 경우에는, 해당 시점(의 포인트)의 속성 정보를 이용하여 현재 픽셀의 속성 정보가 결정될 수 있다(S305, S310). 반면, 현재 픽셀에 대해 다수의 포인트가 투영되는 경우에는, 카메라와 거리가 가장 가까운 시점(의 포인트)의 속성 정보를 이용하여 해당 픽셀의 속성 정보가 결정될 수 있다(S305, S320).
반면, 현재 픽셀에 대해 플렌옵틱 포인트의 투영이 이루어지지 않은 속성 정보에 대해, 현재 픽셀의 N개의 이웃 픽셀들의 속성 정보를 참조될 수 있다. 이때, 카메라와의 거리가 가장 가까운 이웃 픽셀의 속성 정보를 이용하여, 현재 픽셀의 속성 정보가 결정될 수 있다(S315, S330). 이때, N은 0보다 큰 자연수 일 수 있으며, 예컨대, 4 또는 8의 값을 가질 수 있다.
또한, 현재 픽셀에 대해 플렌옵틱 포인트의 투영이 이루어지지 않고, 현재 픽셀의 N개의 이웃 픽셀들의 속성 정보가 없거나 투영된 포인트가 없는 경우, 2차원 영상 상의 NxN 마스크를 활용한 보간 방법을 활용하여, 현재 샘플에 대한 홀(Hole) 필링이 수행될 수 있다(S315, S340). 이때, N은 0보다 큰 자연수 일 수 있으며, 예컨대, 5의 값을 가질 수 있다.
도 4 및 도 5는 종래의 에피폴라 기하학 제약(epipolar geometry constraint)의 개념을 설명하기 위한 도면이다. 보다 상세하게는, 도 4는 핀홀(pin hole) 카메라로 두 개 이상의 시점에서 영상을 촬영 시 존재하는 에피폴라 기하학 제약을 설명하기 위한 도면이며, 도 5는 에피폴라 기하학 제약에 따른 일 영상의 점에서 다른 영상에 대응될 수 있는 점을 찾기 위한 에피폴라 선을 설명하기 위한 도면이다.
일 예로서, 핀홀(Pinhole) 카메라 모델은 일반적인 2차원 평면에 투시도(perspective view)를 담을 수 있는 일반적인 카메라에 적용될 수 있다. 이러한 핀홀(Pinhole) 카메라로 두 개 이상의 시점에서 영상을 촬영할 경우 에피폴라 기하학 제약(Epipolar geometry constraint)이 존재할 수 있다.
일 예로서, 도 4에 나타난 바와 같이, 좌 시점에 대한 영상(left view) 및 우 시점에 대한 영상(right view)가 존재할 수 있다. 이 경우. 각 시점에 대한 영상의 중심점을 각각
Figure pat00004
이라 할 수 있다. 차원 공간 상의 점
Figure pat00005
는 중심점
Figure pat00006
과 X를 잇는 선분 상에 있는 점들은 좌시점에서 바라보았을 때 좌측 이미지 평면에서는
Figure pat00007
로만 표현될 수 있다. 즉,
Figure pat00008
는 하나의 점
Figure pat00009
과 위치가 동일하나 깊이가 상이한 점으로 나타나나, 우 시점에서 바라보았을 때는
Figure pat00010
가 이미지 평면상에 놓이게 될 수 있다. 한편, 이미지 평면이나
Figure pat00011
는 동일한 선(line) 위에 놓이게 될 수 있다.
이런 점들이 놓이는 부분을 에피폴라 선(Epipolar Line)이라 한다. 다시 말해, 일 시점을 기반으로 할 때 일정한 조건을 만족하는 3차원 공간상의 점들을 다른 시점을 기반으로 하면 이미지 평면의 에피폴라 선(epiline: epipolar line) 상에서만 찾아도 되는 상황을 에피폴라 기하학 제약(Epipolar geometry constraints)이라고 할 수 있다.
이를 도 5를 참조하여 설명하면, 에피폴라 기하학 제약(Epipolar geometry constraint)는 다음 두 가지로 특징지을 수 있다. 일 시점의 영상 평면 상의 붉은 점 p가 다른 시점의 영상 평면에서 대응될 수 있는 점은 에피폴라 선 1(Epipolar line 1) 상의 어느 한점이 될 수 있다.
마찬가지로, 다른 시점의 영상 평면의 붉은 점 p'가 다른 이미지 평면에서 대응될 수 있는 점은 에피폴라 선 2(Epipolar line 2) 상의 어느 한점이 될 수 있다.
도 6은 종래의 스테레오 매칭(stereo matching) 기반 깊이 영상을 추정하는 방법을 설명하기 위한 도면이다.
일 예로서, 종래의 스테레오 매칭은 다시점 영상을 기반으로 할 수 있는데, 적어도 두 개 시점에서 촬영된 영상을 이용한다고 가정하고 설명한다. 또한, 상기에서 언급한 에피폴라 선을 탐색에 따른 대응 점 검색 과정을 기반으로 할 수 있다.
에피폴라 라인 생성(S601) 과정은, 두 개 시점에서 촬영된 영상을 정렬하는 단계를 포함하고, 두 개 시점에서 촬영된 영상들 사이의 에피폴라 선(epipolar line)을 카메라 파라미터 등을 이용하여 탐색하는 단계를 포함할 수 있다. 여기서 카메라 파라미터란, 두 개의 시점에 대한 영상을 촬영한 카메라의 파라미터를 의미할 수 있다.
생성된 에피폴라 라인에 기반하여 대응점을 검색(S602)하는 과정은, 디스패리티(Disparity) 추정 단계를 포함할 수 있는데, 이는 생성된 에피폴라 라인을 중심으로 현재 시점 영상(제1 시점 영상)과 다른 시점 영상(제2 시점 영상) 간의 대응 점을 찾아 디스패리티(disparity)를 추정할 수 있다.
이후, 획득된 대응 점을 이용하여 카메라 파라미터 기반의 깊이 영상을 추정(S603)할 수 있다. 추정된 디스패리티를 깊이(Depth)로 변환할 수 있다. 여기서, 사용되는 카메라 파라미터에는 카메라의 위치, 시점 관련 값들 등이 포함될 수 있다.
한편, 도 6의 스테레오 매칭 기반 깊이 영상 추정 방법은, 기존 핀홀(pin hole) 카메라 모델에서 가장 최적화된다. 일 예로서, 어안렌즈를 통해서 왜곡된 영상을 다시점 영상으로 이용하여 도 6의 방법을 적용하면, 에피폴라 기하학 제약(epipolar geometry constraint)은 적용할 수 없다.
도 7은 본 개시의 일 실시예에 따른 광학 흐름을 이용한 깊이 영상 추정 방법을 설명하기 위한 도면이다.
일 실시예로서, 도 7의 깊이 영상 추정 방법은 깊이 영상 추정 장치 등에 의해 수행될 수 있으며, 이는 도 8의 장치를 포함한다.
일 예로서, 광학 흐름을 이용한 깊이 영상 추정 방법은 다시점 영상을 이용할 수 있다. 예를 들어, 두 개 이상의 시점에 대한 영상(들)을 이용할 수 있다. 여기서 이용되는 다시점 영상(들)은, 일 카메라가 이동하면서 스캔하여 획득한 것이거나, 하나 이상의 카메라에 의해 획득된 것일 수도 있다.
먼저, 광학 흐름을 이용한 깊이 영상 추정 방법은, 다시점 영상 간 광학 흐름(optical flow)를 추정(S701)하는 과정을 포함할 수 있다. 일 예로서, 이는 두 개 이상의 시점에 대한 영상들을 이용하여 영상 내 광학 흐름을 추정하는 단계를 포함할 수 있다. 두 개 시점 이상에 대해 촬영된 영상들에 대해, 현재 시점(제1 시점)과 그 외의 시점 간의 광학 흐름을 추정하는 단계가 포함될 수 있다. 예를 들어, 광학 흐름을 구하는 방법에는 인공지능이 이용될 수 있으며, 딥 러닝(deep learning)을 기반으로 할 수 있으나, 본 개시가 이에 한정되는 것은 아니다.
이후, 추정된 광학 흐름에 기반하여 광선 방향을 생성(S702)하는 과정이 수행될 수 있다. 일 예로서, 본 과정에는 광학 흐름(Optical flow)에서 구한 각 시점 영상의 임의의 픽셀(예를 들어, i 픽셀)들 각각의 광선 방향(ray direction)
Figure pat00012
를 사용하여 각 시점 영상의 임의의 픽셀(i 픽셀)들 각각에 대한 3차원 공간상의 방향벡터
Figure pat00013
생성하는 단계를 포함할 수 있다. 또한, 이는 다시점 영상 중 특정 시점의 영상을 기준으로 다른 시점 영상에 대한 광선 방향을 생성하는 과정일 수 있다.
또한, 생성된 광선 방향을 이용하여 깊이 영상을 추정(S703)하는 단계를 수행할 수 있다. 생성된 광선 방향이란, 즉, 상기에서 언급한 각 픽셀에 대한 방향 벡터일 수 있다. 일 예로서, 깊이 영상을 추정하는 단계는 상기에서 언급한 두 개 이상의 시점에 대한 영상을 촬영한 카메라 파라미터를 기반으로 할 수 있다. 일 예로서, 카메라 파라미터에는, 임의의 제n 카메라의 위치
Figure pat00014
, 제n 카메라 화각 등이 포함될 수 있으며, 여기서 카메라의 위치란 카메라의 시야의 중점, 즉 카메라에 의해 획득되는 영상의 중점을 의미할 수 있다. 또한, 깊이 영상은 방향 벡터
Figure pat00015
등을 더 사용하여 추정될 수 있다. 즉, 방향 벡터는 현재 시점의 영상의 임의의 픽셀에 대한 3차원 공간상의 좌표에 대한 최적해를 계산하는 데 사용될 수 있다. 일 예로서, 최적해를 구하는 방법은 최소 MSE(Mean Square Error)를 이용한 경사 하강법(gradient descent) 등 다양한 방법들을 이용할 수 있다. 이때 구해지는 최적해, 즉 3차원 공간 상의 좌표 P=(X,Y,Z)를 사용하여 현재 시점 픽셀 위치의 깊이 값이 추정되어, 이를 모든 픽셀에 반복하면, 깊이 영상이 추정될 수 있다. 일 예로서, 최적의 좌표는 하기와 같이 구해질 수 있다.
[수학식 1]
Figure pat00016
한편, 도 7의 순서도는 본 개시의 일 실시예에 해당하므로, 본 개시가 이에 한정되는 것은 아니다. 따라서, 일부 단계의 순서가 변경되거나, 다른 단계가 추가되거나, 일부 단계가 제거되거나, 동시에 진행되는 것도 가능하다고 할 것이다.
도 8은 본 개시의 일 실시예에 따른 광학 흐름을 이용한 깊이 영상 추정 장치를 설명하기 위한 도면이다.
일 예로서, 광학 흐름을 이용한 깊이 영상 추정 장치는 상기에서 언급한 깊이 영상 추정을 수행할 수 있으며, 도 7의 깊이 영상 추정 방법이 포함된다.
일 예로서, 도 8에 도시된 일 실시예에 따른 광학 흐름을 이용한 깊이 영상 추정 장치(801)는, 데이터를 저장하는 메모리(802) 및 메모리를 제어하는 프로세서(803)를 포함할 수 있다. 한편, 도 8에 도시되지는 않았으나, 외부 장치와 데이터를 송수신하는 송수신부나 사용자 입/출력 인터페이스 등을 더 포함할 수 있으며, 본 개시가 이에 한정되는 것은 아니다.
일 예로서, 프로세서는 다시점 영상 간 광학 흐름을 추정할 수 있으며, 추정된 광학 흐름에 기초하여 다시점 영상 중 현재 시점 영상의 각 픽셀에 대한 광선 방향을 생성하고, 생성된 광선 방향을 이용하여 일정 시점 영상의 깊이 영상을 추정하되, 광선 방향은 3차원 공간 상의 방향벡터로 표현되며, 깊이 영상은, 상기 제1 시점 영상을 촬영한 카메라 파라미터에 기반하여 추정될 수 있다. 일 예로서, 추정된 광학 흐름은 딥 러닝(deep learning)을 기반으로 추정될 수 있다. 또한, 카메라 파라미터는 다시점 영상을 촬영한 카메라의 중심 위치를 포함할 수 있다. 한편, 깊이 영상을 추정을 추정할 때, 생성된 광선 방향을 이용하여 현재 시점 영상의 각 픽셀에 대한 3차원 공간 상의 좌표를 구할 수 있다. 한편 좌표는 최소 MSE를 이용한 경사 하강법(gradient descent)에 기초하여 획득될 수 있다. 이는 상기에서 다른 도면을 참조하여 설명한 바와 같다.
본 개시에 의하면, 렌즈로부터 촬영상의 왜곡여부와 무관하게 보다 정확한 깊이 영상을 추정할 수 있으며, 구하고자 하는 시점의 영상을 중심으로 주변 시점의 영상을 이용하여 다수의 시점에 대한 영상 간의 광학 흐름을 계산할 수 있다. 또한, 이를 기반으로 한 3차원 좌표 추정이 가능하므로, 광학 흐름으로부터 생성된 광선(light ray)들을 최적화할 수 있다.
본 개시의 다양한 실시 예는 모든 가능한 조합을 나열한 것이 아니고 본 개시의 대표적인 양상을 설명하기 위한 것이며, 다양한 실시 예에서 설명하는 사항들은 독립적으로 적용되거나 또는 둘 이상의 조합으로 적용될 수도 있다.
또한, 본 개시의 다양한 실시 예는 하드웨어, 펌웨어(firmware), 소프트웨어, 또는 그들의 결합 등에 의해 구현될 수 있다. 또한, 하나의 소프트웨어가 아닌 하나 이상의 소프트웨어의 결합에 의해 구현될 수 있으며, 일 주체가 모든 과정을 수행하지 않을 수 있다. 예를 들어, 고도의 데이터 연산 능력 및 방대한 메모리를 요구하는 기계학습 과정은 클라우드나 서버에서 이루어지고, 사용자 측은 기계학습이 완료된 신경망만을 이용하는 방식으로 구현될 수도 있으며, 이에 한정되지 않음은 자명하다.
하드웨어에 의한 구현의 경우, 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 범용 프로세서(general processor), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다. 예를 들어, 상기 범용 프로세서를 포함한 다양한 형태를 띨 수도 있다. 하나 혹은 그 이상의 결합으로 이루어진 하드웨어로 개시될 수도 있음은 자명하다.
본 개시의 범위는 다양한 실시 예의 방법에 따른 동작이 장치 또는 컴퓨터 상에서 실행되도록 하는 소프트웨어 또는 머신-실행 가능한 명령들(예를 들어, 운영체제, 애플리케이션, 펌웨어(firmware), 프로그램 등), 및 이러한 소프트웨어 또는 명령 등이 저장되어 장치 또는 컴퓨터 상에서 실행 가능한 비-일시적 컴퓨터-판독가능 매체(non-transitory computer-readable medium)를 포함한다.
한편, 각 도면을 참조하여 설명한 내용은 각 도면에만 한정되는 것은 아니며, 상반되는 내용이 없는 한 상호 보완적으로 적용될 수도 있다.
이상에서 설명한 본 개시는, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 개시의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로, 본 개시의 범위는 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

Claims (1)

  1. 광학 흐름을 이용한 깊이 영상 추정 방법에 있어서,
    제1 시점 영상과 제2 시점 영상 간의 광학 흐름을 추정하는 단계;
    상기 추정된 광학 흐름에 기초하여 상기 제1 시점 영상의 각 픽셀에 대한 광선 방향을 생성하는 단계; 및
    상기 생성된 광선 방향을 이용하여 상기 제1 시점 영상의 깊이 영상을 추정하는 단계;를 포함하되,
    상기 광선 방향은 3차원 공간 상의 방향벡터로 표현되며, 상기 깊이 영상은, 상기 제1 시점 영상을 촬영한 카메라 파라미터에 기반하여 추정되는, 깊이 영상 추정 방법.
KR1020210162409A 2020-11-24 2021-11-23 광학 흐름을 이용한 고해상도 깊이 영상 추정 방법 및 장치 KR20220071935A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200158756 2020-11-24
KR20200158756 2020-11-24

Publications (1)

Publication Number Publication Date
KR20220071935A true KR20220071935A (ko) 2022-05-31

Family

ID=81786817

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210162409A KR20220071935A (ko) 2020-11-24 2021-11-23 광학 흐름을 이용한 고해상도 깊이 영상 추정 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20220071935A (ko)

Similar Documents

Publication Publication Date Title
US11756223B2 (en) Depth-aware photo editing
US9438878B2 (en) Method of converting 2D video to 3D video using 3D object models
JP5561781B2 (ja) 2d画像データを立体画像データに変換する方法およびシステム
US20120242795A1 (en) Digital 3d camera using periodic illumination
KR100560464B1 (ko) 관찰자의 시점에 적응적인 다시점 영상 디스플레이 시스템을 구성하는 방법
JP2021535466A (ja) シーンの色及び深度の情報を再構成するための方法及びシステム
WO2012096747A1 (en) Forming range maps using periodic illumination patterns
KR102049456B1 (ko) 광 필드 영상을 생성하는 방법 및 장치
JP2016537901A (ja) ライトフィールド処理方法
WO2018032841A1 (zh) 绘制三维图像的方法及其设备、***
WO2020184174A1 (ja) 画像処理装置および画像処理方法
GB2585197A (en) Method and system for obtaining depth data
Guo et al. Real-Time Free Viewpoint Video Synthesis System Based on DIBR and A Depth Estimation Network
WO2008152607A1 (en) Method, apparatus, system and computer program product for depth-related information propagation
CN117730530A (zh) 图像处理方法及装置、设备、存储介质
CN114935316B (zh) 基于光学跟踪与单目视觉的标准深度图像生成方法
Knorr et al. From 2D-to stereo-to multi-view video
JP6595878B2 (ja) 要素画像群生成装置及びそのプログラム
KR20220071935A (ko) 광학 흐름을 이용한 고해상도 깊이 영상 추정 방법 및 장치
De Sorbier et al. Augmented reality for 3D TV using depth camera input
Congote et al. Real-time depth map generation architecture for 3d videoconferencing
Ji et al. Mixed reality depth contour occlusion using binocular similarity matching and three-dimensional contour optimisation
KR20190072742A (ko) 캘리브레이션된 멀티 카메라 입력 기반 실시간 초다시점 중간시점 영상 합성 방법 및 시스템
Kim et al. A real-time 3d modeling system using multiple stereo cameras for free-viewpoint video generation
Kunita et al. Layered probability maps: basic framework and prototype system