KR102334332B1 - 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법, 이를 수행하기 위한 기록 매체 및 장치 - Google Patents

가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법, 이를 수행하기 위한 기록 매체 및 장치 Download PDF

Info

Publication number
KR102334332B1
KR102334332B1 KR1020200095980A KR20200095980A KR102334332B1 KR 102334332 B1 KR102334332 B1 KR 102334332B1 KR 1020200095980 A KR1020200095980 A KR 1020200095980A KR 20200095980 A KR20200095980 A KR 20200095980A KR 102334332 B1 KR102334332 B1 KR 102334332B1
Authority
KR
South Korea
Prior art keywords
image
guided
deep learning
filter
filtering
Prior art date
Application number
KR1020200095980A
Other languages
English (en)
Inventor
이정진
Original Assignee
숭실대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 숭실대학교 산학협력단 filed Critical 숭실대학교 산학협력단
Priority to KR1020200095980A priority Critical patent/KR102334332B1/ko
Application granted granted Critical
Publication of KR102334332B1 publication Critical patent/KR102334332B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)

Abstract

가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법은, 좌 영상(left image)과 우 영상(right image)이 한 쌍으로 구성된 양안 시차 영상을 입력으로 하는 딥 러닝(deep learning)을 통하여 초기 깊이 영상을 학습하는 단계; 학습 결과에 따라 상기 양안 시차 영상에 대한 초기 거리맵을 생성하는 단계; 상기 좌 영상을 입력으로 하는 정성적 및 정량적 평가치가 최적화되는 가이디드 필터(Guided filter)를 생성하는 단계; 및 상기 가이디드 필터 이용하여 상기 초기 거리맵과 상기 좌 영상을 가이디드 이미지 필터링하여 경계 부분이 재정의된 영상의 거리맵을 출력하는 단계;를 포함한다. 이에 따라, 두 장의 양안 시차 영상으로부터 딥러닝 기술을 이용하여 깊이 영상(depth map)을 생성하는 경우의 경계 처리를 정확하게 할 수 있다.

Description

가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법, 이를 수행하기 위한 기록 매체 및 장치{ENHANCEMENT METHOD OF DEPTH MAP BASED ON DEEP LEARNING NETWORK USING GUIDED FILTERING, RECORDING MEDIUM AND DEVICE FOR PERFORMING THE METHOD}
본 발명은 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법, 이를 수행하기 위한 기록 매체 및 장치에 관한 것으로서, 더욱 상세하게는 두 대의 카메라의 양안 시차를 이용하여 깊이를 판별하는 스테레오 매칭(Stereo matching) 분야에 관한 것이다.
시각에 관한 연구를 대표하는 것 중 컴퓨터 비젼의 연구에서는 카메라를 비롯한 광학 센서로부터 얻어낸 여러 데이터들을 이용하여 분류, 인식, 거리 측정 등 사람이 시각적으로 할 수 있는 모든 종류들에 관하여 활발히 연구 되고 있다.
그 중 거리를 측정하는 방안 중 단안 카메라의 경우, 경사에 의한 오차가 발생할 여지가 있으나, 한 쌍의 카메라를 이용한 스테레오 카메라의 경우 인간이 양안 시차를 이용해 각 카메라에서 얻어지는 물체간의 거리 차이를 이용하여 거리를 정확히 판별하는 것과 같은 원리로 작동한다.
기존 영상처리 연구에서는 스테레오 이미지를 이용한 거리 측정에 관한 연구는 활발하게 진행되어 왔다. 스테레오 기반 영상 깊이 측정은 특징 추출(Feature Extraction), 매칭 집합 비용(Matching Cost Aggregation), 시차예측 (Disparity prediction) 3가지를 들 수 있다.
최근에는 기존에 개발되었던 영상처리 기술들이 현재 신경망을 이용한 학습 기법을 적용하여 딥 러닝(Deep learning)을 이용한 기술개발로 발전하고 있다.
심층 신경망(Deep neural network)은 특징 비교 단계에서 사용 되었으며, 매칭 비용 계산과, 시차예측은 기존의 알고리즘들이 사용되었다. 이러한 방법은 높은 정확도를 보였지만, 부분적으로 기존 알고리즘을 사용함으로써 이미지의 큰 특징이 없거나, 반사가 심한 표면 및 객체의 가장자리 경계에 대해서 결과가 좋지 않았다.
Matching cost aggregation에 대한 비용 감소를 위해 Semi-Global Matching Network(SGM-Net)는 신경망을 사용하여 SGM에 대한 페널티 파라미터를 예측하였다. 최근에는 End-to-end deep neural network 모델들이 대중화 되었는데, 거리 추정을 위해 대규모 합성 데이터 세트를 생성하고, 2 단계 Convolution Neural Network(CNN)를 구축하여 시차 맵을 먼저 추정 한 다음 개선했다.
GC-Net은 특징 추출, 매칭 비용 집계 및 시차 추정을 single end-to-end deep neural network에 통합하여 여러 벤치마크에서 가장 높은 정확도를 얻었다. 또한, PSM-Net은 피라미드 특징 추출과 25 개의 3D 블록을 사용하여 정확도를 더욱 향상시켰다.
현재 가장 최근 개발된 스테레오 영상에서 거리 측정을 위한 인공 신경망은 Guided Aggregation Network(GA-Net)로 2019년에 연구되어 현존하는 가장 효율적인 깊이 추정 기법으로 알려져 있다. GA-Net은 F. Zhang[선행기술문헌의 비특허문헌 1]을 비롯해 옥스퍼드 대학교, 바이두 연구소에서 개발한 신경망으로, 최근 개발된 신경망 중 Scene Flow 데이터셋[선행기술문헌의 비특허문헌 2]과 KITTI benchmarks[선행기술문헌의 비특허문헌 3]에서 가장 뛰어난 성능을 보여주는 알고리즘이다.
KR 10-2017-0091496 A KR 10-1331052 B1
F. Zhang, V. Prisacariu, R. Yang, Philip H. S. Torr, "Ga-net: Guided aggregation net for end-to-end stereo matching," IEEE Conference on Computer Vision and Pattern Recognition, p. 185-194, 2019. N. Mayer, E. Ilg, P. Hausser, P. Fischer, D. Cremers, A. Dosovitskiy and T. Brox., "A large dataset to train convolutional networks for disparity, optical flow and scene flow estimation," IEEE Conference on Computer Vision and Pattern Recognition, pp.483-499, 2016. A. Geiger, P. Lenz and R. Urtasun, "Are we ready for autonomous driving? the KITTI vision benchmark suite," IEEE Conference on Computer Vision and Pattern Recognition, pp.3354-3361, 2012.
이에, 본 발명의 기술적 과제는 이러한 점에서 착안된 것으로 본 발명의 목적은 영상의 경계 부분을 개선하기 위해 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법을 제공하는 것이다.
본 발명의 다른 목적은 상기 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 기록 매체를 제공하는 것이다.
본 발명의 또 다른 목적은 상기 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법을 수행하기 위한 장치를 제공하는 것이다.
상기한 본 발명의 목적을 실현하기 위한 일 실시예에 따른 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법은, 좌 영상(left image)과 우 영상(right image)이 한 쌍으로 구성된 양안 시차 영상을 입력으로 하는 딥 러닝(deep learning)을 통하여 초기 깊이 영상을 학습하는 단계; 학습 결과에 따라 상기 양안 시차 영상에 대한 초기 거리맵을 생성하는 단계; 상기 좌 영상을 입력으로 하는 정성적 및 정량적 평가치가 최적화되는 가이디드 필터(Guided filter)를 생성하는 단계; 및 상기 가이디드 필터 이용하여 상기 초기 거리맵과 상기 좌 영상을 가이디드 이미지 필터링하여 경계 부분이 재정의된 영상의 거리맵을 출력하는 단계;를 포함한다.
본 발명의 실시예에서, 상기 초기 깊이 영상을 학습하는 단계는, SGA(Semi-Global Guided Aggregation) 레이어와 LGA(Local Guided Aggregation) 레이어를 포함하는 GA(Guided Aggregation) 레이어를 이용하여, 에너지 함수를 최소화하는 깊이 추출 알고리즘인 GA-Net(Guided Aggregation Network)를 통해 딥 러닝을 수행할 수 있다.
본 발명의 실시예에서, 상기 가이디드 필터(Guided filter)를 생성하는 단계는, 입력된 영상을 처리하는 과정에서 가이디드 영상(guided image)을 이용하여 영상의 경계를 보존하는 스무딩(smoothing) 단계;를 포함할 수 있다.
본 발명의 실시예에서, 상기 가이디드 필터(Guided filter)를 생성하는 단계는, 출력 영상이 입력 영상에 대해 선형적으로 표현되는 로컬 필터(local filter)를 생성할 수 있다.
본 발명의 실시예에서, 상기 가이디드 필터(Guided filter)를 생성하는 단계는, 정사각형 윈도우(window)의 변의 길이에 따라 정해지는 반경(radius) 및 입실론(epsilon)의 파라미터를 갖는 가이디드 필터를 생성할 수 있다.
본 발명의 실시예에서, 상기 경계 부분이 재정의된 영상의 거리맵을 출력하는 단계는, 픽셀 k를 중심으로 하는 정사각형 형태로 윈도우(wk)를 정의하여, 출력 영상의 픽셀 값을 결정할 수 있다.
본 발명의 실시예에서, 상기 경계 부분이 재정의된 영상의 거리맵을 출력하는 단계는, 각 윈도우(window) 내에서 입력 영상과 출력 영상의 차이에 따른 비용(cost) 함수와 상기 비용 함수를 최소화한 해의 선형 회귀 관계 및 제한 상수를 이용할 수 있다.
본 발명의 실시예에서, 상기 경계 부분이 재정의된 영상의 거리맵을 출력하는 단계는, 상기 출력 영상은 가이디드 영상(guided image)에 대한 가중치와 입력 영상의 곱으로 표현될 수 있다.
상기한 본 발명의 다른 목적을 실현하기 위한 일 실시예에 따른 컴퓨터로 판독 가능한 저장 매체에는, 상기 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법을 수행하기 위한 컴퓨터 프로그램이 기록되어 있다.
상기한 본 발명의 또 다른 목적을 실현하기 위한 일 실시예에 따른 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 장치는, 좌 영상(left image)과 우 영상(right image)이 한 쌍으로 구성된 양안 시차 영상을 입력으로 하는 딥 러닝(deep learning)을 통하여 초기 깊이 영상을 학습하는 딥 러닝부; 학습 결과에 따라 상기 양안 시차 영상에 대한 초기 거리맵을 생성하는 거리맵 형성부; 상기 좌 영상을 입력으로 하는 정성적 및 정량적 평가치가 최적화되는 가이디드 필터(Guided filter)를 생성하는 가이디드 필터링부; 및 상기 가이디드 필터 이용하여 상기 초기 거리맵과 상기 좌 영상을 가이디드 이미지 필터링하여 경계 부분이 재정의된 영상의 거리맵을 출력하는 경계 보정부;를 포함한다.
이와 같은 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법에 따르면, 가이디드 필터(Guided filter)라는 경계 처리 알고리즘을 이용하여 GA-Net(Guided Aggregation Network)에서 얻어낸 결과를 개선하였다.
다시 말해, GA-Net으로부터 얻어낸 거리맵 정보에 가이디드 필터(Guided filter) 기법을 활용하여 변위 지도(disparity map)의 경계 처리를 통하여 더욱 선명한 영상 분별에 따른 거리맵의 정확도와 객체 간의 분별성을 높일 수 있다.
이에 따라, 두 장의 양안 시차 영상으로부터 딥러닝 기술을 이용하여 깊이 영상(depth map)을 생성할 경우에 경계 부분이 뭉게지는 현상을 해결하여, 세밀한 경계를 이전보다 정확하게 처리할 수 있다.
도 1은 본 발명의 일 실시예에 따른 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 장치의 블록도이다.
도 2는 본 발명에 따라 데이터 셋을 이용한 학습 결과에 대한 평가를 진행한 출력 영상들의 예시이다.
도 3은 본 발명에 따라 도 2의 영상에 대해 입실론(epsilon) 파라미터의 변경에 따른 가이디드 필터를 갖는 실험 결과에 대한 도면이다.
도 4는 본 발명에 따라 도 2의 영상에 대해 반경(radius) 파라미터의 변경에 따른 가이디드 필터를 갖는 실험 결과에 대한 도면이다.
도 5는 본 발명에 따라 입실론(epsilon) 파라미터의 변경에 따른 번짐 현상을 비교한 도면이다.
도 6은 본 발명의 일 실시예에 따른 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법의 흐름도이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 장치의 블록도이다.
본 발명에 따른 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 장치(10, 이하 장치)는 GA-Net(Guided Aggregation Network)에서 얻어낸 결과와 원본 스테레오 이미지를 가이디드 필터(Guided filter)로 합성하여 깊이 영상의 세밀한 경계를 이전보다 정확하게 처리하기 위한 것이다.
본 발명에서는 스테레오 카메라를 통해서 얻어진 좌, 우 영상을 GA-Net을 통하여 거리맵을 생성한다. 생성된 거리맵을 이용하여 가이디드 필터 후처리를 이용하여 영상의 경계면을 살린다. 이 과정에서 필터의 파라미터는 radius와 epsilon으로, radius는 정사각형 윈도우의 반경에 따라 정해진다. 이 두 파라미터의 조합을 통하여 정성적 및 정량적 평가치가 가장 좋은 방향으로 최적화를 진행한다.
도 1을 참조하면, 본 발명에 따른 장치(10)는 딥 러닝부(110), 거리맵 형성부(300), 가이디드 필터링부(500) 및 경계 보정부(700)를 포함한다.
본 발명의 상기 장치(10)는 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선을 수행하기 위한 소프트웨어(애플리케이션)가 설치되어 실행될 수 있으며, 상기 딥 러닝부(110), 상기 거리맵 형성부(300), 상기 가이디드 필터링부(500) 및 상기 경계 보정부(700)의 구성은 상기 장치(10)에서 실행되는 상기 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선을 수행하기 위한 소프트웨어에 의해 제어될 수 있다.
상기 장치(10)는 별도의 단말이거나 또는 단말의 일부 모듈일 수 있다. 또한, 상기 딥 러닝부(110), 상기 거리맵 형성부(300), 상기 가이디드 필터링부(500) 및 상기 경계 보정부(700)의 구성은 통합 모듈로 형성되거나, 하나 이상의 모듈로 이루어 질 수 있다. 그러나, 이와 반대로 각 구성은 별도의 모듈로 이루어질 수도 있다.
상기 장치(10)는, 서버(server) 또는 엔진(engine) 형태일 수 있으며, 디바이스(device), 기구(apparatus), 단말(terminal), UE(user equipment), MS(mobile station), 무선기기(wireless device), 휴대기기(handheld device) 등 다른 용어로 불릴 수 있다. 상기 장치(10)는 이동성을 갖거나 고정될 수 있다.
상기 장치(10)는 운영체제(Operation System; OS), 즉 시스템을 기반으로 다양한 소프트웨어를 실행하거나 제작할 수 있다. 상기 운영체제는 소프트웨어가 장치의 하드웨어를 사용할 수 있도록 하기 위한 시스템 프로그램으로서, 안드로이드 OS, iOS, 윈도우 모바일 OS, 바다 OS, 심비안 OS, 블랙베리 OS 등 모바일 컴퓨터 운영체제 및 윈도우 계열, 리눅스 계열, 유닉스 계열, MAC, AIX, HP-UX 등 컴퓨터 운영체제를 모두 포함할 수 있다.
상기 딥 러닝부(110)는 좌 영상(left image)과 우 영상(right image)이 한 쌍으로 구성된 양안 시차 영상을 입력으로 하는 딥 러닝(deep learning)을 통하여 초기 깊이 영상을 학습한다. 상기 거리맵 형성부(300)는 학습 결과에 따라 상기 양안 시차 영상에 대한 초기 거리맵을 생성한다.
본 발명에서는 스테레오 카메라로 획득된 한 쌍의 영상을 GA-Net 통해 거리맵으로 변환하고, 후처리를 통하여 개선된 거리맵을 획득한다. GA-Net은 2019년 F. Zhang을 비롯해 옥스퍼드 대학교, 바이두 연구소에서 개발한 신경망으로, 최근 개발된 신경망 중 Scene Flow 데이터셋과 KITTI benchmarks에서 가장 뛰어난 성능을 보여주는 알고리즘이다.
GA-Net 알고리즘은 기존에 널리 쓰이던 cubic computational과 memory complexity의 3차원 convolution layer을 대체할 두 개의 레이어를 제시하고, 시간적인 면과 성능적인 면 모두에서 우수하다.
GA-Net은 Semi-Global Guided Aggregation(SGA) 레이어와 Local Guided Aggregation(LGA) 레이어로 이루어진 Guided Aggregation 레이어를 활용하여 에너지 함수를 최소화하는 딥 러닝(Deep-learning) 기반의 효율적인 깊이 추출 알고리즘이다.
이 때, SGA 레이어는 전체 영상에 대해 Semi-Global Matching을 미분 가능한 형태로 표현할 수 있고, LGA 레이어는 학습 가능한 필터(filter)를 삽입하여 얇은 구조물, 경계 등을 보정해 정확도를 높이고, down-sampling 과정에서의 정확도 손실을 회복할 수 있다(아래의 수학식 1).
[수학식 1]
Figure 112020080667216-pat00001
Semi-Global Guided Aggregation 레이어는 Semi-Global Matching(SGM)의 비용(cost) 함수를 변환하여 새로운 비용 함수를 아래의 수학식 2와 같이 정의한다.
[수학식 2]
Figure 112020080667216-pat00002
기존 함수의 단점은 hard-minimum selection 함수의 사용으로 학습에 어려움이 있었고, 사용자 설정 파라미터인
Figure 112020080667216-pat00003
를 사용함으로써 훈련이 불안정해지는 문제가 있었다. 또한, 모든 픽셀, 구역, 이미지에서 고정 cost aggregation과 penalty를 사용하여 신경망이 다양한 조건에 적응하지 못하도록 하였다.
이를 개선하기 위해 가중치 합 함수을 이용하여 정확도 손실여, 텍스쳐가 없는 영역에 대한 정확한 깊이 추출이 가능했고, 0과 음수 값을 회피할 수 있다(수학식 2). 파라미터의 경우, 고정 파라미터
Figure 112020080667216-pat00004
를 없애고 학습 파라미터
Figure 112020080667216-pat00005
를 이용하여 다양한 환경과 위치에서 촬영된 영상들에 대한 학습과 적응적 대응이 가능하다.
내부 함수에는 최소값이 아닌 최대값을 이용해 비용을 최소화하는 방향이 아닌, 확률(probability)을 최대로 하는 방향으로 학습하여 0과 음수값을 회피하는 방법으로 효율성을 높였다. 또한, SGM이 16방향 aggregation을 이용했다면, SGA는 4개(상, 하, 좌, 우), 또는 8개를 이용해 고효율의 알고리즘을 사용했다. 이러한 방법을 통해 SGM의 비용 함수가 지닌 단점을 해결하고 실제 훈련을 통해 새로 정의된 비용 함수에서 더 좋은 성능을 나타낸다.
그러나, 학습 도중 수학식 2의 좌변이 과도하게 커지는 문제가 발생할 가능성이 있다고 판단되어 이를 개선한 비용 함수에 대한 수학식 3을 정의한다.
[수학식 3]
Figure 112020080667216-pat00006
Figure 112020080667216-pat00007
새로운 비용 함수는 학습 가중치를 하나 추가하고, 모든 학습 가중치의 합이 1이 되도록 정규화 하여 비용의 발산을 억제하였다.
LGA 레이어는 cost volume 의 로컬 영역
Figure 112020080667216-pat00008
에 대해 필터링 처리를 하는 cost filter(수학식 4 및 수학식 5)을 local filer의 형태로 변환한다(수학식 6). local filer는 주변
Figure 112020080667216-pat00009
에 적용된 필터로, 총 세 층으로 이루어져 있고
Figure 112020080667216-pat00010
, 각각의 층마다 훈련 파라미터가 존재한다. 이는 먼저 서술된 SGA 레이어와 같은 형태이고, 값의 발산을 제한하기 위해 동일하게 정규화 과정을 거친다.
[수학식 4]
Figure 112020080667216-pat00011
[수학식 5]
Figure 112020080667216-pat00012
Figure 112020080667216-pat00013
정규화의 이유는 얇은 구조물, feathering 등 세세한 데이터의 정확성을 향상하기 위해 로컬 비용 필터(cost filter)를 정해 학습하는 신경층이다. 또한, 필터 자체를 훈련할 경우, 다운 샘플링(down sampling) 시 정확도 손실을 최소화하여 더욱 정확한 결과를 만들어낼 수 있다. 이를 위해 사용 가능한 필터로는 guided filter, bilateral filter, segment graph based image filter 등, 경계처리가 가능한 필터라면 훈련에 사용될 수 있다.
상기 가이디드 필터링부(500)는 상기 좌 영상을 입력으로 하는 정성적 및 정량적 평가치가 최적화되는 가이디드 필터(Guided filter)를 생성한다.
본 발명에서 사용된 필터는 가이디드 필터(guided filter)로, 출력 결과를 개선하기 위해 사용된 필터와는 개별의 필터이다. GA-Net을 훈련한 결과, 모든 레이어를 포함한 훈련 과정이 KITTI 2015로 훈련했을 경우 2.71%의 오차를 보여 GA-Net 이전 최고 성능의 신경망인 PSM-Net(2018)을 능가했다.
3차원 convolution layer을 25개 사용하는 PSM Net에 비해, GA-Net의 경우 3차원 convolution layer가 7개 이상만 되더라도 PSM Net보다 좋은 성능을 선보였다. 특히, 이 발명에서는 GA-Net의 SGA layer가 3차원 convolution layer보다 computational complexity가 약 100배 가량 효율적임을 입증하였다. 3차원 convolution layer의 복잡도가
Figure 112020080667216-pat00014
이라면, SGA layer의 경우 aggregation 방향 개수에 따라
Figure 112020080667216-pat00015
의 복잡도를 가지기 때문에, 이론적으로도 훨씬 효율적인 알고리즘이다.
결론적으로, GA-Net은 TESLA P40 GPU 환경에서 300×1000의 이미지를 초당 15~20개 가량 처리할 수 있음이 확인되었다. 이는 빠르게 작동하는 기존의 모델들과 비교했을 때 초당 5~10개 가량 느리지만, 정확도 측면에서 높은 이점을 가지고 있다.
본 발명에서 사용하는 가이디드 필터(Guided filter)는 영상 경계 처리를 위해 제안된 알고리즘으로, 입력된 이미지를 처리하는 과정에서 가이디드 이미지(guided image)(예를 들어, 입력 이미지)를 이용하여 경계를 보존하는 스무딩(smoothing)을 진행한다.
영상 처리에서의 스무딩은 노이즈를 비롯한 rapid data를 배제하고, 영상에서 특징점이나 패턴을 분석 및 포함하여 새로운 영상을 만드는 과정을 뜻한다. 가이디드 필터는 기존에 쓰이던 bilateral filter에 비해 경계에서 더 좋은 성능을 보이고, kernel 크기에 무관한 선형 시간에 처리할 수 있는 알고리즘으로 computer vision/graphics 분야에서 효율적이고 효과적이다.
상기 경계 보정부(700)는 상기 가이디드 필터 이용하여 상기 초기 거리맵과 상기 좌 영상을 가이디드 이미지 필터링하여 경계 부분이 재정의된 영상의 거리맵을 출력한다.
가이디드 필터(Guided filter)는 input image(p)와 guided image(I)를 필요로 한다. 결과인 output image의 출력 qI에 대한 가중치와 p의 곱으로 표현된다. 가이디드 필터는 로컬 필터(local filter)이기 때문에 qI에 대해 선형적으로 표현된다.
처리를 위한 윈도우(window)
Figure 112020080667216-pat00016
를 픽셀 k를 중심으로 한 정사각형 형태로 정의하면, output image의 픽셀 값이 정해진다. 이때,
Figure 112020080667216-pat00017
는 파라미터로, k에 따라 결정되기에 한
Figure 112020080667216-pat00018
에서는 아래의 수학식 6과 같이 일정한 값으로 존재한다.
[수학식 6]
Figure 112020080667216-pat00019
(for
Figure 112020080667216-pat00020
in all pixels) (
Figure 112020080667216-pat00021
)
q에서 edge를 가지기 위해서는 q, I의 선형성에 의해 I에서 선형성을 갖는 경우뿐이다. 이러한 특징에 의해 Image matting, Image super-resolution, Haze Removal 등의 영상 처리 기술에 효율적으로 작동함이 확인되어 있다.
파라미터 값인 (a, b)를 구하기 위해서 수학식 7의 해 q와 input image p의 차이를 최소화한다. 한 window 안에서의 p, q 차이를 고려한 비용(cost) 함수 E와 이를 최소화한 해는 선형 회귀성을 가진다. 이때, 은 a가 과도하게 커지는 것을 방지하기 위한 제한 상수이다.
Figure 112020080667216-pat00022
는 각각
Figure 112020080667216-pat00023
내부 I의 평균과 분산에 해당하고,
Figure 112020080667216-pat00024
는 각 윈도우의 픽셀 수,
Figure 112020080667216-pat00025
Figure 112020080667216-pat00026
내부 p의 평균을 의미한다(수학식 7).
[수학식 7]
Figure 112020080667216-pat00027
이미지 내의 모든 윈도우에 대해 적용하기 위해 윈도우가 일정한 크기면, 픽셀
Figure 112020080667216-pat00028
를 포함하는
Figure 112020080667216-pat00029
는 하나가 아니므로, 각 픽셀이 가진 각 윈도우의 파라미터 값이 다르다. 이를 해결하기 위해
Figure 112020080667216-pat00030
를 포함하는 윈도우가 가진 파라미터의 산술 평균값을 출력으로 사용하도록 한다(수학식 8). 이때,
Figure 112020080667216-pat00031
가 위치에 따라 다르기 때문에, ∇q, ∇I의 선형성이 사라지게 된다. 그러나, I가 경계점 근처라면 변화가 급격하기 때문에
Figure 112020080667216-pat00032
의 변화량이 ∇I에 비해 작다고 근사할 수 있고(∇q
Figure 112020080667216-pat00033
Figure 112020080667216-pat00034
I), 결국 경계점 근처의 I의 급격한 변화가 q에 반영된다는 것으로 해석할 수 있다.
다시 말해, 이론적으로 가이디드 필터(guided filter)가 경계 처리에서 유리한 알고리즘이라 생각할 수 있고, 실제로 구현한 결과 또한 bilateral filter과 같은 기존의 방법들보다 경계를 더 정확하게 처리함을 확인할 수 있다.
[수학식 8]
Figure 112020080667216-pat00035
Figure 112020080667216-pat00036
이하에서는 본 발명의 성능을 검증하기 위해 진행한 실험 결과에 대해 기술한다. 먼저, 실험 환경을 설명하면, GA-Net을 직접 훈련하고 평가하기 위해 GA-Net의 소스 코드를 아래의 표 1과 같이 사용하였다.
CPU Core i7-8700(3.2GHz)
RAM Samsung DDR4 16GB PC4-21300
GPU GeForce RTX 2080 Ti BLACK EDITION OC D6 11GB
훈련에 사용된 데이터 셋은 스테레오 비젼(Stereo Vision) 분야에서 가장 많이 사용되고 인정된 데이터 셋인 KITTI Vision Benchmark Suite데이터 셋을 사용하였다. 데이터 셋을 이용한 훈련 이후, 이를 평가하기 위한 test data인 Middlebury Stereo Dataset을 다운로드 받아 10개의 test data에 대한 평가를 진행해 output 영상을 도 2와 같이 획득하였다.
본 실험은 GA-Net을 통해 얻어낸 Middlebury Stereo Test Dataset 10장의 이미지를 guided filter의 파라미터를 변경하면서 원본 영상과 함께 통과시켜 결과를 얻어내었다. 10개의 테스트 데이터 셋에 대한 수많은 파라미터를 측정하였다. 가이디드 필터의 윈도우 크기인 r의 경우, 2, 4, 8, 12, 16, 20, 24, 28, 32, 36, 40, 44, 48로 변경하며 데이터를 얻어내었고, 입실론(epsilon)의 경우, 0.4부터 2배씩 102.4까지 설정하여 데이터를 얻어내었다.
반경(radius)의 변화에 따른 결과는 입실론 값은
Figure 112020080667216-pat00037
으로 고정하고 radius는 2, 4, 8, 12, 16, 20, 24, 28, 32, 36, 40, 44, 48로 변경하며 총 13번 실험했다.
도 3을 참조하면, epsilon의 값이 커질수록 배경 depth와 객체 내부의 depth 사이의 차이가 커지는 것을 확인할 수 있었다. 또한, epsilon 값을 크게 했을 때 경계가 적은 노이즈를 가졌으며, 진하고 부드럽게 나타났다. 특히, 배경과 물체의 depth값 차이가 작은 도 3(b) 영상의 경우에는 epsilon이 51.2 이상의 큰 값을 가질 때에만 육안으로 차이를 확인할 수 있었다. 반면 다른 두 영상의 경우에는 전체 epsilon 값에 대해 육안으로 확인 가능한 depth의 차이가 나타났다.
도 4는 3개의 영상에 radius를 변경하여 guided filter를 적용한 실험 결과 영상이다. 도 4의 (a), (c), (f)의 gray scale 영상에서 보여지듯이 radius가 커질수록 물체의 경계면이 뚜렷해지는 것을 볼 수 있다. 반면, 도 4의 (b), (d), (g)의 depth map의 경우 radius가 증가 할수록 depth의 신뢰도가 떨어진다.
이는 radius 가 커짐에 따라 디테일과 edge가 개선되지만 영상 속 사물과 배경에 대한 구분이 명확하게 이루어지지 않아서 depth가 제대로 측정되지 않는 현상이 나타난다. 모든 실험 영상의 Average Error의 평균은 필터 적용 전 13.546, 적용 후 11.463이 측정되었으며, 필터를 적용함으로써 16.3% 가 감소하였다.
epsilon을 일정하게 유지하고 radius를 증가시킨 결과를 gray filter 이미지로 관찰한 결과, 이미지의 절대적인 화소 값은 input image값에 근접하면서 edge는 guided image의 edge를 따르는 것을 확인할 수 있었다. 이렇게
Figure 112020080667216-pat00038
에서
Figure 112020080667216-pat00039
Figure 112020080667216-pat00040
가 여러 개의 window들에 대해서 대체로 일정한 값을 가질 때 설명될 수 있는데, radius가 충분히 커져 window의 면적 또한 넓어지면, 단일의 픽셀을 포함하는 window들에 포함되는 픽셀들이 대체로 비슷해져 픽셀들에 대해서 상관 계수들이 radius가 작을 때에 비해서 일정한 값을 유지하게 되는 것이다.
결과에서 볼 수 있듯이, radius가 작을 때에는 비용함수
Figure 112020080667216-pat00041
에 대해서 단일의 픽셀을 포함하는 window들에서
Figure 112020080667216-pat00042
의 값이
Figure 112020080667216-pat00043
에 가까워져 비용 함수를 줄이고자 하기 때문에 출력 이미지는 input image인 p의 edge 양상을 갖게 된다.
한편, radius를 유지하며 epsilon을 증가시키면,
Figure 112020080667216-pat00044
는 감소하며, 그에 따라
Figure 112020080667216-pat00045
는 증가하게 된다. 그 결과 출력 값에서는 I의 계수는 감소하고, 상수항의 크기는 커지며
Figure 112020080667216-pat00046
의 값과 가까워지기에, 출력 값의 화소 값은 대체적으로 input image에 blur filter을 적용시킨 것과 유사한 효과를 낸다.
다만, 단순한 blur filter와의 차이점이라면 guided image 가 가지고 있던 선명한 edge는 비교적 유지하고 있다는 점인데,
Figure 112020080667216-pat00047
가 작아지되 0까지 이르지는 못하기 때문에, I의 계수가 작게 존재하여 기존의 I의 gradient가 epsilon이 컸을 때보다 epsilon이 작을 때 q의 gradient에 더 작게 기여하게 되는 것으로 분석된다.
결론적으로, 결과로 제시된 이미지들을 보게 되면, depth fusion의 결과인 input image와 원본 이미지인 guided image의 edge의 괴리가 크게 나타나는 곳에서는 이미지의 번짐(Halo)가 나타남을 확인할 수 있었다. Guided image filtering에 요구되는 두 가지 파라미터 radius와 epsilon을 조정하며 depth 수치의 신뢰도와 이미지 속 피사체의 인식률을 동시에 보존할 수 있도록 할 수 있다. depth와 인식률, 두 가지 정보에 대해 필요로 하는 가치 비중을 최대한으로 하도록 radius와 epsilon을 조율함으로써 이미지를 보정할 수 있다.
Radius가 커질수록 guided image의 반영 비율이 높아져 인식률이 높아지지만 depth 수치가 부적절한 위치까지 번져 depth 결과물로써의 신뢰도가 감소하게 된다. 또한, 도 5와 같이 epsilon을 적절한 수치로 높이는 것은 큰 radius로 인해 나타난 번짐 현상을 줄이는 효과를 가진다.
이에 따라, Guided image filtering의 과정을 거친 depth fusion image의 결과물은 단일의 시점으로 피사체와 시점까지의 거리와 함께 해당 피사체에 대한 높은 인식률을 유지시켜 준다. 따라서 입체감을 요구하는 영상에서 단순한 Stereo Image로 이루어진 영상보다 인간이 시각적으로 정보를 수용할 때, 더 직관적이고 정량적인 이미지를 더 적은 양의 데이터 전송으로 주고받을 수 있게 한다.
본 발명에 따라 인간이 원격 제어하는 드론이 시야로써 제공하는 이미지를 가공하여 장애물의 근접 여부를 더 직관적으로 파악할 수 있게 도와줄 수 있다. 또한, 대용량의 이미지를 자유롭게 전송할 수 없는 행성 착륙 탐사선 등의 이미지 처리 과정으로 활용하는 등 depth fusion의 활용 가능성이 대폭 확대되는 것을 기대할 수 있을 것이다.
도 6은 본 발명의 일 실시예에 따른 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법의 흐름도이다.
본 실시예에 따른 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법은, 도 1의 장치(10)와 실질적으로 동일한 구성에서 진행될 수 있다. 따라서, 도 1의 장치(10)와 동일한 구성요소는 동일한 도면부호를 부여하고, 반복되는 설명은 생략한다.
또한, 본 실시예에 따른 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법은 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선을 수행하기 위한 소프트웨어(애플리케이션)에 의해 실행될 수 있다.
본 발명에서는 스테레오 카메라를 통해서 얻어진 좌, 우 영상을 GA-Net을 통하여 거리맵을 생성한다. 생성된 거리맵을 이용하여 가이디드 필터 후처리를 이용하여 영상의 경계면을 살린다. 이 과정에서 필터의 파라미터는 radius와 epsilon으로, radius는 정사각형 윈도우의 반경에 따라 정해진다. 이 두 파라미터의 조합을 통하여 정성적 및 정량적 평가치가 가장 좋은 방향으로 최적화를 진행한다.
도 6을 참조하면, 본 실시예에 따른 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법은, 좌 영상(left image)과 우 영상(right image)이 한 쌍으로 구성된 양안 시차 영상(예를 들어, 스테레오 영상)을 입력으로 한다(단계 S10 및 단계 S20).
입력 받은 한 쌍의 좌 영상(left image)과 우 영상(right image)을 학습 데이터로 하는 딥 러닝(deep learning)을 통하여 초기 깊이 영상을 학습한다(단계 S30).
일 실시예에서, 딥 러닝은 SGA(Semi-Global Guided Aggregation) 레이어와 LGA(Local Guided Aggregation) 레이어를 포함하는 GA(Guided Aggregation) 레이어를 이용하여, 에너지 함수를 최소화하는 깊이 추출 알고리즘인 GA-Net(Guided Aggregation Network)를 통해 수행될 수 있다.
학습 결과에 따라 상기 양안 시차 영상에 대한 초기 거리맵을 생성한다(단계 S50).
상기 좌 영상을 입력으로 하는 정성적 및 정량적 평가치가 최적화되는 가이디드 필터(Guided filter)를 생성한다(단계 S70).
상기 가이디드 필터(Guided filter)를 생성하는 단계는, 입력된 영상을 처리하는 과정에서 가이디드 영상(guided image)을 이용하여 영상의 경계를 보존하는 스무딩(smoothing) 단계를 포함할 수 있다.
상기 가이디드 필터(Guided filter)는 출력 영상이 입력 영상에 대해 선형적으로 표현되는 로컬 필터(local filter)일 수 있고, 정사각형 윈도우(window)의 변의 길이에 따라 정해지는 반경(radius) 및 입실론(epsilon)의 파라미터를 가질 수 있다.
상기 가이디드 필터 이용하여 상기 초기 거리맵과 상기 좌 영상을 가이디드 이미지 필터링하여 경계 부분이 재정의된 영상의 거리맵을 출력한다(단계 S90). 상기 출력 영상은 가이디드 영상(guided image)에 대한 가중치와 입력 영상의 곱으로 표현될 수 있다.
상기 경계 부분이 재정의된 영상의 거리맵을 출력하는 단계는, 픽셀 k를 중심으로 하는 정사각형 형태로 윈도우(wk)를 정의하여, 출력 영상의 픽셀 값을 결정할 수 있다.
구체적으로, 각 윈도우(window) 내에서 입력 영상과 출력 영상의 차이에 따른 비용(cost) 함수와 상기 비용 함수를 최소화한 해의 선형 회귀 관계 및 제한 상수를 이용할 수 있다.
본 발명에 따른 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법에 따르면, 가이디드 필터(Guided filter)라는 경계 처리 알고리즘을 이용하여 GA-Net(Guided Aggregation Network)에서 얻어낸 결과를 개선하였다.
다시 말해, GA-Net으로부터 얻어낸 거리맵 정보에 가이디드 필터(Guided filter) 기법을 활용하여 변위 지도(disparity map)의 경계 처리를 통하여 더욱 선명한 영상 분별에 따른 거리맵의 정확도와 객체 간의 분별성을 높일 수 있다.
이에 따라, 두 장의 양안 시차 영상으로부터 딥러닝 기술을 이용하여 깊이 영상(depth map)을 생성할 경우에 경계 부분이 뭉게지는 현상을 해결하여, 세밀한 경계를 이전보다 정확하게 처리할 수 있다.
이와 같은, 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.
상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.
프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
본 발명은 GA-Net에서 얻어낸 결과와 원본 스테레오 이미지를 가이디드 필터(Guided filter)로 합성하여 세밀한 경계를 이전보다 정확하게 처리할 수 있는 방법을 제시하였고, 실험 결과 GA-Net에서 얻어진 결과에 비해 Guided filter를 사용하여 평균 오차가 16.3% 감소하였다. 이에 따라, 두 대의 카메라의 양안 시차를 이용하여 깊이를 판별하는 스테레오 매칭(Stereo matching)이 활용되는 자율주행자동차, 의료 분야, AR, VR, HMD 등 다양한 영상 분야에서 유용하게 적용될 수 있을 것으로 예상된다.
10: 깊이 영상 결과 개선 장치
100: 딥 러닝부
300: 거리맵 형성부
500: 가이디드 필터링부
700: 경계 보정부

Claims (10)

  1. 좌 영상(left image)과 우 영상(right image)이 한 쌍으로 구성된 양안 시차 영상을 입력으로 하는 딥 러닝(deep learning)을 통하여 초기 깊이 영상을 학습하는 단계;
    학습 결과에 따라 상기 양안 시차 영상에 대한 초기 거리맵을 생성하는 단계;
    상기 좌 영상을 입력으로 하는 정성적 및 정량적 평가치가 최적화되는 가이디드 필터(Guided filter)를 생성하는 단계; 및
    상기 가이디드 필터 이용하여 상기 초기 거리맵과 상기 좌 영상을 가이디드 이미지 필터링하여 경계 부분이 재정의된 영상의 거리맵을 출력하는 단계;를 포함하고,
    상기 경계 부분이 재정의된 영상의 거리맵을 출력하는 단계는,
    각 윈도우(window) 내에서 입력 영상과 출력 영상의 차이에 따른 비용(cost) 함수와 상기 비용 함수를 최소화한 해의 선형 회귀 관계 및 제한 상수를 이용하는, 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법.
  2. 제1항에 있어서, 상기 초기 깊이 영상을 학습하는 단계는,
    SGA(Semi-Global Guided Aggregation) 레이어와 LGA(Local Guided Aggregation) 레이어를 포함하는 GA(Guided Aggregation) 레이어를 이용하여, 에너지 함수를 최소화하는 깊이 추출 알고리즘인 GA-Net(Guided Aggregation Network)를 통해 딥 러닝을 수행하는, 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법.
  3. 제1항에 있어서, 상기 가이디드 필터(Guided filter)를 생성하는 단계는,
    입력된 영상을 처리하는 과정에서 가이디드 영상(guided image)을 이용하여 영상의 경계를 보존하는 스무딩(smoothing) 단계;를 포함하는, 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법.
  4. 제1항에 있어서, 상기 가이디드 필터(Guided filter)를 생성하는 단계는,
    출력 영상이 입력 영상에 대해 선형적으로 표현되는 로컬 필터(local filter)를 생성하는, 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법.
  5. 제1항에 있어서, 상기 가이디드 필터(Guided filter)를 생성하는 단계는,
    정사각형 윈도우(window)의 변의 길이에 따라 정해지는 반경(radius) 및 입실론(epsilon)의 파라미터를 갖는 가이디드 필터를 생성하는, 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법.
  6. 제1항에 있어서, 상기 경계 부분이 재정의된 영상의 거리맵을 출력하는 단계는,
    픽셀 k를 중심으로 하는 정사각형 형태로 윈도우(wk)를 정의하여, 출력 영상의 픽셀 값을 결정하는, 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법.
  7. 삭제
  8. 제1항에 있어서, 상기 경계 부분이 재정의된 영상의 거리맵을 출력하는 단계는,
    상기 출력 영상은 가이디드 영상(guided image)에 대한 가중치와 입력 영상의 곱으로 표현되는, 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법.
  9. 제1항에 있어서,
    상기 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 저장 매체.
  10. 좌 영상(left image)과 우 영상(right image)이 한 쌍으로 구성된 양안 시차 영상을 입력으로 하는 딥 러닝(deep learning)을 통하여 초기 깊이 영상을 학습하는 딥 러닝부;
    학습 결과에 따라 상기 양안 시차 영상에 대한 초기 거리맵을 생성하는 거리맵 형성부;
    상기 좌 영상을 입력으로 하는 정성적 및 정량적 평가치가 최적화되는 가이디드 필터(Guided filter)를 생성하는 가이디드 필터링부; 및
    상기 가이디드 필터 이용하여 상기 초기 거리맵과 상기 좌 영상을 가이디드 이미지 필터링하여 경계 부분이 재정의된 영상의 거리맵을 출력하는 경계 보정부;를 포함하고,
    상기 경계 보정부는.
    각 윈도우(window) 내에서 입력 영상과 출력 영상의 차이에 따른 비용(cost) 함수와 상기 비용 함수를 최소화한 해의 선형 회귀 관계 및 제한 상수를 이용하는 것을 포함하는, 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 장치.
KR1020200095980A 2020-07-31 2020-07-31 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법, 이를 수행하기 위한 기록 매체 및 장치 KR102334332B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200095980A KR102334332B1 (ko) 2020-07-31 2020-07-31 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법, 이를 수행하기 위한 기록 매체 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200095980A KR102334332B1 (ko) 2020-07-31 2020-07-31 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법, 이를 수행하기 위한 기록 매체 및 장치

Publications (1)

Publication Number Publication Date
KR102334332B1 true KR102334332B1 (ko) 2021-12-02

Family

ID=78866936

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200095980A KR102334332B1 (ko) 2020-07-31 2020-07-31 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법, 이를 수행하기 위한 기록 매체 및 장치

Country Status (1)

Country Link
KR (1) KR102334332B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023224326A1 (ko) * 2022-05-18 2023-11-23 삼성전자 주식회사 깊이 정보를 획득하는 증강 현실 디바이스 및 그 동작 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101331052B1 (ko) 2009-12-21 2013-11-22 한국전자통신연구원 스테레오 매칭 결과를 개선하는 장치, 상기 장치를 이용한 스테레오 매칭 결과를 개선 방법 및 스테레오 매칭 결과를 수신하는 시스템
KR20170091496A (ko) 2016-02-01 2017-08-09 삼성전자주식회사 양안 시차 영상의 처리 방법 및 장치
KR101976290B1 (ko) * 2017-12-13 2019-05-07 연세대학교 산학협력단 깊이 정보 생성을 위한 학습 장치 및 방법과 깊이 정보 생성 장치 및 방법 그리고 이에 관한 기록 매체

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101331052B1 (ko) 2009-12-21 2013-11-22 한국전자통신연구원 스테레오 매칭 결과를 개선하는 장치, 상기 장치를 이용한 스테레오 매칭 결과를 개선 방법 및 스테레오 매칭 결과를 수신하는 시스템
KR20170091496A (ko) 2016-02-01 2017-08-09 삼성전자주식회사 양안 시차 영상의 처리 방법 및 장치
KR101976290B1 (ko) * 2017-12-13 2019-05-07 연세대학교 산학협력단 깊이 정보 생성을 위한 학습 장치 및 방법과 깊이 정보 생성 장치 및 방법 그리고 이에 관한 기록 매체

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
A. Geiger, P. Lenz and R. Urtasun, "Are we ready for autonomous driving? the KITTI vision benchmark suite," IEEE Conference on Computer Vision and Pattern Recognition, pp.3354-3361, 2012.
CVPR 2019 *
European conference on computer vision, 2010 *
F. Zhang, V. Prisacariu, R. Yang, Philip H. S. Torr, "Ga-net: Guided aggregation net for end-to-end stereo matching," IEEE Conference on Computer Vision and Pattern Recognition, p. 185-194, 2019.
N. Mayer, E. Ilg, P. Hausser, P. Fischer, D. Cremers, A. Dosovitskiy and T. Brox., "A large dataset to train convolutional networks for disparity, optical flow and scene flow estimation," IEEE Conference on Computer Vision and Pattern Recognition, pp.483-499, 2016.
비특허 1, European conference on computer vision, 2010*
비특허 3, CVPR 2019*

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023224326A1 (ko) * 2022-05-18 2023-11-23 삼성전자 주식회사 깊이 정보를 획득하는 증강 현실 디바이스 및 그 동작 방법

Similar Documents

Publication Publication Date Title
US10839535B2 (en) Systems and methods for providing depth map information
US10462445B2 (en) Systems and methods for estimating and refining depth maps
Bloesch et al. Codeslam—learning a compact, optimisable representation for dense visual slam
US10353271B2 (en) Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
CN110473137B (zh) 图像处理方法和装置
US9262815B2 (en) Algorithm for minimizing latent sharp image cost function and point spread function cost function with a spatial mask in a regularization term
US8385630B2 (en) System and method of processing stereo images
US9092890B2 (en) Occlusion-aware reconstruction of three-dimensional scenes from light field images
US10148873B2 (en) Method and system for motion adaptive fusion of optical images and depth maps acquired by cameras and depth sensors
CN106056553B (zh) 基于紧框架特征字典的图像修复方法
US10013741B2 (en) Method for deblurring video using modeling blurred video with layers, recording medium and device for performing the method
CN116664450A (zh) 基于扩散模型的图像增强方法、装置、设备及存储介质
CN111223059B (zh) 一种基于引导滤波器的鲁棒深度图结构重建和去噪方法
CN113362338B (zh) 铁轨分割方法、装置、计算机设备和铁轨分割处理***
CN103679680B (zh) 立体匹配方法和***
KR102162451B1 (ko) 학습네트워크 기반의 비디오 보간 방법 및 비디오 보외 방법
Pushpalwar et al. Image inpainting approaches-a review
US11367206B2 (en) Edge-guided ranking loss for monocular depth prediction
KR102334332B1 (ko) 가이디드 필터링을 이용한 딥러닝 네트워크 기반 깊이 영상 결과 개선 방법, 이를 수행하기 위한 기록 매체 및 장치
CN105096249A (zh) 图像处理方法和装置
CN113177956B (zh) 一种面向无人机遥感影像的语义分割方法
Sharma et al. A novel 3d-unet deep learning framework based on high-dimensional bilateral grid for edge consistent single image depth estimation
CN114078149A (zh) 一种图像估计方法、电子设备及存储介质
US20030095719A1 (en) Image simplification using a robust reconstruction filter
Thapa et al. Learning to remove refractive distortions from underwater images

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant