KR102206792B1

KR102206792B1 - 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 방법, 이를 수행하기 위한 기록 매체 및 장치

Info

Publication number: KR102206792B1
Application number: KR1020190175355A
Authority: KR
Inventors: 고성제; 엄광현; 조성진
Original assignee: 고려대학교 산학협력단
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2021-01-22

Abstract

병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 방법은, 입력된 영상에 대해 미리 설정된 수만큼의 합성곱(convolution) 연산을 수행하여 특징 맵을 생성하는 단계; 피라미드(Spatial pyramid pooling) 모듈을 통해 상기 특징 맵을 서로 다른 스케일을 갖도록 다운 사이징하여 n층의 피라미드 특징 맵들을 생성하는 단계; n개의 MSCA(multi-scale context aggregation) 모듈을 통해 서로 다른 스케일을 갖는 n층의 피라미드 특징 맵들을 각 해당 층의 고유 스케일로 변환하는 단계; 및 상기 각 MSCA 모듈로부터 출력되는 특징 맵들의 정보를 통합하여 하나의 영상 데이터로 출력하는 단계;를 포함한다. 이에 따라, 영상 내에 다양한 스케일을 고려하여 잡음 제거 성능이 높을 뿐만 아니라 불필요한 아티팩트들을 감소시켜 우수한 품질의 영상을 제공할 수 있다.

Description

병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 방법, 이를 수행하기 위한 기록 매체 및 장치{METHOD FOR IMAGE DENOISING USING PARALLEL FEATURE PYRAMID NETWORK, RECORDING MEDIUM AND DEVICE FOR PERFORMING THE METHOD}

본 발명은 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 방법, 이를 수행하기 위한 기록 매체 및 장치에 관한 것으로서, 더욱 상세하게는 합성곱 신경망(Convolutional Neural Network, CNN) 중 DnCNN(DeNoise CNN)을 기반으로 영상의 잡음 제거 성능을 향상시키는 기술에 관한 것이다.

[국가지원 연구개발에 대한 설명]

본 연구는 2019년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구이다(No. 2014-3-00077, 대규모 실시간 비디오 분석에 의한 전역적 다중 관심객체 추적 및 상황 예측 기술 개발).

영상 내 잡음 제거는 카메라를 활용하는 장비에서 필수적인 기술이다. 카메라 센서들이 많이 발전하고 있지만 여전히 이미지 획득 과정에서 영상에 잡음이 섞이는 것은 불가피하다. 따라서, 영상의 잡음을 제거하는 기술은 카메라의 이미지 신호 처리 모듈에도 적용되기도 한다.

영상 내 잡음 제거 기술에서 가장 중요한 점은 영상의 디테일을 유지하면서 영상의 잡음만 제거하는 것이다. 잡음 제거에만 신경을 쓴다면 영상의 디테일이 사라져버려 자칫 흐릿한 영상이 되어버릴 수 있다.

최근에는 영상의 활용도가 매우 높아지고 있고 영상을 활용한 다양한 기술이 발전하고 있기 때문에 깨끗한 영상을 얻는 것의 중요성은 더욱더 높아지고 있다.

영상 내 잡음 제거를 위해 수십년 전부터 다양한 기술들이 연구되었다. 이러한 기법들은 영상의 잡음을 제거하고 디테일은 보존하는 필터를 만들어 영상에 적용시키기도 하고 최적화 기법을 통해 잡음을 제거하기도 한다.

최근에는 합성곱 신경망(Convolutional Neural Network, CNN)을 이용하여 영상의 잡음 제거 성능을 향상시키고 있다. DnCNN(DeNoise CNN)은 CNN 기반 영상 잡음 네트워크 중 가장 대표적이다.

DnCNN은 배치 정규화(Batch Normalization)과 잔차 학습(residual learning)을 활용한다. 잔차 학습을 통해 네트워크는 잡음이 섞여있는 영상에서 깨끗한 영상을 뺀 차이를 학습한다. 이 과정을 통해 네트워크는 잡음이 섞여있는 영상에서 영상의 내용물들을 지우고 잡음 성분만 남긴다. DnCNN은 좋은 성능을 보이기 때문에 널리 활용되고 있는 기법이다.

한편, DnCNN은 단일 스케일의 특징 맵을 사용해 영상 내 잡음을 제거한다. 그러나, 영상에는 다양한 스케일의 내용들이 있기 때문에 단일 스케일의 특징 맵은 이런 영상의 특징을 모두 담아내기 어렵다는 한계가 있다.

US 9,984,325 B1 JP 6103243 B2 KR 10-1938945 B1

K.Zhang,W.Zuo,Y.Chen,D.Meng,andL.Zhang,,"Beyond a Gaussian denoiser: Residual learning of deep CNN for image denoising," IEEE Trans. on Image Process., vol. 26, no. 7, pp. 3142-3155, July 2017 K. He, X. Zhang, S. Ren, and J. Sun, "Spatial pyramid pooling in deep convolutional network for visual recognition," in Proc. Eur. Conf. Comput. Vis., 2014, pp. 346-361 S.-W. Kim, H.-K Kook, J.-Y. Sun, M.-C. Kang, and S.-Jea Ko, "Parallel feature pyramid network for object detection," in Proc. Eur. Conf. Comput. Vis., 2018, pp. 234-350

이에, 본 발명의 기술적 과제는 이러한 점에서 착안된 것으로 본 발명의 목적은 영상 내 다양한 스케일을 반영하기 위해 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 방법을 제공하는 것이다.

본 발명의 다른 목적은 상기 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 기록 매체를 제공하는 것이다.

본 발명의 또 다른 목적은 상기 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 방법을 수행하기 위한 장치를 제공하는 것이다.

상기한 본 발명의 목적을 실현하기 위한 일 실시예에 따른 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 방법은, 입력된 영상에 대해 미리 설정된 수만큼의 합성곱(convolution) 연산을 수행하여 특징 맵을 생성하는 단계; 피라미드(Spatial pyramid pooling) 모듈을 통해 상기 특징 맵을 서로 다른 스케일을 갖도록 다운 사이징하여 n층의 피라미드 특징 맵들을 생성하는 단계; n개의 MSCA(multi-scale context aggregation) 모듈을 통해 서로 다른 스케일을 갖는 n층의 피라미드 특징 맵들을 각 해당 층의 고유 스케일로 변환하는 단계; 및 상기 각 MSCA 모듈로부터 출력되는 특징 맵들의 정보를 통합하여 하나의 영상 데이터로 출력하는 단계;를 포함한다.

본 발명의 실시예에서, 상기 n층의 피라미드 특징 맵들을 각 해당 층의 고유 스케일로 변환하는 단계는, 각 MSCA 모듈에서 서로 다른 스케일을 갖는 n층의 피라미드 특징 맵들을 각각 합성곱 연산하는 단계; 상기 합성곱 연산된 각 특징 맵들을 각 해당 층의 고유 스케일로 변환하는 단계; 상기 고유 스케일로 변환된 특징 맵들의 접합(concatenation) 연산을 수행하는 단계; 및 상기 접합 연산된 특징 맵을 합성곱 연산하여 정제하는 단계;를 포함할 수 있다.

본 발명의 실시예에서, 상기 각 MSCA 모듈로부터 출력되는 특징 맵들의 정보를 통합하여 하나의 영상 데이터로 출력하는 단계는, 상기 각 MSCA 모듈로부터 출력되는 특징 맵을 기준 스케일로 변환하는 단계; 상기 기준 스케일로 변환된 특징 맵들의 접합(concatenation) 연산을 수행하는 단계; 상기 접합 연산된 특징 맵을 미리 설정된 수만큼 합성곱 연산하는 단계; 및 상기 합성곱 연산된 특징 맵을 가산 연산하여 출력하는 단계;를 포함할 수 있다.

본 발명의 실시예에서, 상기 n층의 피라미드 특징 맵들을 각 해당 층의 고유 스케일로 변환하는 단계는, 상기 입력된 영상의 크기가

인 경우,

(여기서, n은 피라미드의 층 수이며, 1층은 n=0으로 정의됨)의 크기를 갖는 특징 맵들을 생성할 수 있다.

본 발명의 실시예에서, 상기 n층의 피라미드 특징 맵들을 생성하는 단계는, 상기 입력된 영상과 동일한 스케일을 갖는 제1 피라미드 특징 맵을 생성하는 단계; 상기 제1 피라미드 특징 맵을 다운 사이징하여 상기 입력된 영상의 1/2 스케일을 갖는 제2 피라미드 특징 맵을 생성하는 단계; 및 상기 제2 피라미드 특징 맵을 다운 사이징하여 상기 입력된 영상의 1/4 스케일을 갖는 제3 피라미드 특징 맵을 생성하는 단계;를 포함할 수 있다.

본 발명의 실시예에서, 상기 n층의 피라미드 특징 맵들을 각 해당 층의 고유 스케일로 변환하는 단계는, 상기 제1 피라미드 특징 맵의 합성곱 연산 후 다운 사이징하는 단계; 상기 제2 피라미드 특징 맵의 합성곱 연산을 수행하는 단계; 및 상기 제3 피라미드 특징 맵의 합성곱 연산 후 업 사이징하는 단계;를 포함할 수 있다.

본 발명의 실시예에서, 상기 n층의 피라미드 특징 맵들을 각 해당 층의 고유 스케일로 변환하는 단계는, 다운 사이징된 제1 피라미드 특징 맵, 제2 피라미드 특징 맵 및 업 사이징된 제3 피라미드 특징 맵의 접합(concatenation) 연산을 수행하는 단계; 및 상기 접합 연산된 특징 맵을 합성곱 연산하여 정제하는 단계;를 포함할 수 있다.

본 발명의 실시예에서, 상기 각 MSCA 모듈로부터 출력되는 특징 맵들의 정보를 통합하여 하나의 영상 데이터로 출력하는 단계는, 상기 각 MSCA 모듈로부터 출력되는 특징 맵을 필요에 따라 업 사이징하는 단계; 상기 업 사이징된 특징 맵들의 접합(concatenation) 연산을 수행하는 단계; 상기 접합 연산된 특징 맵을 미리 설정된 수만큼 합성곱 연산하는 단계; 및 상기 합성곱 연산된 특징 맵을 가산 연산하여 출력하는 단계;를 포함할 수 있다.

상기한 본 발명의 다른 목적을 실현하기 위한 일 실시예에 따른 컴퓨터로 판독 가능한 저장 매체에는, 상기 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 방법을 수행하기 위한 컴퓨터 프로그램이 기록되어 있다.

상기한 본 발명의 또 다른 목적을 실현하기 위한 일 실시예에 따른 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 장치는, 입력된 영상에 대해 미리 설정된 수만큼의 합성곱(convolution) 연산을 수행하여 특징 맵을 생성하는 특징 맵 생성부; 상기 특징 맵을 서로 다른 스케일을 갖도록 다운 사이징하여 n층의 피라미드 특징 맵들을 생성하는 피라미드(Spatial pyramid pooling) 모듈; 서로 다른 스케일을 갖는 n층의 피라미드 특징 맵들을 각 해당 층의 고유 스케일로 변환하는 n개의 MSCA(multi-scale context aggregation) 모듈; 및 상기 각 MSCA 모듈로부터 출력되는 특징 맵들의 정보를 통합하여 하나의 영상 데이터로 출력하는 융합부;를 포함한다.

본 발명의 실시예에서, 상기 n개의 MSCA의 각 MSCA 모듈은, 서로 다른 스케일을 갖는 n층의 피라미드 특징 맵들을 각각 합성곱 연산하고, 상기 합성곱 연산된 각 특징 맵들을 다운 사이징 또는 업 사이징하여 각 해당 층의 고유 스케일로 변환할 수 있다.

본 발명의 실시예에서, 상기 n개의 MSCA의 각 MSCA 모듈은, 상기 각 해당 층의 고유 스케일로 변환된 특징 맵들을 접합(concatenation) 연산 및 합성곱 연산하여 정제할 수 있다.

본 발명의 실시예에서, 상기 융합부는, 상기 각 MSCA 모듈로부터 출력되는 특징 맵을 업 사이징하여 기준 스케일로 변환하고, 특징 맵들을 접합(concatenation) 연산 및 합성곱 연산한 후 가산 연산하여 출력할 수 있다.

이와 같은 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 방법에 따르면, 영상 내에 다양한 스케일을 고려하여 잡음 제거 성능이 높을 뿐만 아니라 불필요한 아티팩트들을 감소시켜 우수한 품질의 영상을 제공할 수 있다.

도 1은 본 발명의 일 실시예에 따른 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 장치의 블록도이다.
도 2는 일반적인 DnCNN의 네트워크 구조를 보여주는 개념도이다.
도 3은 도 1의 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 장치의 구체적인 구성도이다.
도 4는 도 3의 MSCA 모듈의 구체적인 구성도이다.
도 5는 본 발명의 일 실시예에 따른 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 방법의 흐름도이다.
도 6은 테스트 영상에 대해 기존 기법과 본 발명에서 제안하는 방법의 잡음 제거 예시를 보여주는 도면이다.
도 7은 기존 기법과 본 발명에서 제안하는 방법의 영상 내 잡음 제거 성능을 비교하는 표이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 장치의 블록도이다.

본 발명에 따른 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 장치(10, 이하 장치)는 영상 내 서로 다른 스케일의 정보를 고려한 DnCNN(DeNoise CNN) 기반의 학습기일 수 있다.

도 1을 참조하면, 본 발명에 따른 장치(10)는 특징 맵 생성부(100), 피라미드(Spatial pyramid pooling, 이하 SPP) 모듈(300), n개의 MSCA(multi-scale context aggregation, 이하 MSCA) 모듈(500) 및 융합부(700)를 포함한다.

본 발명의 상기 장치(10)는 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거를 수행하기 위한 소프트웨어(애플리케이션)가 설치되어 실행될 수 있으며, 상기 특징 맵 생성부(100), 상기 SPP 모듈(300), 상기 n개의 MSCA 모듈(500) 및 상기 융합부(700)의 구성은 상기 장치(10)에서 실행되는 상기 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거를 수행하기 위한 소프트웨어에 의해 제어될 수 있다.

상기 장치(10)는 별도의 단말이거나 또는 단말의 일부 모듈일 수 있다. 또한, 상기 특징 맵 생성부(100), 상기 SPP 모듈(300), 상기 n개의 MSCA 모듈(500) 및 상기 융합부(700)의 구성은 통합 모듈로 형성되거나, 하나 이상의 모듈로 이루어 질 수 있다. 그러나, 이와 반대로 각 구성은 별도의 모듈로 이루어질 수도 있다.

상기 장치(10)는 이동성을 갖거나 고정될 수 있다. 상기 장치(10)는, 서버(server) 또는 엔진(engine) 형태일 수 있으며, 디바이스(device), 기구(apparatus), 단말(terminal), UE(user equipment), MS(mobile station), 무선기기(wireless device), 휴대기기(handheld device) 등 다른 용어로 불릴 수 있다.

상기 장치(10)는 운영체제(Operation System; OS), 즉 시스템을 기반으로 다양한 소프트웨어를 실행하거나 제작할 수 있다. 상기 운영체제는 소프트웨어가 장치의 하드웨어를 사용할 수 있도록 하기 위한 시스템 프로그램으로서, 안드로이드 OS, iOS, 윈도우 모바일 OS, 바다 OS, 심비안 OS, 블랙베리 OS 등 모바일 컴퓨터 운영체제 및 윈도우 계열, 리눅스 계열, 유닉스 계열, MAC, AIX, HP-UX 등 컴퓨터 운영체제를 모두 포함할 수 있다.

최근 영상 잡음 제거 분야에서 연구된 DnCNN은 CNN을 활용한 영상 내 노이즈 제거 네트워크로 좋은 성능을 보인다. DnCNN은 단일 스케일의 특징 맵을 사용해 영상 내 잡음을 제거한다. 그러나, 영상에는 다양한 스케일의 내용들이 있기 때문에 단일 스케일의 특징 맵은 이런 영상의 특징을 모두 담아내기 어렵다. 따라서, 본 발명에서는 영상 내 다양한 스케일의 내용들을 담아내는 것에 주안점을 둔다.

도 2는 기존의 네트워크인 DnCNN의 구조이다. 기존의 네트워크는 입력 영상이 주어 졌을 때, 합성곱 연산을 통해 영상과 같은 크기의 특징 맵들을 만들어 내고 각각의 특징 맵 들은 잡음이 포함된 영상에서 배경을 지워 잡음 성분만 추출한다.

그러나, 영상에는 다양한 크기의 컨텐츠 성분들이 존재하기 때문에 이렇게 단일 스케일로는 잡음이 포함된 영상에서 배경 성분만 지워 내기는 쉽지 않다.

이에 본 발명은 네트워크 구조가 영상 내 서로 다른 스케일의 정보를 포함하는 것에 주안점을 둔다. 이하에서는 본 발명의 각 구성에 대해 자세히 설명한다.

상기 특징 맵 생성부(100)는 입력된 영상에 대해 미리 설정된 수만큼의 합성곱(convolution) 연산을 수행하여 특징 맵을 생성한다.

상기 SPP 모듈(300)은 상기 특징 맵을 서로 다른 스케일을 갖도록 다운 사이징하여 n층의 피라미드 특징 맵들을 생성하고, 상기 n개의 MSCA 모듈(500)은 서로 다른 스케일을 갖는 n층의 피라미드 특징 맵들을 각 해당 층의 고유 스케일로 변환한다.

상기 융합부(700)는 상기 각 MSCA 모듈로부터 출력되는 특징 맵들의 정보를 통합하여 하나의 영상 데이터로 출력한다.

상기 SPP 모듈(300)은 SPP는 기존 객체 검출 분야에서 사용되는 기법으로 본 발명의 상기 SPP 모듈(300)은 기존의 특징 맵을 여러 크기로 리사이징한다. 본 발명은 상기 SPP 모듈(300)을 활용하여 앞서 만든 특징 맵을 다른 크기로 다운사이즈를 수행한다.

예를 들어, 처음 입력 영상의 크기를

라고 하면, 상기 SPP 모듈(300)의 결과물은

의 크기를 갖는다. 여기서, n은 피라미드의 층 수에 해당하며, 피라미드의 1층은 n=0으로, 피라미드의 2층은 n=1으로 피라미드의 3층은 n=2으로 정의된다. 이렇게 만들어진 각각의 특징 맵들은 영상 내에 서로 다른 스케일의 정보를 포함하게 된다.

각각의 스케일 정보를 포함할 때, 영상의 문맥 정보가 도움이 되는 경우가 많다. 따라서, 본 발명에서는 상기 n개의 MSCA 모듈(500)을 만들어 각각의 피라미드 층에 적용시켜 서로 다른 층에 있는 다른 스케일 정보를 융합하여 그 층에 맞는 스케일 정보로 변환한다.

상기 n개의 MSCA 모듈(500)의 입력은 서로 다른 피라미드 층의 특징 맵이기 때문에 그 크기가 다르다. 따라서, 상기 n개의 MSCA 모듈(500)에서는 먼저 그 층에 맞게 특징 맵의 크기를 맞춰주고 합성곱 연산으로 정제해준다.

이후 합성곱 연산을 통해 몇 번의 추상화 정도를 조금 더 높이고, 최종적으로 하나의 결과를 만들어 내기 위해 결과물들을 하나로 통합한다. 이러한 구조는 기존의 구조보다 다른 스케일 정보가 많은 영상에서 더 강인한 결과를 얻을 수 있다.

도 3은 도 1의 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 장치의 구체적인 구성도이다. 도 4는 도 3의 MSCA 모듈의 구체적인 구성도이다.

도 3을 참조하면, 상기 특징 맵 생성부(100)는 합성곱 연산(110) 블록으로 구성되어 몇 번의 합성곱 연산을 통해 피라미드를 만들기 위한 특징 맵을 만들어 낸다.

상기 SPP(300)은 상기 특징 맵을 서로 다른 스케일을 갖도록 리사이징하여 n층의 피라미드 특징 맵들을 생성한다. 처음 입력 영상의 크기를

라고 하면, 상기 SPP 모듈(300)은 특징 맵을 다른 사이즈로 다운 사이징하여

의 크기를 갖는 결과물을 출력한다.

예를 들어, 3개 층의 피라미드 특징 맵을 생성하는 경우, 상기 입력된 영상과 동일한 스케일을 갖는 제1 피라미드 특징 맵(f ₀ ), 상기 제1 피라미드 특징 맵(f ₀ )을 다운 사이징하여 상기 입력된 영상의 1/2 스케일을 갖는 제2 피라미드 특징 맵(f ₁ ), 상기 제2 피라미드 특징 맵(f ₁ )을 다운 사이징하여 상기 입력된 영상의 1/4 스케일을 갖는 제3 피라미드 특징 맵(f ₂ )을 생성할 수 있다.

상기 n개의 MSCA 모듈(500)은 서로 다른 스케일을 갖는 n층의 피라미드 특징 맵들을 각 해당 층의 고유 스케일로 변환한다. 상기 n개의 MSCA 모듈(500)의 입력은 서로 다른 피라미드 층의 특징 맵이기 때문에 그 크기가 다르다. 따라서, 상기 n개의 MSCA 모듈(500)에서는 먼저 그 층에 맞게 특징 맵의 크기를 맞춰주고 합성곱 연산으로 정제해준다.

예를 들어, 상기 n개의 MSCA 모듈(500)은 제1 MSCA 모듈(510), 제2 MSCA 모듈(530) 및 제3 MSCA 모듈(550)의 3개를 가질 수 있고, 각 MSCA 모듈은 상기 제1 피라미드 특징 맵(f ₀ ), 상기 제2 피라미드 특징 맵(f ₁ ) 및 상기 제3 피라미드 특징 맵(f ₂ )을 합성곱 연산한 후 스케일을 변경한다.

구체적으로, 도 4를 참조하면, 상기 제2 MSCA 모듈(530)은 상기 제1 피라미드 특징 맵(f ₀ ), 상기 제2 피라미드 특징 맵(f ₁ ) 및 상기 제3 피라미드 특징 맵(f ₂ )을 각각 제1 내지 제3 합성곱 연산 블록(501, 503, 505)을 통해 연산곱을 수행한다.

이후, 상기 제1 합성곱 연산 블록(501)의 결과물을 다운 사이징 블록(502)을 통해 다운 사이징하고, 상기 제3 합성곱 연산 블록(505)의 결과물을 업 사이징 블록(506)을 통해 업 사이징하여, 해당 층에 맞는 상기 제2 피라미드 특징 맵(f ₁ )의 스케일 정보로 바꿔준다. 이 경우, 상기 제2 합성곱 연산 블록(503)의 결과물은 다운 사이징 또는 업 사이징을 할 필요가 없다.

또한, 상기 다운 사이징 블록(502)의 결과물, 상기 제2 합성곱 연산 블록(503)의 결과물 및 상기 업 사이징 블록(506)의 결과물을 접합(concatenation) 연산 블록(507)을 통해 접합한 후 합성곱 연산 블록(509)을 통해 정제하여 출력한다.

그 결과, 상기 제2 MSCA 모듈(530)은 대응하는 층의 스케일을 가진 특허 맵(g ₁ )을 출력하고, 상기 제1 MSCA 모듈(510) 및 제3 MSCA 모듈(550)도 상기 제2 MSCA 모듈(530)과 동일한 구성을 포함하여, 상기 제1 피라미드 특징 맵(f ₀ ), 상기 제2 피라미드 특징 맵(f ₁ ) 및 상기 제3 피라미드 특징 맵(f ₂ )의 스케일 변환을 대응하는 층의 스케일로 변환하여, 각각 특징 맵(g ₀ ) 및 특징 맵(g ₂ )을 출력한다.

상기 융합부(700)는 합성곱 연산을 통해 몇 번의 추상화 정도를 조금 더 높이고, 최종적으로 하나의 결과를 만들어 내기 위해 결과물들을 하나로 통합한다. 이러한 구조는 기존의 구조보다 다른 스케일 정보가 많은 영상에서 더 강인한 결과를 얻을 수 있다.

구체적으로, 상기 융합부(700)는 상기 제1 MSCA 모듈(510), 상기 제2 MSCA 모듈(530) 및 상기 제3 MSCA 모듈(550)로부터 각각 출력되는 특징 맵(f _0, g _1, g ₂ )을 필요에 따라 업 사이징(711, 712)하고, 접합(concatenation) 연산(703)을 수행한다.

이후, 상기 접합 연산된 특징 맵을 미리 설정된 수만큼 합성곱 연산(704)하고, 상기 합성곱 연산된 특징 맵을 가산 연산(705)하여 최종 영상을 출력한다.

이에 따라, 본 발명은 영상 내 서로 다른 스케일의 정보를 포함하도록 하여, 잡음 제거 성능이 높을 뿐만 아니라 불필요한 아티팩트들을 감소시켜 우수한 품질의 영상을 제공할 수 있다.

도 5는 본 발명의 일 실시예에 따른 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 방법의 흐름도이다.

본 실시예에 따른 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 방법은, 도 3의 장치(10)와 실질적으로 동일한 구성에서 진행될 수 있다. 따라서, 도 3의 장치(10)와 동일한 구성요소는 동일한 도면부호를 부여하고, 반복되는 설명은 생략한다.

또한, 본 실시예에 따른 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 방법은 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거를 수행하기 위한 소프트웨어(애플리케이션)에 의해 실행될 수 있다.

도 5를 참조하면, 본 실시예에 따른 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 방법은, 학습 시작을 위한 입력 영상이 주어지면, 입력된 영상에 대해 미리 설정된 수만큼의 합성곱(convolution) 연산을 수행하여 특징 맵을 생성한다(단계 S10).

상기 특징 맵이 생성되면, 피라미드(Spatial pyramid pooling) 모듈을 통해 상기 특징 맵을 서로 다른 스케일을 갖도록 다운 사이징하여 n층의 피라미드 특징 맵들을 생성한다(단계 S20).

n개의 MSCA(multi-scale context aggregation) 모듈을 통해 서로 다른 스케일을 갖는 n층의 피라미드 특징 맵들을 각 해당 층의 고유 스케일로 변환한다(단계 S30).

그 결과, 상기 입력된 영상의 크기가

인 경우,

단계 S30은 각 MSCA 모듈에서 서로 다른 스케일을 갖는 n층의 피라미드 특징 맵들을 각각 합성곱 연산하는 단계, 상기 합성곱 연산된 각 특징 맵들을 각 해당 층의 고유 스케일로 변환하는 단계, 상기 고유 스케일로 변환된 특징 맵들의 접합(concatenation) 연산을 수행하는 단계 및 상기 접합 연산된 특징 맵을 합성곱 연산하여 정제하는 단계를 포함할 수 있다.

상기 각 MSCA 모듈로부터 출력되는 특징 맵들의 정보를 통합하여 하나의 영상 데이터로 출력한다(단계 S40).

단계 S40은 상기 각 MSCA 모듈로부터 출력되는 특징 맵을 기준 스케일로 변환하는 단계, 상기 기준 스케일로 변환된 특징 맵들의 접합(concatenation) 연산을 수행하는 단계, 상기 접합 연산된 특징 맵을 미리 설정된 수만큼 합성곱 연산하는 단계 및 상기 합성곱 연산된 특징 맵을 가산 연산하여 출력하는 단계를 포함할 수 있다.

상기와 같은 과정으로 네크워크 학습을 완료하면, 이후 실시간 입력 영상에 대해 학습 결과를 이용하여 우수한 품질의 영상을 출력할 수 있다. 이하에서는, 본 발명의 성능을 평가하기 위한 실험 결과를 기술한다.

도 6은 테스트 영상에 대해 기존 기법과 본 발명에서 제안하는 방법의 잡음 제거 예시를 보여주는 도면이다. 도 6에서 (a) 잡음이 없는 영상, (b) 잡음이 있는 영상, (c) DnCNN의 잡음제거 결과 및 (d) 본 발명에서 제안하는 네트워크의 잡음제거 결과이다.

도 6을 참조하면, berkeley segmentation dataset(BSD)의 테스트 영상에 대해 기존 기법과 제안하는 기법의 잡음 제거 예시를 보여준다. 기존 기법인 DnCNN의 경우 확대된 영역과 같이 잡음 제거 이외에도 불필요한 아티팩트를 생성해 낸다.

반면, 본 발명에서 제안하는 방법의 결과물에서는 불필요한 아티팩트가 적은 것을 확인할 수 있다. 도 3의 PSNR 결과는 (b)의 경우 14.99dB, (c)의 경우 28.38, (d)의 경우 28.88로, 본 발명에서 제안하는 방법의 PSNR 또한 더 높은 것을 확인할 수 있다.

도 7은 기존 기법과 본 발명에서 제안하는 방법의 영상 내 잡음 제거 성능을 비교하는 표이다.

실험을 위해 영상 내 다양한 정도의 잡음을 추가하였고, 모든 정도의 잡음에서 본 발명에서 제안하는 방법의 성능이 가장 좋았다. 성능 평가는 영상 내 잡음 제거 분야에서 공인하게 사용하는 PSNR을 통해 측정했으며, 데이터 셋을 비롯한 기존 검출 분야들에서 데이터 셋으로 많이 사용하는 BSD 68 셋을 통해 성능을 검증했다.

이와 같은, 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.

상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

본 발명은 영상 내에 다양한 스케일을 고려하여 잡음 제거 성능이 높을 뿐만 아니라 불필요한 아티팩트들을 감소시켜 우수한 품질의 영상을 제공할 수 있다.

10: 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 장치
100: 특징 맵 생성부
300: SPP 모듈
500: MSCA 모듈
700: 융합부

Claims

입력된 영상에 대해 미리 설정된 수만큼의 합성곱(convolution) 연산을 수행하여 특징 맵을 생성하는 단계;
피라미드(Spatial pyramid pooling) 모듈을 통해 상기 특징 맵을 서로 다른 스케일을 갖도록 다운 사이징하여 n층의 피라미드 특징 맵들을 생성하는 단계;
n개의 MSCA(multi-scale context aggregation) 모듈을 통해 서로 다른 스케일을 갖는 n층의 피라미드 특징 맵들을 각 해당 층의 고유 스케일로 변환하는 단계; 및
상기 각 MSCA 모듈로부터 출력되는 특징 맵들의 정보를 통합하여 하나의 영상 데이터로 출력하는 단계;를 포함하고,
상기 각 MSCA 모듈로부터 출력되는 특징 맵들의 정보를 통합하여 하나의 영상 데이터로 출력하는 단계는,
상기 각 MSCA 모듈로부터 출력되는 특징 맵을 기준 스케일로 변환하는 단계;
상기 기준 스케일로 변환된 특징 맵들의 접합(concatenation) 연산을 수행하는 단계;
상기 접합 연산된 특징 맵을 미리 설정된 수만큼 합성곱 연산하는 단계; 및
상기 합성곱 연산된 특징 맵을 가산 연산하여 출력하는 단계;를 포함하는, 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 방법.
제1항에 있어서, 상기 n층의 피라미드 특징 맵들을 각 해당 층의 고유 스케일로 변환하는 단계는,
각 MSCA 모듈에서 서로 다른 스케일을 갖는 n층의 피라미드 특징 맵들을 각각 합성곱 연산하는 단계;
상기 합성곱 연산된 각 특징 맵들을 각 해당 층의 고유 스케일로 변환하는 단계;
상기 고유 스케일로 변환된 특징 맵들의 접합(concatenation) 연산을 수행하는 단계; 및
상기 접합 연산된 특징 맵을 합성곱 연산하여 정제하는 단계;를 포함하는, 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 방법.
삭제
제1항에 있어서, 상기 n층의 피라미드 특징 맵들을 각 해당 층의 고유 스케일로 변환하는 단계는,
상기 입력된 영상의 크기가
인 경우,
(여기서, n은 피라미드의 층 수이며, 1층은 n=0으로 정의됨)의 크기를 갖는 특징 맵들을 생성하는, 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 방법.
제1항에 있어서, 상기 n층의 피라미드 특징 맵들을 생성하는 단계는,
상기 입력된 영상과 동일한 스케일을 갖는 제1 피라미드 특징 맵을 생성하는 단계;
상기 제1 피라미드 특징 맵을 다운 사이징하여 상기 입력된 영상의 1/2 스케일을 갖는 제2 피라미드 특징 맵을 생성하는 단계; 및
상기 제2 피라미드 특징 맵을 다운 사이징하여 상기 입력된 영상의 1/4 스케일을 갖는 제3 피라미드 특징 맵을 생성하는 단계;를 포함하는, 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 방법.
제5항에 있어서, 상기 n층의 피라미드 특징 맵들을 각 해당 층의 고유 스케일로 변환하는 단계는,
상기 제1 피라미드 특징 맵의 합성곱 연산 후 다운 사이징하는 단계;
상기 제2 피라미드 특징 맵의 합성곱 연산을 수행하는 단계; 및
상기 제3 피라미드 특징 맵의 합성곱 연산 후 업 사이징하는 단계;를 포함하는, 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 방법.
제6항에 있어서, 상기 n층의 피라미드 특징 맵들을 각 해당 층의 고유 스케일로 변환하는 단계는,
다운 사이징된 제1 피라미드 특징 맵, 제2 피라미드 특징 맵 및 업 사이징된 제3 피라미드 특징 맵의 접합(concatenation) 연산을 수행하는 단계; 및
상기 접합 연산된 특징 맵을 합성곱 연산하여 정제하는 단계;를 포함하는, 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 방법.
제7항에 있어서, 상기 각 MSCA 모듈로부터 출력되는 특징 맵들의 정보를 통합하여 하나의 영상 데이터로 출력하는 단계는,
상기 각 MSCA 모듈로부터 출력되는 특징 맵을 업 사이징하는 단계;
상기 업 사이징된 특징 맵들의 접합(concatenation) 연산을 수행하는 단계;
상기 접합 연산된 특징 맵을 미리 설정된 수만큼 합성곱 연산하는 단계; 및
상기 합성곱 연산된 특징 맵을 가산 연산하여 출력하는 단계;를 포함하는, 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 방법.
제1항 내지 제2항, 제4항 내지 제8항의 어느 하나의 항에 따른 상기 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 저장 매체.
입력된 영상에 대해 미리 설정된 수만큼의 합성곱(convolution) 연산을 수행하여 특징 맵을 생성하는 특징 맵 생성부;
상기 특징 맵을 서로 다른 스케일을 갖도록 다운 사이징하여 n층의 피라미드 특징 맵들을 생성하는 피라미드(Spatial pyramid pooling) 모듈;
서로 다른 스케일을 갖는 n층의 피라미드 특징 맵들을 각 해당 층의 고유 스케일로 변환하는 n개의 MSCA(multi-scale context aggregation) 모듈; 및
상기 각 MSCA 모듈로부터 출력되는 특징 맵들의 정보를 통합하여 하나의 영상 데이터로 출력하는 융합부;를 포함하고,
상기 융합부는,
상기 각 MSCA 모듈로부터 출력되는 특징 맵을 업 사이징하여 기준 스케일로 변환하고, 특징 맵들을 접합(concatenation) 연산 및 합성곱 연산한 후 가산 연산하여 출력하는, 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 장치.
제10항에 있어서, 상기 n개의 MSCA의 각 MSCA 모듈은,
서로 다른 스케일을 갖는 n층의 피라미드 특징 맵들을 각각 합성곱 연산하고, 상기 합성곱 연산된 각 특징 맵들을 다운 사이징 또는 업 사이징하여 각 해당 층의 고유 스케일로 변환하는, 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 장치.
제10항에 있어서, 상기 n개의 MSCA의 각 MSCA 모듈은,
상기 각 해당 층의 고유 스케일로 변환된 특징 맵들을 접합(concatenation) 연산 및 합성곱 연산하여 정제하는, 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 장치.
삭제