KR102467091B1

KR102467091B1 - 효과적인 비디오 압축을 위한 슈퍼 레졸루션 영상 처리 방법 및 시스템

Info

Publication number: KR102467091B1
Application number: KR1020220089647A
Authority: KR
Inventors: 김시중; 김주한; 이웅원; 전민용
Original assignee: 블루닷 주식회사
Priority date: 2022-07-20
Filing date: 2022-07-20
Publication date: 2022-11-16
Also published as: US20240029202A1

Abstract

효과적인 비디오 압축을 위한 슈퍼 레졸루션 영상 처리 방법이 개시된다. 상기 효과적인 비디오 압축을 위한 슈퍼 레졸루션 영상 처리 방법은 저해상도 훈련 영상을 신경망에 적용하여 신경망 출력 신호를 생성하는 단계, 상기 신경망 출력 신호를 수신하여 예측 블록을 생성하고, 현재 블록에서 상기 예측 블록을 감산하여 레지듀얼 블록을 생성하고, 상기 레지듀얼 블록을 변환 계수들로 변환하고, 상기 변환 계수들을 양자화된 변환 계수들로 변환하고, 상기 양자화된 변환 계수들을 반대로 양자화하며, 상기 반대로 양자화된 변환 계수들을 역변환하여 생성된 레지듀얼 블록을 출력하며, 상기 예측 블록과 상기 역변환하여 생성된 레지듀얼 블록을 이용하여 복원 영상을 생성하는 단계, 및 상기 신경망을 훈련시키기 위해 상기 복원 영상을 고해상도 훈련 영상과 비교하여 손실 값을 계산하는 단계를 포함하며, 상기 저해상도 훈련 영상과 상기 고해상도 훈련 영상은 상기 신경망을 훈련시키기 위해 훈련 데이터 세트로 이용된다.

Description

효과적인 비디오 압축을 위한 슈퍼 레졸루션 영상 처리 방법 및 시스템 {Method and system for processing super-resolution video}

본 발명은 효과적인 비디오 압축을 위한 슈퍼 레졸루션 영상 처리 방법 및 시스템에 관한 것으로, 상세하게는 인코딩 인식 슈퍼 레졸루션 영상(encoding aware super-resolution video) 생성을 위한 슈퍼 레졸루션 영상 처리 방법 및 시스템에 관한 것이다.

업스케일링(upscaling), 또는 슈퍼 레졸루션(super-resolution)은 저해상도 영상(low resolution video)로부터 고해상도 영상(high resolution video)를 생성하기 위한 기술을 의미한다.

미디어 서비스 회사는 데이터 전송 비용과 네트워크 환경 제약 때문에 비디오 코덱을 이용하여 고해상도 영상를 압축하고, 압축된 고해상도 영상를 네트워크를 통해 고객으로 전송한다.

종래기술은 인공 신경망을 이용하여 고해상도 영상를 생성하더라도 생성된 고해상도 영상의 네트워크를 통한 전송을 위해 비디오 코덱을 이용한 별도의 고해상도 영상의 압축 과정이 더 요구되었다. 별도의 고해상도 영상의 압축 과정에서 고해상도 영상는 손상될 수 있다.

따라서 저해상도 영상로부터 고해상도 영상를 생성하는 영상 슈퍼 레줄루션에서 비디오 코덱을 이용한 비디오 압축까지 고려하는 방법이 요구된다.

한국 등록특허공보 제10-1996730호(2019.06.28.)

본 발명이 이루고자 하는 기술적인 과제는 네트워크를 통한 고해상도 영상 전송을 위해 비디오 압축까지 고려한 슈퍼 레졸루션 영상 처리 방법 및 시스템을 제공하는 것이다.

본 발명의 실시 예에 따른 효과적인 비디오 압축을 위한 슈퍼 레졸루션 영상 처리 방법은 저해상도 훈련 영상을 수신하는 단계, 및 저해상도 영상을 고해상도 영상으로 변환하기 위해 상기 저해상도 훈련 영상을 신경망 및, 비디오 인코딩 모듈에 포함된 미분 가능한 유닛들에 적용하여 출력되는 영상과, 고해상도 훈련 영상을 이용하여 상기 신경망을 훈련시키는 단계를 포함한다.

상기 미분 가능한 유닛들은 예측 유닛, 변환 유닛, 양자화 유닛, 인버스 양자화 유닛, 및 인버스 변환 유닛을 포함한다.

상기 신경망은 상기 저해상도 훈련 영상이 수신되는 제1컨볼루션 레이어, 및 양자화 파라미터(Quantization Parameter)가 수신되는 제2컨볼루션 레이어를 포함한다.

상기 신경망을 훈련시키는 단계는 상기 출력되는 영상과 상기 고해상도 훈련 영상의 픽셀 비교에 기초하여 제1손실 값을 계산하는 단계, 상기 출력되는 영상과 상기 고해상도 훈련 영상의 SSIM(Structural similarity index measure)에 기초하여 제2손실 값을 계산하는 단계, 상기 출력되는 영상과 상기 고해상도 훈련 영상의 유클리드 거리(Euclidean distance)에 기초하여 제3손실 값을 계산하는 단계, 및 상기 제1손실 값, 상기 제2손실 값, 및 상기 제3손실 값을 이용하여 손실 함수를 생성하는 단계를 포함한다.

상기 효과적인 비디오 압축을 위한 슈퍼 레졸루션 영상 처리 방법은 상기 양자화 유닛로부터 출력되는 양자화된 변환 계수들을 수신하여 엔트로피를 계산하는 단계를 더 포함할 수 있다.

본 발명의 실시 예에 따른 효과적인 비디오 압축을 위한 슈퍼 레졸루션 영상 처리 시스템은 소스 장치를 포함한다.

상기 소스 장치는 명령들을 실행하는 프로세서, 및 상기 명령들을 저장하는 메모리를 포함한다.

상기 명령들은 저해상도 영상을 고해상도 영상으로 변환하기 위해 저해상도 훈련 영상을 신경망 및, 비디오 인코딩 모듈에 포함된 미분 가능한 유닛들에 적용하여 출력되는 영상과, 고해상도 훈련 영상을 이용하여 상기 신경망을 훈련시키도록 구현된다.

상기 신경망을 훈련시키는 명령들은 상기 출력되는 영상과 상기 고해상도 훈련 영상의 픽셀 비교에 기초하여 제1손실 값을 계산하며, 상기 출력되는 영상과 상기 고해상도 훈련 영상의 SSIM에 기초하여 제2손실 값을 계산하며, 상기 출력되는 영상과 상기 고해상도 훈련 영상의 유클리드 거리에 기초하여 제3손실 값을 계산하며, 상기 제1손실 값, 상기 제2손실 값, 및 상기 제3손실 값을 이용하여 손실 함수를 생성하도록 구현된다.

본 발명의 실시 예에 따른 효과적인 비디오 압축을 위한 슈퍼 레졸루션 영상 처리 방법 및 시스템은 네트워크를 통한 고해상도 영상 전송까지 고려하여 저해상도 영상로부터 고해상도 영상를 생성하도록 하는 신경망을 트레이닝하는 방법을 제안함으로써 별도의 고해상도 영상의 비디오 압축 과정에서 생성되는 고해상도 영상 손실을 방지할 수 있는 효과가 있다.

본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 상세한 설명이 제공된다.
도 1은 본 발명의 실시 예에 따른 슈퍼 레졸루션 영상 처리 시스템의 블록도를 나타낸다.
도 2는 도 1에 도시된 신경망 훈련 모듈의 동작을 설명하기 위한 블록도를 나타낸다.
도 3은 도 2에 도시된 신경망의 블록도를 나타낸다.
도 4는 도 1에 도시된 신경망 모듈의 동작을 설명하기 위한 블록도를 나타낸다.
도 5는 본 발명의 실시 예에 따른 슈퍼 레졸루션 영상 처리 동작들을 설명하기 위한 흐름도를 나타낸다.

본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시 예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시 예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시 예들은 다양한 형태들로 실시될 수 있으며 본 명세서에 설명된 실시 예들에 한정되지 않는다.

본 발명의 개념에 따른 실시 예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시 예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나 이는 본 발명의 개념에 따른 실시 예들을 특정한 개시 형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만, 예컨대 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1구성요소는 제2구성요소로 명명될 수 있고, 유사하게 제2구성요소는 제1구성요소로도 명명될 수 있다.

본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다." 또는 "가지다." 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 나타낸다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예를 설명함으로써, 본 발명을 상세히 설명한다.

도 1은 본 발명의 실시 예에 따른 슈퍼 레졸루션 영상 처리 시스템의 블록도를 나타낸다.

도 1을 참고하면, 슈퍼 레졸루션 영상 처리 시스템(100)은 저해상도 영상을 고해상도 영상으로 변환하고, 변환된 고해상도 영상을 압축하여 사용자로 전송하는 시스템을 의미한다. 상기 사용자는 목적 장치(30)의 사용자를 의미한다.

슈퍼 레졸루션 영상 처리 시스템(100)은 소스 장치(10)와 목적 장치(30)를 포함한다. 소스 장치(10)와 목적 장치(30)는 네트워크(101)를 통해 서로 통신할 수 있다. 네트워크(101)를 통해 소스 장치(10)로부터 출력되는 압축된 영상이 목적 장치(30)로 전달될 수 있다. 여기서 상기 압축된 영상은 인코드된 비디오 비트스트림을 의미한다. 슈퍼 레졸루션 영상이란 신경망을 이용하여 저해상도 영상으로부터 변환된 고해상도 영상을 의미한다.

소스 장치(10)는 영상 처리 장치, 컴퓨팅 장치, 또는 서버 등 다양한 용어들로 호칭될 수 있다. 소스 장치(10)는 신경망을 이용하여 저해상도 영상을 고해상도 영상으로 변환하고, 변환된 고해상도 영상을 압축하여 인코드된 비디오 비트스트림을 목적 장치(20)으로 전송한다. 저해상도 영상에서 고해상도 영상으로의 변환 동작은 업스케일링 동작으로 정의될 수 있다. 뒤에서 소스 장치(10)의 자세한 동작들에 대해 설명될 것이다.

목적 장치(30)는 노트북, 태블릿 PC, 또는 데스크탑과 같은 전자 장치를 의미한다. 실시 예에 따라 목적 장치(30)는 클라이언트로 호칭될 수 있다. 목적 장치(30)는 압축된 영상, 즉, 인코드된 비디오 비트스트림을 수신하기 위해 이용된다. 목적 장치(30)는 소스 장치(10)로부터 인코드된 비트스트림을 수신하고, 인코드된 비트스트림을 디코딩하고, 디코딩된 비트스트림을 디스플레이에 표시한다.

소스 장치(10)는 프로세서(11)와 메모리(13)를 포함한다. 프로세서(11)는 효과적인 비디오 압축을 위한 슈퍼 레졸루션 영상 처리 방법과 관련된 명령들을 실행한다. 메모리(13)는 효과적인 비디오 압축을 위한 상기 명령들을 포함한다. 메모리(13)는 신경망 훈련 모듈(15), 신경망 모듈(17), 비디오 인코딩 모듈(19), 및 출력 모듈(21)을 포함한다. 신경망 훈련 모듈(15), 신경망 모듈(17), 비디오 인코딩 모듈(19), 및 출력 모듈(21)은 프로세서(11)에 의해 실행되는 명령들을 의미한다. 실시 예에 따라 비디오 인코딩 모듈(19)과 출력 모듈(21)은 하드웨어로 구현될 수 있다. 비디오 인코딩 모듈(19)은 비디오 인코더, 또는 인코딩 장치 등 다양한 용어로 호칭될 수 있다. 이하, 신경망 훈련 모듈(15), 신경망 모듈(17), 비디오 인코딩 모듈(19), 및 출력 모듈(21)의 동작들은 프로세서(11)에 의해 수행되는 것으로 이해될 수 있다.

신경망 훈련 모듈(15)은 신경망을 훈련하기 위한 모듈이다.

신경망 모듈(17)은 신경망 훈련 모듈(15)에 의해 신경망의 훈련이 끝난 후 영상의 압축까지 고려한 저해상도 영상을 고해상도 영상으로 변환하기 위한 모듈이다.

비디오 인코딩 모듈(19)은 신경망 모듈(17)에서 출력되는 고해상도 영상을 압축하는 모듈이다. 예컨대, 비디오 인코딩 모듈(19)은 H.265 등과 같은 비디오 코딩 표준에 따라 동작한다.

출력 모듈(21)은 비디오 인코딩 모듈(19)에서 출력되는 비트스트림을 목적 장치(30)로 전송하는 모듈이다.

도 2는 도 1에 도시된 신경망 훈련 모듈의 동작을 설명하기 위한 블록도를 나타낸다. 도 3은 도 2에 도시된 신경망의 블록도를 나타낸다.

도 1과 도 2를 참고하면, 도면부호 300은 신경망(200)을 훈련하기 위해 이용되는 구성요소들을 의미한다. 즉, 신경망(200)을 훈련하기 위해 비디오 인코딩 모듈(19)에서 포함될 수 있는 예측 유닛(310), 변환 유닛(320), 양자화 유닛(330), 인버스 양자화 유닛(340), 및 인버스 변환 유닛(350)가 이용된다.

신경망(200)을 훈련하기 위해 비디오 인코딩 모듈(19)의 일부가 이용된다.

신경망(200)을 훈련하기 위해 비디오 인코딩 모듈(19)의 일부를 이용하는 이유는 비디오 압축에 따른 비디오 데이터의 손실을 방지하기 위함이다. 즉, 미리 비디오 압축까지 고려하여 저해상동 영상을 고해상도 영상으로 변환하기 위한 신경망(200)이 훈련된다.

신경망 훈련 모듈(15)은 신경망(200)을 훈련하기 위해 저해상도 훈련 영상(201)을 수신한다.

신경망(200)은 저해상도 훈련 영상(201)을 수신하여 신경망 출력 영상(203)을 생성한다. 신경망 출력 영상(203)이란 신경망(200)에서 출력되는 영상을 의미한다. 신경망 출력 영상(203)은 고해상도 영상이다.

신경망 훈련 모듈(15)은 저해상도 영상을 고해상도 영상으로 변환하기 위해 저해상도 훈련 영상(201)을 신경망(200) 및, 비디오 인코딩 모듈(19)에 포함된 미분 가능한 유닛들에 적용하여 출력되는 영상(353)과, 고해상도 훈련 영상(GT)을 이용하여 신경망(200)을 훈련시킨다.

미분 가능한 유닛들은 예측 유닛(310), 변환 유닛(320), 양자화 유닛(330), 인버스 양자화 유닛(340), 및 인버스 변환 유닛(350)을 포함한다. 저해상도 훈련 영상(201)을 신경망(200) 및, 비디오 인코딩 모듈(19)에 포함된 미분 가능한 유닛들에 적용한다함은 저해상도 훈련 영상(201)이 신경망(200)에 입력되어 신경망 출력 영상(203)을 출력하고, 신경망 출력 영상(203)을 비디오 인코딩 모듈(19)에 포함된 미분 가능한 유닛들에 순차적으로 적용하여 출력되어 영상을 생성하는 것을 의미한다. 저해상도 훈련 영상(201)을 신경망(200) 및, 비디오 인코딩 모듈(19)에 포함된 미분 가능한 유닛들에 적용하여 출력되는 영상은 복원 영상(353)이다.

도 3을 참고하면, 신경망(200)은 비디오 인코딩 모듈(19)을 의식한 고해상도 신경망이다. 신경망(200)은 다양한 레이어들로 구현될 수 있다. 예컨대, 신경망(200)은 복수의 컨볼루션 레이어들(210-1~210-N, 220-1~220-N; N은 자연수), 셔플 레이어(260), 및 복수의 가산기들(230, 240, 및 250)을 포함한다. 실시 예에 따라 복수의 컨볼루션 레이어들(210-1~210-N, 220-1~220-N)의 수는 달라질 수 있다.

컨볼루션 레이어들(210-1~210-N)은 2D 컨볼루션 레이어들이다. 컨볼루션 레이어(210-1)는 저해상도 훈련 영상(201) 중 하나의 채널에 대해 제1컨볼루션 연산을 수행한다. 저해상도 훈련 영상(201)은 높이, 폭, 및 채널로 표현될 수 있다. 저해상도 훈련 영상(201)은 복수의 프레임들을 포함한다. 상기 복수의 프레임들은 높이, 폭, 및 채널로 표현될 수 있다. 상기 복수의 프레임들의 가로와 세로의 크기는 폭과 높이와 대응된다. 복수의 프레임들의 수는 채널의 수와 대응될 수 있다. 또한, 저해상도 훈련 영상(201) 중 하나의 채널이란 하나의 비디오 프레임을 의미할 수 있다. 실시 예에 따라 저해상도 훈련 영상(201) 중 하나의 채널이란 YUV 컬러 스페이스에서 루마 채널을 의미할 수 있다.

제1컨볼루션 연산은 저해상도 훈련 영상(201) 중 하나의 채널과 제1커널의 컨볼루션 동작을 의미한다.

컨볼루션 레이어들(220-1~220-N)은 1D 컨볼루션 레이어들이다. 컨볼루션 레이어(220-1)는 양자화 파라미터(QP)에 대해 제2컨볼루션 연산을 수행한다. 양자화 파라미터(QP)는 블록에 대해 압축량을 제어한다. 높은 값을 가지는 양자화 파라미터(QP)는 더 높은 압축과 더 낮은 영상 퀄리티를 의미한다. 낮은 값을 가지는 양자화 파라미터(QP)는 더 낮은 압축과 더 높은 영상 퀄리티를 의미한다. 신경망(200)을 훈련하기 위해 이용되는 양자화 파라미터(QP)의 범위는 18에서 42일 수 있다. 제2컨볼루션 연산은 양자화 파라미터(QP)와 제2커널의 컨볼루션 동작을 의미한다.

가산기(230)는 컨볼루션 레이어(210-1)에서 출력되는 컨볼루션 값과 컨볼루션 레이어(220-1)에서 출력되는 컨볼루션 값을 가산한다. 가산 값은 컨볼루션 레이어(210-2)에 입력된다.

컨볼루션 레이어(210-2)는 가산기(230)로부터 출력되는 값과 커널의 컨볼루션 동작을 수행하고 컨볼루션 값을 출력한다. 나머지 레이어들(210-N, 220-2~220-N)도 유사한 동작들을 수행하므로, 이에 대한 자세한 설명은 생략한다.

셔플 레이어(260)는 하나의 채널을 포함하는 신경망 출력 영상(203)을 생성하기 위해 복수의 채널들을 포함하는 텐서(tensor)를 섞는다. 셔플 레이어(260)를 통해 신경망 출력 영상(203)이 출력된다.

신경망 훈련 모듈(15)은 저해상도 훈련 영상(201)을 신경망(200)에 적용하여 신경망 출력 영상(203)을 출력한다. 신경망(200)에 적용한다함은 신경망(200)에 포함된 컨볼루션 레이어들(220-1~220-N)에 따라 컨볼루션 동작들을 수행함을 의미한다.

도 2를 참고하면, 비디오 인코딩 모듈(19)의 일부는 예측 유닛(310), 변환 유닛(320), 양자화 유닛(330), 인버스 양자화 유닛(340), 및 인버스 변환 유닛(350)을 포함한다. 유닛은 영상 처리의 기본 단위를 나타낸다. 상기 유닛은 하드웨어, 또는 소프트웨어로 구현될 수 있다.

신경망 훈련 모듈(15)은 신경망(200)을 훈련하기 위해 신경망(200) 훈련 단계에서 예측 유닛(310), 변환 유닛(320), 양자화 유닛(330), 인버스 양자화 유닛(340), 및 인버스 변환 유닛(350)의 동작들을 수행한다. 예측 유닛(310), 변환 유닛(320), 양자화 유닛(330), 인버스 양자화 유닛(340), 및 인버스 변환 유닛(350)은 비디오 인코딩 모듈(19)에 포함된 유닛들이다. 또한, 인버스 양자화 유닛(340), 및 인버스 변환 유닛(350)의 동작들을 수행한다.

비디오 인코딩 모듈(19)에 포함된 유닛들 중 예측 유닛(310), 변환 유닛(320), 양자화 유닛(330), 인버스 양자화 유닛(340), 및 인버스 변환 유닛(350)을 이용하는 이유는 예측 유닛(310), 변환 유닛(320), 양자화 유닛(330), 인버스 양자화 유닛(340), 및 인버스 변환 유닛(350)은 미분 가능한 유닛들이기 때문이다.

또한, 별도의 고해상도 영상의 압축 과정에서 고해상도 영상의 손상을 방지하기 위해 신경망(200)을 학습하는 과정에서 미분 가능한 유닛들인 예측 유닛(310), 변환 유닛(320), 양자화 유닛(330), 인버스 양자화 유닛(340), 및 인버스 변환 유닛(350)을 이용하는 이유는 예측 유닛(310), 변환 유닛(320), 양자화 유닛(330), 인버스 양자화 유닛(340), 및 인버스 변환 유닛(350)이 이용된다.

신경망(200)을 학습하기 위해서는 미분이 가능하여야한다. 즉, 예측 유닛(310), 변환 유닛(320), 양자화 유닛(330), 인버스 양자화 유닛(340), 및 인버스 변환 유닛(350)은 미분 가능한 유닛들이다. 비디오 인코딩 모듈(19)에 포함된 유닛들 중 필터 유닛(미도시)은 미분이 불가능하기 때문에 신경망(200)의 훈련에 이용되지 않는다.

실시 예에 따라 예측 유닛(310), 변환 유닛(320), 양자화 유닛(330), 인버스 양자화 유닛(340), 및 인버스 변환 유닛(350)은 비디오 인코딩 모듈(19)에 포함된 유닛들과 유사한 동작들을 수행하지만, 미분을 보다 쉽게 하기 위해 비디오 인코딩 모듈(19)에 포함된 유닛들과 완전히 같지 않을 수 있다. 즉, 도 2에 도시된 예측 유닛(310), 변환 유닛(320), 양자화 유닛(330), 인버스 양자화 유닛(340), 및 인버스 변환 유닛(350)은 일반적인 비디오 인코더에 이용되는 유닛들과 유사한 동작들을 수행한다. 예컨대, 예측 유닛(310)은 비디오 인코딩 모듈(19)에 포함된 예측 유닛과 완전히 동일하지는 않지만, 유사한 동작을 수행할 수 있다.

이하, 예측 유닛(310), 변환 유닛(320), 양자화 유닛(330), 인버스 양자화 유닛(340), 및 인버스 변환 유닛(350)의 동작들은 신경망(200)을 훈련하기 위한 동작들을 의미한다.

예측 유닛(310)은 인트라(intra)/인터(inter) 예측 유닛이다. 예측 유닛(310)은 예측 블록을 생성하기 위해 인트라 예측을 수행하거나, 인터 예측을 수행한다.

신경망 훈련 모듈(15)은 신경망(200)에서 출력된 신경망 출력 영상(203)을 블록들로 나눌 수 있다. 신경망 출력 영상(203)은 복수의 프레임들을 포함한다. 복수의 프레임들을 포함하는 영상(203)이 예측 유닛(310)에 입력된다.

예측 유닛(310)은 신경망 출력 영상(203)을 수신하여 예측 블록을 생성한다.

감산기(311)는 레지듀얼 블록을 생성하기 위해 현재 블록에서 예측 블록을 감산한다. 감산기(311)는 레지듀얼 생성 유닛(residual generation unit)로 호칭될 수 있다. 감산기(311)는 신경망 출력 영상(203)의 현재 블록과, 예측 유닛(310)에서 신경망 출력 영상(203)을 이용하여 생성된 예측 블록을 이용한다.

변환 유닛(320)은 레지듀얼 블록을 변환 계수들로 변환한다. 상기 레지듀얼 블록은 신경망 출력 영상(203)에 기초하여 생성된 레지듀얼 블록이다.

양자화 유닛(330)은 양자화 파라미터, 또는 양자화 레벨을 이용하여 변환 계수들을 양자화된 변환 계수들로 변환한다. 상기 양자화된 변환 계수들은 신경망 출력 영상(203)에 기초하여 생성된다. 변환 계수들은 양자화 파라미터에 의해 나눠진다. 만약 양자화 파라미터가 높은 값으로 설정되면, 양자화된 계수들은 더 많은 0으로 설정되고, 이는 높은 압축과 낮은 영상 퀄리터를 초래한다. 만약 양자화 파라미터가 낮은 값으로 설정되면, 양자화된 계수들은 더 많은 0이 아닌 계수들로 설정되고, 이는 낮은 압축과 높은 영상 퀄리티를 초래한다.

실시 예에 따라 제1가산기(331)는 양자화 유닛(330)에서 출력되는 양자화된 변환 계수들과 유니폼 노이즈를 가산할 수 있다. 양자화 유닛(330)에서 출력되는 양자화된 변환 계수들은 신경망 출력 영상(203)에 기초하여 생성된다.

신경망 훈련이 아니라 비디오 인코딩 과정에서 양자화 유닛(330)으로부터 출력되는 양자화된 변환 계수들은 일반적으로 라운드(round)를 거친다. 라운드는 반올림을 의미한다. 라운드를 거친 양자화된 변환 계수들은 미분이 불가능하다.

본 발명에서 양자화 유닛(330)으로부터 출력되는 양자화된 변환 계수들은 미분 가능한 상태를 위해 라운드 대신에 유니폼 노이즈가 추가된다.

인버스 양자화 유닛(340)은 변환 계수들을 반대로 양자화(inverse quantize)한다. 상기 반대로 양자화된 변환 계수들은 신경망 출력 영상(203)에 기초하여 생성된다.

인버스 변환 유닛(350)은 레지듀얼 블록을 생성하기 위해 반대로 양자화된 변환 계수들을 역변환(inverse transform)한다. 역변환된 변환 계수들은 신경망 출력 영상(203)에 기초하여 생성된다.

제2가산기(351)는 예측 블록과 레지듀얼 블록을 이용하여 블록을 복원한다. 복원된 블록은 예측 유닛(310)에서 예측 블록을 생성하기 위해 이용된다. 복수의 복원된 블록들은 복원 영상(353)을 생성하기 위해 복원될 수 있다. 제2가산기(351)는 예측 블록과 레지듀얼 블록을 이용하여 복원 영상(353)을 생성할 수 있다. 제2가산기(351)는 복원 유닛으로 호칭될 수 있다. 복원 영상(353)은 신경망 출력 영상(203)에 기초하여 생성된다. 제2가산기(351)도 가산 동작을 수행하는 유닛으로, 미분 가능한 유닛으로 고려될 수 있다. 복원 영상(353)은 예측 유닛(310)에 의해 생성된 예측 블록과 인버스 변환 유닛(350)에 의해 생성된 레지듀얼 블록을 가산하여 생성된다.

손실 모델(370)은 복원 영상(353)을 고해상도 훈련 영상(GT)과 비교하여 복수의 손실 값들을 계산한다. 이때, 고해상도 훈련 영상(GT)은 하나의 프레임에서 임의의 블록을 의미할 수 있다.

저해상도 영상을 고해상도 영상으로 변환하기 위해 저해상도 훈련 영상(201)을 신경망(200) 및, 비디오 인코딩 모듈(19)에 포함된 미분 가능한 유닛들(예측 유닛(310), 변환 유닛(320), 양자화 유닛(330), 인버스 양자화 유닛(340), 및 인버스 변환 유닛(350))에 적용하여 출력되는 영상은 복원 영상(353)을 의미한다.

실시 예에 따라 손실 모델(370)은 복원 영상(353)을 고해상도 훈련 영상(GT)과 비교하여 복수의 손실 값들을 계산한다. 이때, 고해상도 훈련 영상(GT)은 프레임을 의미할 수 있다. 손실 모델(370)은 손실 함수가 구현되는 프로그램 명령들을 의미한다. 상기 복수의 손실 값들은 제1손실 값, 제2손실 값, 및 제3손실 값을 포함한다. 실시 예에 따라 손실 모델(370)은 소프트웨어, 또는 하드웨어로 구현될 수 있다.

손실 모델(370)은 복원 영상(353)과 고해상도 훈련 영상(GT)의 픽셀 비교에 기초하여 제1손실 값을 계산한다. 구체적으로 상기 제1손실 값은 복원 영상(353)과 고해상도 훈련 영상(GT)의 픽셀들의 평균 제곱 오차(Mean Squared Error, MSE)을 이용하여 계산될 수 있다. 이때, 손실 모델(370)은 복원 영상(353)의 프레임과 고해상도 훈련 영상(GT)의 프레임의 픽셀 차이를 계산할 수 있다.

손실 모델(370)은 복원 영상(353)과 고해상도 훈련 영상(GT)의 SSIM(Structural similarity index measure)에 기초하여 제2손실 값을 계산한다. SSIM은 복원 영상(353)과 고해상도 훈련 영상(GT) 사이의 유사성을 측정하기 위한 방법이다. 이때, 손실 모델(370)은 복원 영상(353)의 프레임과 고해상도 훈련 영상(GT)의 프레임 사이의 SSIM(Structural similarity index measure)를 계산할 수 있다.

손실 모델(370)은 복원 영상(353)과 고해상도 훈련 영상(GT)의 유클리드 거리(Euclidean distance)에 기초하여 제3손실 값을 계산한다. 상기 제3손실 값은 복원 영상(353)과 고해상도 훈련 영상(GT)의 유클리드 거리로 계산된다. 실시 예에 따라 상기 제3손실 값은 VGG 손실(loss)로 정의될 수 있다. VGG 손실은 콘텐츠 손실의 한 유형이다. 이때, 손실 모델(370)은 복원 영상(353)의 프레임과 고해상도 훈련 영상(GT)의 프레임의 유클리드 거리를 계산할 수 있다.

상기 제1손실 값, 상기 제2손실 값, 및 상기 제3손실 값을 이용하여 손실 함수가 생성될 수 있다.

실시 예에 따라 신경망(200)을 훈련하는 과정에서 엔트로피 모델(360)이 더 이용될 수 있다.

엔트로피 모델(360)은 양자화 유닛(330)로부터 출력되는 양자화된 변환 계수들, 또는 제1가산기(331)로부터 출력되는 가산 값의 엔트로피를 계산하여 레이트 손실(Rate loss)을 출력한다. 상기 엔트로피는 확률 변수(random variable)에 대한 확률 분포(probability distribution)로부터 도출된 비트스트림을 표현하는데 요구되는 비트의 평균 숫자로 정의될 수 있다. 상기 엔트로피는 널리 알려진 개념으로 이에 대한 자세한 설명은 생략한다. 상기 레이트 손실은 상기 엔트로피를 의미한다. 또한, 상기 레이트 손실은 제4손실 값으로 정의될 수 있다. 엔트로피 모델(360)은 최소 값을 가지는 엔트로피가 출력되도록 구현되는 프로그램 명령들을 의미한다.

[수학식 1]

RATE=-log_2(p(input))

상기 RATE는 레이트 손실, 또는 제4손실 값을 의미한다. 상기 p는 엔트로피 모델(360)로, 상기 input에 대한 확률 분포를 의미하며, 상기 input은 양자화 유닛(330)으로부터 출력되는 양자화된 변환 계수들, 또는 제1가산기(331)로부터 출력되는 가산 값을 의미한다.

영상의 사이즈가 크고 복잡할수록 더 많은 비트들이 이용된다. 따라서 영상의 사이즈가 크고 복잡할수록 엔트로피는 높은 값을 가진다.

신경망 훈련 모듈(15)은 상기 제4손실 값이 최소가 되도록 신경망(200)을 훈련한다.

엔트로피 모델(360)이 더 이용될 때, 신경망(200)의 손실 함수는 상기 제1손실 값, 상기 제2손실 값, 상기 제3손실 값, 및 상기 제4손실 값을 이용하여 정의될 수 있다. 신경망(200)의 손실 함수는 아래의 수학식 2와 같이 표현될 수 있다.

[수학식 2]

LossFunction=(α*MSE)+(β*SSIM)+(γ*VGG)+(0.82*2^(QP-12)/3*RATE)

상기 LossFunction은 손실 함수를, 상기 MSE는 상기 제1손실 값을, 상기 SSIM은 상기 제2손실 값을, 상기 VGG는 상기 제3손실 값을, 및 상기 RATE는 제4손실 값을 나타낸다. 상기 QP는 양자화 파라미터의 값을 나타낸다. 상기 α, 상기 β, 상기 γ는 상수를 나타낸다. 예컨대, 상기 α는 1.0이며, 상기 β는 10.0이며, 상기 γ는 0.1일 수 있다. 상기 α, 상기 β, 상기 γ의 값들은 반복적인 실험들에 의해 설정될 수 있다.

신경망 훈련 모듈(15)은 손실 함수의 손실 값들의 합이 최소가 되도록 신경망(200)을 학습한다. 즉, 신경망 훈련 모듈(15)은 상기 제4손실 값이 최소화되면서 상기 제1손실 값, 상기 제2손실 값, 및 상기 제3손실 값이 최소화되도록 신경망(200)을 학습한다. 상기 제4손실 값과, 상기 제1손실 값, 상기 제2손실 값, 및 상기 제3손실 값은 트레이드 오프(trade-off) 관계이다. 상기 제4손실 값을 작게하면 상기 제1손실 값, 상기 제2손실 값, 및 상기 제3손실 값이 커진다. 반대로, 상기 제1손실 값, 상기 제2손실 값, 및 상기 제3손실 값을 작게하면 상기 제4손실 값이 커진다.

신경망(200)을 훈련하기 위해 저해상도 훈련 영상(201), 양자화 파라미터(QP), 및 고해상도 훈련 영상(GT)이 훈련 데이터 세트로 이용된다.

실시 예에 따라 엔트로피 모델(360)과 손실 모델(370)은 하나의 모델로 구현될 수 있다.

도 4는 도 1에 도시된 신경망 모듈의 동작을 설명하기 위한 블록도를 나타낸다.

도 1 내지 도 4를 참고하면, 신경망(200)의 훈련이 끝나면, 저해상도 영상을 고해상도 영상으로 변환하기 위한 동작이 수행된다. 저해상도 영상을 고해상도 영상으로 변환하기 위한 동작은 신경망 모듈(17)에 의해 수행된다. 도 4에 도시된 신경망(200)은 훈련이 끝난 신경망이다.

저해상도 영상을 고해상도 영상으로 변환하기 위한 단계에서는 도 2에 도시된 블록도와 달리 신경망(200)만 이용된다. 즉, 비디오 인코딩 모듈(19)에 포함된 미분 가능한 유닛들(즉, 예측 유닛(310), 변환 유닛(320), 양자화 유닛(330), 인버스 양자화 유닛(340), 및 인버스 변환 유닛(350))은 저해상도 영상을 고해상도 영상으로 변환하기 위한 단계에서는 이용되지 않는다.

신경망 모듈(17)은 저해상도 영상을 신경망(200)에 적용하여 고해상도 영상을 출력한다. 구체적으로, 신경망 모듈(17)은 저해상도 영상 중 하나 채널을 신경망(200)에 적용하여 하나의 채널을 가지는 고해상도 영상을 출력한다. 저해상도 영상은 높이, 폭, 및 채널로 표현될 수 있다. 저해상도 영상 중 하나의 채널이란 하나의 비디오 프레임을 의미할 수 있다. 실시 예에 따라 저해상도 영상 중 하나의 채널이란 YUV 컬러 스페이스에서 루마 채널일 수 있다.

신경망 모듈(17)은 신경망(200)으로부터 출력되는 비디오 프레임들을 누적하여 복수의 프레임들을 가지는 고해상도 영상을 출력할 수 있다.

비디오 인코딩 모듈(19)은 신경망 모듈(17)에서 출력되는 고해상도 영상을 압축한다. 예컨대, 비디오 인코딩 모듈(19)은 H.265 등과 같은 비디오 코딩 표준이다.

출력 모듈(21)은 비디오 인코딩 모듈(19)에서 출력되는 비트스트림을 목적 장치(30)로 전송한다.

도 5는 본 발명의 실시 예에 따른 슈퍼 레졸루션 영상 처리 동작들을 설명하기 위한 흐름도를 나타낸다.

도 1 내지 도 3, 및 도 5를 참고하면, 신경망 훈련 모듈(15)은 신경망(200)을 훈련시킨다. 이하, 신경망(200)의 훈련 동작들에 대해 설명된다.

신경망 훈련 모듈(15)은 신경망(200)을 훈련시키기 위해 저해상도 훈련 영상(201)을 수신한다(S10).

신경망 훈련 모듈(15)은 저해상도 훈련 영상(201)을 신경망(200)에 적용하여 신경망 출력 신호(203)을 생성한다(S20).

신경망 훈련 모듈(15)은 신경망 출력 영상(203)의 현재 블록에서 예측 유닛(310)에서 예측된 블록을 감산하여 레지듀얼 블록을 생성한다(S30).

신경망 훈련 모듈(15)은 레지듀얼 블록을 변환 계수들로 변환한다(S40). 변환 유닛(320)이 이용된다.

신경망 훈련 모듈(15)은 양자화 파라미터(QP)를 이용하여 변환 계수들을 양자화된 변환 계수들로 변환한다(S50). 양자화 유닛(330)이 이용된다.

신경망 훈련 모듈(15)은 변환 계수들을 반대로 양자화한다(S60). 인버스 양자화 유닛(340)이 이용된다.

신경망 훈련 모듈(15)은 반대로 양자화된 변환 계수들을 역변환하여 레지듀얼 블록을 생성한다(S70). 인버스 변환 유닛(350)이 이용된다.

신경망 훈련 모듈(15)은 예측 블록과 레지듀얼 블록을 이용하여 복원 영상(353)을 생성한다(S80).

신경망 훈련 모듈(15)은 복원 영상(353)과 고해상도 훈련 영상을 비교하여 복수의 손실 값들을 계산한다(S90). 손실 모델(370)이 이용된다. 복수의 손실 값들은 제1손실 값, 제2손실 값, 및 제3손실 값이다.

신경망 훈련 모듈(15)은 양자화된 변환 계수들을 수신하여 엔트로피를 계산한다(S100). 엔트로피 모델(360)이 이용된다. 엔트로피는 제4손실 값이다.

신경망 훈련 모듈(15)은 복수의 손실 값들과 엔트로피의 합이 최소화되도록 신경망(200)을 훈련한다(S110). 즉, 복수의 손실 값들과 엔트로피의 합이 최소화되도록 S10 단계에서 S100 단계가 반복적으로 수행된다.

신경망 훈련 모듈(15)의 동작들은 프로세서(11)에 의해 수행된다.

신경망 훈련 모듈(15)에 의해 신경망(200)의 훈련이 끝나면, 신경망 모듈(17)은 저해상도 영상을 고해상도 영상으로 변환한다.

본 발명은 도면에 도시된 일 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

100: 슈퍼 레졸루션 영상 처리 시스템;
10: 소스 장치;
11: 프로세서;
13: 메모리;
15: 신경망 훈련 모듈;
17: 신경망 모듈;
19: 비디오 인코딩 모듈;
21: 출력 모듈;
30: 목적 장치;
101: 네트워크;

Claims

저해상도 훈련 영상을 신경망에 적용하여 신경망 출력 신호를 생성하는 단계;
상기 신경망 출력 신호를 수신하여 예측 블록을 생성하고, 현재 블록에서 상기 예측 블록을 감산하여 레지듀얼 블록을 생성하고, 상기 레지듀얼 블록을 변환 계수들로 변환하고, 상기 변환 계수들을 양자화된 변환 계수들로 변환하고, 상기 양자화된 변환 계수들을 반대로 양자화하며, 상기 반대로 양자화된 변환 계수들을 역변환하여 생성된 레지듀얼 블록을 출력하며, 상기 예측 블록과 상기 역변환하여 생성된 레지듀얼 블록을 이용하여 복원 영상을 생성하는 단계; 및
상기 신경망을 훈련시키기 위해 상기 복원 영상을 고해상도 훈련 영상과 비교하여 손실 값을 계산하는 단계를 포함하며,
상기 저해상도 훈련 영상과 상기 고해상도 훈련 영상은 상기 신경망을 훈련시키기 위해 훈련 데이터 세트로 이용되는 효과적인 비디오 압축을 위한 슈퍼 레졸루션 영상 처리 방법.
제1항에 있어서,
예측 블록은 상기 신경망 출력 신호를 수신하여 상기 예측 블록을 생성하며,
감산 유닛은 상기 현재 블록에서 상기 예측 블록을 감산하여 상기 레지듀얼 블록을 생성하고,
변환 유닛은 상기 레지듀얼 블록을 상기 변환 계수들로 변환하고,
양자화 유닛은 상기 변환 계수들을 상기 양자화된 변환 계수들로 변환하고,
인버스 양자화 유닛은 상기 양자화된 변환 계수들로 반대로 양자화하며,
인버스 변환 유닛은 상기 반대로 양자화된 변환 계수들을 역변환하여 생성된 레지듀얼 블록을 출력하며,
가산기는 상기 예측 블록과 상기 역변환하여 생성된 레지듀얼 블록을 이용하여 상기 복원 영상을 생성하며,
상기 예측 블록, 상기 변환 유닛, 상기 양자화 유닛, 상기 인버스 양자화 유닛, 및 상기 인버스 변환 유닛은 미분 가능한 유닛들인효과적인 비디오 압축을 위한 슈퍼 레졸루션 영상 처리 방법.
제1항에 있어서, 상기 신경망은,
상기 저해상도 훈련 영상을 수신하여 상기 저해상도 훈련 영상 중 하나의 채널에 대해 컨볼루션 연산을 수행하는제1컨볼루션 레이어;
블록에 대해 압축량을 제어하는 양자화 파라미터(Quantization Parameter)에 대해 제2컨볼루션 연산을 수행하는 제2컨볼루션 레이어;
상기 제1컨볼루션 레이어에서 출력되는 컨볼루션 값과 상기 제2컨볼루션 레이어에서 출력되는 컨볼루션 값을 가산하는 가산기; 및
상기 가산기로부터 출력되는 복수의 채널들을 포함하는 텐서를 섞어 상기 신경망 출력 영상을 생성하는 셔플 레이어를 포함하는 효과적인 비디오 압축을 위한 슈퍼 레졸루션 영상 처리 방법.
제1항에 있어서, 상기 신경망을 훈련시키기 위해 상기 복원 영상을 고해상도 훈련 영상과 비교하여 손실 값을 계산하는 단계는,
상기 복원 영상과 상기 고해상도 훈련 영상의 픽셀 비교에 기초하여 제1손실 값을 계산하는 단계;
상기 복원 영상과 상기 고해상도 훈련 영상의 SSIM(Structural similarity index measure)에 기초하여 제2손실 값을 계산하는 단계;
상기 복원 영상과 상기 고해상도 훈련 영상의 유클리드 거리(Euclidean distance)에 기초하여 제3손실 값을 계산하는 단계; 및
상기 제1손실 값, 상기 제2손실 값, 및 상기 제3손실 값을 이용하여 손실 함수를 생성하는 단계를 포함하는 효과적인 비디오 압축을 위한 슈퍼 레졸루션 영상 처리 방법.
제2항에 있어서, 상기 효과적인 비디오 압축을 위한 슈퍼 레졸루션 영상 처리 방법은,
상기 양자화 유닛로부터 출력되는 양자화된 변환 계수들을 수신하여 엔트로피를 계산하는 단계를 더 포함하는 효과적인 비디오 압축을 위한 슈퍼 레졸루션 영상 처리 방법.
소스 장치를 포함하며,
상기 소스 장치는,
명령들을 실행하는 프로세서; 및
상기 명령들을 저장하는 메모리를 포함하며,
상기 명령들은,
저해상도 훈련 영상을 신경망에 적용하여 신경망 출력 신호를 생성하며,
상기 신경망 출력 신호를 수신하여 예측 블록을 생성하고,
현재 블록에서 상기 예측 블록을 감산하여 레지듀얼 블록을 생성하고, 상기 레지듀얼 블록을 변환 계수들로 변환하고,
상기 변환 계수들을 양자화된 변환 계수들로 변환하고,
상기 양자화된 변환 계수들을 반대로 양자화하며,
상기 반대로 양자화된 변환 계수들을 역변환하여 생성된 레지듀얼 블록을 출력하고 상기 예측 블록과 상기 역변환하여 생성된 레지듀얼 블록을 이용하여 복원 영상을 생성하며,
상기 신경망을 훈련시키기 위해 상기 복원 영상을 고해상도 훈련 영상과 비교하여 손실 값을 계산하도록 구현되며,
상기 저해상도 훈련 영상과 상기 고해상도 훈련 영상은 상기 신경망을 훈련시키기 위해 훈련 데이터 세트로 이용되는 효과적인 비디오 압축을 위한 슈퍼 레졸루션 영상 처리 시스템.
제6항에 있어서,
예측 블록은 상기 신경망 출력 신호를 수신하여 상기 예측 블록을 생성하며,
감산 유닛은 상기 현재 블록에서 상기 예측 블록을 감산하여 상기 레지듀얼 블록을 생성하고,
변환 유닛은 상기 레지듀얼 블록을 상기 변환 계수들로 변환하고,
양자화 유닛은 상기 변환 계수들을 상기 양자화된 변환 계수들로 변환하며,
인버스 양자화 유닛은 상기 양자화된 변환 계수들로 반대로 양자화하며,
인버스 변환 유닛은 상기 반대로 양자화된 변환 계수들을 역변환하여 생성된 레지듀얼 블록을 출력하며,
가산기는 상기 예측 블록과 상기 역변환하여 생성된 레지듀얼 블록을 이용하여 상기 복원 영상을 생성하며,
상기 예측 블록, 상기 변환 유닛, 상기 양자화 유닛, 상기 인버스 양자화 유닛, 및 상기 인버스 변환 유닛은 미분 가능한 유닛들인 효과적인 비디오 압축을 위한 슈퍼 레졸루션 영상 처리 시스템.
제6항에 있어서, 상기 손실 값을 계산하는 명령들은,
상기 복원 영상과 상기 고해상도 훈련 영상의 픽셀 비교에 기초하여 제1손실 값을 계산하며,
상기 복원 영상과 상기 고해상도 훈련 영상의 SSIM에 기초하여 제2손실 값을 계산하며,
상기 복원 영상과 상기 고해상도 훈련 영상의 유클리드 거리에 기초하여 제3손실 값을 계산하며,
상기 제1손실 값, 상기 제2손실 값, 및 상기 제3손실 값을 이용하여 손실 함수를 생성하도록 구현되는 효과적인 비디오 압축을 위한 슈퍼 레졸루션 영상 처리 시스템.