KR20190136833A

KR20190136833A - 안면 특화 초 고화질 심층 신경망 학습 장치 및 방법

Info

Publication number: KR20190136833A
Application number: KR1020180063015A
Authority: KR
Inventors: 이정우; 김기훈
Original assignee: 서울대학교산학협력단; 호두에이아이랩 주식회사
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2019-12-10
Also published as: US20190370608A1; US11288546B2; EP3588388A1; KR102184755B1

Abstract

본 발명은 안면 특화 초 고화질 심층 신경망 학습 장치로, 저화질 영상을 입력받아 원본 고화질 영상과 유사한 위조 고화질 영상으로 변환하는 생성부와, 생성부로부터 출력된 위조 고화질 영상과 원본 고화질 영상을 비교하여 진위 여부를 판별하는 판별부와, 판별부로부터 출력된 진위 여부에 따라 손실(Loss)을 산출하여 생성부에 입력하는 안면 특화 손실 계산부를 포함하되, 생성부는 손실(Loss)을 최소화시키도록 가중치를 조정하면서 학습하는 인공 신경망 학습 모델이고, 안면 특화 손실 계산부는 안면의 특징 영역에 대한 화소 정보를 반영하여 생성부의 손실을 산출한다.

Description

안면 특화 초 고화질 심층 신경망 학습 장치 및 방법{Apparatus and Method for Training Super Resolution Deep Neural Network}

본 발명은 심층 학습(Deep Learning) 기술에 관한 것으로, 특히 GAN(Generative Adversarial Network)을 이용한 영상 변환을 하는 심층 신경망 학습 장치 및 방법에 관한 것이다.

최근 심층 학습(Deep Learning)은 영상 분류, 음성 인식 등 인공 지능의 다양한 분야에서 사용되고 있다. 이러한 발전은 심층 신경망(deep neural Network)이 역전파(backpropagation)을 통하여 효과적으로 복잡한 확률 분포를 학습할 수 있기 때문이다.

특히 생성적 적대 신경망(Generative Adversarial Network: GAN)의 등장으로 인해 좀 더 효과적으로 학습 데이터의 확률 분포를 정교하게 학습할 수 있게 되었다. 즉, 생성 모델(Generative model)들로 인해 좀 더 고차원의 데이터 분포들을 모방 및 재생산이 가능해졌고, 이는 영상, 인조 음성, 복원(inpainting) 등 여러 분야에 널리 응용되고 있다. 그에 따라 낮은 화질의 영상을 고화질의 영상으로 변환시켜주는 영상 초 고화질(Single-Image Super-Resolution)를 가능하게 하는 딥 러닝 모델에 대한 연구가 이루어져 왔다.

하지만, 많은 학술적 논문들의 연구 결과는 유명 연예인들의 영상을 모아둔 유명한 데이터 셋인 CelebA, 60,000장의 32x32 이미지 데이터셋인 CIFAR-10, CIFAR-100을 대상으로 학습시킨 것이 대부분이다. 따라서, 생성된 학습 모델 또한 일반성(regularization)이 떨어지고, 학습 데이터의 화소 수가 감소되어 그 성능 또한 현저히 저하된다.

본 발명은 사람들이 주로 영상을 찍는 안면에 대해 특화되어 고성능의 결과를 출력할 수 있는 안면 특화 초 고화질 심층 신경망 학습 장치 및 방법을 제공한다.

본 발명은 안면 특화 초 고화질 심층 신경망 학습 장치로, 저화질 영상을 입력 받아 원본 고화질 영상과 유사한 위조 고화질 영상으로 변환하는 생성부와, 생성부로부터 출력된 위조 고화질 영상과 원본 고화질 영상을 비교하여 진위 여부를 판별하는 판별부와, 판별부로부터 출력된 진위 여부에 따라 생성부가 최소화시킬 손실(Loss)을 산출하여 생성부에 입력하는 안면 특화 손실 계산부를 포함하되, 생성부는 손실(Loss)을 최소화시키도록 가중치를 조정하면서 학습하는 인공 신경망 학습 모델이고, 안면 특화 손실 계산부는 안면의 특징 영역에 대한 화소 정보를 반영하여 생성부의 손실을 산출한다.

본 발명은 안면 특화 초 고화질 심층 신경망 학습 방법으로, 합성 저화질 영상을 입력받아 원본 고화질 영상과 유사한 위조 고화질 영상으로 변환하는 단계와, 위조 고화질 영상과 원본 고화질 영상을 비교하여 진위 여부를 판별하는 단계와, 진위 여부에 따라 변환하는 단계에서 최소화해야 하는 손실(Loss)을 산출하는 단계를 포함하되, 변환하는 단계는 손실(Loss)을 최소화시키도록 인공 신경망 모델의 가중치를 조정하면서 학습하고, 산출하는 단계는 안면의 특징 영역에 대한 화소 정보를 반영하여 손실을 산출한다.

발명에 따른 안면 특화 초 고화질 심층 신경망 학습 장치 및 방법은 종래 기술에 비해 다음과 같은 이점이 있다.

우선, 초 고화질(Super-Resolution)화가 대폭 향상된다. 즉, 종래에도 다양한 초 고화질 모델(Super-Resolution model)들이 존재하였으나, 특화된 영상이 아닌 일반적인 영상 전체를 대상으로 하였다. 반면, 본 발명에서는 안면, 특히 눈, 코, 입과 같은 특징 영역을 집중적으로 학습시킨 모델을 통해 안면에 특화된 고화질의 출력을 얻어낼 수 있다. 즉, 마치 DSLR 카메라로 촬영한 듯 4K 수준의 굉장히 높은 정교함을 가진 사람 안면 복원이 가능하다.

이로써, 종래의 초 고화질 모델들은 대체로 특정 데이터셋(dataset)에 머물러 있어, 일반적인 소비자의 사용 가능성을 가지지 못한 것과 달리, 본 발명은 안면에 특화하여 고해상화하는데 있어서 범용성을 갖추었고, 또한 높은 수준을 만족함으로써 일반 소비자 또는 기업들로 하여금 다양한 활용을 꾀할 수 있을 것이다.

또한, 일반적인 GAN과는 다르게 단계 손실항(Stage Loss Term)을 사용하여 좀 더 안정적이고 효과적인 학습 과정을 제공한다.

도 1은 본 발명의 일 실시 예에 따른 안면 특화 초 고화질 심층 신경망 학습 장치의 블록 구성도이다.
도 2는 본 발명에 따른 저화질 영상, 출력 영상 및 원본 영상의 일 예를 도시한 도면이다.
도 3은 본 발명의 일 실시 예에 따른 안면 특화 손실 계산부의 상세 블록 구성도이다.
도 4는 본 발명에 따른 안면 특화 맵의 일 예를 도시한 도면이다.
도 5는 본 발명의 다른 실시 예에 따른 안면 특화 초 고화질 심층 신경망 학습 장치의 블록 구성도이다.
도 6은 본 발명의 다른 실시 예에 따른 안면 특화 초 고화질 심층 신경망 학습 장치의 훈련 데이터 생성부의 블록 구성도이다.
도 7은 본 발명의 일 실시 예에 따른 안면 특화 초 고화질 심층 신경망 학습 방법을 설명하기 위한 순서도이다.
도 8은 본 발명의 다른 실시 예에 따른 안면 특화 초 고화질 심층 신경망 학습 방법을 설명하기 위한 순서도이다.

이하 첨부된 도면을 참조하여, 바람직한 실시 예에 따른 안면 특화 초 고화질 심층 신경망 학습 장치에 대해 상세히 설명하면 다음과 같다. 여기서, 동일한 구성에 대해서는 동일부호를 사용하며, 반복되는 설명, 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다. 발명의 실시형태는 당업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.

첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램인스트럭션들(실행 엔진)에 의해 수행될 수도 있으며, 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다.

이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다.

그리고 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명되는 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능들을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있으며, 몇 가지 대체 실시 예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하며, 또한 그 블록들 또는 단계들이 필요에 따라 해당하는 기능의 역순으로 수행되는 것도 가능하다.

이하, 첨부 도면을 참조하여 본 발명의 실시 예를 상세하게 설명한다. 그러나 다음에 예시하는 본 발명의 실시 예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 상술하는 실시 예에 한정되는 것은 아니다. 본 발명의 실시 예는 당업계에서 통상의 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공된다.

도 1은 본 발명의 일 실시 예에 따른 생성적 적대 신경망(Generative Adversarial Network : GAN)을 이용한 안면 특화 초 고화질 심층 신경망 학습 장치의 블록 구성도이고, 도 2는 본 발명에 따른 저화질 영상, 출력 영상 및 원본 영상의 일 예를 도시한 도면이다.

도 1을 참조하면, 안면 특화 초 고화질 심층 신경망 학습 장치는 크게 생성부(Generator)(100), 판별부(Discriminator)(200) 및 안면 특화 손실 계산부(Facial Locality Loss Term)(300)를 포함하는 적대적 생성망(Generative Adversarial Network : GAN)을 사용한다.

GAN에서 생성부(100) 및 판단부(200)는 번갈아 훈련되는데, 그 역할이 위조 지폐 제작자와 경찰의 역할과 유사하다. 즉, 범죄자들은 위조지폐를 제작하고 경찰들은 위조 여부를 구분해내는데, 범죄자들은 경찰들이 판별하지 못하도록 더욱 정교하게 지폐를 위조하게 되며 경찰들은 더욱 정밀하게 위조지폐를 판별하게 된다. 그 결과, 범죄자들은 일반인들은 결코 구분하지 못할 위조 지폐를 만들어내게 된다.

이처럼, 생성부(100)는 원본 고화질 영상와 위조 고화질 영상과의 차이를 최소화하도록 학습하게 되고, 판별부(200)는 위조 고화질 영상과 고화질 원본 영상을 구별하도록 학습된다. 그 결과, 생성부(100)는 판별부(200)가 판별하지 못하도록 더욱 정교하게 고화질 영상을 위조하도록 학습하게 되는 것이다.

생성부(100)는 입력된 도 2의 (a)에 도시된 바와 같은 합성 저화질 영상(Synthetic Low Resolution Image)을 복원하여, 도 2의 (c)에 도시된 바와 같은 원본 고화질 영상(Original High Resolution Image)과 가까운 도 2의 (b)에 도시된 바와 같은 위조 고화질 영상을 생성하는 인공 신경망 학습 모델이다. 즉, 생성부(100)는 판별부(200)를 속일 수 있는 위조 고화질 영상을 만들기 위해 학습된다.

판별부(200)는 생성부(100)가 생성한 결과물인 도 2의 (b)에 도시된 바와 같은 위조 고화질 영상과 도 2의 (c)에 도시된 바와 같은 원본 고화질 영상을 비교하여 진위(Real/Fake) 여부를 판별하여 출력한다. 판별부(200)는 원본 고화질 영상과 생성부(100)가 생성한 위조 고화질 영상을 올바로 된 라벨(label)로 예측하도록 재훈련된다.

이러한 학습과정을 통해서 판별부(200)는 위조 고화질 영상에 대한 위조 식별 성능이 향상되며, 그에 따라 생성부(100)는 판별부(200)에 의해 식별되지 않기 위해 원본 고화질 영상과 더욱 비슷한 위조 고화질 영상은 구현 성능이 향상된다.

안면 특화 손실 계산부(300)는 판별부(200)로부터 출력된 진위 여부에 따라 손실(Loss)을 산출하여 생성부(100)에 전달한다. 그러면, 생성부(100)는 손실(Loss)을 최소화하도록 인공 신경망의 가중치를 역전파(backpropagation) 방식으로 업데이트하면서 학습된다. 이때, 본 발명의 실시 예에 따라, 안면 특화 손실 계산부(300)는 안면의 눈, 코, 입, 눈썹, 턱과 같은 특징 영역에 대한 화소 정보를 미리 저장하고, 해당 특징 영역이 다른 영역에 비해 더 정교하게 묘사되도록 손실(Loss) 산출시 반영한다.

도 3은 본 발명의 일 실시 예에 따른 안면 특화 손실 계산부의 상세 블록 구성도이고, 도 4는 본 발명에 따른 안면 특화 맵의 일 예를 도시한 도면이다.

도 3을 참조하면, 안면 특화 손실 계산부(300)는 안면 특징 정보 저장부(310), 콘텐츠 손실 계산부(320) 및 역손실 산출부(330)을 포함한다.

즉, 안면 특화 손실 계산부(300)는 생성부(100)가 학습을 통해 최소화시키도록 하는 손실(Loss)

를 다음의 <수학식 1>과 같이 산출된다.

<수학식 1>에서

란 해당 영상이 갖고 있는 항목 콘텐츠가 가지고 있는 지각적 요소를 최대한 유사하게 생성되도록 하는 것으로 콘텐츠 손실 계산부(320)에 의해 산출된다.

란 해당 영상들이 갖고 있는 픽셀 단위 확률 분포도 자체를 학습하여 그 확률 분포를 갖게 하여 좀 더 그럴듯한 고화질 영상을 복원하는 효과를 위한 것으로 역손실 산출부(330)에 의해 산출된다.

콘텐츠 손실 계산부(320)는 다음의 <수학식 2> 내지 <수학식 5>를 사용하여 콘텐츠 손실

을 계산하고, 역손실 산출부(330)는 <수학식 6> 내지 <수학식 7>을 사용하여 역 손실

을 계산한다.

<수학식 2>를 참조하면,

는 고 화질 영상(High Resolution Image: HR)과 저 화질 영상(Low Resolution Image: LR)으로부터 생성부(100)가 생성한 영상의 픽셀 간 값 차이의 제곱근(Root Mean Square: RMS)인데, 이는 고전 방법에서도 많이 쓰이는 항목으로써 두 영상 간 차이를 비교하는 가장 단순한 항목으로 다음의 <수학식 3>과 같이 산출된다.

본 발명의 일 실시 예에 따라, 콘텐츠 손실 계산부(320)는 지각적 텍스처 반영부(321)를 포함할 수 있다. 즉, 지각적 텍스처 반영부(321)는 다음의 <수학식 4>와 같이 산출되는 지각적 텍스처(perceptual texture)인 vgg Loss 항목들

를 산출한다.

<수학식 2>에서

의 vgg 뒤에 붙는 22, 44, 54의 숫자는 VGG 네트워크(Network)에서의 i번째 블록(block) j번째 레이어(layer)를 의미한다. 즉, vgg22는 vgg Network의 2번째 블록의 2번째 레이어의 결과 값을 사용한다는 의미이다. 논문(Gatys, Leon, Alexander S. Ecker, and Matthias Bethge. "Texture synthesis using convolutional neural networks." Advances in Neural Information Processing Systems. 2015)에 따르면, vgg Network의 각 블록의 레이어들의 중간 결과값은 특정 크기의 지각적 텍스쳐(perceptual texture)의 특징을 잘 보여준다. 따라서, 본 발명에서는 지각적 텍스처 반영부(321)를 통해 고화질 영상과 같은 세밀하고 정교한 정도를 이 지각적 텍스쳐들에 의해 인지되도록 할 수 있다.

또한, 본 발명의 일 실시 예에 따라, 콘텐츠 손실 계산부(320)는 선명도 조정부(322)를 더 포함할 수 있다. 즉, 선명도 조정부(322)는 다음의 <수학식 5>와 같이 산출되는 그래디언트 로스(gradient loss)

를 산출하여 영상이 각 픽셀에서 갖는 순간 변화도가 유사하도록 생성해주는 것으로, 위조 고화질 영상과 원본 고화질 영상의 선명도(Sharpness)를 비슷하게 맞춰주는 역할을 한다.

<수학식 5>에서

는 각 픽셀에서 양 옆, 대각선 방향, 위 아래 픽셀간 차이를 평균(norm)을 취한 값으로써 각 픽셀에서 갖는 순간 그래디언트(Gradient) 값을 전체적으로 제곱 평균(Root Mean Square: RMS)을 취한 값이다. 또한, Lw(weight decaying)는 심층 학습망(deep learning Network)에서 많이 쓰이는 손실(Loss)로 모델(model)들이 갖는 가중치 파라미터(weight parameter)들의 변화를 최소화시키는 방향으로 학습하게 만들어 모델의 학습을 안정적으로 만들어준다.

한편, 역손실 산출부(330)는 다음의 <수학식 6>을 통해 역손실

을 산출한다.

<수학식 6>에서 산출된 역손실값

을 통해, 판별부(200)는 더욱 더 원본 고화질 영상을 '1'로, 위조 고화질 영상을 '0'으로 잘 판별하도록 가중치가 업데이트되고, 생성부(100)는 판별부(200)에게 판별당하지 않도록 위조 고화질 영상을 원본 고화질 영상와 비슷한 형태로 닮아가게 학습된다.

본 발명의 일 실시 예에 따라, 역손실 산출부(330)는 특징 영역 손실 반영부(333)을 더 포함하여, 안면 특징 정보 저장부(310)에 저장된 안면 맵을 통해 눈, 코, 입, 턱 등의 특징 영역에 해당하는 픽셀(x,y 좌표)값들의 집합 정보를 역손실값에 반영한다. 안면 특화(Facial Locality)를 사용한 손실(Loss) 항목

을 다음의 <수학식 7>과 같이 생성하여 합산한다.

즉, 역손실 산출부(330)는 안면 전체 영역에 대한 역손실값에 특징 영역의 화소들의 역 손실을 부가하므로, 눈, 코 입 등의 특징 영역들의 특성을 더욱 잘 살려 위조 고화질 영상을 생성할 수 있도록 한다.

도 5는 본 발명의 다른 실시 예에 따른 안면 특화 초 고화질 심층 신경망 학습 장치의 블록 구성도이다.

도 5를 참조하면, 안면 특화 초 고화질 심층 신경망 학습 장치는 다수의 서브 안면 특화 초 고화질 심층 신경망 학습 장치들(1, 2,...,m)이 캐스케이드(cascade)된 형태로 stage 1, stage 2,...stage m의 단계(stage)를 형성할 수 있다.

서브 안면 특화 초 고화질 심층 신경망 학습 장치들(1, 2,...,m)의 상세 구성은 도 1에 도시된 것과 동일하므로 상세한 설명을 생략하기로 한다.

다만, 생성부 1(100-1), 생성부 2(100-2), ..., 생성부(100-m)은 2배 화질 향상시킬 수 있다.

또한, 안면 특화 초 고화질 심층 신경망 학습 장치는 훈련 데이터 생성부(400)를 더 포함하고, 각 생성부(100-1) 및 판별부(200-1, 200-2, ...200-m)에 각각 훈련 데이터를 분배한다.

도 6은 본 발명의 다른 실시 예에 따른 안면 특화 초 고화질 심층 신경망 학습 장치의 훈련 데이터 생성부의 블록 구성도이다.

도 6을 참조하면, 훈련 데이터 생성부(400)는 훈련 데이터 저장부(410), 다운 샘플링부(420) 및 훈련 데이터 분배부(430)을 포함한다.

다운 샘플링부(420)는 원본 고화질 영상(HR)을 1/2ⁿ 배(n은 1에서 m까지의 정수)로 다운 샘플링(Down sampling)된 훈련 영상들을 생성하여 훈련 데이터 저장부(410)에 저장한다. 여기서, 평균 풀링(average pooling) 및 랜덤 시그마 가우시안 필터(random sigma Gaussian filter)를 사용하여 다운 샘플링될 수 있다. 예컨대, 서브 안면 특화 초 고화질 심층 신경망 학습 장치들(1, 2,...,m)의 갯수 m이 3일 경우, 1/2, 1/4, 1/8배 다운 샘플링한 HR/2, HR/4, HR/8의 영상을 생성한다.

도 5를 참조하면, 훈련 데이터 생성부(400)의 훈련 데이터 분배부(430)는 생성부 1(100-1)에 1/2^m 배로 다운 샘플링된 훈련 영상을 저화질 영상으로 입력시키고, 제n 판별부(200-1, 200-2,...200-m)에 1/2^m-n 배로 다운 샘플링된 훈련 영상을 고화질 영상으로 입력시킨다.

예컨대, 서브 안면 특화 초 고화질 심층 신경망 학습 장치들(1, 2,...,m)의 갯수 m이 3일 경우, 생성부 1(100-1)에는 HR/8의 영상이 저화질 영상(LR)으로 입력된다. 그러면, 생성부 1(100-1)는 LR의 2배 해상도를 높인 위조 고화질 영상, 즉 HR/4에 상응하는 영상을 출력하게 된다. 그러면, 판별부 1(200-1)은 HR/4인 훈련 데이터가 원본 고화질 영상으로 입력되고, 생성부 1(100-1)가 출력한 LR*2의 위조 고화질 영상을 입력받아 두 영상 간의 동일성 여부를 판별하게 된다.

다음으로, 생성부 2(100-2)에는 생성부 1(100-1)가 출력한 LR*2의 위조 고화질 영상이 저화질 영상으로 입력된다. 그러면, 생성부 2(100-2)는 LR*2의 2배 해상도를 높인 위조 고화질 영상, 즉 HR/2에 상응하는 영상을 출력하게 된다. 그러면, 판별부 2(200-2)은 HR/2인 훈련 데이터가 원본 고화질 영상으로 입력되고, 생성부 2(100-2)가 출력한 LR*4의 위조 고화질 영상을 입력 받아 두 영상 간의 동일성 여부를 판별하게 된다.

마지막으로, 생성부 3(100-3)에는 생성부 2(100-2)가 출력한 LR*4의 위조 고화질 영상이 저화질 영상으로 입력된다. 그러면, 생성부 3(100-3)는 LR*4의 2배 해상도를 높인 위조 고화질 영상, 즉 HR에 상응하는 영상을 출력하게 된다. 그러면, 판별부 3(200-3)은 HR인 원본 고화질 영상을 입력 받아, 생성부 3(100-3)가 출력한 LR*8의 위조 고화질 영상을 입력 받아 두 영상 간의 동일성 여부를 판별하게 된다.

결론적으로, 전술한 바와 같은 단계별로 안면 특화 초 고화질 영상 변환 학습 모델을 통해 생성부 3(100-3)는 위조 고화질 영상(LR*8)을 생성하고, 판별부 3(200-3)은 위조 고화질 영상(LR*8)을 원본 고화질 영상(HR)의 진위 여부를 판별할 수 있게 되었다.

현재 주로 사용되는 생성부는 8배 초 해상도(Super Resolution) 향상키는 것으로, 한번에 8배 고화질화할 경우 학습량이 학습 모델로 하여금 복잡도를 크게 증가시킬 수 있어, 학습의 안정성 및 속도 면에서 한계를 지닐 수 있다.

그런데, 전술한 바와 같이 학습 데이터를 다운 샘플링하고, 다운 샘플링된 학습 데이터를 이용하여 2배 고화질화하는 생성부를 통해 단계적(Stage)으로 학습시키면, 학습의 안정성과 속도가 보장될 뿐만 아니라 그 성능이 크게 향상된다.

도 7은 본 발명의 일 실시 예에 따른 생성적 적대 신경망(Generative Adversarial Network : GAN)을 이용한 안면 특화 초 고화질 심층 신경망 학습 방법을 설명하기 위한 순서도이다.

도 7을 참조하면, 안면 특화 초 고화질 심층 신경망 학습 방법은 크게 합성 저화질 영상을 입력받아 원본 고화질 영상과 유사한 위조 고화질 영상으로 변환하는 단계(S610)와, 위조 고화질 영상과 원본 고화질 영상을 비교하여 진위 여부를 판별하는 단계(S620)와, 판"瀕? 진위 여부에 따라 변환하는 단계에서 최소화해야 하는 손실(Loss)을 산출하는 단계(S630)를 포함한다.

여기서, 변환하는 단계(S610) 및 판별하는 단계(S620)는 도 1에 도시된 생성망(100) 및 판별망(200)인 인공 신경망 학습 모델에 의해 수행되는데, S630에 의해 산출된 손실에 따라, 변환하는 단계(S610)는 손실(Loss)을 최소화시키도록 인공 신경망 모델의 가중치를 역전파 방식으로 업데이트하면서 학습하고, 판별하는 단계(S620)는 생성한 위조 고화질 영상을 올바로 된 라벨(label)로 예측하도록 재훈련된다(S640).

이러한 학습과정을 통해서 판별하는 단계(S620)에서 위조 고화질 영상에 대한 위조 식별 성능이 향상되며, 그에 따라 변환하는 단계(S610)에서는 판별하는 단계(S620)는 판별하는 단계(S620)에 의해 식별되지 않기 위해 원본 고화질 영상과 더욱 비슷한 위조 고화질 영상은 구현 성능이 향상된다.

또한, 본 발명의 실시 예에 따라, 안면 특화 손실 산출부(300)에 의해 수행되는 산출하는 단계(S630)는 전술한 <수학식 1> 내지 <수학식 7>에 의해 산출되는데, 특히 안면의 눈, 코, 입, 눈썹, 턱과 같은 특징 영역에 대한 화소 정보를 미리 저장하고, 해당 특징 영역이 다른 영역에 비해 더 정교하게 묘사되도록 손실(Loss) 산출시 반영한다.

도 8은 본 발명의 다른 실시 예에 따른 안면 특화 초 고화질 심층 신경망 학습 방법을 설명하기 위한 순서도이다.

도 8을 참조하면, 안면 특화 초 고화질 심층 신경망 학습 방법은 도 7에 도시된 안면 특화 초 고화질 심층 신경망 학습 방법을 다단계로 수 회 수행하는 것일 수 있다. 즉, 도 5에 도시된 안면 특화 초 고화질 심층 신경망 학습 장치에 구비된 단계별 서브 안면 특화 초 고화질 심층 신경망 학습 장치들에 의해 수행되는 것일 수 있다.

도 8을 참조하면, 안면 특화 초 고화질 심층 신경망 학습 장치는 원본 고화질 영상(HR)을 1/2ⁿ 배(n은 1에서 m까지의 정수, m은 안면 특화 초 고화질 심층 신경망 학습 방법의 단계들의 갯수)로 다운 샘플링(Down sampling)된 훈련 영상들을 생성한다(S710). 여기서, 평균 풀링(average pooling) 및 랜덤 시그마 가우시안 필터(random sigma Gaussian filter)를 사용하여 다운 샘플링될 수 있다. 예컨대, 서브 안면 특화 초 고화질 심층 신경망 학습 방법 단계들(1, 2,...,m)의 갯수 m이 3일 경우, 1/2, 1/4, 1/8배 다운 샘플링한 HR/2, HR/4, HR/8의 영상을 생성한다.

그런 후, 안면 특화 초 고화질 심층 신경망 학습 장치는 현재 단계(n)를 1로 하고(S720), 1/2^m 배로 다운 샘플링된 훈련 영상을 저화질 영상으로 변환하여 1번째 위조 고화질 영상을 생성한다(S730).

그런 후, 안면 특화 초 고화질 심층 신경망 학습 장치는 1/2^m-n 배로 다운 샘플링된 훈련 영상을 고화질 영상과 n번째 위조 고화질 영상을 판별하여 진위 여부를 판별한다(S740).

그런 후, 안면 특화 초 고화질 심층 신경망 학습 장치는 S740의 진위 판별 결과에 따라, 손실(Loss)을 산출한다(S750). 이때, 본 발명의 실시 예에 따라, 전술한 <수학식 1> 내지 <수학식 7>에 의해 산출되는데, 특히 안면의 눈, 코, 입, 눈썹, 턱과 같은 특징 영역에 대한 화소 정보를 미리 저장하고, 해당 특징 영역이 다른 영역에 비해 더 정교하게 묘사되도록 손실(Loss) 산출시 반영한다.

그런 후, 안면 특화 초 고화질 심층 신경망 학습 장치는 산출된 손실에 따라, S730에서 사용되는 인공 신경망 학습 모델의 손실(Loss)을 최소화시키도록 가중치를 역전파 방식으로 업데이트하면서 학습하고, S740에서 사용되는 인공 신경망 학습 모델에서 생성한 위조 고화질 영상을 올바로 된 라벨(label)로 예측하도록 재훈련된다(S760).

그와 동시에, 안면 특화 초 고화질 심층 신경망 학습 장치는 현재 단계 n이 전체 단계들의 개수 m과 동일한지를 판단한다(S770).

S770의 판단 결과, n이 m과 동일하지 않을 경우, 즉 수행해야 할 단계들이 더 남아있을 경우, 안면 특화 초 고화질 심층 신경망 학습 장치는 n을 n+1로 업데이트(S780)하고, n-1 단계에서 생성된 위조 고화질 영상을 변환하여 n 단계의 위조 고화질 영상을 생성한다(S780). 그런 후, S740 내지 S770을 반복한다.

한편, S770의 판단 결과, n이 m과 동일할 경우, 즉 수행해야 할 단계들이 모두 수행되었을 경우, 안면 특화 초 고화질 심층 신경망 학습 장치는 학습 방법을 종료한다.

Claims

합성 저화질 영상을 입력받아 원본 고화질 영상과 유사한 위조 고화질 영상으로 변환하는 생성부와,
생성부로부터 출력된 위조 고화질 영상과 원본 고화질 영상을 비교하여 진위 여부를 판별하는 판별부와,
판별부로부터 출력된 진위 여부에 따라 생성부가 최소화해야 하는 손실(Loss)을 산출하여 생성부에 입력하는 안면 특화 손실 계산부를 포함하되,
생성부는
손실(Loss)을 최소화시키도록 가중치를 조정하면서 학습하는 인공 신경망 학습 모델이고,
안면 특화 손실 계산부는
안면의 특징 영역에 대한 화소 정보를 반영하여 생성부의 손실을 산출하는 안면 특화 초 고화질 심층 신경망 학습 장치.
제 1항에 있어서,
안면 특화 초 고화질 심층 신경망 학습 장치는 복수 개(m 개)가 캐스케이드(cascade)되고,
원본 고화질 영상을 1/2ⁿ 배(n은 1에서 m까지의 정수)로 다운 샘플링(Down sampling)된 훈련 영상들을 생성하는 훈련 데이터 생성부를 더 포함하고,
훈련 데이터 생성부는
제1 생성부에 1/2^m 배로 다운 샘플링된 훈련 영상을 저화질 영상으로 입력시키고, 제n 판별부에 1/2^m-n 배로 다운 샘플링된 훈련 영상을 고화질 영상으로 입력시키는 안면 특화 초 고화질 심층 신경망 학습 장치.
제 2항에 있어서, 훈련 데이터 생성부는
평균 풀링(average pooling) 및 랜덤 시그마 가우시안 필터(random sigma Gaussian filter)를 사용함을 특징으로 하는 안면 특화 초 고화질 심층 신경망 학습 장치.
제1 항 또는 제2항에 있어서, 안면 특화 손실 계산부는
VGG 네트워크(Network)에서의 i번째 블록(block) j번째 레이어(layer)를 의미하는
ij를 생성부의 손실에 반영하되,
(i, j)가 (2, 2), (4, 4) 및 (5, 4) 중 적어도 하나인 안면 특화 초 고화질 심층 신경망 학습 장치.
제1 항 또는 제2 항에 있어서, 안면 특화 손실 계산부는
영상의 각 픽셀에서 좌우, 대각선 방향, 상하 픽셀 간 차이의 평균(norm)을 취한 값으로써 각 픽셀에서 갖는 순간 그래디언트(Gradient) 값을 전체적으로 제곱 평균(Root Mean Square : RMS)을 취한 값인 그래디언트 손실(gradient loss)를 산출하여 생성부의 손실에 반영하는 안면 특화 초 고화질 심층 신경망 학습 장치.
합성 저화질 영상을 입력받아 원본 고화질 영상과 유사한 위조 고화질 영상으로 변환하는 단계와,
위조 고화질 영상과 원본 고화질 영상을 비교하여 진위 여부를 판별하는 단계와,
진위 여부에 따라 변환하는 단계에서 최소화해야 하는 손실(Loss)을 산출하는 단계를 포함하되,
변환하는 단계는
손실(Loss)을 최소화시키도록 인공 신경망 모델의 가중치를 조정하면서 학습하고,
산출하는 단계는
안면의 특징 영역에 대한 화소 정보를 반영하여 손실을 산출하는 안면 특화 초 고화질 심층 신경망 학습 방법.
원본 고화질 영상을 1/2ⁿ 배(n은 1에서 m까지의 정수)로 다운 샘플링(Down sampling)된 훈련 영상들을 생성하는 단계와,
현재 단계(n)를 1로 하고, 1/2^m 배로 다운 샘플링된 훈련 영상을 저화질 영상으로 변환하여 1번째 위조 고화질 영상을 생성하는 단계와,
1/2^m-n배로 다운 샘플링된 훈련 영상을 고화질 영상과 n번째 위조 고화질 영상을 판별하여 진위 여부를 판별하는 단계와,
진위 판별 결과에 따라, 손실(Loss)을 산출하는 단계와,
산출된 손실에 따라, 생성하는 단계에서 사용되는 인공 신경망 학습 모델의 손실(Loss)을 최소화시키도록 가중치를 역전파 방식으로 업데이트하면서 재학습하는 단계와,
현재 단계(n)이 m과 동일한지를 판단하는 단계와,
현재 단계(n)이 m과 동일하지 않을 경우, n을 n+1로 업데이트하고 n-1 단계에서 생성된 위조 고화질 영상을 변환하여 n 단계의 위조 고화질 영상을 생성하는 단계를 수행한 후, 판별하는 단계, 산출하는 단계, 재학습하는 단계 및 판단하는 단계를 순차적으로 반복함을 특징으로 하는 영상 변환 학습 모델 생성 방법.
제 7항에 있어서, 산출하는 단계는
안면의 특징 영역에 대한 화소 정보를 반영하여 손실을 산출하는 안면 특화 초 고화질 심층 신경망 학습 방법.