KR20190100320A

KR20190100320A - 이미지 처리를 위한 신경망 모델 훈련 방법, 장치 및 저장 매체

Info

Publication number: KR20190100320A
Application number: KR1020197021770A
Authority: KR
Inventors: 하오지 황; 하오 왕; 원한 루오; 린 마; 펑 양; 웬하오 장; 샤오룽 주; 웨이 류
Original assignee: 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date: 2017-03-08
Filing date: 2018-02-09
Publication date: 2019-08-28
Also published as: EP3540637B1; US10970600B2; KR102281017B1; CN108304755A; EP3540637A4; US20190228264A1; TW201833867A; JP2019534520A; TWI672667B; EP3540637A1; WO2018161775A1; US11610082B2; CN108304755B; JP6755395B2; US20210182616A1

Abstract

이미지 처리를 위한 신경망 모델 훈련 방법, 장치, 및 저장 매체가 개시된다. 신경망 모델 훈련 방법은, 복수의 시간적으로 인접한 비디오 프레임을 획득하는 단계(S202); 신경망 모델이 대응하는 중간 이미지를 출력할 수 있도록, 신경망 모델이 각각 복수의 비디오 프레임을 처리하게 하는 단계(S204); 복수의 시간적으로 인접한 비디오 프레임으로부터, 더 이른 시간 위치의 비디오 프레임이 더 나중의 시간 위치(S206)의 비디오 프레임으로 변경되는 광흐름 정보를 획득하는 단계; 광흐름 정보에 따라 변경된 더 이른 시간 위치의 비디오 프레임에 대응하는 중간 이미지의 이미지를 획득하는 단계(S208); 더 나중의 시간 위치의 비디오 프레임에 대응하는 중간 이미지와 변경된 이미지 (S210) 사이의 시간 손실을 획득하는 단계; 복수의 시간적으로 인접한 비디오 프레임에 대응하는 중간 이미지와 목표 특징 이미지 사이의 특징 손실을 획득하는 단계(S212); 및 시간 손실과 특징 손실에 따라 신경망 모델을 조정하고, 복수의 시간적으로 인접한 비디오 프레임을 획득하는 단계로 되돌아가며, 신경망 모델이 훈련 종료 조건을 만족할 때까지 훈련을 계속하는 단계(S214)를 포함한다.

Description

이미지 처리를 위한 신경망 모델 훈련 방법, 장치 및 저장 매체

본 출원은 2017년 3월 8일에 중국 특허청에 출원된 중국 특허출원 제201710136471.9호("METHOD AND APPARATUS FOR TRAINING NEURAL NETWORK MODEL USED FOR IMAGE PROCESSING AND STORAGE MEDIUM")에 대해 우선권을 주장하는 바이며, 그 전체 내용이 원용에 의해 본 명세서에 포함된다.

본 출원은 컴퓨터 기술 분야에 관한 것으로, 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법과 장치, 및 저장 매체에 관한 것이다.

컴퓨터 기술이 발전함에 따라, 이미지 처리 기술에서, 신경망 모델이 대개 이미지의 특징에 대해 변환 처리, 예컨대 이미지 색상 특징 변환, 이미지 명암 특징 변환(image light and shadow feature conversion), 또는 이미지 스타일 특징 변환을 수행하는 데 사용된다. 이미지에 대해 신경망 모델을 통해 특징 변환 처리가 수행되기 전에, 이미지 처리에 사용되는 신경망 모델이 미리 훈련될 필요가 있다.

본 출원의 실시예는 전자 장치에 적용되는, 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법을 제공한다. 상기 신경망 모델을 훈련시키기 위한 방법은,

시간적으로 인접한 복수의 비디오 프레임을 획득하는 단계;

상기 신경망 모델이 각각의 비디오 프레임에 대응하는 중간 이미지를 출력할 수 있도록, 상기 신경망 모델을 통해 상기 복수의 비디오 프레임 각각을 처리하는 단계;

시간적으로 인접한 상기 복수의 비디오 프레임 중 이전 비디오 프레임에서 후속 비디오 프레임으로의 변경에 관한 광흐름 정보(optical flow information)를 획득하는 단계 - 상기 이전 비디오 프레임은 상기 후속 비디오 프레임보다 시간적으로 빠름 -;

상기 이전 비디오 프레임에 대응하는 중간 이미지가 상기 광흐름 정보에 따라 변경된 후에 획득되는 이미지를 획득하는 단계;

상기 후속 비디오 프레임에 대응하는 중간 이미지와 상기 획득된 이미지 사이의 시간 손실을 획득하는 단계;

시간적으로 인접한 상기 복수의 비디오 프레임 각각에 대응하는 상기 중간 이미지 각각과 목표 특징 이미지(target feature image) 사이의 특징 손실을 획득하는 단계; 및

상기 시간 손실과 상기 특징 손실에 따라 상기 신경망 모델을 조정하고, 상기 신경망 모델이 훈련 종료 조건을 만족할 때까지 훈련을 계속하기 위해 상기 시간적으로 인접한 복수의 비디오 프레임을 획득하는 단계로 되돌아가는 단계를 포함한다.

본 출원의 실시예는 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 장치를 제공한다. 상기 신경망 모델을 훈련시키기 위한 장치는 프로세서와 상기 프로세서에 연결된 메모리를 포함하고, 상기 메모리는 상기 프로세서에 의해 실행되는 기계 판독가능 명령 모듈을 저장하며, 상기 기계 판독가능 명령 모듈은,

시간적으로 인접한 복수의 비디오 프레임을 획득하도록 구성된 입력 획득 모듈;

상기 신경망 모델이 각각의 비디오 프레임에 대응하는 중간 이미지를 출력할 수 있도록, 상기 신경망 모델을 통해 상기 복수의 비디오 프레임 각각을 처리하도록 구성된 출력 획득 모듈;

시간적으로 인접한 상기 복수의 비디오 프레임 중 이전 비디오 프레임에서 후속 비디오 프레임으로의 변경에 관한 광흐름 정보를 획득하고 - 여기서, 상기 이전 비디오 프레임은 상기 후속 비디오 프레임보다 시간적으로 빠름 -; 상기 이전 비디오 프레임에 대응하는 중간 이미지가 상기 광흐름 정보에 따라 변경된 후에 획득되는 이미지를 획득하며; 상기 후속 비디오 프레임에 대응하는 중간 이미지와 상기 획득된 이미지 사이의 시간 손실을 획득하고; 시간적으로 인접한 상기 복수의 비디오 프레임 각각에 대응하는 상기 중간 이미지 각각과 목표 특징 이미지(target feature image) 사이의 특징 손실을 획득하도록 구성된 손실 획득 모듈; 및

상기 시간 손실과 상기 특징 손실에 따라 상기 신경망 모델을 조정하고, 상기 신경망 모델이 훈련 종료 조건을 만족할 때까지 훈련을 계속하기 위해 상기 시간적으로 인접한 복수의 비디오 프레임을 획득하는 단계로 되돌아가도록 구성된 모델 조정 모듈을 포함한다.

본 출원의 실시예는 비휘발성 컴퓨터 판독가능 저장매체를 추가로 제공한다. 상기 비휘발성 컴퓨터 판독가능 저장매체는 기계 판독가능 명령을 저장하고, 상기 기계 판독가능 명령은,

시간적으로 인접한 복수의 비디오 프레임을 획득하는 조작;

상기 신경망 모델이 각각의 비디오 프레임에 대응하는 중간 이미지를 출력할 수 있도록, 상기 신경망 모델을 통해 상기 복수의 비디오 프레임 각각을 처리하는 조작;

시간적으로 인접한 상기 복수의 비디오 프레임 중 이전 비디오 프레임에서 후속 비디오 프레임으로의 변경에 관한 광흐름 정보를 획득하는 조작 - 상기 이전 비디오 프레임은 상기 후속 비디오 프레임보다 시간적으로 빠름 -;

상기 이전 비디오 프레임에 대응하는 중간 이미지가 상기 광흐름 정보에 따라 변경된 후에 획득되는 이미지를 획득하는 조작;

상기 후속 비디오 프레임에 대응하는 중간 이미지와 상기 획득된 이미지 사이의 시간 손실을 획득하는 조작;

시간적으로 인접한 상기 복수의 비디오 프레임 각각에 대응하는 상기 중간 이미지 각각과 목표 특징 이미지 사이의 특징 손실을 획득하는 조작; 및

상기 시간 손실과 상기 특징 손실에 따라 상기 신경망 모델을 조정하고, 상기 신경망 모델이 훈련 종료 조건을 만족할 때까지 훈련을 계속하기 위해 상기 시간적으로 인접한 복수의 비디오 프레임을 획득하는 단계로 되돌아가는 조작을 구현하기 위해 프로세서에 의해 실행된다.

도 1a는 본 출원의 실시예에 따른 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법의 구현 환경을 개략적으로 나타낸 도면이다.
도 1b는 본 출원의 일 실시예에 따른 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법을 구현하기 위한 전자 장치의 내부 구조를 개략적으로 나타낸 도면이다.
도 2는 본 출원의 일 실시예에 따른 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법을 개략적으로 나타낸 흐름도이다.
도 3은 본 출원의 다른 실시예에 따른 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법을 개략적으로 나타낸 흐름도이다.
도 4는 본 출원의 일 실시예에 따른 이미지 처리에 사용되는 신경망 모델의 훈련 아키텍처를 개략적으로 나타낸 도면이다.
도 5는 본 출원의 일 실시예에 따른 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 장치를 나타낸 구조 블록도이다.
도 6은 본 출원의 실시예에 따른 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 장치를 나타낸 다른 구조 블록도이다.

본 출원의 목적, 기술적 해결책, 및 이점을 보다 명확하고 이해하기 쉽도록, 첨부 도면과 실시예를 참조하여 본 출원에 대해 더 상세하게 설명한다. 본 명세서에서 설명되는 특정 실시예가 본 출원을 설명하는 데 사용되지만 본 출원을 한정하려는 것이 아니라고 이해해야 한다.

기존의 신경망 모델 훈련 방법을 이용하여 훈련되는, 이미지 처리에 사용되는 신경망 모델이 비디오에 대해 특징 변환(feature conversion)을 수행하는 경우, 비디오 프레임들 간의 시간 일관성(time consistency)을 고려하지 않기 때문에, 다량의 플리커 잡음이 유입되어 비디오의 특징 변환 효과가 비교적 열악하다.

상기 관점에서, 본 출원의 실시예는 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법과 장치, 및 저장 매체를 제공한다. 신경망 모델이 훈련되는 경우, 시간 손실과 특징 손실이 피드백 및 조정 기초로서 함께 사용되어 신경망 모델을 조정함으로써, 이미지 처리에 사용되는 신경망 모델이 훈련을 통해 얻어진다. 신경망 모델이 훈련되는 경우, 시간적으로 인접한 비디오 프레임이 입력으로서 사용되고, 이전 비디오 프레임에서 후속 비디오 프레임으로의 변경에 관한 광흐름 정보(optical flow information)에 따라 이전 비디오 프레임에 대응하는 중간 이미지가 변경되어 후속 비디오 프레임에 대응하도록 예상된 중간 이미지를 획득함으로써, 시간 손실을 획득한다. 시간 손실은 각각의 시간적으로 인접한 비디오 프레임에 대응하는 중간 이미지들 사이의 시간 일관성에 있어서의 손실을 반영하고 있다. 훈련된 신경망 모델이 비디오에 대해 특징 변환을 수행하는 경우, 비디오의 비디오 프레임들 간의 시간 일관성이 고려됨으로써, 특징 변환 과정에서 유입되는 플리커 잡음을 크게 줄이고, 따라서 비디오에 대한 특징 변환의 변환 효과를 개선한다. 또한, 신경망 모델의 계산 및 전자 장치의 프로세서의 성능이 함께 조합되어 비디오 이미지를 처리함으로써, 비디오 이미지의 특징 변환 효과를 희생하지 않고 프로세서의 계산 속도를 개선하고, 따라서 이미지 처리에 사용되는 더 나은 신경망 모델을 생성한다.

도 1a는 본 출원의 실시예에 따른 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법의 구현 환경을 개략적으로 나타낸 도면이다. 전자 장치(1)가 본 출원의 임의의 실시예에 의해 제공되는, 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 장치(11)와 통합되어 있다. 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 장치(11)는 본 출원의 어느 실시예에 의해 제공되는 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법을 구현하는 데 사용된다. 전자 장치(1)와 사용자 단말기(2)가 네트워크(3)를 통해 연결되고, 네트워크(3)는 유선 네트워크 또는 무선 네트워크일 수 있다.

도 1b는 본 출원의 실시예에 따른 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법을 구현하기 위한 전자 장치의 내부 구조를 개략적으로 나타낸 도면이다. 도 1b를 참조하면, 전자 장치는 프로세서(102), 비휘발성 저장 매체(103), 및 시스템 버스(101)를 통해 연결된 메모리(104)를 포함한다. 전자 장치의 비휘발성 저장 매체(103)는 운영체제(1031)를 저장하고, 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 장치(1032)를 추가로 저장한다. 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 장치(1032)는 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법을 구현하도록 구성된다. 전자 장치의 프로세서(102)는 전체 전자 장치의 실행을 지원하기 위해 계산 능력과 제어 능력을 제공하도록 구성된다. 전자 장치 내의 메모리(104)는 비휘발성 저장 매체(103)에서 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 장치를 실행하기 위한 환경을 제공한다. 메모리(104)는 컴퓨터 판독가능 명령을 저장할 수 있다. 프로세서(102)에 의해 실행되는 경우, 컴퓨터 판독가능 명령은 프로세서(102)로 하여금 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법을 수행할 수 있게 한다. 전자 장치는 단말기일 수 있거나 또는 서버일 수 있다. 단말기는 개인용 컴퓨터 또는 모바일 전자 장치일 수 있다. 전자 장치는 스마트폰, 또는 태블릿 컴퓨터, 또는 개인 정보 단말기(personal digital assistant), 또는 웨어러블 장치 중 적어도 하나를 포함한다. 상기 서버는 독립적인 서버 또는 복수의 물리적 서버를 포함하는 서버 클러스터에 의해 구현될 수 있다. 당업자라면, 도 1b의 블록도에 도시된 구조가 본 출원의 해결책과 연관된 일부 구조에 불과하며, 도 1b가 본 출원의 해결책이 적용되는 전자 장치를 한정하지 않는다고 이해할 수 있을 것이다. 구체적으로, 전자 장치는 도 1b에 도시된 구성 요소보다 많거나 적은 구성 요소를 포함할 수 있거나, 또는 일부 구성 요소들이 결합되어 있을 수 있거나, 또는 서로 다른 구성 요소 배치가 사용될 수 있다.

도 2는 본 출원의 실시예에 따른 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법을 개략적으로 나타낸 흐름도이다. 상기 신경망 모델을 훈련시키기 위한 방법이 도 1b의 전자 장치에 적용되는 예를 이용하여 본 실시예에 대해 주로 설명한다. 도 2를 참조하면, 상기 신경망 모델을 훈련시키기 위한 방법은 구체적으로 다음의 단계를 포함한다.

단계 S202: 시간적으로 인접한 복수의 비디오 프레임을 획득한다.

구체적으로, 비디오란 시간순(chronological order)으로 배열되는 정적 이미지 시퀀스로 분할될 수 있는 데이터를 말한다. 비디오를 분할하여 얻어진 정적 이미지가 비디오 프레임으로서 사용될 수 있다. 시간적으로 인접한 비디오 프레임은 시간순으로 정렬된 비디오 프레임 중 인접한 비디오 프레임이다. 시간적으로 인접한 상기 획득된 비디오 프레임은 구체적으로, 2개 이상의 시간적으로 인접한 비디오 프레임일 수 있다. 예를 들어, 시간순으로 배열된 비디오 프레임이 p1, p2, p3, p4, … 이면, p1과 p2가 시간적으로 인접한 비디오 프레임이고, p1, p2, 및 p3도 시간적으로 인접한 비디오 프레임이다.

본 출원의 일 실시예에서, 전자 장치에는 훈련 샘플 세트(training sample set)가 제공되고, 훈련 샘플 세트는 복수의 그룹의 시간적으로 인접한 비디오 프레임을 저장하고 있다. 전자 장치는 상기 훈련 샘플 세트로부터 어느 그룹의 시간적으로 인접한 비디오 프레임을 획득할 수 있다. 훈련 샘플 세트 내의 시간적으로 인접한 비디오 프레임은, 전자 장치가 인터넷으로부터 획득한 비디오를 분할하여 획득할 수 있거나 또는 전자 장치가 전자 장치에 포함된 카메라 장치에 의해 기록된 비디오를 분할하여 획득할 수 있다.

본 출원의 실시예에서, 복수의 훈련 샘플 세트가 전자 장치에 제공될 수 있고, 각각의 훈련 샘플 세트에는 대응하는 훈련 샘플 세트 식별자가 제공된다. 사용자가 전자 장치를 이용하여 훈련 샘플 세트에 접근하고, 전자 장치를 이용하여 훈련을 위한 훈련 샘플 세트를 선택할 수 있다. 전자 장치는 사용자에 의해 트리거되고 또한 훈련 샘플 세트 식별자를 싣고 있는 선택 명령을 검출할 수 있고, 전자 장치는 선택 명령 내의 훈련 샘플 세트 식별자를 추출하며, 훈련 샘플 세트 식별자에 대응하는 훈련 샘플 세트로부터 시간적으로 인접한 비디오 프레임을 획득한다.

단계 S204: 신경망 모델이 각각의 비디오 프레임에 대응하는 중간 이미지를 출력할 수 있도록, 신경망 모델을 통해 복수의 비디오 프레임 각각을 처리한다.

신경망 모델은 서로 연결된 복수의 계층에 의해 형성된 복잡한 네트워크 모델이다. 본 실시예에서, 전자 장치는 신경망 모델을 훈련시킬 수 있고, 훈련이 종료된 후에 획득된 신경망 모델은 이미지 처리에 사용될 수 있다. 신경망 모델은 복수의 특징 변환 계층(feature conversion layer)을 포함할 수 있고, 각각의 특징 변환 계층은 대응하는 비선형 변이 연산자(nonlinear variation operator)를 가지고 있다. 각각의 계층은 복수의 비선형 변이 연산자를 가지고 있을 수 있고, 각각의 특징 변환 계층 내의 비선형 변이 연산자는 입력된 이미지에 대해 비선형 변이를 수행함으로써, 연산 결과로서의 특징 맵을 얻는다. 각각의 특징 변환 계층은 이전 계층의 연산 결과를 수신하고, 특징 변환 계층 자체의 연산을 통해, 이전 계층의 연산 결과를 다음 계층에 출력한다.

구체적으로, 시간적으로 인접한 비디오 프레임을 획득한 후에, 전자 장치는 시간적으로 인접한 비디오 프레임을 각각 신경망 모델에 입력하고, 시간적으로 인접한 비디오 프레임은 신경망 모델의 특징 변환 계층을 순차적으로 통과한다. 각각의 특징 변환 계층에서, 전자 장치는 특징 변환 계층에 대응하는 비선형 변이 연산자를 이용하여, 이전의 계층에 의해 출력된 특징 맵에 포함된 픽셀에 대응하는 픽셀 값에 대해 비선형 변이를 수행하고, 현재 특징 변환 계층 상에 특징 맵을 출력한다. 현재의 특징 변환 계층이 첫번째 단계(first stage)의 특징 변환 계층이면, 이전 계층에 의해 출력된 특징 맵은 입력된 비디오 프레임이다. 픽셀에 대응하는 픽셀 값은 구체적으로 픽셀의 RGB(Red Green Blue) 3-채널 색상 값일 수 있다.

예를 들어, 본 출원의 일 실시예에서, 훈련될 필요가 있는 신경망 모델은 구체적으로, 3개의 콘볼루션 계층(convolution layer), 5개의 잔류 모듈(residual module), 2개의 디콘볼루션 계층(deconvolution layer), 및 하나의 콘볼루션 계층을 포함할 수 있다. 전자 장치가 비디오 프레임을 신경망 모델에 입력한 후에, 비디오 프레임은 먼저 콘볼루션 계층을 통과하고, 콘볼루션 계층에 대응하는 콘볼루션 커널이 입력된 비디오 프레임에 대응하는 픽셀 값 행렬에 대해 콘볼루션 연산을 수행하여 픽셀 값 행렬, 즉 콘볼루션 계층 내의 각각의 콘볼루션 커널에 대응하는 특징 맵을 획득하며, 획득된 특징 맵은 다음 콘볼루션 계층의 입력으로서 사용되고, 마지막 콘볼루션 계층이 콘볼루션 커널의 개수에 대응하는 개수를 갖는 특징 맵을 출력할 때까지 계층별로 비선형 변이가 수행된다. 다음, 각각의 특징 맵에 대응하는 바이어스 항(bias term)에 따라, 각각의 특징 맵 내의 각각의 화소 위치의 화소 값이 연산됨으로써, 합성을 통해 출력 중간 이미지로서의 특징 맵을 얻는다.

컨볼루션 연산이 컨볼루션 계층에 대해 수행된 후에, 전자 장치는 다운 샘플링 연산을 수행하도록 구성될 수 있다. 다운 샘플링 방식은 구체적으로, 평균 샘플링(mean sampling) 또는 극값 샘플링(extremum sampling)일 수 있다. 예를 들어, 다운샘플링 방식은 2*2 픽셀 영역에 대해 평균 샘플링을 수행하는 것이다. 따라서, 2*2 픽셀 영역에 대응하는 픽셀 값 행렬이 [1, 2, 3, 4]이다. 따라서, 다운샘플링을 통해 획득된 픽셀 값이 (1+2+3+4)/4=2.5이다. 다운샘플링 연산 이후에 획득된 특징 맵의 해상도가 입력 비디오 프레임의 해상도의 1/4로 줄어든다. 또한, 업샘플링 연산 이후에 획득된 특징 맵의 해상도가 업샘플링 연산 이전의 특징 맵의 해상도의 4배로 늘어날 수 있도록, 전자 장치는 디콘볼루션 계층의 디콘볼루션 연산 이후에 전술한 다운샘플링 연산에 대응하는 업샘플링 연산을 설정함으로써, 출력 중간 이미지와 입력 비디오 프레임이 일치하는 해상도를 갖도록 보장할 필요가 있다.

신경망 모델에 포함된 계층의 개수와 계층의 유형은 자체 정의를 통해 조정되거나 또는 후속 훈련 결과에 따라 조정될 수 있다. 하지만, 신경망 모델에 입력된 이미지의 해상도가 신경망 모델로부터 출력된 이미지의 해상도와 일치하는 것이 만족될 필요가 있다.

단계 S206: 시간적으로 인접한 복수의 비디오 프레임 중 이전 비디오 프레임에서 후속 비디오 프레임으로 변경되는 광흐름 정보를 획득한다. 여기서, 이전 비디오 프레임은 후속 비디오 프레임보다 시간적으로 빠르다.

광흐름은 이미지 내의 그레이스케일 모드의 이동 속도를 나타낼 수 있다. 공간 위치에 따라 이미지 내에 배열된 모든 광흐름은 광흐름 필드(optical flow field)를 형성한다. 광흐름 필드는 이미지 내의 픽셀 단위의 변화 상태를 나타내며, 이미지들 사이에서 대응하는 픽셀의 이동 정보를 결정하는 데 사용될 수 있다.

본 출원의 본 실시예에서, 이전 비디오 프레임은 시간적으로 인접한 비디오 프레임 중 더 빠른 타임 스탬프를 가진 비디오 프레임이고, 후속 비디오 프레임은 시간적으로 인접한 비디오 프레임 중 더 늦은 타임 스탬프를 가진 비디오 프레임이다. 예를 들어, 시간적으로 인접한 비디오 프레임은 순차적으로 x1, x2, 및 x3이다. 따라서, x1은 x2와 x3에 대한 이전 비디오 프레임이고, x2는 x1에 대한 후속 비디오 프레임이며, x2는 x3에 대한 이전 비디오 프레임이다.

본 출원의 본 실시예에서, 이전 비디오 프레임에서 후속 비디오 프레임으로 변화하는 것에 관한 광흐름 정보는 이전 비디오 프레임과 후속 비디오 프레임 사이의 광흐름 필드로 나타낼 수 있다. 본 실시예에서, 광흐름 정보를 계산하기 위한 방식은 구체적으로, 광흐름 제약식(optical flow constraint equation)에 따라, 차이 기반(differential-based)의 광흐름 알고리즘, 존 매칭(zone matching) 기반의 광흐름 알고리즘, 에너지 기반의 광흐름 알고리즘, 위상 기반의 광흐름 알고리즘, 및 신경역동학 광흐름 알고리즘(neurodynamics optical flow algorithm) 중 어느 하나를 획득하는 것일 수 있다. 본 출원의 본 실시예에서는 이에 대해 구체적으로 제한하지 않는다.

구체적으로, 전자 장치는 이전 비디오 프레임에서 후속 비디오 프레임으로 변경되는 것에 관한 광흐름 정보를 광흐름 정보를 계산하기 위한 방식으로 계산함으로써, 후속 비디오 프레임 내의 대응하는 픽셀에 대한 이전 비디오 프레임 내의 각각의 픽셀에 대응하는 광흐름을 획득한다. 또한, 전자 장치는 이전 비디오 프레임으로부터 특징점(feature point)을 선택하고, 선택된 특징점에 대응하는 광흐름을 스파스 광흐름 계산 방식(sparse optical flow calculation manner)으로 계산할 수 있다. 예를 들어, 이전 비디오 프레임 내의 픽셀 A의 위치가 (x1, y1)이고, 후속 비디오 프레임 내의 픽셀 A의 위치가 (x2, y2)이다. 따라서, 픽셀 A의 속도 벡터가

이다. 이전 비디오 프레임 내의 픽셀로부터 후속 비디오 프레임 내의 대응하는 픽셀로의 변화의 속도 벡터에 의해 형성되는 벡터 필드가 이전 비디오 프레임에서 후속 비디오 프레임으로의 변화의 광흐름 필드이다.

본 출원의 실시예에서, 시간적으로 인접한 비디오 프레임이 시간적으로 인접한 2개 이상의 비디오 프레임인 경우, 전자 장치는 시간적으로 인접한 비디오 프레임 내의 2개의 인접한 비디오 프레임 사이의 광흐름 정보를 계산하거나 또는 시간적으로 인접한 비디오 프레임 중 인접하지 않은 2개의 비디오 프레임 사이의 광흐름 정보를 계산할 수 있다. 예를 들어, 시간적으로 인접한 비디오 프레임이 시간순으로 순차적으로 x1, x2, 및 x3이면, 전자 장치는 x1과 x2 사이의 광흐름 정보와, x2와 x3 사이의 광흐름 정보를 계산할 수 있고, x1과 x3 사이의 광흐름 정보를 추가로 계산할 수 있다.

본 출원의 일 실시예에서, 이전 비디오 프레임에서 후속 비디오 프레임으로의 변화하는 것에 관한 광흐름 정보를 광흐름 정보를 계산하기 위한 방식으로 계산하는 경우, 전자 장치는 계산된 광흐름 정보의 신뢰도를 결정할 수도 있다. 광흐름 정보의 신뢰도는 광흐름 정보에 일대일로 대응하며, 대응하는 광흐름 정보의 신뢰성 정도를 나타내는 데 사용된다. 광흐름 정보의 신뢰도가 더 높다는 것은, 계산된 광흐름 정보에 의해 표현되는 이미지 내의 픽셀의 이동 정보가 더 정확하다는 것을 나타낸다.

단계 S208: 이전 비디오 프레임에 대응하는 중간 이미지가 광흐름 정보에 따라 변경된 후에 획득되는 이미지를 획득한다.

구체적으로, 전자 장치는 이전 비디오 프레임에서 후속 비디오 프레임으로 변화하는 것에 관한 광흐름 정보에 따라, 시간순으로 빠른 비디오 프레임에 대응하는 중간 이미지에 포함된 픽셀을 변경함으로써, 변경된 픽셀에 의해 형성된 이미지, 즉 후속 비디오 프레임에 대응하도록 예상된 중간 이미지의 픽셀 값의 분포를 획득할 수 있다.

본 출원의 일 실시예에서, 시간적으로 인접한 비디오 프레임이 2개 이상의 시간적으로 인접한 비디오 프레임인 경우, 전자 장치는 시간적으로 인접한 비디오 프레임 중 2개의 인접한 비디오 프레임 사이의 광흐름 정보에 따라, 2개의 인접한 비디오 프레임 중 이전 비디오 프레임에 대응하는 중간 이미지를 변경함으로써, 2개의 인접한 비디오 프레임 중 후속 비디오 프레임에 대응하도록 예상된 중간 이미지를 획득할 수 있다. 예를 들어, 시간적으로 인접한 비디오 프레임은 시간순으로 순차적으로 x1, x2, 및 x3이고, x1, x2, 및 x3의 중간 이미지로서 신경망 모델에 의해 출력된 중간 이미지가 그에 따라 순차적으로 y1, y2, 및 y3이다. x1에서 x2로의 변경에 관한 광흐름 정보가 g1이고, x2에서 x3으로의 변경에 관한 광흐름 정보가 g2이다. 전자 장치는 g1에 따라 y1을 z2로 변경하고, g2에 따라 z2를 z3로 변경할 수 있다. z2는 x2에 대응하도록 예상된 중간 이미지이고, z3은 x3에 대응하도록 예상된 중간 이미지이다.

본 출원의 일 실시예에서, 전자 장치는 대안적으로, 시간적으로 인접한 비디오 프레임 중 서로 인접하지 않은 2개의 비디오 프레임 사이의 광흐름 정보에 따라, 서로 인접하지 않은 2개의 비디오 프레임 중 이전 비디오 프레임에 대응하는 중간 이미지를 변경함으로써, 서로 인접하지 않은 2개의 비디오 프레임 중 후속 비디오 프레임에 대응하도록 예상된 중간 이미지를 획득할 수 있다. 예를 들어, 시간적으로 인접한 비디오 프레임은 시간순으로 순차적으로 x1, x2, 및 x3이고, x1, x2, 및 x3의 중간 이미지로서 신경망 모델에 의해 출력된 중간 이미지가 그에 따라 순차적으로 y1, y2, 및 y3이다. x1에서 x3으로의 변경에 관한 광흐름 정보가 g3이다. 전자 장치는 g3에 따라 y1을 z3으로 변경하고, z3은 x3에 대응하도록 예상된 중간 이미지이다.

본 출원의 일 실시예에서, 이전 비디오 프레임에 대응하는 중간 이미지에 포함된 픽셀이 대응하는 광흐름 정보에 따라 변경되는 경우, 전자 장치는 광흐름 정보의 신뢰도를 가중치로서 사용함으로써, 변경된 픽셀에 의해 형성되는 이미지를 수정할 수도 있다.

단계 S210: 후속 비디오 프레임에 대응하는 중간 이미지와 단계 S208에서 획득되는 획득된 이미지 사이의 시간 손실을 획득한다.

싱기 시간 손실은, 시간적으로 인접한 비디오 프레임의 시간 영역에서의 변화와 시간적으로 인접한 비디오 프레임이 신경망 모델에 의해 처리된 후에 획득된 이미지 사이의 변화 간의 차이를 나타내는 데 사용될 수 있다. 구체적으로, 전자 장치는 후속 비디오 프레임에 대응하는 중간 이미지를 이전 비디오 프레임에 대응하는 중간 이미지가 이전 비디오 프레임에서 후속 비디오 프레임으로 변화하는 것에 관한 광흐름 정보에 따라 변경된 후에 획득된 이미지와 비교하여 2개의 이미지 사이의 차이를 획득하고, 상기 차이에 따라, 후속 비디오 프레임에 대응하는 중간 이미지와 획득된 이미지 사이의 시간 손실을 결정할 수 있다.

예를 들어, 2개의 시간적으로 인접한 비디오 프레임이 있고, 이전 비디오 프레임이

이며, 후속 비디오 프레임이

이고,

에서

로의 변경에 관한 광흐름 정보가

이라고 가정한다.

이 신경망 모델에 의해 처리된 후에 출력되는 중간 이미지가

이고,

가 신경망 모델에 의해 처리된 후에 출력되는 중간 이미지가

이다. 전자 장치는

에서

로의 변경에 관한 광흐름 정보

에 따라

을 변경하여

를 획득한다.

는 신경망 모델의 처리 이후에 출력된 이미지로서 후속 비디오 프레임

에 대응하도록 예상된 이미지이다. 다음, 전자 장치는 를

와 비교하여

와

사이의 시간 손실을 획득할 수 있다.

예를 들어, 시간적으로 인접한 비디오 프레임이 시간순으로 순차적으로 x1, x2, 및 x3이고, x1, x2, 및 x3에 대응하는 중간 이미지로서 신경망 모델에 의해 출력되는 중간이미지가 그에 따라 순차적으로 y1, y2, 및 y3이라고 가정한다. x1에서 x2로의 변경에 관한 광흐름 정보가 g1이고, x2에서 x3으로의 변경에 관한 광흐름 정보가 g2이며, x1에서 x3으로의 변경에 관한 광흐름 정보가 g3이다. 전자 장치는 g1에 따라 y1을 z2로 변경하고, g2에 따라 z2를 z3로 변경하며, g3에 따라 y1을 z'3로 변화시킨다. Z2는 x2에 대응하도록 예상된 중간 이미지이다. z3와 z'3는 모두 x3에 대응하도록 예상된 중간 이미지이다. 전자 장치는 y2를 z2와 비교하여 y2와 z2 사이의 시간 손실을 획득할 수 있다. 전자 장치는 y3을 z3과 비교하고 또한 y3을 z'3과 비교함으로써, z3과 z'3의 가중치에 따라 y3과 z3 사이의 시간 손실을 획득하고 또한 y3과 z'3 사이의 시간 손실을 획득할 수 있다.

단계 S212: 시간적으로 인접한 복수의 비디오 프레임 각각에 대응하는 중간 이미지 각각과 목표 특징 이미지 사이의 특징 손실을 획득한다.

신경망 모델이 이미지에 대해 특징 변환을 수행하는 데 사용되면, 변환될 필요가 있는 이미지 특징이 목표 특징 이미지(target feature image)에 대응하는 이미지 특징이다. 특징 손실은 신경망 모델에 의해 출력된 중간 이미지에 대응하는 이미지 특징와 목표 특징 이미지에 대응하는 이미지 특징 사이의 차이이다. 이미지 특징은 구체적으로 이미지 색상 특징, 이미지 명암 특징(image light and shadow feature), 또는 이미지 스타일 특징 등일 수 있다. 따라서, 목표 특징 이미지는 구체적으로 타깃 색상 특징 이미지, 타깃 명암 특징 이미지, 또는 타깃 스타일 특징 이미지 등일 수 있다. 중간 이미지와 목표 특징 이미지 사이의 특징 손실은 구체적으로 색상 특징 손실, 또는 명암 특징 손실, 또는 스타일 특징 손실일 수 있다.

구체적으로, 전자 장치는 훈련될 필요가 있는 이미지 특징을 먼저 결정하고, 이미지 특징을 만족하는 이미지를 획득하며, 그런 다음 획득된 이미지를 목표 특징 이미지로서 이용할 수 있다. 그런 다음, 전자 장치는 훈련이 완료된 신경망 모델로서 중간 이미지와 목표 특징 이미지에 대응하는 이미지 특징을 각각 추출하기 위해 이미지 특징을 추출하는 데 사용되는 신경망 모델을 이용하고, 중간 이미지에 대응하는 이미지 특징과 목표 특징 이미지에 대응하는 이미지 특징을 비교하여 2개의 이미지 특징 사이의 차이를 획득하며, 상기 차이에 따라 중간 이미지와 목표 특징 이미지 사이의 특징 손실을 결정하도록 구성된다.

예를 들어, 신경망 모델이 이미지에 대해 이미지 스타일 특징 변환을 수행하는 데 사용되고, 타깃 스타일 특징 이미지가

이며, 2개의 시간적으로 인접한 비디오 프레임이 있으며, 이전 비디오 프레임이

이고, 후속 비디오 프레임이

이라고 가정한다.

이 신경망 모델에 의해 처리된 후에 출력된 중간 이미지가

이고,

가 신경망 모델에 의해 처리된 후 출력된 중간 이미지가

이다. 전자 장치는 각각

을

와 비교하고 또한

를

와 비교함으로써,

과

사이의 스타일 특징 손실과,

와

사이의 스타일 특징 손실을 획득할 수 있다.

단계 S214: 시간 손실과 특징 손실에 따라 신경망 모델을 조정하고, 신경망 모델이 훈련 종료 조건을 만족할 때까지 훈련을 계속하기 위해 시간적으로 인접한 복수의 비디오 프레임을 획득하는 단계 S202로 되돌아간다.

구체적으로, 신경망 모델을 훈련시키는 과정은 훈련될 필요가 있는 신경망 모델에서 특징 변환 계층에 대응하는 비선형 변이 연산자를 결정하는 과정이다. 비선형 변이 연산자가 결정되면, 전자 장치는 훈련될 필요가 있는 신경망 모델에서 특징 변환 계층에 대응하는 비선형 변이 연산자를 먼저 초기화하고, 후속 훈련 과정에서, 초기화된 비선형 변이 연산자를 계속 최적화하며, 최적화를 통해 획득된 최적 비선형 변이 연산자를 훈련된 신경망 모델의 비선형 변이 연산자로서 사용할 수 있다.

본 출원의 일 실시예에서, 전자 장치는 시간 손실에 따라 시간 영역 손실 함수를 구성하고, 특징 손실에 따라 공간 영역 손실 함수를 구성하며, 시간 영역 손실 함수와 공간 영역 손실 함수를 조합하여 하이브리드 손실 함수을 획득하고, 그런 다음 신경망 모델에서 특징 변환 계층에 대응하는 비선형 변이 연산자로 하이브리드 손실 함수의 변화율을 계산할 수 있다. 계산된 변화율이 감소되고 또한 신경망 모델이 훈련되어 최적화될 수 있도록, 전자 장치는 계산된 변화율에 따라 신경망 모델에서 특징 변환 계층에 대응하는 비선형 변이 연산자를 조정할 수 있다.

본 출원의 일 실시예에서, 훈련 종료 조건은 신경망 모델에 대한 훈련의 횟수가 사전 설정된 훈련의 횟수에 도달하는 것일 수 있다. 신경망 모델을 훈련시키는 경우, 전자 장치는 훈련의 횟수를 셀 수 있다. 사전 설정된 훈련의 횟수에 도달하는 경우, 전자 장치는 신경망 모델이 훈련 종료 조건을 만족한다는 것, 그리고 과 신경망 모델의 훈련을 종료한다는 것을 결정할 수 있다.

본 출원의 일 실시예에서, 훈련 종료 조건은 대안적으로, 하이브리드 손실 함수가 수렴 조건을 만족하는 것일 수 있다. 신경망 모델을 훈련시키는 경우, 전자 장치는 신경망 모델에서 특징 변환 계층에 대응하는 비선형 변이 연산자로 하이브리드 손실 함수의 변화율을 기록할 수 있고, 상기 변화율은 각각의 훈련이 완료된 후에 계산된다. 계산된 변화율이 점진적으로 특정 값에 접근하면, 전자 장치는 신경망 모델이 훈련 완료 조건을 만족한다는 것, 그리고 신경망 모델의 훈련을 완료한다는 것을 결정할 수 있다.

이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법에서, 신경망 모델이 훈련되는 경우, 시간 손실과 특징 손실은 피드백 및 조정 기초로서 함께 사용되어 신경망 모델을 조정하고, 이미지 처리에 사용되는 신경망 모델을 훈련을 통해 획득한다. 신경망 모델이 훈련되는 경우, 후속 비디오 프레임에 대응하도록 예상된 중간 이미지를 획득하기 위해, 시간적으로 인접한 비디오 프레임이 입력으로서 사용되고, 이전 비디오 프레임에 대응하는 중간 이미지가 이전 비디오 프레임에서 후속 비디오 프레임으로의 변경에 관한 광흐름 정보에 따라 변경됨으로써, 시간 손실을 획득한다. 시간 손실은 각각의 시간적으로 인접한 비디오 프레임에 대응하는 중간 이미지들 사이의 시간 일관성에 있어서의 손실을 반영하고 있다. 훈련된 신경망 모델 비디오에 대해 특징 변환을 수행하는 경우, 비디오의 비디오 프레임들 간의 시간 일관성을 고려함으로써, 특징 변환 과정에서 유입되는 플리커 잡음을 크게 줄이고 따라서 비디오에 대한 특징 변환의 변환 효과를 개선한다. 또한, 신경망 모델의 계산 및 전자 장치의 프로세서의 성능이 함께 조합되어 비디오 이미지를 처리함으로써, 비디오 이미지의 특징 변환 효과를 희생하지 않고 프로세서의 계산 속도를 향상시키고 따라서 이미지 처리에 사용되는 더 나은 신경망 모델을 생성한다.

본 출원의 일 실시예에서, 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법에서, 상기 시간 손실과 특징 손실에 따라 신경망 모델을 조정하는 것은, 구체적으로, 각각의 중간 이미지와 입력 비디오 프레임 각각 사이의 내용 손실을 획득하는 것; 시간 손실, 특징 손실, 및 내용 손실에 따라 훈련 비용을 생성하는 것; 및 훈련 비용에 따라 신경망 모델을 훈련시키는 것을 포함한다.

상기 내용 손실은 신경망 모델에 의해 출력된 중간 이미지와 대응하는 입력 비디오 프레임 사이의 이미지 내용의 차이를 말한다. 구체적으로, 전자 장치는, 훈련이 완료된 신경망 모델로서 이미지 내용 특징을 추출하는 데 사용되는 신경망 모델을 이용하여, 중간 이미지에 대응하는 이미지 내용 특징과 중간 이미지에 대응하는 입력 비디오 프레임에 대응하는 이미지 내용 특징을 각각 추출하고, 그런 다음 중간 이미지에 대응하는 이미지 내용 특징과 대응하는 입력 비디오 프레임에 대응하는 이미지 내용 특징을 비교하여 이미지 내용 특징들 사이의 차이를 획득하며, 상기 차이에 따라 각각의 중간 이미지와 각각의 비디오 프레임 사이의 내용 손실을 결정할 수 있다.

본 출원의 일 실시예에서, 전자 장치는 시간 손실에 따라 시간 영역 손실 함수를 구성하고, 그런 다음 특징 손실와 내용 손실 모두에 따라 공간 영역 손실 함수를 구성하며, 시간 영역 손실 함수와 양의 상관관계가 있고 또한 공간 영역 손실 함수와 양의 상관관계가 있는 훈련 비용을 생성한다. 그다음에, 계산된 변화율이 감소되고 또한 신경망 모델이 훈련되어 최적화될 수 있도록, 전자 장치는 신경망 모델에서 특징 변환 계층 각각에 대응하는 비선형 변이 연산자로 훈련 비용의 변화율을 계산할 수 있으며, 신경망 모델에서 특징 변환 계층 각각에 대응하는 비선형 변이 연산자를 계산된 변화율에 따라 조정한다.

본 출원의 일 실시예에서, 전자 장치는 신경망 모델에 의해 출력된 중간 이미지에서 잡음을 제거할 수도 있다. 구체적으로, 전자 장치는 총 변이(total variation, TV)를 구현하기 위한 잡음 제거 알고리즘에 기초하여, 중간 이미지의 가장자리 픽셀에서 잡음을 제거하는 데 사용되는 TV 최소 항목(TV minimum item)을 결정하고, 특징 손실 및 내용 손실과 함께 TV 최소 항목을 이용하여 공간 영역 손실 함수를 구성함으로써, 신경망 모델을 훈련시킬 수 있다. TV 최소 항목을 이용하여 이미지에서 잡음을 제거하는 방식은, 신경망 모델이 비디오에 대해 수행하는 특징 변환의 변환 효과를 개선한다.

본 실시예에서, 신경망 모델이 훈련되는 경우, 이미지 처리에 사용되는 신경망 모델을 훈련을 통해 얻기 위해, 시간 손실, 특징 손실, 및 내용 손실이 피드백 및 조정 기초로서 함께 사용되어 신경망 모델을 조정함으로써, 3개의 차원, 즉 시간, 내용, 및 특징으로부터 이미지 특징 변환의 정확도를 보장하고 또한 비디오에 대해 훈련을 통해 얻어진 신경망 모델에 의해 수행되는 특징 변환의 변환 효과를 개선한다.

본 출원의 일 실시예에서, 단계 S210은 구체적으로, 후속 비디오 프레임에 대응하는 중간 이미지 내의 각각의 픽셀 위치의 값과 획득된 이미지 내의 각각의 픽셀 위치의 값 사이의 차이를 계산하여 차이 분포도를 획득하는 단계; 및 차이 분포도에 따라, 후속 비디오 프레임에 대응하는 중간 이미지와 획득된 이미지 사이의 시간 손실을 결정하는 단계를 포함한다.

구체적으로, 후속 비디오 프레임에 대응하는 중간 이미지와 획득된 이미지 내의 대응하는 픽셀 위치의 값들 사이의 차이를 계산함으로써 전자 장치에 의해 획득되는 차이 분포도는 구체적으로, 픽셀 값 차이 행렬(pixel value differential matrix)일 수 있다. 전자 장치는 차이 분포도에 대해 차원수 감소 연산(dimensionality reduction operation)을 수행하여 시간 손실 값을 획득할 수 있다. 전자 장치가 처음으로 시간 손실을 계산할 때 사용될 차원수 감소 연산 방식을 선택한 후, 선택된 차원수 감소 연산 방식이 후속 시간 손실 계산에 사용된다. 차원수 감소 연산은 구체적으로 평균 차원수 감소(mean dimensionality reduction) 또는 극값 차원수 감소(extremum dimensionality reduction)일 수 있다. 예를 들어, 픽셀 값 차이 행렬이 [1, 2, 3, 4]이면, 평균 차원수 감소 연산을 통해 얻어진 시간 손실이 (1+2+3+4)/4=2.5이다.

본 실시예에서, 시간 손실의 계산이 더 정확할 수 있도록, 후속 비디오 프레임에 대응하는 중간 이미지와 획득된 이미지 사이의 시간 손실은 후속 비디오 프레임에 대응하는 중간 이미지와 획득된 이미지 내의 대응하는 픽셀 위치의 픽셀 값들 사이의 차이에 따라 계산된다.

본 출원의 일 실시예에서, 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법에서, 상기 중간 이미지 각각과 입력된 비디오 프레임 각각 사이의 내용 손실을 획득하는 것은, 각각의 비디오 프레임과 각각의 중간 이미지를 평가 네트워크 모델에 입력하는 것; 비디오 프레임 각각에 대응하는 각각의 특징 맵과 중간 이미지 각각에 대응하는 각각의 특징 맵을 획득하는 것 - 상기 각각의 특징 맵은 평가 네트워크 모델에 포함된 계층에 의해 출력됨 -; 및 각각의 중간 이미지에 대응하는 특징 맵과 각각의 비디오 프레임에 대응하는 특징 맵에 따라 각각의 중간 이미지와 각각의 비디오 프레임 사이의 내용 손실을 결정하는 것을 포함한다.

상기 평가 네트워크 모델은 입력 이미지의 이미지 특징을 추출하는 데 사용된다. 본 실시예에서, 상기 평가 네트워크 모델은 구체적으로 Alexnet 네트워크 모델, 또는 VGG(visual geometry group) 네트워크 모델, 또는 GoogLeNet 네트워크일 수 있다. 상기 평가 네트워크 모델에 포함된 계층들은 복수의 특징 추출 인자(feature extraction factor)에 대응하며, 각각의 특징 추출 인자는 서로 다른 특징을 추출한다. 특징 맵은 평가 네트워크 모델 내의 계층들의 변환 연산자들을 이용하여 입력 이미지를 처리하여 획득된 이미지 처리 결과이고, 상기 이미지 처리 결과는 이미지 특징 행렬이며, 이미지 특징 행렬은 변환 연산자를 이용하여 입력 이미지 행렬을 처리하여 획득된 응답 값으로 구성된다

구체적으로, 전자 장치가 비디오 프레임 및 대응하는 중간 이미지를 평가 네트워크 모델에 입력한 후에, 평가 네트워크 모델은 입력된 비디오 프레임에 대응하는 픽셀 값 행렬과 대응하는 중간 이미지에 대응하는 픽셀 값 행렬을 획득할 수 있다. 평가 네트워크 모델에 포함된 계층은 상기 계층에 대응하는 특징 추출 인자에 따라, 입력된 비디오 프레임에 대응하는 픽셀 값 행렬 또는 중간 이미지에 대해 연산을 수행함으로써, 대응하는 응답 값을 획득하여 특징 맵을 형성한다. 평가 네트워크 모델 내의 서로 다른 계층은 서로 다른 특징을 추출한다. 전자 장치는 평가 네트워크 모델 내의 이미지 내용 특징을 추출하는 계층에 의해 출력되는 특징 맵을 내용 손실 계산을 위한 특징 맵으로서 사전 설정할 수 있다. 구체적으로, 평가 네트워크 모델 내의 이미지 내용 특징을 추출하는 하나 이상의 계층이 있을 수 있다.

중간 이미지에 대응하는 특징 맵과 중간 이미지에 대응하는 입력 비디오 프레임에 대응하는 특징 맵을 획득한 후에, 전자 장치는 중간 이미지에 대응하는 특징 맵과 대응하는 비디오 프레임에 대응하는 특징 맵 내의 대응하는 픽셀 위치의 픽셀 값들 사이의 차이를 계산하여 픽셀 값들 간의 내용 차이 행렬(content difference matrix)을 획득하고, 그런 다음 콘텐츠 차이 행렬에 대해 차원수 감소 연산을 수행하여 내용 손실을 획득한다.

본 실시예에서, 내용 손실의 계산이 더 정확할 수 있도록, 특징 변환 이전의 비디오 프레임의 이미지 내용 특징과 특징 변환 이후의 중간 이미지의 이미지 내용 특징이 평가 네트워크 모델을 통해 추출되고, 이미지 내용 특징이 추출되는 출력 특징 맵이 상기 입력된 이미지들 사이의 내용 손실을 계산하는 데 사용된다.

본 출원의 일 실시예에서, 단계 S212는 구체적으로, 중간 이미지와 목표 특징 이미지를 평가 네트워크 모델에 입력하는 단계; 중간 이미지 각각에 대응하는 각각의 특징 맵과 목표 특징 이미지에 대응하는 특징 맵을 획득하는 단계 - 특징 맵은 평가 네트워크 모델에 포함된 계층에 의해 출력됨 -; 및 각각의 중간 이미지에 대응하는 특징 맵과 목표 특징 이미지에 대응하는 특징 맵에 따라, 각각의 중간 이미지와 목표 특징 이미지 사이의 특징 손실을 결정하는 단계를 포함한다.

구체적으로, 전자 장치는 평가 네트워크 모델 내의 이미지 특징을 추출하는 계층에 의해 출력된 특징 맵을 특징 손실 계산을 위한 특징 맵으로서 사전 설정할 수 있다. 구체적으로, 평가 네트워크 모델 내의 이미지 특징을 추출하는 하나 이상의 계층이 있을 수 있다. 본 실시예에서, 특징 손실의 계산이 더 정확할 수 있도록, 목표 특징 이미지의 이미지 특징과 특징 변환 이후의 중간 이미지의 이미지 특징이 평가 네트워크 모델을 통해 추출되고, 평가 네트워크 모델에 의해 출력된 특징 맵으로서 이미지 특징이 추출되는 특징 맵이 상기 입력된 이미지들 사이의 특징 손실을 계산하는 데 사용된다.

본 출원의 일 실시예에서, 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법에서, 각각의 중간 이미지에 대응하는 특징 맵과 목표 특징 이미지에 대응하는 특징 맵에 따라 각각의 중간 이미지와 목표 특징 이미지 사이의 특징 손실을 결정하는 단계는 구체적으로, 각각의 중간 이미지에 대응하는 특징 맵에 따라, 각각의 중간 이미지에 대응하는 특징 행렬을 결정하는 단계; 목표 특징 이미지에 대응하는 특징 맵에 따라, 목표 특징 이미지에 대응하는 특징 행렬을 결정하는 단계; 각각의 중간 이미지에 대응하는 특징 행렬 내의 각각의 위치의 값과 목표 특징 이미지에 대응하는 특징 행렬 내의 각각의 위치의 값들 사이의 차이를 계산하여 특징 차이 행렬을 획득하는 단계; 및 특징 차이 행렬에 따라 각각의 중간 이미지와 목표 특징 이미지 사이의 특징 손실을 결정하는 단계를 포함한다.

본 출원의 일 실시예에서, 신경망 모델은 이미지에 대해 이미지 스타일 특징 변환을 수행하는 데 사용된다. 중간 이미지에 대응하는 특징 행렬은 구체적으로 스타일 특징 행렬일 수 있다. 스타일 특징 행렬은 이미지 스타일 특징을 반영하는 행렬이다. 스타일 특징 행렬은 구체적으로 Gram 행렬일 수 있다. 전자 장치는 중간 이미지에 대응하는 특징 맵으로부터 내적(inner product)을 획득함으로써 Gram 행렬을 중간 이미지에 대응하는 스타일 특징 행렬로서 획득할 수 있고, 타깃 스타일 이미지에 대응하는 특징 맵의 내적을 획득함으로써 Gram 행렬을 타깃 스타일 이미지에 대응하는 스타일 특징 행렬로서 획득한다. 다음, 전자 장치는 중간 이미지에 대응하는 스타일 특징 행렬 내의 각각의 위치의 값과 타깃 스타일 이미지에 대응하는 스타일 특징 행렬 내의 각각의 위치의 값 사이의 차이를 계산하여 스타일 차이 특징 행렬을 획득하고, 그런 다음 스타일 차이 특징 행렬에 대해 차원수 감소 연산을 수행하여 스타일 특징 손실을 획득할 수 있다.

본 실시예에서, 특징 손실의 계산이 더 정확할 수 있도록, 특징 변환을 통해 획득된 이미지와 목표 특징 이미지 사이의 특징 손실은 구체적으로, 이미지 특징을 반영할 수 있는 특징 행렬을 이용하여 계산된다.

예를 들어, 전자 장치는 평가 네트워크 모델로서 VGG-19 네트워크 모델을 선택할 수 있다. 평가 네트워크 모델은 16개의 콘볼루션 계층과 5개의 풀링(pooling) 계층을 포함한다. 실험에 따르면, 평가 네트워크 모델의 제4 콘볼루션 계층에 의해 추출된 특징이 이미지 내용 특징을 나타낼 수 있고, 평가 네트워크 모델의 제1 콘볼루션 계층, 제2 콘볼루션 계층, 제3 콘볼루션 계층, 및 제4 콘볼루션 계층에 의해 추출된 특징이 이미지 스타일 특징을 나타낼 수 있다. 전자 장치는 제4 콘볼루션 계층에 의해 출력된 중간 이미지에 대응하는 특징 맵과 중간 이미지에 대응하는 입력 비디오 프레임에 대응하는 특징 맵을 획득하고, 획득된 특징 맵에 기초하여 중간 이미지와 대응하는 비디오 프레임 사이의 내용 손실을 계산할 수 있다. 전자 장치는 제1 콘볼루션 계층, 제2 콘볼루션 계층, 제3 콘볼루션 계층, 및 제4 콘볼루션 계층에 의해 출력된 중간 이미지에 대응하는 특징 맵과 중간 이미지에 대응하는 입력 비디오 프레임에 대응하는 특징 맵을 획득하고, 획득된 특징 맵에 기초하여 중간 이미지와 대응하는 비디오 프레임 사이의 스타일 특징 손실을 계산할 수 있다.

본 출원의 일 실시예에서, 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법에서, 상기 훈련 비용에 따라 신경망 모델을 조정하는 것은, 신경망 모델에 포함된 계층의 역순에 따라, 계층 각각에 대응하는 비선형 변이 연산자로 훈련 비용의 변화율을 결정하는 단계; 및 상기 계층 각각에 대응하는 조정된 비선형 변이 연산자로 훈련 비용의 변화율이 감소될 수 있도록, 신경망 모델에 포함된 계층 각각에 대응하는 비선형 변이 연산자를 역순에 따라 조정하는 단계를 포함한다.

구체적으로, 상기 이미지가 신경망 모델에 입력된 후에, 상기 이미지가 계층을 통과할 때마나 비선형 변이가 수행되고, 출력 연산 결과가 다음 계층의 입력으로서 사용된다. 전자 장치는 신경망 모델에 포함된 마지막 계층으로부터 신경망 모델에 포함된 계층의 순서에 따라, 현재의 계층에 대응하는 비선형 변이 연산자로 훈련 비용의 변화율을 결정한 다음, 상기 계층의 역순에 따라, 각각의 계층에 대응하는 비선형 변이 연산자로 훈련 비용의 변화율을 결정할 수 있다. 다음, 전자 장치는, 순차적으로 상기 계층 각각에 대응하는 조정된 비선형 변이 연산자로 훈련 비용의 변화율이 감소될 수 있도록, 상기 계층의 역순에 따라, 신경망 모델에 포함된 계층 각각에 대응하는 비선형 변이 연산자를 조정할 수 있다.

예를 들어, 훈련 비용이 L이고, 신경망 모델에 포함된 계층의 시퀀스에 따라, 역순으로 제1 계층에 대응하는 비선형 변이 연산자가 z이며, z에 대한 L의 변화율이

; 역순으로 제2 계층에 대응하는 비선형 변이 연산자가 b이고, b에 대한 L의 변화율이

이며; 역순으로 제3 계층에 대응하는 비선형 변이 연산자가 c이며, c에 대한 L의 변화율이

이라고 가정한다. 상기 변화율이 풀리면, 연쇄 미분(chain derivation)에서 계층별로 기울기(gradient)가 이전 계층에 전달된다. 상기 변화율이 제1 계층 포함 신경망 모델에 대해 역순으로 풀리면, 마지막 계층에 대해 역순으로 획득된 변화율이 감소될 수 있도록, 전자 장치는 순차적으로 역순에 따라, 비선형 변이 연산자 z, b, 및 c를, 신경망 모델에 포함된 제1 계층(즉, 역순에서의 마지막 계층)에 대응하는 비선형 변이 연산자로 조정할 수 있다.

본 출원의 일 실시예에서, 상기 훈련 비용은 구체적으로 다음 수식으로 나타낼 수 있다.

는 훈련 비용을 나타내고,

는 공간 영역 손실 함수를 나타내며,

는 시간 손실에 의해 생성된 시간 영역 손실 함수를 나타내고,

는 시간 영역 손실 함수에 대응하는 가중치이다. 공간 영역 손실 함수는 구체적으로 다음의 수식으로 나타낼 수 있다.

L는 평가 네트워크 모델에서 이미지 특징을 추출하는 계층을 나타내고,

는 신경망 모델에 입력된 이미지와 신경망 모델로부터 출력되는 이미지 사이의 내용 손실을 나타내며,

는 신경망 모델로부터 출력된 이미지와 목표 특징 이미지 사이의 특징 손실을 나타내고,

은 TV 최소 항목을 나타내며,

,

, 및

는 손실에 대응하는 가중치이다. 예를 들어,

의 값이 1일 수 있고,

의 값이 1일 수 있으며,

의 값이 10⁴일 수 있다.

본 실시예에서, 훈련을 통해 얻어진 신경망 모델에 의해 수행되는 이미지 변환의 효과가 더 나을 수 있도록, 신경망 모델의 계층 각각에 대응하는 비선형 변이 연산자에 대한 훈련 비용의 변화율이 반대방향 전파(counterpropagation)를 통해 해결되고, 계산된 변화율이 신경망 모델의 계층에 대응하는 비선형 변이 연산자를 조정하여 감소됨으로써, 신경망 모델을 훈련시킨다.

도 3에 도시된 바와 같이, 본 출원의 특정 실시예에서, 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법은 구체적으로 다음의 단계를 포함한다.

단계 S302: 시간적으로 인접한 복수의 비디오 프레임을 획득한다.

단계 S304: 신경망 모델이 각각의 비디오 프레임에 대응하는 중간 이미지를 출력할 수 있도록, 신경망 모델을 통해 복수의 비디오 프레임 각각을 처리한다.

단계 S306: 이전 비디오 프레임에서 후속 비디오 프레임으로의 변경에 관한 광흐름 정보를 획득한다. 여기서, 이전 비디오 프레임은 후속 비디오 프레임보다 시간적으로 빠르다.

단계 S308: 이전 비디오 프레임에 대응하는 중간 이미지가 광흐름 정보에 따라 변경된 후에 획득되는 이미지를 획득한다.

단계 S310: 후속 비디오 프레임에 대응하는 중간 이미지 내의 각각의 픽셀 위치의 값과 획득된 이미지 내의 각각의 픽셀 위치의 값 사이의 차이를 계산하여 차이 분포도를 획득하고; 차이 분포도에 따라, 후속 비디오 프레임에 대응하는 중간 이미지와 획득된 이미지 사이의 시간 손실을 결정한다.

단계 S312: 중간 이미지와 목표 특징 이미지를 평가 네트워크 모델에 입력하고; 중간 이미지 각각에 대응하는 각각의 특징 맵과 목표 특징 이미지에 대응하는 특징 맵을 획득하며 - 여기서, 특징 맵은 평가 네트워크 모델에 포함된 계층에 의해 출력됨 -; 각각의 중간 이미지에 대응하는 특징 맵에 따라 각각의 중간 이미지에 대응하는 특징 행렬을 결정하고; 목표 특징 이미지에 대응하는 특징 맵에 따라, 목표 특징 이미지에 대응하는 특징 행렬을 결정하며; 각각의 중간 이미지에 대응하는 특징 행렬 내의 각각의 위치의 값과 목표 특징 이미지에 대응하는 특징 행렬 내의 각각의 위치의 값 사이의 차이를 계산하여 특징 차이 행렬을 획득하고; 특징 차이 행렬에 따라 각각의 중간 이미지와 목표 특징 이미지 사이의 특징 손실을 결정한다.

단계 S314: 각각의 비디오 프레임과 각각의 중간 이미지를 평가 네트워크 모델에 입력하고; 비디오 프레임 각각에 대응하는 각각의 특징 맵과 중간 이미지 각각에 대응하는 각각의 특징 맵을 획득하며 - 여기서, 특징 맵은 평가 네트워크 모델에 포함된 계층에 의해 출력됨 -; 각각의 중간 이미지에 대응하는 특징 맵과 각각의 비디오 프레임에 대응하는 특징 맵에 따라, 각각의 중간 이미지와 각각의 비디오 프레임 사이의 내용 손실을 결정한다.

단계 S316: 시간 손실, 특징 손실, 및 내용 손실에 따라 훈련 비용을 생성한다.

단계 S318: 신경망 모델에 포함된 계층의 역순에 따라, 계층 각각에 대응하는 비선형 변이 연산자로 훈련 비용의 변화율을 결정하고; 계층에 각각 대응하는 조정된 비선형 변이 연산자로 훈련 비용의 변화율이 감소될 수 있도록, 신경망 모델에 포함된 계층 각각에 대응하는 비선형 변이 연산자를 역순에 따라 조정한다.

단계 S320: 신경망 모델이 훈련 종료 조건을 만족하는지 여부를 판정하고; 신경망 모델이 훈련 종료 조건을 만족하면, 단계 S322를 수행하고; 신경망 모델이 훈련 종료 조건을 만족하지 않으면, 단계 S302를 수행한다.

단계 S322: 신경망 모델을 훈련시키는 것을 종료한다.

본 실시예에서, 이미지 처리에 사용되는 신경망 모델이 훈련되는 경우, 시간 손실, 특징 손실, 및 내용 손실이 피드백 및 조정 기초로서 함께 사용되어 신경망 모델을 조정하여 3개의 차원, 즉 시간, 특징, 및 내용으로부터 신경망 모델을 훈련시킴으로써, 신경망 모델의 훈련 효과를 개선한다.

도 4는 본 출원의 실시예에 따른 이미지 처리에 사용되는 신경망 모델의 훈련 아키텍처를 개략적으로 나타낸 도면이다. 도 4를 참조하면, 본 실시예의 신경망 모델은 3개의 콘볼루션 계층, 5개의 잔류 모듈, 2개의 디콘볼루션 계층, 및 하나의 콘볼루션 계층을 포함한다. 전자 장치는 시간순으로 빠른 비디오 프레임

과 시간순으로 늦은 비디오 프레임

을 신경망 모델에 각각 입력함으로써, 신경망 모델로부터 출력되는 중간 이미지

과 중간 이미지

를 획득한다. 전자 장치는

과

사이의 광흐름 정보에 따라

과

의 시간 영역 손실 함수를 획득하고, 그런 다음 평가 네트워크 모델에 포함된 계층에 의해 출력된 특징 맵을 이용하여

,

, 및 목표 특징 이미지

를 평가 네트워크 모델에 입력하여

과

사이의 내용 손실,

과

사이의 내용 손실,

과

사이의 특징 손실,

와

사이의 특징 손실을 획득함으로써, 공간 영역 손실 함수를 획득할 수 있다.

본 출원의 일 실시예에서, 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법에 따라 신경망 모델을 훈련시키는 것을 완료한 후에, 전자 장치는 비디오 특징 변환을 위해 신경망 모델을 이용할 수 있다. 전자 장치는 특징 변환이 수행될 필요가 있는 비디오를 시간적으로 인접한 비디오 프레임으로 분할하고, 분할을 통해 획득된 비디오 프레임을 훈련이 완료된 신경망 모델에 순차적으로 입력하며, 비디오 프레임이 신경망 모델에 의해 처리된 후에, 비디오 프레임에 대응하는 특징 변환 이후에 출력된 이미지를 획득하고, 그런 다음 대응하는 입력 비디오 프레임의 시간 순서에 따라 출력 이미지를 병합함으로써, 특징 변환 이후의 비디오를 획득할 수 있다. 신경망 모델은 복수의 비디오 프레임에 대해 특징 변환을 동시에 수행할 수 있다..

도 5에 도시된 바와 같이, 본 출원의 실시예는 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 장치(500)를 제공한다. 상기 신경망 모델을 훈련시키기 위한 장치는 구체적으로, 입력 획득 모듈(501), 출력 획득 모듈(502), 손실 획득 모듈(503), 및 모델 조정 모듈(504)을 포함한다.

입력 획득 모듈(501)은 시간적으로 인접한 복수의 비디오 프레임을 획득하도록 구성된다.

신경망 모델이 각각의 비디오 프레임에 대응하는 중간 이미지를 출력할 수 있도록, 출력 획득 모듈(502)은 신경망 모델을 통해 복수의 비디오 프레임 각각을 처리하도록 구성된다.

손실 획득 모듈(503)은, 시간적으로 인접한 복수의 비디오 프레임 중 이전 비디오 프레임에서 후속 비디오 프레임으로의 변경에 관한 광흐름 정보를 획득하고; 이전 비디오 프레임에 대응하는 중간 이미지가 광흐름 정보에 따라 변경된 후에 획득되는 이미지를 획득하며; 후속 비디오 프레임에 대응하는 중간 이미지와 획득된 이미지 사이의 시간 손실을 획득하고; 시간적으로 인접한 복수의 비디오 프레임 각각에 대응하는 중간 이미지 각각과 목표 특징 이미지 사이의 특징 손실을 획득하도록 구성된다.

모델 조정 모듈(504)은, 시간 손실과 특징 손실에 따라 신경망 모델을 조정하고, 신경망 모델이 훈련 종료 조건을 만족할 때까지 훈련을 계속하기 위해 시간적으로 인접한 복수의 비디오 프레임을 획득하는 단계로 되돌아가도록 구성된다.

본 출원의 일 실시예에서, 모델 조정 모듈(504)은 추가적으로, 시간적으로 인접한 복수의 비디오 프레임 각각에 대응하는 중간 이미지 각각과 대응하는 비디오 프레임 사이의 내용 손실을 획득하고; 시간 손실, 특징 손실, 및 내용 손실에 따라 훈련 비용을 생성하며; 훈련 비용에 따라 신경망 모델을 조정하도록 구성된다.

본 실시예에서, 신경망 모델이 훈련되는 경우, 훈련을 통해 이미지 처리에 사용되는 신경망 모델을 얻기 위해 시간 손실, 특징 손실, 및 내용 손실이 피드백 및 조정 기초로서 함께 사용되어 신경망 모델을 조정함으로써, 3개의 차원, 즉 시간, 내용, 및 특징으로부터 이미지 특징 변환의 정확도를 보장하고 또한 비디오에 대해 훈련을 통해 획득된 신경망 모델에 의해 수행되는 특징 변환의 변환 효과를 개선한다.

본 출원의 일 실시예에서, 모델 조정 모듈(504)은 추가적으로, 각각의 중간 이미지와 각각의 비디오 프레임을 평가 네트워크 모델에 입력하고; 비디오 프레임 각각에 대응하는 각각의 특징 맵과 중간 이미지 각각에 대응하는 특징 맵을 획득하며 - 여기서, 특징 맵은 평가 네트워크 모델에 포함된 계층에 의해 출력됨 -; 각각의 중간 이미지에 대응하는 특징 맵과 각각의 비디오 프레임에 대응하는 특징 맵에 따라, 각각의 중간 이미지와 각각의 비디오 프레임 사이의 내용 손실을 결정하도록 구성된다.

본 실시예에서, 내용 손실의 계산이 더 정확할 수 있도록, 특징 변환 이전의 비디오 프레임의 이미지 내용 특징과 특징 변환 이후의 중간 이미지의 이미지 내용 특징이 평가 네트워크 모델을 통해 추출되고, 이미지 내용 특징이 추출되는 출력 특징 맵이 상기 입력된 이미지들 간의 내용 손실을 계산하는 데 사용된다.

본 출원의 일 실시예에서, 모델 조정 모듈(504)은 추가적으로, 신경망 모델에 포함된 계층의 역순에 따라, 계층 각각에 대응하는 비선형 변이 연산자로 훈련 비용의 변화율을 결정하고; 계층에 대응하는 상응하여 조정된 비선형 변이 연산자로 훈련 비용의 변화율이 감소될 수 있도록, 상기 계층의 역순에 따라, 신경망 모델에 포함된 계층 각각에 대응하는 비선형 변이 연산자를 조정하도록 구성된다.

본 실시예에서, 훈련을 통해 획득된 신경망 모델에 의해 수행되는 이미지 변환의 효과가 더 나을 수 있도록, 신경망 모델의 계층 각각에 대응하는 비선형 변이 연산자에 대한 훈련 비용의 변화율이 반대방향 전파를 통해 풀리고, 계산된 변화율이 신경망 모델의 계층 각각에 대응하는 비선형 변이 연산자를 조절하여 감소됨으로써, 신경망 모델을 훈련시킨다.

본 출원의 일 실시예에서, 손실 획득 모듈(503)은 추가적으로, 후속 비디오 프레임에 대응하는 중간 이미지 내의 각각의 픽셀 위치의 값과 획득된 이미지 내의 각각의 픽셀 위치의 값 사이의 차이를 계산하여 차이 분포도를 획득하고; 차이 분포도에 따라 후속 비디오 프레임에 대응하는 중간 이미지와 획득된 이미지 사이의 시간 손실을 결정하도록 구성된다.

본 실시예에서, 시간 손실의 계산이 더 정확할 수 있도록, 후속 비디오 프레임에 대응하는 중간 이미지와 획득된 이미지 사이의 시간 손실이 후속 비디오 프레임에 대응하는 중간 이미지와 획득된 이미지 내의 대응하는 픽셀 위치의 픽셀 값들 사이의 차이에 따라 계산된다.

본 출원의 일 실시예에서, 손실 획득 모듈(503)은 추가적으로, 중간 이미지와 목표 특징 이미지를 평가 네트워크 모델에 입력하고; 중간 이미지 각각에 대응하는 각각의 특징 맵과 목표 특징 이미지에 대응하는 특징 맵을 획득하며 - 여기서, 특징 맵은 평가 네트워크 모델에 포함된 계층에 의해 출력됨 -; 각각의 중간 이미지에 대응하는 특징 맵과 목표 특징 이미지에 대응하는 특징 맵에 따라 각각의 중간 이미지와 목표 특징 이미지 사이의 특징 손실을 결정하도록 구성된다.

본 실시예에서, 특징 손실의 계산이 더 정확할 수 있도록, 목표 특징 이미지의 이미지 특징과 특징 변환 이후의 중간 이미지의 이미지 특징이 평가 네트워크 모델을 통해 추출되고, 이미지 특징이 추출되는 출력 특징 맵이 상기 입력된 이미지들 사이의 특징 손실을 계산하는 데 사용된다.

본 출원의 일 실시예에서, 손실 획득 모듈(503)은 추가적으로, 중간 이미지에 대응하는 특징 맵에 따라, 중간 이미지에 대응하는 특징 행렬을 결정하고; 목표 특징 이미지에 대응하는 특징 맵에 따라, 목표 특징 이미지에 대응하는 특징 행렬을 결정하며; 각각의 중간 이미지에 대응하는 특징 행렬 내의 각각의 위치의 값과 목표 특징 이미지에 대응하는 특징 행렬 내의 각각의 위치의 값 사이의 차이를 계산하여 특징 차이 행렬을 얻고; 특징 차이 행렬에 따라 각각의 중간 이미지와 목표 특징 이미지 사이의 특징 손실을 획득하도록 구성된다.

본 실시예에서, 특징 손실의 계산이 더 정확할 수 있도록, 특징 변환을 통해 획득된 이미지와 목표 특징 이미지 사이의 특징 손실은 이미지 특징을 반영할 수 있는 특징 행렬을 이용하여 구체적으로 계산된다.

도 6은 본 출원의 실시예에 따른 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 장치를 나타낸 다른 구조 블록도이다. 도 6에 도시된 바와 같이, 상기 신경망 모델을 훈련시키기 위한 장치는 프로세서(610)와 버스(620)를 통해 프로세서(610)에 연결된 메모리(630)를 포함한다. 메모리(630)는 프로세서(610)에 의해 실행될 수 있는 기계 판독가능 명령 모듈을 저장한다. 기계 판독가능 명령 모듈은 입력 획득 모듈(601), 출력 획득 모듈(602), 손실 획득 모듈(603), 및 모델 조정 모듈(604)을 포함한다.

입력 획득 모듈(601)은 시간적으로 인접한 복수의 비디오 프레임을 획득하도록 구성된다.

신경망 모델이 각각의 비디오 프레임에 대응하는 중간 이미지를 출력할 수 있도록, 출력 획득 모듈(602)은 신경망 모델을 통해 복수의 비디오 프레임 각각을 처리하도록 구성된다.

손실 획득 모듈(603)은, 시간적으로 인접한 복수의 비디오 프레임 중 이전 비디오 프레임에서 후속 비디오 프레임으로의 변경에 관한 광흐름 정보를 획득하고; 이전 비디오 프레임에 대응하는 중간 이미지가 광흐름 정보에 따라 변경된 후에 획득되는 이미지를 획득하며; 후속 비디오 프레임에 대응하는 중간 이미지와 획득된 이미지 사이의 시간 손실을 획득하고; 시간적으로 인접한 복수의 비디오 프레임 각각에 대응하는 중간 이미지 각각과 목표 특징 이미지 사이의 특징 손실을 획득하도록 구성된다.

모델 조정 모듈(604)는 시간 손실과 특징 손실에 따라 신경망 모델을 조정하고, 신경망 모델이 훈련 종료 조건을 만족할 때까지 훈련을 계속하기 위해 시간적으로 인접한 복수의 비디오 프레임을 획득하는 단계로 되돌아가도록 구성된다.

본 출원의 본 실시예에서, 입력 획득 모듈(601), 출력 획득 모듈(602), 손실 획득 모듈(603), 및 모델 조정 모듈(604)의 특정 기능이 입력 획득 모듈(501), 출력 획득 모듈(502), 손실 획득 모듈(503), 및 모델 조정 모듈(504)의 기능과 동일하며, 여기서는 이러한 기능에 대해 다시 설명하지 않는다.

이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 장치에서, 신경망 모델이 훈련되는 경우, 시간 손실과 특징 손실은 피드백 및 조정 기초로서 함께 사용되어 신경망 모델을 조정하고, 이미지 처리에 사용되는 신경망 모델을 훈련을 통해 얻는다. 신경망 모델이 훈련되는 경우, 시간적으로 인접한 비디오 프레임이 입력으로서 사용되고, 후속 비디오 프레임에 대응하도록 예상된 중간 이미지를 획득하기 위해, 이전 비디오 프레임에 대응하는 중간 이미지가 이전 비디오 프레임에서 후속 비디오 프레임으로 변화하는 것에 관한 광흐름 정보에 따라 변경됨로써, 시간 손실을 획득한다. 시간 손실은 각각의 시간적으로 인접한 비디오 프레임에 대응하는 중간 이미지들 사이의 시간 일관성에 있어서의 손실을 반영하고 있다. 훈련된 신경망 모델이 비디오에 대해 특징 변환을 수행하는 경우, 비디오의 비디오 프레임들 간의 시간 일관성을 고려함으로써, 특징 변환 과정에서 유입되는 플리커 잡음을 크게 줄이고 따라서 비디오에 대한 특징 변환의 변환 효과를 개선한다. 또한, 신경망 모델의 계산 및 전자 장치의 프로세서의 성능이 함께 조합되어 비디오 이미지를 처리함으로써, 비디오 이미지의 특징 변환 효과를 희생하지 않고 프로세서의 계산 속도를 향상시키고 따라서 이미지 처리에 사용되는 신경망 모델을 더 잘 생성한다.

당업자라면 전술한 실시예의 신경망 모델을 훈련시키기 위한 방법의 과정 중 일부 또는 전부가 관련 하드웨어에 지시하는 컴퓨터 프로그램에 의해 구현될 수 있다는 것을 이해할 수 있을 것이다. 컴퓨터 프로그램은 컴퓨터 판독가능 비휘발성 저장 매체에 저장될 수 있다. 컴퓨터 프로그램이 실행되면, 전술한 방법 실시예의 절차가 수행된다. 상기 저장 매체는 자기 디스크, 또는 광 디스크, 또는 읽기 전용 메모리(read-only memory, ROM) 등일 수 있다.

전술한 실시예의 기술적 특징이 무작위로 조합될 수 있다. 설명을 간략하게 하기 위해, 전술한 실시예에서의 기술적인 특징의 가능한 모든 조합이 설명되는 것은 아니다. 하지만, 이러한 기술적 특징의 조합은 충돌이 존재하지 않으면 본 명세서에 의해 기록된 범위에 속한다고 간주해야 한다.

전술한 실시예는 본 출원의 몇 가지 실시 형태만을 나타내고 상세하게 설명되었지만, 본 출원의 범위에 대한 제한으로 해석되어서는 안 된다. 당업자라면 본 출원의 아이디어에서 벗어나지 않고 본 출원의 보호 범위에 속하는 다양한 변경과 개량이 이루어질 수 있다는 것을 유의해야 한다. 그러므로, 본 출원의 보호 범위는 첨부된 청구 범위에 따른다.

Claims

이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법으로서,
상기 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법은 전자 장치에 적용되고,
상기 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법은,
시간적으로 인접한 복수의 비디오 프레임을 획득하는 단계;
상기 신경망 모델이 각각의 비디오 프레임에 대응하는 중간 이미지를 출력할 수 있도록, 상기 신경망 모델을 통해 상기 복수의 비디오 프레임 각각을 처리하는 단계;
시간적으로 인접한 상기 복수의 비디오 프레임 중 이전 비디오 프레임에서 후속 비디오 프레임으로의 변경에 관한 광흐름 정보(optical flow information)를 획득하는 단계 - 상기 이전 비디오 프레임은 상기 후속 비디오 프레임보다 시간적으로 빠름 -;
상기 이전 비디오 프레임에 대응하는 중간 이미지가 상기 광흐름 정보에 따라 변경된 후에 획득되는 이미지를 획득하는 단계;
상기 후속 비디오 프레임에 대응하는 중간 이미지와 상기 획득된 이미지 사이의 시간 손실을 획득하는 단계;
시간적으로 인접한 상기 복수의 비디오 프레임 각각에 대응하는 상기 중간 이미지 각각과 목표 특징 이미지(target feature image) 사이의 특징 손실을 획득하는 단계; 및
상기 시간 손실과 상기 특징 손실에 따라 상기 신경망 모델을 조정하고, 상기 신경망 모델이 훈련 종료 조건을 만족할 때까지 훈련을 계속하기 위해 상기 시간적으로 인접한 복수의 비디오 프레임을 획득하는 단계로 되돌아가는 단계
를 포함하는 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법.
제1항에 있어서,
상기 시간 손실과 상기 특징 손실에 따라 상기 신경망 모델을 조정하는 것은,
시간적으로 인접한 상기 복수의 비디오 프레임 각각에 대응하는 각각의 중간 이미지와 상기 각각의 비디오 프레임 사이의 내용 손실(content loss)을 획득하는 것;
상기 시간 손실, 상기 특징 손실, 및 상기 내용 손실에 따라 훈련 비용을 생성하는 것; 및
상기 훈련 비용에 따라 상기 신경망 모델을 조정하는 것
을 포함하는, 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법.
제2항에 있어서,
상기 시간적으로 인접한 상기 복수의 비디오 프레임 각각에 대응하는 각각의 중간 이미지와 상기 각각의 비디오 프레임 사이의 내용 손실을 획득하는 것은,
각각의 중간 이미지와 상기 각각의 비디오 프레임을 평가 네트워크 모델에 입력하는 것;
상기 비디오 프레임 각각에 대응하는 각각의 특징 맵과 상기 중간 이미지 각각에 대응하는 각각의 특징 맵을 획득하는 것 - 상기 특징 맵은 상기 평가 네트워크 모델에 포함된 계층에 의해 출력됨 -; 및
상기 각각의 중간 이미지에 대응하는 특징 맵과 상기 각각의 비디오 프레임에 대응하는 특징 맵에 따라 각각의 중간 이미지와 상기 각각의 비디오 프레임 사이의 상기 내용 손실을 결정하는 것
을 포함하는, 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법.
제2항에 있어서,
상기 훈련 비용에 따라 상기 신경망 모델을 조정하는 것은,
상기 신경망 모델에 포함된 계층의 역순에 따라, 상기 계층 각각에 대응하는 비선형 변화 연산자로 상기 훈련 비용의 변화율을 결정하는 것; 및
상기 신경망 모델에 포함된 상기 계층 각각에 대응하는 상기 비선형 변화 연산자를 상기 역순에 따라 조정함으로써, 상기 계층 각각에 대응하는 상기 조정된 비선형 변화 연산자로 상기 훈련 비용의 변화율을 감소시키는 것
을 포함하는, 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 후속 비디오 프레임에 대응하는 중간 이미지와 상기 획득된 이미지 사이의 시간 손실을 획득하는 단계는,
상기 후속 비디오 프레임에 대응하는 상기 중간 이미지 내의 각각의 픽셀 위치의 값과 상기 획득된 이미지 내의 각각의 픽셀 위치의 값 사이의 차이를 계산하여 차이 분포도를 획득하는 단계; 및
상기 차이 분포도에 따라, 상기 후속 비디오 프레임에 대응하는 상기 중간 이미지와 상기 획득된 이미지 사이의 상기 시간 손실을 결정하는 단계
를 포함하는, 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 시간적으로 인접한 상기 복수의 비디오 프레임 각각에 대응하는 상기 중간 이미지 각각과 목표 특징 이미지 사이의 특징 손실을 획득하는 단계는,
상기 중간 이미지와 상기 목표 특징 이미지를 상기 평가 네트워크 모델에 입력하는 단계;
상기 중간 이미지 각각에 대응하는 각각의 특징 맵과 상기 목표 특징 이미지에 대응하는 특징 맵을 획득하는 단계 - 특징 맵은 상기 평가 네트워크 모델에 포함된 계층에 의해 출력됨 -; 및
각각의 중간 이미지에 대응하는 특징 맵과 상기 목표 특징 이미지에 대응하는 특징 맵에 따라, 상기 각각의 중간 이미지와 상기 목표 특징 이미지 사이의 상기 특징 손실을 결정하는 단계
를 포함하는, 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법.
제6항에 있어서,
상기 각각의 중간 이미지에 대응하는 특징 맵과 상기 목표 특징 이미지에 대응하는 특징 맵에 따라, 상기 각각의 중간 이미지와 상기 목표 특징 이미지 사이의 상기 특징 손실을 결정하는 단계는,
각각의 중간 이미지에 대응하는 특징 맵에 따라, 상기 각각의 중간 이미지에 대응하는 특징 행렬을 결정하는 단계;
상기 목표 특징 이미지에 대응하는 특징 맵에 따라, 상기 목표 특징 이미지에 대응하는 특징 행렬을 결정하는 단계;
각각의 중간 이미지에 대응하는 특징 행렬 내의 각각의 위치의 값과 상기 목표 특징 이미지에 대응하는 특징 행렬 내의 각각의 위치의 값 사이의 차이를 계산하여 특징 차이 행렬(feature differential matrix)을 획득하는 단계; 및
상기 특징 차이 행렬에 따라 각각의 중간 이미지와 상기 목표 특징 이미지 사이의 상기 특징 손실을 결정하는 단계
를 포함하는, 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 방법.
이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 장치로서,
상기 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 장치는 프로세서와 상기 프로세서에 연결된 메모리를 포함하고, 상기 메모리는 상기 프로세서에 의해 실행되는 기계 판독가능 명령 모듈을 저장하며, 상기 기계 판독가능 명령 모듈은,
시간적으로 인접한 복수의 비디오 프레임을 획득하도록 구성된 입력 획득 모듈;
상기 신경망 모델이 각각의 비디오 프레임에 대응하는 중간 이미지를 출력할 수 있도록, 상기 신경망 모델을 통해 상기 복수의 비디오 프레임 각각을 처리하도록 구성된 출력 획득 모듈;
시간적으로 인접한 상기 복수의 비디오 프레임 중 이전 비디오 프레임에서 후속 비디오 프레임으로의 변경에 관한 광흐름 정보(optical flow information)를 획득하고 - 상기 이전 비디오 프레임은 상기 후속 비디오 프레임보다 시간적으로 빠름 -; 상기 이전 비디오 프레임에 대응하는 중간 이미지가 상기 광흐름 정보에 따라 변경된 후에 획득되는 이미지를 획득하며; 상기 후속 비디오 프레임에 대응하는 중간 이미지와 상기 획득된 이미지 사이의 시간 손실을 획득하고; 시간적으로 인접한 상기 복수의 비디오 프레임 각각에 대응하는 상기 중간 이미지 각각과 목표 특징 이미지 사이의 특징 손실을 획득하도록 구성된 손실 획득 모듈; 및
상기 시간 손실과 상기 특징 손실에 따라 상기 신경망 모델을 조정하고, 상기 신경망 모델이 훈련 종료 조건을 만족할 때까지 훈련을 계속하기 위해 상기 시간적으로 인접한 복수의 비디오 프레임을 획득하는 단계로 되돌아가도록 구성된 모델 조정 모듈
을 포함하는 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 장치.
제8항에 있어서,
상기 모델 조정 모듈은 추가적으로, 시간적으로 인접한 상기 복수의 비디오 프레임 각각에 대응하는 각각의 중간 이미지와 상기 각각의 비디오 프레임 사이의 내용 손실을 획득하고; 상기 시간 손실, 상기 특징 손실, 및 상기 내용 손실에 따라 훈련 비용을 생성하며; 상기 훈련 비용에 따라 상기 신경망 모델을 조정하도록 구성된, 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 장치.
제9항에 있어서,
상기 모델 조정 모듈은 추가적으로, 각각의 중간 이미지와 상기 각각의 비디오 프레임을 평가 네트워크 모델에 입력하고; 상기 비디오 프레임 각각에 대응하는 각각의 특징 맵과 상기 중간 이미지 각각에 대응하는 각각의 특징 맵을 획득하며 - 여기서, 특징 맵은 상기 평가 네트워크 모델에 포함된 계층에 의해 출력됨 -; 상기 각각의 중간 이미지에 대응하는 특징 맵과 상기 각각의 비디오 프레임에 대응하는 특징 맵에 따라, 각각의 중간 이미지와 상기 각각의 비디오 프레임 사이의 상기 내용 손실을 결정하도록 구성된, 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 장치.
제9항에 있어서,
상기 모델 조정 모듈은 추가적으로, 상기 신경망 모델에 포함된 계층의 역순에 따라, 상기 계층 각각에 대응하는 비선형 변화 연산자로 상기 훈련 비용의 변화율을 결정하고; 상기 신경망 모델에 포함된 상기 계층 각각에 대응하는 상기 비선형 변화 연산자를 상기 역순에 따라 조정함으로써, 상기 계층 각각에 대응하는 상기 조정된 비선형 변화 연산자로 상기 훈련 비용의 변화율을 감소시키도록 구성된, 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 장치.
제8항 내지 제11항 중 어느 한 항에 있어서,
상기 손실 획득 모듈은 추가적으로, 상기 후속 비디오 프레임에 대응하는 상기 중간 이미지 내의 각각의 픽셀 위치의 값과 상기 획득된 이미지 내의 각각의 픽셀 위치의 값 사이의 차이를 계산하여 차이 분포도를 획득하고; 상기 차이 분포도에 따라 상기 후속 비디오 프레임에 대응하는 상기 중간 이미지와 상기 획득된 이미지 사이의 상기 시간 손실을 결정하도록 구성된, 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 장치.
제8항 내지 제11항 중 어느 한 항에 있어서,
상기 손실 획득 모듈은 추가적으로, 상기 중간 이미지와 상기 목표 특징 이미지를 상기 평가 네트워크 모델에 입력하고; 상기 중간 이미지 각각에 대응하는 각각의 특징 맵과 상기 목표 특징 이미지에 대응하는 특징 맵을 획득하며 - 여기서, 특징 맵은 상기 평가 네트워크 모델에 포함된 계층에 의해 출력됨 -; 상기 각각의 중간 이미지에 대응하는 특징 맵과 상기 목표 특징 이미지에 대응하는 특징 맵에 따라 각각의 중간 이미지와 상기 목표 특징 이미지 사이의 상기 특징 손실을 결정하도록 구성된, 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 장치.
제13항에 있어서,
상기 손실 획득 모듈은 추가적으로, 상기 각각의 중간 이미지에 대응하는 특징 맵에 따라 각각의 중간 이미지에 대응하는 특징 행렬을 결정하고; 상기 목표 특징 이미지에 대응하는 특징 맵에 따라, 상기 목표 특징 이미지에 대응하는 특징 행렬을 결정하며; 각각의 중간 이미지에 대응하는 특징 행렬 내의 각각의 위치의 값과 상기 목표 특징 이미지에 대응하는 특징 행렬 내의 각각의 위치의 값 사이의 차이를 계산하여 특징 차이 행렬을 획득하고; 상기 특징 차이 행렬에 따라 각각의 중간 이미지와 상기 목표 특징 이미지 사이의 상기 특징 손실을 결정하도록 구성된, 이미지 처리에 사용되는 신경망 모델을 훈련시키기 위한 장치.
비휘발성 컴퓨터 판독가능 저장매체로서,
상기 비휘발성 컴퓨터 판독가능 저장매체는 기계 판독가능 명령을 저장하고, 상기 기계 판독가능 명령은,
시간적으로 인접한 복수의 비디오 프레임을 획득하는 조작;
신경망 모델이 각각의 비디오 프레임에 대응하는 중간 이미지를 출력할 수 있도록, 상기 신경망 모델을 통해 상기 복수의 비디오 프레임 각각을 처리하는 조작;
시간적으로 인접한 상기 복수의 비디오 프레임 중 이전 비디오 프레임에서 후속 비디오 프레임으로의 변경에 관한 광흐름 정보(optical flow information)를 획득하는 조작 - 상기 이전 비디오 프레임은 상기 후속 비디오 프레임보다 시간적으로 빠름 -;
상기 이전 비디오 프레임에 대응하는 중간 이미지가 상기 광흐름 정보에 따라 변경된 후에 획득되는 이미지를 획득하는 조작;
상기 후속 비디오 프레임에 대응하는 중간 이미지와 상기 획득된 이미지 사이의 시간 손실을 획득하는 조작;
시간적으로 인접한 상기 복수의 비디오 프레임 각각에 대응하는 상기 중간 이미지 각각과 목표 특징 이미지(target feature image) 사이의 특징 손실을 획득하는 조작; 및
상기 시간 손실과 상기 특징 손실에 따라 상기 신경망 모델을 조정하고, 상기 신경망 모델이 훈련 종료 조건을 만족할 때까지 훈련을 계속하기 위해 시간적으로 인접한 복수의 비디오 프레임을 획득하는 단계로 되돌아가는 조작
을 구현하기 위해 프로세서에 의해 실행되는, 비휘발성 컴퓨터 판독가능 저장매체.
제15항에 있어서,
상기 시간 손실과 상기 특징 손실에 따라 상기 신경망 모델을 조정하는 것은,
시간적으로 인접한 상기 복수의 비디오 프레임 각각에 대응하는 각각의 중간 이미지와 상기 각각의 비디오 프레임 사이의 내용 손실을 획득하는 것;
상기 시간 손실, 상기 특징 손실, 및 상기 내용 손실에 따라 훈련 비용을 생성하는 것; 및
상기 훈련 비용에 따라 상기 신경망 모델을 조정하는 것
을 포함하는, 비휘발성 컴퓨터 판독가능 저장매체.
제16항에 있어서,
상기 시간적으로 인접한 상기 복수의 비디오 프레임 각각에 대응하는 각각의 중간 이미지와 상기 각각의 비디오 프레임 사이의 내용 손실을 획득하는 것은,
각각의 중간 이미지와 상기 각각의 비디오 프레임을 평가 네트워크 모델에 입력하는 것;
상기 비디오 프레임 각각에 대응하는 각각의 특징 맵과 상기 중간 이미지 각각에 대응하는 각각의 특징 맵을 획득하는 것 - 상기 특징 맵은 상기 평가 네트워크 모델에 포함된 계층에 의해 출력됨 -; 및
상기 각각의 중간 이미지에 대응하는 특징 맵과 상기 각각의 비디오 프레임에 대응하는 특징 맵에 따라, 각각의 중간 이미지와 상기 각각의 비디오 프레임 사이의 상기 내용 손실을 결정하는 것
을 포함하는, 비휘발성 컴퓨터 판독가능 저장매체.
제16항에 있어서,
상기 훈련 비용에 따라 상기 신경망 모델을 조정하는 것은,
상기 신경망 모델에 포함된 계층의 역순에 따라, 상기 계층 각각에 대응하는 비선형 변화 연산자로 상기 훈련 비용의 변화율을 결정하는 것; 및
상기 신경망 모델에 포함된 상기 계층 각각에 대응하는 상기 비선형 변화 연산자를 상기 역순에 따라 조정함으로써, 상기 계층에 각각에 대응하는 상기 조정된 비선형 변화 연산자로 상기 훈련 비용의 변화율을 감소시키는 것
을 포함하는, 비휘발성 컴퓨터 판독가능 저장매체.
제15항 내지 제18항 중 어느 한 항에 있어서,
상기 후속 비디오 프레임에 대응하는 중간 이미지와 상기 획득된 이미지 사이의 시간 손실을 획득하는 조작은,
상기 후속 비디오 프레임에 대응하는 상기 중간 이미지 내의 각각의 픽셀 위치의 값과 상기 획득된 이미지 내의 각각의 픽셀 위치의 값 사이의 차이를 계산하여 차이 분포도를 획득하는 조작; 및
상기 차이 분포도에 따라, 상기 후속 비디오 프레임에 대응하는 상기 중간 이미지와 상기 획득된 이미지 사이의 상기 시간 손실을 결정하는 조작
을 포함하는, 비휘발성 컴퓨터 판독가능 저장매체.
제15항 내지 제18항 중 어느 한 항에 있어서,
상기 시간적으로 인접한 상기 복수의 비디오 프레임 각각에 대응하는 상기 중간 이미지 각각과 목표 특징 이미지 사이의 특징 손실을 획득하는 조작은,
상기 중간 이미지와 상기 목표 특징 이미지를 상기 평가 네트워크 모델에 입력하는 조작;
상기 중간 이미지 각각에 대응하는 각각의 특징 맵과 상기 목표 특징 이미지에 대응하는 특징 맵을 획득하는 조작 - 특징 맵은 상기 평가 네트워크 모델에 포함된 계층에 의해 출력됨 -; 및
각각의 중간 이미지에 대응하는 특징 맵과 상기 목표 특징 이미지에 대응하는 특징 맵에 따라, 상기 각각의 중간 이미지와 상기 목표 특징 이미지 사이의 상기 특징 손실을 결정하는 조작
을 포함하는, 비휘발성 컴퓨터 판독가능 저장매체.
제20항에 있어서,
상기 각각의 중간 이미지에 대응하는 특징 맵과 상기 목표 특징 이미지에 대응하는 특징 맵에 따라, 상기 각각의 중간 이미지와 상기 목표 특징 이미지 사이의 상기 특징 손실을 결정하는 조작은,
각각의 중간 이미지에 대응하는 특징 맵에 따라, 상기 각각의 중간 이미지에 대응하는 특징 행렬을 결정하는 조작;
상기 목표 특징 이미지에 대응하는 특징 맵에 따라, 상기 목표 특징 이미지에 대응하는 특징 행렬을 결정하는 조작;
각각의 중간 이미지에 대응하는 특징 행렬 내의 각각의 위치의 값과 상기 목표 특징 이미지에 대응하는 특징 행렬 내의 각각의 위치의 값 사이의 차이를 계산하여 특징 차이 행렬(feature differential matrix)을 획득하는 조작; 및
상기 특징 차이 행렬에 따라 각각의 중간 이미지와 상기 목표 특징 이미지 사이의 상기 특징 손실을 결정하는 조작
을 포함하는, 비휘발성 컴퓨터 판독가능 저장매체.