KR102646889B1

KR102646889B1 - 스타일 변환을 위한 영상 처리 장치 및 방법

Info

Publication number: KR102646889B1
Application number: KR1020180167895A
Authority: KR
Inventors: 장레이; 김예훈; 서찬원
Original assignee: 삼성전자주식회사
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2024-03-12
Also published as: US20220067421A1; KR20200078214A; KR20240038939A; US20240095972A1; US11887215B2; EP3886037A1; EP3886037A4; WO2020130747A1

Abstract

제 1 영상을 인식 모델에 입력시켜 제 1 영상의 레이블을 획득하는 단계; 참조 영상들에 미리 할당된 시각 감성 레이블들 중 획득한 레이블과 동일한 시각 감성 레이블이 할당된 타겟 참조 영상의 참조 스타일 데이터를 획득하는 단계; 제 1 영상의 제 1 스타일 데이터 및 획득한 참조 스타일 데이터에 기초하여, 제 2 스타일 데이터를 생성하는 단계; 및 생성된 제 2 스타일 데이터에 기초하여 제 2 영상을 생성하는 단계를 포함하는 것을 특징으로 하는 일 실시예에 따른 영상 처리 방법이 개시된다.

Description

스타일 변환을 위한 영상 처리 장치 및 방법{IMAGE PROCESSING APPARATUS AND METHOD FOR TRANSFERING STYLE}

본 개시는 딥러닝 등의 기계 학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 인공지능(AI) 시스템 및 그 응용에 관련된 것이다.

인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.

인공지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.

기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.

인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.

한편, 모바일 기기 및 SNS(social network service)의 광범위한 이용에 따라 사용자들은 언제 어디서나 모바일 기기의 카메라로 물체를 촬영하고, 촬영된 영상을 SNS 서버에 업로드하고 있다. 사용자들은 영상의 화질이나 분위기 등을 개선하기 위하여 여러 영상 편집 프로그램을 통해 영상을 편집하고 있는데, 이러한 편집 과정을 전문적인 지식이 없는 사용자가 하기는 어려운 측면이 있다. 따라서, 별도의 전문적인 지식이 없더라도 영상의 스타일을 사용자가 원하는 스타일에 맞춰 변환시키는 방안이 요구된다.

일 실시예에 따른 영상 처리 장치 및 방법은 별도의 전문적인 지식이 없더라도 간편하게 영상의 스타일을 변환시킬 수 있게 하는 것을 기술적 과제로 한다.

또한, 일 실시예에 따른 영상 처리 장치 및 방법은 스타일 변환을 수행하는 장치에 저장될 데이터의 용량을 감소시키는 것을 기술적 과제로 한다.

일 실시예에 따른 영상 처리 방법은,

제 1 영상을 인식 모델에 입력시켜 상기 제 1 영상의 레이블을 획득하는 단계; 시각 감성 레이블이 미리 할당된 참조 영상들 중 상기 획득한 레이블과 동일한 시각 감성 레이블이 할당된 타겟 참조 영상의 참조 스타일 데이터를 획득하는 단계; 상기 제 1 영상의 제 1 스타일 데이터 및 상기 획득한 참조 스타일 데이터에 기초하여, 제 2 스타일 데이터를 생성하는 단계; 및 상기 생성된 제 2 스타일 데이터에 기초하여 제 2 영상을 생성하는 단계를 포함할 수 있다.

예시적인 실시예에서, 상기 타겟 참조 영상의 참조 스타일 데이터를 획득하는 단계는, 상기 제 1 영상의 레이블과 동일한 시각 감성 레이블이 할당된 적어도 하나의 후보 참조 영상 별로 상기 제 1 영상과의 관련도를 산출하는 단계; 및 상기 산출된 관련도의 크기에 기초하여, 상기 적어도 하나의 후보 참조 영상 중에서 상기 타겟 참조 영상을 선택하는 단계를 포함할 수 있다.

예시적인 실시예에서, 상기 제 1 영상의 레이블을 획득하는 단계는, 상기 제 1 영상의 복수의 레이블 및 상기 복수의 레이블 각각에 대응하는 확률 값을 획득하는 단계를 포함하고, 상기 관련도를 산출하는 단계는, 상기 제 1 영상의 복수의 레이블 중 하나 이상의 레이블과 동일한 시각 감성 레이블이 할당된 적어도 하나의 후보 참조 영상 별로, 상기 하나 이상의 레이블의 확률 값의 평균을 상기 관련도로 산출하는 단계를 포함할 수 있다.

예시적인 실시예에서, 상기 타겟 참조 영상을 선택하는 단계는, 상기 적어도 하나의 후보 참조 영상에 대응하는 적어도 하나의 썸네일 영상을 상기 관련도의 크기에 기초한 순서대로 디스플레이에 표시하는 단계; 및 상기 적어도 하나의 썸네일 영상 중 사용자에 의해 선택된 썸네일 영상에 대응하는 후보 참조 영상을 상기 타겟 참조 영상으로 선택하는 단계를 포함할 수 있다.

예시적인 실시예에서, 상기 타겟 참조 영상의 참조 스타일 데이터를 획득하는 단계는, 상기 제 1 영상의 레이블과 동일한 시각 감성 레이블이 할당된 적어도 하나의 후보 참조 영상 중 사용자의 선택 빈도에 기초하여 상기 타겟 참조 영상을 선택하는 단계를 포함할 수 있다.

예시적인 실시예에서, 상기 제 1 영상의 레이블을 획득하는 단계는, 상기 제 1 영상 내 관심 영역을 상기 인식 모델에 입력시켜 상기 관심 영역의 레이블을 획득하는 단계를 포함하되, 상기 타겟 참조 영상의 참조 스타일 데이터를 획득하는 단계는, 상기 관심 영역의 레이블과 동일한 시각 감성 레이블이 할당된 타겟 참조 영상의 참조 스타일 데이터를 획득하는 단계를 포함할 수 있다.

예시적인 실시예에서, 상기 타겟 참조 영상의 참조 스타일 데이터를 획득하는 단계는, 상기 관심 영역의 레이블과 동일한 시각 감성 레이블이 할당된 적어도 하나의 후보 참조 영상을 식별하는 단계; 상기 적어도 하나의 후보 참조 영상 별로 상기 제 1 영상과의 관련도를 산출하는 단계; 및 상기 산출된 관련도의 크기에 기초하여, 상기 적어도 하나의 후보 참조 영상 중 상기 타겟 참조 영상을 선택하는 단계를 포함할 수 있다.

예시적인 실시예에서, 상기 제 1 영상의 레이블을 획득하는 단계는, 상기 제 1 영상의 복수의 레이블 및 상기 복수의 레이블 각각에 대응하는 확률 값을 획득하는 단계를 포함하고, 상기 관련도를 산출하는 단계는, 상기 제 1 영상의 복수의 레이블 중 하나 이상의 레이블과 동일한 시각 감성 레이블이 할당된 적어도 하나의 후보 참조 영상 별로, 상기 하나 이상의 레이블의 확률 값의 평균을 상기 관련도로 산출하는 단계를 포함하되, 상기 관심 영역의 레이블의 확률 값은 기 설정된 값으로 설정될 수 있다.

예시적인 실시예에서, 상기 영상 처리 방법은, 복수의 참조 영상 그룹 중 사용자에 의해 선택된 참조 영상 그룹에 대응하는 내부 파라미터로 상기 인식 모델의 내부 파라미터를 변경하는 단계; 및 상기 내부 파라미터가 변경된 상기 인식 모델에 상기 제 1 영상을 입력하는 단계를 포함할 수 있다.

예시적인 실시예에서, 상기 복수의 참조 영상 그룹은, 참조 영상들의 제작자에 따라 구분될 수 있다.

예시적인 실시예에서, 상기 영상 처리 방법은, 서버에 접속하여 참조 영상 그룹 리스트를 상기 서버로부터 수신하는 단계; 상기 참조 영상 그룹 리스트 중 사용자로부터 적어도 하나의 참조 영상 그룹을 선택받는 단계; 및 상기 선택된 적어도 하나의 참조 영상 그룹에 포함된 참조 영상들에 기초하여 훈련된 인식 모델의 내부 파라미터, 상기 적어도 하나의 참조 영상 그룹에 포함된 참조 영상들의 참조 스타일 데이터 및 상기 적어도 하나의 참조 영상 그룹에 포함된 참조 영상들에 할당된 시각 감성 레이블을 상기 서버로부터 수신하는 단계를 더 포함할 수 있다.

예시적인 실시예에서, 상기 영상 처리 방법은, 상기 제 1 영상을 특징 추출 모델에 입력시켜 상기 제 1 영상의 제 1 스타일 데이터를 획득하는 단계; 및 상기 생성된 제 2 스타일 데이터를 특징 합성 모델이 입력시켜 상기 제 2 영상을 생성하는 단계를 포함할 수 있다.

일 실시예에 따른 영상 처리 방법은,

복수의 참조 영상 중 제 1 영상과 관련된 적어도 하나의 참조 영상을 적어도 하나의 후보 참조 영상으로 선택하는 단계; 상기 적어도 하나의 후보 참조 영상에 대응하는 적어도 하나의 썸네일 영상을 디스플레이에 표시하는 단계; 상기 적어도 하나의 썸네일 영상 중 사용자에 의해 선택된 썸네일 영상에 대응하는 후보 참조 영상을 상기 타겟 참조 영상으로 선택하는 단계; 및 상기 타겟 참조 영상의 특징에 따라 상기 제 1 영상과 상이한 제 2 영상을 생성하는 단계를 포함할 수 있다.

일 실시예에 따른 영상 처리 장치는,

프로세서; 및 인식 모델 및 적어도 하나의 프로그램을 저장하는 메모리를 포함하되, 상기 프로세서는, 상기 적어도 하나의 프로그램이 실행됨에 따라, 제 1 영상을 상기 인식 모델에 입력시켜 상기 제 1 영상의 레이블을 획득하고, 시각 감성 레이블이 미리 할당된 참조 영상들 중 상기 획득한 레이블과 동일한 시각 감성 레이블이 할당된 타겟 참조 영상의 참조 스타일 데이터를 획득하고, 상기 제 1 영상의 제 1 스타일 데이터 및 상기 획득한 참조 스타일 데이터에 기초하여, 제 2 스타일 데이터를 생성하고, 상기 생성된 제 2 스타일 데이터에 기초하여 제 2 영상을 생성할 수 있다.

예시적인 실시예에서, 상기 프로세서는, 상기 제 1 영상의 레이블과 동일한 시각 감성 레이블이 할당된 적어도 하나의 후보 참조 영상 별로 상기 제 1 영상과의 관련도를 산출하고, 상기 산출된 관련도의 크기에 기초하여, 상기 적어도 하나의 후보 참조 영상 중 상기 타겟 참조 영상을 선택할 수 있다.

예시적인 실시예에서, 상기 프로세서는, 상기 인식 모델에서 출력되는 상기 제 1 영상의 복수의 레이블 및 상기 복수의 레이블 각각에 대응하는 확률 값을 획득하고, 상기 제 1 영상의 복수의 레이블 중 하나 이상의 레이블과 동일한 시각 감성 레이블이 할당된 적어도 하나의 후보 참조 영상 별로, 상기 하나 이상의 레이블의 확률 값의 평균을 상기 관련도로 산출할 수 있다.

예시적인 실시예에서, 상기 프로세서는, 상기 적어도 하나의 후보 참조 영상에 대응하는 적어도 하나의 썸네일 영상을 상기 관련도의 크기에 기초한 순서대로 디스플레이에 표시하고, 상기 적어도 하나의 썸네일 영상 중 사용자에 의해 선택된 썸네일 영상에 대응하는 후보 참조 영상을 상기 타겟 참조 영상으로 선택할 수 있다.

예시적인 실시예에서, 상기 프로세서는, 상기 제 1 영상의 레이블과 동일한 시각 감성 레이블이 할당된 적어도 하나의 후보 참조 영상 중 사용자의 선택 빈도에 기초하여 상기 타겟 참조 영상을 선택할 수 있다.

예시적인 실시예에서, 상기 프로세서는, 상기 제 1 영상 내 관심 영역을 상기 인식 모델에 입력시켜 상기 관심 영역의 레이블을 획득하고, 상기 관심 영역의 레이블과 동일한 시각 감성 레이블이 할당된 타겟 참조 영상의 참조 스타일 데이터를 획득할 수 있다.

일 실시예에 따른 영상 처리 장치 및 방법은 별도의 전문적인 지식이 없더라도 간편하게 영상의 스타일을 변환시킬 수 있다.

또한, 일 실시예에 따른 영상 처리 장치 및 방법은 스타일 변환을 수행하는 장치에 저장될 데이터의 용량을 감소시킬 수 있다.

다만, 일 실시예에 따른 영상 처리 장치 및 방법이 달성할 수 있는 효과는 이상에서 언급한 것들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 명세서에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 일 실시예에 따른 영상 처리 장치의 동작을 설명하기 위한 개략적인 도면이다.
도 2는 일 실시예에 따른 영상 처리 방법을 설명하기 위한 순서도이다.
도 3은 제 1 영상을 인식 모델에 입력시켜 획득되는 레이블 및 레이블의 확률 값을 나타내는 예시적인 도면이다.
도 4는 참조 영상들에 할당된 시각 감성 레이블을 나타내는 예시적인 도면이다.
도 5는 참조 영상들 중 타겟 참조 영상을 결정하는 방법을 설명하기 위한 도면이다.
도 6은 참조 영상들 중 타겟 참조 영상을 결정하는 방법을 설명하기 위한 도면이다.
도 7은 디스플레이에 표시되는 썸네일 영상을 도시하는 예시적인 도면이다.
도 8은 제 1 영상에 기초하여 제 2 영상을 생성하는 방법을 설명하기 위한 도면이다.
도 9는 도 8에 도시된 특징 추출 모델 및 특징 합성 모델을 상세하게 나타내는 도면이다.
도 10은 디스플레이에 표시되는 참조 영상 그룹 정보를 도시하는 예시적인 도면이다.
도 11은 영상 처리 장치가 스타일 변환을 위한 데이터를 서버로부터 수신하는 방법을 설명하기 위한 도면이다.
도 12는 다른 실시예에 따른 영상 처리 방법을 설명하기 위한 순서도이다.
도 13은 일 실시예에 따른 영상 처리 장치의 구성을 도시하는 블록도이다.
도 14는 도 13에 도시된 프로세서의 블록도이다.
도 15는 도 14에 도시된 데이터 학습부의 블록도이다.
도 16은 도 14에 도시된 데이터 인식부의 블록도이다.
도 17은 일부 실시예에 따른 사용자 디바이스 및 서버가 서로 연동함으로써 데이터를 학습하고 인식하는 예시를 나타내는 도면이다.

본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고, 이를 상세한 설명을 통해 설명하고자 한다. 그러나, 이는 본 개시를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

실시예를 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 실시예의 설명 과정에서 이용되는 숫자(예를 들어, 제 1, 제 2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.

또한, 본 명세서에서 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.

또한, 본 명세서에서 '~부(유닛)', '모듈' 등으로 표현되는 구성요소는 2개 이상의 구성요소가 하나의 구성요소로 합쳐지거나 또는 하나의 구성요소가 보다 세분화된 기능별로 2개 이상으로 분화될 수도 있다. 또한, 이하에서 설명할 구성요소 각각은 자신이 담당하는 주기능 이외에도 다른 구성요소가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성요소 각각이 담당하는 주기능 중 일부 기능이 다른 구성요소에 의해 전담되어 수행될 수도 있음은 물론이다.

또한, 본 명세서에서 '제 1 영상'은 스타일 변환의 대상이 되는 영상을 의미하고, '제 2 영상'은 스타일 변환을 거쳐 생성된 영상을 의미한다.

이하, 본 개시의 기술적 사상에 의한 실시예들을 차례로 상세히 설명한다.

도 1은 일 실시예에 따른 영상 처리 장치(100)의 동작을 설명하기 위한 개략적인 도면이다.

영상 처리 장치(100)는 제 1 영상(10)의 스타일을 변환시켜 제 2 영상(90)을 생성한다. 제 1 영상(10)은 영상 처리 장치(100)에 저장된 영상일 수 있고, 또는, 영상 처리 장치(100)의 카메라를 통해 인식되는 프리뷰 영상일 수도 있다.

영상 처리 장치(100)는 여러 참조 영상들 중 제 1 영상(10)과 관련성이 높은 참조 영상의 스타일에 따라 제 1 영상(10)의 스타일을 변환시켜 제 2 영상(90)을 생성할 수 있다. 제 1 영상(10)과 제 2 영상(20)에 포함된 오브젝트는 동일하지만, 제 2 영상(20)의 특징(명암, 대비, 시점, 톤, 화이트밸런스, 선예도(sharpness), 히스토그램 등)은 제 1 영상(10)의 특징과 상이할 수 있다.

'참조 영상'은 예를 들어, 전문 제작자에 의해 촬영 및/또는 편집된 영상을 포함할 수 있다. 사용자가 스스로 참조 영상의 스타일과 같은 영상을 촬영하거나 기존 영상을 편집하는 것은 어려우므로, 일 실시예에서는 사용자가 참조 영상을 선택하는 방법 등으로 간편하게 참조 영상의 스타일에 따라 변환된 제 2 영상(90)을 획득할 수 있다.

영상 처리 장치(100)는 사용자 디바이스 또는 서버로 구현될 수 있다. 예를 들어, 사용자 디바이스는 스마트폰, 데스크탑 컴퓨터, 노트북, 태블릿 PC 등의 다양한 종류의 디바이스를 포함할 수 있다. 영상 처리 장치(100)가 사용자 디바이스로 구현된 경우 또는 서버로 구현된 경우의 동작에 대해서는 후술한다.

도 2는 일 실시예에 따른 영상 처리 방법을 설명하기 위한 순서도이다.

S210 단계에서, 영상 처리 장치(100)는 제 1 영상(10)을 인식 모델에 입력하고, 인식 모델에서 출력되는 제 1 영상(10)의 레이블을 획득한다.

일 실시예에서, 상기 레이블은 제 1 영상(10)을 내용을 설명하는 정보일 수 있다. 예를 들어, 제 1 영상(10)이 바다를 포함하는 경우, 인식 모델은 '시원한 바다'와 같은 레이블을 출력할 수 있다.

인식 모델은 시각 감성 레이블이 미리 할당된 참조 영상들에 기초하여 훈련될 수 있는데, 인식 모델은 제 1 영상(10)을 분석하여 여러 시각 감성 레이블들 중 제 1 영상(10)에 대응하는 레이블을 출력할 수 있다. 인식 모델은 예를 들어, 오브젝트 인식 DNN(deep neural network)을 포함할 수 있다.

S220 단계에서, 영상 처리 장치(100)는 시각 감성 레이블이 미리 할당된 참조 영상들 중 상기 제 1 영상(10)의 레이블과 동일한 시각 감성 레이블이 할당된 타겟 참조 영상의 참조 스타일 데이터를 획득한다.

인식 모델에서 제 1 영상(10)과 관련된 복수의 레이블이 출력된 경우, 영상 처리 장치(100)는 복수의 레이블 중 하나 이상의 레이블과 동일한 시각 감성 레이블이 할당된 적어도 하나의 후보 참조 영상을 식별하고, 적어도 하나의 후보 참조 영상 중에서 타겟 참조 영상을 선택할 수 있다. 적어도 하나의 후보 참조 영상 중 타겟 참조 영상을 선택하는 방법에 대해서는 도 5 내지 도 7을 참조하여 후술한다.

타겟 참조 영상의 참조 스타일 데이터는, 타겟 참조 영상의 명암 데이터, 대비 데이터, 시점 데이터, 톤 데이터, 화이트밸런스 데이터, 선예도(sharpness) 데이터, 히스토그램 데이터 및 특징 맵(feature map) 중 적어도 하나를 포함할 수 있다. 참조 영상들의 참조 스타일 데이터는 영상 처리 장치(100)에 미리 저장되어 있을 수 있으며, 참조 영상들 중에서 타겟 참조 영상이 선택되면, 영상 처리 장치(100)는 타겟 참조 영상에 대응하는 참조 스타일 데이터를 획득할 수 있다.

S230 단계에서, 영상 처리 장치(100)는 제 1 영상(10)의 제 1 스타일 데이터와 타겟 참조 영상의 참조 스타일 데이터에 기초하여 제 2 스타일 데이터를 생성한다. 여기서, 제 2 스타일 데이터는 제 1 스타일 데이터와 상이한 것으로서, 제 1 스타일 데이터를 변환시켜 생성된 것일 수 있고, 또는, 제 1 스타일 데이터와 참조 스타일 데이터에 기초하여 새롭게 생성된 것일 수도 있다.

예를 들어, 영상 처리 장치(100)는 제 1 영상(10)의 명암, 대비, 시점, 톤, 화이트밸런스, 선예도, 히스토그램 및 특징 맵 중 적어도 하나를, 타겟 참조 영상의 명암, 대비, 시점, 톤, 화이트밸런스, 선예도, 히스토그램 및 특징 맵 중 적어도 하나에 기초하여 변환시킴으로써 제 2 스타일 데이터를 생성할 수 있다.

일 예로, 영상 처리 장치(100)는 제 1 영상(10)의 명암, 대비, 시점, 톤, 화이트밸런스, 선예도, 히스토그램 및 특징 맵 중 적어도 하나가 타겟 참조 영상의 명암, 대비, 시점, 톤, 화이트밸런스, 선예도, 히스토그램 및 특징 맵 중 적어도 하나와 동일 또는 유사해지도록 제 1 스타일 데이터를 변경시켜 제 2 스타일 데이터를 생성할 수 있다.

또한, 일 예로, 영상 처리 장치(100)는 제 1 영상(10)의 특징 맵과 타겟 참조 영상의 참조 특징 맵에 기초하여 새로운 특징 맵을 생성할 수도 있다.

S240 단계에서, 영상 처리 장치(100)는 제 2 스타일 데이터에 기초하여 제 2 영상(90)을 생성한다. 영상 처리 장치(100)는 제 1 영상(10)을 제 2 스타일 데이터에 따라 변경하여 제 2 영상(90)을 생성할 수도 있고, 제 2 스타일 데이터(예를 들어, 특징 맵)를 DNN(deep neural network)에 입력하여 제 2 영상(90)을 생성할 수도 있다.

도 3은 제 1 영상(10)을 인식 모델(300)에 입력시켜 획득되는 레이블(21) 및 레이블(21)의 확률 값(25)을 나타내는 예시적인 도면이다.

전술한 바와 같이, 영상 처리 장치(100)는 제 1 영상(10)을 인식 모델(300)에 입력시키고, 인식 모델(300)에서 출력되는 제 1 영상(10)의 레이블(21)을 획득한다. 도 3을 참조하면, 제 1 영상(10)에 대응하는 레이블(21)은 'beautiful sunset', 'blue sky', 'misty cloud', 'dashing ocean wave'를 포함할 수 있다. 또한, 인식 모델(300)은 각각의 레이블(21)에 대응하는 확률 값(25)을 출력할 수 있다. 확률 값(25)은 제 1 영상(10)이 레이블(21)과 어느 정도로 관련성이 있는지를 나타내는 값일 수 있다. 제 1 영상(10)의 레이블(21)인 'beautiful sunset'의 확률 값(25)이 90%이므로, 제 1 영상(10)은 'beautiful sunset'과 관련성이 매우 높다는 것을 알 수 있다.

영상 처리 장치(100)는 제 1 영상(10)의 레이블과 동일한 시각 감성 레이블이 할당된 타겟 참조 영상을 선택하는데, 도 4에 도시된 바와 같이, 각각의 참조 영상에는 참조 영상을 설명하기 위한 시각 감성 레이블(31)이 할당될 수 있다.

예를 들어, 참조 영상 1에는 'beautiful sunset', 'blue sky', 'amazing beach'의 시각 감성 레이블(31)이 할당되고, 참조 영상 2에는 'beautiful sunrise', 'large mountain'의 시각 감성 레이블(31)이 할당될 수 있다.

이하에서는, 도 5 내지 도 7을 참조하여 참조 영상들 중에서 타겟 참조 영상을 선택하는 방법에 대해 설명한다.

도 5를 참조하면, 제 1 영상(10)의 레이블로서, A 레이블, B 레이블, C 레이블이 획득되고, A 레이블, B 레이블, C 레이블 각각의 확률 값이 90%, 60%, 70%인 경우, 영상 처리 장치(100)는 A 레이블, B 레이블 및 C 레이블 중 하나 이상의 레이블과 동일한 시각 감성 레이블이 할당된 참조 영상을 후보 참조 영상으로 선택한다.

후보 참조 영상 1의 시각 감성 레이블은 A 레이블 및 B 레이블로서, 이는 제 1 영상(10)의 A 레이블 및 B 레이블과 동일하고, 후보 참조 영상 2의 시각 감성 레이블은 C 레이블 및 D 레이블로서, 이 중 C 레이블이 제 1 영상(10)의 C 레이블과 동일한 것을 알 수 있다. 또한, 후보 참조 영상 3의 시각 감성 레이블은 B 레이블, C 레이블 및 E 레이블로서, 이 중 B 레이블 및 C 레이블이 제 1 영상(10)의 B 레이블 및 C 레이블과 동일한 것을 알 수 있다.

일 실시예에서, 영상 처리 장치(100)는 적어도 하나의 후보 참조 영상 중 사용자의 선택 빈도수가 가장 높은 후보 참조 영상을 타겟 참조 영상으로 선택할 수 있다.

또한, 일 실시예에서, 영상 처리 장치(100)는 적어도 하나의 후보 참조 영상 각각과 제 1 영상(10) 사이의 관련도를 산출하고, 산출된 관련도에 기초하여 타겟 참조 영상을 선택할 수도 있다. 예를 들어, 영상 처리 장치(100)는 가장 큰 관련도를 갖는 후보 참조 영상을 타겟 참조 영상으로 선택할 수 있다.

상기 관련도는 각각의 후보 참조 영상과 제 1 영상(10)의 내용이 얼마나 유사한지를 나타내는 값으로서, 제 1 영상(10)의 레이블들의 확률 값에 기초하여 산출될 수 있다.

일 예에서, 관련도는 제 1 영상(10)의 레이블들 중 하나 이상의 레이블과 동일한 시각 감성 레이블이 할당된 후보 참조 영상 별로 상기 동일한 하나 이상의 레이블의 확률 값의 평균으로 산출될 수 있다.

도 5에서 후보 참조 영상 1에는 A 레이블 및 B 레이블이 공통 레이블로 할당되어 있는데, 제 1 영상(10)에서 A 레이블의 확률 값은 90%이고, B 레이블의 확률 값은 60% 이므로, 이들의 평균인 75%가 후보 참조 영상 1의 관련도로 산출될 수 있다. 또한, 후보 참조 영상 2에는 C 레이블이 공통 레이블로 할당되어 있는데, 제 1 영상(10)에서 C 레이블의 확률 값은 70%이므로 70%가 후보 참조 영상 2의 관련도로 산출될 수 있다. 또한, 후보 참조 영상 3에는 B 레이블 및 C 레이블이 공통 레이블로 할당되어 있는데, 제 1 영상(10)에서 B 레이블의 확률 값은 60%이고, C 레이블의 확률 값은 70% 이므로, 이들의 평균인 65%가 후보 참조 영상 3의 관련도로 산출될 수 있다.

영상 처리 장치(100)는 후보 참조 영상들 중 관련도가 가장 높은 후보 참조 영상(도 5에서 제 1 후보 참조 영상)을 타겟 참조 영상으로 선택할 수 있다.

다른 예에서, 관련도는 각각의 후보 참조 영상의 시각 감성 레이블들 중 제 1 영상(10)의 레이블과 동일한 시각 감성 레이블의 개수에 기초하여 산출될 수 있다. 이 경우, 도 5에서 후보 참조 영상 1과 후보 참조 영상 3에 제 1 영상(10)의 레이블들과 동일한 2개의 시각 감성 레이블이 할당되었고, 후보 참조 영상 2에 제 1 영상(10)의 레이블들과 동일한 1개의 시각 감성 레이블이 할당되었으므로, 후보 참조 영상 2에 대해 가장 낮은 관련도가 산출될 수 있다. 그리고, 후보 참조 영상 1과 후보 참조 영상 3 중 제 1 영상(10)의 레이블과 동일한 시각 감성 레이블에 대응하는 확률 값의 평균이 더 높은 후보 참조 영상에 대해 더 높은 관련도가 산출될 수 있다.

일 실시예에서, 사용자가 제 1 영상(10) 중 관심 영역을 선택하면, 영상 처리 장치(100)는 관심 영역의 레이블을 더 고려하여 타겟 참조 영상을 선택할 수도 있다. 예를 들어, 영상 처리 장치(100)는 사용자가 디스플레이에 표시된 제 1 영상(10)의 일부를 터치 등을 통해 선택한 경우, 사용자에 의해 선택된 관심 영역을 제 1 영상(10)으로부터 크로핑(cropping)하고, 크로핑된 관심 영역을 인식 모델(300)로 입력할 수 있다. 그리고, 영상 처리 장치(100)는 인식 모델(300)에서 출력되는 관심 영역의 레이블 및 해당 레이블의 확률 값을 획득할 수 있다.

도 6을 참조하면, 제 1 영상(10)의 레이블로서, A 레이블 (90%), B 레이블 (60%) 및 C 레이블 (70%)이 인식 모델(300)에서 출력되고, 관심 영역의 레이블로서, B 레이블 (70%)이 인식 모델(300)에서 출력될 수 있다. 영상 처리 장치(100)는 제 1 영상(10)과 관심 영역을 모두 인식 모델(300)에 입력시켜 레이블 및 확률 값을 획득할 수 있다.

영상 처리 장치(100)는 관심 영역의 레이블과 동일한 시각 감성 레이블이 할당된 후보 참조 영상 중에서 타겟 참조 영상을 선택할 수 있다. 관심 영역은 사용자가 특히 집중하는 영역이므로, 해당 관심 영역의 레이블과 동일한 시각 감성 레이블이 필수로 할당된 참조 영상들이 후보 참조 영상으로 식별된다.

도 6을 참조하면, 관심 영역의 레이블로 B 레이블이 획득된 경우, B 레이블과 A 레이블이 할당된 후보 참조 영상 1, B 레이블, A 레이블 및 C 레이블이 할당된 후보 참조 영상 2, B 레이블 및 C 레이블이 할당된 후보 참조 영상 3이 식별될 수 있다.

전술한 바와 같이, 영상 처리 장치(100)는 적어도 하나의 후보 참조 영상 중 사용자의 선택 빈도수가 가장 높은 후보 참조 영상을 타겟 참조 영상으로 선택할 수 있다.

영상 처리 장치(100)는 제 1 영상(10)의 레이블들 중 관심 영역의 레이블에 대응하는 확률 값을 기 설정된 값(예를 들어, 100%)으로 설정한 후, 제 1 영상(10)의 레이블들 중 하나 이상의 레이블과 동일한 시각 감성 레이블이 할당된 후보 참조 영상 별로 상기 하나 이상의 레이블의 확률 값의 평균을 관련도로 산출할 수 있다.

예를 들어, 후보 참조 영상 1에 할당된 시각 감성 레이블들 중 제 1 영상(10)의 레이블과 동일한 시각 감성 레이블은 A 레이블 및 B 레이블이므로, 후보 참조 영상 1의 관련도는 90%와 100%의 평균인 95%로 산출될 수 있다. 또한, 후보 참조 영상 2에 할당된 시각 감성 레이블들 중 제 1 영상(10)의 레이블과 동일한 시각 감성 레이블은 A 레이블, B 레이블 및 C 레이블이므로, 후보 참조 영상 2의 관련도는 90%, 100&, 70%의 평균인 86%로 산출될 수 있다. 또한, 후보 참조 영상 3에 할당된 시각 감성 레이블들 중 제 1 영상(10)의 레이블과 동일한 시각 감성 레이블은 B 레이블 및 C 레이블이므로, 후보 참조 영상 3의 관련도는 100%와 70%의 평균인 85%로 산출될 수 있다. 만약, 관심 영역의 레이블과만 동일한 시각 감성 레이블이 할당된 후보 참조 영상에 대해서는 관련도가 100%로 산출될 수 있다.

영상 처리 장치(100)는 후보 참조 영상들 중 관련도가 가장 높은 후보 참조 영상(도 6에서 제 1 후보 참조 영상)을 타겟 참조 영상으로 선택할 수 있다.

일 실시예에서, 도 5 및 도 6과 같이 각 후보 참조 영상별로 관련도가 산출된 경우, 도 7에 도시된 바와 같이, 영상 처리 장치(100)는 관련도의 크기에 기초한 순서대로 각 후보 참조 영상에 대응하는 썸네일 영상(710, 720, 730)을 디스플레이(700)에 표시할 수 있다. 예를 들어, 관련도가 높은 순서대로 각 후보 참조 영상에 대응하는 썸네일 영상(710, 720, 730)을 디스플레이(700)에 표시할 수 있다. 그리고, 영상 처리 장치(100)는 디스플레이(700)에 표시된 썸네일 영상(710, 720, 730) 중 사용자에 의해 선택된 썸네일 영상에 대응하는 후보 참조 영상을 타겟 참조 영상으로 선택할 수 있다.

일 예로, 영상 처리 장치(100)가 사용자 디바이스로 구현된 경우, 영상 처리 장치(100)는 상기 썸네일 이미지(710, 720, 730)를 자신의 디스플레이에 표시할 수 있다. 또한, 일 예로, 영상 처리 장치(100)가 서버로 구현된 경우, 서버는 썸네일 영상(710, 720, 730)을 사용자 디바이스로 전송하여 사용자 디바이스가 디스플레이에 썸네일 영상(710, 720, 730)을 표시하게 할 수도 있다.

일 예에서, 영상 처리 장치(100)는 각 후보 참조 영상의 썸네일 영상(710, 720, 730) 대신, 각 후보 참조 영상의 스타일과 같이 제 1 영상(10)을 변경시켰을 때의 썸네일 영상을 디스플레이에 표시하고, 사용자에 의해 선택된 썸네일 영상에 대응하는 후보 참조 영상을 타겟 참조 영상으로 선택할 수도 있다.

도 8은 제 1 영상(10)에 기초하여 제 2 영상(90)을 생성하는 방법을 설명하기 위한 도면이다.

앞서 제 1 영상(10)의 제 1 스타일 데이터 및 타겟 참조 영상의 참조 스타일 데이터가 명암, 대비, 시점, 톤, 화이트밸런스, 선예도, 히스토그램 및 특징 맵 중 적어도 하나를 포함할 수 있음을 설명하였으나, 도 8은 제 1 영상(10)의 제 1 스타일 데이터 및 타겟 참조 영상의 참조 스타일 데이터가 특징 맵(40, 50)인 경우를 도시하고 있다.

영상 처리 장치(100)는 제 1 영상(10)을 특징 추출 모델(810)에 입력시켜, 특징 추출 모델(810)에서 출력되는 제 1 특징 맵(40)을 획득한다. 그리고, 영상 처리 장치(100)는 타겟 참조 영상에 대응하는 참조 특징 맵(50)을 추출한다.

영상 처리 장치(100)는 제 1 특징 맵(40) 및 참조 특징 맵(50)에 기초하여 제 2 특징 맵(60)을 생성하고, 생성된 제 2 특징 맵(60)을 특징 합성 모델(850)에 입력할 수도 있다. 영상 처리 장치(100)는 특징 합성 모델(850)에서 출력되는 제 2 영상(90)을 획득할 수 있다.

일 실시예에서, 영상 처리 장치(100)는 제 1 특징 맵(40)을 화이트닝 변환(whitening transform)하고, 참조 특징 맵(50)에 관련된 매트릭스와 상기 화이트닝 변환된 제 1 특징 맵을 컬러링 변환(coloring transforma)하여 제 2 특징 맵(60)을 생성할 수 있다. 예를 들어, 영상 처리 장치(100)는 제 1 특징 맵(40)의 공분산 매트릭스(covariance)과 제 1 특징 맵(40)을 입력으로 하여 화이트닝 변환한다. 화이트닝 변환된 제 1 특징 맵에서 제 1 영상(10)의 스타일 정보는 제거되고, 제 1 영상(10) 내 오브젝트 정보만이 화이트닝 변환된 제 1 특징 맵에 포함된다. 그리고, 영상 처리 장치(100)는 참조 특징 맵(50)의 역 공분산 매트릭스(inverse covariance matrix)와 화이트닝 변환된 제 1 특징 맵을 입력으로 하여 컬러링 변환을 할 수 있다. 컬러링 변환 결과 생성된 제 2 특징 맵(60)에는 제 1 영상(10)의 오브젝트 정보와 타겟 탐조 영상의 스타일 정보가 포함된다.

도 9는 도 8에 도시된 특징 추출 모델(810) 및 특징 합성 모델(850)을 상세하게 나타내는 도면이다.

도 9에 도시된 바와 같이, 특징 추출 모델(810)은 제 1 영상(10)의 특징 맵의 추출을 위한 복수의 컨볼루션 레이어(811, 812, 813, 814, 815)를 포함할 수 있다. 일 실시예에서, 각 컨볼루션 레이어(811, 812, 813, 814, 815)는 소정 크기 및 개수의 필터 커널을 이용하여 입력 데이터를 컨볼루션 처리한다.

일 실시예에서, 복수의 컨볼루션 레이어(811, 812, 813, 814, 815) 중 적어도 일부는 활성화 레이어 및/또는 풀링(pooling) 레이어를 포함할 수 있다. 활성화 레이어는 이전 레이어의 출력 결과에 대해 비선형(Non-linear) 특성을 부여할 수 있다. 활성화 레이어는 활성화 함수를 이용할 수 있다. 활성화 함수는 시그모이드 함수(sigmoid function), Tanh 함수, ReLU(Rectified Linear Unit) 함수 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.

특징 합성 모델(850)은 스타일 변환된 특징 맵들과 이전 레이어의 출력된 데이터를 입력받아 컨볼루션 처리하는 복수의 디컨볼루션 레이어(851, 852, 853, 854, 855)를 포함할 수 있다.

일 실시예에서, 각 디컨볼루션 레이어(851, 852, 853, 854, 855)는 소정 크기 및 개수의 필터 커널을 이용하여 입력 데이터를 컨볼루션 처리한다. 또한, 일 실시예에서, 복수의 디컨볼루션 레이어(851, 852, 853, 854, 855) 중 적어도 일부는 활성화 레이어 및/또는 풀링 레이어를 포함할 수 있다.

복수의 디컨볼루션 레이어(851, 852, 853, 854, 855) 중 제 1 디컨볼루션 레이어는(851), 제 5 컨볼루션 레이어(815)로부터 출력되는 특징 맵과, 제 5 컨볼루션 레이어(815)로부터 출력된 후 스타일 변환된 특징 맵을 입력받아 컨볼루션 처리한다.

제 2 디컨볼루션 레이어(852)는, 제 1 디컨볼루션 레이어(851)로부터 출력되는 특징 맵과, 제 4 컨볼루션 레이어(814)로부터 출력된 후 스타일 변환된 특징 맵을 입력받아 컨볼루션 처리한다.

제 3 디컨볼루션 레이어(853)는, 제 2 디컨볼루션 레이어(852)로부터 출력되는 특징 맵과, 제 3 컨볼루션 레이어(813)로부터 출력된 후 스타일 변환된 특징 맵을 입력받아 컨볼루션 처리한다.

제 4 디컨볼루션 레이어(854)는, 제 3 디컨볼루션 레이어(853)로부터 출력되는 특징 맵과, 제 2 컨볼루션 레이어(812)로부터 출력된 후 스타일 변환된 특징 맵을 입력받아 컨볼루션 처리한다.

제 5 디컨볼루션 레이어(855)는, 제 4 디컨볼루션 레이어(854)로부터 출력되는 특징 맵과, 제 1 컨볼루션 레이어(811)로부터 출력된 후 스타일 변환된 특징 맵을 입력받아 컨볼루션 처리한다.

도 9는 특징 추출 모델(810)이 5개의 컨볼루션 레이어(811, 812, 813, 814, 815)를 포함하고, 특징 합성 모델(850)이 5개의 디컨볼루션 레이어(851, 852, 853, 854, 855)를 포함하고 있는 것으로 도시하고 있는데, 이는 하나의 예시일 뿐이며, 특징 추출 모델(810) 및 특징 합성 모델(850)에 포함 가능한 컨볼루션 레이어의 개수와 디컨볼루션 레이어의 개수는 다양하게 변경될 수 있다. 또한, 일 실시예에서, 특징 추출 모델(810) 및/또는 특징 합성 모델(850)은 FCL(fully connected layer)을 더 포함할 수도 있다.

한편, 일 실시예에서, 영상 처리 장치(100)는 복수의 참조 영상 그룹 중 어느 하나의 참조 영상 그룹에 포함된 참조 영상들 중에서 제 1 영상(10)과 관련성이 높은 타겟 참조 영상을 선택할 수도 있다.

상기 참조 영상 그룹은 각각의 참조 영상의 제작자에 따라 구분될 수 있다. 예를 들어, 복수의 참조 영상 그룹은 A 제작자에 의해 생성된 참조 영상들을 포함하는 참조 영상 그룹, B 제작자에 의해 생성된 참조 영상들을 포함하는 참조 영상 그룹 등을 포함할 수 있다.

영상 처리 장치(100)는 각각의 참조 영상 그룹의 정보를 디스플레이에 표시하고, 사용자가 선택한 참조 영상 그룹에 포함된 참조 영상들 중에서 제 1 영상(10)과 관련성이 높은 타겟 참조 영상을 선택할 수 있다.

이를 위해, 도 10에 도시된 바와 같이, 디스플레이(1000)에는 각각의 참조 영상 그룹을 나타내는 정보(예를 들어, 제작자의 식별 정보 등)가 표시되고, 사용자는 어느 하나의 참조 영상 그룹을 나타내는 정보를 선택할 수 있다.

영상의 제작자마다 고유의 스타일이 존재하므로, 사용자는 자신이 선호하는 제작자의 스타일대로 영상을 촬영할 수 있게 된다.

일 예로, 영상 처리 장치(100)가 사용자 디바이스로 구현된 경우, 영상 처리 장치(100)는 상기 참조 영상 그룹 정보를 자신의 디스플레이에 표시할 수 있다. 또한, 일 예로, 영상 처리 장치(100)가 서버로 구현된 경우, 서버는 참조 영상 그룹 정보를 사용자 디바이스로 전송하여 사용자 디바이스가 디스플레이에 표시하게 할 수도 있다.

한편, 일 실시예에서, 영상 처리 장치(100)가 사용자 디바이스로 구현된 경우, 참조 영상들에 대한 시각 감성 레이블의 할당, 인식 모델(300)의 훈련 및 참조 스타일 데이터의 추출은 서버에서 수행될 수 있다. 다시 말하면, 참조 영상들 자체를 필요로 하는 프로세스, 예를 들어, 참조 영상들에 대한 시각 감성 레이블의 할당, 인식 모델(300)의 훈련 및 참조 스타일 데이터의 추출은 사용자 디바이스 대신 서버에서 수행될 수 있다. 참조 영상들에 할당된 시각 감성 레이블, 참조 영상들의 참조 스타일 데이터 및 인식 모델 관련 데이터는 서버로부터 사용자 디바이스로 전송될 수 있다. 사용자 디바이스는 인식 모델(300)에 제 1 영상(10)을 입력하고, 제 1 영상(10)의 레이블과 참조 영상들의 시각 감성 레이블들의 비교 결과에 따라 타겟 참조 영상의 참조 스타일 데이터를 획득하고, 제 1 스타일 데이터 및 참조 스타일 데이터에 기초하여 생성된 제 2 스타일 데이터에 따라 제 2 영상(90)을 생성할 수 있다.

또한, 전술한 바와 같이, 참조 영상들이 참조 영상 그룹으로 구분된 경우, 사용자 디바이스는 각각의 참조 영상 그룹에 대응하는 인식 모델(300)의 내부 파라미터 정보를 더 저장할 수 있다. 서버는 참조 영상 그룹별로 인식 모델(300)을 개별적으로 훈련시키고, 각각의 참조 영상 그룹에 대응하는 인식 모델(300)의 내부 파라미터 정보를 사용자 디바이스로 전송할 수 있다. 예를 들어, 인식 모델(300)은 A 참조 영상 그룹에 포함된 참조 영상들에 기초하여 훈련됨으로써 A 참조 영상 그룹에 최적화된 내부 파라미터를 가질 수 있고, B 참조 영상 그룹에 포함된 참조 영상들에 기초하여 훈련됨으로써 B 참조 영상 그룹에 최적화된 내부 파라미터를 가질 수 있다. 사용자 디바이스는 인식 모델(300)이 사용자가 선택한 참조 영상 그룹에 대응하는 내부 파라미터에 따라 동작하도록 제어할 수 있다. 예를 들어, 영상 처리 장치(100)는 인식 모델(300)의 내부 파라미터를, 사용자가 선택한 참조 영상 그룹에 대응하는 내부 파라미터로 변경하고, 내부 파라미터가 변경된 인식 모델(300)에서 제 1 영상(10)의 레이블들이 추출되도록 한다.

도 11을 참조하면, 서버(3000)는 사용자 디바이스(2000)가 접속됨에 따라 참조 영상 그룹 리스트를 사용자 디바이스(2000)로 전송하고, 사용자 디바이스(2000)는 참조 영상 그룹 리스트 중 사용자에 의해 선택된 참조 영상 그룹 관련 데이터를 서버(3000)로 요청한다. 서버(3000)는 사용자가 선택한 참조 영상 그룹에 포함된 참조 영상들의 시각 감성 레이블(1110), 참조 스타일 데이터(1120) 및 인식 모델(300)의 내부 파라미터(1130)를 영상 처리 장치(100)로 전송할 수 있다. 즉, 도 11에서와 같이, 서버(3000)는 참조 영상들 자체가 아닌, 참조 영상들의 시각 감성 레이블(1110), 참조 스타일 데이터(1120) 및 각 참조 영상 그룹에 대응하는 내부 파라미터(1130)만을 사용자 디바이스(2000)로 전송하므로, 사용자 디바이스(2000)에 저장된 데이터의 용량을 감소시킬 수 있다.

또한, 일 실시예에서, 영상 처리 장치(100)가 서버로 구현된 경우, 참조 영상들에 대한 시각 감성 레이블의 할당, 인식 모델(300)의 훈련 및 참조 영상들의 참조 스타일 데이터의 추출 등이 서버에서 수행될 수 있다. 서버는 사용자 디바이스로부터 수신된 제 1 영상(10)으로부터 스타일 변환된 제 2 영상(90)을 생성하고, 제 2 영상(90)을 사용자 디바이스로 전송할 수 있다.

또한, 일 실시예에서, 영상 처리 장치(100)가 사용자 디바이스로 구현된 경우에도, 참조 영상들에 대한 시각 감성 레이블의 할당, 인식 모델(300)의 훈련 및 참조 영상들의 참조 스타일 데이터의 추출 등이 사용자 디바이스에서 수행될 수 있다. 사용자 디바이스는 제 1 영상(10)으로부터 스타일 변환된 제 2 영상(90)을 생성할 수 있다.

도 12는 다른 실시예에 따른 영상 처리 방법을 설명하기 위한 순서도이다.

S1210 단계에서, 영상 처리 장치(100)는 복수의 참조 영상 중 제 1 영상(10)과 관련된 적어도 하나의 참조 영상을 적어도 하나의 후보 참조 영상으로 선택한다. 여기서, 영상 처리 장치(100)는 복수의 참조 영상의 특징들(명암, 대비, 시점, 톤, 화이트밸런스, 선예도, 히스토그램 및 특징 맵 중 적어도 하나)과 제 1 영상(10)의 특징들을 비교하여, 제 1 영상(10)과 관련성이 높은 적어도 하나의 후보 참조 영상을 선택할 수 있다.

S1220 단계에서, 영상 처리 장치(100)는 적어도 하나의 후보 참조 영상에 대응하는 적어도 하나의 썸네일 영상을 디스플레이에 표시한다. 영상 처리 장치(100)는 후보 참조 영상을 축소시킨 썸네일 영상을 디스플레이에 표시할 수 있고, 또는 각각의 후보 참조 영상에 따라 제 1 영상(10)의 스타일을 변환시켰을 때의 썸네일 영상을 디스플레이에 표시할 수도 있다.

일 예로, 영상 처리 장치(100)가 사용자 디바이스로 구현된 경우, 영상 처리 장치(100)는 썸네일 이미지를 자신의 디스플레이에 표시할 수 있다. 또한, 일 예로, 영상 처리 장치(100)가 서버로 구현된 경우, 서버는 썸네일 영상을 사용자 디바이스로 전송하여 사용자 디바이스가 디스플레이에 썸네일 영상을 표시하게 할 수도 있다.

S1230 단계에서, 영상 처리 장치(100)는 디스플레이에 표시된 썸네일 영상 중 사용자에 의해 선택된 썸네일 영상에 대응하는 후보 참조 영상을 타겟 참조 영상으로 선택한다. 사용자는 디스플레이에 표시된 썸네일 영상 중 터치 등의 방법으로 어느 하나의 썸네일 영상을 선택할 수 있다.

S1240 단계에서, 영상 처리 장치(100)는 타겟 참조 영상의 특징에 따라 제 1 영상(10)으로부터 변경된 제 2 영상(90)을 생성할 수 있다. 예를 들어, 영상 처리 장치(100)는 제 1 영상(10)의 특징이 타겟 참조 영상의 특징과 동일/유사해지도록 제 1 영상(10)을 변경하여 제 2 영상(90)을 생성할 수 있다.

도 13은 일 실시예에 따른 영상 처리 장치(100)의 구성을 도시하는 블록도이다.

도 13을 참조하면, 영상 처리 장치(100)는 메모리(1300), 통신부(1400) 및 프로세서(1500)를 포함할 수 있다. 메모리(1300), 통신부(1400) 및 프로세서(1500)는 메모리(1300)에 저장된 프로그램에 따라 동작할 수 있다.

메모리(1300)는 인식 모델(300)을 저장할 수 있다. 또한, 메모리(1300)는 특징 추출 모델(810) 및 특징 합성 모델(850)을 더 저장할 수 있다. 또한, 메모리(1300)는 참조 영상들과 관련된 데이터, 예를 들어, 참조 영상들에 할당된 시각 감성 레이블, 참조 영상들의 참조 스타일 데이터 및 참조 영상 그룹별 내부 파라미터를 저장할 수 있다.

통신부(1400)는 네트워크를 통해 외부 디바이스와 데이터를 송수신한다.

프로세서(1500)는 제 1 영상(10)을 인식 모델(300)에 입력시켜 인식 모델(300)에서 출력되는 레이블 및/또는 레이블의 확률 값을 획득한다. 프로세서(1500)는 참조 영상들 중 제 1 영상(10)과 관련성이 높은 타겟 참조 영상의 참조 스타일 데이터를 획득하고, 제 1 영상(10)의 제 1 스타일 데이터 및 참조 스타일 데이터에 기초하여 제 2 스타일 데이터를 생성한다. 그리고, 프로세서(1500)는 제 2 스타일 데이터에 기초하여 제 2 영상(90)을 생성한다.

일 실시예에서, 프로세서(1500)는 참조 영상들에 기초하여 인식 모델(300)을 훈련시킬 수도 있다. 프로세서(1500)는 참조 영상들 및 참조 영상들에 할당된 시각 감성 레이블을 인식 모델(300)에 입력시켜 인식 모델(300)의 내부 파라미터가 갱신되도록 할 수 있다.

이하에서는, 프로세서(1500)가 인식 모델(300)을 훈련시키는 경우의 세부 구성에 대해 도 14 내지 도 16을 참조하여 설명한다.

도 14는 일부 실시예에 따른 프로세서(1500)의 블록도이다.

도 14를 참조하면, 일부 실시예에 따른 프로세서(1500)는 데이터 학습부(1510) 및 데이터 인식부(1520)를 포함할 수 있다.

데이터 학습부(1510)는 상황 판단(예를 들어, 영상에 대응하는 레이블의 판단)을 위한 기준을 학습할 수 있다. 데이터 학습부(1510)는 소정의 상황을 판단하기 위하여 어떤 데이터를 이용할 지, 데이터를 이용하여 상황을 어떻게 판단할 지에 관한 기준을 학습할 수 있다. 데이터 학습부(1510)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 인식 모델(300)에 적용함으로써, 상황 판단을 위한 기준을 학습할 수 있다.

데이터 인식부(1520)는 데이터에 기초한 상황을 판단할 수 있다. 데이터 인식부(1520)는 학습된 인식 모델(300)을 이용하여, 소정의 데이터로부터 상황을 인식할 수 있다. 데이터 인식부(1520)는 학습에 의한 기 설정된 기준에 따라 소정의 데이터를 획득하고, 획득된 데이터를 입력 값으로 하여 인식 모델(300)을 이용함으로써, 소정의 데이터에 기초한 소정의 상황을 판단할 수 있다. 또한, 획득된 데이터를 입력 값으로 하여 인식 모델(300)에 의해 출력된 결과 값은, 인식 모델(300)을 갱신하는데 이용될 수 있다.

데이터 학습부(1510) 및 데이터 인식부(1520) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 학습부(1510) 및 데이터 인식부(1520) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.

이 경우, 데이터 학습부(1510) 및 데이터 인식부(1520)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 학습부(1510) 및 데이터 인식부(1520) 중 하나는 사용자 디바이스(2000)에 포함되고, 나머지 하나는 서버(3000)에 포함될 수 있다. 또한, 데이터 학습부(1510) 및 데이터 인식부(1520)는 유선 또는 무선으로 통하여, 데이터 학습부(1510)가 구축한 모델 정보를 데이터 인식부(1520)로 제공할 수도 있고, 데이터 인식부(1520)로 입력된 데이터가 추가 학습 데이터로서 데이터 학습부(1510)로 제공될 수도 있다.

한편, 데이터 학습부(1510) 및 데이터 인식부(1520) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 학습부(1510) 및 데이터 인식부(1520) 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.

도 15는 일부 실시예에 따른 데이터 학습부(1510)의 블록도이다.

도 15를 참조하면, 일부 실시예에 따른 데이터 학습부(1510)는 데이터 획득부(1510-1), 전처리부(1510-2), 학습 데이터 선택부(1510-3), 모델 학습부(1510-4) 및 모델 평가부(1510-5)를 포함할 수 있다.

데이터 획득부(1510-1)는 상황 판단에 필요한 데이터를 획득할 수 있다. 데이터 획득부(1510-1)는 상황 판단을 위한 학습을 위하여 필요한 데이터를 획득할 수 있다.

데이터 획득부(1510-1)는 카메라에 의해 촬영된 영상 데이터를 획득하거나, 외부 장치로부터 네트워크를 통해 수신된 영상 데이터를 획득할 수 있다. 또는 데이터 획득부(1510-1)는 카메라에 의해 인식되는 프리뷰 영상 데이터를 획득할 수 있다.

전처리부(1510-2)는 상황 판단을 위한 학습에 획득 데이터가 이용될 수 있도록, 획득 데이터를 전처리할 수 있다. 전처리부(1510-2)는 후술할 모델 학습부(1510-4)가 상황 판단을 위한 학습을 위하여 획득 데이터를 이용할 수 있도록, 획득 데이터를 기 설정된 포맷으로 가공할 수 있다.

학습 데이터 선택부(1510-3)는 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 선택된 데이터는 모델 학습부(1510-4)에 제공될 수 있다. 학습 데이터 선택부(1510-3)는 상황 판단을 위한 기 설정된 기준에 따라, 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 또한, 학습 데이터 선택부(1510-3)는 후술할 모델 학습부(1510-4)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다.

모델 학습부(1510-4)는 학습 데이터에 기초하여 상황을 어떻게 판단할 지에 관한 기준을 학습할 수 있다. 또한, 모델 학습부(1510-4)는 상황 판단을 위하여 어떤 학습 데이터를 이용해야 하는 지에 대한 기준을 학습할 수도 있다.

또한, 모델 학습부(1510-4)는 상황 판단에 이용되는 인식 모델(300)을 학습 데이터를 이용하여 학습시킬 수 있다. 이 경우, 인식 모델(300)은 미리 구축된 모델일 수 있다. 예를 들어, 인식 모델(300)은 기본 학습 데이터(예를 들어, 샘플 이미지 등)을 입력 받아 미리 구축된 모델일 수 있다.

인식 모델(300)은, 인식 모델(300)의 적용 분야, 학습의 목적 또는 장치의 컴퓨터 성능 등을 고려하여 구축될 수 있다. 인식 모델(300)은, 예를 들어, 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 예컨대, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network)과 같은 모델이 인식 모델(300)로서 사용될 수 있으나, 이에 한정되지 않는다.

다양한 실시예에 따르면, 모델 학습부(1510-4)는 미리 구축된 인식 모델(300)이 복수 개가 존재하는 경우, 입력된 학습 데이터와 기본 학습 데이터의 관련성이 큰 인식 모델(300)을 학습할 인식 모델(300)로 결정할 수 있다. 이 경우, 기본 학습 데이터는 데이터의 타입 별로 기 분류되어 있을 수 있으며, 인식 모델(300)은 데이터의 타입 별로 미리 구축되어 있을 수 있다. 예를 들어, 기본 학습 데이터는 학습 데이터가 생성된 지역, 학습 데이터가 생성된 시간, 학습 데이터의 크기, 학습 데이터의 장르, 학습 데이터의 생성자, 학습 데이터 내의 오브젝트의 종류 등과 같은 다양한 기준으로 기 분류되어 있을 수 있다.

또한, 모델 학습부(1510-4)는, 예를 들어, 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient descent)을 포함하는 학습 알고리즘 등을 이용하여 인식 모델(300)을 학습시킬 수 있다.

또한, 모델 학습부(1510-4)는, 예를 들어, 학습 데이터를 입력 값으로 하는 지도 학습(supervised learning) 을 통하여, 인식 모델(300)을 학습시킬 수 있다. 또한, 모델 학습부(1510-4)는, 예를 들어, 별다른 지도없이 상황 판단을 위해 필요한 데이터의 종류를 스스로 학습함으로써, 상황 판단을 위한 기준을 발견하는 비지도 학습(unsupervised learning)을 통하여, 인식 모델(300)을 학습시킬 수 있다. 또한, 모델 학습부(1510-4)는, 예를 들어, 학습에 따른 상황 판단의 결과가 올바른 지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 통하여, 인식 모델(300)을 학습시킬 수 있다.

또한, 인식 모델(300)이 학습되면, 모델 학습부(1510-4)는 학습된 인식 모델(300)을 저장할 수 있다. 이 경우, 모델 학습부(1510-4)는 학습된 인식 모델(300)을 데이터 인식부(1520)를 포함하는 전자 장치의 메모리에 저장할 수 있다. 또는, 모델 학습부(1510-4)는 학습된 인식 모델(300)을 후술할 데이터 인식부(1520)를 포함하는 전자 장치의 메모리에 저장할 수 있다. 또는, 모델 학습부(1510-4)는 학습된 인식 모델(300)을 전자 장치와 유선 또는 무선 네트워크로 연결되는 서버(3000)의 메모리에 저장할 수도 있다.

이 경우, 학습된 인식 모델(300)이 저장되는 메모리는, 예를 들면, 전자 장치의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 함께 저장할 수도 있다. 또한, 메모리는 소프트웨어 및/또는 프로그램을 저장할 수도 있다. 프로그램은, 예를 들면, 커널, 미들웨어, 어플리케이션 프로그래밍 인터페이스(API) 및/또는 어플리케이션 프로그램(또는 "어플리케이션") 등을 포함할 수 있다.

모델 평가부(1510-5)는 인식 모델(300)에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 인식 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(1510-4)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 인식 모델(300)을 평가하기 위한 기 설정된 데이터일 수 있다.

예를 들어, 모델 평가부(1510-5)는 평가 데이터에 대한 학습된 인식 모델(300)의 인식 결과 중에서, 인식 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정된 임계치를 초과하는 경우 소정 기준을 만족하지 못한 것으로 평가할 수 있다. 예컨대, 소정 기준이 비율 2%로 정의되는 경우, 학습된 인식 모델(300)이 총 1000개의 평가 데이터 중의 20개를 초과하는 평가 데이터에 대하여 잘못된 인식 결과를 출력하는 경우, 모델 평가부(1510-5)는 학습된 인식 모델(300)이 적합하지 않은 것으로 평가할 수 있다.

한편, 학습된 인식 모델(300)이 복수 개가 존재하는 경우, 모델 평가부(1510-5)는 각각의 학습된 인식 모델(300)에 대하여 소정 기준을 만족하는지를 평가하고, 소정 기준을 만족하는 모델을 최종 인식 모델(300)로서 결정할 수 있다. 이 경우, 소정 기준을 만족하는 모델이 복수 개인 경우, 모델 평가부(1510-5)는 평가 점수가 높은 순으로 미리 설정된 어느 하나 또는 소정 개수의 모델을 최종 인식 모델(300)로서 결정할 수 있다.

한편, 데이터 학습부(1510) 내의 데이터 획득부(1510-1), 전처리부(1510-2), 학습 데이터 선택부(1510-3), 모델 학습부(1510-4) 및 모델 평가부(1510-5) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(1510-1), 전처리부(1510-2), 학습 데이터 선택부(1510-3), 모델 학습부(1510-4) 및 모델 평가부(1510-5) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.

또한, 데이터 획득부(1510-1), 전처리부(1510-2), 학습 데이터 선택부(1510-3), 모델 학습부(1510-4) 및 모델 평가부(1510-5)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1510-1), 전처리부(1510-2), 학습 데이터 선택부(1510-3), 모델 학습부(1510-4) 및 모델 평가부(1510-5) 중 일부는 사용자 디바이스(2000)에 포함되고, 나머지 일부는 서버(3000)에 포함될 수 있다.

또한, 데이터 획득부(1510-1), 전처리부(1510-2), 학습 데이터 선택부(1510-3), 모델 학습부(1510-4) 및 모델 평가부(1510-5) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1510-1), 전처리부(1510-2), 학습 데이터 선택부(1510-3), 모델 학습부(1510-4) 및 모델 평가부(1510-5) 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.

도 16은 일부 실시예에 따른 데이터 인식부(1520)의 블록도이다.

도 16을 참조하면, 일부 실시예에 따른 데이터 인식부(1520)는 데이터 획득부(1520-1), 전처리부(1520-2), 인식 데이터 선택부(1520-3), 인식 결과 제공부(1520-4) 및 모델 갱신부(1520-5)를 포함할 수 있다.

데이터 획득부(1520-1)는 상황 판단에 필요한 데이터를 획득할 수 있으며, 전처리부(1520-2)는 상황 판단을 위해 획득된 데이터가 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(1520-2)는 후술할 인식 결과 제공부(1520-4)가 상황 판단을 위하여 획득된 데이터를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다.

인식 데이터 선택부(1520-3)는 전처리된 데이터 중에서 상황 판단에 필요한 데이터를 선택할 수 있다. 선택된 데이터는 인식 결과 제공부(1520-4)에게 제공될 수 있다. 인식 데이터 선택부(1520-3)는 상황 판단을 위한 기 설정된 기준에 따라, 전처리된 데이터 중에서 일부 또는 전부를 선택할 수 있다. 또한, 인식 데이터 선택부(1520-3)는 모델 학습부(1510-4)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다.

인식 결과 제공부(1520-4)는 선택된 데이터를 인식 모델(300)에 적용하여 상황을 판단할 수 있다. 인식 결과 제공부(1520-4)는 데이터의 인식 목적에 따른 인식 결과를 제공할 수 있다. 인식 결과 제공부(1520-4)는 인식 데이터 선택부(1520-3)에 의해 선택된 데이터를 입력 값으로 이용함으로써, 선택된 데이터를 인식 모델(300)에 적용할 수 있다. 또한, 인식 결과는 인식 모델(300)에 의해 결정될 수 있다. 예를 들어, 인식 결과 제공부(1520-4)는 인식 데이터 선택부(1520-3)에 의해 선택된 제 1 영상(10)을 인식 모델(300)에 적용할 수 있다. 인식 결과 제 1 영상(10)에 대응하는 레이블 및 레이블의 확률 값이 결정될 수 있다.

모델 갱신부(1520-5)는 인식 결과 제공부(1520-4)에 의해 제공되는 인식 결과에 대한 평가에 기초하여, 인식 모델(300)이 갱신되도록 할 수 있다. 예를 들어, 모델 갱신부(1520-5)는 인식 결과 제공부(1520-4)에 의해 제공되는 인식 결과를 모델 학습부(1510-4)에게 제공함으로써, 모델 학습부(1510-4)가 인식 모델(300)을 갱신하도록 할 수 있다.

한편, 데이터 인식부(1520) 내의 데이터 획득부(1520-1), 전처리부(1520-2), 인식 데이터 선택부(1520-3), 인식 결과 제공부(1520-4) 및 모델 갱신부(1520-5) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(1520-1), 전처리부(1520-2), 인식 데이터 선택부(1520-3), 인식 결과 제공부(1520-4) 및 모델 갱신부(1520-5) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.

또한, 데이터 획득부(1520-1), 전처리부(1520-2), 인식 데이터 선택부(1520-3), 인식 결과 제공부(1520-4) 및 모델 갱신부(1520-5)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1520-1), 전처리부(1520-2), 인식 데이터 선택부(1520-3), 인식 결과 제공부(1520-4) 및 모델 갱신부(1520-5) 중 일부는 사용자 디바이스(2000)에 포함되고, 나머지 일부는 서버(3000)에 포함될 수 있다.

또한, 데이터 획득부(1520-1), 전처리부(1520-2), 인식 데이터 선택부(1520-3), 인식 결과 제공부(1520-4) 및 모델 갱신부(1520-5) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1520-1), 전처리부(1520-2), 인식 데이터 선택부(1520-3), 인식 결과 제공부(1520-4) 및 모델 갱신부(1520-5) 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.

도 17은 일부 실시예에 따른 사용자 디바이스(2000) 및 서버(3000)가 서로 연동함으로써 데이터를 학습하고 인식하는 예시를 나타내는 도면이다.

도 17를 참조하면, 서버(3000)는 상황 판단(예를 들어, 영상에 대응하는 레이블의 판단)을 위한 기준을 학습할 수 있으며, 사용자 디바이스(2000)는 서버(3000)에 의한 학습 결과에 기초하여 상황을 판단할 수 있다.

이 경우, 서버(3000)의 모델 학습부(3340)는 도 15에 도시된 데이터 학습부(1510)의 기능을 수행할 수 있다. 서버(3000)의 모델 학습부(3340)는 소정의 상황을 판단하기 위하여 어떤 데이터를 이용할 지, 데이터를 이용하여 상황을 어떻게 판단할 지에 관한 기준을 학습할 수 있다. 모델 학습부(3340)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 인식 모델(300)에 적용함으로써, 상황 판단을 위한 기준을 학습할 수 있다.

또한, 사용자 디바이스(2000)의 인식 결과 제공부(1520-4)는 인식 데이터 선택부(1520-3)에 의해 선택된 데이터를 서버(3000)에 의해 생성된 인식 모델(300)에 적용하여 상황을 판단할 수 있다. 예를 들어, 인식 결과 제공부(1520-4)는 인식 데이터 선택부(1520-3)에 의해 선택된 데이터를 서버(3000)에게 전송하고, 서버(3000)가 인식 데이터 선택부(1520-3)에 의해 선택된 데이터를 인식 모델(300)에 적용하여 상황을 판단할 것을 요청할 수 있다. 또한, 인식 결과 제공부(1520-4)는 서버(3000)에 의해 판단된 상황에 관한 정보를 서버(3000)로부터 수신할 수 있다.

또는, 사용자 디바이스(2000)의 인식 결과 제공부(1520-4)는 서버(3000)에 의해 생성된 인식 모델(300)을 서버(3000)로부터 수신하고, 수신된 인식 모델(300)을 이용하여 상황을 판단할 수 있다. 이 경우, 사용자 디바이스(2000)의 인식 결과 제공부(1520-4)는 인식 데이터 선택부(1520-3)에 의해 선택된 데이터를 서버(3000)로부터 수신된 인식 모델(300)에 적용하여 상황을 판단할 수 있다.

한편, 상술한 본 개시의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 작성된 프로그램은 매체에 저장될 수 있다.

매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수개 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 애플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.

이상, 본 개시의 기술적 사상을 바람직한 실시예를 들어 상세하게 설명하였으나, 본 개시의 기술적 사상은 상기 실시예들에 한정되지 않고, 본 개시의 기술적 사상의 범위 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러 가지 변형 및 변경이 가능하다.

100: 영상 처리 장치
1300: 메모리
1400: 통신부
1500: 프로세서

Claims

제 1 영상을 인식 모델에 입력시켜 상기 제 1 영상의 복수의 레이블 및 상기 복수의 레이블 각각에 대응하는 확률 값을 획득하는 단계;
상기 제 1 영상의 복수의 레이블 중 하나 이상의 레이블과 동일한 시각 감성 레이블이 할당된 적어도 하나의 후보 참조 영상 별로, 상기 하나 이상의 레이블의 확률 값의 평균으로 상기 제 1 영상과의 관련도를 산출하는 단계;
상기 산출된 관련도에 기초하여, 상기 적어도 하나의 후보 참조 영상 중에 선택된 타겟 참조 영상의 참조 스타일 데이터를 획득하는 단계;
상기 제 1 영상의 제 1 스타일 데이터 및 상기 획득한 참조 스타일 데이터에 기초하여, 제 2 스타일 데이터를 생성하는 단계; 및
상기 생성된 제 2 스타일 데이터에 기초하여 제 2 영상을 생성하는 단계를 포함하는 것을 특징으로 하는 영상 처리 방법.
제1항에 있어서,
상기 타겟 참조 영상의 참조 스타일 데이터를 획득하는 단계는,
상기 산출된 관련도의 크기에 기초하여, 상기 적어도 하나의 후보 참조 영상 중에서 상기 타겟 참조 영상을 선택하는 단계를 포함하는 것을 특징으로 하는 영상 처리 방법.
삭제
제1항에 있어서,
상기 타겟 참조 영상을 선택하는 단계는,
상기 적어도 하나의 후보 참조 영상에 대응하는 적어도 하나의 썸네일 영상을 상기 관련도의 크기에 기초한 순서대로 디스플레이에 표시하는 단계; 및
상기 적어도 하나의 썸네일 영상 중 사용자에 의해 선택된 썸네일 영상에 대응하는 후보 참조 영상을 상기 타겟 참조 영상으로 선택하는 단계를 포함하는 것을 특징으로 하는 영상 처리 방법.
제1항에 있어서,
상기 타겟 참조 영상의 참조 스타일 데이터를 획득하는 단계는,
상기 제 1 영상의 레이블과 동일한 시각 감성 레이블이 할당된 적어도 하나의 후보 참조 영상 중 사용자의 선택 빈도에 기초하여 상기 타겟 참조 영상을 선택하는 단계를 포함하는 것을 특징으로 하는 영상 처리 방법.
제1항에 있어서,
상기 제 1 영상의 복수의 레이블 및 상기 복수의 레이블 각각에 대응하는 확률 값을 획득하는 단계는,
상기 제 1 영상 내 관심 영역을 상기 인식 모델에 입력시켜 상기 관심 영역의 레이블을 획득하는 단계를 포함하되,
상기 제1 영상과의 관련도를 산출하는 단계는,
상기 관심 영역의 레이블과 동일한 시각 감성 레이블이 할당되지 않은 참조 영상을 제외한 적어도 하나의 후보 참조 영상 별로, 상기 제1 영상과의 관련도를 산출하는 단계를 포함하는 것을 특징으로 하는 영상 처리 방법.
제6항에 있어서,
상기 타겟 참조 영상의 참조 스타일 데이터를 획득하는 단계는,
상기 산출된 관련도의 크기에 기초하여, 상기 적어도 하나의 후보 참조 영상 중 상기 타겟 참조 영상을 선택하는 단계를 포함하는 것을 특징으로 하는 영상 처리 방법.
제7항에 있어서,
상기 제 1 영상의 복수의 레이블 및 상기 복수의 레이블 각각에 대응하는 확률 값을 획득하는 단계는,
상기 제 1 영상의 복수의 레이블 및 상기 복수의 레이블 각각에 대응하는 확률 값, 및 상기 관심 영역의 레이블에 대응하는 확률 값을 획득하는 단계를 포함하고,
상기 관심 영역의 레이블의 확률 값은 기 설정된 값으로 설정되는 것을 특징으로 하는 영상 처리 방법.
제1항에 있어서,
상기 영상 처리 방법은,
복수의 참조 영상 그룹 중 사용자에 의해 선택된 참조 영상 그룹에 대응하는 내부 파라미터로 상기 인식 모델의 내부 파라미터를 변경하는 단계; 및
상기 내부 파라미터가 변경된 상기 인식 모델에 상기 제 1 영상을 입력하는 단계를 포함하는 것을 특징으로 하는 영상 처리 방법.
제9항에 있어서,
상기 복수의 참조 영상 그룹은,
참조 영상들의 제작자에 따라 구분되는 것을 특징으로 하는 영상 처리 방법.
제9항에 있어서,
상기 영상 처리 방법은,
서버에 접속하여 참조 영상 그룹 리스트를 상기 서버로부터 수신하는 단계;
상기 참조 영상 그룹 리스트 중 사용자로부터 적어도 하나의 참조 영상 그룹을 선택받는 단계; 및
상기 선택된 적어도 하나의 참조 영상 그룹에 포함된 참조 영상들에 기초하여 훈련된 인식 모델의 내부 파라미터, 상기 적어도 하나의 참조 영상 그룹에 포함된 참조 영상들의 참조 스타일 데이터 및 상기 적어도 하나의 참조 영상 그룹에 포함된 참조 영상들에 할당된 시각 감성 레이블을 상기 서버로부터 수신하는 단계를 더 포함하는 것을 특징으로 하는 영상 처리 방법.
제1항에 있어서,
상기 영상 처리 방법은,
상기 제 1 영상을 특징 추출 모델에 입력시켜 상기 제 1 영상의 제 1 스타일 데이터를 획득하는 단계; 및
상기 생성된 제 2 스타일 데이터를 특징 합성 모델이 입력시켜 상기 제 2 영상을 생성하는 단계를 포함하는 것을 특징으로 하는 영상 처리 방법.
삭제
제1항, 제2항, 및 제4항 내지 제12항 중 어느 하나의 항의 영상 처리 방법을 실행하기 위하여 매체에 저장된 프로그램.
프로세서; 및
인식 모델 및 적어도 하나의 프로그램을 저장하는 메모리를 포함하되,
상기 프로세서는, 상기 적어도 하나의 프로그램이 실행됨에 따라,
제 1 영상을 상기 인식 모델에 입력시켜 상기 제 1 영상의 복수의 레이블 및 상기 복수의 레이블 각각에 대응하는 확률 값을 획득하고,
상기 제 1 영상의 복수의 레이블 중 하나 이상의 레이블과 동일한 시각 감성 레이블이 할당된 적어도 하나의 후보 참조 영상 별로, 상기 하나 이상의 레이블의 확률 값의 평균으로 상기 제 1 영상과의 관련도를 산출하고,
상기 산출된 관련도에 기초하여, 상기 적어도 하나의 후보 참조 영상 중에 선택된 타겟 참조 영상의 참조 스타일 데이터를 획득하고,
상기 제 1 영상의 제 1 스타일 데이터 및 상기 획득한 참조 스타일 데이터에 기초하여, 제 2 스타일 데이터를 생성하고,
상기 생성된 제 2 스타일 데이터에 기초하여 제 2 영상을 생성하는 것을 특징으로 하는 영상 처리 장치.
제15항에 있어서,
상기 프로세서는,
상기 산출된 관련도의 크기에 기초하여, 상기 적어도 하나의 후보 참조 영상 중 상기 타겟 참조 영상을 선택하는 것을 특징으로 하는 영상 처리 장치.
삭제
제15항에 있어서,
상기 프로세서는,
상기 적어도 하나의 후보 참조 영상에 대응하는 적어도 하나의 썸네일 영상을 상기 관련도의 크기에 기초한 순서대로 디스플레이에 표시하고,
상기 적어도 하나의 썸네일 영상 중 사용자에 의해 선택된 썸네일 영상에 대응하는 후보 참조 영상을 상기 타겟 참조 영상으로 선택하는 것을 특징으로 하는 영상 처리 장치.
제15항에 있어서,
상기 프로세서는,
상기 제 1 영상의 레이블과 동일한 시각 감성 레이블이 할당된 적어도 하나의 후보 참조 영상 중 사용자의 선택 빈도에 기초하여 상기 타겟 참조 영상을 선택하는 것을 특징으로 하는 영상 처리 장치.
제15항에 있어서,
상기 프로세서는,
상기 제 1 영상 내 관심 영역을 상기 인식 모델에 입력시켜 상기 관심 영역의 레이블을 획득하고,
상기 관심 영역의 레이블과 동일한 시각 감성 레이블이 할당되지 않은 참조 영상을 제외한 적어도 하나의 후보 참조 영상 별로, 상기 제 1 영상과의 관련도를 산출하는 것을 특징으로 하는 영상 처리 장치.