KR20200063329A

KR20200063329A - 영상 처리 장치 및 그 제어방법

Info

Publication number: KR20200063329A
Application number: KR1020180144332A
Authority: KR
Inventors: 아그라왈비벡; 바이잘아난트; 현대은; 권미정; 최윤주
Original assignee: 삼성전자주식회사
Priority date: 2018-11-21
Filing date: 2018-11-21
Publication date: 2020-06-05
Also published as: EP3657387A1; WO2020105948A1; US11482000B2; US20200160056A1

Abstract

개시된 영상 처리 장치는, 통신부; 저장부; 및 상기 저장부에 저장된 제1 영상 데이터에서 복수 개의 객체를 인식하는 객체 인식을 수행하고, 상기 인식된 복수 개의 객체에 대해 신경망을 통한 연산 처리에서 추론된 점수를 획득하고, 상기 획득된 점수 및 상기 복수 개의 객체의 근접성에 기초하여 제2 영상 데이터를 생성하고, 상기 제2 영상 데이터를 기초로 영상 처리를 수행하는 제어부;를 포함한다.

Description

영상 처리 장치 및 그 제어방법{IMAGE PROCESSING APPARATUS AND CONTROLLING METHOD THEREOF}

개시된 실시예는, 딥 러닝(Deep Learning)을 이용하여 영상의 심미성을 평가하고, 평가된 심미성에 따라 영상 처리를 수행하는 영상 처리 장치 및 그 제어방법에 관한 것이다.

최근 기계 학습의 일 분야인 딥 러닝에 대한 연구 및 성과가 이뤄짐에 따라, 딥 러닝을 산업분야에 적용하는 연구도 활발히 진행되고 있다. 여기서 딥 러닝은, 멀티-레이어-퍼셉트론(multilayer perceptron)과 같은 신경망(Neural Network)에서 추출된 특징을 다시 신경망에 입력하는 것으로, 이전 멀티-레이어-퍼셉트론만으로 구성된 기계 학습이 가지는 성능의 한계를 극복하여 주목받고 있다.

수신되는 영상을 출력하는 영상 처리 장치는 사용자의 라이프 스타일에 따라 영상 처리를 수행하고, 심미적 영상을 제공할 수 있다. 영상 처리 장치는 사용자가 전송하는 영상을 제공하면서 동시에 적절한 음악을 재생 또는 추천함으로써 사용자의 미적 경험을 제공할 수도 있다. 또한, 사용자가 전송하는 영상은, 사용자 단말, 클라우드 서버, USB(Universal Serial Bus) 또는 HDMI(High-Definition Multimedia Interface) 등 다양한 경로로 영상 처리 장치에 전송되어 표시될 수 있다.

다만, 이러한 미적 경험을 제공하는 종래 기술은, 영상 전체의 심미성을 판단할 뿐, 영상의 객체를 지역적으로 인식하여 심미성을 평가하지 않는다. 이에 따라 심미성을 일으키는 영역에 대한 고려가 부족하게 되고, 처리되는 영상 처리의 결과의 만족도가 낮아지는 문제가 있었다.

또한, 심미성에 대한 부적절한 평가는 음악 재생 또는 추천에서도 부적합한 음악을 추천하게 되는 결과를 초래하고, 다른 종래 기술은 음악 추천에 영상의 심미성 평가를 고려하지 않고, 단순히 영상의 장르를 구분하여 적용할 뿐이었다.

개시된 실시예의 일 측면에 따르면, 영상에 포함된 개별적인 객체에 대한 미적 평가를 수행하거나 객체를 결합한 영상의 영역 설정(Localization)을 통해 미적 평가를 수행함으로써, 영상 처리의 수행 능력을 향상시키고, 음악 추천의 정확성을 높이는 영상 처리 장치 및 그 제어방법을 제공한다.

상기 제어부는, 상기 제1 영상 데이터에 윈도우를 생성하고, 상기 생성된 윈도우에 기초하여 상기 객체 인식을 수행하고, 상기 윈도우는, 미리 설정된 개수 및 크기에 기초하여 생성되거나, 상기 객체 인식이 수행될 상기 영상 데이터의 크기 또는 종횡비에 기초하여 생성될 수 있다.

상기 저장부는, 상기 신경망에 관한 데이터를 저장하고, 상기 제어부는, 상기 생성된 윈도우에 대해 상기 신경망을 통한 연산 처리를 수행하고, 상기 연산 처리에서 추론된 신뢰도 및 상기 객체의 종류에 기초하여 상기 복수 개의 객체를 각각 포함하는 윈도우를 선택할 수 있다.

상기 점수는, 상기 선택된 윈도우에 포함된 객체의 심미성 점수를 포함하고, 상기 제어부는, 상기 선택한 윈도우에 대해 상기 신경망 처리를 수행한 후, 신경망에서 특징을 추출하고, 상기 추출된 특징에 기초하여 상기 심미성 점수를 획득할 수 있다.

상기 특징은, 색상 히스토그램 특징, 텍스트 특징, 대칭 특징, 3차 특징 추출 규칙 또는 고급 묘사 특징 중 적어도 하나를 포함할 수 있다.

상기 통신부는, 상기 신경망을 통한 연산 처리를 수행하는 서버와 통신하고, 상기 신경망은, 상기 서버로부터 크롤링되는 데이터에 포함된 라벨링에 기초하여 학습될 수 있다.

상기 제어부는, 상기 선택된 윈도우간 거리를 기초로 상기 근접성을 판단하고, 상기 획득된 점수 및 상기 근접성에 기초하여 상기 복수 개의 윈도우를 병합할 수 있다.

상기 제어부는, 상기 병합된 윈도우를 상기 신경망에 입력한 후, 추론되는 점수를 미리 설정된 기준값과 비교할 수 있다.

상기 제어부는, 상기 비교 결과에 기초하여 상기 병합된 윈도우를 포함하는 상기 제2 영상을 생성할 수 있다.

상기 제어부는, 상기 제 2영상 데이터에 대해 상기 신경망을 통한 연산 처리를 수행한 후, 상기 신경망에서 추론되는 결과에 기초하여 해상도를 조절하는 영상 처리를 수행할 수 있다.

상기 제어부는, 상기 제1 영상 데이터에 대해 상기 신경망을 통한 연산 처리를 수행한 후, 상기 연산 처리에서 추론되는 상기 제2 영상 데이터의 장르를 결정하고, 상기 결정된 장르에 기초하여 상기 제2 영상 데이터의 스타일을 전환하는 영상 처리를 수행할 수 있다.

상기 영상 처리 장치의 주변 환경에 관한 데이터를 수집하는 센서부;를 더 포함하고, 상기 제어부는, 상기 수집된 데이터에 기초하여 상기 제2 영상의 밝기 또는 대비를 조정하도록 영상 처리를 수행할 수 있다.

상기 제어부는, 상기 선택한 윈도우에 기초하여 상기 신경망에서 추출된 제1 특징을 저장하고, 상기 영상 처리된 제2 영상에 대해 상기 신경망 처리를 수행한 후 상기 신경망에서 제2 특징을 추출할 수 있다.

상기 제어부는, 상기 제1 특징 및 상기 제2 특징에 대해 상기 신경망을 통한 연산 처리를 수행한 후, 상기 제2 영상의 분위기를 분류할 수 있다.

상기 영상 처리된 제2 영상 데이터를 출력하는 표시부; 및 음원을 재생하는 소리 출력부;를 더 포함하고,

상기 제어부는, 상기 분류된 분위기에 기초하여 재생 목록을 추천하고, 상기 결정된 재생 목록에 포함된 상기 음원을 출력하도록 상기 소리 출력부를 제어하고, 상기 영상 처리된 제2 영상 데이터를 출력하도록 상기 출력부를 제어할 수 있다.

개시된 다른 실시예에 따른 영상 처리 장치의 제어방법은, 1 영상 데이터에서 복수 개의 객체를 인식하는 객체 인식을 수행하고; 상기 인식된 복수 개의 객체에 대해 신경망을 통한 연산 처리에서 추론된 점수를 획득하고; 상기 획득된 점수 및 상기 복수 개의 객체의 근접성에 기초하여 제2 영상 데이터를 생성하고; 및 상기 신경망에서 추출된 특징에 기초하여 상기 제2 영상 데이터에 대한 영상 처리를 수행하는 것;을 포함한다.

상기 객체 인식을 수행하는 것은, 상기 제1 영상 데이터에 윈도우를 생성하고;상기 생성된 윈도우에 대해 상기 신경망을 통한 연산 처리를 수행하고; 상기 신경망 처리를 통해 추론된 신뢰도 및 객체의 종류에 기초하여 상기 복수 개의 객체를 각각 포함하는 윈도우를 선택하는 것;을 포함할 수 있다.

상기 생성하는 것은, 상기 선택된 윈도우간 거리에 기초로 상기 근접성을 판단하고, 상기 추론된 점수 및 상기 근접성에 기초하여 상기 복수 개의 윈도우를 병합하고; 상기 병합된 윈도우에 대해 상기 신경망을 통한 연산 처리를 수행하고; 상기 연산 처리에서 추론되는 점수를 미리 설정된 기준값과 비교하고; 및 상기 비교 결과에 기초하여 상기 병합된 윈도우를 포함하는 상기 제2 영상을 생성하는 것;을 포함할 수 있다.

상기 수행하는 것은, 상기 제 2영상 데이터에 대해 상기 신경망을 통한 연산 처리를 수행하고; 상기 신경망을 통한 연산 처리에서 추론되는 결과에 기초하여 해상도를 조절하고; 상기 신경망을 통한 연산 처리에서 추론되는 상기 제2 영상의 장르를 결정하고; 및 상기 결정된 장르에 기초하여 상기 제2 영상 데이터의 스타일을 전환하는 것;을 포함할 수 있다.

상기 선택한 윈도우에 기초하여 상기 신경망을 통한 연산 처리에서 추출된 제1 특징을 저장하고; 상기 영상 처리된 제2 영상 데이터에 대해 상기 신경망을 통한 연산 처리를 수행하고; 상기 신경망 처리에서 추출된 제2 특징 및 상기 제1 특징에 대해 상기 신경망을 통한 연산 처리를 다시 수행하고; 및 상기 연산 처리에서 추론된 상기 제2 영상 데이터의 분위기에 기초하여 수신된 재생 목록에 기초하여 음원을 출력하는 것;을 더 포함할 수 있다.

개시된 영상 처리 장치에 따른 영상 처리 장치 및 그 제어방법은 영상에 포함된 개별적인 객체에 대한 미적 평가를 수행하거나 객체를 결합한 영상의 영역 설정을 통해 미적 평가를 수행함으로써, 영상 처리의 수행 능력을 향상시키고, 음악 추천의 정확성을 높일 수 있다.

도 1은 개시된 실시예에 따른 서버와 영상 처리 장치를 포함한 시스템의 도면이다.
도 2는 개시된 영상 처리 장치의 제어 블록도이다.
도 3은 개시된 일 실시예에 따른 영상 처리 장치의 제어방법을 설명하기 위한 순서도이고, 도 4는 도 3의 순서도를 일 예의 영상과 함께 설명한 도면이다.
도 5는 객체 인식에 관한 실시예를 구체적으로 설명하기 위한 도면이다.
도 6은 심미성 분석 중, 심미성 점수를 획득하는 방법을 설명하기 위한 순서도이고, 도 7은 신경망이 학습하는 데이터의 일 예를 설명하기 위한 도면이다.
도 8은 일 실시예에 따른 제2 영상을 생성하는 방법을 설명하기 위한 순서도이고, 도 9는 영상을 예시로 도 8을 더욱 구체적으로 설명하기 위한 도면이다.
도 10은 콘텐츠 기반의 영상 처리를 설명하기 위한 순서도이고, 도 11은 환경 기반의 영상 처리를 설명하기 위한 순서도이며, 도 12는 도 11 및 도 12를 더욱 구체적으로 설명하기 위한 도면이다.
도 13은 음악을 추천 또는 재생하는 제어방법에 관한 순서도이다.
도 14는 도 13을 구체적으로 설명하기 위한 도면이다.

명세서 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다. 본 명세서가 실시예들의 모든 요소들을 설명하는 것은 아니며, 본 발명이 속하는 기술분야에서 일반적인 내용 또는 실시예들 간에 중복되는 내용은 생략한다. 명세서에서 사용되는 '부, 모듈, 부재, 블록'이라는 용어는 소프트웨어 또는 하드웨어로 구현될 수 있으며, 실시예들에 따라 복수의 '부, 모듈, 부재, 블록'이 하나의 구성요소로 구현되거나, 하나의 '부, 모듈, 부재, 블록'이 복수의 구성요소들을 포함하는 것도 가능하다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐 아니라, 간접적으로 연결되어 있는 경우를 포함하고, 간접적인 연결은 무선 통신망을 통해 연결되는 것을 포함한다.

또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

제 1, 제 2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위해 사용되는 것으로, 구성요소가 전술된 용어들에 의해 제한되는 것은 아니다.

단수의 표현은 문맥상 명백하게 예외가 있지 않는 한, 복수의 표현을 포함한다.

각 단계들에 있어 식별부호는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 실시될 수 있다.

이하 첨부된 도면들을 참고하여 본 발명의 작용 원리 및 실시예들에 대해 설명한다.

도 1은 개시된 실시예에 따른 서버와 영상 처리 장치를 포함한 시스템의 도면이다.

도 1을 참조하면, 개시된 시스템(1)은 영상 처리 장치(100)와 영상 처리 장치(100)에 영상을 제공하는 서버(10), 셋톱 박스(20), 사용자 단말(30) 및 게임 콘솔(50)를 포함할 수 있다.

영상 처리 장치(100)는 수신된 영상을 처리한 후, 사용자에게 영상을 표시할 수 있는 장치를 의미한다. 도 1에서는 영상 처리 장치(100)를 셋톱 박스(20) 및 게임 본체(50)와 연결된 DTV(Digital Television)로 도시하였다. 그러나 영상 처리 장치(100)는 이에 반드시 한정되는 것은 아니고, 전자책 리더기(e-book reader), 데스크톱 PC (desktop PC), 랩탑 PC(laptop PC), 넷북 컴퓨터(netbook computer), 블릿 PC, 슬레이트 PC 등을 포함할 수 있다.

셋톱 박스(set-top box, 20)는 디지털 위성방송용 수신장비를 의미하고, 영상 처리 장치(100)가 방송 사업자가 제공하는 디지털 TV방송을 아날로그 TV로도 수신할 수 있도록 한다. 또한, 셋톱 박스(20)는 쌍방향 TV나 주문형 영상물(VOD : video on demand)을 실현하는데 필수적 장비를 지칭한다. 도 1에서는 셋톱 박스(20)를 영상 처리 장치(100)의 외부에 연결된 외장형으로 도시되었지만, 반드시 이에 한정되는 것은 아니고, 내장형으로 마련될 수도 있다.

사용자 단말(30)은 무선 통신을 통해 영상 처리 장치(100)에 영상을 전송할 수 있는 웨어러블 장치를 의미한다. 일 예로, 사용자 단말(30)은 기기에 포함된 촬영 장치를 통해 촬영한 사진을 영상 처리 장치(100)에 전송할 수 있다. 개시된 영상 처리 장치(100)는 사용자 단말(30)이 전송하는 사진에 대해 이하에서 설명하는 영상 처리를 수행하고, 전송하는 사진의 분위기에 적합한 음악을 추천 또는 재생한다.

사용자 단말(30)은 네트워크를 통해 영상 처리 장치(100)에 접속할 수 있는 휴대용 단말기로 구현될 수 있으며, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), WiBro(Wireless Broadband Internet) 단말, 스마트 폰(Smart Phone) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치와 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD) 등과 같은 웨어러블 장치를 포함할 수 있다.

게임 콘솔(50)은 영상 처리 장치(100)에서 사용하는 컴포지트 비디오(Composite Video) 또는 고선명 멀티미디어 인터페이스(High Definition Multimedia Interface, HDMI) 등의 디스플레이 신호를 이용하는 상호 작용 엔터테인먼트 전자 장치를 의미한다. 일 예로, 게임 콘솔(50)은 XboxTM, PlayStationTM 을 포함한다.

서버(10)는 네트워크를 이용하여 영상 처리 장치(100)로 영상을 제공하는 스트리밍 서버 또는 중계 서버를 포함할 수 있다. 또한, 서버(10)는 네트워크 통신을 통해 브라우저 같은 웹 이미지를 영상 처리 장치(100)로 전달한다.

또한, 개시된 서버(10)는 영상 처리 장치(100)가 저장할 수 있는 신경망(Neural Network)을 제공할 수 있다. 서버(10)는 영상 처리 장치(100)에 신경망을 제공하기 전, 신경망을 학습시키고, 딥 러닝(Deep learning)이라 지칭할 수 있는 다른 여러 신경망의 버전을 저장할 수도 있다.

영상 처리 장치(100)는 하드웨어적 측면에서 메모리 및 CPU(Computer Processor Unit)가 서버(10)에 비해 제한적이다. 따라서 영상 처리 장치(100)에서 방대한 학습 데이터를 수집 및 저장한 후, 신경망을 업데이트 시키는 것은 한계가 있다. 따라서 서버(10)는 신경망에 포함된 가중치(weight), 바이어스(bias) 및 전달함수(Activation function)를 계속적으로 갱신시켜, 신경망의 추론(inference) 결과를 향상시키고, 학습된 신경망을 영상 처리 장치(100)에 제공할 수 있다.

한편, 개시된 신경망이 반드시 서버(10)에서만 학습되는 것은 아니다. 즉, 영상 처리 장치(100)에서도 수신되거나 저장된 데이터를 통해 신경망을 학습시키는 것도 가능하다.

영상 처리 장치(100)는 전술한 서버(10), 셋톱 박스(20) 또는 게임 콘솔(50) 이외에도 여러 다른 전자 장치나 네트워크를 통해 영상을 수신할 수도 있으며, 반드시 전술한 구성에 한정해서만 영상을 수신하는 것은 아니다.

도 2는 개시된 영상 처리 장치의 제어 블록도이다.

도 2를 참조하면, 개시된 영상 처리 장치(100)는 외부에서 영상을 수신하는 통신부(160)와 수신된 영상 데이터를 처리하는 영상 처리부(170), 영상 처리부(170)에 의해서 처리된 영상 데이터를 출력하는 표시부(110), 영상과 함께 수신되는 음성 데이터를 출력하거나, 사용자에게 추천할 음악 재생 목록에 포함된 음원을 출력하는 소리 출력부(120), 영상 처리 장치가 설치된 주변 환경에 관한 데이터를 수집하는 센서부(130), 사용자에 의한 입력 명령이 수신되는 사용자 입력부(140), 데이터가 저장되는 저장부(150), 영상 처리부(170)의 처리를 위한 연산 및 영상 처리 장치(100)의 동작 제어를 실행하는 제어부(180)를 포함한다. 이들 구성요소들은 시스템 버스를 통해 상호 접속된다.

이하에서는 제어부(180)가 저장부(150) 및 영상 처리부(170)와 별개의 구성인 것으로 설명하지만, 실시예에 따라서 제어부(180)는 저장부(150) 및 영상 처리부(170)가 함께 통합된 단일 SOC(System On Chip)로 구현될 수도 있다.

통신부(160)는 서버(10), 셋톱 박스(20), 사용자 단말(30) 또는 게임 콘솔(50) 중 적어도 하나로부터 영상을 수신하거나, 외부로 제어부(180)가 처리한 다양한 데이터, 영상 및 음악 재생 목록의 추천을 송신할 수도 있다.

구체적으로, 통신부(160)는 서버(10)로부터 영상을 수신하는 것 이외에 서버(10)가 학습시킨 신경망을 수신하여 저장부(150)로 전송한다. 통신부(160)가 수신한 신경망을 이용하여, 제어부(180)는 수신되는 영상의 미적 평가를 수행하고, 심미성이 높은 영상의 일 영역을 생성하기도 한다. 또한, 제어부(180)는 심미성을 향상시키는 영상 처리를 수행하기 위해서도 신경망을 이용하고, 신경망에 의해서 영상 처리가 수행된 영상의 분위기를 분류할 수도 있다. 이에 관한 구체적인 설명은 이하의 다른 도면을 통해서 구체적으로 후술한다.

한편, 학습된 신경망은 프로그램의 코딩 형태로 영상 처리 장치(100)에 전달될 수 있으나 반드시 이에 제한되는 것은 아니다.

통신부(160)는 서버(10)로 신경망을 수신할 수도 있지만, 반대로 신경망의 업데이트를 요청할 수 있다. 전술한 바와 같이, 신경망은 딥 러닝(Deep learning)을 수행할 수 있는 신경 구조를 형상화한 기계 학습을 지칭하므로, 신경망의 구성에 해당하는 가중치 및 바이어스가 계속적으로 변화하면서 추론(신경망의 출력)의 신뢰도 및 결과를 향상시킨다. 따라서 통신부(160)는 서버(10)로 신경망을 수신하는 것 이외에 수신된 신경망의 업데이트를 요청할 수도 있다.

한편, 통신부(160)는 외부 장치와 통신을 가능하게 하는 하나 이상의 구성 요소를 포함할 수 있으며, 예를 들어 근거리 통신 모듈, 유선 통신 모듈 및 무선 통신 모듈 중 적어도 하나를 포함할 수 있다.

근거리 통신 모듈은 블루투스 모듈, 적외선 통신 모듈, RFID(Radio Frequency Identification) 통신 모듈, WLAN(Wireless Local Access Network) 통신 모듈, NFC 통신 모듈, 직비(Zigbee) 통신 모듈 등 근거리에서 무선 통신망을 이용하여 신호를 송수신하는 다양한 근거리 통신 모듈을 포함할 수 있다.

유선 통신 모듈은 지역 통신(Local Area Network; LAN) 모듈, 광역 통신(Wide Area Network; WAN) 모듈 또는 부가가치 통신(Value Added Network; VAN) 모듈 등 다양한 유선 통신 모듈뿐만 아니라, USB(Universal Serial Bus), HDMI(High Definition Multimedia Interface), DVI(Digital Visual Interface), RS-232(recommended standard232), 전력선 통신, 또는 POTS(plain old telephone service) 등 다양한 케이블 통신 모듈을 포함할 수 있다.

무선 통신 모듈은 와이파이(Wifi) 모듈, 와이브로(Wireless broadband) 모듈 외에도, GSM(global System for Mobile Communication), CDMA(Code Division Multiple Access), WCDMA(Wideband Code Division Multiple Access), UMTS(universal mobile telecommunications system), TDMA(Time Division Multiple Access), LTE(Long Term Evolution) 등 다양한 무선 통신 방식을 지원하는 무선 통신 모듈을 포함할 수 있다.

영상 처리부(170)는 수신되는 영상의 전-처리 또는 후-처리를 수행한다. 구체적으로 통신부(160)는 영상을 변조된 신호 형태로 수신할 수 있으며, 영상 처리부(170)는 신호를 복조시키는 전-처리를 수행할 수 있다. 또한, 영상 처리부(170)는 복조된 신호를 영상 신호 형태로 디먹싱할 수도 있다.

개시된 영상 처리부(170)는 전술한 전처리 이외에도 평가된 영상의 심미성을 적용하여 영상을 후-처리한다.

구체적으로 영상 처리부(170)는 영상에 포함된 왜곡을 제거하고, 표시부(110)에 포함된 디스플레이 패널의 구성(configuration)에 따라 이미지의 종횡비(aspect ratio)를 조정하는 기본적인 후-처리 뿐만 아니라, 신경망에 의해서 추론되는 결과에 기초하여 해상도를 조절하는 수퍼 해상도(super-resolution) 조절 또는 신경망에 의해서 분류되는 영상의 장르에 기초한 스타일 전환을 수행할 수도 있다.

영상 처리부(170)는 센서부(130)에서 수집하는 주변 환경, 예를 들어 현재 실내 조명에 관한 데이터에 기초하여 이미지의 밝기(brightness) 및 대비(contrast)를 조절하는 후-처리를 수행할 수도 있다. 이에 관한 더욱 구체적인 설명은 이하의 다른 도면을 통해서 구체적으로 후술한다.

표시부(110)는 영상 처리부(170)에 의해 처리되는 영상 데이터를 표시한다.

표시부(110)의 구현 방식은 한정되지 않으며, 액정 방식과 같은 수광 구조 또는 OLED 방식과 같은 자발광 구조의 표시패널을 포함할 수 있다. 또한, 표시부(110)는 표시패널 이외에, 표시패널의 구현 방식에 따라서 부가적인 구성을 추가적으로 포함할 수 있다. 예를 들면, 액정 방식인 경우에, 표시부(110)는 액정 디스플레이 패널(미도시)과, 액정 디스플레이 패널(미도시)에 광을 공급하는 백 라이트유닛(미도시)과, 액정 디스플레이 패널(미도시)을 구동시키는 패널구동기판(미도시) 등을 포함한다.

소리 출력부(120)는 영상과 함께 수신되는 음성 신호를 소리로 출력한다. 또한, 소리 출력부(120)는 제어부(180)가 추천한 음악 재생 목록에 포함된 음원 또는 사용자가 선택한 음원을 영상 처리된 영상이 표시되면서 함께 재생할 수 있다.

구체적으로 소리 출력부(120)는 음성신호에 따라서 공기를 진동시킴으로써 기압을 변화시키는 원리로 음성을 전달한다. 소리 출력부(120)는 어느 한 채널의 음성 신호에 대응하게 마련된 단위 스피커를 포함하며, 복수 채널의 음성 신호에 각기 대응하도록 복수의 단위 스피커를 포함할 수도 있다. 소리 출력부(120)는 출력하는 음성의 주파수 대역에 따라서 우퍼(woofer), 미드레인지(mid-range), 트위터(tweeter) 등 다양한 종류가 있는 바, 이 중에서 하나 이상의 종류가 선택되어 영상 처리 장치(100)에 적용된다.

사용자 입력부(140)는 사용자의 조작 또는 입력에 따라서 미리 설정된 다양한 제어 명령 또는 정보를 영상 처리부(170) 또는 제어부(180)에 전달한다. 사용자 입력부(140)는 사용자의 의도에 따라서 사용자의 조작에 의해 발생하는 다양한 이벤트를 제어부(130) 또는 영상 처리부(170)에 전달한다.

일 예로, 사용자 입력부(140)는 제어부(180)가 추천하는 재생 목록 중 하나의 음원을 선택한 명령을 수신할 수 있다. 수신된 입력 명령에 기초하여 제어부(180)는 영상 처리부(170)가 영상 처리한 영상을 선택한 음원과 함께 출력할 수 있다.

사용자 입력부(140)는 정보의 입력방식에 따라서 다양한 형태로 구현될 수 있다. 예를 들면 사용자 입력부(140)는 영상 처리 장치(100) 외측에 설치된 버튼, 표시부(110)에 설치된 터치스크린, 사용자의 발화가 입력되는 마이크로폰(미도시)같은 영상 처리 장치(100)에 설치된 사용자 인터페이스 환경을 포함한다. 리모트 컨트롤러(미도시) 또한 사용자 인터페이스 환경의 한 가지 구성이라고 볼 수 있다. 다만, 리모트 컨트롤러(미도시)는 영상 처리 장치(100)의 본체와 분리된 구성이므로, 영상 처리 장치(100)의 본체에 마련된 별도의 제어신호 통신부(160)를 통해 영상 처리 장치(100)에 제어 신호를 전송한다.

센서부(130)는 영상 처리 장치(100)의 본체에 마련되어, 영상 처리 장치(100)가 위치하는 주변 환경에 대한 데이터를 수집할 수 있다.

구체적으로 센서부(130)는 주변 환경에 따라 조명 밝기 및 조명 방향뿐만 아니라, 색 온도를 감지할 수도 있다. 따라서 센서부(130)는 조명 밝기를 감지하기 위한 조도 센서를 포함할 수 있으며, 조명 방향을 감지하기 위해 복수 개의 조도 센서로 마련될 수도 있다. 또한, 색 온도를 감지하기 위해서 센서부(130)는 칼라 센서를 포함할 수도 있다.

센서부(130)는 이외에도 IR 센서, 초음파 센서, RF 센서 등을 더 포함하고, 사용자의 위치를 감지할 수도 있다. 또한, 센서부(130)는 CMOS와 CCD와 같은 촬상 소자를 이용하여 기설정된 영역을 촬상하고, 촬상된 이미지에 대한 이미지 분석을 통하여 사용자의 위치를 감지할 수도 있다.

한편, 반드시 영상 처리 장치(100)의 주변 환경에 대한 데이터가 센서부(130)를 통해서 수집되는 것은 아니다. 예를 들어, 영상 처리 장치(100)는 사용자 단말(30)과 통신하여, 미리 설정된 거리 이내에 위치하는 것으로 판단한 후, 사용자 단말(30)로부터 주변 환경에 관한 데이터를 요청할 수도 있다.

저장부(150)는 제어부(130) 또는 영상 처리부(170)의 처리 과정에서 생성되거나 사용되는 다양한 데이터를 저장된다.

구체적으로 저장부(150)는 서버(10)로부터 신경망을 통한 연산 처리를 위한 데이터(이하 신경망)를 저장하고, 영상이 입력되면, 영상 데이터를 저장한다.

저장부(150)는 각각 다른 역할을 수행하는 복수 개의 신경망을 저장할 수 있으며, 일 예로, 저장부(150)는 supervised learning, unsupervised learning 또는 reinforcement learning에 사용되는 다양한 신경망을 저장한다. 저장된 각각의 신경망은 이하에서 후술하는 심미성 분석, 심미성 향상을 위한 영상 처리 및 음악 추천에 사용된다.

저장부(150)는 제어부(130)에 의해 억세스됨으로써, 저장된 데이터의 독취(read), 기록(write), 수정(edit), 삭제(delete), 갱신(update) 등이 수행된다. 저장부(150)는 영상 처리 장치(100)의 시스템 전원의 제공 유무와 무관하게 데이터를 보존할 수 있도록 플래시메모리(flash-memory), 하드디스크 드라이브(hard-disc drive), SSD(solid-state drive)와 같은 비휘발성 메모리로 구현될 수 있다.

한편, 저장부(150)는 제어부(130)와 하나의 단일 칩으로 마련될 수 있으며, 제어부(130)와 분리되어 별개의 메모리로 마련될 필요는 없다. 따라서 신경망 또한, 반드시 비휘발성 메모리에만 저장될 실시예로 한정되는 것은 아니다.

제어부(180)는 영상 처리 장치(100) 내의 구성들이 동작하기 위한 중심적인 연산을 수행하는 구성으로써, 기본적으로 데이터의 해석 및 연산의 중심 역할을 수행하는 프로세서로 마련될 수 있다.

제어부(180)는 이하에서 후술하는 영상 처리 장치(100)의 동작에 관한 전반적인 제어를 수행함으로써, 영상에 포함된 개별적인 객체에 대한 미적 평가를 수행하거나 객체를 결합한 영상의 영역 설정(Localization)을 통해 미적 평가를 수행한다. 제어부(180)가 수행하는 동작에 관한 구체적인 설명은 이하의 다른 도면을 통해 후술한다.

제어부(180)는 내부적으로, 처리할 명령어들이 저장되는 프로세서 레지스터(미도시)와, 비교, 판단, 연산을 담당하는 산술논리 연산 유닛(arithmetic logic unit, ALU)(미도시)와, 명령어의 해석과 올바른 실행을 위하여 내부적으로 제어하는 CPU(control Process Unit)(미도시)와, 내부 버스(BUS)(미도시)와, 캐시(cache)(미도시) 등을 포함한다.

한편, 도 2에서 전술한 구성 이외에 영상 처리 장치(100)는 다양한 구성을 더 포함할 수 있으며, 구성들의 성능에 대응하여 적어도 하나의 구성요소가 추가, 삭제 및 변경될 수 있다. 도 2에서 도시된 각각의 구성은 소프트웨어 및/또는 Field Programmable Gate Array(FPGA) 및 주문형 반도체(ASIC, Application Specific Integrated Circuit)와 같은 하드웨어 구성요소를 의미한다.

도 3은 개시된 일 실시예에 따른 영상 처리 장치의 제어방법을 설명하기 위한 순서도이고, 도 4는 도 3의 순서도를 일 예의 영상과 함께 설명한 도면이다.

도 3 및 도 4를 함께 참조하면, 개시된 영상 처리 장치(100)는 제1 영상(201)에 포함된 객체를 인식한다(200).

여기서 제1 영상(201)은 외부로부터 수신된 영상 데이터를 의미하고, 개시된 제어방법에 포함된 영상 처리를 수행하기 전의 영상이다. 따라서 제1 영상(201)은 사용자 단말(30)을 포함한 외부에서 수신된 영상 데이터일 수 있으며, 또한 영상 처리부(170)를 통해 전-처리가 수행된 영상 데이터일 수도 있다.

객체 인식(200)은 영상에 포함된 객체를 인식하는 물체 인식 알고리즘을 수행하는 것을 의미한다. 개시된 영상 처리 장치(100)는 임의로 수 개의 윈도우(203)를 생성하거나, 이미지 분할을 통해서 분할된 영역 주변에 테두리를 생성함으로써 윈도우(203)를 생성하는 것을 주 실시예로 설명하지만, 반드시 이에 제한되는 것은 아니고, 다양한 물체 인식 알고리즘을 통해 객체를 인식할 수 있다.

영상 처리 장치(100)는 인식된 객체에 대한 심미성 점수를 획득한다(210).

심미성 점수는 저장부(150)에 저장된 신경망을 통해 획득될 수 있다. 구체적으로 제어부(180)는 인식된 객체에 대해 저장부(150)에 저장된 신경망을 통한 연산 처리를 수행한다. 제어부(180)는 신경망으로 영상에 포함된 객체를 입력하고, 신경망은 객체에 대한 심미성 점수(213) 및 입력된 객체의 종류를 추론한다.

신경망은 인터넷이나 SNS(Social Network Service)에서 사람들이 평가한 영상을 통해서 심미성을 점수화할 수 있도록 학습된다. 학습된 신경망은 인식된 객체가 포함된 윈도우(203)에서 특징을 추출하고, 추출된 특징에 기초하여 심미성 점수(213) 및 객체의 종류를 분류한다.

영상 처리 장치(100)는 획득된 점수에 기초하여 제2 영상(211)을 생성한다(220).

여기서 제 2 영상(211)은 제1 영상 데이터에서 심미성 점수가 높은 객체를 포함하는 일 영역을 지역화한 영상 데이터이다. 즉, 영상 처리 장치(100)는 점수를 획득한 개별적 객체의 점수 및 윈도우(203)의 근접성 여부에 기초하여 두 개 이상의 객체를 결합하고, 결합된 객체가 포함된 제1 영상을 지역화(Localization, 215)한다. 이러한 프로세스는, 결합된 객체를 다시 신경망에 입력시켜 추론되는 점수가 미리 설정된 기준값 이상이 될 때까지 반복적으로 수행된다.

영상 처리 장치(100)는, 심미성 점수가 미리 설정된 기준값 이상이 되는 결합된 객체를 포함하는 영상을 제2 영상(211)으로 생성한다.

영상 처리 장치(100)는 제2 영상(211)의 심미성 향상을 위한 영상 처리를 수행한다(230).

구체적으로 심미성 향상을 위한 영상 처리는, 콘텐츠 기반의 영상 처리(233)와 환경 기반의 영상 처리(235)를 포함할 수 있다.

콘텐츠 기반의 영상 처리(233)는, 스케일 및 원근감을 조정할 뿐만 아니라, 신경망을 이용하여 수행될 수 있는 수퍼 해상도 및 스타일 전환을 통해 제2 영상(211)의 심미성을 향상시킨다.

환경 기반의 영상 처리(235)는, 영상 처리 장치(100)가 위치하는 주변 환경의 데이터에 기초하여 밝기 및 대비를 조정하는 영상 처리이다.

영상 처리 장치(100)는 영상 처리된 제2 영상(231)에 적합한 음악을 결정한다(240).

구체적으로 영상 처리 장치(100)는 단계 210에서 추출된 특징 및 영상 처리가 수행된 제2 영상(231 이하 제3 영상)을 신경망에 함께 입력시키고, 신경망에서 추출되는 특징에 기초하여 음악 재생 목록을 결정한다. 예를 들어, 추출된 특징이 신경망의 분류 단계에 입력되면, 신경망은 행복, 슬픔, 흥분, 분노, 진정과 같은 제3 영상(231)의 분위기를 분류한다. 영상 처리 장치(100)는 서버(10)로부터 분류된 분위기에 따라 결정된 음악 추천 목록을 수신하거나, 저장부(150)에 저장된 음원을 제3 영상(231)에 적합한 음악으로 결정한다.

영상 처리 장치(100)는 영상 처리된 제3 영상(231)을 출력하고. 결정된 음악을 추천 또는 재생함으로써 사용자에게 제공한다(250).

이를 통해서 개시된 영상 처리 장치(100)는 종래 심미성을 평가하는 영상 처리 장치보다 더욱 정확하게 심미성을 평가하고, 이에 맞는 영상 처리 및 음악 추천을 제공할 수 있다.

한편, 이하의 도면에서는 도 3및 도 4에서 설명한 각 제어방법을 세부적으로 설명하도록 한다.

도 5는 객체 인식에 관한 실시예를 구체적으로 설명하기 위한 도면이다.

도 5를 참조하면, 영상 처리 장치(100)는 통신부(160)를 통해 제1 영상을 수신한다.

영상 처리 장치(100)는 제1 영상(201)에 존재하는 모든 객체의 위치 및 객체의 종류를 식별한다.

구체적으로 객체 인식은, 윈도우(203)를 생성하는 객체 추측(205)과 객체의 종류를 분류(206)하는 것으로 구분될 수 있다.

여기서 객체 추측(205)은 물체 인식 알고리즘에서 사용되는 다양한 방법이 사용될 수 있다.

일 실시예로, 영상 처리 장치(100)는 제1 영상(201)에서 가로 및 세로 비율이 미리 설정되고, 다양한 크기 및 개수를 포함하는 윈도우(203)를 임의로 생성할 수 있다.

다른 실시예로, 영상 처리 장치(100)는 제1 영상(201)에서 이미지 분할, 구체적으로 색상 기반 분할을 수행하고, 식별된 세그먼트 주변에 윈도우(203)를 생성할 수 있다.

이렇게 생성된 복수 개의 윈도우(203)는 신경망에 입력되고, 신경망에서는 각각의 윈도우(203)를 두 가지 카테고리로 분류한다(206).

구체적으로 신경망은 윈도우(203)에 포함된 객체의 종류(208) 및 윈도우가 객체를 포함하는지 여부를 판단하는 신뢰도(209)를 분류한다.

여기서 윈도우(203)를 분류하는 신경망은, 멀티-레이어 퍼셉트론(multi-layer perceptron)으로 구성될 수 있다. 퍼셉트론이란, 인체의 신경망의 기본 구조인 뉴런과 동일한 기능을 수행하는 기계 학습의 기본 구조를 의미한다. 구체적으로 퍼셉트론은 입력값에 가중치(weight)를 곱하고, 바이어스(bias)와 더한 후, 변형된 입력값을 전달함수(transfer function 또는 activation function)로 입력한다. 전달함수의 역치값을 만족하는 변형된 입력값만을 출력값으로 출력한다. 퍼셉트론은, 출력되는 출력값이 원하는 결과값이 되도록 가중치 및 바이어스를 스스로 조정함으로써, 반복되는 입력값으로부터 원하는 결과값이 추론되도록 학습되는 구조이다.

한편, 기본적인 퍼셉트론은, 입력-레이어(Pin)와 출력-레이어(Pout)로 구성될 수 있다. 그러나 중간에 히든-레이어(Phidden)를 삽입하면, 도 5에서 도시된 멀티-레이어 퍼셉트론이 된다. 실시예에 신경망에 포함된 멀티-레이어 퍼셉트론은 백 프로퍼게이션(Back propagation)을 통해 출력-레이어(Pout)에서 출력되는 출력값이 원하는 결과값에 가까워지도록 히든-레이어(Phidden)를 조정함으로써, 학습 능력을 향상시킨다.

객체의 종류 및 신뢰도를 평가하기 위해서, 영상 처리 장치(100)는 학습된 신경망의 입력값으로, 각각의 윈도우(203)를 입력한다. 신경망은 조정된 웨이트, 바이어스 및 전달 함수에 의해서 윈도우(203)에 포함된 객체의 종류(208) 및 신뢰도(209)를 출력한다.

도 5의 일 예로, 영상 처리 장치(100)는 제1 영상(201)에서 생성된 제1 윈도우(203a)를 신경망에 입력시키고, 신경망은 제1 윈도우(203a)에 포함된 객체를 사람(208)으로 분류하면서, 동시에 제1 윈도우(203a)가 객체를 포함한다는 신뢰도(209)를 90%로 추론할 수 있다.

신경망은, 제2 윈도우(203b)에 포함된 객체를 제1 윈도우(203b)에 서 분류된 사람(208)과 다른 사람(Person)으로 분류하면서, 제2 윈도우(203b)에 객체를 포함하는 신뢰도를 90%로 추론할 수 있다. 또한, 신경망은 제3 제1 윈도우(203a)와 동일한 객체를 포함하는 윈도우(203c)를 사람으로 분류하면서 객체를 포함하는 신뢰도를 70%로 추론할 수 있다. 신경망은 제4 윈도우(203d) 또한, 제1 내지 제 3과 또 다른 사람(Person)으로 분류하면서, 객체를 포함하는 신뢰도를 95%로 추론할 수 있다.

신경망은 제5 윈도우(203e)에 포함된 객체를 배경(background)으로 분류하면서, 신뢰도를 80%로 분류할 수 있다.

분류가 완료되면, 영상 처리 장치(100)는 배경으로 분류된 제5 윈도우(203e)를 제거한다.

배경으로 분류된 윈도우를 제거한 후에도 동일한 객체를 포함하는 복수의 윈도우가 다수 존재할 수 있다. 따라서 영상 처리 장치(100)는 NMS(Non-Maximal Suppression)를 수행한다(207).

NMS는 동일한 객체를 포함하는 탐지 결과를 병합하는 후-처리를 의미한다. 다시 말해, 동일한 객체에 대해 두 개 이상의 윈도우가 중복되는 경우, 영상 처리 장치(100)는 신뢰도가 낮은 윈도우를 제거하고, 신뢰도가 높은 윈도우를 유지한다. 이러한 방법을 통해서 영상 처리 장치(100)는 하나의 객체에 대해 하나의 윈도우만을 선택한다.

도 5를 다시 참조하면, 일 예로, 동일한 사람을 포함하는 윈도우가 두 개(203a, 203c)인 경우, 영상 처리 장치(100)는 70%보다 높은 신뢰도인 90%의 제1 윈도우(203a)를 선택할 수 있다.

이러한 과정을 통해서 영상 처리 장치(100)는 제1 영상(201)을 제1 윈도우(203a), 제2 윈도우(203b), 제4 윈도우(203d), 제6 윈도우(203f) 및 제7 윈도우(203g)를 객체 인식의 결과로 선택할 수 있다.

선택된 윈도우는, 도 3에서 언급한 심미성 분석을 통해 심미성 점수 획득에 사용된다.

도 6은 심미성 분석 중, 심미성 점수를 획득하는 방법을 설명하기 위한 순서도이고, 도 7은 신경망이 학습하는 데이터의 일 예를 설명하기 위한 도면이다. 중복되는 설명을 피하기 위해서 이하 함께 설명한다.

도 6을 참조하면, 영상 처리 장치(100)는 선택된 윈도우의 테두리를 제거한다(211).

영상 처리 장치(100)는 테두리가 제거된 윈도우의 이미지에서 특징을 추출한다(212).

여기서 특징 추출은, 딥 러닝에서 사용되는 특징 추출을 의미하며, 다양한 특징 추출이 사용될 수 있다. 예를 들어, 개시된 영상 처리 장치(100)는 신경망을 이용하여 색상 히스토그램 특징(color histogram features), 텍스트 특징(texture features), 대칭(symmetry), 3차 특징 추출 규칙(rule of thirds features) 또는 고급 묘사 특징(high level semantic features) 중 적어도 하나를 포함하는 특징을 추출을 수행한다. 여기서 고급 묘사 특징은, 장면을 설명하는 특징 또는 이미 다른 이미지 모델을 통해 신경망이 학습하여 출력하는 특징을 의미한다.

특징이 추출되면, 영상 처리 장치(100)는 회귀 분석(regression)을 통해 복수 개의 객체에 대한 미적 점수를 획득한다(213).

여기서 회귀 분석은, 신경망에 입력되는 데이터가 어떤 함수로부터 생성되었는지 추론하는 것으로, 신경망은 인터넷이나 SNS를 통해 크롤링(crawling)되는 많은 양의 이미지 데이터에 평가되는 점수 모델을 기초로 학습된다.

도 7을 참조하면, 인터넷 또는 SNS에서는 영상(212)이 게재되고, 이러한 영상(212)에는 '좋아요' (like, up-votes) 및 '아름다운 그림(excellent composition, 212a)'과 같은 사람들의 의견이 반영될 수 있다. 신경망은 서버(10) 등에서 도 7과 같은 방대한 데이터에 기초하여 학습될 수 있다.

다시 도 6을 참조하면, 영상 처리 장치(100)는 학습된 신경망을 통해 객체가 인식된 윈도우의 이미지에서 특징을 추출하고, 추출된 특징을 입력값으로 회귀 분석을 수행한다. 신경망은, 회귀 분석을 통해 각 객체에 심미성 0 에서 1사이로 점수(심미성 점수)를 부여한다.

한편, 반드시 신경망이 심미성 점수를 0에서 1사이로만 추론하는 것은 아니고, 영상 처리 장치(100)는 다양한 점수 범위로 심미성을 추론한 결과값을 획득할 수 있다.

도 8은 일 실시예에 따른 제2 영상을 생성하는 방법을 설명하기 위한 순서도이고, 도 9는 영상을 예시로 도 8을 더욱 구체적으로 설명하기 위한 도면이다. 중복되는 설명을 피하기 위해 이하 함께 설명한다.

도 8및 도 9를 참조하면, 영상 처리 장치(100)는 획득된 점수를 포함한 윈도우를 획득한다(221).

영상 처리 장치(100)는 신경망을 통해 윈도우(203)의 이미지에서 특징을 추출하고, 회귀 분석을 통해 각 윈도우마다 심미성 점수(213)를 획득한다.

도 9를 참조하면, 일 예, 영상 처리 장치(100)는 제1 윈도우(203a) 내지 제2 윈도우(203b) 및 제4 윈도우(203d)에 심미성 점수를 0.7로 획득하고, 제 6 윈도우(203f)는 심미성 점수를 0.3, 제7 윈도우(203g)는 심미성 점수를 0.2로 획득할 수 있다.

영상 처리 장치(100)는 윈도우의 근접성을 분석한다(222).

영상 처리 장치(100)는 하나 이상의 객체를 하나의 장면으로 결합하기 위해서 각 객체가 근접한 정도, 즉 근접성을 판단한다. 근접성은 윈도우가 가까울수록 높고, 근접성은 제1 영상(201)에서 위치하는 윈도우의 위치에 따라서 분석된다(215a).

도 9를 참조하면, 제1 윈도우(203a) 및 제2 윈도우(203b)의 위치가 가장 가깝다.

영상 처리 장치(100)는 획득된 점수 및 근접성에 기초하여 윈도우를 병합한다(223).

윈도우는 근접한 윈도우끼리 병합이 이뤄지지만 반드시 근접성에 의해서만 병합이 수행되는 것은 아니다. 예를 들어, 근접한 두 개의 윈도우라도 획득된 점수가 미리 설정된 범위에서 벗어나, 매우 차이가 나는 심미성 점수를 가지는 윈도우라면, 병합이 이뤄지지 않는다(215b).

도 9를 참조하면, 제1 윈도우(203a) 및 제2 윈도우(203b)는 그 위치면에서 제4 윈도우(203d)보다 더 근접하므로, 제4 윈도우(203d)를 제외하고 제1 윈도우(203a) 및 제2 윈도우(203b)가 병합될 수 있다.

영상 처리 장치(100)는 획득된 점수 및 근접성을 함께 고려하여 최적의 병합을 수행한다. 병합이 수행된 윈도우를 포함한 영상(204)은 다시 신경망에 입력된다.

영상 처리 장치(100)는 병합된 윈도우를 신경망에 입력한다(224).

여기서 신경망은 심미성 점수를 획득하기 위해 특징을 추출하고, 회귀 분석을 수행하는 도 6의 신경망이다. 신경망은 병합된 윈도우를 통해 심미성 점수를 다시 추론한다.

영상 처리 장치(100)는 추론된 점수를 미리 설정된 기준값과 비교한다(225).

만약 추론된 점수가 미리 설정된 기준값 미만인 경우, 영상 처리 장치(100)는 다른 윈도우의 근접성 및 심미성 점수에 기초하여 병합하고, 다시 전술한 프로세스를 반복한다.

만약 추론된 점수가 미리 설정된 기준값 미만인 경우, 영상 처리 장치(100)는 병합된 윈도우를 포함한 영역을 제2 영상으로 생성한다(226).

한편, 미리 설정된 횟수로 병합을 시도하더라도 기준값을 넘지 못하는 경우, 영상 처리 장치(100)는 병합이 이뤄진 윈도우를 입력으로 신경망에서 추론된 심미성 점수가 최대인 병합된 윈도우를 제2 영상으로 생성할 수도 있다.

도 10은 콘텐츠 기반의 영상 처리를 설명하기 위한 순서도이고, 도 11은 환경 기반의 영상 처리를 설명하기 위한 순서도이며, 도 12는 도 11 및 도 12를 더욱 구체적으로 설명하기 위한 도면이다.

도 10 을 먼저 참조하면, 영상 처리 장치(100)는 제2 영상(211)의 왜곡을 제거하고, 디스플레이 패널에 기초하여 제2 영상(211)의 비율을 조정한다(233a).

여기서 도 12의 제2 영상(211)은, 도 9에서 병합된 영상(204)이 신경망에 입력되고, 추론되는 점수에 기초하여 다른 윈도우와 다시 병합이 수 차례 반복된 후, 미리 설정된 기준값 이상의 점수를 획득한 영상이다. 따라서 제2 영상(211)에는 제1 윈도우(203a), 제2 윈도우(203b) 및 제4 윈도우(203d)가 병합된 것일 수 있다.

다시 도 10을 참조하면, 영상의 왜곡을 제거하는 것은, 종래 일반적인 영상 처리에 사용되는 방법을 포함한다. 또한, 비율을 조정하는 것도, 영상 처리 장치(100)의 디스플레이 패널의 하드웨어적 구성에 의해서 결정되며, 제조 당시 저장부(160)에 저장될 수 있다.

영상 처리 장치(100)는 학습된 신경망에 의해서 학습된 신경망에 의해서 수퍼 해상도를 수행한다(233b).

여기서 수퍼 해상도(super-resolution)란, 학습된 신경망이 영상 내 객체를 인식한 후, 인식된 객체를 학습된 이미지의 해상도로 조정시켜, 영상을 극명하게 강화시키는 작업을 의미한다.

지역화를 거처 생성되는 제2 영상(211)은 제1 영상의 일 영역이다. 따라서 제2 영상(211)이 디스플레이 패널의 크기로 확대되면, 해상도는 떨어지게 된다. 신경망은 제2 영상에 포함된 객체와 유사한 객체를 포함하는 해상도 높은 영상을 미리 학습하고, 비교된 영상의 해상도와 유사하게 제2 영상의 해상도를 조정한다.

수퍼 해상도가 수행되면, 영상 처리 장치(100)는 학습된 신경망에 의해서 제2 영상의 장르를 분류한다(233c). 영상 처리 장치(100)는 분류된 장르 및 신경망에 기초하여 스타일 전환(style transfer)을 수행한다(233d).

여기서 장르는, 제2 영상을 신경망에 입력시켜 분류되며, 초상화, 풍경화, 유화, 또는 정물화, 애니메이션 등 여러 장르를 포함할 수 있다. 영상 처리 장치(100)는 장르를 구분할 수 있도록 학습된 신경망을 사용하여 제2 영상의 장르를 분류한다.

영상 처리 장치(100)는 신경망으로부터 추론된 제2 영상의 장르를 변경할 수 있는 스타일 전환을 수행할 수 있다. 여기서 스타일 전환은 사용자가 영상의 장르를 전환 전 장르와 다르다고 인식할 수 있도록 영상 처리를 수행하는 것을 의미한다.

이러한 스타일 전환은 신경망으로 통해 수행될 수 있으며, 다양한 스타일 전환 기법이 사용될 수 있다.

한편, 전술한 수퍼 해상도 및 스타일 전환은 영상 내에 포함된 객체 또는 장르에 의해서 수행되어지므로, 콘텐츠 기반의 영상 처리라 지칭하였다. 영상 처리 장치(100)는 전술한 콘텐츠 기반의 영상 처리 이외에도 후술하는 환경 기반의 영상 처리를 수행하여 제2 영상의 심미성을 강화시킬 수 있다.

도 11을 참조하면, 영상 처리 장치(100)는 제2 영상에 콘텐츠 기반 영상 처리를 수행한다(235a).

도 10에서 전술한 바와 같이, 콘텐츠 기반의 영상 처리는 신경망을 이용하지 않은 일반적인 영상 후-처리 및 신경망을 이용한 다양한 영상 처리를 포함한다.

영상 처리 장치(100)는 영상 처리 장치의 주변 환경에 관한 데이터를 수집한다(235b).

여기서, 주변 환경의 데이터는, 영상 처리 장치(100)가 설치된 실내 또는 실외 환경을 의미하고, 영상이 재생되는 현재 시점의 상태를 포함한다.

주변 환경의 데이터는, 영상 처리 장치(100)에 설치된 센서부(130)에서 수집될 수 있으며, 예를 들어 주변 환경 데이터는 실내 조명의 밝기를 포함할 수 있다.

한편, 주변 환경 데이터가 반드시 영상 처리 장치(100)에 설치된 센서에 기초하여 수집되는 것은 아니고, 통신부(160)를 통해 외부로부터 주변 환경에 대한 데이터를 요청하여 수집할 수도 있다.

영상 처리 장치(100)는 수집된 데이터에 기초하여 제2 영상의 밝기 및 대비를 조정한다(235c).

일 예로, 영상 처리 장치(100)는 현재 실내 조명이 매우 밝은 것으로 판단한 경우, 콘텐츠 기반의 영상 처리된 제2 영상의 밝기 및 대비를 조절해 영상이 선명하도록 조정한다. 이를 통해서 영상 처리 장치(100)는 영상에 심미적인 매력을 부여할 수 있다.

한편, 도 11에서는 콘텐츠 기반의 영상 처리된 제2 영상에서 환경 기반의 영상 처리를 수행하는 것으로 한정하였지만, 반드시 개시된 영상 처리가 순서에 제한되는 것은 아니다. 즉 다른 실시예는 환경 기반의 영상 처리를 수행한 후, 콘텐츠 기반의 영상 처리를 수행할 수도 있다.

도 12를 참조하면, 영상 처리 장치는 제2 영상(211)에서 왜곡 조정 및 비율 조정을 수행한다(233a).

일 예로, 제1 영상(201)에서 자전거를 탄 모녀가 높은 심미성 점수를 획득한 후, 지역화되어 제2 영상(211)에 포함될 수 있다. 제2 영상(211)은 제1 영상(201)의 일 영역이므로, 영상 처리 장치(100)는 제2 영상(211)을 디스플레이 패널 사이즈에 맞게 확대시킨다.

영상 처리 장치(100)는 왜곡 제거 및 비율을 조정한 제2 영상(211)에 수퍼 해상도를 수행한다(233b).

전술한 바와 같이, 수퍼 해상도는 학습된 신경망에 의해서 수행되며, 일 예에 따라 제2 영상(211)은 도 12와 같이 해상도가 조절된 영상(211a)으로 변환될 수 있다.

수퍼 해상도를 수행한 후, 영상 처리 장치(100)는 제2 영상(211)의 장르를 분류하기 위해서 제2 영상(211)이 생성되면, 신경망에 입력할 수 있다(233c).

장르를 분류하는 신경망은 수퍼 해상도 및 스타일 전환을 수행하기 위한 신경망과 다른 학습 데이터를 기초로 학습된 것으로, 제2 영상(211)의 장르를 출력으로 추론한다.

일 예에 따라 제1 영상(201)은 달력과 식물을 촬영한 사진일 수 있다. 그러나 제2 영상(211)은 자전거를 탄 모녀 및 신사만으로 지역화되었으므로, 신경망은 제2 영상(211)을 인물화로 분류할 수 있다. 분류된 장르는 스타일 전환을 위해서 사용된다.

영상 처리 장치(100)는 분류된 장르를 기초로 신경망을 이용하여 스타일 전환을 수행할 수 있다(233d).

스타일 전환을 위해서 장르를 분류하는 신경망 이외의 다른 신경망은 자전거를 탄 모녀 및 신사와 관련된 유사한 유화를 학습할 수 있다. 영상 처리 장치는 신경망이 학습한 스타일 전환을 이용하여 해상도가 조절된 영상(211a)을 유화와 같은 스타일로 전환시킨 영상(211b)으로 영상 처리할 수 있다.

영상 처리 장치(100)는 콘텐츠 기반의 영상 처리를 수행한 영상에서 환경 기반의 영상 처리를 수행할 수 있다(235).

도 13은 음악을 추천 또는 재생하는 제어방법에 관한 순서도이다.

도 13을 참조하면, 영상 처리 장치(100)는 심미성 분석에서 추출된 특징을 수신한다. 도 14는 도 13을 구체적으로 설명하기 위한 도면이다.

영상 처리 장치(100)는 심미성 분석에서 추출된 특징을 수신한다(251).

도 6에서 전술한 바와 같이, 영상 처리 장치(100)는 심미성 점수를 획득하기 위해서 신경망을 통해 특징을 추출한다. 추출된 특징은 저장부(150)에 저장된 후, 이하에서 후술하는 분위기 분류에서 사용된다.

영상 처리 장치(100)는 영상 처리가 완료된 제2 영상에서 특징 추출을 수행한다(252).

여기서 영상 처리가 완료된 제2 영상이란, 콘텐츠 기반 영상 처리 및 환경 기반 영상 처리가 모두 수행된 영상으로, 도 14의 제3 영상(231)을 의미한다.

영상 처리 장치(100)는 제3 영상(231)을 신경망에 입력하고, 신경망으로부터 특징을 추출한다. 여기서 사용되는 신경망은 도 6에서 전술한 바와 같이 여러 특징을 추출하는 신경망이 이용된다.

제3 영상(231)에서 특징 추출이 완료되면, 영상 처리 장치(100)는 제3 영상(231)에서 추출된 특징 및 저장부(150)에 저장된 제1 영상에서 추출된 특징을 신경망에 입력한다.

영상 처리 장치(100)는 복수의 특징을 신경망에 입력하고, 추론하는 결과값을 기초로 영상의 분위기를 분류한다(253).

신경망에서 분류되는 영상의 분위기는, 행복, 슬픔, 흥분, 분노, 진정 등을 포함할 수 있다. 이외에도 신경망에서는 전술한 분위기 이외의 다른 분위기를 분류할 수도 있다.

한편, 신경망에서 반드시 추출된 특징을 통해서 반드시 분위기만을 분류할 필요는 없다. 구체적으로 신경망은 분위기 이외에 제3 영상(231)의 주제 또는 제작 배경을 분류하면서, 그와 관련된 음악 재생 목록을 분류하는 것도 가능하다.

분위기가 분류되면, 영상 처리 장치는, 결정된 분위기에 기초하여 음악 재생 목록을 결정한다(254).

영상 처리 장치(100)는 분위기에 따라 구분된 여러 음원이 포함된 재생 목록을 저장부(150) 또는 서버(10)등에서 로딩할 수 있다. 영상 처리 장치(100)는 서버(10)에서 수신하거나, 저장부(150)로부터 엑세스한 음악 재생 목록 중 분위기에 따른 음원을 결정한다.

음악 재생 목록에는 다수의 음원이 포함될 수 있으나, 영상 처리 장치(100)는 반드시 복수의 음원을 선택해야 하는 것은 아니다. 즉, 영상 처리 장치(100)는 단수의 음악을 추천 목록으로 결정할 수도 있다.

영상 처리 장치(100)는 결정된 음악 재생 목록을 사용자에게 추천하거나 음악 재생 목록에 포함된 음원을 소리 출력부(120)로 출력할 수도 있다.

영상 처리 장치(100)는 음악 재생 목록을 추천 또는 재생하면서 동시에 제3 영상(231)을 표시부(110)를 통해 출력한다.

이를 통해서 개시된 영상 처리 장치(100)는 영상에 포함된 개별적인 객체에 대한 미적 평가를 수행하거나 객체를 결합한 영상의 영역 설정을 통해 미적 평가를 수행함으로써, 영상 처리의 수행 능력을 향상시키고, 음악 추천의 정확성을 높일 수 있다.

1: 시스템 10: 서버
20: 셋톱박스 30: 사용자 단말
50: 게임 콘솔 100: 영상 처리 장치

Claims

통신부;
저장부; 및
상기 저장부에 저장된 제1 영상 데이터에서 복수 개의 객체를 인식하는 객체 인식을 수행하고, 상기 인식된 복수 개의 객체에 대해 신경망을 통한 연산 처리에서 추론된 점수를 획득하고, 상기 획득된 점수 및 상기 복수 개의 객체의 근접성에 기초하여 제2 영상 데이터를 생성하고, 상기 제2 영상 데이터를 기초로 영상 처리를 수행하는 제어부;를 포함하는 영상 처리 장치.
제 1항에 있어서,
상기 제어부는,
상기 제1 영상 데이터에 윈도우를 생성하고, 상기 생성된 윈도우에 기초하여 상기 객체 인식을 수행하고,
상기 윈도우는,
미리 설정된 개수 및 크기에 기초하여 생성되거나, 상기 객체 인식이 수행될 상기 영상 데이터의 크기 또는 종횡비에 기초하여 생성되는 영상 처리 장치.
제 2항에 있어서,
상기 저장부는,
상기 신경망에 관한 데이터를 저장하고,
상기 제어부는,
상기 생성된 윈도우에 대해 상기 신경망을 통한 연산 처리를 수행하고, 상기 연산 처리에서 추론된 신뢰도 및 상기 객체의 종류에 기초하여 상기 복수 개의 객체를 각각 포함하는 윈도우를 선택하는 영상 처리 장치.
제 3항에 있어서,
상기 점수는,
상기 선택된 윈도우에 포함된 객체의 심미성 점수를 포함하고,
상기 제어부는,
상기 선택한 윈도우에 대해 상기 신경망 처리를 수행한 후, 신경망에서 특징을 추출하고, 상기 추출된 특징에 기초하여 상기 심미성 점수를 획득하는 영상 처리 장치.
제 4항에 있어서,
상기 특징은,
색상 히스토그램 특징, 텍스트 특징, 대칭 특징, 3차 특징 추출 규칙 또는 고급 묘사 특징 중 적어도 하나를 포함하는 영상 처리 장치.
제 4항에 있어서,
상기 통신부는,
상기 신경망을 통한 연산 처리를 수행하는 서버와 통신하고,
상기 신경망은,
상기 서버로부터 크롤링되는 데이터에 포함된 라벨링에 기초하여 학습되는 영상 처리 장치.
제 4항에 있어서,
상기 제어부는,
상기 선택된 윈도우간 거리를 기초로 상기 근접성을 판단하고, 상기 획득된 점수 및 상기 근접성에 기초하여 상기 복수 개의 윈도우를 병합하는 영상 처리 장치.
제 7항에 있어서,
상기 제어부는,
상기 병합된 윈도우를 상기 신경망에 입력한 후, 추론되는 점수를 미리 설정된 기준값과 비교하는 영상 처리 장치.
제 8항에 있어서,
상기 제어부는,
상기 비교 결과에 기초하여 상기 병합된 윈도우를 포함하는 상기 제2 영상을 생성하는 영상 처리 장치.
제 1항에 있어서,
상기 제어부는,
상기 제 2영상 데이터에 대해 상기 신경망을 통한 연산 처리를 수행한 후, 상기 신경망에서 추론되는 결과에 기초하여 해상도를 조절하는 영상 처리를 수행하는 영상 처리 장치.
제1 항에 있어서,
상기 제어부는,
상기 제1 영상 데이터에 대해 상기 신경망을 통한 연산 처리를 수행한 후, 상기 연산 처리에서 추론되는 상기 제2 영상 데이터의 장르를 결정하고, 상기 결정된 장르에 기초하여 상기 제2 영상 데이터의 스타일을 전환하는 영상 처리를 수행하는 영상 처리 장치.
제 1항에 있어서,
상기 영상 처리 장치의 주변 환경에 관한 데이터를 수집하는 센서부;를 더 포함하고,
상기 제어부는,
상기 수집된 데이터에 기초하여 상기 제2 영상의 밝기 또는 대비를 조정하도록 영상 처리를 수행하는 영상 처리 장치.
제 4항에 있어서,
상기 제어부는,
상기 선택한 윈도우에 기초하여 상기 신경망에서 추출된 제1 특징을 저장하고, 상기 영상 처리된 제2 영상에 대해 상기 신경망 처리를 수행한 후 상기 신경망에서 제2 특징을 추출하는 영상 처리 장치.
제 13항에 있어서,
상기 제어부는,
상기 제1 특징 및 상기 제2 특징에 대해 상기 신경망을 통한 연산 처리를 수행한 후, 상기 제2 영상의 분위기를 분류하는 영상 처리 장치.
제 14항에 있어서,
상기 영상 처리된 제2 영상 데이터를 출력하는 표시부; 및 음원을 재생하는 소리 출력부;를 더 포함하고,
상기 제어부는,
상기 분류된 분위기에 기초하여 재생 목록을 추천하고, 상기 결정된 재생 목록에 포함된 상기 음원을 출력하도록 상기 소리 출력부를 제어하고, 상기 영상 처리된 제2 영상 데이터를 출력하도록 상기 출력부를 제어하는 영상 처리 장치.
제1 영상 데이터에서 복수 개의 객체를 인식하는 객체 인식을 수행하고;
상기 인식된 복수 개의 객체에 대해 신경망을 통한 연산 처리에서 추론된 점수를 획득하고;
상기 획득된 점수 및 상기 복수 개의 객체의 근접성에 기초하여 제2 영상 데이터를 생성하고; 및
상기 신경망에서 추출된 특징에 기초하여 상기 제2 영상 데이터에 대한 영상 처리를 수행하는 것;을 포함하는 영상 처리 장치의 제어방법.
제 16항에 있어서,
상기 객체 인식을 수행하는 것은,
상기 제1 영상 데이터에 윈도우를 생성하고;상기 생성된 윈도우에 대해 상기 신경망을 통한 연산 처리를 수행하고;
상기 신경망 처리를 통해 추론된 신뢰도 및 객체의 종류에 기초하여 상기 복수 개의 객체를 각각 포함하는 윈도우를 선택하는 것;을 포함하는 영상 처리 장치의 제어방법.
제 17항에 있어서,
상기 생성하는 것은,
상기 선택된 윈도우간 거리에 기초로 상기 근접성을 판단하고,
상기 추론된 점수 및 상기 근접성에 기초하여 상기 복수 개의 윈도우를 병합하고;
상기 병합된 윈도우에 대해 상기 신경망을 통한 연산 처리를 수행하고;
상기 연산 처리에서 추론되는 점수를 미리 설정된 기준값과 비교하고; 및
상기 비교 결과에 기초하여 상기 병합된 윈도우를 포함하는 상기 제2 영상을 생성하는 것;을 포함하는 영상 처리 장치의 제어방법.
제 16항에 있어서,
상기 수행하는 것은,
상기 제 2영상 데이터에 대해 상기 신경망을 통한 연산 처리를 수행하고;
상기 신경망을 통한 연산 처리에서 추론되는 결과에 기초하여 해상도를 조절하고;
상기 신경망을 통한 연산 처리에서 추론되는 상기 제2 영상의 장르를 결정하고; 및
상기 결정된 장르에 기초하여 상기 제2 영상 데이터의 스타일을 전환하는 것;을 포함하는 영상 처리 장치의 제어방법.
제 17항에 있어서,
상기 선택한 윈도우에 기초하여 상기 신경망을 통한 연산 처리에서 추출된 제1 특징을 저장하고;
상기 영상 처리된 제2 영상 데이터에 대해 상기 신경망을 통한 연산 처리를 수행하고;
상기 신경망 처리에서 추출된 제2 특징 및 상기 제1 특징에 대해 상기 신경망을 통한 연산 처리를 다시 수행하고; 및
상기 연산 처리에서 추론된 상기 제2 영상 데이터의 분위기에 기초하여 수신된 재생 목록에 기초하여 음원을 출력하는 것;을 더 포함하는 영상 처리 장치의 제어방법.