KR102426089B1

KR102426089B1 - 전자 장치 및 전자 장치의 요약 영상 생성 방법

Info

Publication number: KR102426089B1
Application number: KR1020180017418A
Authority: KR
Inventors: 김종호
Original assignee: 삼성전자주식회사
Priority date: 2018-02-13
Filing date: 2018-02-13
Publication date: 2022-07-28
Also published as: EP3525475A1; KR20190097687A; WO2019160275A1; US20190251363A1

Abstract

전자 장치가 개시된다. 전자 장치는, 동영상 컨텐츠 중 적어도 일부가 저장된 저장부 및 동영상 컨텐츠를 이루는 각 장면들 중 하나가 선택되면, 선택된 장면과 연관된 속성을 가지는 연관 장면들을 조합하여 동영상 컨텐츠의 요약 영상을 생성하는 프로세서를 포함하며, 각 장면들은, 동영상 컨텐츠의 프레임들 중에서 연관성 있는 이미지 성분들을 연속적으로 표현하는 프레임들을 포함한다.

Description

전자 장치 및 전자 장치의 요약 영상 생성 방법 {Electronic device and Method for generating summary image of electronic device}

본 개시는 특정 장면과 연관된 장면들을 조합하여 요약 영상을 생성하는 전자 장치 및 그 요약 영상 생성 방법에 관한 것이다.

사용자에게 많은 비디오 컨텐츠를 효율적으로 안내하기 위해서 영상 컨텐츠 내의 주요 장면들을 모은 요약 영상이 제공될 수 있다. 서비스 제공자는 영상 컨텐츠에서 중요하거나 재미있는 하이라이트 장면들을 짧은 동영상 클립으로 직접 편집하여 요약 영상을 생성할 수 있다.

최근에는 인터넷 및 모바일을 통해 다양한 VOD 및 스트리밍 영상 서비스가 증가하고 있다. 영상 컨텐츠의 양과 시청 방식이 다양해지면서 사용자들은 일방적으로 영상 컨텐츠를 제공받는 기존의 방식에서 벗어나 개인의 흥미나 관심도에 따라 영상 컨텐츠를 시청하는 방식을 선호하고 있다.

하지만, 종래의 요약 영상은 다양한 시청자 선호도를 반영할 수 없다는 문제점이 있었다. 이에 따라, 시청자가 보고 싶어하는 영상에 관한 정보를 간략하고 빠르게 전달할 수 있는 요약 기술의 필요성이 대두되었다.

본 개시는 상술한 필요성에 따른 것으로, 본 개시의 목적은, 등장 캐릭터 간의 관계 및 사건 별 관련성에 따라 선택된 특정 장면과 연관성이 높은 장면을 요약 영상으로 생성하는 전자 장치 및 그 요약 영상 생성 방법을 제공함에 있다.

상술한 목적을 달성하기 위한 본 개시의 일 실시 예에 따른 전자 장치는, 동영상 컨텐츠 중 적어도 일부가 저장된 저장부 및 상기 동영상 컨텐츠를 이루는 각 장면들 중 하나가 선택되면, 상기 선택된 장면과 연관된 속성을 가지는 연관 장면들을 조합하여 상기 동영상 컨텐츠의 요약 영상을 생성하는 프로세서를 포함할 수 있다.

상기 각 장면들은, 상기 동영상 컨텐츠의 프레임들 중에서 연관성 있는 이미지 성분들을 연속적으로 표현하는 프레임들을 포함할 수 있다.

상기 프로세서는, 상기 각 장면의 캐릭터 속성, 상기 각 장면의 배경 속성, 상기 각 장면에서 벌어지는 이벤트 속성 중 적어도 하나를 검출하여 상기 저장부에 저장하고, 상기 선택된 장면의 속성과 상기 저장부에 저장된 각 장면의 속성을 비교할 수 있다.

상기 프로세서는, 상기 각 장면의 캐릭터 속성, 상기 각 장면의 배경 속성, 상기 각 장면에서 벌어지는 이벤트 속성을 각각 검출하여 상기 저장부에 저장하고, 각 속성 별로 상기 선택된 장면의 속성들과 비교하여 상기 연관 장면인지 여부를 식별할 수 있다.

상기 프로세서는, 상기 각 장면에 등장하는 캐릭터 각각의 출현 빈도 수 및 상기 캐릭터의 얼굴 표정 타입 중 적어도 하나를 검출하여 상기 각 장면의 캐릭터 속성으로 상기 저장부에 저장할 수 있다.

상기 프로세서는, 상기 각 장면에 포함된 이미지 성분들 중에서 배경 이미지를 분리하고, 각 배경 이미지들을 타입 별로 분류하여, 상기 분류 결과를 상기 각 장면의 배경 속성으로 상기 저장부에 저장할 수 있다.

상기 프로세서는, 상기 각 장면에 등장하는 캐릭터의 자세 및 위치 중 적어도 하나에 따라 상기 각 장면에서 벌어지는 이벤트를 분류하여, 상기 분류 결과를 상기 각 장면의 이벤트 속성으로 상기 저장부에 저장할 수 있다.

상기 프로세서는, 상기 동영상 컨텐츠의 타입에 따라 상기 캐릭터 속성, 상기 배경 속성, 상기 이벤트 속성에 대해 서로 다른 가중치를 적용하여, 각 속성 별 유사도를 산출할 수 있다.

상기 프로세서는, 복수의 캐릭터가 등장하는 장면에 대해서는, 상기 복수의 캐릭터 각각의 얼굴 표정 및 상기 이벤트 속성 중 적어도 하나를 이용하여 상기 복수의 캐릭터 간의 관계를 분류하여, 상기 분류 결과를 상기 장면의 캐릭터 관계 속성으로 상기 저장부에 저장할 수 있다.

상기 전자 장치는, 상기 동영상 컨텐츠 중 적어도 일부를 디스플레이하기 위한 디스플레이를 더 포함할 수 있다.

상기 프로세서는, 상기 동영상 컨텐츠 중 적어도 일부를 디스플레이하는 중에 사용자 선택이 입력되면, 입력 시점에 디스플레이되는 장면을 상기 선택된 영상으로 인식할 수 있다.

상기 프로세서는, 칼라 히스토그램 및 에지 히스토그램 중 적어도 하나에 기초하여 상기 연관성 있는 이미지 성분들을 연속적으로 표현하는 프레임들을 식별할 수 있다.

본 개시의 일 실시 예에 따른 전자 장치의 요약 영상 생성 방법은, 동영상 컨텐츠 중 적어도 일부를 이루는 프레임들을 각 장면 별로 분류하는 단계, 상기 각 장면 중 하나를 선택받는 단계 및 상기 선택된 장면과 연관된 속성을 가지는 연관 장면들을 조합하여 상기 동영상 컨텐츠의 요약 영상을 생성하는 생성 단계를 포함할 수 있다.

상기 요약 영상 생성 방법은 상기 각 장면의 캐릭터 속성, 상기 각 장면의 배경 속성, 상기 각 장면에서 벌어지는 이벤트 속성 중 적어도 하나를 검출하여 저장하는 단계를 더 포함할 수 있다.

상기 생성 단계는, 상기 선택된 장면의 속성을 검출하는 단계, 기 저장된 장면들의 속성들과 상기 선택된 장면의 속성을 비교하여 상기 연관 장면을 탐색하는 단계를 더 포함할 수 있다.

상기 요약 영상 생성 방법은, 상기 각 장면의 캐릭터 속성, 상기 각 장면의 배경 속성, 상기 각 장면에서 벌어지는 이벤트 속성 중 적어도 하나를 검출하여 저장하는 단계를 더 포함할 수 있다.

상기 생성 단계는, 상기 선택된 장면의 속성을 검출하는 단계, 기 저장된 각 장면들의 속성 별로 상기 선택된 장면의 속성들과 비교하여 상기 연관 장면인지 여부를 식별하는 단계를 더 포함할 수 있다.

상기 캐릭터 속성은, 상기 각 장면에 등장하는 캐릭터 각각의 출현 빈도 수 및 상기 캐릭터의 얼굴 표정 타입 중 적어도 하나에 대한 정보일 수 있다.

상기 배경 속성은, 상기 각 장면에 포함된 이미지 성분들 중에서 분리된 배경 이미지의 타입에 대한 정보일 수 있다.

상기 이벤트 속성은, 상기 각 장면에 등장하는 캐릭터의 자세 및 위치 중 적어도 하나에 따라 상기 각 장면에서 벌어지는 이벤트의 종류에 대한 정보일 수 있다.

상기 생성 단계는, 상기 동영상 컨텐츠의 타입에 따라 상기 캐릭터 속성, 상기 배경 속성, 상기 이벤트 속성에 대해 서로 다른 가중치를 적용하여, 각 속성 별 유사도를 산출할 수 있다.

상기 요약 영상 생성 방법은, 복수의 캐릭터가 등장하는 장면에 대해서는, 상기 복수의 캐릭터 각각의 얼굴 표정 및 상기 이벤트 속성 중 적어도 하나를 이용하여 상기 복수의 캐릭터 간의 관계를 분류하여, 상기 분류 결과를 상기 장면의 캐릭터 관계 속성으로 저장하는 단계를 더 포함할 수 있다.

상기 요약 영상 생성 방법은, 칼라 히스토그램 및 에지 히스토그램 중 적어도 하나에 기초하여 상기 연관성 있는 이미지 성분들을 연속적으로 표현하는 프레임들을 식별하는 단계를 더 포함할 수 있다.

상술한 바와 같이 본 개시의 다양한 실시 예에 따르면 각 시청자의 흥미나 관심도에 따라 생성된 요약 영상을 간편하게 획득할 수 있다.

도 1은 본 발명의 일 실시 예에 따른 전자 장치의 구성을 나타내는 블럭도이다.
도 2는 검출 빈도수에 기초하여 캐릭터 속성을 판단하는 예를 설명하기 위한 도면이다.
도 3 및 도 4는 장면들을 분석한 속성 정보들의 다양한 예를 나타내는 도면이다.
도 5 및 도 6은 등장 캐릭터가 복수인 경우 각 장면을 이루는 속성들을 설명하기 위한 도면이다.
도 7은 속성들을 기초로 요약 영상을 생성하는 방법의 일 예를 설명하기 위한 도면이다.
도 8은 디스플레이를 구비한 본 발명의 다른 실시 예에 따른 전자 장치의 구성을 나타내는 블럭도이다.
도 9는 본 발명의 일 실시 예에 따른 요약 영상의 생성 방법을 설명하기 위한 도면이다.
도 10은 본 발명의 일 실시 예에 따른 전자 장치의 요약 영상의 생성 방법을 설명하기 위한 흐름도이다.

이하에서는 도면을 참조하여 본 개시에 대해 상세히 설명하도록 한다. 본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략한다. 덧붙여, 하기 실시 예는 여러 가지 다른 형태로 변형될 수 있으며, 본 개시의 기술적 사상의 범위가 하기 실시 예에 한정되는 것은 아니다. 오히려, 이들 실시 예는 본 개시를 더욱 충실하고 완전하게 하고, 당업자에게 본 개시의 기술적 사상을 완전하게 전달하기 위하여 제공되는 것이다.

또한, 어떤 구성요소를 '포함'한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다. 나아가, 도면에서의 다양한 요소와 영역은 개략적으로 그려진 것이다. 따라서, 본 개시의 기술적 사상은 첨부한 도면에 그려진 상대적인 크기나 간격에 의해 제한되지 않는다.

또한, 'a, b 및 c 중 적어도 하나'라는 표현은 'a', 'b', 'c', 'a 및 b', 'a 및 c', 'b 및 c' 또는 'a, b 및 c'로 해석될 수 있다.

이하, 첨부된 도면을 이용하여 본 개시에 대하여 구체적으로 설명한다.

도 1은 본 발명의 일 실시 예에 따른 전자 장치의 구성을 나타내는 블럭도이다.

전자 장치(100)는 본 개시에 따른 다양한 실시 예를 실행할 수 있는 프로그램이 내장된 TV로 구현될 수 있으나, 이에 한정되는 것은 아니며, PC, 랩탑 컴퓨터, 태블릿, 스마트 폰, 셋탑 박스 등으로 구현될 수도 있다. 또는, 전자 장치(100)는 서버로 구현될 수도 있다. 전자 장치(100)가 서버로 구현되는 경우, 서버가 본 개시의 다양한 실시 예에 따라 영상 컨텐츠의 요약 영상을 생성하며, 생성된 요약 영상을 TV와 같은 외부 전자 장치로 전송하고 외부 전자 장치에서 요약 영상을 출력할 수도 있다.

도 1a에 따르면, 전자 장치(100)는 저장부(110) 및 프로세서(120)를 포함한다.

저장부(110)는 전자 장치(100)를 구동/제어하기 위한 다양한 데이터, 프로그램 또는 어플리케이션을 저장할 수 있다. 저장부(110)는 전자 장치(100) 내의 다양한 구성들의 제어를 위한 제어 프로그램, 제조사에서 최초 제공되거나 외부에서부터 다운로드 받은 어플리케이션, 데이터베이스들 또는 관련 데이터들을 저장할 수 있다.

저장부(110)는 프로세서(120)에 포함된 롬(ROM), 램(RAM) 등의 내부 메모리로 구현되거나, 프로세서(120)와 별도의 메모리로 구현될 수도 있다. 이 경우, 저장부(110)는 데이터 저장 용도에 따라 전자 장치(100)에 임베디드된 메모리 형태로 구현되거나, 전자 장치(100)에 탈부착이 가능한 메모리 형태로 구현될 수도 있다. 예를 들어, 전자 장치(100)의 구동을 위한 데이터의 경우 전자 장치(100)에 임베디드된 메모리에 저장되고, 전자 장치(100)의 확장 기능을 위한 데이터의 경우 전자 장치(100)에 탈부착이 가능한 메모리에 저장될 수 있다. 한편, 전자 장치(100)에 임베디드된 메모리의 경우 비휘발성 메모리, 휘발성 메모리, 하드 디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등과 같은 형태로 구현될 수 있다.

특히, 저장부(110)는 본 개시의 다양한 실시 예에 따라 요약 영상을 생성하는 대상이 되는 동영상 컨텐츠 중 적어도 일부를 저장할 수 있다. 동영상 컨텐츠 전체가 저장부(110)에 저장될 수 있으나, 동영상 컨텐츠의 일부만이 저장부(110)에 저장될 수도 있다. 예를 들어, 스트리밍 영상의 경우, 동영상 컨텐츠의 일부만이 저장부(110)에 저장된다.

또한, 저장부(110)는 동영상 컨텐츠를 이루는 각 장면의 캐릭터 속성, 각 장면의 배경 속성 및 각 장면에서 벌어지는 이벤트 속성을 저장할 수 있다.

여기서, 각 장면은 동영상 컨텐츠의 프레임들 중에서 연관성 있는 이미지 성분들을 연속적으로 표현하는 프레임들을 포함하는 것을 의미할 수 있다. 이미지 성분이란 하나의 이미지 프레임을 구성하는 인물이나 사물, 배경 등을 의미한다. 연관성 있는 이미지 성분이란 특정 인물, 특정 사물, 특정 배경들을 의미할 수 있다.

저장부(110)는 동영상 컨텐츠뿐만 아니라 동영상 컨텐츠 관련와 관련된 데이터도 저장할 수 있다. 예를 들어, 저장부(110)는 MPEG 형태의 동영상 컨텐츠 데이터뿐만 아니라 프로세서(120)에 의해 MPEG 데이터가 디코딩된 데이터도 저장할 수 있다.

프로세서(120)는 전자 장치(100)의 전반적인 동작을 제어한다.

프로세서(120)는 디지털 신호를 처리하는 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor), TCON(Time controller)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(120)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형태로 구현될 수도 있다.

프로세서(120)는 CPU(미도시), 전자 장치(100)의 제어를 위한 제어 프로그램이 저장된 롬(ROM, 또는 비 휘발성 메모리) 및 전자 장치(100)의 외부에서부터 입력되는 데이터를 저장하거나 전자 장치(100)에서 수행되는 다양한 작업에 대응되는 저장 영역으로 사용되는 램(RAM, 또는 휘발성 메모리)을 포함할 수 있다.

프로세서(120)는 기설정된 이벤트가 발생되면 저장부(110)에 저장된 OS(Operating System), 프로그램 및 다양한 어플리케이션을 실행할 수 있다. 프로세서(120)는 싱글 코어, 듀얼 코어, 트리플 코어, 쿼드 코어 및 그 배수의 코어를 포함할 수 있다.

CPU는 저장부(110)에 액세스하여, 저장부(110)에 저장된 O/S를 이용하여 부팅을 수행한다. 그리고, 저장부(110)에 저장된 각종 프로그램, 컨텐츠, 데이터 등을 이용하여 다양한 동작을 수행한다.

프로세서(120)는 동영상 컨텐츠에 대한 요약 영상을 생성할 수 있다. 프로세서(120)는 동영상 컨텐츠가 전자 장치(100)에 저장될 때 자동적으로 요약 영상을 생성하여 저장할 수도 있으며, 사용자의 명령이 입력되었을 때 요약 영상을 생성할 수도 있다.

구체적으로, 프로세서(120)는 동영상 컨텐츠에서 카메라 시점이 변하는 구간에 기초하여 각 장면을 이루는 프레임들을 그룹핑(grouping)하여 프레임들을 구분할 수 있다. 일 실시 예에 따르면, 프로세서(120)는 칼라 히스토그램 및 에지 히스토그램 중 적어도 하나에 기초하여 연관성 있는 이미지 성분들을 연속적으로 표현하는 프레임들을 식별할 수 있다. 프로세서(120)는 프레임들을 비교하여 칼라 히스토그램 및 에지 히스토그램 중 적어도 하나가 기설정된 임계값 이하인 프레임들을 연관성 있는 이미지 성분들을 연속적으로 표현하는 프레임들을 하나의 장면으로 식별할 수 있다.

예를 들어, 등장 인물이 거실에서 책을 읽는 프레임을 상정하도록 한다. 거실에서 책을 읽는 장면을 형성하는 프레임에 등장 인물이 추가되거나 카메라 각도가 변경되더라도 각 프레임에서의 칼라 분포나 에지 분포는 크게 변경되지 않을 수 있다. 이후, 야외에서 자전거를 타는 프레임으로 변경되는 경우, 거실에서 책을 읽는 장면을 형성하는 프레임과 비교하여 칼라 분포나 에지 분포의 차이는 기설정된 임계값 이상이 될 수 있다. 이와 같이, 프로세서(120)는 각 장면을 구성하는 프레임들을 그룹핑하여 저장부(110)에 저장할 수 있다. 각 장면을 구분하는 내용에 대해서는 하기에서 자세히 설명하도록 한다.

또는, 프로세서(120)를 구성하는 각 프레임들을 분석하여, 각 프레임들이 표현하는 장면들을 구분할 수 있다. 프레임 분석은 다양한 방식으로 이루어질 수 있다. 일 예로, 프로세서(120)는, 하나의 프레임 내의 전체 픽셀들을 n*m 개의 픽셀로 이루어진 블록들로 구분한다. 프로세서(120)는 각 블록들의 특징 값을 산출한다. 프로세서(120)는 각 블록들의 특징 값을 비교하여, 서로 유사한 특징 값을 가지면서 연속적으로 배치된 블록들을 탐색하고, 탐색된 블록들을 이미지 성분의 에지(edge)로 판단한다. 프로세서(120)는 판단된 에지를 검출하여, 각 이미지 성분의 형태, 크기, 위치, 컬러 등을 확인할 수 있다. 프로세서(120)는 저장부(110) 또는 기타 메모리에 저장된 데이터를 기초로, 확인된 형태, 크기, 위치, 컬러 등의 특성을 분석하여, 해당 이미지 성분이 어떠한 이미지 성분인지 추정한다. 추정된 이미지 성분이 사람의 입술이나 눈 부분이라면, 프로세서(120)는 입술 형태나 치아의 노출 여부, 눈 형태, 컬러 등을 토대로 사람이 울고 있는지 웃고 있는지 까지도 판단할 수 있다. 이와 같은 방식으로 프로세서(120)는 각 이미지 성분들의 특징을 판단하여 프레임들을 장면 단위로 그룹핑할 수 있다.

프로세서(120)는 구분된 장면들에 대한 정보를 저장부(110)에 저장한다. 저장되는 정보에는 각 장면들에 해당하는 프레임 정보뿐만 아니라 해당 장면의 속성 정보가 함께 포함될 수도 있다. 프로세서(120)는 속성 정보를 기초로 하여, 연관 장면들을 선택할 수 있다.

구체적으로는, 프로세서(120)는 저장부(110)에 저장된 장면들 중에서 하나가 선택되면, 선택된 장면과 연관된 속성을 가지는 연관 장면들을 조합하여 동영상 컨텐츠의 요약 영상을 생성할 수 있다.

요약 영상은 하나의 동영상 컨텐츠 전체, 또는 그 일부에 대해서 생성될 수도 있으며, 이와 달리 복수의 동영상 컨텐츠에 대해 하나의 요약 영상이 생성될 수도 있다.

복수의 동영상 컨텐츠인 경우, 프로세서(120)는 선택된 장면과 연관된 장면을 복수의 동영상에서 탐색할 수 있다. 예를 들어, 사용자가 선택한 장면이 "AAA"라는 드라마의 1회 컨텐츠 중에서 "BBB"라는 사람이 나온 장면이라고 가정하면, 프로세서(120)는"AAA" 드라마의 나머지 회수 분의 컨텐츠들까지 전부 탐색해서 "BBB"라는 사람이 나온 장면을 전부 하나의 요약 영상으로 생성할 수도 있다.

각 장면을 이루는 속성들에는 각 장면의 캐릭터 속성, 각 장면의 배경 속성, 각 장면에서 벌어지는 이벤트 속성 중 적어도 하나가 포함될 수 있다.

캐릭터 속성이란 어떠한 인물이나 동물, 사물 등이 등장하는지에 대한 정보를 의미하고, 배경 속성이란 그 장면의 배경을 묘사하는 정보를 의미한다. 이벤트 속성이란 그 장면 내에서 어떠한 이벤트가 벌어지고 있는지를 판단하기 위한 정보를 의미한다.

프로세서(120)는, 각 장면의 캐릭터 속성, 각 장면의 배경 속성, 각 장면에서 벌어지는 이벤트 속성 중 적어도 하나를 검출하여 저장부(110)에 저장하고, 선택된 장면의 속성과 저장부(110)에 저장된 각 장면의 속성을 비교할 수 있다. 예를 들어, 프로세서(120)는,"AAA"로 추정되는 인물이 검출되는 장면들은 동일한 캐릭터 속성이 있다고 판단한다. 또한, 프로세서(120)는 등장 인물의 배경이 바다로 추정되는 장면들은 동일한 배경 속성이 있다고 판단하며, 등장 인물들 간의 물리적 충돌이 있는 것으로 추정되는 장면들은 동일한 이벤트 속성이 있다고 판단할 수 있다. 프로세서(120)는 동일한 속성을 가진 장면들은 연관 장면으로 검출한다.

속성 간의 유사도는 산술적으로 계산될 수도 있다. 프로세서(120)는 각 속성 별로 선택된 장면의 속성들과 비교하여 연관 장면인지 여부를 식별할 수 있다.

여기서, 프로세서(120)는 각 장면에 등장하는 캐릭터 각각의 출현 빈도 수 및 캐릭터의 얼굴 표정 타입 중 적어도 하나를 검출하여 각 장면의 캐릭터 속성으로 저장부(110)에 저장할 수 있다.

상술한 예와 같이, 특정 인물 "AAA"에 대한 요약 영상을 요청하는 경우, 프로세서(120)는 그 인물이 포함된 장면들을 요약 영상으로 생성할 수 있다. 또는, 주연 역할을 맡은 인물의 등장 장면을 요청하는 경우, 프로세서(120)는 각 인물의 출현 빈도수나, 역할 정보 등에 기초하여 주 조연을 구분하고, 주연이 등장하는 장면들을 요약 영상으로 생성할 수도 있다.

본 개시의 일 실시 예에 따라, 전자 장치(100)가 서버로 구현되는 경우를 상정하도록 한다. 서버가 본 개시의 다양한 실시 예에 따라 영상 컨텐츠의 요약 영상을 생성하며, 생성된 요약 영상을 TV와 같은 외부 전자 장치로 전송하고 외부 전자 장치에서 요약 영상을 출력할 수도 있다.

예를 들어, 서버에 동영상 컨텐츠 중 적어도 일부가 저장되어 있고, 외부 전자 장치를 통해 해당 컨텐츠 중 하나의 장면이 선택될 수 있다. 일 예로, TV 시청 중 특정 장면이 사용자에 의해 선택될 수 있으며, TV는 선택된 장면에 대한 정보를 서버로 전송할 수 있다. 서버는 캐릭터 속성, 배경 속성, 이벤트 속성 및 캐릭터 관계 속성 중 적어도 하나에 기초하여 선택된 장면과 연관된 장면을 식별할 수 있다. 연관된 장면을 식별하는 내용은 상술한 바 있으므로 자세한 설명은 생략하도록 한다. 서버는 선택된 장면과 연관된 장면들을 조합하여 생성된 요약 영상을 외부 전자 장치(예를 들어, TV)로 전송할 수 있다.

도 1b는 도 1a의 전자 장치의 세부 구성의 일 예를 나타내는 도면이다.

도 1b에 따르면, 전자 장치(100)는 저장부(110), 프로세서(120), 통신부(130), 외부 인터페이스(140), 방송신호 수신부(150) 및 리모컨 수신부(160)를 포함한다. 도 1b에 도시된 구성 중, 도 1a에 도시된 구성과 중복되는 구성에 대해서는 자세한 설명을 생략하도록 한다.

통신부(130)는 외부 서버(미도시)와 통신을 수행하기 위한 구성이다. 통신부(130)는 BT(BlueTooth), WI-FI(Wireless Fidelity), Wi-Fi Direct, Zigbee, Serial Interface, USB(Universal Serial Bus),NFC(Near Field Communication), Z-wave 등과 같은 다양한 통신 모듈로 구현될 수 있다.

예를 들어, 통신부(130)는 외부 서버로부터 동영상 컨텐츠를 수신할 수 있다. 또한, 통신부(130)는 프로세서(120)의 제어에 따라 외부 서버에 요약 영상을 업로드할 수도 있다.

외부 인터페이스(140)는 외부 디스플레이 장치(미도시)로 요약 영상을 전송하는 입출력 포트로 구현될 수 있다. 구체적으로, 외부 인터페이스(140)는 프로세서(120)의 제어에 의해 비디오/오디오 신호를 함께 외부 디스플레이 장치로 전송하거나, 비디오/오디오 신호를 각각 외부 디스플레이 장치로 전송할 수 있다. 비디오/오디오 신호가 함께 외부 디스플레이 장치로 전송되는 경우, 입출력 포트는 HDMI, DP, 썬더볼트 등으로 구현될 수 있다.

방송 신호 수신부(150)는 선국된 방송 신호를 수신하기 위한 구성이다. 방송 신호 수신부(150)는 튜너, 복조기, 등화기, 디코더, 스케일러 등의 구성을 포함할 수 있다. 방송 신호 수신부(150)는 튜너에 의해 선국된 방송 신호를 수신하고, 복조, 등화, 디코딩, 스케일링 등과 같은 다양한 신호 처리를 수행하여, 방송 신호에 포함된 동영상 컨텐츠를 복원한다. 복원된 동영상 컨텐츠는 프로세서(120)의 제어에 따라 스피커(미도시) 등의 출력 소자를 통해 출력되거나, 통신부(130)를 통해 외부 장치로 전달 될 수도 있으며, 저장부(110)에 저장될 수도 있다. 프로세서(120)는 저장된 방송 신호 컨텐츠에 대한 요약 영상을 상술한 방식으로 생성할 수도 있다.

리모컨 신호 수신부(160)는 원격 제어 장치(미도시)로부터 발송된 리모컨 신호를 수신하기 위한 구성이다. 리모컨 신호 수신부(160)는 IR 모듈로 구현될 수 있으나 반드시 이에 한정되는 것은 아니다. 예를 들어, 블루투스 방식으로 리모컨 신호를 수신하는 경우에는, 리모컨 신호 수신부(160)는 별도로 마련되지 않고, 통신부(130) 내의 블루투스 모듈이 리모컨 신호 수신부 역할을 할 수도 있다.

도 2는 검출 빈도수에 기초하여 캐릭터 속성을 판단하는 예를 설명하기 위한 도면이다.

도 2에 따르면, 프로세서(120)는 각 장면에 등장하는 캐릭터 각각의 출현 빈도 수 및 캐릭터의 얼굴 표정 타입 중 적어도 하나를 검출하여 각 장면의 캐릭터 속성으로 저장부(110)에 저장한다. 프로세서(120)는 등장하는 캐릭터에 대한 정보를 검출하는 경우, 각 장면에서 캐릭터의 얼굴을 검출하고, 검출된 얼굴이 등장하는 빈도수를 측정한다. 프로세서(120)는 각 캐릭터 별로 동영상 컨텐츠에서 등장하는 빈도수를 비교함으로써 동영상 컨텐츠의 주연 캐릭터와 조연 캐릭터를 구분할 수 있다. 여기서, 빈도수는 각 캐릭터가 등장하는 장면의 개수일 수 있다.

프로세서(120)는 동영상 컨텐츠에서 등장 빈도수가 임계치 이상인 경우 주연 캐릭터로 식별하고, 등장 빈도수가 임계치 미만인 경우 조연 캐릭터로 식별하여 요약 영상에서 조연 캐릭터를 제외할 수도 있으나 이에 한정되는 것은 아니다.

도 2와 같이 동영상 컨텐츠에 등장하는 캐릭터는 복수 개(캐릭터 1 내지 캐릭터 9)인 경우, 프로세서(120)는 캐릭터 1 내지 캐릭터 9가 등장하는 빈도수를 각각 검출하여 캐릭터 별 빈도수 정보를 획득할 수 있다. 프로세서(120)는 기 설정된 임계치 이상으로 등장하는 캐릭터 2, 캐릭터3 및 캐릭터 8을 주연 캐릭터로 식별하고, 캐릭터 1, 캐릭터 4 내지 캐릭터 7 및 캐릭터 9를 조연 캐릭터로 식별할 수 있다.

또는, 프로세서(120)는 빈도수를 기준으로 기 설정된 수의 캐릭터만을 주연 캐릭터로 식별할 수도 있다. 예를 들어, 주연 캐릭터의 수가 2명으로 설정되면, 프로세서(120)는 빈도수가 가장 높은 캐릭터 2 및 캐릭터 8을 주연 캐릭터로 식별할 수 있다.

얼굴 표정 타입을 기초로 연관 장면을 검색하는 경우에는, 프로세서(120)는 각 캐릭터의 얼굴 표정을 분석할 수도 있다. 얼굴 표정을 검출하는데 Face detection, Face recognition 등의 기술이 이용될 수 있는데, 이러한 기술은 종래 기술이므로 자세한 설명은 생략하도록 한다.

예를 들어, 웃는 표정, 행복한 표정, 슬픈 표정 등은 "친근한 표정 타입"으로 분류되고, 무표정, 놀란 표정 등은 "중립적 표정 타입"으로 분류되며, 화난 표정, 무서운 표정, 찡그린 표정 등은 "적대적 표정 타입"으로 분류될 수 있다.

또는, 프로세서(120)는 각 장면에 포함된 이미지 성분들 중에서 배경 이미지를 분리하고, 각 배경 이미지들을 타입 별로 분류하여, 분류 결과를 각 장면의 배경 속성으로 저장부(110)에 저장할 수 있다.

프로세서(120)는 캐릭터가 등장하는 배경 영역을 검출하는 경우, 장면에서 객체 영역을 분리하고 배경 영역을 인식하여 기저장된 타입으로 분류할 수 있다. 여기서, 배경 영역을 검출하는데 Scene description, Place detection 등의 기술이 이용될 수 있는데, 이러한 기술은 종래 기술이므로 자세한 설명은 생략하도록 한다.

예를 들어, 집, 침실, 거실, 부엌 등은 "실내 타입"으로 분류되고, 거리, 공원, 다리 등은 "실외 타입"으로 분류되며, 산, 강, 해변 등은 "자연 타입"으로 분류될 수 있다. 다만, 이에 한정되는 것은 아니며, "자연 타입"이 "실외 타입"에 포함되는 등 다양한 형태로 배경 영역이 분류될 수 있다.

하나의 장면 단위에 포함된 프레임에서 복수의 배경 영역 타입이 검출되는 경우, 프로세서(120)는 가장 자주 검출되는 배경을 해당 장면의 배경 영역으로 인식할 수 있다.

프로세서(120)는 각 장면에 등장하는 캐릭터의 자세 및 위치 중 적어도 하나에 따라 각 장면에서 벌어지는 이벤트를 분류하여, 분류 결과를 각 장면의 이벤트 속성으로 저장부(110)에 저장할 수 있다.

예를 들어, 캐릭터가 앉아있는 자세로 검출되고 ‘책'이라는 객체가 검출되는 경우, 프로세서(120)는 검출된 정보를 조합하여 이벤트 속성을 캐릭터가 앉아서 책을 보는 이벤트로 식별할 수 있다. 여기서, 이벤트를 검출하는데 Action detection 등의 기술이 이용될 수 있는데, 이러한 기술은 종래 기술이므로 자세한 설명은 생략하도록 한다.

프로세서(120)는 복수의 캐릭터가 등장하는 장면에 대해서는, 복수의 캐릭터 각각의 얼굴 표정 및 이벤트 속성 중 적어도 하나를 이용하여 복수의 캐릭터 간의 관계를 분류하여, 분류 결과를 장면의 캐릭터 관계 속성으로 저장부(110)에 저장할 수 있다.

복수의 캐릭터가 등장하는 경우, 프로세서(120)는 상술한 바와 같이 복수의 캐릭터의 자세 및 위치 중 적어도 하나에 따라 이벤트를 분류하고, 복수의 캐릭터 각각의 얼굴 표정 및 이벤트 속성 중 적어도 하나에 기초하여 복수의 캐릭터 간의 관계를 분류할 수 있다. 즉, 프로세서(120)는 복수의 캐릭터가 등장하는 경우, 각 장면의 캐릭터 속성, 각 장면의 배경 속성, 각 장면에서 벌어지는 이벤트 속성뿐만 아니라 각 장면의 캐릭터 관계 속성도 고려하여 연관 장면을 식별할 수 있다.

예를 들어, 복수의 캐릭터가 등장하는 경우, 각 캐릭터의 웃는 표정, 행복한 표정, 슬픈 표정이나 키스, 포옹 등의 이벤트는 "친근한 관계 타입"으로 분류되고, 무표정, 놀란 표정이나 대화, 악수, 걷기 등의 이벤트는 "중립적 관계 타입"으로 분류되며, 화난 표정, 무서운 표정, 찡그린 표정이나 싸움 등의 이벤트는 "적대적 관계 타입"으로 분류될 수 있다. 일 예로, 2명의 캐릭터가 등장하는 경우, 2명의 캐릭터가 포옹하고 있는 이벤트가 검출되면, 프로세서(120)는 캐릭터의 관계 속성을 "친근한 관계 타입"으로 분류할 수 있다.

프로세서(120)는 선택된 장면과 동영상 컨텐츠를 이루는 각 장면을 각 속성 별로 비교한 후, 각 속성 별 유사도를 산출할 수 있다. 여기서, 선택된 장면은 사용자에 의해 선택되거나 현재 사용자가 시청 중인 장면일 수 있다.

캐릭터 속성에 대한 유사도를 판단하는 경우, 프로세서(120)는 선택된 장면과 비교 장면에 등장하는 인물이 모두 일치하면 유사도 값을 1로 식별하고, 일부만 일치하면 유사도 값을 0보다 크고 1보다 작은 값으로 식별하고, 일치하는 인물이 없으면 유사도 값을 0으로 식별할 수 있다. 예를 들어, 선택된 장면에는 1명의 캐릭터가 등장하고, 비교 장면에는 해당 캐릭터를 포함하여 3명의 캐릭터가 등장하는 경우, 3명 중 1명이 일치하므로 프로세서(120)는 캐릭터 속성에 대한 유사도 값을 0.33으로 식별할 수 있다. 여기서, 비교 장면은 선택된 장면과 연관된 장면을 식별하기 위해 비교되는 동영상 컨텐츠의 특정 장면일 수 있다. 다만, 유사도 값은 예를 든 것이며, 이에 한정되지 않음은 물론이다.

배경 속성에 대한 유사도를 판단하는 경우, 프로세서(120)는 선택된 장면에서 검출된 배경과 비교 장면에서 검출된 배경이 일치하면 유사도 값을 1로 식별하고, 선택된 장면에서 검출된 배경의 타입과 비교 장면에서 검출된 배경의 타입 만이 일치하면 유사도 값을 0보다 크고 1보다 작은 값으로 식별하고, 선택된 장면에서 검출된 배경의 타입과 비교 장면에서 검출된 배경의 타입도 일치하지 않으면 유사도 값을 0으로 식별할 수 있다.

예를 들어, 선택된 장면의 배경 영역이 거실이고, 비교 장면의 배경 영역도 거실인 경우 프로세서(120)는 두 장면의 유사도 값을 1로 식별하고, 선택된 장면의 배경 영역이 거실이고, 비교 장면의 배경 영역이 침실로 배경 영역은 상이하나 배경 영역의 타입이 실내 타입으로 일치하는 경우 프로세서(120)는 두 장면의 유사도 값을 0.5로 식별하고, 선택된 장면의 배경 영역이 거실이고, 비교 장면의 배경 영역이 공원으로 배경 영역의 타입도 상이한 경우 프로세서(120)는 두 장면의 유사도 값을 0으로 식별할 수 있다.

이벤트 속성에 대한 유사도를 판단하는 경우, 프로세서(120)는 선택된 장면에서 검출된 이벤트와 비교 장면에서 검출된 이벤트가 일치하면 유사도 값을 1로 식별하고, 선택된 장면에서 검출된 이벤트의 타입과 비교 장면에서 검출된 이벤트의 타입 만이 일치하면 유사도 값을 0보다 크고 1보다 작은 값으로 식별하고, 선택된 장면에서 검출된 이벤트의 타입과 비교 장면에서 검출된 이벤트의 타입도 일치하지 않으면 유사도 값을 0으로 식별할 수 있다.

예를 들어, 선택된 장면의 이벤트가 춤을 추는 이벤트이고 비교 장면의 이벤트도 춤을 추는 이벤트인 경우 프로세서(120)는 두 장면의 유사도 값을 1로 식별하고, 선택된 장면의 이벤트가 춤을 추는 이벤트이고 비교 장면의 이벤트가 노래를 부르는 이벤트로 두 장면이 모두 친근한 이벤트 타입으로서 타입이 일치하는 경우 프로세서(120)는 두 장면의 유사도 값을 0.5로 식별하고, 선택된 장면의 이벤트가 춤을 추는 이벤트이고 비교 장면의 이벤트가 싸우는 이벤트이면 프로세서(120)는 두 장면의 유사도 값을 0으로 식별할 수 있다.

프로세서(120)는 각 속성 별 유사도를 합산하여 합산 결과를 기초로 연관 장면인지 여부를 식별할 수 있다.

프로세서(120)는 합산된 유사도 값이 임계치 이상이면 연관 장면으로 식별할 수 있다. 또는, 연관 장면으로 식별될 수 있는 장면의 최대 수가 기설정된 경우, 프로세서(120)는 합산된 유사도 값이 큰 순서부터 기설정된 장면 수만큼 연관 장면으로 식별할 수도 있다. 또는, 프로세서(120)는 합산된 유사도 값 및 최대 연관 장면의 수를 함께 고려할 수도 있다. 즉, 합산된 유사도 값이 임계치 이상인 장면 수가 기설정된 최대 장면 수보다 많더라도 합산된 유사도 값이 큰 순서부터 최대 장면 수만큼만 연관 장면으로 식별할 수도 있다.

예를 들어, 임계치 값이 0.5이고 최대 연관 장면 수가 3개로 설정된 경우, 합산된 유사도 값이 0.9, 0.8, 0.7, 0.6이면, 프로세서(120)는 합산된 유사도 값이 높은 순서인 0.9, 0.8, 0.7 값을 갖는 장면 3개만을 연관 장면으로 식별할 수 있다.

프로세서(120)는 동영상 컨텐츠의 타입에 따라 캐릭터 속성, 배경 속성, 이벤트 속성에 대해 서로 다른 가중치를 적용하여, 각 속성 별 유사도를 산출할 수 있다.

예를 들어, 프로세서(120)는 드라마 컨텐츠의 경우 등장하는 캐릭터 속성에 가장 큰 가중치를 부여하고 배경 속성에 가장 낮은 가중치를 부여할 수 있고, 액션 영화의 경우 이벤트 속성에 높은 가중치를 부여하여 유사도를 산출할 수 있다.

도 3 및 도 4는 장면들을 분석한 속성 정보들의 다양한 예를 나타내는 도면이다.

도 3에 따르면, 프로세서(120)는 등장 캐릭터 "man 1"의 등장 빈도수에 기초하여 "man 1"을 주요 캐릭터로 식별하고, 얼굴 표정은 웃음이나 우는 것으로 검출되지 않으므로 "중립적 표정 타입"으로 식별한다. 즉, 캐릭터 속성은 주연, 중립적 표정으로 분류된다. 배경 속성은 "실내 타입"으로 분류하고, 이벤트 속성에 대해서는 "책"이라는 객체가 검출되고 등장 캐릭터의 자세는 앉아있으므로 "독서"로 분류할 수 있다.

도 4에 따르면, 프로세서(120)는 캐릭터 속성은, "woman 1, 주요 캐릭터, 슬픈 감정"으로 분류할 수 있다. 그 밖에, 배경 속성은 "실내 타입"으로 분류하고, 이벤트 속성은 "전화기"라는 객체가 검출되고 얼굴 표정이 "sad"로 검출됨에 따라 "전화 통화 상태" 등으로 분류할 수 있다.

도 5 및 도 6은 등장 캐릭터가 복수인 경우 각 장면을 이루는 속성들을 설명하기 위한 도면이다.

프로세서(120) 는 장면에 등장하는 캐릭터가 복수인 경우, 각 캐릭터의 자세 및 위치 중 적어도 하나에 기초하여 각 장면에서 벌어지는 이벤트를 분류할 수 있다. 추가적으로, 프로세서(120) 는 복수의 캐릭터 각각의 얼굴 표정 및 이벤트 속성 중 적어도 하나에 기초하여 복수의 캐릭터 간의 관계를 분류할 수 있다. 프로세서(120) 는 선택된 장면의 캐릭터 관계 속성에 관한 유사도를 추가적으로 획득하고, 선택된 장면과 연관 장면인지 여부를 식별할 수 있다.

도 5에 따르면, 프로세서(120) 는 등장 캐릭터 "man 1"과 "woman 1"의 등장 빈도수에 기초하여 "man 1"과 "woman 1"을 주요 캐릭터로 식별할 수 있다. 프로세서(120) 는 얼굴 표정은 모두 "closing eye"로 검출되므로 "중립적 표정 타입"으로 식별하고, 배경 영역은 "street"로 검출되므로 "실외 타입"으로 식별하고, 두 캐릭터의 자세에 기초하여 kiss와 hugging이라는 이벤트를 식별할 수 있다. 또한, 등장 캐릭터가 복수이므로 캐릭터 간의 관계를 추가로 식별할 수 있는데, 프로세서(120) 는 해당 장면의 이벤트를 kiss와 hugging으로 식별하였으므로, "man 1"과 "woman 1"은 "친근한 관계 타입"으로 식별할 수 있다.

등장 캐릭터가 복수인 경우 캐릭터 간의 관계 속성에 관한 유사도를 추가적으로 고려하므로 도 5의 장면과 유사한 연관 장면을 검색하는 경우, "man 1"과 "woman 1"이 단순히 등장하는 장면이 아닌 "man 1"과 "woman 1"이 친근한 관계로 식별되는 장면들이 연관 장면으로 식별될 수 있다.

도 6에 따르면, 프로세서(120)는 등장 캐릭터 "woman 1", "woman 2", "man 1" 및 "man 2"의 등장 빈도수에 기초하여 "woman 1", "woman 2", "man 1" 및 "man 2"을 주요 캐릭터로 식별할 수 있다. 프로세서(120)는 "woman 1"의 얼굴 표정은 "neutral"이므로 "중립적 표정 타입"으로 식별하고, "woman 2"의 얼굴 표정은 "smile"이므로 "친근한 표정 타입"으로 식별하고, "man 1"의 얼굴 표정은 "surprise"이므로 "중립적 표정 타입"으로 식별하고, "man 2"의 얼굴 표정은 "angry"이므로 "적대적 표정 타입"으로 식별할 수 있다.

프로세서(120)는 배경 영역이 "street"와 "bench"로 검출되므로 "실외 타입"으로 식별하고, 등장 캐릭터 각각의 자세를 검출하여 "sitting"과 "talking"이라는 이벤트를 식별할 수 있다.

또한, 프로세서(120)는 캐릭터 간의 관계 속성을 추가적으로 식별할 수 있는데, "sitting"과 "talking"이라는 이벤트가 검출되고, "중립적 표정 타입"으로 분류된 얼굴 표정이 많이 검출되어 "woman 1", "woman 2", "man 1" 및 "man 2" 간의 관계 속성은 "중립적 관계"로 식별할 수 있다.

따라서, 도 6의 장면과 유사한 연관 장면을 검색하는 경우, "woman 1", "woman 2", "man 1" 및 "man 2"가 중립적 관계로 분류되는 장면들이 연관 장면으로 식별될 수 있다.

도 7은 속성들을 기초로 요약 영상을 생성하는 방법의 일 예를 설명하기 위한 도면이다.

프로세서(120)는 선택된 장면과 비교 장면의 캐릭터 속성, 장면의 배경 속성, 장면에서 벌어지는 이벤트 속성의 유사도를 산출하고, 각 유사도를 합산하여 합산 결과에 기초하여 선택된 장면과 연관된 장면을 식별할 수 있다. 등장하는 캐릭터가 복수인 경우, 프로세서(120)는 캐릭터 간의 관계 속성에 대한 유사도를 추가적으로 산출하고, 캐릭터 관계 속성에 관한 유사도까지 합산하여 선택된 장면과 연관된 장면을 식별할 수도 있다. 여기서, 비교 장면은 선택된 장면과 연관된 장면을 식별하기 위해 비교되는 동영상 컨텐츠의 특정 장면일 수 있다.

도 7에 따르면, 선택된 장면은 등장 캐릭터가 "woman 1" 및 "man 1"이고, 배경 영역이 거리이므로 "실외 타입"으로 분류되고 이벤트가 Kiss이므로 "친근한 타입"으로 분류될 수 있다. 또한, 등장 캐릭터가 복수이므로 캐릭터 관계 속성이 추가적으로 식별될 수 있다. 선택된 장면에서 이벤트가 Kiss로 검출되었으므로 캐릭터 관계 속성이 "친근한 관계 타입"으로 식별될 수 있다.

프로세서(120)는 상술한 속성에 기초하여 장면 1 내지 장면 4를 검출할 수 있다. 장면 1에 등장하는 캐릭터는 "woman 1" 및 "man 1"로 선택된 장면에서의 등장 캐릭터와 일치하므로 등장 캐릭터에 대한 유사도 값은 1이고, 장면 1의 배경 영역은 집으로 선택된 장면과 타입도 상이하므로 배경 영역에 대한 유사도 값은 0이고, 장면 1의 이벤트는 "hugging"으로 선택된 장면의 이벤트인 "kiss"와 동일한 타입인 "친근한 타입"으로 유사도 값이 0.75이고, 등장하는 캐릭터가 복수이므로 캐릭터 관계 속성에 대한 유사도 값이 추가적으로 산출될 수 있다. 장면 1의 이벤트는 "hugging"인 점에 기초하여 캐릭터 관계 속성은 "친근한 관계 타입"으로 분류되며, 타입이 동일하므로 캐릭터 관계 속성에 대한 유사도 값은 0.5일 수 있다. 선택된 장면과 장면 1의 합산된 유사도(연관도) 값은 0.725이므로, 장면 1은 장면 1 내지 장면 4 중 선택된 장면과 가장 유사한 장면으로 식별될 수 있다.

장면 2에 등장하는 캐릭터는 "woman 1" 및 "man 1"로 선택된 장면에서의 등장 캐릭터와 일치하므로 등장 캐릭터에 대한 유사도 값은 1이고, 장면 2의 배경 영역은 거리로 선택된 장면과 배경 영역이 일치하므로 배경 영역에 대한 유사도 값은 1이고, 장면 2의 이벤트는 "riding bike"로 "중립적 타입"으로 분류되어 선택된 장면의 이벤트 타입과는 상이하므로 유사도 값은 0이 될 수 있다. 캐릭터 관계 속성은 "riding bike"에 기초하여 "친근한 관계 타입"으로 분류되며, 타입이 동일하므로 캐릭터 관계 속성에 대한 유사도 값은 0.5일 수 있다. 선택된 장면과 장면 2의 합산된 유사도(연관도) 값은 0.7이므로 장면 2는 장면 1 내지 장면 4 중 선택된 장면과 두번째로 유사한 장면으로 식별될 수 있다.

장면 3에 등장하는 캐릭터는 "man 1"로 선택된 장면에서의 등장 캐릭터와 일부만 일치하므로 등장 캐릭터에 대한 유사도 값은 0.5이고, 장면 3의 배경 영역은 공원으로 선택된 장면과 배경 영역의 타입이 일치하므로 배경 영역에 대한 유사도 값은 0.75이고, 장면 3의 이벤트는 "talking"로 "중립적 타입"으로 분류되어 선택된 장면의 이벤트 타입과는 상이하므로 유사도 값은 0일 수 있다. 캐릭터 관계 속성은 "talking"에 기초하여 "중립적 관계 타입"으로 분류되며, 타입이 상이하므로 캐릭터 관계 속성에 대한 유사도 값은 0일 수 있다. 선택된 장면과 장면 3의 합산된 유사도(연관도) 값은 0.4이므로 장면 3는 장면 1 내지 장면 4 중 선택된 장면과 세번째로 유사한 장면으로 식별될 수 있다.

장면 4에 등장하는 캐릭터는 "woman 2" 및 "man 2"로 선택된 장면에서의 등장 캐릭터와 상이하므로 등장 캐릭터에 대한 유사도 값은 0이고, 장면 4의 배경 영역은 집으로 선택된 장면과 배경 영역의 타입이 상이하므로 배경 영역에 대한 유사도 값은 0이고, 장면 4의 이벤트는 "hugging"으로 "친근한 타입"으로 분류되어 선택된 장면의 이벤트 타입과는 동일하므로 유사도 값은 0.75일 수 있다. 캐릭터 관계 속성은 "hugging"에 기초하여 "친근한 관계 타입"으로 분류되며, 타입이 일치하므로 캐릭터 관계 속성에 대한 유사도 값은 0.5일 수 있다. 선택된 장면과 장면 4의 합산된 유사도(연관도) 값은 0.225이므로 장면 4는 장면 1 내지 장면 4 중 선택된 장면과 가장 연관되지 않은 장면으로 식별될 수 있다.

컨텐츠의 타입에 따라 캐릭터 속성, 배경 속성, 이벤트 속성 및 캐릭터 관계 속성에 대해 서로 다른 가중치가 적용되어, 각 속성 별 유사도가 산출될 수도 있다.

합산된 유사도 값에 대한 임계치가 0.5로 설정되어, 프로세서(120)는 합산된 유사도 값이 0.5이상인 장면 1 및 장면 2만을 연관 장면으로 식별하고 장면 1 및 장면 2를 시간 순서대로 조합하여 요약 영상을 생성할 수 있다. 또는, 연관 장면으로 식별될 수 있는 장면의 최대 수가 2개로 설정되어, 프로세서(120)는 합산된 유사도의 값이 큰 장면 1 및 장면 2만을 연관 장면으로 식별하고 장면 1 및 장면 2를 시간 순서대로 조합하여 요약 영상을 생성할 수도 있다.

도 1의 전자 장치(100)가 디스플레이(미도시)를 구비하지 않은 경우, 전자 장치(100)는 외부의 디스플레이 장치로 요약 영상을 전송하여 줄 수 있다. 구체적으로는, 전자 장치(100)는 서버 또는 셋탑 박스와 같이 동작할 수도 있다. 이 경우, 전자 장치(100)는 외부 디스플레이 장치와 비디오/오디오 신호를 출력하기 위한 출력 포트를 구비하거나 다양한 형태의 무선 통신을 등으로 해당 신호를 외부 디스플레이 장치로 전송할 수도 있다. 전자 장치(100)가 비디오/오디오 신호를 함께 전송하는 경우, 전자 장치(100)에 HDMI, DP, 썬더볼트 등의 출력 포트가 구비될 수 있으나, 비디오/오디오 신호를 각각 출력하기 위한 포트가 구비될 수도 있다.

하지만, 이에 한정되지 않고, 디스플레이를 갖춘 전자 장치에서도 직접 요약 영상을 생성할 수도 있다.

도 8은 디스플레이를 구비한 본 발명의 다른 실시 예에 따른 전자 장치의 구성을 나타내는 블럭도이다.

도 8에 따르면, 전자 장치(100)는 저장부(110), 프로세서(120), 통신부(130), 방송신호 수신부(150), 리모컨 신호 수신부(160) 및 디스플레이(170)를 포함한다. 도 8에 도시된 구성 중, 도 1b에 도시된 구성과 중복되는 구성에 대해서는 자세한 설명을 생략하도록 한다.

프로세서(120)는 통신부(130)를 통해 수신된 동영상 컨텐츠, 방송 신호 수신부(150)를 통해 수신된 동영상 컨텐츠, 저장부(110)에 저장된 동영상 컨텐츠 중에서 사용자가 선택한 컨텐츠를 재생하여, 디스플레이(170)에 출력한다. 프로세서(120)는 컨텐츠 출력 중에 특정 장면을 선택하기 위한 사용자 명령이 리모컨 신호 수신부(160)를 통해 수신되면, 프로세서(120)는 그 장면과 연관된 장면들을 검출하여 상술한 바와 같이 요약 영상을 생성한다. 장면 선택은 실시 예에 따라 다양한 방식으로 이루어질 수 있다.

디스플레이(170)는 동영상 컨텐츠 또는 그에 대한 요약 영상을 디스플레이한다. 디스플레이(170)는 LCD(liquid crystal display), OLED(organic light-emitting diode), LCoS(Liquid Crystal on Silicon), DLP(Digital Light Processing), QD(quantum dot) 디스플레이 패널 등과 같은 다양한 형태로 구현될 수 있다.

도 9는 본 발명의 일 실시 예에 따른 요약 영상의 생성 방법을 설명하기 위한 도면이다.

도 9에 따르면, 프로세서(120)는 동영상 컨텐츠(10)를 재생하여, 다양한 프레임을 디스플레이(170) 상에 출력한다. 사용자는 동영상 컨텐츠(10)를 시청하다가 자신이 원하는 장면에서 리모콘을 조작하여, 선택 명령을 입력할 수 있다. 프로세서(120)는 사용자의 선택 명령이 입력되면, 그 입력 시점에 출력되던 장면이 선택된 것으로 판단한다. 프로세서(120)는 선택된 장면과 연관된 속성을 가지는 연관 장면들을 검출할 수 있다. 예를 들어, 도 7에서 설명한 바와 같이, 장면 10-1이 사용자에 의해 선택되는 경우, 프로세서(120)는 장면 10-1과의 연관도가 각각 0.725, 0.7인 장면 10-3및 장면 10-5을 연관 장면으로 검출할 수 있다. 장면 10-4의 경우 이벤트 속성은 0.75로 관련성이 있지만, 캐릭터 속성이 0으로 최종 연관도는 0.225로 연산되기 때문에, 연관 장면에서 배제된다.

결과적으로, 프로세서(120)는 연관된 장면들을 시간 순서에 따라 조합하여 요약 영상(20)을 생성할 수 있다.

도 9에서는 사용자가 컨텐츠 시청 중에 리모컨 버튼을 조작하기만 하면 그에 따라 요약 영상이 생성되는 것으로 설명하였으나, 장면 선택은 반드시 이와 같이 이루어지는 것은 아니며, 다양한 변형 실시 예가 가능하다.

다른 실시 예에 따르면, 프로세서(120)는 저장된 동영상 컨텐츠를 이루는 각 장면들을 썸네일 형태로 한꺼번에 디스플레이하고, 사용자로부터 특정 장면을 선택 받을 수도 있다. 프로세서(120)는 썸네일 형태로 표시되는 장면들은 속성 별로 대표적인 것들만 샘플링해서 선택할 수 있다. 사용자는 다양한 장면들을 한눈에 확인하면서, 관심이 있는 장면을 용이하게 선택할 수 있다. 프로세서(120)는 특정 장면이 선택되면, 선택된 장면과 연관된 속성을 가지는 연관 장면들을 검출하여 요약 영상을 제공할 수 있다. 사용자는 반드시 하나의 장면을 선택해야 하는 것은 아니다. 사용자가 복수의 장면을 선택한다면, 프로세서(120)는 사용자가 선택한 장면들 각각과 연관된 장면들을 모두 검색하여 요약 영상을 생성할 수도 있다.

도 10은 본 발명의 일 실시 예에 따른 전자 장치의 요약 영상의 생성 방법을 설명하기 위한 흐름도이다.

도 10에 따르면, 전자 장치는, 동영상 컨텐츠 중 적어도 일부를 이루는 프레임들을 각 장면 별로 분류한다(S1010). 여기서, 각 장면들은, 동영상 컨텐츠의 프레임들 중에서 연관성 있는 이미지 성분들을 연속적으로 표현하는 프레임들을 포함할 수 있다.

전자 장치는, 각 장면 중 하나가 선택되면(S1020), 선택된 장면과 연관된 속성을 가지는 연관 장면들을 조합하여 동영상 컨텐츠의 요약 영상을 생성한다(S1030).

상술한 바와 같이 본 발명의 다양한 실시 예에 따르면, 각 장면의 캐릭터 속성, 각 장면의 배경 속성, 각 장면에서 벌어지는 이벤트 속성, 캐릭터 관계 속성 등을 검출하여 저장하는 단계가 더 포함될 수도 있다.

캐릭터 속성, 배경 속성, 이벤트 속성 등의 검출 방법, 복수의 캐릭터들 간의 관계에 대한 속성 검출 방법 및 이에 기초한 유사도 산출 방법 등에 대해서는 상술한 다양한 실시 예들에서 설명한 바 있으므로 중복 설명은 생략한다.

도 10에서 설명한 요약 영상 생성 방법은 도 1 및 도 8에서 도시한 구성을 가지는 전자 장치에서 구현될 수 있으나, 반드시 이에 한정되는 것은 아니며, 다양한 형태의 장치에 의해 구현될 수도 있다.

또한, 상술한 본 개시의 다양한 실시 예들에 따른 방법들 중 적어도 일부 구성은, 기존 전자 장치에 대한 소프트웨어 업그레이드, 또는 하드웨어 업그레이드 만으로도 구현될 수 있다.

또한, 상술한 본 개시의 다양한 실시 예들 중 적어도 일부 구성은 전자 장치 에 구비된 임베디드 서버, 또는 전자 장치의 외부 서버를 통해 수행되는 것도 가능하다.

한편, 이상에서 설명된 다양한 실시 예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다. 일부 경우에 있어 본 명세서에서 설명되는 실시 예들이 프로세서 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다.

한편, 상술한 본 개시의 다양한 실시 예들에 따른 처리 동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium)에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 프로세서에 의해 실행되었을 때 상술한 다양한 실시 예에 따른 처리 동작을 특정 기기가 수행하도록 할 수 있다.

비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.

이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

100: 전자 장치 110: 저장부
120: 프로세서 130: 통신부
140: 외부 인터페이스 150: 방송신호 수신부
160: 리모컨신호 수신부 170: 디스플레이

Claims

전자 장치에 있어서,
동영상 컨텐츠 중 적어도 일부가 저장된 저장부; 및
상기 동영상 컨텐츠 중 적어도 일부를 이루는 각 장면들 중 하나가 선택되면, 상기 동영상 컨텐츠에 포함된 복수의 장면 중 상기 선택된 장면과 연관된 속성을 가지는 연관 장면들을 식별하고,
상기 각 장면에 등장하는 캐릭터 각각의 출현 빈도 수를 검출하여 상기 각 장면의 캐릭터 속성으로 상기 저장부에 저장하고,
상기 캐릭터 각각의 출현 빈도 수가 기 설정된 임계치 이상인 캐릭터를 주연 캐릭터로 식별하고,
상기 식별된 연관 장면들 중에서 상기 주연 캐릭터를 포함하는 연관 장면들을 식별하고,
상기 주연 캐릭터를 포함하는 상기 연관 장면들을 시간 순서에 따라 조합하여 상기 동영상 컨텐츠의 요약 영상을 생성하는 프로세서;를 포함하며,
상기 각 장면들은, 상기 동영상 컨텐츠의 프레임들 중에서 연관성 있는 이미지 성분들을 연속적으로 표현하는 프레임들을 포함하는, 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 각 장면의 캐릭터 속성, 상기 각 장면의 배경 속성, 상기 각 장면에서 벌어지는 이벤트 속성 중 적어도 하나를 검출하여 상기 저장부에 저장하고, 상기 선택된 장면의 속성과 상기 저장부에 저장된 각 장면의 속성을 비교하는, 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 각 장면의 캐릭터 속성, 상기 각 장면의 배경 속성, 상기 각 장면에서 벌어지는 이벤트 속성을 각각 검출하여 상기 저장부에 저장하고,
각 속성 별로 상기 선택된 장면의 속성들과 비교하여 상기 연관 장면인지 여부를 식별하는, 전자 장치.
제3항에 있어서,
상기 프로세서는,
상기 각 장면에 등장하는 상기 캐릭터 각각의 출현 빈도 수 및 상기 캐릭터의 얼굴 표정 타입 중 적어도 하나를 검출하여 상기 각 장면의 캐릭터 속성으로 상기 저장부에 저장하는, 전자 장치.
제3항에 있어서,
상기 프로세서는,
상기 각 장면에 포함된 이미지 성분들 중에서 배경 이미지를 분리하고, 각 배경 이미지들을 타입 별로 분류하여, 상기 분류 결과를 상기 각 장면의 배경 속성으로 상기 저장부에 저장하는, 전자 장치.
제3항에 있어서,
상기 프로세서는,
상기 각 장면에 등장하는 캐릭터의 자세 및 위치 중 적어도 하나에 따라 상기 각 장면에서 벌어지는 이벤트를 분류하여, 상기 분류 결과를 상기 각 장면의 이벤트 속성으로 상기 저장부에 저장하는, 전자 장치.
제3항에 있어서,
상기 프로세서는,
상기 동영상 컨텐츠의 타입에 따라 상기 캐릭터 속성, 상기 배경 속성, 상기 이벤트 속성에 대해 서로 다른 가중치를 적용하여, 각 속성 별 유사도를 산출하는, 전자 장치.
제3항에 있어서,
상기 프로세서는,
복수의 캐릭터가 등장하는 장면에 대해서는, 상기 복수의 캐릭터 각각의 얼굴 표정 및 상기 이벤트 속성 중 적어도 하나를 이용하여 상기 복수의 캐릭터 간의 관계를 분류하여, 상기 분류 결과를 상기 장면의 캐릭터 관계 속성으로 상기 저장부에 저장하는, 전자 장치.
제1항 내지 제8항 중 어느 한 항에 있어서,
상기 동영상 컨텐츠 중 적어도 일부를 디스플레이하기 위한 디스플레이;를 더 포함하며,
상기 프로세서는,
상기 동영상 컨텐츠 중 적어도 일부를 디스플레이하는 중에 사용자 선택이 입력되면, 입력 시점에 디스플레이되는 장면을 상기 선택된 영상으로 인식하는, 전자 장치.
◈청구항 10은(는) 설정등록료 납부시 포기되었습니다.◈

제1항에 있어서,
상기 프로세서는,
칼라 히스토그램 및 에지 히스토그램 중 적어도 하나에 기초하여 상기 연관성 있는 이미지 성분들을 연속적으로 표현하는 프레임들을 식별하는, 전자 장치.
전자 장치의 요약 영상 생성 방법에 있어서,
동영상 컨텐츠 중 적어도 일부를 이루는 프레임들을 각 장면 별로 분류하는 단계;
상기 각 장면 중 하나를 선택받는 단계;
상기 동영상 컨텐츠에 포함된 복수의 장면 중 상기 선택된 장면과 연관된 속성을 가지는 연관 장면들을 식별하는 단계;
상기 각 장면에 등장하는 캐릭터 각각의 출현 빈도 수를 검출하여 상기 각 장면의 캐릭터 속성으로 저장하는 단계;
상기 캐릭터 각각의 출현 빈도 수가 기 설정된 임계치 이상인 캐릭터를 주연 캐릭터로 식별하는 단계;
상기 식별된 연관 장면들 중에서 상기 주연 캐릭터를 포함하는 연관 장면들을 식별하는 단계; 및
상기 주연 캐릭터를 포함하는 상기 연관 장면들을 시간 순서에 따라 조합하여 상기 동영상 컨텐츠의 요약 영상을 생성하는 생성 단계;를 포함하며,
상기 각 장면들은, 상기 동영상 컨텐츠의 프레임들 중에서 연관성 있는 이미지 성분들을 연속적으로 표현하는 프레임들을 포함하는, 요약 영상 생성 방법.
◈청구항 12은(는) 설정등록료 납부시 포기되었습니다.◈

제11항에 있어서,
상기 각 장면의 캐릭터 속성, 상기 각 장면의 배경 속성, 상기 각 장면에서 벌어지는 이벤트 속성 중 적어도 하나를 검출하여 저장하는 단계;를 더 포함하며,
상기 생성 단계는,
상기 선택된 장면의 속성을 검출하는 단계;
기 저장된 장면들의 속성들과 상기 선택된 장면의 속성을 비교하여 상기 연관 장면을 탐색하는 단계;를 더 포함하는, 요약 영상 생성 방법.
◈청구항 13은(는) 설정등록료 납부시 포기되었습니다.◈

제11항에 있어서,
상기 각 장면의 캐릭터 속성, 상기 각 장면의 배경 속성, 상기 각 장면에서 벌어지는 이벤트 속성 중 적어도 하나를 검출하여 저장하는 단계;를 더 포함하며,
상기 생성 단계는,
상기 선택된 장면의 속성을 검출하는 단계; 및
기 저장된 각 장면들의 속성 별로 상기 선택된 장면의 속성들과 비교하여 상기 연관 장면인지 여부를 식별하는 단계;를 더 포함하는, 요약 영상 생성 방법.
◈청구항 14은(는) 설정등록료 납부시 포기되었습니다.◈

제13항에 있어서,
상기 캐릭터 속성은,
상기 각 장면에 등장하는 상기 캐릭터 각각의 출현 빈도 수 및 상기 캐릭터의 얼굴 표정 타입 중 적어도 하나에 대한 정보인, 요약 영상 생성 방법.
◈청구항 15은(는) 설정등록료 납부시 포기되었습니다.◈

제13항에 있어서,
상기 배경 속성은,
상기 각 장면에 포함된 이미지 성분들 중에서 분리된 배경 이미지의 타입에 대한 정보인, 요약 영상 생성 방법.
◈청구항 16은(는) 설정등록료 납부시 포기되었습니다.◈

제13항에 있어서,
상기 이벤트 속성은,
상기 각 장면에 등장하는 캐릭터의 자세 및 위치 중 적어도 하나에 따라 상기 각 장면에서 벌어지는 이벤트의 종류에 대한 정보인, 요약 영상 생성 방법.
◈청구항 17은(는) 설정등록료 납부시 포기되었습니다.◈

제13항에 있어서,
상기 생성 단계는,
상기 동영상 컨텐츠의 타입에 따라 상기 캐릭터 속성, 상기 배경 속성, 상기 이벤트 속성에 대해 서로 다른 가중치를 적용하여, 각 속성 별 유사도를 산출하는, 요약 영상 생성 방법.
◈청구항 18은(는) 설정등록료 납부시 포기되었습니다.◈

제13항에 있어서,
복수의 캐릭터가 등장하는 장면에 대해서는, 상기 복수의 캐릭터 각각의 얼굴 표정 및 상기 이벤트 속성 중 적어도 하나를 이용하여 상기 복수의 캐릭터 간의 관계를 분류하여, 상기 분류 결과를 상기 장면의 캐릭터 관계 속성으로 저장하는 단계;를 더 포함하는, 요약 영상 생성 방법.
◈청구항 19은(는) 설정등록료 납부시 포기되었습니다.◈

제11항에 있어서,
칼라 히스토그램 및 에지 히스토그램 중 적어도 하나에 기초하여 상기 연관성 있는 이미지 성분들을 연속적으로 표현하는 프레임들을 식별하는 단계;를 더 포함하는, 요약 영상 생성 방법.