KR101833943B1

KR101833943B1 - 동영상의 주요 장면을 추출 및 탐색하는 방법 및 시스템

Info

Publication number: KR101833943B1
Application number: KR1020160108637A
Authority: KR
Inventors: 김상욱; 민재식; 조성철; 박대현; 김봉섭
Original assignee: 네이버 주식회사
Priority date: 2016-08-25
Filing date: 2016-08-25
Publication date: 2018-04-13

Abstract

동영상의 주요 장면을 추출 및 탐색하는 방법 및 시스템이 개시된다. 컴퓨터로 구현되는 방법은, 동영상에서 후보 프레임을 선택하는 단계; 상기 후보 프레임 각각에 대하여 해당 영상의 특징 정보를 나타내는 후보 값을 계산하는 단계; 및 상기 후보 값을 기준으로 상기 후보 프레임 중 일부 프레임을 상기 동영상의 대표 이미지로 추출하는 단계를 포함할 수 있다.

Description

동영상의 주요 장면을 추출 및 탐색하는 방법 및 시스템{METHOD AND SYSTEM FOR EXTRACTING AND SEARCHING HIGHLIGHT IMAGE}

아래의 설명은 동영상의 주요 장면을 제공하는 기술에 관한 것이다.

초고속 통신망 이용자의 급격한 증가는 통신망을 통한 신규 서비스의 개발 및 서비스 아이템의 다양화를 가능하게 한다. 이러한 통신망을 이용한 서비스 중 가장 일반적인 서비스가 동영상 제공 서비스라 할 수 있다.

동영상을 구성하는 영상 프레임 일부를 추출하여 해당 동영상의 요약 정보로서 활용하고 있다. 영상 프레임을 추출하는 예로서는, 동영상의 첫 번째 영상 프레임 혹은 마지막 영상 프레임을 사용하는 방법 등이 있으며, 동영상의 시간의 흐름에 따른 변화를 나타내기 위하여 하나의 영상 프레임이 아니라 복수 개의 영상 프레임을 이용하기도 한다.

일례로, 한국등록특허 제10-0547370호(등록일 2006년 01월 20일) "객체 형상 정보를 이용한 요약 영상 추출 장치 및 그 방법과 그를 이용한 동영상 요약 및 색인 시스템"에는 동영상에서 영상 객체의 일련의 변화하는 형상 및 위치를 추출하여 이를 대표 프레임으로 활용하는 기술이 개시되어 있다.

동영상의 콘텍스트(context)를 기반으로 주요 장면을 추출할 수 있는 방법 및 시스템을 제공한다.

동영상의 콘텍스트 기반의 주요 장면을 장면 탐색 기능으로 제공하여 동영상의 전체적인 내용과 흐름을 쉽게 파악할 수 있도록 하는 방법 및 시스템을 제공한다.

컴퓨터로 구현되는 방법에 있어서, 동영상에서 후보 프레임을 선택하는 단계; 상기 후보 프레임 각각에 대하여 해당 영상의 특징 정보를 나타내는 후보 값을 계산하는 단계; 및 상기 후보 값을 기준으로 상기 후보 프레임 중 일부 프레임을 상기 동영상의 대표 이미지로 추출하는 단계를 포함하는 방법을 제공한다.

일 측면에 따르면, 상기 계산하는 단계는, 상기 후보 프레임 각각에 대하여 인접한 프레임과의 시간 간격을 나타내는 값을 이용하여 상기 후보 값을 계산할 수 있다.

다른 측면에 따르면, 상기 시간 간격을 나타내는 값은 프레임 간 시간 간격이 길수록 큰 값이 부여되고, 상기 추출하는 단계는, 상기 후보 값을 기준으로 상위 일정 개수의 후보 프레임 또는 상기 후보 값이 일정 값 이상인 후보 프레임을 상기 대표 이미지로 추출할 수 있다.

또 다른 측면에 따르면, 상기 계산하는 단계는, 상기 후보 프레임 각각에 대하여 이미지 품질을 나타내는 값과 영상에 포함된 자막의 특징 정보를 나타내는 값 중 적어도 하나를 더 이용하여 상기 후보 값을 계산할 수 있다.

또 다른 측면에 따르면, 상기 계산하는 단계는, 상기 후보 프레임 각각에 대하여 문자열이 존재하는 자막 영역을 검출한 후 상기 자막 영역에 대한 특징 값을 이용하여 상기 후보 값을 계산할 수 있다.

또 다른 측면에 따르면, 상기 자막 영역을 검출하는 것은, 상기 후보 프레임에 대해 ML-LBP(Multi Block Local Binary Pattern)을 이용하여 상기 자막 영역을 검출할 수 있다.

또 다른 측면에 따르면, 상기 자막 영역을 검출하는 것은, 상기 후보 프레임에 대해 ML-LBP(Multi Block Local Binary Pattern)을 이용하여 서로 다른 값을 가지는 LBP의 개수와 픽셀 값이 임계치 이상인 픽셀의 개수에 따른 LBP 특징점 가중치를 기준으로 상기 자막 영역을 검출할 수 있다.

또 다른 측면에 따르면, 상기 선택하는 단계는, 상기 동영상에서 키 프레임(key frame) 또는 일정 시간 간격의 프레임을 추출하는 단계; 상기 추출된 프레임 각각에 대하여 프레임 간의 장면 변화 값을 계산하는 단계; 및 상기 장면 변화 값을 기준으로 상기 추출된 프레임 중 적어도 일부 프레임을 상기 후보 프레임으로 선택하는 단계를 포함할 수 있다.

또 다른 측면에 따르면, 상기 대표 이미지를 이용하여 상기 동영상의 장면 탐색 기능을 제공하는 단계를 더 포함할 수 있다.

또 다른 측면에 따르면, 상기 장면 탐색 기능을 제공하는 단계는, 상기 대표 이미지를 상기 구간 이동을 위한 썸네일(thumbnail)로 구성할 수 있다.

주요 장면 제공 방법을 실행시키기 위해 컴퓨터로 읽을 수 있는 매체에 저장된 컴퓨터 프로그램에 있어서, 상기 주요 장면 제공 방법은, 동영상에서 후보 프레임을 선택하는 단계; 상기 후보 프레임 각각에 대하여 해당 영상의 특징 정보를 나타내는 후보 값을 계산하는 단계; 상기 후보 값을 기준으로 상기 후보 프레임 중 일부 프레임을 상기 동영상의 대표 이미지로 추출하는 단계; 및 상기 대표 이미지를 이용하여 상기 동영상의 장면 탐색 기능을 제공하는 단계를 포함하는, 컴퓨터로 읽을 수 있는 매체에 저장된 컴퓨터 프로그램을 제공한다.

컴퓨터로 구현되는 시스템에 있어서, 동영상에서 후보 프레임을 선택하는 후보 선택부; 및 상기 후보 프레임 각각에 대하여 해당 영상의 특징 정보를 나타내는 후보 값을 계산한 후 상기 후보 값을 기준으로 상기 후보 프레임 중 일부 프레임을 상기 동영상의 대표 이미지로 추출하는 대표 추출부를 포함하는 것을 특징으로 하는 시스템을 제공한다.

본 발명의 실시예들에 따르면, 동영상의 콘텍스트(context)를 기반으로 실질적인 주요 장면을 추출할 수 있다.

본 발명의 실시예들에 따르면, 동영상의 콘텍스트 기반의 주요 장면을 장면 탐색 기능으로 제공함으로써 동영상의 전체적인 내용과 흐름을 쉽게 파악할 수 있다.

도 1은 본 발명의 일 실시예에 있어서 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 컴퓨터 시스템의 프로세서가 포함할 수 있는 구성요소의 예를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 컴퓨터 시스템이 수행할 수 있는 주요 장면 제공 방법의 예를 도시한 순서도이다.
도 4는 본 발명의 일 실시예에 있어서 영상에서 주요 영역을 설정하는 과정을 설명하기 위한 예시 도면이다.
도 5 내지 도 9는 본 발명의 일 실시예에 있어서 이미지 품질 측정 항목을 설명하기 위한 예시 도면이다.
도 10은 본 발명의 일 실시예에 있어서 자막 특징 값을 산출하는 일련의 과정을 도시한 순서도이다.
도 11 내지 도 14는 본 발명의 일 실시예에 있어서 영상에서 자막 영역을 검출하는 과정을 설명하기 위한 예시 도면이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

본 발명의 실시예들은 동영상의 주요 장면을 제공하는 기술에 관한 것으로, 더욱 상세하게는 동영상의 콘텍스트에 기반하여 주요 장면을 추출할 수 있고 추출된 주요 장면을 장면 탐색 기능으로 제공할 수 있는 방법 및 시스템에 관한 것이다.

본 명세서에서 구체적으로 개시되는 것들을 포함하는 실시예들은 콘텍스트 기반 주요 장면 추출을 달성하고 이를 통해 효율성, 편의성, 다양성, 정확성, 비용 절감 등의 측면에 있어서 상당한 장점들을 달성한다.

본 발명은 동영상의 콘텍스트를 인지하는 여러 가지 알고리즘을 사용하여 동영상에서 주요 장면을 추출하고 이를 장면 탐색 기능으로 제공하고자 하는 것이다.

동영상 플레이어의 기능 중 하나인 장면 탐색 기능은 동영상의 주요 장면을 쉽고 빠르게 이동할 수 있는 기능을 제공한다. 이러한 장면 탐색 기능을 이용함으로써 사용자는 장면 변화(scene change)가 발생하는 주요 장면을 위주로 동영상의 장면 탐색이 가능하며 이를 통해 동영상의 전체적인 내용을 쉽게 파악할 수 있다.

기존에는 장면 탐색 기능을 위해 시분할 기준 장면 추출 알고리즘을 이용하였으나, 시분할 기준 장면 추출 알고리즘은 일정 간격으로 기계적인 장면 추출 방식이기 때문에 동영상의 콘텍스트에 따른 중요한 장면으로의 이동이 불가능하다.

이와 달리, 동영상의 콘텍스트를 기반으로 하는 장면 탐색 기능의 경우 영상의 특징 정보에 의한 가중치에 따라 주요 장면을 추출하여 장면 탐색 기능으로 제공하기 때문에 동영상의 전체 흐름을 반영할 수 있다.

도 1은 본 발명의 일 실시예에 있어서 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다. 예를 들어, 본 발명의 실시예들에 따른 주요 장면 제공 시스템이 도 1의 컴퓨터 시스템(100)을 통해 구현될 수 있다. 도 1에 도시한 바와 같이, 컴퓨터 시스템(100)은 주요 장면 제공 방법을 실행하기 위한 구성요소로서 프로세서(110), 메모리(120), 영구 저장 장치(130), 버스(140), 입출력 인터페이스(150) 및 네트워크 인터페이스(160)를 포함할 수 있다.

프로세서(110)는 명령어들의 시퀀스를 처리할 수 있는 임의의 장치를 포함하거나 그의 일부일 수 있다. 프로세서(110)는 예를 들어 컴퓨터 프로세서, 이동 장치 또는 다른 전자 장치 내의 프로세서 및/또는 디지털 프로세서를 포함할 수 있다. 프로세서(110)는 예를 들어, 서버 컴퓨팅 디바이스, 서버 컴퓨터, 일련의 서버 컴퓨터들, 서버 팜, 클라우드 컴퓨터, 컨텐츠 플랫폼, 이동 컴퓨팅 장치, 스마트폰, 태블릿, 셋톱 박스, 미디어 플레이어 등에 포함될 수 있다. 프로세서(110)는 버스(140)를 통해 메모리(120)에 접속될 수 있다.

메모리(120)는 컴퓨터 시스템(100)에 의해 사용되거나 그에 의해 출력되는 정보를 저장하기 위한 휘발성 메모리, 영구, 가상 또는 기타 메모리를 포함할 수 있다. 메모리(120)는 예를 들어 랜덤 액세스 메모리(RAM: random access memory) 및/또는 동적 RAM(DRAM: dynamic RAM)을 포함할 수 있다. 메모리(120)는 컴퓨터 시스템(100)의 상태 정보와 같은 임의의 정보를 저장하는 데 사용될 수 있다. 메모리(120)는 예를 들어 주요 장면 제공을 위한 명령어들을 포함하는 컴퓨터 시스템(100)의 명령어들을 저장하는 데에도 사용될 수 있다. 컴퓨터 시스템(100)은 필요에 따라 또는 적절한 경우에 하나 이상의 프로세서(110)를 포함할 수 있다.

버스(140)는 컴퓨터 시스템(100)의 다양한 컴포넌트들 사이의 상호작용을 가능하게 하는 통신 기반 구조를 포함할 수 있다. 버스(140)는 예를 들어 컴퓨터 시스템(100)의 컴포넌트들 사이에, 예를 들어 프로세서(110)와 메모리(120) 사이에 데이터를 운반할 수 있다. 버스(140)는 컴퓨터 시스템(100)의 컴포넌트들 간의 무선 및/또는 유선 통신 매체를 포함할 수 있으며, 병렬, 직렬 또는 다른 토폴로지 배열들을 포함할 수 있다.

영구 저장 장치(130)는 (예를 들어, 메모리(120)에 비해) 소정의 연장된 기간 동안 데이터를 저장하기 위해 컴퓨터 시스템(100)에 의해 사용되는 바와 같은 메모리 또는 다른 영구 저장 장치와 같은 컴포넌트들을 포함할 수 있다. 영구 저장 장치(130)는 컴퓨터 시스템(100) 내의 프로세서(110)에 의해 사용되는 바와 같은 비휘발성 메인 메모리를 포함할 수 있다. 영구 저장 장치(130)는 예를 들어 플래시 메모리, 하드 디스크, 광 디스크 또는 다른 컴퓨터 판독 가능 매체를 포함할 수 있다.

입출력 인터페이스(150)는 키보드, 마우스, 음성 명령 입력, 디스플레이 또는 다른 입력 또는 출력 장치에 대한 인터페이스들을 포함할 수 있다. 구성 명령들 및/또는 동영상 제공을 위한 입력이 입출력 인터페이스(150)를 통해 수신될 수 있다.

네트워크 인터페이스(160)는 근거리 네트워크 또는 인터넷과 같은 네트워크들에 대한 하나 이상의 인터페이스를 포함할 수 있다. 네트워크 인터페이스(160)는 유선 또는 무선 접속들에 대한 인터페이스들을 포함할 수 있다. 구성 명령들 및/또는 동영상과 관련된 서비스나 컨텐츠는 네트워크 인터페이스(160)를 통해 수신될 수 있다.

또한, 다른 실시예들에서 컴퓨터 시스템(100)은 도 1의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 시스템(100)은 상술한 입출력 인터페이스(150)와 연결되는 입출력 장치들 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), GPS(Global Positioning System) 모듈, 카메라, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다. 보다 구체적인 예로, 컴퓨터 시스템(100)이 스마트폰과 같은 모바일 기기의 형태로 구현되는 경우, 일반적으로 스마트폰이 포함하고 있는 가속도 센서나 자이로 센서, 카메라, 각종 물리적인 버튼, 터치패널을 이용한 버튼, 입출력 포트, 진동을 위한 진동기 등의 다양한 구성요소들이 컴퓨터 시스템(100)에 더 포함되도록 구현될 수 있다.

도 2는 본 발명의 일 실시예에 따른 컴퓨터 시스템의 프로세서가 포함할 수 있는 구성요소의 예를 도시한 도면이고, 도 3은 본 발명의 일 실시예에 따른 컴퓨터 시스템이 수행할 수 있는 주요 장면 제공 방법의 예를 도시한 순서도이다.

도 2에 도시된 바와 같이, 프로세서(110)는 후보 선택부(210), 대표 추출부(220), 및 장면 탐색부(230)를 포함할 수 있다. 이러한 프로세서(110)의 구성요소들은 적어도 하나의 프로그램 코드에 의해 제공되는 제어 명령에 따라 프로세서(110)에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 예를 들어, 프로세서(110)가 동영상에서 후보 프레임을 선택하도록 컴퓨터 시스템(100)을 제어하기 위해 동작하는 기능적 표현으로서 후보 선택부(210)가 사용될 수 있다. 프로세서(110) 및 프로세서(110)의 구성요소들은 도 3의 주요 장면 제공 방법이 포함하는 단계들(S310 내지 S340)을 수행할 수 있다. 예를 들어, 프로세서(110) 및 프로세서(110)의 구성요소들은 메모리(120)가 포함하는 운영체제의 코드와 상술한 적어도 하나의 프로그램 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. 여기서 적어도 하나의 프로그램 코드는 상기 주요 장면 제공 방법을 처리하기 위해 구현된 프로그램의 코드에 대응될 수 있다.

주요 장면 제공 방법은 도시된 순서대로 발생하지 않을 수 있으며, 단계들 중 일부가 생략되거나 추가의 과정이 더 포함될 수 있다.

단계(S310)에서 프로세서(110)는 주요 장면 제공 방법을 위한 프로그램 파일에 저장된 프로그램 코드를 메모리(120)에 로딩할 수 있다. 예를 들어, 주요 장면 제공 방법을 위한 프로그램 파일은 도 1을 통해 설명한 영구 저장 장치(130)에 저장되어 있을 수 있고, 프로세서(110)는 버스를 통해 영구 저장 장치(130)에 저장된 프로그램 파일로부터 프로그램 코드가 메모리(120)에 로딩되도록 컴퓨터 시스템(110)을 제어할 수 있다.

이때, 프로세서(110) 및 프로세서(110)가 포함하는 후보 선택부(210), 대표 추출부(220), 및 장면 탐색부(230) 각각은 메모리(120)에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들(S320 내지 S340)을 실행하기 위한 프로세서(110)의 서로 다른 기능적 표현들일 수 있다. 단계들(S320 내지 S340)의 실행을 위해, 프로세서(110) 및 프로세서(110)의 구성요소들은 직접 제어 명령에 따른 연산을 처리하거나 또는 컴퓨터 시스템(100)을 제어할 수 있다.

단계(S320)에서 후보 선택부(210)는 주요 장면 추출을 위한 동영상을 대상으로 해당 동영상의 프레임 중에서 후보 프레임을 선택하도록 컴퓨터 시스템(100)을 제어할 수 있다. 일례로, 후보 선택부(210)는 동영상의 키 프레임(key frame)을 후보 프레임으로 선택하거나, 혹은 일정 시간(예컨대, 1초) 간격으로 추출된 프레임을 후보 프레임으로 선택할 수 있다. 키 프레임을 후보 프레임으로 사용하는 경우 프레임 간 시간 간격이 일정 시간(예컨대, 1초) 이하인 경우 후보 프레임 선정 대상에서 제외시킬 수 있다. 후보 선택부(210)는 동영상에서 키 프레임 또는 일정 간격의 프레임을 추출하고 추출된 프레임 간에 밝기 변화와 컬러 히스토그램(color histogram) 변화 등의 장면 변화 값을 계산한 후 장면 변화 값을 기준으로 상기 추출된 프레임 중에서 적어도 일부의 프레임을 후보 프레임으로 선택할 수 있다. 예를 들어, 후보 선택부(210)는 프레임 간 밝기 변화량과 컬러 히스토그램 변화량을 일정 비율(예컨대, 1:2)로 조합하여 조합된 결과 값이 일정 크기 이상의 값을 가지는 경우 해당 프레임을 선택하여 후보 프레임으로 사용할 수 있다.

단계(S330)에서 대표 추출부(220)는 동영상에서 선택된 후보 프레임 각각에 대하여 해당 영상의 특징 정보를 나타내는 후보 값을 계산한 후 후보 값을 기준으로 후보 프레임 중 일부 프레임을 대표 이미지로 추출할 수 있다. 일례로, 동영상에서 선택된 후보 프레임들은 각각 독립적인 후보 값을 가지며, 후보 값을 기준으로 정렬하여 후보 값이 큰 순서대로 일정 개수의 프레임이 대표 이미지로 추출될 수 있다. 다른 예로, 후보 프레임 중에서 후보 값이 일정 크기 이상의 값을 가지는 경우 해당 프레임을 대표 이미지로 추출하는 것 또한 가능하다. 대표 추출부(220)는 동영상의 콘텍스트를 기반으로 영상의 특징 정보를 포함하고 있는 후보 값을 계산하기 위한 일례로, 후보 프레임 간의 시간 간격 기반 값, 이미지 품질 측정 값, 자막 특징 값 중 적어도 하나의 값의 조합으로 후보 값을 계산할 수 있다. 여기서, 시간 간격 기반 값은 후보 프레임 간의 시간 간격을 나타내는 값이고, 이미지 품질 측정 값은 후보 프레임의 영상 품질을 측정한 값을 의미하고, 자막 특징 값은 후보 프레임의 영상에 포함된 자막의 특징 정보를 나타내는 값을 의미할 수 있다. 후보 값을 계산하는데 이용될 수 있는 인자, 즉 후보 프레임 간의 시간 간격 기반 값, 이미지 품질 측정 값, 자막 특징 값에 대해서는 이하에서 다시 설명하기로 한다.

단계(S340)에서 장면 탐색부(230)는 동영상에서 추출된 대표 이미지를 이용하여 해당 동영상의 장면 탐색 기능을 제공할 수 있다. 장면 탐색부(230)는 동영상의 콘텍스트를 기반으로 추출된 대표 이미지를 해당 동영상의 주요 장면으로 선출하여 장면 탐색 기능으로 제공할 수 있다. 장면 탐색 기능은 동영상의 장면 탐색과 함께 재생 구간을 이동하는 기능을 포함하는 것으로, 콘텍스트 기반의 대표 이미지를 동영상의 주요 장면으로 구성하고 구간 이동을 위한 썸네일(thumbnail)로 활용할 수 있다.

이하에서는 후보 프레임의 후보 값을 계산하는데 이용되는 각 인자에 대해 구체적으로 설명하기로 한다.

(1) 후보 프레임 간의 시간 간격 기반 값

후보 프레임 간의 시간 간격 기반 값은 인접한 후보 프레임, 예컨대 이전 후보 프레임과의 시간 간격을 나타내는 값으로, 후보 프레임 간의 시간 간격이 길수록 상대적으로 큰 값이 부여되고 반대로 후보 프레임 간의 시간 간격이 짧을수록 상대적으로 작은 값이 부여된다. 후보 프레임 간 시간 간격이 짧은 경우에는 동일한 장면 내의 프레임이나 영상 정보가 유사한 프레임이 대표 이미지로 선택될 가능성이 크므로 이를 배제하기 위해 대표 추출부(220)는 후보 프레임 간 시간 간격이 길수록 큰 값이 부여되는 시간 간격 기반 값을 이용하여 후보 값을 계산할 수 있다.

(2) 이미지 품질 측정 값

대표 추출부(220)는 노출 값(Exposure), 선명도(Sharpness), 생생도(Vividity), 저심도(Low DOF(depth of field)), 대비 값(Contrast), 프로미넌스(Prominence) 중 적어도 하나의 값의 조합으로 이미지 품질 측정 값을 계산할 수 있다.

이미지 품질 측정 항목 중 노출 값은 영상 내 주요 영역의 밝기 평균 값을 나타내는 것으로, 지나치게 어둡거나 밝은 경우 감점이 된다. 선명도는 영상 내 주요 영역이 선명하게 보이는 정도를 나타내는 것이고, 생생도는 선명도와 유사하나 원색 값과 비율이 높을수록 고득점이 부여된다. 저심도는 영상의 심도(depth of field)를 나타내는 것으로, 심도가 얕은 영상이나 단순 배경 영상에 고득점이 부여된다. 대비 값은 영상의 대비를 나타내는 것으로, 피사체 내의 대비가 강할수록 고득점이 부여된다. 마지막으로, 프로미넌스는 영상의 배경과 피사체의 대비를 나타내는 것으로, 피사체와 배경의 명암이나 색상 등이 뚜렷이 구분될수록 고득점이 부여된다.

(2-1) 이미지 주요 영역 설정

먼저, 이미지 품질 측정 값을 계산하기 위해 후보 프레임의 영상 내에서 주요 영역을 설정할 필요가 있다. 대표 추출부(220)는 영상에서 눈에 띄는 영역을 인간과 유사한 시각적 방식으로 찾아주는 시각돌출 지도(saliency map) 모델을 이용함으로써 영상에서 주요 영역(salient area)을 찾을 수 있다. 다시 말해, 주요 영역은 영상 내에서 시각돌출(saliency)이 강한 부분을 의미하며, 주요 피사체나 자막 등이 포함될 가능성이 높다. 일례로, 대표 추출부(220)는 영상의 시각돌출 지도의 분포를 가우시안(Gaussian) 모델링 함으로써 도 4에 도시한 바와 같이 영상(400)에서 주요 피사체나 자막 등이 포함된 주요 영역(401)을 설정할 수 있다. 주요 영역(401)이 작으면 피사체에 대한 집중도가 높은 이미지일 가능성이 높다. 이미지 품질 측정 항목은 경우에 따라 영상(400)의 전체 영역보다는 일부 영역인 주요 영역(401)에서 구하는 것이 의미 있는 값을 획득할 수 있다.

(2-2) 노출 값(Exposure)

이미지 품질 측정 항목 중 하나인 노출 값은 영상의 노출이 적당한지 여부를 판별할 수 있는 항목이다. 일례로, 대표 추출부(220)는 도 5에 도시한 바와 같이 영상(500) 내 주요 영역(501)에 대해 밝기 값의 산술 평균(Ma)과 기하 평균(Mg), 그리고 콘트라스트와 경계선 강도(edge strength)를 계산할 수 있다. 이때, 밝기 값의 산술 평균(Ma)은 기본 값(base score)으로 설정할 수 있다. 노출 과부족의 경우 픽셀 간 밝기 차이가 크지 않기 때문에 주요 영역의 노출 값을 계산함에 있어 밝기 값의 기하 평균(Mg)을 고려하는 것 또한 가능하다. 아울러, 노출 과부족의 경우 색 대비, 명암 대비 등이 낮기 때문에 주요 영역의 노출 값을 계산할 때 콘트라스트를 고려하고, 마찬가지로 노출 과부족 시 경계선이 약한 특성이 나타나기 때문에 주요 영역의 노출 값을 계산할 때 경계선 강도를 고려할 필요가 있다.

일례로, 노출 값은 수학식 1을 통해 계산될 수 있다.

[수학식 1]

노출 값=base×scale_factor_1×scale_factor_2×scale_factor_3

여기서, base는 밝기 값의 산술 평균(Ma)의 이차 함수를 의미하고, scale_factor_1은 밝기 값의 기하 평균(Mg)이 산술 평균(Ma)과 대비하여 낮을수록 큰 값이 부여되는 가중치를 의미하고, scale_factor_2는 콘트라스트가 높을수록 큰 값이 부여되는 가중치를 의미하고, scale_factor_3은 경계선 강도가 높을수록 큰 값이 부여되는 가중치를 의미한다.

(2-3) 선명도(Sharpness)

이미지 품질 측정 항목 중 다른 하나인 선명도는 블러링(blurring) 없이 선명한 영상인지 여부를 판별할 수 있는 항목이다. 일례로, 대표 추출부(220)는 영상 전체 혹은 주요 영역에 대해 픽셀 각각의 선명도를 계산한 후 각 픽셀 선명도의 절대값들 중 상위 일정 범주(예컨대, 1%)의 평균을 계산함으로써 해당 영상의 선명도를 구할 수 있다. 픽셀 선명도는 pixel sharpness=|I-J|와 같이 정의될 수 있으며, 이때 I는 원본 이미지, J는 원본 이미지 I를 블러링한 이미지를 의미한다. 영상 전체 혹은 주요 영역의 선명도는 픽셀 선명도 중 상위 일부의 평균 값을 사용할 수 있다.

(2-4) 생생도(Vividity)

이미지 품질 측정 항목 중 또 다른 하나인 생생도는 원색의 정도와 비율이 높은 정도를 나타내는 항목이다. 생생도는 도 6에 도시한 바와 같이 HSV(hue saturation value)(색상 성분 H, 채도 성분 S, 명도 성분 V) 컬러 공간(610)으로 변환하여 채도 성분 S와 명도 성분 V의 곱으로 표현되며, 이때 픽셀 상위 일부(예컨대, 50%)의 평균을 사용할 수 있다. HSV 컬러 공간(610)에서 채도 성분 S를 분리해 낼 수 있으며, 일례로 대표 추출부(220)는 영상 전체 혹은 주요 영역에 대해 픽셀 각각의 채도 성분 S을 계산한 후 이 중 상위 일부의 평균 값을 계산하여 이를 해당 영상의 생생도로 사용할 수 있다.

(2-5) 저심도(Low DOF(depth of field))

이미지 품질 측정 항목 중 또 다른 하나인 저심도는 심도(DOF)가 얕은 영상 등 배경이 단순한 정도를 나타내는 항목이다. 일례로, 대표 추출부(220)는 영상에서 주요 영역을 설정한 후 해당 주요 영역의 상대적 크기를 수치화 하여 이를 저심도로 사용할 수 있다. 다시 말해, 대표 추출부(220)는 도 7에 도시한 바와 같이 전체 프레임(700)의 크기에 대한 주요 영역(701)의 상대적 크기를 수치화 함으로써 저심도를 계산할 수 있다. 저심도는 수학식 2와 같이 정의될 수 있다.

[수학식 2]

저심도=1-(주요 영역의 크기)/(영상의 전체 크기)}

(2-6) 대비 값(Contrast)

이미지 품질 측정 항목 중 또 다른 하나인 대비 값은 영상 전체의 색 대비와 명암 대비의 정도를 나타내는 항목이다. 일례로, 대표 추출부(220)는 도 8에 도시한 바와 같이 CIE LAB 컬러 공간(810)에서 공분산 행렬(covariance matrix)을 구하고 해당 행렬에서 고유 값(eigen value)인 모든 대각 성분의 합(trace)으로 크기를 계산할 수 있으며, 이를 대비 값으로 사용할 수 있다. 색상 간의 유클리디안 거리(Euclidean Distance)가 RGB 공간보다 실제 색상 차이를 잘 반영할 수 있으며, 대비 값이 강할수록 픽셀 클라우드(pixel cloud)가 차지하는 볼륨이 큰 경향이 있다. 다시 말해, 대비 값을 나타내는 볼륨은 픽셀 클라우드에 대해 가우시안 모델링을 수행한 후, 즉 공분산 행렬을 구한 후 해당 행렬에서 고유 값의 합으로 산출될 수 있다.

(2-7) 프로미넌스(Prominence)

이미지 품질 측정 항목 중 또 다른 하나인 프로미넌스는 색상, 명암 등 피사체와 배경이 뚜렷이 구분되는 정도를 나타내는 항목이다. 일례로, 대표 추출부(220)는 전체 프레임 내에서 주요 영역과 배경이 가지는 영상의 특성 차이를 이용하여 프로미넌스를 계산할 수 있다. 대표 추출부(220)는 도 9에 도시한 바와 같이 영상(900)을 피사체가 포함되는 주요 영역(901)과 배경 영역(903)으로 구분하고 주요 영역(901)과 배경 영역(903) 각각에 대해 CIE LAB 컬러 공간 상의 평균 픽셀 값 차이, 그리고 콘트라스트와 경계선 강도를 계산할 수 있다. 이때, 평균 픽셀 값 차이는 기본 값으로 설정할 수 있다. 일례로, 프로미넌스는 수학식 3을 통해 계산될 수 있다.

[수학식 3]

프로미넌스=base×max(scale_factor_1, scale_factor_2)

여기서, base는 주요 영역(901)과 배경 영역(903)의 평균 픽셀 값 차이를 의미하고, scale_factor_1은 주요 영역(901)과 배경 영역(903) 간의 콘트라스트의 비가 높을수록 큰 값이 부여되는 가중치를 의미하고, scale_factor_2는 주요 영역(901)과 배경 영역(903) 간의 경계선 강도의 비가 높을수록 큰 값이 부여되는 가중치를 의미한다.

따라서, 대표 추출부(220)는 노출 값, 선명도, 생생도, 저심도, 대비 값, 프로미넌스 중 적어도 하나의 값의 조합으로 후보 이미지의 이미지 품질 측정 값을 계산할 수 있다.

(3) 자막 특징 값

영상 내에 존재하는 자막은 정보를 전달하고 프레임 영상 내에서 시선을 끄는 요소로 작용하므로 후보 프레임 중 대표 이미지를 추출하는데 자막 특징 값을 활용할 수 있다. 일례로, 대표 추출부(220)는 프레임 영상에서 자막 영역을 도출하여 해당 영역 내 특징 값을 산출하는 것으로, 자막 영역의 특징을 나타내는 정보인 자막이 가지는 크기 값, 위치 값, 모션 값, 색상 정보, 주파수 정보 중 적어도 하나의 값의 조합으로 자막 특징 값을 계산할 수 있다.

대표 추출부(220)는 프레임 영상의 전체 영역에서 문자열이 존재하는 자막 영역을 검출할 수 있다. 영상에서 자막 영역을 검출하는 것은 영상의 각 화소(pixel)를 자막 영역(text region) 또는 비자막 영역(non-text region)으로 분류하는 작업이다. 이를 위해, 대표 추출부(220)는 자막 영역의 특성을 나타낼 수 있는 다양한 특징(feature)을 사용하여 분류기를 학습하는 기계학습(machine learning) 방법을 사용하거나, 자막 영역을 비자막 영역과 구분할 수 있는 규칙들을 정의해 놓은 전문가 시스템을 사용할 수 있다. 일례로, 자막 영역은 비자막 영역에 비해 화소 강도(intensity) 변화가 급격하며 외곽선의 분포가 조밀하고 규칙적이므로 분류하려는 화소 주변의 지역적 영상에서 나타나는 화소 강도들의 평균 차이 값(mean difference feature), 표준편자(standard deviation), 혹은 방향 별 외곽선의 히스토그램(Histogram of oriented gradients) 등의 특징을 이용하여 자막 영역과 비자막 영역을 분류할 수 있다. 화소 별 자막/비자막 분류 이후에는 자막으로 분류된 화소들 중 인접한 화소들을 하나로 묶어 문자열에 해당되는 최종 자막 영역을 얻을 수 있다. 이후, 대표 추출부(220)는 프레임 영상에서 자막 영역이 최종으로 검출되면 검출된 자막 영역에 대하여 해당 영역의 크기 값, 위치 값, 모션 값, 색상 정보, 주파수 정보 등을 산출하여 이들 값의 조합으로 자막 특징 값을 구할 수 있다.

도 10은 프레임 영상에서 자막 영역을 도출하여 자막 특징 값을 산출하는 일련의 과정을 도시한 순서도이다. 도 10의 자막 특징 값 산출 과정은 도 3을 통해 설명한 주요 장면 제공 방법의 단계(S330)에 포함될 수 있다.

단계(S1001)에서 대표 추출부(220)는 후보 프레임을 입력 받도록 컴퓨터 시스템(100)을 제어할 수 있다.

단계(S1002)에서 대표 추출부(220)는 후보 프레임에 해당되는 컬러 영상을 밝기 영상(예컨대, 그레이 영상)으로 변환할 수 있다. 일례로, 대표 추출부(220)는 컬러 영상에 대하여 광원 보정 알고리즘을 적용하여 컬러 영상의 광원을 보정한 후, 보정된 컬러 영상을 그레이 영상으로 변환할 수 있다.

단계(S1003)에서 대표 추출부(220)는 밝기 영상에 대해 색상 변화 기반의 이진화를 수행할 수 있다. 즉, 대표 추출부(220)는 밝기 영상에서 색상 변화 픽셀을 검출함으로써 색상 변화 기반 이진 영상을 생성할 수 있다.

단계(S1004)에서 대표 추출부(220)는 밝기 영상에 대해 경계선 검출 기반의 이진화를 수행할 수 있다. 예를 들어, 대표 추출부(220)는 캐니(Canny) 알고리즘 등을 사용하여 밝기 영상 내에서 경계선(edge)을 검출함으로써 경계선 검출 기반 이진 영상을 생성할 수 있다.

단계(S1005)에서 대표 추출부(220)는 색상 변화 기반 이진 영상과 경계선 검출 기반 이진 영상을 합성(combination)함으로써 두 이진 영상에 대한 합성 영상을 획득할 수 있다.

단계(S1006)에서 대표 추출부(220)는 합성 영상에서 자막을 검출하기 위한 관심 영역(ROI: Region of Interest)인 후보 영역을 검출할 수 있다.

단계(S1008)에서 대표 추출부(220)는 ML-LBP(Multi Block Local Binary Pattern)을 기반으로 후보 영역에서 문자열이 실제 존재하는 자막 영역을 검출할 수 있다. 이때, 대표 추출부(220)는 입력 프레임에 대해 특징 추출 기법(예컨대, Wavelet transform 등)을 적용하여 ML-LBP 특징점을 구한 후 이를 자막 영역 검출에 활용할 수 있다(S1007).

영상 처리에 있어서 사용되는 웨이블릿 변환(Wavelet transform)은 단순히 부대역 분해를 하는 것으로 생각할 수 있다. 다시 말해, 저주파 대역(lowpass) 필터와 고주파 대역(highpass) 필터를 사용해서 이미지의 주파수 대역을 나누어 대역 별로 부호화하는 방법을 말한다. 이렇게 필터를 사용해서 영상의 대역을 나누는 과정을 웨이블릿 분해라고 한다. 영상의 경우 2차원 신호이므로 가로와 세로에 각각 저주파 대역 필터와 고주파 대역 필터를 사용해서 분해하게 된다. 그 결과, 서로 다른 4개의 대역이 생기게 되는데, 도 11과 같이 왼쪽 위의 영상은 가로와 세로 방향 모두 저주파 대역(LL band)이 되며, 왼쪽 아래의 영상은 가로 방향으로 저주파, 세로 방향으로 고주파 대역(LH band)이 되고, 오른쪽 위의 영상은 가로 방향으로 고주파, 세로 방향으로 저주파 대역(HL band)이 되며, 오른쪽 아래의 영상은 가로와 세로 방향 모두 고주파 대역(HH band)이 된다.

영상의 특성 상 가로 세로 저주파 대역(LL band)에 거의 모든 정보가 담겨 있으므로 해당 저주파 영역(LL band)을 또 하나의 새로운 영상으로 생각하여 해당 대역(LL band)을 다시 한번 웨이블릿 분해를 적용할 수 있다. 이와 같이, 웨이블릿 분해한 영상의 저주파 대역(LL band)만을 반복적으로 웨이블릿 분해하는 경우 도 12에 도시한 바와 같이 저주파 대역에서 서로 다른 4개의 대역이 생기게 된다.

대표 추출부(220)는 후보 영역 각각에 대해 LBP 특징점 가중치(weight)를 산출한 후 해당 가중치가 일정 크기 이상의 값을 가지는 영역을 자막 영역으로 판단할 수 있다. 예컨대, 도 13에 도시한 바와 같이 하나의 픽셀을 기준으로 주변 8개의 픽셀과 비교하여 픽셀 값이 기준 픽셀보다 큰 픽셀은 1, 기준 픽셀보다 작은 픽셀은 0을 할당하는 이진 형태로 표현하면 총 256가지 패턴을 가질 수 있다. 이에, 대표 추출부(220)는 웨이블릿 분해한 영상 중 LH 대역과 HL 대역의 전체 픽셀에 대해 LBP을 사용함으로써 LBP 특징점 가중치를 계산할 수 있으며, 일례로 LBP 특징점 가중치는 수학식 4와 같이 정의될 수 있다.

[수학식 4]

Weight=λ×{nLBP/256}

여기서, 256은 픽셀 간에 표현 가능한 패턴의 경우의 수, nLBP는 후보 영역에서 서로 다른 값을 가지는 LBP의 개수(복잡한 영역에 대해 높은 값을 가짐), λ는 유효 픽셀 개수를 나타내는 정제 계수(refinement coefficient)를 의미할 수 있다. 일례로, 정제 계수는 수학식 5와 같이 정의될 수 있다.

[수학식 5]

λ={PxCnt(p_i,HL)+PxCnt(p_i,LH)}/{2N×κ}

여기서, N은 픽셀의 개수, i는 픽셀의 위치[0, N], PxCnt()는 임계값(threshold) 이상인 픽셀의 개수, κ는 영상 복잡도를 나타내는 상수를 의미할 수 있다.

따라서, 대표 추출부(220)는 도 14에 도시한 바와 같이 후보 프레임(1400) 내에서 ML-LBP을 활용하여 문자열이 실제 존재하는 자막 영역(1405)을 검출할 수 있다.

다시 도 10에서, 단계(S1009)에서 대표 추출부(220)는 문자열이 존재하는 자막 영역 내에 해당 영역이 가지는 특징 값, 즉 크기 값, 위치 값, 모션 값, 색상 정보, 주파수 정보 중 적어도 하나를 계산한 후 이들의 조합으로 자막 특징 값을 계산할 수 있다. 일례로, 대표 추출부(220)는 후보 프레임에서 검출된 자막 영역의 LBP 특징점 가중치를 해당 영상의 자막 특징 값으로 사용할 수 있다.

대표 추출부(220)는 후보 프레임 각각에 대해 후보 프레임 간 시간 간격 기반 값을 이용하여 후보 값을 계산할 수 있으며, 더 나아가 시간 간격 기반 값과 함께, 이미지 품질 측정 값과 자막 특징 값 중 적어도 하나를 더 이용하여 후보 값을 계산할 수 있다. 시간 간격 기반 값, 이미지 품질 측정 값, 자막 특징 값 중 둘 이상의 인자를 조합하여 후보 값을 계산하는 경우 각 인자의 조합 비율을 일정하게 적용하거나, 혹은 동영상의 특성이나 인자 별 중요도 등에 따라 각 인자의 조합 비율(가중치)을 서로 다르게 적용하는 것 또한 가능하다.

따라서, 본 발명에서는 동영상에서 후보 프레임을 선택하고 선택된 후보 프레임 각각에 대해 해당 영상의 특징 정보를 포함하고 있는 후보 값을 계산한 후 후보 값을 기준으로 후보 프레임 중 일부 프레임을 대표 이미지로 추출할 수 있다.

이처럼 본 발명의 실시예들에 따르면, 동영상의 콘텍스트를 기반으로 실질적인 주요 장면을 추출할 수 있으며, 동영상의 콘텍스트 기반의 주요 장면을 장면 탐색 기능으로 제공할 수 있어 동영상의 전체적인 내용과 흐름을 쉽게 파악할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

컴퓨터로 구현되는 방법에 있어서,
동영상에서 후보 프레임을 선택하는 단계;
상기 후보 프레임 각각에 대하여 해당 영상의 특징 정보를 나타내는 후보 값을 계산하는 단계; 및
상기 후보 값을 기준으로 상기 후보 프레임 중 일부 프레임을 상기 동영상의 대표 이미지로 추출하는 단계
를 포함하고,
상기 계산하는 단계는,
상기 후보 프레임의 영상 내에서 시각 돌출 지도(saliency map)의 분포에 따른 주요 영역(salient area)을 설정하는 단계; 및
상기 주요 영역에 대한 특징 값을 이용하여 상기 후보 값을 계산하는 단계
를 포함하는 방법.
제1항에 있어서,
상기 계산하는 단계는,
상기 후보 프레임 각각에 대하여 인접한 프레임과의 시간 간격을 나타내는 값을 이용하여 상기 후보 값을 계산하는 것
을 특징으로 하는 방법.
제2항에 있어서,
상기 시간 간격을 나타내는 값은 프레임 간 시간 간격이 길수록 큰 값이 부여되고,
상기 추출하는 단계는,
상기 후보 값을 기준으로 상위 일정 개수의 후보 프레임 또는 상기 후보 값이 일정 값 이상인 후보 프레임을 상기 대표 이미지로 추출하는 것
을 특징으로 하는 방법.
제2항에 있어서,
상기 계산하는 단계는,
상기 후보 프레임 각각에 대하여 이미지 품질을 나타내는 값과 영상에 포함된 자막의 특징 정보를 나타내는 값 중 적어도 하나를 더 이용하여 상기 후보 값을 계산하는 것
을 특징으로 하는 방법.
제1항에 있어서,
상기 계산하는 단계는,
상기 후보 프레임 각각에 대하여 문자열이 존재하는 자막 영역을 검출한 후 상기 자막 영역에 대한 특징 값을 이용하여 상기 후보 값을 계산하는 것
을 특징으로 하는 방법.
제5항에 있어서,
상기 자막 영역을 검출하는 것은,
상기 후보 프레임에 대해 ML-LBP(Multi Block Local Binary Pattern)을 이용하여 상기 자막 영역을 검출하는 것
을 특징으로 하는 방법.
제5항에 있어서,
상기 자막 영역을 검출하는 것은,
상기 후보 프레임에 대해 ML-LBP(Multi Block Local Binary Pattern)을 이용하여 서로 다른 값을 가지는 LBP의 개수와 픽셀 값이 임계치 이상인 픽셀의 개수에 따른 LBP 특징점 가중치를 기준으로 상기 자막 영역을 검출하는 것
을 특징으로 하는 방법.
제1항에 있어서,
상기 선택하는 단계는,
상기 동영상에서 키 프레임(key frame) 또는 일정 시간 간격의 프레임을 추출하는 단계;
상기 추출된 프레임 각각에 대하여 프레임 간의 장면 변화 값을 계산하는 단계; 및
상기 장면 변화 값을 기준으로 상기 추출된 프레임 중 적어도 일부 프레임을 상기 후보 프레임으로 선택하는 단계
를 포함하는 방법.
제1항에 있어서,
상기 대표 이미지를 이용하여 상기 동영상의 장면 탐색 기능을 제공하는 단계
를 더 포함하는 방법.
제9항에 있어서,
상기 장면 탐색 기능을 제공하는 단계는,
상기 대표 이미지를 상기 동영상의 구간 이동을 위한 썸네일(thumbnail)로 구성하는 것
을 특징으로 하는 방법.
주요 장면 제공 방법을 실행시키기 위해 컴퓨터로 읽을 수 있는 매체에 저장된 컴퓨터 프로그램에 있어서,
상기 주요 장면 제공 방법은,
동영상에서 후보 프레임을 선택하는 단계;
상기 후보 프레임 각각에 대하여 해당 영상의 특징 정보를 나타내는 후보 값을 계산하는 단계;
상기 후보 값을 기준으로 상기 후보 프레임 중 일부 프레임을 상기 동영상의 대표 이미지로 추출하는 단계; 및
상기 대표 이미지를 이용하여 상기 동영상의 장면 탐색 기능을 제공하는 단계
를 포함하고,
상기 계산하는 단계는,
상기 후보 프레임의 영상 내에서 시각 돌출 지도(saliency map)의 분포에 따른 주요 영역(salient area)을 설정하는 단계; 및
상기 주요 영역에 대한 특징 값을 이용하여 상기 후보 값을 계산하는 단계
를 포함하는, 컴퓨터로 읽을 수 있는 매체에 저장된 컴퓨터 프로그램.
컴퓨터로 구현되는 시스템에 있어서,
동영상에서 후보 프레임을 선택하는 후보 선택부; 및
상기 후보 프레임 각각에 대하여 해당 영상의 특징 정보를 나타내는 후보 값을 계산한 후 상기 후보 값을 기준으로 상기 후보 프레임 중 일부 프레임을 상기 동영상의 대표 이미지로 추출하는 대표 추출부
를 포함하고,
상기 대표 추출부는,
상기 후보 프레임의 영상 내에서 시각 돌출 지도(saliency map)의 분포에 따른 주요 영역(salient area)을 설정하고,
상기 주요 영역에 대한 특징 값을 이용하여 상기 후보 값을 계산하는 것
을 특징으로 하는 시스템.
제12항에 있어서,
상기 대표 추출부는,
상기 후보 프레임 각각에 대하여 인접한 프레임과의 시간 간격을 나타내는 값을 이용하여 상기 후보 값을 계산하는 것
을 특징으로 하는 시스템.
제13항에 있어서,
상기 시간 간격을 나타내는 값은 프레임 간 시간 간격이 길수록 큰 값이 부여되고,
상기 대표 추출부는,
상기 후보 값을 기준으로 상위 일정 개수의 후보 프레임 또는 상기 후보 값이 일정 값 이상인 후보 프레임을 상기 대표 이미지로 추출하는 것
을 특징으로 하는 시스템.
제13항에 있어서,
상기 대표 추출부는,
상기 후보 프레임 각각에 대하여 이미지 품질을 나타내는 값과 영상에 포함된 자막의 특징 정보를 나타내는 값 중 적어도 하나를 더 이용하여 상기 후보 값을 계산하는 것
을 특징으로 하는 시스템.
제12항에 있어서,
상기 대표 추출부는,
상기 후보 프레임 각각에 대하여 문자열이 존재하는 자막 영역을 검출한 후 상기 자막 영역에 대한 특징 값을 이용하여 상기 후보 값을 계산하는 것
을 특징으로 하는 시스템.
제16항에 있어서,
상기 대표 추출부는,
상기 후보 프레임에 대해 ML-LBP(Multi Block Local Binary Pattern)을 이용하여 서로 다른 값을 가지는 LBP의 개수와 픽셀 값이 임계치 이상인 픽셀의 개수에 따른 LBP 특징점 가중치를 기준으로 상기 자막 영역을 검출하는 것
을 특징으로 하는 시스템.
제12항에 있어서,
상기 후보 선택부는,
상기 동영상에서 키 프레임(key frame) 또는 일정 시간 간격의 프레임을 추출하고 상기 추출된 프레임 각각에 대하여 프레임 간의 장면 변화 값을 계산한 후 상기 장면 변화 값을 기준으로 상기 추출된 프레임 중 적어도 일부 프레임을 상기 후보 프레임으로 선택하는 것
을 특징으로 하는 시스템.
제12항에 있어서,
상기 대표 이미지를 이용하여 상기 동영상의 장면 탐색 기능을 제공하는 장면 탐색부
를 더 포함하는 시스템.
제19항에 있어서,
상기 장면 탐색부는,
상기 대표 이미지를 상기 동영상의 구간 이동을 위한 썸네일(thumbnail)로 구성하는 것
을 특징으로 하는 시스템.