KR20180036197A

KR20180036197A - 스크립트 길이 기반의 장면 인식 방법 및 시스템

Info

Publication number: KR20180036197A
Application number: KR1020160126479A
Authority: KR
Inventors: 양진홍; 박효진
Original assignee: 양진홍; 박효진
Priority date: 2016-09-30
Filing date: 2016-09-30
Publication date: 2018-04-09

Abstract

스크립트 길이 기반의 장면 인식 방법 및 시스템을 개시한다. 일 실시예에 따른 스크립트 길이 기반의 장면 인식 방법은, 스크립트의 길이에 따라 프레임을 다르게 추출할 수 있다. 더욱 상세하게는, 드라마 같은 장르나, 대화형 콘텐트와 같은 대화체의 경우, 스크립트의 내용이 해당 장면에서 인물의 교차, 클로우즈 업 등이 빈번하게 발생하기 때문에 화자의 변화에 따라 장면을 추출할 수 있다. 이때, 대화체의 구문 판단은 스크립트 정보상의 문장 정보에 해당하는 음성의 패턴을 기반으로 사용자의 변화 정보 등을 추가적으로 이용할 수 있다. 또한, 가독성 기반의 경우, 추출된 이미지가 재생되는 단말의 해상도를 기준으로 스크립트의 양이 짧은 경우, 해상도별 스크립트의 단어수를 기준으로 주요 장면을 추출할 수 있다.

Description

스크립트 길이 기반의 장면 인식 방법 및 시스템{METHOD AND SYSTEM FOR RECOGNITION OF THE SCENE BASED ON LENGTH OF SCRIPT}

아래의 설명은 콘텐츠 제공 기술에 관한 것으로, 스크립트 길이에 기반하여 장면을 인식하는 방법 및 시스템에 관한 것이다.

모바일 단말에서 동영상 콘텐트의 소비가 크게 늘고 있지만 여전히 데이터에 대한 비용이나 소비에 필요한 시간 등의 문제로 인해 동영상 콘텐트를 꺼려하는 경우가 많다. 예를 들면, 사용자 단말에 데이터가 부족한 경우, 동영상 초기 로딩 시간을 싫어하는 경우, 이어폰의 사용자 어려운 경우, 동영상을 충분히 재생할 시간이 없는 경우, 전체 화면 재생에 따른 제어권 박탈을 싫어하는 경우 등에 따라 동영상 콘텐트의 재생을 꺼려한다.

이로 인해 도 1과 같이 사용자들이 직접 동영상을 스틸컷 형태로 추출하여 줄거리와 함께 새로운 형태의 콘텐트로 제작하는 경우가 많다. 하지만 이러한 경우 사용자가 직접 수작업으로 콘텐트를 생성 하기 때문에 시간과 노력이 많이 소요된다. 또한 개개인이 따로 제작하기 때문에 콘텐트 원 저작자의 의도가 반영되기 어렵다는 문제점이 있다.

본 발명이 해결하고자 하는 과제는 스크립트 길이 기반의 장면을 인식하는 방법 및 시스템을 제공하는 것이다.

일 실시예에 따르면, 장면 인식 방법은, 스크립트의 정보에 기초하여 장면을 인식하는 단계; 및 상기 장면이 인식됨에 따라 상기 스크립트의 길이에 기초하여 프레임을 추출하는 단계를 포함하고, 상기 장면이 인식됨에 따라 상기 스크립트의 길이에 기초하여 프레임을 추출하는 단계는, 상기 추출된 프레임에 대하여 상기 스크립트의 길이에 따라 각각의 프레임을 추출하는 기준을 다르게 적용할 수 있다.

일측에 따르면, 상기 장면 인식 방법은, 상기 스크립트의 길이에 기초하여 대화체의 구문 여부를 판단하고, 상기 스크립트의 내용이 대화체에 해당될 경우, 화자의 변화에 따라 프레임을 추출할 수 있다.

또 다른 일측에 따르면, 상기 장면 인식 방법은, 상기 스크립트의 길이가 기설정된 길이 이하일 경우, 상기 추출된 프레임이 재생되는 기기의 해상도별 스크립트의 단어수를 기준으로 프레임을 추출할 수 있다.

일 실시예에 따른 멀티미디어 파일 구성 시스템은 동영상을 추가적인 노력이나 시간의 소비 없이 정확한 형태의 이미지 콘텐트를 추출하는 것이 가능하도록 제공할 수 있다.

일 실시예에 따른 멀티미디어 파일 구성 시스템은 동영상 전체를 이미지 형태의 콘텐트로 제공할 수 있고, 제작자의 의도가 반영된 이미지 형태의 콘텐트를 제공할 수 있다. 또한, 동영상 대비 트래픽 및 프로세싱 비용이 감소하기 때문에 저비용으로 서비스를 제공하는 것이 가능하다.

도 1은 동영상 콘텐트를 이미지로 변환해서 소비하는 경우의 예시를 나타내는 도면이다.
도 2는 일 실시예에 따른 멀티미디어 파일 구성 시스템의 네트워크 환경을 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 멀티미디어 파일 구성 시스템의 구성을 설명하기 위한 블록도이다.
도 4는 일 실시예에 따른 맞춤형 콘텐트 서비스의 예를 나타낸 도면이다.
도 5는 일 실시예에 따른 동영상 파일 포맷의 구성을 설명하기 위한 도면이다.
도 6은 일 실시예에 있어서, 주요 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보 및 리퍼러 정보를 포함하는 경우를 설명하기 위한 도면이다.
도 7은 일 실시예에 있어서, 주요 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보, 리퍼러 정보 및 이미지 정보를 포함하는 경우를 설명하기 위한 도면이다.
도 8 및 9는 일 실시예에 있어서, 주요 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보, 리퍼러 정보 및 요약 레벨을 포함하는 경우를 설명하기 위한 도면이다.
도 10은 일 실시예에 있어서, 메타 정보의 형태를 설명하기 위한 도면이다.
도 11은 일 실시예에 따른 멀티미디어 파일 구성 시스템의 멀티미디어 파일 구성 방법을 설명하기 위한 흐름도이다.

이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.

도 2는 일 실시예에 따른 멀티미디어 파일 구성 시스템의 네트워크 환경을 설명하기 위한 도면이다.

스틸컷 이미지 정보를 포함한 동영상 콘텐트 서비스 제공 환경에서, 멀티미디어 파일 구성 시스템은 사용자의 요구 사항 또는 환경에 따라 동영상 또는 이미지 형태의 콘텐트를 제공할 수 있다.

스크립트 길이 기반의 장면을 인식하는 방법을 설명하기 위한 것으로, 예를 들면, 대화체의 경우, 가독성 기반의 경우 각각 다르게 장면을 추출할 수 있다.

스크립트의 내용이 대화체의 경우, 해당 장면의 인물의 교차, 클로우즈 업 등이 빈번하게 발생할 수 있다. 이에 따라 대화체의 스크립트의 내용에 대해서는 화자의 변화에 따라 프레임을 추출할 수 있다. 이때, 대화체의 구문 판단은 스크립트 정보 상의 문장 정보에 해당하는 음성의 패턴을 기반으로 사용자 변화 정보 등을 추가적인 정보로 이용할 수 있다. 예를 들면, 목소리의 대역을 기반으로 화자를 판단할 수 있다.

가독성 기반의 경우, 추출한 이미지가 재생되는 단말의 해상도를 기준으로 스크립트의 양이 짧을 수 있다. 예를 들면, 단말의 화면이 짧아 스크립트가 출력되는 길이가 짧은 경우, 해상도별 적절한 스크립트의 단어수를 기준으로 프레임을 추출할 수 있다.

콘텐트 서버(Content Server)(200)는 사용자 단말(210), OTT(Over The Top) 또는 Web Enabled Devices(211)에 캡션이 부가된 동영상 또는 이미지 형태의 콘텐트를 제공할 수 있다. 콘텐트 서버(Content Server)(200)는 실시간으로 스트리밍되는 동영상에 대하여 이미지 형태의 콘텐트로 제공할 수 있다.

통계 서버(Statistics Server)(201) 및/또는 광고 서버(Ad.Server)(202)에서 제공하는 통계 정보 또는 광고 정보를 동영상 또는 이미지 형태의 콘텐트에 부가하여 제공될 수 있다. 예를 들면, 리퍼러 정보를 통해 사용자가 소비한 이미지에 대한 통계 정보를 통계 서버(201)를 통해 수집할 수 있고, 링크 정보를 통해 광고나 추가 정보를 광고 서버(202) 또는 별도의 서버를 통하여 사용자 단말, OTT(Over The Top) 또는 Web Enabled Devices(211) 등에 제공할 수 있다. 또한 동영상 또는 이미지의 메타 정보 중 주요 장면에 대한 디스크립션 정보 또는 광고 정보를 이용해 광고 서버(202)로부터 키워드 기반 광고 매칭 기능을 제공할 수 있다. 이때, 콘텐트 서버(200)는 동영상을 이미지 형태의 콘텐트로 변환하는 과정에서 소요되는 처리 시간을 예측하여 이미지 광고를 제공할 수도 있다.

사용자 단말(210)은 PC, 노트북, 스마트폰(smart phone), 태블릿(tablet), 웨어러블 컴퓨터(wearable computer) 등으로, 콘텐츠 제공 시스템과 관련된 웹/모바일 사이트의 접속 또는 서비스 전용 어플리케이션의 설치 및 실행이 가능한 모든 단말 장치를 의미할 수 있다. 이때, 사용자 단말(210)은 웹/모바일 사이트 또는 전용 어플리케이션의 제어 하에 서비스 화면 구성, 데이터 입력, 데이터 송수신, 데이터 저장 등 서비스 전반의 동작을 수행할 수 있다.

멀티미디어 파일 구성 시스템에 포함된 프로세서는 생성부, 부가부, 변환부 및 제공부를 포함할 수 있다. 이러한 프로세서 및 프로세서의 구성요소들은 멀티미디어 파일 구성 시스템을 제어할 수 있다. 이때, 프로세서 및 프로세서의 구성요소들은 메모리가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. 여기서, 프로세서의 구성요소들은 멀티미디어 파일 구성 시스템에 저장된 프로그램 코드가 제공하는 제어 명령에 따라 프로세서에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다.

생성부는 동영상 파일 포맷에 메타 정보 영역을 생성할 수 있다.

부가부는 동영상 파일 포맷의 메타 정보 영역에 동영상의 특정 장면과 관련하여 적어도 하나 이상의 부가 정보를 부가할 수 있다. 예를 들면, 메타 정보 영역에 저장된 동영상에서 오디오 마이닝을 기반으로 특정 이팩트(Effect)가 삽입된 구간과 관련된 스틸컷 이미지를 추출하여 메타 정보 영역에 저장할 수 있다. 변환부는 메타 정보 영역에 포함된 메타 정보를 이용하여 스틸컷 이미지를 추출할 수 있다.

변환부는 메타 정보 영역에 부가 정보를 부가함에 따라 부가 정보가 포함된 콘텐트로 변환할 수 있다. 변환부는 특정 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보 및 리퍼러 정보를 포함하는 경우, 스틸컷 이미지를 추출할 시간 및 스틸컷 이미지에 기입할 텍스트 정보를 추출하여 자동으로 이미지 형태의 콘텐트로 변환할 수 있다.

변환부는 특정 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보, 리퍼러 정보 및 이미지 정보를 포함하는 경우, 스틸컷 이미지를 나열하여 이미지 형태의 콘텐트로 변환할 수 있다.

변환부는 특정 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보, 리퍼러 정보 및 요약 레벨을 포함하는 경우, 이미지 형태의 콘텐트에 대한 공개 범위가 설정됨을 수신할 수 있다. 제공부는 요약 레벨의 값에 따라 이미지 형태의 콘텐트를 선택적으로 노출할 수 있다.

변환부는 특정 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보, 리퍼러 정보 및 요약 레벨을 포함하는 경우, 프레임 타입을 지정하여 콘텐트 제공자의 의도에 기초하여 콘텐트를 변환할 수 있다.

제공부는 콘텐트가 제작된 타입에 기초하여 콘텐트를 소비하도록 제공할 수 있다.

도 3은 일 실시예에 따른 멀티미디어 파일 구성 시스템의 구성을 설명하기 위한 블록도이다.

멀티 미디어 파일 구성 시스템은 콘텐트 서버(300)에 의하여 동작될 수 있다.

콘텐트 서버(300)는 스토리지(Storage) 또는 데이터베이스(301, 302, 303), 스트리머(Streamer)(310), V2I 엔진(Engine)(320), WAS(330) 및 통계(Statistics) 데이터베이스(340)를 포함할 수 있다.

스트리머(Streamer)(310)는 사용자의 요청에 따라 미디어(예를 들면, 동영상)을 스트리밍 하는 기능을 제공할 수 있다. 스트리머(310)는 MPEG-DASH, HLS(HTTP Live Streaming), Progressive Download, MMT(MPEG Media Transport), RTP(Real-time Transport Protocol) 기반의 동영상 스트리밍을 지원할 수 있다.

스토리지 또는 데이터베이스(301, 302, 303)는 원본 콘텐트(Original Content), 메타 데이터(Metadata), 변환된 콘텐트(Converted Content)가 각각의 스토리지 또는 데이터베이스에 저장될 수 있다. 예를 들면, 원본 콘텐트를 저장하고 있는 스토리지 또는 데이터베이스(301), 메타 데이터를 저장하고 있는 스토리지 또는 데이터베이스(302), 변환된 콘텐트를 저장하고 있는 스토리지 또는 데이터베이스(303)가 각각 존재할 수 있다.

V2I 엔진(Video to Image Engine)(320)은 Subtitle & Meta Script Analyzer(321) 및 FFmpeg(322)를 포함할 수 있다. Subtitle & Meta Script Analyzer(321)는 메타데이터가 저장되어 있는 스토리지 또는 데이터베이스(302) 및 원본 콘텐트가 저장되어 있는 스토리지 또는 데이터베이스(301) 상에서 자막(Subtitle) 및 메타 스크립트(Meta Script)에 대한 정보를 읽어들여 상기 정보에 기초하여 콘텐트 생성 기능을 제공할 수 있다. 예를 들면, Subtitle & Meta Script Analyzer(321)는 메타 정보를 이용하여 콘텐트를 구성할 수 있다.

FFmpeg(322)는 동영상에서 이미지를 추출 및 자막 오버레이(Overlay) 기능을 수행하는 오픈 소스 소프트웨어 모듈일 수 있다. 이때, 원본 콘텐트에서 추출하는 정보는 시스템의 설정에 따라 변환된 콘텐트 스토리지 또는 데이터베이스에 저장되어 재사용될 수 있다.

WAS(330)은Content Player(331), Request Handler(332) 및 Statistics(333) 모듈을 포함할 수 있다.

Content Player(331)는 HTML 5 기반의 Content Player로 비디오 또는 맞춤형 이미지 형태의 콘텐트 소비를 선택할 수 있는 기능을 제공할 수 있다. 이때, MPEG DASH 기반의 플레이어와의 호환을 위해 별도의 스크립트를 통해 플레이어 상에 비디오 또는 이미지를 재생하는 기능을 노출할 수 있다.

Request Handler(332)는 사용자의 콘텐트 소비 형태의 선택에 응답하여 단말의 환경 정보(예를 들면, 단말에 이어폰의 연결 여부, 네트워크의 대역폭의 제약, 사용자의 Pre-setting)에 기초하여 콘텐트 재생과 관련된 요청을 분기하여 스트리머(310)을 통해 비디오 스트리밍을 제공할 것인지, V2I 엔진(320)을 통해 이미지 기반의 콘텐트를 제공할 것인지를 결정할 수 있다.

Statistics 모듈(333)은 사용자의 콘텐트 소비에 따른 통계 정보를 생성하기 위한 모듈로서, 개별 콘텐트 소비시 발생하는 광고 요청과 관련된 정보도 함께 기록할 수 있다. 별도의 광고, 통계로 연결되는 경우(예를 들면, 리퍼러 정보, 링크 메타데이터 이용시) 콘텐트 서버측에서는 해당 연결 요청에 대한 기록을 남길 수 있다.

통계 데이터베이스(Statistics Database)(340)는 사용자의 콘텐트 소비 정보, 리퍼러 정보, 링크 정보 등의 요청에 따른 기록을 저장하는 역할을 담당할 수 있다. 이때, 통계 데이터베이스(340) 이외에 별도로 Ad.broker 모듈의 연결이 가능하다.

도 5는 일 실시예에 따른 동영상 파일 포맷의 구성을 설명하기 위한 도면이다.

종래의 동영상 파일 포맷은 헤더(Header)(510) 및 데이터 영역(520)으로 구성되어 있다. 본 발명은 동영상 파일 포맷에 메타 정보 영역(530)을 부가한 동영상 파일 구조를 제공할 수 있다.

이에 따라 동영상 파일 포맷에 헤더(Header)(510), 데이터 영역(520) 및 메타 정보 영역(530)으로 구성될 수 있다.

동영상 파일 포맷에 특정 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보 및 리퍼러 정보 등을 추가할 수 있으며, 스틸컷 이미지 정보를 추가할 수도 있다.

메타 데이터 영역이 부가된 동영상 파일 포맷은 일반 동영상 콘텐트처럼 재생될 수 있으며, 추가된 정보는 사용자에게 노출되지 않는다. 콘텐트 제공자 또는 제작자가 의도를 반영하여 복수의 형태로 소비할 수 있는 콘텐트를 제작할 경우, 메타 정보 영역을 추가하여 작성할 수 있다.

도 10을 참고하면, 메타 정보의 형태를 설명하기 위한 도면이다. 메타 정보의 형태는 HTML Tag 형태 또는 JSON 형태로 표현될 수 있으며, HTML Tag 형태 또는 JSON는 서로 변환 가능하다.

메타 정보는 리퍼러 정보 및 링크 정보를 통해 사용자에게 추가적인 정보를 제공하거나 사용자가 관심있는 장면이나 포인트를 통계할 수 있다.

메타 정보 영역은 메타 정보의 프레임 타입을 싱글(Single), 쿼드(Quad) 또는 기 정의된 타입의 넘버가 입력됨에 응답하여 입력된 타입으로 구성될 수 있다.

도 6은 일 실시예에 있어서, 주요 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보 및 리퍼러 정보를 포함하는 경우를 설명하기 위한 도면이다.

멀티미디어 파일 구성 시스템은 스크립트 길이 기반의 장면을 인식할 수 있다. 멀티미디어 파일 구성 시스템은 스크립트의 길이, 예를 들면, 대화체의 경우, 가독성 기반의 경우 각각 다르게 장면을 추출할 수 있다.

멀티미디어 파일 구성 시스템은 스크립트의 내용이 대화체의 경우, 해당 장면의 인물의 교차, 클로우즈 업 등이 빈번하게 발생할 수 있다. 이에 따라 멀티미디어 파일 구성 시스템은 대화체의 스크립트의 내용에 대해서는 화자의 변화에 따라 프레임을 추출할 수 있다. 이때, 대화체의 구문 판단은 스크립트 정보 상의 문장 정보에 해당하는 음성의 패턴을 기반으로 사용자 변화 정보 등을 추가적인 정보로 이용할 수 있다. 예를 들면, 목소리의 대역을 기반으로 화자를 판단할 수 있다.

멀티미디어 파일 구성 시스템은 가독성 기반의 경우, 추출한 이미지가 재생되는 단말의 해상도를 기준으로 스크립트의 양이 짧을 수 있다. 예를 들면, 단말의 화면이 짧아 스크립트가 출력되는 길이가 짧은 경우, 멀티미디어 파일 구성 시스템은 해상도별 적절한 스크립트의 단어수를 기준으로 프레임을 추출할 수 있다.

멀티미디어 파일 구성 시스템은 특정 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보 및 리퍼러 정보를 포함하는 경우, 콘텐트를 서비스하는 플랫폼이나 시스템에서 메타 정보에 기반하여 스틸컷 이미지를 추출할 시간 및 스틸컷 이미지에 기입할 텍스트 정보를 추출하여 자동으로 이미지 형태의 콘텐트로 변환할 수 있다.

도 7은 일 실시예에 있어서, 주요 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보, 리퍼러 정보 및 이미지 정보를 포함하는 경우를 설명하기 위한 도면이다.

멀티미디어 파일 구성 시스템은 특정 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보, 리퍼러 정보 및 이미지 정보를 포함하는 경우, 콘텐트를 서비스하는 플랫폼이나 시스템에서 메타 정보에 기반하여 스틸컷 이미지를 나열하여 이미지 형태의 콘텐트로 변환할 수 있다.

도 8 및 9는 일 실시예에 있어서, 주요 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보, 리퍼러 정보 및 요약 레벨을 포함하는 경우를 설명하기 위한 도면이다.

도 8을 참고하면, 멀티미디어 파일 구성 시스템은 특정 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보, 리퍼러 정보 및 요약 레벨을 포함하는 경우, 이미지 형태의 콘텐트에 대한 공가 범위가 설정됨을 수신할 수 있다. 예를 들면, 사용자로부터 콘텐트를 이미지로 구성함에 있어서, 전체 이미지를 모두 보여줄 것인지, 일부의 중요 이미지만을 요약하여 보여줄 것인지를 선택할 수 있다.

멀티미디어 파일 구성 시스템은 요약 레벨(summary_level)에 기초하여 이미지 형태의 콘텐트를 선택적으로 노출할 수 있다. 예를 들면, 요약 레벨은 1 내지 10까지의 범위로 구성될 수 있으며, 요약 레벨값이 높아질수록 이미지의 수가 적어질 수 있다.

도 9를 참고하면, 멀티미디어 파일 구성 시스템은 특정 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보, 리퍼러 정보 및 요약 레벨을 포함하는 경우, 이미지 프레임의 타입을 지정하여 콘텐트 제공자의 의도에 기초하여 콘텐트를 변환할 수 있다. 멀티미디어 파일 구성 시스템은 콘텐트 제공자가 원하는 방식대로 다양하고 섬세하게 표현할 수 있도록 제공할 수 있다. 예를 들면, 콘텐트 제공자가 이미지 프레임을 복수의 분할로 나누어 하나의 이미지로 제작할 수 있고, 테두리를 형성하여 제작할 수도 있다.

도 4를 참고하면, 맞춤형 콘텐트 서비스의 예를 나타낸 것으로, 사용자는 콘텐트 타입에 기초하여 콘텐트를 소비할 수 있다. 예를 들면, 사용자는 동영상 또는 이미지 형태의 콘텐트를 소비할 수 있다. 사용자는 이미지를 스와이프 또는 스크롤함으로써 이미지 형태의 콘텐트를 볼 수 있다.

멀티미디어 파일 구성 시스템은 동영상에서 제공되던 추가 콘텐트(예를 들면, 광고)를 이미지 형태의 콘텐트 환경에서도 제공할 수 있다. 예를 들면, 멀티디미어 파일 구성 시스템은 동영상을 재생하기 전에 프리로딩 광고, 중간 삽입 광고 및 팝업 콘텐트 등을 이미지 형태의 콘텐트를 제공할 때에도 제공할 수 있다.

도 11은 일 실시예에 따른 멀티미디어 파일 구성 시스템의 멀티미디어 파일 구성 방법을 설명하기 위한 흐름도이다.

사용자는 사용자가 소비할 콘텐트 타입을 결정할 수 있다. 멀티미디어 파일 구성 시스템은 사용자로부터 소비하고자 하는 콘텐트 타입이 결정됨을 수신할 수 있다(1110). 멀티미디어 파일 구성 시스템은 사용자로부터 선택된 콘텐트 타입을 판단할 수 있다.

멀티미디어 파일 구성 시스템은 사용자로부터 콘텐트 타입으로 동영상이 결정됨에 따라 동영상 데이터를 스트리밍할 수 있다(1111). 사용자는 동영상 형태로 콘텐트를 소비할 수 있다(1112).

멀티미디어 파일 구성 시스템은 사용자로부터 콘텐트 타입으로 이미지가 결정됨에 따라 맞춤형 콘텐트 제공을 위한 메타 정보가 포함되었는지 여부를 판단할 수 있다(1120). 이때, 메타 정보가 포함되어 있는 경우, 멀티미디어 파일 구성 시스템은 콘텐트에 포함된 메타 정보를 분석할 수 있다(1121).

콘텐트에 메타 정보가 포함되어 있지 않은 경우, 멀티미디어 파일 구성 시스템은 콘텐트에 포함된 자막 정보 또는 프레임 정보 중 어느 하나의 정보를 추출할 수 있다(1130). 멀티미디어 파일 구성 시스템은 콘텐트에 포함된 자막 정보 또는 프레임 정보 이외의 정보들을 추출할 수도 있다.

멀티미디어 파일 구성 시스템은 스크립트 길이 기반의 장면을 인식할 수 있다. 멀티미디어 파일 구성 시스템은 예를 들면, 대화체의 경우, 가독성 기반의 경우 각각 다르게 장면을 추출할 수 있다.

스크립트의 내용이 대화체의 경우, 해당 장면의 인물의 교차, 클로우즈 업 등이 빈번하게 발생할 수 있다. 멀티미디어 파일 구성 시스템은 대화체의 스크립트의 내용에 대해서는 화자의 변화에 따라 프레임을 추출할 수 있다. 이때, 대화체의 구문 판단은 스크립트 정보 상의 문장 정보에 해당하는 음성의 패턴을 기반으로 사용자 변화 정보 등을 추가적인 정보로 이용할 수 있다. 예를 들면, 목소리의 대역을 기반으로 화자를 판단할 수 있다.

가독성 기반의 경우, 추출한 이미지가 재생되는 단말의 해상도를 기준으로 스크립트의 양이 짧을 수 있다. 예를 들면, 단말의 화면이 짧아 스크립트가 출력되는 길이가 짧은 경우, 멀티미디어 파일 구성 시스템은 해상도별 적절한 스크립트의 단어수를 기준으로 프레임을 추출할 수 있다.

멀티미디어 파일 구성 시스템은 콘텐트로부터 메타 정보가 포함된 이미지를 추출할 수 있다(1122). 멀티미디어 파일 구성 시스템은 콘텐트로부터 메타 정보가 포함된 이미지를 추출할 수 있고, 콘텐트에 포함된 자막 정보 및 프레임 정보를 포함하고 있는 이미지를 추출할 수 있다.

멀티미디어 파일 구성 시스템은 추출된 이미지를 사용자의 콘텐트 플레이어에서 바로 재생하거나 웹 페이지로 구성할 수 있다(1123). 멀티미디어 파일 구성 시스템은 이미지를 재생하거나 웹 페이지로 구성하여 사용자가 이미지 형태로 소비하도록 제공할 수 있다. 사용자는 이미지 형태로 콘텐트를 소비하게 된다(1124).

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

장면 인식 방법에 있어서,
스크립트의 정보에 기초하여 장면을 인식하는 단계; 및
상기 장면이 인식됨에 따라 상기 스크립트의 길이에 기초하여 프레임을 추출하는 단계
를 포함하고,
상기 장면이 인식됨에 따라 상기 스크립트의 길이에 기초하여 프레임을 추출하는 단계는,
상기 추출된 프레임에 대하여 상기 스크립트의 길이에 따라 각각의 프레임을 추출하는 기준을 다르게 적용하는
장면 인식 방법.
제1항에 있어서,
상기 스크립트의 길이에 기초하여 대화체의 구문 여부를 판단하고, 상기 스크립트의 내용이 대화체에 해당될 경우, 화자의 변화에 따라 프레임을 추출하는
장면 인식 방법.
제1항에 있어서,
상기 스크립트의 길이가 기설정된 길이 이하일 경우, 상기 추출된 프레임이 재생되는 기기의 해상도별 스크립트의 단어수를 기준으로 프레임을 추출하는
장면 인식 방법.