KR20090093904A

KR20090093904A - 장면 변화에 강인한 멀티미디어 영상 분석 장치 및 그 방법과, 그를 이용한 객체 기반 멀티미디어 편집 시스템

Info

Publication number: KR20090093904A
Application number: KR1020090017721A
Authority: KR
Inventors: 안기옥; 이정헌
Original assignee: 미디어코러스 주식회사
Priority date: 2008-02-28
Filing date: 2009-03-02
Publication date: 2009-09-02

Abstract

본 발명은 장면 변화에 강인한 멀티미디어 영상 분석 장치 및 그 방법과, 그를 이용한 객체 기반 편집 시스템에 관한 것으로서, 정지영상, 동영상 등과 같은 멀티미디어 영상을 분석 및 편집함에 있어서 일정한 영상 단위(장면, 비디오 샷)로 분할하고 각각의 분할된 영상 단위에 대해서 대표 프레임을 선정한 후, 그 대표 프레임을 우선 대상으로 하여 멀티미디어 영상을 분석/편집(예를 들면, 객체 분류, 객체 검색/추적, 객체정보 부가 등)함으로써 분석/편집에 소요되는 시간/노력/비용을 최소화하고자 한다.

이를 위하여, 본 발명은, 객체 기반 멀티미디어 편집 시스템에 있어서, 멀티미디어 영상을 소정의 영상 단위로 분할해서 분할 영상마다 대표 프레임을 선정하고, 상기 선정된 대표 프레임들을 우선 대상으로 상기 멀티미디어 영상을 분석하기 위한 멀티미디어 영상 분석 수단; 및 상기 멀티미디어 영상 분석 수단의 분석을 통하여 검색/추적된 객체에 대하여 해당 객체 정보를 입력하거나, 사용자 인터페이스를 통하여 장면/객체 편집을 수행하기 위한 관리 수단을 포함하는 것을 특징으로 한다.

Description

장면 변화에 강인한 멀티미디어 영상 분석 장치 및 그 방법과, 그를 이용한 객체 기반 멀티미디어 편집 시스템{APPARATUS AND METHOD FOR SCENE VARIATION ROBUST MULTIMEDIA IMAGE ANALYSIS, AND SYSTEM FOR MULTIMEDIA EDITING BASED ON OBJECTS}

본 발명은 장면 변화에 강인한 멀티미디어 영상 분석 장치 및 그 방법과, 그를 이용한 객체 기반 멀티미디어 편집 시스템에 관한 것으로, 더욱 상세하게는 정지영상, 동영상 등과 같은 멀티미디어 영상을 분석 및 편집함에 있어서 일정한 영상 단위(장면, 비디오 샷)로 분할하고 각각의 분할된 영상 단위에 대해서 대표 프레임을 선정한 후, 그 대표 프레임을 우선 대상으로 하여 멀티미디어 영상을 분석/편집(예를 들면, 객체 분류, 객체 검색/추적, 객체정보 부가 등)함으로써, 분석/편집에 소요되는 시간/노력/비용을 최소화할 수 있는, 장면 변화에 강인한 멀티미디어 영상 분석 장치 및 그 방법과, 그를 이용한 객체 기반 멀티미디어 편집 시스템에 관한 것이다.

최근, 멀티미디어 정보(Multimedia Information)에 대한 수요가 급증하면서, 멀티미디어 콘텐츠(예를 들어, 동영상)에 대한 편집, 검색, 객체화 등의 관련한 다양한 기술이 폭 넓게 개발되고 있다.

예컨대, 한국특허공개공보 제2000-0014421호에 기재된 '재기록 가능 기록매체의 동영상 데이터 연결재생정보 생성 및 갱신 기록방법', 한국특허공개공보 제2000-0017815호에 기재된 '네트워크를 기반으로 하는 동영상 생성 시스템 및 그 생성방법', 한국 특허공개공보 제2000-49833호에 기재된 '인터넷을 통한 디지털 동영상 앨범 제작 방법', 한국특허공개공보 제2000-58241호에 기재된 '동영상 편집 시스템 및 이를 이용한 객체 정보 서비스 방법', 한국특허공개공보 제2000-58970호에 기재된 '동영상 정보 제공과 검색 방법' 등에는 이와 같은 종래의 동영상과 관련한 다양한 기술들이 상세하게 개시되어 있다.

그러나, 이와 같은 종래의 동영상 이용 기술들은 대부분 임의로 주어진 동영상 정보를 단편적으로 이용하는 정도에 불과하기 때문에, 상기와 같은 종래의 동영상 처리 기술을 이용하는 것만으로는, 해당 동영상 정보에 인터랙티브(Interactive)한 기능을 부여하는 데에는 많은 한계가 있다.

이러한 한계를 극복하기 위하여, 엠펙(MPEG: Moving Picture Expert Group)에서는 MPEG-4 BIFS(Binary Format for Scenes), MPEG-4 LASeR(Light Application Scene Representation) 등의 표준안을 통하여, 동영상이 서비스되는 시점에 어떻게 이벤트 정보를 첨부할 것인지에 대한 방법이 제시하였다.

하지만, MPEG 표준안에서도 역시 동영상이나 기타 멀티미디어 데이터에 대하여 어떠한 방법으로 객체를 분리하고 그 분리된 객체에 대하여 어떻게 이벤트를 부가할 것인지에 대한 방법을 제시하고 있지 않아, 동영상의 경우 프레임(Frame) 단위로 편집을 하게 되어 결국에는 인터랙티브(Interactive) 기능을 부여하는데 많은 비용이 소요되었다.

한편, 한국특허공개공보 제2002-0063754호에 기재된 '멀티미디어 편집 툴 및 이를 이용한 멀티미디어 편집 방법'에서는 좀 더 간편한 방법이 제시되었으나, 대다수의 멀티미디어 콘텐츠에서 수많은 장면 변화가 있다는 특성으로 인하여 객체 추적에 많은 오류가 발생하고 있으며, 이로 인하여 동영상 관련 편집에 많은 비용/노력/시간이 소요되는 문제가 있다.

동영상 및 멀티미디어 데이터에 대하여 인터랙티브(Interactive) 기능을 부여하기 위한 편집은 통상적으로 크게 세 가지 과정으로 이루어진다. 첫 번째 과정은 객체의 위치를 선정하여 분리하는 과정, 두 번째 과정은 객체 정보를 입력하는 과정, 세 번째 과정은 검수하는 과정이다. 이하, 각각의 과정에 대하여 설명하기로 한다.

먼저, 첫 번째 과정(객체의 위치를 선정하여 분리하는 과정)은, 입력된 동영상 및 멀티미디어 데이터에서 필요로 하는 의미 객체에 대하여 위치 및 영역을 선정하는 과정이다. 이러한 위치 및 영역은 해당 객체가 나타나는 시간 동안에서 연속적으로 변화하는 정보를 담고 있어야 한다.

다음으로, 두 번째 과정(객체 정보를 입력하는 과정)은 편집자의 의도에 따라 의미 있는 객체를 추출하고, 그 추출된 객체에 다른 데이터(예를 들어, 다른 비디오 데이터, 다른 오디오 데이터, 다른 URL 링크 정보 등과 같은 메타 데이터 등)가 실시간으로 연결될 수 있도록 하는 정보를 입력하는 과정이다.

다음으로, 세 번째 과정(검수 과정)은 앞의 두 가지 과정에서 이루어진 결과물에 대하여 검증을 하는 과정이다.

상기와 같은 세 가지 편집 과정 중에서 가장 많은 노력/시간/비용이 소모되는 과정이 바로 첫 번째 과정인 '객체의 위치를 선정하고 분리하는 과정'이기 때문에, 이러한 과정을 장면 인식, 객체 인식(예를 들면, 얼굴 인식 등), 자동 객체 추적 등의 인식 기반의 영상 처리 알고리즘을 통하여 자동화할 필요가 절실히 요구된다. 아울러, 객체 정보 입력 과정 및 검수 과정의 효율성도 증가시킬 필요가 있다.

특히, 종래의 멀티미디어 영상 분석 기술에서는 멀티미디어 영상을 구성하는 모든 프레임들을 동등한 입장에서 취급하기 때문에, 특정 객체를 검색/검출하는데에 있어서 많은 시간/노력/비용과 연산 부담이 소요되며, 이로 인하여 해당 멀티미디어 영상을 편집함에 있어서도 많은 시간/노력/비용이 소요되는 문제가 있다.

따라서 본 발명은 동영상 등과 같은 멀티미디어 영상의 분석 및 편집 과정을 단순화 및 자동화함으로써 분석/편집에 소요되는 시간/노력/비용을 최소화할 수 있게 하는, 장면 변화에 강인한 멀티미디어 영상 분석 장치 및 그 방법과, 그를 이용한 객체 기반 멀티미디어 편집 시스템을 제공하는데 그 목적이 있다.

본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

본 발명은 상기와 같은 목적을 달성하기 위하여, 멀티미디어 콘텐츠 영상을 소정의 영상 단위(장면이나 샷 등)로 분할하여 각각의 분할된 영상 단위마다 대표 프레임을 선정한 후, 그 선정된 대표 프레임들을 우선 대상으로 객체 분석/편집 등의 처리(예를 들면, 객체 분류, 객체 검색/추적, 객체정보 부가 등)를 수행하는 것을 특징으로 한다.

또한, 본 발명은, 객체의 유형(예를 들어, 인물 얼굴, 사물 등)에 따라 객체 검출/추적 방식을 다르게 적용하는 것을 특징으로 한다.

또한, 본 발명은, 대표 프레임에서의 객체 검출(추출) 과정에서는 특징 기반의 객체 검출 방식을 이용하고, 대표 프레임에 소속되는 개별 프레임에서의 객체 추적 과정에서는 블록 기반의 객체 추적 방식을 이용하는 것을 특징으로 한다.

더욱 상세하게, 본 발명은, 장면변화에 강인한 멀티미디어 영상 분석 장치에 있어서, 멀티미디어 영상을 소정의 영상 단위로 분할하고, 각각의 분할 영상마다 대표 프레임을 선정하기 위한 장면 분할 수단; 및 상기 선정된 대표 프레임들을 중심 객체유형을 기준으로 객체 동일 여부에 따라 분류하기 위한 객체 검색 수단을 포함한다.

또한, 본 발명은, 장면변화에 강인한 멀티미디어 영상 분석 장치에 있어서, 멀티미디어 영상을 소정의 영상 단위로 분할하고, 각각의 분할 영상마다 대표 프레임을 선정하기 위한 장면 분할 수단; 및 상기 선정된 대표 프레임들을 대상으로 하여 검색대상 객체를 검색하기 위한 객체 검색 수단을 포함한다.

또한, 본 발명은, 장면변화에 강인한 멀티미디어 영상 분석 방법에 있어서, 멀티미디어 영상을 소정의 영상 단위로 분할하는 분할 단계; 각각의 분할 영상마다 대표 프레임을 선정하는 대표 선정 단계; 및 상기 선정된 대표 프레임들을 중심 객체유형을 기준으로 객체 동일 여부에 따라 분류하는 분류 단계를 포함한다.

또한, 본 발명은, 장면변화에 강인한 멀티미디어 영상 분석 방법에 있어서,멀티미디어 영상을 소정의 영상 단위로 분할하는 분할 단계; 각각의 분할 영상마다 대표 프레임을 선정하는 대표 선정 단계; 및 상기 선정된 대표 프레임들을 대상으로 하여 검색대상 객체를 검색하는 객체검색 단계를 포함한다.

또한, 본 발명은 객체 기반 멀티미디어 편집 시스템에 있어서, 멀티미디어 영상을 소정의 영상 단위로 분할해서 분할 영상마다 대표 프레임을 선정하고, 상기 선정된 대표 프레임들을 우선 대상으로 상기 멀티미디어 영상을 분석하기 위한 멀티미디어 영상 분석 수단; 및 상기 멀티미디어 영상 분석 수단의 분석을 통하여 검색/추적된 객체에 대하여 해당 객체 정보를 입력하거나, 사용자 인터페이스를 통하여 장면/객체 편집을 수행하기 위한 관리 수단을 포함한다.

상기와 같은 본 발명은, 장면/샷 단위의 장면 분할을 통하여 영상 분석/편집 과정을 단순화/자동화함으로써 영상 분석/편집에 소요되는 비용/시간/노력을 최소화할 수 있는 효과가 있다.

즉, 본 발명은 멀티미디어 콘텐츠 영상을 분석/편집함에 있어서 장면이나 비디오 샷 등의 특성을 고려하여 일정한 영상 단위(장면 또는 비디오 샷 등)마다 대표 프레임을 선정해서 대표 프레임들을 우선 대상으로 하여 입력 영상을 분석/편집함으로써 영상 분석/편집에 소요되는 비용/시간/노력을 최소화할 수 있는 효과가 있다.

또한, 본 발명은, 장면/샷 단위로 그룹화하여 콘텐츠 영상 파일을 분석/편집함으로써 분석/편집 과정에서의 오류를 최소화할 수 있으며, 또한 발생된 오류도 신속하고 간편하게 시정(정정)할 수 있는 효과가 있다.

또한, 본 발명은, 객체 정보의 입력을 자동화하고, 시간별/객체특성별로 객체를 배치하며, 객체의 동일 여부를 서로 다른 식별표지(색깔 등)를 이용하여 구분하는 등의 다양한 사용자 인터페이스 기능을 제공함으로써, 편집자로 하여금 입력 영상 파일의 분석/편집을 용이하고 신속하게 수행할 수 있게 하는 효과가 있다.

또한, 본 발명은, 간이/신속한 영상 콘텐츠의 분석/편집을 통하여 양방향 서비스를 위한 콘텐츠 제작비용을 최소화함으로써, IPTV 및 양방향 TV, 양방향 UCC, 인터넷 TV, 각종 VoD 시스템에서의 서비스(사용자 참여 형 양방향 서비스) 및 수익 모델을 다양하게 창출할 수 있게 하며, 또한 차세대 시멘틱 웹에서 텍스트뿐만 아니라 다양한 멀티미디어 컨텐츠 내에서도 이를 지향할 수 있는 기틀이 마련해 주는 효과가 있다.

도 1은 본 발명에 따른 객체 기반 멀티미디어 편집 서비스에 대한 전반적인 개념 설명도,

도 2는 본 발명에 따른 편집 유닛이 참조하는 기본 참조 유닛에 대한 설명도,

도 3은 본 발명에 따른 객체 기반 멀티미디어 편집 시스템의 일실시예 구성도,

도 4는 본 발명에 따른 도 3의 멀티미디어 영상 분석 장치의 일실시예 상세 구성도,

도 5는 본 발명에 따른 객체 기반 멀티미디어 편집 방법에 대한 일실시예 흐름도,

도 6은 본 발명에 따른 DB 정보를 이용한 객체 검출 방법에 대한 일실시예 흐름도,

도 7은 본 발명에 따른 대표 프레임에서의 객체 추출 및 객체영역 지정 방법에 대한 일실시예 흐름도,

도 8은 본 발명에 따른 객체정보 저장 프로세스에 대한 일실시예 흐름도,

도 9는 본 발명에 따른 장면 분할에 대한 화면 구성도,

도 10은 본 발명에 따른 작업 및 일부 검증에 대한 화면 구성도,

도 11은 본 발명에 따른 특징 기반 객체 검출/추적에 대한 화면 구성도,

도 12는 본 발명에 따른 블록 기반 객체 추적/검증에 대한 화면 구성도,

도 13은 본 발명에 따른 객체정보 입력 인터페이스 화면에 대한 구성도,

도 14는 본 발명에 따른 샷 보기 화면에 대한 구성도,

도 15는 본 발명에 따른 객체 관리 화면에 대한 구성도,

도 16은 본 발명에 따른 객체 추적 정보 화면에 대한 구성도,

도 17은 본 발명에 따른 장면 분할기 및 샷 보기 및 얼굴 그룹화에 따른 화면 구성 예시도,

도 18은 본 발명에 따른 작업 및 일부 검증을 위한 화면 구성의 다른 예시도이다.

* 도면의 주요 부분에 대한 부호의 설명 *

100: 객체 기반 멀티미디어 편집 시스템 30: 제어 관리부

31: 데이터 관리부 32: 멀티미디어 영상 분석 장치

33: 사용자 인터페이스 관리부 35: 입/출력 관리부

36: 객체/객체정보 DB 303: 프레임 추출부

311: 장면 및 비디오 샷 관리부 312: 객체정보 관리부

313: 객체별 특징 추출 함수 관리부 321: 장면 분할기

322: 얼굴 검출기 323: 얼굴 인식기

324: 비얼굴 객체 검출기 325: 비얼굴 객체 인식기

326: 객체 추적기 331: 객체정보 입력부

332: 편집부 40: 객체 검색기

본 발명은 멀티미디어 저작 툴(Multimedia Authoring Tool), 즉 멀티미디어 영상 분석/편집(예를 들면, 객체 분류, 객체 검색/추적, 객체정보 부가 등)에 관한 것으로, 일련의 분석/편집 모듈들을 긴밀하게 연계시킴으로써, 임의로 주어진 원본 멀티미디어 객체(예컨대, 원본 동영상의 일부 셀)를 편집자의 선택에 따라, 다른 데이터(예컨대, 다른 정지 영상, 비디오 데이터, 다른 오디오 데이터, 다른 URL 데이터 등)과 실시간 연결시킬 수 있도록 하거나 기타의 이벤트를 추가할 수 있게 하는 것이다.

즉, 본 발명은 동영상 혹은 정지 영상에서 특정한 인물, 물건, 소재 등의 객체를 선택할 경우, 하이퍼텍스트와 유사한 어떠한 행위를 할 수 있는 이벤트를 갖는 콘텐츠를 분석/편집할 수 있게 하는 멀티미디어 분석/편집기 개발에 관련한 기술이다.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.

도 1은 본 발명에 따른 객체 기반 멀티미디어 편집 서비스에 대한 개념 설명도이다.

동영상 미디어(멀티미디어 영상, 멀티미디어 콘텐츠 영상)는 복수의 다양한 장면들로 구성되어 있다. 객체(Object)는 여러 장면을 통하여 규칙 없이 출몰하며, 카메라의 각도 및 거리에 따라 또는 객체 주위 환경에 따라 형태 및 크기가 다르게 나타난다. 예를 들어, 사람(객체)의 경우, 입고 있는 옷이나 액세서리에 따라 그 형태 및 크기가 다르게 나타난다.

특히, 3차원 공간에 놓여 있는 객체들이 카메라를 통하여 2차원 정보로 매핑 되고 물체 간의 가림 현상으로 인하여, 실제로 보여지는 객체의 형태 및 크기는 매우 다양하다. 게다가, 한 편의 동영상 내에서 관심 대상이 되는 객체의 개수는 서비스의 기획에 따라 그 개수가 어떻게 되는지를 가늠하기란 매우 곤란하다.

본 발명은, 이러한 환경에서 최소한의 편집자 인터랙션(Interaction)을 통해서 관심 객체를 추출/추적하고, 자동화된 객체 추적 기술에 의해 연속되지 않은 장면에서 관심 객체가 출몰하더라도 관심 객체의 정확한 변화량을 측정하여 저장한다. 즉, 본 발명은 장면 분할, 객체 검출, 객체 인식, 얼굴 인식, 얼굴 영역 검출, 객체 추적, 객체영역 추출 등을 활용함으로써, 편집자로 하여금 최소한의 인터랙션만으로도 원하는 콘텐츠를 생성할 수 있게 한다.

이하, 도 1을 참조하여 본 발명을 설명하기로 한다.

본 발명에 따른 객체 기반 멀티미디어 편집 시스템(100)은 입력 파일(멀티미디어 콘텐츠 영상)을 장면 특성을 고려하여 일정한 영상 단위(예를 들면, 장면 또는 비디오 샷)로 분할하여 그룹화하고, 각각의 분할 그룹마다 대표 프레임(대표 화면)을 선정한 후 그 선정된 대표 프레임을 대상으로 객체 검색(객체 검출 및 객체 인식)을 수행한다. 객체 기반 멀티미디어 편집 시스템(100)에 대한 상세한 구성 및 그에 대한 설명은 도 3 및 도 4에서 하기로 한다.

여기서, 영상 단위(장면분할 단위)는 장면으로 설정할 수도 있으나, 보다 정확한 객체 검색을 위해서는 장면을 구성하는 비디오 샷(일반적으로 하나의 장면은 복수의 비디오 샷으로 구성되며, 경우에 따라서는 장면이 곧 비디오 샷이 되는 경우도 있다)을 영상 단위로 설정하는 것이 바람직하다. 만약, 영상 단위가 비디오 샷인 경우에는 사용자(편집자)의 편집의 용이성을 위하여 장면 분할을 수행하고, 각각의 분할된 장면마다 '샷' 단위로 멀티미디어 영상을 분할하게 된다.

장면(Scene)과 샷(비디오 샷)(Video Shot)에 대하여 더 살펴보면 다음과 같다. 보통, 기획에 의해 제작된 동영상의 경우, 많은 수의 카메라를 사용하여 촬영되며, 이를 편집하여 하나의 동영상으로 만들어진다. 이때, 같은 시간, 같은 장소에서 일어난 사건에 대하여 3대의 카메라를 사용하고, A, B 두 등장인물이 있다고 가정한다. 카메라 1은 '인물 A', 카메라 2는 '인물 B', 카메라 3은 '인물 A와 B'를 동시에 촬영하며, 이러한 동영상은 같은 장소, 같은 시간의 사건이지만, 카메라의 전환에 의해 유사 영상의 집합으로 분할(분리)된다. 카메라 1에 의해 인물 A가 나타나는 유사영상의 집합을 "샷"(비디오 샷)이라 정의하고, 이러한 샷들로 이루어진 같은 장소, 같은 시간의 사건에 대한 집합을 "장면"이라 정의한다.

즉, 통상적으로, 하나의 장면은 복수의 샷으로 구성되고, 하나의 샷은 복수의 영상 프레임으로 구성된다. 하지만, 콘텐츠 영상 장면의 특성에 따라서는 장면이 곧 샷이 되거나, 또는 개별 프레임이 곧 샷이 될 수도 있다.

다음은 특정한 객체에 대한 정보(객체 정보)에 대하여 살펴보기로 한다. 통상적으로, 실제 원 영상(입력 파일)에서 어떠한 객체가 어떠한 정보를 필요로 하는지에 대해서는 멀티미디어 저작/편집 과정을 수행하기 전에 이미 기획되어 있어야 한다. 이렇게 기획된 서비스 정보(예를 들어, 객체가 "안경"과 같이 제품인 경우, 상품 정보, 가격, 구입처, 구입 사이트 등)는 서비스정보 관리기(111)를 통하여 체계적으로 관리되다가 사용자(편집자)의 요구에 따라 특정 객체의 메타데이터로서 입력된다. 즉, 상기와 같이 미리 기획된 서비스 정보는 객체정보 입력부(도 3의 "331")에 의해 해당 객체와 연결된다.

또한, 객체정보 입력부(331)를 이용한 상세한 정보 입력은 멀티미디어 편집 비용의 증가를 가져온다.

만약, 객체 기반 멀티미디어 편집 시스템(100)이 자체 데이터베이스(예를 들어, 객체/객체정보 DB)를 통하여 객체에 대한 상세 정보를 저장/관리하고 있다면, 객체 검색 과정에서 동일 객체라고 판단된 경우(객체 정보가 저장되어 있는 객체라고 판단된 경우) 기존의 객체/객체정보 DB(도 3의 "36")에 존재하는 상세 정보가 그대로 입력된다. 즉, 특정 객체에 대하여 자동으로 객체 정보가 입력되는 것이다.

한편, 객체 검색 과정에서 새로운 객체로 인식된 경우에는 웹 사이트(112) 검색을 통하여 해당 객체 정보를 찾아 입력한다면, 편집 비용을 절감할 수 있다.

서비스정보 관리기(111)에서 관리하고 있는 서비스 정보는 정보 서버(160)를 통하여 전자상거래 서버(170)에 전달되어 서비스 제공에 이용될 수 있다. 즉, 정보 서버(160)는 전자 상거래 서버(170)와 연계하여 인터넷 쇼핑 서비스를 제공할 수도 있다.

한편, 객체 기반 멀티미디어 편집 시스템(100)의 객체추적 및 편집의 결과로 생성된 객체의 메타 데이터는 서비스 규격에 따라 BIFS, LASeR 등으로 변환된다.

다중화 장치(멀티플렉서)(130)는 오디오/비디오 인코더(120)를 통하여 인코딩된 데이터와 상기 변환된 메타 데이터를 다중화한다.

다중화 장치(멀티플렉서)(130)에서 출력되는 데이터가 결국 스트리밍 서버(140)를 통해 출력 장치(150)(예를 들어, 셋톱 박스, 사용자 단말 등)으로 서비스된다. 여기서, 셋톱 박스의 역다중화 장치(디멀티플렉서)는 메타 데이터가 사용자의 인터랙션이 가해 질 수 있는 상태로 재생하며, 사용자의 인터랙션이 가해질 경우 백본 채널을 통해 정보 서버(160)에 특정한 정보를 요청하여 수신한다.

도 2는 본 발명에 따른 편집 유닛이 참조하는 기본 참조 유닛에 대한 설명도로서, 편집 유닛(22)에 해당하는 객체 기반 멀티미디어 편집 시스템(100)이 어떠한 기본 참조 유닛(20)을 참조하는지를 나타낸다.

기본 참조 유닛(20)에는 동영상 파서(201), 디코더(202), 고속 로 레벨(Low-level) 영상 처리기(203), 고속 미드 레벨(Mid-level) 영상처리기(204), 하이 레벨(High-level) 영상 처리기(205), 이미지 파일 처리기(206), 동영상 재생기(207), 인코더(208) 등이 있으며, 각각의 프로세서의 기능은 일반적으로 공지되어 있는 바, 상세한 설명은 생략하기로 한다.

본 발명에 따른 객체 기반 멀티미디어 편집 시스템(100)은 편집 유닛(22)에 해당하는 것으로서, 객체 추적 및 편집을 수행함에 있어서 기본 참조 유닛(20)을 이용한다.

한편, 출력 유닛(24)에는 서비스 전송스트림(Service TS) 데이터, 객체/객체정보 DB, 메타데이터가 있다. 여기서, 객체/객체정보 DB는 객체 기반 멀티미디어 편집 시스템(100)에 포함된다고 볼 수도 있다.

도 3은 본 발명에 따른 객체 기반 멀티미디어 편집 시스템의 일실시예 구성도이다.

본 발명에 따른 객체 기반 멀티미디어 편집 시스템(100)은, 도 3에 도시된 바와 같이, 제어 관리부(30), 데이터 관리부(31), 멀티미디어 영상 분석 장치(32), 사용자 인터페이스 관리부(33), 입/출력 관리부(35), 및 객체/객체정보 DB(36) 등을 포함하여 이루어진다. 여기서, 제어 관리부(30), 데이터 관리부(31), 사용자 인터페이스 관리부(33), 입/출력 관리부(35)를 묶어서 하나의 "관리부"라 칭할 수도 있다. 특히, 관리부는 멀티미디어 영상 분석 장치(32)의 분석을 통하여 검색/추적된 객체에 대하여 해당 객체 정보를 입력하거나, 사용자 인터페이스를 통하여 장면/객체 편집 등을 수행한다고 할 수 있다.

이하, 각각의 구성요소에 대하여 상세히 설명하기로 한다.

먼저, 제어 관리부(30)에 대하여 설명하면, 다음과 같다. 제어 관리부(30)는 객체처리 제어부(301), 코덱 관리부(302), 프레임 추출부(303), 및 객체/객체정보 DB 관리부(304)를 포함하여 이루어진다.

객체처리 제어부(301)는 객체 검출, 인식, 추적 등과 같은 객체 처리와 관련된 전반적인 제어 기능을 수행한다. 즉, 객체처리 제어부(301)는 프레임 추출부(303) 및 객체/객체정보 DB 관리부(304)를 제어하고, 객체 검출/인식, 객체영역 추출 등이 원활하게 수행되도록 장면 및 비디오샷 관리부(311), 객체별 특징 추출함수 관리부(313), 및 멀티미디어 영상 분석 장치(32) 등을 제어하며, 사용자 인터랙티비가 달성될 수 있도록 사용자 인터페이스 관리부(33)과 연동한다.

코덱 관리부(302)는 입력 파일(동영상)의 처리를 위하여, 기본 참조 유닛(20)의 상세 기능부, 예를 들어 동영상 파서(201), 디코더(202), 인코더(208) 등의 조합을 관리한다.

프레임 추출부(303)는 입력 파일에 해당하는 멀티미디어 콘텐츠 동영상으로부터 프레임 단위의 동영상(이하, 간단히, 프레임이라 한다)을 추출하여 장면 및 비디오샷 관리부(311)와 프레임별 개별 객체정보 디스플레이부(341)로 전달한다. 또한, 프레임 추출부(303)는 프레임 단위의 추적 또는 검증을 위하여 해당 프레임 리스트를 장면 및 비디오샷 관리부(311) 또는/및 프레임별 개별 객체정보 디스플레이부(341)에 전달한다.

객체/객체정보 DB 관리부(304)는 객체/객체정보 DB(36)를 관리하고, 객체 처리 제어부(301) 또는 객체 정보 구조화부(313)와 연동한다. 특히, 객체/객체정보 DB 관리부(304)는 객체 정보 구조화부(313)에 저장된 정보를 DB화하여 출력/관리한다.

다음은, 데이터 관리부(31)에 대하여 설명하기로 한다. 데이터 관리부(31)는 장면 및 비디오샷 관리부(311), 객체정보 구조 관리부(312), 객체정보 구조화부(313), 및 객체별 특징 추출 함수 관리부(314)를 포함하여 이루어진다.

장면 및 비디오샷 관리부(311)는 장면 분할기(321)에 의하여 분할된 장면과 비디오 샷을 구분하여 저장/관리함으로써 객체 검출의 속도는 증가시키면서도 동시에 검출되지 않는 객체의 수가 최소화되게 한다. 또한 장면 및 비디오샷 관리부(311)는 장면 분할기(321)에 의하여 선정된 각각의 장면 또는 비디오샷에 대한 대표 프레임을 저장/관리한다.

객체정보 관리부(312)는 객체 정보를 총괄하여 구조화해서 저장/관리하는 것으로서, 객체정보 입력부(331)를 통하여 입력된 객체 정보를 저장하여 관리하며, 프레임별 개별 객체 정보 디스플레이부(341), 편집정보 디스플레이부(353), 메타데이터 출력부(354)를 통하여 출력된다. 여기서, 객체 정보에는 정량적 정보, 관계적 정보, 프레임 내에서의 영역, 프레임 번호, 특징 벡터, 이벤트 정보, 객체의 깊이 정보 등이 포함된다.

객체별 특징 추출 함수 관리부(313)는 각각의 객체 유형별로 특징 추출 함수를 다르게 관리하는 것으로서, 객체 유형별로 해당 객체를 인식하기 위한 특징데이터 및 알고리즘(객체 검출/인식 등에 대한 알고리즘)을 다르게 적용하기 위하여, 객체별로 특징 데이터 및 특징 추출 알고리즘의 종류를 기억함으로써 정확인 객체 인식을 가능하게 한다. 예컨대, 사물 인식과 얼굴 인식의 경우에 대하여 특징 데이터 및 알고리즘을 동일하게 적용하면, 인식 자체가 불가능한 경우가 발생할 수 있다. 따라서 객체 유형에 따라 서로 다른 알고리즘과 서로 다른 특징 데이터가 적용되는 것이 바람직하다.

다음은, 멀티미디어 영상 분석 장치(32)에 대하여 설명하기로 한다. 멀티미디어 영상 분석 장치(32)는 장면 분할기(321), 얼굴 검출기(322), 얼굴 인식기(323), 비얼굴 객체 검출기(324), 비얼굴 객체 인식기(325), 객체 추적기(326), 영역 추출기(327)를 포함하여 이루어진다. 이에 대해서는 도 4에서 상세히 설명하기로 한다.

다음은, 사용자 인터페이스 관리부(33)에 대하여 설명하기로 한다. 사용자 인터페이스 관리부(33)는 객체정보 입력부(331) 및 편집부(332)를 포함하여 이루어지고, 편집부(332)는 편집 작업 제어부(3321)와 편집 작업 관리부(3322)를 포함하여 이루어진다.

객체정보 입력부(331)는 객체에 대한 기본 정보(예를 들어, 객체 이름 등) 및 링크 정보를 사용자로부터 입력받는 것으로서, 객체 간의 구조 정보, 특징 정보 및 영역 정보 등을 화면에서 확인할 수 있게 하고 또한 이를 수정할 수 있게 하는 사용자 인터페이스를 제공한다.

편집작업 제어부(3321)는 편집 작업 중에 필요한 도구 및 솔루션에 사용자가 접근할 수 있도록 인터페이스를 제공한다. 편집작업 관리부(3322)는 편집 작업의 진행 사항을 기록함으로써 편집 실수에 대비한다. 즉, 편집작업 관리부(3322)는 기록된 편집 과정에 대하여 취소와 반복이 가능하도록 편집 히스토리를 관리한다.

다음은, 입/출력 관리부(35)에 대하여 설명하기로 한다. 입/출력 관리부(35)는 메타 데이터 출력부(354)과 비디오 랜더링부(351)과 오디오 랜더링부(352)과 편집 정보 디스플레이 시스템(184)으로 구성 된다.

비디오 랜더링부(351)는 코덱 관리부(302)에서 출력되는 비디오 데이터를 렌더링하며, 이러한 렌더링 화면은 편집작업 제어부(3322)와 공유된다.

오디오 랜더링부(352)는 코덱 관리부(302)에서 출력되는 오디오 데이터를 렌더링하여 스피커로 출력한다.

편집 정보 디스플레이부(353)는 편집 과정의 특수정보를 디스플레이함으로써 편집과정의 실수를 최소화하고 필요한 편집과정으로 유도한다.

메타 데이터 출력부(354)는 객체 정보 구조화 시스템에 저장된 객체의 시간, 영역, 이벤트 정보를 원하는 어떠한 규격이든 그 규격에 맞게 메타데이터로 생성한다. 이러한 메타데이터의 규격으로는 BIFS, LASeR 등이 있다.

다음은, 검증 관리부(34)에 대하여 설명하기로 한다. 검증 관리부(34)는 프레임별 개별 객체 정보 디스플레이부(341)와 순차적 객체정보 디스플레이부(342)를포함하여 이루어진다.

프레임별 개별 객체 정보 디스플레이부(341)는 각각의 객체에 대한 검출, 추출, 추적 결과에 대하여 사용자가 프레임별로 한눈에 알아볼 수 있도록 디스플레이 하고, 만약 오류가 있는 경우에는 쉽게 오류를 확인할 수 있게 디스플레이한다.

순차적 객체정보 디스플레이부(342)는 입력 데이터의 재생 과정에 편집된 객체 정보가 어떻게 나타나는지를 사용자가 한눈에 알아볼 수 있도록 디스플레이한다.

도 4는 본 발명에 따른 도 3의 멀티미디어 영상 분석 장치의 일실시예 상세 구성도이다.

본 발명에 따른 장면 변화에 강인한 멀티미디어 영상 분석 장치(32)는 멀티미디어 영상을 소정의 영상 단위로 분할해서 분할 영상마다 대표 프레임을 선정하고, 그 선정된 대표 프레임들을 우선 대상으로 하여 멀티미디어 영상을 분석하는 것이다.

상기와 같은 멀티미디어 영상 분석 장치(32)는 도면에 도시된 바와 같이, 장면 분할기(321), 얼굴 검출기(322), 얼굴 인식기(323), 비얼굴 객체 검출기(324), 비얼굴 객체 인식기(325), 및 객체 추적기(326)를 포함하여 이루어진다. 여기서, "322" 내지 "325"를 객체 검색기(40)라 하고, "401"은 객체 검출기에 해당하며, "402"는 객체 인식기라 한다. 도면에는 도시되지 않았으나, 장면의 특성에 따라서는 객체 유형(사람 얼굴, 동물 얼굴, 의류 등)별로 다양한 객체 검출기 및 객체 인식기가 포함될 수 있다.

도 3에 도시된 멀티미디어 영상 분석 장치(32)에서는 객체 추출(검출)/인식/추적, 영역 추출 등과 관련된 부수적인 제어 기능(개체별 특징 추출 함수 관리, 멀티미디어 분석 결과의 출력, 사용자 인터페이스 기능 등)을 각각의 유형에 따라 별도의 관리부를 통하여 구현되도록 구성하였으나, 실시예에 따라서는 도 4에 도시된 바와 같이 기능 수단에 관련 제어 기능을 각각의 해당 기능 수단에서 동작하도록 구현할 수도 있다(도 3과 도 4의 대응관계를 고려하여 도 3과 동일한 식별번호를 사용하기로 한다). 예를 들어, 객체 추적기(326)에 의한 추적 결과를 사용자에게 출력해주는 기능을 해당 객체 추적기에서 수행하도록 구성할 수도 있다.

장면 분할기(321)는 멀티미디어 영상을 영상 단위(장면, 샷)로 분할하고, 각각의 분할 영상마다 대표 프레임을 선정한다. 더욱 상세하게, 장면 분할기(321)는 하나의 카메라에 의해 기록된 연속적인 일련의 프레임들, 즉 비디오의 물리적인 기본단위로서 샷 경계 면에 의해 구분된 비디오 샷과 의미적으로 관련되어 있고 시간적으로는 이웃한 샷들의 모임인 장면을 구분하며, 하나의 비디오 장면 또는/및 샷의 내용을 가장 잘 반영하는 대표 프레임(대표 화면)을 선정한다. 여기서, 분할된 샷 또는 장면마다 해당 분할된 샷 또는 장면에 속하는 모든 프레임들 중에서 가장 많은 정보를 포함하는 프레임을 해당 분할된 샷/장면의 대표 프레임으로 선정할 수 있으며, 이러한 대표 프레임 선정 방식을 사용한다면 비록 대표 프레임에서의 검색을 실시하더라도 그 오류를 줄일 수 있게 된다. 이러한 프레임에서의 정보에는 포커스 정보 등의 낮은 등급의 정보부터 갬색된 객체(얼굴, 비 얼굴) 개수 등이 포함될 수 있다.

객체 검색기(40)는 영상 프레임(대표 프레임, 개별 프레임)에서 특정한 객체를 검출(추출)하는 '객체 검출기'(401)와, 상기 검출된 객체와 「비교 대상이 되는 객체(검색대상 객체, 관심 객체)」가 동일한지를 판단하는 '객체 인식기'(402)를 포함하여 이루어진다. 여기서, 객체 검출기(401)는 얼굴 검출기(322) 및 비얼굴 객체 검출기(324)를 포함하여 이루어지며, 실시예에 따라서는 객체 유형 별로 그에 부합하는 객체 검출기를 포함할 수 있다. 객체 인식기(402)도 객체 검출기(401)와 동일한 방식으로 구성된다.

우선, 객체 검색기(40)에 대하여 전반적으로 설명하면, 다음과 같다.

객체 검색기(40)는 장면 분할기(321)에 의하여 선정된 대표 프레임들을 중심 객체유형을 기준으로 객체 동일 여부에 따라 분류한다. 즉, 중심 객체유형이 "인물 얼굴"인 경우, 인물 얼굴을 기준으로 대표 프레임을 분류한다. 배우 A의 얼굴이 포함된 대표 프레임 그룹, 배우 B의 얼굴이 포함된 대표 프레임 그룹 등으로 분류될 수 있으며, 동일 배우에 대해서도 특징 데이터가 복수 개 있는 경우(예를 들어, 촬영 각도, 얼굴 표정 등에 따라 특징 데이터가 다를 수 있음)에는 동일 배우에 대해서도 복수 개의 대표 프레임 그룹이 존재할 수 있다.

여기서, 객체 검색기(40)는 객체 동일 여부의 판단 대상이 되었던 중심 객체유형에 해당하는 객체(예를 들면, 인물의 얼굴)에 대해서는 해당 대표 프레임 내에서 식별 표지를 통하여 구분하되, 분류 그룹별로 서로 다른 식별 표지를 사용한다, 즉, 분류 그룹별로 색깔이 다른 식별 표지를 이용하거나, 사각형, 오각형 등 형태가 다른 식별 표지를 사용한다. 여기서, 식별 표지는, 중첩되는 객체가 보일 수 있도록 색깔로 구분되는 다각형 형태(이에 한정되는 것은 아님)의 영상(도 14의 "1402")일 수 잇으며, 이는 식별 대상이 되는 객체 (얼굴 객체)에 중첩(오버레이)된다.

또한, 객체 검색기(40)는 분류 그룹(분류된 대표 프레임 그룹)별로 해당 소속 대표 프레임(특정 대표 프레임 그룹에 속하는 하나 또는 복수의 대표 프레임)을 대상으로 하여 검색대상 객체(예를 들어, 특정한 배우의 얼굴, 특정 사물(특정한 형태의 안경) 등)를 검색하고, 그 검색 결과를 구조화하여 사용자가 볼 수 있게 한다. 즉, 검색대상 객체가 포함된 대표 프레임들을 그룹화하여 관리한다. 실시예에 따라서는 중심 객체유형에 따른 분류 과정을 수행하지 않고, 장면 분할기(321)에서 선정된 대표 프레임들을 대상으로 하여 검색 대상 객체를 검색할 수도 있다. 여기서, 검색대상 객체와 동일한 객체로 인식되어 검색된 객체(특정인물의 얼굴, 특정한 사물 등)에 대해서는 해당 대표 프레임 내에서 식별표지를 이용하여 구분하되, 동일 객체들에 대해서는 동일한 식별표지를 사용하는데, 이에 대해서는 위에서 설명한 방식과 동일한 방식을 사용한다. 그리고, 검색대상 객체는 데이터베이스(36)를 통하여 저장/관리되는 객체이거나, 또는 사용자(편집자)로부터 검색을 위하여 입력받은 객체일 수 있다.

또한, 객체 검색기(40)는 검색대상 객체의 유형별로 객체 검색 관련 알고리즘을 다르게 적용할 수 있다. 즉, 검색대상 객체가 얼굴 객체 또는 비얼굴 객체 중 어느 하나에 속하는지에 따라 객체 검색 관련 알고리즘을 다르게 적용할 수 있다. 또한, 객체 검색기(40)는 대표 프레임에서의 객체 검색은 특징 기반의 객체 검출 방식을 이용한다.

이하, 객체 검색기(40)의 각각의 구성요소별로 구분하여 설명하면, 다음과 같다.

얼굴 검출기(322)는 임의의 대표 프레임에서 사람의 얼굴 영역을 추출하고, 얼굴 인식기(323)는 얼굴의 특징 벡터를 비교하여 동일 인물 여부를 판단하는 것이다. 객체는 그 객체 유형마다 특징 벡터(특징 데이터)가 서로 다르기 때문에 객체 검출/인식을 위한 알고리즘을 객체 유형별로 다르게 적용하는 것이 바람직하다. 특히, 얼굴의 경우에는 다른 유형의 객체(예를 들어, "자동차", "꽃병", "손", "의류" 등과 같은 비얼굴 객체)와는 다른 특성이 존재하는 바, 적어도 얼굴과 비얼굴 객체로는 구분하여 서로 다른 알고리즘을 적용하는 것이 바람직하다.

비얼굴 객체 검출기(324)는 미리 저장되어 있는 객체/객체정보 DB(36)의 특징 벡터나 사용자의 인터랙티브에 의해 추출된 객체의 특징 벡터를 이용하여, 비디오 샷 혹은 장면의 대표 프레임에서 동일 객체를 찾는다. 한편, 비얼굴 객체 인식기(325)는 추출된 특징 벡터의 비교를 통하여 비교 대상의 두 객체가 동일한 객체인지 여부를 판단한다.

다음은, 객체 추적기(326)에 대하여 설명하기로 한다.

객체 추적기(326)는 검색대상 객체가 검색된 대표 프레임에 소속된 개별 프레임에 대하여 상기 검색대상 객체를 추적하는 것으로서, 특히 블록 기반의 객체 추적 방식을 이용한다.

또한, 객체 추적기(326)는 장면/비디오 샷의 대표 프레임에서 검출된 객체를 그 대표프레임이 포함된 비디오 샷 혹은 장면이 포함하고 있는 모든 프레임에서 동일 객체의 위치를 파악한다. 즉, 객체 추적기(326)는 해당 대표 프레임에 소속된 개별 프레임들에 대하여 검색대상 객체의 시간상 위치(프레임 번호) 및 해당 프레임 내에서의 공간상의 위치 등을 획득한다.

또한, 객체 추적기(326)는 검색대상 객체와 동일한 객체로 인식되어 추적된 객체에 대해서는 해당 프레임 내에서 식별표지(객체 검색기에서 설명한 바와 같음)를 사용하여 구분하되, 동일 객체들에 대해서는 동일한 식별표지를 사용한다.

한편, 영역 추출기(327)(도 4에는 미도시됨)는 사용자 인터랙티브에 의해 객체가 추출되어 질 경우 최소한의 사용자 액션에 의하여 관심 객체를 정확하게 추출한다. 즉, 추출되는 관심 객체에 비관심 대상인 다른 객체가 포함되지 않도록 한다.

검출/추적된 객체에 대해서는 객체 정보를 입력할 수 있는데, 그 방식에는 객체정보 입력부(331)를 통하여 사용자가 입력하는 방식과 객체/객체정보 DB(36) 등을 이용한 자동 입력 방식이 있다. 즉, 객체/객체정보 DB(36)에 객체에 대한 상세 정보가 있으면, 비얼굴 객체 검출기(324) 및 얼굴 인식기(323)의 동작 단계에서 동일 객체라 판단된 경우 기존의 객체/객체정보 DB(36)에 존재하는 상세 정보가 그대로 입력(자동 입력)되며, 새로운 객체의 경우에는 웹(Web) 검색(112)에 의한 입력 방식을 사용할 수 있으며, 이로 인하여 편집 비용/노력/시간을 현저히 절감할 수 있다.

도 5는 본 발명에 따른 객체 기반 멀티미디어 편집 방법에 대한 일실시예 흐름도로서, 도 3에 도시된 바와 같은 구성을 가지는 객체 기반 멀티미디어 편집 시스템(100)에서 수행되는 방법을 나타낸다.

도 5에 도시된 멀티미디어 편집 방법은 크게 (1)입력 비디오 파일에 대하여 장면 분할을 통하여 객체를 그룹화하는 과정(DB 정보를 이용한 객체 검출 프로세스 포함)(50), (2)사용자(편집자)의 선택에 의하여 지정된 특정 객체를 추적하는 과정(52), (3)사용자(편집자)에 의한 오류 검증 및 편집 과정(54)으로 나눌 수 있다. 이하, 각각의 과정을 설명하면 다음과 같다.

사용자(편집자)로부터 편집 대상이 되는 원본 파일(멀티미디어 콘텐츠 영상 파일, 즉 비디오 파일)을 입력받으면(500), 입력받은 원본 비디오 파일에서 장면 및/또는 샷을 검출하는 과정을 수행하고, 이 과정에서 각각의 장면 및 샷마다 대표 프레임(대표 화면)을 선정한다(502, 도 9 참조). 이렇게 분리(분할된) 장면/샷과 대표 프레임(대표 화면)에 대한 정보는 정면 및 비디오샷 관리부(311)에서 저장/관리된다.

객체 유형마다 상이한 특성이 있어서 접근 방식을 객체 유형별로 다르게 하는 것이 바람직한데, 본 발명에 따른 도 5에서는 의미 객체(중심 객체)의 유형을 "인물 얼굴"로 정하여 처리하는 경우를 설명하기로 한다. 의미 객체(중심 객체)는 멀티미디어 콘텐츠 영상의 장면 특성에 따라 결정되는 바, 반드시 "인물 얼굴"로 한정되는 것이 아니며, 예를 들어 '동물'들만 나오는 동영상의 경우에는 '동물' 또는 '동물 얼굴'이 중심 객체(의미 객체)가 될 수 있다. 또한, 중심 객체는 사용자(편집자)에 의하여 임의로 선택될 수도 있다.

장면/샷으로의 분할과 각각의 장면/샷에 대한 대표 프레임(912, 962, 1401) 이 결정(선정)되면, 얼굴 검출기(322) 및 얼굴 인식기(323)를 통한 얼굴 검출 및 그룹화가 진행된다(504). 즉, 대표 프레임들만을 대상으로 하여 각각의 대표 프레임에서 얼굴 객체를 검출한 후, 검출된 얼굴 객체들을 비교하여 동일한 얼굴로 인식되는 객체들이 포함된 대표 프레임들을 동일 그룹으로 분류한다. 예를 들어, 도 17의 객체 트리에서 "얼굴"(1700) 아래에는 "공유_얼굴" 그룹(1701), "윤은혜_얼굴" 그룹(1702) 등이 있는데, 이것이 바로 얼굴을 중심으로 그룹화한 결과이다. 그리고, "공유_얼굴" 그룹(1701)에는 동일한 얼굴 객체로 인식된 "공유" 얼굴 객체를 포함하는 대표 프레임들이 포함되는데, 포함되는 대표 프레임들이 서로 다른 장면이나 서로 다른 샷에 속하더라도 상관이 없다. 동일한 인물일지라도 카메라 각도, 표정 등에 따라 서로 다른 얼굴 객체로 분류될 수도 있다.

그리고, 상기와 같이 검출 및 그룹화가 완료된 얼굴객체는 객체정보 관리부(312)에 등록되어 객체 트리 창(1500)의 객체 목록과 장면/객체 보기 창(950)의 객체 목록으로 갱신된다.

상기와 같이 얼굴을 중심 객체로 하여 그룹화가 완료된 경우, 추가적인 검색 대상이 되는 객체(검색 대상 객체)가 저장되어 있는 객체/객체정보 DB(36)가 있는지를 확인하여(506), 객체/객체정보 DB(36)가 있으면 DB 정보를 이용한 객체 검출 프로세스를 수행한다(508).

"508" 과정을 설명하면, 다음과 같다. 얼굴 객체를 중심 객체로 하여 그룹화를 수행한 후, 객체/객체정보 DB(36)에 검색 대상이 되는 특정한 객체 데이터(예를 들어, 특정한 배우의 얼굴 영상, 특정한 형상의 자동차 객체 등)가 있음이 확인되면 각 그룹의 대표 프레임을 대상으로 해서 해당 검색 대상 객체를 검출하여 그 검출된 객체에 대하여 객체 정보를 입력한다. 즉, 검색 대상 객체에 대한 객체정보가 객체/객체정보 DB(36)에 저장되어 있으면, 그 객체 정보를 복사하다가 상기 검출된 객체에 대한 객체 정보로서 자동 입력(연결)한다(즉, 객체/객체정보 DB(36)에 저장된 객체와의 매칭을 통하여 해당 객체 정보를 자동으로 입력한다). "508" 과정에 대한 더욱 상세한 설명은 도 6에서 하기로 한다.

일반 객체의 경우 편집자(사용자) 입력에 의해 중심 객체(의미 객체)가 등록되며("504"에서는 디폴트로 얼굴 객체를 중심 객체로 설정한 경우로 볼 수 있으며, 실시예에 따라서는 편집자가 중심 객체를 임의로 설정하게 할 수 있다), 등록된 객체에 대해서는 자동인식 및 추적 과정을 통하여 위치정보가 등록된다. 하지만, 원본 파일(입력 비디오 파일)의 입력시에 객체/객체정보 DB(36)를 함께 입력받은 경우에는 DB(36)에 정보가 있는 객체에 대해서는 "DB 정보를 이용한 객체 검출 프로세스"(508)가 수행되며, 이를 통해 자동 추출(검출) 및 추적 과정이 이루어진다.

"504" 과정 또는 "508" 과정을 통하여 검출된 장면/샷의 대표 프레임을 디스플레이하여 사용자에게 제공한다(510).

이후, 사용자(편집자)로부터 객체 검출/추적을 진행할 장면 또는 샷을 선택받고 또한 그 선택된 장면 또는 샷의 대표 프레임에서 관심 객체(검색대상 객체)를 선택받는다(512). 여기서, 관심 객체란 검출/추적 대상이 되는 객체(검색대상 객체)를 의미하는 것으로서, 사용자가 대표 프레임 상에서 네모 박스 형태 등과 같은 영역 지정 방식으로 선택된다. 예를 들어, 특정 인물의 얼굴에 있는 "안경"을 관심 객체로 선택할 수 있다.

"512"에서의 선택 과정이 이루어지면, 선택된 장면 또는 선택된 샷의 대표 프레임(만약, 특정한 장면이 선택된 경우에는 그 장면의 대표 프레임)에서 관심 객체 영역을 추출한 후, 그 추출된 관심 객체 영역을 지정해 줄 수 있는데(514), 이에 대해서는 도 7에서 상세히 설명하기로 한다.

이후, 사용자(편집자)는 추출된 객체에 대하여 객체 정보(이벤트, 구조 정보 등을 포함)를 입력할 수 있으며(516), 이렇게 입력된 객체 정보는 객체정보 관리부(312)를 통하여 저장/관리된다.

그리고, 선택된 장면/샷 내의 다른 모든 프레임에서 "514"에서 추출된 객체와 동일한 객체를 검출/추적하게 된다(518). 사용자의 요청이 있으면, 각각의 프레임에서의 추적 결과를 사용자가 볼 수 있도록 제공한다(520).

다시 말해, "518"의 객체 추적 결과는 프레임 별 객체정보 디스플레이부(341)를 통해, 사용자 인터페이스의 예시(930)처럼 표현될 수 있으며(520), 편집자는 이를 통하여 프레임 내의 객체 추적 결과에 대하여 검증을 하게 된다.

다음은, 사용자(편집자)에 의한 오류 검증 및 편집 과정(54)에 대하여 설명하기로 한다.

상기 "50" 및 "52" 과정이 모두 종결되면, 편집 자료에 대한 검사를 진행하게 되는데(522) 이를 진행하지 않는다면 저장 프로세스 과정(530)으로 천이하고, 이를 진행한다면 순차적 객체 정보 디스플레이부(342) 혹은 프레임별 개별 객체 정보 디스플레이부(341)를 통하여 편집 부분에 대한 편집 정보가 출력되는 과정(524)이 이루어지고, 정보의 오류 또는 편집자의 수정이 있는 경우에는(526) 프레임 수동 편집 과정(528)을 거친다. 이와 같으 "54"과정을 상세히 설명하면 다음과 같다.

사용자(편집자)의 검증(검사) 요청이 있으면(522) 편집 부분에 대한 편집 정보를 출력한다(524). 즉, "50" 및 "52" 과정을 통하여 획득한 편집(장면 분할, 객체 검출/추적 등을 포함하는 광의의 의미) 결과를 디스플레이한다.

그러면, 사용자(편집자)는 편집 결과나 편집 정보에 오류가 있는지를 확인하여(526) 오류가 있으면 이를 시정하는 편집을 수행한다(528). 예를 들어, 배우 A의 얼굴 그룹에 배우 B의 얼굴 프레임이 들어 있는 경우, 사용자는 분류가 잘못된 프레임을 마우스로 "드래그 앤 드롭"하여 배우 B의 얼굴 그룹에 넣을 수 있다.

상기와 같은 "50", "52", "54" 과정을 통하여 획득한 객체 정보(예를 들어, 장면 분할/그룹화 정보, 객체 분류, 객체 검출/추적 정보 등)는 저장 프로세스를 통하여 다양한 형태로 저장된다(530). 이에 대한 상세한 설명은 도 8에서 설명하기로 한다.

도 6은 본 발명에 따른 DB 정보를 이용한 객체 검출 방법에 대한 일실시예 흐름로서, 도 5의 "DB 정보를 이용한 객체검출 프로세스"(508)를 나타낸다.

객체/객체정보 DB(36)에 검색대상이 되는 객체 정보(객체 데이터)가 있는지를 확인하여(600), 검색대상 객체 데이터가 있으면 객체/객체정보 DB(36)에서 가져온다(602). 만약, 검색대상 객체 데이터가 없으면 종료한다.

"504"의 그룹화 과정을 통하여 생성된 그룹들의 대표 프레임들을 장면 및 비디오샷 관리부(311)에서 가져와서(606), 객체 유형(얼굴인지, 아니면 사물 등과 같이 비 얼굴인지)을 확인하여(608) 해당 객체의 유형에 따라 객체 검출(추출) 및 인식 알고리즘을 다르게 적용한다(610 내지 616). 즉, 검색대상 객체의 유형에 따라, 객체별 특징 추출 함수 관리부(313)에서 관리되는 적정한 함수를 선택하여 적용한다.

객체 유형 확인 결과(608), 검색대상 객체가 얼굴이면, 대표 프레임에서 얼굴 영역을 검출한 후(610) 얼굴 인식 과정(612)을 수행한다. 그렇지 않은 경우(비얼굴인 경우), 대표 프레임에서 객체(비얼굴 객체)를 검출한 후(614) 객체 인식 과정(616)을 수행한다. 여기서, 얼굴 인식(612) 및 객체 인식(616)은 대표 프레임에서 검출한 객체(얼굴/비얼굴 객체)와 검색대상 객체가 동일한지를 확인하는 과정이다.

얼굴 인식(612) 또는 객체 인식(616)을 수행한 결과, 객체가 매칭되지 않으면 대표 프레임 조사 단계(604)로 돌아가고, 매칭이 성공하면 객체 정보 복사 과정(620)을 수행한다. 즉, 검색대상 객체와 동일한 객체로 인식된 객체에 대하여 객체/객체정보 DB(36)에 저장되어 있는 객체 정보를 입력(자동 입력)하여 주는 것으로서, 더욱 상세하게는 객체정보 관리부(312)에 객체/객체정보 DB(36)의 내용이 복사("자동 입력")되는 것이다(620).

다음으로, 객체 추적기(326)를 통해서, 해당 대표 프레임("606"에서 가져온 대표 프레임)이 나타내는 장면 또는 샷에 속하는 전체 프레임에서 검색대상 객체의 위치를 추적한다(622).

객체를 추적하는 방식에는 크게 블록 기반의 추적 방식과 특징 기반의 추적 방식이 있다. 블록 기반의 추적 방식은, 객체를 추적함에 있어 속도는 매우 빠르지만, 장면 변화에 의해 객체가 사라진 프레임에서도 추적이 시도되어 엉뚱한 객체가 추적되는 결과를 초래할 수 있다. 특징 기반의 추적의 경우, 특징 벡터에 의한 인식 과정을 거침으로 인해 정확한 추적이 가능하지만 모든 프레임에 대하여 이러한 방식을 적용할 경우, 그 엄청난 연산량으로 인한 속도 문제로 인해, 편집자의 대기 시간이 길어진다.

따라서, 본 발명에서는 장면으로 분할하고, 장면 및/또는 샷의 대표 프레임에서는 특징 기반의 검출을 수행하고, 장면/샷에 속하는 프레임들에 대해서는 블록 기반의 추적 방식을 적용함으로써 문제점을 해결한다. 여기서, 장면 중간에 나타난 객체에 대한 추적의 오류를 줄이기 위해, 더욱 세분화된 개념의 샷을 두어 대표 프레임을 추출하여 관리하고, 이들 대표 프레임에 대해서는 특징 기반의 검출 과정에 적용하지만 사용자 인터페이스에는 보여 주지 않음으로써, 문제를 해결함과 동시에 편집자의 인터랙션 수를 줄인다. 이는 샷에 나타난 관심 객체가 장면에 나타날 확률이 매우 크기에 가능한 것이다.

상기와 같은 과정은 모든 대표 프레임에 대하여 수행될 때까지 피드백되고(즉, 미처리된 대표 프레임이 있는지를 확인하여 있으면 "606" 이하의 과정이 수행된다)(604), 또한 DB(36)에 있는 모든 검색대상 객체에 대하여 수행될 때까지 피드백된다(600).

다음 과정으로, 사용자 인터페이스(도 9의 "910" 참조)를 통하여 상기 과정을 통하여 검출된 장면(샷을 제외)의 대표 화면(대표 프레임)(편집자의 선택에 의해, 장면 내의 "샷" 단위의 대표 화면을 디스플레이할 수도 있음)을 디스플레이 함으로써(도 5의 "510" 참조) 실질적인 편집자의 편집 과정이 시작된다. 편집자는 관심 객체를 포함하는 장면 또는 샷을 선택하고 해당 관심 객체를 선택할 수 있는 인터페이스(512, 920)가 활성화되면, 대표 프레임에서 객체 추출 및 객체 영역 지정 프로세스(514)가 실행되는데, 이에 대해서는 도 5에서 설명한 바와 같다.

도 7은 본 발명에 따른 대표 프레임에서의 객체 추출 및 객체영역 지정 방법에 대한 일실시예 흐름도로서, 객체 기반 멀티미디어 편집 시스템(100)에서 수행되는 방법을 나타낸다.

편집자(사용자)가 작업도구(903)를 통하여 관심 객체(검색대상 객체)를 선택하면(512), 해당 관심 객체의 추적을 위하여 지능화된 영상 분할 알고리즘을 이용하여 해당 객체 영역을 설정(분할)한다(700).

그리고 나서, 해당 객체에 대한 특징값을 추출하고(702), 객체정보 그룹화 및 계층화(704)를 통하여 다른 객체와의 관계를 정립하여, 객체정보 관리부(312)에 저장한다.

다음으로, 관심 객체 이외의 불필요한 주변 요소들이 배제되도록 하는 객체 영역 근사화 과정(706)을 수행하고, 그 수행결과 데이터를 객체정보 관리부(312)에 저장한다. 상기 과정에서 인지된 관심 객체는 객체 정보 입력부(331)(1010)를 통하여 입력되며(516), 다른 모든 장면/샷에서 추적된다(518).

도 8은 본 발명에 따른 객체정보 저장 프로세스에 대한 일실시예 흐름도로서, 도 5의 "530" 과정을 나타낸다.

객체정보 관리부(312)에서 저장 관리되는 객체 정보를 그 활용 용도에 따라 메타데이터 파일로 저장하거나, 메타 데이터로서 객체/객체정보 DB(36)에 저장하거나, 또는 일정한 규격 정보로 구성하여 저장할 수 있다(800).

편집자는 상기와 같은 과정을 통하여 저장소(저장부)에 저장(입력)된 메타 데이터의 상태를 확인할 수 있다(802). 즉, '미리 보기'와 같은 사용자 인터페이스를 통하여 메타데이터가 오류 없이 저장(입력)되었는지를 확인한다.

한편, 편집자의 요청에 따라, 저장(입력)된 메타 데이터를 플래시, 엠펙 4, 기타 서비스 타입의 미디어(미디어 데이터)로 변환하여 저장할 수도 있다(804).

도 9 내지 도 12는 본 발명에 따른 객체 기반 멀티미디어 편집 시스템(100)에서 제공하는 사용자 인터페이스 화면의 구성을 나타낸다.

객체 기반 멀티미디어 편집 시스템(100)에서 제공하는 인터페이스 화면(900)은 기본적으로 응용 프로그램이 가지는 메뉴(901), 메인 도구(902), 및 상태 바(970)를 포함하고, 더 나아가 작업 도구 바(903), 작업 창(940), 정보 창(1040), 장면선택 및 객체보기 창(950)으로 구성된다.

작업 창(940)은 장면 보기 창(910), 미디어 재생기 및 작업 영역 창(920), 및 프레임 보기 창(1030)으로 구성된다. 작업 도구 바(903)는 작업 창(940)의 활성화 상태에 따라서 그 조합이 변경된다.

정보 창(1040)은 특정 객체의 상세 정보를 입력하고 보여줄 수 있는 객체 정보 창(1010), 객체 간의 구조 및 그룹 정보를 파악할 수 있는 모든 객체 정보 창(1020), 편집자의 작업 내용을 관리하고 보여 주는 작업 정보 창(1030)으로 구성된다.

장면선택 및 객체보기 창(950)은 객체의 목록(951, 952), 시간 축(954), 시간 순 장면 표시자(964)로 구성된다.

이하, 도 9 내지 도 12에 대하여 각각 설명하면, 다음과 같다.

도 9는 본 발명에 따른 장면 분할에 대한 화면 구성도로서, 장면 분할기(321)에 의해 생성된 장면의 대표 화면(대표 프레임)(912) 및 정보(장면번호, 시각정보, 프레임 개수 등)(913)를 표시하고, 분할 장면 자체의 편집 및 편집 장면으로 가기 위한 사용자 인터페이스를 제공한다. 그리고, 장면 보기 창(910)에는 현재 장면이 분리되고 있는 중임을 알리는 하면 구성요소도 있다(904).

분할 장면 자체의 편집을 위해서는 작업도구(903)를 활용한다. 실제 분리된 장면 하나의 정보(913)는 대표화면(912)이 화면에 표시되면 그와 함께 표시되며, 시간 순 장면 표시자(964)에 동기화된다. 이때, 시간 축(954)과 장면의 연결성을 보여주기 위하여, 시간 축에 대한 장면 정보(956)와 실제 대표 화면을 동일 컬러로서 연결한다.

시간 축(954)은 한계를 가지는 화면에서 세부 사항과 개괄 사항을 동시 접근 가능하도록 시간 축 확대 축소 컨트롤(953)에 의해 조절될 수 있다. 또한 스크롤에 가려져 보이지 않는 장면 및 객체를 바로 선택할 수 있는 기능(959, 957)을 제공한다. 도 9에서는 콤보 박스를 이용하였으나 그 기능이 어떠한 도구를 이용하여도 무관하다.

또한, 검증 단계의 편리성 및 유연한 사용자 인터페이스를 제공하기 위하여 객체 목록(951)에서 선택된 객체가 포함된 장면만 볼 수 있는 기능(961)을 제공한다. 현재 화면에서 관심 있는 객체(관심 객체)가 존재하는 장면을 대표 화면(대표 프레임) 리스트(911)에서 선택하게 되면 다음 단계가 시작된다. 물론, 장면 분할기(321)는 별도 쓰레드에 의해 구동되어, 사용자 인터페이스에 지장을 주지 않게 할 수도 있다.

그리고, 도 9의 화면의 맨 아래의 상태표시줄(970)을 통해서는 "Edited file Full Path"(971), "Current Scene"(972), "장면 분리 중'(973), ""진행상태"(974) 등을 나타낸다.

도 10은 본 발명에 따른 작업 및 일부 검증에 대한 화면 구성도이다.

도 10에 도시된 인터페이스 화면은 이전 단계에서 선택된 장면의 작업(편집 작업) 및 재생에 관련된 것으로서, 미디어 재생기 및 작업 영역(920)이 활성화된 상태를 나타내며, 작업도구 창(903)에는 여기에 맞는 도구들이 존재한다. 이전 단계에서 선택된 장면의 시간이 작업 및 재생 화면(1001)에서 현재 재생 시간으로 일시 정지된 상태에서, 객체 선택 작업은 진행된다. 객체 선택과의 관계에서는 작업도구 창(903)의 도구를 선택하여 객체를 영역 추출기(327)를 거처 분리하는 기능을 제공한다. 여기서, 작업 화면과 재생기 화면을 동시에 사용하기 때문에, 재생과 관련한 제어 상자(제어 기능)(1009)를 제공한다.

시간 탐색기(1004)는 현재 작업 장면의 위치를 포인트 컨트롤(1002)로 표시하며, 비디오 컨트롤의 시크 바에 영역 표시기(1003)를 두어 전체 시간에서 현 작업 장면의 범위를 표시하는 기능을 제공한다. 또한, 이러한 시간 정보는 장면 선택 및 객체 보기 창(950)의 시간 축(954), 시간 축에 대한 장면 정보(956), 시간 순 장면 표시자(964), 시간 축(954)의 영역 표시기(955) 등과 함께 동기화된다.

분리된 객체가 생성되면 이는 객체 목록(951)에 추가되며, 이 객체에 연결된 도 13에 도시된 바와 같은 화면 정보를 제공하는 객체정보 입력부(331)를 통하여 객체 정보를 새로이 입력할 수 있다. 또한 작업과 관련된 기본적인 비디오 컨트롤 기능(1005)을 제공하고, 추적된 객체를 검증/확인할 수 있도록 "현재 장면만 재생하기" 버튼(1006), "현재 객체만 표시 후 재생" 버튼(1007), "모든 객체를 화면에 표시하여 재생하기" 버튼(1008)을 제공한다. 그리고, "객체 정보"와 관련해서는 선택된 오브젝트(객체) 정보를 보여 줄 수 있다(1011).

도 11은 본 발명에 따른 특징 기반 객체 검출/추적에 대한 화면 구성도로서, 특징 기반 객체 검출/추적 과정(325, 323, 608, 618, 622)에서 사용하는 사용자 인터페이스 화면(1100)을 나타낸다.

이전 단계에서 확정된 객체는 다른 장면 및 모든 샷의 대표 프레임에서도 검출/추적된다. 이 과정에서 해당 객체가 검출/추적된 장면들은 장면 리스트(1106)에 표시되고, 각각의 장면(1103)에 대해서는 대표 화면(대표 프레임)(1101) 및 해당 정보(1102)가 출력되고, 검증/확인을 위한 객체 표시기(1104)를 동시에 표현하는 기능이 제공된다. 이때, 장면 정보 항목에는 인식기(323, 325)가 인식을 위해 사용된 정보가 표기됨으로써, 편집자로 하여금 인식기(323, 325)가 사용한 정보를 확인할 수 있게 하는 기능을 제공한다. 그리고, "1105"는 현재 객체 검색 중임을 나타내는 화면 구성요소이다.

장면 리스트(1106)에서 특정 장면이 선택된 경우, "미리 보기" 화면(940)에 미디어 재생기 및 작업 영역(920)과 같은 기능을 제공하여 매순간 편집할 수 있는 기능를 제공한다.

도 12는 본 발명에 따른 블록 기반 객체 추적/검증에 대한 화면 구성도로서, "프레임 보기"(930)가 활성화되었을 때의 사용자 인터페이스를 나타낸다.

프레임 리스트 화면(1200)에는 프레임 추출부(303)로부터 받은 현재 장면에 포함된 모든 프레임들(1201)이 개별적으로 디스플레이된다. 이때, 각각의 프레임에는 추적된 객체의 결과(노란색으로 표시된 사각형 영역)(1202)를 함께 디스플레이하는 기능을 제공함으로써 편집자가 빠르게 검증할 수 있게 한다.

만약, 프레임 리스트 화면(1200)에서 수정할 프레임이 있다면, 이를 선택하여 미디어 재생기 및 작업영역 창(920)이 활성화시킬 수 있으며, 이때 선택된 프레임의 시점으로 시간이 결정되어 일시 정지 상태로 된다. 이후, 편집자는 편집 및 수정 과정을 수행할 수 있다.

도 13은 본 발명에 따른 객체정보 입력 인터페이스 화면에 대한 구성도로서, 객체정보 입력부(331)가 제공하는 사용자 인터페이스 화면을 나타낸다.

사용자(편집자)는 객체정보 입력부(331)를 통해서 객체에 대한 전반적인 사항을 입력하게 된다. 즉, 객체정보 입력부(331)는 객체의 이름(1301), 보여 지게 될 대표 글(1302)에 대한 정보, 객체 선택 이후에 대한 불특정 다수의 행위 중 어떠한 한 행위(1306) 등 입력받는데, 본 발명에서는 이러한 행위에 대하여 특정한 범위를 제한하지 않는다. 다만 그 리스트를 예시(1308)하여 다양한 가능성을 지원하는 기능을 제공한다. 그리고, "1303"은 "객체 선택 후 행동하기"와 관련되고, 그에 대한 구체적인 유형은 "1308"의 행동 선택을 통하여 선택되며, 그 일예가 URL 바로 가기(1305)이다. 그리고, URL 입력과 관련해서는 "1307", "1309"가 있다.

도 14는 본 발명에 따른 샷 보기 화면에 대한 구성도이다.

장면 분할기(321)에 의해 분할된 장면의 대표 프레임이 장면 보기 창(910)을 통하여 화면상에 보여 질 때, 장면 보기 창(910)에서 하나의 장면(912)이 선택된다면, 그 선택된 특정 장면에 포함되어 있는 샷들에 대한 대표 프레임(1401)이 샷 보기 창(1400)을 통하여 나타난다.

샷(비디오 샷)은 매우 유사한 영상들의 연속이기 때문에, 각 샷에 대한 대표 프레임(1401)에 특정 객체가 있을 경우, 그 객체의 영역을 컬러로 구분하여 표시(1402) 하면 편집에 유용하다. 즉, 객체 관리 목록(951)과, 객체 트리 창(1500)에서 "객체가 포함된 대표화면"(1542)의 객체 위치정보(1543)가 동기화된다면, 검수 과정에 객체에 대한 정보를 시간별/구조별로 용이하게 검수할 수 있게 된다.

도 15는 본 발명에 따른 객체 관리 화면에 대한 구성도로서, 분할된 객체의 관리를 위한 객체 트리 창(1500)의 예시를 나타낸다.

객체의 관리는 기본적으로 객체 간의 관계를 트리로 표현하는 것이며, 객체 트리에 표현된 객체는 가상 객체(1511, 1512)와 실제 객체(1514)로 구분된다.

가상 객체는 실제 객체를 포함하여 관리되고, 실제 객체는 "1540"의 화면 영역에서, 특징 데이터(1541), 해당 객체를 포함한 프레임(1542), 및 해당 객체의 위치정보(1543)를 포함하여 관리된다. 가상 객체는 그에 포함된 실제 객체들 간의 상위 개념에서의 특징데이터를 포함할 수 있다. 그리고, 가상객체(1512)에는 하위의 객체(1513)가 있을 수 있다. 그리고, 특정한 사물에 대한 객체(선글라스 A)(1515)도 별도로 구분하여 관리할 수 있다.

이러한 방법으로 객체를 관리함으로써 오 인식 객체의 수정이 간단하게 이루어질 수 있으며, 객체 상호 간의 관계도를 구성하고 확인할 수 있다.

특징 데이터(1541)의 경우에는 도 15에 도시된 바와 같이 표현할 수도 있지만, 그렇지 않을 수도 있다. 또한, 객체 트리 화면(1510)에는 정보 입력이 필요한 객체(1516)와 추적이 필요한 객체(1517)를 아이콘으로 별도 표현함으로써 편집자의 검수를 지원한다.

신규로 등록된 객체는 객체 트리 화면(1510)에서 객체를 선택한 후 "객체 추적 큐로 등록" 버튼(1520)을 누르면, 단일 프레임에서 등록된 객체의 위치 정보를 객체 추적기(326)를 통하여 연속 프레임에서의 위치정보를 모두 자동으로 선정한다. 이 과정은 백그라운드 프로세서(Background Processor)에 의해 이루어지므로, 동시에 객체에 대한 정보 입력이 가능하여, 편집 시간을 단축시켜 준다. 객체에 대한 정보 입력은 객체를 선택 한 후 정보 입력 버튼(1530)을 클릭함으로서 객체 정보 입력 창(1010)을 활성화 시켜 필요한 정보를 입력한다.

한편, 객체/객체정보 DB(36)에 동일 객체(검색대상 객체)가 존재할 경우, DB(36)로부터 받은 데이터는 미리 생성되어 있으며, 편집자는 필요한 경우 이를 수정한다. 신규 객체의 경우, 편집자의 직접 입력도 가능하나 웹 사이트(112)의 검색 결과를 이용하여 편리하게 입력하는 것도 가능하다.

도 16은 본 발명에 따른 객체 추적 정보 화면에 대한 구성도로서, 객체 추적 정보를 보여 주는 창(1600)을 나타낸다.

객체 추적 및 인식 단계를 백그라운드 프로세서(Background Processor)에 할당함으로써 편집자에게 자동 처리 항목 이외의 수동 처리가 가능한 방식까지도 제공하여 전체 편집 시간을 절감한다.

도 16은 도 15의 "공유_썬글라스A_정면"(1514), "공유_썬글라스A_측면", "공유_썬글라스A_정면2"에 해당하는 객체(1601)를 자동으로 추적하는 과정을 나타낸다.

도 17은 본 발명에 따른 장면 분할기, 샷 보기, 및 얼굴 그룹화에 따른 화면 구성 예시도이고, 도 18은 본 발명에 따른 작업 및 일부 검증을 위한 화면 구성의 다른 예시도이다.

한편, 전술한 바와 같은 본 발명의 방법은 컴퓨터 프로그램으로 작성이 가능하다. 그리고 상기 프로그램을 구성하는 코드 및 코드 세그먼트는 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다.　또한, 상기 작성된 프로그램은 컴퓨터가 읽을 수 있는 기록매체(정보저장매체)에 저장되고, 컴퓨터에 의하여 판독되고 실행됨으로써 본 발명의 방법을 구현한다. 그리고 상기 기록매체는 컴퓨터가 판독할 수 있는 모든 형태의 기록매체를 포함한다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

Claims

장면변화에 강인한 멀티미디어 영상 분석 장치에 있어서,

멀티미디어 영상을 소정의 영상 단위로 분할하고, 각각의 분할 영상마다 대표 프레임을 선정하기 위한 장면 분할 수단; 및

상기 선정된 대표 프레임들을 중심 객체유형을 기준으로 객체 동일 여부에 따라 분류하기 위한 객체 검색 수단

을 포함하기 위한 멀티미디어 영상 분석 장치.
제 1 항에 있어서,

상기 객체 검색 수단은,

분류 그룹별로 해당 소속 대표 프레임을 대상으로 하여 검색대상 객체를 검색하는 기능을 더 수행하는 멀티미디어 영상 분석 장치.
제 2 항에 있어서,

상기 검색대상 객체가 검색된 대표 프레임에 소속되는 개별 프레임에 대하여 상기 검색대상 객체를 추적하기 위한 객체 추적 수단

을 더 포함하는 멀티미디어 영상 분석 장치.
제 1 항에 있어서,

상기 객체 검색 수단은,

객체 동일 여부의 판단 대상이 되었던 상기 중심 객체유형에 해당하는 객체에 대해서는 해당 대표 프레임 내에서 식별 표지를 통하여 구분하되, 분류 그룹별로 서로 다른 식별 표지를 사용하는 멀티미디어 영상 분석 장치.
제 4 항에 있어서,

상기 식별 표지는,

영상 중첩 방식을 통하여 표시되되, 중첩되는 객체가 보일 수 있도록 색깔로 구분되는 다각형 형태의 영상인 것을 특징으로 하는 멀티미디어 영상 분석 장치.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

상기 중심 객체유형은,

상기 멀티미디어 영상의 장면 특성에 기초하여 자동 결정되거나, 또는 사용자에 의하여 선택되는 것을 특징으로 하는 멀티미디어 영상 분석 장치.
제 6 항에 있어서,

상기 중심 객체유형은,

인물의 얼굴인 것을 특징으로 하는 멀티미디어 영상 분석 장치.
장면변화에 강인한 멀티미디어 영상 분석 장치에 있어서,

멀티미디어 영상을 소정의 영상 단위로 분할하고, 각각의 분할 영상마다 대표 프레임을 선정하기 위한 장면 분할 수단; 및

상기 선정된 대표 프레임들을 대상으로 하여 검색대상 객체를 검색하기 위한 객체 검색 수단

을 포함하는 멀티미디어 영상 분석 장치.
제 8 항에 있어서,

상기 검색대상 객체가 검색된 대표 프레임에 소속된 개별 프레임에 대하여 상기 검색대상 객체를 추적하기 위한 객체 추적 수단

을 더 포함하는 멀티미디어 영상 분석 장치.
제 2 항 또는 제 8 항에 있어서,

상기 객체 검색 수단은,

상기 검색대상 객체가 포함된 대표 프레임들을 그룹화하여 관리하는 것을 특징으로 하는 멀티미디어 영상 분석 장치.
제 2 항, 제 3 항, 제 8 항, 또는 제 9 항 중 어느 한 항에 있어서,

상기 검색 대상 객체는,

데이터베이스를 통하여 저장/관리되는 객체 또는 사용자에 의하여 입력받은 객체 중 적어도 어느 하나에 해당하는 것을 특징으로 하는 멀티미디어 영상 분석 장치.
제 1 항 또는 제 8 항에 있어서,

상기 영상 단위는,

장면 또는 비디오 샷 중 어느 하나인 것을 특징으로 하는 멀티미디어 영상 분석 장치.
제 12 항에 있어서,

상기 영상 단위가 비디오 샷인 경우에는,

사용자 편집을 위하여 장면 분할을 수행하고, 각각의 분할된 장면마다 샷 단위로 상기 멀티미디어 영상을 분할하는 멀티미디어 영상 분석 장치.
제 2 항 또는 제 8 항에 있어서,

상기 객체 검색 수단은,

상기 검색대상 객체의 유형별로 객체 검색 관련 알고리즘을 다르게 적용하는 멀티미디어 영상 분석 장치.
제 14 항에 있어서,

상기 객체 검색 수단은,

상기 검색대상 객체가 얼굴 객체 또는 비얼굴 객체 중 어느 하나에 속하는지에 따라 객체 검색 관련 알고리즘을 다르게 적용하는 멀티미디어 영상 분석 장치.
제 2 항 또는 제 8 항에 있어서,

상기 객체 검색 수단은,

상기 검색대상 객체와 동일한 객체로 인식되어 검색된 객체에 대해서는 해당 대표 프레임 내에서 식별표지를 이용하여 구분하되, 동일 객체들에 대해서는 동일한 식별표지를 사용하는 멀티미디어 영상 분석 장치.
제 2 항 또는 제 8 항에 있어서,

상기 객체 검색 수단은,

특징 기반의 객체 검출 방식을 이용하여 상기 대표 프레임에서의 객체 검색을 수행하는 멀티미디어 분석 장치.
제 3 항 또는 제 9 항에 있어서,

상기 객체 추적 수단은,

블록 기반의 객체 추적 방식을 이용하여 상기 개별 프레임에서의 객체 추적을 수행하는 멀티미디어 분석 장치.
제 3 항 또는 제 9 항에 있어서,

상기 객체 추적 수단은,

상기 검색대상 객체와 동일한 객체로 인식되어 추적된 객체에 대해서는 해당 프레임 내에서 식별표지를 사용하여 구분하되, 동일 객체들에 대해서는 동일한 식별표지를 사용하는 멀티미디어 영상 분석 장치.
제 3 항 또는 제 9 항에 있어서,

상기 객체 추적 수단은,

해당 대표 프레임에 소속된 개별 프레임들에 대하여 상기 검색대상 객체의 시간상 위치(프레임 번호) 및 해당 프레임 내에서의 공간상의 위치를 획득하는 멀티미디어 분석 장치.
제 3 항 또는 제 9 항에 있어서,

상기 객체 추적 수단을 통하여 추적된 객체에 대해서는 해당 객체 정보를 일괄 입력하는 수단

을 더 포함하는 멀티미디어 분석 장치.
제 1 항 또는 제 8 항에 있어서,

상기 장면 분할 수단은,

분할된 영상 단위에 속하는 모든 프레임들 중에서 가장 많은 정보가 포함되어 있는 프레임을 해당 분할 영상의 대표 프레임으로 선정하는 것을 특징으로 하는 멀티미디어 분석 장치.
장면변화에 강인한 멀티미디어 영상 분석 방법에 있어서,

멀티미디어 영상을 소정의 영상 단위로 분할하는 분할 단계;

각각의 분할 영상마다 대표 프레임을 선정하는 대표 선정 단계; 및

상기 선정된 대표 프레임들을 중심 객체유형을 기준으로 객체 동일 여부에 따라 분류하는 분류 단계

를 포함하는 멀티미디어 영상 분석 방법.
제 23 항에 있어서,

상기 그룹화 단계에서 생성된 분류 그룹별로 해당 소속 대표 프레임을 대상으로 하여 검색대상 객체를 검색하는 객체 검색 단계

를 더 포함하는 멀티미디어 영상 분석 방법.
제 24 항에 있어서,

상기 검색대상 객체가 검색된 대표 프레임에 소속되는 개별 프레임에 대하여 상기 검색대상 객체를 추적하는 객체 추적 단계

를 더 포함하는 멀티미디어 영상 분석 방법.
제 23 항에 있어서,

상기 분류 단계는,

객체 동일 여부의 판단 대상이 되었던 상기 중심 객체유형에 해당하는 객체에 대해서는 해당 대표 프레임 내에서 식별 표지를 통하여 구분하되, 분류 그룹별로 서로 다른 식별 표지를 사용하는 멀티미디어 영상 분석 방법.
제 23 항 내지 제 26 항 중 어느 한 항에 있어서,

상기 중심 객체유형은,

상기 멀티미디어 영상의 장면 특성에 기초하여 자동 결정되거나, 또는 사용자에 의하여 선택되는 것을 특징으로 하는 멀티미디어 영상 분석 방법.
제 27 항에 있어서,

상기 중심 객체유형은,

인물의 얼굴인 것을 특징으로 하는 멀티미디어 영상 분석 방법.
장면변화에 강인한 멀티미디어 영상 분석 방법에 있어서,

멀티미디어 영상을 소정의 영상 단위로 분할하는 분할 단계;

각각의 분할 영상마다 대표 프레임을 선정하는 대표 선정 단계; 및

상기 선정된 대표 프레임들을 대상으로 하여 검색대상 객체를 검색하는 객체검색 단계

를 포함하는 멀티미디어 영상 분석 방법.
제 29 항에 있어서,

상기 검색대상 객체가 검색된 대표 프레임에 소속된 개별 프레임에 대하여 상기 검색대상 객체를 추적하는 객체 추적 단계

를 더 포함하는 멀티미디어 영상 분석 방법.
제 24 항 또는 제 29 항에 있어서,

상기 객체 검색 단계는,

상기 검색대상 객체가 포함된 대표 프레임들을 그룹화하여 관리하는 것을 특징으로 하는 멀티미디어 영상 분석 방법.
제 24 항, 제 25 항, 제 29 항, 또는 제 30 항 중 어느 한 항에 있어서,

상기 검색 대상 객체는,

데이터베이스를 통하여 저장/관리되는 객체 또는 사용자에 의하여 입력받은 객체 중 적어도 어느 하나에 해당하는 것을 특징으로 하는 멀티미디어 영상 분석 방법.
제 23 항 또는 제 29 항에 있어서,

상기 영상 단위는,

장면 또는 비디오 샷 중 어느 하나인 것을 특징으로 하는 멀티미디어 영상 분석 방법.
제 24 항 또는 제 29 항에 있어서,

상기 객체 검색 단계는,

상기 검색대상 객체의 유형별로 객체 검색 관련 알고리즘을 다르게 적용하는 멀티미디어 영상 분석 방법.
제 24 항 또는 제 29 항에 있어서,

상기 객체 검색 단계는,

상기 검색대상 객체와 동일한 객체로 인식되어 검색된 객체에 대해서는 해당 대표 프레임 내에서 식별표지를 이용하여 구분하되, 동일 객체들에 대해서는 동일한 식별표지를 사용하는 멀티미디어 영상 분석 방법.
제 24 항 또는 제 29 항에 있어서,

상기 객체 검색 단계는,

특징 기반의 객체 검출 방식을 이용하여 상기 대표 프레임에서의 객체 검색을 수행하는 멀티미디어 분석 방법.
제 25 항 또는 제 30 항에 있어서,

상기 객체 추적 단계는,

블록 기반의 객체 추적 방식을 이용하여 상기 개별 프레임에서의 객체 추적을 수행하는 멀티미디어 분석 방법.
제 25 항 또는 제 30 항에 있어서,

상기 객체 추적 단계는,

상기 검색대상 객체와 동일한 객체로 인식되어 추적된 객체에 대해서는 해당 프레임 내에서 식별표지를 사용하여 구분하되, 동일 객체들에 대해서는 동일한 식별표지를 사용하는 멀티미디어 영상 분석 방법.
제 25 항 또는 제 30 항에 있어서,

상기 객체 추적 단계는,

해당 대표 프레임에 소속된 개별 프레임들에 대하여 상기 검색대상 객체의 시간상 위치(프레임 번호) 및 해당 프레임 내에서의 공간상의 위치를 획득하는 멀티미디어 분석 방법.
제 25 항 또는 제 30 항에 있어서,

상기 객체 추적 단계를 통하여 추적된 객체에 대해서는 해당 객체 정보를 일괄 입력하는 단계

를 더 포함하는 멀티미디어 분석 방법.
객체 기반 멀티미디어 편집 시스템에 있어서,

멀티미디어 영상을 소정의 영상 단위로 분할해서 분할 영상마다 대표 프레임을 선정하고, 상기 선정된 대표 프레임들을 우선 대상으로 상기 멀티미디어 영상을 분석하기 위한 멀티미디어 영상 분석 수단; 및

상기 멀티미디어 영상 분석 수단의 분석을 통하여 검색/추적된 객체에 대하여 해당 객체 정보를 입력하거나, 사용자 인터페이스를 통하여 장면/객체 편집을 수행하기 위한 관리 수단

을 포함하는 멀티미디어 편집 시스템.
제 41 항에 있어서,

상기 멀티미디어 영상 분석 수단은,

제 1항, 제2 항, 제 3항, 제 8 항, 또는 제 9 항 중 어느 한 항의 멀티미디어 영상 분석 장치인 것을 특징으로 하는 멀티미디어 편집 시스템.