KR20140040474A

KR20140040474A - 비디오 요약 장치, 방법 및 시스템

Info

Publication number: KR20140040474A
Application number: KR1020120107184A
Authority: KR
Inventors: 문진영; 김영래; 이형직; 배창석; 손승원
Original assignee: 한국전자통신연구원
Priority date: 2012-09-26
Filing date: 2012-09-26
Publication date: 2014-04-03
Also published as: US20140086553A1

Abstract

본 발명은 사용자 기반의 비디오 요약 장치 및 방법에 관한 것으로, 비디오 데이터에 대한 사용자의 시선 정보를 입력 받는 시선 정보 수집부; 상기 비디오 데이터에 포함되는 오브젝트 중 상기 시선 정보의 대상이 되는 오브젝트를 식별하기 위한 식별 정보를 관리하는 메모리부; 상기 시선 정보와 상기 식별 정보를 이용하여 상기 사용자가 주의하는 관심 오브젝트를 인식하는 제어부; 및 인식된 상기 관심 오브젝트를 포함하는 상기 비디오 데이터의 요약 데이터를 생성하는 요약부를 포함한다. 본 발명에 따르면 사용자가 중요하다고 생각하는 프레임 또는 프레임 내에 존재하는 객체 또는 사람을 중심으로 하는 요약 데이터의 생성이 가능하다

Description

비디오 요약 장치, 방법 및 시스템{Apparatus, method and system for video contents summarization }

본 발명은 비디오를 시청하는 사용자의 시선 정보를 이용해서 프레임 내에서 집중한 영역, 객체, 또는 사람을 인식하고 사용자의 생체신호를 이용해서 집중한 프레임, 샷, 또는 장면 위주로 또는 집중한 객체나 사람 위주로 비디오 요약본을 생성하는 사용자 기반의 비디오 요약 장치 및 방법에 관한 것이다.

기존의 비디오 요약 기술은 비디오를 구성하는 이미지의 특징을 이용해서 프레임의 집합으로 이루어진 장면을 구분하고 장면 변화를 이용하거나, 뉴스의 헤드라인, 영화의 자막, 스포츠 경기에서 점수판과 같은 부가 정보를 추가로 이용해서 중요한 프레임, 샷 또는 장면을 위주로 비디오를 요약하는 기술이다.

그러나 기존의 기술들은 사용자가 중요하다고 생각하는 또는 관심 있는 특정 오브젝트를 포함하는 프레임, 샷, 또는 장면 위주로 요약이 불가능하다.

본 발명은 상기 종래 기술의 문제를 해결하기 위하여 안출된 것으로서, 사용자의 시선 정보를 통해서 비디오를 시청하거나 촬영하는 사용자의 시청 또는 촬영 당시의 주의를 기울이는 대상을 파악하고, 사용자의 생체신호를 인식하여 주의하는 정도를 측정하여 이를 기반으로 사용자가 관심을 가지는 대상을 위주로 비디오 요약본을 생성하는 사용자 기반 비디오 요약 장치 및 방법을 제공하는 것을 목적으로 한다.

상기 기술적 과제를 해결하기 위한 본 실시예에 따른 사용자 기반 비디오 요약 장치는 비디오 데이터에 대한 사용자의 시선 정보를 입력 받는 시선 정보 수집부; 상기 비디오 데이터에 포함되는 오브젝트 중 상기 시선 정보의 대상이 되는 오브젝트를 식별하기 위한 식별 정보를 관리하는 메모리부; 상기 시선 정보와 상기 식별 정보를 이용하여 상기 사용자가 주의하는 관심 오브젝트를 인식하는 제어부; 및 인식된 상기 관심 오브젝트를 포함하는 상기 비디오 데이터의 요약 데이터를 생성하는 요약부를 포함한다.

상기 비디오 요약 장치는, 상기 사용자의 생체 신호를 입력 받는 생체 신호 수집부를 더 포함하고, 상기 제어부는 검출된 상기 시선 정보와 상기 식별 정보 및 상기 생체신호를 이용하여 상기 사용자가 주의하는 관심 오브젝트를 인식하는 것이 바람직하다.

상기 요약부는 인식된 상기 관심 오브젝트를 포함하는 상기 비디오 데이터의 프레임으로 구성되는 축소된 비디오 데이터를 생성하는 것이 바람직하다.

상기 요약부는 상기 비디오 데이터에 대한 메타데이터로서, 인식된 상기 관심 오브젝트를 포함하는 상기 비디오 데이터의 프레임 또는 부분 비디오 데이터에 주의 정도를 어노테이션(annotation)하는 것이 바람직하다.

상기 요약부는 상기 어노테이션을 이용하여 상기 비디오 데이터의 요약 데이터를 생성하는 것이 바람직하다.

상기 제어부는 상기 시선 정보와 상기 식별 정보를 이용하여 상기 오브젝트를 인식하는 오브젝트 인식부; 및 입력 받은 상기 생체 신호를 이용하여 상기 오브젝트에 대한 상기 사용자의 주의 정도를 분석하는 주의 정도 분석부를 포함하고, 상기 제어부는 상기 오브젝트의 상기 주의 정도를 통해 상기 관심 오브젝트를 인식하는 것이 바람직하다.

상기 요약부는 상기 오브젝트를 포함하는 상기 비디오 데이터의 프레임 또는 비디오를 구성하는 단위 데이터를 상기 주의 정도에 따라 순위화하고, 순위를 기반으로 상기 요약 데이터를 생성하는 것이 바람직하다.

상기 비디오 데이터는 디스플레이부를 통해 사용자에게 표시되는 데이터 또는 상기 사용자에 의해 촬영되는 데이터인 것이 바람직하다.

도 1 및 도 2는 본 발명의 일실시예에 따른 사용자 기반 비디오 요약 장치를 나타내는 블록도이다.
도 2는 본 발명의 다른 실시예에 따른 사용자 기반 비디오 요약 장치를 나타내는 블록도이다.
도 3은 본 발명의 일실시예에 따른 사용자 기반 비디오 요약 장치를 나타내는 세부 블록도이다.
도 4 및 도 5는 본 발명의 일실시예에 따른 사용자 기반 비디오 요약 장치의 적용예를 나타내는 도이다.
도 6은 본 발명의 일실시예에 따른 사용자 기반 비디오 요약 장치가 적용된 시스템을 나타내는 블록도이다.
도 7은 본 발명의 일실시예에 따른 사용자 기반 비디오 요약 방법을 나타내는 흐름도이다.
도 8은 본 발명의 일실시예에 따른 사용자 기반 비디오 요약 방법을 나타내는 흐름도이다.

이하에서는 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 도 1은 본 발명의 일실시예에 따른 사용자 기반 비디오 요약 장치(100)를 나타내는 블록도이다. 도 1을 참조하면, 본 실시예에 따른 비디오 요약 장치(100)는 시선정보 수집부(110), 메모리부(120), 제어부(130), 요약부(140)를 포함한다.

본 실시예에 따른 사용자 기반 비디오 요약 장치(100)는 사용자에 의한 부가적인 주의를 기울인다는 의식적인 입력 없이, 사용자에 의해 주의 되는 비디오 데이터에 대한 상기 사용자의 응시 정보를 이용하여 상기 사용자의 주의 대상으로 관심 오브젝트를 인식하고 사용자가 주의를 기울인 관심 오브젝트를 포함하는 부분만 추출하여 요약된 데이터를 생성하는 것을 의미한다.

또한, 사용자 기반이란 상술한 바와 같이 영화의 자막이나 스포츠 경기의 점수판과 같은 부가 정보를 이용하는 방법과 달리 사용자가 중요하다고 생각하거나 관심 있는 프레임, 샷 또는 장면 위주로 데이터를 요약하는 것을 의미한다. 이하 본 실시예에 따른 비디오 요약 장치(100)의 구성에 대하여 설명한다.

시선정보 수집부(110)는 비디오 데이터에 대한 사용자의 시선 정보를 입력 받는다. 비디오 데이터에 대한 시선 정보는 카메라 또는 아이트랙커와 같은 임의의시선 추적 장치로부터 획득되는 사용자의 시선 정보인 것이 바람직하다. 시선 정보는 비디오 데이터상의 좌표 정보로 나타나는 것이 바람직하다.

메모리부(120)는 비디오 데이터에 포함되는 오브젝트 중 상기 시선 정보의 대상이 되는 오브젝트를 식별하기 위한 식별 정보를 관리한다. 본 실시예에서 오브젝트는 비디오 데이터에 등장하는 인물이나 사물일 수 있으며, 사용자에게 응시 대상이 되는 모든 객체를 포함한다.

본 실시예에서 비디오 데이터 상의 특정 인물을 인식하기 위해서는 인물의 얼굴 패턴에 대한 식별 정보가 미리 구축되어 있는 것이 바람직하다. 예를 들어, 일실시예에서 시청자가 남자 주인공에 집중하는 경우에, 그 남자 주인공이 나오는 비디오 상의 프레임 또는 프레임 내에서의 위치를 파악하려면 남자 주인공의 얼굴에 대한 패턴 정보를 식별 정보로서 데이터베이스로 구축하여야 한다. 따라서 본 실시예에서 메모리부는 이러한 식별 정보에 대한 데이터베이스를 관리하는 데이터베이스 시스템일 수 있다.

또한 본 실시예에서 오브젝트들의 식별을 위한 식별 정보는 사용자에 의해 생성될 수 있다. 따라서 사용자가 자신의 성향에 맞는 식별 정보를 미리 데이터 베이스화하고 이를 비디오 요약 장치에 적용하여 보다 사용자 취향에 가까운 요약 데이터를 생성할 수 있다.

제어부(130)는 시선 정보와 상기 식별 정보를 이용하여 상기 사용자가 주의하는 관심 오브젝트를 인식한다. 즉 사용자에 의해 주의 되는 비디오 데이터에 있어 상기 사용자의 응시 정보를 이용하여 구체적인 비디오 데이터 내의 주의되는 대상을 인식한다.

즉, 시선 정보 수집부(110)를 통해 획득된 사용자의 시선 정보를 이용하여 시선 정보에 대응되는 비디오 데이터내의 대상이 구체적으로 무엇인지를 인식한다. 예를 들어 시선 정보에 대응되는 대상이 등장 인물인 경우, 이때 대응되는 등장 인물의 얼굴 정보를 메모리 부(120)에서 관리하는 데이터베이스의 식별 정보와 비교하여 구체적으로 누구인지를 인식하는 것일 수 있다.

도 3을 참조하면 본 실시예에서 제어부(130)는 시선 정보와 식별 정보를 이용하여 오브젝트를 인식하는 오브젝트 인식부(132)를 포함할 수 있다.

시선 정보 수집부(110)는 상기 사용자의 시선 검출 장치(200)로서 시선을 관찰하기 위한 시선 관찰 카메라의 촬영 영상 또는 시선 검출 장치(200)와 생체신호 측정부(300a ~ 300n)를 포함하는 휴대 장치(300)로부터 촬영된 영상을 인식하여 상기 사용자의 응시 정보를 수집한다. 수집된 사용자의 응시는 디스플레이되는 화면상에서 좌표정보 (x, y)로 정의 될 수 있다. 제어부의 오브 젝트 인식부(132)는 수집된 응시 정보와 상기 비디오 데이터를 분석하여 상기 사용자의 주의 대상을 인식한다. 본 실시예에서 오브 젝트 인식부(132)는 응시점에 대한 정보와 비디오 비디오를 인식해서 사용자가 주의를 기울인 대상이 어떠한 오브젝트인지를 인식한다. 즉, 수집된 응시 대상으로 비디오 데이터 상의 객체를 인식하는 것으로써, 시선정보로서 응시점 (x, y)에 대응되는 객체가 비디오 데이터의 특정 사람인 경우 특정 사람을 오브젝트(human5)로 인식하는 것일 수 있다.

나아가 도 2를 참조하면 본 실시예에 따른 비디오 요약 장치(100)는 생체 정보 수집부(150)를 더 포함할 수 있으며, 제어부(130)는 생체 정보 수집부(150)로부터 수집되는 생체 정보를 통하여 관심 오브젝트를 인식하는 것이 바람직하다.

즉, 본 실시예에서 주의(attention)라 함은 어떠한 대상을 응시하고 동시에 관심을 집중하여 기울이는 것으로서 본 실시예에서는 사용자가 주시하는 시선의 위치를 파악하고 사용자가 주시할때의 생체 정보를 이용하여 판단되는 집중도를 의미함이 바람직하다.

생체 정보 수집부(150)는 사용자의 생체 정보를 입력 받는다. 본 실시예에서 생체 정보는 사용자의 주의의 정도를 파악하기 위한 정보로서, 생체정보라 함은 생체가 발생하는 심전(心電), 심음(心音) 등을 포함하는 정보로서, 본 실시예에서 생체신호는 EEG, EOG, 피부전도도, 심박수 등의 생체신호를 통하여 획득한 정보를 의미한다. EEG(Electroencepharography)는 인간의 두뇌의 전기적 활동에 대한 정보로서 두뇌의 특정 화학 작용 속도와 전기 자극에 대한 신호를 의미한다. EOG(Electrooculography)는 안전도로서 눈 주위의 피부에 부착한 전극으로 기록한 전위로서, 눈 움직임을 탐지하여 획득한 정보를 의미한다. 따라서 본 실시예에 따른 생체 정보 수집부에서 입력 받는 생체 정보는 EEG, EOG, 피부전도도, 심박수 등의 생체 정보 측정 장치들을 이용해서 측정되는 사용자의 주의하는 정도와 감정 상태인 것이 바람직하다.

도 3을 참조하면 본 실시에에서 제어부(130)는 주의 정도 분석부(134)를 더 포함한다. 주의 정도 분석부(134)는 입력 받은 상기 생체 정보를 이용하여 상기 오브젝트에 대한 상기 사용자의 주의 정도를 분석한다.

주의 정도 분석부(134)는 생체 정보 수집부(150)가 사용자의 생체 정보를 측정하는 복수의 생체 정보 측정 장치(300a~300n)로부터 입력 받은 생체 정보를 인식하고 인식된 상기 생체 정보를 분석하여 상기 주의 정도를 인식하는 것이 바람직하다. 복수의 생체 정보 측정 장치(300a~300n)에서 측정된 생체 정보들을 이용하여 주의 정도를 인식하는 것은 하나의 생체 정보를 이용하는 경우에 비하여 주의 정도의 인식 오류 발생 가능성을 낮출 수 있으며, 다양한 외부의 영향에서 벗어나 객관적인 주의 정도를 인식 가능하도록 해주는 이점이 있다.

따라서 본 실시예에서 주의 정도 분석부(134)는 EEG를 통하여 주의 정도를 분석하거나 또는 EEG, EOG, 피부전도도, 심박수 등의 복수의 생체 정보를 이용하여 주의 정도를 결정하는 것일 수 있다. 도 3을 참조하면 본 실시예에서 주의 정도 분석부(134)는 복수의 생체 정보 측정 장치(300a~300n))에서 측정된 생체 정보를 입력 받고 이를 통합하고, 통합된 생체 정보를 이용하여 주의 정도를 인식하거나, 각각의 생체 정보를 통하여 분석된 주의 정도를 통합하여 통합된 주의 정도를 인식할 수 있다.

도 3을 참조하면 본 실시예에서 제어부(130)는 관심오브젝트 인식부(136)를 더 포함할 수 있다.

관심 오브젝트 인식부(136)는 오브젝트 인식부(132)에서 인식된 오브젝트에 대한 주의 정도 분석부(134)에서 분석된 주의 정도를 통해 상기 관심 오브젝트를 인식한다.

제어부(130)는 검출된 상기 시선 정보와 상기 식별 정보 및 상기 생체신호를 이용하여 상기 사용자가 주의하는 관심 오브젝트를 인식하는 것이 바람직하다. 따라서 본 실시예에서 관심 오브젝트는 시선 정보를 통하여 인식된 오브젝트에 있어서 단순히 시선이 머무르는 대상이 아닌 실제 주의를 기울이는 대상으로 인식되는 객체를 의미한다.

본 실시예에서 관심 오브젝트의 인식은 인식된 오브젝트에 대한 사용자의 주의 정도가 미리 결정된 임계 수준 이상인 경우 관심 오브젝트로 판단하는 것일 수 있으며 또는 시선 정보와 함께 시선 정보의 유지 시간이 일정 시간 이상이고 주의 정도가 임계 수준 이상인 경우 관심 오브젝트로 판단하는 것일 수 있다.

이하 인식된 관심 오브젝트를 포함하는 비디오 데이터의 요약 데이터를 생성하는 요약부(140)에 대하여 설명한다.

요약부(140)는 관심 오브젝트를 포함하는 부분 비디오 데이터들의 집합으로 구성되는 요약 데이터를 생성한다. 즉, 요약부(140)는 오브젝트 인식부(132)에서 사용자의 시점에 따라 주의하는 대상으로 인식된 주의 대상에 대하여, 주의 정도 분석부(134)가 사용자가 주의 대상을 응시하는 동안에 측정된 생체신호를 이용하여 인식한 주의 정도를 이용하여, 사용자가 시청하면서 혹은 촬영하면서 주의를 많이 기울인 프레임, 샷, 장면 또는 주의를 많이 기울인 오브젝트를 위주로 비디오 데이터의 요약본을 생성한다.

또한 도 2 및 도 3을 참조하면 본 실시예에 따른 사용자 기반 비디오 요약 장치는 어노테이션부(160)를 더 포함할 수 있다.

어노테이션부(160)는 비디오 데이터에 대한 메타데이터로서 인식된 상기 관심 오브젝트를 포함하는 상기 비디오 데이터의 프레임 또는 부분 비디오 데이터에 주의 정도를 어노테이션(annotation)한다.

즉, 어노테이션은 메타데이터로서 비디오 데이터 중 사용자의 관심 오브젝트를 포함하는 부분 비디오 데이터를 나타내는 비디오 데이터에 대한 데이터인 것이 바람직하다. 본 실시예에서 비디오 요약 장치는 상기 인식된 관심 오브 젝트에 대한 어노테이션(annotation)을 생성하고, 요약부(140)는 상기 생성된 어노테이션을 이용하여 요약 데이터를 생성한다. 어노테이션은 해당 프레임 또는 부분 비디오 데이터를 단위로 생성될 수 있으며, 관심 오브젝트가 무엇인지, 이때의 시선 정보, 주의 정도 등을 정보로 포함할 수 있다.

관심 오브젝트가 복수인 경우 어노테이션을 이용하여 관심 오브젝트별 요약 데이터를 생성하는 것이 가능하며, 주의 정도를 순위화 하여 일정 순위이상의 주의 정도를 갖는 프레임 또는 부분 데이터로 구성되는 요약 데이터를 생성하는 것도 가능하다.

나아가 본 실시예에서 부분 비디오 데이터는 비디오 데이터를 시간 또는 공간적으로 분할하여 분할된 단위 데이터일 수 있다. 즉 어노테이션은 비디오 데이터에 대하여 요약을 위한 관심 오브젝트를 포함하는 비디오 데이터 상의 시간 또는 공간적 위치 정보로 활용 가능하며 따라서 요약부(140)는 어노테이션을 이용하여 요약 데이터를 생성한다. 비디오 데이터를 시간 또는 공간적으로 분할하는 것은 시간적으로 비디오 데이터의 러닝 타임을 기준으로 분할하는 것일 수 있으며, 또는 비디오를 구성하는 프레임으로 분할하고 관심 오브젝트를 포함하는 프레임을 요약 데이터로 생성하는 것일 수 있다. 따라서 시간적 분할은 비디오 데이터를 시, 분, 초 등의 시간 단위로 분할 하는 것뿐만 아니라 비디오를 구성하는 프레임, 샷 또는 장면 등의 물리적 특징을 기반으로 비디오 구성요소 단위로 분할하는 것을 포함한다.

또한 공간적 분할은 비디오 데이터 내의 공간을 분할하는 것으로서, 사용자에게 표시되는 비디오의 화면을 평면적으로 분할하는 것일 수 있으며 나아가 비디오 내에서 표시되는 오브젝트의 상대적 위치를 기준으로 분할하는 것일 수 있다.

예를 들어 스포츠 경기에 대한 비디오 데이터에서 종목이 테니스나 배구처럼 분할된 영역에서 이루어지는 경우 관심 오브젝트는 팀에 대한 영역일 수 있으며, 축구와 같은 종목의 경우 관심 오브젝트는 특정 선수로 인식될 수 있다. 따라서 어노테이션을 통해 관심 오브젝트가 응원하는 팀의 활동 영역으로 파악되는 경우 전체 비디오 데이터 중 팀의 활동 영역으로만 구성되는 요약 데이터를 생성하는 것도 가능하다.

또한 교육용 비디오 데이터를 예를 들면 일반적으로 교육용 비디오 데이터는 교육 정보를 전달하는 사람과 교육 정보를 사용자에게 전달해주는 프레젠테이션 화면으로 분할 가능하고, 교육용 데이터에서 사람과 프레젠테이션 화면의 위치는 고정되므로 어노테이션을 통해 관심 오브젝트가 프레젠테이션화면으로 파악되는 경우 사람이 포함되지 않은 프레젠테이션화면으로만 구성되는 요약 데이터를 생성하는 것도 가능하다.

따라서, 본 실시예에서 어노테이션은 시간적 또는 공간적으로 분할된 부분 비디오 데이터에 대한 사용자의 주의 정도를 포함하는 데이터인 것이 바람직하다. 나아가, 시간적으로 분할된 일 부분 데이터에 대하여 다시 공간적으로 재 분할된 복수의 부분 데이터에 복수의 어노테이션을 생성하는 것도 가능하다.

본 실시예에서 생성되는 요약 데이터로서 비디오의 요약본은 전체 비디오 데이터 중에서 어노테이션된 시간 또는 공간적으로 분할된 부분 비디오 데이터의 결합인 것이 바람직하다.

즉, 본 실시예에서 요약부(140)는 전체 비디오를 물리적 특징을 기반으로 비디오 구성요소 단위(프레임, 샷, 또는 장면)로 구분하고, 생성된 어노테이션을 어노테이션부(160)를 통해서 제공받아, 관심 오브젝트 또는 주의 정도를 기반으로 구분된 비디오 구성요소에 대한 순위를 결정한다. 결정된 순위를 기반으로 요약 데이터에 사용할 비디오 구성요소 데이터를 선택하고, 이를 이용해서 요약 데이터로 비디오 요약본을 생성한다. 비디오 데이터를 구성하는 단위 데이터들의 순위를 결정한다는 것은 사용자가 필요로 하는 수준의 요약 데이터를 생성하기 위한 것으로서, 본 실시예에서의 요약의 정도를 결정하는 것일 수 있으며, 나아가 결정된 순위를 이용하여 다양한 주의 정도에 따른 복수의 요약 데이터를 생성하는 것도 가능하다.

또한 관심 오브젝트로 구분하여 남자 주인공에 대한 요약 데이터 또는 여자 주인공에 대한 요약 데이터를 생성하는 것도 가능하다.

이상, 본 실시예에서 요약 대상이 되는 비디오 데이터는 크게 두가지로 구분된다. 하나는 사용자가 디스플레이 장치를 통해서 시청하는 비디오이고, 다른 하나는 사용자가 모바일 아이트래커나 휴대용 카메라와 같이 휴대용 단말을 통해 촬영하는 비디오이다. 두 경우 모두 사용자의 시선 정보를 통해서 비디오 내에서 시선을 두는 응시 정보를 획득하고 비디오 내에서 응시 인식을 통해서 주의 대상이나 영역을 인식한다. 도 4를 참조하면, 도 4는 본 발명의 일실시예에 따른 사용자 기반 비디오 요약 장치(100)가 적용된 시스템을 나타내는 도이다.

본 실시예에서 비디오 요약 장치(100)는 디스플레이 장치에 내장될 수 있으며, 또는 셋톱박스와 같은 별도의 장치로 구현될 수 있다. 도 4는 디스플레이 장치에 내장되는 경우를 예시하는 것으로 요약하고자 하는 비디오 데이터가 사용자가 디스플레이 장치(100)를 통해서 시청하는 비디오인 경우를 나타내는 것으로, 디스플레이 장치(100), 시선 검출 장치(200), 생체신호 측정부(300)을 포함한다.

또한 도 5를 참조하면, 도 5는 본 발명의 일실시예에 따른 사용자 기반 비디오 요약 장치(100)가 요약하고자 하는 비디오 데이터가 사용자가 휴대 장치(300)를 통해 매대에 진열된 상품(500)을 응시하는 것을 통해 촬영되는 비디오인 경우를 나타내는 것으로서, 시선 검출 장치와 생체신호 측정부를 포함하는 휴대 장치(300)를 이용하여 입력된 정보를 이용하여 사용자 기반 비디오 요약 장치는 주의 대상 인식 및 주의 정도 인식을 수행한다.

도 6을 참조하여 도 4 및 도 5의 비디오 요약 장치를 통한 요약 프로세스를 설명하면, 도 6은 본 발명의 일실시예에 따른 사용자 기반 비디오 요약 장치(100)를 적용한 비디오 요약 시스템을 나타내는 블록도로서, 본 실시예에 따른 사용자 기반 비디오 요약 시스템은 시선 검출 장치(200), 생체 정보 측정 장치(300), 비디오 요약 장치(100), 비디오 요약 장치(100)의 메모리부(미도시)를 관리하는 데이터베이스(400)를 포함한다.

시선 검출 장치(200)는 (도 4의 경우 시선 시선을 관찰하기 위한 시선 관찰 카메라(200), 도 5의 경우 사용자가 휴대 장치(300))가 사용자의 시선을 촬영한다.

비디오 요약 장치(100)는 시선 검출 장치(200)로부터 촬영된 영상을 인식하여 상기 사용자의 응시 정보를 수집하고 데이터베이스(400)의 식별 정보를 통해 오브젝트를 인식하한다.

나아가 인식된 오브젝트에 대하여 생체 정보 측정 장치(300)로부터 측정된 생체 정보를 입력 받아 주의 정도 분석하고 이를 통해 상기 관심 오브젝트를 인식한다. 이후 관심 오브젝트를 포함하는 부분 비디오 데이터들의 집합으로 구성되는 요약 데이터를 생성한다

이하 도 7내지 8을 참조하여 상술된 사용자 기반 비디오 요약 장치에서 수행되는 비디오 요약 방법에 대하여 설명한다.

도 7은 본 발명의 일실시예에 따른 사용자 기반 비디오 요약 방법을 나타내는 흐름도이다.

본 실시예에서 비디오 요약 방법은 시선 정보 입력 단계(S100), 관심 오브 젝트 인식 단계(S200), 요약 데이터 생성 단계(S300)를 포함한다.

시선 정보 입력 단계(S100)는 시선 정보 수집부(110)가 비디오 데이터에 대한 사용자의 시선 정보를 입력 받는다.

관심 오브젝트 인식 단계(S200)는 상술한 제어부(130)가 시선 정보와 상기 비디오 데이터에 포함되는 오브젝트 중 상기 메모리부의 시선 정보의 대상이 되는 오브젝트를 식별하기 위한 식별 정보를 이용하여 상기 사용자가 주의하는 관심 오브젝트를 인식하는 관심 오브젝트 인식한다.

요약 데이터 생성 단계(S300)는 요약부(140)가 인식된 상기 관심 오브젝트를 포함하는 상기 비디오 데이터의 요약 데이터를 생성한다.

이하 도 8을 참조하여 보다 상세히 설명하면, 본 실시예에서 비디오 요약 방법은 오브젝트 인식 단계(S110), 생체 정보 입력 단계(S100’) 주의 정도 분석 단계(S110’)를 더 포함할 수 있으며, 요약 데이터 생성 단계(S300)는 어노테이션 단계(S310), 어노테이션 이용 요약 데이터 생성 단계(S320)를 더 포함할 수 있다.

오브젝트 인식 단계(S110)는 제어부(130)의 오브젝트 인식부(S132)가 응시점에 대한 정보와 비디오 비디오를 인식해서 사용자가 주의를 기울인 대상이 어떠한 오브젝트인지를 인식한다.

생체 정보 입력 단계(S100’)는 생체 정보 수집부(150)가 사용자의 생체 정보를 입력 받는다. 주의 정도 분석 단계(S110’)는 주의 정도 분석부(134)가 입력 받은 상기 생체 정보를 이용하여 상기 오브젝트에 대한 상기 사용자의 주의 정도를 분석한다.

어노테이션단계(S310)는 어노테이션부(160)가 비디오 데이터에 대한 메타데이터로서 인식된 상기 관심 오브젝트를 포함하는 상기 비디오 데이터의 프레임 또는 부분 비디오 데이터에 주의 정도를 어노테이션(annotation)한다.

어노테이션 이용 요약 데이터 생성 단계(S320)는 요약부(140)가 어노테이션을 이용하여 요약 데이터를 생성한다.

이상의 본 실시예에서의 비디오 요약 방법의 각 단계는 상술한 비디오 요약 장치에서 수행되는 비디오 요약 방법에 대응되는 것으로서 이에 대한 상세한 설명은 중복되는 것이므로 이하 생략 한다.

한편 본 발명의 사용자 기반 비디오 요약 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.

컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있으며, 또한 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트 들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다.

따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

비디오 데이터에 대한 사용자의 시선 정보를 입력 받는 시선 정보 수집부;
상기 비디오 데이터에 포함되는 오브젝트 중 상기 시선 정보의 대상이 되는 오브젝트를 식별하기 위한 식별 정보를 관리하는 메모리부;
상기 시선 정보와 상기 식별 정보를 이용하여 상기 사용자가 주의하는 관심 오브젝트를 인식하는 제어부; 및
인식된 상기 관심 오브젝트를 포함하는 상기 비디오 데이터의 요약 데이터를 생성하는 요약부를 포함하는 것을 특징으로 하는 사용자 기반 비디오 요약 장치
제 1 항에 있어서 상기 비디오 요약 장치는,
상기 사용자의 생체 신호를 입력 받는 생체 신호 수집부를 더 포함하고,
상기 제어부는 검출된 상기 시선 정보와 상기 식별 정보 및 상기 생체신호를 이용하여 상기 사용자가 주의하는 관심 오브젝트를 인식하는 것을 특징으로 하는 사용자 기반 비디오 요약 장치
제 1 항에 있어서,
상기 요약부는 인식된 상기 관심 오브젝트를 포함하는 상기 비디오 데이터의 프레임으로 구성되는 축소된 비디오 데이터를 생성하는 것을 특징으로 하는 사용자 기반 비디오 요약 장치
제 1 항에 있어서,
상기 요약부는 상기 비디오 데이터에 대한 메타데이터로서, 인식된 상기 관심 오브젝트를 포함하는 상기 비디오 데이터의 프레임 또는 부분 비디오 데이터에 주의 정도를 어노테이션(annotation)하는 것을 특징으로 하는 사용자 기반 비디오 요약 장치
제 4 항에 있어서,
상기 요약부는 상기 어노테이션을 이용하여 상기 비디오 데이터의 요약 데이터를 생성하는 것을 특징으로 하는 사용자 기반 비디오 요약 장치.
제 2 항에 있어서,
상기 제어부는 상기 시선 정보와 상기 식별 정보를 이용하여 상기 오브젝트를 인식하는 오브젝트 인식부; 및
입력 받은 상기 생체 신호를 이용하여 상기 오브젝트에 대한 상기 사용자의 주의 정도를 분석하는 주의 정도 분석부를 포함하고,
상기 제어부는 상기 오브젝트의 상기 주의 정도를 통해 상기 관심 오브젝트를 인식하는 것을 특징으로 하는 사용자 기반 비디오 요약 장치
제 6 항에 있어서,
상기 요약부는 상기 오브젝트를 포함하는 상기 비디오 데이터의 프레임 또는 비디오를 구성하는 단위 데이터를 상기 주의 정도에 따라 순위화하고, 순위를 기반으로 상기 요약 데이터를 생성하는 것을 특징으로 하는 사용자 기반 비디오 요약 장치.
제 1 항에 있어서,
상기 비디오 데이터는 디스플레이부를 통해 사용자에게 표시되는 데이터 또는 상기 사용자에 의해 촬영되는 데이터인 것을 특징으로 하는 사용자 기반 비디오 요약 장치.
비디오 데이터에 대한 사용자의 시선 정보를 입력 받는 시선 정보 입력 단계;
상기 시선 정보와 상기 비디오 데이터에 포함되는 오브젝트 중 상기 시선 정보의 대상이 되는 오브젝트를 식별하기 위한 식별 정보를 이용하여 상기 사용자가 주의하는 관심 오브젝트를 인식하는 관심 오브젝트 인식 단계; 및
인식된 상기 관심 오브젝트를 포함하는 상기 비디오 데이터의 요약 데이터를 생성하는 요약 데이터 생성 단계를 포함하는 것을 특징으로 하는 사용자 기반 비디오 요약 방법
제 9 항에 있어서 상기 비디오 요약 방법은,
상기 사용자의 생체 신호를 입력 받는 생체 신호 수집 단계를 더 포함하고,
상기 오브젝트 인식 단계는 검출된 상기 시선 정보와 상기 식별 정보 및 상기 생체신호를 이용하여 상기 사용자가 주의하는 관심 오브젝트를 인식하는 것을 특징으로 하는 사용자 기반 비디오 요약 방법
제 9 항에 있어서,
상기 요약 데이터 생성 단계는 인식된 상기 관심 오브젝트를 포함하는 상기 비디오 데이터의 프레임으로 구성되는 축소된 비디오 데이터를 생성하는 것을 특징으로 하는 사용자 기반 비디오 요약 방법.
제 9 항에 있어서,
상기 요약부는 상기 비디오 데이터에 대한 메타데이터로서, 인식된 상기 관심 오브젝트를 포함하는 상기 비디오 데이터의 프레임 또는 부분 비디오 데이터에 주의 정도를 어노테이션(annotation)하는 것을 특징으로 하는 사용자 기반 비디오 요약 장치
제 12 항에 있어서,
상기 요약 데이터 생성 단계는 상기 어노테이션을 이용하여 상기 비디오 데이터의 요약 데이터를 생성하는 것을 특징으로 하는 사용자 기반 비디오 요약 방법.
제 10 항에 있어서,
상기 관심 오브젝트 인식 단계는 상기 시선 정보와 상기 식별 정보를 이용하여 상기 오브젝트를 인식하는 오브젝트 인식 단계; 및
입력 받은 상기 생체 신호를 이용하여 상기 오브젝트에 대한 상기 사용자의 주의 정도를 분석하는 주의도 분석 단계를 포함하고,
상기 관심 오브젝트 인식 단계는 상기 오브젝트의 상기 주의 정도를 통해 상기 관심 오브젝트를 인식하는 것을 특징으로 하는 사용자 기반 비디오 요약 방법
제 14 항에 있어서,
상기 요약 데이터 생성 단계는 상기 오브젝트를 포함하는 상기 비디오 데이터의 프레임 또는 비디오를 구성하는 단위 데이터를 상기 주의 정도에 따라 순위화하고, 순위를 기반으로 상기 요약 데이터를 생성하는 것을 특징으로 하는 사용자 기반 비디오 요약 방법
제 9 항에 있어서,
상기 비디오 데이터는 디스플레이부를 통해 사용자에게 표시되는 데이터 또는 상기 사용자에 의해 촬영되는 데이터인 것을 특징으로 하는 사용자 기반 비디오 요약 방법.
비디오 데이터에 대한 사용자의 시선을 검출하는 시선 검출 장치;
상기 사용자의 생체 정보를 측정하는 생체 정보 측정 장치;
상기 비디오 데이터에 포함되는 오브젝트 중 상기 시선 정보의 대상이 되는 오브젝트를 식별하기 위한 식별 정보를 관리하는 데이터베이스; 및
검출된 상기 시선 정보와 상기 식별 정보 및 상기 생체 정보를 이용하여 상기 사용자가 주의하는 관심 오브젝트를 인식하고 인식된 상기 관심 오브젝트를 포함하는 상기 비디오 데이터의 요약 데이터를 생성하는 비디오 요약 장치를 포함하는 사용자 기반 비디오 요약 시스템.
제 17 항에 있어서,
상기 비디오 데이터는 디스플레이부를 통해 사용자에게 표시되는 데이터 또는 상기 사용자에 의해 촬영되는 데이터인 것을 특징으로 하는 사용자 기반 비디오 요약 시스템.