KR20140040474A - 비디오 요약 장치, 방법 및 시스템 - Google Patents

비디오 요약 장치, 방법 및 시스템 Download PDF

Info

Publication number
KR20140040474A
KR20140040474A KR1020120107184A KR20120107184A KR20140040474A KR 20140040474 A KR20140040474 A KR 20140040474A KR 1020120107184 A KR1020120107184 A KR 1020120107184A KR 20120107184 A KR20120107184 A KR 20120107184A KR 20140040474 A KR20140040474 A KR 20140040474A
Authority
KR
South Korea
Prior art keywords
user
video data
data
interest
video
Prior art date
Application number
KR1020120107184A
Other languages
English (en)
Inventor
문진영
김영래
이형직
배창석
손승원
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020120107184A priority Critical patent/KR20140040474A/ko
Priority to US13/778,918 priority patent/US20140086553A1/en
Publication of KR20140040474A publication Critical patent/KR20140040474A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/87Regeneration of colour television signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 사용자 기반의 비디오 요약 장치 및 방법에 관한 것으로, 비디오 데이터에 대한 사용자의 시선 정보를 입력 받는 시선 정보 수집부; 상기 비디오 데이터에 포함되는 오브젝트 중 상기 시선 정보의 대상이 되는 오브젝트를 식별하기 위한 식별 정보를 관리하는 메모리부; 상기 시선 정보와 상기 식별 정보를 이용하여 상기 사용자가 주의하는 관심 오브젝트를 인식하는 제어부; 및 인식된 상기 관심 오브젝트를 포함하는 상기 비디오 데이터의 요약 데이터를 생성하는 요약부를 포함한다. 본 발명에 따르면 사용자가 중요하다고 생각하는 프레임 또는 프레임 내에 존재하는 객체 또는 사람을 중심으로 하는 요약 데이터의 생성이 가능하다

Description

비디오 요약 장치, 방법 및 시스템{Apparatus, method and system for video contents summarization }
본 발명은 비디오를 시청하는 사용자의 시선 정보를 이용해서 프레임 내에서 집중한 영역, 객체, 또는 사람을 인식하고 사용자의 생체신호를 이용해서 집중한 프레임, 샷, 또는 장면 위주로 또는 집중한 객체나 사람 위주로 비디오 요약본을 생성하는 사용자 기반의 비디오 요약 장치 및 방법에 관한 것이다.
기존의 비디오 요약 기술은 비디오를 구성하는 이미지의 특징을 이용해서 프레임의 집합으로 이루어진 장면을 구분하고 장면 변화를 이용하거나, 뉴스의 헤드라인, 영화의 자막, 스포츠 경기에서 점수판과 같은 부가 정보를 추가로 이용해서 중요한 프레임, 샷 또는 장면을 위주로 비디오를 요약하는 기술이다.
그러나 기존의 기술들은 사용자가 중요하다고 생각하는 또는 관심 있는 특정 오브젝트를 포함하는 프레임, 샷, 또는 장면 위주로 요약이 불가능하다.
본 발명은 상기 종래 기술의 문제를 해결하기 위하여 안출된 것으로서, 사용자의 시선 정보를 통해서 비디오를 시청하거나 촬영하는 사용자의 시청 또는 촬영 당시의 주의를 기울이는 대상을 파악하고, 사용자의 생체신호를 인식하여 주의하는 정도를 측정하여 이를 기반으로 사용자가 관심을 가지는 대상을 위주로 비디오 요약본을 생성하는 사용자 기반 비디오 요약 장치 및 방법을 제공하는 것을 목적으로 한다.
상기 기술적 과제를 해결하기 위한 본 실시예에 따른 사용자 기반 비디오 요약 장치는 비디오 데이터에 대한 사용자의 시선 정보를 입력 받는 시선 정보 수집부; 상기 비디오 데이터에 포함되는 오브젝트 중 상기 시선 정보의 대상이 되는 오브젝트를 식별하기 위한 식별 정보를 관리하는 메모리부; 상기 시선 정보와 상기 식별 정보를 이용하여 상기 사용자가 주의하는 관심 오브젝트를 인식하는 제어부; 및 인식된 상기 관심 오브젝트를 포함하는 상기 비디오 데이터의 요약 데이터를 생성하는 요약부를 포함한다.
상기 비디오 요약 장치는, 상기 사용자의 생체 신호를 입력 받는 생체 신호 수집부를 더 포함하고, 상기 제어부는 검출된 상기 시선 정보와 상기 식별 정보 및 상기 생체신호를 이용하여 상기 사용자가 주의하는 관심 오브젝트를 인식하는 것이 바람직하다.
상기 요약부는 인식된 상기 관심 오브젝트를 포함하는 상기 비디오 데이터의 프레임으로 구성되는 축소된 비디오 데이터를 생성하는 것이 바람직하다.
상기 요약부는 상기 비디오 데이터에 대한 메타데이터로서, 인식된 상기 관심 오브젝트를 포함하는 상기 비디오 데이터의 프레임 또는 부분 비디오 데이터에 주의 정도를 어노테이션(annotation)하는 것이 바람직하다.
상기 요약부는 상기 어노테이션을 이용하여 상기 비디오 데이터의 요약 데이터를 생성하는 것이 바람직하다.
상기 제어부는 상기 시선 정보와 상기 식별 정보를 이용하여 상기 오브젝트를 인식하는 오브젝트 인식부; 및 입력 받은 상기 생체 신호를 이용하여 상기 오브젝트에 대한 상기 사용자의 주의 정도를 분석하는 주의 정도 분석부를 포함하고, 상기 제어부는 상기 오브젝트의 상기 주의 정도를 통해 상기 관심 오브젝트를 인식하는 것이 바람직하다.
상기 요약부는 상기 오브젝트를 포함하는 상기 비디오 데이터의 프레임 또는 비디오를 구성하는 단위 데이터를 상기 주의 정도에 따라 순위화하고, 순위를 기반으로 상기 요약 데이터를 생성하는 것이 바람직하다.
상기 비디오 데이터는 디스플레이부를 통해 사용자에게 표시되는 데이터 또는 상기 사용자에 의해 촬영되는 데이터인 것이 바람직하다.
도 1 및 도 2는 본 발명의 일실시예에 따른 사용자 기반 비디오 요약 장치를 나타내는 블록도이다.
도 2는 본 발명의 다른 실시예에 따른 사용자 기반 비디오 요약 장치를 나타내는 블록도이다.
도 3은 본 발명의 일실시예에 따른 사용자 기반 비디오 요약 장치를 나타내는 세부 블록도이다.
도 4 및 도 5는 본 발명의 일실시예에 따른 사용자 기반 비디오 요약 장치의 적용예를 나타내는 도이다.
도 6은 본 발명의 일실시예에 따른 사용자 기반 비디오 요약 장치가 적용된 시스템을 나타내는 블록도이다.
도 7은 본 발명의 일실시예에 따른 사용자 기반 비디오 요약 방법을 나타내는 흐름도이다.
도 8은 본 발명의 일실시예에 따른 사용자 기반 비디오 요약 방법을 나타내는 흐름도이다.
이하에서는 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 도 1은 본 발명의 일실시예에 따른 사용자 기반 비디오 요약 장치(100)를 나타내는 블록도이다. 도 1을 참조하면, 본 실시예에 따른 비디오 요약 장치(100)는 시선정보 수집부(110), 메모리부(120), 제어부(130), 요약부(140)를 포함한다.
본 실시예에 따른 사용자 기반 비디오 요약 장치(100)는 사용자에 의한 부가적인 주의를 기울인다는 의식적인 입력 없이, 사용자에 의해 주의 되는 비디오 데이터에 대한 상기 사용자의 응시 정보를 이용하여 상기 사용자의 주의 대상으로 관심 오브젝트를 인식하고 사용자가 주의를 기울인 관심 오브젝트를 포함하는 부분만 추출하여 요약된 데이터를 생성하는 것을 의미한다.
또한, 사용자 기반이란 상술한 바와 같이 영화의 자막이나 스포츠 경기의 점수판과 같은 부가 정보를 이용하는 방법과 달리 사용자가 중요하다고 생각하거나 관심 있는 프레임, 샷 또는 장면 위주로 데이터를 요약하는 것을 의미한다. 이하 본 실시예에 따른 비디오 요약 장치(100)의 구성에 대하여 설명한다.
시선정보 수집부(110)는 비디오 데이터에 대한 사용자의 시선 정보를 입력 받는다. 비디오 데이터에 대한 시선 정보는 카메라 또는 아이트랙커와 같은 임의의시선 추적 장치로부터 획득되는 사용자의 시선 정보인 것이 바람직하다. 시선 정보는 비디오 데이터상의 좌표 정보로 나타나는 것이 바람직하다.
메모리부(120)는 비디오 데이터에 포함되는 오브젝트 중 상기 시선 정보의 대상이 되는 오브젝트를 식별하기 위한 식별 정보를 관리한다. 본 실시예에서 오브젝트는 비디오 데이터에 등장하는 인물이나 사물일 수 있으며, 사용자에게 응시 대상이 되는 모든 객체를 포함한다.
본 실시예에서 비디오 데이터 상의 특정 인물을 인식하기 위해서는 인물의 얼굴 패턴에 대한 식별 정보가 미리 구축되어 있는 것이 바람직하다. 예를 들어, 일실시예에서 시청자가 남자 주인공에 집중하는 경우에, 그 남자 주인공이 나오는 비디오 상의 프레임 또는 프레임 내에서의 위치를 파악하려면 남자 주인공의 얼굴에 대한 패턴 정보를 식별 정보로서 데이터베이스로 구축하여야 한다. 따라서 본 실시예에서 메모리부는 이러한 식별 정보에 대한 데이터베이스를 관리하는 데이터베이스 시스템일 수 있다.
또한 본 실시예에서 오브젝트들의 식별을 위한 식별 정보는 사용자에 의해 생성될 수 있다. 따라서 사용자가 자신의 성향에 맞는 식별 정보를 미리 데이터 베이스화하고 이를 비디오 요약 장치에 적용하여 보다 사용자 취향에 가까운 요약 데이터를 생성할 수 있다.
제어부(130)는 시선 정보와 상기 식별 정보를 이용하여 상기 사용자가 주의하는 관심 오브젝트를 인식한다. 즉 사용자에 의해 주의 되는 비디오 데이터에 있어 상기 사용자의 응시 정보를 이용하여 구체적인 비디오 데이터 내의 주의되는 대상을 인식한다.
즉, 시선 정보 수집부(110)를 통해 획득된 사용자의 시선 정보를 이용하여 시선 정보에 대응되는 비디오 데이터내의 대상이 구체적으로 무엇인지를 인식한다. 예를 들어 시선 정보에 대응되는 대상이 등장 인물인 경우, 이때 대응되는 등장 인물의 얼굴 정보를 메모리 부(120)에서 관리하는 데이터베이스의 식별 정보와 비교하여 구체적으로 누구인지를 인식하는 것일 수 있다.
도 3을 참조하면 본 실시예에서 제어부(130)는 시선 정보와 식별 정보를 이용하여 오브젝트를 인식하는 오브젝트 인식부(132)를 포함할 수 있다.
시선 정보 수집부(110)는 상기 사용자의 시선 검출 장치(200)로서 시선을 관찰하기 위한 시선 관찰 카메라의 촬영 영상 또는 시선 검출 장치(200)와 생체신호 측정부(300a ~ 300n)를 포함하는 휴대 장치(300)로부터 촬영된 영상을 인식하여 상기 사용자의 응시 정보를 수집한다. 수집된 사용자의 응시는 디스플레이되는 화면상에서 좌표정보 (x, y)로 정의 될 수 있다. 제어부의 오브 젝트 인식부(132)는 수집된 응시 정보와 상기 비디오 데이터를 분석하여 상기 사용자의 주의 대상을 인식한다. 본 실시예에서 오브 젝트 인식부(132)는 응시점에 대한 정보와 비디오 비디오를 인식해서 사용자가 주의를 기울인 대상이 어떠한 오브젝트인지를 인식한다. 즉, 수집된 응시 대상으로 비디오 데이터 상의 객체를 인식하는 것으로써, 시선정보로서 응시점 (x, y)에 대응되는 객체가 비디오 데이터의 특정 사람인 경우 특정 사람을 오브젝트(human5)로 인식하는 것일 수 있다.
나아가 도 2를 참조하면 본 실시예에 따른 비디오 요약 장치(100)는 생체 정보 수집부(150)를 더 포함할 수 있으며, 제어부(130)는 생체 정보 수집부(150)로부터 수집되는 생체 정보를 통하여 관심 오브젝트를 인식하는 것이 바람직하다.
즉, 본 실시예에서 주의(attention)라 함은 어떠한 대상을 응시하고 동시에 관심을 집중하여 기울이는 것으로서 본 실시예에서는 사용자가 주시하는 시선의 위치를 파악하고 사용자가 주시할때의 생체 정보를 이용하여 판단되는 집중도를 의미함이 바람직하다.
생체 정보 수집부(150)는 사용자의 생체 정보를 입력 받는다. 본 실시예에서 생체 정보는 사용자의 주의의 정도를 파악하기 위한 정보로서, 생체정보라 함은 생체가 발생하는 심전(心電), 심음(心音) 등을 포함하는 정보로서, 본 실시예에서 생체신호는 EEG, EOG, 피부전도도, 심박수 등의 생체신호를 통하여 획득한 정보를 의미한다. EEG(Electroencepharography)는 인간의 두뇌의 전기적 활동에 대한 정보로서 두뇌의 특정 화학 작용 속도와 전기 자극에 대한 신호를 의미한다. EOG(Electrooculography)는 안전도로서 눈 주위의 피부에 부착한 전극으로 기록한 전위로서, 눈 움직임을 탐지하여 획득한 정보를 의미한다. 따라서 본 실시예에 따른 생체 정보 수집부에서 입력 받는 생체 정보는 EEG, EOG, 피부전도도, 심박수 등의 생체 정보 측정 장치들을 이용해서 측정되는 사용자의 주의하는 정도와 감정 상태인 것이 바람직하다.
도 3을 참조하면 본 실시에에서 제어부(130)는 주의 정도 분석부(134)를 더 포함한다. 주의 정도 분석부(134)는 입력 받은 상기 생체 정보를 이용하여 상기 오브젝트에 대한 상기 사용자의 주의 정도를 분석한다.
주의 정도 분석부(134)는 생체 정보 수집부(150)가 사용자의 생체 정보를 측정하는 복수의 생체 정보 측정 장치(300a~300n)로부터 입력 받은 생체 정보를 인식하고 인식된 상기 생체 정보를 분석하여 상기 주의 정도를 인식하는 것이 바람직하다. 복수의 생체 정보 측정 장치(300a~300n)에서 측정된 생체 정보들을 이용하여 주의 정도를 인식하는 것은 하나의 생체 정보를 이용하는 경우에 비하여 주의 정도의 인식 오류 발생 가능성을 낮출 수 있으며, 다양한 외부의 영향에서 벗어나 객관적인 주의 정도를 인식 가능하도록 해주는 이점이 있다.
따라서 본 실시예에서 주의 정도 분석부(134)는 EEG를 통하여 주의 정도를 분석하거나 또는 EEG, EOG, 피부전도도, 심박수 등의 복수의 생체 정보를 이용하여 주의 정도를 결정하는 것일 수 있다. 도 3을 참조하면 본 실시예에서 주의 정도 분석부(134)는 복수의 생체 정보 측정 장치(300a~300n))에서 측정된 생체 정보를 입력 받고 이를 통합하고, 통합된 생체 정보를 이용하여 주의 정도를 인식하거나, 각각의 생체 정보를 통하여 분석된 주의 정도를 통합하여 통합된 주의 정도를 인식할 수 있다.
도 3을 참조하면 본 실시예에서 제어부(130)는 관심오브젝트 인식부(136)를 더 포함할 수 있다.
관심 오브젝트 인식부(136)는 오브젝트 인식부(132)에서 인식된 오브젝트에 대한 주의 정도 분석부(134)에서 분석된 주의 정도를 통해 상기 관심 오브젝트를 인식한다.
제어부(130)는 검출된 상기 시선 정보와 상기 식별 정보 및 상기 생체신호를 이용하여 상기 사용자가 주의하는 관심 오브젝트를 인식하는 것이 바람직하다. 따라서 본 실시예에서 관심 오브젝트는 시선 정보를 통하여 인식된 오브젝트에 있어서 단순히 시선이 머무르는 대상이 아닌 실제 주의를 기울이는 대상으로 인식되는 객체를 의미한다.
본 실시예에서 관심 오브젝트의 인식은 인식된 오브젝트에 대한 사용자의 주의 정도가 미리 결정된 임계 수준 이상인 경우 관심 오브젝트로 판단하는 것일 수 있으며 또는 시선 정보와 함께 시선 정보의 유지 시간이 일정 시간 이상이고 주의 정도가 임계 수준 이상인 경우 관심 오브젝트로 판단하는 것일 수 있다.
이하 인식된 관심 오브젝트를 포함하는 비디오 데이터의 요약 데이터를 생성하는 요약부(140)에 대하여 설명한다.
요약부(140)는 관심 오브젝트를 포함하는 부분 비디오 데이터들의 집합으로 구성되는 요약 데이터를 생성한다. 즉, 요약부(140)는 오브젝트 인식부(132)에서 사용자의 시점에 따라 주의하는 대상으로 인식된 주의 대상에 대하여, 주의 정도 분석부(134)가 사용자가 주의 대상을 응시하는 동안에 측정된 생체신호를 이용하여 인식한 주의 정도를 이용하여, 사용자가 시청하면서 혹은 촬영하면서 주의를 많이 기울인 프레임, 샷, 장면 또는 주의를 많이 기울인 오브젝트를 위주로 비디오 데이터의 요약본을 생성한다.
또한 도 2 및 도 3을 참조하면 본 실시예에 따른 사용자 기반 비디오 요약 장치는 어노테이션부(160)를 더 포함할 수 있다.
어노테이션부(160)는 비디오 데이터에 대한 메타데이터로서 인식된 상기 관심 오브젝트를 포함하는 상기 비디오 데이터의 프레임 또는 부분 비디오 데이터에 주의 정도를 어노테이션(annotation)한다.
즉, 어노테이션은 메타데이터로서 비디오 데이터 중 사용자의 관심 오브젝트를 포함하는 부분 비디오 데이터를 나타내는 비디오 데이터에 대한 데이터인 것이 바람직하다. 본 실시예에서 비디오 요약 장치는 상기 인식된 관심 오브 젝트에 대한 어노테이션(annotation)을 생성하고, 요약부(140)는 상기 생성된 어노테이션을 이용하여 요약 데이터를 생성한다. 어노테이션은 해당 프레임 또는 부분 비디오 데이터를 단위로 생성될 수 있으며, 관심 오브젝트가 무엇인지, 이때의 시선 정보, 주의 정도 등을 정보로 포함할 수 있다.
관심 오브젝트가 복수인 경우 어노테이션을 이용하여 관심 오브젝트별 요약 데이터를 생성하는 것이 가능하며, 주의 정도를 순위화 하여 일정 순위이상의 주의 정도를 갖는 프레임 또는 부분 데이터로 구성되는 요약 데이터를 생성하는 것도 가능하다.
나아가 본 실시예에서 부분 비디오 데이터는 비디오 데이터를 시간 또는 공간적으로 분할하여 분할된 단위 데이터일 수 있다. 즉 어노테이션은 비디오 데이터에 대하여 요약을 위한 관심 오브젝트를 포함하는 비디오 데이터 상의 시간 또는 공간적 위치 정보로 활용 가능하며 따라서 요약부(140)는 어노테이션을 이용하여 요약 데이터를 생성한다. 비디오 데이터를 시간 또는 공간적으로 분할하는 것은 시간적으로 비디오 데이터의 러닝 타임을 기준으로 분할하는 것일 수 있으며, 또는 비디오를 구성하는 프레임으로 분할하고 관심 오브젝트를 포함하는 프레임을 요약 데이터로 생성하는 것일 수 있다. 따라서 시간적 분할은 비디오 데이터를 시, 분, 초 등의 시간 단위로 분할 하는 것뿐만 아니라 비디오를 구성하는 프레임, 샷 또는 장면 등의 물리적 특징을 기반으로 비디오 구성요소 단위로 분할하는 것을 포함한다.
또한 공간적 분할은 비디오 데이터 내의 공간을 분할하는 것으로서, 사용자에게 표시되는 비디오의 화면을 평면적으로 분할하는 것일 수 있으며 나아가 비디오 내에서 표시되는 오브젝트의 상대적 위치를 기준으로 분할하는 것일 수 있다.
예를 들어 스포츠 경기에 대한 비디오 데이터에서 종목이 테니스나 배구처럼 분할된 영역에서 이루어지는 경우 관심 오브젝트는 팀에 대한 영역일 수 있으며, 축구와 같은 종목의 경우 관심 오브젝트는 특정 선수로 인식될 수 있다. 따라서 어노테이션을 통해 관심 오브젝트가 응원하는 팀의 활동 영역으로 파악되는 경우 전체 비디오 데이터 중 팀의 활동 영역으로만 구성되는 요약 데이터를 생성하는 것도 가능하다.
또한 교육용 비디오 데이터를 예를 들면 일반적으로 교육용 비디오 데이터는 교육 정보를 전달하는 사람과 교육 정보를 사용자에게 전달해주는 프레젠테이션 화면으로 분할 가능하고, 교육용 데이터에서 사람과 프레젠테이션 화면의 위치는 고정되므로 어노테이션을 통해 관심 오브젝트가 프레젠테이션화면으로 파악되는 경우 사람이 포함되지 않은 프레젠테이션화면으로만 구성되는 요약 데이터를 생성하는 것도 가능하다.
따라서, 본 실시예에서 어노테이션은 시간적 또는 공간적으로 분할된 부분 비디오 데이터에 대한 사용자의 주의 정도를 포함하는 데이터인 것이 바람직하다. 나아가, 시간적으로 분할된 일 부분 데이터에 대하여 다시 공간적으로 재 분할된 복수의 부분 데이터에 복수의 어노테이션을 생성하는 것도 가능하다.
본 실시예에서 생성되는 요약 데이터로서 비디오의 요약본은 전체 비디오 데이터 중에서 어노테이션된 시간 또는 공간적으로 분할된 부분 비디오 데이터의 결합인 것이 바람직하다.
즉, 본 실시예에서 요약부(140)는 전체 비디오를 물리적 특징을 기반으로 비디오 구성요소 단위(프레임, 샷, 또는 장면)로 구분하고, 생성된 어노테이션을 어노테이션부(160)를 통해서 제공받아, 관심 오브젝트 또는 주의 정도를 기반으로 구분된 비디오 구성요소에 대한 순위를 결정한다. 결정된 순위를 기반으로 요약 데이터에 사용할 비디오 구성요소 데이터를 선택하고, 이를 이용해서 요약 데이터로 비디오 요약본을 생성한다. 비디오 데이터를 구성하는 단위 데이터들의 순위를 결정한다는 것은 사용자가 필요로 하는 수준의 요약 데이터를 생성하기 위한 것으로서, 본 실시예에서의 요약의 정도를 결정하는 것일 수 있으며, 나아가 결정된 순위를 이용하여 다양한 주의 정도에 따른 복수의 요약 데이터를 생성하는 것도 가능하다.
또한 관심 오브젝트로 구분하여 남자 주인공에 대한 요약 데이터 또는 여자 주인공에 대한 요약 데이터를 생성하는 것도 가능하다.
이상, 본 실시예에서 요약 대상이 되는 비디오 데이터는 크게 두가지로 구분된다. 하나는 사용자가 디스플레이 장치를 통해서 시청하는 비디오이고, 다른 하나는 사용자가 모바일 아이트래커나 휴대용 카메라와 같이 휴대용 단말을 통해 촬영하는 비디오이다. 두 경우 모두 사용자의 시선 정보를 통해서 비디오 내에서 시선을 두는 응시 정보를 획득하고 비디오 내에서 응시 인식을 통해서 주의 대상이나 영역을 인식한다. 도 4를 참조하면, 도 4는 본 발명의 일실시예에 따른 사용자 기반 비디오 요약 장치(100)가 적용된 시스템을 나타내는 도이다.
본 실시예에서 비디오 요약 장치(100)는 디스플레이 장치에 내장될 수 있으며, 또는 셋톱박스와 같은 별도의 장치로 구현될 수 있다. 도 4는 디스플레이 장치에 내장되는 경우를 예시하는 것으로 요약하고자 하는 비디오 데이터가 사용자가 디스플레이 장치(100)를 통해서 시청하는 비디오인 경우를 나타내는 것으로, 디스플레이 장치(100), 시선 검출 장치(200), 생체신호 측정부(300)을 포함한다.
또한 도 5를 참조하면, 도 5는 본 발명의 일실시예에 따른 사용자 기반 비디오 요약 장치(100)가 요약하고자 하는 비디오 데이터가 사용자가 휴대 장치(300)를 통해 매대에 진열된 상품(500)을 응시하는 것을 통해 촬영되는 비디오인 경우를 나타내는 것으로서, 시선 검출 장치와 생체신호 측정부를 포함하는 휴대 장치(300)를 이용하여 입력된 정보를 이용하여 사용자 기반 비디오 요약 장치는 주의 대상 인식 및 주의 정도 인식을 수행한다.
도 6을 참조하여 도 4 및 도 5의 비디오 요약 장치를 통한 요약 프로세스를 설명하면, 도 6은 본 발명의 일실시예에 따른 사용자 기반 비디오 요약 장치(100)를 적용한 비디오 요약 시스템을 나타내는 블록도로서, 본 실시예에 따른 사용자 기반 비디오 요약 시스템은 시선 검출 장치(200), 생체 정보 측정 장치(300), 비디오 요약 장치(100), 비디오 요약 장치(100)의 메모리부(미도시)를 관리하는 데이터베이스(400)를 포함한다.
시선 검출 장치(200)는 (도 4의 경우 시선 시선을 관찰하기 위한 시선 관찰 카메라(200), 도 5의 경우 사용자가 휴대 장치(300))가 사용자의 시선을 촬영한다.
비디오 요약 장치(100)는 시선 검출 장치(200)로부터 촬영된 영상을 인식하여 상기 사용자의 응시 정보를 수집하고 데이터베이스(400)의 식별 정보를 통해 오브젝트를 인식하한다.
나아가 인식된 오브젝트에 대하여 생체 정보 측정 장치(300)로부터 측정된 생체 정보를 입력 받아 주의 정도 분석하고 이를 통해 상기 관심 오브젝트를 인식한다. 이후 관심 오브젝트를 포함하는 부분 비디오 데이터들의 집합으로 구성되는 요약 데이터를 생성한다
이하 도 7내지 8을 참조하여 상술된 사용자 기반 비디오 요약 장치에서 수행되는 비디오 요약 방법에 대하여 설명한다.
도 7은 본 발명의 일실시예에 따른 사용자 기반 비디오 요약 방법을 나타내는 흐름도이다.
본 실시예에서 비디오 요약 방법은 시선 정보 입력 단계(S100), 관심 오브 젝트 인식 단계(S200), 요약 데이터 생성 단계(S300)를 포함한다.
시선 정보 입력 단계(S100)는 시선 정보 수집부(110)가 비디오 데이터에 대한 사용자의 시선 정보를 입력 받는다.
관심 오브젝트 인식 단계(S200)는 상술한 제어부(130)가 시선 정보와 상기 비디오 데이터에 포함되는 오브젝트 중 상기 메모리부의 시선 정보의 대상이 되는 오브젝트를 식별하기 위한 식별 정보를 이용하여 상기 사용자가 주의하는 관심 오브젝트를 인식하는 관심 오브젝트 인식한다.
요약 데이터 생성 단계(S300)는 요약부(140)가 인식된 상기 관심 오브젝트를 포함하는 상기 비디오 데이터의 요약 데이터를 생성한다.
이하 도 8을 참조하여 보다 상세히 설명하면, 본 실시예에서 비디오 요약 방법은 오브젝트 인식 단계(S110), 생체 정보 입력 단계(S100’) 주의 정도 분석 단계(S110’)를 더 포함할 수 있으며, 요약 데이터 생성 단계(S300)는 어노테이션 단계(S310), 어노테이션 이용 요약 데이터 생성 단계(S320)를 더 포함할 수 있다.
오브젝트 인식 단계(S110)는 제어부(130)의 오브젝트 인식부(S132)가 응시점에 대한 정보와 비디오 비디오를 인식해서 사용자가 주의를 기울인 대상이 어떠한 오브젝트인지를 인식한다.
생체 정보 입력 단계(S100’)는 생체 정보 수집부(150)가 사용자의 생체 정보를 입력 받는다. 주의 정도 분석 단계(S110’)는 주의 정도 분석부(134)가 입력 받은 상기 생체 정보를 이용하여 상기 오브젝트에 대한 상기 사용자의 주의 정도를 분석한다.
어노테이션단계(S310)는 어노테이션부(160)가 비디오 데이터에 대한 메타데이터로서 인식된 상기 관심 오브젝트를 포함하는 상기 비디오 데이터의 프레임 또는 부분 비디오 데이터에 주의 정도를 어노테이션(annotation)한다.
어노테이션 이용 요약 데이터 생성 단계(S320)는 요약부(140)가 어노테이션을 이용하여 요약 데이터를 생성한다.
이상의 본 실시예에서의 비디오 요약 방법의 각 단계는 상술한 비디오 요약 장치에서 수행되는 비디오 요약 방법에 대응되는 것으로서 이에 대한 상세한 설명은 중복되는 것이므로 이하 생략 한다.
한편 본 발명의 사용자 기반 비디오 요약 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.
컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있으며, 또한 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트 들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다.
따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (18)

  1. 비디오 데이터에 대한 사용자의 시선 정보를 입력 받는 시선 정보 수집부;
    상기 비디오 데이터에 포함되는 오브젝트 중 상기 시선 정보의 대상이 되는 오브젝트를 식별하기 위한 식별 정보를 관리하는 메모리부;
    상기 시선 정보와 상기 식별 정보를 이용하여 상기 사용자가 주의하는 관심 오브젝트를 인식하는 제어부; 및
    인식된 상기 관심 오브젝트를 포함하는 상기 비디오 데이터의 요약 데이터를 생성하는 요약부를 포함하는 것을 특징으로 하는 사용자 기반 비디오 요약 장치
  2. 제 1 항에 있어서 상기 비디오 요약 장치는,
    상기 사용자의 생체 신호를 입력 받는 생체 신호 수집부를 더 포함하고,
    상기 제어부는 검출된 상기 시선 정보와 상기 식별 정보 및 상기 생체신호를 이용하여 상기 사용자가 주의하는 관심 오브젝트를 인식하는 것을 특징으로 하는 사용자 기반 비디오 요약 장치
  3. 제 1 항에 있어서,
    상기 요약부는 인식된 상기 관심 오브젝트를 포함하는 상기 비디오 데이터의 프레임으로 구성되는 축소된 비디오 데이터를 생성하는 것을 특징으로 하는 사용자 기반 비디오 요약 장치
  4. 제 1 항에 있어서,
    상기 요약부는 상기 비디오 데이터에 대한 메타데이터로서, 인식된 상기 관심 오브젝트를 포함하는 상기 비디오 데이터의 프레임 또는 부분 비디오 데이터에 주의 정도를 어노테이션(annotation)하는 것을 특징으로 하는 사용자 기반 비디오 요약 장치
  5. 제 4 항에 있어서,
    상기 요약부는 상기 어노테이션을 이용하여 상기 비디오 데이터의 요약 데이터를 생성하는 것을 특징으로 하는 사용자 기반 비디오 요약 장치.
  6. 제 2 항에 있어서,
    상기 제어부는 상기 시선 정보와 상기 식별 정보를 이용하여 상기 오브젝트를 인식하는 오브젝트 인식부; 및
    입력 받은 상기 생체 신호를 이용하여 상기 오브젝트에 대한 상기 사용자의 주의 정도를 분석하는 주의 정도 분석부를 포함하고,
    상기 제어부는 상기 오브젝트의 상기 주의 정도를 통해 상기 관심 오브젝트를 인식하는 것을 특징으로 하는 사용자 기반 비디오 요약 장치
  7. 제 6 항에 있어서,
    상기 요약부는 상기 오브젝트를 포함하는 상기 비디오 데이터의 프레임 또는 비디오를 구성하는 단위 데이터를 상기 주의 정도에 따라 순위화하고, 순위를 기반으로 상기 요약 데이터를 생성하는 것을 특징으로 하는 사용자 기반 비디오 요약 장치.
  8. 제 1 항에 있어서,
    상기 비디오 데이터는 디스플레이부를 통해 사용자에게 표시되는 데이터 또는 상기 사용자에 의해 촬영되는 데이터인 것을 특징으로 하는 사용자 기반 비디오 요약 장치.
  9. 비디오 데이터에 대한 사용자의 시선 정보를 입력 받는 시선 정보 입력 단계;
    상기 시선 정보와 상기 비디오 데이터에 포함되는 오브젝트 중 상기 시선 정보의 대상이 되는 오브젝트를 식별하기 위한 식별 정보를 이용하여 상기 사용자가 주의하는 관심 오브젝트를 인식하는 관심 오브젝트 인식 단계; 및
    인식된 상기 관심 오브젝트를 포함하는 상기 비디오 데이터의 요약 데이터를 생성하는 요약 데이터 생성 단계를 포함하는 것을 특징으로 하는 사용자 기반 비디오 요약 방법
  10. 제 9 항에 있어서 상기 비디오 요약 방법은,
    상기 사용자의 생체 신호를 입력 받는 생체 신호 수집 단계를 더 포함하고,
    상기 오브젝트 인식 단계는 검출된 상기 시선 정보와 상기 식별 정보 및 상기 생체신호를 이용하여 상기 사용자가 주의하는 관심 오브젝트를 인식하는 것을 특징으로 하는 사용자 기반 비디오 요약 방법
  11. 제 9 항에 있어서,
    상기 요약 데이터 생성 단계는 인식된 상기 관심 오브젝트를 포함하는 상기 비디오 데이터의 프레임으로 구성되는 축소된 비디오 데이터를 생성하는 것을 특징으로 하는 사용자 기반 비디오 요약 방법.
  12. 제 9 항에 있어서,
    상기 요약부는 상기 비디오 데이터에 대한 메타데이터로서, 인식된 상기 관심 오브젝트를 포함하는 상기 비디오 데이터의 프레임 또는 부분 비디오 데이터에 주의 정도를 어노테이션(annotation)하는 것을 특징으로 하는 사용자 기반 비디오 요약 장치
  13. 제 12 항에 있어서,
    상기 요약 데이터 생성 단계는 상기 어노테이션을 이용하여 상기 비디오 데이터의 요약 데이터를 생성하는 것을 특징으로 하는 사용자 기반 비디오 요약 방법.
  14. 제 10 항에 있어서,
    상기 관심 오브젝트 인식 단계는 상기 시선 정보와 상기 식별 정보를 이용하여 상기 오브젝트를 인식하는 오브젝트 인식 단계; 및
    입력 받은 상기 생체 신호를 이용하여 상기 오브젝트에 대한 상기 사용자의 주의 정도를 분석하는 주의도 분석 단계를 포함하고,
    상기 관심 오브젝트 인식 단계는 상기 오브젝트의 상기 주의 정도를 통해 상기 관심 오브젝트를 인식하는 것을 특징으로 하는 사용자 기반 비디오 요약 방법
  15. 제 14 항에 있어서,
    상기 요약 데이터 생성 단계는 상기 오브젝트를 포함하는 상기 비디오 데이터의 프레임 또는 비디오를 구성하는 단위 데이터를 상기 주의 정도에 따라 순위화하고, 순위를 기반으로 상기 요약 데이터를 생성하는 것을 특징으로 하는 사용자 기반 비디오 요약 방법
  16. 제 9 항에 있어서,
    상기 비디오 데이터는 디스플레이부를 통해 사용자에게 표시되는 데이터 또는 상기 사용자에 의해 촬영되는 데이터인 것을 특징으로 하는 사용자 기반 비디오 요약 방법.
  17. 비디오 데이터에 대한 사용자의 시선을 검출하는 시선 검출 장치;
    상기 사용자의 생체 정보를 측정하는 생체 정보 측정 장치;
    상기 비디오 데이터에 포함되는 오브젝트 중 상기 시선 정보의 대상이 되는 오브젝트를 식별하기 위한 식별 정보를 관리하는 데이터베이스; 및
    검출된 상기 시선 정보와 상기 식별 정보 및 상기 생체 정보를 이용하여 상기 사용자가 주의하는 관심 오브젝트를 인식하고 인식된 상기 관심 오브젝트를 포함하는 상기 비디오 데이터의 요약 데이터를 생성하는 비디오 요약 장치를 포함하는 사용자 기반 비디오 요약 시스템.
  18. 제 17 항에 있어서,
    상기 비디오 데이터는 디스플레이부를 통해 사용자에게 표시되는 데이터 또는 상기 사용자에 의해 촬영되는 데이터인 것을 특징으로 하는 사용자 기반 비디오 요약 시스템.
KR1020120107184A 2012-09-26 2012-09-26 비디오 요약 장치, 방법 및 시스템 KR20140040474A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020120107184A KR20140040474A (ko) 2012-09-26 2012-09-26 비디오 요약 장치, 방법 및 시스템
US13/778,918 US20140086553A1 (en) 2012-09-26 2013-02-27 Apparatus, method, and system for video contents summarization

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120107184A KR20140040474A (ko) 2012-09-26 2012-09-26 비디오 요약 장치, 방법 및 시스템

Publications (1)

Publication Number Publication Date
KR20140040474A true KR20140040474A (ko) 2014-04-03

Family

ID=50338941

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120107184A KR20140040474A (ko) 2012-09-26 2012-09-26 비디오 요약 장치, 방법 및 시스템

Country Status (2)

Country Link
US (1) US20140086553A1 (ko)
KR (1) KR20140040474A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11003915B2 (en) 2019-03-29 2021-05-11 Wipro Limited Method and system for summarizing multimedia content

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11055340B2 (en) * 2013-10-03 2021-07-06 Minute Spoteam Ltd. System and method for creating synopsis for multimedia content
US10812769B2 (en) * 2017-08-21 2020-10-20 International Business Machines Corporation Visualizing focus objects from video data on electronic maps
US11153619B2 (en) 2018-07-02 2021-10-19 International Business Machines Corporation Cognitively derived multimedia streaming preferences
CN111277917A (zh) * 2020-02-17 2020-06-12 北京文香信息技术有限公司 媒体数据生成方法、媒体特征确定方法和相关设备
WO2022131833A1 (en) * 2020-12-17 2022-06-23 Samsung Electronics Co., Ltd. Method and electronic device for producing video summary
US20220392080A1 (en) * 2021-06-03 2022-12-08 Electronics And Telecommunications Research Institute Apparatus and method for supporting attention test based on attention map and attention movement map

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008059416A1 (en) * 2006-11-14 2008-05-22 Koninklijke Philips Electronics N.V. Method and apparatus for generating a summary of a video data stream
US8687844B2 (en) * 2008-06-13 2014-04-01 Raytheon Company Visual detection system for identifying objects within region of interest
US9077857B2 (en) * 2008-09-12 2015-07-07 At&T Intellectual Property I, L.P. Graphical electronic programming guide
JP2012123513A (ja) * 2010-12-07 2012-06-28 Sony Corp 情報処理装置、および情報処理システム
JP5786495B2 (ja) * 2011-06-30 2015-09-30 富士通株式会社 画像認識装置、画像認識方法及び画像認識用コンピュータプログラム
CN103765374A (zh) * 2011-09-08 2014-04-30 英特尔公司 交互式屏幕观看

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11003915B2 (en) 2019-03-29 2021-05-11 Wipro Limited Method and system for summarizing multimedia content

Also Published As

Publication number Publication date
US20140086553A1 (en) 2014-03-27

Similar Documents

Publication Publication Date Title
KR20140040474A (ko) 비디오 요약 장치, 방법 및 시스템
Soleymani et al. A multimodal database for affect recognition and implicit tagging
JP6084953B2 (ja) コンテンツ評価システム及びそれを用いたコンテンツ評価方法
Sharma et al. Modeling stress using thermal facial patterns: A spatio-temporal approach
KR102277820B1 (ko) 반응정보 및 감정정보를 이용한 심리 상담 시스템 및 그 방법
JP6282769B2 (ja) エンゲージメント値処理システム及びエンゲージメント値処理装置
US8808195B2 (en) Eye-tracking method and system for screening human diseases
CN103154953A (zh) 测量具有上网功能的应用程序的情感数据
WO2012150657A1 (ja) 集中有無推定装置及びコンテンツ評価装置
JP2015229040A (ja) 感情分析システム、感情分析方法および感情分析プログラム
US20220067376A1 (en) Method for generating highlight image using biometric data and device therefor
KR20120109160A (ko) 3차원 영상의 시각 피로감 측정 장치 및 유발 요인 추출 장치, 그리고 그 방법
US10817057B2 (en) Information processing device, information processing method, and program
Wang et al. Real-time prediction of simulator sickness in virtual reality games
Sundstedt et al. Visual attention and gaze behavior in games: An object-based approach
US20150213012A1 (en) Document searching using salience
Boccignone et al. Amhuse: a multimodal dataset for humour sensing
US20150339539A1 (en) Method and system for determining concentration level of a viewer of displayed content
Ladouce et al. Capturing cognitive events embedded in the real world using mobile electroencephalography and eye-tracking
WO2022087965A1 (zh) 一种用于眼动仪的情感识别***及方法
Navarathna et al. Estimating audience engagement to predict movie ratings
Wache The secret language of our body: Affect and personality recognition using physiological signals
Li et al. Daily life event segmentation for lifestyle evaluation based on multi-sensor data recorded by a wearable device
CN113397547A (zh) 一种基于生理数据的观影评价服务***和方法
Kostoulas et al. Identifying aesthetic highlights in movies from clustering of physiological and behavioral signals

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid