KR20040068195A

KR20040068195A - 적응성 환경 시스템 및 적응성 환경을 제공하는 방법

Info

Publication number: KR20040068195A
Application number: KR10-2004-7008672A
Authority: KR
Inventors: 디미트로바네벤카; 짐머맨존; 맥기토마스; 에스. 재신쉬라두
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2001-12-06
Filing date: 2002-11-20
Publication date: 2004-07-30
Also published as: EP1485821A2; WO2003049430A2; WO2003049430A3; US20030108334A1; AU2002351026A8; AU2002351026A1; JP2005512212A; CN1599904A

Abstract

적응성 환경 시스템은 프로세서에 의해 분석되며 비디오의 얼굴(features)에 따라 인덱싱된 비디오를 기록하기 위한 기록 장치를 포함한다. 상기 비디오는 적어도 비디오, 오디오, 및 텍스트 성분으로 세그멘팅(segmenting)되고, 상기 성분은 프로세서에 의해 분석된다. 상기 프로세서는 그 후 분석된 얼굴의 인덱스 파일을 생성하고 저장 장치에 인덱스 파일과 함께 비디오를 저장한다. 상기 비디오는 그 후 인덱스 파일에 따라 서치되고 상기 서치에 의해 식별된 비디오의 일부는 관찰하기 위해 디스플레이 장치에 돌려보내 진다. 또한, 적응성 환경 시스템은 네트워그에 접속 가능한 처리 시스템을 포함하고, 상기 네트워크는 하나 이상의 상호 접속된 센서를 포함할 수 있다. 상기 처리 시스템은 하나 이상의 프로세서로 하여금, 상기 처리 시스템에 접속 가능한 하나 이상의 센서로부터 기록된 데이터를 수신하고(a), 기록된 데이터에서 발생하는 이벤트를 식별하기 위해 기록된 데이터를 분석하고(b), 식별된 이벤트에 대한 응답이 적절한가를 판정하고(c), 응답이 적절한 경우에 상기 응답에 연관되는 신호를 생성하도록(d), 하나 이상의 프로세서에 명령을 하는 컴퓨터 코드를 포함하는 컴퓨터 판독 가능 매체를 포함한다.

Description

적응성 환경 시스템 및 적응성 환경을 제공하는 방법{Adaptive environment system and method of providing an adaptive environment}

오디오 및 비디오 양쪽 모두의 아날로그 및 디지털 기록이 대세가 됨에 따라, 사람들은 그들의 삶에서의 여러 이벤트들을 더 기록하고 있다. 비디오/오디오 테이프들, 및 보다 최근의 CDROM들은 이벤트들을 저장하고 카탈로그화(cataloging)하는데 귀찮은 수단이다. 종종, 테이프들은 분실되거나 그 내용을 기술한 라벨이 판독 불가능하게 된다. 심지어 테이프를 발견한 경우에도, 사용자는 종종 원하는 이벤트를 찾기 전에 비디오를 수시간에 걸쳐 빨리 앞으로 돌려야한다. 디지털 형태로 개개의 파일들을 저장 및 식별하는 것은 용이할 수 있지만, 일반적으로 이용가능한 인덱싱 시스템은 한계가 있고 프레임 바이 프레임(frame-by-frame)을 기초로 하여 이벤트들의 세그멘팅 및 인덱싱을 적절히 고려하지 않는다.

텔레비전 프로그램들을 기록 및 인덱싱하기 위한 TiVo®과 같은 개인용 비디오 레코더들(PVRs) 등의 다른 시스템들은 사용자의 프로파일들에 기초한 TV 프로그램들 전체를 자동으로 선택 및 저장하기 위해 전자 프로그램 가이드 메타데이터(matadata)를 사용한다. 그러나, 이러한 시스템은 프레임 바이 프레임을 기초로 하여 이벤트들의 세그멘트 및 인덱싱을 허용하지 않기 때문에, 상기 시스템들은 제한될 수 있다.

또한, 가정 또는 사무실에서 발생하는 이벤트들은 테이프가 없거나 카메라의 배터리가 다 되었기 때문에 놓쳐질 수 있다(즉, 기록되지 않을 수 있다). 예컨대, 아이들의 첫 단어 또는 첫 걸음들은 카메라가 준비될 때까지 그 이벤트가 지나가 버리기 때문에 놓칠 수 있다.

홈 보안 및 홈 모니터링 시스템이 또한 공지되어 있다. 이러한 시스템들은 움직임 탐지기, 마이크로폰, 카메라, 또는 다른 전자 센서들을 사용하여 시스템이 경보를 받은때 누군가의 존재를 검출한다. 다른 형태의 홈 모니터링 시스템은 여러 센서들을 채용하여 난로, 에어콘, 냉장고 등의 여러 홈 가전 제품을 모니터링한다. 그러나, 이러한 시스템들은 일반적으로 센서의 특화된 본질 및 이러한 시스템들을 지배하는 프로세서의 낮은 처리 능력에 기인하여, 그 이용에 있어 제한된다. 예컨대, 홈 경보기들은 가족 구성원 또는 애완견이 움직임 검출기의 시야에서 벗어날 때, 일상적으로 오작동하기 시작한다.

또한, 인터넷에 연결된 개인용 컴퓨터 또는 텔레비전 등의 일정한 홈 가전 제품에 액세스를 거절하는 현행 시스템은 성가시고 비효율적이다. 예컨대, 몇몇의 텔레비전은 일정한 등급의 텔레비전 프로그램에 액세스하기 위해 암호를 요구하도록 프로그래밍될 수 있다. 그러나, 이들 시스템들은 가족 구성원들이 텔레비전에 대해 그들 자신을 식별하기 위해 PIN을 사용할 것을 요구한다. 때때로, 이러한 시스템들은 사람들이 이러한 시스템들을 사용하기가 힘겹다는 것을 알기 때문에 사용되지 않게 된다.

따라서, 데이터를 수동적으로 기록하고, 용이하게 검색 가능하도록 데이터의 세그멘팅 및 인덱싱을 제공하는 시스템이 바람직하다.

또한, 개개인들을 식별할 수 있고 잘못된 경보를 회피할 수 있는 가정 또는 사무실 보안 시스템을 갖추는 것이 바람직하다. 더욱이, 텔레비전, 인터넷 접속들, 개인용 컴퓨터, 오븐 등의 가정용 가전 제품에 대한 액세스를 제어하기 위해, 이러한 시스템을 사용하는 것이 바람직하다.

또한, 개개인의 거동 및 습관을 관찰하고 그들의 행동을 예견할 수 있는 시스템을 제공하는 것이 바람직하다. 예컨대, 난방, 냉방, 조명, 및 다른 가정 및 사무실의 컨디션 조절과 같은 반복적인 일을 제어할 수 있는 시스템이 바람직하다.

본 발명은 적응성 환경을 제공하기 위한 시스템에 관한 것으로서, 특히 상기 환경에서 센서에 의해 캡처된 비디오, 오디오, 및 다른 데이터를 기록하고 세그멘트화(segment)하고 인덱스(index)하는 환경에 사용하기 위한 시스템에 관한 것이다.

도 1은 본 발명에 따른 시스템 아키텍처의 예시적인 실시예의 전체적인 개략도.

도 2는 기록된 데이터를 세그멘팅하고 분류하는 예시적인 프로세스의 흐름도.

도 3은 비디오, 오디오, 및 트랜스크립트 스트림(transcript stream)의 세그멘트의 예시적인 실시예의 개략도.

도 4는 기록된 데이터를 서치하기 위한 인덱스 파일을 생성하는 예시적인 프로세스의 흐름도.

도 5는 인덱싱된 데이터를 검색하는 예시적인 프로세스의 개략도.

도 6은 본 발명의 시스템에 접속된 전자 장치를 보호하는 예시적인 프로세스의 흐름도.

본 발명은 선행기술에서 발견된 단점들을 해소한다. 본 발명은 오디오, 비디오, 및 다른 기록된 데이터를 분석하여 여러 이벤트들을 식별하고, 상기 이벤트에 응답하여 어떤 행동을 취할 필요가 있는가를 결정하는 집적화되고 수동적인 적응성 환경을 제공한다. 분석 프로세스는 일반적으로 주위 상황의 모니터링, 기록된 데이터의 세그멘팅, 이벤트들의 식별, 및 보관 목적을 위해 기록된 데이터의 인덱싱을포함한다.

일반적으로 말해서, 하나 이상의 센서들은 환경을 모니터링하고 환경 내의 대상들의 액션을 수동적으로 기록한다. 센서들은 네트워크를 통해 처리 시스템에 상호 접속된다. 처리 시스템은 기록된 데이터를 세그멘팅하는 확률 엔진(probabilistic engine)에 의해 유익하게 동작한다. 세그멘팅된 데이터는 이벤트들을 식별하기 위해 그후 상기 확률 엔진에 의해 분석되고, 인덱싱되고 상기 처리 시스템과 함께 집적화되거나 또는 상기 처리 시스템으로부터 분리된 저장 장치에 저장된다. 이하의 개시로부터 자명한 바와 같이, 본 발명에 따른 상기 처리 시스템은 여기에서 설명되는 확률 접근 방식을 사용하여 많은 기능들을 실행할 수 있다.

본 발명의 한 실시예에 있어서, 처리 시스템은 기록된 데이터를 세그멘팅 및 인덱싱하여 사용자로하여금 환경에서 발생된 이벤트를 서치 및 요구할 수 있게 한다. 예컨대, 사용자들은 동작 환경에서 발생된 특정 이벤트들을 요구할 수 있고, 그것은 저장된 데이터로부터 발췌되어 사용자를 위해 재생된다. 또한, 본 발명의 시스템은 환경내에서 대상들의 반복된 행동을 모니터링하여 그들의 습관을 학습한다. 본 발명의 다른 실시예에 있어서, 시스템은 대상으로하여금 일을 수행하게 하거나 또는 심지어 그 대상을 위해 일을 수행하게 한다.

처리 시스템은 센서들의 네트워크에 접속 가능하고, 이것은 환경에서 발생하는 이벤트들을 수동적으로 기록한다. 본 발명의 실시예에 있어서, 상기 센서들 또는 기록 장치들은 비디오 및 오디오 데이터 양쪽 모두를 캡처할 수 있는 비디오 카메라이거나, 또는 마이크로폰 일 수 있다. 양호하게는, 상기 센서는 동작 환경에서 정전압원에 접속되어 일관되게 수동적으로 동작한다. 데이터가 캡처됨에 따라, 카메라들에 의해 캡처된 오디오 데이터로부터 비디오를 분리한다. 이들 분리된 데이터의 스트림들은 그 후 처리 시스템의 확률 엔진에 의해 분석되고, 상기 확률 엔진은 데이터의 적합한 세그멘팅과 인덱싱을 결정하기 위해 데이터의 스트림들을 분석한다.

상기 처리 시스템의 상기 확률 엔진은 또한 처리 시스템으로 하여금 기록되는 대상에 의한 반복적인 액션을 추적하게 한다. 상기 확률 엔진은 그 후 대상의 활동의 다른 것 보다 더 종종 발생하는 활동을 선택할 수 있다. 따라서, 확률 엔진은 기록하는 대상의 습관을 반드시 습득하고 대상으로 하여금 과제를 하도록 하거나 자동적으로 과제를 실행한다.

다른 실시예에 있어서, 상기 시스템은 보안 시스템으로서 동작하고, 상기 프로그램 시스템은 캡처된 데이터를 사용하여 개인을 식별하고, 동작 환경의 다양한 성분들로의 액세스를 제공하거나 거절한다. 일단 개인이 식별되면, 상기 처리 시스템은 저장된 사용자 액세스 파라미터의 데이터베이스에 액세스할 수 있다. 예컨대, 어린 아이는 텔레비전에 대한 일정 채널에 대해 액서스가 승인되지 않을 수 있다. 따라서, 처리 시스템은 자동적으로 어린 아이를 식별하여 텔레비전의 시스템(V-칩 등)을 그 사용자 정보에 기초하여 일정 채널에 대한 액세스를 거절한다. 또한, 상기 시스템은 식별되지 않은 개인들이 집에 있는가를 식별하고 적절한 법실행기관들에 통지하거나 경보를 울린다.

본 발명의 다른 특징에 있어서, 기록된 이벤트들을 검색하는 방법이 제공되고, 상기 방법은 다양한 기록 장치로부터 데이터를 수집하고, 상기 데이터를 개개의 성분들로 디믹싱하고, 상기 디믹싱된 데이터의 각 성분을 분석하고, 분석된 데이터를 복수의 성분들로 세그멘팅하고, 상기 세그멘팅된 데이터를 처리 시스템에 의해 수집된 값들의 세트에 따라 인덱싱하고, 인덱싱되고 세그멘팅된 데이터의 일부의 식별자를 포함하는 사용자로부터의 요구에 응답하여 저장 장치로부터 데이터를 검색한다.

본 발명의 상기 및 다른 특징들 및 장점들은 첨부된 도면과 관련하여 읽혀질 이하의 상세한 설명으로부터 용이하게 자명해질 것이다.

도면 번호에 있어서, 여러 도면을 통해 동일 도면 번호는 동일한 요소를 나타낸다.

본 발명은 환경, 예컨대, 가정 또는 사무실에서 발생하는 이벤트들을 수동적으로 기록하는 수동적인 이벤트 기록 시스템을 포함한다. 기록 시스템은 비디오 카메라 또는 마이크로폰 등의 하나 이상의 기록 장치를 사용한다. 시스템은 기록된 데이터를 처리하여 한 세트의 파라미터에 따라 상기 이벤트들의 세그멘팅 및 인덱싱을 한다. 상기 시스템은 수동적이기 때문에, 상기 시스템에 영향을 미치는 사람들은 시스템의 동작에 대해 염려할 필요가 없다. 일단 기록된 데이터가 세그멘팅되고 인덱싱되면, 상기 기록된 데이터는 저장 장치에 저장되어 시스템의 사용자에 의해 쉽게 검색된다.

본 발명에 따른 수동적인 기록 시스템은 양호하게는, 데이터 입력을 캡처하는 하나 이상의 기록 장치들과, 상기 기록 장치에 통신상으로 접속되며 처리 시스템 또는 프로세서라고 언급되는 처리 처리 엔진을 포함한다. 일단 컨텐츠(contents)가 상기 기록 장치로부터 수신되면, 상기 처리 엔진은 상기 컨텐츠의 여러 성분을 이용하는 3 레이어 접근 방식(three-layered approach)에 따라 상기 컨텐츠를 세그멘팅한다. 상기 세그멘팅된 컨텐츠는 그 후 여러 컨텐츠 성분들에 기초하여 분류된다. 상기 컨텐츠는 그 후 로컬 영역 네트워크(LAN) 등의 네트워크를 통해 상기 프로세스에 상호 연결된 저장 장치 상에 저장된다. 상기 컨테츠는사용자에 의해 "생일 및 스티브(Steve)" 등의 컨텐츠 중에 식별 가능한 대상들(sbujects)에 대한 서치를 함으로써 검색될 수 있다. 상기 실시예에 있어서, 상기 처리 엔진은 상기 서치 기준을 만족하는 컨텐츠의 세그멘트에 대해 서치를 할 수 있다. 일단 발견되면, 전체 세그멘트는 관찰을 위해 사용자에게 되돌아 간다.

상기 처리 시스템은 양호하게는 바에시언 엔진(Bayesian engine)을 사용하여 데이터 스트림 입력들을 분석한다. 예컨데, 양호하게는, 비디오 데이터의 각각의 프레임은 분석되어 비디오 데이터의 세그멘테이션(segmentation)을 고려한다. 상기 비디오 세그멘테이션의 방법은 삭제 검출(cut detection), 얼굴 검출, 텍스트 검출, 움직임 평가/세그멘테이션/검출, 카메라 움직임 등을 포함하지만 상기에 한정되지 않는다. 또한, 오디오 데이터는 더 분석된다. 예컨대, 오디오 세그멘테이션은 텍스트 변환, 오디오 효과, 및 이벤트 검출, 화자 식별, 프로그램 식별, 음악 분류, 및 화자 식별에 근거한 다이얼로그 검출을 포함하지만 상기에 한정되지 않는다. 일반적으로, 오디오 세그멘테이션은 오디오 데이터 입력의 밴드 폭, 에너지 및 피치 등의 저 레벨의 오디오 특징을 사용하는 것을 포함한다. 오디오 데이터 입력은 그 후 음악 및 말하기 등의 여러 성분으로 더 분리된다. 상기 및 다른 파라미터들을 사용하여, 시스템은 가정 또는 직장에서 발생하는 여러 이벤트들을 수동적으로 기록 및 식별하고, 상기 프로세스로부터 수집된 정보를 사용하여 이벤트들을 인덱싱할 수 있다. 이와 같이 하여, 사용자는 개별적인 이벤트들 및 서브 이벤트를 평범한 언어 명령을 사용하여 용이하게 검색할 수 있고 또는 처리 시스템은 식별된 이벤트에 응답하여 행동이 필요한지의 여부를 결정할 수 있다. 동작시에, 사용자로부터의 검색 요청을 수신하면, 처리 엔진은 상기 평범한 명령에 기초하여 이벤트의 확률을 계산하고 요청된 이벤트를 되돌린다.

예로써, 도 3에 도시된 바와 같이, 확률 엔진(probabilistic engine)은 위험한 이벤트(강도, 화재, 부상 등), 에너지 절감 이벤트(조명 및 다른 가전 제품을 끄고, 온도를 낮추는 것 등), 및 제안(suggestin) 이벤트(야간에 도어의 잠금 또는 사람이 환경을 벗어날때 등)을 식별할 수 있다.

본 발명은 동작 환경에서 사용된 수동적인 기록 시스템과 관련되 기술되었지만, 상기 수동적인 기록 시스템은 사용자가 상기 환경하에서 발생하는 이벤트들을 기록 및 인덱싱하기를 원하는 동작 환경 어느 것에서도 사용될 수 있다 것을 이해해야 한다. 상기 환경은 문(door) 외부 일 수도 문 내부 일 수도 있다.

도 1을 참조하면, 본 발명에 따른 시스템(10)은 가정 환경(50)에서 배선되게 도시된다. 알 수 있듯이, 가정은 개별적인 기록 장치(12)를 각각 갖는 많은 방(52)을 갖는다. 각각의 기록 장치(12)는 랜(LAN)(14)을 통해 서로 그리고 프로세서(16)에 연결되어 있다. 번갈아, 프로세서(16)는 수집된 데이터를 저장하는 저장 장치(18)에 상호 접속된다. 수동적인 기록 시스템(10)의 프로세서(16)와 함께 상호 작용하는 단자가 제공될 수 있다. 양호한 실시예에 있어서, 각각의 기록 장치(12)는 가정용 전원(도시되지 않음)에 배선되어 사용자로부터의 상호 영향이 없이 수동적으로 동작한다. 따라서, 기록 시스템(10)은 사용자에 의한 간섭 또는 혼란이 없이 가정에서 발생하는 이벤트들을 연속적으로 기록하도록 수동적으로 동작한다. 또한, 작동중인 환경(예컨대, 가전 제품, 텔레비전, 난방기 및 냉방 장치 등)내의 하나 이상의 전자 시스템(도시 되지 않음)은 LAN(14)에 상호 접속되어 프로세서(16)에 의해 제어될 수 있다.

프로세서(16)는 여기서 기술된 기능을 실행하도록 프로그래밍될 수 있는 컴퓨터 시스템내에 양호하게 호스팅(hosting)된다. 단지 예시로서, 컴퓨터 시스템은 제어 프로세서, 및 연관된 동작 메모리(RAM 및 ROM), 및 데이터 입력의 비디오, 오디오, 및 텍스트 성분을 처리하기 위한 필립스 트리메이아^TM트리코덱(Philips TriMedia^TMTricodec) 카드미디어 프로세서 등의 미디어 프로세서를 포함한다. 예컨대, 인텔 펜티엄칩 또는 다른 멀티 프로세서일 수 있는 상기 프로세서(16)는 기록장치에 의해 캡처된 데이터의 프레임의 분석을 실행하여 예컨대, 하드 디스크, 파일, 테이프, DVD, 또는 다른 저장 매체 등의 인덱스 메모리에 인덱스를 만들고 저장한다. 상기 컴퓨터 시스템은 동작 환경을 통해 하드웨어적으로 연결되거나 무선으로 동작하는 LAN(14)을 통해 저장 장치(18), 기록 장치(12), 및 다른 전자 구성 성분과 상호 연결되어 통신한다.

이벤트들의 기록을 저장하는 저장 장치(18)(예컨대, 양호하게는 수백 기가 바이트의 저장 용량을 각각 갖는 RAM, 하드 디스크 레코더, 광학 기록 장치, 또는 DVHS)는 프로세서(16)에 동작상 결합된다. 물론, 프로세서(16) 및 저장 장치(18)는 단일 유닛으로 집적화 될 수 도 있다.

기록 장치 또는 센서(12)는 집적화된 마이크로폰을 갖는 비디오 카메라로서 비디오 및 오디오 데이터 양쪽 모두를 수신할 수 있다. 다른 실시예에 있어서, 기록 장치(12)는 마이크로폰, 움직임 검출기 또는 다른 타입의 센서일 수 있다. 기록 장치(12)는 또한 이벤트들이 특정한 방에서 일어나지 않는 경우에 기록 장치(12)를 슬립 모드(sleep mode)가 되게 하거나 방에서 움직임 또는 활동의 검출시에는 어웨이크 모드(awake mode)로 되게 하는 움직임 검출기를 갖도록 설비될 수 있다. 이와 같이 하여, 전력이 보존될 것이고, 저장 장치(18)의 저장 공간이 보존된다. 또한, 비디오 카메라는 카메라가 특정 방에서 발생하는 이벤트를 트래킹(tracking)하도록 하는 선회 시스템을 포함할 수 있다. 상기 시스템에서, 예시로서 침대로부터 걷는 아이는 제 1의 카메라에 의해 문 밖까지, 제 2의 카메라에 의해 중간까지, 그리고 제 3의 카메라에 의해 놀이 공간까지 추적될 수 있다.

각각의 카메라는 아이의 움직임을 따라 선회할 것이고 상기 움직임이 상기 특정 룸에서 미리설정된 시간 동안 발생하는 것이 중단된다면 꺼질 것이다. 현재 움직이는 카메라는 상기 영역에 들어가는 아이의 움직임을 검출하고 기록하기 시작할 것이다. 기록 장치(12)의 상기와 같은 추적의 특징은 컨덴츠 분배 시스템을 포함하는 본 발명의 실시예에 관련하여 이하에서 더 기술될 것이다.

여러 카메라 시스템에서 피추적 대상을 추적하는 예시적인 방법은 카메라 추적 시스템에 관한 국제 공개 공보(WO 00/08856, Sengupta 외)에 개시되어 있고, 상기 카메라 추적 시스템은 2개 이상의 비디오 카메라(12)(도 1에 도시)를 보통 포함한다. 카메라(12)는 조정가능한 팬(pan)/틸트(tilt)/줌(zoom) 카메라일 수 있다. 카메라(12)는 카메라 핸드 오프(handoff) 시스템(도면에 도시 되지 않음)에 입력을 공급한다. 카메라(12)와 상기 카메라 핸드오프 시스템 사이의 접속은 예컨대 전화접속 또는 다른 네트워크를 통한 직접 또는 원격 접속일 수 있다. 상기 카메라 핸드 오프 시스템은 양호하게는 컨트롤러, 위치 결정기, 및 시야 확인기를 포함한다. 상기 컨트롤러는 여러 센서로부터의 입력, 위치 확인기 및 시야 확인기의 범위에 기초하여 카메라(12)를 제어하게 한다.

환경(50)은 또한 양호하게는 LAN(14)과 상호 접속된 집적화된 스피커 또는 모니터 시스템(30)을 포함한다. 이하에서 더 기술되는 바와 같이, 모니터/스피커 시스템(30)은 TV, 비디오, 오디오, 또는 심지어 보이스 리마인더(voice reminder) 등의 시스템(10)의 사용자에게 컨텐츠를 방송하는데 이용될 수 있다.

도 2에 있어서, 사용자에 의한 검출을 위한 컨텐츠를 캡처, 분석, 세그멘팅, 보관하는 처리의 개요가 도시된다. 기록 장치가 활동하는 경우에, 비디오 컨텐츠는 기록 장치에 의해 캡처되고 프로세서에 전송된다(스텝 202 및 204). 상기 프로세서는 비디오 컨텐츠가 전송되어 옴에 따라 비디오 컨텐츠를 수신하고 상기 신호를 디멀티플렉싱(de-multiflexing))하여 신호를 비디오 및 오디오 성분으로 분리한다(스텝 206). 여러 특징들이 상기 프로세서에 의해 비디오 및 오디오 스트림으로부터 발췌된다(스텝 208).

도 3에 도시된 바와 같이, 비디오 및 오디오 스트림의 특징은 양호하게는 발췌되어 3가지 연속되는 레이어, 즉, 로우 A, 중간 B, 하이 C 레벨로 분석된다. 각각의 레이어는 연관된 확률을 갖는 노드를 구비한다. 상기 노드들 사이의 화살표는 인과 관계를 나타낸다. 로우 레벨 레이어 A는 일반적으로 신호 처리 파라미터를 설명한다. 예시적인 실시예로서 상기 파라미터는 컬러, 에지, 및 형상 등의 비디오특징, 평균 에너지, 밴드 폭, 피치, 멜프리퀀시 셉스트럴(melfrequency cepstral) 계수, 선형 예측 계수, 및 제로 크로싱(zero-crossing) 등의 오디오 파라미터를 포함하지만 그에 한정되는 것이 아니다. 상기 프로세서들은 양호하게는 상기 로우 레벨 특징을 결합하여 상기 중간 레벨 특징을 생성한다. 상기 중간 레벨 특징 B는 양호하게는 전체의 프레임 또는 프레임들의 컬렉션(collection)에 연관되고, 로우 레벨 특징 A는 픽셀 또는 단시간 간격에 연관된다. 키 프레임(key frame)(짧은 제 1 프레임, 또는 중요하다고 판정된 프레임), 얼굴들, 및 비디오 텍스트들은 중간 레벨 비디오 특징의 예이다 ; 침묵, 노이즈, 오디오, 음악, 대화 펄스 노이즈, 음성 펄스, 및 음성 펄스 음악은 중간 레벨 오디오 특징의 예이고, 연관되는 카테고리와 함께 전사(transcript)의 키워드는 상기 중간 레벨 트랜스크립트 특징을 구성한다. 하이 레벨 특징 C는 다른 도메인을 가로질러 중간 레벨 특징의 집적화를 통해 획득된 의미론적인 비디오 컨텐츠를 표현한다. 즉, 하이 레벨 특징은 사용자 또는 이하에서 기술되는 제조자 한정한 프로파일에 따른 세그멘트의 분류를 표현한다.

도 2를 다시 참조하면, 프로세서는 오디오 스트림이 음성(speech)을 포함하는가를 검출한다(스텝 210). 오디오 스트림에서 음성을 검출하는 예시적인 방법은 이하에거 기술된다. 음성이 검출되면, 프로세서는 상기 음성을 텍스트로 변환하여 기록된 컨텐츠의 타임 스탬핑(stamping)된 트랜스크립트를 생성한다(스텝 212). 그 후, 상기 프로세서는 텍스트 트랜스크립트를 분석될 추가의 스트림(도 3을 참조)으로서 부가한다(스텝 214).

음성이 검출되든 검출되지 않든, 프로세서는 세그멘트 바운더리들(segmentboundaries), 예컨대, 분류 가능한 이벤트의 시작과 종료를 결정하려고 시도한다(스텝 216). 양호한 실시예에 있어서, 프로세서는 화상 그룹의 순차적인 I 프레임들 사이에서 중요한 차이를 검출하는 경우에 신규의 키 프레임을 발췌함으로써 소중한 장면 변화 검출을 먼저 실행한다. 프레임 그랩잉(grabbing) 및 키 프레임 발췌는 미리정해진 간격에서 또한 실행될 수 있다. 처리 엔진의 비디오 사전 처리 모듈은 점증적인 매크로 블록 차이 측정을 사용하여 프레임 차이에 대한 DCT 기반의 구현(DCT based implemetn)을 채택한다. 또한, 히스토그램 기반의 방법도 채택될 수 있다. 여기서, 홈 비디오 카메라 및 감시 카메라로부터의 비디오 재료는 방송 비디오와는 꽤 상이하고, 방송 비디오에 적용된 키 프레임 발췌 방법 몇몇은 가정 영역에서는 효과적이지 않다는 점을 주목해야 한다. 그러나, 연속적인 프레임들 사이의 중요한 차이점을 검출할 수 있고 중요한 프레임들의 발체에 도움이 되는 어떠한 방법도 상기 시스템에 채택될 수 있다. 이전에 발췌된 키 프레임과 유사하게 보이는 유니칼러 키 프레임 또는 프레임들은 1 바이트 프레임 사인을 사용하여 필터링된다. 처리 엔진은 연속적인 I 프레임들 사이의 차이를 이용하여 임계점 이상의 상대적인 양에 대한 확률을 기초로 한다.

프레임 필터링 방법은 디미드로바(Dimitrova) 등의 미국 특허 제 6,125,229호에 개시되어 있고, 이하에서 간단하게 기술된다. 일반적으로 말해, 프로세서는 컨텐츠를 수신하고 비디오 신호를 픽셀 데이터를 나타내는 프레임들로 포맷한다(프레임 그랩잉). 주목할 점은 프레임을 그랩잉하고 분석하는 프로세서는 양호하게는 각각의 기록 장치에 대해 미리정해진 간격에서 실행된다. 예컨대, 기록 장치가 데이터룰 기록하기 시작한 경우에, 키 프레임은 30초 마다 그랩잉된다. 이와 같이, 처리 엔진은 이하에서 보다 상세히 기술되는 바에시언 확률 분석(Bayesian probability analysis)을 실행하여 이벤트를 카테고리화하고 기록된 데이터의 인덱스를 생성한다.

일단 상기 프레임들이 그랩잉되면 각각의 선택된 키 프레임은 분석된다. 비디오 세그멘트는 본 분야에서 공지되어 있는 것으로서, 2000년, 산호세(San Jose)에서 개최된 SPIE Conference on Image and Video Databases에 소개된, N. Dimitrova, T. McGee, L. Agnihotri, S. Dagtas, 및 R.Jasinschi의 "On Selective Video Content Analysis and Filtering", 및 AAAI Fall 1995 Symposium on Computational Models for Integrating Language and Vision 1995에서, A. Hauptmann 및 M. Smith에 의한 "Text, Spech, and Vision For Video Segmentation: The Infomedia Project"에 일반적으로 설명되어 있다. 기록 장치에 의해 캡처된 사람에 관한 텍스트 정보 및/또는 비디오(예컨대, 얼굴)를 포함하는 기록된 데이터의 비디오부의 세그멘트는 데이터가 특정한 개인에 관한 것이고 그에 따라 상기 세그멘트에 따라 인덱싱 가능하다는 것을 나타낼 것이다. 본 분야에서 공지된 바와 같이, 비디오 세그멘트는 이하를 포함하지만, 여기에 한정되지 않는다. 즉,

중요한 장면 변화 검출: 여기서 연속적인 비디오 프레임은 비교되어 급격한 장면 변화(하드 컷트들(hard cuts)) 또는 완만한 추이(디졸브(dissolve), 페이드-인(fade-in), 및 페이드-아웃(fade-out))을 식별한다. 중요한 장면 변화 검출의 설명은, 'Proc. ACM Conf. on Knowledge and Information Management, pp 113-120,1997'에서 N. Dimitrova, T. McGee, H. Elenbaas의 ""Video Keyframe Extraction and Filtering: A Keyframe is Not a Keyframem to Everyone"에 개시되어 있다.

얼굴 검출 : 피부색(skin-tone)을 포함하며 오벌 달걀형에 연관되는 비디오 프레임들의 각각의 영역들이 식별된다. 양호한 실시예에 있어서, 일단 얼굴 이미지가 식별되면, 상기 이미지는 메모리에 저장된 공지의 인물 이미지의 데이터 베이스와 비교되어, 비디오 프레임에 보여진 얼굴 이미지가 사용자의 뷰우 프리퍼런스(user's viewing preference)에 연관되는가를 판정한다. 인물 검출의 설명은 Gang Wei 및 Ishwar K. Sethi의 "Face Detetction for Image Annotation", 'Pattern Recognition Letters, Vol. 20, No. 11, November 1999'에 개시되어 있다.

움직임 평가/세그멘트/검출 : 이동하는 대상체는 비디오 시퀀스로 결정되고 이동 대상체의 궤적은 분석된다. 대상체의 이동을 비디오 시퀀스에서 판정하기 위해, 광학 흐름 평가, 움직임 보상, 및 움직임 세그멘트 등의 공지의 동작이 양호하게 채택된다. 움직임 평가/세그멘트/검출의 설명은, Patrick Bouthemy 및 Francois Edouard의 "Mothion Segmentation 및 Qualitative Dynamic Scene Analysis from an Image Sequence", 'International Journal of Computer Vision, Vol. 10, NO. 2, pp. 157-182, April 1993'에 개시되어 있다.

상기 방법은 또한 비디오 신호의 오디오부의 세그멘트를 포함하고 상기 비디오의 오디오부는 뷰잉 프리퍼런스(viewing preference)에 적절한 워드/사운드의 발생에 대해 모니터링된다. 오디오 세그멘트는 이하의 형태의 비디오 프로그램의 분석: 음성-텍스트 변화, 오디오 효과 및 이벤트 검출, 스피커(speaker) 식별, 프로그램 식별, 음악 분류, 및 스피커 식별에 기초한 다이얼로그 검출을 포함한다.

오디오 세그멘트는 오디오 신호의 음성 및 비 음성부(non-speech)로의 분할을 포함한다. 오디오 세그멘트의 제 1의 스텝은 밴드 폭, 에너지 및 피치 등의 로우 레벨 오디오 특징을 사용하는 세그멘트 분류를 포함한다. 채널 분리가 채택되어 서로(음악 및 음성 등의)로부터의 동시에 발생하는 성분을 분리하여, 각각은 독립적으로 분석 가능하다. 그 후, 비디오(또는 오디오) 입력의 오디오부는 음성- 텍스트 변환, 오디오 효과 및 이벤트 검출, 및 스피커 식별 등의 서로 별도의 방법으로 처리된다. 오디오 세그멘트는 본 분야에서 공지되어 있고, 보통 E.Wold 및 T.Blum의 "Content-Based Classification, Search and Retrieval oof Audio", 'IEEEE Multimedia, pp. 27-36, Fall 1996'에 설명되어 있다.

음성 텍스트 변환(본 분야에서 공지되어 있는 것으로서, 예컨대 'P. Beyerlein, X. Aubert, R. Haeb-Umbach, D. Klakow, M. Ulrich, A. Wendemuth and P. Wilcox'의 "Authomaic Transcription of English Broadcast News", 'DARPA Broadcast News Transcription and Understandign Workshop, VA, Feb. 8-11, 1998'을 참조)은 비디오 신호의 오디오부의 음성 세그멘트가 일단 식별되거나 또는 배경 노이즈 또는 음악으로부터 분리되면 채택될 수 있다.

오디오 효과는 이벤트를 검출하는데 사용될 수 있다(본 분야에서 공지된 것으로서, 예컨대, 'T. Blum, D. Keislar, J. Wheaton, and E. Wold'의 "Audio Databses with Content-based Retrieval", 'Intelligent Multimedia, InformatonRetrieval, AAAI Press, Menlo, Park, California, pp. 113-135. 1997'의 설명을 참조). 이벤트들은 특정 이벤트와 연관될 수 있는 사운드를 식별함으로써 검출 가능하다. 예컨대, "생일 축하"의 노래는 검출될 수 있고 세그멘트는 그 후 생일 이벤트로서 인덱싱 된다.

스피커 식별(본 분야에서 공지된 것으로서, 예컨대, 'Nilesh V. Patel and Ishwar K. Sethi'의 "Video Classificaton Using Speaker Identificaton", 'IS&T SPIE Proceedings : Storage and Retrieval for Image and Video Databses V, pp. 218-225, San Jose, CA, February 1997)은 오디오 신호에 존재하는 음성의 오디오 신호를 분석하는 것을 포함하고 말하고 있는 사람의 신원을 판정한다. 스피커 식별은 예컨대 특정 가족 구성원에 대한 검색에 사용될 수 있다.

이벤트 식별은 기록 기록 장치에 의해 캡처된 데이터 신호의 오디오부 분석을 포함한다. 상기는 특히 이벤트들의 카타로그화 및 인덱싱에 유효하다. 분석된 오디오부는 이벤트 특징의 라이브러리에 비교되어 이벤트가 특정 이벤트에 대한 공지의 특징과 매칭하는지 여부를 판정한다.

음악 분류는 오디오 신호의 비음성부(non-speech portion) 분석을 포함하고 음악(클래식, 락, 재즈)의 타입을 결정한다. 상기는 예컨대 오디오 신호의 비음성부의 주파수, 피치, 음색, 사운드 및 멜로디를 분석하고 분석 결과를 공지의 특정 타입의 음악의 특징과 비교함으로써 달성된다. 음악 분류는 본 분야에서 공지되어 있고 일반적으로, Eric D. Scheirer에 의한, "Towards Music Understanding Without Separation : Segmenting Music With Correlogram Comodulation", '1999IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, New Paltz, NY October 17-20, 1999'에 설명되어 있다.

비디오, 오디오, 및 트랜스크립트 텍스트(transcript text)의 여러 성분들은 그 후 여러 이벤트 타입에 대해 공지의 큐(que)의 하이 레벨 표(table)에 따라 분석된다(스텝 218). 이벤트의 각각의 카테고리는 키워드들 및 카테고리들의 연관된 테이블인 지식 트리(knowledge tree)를 갖는다. 상기 큐(que)들은 사용자 프로파일에 대해 사용자에 의해 설정되거나 제조자에 의해 미리결정된다. 예컨대, "그레쥬에이션(gaduation)" 트리는 학교, 졸업, 모자, 가운 등의 키워드들을 포함할 수 있다. 다른 예로서, "생일" 이벤트는 생일용 초, 많은 얼굴 등의 비디오 세그멘트와, "생일 축하"의 노래 등의 음석 세그멘트, 및 "생일"이라는 단어 등의 텍스트 세그멘트에 연관될 수 있다. 이하에서 보다 상세히 기술되는 통계적인 처리 이후에, 프로세서는 카테고리 보트 히스토그램(cartegory vote histogram)을 사용하여 카테고리화를 실행한다. 예시로서, 텍스트 파일의 단어가 지식 베이스 키워드와 매칭하면, 연관되는 카테고리는 보트(vote)를 선택한다. 각각의 카테고리에 대한 확율은 키워드 당 총 보트의 수와 텍스트 세그멘트에 대한 총 보트의 수 사이의 비율에 의해 주어진다.

양호한 실시예에 있어서, 세그멘팅된 비디오, 오디오, 및 텍스트 세그멘트의 여러 성분은 집적화되어 이벤트를 인덱싱한다. 세그멘팅된 비디오, 오디오, 및 텍스트 신호의 집적화는 복잡한 인덱싱을 위해 선호된다. 예컨대, 사용자가 어떤 사람의 생일날에 주어진 음성을 검색하기를 원하는 경우에, 단지 얼굴 인식(행위자를식별하기 위해)이 요구 될 뿐만 아니라 스피커 식별(스크린상의 행위자자 말하고 있는가를 보장하기 위해), 및 움직임 평가-세그멘트-검출(행위자의 특정 움직임을 인식하기 위해)이 요구된다. 따라서, 인덱싱에 대한 집적화 접근 방법은 선호되고 양호한 결과를 낳게 한다.

스텝 220에 있어서, 세그멘트 정보는 그 후 프로세서에 접속된 저장 장치에 대한 비디오 컨텐츠와 함께 저장된다.

하이 레벨 층의 하이 레벨 추론(inference)을 생성하는 양호한 프로세스가 이하 기술될 것이다. 바에시언 확률 분석 접근법(Bayesian probablistic analysis approach) 이 사용되는 이유는 상기 방법은 인트라 또는 인터 모형(intra or inter modalities)을 집적화하기 때문이다. 인트라 모형 집적화는 싱글 도메인내의 특징의 집적화를 언급한다. 예컨대, 비디오 텍스트에 대한 컬러, 에지, 형상 정보의 집적화는, 모두 비디오 도메인에서 발생하기 때문에 인트라 모형 집적화를 나타낸다. 비주얼 카테고리 얼굴 및 비디오 텍스트를 갖는 중간 레벨 오디오 카테고리의 집적화는 비디오 및 오디오 정보를 결합하여 컨텐츠에 대한 추론(inference)을 하기 때문에 인터 모형의 예를 제공한다. 상기 집적화에 대한 확률 접근법은 바에시언 네트워크에서 발견된다. 그들은 여러 도메인을 가로질러 계층 정보의 조합을 허용하고 불확실성을 조절한다. 바에시언 네트워크는 노드들이 (확률론적인) 변수에 대응하는 DAG(directed acyclical graphs)이다. 아크(arc)는 링크된 변수들 사이의 직접적인 우연한 관계를 기술한다. 상기 링크들의 강도는 조건 확률 분포(conditional probability distribution : cpds)에 의해 주어진다. 보다, 공식적으로는, N개의 변수의 세트 Ω(x₁,..., x_N)가 DAG를 정의한다고 하자. 각각의 변수에 대해, Ω, Π_Xi, x_i의 모세트(parent set), 즉, DAG의 x_i의 프레데세서(predecessors)의 서브 세트의 변수가 존재하여, P(x_i｜Π_Xi)= P(x_i｜x_i,..., x_i-1)이고, 여기서,는 cpd이고, 순전히 양(positive)이다. 이제, 조인트 확률 밀도 함수(pdf)P(x₁,...,x_N)가 주어지면, 체인룰(chain rule)을 사용하여, P(x₁,...,x_N) = P(x_N,｜x_N-1,..., x₁)*...*P(x₂,｜x₁)P(x₁)를 얻는다. 상기 식에 따르면, 상기 모세트(Π_Xi)는 x_i및 {x₁,...,x_N}＼Π_Xi이 조건적으로 독립적인 주어진 Π_Xi인 성질을 갖는다.

이전에 언급되 바와 같이 DAG의 구조는 양호하게는 3개의 레이어로 구성된다. 각각의 층에 있어서, 각각의 원소는 DAG의 노드에 대응한다. 목적하는 아크(arc)는 소정의 레이어에서 하나의 노드를 하나 이상의 선행 레이어와 결합한다. 2세트의 아크는 3개의 레이어들의 원소를 결합한다. 주어진 레이어 및 주어진 원소에 대해, 조인트 pdf는 이전에 기술된 바와 같이 계산된다. 각각의 레벨에 대한 별도의 모 세트(parent set)들 사이에 오버랩이 존재할 수 있다.

토픽(topic) 세그멘트 및 분류는 도 3의 제 3의 층(하이 레벨 C)에서 보여진 바와 같이 프로세스에 의해 실행된다. 양호한 실시예에 있어서, 상기 프로세서는 사용자 또느 제조자의 미리정해진 하이 레벨 키워드 표에 따라 컨텐츠의 인덱싱을 실행한다. 상기 프로세서는 키워드 및 다른 데이터를 하이 레벨 표로부터 판독(i)하고, 몇몇 하이 레벨 카테고리에 기초하여 컨덴츠를 세그멘트들로 분류(ii)함으로써 컨텐츠를 인덱싱한다.

따라서, 도 4에 있어서, 본 발명에 따라 2명의 가족 구성원들 사이의 대화의 예시적인 분석이 도시된다. 일단 컨덴츠는 상술한 양호한 실시예에 따라 세그멘팅되고 분석되면, 바에시언 방법 또는 다른 확률 분석 방법이 사용되어 세그멘팅된 컨텐츠에 대한 인덱스 파일을 생성한다. 알수 있는 바와 같이, 이벤트를 인덱싱하는 하나의 방법은 특정 이벤트의 비디오, 오디오 및 텍스츄얼 표시(textual indicia)를 고려한다.

상기 분석에 있어서, 프로세서는 이벤트가 케테고리에 들어맞는 확율을 결정하고, 상기는 상술한 바와 같이, 그 카테고리의 많은 인디셔를 포함한다. 프로세서는 얼굴 검출법을 사용하여 비디오 세그멘트에서 나타나는 대상들을 추가로 식별할 수 있다. 상기 정보는 인덱스 파일에 저장되고 세그멘트의 컨텐츠에 대한 링크를 제공하고, 이는 사용자에 의해 서치될 수 있다.

단지 예시로써, 도 4에 있어서, 어떤 주식 "XYZ Corp."에 관해 밥(Bob)과 메리(Mary)에 관련된 부엌에서의 대화는 이하와 같이 인덱싱될 수 있다. 스텝 402, 및 404에서, 프로세서는, 여러 비디오, 오디오, 및 텍스트 성분을 분석한 이후에, 이벤트에 대한 스테틱 데이터(static data)를 기록할 수 있다. 예컨대, 이벤트에 관한 데이터와 시간 및 이벤트가 캡처된 방에 관한 데이터는 인덱스 파일에 저장될 것이다. 또한, 프로세서는 양호하게는 오디오 스트림의 보이스 인식 세그멘트와 함께 비디오 스트림의 얼굴 검출 세그멘트의 조합을 사용하여, 이벤트에 관련된대상(밥과 메리)를 식별한다(스텝 406). 스텝 408 및 410에 있어서, 프로세서는 이벤트 도중에 일정 시간 회수 이상 반복된 텍스트 용어(term)에 따라 이벤트를 역시 카테고리화 한다. 예컨대, 텍스트 트랜스크립트의 분석은 용어 "XYZ Corp", "주식", 및 "돈"이라는 용어가 상기 대상들에 의해 반복적으로 말해지는가를 식별하고, 그에 따라 인덱스 파일에 부가될수 있을 것이다. 또한, 프로세서는 이벤트의 본질, 예컨대, 대화(conversation)을 판정하기 위해 확률 접근법을 사용할 수 있을 것이다(스텝 412). 상기는 오디오 스트림의 노이즈 레벨 및 음성 특징, 텍스트 스트림에서의 스피커의 반복된 변경, 및 비디오 스트림에서의 대상의 한정된 움직임을 포함하지만 그에 한정되지 않는 대화의 미리정의된 지시를 사용함으로써 양호하게 실행될 수 있다.

도 5에 있어서, 밥과 메리의 대화를 검색하는 예시적인 프로세스가 도시된다. 상술한 바와 같이, 프로세서(516)는 사용자가 특정 이벤트에 대한 서치 요구(515)를 입력할 수 있는 인터페이스를 디스플레이하는 명령으로 프로그래밍된다. 상기 프로세서(516)는 또한 CRT 모니터, 텔레비전, 또는 다른 디스플레이 장치일 수 있는 디스플레이 장치(517)에 또한 접속된다. 프로세서(516)는 상기 서치 요구를 수신하고(스텝 5A), 상치 요구는 공지의 부울 구조(Boolean structure)에서의 이하의 용어(term)를 포함한다. : 밥(Bob) AND 메리(Mary) AND 부엌 AND 주식. 상기 용어(term)들은 요구 기준과 가장 잘 어울리는 인덱스 파일을 찾기 위해 저장 장치(518)에 저장된 인덱스 파일(519)에 대해 매칭된다(스텝 5B). 매치 또는 매치의 세트들이 사용자에게 되돌아 가면, 사용자는 디스플레이ㅇ 장치에 되돌려 지도록 식별된 이벤트들 중의 하나를 선택한다(스텝 5C). 스텝 5D에서, 프로세서는 그 후 이벤트를 검색하고 디스플레이 장치 상에 이를 디스플레이한다.

대안의 실시예에 있어서, 데이터의 비디오 세그멘트가 사용되어 실시간으로 기록장치에 의해 캡처된 사람들을 식별하는데 사용된다. 도 6에 있어서, 여러 가정 제품에 대한 액세스를 거부하거나 공급하고 제어하는 프로세스의 흐름도가 도시된다. 상기 실시예에 있어서, 도 1에 도시된 바와 같은 네트 워크는 도 1에 도시된 바와 같이 여러 가정 전자 제품에 상호 접속되고, 프로세서는 상기 전자 제품에 설치된 마이크로프로세서와 함께 작용하도록 프로그래밍된다.

이하의 프로세스는 가정용 컴퓨터의 사용과 관련하여 기술되었지만, 본 분야의 당업자라면 가정 또는 사무실에서 일반적으로 발견되는 가전 제품 어는 것에 대해서도 유사한 기능을 제공할 수 있다는 점을 인식할 수 있을 것이다. 상기 예를 위해, 기록 장치(예컨대, 비디오 카메라)는 가전 제품에 액세스 하려는 대상의 얼굴을 기록하도록 위치한다. 스텝 602에서, 기록 장치는 대상의 얼굴의 샷(shot)을 캡처한다. 상기 샷은 그 후 처리 엔진에 넘겨진다(스텝 604). 스텝 606에서, 처리 엔진은 얼굴 검출 기술을 사용하여 개개인의 신원을 분석 및 판정한다. 시스템의 정확도를 개선하기 위해, 이전에 언급된 오디오 인식 기술이 얼굴 검출 기술과 함께 조합되어 사용될 수 있다. 개개인의 얼굴이 액세스가 승인될 얼굴들 중의 하나와 매치되면(스텝 608), 그후 처리 엔진은 컴퓨터 시스템으로의 액세스를 승인한다(스텝 610). 그렇지 않으면, 액세스는 부정된다(스텝 612). 상기와 같이, 개인의 얼굴은 로그인 또는 암호로서 기능한다. 또한, 인식 장치는 마이크로폰 또는 다른 오디오 캡처 장치일 수 있고 오디오 인식 시스템은 개인의 신원을 확인하고, 액세스를 승인 및 부인하는데 사용될 수 있다. 상기와 같은 시스템은 실질적으로 전술한 바와 같이 동작할 수 있다.

도 1로 되돌아 가서, 본 발명의 실시예에 따르면, 기록 시스템(10)은 하루에 24시간 일주일에 7일 동안 환경에서 대상의 액션을 일정하게 기록할 수 있다. 어느 주어진 날짜에, 예컨대, 기록 시스템(10)은 특정 대상에 의해 실행된 개인의 액션 또는 이벤트의 횟수 어느 것이라도 기록 및 식별할 수 있다. 액션을 식별함으로써, 확률 엔진은 날마다 비슷한 시간에 또는 하루종일 반복적으로 발생하는 액션들을 식별할 수 있다. 예컨대, 대상(subject)이 침대로 가기 전 밤에, 환경의 정문 및 뒷문을 잠글 수 있다. 수시간 이후에, 확률 엔진은 상기 액션이 매일 밤에 실행되는가를 식별할 수 있을 것이다. 따라서, 처리 시스템(16)은 대상에게 식별된 액션을 실행하도록 일깨워 주거나 대상에 대한 태스크를 실제로 실행하거나 하는 어떠한 방법으로도 식별된 액션에 응답하도록 프로그래밍될 수 있다. 비한정적인 예로서, 처리 시스템(16)은 가정의 전기 시스템을 동작하도록 접속 되거나 프로그래밍될 수 있다. 따라서, 처리 시스템(16)은 모든 대상이 밤에 자러갈때 조명을 끌수 있다.

또 다른 실시예에 있어서, 비디오 카메라 등의 기록 장치(12)는 환경(50)의 정문에 위치되어 문에 접근하는 대상을 기록할 수 있다. 기록 장치(12)는 환경을 방문하는 사람들의 스냅 사진을 찍고 그 후 특정 사람이 방문하는 환경의 소유자에게 통지한다. 이는 직장에 있는 사용자에게 e메일을 보내거나 사용자에 의한 나중의 검색용으로 스냅 사진 화상을 저장하거나 하여 실행될 수 있다. 정문의 기록 장치(12)는 환경(50)내의 아이가 보통때와 다른 시간에 집으로 돌아오는 경우에 위험한 이벤트를 식별할 수 있다. 예컨대, 아이가 학교에서 아파서 일찍 돌아오는 경우에, 기록 장치(12)는 집으로 돌아오는 아이의 화상 및 시간을 기록하여 부모에게 상기와 같은 특히한(잠재적으로 위험한) 이벤트를 통지한다. 재차, 스냅 사진 및 시간 스탬프(time stamp)는 부모에게 e메일로 통지될 수 있고 무선 전화, 또는 PDA 등의 모바일 장치를 사용하여 다른 방법으로 통신할 수 있다.

이전에 언급된 바와 같이, 상기 시스템은 환경을 통해 컨텐츠를 방송하든데 사용될 수 있다. 예컨대, 사용자는 그들이 환경하에 있는 어디를 여행하더라도 카세트 테이프 플레이어 및 헤드폰을 반드시 갖지 않아도 오디오 북을 듣고 싶을 수 있다. 따라서, 기록 시스템(10)의 센서 또는 기록 장치(12)는 대상이 위치하는 특정한 방의 시스템과 상호 접속된 스피커를 통해 오디오 북을 방송할 수 있다. 대상이 환경 주변으로 이동함에 따라, 방송 오디오 신호는 대상에 근접한 스피커에게 송신될 수 있다. 예시로서, 대상이 저녁을 요리하는 부엌에 있다면, 부억의 스피커가 활성화 될 것이다. 대상이 부억에서 거실까지 저녁을 먹기 위해 이동했다면, 거실 방의 스피커가 활성화 될 것이다.

다른 실시예에 있어서, 수동적인 기록 시스템이 모니터링 또는 보안 시스템으로서 사용될 수 있다. 시스템에 있어서, 기록 장치에는 양호하게는 움직임 검출기가 설치되어 움직임을 검출하고 기록 장치의 시야의 범위내에 대상이 등장할 때 기록을 시작한다. 만일, 시스템이 경보를 받으면, 움직임이 검출되고 기록 장치는대상의 얼굴의 사진을 기록할 것이다. 그 후, 얼굴 검출 기술을 사용하여, 대상의 얼굴은 가정에 거주하거나 직장에서 일하는 개인들의 얼굴들을 포함하는 데이터 베이스에 대해 매치될 수 있다. 만일 매치되지 않으면, 경보가 울리거나 적절한 관계기관들은 있을 수 있는 침입을 통지받는다. 본 발명의 시스템은 움직임 검출과 얼굴 검출 양쪽 모두를 조합하기 때문에, 시스템은 애완견 또는 다른 비 침입적인 움직임에 희해 경보를 착오로 발생할 가능성이 적다.

본 발명은 양호한 실시예들과 관련하여 기술되었지만, 상술한 원리들 내에서의 변형이 본 분야의 당업자에게 자명할 것이며, 따라서 본 발명은 양호한 실시예에 한정되는 것이 아니라 상기와 같은 변형예를 포함한다는 것을 이해할 것이다.

Claims

프로세서 및 저장 장치에 상호 접속된 네트워크에 접속된 적어도 하나의 기록 장치를 구비하는 동작 환경(operating environment)에서 이벤트들(events)을 수동적으로 기록 및 인덱싱하는 방법에 있어서,

상기 기록 장치에 의해 캡처된 비디오를 기록하는 단계와,

상기 비디오를 적어도 하나의 비디오 세그멘트 및 오디오 세그멘트로 세그멘팅하는 단계와,

상기 비디오의 특징들을 판정하기 위해 상기 비디오 및 오디오 세그멘트들을 분석하는 단계와,

미리정해진 표시(indicia)에 따라 상기 비디오의 일부를 카테고리화하는 단계와,

상기 특징들을 상기 비디오의 분석된 부분과 연관시키는 단계와,

상기 비디오를 상기 연관된 카테고리와 특징들과 함께 상기 저장 장치에 저장하는 단계를 포함하는, 기록 및 인덱싱 방법.
제 1항에 있어서,

상기 비디오의 세그멘팅 단계는 상기 비디오의 텍스트 트랜스크립트(transcript)를 생성하는 단계를 더 포함하는, 기록 및 인덱싱 방법.
제 2항에 있어서,

한 용어(term)가 반복적으로 사용되었는지 여부를 판정하기 위해 상기 텍스트 트랜스크립트를 분석하는 단계를 더 포함하는, 기록 및 인덱싱 방법.
제 3항에 있어서,

상기 연관시키는 단계는 반복적으로 사용된 상기 용어를 상기 비디오와 연관시키는 단계를 더 포함하는, 기록 및 인덱싱 방법.
제 1항에 있어서,

복수의 기록 장치들이 상기 네트워크에 접속되는, 기록 및 인덱싱 방법.
제 1항에 있어서,

상기 기록 장치는 비디오 카메라인, 기록 및 인덱싱 방법.
제 1항에 있어서,

상기 비디오의 상기 특징들은 복수의 비주얼 특징들(visual features)을 포함하는, 기록 및 인덱싱 방법.
제 1항에 있어서,

상기 비디오 세그멘트의 분석 단계는 대상들(subjects)을 식별하기 위해 얼굴 검출을 이용하는 단계를 더 포함하는, 기록 및 인덱싱 방법.
제 1항에 있어서,

상기 프로세서는 디스플레이 장치에 접속되고,

상기 비디오의 일부에 대한 요구를 수신하는 단계와,

상기 비디오와 연관되는 특징들 및 상기 카테고리에 대한 상기 요구를 매칭시키는 단계와,

상기 요구를 매칭하는 상기 비디오의 일부를 디스플레이하는 단계를 더 포함하는, 기록 및 인덱싱 방법.
적응성 환경 시스템에 있어서,

네트워크에 접속가능한 처리 시스템을 포함하며, 상기 네트워크는 하나 이상의 상호 접속된 센서들을 포함하고, 상기 처리 시스템은 하나 이상의 프로세서들에게,

상기 처리 시스템에 접속 가능한 상기 하나 이상의 센서들로부터 기록된 데이터를 수신하고,

상기 기록된 데이터에서 발생하는 이벤트를 식별하도록 상기 기록된 데이터를 분석하고,

상기 식별된 이벤트에 대해 응답이 적합한가를 판정하고,

응답이 적합한 경우에 상기 응답에 연관되는 신호를 생성하도록 지시하기 위한 컴퓨터 코드를 포함하는 컴퓨터 판독가능 매체를 포함하는, 적응성 환경 시스템.
제 10항에 있어서,

상기 처리 시스템에 통신상으로 접속된 저장 장치를 더 포함하고, 상기 하나 이상의 프로세서에게;

상기 기록된 데이터를 적어도 비디오 세그멘트와 오디오 세그멘트로 디믹스(de-mix)하고,

상기 비디오 및 오디오의 확률 분석(probabilistic analysis)을 실행하고,

카테고리 내에 폴링(falling)하는 상기 기록된 데이터의 확률을 계산하도록 지시하기 위한 컴퓨터 코드를 더 포함하는, 적응성 환경 시스템.
제 11항에 있어서,

상기 기록된 데이터는 상기 저장 장치에 보관되는, 적응성 환경 시스템.
제 10항에 있어서,

상기 컴퓨터 코드는 상기 기록된 데이터를 분석하기 위한 확률 엔진을 포함하는, 적응성 환경 시스템.
제 13항에 있어서,

상기 확률 엔진은 바에시언 접근법(Bayesian aproach)을 사용하는, 적응성 환경 시스템.
제 10항에 있어서,

식별된 상기 이벤트가 위험한 이벤트인 경우에, 상기 응답은 지정된 사람에게 통지하는 것인, 적응성 환경 시스템.
제 10항에 있어서,

식별된 상기 이벤트가 에너지 절약 이벤트인 경우에, 상기 응답은 상기 네트워크에 상호 접속된 전기 제품를 제어하는 것인, 적응성 환경 시스템.
제 10항에 있어서,

식별된 상기 이벤트가 제안 이벤트인 경우에, 상기 응답은 사용자에게 메시지를 전송하는 것인, 적응성 환경 시스템.
제 10항에 있어서, 상기 하나 이상의 프로세서들에게,

상기 기록된 데이터의 인덱스를 생성하고,

인덱스 파일에 상기 인덱스를 저장하고,

상기 기록된 데이터를 상기 인덱스 파일과 함께 저장 장치에 저장하도록 지시하기 위한 컴퓨터 코드를 더 포함하는, 적응성 환경 시스템.
제 18항에 있어서,

상기 처리 시스템은 사용자로부터의 서치 요구를 수신하도록 만들어졌으며,

상기 하나 이상의 프로세서에게,

상기 인덱스 파일의 일부에 상기 서치 요구의 파라미터를 매치시키고,

상기 서치 요구의 상기 파라미터를 매치시키는 상기 인덱스 파일의 섹션에 대응하는 상기 기록된 데이터의 일부를 되돌려 보내도록 지시하기 위한 컴퓨터 코드를 더 포함하는, 적응성 환경 시스템.
제 10항에 있어서,

상기 처리 시스템은 기록된 대상의 신원을 분석하고, 상기 기록된 대상이 인식되지 않으면 액션(action)을 실행하도록 프로그램되는, 적응성 환경 시스템.
제 20항에 있어서,

상기 액션은,

경보를 울리고,

법실행기관들(law enforcement authorities)에 통지하고,

지정된 사람에게 통지하는 것 중의 적어도 하나인, 적응성 환경 시스템.