CN1599904A

CN1599904A - 自适应环境***和提供自适应环境的方法

Info

Publication number: CN1599904A
Application number: CNA028242483A
Authority: CN
Inventors: N·迪米特罗瓦; J·兹梅曼; T·麦格; R·S·贾辛斯奇
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-12-06
Filing date: 2002-11-20
Publication date: 2005-03-23
Also published as: JP2005512212A; EP1485821A2; US20030108334A1; WO2003049430A3; AU2002351026A1; AU2002351026A8; WO2003049430A2; KR20040068195A

Abstract

一种自适应环境***，包括用于记录视频的记录装置，该视频通过处理器进行分析并根据该视频的特征进行标引。该视频被分段至少成为视觉、音频和文字部分，它们可通过处理器进行分析。然后处理器生成所分析特征的索引文件，并将该视频和该索引文件一起存储到存储装置。于是能根据该索引文件检索该视频，通过检索识别的部分视频返回到显示器以便观看。此外，该自适应环境***可包括可连接到网络的处理***，其中该网络包括一个或多个互连的传感器。该处理***包括含有计算机代码的计算机可读介质，该计算机代码用于指示一个或多个处理器去：(a)从一个或多个可连接到该处理***的传感器接收已记录的数据；(b)分析该已记录数据以便识别在该已记录数据中发生的事件；(c)确定对识别的事件作出的响应是否适当；以及(d)当响应适当时产生与该响应相关的信号。

Description

自适应环境***和提供自适应环境的方法

本发明涉及用于提供一种自适应环境(adaptive environment)的***，尤其是在某一环境中用来对通过该环境中的传感器捕获得到的视频、音频和其它数据进行记录、分段以及标引(index)的***。

由于音频和视频的模拟和数字记录已成为主流，人们在生活中对各种事件的记录正在增多。录像/录音磁带以及新近的CDROM都是用于对事件进行存储和编目录的装置，但并不方便。磁带时常丢失或描述其内容的标签变得不可读。即使当磁带已经找到，用户也经常必须快进几个小时的视频直到找到想要的事件。虽然以数字形式存储和标识个别文件可以更容易，但一般可得到的标引***是有限的，不能充分地逐帧提供事件的分段和标引。

诸如类似TiVo的个人录像机(PVR)之类的用于记录和标引电视节目的其它***使用电子节目指南元数据来根据用户简档(profile)自动选择和存储整个电视节目。然而，由于这样的***不允许逐帧对事件进行分段和标引，所以，这些***可能是受限的。

而且，由于没有磁带或摄像机没有电池，可能错过发生在某人家里或办公室里的事件(即没有记录)。例如，小孩子第一次说话或第一次学步的事件可能由于摄像机准备好时事件已经过去了而被错过。

家庭安全***和家庭监控***也是公知的。这种***使用运动检测器、麦克风、摄像机或其它电子传感器来检测在装备了该***时某人的出现。其它类型的家庭监控***使用多种传感器来监控各种家用器具，包括炉子、空调、电冰箱等等。但是由于传感器的专用特性以及激励这些***的控制器的低处理能力，这种***通常在其使用中是受限的。例如，当家里的人或狗偶然进入运动检测器的监控范围时，家用报警器通常会错误地报警。

此外，用于拒绝访问某些家用器具的当前***是麻烦且效率低下，例如电视机或连接到因特网的个人计算机。例如，一些电视机可以被编程从而要求输入密码访问某一等级的电视节目。但是这些***要求家里的每个成员用PIN来向电视机识别自己。由于人们发现这种***使用时很难控制，通常就不使用这种***。

因此，希望有这样一种***，它被动地记录数据并提供对该数据地分段及标引，从而使得可以容易地检索。

进一步希望有一种家庭或办公室安全***，它能识别个人并避免错误的报警。而且，希望使用这样一种***来控制对家用器具的访问，例如对电视机、因特网连接、个人计算机、烤箱等的访问。

再进一步，希望提供一种***，它可以观察个人的行为和习惯并预测其行动。例如，希望有能根据个人的喜好或以前的行为来控制重复性的任务的***，例如控制加热，降温，照明，以及其它家庭和办公室环境。

本发明克服了现有技术中存在的缺陷。本发明提供一种集成的被动自适应环境，它分析视频，音频和其它记录数据，以识别各种事件，并确定是否需要采取行动来响应该事件。该分析过程通常包括监控环境，对记录数据分段，识别事件，以及标引记录数据以备存档之用。

一般地说，一个或多个传感器监控环境并被动记录该环境中对象的行动。该传感器通过网络与处理***互连。该处理***有利地操作概率引擎(probabilistic engine)来对记录数据分段。然后，分段的数据可以被该概率引擎分析以识别事件，并且被标引以及存储到存储装置中，该存储装置集成到该处理***或者与之分离。通过下面的描述将显而易见到是，根据本发明的处理***能够用在此描述的概率近似法来完成多种功能。

在本发明的一个实施例中，处理***对记录数据进行分段和标引，以允许用户搜索和请求该环境中已发生的事件。例如，用户能请求已发生在该操作环境中的特定事件，该事件从存储的数据中提取出来并向用户重放。此外，本发明的***监控该环境中对象的重复行为以学习其习惯。在本发明的另一个实施例中，该***能够提醒对象去完成任务或甚至是为对象完成那个任务。

处理***可以连接到一个传感器网络，传感器被动地记录发生在该环境中的事件。本发明的实施例中，传感器或记录装置可以是能捕获视频和音频数据的摄像机或麦克风。优选地，传感器连接到该操作环境中的恒定电源，以便一致地被动操作。在捕获数据时，将摄像机摄取的视频和音频数据相互分离。然后这些分离的数据流由处理***的概率引擎分析，它分析该数据流以便确定数据的正确分段和标引。

处理***的概率引擎也使得处理***能够跟踪所记录的对象的重复行动。然后，该概率引擎能够选择比对象的其它行动更频率地发生的那些行动。因此，概率引擎基本上学习了其记录的对象的习惯，并能够开始提醒对象完成任务或自动地将工作完成。

在另一个实施例中，该***作为一个安全***工作，其中，该处理***使用捕获的数据来识别个人，并提供或拒绝到操作环境的各个不同部分的访问。一旦个人被识别，处理***能够访问存有用户访问参数的数据库。例如，小孩子不可以向其提供对电视机的某些频道的访问。因此，该处理***能自动地识别小孩子，并基于该用户信息设定电视机中的***(例如V-chip)拒绝访问某些频道。而且，当未识别的人出现在家里时，该***能识别并通知适当的机关(authority)或报警。

根据本发明的另一方面，提供了一种检索已记录事件的方法，其中，该方法包括从多种记录装置收集数据，根据通过处理***收集的一组值把该数据分解(de-mix)成个别的部分，分析分解的数据的每个部分，把已分析的数据分段成多个部分，标引已分段的数据，并响应于用户的包括一部分已标引和分段的数据的标识符的请求，从存储装置检索该数据。

通过下面要联系附图阅读的详细描述，本发明的上述以及其它特征和优点将变得显而易见。

在附图中，该附图仅仅是说明性的，其中，贯穿几个视图，，同样的附图标记表示相同的元件：

图1是根据本发明的***结构实施例的总体示意图；

图2是对已记录数据进行分段和分类的示范过程的流程图；

图3是视频、音频和副本(transcript)流的分段实施例的示意图；

图4是创建用于搜索已记录数据的索引文件的示范过程的流程图；

图5是检索已标引数据的示范过程的示意图；

图6是给连接到本发明***的电路装置提供安全性的示范过程的流程图。

本发明提供了一种自适应环境，它包括被动事件记录***，它被动地记录在该环境中(例如在家里或办公室里)发生的事件。该记录***使用一个或多个记录装置，例如摄像机或麦克风。该***处理已记录的数据，以便根据一组参数对该事件进行分段和标引。由于该***是被动的，与该***交互的人自己不需要关心该***的操作。一旦已记录数据被分段和标引，就被存储到存储装置，以便可以由***的用户容易地检索。

根据本发明被动记录***优选地包括一个或多个用于捕获数据输入的记录装置以及可通信地连接到记录装置的处理引擎(也称为处理***或处理器)。一旦从记录装置接收到内容，处理引擎根据利用信息的各个部分的三层方法(three-layered approach)将内容分段。然后，已分段的内容根据各个内容部分来分类。接下来，该内容被存储到存储装置，存储装置也通过诸如局域网(LAN)之类的网络互连到处理器。该内容能由用户通过搜索该内容中可识别的对象来检索，例如通过搜索“生日和史蒂夫(birthday and Steve)”。在这样的实例中，该处理引擎将搜索满足搜索标准的内容分段。一旦找到，全部分段就可以被返回给用户以便观看。

处理***优选地使用贝叶斯引擎来分析数据流输入。例如，优选地，分析每帧视频数据，以便考虑对视频数据分段。这种视频分段的方法包括但不局限于断开检测(cut detection)、面部检测(facedetection)、文本检测、运动估计/分段/检测、摄像机运动等等。而且，音频数据也进行分析。例如，音频分段包括但不局限于语音到文本的转换，音频效果和事件检测、发声者识别、节目识别、音乐分类和基于发声者识别的对话检测。一般地说，音频分段涉及使用低级音频特征，例如音频数据输入的带宽、能量和音调。然后音频数据输入可以进一步分成各个部分，例如音乐和话音。用这些以及其它参数，***被动地记录和识别在家里或办公室发生的各事件，并且能够使用从上述处理过程收集的信息来标引事件。通过这种方式，用户能容易地使用明语命令来检索个别事件或子事件，或者该处理***能确定是否需要某个行动响应识别的事件。在操作过程中，一旦从用户接收到检索请求，处理引擎就根据该明语命令计算事件发生的概率，并返回该请求的事件。

通过如图3所示的实例，概率引擎能识别危险事件(例如盗窃、火灾、伤害等等)、节能事件(例如可能关闭电灯和其它器具、降温等等)、以及提醒事件(suggestion event)(例如晚间或人离开时锁门)。

应该理解，虽然本发明是联系诸如家庭或办公室类型环境之类的操作环境中使用的被动记录***而描述的，但该被动记录***能用于其中用户希望记录并标引发生在该环境中的事件的任何操作环境中。该环境可以是室外环境或室内环境。

现在参考图1，根据本发明的***10示出为有线连接在家庭环境50中。可以看到，家里有多个房间52，每个房间可以备有一个独立的记录装置12。每个记录装置12通过局域网(LAN)14相互连接并连接到处理器16。处理器16进而又互连到用于存储所收集数据的存储装置18。用于与被动记录***10的处理器16交互的终端也可存在。在优选实施例中，每个记录装置12有线连接到家用电源(未示出)，以便被动操作而不需与用户交互。因此，记录***10被动操作以便连续记录家里发生的事件，而不需用户干预或介入。而且，操作环境中一个或多个电子***(未示出，例如器具、电视机、加热和制冷单元，等等)可以互连到LAN 14，以便可以通过处理器16来控制。

优选地，处理器16位于能编程来完成这里描述的功能的计算机***中。该计算机***可以包括控制处理器和相关的操作存储器(RAM和ROM)，以及诸如飞利浦的TriMedia^TM Tricodec卡之类的用于预处理数据输入的视频、音频和文本部分的媒体处理器，这仅仅是举例而已。处理器16例如可以是Intel的奔腾芯片或其它多处理器，它对通过记录装置捕获的多帧数据进行分析，以便在索引存储器(例如硬盘、文件、磁带、DVD、或其它存储介质)中建立和存储索引。计算机***通过LAN 14与存储装置18、记录装置12以及其它电子元件互连和通信，其既可以是在整个操作环境中硬连线也可以是无线操作。

可操作地连接到处理器16的是存储装置18(例如，RAM、硬盘记录器、光存储装置、或DVHS，优选地，每个均具有数百G字节的存储容量)，用于存储事件记录。当然，处理器16和存储装置18可集成为一个单元。

记录装置或传感器12可以是集成了麦克风的摄像机，以便接收视频和音频两种数据。在其它实施例中，记录装置12可以是麦克风、运动检测器或其它类型的传感器。记录装置12进一步可配备成具有运动检测器，使得记录装置12能够在特定房间内没有事件发生时进入睡眠模式，并在检测到房间内的运动或行动时唤醒。通过这种方式，将节省功率，并保留存储装置18中的存储空间。更进一步，摄像机可以包括旋转***，它允许摄像机跟踪发生在特定房间中的事件。在这种***中，举例来说，从卧室走出来的小孩子可以被第一摄像机追踪到门外，由第二摄像机沿门厅追踪，由第三摄像机追踪其进入玩耍区域。

每个摄像机将转动以便追踪小孩子的活动，然后当那个特定房间内的活动停止发生预设时间段后关闭。而当前工作的摄像机将检测进入该区域的小孩子的运动并开始记录。记录装置12的跟踪特征将在下面结合本发明一个涉及内容分配***的实施例作进一步描述。

在多摄像机***中跟踪对象的示范方法已经在Sengupta等人的国际申请公开文本WO 00/08856中描述，在这种摄像机跟踪***中通常包括两个或更多摄像机12(如图1所示)。摄像机12可以是可校准的摇摄(pan)/俯仰/变焦摄像机。摄像机12提供了到摄像机移交(handoff)***(图中未示出)的输入；摄像机12和摄像机移交***间的连接可以是直接的，或者例如是通过电话连接或其它网络的间接连接。摄像机移交***优选地包括控制器、***和视野判定器。控制器根据各传感器、***和视野判定器的输入实施对摄像机12的控制。

环境50优选地还包括与LAN 14互连的集成扬声器或监视器***30。如下面将要进一步描述的，监视器/扬声器***30可以被用于向***10的用户广播内容，例如TV、视频、音频或话音提醒器。

参考图2，示出了捕获、分析、分段和归档内容以用于用户检索的概述。在步骤202和204，当记录装置启动后，记录装置捕获视频内容并将它发送到处理器。在步骤206，处理器接收传送的视频内容并将它解复用成视频信号，以便将该信号分离成视频和音频部分。然后在步骤208，多种特征由处理器从视频和音频数据流中提取出来。

如图3所示，优选地，视频和音频流的特征被提取出来并组织成相邻的三层：低层A，中层B和高层C。每层包括相关概率节点。节点间的箭头指示因果关系。低层A通常描述信号处理参数。在一个示范实施例中，该参数包括但不局限于：视觉特征，例如色彩，边界和形状；音频参数，例如平均能量、带宽、音调、Mel频率倒谱系数(mel-frequency cepstral coefficient)、线性预测编码系数、以及零交叉。然后，处理器优选地组合低层特征来创建中层特征。中层特征B优选地与全体帧或帧集合相关联，而低层特征A与像素或短时时间间隔相关联。关键帧(第一摄像帧，或判定为重要的帧)、面部和可视图文是中层视觉特征的示例；静音、噪音、话音、音乐、话音加噪音、话音加话音、以及话音加音乐是中层音频特征的示例；还有副本的关键词连同相关类别组成了中层副本特征。高层特征C描述通过集成的跨越不同领域的中层特征获得的语义视频内容。换句话说，高层特征表示根据用户或制造商定义的简档对各个分段的分类，下面将进一步描述。

再参考图2，在步骤210，处理器试图检测音频流是否包含话音。检测音频流中话音的示例方法将会在下面描述。如果检测到话音，则在步骤212由处理器将该话音转换成文本，以便创建已记录内容的标记时间的副本。然后在步骤214，处理器将该文本副本加入作为另外要分析的流(见图3)。

无论是否检测到话音，处理器随后在步骤216试图确定分段边界，即可分类事件的开始或结束。在优选实施例中，当处理器检测到图像组的连续I帧之间有显著的不同时，处理器首先通过提取一个新关键帧，完成显著场景改变的检测。帧的抓取和关键帧的提取也能在预定间隔中进行。使用累加宏模块差值测量，处理引擎的视频预处理模块将基于DCT的实现用于帧差分。可替换地，可以使用基于直方图的方法。在这里我们应当注意，来自家用摄像机和监视摄像机的视频材料与广播视频是完全不同的，用于广播视频的关键帧提取的一些方法在家用领域是无效的。但是，能检测连续帧之间的显著不同并帮助提取重要帧的任何方法均能在本***中使用。单色关键帧或者与前面提取的关键帧相似的帧通过使用一字节帧特征(one-byte frame signature)被过滤出来。处理引擎使这个概率基于使用相邻I帧之间的差的门限值之上的相对量。

过滤帧的一种方法在授予Dimitrova等人的美国专利NO.6,125,229中描述，下面将简述之。一般地说，处理器接收内容并将视频信号格式化为表示像素数据的帧(帧抓取)。应当注意，抓取并分析帧的过程优选地对于每个记录装置在预定间隔中进行。例如，当记录装置开始记录数据时，可每30秒抓取关键帧一次。通过这种方式，如下面进一步描述的，处理引擎能进行贝斯概率分析，以便对事件分类并建立记录数据的索引。

一旦这些帧被抓取，对每个选出的关键帧进行分析。视频分段是现有技术中已知的，并通常在以下公开文本中解释：N.Dimitrova，T.McGee，L.Agnihotri，S.Dagtas和R.Jasinschi在2000年圣何塞的关于图像和视频数据库的SPIE会议上提出的“On Selective VideoContent Analysis and Filtering(关于选择视频内容的分析和过滤)”；以及A.Hauptmann和M.Smith于1995年在关于集成语言和视觉的计算模型的1995年秋季AAAI主题讨论会上提出的“Text，Speech，and Vision For Video Segmentation：The Infomedia Project”。已记录数据视频部分的任何分段(包括由记录装置捕获的与某个人有关的视觉(例如面部)和/或文本信息)将指示该数据与该特定个人相关，因此可根据这种分段标引该数据。这在现有技术中是已知的，视频分段包括但不局限于：

显著场景变化检测：其中，相邻视频帧相互比较，以便识别场景的突变(硬切换(hard cut))或软转换(渐隐，淡入，淡出)。显著场景变化检测的一种解释说明在如下公开文本中提供：N.Dimitrova，T.McGee和H.Elenbaas 1997年在关于知识和信息管理的ACM会议论文集113-120页公开的题为“Video KeyframeExtraction and Filtering：A Key frame is Not a Key frame toEveryone”的论文。

面部检测：其中，对每个视频帧的区域进行识别，识别哪些包括肤色和哪些对应于类似椭圆形的形状。在优选实施例中，一旦面部图像被识别，该图像与存储在存储器中的已知面部图像的数据库进行对比，从而确定该视频帧示出的面部图像是否与用户的观看偏好(viewing preference)相对应。面部检测的一种解释说明在GangWei和Ishwar K.Sethi在1999年11月第11期第20卷的PatternRecognition Letters中公开的题为“Face Detection for ImageAnnotation”的公开文本中给出。

运动估计/分段/检测：其中，移动物体在视频序列中被确定，并对该移动物体的轨迹进行分析。为确定视频序列中物体的移动，优选地采用诸如光流估计、运动补偿和运动分割之类的已知操作。运动估计/分段/检测的解释说明在Patrick Bouthemy和Francois Edouard在1993年4月“国际计算机视觉杂志(International Journal ofComputer Vision)”第2期第10卷157-182页公开的题为“MotionSegmentation and Qualitative Dynamic Scene Analysis from anImage Sequence”的公开文本中给出。

该方法还包括对视频信号的音频部分分段，其中视频的音频部分由于与观看偏好相关的话语/声音的出现而被监控。音频分段包括下面类型的视频节目分析：话音到文本的转换、音频效果和事件检测、发声者识别、节目识别、音乐分类、和基于发声者识别的对话检测。

音频分段包括将音频信号分成话音和非话音部分。音频分段的第一步包括用诸如带宽、能量和音调之类的低层音频特征进行分段分类。通道分离被用来将同时发生的音频部分互相分离出来(例如音乐和话音)以便每个可以独立地分析。此后，视频(或音频)输入的音频部分以不同方式进行处理，例如话音到文本的转换、音频效果和事件检测、以及发声者识别。音频分段在本技术领域中是已知的，在E.Wold和T.Blum在1996年秋天的IEEE多媒体第27-36页公开的题为“Content-Based Classification，Search，andRetrieval of Audio”的公开文本中进行了一般的解释说明。

话音到文本转换(在现有技术中是已知的，例如参见如下公开文本：P.Beyerlein，X.Aubert，R.Haeb-Umbach，D.Klakow，M.Ulrich，A.Wendemuth和P.Wilcox，“Automaic Transcription of EnglishBroadcast News”，DARPA Broadcast News Transcription andUnderstanding Workshop，VA，1998.2.8-11)可以在视频信号的音频部分的话音分段从背景噪音或音乐中被识别或分离后采用。该话音到文本转换能用于诸如对应于事件检索确定关键词的应用。

音频效果能够用于检测事件(在现有技术中是已知的，例如参见如下公开文本：T.Blum，D.Keislar，J.Wheaton和E.Wold，“AudioDatabases with Content-Based Retrieval”，智能多媒体信息检索(Intelligent Multimedia Information Retrieval)，AAAI出版社，加利福尼亚门洛帕克，pp.113-135，1997)。能够通过识别可能与特定事件相关的声音来检测事件。例如，检测到歌唱“Happy Birthday”，于是该分段可以标引为生日事件。

发声者识别技术(在现有技术中是已知的，例如参见如下公开文本：Nilesh V.Patel和Ishwar K.Sethi，“Video ClassificationUsing Speaker Identification”，IS&T SPIE会议录：图像和视频数据库的存储和检索V(Storage and Retrieval for Image and VideoDatabases V)，加利福尼亚圣何塞，pp.218-225)包括分析音频信号中存在的话音的语音特征，以确定对说话人的身份。发声者识别可用于例如搜索某个家庭成员。

事件识别包括分析由记录装置捕获的数据信号的音频部分，以识别与分类事件。这尤其适用于事件的分类和标引。经分析的音频部分与事件特征库相比较，以便确定该事件是否与某一特定事件的已知特征相符合。

音乐分类包括分析音频信号的非话音部分，以便确定当前音乐的类型(古典、摇滚、爵士等等)。这通过分析音频信号非话音部分的例如频率、音调、音色、声调和曲调并将分析结果与特定类型音乐的已知特征相比较来实现。音乐分类在现有技术中是已知的，在由Eric D.Scheirer1999年10月17-20日在纽约NewPaltz的关于信号处理到音频以及声学的应用的IEEE主题研究1999中公开的题为“Towards Music Understanding Without Separation：SegmentingMusic with Correlogram Comodulation”的公开文本中进行了一般的解释说明。

然后在步骤218中根据各种事件类型的已知提示的高层表对视频、音频和副本文本的各个部分进行分析。每类事件优选地包括知识树，它是关键词和类别的相关列表。这些提示可由用户在用户简档中设定，或由制造商预先设定。例如，“毕业”树可以包括诸如学校、毕业、帽、礼服之类的关键词。另一个例子中，“生日”事件可与诸如生日蜡烛、很多张脸之类的视觉分段，诸如歌曲“HappyBirthday”之类的音频分段，以及诸如词语“生日”之类的文本分段相关联。在统计整理之后，它将在下面进一步详细描述，处理器使用分类投票柱状图进行分类。举例来说，如果文本文件中的一个词与知识库的一个关键词相匹配，则相应的类别得到一票。对每个类别来说，可能性由每个关键词所得票的总数和用于文本分段的得票总数之间的比值决定。

在优选实施例中，经分段的音频、视频和文本分段的各部分结合起来标引某一事件。已分段音频、视频和文本信号的结合对于复合标引而言是优选的。例如，如果用户希望检索在某人生日期间发出的话音，不仅需要识别面部(以识别活动者)，而且还需要发声者识别(以确保屏幕上的活动者正在说话)、话音到文本的转换(以确保活动者说出的适当的话)、以及运动估计/分段/检测(以识别活动者的指定活动)。因此，用于标引的综合处理是优选的，并得到更好的结果。

然后在步骤220，这个分段信息同视频内容一起保存在连接到处理器的存储装置中。

现在将描述生成高层的高层推论的优选方法。优选地，使用贝叶斯概率分析法，因为这种方法结合了模态内或模态间。模态内结合指单个域内特征的结合。例如：可视图文的色彩、边缘和形状信息的结合代表模态内结合，因为它全部在视觉域内发生。中层音频类别同视觉类别的面部和可视图文结合在一起，提供了模态间结合的一个例子，因为其将视觉和音频信息结合在一起以便推断内容。这种结合概率法在贝斯网络中可以找到。它们允许跨越多个域对分层信息进行组合并且处理不确定性。贝叶斯网络是有向无环图(DAG)，其中，节点对应于(随机的)变量。弧线描述了链接变量间的直接因果关系。这些链接的强度由条件概率分布(cpds)给出。更正式地，由N个变量的集合Ω(x₁，...，x_N)定义DAG。对于每个变量，存在变量Ω的子集∏x_i，x_i的双亲集合，即DAG中x_i的前趋(predecessor)，这样P(x_i|∏_xi)＝P(x_i|_xi，...，x_i-1)，其中P(·|·)是cpd(条件概率分布)，严格为正。现在，给定联合概率密度函数(pdf)P(x₁，...，x_N)，使用链式法则(chain rule)，我们得到

P(x₁，...，x_N)＝P(x_N|x_N-1，...，x₁)*...*P(x₂|x₁)P(x₁)根据这个等式，双亲集合∏_xi具有x_i和{x₁，...，x_N}\∏_xi有条件地独立于给定的∏_xi的特性。

如先前所描述的，DAG的结构优选地由三层组成。在每一层中，每个元素相应于DAG中的一个节点。有向弧线连接给定层中的一个节点和前一层的一个或多个节点。两组弧线连接三层的元素。对给定层和给定元素，联合pdf如上所述来计算。对每一层，在不同双亲集合间可以存在重叠。

由处理器进行的主题分段和分类在图3的第三层(高层C)中示出。在优选实施例中，处理器根据用户或制造商的预定义高层关键词列表执行对信息的标引。处理器通过如下步骤标引内容：(i)从高层列表读出关键词和其它数据，以及(ii)根据几种高层类别将该内容分类到分段中。

因此，参考图4，示出了根据本发明对两个家庭成员间通话的示例性分析。一旦对内容按照上述优选实施例进行了分段和分析，贝叶斯方法或其它概率分析方法可用于为已分段内容建立索引文件。可以看到，标引事件的一种方法考虑了某一特定事件的视觉、音频和文本标记的出现。

在这种分析中，处理器确定事件归入某一类别的概率，如上所述，它包括该类别的多个标记。处理器还可以另外用一种面部检测方法来识别出现在该视觉分段中的那些对象。这种信息保存在索引文件中，并提供到已分段内容的链接，它可以由用户搜索。

仅就举例来说，参考图4，涉及Bob和Mary在厨房中关于某股票“XYZ公司”的一场对话可如下进行标引。在步骤402和404中，处理器在分析了各视频、音频和文本部分后，将记录关于该事件的某一静态数据。例如，该事件的日期和时间以及在捕获该事件的房间将被保存在索引文件中。而且，在步骤406中，处理器优选地使用视频流的面部检测分段同音频流的话音识别分段的组合，来识别与该事件相关的对象(Bob和Mary)。在步骤408和410中，处理器还将根据在该事件期间重复多于特定次数的文本术语对该事件分类。例如，文本副本的分析将识别由对象多次重复说出的术语“XYZ公司”，“股票”和“钱”，并因此将它们加入到索引文件中。而且，在步骤412，处理器将使用概率方法来确定该事件(即，对话)的特性。这优选地通过使用会话的预定义标记来执行，该预定义标记包括但不局限于音频流的噪音电平和话音特征，文本流中说话者的重复更换，以及视频流中该对象的有限活动。

进一步参考图5，示出了检索Bob和Mary对话的示例过程。如上所述，处理器516被编程为具有显示一个界面的功能，通过该界面用户能输入搜索某一特定事件的请求515。处理器516还连接到显示装置517，它可以是CRT监视器、电视机、或其它显示装置。在步骤5A，处理器516将接收该搜索请求，该请求可能包括下面形式为已知布尔逻辑结构的术语：“Bob AND Mary AND厨房AND股票”。然后在步骤5B，这些术语将与保存在存储装置518中的索引文件519相匹配，以便找到与该请求标准最匹配的索引文件。在步骤5C，一旦一个或一组匹配的文件返回给用户，用户可以选择该事件中已识别为要返回给显示器的一个。然后，在步骤5D，处理器检索该事件并在显示器上显示。

在一个替换实施例中，数据的视频分段被用来识别由记录装置实时捕获的人。参考图6，示出了用于控制以及提供或拒绝对各种家用器具的访问的过程的流程图。在这个实施例中，图1所示网络与各种家用器具互连，如图1所示，同时处理器被编程为与安装在家用器具中的微处理器交互。

虽然下面的过程结合使用家庭计算机来描述，但可以理解，本领域技术人员能够对家里或办公室里的任何常用器具提供类似的功能。为了这个实例的目的，假定记录装置(例如摄像机)这样放置，以便记录试图访问该器具的对象的面部。在步骤602，记录装置捕获对象的面部快照。然后在步骤604，该图像传送到处理引擎。在步骤606，处理引擎采用面部检测技术来分析和确定该个体的身份。为了提高***的准确度，也可以结合面部检测技术来使用前面描述的话音识别技术。在步骤608，如果该个体的面部与授权访问的面部中的一个相匹配，然后在步骤610，处理引擎许可其访问计算机***。如果不匹配，则在步骤612拒绝访问。这样，个体的面部起到注册或密码的作用。可替换地，在记录装置是麦克风或其它音频捕获装置的情况下，可以使用话音识别***来识别个体并提供或拒绝访问。这种***将基本上如上所述操作。

再回到图1，根据本发明的实施例，记录***10能够一周7天，一天24小时连续地记录该环境中对象的活动。例如在指定的任何一天里，记录***10可记录和识别由某一特定对象进行的任何数目的事件或个人活动。通过识别这些活动，概率引擎可以识别在全天中重复发生或天天以相似的次数重复发生的那些活动。例如，每晚在对象睡觉前，他们可能去锁好该环境中的前后门。经过几次之后，概率引擎将识别该活动会在每晚进行。因此，处理***16能被编程为以多种方式对该识别的活动作出响应，包括提醒对象去完成该任务或实际上为对象执行完成该任务。通过非限制性的实例，处理***16可连接到家里的电子***并编程来操作这些***。因此，处理***16能在晚上所有对象都睡觉后关闭电灯。

又在另一个实施例中，诸如摄像机之类的记录装置12可位于该环境50的前门以便记录接近门的对象。记录装置12能够拍摄访问该环境的人的快照，并随后告知该环境的主人，特定的人在门口停留过。这可通过发送e-mail给在工作的用户，或保存拍摄的快照以便用户稍后检索来实现。前门的该记录装置12还能识别当环境50的儿童成员在一个不平常的时间回家的危险事件。例如，当小孩子因生病从学校早早回家时，记录装置12能记录小孩子回家的时间和图像，以便告知父母该不平常的(和潜在危险的)事件。而且，快照和时间标记能以电子邮件的形式传递给父母，或使用诸如无线电话或PDA之类的移动设备以任何其它方式传传递。

如前面所述，***还能用于在该环境中广播内容。例如，用户可能希望听到录音书籍，而又不必在该环境中无论走到哪儿都随身带着磁带录音机和耳机。因此，记录***10的传感器或记录装置12能通过对象所在特定房间内的***互连的扬声器来广播录音书籍。当对象在该环境中四处走动时，广播音频信号能发送到离对象距离最近的那些扬声器。举例来说，如果对象在厨房里准备午餐，厨房里的扬声器将启动。当对象走出厨房，到餐厅去吃午餐时，餐厅里的扬声器将启动。

又在另一个实施例中，被动记录***能用作监控或安全***。在这样的***中，记录装置优选地装备有运动检测器，以便检测运动并当对象出现在记录装置的视野中时开始记录。如果装备了该***并检测到运动，记录装置将记录下对象面部的快照。然后运用面部检测技术，将该对象的面部与包含家里居住的人或办公室里工作的个人的面部的数据库进行匹配。如果不匹配，则能够启动报警器或告知适当的机关可能的侵扰。由于本发明的***将运动检测和面部检测结合在一起，因此该***因为家里的狗或其它非侵扰行动而错误地启动报警的可能性很小。

虽然本发明已结合优选实施例进行描述，可以理解，对本领域技术人员来说，在上面概述的原理范围内对本发明进行改进是显而易见的，因此，本发明并不局限于优选实施例，而是打算包括这些改进。

Claims

1.一种被动地记录和标引操作环境中事件的方法，该操作环境具有至少一个连接到网络的记录装置，该网络与处理器和存储装置互连，该方法包括：

记录由该记录装置捕获的视频；

将该视频分段成为至少一个视频分段和一个音频分段；

分析该视频和音频分段，以便确定该视频的特征；

根据预定义标记对视频的一部分分类；

使该特征与该视频的已分析部分相关联；以及

将该视频与相关类别以及特征一起存储在存储装置中。

2.权利要求1的方法，其中，对所述视频分段进一步包括生成该视频的文本副本。

3.权利要求2的方法，进一步包括分析所述文本副本以便确定术语是否被重复使用。

4.权利要求3的方法，其中，所述相关联的步骤进一步包括使重复使用的术语与所述视频相关联。

5.权利要求1的方法，其中，多个记录装置连接到所述网络。

6.权利要求1的方法，其中，所述记录装置是摄像机。

7.权利要求1的方法，其中，所述视频的特征包括多个视觉特征。

8.权利要求1的方法，其中，分析视频分段进一步包括使用面部检测来识别对象。

9.权利要求1的方法，其中，所述处理器连接到显示装置，该方法进一步包括：

接收对一部分视频的请求；

匹配该请求以及与该视频相关的类别和特征；

显示与该请求匹配的视频部分。

10.一种自适应环境***，包括：

可连接到网络的处理***，该网络包括一个或多个互连的传感器，该处理***包括含有计算机代码的计算机可读介质，该计算机代码指示一个或多个处理器去：

从可连接到该处理***的一个或多个传感器接收已记录数据；

分析该已记录数据以便识别在该已记录数据中发生的事件；

确定对识别的事件作出的响应是否适当；以及

当响应适当时就产生与该响应相关的信号。

11.权利要求10的***，进一步包括可通信地连接到所述处理***的存储装置，并进一步包括计算机代码，用于指示一个或多个处理器去：

将已记录数据分解成至少一个视频分段和一个音频分段；

对该视频和音频执行概率分析；以及

计算该已记录数据属于一个类别的概率。

12.权利要求11的***，其中，所述已记录数据在所述存储装置中归档。

13.权利要求10的***，其中，所述计算机码包括用于分析所述已记录数据的概率引擎。

14.权利要求13的***，其中，所述概率引擎使用贝叶斯方法。

15.权利要求10的***，其中，当所述识别的事件是危险事件时，所述响应用来告知指定的人。

16.权利要求10的***，其中，当所述识别的事件是节能事件时，所述响应用来控制与所述网络互连的器具。

17.权利要求10的***，其中，当所述识别的事件是提醒事件时，所述响应用来向用户发送消息。

18.权利要求10的***，进一步包括计算机码，用于指示一个或多个处理器去：

建立所述已记录数据的索引；

在索引文件中存储该索引；

将该已记录数据和该索引文件一起存储到存储装置。

19.权利要求18的***，其中，所述处理***被创建用来接收来自用户的搜索请求，并进一步包括计算机码，用于指示一个或多个处理器去：

将该搜索请求的参数与所述索引文件的一部分相匹配；以及

返回对应于所述索引文件中与该搜索请求的参数相匹配的那部分的一部分已记录数据。

20.权利要求10的***，其中，所述处理器被编程去分析记录对象的身份，如果没有认出该记录对象，就执行一个动作。

21.权利要求20的***，其中，所述动作至少是下述动作之一：

启动报警器，

告知法律实施机关，和

告知指定的人。