CN1229996C

CN1229996C - 图象特征编码方法

Info

Publication number: CN1229996C
Application number: CNB998156752A
Authority: CN
Inventors: 关口俊一; 山田悦久; J·周; 浅井光太郎
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1999-01-29
Filing date: 1999-01-29
Publication date: 2005-11-30
Anticipated expiration: 2019-01-29
Also published as: US20090110296A1; EP1185106A1; US20030174906A1; US6611628B1; AU2076199A; US20050267879A1; KR20070086104A; EP1185106A4; US7302117B2; JP4536261B2; US7013051B2; CN1333976A; KR20040018395A; KR101033866B1; WO2000045600A1; KR20010108159A

Abstract

特征编码部(5)抽取和编码视频信号(102)的特征量，生成特征流(103)。特征鉴别部(11)对特征流(103)解码的解码特征量(109)和来自用户的检索标题(108)进行匹配，检索用户要求的视频内容(111)。

Description

图象特征编码方法

技术领域

本发明涉及对用模拟或数字记录的影象、静止画等图象数据的特征量进行抽取、编码，并利用编码的特征量进行图象数据的检索的图象特征编码方法以及图象检索方法。

背景技术

第1图是说明记载在电子情报通信学会论文志D-II，1996年4月号(Vol.79-D-II，No.4，PP.476-483)上的已有图象检索处理***的方框图。图中，91是将静止图象201区域分割为各区段，对分割的各区段赋予关键字，并输出概念关键字203和场面记述关键字204的前处理部，92是输入用户97预先准备的关键字205，将概念关键字203与场面记述关键字204进行对照，检索静止图象201的检索工具。

这里，概念关键字203是表示各区段的颜色信息和特征量的关键字，场面记述关键字204是使用关于「位置」、「颜色」、「形状」、「大小」、「方向」等的术语表现各区段的图象特征量的关键字。

在第1图的前处理部91中，93是将静止图象201区域分割为各区段的区域分割部，94是利用对颜色信息预先分配的概念关键字，根据由区域分割部93分割的各区段的颜色和特征量，抽取概念关键字203的概念关键字抽取部，95是对于由区域分割部93分割的各区段的图象特征量，通过从用户96预先定义的术语选择输入记述的术语记述202，记述场面记述关键字204的场面记述关键字记述部。

在第1图的检索工具92中，98是根据用户97选择的关键字205和来自前处理部91的概念关键字203、场面记述关键字204进行特征量鉴别的特征鉴别部。

下面说明其动作。

当静止图象201被输入到前处理部91时，区域分割部93将静止图象201区域分割为各区段。概念关键字抽取部94，利用对于颜色信息预先分配的概念关键字，从被分割的各区段的颜色和特征量，抽取概念关键字203。

场面记述关键字记述部95，对于被分割的各区段的图象特征量，根据来自用户96的术语记述202，记述场面记述关键字204。

当用户97检索静止图象201时，将从预先准备的概念关键字203和场面记述关键字204中选择的关键字205输入到检索工具92。特征鉴别部98，根据用户97的关键字205和来自前处理部91的概念关键字203、场面记述关键字204，进行特征量的鉴别，检索用户97要求的静止图象201。

上述图象检索处理***，由于仅以静止图象201为对象，因此存在检索动图象困难的课题。

并且，由于未考虑各关键字的记述方法、存储方法等，则图象服务器(server)和委托人(检索工具92)必须1对1地对应，当通过网络很多用户使用各种各样的检索工具时，存在不可能构建进行图象检索的图象检索处理***的课题。

发明内容

本发明是为解决上述课题而为的，其目的在于获得一种许多用户可以利用各种各样的检索工具检索图象的图象特征编码方法和图象检索方法。

本发明的图象特征编码方法是：从图象帧抽取作为规定图象区域的区段，对每个抽取的上述区段赋予识别上述区段的区段号码，向上述区段分配代表颜色，算出上述区段的相对于上述图象帧的面积率，按照每个上述区段，将上述代表颜色和上述面积率作为上述区段的特征量，与上述区段号码一起进行编码并生成特征流。

这样即可生成将在图象检索中使用的代表颜色和面积率作为区段的特征量的特征流。

本发明的图象特征编码方法是：在从图象帧抽取区段时，根据基于颜色信息的区域分类抽取上述区段，在向上述区段分配代表颜色时，将在上述区段的抽取中使用的上述颜色信息作为上述代表颜色进行分配。

本发明的图象特征编码方法是：在从图象帧抽取区段时，在邻接的图象帧间进行上述区段的鉴别，对于判定为同样区段的区段，赋予同样的区段号码。

这样，即可生成能提高检索效率的特征流。

本发明的图象特征编码方法是：在从图象帧抽取区段时，在邻接的图象帧间进行区段的追踪，对于判定为同样区段的区段求出动态信息，在每个上述区段，将上述动态信息作为上述区段的特征量进行编码，生成特征流。

这样，根据动态信息即可生成能检索图象帧的特征流。

本发明的图象特征编码方法是：从视频信号的帧群中抽取作为检索线索的适当的图象帧作为关键帧(key frame image)，从抽取的关键帧中抽取区段。

这样，即可生成作为图象检索线索的关键帧的特征流。

本发明的图象特征编码方法是：求出每个关键帧规定区域的象素值平均值，生成上述关键帧的缩小图象，在每个上述关键帧，将上述缩小图象作为上述关键帧的特征量进行编码，生成特征流。

这样，即可生成可进行粗略浏览的缩小图象。

本发明的图象检索方法是：具有存储图象帧的第1存储部，以及对上述第1存储部存储的图象帧的特征量进行编码并作为特征流存储的第2存储部，在进行图象检索时，根据来自用户的检索指示，对上述第2存储部存储的上述特征量进行解码，并进行来自用户的检索条件和上述解码的特征量的鉴别，检索上述第1存储部存储的图象帧。

这样，用户使用各种各样的检索工具，即可检索图象帧。

本发明的图象检索方法是：作为第2存储部存储的特征量，包含作为图象帧中规定图象区域的区段的代表颜色，作为来自用户的检索条件，包含上述代表颜色。

这样，用户根据区段的代表颜色，即可检索图象帧。

本发明的图象检索方法是：作为第2存储部存储的特征量，包含作为图象帧中规定图象区域的区段相对于上述图象帧的面积率，作为用户的检索条件，包含上述面积率。

这样，用户根据区段的面积率，即可检索图象帧。

本发明的图象检索方法是：作为第2存储部存储的特征量，包含邻接的图象帧的动态信息，作为用户的检索条件，包含上述动态信息。

这样，用户根据动态信息，即可检索图象帧。

本发明的图象检索方法是：作为第2存储部存储的特征量，包含图象帧的缩小图象，进行来自用户的检索条件和上述解码的特征量的鉴别，将上述缩小图象提示给上述用户。

这样，用户根据缩小图象，即可高效率地检索图象帧。

本发明的图象检索方法是：作为第2存储部存储的特征量，包含指定的被摄物是否存在于图象帧的信息。

这样，用户可提高图象数据的检索效率。

本发明的图象检索方法是：作为第2存储部存储的特征量，包含指定的被摄物是否存在于以后的图象帧的信息。

这样，用户可提高图象数据的检索效率。

本发明的图象检索方法是：作为第2存储部存储的特征量，包含指定的被摄物是否存在于以前的图象帧的信息。

这样，用户可提高图象数据的检索效率。

本发明的图象检索方法是：在进行来自用户的检索条件和已解码的特征量的鉴别时，向用户提示优先度。

这样，用户可迅速检索适合要求的图象数据。

本发明的图象检索方法是：在进行来自用户的检索条件和已解码的特征量的鉴别时，进行来自用户的多个检索条件和已解码的多个特征量的鉴别，综合判断，检索第1存储部存储的图象帧。这样，用户可提高图象数据的检索效率。

本发明还包括：

一种图像特征编码方法，包括以下步骤：

从输入图像数据中提取关键帧；

从各关键帧提取作为规定图像区域的区段，决定关键帧中的区段总数；

向每个提取的所述区段提供区段识别号码；

在每个提取的所述区段记述区段特征量；

在每个关键帧汇集区段总数、各区段识别号码、特征量记述，构成关键帧特征流；

汇集该关键帧特征流构成输入图像数据特征流。

一种图像特征解码方法，包括以下步骤：

指定图像数据中的目标关键帧；

使与该关键帧对应的关键帧特征流解码，提取在该关键帧中包括的区段总数、区段识别号码、特征量记述；

比较评价与各区段特征量成比较对照的特征量。

附图说明

第1图是表示已有的图象检索处理***的方框图。

第2图是表示利用本发明的典型***构成的方框图。

第3图是说明视频内容与特征流对应的图形。

第4图是表示本发明实施例1的特征编码部5内部构成的方框图。

第5图是表示本发明实施例1的特征编码部5动作的流程图。

第6图是表示第4图的关键帧决定部21内部构成的方框图。

第7图是表示第4图的关键帧决定部21的其他内部构成的方框图。

第8图是说明区段的图形。

第9图是说明视频序列中的区段的位置的图形。

第10图是表示第4图的区段抽取部23内部构成的方框图。

第11图是说明MPEG-4的视频目标平面(VOP)的图形。

第12图是表示使用第10图的区段抽取部23时的特征编码部5的特征流103构成的图形。

第13图是表示彩色映象变换表128的具体实例图。

第14图是表示本发明实施例2的区段抽取部23内部构成的方框图。

第15图是表示使用第14图的区段抽取部23时的特征编码部5的特征流103构成的图形。

第16图是表示本发明实施例3的区段抽取部23内部构成的方框图。

第17图是表示使用第16图的区段抽取部23时的特征编码部5的特征流103构成的图形。

第18图是表示本发明实施例4的特征鉴别部11内部构成的方框图。

第19图是表示本发明实施例5的附加优先度的检索候补提示的实例图。

具体实施方式

以下为了更详细说明本发明，参照附图说明实施本发明的最佳形态。

实施例1

本实施例1中，着眼于视频序列中包含的被摄物，将包围各帧包含的被摄物区域的矩形区域定义为区段，对从视频信号的各帧中抽取区段、并求出其特征量进行生成特征流处理的装置予以说明。

首先，作为前提对使用该装置的***进行说明。第2图是表示利用本发明的典型***构成的方框图。图中，1是委托人；2是服务器；3是存储视频内容111的视频内容存储部；4是从视频内容存储部3存储的视频内容111中，对数字压缩的位流101进行解码，输出视频信号102的解码处理部。

第2图中，5是输入由解码处理部4解码的视频信号102，生成特征流103的特征编码部；6是根据用户指示、设定104，控制特征编码部5的用户I/F；7是存储由特征编码部5生成的特征流103的特征流存储部。视频内容存储部3和特征流存储部7分别设置在服务器2内，但也可以在同一存储部内存储。

在委托人1中，8是根据用户指示、设定105，用于委托人1的控制，输出检索控制信号106的用户I/F；9是输入检索控制信号106，输出检索指示107和检索标题108的检索处理部。

在第2图中，10是根据来自检索处理部9的检索指示107，对特征流存储部7存储的特征流103进行解码，输出解码特征量109的特征解码部；11是输入来自检索处理部9的检索标题108和来自特征解码部10的解码特征量109并进行匹配处理，输出表示特征流号码的指示字110的特征鉴别部。111是根据特征鉴别部11输出的指示字110，从视频内容存储部3输出的视频内容。

下面说明其动作。

第2图所示***是根据与视频内容存储部3保持的各个视频内容111对应的特征流103，检索、浏览(挑着读)用户要求的视频内容111的***。这里，为了方便，采用服务器、委托人模型，将检索***看作委托人3、将内容存储、送出***看作服务器4，予以说明。

委托人3和服务器4，可以通过网络动作，也可以在同一装置内动作。第2图中，未图示经由网络的动作，但以下将适当说明在网络处理中的必要动作。

(1)特征流的意义

第3图是说明视频内容111与特征流103的对应的图形。图中，VC表示视频内容(Video Content)111，FS表示特征流(Feature Stream)103。VC和FS分别附加对应的号码，FSn是记述视频内容VCn特征量的特征流。VCn和FSn通过各指示字110加以对应。

如第3图所示，若在VC1的第k帧包含「兰色天空」，FS1则在VC1的第k帧中记述存在「代表颜色是兰色，而且占据帧画面中80％的区域」。这样，以下将具有以特征量作为属性的区域称为区段。因此，由第2图的委托人1进行「代表颜色是兰色，而且占据帧画面中80％的区段」的指定，从特征流103寻找出对应的特征量，则可抽取出包含对应的帧画面的视频内容111。

作为特征量，可以定义代表颜色、尺寸、画面内位置、形状、位置的变化(动态)、亮度和颜色的变化、对比度等各种属性。当然，特征量的指定方法是任意的，通过在委托人1的检索处理部9设置适当的解析功能，用户即可进行更直观的指定。

这样，通过将视频内容(VCn)111中的特征量记述在特征流(FSn)103中，用户即可从大量的视频内容111的数据中，用直观的检索标题108，容易地寻找出所要求的内容111。这种检索方法，可从包含极大数量的视频内容111的视频程序库和数据库、录象磁带等，高效率进行寻找所要求的内容111的处理。

(2)特征流的生成

特征流103的生成处理相当于生成与视频内容(VCn)111对应的特征流(FSn)103并将其存储在特征流存储部7的处理。进行该处理的是解码处理部4、特征编码部5、用户I/F6。解码处理部4仅在视频内容(VCn)111以数字压缩的位流101的形式存储是才是必要的，输出视频信号102。当视频内容(VCn)111是可直接表示的图象数据时，不须要解码处理部4。

特征编码部5根据视频信号102生成特征流(FSn)103，并存储在特征流存储部7。特征流103的生成处理详细情况将在后面讲述。

(3)检索处理

检索处理由委托人1进行。委托人1是用户从视频内容存储部3存储的视频内容111中，检索所要求的内容111的处理部。用户根据用户指示、设定105，通过委托人1的用户I/F8，为了求出与作为特征流103被编码的特征量对应的值，将检索控制信号106供给检索处理部9。

以第3图为例，简单说明从全部视频内容(VCn)111中检索包含「兰色天空」的视频内容(VC1)111的例子。该检索处理是对全部特征流(FSn)103，检索表示「兰色天空」的特征量，对与包含该特征量的特征流(FSn)103对应的视频内容(VCn)111进行确定的处理。检索处理部9从检索控制信号106求出应检索的特征量的值，在作为检索标题108送出的同时，使检索指示107为有效。

若委托人1和服务器2由网络连接时，检索指示107和检索标题108，通过网络被传送到服务器2和进行特征量鉴别处理的装置(特征解码部10和特征鉴别部11)。

当检索指示107为有效时，特征解码部10从特征流存储部7依次取出特征流(FSn)103，从特征流103解码特征量的值。其结果，得到的解码特征量109，在特征鉴别部11，与检索标题108进行匹配处理。当发现与检索标题108一致的解码特征量109时，则从包含对应的特征量的特征流103的指示字110，确定视频内容(VCn)111。在第3图的例子中，由于包含「兰色天空」的仅是VC1，则在FS1的第k帧的区段中，发现了与检索标题108一致的解码特征量109，VC1的第k帧作为检索结果输出。

进行特征量鉴别处理的装置(特征解码部10和特征鉴别部11)，可以包含在委托人1中，也可以包含在服务器2中，也可以包含在网络中存在的其他装置中。当然，委托人1和服务器2为同一装置时，包含在同一装置内。

作为检索结果输出的视频内容111被送到委托人1，用户通过用户I/F8，可浏览该图象的内容。并且，通过表示「兰色天空」的特征量，即使发现作为检索结果的多个视频内容111时，通过在用户I/F8的显示，也可以浏览多个视频内容111。利用这种***，用户不必全部直接浏览视频内容111的内容，而仅是集中地确认包含所要求区段的视频内容111中的内容，因而检索效率提高了。

(4)交互功能

该***中，当特征编码部5从视频信号102生成特征流103时，根据用户指示和设定104，通过用户I/F6，用于定义视频内容(VCn)111包含的区段的各种条件设定、区段的追加和削除，或定义区段的帧位置设定等，用户可以任意控制特征流103的生成处理。

(5)特征流的传送和分配

只要特征流(FSn)103具有向对应的视频内容(VCn)111的指示字112，不必与视频内容111一起存储在服务器2中，存在地何处都可以。例如，当有仅包含特征流103的CD-ROM时，在委托人1，通过阅读该CD-ROM，即可确定与特征流103对应的视频内容111的场所。这时，只要特征流103保持视频内容的URL(Uniform Resource Locator)即可。

一般情况下，由于特征流103小于视频内容111的数据量，因而可存储在更小的存储媒体中，供给笔记本型PC(Personal Computer)和PDA(PersonalDigital Assistants)等携带终端使用。

特征流103可附加在视频内容111中，通过网络进行传送和分配。利用上述(4)所述交互功能，在接收特征流103侧，再次对特征流103的内容进行加工和编辑，可以再利用和再分配，并不失去在所有媒体间检索的自由度，可使视频内容111自由流通。

下面详细说明特征流103的生成处理。

特征流103的生成处理，如上所述，主要是在特征编码部5进行的。第4图是表示实施例1的特征编码部5内部构成的方框图。图中，21是输入视频信号102并根据关键帧设定指示121决定关键帧，输出关键帧号码122和关键帧图象123的关键帧决定部；22是监视来自关键帧决定部21的视频信号102的监视部。

第4图中，23是区段抽取部，从关键帧决定部21决定的关键帧图象123中抽取区段，输出区段的代表颜色125、区段号码126，同时根据视频内容111解码时输出的关键帧尺寸124，输出区段的尺寸信息127。

第4图中，24是区段编码部，使用彩色映象变换表128，对来自区段抽取部23的区段的代表颜色125进行编码，输出已编码的区段代表颜色129，同时，对区段号码126、区段的尺寸信息127进行编码，输出已编码的区段号码130、已编码的区段尺寸信息131。

第4图中，25是缩小图象生成部，从关键帧图象123生成缩小图象，并输出缩小图象数据132；26是缩小图象编码部，对缩小图象数据132进行编码，并输出已编码的缩小图象数据133。

第4图中，27是使彩色映象变换表128、已编码的区段代表颜色129、已编码的区段号码130、已编码的区段尺寸信息131、已编码的缩小图象数据133多路化的多路化部。

下面说明特征编码部5的动作。

第5图是表示实施例1的特征编码部5的动作的流程图。

(A)关键帧的决定

首先，在关键帧决定部21，决定作为视频内容111中主要帧图象的关键帧(步骤ST1)。关键帧定义为构成视频内容111中意义内容变化点(场面变更)的帧，或用户特别希望作为检索时的特征点的帧。

第6图是表示第4图的关键帧决定部21内部构成的方框图。第6图中，31是对视频信号102的帧号码进行计数的帧计数器；32是根据关键帧设定指示121输出关键帧号码122的开关；33是根据关键帧设定指示121输出关键帧图象123的开关。第6图中，用户通过监视部22监视视频信号102，同时将期望的帧指定为关键帧。

视频信号102，按每1帧输入到关键帧决定部21，由帧计数器对帧号码进行计数。帧计数器31在视频信号102的最初输入时刻被复位到0。

并且，视频信号102被同时送到监视部22，用户一面观看在监视部22显示的视频信号102，一面选择应作为关键帧的帧。选择指示通过使关键帧设定指示121有效而进行。当关键帧设定指示121有效时，开关32将选择的关键帧的帧号码作为关键帧号码122输出，开关33输出选择的关键帧的关键帧图象123。

第7图是表示第4图的关键帧决定部21的其他内部构成的方框图。第7图中，41是从视频信号102检出场面转换，并输出关键帧图象123和关键帧设定指示141的场面转换检出部；42是根据关键帧设定指示141输出关键帧号码122的开关。帧计数器31是与第6图的帧计数器31同样的。这里，关键帧为位于场面转换点的帧，关键帧决定部21具有场面转换检出部41。

视频信号102，与第6图所示的关键帧决定部21同样，输入到帧计数器31，对帧号码进行计数，同时，也输入到场面转换输出部41，实施场面转换检出。关于场面转换检出的方法，已有长坂、宫武、上田的「カツトの时系列コ一テイングに基づく映像シ一ンの实时间识别法」《根据剪辑的时间系列编码识别图像场面实际时间的方法》(电子情报通信学会论文志，D-II，Vol.J79-D-II，No.4，PP531-537)等的在先技术，本发明中，将具体算法作为对象之外。

当检出场面转换时，关键帧设定指示141成为有效，开关42据此将在该时刻的帧计数值作为关键帧号码122输出。并且，场面转换检出部41，将检出的场面转换帧作为关键帧图象123输出。

另外，可将未图示的以一定间隔出现的内部编码帧设定为关键帧。例如，在MPEG(Moving Picture Exprets Group)-1和MPEG-2、MPEG-4中具有不使用帧间予测对全部帧进行编码的内部编码帧模式，特别是内部编码帧，通过将其周期地***视频内容111的编码中，而被大多用作随机存取的位置(point)。因此，可认为满足了作为关键帧的要件。

(B)区段的抽取

当选择关键帧图象123时，第4图的区段抽取部23抽取在关键帧图象中包含的区段。这里，所谓区段定义为「关键帧上的指定区域，或者与在视频内容111中出现的被摄物等物体(＝目标)对应的关键帧中的区域」。

第8图是说明区段的图形。第8图中，当红色车出现在视频内容111的多个帧时，红色车相当于目标，区段是在关键帧图象123上出现的目标区域(表现为车的外接四角形)。这里，区段具有该区域的代表颜色和尺寸信息(相对于全部帧的区段区域的面积率)2个特征量。

当区段的代表颜色记述在特征流103中时，用户以包含「红色区段」、「兰色区段」的视频内容111的形式，通过取得特征流103中的值与希望检索的值的匹配，可在一定程度上自动找到符合要求的关键帧。

对于尺寸信息，由于可记述区段在关键帧中占据多少面积，则可表现关键帧中区段重要度的一个侧面。例如，按照「在全部画面尺寸中，具有肤色代表颜色的区段」等的指定方法，则检索包含在整个画面中映照的脸图象的关键帧，大致可自动进行。尺寸信息可以包含作为尺寸计测起点的矩形左上角顶点和矩形重心位置等的位置信息。

第9图是说明在视频序列中区段位置的图形。第9图中，表示按照作为目标的「红色车」的经过时间，从画面左边渐渐推镜头向画面右方向移动的场面，表示在每个关键帧区段特征量变化的情况。第9图中，除了第8图所示的各画面特征量以外，对于目标的动态，将在区段左上角顶点(区段位置)的移动量作为时间方向的特征量予以表示。这样，即可实现「从画面左边向右边移动的目标」的检索方法。

例如，可将按照MPEG-4视频编码方式(ISO/IEC，JTC1/SC29/WG11，N2202)规定的视频目标，视为本定义的目标。这时，区段对应于MPEG-4视频的视频目标投影(VOP)。这种情况下，严密的定义不同，VOP的水平和垂直尺寸，概念上对应于区段的矩形的水平和垂直尺寸。与此相反，MPEG-1和MPEG-2中，由于本来没有目标概念，所以通过从关键帧进行抽取决定初始区段。

区段抽取处理是从关键帧图象123中抽取出上述区段，决定并获得该特征量的处理，由第4图的区段抽取部23进行。第10图是表示第4图的区段抽取部23内部构成的方框图。第10图中，51是区段抽取处理部，输入关键帧图象123，并输出区段号码126、区段内图象取样值151、以矩形表示的区段水平和垂直尺寸152(象素数X行数)；52是根据区段内图象取样值151，分配代表颜色125的代表颜色分配部；53是根据区段的水平和垂直尺寸152和关键帧尺寸124，算出用面积率表示的尺寸127的尺寸算出部。

第10图的区段抽取部23，首先在区段抽取处理部51，从关键帧图象123，用原有的区域分割处理等方法抽取区段(第5图的步骤ST2)。本例中，未将区段与目标的关系严密结合。也就是，本例中，区段仅是关键帧中的特定图象区域，不具有在关键帧间作为目标加以关联的机构，在各个关键帧中定义独立的区段。

作为区段抽取方法，例如有在颜色成分空间进行集中类似颜色的聚集成组的方法，这里，将其具体实现方法作为对象之外，而是通过区段抽取处理部51，以围成外接四角形的形式得到具有特定意义内容的图象领域(区段)。

区段抽取处理部51在每个抽取出的图象区域(区段)附加顺序号码并予计数，将计数值作为区段号码126输出(步骤ST3)。

区段抽取处理部51将区段内图象取样值151输出到代表颜色分配部52，代表颜色分配部52求出代表颜色125(步骤ST4)。例如，在区段内图象取样值151为各8位的RGB表现时，取得区段中R、G、B各空间的平均值，将得到的RGB的平均值的集合(set)作为代表颜色进行分配的处理。或者，可采用预先确定区段中的本质区域包含的象素，取得其内部平均的方法。

将MPEG-4的VOP作为区段时，由表示VOP形状的阿尔法(α)投影得到区段中的本质区域。第11图是说明MPEG-4的视频目标投影(VOP)的图形，表示VOP的象素数据与阿尔法(α)投影的关系。如图所示，所谓阿尔法(α)投影，是在包围VOP的外接四角形中，在目标内象素位置时分配255，而在其它时分配O的2值投影。0和255的变化点表示VOP的形状。也就是，阿尔法投影可以进行仅利用如255那样的位置的象素求得代表颜色的处理。

此外，作为代表颜色的求得方法，还有一种方法是在区段抽取处理部51根据颜色信息进行抽取，并使用作为聚集成组的结果被分配到区段上的颜色信息。

第10图中，区段抽取处理部51将以矩形表示的区段的水平和垂直尺寸152(象素数×行数)输出到尺寸算出部53。尺寸算出部53使用从其他途径输入的关键帧的水平和垂直尺寸124，计算区段在该关键帧上占据的面积率，作为尺寸127输出(步骤ST5)。例如，当区段的水平和垂直尺寸152是(176象素×144行)，关键帧的尺寸124是(352象素×288行)时，由尺寸算出部53算出的面积率(尺寸127)为25％。

(C)区段的编码

第4图中，由区段抽取部23得到的特征量(代表颜色125、区段号码126、尺寸127)被输入到区段编码部24，由多路化部27编码为特征流103的形式(步骤ST6)。

第12图是表示由使用第10图的区段抽取部23时的特征编码部5产生的特征流103的构成图。这里，特征流103具有视频内容111、关键帧、区段的阶层构造。在视频内容111的阶层中，包含将帧号码位长和彩色映象变换表128等的视频内容本身固有信息作为标题而保持并与其相接续的k张关键帧阶层的数据。这里，由于在各关键帧的标题中使各关键帧的时间位置(关键帧号码122)多路化，为了规定其位长将最大帧计数值可能表现的位长，包含在视频内容111的标题中。为了各区段的代表颜色的编码，通过视频内容111将使用的颜色灰度包含在规定的彩色映象变换表128中。

将第k个关键帧表记为KF(k)，KF(k)包含视频内容111中的时间位置(关键帧号码122)，以及将其画面上存在的区段数(M)作为标题而保持并与其相接续的M个区段阶层的数据。并且，具有用于浏览的后述缩小图象的数据。将第m个区段表记为SG(m)，SG(m)由对应的代表颜色125和尺寸127构成。作为代表颜色125，将彩色映象变换表128的标引(index)值进行编码。

第13图表示彩色映象变换表128的具体实例。这是以X-Windows***使用的彩色映象变换表128为例，也考虑了其他各种各样的表现方法，然而，具体的彩色映象变换表128的数据形式的定义为对象外。

一组R，G，B值对应一个标引，增加标引数(n)，可增加深淡程度。

尺寸127是面积率，由于最多是1～100(％)范围的值，可用7位表现。

第4图中，通过区段编码部24，最后得到的各特征量编码数据，送到多路化部27，并追加到第12图所示的特征流103中。区段抽取部23的区段特征量算出，以及区段编码部24的编码，仅按在关键帧内抽取的区段数重复(第5图的步骤ST7)。

(D)缩小图象的生成

第4图中，缩小图象生成部25、缩小图象编码部26，将关键帧的概要图象(以下称为轮廓或轮廓图象)作为关键帧的特征量添加到特征流103中。当在关键帧中准备了图形文字的轮廓图象时，用户不必对数字压缩的内容进行直接解码和再生，则可提高浏览效率。

这里，作为轮廓图象，通过求出关键帧图象123的N×N象素的平均值(DC值)，生成缩小图象(第5图的步骤ST8)，并以适当的编码方式对该值进行编码(步骤ST9)。

第4图中，缩小图象生成部25进行求出DC值的缩小图象数据132的处理，缩小图象编码部26对得到的DC值的缩小图象数据132进行压缩编码，输出编码的缩小图象数据133。

由于关键帧图象123大多是来自已经非可逆压缩编码的位流的解码图象，因此，缩小图象编码部26的压缩编码采用DPCM(Differential Pulse CodeModulation)等简易的压缩率低的编码是适当的。求得每个N×N象素的DC值，至少取样数可削减到1/N²，即使追加到特征流103中，也不会形成大的代码量负荷。

编码的缩小图象133被送到多路化部27，以第12图的形式在特征流103中多路化。

如上所述，本实施例1中，通过采用上述特征编码部5的构成，用户可以生成记述了视频内容111特征的特征流103。并且，可从视频内容111手操作或自动地设定关键帧，在各关键帧中的特定图象区域(区段)，可将代表颜色125和其尺寸127等作为特征量予以设定。将这些特征量作为检索标题，则可在一定程度上使视频内容的检索处理自动化，通过自动检索，可按轮廓图象浏览***的候补，能够提高视频内容的检索效率。

本实施例1的区段定义，由于可将帧图象看作静止画，所以可在从庞大的静止图象文库中检索所要求图象时使用。在静止画情况下，第12图的关键帧阶层为最上位阶层。

实施例2

第14图是表示本发明实施例2的区段抽取部23内部构成的方框图。图中，61是从关键帧图象123抽取区段数据161的区段抽取处理部；62是对与参照图象存储器63存储的过去的关键帧图象123进行匹配处理并进行区段鉴别的区段鉴别处理部。

本例中，区段在帧间取得匹配，与视频内容111内的目标对应。也就是，区段在关键帧中不闭合，作为表示视频内容111的被摄物的某个瞬间的图象区域被抽取出来。

通过区段抽取处理部61，从关键帧图象123抽取多个区段数据161时，在区段鉴别处理部62，对各区段，与参照图象存储器63的过去的关键帧图象123之间进行匹配处理，进行区段的鉴别。这时，对于被鉴别的区段，与过去的区段附与同样号码，并作为区段号码126输出。当与过去的区段不一致时，作为新区段赋予新的区段号码126并予输出。

区段鉴别处理部62输出区段内图象取样值151、区段的水平和垂直尺寸152，代表颜色分配部52、尺寸算出部53与第10图一样，各自进行代表颜色125、尺寸127的算出。

第15图是表示由使用第14图的区段抽取部23时的特征编码部5产生的特征流103的构成的说明图。这里，区段对应于视频内容111内的目标，区段数(M)被设置在视频内容111的阶层的标题中。

区段SG(m)追加Flag(1)并保持。Flag(1)表示SG(m)是否存在于KF(k)上。各关键帧通常编码为M个区段，当SG(m)实际上不存在于KF(k)上时，则Flag(1)为OFF，不对代表颜色125、尺寸127进行编码。该Flag(1)由第4图的多路化部27附加。

当SG(m)存在于KF(k)上而不存在于KF(k-1)上时，即在帧K登场，这时用特定的登场标记表示；当SG(m)存在于KF(k)上而不存在于KF(k+1)上时，即帧K最后退场，这时用特定的退场标记表示，这些都可以通过标记的追加而成为可能。

最后得到的各特征量编码数据，送到多路化部27，以第15图的特征流103的形式输出。

如上所述，本实施例2中，采用第14图的区段抽取部23的构成，使视频内容111内的目标与多个关键帧的区段相关联，由于区段数与目标的个数对应输出，则用户可高效率地检索要求的视频内容111。

实施例3

第16图是表示实施例3的区段抽取部23内部构成的方框图。图中，71是区段追踪处理部，输入关键帧图象123，参照参照图象存储器63，输出区段号码126、区段内图象取样值151、区段的水平和垂直尺寸152，并同时输出动态信息171。代表颜色分配部52、尺寸算出部53与第14图是一样的。

本例中，区段通过视频内容111，追踪目标的结果，得到在各关键帧上表现的图象区域。目标追踪在区段追踪处理部71进行。

关于目标追踪的方法，提出了各种各样的方法，其方法本身为对象外。假定通过采用适当的算法，使对目标的追踪可以达到在途中从画面或消失或再出现的程度。

对于作为结果得到的各关键帧图象上的区段，与第10图和第14图所示的区段抽取部23一样，除了算出代表颜色125、尺寸127之外，只要是相同的目标，就输出同样的区段号码126。这里，作为追踪的结果，得到了区段的移动量，将其作为动态信息171输出。

在第4图的构成中，未从区段抽取部23输出动态信息171，当使用第16图的区段抽取部23时，输出动态信息171，并由区段编码部24编码。

第17图是表示由使用第16图的区段抽取部23时的特征编码部5产生的特征流103的构成的说明图。与第15图不同的仅是区段的构造，这时设置了表示是否是最初出现的区段的标记Flag(2)，当Flag(2)有效时，形成将动态信息171集中多路化的构成。

采用这种构成，由于在视频内容111中目标新产生的地方包含全部此后的动态的历史，则可以极快地对应例如「从左到右移动」等的检索标题。第17图中未图示，但动态信息171当然可以附加在各关键帧内的各区段。

第4图中，由区段编码部24最后得到的各特征量编码数据被送到多路化部27，以第17图的特征流103的形式输出。

如上所述，本实施例3中，通过设定动态信息171，可以在各关键帧间检索移动目标。

实施例4

本实施例中，说明由第2图的委托人1进行的视频内容111的检索处理。用户使用委托人1的用户I/F8，按照用户指示和设定105，进行希望检索的视频内容111的概略的参数输入操作。输入的方法可以如下实现，即：委托人1从预先准备的多个参数(关键字)中进行选择，再用用户I/F8进行概要的输入。

委托人1准备的参数，例如：「兰」、「红」等颜色信息，亮度信息，区段的面积比率、「园形」、「四角」等区段的形状信息，画面的「上」、「右下」等位置信息。

用这些参数的组合，例如指定「兰」和「80％」，则输入上述的「代表颜色是兰色，而且占据帧画面中80％的区段」的记述。同样，当指定「红」色的「四角」形状的区段在画面「下」方占据「20％」时，则输入上述的「红色车」的记述。另外，如包含「红色车」和「兰色天空」的视频内容111等那样，可以组合多个区段的特征量进行检索。当选择委托人1准备的参数时，其选择结果照原样成为检索标题108，从检索处理部9输出。

第2图中，特征解码部10根据来自检索处理部9的检索指示107，从特征流存储部7读出特征流103并进行解码，输出解码特征量109。特征流103，如第12图、第15图、第17图等所示，代表颜色125、尺寸127、区段数、关键帧号码122、缩小图象等多个特征量，由于为了压缩信息量被编码，所以获得用于鉴别的特征量值，对于解码处理是必要的。

从特征解码部10输出的解码特征量109在特征鉴别部11进行与检索标题108的匹配处理。第18图是表示实施例4的特征鉴别部11内部构成的方框图。图中，81a～81e是进行检索标题108和解码特征量109匹配处理的匹配处理部；82是综合判定各匹配处理部81a～81e的鉴别结果，并输出匹配程度高的视频内容111的指示字110的匹配判定部。

这里，准备了多个匹配处理部81(81a～81e等)，分别对于对应的特征量进行匹配处理。例如，匹配处理部81a对被解码的解码特征量109中的「兰色」特征量、另一个匹配处理部81b对「80％」特征量进行匹配。这时，对于「浅兰色」和「深兰色」等近于「兰色」的特征时，以及「70％」和「90％」的特征量，也具有接近用户要求的映象的可能性，特征鉴别部11在进行与检索标题108的匹配时，不仅对完全一致的，而且对一致程度较高的都作为候补。

各匹配处理部81a～81e的鉴别结果被送到匹配判定部82，在这里综合判定各特征量的一致程度，来自匹配判定部82的最后结果，变为解码特征量109与作为检索条件的检索标题108的一致度。规定一致程度的阈值，不仅可以由作为***标准规格的省略补充值来设定，而且也可以由用户设定(未图示)。

特征鉴别部11，对服务器2输出匹配程度高的视频内容111的指示字110，服务器2根据该指示字110，对委托人1输出视频内容111。

委托人1在用户I/F8上表示视频内容111，如果是用户所希望的视频内容111，则结束检索处理。在不一样的情况下，再生成另外的检索标题108，用户再次进行参数选择。

作为视频内容111，送到委托人1的图象数据，不必是视频内容存储部3存储的视频内容111的实况，也可以是上述特征流103的缩小图象(轮廓图象)。利用轮廓图象时，可以削减从服务器2送到委托人1的视频内容111的数据量，并且由于限定了可在用户I/F8显示的画面尺寸，所以若是轮廓图象时，可同时显示多个候补图象，提高了检索处理的操作性。

当视频内容存储部3存储的图象被预先限定时，用户I/F8可将特征流存储部7存储的特征流103的轮廓图象作为参数显示。

如上所述，本实施例4中，通过进行上述检索处理的委托人1、特征解码部10、特征鉴别部11，用户大体上可自动且迅速地检索作为所希望的视频内容111的候补的视频内容111。特征流103的数据量一般来说少于对应的视频内容111，因此特征解码部10的处理与对视频信号102进行伸长解码的处理相比较，是极简单的处理。

当特征流103中包含轮廓图象时，可同时表示多个候补的视频内容111的内容，而且可以实现浏览，因此检索效率显著提高。

本实施例4中，对实施将第2图的***作为前提的检索处理的委托人1进行了说明，以与本实施例的委托人1相同的动作，可以实现从静止图象文库检索所希望的图象数据的处理。这时，特征流103不是按每个视频内容111，而是按每个静止图象制成。

特征流103可以通过网络远距离传送，在接收侧不仅有检索处理部9，若还具有如特征编码部5的特征流103的生成功能，则改写已有的特征流103的记述，即生成新的特征流103，这样，也可以进行变更视频内容111的显示规则的内容操作。当然，也可以构成同时具有委托人1和服务器2的功能的装置。

实施例5

第2图中，委托人1将在上述特征鉴别部11评价的匹配程度信息输入到检索处理部9(未图示)，对于显示的候补图象，通过在图象序号和显示的大小上进行加权，可提高操作性。第19图是表示附加优先度的检索候补提示的实例图，表示对应于特征鉴别部11的匹配程度，向用户提示附加优先度的检索候补内容的情况。

如上所述，本实施例5中，通过提示附加优先度的检索候补，用户可以迅速找到结合自己的检索要求的相关内容。

实施例6

本实施例中，说明借助用户I/F8的其他检索条件输入方法。使用用户I/F8，进行概要输入的方法，可以采用鼠标器等指示装置，写入直接形状，涂上颜色，描绘概略草图的方法。

例如，如第19图的第2候补区段所示，在画面的下方描绘大的「红」色，如第3候补区段所示，在画面的左方描绘小的「红色车」，如第4候补区段所示，在画面的右方描绘大的「兰」色。在第2图中，根据用户指示和设定105进行用户的直观概要输入时，抽取检索标题108的处理，在检索处理部9进行。

在检索处理部9，根据概要输入，用颜色信息等分割为各个区段，算出其颜色描绘的面积，并求出画面内的位置。通过这样的处理，抽取出「兰」、「红」等颜色信息以及各颜色信息的面积比率、各颜色的形状和位置等，作为检索标题108输出。

如上所述，在本实施例6中，通过进行用户的直观概要输入，可以高效率地检索视频内容111。

实施例7

当抽取实施例3所述的区段动态信息171时，作为检索标题108，可以使用动态信息171。作为可选择的参数，用户I/F8提供了「从左向右」、「从上向下」、「移近目标」等动态信息171。当抽取映象信号的时间变化时，提供了颜色变化和亮度变化的参数，用户可以选择。

在用户进行映象内容的概要输入时，不是仅进行1个输入，例如，可进行2次输入，可以输入该2个图象间的时间，检索处理部9从2个输入图象及其时间间隔，抽取出目标的移动量和映象信号的时间变化信息，即可生成检索标题108。

如上所述，本实施例7中，利用动态信息171，用户可以检索要求的视频内容111。

如上所述，本发明的图象特征编码方法和图象检索方法，适用于很多用户使用各种各样的检索工具来检索图象。

Claims

1.一种图像特征编码方法，包括以下步骤：

从输入图像数据中提取关键帧；

向每个提取的所述区段提供区段识别号码；

在每个提取的所述区段记述区段特征量；

汇集该关键帧特征流构成输入图像数据特征流。

2.权利要求1记载的图像特征编码方法，其特征是，在从所述图象帧抽取区段时，根据基于颜色信息的区域分类抽取所述区段，在向所述区段分配代表颜色时，将用于所述区段的抽取的所述颜色信息作为所述代表颜色进行分配。

3.权利要求1记载的图像特征编码方法，其特征是，求出每个关键帧的规定区域的象素值平均值，生成所述关键帧的缩小图象，在每个所述关键帧，将所述缩小图象作为所述关键帧的特征量进行编码，生成特征流。

4.一种图像特征解码方法，包括以下步骤：

指定图像数据中的目标关键帧；

比较评价与各区段特征量成比较对照的特征量。