CN101243448A

CN101243448A - 影像场面分类装置及影像场面分类方法

Info

Publication number: CN101243448A
Application number: CNA2006800299163A
Authority: CN
Inventors: 山内真树; 木村雅之
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2005-08-17
Filing date: 2006-08-11
Publication date: 2008-08-13
Also published as: JP4841553B2; JPWO2007020897A1; US20090257649A1; US8233708B2; WO2007020897A1

Abstract

在对图像进行分类时，对应影像内容一边使图像内的处理对象范围进行动态的改变一边生成用于分类的指标，使稳健性好的分类成为可能。在影像场面分类装置(100)的图像分类部(104)对于取得的多个图像，根据表示图像上的特征的分类指标分类成多个群。群选择部(106)从被分类的所述群之中至少选择一个群。索引生成部(108)对在构成被选择的群的图像中的、至少一个图像授予索引。因此，从分类结果的群之中选择适合授予索引的群时，根据群的要素数或时间分布和EPG信息等比较简明的信息来选择授予索引规则，通过照此生成索引，而使生成明了且安定的章节成为可能。

Description

影像场面分类装置及影像场面分类方法

技术领域

本发明涉及以影像内容为对象的索引自动生成技术，尤其涉及在播放影像内容中自动附加章节(索引)的编辑技术。

背景技术

近几年，在涉及数字内容的摄像或积存的环境迅速地完善的背景下，关于如何使用这些内容的研究正在扩展。以HDD/DVD记录器为首的数字家电的普及，使个人拥有或存取大量的影像内容成为容易的事情。

在如此可叫做“内容***”的状况下，在视听影像内容时(并且，在检索时或编辑时等)，如何向用户提供方便性就成为课题。例如，对于电视节目等播放内容，给每个具有一定意思的连贯的内容自动授予章节(索引)，利用这个章节并一按按钮就能够找到想要视听的场面的开头等视听支援技术变得很重要。

而且，还有检测出节目中的剪切点，并将时间标记作为元数据进行编辑的方法，但是，这是在专利局标准技术集里已有的、很久以来就被出示的方法(例如，参阅非专利文献1)。但是，在一般的播放内容的情况下，从几秒到十几秒会出现一次剪切点；在广告播放或音乐宣传等视频素材的情况下，不到1秒钟就会出现一次剪切点的情况也不少见。这就意味着即使是在一个节目里也会有几百到几千个章节。如果考虑到方便性，为了寻找喜好的场面而进行几百次以上的操作是不太现实的，不得不说将剪切点原封不动地用于编辑的作法几乎是没有意义的。

对此，也进行了通过汇集数个剪切点来减少章节数量的尝试。另外，通过将语言信息和声音信号组合在影像中来进行编辑的尝试(例如，参阅非专利文献1或者专利文献1)、及根据剪切点之间的图像的相似性的方法(例如，参阅非专利文献2)来对于模板匹配等特定场面进行识别提取处理；或通过隐马尔可夫等模型、利用在影像上的剪切构成的规则性或影像内容构成上的特征的方法(例如，参阅非专利文献3或者专利文献2)而单纯地每隔一定的时间就形成信息包以替代剪切点(例如，参阅非专利文献4)等方法被提案。为方便起见，将这些称作范畴建模法(CM法：Category Modeling)。

专利文献1：日本特开2000-285243号公报

专利文献2：日本特开2003-52003号公报

专利文献3：日本特开2004-361987号公报

非专利文献1：“シヨツト分類に基づく映像への自動的索引付け手法(根据镜头分类给影像自动附加索引的方法)”(井手一郎、其他、信学论(D-II)、Vol.J82-D-II、No.10、pp.1543-1551、Oct.1999.)

非专利文献2：“映像対話検出によるテレビ番組コ一ナ構成高速解析システム(利用影像对话检测的电视节目栏目构成的高速解析***)”(青木恒、信学论(D-II)、Vol.J88-D-II、No.1、pp.17-27、Jan.2005.)

非专利文献3：“カツト構成の規則性を利用したスポ一ツ映像のプレイ单位への分割(利用剪切构成的规则性来分割体育运动影像的比赛单位)”(椋木雅之、其他、信学论(D-II)、Vol.J85-D-II、No.6、pp.1016-1024、Jun.2002.)

非专利文献4：“固定長の時空間画像に基づく映像シ一ンのクラスタリング(根据固定长度的时间和空间图像的影像场面的分群)”(冈本启嗣、其他、信学论(D-II)、Vol.J86-D-II、No.6、pp.877-885、Jun.2003.)

非专利文献5：“Event Detection and Summarization in SportsVideo”(B.Li、其他、IEEE Workshop on CBAIVL 2001、pp.114-138、Dec.2001.)

但是，为了实现理想的视听支援技术，需要通过某种形式的用于授予元数据的技术。然而，一般情况下，可想而知为了授予元数据需要高度的媒体解读技术，这成为实际应用上很大的障碍。

也就是，如要构筑能够授予通用的元数据的***，因为需要庞大的知识基础和理解规则的构筑，所以授予元数据的自动化过程被考虑为不适合于除了被承认可以手动处理(被视为需要进行人海战术式的元数据授予)的、如资产管理***等一部分的业务用***以外的***。

换言之，以往的“将对象事物进行个别确定”的自顶向下的方法缺乏稳健性，在难以确定拍摄对象的一般状况下存在着非常困难的课题(这里所说的自顶向下的方法是指，模板匹配或事先学习等、伴随限定了对象事物的处理的、如事先不确定对象事物就不能提取对象事物之类的方法。)。

自顶向下型的方法存在大大依靠于对此***中的检测对象进行检测时的性能，或具有理想的模型和实际数据之间背离的问题，脸、人、车辆或建筑物这样的对象事物或场面特征量的变化等，因为是在事先确定了检测对象后再检测并对照模型来授予元数据，所以容易丧失稳健性。

在这里，进一步对有关现有技术在实际应用上的课题进行思考。

首先，第一个是，对于用户来说章节的授予标准必须要明了。例如，进行在视听中跳到下一个章节的“跳跃视听”的情况下，用户如果不能事先想像出“跳跃后的场面是什么样的场面”的话，在实际中就不能够使用。对于用户来说“不知道下面将会跳到什么样的场面”的状况，这与依据随机数进行跳跃没有什么不同，从而视听热情就会逐渐减退。

也就是，对于用户来说“章节”的位置不明了的情况下，视听对象的场面变成“不知道跳跃到哪个场面”，牵涉到“(因为也有可能错过重要的场面)很不好用”的情况。如果不能预测“哪个场面被跳跃，下面将到哪个场面”，就不能称为明了的章节。

这样，在视听时、检索时或编辑时为了对用户进行支援，可以说对于用户来说章节被授予在明了的位置是绝对的条件。章节的位置是有意义的而且最好尽量是具有固定的意思的场面，为了不招致错过重要场面的事情，尤其要重视检索率。

这里，有意义且具有固定的意思的场面是指，例如，综合节目中的各个小组的登场的场面或棒球节目中的各个投球场面等，用户有可能暗中意识到的“下一个章节”，而且是指出现频率比较高的场面。

如果从这个观点来考虑，则至今为止被公开的技术全都不充分。

例如，关于某个章节，有作为具有一定意思的剪切点如果未必是错误的话则按正确解答来看待并进行评价的事例。在这种情况下，某个章节被授予大约10分钟的具有意思的群体(场面)，而别的章节被授予大约3秒钟的场面等，因为节目中的各个章节的颗粒度(granularity)发生了变化，所以利用的人就不知道是下面10分钟的场面被跳跃还是几秒钟的场面被跳跃，会感到非常困惑。

而且，在限定于棒球或足球等特定的节目内容的事例中，当然没有通用性，即使只是棒球播放也不能应付天气的变化或球场的变化等情况。

还有，将影像按照镜头的切换点或适当的影像的变化点或时间段来划分成几个小区间，并把各自的区间按适当的方法分类，一边对被分类的各群的相互关系进行一个一个地检查一边提取影像的构造要素并生成章节的事例(例如，参阅专利文献1)。

但是，这个事例会由于分类性能而影响构造要素的提取性能。一般的播放影像的拍摄条件并不一定稳定，一会儿天气发生变化，一会儿被***反射式字幕或附加信息，会发生多种多样的变化。为此，基于现在的技术水平的对一般影像的分类性能非常低而且不稳定。

因为如此分类性能不稳定，所以在以往的方法中，需要在由分类的结果而得到的群的彼此之间进行一个一个地比较(根据互相相关等来比较相似度)，并需要检索(或者推断)是否有同样的场面被包含在群里。

将上述专利文献1中的一个一个地检索称为链式检测，影像中的节目构造用于提取之目的。但是，关于本来不能判定为同样的两个群(因此不能分类在同一群里)，怎样作为同一群来链式化并没有言及。

因此，可以考虑具有实际的精度并进行装配的事是不可能的，假设即使能够装配用于链式化的类似判断引擎，不得不对群一个一个地进行检索并从中提取构造要素，计算成本极大。而且，做出来的章节是否明了，更是作为另外的问题照样遗留下来。

一般情况下，CM法的章节性能是通过相对于设想的模型的检索率(Recall)和精确度(Precision)来表现的。

例如，如上述专利文献2及非专利文献5中公开的，将条件做极大的限定(这个例子把影像限定为棒球播放)，进行分类的图像的种类也事先固定并确定下来(这个例子固定为投球场面)，即使在将用于分类的特征量进行特定化的情况下(在这个例子中，像后述的图2的步骤S304及步骤S305那样，断定“投球场面一定会出现绿色的区域和褐色的区域”以设定特征量)，被报告的结果为检索率是98％、精确度是95％。

乍一看，这些数值作为性能来说也许看起来很充分。但是，要注意，这个数值是容易构造化的图像模式对于比较不太变化的棒球而言，将条件特定化了的情况。

并且，在此例中，是在棒球播放中的各个投球场面处被授予章节，而一场比赛里，大约会出现200到300个球左右的投球场面。例如假定为250个球的情况，在一场比赛中不错过各个投球场面而能够编辑的概率是，简单计算就相当于98％的250乘方的概率。0.98的250乘方约为0.0064。也就是，基本上为0％。

归纳起来说，以往的视频处理(视频编辑)***立足于图像的分类性能。但是，由于动态图像数据的(时间)变化、变动，未必一定能得到良好的分类结果。至今为止，将动态图像分割成由多个帧组成的片段，并利用各个片段的特征量(整个图像的颜色直方图或时间方向上的变化量等)进行了分类。但是，在播放中，由于一会儿在任意的时机***解说词、一会儿又转换摄像机，所以观众在看到时往往会发生希望分类在同样的范畴里的片段，却被分类在别的范畴里的事情。尤其是在自顶向下型中，就完全不能适应这种状况的变化。

因为像这样的，耐干扰性低且使用条件被限定了的不稳定的分类方法，使视频处理的结果的性能变得很低、且变得缺乏实用性。而且，因为后段(章节位置决定例行程序)试图补偿分类性能的低下，所以要一边对被分类的各个范畴之间的相似度进行全面检索一边推断影像结构等，在速度方面处理也变得非常慢。因此，为了避免分类性能的低下，不得不对播放内容采取特定化处理，而牺牲了通用性。

而且，反复言之，对于用户来说被生成的章节的授予标准必须要明了、是有意义且具有固定的意思的场面。

发明内容

本发明鉴于上述课题，提供了一种通用的且高速的影像场面分类装置等，能够生成对于用户来说明了的章节。

为了解决上述课题，本发明涉及的影像场面分类装置是，对在构成影像的多个图像之中的一个以上的图像授予索引的影像场面分类装置，包括：图像分类单元，对于所述多个图像，根据表示图像上的特征的分类指标分类成多个群；群选择单元，从被分类的所述多个群当中至少选择一个群；索引生成单元，在构成所述被选择的群的图像之中，至少对一个图像授予索引。

通过这样的构成及对于构成影像的图像根据分类指标来进行授予索引，因为在进行具有良好的稳健性的分类的同时，能够确定应当授予索引的群，所以可以进行对于用户来说更加明了的编辑。

而且，所述影像场面分类装置的特征还包括：影像采样单元，通过采样从所述影像取得多个图像；处理范围决定单元，按每个被取得的所述图像决定图像处理的执行范围，并通过对该处理范围执行图像处理来确定分类指标，所述图像分类单元，根据表示在被决定的所述处理范围中的图像上的特征的分类指标进行所述分类

通过这样的构成，由于在各各图像内对更加有意义的范围进行动态的限定并执行图像处理以决定分类指标，所以即使在图像内加入附加信息等发生图像变化的情况下，也能够根据分类指标进行安定的分群。

而且，所述影像场面分类装置的特征还包括，授予索引规则选择单元，根据被分类的所述群的分类指标或者所述影像的节目内容信息，决定授予索引规则，所述索引生成单元，对被选择的所述群使用被选择的所述授予索引规则，对所述图像授予索引。

通过这样的构成，根据分类指标或者节目内容信息，可以选择在对被选择的群授予索引时的规则，能够进行更加对应图像的特征的索引的授予。

而且，所述授予索引规则选择单元，根据所述节目内容信息，从下述授予索引规则中选择任意一个规则：(1)对包含在被选择的群中的全部图像授予索引；(2)将包含在被选择的群中的全体图像以时间轴排序，并对每个规定时间以内的图像的群体授予索引；以及(3)对规定的群中包含的影像块之中的、且没有被包含在由其他的规定群组成的连续的群体中的影像块授予索引。

通过这样的构成，因为能够设定更加细致周密的索引授予规则，所以可以生成对于用户来说更加明了的章节。

另外，本发明还可以作为，以在上述影像场面分类装置中具备特征的构成单元为步骤的影像场面分类方法来实现，及作为使计算机等执行这些步骤的程序来实现。还有，不用说也可以使该程序通过DVD等记录介质或互联网等传送介质广泛流通。而且，本发明还可以作为具备上述特征的构成单元的集成电路来实现。

并且，本发明也可以作为具备上述影像场面分类装置100的特征的构成单元的客户服务器***来实现。

通过本发明能够实现，对于节目内容是通用的并且稳健的、对于用户来说更加易懂的编辑。还有，可以生成对于用户来说明了的且有意义的章节。

同时，由于生成的群的精度高，所以不需要像以往方法那样对生成群之间进行相似检查或在群的彼此之间进行的分类行程，能够实现高速处理。

附图说明

图1表示以往的实施例1的概要图。

图2表示以往的实施例2的概要图。

图3表示以往的实施例3的概要图。

图4表示在实施例1的影像场面分类装置的功能构成的框图。

图5表示在实施例1的影像场面分类装置的详细功能构成的框图。

图6表示图像分类部的内部工作情况的流程图。

图7表示群选择部的内部工作情况的流程图。

图8表示索引生成部的内部工作情况的流程图。

图9表示索引规则选择部的内部工作情况的流程图。

图10表示处理范围决定部的内部工作情况的流程图。

图11表示利用有效Brick来授予索引的情况的模式图。

图12(a)～(c)表示剪切图像示例。

图13(a)～(c)表示处理范围的决定示例。

图14表示利用无效Brick来授予索引的情况的模式图。

附图标记说明

100 影像场面分类装置

101 影像输入部

102 影像采样部

103 处理范围决定部

104 图像分类部

106 群选择部

107 授予索引规则选择部

108 索引生成部

109 索引再生部

110 输出部

120 节目信息

1201 剪切图像

1202 剪切图像

1203 剪切图像

1301 处理范围设定例

1302 处理范围设定例

1303 处理范围设定例

具体实施方式

以下，一边参照附图一边来说明本发明的具体实施方式。另外，关于本发明，虽然利用以下的实施例及附图进行说明，但是这些只用于举例说明之目的，并没有将本发明就限定于此范围的意图。

而且，本发明是关于，使影像数据(播放内容或个人内容之类的动态图像数据及静态图像数据)更有效地、且有效率地分类，并生成精度更好、高速生成的章节的影像场面分类编辑的技术。这种影像场面分类编辑技术，在被给予对于影像数据种类的事先知识的情况下，会具备更好的性能。作为这种事先知识的例子，有播放内容中的节目信息(EPG信息)120、个人内容中的通过用户输入的“旅行”、“运动会”之类的信息或根据GPS(Global Positioning System：全球定位***)等的位置信息或室内外信息等。

(实施例)

图4表示在本实施例的影像场面分类装置100的功能构成的框图。首先，对影像场面分类装置100的功能的概况进行说明，然后，对关于各部分的功能进行详细的说明。

最初，在影像输入部101，影像信息(例如，表示影像本身的影像数据及与影像的控制或管理相关联的信息等)被输入。被输入的影像信息在影像采样部102，根据预先规定的时间间隔(或者/及预先决定的规则)被采样，并形成静态图像的集合体。另外，由于使用剪切点检测功能(即，对显示拍摄影像的摄影机的切换的剪切点进行检测的功能)，因此也可以在剪切点对影像进行采样。(在以后的说明中，从影像采样部102得到的输出，为了方便就叫做“剪切图像”。当然，可以利用任意的采样方法对影像进行采样。)

图像分类部104是通过对剪切图像进行分类(以下也叫做“分群”)而生成一个或多个群的部分。另外，将通过对上述剪切图像进行分群得到的、由一个或多个静态图像构成的图像组叫做“群”。对于图像分类部104的分类性能对本影像场面分类装置100的整个的性能影响很大的情况，已经作为以往技术的课题叙述过了。对剪切图像进行分类时的指标(以下叫做“分类指标”)，是根据各个剪切图像的图像信息(例如，表示剪切图像本身的图像数据及表示剪切图像的特征等的信息等)算出的，但是，为了适当地迎合剪切图像内的变化，并使稳定的分类成为可能，在图像分类部104的前一阶段设置处理范围决定部103。

处理范围决定部103是，将分类指标(即用于分群的物理量)由各个剪切图像的图像信息算出时，不是在整个的图像，而是在各个剪切图像内具有适合分类信息的范围进行动态的改变与设定的部分。另外，用户利用输入操作单元(无图示)，能够改变上述分类指标。

下面，对处理范围决定部103的功能进行简单的说明。例如，考虑棒球播放中给投球场面授予索引(章节)的情况。投球场面中看见选手就立即会明白是投球场面，但是实际的投球场面的剪切图像里有各种各样的变化(参照图12)。

例如，如果将剪切图像1201作为基本的投球场面的话，剪切图像1202是被附加了表示比分和投球计数的附加信息的投球场面，并且摄影机的角度有一些变化(在剪切图像1202中可以看到接手背后的挡球网侧的墙)。而且，剪切图像1203是被附加了关于击球手的附加信息的投球场面。

处理范围决定部103对这样的多个剪切图像，将人在掌握节目内容时会关注的被预测的范围(例如，如果是棒球，则是表示投手和击球手的交锋的范围)在各个剪切图像上进行动态设定(参照图13)。图13中表示的处理范围设定例1301、处理范围设定例1302及处理范围设定例1303，分别相当于图12的剪切图像1201、剪切图像1202及剪切图像1203各图的处理范围设定例。

这样，在本实施例中，不像以往那样利用整个图像的信息(或者，以整个图像为对象)，而是利用由处理范围决定部103设定的处理范围的图像信息，并通过图像分类部104，使适应分类对象的变化的稳健的分类(分群)成为可能(关于处理范围决定部103的工作原理及内部工作的说明以后再述)。

下面，对群选择部106的功能进行说明。在群选择部106，从图像分类部104中被分类的群的当中，将哪个群用于章节授予上，要按照预先决定的规则进行选择。当然，各个群的要素是剪切图像，一个以上的剪切图像集合起来形成各个群。

作为在群选择部106中选择群时的规则的一个例子，对关于“选择要素数最多的群”的情况进行说明。

在群选择部106中，关于由图像分类部104分类的群，其要素数(剪切图像数)按照由多到少的顺序进行排序。在这种情况下，要素数最多的群是，由最频繁地被播放的同类的剪切图像构成的，可以说最频繁地被播放即是，分发方最想传达(不能不传达的)的节目的主要构成要素。(请注意在不能正确分类的以往的影像分类方法中，如此的推论就不成立。)

例如，如果是棒球播放，在播放中最频繁出现的剪切是像图12(a)～(c)那样的投球场面的剪切图像(根据实验，已证实与其他的剪切图像相比具有绝对高的出现频率)。还有，当然，投球场面是棒球比赛的诱因，也是最重要的构成要素。

即，在棒球播放中，如果要选择要素数最多的群，则此群里会集合着投球场面的剪切图像。

在别的种类的节目中，也可以考虑应该改变群的选择方法的情况，但是群选择部106的基本工作是，选择像这样的必要的(或者重要的)群(群选择部106的详细说明以后再述)。

下面，对授予索引规则选择部107的功能进行说明。授予索引规则选择部107决定索引生成规则(也叫做“章节生成规则”)。索引生成规则是在上述群选择部106中被选择的群的剪切图像上授予索引(章节)时的规则。

例如，对关于上述“要素数最多的群”在群选择部106被选择的情况的索引生成规则进行说明。在这种情况下，授予索引规则选择部107所决定的索引生成规则是，“在群选择部106中被选择的群里包含的所有剪切图像上授予索引”。这在后述的图9的流程图中，相当于步骤S909的“直接生成”。

关于其他的索引生成规则以后再述，授予索引规则选择部107的基本工作是，像这样在授予章节时决定必要的规则(关于授予索引规则选择部107的详细说明以后再述)。

下面，关于索引生成部108的功能进行说明。索引生成部108中，对于构成全部的剪切图像或其一部分的剪切图像的在群选择部106中被选择的群(这叫做“选择群”)，按照在授予索引规则选择部107被选择的索引生成规则，授予索引。

关于索引生成部108的工作，按照上述的授予索引规则选择部107的例子具体说明的话，在群选择部106中“要素数最多的群”被选择；并在授予索引规则选择部107中，“直接生成”规则被选择。于是，索引生成部108从由图像分类部104分类出的群里读出“要素数最多的群”，并对“要素数最多的群”里包含的全部剪切图像授予索引。

如此将在群选择部106中被选择的选择群，从由图像分类部104分类出的群里读出，并按照在授予索引规则选择部107中被选择的规则，对选择群的剪切图像的一部分或者全部授予索引。

下面，关于索引再生部109的功能进行说明。索引再生部109利用在索引生成部108被生成的索引(章节)进行影像的再生。移动至下一个章节被授予的剪切图像或移动至上一个章节被授予的剪切图像，以被授予章节的剪切图像单位为准手动跳跃或自动跳跃，在各个章节被授予的剪切图像之后进行规定的几秒钟再生，移动至下一个章节被授予的剪切图像等。

下面，关于输出部110的功能进行说明。输出部110将表示被生成的索引的索引信息输出。输出部110既可以单独输出索引信息，也可以与被输入的影像关联后再输出，还可以给被输入的影像设定章节并作为已授予章节的影像输出。

最后，关于节目信息120进行说明。节目信息120的意思是，可以通过互联网、广播电波或者用户的输入而能够取得的有关节目的信息，包括EPG(Electronic Program Guide：电子节目指南)信息等。上述处理范围决定部103、群选择部106及授予索引规则选择部107能够将节目信息120作为辅助信息进行利用。

以上是影像场面分类装置100的功能的概况。

另外，图4的构成图是用于举例说明之目的，本发明也可以不一定包含图4中的全部构成要素，还可以选择并实现能够发挥必要功能的最小限度的构成。

另外，在影像采样部102的采样间隔可以是，固定的时间段(例如1秒钟)，也可以是MPEG(Moving Picture Expert Group：活动图像专家组)流的I帧的采样，还可以是在剪切点的采样，使用任意的现有方法进行采样都可以。

而且，在影像采样部102中，也可以代替输出作为静态图像的剪切图像，将输入影像分割成合适的长度的小影像流，并作为影像流群输出。在这种情况下，对被采样了的静态图像进行的一连串的后处理，也可称做对小影像流的一部分或全部帧的处理。

另外，有必要接受来自用户或上位***的指示输入的情况下，也可以通过影像输入部101来接受。

以下，关于本发明涉及到的影像场面分类装置100的各主要部分的工作，进行详细的说明。

图5是影像场面分类装置100的更加详细的功能框图。还有，图6～图10是各部分的内部工作情况的流程图。

如图5所示，首先，在影像输入部101中影像数据被输入的情况下(S501)，生成利用影像采样部102被采样的剪切图像群(S502)。生成剪切图像群的方法是，如前所述，通过在影像内容的变化点处进行采样来生成(S530)或，通过检测剪切的变化点并在变化点处进行采样来生成(S531)，通过每隔一定时间的采样的生成(S532)等，任何能够使用的以往的方法。

下面，关于处理范围决定部103的工作进行详细的说明(参照图5、图10)。

在被采样的剪切图像群的图像数据被输入的情况下(S1001)，处理范围决定部103即从各个剪切图像算出图像的特征量(S503/S1002)。这里使用的图像特征量是关于图像的物理信息，具有亮度信息(边缘、马赫效应量等)或颜色信息(色相、色差等)。处理范围决定部103根据被提取的图像特征量，以像素单位或小的像素块单位进行图像特征量的分析(S504/S1003)。在被分析的各个图像特征量上，会被附加规定的权重，且把被加权的各个图像特征量和计起来(S505/S1004)，并进行阈值处理(S1005)。

并且，处理范围决定部103对于对应通过阈值处理被确定的图像特征量的剪切像素群，决定将其包含或外接的在剪切图像内的矩形(S1006)。处理范围决定部103将被这样决定了的矩形作为处理范围输出(S505/S1007)。

这里，使用节目内容信息、节目图书信息或相关信息，也可以适当地使图像特征量的分析或加权、阈值的处理变化。

例如，能够通过EPG信息取得节目内容信息(S1020)对可能出现附加信息的区域或出现频度进行推断(S1009)，还能够对可能出现反射式字幕/各种信息的区域或出现频度进行推断(S1010)，或对不显示附加信息和反射式字幕等辅助信息，而显示主要图像信息的区域进行推断(S1011)。还有，在分析图像特征量时，能够优先使用主要图像区域的图像特征量；在加权时，通过将从附加信息区域产生的图像特征量的权重相对地降低(或者提高)，能够相对地提高(或者降低)主要图像信息的影响。再加上，对于阈值的范围，因为在容易出现反射式字幕或附加信息的情况下整个图像的变化量容易变大，会增大阈值；相反，在很少出现反射式字幕或附加信息的情况下，会减小阈值等，能够进行将区域和频度的推断和各个处理任意组合的处理。

另外，被决定的处理范围的形状不限定为矩形。而且，代替包含或外接在阈值处理中剩下的点的矩形，不进行阈值处理，为了使每个单位面积的图像特征量更大、也可以在图像中一边移动规定(或规定以上)大小的区域一边决定处理范围。还有，通过EPG信息来取得节目的内容信息时，根据节目内容来推断影像中主要的颜色(例如，如果是足球播放则是绿色等)，也可将与那个颜色的背离度作为图像特征量。

以上的结果，如图12及13所示，作为对剪切图像1201、剪切图像1202及剪切图像1203的各个图像的处理范围，处理范围设定例1301、处理范围设定例1302及处理范围设定例1303被决定。

在处理范围决定部103，大致像下面那样决定处理范围。例如，处理范围设定例1301的情况，在投手的左右明显地出现边缘及颜色的偏差。关于击球区的白线、击球手、接球手、裁判员也一样。通过对这些特征一边加权一边相加，出现具有比规定的阈值大的图像特征量的点(小的像素块)。

在超过规定的阈值的点(小的像素块)里，在图像中最左端是投手左侧的边缘，右端是击球区的白线，上端是击球手的头部及接球手的头部，下端是投手的运动服的腰部线及球场的绿色与褐色的分界线。决定了这4个边就形成像处理范围设定例1301那样的范围。处理范围设定例1302、处理范围设定例1303也一样，除沿着运动服或击球区等的边缘以外，还沿着附加信息(比分显示及投球计数显示)、反射式字幕(击球手介绍)等的边缘处理范围来决定。

下面关于图像分类部104进行详细的说明(参照图5、图6)。

图6是表示图像分类部104的内部工作情况的流程图。

一旦图像分类部104被调出(S601)，变数n就被设为“1”(S602)，与上述的剪切图像的输入同时开始分群(S603)。此后，分类指标被选择(S604/S506)，利用被选择的分类指标执行分群(S605/S507)。分群算法可以是现有的任意的方法。

另外，分群方法大致可划分为，将相似的群合并汇集的阶层式分群和，将集合进行分割在结果上使相似的群进入同一组的非阶层式分群。非阶层式分群的代表例为“k-mean(k-均值)法”。而且，在阶层式分群中，最初，将各个对象看作零散的一个群，通过相近的群一个接一个地合并，得到最终的分类结果。作为阶层式分群的代表例可以举出“最小距离法”等。

于是，分群的结果有Cn个群被生成(S606)。因为这里n＝1，所以是C1个。在此，将常数k和n进行比较(S607)，在k和n不相等的情况下，从Cn个的群中选择p个群(S608/S509)，给n附加1(S610)，将在p个群中包含的剪切图像作为新的输入图像数据重新进行分群(S603)。这时，p为Cn以下的正整数。p的决定方法是，按从要素数多的群开始的顺序，认为达到总输入剪切图像数的规定百分率为止的个数不超过Cn的二分之一。

而且，在上述步骤S607中k和n相等的情况下，完成分群(S611)。

另外，p的决定方法不只限于上述方法，也可以仅按从要素数多的群开始的顺序，以达到总输入剪切图像数的规定百分率为止的个数来决定。而且，也可以根据常数来决定p。还有，还可以根据Cn的规定比例来设定p。

另外，常数k可以是2到3的固定值，还可以取代S607，根据在指定的群(要素数排前位的群)中规定比例以上的剪切图像是否被分类来决定是否再进行分群。

另外，也可以从处理范围决定部103输入处理范围(S630)。在处理范围被输入的情况下，作为进行分群的分类指标，还可以使用表示根据处理范围而被限定的物理量的信息。例如，处理范围的形状、位置及大小等可以作为在进行分群时的分类指标。

另外，在选择分类指标时，也可以参照保存在数据库里的分类指标(S620)。例如，在如上述处理范围的形状、位置及大小之类的分类指标之外，也可以将从图像信息中选出作为物理量的颜色指标(色相指标、色差指标等)或亮度指标作为分类指标。

另外，也可以只以处理范围的内侧的图像作为对象，算出色差指标或亮度指标等图像特征量。当然，只利用处理范围的外侧的图像也行，并且，也可以只以带有规定范围的处理范围的周围区域为对象。

这些分类指标除了直接使用物理量以外，还可以使用直方图。而且，还可以进行DCT(Discrete Cosine Transform：离散余弦变换)或FFT(Fast Fourier Transform：快速傅里叶变换)等的频率变换，将其直流成分或交流成分作为指标使用。

另外，也可以利用以下的两个物理量作为进行分群时的分类指标：1.在处理范围的剪切图像中的位置、2.在处理范围的内外一定范围的图像特征(例如周围20像素等)。

尤其是上述“2.”的物理量，具体来说对于从处理范围的边界线的内外一定范围的像素，分别取得边缘强度和色相的直方图，并将直方图以参照的像素数来归一化。剪切图像的分类根据上述“1.”及“2.”的两个分类指标，例如通过依据最短距离法的分群来进行。此时，也可以将两个分类指标分别使用，以进行两个阶段的分群。

首先，进行以处理范围之间的距离D1为距离标准的分群。以矩形作为处理范围的情况，D1为两个矩形的对应顶点之间的距离。由于对处理范围的距离进行比较，能够预计对剪切图像的大致的构图进行判断的效果。接下来，在第一次的分群中从要素数多的群开始顺序选择一定个数的群，对所选群所属的剪切图像根据直方图设定距离D2，并进行第二次分群。

D2使用边缘强度的直方图He、色相的直方图Hh来定义，

如(公式1)所示。

D 2 = Σ_{i = 0}^{Ne} [MIN {{He}_{i} x (i), {He}_{i} y (i)}]

+ Σ_{j = 0}^{Nh} [MIN {{Hh}_{j} x (j), {Hh}_{j} y (j)}]

另外，MIN{x，y}表示，x，y之中小的一方的值。而且，Ne、Nh表示直方图的次数。例如，Ne为16、Nh为15的色相直方图He包括12阶段有彩色和3阶段无彩色。使用边缘强度直方图He和色相直方图Hh，来预计对剪切图像的前景及背景的相似度进行判断的效果。通过将两者进行组合，并一面大致考虑“人是看哪来判断相似性的”，一面捕捉关注部分的附近的特征，使更加接近人的直觉的分类成为可能。

接下来，关于群选择部106进行详细的说明(参照图5、图7)。

图7是表示群选择部106的内部工作情况的流程图。

在图像分类部104的分群结束后(S701)，群选择指标即被决定(S702)。群选择指标大的可分成三类，“根据群的要素数来选择”、“利用规定的算式来选择”及“选择指定的群”之中的任一个被选择。

这里，在根据群的要素数被选择的情况下(S703：是)，要素数多且排前位的群的S1个被选择(S704、S540)(例如，相当于棒球的情况下的投球场面的群。在此情况下，S1为1，排前位的一个群被选择)，并移动至步骤S705。

没有按照群的要素数的顺序被选择(S703：否)，在根据规定的算式被选择的情况下(S705：是)，利用规定的算式选择S2个群(S706)。

例如，规定的算式(条件式)能够进行如下的记述。“将第i个群Ci的要素数作为Ri时，满足Th1＜Ri＜Th2的i之中，按照从大的Ri开始的顺序选择S2”(这个事例相当于，例如，选择由要素数为5～10张的剪切图像组成的群的情况等。智力竞赛节目的出题场面等，在节目构成上的主题的总数大体上被预测的情况下有效。根据智力竞赛节目的题目等，大约的问题数被预先定义，以自动选择具有那个数目的要素数的群。)之后，移动至下一个步骤S707。

不是通过规定的算式被选择的(S705：否)，而是通过指定的群被选择的(S707：是)，用于选择群的匹配模板被读入(S708)。模板作为模式DB(Data Base：数据库)被数据库化，可以存储，也可以按照需要读出(S710)。利用被读出的模板，进行各个群和模式匹配，选择适合模板的模式的群(S709)，群选择结束(S711)。

另一方面，在没有通过指定的群选择的情况下(S707：否)，将进行到此为止是否选择了一些群的判断(S750)。如果到此为止选择了一些群，则移动至群选择结束(S711)。如果什么都没有选择，则会限定于到此为止的三种中任意一个的选择方法，返回选择决定反馈的步骤(S702)(S721)。

另外，在上述步骤S709中的模式匹配可以针对所有的群进行，也可以针对一部分的群进行，还可以只针对各个群的一部分的图像(代表图像)进行。

而且，节目信息120，例如通过EPG信息取得节目内容信息、节目图书信息或相关信息(S720)，还可以使用群选择指标(S702)或读入模板种类的决定(S708)、S1和S2的决定(S704、S706)等的辅助信息。

例如，根据节目信息120知道节目的种类是“棒球”的情况下，如上所述，能够进行“根据群的要素数来选择”，认为“S1是1”。同样如上所述，知道了是(出了10个左右的问题)智力竞赛节目的情况下，能够进行“利用规定的算式来选择”，可以设定算式为“Th1是7、Th2是13”、“S2为5”等。

另外，在上述步骤S706中，不只使用要素数Ri，还可以使用时间分布作为条件式。例如，将条件式设定为，把第i个群Ci的第j个要素(剪切图像)Rij的时间标记作为TRij、把时间轴上的最小的TRij作为MIN_TRij、最大的TRij作为MAX_TRij时，作为节目的主要部分的时间段是从T1至T2，对于主要部分的出现时间偏差(DIF1)也可以用(MIN_TRij-T1)+(T2-MAX_TRij)来定义。这种情况，由于选择了比DIF1小的群，即使是同样要素数的群，也能够取得可以更加捕捉到整个节目的特征的群。

反之，也可以将MIN_TRij和MAX_TRij作为，选择可容纳在规定的时间段内的群的条件式。例如，有对可容纳在一个小时节目中的最初的10分钟到15分钟之间的群进行选择等。通过边改变时间段边对如此的群进行多个选择，即使是节目内的每个栏目的构成发生大的变化、栏目彼此之间似乎没有相似性的节目，也能够选择用于适当授予索引(章节)的群。

同样的想法，如果在新闻节目等主播音员的场面中即使有相似性，而在VTR(录像)场面中没有相似性的节目，通过将全部节目主要部分的、时间分布均匀的群与集中在局部出现的群进行组合，也能够简单地授予章节。

顺便说一下，当后述的Brick(章节/索引候选的群体)生成时，必须决定是在章节里生成有效的群体(表示索引的应该授予的范围的群体)，还是生成无效的群体(表示索引的不应该授予的范围的群体)。在这个新闻节目的例子里，可以将集中在局部出现的群称为用于生成不适合索引的“无效的群体”的群，具有不包含在这个“无效的群体”中的剪切图像的时间分布均匀的群，可以称为应该授予索引的群。

当然，条件式不仅限于上述的记载。如上所举的例子，将节目信息120作为辅助信息，将一般能够设想的节目构造的假设(假定)算式化了的任意的情况都可以。例如，也可以在时间轴上，利用剪切图像的分布、分散、平均或最频繁出现时间带等，与节目构造进行比较，以有用于合适的群选择。要素数也一样，也可以利用出现剪切数、最大数、平均等，与节目构造进行比较，以有用于合适的群选择。

并且，也可以利用节目信息120来决定使用的模板。如果是存在具有特定的图案或布局的场面的节目，则使用固定的模板非常有效。这时，由于通过图像分类部104使各个群被适当地分类，则会与各个群的代表图像(例如，平均图像)进行匹配，只要选择最接近的群，一次就能够取得其他具有同样的构图的剪切图像。对于整个图像，因为只与各个群的代表图像(例如，平均图像)进行匹配就获得的和进行同样匹配的情况一样的结果，所以还关系到可大幅度消减计算成本。

在步骤S777中输出选择群和选择群的属性信息。这里，“选择群的属性信息”是，表示关于“是不是作为生成Brick的有效/无效的群”及“是不是应该授予直接索引的群”的信息。

决定属性信息的判断标准和在上面叙述的新闻节目或棒球节目的例子的群本身的选择标准一样。如果是“作为用于授予单独的适当的索引的群选择”的群，则传达“应该授予直接索引的群”之内容的属性信息会授予给那个群并被输出。关于其他的属性信息也一样。

另外，有关这个Brick的工作，将在下面的授予索引规则选择部107中详细说明，然后，出示在群选择部106中各个Brick所用的群选择例。

另外，单纯地，在节目构成上更有意义的场面群或镜头群比其他的场面群或镜头群被利用(播放)的情况多的假设，可以说是合理的假设。这与在考虑到制作人一方对节目结构进行构造并想向观众传达节目过程的情况一样。可以将为了理解节目内容所必要的引言部分或过度部分看作是构成，作为影像文法高频度地被反复重放的、节目内的栏目或场面(的开头或重要部分的开始位置)的部分。群选择部106依据如此的节目构成的特征，能够进行群的选择。

另外，关于选择群的个数，可以如下述例子求出。

将包含广告等节目的总播放时间作为Lp，在节目内的平均剪切出现数作为Cr(使用剪切图像的情况)。将第i个的群Ci中包含的剪切数作为NCi时，成为选择个数的群数也可以作为满足以下公式2的最小的正整数k来求出。

(公式2)

Σ_{i = 0}^{k} {Nc}_{i} > Tc

另外，Tc为阈值，将γ作为参数，通过γ与Tp与Cr的积来求出Tc。γ是在节目中表示包含了多少特别重要的剪切的参数。

下面，关于授予索引规则选择部107的工作进行详细的说明(参照图5、图9)。在后半部分，同时显示在群选择部106中的各个Brick用的群选择例。

图9是表示授予索引规则选择部107的内部工作情况的流程图。

授予索引规则选择部107接受表示分群结果(S902)的数据的输入(S903)，并首先依据使用群数或群的要素数，来判断是否需要生成Brick(S904)。这里，被选择的群内的剪切图像在时间上基本上同时形成连续的群体的情况下，把那个群体叫做Brick。

被判断需要生成Brick的情况下，传送到下一阶段的需要生成Brick的信号被发出(S905/S543)。而且，决定这个Brick作为章节是“有效”的候选还是“无效”的候选(S906)，有效的情况下发出“有效章节”信号(S907)。无效的情况下发出“无效章节”信号(S908/S542)。之后，将各个发出的信号作为对输入影像的授予索引规则输出(S910/S511)，授予索引规则的决定处理结束(S911)。

关于使用Brick的编辑规则的概况，用图11来进行说明。剪切图像作为影像数据被输入(S1101)，并被分群(S1102)。在群当中，认为群A、B、F被选择，将选择群内的剪切图像配置在原来的影像数据的时间列上(S1103)。S1104的黑色的数据位置(黑色剪切图像)相当于属于群A、B、F中任意一个的剪切图像的数据位置，白色(白色剪切图像)相当于在此之外的图像数据。这里，如果生成Brick，则会生成像S1105A、S1105B、S1105C、S1105D那样的4个Brick(群体)。

这里的Brick的生成算法采取，如上所述的被选择的群内的剪切图像，在时间上基本上同时形成连续的群体的情况下作为Brick，不连续的情况下就不作为Brick的比较单纯的方法。在时间上是否连续的判断是，在图11的任意的黑色剪切图像和黑色剪切图像之间的规定的时间段(Twh)以上、包含一个以上的白色剪切图像的情况下，其黑色剪切图像彼此不形成Brick。即，只要是Twh以上、在时间上不间断地出现黑色图像，就认为在时间上基本上是连续的。

这个规定的时间段Twh在生成索引时是必要的(在索引生成部108为必要的)，而在授予索引规则选择部107，不需要对时间段Twh进行确定(在授予索引规则选择部107，以所需的最低限度，只将是否需要制成Brick作为规则来决定即可)。

另外，图11的Brick生成(S1105)及索引授予(S1106)的例子，相当于图9的S907的有效章节被选择的情况。后述的索引生成部108也会涉及到在将“Brick作为有效章节”的情况下，索引被授予各个Brick的开头(或者各个Brick内的任意一处)。

相反，在步骤S908的将“Brick作为无效章节”的情况下，无效的Brick生成用的群和不生成Brick的群在群选择部106被选择(像上述的新闻节目等那样的，在主播音员的场面里即使有相似性，而VTR场面没有相似性的节目等的事例)。

作为Brick的生成算法，无效Brick也与前面的有效Brick一样。根据属于用于生成无效Brick的群的剪切图像，无效Brick被生成。这里，方便上，将属于“在不生成Brick的群中被选择的群”的剪切图像叫做有意义剪切图像。

在这个将“Brick作为无效章节”的情况下，索引不是无效Brick，被授予到有意义剪切图像，但是不授予有意义剪切图像之中的各个无效Brick里包含的剪切图像。

与图11一样，关于使用无效Brick的编辑规则的概况，用图14进行说明。剪切图像作为影像数据被输入(S1401)，并被分群(S1402)。在群之内，群A、B、F作为生成无效Brick的群被选择，群D作为有效的群被选择。将这些选择群内的剪切图像配置在原来的影像数据的时间列上(S1403)。步骤S1404的黑色的数据位置(黑色剪切图像)相当于属于无效Brick群A、B、F中任意一个的剪切图像的数据位置，包含黑白的斜线花纹的数据位置(花纹剪切图像)相当于群D的有意义剪切图像(认为有六个)的数据位置，白色(白色剪切图像)相当于在此之外的。这里，和前面的Brick一样，一旦生成无效Brick，就能够生成如S1405A、S1405B、S1405C、S1405D那样的4个无效Brick。

这里，对六个有意义剪切图像S1410A、S1410B、S1410C、S1410D、S1410E及1410F授予索引，但在此之中，包含在无效Brick里的S1410B及S1410D不被授予索引，剩余的四个被授予索引。

在授予索引规则选择部107生成Brick时，授予索引规则的决定方法如上所述。

下面，关于在步骤S904中被判断出不需要生成Brick的情况进行说明。在这种情况下，会发出将索引直接授予被选择群的剪切图像的“直接生成”信号(S909/S544)。然后，进至步骤S910。

基本上，是否需要生成Brick的判断是按照在群选择部106(这个群是无效Brick用的群，这个群是有效Brick用的群等)被选择的信息来决定。但是，由于一些原因使得在群选择部106中的群指定信息欠缺的情况等，和上述图7的S720一样，也可以通过EPG信息将作为辅助信息的节目内容信息、节目图书信息或相关信息输入(S720)。关于是否需要生成Brick，也可以根据辅助信息来判断。

这样，在授予索引规则选择部107中，根据是否需要生成Brick，如果需要生成Brick则决定是有效Brick还是无效Brick，如果不需要生成Brick则决定直接生成。

如果将对于这些“直接生成”、“有效Brick生成”及“无效Brick生成”的各个信号的实际授予索引规则进行归纳，则如下所述。

·直接生成：对包含在被选择群中的全部剪切图像授予索引。

·有效Brick生成：将被选择群中包含的全部剪切图像在时间轴上排序，对规定时间以内的每个群体授予索引。

·无效Brick生成：对规定的群(有意义的群)中包含的剪切图像(有意义剪切图像)之中的、且没有被包含在其他的规定群(无效群)中的Brick的剪切图像授予索引。

另外，在群选择部106中，关于生成有效Brick或无效Brick的群和关于在授予索引时如何选择有效的群，如在上述群选择部106的说明中涉及到的，根据各个群的要素数或总要素数来判断。其他的，使用以各个群的时间分布状况或EPG信息为首的节目信息120的情况也如前所述。

这里重复地说明，如果像新闻节目等那样的、在主播音员的场面即使有相似性，而在VTR场面没有相似性的节目，通过将全部节目主要部分的、时间分布均匀的群与集中在局部出现的群进行组合，也能够简单地授予章节。

即，如果是新闻节目，能够使用将时间分布均匀的群作为章节中的有效的群(包含有意义剪切的群)，将在时间分布上有偏重的群作为用于生成无效Brick的群之类的方法。

而且，被包含在排前位的n个(例如1个)的群里的剪切图像数占总剪切图像数的比例为规定值(例如15％)以上的情况下，作为用于直接生成的群，可以使用选择此群的方法。尤其在棒球等的体育节目中这是个有效的方法。当然在这种情况下，从节目信息120取得是棒球节目这一信息，可以无条件地选择排前位的n个，相反，也可以使用是棒球节目且在规定比例以上之类的多个条件。

而且，即使取排前位的n个(例如10个)的群的剪切数的总和，在不超过总剪切数的规定比例的情况，或各个排前位的群在时间分布上有偏重的情况等，也可以使用将排前位的群或时间上有偏重的各个群作为用于生成“有效Brick”来选择的方法。这尤其对综合节目或音乐节目有效。当然在这种情况下，同前面的棒球的例子一样也可以从节目信息120中获得辅助信息。

另外，在选择“直接生成”、“有效Brick生成”及“无效Brick生成”中任意一个时，也可以利用在群选择部106适合使用了匹配模板的模式的群(S708、S709)。

例如，必须对规定的场面授予索引的情况下，也可以在“直接生成”里使用适合模板的模式的群。收集主播音员的场面，在不包含于无效Brick里的情况下、想要授予索引的情况下，也可以利用主播音员用的模板收集该场面。

另外，在上述图9的说明中，作为授予索引的规则，只对“直接生成”、“有效Brick生成”及“无效Brick生成”进行了记述，但也可以对这些进行组合并构筑索引授予规则。例如，也可以各自生成无效Brick和有效Brick，对像与无效Brick不重复(不包含/不被包含/一部分不共有)的那样有效Brick授予索引。而且，也可以作为阶层的生成索引式的规则。例如，也可以作为更细的层的索引使用“直接生成”，作为更粗的(排前位的)层的索引使用“有效Brick生成”。这里，当然可以在作为阶层构造的情况下，使彼此的层的信息能够互相利用。

另外，不只是“直接生成”、“有效Brick生成”及“无效Brick生成”，也可以单纯地指定“利用”群、“不利用”群，通过将其进行组合来构成规则。“直接生成”、“有效Bri ck生成”及“无效Brick生成”是，指定“利用”群、“不利用”群并进行组合的特殊事例之一。

而且，也可以将节目信息120作为辅助信息，使“利用”群、“不利用”群的选择和组合规则生成。

另外，也可以将生成Brick时的阈值条件即规定的时间段(Twh)，与属于不构成Brick的群的剪切图像的张数(Nlim)替换，例如，如果将作为一个Brick能够继续的容许范围(其他的剪切可以连续地混入的张数)作为Nlim，则Nlim也可以作为满足以下(公式3)的最小的正整数来求。

(公式3)

{1.0 - \frac{(Σ_{i = 0}^{k} {Nc}_{i})}{(Σ_{i}^{all} {Nc}_{i})}}^{N_{\lim}} < T_{H}

在某一Brick内，属于Brick构成对象的k个群以外的剪切图像连续出现超出Nlim张的情况下，认为该Brick是被分割的。另外，TH为阈值，通过将η作为参数，以η和k的积除以Cr来求出TH。η是表示在节目中不重要的剪切在多大程度上被包含的参数。和前面的γ合起来η的值能够采用通过从多个节目实验性地求出值的平均值。

下面关于索引生成部108的工作进行详细说明(参照图5、图8)。

图8是表示索引生成部108的内部工作情况的流程图。

根据授予索引规则的输入(S801)、分群结果的输入(S802)、群选择结果的输入(S893)的数据输入后(S804)，按照授予索引规则的发出信号进行实际的索引的生成。在直接生成信号被发出的情况下，则直接利用被选择的群的剪切图像(S805：是)，在提取被选择的群内的全部剪切图像的时间标记后(S806/S545)，与提取的时间标记的各个时刻相配合生成索引(S812)并输出(S813)。

在直接生成信号没有被发出的情况下(S805：否)，基本上生成Brick。因此，在Brick生成的信号没有被发出的情况(S807：否)下，进行出错处理(S830)。

在Brick生成的信号被发出的情况下(S807：是)，使用被选择的群实际生成有效Brick或者无效Brick(S808)。生成方法的说明，与已经在群选择部106或授予索引规则选择部107的说明时叙述的一样。

其次，被生成的Brick是有效章节的情况下(S809：是/S548)，即在章节生成(索引的授予)里是有效的Brick的情况下，提取各个Brick的开头图像的时间标记(S810/S546)，配合时间标记的各个时刻来生成索引(S812)并输出(S813)。

并且，被生成的Brick是无效章节的情况下(S809：否/S547)，即在章节生成(索引的授予)里是无效的Brick的情况下，提取在各个Brick中不被包含的选择群的剪切图像的时间标记(S811/S547)，配合时间标记的各个时刻来生成索引(S812)并输出(S813)。

另外，虽然在S810中提取了各个Brick的开头图像的时间标记，但是也可以在各个Brick内的任意的时机(例如，平均时间、中央时间等)作为时间标记提取。

还有，在上述中，出示了索引生成的算法的一个例子，但是索引生成的算法并不只限于此，当然不用说只要是实际上执行的算法就可以任意的形式作为索引规则决定的规则。

以上是涉及本发明的在实施例1中的影像场面分类装置100的说明。

另外，在这里作为参考，将以往的实施例和本申请进行比较。

图1表示以往的实施例1(专利文献1)的实质上的概况处理步骤。将影像分段化，根据音响特征量和影像特征量对片段的相似度进行测量、分群。在此之上找出包含彼此相似的片段，并构成相似链。

发明要解决的课题如前所述，以精度和速度两方面为首，还把可行性本身当作课题(假设在申请时的技术水准适用于多个种类的情况下，按照精确度和检索率都大约为30％～50％来估算)，给播放节目授予通用的索引的观点，和本申请的目的一样，是作为现有例子来显示以往技术水准的文献。

本发明的最大的不同是，在构成上明显不同的前提下而且是可以实现的。而且，在能获得的精度或速度方面具有绝对的优势，并且，对剪切图像内的反射式字幕等也进行稳健性分类，能够按照人的认识来分类之类的，具有以往的实施例1中没有的特有的效果。

图2表示以往的实施例2(专利文献2)的实质上的概况处理步骤。确定影像种类，例如棒球的情况下，在水平方向上设定三个小区域，通过检测绿色及褐色的区域来尝试投球场面的检测。

在上述发明所要解决的课题中所叙述的，即没有对于种类的通用性，还会被球场或天气所影响。而且，像图12那样在水平方向上出现大的反射式字幕的情况下也无能为力(在前面出示的检索率为98％、精确度为95％的数值，不是针对包含反射式字幕的剪切图像群的)。经验上，有20～30％的概率，在棒球的剪切图像中包含多个附加信息或反射式字幕。像这样的情况，特别是检索率被估算大大降低到约为60～80％。

如此，在实现时缺乏影像状况的稳健性和种类的通用性成为课题，但是给播放节目授予索引的观点，和本申请的目的一样，是作为现有例子来显示以往技术水准的文献。

本发明在构成上明显不同的前提下，在获得的精度上本发明具有绝对的优势，而且，剪切图像内的反射式字幕等也进行稳健性的分类，能够按照人的认识来分类的，具有以往的实施例2中没有的特有的效果。

图3表示以往的实施例3(专利文献3)的实质上的概况处理步骤。对图像进行区域分割，对于各个区域的形状将其形状的不均匀性算出，进而，尤其根据颜色特征量算出吸引力度(誘目度)(主要是，将红色定义为最显眼的颜色，通过测量与红色的色距来算出吸引力度)。根据不均匀性和吸引力度来决定在被区域分割的区域里最被关注的区域。而且，另外，将图像分成小的像素块，按每小的像素块来求出吸引力度的平均值，并生成将多个(例如k个)小的像素块的吸引力度按顺序排列的k次元的特征矢量，且依据其特征矢量对图像进行分类。

这个以往的实施例3，不是用于章节生成等目的，而是用于在检索图像时，使对图像中有特征的部分进行特定化检索成为可能的例子。例如，用户使用“拍摄主题是花卉的图像”作为关键图像来检索的情况下，可以说，只对具备特征的部分(拍摄着花卉的部分)进行相似度的评价比捕捉整个图像来进行相似度的评价，更符合用户想要检索的实际情况。

本发明在分类图像的相似分类时，在进行考虑了人的认识特点的分类之类的大体构思上相似，但本发明不进行对所显示的主题的检测，相反进行比较普遍的具有特征的范围的算出。

例如将以往的实施例3应用在棒球播放的情况下，如果认为图12的剪切图像1202的击球手穿着红色运动服，则在剪切图像1202，只将击球手的形状作为关注区域来检测。因为一般地同一球队的选手都穿着同样颜色的运动服，所以显示同样的红色运动服的选手的剪切图像，容易被想像具有很高的相似度并被分类于同样的范畴内。而且，剪切图像1203的选手介绍附加信息里具有红色的背景的情况下，在剪切图像1203中只将选手介绍附加信息作为关注区域来检测。很容易想像剪切图像1203和剪切图像1202不被分类在同一范畴内。

而且，在攻防交换的情况下，由于运动服的颜色更换，即使是限于投球场面，分类到同一范畴也非常困难，并且能预测到投球场面以外的剪切图像混入的误分类也会屡次发生。

即，本发明在构成上明显不同，且在关于只看分类时获得的精度上，本发明具有绝对的优势。并且，能够对剪切图像内的反射式字幕等进行稳健性分类之类的，还具有以往的实施例3中没有的效果。

如此，在以往技术中，为了提高分类精度，在限定了输入图像的种类之后，采取对用于分类的特征量进行特定化处理之事，请再次注意。例如，在限定只为棒球播放之后，使用将棒球播放特定化了的特征量进行了分类。

相反，在不进行限定的以往的分类方法中，分类的结果，即做好的群具有，本来应该是同一群的剪切图像属于别的群，完全不同的剪切图像属于同一群等，基本分类性能中有问题。请再次注意为了在后续的处理中将此问题解决，就需要一个一个地处理，在精度及速度两方面都有问题。

以上是本申请和以往的实施例的比较。

另外，也能够证实依据客观的实验数据的优势。以下转记数据。

如果根据本发明的构成进行授予索引，例如棒球播放的情况，投球场面的精确度平均在99.6％以上。这是以包含广告的全篇棒球播放为对象的数值，并且，使用比较恶劣的条件的播放，是想到实际应用的实验中的数值(在实验中使用了三个棒球播放。其中一个是，比赛刚开始是明朗的晴天，但逐渐变暗而变成阴天，从中途下起雪来一时间成为影像变白的下雪的影像，而另一个是，由晴天变成后一半下大雨的影像。不用说，以往的没有稳健性的分群方法是失败的事例，像专利文献2那样的特定化于棒球的***也因为失去颜色信息而成为失败的事例。)。

而且，其他的种类的节目也获得了良好的结果，处理时间也对于约100分钟的棒球影像(剪切图像数1411张)，约为45秒钟。这个处理时间是，在读入剪切图像、决定处理范围、分群、授予索引上所花费的时间的总和。

如上所述，本发明在构成上与以往的实施例明显不同，能够达到以往的技术水准无论如何也不可能达到的精度和速度。而且，被证实还具有以往没有的效果。

另外，在上述中，以播放内容的分类或授予索引为中心进行了说明，但是，成为分类的对象的数据不只限于内容，也可以是任意的图像数据。

尤其在以静态图像为中心的个人内容(使用数码相机拍摄的图像群)非常有效。例如，通过本方式将去过多次的同一场所的照片按范畴分类，能够授予同样的标签(能够授予索引)。

在进行了间歇摄影或连续摄影图像群的情况下，其优点就变得更大。上述以往技术里的个人内容的分类中，因为几乎都是利用摄影时间的不均匀等，所以不能根据图像的视觉特征进行理解性高的分类。而且，因为连续取得的图像群是通过进行一定间隔摄影得到的，还因为作为以往技术的基础的时间的不均匀也不能利用，所以用以往方法的分类基本上失败。

但是，如果是本方法，不管是以离散的时间间隔拍摄的静态图像群(个人的每次旅行的照片等)，还是以连续的时间间隔拍摄的图像群(监控摄像头影像或，个人的录像影像，个人记录照片等)，都能够根据视觉上的特征授予索引。因此，本方法的优点就变得更大。

例如，考虑假设使用能够进行间歇摄影的照相机，将静态图像(例如以每秒1张的间隔被拍摄的图像)按照跨越从几小时到几天大量地积存的状况。具体来说，例如既可以是监控摄像头的图像，也可以是个人在旅行中身上装着照相机所拍摄的旅行记的图像。可以考虑到会产生想要自动地整理如此大量图像，或者想要授予索引之类的自然的动机。

如果考虑个人旅行的情况，由于旅行地的风景的变化(在山区、海边、街道等)或气候的变化，室内外的变化等被拍摄的图像一点一点地发生变化。这些图像在短时间内(几秒钟到几分钟)几乎不发生大的变化，一般来说多会被人认识为是同样的场面。但是以计算机想像的观点，对于人的眼睛来说即使是同样的场面将其分类在同样的范畴中一般上也是困难的。这与前面所说明的在播放内容里有无反射式字幕或细微的差异，用以往技术分类的阻碍要因相同。从大量的自然图像(个人内容)中将局部气氛类似的图像，在图像信息里作为“类似”分类到同样的范畴的事情是非常困难的。

因此，采用本方式的分类方法。使用本方式根据人的视觉特征量(看起来的气氛)使分类变为可能。因为能够减轻受视觉上的不重要的地方(不被关注的区域)的图像信息的影响，所以能够将更接近于人的直觉的、认为“类似”的图像群作为群体(群)授予索引。

当然，也可以对属于各自的群的图像授予标签。

如此，成为分类的对象的数据不只限于播放内容，也可以是任意的图像数据。

另外，在这里作为个人内容的例子，举出了个人旅行的间歇摄影图像的例子，但实施例并不是限定的，不用说也可以将任意的静态图像或动态图像作为对象。

如上所述，根据本发明，通过不确定对象事物(不是自顶向下型)、接近人的认识且稳定的影像的新的分类方法，能够构筑通用且高速、对于用户来说生成明了的索引(章节)的编辑***，并能够构筑舒适的影像再生检索***。

本发明当然能适用于，以视频信号记录器(HDD(Hard Disk Drive：硬盘驱动器)记录器或DVD记录器等)为首，TV、移动电话、汽车导航***、DVD播放器等录像或者再生机器等，也能够作为用服务器编辑，再将此数据与影像接合并分发到客户装置的服务器客户***等利用。

权利要求书(按照条约第19条的修改)

1.一种影像场面分类装置，对在构成影像的多个图像之中的一个以上的图像授予索引，其特征在于，包括：

影像采样单元，通过采样从所述影像取得多个图像；

处理范围决定单元，按每个被取得的所述图像决定图像处理的执行范围；

图像分类单元，对于所述多个图像，在由所述处理范围决定单元决定的范围内执行图像处理，并根据表示图像上的特征的分类指标分类成多个群；

群选择单元，从被分类的所述多个群当中至少选择一个群；

授予索引规则选择单元，根据涉及被分类的所述群的所述分类指标、或者根据所述影像的节目内容信息，选择授予索引规则；以及

索引生成单元，在构成所述被选择的群的图像之中，至少对一个图像，使用被选择的所述授予索引规则授予索引，

所述授予索引规则选择单元，根据所述节目内容信息，选择下述任意一个：

(1)对包含在被选择的群中的至少一个以上的图像授予索引；

(2)将包含在被选择的群中的至少一个以上的图像以时间轴排序，并对每个规定时间以内的图像的群体授予索引；以及

(3)对规定的群中包含的影像块之中的、且没有被包含在由其他的规定群组成的连续的群体中的影像块授予索引。

2.如权利要求1所述的影像场面分类装置，其特征在于，所述授予索引规则选择单元，还根据所述节目内容信息，选择下述任意一个：

(1)对包含在被选择的群中的全部图像授予索引；

(2)将包含在被选择的群中的全体图像以时间轴排序，并对每个规定时间以内的图像的群体授予索引；以及

3.如权利要求1所述的影像场面分类装置，其特征在于，所述群选择单元，至少包括以下一个决定部：

群数决定部，决定所选择的群的数量；以及

群种类决定部，决定所选择的群的种类，

所述群数决定部，根据下述任意一个方法决定所述群的数量：

(1)根据所述节目内容信息或者图像信息确定影像的种类，将对应被确定的种类的规定的数量作为所述选择的群的数量来决定；以及

(2)根据所述节目内容信息或者图像信息确定影像的种类，将依据被确定的种类和在所述图像分类单元的分类结果而被求出的规定的数量，作为所述选择的群的数量来决定，

所述群种类决定部，根据下述任意一个方法决定所述群的种类：

(1)从群的影像块数最大的群中选择规定个数；

(2)从群的影像块的出现时间平均值接近规定时刻的群中选择规定个数；

(3)从群的影像块的出现时间分布接近规定时间带的群中选择规定个数；以及

(4)从群的影像块的出现时间分布不包含在规定时间带中的群中选择规定个数。

4.如权利要求1所述的影像场面分类装置，其特征在于，

所述处理范围决定单元使用涉及所述影像的所述图像的亮度信息或者颜色信息以决定执行所述图像处理的范围，或者使用所述节目内容信息，根据下述任意一个方法决定执行所述图像处理的范围：

(1)在决定执行所述图像处理的范围之时，进行关于位置的加权；以及

(2)对附加信息或者反射式字幕出现的位置进行推断，并进行关于位置的加权。

5.如权利要求4所述的影像场面分类装置，其特征在于，所述处理范围决定单元，

在所述节目内容信息意味着关于棒球节目的信息时，将所述加权设定在图像中心部，或者使用比分显示及选手介绍的显示位置进行对所述附加信息的位置推断。

6.如权利要求1所述的影像场面分类装置，其特征在于，所述图像分类单元，

(1)使用执行所述图像处理的范围的大小或者其位置的任意一个；或者

(2)使用执行所述图像处理的范围的内部的图像信息、执行所述图像处理的范围的规定的周围部分的图像信息、或者执行所述图像处理的范围的外部的图像信息的任意一个，

进行所述群的分类，在该分类中使用所述图像的颜色信息或者亮度信息的直方图。

7.如权利要求6所述的影像场面分类装置，其特征在于，所述图像分类单元，

依据执行所述图像处理的范围的位置的、在各个所述图像之间的差分的量进行第一图像分类，

根据在所述第一图像分类的分类结果，使用影像块数最多的规定数的群中所包含的影像块，依据执行所述图像处理的范围的周围部分的颜色信息或者亮度信息的直方图进行第二图像分类。

8.一种影像场面分类方法，对构成影像的多个图像之中的一个以上的图像授予索引，其特征在于，包括：

影像采样步骤，通过进行采样从所述影像取得多个图像；

处理范围决定步骤，按每个被取得的所述图像决定执行图像处理的范围；

图像分类步骤，对于所述多个图像，在所述处理范围决定步骤决定的范围内执行图像处理，并根据表示图像上的特征的分类指标将所述多个图像分类成多个群；

群选择步骤，从被分类的所述多个群当中至少选择一个群；

授予索引规则选择步骤，根据涉及被分类的所述群的所述分类指标、或者所述影像的节目内容信息，选择授予索引规则；以及

索引生成步骤，在构成所述被选择的群的图像之中，至少对一个图像，使用被选择的所述授予索引规则授予索引，

所述授予索引规则选择步骤，根据所述节目内容信息，选择下述任意一个：

(1)对包含在被选择的群中的至少一个以上的图像授予索引；

9.一种程序，用于影像场面分类装置，该影像场面分类装置对在构成影像的多个图像之中的一个以上的图像授予索引，所述程序是使计算机执行的程序，其特征在于，

所述程序包括：

影像采样步骤，通过进行采样从所述影像取得多个图像；

图像分类步骤，对于所述多个图像，在所述处理范围决定步骤决定的范围内执行图像处理，并根据表示图像上的特征的分类指标分类成多个群；

群选择步骤，从被分类的所述多个群当中至少选择一个群；

(1)对包含在被选择的群中的至少一个以上的图像授予索引；

10.一种记录介质，记录程序，该程序用于对在构成影像的多个图像之中的一个以上的图像授予索引，并且所述记录介质是计算机能够读取的，

所述程序包括：

影像采样步骤，通过进行采样从所述影像取得多个图像；

群选择步骤，从被分类的所述多个群当中至少选择一个群；

(1)对包含在被选择的群中的至少一个以上的图像授予索引；

11.一种集成电路，对在构成影像的多个图像之中的一个以上的图像授予索引，其特征在于，所述集成电路包括：

影像采样单元，通过采样从所述影像取得多个图像；

群选择单元，从被分类的所述多个群当中至少选择一个群；

授予索引规则选择单元，根据涉及被分类的所述群的所述分类指标、或者所述影像的节目内容信息，选择授予索引规则；以及

(1)对包含在被选择的群中的至少一个以上的图像授予索引；

12.一种服务器客户***，具有服务器装置和客户装置，其特征在于，

所述服务器装置包括：

影像采样单元，通过采样从所述影像取得多个图像；

群选择单元，从被分类的所述多个群当中至少选择一个群；

(1)对包含在被选择的群中的至少一个以上的图像授予索引；

(3)对规定的群中包含的影像块之中的、且没有被包含在由其他的规定群组成的连续的群体中的影像块授予索引，

所述客户装置包括：

接收单元，从所述服务器装置接收图像数据；以及

再生单元，根据涉及接收了的所述图像数据的索引，进行在涉及接收了的所述图像数据的图像的再生时伴随找到开头或者跳跃的再生。

Claims

1. 一种影像场面分类装置，对在构成影像的多个图像之中的一个以上的图像授予索引，其特征在于，包括：

图像分类单元，对于所述多个图像，根据表示图像上的特征的分类指标分类成多个群；

群选择单元，从被分类的所述多个群当中至少选择一个群；以及

索引生成单元，在构成所述被选择的群的图像之中，至少对一个图像授予索引。

2. 如权利要求1所述的影像场面分类装置，其特征在于，

该影像场面分类装置还包括：

影像采样单元，通过进行采样从所述影像取得多个图像；以及

处理范围决定单元，按每个被取得的所述图像决定执行图像处理的处理范围，并通过对该处理范围执行图像处理来确定分类指标，

所述图像分类单元，根据被决定的所述处理范围中的所述分类指标进行所述分类。

3. 如权利要求1所述的影像场面分类装置，其特征在于，

该影像场面分类装置还包括：

授予索引规则选择单元，根据被分类的所述群的分类指标或者所述影像的节目内容信息，选择授予索引规则，

所述索引生成单元，对被选择的所述群，使用被选择的所述授予索引规则对所述图像授予索引。

4. 如权利要求3所述的影像场面分类装置，其特征在于，

所述授予索引规则选择单元，根据所述节目内容信息，从下述任意一个规则中选择授予索引规则：

(1)对包含在被选择的群中的全部图像授予索引；

(2)将包含在被选择的群中的全体图像以时间轴排序，并按每个规定时间以内的图像的群体授予索引；以及

(3)对规定的群中包含的影像块之中的根据其他的规定群的没有被包含在连续的群体中的影像块授予索引。

5. 如权利要求1所述的影像场面分类装置，其特征在于，所述群选择单元，至少包括以下一个决定部：

群数决定部，决定所选择的群的数量；以及

群种类决定部，决定所选择的群的种类，

(1)根据所述意思内容信息或者图像信息确定影像的种类，将对应被确定的种类的规定的数量作为选择的群的数量来决定；以及

(2)根据所述意思内容信息或者图像信息确定影像的种类，将依据被确定的种类和分类结果信息而被求出的规定的数量，作为选择的群的数量来决定，

(1)从群的影像块数最大的群中选择规定个数；

6. 如权利要求1所述的影像场面分类装置，其特征在于，所述处理范围决定单元，

使用被输入的影像的亮度信息或者颜色信息来决定所述对象范围，或者使用所述意思内容信息，根据下述任意一个方法决定所述对象范围：

(1)在所述对象范围的决定之时，进行关于位置的加权；以及

7. 如权利要求6所述的影像场面分类装置，其特征在于，所述处理范围决定单元，

在所述节目内容信息意味着是关于棒球节目的信息时，将所述加权设定在图像中心部，或者使用比分显示及选手介绍的显示位置进行对所述附加信息的位置推断。

8. 如权利要求1所述的影像场面分类装置，其特征在于，所述图像分类单元，

(1)使用所述对象范围的大小或者其位置的任意一个；或者

(2)使用所述对象范围的内部的图像信息、所述对象范围的规定的周围部分的图像信息、或者所述对象范围的外部的图像信息的任意一个，进行所述群的分类，在该分类中使用图像的颜色信息或者亮度信息的直方图。

9. 如权利要求8所述的影像场面分类装置，其特征在于，

所述图像分类单元，

依据所述处理对象范围的位置的在各个输入图像之间的差分的量进行第一图像分类，

所述图像分类单元利用影像块数最多的规定数的群中的影像块，根据所述第一图像分类的群的结果，并利用所述处理对象范围的周围部分的亮度分布或者颜色分布的直方图进行第二图像分类。

10. 一种影像场面分类方法，对在构成影像的多个图像之中的一个以上的图像授予索引，其特征在于，包括：

图像分类步骤，对于所述多个图像，根据表示图像上的特征的分类指标分类成多个群；

群选择步骤，从被分类的所述多个群当中至少选择一个群；以及

索引生成步骤，在构成所述被选择的群的图像之中，至少对一个图像授予索引。

11. 一种程序，用于影像场面分类装置，该装置对在构成影像的多个图像之中的一个以上的图像授予索引，所述程序是被计算机执行的程序，其特征在于，

所述程序包括：

12. 一种记录介质，记录程序，该程序用于对在构成影像的多个图像之中的一个以上的图像授予索引，并且所述记录介质是计算机能够读取的，

所述程序包括：

13. 一种集成电路，对在构成影像的多个图像之中的一个以上的图像授予索引，其特征在于，所述集成电路包括：

14. 一种服务器客户***，具有服务器装置和客户装置，其特征在于，

所述服务器装置包括：

群选择单元，从被分类的所述多个群当中至少选择一个群；

索引生成单元，在构成所述被选择的群的图像之中，至少对一个图像授予索引；以及

发送单元，将表示所述被授予索引的图像的图像数据发送至客户装置，

所述客户装置包括：

接收单元，从所述服务器装置接收图像数据；以及

再生单元，根据涉及接收了的所述图像数据的索引，进行在涉及接收了的所述数据的图像的再生时伴随找到开头或者跳跃的再生。