CN101753853A

CN101753853A - 一种视频场景分割的融合方法

Info

Publication number: CN101753853A
Application number: CN200910084031A
Authority: CN
Inventors: 吴偶; 胡卫明
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Renmin Zhongke Beijing Intelligent Technology Co ltd
Priority date: 2009-05-13
Filing date: 2009-05-13
Publication date: 2010-06-23
Anticipated expiration: 2029-05-13
Also published as: CN101753853B

Abstract

本发明公开一种视频场景分割的融合方法，包括：利用现有的视频场景分割方法对给定的视频进行分割得到多个候选场景分割结果来作为分割融合的输入分割集合，利用输入分割集合构建一个新分割，对这个新的分割的每一个分割点进行预处理，如果该分割点出现在超过一半的候选分割里面，则标记该点为真分割点，视频的初始点与结束点自动成为真分割点。提取完真分割点后，可以把新分割分为多个子分割段。利用优化算法对每个子分割段进行分割点优化，使得最终得到的新分割子段能够尽可能小的不一致性指数。每个分割子段的优化算法运行完毕后，合并每个子段的结果来得到最终的融合结果。本发明可以更为鲁棒的对视频所包含的场景进行分割。

Description

一种视频场景分割的融合方法

技术领域

本发明涉及计算机应用技术领域，特别涉及一种视频场景分割的融合方法。

背景技术

随着多媒体压缩、通讯、存储技术的飞速发展，以及互联网软硬件技术的不断提高和普及，使得数字视频的应用得到了极大的发展。面对日益增多的海量视频数据，如何实现对其有效的管理与检索，已成为亟待解决的问题。当前解决这个问题最主要的技术就是视频摘要和视频检索，而这两大技术的一个关键性的基础步骤就是视频结构分割。如果把一个完整视频分解为一系列有意义可管理的片段对高层的视频摘要和视频检索相当重要。由于一个视频场景一般都认为是一个有意义的视频段，因此视频场景分割是当前研究的热点问题，对于视频摘要与视频检索极其重要。

目前已有大量的视频场景分割算法被提出，每个算法均在一定程度上对场景分割问题做了解决，但是能够超越其它所有算法，能够适合所有类型视频的分割算法迄今还没出现。所以有必要从融合角度来研究如何利用现有算法的分割结果来对视频进行更好的场景分割。

发明内容

(一)要解决的技术问题

有鉴于此，本发明的主要目的是提供一种鲁棒的视频场景分割融合算法，使得能够在现有分割算法基础上更为鲁棒有效的对视频进行分割。

(二)技术方案

为达到上述目的，本发明提供了一种新的视频场景分割融合方法，该方法包括：

步骤1：利用视频场景分割算法对待分割的视频进行场景分割，得到多个候选分割结果作为融合算法的输入分割集合；

步骤2：对得到的多个候选分割结果进行合并，构建一个新分割；使得得到的新分割包含所有分割结果的分割点；对新分割的分割点进行一一判断，如果该分割点存在于超过一半的分割结果上，则该分割点标记为真分割点；

步骤3：对新分割自左向右进行遍历，截取任意两个相邻的真分割点中间的分割段，加上这个两个相邻的真分割点，构成一个分割子段；将所有的分割子段构成了一个分割子段集合；根据每个分割子段的初始点与结束点，截取分割集合里面每个输入分割相应的子段，构成每个分割子段对应的输入分割子段集合；

步骤4：对每个分割子段运用优化方法来去掉部分分割点，使得优化后的新子段与原分割子段对应的输入分割子段集合的不一致性指数尽可能小；

步骤5：合并每个分割子段优化后的新子段，得到一个优化分割，该优化分割为视频场景分割的融合结果。

优选地，所述多个候选分割结果的获取，是利用视频场景分割算法得到多个场景分割结果，再利用多个不同的视频场景分割算法来分别对同一待分割视频进行分割，或者利用同一个视频场景分割算法通过调整该算法的参数来进行分割，以得到多个分割结果。

优选地，所述的输入分割子段集合的获取，是根据每个已得到的分割子段的初始点和结束点，抽取输入分割集合里面每个输入分割位于这两点之间的分割段，同时加上这两点，构成一个截取子段；对于每个分割子段，所有的输入分割相应的截取子段构成了该分割子段的输入分割子段集合。

优选地，所述的分割子段优化方法可以为遗传算法、整数规划算法、贪婪算法以及动态规划法中的任意一种。

优选地，所述不一致性指数是表述一个候选新子段与一个输入分割子段集合的不一致性，一个候选新子段s与一个输入分割子段集合Ω的不一致性指数定义为：

Φ (s, Ω) = Σ_{i = 1}^{| Ω |} ψ (s, Ω_{i}),

其中Ω_i代表Ω中的第i个输入分割子段；ψ(s，Ω_i)定义为：

ψ (s, Ω_{i}) = \underset{U_{i} \times U_{j}}{Σ} d_{s, Ω_{i}} (U_{i}, U_{j}),

其中U_i和U_j分别代表新分割U的第i个单元和第j个单元；新分割U的第i个单元是指新分割U的第i个分割点(初始点规定为第0个分割点)到第i+1个分割点之间的段；

定义为：

其中|U_i|表示该单元所包含的视频帧数。ψ(s，Ω_i)衡量了s与Ω_i之间不一致性；

衡量了s与Ω_i在U_i和U_j这两个单元上的不一致性。

优选地，所述的每个分割子段优化后的新子段，是按照分割子段从新分割中截取的先后顺序，依次连接优化得到的新子段，得到最终的优化分割。

(三)有益效果

从上述技术方案可以看出，本发明具有以下优点：

1、本发明提供的这种视频场景分割融合方法，由于其输入结果仅仅是现有分割方法的输出结果，没有对所用何种分割方法做出任何限制，实现了与分割方法的算法独立性，因此本融合方法可以对现有一般性的分割方法都能够进行融合。

2、由于现有的分割方法，一般都是面向特定视频，或者说在具有某种特性的视频上比较有效，还没有一种方法能够在大范围视频上取得比其它方法都好的结果；同时有些方法在不同参数下也有不同表现。本算法通过把不同方法(或者同一方法不同参数)的分割结果融合起来，以得到更为鲁棒的分割结果。

附图说明

图1为本发明的视频分割融合流程图；

图2a-图2l为本发明提供的视频分割融合示例；

图3为本发明提供的子段分割优化示例；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明的执行环境采用一台具有3.0G赫兹中央处理器和2G字节内存的奔腾4计算机(还可以采用其他的执行环境，在此不再赘述)实现了本发明的视频分割融合方法，下面结合图1本发明的视频分割融合流程图、图2a至图2l本发明提供的视频分割融合示例，详细给出本发明技术方案中所涉及的各个步骤细节问题的说明。原始视频如图2a所示，共包含21个视频帧，对应着22个分割点(0-21)

步骤101：利用视频场景分割算法对待分割的视频进行场景分割，得到多个候选分割结果作为融合算法的输入分割集合。多个候选分割结果的获取，是利用视频场景分割算法得到多个场景分割结果，再利用多个不同的视频场景分割算法来分别对同一待分割视频进行分割，或者利用同一个视频场景分割算法通过调整该算法的参数来进行分割，以得到多个分割结果。具体多少个需要事先定义，一般大于或等于3。假定现在已经得到了三个分割结果，分别见图2b、图2c以及图2d，粗线标记为分割点。这三个候选分割即组成了输入分割集合。以图2d为例，原始的21个视频帧被分为四个场景，第一个场景包括第1、2、3、4、5、6、7帧；第二个场景包括第8、9、10、11帧；第三个场景包括第12、13、14、15、16、17帧；第四个场景包括第18、19、20、21帧。

步骤102：对得到的多个候选分割结果进行合并，构建一个新分割(以下简称U)；使得得到的新分割包含所有分割结果的分割点；见图2e，其中粗线即包括了3种分割的所有分割点。对U的分割点进行一一判断，如果该分割点存在于超过一半的输入分割上，则该分割点标记为真。初始分割点与结束分割点自动标记为真。图2f中标为粗线的为真分割点。

步骤103：从初始点开始对U自左向右遍历，截取任意两个相邻的真分割点中间的分割段，加上这两个相邻真分割点，构成一个分割子段。所有的分割子段构成了一个分割子段集合，图2g即为得到的分割子段集合。然后需要获取每个分割子段对应的输入分割子段集合。首先根据每个分割子段的初始点与结束点，截取输入分割集合里面每个输入分割相应的子段，构成了每个分割子段对应的输入分割子段集合。对于图2g中的第一个分割子段，其初始点和结束点分别为0和9，因此我们分别截取图2b、2c和2d这三个输入分割中0分割点和9分割点之间的子段，连同这两个分割点就构成了三个输入分割子段，这三个输入分割子段就构成了第一个分割子段的输入分割子段集合。图2h-1为第一个分割子段及其输入分割子段集合。同理可得到第二个分割子段和第三个分割子段的输入分割子段集合，图2h-2为第二个分割子段及其输入分割子段集合，图2h-3为第三个分割子段及其输入分割子段集合。

步骤104：分别对每一个分割子段利用优化方法求取新子段，使得新子段与该分割子段对应的输入分割子段集合的不一致性指数尽可能小。不一致性指数用来表述一个候选的新子段与一个的输入分割子段集合的不一致性，一个候选的新子段s与一个输入分割子段集合Ω的不一致性指数定义为：

Φ (s, Ω) = Σ_{i = 1}^{| Ω |} ψ (s, Ω_{i}),

其中Ω_i代表Ω中的第i个输入分割子段；ψ(s，Ω_i)定义为：

ψ (s, Ω_{i}) = \underset{U_{i} \times U_{j}}{Σ} d_{s, Ω_{i}} (U_{i}, U_{j}),

定义为：

衡量了s与Ω_i在U_i和U_j这两个单元上的不一致性。图2i、图2j、图2k为对图2h-1、图2h-2、图2h-3中的数据优化得到的结果；优化方法为遗传算法、整数规划算法、贪婪算法以及动态规划算法中的一种。

步骤105：按照分割子段从U中截取的先后顺序，依次连接每个优化后的新子段，得到一个最终的优化分割。图2l即为最终得到的优化分割，其就是由图2i、图2j和图2k中的三个新子段依先后顺序连接而成。

下面以结合附图，详细说明上述步骤104中的优化步骤(以贪婪算法为例，通过迭代方式来获取最优分割)，图3a为分割子段以及输入分割子段集合。假定初始的候选新子段仅仅只有分割子段的起始分割点和尾分割点，如图3b所示，其与图3a右侧的三个输入分割子段的不一致性指数为52。

步骤1：分别挑选出图3a未添加的粗线分割点，计算若其加入到当前的候选新子段上，得到的新的侯选新子段与图3a右侧的输入分割子段集合的不一致性指数。如图3c、图3d、图3e为分别加入三个未添加分割点后得到的三个新的侯选新子段。计算得到其对应的不一致性指数分别为22、16、22；

步骤2：若步骤1中每个分割点加入后，计算的距离未减少，则退出；若有多个备选的减少，则选择能够使不一致性指数最小的那个新的候选新子段，替换当前的候选新子段，重复步骤1。在给定示例中，由于此时三个新的侯选新子段与输入分割子段集合的不一致性指数均小于52，而图3d中的新的候选新子段与输入分割子段集合的不一致性指数为16最小，因此该新的候选新子段成为当前的候选新子段。

最后计算可发现如果再在图3d所示的候选新子段上添加新的分割点，不一致性指数只会增加，因此这个候选的新子段为最终的新子段，也即图2i的结果。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种视频场景分割的融合方法，其特征在于，该方法包括：

2.根据权利要求1所述视频场景分割的融合方法，其特征在于，所述多个候选分割结果的获取，是利用视频场景分割算法得到多个场景分割结果，再利用多个不同的视频场景分割算法来分别对同一待分割视频进行分割，或者利用同一个视频场景分割算法通过调整该算法的参数来进行分割，以得到多个分割结果。

3.根据权利要求1所述视频场景分割的融合方法，其特征在于，所述的输入分割子段集合的获取，是根据每个已得到的分割子段的初始点和结束点，抽取输入分割集合里面每个输入分割位于这两点之间的分割段，同时加上这两点，构成一个截取子段；对于每个分割子段，所有的输入分割相应的截取子段构成了该分割子段的输入分割子段集合。

4.根据权利要求1所述视频场景分割的融合方法，其特征在于，所述的分割子段优化方法可以为遗传算法、整数规划算法、贪婪算法以及动态规划法中的任意一种。

5.根据权利要求1所述视频场景分割的融合方法，其特征在于，所述不一致性指数是表述一个候选新子段与一个输入分割子段集合的不一致性，一个候选新子段s与一个输入分割子段集合Ω的不一致性指数定义为：

Φ (s, Ω) = Σ_{i = 1}^{| Ω |} ψ (s, Ω_{i}),

其中Ω_i代表Ω中的第i个输入分割子段；ψ(s，Ω_i)定义为：

ψ (s, Ω_{i}) = \underset{U_{i} &Proportional; U_{j}}{Σ} d_{s, Ω_{i}} (U_{i}, U_{j}),

其中U_i和U_j分别代表新分割U的第i个单元和第j个单元；新分割U的第i个单元是指新分割U的第i个分割点，初始点规定为第0个分割点，到第i+1个分割点之间的段；

定义为：

其中|U_i|表示该单元所包含的视频帧数；ψ(s，Ω_i)衡量了s与Ω_i之间不一致性；

衡量了s与Ω_i在U_i和U_j这两个单元上的不一致性。

6.根据权利要求1所述视频场景分割的融合方法，其特征在于，所述的每个分割子段优化后的新子段，是按照分割子段从新分割中截取的先后顺序，依次连接优化得到的新子段，得到最终的优化分割。