CN103067781A

CN103067781A - 一种多尺度视频表示与浏览方法

Info

Publication number: CN103067781A
Application number: CN2012105574605A
Authority: CN
Inventors: 王宏安; 马翠霞; 钟康
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2012-12-20
Filing date: 2012-12-20
Publication date: 2013-04-24
Anticipated expiration: 2032-12-20
Also published as: CN103067781B

Abstract

本发明涉及一种多尺度视频表示和浏览方法，其步骤包括：1）在输入端对待处理视频进行预处理，用户可对所述待处理视频进行手势输入和/或注释，2）预处理完成后的视频按照顺序或打破时序限制加载下述表示形式，进行多尺度表示，3）输出端根据用户的手势输入选择上述一种或多种方法对该视频进行浏览，输出浏览结果。本发明提供了多种不同的方式对用户进行表达与浏览，有效克服了单一表达方式的局限，能够按照用户需求较好的表达从较粗尺度到较精细尺度的内容，帮助用户理解与定位视频内容。同时提供了与内容相关的聚类和分层方法，从而给用户提供不同层次内容的表达，更好的满足用户的不同浏览需要。

Description

一种多尺度视频表示与浏览方法

技术领域

本发明涉及多尺度视频处理方法，具体涉及一种多尺度的视频表示与浏览方法及其实现方法，属于计算机应用技术领域。

背景技术

在当今的信息化社会中，视频作为一种最常见的信息载体，在人们的日常生活与交流中扮演了十分重要的角色。随着软硬件技术的发展，视频的数量也呈现***性增长。面对如此大量的视频资源，人们对快速理解视频内容、快速浏览及定位视频特定情节等的需求也越来越迫切，而这就需要一种高效的视频表示和交互方法。目前视频的表示、浏览以及人与视频间的交互方式已严重制约着视频应用的进一步发展，一般来说，在浏览和理解视频的过程中，首先用户通常希望在粗尺度上对视频进行总览，然后根据自己的喜好或目的对特定的内容进行更精细尺度上的浏览。因此，提取和表达不同尺度、不同层次上的信息对于视频内容的表示与高效浏览具有非常重要的意义。

最常见的视频浏览与导航工具是时间轴，它通过控制滑块来达到浏览和定位的效果，这种设计虽然简单便捷，但其不能直观地呈现视频内容，导致视频内容和时间轴在表达上相对分离，使得难以对视频内容进行高效定位。

目前一种改进的方式是对时间轴添加文本注释，对视频内容虽然起到的一定的索引和提示作用，但直观性和操作效率上提高有限。视频摘要是一种很重要的对视频内容的表示和概括方式，大部分视频摘要技术通过提取关键帧并按照一定的规则将其进行排列，与时间轴相比提高了视频内容的表示效率，但大多缺乏可交互性。同时，现有的对视频的交互方式多采用基于WIMP的界面范式（Windows、Icon、Menu、Pointing device），要完成一个命令，用户需要在不同的交互资源（如鼠标定位、菜单命令、键盘输入等）之间进行频繁转换，这种方式在一定程度上降低了交互效率，并且对输入参数要求精确，阻碍了用户操作的流畅表达。

如何能够帮助用户用较少的时间对视频所展现的信息进行有效地认知、分析视频内容进而支持视频媒体的高效交互，是当前视频领域研究的热点和难点问题。目前视频的表示与浏览存在的问题主要包括：

①对视频的表示多是从计算机处理的角度出发，没有从有利于用户认知的角度出发。人们在认知复杂事物时，最大的困难在于对事物组成各部分之间关系的认知，而目前视频的信息传递多是基于对信息本身的计算机呈现，在强调真实感的同时却忽视了视频间或视频内容间多尺度关系的有效表达；

②对视频的交互方式单一，多是关注于视频的低层特征和精确信息。

所以，如何充分利用交互反馈来辅助用户意图的表达和感知以及如何通过有效的交互方式针对视频进行编辑进而形成直观的、利于用户认知的表示形式也是一类需要解决的重要问题。可改善单纯被动式的视频信息接受方式，增强用户的参与性。

发明内容

本发明的目的在于提供一种面向视频内容的多尺度表示和浏览方法，从而解决现有方法难以有效表达视频的总体内容和各部分之间的关系、难以对视频进行准确而高效地浏览等问题。本发明利用增强时间轴、草图注释、草图摘要以及紧凑的关键帧摘要等四种方式来提供不同尺度下视频的内容表达和浏览，采用的技术方案包括如下步骤：

一种多尺度视频表示和浏览方法，其步骤包括：

1）在输入端对待处理视频进行预处理，用户可对所述待处理视频进行手势输入和/或注释，所述预处理包括：

1-1）对待处理视频进行镜头分割并提取视频关键帧；

1-2）根据所述视频关键帧进行感兴趣区域ROI提取，得到关键帧ROI图像；

1-3）将所述关键帧ROI图像进行聚类和分层处理，得到ROI聚类结果及分层结构；

1-4）对所述步骤1）中视频关键帧进行草图风格化处理，生成关键帧草图，完成预处理；

2）预处理完成后的视频按照顺序或打乱时序加载下述表示形式，进行多尺度表示，

表示1：根据所述ROI聚类及分层信息加载得到增强时间轴；

表示2：根据用户在添加的视频草图注释和所述步骤1-3）中分层结果加载得到多层次草图注释；

表示3：根据所述步骤1-4）中关键帧草图和所述步骤1-3）中聚类和分层结果加载得到草图摘要；

表示4：根据所述步骤1-1）中待处理视频关键帧和所述步骤1-3）中聚类结构加载得到关键帧摘要；

3）输出端根据用户的手势输入选择上述一种或多种方法对该视频进行浏览，输出浏览结果。

所述步骤1-1）关键帧提取的方法为：根据镜头边界检测方法和关键帧颜色直方图将待处理视频分割为多个镜头。

所述步骤1-2）得到关键帧的ROI图像方法如下：

3-1）根据全局对比度将图像分割成若干块，

3-2）利用颜色直方图计算每块图像的颜色概率分布，并根据该分布计算每两块在图像颜色空间中的距离，

3-3）将所述每一块与其它所有块距离之和作为该块的显著值，得到图像显著图，

3-4）以所述显著图的重心为中心对原关键帧进行裁剪，对所述图像显著图进行二值化处理，得到关键帧的ROI图像。

所述步骤1-3）中得到ROI聚类结果

c_{j} = \{\begin{matrix} \underset{i}{\arg} \min_{i &Element; B} {d (r_{j} (T), i)} & \min_{i &Element; B} {d (r_{j} (T), i)} \leq 3 \\ 0 & \min_{i &Element; B} {d (r_{j} (T), i) > 3 \end{matrix}

及分层结构

g_{j} = \{\begin{matrix} d (r_{j} (T), c_{j}) & c_{j} &NotEqual; 0 \\ 4 & c_{j} = 0 \end{matrix},

其中，参数含义如下：

表示在10*10的网络，共有100个神经元，网络中任意两个神经元的距离；

是每个时刻t按照随机顺序将ROI的特征向量放入神经网络计算其响应的神经元，其中A是所有神经元的集合，i为神经元，j为ROI编号；

w_{i} (t + 1) = \{\begin{matrix} w_{i} (t) + a (t) (x - w_{i} (t)) & d (i, r_{j} (t)) < D (t) \\ w_{i} (t) & d (i, r_{j} (t)) &GreaterEqual; D (t) \end{matrix}

为更新神经元的权值；

B是最终聚类的集合；b(t')是最终的聚类中心；

是神经元响应强度，代表映射到该神经元的ROI数目，T为终止时刻。

所述步骤1-4）生成关键帧草图的方法如下：

5-1）检测所述视频关键帧的所有轮廓面积，若面积小于设定的阈值且轮廓区域的长宽比在规定的范围之内，则去掉该区域中所有像素点；

5-2）去除所述像素点后，对草图进行处理得到线条宽度合适的关键帧草图。

5-3）调整所述关键帧草图中靠近边界的像素alpha值，对生成的草图进行去硬边界处理。

优选地，加载得到增强时间轴的方法为：根据所述ROI聚类及分层得到每一个最终聚类用一种颜色表示，每一个镜头在所述增强时间轴中用一段线段表示，该线段的长短与镜头的长短成正比，根据用户的操作显示level≤n层，隐藏其他层次，其中n=1,2,3,4,5。

优选地，加载得到多层次草图注释的方法为：根据用户在视频上的草图注释，对用户进行注释的镜头进行关联，同时将用户添加的草图注释进行规则排列。

优选地，加载得到草图摘要从所述同一层次的关键帧草图中提取。

优选地，加载得到关键帧摘要的方法为；采用两行紧凑显示的结构，通过调整靠近边界的像素透明度去除帧的硬边界。

优选地，对所述用户的手势输入进行手势操作处理方法中可识别包括直线、圆圈和自由曲线的几何图形，以及移动、缩放、删除。

综上所述，本发明有以下积极效果：

1本发明提供了多种不同的方式对用户进行表达与浏览，有效克服了单一表达方式的局限，能够按照用户需求较好的表达从较粗尺度到较精细尺度的内容，帮助用户理解与定位视频内容。

2本发明提供了与内容相关的聚类和分层方法，不但能够有效体现镜头之间的相关性，帮助用户更好理解视频内容，而且能够根据重要性的不同对关键帧分层，从而给用户提供不同层次内容的表达，更好的满足用户的不同浏览需要。

3本发明将用户的输入与视频的表示与浏览结合，通过草图注释的方式，利用用户自己对视频内容的理解，更好的帮助用户记忆视频内容以及完成精确定位。

4本发明利用草图摘要的形式，可以保留所表达视频内容的主要信息而去掉冗余信息，辅助用户高效获取视频的语义。

5直接的手势操作，相比传统的WIMP范式的操作方式，更加直观与方便。

附图说明：

图1是本发明多尺度视频表示和浏览方法中的一实施例中处理流程示意图；

图2是本发明多尺度视频表示和浏览方法一实施例中聚类处理的中间结果示意图；

图3（a）、图3（b）是本发明多尺度视频表示和浏览方法一实施实例中中草图风格化效果示意图；

图4（a）、图4（b）、图4（c）、图4（d）是本发明多尺度视频表示和浏览方法一实施例中多尺度缩放的示意图。

具体实施方式：

为了使本技术领域的人员更好的理解本发明，以下结合附图进一步详细描述本发明，但不构成对本发明的限制。

（1）对视频进行镜头分割，并提取关键帧；

（2）对关键帧进行感兴趣区域（ROI）自动提取，得到关键帧的感兴趣区域图像；

（3）对步骤（2）提取的ROI进行聚类和分层；

（4）草图风格化步骤（1）中提取的关键帧，生成关键帧草图。

（5）利用得到的聚类和分层信息，生成增强时间轴；

（6）接收用户输入的草图注释，同时结合步骤（3）得到的分层结果，生成多尺度的草图注释；

（7）利用步骤（4）得到的关键帧草图，同时结合步骤（3）的分层结果生成表现视频重要内容的草图摘要；

（8）利用步骤（1）得到的关键帧，以及步骤（3）的聚类分层结构，生成具有多尺度属性的紧凑关键帧摘要；

（9）接受、识别、处理用户的手势输入，提供基于手势的操作。

本发明中提供的实现方法中，步骤（1）~（4）是本发明的预处理阶段，步骤（1）首先根据能够表现关键帧颜色特征的颜色直方图，以及镜头边界检测方法将视频分割为多个镜头。镜头边界检测利用现有流行的检测方法，检测相邻两帧的颜色直方图数据差异，超过每帧像素值的四分之一时就认为是新镜头的开始。关键帧的选取采用每个镜头选取一帧的策略，假设一个镜头有N帧，取第[N/2]帧作为关键帧，即取每个镜头中间一帧为关键帧（David A.Forsyth,Jean Ponce Computer Vision:A modern Approach.Prentice Hall,2003）。

步骤（2）利用基于全局对比度的显著性检测方法得到关键帧的显著图，该算法首先将图像分割成若干块，然后利用颜色直方图计算每块的颜色概率分布，并根据该分布计算每两块在颜色空间中的距离，最后将每一块与其它所有块距离之和作为该块的显著值，得到图像的显著图（Ming-Ming Cheng，Guo-Xin Zhang，Niloy J.Mitra，Xiaolei Huang and Shi-Min Hu.Global Contrast based Salient Region Detection.In：IEEE CVPR（2011），409-416），并用一个经验阈值对显著图进行二值化。为了方便后续的编辑，所有的ROI统一尺寸，以二值化后的显著图的重心为中心，对原关键帧进行裁剪，得到关键帧的ROI图像。

步骤（3）采用一种基于SOM（自组织映射）网络的方法，对提取的ROI进行聚类和分层。在进行聚类和分层之前，最重要的是提取特征向量。颜色特征是常用且有效的特征，本发明提供的实现方法中选择ROI在RGB颜色空间中的R、G、B三个通道均值、方差以及HSV颜色空间中三个通道的均值作为ROI的特征，每个ROI得到一个9维的特征向量。

本发明采用基于SOM的方法对关键帧进行聚类和分层，SOM是一种竞争型网络，采用正六边形网络拓扑结构，在二维平面上，每个神经元与6个相邻神经元连接（边界除外）。本发明中采用10*10的网络，共有100个神经元。网络中任意两个神经元的距离按照如下定义：

SOM是一个迭代过程，为每个神经元初始化一个与ROI特征维数相同（9维）的随机向量w_i(0)，并初始化步长a(0)，作用域D(0)以及终止时刻T。然后按如下规则迭代：

每个时刻t，按照随机顺序将ROI的特征向量放入神经网络计算其响应的神经元：

r_{j} (t) = \underset{i}{\arg} \min_{i &Element; A} {| | x_{j} - w_{i} (t) | |}

其中A是所有神经元的集合，i为神经元，j为ROI编号。

更新神经元的权值：

w_{i} (t + 1) = \{\begin{matrix} w_{i} (t) + a (t) (x - w_{i} (t)) & d (i, r_{j} (t)) < D (t) \\ w_{i} (t) & d (i, r_{j} (t)) &GreaterEqual; D (t) \end{matrix}

每个时刻结束更新步长及邻域阈值：

a(t+1)=a(t)-1

D (t + 1) = [\begin{matrix} D (t) - 1 & D (t) = 1 \\ 1 & D (t) > 1 \end{matrix}]

当t>T时迭代停止

对于每个神经元i，最终的神经元响应强度

代表映射到该神经元的ROI数目。至此完成初步的聚类，每个神经元是一类，但是由于聚类数目比较多，本发明在初步聚类的基础上，选择最主要的神经元作为聚类中心并进行进一步聚类，并利用初步分类的距离信息，将ROI分为不同的层次。具体方法如下：

迭代开始前t'=0初始化集合

并按如下规则迭代：

b (t^{'}) = \underset{i}{\arg} \max_{i &Element; A, i &NotElement; B} n_{i}

s.t.

\{\begin{matrix} \underset{d (i, m) = 1}{Σ} I (n_{m} > 0) &GreaterEqual; 3 \\ n_{i} &GreaterEqual; K \\ \underset{d (i, m) = 1}{Σ} I (m &Element; B (t^{'})) = 0 \end{matrix}

B(t'+1)=B(t')∪b(t′)

直到找不出符合条件的最终的聚类中心b(t')为止。K为参数，本发明实现中取4.。迭代过程结束后，B就是最终聚类的集合，对于每个ROI，最终的类别c_j和层次g_j的计算

c_{j} = \{\begin{matrix} \underset{i}{\arg} \min_{i &Element; B} {d (r_{j} (T), i)} & \min_{i &Element; B} {d (r_{j} (T), i)} \leq 3 \\ 0 & \min_{i &Element; B} {d (r_{j} (T), i)} > 3 \end{matrix}

g_{i} = \{\begin{matrix} d (r_{j} (T), c_{j}) & c_{j} &NotEqual; 0 \\ 4 & c_{j} = 0 \end{matrix}

步骤（4）利用现有的算法（Kang H,Lee S,Chui C K.Coherent Line Drawing.In:Proceedingsof the5th international symposium on Non-photorealisticanimation and rendering,2007)将步骤（1）得到的关键帧转化为草图，转化的结果存在过多的噪声点，本发明在该结果的基础上，消除部分噪声点，使图像更为平滑清晰。

具体做法是：检测当前图像的所有轮廓的面积，如果面积小于预定义的阈值而且轮廓区域的长宽比在规定的范围之内，那么此区域中所有像素点去掉，否则保留。特别要指出区域面积阈值的设定很重要，如果阈值过小，那么很多冗余点不能去除；如果阈值过大，那么一些重要的点就被去除了，这会直接导致线条的非连贯性。通过大量的实验，本发明将阈值设为80，对于大部分图像来说，使用这个值产生的结果比较令人满意。

去除噪声点后，得到的草图线条仍然比较杂乱，为了使所有线条的宽度基本一致，本发明采用已有算法（Bhat P,Zitnick C L,Cohen M,et al.GradientShop:Agradient-domainoptimization framework for image and videofiltering.In:Transactions on Graphics(TOG),2010,29(2))对草图进行处理，得到线条宽度合适，较为美观的关键帧草图。

进一步，为了后面生成的草图表示紧凑美观，本发明对生成的草图进行去硬边界处理。对于靠近边界的像素调整表示透明度的alpha值，越靠近边界，alpha值越低。公式为alpha′_i=alpha_i*d_i/(25-1)，其中alpha'_i和alpha_i分别代表去硬边界前后像素的alpha值，d_i为像素到边界的距离。

步骤（5）根据步骤（3）得到的分类和分层信息，生成增强的多尺度时间轴，根据用户意图，呈现分层和聚类信息，并提供对视频的控制功能。在本发明中，镜头、关键帧和ROI是一一对应的，因此ROI的分层信息和聚类信息就代表了镜头的分层和聚类信息。在本发明的增强时间轴中，由步骤（3）得到的每一个最终聚类用一种颜色表示，每一个镜头在增强时间轴中用一段线段表示，线段的长短与镜头的长短成正比。为了表示层次信息，本发明的增强时间轴有5条平行且等间距的直线轨道，在步骤（3）中g_j=0的ROI对应的线段显示在最顶端的轨道上（第1层），而g_j=4的ROI对应的线段则显示在最底层轨道（第5层），增强的时间轴为用户提供不同层次的显示，根据用户的操作，只显示level≤n,(n=1,2,3,4,5)层，而隐藏下方的其他层次。

步骤（6）接受用户的输入，并根据步骤（3）的分层结果，得到多尺度的草图注释。本发明允许用户直接在视频上进行草图输入，以此方式对视频进行注释，***保存草图注释，并和用户进行注释的镜头进行关联。同时将用户添加的草图注释排列在一起作为一种视频表达方式呈现给用户。如果用户输入的草图注释数量多，同样采取多尺度分层显示，分层的依据是步骤（3）中得到的层次信息。

步骤（7）利用步骤（4）得到的关键帧草图，以及步骤（3）得到的分类和层次信息生成多尺度草图摘要。草图摘要的好处是能够直观的给用户提供视频内容的总体信息，并且去除了很多冗余细节。本发明采用我们已有的方法（Ma C X,LiuY J,Wang H A,et al.Sketch-basedAnnotation and Visualization in Video Authoring.IEEE Transactionson Multimedia,2012,14(4):1153-1165），将步骤（4）得到的在同一层次的关键帧草图生成草图摘要，进而根据用户的操作，显示不同层次的摘要。

步骤（8）利用步骤（1）得到的关键帧，结合步骤（3）的层次信息，生成紧凑的关键帧摘要。为了能同时显示更多的信息，方便用户浏览定位，本发明采用两行紧凑显示的结构。去除帧的硬边界，方法和草图去除硬边界的方法一致，即利用公式为alpha'_i=alpha_i*d_i/(25-1)调整靠近边界的像素透明度。利用步骤（3）得到的关键帧的分层结果，紧凑关键帧摘要提供不同层次的呈现，用户可以通过缩放操作选择隐藏或显示更细节一层的关键帧。在不同层次之间的变化过程中，连续的动画效果被加入，具体方法是上层的关键帧匀速移动到需要的位置，下层的关键帧匀速的消失或出现（即alpha值匀速的增长或减小）。

步骤（9）提供基于手势的直接操作。用户能够直接用手势操作。本发明的手势识别基于已有算法（Rubine D.,Specifying gestures by example.ACM SIGGRAPH Conference onComputer Graphics and InteractiveTechniques.329-337.July.1991.）能够识别包括直线，圆圈，自由曲线等几何图形以及移动、缩放、删除等手势操作。

至此，完成了对视频内容的多尺度表示与浏览。

本发明方法可以通过如图1所示是本发明多尺度视频表示和浏览方法中的一实施例中处理流程示意图，主要包括三个模块：预处理模块、多尺度表达模块和交互模块。预处理模块负责视频的镜头分割、关键帧提取、感兴趣区域（Region of Interest,ROI）的自动提取，以及ROI的聚类和分层；多尺度表达模块在预处理结果的基础上通过增强时间轴、草图注释及摘要、以及紧凑的帧摘要这几种方式对视频进行多尺度的表达；交互模块包括手势交互和连续性放缩(Continuous zooming)，实现对用户输入的响应，以及根据用户的意图展示处于不同尺度的视频内容。

本发明方法的实施步骤大致为：

1、选定要处理的视频数据资源，在本实例中是从某一著名动画中选取了一段长约20分钟的视频段作为对象；

2、采用前面步骤（1）、（2）、（3）、（4）所述的方法对该视频段进行镜头分割、关键帧提取和ROI图像提取以及关键帧的草图风格化处理。

3、采用前面步骤（5）中所述的方法生成增强的时间轴

4、采用步骤（6）的方法生成多尺度的草图注释。

5、根据步骤（7）的方法生成多尺度的草图摘要

6、根据步骤（8）生成了紧凑的多尺度关键帧摘要

7、根据步骤（9）对用户提供基于手势的交互功能

图2是本发明多尺度视频表示和浏览方法一实施例中聚类处理的中间结果示意图，利用SOM的初步结果给出六边形神经元网络结构，图中数字是映射到该神经元的ROI数目，可以看出产生的聚类数较多，并且很多类中的ROI很少，因此需要进行进一步的聚类，图中包含颜色最深的8或9个ROI的神经元是选出的主要聚类。

图3所示是本发明多尺度视频表示和浏览方法一实施实例中中草图风格化效果示意图；为生成关键帧草图的过程，从图3(a)左图的关键帧，利用Kang等人的算法转化为草图并去除冗余噪声点得到中图，然后对线条进行重绘，得到右图。图3(b)显示了将关键帧草图去除硬边界的效果。

图4是本发明多尺度视频表示和浏览方法一实施例中中多尺度缩放的示意图，图4(a)为增强的时间轴，利用不同的颜色表示不同的聚类，在用户可以通过缩放操作展开和收起更细节的内容；图4(b)为草图注释，由用户自己输入，并且可以通过注释进行定位，在注释多的情况下同样可分为不同层次显示；图4(c)为草图摘要，用同一层次的关键帧草图生成摘要，用户根据需要选择不同层次的摘要进行浏览；图4(d)是紧凑的关键帧摘要，提供较丰富的细节，根据用户的操作显示不同层次的关键帧。

以上对本发明所述的多尺度视频表达与浏览方法进行了详细的说明，但显然本发明的具体实现形式并不局限于此。对于本技术领域的一般技术人员来说，在不背离本发明所述方法的精神和权利要求范围的情况下对它进行的各种显而易见的改变都在本发明的保护范围之内。

Claims

1.一种多尺度视频表示和浏览方法，其步骤包括：

1-1）对待处理视频进行镜头分割并提取视频关键帧；

2）预处理完成后的视频按照顺序或打乱时序加载下述多尺度表示形式，

表示1：根据所述ROI聚类及分层信息加载得到增强时间轴；

2.如权利要求1所述的多尺度视频表示和浏览方法，其特征在于，所述步骤1-1）关键帧提取的方法为：根据镜头边界检测方法和关键帧颜色直方图将待处理视频分割为多个镜头。

3.如权利要求1所述的多尺度视频表示和浏览方法，其特征在于，所述步骤1-2）得到关键帧的ROI图像方法如下：

3-1）根据全局对比度将图像分割成若干块，

4.如权利要求1所述的多尺度视频表示和浏览方法，其特征在于，所述步骤1-3）中得到ROI聚类结果

c_{j} = \{\begin{matrix} \underset{i}{\arg} \min_{i &Element; B} {d (r_{j} (T), i)} & \min_{i &Element; B} {d (r_{j} (T), i)} \leq 3 \\ 0 & \min_{i &Element; B} {d (r_{j} (T), i) > 3 \end{matrix}

及分层结构

g_{j} = \{\begin{matrix} d (r_{j} (T), c_{j}) & c_{j} &NotEqual; 0 \\ 4 & c_{j} = 0 \end{matrix},

其中，参数含义如下：

w_{i} (t + 1) = \{\begin{matrix} w_{i} (t) + a (t) (x - w_{i} (t)) & d (i, r_{j} (t)) < D (t) \\ w_{i} (t) & d (i, r_{j} (t)) &GreaterEqual; D (t) \end{matrix}

为更新神经元的权值；

B是最终聚类的集合；b(t')是最终的聚类中心；

5.如权利要求1所述的多尺度视频表示和浏览方法，其特征在于，所述步骤1-4）生成关键帧草图的方法如下：

6.如权利要求1所述的多尺度视频表示和浏览方法，其特征在于，加载得到增强时间轴的方法为：根据所述ROI聚类及分层得到每一个最终聚类用一种颜色表示，每一个镜头在所述增强时间轴中用一段线段表示，该线段的长短与镜头的长短成正比，根据用户的操作显示level≤n层，隐藏其他层次，其中n=1,2,3,4,5。

7.如权利要求1所述的多尺度视频表示和浏览方法，其特征在于，加载得到多层次草图注释的方法为：根据用户在视频上的草图注释，对用户进行注释的镜头进行关联，同时将用户添加的草图注释进行规则排列。

8.如权利要求1所述的多尺度视频表示和浏览方法，其特征在于，加载得到草图摘要从所述同一层次的关键帧草图中提取。

9.如权利要求1所述的多尺度视频表示和浏览方法，其特征在于，加载得到关键帧摘要的方法为；采用两行紧凑显示的结构，通过调整靠近边界的像素透明度去除帧的硬边界。

10.如权利要求1所述的多尺度视频表示和浏览方法，其特征在于，对所述用户的手势输入进行手势操作处理方法中可识别包括直线、圆圈和自由曲线的几何图形，以及移动、缩放、删除。