CN101527786B

CN101527786B - 一种增强网络视频中视觉重要区域清晰度的方法

Info

Publication number: CN101527786B
Application number: CN2009100217686A
Authority: CN
Inventors: 钱学明; 刘贵忠; 李智; 王喆; 郭旦萍; 姜海侠; 王琛; 汪欢
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2009-03-31
Filing date: 2009-03-31
Publication date: 2011-06-01
Anticipated expiration: 2029-03-31
Also published as: CN101527786A

Abstract

本发明公开了一种增强网络视频中视觉重要区域清晰度的方法，其特征是，包括如下执行步骤：首先并行地执行字幕区域检测单元00和进行人脸区域检测单元01；然后执行当前帧视觉重要区域确定单元02，通过对人脸以及字幕两种重要区域进行或操作，也即MAP＝MAPt|MAPf，实现对该两种重要区域合并以得到当前帧中视觉重要区域MAP，其中MAPt为当前字幕在原始视频中的字幕区域；MAPf为原始图像中人脸区域所在的区域；接下来执行基于视觉重要区域的编码单元03，以对视觉重要区域和视觉非重要区域进行有差别的编码，实现增强视觉重要区域的编码清晰度；最后执行单元04形成待发送的视频码流。

Description

一种增强网络视频中视觉重要区域清晰度的方法

技术领域

本发明是关于增强网络视频中视觉重要区域清晰度的方法，具体是增强视频中说话内容字幕以及人脸区域的清晰度的方法。

背景技术

视频中说话内容字幕以及人物面部的清晰度是影响观众欣赏的一个重要因素，也是网络环境下视频点播业务中的一个重要内容。字幕信息是视频节目中一种重要的信息，其直观地说明了视频节目的内容，能够帮助观众了解其中的故事情节。对视频字幕进行快速的检测定位是许多视频分析和检索***中的一个重要环节。视频中人脸的表情是观众关注的重要区域之一，也是观众获取人物心理等信息的主要渠道。但是如果视频中字幕以及人脸区域出现较大的失真，则会极大地影响观众的欣赏。在网络带宽受限的视频点播***或者在线视频浏览***中有针对性地对提升视觉重要区域的画面质量，以提供更加贴近用户需求的服务。视频中的字幕作为视觉重要区域，对其进行快速检测并进行清晰度增强是非常重要的，虽然基于对象的视频编码早在MPEG-4标准中提出，但是其难点是快速高效的对象检测问题是制约了其应用的一个重要因素。

以视频字幕检测为例，现有字幕对象检测的速度和性能是制约在线视频业务的一个重要问题，在中国专利ZL02801652.1中公开了一种基于图像区域复杂度的字幕检测方法，在字幕检测中仅仅实现对静止字幕区域的检测并且对字幕出现的位置也局限在图像的中下部。在中国专利ZL03123473.9中所公开的字幕检测方法对位置也进行了限定。现有的字幕检测方法的技术局限性表现在如下两个方面：第一是对字幕出现在画面中的位置信息敏感，如果有用的信息不在所制定的检测范围内，则不能很好地应用；第二是字幕检测的速度慢，不能达到实时处理的要求，尤其是对于分辨率较大的情况下。对视频中人脸区域快速的检测同样也面临着速度慢的问题。

发明内容

本发明是针对网络视频带宽不稳定的特点以及观众最关注的视频中人脸区域和视频字幕的特点，提出了一种将视频中的字幕和人脸作为两个视觉重要区域，对其进行快速检测并进行清晰度增强的方法。该方法有效地提升了视频对象提取的速度，并对视觉重要区域进行有效增强。

为达到以上目的，本发明是采用如下技术方案予以实现的：

一种增强网络视频中视觉重要区域清晰度的方法，其特征是，包括如下执行步骤：首先并行地执行字幕区域检测单元00和进行人脸区域检测单元01；然后执行当前帧视觉重要区域确定单元02，通过对人脸以及字幕两种重要区域进行或操作，也即MAP＝MAPt|MAPf，实现对该两种重要区域合并以得到当前帧中视觉重要区域MAP，其中MAPt为当前字幕在原始视频中的字幕区域；MAPf为原始图像中人脸区域所在的区域；接下来执行基于视觉重要区域的编码单元03，以对视觉重要区域和视觉非重要区域进行有差别的编码，实现增强视觉重要区域的编码清晰度；最后执行单元04形成待发送的视频码流。

上述方案中，所述的字幕区域检测单元00，包含下述具体步骤：首先执行字幕检测帧亮度分量抽取单元10；然后执行字幕时间加速单元20以进行自适应的视频字幕检测帧抽取；接下来执行字幕空间加速单元30以对原始分辨率下的亮度分量进行自适应的金字塔抽样以降低图像的分辨率；接着执行字幕空间定位单元40，以实现对步骤30中降低分辨率的图像Ip进行字幕所在区域定位；然后执行字幕时间定位单元50，以确定字幕在视频中的出现和消失帧；然后执行字幕检测区域单元60，根据每条字幕检测起始、终止帧以及金字塔图像中的位置来确定当前字幕在原始视频中的字幕区域MAPt。

所述的人脸区域检测单元01，包含下述具体步骤：首先执行金字塔图像序列抽样70，对视频序列每一帧的亮度和色度分量都执行金字塔抽样，以得到金字塔抽样后的图像序列；然后执行人脸区域检索80，实现在金字塔图像中进行人脸区域检测；最后执行人脸区域90，输出原始图像中人脸区域所在的区域MAPf。

所述在基于视觉重要区域的编码单元03中对视觉重要区域和视觉非重要区域实现有差别的编码，其基本原则是当前帧中MAP(i，j)＝1所在的块区域的量化步长Q1较小，而对MAP(i，j)＝0所在的块区域的量化步长Q0较大，其中(i，j)表示图像中坐标位置；或者当前帧中MAP(i，j)＝1所在的块区域的平均码率B1较大，而对MAP(i，j)＝0所在的块区域的平均码率B0较小，也即B1＞B0，Q1＜Q0。

所述的时间加速单元20，是在步骤10所抽取的亮度分量图像的基础上自适应地根据本帧中字幕检测的情况确定下一个字幕检测帧的间隔n，在当前帧检测到字幕的情况下，选取较小的帧间隔以进行当前帧检测字幕的匹配；在当前帧没有检测到字幕的情况下选取较大的帧间隔。

所述字幕空间定位单元40，包含下述具体步骤：首先执行步骤41，对步骤30中降低分辨率的图像Ip采用基于梯度运算算子Top的纹理提取方法来实现，其执行的是空间卷积操作，设算子提取纹理图Isd；然后执行步骤42，对Isd以自适应地确定阈值T_d生成字幕点图像TxTd，最终的字幕区域图像是在不同方向下字幕点图像的交集形式；接着执行步骤43以确定字幕排列方式，首先将字幕点图像划分成一系列由4*4大小块所组成的基本单元，接下来确定每个基本单元中的字幕点保留与否的判断条件，如果每个基本单元中的字幕点数大于4，则保留该基本单元中的字幕点，否则不保留该基本单元中的字幕点；在所有基本单元判断完成之后再对字幕点图像TxTd中进行水平和垂直方向的投影以确定可能的字幕区域的字幕排列方式；接下来执行单元44进行字幕区域定位，并记录字幕区域在金字塔图像中的左上和右下角的坐标(xl，yl)和(xr，yr)。

所述字幕时间定位单元50中，包含下述具体步骤：首先执行步骤51，自适应地根据前一检测帧Prev中字幕检测的结果判断下一检测帧的帧间隔n，如果前一检测帧中没有字幕，则设置较大的帧间隔；如果有字幕则设置较小的帧间隔；然后执行步骤52，对间隔n帧的图像Curr分别执行空间加速单元30以实现对Curr帧进行空间金字塔采样，然后对采样后的图像执行步骤40以进行字幕检测；然后执行步骤53，进行检测的字幕匹配跟踪，相邻两个执行字幕检测的帧是否需要进行字幕匹配跟踪是按照这两帧中所检测出的字幕条数目来进行判断的。

所述步骤53中，如果匹配的字幕在两个执行字幕检测的帧中的位置不变则判断为静止，否则判断为滚动字幕；静态字幕条跟踪中的出现帧和终止帧确定方法是通过抽取字幕区域中的DC线条并进行匹配实现的，动态字幕跟踪中的出现帧和终止帧确定方法是通过计算匹配速度来实现的。

本发明中所提供的增强网络视频中视觉重要区域清晰度的方法与不进行视觉重要区域清晰度增强的方法相比，其有益效果表现在，通过对视觉重要的人脸和字幕区域进行检测和增强可以有效提高这些区域的画面质量。并且人脸和字幕区域的检测采用金字塔抽样的方法进行快速的提取，和现有的人脸检测以及字幕检测技术相比较，在性能相当的情况下有效地提升了检测速度。

附图说明

图1为本发明中增强网络视频中视觉重要区域清晰度的方法的总体步骤示意图。

图2为图1中字幕区域检测步骤的具体步骤示意图。

图3为图1中人脸区域检测步骤的具体步骤示意图。

图4是图2中字幕区域空间定位单元的具体步骤示意图。

图5为本发明中采用增强视频帧中的字幕和人脸等重要区域清晰度的对比效果图。其中图5A给出了一个原始的视频图像，图5B给出了人脸和字幕区域检测的效果图，如图中高亮标记的区域；图5C、图5D给出了不采用对象增强和采用对象增强的效果图；图5E、图5F及图5G分别给出了人脸和字幕区域在原始视频、未进行重要区域增强以及采用对象增强的局部区域对比的效果图。

具体实施方式

以下结合附图及实施例对本发明作进一步的详细说明。

图1给出了本发明中关于增强网络视频中视觉重要区域清晰度的方法总体实施步骤结构框图。其中包含如下执行步骤：并行地执行字幕区域检测单元00和进行人脸区域检测单元01；然后执行当前帧视觉重要区域确定单元02，实现对人脸以及字幕两种重要区域合并以得到当前帧中视觉重要区域；接下来执行基于视觉重要区域的编码单元03，以对视觉重要区域和视觉非重要区域实现有差别的编码，从而实现增强视觉重要区域的编码清晰度；最后执行单元04形成待发送的视频码流。

图2示例地给出了上述字幕区域检测单元00中所包含的执行步骤：首先执行字幕检测帧亮度分量抽取单元10；然后执行时间加速单元20以进行自适应的视频字幕检测帧抽取；接下来执行空间加速单元30以对原始分辨率下的亮度分量进行自适应的金字塔抽样处理以降低图像的分辨率；接着执行字幕空间定位单元40，以实现对单元30中降低分辨率的图像中进行字幕所在区域定位；然后执行字幕时间定位单元50，以确定字幕在视频中的出现和消失帧；然后确定字幕检测区域单元60，以确定当前字幕在原始视频中区域MAPt。

图3示例地给出了上述人脸区域检测单元01中所包含的执行步骤：首先对视频序列执行步骤70对原始序列进行金字塔抽样，以得到金字塔抽样后的图像序列；然后执行步骤80实现在金字塔图像中进行人脸区域检测；最后在步骤90中输出原始图像中人脸区域所在的区域MAPf。

在图1当前帧视觉重要区域确定单元02中，实现对人脸以及字幕两种重要区域合并已得到当前帧中视觉重要区域MAP，在实现中是对上述两种区域进行或操作，也即MAP＝MAPt|MAPf。

在图1基于视觉重要区域的编码单元03中，以对视觉重要区域和视觉非重要区域实现有差别的编码来实现增强视觉重要区域的编码清晰度。在编码中的基本原则是当前帧中MAP(i，j)＝1所在的块区域的量化步长Q1较小，而对MAP(i，j)＝0所在的块区域的量化步长Q0较大，其中(i，j)表示图像中坐标位置；或者当前帧中MAP(i，j)＝1所在的块区域的平均码率B1较大，而对MAP(i，j)＝0所在的块区域的平均码率B0较小。也即B1＞B0，Q1＜Q0。

在图2的字幕检测帧亮度分量抽取单元10中，其实现方式是从视频序列中获取指定帧的亮度分量，而不需要色度分量。如果是需要转码的压缩视频(格式可以是MPEG-1/2/4或者AVI格式等)则仅解码指定帧的亮度分量即可。

在图2的时间加速单元20中，是在步骤10所抽取的亮度分量图像的基础上自适应地根据本帧中字幕检测的情况确定下一个字幕检测帧的间隔n。在当前帧检测到字幕的情况下，选取较小的帧间隔以进行当前帧检测字幕的匹配(如选取的帧间隔n的取值为5)；在当前帧没有检测到字幕的情况下选取较大的帧间隔(如选取的帧间隔n的取值为50)。

在图2的空间加速单元30中，是时间加速单元20选取的检测帧亮度分量的基础上，对亮度图像进行空间金字塔抽样以降低图像的分辨率。假设原始图像的亮度分量的高度为H，宽度为W，抽样的最终分辨率不小于176*144，因此在高度方向上的下采样比例Rh，以及宽度方向上的下采样比例Rw的计算方法如下：

其中

表示对数值x进行下取整运算。也就是说原图象Io中一个Rh*Rw的一个区域对应于金字塔图像Ip中的一个点。金字塔采样后的图像的高度Hp和宽度Wp分别为：

在图2的字幕空间定位单元40中，以实现对单元30中降低分辨率的图像Ip中进行字幕所在区域定位。其具体执行步骤的如图4中所示，首先执行步骤41，图像Ip可采用基于梯度运算算子Top的纹理提取方法来实现，其执行的是空间卷积操作，假设算子提取纹理图Isd。这里选用的梯度运算算子可以是4方向的Sobel算子，也可以是其它类型的算子如Robert，Laplacian，两方向的Sobel算子等。其中0°，45°，90°，135°等4个方向的Sobel算子的形式如下：

[\begin{matrix} 1 & 2 & 1 \\ 0 & 0 & 0 \\ - 1 & - 2 & - 1 \end{matrix}],

[\begin{matrix} 2 & 1 & 0 \\ 1 & 0 & - 1 \\ 0 & - 1 & - 2 \end{matrix}],

[\begin{matrix} 1 & 0 & - 1 \\ 2 & 0 & - 2 \\ 1 & 0 & - 1 \end{matrix}],

[\begin{matrix} 0 & 1 & 2 \\ - 1 & 0 & 1 \\ - 2 & - 1 & 0 \end{matrix}]

以Sobel算子所提取的纹理图为例来说明本发明中的方法，假设上面四哥算子所得出梯度幅值矩阵分别为：GT1，GT2，GT3和GT4。首先对采样后的图像进行不同方向的梯度计算，然后统计在平均的纹理幅值图像Isd，其计算方法如下：

Isd＝w1*GT1+w2*GT2+w3*GT3+w4*GT4；

其中w1～w4是加权系数，本例中w1～w4＝0.25.

然后执行步骤42，对Isd以自适应地确定阈值T_d生成字幕点图像TxTd。其中包括自适应阈值T_d的计算方法如下：

T_d＝max{2μ_d+1.5σ_d，50}

其中，μ_d和σ_d分别表示图像Isd的均值和标准差。字幕点图像TxTd的生成方法如下：

TxTd (i, j) = \{\begin{matrix} 0, & Isd (i, j) \leq T_{d} \\ 1, & Isd (i, j) > T_{d} \end{matrix}

对于同方向的Sobel算子，可以生成不同方向的字幕点图像，最终的字幕区域图像是在不同方向下字幕点图像的交集形式。

接着执行步骤43以确定字幕排列方式，首先将字幕点图像划分成一系列由4*4大小块所组成的基本单元，接下来确定每个基本单元中的字幕点保留与否的判断条件，如果每个基本单元中的字幕点数大于4，则保留该基本单元中的字幕点，否则不保留该基本单元中的字幕点；在所有基本单元判断完成之后再对字幕点图像TxTd中进行水平和垂直方向的投影以确定可能的字幕区域的字幕排列方式。其中投影的过程是统计每个位置上可能的字幕点数目，记水平和垂直方向上的投影分别为PH和PV，其具体的计算方法如下：

PH (i) = \underset{j}{Σ} TxTd (i, j)

PV (j) = \underset{i}{Σ} TxTd (i, j)

然后分别对PH和PV进行半径为2的中值滤波，然后在PH和PV中分别寻找波峰和波谷，如果连续4个点处的值大于20，则将其确定为可能的字幕区域，否则认为该帧中没有字幕。在确定中可能字幕区域中在水平方向的投影值的均值大于垂直方向上的投影值的均值，则确定为水平排列的字幕，否则确定为垂直排列的字幕。

接下来执行单元44进行字幕区域定位，如果在单元43中没有可能的字幕，这直接跳过该步骤，且当前帧字幕输出为0。如果在单元43中确定为水平排列的字幕采用水平方向上的形态学滤波，首先采用算子为10*1的闭运算，然后再采用算子为1*5的开运算；如果在单元43中确定为垂直排列的字幕采用垂直方向上的形态学滤波，首先采用算子为1*10的闭运算，然后再采用算子为5*1的开运算。然后确定所在连通区域的最小外接矩形作为字幕区域。并记录字幕区域在金字塔图像中的左上和右下角的坐标(xl，yl)和(xr，yr)。

在图2的字幕时间定位单元50中，以确定字幕在时间上的出现和消失帧。其具体执行步骤包括如下环节：首先执行步骤51，自适应地根据前一检测帧(记为Prev)中字幕检测的结果判断下一检测帧的帧间隔n，如果前一检测帧中没有字幕则，设置较大的帧间隔(如n＝50)；如果有字幕则设置较小的帧间隔(如n＝5)。

然后执行步骤52，对间隔n帧的图像(记为Curr)分别执行上述步骤中空间加速单元30以实现对Curr帧进行空间金字塔采样，然后对采样有的图像执行步骤40以进行字幕检测。

然后执行步骤53，进行检测的字幕匹配跟踪。相邻两个执行字幕检测的帧是否需要进行字幕匹配跟踪是按照这两帧中所检测出的字幕条数目并按如下四种可能的情况进行判断：

①如果Prev帧和Curr帧的字幕条数均为0，则无需进行匹配和跟踪。

②如果Prev帧的字幕条数量为0，而Curr帧的字幕条数量不为0，则Curr帧的字幕条全部为新出现字幕条，需要确定其起始帧。作起始帧判断时首先需要根据Curr帧和下一个间隔n＝5帧(Next)中的字幕匹配情况以及所确定的字幕属性来进行处理。如果Next中没有字幕或者有字幕但是和Curr帧中检测的字幕不匹配，则将Curr帧中检测的字幕当成错检并予以剔除，否则对当前帧Curr中所检测的新出现字幕条进行字幕跟踪。

③如果Prev帧的字幕条数量不为0，而Curr帧的字幕条数量为0，则Curr帧的字幕条为消失字幕条，需要确定其终止帧。

④如果Prev帧和Curr帧的字幕条数均不为0，则需执行对Prev和Curr帧中的字幕匹配，以确定Prev帧中哪些字幕是匹配的哪些是消失的以及Curr帧中哪些字幕是匹配哪些是新出现的。对于在Prev帧中哪些在Prev到Curr之间消失的帧需要确定其终止帧，对于Curr帧中新出现的字幕条需要从Prev帧到Curr帧之间确定该字幕的出现帧。对于匹配上的字幕条，根据从字幕匹配的相对位置差异所计算出的匹配速度可以将其分成静态字幕条和滚动字幕条两种类型。

如果匹配的字幕在两个执行字幕检测的帧中的位置不变则判断为静止，否则判断为滚动字幕。静态字幕条跟踪中的出现帧和终止帧确定方法是通过抽取字幕区域中的DC线条并进行匹配实现的，动态字幕跟踪中的出现帧和终止帧确定方法是通过计算匹配速度来实现的。若为滚动字幕条，则根据匹配速度来确定字幕边框进入以及退出画面的相应帧为出现帧和终止帧，具体的方法如论文(X.Qian，G.Liu，H.Wang，and R.Su，“Text detection，localizationand tracking in compressed video，”Signal Processing：Image Communication，2007，vol.22，no.9，pp.752-768.)所述。若为静态字幕条则计算金字塔图像所在区域中心位置((xl+xr)/2，(yl+yr)/2)处相应的像素条的平均绝对误差MAD值，根据MAD值来确定静态字幕的出现帧和终止帧。

其中字幕匹配跟踪的方法是，按照检测字幕在金字塔图像中的所确定的位置((xl+xr)/2，(yl+yr)/2)确定一个搜索范围然后逐像素点进行匹配，字幕匹配是根据前一个检测帧Prev和当前检测帧Curr的字幕检测情况来判断检测出的字幕是否匹配，如果匹配则表明相匹配的字幕属于同一字幕，否则属于不同字幕。其中的抽样匹配的实现方法可以参考论文(H.Jiang，G.Liu，X.Qian，N.Nan，D.Guo，Z.Li，L.Sun，“A fast and effective text tracking in compressedvideo，”International Symposium on Multimedia，2008)中所述的基于相似匹配的方法来实现，在实现中与其不同之处在于论文中的方法是采用像素域抽象来实现的，本发明中的抽样是采用金字塔图像的抽样来实现的。

在图2的字幕检测区域单元60中，根据每条字幕检测起始、终止帧以及金字塔图像中的位置来获得原始图像中字幕区域MAPt。在金字塔图像中的字幕检测的位置通过如下计算获得字幕在原始图像中的坐标位置

x₀＝x_p×Rw

y₀＝x_p×Rh

其中(x_p，y_p)和(x_o，y_o)分别为在金字塔图像和原始图像中的坐标。而原始图像中字幕区域MAPt的计算方法如下：

其中(x₀ ^s，y₀ ^s)，(x₀ ^e，y₀ ^e)，k，k^s和k^e分别为在一条字幕区域在原始图像中左上角，右下角的坐标，当前帧，起始帧和终止帧。

在图3的金字塔图像序列抽样单元70中，实现对原始视频序列中的每一帧的亮度和色度分量都执行抽样，抽样方法与步骤30相同。

在图3的人脸区域检测单元80中，对每个金字塔抽样的图像进行人脸检测以获得金字塔图像序列中每帧的人脸所在区域，其中人脸区域的检测方法采用文献(P.Viola，and M.J.Jones，“Robust Real-time Face Detection，”International Journal of Computer Vision，57(2)，pp.137-154，2004.)中公知的技术，该技术本身的一个显著优点是其处理速度块，而且在本发明中基于金字塔采样后的图像其处理的速度更快，单帧人脸检测的速度在200帧每秒以上。并对检测的区域进行面积统计，对于一些面积较小的、形状不规则的区域予以删除。

在图3的人脸区域单元90中，根据金字塔图像中人脸检测的区域信息获得原始图像中人脸区域MAPf，计算方法类似于步骤60。

图5示例地给出了本发明中采用增强视频帧中的字幕和人脸等重要区域清晰度方法的优异之处。图5A给出了一个原始的视频图像，图5B给出了人脸和字幕区域检测的效果图，在图中以绿色区域标记出采用本发明中快速的字幕和人脸区域检测的结果；图5C、图5D给出了不采用对象增强和采用对象增强的效果图；图5E、图5F及图5G分别给出了人脸和字幕区域在原始视频、未进行重要区域增强以及采用对象增强的局部区域对比的效果图；从局部区域的对比效果中可以看出经过视觉重要区域的图像质量增强，有效地提升了画面的质量。

Claims

1.一种增强网络视频中视觉重要区域清晰度的方法，其特征是，包括如下执行步骤：首先并行地执行字幕区域检测单元00和进行人脸区域检测单元01；然后执行当前帧视觉重要区域确定单元02，通过对人脸以及字幕两种重要区域进行或操作，即MAP＝MAPt |MAPf，实现对该两种重要区域合并以得到当前帧中视觉重要区域MAP，其中MAPt为当前字幕在原始视频中的字幕区域；MAPf为原始图像中人脸区域所在的区域；接下来执行基于视觉重要区域的编码单元03，以对视觉重要区域和视觉非重要区域进行有差别的编码，实现增强视觉重要区域的编码清晰度；最后执行单元04形成待发送的视频码流；

所述的执行字幕区域检测单元00，包含下述具体步骤：首先执行字幕检测帧亮度分量抽取单元10；然后执行字幕时间加速单元20以进行自适应的视频字幕检测帧抽取；接下来执行字幕空间加速单元30以对原始分辨率下的亮度分量进行自适应的金字塔抽样以降低图像的分辨率；接着执行字幕空间定位单元40，以实现对字幕空间加速单元30中降低分辨率的图像Ip进行字幕所在区域定位；然后执行字幕时间定位单元50，以确定字幕在视频中的出现和消失帧；然后执行字幕检测区域单元60，根据每条字幕检测起始、终止帧以及金字塔抽样得到的金字塔图像中的位置来确定当前字幕在原始视频中的字幕区域MAPt；

所述的执行时间加速单元20，是在字幕检测帧亮度分量抽取单元10所抽取的亮度分量图像的基础上自适应地根据本帧中字幕检测的情况确定下一个字幕检测帧的间隔n，在当前帧检测到字幕的情况下，选取较小的帧间隔以进行当前帧检测字幕的匹配；在当前帧没有检测到字幕的情况下选取较大的帧间隔；

所述执行字幕空间定位单元40，包含下述具体步骤：首先执行步骤41，对字幕空间加速单元30中降低分辨率的图像Ip采用基于梯度运算算子Top的纹理提取方法来实现，其执行的是空间卷积操作，设算子提取纹理图Isd；然后执行步骤42，对Isd以自适应地确定阈值T_d生成字幕点图像TxTd，最终的字幕区域图像是在不同方向下字幕点图像的交集形式；接着执行步骤43以确定字幕排列方式，首先将字幕点图像划分成一系列由4W4大小块所组成的基本单元，接下来确定每个基本单元中的字幕点保留与否的判断条件，如果每个基本单元中的字幕点数大于4，则保留该基本单元中的字幕点，否则不保留该基本单元中的字幕点；在所有基本单元判断完成之后再对字幕点图像TxTd中进行水平和垂直方向的投影以确定可能的字幕区域的字幕排列方式；接下来执行单元44进行字幕区域定位，并记录字幕区域在金字塔图像中的左上和右下角的坐标(xl，yl)和(xr，yr)；

所述执行字幕时间定位单元50，包含下述具体步骤：首先执行步骤51，自适应地根据前一检测帧Prev中字幕检测的结果判断下一检测帧的帧间隔n，如果前一检测帧中没有字幕，则设置较大的帧间隔；如果有字幕则设置较小的帧间隔；然后执行步骤52，对间隔n帧的图像Curr分别执行空间加速单元30以实现对Curr帧进行空间金字塔采样，然后对采样后的图像执行步骤40以进行字幕检测；然后执行步骤53，进行检测的字幕匹配跟踪，相邻两个执行字幕检测的帧是否需要进行字幕匹配跟踪是按照这两帧中所检测出的字幕条数目来进行判断的；步骤53中，如果匹配的字幕在两个执行字幕检测的帧中的位置不变则判断为静止，否则判断为滚动字幕；静态字幕条跟踪中的出现帧和终止帧确定方法是通过抽取字幕区域中的DC线条并进行匹配实现的，动态字幕跟踪中的出现帧和终止帧确定方法是通过计算匹配速度来实现的；

所述的执行人脸区域检测单元01，包含下述具体步骤：首先执行金字塔图像序列抽样70，对视频序列每一帧的亮度和色度分量都执行金字塔抽样，以得到金字塔抽样后的图像序列；然后执行人脸区域检索80，实现在金字塔图像中进行人脸区域检测；最后执行人脸区域90，输出原始图像中人脸区域所在的区域MAPf。

2.根据权利要求1所述的增强网络视频中视觉重要区域清晰度的方法，其特征是，所述在基于视觉重要区域的编码单元03中对视觉重要区域和视觉非重要区域实现有差别的编码，其基本原则是当前帧中MAP(i，j)＝1所在的块区域的量化步长Q1较小，而对MAP(i，j)＝0所在的块区域的量化步长Q0较大，其中(i，j)表示图像中坐标位置；或者当前帧中MAP(i，j)＝1所在的块区域的平均码率B1较大，而对MAP(i，j)＝0所在的块区域的平均码率B0较小，也即B1＞B0，Q1＜00。