WO2013152682A1

WO2013152682A1 - 一种新闻视频字幕标注方法

Info

Publication number: WO2013152682A1
Application number: PCT/CN2013/073548
Authority: WO
Inventors: 刘赵杰
Original assignee: 天脉聚源(北京)传媒科技有限公司
Priority date: 2012-04-12
Filing date: 2013-04-01
Publication date: 2013-10-17
Also published as: CN102780856A; CN102780856B

Abstract

本申请公开了一种新闻视频字幕标注方法，首先采集新闻视频；对新闻视频进行解码，获得单帧的视频图像；从视频图像中提取候选字幕区域，进行新闻字幕区域定位；将新闻字幕区域与新闻模板库中的模板图像进行匹配，如果匹配，则按照模板图像标注格式对新闻字幕区域进行标注，如果不匹配，则对新闻字幕区域进行标注。采用了本申请的技术方案，能够提高视频中字幕标注的准确率，减少人工校对的时间，提高对新闻视频检索的效果。

Description

一种新闻视频字幕标注方法本申请要求在 2012年 4月 12日提交中国专利局、申请号为 201210106534.3、发明名称为 "一种新闻视频字幕标注方法 "的中国专利申请的优先权，其全部内容通过引用结合在本申请中。技术领域

本发明涉及视频内容分析技术领域，尤其涉及一种新闻视频字幕标注方法。背景技术

随着信息时代的发展，视频资料的增多，日益呈现海量化的规模。视频内容同其它类型内容相比，具备更为生动的展现形式，承载了更为丰富的信息。为了实现对视频信息的高效访问，方便人们对其高效浏览和检索，视频处理和检索工具的研制成为当务之急。视频是集图像、声音、文字为一体的，其中视频中的字幕是视频高层语意内容的一个重要来源，如新闻的标题、内容提示信息、播出时的时间、旁白、节目后的致谢和工作人员名单等都包含了丰富的高层语意信息。提取视频中的字幕信息对大量视频的自动化管理，对利用成熟的文本检索技术进行视频检索具有重要的意义。

新闻视频作为视频数据中最具有代表性的媒体之一，广泛地受到人们的关注。而随着新闻视频数据的大量而快速地增加，导致了人们迫切需要一个快速、有效的基于内容的浏览和检索***。在新闻视频中字幕具有明确、丰富的信息，有助于人对新闻视频语义内容的理解，是新闻视频语义信息获取的一条重要途径。同时还为新闻视频索引和视频分类提供了重要的信息，因此新闻视频字幕的自动检测具有重要意义。新闻视频中出现的字幕主要有下面几种形式：新闻的标题，重要信息提示字幕（新闻记者，新闻的地点和新闻中人物地点的提示），语音提示字幕和滚动的实时信息提示。这些字幕中滚动的实时信息提示字幕可能与新闻本身关系不大，其他都对新闻的标注有重要的作用。

传统的新闻视频中字幕的标注方法一般有两种，一是人工标注，就是通过釆用简单的标注工具，通过标注人员对新闻视频反复浏览，找出新闻视频中出现的字幕信息，对其中的重要信息进行简单的标注。二是通过计算机程序自动对新闻视频字幕检测和识别，对新闻视频中的全部字幕进行统一处理，然后由人工对识别的结果进行校正。程序提取新闻视频字幕一般是通过对视频解码，通过对视频帧进行分析，比如釆用基于连通域的方法，基于紋理的方法，基于边缘的方法或基于对字幕块特征建立分类器的方法对视频中的字幕进行定位，然后对定位的字幕块进行识别，最后识别的结果由人工进行确认形成统一格式的视频内容文本信息标注结果。

现有的字幕标注技术没有考虑到新闻视频的特点，新闻视频一般都有标准格式或自己固定的格式，而且这个格式一般也很长时间都不会更新。这些格式一般包括新闻标题的位置，字体颜色大小、背景的颜色等都固定，还有其中的提示字幕也位置固定，通常为横竖方向等。通用的字幕标注技术中没有对这些类型加以区分，只要是新闻中出现的字幕， ***都会自动定位识别。让这些字幕的信息量的等级没有区分，从而降低了字幕所提供的信息量。这样的标注不利于人工后期的校对也不利于视频信息的检索，当然也更不利于读者对这些新闻视频的浏览。

人工标注的方式能保证信息的准确，但是人工标注的销量低下，成本高，而且所能提取的信息有限。同时随着数据量飞速的增长，这种方式让标注变成不可接受的方式。计算机程序自动定位识别然后辅助人工校对的方法，在视频字幕提取方法中，基于连通域能快速定位字幕区域，但对背景复杂度敏感；基于紋理算法实现简单，但是由于视频中相近紋理区域影响使得检测的准确率低；基于边缘的方法计算复杂度低，但很依赖视频字幕的背景；还有一些基于统计建立分类器的方法，太依赖于训练样本。现有的视频字幕处理方法中都存在各自的问题，很难找到一种方法能应对目前新闻视频的情况。而且现有的***没有充分利用新闻视频的特点，仅从一个通用的视频字幕标注考虑，泛发型不好，而且没有考虑到视频中字幕的不同类型。结果导致视频字幕自动定位和识别的效果很不理想，导致最后人工校对的工作量增加，从而增大了标注的成本。发明内容

本发明的目的在于提出一种新闻视频字幕标注方法，能够提高视频中字幕标注的准确率，减少人工校对的时间，提高对新闻视频检索的效果。

为达此目的，本发明釆用以下技术方案：

一种新闻视频字幕标注方法，包括以下步骤：

A、釆集新闻视频；

B、对所述新闻视频进行解码，获得单帧的视频图像；

C、从所述视频图像中提取候选字幕区域，进行新闻字幕区域定位；

D、将所述新闻字幕区域与新闻模板库中的模板图像进行匹配，如果匹配，则转至步骤 E, 如果不匹配，则转至步骤 F;

E、按照模板图像标注格式对所述新闻字幕区域进行标注；

F、对所述新闻字幕区域进行标注。

步骤 F进一步还包括以下步骤：

将对所述新闻字幕区域的标注结果存储到新闻模板库中。

步骤 A中，釆用电脑和电视卡的方式釆集新闻视频。

步骤 C中从所述视频图像中提取候选字幕区域进一步包括以下步骤：

Cl、对所述视频图像进行灰度变换，生成灰度图像；

C2、对所述灰度图像中的角点进行检测，删除背景中的角点；

C3、将剩下的角点进行合并，生成候选字幕区域。

步骤 C1中，按照下述公式进行灰度变换：

L(x,y)=0.3 R(x,y)+0.59 G(x,y)+0.11 * B(x,y), 其中， L(x,y)为像素点 (x,y) 的灰度值， R(x,y)、 G(x,y)和 B(x,y)为像素点 (x,y)的 RGB颜色中的红、绿和蓝分量。步骤 C2中进一步包括以下步骤：

将所述灰度图像中孤立的角点滤除；

通过两帧相邻的视频图像的灰度图像进行比对，保留两帧相邻的视频图像的灰度图像的公共角点集合。

步骤 C中进行新闻字幕区域定位进一步包括以下步骤：

釆用 Sobel边缘对所述候选字幕区域进行垂直和水平方向的分解，确定所述候选字幕区域的垂直和水平方向。

步骤 C与步骤 D中间还对所述新闻字幕区域进行验证，过滤掉不符合以下至少一个规则的字幕区域：

新闻视频中字幕的出现持续预定时间；

新闻视频中横向字幕出现在屏幕的下方区域；

字幕区域距离视频图像边界有预定的距离，字幕区域的上下左右边界距视频图像边界大于预定的像素点；

字幕框高度大于最小的字幕高度和小于最大的字幕高度；

视频图像中的标题字幕颜色与背景颜色有预设的对比度。

步骤 D中，提取所述新闻字幕区域中的文字和背景的颜色紋理特征，与新闻模板库中的模板图像的特征进行匹配。

步骤 E中，按照模板图像标注格式对所述新闻字幕区域进行标注的格式是分层次的，每一层次对应的信息是根据新闻的内容设定的，所述信息在视频的索引中以不同的权重出现。

一种用于新闻视频字幕标注的装置，包括：

釆集模块，用于釆集新闻视频；

解码模块，用于对所述新闻视频进行解码，获得单帧的视频图像；定位模块，用于从所述视频图像中提取候选字幕区域，进行新闻字幕区域定位；

匹配模块，用于将所述新闻字幕区域与新闻模板库中的模板图像进行匹配；标注模块，用于在匹配成功时，按照匹配成功的模板图像标注格式对所述新闻字幕区域进行标注。釆用了本发明的技术方案，利用新闻视频固定的格式，通过字幕模板的方法和分层次的方法对新闻视频中的字幕进行标引，尽可能地挖掘新闻视频中的字幕信息，从而提高了视频中字幕标注的准确率，减少了人工校对的时间，提高了对新闻视频检索的效果。附图说明

图 1A是本发明具体实施方式中新闻视频字幕标注的主要流程图；图 1B是本发明具体实施方式中新闻视频字幕标注的详细流程图；图 2是本发明具体实施方式中装置的结构图。具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。参见图 1A, 本发明具体实施方式中新闻视频字幕标注的主要方法流程如下：

步骤 11 : 釆集新闻视频。

步骤 12: 对所述新闻视频进行解码，获得单帧的视频图像。

步骤 13:从所述视频图像中提取候选字幕区域，进行新闻字幕区域定位。步骤 14: 将所述新闻字幕区域与新闻模板库中的模板图像进行匹配。步骤 15: 如果匹配，按照匹配成功的模板图像标注格式对所述新闻字幕区域进行标注。

如果不匹配，对所述新闻字幕区域进行标注。

图 1B是本发明具体实施方式中新闻视频字幕标注的详细流程图。如图 1 所示，该新闻视频字幕标注的流程包括以下步骤：釆用电脑加电视卡的方案，可以边釆集边存储；釆集阶段***通过釆集配置计划对视频流进行定向釆集，然后对釆集的视频数据进行视频内容分析。

步骤 102、对新闻视频进行解码，获得单帧的视频图像。

步骤 103、对每一帧视频图像进行灰度变换，生成灰度图像，按照下述公式进行灰度变换：

L(x,y)=0.3 R(x,y)+0.59 G(x,y)+0.11 * B(x,y), 其中， L(x,y)为像素点 (x,y) 的灰度值， R(x,y)、 G(x,y)和 B(x,y)为像素点 (x,y)的 RGB颜色中的红、绿和蓝分量。

步骤 104、对生成的灰度图像中的角点进行检测，删除背景中的角点。由于视频图像中所有边界曲率足够高的点都会被判断成是角点，因此在视频图像的角点分布图中除了含有字幕区域的角点之外，还可能存在一些背景留下的角点。为了提高字幕区域检测的准确率，先将角点分布图中孤立的角点滤除，这样可以避免噪声积累，减少最后提取结果中的噪声。由于视频中同一字幕会接连出现在多个视频图像中并且位置通常不会发生变化，而视频图像的背景则变化相对较大，这样就会导致如果相邻的两个视频图像中含有相同的字幕，则这两幅视频图像的字符对应的角点的坐标位置不会发生变化，而背景像素留下的角点的坐标值会发生变化，这就可以通过寻找两个相邻视频图像的公共角点集合（这个集合是一个包含字幕角点的准最小集合，因为这个集合仍然含有一些固定不变的背景角点 )过滤掉很大一部分背景像素留下的角点，从而大大降低了误检率。在对角点过滤算法进行实现时，为了提高匹配的速度，需要先对相邻两个视频图像角点集合中的每个角点按照 X 或者 y坐标值的大小进行排序，然后再找出两个角点集合中 x、 y坐标值相同的角点。由于在字幕区的角点几乎是均匀分布的，且一般的字幕区域是矩形，所以孤立的角点可以删除。为了形成候选字幕区域，彼此水平或垂直接近的角点合并。为合并后的面积可能比实际的小，所以适当的扩张几次，最后确定相同的候选字幕区域。

步骤 105、为了将提取的候选字幕区域进一步分解，釆用 Sobel边缘对候选字幕区域进行垂直和水平方向的分解，通过边缘区域的分解确定候选字幕区域的垂直和水平方向。

步骤 106、对新闻字幕区域进行验证。经过垂直和水平分解后的结果，接下来每个区域扩展到它的外接矩形。此时候选字幕区域已经很接近真实的字幕框了。本步骤中主要利用一些新闻中字幕的特征有针对性的处理。新闻视频中的字幕出现具有特定的一些规律，可以通过这些规律，过滤掉不符合以下至少一个规则的字幕区域：

新闻视频中字幕的出现持续预定时间；

新闻视频中横向字幕出现在屏幕的下方区域；

字幕框高度大于最小的字幕高度和小于最大的字幕高度；

视频图像中的标题字幕颜色与背景颜色有预设的对比度。

以上规则可以过滤很多过小，过大，或是垂直水平比率过小的非字幕框。但是误报依然存在，后续结合 sobel特征减少误报。这里应该提到上述约束可以筛选出包含大量的水平边缘点，但很少有垂直边缘点，或包含大量的垂直边缘点，但很少有横向边缘点的候选字幕区域。最后，使用基于单字幕行的特征分析来减少误报警。

步骤 107、提取新闻字幕区域中的文字和背景的颜色紋理特征，与新闻模板库中的模板图像的特征进行匹配，如果匹配，则转至步骤 108 ,如果不匹配，则转至步骤 109。

在本***中模板库的建立主要有两个阶段， ***前期就是用人工的手段，主要对需要标注新闻视频的格式，通过人工选出每个节目中有代表的字幕信息图片作为模板图片，然后对该图片标上相应的格式。比如中央一套的新闻联播，相应的标注格式为标题块及其标题出现的区域，横向提示字幕信息，竖向提示字幕信息和说话内容字幕信息等。后期随***的运行，模板的定位准确程度提高，仅仅需要人工对非模板内候选图片进行人工确认即可。根据需要处理新闻视频的量决定是否加入新的模板。为了减少人工的标注的工作量， ***目前只需标注模板图片中相应字幕出现的位置即可。

步骤 108、按照模板图像标注格式对新闻字幕区域进行标注。就是按模板库中模板图片标注格式***自动对该候选图片进行标注。该标注格式是层次的，每一层次对应的信息都是由人工根据新闻的内容设定的，比如节目内容字幕，新闻标题，重要信息提示字幕，说话内容字幕等。这些信息会在视频的索引中以不同的权重出现。同时由于模板信息，比如字幕的颜色，字幕的背景可能是固定，这些信息对字幕识别有很大帮助。有模板标注的字幕识别的性能远远好于非模板标注的字幕。

步骤 109、对新闻字幕区域进行标注。这类图片主要有以下几种形式，一是新闻视频中不常规的字幕信息，比如可能是视频内容中的字幕；二是新的新闻节目，比如没有标注的新的新闻节目或改版的新闻节目。 ***会根据字体的大小和横竖的方向信息对其中的字幕标注，字体大的字幕和竖向字幕在新闻视频中可能有更重要的作用。

步骤 110、将步骤 109对非模板的新闻字幕区域的标注结果存储到新闻模板库中，或者认定为一般字幕。

步骤 111、 ***会 ·ί巴定位和识别的结果导入到编辑***，编辑***利用丰富的候选结果和似然值信息， ***会突出显示识别得分低的位置。

参见图 2, 本发明具体实施例中用于新闻视频字幕标注的装置包括：釆集模块 201 , 用于釆集新闻视频；

解码模块 202 , 用于对所述新闻视频进行解码，获得单帧的视频图像；定位模块 203 , 用于从所述视频图像中提取候选字幕区域，进行新闻字幕区域定位；

匹配模块 204,用于将所述新闻字幕区域与新闻模板库中的模板图像进行匹配；

标注模块 205 , 用于在匹配成功时，按照匹配成功的模板图像标注格式对所述新闻字幕区域进行标注。在不匹配时，对所述新闻字幕区域进行标注。本领域内的技术人员应明白，本发明的实施例可提供为方法、 ***、或计算机程序产品。因此，本发明可釆用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可釆用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质 (包括但不限于磁盘存储器、 CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（***）、和计算机程序产品的流程图和 /或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和 /或方框、以及流程图和 /或方框图中的流程和 /或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

权利要求

1、一种新闻视频字幕标注方法，其特征在于，包括以下步骤：

釆集新闻视频；

对所述新闻视频进行解码，获得单帧的视频图像；

从所述视频图像中提取候选字幕区域，进行新闻字幕区域定位；将所述新闻字幕区域与新闻模板库中的模板图像进行匹配；

如果匹配，按照匹配成功的模板图像标注格式对所述新闻字幕区域进行标注。

2、根据权利要求 1所述的一种新闻视频字幕标注方法，其特征在于，对所述新闻字幕区域进行标注之后，还包括步骤：

将对所述新闻字幕区域的标注结果存储到新闻模板库中。

3、根据权利要求 1所述的一种新闻视频字幕标注方法，其特征在于，釆集新闻视频的步骤进一步包括：釆用电脑和电视卡的方式釆集新闻视频。

4、根据权利要求 1所述的一种新闻视频字幕标注方法，其特征在于，从所述视频图像中提取候选字幕区域的步骤进一步包括：

对所述视频图像进行灰度变换，生成灰度图像；

对所述灰度图像中的角点进行检测，删除背景中的角点；

将剩下的角点进行合并，生成候选字幕区域。

5、根据权利要求 4所述的一种新闻视频字幕标注方法，其特征在于，对所述视频图像进行灰度变换，生成灰度图像的步骤进一步包括：对所述视频图像按照下述公式进行灰度变换，生成灰度图像：

L(x,y)=0.3 R(x,y)+0.59 G(x,y)+0.11 * B(x,y), 其中， L(x,y)为像素点 (x,y) 的灰度值， R(x,y：)、 G(x,y)和 B(x,y)为像素点 (x,y)的红、绿和蓝分量。

6、根据权利要求 4所述的一种新闻视频字幕标注方法，其特征在于，对所述灰度图像中的角点进行检测，删除背景中的角点的步骤进一步包括：将所述灰度图像的背景中孤立的角点滤除；通过两帧相邻的视频图像的灰度图像进行比对，保留两帧相邻的视频图像的灰度图像的公共角点集合。

7、根据权利要求 1所述的一种新闻视频字幕标注方法，其特征在于，进行新闻字幕区域定位的步骤进一步包括：

8、根据权利要求 1所述的一种新闻视频字幕标注方法，其特征在于，从所述视频图像中提取候选字幕区域，进行新闻字幕区域定位之后，还包括步骤：对所述新闻字幕区域进行验证，过滤掉不符合以下至少一个规则的字幕区域：

新闻视频中字幕的出现持续预定时间；

新闻视频中横向字幕出现在屏幕的下方区域；

字幕框高度大于最小的字幕高度和小于最大的字幕高度；

视频图像中的标题字幕颜色与背景颜色有预设的对比度。

9、根据权利要求 1所述的一种新闻视频字幕标注方法，其特征在于，将所述新闻字幕区域与新闻模板库中的模板图像进行匹配的步骤进一步包括：提取所述新闻字幕区域中的文字和背景的颜色紋理特征，与新闻模板库中的模板图像的特征进行匹配。

10、根据权利要求 1 所述的一种新闻视频字幕标注方法，其特征在于，按照模板图像标注格式对所述新闻字幕区域进行标注的格式是分层次的，每一层次对应的信息是根据新闻的内容设定的，所述信息在视频的索引中以不同的权重出现。

11、一种用于新闻视频字幕标注的装置，其特征在于，包括：

釆集模块，用于釆集新闻视频；

匹配模块，用于将所述新闻字幕区域与新闻模板库中的模板图像进行匹配；

标注模块，用于在匹配成功时，按照匹配成功的模板图像标注格式对所述新闻字幕区域进行标注。