CN102890778A

CN102890778A - 基于内容的视频检测方法及装置

Info

Publication number: CN102890778A
Application number: CN 201110205816
Authority: CN
Inventors: 周景超; 欧阳毅; 梁大为; 汤炜
Original assignee: BEIJING NUFRONT SOFTWARE TECHNOLOGY Co Ltd
Current assignee: BEIJING NUFRONT SOFTWARE TECHNOLOGY Co Ltd
Priority date: 2011-07-21
Filing date: 2011-07-21
Publication date: 2013-01-23

Abstract

本发明公开了基于内容的视频检测方法及装置，采用部分图像解码的方式，先对待测视频节目进行音频解码和音频检测、以确定目标片段出现的候选区域，然后只对候选区域进行图像解码和图像检测、以确定目标片段的准确边界。采用这种方式，不仅大大提高了处理速度，还可以给出准确的目标片段的边界。

Description

基于内容的视频检测方法及装置

技术领域

本发明涉及视频识别技术领域，特别涉及基于内容的视频检测方法及装置。

背景技术

随着新媒体业务的不断铺开，基于内容的视频检测得到了越来越广泛的应用，即从一段视频中，检测出需要的目标片断。广告检测就是基于内容的视频检测的一种典型应用。

下面以广告检测为例，简要介绍已有的基于内容的视频检测方法。在广告检测中，目标片段就是广告片段。

目前，电视节目的传播渠道由单一的电视广播延伸至互联网、手机、IPTV等多种收视终端，同时，用户的收看方式也由被动收看转为主动点播，对节目内容的精细度提出了更高的要求。

考虑上述两方面因素，需要对原始的电视节目进行编目，如：节目分段、广告剔除和建立索引等。通过上述编目，将原始的电视节目转变为符合新媒体业务要求的节目源。

在传统的视频编目平台上，采用人工方式清除节目前后和节目中间插播的广告片段，由于广告片段的播出时间短、数量大，和新闻、电视剧等其他类型节目相比，比较零碎，因此这种人工方式的效率很低。

电视广告的特点是每天在固定的频道的多个时间段重复播放，并且播出的内容（音频和图像）完全相同。广告检测技术正是利用这一特点，采用复制检测领域中的成熟算法，达到检测的目的。目前的广告检测算法分为以下两大类：

1、基于学习的算法。此类算法首先对待测视频节目进行镜头分割，然后对分割出的视频片段进行分类，判断该视频片段是广告片段还是普通视频片段。在上述分类时，既可利用广告片段的自身特征，也可利用广告片段的上下文信息。

2、基于识别的算法。此类算法需要预先建立广告库。在进行广告检测时，从待测视频节目中提取特征序列，通过与广告库中的特征序列进行匹配，识别广告片段并确定其边界。这里的边界指广告片段的起止时刻。

上述基于学习的算法漏检和错检较多，且检测出的广告片段的边界不准确，而基于识别的算法可以比较准确的确定出广告片段的边界，但检测精度和处理速度都有待提高。

发明内容

有鉴于此，本发明的目的是提供基于内容的视频检测方法及装置，能够利用基于识别的算法，既快速又准确的检测出目标片段的边界。

为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键／重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

本发明的技术方案是这样实现的：

一种基于内容的视频检测方法，预先建立包括音频特征和图像特征的模板库；该方法还包括：

对待测视频节目进行音频解码并提取音频特征，将提取的音频特征与模板库中的音频特征进行匹配，确定目标片段出现的候选区域；

对所述候选区域进行图像解码并提取图像特征，将提取的图像特征与模板库中的图像特征进行匹配，确定目标片段的边界。

可选的，所述模板库的建立方法，具体包括：

从视频节目样本中切分目标片段，并从切分出的目标片段中提取音频特征和图像特征，建立模板库。

可选的，所述从视频节目样本中切分目标片段，包括：

如果待切分的目标片段的起始帧是全帧压缩编码帧I帧，从该帧开始切分；

如果待切分的目标片段的起始帧是前向预测编码帧P帧或双向预测内插编码帧B帧，从该帧之前最邻近的一个I帧开始切分，并记录所述P帧或B帧到所述最邻近的一个I帧的时间偏移量。

可选的，所述从切分出的目标片段中提取音频特征和图像特征时，从切分出的目标片段的实际起始帧开始提取。

可选的，其特征在于，先将视频节目样本中的帧按照时间戳重新排序，然后再从视频节目样本中切分目标片段。

可选的，还包括：利用确定出边界的目标片段，更新所述模板库。

可选的，所述更新模板库，具体包括：

在确定出边界的一组目标片段中，如果包含当前未确定为目标片段的视频节目片段，当该视频节目片段符合设定条件时，提取该视频节目片段的音频特征和图像特征并存入模板库。

可选的，所述更新模板库，具体包括：

扩展确定出边界的一组目标片段的两端；

提取扩展出的视频节目片段的音频特征和图像特征并缓存；

当在重复模式检测中利用缓存的音频特征和图像特征再次检测到扩展出的视频节目片段时，将缓存中发生重复的视频节目片段的音频特征和图像特征存入模板库。

可选的，所述更新模板库，具体包括：

监视模板库中的每一个目标片段最近一次被检测到的日期，将设定时间长度内未被检测到的目标片段的音频特征和图像特征从模板库中删除。

可选的，所述确定目标片段出现的候选区域，具体包括：

合并所述与模板库中的音频特征进行匹配后得到的相邻的匹配片段、和/或时间间隔小于设定阈值的不相邻的匹配片段；

扩展每个合并后的片段，作为一个候选区域。

可选的，所述提取音频特征，具体包括：

通过预处理得到音频帧的能量包络；

将所述能量包络切分为能量包络单元；

提取各个能量包络单元的切分点的位置及概率值并生成数对序列，作为所述音频特征。

可选的，所述将所述能量包络切分为能量包络单元，具体包括：

求取每个音频帧的检测函数；

在每一个设定局部区域中选择所述检测函数的最大值，作为局部极大值点；

将每一个局部极大值点与设定的上阈值及下阈值比较，根据比较结果得到该局部极大值点被检测为切分点的概率值；

根据所述概率值，从所述局部极大值点中选择出切分点，根据所述切分点将所述能量包络切分为能量包络单元。

可选的，所述局部极大值点被检测为切分点的概率值的计算公式为：

其中，T1为所述第一阈值，T2为所述第二阈值，

Figure 2011102058164100002DEST_PATH_IMAGE004

为局部极大值点。

可选的，所述从所述局部极大值点中选择出切分点，具体包括：

将概率值大于0、且最靠近所述能量包络中的能量峰值的局部极大值点作为切分点。

可选的，所述将提取的音频特征与模板库中的音频特征进行匹配，具体包括：

将模板库的每一个目标片段中概率值大于设定阈值的若干个切分点，作为该目标片段的匹配起始点；

针对待测视频节目的每个切分点，依次遍历模板库中每一个目标片段的每一个匹配起始点，使该切分点与其重合；从每个重合的匹配起始点开始，向后扫描该匹配起始点所属的模板库中的目标片段的每一个切分点，在待测视频节目中搜索与之匹配的切分点，并计算待测视频节目中搜索到的切分点所形成的片段与该重合的匹配起始点所属的模板库中的目标片段的相似度；

针对待测视频节目的每个切分点，从计算出的所有相似度中选择最大值，根据该最大值对应的待测视频节目中搜索到的切分点所形成的片段的时长为其确定所属的等级，如果该最大值大于所述等级对应的相似度阈值，将该最大值对应的待测视频节目中搜索到的切分点所形成的片段，作为待测视频节目的该切分点对应的匹配片段。

可选的，所述确定目标片段的边界，具体包括：

将提取的图像特征与模板库中的图像特征进行匹配后得到的匹配片段的边界，作为目标片段的边界。

可选的，所述提取图像特征包括：

将每一幅图像分为一组面积相等且位置固定的块，计算每一块的平均亮度；

在所述块中选择一块作为参考块，将其他块作为目标块，比较参考块和目标块的平均亮度；

设置掩码，以指示参考块与各个目标块之间的相对位置；

将每个目标块对应的平均亮度的比较结果与掩码进行相与运算，并将所有相与运算后的结果相加，得到该幅图像的图像特征。

可选的，所述比较参考块和目标块得平均亮度，具体包括：对照块的位置，生成与所述块位置一一对应的第一矩阵；

将每个目标块的平均亮度与参考块的平均亮度做比较，如果大于，在第一矩阵中与该目标块对应的位置中填写1，如果小于或者等于，在第一矩阵中与该目标块对应的位置中填写0。

可选的，所述设置掩码，具体包括：

对照块的位置，生成与所述块位置一一对应的第二矩阵；

按照设定顺序

，在目标块对应的位置中填写数值

Figure 2011102058164100002DEST_PATH_IMAGE008

。

可选的，所述模板库中，将连续个相同的图像特征作为一个分组，每个分组对应一个包括目标片段标识、分组起始位置和分组长度的倒排表项。

可选的，所述将提取的图像特征与模板库中的图像特征进行匹配，具体包括：

针对候选区域中提取出的每一个分组的图像特征，查找其在模板库中对应的分组的倒排表项；

记录查找到的倒排表项中的目标片段标识；

利用查找到的倒排表项中的分组起始位置，确定该倒排表项中的目标片段标识所对应的目标片段的起始位置；

将确定出的起始位置作为投票点，并将查找到的倒排表项中的分组长度作为该投票点的投票数；

将对应相同目标片段标识的投票点的累计投票数按照该目标片段标识对应目标片段的时长进行归一化，以票数最高且大于预设阈值的投票点的位置为起始点，得到匹配片段。

一种基于内容的视频检测装置，该装置包括：

模板库，用于存储音频特征和图像特征；

音频处理单元，用于对待测视频节目进行音频解码并提取音频特征，将提取的音频特征与模板库中的音频特征进行匹配，确定目标片段出现的候选区域；

图像处理单元，用于对候选区域进行图像解码并提取图像特征，将提取的图像特征与模板库中的图像特征进行匹配，确定目标片段的边界。

可选的，该装置中还包括：模板库建立单元，用于从视频节目样本中切分目标片段，从切分出的目标片段中提取音频特征和图像特征，并输出到所述模板库。

可选的，所述模板库建立单元包括：

切分子单元，用于在视频节目样本中的待切分的目标片段的起始帧是I帧时，从该帧开始切分出目标片段；在视频节目样本中的待切分的目标片段的起始帧是B帧或P帧时，从该帧之前最邻近的一个I帧开始切分出目标片段，并记录所述B帧或P帧到所述最邻近的一个I帧的时间偏移量；

提取子单元，用于从切分出的目标片段的实际起始帧提取音频特征和图像特征。

可选的，该装置中还包括：排序单元，用于将视频节目样本中的帧按照时间戳重新排序，将重新排序后的视频节目样本提供给所述模板库建立单元。

可选的，该装置中还包括：模板库更新单元，用于利用所述图像处理单元确定出边界的目标片段，更新所述模板库。

可选的，所述模板库更新单元包括：第一解析子单元，用于在确定出边界的一组目标片段中，识别当前未确定为目标片段的视频节目片段，解析该视频节目片段是否符合预设条件；

第一更新执行子单元，用于在第一解析子单元得出符合预设条件的解析结果时，提取所述视频节目片段的音频特征和图像特征存入所述模板库。

可选的，所述模板库更新单元包括：

第二解析子单元，用于扩展确定出边界的一组目标片段的两端；

第二更新执行子单元，用于缓存扩展出的视频节目片段的音频特征和图像特征，当在重复模式检测再次检测到扩展出的视频节目片段时，将缓存中发生重复的视频节目片段的音频特征和图像特征存入模板库。

可选的，所述模板库更新单元中包括：第三更新执行子单元，监视所述模板库中的每一个目标片段最近一次被检测到的日期，将设定时间长度内未被检测到的目标片段的音频特征和图像特征从所述模板库中删除。

可选的，所述音频处理单元包括：

音频解码子单元，用于对待测视频节目进行音频解码；

音频特征提取子单元，用于从音频解码后的待测视频节目中提取音频特征；

候选区域确定子单元，用于将提取的音频特征与模板库中的音频特征进行匹配、得到匹配片段，合并相邻的匹配片段和/或时间间隔小于预设值的不相邻的匹配片段，扩展每个合并后的片段、得到一个候选区域。

可选的，所述图像处理单元包括：

图像解码子单元，用于对所述候选区域进行图像解码；

图像特征提取子单元，用于从图像解码后的所述候选区域中提取图像特征；

目标片段确定子单元，用于将提取的图像特征与模板库中的图像特征进行匹配、得到匹配片段，将所述匹配片段的边界作为目标片段的边界。

可见，本发明基于内容的视频检测方法及装置，采用部分图像解码的方式，先对待测视频节目进行音频解码和音频检测、以确定目标片段出现的候选区域，然后只对候选区域进行图像解码和图像检测、以确定目标片段的准确边界。由于音频解码和音频检测可以取得很快的处理速度、但无法给出准确的目标片段的边界，而图像解码和图像检测可以给出准确的目标片段的边界、但处理速度较慢，所以采用这种结合方式，不仅大大提高了处理速度，还可以给出准确的目标片段的边界。

为了上述以及相关的目的，一个或多个实施例包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明某些示例性方面，并且其指示的仅仅是各个实施例的原则可以利用的各种方式中的一些方式。其它的益处和新颖性特征将随着下面的详细说明结合附图考虑而变得明显，所公开的实施例是要包括所有这些方面以及它们的等同。

说明书附图

图1为本发明中基于内容的视频检测方法的流程图；

图2为本发明实施例中对一幅图像进行分块的示意图；

图3为本发明实施例中在图2所示每一块内计算平均亮度后得到的结果示意图；

图4为本发明实施例中的第一矩阵；

图5为本发明实施例中的第二矩阵；

图6为本发明实施例中对视频节目样本中的帧进行重新排序的示意图；

图7为本发明实施例中FBP分组的示意图；

图8为本发明实施例中倒排表项的示意图；

图9为本发明实施例中广告库的组织结构示意图；

图10为本发明实施例中广告检测方法的流程图；

图11为本发明实施例中从候选区域中提取的图像特征示意图；

图12为本发明实施例中广告检测中每个处理环节的用时示意图；

图13为本发明中基于内容的视频检测装置的结构示意图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。其他实施方案可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求，否则单独的组件和功能是可选的，并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围，以及权利要求书的所有可获得的等同物。在本文中，本发明的这些实施方案可以被单独地或总地用术语“发明”来表示，这仅仅是为了方便，并且如果事实上公开了超过一个的发明，不是要自动地限制该应用的范围为任何单个发明或发明构思。

在基于内容的视频检测开始之前，预先建立包括音频特征和图像特征的模板库。

图1为本发明基于内容的视频检测方法的流程图，该流程包括：

步骤11：对待测视频节目进行音频解码并提取音频特征，将提取的音频特征与模板库中的音频特征进行匹配，确定待测视频节目中目标片段出现的候选区域。

步骤12：对候选区域进行图像解码并提取图像特征，将提取的图像特征与模板库中的图像特征进行匹配，确定目标片段的边界。

如上所述，本发明基于内容的视频检测方法采用部分图像解码的方式，先对待测视频节目进行音频解码和音频检测、以确定目标片段出现的候选区域，然后只对候选区域进行图像解码和图像检测、以确定目标片段的准确边界。由于音频解码和音频检测可以取得很快的处理速度、但无法给出准确的目标片段的边界，而图像解码和图像检测可以给出准确的目标片段的边界、但处理速度较慢，所以采用这种结合方式，不仅大大提高了处理速度，还可以给出准确的目标片段的边界。

在确定待测视频节目中目标片段的边界之后，可以从待测视频节目中将目标片段切分出来。

下面以广告检测为例给出本发明方法的可选实施例。

检测流程开始之前建立的模板库为广告库，目标片断为广告片段。

在具体给出本实施例的检测流程之前，先介绍本实施例中提取音频特征和图像特征的方法、及广告库维护的方法。

一、音频特征提取方法。

本实施例中的音频特征提取，主要是先通过预处理得到音频帧的能量包络，再将能量包络切分成能量包络单元，最后提取各个能量包络单元的切分点的位置及概率值并生成数对序列，作为音频特征。

上述音频特征提取具体包括如下步骤：

步骤1：预处理。

预处理主要包括：对视频节目中的音频信号重新采样，使处理后的音频信号具有单通道和统一的、固定的采样率（例如16000），进一步将音频信号按照固定的时间长度（例如25ms）切分成音频帧，同时保证两个相邻的音频帧具有一定时间的重叠（例如15ms）。

音频帧的能量定义为该音频帧所有采样点的值的平方和，能量包络是以音频帧号为横坐标，音频帧的能量为纵坐标所形成的曲线，能量包络的形状反映了音频帧的能量在一段时间内的变化情况。

步骤2：检测能量包络单元。

对能量包络中每个音频帧的能量进行平滑操作，以滤除一定程度的噪声干扰。平滑窗口大小为11帧。

将能量包络切分成若干个独立的单元，每个单元对应着音频帧的能量从低到高，再从高到低的变化过程，称为能量包络单元。能量包络单元以起始点和终止点来进行标记。考虑到前面一个能量包络单元的终止点就是后面一个能量包络单元的起始点，统一采用起始点来标记一个能量包络单元，并将其称为能量包络单元的切分点。

能量包络单元检测的目标是确定每一个能量包络单元的切分点，并给该点赋予一个0到1之间的数，表示该点处的能量和能量包络单元的能量峰值的相对差异。这样，能量包络单元的检测问题就归结为能量包络单元的切分点检测问题。

检测能量包络单元通过如下子步骤实现：

子步骤1：确定检测函数。

对于每一个音频帧，求取与该音频帧紧邻的后面N个音频帧的能量的最大值，并用该最大值与该音频帧的能量做除法操作，得到的值称为检测函数。在本实施例中N的取值为10。

如下公式（1）示出了检测函数。

（1）

子步骤2：求概率值。

求取检测函数的局部极大值点，计算公式如下面的公式（2）所示，其中的R代表一个局部区域，R不小于3帧。局部极大值点

是该局部区域中检测函数的最大值。

（2）

检测函数的局部极大值点对应于能量的局部极小值点，相对于其他点具有较高的稳定性，因此用它作为能量包络单元的切分点更合适。

设置两个阈值：一个下阈值T₁，一个上阈值T₂。凡是低于下阈值的局部极大值点，将其对应的概率值设置为0，凡是大于上阈值的局部极大值点，将其对应概率值设置为1，而位于下阈值和上阈值之间的局部极大值点，其概率值为局部极大值与下阈值之差再除以上阈值与下阈值之差。在本实施例中T₁取值为1.4，T₂取值为2.4。

概率值的计算公式如下面的公式（3）所示。

（3）

概率值反映了局部极大值点

被检测为切分点的概率。

子步骤3：确定切分点。

把概率值大于0的局部极大值点作为候选切分点，对于每个能量峰值，将最靠近该能量峰值的候选切分点作为最终的切分点。

通过上述子步骤1~子步骤3，得到每个能量包络单元的切分点的位置及概率值，这样一段视频节目将表示为如下面的公式（4）所示的数对序列，其中

表示切分点的位置、

表示该切分点的概率值。

（4）

公式（4）所示的数对序列就是提取出的音频特征。

二、图像特征提取方法。

为了减少数据量和不必要的数据格式转换，本发明实施例中，在图像解码得到的YUV空间的Y分量上计算图像特征，这里的Y分量就是亮度。

为了避免图像左上方的频道标识和下方动态滚动条的干扰，本实施例中只在图像的中心区域提取图像特征。

以图2所示的一幅图像为例，将该幅图像的中心区域划分成3×3的小块。

本实施例中的图像特征提取，包括如下步骤：

步骤1：在一幅图像中的每个小块内计算平均亮度。

本步骤中，计算平均亮度按照现有技术中的方法进行。

图3为本实施例中在图2所示每一块内计算平均亮度后得到的结果示意图。

步骤2：求取第一矩阵。

本步骤中，对照一幅图像中块的位置，生成位置一一对应的第一矩阵，按照本实施例中一幅图像中的分块情况，该第一矩阵为3×3的矩阵。

将位于图像中心位置的块作为参考块，将其他块作为目标块，比较参考块的平均亮度与每一个目标块的平均亮度，如果小于，在第一矩阵中该目标块对应的位置中填写1，如果大于或者等于，在第一矩阵中该目标块对应的位置中填写0。

图4为本实施例中的第一矩阵。

步骤3：求取第二矩阵。

本步骤中，对照一幅图像中块的位置，生成位置一一对应的第二矩阵，按照本实施例中图像中的分块情况，该第一矩阵为3×3的矩阵。

按照逆时针的顺序，在参考块对应的位置中依次填入

，其中i为依照逆时针顺序的序号。

图5为本实施例中的第二矩阵。

也可以按照顺时针或其他顺序对第二矩阵执行操作。

步骤4：将第一矩阵和第二矩阵对应位置上的值进行与运算，并将与运算后的各个位置上的取值求和。

本步骤得到的求和之后的值，就是图2所示图像的图像特征，称为帧二值模式（FBP，Frame Binary Pattern）。按照图3至图5所示，图2所示的一幅图像的FBP为131。

FBP的计算速度快，对于90000个图像帧，计算时间小于7秒，而且每个图像帧对应的FBP仅需要8比特的存储空间。

三、广告库维护。

本发明实施例中的视频节目样本和待测视频节目都是MPEG-2 传输数据流（TS，Transport Stream）。TS格式是广电行业通用的流媒体标准，每个TS包的大小固定为188个字节，其中至少有4个字节作为包头，描述同步、私有、节目标识、错误状态和时间戳等信息，TS包的其余字节用于传输数据，如音频和图像信息。通过分析TS包的内部结构可以获得音频、图像以及时间信息。

在MPEG-2视频格式中，视频帧分为I帧、P帧和B帧。I帧是一个全帧压缩编码帧，将全帧图像信息进行压缩和传输，在解码时仅用I帧数据就可以重构完整的图像，同时，I帧所占的数据量比较大。I帧是帧组中的基础帧，一个帧组只有一个I帧。P帧是前向预测编码帧，它采用运动补偿的方法传送其本身与前面的I帧或者P帧的差值及运动矢量。B帧是双向预测内插编码帧，它传送自身与前面的I帧或者P帧和后面的P帧之间的预测误差及运动矢量。P帧和B帧的压缩率比较高。由于P帧也可以作为参考帧，所以可能造成解码错误的累加和扩散。

广告库维护包括初次建立广告库和更新广告库，下文中将前者称为初次入库，将后者称为迭代入库。

1）初次入库。

本实施例中，从视频节目样本中切分目标片段，并从切分出的目标片段中提取音频特征和图像特征，实现初次入库。

考虑到音视频不同步的问题，在从视频节目样本中切分广告片段之前，先对视频节目样本中各帧按照时间戳进行重新排序。图6为本实施例中对视频节目样本中的帧进行重新排序的示意图，其中位于下面的一行为重新排序前的各帧位置，位于上面一行的为重新排序后的各帧位置，圆圈内为时间戳。

初次入库具体包括如下几个步骤：

步骤1：在视频节目样本中标注广告片段的边界。

本步骤中，以视频节目样本中的图像作为标注广告片段的依据。

步骤2：从视频节目样本中切分标注后的广告片段。

标注出的广告片段的起止时刻可能对应于全帧压缩编码帧（I帧）、前向预测编码帧（P帧）或双向预测内插编码帧（B帧），如果对应于一个I帧，则从该帧切分后得到的视频片段能够顺利解码，如果广告片段的起始时刻对应于一个B帧或P帧，则从该帧切分后得到的视频片段，由于找不到I帧作为参考，从该帧开始至遇到第一个I帧之间的帧在解码时都会作废，这将造成后续提取图像特征时产生偏差，最终影响检测广告片段边界的准确度。

为了使切分精确到帧，如果标注出的广告片段的起始帧是I帧，从该帧开始进行切分；如果标注出的广告片段的起始帧是B帧或者P帧，则将切分起始帧设为该帧之前最近邻的一个I帧，并从该I帧起进行切分，同时记录该I帧与广告片段起始的B帧或者P帧之间的时间偏移，以备后续提取音频特征及图像特征时使用。

步骤3：从切分出的广告片段中提取音频特征和图像特征。

本步骤中，音频特征和图像特征的提取按照前文中介绍过的方法进行。步骤2中如果从标注出的广告片段起始的B帧或者P帧之前最近邻的一个I帧进行切分，则本步骤中将利用步骤2中记录的时间偏移，从广告片段起始的B帧或P帧开始提取音频特征和图像特征。

步骤4：将提取的音频特征和图像特征存入广告库。

本步骤中，音频特征方面，将视频节目样本的数对序列存入广告库，图像特征方面，将视频节目样本的FBP存入广告库。

由于视频节目样本的时间连续性，利用视频节目样本的FBP可以得到一种自然的分组，具体为：比较相邻两幅图像的FBP，如果相同则为同一分组，如果不同则为一个新分组的开始。图7为本发明实施例中FBP分组的示意图。实验结果表明，90000个图像帧通过FBP分组可以得到12000个分组，即每秒得到约3个分组。考虑到一般的广告时长在5秒左右，即：具有15个分组，这样的采样密度保持了足够的信息量。

采用倒排表项对广告片段中提取出的图像特征进行索引，格式为（广告片段标识，分组起始位置，分组长度）。图8为本发明实施例中倒排表项的示意图，对于标识为0的广告片段来说，其包含三个分组，第一个分组的FBP为55，第二个分组的FBP为61，第三个分组的FBP为32。上述第三个分组的倒排表表示为（0,6,1），代表FBP为32的分组属于标识为0的广告片段、分组起始位置在该广告片段的左起第6个位置、且分组长度为1。这样，在广告库中存储图像特征时，只需存储每个分组的一个FBP及倒排表项，而无需存储每个FBP，不仅节省了广告库的存储空间，同时在后续的广告检测中，有利于提高图像特征的匹配速度，这一点在后文的广告检测流程中详细说明。

经过上述步骤1~步骤4，初始入库完成。

进一步，为了精简广告库内存储的信息，考虑到同一个广告片段在一段时期内，可能在不同时段重复播放，所以在切分得到的所有广告片段中，可能存在多个广告片段是同一个广告的情况，在上述步骤4之前可以进行查重操作。

查重操作具体分为以下两种：

自身查重，即在待入库的广告片段的内部进行查重，确保在待入库的广告片段中，同一条广告只有一个广告片段；

广告库查重，即在待入库的广告片段和广告库中的所有广告片段之间进行查重，确保在广告库中，同一条广告只有一个广告片段。

具体的，查重操作是将某个切分出的广告片段的音频特征及图像特征，分别与指定集合中的所有广告片段的音频特征及图像特征进行匹配，如果发现有匹配上的广告片段，则认为这两个广告片段重复，只保留一个广告片段即可。

在上述查重操作中，对音频特征和图像特征进行平行操作，二者互不干扰。这样做的原因在于：

存在一些广告，在同一个广告的不同版本之间，可能声音相同而图像发生变化，如果只采用音频特征进行查重，可能会漏掉同一个广告的不同版本，导致广告库不准确。同样的，图像也存在类似的问题。

还存在一些广告，自始至终几乎没有声音或者声音很小，这样就只能依靠图像特征进行查重；同样存在一些广告，自始至终只有一、两个镜头，只能依靠音频特征进行查重。

音频特征和图像特征进行平行的查重操作，就能避免因为一种特征的缺陷导致整条广告不能入库的情况。

2）迭代入库。

本实施例中的迭代入库的主要任务有两个：发现新的广告片段并将其入库，以及将停播的广告片段从广告库中删除。

对于发现新的广告片段，包括如下两种方法：

第一、电视节目广告的特点是成组出现，如果某次广告检测后发现检测出的一组广告片段中包含了未检测为广告片段的视频节目片段，当该视频节目片段符合预设条件，例如时间长度不超过5分钟等，就认为该视频节目片段为新的广告片段，提取该视频节目片段的图像特征和音频特征存入广告库；

第二、新播出的广告往往伴随在已播出的广告旁边，对检测出的一组广告片段的两端进行充分扩展（例如扩展长度为10分钟），确保可能出现的新广告包含在内，缓存扩展出的视频节目片段的音频特征和图像特征，如果在重复模式检测中利用缓存的音频特征和图像特征再次检测到扩展出的视频节目片段，将缓存中发生重复的视频节目片段的音频特征和图像特征存入广告库。

为了将停播的广告片段及时从广告库中删除，监视广告库中每一条广告片段最近一次被检测到的日期，如果某个广告片段在设定的一段时期内都没有被检测到，则认为该广告已经停播，将该广告片段的音频特征和图像特征从广告库中删除。

图9为本发明实施例中广告库的组织结构示意图。广告库按照频道存放，每个频道对应一个文件夹。在每个频道的文件夹中，分日期存放广告片段以及从该广告片段提取的音频特征和图像特征。

每个频道的文件夹具体包括以下内容：

List.txt：入库的广告片段的视频文件列表；

Checklog.txt：入库操作记录；

Aeelist.txt：入库的广告片段的音频特征文件列表；

Fbplist.txt：入库的广告片段的图像特征文件列表；

日期文件夹：以更新该频道广告库的日期作为文件夹名称，其中存放更新内容。

在每一个频道中，日期文件夹包含以下内容：

List.txt：本次更新中入库的广告片段的视频文件列表，对应当前文件夹下的视频文件；

AeeList.txt：本次更新中入库的广告片段的音频特征文件列表，对应于当前文件夹下Aee子文件夹中的音频特征文件；

FbpList.txt：本次更新中入库的广告片段的图像特征文件列表，对应于当前文件夹下Fbp子文件夹中的图像特征文件。

基于广告库，本发明实施例采取部分解码的方式进行广告检测。

视频解码是一个计算量很大、很耗时的环节，视频解码分成两部分，音频解码和图像解码，其中音频数据量小，约占整个视频数据的5%左右，并且解码快，而图像数据量大，约占整个视频数据的95%左右，并且解码很慢（和压缩格式有关）。在广告检测时，如果只对音频解码并使用音频检测，可以取得很快的处理速度，经实验观察能够达到90~100倍速。但是，由于音视频不同步的问题，音频检测无法给出广告片段准确的边界，需要借助图像检测进行校正。

图10为本发明实施例中广告检测方法的流程图，该流程包括：

步骤101：对待测视频节目，如MPEG2-TS格式数据流，进行音频解码。

步骤102：进行音频检测，得到音频检测结果。

本步骤中的音频检测就是从音频解码后的待测视频节目中提取音频特征、并与广告库中的音频特征进行匹配，得到待测视频节目中的匹配片段。

这里的提取音频特征，按照前文介绍过的方法执行。

这里的与广告库中的音频特征进行匹配，通过如下子步骤实现：子步骤1：确定广告库中每一个广告片段的匹配起始点。

本步骤中，根据经验值预先设置一个阈值，本实施例中该阈值设置为0.1/(T2-T1)，其中T1为前文中的下阈值，T2为前文中的上阈值。只有概率值大于该预先设定的阈值的切分点才会被选为匹配起始点。为了增强匹配起始点的可靠性，提高检测算法的查准率和查全率，对于广告库中的每一个广告片段，可以有多个匹配起始点。

子步骤2：匹配音频特征。

设广告库中的广告片段的音频特征为

，待测视频节目的音频特征为

。

针对待测视频节目的每个切分点，依次遍历广告库中每一个广告片段的每一个匹配起始点，使该切分点与其重合。这里假设待测视频节目的第1个切分点与广告库中的第1个广告片段的第1个匹配起始点位置重合。

针对广告库中的第1个广告片段，从第1个匹配起始点开始，向后扫描其每一个切分点，搜索该切分点在待测视频节目中是否有匹配的切分点。这里的搜索方法是，如果两个点的位置偏差小于一个预设阈值（例如50毫秒），认为两个点匹配上，并取两个匹配点的概率值的最小值作为匹配概率。设

和是第

对匹配上的点，记为

，则匹配概率记为

。如果发现第1个广告片段中的连续若干个切分点在待测视频节目中都没有找到匹配的切分点，可以终止对第1个广告片段剩余部分的匹配，从而节省匹配的时间开销。

计算从待测视频节目中搜索到的切分点所形成的片段与广告库中的第1个广告片段的相似度。设待测视频节目中搜索到的切分点的数对序列表示为

，相似度的计算类似于F测度，为查全率和查准率的调和均值。

查全率用待测视频节目中所有搜索到的切分点的匹配概率的和除以第1个广告片段中从匹配起始点开始到结束的所有切分点的概率值之和，如下公式（5）所示：

（5）

查准率用待测视频节目中所有搜索到的切分点的匹配概率的和除以待测视频节目从第一个搜索到的切分点开始到最后一个搜索到的切分点之间的所有切分点的概率值之和，设最后一个匹配点为

，如下公式（6）所示：

（6）

然后计算F测度作为最后的相似度，如下公式（7）所示：

（7）

以上是以待测视频节目的第1个切分点与广告库中的第1个广告片段的第1个匹配起始点重合为例，实际上待测视频节目的每一个切分点，有可能在广告库中的每一个广告片段中都可以找到重合的匹配起始点，也就是说针对待测视频节目的每一个切分点，可以针对广告库中的每一个广告片段计算出一个相似度。

本实施例中预先设置相似度阈值，包括：按照广告片段的时长预先设置若干个等级，并为每个等级设置一个相似度阈值。相似度阈值的范围一般设置为0.8到1.0之间，基本原则是，时间长的广告片段可以设置小的相似度阈值，时间短的广告片段可以设置大的相似度阈值。

因此针对待测视频节目的每一个切分点，从计算出的所有相似度中选择最大值，根据该最大值对应的待测视频节目中搜索到的切分点所形成的片段的时长为其确定所属等级，然后，比较该最大值和该等级对应的相似度阈值，如果大于，则将该最大值对应的待测视频节目中搜索到的切分点所形成的片段，作为待测视频节目的该切分点对应的匹配片段。

步骤103：根据音频检测结果进行扩展，得到广告出现的候选区域。

本步骤中，合并步骤102中得出的相邻的匹配片段和/或时间间隔小于预设值（例如15秒）的不相邻的匹配片段，扩展每个合并后的片段，作为一个候选区域。

步骤104：对候选区域进行图像解码。

步骤105：进行图像检测，得到图像检测结果。

这里的图像检测就是从图像解码后的候选区域中提取图像特征、并与广告库中的图像特征进行匹配，得到匹配片段。

这里的图像特征提取，按照前文介绍过的方法进行。

图11为本发明实施例中从候选区域中提取的图像特征示意图，其中上面的序列表示从候选区域中提取的图像特征。

图11所示的候选区域中包括5个分组，对应的FBP分别为91、55、61、32和61，查找在广告库中对应的分组的倒排表项。其中，FBP为32的分组在广告库中的倒排表项为（0,6,1），FBP为55的分组在广告库中的倒排表项为（0,0,4），FBP为61的分组在广告库中的倒排表项为（0,4,2）。

本实施例中，图像特征匹配时采用二维hough投票算法，利用查找到的倒排表项中的分组起始位置，确定广告片段的起始位置作为投票点，图11中下面的序列代表投票点的位置，提取的每个分组的图像特征都对应有一个投票点。投票点记录的数据格式为（广告片段标识，投票累计值）。

如图11所示，针对候选区域中提取的最右边FBP为61的分组，按照广告库中的倒排表项，该分组应该属于广告库中的第0个广告片段，将该FBP左侧的第4个位置，即第0个广告片段的起始位置，设为投票点（图11中示为a），所投票数为2，则该投票点记录的数据为（0，2）。针对候选区域中提取的FBP为32的分组，按照广告库中的倒排表项，该分组属于广告库中的第0个广告片段，将该FBP左侧的第6个位置，即第0个广告片段的起始位置，设为投票点（图11中示为b），所投票数为1，则该投票点记录的数据为（0,1）。针对候选区域中提取的中部FBP为61的分组，按照广告库中的倒排表项，该分组属于广告库中的第0个广告片段，将该FBP左侧的第4个位置，即第0个广告片段的起始位置，设为投票点（仍然是图11中所示的b），所投票数为2，该投票点记录的数据为（0,3）。针对候选区域中FBP为55的分组，按照广告库中的倒排表项，该分组属于广告库中的第0个广告片段，将该FBP本身的位置，即第0个广告片段的起始位置，设为投票点（仍然是图11中所示的b），所投票数为4，该投票点记录的数据为（0,7）。

图11所示的候选区域中，FBP为55、61和32的分组均对应广告库中第0个广告片段，对这些分组的投票结束后，使用第0个广告片段的时长对投票结果进行归一化。

针对候选区域提取的每个图像特征都进行上述投票、并对投票结果归一化，由于每个投票点不仅记录了票数、还记录了广告片段的标识，将具有同一广告片段标识的投票点的票数进行比较，找出票数最高且大于预设阈值的投票点，该投票点的位置作为与广告库中的图像特征进行匹配后得到的匹配片段的起始点。以图11为例，与第0个广告片段相关的投票点的投票结果进行归一化后，候选区域中FBP为55的位置处的投票点的票数最高，则将候选区域中FBP为55的位置作为候选区域中第0个广告片段的起始点。由于广告库中各个广告片段的长度已知，根据起始点可以确定匹配片段的结束点。

步骤106：融合音频检测结果和图像检测结果。

这里的融合包含以下三种情况：

第一、对于只有音频检测结果的广告，以音频检测结果为准；

第二、对于只有图像检测结果的广告，以图像检测结果为准；

第三、对于既有图像检测结果又有音频检测结果的广告，以图像检测结果为准。

以录制下来的60分钟的TS格式的待测视频节目为例，其中广告时长在5分钟左右，图12示出了本发明实施例中广告检测的每一个处理环节占用的大致时间。从图12可以看出，采用本发明实施例中的广告检测方法，比只采用音频检测仅多用了14秒的时间，但得出了准确的广告片段的边界。

在得到准确的广告片段的边界之后，可以将检测出的广告片段从待测视频节目中切分出来，从而得到符合新媒体业务源要求的视频节目。

利用上述可选实施例中给出的检测方法，可以取得非常好的检测效果。测试环境是4核Intel Xeon CPU 2.5 GHz，8G内存，测试数据为4个频道的连续37天共计870个小时的视频节目，入库广告共计1776条，广告库空间约为50MB。广告检测的召回率和准确率均接近100%。对于一小时视频，视其中广告条数而定，处理速度在60~80倍速。

可以理解的是，以上本发明方法的可选实施例中给出的音频特征提取方法、图像特征提取方法、音频检测方法和图像检测方法仅为一种具体的举例，不能成为本发明保护范围的限制。本领域技术人员可以明白，只要先对待测视频节目进行音频解码以及音频检测、确定目标片段出现的候选区域，再对候选区域进行图像解码以及图像检测、确定目标片段的边界，均可以解决本发明的技术问题。

在其他的应用场景下，可以采用如下区别于上述可选实施例的替代方法：

在提取音频特征时，可以采用能量差分指纹作为替代方案，相应的，在音频特征匹配时可以采用现有技术中针对能量差分指纹的检测方法；

在提取图像特征时，可以采用颜色聚合向量作为替代方案，相应的，在图像特征匹配时可以采用现有技术中针对颜色聚合向量的检测方法。

以上举出的替代方法，具体实现均为现有技术中的内容，这里不再赘述。

图13为本发明基于内容的视频检测装置的结构示意图，该装置包括：模板库建立单元，模板库、音频处理单元和图像处理单元。

上述模板库，用于存储音频特征和图像特征。

上述音频处理单元，用于对待测视频节目进行音频解码并提取音频特征，将提取的音频特征与模板库中的音频特征进行匹配，确定待测视频节目中目标片段出现的候选区域。

上述图像处理单元，用于对候选区域进行图像解码并提取图像特征，将提取的图像特征与模板库中的图像特征进行匹配，确定目标片段的边界。

可见，本发明基于内容的视频检测装置采用部分图像解码的方式，先对待测视频节目进行音频解码和音频检测、以确定目标片段出现的候选区域，然后只对候选区域进行图像解码和图像检测、以确定目标片段的准确边界，由于音频解码和音频检测可以取得很快的处理速度、但无法给出准确的目标片段的边界，而图像解码和图像检测可以给出准确的目标片段的边界、但处理速度较慢，所以采用这种结合方式，不仅大大提高了处理速度，还可以给出准确的目标片段的边界。

作为一种可选的实施例，图13所示的装置中还可以包括：模板库建立单元，用于从视频节目样本中切分目标片段，从切分出的目标片段中提取音频特征和图像特征，并输出至模板库。

上述模板库建立单元中可以包括：切分子单元和提取子单元。

上述切分子单元，用于在视频节目样本中的待切分的目标片段的起始帧是I帧时，从该帧开始切分出目标片段；在视频节目样本中的待切分的目标片段的起始帧是B帧或P帧时，从该帧之前最邻近的一个I帧开始切分出目标片段，并记录上述B帧或P帧到上述最邻近的一个I帧的时间偏移量。

上述提取子单元，用于从切分出的目标片段中提取音频特征和图像特征。这里的提取子单元在执行操作时，从切分出的目标片段中的实际起始帧开始提取音频特征和图像特征。

上述提取子单元在提取音频特征和图像特征时，具体按照前文已介绍过的提取方法执行操作。

为了克服音视频不同步的问题，本发明的装置中还可以包括：排序单元，用于将视频节目样本中的帧按照时间戳重新排序，将重新排序后的视频节目样本提供给上述模板库建立单元。

作为一种可选的实施例，图13所示的装置中还可以包括：模板库更新单元，用于利用所述图像处理单元确定出边界的目标片段，更新所述模板库。

上述模板库更新单元可以包括：第一解析子单元和第一更新执行子单元。

上述第一解析子单元，用于在确定出边界的一组目标片段中，识别当前未确定为目标片段的视频节目片段，解析该视频节目片段是否符合预设条件。

上述第一更新执行子单元，用于在第一解析子单元得出符合预设条件的解析结果时，提取所述视频节目片段的音频特征和图像特征存入所述模板库。

上述模板库更新单元可以包括：第二解析子单元和第二更新执行子单元。

上述第二解析子单元，用于扩展确定出边界的一组连续目标片段的两端。

上述第二更新执行子单元，用于缓存扩展出的视频节目片段的音频特征和图像特征，当在重复模式检测再次检测到扩展出的视频节目片段时，将缓存中发生重复的视频节目片段的音频特征和图像特征存入模板库。

上述模板库更新单元中可以包括：第三更新执行子单元，监视所述模板库中的每一个目标片段最近一次被检测到的日期，将设定时间长度内未被检测到的目标片段的音频特征和图像特征从所述模板库中删除。

在不同的应用场景下，模板库更新单元可以同时包括上述第一解析子单元、第一更新执行子单元、第二解析子单元、第二更新执行子单元和第三更新执行子单元。或者，模板库更新单元可以同时包括第一解析子单元、第一更新执行子单元和第三更新执行子单元。或者，模板库更新单元可以同时包括第二解析子单元、第二更新执行子单元和第三更新执行子单元。

作为一种可选的实施例，上述音频处理单元包括：音频解码子单元、音频特征提取子单元和候选区域确定子单元。

上述音频解码子单元，用于对待测视频节目进行音频解码。

上述音频特征提取子单元，用于从音频解码后的待测视频节目中提取音频特征。这里的音频特征提取子单元，可以按照前文已介绍的音频特征提取方法执行操作。

上述候选区域确定子单元，用于将提取的音频特征与模板库中的音频特征进行匹配、得到匹配片段，合并相邻的匹配片段和/或时间间隔小于预设值的不相邻的匹配片段，扩展每个合并后的片段、得到一个候选区域。这里的候选区域确定子单元，可以按照前文已介绍的音频特征匹配方法执行操作。

作为一种可选的实施例，上述图像处理单元包括：图像解码子单元、图像特征提取子单元和目标片段确定子单元。

上述图像解码子单元，用于对所述候选区域进行图像解码。

上述图像特征提取子单元，用于从图像解码后的所述候选区域中提取图像特征。这里的图像特征提取子单元，可以按照前文已介绍的图像特征提取方法执行操作。

上述目标片段确定子单元，用于将提取的图像特征与模板库中的图像特征进行匹配、得到匹配片段，将匹配片段的边界作为目标片段的边界。这里的目标片段确定子单元，可以按照前文已介绍的图像特征匹配方法执行操作。

除非另外具体陈述，术语比如处理、计算、运算、确定、显示等等可以指一个或更多个处理或者计算***、或类似设备的动作和／或过程，所述动作和／或过程将表示为处理***的寄存器或存储器内的物理(如电子)量的数据操作和转换成为类似地表示为处理***的存储器、寄存器或者其他此类信息存储、发射或者显示设备内的物理量的其他数据。信息和信号可以使用多种不同的技术和方法中的任何一种来表示。例如，在贯穿上面的描述中提及的数据、指令、命令、信息、信号、比特、符号和码片可以用电压、电流、电磁波、磁场或粒子、光场或粒子或者其任意组合来表示。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

本领域技术人员还应当理解，结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性，上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件，取决于特定的应用和对整个***所施加的设计约束条件。熟练的技术人员可以针对每个特定应用，以变通的方式实现所描述的功能，但是，这种实现决策不应解释为背离本公开的保护范围。

用于执行本申请所述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或者晶体管逻辑、分立硬件组件或者其任意组合，可以实现或执行结合本文的实施例所描述的各种说明性的逻辑框图、模块和电路。通用处理器可以是微处理器，或者，该处理器也可以是任何常规的处理器、控制器、微控制器或者状态机。处理器也可能实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器与DSP内核的结合，或者任何其它此种结构。

结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然，处理器和存储介质也可以作为分立组件存在于用户终端中。

为使本领域内的任何技术人员能够实现或者使用本发明，上面对所公开实施例进行了描述。对于本领域技术人员来说；这些实施例的各种修改方式都是显而易见的，并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此，本公开并不限于本文给出的实施例，而是与本申请公开的原理和新颖性特征的最广范围相一致。

对于软件实现，本申请中描述的技术可用执行本申请所述功能的模块(例如，过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内，也可以实现在处理器外，在后一种情况下，它经由各种手段以通信方式耦合到处理器，这些都是本领域中所公知的。

而且，本文所述的各个方面或特征可以作为使用标准的程序设计和／或工程技术的方法、装置或制品来实现。本文所使用的术语“制品”是要包括可以从任何计算机可读的设备、载波或介质来访问的计算机程序。例如，计算机可读的介质可以包括但不限于磁存储设备(例如，硬盘、软盘、磁带等)、光盘(例如，紧凑光盘(CD)、数字通用光盘(DVD)等)、智能卡以及闪速存储设备(例如，EPROM、卡、棒、钥匙驱动器等)。此外，本文描述的各种存储介质表示为用于存储信息的一个或多个设备和／或其它机器可读介质。术语“机器可读介质”包括但不限于能够存储、包含和／或携带指令和／或数据的无线信道和各种其它介质。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

Claims

1.一种基于内容的视频检测方法，其特征在于，预先建立包括音频特征和图像特征的模板库；该方法还包括：

2.如权利要求1所述的方法，其特征在于，所述模板库的建立方法，具体包括：

3.如权利要求2所述的方法，所述从视频节目样本中切分目标片段，包括：

4.如权利要求3所述的方法，其特征在于，所述从切分出的目标片段中提取音频特征和图像特征时，从切分出的目标片段的实际起始帧开始提取。

5.如权利要求2至4任一项所述的方法，其特征在于，先将视频节目样本中的帧按照时间戳重新排序，然后再从视频节目样本中切分目标片段。

6.如权利要求1所述的方法，其特征在于，还包括：利用确定出边界的目标片段，更新所述模板库。

7.如权利要求6所述的方法，其特征在于，所述更新模板库，具体包括：

8.如权利要求6或7所述的方法，其特征在于，所述更新模板库，具体包括：

扩展确定出边界的一组目标片段的两端；

提取扩展出的视频节目片段的音频特征和图像特征并缓存；

9.如权利要求6至8任一项所述的方法，其特征在于，所述更新模板库，具体包括：

10.如权利要求1所述的方法，其特征在于，所述确定目标片段出现的候选区域，具体包括：

扩展每个合并后的片段，作为一个候选区域。

11.如权利要求1、2或10所述的方法，其特征在于，所述提取音频特征，具体包括：

通过预处理得到音频帧的能量包络；

将所述能量包络切分为能量包络单元；

12.如权利要求11所述的方法，其特征在于，所述将所述能量包络切分为能量包络单元，具体包括：

求取每个音频帧的检测函数；

13.如权利要求12所述的方法，其特征在于，所述局部极大值点被检测为切分点的概率值的计算公式为：

p (k) = \{\begin{matrix} 0 & m_{k} < T_{1} \\ \frac{m_{k} - T_{1}}{T_{2} - T_{1}} & T_{1} \leq m_{k} \leq T_{2} \\ 1 & m_{k} > T_{2} \end{matrix}

其中，T1为所述第一阈值，T2为所述第二阈值，m_k为局部极大值点。

14.如权利要求12所述的方法，其特征在于，所述从所述局部极大值点中选择出切分点，具体包括：

15.如权利要求11所述的方法，其特征在于，所述将提取的音频特征与模板库中的音频特征进行匹配，具体包括：

16.如权利要求1所述的方法，其特征在于，所述确定目标片段的边界，具体包括：

17.如权利要求1、2或16所述的方法，其特征在于，所述提取图像特征包括：

设置掩码，以指示参考块与各个目标块之间的相对位置；

18.如权利要求17所述的方法，其特征在于，所述比较参考块和目标块得平均亮度，具体包括：

对照块的位置，生成与所述块位置一一对应的第一矩阵；

19.如权利要求17所述的方法，其特征在于，所述设置掩码，具体包括：

对照块的位置，生成与所述块位置一一对应的第二矩阵；

按照设定顺序i，在目标块对应的位置中填写数值2ⁱ。

20.如权利要求17所述的方法，其特征在于，所述模板库中，将连续个相同的图像特征作为一个分组，每个分组对应一个包括目标片段标识、分组起始位置和分组长度的倒排表项。

21.如权利要求20所述的方法，其特征在于，所述将提取的图像特征与模板库中的图像特征进行匹配，具体包括：

记录查找到的倒排表项中的目标片段标识；

22.一种基于内容的视频检测装置，其特征在于，该装置包括：

模板库，用于存储音频特征和图像特征；

23.如权利要求22所述的装置，其特征在于，该装置中还包括：模板库建立单元，用于从视频节目样本中切分目标片段，从切分出的目标片段中提取音频特征和图像特征，并输出到所述模板库。

24.如权利要求23所述的装置，其特征在于，所述模板库建立单元包括：

25.如权利要求23或24所述的装置，其特征在于，该装置中还包括：排序单元，用于将视频节目样本中的帧按照时间戳重新排序，将重新排序后的视频节目样本提供给所述模板库建立单元。

26.如权利要求22所述的装置，其特征在于，该装置中还包括：模板库更新单元，用于利用所述图像处理单元确定出边界的目标片段，更新所述模板库。

27.如权利要求26所述的装置，其特征在于，所述模板库更新单元包括：

第一解析子单元，用于在确定出边界的一组目标片段中，识别当前未确定为目标片段的视频节目片段，解析该视频节目片段是否符合预设条件；

28.如权利要求26或27所述的装置，其特征在于，所述模板库更新单元包括：

29.如权利要求26至28任一项所述的装置，其特征在于，所述模板库更新单元中包括：第三更新执行子单元，监视所述模板库中的每一个目标片段最近一次被检测到的日期，将设定时间长度内未被检测到的目标片段的音频特征和图像特征从所述模板库中删除。

30.如权利要求22所述的装置，其特征在于，所述音频处理单元包括：

音频解码子单元，用于对待测视频节目进行音频解码；

31.如权利要求22所述的装置，其特征在于，所述图像处理单元包括：

图像解码子单元，用于对所述候选区域进行图像解码；