CN108363981B

CN108363981B - 一种标题检测方法及装置

Info

Publication number: CN108363981B
Application number: CN201810166823.XA
Authority: CN
Inventors: 刘楠
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-02-28
Filing date: 2018-02-28
Publication date: 2020-08-28
Anticipated expiration: 2038-02-28
Also published as: CN108363981A

Abstract

本申请提供了一种标题检测方法及装置，该方法及装置可从视频帧序列中的视频帧中检测标题候选区域，对标题候选区域进行时域跟踪，在跟踪完成后，可通过时域特征满足预设条件的视频帧的数量以及满足预设条件的时域特征和对应的帧号确定标题候选区域的类别。本申请提供的标题检测方法及装置提升了标题的检测准确度，且标题检测速度较快，能够满足时效性要求。

Description

一种标题检测方法及装置

技术领域

本发明涉及视频处理及分析技术领域，尤其一种标题检测方法及装置。

背景技术

新闻视频中蕴含着大量的最新资讯信息，对于视频网站和新闻类的应用来说有着重要的价值。视频网站或者新闻类的应用需要对每日播出的整条新闻进行拆分、上线，供用户对于其中感兴趣的每条新闻进行点击观看。由于全国的电视台数量众多，除卫视台外还存在各类地方台，如果对所有的新闻进行分割的话，需要耗费大量的人力，并且，由于新闻的时效性，对于新闻视频的处理速度的要求也是十分严格的，这就给人工分割带来了更大的压力。因此，自动的新闻视频拆分、分析技术就成为解决这一问题的关键技术。

自动的新闻视频拆分、分析技术所涵盖的范围非常广，具体来说，包括新闻的自动拆分技术、新闻标题的检测、跟踪技术、文字识别技术等。其中，新闻标题的检测、跟踪技术是实现新闻的自动拆分与识别的一项重要技术。新闻的标题是新闻拆分中具有重大意义的语义线索，对于长新闻拆分算法来讲，新闻标题的出现、结束、重复往往意味着不同的信息，预示着新闻的结构，因此，新闻中标题出现的时间点位以及对应的状态对于新闻拆分十分关键，而这些信息的获取需要依靠标题检测以及跟踪技术。

对于新闻视频进行观察可以发现，不同电视台、不同类型的新闻字幕的风格千差万别，同时大部分新闻还会在字幕的位置出现风格内容极为相似的滚动字幕，这些都为新闻标题检测带来了很大的难度，因此，亟需一种能够准确检测新闻标题的方法。

发明内容

有鉴于此，本发明提供了一种标题检测方法及装置，用以准确快速地从视频中检测出标题，其技术方案如下：

一种标题检测方法，包括：

从待检测的视频帧序列中获取一视频帧作为目标视频帧；

从所述目标视频帧中检测标题候选区域；

若所述目标视频帧不为包含待跟踪的标题候选区域的参考视频帧，则基于所述参考视频帧中的标题候选区域与所述目标视频帧中的标题候选区域确定所述目标视频帧对应的时域特征；

判断所述目标视频帧对应的时域特征是否满足预设条件；

若所述目标视频帧对应的时域特征满足所述预设条件，则记录所述目标视频帧对应的时域特征及所述目标视频帧的帧号，并确定当前满足所述预设条件的目标视频帧的总数量作为当前第一总数量；若所述目标视频帧对应的时域特征不满足所述预设条件，则确定当前不满足所述预设条件的目标视频帧的总数量作为当前第二总数量；

判断所述当前第二总数量是否大于第一预设值；

若所述当前第二总数量小于或等于所述第一预设值，则执行所述从待检测的视频帧序列中获取一视频帧作为目标视频帧；

若所述当前第二总数量大于所述第一预设值，则基于所述当前第一总数量、记录的时域特征及对应的帧号确定所述标题候选区域的类别。

其中，所述基于所述当前第一总数量、记录的时域特征及对应的帧号确定所述标题候选区域的类别，包括：

若所述当前第一总数量小于所述第二预设值，则确定所述标题候选区域不为标题区域也不为滚动字幕区域；

若所述当前第一总数量大于或等于所述第二预设值，则确定所述目标视频帧之后的N帧连续视频帧中各个视频帧对应的时域特征，并记录所述N帧连续视频帧中各个视频帧对应的时域特征及对应的帧号，其中，所述N帧连续视频帧的第一帧为所述目标视频帧的后向相邻视频帧；

通过记录的时域特征及对应的帧号确定所述标题候选区域的类别，其中，所述标题候选区域的类别为标题区域或滚动字幕区域。

其中，所述通过记录的时域特征及对应的帧号确定所述标题候选区域的类别，包括：

通过记录的时域特征及对应的视频帧的帧号，确定帧号连续的视频帧对应的时域特征的变化趋势；

基于所述帧号连续的视频帧对应的时域特征的变化趋势确定所述标题候选区域的类别。

其中，所述基于所述帧号连续的视频帧对应的时域特征的变化趋势确定所述标题候选区域的类别，包括：

基于预先设定的、与标题对应的时域特征变化趋势、与滚动字幕对应的时域特征变化趋势，以及，所述帧号连续的视频帧对应的时域特征的变化趋势，确定所述标题候选区域的类别。

其中，所述基于预先设定的、与标题对应的时域特征变化趋势、与滚动字幕对应的时域特征变化趋势，以及，所述帧号连续的视频帧对应的时域特征的变化趋势，确定所述标题候选区域的类别，包括：

若所述帧号连续的视频帧对应的时域特征的变化趋势与所述与标题对应的时域特征变化趋势一致，则确定所述标题候选区域为标题区域；

若所述帧号连续的视频帧对应的时域特征的变化趋势与所述与滚动字幕对应的时域特征变化趋势一致，则确定所述标题候选区域为滚动字幕区域。

当所述目标视频帧为所述参考视频帧时，所述方法还包括：

基于所述标题候选区域从参考视频帧中确定跟踪区域；

获取所述跟踪区域中的图像，并将所述跟踪区域中的图像由RGB色彩空间转换至目标空间，获得参考图像，其中，目标空间为灰度空间或任意亮度色彩分离空间；

对所述参考图像计算分割阈值，并基于所述分割阈值将所述参考图像二值化，获得参考二值化图像；

计算所述参考视频帧的跟踪区域中图像的颜色直方图，获得参考颜色直方图。

其中，所述基于所述参考视频帧的标题候选区域和所述目标视频帧中的标题候选区域确定所述目标视频帧对应的时域特征，包括：

将所述目标视频帧由RGB色彩空间转换至目标空间，获得目标图像，其中，所述目标空间为灰度空间或任意亮度色彩分离空间；

从所述目标图像中选取跟踪区域的图像，将选取的图像二值化，获得目标二值化图像；

将所述目标二值化图像与所述参考二值化图像进行逐点差分，计算所有差分的平均值，获得目标差分平均值；

计算所述目标视频帧的跟踪区域中图像的颜色直方图，获得目标颜色直方图；

计算所述目标颜色直方图与所述参考颜色直方图的距离，获得目标距离；

将所述目标差分平均值和所述目标距离确定为所述目标视频帧对应的时域特征。

其中，所述判断所述目标视频帧对应的时域特征是否满足预设条件，包括：

判断所述目标差分平均值是否小于预设的差分值，并判断所述目标距离值是否小于预设的距离值；

若所述目标差分平均值小于所述预设的差分值，并且，所述目标距离值小于所述预设的距离值，则判定所述目标视频帧对应的时域特征满足所述预设条件。

其中，所述从所述目标视频帧中检测标题候选区域，包括：

选取所述目标视频帧底部预设区域中的图像作为待检测图像；

将所述待检测图像由RGB色彩空间转换至目标空间，获得目标图像，其中，所述目标空间为灰度空间或任意色彩亮度分离空间；

确定所述目标图像对应的目标边缘强度图；

对所述目标边缘强度图进行水平方向的投影，确定所述目标边缘强度图中字幕区域的上下边界，基于所述上下边界从所述目标边缘强度图中获取第一候选区域；

对所述第一候选区域进行垂直方向的投影，确定所述第一候选区域中字幕区域的左右边界，基于所述左右边界从所述第一候选区域中获取第二候选区域；

从所述目标视频帧中确定与所述第二候选区域对应的区域作为第三候选区域，从所述第三候选区域中确定字幕区域的左右边界，基于所述左右边界从所述第三候选区域中确定第四候选区域；

当所述第四候选区域满足预设条件时，确定所述第四候选区域为所述标题候选区域。

一种标题检测装置，包括：获取模块、检测模块、第一确定模块、第一判断模块、第一记录模块、第二确定模块、第三确定模块、第二判断模块和第四确定模块；

所述获取模块，用于从待检测的视频帧序列中获取一视频帧作为目标视频帧；

所述检测模块，用于从所述目标视频帧中检测标题候选区域；

所述第一确定模块，用于当所述目标视频帧不为包含待跟踪的标题候选区域的参考视频帧时，基于所述参考视频帧的标题候选区域和所述目标视频帧中的标题候选区域确定所述目标视频帧对应的时域特征；

所述第一判断模块，用于判断所述目标视频帧对应的时域特征是否满足预设条件；

所述第一记录模块，用于当所述目标视频帧对应的时域特征满足所述预设条件时，记录所述目标视频帧对应的时域特征及所述目标视频帧的帧号；

所述第二确定模块，用于确定当前满足所述预设条件的目标视频帧的总数量作为当前第一总数量；

所述第三确定模块，用于当所述目标视频帧对应的时域特征不满足所述预设条件，确定当前不满足所述预设条件的目标视频帧的总数量作为当前第二总数量；

所述第二判断模块，用于判断所述当前第二总数量是否大于第一预设值，当所述当前第二总数量小于或等于所述第一预设值时，触发所述获取模块从待检测的视频帧序列中获取一视频帧作为目标视频帧；

所述第四确定模块，用于当所述当前第二总数量大于所述第一预设值时，基于所述当前第一总数量、记录的时域特征及对应的帧号确定所述标题候选区域的类别。

上述技术方案具有如下有益效果：

本发明提供的标题检测方法及装置，可从视频帧序列的视频帧中检测标题候选区域，对标题候选区域进行时域跟踪，在跟踪完成后，可通过时域特征满足预设条件的视频帧的数量以及记录的时域特征和帧号确定标题候选区域的类别。本发明提供的标题检测方法及装置提升了标题的检测准确度，且标题检测速度较快，能够满足时效性要求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的标题检测方法的流程示意图；

图2为本发明实施例提供的从目标视频帧中检测标题候选区域的具体实现过程的流程示意图；

图3为本发明实施例提供的当目标视频帧不为参考视频帧的处理过程的流程示意图；

图4为本发明实施例提供的确定目标视频帧对应的时域特征的具体实现过程的流程示意图；

图5为本发明实施例提供的确定标题候选区域的类别的具体实现过程的流程示意图；

图6为本发明实施例提供的标题检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种标题检测方法，请参阅图1，示出了该方法的流程示意图，可以包括：

步骤S101：从待检测的视频帧序列中获取一视频帧作为目标视频帧。

步骤S102：从目标视频帧中检测标题候选区域。

其中，标题候选区域为可能包含标题的区域。本步骤S102的具体实现过程可以参见后续实施例的说明。

步骤S103：若目标视频帧不为包含待跟踪的标题候选区域的参考视频帧，基于参考视频帧的标题候选区域和目标视频帧中的标题候选区域确定目标视频帧对应的时域特征。

步骤S104：判断目标视频帧对应的时域特征是否满足预设条件，若目标视频帧对应的时域特征满足预设条件，则执行步骤S105a，若目标视频帧对应的时域特征不满足预设条件，则执行步骤S105b。

步骤S105a：记录目标视频帧对应的时域特征及目标视频帧的帧号，并确定当前满足预设条件的目标视频帧的总数量作为当前第一总数量。

步骤S105b：确定当前不满足预设条件的视频帧的总数量作为当前第二总数量。

步骤S106：判断当前第二总数量是否大于第一预设值，若当前第二总数量小于或等于第一预设值，则转入步骤S101；若当前第二总数量大于第一预设值，执行步骤S107。

步骤S107：基于当前第一总数量、记录的时域特征及对应的帧号确定标题候选区域的类别。

在一种可能的实现方式中，基于当前第一总数量、记录的时域特征及对应的帧号确定所述标题候选区域的类别的实现过程可以包括：判断当前第一总数量是否大于或等于第二预设值；若当前第一总数量小于第二预设值，则确定标题候选区域不为标题区域也不为滚动字幕区域；若当前第一总数量大于或等于第二预设值，则确定目标视频帧之后的N帧连续视频帧中各个视频帧对应的时域特征，并记录N帧连续视频帧中各个视频帧对应的时域特征及对应的帧号；通过记录的所有时域特征及对应的帧号确定标题候选区域的类别，其中，标题候选区域的类别为标题区域或滚动字幕区域。

其中，确定目标视频帧之后的N帧连续视频帧中各个视频帧对应的时域特征的过程可以包括：基于参考视频帧中的标题候选区域与N帧视频帧中每个视频帧的标题候选区域，确定N帧视频帧中各个视频帧对应的时域特征。其中，N帧连续视频帧的第一帧为目标视频帧的后向相邻视频帧。

本发明实施例提供的标题检测方法，可从视频帧序列的视频帧中检测标题候选区域，对标题候选区域进行时域跟踪，在跟踪完成后，可通过时域特征满足预设条件的视频帧的数量以及记录的时域特征和帧号确定标题候选区域的类别。本发明实施例提供的标题检测方法提升了标题的检测准确度，且标题检测速度较快，能够满足时效性要求。

以下对步骤S102：从目标视频帧中检测标题候选区域的具体实现过程进行说明，请参阅图2，示出了该实现过程的流程示意图，可以包括：

步骤S201：选取目标视频帧的底部预设区域作为待检测图像。

可以理解的是，新闻标题通常出现在视频帧的底部区域，为了减少计算量，提升检测精度，本实施例选取目标视频帧的底部预设区域作为待检测图像。假设目标视频帧的宽高分别为W、H，底部预设区域为Rect(rect.x,rect.y,rect.w,rect.h)，其中，(rect.x,rect.y)为矩形区域在视频帧中的起点坐标，rect.w为矩形区域的宽，rect.h为矩形区域的高，底部预设区域在视频帧中的位置为：

rect.x＝0；

rect.y＝H*cut_ratio；

rect.w＝W；

rect.h＝H*(1-cut_ratio)。

步骤S202：将待检测图像由RGB色彩空间转换至目标空间，获得目标图像。

其中，目标空间可以为灰度空间，也可以为任意亮度色彩分离空间。具体的，可通过式(1)的灰度空间转换公式：

Gray＝R*0.299+G*0.587+B*0.114 (1)

将待检测图像由RGB色彩空间转换至灰度空间，或者，通过亮度L(Lightness)的转换公式：

L＝(max(R,G,B)+min(R,G,B))/2 (2)

将待检测图像由RGB色彩空间转换至亮度色彩分离空间。

步骤S203：确定目标图像对应的目标边缘强度图。

确定目标图像的边缘强度图的实现方式有多种。在一种可能的实现方式中，可先利用提取边缘特征的算子计算目标图像的边缘强度图，然后将计算得到的边缘强度图进行二值化，将获得的二值化的边缘强度图作为目标边缘强度图。在另一种可能的实现方式中，可先利用提取边缘特征的算子计算目标图像的边缘强度图，然后将计算得到的边缘强度图进行二值化，获得二值化的边缘强度图，最后对二值化的边缘强度图进行边缘加强，获得目标边缘强度图。

其中，提取图像边缘特征的算子有多种，例如，Sobel算子，Canny算子等。以Sobel算子为例，计算目标图像的边缘强度图的过程为：首先，将水平方向边缘梯度算子和垂直方向边缘梯度算子分别与目标图像进行卷积，获得水平边缘图E_h和垂直边缘图E_v；然后通过下式(3)计算边缘强度图E_all：

E_all(x,y)＝sqrt(E_v(x,y)²+E_h(x,y)²) (3)

在计算得到边缘强度图E_all后，对其进行二值化，具体的，如果E_all(x,y)大于设定阈值Th_e1，则E(x,y)＝1，否则，E(x,y)＝0，如此便获得二值化的边缘强度图E，可将E直接作为目标边缘强度图，也可对E进行边缘加强，将边缘加强后的图像作为目标边缘强度图。

具体的，对E进行边缘加强的过程可以为：首先，对待检测图像三个通道的图像或者任意一通道的图像执行上述提取边缘特征、二值化过程，获得边缘强度图E_r、E_g和/或E_b；然后，将E_r、E_g和E_b中的任意一个与E合并，或者将E_r、E_g和E_b三者与E合并，从而实现对E的边缘加强。本实施例之所以对E进行边缘加强，是为了防止字幕区域出现渐变导致检测失败。另外，需要说明的是，在对待检测图像三个通道的图像利用提取图像边缘特征的算子确定的边缘强度图进行二值化时，所使用的阈值Th_e2可以与Th_e1相同，也可以不同，在一种可能的实现方式中，可使Th_e2<Th_e1。

步骤S204：对目标边缘强度图进行水平方向的投影，确定目标边缘强度图中字幕区域的上下边界，基于上下边界从目标边缘强度图中获取第一候选区域。

具体的，对目标边缘强度图进行水平方向的投影，统计每一行i中符合目标条件的像素的数量Num_edge，如果Num_edge>Th_num，则使直方图H[i]＝1,否则为H[i]＝0，如此，获得直方图H。其中，目标条件为：该像素以及上下相邻像素中存在至少一个像素为1的值，就认为该像素的边缘值为1，同时统计该像素左右连续的像素边缘值为1，且连续的长度大于阈值Th_len的像素的总个数。示例性的，上一行为01 0 1 0 0 0 0 10 0，本行为00 0 0 1 1 1 10 1 0，下一行为01 1 1 0 1 1 1 1 0 0，本行各个像素的边缘值为01 1 1 1 1 1 1 1 10，这个行的Num_edge＝9，判断Num_edge是否大于Th_num，如果是，H[i]＝1,否则H[i]＝0。

需要说明的是，第一行的像素只存在下相邻的像素，而最后一行只存在上相邻的像素，基于此，在一种可能的实现方式中，可不对第一行以及最后一行处理，在另一种可能的实现方式中，可复制第一行作为第一行的上一行，同理，复制最后一行作为最后一行的下一行。

在获得直方图H之后，遍历H[i]＝＝1之间的行间距，如果行间距大于阈值Th_row，则将这两行之间的边缘图像区域作为第一候选区域，否则，执行步骤S208。

步骤S205：对第一候选区域进行垂直方向的投影，确定第一候选区域中字幕区域的左右边界，基于左右边界从第一候选区域中获取第二候选区域。

具体的，对第一候选区域进行垂直方向的投影，对于任意一列i，如果这一列的边缘像素为1的数量大于Th_v，则V[i]＝1，否则V[i]＝0，强制设置V[0]＝1并且V[W-1]＝1。寻找V中，同时满足V[i]＝＝1、V[j]＝＝1、V[k]_k∈(i,j)＝＝0和argmax(i-j)的区域作为字幕区域的左右边界，即寻找两个有垂直边缘，且两个垂直边缘之间不存在其他任何垂直边缘的区域。在确定出左右边界后，基于左右边界从第一候选区域中获取第二候选区域。

步骤S206：确定目标视频帧中、与第二候选区域对应的区域作为第三候选区域，从第三候选区域中确定字幕区域的左右边界，基于确定出的左右边界从第三候选区域中确定第四候选区域。

具体的，以一定长度的滑动窗口扫描第三候选区域，计算每一个窗口内的颜色直方图，同时统计该窗口内颜色直方图中非0位的个数num_color，寻找单色区域或者颜色复杂的背景区域的位置，即num_color<Th_color1或num_color>Th_color2，将符合该条件的窗口的中心位置，作为新的垂直方向边界，从而从第三候选区域中确定出左右边界，基于左右边界可确定出第四候选区域。

步骤S207：当第四候选区域满足预设条件时，确定第四候选区域为标题候选区域。

具体的，如果第四候选区域的起始位置信息和高度信息满足预设条件，例如，第四候选区域的起始位置在预设的图像范围内，第四候选区域的高度在预设的高度范围内，则确定第四候选区域为标题候选区域。另外，需要说明的是，如果第四候选区域不满足预设条件，则获取下一视频帧。

上述流程中给出了当目标视频帧不为参考视频帧的处理过程，请参阅图3，示出了当目标视频帧为参考视频帧时的处理过程，包括：

步骤S301：基于标题候选区域从参考视频帧中确定跟踪区域。

在本实施例中，考虑到标题候选区域可能包含额外的背景区域，为了提升跟踪的准确性，本实施例从标题候选区域中选取一区域作为跟踪区域，具体的，设目标视频帧中标题候选区域的位置为CandidateRect(x,y,w,h)，其中，(x,y)为跟踪区域在目标视频帧的起始点坐标，w为跟踪区域的宽，h为跟踪区域的高，则跟踪区域track(x,y,w,h)的选取方式为：

track.x＝CandidateRect.x+CandidateRect.w*Xratio1；

track.y＝CandidateRect.y+CandidateRect.h*Yratio1；

track.w＝CandidateRect.w*Xratio2；

track.h＝CandidateRect.h*Yratio2；

其中，Xratio1,Xratio2,Yratio1,Yratio2均为预先设定的参数。

步骤S302：获取跟踪区域中的图像，并将跟踪区域中的图像由RGB色彩空间转换至目标空间，获得参考图像。

其中，目标空间可以为灰度空间，也可以为任意亮度色彩分离空间。具体的，可通过上式(1)的灰度空间转换公式将跟踪区域中的图像由RGB色彩空间转换至灰度空间，或者通过上式(2)的亮度转换公式将跟踪区域中的图像由RGB色彩空间转换至亮度色彩分离空间。

步骤S303：对参考图像计算分割阈值。

在一种可能的实现方式中，可利用OTSU方法计算分割阈值，具体计算过程为：

假设参考图像为灰度图像，且参考图像可以分割为N个灰度(N<＝256)，对于这N个灰度可以提取参考图像的N阶灰度直方图H；对于直方图H中的每一位t(0<＝t<N)，按如下公式(4)计算,获得使

最大的t对应的x(t)作为分割阈值Th_track：

x(i)＝i*256/N (4)

步骤S304：基于分割阈值将参考图像二值化，获得参考二值化图像。

具体的，对参考图像中的每个像素I(x,y)，如果I(x,y)>＝Th_track，则使参考二值化图像B_ref(x,y)＝255，如果I(x,y)<Th_track，则使参考二值化图像B_ref(x,y)＝0，如此便获得参考二值化图像B_ref。

步骤S305：计算参考视频帧的跟踪区域中图像的颜色直方图，获得参考颜色直方图，然后执行步骤S101。

请参阅图4，示出了上述步骤S103：若目标视频帧不为参考视频帧，基于参考视频帧的标题候选区域和目标视频帧中的标题候选区域确定目标视频帧对应的时域特征的具体实现过程的流程示意图，可以包括：

步骤S401：将目标视频帧由RGB色彩空间转换至目标空间，获得目标图像。

其中，目标空间可以为灰度空间，也可以为任意亮度色彩分离空间。具体的，可通过上式(1)的灰度空间转换公式将目标视频帧，或者通过上式(2)的亮度转换公式将目标视频帧由RGB色彩空间转换至亮度色彩分离空间。

步骤S402：从目标图像中选取跟踪区域的图像，将选取的图像二值化，获得目标二值化图像。

其中，目标图像中跟踪区域的位置和大小与参考视频帧对应的跟踪区域的位置和大小一致。

具体的，对于跟踪区域的图像的每个像素I₁(x,y)，如果I₁(x,y)>＝Th_track，则使目标二值化图像B_cur(x,y)＝255，如果I₁(x,y)<Th_track，则使目标二值化图像B_cur(x,y)＝0，如此便获得目标二值化图像B_cur。

步骤S403：将目标二值化图像与参考二值化图像进行逐点差分，计算所有差分的平均值，获得目标差分平均值。

具体的，通过下式(5)计算差分平均值Diff_binary：

其中，W和H分别为跟踪区域中图像的宽和高。

步骤S404：计算目标视频帧的跟踪区域中图像的颜色直方图，获得目标颜色直方图，并计算目标颜色直方图与参考颜色直方图的距离，获得目标距离。

假设目标视频帧的跟踪区域中图像的颜色直方图为H_cur，参考视频帧的跟踪区域中图像的颜色直方图H_ref，则计算H_cur与H_ref的距离Diff_color。

步骤S405：将目标差分平均值和目标距离确定为目标视频帧对应的时域特征。

在确定出目标视频帧对应的时域特征后，需要判断目标视频帧对应的时域特征是否满足预设条件。在本实施例中，上述实施例中步骤S104：判断目标视频帧对应的时域特征是否满足预设条件的过程可以包括：判断目标差分平均值是否小于预设的差分值，并判断目标距离值是否小于预设的距离值；若目标差分平均值小于预设的差分值，并且，目标距离值小于预设的距离值，则确定目标视频帧对应的时域特征满足所述预设条件。即判断上述的Diff_binary和Diff_color是否满足Diff_binary<Th_binary且Diff_color<Th_color，其中，Th_binary和Th_color分别为预先设定的差分值和预先设定的距离值。

如果Diff_binary和Diff_color满足Diff_binary<Th_binary且Diff_color<Th_color，则将tracking_num加1，获得当前tracking_num的值，否则，将lost_num加1，获得当前lost_num值。

需要说明的是，当前的lost_num即为上述当前第二总数量，当前的tracking_num即为上述当前第一总数量。需要说明的是，本实施例设置lost_num目的在于，避免个别视频信号受到干扰，引起图像出现失真，导致匹配失败，通过lost_num的设立，允许算法有个别数量的视频帧跟踪失败。

在Diff_binary和Diff_color满足Diff_binary<Th_binary且Diff_color<Th_color时，记录Diff_binary和Diff_color，并在记录Diff_binary和Diff_color时，同时记录目标视频帧的帧号，并且将Diff_binary和Diff_color与目标视频帧的帧号关联。

在本实施例中，如果当前第二总数量大于第一预设值，即当前的lost_num大于第一预设值，则跟踪结束。

在跟踪结束后，首先基于当前第一总数量(即当前的tracking_num)进行判断，若当前第一总数量小于第二预设值，则确定标题候选区域不为标题区域也不为滚动字幕区域；若当前第一总数量大于或等于第二预设值，则进一步确定后续N帧视频帧中各个视频帧对应的时域特征，并记录N帧视频帧中各个视频帧对应的时域特征及对应的帧号，然后通过记录的时域特征及对应的帧号确定标题候选区域的类别，即确定标题候选区域为标题区域还是为滚动字幕区域。

其中，确定后续N帧视频帧中每帧对应的时域特征的过程可以包括：对于N帧视频帧中的每帧视频帧，从该视频帧中检测标题候选区域，基于该标题候选区域与参考视频帧中的标题候选区域确定该视频帧对应的时域特征。其中，从视频帧中检测检测标题候选区域的过程可参见步骤S201～S207，确定时域特征的过程可以参见步骤S401～S405，在此不作赘述。

以下对通过记录的时域特征及对应的帧号确定标题候选区域的类别的具体实现过程进行说明。请参阅图5，示出了通过记录的时域特征及对应的帧号确定标题候选区域的类别的实现过程的流程示意图，可以包括：

步骤S501：通过记录的时域特征及对应的视频帧的帧号，确定帧号连续的视频帧对应的时域特征的变化趋势。

步骤S502：基于帧号连续的视频帧对应的时域特征的变化趋势确定标题候选区域的类别。

具体地，基于预先设定的、与标题对应的时域特征变化趋势、与滚动字幕对应的时域特征变化趋势，以及，帧号连续的视频帧对应的时域特征的变化趋势，确定标题候选区域的类别。

进一步地，若帧号连续的视频帧对应的时域特征的变化趋势与标题对应的时域特征变化趋势一致，则确定标题候选区域为标题区域；若帧号连续的视频帧对应的时域特征的变化趋势与滚动字幕对应的时域特征变化趋势一致，则确定标题候选区域为滚动字幕区域。其中，时域特征变化趋势为时域特征随时间的变化情况。

在本实施例中，当时域特征为上述的差分平均值Diff_binary和距离Diff_color时，可预先设定与标题对应的时域特征变化趋势为先逐渐增大然后不再发生变化，预先设定与滚动字幕对应的时域特征变化趋势为突然增大然后不再发生变化，则当帧号连续的视频帧对应的时域特征的变化趋势为先逐渐增大然后不再发生变化时，可确定标题候选区域为标题区域，即标题候选区域中包含标题，当帧号连续的视频帧对应的时域特征的变化趋势为突然增大然后不再发生变化时，可确定标题候选区域为滚动字幕区域，即标题候选区域中包含的是滚动字幕，而不是标题。当然，也可预先设定标题对应的时域特征变化趋势为突然增大然后不再发生变化，而滚动字幕对应的时域特征变化趋势为先逐渐增大然后不再发生变化，相应地，当帧号连续的视频帧对应的时域特征的变化趋势为突然增大然后不再发生变化时，可确定标题候选区域为标题区域，当帧号连续的视频帧对应的时域特征的变化趋势为先逐渐增大然后不再发生变化时，可确定标题候选区域为滚动字幕区域。

需要说明的是，上述时域特征为差分平均值Diff_binary和距离Diff_color，本实施例并不限定于此，时域特征还可以为相似度信息，即上述目标视频帧对应的时域特征为目标视频帧中标题候选区域与参考视频帧中标题候选区域的相似度信息，相应地，N帧视频帧对应的时域特征为N帧视频帧中每个视频帧中标题候选区域与参考视频帧的标题候选区域的相似度信息。

当时域特征为上述的相似度信息时，可预先与标题对应的时域特征变化趋势为先逐渐减小然后不再发生变化，滚动字幕对应的时域特征变化趋势为突然减小然后不再发生变化，则当帧号连续的视频帧对应的时域特征的变化趋势为先逐渐减小然后不再发生变化时，可确定标题候选区域为标题区域，即标题候选区域中包含标题，当帧号连续的视频帧对应的时域特征的变化趋势为突然减小然后不再发生变化时，可确定标题候选区域为滚动字幕区域，即标题候选区域中包含的是滚动字幕，而不是标题。当然，也可预先设定标题对应的时域特征变化趋势为突然减小然后不再发生变化，而滚动字幕对应的时域特征变化趋势为先逐渐减小然后不再发生变化，相应地，当帧号连续的视频帧对应的时域特征的变化趋势为突然减小然后不再发生变化时，可确定标题候选区域为标题区域，当帧号连续的视频帧对应的时域特征的变化趋势为先逐渐减小然后不再发生变化时，可确定标题候选区域为滚动字幕区域。

本发明实施例提供的标题检测方法，可从视频帧序列的视频帧中检测标题候选区域，对标题候选区域进行时域跟踪，在跟踪完成后，可通过标题候选区域的消失方式即对应时域特征的变化情况确定标题候选区域中是否包含标题。本发明实施例提供的标题检测方法提升了标题的检测准确度，且标题检测速度较快，能够满足时效性要求。

与上述方法相对应，本发明实施例还提供了一种标题检测装置，请参阅图6示出了该装置60的结构示意图，可以包括：获取模块601、检测模块602、第一确定模块603、第一判断模块604、第一记录模块605、第二确定模块606、第三确定模块607、第二判断模块608和第四确定模块609。

获取模块601，用于从待检测的视频帧序列中获取一视频帧作为目标视频帧。

检测模块602，用于从目标视频帧中检测标题候选区域。

第一确定模块603，用于当目标视频帧不为包含待跟踪的标题候选区域的参考视频帧时，基于参考视频帧的标题候选区域和目标视频帧中的标题候选区域确定目标视频帧对应的时域特征。

第一判断模块604，用于判断目标视频帧对应的时域特征是否满足预设条件。

第一记录模块605，用于当目标视频帧对应的时域特征满足预设条件时，记录目标视频帧对应的时域特征及目标视频帧的帧号。

第二确定模块606，用于确定当前满足预设条件的目标视频帧的总数量作为当前第一总数量。

第三确定模块607，用于当目标视频帧对应的时域特征不满足预设条件，确定当前不满足预设条件的目标视频帧的总数量作为当前第二总数量。

第二判断模块608，用于判断当前第二总数量是否大于第一预设值，当当前第二总数量小于或等于第一预设值时，触发获取模块602从待检测视频帧序列中获取一视频帧作为目标视频帧。

第四确定模块609，用于当所述当前第二总数量大于所述第一预设值时，基于所述当前第一总数量、记录的时域特征及对应的帧号确定所述标题候选区域的类别。

本发明实施例提供的标题检测装置，可从视频帧序列的视频帧中检测标题候选区域，对标题候选区域进行时域跟踪，在跟踪完成后，可通过时域特征满足预设条件的视频帧的数量以及记录的时域特征和帧号确定标题候选区域的类别。本发明实施例提供的标题检测装置提升了标题的检测准确度，且标题检测速度较快，能够满足时效性要求。

在上述实施例提供的标题检测装置中，第四确定模块609包括：判断单元、第一确定单元、第二确定单元、第三确定单元、记录单元和第四确定单元。

判断单元，用于在当前第二总数量大于第一预设值时，判断当前第一总数量是否大于或等于第二预设值。

第二确定单元，用于在当前第一总数量小于第二预设值时，确定标题候选区域不为标题区域也不为滚动字幕区域。

第三确定单元，用于在当前第一总数量大于或等于第二预设值时，确定所述目标视频帧之后的N帧连续视频帧中各个视频帧对应的时域特征。

其中，N帧连续视频帧的第一帧为目标视频帧的后向相邻视频帧。

记录单元，用于记录N帧连续视频帧中各个视频帧对应的时域特征及对应的帧号。

第四确定单元，用于通过记录的时域特征及对应的帧号确定标题候选区域的类别，其中，标题候选区域的类别为标题区域或滚动字幕区域。

在上述实施例提供的标题检测装置中，第四确定单元包括：变化趋势确定子模块和类别确定子模块。

变化趋势确定子模块，用于通过记录的时域特征及对应的视频帧的帧号，确定帧号连续的视频帧对应的时域特征的变化趋势。

类别确定子模块，用于基于帧号连续的视频帧对应的时域特征的变化趋势确定标题候选区域的类别。

上述类别确定子模块，具体用于基于预先设定的、与标题对应的时域特征变化趋势、与滚动字幕对应的时域特征变化趋势，以及，帧号连续的视频帧对应的时域特征的变化趋势，确定标题候选区域的类别。

进一步地，类别确定子模块，具体用于当所述帧号连续的视频帧对应的时域特征的变化趋势与所述与标题对应的时域特征变化趋势一致时，则确定所述标题候选区域为标题区域；当所述帧号连续的视频帧对应的时域特征的变化趋势与所述与滚动字幕对应的时域特征变化趋势一致时，则确定所述标题候选区域为滚动字幕区域。

上述实施例提供的标题检测装置还包括：跟踪区域确定模块、转换模块、二值化模块和计算模块。

跟踪区域确定模块，用于基于所述标题候选区域从参考视频帧中确定跟踪区域。

转换模块，用于获取所述跟踪区域中的图像，并将所述跟踪区域中的图像由RGB色彩空间转换至目标空间，获得参考图像，其中，目标空间为灰度空间或任意亮度色彩分离空间。

二值化模块，用于对所述参考图像计算分割阈值，并基于所述分割阈值将所述参考图像二值化，获得参考二值化图像。

计算模块，用于计算所述参考视频帧的跟踪区域中图像的颜色直方图，获得参考颜色直方图。

上述实施例提供的标题检测装置中，第一确定模块603包括：转换子模块、二值化子模块、第一计算子模块、第二计算子模块、第三计算子模块和确定子模块。其中：

转换子模块，用于将所述目标视频帧由RGB色彩空间转换至目标空间，获得目标图像，其中，所述目标空间为灰度空间或任意亮度色彩分离空间；

二值化子模块，用于从所述目标图像中选取跟踪区域的图像，将选取的图像二值化，获得目标二值化图像。

第一计算子模块，用于将所述目标二值化图像与所述参考二值化图像进行逐点差分，计算所有差分的平均值，获得目标差分平均值。

第二计算子模块，用于计算所述目标视频帧的跟踪区域中图像的颜色直方图，获得目标颜色直方图。

第三计算子模块，用于计算所述目标颜色直方图与所述参考颜色直方图的距离，获得目标距离。

确定子模块，用于将所述目标差分平均值和所述目标距离确定为所述目标视频帧对应的时域特征。

上述实施例提供的标题检测装置中，第一判断模块604，具体用于判断所述目标差分平均值是否小于预设的差分值，并判断所述目标距离值是否小于预设的距离值，若所述目标差分平均值小于所述预设的差分值，并且，所述目标距离值小于所述预设的距离值，则判定所述目标视频帧对应的时域特征满足所述预设条件。

在上述实施例提供的标题检测装置中，检测子模块包括：选取子模块、转换子模、第一确定子模块、第二确定子模块、第一获取子模块、第三确定子模块、第二获取子模块、第四确定子模块、第五确定子模块、第六确定子模块和第七确定子模块。

选取子模块，选取目标视频帧底部预设区域中的图像作为待检测图像。

转换子模块，将待检测图像由RGB色彩空间转换至目标空间，获得目标图像，其中，目标空间为灰度空间或任意色彩亮度分离空间。

第一确定子模块，用于确定目标图像对应的目标边缘强度图。

第二确定子模块，对目标边缘强度图进行水平方向的投影，确定目标边缘强度图中字幕区域的上下边界。

第一获取子模块，用于基于上下边界从目标边缘强度图中获取第一候选区域。

第三确定子模块，用于对第一候选区域进行垂直方向的投影，确定第一候选区域中字幕区域的左右边界。

第二获取子模块，用于基于左右边界从第一候选区域中获取第二候选区域。

第四确定子模块，用于从目标视频帧中确定与第二候选区域对应的区域作为第三候选区域。

第五确定子模块，用于从第三候选区域中确定字幕区域的左右边界。

第六确定子模块，用于基于第五确定子模块确定的左右边界从第三候选区域中确定第四候选区域。

第七确定子模块，用于当第四候选区域满足预设条件时，确定第四候选区域为标题候选区域。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、装置和设备，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种标题检测方法，其特征在于，包括：

从待检测的视频帧序列中获取一视频帧作为目标视频帧；

从所述目标视频帧中检测标题候选区域；

判断所述目标视频帧对应的时域特征是否满足预设条件；

判断所述当前第二总数量是否大于第一预设值；

2.根据权利要求1所述的标题检测方法，其特征在于，所述基于所述当前第一总数量、记录的时域特征及对应的帧号确定所述标题候选区域的类别，包括：

若所述当前第一总数量小于第二预设值，则确定所述标题候选区域不为标题区域也不为滚动字幕区域；

3.根据权利要求2所述的标题检测方法，其特征在于，所述通过记录的时域特征及对应的帧号确定所述标题候选区域的类别，包括：

4.根据权利要求3所述的标题检测方法，其特征在于，所述基于所述帧号连续的视频帧对应的时域特征的变化趋势确定所述标题候选区域的类别，包括：

5.根据权利要求4所述的标题检测方法，其特征在于，所述基于预先设定的、与标题对应的时域特征变化趋势、与滚动字幕对应的时域特征变化趋势，以及，所述帧号连续的视频帧对应的时域特征的变化趋势，确定所述标题候选区域的类别，包括：

6.根据权利要求1-5中任意一项所述标题检测方法，其特征在于，当所述目标视频帧为所述参考视频帧时，所述方法还包括：

基于所述标题候选区域从参考视频帧中确定跟踪区域；

7.根据权利要求6所述标题检测方法，其特征在于，所述基于所述参考视频帧的标题候选区域和所述目标视频帧中的标题候选区域确定所述目标视频帧对应的时域特征，包括：

8.根据权利要求7所述的标题检测方法，其特征在于，所述判断所述目标视频帧对应的时域特征是否满足预设条件，包括：

9.根据权利要求1所述标题检测方法，其特征在于，所述从所述目标视频帧中检测标题候选区域，包括：

确定所述目标图像对应的目标边缘强度图；

10.一种标题检测装置，其特征在于，包括：获取模块、检测模块、第一确定模块、第一判断模块、第一记录模块、第二确定模块、第三确定模块、第二判断模块和第四确定模块；