CN105516802A

CN105516802A - 多特征融合的新闻视频摘要提取方法

Info

Publication number: CN105516802A
Application number: CN201510807865.3A
Authority: CN
Inventors: 蒋兴浩; 孙锬锋; 王娟; 姜华; 郁聪
Original assignee: DIGITAL CHINA (SHANGHAI) HOLDINGS Ltd; Shanghai Jiaotong University
Current assignee: DIGITAL CHINA (SHANGHAI) HOLDINGS Ltd; Shanghai Jiaotong University
Priority date: 2015-11-19
Filing date: 2015-11-19
Publication date: 2016-04-20
Anticipated expiration: 2035-11-19
Also published as: CN105516802B

Abstract

本发明提供了一种多特征融合的新闻视频摘要提取方法，其对原始新闻视频利用镜头分割和镜头标定获得新闻视频基本处理单元。就静态视频摘要，对新闻基本处理单元采用角点检测、颜色滤波和形态学分析进行主题字幕检测，再结合人脸识别和聚类获得新闻主要人物信息；就动态视频摘要，对新闻基本处理单元进行静音分析，得到静音段，然后判定每个静音段是否包含主题字幕，如果有，则将其加入到最终的动态摘要序列，反之亦然；从而得到有意义的高语义动态和静态视频摘要。本发明能获得的静态摘要，可灵活地浏览和组织视频内容；并能获得的动态摘要，包含丰富的多媒体信息能清晰地表达原始视频内容，更具有娱乐性和观赏性。

Description

多特征融合的新闻视频摘要提取方法

技术领域

本发明涉及视频内容理解领域，具体涉及一种多特征融合的新闻视频摘要提取方法。

背景技术

新闻视频是人们获取信息的主要来源之一，其内容涵盖了人们生活中的各个方面，包括体育、娱乐、时事等，受众面广，更新速度快，在日常生活中扮演着不可缺失的角色。面对庞大的新闻视频库，如何高效地组织和浏览新闻视频，如何有效地过滤和定位出最适合，最准确的新闻内容是现阶段新闻视频内容理解领域的一个亟待解决的问题。

新闻视频摘要不仅可以显示新闻视频主旨内容，帮助人们快速地浏览新闻内容，还可结合视频标注技术服务于视频检索领域等，具有较高的研究价值。然而由于新闻视频内容主题跨度大，同一个新闻内容在视觉呈现上千差万别，单纯的底层特征分析很难描述新闻视频语义，导致现阶段新闻视频摘要研究仍面临挑战。

现存在一些通用的摘要提取发明。如专利文献“视频摘要生成方法和视频摘要生成装置(专利公开号：CN103092930A，专利公开日：2013.05.08)”中通过背景建模得到背景模型，再利用预设的分类器判断提取到的运动目标中是否包含人脸，并选取包含人脸的序列成为最终的摘要。该发明仅适用于某些领域的视频，如监控视频，对新闻视频摘要获取并不能获得有意义的结果。

现有的新闻视频摘要方法主要基于多特征融合，采用音视频信息来表达视频内容。而主题字幕帧包含新闻故事主要人物、新闻事件主题等重要信息，直接显示新闻事件语义信息，是新闻视频摘要领域的研究重点。

在文献[1](孟文婷.基于多模态特征融合的新闻视频摘要技术研究.[D].湖北：华中师范大学,2012)中采用多特征融合来分析新闻视频内容，首先通过自适应阈值进行镜头分割，再利用音视频信息进行主持人镜头检测，随后采用边缘特征分析获取新闻视频主题字幕帧，再选取具有主题字幕帧的镜头浓缩为摘要。然而该方法并未有效区分新闻视频中三类文本字幕，导致在仅采用边缘特征的前提下对主题字幕帧的检测效果不佳，同时由于其在选择具有主题字幕帧的镜头时并未考虑音频信息，从而其最终得到的摘要并不友好，不具有观赏性。

而文献[2](李小宁.角点检测技术在新闻视频检索中的应用研究[D].沈阳：东北大学,2010)中探讨了角点检测在新闻视频中的应用。它采用角点检测来识别主题字幕帧，但其检测方法也过于单一，最终检测效果并不理想。综合分析文献[1]和文献[2]的不足之处，本发明设计了一种基于角点检测、颜色滤波和形态学分析的有效的主题字幕帧检测算法，同时从工程实现角度出发，定义了新闻基本处理单元，方便模块化分析新闻视频。而基于观赏性和实用性考虑，本发明也分别设计了静态和动态视频摘要。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种多特征融合的新闻视频摘要方法。

根据本发明提供的一种多特征融合的新闻视频摘要提取方法，包括如下任一个或任多个步骤：

获取新闻基本处理单元步骤：从新闻视频中提取新闻基本处理单元；

检测主题字幕帧步骤：从新闻视频中提取主题字幕帧；

检测静音段步骤：从新闻视频中提取静音段；

检测人脸步骤：从新闻视频中提取人脸。

优选地，所述新闻基本处理单元是指，一段以主持人镜头出现为开始时刻，中间时段包含内容镜头，并以下一个主持人镜头出现的开始时刻作为结束时刻的视频片段。

优选地，所述获取新闻基本处理单元步骤包括镜头分割步骤，其中，所述镜头分割步骤，包括如下步骤：

根据如下计算式得到D(i,j)：

其中，D(i,j)表示第i帧与第j帧的差异，N表示新闻视频帧灰度级的数量，f_i,k表示第i帧新闻视频中第k级灰度的像素个数，f_j,k表示第j帧新闻视频中第k级灰度的像素个数，第i帧与第j帧为前后两帧；i、j为正整数；

如果第i帧与第j帧的差异D(i,j)大于指定阈值T_shot，则认为存在镜头边界，将第j帧与设定的主持人模板进行匹配；若第j帧与设定的主持人模板匹配，则将第j帧作为新闻基本处理单元的起始帧。

优选地，所述检测主题字幕帧步骤，包括如下步骤：

设置新闻视频帧的感兴趣区域；

对各个新闻视频帧的感兴趣区域，采用Harris角点检测算子进行角点检测以获取感兴趣区域中的角点，根据角点得到待融合主题字母区域；

将各个新闻视频帧的感兴趣区域中满足如下条件的区域提取为蓝色区域：

100≤Hue≤260

0.33≤Saturation≤1

对提取到的蓝色区域提取矩形外轮廓，其中，Hue表示色调，Saturation表示饱和度；

将符合如下条件的矩形外轮廓所属的新闻视频帧确认为主题字幕帧，并将不符合如下条件的矩形外轮廓所属的新闻视频帧确认为伪主题字幕帧：

Height≥T_height

其中，Height表示矩形外轮廓的高度，T_height表示设定的高度阈值，ContourArea_max为各个新闻视频帧中矩形外轮廓中的最大轮廓面积，ContourArea_max-1为各个新闻视频帧中矩形外轮廓中的第二大轮廓面积，T_contour表示设定的比例阈值；

将角点检测得到的待融合主题字母区域与主题字幕帧中矩形外轮廓的内部区域进行图像融合，得到候选主题字幕区域；

以矩形结构元素对候选主题字幕区域进行形态学膨胀操作，得到待鉴别文本连通域；

将符合如下条件的待鉴别文本连通域认为是伪文本块，将不符合如下条件的待鉴别文本连通域认为是文本块：

Area_text≤T_area

Ratio_text≤T_ratio

其中，Area_text表示待鉴别文本连通域的面积，T_area表示设定的面积阈值，Ratio_text表示待鉴别文本连通域的宽高比，T_ratio表示设定的宽高比阈值。

优选地，所述根据角点得到待融合主题字母区域，具体为：将角点连线划定出待融合主题字母区域。

优选地，所述检测静音段步骤，包括如下步骤：

采用Hamming窗对新闻视频中的音频进行加窗分帧，得到各帧音频信号；

根据如下计算式得到第i帧音频信号的短时能量E_i以及第i帧音频信号的短时过零率Z_i：

其中，N表示第i帧音频信号中包含的音频采样数目，x_i(m)表示第i帧音频信号第m个采样值，x_i(m+1)表示第i帧第m+1个采样值，sgn(·)为符号函数；

如果一帧音频信号满足如下条件，则认为该帧音频信号为静音帧，否则为非静音帧：

E_i≤T_e

Z_i≤T_z

其中，T_e表示设定的短时能量阈值，T_z表示设定的短时过零率阈值。

优选地，所述检测人脸步骤包括如下步骤：

对新闻视频，采用Viola-Jones人脸检测算法，结合跨平台计算机视觉库OpenCV中训练好的分类器haarcascade_frontalface_atl/xml提取积分图像，计算Haar-like特征，进而利用跨平台计算机视觉库OpenCV中的cvHaarDetectObjects函数在新闻视频中检测人脸对象。

优选地，执行检测静音段步骤得到静音段，对静音段执行检测主题字幕帧步骤，仅在静音段对应的视频帧中包含主题字幕帧的情况下，将静音段对应的视频帧加入动态摘要序列。

与现有技术相比，本发明具有如下的有益效果：

1、本发明可依据用户不同的需求得到有意义的高语义静态或动态视频摘要。

2、本发明提出了新闻基本处理单元。可对新闻视频进行结构化处理，实现视频流的优化重组。同时，缩小了问题分析单元，有利于工程化实现摘要***。

3、本发明提出了基于角点检测、颜色滤波和形态学分析的主题字幕检测算法。可有效区分新闻视频中三类文本字幕，准确地检测出主题字幕。

4、本发明设计了静态摘要(例如主题字幕)和动态摘要(例如音频、人脸)。高度概括新闻视频内容，可满足不同的用户和应用需求，有较大的实用价值。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明提供的多特征融合的新闻视频摘要提取方法的流程框图；

图2是本发明中单、双主持人模板帧示例对比图；

图3是本发明实施例中新闻视频中三类字幕文本示例对比图；

图4是本发明实施例中主题字幕帧分类和检测流程框图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明提供了一种多特征融合的新闻视频摘要提取方法。本发明首先对原始新闻视频进行预处理，利用镜头分割和镜头标定获得新闻视频基本处理单元。就静态视频摘要，对新闻基本处理单元采用角点检测、颜色滤波和形态学分析进行主题字幕检测，再结合人脸识别和聚类获得新闻主要人物信息，最后利用合理的特征融合方法获得静态摘要；就动态视频摘要，对新闻基本处理单元进行静音分析，得到静音段，然后判定每个静音段是否包含主题字幕，如果有，则将其加入到最终的动态摘要序列，反之亦然；从而得到有意义的高语义动态和静态视频摘要。

检测主题字幕帧步骤：从新闻视频中提取主题字幕帧；

检测静音段步骤：从新闻视频中提取静音段；

检测人脸步骤：从新闻视频中提取人脸。

根据如下计算式得到D(i,j)：

优选地，所述检测主题字幕帧步骤，包括如下步骤：

设置新闻视频帧的感兴趣区域；

100≤Hue≤260

0.33≤Saturation≤1

Height≥T_height

Area_text≤T_area

Ratio_text≤T_ratio

优选地，所述检测静音段步骤，包括如下步骤：

E_i≤T_e

Z_i≤T_z

优选地，所述检测人脸步骤包括如下步骤：

优选地，

步骤4：依据用户需求选定权重因子进行特征融合，得到摘要目标函数，并对视频帧进行重要度评定，获取静态摘要，所述静态摘要包括由文本块文字识别得到的主题字幕和/或人脸；具体地，对于主题字幕特征C和人脸特征F，依据用户需求，得到摘要目标函数S

S＝αC+βF

其中，α,β为权重因子。依据目标函数判定每帧的重要度，并提取静态视频摘要。

下面针对各个主要步骤进行更为详细的说明。

获取新闻基本处理单元步骤

新闻基本处理单元是指一段以主持人镜头出现为开始时刻，中间时段包含内容镜头，并以下一个主持人镜头出现的开始时刻作为结束时刻的视频片段。

本发明采用镜头分割步骤和镜头标定步骤来获取新闻视频基本处理单元。

镜头分割步骤：考量视频帧全局特征，优选地采用直方图比较法进行镜头分割。视频帧的总像素个数为M，灰度级为N，具有第k级灰度的像素个数为f_k，前后两帧差异D(i,j)表示为：

其中，f_i,k是第i帧中第k级灰度的像素个数，f_j,k是第j帧中第k级灰度的像素个数，第i帧与第j帧为前后两帧，D(i,j)表示第i帧与第j帧的差异；

如果相邻两帧灰度直方图差异D(i,j)大于指定阈值T_shot，则认为存在镜头边界。

镜头标定：首先分别选定单主持人模板帧和双主持人模板帧，如图2所示，再提取每个镜头的首帧，分析将其与两类模板帧进行直方图差异比较，如果差值小于指定阈值T_template，则认定该镜头为主持人镜头，反之亦然。

检测主题字幕帧步骤

如图3所示，可发现新闻视频中的字幕文本主要有主题字幕帧、会话字幕帧和其它字幕帧三类。

主题字幕帧通常包含新闻故事人物人名，新闻事件主题等重要信息，直接显示新闻事件语义信息，是新闻视频字幕文本的研究主体。其主要有以下几个特点：位于图像下部固定区域；字幕区域字体和背景主要为蓝色和白色，对比度较强；字体样式、大小固定。综合考虑字幕特点，本发明结合角点检测、颜色滤波和形态学分析来进行主题字幕帧检测。

由于主题字幕帧总是周期性出现在视频帧下部，为提高检测效率，首先对输入的新闻视频帧设置感兴趣(ROI)区域(100,290,380,50)，即选定图像帧坐标(100,290)处，框取长为380，宽为50的矩形作为感兴趣区域。随后的视觉特征分析也仅针对此区域。

(1)角点检测

新闻视频字幕区域存在丰富的角点信息，为有效提取字幕区域特征，本发明采用Harris角点检测方法获取感兴趣区域的角点特征。

Harris角点检测算子是一种基于信号的点特征提取算法，其原理为：如果某一点向任一方向小小偏移都会引起灰度的很大变化，这就说明该点是角点。Harris角点检测算子R为：

R＝det(C)-ktr²(C)

其中，C表示像素矩阵，det(C)表示像素矩阵的行列式，tr(C)表示像素矩阵的迹，k为经验值，通常取0.04～0.06；

C(x)满足

而I_u(x)、I_v(x)、I_uv(x)分别是像素点x的灰度在u方向的偏导、在v方向的偏导、二阶混合偏导。当感兴趣区域中的像素点x的Harris角点检测算子R大于设定的阈值T_corner时，则认为该像素点x为角点。其中，u方向为水平方向，v方向表示垂直方向。

(2)颜色滤波

由于主题字幕帧前景和背景颜色差异大，对比性强，本发明加入HSV空间色调(Hue)和饱和度(Saturation)特征进行滤波，排除会话字幕帧等。首先，为提取主题字幕帧的蓝色区域，设定色调和饱和度满足下述条件：

100≤Hue≤260

0.33≤Saturation≤1

其它字幕帧与主题字幕帧具有相似的编辑模式，其前景字体为白色，背景为蓝色，单纯的颜色滤波很难区别二者。然而观察发现，其它字幕帧前景字体较小，相互之间较为独立，相应地，背景蓝色长矩形条也较小。基于此，算法继续对蓝色区域的大小和分布进行分析。对颜色滤波后得到的二值图像提取矩形外轮廓，计算各轮廓的高Height和面积ContourArea，并对轮廓面积进行排序。如果

其中，ContourArea_max为最大轮廓面积，ContourArea_max-1为第二大轮廓面积。若上式成立，则认为该帧为主题字幕帧。&表示并且。T_height表示设定的高度阈值，T_contour表示设定的比例阈值。

(3)形态学分析

角点检测和颜色滤波可以过滤掉大部分的伪主题字幕帧，但是实验中发现该方法对具有复杂边缘的类文本区域效果甚微。因此，本发明结合主题字幕帧排列集中整齐的特点，继续采用形态学算法处理字幕区域。

首先对角点检测和颜色滤波后的二值图像进行融合，得到候选主题字幕区域。随后，以2×2大小的矩形结构元素进行形态学膨胀操作，得到文本连通域。分析文本块几何方面的约束条件，对文本连通域计算其面积Area_text和宽高比Ratio_text，如果

Area_text≤T_area&Ratio_text≤T_ratio

其中，T_area和T_ratio为经验阈值。若上式成立，则认为该文本连通域是伪文本块。最终通过面积分析可以过滤掉较小的区域，而宽高比可以排除那些细长、弯曲复杂的伪文本块，进一步优化字幕检测结果。

检测静音段步骤

新闻视频中不同的新闻内容间，主持人的播报声音常出现明显的停顿，并且这个停顿至少会持续0.3s。本发明采用音频的两个物理特征：短时能量和短时过零率来进行静音分析，获取静音段。

采用Hamming窗对新闻视频中的音频进行加窗分帧，每帧20ms。设x_i(m)是加窗分帧后第i帧音频信号第m个采样值，记E_i为第i帧音频信号的短时能量，Z_i为第i帧音频信号的短时过零率，则

Z_{i} = \frac{1}{2 (N - 1)} Σ_{m = 1}^{N - 1} | sgn (x_{i} (m + 1)) - sgn (x_{i} (m)) |

其中，N表示第i帧音频信号中包含的音频采样数目，x_i(m+1)表示第i帧第m+1个采样的采样值。sgn(·)为符号函数。

与语音信号中的清音和浊音相比，静音帧短时能量小，过零率低。如果E_i和Z_i满足E_i≤T_e并且Z_i≤T_z，T_e和T_z为经验阈值，则该帧标定为静音帧，否则为非静音帧。

检测人脸步骤

新闻人物作为新闻故事的主题，常具有重要语义信息。本发明采用Viola-Jones人脸检测算法，结合OpenCV中训练好的分类器haarcascade_frontalface_atl/xml提取积分图像，快速计算Haar-like特征，并利用cvHaarDetectObjects函数在视频帧中检测人脸对象。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种多特征融合的新闻视频摘要提取方法，其特征在于，包括如下任一个或任多个步骤：

检测主题字幕帧步骤：从新闻视频中提取主题字幕帧；

检测静音段步骤：从新闻视频中提取静音段；

检测人脸步骤：从新闻视频中提取人脸。

2.根据权利要求1所述的多特征融合的新闻视频摘要提取方法，其特征在于，所述新闻基本处理单元是指，一段以主持人镜头出现为开始时刻，中间时段包含内容镜头，并以下一个主持人镜头出现的开始时刻作为结束时刻的视频片段。

3.根据权利要求2所述的多特征融合的新闻视频摘要提取方法，其特征在于，所述获取新闻基本处理单元步骤包括镜头分割步骤，其中，所述镜头分割步骤，包括如下步骤：

根据如下计算式得到D(i,j)：

D (i, j) = Σ_{k = 1}^{N} | f_{i, k} - f_{j, k} |

4.根据权利要求1所述的多特征融合的新闻视频摘要提取方法，其特征在于，所述检测主题字幕帧步骤，包括如下步骤：

设置新闻视频帧的感兴趣区域；

100≤Hue≤260

0.33≤Saturation≤1

Height≥T_height

\frac{{ContourArea}_{m a x}}{{ContourArea}_{m a x - 1}} &GreaterEqual; T_{c o n t o u r}

Area_text≤T_area

Ratio_text≤T_ratio

5.根据权利要求4所述的多特征融合的新闻视频摘要提取方法，其特征在于，所述根据角点得到待融合主题字母区域，具体为：将角点连线划定出待融合主题字母区域。

6.根据权利要求1所述的多特征融合的新闻视频摘要提取方法，其特征在于，所述检测静音段步骤，包括如下步骤：

E_{i} = Σ_{m = 1}^{N} {x_{i}}^{2} (m)

Z_{i} = \frac{1}{2 (N - 1)} Σ_{m = 1}^{N - 1} | s g n (X_{i} (m + 1)) - s g n (x_{i} (m)) |

E_i≤T_e

Z_i≤T_z

7.根据权利要求1所述的多特征融合的新闻视频摘要提取方法，其特征在于，所述检测人脸步骤包括如下步骤：

8.根据权利要求1所述的多特征融合的新闻视频摘要提取方法，其特征在于，执行检测静音段步骤得到静音段，对静音段执行检测主题字幕帧步骤，仅在静音段对应的视频帧中包含主题字幕帧的情况下，将静音段对应的视频帧加入动态摘要序列。