CN102547139A

CN102547139A - 一种新闻视频节目切分方法、新闻视频编目方法及***

Info

Publication number: CN102547139A
Application number: CN 201010615931
Authority: CN
Inventors: 周景超; 欧阳毅; 鲍东山
Original assignee: BEIJING NUFRONT SOFTWARE TECHNOLOGY Co Ltd
Current assignee: BEIJING NUFRONT SOFTWARE TECHNOLOGY Co Ltd
Priority date: 2010-12-30
Filing date: 2010-12-30
Publication date: 2012-07-04

Abstract

本发明公开了一种新闻视频节目的切分方法、新闻视频编目及***，通过检测新闻视频的片头、新闻标题、主持人特征信息、镜头变换、音频的静音点、切换点和基音周期突变点等特征信息，并根据这些特征信息，将检测结果按照时间顺序排列得到一事件序列；采用预定的符号集和产生式规则约简事件序列，进而判断出事件序列中各新闻片段起止点的粗略位置；在粗略起始位置附近，根据事件序列，计算出现新闻片段起始位置的联合后验概率，选取后验概率最大的时刻作为新闻片段的准确起始位置，对新闻视频进行切分，得到各新闻视频片段。本发明采用的算法稳定、有效，能够有效概括新闻视频中的结构信息，可确定新闻片段切点的准确位置，实现稳定、准确的切分。

Description

一种新闻视频节目切分方法、新闻视频编目方法及***

技术领域

本发明涉及视频处理技术领域，具体涉及一种新闻视频节目切分方法、新闻视频编目方法及***。

背景技术

新闻视频是电视台和视频网站等媒体单位的重要处理对象。一方面，经过多年的积累，大量涵盖生活各方面内容的新闻视频成为这些媒体单位的宝贵资产，另一方面，每天都有新的视频数据需要及时处理。同时，新闻视频也是一种比较适合处理的视频类型。人们能够从视频中获得有关的语义信息，这些语义信息在内容组织上具有统一的结构，便于提取，对这些语义信息进行思维和加工，从而理解视频内容。

但是，不同于传统的文本新闻节目，视频新闻节目无法直接在字符级别对内容进行检索和管理，而是必须先进行编目处理。新闻节目的编目就是对新闻视频进行切分处理，使得每一个视频片段只包含一个新闻内容，并同时给出每一个片段的摘要信息以及其他用于分类管理的标签信息。在编目的基础上我们才能对新闻视频进行内容管理、视频搜索、数据挖掘等应用，因此，编目技术是处理新闻视频所必须的关键技术。

目前市场上的编目产品，都是采用基于人工或者半人工标注的编目方式，编目信息需要耗费大量人工来录入，效率低，成本高，标注信息完备性差，并且录入时受工作人员主观因素的影响，信息可能不准确。本文提出了一种基于句法分析和统计模型的新闻视频自动编目***，提取新闻视频中的标题、主持人、镜头、音频和片头等信息，通过分析各类新闻视频的故事模型，实现新闻视频的自动编目。该***能够显著提高新闻视频编目的生产效率，同时节省人工，节约成本。

在图像和视频处理领域中，文本块检测、人脸检测、镜头分割、复制检测（片头检测）、音频分割和不同说话人判断等方面也都是传统的研究课题，有很多实用的算法可以利用。通过分析新闻视频的故事模型，综合利用上述多种算法的处理结果，就可以准确切分新闻片段，结合***技术支持，实现新闻视频的自动编目。

在国内的技术文献中，专利“新闻视频编目方法及***（申请号：200810115787.0）”中描述了一种和本文的处理目标和思路比较接近的技术。该技术利用静音点、主持人和文字三部分信息，设计规则对新闻视频进行切分。具体过程为：对新闻视频流进行音视频分离，对音频数据进行片头音乐匹配，确定新闻节目在文件中的有效时间范围；在有效时间范围内确定音频静音点、主持人帧和字幕帧出现时间，并对其进行综合分析处理，确定新闻条目分割时间点；识别视频中字幕信息，与分割结果关联，作为编目的语意信息。

现有技术的新闻视频编目技术方案中存在如下问题：

现有的主持人检测技术认为在视频中反复出现的人脸就是主持人，并通过投票的方法得到主持人的候选帧。其中的主要问题是：（1）假设不合理，在实际应用中，一个时长30分钟的新闻节目，主持人出现的时间通常只有不到5分钟，大量其它的人脸会生成很多虚警，严重影响算法的性能；（2）没有充分利用时域信息，基于投票产生的候选帧组没有充分利用时域信息，无法适应视频内容发生渐变的情况，同时得到的候选帧在时域上的分布比较凌乱，使后处理变得比较困难。

文本区域的检测算法效果不好。现有技术根据片头音乐匹配的新闻节目类型，选择相应的文本区域模板，通过比较模板和关键帧图像的文本区域的颜色直方图的相似度，根据经验阈值判断关键帧图像中是否含有文本。这种方法受视频图像质量、图像内容、新闻标题是否是透明背景、新闻标题中字符个数等多种因素的影响，效果较差。

切分结果中虚警和漏警情况较多。现有技术用主持人、字幕和静音点三种特征对新闻片段进行切分，这只适用于一部分比较规则的新闻片段，在实际情况下，使用这三种特征并不能充分表示新闻片段的切点，需要考虑更多的特征，如：主持人的识别结果、主持人的单、双切换、文本的结构化信息、说话人声音特征的变化等。

切分结果中新闻片段的切点和真实切点相比存在较多偏差。在现有技术的三个规则中，要么取离主持人最近的静音点作为切分点，要么取离标题最近的静音点作为切分点，在实际情况下，新闻片段的组织方式灵活多样，即使在一段新闻视频中，不同的栏目组织方式也可能不同，这些静音点并不能代表新闻片段的开始时刻，要做到准确切分，需要考虑更多因素，设计更为通用的框架。

发明内容

本发明提供一种新闻视频节目切分方法、新闻视频编目方法及***，可准确地确定新闻片段的起止位置，实现对新闻视频切分，得到各新闻视频片段，并编辑保存。本发明提供的一种新闻视频节目的切分方法，包括：

将采集到的新闻视频信号进行转码，生成预定格式的视频数据流；

对所述视频数据流进行分流，得到图像数据和音频数据，对所述图像数据和音频数据进行处理分析，检测并获取下述信息中至少之一：

视频中的结构化文本信息，包括文本的内容和类型；主持人的特征信息，包括主持人的位置、识别结果和起止时间；镜头切变情况，片头信息，包括片头的识别结果和起止时间；从所述音频数据中提取音频特征信息，包括静音点和基音周期跳变点；

基于所获取的信息，将检测结果按照时间顺序排列得到一事件序列；

采用预定的符号集和产生式规则约简所述事件序列，通过约简后的事件序列，判断出所述事件序列中各新闻片段起止点的粗略位置；

通过训练得到新闻片段起始位置附近各类事件发生的先验概率分布，在所述新闻片段粗略起始位置附近，根据事件序列，计算出现新闻片段起始位置的联合后验概率，选取后验概率最大的时刻作为新闻片段的准确起始位置，对所述新闻视频进行切分，得到各新闻视频片段。

本发明实施例提供的一种新闻视频编目***，包括：

片头检测单元（，用于检测新闻视频的片头或者栏目片头，并将检测到片头生成片头事件，并***到事件序列中，该片头事件包括片头的起止时间和类别；

标题检测单元，检测并跟踪视频中出现的新闻标题，对其进行字符识别，根据标题的位置和时序特点进行版面分析，生成标题事件，并***到事件序列中；该标题事件包括标题的内容、起止时间和类型；

主持人识别单元，用于检测并识别新闻中出现的人脸，当确定为主持人出现，则进行人脸跟踪；在主持人画面结束后，生成主持人事件，并***到事件序列中，该主持人事件包括起始时间点，主持人身份信息；

镜头检测单元，用于检测新闻视频中镜头变换，检测到的镜头边界时，生成镜头事件，并将其***到事件序列中，该镜头事件包括镜头变换的时刻；

音频处理单元，用于检测新闻视频中的静音点，并进一步判断静音点前后是否是同一个说话人，监测说话人声音特征，在出现静音点或者说话人声音特征突变时生成音频事件，并***到事件序列中，该音频事件包括静音点的起止时间、前后是否为同一个说话人的判断结果、说话人声音特征突变的时刻；

故事模型分析单元，采用预定的符号集和产生式规则约简所述事件序列，通过约简后的事件序列，判断出新闻视频中各片段的起止点在所述事件序列中的粗略位置；

统计分析单元，用于通过训练得到新闻片段起始位置附近各类事件发生的先验概率分布，在所述新闻片段粗略起始位置附近，根据事件序列，计算出现新闻片段起始位置的联合后验概率，选取后验概率最大的时刻作为新闻片段的准确起始位置，对所述新闻视频进行切分，得到各新闻视频片段。

该编目***，还包括：

编辑单元，用于对得到的各新闻视频片段进行校验和编辑，并将编辑后的各新闻视频片段及其相关信息发送到编目数据库；

编目数据库，用于保存并管理各新闻视频片段及其相关信息，以供检索使用。

本发明还提供一种新闻视频编目方法，包括：

对视频数据流进行分流，得到图像和音频数据，分别将其传递给相应的处理单元进行分析，获取视频中的结构化文本信息，包括文本的内容和类型，主持人的特征信息，包括主持人的位置、识别结果和起止时间，音频特征信息，包括静音点和基音周期跳变点,镜头切变情况，片头信息，包括片头的识别结果和起止时间；

将所获取的检测结果，按照时间顺序排列得到一事件序列；

通过训练得到新闻片段起始位置附近各类事件发生的先验概率分布，在所述新闻片段粗略起始位置附近，根据事件序列，计算出现新闻片段起始位置的联合后验概率，选取后验概率最大的时刻作为新闻片段的准确起始位置，对所述新闻视频进行切分，得到各新闻视频片段;

对得到的各新闻视频片段进行编辑，并将编辑后的各新闻视频片段及其相关信息保存到编目数据库。

本发明实施例提出一种新闻视频编目技术方案，检测新闻视频的片头、新闻标题、主持人特征信息、镜头变换、音频的静音点、切换点和基音周期突变点等特征信息，并根据这些特征信息，将检测结果按照时间顺序排列得到一事件序列；采用预定的符号集和产生式规则约简所述事件序列，进而判断出所述事件序列中各新闻片段起止点的粗略位置；在所述新闻片段粗略起始位置附近，根据事件序列，计算出现新闻片段起始位置的联合后验概率，选取后验概率最大的时刻作为新闻片段的准确起始位置，对所述新闻视频进行切分，得到各新闻视频片段。本发明提供的新闻视频编目技术方案中，提取了较为充分的特征，提取特征时采用的算法稳定、有效；本发明采用的句法分析方法，能够有效概括新闻视频中的结构信息，并且是一个开放的、灵活的、易于扩充的框架，便于适应新变化；采用最大后验概率准则确定新闻片段切点的准确位置，实现稳定、准确的切分。

附图说明

图1为本发明提供的一种新闻视频节目的切分方法流程图；

图2为本发明提供的一种新闻视频编目***的架构示意图；

图3为本发明实施例中提供的一种新闻视频编目方法流程图；

图4为本发明的具体实施例中提供的新闻视频编目***的构成示意图；

图5分别为本发明实施例中送入故事模型分析单元处理的事件序列；

图6为本发明实施例的新闻片段中显示的子标题截屏图片；

图7为本发明实施例提供的故事模型分析过程示意图。

具体实施方式

鉴于现有的新闻视频编目技术方案中存在的不足，本发明提出一种新的新闻视频编目方法及***，通过获取新闻视频的片头、新闻标题、主持人特征信息、镜头变换，音频的静音点、切换点和基音周期突变点等特征信息，并根据这些特征信息，将检测结果按照时间顺序排列得到一事件序列；采用预定的符号集和产生式规则约简所述事件序列，进而判断出所述事件序列中各新闻片段起止点的粗略位置；在所述新闻片段粗略起始位置附近，根据事件序列，计算出现新闻片段起始位置的联合后验概率，选取后验概率最大的时刻作为新闻片段的准确起始位置，对所述新闻视频进行切分，得到各新闻视频片段。

参照图1，本发明提供的一种新闻视频节目的切分方法，包括如下步骤：

S101，将采集到的新闻视频信号进行转码，生成预定格式的视频数据流；

S102，对所述视频数据流进行分流，得到图像数据和音频数据，对所述两类数据进行处理分析，检测并获取下述信息中至少之一：

视频中的结构化文本信息，包括文本的内容和类型；主持人的特征信息，包括主持人的位置、识别结果和起止时间；镜头切变情况，片头信息；包括片头的识别结果和起止时间；音频特征信息，包括静音点、不同说话人切换点和基音周期突变点；

其中，该步骤S102中，从视频数据流中提取结构化文本信息，具体包括：

在新闻视频图像中检测出文本块的位置；

按照字符特征对文本块图像进行处理，得到文本信息；

对文本块进行跟踪，以获取文本块的时序信息；

对文本块进行版面分析以确定其类别，判断是否为新闻标题、子标题；若是新闻标题，则提取该新闻标题。

S103，基于所获取的信息，将检测结果按照时间顺序排列得到一事件序列；

S104，采用预定的符号集和产生式规则约简所述事件序列，通过约简后的事件序列，判断出所述事件序列中各新闻片段起止点的粗略位置，具体包括：

S104a）对事件序列使用CYK算法进行句法推导，从事件序列中找到所有存在的故事模型；若在推导过程中出现故事模型之间的包含关系，则删除被包含的模型；

S104b）根据故事模型确定出新闻片段的大致起止位置；后一个新闻片段的开始位置则为前一个新闻片段的结束位置。

S105，通过训练得到新闻片段起始位置附近各类事件发生的先验概率分布，在所述新闻片段粗略起始位置附近，根据事件序列，计算出现新闻片段起始位置的联合后验概率，选取后验概率最大的时刻作为新闻片段的准确起始位置，对所述新闻视频进行切分，得到各新闻视频片段。

该步骤S105中，选择新闻片段的准确起始位置的过程，具体包括：

S105a）在预定量的已标定训练样本上进行统计，得到新闻视频中新闻片段起始位置附近各类事件的先验概率分布；

S105b）得到新闻片段起始点的粗略位置，在该位置附近，假设各类事件发生的概率是平均分布且相互独立，根据事件序列中各类事件的发生情况，计算出现新闻片段起始点的联合后验概率；选取联合后验概率最大的时刻作为新闻片段起始点的准确位置。

本发明实施例还提供一种新闻视频自动编目***100，参照图2，该***100包括：

视频采集单元10，用于采集新闻视频节目信号；

视频转换单元20，将所采集的新闻视频节目信号进行转码，生成预定格式的视频流，并将该视频流送入片头检测单元40a、标题检测单元40b、主持人识别单元40c、镜头检测单元40d、音频处理单元40e。

控制单元30，用于控制视频采集单元10、视频转换单元20以及片头检测单元40a、标题检测单元40b、主持人识别单元40c、镜头检测单元40d、音频处理单元40e协同工作。

片头检测单元40a，用于检测新闻视频的片头或者栏目片头，并将检测到片头生成片头事件，并***到事件序列中，该片头事件包括片头的起止时间和类别；

标题检测单元40b，检测并跟踪视频中出现的新闻标题，对其进行字符识别，根据标题的位置和时序特点进行版面分析，生成标题事件，并***到事件序列中，该标题事件包括标题的内容、起止时间和类型；

主持人识别单元40c，用于检测并识别新闻中出现的人脸，当确定为主持人出现，则进行人脸跟踪；在主持人画面结束后，生成主持人事件，并***到事件序列中，该主持人事件包括起始时间点，主持人身份信息；

镜头检测单元40d，用于检测新闻视频中镜头变换，检测到的镜头边界时，生成镜头事件，并将其***到事件序列中，该镜头事件包括镜头变换的时刻；

音频处理单元40e，用于检测新闻视频中的静音点，并进一步判断静音点前后是否是同一个说话人，监测说话人声音特征，在出现静音点或者说话人声音特征突变时生成音频事件，并***到事件序列中，该音频事件包括静音点的起止时间、前后是否为同一个说话人的判断结果、说话人声音特征突变的时刻；

故事模型分析单元50，采用预定的符号集和产生式规则约简所述事件序列，通过约简后的事件序列，判断出新闻视频中各片段的起止点在所述事件序列中的粗略位置；

新闻视频流通过片头检测单元40a、标题检测单元40b、主持人识别单元40c、镜头检测单元40d及音频处理单元40e后，生成实时的检测结果，按照时间顺序排列就得到一个事件序列。事件序列是一种对视频内容的概括描述。通过观察大量视频的事件序列，可以发现其中一些具有共性的组织方式，这些组织方式反映了新闻视频中的结构信息，称为故事模型。

具体实施方案中，该故事模型分析单元50，具体包括：

推导模块50A，对所述事件序列使用CYK算法进行句法推导，从所述事件序列中找到所有存在的故事模型；

范围确定模块50B，根据所述故事模型确定出新闻片段的大致起止位置。

统计分析单元60，用于根据训练中得到的新闻片段起始位置附近各类事件发生的先验概率分布，在所述新闻片段粗略起始位置附近，根据事件序列，计算出现新闻片段起始位置的联合后验概率，选取后验概率最大的时刻作为新闻片段的准确起始位置，对所述新闻视频进行切分，得到各新闻视频片段。

具体实施方案中，该统计分析单元60，包括：

训练模块60A，用于对已标定的多种类型的新闻视频样本中新闻片段起始位置附近发生的各类事件进行统计，以得到各类事件的先验概率分布；

后验概率计算模块60B，在所述新闻片段粗略起始位置附近，结合训练中得到的概率模型，根据事件序列，计算出现新闻片段起始位置的联合后验概率；

位置确定模块60C，选取后验概率最大的时刻作为新闻片段的准确起始位置；后一个新闻片段的开始位置则为前一个新闻片段的结束位置，对所述新闻视频进行准确切分。

该编目***100，还包括：

编辑单元70，用于对得到的各新闻视频片段进行校验和编辑，生成各片段的摘要信息，并将编辑后的各新闻视频片段及其摘要信息发送到编目数据库；

编目数据库80，用于保存并管理各新闻视频片段及其相关信息，以供检索使用。

本发明还提供一种新闻视频自动编目方法，如图3所示，包括如下步骤：

S301，将采集到的新闻视频信号进行转码，生成预定格式的视频数据流；

S302，对视频数据流进行分流，得到图像和音频数据，分别将其传递给相应的处理单元进行分析，获取视频中的结构化文本信息，包括文本的内容和类型，主持人的特征信息，包括主持人的位置、识别结果和起止时间，音频特征信息，包括静音点、不同说话人切换点和基音周期跳变点,镜头切变情况，片头信息，包括片头的识别结果和起止时间；

S303，将所获取的检测结果，按照时间顺序排列得到一事件序列；

S304，采用预定的符号集和产生式规则约简所述事件序列，通过约简后的事件序列，判断出所述事件序列中各新闻片段起止点的粗略位置；

S305，通过训练得到新闻片段起始位置附近各类事件发生的先验概率分布，在所述新闻片段粗略起始位置附近，根据事件序列，计算出现新闻片段起始位置的联合后验概率，选取后验概率最大的时刻作为新闻片段的准确起始位置，对所述新闻视频进行切分，得到各新闻视频片段;

S306，对得到的各新闻视频片段进行编辑，并将编辑后的各新闻视频片段及其相关信息保存到编目数据库。

为使本发明的原理、特性和优点更加清楚、明了，下面结合具体实施例对本发明进行详细描述。

图4所示为本发明的具体实施例中提供的新闻视频自动编目***的框架，该新闻视频自动编目***400包括：

视频采集单元410，视频转换单元420，片头检测单元440a、标题检测单元440b、主持人识别单元440c、镜头检测单元440d、音频处理单元440e，以及故事模型分析单元450、统计分析单元460、编辑单元470和编目数据库480。

首先，由视频采集单元410（视频采集卡）实时接收电视信号，再经视频转换单元420进行转码，生成特定格式的视频流,从视频流中提取图像、音频数据，根据需要分别传送给片头检测单元440a、标题检测单元440b、主持人识别单元440c、镜头检测单元440d、音频处理单元440e，这些单元统一由控制单元430进行配置和调度。

片头检测单元440a检测新闻视频的片头或者栏目片头，一旦检测到片头就生成片头事件，实时***到事件序列中。片头事件包括片头的起止时间和类别。

每个新闻节目都有独特的片头，因此片头在自动编目***中的有重要意义。

（1）在编目初期，根据待处理频道的节目单上的时间来截取新闻视频，但是在实际应用中却发现视频流的准确时间难以把握，解决办法是将新闻视频的起始时间提前几分钟，确保接收到完整的新闻节目，然后根据片头信息给出准确的起始时间；

（2）某些新闻节目分成多个栏目（如：安徽卫视-超级新闻场、山西卫视-新闻午报等），不同的栏目在标题、主持人等方面的特点都有变化，在处理时先检测栏目的片头，然后根据检测结果在文本、主持人处理环节选择相应的策略。

片头检测主要包括三部分：提取特征，视频帧匹配，片头匹配。

片头特征包括视觉特征和音频特征。在本文的具体应用中，新闻片头的图像和声音都是相对固定的，不用考虑各种变形。与视频复制检测（copy detection）相比，片头检测的特征提取不需要考虑过多的不变性，而只需要考虑特征的判别性。在视频流中提取视觉和音频特征。其中视觉特征包括全局灰度直方图特征（见镜头检测部分的描述）；音频特征为MFCC特征（见音频分割部分的描述）。两种特征连接成为一个视频帧的特征描述，即一个N维的特征向量。

为了加快检索速度，本文对提取的特征向量建立索引，采用的索引结构为Cover Tree。使用Cover Tree建立索引和检索的过程在文献Proceedings of the 23rd International Conference on Machine Learning, 2006. "Cover Trees for Nearest Neighbor"有详细的描述。

对待检测视频中的每一帧提取特征并通过Cover Tree检索匹配，可以得到片头库中的一些候选匹配帧。为了从候选匹配帧中得到候选的匹配片头，本文采用了Hough变换（Hough Transformation）的方法，对候选匹配帧所在片头的ID编号和时间偏移量进行投票，这样可以同时考虑匹配帧数量和匹配帧的时序分布信息。Hough投票算法在文献IEEE Transactions on Multimedia, Issue 4, Vol 12, "An Image-Based Approach to Video Copy Detection With Spatio-Temporal Post-Filtering"中有详细描述。

标题检测单元440b检测并跟踪视频中出现的新闻标题，在新闻标题结束时对其进行字符识别，并根据标题的位置和时序特点进行版面分析，生成标题事件，实时***到事件序列中。标题事件包括标题的内容、起止时间和类型。

在新闻视频的自动编目中，新闻标题是一个重要信息。

（1）每个新闻片段都有标题，标题是对新闻片段内容的最准确、最直接的语义概括，是编目***需要提取的信息；

（2）标题意味着存在一个新闻片段，尤其在简讯类新闻中，不出现主持人镜头，只能依靠标题判断故事模型和确定切点的准确位置；

（3）在某些新闻节目（如：江苏卫视-江苏午间特快、东方卫视-东方夜新闻等）中，一段较长的新闻有一个标题和多个子标题，不同的子标题对应着不同的新闻子片段，通过标题可以将这些内容上有逻辑关系的子片段组合起来。

在自动编目中，提取正确的新闻标题需要解决以下两类问题：

（1）在不同种类的新闻视频中，标题的表现形式差异很大，如：字体、排版、颜色、背景、图像质量等，这些因素对文本区域的检测、跟踪、分割、识别都有显著影响；

（2）新闻视频中包含的文本种类繁多，如：标题、副标题、子标题、字符台标、附属词、滚动条等，不同种类的文本含义不同，需要进行版面分析才能提取结构化的文本信息。

本发明实施例中提取新闻标题采用的处理流程和算法在专利“一种提取视频结构化文本信息的方法及装置”，201010104243.1 中进行了详细描述。

主持人识别单元440c实时检测并识别新闻中出现的人脸，一旦确定主持人出现，则进行人脸跟踪。在主持人画面结束后，生成主持人事件，实时***到事件序列中。主持人事件包括起始时间点，主持人编号，以及主持人类型信息。

主持人分析是新闻视频自动编目的一个重要组成部分，因为新闻片段往往是以主持人的出现作为起始点。相对于音频的静音点检测和切变镜头检测，主持人分析可以提供更加可靠的切分点。

主持人分析主要包括三个级联的子模块：人脸检测、主持人识别和主持人跟踪。

人脸检测的作用是在视频帧中确定人脸出现的位置。本文使用级联型的AdaBoost算法检测人脸，该算法在文献Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2001，“Rapid Object Detection using a Boosted Cascade of Simple Features”中有详细描述。在新闻视频中，主持人人脸可能出现的位置和人脸的尺寸都较为固定，可以利用先验信息限制提高算法的精度和效率。

主持人识别的作用是判断人脸检测模块得到的人脸是否是该节目的主持人。为此需要首先建立主持人模板库，而后将检测结果与模板库中的人脸进行逐一比对，根据相似度判断待识别的人脸是否是节目主持人。其中有三项关键技术：（1）待识别人脸的姿态校正、光照校正和眼镜去除等预处理；（2）人脸特征的选择和提取；（3）主持人模板库的构造和快速索引。相关的技术细节在文献“Handbook of Face Recognition”, Stan Z. Li and Anil K. Jain, Springer, 2005中有详细描述。

主持人跟踪的作用是确定主持人持续出现的时间长度。在一些新闻节目中经常出现主持人低头读稿或侧身交流等情况，很难通过人脸识别技术准确的识别每一帧人脸，因此在检测到主持人的出现后，本文借助成熟的粒子滤波跟踪算法得到主持人出现的时间段。粒子滤波算法在文献Statistics and Computing, 10:197–208, 2000, "On sequential monte-carlo sampling methods for bayesian filtering"中有详细描述。

镜头检测单元440d检测新闻视频中镜头变换，一旦检测到镜头边界就生成镜头事件，实时***到事件序列中。镜头事件包括镜头变换的时刻。

镜头是视频编目中的一个有用信息，一个新闻片段的开始往往也是一个镜头的开始，利用镜头检测（shot boundary detection）能够找到新闻片段的准确切点。本文处理的视频类型是新闻视频，在新闻视频中，镜头边界主要是切变，不用考虑渐变、淡入淡出、擦除、特效等镜头模式，同时要求对图像中背景区域的变化有较好的鲁棒性。在本文中，镜头分割的任务是为了找出候选切点，比较重视召回率，无用的镜头边界在后续的故事模型分析阶段会被丢弃。

本文采用基于区域直方图（region histogram）的镜头检测算法，在文献Journal of Electronic Imaging, Issue 5, April 1996, "Comparison of video shot boundary detection techniques"中有详细描述。该算法适宜新闻视频中的镜头检测，在保证高召回率的情况下也具备较高的准确率。

音频处理单元440e检测新闻视频中的静音点，并进一步判断静音点前后是否是同一个说话人，监测说话人声音特征，在出现静音点或者说话人声音特征突变时生成音频事件，实时***到事件序列中。音频事件包括静音点的起止时间、前后是否为同一个说话人的判断结果、说话人声音特征突变的时刻。

本发明实施例中，音频事件包括三类：（1）静音点，（2）不同说话人切换点；（3）基音周期突变点。

静音点是新闻视频编目中的有用信息，在相邻两个新闻片段的播报声音之间往往存在一段静音间隔，可以作为切分的依据。但是，在一些情况下，单凭静音时间的长度进行切分会导致误切，此时就可以依据判断说话人是否发生变化来予以校正。

本发明实施例中，采用两级检测的方法检测音频事件。在第一级检测中，利用能量特征检测出静音点（在文献Proceedings of the 2009 IEEE international conference on Multimedia and Expo, 2009, "A two phase method for general audio segmentation"中有详细描述），并根据实际情况，利用静音时间长度对其进行筛选。在第二级检测中，从静音点前、后3秒的音频片段中提取MFCC和LSP组合特征，使用BIC准则判断说话人是否发生变化（在文献The 6th International Symposium on Chinese Spoken Language Processing, 2008, "A two stage multi-feature integragation approach to unsupervised speaker change detection in real time news broadcasting"中有详细描述）。如果说话人发生变化，则标记出该事件。本文中对属于同一说话人的静音点不进行合并，而是将其保留下来。

在新闻视频片段中，出现主持人镜头往往代表一个新片段的开始。但是，在一些情况下，主持人会对前一个片段进行简要评论，然后才开始播报新片段，如果单凭主持人镜头进行切分会导致误切，观察主持人的基音周期（pitch）是否发生跳变能够予以校正。在前一个话题的末尾，主持人的基音周期往往会降低，而在开始一个新话题时，主持人的基音周期会有明显提高（在文献SPIE Electronic Imaging, 2004, "Discovery and fusion of salient multi-modal features towards news segment segmentation"中有详细描述）。

本文中使用音频处理工具包SPTK（Speech Signal Processing Toolkit, Version 3.3, December 25, 2009，http://sp-tk.sourceforge.net）提取pitch特征。SPTK中采用的是传统倒谱法，在应用中需要对音频数据进行预处理，并根据实际情况设定检测阈值。

片头检测单元440a、标题检测单元440b、主持人识别单元440c、镜头检测单元440d及音频处理单元440e生成事件序列后，由故事模型分析单元50对事件序列进行分析，判断当前新闻片段的故事模型，确定新闻片段起始点的大致位置，统计分析单元60，用于根据训练中得到的新闻片段起始位置附近各类事件发生的先验概率分布，在所述新闻片段粗略起始位置附近，根据事件序列，计算出现新闻片段起始位置的联合后验概率，选取后验概率最大的时刻作为新闻片段的准确起始位置，对所述新闻视频进行切分，得到各新闻视频片段。编辑单元70整理片段内的事件，对得到的各新闻视频片段进行校验和编辑，生成各片段的摘要信息，并将编辑后的各新闻视频片段及其摘要信息等相关信息发送到编目数据库；编目数据库80中保存并管理各新闻视频片段及其相关信息，以供检索使用。

在本发明实施例中，事件序列实时送入故事模型分析单元450，故事模型分析单元450根据事件序列和已制定的产生式规则集，利用CYK算法（Cocke-Younger-Kasami算法）判断当前的事件序列来自哪一个故事模型。产生式规则通过观察新闻视频样本集中的事件序列手工设计得到。产生式规则分为约简规则和模型判断规则，约简规则用于对实际情况的化简，规范事件序列，模型判断规则用于对故事模型的判断。CYK算法是一种传统的句法识别方法，在文献“《模式分类》，机械工业出版社，2005年版”中进行有详细描述。确定故事模型之后可以推断出新闻片段切点在事件序列中的大致位置，统计分析单元460考察该位置附近发生的事件及其概率模型，利用最大后验概率准则确定切点的准确位置。最大后验概率准则在文献“《统计推断》，机械工业出版社，2006年版”中有详细描述。

图5所示为实时送入故事模型分析单元450的4个事件序列。

图5中事件序列Ea表示：出现主持人，主持人结束后镜头切换，出现一段静音，镜头切换，出现标题，标题持续出现的一段时间内镜头切换，标题结束后一段时间出现镜头切换，出现一段静音，镜头切换，镜头切换，出现静音。这是CCTV1-新闻联播中常见的一个新闻片段的事件描述。序列Eb、Ec和Ed都是新闻中比较常见的情况。

在图5中，事件序列Ea和Eb都是一段完整的新闻片段，新闻片段都是以主持人开始，所不同的只是标题出现的时间段和主持人出现的时间段是否重叠；事件序列Ec中包含3个独立的新闻片段，每个新闻片段都是以标题开始，主持人只是简短介绍，引导观众进入下一个环节，这往往是简讯的组织方式；事件序列Ed中，主持人先简要总结前一个新闻片段，然后开始播报下一个新闻片段，新的片段的虽然是以主持人开始，但出现主持人的时刻并不是片段开始的时刻。新闻片段的组织方式多种多样，图5中只是示出了其中的四种情况。

对新闻片段的组织方式进行概括，就会发现新闻片段的故事模型。在目前众多的新闻视频中，新闻片段只有两种故事模型：（1）主持人、标题和内容描述，（2）标题和内容描述。在图5中，新闻片段(序列) Ea、Eb和Ed属于故事模型Ⅰ，Ec属于故事模型Ⅱ。故事模型反映了新闻制作时遵循相近的稳定的规则。稳定的数量很少的故事模型使得利用句法分析确定新闻片段的起止时间成为可能。

故事模型分析单元50，采用预定的符号集和产生式规则约简所述事件序列，通过约简后的事件序列，判断出新闻视频中各片段的起止点在所述事件序列中的粗略位置。

具体地，本发明实施例中，预定的符号集分成三类：起始符、终止符和中间符。起始符代表新闻片段的故事模型，终止符代表视频中检测到的事件，中间符是句法推导过程中的中间状态，没有固定的含义，其中起始符和中间符都是抽象概念，终止符是具体事物。本实施例中采用的符号集见下表1所示：

产生式规则是句法推导的依据，本实施例中采用的产生式规则包括约简规则和模型判断规则。事件序列的实际情况很复杂，如果直接在事件序列上进行故事模型判断，可能会出现某些规则相互矛盾导致无法设计规则集，或者规则集数目庞大，不利于实时推导。约简规则能够化简一些情况，规范事件序列，有利于故事模型的判断。由于故事模型判断采用CYK算法，所以规则都被设计成Chomsky范式。设计的产生式规则如表2所示。

表2

[0070]在片头、主持人、标题和子标题持续的起止时间内，同时还会出现其他事件，如镜头切换、静音点、说话人切换等，不能因为出现这些事件而把片头、主持人、标题或者子标题从中切开，这些事件应该被忽略。在产生式规则中，有一些规则是完成这个任务的。

在主持人事件中，需要分清楚单、双主持人两种情况，不同情况下处理方法不相同。

在单主持人检测时，某些情况下，如：主持人低头看稿，或者侧脸等，会导致主持人检测的起始时间和实际主持人开始的时间存在偏差，在一定时间范围内，可以通过将主持人检测的起始时间停靠到的其他事件上予以校正。

在单主持人的起止时间内，如果基音周期出现突变，则表明主持人开始了一个新话题，需要调整主持人的起始时刻。在双主持人的起止时间内，由于两个主持人（通常是一男一女）的声音特征不同，如果检测到基音周期出现突变，或者不同说话人切换，都应该被忽略。

标题约简规则中有一些规则是处理子标题的。例如，如图6所示的新闻片段中显示的子标题，视频图像中首先出现标题，“乌干达连环***再掀波澜”，然后标题缩小，位于子标题上方，子标题依次是“乌警方发现‘炸弹背心’”、“乌警方认为连环***幕后黑手众”、“***案死亡人数升至76人”、“全国从13日开始为期一周哀悼”。标题约简规则将子标题全部合进标题，组成一个完整的逻辑单元。

故事模型分析单元的处理流程如下：

1）缓存事件系列，每隔预定时间（如5分钟）处理一次，满足实时分析的要求；

2）对一段事件序列使用CYK算法进行句法推导，从中找到所有存在的故事模型；在推导过程中，会出现故事模型之间的包含关系，删除被包含的模型；

3）根据故事模型确定出新闻片段的大致起始位置；后一个新闻片段的开始位置就是前一个新闻片段的结束位置；

4）考虑到相邻时间段之间在内容上的衔接，每个时间段最后一个故事模型暂不处理，保留其事件序列；

5）已经确定出故事模型的事件序列被标记，此后不再处理。

本实施例中的故事模型分析过程如图7所示，图7中A是一段事件序列，B是CYK算法的推导过程，C是求出故事模型后对新闻片段的粗略切分结果。

统计分析单元460在新闻片段粗略起始位置附近，根据事件序列，计算出现新闻片段起始位置的联合后验概率，选取后验概率最大的时刻作为新闻片段的准确起始位置，对所述新闻视频进行切分，得到各新闻视频片段。

具体地，本实施例中，通过故事模型分析可以判断出新闻片段的起始点在事件序列中的位置，进而确定它在视频中的大致时间位置。但是，在实际应用中需要确定出起始点的准确位置，不能够出现偏移。这需要综合考虑切点发生时的视频特征，如：主持人刚好出现、主持人的声音特征有明显变化、由当前镜头变换到一个新镜头、出现一段较长时间的静音点、出现不同说话人的切换等。从大量新闻视频中发现，这些事件可能单独发生，也可能几个同时发生，可能是一个切点，也可能不是，没有固定的模型。解决问题的方法之一就是观察大量视频样本，通过训练得到每一类事件导致切点发生的后验概率，在实际应用时，考虑一段时间范围内发生的多个事件的联合概率密度，选取最有可能是起始点的时刻作为新闻片段的切点。

需要指出的是，在训练时，并不是新闻视频中发生的所有事件都要进行统计，只有在切点附近发生的事件才需要被考虑，否则，视频中大量与切点无关的负面事件会导致错误的模型参数。同时，因为同一类事件在不同的故事模型中的重要程度不同，训练是分故事模型进行的，一种故事模型对应一组估计参数。

不同故事模型在新闻片段起始点附近发生的事件各不相同，但确定切点的原理是相同的。以故事模型S₁为例进行说明，在该模型中切点（Z）附近伴随发生的事件有主持人（C）、标题（T）、静音段（A）、说话人切换（B）和镜头切换（

），联合后验概率

最大点就是切点所在的位置。

通过故事模型分析能够确定切点的大致时间位置[t₁, t₂]，在这一段时间内，每一个时刻都可能是切点，没有特殊限制，所以切点在这个时间段上的分布是一个均匀分布，则有先验概率：

为了便于处理，假设各个事件相互独立，则有：

以主持人（

）为例，计算条件概率

，

假设

服从均匀分布，去掉常数因子

可得：

不失一般性，假设

服从高斯分布，在训练集上估计其参数。[0082]训练集是一组经过人工标定后的视频，在标定结果中给出了切点以及各种事件发生的时刻。设训练集为：

计算一组数据：

求出的均值

和标准差

，则有：

同理，通过训练集可求得：

在应用中，根据训练得到的模型，求得后验概率：

就是求得的切点的时刻。

本发明实施例提出一种新闻视频编目技术方案，通过获取新闻视频的片头、新闻标题、主持人特征信息、镜头变换和音频的静音点，不同说话人切换点和基音周期突变点等特征信息，并根据这些特征信息，将检测结果按照时间顺序排列得到一事件序列；采用预定的符号集和产生式规则约简所述事件序列，通过约简后的事件序列，判断出所述事件序列中各新闻片段起止点的粗略位置；在所述新闻片段粗略起始位置附近，根据事件序列，计算出现新闻片段起始位置的联合后验概率，选取后验概率最大的时刻作为新闻片段的准确起始位置，对所述新闻视频进行切分，得到各新闻视频片段。本发明提供的新闻视频编目技术方案中，提取了较为充分的特征，提取特征时采用的算法稳定、有效；本发明采用的句法分析方法，能够有效概括新闻视频中的结构信息，并且是一个开放的、灵活的、易于扩充的框架，便于适应新变化；采用最大后验概率准则确定新闻片段切点的准确位置，实现稳定、准确的切分。

本发明虽然以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以做出可能的变动和修改，因此本发明的保护范围应当以本发明权利要求所界定的范围为准。

Claims

1.一种新闻视频节目的切分方法，其特征在于，包括：

2. 如权利要求1所述的切分方法，其特征在于，

所述预定的符号集和产生式规则，其特征在于，约简所述事件序列，判断出新闻视频中各片段的起止点在所述事件序列中的粗略位置，具体包括：

对所述事件序列使用CYK算法进行句法推导，从所述事件序列中找到所有存在的故事模型；若在推导过程中出现故事模型之间的包含关系，则删除被包含的模型；

根据所述故事模型确定出新闻片段的大致起止位置；后一个新闻片段的开始位置则为前一个新闻片段的结束位置。

3. 如权利要求1或2所述的切分方法，其特征在于，所述选择新闻片段的准确起始位置的过程，具体包括：

在对于预定量的训练样本上进行统计，得到新闻视频中新闻片段起始位置附近各类事件的先验概率分布；在得到新闻片段起始点的粗略位置，在该位置附近，假设各类事件发生的概率是平均分布且相互独立，根据事件序列中各类事件的发生情况，计算出现新闻片段起始点的联合后验概率；选取联合后验概率最大的时刻作为新闻片段起始点的准确位置。

4. 如权利要求1所述的切分方法，其特征在于，从所述视频数据流中提取结构化文本信息并检测获取新闻标题，具体包括：

在所述新闻视频图像中检测出文本块的位置；

按照字符特征对所述文本块图像进行处理，得到文本信息，包括字符识别结果；

对文本块进行跟踪，以获取文本块的时序信息；

5. 一种新闻视频编目***，其特征在于，包括：

片头检测单元（40a），用于检测新闻视频的片头或者栏目片头，并将检测到片头生成片头事件，并***到事件序列中，该片头事件包括片头的起止时间和类别；

标题检测单元（40b），检测并跟踪视频中出现的新闻标题，对其进行字符识别，根据标题的位置和时序特点进行版面分析，生成标题事件，并***到事件序列中；该标题事件包括标题的内容、起止时间和类型；

主持人识别单元（40c），用于检测并识别新闻中出现的人脸，当确定为主持人出现，则进行人脸跟踪；在主持人画面结束后，生成主持人事件，并***到事件序列中，该主持人事件包括起始时间点，主持人身份信息；

镜头检测单元（40d），用于检测新闻视频中镜头变换，检测到的镜头边界时，生成镜头事件，并将其***到事件序列中，该镜头事件包括镜头变换的时刻；

音频处理单元（40e），用于检测新闻视频中的静音点，并进一步判断静音点前后是否是同一个说话人，监测说话人声音特征，在出现静音点或者说话人声音特征突变时生成音频事件，并***到事件序列中，该音频事件包括静音点的起止时间、前后是否为同一个说话人的判断结果、说话人声音特征突变的时刻；

故事模型分析单元（50），采用预定的符号集和产生式规则约简所述事件序列，通过约简后的事件序列，判断出新闻视频中各片段的起止点在所述事件序列中的粗略位置；

统计分析单元（60），用于通过训练得到新闻片段起始位置附近各类事件发生的先验概率分布，在所述新闻片段粗略起始位置附近，根据事件序列，计算出现新闻片段起始位置的联合后验概率，选取后验概率最大的时刻作为新闻片段的准确起始位置，对所述新闻视频进行切分，得到各新闻视频片段。

6. 如权利要求5所述的编目***，其特征在于，还包括：

编辑单元（70），用于对得到的各新闻视频片段进行校验和编辑，并将编辑后的各新闻视频片段及其相关信息发送到编目数据库；

编目数据库（80），用于保存并管理各新闻视频片段及其相关信息，以供检索使用。

7. 如权利要求5或6所述的编目***，其特征在于，还包括：

视频采集单元（10），用于采集新闻视频节目信号；

视频转换单元（20），将所采集的新闻视频节目信号进行转码，生成预定格式的视频流，并将该视频流送入所述片头检测单元、标题检测单元、主持人识别单元、镜头检测单元，将音频数据输入音频处理单元。

8. 如权利要求7所述的编目***，其特征在于，还包括：

控制单元（30），用于控制所述视频采集单元（10）、视频转换单元（20）以及片头检测单元（40a）、标题检测单元（40b）、主持人识别单元（40c）、镜头检测单元（40d）、音频处理单元（40e）协同工作。

9. 如权利要求5或6所述的编目***，其特征在于，所述故事模型分析单元（50），包括：

推导模块（50A），对所述事件序列使用CYK算法进行句法推导，从所述事件序列中找到所有存在的故事模型；

范围确定模块（50B），根据所述故事模型确定出新闻片段的大致起止位置；后一个新闻片段的开始位置则为前一个新闻片段的结束位置。

10. 如权利要求5或6所述的编目***，其特征在于，所述统计分析单元（60），包括：

训练模块（60A），用于对多种类型的新闻视频中新闻片段切点附近发生的各类事件进行统计，以得到各类事件的先验概率分布；

后验概率计算模块（60B），在所述新闻片段粗略起始位置附近，根据事件序列，计算出现新闻片段起始位置的联合后验概率；

位置确定模块（60C），选取后验概率最大的时刻作为新闻片段的准确起始位置，用于对所述新闻视频进行切分。

11. 一种新闻视频编目方法，其特征在于，包括：

将所获取的检测结果，按照时间顺序排列得到一事件序列；

通过训练得到新闻片段起始位置附近各类事件发生的先验概率分布，在所述新闻片段粗略起始位置附近，根据事件序列，计算出现新闻片段起始位置的联合后验概率，选取后验概率最大的时刻作为新闻片段的准确起始位置，对所述新闻视频进行切分，得到各新闻视频片段；