CN105516802A - 多特征融合的新闻视频摘要提取方法 - Google Patents

多特征融合的新闻视频摘要提取方法 Download PDF

Info

Publication number
CN105516802A
CN105516802A CN201510807865.3A CN201510807865A CN105516802A CN 105516802 A CN105516802 A CN 105516802A CN 201510807865 A CN201510807865 A CN 201510807865A CN 105516802 A CN105516802 A CN 105516802A
Authority
CN
China
Prior art keywords
frame
video
news video
theme
news
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510807865.3A
Other languages
English (en)
Other versions
CN105516802B (zh
Inventor
蒋兴浩
孙锬锋
王娟
姜华
郁聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DIGITAL CHINA (SHANGHAI) HOLDINGS Ltd
Shanghai Jiaotong University
Original Assignee
DIGITAL CHINA (SHANGHAI) HOLDINGS Ltd
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DIGITAL CHINA (SHANGHAI) HOLDINGS Ltd, Shanghai Jiaotong University filed Critical DIGITAL CHINA (SHANGHAI) HOLDINGS Ltd
Priority to CN201510807865.3A priority Critical patent/CN105516802B/zh
Publication of CN105516802A publication Critical patent/CN105516802A/zh
Application granted granted Critical
Publication of CN105516802B publication Critical patent/CN105516802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Studio Circuits (AREA)

Abstract

本发明提供了一种多特征融合的新闻视频摘要提取方法,其对原始新闻视频利用镜头分割和镜头标定获得新闻视频基本处理单元。就静态视频摘要,对新闻基本处理单元采用角点检测、颜色滤波和形态学分析进行主题字幕检测,再结合人脸识别和聚类获得新闻主要人物信息;就动态视频摘要,对新闻基本处理单元进行静音分析,得到静音段,然后判定每个静音段是否包含主题字幕,如果有,则将其加入到最终的动态摘要序列,反之亦然;从而得到有意义的高语义动态和静态视频摘要。本发明能获得的静态摘要,可灵活地浏览和组织视频内容;并能获得的动态摘要,包含丰富的多媒体信息能清晰地表达原始视频内容,更具有娱乐性和观赏性。

Description

多特征融合的新闻视频摘要提取方法
技术领域
本发明涉及视频内容理解领域,具体涉及一种多特征融合的新闻视频摘要提取方法。
背景技术
新闻视频是人们获取信息的主要来源之一,其内容涵盖了人们生活中的各个方面,包括体育、娱乐、时事等,受众面广,更新速度快,在日常生活中扮演着不可缺失的角色。面对庞大的新闻视频库,如何高效地组织和浏览新闻视频,如何有效地过滤和定位出最适合,最准确的新闻内容是现阶段新闻视频内容理解领域的一个亟待解决的问题。
新闻视频摘要不仅可以显示新闻视频主旨内容,帮助人们快速地浏览新闻内容,还可结合视频标注技术服务于视频检索领域等,具有较高的研究价值。然而由于新闻视频内容主题跨度大,同一个新闻内容在视觉呈现上千差万别,单纯的底层特征分析很难描述新闻视频语义,导致现阶段新闻视频摘要研究仍面临挑战。
现存在一些通用的摘要提取发明。如专利文献“视频摘要生成方法和视频摘要生成装置(专利公开号:CN103092930A,专利公开日:2013.05.08)”中通过背景建模得到背景模型,再利用预设的分类器判断提取到的运动目标中是否包含人脸,并选取包含人脸的序列成为最终的摘要。该发明仅适用于某些领域的视频,如监控视频,对新闻视频摘要获取并不能获得有意义的结果。
现有的新闻视频摘要方法主要基于多特征融合,采用音视频信息来表达视频内容。而主题字幕帧包含新闻故事主要人物、新闻事件主题等重要信息,直接显示新闻事件语义信息,是新闻视频摘要领域的研究重点。
在文献[1](孟文婷.基于多模态特征融合的新闻视频摘要技术研究.[D].湖北:华中师范大学,2012)中采用多特征融合来分析新闻视频内容,首先通过自适应阈值进行镜头分割,再利用音视频信息进行主持人镜头检测,随后采用边缘特征分析获取新闻视频主题字幕帧,再选取具有主题字幕帧的镜头浓缩为摘要。然而该方法并未有效区分新闻视频中三类文本字幕,导致在仅采用边缘特征的前提下对主题字幕帧的检测效果不佳,同时由于其在选择具有主题字幕帧的镜头时并未考虑音频信息,从而其最终得到的摘要并不友好,不具有观赏性。
而文献[2](李小宁.角点检测技术在新闻视频检索中的应用研究[D].沈阳:东北大学,2010)中探讨了角点检测在新闻视频中的应用。它采用角点检测来识别主题字幕帧,但其检测方法也过于单一,最终检测效果并不理想。综合分析文献[1]和文献[2]的不足之处,本发明设计了一种基于角点检测、颜色滤波和形态学分析的有效的主题字幕帧检测算法,同时从工程实现角度出发,定义了新闻基本处理单元,方便模块化分析新闻视频。而基于观赏性和实用性考虑,本发明也分别设计了静态和动态视频摘要。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种多特征融合的新闻视频摘要方法。
根据本发明提供的一种多特征融合的新闻视频摘要提取方法,包括如下任一个或任多个步骤:
获取新闻基本处理单元步骤:从新闻视频中提取新闻基本处理单元;
检测主题字幕帧步骤:从新闻视频中提取主题字幕帧;
检测静音段步骤:从新闻视频中提取静音段;
检测人脸步骤:从新闻视频中提取人脸。
优选地,所述新闻基本处理单元是指,一段以主持人镜头出现为开始时刻,中间时段包含内容镜头,并以下一个主持人镜头出现的开始时刻作为结束时刻的视频片段。
优选地,所述获取新闻基本处理单元步骤包括镜头分割步骤,其中,所述镜头分割步骤,包括如下步骤:
根据如下计算式得到D(i,j):
其中,D(i,j)表示第i帧与第j帧的差异,N表示新闻视频帧灰度级的数量,fi,k表示第i帧新闻视频中第k级灰度的像素个数,fj,k表示第j帧新闻视频中第k级灰度的像素个数,第i帧与第j帧为前后两帧;i、j为正整数;
如果第i帧与第j帧的差异D(i,j)大于指定阈值Tshot,则认为存在镜头边界,将第j帧与设定的主持人模板进行匹配;若第j帧与设定的主持人模板匹配,则将第j帧作为新闻基本处理单元的起始帧。
优选地,所述检测主题字幕帧步骤,包括如下步骤:
设置新闻视频帧的感兴趣区域;
对各个新闻视频帧的感兴趣区域,采用Harris角点检测算子进行角点检测以获取感兴趣区域中的角点,根据角点得到待融合主题字母区域;
将各个新闻视频帧的感兴趣区域中满足如下条件的区域提取为蓝色区域:
100≤Hue≤260
0.33≤Saturation≤1
对提取到的蓝色区域提取矩形外轮廓,其中,Hue表示色调,Saturation表示饱和度;
将符合如下条件的矩形外轮廓所属的新闻视频帧确认为主题字幕帧,并将不符合如下条件的矩形外轮廓所属的新闻视频帧确认为伪主题字幕帧:
Height≥Theight
其中,Height表示矩形外轮廓的高度,Theight表示设定的高度阈值,ContourAreamax为各个新闻视频帧中矩形外轮廓中的最大轮廓面积,ContourAreamax-1为各个新闻视频帧中矩形外轮廓中的第二大轮廓面积,Tcontour表示设定的比例阈值;
将角点检测得到的待融合主题字母区域与主题字幕帧中矩形外轮廓的内部区域进行图像融合,得到候选主题字幕区域;
以矩形结构元素对候选主题字幕区域进行形态学膨胀操作,得到待鉴别文本连通域;
将符合如下条件的待鉴别文本连通域认为是伪文本块,将不符合如下条件的待鉴别文本连通域认为是文本块:
Areatext≤Tarea
Ratiotext≤Tratio
其中,Areatext表示待鉴别文本连通域的面积,Tarea表示设定的面积阈值,Ratiotext表示待鉴别文本连通域的宽高比,Tratio表示设定的宽高比阈值。
优选地,所述根据角点得到待融合主题字母区域,具体为:将角点连线划定出待融合主题字母区域。
优选地,所述检测静音段步骤,包括如下步骤:
采用Hamming窗对新闻视频中的音频进行加窗分帧,得到各帧音频信号;
根据如下计算式得到第i帧音频信号的短时能量Ei以及第i帧音频信号的短时过零率Zi
其中,N表示第i帧音频信号中包含的音频采样数目,xi(m)表示第i帧音频信号第m个采样值,xi(m+1)表示第i帧第m+1个采样值,sgn(·)为符号函数;
如果一帧音频信号满足如下条件,则认为该帧音频信号为静音帧,否则为非静音帧:
Ei≤Te
Zi≤Tz
其中,Te表示设定的短时能量阈值,Tz表示设定的短时过零率阈值。
优选地,所述检测人脸步骤包括如下步骤:
对新闻视频,采用Viola-Jones人脸检测算法,结合跨平台计算机视觉库OpenCV中训练好的分类器haarcascade_frontalface_atl/xml提取积分图像,计算Haar-like特征,进而利用跨平台计算机视觉库OpenCV中的cvHaarDetectObjects函数在新闻视频中检测人脸对象。
优选地,执行检测静音段步骤得到静音段,对静音段执行检测主题字幕帧步骤,仅在静音段对应的视频帧中包含主题字幕帧的情况下,将静音段对应的视频帧加入动态摘要序列。
与现有技术相比,本发明具有如下的有益效果:
1、本发明可依据用户不同的需求得到有意义的高语义静态或动态视频摘要。
2、本发明提出了新闻基本处理单元。可对新闻视频进行结构化处理,实现视频流的优化重组。同时,缩小了问题分析单元,有利于工程化实现摘要***。
3、本发明提出了基于角点检测、颜色滤波和形态学分析的主题字幕检测算法。可有效区分新闻视频中三类文本字幕,准确地检测出主题字幕。
4、本发明设计了静态摘要(例如主题字幕)和动态摘要(例如音频、人脸)。高度概括新闻视频内容,可满足不同的用户和应用需求,有较大的实用价值。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明提供的多特征融合的新闻视频摘要提取方法的流程框图;
图2是本发明中单、双主持人模板帧示例对比图;
图3是本发明实施例中新闻视频中三类字幕文本示例对比图;
图4是本发明实施例中主题字幕帧分类和检测流程框图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明提供了一种多特征融合的新闻视频摘要提取方法。本发明首先对原始新闻视频进行预处理,利用镜头分割和镜头标定获得新闻视频基本处理单元。就静态视频摘要,对新闻基本处理单元采用角点检测、颜色滤波和形态学分析进行主题字幕检测,再结合人脸识别和聚类获得新闻主要人物信息,最后利用合理的特征融合方法获得静态摘要;就动态视频摘要,对新闻基本处理单元进行静音分析,得到静音段,然后判定每个静音段是否包含主题字幕,如果有,则将其加入到最终的动态摘要序列,反之亦然;从而得到有意义的高语义动态和静态视频摘要。
根据本发明提供的一种多特征融合的新闻视频摘要提取方法,包括如下任一个或任多个步骤:
获取新闻基本处理单元步骤:从新闻视频中提取新闻基本处理单元;
检测主题字幕帧步骤:从新闻视频中提取主题字幕帧;
检测静音段步骤:从新闻视频中提取静音段;
检测人脸步骤:从新闻视频中提取人脸。
优选地,所述新闻基本处理单元是指,一段以主持人镜头出现为开始时刻,中间时段包含内容镜头,并以下一个主持人镜头出现的开始时刻作为结束时刻的视频片段。
优选地,所述获取新闻基本处理单元步骤包括镜头分割步骤,其中,所述镜头分割步骤,包括如下步骤:
根据如下计算式得到D(i,j):
其中,D(i,j)表示第i帧与第j帧的差异,N表示新闻视频帧灰度级的数量,fi,k表示第i帧新闻视频中第k级灰度的像素个数,fj,k表示第j帧新闻视频中第k级灰度的像素个数,第i帧与第j帧为前后两帧;i、j为正整数;
如果第i帧与第j帧的差异D(i,j)大于指定阈值Tshot,则认为存在镜头边界,将第j帧与设定的主持人模板进行匹配;若第j帧与设定的主持人模板匹配,则将第j帧作为新闻基本处理单元的起始帧。
优选地,所述检测主题字幕帧步骤,包括如下步骤:
设置新闻视频帧的感兴趣区域;
对各个新闻视频帧的感兴趣区域,采用Harris角点检测算子进行角点检测以获取感兴趣区域中的角点,根据角点得到待融合主题字母区域;
将各个新闻视频帧的感兴趣区域中满足如下条件的区域提取为蓝色区域:
100≤Hue≤260
0.33≤Saturation≤1
对提取到的蓝色区域提取矩形外轮廓,其中,Hue表示色调,Saturation表示饱和度;
将符合如下条件的矩形外轮廓所属的新闻视频帧确认为主题字幕帧,并将不符合如下条件的矩形外轮廓所属的新闻视频帧确认为伪主题字幕帧:
Height≥Theight
其中,Height表示矩形外轮廓的高度,Theight表示设定的高度阈值,ContourAreamax为各个新闻视频帧中矩形外轮廓中的最大轮廓面积,ContourAreamax-1为各个新闻视频帧中矩形外轮廓中的第二大轮廓面积,Tcontour表示设定的比例阈值;
将角点检测得到的待融合主题字母区域与主题字幕帧中矩形外轮廓的内部区域进行图像融合,得到候选主题字幕区域;
以矩形结构元素对候选主题字幕区域进行形态学膨胀操作,得到待鉴别文本连通域;
将符合如下条件的待鉴别文本连通域认为是伪文本块,将不符合如下条件的待鉴别文本连通域认为是文本块:
Areatext≤Tarea
Ratiotext≤Tratio
其中,Areatext表示待鉴别文本连通域的面积,Tarea表示设定的面积阈值,Ratiotext表示待鉴别文本连通域的宽高比,Tratio表示设定的宽高比阈值。
优选地,所述根据角点得到待融合主题字母区域,具体为:将角点连线划定出待融合主题字母区域。
优选地,所述检测静音段步骤,包括如下步骤:
采用Hamming窗对新闻视频中的音频进行加窗分帧,得到各帧音频信号;
根据如下计算式得到第i帧音频信号的短时能量Ei以及第i帧音频信号的短时过零率Zi
其中,N表示第i帧音频信号中包含的音频采样数目,xi(m)表示第i帧音频信号第m个采样值,xi(m+1)表示第i帧第m+1个采样值,sgn(·)为符号函数;
如果一帧音频信号满足如下条件,则认为该帧音频信号为静音帧,否则为非静音帧:
Ei≤Te
Zi≤Tz
其中,Te表示设定的短时能量阈值,Tz表示设定的短时过零率阈值。
优选地,所述检测人脸步骤包括如下步骤:
对新闻视频,采用Viola-Jones人脸检测算法,结合跨平台计算机视觉库OpenCV中训练好的分类器haarcascade_frontalface_atl/xml提取积分图像,计算Haar-like特征,进而利用跨平台计算机视觉库OpenCV中的cvHaarDetectObjects函数在新闻视频中检测人脸对象。
优选地,执行检测静音段步骤得到静音段,对静音段执行检测主题字幕帧步骤,仅在静音段对应的视频帧中包含主题字幕帧的情况下,将静音段对应的视频帧加入动态摘要序列。
优选地,
步骤4:依据用户需求选定权重因子进行特征融合,得到摘要目标函数,并对视频帧进行重要度评定,获取静态摘要,所述静态摘要包括由文本块文字识别得到的主题字幕和/或人脸;具体地,对于主题字幕特征C和人脸特征F,依据用户需求,得到摘要目标函数S
S=αC+βF
其中,α,β为权重因子。依据目标函数判定每帧的重要度,并提取静态视频摘要。
下面针对各个主要步骤进行更为详细的说明。
获取新闻基本处理单元步骤
新闻基本处理单元是指一段以主持人镜头出现为开始时刻,中间时段包含内容镜头,并以下一个主持人镜头出现的开始时刻作为结束时刻的视频片段。
本发明采用镜头分割步骤和镜头标定步骤来获取新闻视频基本处理单元。
镜头分割步骤:考量视频帧全局特征,优选地采用直方图比较法进行镜头分割。视频帧的总像素个数为M,灰度级为N,具有第k级灰度的像素个数为fk,前后两帧差异D(i,j)表示为:
其中,fi,k是第i帧中第k级灰度的像素个数,fj,k是第j帧中第k级灰度的像素个数,第i帧与第j帧为前后两帧,D(i,j)表示第i帧与第j帧的差异;
如果相邻两帧灰度直方图差异D(i,j)大于指定阈值Tshot,则认为存在镜头边界。
镜头标定:首先分别选定单主持人模板帧和双主持人模板帧,如图2所示,再提取每个镜头的首帧,分析将其与两类模板帧进行直方图差异比较,如果差值小于指定阈值Ttemplate,则认定该镜头为主持人镜头,反之亦然。
检测主题字幕帧步骤
如图3所示,可发现新闻视频中的字幕文本主要有主题字幕帧、会话字幕帧和其它字幕帧三类。
主题字幕帧通常包含新闻故事人物人名,新闻事件主题等重要信息,直接显示新闻事件语义信息,是新闻视频字幕文本的研究主体。其主要有以下几个特点:位于图像下部固定区域;字幕区域字体和背景主要为蓝色和白色,对比度较强;字体样式、大小固定。综合考虑字幕特点,本发明结合角点检测、颜色滤波和形态学分析来进行主题字幕帧检测。
由于主题字幕帧总是周期性出现在视频帧下部,为提高检测效率,首先对输入的新闻视频帧设置感兴趣(ROI)区域(100,290,380,50),即选定图像帧坐标(100,290)处,框取长为380,宽为50的矩形作为感兴趣区域。随后的视觉特征分析也仅针对此区域。
(1)角点检测
新闻视频字幕区域存在丰富的角点信息,为有效提取字幕区域特征,本发明采用Harris角点检测方法获取感兴趣区域的角点特征。
Harris角点检测算子是一种基于信号的点特征提取算法,其原理为:如果某一点向任一方向小小偏移都会引起灰度的很大变化,这就说明该点是角点。Harris角点检测算子R为:
R=det(C)-ktr2(C)
其中,C表示像素矩阵,det(C)表示像素矩阵的行列式,tr(C)表示像素矩阵的迹,k为经验值,通常取0.04~0.06;
C(x)满足
而Iu(x)、Iv(x)、Iuv(x)分别是像素点x的灰度在u方向的偏导、在v方向的偏导、二阶混合偏导。当感兴趣区域中的像素点x的Harris角点检测算子R大于设定的阈值Tcorner时,则认为该像素点x为角点。其中,u方向为水平方向,v方向表示垂直方向。
(2)颜色滤波
由于主题字幕帧前景和背景颜色差异大,对比性强,本发明加入HSV空间色调(Hue)和饱和度(Saturation)特征进行滤波,排除会话字幕帧等。首先,为提取主题字幕帧的蓝色区域,设定色调和饱和度满足下述条件:
100≤Hue≤260
0.33≤Saturation≤1
其它字幕帧与主题字幕帧具有相似的编辑模式,其前景字体为白色,背景为蓝色,单纯的颜色滤波很难区别二者。然而观察发现,其它字幕帧前景字体较小,相互之间较为独立,相应地,背景蓝色长矩形条也较小。基于此,算法继续对蓝色区域的大小和分布进行分析。对颜色滤波后得到的二值图像提取矩形外轮廓,计算各轮廓的高Height和面积ContourArea,并对轮廓面积进行排序。如果
其中,ContourAreamax为最大轮廓面积,ContourAreamax-1为第二大轮廓面积。若上式成立,则认为该帧为主题字幕帧。&表示并且。Theight表示设定的高度阈值,Tcontour表示设定的比例阈值。
(3)形态学分析
角点检测和颜色滤波可以过滤掉大部分的伪主题字幕帧,但是实验中发现该方法对具有复杂边缘的类文本区域效果甚微。因此,本发明结合主题字幕帧排列集中整齐的特点,继续采用形态学算法处理字幕区域。
首先对角点检测和颜色滤波后的二值图像进行融合,得到候选主题字幕区域。随后,以2×2大小的矩形结构元素进行形态学膨胀操作,得到文本连通域。分析文本块几何方面的约束条件,对文本连通域计算其面积Areatext和宽高比Ratiotext,如果
Areatext≤Tarea&Ratiotext≤Tratio
其中,Tarea和Tratio为经验阈值。若上式成立,则认为该文本连通域是伪文本块。最终通过面积分析可以过滤掉较小的区域,而宽高比可以排除那些细长、弯曲复杂的伪文本块,进一步优化字幕检测结果。
检测静音段步骤
新闻视频中不同的新闻内容间,主持人的播报声音常出现明显的停顿,并且这个停顿至少会持续0.3s。本发明采用音频的两个物理特征:短时能量和短时过零率来进行静音分析,获取静音段。
采用Hamming窗对新闻视频中的音频进行加窗分帧,每帧20ms。设xi(m)是加窗分帧后第i帧音频信号第m个采样值,记Ei为第i帧音频信号的短时能量,Zi为第i帧音频信号的短时过零率,则
Z i = 1 2 ( N - 1 ) Σ m = 1 N - 1 | sgn ( x i ( m + 1 ) ) - sgn ( x i ( m ) ) |
其中,N表示第i帧音频信号中包含的音频采样数目,xi(m+1)表示第i帧第m+1个采样的采样值。sgn(·)为符号函数。
与语音信号中的清音和浊音相比,静音帧短时能量小,过零率低。如果Ei和Zi满足Ei≤Te并且Zi≤Tz,Te和Tz为经验阈值,则该帧标定为静音帧,否则为非静音帧。
检测人脸步骤
新闻人物作为新闻故事的主题,常具有重要语义信息。本发明采用Viola-Jones人脸检测算法,结合OpenCV中训练好的分类器haarcascade_frontalface_atl/xml提取积分图像,快速计算Haar-like特征,并利用cvHaarDetectObjects函数在视频帧中检测人脸对象。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (8)

1.一种多特征融合的新闻视频摘要提取方法,其特征在于,包括如下任一个或任多个步骤:
获取新闻基本处理单元步骤:从新闻视频中提取新闻基本处理单元;
检测主题字幕帧步骤:从新闻视频中提取主题字幕帧;
检测静音段步骤:从新闻视频中提取静音段;
检测人脸步骤:从新闻视频中提取人脸。
2.根据权利要求1所述的多特征融合的新闻视频摘要提取方法,其特征在于,所述新闻基本处理单元是指,一段以主持人镜头出现为开始时刻,中间时段包含内容镜头,并以下一个主持人镜头出现的开始时刻作为结束时刻的视频片段。
3.根据权利要求2所述的多特征融合的新闻视频摘要提取方法,其特征在于,所述获取新闻基本处理单元步骤包括镜头分割步骤,其中,所述镜头分割步骤,包括如下步骤:
根据如下计算式得到D(i,j):
D ( i , j ) = Σ k = 1 N | f i , k - f j , k |
其中,D(i,j)表示第i帧与第j帧的差异,N表示新闻视频帧灰度级的数量,fi,k表示第i帧新闻视频中第k级灰度的像素个数,fj,k表示第j帧新闻视频中第k级灰度的像素个数,第i帧与第j帧为前后两帧;i、j为正整数;
如果第i帧与第j帧的差异D(i,j)大于指定阈值Tshot,则认为存在镜头边界,将第j帧与设定的主持人模板进行匹配;若第j帧与设定的主持人模板匹配,则将第j帧作为新闻基本处理单元的起始帧。
4.根据权利要求1所述的多特征融合的新闻视频摘要提取方法,其特征在于,所述检测主题字幕帧步骤,包括如下步骤:
设置新闻视频帧的感兴趣区域;
对各个新闻视频帧的感兴趣区域,采用Harris角点检测算子进行角点检测以获取感兴趣区域中的角点,根据角点得到待融合主题字母区域;
将各个新闻视频帧的感兴趣区域中满足如下条件的区域提取为蓝色区域:
100≤Hue≤260
0.33≤Saturation≤1
对提取到的蓝色区域提取矩形外轮廓,其中,Hue表示色调,Saturation表示饱和度;
将符合如下条件的矩形外轮廓所属的新闻视频帧确认为主题字幕帧,并将不符合如下条件的矩形外轮廓所属的新闻视频帧确认为伪主题字幕帧:
Height≥Theight
ContourArea m a x ContourArea m a x - 1 ≥ T c o n t o u r
其中,Height表示矩形外轮廓的高度,Theight表示设定的高度阈值,ContourAreamax为各个新闻视频帧中矩形外轮廓中的最大轮廓面积,ContourAreamax-1为各个新闻视频帧中矩形外轮廓中的第二大轮廓面积,Tcontour表示设定的比例阈值;
将角点检测得到的待融合主题字母区域与主题字幕帧中矩形外轮廓的内部区域进行图像融合,得到候选主题字幕区域;
以矩形结构元素对候选主题字幕区域进行形态学膨胀操作,得到待鉴别文本连通域;
将符合如下条件的待鉴别文本连通域认为是伪文本块,将不符合如下条件的待鉴别文本连通域认为是文本块:
Areatext≤Tarea
Ratiotext≤Tratio
其中,Areatext表示待鉴别文本连通域的面积,Tarea表示设定的面积阈值,Ratiotext表示待鉴别文本连通域的宽高比,Tratio表示设定的宽高比阈值。
5.根据权利要求4所述的多特征融合的新闻视频摘要提取方法,其特征在于,所述根据角点得到待融合主题字母区域,具体为:将角点连线划定出待融合主题字母区域。
6.根据权利要求1所述的多特征融合的新闻视频摘要提取方法,其特征在于,所述检测静音段步骤,包括如下步骤:
采用Hamming窗对新闻视频中的音频进行加窗分帧,得到各帧音频信号;
根据如下计算式得到第i帧音频信号的短时能量Ei以及第i帧音频信号的短时过零率Zi
E i = Σ m = 1 N x i 2 ( m )
Z i = 1 2 ( N - 1 ) Σ m = 1 N - 1 | s g n ( X i ( m + 1 ) ) - s g n ( x i ( m ) ) |
其中,N表示第i帧音频信号中包含的音频采样数目,xi(m)表示第i帧音频信号第m个采样值,xi(m+1)表示第i帧第m+1个采样值,sgn(·)为符号函数;
如果一帧音频信号满足如下条件,则认为该帧音频信号为静音帧,否则为非静音帧:
Ei≤Te
Zi≤Tz
其中,Te表示设定的短时能量阈值,Tz表示设定的短时过零率阈值。
7.根据权利要求1所述的多特征融合的新闻视频摘要提取方法,其特征在于,所述检测人脸步骤包括如下步骤:
对新闻视频,采用Viola-Jones人脸检测算法,结合跨平台计算机视觉库OpenCV中训练好的分类器haarcascade_frontalface_atl/xml提取积分图像,计算Haar-like特征,进而利用跨平台计算机视觉库OpenCV中的cvHaarDetectObjects函数在新闻视频中检测人脸对象。
8.根据权利要求1所述的多特征融合的新闻视频摘要提取方法,其特征在于,执行检测静音段步骤得到静音段,对静音段执行检测主题字幕帧步骤,仅在静音段对应的视频帧中包含主题字幕帧的情况下,将静音段对应的视频帧加入动态摘要序列。
CN201510807865.3A 2015-11-19 2015-11-19 多特征融合的新闻视频摘要提取方法 Active CN105516802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510807865.3A CN105516802B (zh) 2015-11-19 2015-11-19 多特征融合的新闻视频摘要提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510807865.3A CN105516802B (zh) 2015-11-19 2015-11-19 多特征融合的新闻视频摘要提取方法

Publications (2)

Publication Number Publication Date
CN105516802A true CN105516802A (zh) 2016-04-20
CN105516802B CN105516802B (zh) 2018-10-23

Family

ID=55724387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510807865.3A Active CN105516802B (zh) 2015-11-19 2015-11-19 多特征融合的新闻视频摘要提取方法

Country Status (1)

Country Link
CN (1) CN105516802B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529406A (zh) * 2016-09-30 2017-03-22 广州华多网络科技有限公司 一种获取视频摘要图像的方法和装置
CN106792005A (zh) * 2017-01-17 2017-05-31 南通同洲电子有限责任公司 一种基于音视频结合的内容检测方法
CN107977645A (zh) * 2017-12-19 2018-05-01 北京奇艺世纪科技有限公司 一种视频新闻海报图的生成方法及装置
CN108090857A (zh) * 2017-12-29 2018-05-29 复旦大学 一种多模态的学生课堂行为分析***和方法
CN108288061A (zh) * 2018-03-02 2018-07-17 哈尔滨理工大学 一种基于mser快速在自然场景中定位倾斜文本的方法
CN108710918A (zh) * 2018-05-23 2018-10-26 北京奇艺世纪科技有限公司 一种直播视频的多模态信息的融合方法和装置
CN108882057A (zh) * 2017-05-09 2018-11-23 北京小度互娱科技有限公司 视频摘要生成方法及装置
CN109151616A (zh) * 2018-08-07 2019-01-04 石家庄铁道大学 视频关键帧提取方法
CN109583443A (zh) * 2018-11-15 2019-04-05 四川长虹电器股份有限公司 一种基于文字识别的视频内容判断方法
CN109614604A (zh) * 2018-12-17 2019-04-12 北京百度网讯科技有限公司 字幕处理方法、装置及存储介质
CN111914119A (zh) * 2020-08-12 2020-11-10 山东大学 一种基于动静态特征融合的视频摘要方法
CN112532897A (zh) * 2020-11-25 2021-03-19 腾讯科技(深圳)有限公司 视频剪辑方法、装置、设备及计算机可读存储介质
CN112633241A (zh) * 2020-12-31 2021-04-09 中山大学 一种基于多特征融合和随机森林模型的新闻故事分割方法
CN115442660A (zh) * 2022-08-31 2022-12-06 杭州影象官科技有限公司 自监督对抗视频摘要提取方法及装置
CN117037049A (zh) * 2023-10-10 2023-11-10 武汉博特智能科技有限公司 基于YOLOv5深度学习的图像内容检测方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620629A (zh) * 2009-06-09 2010-01-06 中兴通讯股份有限公司 一种提取视频索引的方法、装置及视频下载***
CN102331990A (zh) * 2010-12-22 2012-01-25 四川大学 一种基于字幕提取的新闻视频检索方法
CN103546667A (zh) * 2013-10-24 2014-01-29 中国科学院自动化研究所 一种面向海量广播电视监管的自动新闻拆条方法
CN103856689A (zh) * 2013-10-31 2014-06-11 北京中科模识科技有限公司 面向新闻视频的人物对话字幕提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620629A (zh) * 2009-06-09 2010-01-06 中兴通讯股份有限公司 一种提取视频索引的方法、装置及视频下载***
CN102331990A (zh) * 2010-12-22 2012-01-25 四川大学 一种基于字幕提取的新闻视频检索方法
CN103546667A (zh) * 2013-10-24 2014-01-29 中国科学院自动化研究所 一种面向海量广播电视监管的自动新闻拆条方法
CN103856689A (zh) * 2013-10-31 2014-06-11 北京中科模识科技有限公司 面向新闻视频的人物对话字幕提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孟文婷: "基于多模态特征融合的新闻视频摘要技术研究", 《华中师范大学硕士学位论文》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529406B (zh) * 2016-09-30 2020-02-07 广州华多网络科技有限公司 一种获取视频摘要图像的方法和装置
CN106529406A (zh) * 2016-09-30 2017-03-22 广州华多网络科技有限公司 一种获取视频摘要图像的方法和装置
CN106792005A (zh) * 2017-01-17 2017-05-31 南通同洲电子有限责任公司 一种基于音视频结合的内容检测方法
CN108882057B (zh) * 2017-05-09 2021-08-17 北京小度互娱科技有限公司 视频摘要生成方法及装置
CN108882057A (zh) * 2017-05-09 2018-11-23 北京小度互娱科技有限公司 视频摘要生成方法及装置
CN107977645A (zh) * 2017-12-19 2018-05-01 北京奇艺世纪科技有限公司 一种视频新闻海报图的生成方法及装置
CN108090857A (zh) * 2017-12-29 2018-05-29 复旦大学 一种多模态的学生课堂行为分析***和方法
CN108090857B (zh) * 2017-12-29 2021-06-22 复旦大学 一种多模态的学生课堂行为分析***和方法
CN108288061A (zh) * 2018-03-02 2018-07-17 哈尔滨理工大学 一种基于mser快速在自然场景中定位倾斜文本的方法
CN108710918B (zh) * 2018-05-23 2021-05-25 北京奇艺世纪科技有限公司 一种直播视频的多模态信息的融合方法和装置
CN108710918A (zh) * 2018-05-23 2018-10-26 北京奇艺世纪科技有限公司 一种直播视频的多模态信息的融合方法和装置
CN109151616B (zh) * 2018-08-07 2020-09-08 石家庄铁道大学 视频关键帧提取方法
CN109151616A (zh) * 2018-08-07 2019-01-04 石家庄铁道大学 视频关键帧提取方法
CN109583443A (zh) * 2018-11-15 2019-04-05 四川长虹电器股份有限公司 一种基于文字识别的视频内容判断方法
CN109583443B (zh) * 2018-11-15 2022-10-18 四川长虹电器股份有限公司 一种基于文字识别的视频内容判断方法
CN109614604A (zh) * 2018-12-17 2019-04-12 北京百度网讯科技有限公司 字幕处理方法、装置及存储介质
CN109614604B (zh) * 2018-12-17 2022-05-13 北京百度网讯科技有限公司 字幕处理方法、装置及存储介质
CN111914119A (zh) * 2020-08-12 2020-11-10 山东大学 一种基于动静态特征融合的视频摘要方法
CN111914119B (zh) * 2020-08-12 2022-03-18 山东大学 一种基于动静态特征融合的视频摘要方法
CN112532897A (zh) * 2020-11-25 2021-03-19 腾讯科技(深圳)有限公司 视频剪辑方法、装置、设备及计算机可读存储介质
CN112633241A (zh) * 2020-12-31 2021-04-09 中山大学 一种基于多特征融合和随机森林模型的新闻故事分割方法
CN112633241B (zh) * 2020-12-31 2023-06-30 中山大学 一种基于多特征融合和随机森林模型的新闻故事分割方法
CN115442660A (zh) * 2022-08-31 2022-12-06 杭州影象官科技有限公司 自监督对抗视频摘要提取方法及装置
CN115442660B (zh) * 2022-08-31 2023-05-19 杭州影象官科技有限公司 自监督对抗视频摘要提取方法、装置、设备和存储介质
CN117037049A (zh) * 2023-10-10 2023-11-10 武汉博特智能科技有限公司 基于YOLOv5深度学习的图像内容检测方法及***
CN117037049B (zh) * 2023-10-10 2023-12-15 武汉博特智能科技有限公司 基于YOLOv5深度学习的图像内容检测方法及***

Also Published As

Publication number Publication date
CN105516802B (zh) 2018-10-23

Similar Documents

Publication Publication Date Title
CN105516802A (zh) 多特征融合的新闻视频摘要提取方法
CN103856689B (zh) 面向新闻视频的人物对话字幕提取方法
CN108090857B (zh) 一种多模态的学生课堂行为分析***和方法
Hong et al. Dynamic captioning: video accessibility enhancement for hearing impairment
Eickeler et al. Content-based video indexing of tv broadcast news using hidden markov models
CN104298982B (zh) 一种文字识别方法及装置
CN103488764B (zh) 个性化视频内容推荐方法和***
CN102915438B (zh) 一种视频字幕的提取方法及装置
Yang et al. Lecture video indexing and analysis using video ocr technology
CN103546667B (zh) 一种面向海量广播电视监管的自动新闻拆条方法
CN110267061B (zh) 一种新闻拆条方法及***
CN109614604B (zh) 字幕处理方法、装置及存储介质
CN101833664A (zh) 基于稀疏表达的视频图像文字检测方法
CN101510260B (zh) 字幕存在时间确定装置和方法
CN101365072A (zh) 字幕区域提取装置和方法
CN112633241B (zh) 一种基于多特征融合和随机森林模型的新闻故事分割方法
CN102855317A (zh) 一种基于演示视频的多模式索引方法及***
CN106228157A (zh) 基于图像识别技术的彩色图像文字段落分割与识别方法
CN101470802A (zh) 物体检测装置和方法
Kuwano et al. Telop-on-demand: Video structuring and retrieval based on text recognition
Wang et al. Synchronization of lecture videos and electronic slides by video text analysis
CN101867729B (zh) 基于人物特征的新闻视频正式独白镜头的检测方法
CN101827224B (zh) 一种新闻视频中主播镜头的检测方法
WO2013152682A1 (zh) 一种新闻视频字幕标注方法
CN114022923A (zh) 智能采编***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant