一种基于螺旋摘要的监控视频展示方法及存储介质
技术领域
本发明属于人机交互领域,具体涉及一种基于螺旋摘要的监控视频展示方法及存储介质。
背景技术
随着互联网的发展,纯粹文本内容早已不是数据交互的主要内容,用于交互的大多数数据都是图像或者视频格式。因而如何从视频数据中快速检索用户感兴趣的内容并导航到相应的区域是视频摘要的一个热点问题。视频是由一系列相互关联的图片按照一定的时序顺序组合成的流媒体。视频提供的信息量非常巨大,用户通常也难以在短时间内获取视频的主要内容。当前主流的视频应用往往通过水平时间轴提供给用户与视频进行交互的方式,用户可以通过点击时间轴或者快进的方式来观看视频,然而这种交互极易导致用户跳过重要的镜头与场景。因此,通过视频摘要来概括视频主要内容是一个能帮助用户快速获取视频内容的有效方式。
监控视频数据通常有以下特点:数据量大、数据格式多样、处理速度慢、成本高以及视频可利用信息密度低。同时,与电影动漫等视频不同的是,电影、动漫等视频由于要迎合观众需求,给观众更好的视听效果,视频画面中的主要目标通常都会位于镜头中央,而且清晰度、对比度等质量会比较高。而监控视频由于摄像机放置位置、拍摄角度、光线等原因,视频质量会比电影动漫等视频明显要差,而且镜头中的目标往往不会位于镜头中央,有的也不会很明显。除此之外,监控视频冗余信息比较多,往往几个小时的监控视频,有效信息仅有几分钟。传统监控视频获取有效信息的方式往往需要耗费大量的人力物力,超强的认知负荷导致工作人员很容易漏掉关键信息,因此对监控视频内容的可视分析非常必要。
而相比普通的以直线或网格状对视频摘要进行排列的视频摘要形态,螺旋形式的视频摘要一方面能够在有限的空间内呈现更多的视频信息;另一方面,螺旋摘要以螺旋线为时间轴来排列关键帧,不存在网状排列方式分行间隔的形式,保持了用户视觉上的连续性,使得视频内容呈现更符合用户认知习惯。基于螺旋摘要技术的监控视频可视分析方式,是基于螺旋形式的视频摘要,结合运动目标检测结果数据来展现监控视频信息,基于螺旋摘要的展示优势实现多角度可视化视频目标统计信息,并辅以视频摘要导航定位视频、螺旋视频摘要多尺度浏览、草图注释等交互功能,实现对监控视频内容的快速有效获取,基于螺旋视频摘要超链接与融合操作,实现对监控视频中关联场景联系的便捷构建。
发明内容
本发明的目的在于提供一种基于螺旋摘要的监控视频展示方法,对监控视频内容进行高效的展示与可视化,并为监控视频浏览提供方便高效的交互方式,以加速对监控视频内容的获取过程。本发明所提出的方法主要包括针对监控视频内容的自适应阈值关键帧提取、基于目标检测的感兴趣区域提取、运动目标检测与监控视频统计信息生成、基于螺旋摘要的监控视频有效信息区域查找、基于螺旋摘要的监控视频快速浏览以及基于螺旋摘要的监控视频关联场景构建等过程。本发明的目标是通过基于螺旋摘要的监控视频内容可视化方法,将监控视频内容以用户易于理解的形式展现出来,辅以针对螺旋摘要的导航、定位操作以及草图交互等交互方式,实现对监控视频内容的快速有效获取,来解决当前监控视频冗余信息较多、有效获取关键信息较为困难的问题。基于螺旋摘要的监控视频内容分析的优势在于:以螺旋形式的视频摘要结合运动目标检测结果描述视频主要内容,视频浏览方便快捷;快速查找监控视频有效信息区域,加速目标的检索与定位过程;快速浏览监控视频内容,加速对监控视频内容的宏观获取过程;基于螺旋视频摘要实现对监控视频间关联场景的关联分析,以辅助用户决策。
为实现上述发明目的,本发明采用如下的技术方案:
一种基于螺旋摘要的监控视频展示方法,其步骤为:
1)针对监控视频可视分析***实时性以及准确性的要求,基于颜色直方图提取关键帧的算法给出基于监控视频的自适应阈值实时关键帧提取算法,通过该算法建立包含监控视频主要内容的关键帧集合;
2)针对监控视频场景较为复杂的特点,基于目标检测算法yolov3,给出针对监控视频的感兴趣区域提取算法,提取1)所确定关键帧的重要前景信息,对所提取的关键帧做进一步处理,为螺旋视频摘要的生成提供前提;
3)使用2)所确定的感兴趣区域信息,生成针对监控视频的螺旋视频摘要;并基于运动目标检测算法对螺旋视频摘要行分析,以是否包含运动目标将螺旋时间轴划分为多个区域,以提升用户对监控视频内容的分析和检索效率;通过对监控视频内容进行目标检测来生成监控视频中各类别目标的统计信息,并从不同设定角度对统计信息进行可视化,降低用户的认知负荷;
4)通过由统计信息生成的目标分布饼状图、螺旋摘要目标类型分布图,结合运动目标检测结果,在螺旋视频摘要上进行有效信息区域(包含用户感兴趣目标所属类别的区域中存在运动目标的区域)查找来帮助用户过滤掉大量无用信息,快速定位用户感兴趣的有效信息区域,在保证精度的情况下,提高用户浏览效率;
5)在4)中确定用户感兴趣的有效信息区域后,通过螺旋摘要导航定位监控视频,基于螺旋摘要的多尺度浏览、草图注释等功能帮助用户快速精确获取有效信息区域内的监控视频内容,实现对监控视频内容的快速浏览;
6)通过基于螺旋摘要超链接(通过螺旋摘要上的简单草图交互实现多个视频中关联场景的快速跳转)以及螺旋摘要的剪辑与合并操作,实现对不同监控视频间或者监控视频内部多个场景间情节的关联性分析。
进一步的,通过改进Kumthekar等人提出的基于颜色直方图提取关键帧的算法(A.V.Kumthekar,Prof.J.K.Patil.Key frame extraction using color histogrammethod[J].International Journal of Scientific Research Engineering&Technology(IJSRET)Volume 2Issue 4pp 207-214,ISSN 2278–0882,july-2013),给出基于监控视频的自适应阈值实时关键帧提取算法来提取监控视频关键帧;关键帧提取过程中根据不同的监控视频场景自适应调整阈值,实现对监控视频有效内容的快速精确提取。
进一步的,基于目标检测算法yolov3(Redmon J,Farhadi A.YOLOv3:AnIncremental Improvement[J].2018.),给出针对监控视频的感兴趣区域提取算法;通过yolov3检测关键帧中重要的前景信息,过滤掉背景信息,实现对监控视频复杂场景下的关键帧感兴趣区域提取。
进一步的,在确定的关键帧以及感兴趣区域信息的基础上,通过SpiralTape算法(Liu Y,Ma C,Zhao G et al.An interactive SpiralTape video summarization[J].IEEE Trans.Multimedia,vol.18,no.7,pp.1269–1282,Jul.2016.),生成针对监控视频的螺旋视频摘要;基于运动目标检测算法motionNet(Use pytorch to do image semanticsegmentation.https://github.com/ISCAS007/torchseg)对关键帧进行运动目标检测,以是否存在运动目标将关键帧集合区分开,将螺旋时间轴上经过感兴趣提取后的关键帧以是否存在运动目标,分为多个区间,以提升用户对监控视频内容的分析和检索效率。
进一步的,通过目标检测算法yolov3实现对监控视频中出现的各类别目标(包含“person”、“rider”、“car”、“bus”、和“truck”五个类别)统计信息的提取,根据所提取到的统计信息,生成目标分布饼状图,螺旋摘要目标类别分布图,目标数量-时间变化折线图。
进一步的,通过目标分布饼状图,螺旋摘要目标类别分布图,结合运动目标检测结果,实现基于螺旋摘要的有效信息区域查找;由目标分布饼状图从宏观上了解该监控视频中出现的各个类别的目标及其数量占比,确认监控视频中是否存在感兴趣的目标类别及感兴趣目标类别在监控视频中出现的数量占比。
进一步的,由螺旋摘要目标类别分布图进一步了解监控视频中各类别目标在螺旋时间轴上的分布情况;在螺旋摘要目标类型分布图中使用红色、白色、绿色、黄色和蓝色五种颜色的圆点来代表监控视频中常出现的五类目标“person”、“rider”、“car”、“bus”、和“truck”,圆点的半径越大,代表当前时间段存在的该类目标越多,可由螺旋摘要目标类型分布图快速定位用户感兴趣目标类别在螺旋时间轴上的分布区域,缩小有效信息查找区域。
进一步的,由运动目标检测结果将螺旋时间轴以是否包含运动目标划分为多个区域,灰色区域表示时间轴上当前区域不存在运动目标,彩色区域表示时间轴上存在运动目标的区域,通过排除静态目标所在区域,进一步缩小有效信息区域,实现有效信息区域的快速查找。
进一步的,在确定有效信息区域的基础上,围绕螺旋视频摘要,通过螺旋摘要导航定位监控视频,基于螺旋摘要的多尺度浏览,草图注释等功能帮助用户快速精确获取监控视频内容;基于螺旋视频摘要,通过螺旋摘要导航定位监控视频,基于螺旋摘要的多尺度浏览,草图注释功能快速精确浏览有效信息区域中监控视频内容;通过螺旋视频摘要浏览监控视频时,可由螺旋摘要上感兴趣片段导航到监控视频中对应片段了解详情,通过草图注释功能来记录对监控视频的理解笔记。在对感兴趣区域进行浏览时,可通过***提供的多尺度浏览功能在不同粒度下查看视频摘要,从全局总览到局部细查,多个层次充分理解视频内容;也可通过目标数量-时间变化趋势图来快速得到当前摄像头所在地段各类别目标数量随时间波动情况,实现对监控视频感兴趣区域的快速浏览。
进一步的,通过螺旋摘要超链接实现监控视频关联场景间联系的构建;具体来讲,通过草图交互来实现关联场景的超链接构建,并通过这些关联在不同监控视频间或者监控视频内部实现多个场景间的快速跳转,实现对监控视频情节的关联性分析。
进一步的,也可通过对螺旋摘要进行选取与合并操作实现对监控视频关联场景的剪辑与合并;通过草图交互在多个螺旋摘要上使用草图交互选择相关联的场景片段,并生成相应预览,再经过螺旋视频摘要的合并操作来实现对监控视频中关联场景的快速融合。
本发明还提供一种计算机可读存储介质,其存储一计算机程序,所述计算机程序包括用于执行上述任一所述方法中各步骤的指令。
本发明的主要内容包括:
1、针对监控视频内容的自适应阈值关键帧提取
鉴于监控视频分析***实时性的要求,本发明通过改进Kumthekar等人的基于颜色直方图提取关键帧的算法,给出基于监控视频的自适应阈值实时关键帧提取算法。算法通过比较两幅图像的颜色直方图差异来定义两幅图像的相似度,每次只保留与已有关键帧集合中最后一帧相似度小于某个阈值thresh的视频帧作为新的关键帧,***关键帧集合。
对于不同场景下的监控视频,往往对应不同的阈值,如果固定阈值thresh,提取到的关键帧要么数量过多,导致大量冗余信息存在,要么过少,导致大量关键信息丢失。因此,本发明提出自适应阈值的关键帧提取算法,能够在不同场景下自适应调整阈值thresh,保证在不漏掉监控视频主要信息的同时,使所提取的关键帧中冗余信息尽可能少。具体来说,定义参数最小间隔帧数minFrames,保证每minFrames帧图片至多出现一个关键帧(默认设置为25),定义参数最大间隔帧数maxFrames,保证每maxFrames帧图片至少存在一个关键帧(默认设置为80)。
而不同的监控视频目标出现概率不同,设置时间间隔参数distance,即每隔distance取一帧去与前一个关键帧计算相似度,在监控视频中目标较少的情况下,增大distance的值,以加快处理速度,视频中目标较多的情况下,减小distance的数值,使结果更精确。具体实现见算法1:
算法1.关键帧提取算法。
输入:监控视频V。
输出:从监控视频中提取的关键帧集合keyFrameSet。
1).初始化自适应调整阈值thresh为0.5,定义关键帧集。
2).从监控视频V中按时间顺序抽取一帧记做frame,如果是第一帧,则保存为关键帧,并将该帧记为preKeyFrame,其在原视频帧中的序数记为pre_cnt。否则,从第二帧开始,按照每隔distance取一帧的原则,从视频频中抽取一帧,其在原视频帧中序数记为cnt。
3).计算当前帧frame以及最新关键帧preKeyFrame各自的颜色直方图分别记为frameHist以及preFrameHist,并对直方图做归一化,然后计算frameHist与preFrameHist的直方图相似度作为帧之间的差异度记做score。
4).自适应阈值thresh更新原则如下:
if score>thresh&&thresh<0.99&&(cnt-pre_cnt)>=maxFrames:thresh=score
if(cnt-pre_cnt)<minFrames&&score<thresh:thresh=thresh-0.05
如果score<thresh,则认为当前帧frame与上一关键帧preKeyFrame差异较大,即认定当前帧frame为关键帧,将当前帧frame加入到keyFrameSet,并令
5).判断当前由视频中取帧过程是否到达视频尾,如果到达,则关键帧提取过程结束,返回关键帧集合keyFrameSet,否则返回2),继续进行关键帧提取。
2、感兴趣区域提取
对螺旋线上相邻关键帧之间进行去边界和融合处理。在该过程中,如果没有对关键帧进行感兴趣区域(ROI)提取,则有可能处理掉重要的前景信息。本发明通过关键帧进行ROI提取,以突出视频关键帧重要的前景信息。
对于监控视频,往往镜头中目标数量较多、个体较小、分布较广,而且通常不会恰好位于镜头中央区域,传统的感兴趣区域提取算法在监控视频上表现比较差。另外,目前已有的图像分割算法比如经典的图割(GraphCuts)算法以及目前效果最好的深度学习分割算法deeplabv3+,在监控视频的复杂场景上表现也一般,往往会漏掉大量重要前景信息。
本发明针对监控视频,基于yolov3检测结果来提取关键帧感兴趣区域(ROI),即先由目标检测定位当前关键帧中目标位置(主要包含五个类别:“person”,“car”,“bus”,“truck”,“rider”),然后计算当前帧中所有目标的最小包围框,如果最小包围框面积大于200px,将原图中最小包围框所在区域的图片裁剪出来,并缩放尺寸为150x100,然后输出为ROI,否则认定该关键帧不存在目标,舍弃该关键帧(关键帧二次筛选),即可得到满足需求的感兴趣区域。得益于yolov3在监控视频上优秀的表现,监控视频中出现的几乎所有目标都可以实现准确定位,所以提取到的感兴趣区域(ROI)精度比分割以及传统ROI提取算法要高很多。
3、有效信息区域查找
使用传统方法浏览视频时,往往大量精力被耗费在监控视频冗余信息上,在耗费大量人力与时间的同时,还容易漏掉重要的信息。本发明以螺旋视频摘要为中心,通过饼状图、螺旋摘要目标类型分布图,结合运动目标检测结果,在螺旋视频摘要上进行有效信息区域查找来帮助用户过滤掉大量无用信息,快速定位用户感兴趣的有效信息区域,在保证精度的情况下,提高用户浏览效率。
本发明提出的监控视频分析***通过目标分布饼状图从宏观上了解该监控视频中出现的各个类别的目标及其数量占比,确认监控视频中是否存在感兴趣的目标类别。确定视频中包含感兴趣目标之后,需要进一步确定目标在监控视频中的确切位置。监控视频分析***基于螺旋摘要对监控视频内容进行组织,对螺旋摘要时间线上的每一关键帧图像中的目标信息进行统计,并设计螺旋摘要目标类型分布图进一步对监控视频中的目标进行可视化,方便用户了解监控视频中各类别目标在螺旋视频摘要时间轴上的分布情况。在螺旋摘要目标类型分布图中使用红色、白色、绿色、黄色和蓝色五种颜色的圆点来代表监控视频中常出现的五类目标“person”、“rider”、“car”、“bus”、和“truck”。圆点的半径越大,代表当前时间段存在的该类目标越多。因此可由螺旋摘要目标类型分布图快速定位用户感兴趣目标类别在螺旋时间轴上的分布区域,达到缩小有效信息区域的效果。
在实际中,用户感兴趣的目标往往是运动目标,太多的静态目标在浪费工作人员精力的同时,也会形成一定的干扰,本发明基于螺旋视频摘要,通过运动目标检测来进一步缩小有效信息区域。通过运动目标检测结果,以是否包含运动目标,将螺旋时间轴分为多个区域,可通过排除静态目标所在区域,进一步缩小有效信息区域。
本发明设计的监控视频分析***基于螺旋视频摘要技术对监控视频内容进行有效组织,借助饼状图和螺旋摘要目标类型分布图两种可视化方式对监控视频中的目标统计信息进行可视化,并结合基于螺旋视频摘要的运动目标检测结果,能够有效地缩小查找信息区域,确保用户可以通过简单的交互方式在螺旋视频摘要上对目标进行快速定位。
4、视频快速浏览
通过查找确定了监控视频有效信息区域后,还存在如何快速浏览有效信息区域,从而能够高效精确的获取视频内容的问题。本发明围绕螺旋视频摘要,通过螺旋摘要导航定位监控视频,基于螺旋摘要的多尺度浏览,草图注释功能帮助用户快速精确获取监控视频内容。
在通过视频摘要了解监控视频时,可由螺旋摘要上感兴趣片段导航到监控视频中对应片段了解详情。同时,为了更方便的了解视频内容,***提供感兴趣片段预览功能以及感兴趣片段附近2s视频的预览功能。在对感兴趣区域进行浏览时,可通过***提供的多尺度浏览功能在不同粒度下查看视频摘要,从全局总览到局部细查,多个层次充分理解视频内容。通过螺旋视频摘要进行视频浏览时,可通过草图注释功能来记录其对监控视频的理解笔记。除此之外,还可以通过监控视频中出现的目标数量-时间变化趋势折线图来快速得到当前摄像头所在地段各类别目标数量随时间波动情况,比如高峰期与低谷期出现的时间段等,掌握该地段各类目标数量在时间轴上的波动规律,在个别反常情况出现时,便可以重点关注。
5、视频场景关联构建
实际应用中,监控视频场景间有时可能存在时间或空间上的联系,比如同一地点拍摄时间不同的几段监控视频,或者拍摄时间、地点相同,拍摄视角不同的几段监控视频甚至同一监控视频内部的某些场景可能存在某些关联。如何快速构建这些相关联的视频场景之间的联系是一个难题。
本发明通过螺旋摘要超链接实现监控视频场景间关联的构建;通过草图交互来实现关联场景的超链接构建,并通过这些关联在不同监控视频间或者监控视频内部实现多个场景间的快速跳转,实现对监控视频情节的关联性分析。本发明还通过对螺旋摘要进行选取与合并操作实现对监控视频关联场景的剪辑与合并,从而实现对监控视频关联场景之间联系的构建;通过在螺旋摘要上使用草图交互选择相关联的场景片段,并生成相应预览,再经过螺旋视频摘要的合并操作来实现监控视频中关联场景的快速融合。
综上,和现有技术相比,本发明具有的优点和积极效果如下:
1、本发明将螺旋形式的视频摘要技术应用于监控视频内容分析中,利用螺旋形式的视频摘要一方面能够节省屏幕空间,另一方面,螺旋摘要以螺旋线为时间轴来排列关键帧,不存在传统网格状排列方式分行间隔的问题,保持了用户视觉上的连续性,使得内容呈现更符合用户认知习惯。
2、本发明针对监控视频的复杂场景,改进Kumthekar等人提出的基于图像直方图提取关键帧的算法,基于yolov3的目标检测结果给出感兴趣区域提取算法,能够更好的适应存在复杂场景的监控视频。
3、本发明基于螺旋视频摘要的展现优势,结合运动目标检测结果数据,多角度可视化视频目标统计信息,并辅以视频摘要导航定位视频、螺旋视频摘要多尺度浏览、草图注释等交互功能,能够实现对监控视频内容的快速有效获取。
附图说明
图1为***概要说明图;
图2为基于螺旋摘要的感兴趣区域提取流程图;
图3为基于螺旋摘要的有效信息区域查找流程示意图;
图4为基于螺旋摘要超链接的监控视频播放跳转示意图;
图5为基于螺旋摘要的场景剪辑与合并示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明,以下结合附图进一步详细描述本发明所提供的基于螺旋摘要的监控视频可视分析技术,但不构成对本发明的限制。
1、选定要处理的视频资源,本示例中从现有监控视频素材中选取了3个路口同一时段长约1小时的监控视频作为对象;
2、采用前面步骤1,2所述的方法对视频进行关键帧提取、感兴趣提取处理;
3、采用前面步骤3中所述的方法生成针对监控视频的螺旋视频摘要,并结合运动目标检测结果,多角度可视化监控视频中出现目标的统计信息,形成基于螺旋摘要的监控视频可视分析***界面;
4、采用步骤4所述的方法,实现监控视频中有效信息区域的快速查找,查找过程如附图3;
5、采用前面步骤5所述的方法,对步骤4中所确定的有效信息区域进行快速浏览;
6、采用前面步骤6所述的方法,基于螺旋视频摘要,实现对不同监控视频间或者监控视频内部多个场景间的情节的关联性分析,如附图4和图5。
以上对本发明所述的基于螺旋摘要的监控视频可视分析方法与技术进行了详细的说明,但显然本发明的具体实现形式并不局限于此。对于本技术领域的一般技术人员来说,在不背离本发明所述方法的精神和权利要求范围的情况下对它进行的各种显而易见的改变都在本发明的保护范围之内。