CN110148105A - 基于迁移学习和视频帧关联学习的视频分析方法 - Google Patents

基于迁移学习和视频帧关联学习的视频分析方法 Download PDF

Info

Publication number
CN110148105A
CN110148105A CN201510112142.1A CN201510112142A CN110148105A CN 110148105 A CN110148105 A CN 110148105A CN 201510112142 A CN201510112142 A CN 201510112142A CN 110148105 A CN110148105 A CN 110148105A
Authority
CN
China
Prior art keywords
video
label
formula
frame
study
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510112142.1A
Other languages
English (en)
Other versions
CN110148105B (zh
Inventor
袁媛
卢孝强
牟立超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XiAn Institute of Optics and Precision Mechanics of CAS
Original Assignee
XiAn Institute of Optics and Precision Mechanics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XiAn Institute of Optics and Precision Mechanics of CAS filed Critical XiAn Institute of Optics and Precision Mechanics of CAS
Priority to CN201510112142.1A priority Critical patent/CN110148105B/zh
Publication of CN110148105A publication Critical patent/CN110148105A/zh
Application granted granted Critical
Publication of CN110148105B publication Critical patent/CN110148105B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于迁移学习和视频帧关联学习的视频内容分析方法,主要解决了现有视频内容分析方法需要大量人工标记以及视频分析中存在“黑洞”现象的问题。其实现步骤是:(1)依据运动预测和光流分析算法对标签进行视频帧之间的迁移;(2)利用现有的图像标注数据集对上述步骤中产生的“黑洞”现象进行跨媒体迁移学习;(3)利用马尔科夫随机场模型对单幅视频帧中对象空间分布进行先验知识建模;(4)在最大后验概率模型下将以上三步统一求解,得到最终的视频分析结果。本发明充分利用了视频中空‑时域信息,迁移学习方法将大规模的已标注图像数据信息迁移到视频域对“黑洞”进行补绘,从而取得更精准的视频内容的像素级自动标注结果。

Description

基于迁移学习和视频帧关联学习的视频分析方法
技术领域
本发明属于信息处理技术领域,特别涉及一种视频内容像素级自动分析方法,可应用于公共安全管理、影视创作、多媒体技术等领域。
背景技术
视觉是人类感知信息的最重要手段,而视觉数据占人类接收的全部数据的80%以上。因此,视觉数据(包括图像数据与视频数据)的语义理解成为了计算机数据智能化处理中的研究热点。在现实生活中,视觉数据语义理解亦有广泛的应用,比如:基于内容的图像检索、3D重建、汽车辅助驾驶***等。
近年来,语义理解作为视觉数据处理的一个重要内容,得到越来越多的研究。按照数据的类别,视觉数据理解可分为图像数据理解和视频数据理解两大类。视频内容分析力求更深入地对视频进行分析(如何种对象出现在图像中,它们的位置,所占比例,空间关系等),得到像素级的分析结果。
目前,视频内容分析的方法主要分为两类:
一是基于2D图像的分析方法,这种方法将视频视作单幅图像的集合,对每一副图像进行单独分析,最后将分析结果连接起来,便形成了对整个视频的分析结果。但是这种视频分析方法只利用了视频的空间信息,而忽略了时间域上的信息,即视频中帧与帧之间的关联。因为视频通常是由移动的摄像机在不同角度同一场景进行观察时拍摄而来,那么两帧之间的匹配点就可以视作是场景内同一点在两个视角下的映射。因此,相同匹配点在不同视角下映射的类别信息应该是相同的,视频的时间域便成为分析的重要点。
二是基于运动估计和光流场分析的视频分析方法。这种方法克服了上述基于2D图像分析方法只考虑视频空间域信息的不足,提出了利用视频的时间域进行标签迁移。当获得当前帧的标注信息之后,利用运动估计和光流场算法求出当前帧与下一帧的匹配点,根据匹配点标签在不同视角映射标签不变的性质,对其进行时间域迁移,得到下一帧的标注结果,以此类推,直至最后一帧,完成对整个视频的标注。但是在这个过程中,位移矢量通常是由光流算法计算得到的,而光流算法会产生一种“黑洞”现象,即像素无标签信息区域,这是由于光流预测算法是一个非单一映射和非满射的过程。
发明内容
本发明的目的在于针对上述现有方法的不足,提出一种基于迁移学习和视频帧关联学习的视频分析方法,充分利用了视频的空-时域信息,同时利用跨媒体的迁移学习算法克服了视频标注过程中的“黑洞”现象,即像素无标签信息区域。
本发明目的的技术方案是:
一种基于迁移学习和视频帧关联学习的视频内容分析方法,其特别之处在于:包括以下步骤:
(1)利用运动估计和光流场估计进行视频帧关联学习;
(1a)计算前向映射函数,并以此为据,对下一帧的标签进行估计;
其中,ri t代表视频中第t帧的第i个超像素,L(·)表示超像素的类别信息,而f(·)为前向映射函数;
(1b)计算反向映射函数,并以此为据,对上一帧的标签进行交叉验证;
(1c)以(1a)和(1b)步骤得到的结果,构造能量函数,如下:
通过上式得到视频的标签信息,其中包括某些像素无标签信息;
(2)对步骤(1)产生的某些像素无标签信息,利用跨媒体迁移学习进行补绘,分为以下两种方法:
(2a)基于近邻匹配的策略;对某些像素无标签信息区域进行视觉特征信息提取,然后利用K近邻在已标注的图像数据库中进行相似度计算,选取前K最近邻,将类别标签赋予像素无标签信息区域;具体可以表示为如下目标式:
式中表示黑洞区域,si表示已知标签信息的图像区域;
(2b)基于分类器的迁移策略。在已有的大规模图像标注数据集上对每类对象提取颜色统计特征、均值、方差量化指标以及LBP纹理特征等特征训练分类器,本方法中采用SVM分类器,然后对“黑洞”区域进行与上述相同的特征提取,再利用已训练好的分类器对其类别进行判断,进而确定其类别标签;分类器的训练方法如下:
式中wi为系数矩阵,bi为偏移项;
(3)将步骤(1)和步骤(2)中得到的函数公式相加,得到最终的目标优化函数式,然后在最大后验概率框架下进行统一优化求解;
目标优化函数式可以归结为以下公式:
其中,ct为第t帧的类别标签图;p(.)代表概率分布;
根据贝叶斯公式,对上式的一系列等价变换,最终得到最终的求解形式:
式中si为第i个区域,ci为第i个区域的类别标签。
基于以上步骤还包括步骤(4):
计算分析正确率;
将本方法得到的分析结果与标准数据进行对比,标注正确的像素个数除以总的像素个数,得到标注正确率。
步骤(2a)主要提取的信息特征包括:颜色统计特征、均值、方差量化指标以及LBP纹理特征。
本发明的优点是:
由于将基于大规模已标注图像数据信息进行跨媒体迁移学习引入,成功克服了传统视频内容分析方法中存在的“黑洞”现象,同时提出的视频自动标注分析算法,解决了需要大量人工标注的不足。
附图说明
图1为视频分析过程中“黑洞”现象说明;
图2为本发明基于迁移学习和视频帧关联学习的视频分析方法流程图;
图3为本发明实验中所采用的数据库CamSeq01;
图4为本发明在对CamSeq01数据库进行分析的精度对比曲线图;
图5为本发明在对CamSeq01数据库进行分析的效果图。
具体实施方式
参照图2,本发明实现的步骤如下:
步骤1,利用运动估计和光流场估计进行视频帧关联学习。
(1a)计算前向映射函数,并以此为据,对下一帧的标签进行估计。
其中,ri t代表视频中第t帧的第i个超像素,L(·)表示超像素的类别信息,而f(·)为前向映射函数。
(1b)计算反向映射函数,并以此为据,对上一帧的标签进行交叉验证。
(1c)以上述两项,构造能量函数,如下:
通过上式得到视频的标签信息,其中包括某些像素无标签信息,如图1所示;
步骤2,对步骤1中产生的“黑洞”现象即某些像素无标签信息区域,利用跨媒体迁移学习进行补绘。
(2a)基于近邻匹配的策略。对“黑洞”区域进行视觉特征信息提取,主要提取颜色统计特征、均值、方差等量化指标以及LBP纹理特征等,然后利用K近邻在已标注的图像数据库中进行相似度计算,选取前K最近邻,将类别标签赋予“黑洞”区域。
式中表示黑洞区域,si表示已知标签信息的图像区域;
(2b)基于分类器的迁移策略。在已有的大规模图像标注数据集上对每类对象提取颜色统计特征、均值、方差等量化指标以及LBP纹理特征等特征训练分类器,本方法中采用著名的SVM分类器,然后对“黑洞”区域进行与上述相同的特征提取,再利用已训练好的分类器对其类别进行判断,进而确定其类别标签。分类器的训练方法如下:
式中wi为系数矩阵,bi为偏移项。
步骤3,将步骤1和步骤2中分别得到的能量函数公式相加,得到最终的目标优化函数式,然后在最大后验概率框架下进行统一优化求解。
视频分析问题可以归结为以下公式:
其中,ct为第t帧的类别标签图。
根据贝叶斯公式,对上式的一系列等价变换,最终得到最终的求解形式:
式中si为第i个区域,ci为第i个区域的类别标签。
步骤4,计算分析正确率。
将本方法得到的分析结果与标准数据进行对比,标注正确的像素个数除以总的像素个数,便可得到标注正确率。
本发明的效果可以通过以下仿真实验做进一步的说明。
1.仿真条件
本发明是在中央处理器为Intel(R)Core i3-5302.93GHZ、内存4G、WINDOWS 7操作***上,运用MATLAB软件进行的仿真。
实验中使用的数据库为CamSeq01数据库。如图3所示。
2.仿真内容
按上述方法进行试验,将原始视频作为输入,经过算法处理后得到最终分析结果,将此分析结果与专家标注的标准数据进行比较,计算标注正确率。实验结果如图4和图5所示。对比方法文献来自:J.Fauqueur,G.Brostow,and R.Cipolla,Assisted Video ObjectLabeling By Joint Tracking of Regions and Keypoints,in:Processings ofInternational Conference on Computer Vision,2007.

Claims (3)

1.一种基于迁移学习和视频帧关联学习的视频内容分析方法,其特征在于:包括以下步骤:
(1)利用运动估计和光流场估计进行视频帧关联学习;
(1a)计算前向映射函数,并以此为据,对下一帧的标签进行估计;
其中,代表视频中第t帧的第i个超像素,L(·)表示超像素的类别信息,而f(·)为前向映射函数;
(1b)计算反向映射函数,并以此为据,对上一帧的标签进行交叉验证;
(1c)以(1a)和(1b)步骤得到的结果,构造能量函数,如下:
通过上式得到视频的标签信息,其中包括某些像素无标签信息;
(2)对步骤(1)产生的某些像素无标签信息,利用跨媒体迁移学习进行补绘,分为以下两种方法:
(2a)基于近邻匹配的策略;对某些像素无标签信息区域进行视觉特征信息提取,然后利用K近邻在已标注的图像数据库中进行相似度计算,选取前K最近邻,将类别标签赋予像素无标签信息区域;具体可以表示为如下目标式:
式中表示黑洞区域,si表示已知标签信息的图像区域;
(2b)基于分类器的迁移策略。在已有的大规模图像标注数据集上对每类对象提取颜色统计特征、均值、方差量化指标以及LBP纹理特征等特征训练分类器,本方法中采用SVM分类器,然后对“黑洞”区域进行与上述相同的特征提取,再利用已训练好的分类器对其类别进行判断,进而确定其类别标签;分类器的训练方法如下:
式中wi为系数矩阵,bi为偏移项;
(3)将步骤(1)和步骤(2)中得到的函数公式相加,得到最终的目标优化函数式,然后在最大后验概率框架下进行统一优化求解;
目标优化函数式可以归结为以下公式:
其中,ct为第t帧的类别标签图;p(.)代表概率分布;
根据贝叶斯公式,对上式的一系列等价变换,最终得到最终的求解形式:
式中si为第i个区域,ci为第i个区域的类别标签。
2.根据权利要求1所述的基于迁移学习和视频帧关联学习的视频内容分析方法,其特征在于:还包括步骤(4):
计算分析正确率;
将本方法得到的分析结果与标准数据进行对比,标注正确的像素个数除以总的像素个数,得到标注正确率。
3.根据权利要求1所述的基于迁移学习和视频帧关联学习的视频内容分析方法,其特征在于:步骤(2a)主要提取的信息特征包括:颜色统计特征、均值、方差量化指标以及LBP纹理特征。
CN201510112142.1A 2015-05-22 2015-05-22 基于迁移学习和视频帧关联学习的视频分析方法 Active CN110148105B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510112142.1A CN110148105B (zh) 2015-05-22 2015-05-22 基于迁移学习和视频帧关联学习的视频分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510112142.1A CN110148105B (zh) 2015-05-22 2015-05-22 基于迁移学习和视频帧关联学习的视频分析方法

Publications (2)

Publication Number Publication Date
CN110148105A true CN110148105A (zh) 2019-08-20
CN110148105B CN110148105B (zh) 2022-10-04

Family

ID=67587986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510112142.1A Active CN110148105B (zh) 2015-05-22 2015-05-22 基于迁移学习和视频帧关联学习的视频分析方法

Country Status (1)

Country Link
CN (1) CN110148105B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191690A (zh) * 2019-12-16 2020-05-22 上海航天控制技术研究所 基于迁移学习的空间目标自主识别方法、电子设备和存储介质
WO2022262337A1 (zh) * 2021-06-16 2022-12-22 华为云计算技术有限公司 视频标注方法、装置、计算设备和计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6330671B1 (en) * 1997-06-23 2001-12-11 Sun Microsystems, Inc. Method and system for secure distribution of cryptographic keys on multicast networks
US20110077813A1 (en) * 2009-09-28 2011-03-31 Raia Hadsell Audio based robot control and navigation
CN102207966A (zh) * 2011-06-01 2011-10-05 华南理工大学 基于对象标签的视频内容快速检索方法
CN102289686A (zh) * 2011-08-09 2011-12-21 北京航空航天大学 一种基于迁移学习的运动目标分类识别方法
CN103778407A (zh) * 2012-10-23 2014-05-07 南开大学 一种迁移学习框架下基于条件随机场的手势识别算法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6330671B1 (en) * 1997-06-23 2001-12-11 Sun Microsystems, Inc. Method and system for secure distribution of cryptographic keys on multicast networks
US20110077813A1 (en) * 2009-09-28 2011-03-31 Raia Hadsell Audio based robot control and navigation
CN102207966A (zh) * 2011-06-01 2011-10-05 华南理工大学 基于对象标签的视频内容快速检索方法
CN102289686A (zh) * 2011-08-09 2011-12-21 北京航空航天大学 一种基于迁移学习的运动目标分类识别方法
CN103778407A (zh) * 2012-10-23 2014-05-07 南开大学 一种迁移学习框架下基于条件随机场的手势识别算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
但志平等: "基于遥感图像的目标识别新方法", 《华中科技大学学报(自然科学版)》 *
王晗等: "使用异构互联网图像组的视频标注", 《计算机学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191690A (zh) * 2019-12-16 2020-05-22 上海航天控制技术研究所 基于迁移学习的空间目标自主识别方法、电子设备和存储介质
CN111191690B (zh) * 2019-12-16 2023-09-05 上海航天控制技术研究所 基于迁移学习的空间目标自主识别方法、电子设备和存储介质
WO2022262337A1 (zh) * 2021-06-16 2022-12-22 华为云计算技术有限公司 视频标注方法、装置、计算设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN110148105B (zh) 2022-10-04

Similar Documents

Publication Publication Date Title
Yang et al. Recovering 3d planes from a single image via convolutional neural networks
CN109949316B (zh) 一种基于rgb-t融合的电网设备图像弱监督实例分割方法
US20210150203A1 (en) Parametric top-view representation of complex road scenes
Zhang et al. Semantic segmentation of urban scenes using dense depth maps
CN105117429B (zh) 基于主动学习和多标签多示例学习的场景图像标注方法
CN106682696B (zh) 基于在线示例分类器精化的多示例检测网络及其训练方法
CN110472467A (zh) 基于YOLO v3的针对交通枢纽关键物体的检测方法
CN111191667B (zh) 基于多尺度生成对抗网络的人群计数方法
WO2021155558A1 (zh) 道路标线的识别方法、地图生成方法及相关产品
WO2021142944A1 (zh) 车辆行为识别方法、装置
CN111402632B (zh) 一种交叉口行人运动轨迹的风险预测方法
CN113158943A (zh) 一种跨域红外目标检测方法
CN104517095A (zh) 一种基于深度图像的人头分割方法
CN113408584A (zh) Rgb-d多模态特征融合3d目标检测方法
CN111291705B (zh) 一种跨多目标域行人重识别方法
CN105187801A (zh) 一种摘要视频的生成***及方法
Balali et al. Video-based detection and classification of US traffic signs and mile markers using color candidate extraction and feature-based recognition
CN109492522B (zh) 特定目标检测模型训练程序、设备及计算机可读存储介质
CN107944350A (zh) 一种基于外观和几何信息融合的单目视觉道路识别算法
CN105354591B (zh) 基于高阶类别相关先验知识的三维室外场景语义分割***
CN110148105A (zh) 基于迁移学习和视频帧关联学习的视频分析方法
CN103646397A (zh) 基于多源数据融合的实时合成孔径透视成像方法
CN106650814A (zh) 一种基于车载单目视觉室外道路自适应分类器生成方法
Petrovai et al. Semi-automatic image annotation of street scenes
CN105205161A (zh) 一种基于互联网图片的同时目标搜索与分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant