CN105701480B - 一种视频语义分析方法 - Google Patents
一种视频语义分析方法 Download PDFInfo
- Publication number
- CN105701480B CN105701480B CN201610107770.5A CN201610107770A CN105701480B CN 105701480 B CN105701480 B CN 105701480B CN 201610107770 A CN201610107770 A CN 201610107770A CN 105701480 B CN105701480 B CN 105701480B
- Authority
- CN
- China
- Prior art keywords
- video
- layer
- neuron
- decoder
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种视频语义分析方法,该方法包括以下步骤:S1:对视频训练集进行预处理,并构建稀疏线性解码器;S2:加入拓扑特性约束建立拓扑线性解码器,并将视频训练集进行图像分块处理从而训练拓扑线性解码器;S3:将训练好的拓扑线性解码器的参数作为卷积神经网络中卷积层的初始参数;S4:采用多倍交叉验证的方式并基于视频训练集建立关键帧集合对卷积神经网络进行微调,建立一个基于视频数据的通用特征提取器,最后将训练集与测试集上提取到的特征输入到支持向量机中进行基于视频语义的分类。本发明提出的模型训练方法更具有应对内容多变的视频类数据样本,提高模型的准确性和鲁棒性。
Description
技术领域
本发明涉及视频语义检测技术领域,具体而言涉及一种视频语义分析方法。
背景技术
为了实现视频语义概念的检测,使用了卷积神经网络模型对视频的关键帧集合进行特征提取的方法,实验证明不同于其他的手动设计特征的提取方式,卷积神经网络模型本身是从数据中提取出分布式特征,即得到的特征是数据驱动形式的从而能够适应更广的领域。然而卷积神经网络是有监督学习模型,即在对卷积神经网络模型进行训练的时候,需要训练数据集,也需要训练数据集对应的标签,而且卷积神经网络的收敛也需要大量的样本不断的迭代,这对于海量的视频数据的分类检测等任务来说,无法得到每个视频对应的标签。
针对于视频数据上采用具有有监督训练特性的卷积神经网络模型,虽然前人基于无监督训练的基础上提出了无监督预训练的方法,解决了传统的卷积神经网络收敛慢的问题;而相比较于图片数据,视频数据在内容上会有着同一个目标的旋转,缩放,平移等现象,这就需要所使用的特征提取器能够抓取更多复杂不变性的特征,所以如何很好的提取具有较强不变性的特征成了所需要解决问题。
发明内容
本发明目的在于提供一种视频语义分析方法,通过将无监督预训练方法的优势和拓扑特性相结合,使得卷积神经网络能够使用比以往更少的有标签样本,且能够加速收敛到稳定值。并且基于拓扑特性的引入,使得模型能够提取到具有更强应对目标平移,物体缩放,对象旋转的特征,提高模型对语义分析检测的准确性和鲁棒性。
为了解决以上技术问题,本发明采用的具体技术方案如下:
一种视频语义分析方法,其特征在于包括以下步骤:
S1:对视频训练集进行预处理,并构建稀疏线性解码器;
S2:在稀疏线性解码器上加入拓扑特性约束得到拓扑线性解码器,并将视频训练集进行图像分块处理建立基于图像块的训练集从而训练拓扑线性解码器;
S3:将训练好的拓扑线性解码器的权重参数作为卷积神经网络中卷积层的初始参数;
S4:采用多倍交叉验证的方式,并基于视频训练集建立关键帧集合对卷积神经网络进行微调,建立一个基于视频数据的通用特征提取器,最后将训练集与测试集上提取到的特征输入到支持向量机中进行基于视频语义的分类。
在所述的稀疏线性解码器模型构造过程中,先定义一个线性解码器模型,然后在该模型上引入权重衰减和稀疏正则化项,通过对应的项系数来调整该正则项与整个目标函数之间的重要相关性,具体实现过程如下:
过程S11:令视频训练集中的视频数量用m表示,其中第mf个视频的共有mF(mf)帧图像帧,且该视频的标签为y(mf);先将这m个视频的所有图像帧提取出来,并令每个图像帧的大小为n×n×3,其中n每幅图像帧的宽和高,3表示采用的是RGB彩色制式;设立滑框大小为k×k,滑动步长为p,则通过滑框滑动,一幅图像帧可提取共个图像块,整个视频训练集共可提取个图像块;将每个图像块拉成长度为k×k×3的向量x,并将所有的图像块之间进行乱序,并按每批次为bS个训练样本,分成nbS=M/bS个批次,最后得到的数据集作为训练拓扑线性解码器的训练集;
过程S12:先定义线性解码器的模型,由第一层为输入层,第二层为隐藏层,第三层为输出层构成,其中每层神经元个数分别为nL1,nL2,nL3,其中nL1=nL3;第一层、第二层间与第二层、第三层间的权重参数分别为和分别表示第nl+1层的第j个神经元与第nl层的第i个神经元之间连接上的权值和第nl+1层的第j个神经元的偏置值,nl∈{1,2};第二层神经元的激活函数为式(1):
为第二层第j个神经元的输出,为第二层第j个神经元的输入式(2):
为第一层每个神经元的输出,这里为图像块向量的每个元素值,即a(1)=x;第三层神经元的激活函数为式(3):
即第三层神经元的激活函数为第二层每个神经元的线性组合如式(4)
得到自动编码器目标函数值如式(5)
其中为x输入到该模型中得到的输出向量;
过程S13:在建立最基础的线性解码器之后,为了防止产生权重***现象而导致的过拟合问题,在目标函数上增加权重衰减项,得到目标函数如式(6)
其中Nl为模型的层数,这里Nl=3;Sl为第nl层的神经元的个数;Sl+1为第nl+1层的神经元的个数;λ为权重衰减项与整个目标函数的重要相关性的权衡系数;
过程S14:在S13的基础上,对该模型进行稀疏特性的引入,即对于隐藏层的神经元来说,大部分神经元在每次的样本输入过程中激活程度接近于-1而达到抑制状态,只有少部分神经元的激活程度接近于1,从而提取到输入数据的稀疏性特征;在目标函数上增加稀疏正则项,得到目标函数为:
即,该稀疏正则化项是为了让隐藏层的每个神经元的平均激活程度能够低于某个值,其中每个神经元的平均激活程度为:
式(8)表示第i个输入样本的基础上,隐藏层的每个神经元的激活值的均值,并且ρ是稀疏项系数,用来控制隐藏层的平均激活程度的值;通过以L1正则式来限制模型隐藏层的激活程度能够接近于既定的值:
所述的拓扑线性解码器是建立在稀疏线性解码器基础上的,通过对隐藏层的神经元的激活情况进行拓扑约束,使得该模型成为一个拓扑线性解码器,即通过对隐藏层的神经元进行按顺序分组,使得同一组内的神经元有相似的激活程度,而不同组的神经元互相独立,使得该模型能够学习到数据中的拓扑特性,其实现过程如下:
过程S21:在过程S14后,就得到了一个稀疏线性解码器;过程S14是基于过程S13的基础上,将隐藏层所有的神经元的平均激活程度使用L1正则式限定在某个值附近。这里的拓扑是通过先将隐藏层的所有神经元先进行分组。即对于模型来说,第二层有nL2个神经元,则将所有的神经元排列成一个的矩阵,记为拓扑分组选择矩阵T,在该矩阵中,任何一点的激活情况都会受到以该点为中心,sk×sk大小的范围内的神经元的影响,即以某点为中心,周边sk×sk范围内的作为一组,因为隐藏层神经元一共有nL2个,所以一共分成nL2组;
通过将同一组所有神经元的激活值的平方和作为该组的目标值。即得到拓扑线性解码器的目标函数为:
其中V为nL2×nL2大小的分组矩阵,构建过程为:对于其中的每一组,即每行向量,先定义一个基于拓扑分组选择矩阵T同样大小的标记矩阵F;
表示V中第t组的标记矩阵中第i行第j列的值;Sg(t)为第t组的拓扑选择区域
mod函数为取模函数;从而对于分组矩阵有:
t∈[0,nL2-1],
即当V(r,c)=1时,表示第c个神经元属于第r组;公式(10)中S为隐藏层神经元组成的nL2×bS大小的矩阵,ε为为了防止奇异值开根的平滑参数;γ为拓扑正则项与整个目标函数重要相关性的权衡系数;
过程S22:通过将过程S11得到的训练集中所有视频帧的图像块构成一个nP×vS的矩阵,其中vS表示拓扑稀疏线性解码器输入层的神经元个数,即,vS=nL1=k×k×3,为一个基于RGB三通道滑框的所有像素点的个数;模型中间层为隐藏层,也是该模型训练后,将该层的输出值作为输入对应的特征值;因为构成的nP×vS矩阵过大,所以先将该矩阵按照bS×vS的大小分成多个批次,采用BP算法一次训练一个批次,所有的训练数据训练一次表示完成一个epoch;训练多个epoch以达到模型收敛的目的。
所述的训练好的拓扑线性解码器的权重参数作为卷积神经网络的初始参数,并通过后续的少量有标签样本微调卷积神经网络从而得到更优的参数,具体实现过程如下:
过程S31:令卷积神经网络的模型输入层为视频图像帧,即n×n×3;对于卷积层来说,同一个卷积层中有多个特征图,每个特征图共享同一个卷积核,每个卷积核的感受野大小即为k×k×3,卷积层与前层之间采用全连接的方式,即卷积层的每一个特征图都会与前层的每一个特征图相关联:
表示第l层的第j个特征图;表示第l-1层的第i个特征图;表示第l层的第j个特征图与第l-1层的第i个特征图之间的连接权重;表示第l层第j个特征图的偏置;
过程S32:由过程S22训练好的拓扑线性解码器的结构为nL1、nL2、nL3,其中拓扑线性解码器的隐藏层的每个神经元与输入层的每个神经元也为全连接形式,如公式(2)和公式(3)所示,将拓扑线性解码器中隐藏层一个隐藏单元与输入层之间的权重赋值给卷积神经网络的卷积层中每个特征图上的像素点对应前层感受野上所有的像素点,即卷积核上的权重值。
所述的建立基于视频的通用特征提取器是通过多倍交叉验证的方式将视频训练集中的多帧关键帧组成的新的训练集对卷积神经网络模型进行微调从而得到的,在得到该通用特征提取器之后,将训练集与测试集上提取到的特征输入到支持向量机中进行基于视频语义的分类,实现过程如下:
过程S41:采用多倍交叉验证的方式,将视频集分成训练集和测试集,上述过程是在训练集的所有视频帧上完成的,这里先对训练集的所有视频以每隔sF帧进行视频帧的选取,将这些帧作为该视频的关键帧,即令第mf个视频的共有mF(mf)帧图像帧,则以1:sF:mF(mf)的视频帧标记为该视频的图像关键帧,并对应的标记上视频类别y(mf),则训练集视频的所有关键帧作为卷积神经网络模型微调的数据集;
过程S42:将Softmax作为卷积神经网络模型的顶层模型,通过BP算法对卷积神经网络模型进行微调直至收敛。将顶层Softmax层除去,获得关于该视频数据集的通用特征提取器,并令卷积神经网络的输出层单元个数为nLo;
过程S43:在过程S41获得的训练集和测试集的视频关键帧上进行卷积神经网络模型的特征提取,令第mf个视频有关键帧为mKF(mf)帧,则每个视频得到mKF×nLo的特征矩阵,其中行表示关键帧的个数,列表示对应的关键帧上所提取的特征。将该特征矩阵的行分成pS份,则每份为(mKF/pS)×nLo的矩阵,即mKF/pS行nLo列的矩阵,对该矩阵进行以行为轴的求均值,得到该份上长度为nLo的特征向量,通过将不同部分的特征向量首尾相连,得到长度为nLo×pS的特征向量作为该视频的特征向量;
过程S44:前述过程分别得到训练集和测试集的特征矩阵和标签矩阵,将该特征数据放入支持向量机模型中进行最后的语义概念预测。
本发明具有有益效果。本发明通过将拓扑特性与无监督预训练学***移,物体缩放,对象旋转等特性。采用基于拓扑模型预训练的卷积神经网络模型提取的特征对视频语义进行分析时,有效提高模型对视频语义分析的准确性。
附图说明
图1为拓扑线性解码器的构造流程图。
图2为进行视频语义分析检测的流程示意图。
图3为拓扑线性解码器的示意图。
具体实施方式
下面结合附图和具体实施例,对本发明的技术方案做进一步详细说明。
参考图1和图2所示,根据本发明的较优实施例,基于拓扑模型预训练卷积神经网络的视频语义分析方法包括以下步骤S1:对视频训练集进行预处理,并构建稀疏线性解码器;S2:加入拓扑特性约束建立拓扑线性解码器,并将视频训练集进行图像分块处理从而训练拓扑线性解码器;S3:将训练好的拓扑线性解码器的参数作为卷积神经网络中卷积层的初始参数;S4:采用多倍交叉验证的方式并基于视频训练集建立关键帧集合对卷积神经网络进行微调,建立一个基于视频数据的通用特征提取器,最后将训练集与测试集上提取到的特征输入到支持向量机中进行基于视频语义的分类。
参考图1、图3,在前述拓扑线性解码器的构造过程中,先定义一个线性解码器模型,然后在该模型上引入拓扑正则化项,通过对应的项系数来调整该正则项与整个目标函数之间的重要相关性,其实现过程如下:
过程S11:令视频训练集中的视频数量用m表示,其中第mf个视频的共有mF(mf)帧图像帧,且该视频的标签为y(mf)。先将这m个视频的所有图像帧提取出来,并令每个图像帧的大小为n×n×3,其中n每幅图像帧的宽和高,3表示采用的是RGB彩色制式。设立滑框大小为k*k,滑动步长为p,则通过滑框滑动,一幅图像帧可提取共个图像块,整个视频训练集共可提取个图像块。将每个图像块拉成长度为k×k×3的向量x,并将所有的图像块之间进行乱序,并按每批次为bS个训练样本,分成nbS=M/bS个批次,最后得到的数据集作为训练拓扑线性解码器的训练集;
过程S12:先定义线性解码器的模型,该模型由第一层为输入层,第二层为隐藏层,第三层为输出层构成,其中每层神经元个数分别为nL1,nL2,nL3,其中nL1=nL3。第一、二层间与第二、三层间的权重参数分别为和分别表示第nl+1层的第j个神经元与第nl层的第i个神经元之间连接上的权值和第nl+1层的第j个神经元的偏置值,其中nl∈{1,2}。第二层神经元的激活函数为:
公式(1):
其中为第二层第j个神经元的输出,为第二层第j个神经元的输入:
公式(2):
其中为第一层每个神经元的输出,这里为图像块向量的每个元素值,即a(1)=x。第三层神经元的激活函数为:
公式(3):
即第三层神经元的激活函数为第二层每个神经元的线性组合:
公式(4):
得到自动编码器目标函数值:
公式(5):
其中为x输入到该模型中得到的输出向量。
过程S13:在建立最基础的线性解码器之后,为了防止产生权重***现象而导致的过拟合问题,在目标函数上增加权重衰减项,得到目标函数为:
公式(6):
其中Nl为模型的层数,这里Nl=3;Sl为第nl层的神经元的个数;Sl+1为第nl+1层的神经元的个数;λ为权重衰减项与整个目标函数的重要相关性的权衡系数。
过程S14:在S13的基础上,对该模型进行稀疏特性的引入,即对于隐藏层的神经元来说,大部分神经元在每次的样本输入过程中激活程度接近于-1而达到抑制状态,只有少部分神经元的激活程度接近于1,从而提取到输入数据的稀疏性特征。在目标函数上增加稀疏正则项,得到目标函数为:
公式(7):
即,使得对于隐藏层的每个神经元的平均激活程度能够低于某个值:
公式(8):
这里表示第i个输入样本的基础上,隐藏层的每个神经元的激活值的均值,并且ρ是稀疏项系数,用来控制隐藏层的平均激活程度的值。通过以L1正则式来限制模型隐藏层的激活程度能够接近于既定的值:
公式(9):
本实施例中,参照图1所示,较佳地,在建立好的稀疏线性解码器基础上,通过对隐藏层的神经元的激活情况进行拓扑约束,使得该模型成为一个拓扑线性解码器,即通过对隐藏层的神经元进行按顺序分组,使得同一组内的神经元有相似的激活程度,而不同组的神经元互相独立,使得该模型能够学习到数据中的拓扑特性,其实现过程如下:
过程S21:在步骤S14后,就得到了一个稀疏线性解码器。过程S14是基于过程S13的基础上,将隐藏层所有的神经元的平均激活程度使用L1正则式限定在某个值附近。这里的拓扑是通过先将隐藏层的所有神经元先进行分组。即对于模型来说,第二层有nL2个神经元,则所有的神经元排列成一个的矩阵,记为拓扑分组选择矩阵T,在该矩阵中,任何一点的激活情况都会受到以该点为中心,sk×sk大小的范围内的神经元的影响,即以某点为中心,周边sk×sk范围内的作为一组,因为隐藏层神经元一共有nL2个,所以一共分成nL2组。通过将同一组所有神经元的激活值的平方和作为该组的目标值。即得到拓扑线性解码器的目标函数为:
公式(10):
其中V为nL2×nL2大小的分组矩阵,其构建过程为:对于其中的每一组,即每行向量,先定义一个基于拓扑分组选择矩阵T同样大小的标记矩阵F。并且其中:
公式(11):
其中表示V中第t组的标记矩阵中第i行第j列的值。Sg(t)为第t组的拓扑选择区域,且为:
公式(12):
其中mod函数为取模函数。从而对于分组矩阵有:
公式(13):
即当V(r,c)=1时,表示第c个神经元属于第r组;公式(10)中S为隐藏层神经元组成的nL2×bS大小的矩阵,ε为为了防止奇异值开根的平滑参数;γ为拓扑正则项与整个目标函数重要相关性的权衡系数。
过程S22:将过程S11得到的训练集中所有视频帧的图像块组成一个nP×vS的矩阵,其中vS表示拓扑稀疏线性解码器输入层的神经元个数,即,vS=nL1=k×k×3,为一个基于RGB三通道滑框的所有像素点的个数;模型中间层为隐藏层,也是该模型训练后,将该层的输出值作为输入对应的特征值。因为构成的nP×vS矩阵过大,所以先将该矩阵按照bS×vS的大小分成多个批次,采用BP算法一次训练一个批次,所有的训练数据训练一次表示完成一个epoch。训练多个epoch以达到模型收敛的目的。
较佳地,使用大量的无标签图像块训练好的拓扑线性解码器的权重参数作为卷积神经网络模型中卷积层的初始参数,为后续的微调打下基础。其实现过程如下:
过程S31:令卷积神经网络的模型输入层为视频图像帧,即n×n×3。对于卷积层来说,同一个卷积层中有多个特征图,每个特征图共享同一个卷积核,每个卷积核的感受野大小即为k×k×3,卷积层与前层之间采用全连接的方式,即卷积层的每一个特征图都会与前层的每一个特征图相关联:
公式(14):
其中表示第l层的第j个特征图;表示第l-1层的第i个特征图;表示第l层的第j个特征图与第l-1层的第i个特征图之间的连接权重;表示第l层第j个特征图的偏置。
过程S32:由过程S22训练好的拓扑线性解码器的结构为nL1、nL2、nL3,其中拓扑线性解码器的隐藏层的每个神经元与输入层的每个神经元也为全连接形式,如公式(2)和公式(3)所示,将拓扑线性解码器中隐藏层一个隐藏单元与输入层之间的权重赋值给卷积神经网络的卷积层中每个特征图上的像素点对应前层感受野上所有的像素点,即卷积核上的权重值。
参照图2,采用多倍交叉验证的方式将视频训练集中多帧关键帧组成的训练集对卷积神经网络模型进行微调,建立一个基于视频的通用特征提取器,最后将训练集与测试集上提取到的特征输入到支持向量机中进行基于视频语义的分类,实现过程如下:
过程S41:采用多倍交叉验证的方式,将视频集分成训练集和测试集,上述过程是在训练集的所有视频帧上完成的,这里先对训练集的所有视频以每隔sF帧进行视频帧的选取,将这些帧作为该视频的关键帧,即令第mf个视频的共有mF(mf)帧图像帧,则以1:sF:mF(mf)的视频帧标记为该视频的图像关键帧,并对应的标记上视频类别y(mf),则训练集视频的所有关键帧作为卷积神经网络模型微调的数据集。
过程S42:将Softmax作为卷积神经网络模型的顶层模型,通过BP算法对卷积神经网络模型进行微调直至收敛。将顶层Softmax层除去,获得关于该视频数据集的通用特征提取器,并令卷积神经网络的输出层单元个数为nLo;
过程S43:在过程S41获得的训练集和测试集的视频关键帧上进行卷积神经网络模型的特征提取,令第mf个视频有关键帧为mKF(mf)帧,则每个视频得到mKF×nLo的特征矩阵,其中行表示关键帧的个数,列表示对应的关键帧上所提取的特征。将该特征矩阵的行分成pS份,则每份为(mKF/pS)×nLo的矩阵,即mKF/pS行nLo列的矩阵,对该矩阵进行以行为轴的求均值,得到该份上长度为nLo的特征向量,通过将不同部分的特征向量首尾相连,得到长度为nLo×pS的特征向量作为该视频的特征向量;
过程S44:前述过程分别得到训练集和测试集的特征矩阵和标签矩阵,将该特征数据放入支持向量机模型中进行最后的语义概念预测。
下面结合具体的实例,针对TRACVID2012视频上对AirplaneFlying、Baby、Building、Car、Dog、Flower、InstrumentalMusician、Mountain、SceneText、Speech,这十类视频进行语义分析。
首先,采用多倍交叉验证的方式将视频集分成训练集和测试集,并将内部的视频顺序进行乱序处理,以此防止视频之间的上下文顺序联系;然后将训练集中所有视频进行RGB彩***图像帧的分离,并将每个图像帧分割成7×7×3大小的图像块,并将图像块之间进行乱序,生成一个图像块乱序矩阵。
然后,再使用本发明的技术方案来构建和完善模型。首先根据前述步骤S1,
在稀疏线性解码器基础上加入拓扑特性构建拓扑线性解码器,输入层为7×7×3个神经元,中间层为400个神经元,输出层为7×7×3个神经元。其中公式(6)中λ=0.003,公式(7)中β=0.1,ρ=-0.095,公式(10)中γ=0.08。采用BP算法对拓扑线性解码器进行迭代训练直至收敛。将该拓扑线性解码器的输入层与中间层之间的权重参数作为卷积神经网络模型的第一层卷积层的权重参数;
然后,将训练集中的视频进行RGB彩***图像帧的分离,不做图像块的分割,直接输入到预训练好的一层卷积神经网络中得到输出,将该输出作为训练下一个拓扑线性解码器的训练数据;
如上得到第二个拓扑线性解码器的收敛模型,将该模型的输入层与中间层的参数作为第二层卷积神经网络的初始化参数,得到预训练好的两层卷积神经网络模型;将训练集中的视频顺序进行乱序处理,然后根据前述步骤S4进行处理得到用于微调卷积神经网络的训练集并训练得到每个视频的特征向量,放入支持向量机中进行最后的结果预测。
为了评测和说明本发明采用的方法对视频语义分析检测的性能,本发明采用最常用的平均准确度MAP(Mean Avg-Precision)作为衡量指标。对测试视频用相同的方法提取关键帧和得到特征向量,根据步骤S4对视频进行语义分析检测。分别在SIFT特征和BoW词袋模型、LBP特征和直方图模型、以及随机初始化的卷积神经网络模型、采用无拓扑的稀疏线性解码器预训练的卷积神经网络模型和与本发明的基于拓扑模型预训练的卷积神经网络模型方法相比较。采用5倍交叉验证法,用对比方法对同样的测试视频进行视频语义分析检测结果如表1所示,其中CNN表示卷积神经网络;LD-CNN表示基于稀疏线性解码器预训练的卷积神经网络模型;TLD-CNN表示基于拓扑线性解码器预训练的卷积神经网络模型。
表1 视频语义分析检测结果
由表1的数据中得出,在相同的学习机制下,本发明所提供的基于拓扑模型预训练卷积神经网络得到的结果总体综合指标均优于其他几种对比模型。并在每个单独语义的检测总体上也优于其他方法。
综上所述,本发明所提供的基于拓扑模型预训练卷积神经网的视频语义分析方法,本发明的方案先无监督训练具有拓扑特性的线性解码器并结合少量有监督样本对预训练的卷积神经网络模型进行微调的方法,解决了卷积神经网络模型收敛速度慢的问题;而且在引入拓扑约束特性的情况下,学到的模型参数更具有应对内容多变的视频类数据样本,提高模型的准确性和鲁棒性。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。
Claims (4)
1.一种视频语义分析方法,其特征在于包括以下步骤:
S1:对视频训练集进行预处理,并构建稀疏线性解码器;
S2:在稀疏线性解码器上加入拓扑特性约束得到拓扑线性解码器,并将视频训练集进行图像分块处理建立基于图像块的训练集从而训练拓扑线性解码器;
S3:将训练好的拓扑线性解码器的权重参数作为卷积神经网络中卷积层的初始参数;
S4:采用多倍交叉验证的方式,并基于视频训练集建立关键帧集合对卷积神经网络进行微调,建立一个基于视频数据的通用特征提取器,最后将训练集与测试集上提取到的特征输入到支持向量机中进行基于视频语义的分类;
在所述的稀疏线性解码器模型构造过程中,先定义一个线性解码器模型,然后在该模型上引入权重衰减和稀疏正则化项,通过对应的项系数来调整该正则项与整个目标函数之间的重要相关性,具体实现过程如下:
过程S11:令视频训练集中的视频数量用m表示,其中第mf个视频的共有mF(mf)帧图像帧,且该视频的标签为y(mf);先将这m个视频的所有图像帧提取出来,并令每个图像帧的大小为n×n×3,其中n每幅图像帧的宽和高,3表示采用的是RGB彩色制式;设立滑框大小为k×k,滑动步长为p,则通过滑框滑动,一幅图像帧可提取共个图像块,整个视频训练集共可提取个图像块;将每个图像块拉成长度为k×k×3的向量x,并将所有的图像块之间进行乱序,并按每批次为bS个训练样本,分成nbS=M/bS个批次,最后得到的数据集作为训练拓扑线性解码器的训练集;
过程S12:先定义线性解码器的模型,由第一层为输入层,第二层为隐藏层,第三层为输出层构成,其中每层神经元个数分别为nL1,nL2,nL3,其中nL1=nL3;第一层、第二层间与第二层、第三层间的权重参数分别为和分别表示第nl+1层的第j个神经元与第nl层的第i个神经元之间连接上的权值和第nl+1层的第j个神经元的偏置值,nl∈{1,2};第二层神经元的激活函数为式(1):
为第二层第j个神经元的输出,为第二层第j个神经元的输入式(2):
为第一层每个神经元的输出,这里为图像块向量的每个元素值,即a(1)=x;第三层神经元的激活函数为式(3):
即第三层神经元的激活函数为第二层每个神经元的线性组合如式(4)
得到自动编码器目标函数值如式(5)
其中为x输入到该模型中得到的输出向量;
过程S13:在建立最基础的线性解码器之后,为了防止产生权重***现象而导致的过拟合问题,在目标函数上增加权重衰减项,得到目标函数如式(6)
其中Nl为模型的层数,这里Nl=3;Sl为第nl层的神经元的个数;Sl+1为第nl+1层的神经元的个数;λ为权重衰减项与整个目标函数的重要相关性的权衡系数;
过程S14:在S13的基础上,对该模型进行稀疏特性的引入,即对于隐藏层的神经元来说,大部分神经元在每次的样本输入过程中激活程度接近于-1而达到抑制状态,只有少部分神经元的激活程度接近于1,从而提取到输入数据的稀疏性特征;在目标函数上增加稀疏正则项,得到目标函数为:
即,该稀疏正则化项是为了让隐藏层的每个神经元的平均激活程度能够低于某个值,其中每个神经元的平均激活程度为:
式(8)表示第i个输入样本的基础上,隐藏层的每个神经元的激活值的均值,并且ρ是稀疏项系数,用来控制隐藏层的平均激活程度的值;通过以L1正则式来限制模型隐藏层的激活程度能够接近于既定的值:
2.根据权利要求1所述的一种视频语义分析方法,其特征在于:所述的拓扑线性解码器是建立在稀疏线性解码器基础上的,通过对隐藏层的神经元的激活情况进行拓扑约束,使得该模型成为一个拓扑线性解码器,即通过对隐藏层的神经元进行按顺序分组,使得同一组内的神经元有相似的激活程度,而不同组的神经元互相独立,使得该模型能够学习到数据中的拓扑特性,其实现过程如下:
过程S21:在过程S14后,就得到了一个稀疏线性解码器;过程S14是基于过程S13的基础上,将隐藏层所有的神经元的平均激活程度使用L1正则式限定在某个值附近;这里的拓扑是通过先将隐藏层的所有神经元先进行分组;即对于模型来说,第二层有nL2个神经元,则将所有的神经元排列成一个的矩阵,记为拓扑分组选择矩阵T,在该矩阵中,任何一点的激活情况都会受到以该点为中心,sk×sk大小的范围内的神经元的影响,即以某点为中心,周边sk×sk范围内的作为一组,因为隐藏层神经元一共有nL2个,所以一共分成nL2组;
通过将同一组所有神经元的激活值的平方和作为该组的目标值;即得到拓扑线性解码器的目标函数为:
其中V为nL2×nL2大小的分组矩阵,构建过程为:对于其中的每一组,即每行向量,先定义一个基于拓扑分组选择矩阵T同样大小的标记矩阵F;
表示V中第t组的标记矩阵中第i行第j列的值;Sg(t)为第t组的拓扑选择区域
mod函数为取模函数;从而对于分组矩阵有:
即当V(r,c)=1时,表示第c个神经元属于第r组;公式(10)中S为隐藏层神经元组成的nL2×bS大小的矩阵,ε为为了防止奇异值开根的平滑参数;γ为拓扑正则项与整个目标函数重要相关性的权衡系数;
过程S22:通过将过程S11得到的训练集中所有视频帧的图像块构成一个nP×vS的矩阵,其中vS表示拓扑稀疏线性解码器输入层的神经元个数,即,vS=nL1=k×k×3,为一个基于RGB三通道滑框的所有像素点的个数;模型中间层为隐藏层,也是该模型训练后,将该层的输出值作为输入对应的特征值;因为构成的nP×vS矩阵过大,所以先将该矩阵按照bS×vS的大小分成多个批次,采用BP算法一次训练一个批次,所有的训练数据训练一次表示完成一个epoch;训练多个epoch以达到模型收敛的目的。
3.根据权利要求1所述的一种视频语义分析方法,其特征在于,所述的训练好的拓扑线性解码器的权重参数作为卷积神经网络的初始参数,并通过后续的少量有标签样本微调卷积神经网络从而得到更优的参数,具体实现过程如下:
过程S31:令卷积神经网络的模型输入层为视频图像帧,即n×n×3;对于卷积层来说,同一个卷积层中有多个特征图,每个特征图共享同一个卷积核,每个卷积核的感受野大小即为k×k×3,卷积层与前层之间采用全连接的方式,即卷积层的每一个特征图都会与前层的每一个特征图相关联:
表示第l层的第j个特征图;表示第l-1层的第i个特征图;表示第l层的第j个特征图与第l-1层的第i个特征图之间的连接权重;表示第l层第j个特征图的偏置;
过程S32:由过程S22训练好的拓扑线性解码器的结构为nL1、nL2、nL3,其中拓扑线性解码器的隐藏层的每个神经元与输入层的每个神经元也为全连接形式,如公式(2)和公式(3)所示,将拓扑线性解码器中隐藏层一个隐藏单元与输入层之间的权重赋值给卷积神经网络的卷积层中每个特征图上的像素点对应前层感受野上所有的像素点,即卷积核上的权重值。
4.根据权利要求1所述的一种视频语义分析方法,其特征在于:所述的建立基于视频的通用特征提取器是通过多倍交叉验证的方式将视频训练集中的多帧关键帧组成的新的训练集对卷积神经网络模型进行微调从而得到的,在得到该通用特征提取器之后,将训练集与测试集上提取到的特征输入到支持向量机中进行基于视频语义的分类,实现过程如下:
过程S41:采用多倍交叉验证的方式,将视频集分成训练集和测试集,上述过程是在训练集的所有视频帧上完成的,这里先对训练集的所有视频以每隔sF帧进行视频帧的选取,将这些帧作为该视频的关键帧,即令第mf个视频的共有mF(mf)帧图像帧,则以1:sF:mF(mf)的视频帧标记为该视频的图像关键帧,并对应的标记上视频类别y(mf),则训练集视频的所有关键帧作为卷积神经网络模型微调的数据集;
过程S42:将Softmax作为卷积神经网络模型的顶层模型,通过BP算法对卷积神经网络模型进行微调直至收敛;将顶层Softmax层除去,获得关于该视频数据集的通用特征提取器,并令卷积神经网络的输出层单元个数为nLo;
过程S43:在过程S41获得的训练集和测试集的视频关键帧上进行卷积神经网络模型的特征提取,令第mf个视频有关键帧为mKF(mf)帧,则每个视频得到mKF×nLo的特征矩阵,其中行表示关键帧的个数,列表示对应的关键帧上所提取的特征;将该特征矩阵的行分成pS份,则每份为(mKF/pS)×nLo的矩阵,即mKF/pS行nLo列的矩阵,对该矩阵进行以行为轴的求均值,得到该份上长度为nLo的特征向量,通过将不同部分的特征向量首尾相连,得到长度为nLo×pS的特征向量作为该视频的特征向量;
过程S44:前述过程分别得到训练集和测试集的特征矩阵和标签矩阵,将该特征数据放入支持向量机模型中进行最后的语义概念预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610107770.5A CN105701480B (zh) | 2016-02-26 | 2016-02-26 | 一种视频语义分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610107770.5A CN105701480B (zh) | 2016-02-26 | 2016-02-26 | 一种视频语义分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105701480A CN105701480A (zh) | 2016-06-22 |
CN105701480B true CN105701480B (zh) | 2019-02-01 |
Family
ID=56222546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610107770.5A Active CN105701480B (zh) | 2016-02-26 | 2016-02-26 | 一种视频语义分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105701480B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107025267A (zh) * | 2017-03-01 | 2017-08-08 | 国政通科技股份有限公司 | 基于抽取视频关键逻辑信息检索视频的方法及*** |
CN107038221B (zh) * | 2017-03-22 | 2020-11-17 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN108665055B (zh) * | 2017-03-28 | 2020-10-23 | 深圳荆虹科技有限公司 | 一种图说生成方法及装置 |
CN108664844A (zh) * | 2017-03-28 | 2018-10-16 | 爱唯秀股份有限公司 | 卷积深度神经网络的图像目标语义识别及追踪 |
CN108496188A (zh) * | 2017-05-31 | 2018-09-04 | 深圳市大疆创新科技有限公司 | 神经网络训练的方法、装置、计算机***和可移动设备 |
CN107391646B (zh) * | 2017-07-13 | 2020-04-10 | 清华大学 | 一种视频图像的语义信息提取方法及装置 |
CN109784129A (zh) * | 2017-11-14 | 2019-05-21 | 北京京东尚科信息技术有限公司 | 信息输出方法和装置 |
CN108805036B (zh) * | 2018-05-22 | 2022-11-22 | 电子科技大学 | 一种非监督视频语义提取方法 |
CN108960059A (zh) * | 2018-06-01 | 2018-12-07 | 众安信息技术服务有限公司 | 一种视频动作识别方法及装置 |
CN109035488A (zh) * | 2018-08-07 | 2018-12-18 | 哈尔滨工业大学(威海) | 基于cnn特征提取的航空发动机时间序列异常检测方法 |
CN110738128A (zh) * | 2019-09-19 | 2020-01-31 | 天津大学 | 一种基于深度学习的重复视频检测方法 |
CN111565318A (zh) * | 2020-05-06 | 2020-08-21 | 中国科学院重庆绿色智能技术研究院 | 一种基于稀疏样本的视频压缩方法 |
CN111695422B (zh) * | 2020-05-06 | 2023-08-18 | Oppo(重庆)智能科技有限公司 | 视频标签获取方法、装置、存储介质及服务器 |
CN112016513B (zh) * | 2020-09-08 | 2024-01-30 | 北京达佳互联信息技术有限公司 | 视频语义分割方法、模型训练方法、相关装置及电子设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834941A (zh) * | 2015-05-19 | 2015-08-12 | 重庆大学 | 基于计算机输入下的稀疏自编码的脱机手写体识别方法 |
-
2016
- 2016-02-26 CN CN201610107770.5A patent/CN105701480B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834941A (zh) * | 2015-05-19 | 2015-08-12 | 重庆大学 | 基于计算机输入下的稀疏自编码的脱机手写体识别方法 |
Non-Patent Citations (3)
Title |
---|
"Learning Invariant Color Features with Sparse Topographic Restricted Boltzmann Machines";Hanli Goh etc.;《International Conference on Image Processing》;20110930;论文第3节 |
"基于非线性可鉴别的稀疏表示视频语义分析方法";詹永照等;《江苏大学学报(自然科学版)》;20131130;第34卷(第6期);第669-674页 |
"核可鉴别的特征分块稀疏表示的视频语义分析";詹永照等;《计算机辅助设计与图形学学报》;20140830;第26卷(第8期);论文第2.1-2.3节 |
Also Published As
Publication number | Publication date |
---|---|
CN105701480A (zh) | 2016-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105701480B (zh) | 一种视频语义分析方法 | |
CN109345508B (zh) | 一种基于两阶段神经网络的骨龄评价方法 | |
CN105184312B (zh) | 一种基于深度学习的文字检测方法及装置 | |
US20190228268A1 (en) | Method and system for cell image segmentation using multi-stage convolutional neural networks | |
CN111639719B (zh) | 基于时空运动和特征融合的足迹图像检索方法 | |
CN107229914B (zh) | 一种基于深度q学习策略的手写数字识别方法 | |
CN108549926A (zh) | 一种用于精细化识别车辆属性的深度神经网络及训练方法 | |
CN101398898B (zh) | 基于流形学习的植物叶片识别方法 | |
CN108648191A (zh) | 基于贝叶斯宽度残差神经网络的害虫图像识别方法 | |
CN109102014A (zh) | 基于深度卷积神经网络的类别不平衡的图像分类方法 | |
CN106919920A (zh) | 基于卷积特征和空间视觉词袋模型的场景识别方法 | |
CN111696101A (zh) | 一种基于SE-Inception的轻量级茄科病害识别方法 | |
CN106407986A (zh) | 一种基于深度模型的合成孔径雷达图像目标识别方法 | |
CN109165743A (zh) | 一种基于深度压缩自编码器的半监督网络表示学习算法 | |
CN110479636B (zh) | 基于神经网络自动分拣烟叶的方法及装置 | |
CN104217214A (zh) | 基于可配置卷积神经网络的rgb-d人物行为识别方法 | |
CN107423815B (zh) | 一种基于计算机的低质量分类图像数据清洗方法 | |
CN111882040A (zh) | 基于通道数量搜索的卷积神经网络压缩方法 | |
CN105335716A (zh) | 一种基于改进udn提取联合特征的行人检测方法 | |
CN107680077A (zh) | 一种基于多阶梯度特征的无参考图像质量评价方法 | |
CN113128620B (zh) | 一种基于层次关系的半监督领域自适应图片分类方法 | |
CN109871892A (zh) | 一种基于小样本度量学习的机器人视觉认知*** | |
CN108629370A (zh) | 一种基于深度置信网络的分类识别算法及装置 | |
CN113139501B (zh) | 一种联合局部区域检测与多级特征抓取的行人多属性识别方法 | |
CN114692732B (zh) | 一种在线标签更新的方法、***、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |