CN109284720A

CN109284720A - 度量视频连续帧与其卷积特征图间差异在视频行为识别中的应用

Info

Publication number: CN109284720A
Application number: CN201811139004.2A
Authority: CN
Inventors: 杨大伟; 陈思宇; 毛琳
Original assignee: Dalian Nationalities University
Current assignee: Dalian Minzu University
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2019-01-29

Abstract

度量视频连续帧与其卷积特征图间差异在视频行为识别中的应用,属于计算机视觉应用中的视频理解领域，为了解决增加卷积神经网络可获取信息的种类，从而加大卷积神经网络对于视频数据的理解能力，提升视频动作分类的正确性的问题，将最大时间信息的差异均值的数值作为视频行为识别的神经网络模型损失函数的一部分，参与网络反向传播中的梯度下降过程，效果是能够提高该神经网络模型在视频理解相关的多种应用中的准确程度。

Description

度量视频连续帧与其卷积特征图间差异在视频行为识别中的应用

技术领域

本发明属于计算机视觉应用中的视频理解领域，具体的说是一种度量视频连续帧与其卷积特征图间差异的方法及其在视频行为识别中的应用。

背景技术

深度学习利用神经网络结构构建的模型实现了端到端应用方式的同时，模型本身对于庞大数据中关键信息的储存能力保证了模型的可靠程度，使深度学习模型相较于传统算法来说有着不可比拟的优势，在短暂的几年时间中被图像、语音、文本领域的众多学者研究并取得了长足的发展。

在计算机视觉技术中的目标检测、目标分类、目标识别、目标分割等针对单帧图像应用中，深度学***滑，从而有效解决深度神经网络中的梯度消失和梯度***问题。OSVOS(One Shot Video Object Segmentation)算法作为一种经典的目标分割神经网络方法，将图像提取前景与轮廓的部分分流计算，与前景掩码重合度大于一定程度的轮廓区域作为最终的分割结果，使目标分割具有良好的鲁棒性。

随着对于单帧图像相关应用技术的日渐成熟，进一步的，对连续图像帧之间逻辑信息的理解，即对视频连续帧时间信息理解的研究需求也被提出。在对视频中的行人动作分类这一研究方向上，最主要的技术手段有两种，分别为利用光流信息的双流网络与3D卷积神经网络。双流网络将视频帧的RGB图像和光流图像分别作为输入数据，输入到两个网络来进行模型的训练，将彼此输出的判定信息融合计算，来得到最终的行人动作分类结果。3D卷积神经网络利用3维卷积核处理连续的多帧图像，保留了视频连续帧的时间信息，从而得到可靠地分类结果。但由于视频理解方向的发展时间并不算长，在实际应用场景下的准确度并不能让人满意。越来越多的学者认为现有的方法无法准确的提取视频连续帧的时间信息，从而导致模型的准确度不足以达到应用需求，需要对原始方法进一步改进。

发明内容

为了解决增加卷积神经网络可获取信息的种类，从而加大卷积神经网络对于视频数据的理解能力，提升视频动作分类的正确性的问题，本发明提出如下技术方案：一种度量视频连续帧与其卷积特征图间差异在视频行为识别中的应用。

进一步的，度量视频连续帧与其卷积特征图间差异取得最大时间信息的差异，将最大时间信息的差异均值的数值作为视频行为识别的神经网络模型损失函数的一部分，参与网络反向传播中的梯度下降过程，使视频行为识别的神经网络的权重梯度不仅只根据输出值与真实值的差异大小来决定梯度的下降方向，同时也朝着减小最大均值差异数值的方向进行更新，使视频行为识别的神经网络模型卷积核的权重参数朝着减小最大均值差异数值的方向更新。

进一步的，第一步：对原始视频图像帧x_i，以及该图像帧对应的卷积特征图得到相邻的两个图像作为集合内的一组待计算时间信息元素；

第二步：得到数据同维度第二原始视频图像集合P’_n-1与第二卷积特征图集合Q'_n-1；

第三步：得到映射的第三原始视频图像集合f(x)与第三卷积特征图集合f(x^c)；

第四步：得到时间信息的最大均值差异。

有益效果：

(1)利用时间信息差异方法得到可靠的时间信息差异，可以在卷积神经网络的训练过程中得以良好的运用。通过原输入视频连续帧与其卷积特征图间的时间信息差异来丰富神经网络的梯度信息，使训练神经网络模型的过程更为可靠，最终提升模型对输入数据时间信息的理解能力。将时间信息差异参数作为损失函数的一部分，使其参与卷积神经网络反向传播的梯度下降过程，由于梯度下降过程本身能够根据损失函数的数值来对网络中各个卷积核的梯度进行对应的求导和更新，以降低损失函数的数值为反向传播的最终目的。而将时间信息差异参数也作为损失函数一部分的同时，使卷积神经网络在更新各个卷积核的梯度时不仅运用了输出值与真实值的差异大小信息，也运用了最大均值差异来作为梯度更新的计算依据，导致各个卷积核的梯度参数朝着减小最大均值差异的方向进行更新。随着梯度下降，两组时间信息的相似度趋向于增加，从而保证卷积神经网络能够更好的保留原始数据的时间信息。

(2)时间信息差异方法中运用的可再生核希尔伯特空间拥有完备的内积空间，将信息映射到该空间能够完好的保留原始数据的性质，保证时间信息差异方法计算的数据足够可靠，能有效的体现出视频连续帧与其卷积特征图间的时间信息差异。同时，该映射空间本身具有稳健的正则性，可以保证方法具有足够的连续性，即随着输入数据集合的增大，方法也能够快速收敛到它的期望值。

(3)现有常见卷积神经网络的特征计算重点仅仅在于场景信息上，无法很好地运用到时间信息，本方法将卷积神经网络结合时间信息差异方法来使其获取了视频连续帧与其卷积特征图间的时间信息差异，提升了网络可获取信息的种类，从而加大卷积神经网络对于视频数据的理解能力。通过度量视频连续帧与其卷积特征图间时间信息差异并使其参与反向传播过程，从而提升模型对视频连续帧时间信息理解能力的同时，也能够提高该神经网络模型在视频理解相关的多种应用中的准确程度，例如提升视频动作分类的正确性，提高视频行为识别的精确性，保证监控视频内异常行为检测的有效输出等等。进一步的在其他应用场景下也能够提供一定的辅助功能，例如在航拍视频的相关识别应用中提供可靠的时间信息差异，在自主汽车视觉感应部分的障碍物检测***中提升对非静态物体的理解能力，加大对不同时间段实时路况时间信息差异的理解能力，给自主汽车后续操作预判、路径规划等操作提供有效帮助。

(4)由于本方法的计算逻辑主要针对不同数据之间的差异性来进行度量计算，通过对不同的输入数据使用合适的跨领域转换手段，可以使本方法不仅能够用于度量视频连续帧与其卷积特征图之间的时间信息差异，也能够有助于度量连续的语音信息的相关应用任务：比如将不同地方方言甚至不同语言的语音数据进行提取比较，得出不同语言之间的音调差异与语法结构差异，使神经网络具备根据语音数据来判断不同语言类型的能力；或者针对连续的文本信息的相关应用任务：通过对不同体裁的文本信息差异进行对比计算，使神经网络具备根据文本信息来判断该文本体裁类型的能力；等其他可以运用其他数据类型差异信息的相关应用，拥有很好的跨领域推广性。

附图说明

图1是本方法处理某一组视频连续帧与其卷积特征图的示意图

图2是实施实例1中两幅原始的视频连续帧图像

图3是实施实例1中两幅原始视频连续帧图像对应的卷积特征图

图4是实施实例1所得的量化时间信息差异距离

图5是实施实例2中两幅原始的视频连续帧图像

图6是实施实例2中两幅原始视频连续帧图像对应的卷积特征图

图7是实施实例2所得的量化时间信息差异距离

图8是实施实例3中两幅原始的视频连续帧图像

图9是实施实例3中两幅原始视频连续帧图像对应的卷积特征图

图10是实施实例3所得的量化时间信息差异距离

图11是实施实例4中两幅原始的视频连续帧图像

图12是实施实例4中两幅原始视频连续帧图像对应的卷积特征图

图13是实施实例4所得的量化时间信息差异距离

图14是实施实例5中两幅原始的视频连续帧图像

图15是实施实例5中两幅原始视频连续帧图像对应的卷积特征图

图16是实施实例5所得的量化时间信息差异距离

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

实施例：本实施例为了加深神经网络对于视频连续帧中时间信息的理解能力，针对卷积神经网络设计了一种方法来计算视频连续帧与其卷积特征图间的时间信息差异，该方法可以由软件实现，是一种能进一步提升网络模型对时间信息理解能力的度量差异方法。利用计算度量得到的视频连续帧与其卷积特征图之间的量化时间信息差异，将差异反馈至神经网络的训练过程中，使神经网络在更新权重时能够运用到时间信息差异，提高对视频连续帧间时间信息的理解能力。

本实施例方法能够稳健计算不同领域样本之间差异距离的内涵，创新地将其结合卷积神经网络来运用至视频连续帧与其卷积特征图间的时间信息差异计算上，使网络能够加深对视频连续帧中时间信息的理解。

其中，视频连续帧代表将原始视频转化为以帧为单位的图像数据中，连续的前后两帧或任意帧图像。卷积特征图代表将原始图像数据经过卷积运算后得到的，相较于原图来说具有一定针对性特征性质的图像数据。

其中，时间信息代表着一种需要通过对视频连续帧数据进行差值运算，来得到的同一视频下不同时刻图像帧之间的时间差值数据，对应卷积特征图时间信息的获取方式同理。由于视频连续帧与其卷积特征图具备来源关系，所以两组数据的时间信息也可以被视为拥有直接联系，合理运用两者之间的联系对于视频理解领域及其相关应用具有一定的价值。

本实施例是通过以下技术方案实现的，一种度量视频连续帧与其卷积特征图间差异的方法，上述***及装置即是由该方法而获得，该算法内容具体包括如下步骤：

第一步：将视频转换为图像，得到总数为n的视频帧图像，取出所有原始视频图像帧x_i，以及该图像帧对应的卷积特征图其中i代表帧数。将原始图像与卷积特征图分为两个集合，各集合内，相邻的两个图像作为集合内的一组待计算时间信息元素。即对原始图像集合P_n-1与卷积特征图集合Q_n-1内数据进行一定的划分处理，使集合内的每一组待计算时间信息元素是由该图像集合的两个相邻图像数据构成，如x₁与x₂为一组，x₂与x₃为一组，卷积特征图集合同理。其中原始图像集合可表示为：

P_n-1＝{[x₁,x₂],[x₂,x₃],[x₃,x₄]…[x_n-1,x_n]}

卷积特征图集合可表示为：

第二步：对所有不同大小数据的维度进行补零升维，或去零降维的处理，得到维度处理后的原始图像集合P’_n-1与维度处理后的卷积特征图集合Q'_n-1，两个集合内所有数据的维度大小都相同，本操作能够便于度量运算的进行；

第三步：将两个维度处理后集合内的所有数据进行空间映射计算并求平均，得到映射后原始图像集合f(x)与映射后卷积特征图集合f(x^c)；

其中f代表被映射的可再生核希尔伯特空间上的连续函数集，f(x)代表将数据映射后的函数结果；

其中可再生核希尔伯特空间是一种利用可再生核函数作为空间内基础数据构成的具有完备性的内积空间。完备性代表该空间内任何函数的极限运算都不能脱离该空间的范围，内积空间为一种任意维度空间内任意数据都可进行内积并满足数据间共轭对称、线性性与正定性的空间，任何满足上述两个条件的空间都被称为希尔伯特空间。可再生核函数代表满足在无限维空间中拥有特征值与特征函数且任意特征函数都两两正交的核函数；

第四步：将两个集合内的每组待计算时间信息元素的两个数据的升维、映射后数据进行差值运算，分别计算各集合内的各组待计算时间维度元素的映射数据的差值，对差值求和并计算平均值，计算原始图像集合P’_n-1的映射集合的所述的平均值与卷积特征图集合Q'_n-1的映射集合的所述均值，并对所述两个均值作差并平方，得时间信息的最大均值差异。用算式可表示为：

得到原始图像与卷积特征图间时间信息差异的量化结果。

第五步：将最大均值差异的数值作为卷积神经网络模型损失函数的一部分，参与网络反向传播中的梯度下降过程，使网络的权重梯度不仅只根据输出值与真实值的差异大小来决定梯度的下降方向，同时也朝着减小最大均值差异数值的方向进行更新，使卷积核的权重参数朝着减小最大均值差异数值的方向更新。

上述技术方案是一种度量视频连续帧与其卷积特征图间差异的方法，简洁的说，其包括如下步骤：

第一步：将视频转换为图像，得到总数为n的视频帧图像，取出所有原始视频图像帧x_i，以及该图像帧对应的卷积特征图其中i代表帧数，将原始视频图像与卷积特征图分为两个集合，各集合内，相邻的两个图像作为集合内的一组待计算时间信息元素：

第一原始视频图像集合表示为：

P_n-1＝{[x₁,x₂],[x₂,x₃],[x₃,x₄]…[x_n-1,x_n]}

第一卷积特征图集合表示为：

第二步：对维度不同的数据的进行补零升维或去零降维以使得各数据同维度，得到第二原始视频图像集合P’_n-1与第二卷积特征图集合Q'_n-1。

第三步：将第二原始视频图像集合P’_n-1与第二卷积特征图集合Q'_n-1的集合内的所有数据进行空间映射计算并求平均，得到第三原始视频图像集合f(x)与第三卷积特征图集合f(x^c)；其中f代表被映射的可再生核希尔伯特空间上的连续函数集。

第四步：对第三原始视频图像集合f(x)、第三卷积特征图集合f(x^c)，分别计算各集合内的各组待计算同维度时间信息元素的映射数据的差值，对差值求和并计算平均值，对所述两个均值作差并平方，得到时间信息的最大均值差异，用算式表示时间信息的最大均值差异为：

由上述，本实施例提出一种方法来度量视频连续帧与其卷积特征图间差异的方法，即通过对视频连续帧数据和其卷积特征图数据的维度处理、空间映射及差异计算，最终得到两组数据间时间信息差异的量化数值。可以将通过本方法得到的时间信息差异反馈到卷积神经网络的训练过程，从而提升该神经网络对于视频连续帧间时间信息差异的理解程度，影响到视频理解方向的后续其他应用。

现有技术中公开与本公开相关的方案如下：

2016年，发明专利申请《视频理解方法及装置》(公开号：CN107563257A)，公开了一种基于场景深度估计并得到深度场景信息，从而进一步对场景内容进行理解和分析的方法，该发明主要运用多种不同的神经网络结构来得到场景的深度信息。不同点在于，本实施例主要利用计算方法来针对原视频连续帧数据与其卷积特征图数据之间的时间信息差异，而非通过多重网络结构来得到视频场景内的深度信息。

2017年，发明专利申请《一种基于稳健主成分分析法的图像差异检测方法》(公开号：CNIO7705295A)，公开了一种针对同一场景下，不同时间、不同视角所获得的数据信息进行建模并分析处理，从而得到稳健的场景信息。不同点在于，本实施例主要针对视频连续帧与其卷积特征图来度量两者之间的时间信息差异，通过训练卷积神经网络降低视频连续帧与其卷积特征图之间时间信息差异大小的方法来加强卷积神经网络对时间信息的掌握能力，加大网络模型对于视频时间信息的理解能力，而非利用不同条件下同一场景的数据信息的分析处理从而获得差异信息。

2017年，发明专利申请《一种基于深度学习的视频理解方法》(公开号：CNIO7909014A)，公开了一种通过LSTM网络、C3D算法和PCA算法三种方法结合运算，进一步得到可靠性较强的待检测视频语句信息的视频理解方法。不同点在于，本实施例利用时间信息差异方法来度量视频连续帧与其卷积特征图之间的时间信息差异，最终得到量化的差异数值结果，与视频的语句理解没有关联。

实施例1：

本实施实例对于如图2所示的一组原始视频连续帧图像及如图3所示的对应卷积特征图进行的距离度量计算，图4为所得计算结果。

实施例2：

本实施实例对于如图5所示的一组原始视频连续帧图像及如图6所示的对应卷积特征图进行的距离度量计算，图7为所得计算结果。

实施例3：

本实施实例对于如图8所示的一组原始视频连续帧图像及如图9所示的对应卷积特征图进行的距离度量计算，图10为所得计算结果。

实施例4：

本实施实例对于如图11所示的一组原始视频连续帧图像及如图12所示的对应卷积特征图进行的距离度量计算，图13为所得计算结果。

实施例5：

本实施实例对于如图14所示的一组原始视频连续帧图像及如图15所示的对应卷积特征图进行的距离度量计算，图16为所得计算结果。

以上所述，仅为本发明创造较佳的具体实施方式，但本发明创造的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内，根据本发明创造的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明创造的保护范围之内。

Claims

1.一种度量视频连续帧与其卷积特征图间差异在视频行为识别中的应用。

2.如权利要求1所述的应用，其特征在于，度量视频连续帧与其卷积特征图间差异取得最大时间信息的差异，将最大时间信息的差异均值的数值作为视频行为识别的神经网络模型损失函数的一部分，参与网络反向传播中的梯度下降过程，使视频行为识别的神经网络的权重梯度不仅只根据输出值与真实值的差异大小来决定梯度的下降方向，同时也朝着减小最大均值差异数值的方向进行更新，使视频行为识别的神经网络模型卷积核的权重参数朝着减小最大均值差异数值的方向更新。

3.如权利要求2所述的应用，其特征在于，最大时间信息的差异计算方法如下：

第一步：对原始视频图像帧x_i，以及该图像帧对应的卷积特征图得到相邻的两个图像作为集合内的一组待计算时间信息元素；

第二步：得到数据同维度第二原始视频图像集合P′_n-1与第二卷积特征图集合Q′_n-1；

第四步：得到时间信息的最大均值差异。