CN110287876A

CN110287876A - 一种基于视频图像的内容识别方法

Info

Publication number: CN110287876A
Application number: CN201910556426.8A
Authority: CN
Inventors: 孙绍辉; 曹勇; 田云龙; 孙绍光
Original assignee: Heilongjiang Electric Power Dispatching Industry Co Ltd
Current assignee: Heilongjiang Electric Power Dispatching Industry Co Ltd
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2019-09-27

Abstract

一种基于视频图像的内容识别方法，本发明属于人工智能领域，具体涉及一种视频图像识别方法。本发明的目的为了解决现有基于视频内容的识别实时性不佳的问题。本发明首先构建图像识别网络模型，然后针对视频图像，提取关键帧图像；利用图像识别网络模型对关键帧图像进行处理，确定图像的内容对象；同时通过光流法计算出两帧图像间的光流场信息，将关键帧的特征传输到其他帧图像；然后对模型进行训练，得到训练好的最终识别模型；利用训练好的最终识别模型对视频图像的内容进行识别。本发明用于视频图像的内容识别。

Description

一种基于视频图像的内容识别方法

技术领域

本发明属于人工智能领域，具体涉及一种视频图像识别方法。

背景技术

随着科技的逐步发展，自动驾驶技术、机器人技术等发展越来越快，技术相应越来越成熟，无轮是自动驾驶技术领域还是机器人技术领域等，想要实现自主识别并自主判断一般都是基于图像进行处理的，尤其是针对于自动驾驶和机器人的自主识别(运动过程中的避碰等)等大部分是基与视频图像进行处理的。

但是目前的视频图像处理有着一定缺点：视频的数据量庞大，不仅对于图像采集和图像处理等硬件有着非常高的要求，对于处理的软件环境也有着较高的要求，导致现有硬件或软件处理速度较慢，不能满足实时性的要求。尤其是针对于自动驾驶技术而言，对实时性判断的要求极高，如果不能满足实时性的要求，则无法保证行车安全，如果为了保证实时性的要求，那么就可能需要牺牲图像精度为代价，这样便降低了内容识别的准确性或这导致误报率升高，对行车安全同样存在着极大的安全隐患。同时这也是制约着对实时性有要求的机器人等领域的发展。

发明内容

本发明的目的为了解决现有基于视频内容的识别实时性不佳的问题。

一种基于视频图像的内容识别方法，包括以下步骤：

步骤1、构建图像识别网络模型：

所述的图像识别网络模型的结构为：输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第一特征拼接层、第二特征拼接层、输出层；所述第一特征拼接层拼接对第三池化层的特征图与第二池化层特征图进行特征拼接，然后卷积、批标准化、ReLU激活融合后再次经过进行注意力机制处理，将特征信息输入第二特征拼接层；第二特征拼接层将第一特征拼接层输入的特征图与第一池化层特征图进行特征拼接，然后卷积、批标准化、ReLU激活融合后再次经过进行注意力机制处理，将深度特征信息输入输出层；

步骤2、针对视频图像，提取关键帧图像；

利用图像识别网络模型对关键帧图像进行处理，确定图像的内容对象；

同时通过光流法计算出两帧图像间的光流场信息，将关键帧的特征传输到其他帧图像；

步骤3、针对步骤2的模型进行训练，得到训练好的最终识别模型；

步骤4、利用训练好的最终识别模型对视频图像的内容进行识别。

本发明的有益效果为：

本发明构建的图像识别网络模型的参数能够控制在合理的范围内，同时本发明针对关键帧和非关键帧进行区分处理，从而保障了对视频内容进行识别的实时性；同时本发明的内容识别准确率也能够达到百分之九十，具有良好的视频图像内容识别效果。

附图说明

图1为构建图像识别网络模型的示意图。

具体实施方式

具体实施方式一：

一种基于视频图像的内容识别方法，包括以下步骤：

步骤1、如图1所示，构建图像识别网络模型：

步骤2、针对视频图像，提取关键帧图像；提取关键帧图像采用现有的方法均可，在本实施方式中，采用基于内容分析法提取关键帧图像，这种方式简单方便，能够帮助整体算法满足实时性的要求，同时这种方法对图像的内容能够与关键帧图像识别的内容对象上更加相似，有利于保证算法的准确性。基于内容分析法是基于每帧图像的颜色和纹理等进行关键帧提取，根据图像帧的差值和设定的阈值来确定关键帧。

同时通过光流(Optical Flow)法计算出两帧图像间的光流场信息，将关键帧的特征传输到其他帧图像；

本实施方式中的光流为稠密光流，光流的可视化伪代码入下：

所述的进行光流可视化时，色调H：用角度度量，取值范围为0°～360°，从红色开始按逆时针方向计算，红色为0°，绿色为120°，蓝色为240°；饱和度S：取值范围为0.0～1.0；亮度V：取值范围为0.0(黑色)～1.0(白色)。flownet是将V赋值为255，此函数遵循flownet，饱和度S代表像素位移的大小。

步骤3、针对步骤2的模型进行训练，得到最终识别模型；利用测试集进行测试；如果最终识别模型满足识别率要求，则作为训练好的最终识别模型，否则返回步骤1重新调整模型参数。

进行训练时损失函数都使用交叉熵损失函数，如下式所示：

其中N为选取的训练样本的总个数，k代表训练时选取的第k个样本，j为数据集的类别数目；p_k表示第k个样本的概率，p_k表示第j类的概率。

Claims

1.一种基于视频图像的内容识别方法，其特征在于，包括以下步骤：

步骤1、构建图像识别网络模型：

步骤2、针对视频图像，提取关键帧图像；

2.根据权利要求1所述的一种基于视频图像的内容识别方法，其特征在于，所述第一卷积层、第二卷积层、第三卷积层的激活函数为RELU。

3.根据权利要求1所述的一种基于视频图像的内容识别方法，其特征在于，提取关键帧图像的过程采用基于内容分析法提取关键帧图像。

4.根据权利要求1、2或3所述的一种基于视频图像的内容识别方法，其特征在于，针对步骤2的模型进行训练时损失函数都使用交叉熵损失函数，如下式所示：

5.根据权利要求4所述的一种基于视频图像的内容识别方法，其特征在于，针对步骤2的模型进行训练得到训练后的最终识别模型后，利用测试集进行测试；如果最终识别模型满足识别率要求，则作为训练好的最终识别模型，否则返回步骤1重新调整模型参数。