CN110287876A - 一种基于视频图像的内容识别方法 - Google Patents
一种基于视频图像的内容识别方法 Download PDFInfo
- Publication number
- CN110287876A CN110287876A CN201910556426.8A CN201910556426A CN110287876A CN 110287876 A CN110287876 A CN 110287876A CN 201910556426 A CN201910556426 A CN 201910556426A CN 110287876 A CN110287876 A CN 110287876A
- Authority
- CN
- China
- Prior art keywords
- layer
- video image
- model
- content
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
一种基于视频图像的内容识别方法,本发明属于人工智能领域,具体涉及一种视频图像识别方法。本发明的目的为了解决现有基于视频内容的识别实时性不佳的问题。本发明首先构建图像识别网络模型,然后针对视频图像,提取关键帧图像;利用图像识别网络模型对关键帧图像进行处理,确定图像的内容对象;同时通过光流法计算出两帧图像间的光流场信息,将关键帧的特征传输到其他帧图像;然后对模型进行训练,得到训练好的最终识别模型;利用训练好的最终识别模型对视频图像的内容进行识别。本发明用于视频图像的内容识别。
Description
技术领域
本发明属于人工智能领域,具体涉及一种视频图像识别方法。
背景技术
随着科技的逐步发展,自动驾驶技术、机器人技术等发展越来越快,技术相应越来越成熟,无轮是自动驾驶技术领域还是机器人技术领域等,想要实现自主识别并自主判断一般都是基于图像进行处理的,尤其是针对于自动驾驶和机器人的自主识别(运动过程中的避碰等)等大部分是基与视频图像进行处理的。
但是目前的视频图像处理有着一定缺点:视频的数据量庞大,不仅对于图像采集和图像处理等硬件有着非常高的要求,对于处理的软件环境也有着较高的要求,导致现有硬件或软件处理速度较慢,不能满足实时性的要求。尤其是针对于自动驾驶技术而言,对实时性判断的要求极高,如果不能满足实时性的要求,则无法保证行车安全,如果为了保证实时性的要求,那么就可能需要牺牲图像精度为代价,这样便降低了内容识别的准确性或这导致误报率升高,对行车安全同样存在着极大的安全隐患。同时这也是制约着对实时性有要求的机器人等领域的发展。
发明内容
本发明的目的为了解决现有基于视频内容的识别实时性不佳的问题。
一种基于视频图像的内容识别方法,包括以下步骤:
步骤1、构建图像识别网络模型:
所述的图像识别网络模型的结构为:输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第一特征拼接层、第二特征拼接层、输出层;所述第一特征拼接层拼接对第三池化层的特征图与第二池化层特征图进行特征拼接,然后卷积、批标准化、ReLU激活融合后再次经过进行注意力机制处理,将特征信息输入第二特征拼接层;第二特征拼接层将第一特征拼接层输入的特征图与第一池化层特征图进行特征拼接,然后卷积、批标准化、ReLU激活融合后再次经过进行注意力机制处理,将深度特征信息输入输出层;
步骤2、针对视频图像,提取关键帧图像;
利用图像识别网络模型对关键帧图像进行处理,确定图像的内容对象;
同时通过光流法计算出两帧图像间的光流场信息,将关键帧的特征传输到其他帧图像;
步骤3、针对步骤2的模型进行训练,得到训练好的最终识别模型;
步骤4、利用训练好的最终识别模型对视频图像的内容进行识别。
本发明的有益效果为:
本发明构建的图像识别网络模型的参数能够控制在合理的范围内,同时本发明针对关键帧和非关键帧进行区分处理,从而保障了对视频内容进行识别的实时性;同时本发明的内容识别准确率也能够达到百分之九十,具有良好的视频图像内容识别效果。
附图说明
图1为构建图像识别网络模型的示意图。
具体实施方式
具体实施方式一:
一种基于视频图像的内容识别方法,包括以下步骤:
步骤1、如图1所示,构建图像识别网络模型:
所述的图像识别网络模型的结构为:输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第一特征拼接层、第二特征拼接层、输出层;所述第一特征拼接层拼接对第三池化层的特征图与第二池化层特征图进行特征拼接,然后卷积、批标准化、ReLU激活融合后再次经过进行注意力机制处理,将特征信息输入第二特征拼接层;第二特征拼接层将第一特征拼接层输入的特征图与第一池化层特征图进行特征拼接,然后卷积、批标准化、ReLU激活融合后再次经过进行注意力机制处理,将深度特征信息输入输出层;
步骤2、针对视频图像,提取关键帧图像;提取关键帧图像采用现有的方法均可,在本实施方式中,采用基于内容分析法提取关键帧图像,这种方式简单方便,能够帮助整体算法满足实时性的要求,同时这种方法对图像的内容能够与关键帧图像识别的内容对象上更加相似,有利于保证算法的准确性。基于内容分析法是基于每帧图像的颜色和纹理等进行关键帧提取,根据图像帧的差值和设定的阈值来确定关键帧。
利用图像识别网络模型对关键帧图像进行处理,确定图像的内容对象;
同时通过光流(Optical Flow)法计算出两帧图像间的光流场信息,将关键帧的特征传输到其他帧图像;
本实施方式中的光流为稠密光流,光流的可视化伪代码入下:
所述的进行光流可视化时,色调H:用角度度量,取值范围为0°~360°,从红色开始按逆时针方向计算,红色为0°,绿色为120°,蓝色为240°;饱和度S:取值范围为0.0~1.0;亮度V:取值范围为0.0(黑色)~1.0(白色)。flownet是将V赋值为255,此函数遵循flownet,饱和度S代表像素位移的大小。
步骤3、针对步骤2的模型进行训练,得到最终识别模型;利用测试集进行测试;如果最终识别模型满足识别率要求,则作为训练好的最终识别模型,否则返回步骤1重新调整模型参数。
进行训练时损失函数都使用交叉熵损失函数,如下式所示:
其中N为选取的训练样本的总个数,k代表训练时选取的第k个样本,j为数据集的类别数目;pk表示第k个样本的概率,pk表示第j类的概率。
步骤4、利用训练好的最终识别模型对视频图像的内容进行识别。
Claims (5)
1.一种基于视频图像的内容识别方法,其特征在于,包括以下步骤:
步骤1、构建图像识别网络模型:
所述的图像识别网络模型的结构为:输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第一特征拼接层、第二特征拼接层、输出层;所述第一特征拼接层拼接对第三池化层的特征图与第二池化层特征图进行特征拼接,然后卷积、批标准化、ReLU激活融合后再次经过进行注意力机制处理,将特征信息输入第二特征拼接层;第二特征拼接层将第一特征拼接层输入的特征图与第一池化层特征图进行特征拼接,然后卷积、批标准化、ReLU激活融合后再次经过进行注意力机制处理,将深度特征信息输入输出层;
步骤2、针对视频图像,提取关键帧图像;
利用图像识别网络模型对关键帧图像进行处理,确定图像的内容对象;
同时通过光流法计算出两帧图像间的光流场信息,将关键帧的特征传输到其他帧图像;
步骤3、针对步骤2的模型进行训练,得到训练好的最终识别模型;
步骤4、利用训练好的最终识别模型对视频图像的内容进行识别。
2.根据权利要求1所述的一种基于视频图像的内容识别方法,其特征在于,所述第一卷积层、第二卷积层、第三卷积层的激活函数为RELU。
3.根据权利要求1所述的一种基于视频图像的内容识别方法,其特征在于,提取关键帧图像的过程采用基于内容分析法提取关键帧图像。
4.根据权利要求1、2或3所述的一种基于视频图像的内容识别方法,其特征在于,针对步骤2的模型进行训练时损失函数都使用交叉熵损失函数,如下式所示:
其中N为选取的训练样本的总个数,k代表训练时选取的第k个样本,j为数据集的类别数目;pk表示第k个样本的概率,pk表示第j类的概率。
5.根据权利要求4所述的一种基于视频图像的内容识别方法,其特征在于,针对步骤2的模型进行训练得到训练后的最终识别模型后,利用测试集进行测试;如果最终识别模型满足识别率要求,则作为训练好的最终识别模型,否则返回步骤1重新调整模型参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910556426.8A CN110287876A (zh) | 2019-06-25 | 2019-06-25 | 一种基于视频图像的内容识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910556426.8A CN110287876A (zh) | 2019-06-25 | 2019-06-25 | 一种基于视频图像的内容识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110287876A true CN110287876A (zh) | 2019-09-27 |
Family
ID=68005684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910556426.8A Pending CN110287876A (zh) | 2019-06-25 | 2019-06-25 | 一种基于视频图像的内容识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110287876A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110672343A (zh) * | 2019-09-29 | 2020-01-10 | 电子科技大学 | 基于多注意力卷积神经网络的旋转机械故障诊断方法 |
CN111652081A (zh) * | 2020-05-13 | 2020-09-11 | 电子科技大学 | 一种基于光流特征融合的视频语义分割方法 |
CN112446342A (zh) * | 2020-12-07 | 2021-03-05 | 北京邮电大学 | 关键帧识别模型训练方法、识别方法及装置 |
CN115115822A (zh) * | 2022-06-30 | 2022-09-27 | 小米汽车科技有限公司 | 车端图像处理方法、装置、车辆、存储介质及芯片 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107092883A (zh) * | 2017-04-20 | 2017-08-25 | 上海极链网络科技有限公司 | 物体识别追踪方法 |
CN109740419A (zh) * | 2018-11-22 | 2019-05-10 | 东南大学 | 一种基于Attention-LSTM网络的视频行为识别方法 |
CN109871781A (zh) * | 2019-01-28 | 2019-06-11 | 山东大学 | 基于多模态3d卷积神经网络的动态手势识别方法及*** |
-
2019
- 2019-06-25 CN CN201910556426.8A patent/CN110287876A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107092883A (zh) * | 2017-04-20 | 2017-08-25 | 上海极链网络科技有限公司 | 物体识别追踪方法 |
CN109740419A (zh) * | 2018-11-22 | 2019-05-10 | 东南大学 | 一种基于Attention-LSTM网络的视频行为识别方法 |
CN109871781A (zh) * | 2019-01-28 | 2019-06-11 | 山东大学 | 基于多模态3d卷积神经网络的动态手势识别方法及*** |
Non-Patent Citations (1)
Title |
---|
俞璜悦等: "基于用户兴趣语义的视频关键帧提取", 《计算机应用》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110672343A (zh) * | 2019-09-29 | 2020-01-10 | 电子科技大学 | 基于多注意力卷积神经网络的旋转机械故障诊断方法 |
CN110672343B (zh) * | 2019-09-29 | 2021-01-26 | 电子科技大学 | 基于多注意力卷积神经网络的旋转机械故障诊断方法 |
CN111652081A (zh) * | 2020-05-13 | 2020-09-11 | 电子科技大学 | 一种基于光流特征融合的视频语义分割方法 |
CN111652081B (zh) * | 2020-05-13 | 2022-08-05 | 电子科技大学 | 一种基于光流特征融合的视频语义分割方法 |
CN112446342A (zh) * | 2020-12-07 | 2021-03-05 | 北京邮电大学 | 关键帧识别模型训练方法、识别方法及装置 |
CN115115822A (zh) * | 2022-06-30 | 2022-09-27 | 小米汽车科技有限公司 | 车端图像处理方法、装置、车辆、存储介质及芯片 |
CN115115822B (zh) * | 2022-06-30 | 2023-10-31 | 小米汽车科技有限公司 | 车端图像处理方法、装置、车辆、存储介质及芯片 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287876A (zh) | 一种基于视频图像的内容识别方法 | |
CN109635728B (zh) | 一种基于非对称度量学习的异构行人再识别方法 | |
CN106952269A (zh) | 近邻可逆的视频前景物体序列检测分割方法及*** | |
CN109190475B (zh) | 一种人脸识别网络与行人再识别网络协同训练方法 | |
CN110033040B (zh) | 一种火焰识别方法、***、介质和设备 | |
CN111274921A (zh) | 一种利用姿态掩模进行人体行为识别的方法 | |
CN104240256A (zh) | 一种基于层次化稀疏建模的图像显著性检测方法 | |
CN107067015A (zh) | 一种基于多特征深度学习的车辆检测方法及装置 | |
CN112487981A (zh) | 基于双路分割的ma-yolo动态手势快速识别方法 | |
CN113780132A (zh) | 一种基于卷积神经网络的车道线检测方法 | |
Chakraborty et al. | A hybrid clustering algorithm for fire detection in video and analysis with color based thresholding method | |
CN113298024A (zh) | 一种基于轻量化神经网络的无人机对地小目标识别方法 | |
CN109949313A (zh) | 一种图像实时语义分割方法 | |
CN113034506A (zh) | 遥感图像语义分割方法、装置、计算机设备和存储介质 | |
CN110991412A (zh) | 人脸识别的方法、装置、存储介质及电子设备 | |
CN114821318B (zh) | 一种基于Darkdet-Net的低照度小样本目标检测方法 | |
CN115359406A (zh) | 一种邮局场景人物交互行为识别方法及*** | |
CN114202775A (zh) | 基于红外图像的变电站危险区域行人闯入检测方法及*** | |
CN106960188B (zh) | 天气图像分类方法及装置 | |
WO2022222036A1 (zh) | 车位确定方法及装置 | |
CN113221667A (zh) | 一种基于深度学习的人脸口罩属性分类方法及*** | |
CN112991239A (zh) | 一种基于深度学习的图像反向恢复方法 | |
CN109977738A (zh) | 一种视频场景分割判断方法、智能终端及存储介质 | |
CN116912648A (zh) | 生成材料参数识别模型的方法、装置、设备以及存储介质 | |
CN111950452A (zh) | 一种人脸识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190927 |