CN109740599A - 一种基于视觉增强gLSTM的图像描述生成方法 - Google Patents
一种基于视觉增强gLSTM的图像描述生成方法 Download PDFInfo
- Publication number
- CN109740599A CN109740599A CN201910005249.4A CN201910005249A CN109740599A CN 109740599 A CN109740599 A CN 109740599A CN 201910005249 A CN201910005249 A CN 201910005249A CN 109740599 A CN109740599 A CN 109740599A
- Authority
- CN
- China
- Prior art keywords
- image
- key point
- glstm
- feature
- interest region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000002708 enhancing effect Effects 0.000 title claims abstract description 8
- 239000000284 extract Substances 0.000 claims abstract description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 238000010219 correlation analysis Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims 2
- 230000000007 visual effect Effects 0.000 abstract 1
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
Landscapes
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于视觉增强gLSTM的图像描述生成方法。该方法通过分割图像的兴趣区域并提取CNN特征作为gLSTM模型的引导信息,在此基础上生成描述语句。兴趣区域是从图像中提取关键点,并在此基础上扩展为兴趣点区域得到的。然后将兴趣点密集区域和稀疏区域分割开,密集区域就是兴趣区域。接下来对图像兴趣区域提取CNN特征,将该特征作为gLSTM模型的视觉增强信息来生成图像描述语句。实验表明,该视觉增强方法可以有效地改善图像描述的结果,提升图像描述方法的准确性。
Description
技术领域
本发明主要涉及图像理解领域,具体涉及一种基于视觉增强gLSTM的图 像描述生成方法。
背景技术
图像描述是计算机视觉的重要研究内容之一,也是当前的热点之一。其过 程就是对给定图像生成语句来描述图像的内容。
图像描述的过程借鉴了机器翻译,通过卷积神经网络和循环神经网络的 结合构建编码-解码的框架,提取图像的卷积特征并用于生成图像的描述语句。
发明内容
本发明的目的在于提出一种基于视觉增强gLSTM的图像描述生成方法, 通过卷积神经网络提取图像特征,结合文本特征训练循环神经网络来生成图像描 述语句。
本发明的技术方案如下:
(1)检测图像关键点:先对图像做不同程度的高斯平滑,再对这些图像做 差分构成高斯金字塔提取图像关键点;
(2)过滤图像关键点,保留密集点区域:对每一个初始关键点统计其在预 定义3×3像素滑窗内周围的关键点数量,并与阈值比较判断是否保留该关键点;
(3)扩展关键点,获取兴趣区域:以关键点为中心,扩展为7×7像素的 黑色矩形框,然后从图像的中间列向两侧统计相邻两列的扩展区域像素点的像素 差,并根据阈值确定兴趣区域;
(4)提取图像特征:将图像输入预训练的VGG16卷积神经网络,并提取 最后一层全连接层的向量作为图像特征;
(5)映射图像特征和文本特征:计算文本词袋模型的特征向量,并将图像 特征和文本特征映射到同一空间得到引导信息;
(6)生成图像描述语句:将图像特征和基于兴趣区域的引导信息输入gLSTM中生成图像描述语句。
附图说明
图1基于视觉增强gLSTM的图像描述生成方法流程图
图2卷积神经网络VGG16示意图
图3视觉增强gLSTM网络模块示意图
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明所述的基于视觉增强gLSTM的图像描述生成方法流程图如图1所 示,图1包括8个单元。
单元100为高斯差分。高斯差分是使用高斯函数对图像进行平滑计算的 过程,高斯函数如下所示:
其中x和y分别表示图像的宽和高,σ表示正态分布的标准差,高斯平滑的结果 L如下所示:
L(x,y,σ)=G(x,y,σ)×I(x,y)
其中I表示待检测图像,高斯差分的计算如下所示:
D(x,y,σ,k)=L(x,y,kσ)-L(x,y,σ)
单元101为检测关键点。通过高斯差分计算得到初始关键点,定义为其中Si表示第i个图像中的关键点的数量。
单元102为过滤关键点。图像中初始关键点的分布有些区域密集,有些区 域稀疏,因此在表示图像内容之前需要过滤分布稀疏的关键点使得关键点的分布 更加密集,在本发明中通过函数来判断是否保留关键点:
其中l是一个统计函数,表示在预定义3×3矩阵包含的关键点数量,当取值为1时表示保留该点,否则移除该点,阈值L的定义如下所示:
单元103为扩展关键点。以关键点为中心扩展为7×7黑色矩形框,便于 分割图像的兴趣区域。
单元104为获取兴趣区域。从图像的中间分别向左右统计图像中相邻两 列扩展区域的像素点数量差,若差异大于阈值50,则确定为兴趣区域边界。
单元105为提取图像文本特征。将图像兴趣区域输入VGG16卷积神经网 络并提取网络中最后全连接层的向量作为图像特征,获得的图像特征为4096维 的向量,VGG16网络结构如图2所示,包括卷积层、池化层以及全连接层。文 本特征使用词袋模型构建向量,词袋模型是信息检索领域常用的文档表示方法, 忽略文档中单词的顺序、语法和句法等要素,将文本当做若干词汇的集合,词袋 模型向量作为文本特征。
单元106为典型相关分析计算。典型相关分析的目的在于将两种模态映 射到相同的空间,在接下来将图像映射信息作为引导信息输入到gLSTM中,典 型相关分析计算如下所示:
U=aT·CNN
V=bT·BoW
其中CNN表示图像特征,BoW表示文本特征,a和b是典型相关分析中最大化 Corr(U,V)期望得到的权重矩阵。
单元107为生成描述语句。在gLSTM中将卷积神经网络中生成的全连接 层图像特征作为输入,图像兴趣区域引导信息用于引导生成图像描述语句, gLSTM的模块结构如图3所示,其中g表示图像引导信息。
Claims (7)
1.一种基于视觉增强gLSTM的图像描述生成方法,其特征包括以下步骤:
(1)通过高斯差分检测算子检测图像关键点;
(2)过滤图像关键点,保留密集点区域;
(3)扩展关键点为7×7像素的矩形框,并分割为兴趣区域;
(4)将图像兴趣区域输入卷积神经网络提取特征;
(5)图像特征和文本词袋模型特征进行典型相关分析计算,得到图像映射特征;
(6)将图像的映射特征作为gLSTM的引导信息生成描述语句。
2.根据权利要求1所述的方法,其特征在于步骤(1)中,使用高斯差分检测算子检测图像关键点。
3.根据权利要求1所述的方法,其特征在于步骤(2)中过滤图像关键点,其具体步骤如下:
(31)统计每一个初始关键点在预定义3×3像素滑窗内周围的关键点数量;
(32)针对每个图像统计初始关键点阈值:图像初始关键点数量小于等于70时,定义阈值为1;图像初始关键点数量大于70且小于等于450时,定义阈值为3;图像初始关键点数量大于450且小于等于950时,定义阈值为4;图像初始关键点数量大于950时,定义阈值为5;
(33)每一个初始关键点周围的关键点数量大于等于阈值判断为1,表示保留该点;否则判断为0,表示移除该点。
4.根据权利要求1所述的方法,其特征在于步骤(3)中,以初始关键点为中心,扩展为7×7像素的黑色矩形框,并对图像中该区域进行分割,具体步骤如下:
(41)从原图像的中间列向左统计图像每一列中关键点扩展区域的黑色像素数量,并计算相邻两列扩展区域像素点数量差,若差异大于阈值50,则选定该列为兴趣区域左侧边界;
(42)从原图像的中间列向右统计图像每一列中关键点扩展区域的黑色像素数量,并计算相邻两列扩展区域像素点数量差,若差异大于阈值50,则选定该列为兴趣区域右侧边界。
5.根据权利要求1所述的方法,其特征在于步骤(4)中,通过将图像兴趣区域部分输入VGG16卷积神经网络,提取最后全连接层的特征。
6.根据权利要求1所述的方法,其特征在于步骤(5)中对图像特征和文本词袋模型特征进行典型相关分析计算,其具体步骤如下:
(51)通过词袋模型计算文本特征向量;
(52)通过对图像特征和文本特征的典型相关分析计算将两者映射到同一特征空间。
7.根据权利要求1所述的方法,其特征在于步骤(6)中,将图像特征和基于兴趣区域的引导信息输入gLSTM中生成图像描述语句。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910005249.4A CN109740599B (zh) | 2019-01-03 | 2019-01-03 | 一种基于视觉增强gLSTM的图像描述生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910005249.4A CN109740599B (zh) | 2019-01-03 | 2019-01-03 | 一种基于视觉增强gLSTM的图像描述生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109740599A true CN109740599A (zh) | 2019-05-10 |
CN109740599B CN109740599B (zh) | 2024-05-14 |
Family
ID=66363383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910005249.4A Active CN109740599B (zh) | 2019-01-03 | 2019-01-03 | 一种基于视觉增强gLSTM的图像描述生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109740599B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102034107A (zh) * | 2010-12-02 | 2011-04-27 | 西安电子科技大学 | 基于鲁棒视觉注意特征与稀疏表示的不良图像判别方法 |
US20110222774A1 (en) * | 2010-03-11 | 2011-09-15 | Qualcomm Incorporated | Image feature detection based on application of multiple feature detectors |
WO2011161084A2 (en) * | 2010-06-25 | 2011-12-29 | Telefonica, S.A. | Method and system for fast and robust identification of specific products in images |
CN104077419A (zh) * | 2014-07-18 | 2014-10-01 | 合肥工业大学 | 结合语义与视觉信息的长查询图像检索重排序算法 |
CN106407327A (zh) * | 2016-08-31 | 2017-02-15 | 广州精点计算机科技有限公司 | 一种基于hog和视觉词袋的相似图像搜索方法和装置 |
WO2018090011A1 (en) * | 2016-11-14 | 2018-05-17 | Kodak Alaris Inc. | System and method of character recognition using fully convolutional neural networks |
CN108364006A (zh) * | 2018-01-17 | 2018-08-03 | 超凡影像科技股份有限公司 | 基于多模式深度学习的医学图像分类装置及其构建方法 |
-
2019
- 2019-01-03 CN CN201910005249.4A patent/CN109740599B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110222774A1 (en) * | 2010-03-11 | 2011-09-15 | Qualcomm Incorporated | Image feature detection based on application of multiple feature detectors |
WO2011161084A2 (en) * | 2010-06-25 | 2011-12-29 | Telefonica, S.A. | Method and system for fast and robust identification of specific products in images |
CN102034107A (zh) * | 2010-12-02 | 2011-04-27 | 西安电子科技大学 | 基于鲁棒视觉注意特征与稀疏表示的不良图像判别方法 |
CN104077419A (zh) * | 2014-07-18 | 2014-10-01 | 合肥工业大学 | 结合语义与视觉信息的长查询图像检索重排序算法 |
CN106407327A (zh) * | 2016-08-31 | 2017-02-15 | 广州精点计算机科技有限公司 | 一种基于hog和视觉词袋的相似图像搜索方法和装置 |
WO2018090011A1 (en) * | 2016-11-14 | 2018-05-17 | Kodak Alaris Inc. | System and method of character recognition using fully convolutional neural networks |
CN108364006A (zh) * | 2018-01-17 | 2018-08-03 | 超凡影像科技股份有限公司 | 基于多模式深度学习的医学图像分类装置及其构建方法 |
Non-Patent Citations (4)
Title |
---|
刘泽宇;马龙龙;吴健;孙乐;: "基于多模态神经网络的图像中文摘要生成方法", 中文信息学报, no. 06 * |
刘畅;周向东;施伯乐;: "图像语义相似性网络的文本描述方法", 计算机应用与软件, no. 01, 15 January 2018 (2018-01-15) * |
程聪;戴朝辉;: "基于视觉注意的图像感兴趣区域分割算法", 郑州轻工业学院学报(自然科学版), no. 02 * |
程聪;戴朝辉;: "基于视觉注意的图像感兴趣区域分割算法", 郑州轻工业学院学报(自然科学版), no. 02, 15 April 2011 (2011-04-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN109740599B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109359559B (zh) | 一种基于动态遮挡样本的行人再识别方法 | |
CN111723693B (zh) | 一种基于小样本学习的人群计数方法 | |
Esmaeili et al. | Fast-at: Fast automatic thumbnail generation using deep neural networks | |
CN111507334B (zh) | 一种基于关键点的实例分割方法 | |
Zhang et al. | A multiscale attention network for remote sensing scene images classification | |
CN113674140B (zh) | 一种物理对抗样本生成方法及*** | |
CN107463920A (zh) | 一种消除局部遮挡物影响的人脸识别方法 | |
CN106570464A (zh) | 一种快速处理人脸遮挡的人脸识别方法及装置 | |
Zeng et al. | An improved object detection method based on deep convolution neural network for smoke detection | |
Wang et al. | Multiscale deep alternative neural network for large-scale video classification | |
CN110969171A (zh) | 基于改进卷积神经网络的图像分类模型、方法及应用 | |
CN107944437B (zh) | 一种基于神经网络和积分图像的人脸定位方法 | |
Lu et al. | License plate detection and recognition using hierarchical feature layers from CNN | |
Zhang et al. | Local–global attentive adaptation for object detection | |
CN107944354A (zh) | 一种基于深度学习的车辆检测方法 | |
CN111612024A (zh) | 特征提取方法、装置、电子设备及计算机可读存储介质 | |
CN111666937A (zh) | 一种图像中的文本识别方法及*** | |
CN108268875A (zh) | 一种基于数据平滑的图像语义自动标注方法及装置 | |
McIntosh et al. | Multi-modal capsule routing for actor and action video segmentation conditioned on natural language queries | |
Zhou et al. | Position-aware relation learning for rgb-thermal salient object detection | |
CN114419406A (zh) | 图像变化检测方法、训练方法、装置和计算机设备 | |
CN104680189A (zh) | 基于改进词袋模型的不良图像检测方法 | |
CN110728214B (zh) | 一种基于尺度匹配的弱小人物目标检测方法 | |
CN106650629A (zh) | 一种基于核稀疏表示的快速遥感目标检测识别方法 | |
Rakowski et al. | Hand shape recognition using very deep convolutional neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |