CN111242229A - 一种基于两阶段信息融合的图像识别方法 - Google Patents

一种基于两阶段信息融合的图像识别方法 Download PDF

Info

Publication number
CN111242229A
CN111242229A CN202010050630.5A CN202010050630A CN111242229A CN 111242229 A CN111242229 A CN 111242229A CN 202010050630 A CN202010050630 A CN 202010050630A CN 111242229 A CN111242229 A CN 111242229A
Authority
CN
China
Prior art keywords
information fusion
channel
stage information
method based
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010050630.5A
Other languages
English (en)
Inventor
谭晓阳
谢烟平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202010050630.5A priority Critical patent/CN111242229A/zh
Publication of CN111242229A publication Critical patent/CN111242229A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于两阶段信息融合的图像识别方法,针对深度神经网络对于输入图像的分布式表示特点,其产生的特征通道中产生大量的噪声通道,提出了两阶段信息融合技术来产生正确的特征描述符,并且配合权重生成网络,产生每个特征通道的权重,来重新定义每个特征通道的重要性,以此来提高图像识别的准确度。采用本发明,噪声特征通道被抑制,使得深度神经网络产生对于输入图片前景更加集中的激活;高效的两阶段信息融合技术,可以有效提取特征中的局部和全局信息,产生正确的特征描述符。

Description

一种基于两阶段信息融合的图像识别方法
技术领域
本发明属于图像识别领域,具体涉及一种基于两阶段信息融合的图像识别方法。
背景技术
卷积神经网络(CNN)是计算机视觉任务的解决方案的核心。自2012年ImageNet大赛CNN取得了令人印象深刻的破纪录成绩以来,CNN已经被学术界和工业界从不同的角度进行了广泛的研究,取得了良好的回报。这些研究成果极大地推动了CNN算法的性能。
除了上述研究思路外,最近出现的一个研究趋势是明确地建立特征响应的空间或通道相关性模型,以增强CNN的表示能力。其中,“挤压激励”(SE)网络通过引入所谓的SE块,在各种深度架构上显示出显著的改进。SE模块重新定义通道权重来进行噪声过滤。具体来说,在每个SE块中,首先执行挤压操作(即全局平均池化),以将输入特征的全局空间信息聚合到信道特征中,然后执行激励模块(即多层感知器)从压缩描述符中产生特定的通道激活,以重新加权每个通道。
尽管取得了显著的成果,但SE模块的一个局限性在于执行全局平均池化的挤压操作。然而,被全局平均池化掩盖的局部信息对于识别不同通道的重要性是至关重要的。如果没有局部信息作为必要的提示,激励模块可能会为一些背景上激活的噪声通道产生高权重。
发明内容
发明目的:本发明提出一种基于两阶段信息融合的图像识别方法,通过两阶段信息融合后,产生正确的通道描述符,来生成正确的通道权重,以此来降低通道的噪声数。
发明内容:本发明所述的一种基于两阶段信息融合的图像识别方法,包括以下步骤:
(1)输入图片,通过卷积神经网络对输入图像提取特征;
(2)对步骤(1)获得的卷积特征进行信息融合,获得通道描述符;
(3)将通道描述符输入到多层感知机,将输出作为通道权重;
(4)将步骤(1)产生的特征和步骤(3)产生的通道权重进行相乘进行通道修正;
(5)将通道修正后的结果再次输入到分类网络中,输出获得图片的类别。
进一步地,所述步骤(1)包括以下步骤:
(11)将图片裁剪到224大小再输入到卷积网络ResNet中;
(12)提取ResNet每一个残差模块输出的卷积特征。
进一步地,所述步骤(2)包括以下步骤:
(21)在基于SPP的两阶段信息融合方法中,将卷积特征进行ROI池化得到三种分辨率的卷积特征,分别是4x4,2x2,1x1;
(22)利用按通道数分组的全连接层将(a)得到的三种分辨率的卷积特征都降到1x1维度;
(23)将(22)得到的三个1x1维度的卷积特征相加得到通道描述符。
进一步地,步骤(2)所述的描述符通过分辨率引导池化获取,具体为在基于RGP的两阶段信息融合方法中,将卷积特征进行非重复的池化。
进一步地,所述步骤(4)通过一个全连接层将每个通道的信息融合。
有益效果:与现有技术相比,本发明的有益效果:提出了新的两阶段信息融合方法,利用了更多的信息线索,帮助激励模块返回更精确的信道权重;通过两阶段信息融合后,产生正确的通道描述符,来生成正确的通道权重,以此来降低通道的噪声数。
附图说明
图1为基于SPP的两阶段信息融合方法流程示意图;
图2为基于RGP的两阶段信息融合方法流程示意图;
图3为SE的缺点图;
图4为基于SPP的两阶段信息融合方法具体实施方式图;
图5为基于RGP的两阶段信息融合方法具体实施方式图;
图6为基于SPP的两阶段信息融合方法效果图;
图7为基于RGP的两阶段信息融合方法效果图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明提出了一种简单而有效的两阶段信息融合方法,图1和图2给出了两阶段信息融合方法流程示意图。包括“描述符提取”,旨在获得一组不同的深度描述符,这些描述符协同地表示输入的全局和局部信息。以及“信息融合”,即将获得的丰富的描述符融合到一个能够返回准确信息的C维通道描述符中。“描述符提取”将丰富的信息融入到通道描述符,这些深度描述符可以协同地表达特征的全局和局部信息。为此,引入了两种不同的策略:1)空间金字塔池化(SPP),它可以对输入进行多尺度表示,并在所有阶段生成固定数量的描述符;2)分辨率引导池化,可以生成阶段感知的描述符。此分辨率导向池化是通过使用最后阶段(conv5)的全局平均池化实现的,并使用此GAP窗口(即7×7)作为固定窗口,对所有早期阶段执行非重叠平均池化。这两种方法都可以生成一组深度描述符,其中包含的信息比GAP生成的更丰富。然而,SE块中的激励模块只具有C维的通道特性,不能直接利用所获得的通道描述符集,如图3所示。为了解决这些问题,我们引入了“信息融合”阶段,将提取的描述符聚合成一个C维通道特征,我们提出了基于通道数分组的全连接层,如图4、图5所示,在获得一组描述符之后,我们首先执行一个通道重塑操作,然后使用一个小的全连接层,将每个通道的信息融合成一维。具体包括以下步骤:
步骤一:输入图片,通过卷积神经网络(CNN)对输入图像提取特征。采用ResNet即可;具体如下:
(1)将图片裁剪到224大小再输入到卷积网络ResNet中。
(2)提取ResNet每一个残差模块输出的卷积特征。
步骤二:对步骤一产生的特征进行信息融合,获得通道描述符;具体如下:
(1)在基于SPP的两阶段信息融合方法中,将卷积特征进行ROI池化得到三种分辨率的卷积特征,分别是4x4,2x2,1x1。
也可以基于RGP的两阶段信息融合方法中,将卷积特征进行非重复池化,即利用窗口大小为7,步长为7的池化层进行池化。
(2)利用按通道数分组的全连接层将(a)得到的三种分辨率的卷积特征都降到1x1维度;
(3)将(2)得到的三个1x1维度的卷积特征相加得到通道描述符。
步骤三:将通道描述符输入到多层感知机,将输出作为通道权重。
步骤四:将步骤一产生的特征和步骤三产生的通道权重进行相乘进行通道修正;
步骤五:将通道修正后的结果输入到分类网络中,输出获得图片的类别。
将我们的方法用于ImageNet分类实验,对比的对象有原始模型、原始模型的SE版本,获得表1结果,以此证实我们的方法的优越性。
表1 ImageNet图像分类实验
Figure BDA0002371033200000041
Figure BDA0002371033200000051
为了证实我们的信息融合方法可以产生正确的通道描述符,我们还进行了可视化实验,如图6和图7所示。图6是基于SPP的两阶段信息融合方法效果图,可以看到对于噪声通道和有用通道,原始的SE模块的挤压操作无法产生正确的GAP挤压值,但是我们提出的方法可以产生正确的SPP信息融合响应值,这帮助了后续的激励操作产生了正确的激励响应(通道权重)。在图7中,我们提出的基于RGP的两阶段信息融合方法的有效性也得到了证实,比如通道号为452的噪声通道和通道号为864的有用通道,在原始SE模型的挤压操作下,其GAP挤压值都是0.019,很难区分其是否是噪声通道,但是在我们的RGP挤压下,可以正确区分它们,并且产生正确的通道权重。

Claims (5)

1.一种基于两阶段信息融合的图像分类方法,其特征在于,包括以下步骤:
(1)输入图片,通过卷积神经网络对输入图像提取特征;
(2)对步骤(1)获得的卷积特征进行信息融合,获得通道描述符;
(3)将通道描述符输入到多层感知机,将输出作为通道权重;
(4)将步骤(1)产生的特征和步骤(3)产生的通道权重进行相乘进行通道修正;
(5)将通道修正后的结果再次输入到分类网络中,输出获得图片的类别。
2.根据权利要求1所述的一种基于两阶段信息融合的图像分类方法,其特征在于,所述步骤(1)包括以下步骤:
(11)将图片裁剪到224大小再输入到卷积网络ResNet中;
(12)提取ResNet每一个残差模块输出的卷积特征。
3.根据权利要求1所述的一种基于两阶段信息融合的图像分类方法,其特征在于,所述步骤(2)包括以下步骤:
(21)在基于SPP的两阶段信息融合方法中,将卷积特征进行ROI池化得到三种分辨率的卷积特征,分别是4x4,2x2,1x1;
(22)利用按通道数分组的全连接层将(a)得到的三种分辨率的卷积特征都降到1x1维度;
(23)将(22)得到的三个1x1维度的卷积特征相加得到通道描述符。
4.根据权利要求1所述的一种基于两阶段信息融合的图像分类方法,其特征在于,步骤(2)所述的描述符通过分辨率引导池化获取,具体为在基于RGP的两阶段信息融合方法中,将卷积特征进行非重复的池化。
5.根据权利要求1所述的一种基于两阶段信息融合的图像分类方法,其特征在于,所述步骤(4)通过一个全连接层将每个通道的信息融合。
CN202010050630.5A 2020-01-17 2020-01-17 一种基于两阶段信息融合的图像识别方法 Pending CN111242229A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010050630.5A CN111242229A (zh) 2020-01-17 2020-01-17 一种基于两阶段信息融合的图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010050630.5A CN111242229A (zh) 2020-01-17 2020-01-17 一种基于两阶段信息融合的图像识别方法

Publications (1)

Publication Number Publication Date
CN111242229A true CN111242229A (zh) 2020-06-05

Family

ID=70874612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010050630.5A Pending CN111242229A (zh) 2020-01-17 2020-01-17 一种基于两阶段信息融合的图像识别方法

Country Status (1)

Country Link
CN (1) CN111242229A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117274761A (zh) * 2023-11-08 2023-12-22 腾讯科技(深圳)有限公司 图像生成方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829506A (zh) * 2019-02-18 2019-05-31 南京旷云科技有限公司 图像处理方法、装置、电子设备和计算机存储介质
CN110674741A (zh) * 2019-09-24 2020-01-10 广西师范大学 一种基于双通道特征融合的机器视觉中手势识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829506A (zh) * 2019-02-18 2019-05-31 南京旷云科技有限公司 图像处理方法、装置、电子设备和计算机存储介质
CN110674741A (zh) * 2019-09-24 2020-01-10 广西师范大学 一种基于双通道特征融合的机器视觉中手势识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117274761A (zh) * 2023-11-08 2023-12-22 腾讯科技(深圳)有限公司 图像生成方法、装置、电子设备和存储介质
CN117274761B (zh) * 2023-11-08 2024-03-12 腾讯科技(深圳)有限公司 图像生成方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN112541503B (zh) 基于上下文注意力机制和信息融合的实时语义分割方法
CN111126379A (zh) 一种目标检测方法与装置
CN110570458A (zh) 一种基于内部裁剪和多层特征信息融合的目标跟踪方法
CN112070649B (zh) 一种去除特定字符串水印的方法及***
CN111612708A (zh) 一种基于对抗生成网络的图像修复方法
CN111242181B (zh) 基于图像语义和细节的rgb-d显著性物体检测器
CN113674374B (zh) 基于生成式对抗网络的中文文本生成图像方法及装置
Naik et al. Video classification using 3D convolutional neural network
CN115223228A (zh) 一种基于混合域注意力机制的面部关键点检测方法
Luo et al. Image steganalysis with convolutional vision transformer
CN111242229A (zh) 一种基于两阶段信息融合的图像识别方法
CN111160240B (zh) 图像对象的识别处理方法、装置及智能设备、存储介质
WO2023071180A1 (zh) 真伪识别方法、装置、电子设备以及存储介质
Wu et al. Review of imaging device identification based on machine learning
CN114821061A (zh) 上下文聚合网络以及基于该网络的图像实时语义分割方法
Sutthiwan et al. Computer graphics classification based on Markov process model and boosting feature selection technique
CN113516148A (zh) 基于人工智能的图像处理方法、装置、设备及存储介质
TWI847016B (zh) 提高偵測隱形眼鏡邊緣缺陷與其他缺陷的電腦實施處理方法
Wu et al. Steganalysis using unsupervised end-to-end CNN fused with residual image
CN117935251A (zh) 一种基于聚合注意力的食品识别方法及***
CN115700829A (zh) 一种面向监控场景中行人目标的轻量化检测方法
CN117993442A (zh) 一种融合局部和全局信息的混合神经网络方法与***
Said et al. Hardware Implementation of a Deep Learning-based Model for Image Quality Assessment
Fan et al. Micro-expression recognition based on spatiotemporal local Gabor binary patterns on three orthogonal planes
Fan et al. Micro-expression recognition based on multiscale convolutional fusion and capsule network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination