CN113887585A - 基于编解码网络的图像-文本多模态融合方法 - Google Patents
基于编解码网络的图像-文本多模态融合方法 Download PDFInfo
- Publication number
- CN113887585A CN113887585A CN202111087906.8A CN202111087906A CN113887585A CN 113887585 A CN113887585 A CN 113887585A CN 202111087906 A CN202111087906 A CN 202111087906A CN 113887585 A CN113887585 A CN 113887585A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- training
- data set
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 14
- 238000001514 detection method Methods 0.000 claims abstract description 13
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 238000012795 verification Methods 0.000 claims abstract description 6
- 238000005457 optimization Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 23
- 238000011176 pooling Methods 0.000 claims description 21
- 239000000284 extract Substances 0.000 claims description 2
- 238000007499 fusion processing Methods 0.000 abstract description 6
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000004927 fusion Effects 0.000 description 4
- 241000283086 Equidae Species 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于编解码网络的图像‑文本多模态融合方法,属于计算机视觉、自然语言处理、模式识别技术领域。该方法包括如下步骤:S1:在现有目标检测数据集的基础上对其进行手动标记生成文本信息,构建新的图像‑文本数据集,并将数据集划分为训练集、验证集和测试集;S2:选择适合的优化学习方法,设置相关超参数,将训练集和验证集通过编解码网络模型进行训练;S3:训练结束后,在测试集中任选一张图片,输入编解码网络模型,加载训练好的模型权重,最终检测出所对应的目标结果。本发明采用图像‑文本融合处理的方法,利用同一个事物的两种不同类型的数据进行融合处理,能够使网络训练时精确度更高,进而识别出相关所需让目标。
Description
技术领域
本发明涉及一种基于编解码网络的图像-文本多模态融合方法,属于计算机视觉、自然语言处理、模式识别技术领域。
背景技术
近年来,随着人工智能技术的快速发展,涌现出了一大批基于深度学习的目标检测算法。目标检测即找出图像中所有感兴趣的物体,包含物体定位和物体分类两个子任务,同时确定物体的类别和位置。目前基于深度学习的目标检测模型主要有YOLO、ResNet、SSD及基于卷积神经网络(CNN)系列模型等等。对于经典的基于深度学习的目标检测算法往往仅通过图像一个维度进行,因此相关领域的学者为了使其获得更高的精度,便对网络进行不断的改进,对于网络的改进往往更多采用改进深度网络的方法来实现,而对于深度网络不断的增加层数可能会导致梯度消失,梯度***等问题。为了解决这些问题,有学者提出了许多改进的网络结构,但此结构会使得网络变得更为复杂。
发明内容
对于上述问题,结合多任务联合处理的思想,本发明提出了一种基于编解码网络的图像-文本多模态融合方法。通过对图像的处理以及图像相对应的文本的处理所获得的特征矩阵进行融合处理,从而能够使得文本信息与图像信息相互融合,获得处理后更准确的结果。
本发明为解决其技术问题采用如下技术方案:
一种基于编解码网络的图像-文本多模态融合方法,包括如下步骤:
S1:在现有目标检测数据集的基础上对其进行手动标记生成文本信息,构建新的图像-文本数据集,并将数据集按照6:2:2的比例划分为训练集、验证集和测试集;
S2:选择适合的优化学习方法,设置相关超参数,将S1中所述的训练集和验证集通过编解码网络模型进行训练;
S3:训练结束后,在测试集中任选一张图片,输入编解码网络模型,加载训练好的模型权重,最终检测出所对应的目标结果。
步骤S2中所述编解码网路模型包括:
编码器,对给定的输入图像特征矩阵的尺度进行剪裁;
注意层,将编码后所获得的图像矩阵进行提取相关主要信息,减弱次要干扰信息;
解码器,将注意层的特征矩阵尺寸扩大至与输入矩阵相同尺寸。
所述编码器和解码器均为四个,每个编码器块包含两个卷积核为3x3的卷积层以及一个卷积核为2x2的最大池化层,每个解码器块包含两个卷积核为3x3的反卷积层和一个卷积核为2x2的最大池化层。
所述注意层由空洞金字塔池化(ASPP)和全局平均池化层(global averagepooling)并行处理。
所述空洞金字塔池化采用的是卷积核为3x3的空洞卷积。
步骤S2所述适合的优化学习方法为随机梯度优化器,所述相关的超参数为学习率、批尺寸、动量和权重衰减系数。
本发明的有益效果如下:
本发明采用图像-文本融合处理的方法,利用同一个事物的两种不同类型的数据进行融合处理,能够使网络训练时精确度更高,进而识别出相关所需让目标。
附图说明
图1为网络结构图。
图2为注意力模块结构图。
图3为训练集示意图,其中(a1)、(a2)、(a3)为图像通道原图;(b1)、(b2)、(b3)为图像标签;(c1)、(c2)、(c3)为图像对应文本信息。
图4为分割预测结果图,其中(a)为飞机分割预测结果图;(b)为摩托车分割预测结果图;(c)为人和马分割预测结果图。
具体实施方式
下面结合附图对本发明创造做进一步详细说明。
本发明提出了一种基于编解码网络的图像-本文多模态融合方法。本发明能够通过对于图像信息以及文本信息的融合处理,获取其特征矩阵。对于文本信息与图像信息的特征矩阵再次通过编解码网络的处理能够使其信息融合,同时为了能够更好的关注到有用的特征信息,在编解码网络的中间加入了注意力机制,通过采用空间金字塔池化以及全局平均池化并行处理。如图1所示为网络的结构图,图2所示为注意力模块示意图。
多模态信息的处理首选需要对与每个模态进行处理获得其特征矩阵,对于图像通道而言,本发明采用的是3D-Resnet网络进行处理,此网络的最终不需要图像进行分类,直接学习获得图像的特征矩阵以及权重比。文本模块采用长短时记忆网络(LSTM),本网络能够较好的学习文本的上下文信息,从而能够准确的理解文本内容。此通道与图像通道相似,最后仅生成特征矩阵以及权重比,并不需要进行分类处理。
获得了图像以及文本的特征信息之后,便需要对其进行跨模态的融合。本发明采用的直接是编解码网络对其进行特征融合,通过文本与图像信息的特征矩阵对其进行卷积编码,从而能够获得较为精确的feature map(特征矩阵),再对其进行反卷积,最终通过分类器的分类能够获得最终的结果。
对于编解码网络中,编码器均采用一个3x3的卷积,每次卷积后都带有Relu的激活函数,两次卷积后进行一次2x2的最大池化。解码器采用3x3的卷积带Relu激活函数,两次卷积后进行一次2x2的上采样反卷积。
本发明的使用方法如下:首先,输入图像与文本,图像通过3D-Resnet网络进行处理,学习获得图像的特征矩阵以及权重比。文本通过长短时记忆网络进行处理,获得文本的特征矩阵以及权重比。
然后图像特征和文本特征通过预训练的编解码网络进行特征融合。融合过程中,通过文本与图像信息的特征矩阵对其进行卷积编码,从而能够获得较为单一精确的feature map(特征矩阵),再对其进行反卷积,最终通过分类器的分类能够获得最终的结果。
其中,为了能够更好的学***均池化的并行处理。空间金字塔池化中采用的是空洞卷积,加大卷积过程的感受野,使得每个卷积输都包含较大范围的信息。最终在通过一个1x1的卷积将通道数降低到预期的数值。在金字塔池化操作的时候,将设计全局平均池化一同并行处理,即在所有的特征图中,累加所有的像素值,再对其取平均。通过空间金字塔池化与全局平均池化后,再使用1x1的卷积对其特征进行处理后所获得特征图中基本滤去不重要的噪声干扰。最后通过加入Sigmod激活函数,获得一个新的特征矩阵,用于扩大感受野以获取高阶信息。
另外,本发明引入了两个损失函数对模型进行约束,分别是binary crossentropy(二元交叉熵)和Dice coefficient函数。
模型的总损失公式为
L=LB+LD
其中:LB为binary cross entrop(二元交叉熵)损失函数,LD为Dice coefficient损失函数,公式分别如下:
本发明在现有目标检测数据集上加入文本信息构成了新的数据集,一共选取了1000个不同的目标检测图片,一共包含了20类:person(人),bird(鸟),cat(猫),cow(奶牛),dog(狗),horse(马),sheep(羊),aeroplane(飞机),bicycle(自行车),boat(船),bus(公共汽车),car(小轿车),motorbike(摩托车),train(火车),bottle(瓶子),chair(椅子),dining table(餐桌),potted plant(盆栽植物),sofa(沙发),tv/monitor(电视)。并且对其进行手动标记且手动生成文本信息。文本信息为一小段短语,主要包含了图片中的相关信息。将数据集按照6:2:2的比例分成训练集、测试集和验证集。
网络模型训练通过随机梯度下降(SGD),对数据集中的训练集进行训练,设置超参数,得到权重矩阵。然后对测试集中的数据进行测试,获得模型的准确度。
图3为训练集示意图。图中为训练集选取的三组数据,(a1)、(a2)、(a3)为图像通道原图;(b1)、(b2)、(b3)为图像标签;(c1)、(c2)、(c3)为图像对应文本信息。
图4为预测分割结果图,图中可以清晰的观察到通过本发明的网络预测后,能够较为准确的识别出图中物体,且框选出来,并且标注物体名称。图(a)是通过网络预测后的结果图,框出了飞机,并标注plane(飞机)。图(b)通过网络预测,框出了摩托车,并标注motorbike(摩托车)。图(c)通过网络预测,检测出人和马,分别框出人和马并标注person(人)和horse(马),可见本发明对多目标的检测分类同样适用。
Claims (6)
1.一种基于编解码网络的图像-文本多模态融合方法,其特征在于,包括如下步骤:
S1:在现有目标检测数据集的基础上对其进行手动标记生成文本信息,构建新的图像-文本数据集,并将数据集按照6:2:2的比例划分为训练集、验证集和测试集;
S2:选择适合的优化学习方法,设置相关超参数,将S1中所述的训练集和验证集通过编解码网络模型进行训练;
S3:训练结束后,在测试集中任选一张图片,输入编解码网络模型,加载训练好的模型权重,最终检测出所对应的目标结果。
2.根据权利要求1所述的基于编解码网络的图像-文本多模态融合方法,其特征在于,步骤S2中所述编解码网路模型包括:
编码器,对给定的输入图像特征矩阵的尺度进行剪裁;
注意层,将编码后所获得的图像矩阵进行提取相关主要信息,减弱次要干扰信息;
解码器,将注意层的特征矩阵尺寸扩大至与输入矩阵相同尺寸。
3.根据权利要求2所述的基于编解码网络的图像-文本多模态融合方法,其特征在于,所述编码器和解码器均为四个,每个编码器块包含两个卷积核为3x3的卷积层以及一个卷积核为2x2的最大池化层,每个解码器块包含两个卷积核为3x3的反卷积层和一个卷积核为2x2的最大池化层。
4.根据权利要求2所述的基于编解码网络的图像-文本多模态融合方法,其特征在于,所述注意层由空洞金字塔池化和全局平均池化层并行处理。
5.根据权利要求4所述的基于编解码网络的图像-文本多模态融合方法,其特征在于,所述空洞金字塔池化采用的是卷积核为3x3的空洞卷积。
6.根据权利要求1所述的基于编解码网络的图像-文本多模态融合方法,其特征在于,步骤S2所述适合的优化学习方法为随机梯度优化器,所述相关的超参数为学习率、批尺寸、动量和权重衰减系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111087906.8A CN113887585A (zh) | 2021-09-16 | 2021-09-16 | 基于编解码网络的图像-文本多模态融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111087906.8A CN113887585A (zh) | 2021-09-16 | 2021-09-16 | 基于编解码网络的图像-文本多模态融合方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113887585A true CN113887585A (zh) | 2022-01-04 |
Family
ID=79009294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111087906.8A Pending CN113887585A (zh) | 2021-09-16 | 2021-09-16 | 基于编解码网络的图像-文本多模态融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113887585A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114847963A (zh) * | 2022-05-06 | 2022-08-05 | 广东工业大学 | 一种高精度的心电图特征点检测方法 |
CN116563707A (zh) * | 2023-05-08 | 2023-08-08 | 中国农业科学院农业信息研究所 | 一种基于图文多模态特征融合的枸杞虫害识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109712108A (zh) * | 2018-11-05 | 2019-05-03 | 杭州电子科技大学 | 一种基于多样鉴别性候选框生成网络的针对视觉定位方法 |
CN112308080A (zh) * | 2020-11-05 | 2021-02-02 | 南强智视(厦门)科技有限公司 | 面向指向性视觉理解和分割的图像描述预测方法 |
CN113362332A (zh) * | 2021-06-08 | 2021-09-07 | 南京信息工程大学 | Oct影像下冠状动脉管腔轮廓的深度网络分割方法 |
-
2021
- 2021-09-16 CN CN202111087906.8A patent/CN113887585A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109712108A (zh) * | 2018-11-05 | 2019-05-03 | 杭州电子科技大学 | 一种基于多样鉴别性候选框生成网络的针对视觉定位方法 |
CN112308080A (zh) * | 2020-11-05 | 2021-02-02 | 南强智视(厦门)科技有限公司 | 面向指向性视觉理解和分割的图像描述预测方法 |
CN113362332A (zh) * | 2021-06-08 | 2021-09-07 | 南京信息工程大学 | Oct影像下冠状动脉管腔轮廓的深度网络分割方法 |
Non-Patent Citations (2)
Title |
---|
CAIYONG WANG ET AL.: ""Joint Iris Segmentation and Localization Using Deep Multi-task Learning Framework"", 《ARXIV》, 19 September 2019 (2019-09-19), pages 1 - 13 * |
YIYI ZHOU ET AL.: ""A Real-time Global Inference Networ k for One-stage Referr ing Expression Comprehension"", ARXIV, 7 December 2019 (2019-12-07), pages 1 - 10 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114847963A (zh) * | 2022-05-06 | 2022-08-05 | 广东工业大学 | 一种高精度的心电图特征点检测方法 |
CN116563707A (zh) * | 2023-05-08 | 2023-08-08 | 中国农业科学院农业信息研究所 | 一种基于图文多模态特征融合的枸杞虫害识别方法 |
CN116563707B (zh) * | 2023-05-08 | 2024-02-27 | 中国农业科学院农业信息研究所 | 一种基于图文多模态特征融合的枸杞虫害识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019101133A4 (en) | Fast vehicle detection using augmented dataset based on RetinaNet | |
CN105184298B (zh) | 一种快速局部约束低秩编码的图像分类方法 | |
CN110309856A (zh) | 图像分类方法、神经网络的训练方法及装置 | |
CN111639240A (zh) | 一种基于注意力感知机制的跨模态哈希检索方法及*** | |
CN109886225A (zh) | 一种基于深度学习的图像手势动作在线检测与识别方法 | |
CN108509978A (zh) | 基于cnn的多级特征融合的多类目标检测方法及模型 | |
CN109670576B (zh) | 一种多尺度视觉关注图像描述方法 | |
KR102167808B1 (ko) | Ar에 적용 가능한 의미적인 분할 방법 및 시스템 | |
CN108197643B (zh) | 一种基于无监督聚类和度量学习的迁移学习方法 | |
CN113887585A (zh) | 基于编解码网络的图像-文本多模态融合方法 | |
Islam et al. | InceptB: a CNN based classification approach for recognizing traditional bengali games | |
CN110717493B (zh) | 一种基于深度学习的含堆叠字符的车牌识别方法 | |
CN116740344A (zh) | 一种基于知识蒸馏的轻量化遥感影像语义分割方法及装置 | |
Du et al. | Research on small size object detection in complex background | |
CN112613428A (zh) | 基于平衡损失的Resnet-3D卷积牛视频目标检测方法 | |
Qin et al. | Research on improved algorithm of object detection based on feature pyramid | |
CN114492634B (zh) | 一种细粒度装备图片分类识别方法及*** | |
CN117152427A (zh) | 基于扩散模型和知识蒸馏的遥感图像语义分割方法与*** | |
CN114170657A (zh) | 融合注意力机制与高阶特征表示的面部情感识别方法 | |
Wu et al. | Dynamic activation and enhanced image contour features for object detection | |
Wu | CNN-Based Recognition of Handwritten Digits in MNIST Database | |
Xiao | exYOLO: A small object detector based on YOLOv3 Object Detector | |
CN112541469B (zh) | 基于自适应分类的人群计数方法及*** | |
CN111461130B (zh) | 一种高精度图像语义分割算法模型及分割方法 | |
CN118172787B (zh) | 一种轻量级文档版面分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |