CN114821206B - 基于对抗互补特征的多模态图像融合分类方法与*** - Google Patents

基于对抗互补特征的多模态图像融合分类方法与*** Download PDF

Info

Publication number
CN114821206B
CN114821206B CN202210755253.4A CN202210755253A CN114821206B CN 114821206 B CN114821206 B CN 114821206B CN 202210755253 A CN202210755253 A CN 202210755253A CN 114821206 B CN114821206 B CN 114821206B
Authority
CN
China
Prior art keywords
features
image
level
fusion
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210755253.4A
Other languages
English (en)
Other versions
CN114821206A (zh
Inventor
袭肖明
王可崧
聂秀山
尹义龙
张光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jianzhu University
Original Assignee
Shandong Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jianzhu University filed Critical Shandong Jianzhu University
Priority to CN202210755253.4A priority Critical patent/CN114821206B/zh
Publication of CN114821206A publication Critical patent/CN114821206A/zh
Application granted granted Critical
Publication of CN114821206B publication Critical patent/CN114821206B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种基于对抗互补特征的多模态图像融合分类方法与***,属于图像分类技术领域,包括从多个模态中选取待融合的模态,先低层特征提取获取图像关键特征信息向量,判断是否可以进行第一次信道融合以及第一次相似性计算;再进行高层特征提取,并判断是否可以进行第二次信道融合和第二次相似性计算;将从低层和高层特征提取的特征图进行聚类和对比学习,对互补信息进行有效挖掘和融合,增强特征之间的互补性,提高图像融合精度。

Description

基于对抗互补特征的多模态图像融合分类方法与***
技术领域
本公开涉及图像分类技术领域,具体涉及一种基于对抗互补特征的多模态图像融合分类方法与***。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
图像分类是计算机视觉的重要研究方向,在物品识别、人脸识别、视频分析、疾病诊断等众多任务中具有广泛的应用。虽然现有的图像分类方法在大数据的条件下可以取得较好的性能,然而对于某些图像较少的分类任务效果较差。另外,只使用单模态信息具有一定的局限性,例如,在利用多视角图像让分类任务中,单一视角对场景描述并不完全,导致分类性能不佳。
深度学习因为其出色的提取、学习能力已被广泛应用到自然语言、图像处理等领域。然而,在某些多模态分类任务中,数据较少,深度学习容易陷入过拟合。另外,现有的基于深度学习的多模态融合方法在融合时,忽略了互补信息的有效挖掘和融合,限制了融合分类精度的提升。
发明内容
本公开为了解决上述问题,提出了一种基于对抗互补特征的多模态图像融合分类方法与***,采用对比学习的双分支网络结构,引入基于粗粒度密度聚类的原型学习模块学习类别的典型特征,用多聚点表示类别的类中心,使得学习到的典型特征更具泛化性。引入基于对抗学习的信道融合模块,通过挖掘信道中特征的相关性,选择对模型提升大的信道与其他模态进行融合,增强特征之间的互补性。
根据一些实施例的实施方式,本公开采用如下技术方案:
基于对抗互补特征的多模态图像融合分类方法,包括以下步骤:
采集具有多模态的图像数据并进行预处理,从多个模态中选取待融合的模态,将每个模态中的图像数据按组输入至神经网络模型中;
先进行低层特征提取来获取图像关键特征信息向量,然后判断是否可以进行第一次信道融合,同时,将获取的图像关键特征向量进行第一次相似性计算;
再将从低层特征提取出来的特征进行高层特征提取,再一次提取图像关键特征信息向量,判断是否可以进行第二次信道融合,同时将获取的高层图像关键特征信息向量进行第二次相似性计算;
分别将经过低层和高层特征提取的特征图进行聚类和对比学习,并计算分类损失,最后进行图像的预测,得到对应的类别得分,类别得分最大值所对应的类别作为预测结果。
根据一些实施例的一些实施方式,本公开采用如下技术方案:
基于对抗互补特征的多模态图像融合分类***,包括:
数据采集与处理模块,用于采集具有多模态的图像数据并进行预处理;
特征提取模块,用于从多个模态中选取待融合的模态,将每个模态中的图像数据按组输入至神经网络模型中,进行低层特征提取来获取图像关键特征信息向量;以及将在低层特征提取中出来的特征加载输入到另一卷积神经网络中进行卷积运算进行高层特征提取,提取图像的关键特征信息向量,得到图像组的特征图组;
信道融合模块,用于判断是否能够进行第一次信道融合和第二次信道融合,若能,则利用bn层设计影响因子,设定判断的阈值,设计影响因子计算通道对最终预测的影响,当影响因子高于设定的阈值,在不同模态的子网络之间将该信道按照比例和其他模态融合。
模态相似计算模块,用于在进行低层特征和高层特征提取后,将一个场景或者物品的不同模态在浅层特征和高层特征提取获得的特征图组进行一次特征对比,并计算相似度。
计算与预测模块,用于计算均方差损失以及输出相似度得分最大值所在的类别作为图像的预测结果。
与现有技术相比,本公开的有益效果为:
本公开提出一种基于对抗互补特征学习的对比网络的多模态图像融合分类方法与***,与之前数据量少、且仅使用单模态的方法相对比,该方法在图像数据分类方面表现出优异性,一方面,本公开利用对比学习网络结构,引入基于粗粒度密度聚类的原型学习模块学习类别的典型特征,用多聚点表示类别的类中心,解决小样本分布不均衡的问题,另一方面,本公开引入基于对抗学习的信道融合模块,通过挖掘信道中特征的相关性,加强模态之间的信息交互。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开多模态图像融合算法实现图像分类的网络学习流程示意图;
图2为本公开提供的图像分类***模型框架示意图。
具体实施方式:
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例1
本公开提供了一种基于对抗互补特征的多模态图像融合分类方法,由图1所示,包括以下步骤:
步骤1:采集具有多模态的图像数据并进行预处理,从多个模态中选取待融合的模态,将每个模态中的图像数据按组输入至神经网络模型中;
步骤2:先进行低层特征提取来获取图像关键特征信息向量,然后判断是否可以进行第一次信道融合,同时,将获取的图像关键特征向量进行第一次相似性计算;
步骤3:再将从低层特征提取出来的特征进行高层特征提取,再一次提取图像关键特征信息向量,判断是否可以进行第二次信道融合,同时将获取的高层图像关键特征信息向量进行第二次相似性计算;
步骤4:分别将经过低层和高层特征提取的特征图进行聚类和对比学习,并计算分类损失,最后进行图像的预测,得到对应的类别得分,相似度类别得分最大值所对应的类别作为预测结果。
本文采用对比学习的双分支网络结构,引入基于粗粒度密度聚类的原型学习模块学习类别的典型特征,用多聚点表示类别的类中心,使得学习到的典型特征更具泛化性。为了充分融合多模态的互补信息,引入基于对抗学习的信道融合模块,通过挖掘信道中特征的相关性,选择对模型提升大的信道与其他模态进行融合,增强特征之间的互补性。
具体的,首先对多模态图像数据进行采集,然后对其进行预处理,因为数据集中的图像或者图片可能包含与分类任务不相关的外部信息,对图片待分类物品或者场景进行标记,并将标记区域提取出来,对多模态数据集中一个场景或者同一物品的图像组进行相同的数据增强,不同图像组进行不同的数据增强,主要数据增强方法有随机裁剪、水平翻转、垂直翻转、随机旋转、随机多裁剪以及增加高斯噪声等,然后将增强后的图像尺度变换为统一大小。
原始图像中因采集机器或者人工等问题,图像中并不是所有区域都是需要的部分,将需要部分进行框选,将所需要的部分提取出来,并且因为数据来源不同,图像大小可能并不一致,在训练过程中需要用统一的格式将其输入神经网络中,因为利用python中transforms算法对原始数据进行尺度变换,将其变换为所需要大小,本公开中所需的为224*224,由于本公开针对的任务范围是小数据任务,所以对原始数据中成组的图像对进行相同的数据增强,不同图像对进行不同的数据增强。
对数据进行预处理后,要对图像进行特征提取,从多个模态中选取待融合的模态,将每个模态中的图像数据按组输入至神经网络模型中,先进行低层特征提取来获取图像关键特征信息向量,具体的,随机选取一个批次N张图像,任取M个模态,输入N*M张图像,例如,若是一个批次为16张图像,选取2类,则对模型一次输入32张图像。
对图像数据进行处理后,然后根据图像输入批次以及选取模态的多少,将图像组同时加载并输入到自定义的神经网络中进行低层特征提取,经过卷积后提取图像的关键特征信息向量,得到图像组的特征图组。
在低层特征提取之后,判断是否可以进行第一次信道融合,具体的,
利用bn层设计影响因子,bn层是在batch维度做正则化,进行平移和缩放处理,引入了
Figure 387741DEST_PATH_IMAGE001
Figure 544047DEST_PATH_IMAGE002
两个参数,来训练两个参数。设定判断的阈值,用
Figure 311015DEST_PATH_IMAGE003
作为影响因子计算通道对模型的重要程度,
Figure 587276DEST_PATH_IMAGE004
用于衡量偏置。
Figure 24073DEST_PATH_IMAGE005
低于阈值0.3则进行进行归一化处理,接着进行仿射变换:
Figure 464413DEST_PATH_IMAGE006
Figure 379279DEST_PATH_IMAGE007
高于阈值0.3则进行模态间的信道融合:
Figure 837943DEST_PATH_IMAGE008
Figure 445641DEST_PATH_IMAGE009
表示放射变换后的特征;
Figure 373277DEST_PATH_IMAGE010
表示原特征;
Figure 91835DEST_PATH_IMAGE011
表示原特征的方差;
Figure 342687DEST_PATH_IMAGE012
Figure 449184DEST_PATH_IMAGE013
是均值和误差,
Figure 861186DEST_PATH_IMAGE014
衡量信道对模型的影响程度,
Figure 445751DEST_PATH_IMAGE015
是一个小常数避免零除,
Figure 551110DEST_PATH_IMAGE016
Figure 375978DEST_PATH_IMAGE017
分别是两个模态的训练网络,l是模型中的第1层特征图;m代表第m个模态,c代表第c个类别。
当低层特征提取以及信道融合完成之后,再输入到另一神经网络中进行高层特征提取,将在的低层特征提取处理后的特征加载输入到另一神经网络中进行卷积运算进行高层特征提取,提取图像的关键特征信息向量,得到图像组的特征图组,再次判断是否能够进行第二次信道融合,若能,按照第一次信道融合的方式实现本次融合,先预设判断的阈值,若计算的影响因子高于设定的阈值,则进行第二次信道融合,得到最终融合后的特征图组。
在步骤2中,在进行低层特征提取之后,进行第一次信道融合之后,对一个场景或者物品的不同模态在低层特征融合获得的特征图组进行第一次相似性计算,浅层特征提取后的特征要尽量分为不同类别,并要求模型学习的特征提取出不相似的特征;
同样的,在步骤3中,在进行高层特征提取之后,进行第二次信道融合之后,将同一场景或者物体中提取出的模态特征与典型队列中获取的特征进行一次特征对比,用分类器计算模态之间的相似度,将一个场景或者物品的不同模态在高层特征提取获得的特征图组进行第二次相似性计算,高层特征提取后的特征尽量分为同一类别,要求模型学习的特征提取出相似的特征。
我们针对以上获得的融合特征图以及分类,要对其进行分类损失,获得分类的预测结果,对其进行对比学习,具体的,
原始图像在经过低层特征、高层特征提取和第一次和第二次信道融合之后,得到融合后的特征图,记为
Figure 137260DEST_PATH_IMAGE018
Figure 587833DEST_PATH_IMAGE019
...
Figure 750961DEST_PATH_IMAGE020
,将
Figure 746730DEST_PATH_IMAGE021
Figure 995309DEST_PATH_IMAGE022
...
Figure 983994DEST_PATH_IMAGE023
这获取的特征图与典型队列中的特征进行对比,为计算分类损失;Xi表示第i个样本的底层特征,Xj表示第j个样本的底层特征
上述的典型队列的获取过程为:在低层特征、高层特征提取以及两次信道融合之后,将将batch_size中相同类别的特征进行粗粒度密度聚类,将每个特征看作一个独立的类别,计算两两之间的距离,当最小距离低于阈值的特征合并为一类,重新计算新类与所有类的距离,直至两两之间的最小距离高于阈值,将现存的类进行密度聚类,将特征保存在典型队列中,训练过程中不断生成新的典型特征,更新典型队列。
定义经过低层特征提取和高层特征提取后衡量模态相似度的损失函数分别为
Figure 1628DEST_PATH_IMAGE024
Figure 433878DEST_PATH_IMAGE025
Figure 966490DEST_PATH_IMAGE026
的计算公式为:
Figure 634232DEST_PATH_IMAGE027
Figure 631007DEST_PATH_IMAGE028
是N分类器预测的模态i第j张图像的类别,N*M是输入图像的数量。N分类器可以将输入图像区分为N个类别;I是第i个模态,j是第j幅图像。
计算均方差损失,计算预测数据和真实数据之间的欧式距离。预测值和真实值越接近,两者的均方差就越小。其得分最大值所对应类别为预测类别。将现在输出的预测结果与历史加权输出的预测结果做均方差损失计算,公式为:
Figure 358791DEST_PATH_IMAGE029
y是预测出来的图像类别,y是真实的图像类别,N*M是输入图像的数量。
在小样本网络中用均方差损失和两个模态相似损失
Figure 454399DEST_PATH_IMAGE030
Figure 394673DEST_PATH_IMAGE031
作为总损失函数:
Figure 511534DEST_PATH_IMAGE032
Figure 410220DEST_PATH_IMAGE033
Figure 730474DEST_PATH_IMAGE034
是超参数,用来平衡两个模态相似性损失的重要程度;利用上述公式重复进行反向传播训练,直至达到设定的训练轮次,保存其损失函数最小或者验证集效果最好的结果,利用训练好的网络模型进行预测,得到对应的类别得分,类别得分最大值所对应类别即为预测结果。
实施例2
本公开提供了一种基于对抗互补特征的多模态图像融合分类***,包括:
数据采集与处理模块,用于采集具有多模态的图像数据并进行预处理;
特征提取模块,用于从多个模态中选取待融合的模态,将每个模态中的图像数据按组输入至神经网络模型中,进行低层特征提取来获取图像关键特征信息向量;以及将在低层特征提取中出来的特征加载输入到另一卷积神经网络中进行卷积运算进行高层特征提取,提取图像的关键特征信息向量,得到图像组的特征图组;
信道融合模块,用于判断是否能够进行第一次信道融合和第二次信道融合,若能,则利用bn层设计影响因子,设定判断的阈值,设计影响因子计算通道对最终预测的影响,当影响因子高于设定的阈值,在不同模态的子网络之间将该信道按照比例和其他模态融合,增强特征之间的互补性。
模态相似计算模块,用于在进行低层特征和高层特征提取后,将一个场景或者物品的不同模态在浅层特征和高层特征提取获得的特征图组进行两次模态间对比,并计算相似度。
计算与预测模块,用于计算均方差损失以及输出相似度得分最大值所在的类别作为图像的预测结果。
如图2的图像分类***模型框架所示,图2中所对应的虚线框内***为主要执行分类功能的***模块,其中利用自定义的神经网络以及信道融合模块,模态相似计算模块,利用模型的训练,确定了合适的网络参数,最后进行预测阶段得到需要的结果。
用户输入待测试图像数据进入分类***,分类***内部自动进行特征向量提取、信道融合模块、模态相似模块、对比学习和计算预测类别五个过程,最后输出预测类别与用户进行交互。
本领域内的技术人员应明白,本公开的实施例可提供为方法、***、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (8)

1.基于对抗互补特征的多模态图像融合分类方法,其特征在于,训练步骤包括:
采集具有多模态的图像数据并进行预处理,从多个模态中选取待融合的模态,将每个模态中的图像数据按组输入至神经网络模型中;
先进行低层特征提取来获取图像关键特征信息向量,然后判断是否可以进行第一次信道融合,同时,将获取的图像关键特征向量进行第一次相似性计算;在低层特征提取之后,判读是否可以进行第一次信道融合,具体为:利用bn层设计影响因子,设定判断的阈值,设计影响因子计算通道对最终预测的影响,当影响因子高于设定的阈值,在不同模态的子网络之间将该信道按照比例和其他模态融合;
再将从低层特征提取出来的特征进行高层特征提取,再一次提取图像关键特征信息向量,判断是否可以进行第二次信道融合,同时将获取的高层图像关键特征信息向量进行第二次相似性计算;
分别将经过低层和高层特征提取的特征图进行聚类和对比学习,并计算分类损失,最后进行图像的预测,得到对应的类别得分,类别得分最大值所对应的类别作为预测结果;将每batch_size中的原始图像,通过浅层和高层特征提取和信道融合得到特征,按照类别进行粗粒度密度聚类,在一个类别中,划分出粒度相对较粗的类别,将这些类别进行密度聚类,并将其存储到典型队列中,随着训练过程不断更新典型队列;原始图像在经过浅层特征、高层特征提取和两次信道融合模块后,得到的特征图记为
Figure 917329DEST_PATH_IMAGE001
Figure 882486DEST_PATH_IMAGE002
,将
Figure 948531DEST_PATH_IMAGE003
Figure 530822DEST_PATH_IMAGE004
和典型队列中的特征分别串联,计算分类损失。
2.如权利要求1所述的基于对抗互补特征的多模态图像融合分类方法,其特征在于,所述图像数据的预处理过程为:对采集的数据集中的图像数据进行标记,去除与分类任务不相关的外部信息,对图像待分类物品以及场景进行标记,将标记区域提取出来,对多模态数据集中一个场景或者同一物品的图像组进行相同的数据增强,不同图像组进行不同的数据增强,然后将增强后的图像尺度变换为统一大小。
3.如权利要求2所述的基于对抗互补特征的多模态图像融合分类方法,其特征在于,所述数据增强包括随机裁剪、水平翻转、垂直翻转、随机旋转、随机多裁剪、增加高斯噪声。
4.如权利要求1所述的基于对抗互补特征的多模态图像融合分类方法,其特征在于,随机选取一个批次N张图像,任取M个模态,输入N*M张图像;根据图像输入批次以及选取模态的多少,将图像组同时加载并输入到神经网络中进行低层特征提取,经过卷积后提取图像的关键特征信息向量,得到图像组的特征图组。
5.如权利要求1所述的基于对抗互补特征的多模态图像融合分类方法,其特征在于,所述影响因子为
Figure 800261DEST_PATH_IMAGE005
其中,
Figure 493410DEST_PATH_IMAGE006
表示仿射变换后的特征;
Figure 148382DEST_PATH_IMAGE007
表示原特征;
Figure 901575DEST_PATH_IMAGE008
表示原特征的方差;
Figure 658309DEST_PATH_IMAGE009
Figure 155150DEST_PATH_IMAGE010
是均值和误差,
Figure 930208DEST_PATH_IMAGE011
是一个小常数避免零除,
Figure 588722DEST_PATH_IMAGE012
Figure 754124DEST_PATH_IMAGE013
分别是两个模态的训练网络,l是模型中的第1层特征图;m代表第m个模态,c代表第c个类别;
Figure 664443DEST_PATH_IMAGE014
用于衡量信道对模型的影响程度,若影响程度高于阈值进行模态间的信道融合,获取融合后的特征;
Figure 434952DEST_PATH_IMAGE015
用于衡量偏置。
6.如权利要求1所述的基于对抗互补特征的多模态图像融合分类方法,其特征在于,再将在低层特征提取中出来的特征加载输入到另一卷积神经网络中进行卷积运算进行高层特征提取,提取图像的关键特征信息向量,得到图像组的特征图组,再次判断是否能够进行第二次信道融合,若能,则进行第二次信道融合,得到最终融合后的特征图组。
7.如权利要求1所述的基于对抗互补特征的多模态图像融合分类方法,其特征在于,同时在进行低层特征和高层特征提取后,将一个场景或者物品的不同模态在浅层特征和高层特征提取获得的特征图组进行一次模态特征对比,用分类器计算模态之间的相似度,低层特征提取后的特征为不相似特征,高层特征提取后的特征为相似特征。
8.基于对抗互补特征的多模态图像融合分类***,其特征在于,包括:
数据采集与处理模块,用于采集具有多模态的图像数据并进行预处理;
特征提取模块,用于从多个模态中选取待融合的模态,将每个模态中的图像数据按组输入至神经网络模型中,进行低层特征提取来获取图像关键特征信息向量;以及将在低层特征提取中出来的特征加载输入到另一卷积神经网络中进行卷积运算进行高层特征提取,提取图像的关键特征信息向量,得到图像组的特征图组;
信道融合模块,用于判断是否能够进行第一次信道融合和第二次信道融合,若能,则利用bn层设计影响因子,设定判断的阈值,设计影响因子计算通道对最终预测的影响,当影响因子高于设定的阈值,在不同模态的子网络之间将该信道按照比例和其他模态融合;
模态相似计算模块,用于在进行低层特征和高层特征提取后,将一个场景或者物品的不同模态在浅层特征和高层特征提取获得的特征图组进行一次特征对比,并计算相似度;
计算与预测模块,用于计算均方差损失以及输出相似度得分最大值所在的类别作为图像的预测结果;将每batch_size中的原始图像,通过浅层和高层特征提取和信道融合得到特征,按照类别进行粗粒度密度聚类,在一个类别中,划分出粒度相对较粗的类别,将这些类别进行密度聚类,并将其存储到典型队列中,随着训练过程不断更新典型队列;原始图像在经过浅层特征、高层特征提取和两次信道融合模块后,得到的特征图记为
Figure 123423DEST_PATH_IMAGE016
Figure 979383DEST_PATH_IMAGE017
,将
Figure 690463DEST_PATH_IMAGE018
Figure 49900DEST_PATH_IMAGE019
和典型队列中的特征分别串联,计算分类损失。
CN202210755253.4A 2022-06-30 2022-06-30 基于对抗互补特征的多模态图像融合分类方法与*** Active CN114821206B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210755253.4A CN114821206B (zh) 2022-06-30 2022-06-30 基于对抗互补特征的多模态图像融合分类方法与***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210755253.4A CN114821206B (zh) 2022-06-30 2022-06-30 基于对抗互补特征的多模态图像融合分类方法与***

Publications (2)

Publication Number Publication Date
CN114821206A CN114821206A (zh) 2022-07-29
CN114821206B true CN114821206B (zh) 2022-09-13

Family

ID=82523286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210755253.4A Active CN114821206B (zh) 2022-06-30 2022-06-30 基于对抗互补特征的多模态图像融合分类方法与***

Country Status (1)

Country Link
CN (1) CN114821206B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106504255A (zh) * 2016-11-02 2017-03-15 南京大学 一种基于多标签多示例学习的多目标图像联合分割方法
CN109460707A (zh) * 2018-10-08 2019-03-12 华南理工大学 一种基于深度神经网络的多模态动作识别方法
CN112215262A (zh) * 2020-09-21 2021-01-12 清华大学 基于自监督对比学习的图像深度聚类方法及***
WO2021022752A1 (zh) * 2019-08-07 2021-02-11 深圳先进技术研究院 一种多模态三维医学影像融合方法、***及电子设备
CN112836734A (zh) * 2021-01-27 2021-05-25 深圳市华汉伟业科技有限公司 一种异源数据融合方法及装置、存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106504255A (zh) * 2016-11-02 2017-03-15 南京大学 一种基于多标签多示例学习的多目标图像联合分割方法
CN109460707A (zh) * 2018-10-08 2019-03-12 华南理工大学 一种基于深度神经网络的多模态动作识别方法
WO2021022752A1 (zh) * 2019-08-07 2021-02-11 深圳先进技术研究院 一种多模态三维医学影像融合方法、***及电子设备
CN112215262A (zh) * 2020-09-21 2021-01-12 清华大学 基于自监督对比学习的图像深度聚类方法及***
CN112836734A (zh) * 2021-01-27 2021-05-25 深圳市华汉伟业科技有限公司 一种异源数据融合方法及装置、存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CLMLF:A Contrastive Learning and Multi-Layer Fusion Method for Multimodal Sentiment Detection;Zhen Li等;《arXiv》;20220414;第1-13页 *
ClusterSCL: Cluster-Aware Supervised Contrastive Learning on Graphs;Yanling Wang等;《In Proceedings of the ACM Web》;20220425;第1-10页 *
Unsupervised Learning of Visual Features by Contrasting Cluster Assignments;Mathilde Caron等;《arXiv》;20210108;第1-23页 *
基于层次化双重注意力网络的乳腺多模态图像分类;杨霄等;《山东大学学报(工学版)》;20220601;第52卷(第3期);第34-41页 *
非均匀类簇密度聚类的多粒度自学习算法;曾华等;《***工程与电子技术》;20100815(第08期);第210-215页 *

Also Published As

Publication number Publication date
CN114821206A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN109934293B (zh) 图像识别方法、装置、介质及混淆感知卷积神经网络
CN108564129B (zh) 一种基于生成对抗网络的轨迹数据分类方法
US10719780B2 (en) Efficient machine learning method
Ibrahim et al. Cluster representation of the structural description of images for effective classification
US20190228268A1 (en) Method and system for cell image segmentation using multi-stage convolutional neural networks
CN111832608B (zh) 一种基于单阶段检测模型yolov3的铁谱图像多磨粒识别方法
CN110929848B (zh) 基于多挑战感知学习模型的训练、跟踪方法
CN106372624B (zh) 人脸识别方法及***
CN108595558B (zh) 一种数据均衡策略和多特征融合的图像标注方法
CN110674685B (zh) 一种基于边缘信息增强的人体解析分割模型及方法
Lomio et al. Classification of building information model (BIM) structures with deep learning
CN111325237B (zh) 一种基于注意力交互机制的图像识别方法
CN112418320B (zh) 一种企业关联关系识别方法、装置及存储介质
CN115578248B (zh) 一种基于风格引导的泛化增强图像分类算法
CN110147841A (zh) 基于弱监督及无监督部件检测和分割的细粒度分类方法
CN105809113A (zh) 三维人脸识别方法及应用其的数据处理装置
CN114863464A (zh) 一种pid图纸图件信息的二阶识别方法
CN114627424A (zh) 一种基于视角转化的步态识别方法和***
CN117152746B (zh) 一种基于yolov5网络的宫颈细胞分类参数获取方法
AFFES et al. Comparison of YOLOV5, YOLOV6, YOLOV7 and YOLOV8 for Intelligent Video Surveillance.
CN106980878B (zh) 三维模型几何风格的确定方法及装置
CN116645562A (zh) 一种细粒度伪造图像的检测方法及其模型训练方法
CN114821206B (zh) 基于对抗互补特征的多模态图像融合分类方法与***
CN113887509B (zh) 一种基于图像集合的快速多模态视频人脸识别方法
CN114511745B (zh) 三维点云分类及旋转姿态预测方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant