CN112199375A - 跨模态的数据处理方法、装置、存储介质以及电子装置 - Google Patents
跨模态的数据处理方法、装置、存储介质以及电子装置 Download PDFInfo
- Publication number
- CN112199375A CN112199375A CN202011063096.8A CN202011063096A CN112199375A CN 112199375 A CN112199375 A CN 112199375A CN 202011063096 A CN202011063096 A CN 202011063096A CN 112199375 A CN112199375 A CN 112199375A
- Authority
- CN
- China
- Prior art keywords
- modality
- data
- target
- network model
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 68
- 238000012545 processing Methods 0.000 claims abstract description 35
- 101150060512 SPATA6 gene Proteins 0.000 claims description 118
- 238000003062 neural network model Methods 0.000 claims description 100
- 238000012549 training Methods 0.000 claims description 86
- 239000013598 vector Substances 0.000 claims description 59
- 238000012360 testing method Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 19
- 238000001514 detection method Methods 0.000 claims description 18
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000005192 partition Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 239000010410 layer Substances 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000006403 short-term memory Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2255—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供了一种跨模态的数据处理方法、装置、存储介质以及电子装置,该方法包括:获取第一模态的查询数据,分别确定第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数,以得到多个目标参数,根据多个目标参数将一个或多个第二模态的检索数据确定为与第一模态的查询数据对应的目标数据,利用对象特征数据作为桥梁,将第一模态和第二模态有效地关联起来,进而可以缓解不同模态之间的语义鸿沟,能够解决相关技术中存在的难以有效地实现跨模态的数据处理,用于进行跨模态数据处理的方法的性能较差的技术问题,达到提高跨模态数据处理的效率,优化跨模态的数据处理性能的技术效果。
Description
技术领域
本发明实施例涉及通信领域,具体而言,涉及一种跨模态的数据处理方法、装置、存储介质以及电子装置。
背景技术
在实际应用中,对象可以用来自不同模态的特征进行描述,例如,在微信之类的社交平台,人们经常使用图片和相应的文字记录所发生的某个事件。跨模态检索旨在使用一个模态中的实例去检索另一个模态中与其语义相似的实例,例如,用图像检索与之相关的文档。随着多媒体技术的发展,多模态数据的数量也迅速增长。在大规模多模态数据集上,如何在不同模态之间完成信息检索是非常具有挑战性的问题。对于这个问题,哈希方法的低存储代价和高检索速度特点使其在跨模态检索领域受到广泛关注。
不同模态的数据分布和数据表示的不一致性,使得在不同模态之间直接进行相似性度量是非常困难的。这种困难亦可称为“模态鸿沟”,它是影响跨模态哈希检索性能的主要障碍。由于“模态鸿沟”的原因,现有跨模态哈希方法的检索性能还远不能满足人们的需求。并且,对于现有的基于浅层结构的跨模态哈希检索方法来说,因为它们大部分都使用手工特征,并且这些特征对不同的跨模态检索任务不具有通用性,因此,它们学习得到的哈希编码的鉴别能力是有限的,进而,这些浅层跨模态哈希检索方法的检索性能不能达到最优。
因此,目前的相关技术中,在进行跨模态的数据处理的过程中,数据处理的效率较低,性能远不能满足用户需求。
针对相关技术中存在的难以高效地实现跨模态的数据处理,用于进行跨模态数据处理的方法的性能较差的技术问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种跨模态的数据处理方法、装置、存储介质以及电子装置,以至少解决相关技术中存在的难以高效地实现跨模态的数据处理,用于进行跨模态数据处理的方法的性能较差的技术问题。
根据本发明的一个实施例,提供了一种跨模态的数据处理方法,包括:
获取第一模态的查询数据;分别确定所述第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数,以得到多个目标参数,其中,所述第二模态的检索数据集合中包含多个所述第二模态的检索数据,所述第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据,所述目标参数用于指示所述第一模态的查询数据与所述第二模态的检索数据的相似性,所述目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型,所述目标神经网络模型包括基于初始注意力模型训练得到第一模态注意力网络模型和第二模态注意力网络模型,以及用于保持第一模态和第二模态间数据一致性的模态一致性模型,所述一组样本对中每个样本对包括样本数据以及对象特征数据,所述对象特征数据为通过图像对象检测方式得到的对象特征数据;根据所述多个目标参数将一个或多个所述第二模态的检索数据确定为与所述第一模态的查询数据对应的目标数据。
可选地,在获取第一模态的查询数据之前,所述方法还包括:获取跨模态数据集,其中,所述跨模态数据集包括训练数据集和测试数据集;使用所述训练数据集训练初始神经网络模型,以得到目标神经网络模型,其中,所述初始神经网络模型包括基于注意力机制构建的初始对象注意力神经网络模型以及初始模态一致性模型所述目标神经网络模型用于为不同模态的数据学习哈希表示方式;将所述测试数据集输入所述目标神经网络模型,得到第一模态数据和第二模态数据的相似度,其中所述相似度用于指示所述第一模态的数据与第二模态的数据之间的相似性;基于所述相似度确定所述初始神经网络模型中的预定参数,以更新所述目标神经网络模型。
可选地,获取跨模态数据集,包括:使用卷积神经网络提取第一模态的特征数据集合;使用长短期记忆神经网络提取第二模态的特征数据集合;将所述第一模态的特征数据集合中的部分特征数据以及所述第二模态的特征数据集合中的部分特征数据确定为所述训练数据集;将所述第一模态的特征数据集合以及所述第二模态的特征数据集合中除所述训练数据集以外的其他特征数据确定为所述测试数据集。
可选地,使用所述训练数据集训练初始神经网络模型,以得到目标神经网络模型,包括:将所述训练数据集中的第一模态的特征数据以及所述对象特征数据输入所述第一模态注意力网络模型进行训练,得到训练完成的第一模态注意力网络模型,并将所述训练数据集中的第二模态的特征数据以及所述对象特征数据输入所述第二模态注意力网络模型进行训练,得到训练完成的第二模态注意力网络模型;将所述训练完成的第一模态注意力网络模型以及所述第二模态注意力网络模型确定为目标对象注意力神经网络模型;使用所述初始模态一致性模型基于所述第一模态的特征数据的语义信息以及所述第二模态的特征数据的语义信息对所述第一模态的特征数据以及所述第二模态的特征数据进行约束,以将所述初始模态一致性模型更新为目标模态一致性模型;将所述目标对象注意力神经网络模型以及所述目标模态一致性模型确定为所述目标神经网络模型。
可选地,将所述训练数据集中的第一模态的特征数据以及所述对象特征数据输入所述第一模态注意力网络模型进行训练,得到训练完成的第一模态注意力网络模型,并将所述训练数据集中的第二模态的特征数据以及所述对象特征数据输入所述第二模态注意力网络模型进行训练,得到训练完成的第二模态注意力网络模型,包括:在所述第一模态的特征数据为图像数据、所述第二模态的特征数据为文本数据的情况下,对所述对象特征数据和所述图像数据使用第一预设函数生成第一目标注意力分布,对所述对象特征数据和所述文本数据使用第二预设函数生成第二目标注意力分布;基于所述第一目标注意力分布确定与所述图像数据对应的第一目标特征向量,以更新所述第一模态注意力网络模型中的第一预设参数,得到训练完成的第一模态注意力网络模型;基于所述第二目标注意力分布确定与所述文本数据对应的第二目标特征向量,以更新所述第二模态注意力网络模型中的第二预设参数,得到训练完成的第二模态注意力网络模型。
可选地,使用所述初始模态一致性模型基于所述第一模态的特征数据的语义信息以及所述第二模态的特征数据的语义信息对所述第一模态的特征数据以及所述第二模态的特征数据进行约束,以将所述初始模态一致性模型更新为目标模态一致性模型,包括:将所述第一目标特征向量进行目标处理,得到汉明空间中的第一哈希编码,并将所述第二目标特征向量进行所述目标处理,得到所述汉明空间中的第二哈希编码;将所述第一哈希编码和所述第二哈希编码输入目标损失函数,以将所述初始模态一致性模型更新为目标模态一致性模型。
可选地,根据所述多个目标参数将一个或多个所述第二模态的检索数据确定为与所述第一模态的查询数据对应的目标数据,包括:确定所述第一模态的查询数据对应的第三哈希编码;查询所述第二模态的检索数据集合中包含多个所述第二模态的检索数据对应的一组哈希编码;计算所述第三哈希编码和所述一组哈希编码中每个哈希编码的汉明距离;将所述汉明距离小于或等于预定阈值的哈希编码所对应的第二模态的检索数据确定为与所述第一模态的查询数据对应的一个或多个所述第二模态的检索数据。
根据本发明的另一个实施例,提供了一种跨模态的数据处理装置,包括:获取模块,用于获取第一模态的查询数据;处理模块,用于分别确定所述第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数,以得到多个目标参数,其中,所述第二模态的检索数据集合中包含多个所述第二模态的检索数据,所述第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据,所述目标参数用于指示所述第一模态的查询数据与所述第二模态的检索数据的相似性,所述目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型,所述目标神经网络模型包括基于初始注意力模型训练得到第一模态注意力网络模型和第二模态注意力网络模型,以及用于保持第一模态和第二模态间数据一致性的模态一致性模型,所述一组样本对中每个样本对包括样本数据以及对象特征数据,所述对象特征数据为通过图像对象检测方式得到的对象特征数据;
确定模块,用于根据所述多个目标参数将一个或多个所述第二模态的检索数据确定为与所述第一模态的查询数据对应的目标数据。
根据本发明的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项方法实施例中的步骤。
通过本发明,采用获取第一模态的查询数据,分别确定第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数,以得到多个目标参数,根据多个目标参数将一个或多个第二模态的检索数据确定为与第一模态的查询数据对应的目标数据,利用对象特征数据作为桥梁,将第一模态和第二模态有效地关联起来,进而可以缓解不同模态之间的语义鸿沟,能够解决相关技术中存在的难以有效地实现跨模态的数据处理,用于进行跨模态数据处理的方法的性能较差的技术问题,达到提高跨模态数据处理的效率,优化跨模态的数据处理性能的技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的跨模态的数据处理方法的移动终端的硬件结构框图;
图2是根据本发明实施例的一种可选的跨模态的数据处理方法的流程示意图;
图3是根据本发明实施例的另一种可选的跨模态的数据处理方法的流程示意图;
图4是根据本发明实施例的一种可选的跨模态的数据处理方法的示意图;
图5是根据本发明实施例的一种可选的跨模态的数据处理装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明的实施例。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种跨模态的数据处理方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的跨模态的数据处理方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于移动终端、计算机终端或者类似的运算装置的跨模态的数据处理方法,图2是根据本发明实施例的一种可选的跨模态的数据处理方法的流程示意图,如图2所示,该流程包括如下步骤:
根据本发明的一个实施例,提供了一种跨模态的数据处理方法,包括:
S202,获取第一模态的查询数据;
S204,分别确定第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数,以得到多个目标参数,其中,第二模态的检索数据集合中包含多个第二模态的检索数据,第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据,目标参数用于指示第一模态的查询数据与第二模态的检索数据的相似性,目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型,目标神经网络模型包括基于初始注意力模型训练得到第一模态注意力网络模型和第二模态注意力网络模型,以及用于保持第一模态和第二模态间数据一致性的模态一致性模型,一组样本对中每个样本对包括样本数据以及对象特征数据,对象特征数据为通过图像对象检测方式得到的对象特征数据;
S206,根据多个目标参数将一个或多个第二模态的检索数据确定为与第一模态的查询数据对应的目标数据。
可选地,在本实施例中,上述第一模态可以包括但不限于图像、文字、语音、视频、动作捕捉等。上述第二模态可以包括但不限于图像、文字、语音、视频、动作捕捉等,上述第一模态和第二模态为不同的模态,例如,上述第一模态为图像,上述第二模态为文字,或者,上述第一模态为拍摄的图像,上述第二模态为动作捕捉后,模拟生成的图像等。
可选地,在本实施例中,上述第一模态的查询数据可以包括但不限于对第一模态获取到的数据进行特征提取后得到的向量,还可以包括但不限于对第一模态获取到的数据进行特征提取后得到的向量所生成的哈希编码。
可选地,在本实施例中,上述第二模态的检索数据可以包括但不限于对第二模态获取到的数据进行特征提取后得到的向量,还可以包括但不限于对第二模态获取到的数据进行特征提取后得到的向量所生成的哈希编码,上述第二模态的检索数据集合是由多个预先确定的第二模态的检索数据所组成的集合。
可选地,在本实施例中,上述目标参数可以包括但不限于上述第一模态的查询数据所对应的哈希编码与上述第二模态的检索数据所对应的哈希编码之间的汉明距离,上述相似性可以包括但不限于通过比较汉明距离的大小来进行表示,上述汉明距离与上述相似性呈负相关,也即,在汉明距离越小的情况下,上述第一模态的查询数据和第二模态的检索数据越相似。
可选地,在本实施例中,上述目标神经网络模型可以包括但不限于一个或多个基于注意力机制配置的神经网络模型、一个或多个卷积神经网络模型、一个或多个模态一致性模型,可以包括但不限于上述的一种或者多种的组合。
可选地,在本实施例中,上述对象特征数据可以包括但不限于通过图像检测算法从图像采集设备采集到的图像中提取出的对象特征数据。
通过本实施例,采用获取第一模态的查询数据,分别确定第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数,以得到多个目标参数,根据多个目标参数将一个或多个第二模态的检索数据确定为与第一模态的查询数据对应的目标数据,利用对象特征数据作为桥梁,将第一模态和第二模态有效地关联起来,进而可以缓解不同模态之间的语义鸿沟,能够解决相关技术中存在的难以有效地实现跨模态的数据处理,用于进行跨模态数据处理的方法的性能较差的技术问题,达到提高跨模态数据处理的效率,优化跨模态的数据处理性能的技术效果。
在一个可选的实施例中,所述方法还包括:在获取第一模态的查询数据之前,获取跨模态数据集,其中,所述跨模态数据集包括训练数据集和测试数据集;使用所述训练数据集训练初始神经网络模型,以得到目标神经网络模型,其中,所述初始神经网络模型包括基于注意力机制构建的初始对象注意力神经网络模型以及初始模态一致性模型所述目标神经网络模型用于为不同模态的数据学习哈希表示方式;将所述测试数据集输入所述目标神经网络模型,得到第一模态数据和第二模态数据的相似度,其中所述相似度用于指示所述第一模态的数据与第二模态的数据之间的相似性;基于所述相似度确定所述初始神经网络模型中的预定参数,以更新所述目标神经网络模型。
可选地,本实施例中,以上述第一模态为图像模态,第二模态为文本模态为例,所述的跨模态数据集包含的媒体类型为图像、文本。对于图像,在网络中使用像素特征作为原始输入特征,并采用基于VGGNet-19的卷积神经网络结构作为特征提取器,本方法同样支持其他用于图像特征提取的卷积神经网络结构;对于文本,使用词嵌入(Word Embedding)向量作为原始输入特征,采用长短期记忆(Long Short-Term Memory,LSTM)神经网络作为特征提取器。
在一个可选的实施例中,获取跨模态数据集,包括:使用卷积神经网络提取第一模态的特征数据集合;使用长短期记忆神经网络提取第二模态的特征数据集合;将所述第一模态的特征数据集合中的部分特征数据以及所述第二模态的特征数据集合中的部分特征数据确定为所述训练数据集;将所述第一模态的特征数据集合以及所述第二模态的特征数据集合中除所述训练数据集以外的其他特征数据确定为所述测试数据集。
可选地,在本实施例中,以上述第一模态为图像模态,第二模态为文本模态为例,可以包括但不限于使用表示n个对象在图像模态的像素特征向量集,其中,vi表示第i个对象在图像模态的像素特征向量。令表示这n个对象在文本模态的特征向量,其中,ti表示第i个对象在文本模态的特征向量。将n个对象的类别标签向量(对应于前述的对象特征数据)表示为其中,c表示对象类别的数量。对于向量yi来说,如果第i个对象属于第k类,则令向量yi的第k个元素为1,否则,令向量yi的第k个元素为0。在使用对象注意力模型后,对于第i个对象,令表示它在图像模态的输出特征,其中,θv为图像模态的未知参数;令表示它在文本模态的输出特征,其中,θt为文本模态的未知参数,特征向量集V和T为训练数据集。
可选地,在本实施例中,使用表示图像模态的一个查询样本的特征向量,文本模态的一个查询样本的特征向量使用进行表示,测试数据集中图像模态样本的特征向量集为测试数据集中文本模态样本的特征向量集为其中,表示测试数据集中样本的数量。
在一个可选的实施例中,使用所述训练数据集训练初始神经网络模型,以得到目标神经网络模型,包括:将所述训练数据集中的第一模态的特征数据以及所述对象特征数据输入所述第一模态注意力网络模型进行训练,得到训练完成的第一模态注意力网络模型,并将所述训练数据集中的第二模态的特征数据以及所述对象特征数据输入所述第二模态注意力网络模型进行训练,得到训练完成的第二模态注意力网络模型;将所述训练完成的第一模态注意力网络模型以及所述第二模态注意力网络模型确定为目标对象注意力神经网络模型;使用所述初始模态一致性模型基于所述第一模态的特征数据的语义信息以及所述第二模态的特征数据的语义信息对所述第一模态的特征数据以及所述第二模态的特征数据进行约束,以将所述初始模态一致性模型更新为目标模态一致性模型;将所述目标对象注意力神经网络模型以及所述目标模态一致性模型确定为所述目标神经网络模型。
可选地,在本实施例中,以上述第一模态为图像模态,第二模态为文本模态为例,上述初始神经网络模型包括但不限于对象注意力网络模型和模态一致性模型。所述的对象注意力网络模型包括:图像注意力网络和文本注意力网络。对象注意力网络模型以目标检测得到的图像对象的特征为纽带,使用图像注意力网络与文本注意力网络,将图像模态和文本模态从高层语义上联系起来,提高哈希表示的检索准确性。模态一致性模型在学习跨模态数据的哈希表示的过程中,使学习到的哈希表示保持原始跨模态数据的模态间和模态内一致性,达到将哈希表示的近邻关系约束在原有的近邻拓扑框架之中,维持不同模态数据的原有语义关系,进而实现检索精度的提升。
需要说明的是,以上述第一模态为图像模态,第二模态为文本模态为例,其中,对象注意力网络模型包括:图像注意力网络和文本注意力网络,且对象注意力网络模型共有三路输入数据:图像模态数据、文本模态数据、目标检测得到的图像对象数据。图像模态数据使用图像注意力网络在接受迁移知识的基础上进行训练处理;文本模态数据使用文本注意力网络进行训练处理。对象注意力网络模型以目标检测得到的图像对象的特征为纽带,使用图像注意力网络与文本注意力网络,将图像模态和文本模态从高层语义上联系起来。
在一个可选的实施例中,将所述训练数据集中的第一模态的特征数据以及所述对象特征数据输入所述第一模态注意力网络模型进行训练,得到训练完成的第一模态注意力网络模型,并将所述训练数据集中的第二模态的特征数据以及所述对象特征数据输入所述第二模态注意力网络模型进行训练,得到训练完成的第二模态注意力网络模型,包括:在所述第一模态的特征数据为图像数据、所述第二模态的特征数据为文本数据的情况下,对所述对象特征数据和所述图像数据使用第一预设函数生成第一目标注意力分布,对所述对象特征数据和所述文本数据使用第二预设函数生成第二目标注意力分布;基于所述第一目标注意力分布确定与所述图像数据对应的第一目标特征向量,以更新所述第一模态注意力网络模型中的第一预设参数,得到训练完成的第一模态注意力网络模型;基于所述第二目标注意力分布确定与所述文本数据对应的第二目标特征向量,以更新所述第二模态注意力网络模型中的第二预设参数,得到训练完成的第二模态注意力网络模型。
可选地,在本实施例中,图像注意力网络将从ImageNet分类任务中学习到的知识迁移到VGGNet-19,并将VGGNet-19最后一个池化层的输出作为图像注意力模型的输入特征,其中R为图像分区的个数。图像注意力模型(对应于前述的第一模态注意力网络模型)将每个对象的特征Om和图像分区特征输入到单层神经网络并使用softmax函数(对应于前述的第一预设函数)生成一个图像在不同图像分区上的注意力分布,即:其中,“;”表示向量的串联。中的元素表示在给定对象特征Om时每个图像分区的注意概率。基于注意力分布与Ij对应的新特征向量为(对应于前述的第一目标特征向量)。
可选地,在本实施例中,文本注意力网络(对应于前述的第二模态注意力网络模型)使用LSTM(长短期记忆)网络提取文本特征并通过使用公式 (对应于前述的第二预设函数)可以得到与Hi对应的新特征向量(对应于前述的第二目标特征向量)。
此外,令表示n个对象在图像模态经过两个全连接层处理后的输出特征,其中θv为图像模态的未知参数(对应于前述的第一预设参数);令表示n个对象在文本模态经过两个全连接层处理后的输出特征,其中θt为文本模态的未知参数(对应于前述的第二预设参数)。
在一个可选的实施例中,使用所述初始模态一致性模型基于所述第一模态的特征数据的语义信息以及所述第二模态的特征数据的语义信息对所述第一模态的特征数据以及所述第二模态的特征数据进行约束,以将所述初始模态一致性模型更新为目标模态一致性模型,包括:将所述第一目标特征向量进行目标处理,得到汉明空间中的第一哈希编码,并将所述第二目标特征向量进行所述目标处理,得到所述汉明空间中的第二哈希编码;将所述第一哈希编码和所述第二哈希编码输入目标损失函数,以将所述初始模态一致性模型更新为目标模态一致性模型。
可选地,在本实施例中,在本实施例中,上述模态一致性模型用于使学习到的哈希表示保持原始跨模态数据的模态间和模态内一致性,达到将哈希表示的近邻关系约束在原有的近邻拓扑框架之中,以维持不同模态数据的原有语义关系。模态一致性保持可以通过优化如下损失函数(对应于前述的目标损失函数)实现:
其中L=D-W,表示对角矩阵D的第i个对角元素,wij为矩阵W第i行第j列上的元素,B=[b1,b2,...,bn]T∈{-1,+1}n×k,trace(·)表示矩阵的迹, 即为上述第一哈希编码,即为上述第二哈希编码。分别为图像模态、文本模态两个数据点之间的马氏距离,分别为图像模态、文本模态两个数据点之间的欧氏距离,λ、β为距离度量平衡因子。当图像模态的第i个数据点与当文本模态的第j个数据点具有相同的语义标签时,使Cij=10,否则使Cij=0。由于本发明方法的网络架构为端到端结构,图像注意力网络、文本注意力网络可以通过反向传播算法进行联合训练。
在一个可选的实施例中,根据所述多个目标参数将一个或多个所述第二模态的检索数据确定为与所述第一模态的查询数据对应的目标数据,包括:确定所述第一模态的查询数据对应的第三哈希编码;查询所述第二模态的检索数据集合中包含多个所述第二模态的检索数据对应的一组哈希编码;计算所述第三哈希编码和所述一组哈希编码中每个哈希编码的汉明距离;将所述汉明距离小于或等于预定阈值的哈希编码所对应的第二模态的检索数据确定为与所述第一模态的查询数据对应的一个或多个所述第二模态的检索数据。
可选地,在本实施例中,由于对象注意力网络模型在(2)中已经训练完毕,基于训练好的模型参数,给定测试数据集中一种模态的查询数据,在网络中进行一次前向传播计算,便可得到其统一的哈希表示。跨模态数据的相似性取决于汉明空间中统一的哈希表示之间的汉明距离。统一的哈希表示之间的汉明距离越小,则相似度越大。在本实施例中,通过计算图像模态数据和文本模态数据的统一的汉明表示之间的汉明距离来反映二者的相似度。
可选地,在本实施例中,将跨模态测试数据集中的一种模态作为查询数据集,另一种模态作为检索数据集,进行跨模态哈希检索,按照查询数据与检索数据的相似度得到最终的检索结果。
下面结合具体的示例,对本发明进行进一步的解释说明:
针对现有技术的不足,本发明提出了一种基于注意力模型的跨模态哈希检索方法,能够将对象注意力模型与模态一致性保持模型统一于一个网络架构中,实现跨模态数据在高层语义层面的有效关联。该方法以目标检测得到的对象特征为纽带,使用图像注意力网络与文本注意力网络,将图像模态和文本模态从高层语义上联系起来,并通过模态一致性模型将哈希表示的近邻关系约束在原有的近邻拓扑框架之中,维持不同模态数据的原有语义关系,使得到的哈希表示更加适合于跨模态检索任务,提高了跨模态哈希检索的准确率。
为达到以上目的,本发明采用的技术方案如下:
一种基于注意力模型的跨模态哈希检索方法,用于在统一的网络架构中学习不同模态数据的统一的哈希表示,从而实现跨模态检索,图3是根据本发明实施例的一种可选的跨模态的数据处理的方法的流程示意图,如图3所示,包括以下步骤:
S302,构建跨模态数据集,同时将跨模态数据集中的数据分为训练数据集和测试数据集;
S304,使用跨模态数据集中的训练数据训练基于注意力模型的跨模态哈希学习模型,用于为不同模态的数据学习统一的哈希表示;
S306,使用训练好的基于注意力模型的跨模态哈希学习模型参数,得到跨模态数据集中测试数据的统一的哈希表示,进而计算跨模态数据的相似度;
S308,将跨模态测试数据集中的一种模态作为查询数据集,另一种模态作为检索数据集,进行跨模态哈希检索,按照查询数据与检索数据的相似度得到最终的检索结果。
进一步,一种基于注意力模型的跨模态哈希检索方法,所述步骤(1)中的跨模态数据集包含两种模态类型,具体为图像模态类型和文本模态类型。
进一步,一种基于注意力模型的跨模态哈希检索方法,所述步骤(2)中基于注意力模型的跨模态哈希学习模型,包括融合于统一网络架构中的对象注意力网络模型和模态一致性模型。所述的对象注意力网络模型包括:图像注意力网络和文本注意力网络。对象注意力网络模型以目标检测得到的图像对象的特征为纽带,使用图像注意力网络与文本注意力网络,将图像模态和文本模态从高层语义上联系起来,提高哈希表示的检索准确性。模态一致性模型在学习跨模态数据的哈希表示的过程中,使学习到的哈希表示保持原始跨模态数据的模态间和模态内一致性,达到将哈希表示的近邻关系约束在原有的近邻拓扑框架之中,维持不同模态数据的原有语义关系,进而实现检索精度的提升。
进一步,一种基于注意力模型的跨模态哈希检索方法,所述步骤(3)中跨模态数据的相似度取决于哈希表示之间的汉明距离,汉明距离越小,则相似度越大。
进一步,一种基于注意力模型的跨模态哈希检索方法,所述步骤(4)中的跨模态哈希检索方式为,从步骤(1)中的测试数据集中任意选择一类模态的数据作为查询样例,按照步骤(3)中的跨模态相似度计算方法,对测试集中另一类模态的所有数据进行相似度计算,然后按照相似度从大到小排序,返回检索结果列表。
本发明的效果在于:与现有方法相比,本方法能够将对象注意力模型与模态一致性保持模型统一于一个网络架构中,实现跨模态数据在高层语义层面的有效关联。在不同模态数据的统一的哈希表示学习过程中,本方法利用注意力模型挖掘多模态数据的语义关联,并利用模态一致性模型保持多模态数据的语义关联,提高了跨模态检索的准确率。
本方法之所以具有上述发明效果,其原因在于:本方法将对象注意力模型与模态一致性保持模型统一于一个网络架构中。其中的注意力模型以目标检测得到的对象特征为纽带,使用图像注意力网络与文本注意力网络,将图像模态和文本模态从高层语义上联系起来。其中的模态一致性模型将哈希表示的近邻关系约束在原有的近邻拓扑框架之中,使不同模态数据的原有语义关系得到维持。上述两个子模型构成的端到端的网络架构,充分挖掘了不同模态数据的语义关联,并充分维持了不同模态数据的原有语义关联,促进了多模态数据统一哈希表示的学习,提高了跨模态检索的准确性。
本发明的一种基于注意力模型的跨模态哈希检索方法,具体可以包括但不限于如下内容:
(1)构建跨模态数据集,同时将跨模态数据集中的数据分为训练数据集和测试数据集。
本实施例中,所述的跨模态数据集包含的媒体类型为图像、文本。对于图像,在网络中使用像素特征作为原始输入特征,并采用基于VGGNet-19的卷积神经网络结构作为特征提取器,本方法同样支持其他用于图像特征提取的卷积神经网络结构;对于文本,使用词嵌入(Word Embedding)向量作为原始输入特征,采用长短期记忆(Long Short-TermMemory,LSTM)神经网络作为特征提取器。
使用表示n个对象在图像模态的像素特征向量集,其中,vi表示第i个对象在图像模态的像素特征向量。令表示这n个对象在文本模态的特征向量,其中,ti表示第i个对象在文本模态的特征向量。将n个对象的类别标签向量表示为其中,c表示对象类别的数量。对于向量yi来说,如果第i个对象属于第k类,则令向量yi的第k个元素为1,否则,令向量yi的第k个元素为0。在使用对象注意力模型后,对于第i个对象,令表示它在图像模态的输出特征,其中,θv为图像模态的未知参数;令表示它在文本模态的输出特征,其中,θt为文本模态的未知参数。特征向量集V和T为训练数据集。使用表示图像模态的一个查询样本的特征向量,文本模态的一个查询样本的特征向量使用进行表示,测试数据集中图像模态样本的特征向量集为测试数据集中文本模态样本的特征向量集为其中,表示测试数据集中样本的数量。
(2)使用跨模态数据集中的训练数据训练基于注意力模型的跨模态哈希学习模型,用于为不同模态的数据学习统一的哈希表示。
该步骤所构建的网络结构如图4所示,本发明的基于注意力模型的跨模态哈希学习模型,包括融合于统一网络架构中的对象注意力网络模型和模态一致性模型。其中对象注意力网络模型包括:图像注意力网络402和文本注意力网络404,且对象注意力网络模型共有三路输入数据:图像模态数据406、文本模态数据408、目标检测得到的图像对象数据410。图像模态数据使用图像注意力网络在接受迁移知识的基础上进行训练处理;文本模态数据使用文本注意力网络进行训练处理。对象注意力网络模型以目标检测得到的图像对象的特征为纽带,使用图像注意力网络与文本注意力网络,将图像模态和文本模态从高层语义上联系起来。
在本实施例中,图像注意力网络把从ImageNet分类任务中学习到的知识迁移到VGGNet-19,并将VGGNet-19最后一个池化层的输出作为图像注意力模型的输入特征,其中R为图像分区的个数。图像注意力模型将每个对象的特征Om和图像分区特征输入到单层神经网络并使用softmax函数生成一个图像在不同图像分区上的注意力分布,即: 其中,“;”表示向量的串联。中的元素表示在给定对象特征Om时每个图像分区的注意概率。基于注意力分布与Ij对应的新特征向量为文本注意力网络使用LSTM(长短期记忆)网络提取文本特征并通过使用公式 可以得到与Hi对应的新特征向量
在本实施例中,模态一致性模型412用于使学习到的哈希表示保持原始跨模态数据的模态间和模态内一致性,达到将哈希表示的近邻关系约束在原有的近邻拓扑框架之中,以维持不同模态数据的原有语义关系。模态一致性保持可以通过优化如下损失函数实现:
其中L=D-W,表示对角矩阵D的第i个对角元素,wij为矩阵W第i行第j列上的元素,B=[b1,b2,...,bn]T∈{-1,+1}n×k,trace(·)表示矩阵的迹, 分别为图像模态、文本模态两个数据点之间的马氏距离,分别为图像模态、文本模态两个数据点之间的欧氏距离,λ、β为距离度量平衡因子。当图像模态的第i个数据点与当文本模态的第j个数据点具有相同的语义标签时,使Cij=10,否则使Cij=0。由于本发明方法的网络架构为端到端结构,图像注意力网络、文本注意力网络可以通过反向传播算法进行联合训练。
(3)使用训练好的基于注意力模型的跨模态哈希学习模型参数,得到跨模态数据集中测试数据的统一的哈希表示,进而计算跨模态数据的相似度。
由于对象注意力网络模型在(2)中已经训练完毕,基于训练好的模型参数,给定测试数据集中一种模态的数据,在网络中进行一次前向传播计算,便可得到其统一的哈希表示。跨模态数据的相似性取决于汉明空间中统一的哈希表示之间的汉明距离。统一的哈希表示之间的汉明距离越小,则相似度越大。在本实施例中,通过计算图像模态数据和文本模态数据的统一的汉明表示之间的汉明距离来反映二者的相似度。
(4)将跨模态测试数据集中的一种模态作为查询数据集,另一种模态作为检索数据集,进行跨模态哈希检索,按照查询数据与检索数据的相似度得到最终的检索结果。
下列实验结果表明,与现有方法相比,本发明基于注意力模型的跨模态哈希检索方法,可以取得更高的检索准确率。
以下结合具体实验对本发明的有益效果进行说明。
本实施例在Pascal VOC 2007数据集上进行实验。Pascal VOC 2007数据集包含来自于20个类别的9963张图像,每幅图像均被标注了标签。数据集被划分成包含5011个图像-标签对的训练集和包含4952个图像-标签对的测试集。图像模态使用原始像素特征作为输入特征。文本模态使用词嵌入向量作为输入特征。实验包括图像检索文本和用文本检索图像两种跨模态检索任务。报告的结果为进行10次随机实验所得结果的平均值。测试了以下3种方法作为实验对比:
现有方法一:文献“Semantic Deep Cross-modal Hashing”(作者Q.Lin,W.Cao,Z.He,and Z.He)中的语义深度跨模态哈希方法,该方法通过构建语义标签分支来提升特征学习部分,使学习得到的特征能够维持语义信息。
现有方法二:文献“Deep Joint-Semantics Reconstructing Hashing forLarge-Scale Unsupervised Cross-Modal Retrieval”(作者S.Su,Z.Zhong,and C.Zhang)中的深度联合语义重构哈希方法,该方法构造的联合语义仿射矩阵可以巧妙地融合来自不同模态的原始近邻信息。
现有方法三:文献“Deep Multiscale Fusion Hashing for Cross-ModalRetrieval”(作者X.Nie,B.Wang,J.Li,F.Hao,M.Jian,and Y.Yin)中的深度多尺度融合哈希方法,该方法首先为两个模态设计不同的网络分支,然后在每个分支网络上采用多尺度融合模型来融合多个尺度的语义,以更好地挖掘语义相关性。
在本实验中,采用信息检索领域常用的MAP(Mean Average Precision)值作为指标来评测跨模态检索的准确性,MAP值越大说明跨模态检索的结果越好。
表1 本发明和现有方法的实验结果展示
从表1可以看出,本发明在图像检索文本、文本检索图像两个任务中,对比现有方法都取得了检索准确率的提高。对比方法一注重使用语义标签使学习得到的特征中维持原有的多模态数据之间的语义关联,对多模态数据之间的高层语义关联挖掘不够充分。对比方法二和方法三注重从不同的层面将不同模态的语义信息融合起来,但是对于维持多模态数据原有的语义关联考虑不够充分。本发明将对象注意力模型与模态一致性保持模型统一于一个端到端的网络架构中。对象注意力网络模型以目标检测得到的图像对象的特征为纽带,使用图像注意力网络与文本注意力网络,将图像模态和文本模态从高层语义上联系起来。模态一致性模型将哈希表示的近邻关系约束在原有的近邻拓扑框架之中,以维持不同模态数据的原有语义关系。上述的对象注意力模型与模态一致性保持模型,充分地在多模态数据间挖掘和维持高层语义信息,促进了多模态数据统一的哈希表示的学习,提高了跨模态检索的准确率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本实施例中还提供了一种跨模态的数据处理装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是根据本发明实施例的一种可选的跨模态的数据处理装置的结构框图,如图5所示,该装置包括:
获取模块502,用于获取第一模态的查询数据;
处理模块504,用于分别确定所述第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数,以得到多个目标参数,其中,所述第二模态的检索数据集合中包含多个所述第二模态的检索数据,所述第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据,所述目标参数用于指示所述第一模态的查询数据与所述第二模态的检索数据的相似性,所述目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型,所述目标神经网络模型包括基于初始注意力模型训练得到第一模态注意力网络模型和第二模态注意力网络模型,以及用于保持第一模态和第二模态间数据一致性的模态一致性模型,所述一组样本对中每个样本对包括样本数据以及对象特征数据,所述对象特征数据为通过图像对象检测方式得到的对象特征数据;
确定模块506,用于根据所述多个目标参数将一个或多个所述第二模态的检索数据确定为与所述第一模态的查询数据对应的目标数据。
在一个可选的实施例中,所述装置还用于:在获取第一模态的查询数据之前,获取跨模态数据集,其中,所述跨模态数据集包括训练数据集和测试数据集;使用所述训练数据集训练初始神经网络模型,以得到目标神经网络模型,其中,所述初始神经网络模型包括基于注意力机制构建的初始对象注意力神经网络模型以及初始模态一致性模型所述目标神经网络模型用于为不同模态的数据学习哈希表示方式;将所述测试数据集输入所述目标神经网络模型,得到第一模态数据和第二模态数据的相似度,其中所述相似度用于指示所述第一模态的数据与第二模态的数据之间的相似性;基于所述相似度确定所述初始神经网络模型中的预定参数,以更新所述目标神经网络模型。
在一个可选的实施例中,所述装置用于通过如下方式获取跨模态数据集:使用卷积神经网络提取第一模态的特征数据集合;使用长短期记忆神经网络提取第二模态的特征数据集合;将所述第一模态的特征数据集合中的部分特征数据以及所述第二模态的特征数据集合中的部分特征数据确定为所述训练数据集;将所述第一模态的特征数据集合以及所述第二模态的特征数据集合中除所述训练数据集以外的其他特征数据确定为所述测试数据集。
在一个可选的实施例中,所述装置用于通过如下方式使用所述训练数据集训练初始神经网络模型,以得到目标神经网络模型:将所述训练数据集中的第一模态的特征数据以及所述对象特征数据输入所述第一模态注意力网络模型进行训练,得到训练完成的第一模态注意力网络模型,并将所述训练数据集中的第二模态的特征数据以及所述对象特征数据输入所述第二模态注意力网络模型进行训练,得到训练完成的第二模态注意力网络模型;将所述训练完成的第一模态注意力网络模型以及所述第二模态注意力网络模型确定为目标对象注意力神经网络模型;使用所述初始模态一致性模型基于所述第一模态的特征数据的语义信息以及所述第二模态的特征数据的语义信息对所述第一模态的特征数据以及所述第二模态的特征数据进行约束,以将所述初始模态一致性模型更新为目标模态一致性模型;将所述目标对象注意力神经网络模型以及所述目标模态一致性模型确定为所述目标神经网络模型。
在一个可选的实施例中,所述装置用于通过如下方式将所述训练数据集中的第一模态的特征数据以及所述对象特征数据输入所述第一模态注意力网络模型进行训练,得到训练完成的第一模态注意力网络模型,并将所述训练数据集中的第二模态的特征数据以及所述对象特征数据输入所述第二模态注意力网络模型进行训练,得到训练完成的第二模态注意力网络模型:在所述第一模态的特征数据为图像数据、所述第二模态的特征数据为文本数据的情况下,对所述对象特征数据和所述图像数据使用第一预设函数生成第一目标注意力分布,对所述对象特征数据和所述文本数据使用第二预设函数生成第二目标注意力分布;基于所述第一目标注意力分布确定与所述图像数据对应的第一目标特征向量,以更新所述第一模态注意力网络模型中的第一预设参数,得到训练完成的第一模态注意力网络模型;基于所述第二目标注意力分布确定与所述文本数据对应的第二目标特征向量,以更新所述第二模态注意力网络模型中的第二预设参数,得到训练完成的第二模态注意力网络模型。
在一个可选的实施例中,所述装置用于通过如下方式使用所述初始模态一致性模型基于所述第一模态的特征数据的语义信息以及所述第二模态的特征数据的语义信息对所述第一模态的特征数据以及所述第二模态的特征数据进行约束,以将所述初始模态一致性模型更新为目标模态一致性模型:将所述第一目标特征向量进行目标处理,得到汉明空间中的第一哈希编码,并将所述第二目标特征向量进行所述目标处理,得到所述汉明空间中的第二哈希编码;将所述第一哈希编码和所述第二哈希编码输入目标损失函数,以将所述初始模态一致性模型更新为目标模态一致性模型。
在一个可选的实施例中,所述装置用于通过如下方式根据所述多个目标参数将一个或多个所述第二模态的检索数据确定为与所述第一模态的查询数据对应的目标数据:确定所述第一模态的查询数据对应的第三哈希编码;查询所述第二模态的检索数据集合中包含多个所述第二模态的检索数据对应的一组哈希编码;计算所述第三哈希编码和所述一组哈希编码中每个哈希编码的汉明距离;将所述汉明距离小于或等于预定阈值的哈希编码所对应的第二模态的检索数据确定为与所述第一模态的查询数据对应的一个或多个所述第二模态的检索数据。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本发明的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在本实施例中,上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取第一模态的查询数据;
S2,分别确定第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数,以得到多个目标参数,其中,第二模态的检索数据集合中包含多个第二模态的检索数据,第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据,目标参数用于指示第一模态的查询数据与第二模态的检索数据的相似性,目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型,目标神经网络模型包括基于初始注意力模型训练得到第一模态注意力网络模型和第二模态注意力网络模型,以及用于保持第一模态和第二模态间数据一致性的模态一致性模型,一组样本对中每个样本对包括样本数据以及对象特征数据,对象特征数据为通过图像对象检测方式得到的对象特征数据;
S3,根据多个目标参数将一个或多个第二模态的检索数据确定为与第一模态的查询数据对应的目标数据。
计算机可读存储介质还被设置为存储用于执行以下步骤的计算机程序:
S1,获取第一模态的查询数据;
S2,分别确定第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数,以得到多个目标参数,其中,第二模态的检索数据集合中包含多个第二模态的检索数据,第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据,目标参数用于指示第一模态的查询数据与第二模态的检索数据的相似性,目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型,目标神经网络模型包括基于初始注意力模型训练得到第一模态注意力网络模型和第二模态注意力网络模型,以及用于保持第一模态和第二模态间数据一致性的模态一致性模型,一组样本对中每个样本对包括样本数据以及对象特征数据,对象特征数据为通过图像对象检测方式得到的对象特征数据;
S3,根据多个目标参数将一个或多个第二模态的检索数据确定为与第一模态的查询数据对应的目标数据。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
在一个示例性实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取第一模态的查询数据;
S2,分别确定第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数,以得到多个目标参数,其中,第二模态的检索数据集合中包含多个第二模态的检索数据,第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据,目标参数用于指示第一模态的查询数据与第二模态的检索数据的相似性,目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型,目标神经网络模型包括基于初始注意力模型训练得到第一模态注意力网络模型和第二模态注意力网络模型,以及用于保持第一模态和第二模态间数据一致性的模态一致性模型,一组样本对中每个样本对包括样本数据以及对象特征数据,对象特征数据为通过图像对象检测方式得到的对象特征数据;
S3,根据多个目标参数将一个或多个第二模态的检索数据确定为与第一模态的查询数据对应的目标数据。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种跨模态的数据处理方法,其特征在于,包括:
获取第一模态的查询数据;
分别确定所述第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数,以得到多个目标参数,其中,所述第二模态的检索数据集合中包含多个所述第二模态的检索数据,所述第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据,所述目标参数用于指示所述第一模态的查询数据与所述第二模态的检索数据的相似性,所述目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型,所述目标神经网络模型包括基于初始注意力模型训练得到第一模态注意力网络模型和第二模态注意力网络模型,以及用于保持第一模态和第二模态间数据一致性的模态一致性模型,所述一组样本对中每个样本对包括样本数据以及对象特征数据,所述对象特征数据为通过图像对象检测方式得到的对象特征数据;
根据所述多个目标参数将一个或多个所述第二模态的检索数据确定为与所述第一模态的查询数据对应的目标数据。
2.根据权利要求1所述的方法,其特征在于,在获取第一模态的查询数据之前,所述方法还包括:
获取跨模态数据集,其中,所述跨模态数据集包括训练数据集和测试数据集;
使用所述训练数据集训练初始神经网络模型,以得到目标神经网络模型,其中,所述初始神经网络模型包括基于注意力机制构建的初始对象注意力神经网络模型以及初始模态一致性模型所述目标神经网络模型用于为不同模态的数据学习哈希表示方式;
将所述测试数据集输入所述目标神经网络模型,得到第一模态数据和第二模态数据的相似度,其中所述相似度用于指示所述第一模态的数据与第二模态的数据之间的相似性;
基于所述相似度确定所述初始神经网络模型中的预定参数,以更新所述目标神经网络模型。
3.根据权利要求2所述的方法,其特征在于,获取跨模态数据集,包括:
使用卷积神经网络提取第一模态的特征数据集合;
使用长短期记忆神经网络提取第二模态的特征数据集合;
将所述第一模态的特征数据集合中的部分特征数据以及所述第二模态的特征数据集合中的部分特征数据确定为所述训练数据集;
将所述第一模态的特征数据集合以及所述第二模态的特征数据集合中除所述训练数据集以外的其他特征数据确定为所述测试数据集。
4.根据权利要求2所述的方法,其特征在于,使用所述训练数据集训练初始神经网络模型,以得到目标神经网络模型,包括:
将所述训练数据集中的第一模态的特征数据以及所述对象特征数据输入所述第一模态注意力网络模型进行训练,得到训练完成的第一模态注意力网络模型,并将所述训练数据集中的第二模态的特征数据以及所述对象特征数据输入所述第二模态注意力网络模型进行训练,得到训练完成的第二模态注意力网络模型;
将所述训练完成的第一模态注意力网络模型以及所述第二模态注意力网络模型确定为目标对象注意力神经网络模型;
使用所述初始模态一致性模型基于所述第一模态的特征数据的语义信息以及所述第二模态的特征数据的语义信息对所述第一模态的特征数据以及所述第二模态的特征数据进行约束,以将所述初始模态一致性模型更新为目标模态一致性模型;
将所述目标对象注意力神经网络模型以及所述目标模态一致性模型确定为所述目标神经网络模型。
5.根据权利要求4所述的方法,其特征在于,将所述训练数据集中的第一模态的特征数据以及所述对象特征数据输入所述第一模态注意力网络模型进行训练,得到训练完成的第一模态注意力网络模型,并将所述训练数据集中的第二模态的特征数据以及所述对象特征数据输入所述第二模态注意力网络模型进行训练,得到训练完成的第二模态注意力网络模型,包括:
在所述第一模态的特征数据为图像数据、所述第二模态的特征数据为文本数据的情况下,对所述对象特征数据和所述图像数据使用第一预设函数生成第一目标注意力分布,对所述对象特征数据和所述文本数据使用第二预设函数生成第二目标注意力分布;
基于所述第一目标注意力分布确定与所述图像数据对应的第一目标特征向量,以更新所述第一模态注意力网络模型中的第一预设参数,得到训练完成的第一模态注意力网络模型;
基于所述第二目标注意力分布确定与所述文本数据对应的第二目标特征向量,以更新所述第二模态注意力网络模型中的第二预设参数,得到训练完成的第二模态注意力网络模型。
6.根据权利要求5所述的方法,其特征在于,使用所述初始模态一致性模型基于所述第一模态的特征数据的语义信息以及所述第二模态的特征数据的语义信息对所述第一模态的特征数据以及所述第二模态的特征数据进行约束,以将所述初始模态一致性模型更新为目标模态一致性模型,包括:
将所述第一目标特征向量进行目标处理,得到汉明空间中的第一哈希编码,并将所述第二目标特征向量进行所述目标处理,得到所述汉明空间中的第二哈希编码;
将所述第一哈希编码和所述第二哈希编码输入目标损失函数,以将所述初始模态一致性模型更新为目标模态一致性模型。
7.根据权利要求1所述的方法,其特征在于,根据所述多个目标参数将一个或多个所述第二模态的检索数据确定为与所述第一模态的查询数据对应的目标数据,包括:
确定所述第一模态的查询数据对应的第三哈希编码;
查询所述第二模态的检索数据集合中包含多个所述第二模态的检索数据对应的一组哈希编码;
计算所述第三哈希编码和所述一组哈希编码中每个哈希编码的汉明距离;
将所述汉明距离小于或等于预定阈值的哈希编码所对应的第二模态的检索数据确定为与所述第一模态的查询数据对应的一个或多个所述第二模态的检索数据。
8.一种跨模态的数据处理装置,其特征在于,包括:
获取模块,用于获取第一模态的查询数据;
处理模块,用于分别确定所述第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数,以得到多个目标参数,其中,所述第二模态的检索数据集合中包含多个所述第二模态的检索数据,所述第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据,所述目标参数用于指示所述第一模态的查询数据与所述第二模态的检索数据的相似性,所述目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型,所述目标神经网络模型包括基于初始注意力模型训练得到第一模态注意力网络模型和第二模态注意力网络模型,以及用于保持第一模态和第二模态间数据一致性的模态一致性模型,所述一组样本对中每个样本对包括样本数据以及对象特征数据,所述对象特征数据为通过图像对象检测方式得到的对象特征数据;
确定模块,用于根据所述多个目标参数将一个或多个所述第二模态的检索数据确定为与所述第一模态的查询数据对应的目标数据。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述权利要求1至7任一项中所述的方法的步骤。
10.一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述权利要求1至7任一项中所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011063096.8A CN112199375B (zh) | 2020-09-30 | 2020-09-30 | 跨模态的数据处理方法、装置、存储介质以及电子装置 |
PCT/CN2021/091215 WO2022068196A1 (zh) | 2020-09-30 | 2021-04-29 | 跨模态的数据处理方法、装置、存储介质以及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011063096.8A CN112199375B (zh) | 2020-09-30 | 2020-09-30 | 跨模态的数据处理方法、装置、存储介质以及电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112199375A true CN112199375A (zh) | 2021-01-08 |
CN112199375B CN112199375B (zh) | 2024-03-01 |
Family
ID=74013562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011063096.8A Active CN112199375B (zh) | 2020-09-30 | 2020-09-30 | 跨模态的数据处理方法、装置、存储介质以及电子装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112199375B (zh) |
WO (1) | WO2022068196A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112817914A (zh) * | 2021-01-21 | 2021-05-18 | 深圳大学 | 基于注意力的深度跨模态哈希检索方法、装置及相关设备 |
CN112925936A (zh) * | 2021-02-22 | 2021-06-08 | 济南大学 | 一种基于深度哈希的运动捕获数据检索方法及*** |
CN113076433A (zh) * | 2021-04-26 | 2021-07-06 | 支付宝(杭州)信息技术有限公司 | 具有多模态信息的检索对象的检索方法和装置 |
WO2022068196A1 (zh) * | 2020-09-30 | 2022-04-07 | 三维通信股份有限公司 | 跨模态的数据处理方法、装置、存储介质以及电子装置 |
CN114625971A (zh) * | 2022-05-12 | 2022-06-14 | 湖南工商大学 | 一种基于用户签到的兴趣点推荐方法及设备 |
WO2023168997A1 (zh) * | 2022-03-07 | 2023-09-14 | 腾讯科技(深圳)有限公司 | 一种跨模态搜索方法及相关设备 |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114840734B (zh) * | 2022-04-29 | 2023-04-25 | 北京百度网讯科技有限公司 | 多模态表示模型的训练方法、跨模态检索方法及装置 |
CN114842312B (zh) * | 2022-05-09 | 2023-02-10 | 深圳市大数据研究院 | 面向不配对跨模态图像分割模型的生成及分割方法、装置 |
CN114691907B (zh) * | 2022-05-31 | 2022-09-16 | 上海蜜度信息技术有限公司 | 一种跨模态检索的方法、设备及介质 |
CN115080699A (zh) * | 2022-07-04 | 2022-09-20 | 福州大学 | 基于模态特异自适应缩放与注意力网络的跨模态检索方法 |
CN115098620B (zh) * | 2022-07-26 | 2024-03-29 | 北方民族大学 | 一种注意力相似度迁移的跨模态哈希检索方法 |
CN115081627B (zh) * | 2022-07-27 | 2022-11-25 | 中南大学 | 一种基于生成式网络的跨模态数据哈希检索攻击方法 |
CN117033720A (zh) * | 2022-09-01 | 2023-11-10 | 腾讯科技(深圳)有限公司 | 模型训练方法、装置、计算机设备和存储介质 |
CN115203442B (zh) * | 2022-09-15 | 2022-12-20 | 中国海洋大学 | 基于联合注意力的跨模态深度哈希检索方法、***及介质 |
CN115861995B (zh) * | 2023-02-08 | 2023-05-23 | 山东海量信息技术研究院 | 一种视觉问答方法、装置及电子设备和存储介质 |
CN115880556B (zh) * | 2023-02-21 | 2023-05-02 | 北京理工大学 | 一种多模态数据融合处理方法、装置、设备及存储介质 |
CN116431788B (zh) * | 2023-04-14 | 2024-03-29 | 中电科大数据研究院有限公司 | 面向跨模态数据的语义检索方法 |
CN116127123B (zh) * | 2023-04-17 | 2023-07-07 | 中国海洋大学 | 基于语义实例关系渐进式海洋遥感图文检索方法 |
CN116881482A (zh) * | 2023-06-27 | 2023-10-13 | 四川九洲视讯科技有限责任公司 | 一种公共安全数据的跨媒体智能感知与分析处理方法 |
CN116578729B (zh) * | 2023-07-13 | 2023-11-28 | 腾讯科技(深圳)有限公司 | 内容搜索方法、装置、电子设备、存储介质和程序产品 |
CN117112852B (zh) * | 2023-10-25 | 2024-02-20 | 卓世科技(海南)有限公司 | 一种大语言模型驱动的向量数据库检索方法及*** |
CN117194605B (zh) * | 2023-11-08 | 2024-01-19 | 中南大学 | 用于多模态医学数据缺失的哈希编码方法、终端及介质 |
CN117392396B (zh) * | 2023-12-08 | 2024-03-05 | 安徽蔚来智驾科技有限公司 | 跨模态目标状态的检测方法、设备、智能设备和介质 |
CN117611845B (zh) * | 2024-01-24 | 2024-04-26 | 浪潮通信信息***有限公司 | 多模态数据的关联识别方法、装置、设备及存储介质 |
CN117688193B (zh) * | 2024-02-01 | 2024-05-31 | 湘江实验室 | 图文统一编码方法、装置、计算机设备及介质 |
CN117994470B (zh) * | 2024-04-07 | 2024-06-07 | 之江实验室 | 一种多模态层次自适应的数字网格重建方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019652A (zh) * | 2019-03-14 | 2019-07-16 | 九江学院 | 一种基于深度学习的跨模态哈希检索方法 |
US20200097604A1 (en) * | 2018-09-21 | 2020-03-26 | Microsoft Technology Licensing, Llc | Stacked cross-modal matching |
CN111639240A (zh) * | 2020-05-14 | 2020-09-08 | 山东大学 | 一种基于注意力感知机制的跨模态哈希检索方法及*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112199375B (zh) * | 2020-09-30 | 2024-03-01 | 三维通信股份有限公司 | 跨模态的数据处理方法、装置、存储介质以及电子装置 |
-
2020
- 2020-09-30 CN CN202011063096.8A patent/CN112199375B/zh active Active
-
2021
- 2021-04-29 WO PCT/CN2021/091215 patent/WO2022068196A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200097604A1 (en) * | 2018-09-21 | 2020-03-26 | Microsoft Technology Licensing, Llc | Stacked cross-modal matching |
CN110019652A (zh) * | 2019-03-14 | 2019-07-16 | 九江学院 | 一种基于深度学习的跨模态哈希检索方法 |
CN111639240A (zh) * | 2020-05-14 | 2020-09-08 | 山东大学 | 一种基于注意力感知机制的跨模态哈希检索方法及*** |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022068196A1 (zh) * | 2020-09-30 | 2022-04-07 | 三维通信股份有限公司 | 跨模态的数据处理方法、装置、存储介质以及电子装置 |
CN112817914A (zh) * | 2021-01-21 | 2021-05-18 | 深圳大学 | 基于注意力的深度跨模态哈希检索方法、装置及相关设备 |
CN112925936A (zh) * | 2021-02-22 | 2021-06-08 | 济南大学 | 一种基于深度哈希的运动捕获数据检索方法及*** |
CN112925936B (zh) * | 2021-02-22 | 2022-08-12 | 济南大学 | 一种基于深度哈希的运动捕获数据检索方法及*** |
CN113076433A (zh) * | 2021-04-26 | 2021-07-06 | 支付宝(杭州)信息技术有限公司 | 具有多模态信息的检索对象的检索方法和装置 |
CN113076433B (zh) * | 2021-04-26 | 2022-05-17 | 支付宝(杭州)信息技术有限公司 | 具有多模态信息的检索对象的检索方法和装置 |
WO2023168997A1 (zh) * | 2022-03-07 | 2023-09-14 | 腾讯科技(深圳)有限公司 | 一种跨模态搜索方法及相关设备 |
CN114625971A (zh) * | 2022-05-12 | 2022-06-14 | 湖南工商大学 | 一种基于用户签到的兴趣点推荐方法及设备 |
CN114625971B (zh) * | 2022-05-12 | 2022-09-09 | 湖南工商大学 | 一种基于用户签到的兴趣点推荐方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2022068196A1 (zh) | 2022-04-07 |
CN112199375B (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112199375B (zh) | 跨模态的数据处理方法、装置、存储介质以及电子装置 | |
CN110866140B (zh) | 图像特征提取模型训练方法、图像搜索方法及计算机设备 | |
CN110968684B (zh) | 一种信息处理方法、装置、设备及存储介质 | |
CN109271539B (zh) | 一种基于深度学习的图像自动标注方法及装置 | |
CN108319888B (zh) | 视频类型的识别方法及装置、计算机终端 | |
CN113392651B (zh) | 训练词权重模型及提取核心词的方法、装置、设备和介质 | |
CN112199462A (zh) | 跨模态的数据处理方法、装置、存储介质以及电子装置 | |
CN113298197B (zh) | 数据聚类方法、装置、设备及可读存储介质 | |
CN111931859B (zh) | 一种多标签图像识别方法和装置 | |
CN114332680A (zh) | 图像处理、视频搜索方法、装置、计算机设备和存储介质 | |
CN113255714A (zh) | 图像聚类方法、装置、电子设备及计算机可读存储介质 | |
CN114996511A (zh) | 一种针对跨模态视频检索模型的训练方法及装置 | |
CN113239290A (zh) | 用于舆情监测的数据分析方法、装置和电子装置 | |
CN110659392B (zh) | 检索方法及装置、存储介质 | |
CN114398973B (zh) | 一种媒体内容标签识别方法、装置、设备及存储介质 | |
CN116109732A (zh) | 图像标注方法、装置、处理设备及存储介质 | |
CN113254687B (zh) | 图像检索、图像量化模型训练方法、装置和存储介质 | |
CN115687676B (zh) | 信息检索方法、终端及计算机可读存储介质 | |
CN115129976B (zh) | 一种资源召回方法、装置、设备及存储介质 | |
CN116796288A (zh) | 一种面向工业文档的多模态信息提炼方法和*** | |
CN114329016B (zh) | 图片标签生成方法和文字配图方法 | |
CN115830342A (zh) | 检测框的确定方法、装置、存储介质及电子装置 | |
CN111062199A (zh) | 一种不良信息识别方法及装置 | |
CN115168609A (zh) | 一种文本匹配方法、装置、计算机设备和存储介质 | |
CN114896980B (zh) | 军事实体链接方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |