CN111949806A - 一种基于Resnet-Bert网络模型的跨媒体检索方法 - Google Patents

一种基于Resnet-Bert网络模型的跨媒体检索方法 Download PDF

Info

Publication number
CN111949806A
CN111949806A CN202010767866.0A CN202010767866A CN111949806A CN 111949806 A CN111949806 A CN 111949806A CN 202010767866 A CN202010767866 A CN 202010767866A CN 111949806 A CN111949806 A CN 111949806A
Authority
CN
China
Prior art keywords
data
resnet
bert
network model
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010767866.0A
Other languages
English (en)
Inventor
闫盈盈
张婧慧
洒科进
曹扬
丁剑飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC Big Data Research Institute Co Ltd
Original Assignee
CETC Big Data Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC Big Data Research Institute Co Ltd filed Critical CETC Big Data Research Institute Co Ltd
Priority to CN202010767866.0A priority Critical patent/CN111949806A/zh
Publication of CN111949806A publication Critical patent/CN111949806A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于Resnet‑Bert网络模型的跨媒体检索方法;采用Resnet‑Bert网络模型,对图像数据、文本数据、视频数据和音频数据中的至少一种数据进行分类检索,返回对应的分类结果。本发明与传统的两种媒体类型互相检索相比,四种媒体类型的相互检索更能够实现较为广泛的市场应用;采用了效果较佳的Resnet卷积神经网络模型和目前在11项自然语言处理方面领先的Bert模型,模型本身能够得到更高层、更抽象以及更丰富的特征表达;使用的四种模态数据,信息间相互迁移,关联学习加强,实现了更强的知识表示能力;得益于计算机性能的提升,Resnet‑Bert网络模型经过复杂的计算,能够实现较好的跨媒体训练效果和跨媒体检索效果。

Description

一种基于Resnet-Bert网络模型的跨媒体检索方法
技术领域
本发明涉及一种基于Resnet-Bert网络模型的跨媒体检索方法,属于。
背景技术
大数据时代,多种媒体数据类型,如文本、图像、视频、音频等已经成为了人们获取知识的主要数据形式。越来越多的用户渴望通过多种媒体数据内容及其之间的相互关联关系学习和掌握更为全面的知识信息,辅助自身的认知和问题的解决。
检索是用户获取知识的常用方式之一,传统的跨媒体检索研究主要集中在以文搜图和以图搜文两种媒体数据之间。事实上,随着大数据时代的来临,人们通过互联网会产生大量的文本数据如新闻报道、微博淘宝等评论数据、微信聊天记录、弹幕数据等,图片数据如表情包、文章配图、手机照片、医疗影像等,视频数据如抖音、快手等视频媒体软件数据、城市摄像头数据等,同时伴随着有音频信息,如微信语音、视频配音等信息。在人们信息交流的过程中,上述的四种媒体常常会同时出现且语义具有相关性。但现有跨媒体检索技术都局限于两种媒体数据之间,事实上,这种搜索已经不能够满足人们日益增加的数据检索需求,尤其存在着跨模态检索精度低的问题。
发明内容
为解决上述技术问题,本发明提供了一种基于Resnet-Bert网络模型的跨媒体检索方法,该基于Resnet-Bert网络模型的跨媒体检索方法能在图像、视频、音频以及文本四种媒体类型数据之间建立跨媒体统一表征空间,实现了更高的跨模态检索精度。
本发明通过以下技术方案得以实现。
本发明提供的一种基于Resnet-Bert网络模型的跨媒体检索方法;采用Resnet-Bert网络模型,对图像数据、文本数据、视频数据和音频数据中的至少一种数据进行分类检索,返回对应的分类结果;当对图像数据、文本数据、视频数据和音频数据中至少两种进行分类检索时,进行检索的图像数据、文本数据、视频数据或音频数据语义类别一致;Resnet-Bert网络模型对图像数据、视频数据和音频数据进行分类检索时采用Resnet模型,对文本数据进行分类检索时采用Bert模型。
所述Resnet-Bert网络模型通过图像数据、视频数据、音频数据和文本数据的联合数据训练而成;每一项联合数据中,图像数据、视频数据、音频数据和文本数据的分类标签一致。
所述图像数据、视频数据均通过对源数据进行图像转化、图像裁剪、去中心化、标准化操作后得到。
所述音频数据通过对源数据进行傅里叶变换、图像转化、图像裁剪、去中心化、标准化操作后得到。
所述文本数据通过对源数据进行数据解码、不规范字符检查、移除表情符、去除URL、去中心化、标准化、固定文本长度操作后得到。
所述Resnet-Bert网络模型中,Resnet模型接受图像数据、视频数据和音频数据的输入,Bert模型接受文本数据的输入,Resnet模型和 Bert模型的输出接入至统一表征空间,统一表征空间输出分类结果。
所述Resnet模型为Resnet50卷积神经网络。
所述Bert模型通过多项双层的Transformer编码器构建。
所述统一表征空间为全连接层神经网络。
本发明的有益效果在于:与传统的两种媒体类型互相检索相比,四种媒体类型的相互检索更能够实现较为广泛的市场应用;采用了效果较佳的Resnet卷积神经网络模型和目前在11项自然语言处理方面领先的Bert模型,模型本身能够得到更高层、更抽象以及更丰富的特征表达;使用的四种模态数据,信息间相互迁移,关联学习加强,实现了更强的知识表示能力;得益于计算机性能的提升,Resnet-Bert网络模型经过复杂的计算,能够实现较好的跨媒体训练效果和跨媒体检索效果。
附图说明
图1是本发明中Resnet-Bert网络模型的架构示意图。
具体实施方式
下面进一步描述本发明的技术方案,但要求保护的范围并不局限于所述。
提供高效的跨媒体检索方法满足人们精准且丰富的数据检索需求,提升用户的知识获取效率和检索体验是目前跨媒体检索技术的研究热点。在进行检索时,用户给定一种媒体类型数据,如一张“黄果树瀑布”照片,利用跨媒体检索技术能够自动检索到与“黄果树瀑布”相关的各种媒体类型数据,不仅包括有关“黄果树瀑布”的图像,也包括“黄果树瀑布”的文字描述、视频展示、音频讲解等。显然,由于不同媒体类型数据之间存在语义相关性、互补性,与单一媒体类型相比,能够实现更加准确全面地语义表达,从而帮助用户丰富认知和提升检索体验。
基于上述构思,本发明提供一种基于Resnet-Bert网络模型的跨媒体检索方法;采用如图1所示的Resnet-Bert网络模型,对图像数据、文本数据、视频数据和音频数据中的至少一种数据进行分类检索,返回对应的分类结果;当对图像数据、文本数据、视频数据和音频数据中至少两种进行分类检索时,进行检索的图像数据、文本数据、视频数据或音频数据语义类别一致;Resnet-Bert网络模型对图像数据、视频数据和音频数据进行分类检索时采用Resnet模型,对文本数据进行分类检索时采用Bert模型。
所述Resnet-Bert网络模型通过图像数据、视频数据、音频数据和文本数据的联合数据训练而成;每一项联合数据中,图像数据、视频数据、音频数据和文本数据的分类标签一致。
所述图像数据、视频数据均通过对源数据进行图像转化、图像裁剪、去中心化、标准化操作后得到。
所述音频数据通过对源数据进行傅里叶变换、图像转化、图像裁剪、去中心化、标准化操作后得到。
所述文本数据通过对源数据进行数据解码、不规范字符检查、移除表情符、去除URL、去中心化、标准化、固定文本长度操作后得到。
所述Resnet-Bert网络模型中,Resnet模型接受图像数据、视频数据和音频数据的输入,Bert模型接受文本数据的输入,Resnet模型和 Bert模型的输出接入至统一表征空间,统一表征空间输出分类结果。
所述Resnet模型为Resnet50卷积神经网络。
所述Bert模型通过多项双层的Transformer编码器构建。
所述统一表征空间为全连接层神经网络。
实施例1
采用上述方案,结合现有技术的技术手段,按照如下步骤实现:
步骤1:跨媒体数据采集。通过爬虫、查询、交流等多种方式,本发明获得了主题相关、语义一致且标签相同的跨媒体数据。该数据包括图像、视频、音频、文本四种类型数据,每种媒体类型数据均包括200种鸟类。其中图像数据为CUB-200-2011数据集,共11788幅图片, 5994张训练集和5794张测试集。视频数据采用YouTube Birds数据集,训练集为12666个视频,测试集为5864个视频。文本数据集为4000篇训练集和4000个测试集。音频数据包括6000个训练频谱图和6000个测试频谱图。其中,图像CUB-200-2011数据是通过相关网站下载获得,视频YouTube Birds数据是通过爬虫方式获得。文本和音频数据由北京大学多媒体信息处理研究室(MIPL)实验室提供。图像、音频及文本的数据标签与数据呈现一一对应关系。视频数据的标签与视频数目呈现一一对应关系。
步骤2:跨媒体数据清洗和转换。对采集的跨媒体数据进行数据清洗和转换,形成可用干净的数据。主要包括:
步骤2.1:去除噪声图像和无关图像。由于图像CUB-200-2011数据是标准公开数据集,因此该步骤不做任何处理;
步骤2.2:由于YouTube Birds视频具有时间序列信息,因此需要进一步进行处理。本发明将爬取的12666个训练集视频和5864个视频分别利用python脚本进行分帧实验,每个视频获取50帧,剔除无用帧和质量较低的帧,最终保留每个视频为25个帧,即25幅图像。
步骤2.3、由于音频是具有时间序列信息的数据,因此针对每个音频数据,通过傅里叶变换技术将音频数据转为频谱图,将频谱图作为该音频的结果数据。由于本发明实施例使用的音频数据集是标准数据集,因此该步骤不做任何处理。
步骤2.4、针对每个文本数据,通过python脚本进行数据解码、不规范字符检查、移除表情符、去除URL等文本数据清洗操作,形成规范化的文本内容。由于本发明实施例使用的文本数据集是标准数据集,因此该步骤不做任何处理。
步骤3、跨媒体数据预处理。跨媒体数据的预处理主要包括数据的去中心化、标准化、文本长度统一等内容。
步骤3.1、图像、视频与音频预处理。将数据集中的图像数据、视频数据、音频数据向量化之后,通过pytorch框架中的图像转化、图像裁剪、去中心化、标准化操作,形成固定大小为448*448*3的向量表示。
步骤3.2、文本预处理。将每个文本数据向量化后,设置固定长度为80,然后对向量进行短填长切。
步骤4、网络模型构建。构建Resnet-Bert网络模型,使用Resnet-Bert 网络模型,可以生成符合数据特征的网络模型。
步骤4.1、Resnet网络模型构建。基于Pytorch深度学习框架搭建卷积神经网络Resnet的网络模型。
步骤4.2、Bert网络模型构建。使用Pytorch深度学习框架搭建自然语言处理方法Bert的网络模型。
步骤4.3、Resnet-Bert网络模型训练。加载Reset在ImageNet数据集上的预训练模型,将图像数据、视频数据与音频数据输入到Resnet 中进行训练,得到符合鸟类数据集的Resnet的网络模型参数。加载谷歌提供的Bert预训练模型“uncased_L-12_H-768_A-12”,将文本数据输入到Bert中进行训练,得到符合训练数据的Bert的网络模型参数。具体训练实施,包括如下步骤:
步骤4.3.1、从图像训练集、视频训练集、音频训练集、文本训练集中取出图像、视频、音频、文本数据一个批次的训练样本,一个训练批次的各模态的样本个数为。
步骤4.3.2、将图像、视频、音频训练数据输入到resnet模型,同时将文本训练数据输入到Bert模型中,通过网络模型的前向传播,计算得到图像、视频、音频及文本各条数据的分类特征表示。
步骤4.3.4、利用交叉熵计算四种模态的分类特征表示与四种模态正确的标签向量之间的损失函数,并计算各损失函数之和。损失函数被定义为:
Figure RE-GDA0002671416820000071
其中,l(xk,yk)是交叉熵损失函数。I、V、A以及T分别表示图像、视频、音频以及文本媒体类型。以图像为例,NI表示训练集中图像的总数量,表示模型学习的第k个图像数据的分类特征,表示第k个图像数据的真实标签。为视频分帧后的所有的帧的总数量。
步骤4.3.5、利用损失函数计算网络每个参数的梯度值,利用随机梯度下降(Stochastic Gradient Descent,SGD)方法更新resnet的网络参数。
步骤4.3.6、重复步骤4.3.1、步骤4.3.2、步骤4.3.2、步骤4.3.4、步骤4.3.5,直至Resnet-Bert网络模型收敛。获得符合鸟类数据分布的Resnet的网络模型参数和Bert的网络模型参数。
步骤5、获取鸟类数据集各模态数据的分类特征表示。给定鸟类的所有图像数据、视频数据、音频数据与文本数据集,通过Resnet-Bert 网络模型分别计算出图像数据、视频数据、音频数据和文本数据的分类特征表示向量,针对每个媒体类型数据,建立分类特征矩阵。
步骤6、实现跨媒体检索。假设给定鸟类的“图像数据”作为查询,获取与之相关的其余媒体数据,从而实现检索。
步骤6.1、单一媒体数据分类特征计算。通过Resnet-Bert模型计算该鸟类“图像数据”数据的分类特征表示向量。
步骤6.2、相似度计算。利用余弦距离计算该“图像”媒体数据的分类特征表示与各媒体类型数据分类特征矩阵每一行的相似度。余弦距离的计算公式为:
Figure RE-GDA0002671416820000081
其中,x是检索输入数据的分类特征表示向量,y是各媒体类型数据的分类特征矩阵中的一行,即某个数据的分类特征向量。
步骤6.3、排序。将计算的距离从小到大进行排序,余弦距离越小,相似度越大。选择每种媒体相似度排名前20的数据作为该“图片数据”检索结果。
将Resnet-Bert网络模型的检索结果与现有的Resnet跨媒体检索结果进行对比,评价指标为MAP(Mean Average Precise);MAP是信息检索领域常用的评价检索结果优劣的标准。MAP的计算公式为:
Figure RE-GDA0002671416820000082
其中,M表示任一媒体数据作为查询检索到的结果数量,R表示检索的结果数据量,p(r)表示在第r位数据的准确率,rel(r)表示该媒体数据与第r位数据的结果的相关性。
表1分类检索结果对比表
Figure RE-GDA0002671416820000083
Figure RE-GDA0002671416820000091
分类检索结果如表1所示,image2text表示由图像检索文本, text2image表示由文本检索图像,其余类似。image2all表示由图像检索图像、视频、音频及文本所有媒体数据,其余类似。从表1可以看出,本发明提供的方案(右列的Resnet-Bert项)在鸟类数据集上的检索精度均高于Resnet,可见基于本发明提供的基于Resnet-Bert模型的跨模态检索方法能够更准确的学习到了不同模态间的语义关系,跨模态检索精度更高。
由此,本发明利用卷积神经网络模型Resnet与自然语言处理模型 Bert良好的编码能力,在图像、视频、音频以及文本四种媒体类型数据之间建立跨媒体统一表征空间,通过不同模态间信息的迁移辅助与关联理解,使得模型具有较好的表达能力,实现了更高的跨模态检索精度。

Claims (9)

1.一种基于Resnet-Bert网络模型的跨媒体检索方法,其特征在于:采用Resnet-Bert网络模型,对图像数据、文本数据、视频数据和音频数据中的至少一种数据进行分类检索,返回对应的分类结果;当对图像数据、文本数据、视频数据和音频数据中至少两种进行分类检索时,进行检索的图像数据、文本数据、视频数据或音频数据语义类别一致;Resnet-Bert网络模型对图像数据、视频数据和音频数据进行分类检索时采用Resnet模型,对文本数据进行分类检索时采用Bert模型。
2.如权利要求1所述的基于Resnet-Bert网络模型的跨媒体检索方法,其特征在于:所述Resnet-Bert网络模型通过图像数据、视频数据、音频数据和文本数据的联合数据训练而成;每一项联合数据中,图像数据、视频数据、音频数据和文本数据的分类标签一致。
3.如权利要求2所述的基于Resnet-Bert网络模型的跨媒体检索方法,其特征在于:所述图像数据、视频数据均通过对源数据进行图像转化、图像裁剪、去中心化、标准化操作后得到。
4.如权利要求2所述的基于Resnet-Bert网络模型的跨媒体检索方法,其特征在于:所述音频数据通过对源数据进行傅里叶变换、图像转化、图像裁剪、去中心化、标准化操作后得到。
5.如权利要求2所述的基于Resnet-Bert网络模型的跨媒体检索方法,其特征在于:所述文本数据通过对源数据进行数据解码、不规范字符检查、移除表情符、去除URL、去中心化、标准化、固定文本长度操作后得到。
6.如权利要求1所述的基于Resnet-Bert网络模型的跨媒体检索方法,其特征在于:所述Resnet-Bert网络模型中,Resnet模型接受图像数据、视频数据和音频数据的输入,Bert模型接受文本数据的输入,Resnet模型和Bert模型的输出接入至统一表征空间,统一表征空间输出分类结果。
7.如权利要求1所述的基于Resnet-Bert网络模型的跨媒体检索方法,其特征在于:所述Resnet模型为Resnet50卷积神经网络。
8.如权利要求1所述的基于Resnet-Bert网络模型的跨媒体检索方法,其特征在于:所述Bert模型通过多项双层的Transformer编码器构建。
9.如权利要求6所述的基于Resnet-Bert网络模型的跨媒体检索方法,其特征在于:所述统一表征空间为全连接层神经网络。
CN202010767866.0A 2020-08-03 2020-08-03 一种基于Resnet-Bert网络模型的跨媒体检索方法 Pending CN111949806A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010767866.0A CN111949806A (zh) 2020-08-03 2020-08-03 一种基于Resnet-Bert网络模型的跨媒体检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010767866.0A CN111949806A (zh) 2020-08-03 2020-08-03 一种基于Resnet-Bert网络模型的跨媒体检索方法

Publications (1)

Publication Number Publication Date
CN111949806A true CN111949806A (zh) 2020-11-17

Family

ID=73339266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010767866.0A Pending CN111949806A (zh) 2020-08-03 2020-08-03 一种基于Resnet-Bert网络模型的跨媒体检索方法

Country Status (1)

Country Link
CN (1) CN111949806A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528062A (zh) * 2020-12-03 2021-03-19 成都航天科工大数据研究院有限公司 一种跨模态武器检索方法及***
CN112883896A (zh) * 2021-03-10 2021-06-01 山东大学 一种基于bert网络的微表情检测方法
WO2023065617A1 (zh) * 2021-10-21 2023-04-27 北京邮电大学 基于预训练模型和召回排序的跨模态检索***及方法
CN117251551A (zh) * 2023-11-06 2023-12-19 联通(广东)产业互联网有限公司 一种基于大语言模型的自然语言处理***及方法
CN117371533A (zh) * 2023-11-01 2024-01-09 深圳市马博士网络科技有限公司 一种生成数据标签规则的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059217A (zh) * 2019-04-29 2019-07-26 广西师范大学 一种两级网络的图像文本跨媒体检索方法
CN110866129A (zh) * 2019-11-01 2020-03-06 中电科大数据研究院有限公司 一种基于跨媒体统一表征模型的跨媒体检索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059217A (zh) * 2019-04-29 2019-07-26 广西师范大学 一种两级网络的图像文本跨媒体检索方法
CN110866129A (zh) * 2019-11-01 2020-03-06 中电科大数据研究院有限公司 一种基于跨媒体统一表征模型的跨媒体检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
查红彬,刘成林: "《视觉信息处理研究前沿》", 31 December 2019, 上海交通大学出版社, pages: 334 *
胡盼盼: "《自然语言处理从入门到实战》", 30 April 2020, 中国铁道出版社有限公司, pages: 201 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528062A (zh) * 2020-12-03 2021-03-19 成都航天科工大数据研究院有限公司 一种跨模态武器检索方法及***
CN112528062B (zh) * 2020-12-03 2024-03-22 成都航天科工大数据研究院有限公司 一种跨模态武器检索方法及***
CN112883896A (zh) * 2021-03-10 2021-06-01 山东大学 一种基于bert网络的微表情检测方法
WO2023065617A1 (zh) * 2021-10-21 2023-04-27 北京邮电大学 基于预训练模型和召回排序的跨模态检索***及方法
CN117371533A (zh) * 2023-11-01 2024-01-09 深圳市马博士网络科技有限公司 一种生成数据标签规则的方法及装置
CN117371533B (zh) * 2023-11-01 2024-05-24 深圳市马博士网络科技有限公司 一种生成数据标签规则的方法及装置
CN117251551A (zh) * 2023-11-06 2023-12-19 联通(广东)产业互联网有限公司 一种基于大语言模型的自然语言处理***及方法
CN117251551B (zh) * 2023-11-06 2024-05-07 联通(广东)产业互联网有限公司 一种基于大语言模型的自然语言处理***及方法

Similar Documents

Publication Publication Date Title
TWI732271B (zh) 人機對話方法、裝置、電子設備及電腦可讀媒體
US11899681B2 (en) Knowledge graph building method, electronic apparatus and non-transitory computer readable storage medium
CN111949806A (zh) 一种基于Resnet-Bert网络模型的跨媒体检索方法
CN108304439B (zh) 一种语义模型优化方法、装置及智能设备、存储介质
CN110209897B (zh) 智能对话方法、装置、存储介质及设备
US20180336193A1 (en) Artificial Intelligence Based Method and Apparatus for Generating Article
CN111694965B (zh) 一种基于多模态知识图谱的图像场景检索***及方法
CN110019732B (zh) 一种智能问答方法以及相关装置
CN108268600B (zh) 基于ai的非结构化数据管理方法及装置
CN109101479A (zh) 一种用于中文语句的聚类方法及装置
CN104317834B (zh) 一种基于深度神经网络的跨媒体排序方法
CN110232109A (zh) 一种网络舆情分析方法以及***
WO2016197767A2 (zh) 一种表情输入方法、装置、终端和计算机可读存储介质
US10437868B2 (en) Providing images for search queries
WO2022134701A1 (zh) 视频处理方法及装置
CN110083729B (zh) 一种图像搜索的方法及***
CN102855317B (zh) 一种基于演示视频的多模式索引方法及***
CN113806588B (zh) 搜索视频的方法和装置
TW202001621A (zh) 語料庫產生方法及裝置、人機互動處理方法及裝置
CN112434533B (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN115359383A (zh) 跨模态特征提取、检索以及模型的训练方法、装置及介质
CN113596601A (zh) 一种视频画面的定位方法、相关装置、设备及存储介质
CN113159187A (zh) 分类模型训练方法及装置、目标文本确定方法及装置
CN117874262B (zh) 一种基于渐进原型匹配的文本-动态图片跨模态检索方法
CN115687664A (zh) 中文图文检索方法及中文图文检索的数据处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination