CN116362221A - 融合多模态语义关联图谱的航空文献关键词相似度判定方法 - Google Patents

融合多模态语义关联图谱的航空文献关键词相似度判定方法 Download PDF

Info

Publication number
CN116362221A
CN116362221A CN202310402987.9A CN202310402987A CN116362221A CN 116362221 A CN116362221 A CN 116362221A CN 202310402987 A CN202310402987 A CN 202310402987A CN 116362221 A CN116362221 A CN 116362221A
Authority
CN
China
Prior art keywords
keyword
keywords
aviation
similarity
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310402987.9A
Other languages
English (en)
Inventor
何柳
陶剑
刘姝妍
卓雨东
安然
李润岐
孙郁文
王孝天
武铎
高魁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Aero Polytechnology Establishment
Original Assignee
China Aero Polytechnology Establishment
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Aero Polytechnology Establishment filed Critical China Aero Polytechnology Establishment
Priority to CN202310402987.9A priority Critical patent/CN116362221A/zh
Publication of CN116362221A publication Critical patent/CN116362221A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种融合多模态语义关联图谱的航空文献关键词相似度判定方法,其包括:获取航空领域关键词,构建航空文献关键词的关联关系图谱;构建航空文献关键词多模态关联图谱并基于获取的数据集构建图像‑文本跨模态检索模型;构建多维度相似词语召回排序模型,计算融合文本内容和图像内容的航空关键词语义相似度并构建相似关键词词典;本发明构建的航空领域航空文献以及关键词的关联关系图谱,提高航空领域关键词质量;以多模态关联图谱的形式构建的关键词之间的内在联系,优化关键词之间语义表达仅能针对文本一个模态信息的问题;通过构建的融合文本和图像的语义相似度计算模型,形成可以用于航空标准领域搜索引擎的近义词词典。

Description

融合多模态语义关联图谱的航空文献关键词相似度判定方法
技术领域
本发明属于航空信息处理领域,特别涉及一种融合多模态语义关联图谱的航空文献关键词相似度判定方法。
背景技术
在航空标准知识服务***应用过程中,用户的一个重点需求就是对已有标准的相似度查询,关系到新标准的立项和已有标准的沿用。标准知识服务***的搜索引擎主要以关键词作为召回和排序的依据,用户在使用过程中经常需要输入多个语义相近的关键词才能获取到完善、准确、无遗漏的结果,这使得标准查询效率低下,往往可能会造成查询结果的遗漏。针对航空标准知识服务***中的搜索引擎可以通过引入相似关键词词典的方式以提高语义搜索的召回率,但是在构建航空领域语义相似词词典时问题较多,主要包括以下几个方面:
当前航空领域权威的关键词词库数量很少,缺少质量高、数量足、可用性强的同义词、近义词词表;在判断语义相似度的过程中,主要依靠自然语言处理的方式来判定相似度,对于词汇这种短文本,由于缺少足够的上下文信息导致效果不好;在判断航空领域词汇语义相似度时主要通过机器学习的方式进行航空领域词汇相似度学习的方法需要人工标注大量的语料并进行训练才可得到相似度判定模型。
本发明主要解决下述三个问题:
1、通过构建航空领域航空文献以及关键词的关联关系图谱,解决航空领域高质量关键词缺失的问题;
2、通过构建航空领域多模态关联图谱,表示出关键词之间的文本语义联系和图像内容联系,以多模态关联图谱的形式构建关键词之间的内在联系,解决关键词之间语义表达只有文本一个模态信息的问题;
3、通过构建一套无监督融合文本内容和图像内容的语义相似度计算模型,计算关键词之间的相似关系,形成可以用于航空标准领域搜索引擎的近义词词典,解决关键词语义相似度判断方法缺失的问题。
发明内容
本发明的目的是构建航空领域航空文献以及关键词的关联关系图谱,获取航空领域高质量的可用关键词,构建航空领域多模态关联图谱,表示出关键词之间的文本语义联系和图像内容联系,进而构建融合多模态语义关联图谱的航空文献关键词相似度判定方法,形成可以用于航空标准领域搜索引擎的近义词词典,解决关键词语义相似度判断方法不准确的问题。
为实现上述目标,本发明提供了一种融合多模态语义关联图谱的航空文献关键词相似度判定方法,其具体包括以下步骤:
S1、构建航空文献关键词的关联关系图谱;
S11、获取航空领域关键词,构建航空文献的关键词数据集;利用航空标准库中的标准名称作为输入,根据文献题录利用互联网检索与航空标准相关的航空文献以及关键词信息,作为航空文献关键词数据集;
S12、针对每个关键词wi,进行词频统计,将所有的关键词作为集合W,关键词wi∈W,其词频c(wi)是关键词wi在航空文献关键词数据集中出现的次数;
S13、若一关键词wi与检索对象关键词wj在同一篇航空文献的关键词列表中出现,则定义所述关键词wi与检索对象关键词wj存在直接共现关系,关键词wi与检索对象关键词wj的共现概率计算方法为:将所有的关键词作为W,关键词wi∈W,检索对象关键词wj∈W,在此情况下关键词wi出现时检索对象关键词wj出现的概率为p(wj|wi):
Figure BDA0004180418560000021
其中p(wj|wi)表示关键词wi出现时检索对象wj出现的概率,c(wi,wj)表示wi与wj同时出现的次数,c(wi)表示关键词wi出现的次数;
S14、借助步骤S13的计算结果,获取全部关键词的共现矩阵M,其中共现矩阵向量Mij表示p(wj|wi);
S15、构建面向航空文献题目的句向量编码器,对航空文献题目进行特征提取,构建航空文献题目之间的相似度关系;
S16、将步骤S15获取的每个航空文献题目之间的余弦相似度的前端结果用图的形式表示,构建航空文献关键词的关联关系图谱;图谱中节点包括文献题目、文献关键词以及文献题目包含关键词,关系包括
Figure BDA0004180418560000022
其中,Ti表示第i个文献题目,Wi表示第i个关键词,指的是Ti文献中包含Wi关键词;/>
Figure BDA0004180418560000031
其中,Ti表示第i个文献题目,Tj表示第j个文献题目,Simcosij表示Ti与Tj之间的相似度,指的是第i个文献题目Ti和第j个文献题目Tj之间具备Simcosij相似度,/>
Figure BDA0004180418560000032
其中Wi表示第i个文献关键词,Wj表示第j个文献关键词,指的是关键词Wi出现时关键词Wj同时出现的概率;
S2、构建航空文献关键词多模态关联图谱;
S21、借助步骤S11获取的关键词,利用第一图片搜索和第二图片搜索,获取与关键词相关的图像;
S22、进行图像清洗,去除掉文件损坏的图像以及gif格式图像,并将png、jpeg格式的图像均转换为jpg格式的图像,形成具备关键词标签的第一图像数据集,对于每张图像ik,均有标签ik-l∈W;
S23、图像的多维特征描述符计算;针对步骤S21以及步骤S22获取的第一图像数据集,分别计算深度神经网络描述符、灰度直方图描述符、颜色布局描述符、颜色矩描述符以及方向梯度直方图描述符;
S24、图像-文本跨模态检索模型训练;针对步骤S22获取的第一图像数据集,构建图像-文本跨模态检索模型;
S3、构建多维度相似词语召回排序模型,计算融合文本内容和图像内容的航空关键词语义相似度;
S31、构建基于词形相似度的召回排序模型;
S32、构建基于词义相似度的召回排序模型;
S33、获取相似候选词序列;给出任意一个关键词wi,获取与关键词wi相似的候选词列表Wcan
S34、利用步骤S1和步骤S2中构建的多模态知识图谱计算每个候选词的间接共现相似度值
Figure BDA0004180418560000033
S35、利用步骤S1和步骤S2中构建的多模态知识图谱计算每个候选词的图像相似度值
Figure BDA0004180418560000034
S36、通过计算综合相似度获取
Figure BDA0004180418560000035
的相似度值/>
Figure BDA0004180418560000036
获取与目标词具备相似词义的关键词并构建相似关键词词典:
Figure BDA0004180418560000041
其中,
Figure BDA0004180418560000042
表示关键词wi和候选关键词/>
Figure BDA0004180418560000043
的综合相似度判定分数。
进一步,步骤S15具体包括以下步骤:
S151、将航空文献题目作为训练数据,用SimCSE模型无监督训练文本句向量编码器;
S152、将训练好的编码器对所有航空文献题目进行向量编码,并计算每个航空文献题目之间的余弦相似度,取相似度前端结果进行分析:
Figure BDA0004180418560000044
其中,A,B分别表示两个文献题目的特征向量,Ai,Bi分别表示每一维特征向量的数值。
进一步,步骤S23具体包括以下步骤:
S231、计算深度神经网络描述符;通过深度神经网络对图像进行特征提取,采用ResNet神经网络模型和Vision Transformer(ViT)神经网络模型对图像向量化,生成深度神经网络特征向量
Figure BDA0004180418560000046
S232、计算灰度直方图描述符,利用灰度直方图对图像灰度分布进行统计;灰度直方图表示图像中所有像素的灰度大小出现的频率,利用下式计算灰度特征向量
Figure BDA0004180418560000047
Figure BDA0004180418560000045
其中,pr(rk)是图像的是像素的灰度级,nk是具有灰度rk的像素的个数,n是图像中总的像素个数;
S233、计算颜色布局描述符,提取过程包括图像分割、代表颜色选择、DCT变换和Z字形扫描,最终获取颜色布局特征向量
Figure BDA0004180418560000048
S234、计算方向梯度直方图描述符,获取局部图像梯度方向信息的统计量,进而得到方向梯度特征向量
Figure BDA0004180418560000049
进一步,步骤S24具体包括以下步骤:
S241、根据第一图像数据集得到图像ik与标签ik-label,将标签ik-label扩展内容描述ik-sentence,内容描述ik-sentence与图像ik组成文本-图像对P;
S242、构建文本编码器,使用Transformer模型,生成文本模态向量vT,向量维度为N;
S243、构建图像编码器,使用ResNet和Vision Transformer(ViT)模型,生成图像模态向量vI维度为N;
S244、将文本模态向量vT和图像模态向量vI线性投射到同一向量空间,计算两模态之间的余弦相似度,从而使N个匹配的图文对相似度最大,不匹配的图文对相似度最小,使用对称的交叉熵损失cross-entropy loss进行训练,训练过程中选取60%的图片进行随机裁剪增强;
S245、对模型进行训练,获取文本-图像跨模态检索模型crosssearchtxt-img
进一步,步骤S31具体包括以下步骤:
S311、构建分词词典dic,分词词典dic中包含目标领域内的术语和关键词;
S312、利用分词工具和分词词典dic对所有关键词W进行细粒度分词;
S313、针对关键词W以及相对应进行细粒度分词后的特征词FW,利用BM25算法定义关键词wi与关键词wj之间的关键词相似度值,给定一个关键词wi,其中包含特征词fwi1,fwi2…fwin,关键词wj与关键词wi的相关性分数scorekeyword(wj,wi)为:
Figure BDA0004180418560000051
其中IDF(fwik)表示查询项的逆文档频率,衡量这个特征词提供了多少信息;f(fwik,wj)表示特征词fwik在关键词wj中出现的频率,k1,b表示调节因子,通常k1=2,b=0.75,,其中|wj|表示关键词wj的长度,avgdl表示为所有关键词的平均长度。
进一步,步骤S32具体包括以下步骤:
S321、利用中文sentence-BERT模型对每个关键词进行向量编码,将不定长的关键词wi转换为定长的768维向量
Figure BDA0004180418560000052
S322、借助余弦相似度来获取关键词wi与关键词wj之间的向量相似度值scoreveccos(wi,wj):
Figure BDA0004180418560000061
其中,
Figure BDA0004180418560000062
表示关键词wi的特征向量/>
Figure BDA0004180418560000063
与关键词wj的特征向量
Figure BDA0004180418560000064
之间的相似度值,/>
Figure BDA0004180418560000065
分别表示特征向量,/>
Figure BDA0004180418560000066
和||vj||表示向量长度。
优选的,步骤S33具体包括以下步骤:
S331、通过步骤S313中的词形相似度计算公式,从所有关键词W中获取与wi具备词形相似度排名前五关键词候选列表Wkcan,按词形相似度值从高到底排列包括wkcan1,wkcan2,wkcan3,wkcan4,wkcan5,后进行归一化处理,获取候选关键词wkcanj与关键词wi的词形相似度值scorekeyword(wkcanj,wi),j=1…5;
S332、通过步骤S322中的词义相似度计算公式,从所有关键词W中得到与wi具备词义相似度排名前五关键词列表的关键词列表Wvcan:wvcan1,wvcan2,wvcan3,wvcan4,wvcan5,词义相似度值从高到底排列,并进行归一化处理,获取候选关键词wkcanj与关键词wi的词义相似度值scoreveccos(wi,wvcanj),j=1…5;
S333、将步骤S331和步骤S332中获取的候选词进行合并,获取综合候选词序列Wcan=Wkcan∪Wvcan,Wkcan是所有词形相似的候选关键词列表,Wvcan是所有词义相似的候选关键词列表,其中每个候选关键词的相似度值
Figure BDA0004180418560000067
为:
Figure BDA0004180418560000068
优选的,步骤S34具体包括以下步骤:
S341、定义共同共现词termco,其中termco与目标关键词w在同一篇航空文献的关键词列表中出现;同时termco与候选关键词wcan也在同一篇航空文献的关键词中出现;具有此关系时称目标关键词w与候选关键词wcan具备间接共现关系;
S342、利用步骤S1获取的航空文献关键词的关联关系图谱,计算间接共现相似度值;
Figure BDA0004180418560000071
其中,
Figure BDA0004180418560000072
表示候选关键词/>
Figure BDA0004180418560000073
与关键词wi的共现关系评分,p(wi|termco)是termco出现时关键词wi出现的概率,/>
Figure BDA0004180418560000074
是termco出现时候选关键词/>
Figure BDA0004180418560000075
出现的概率。
优选的,步骤S35具体包括以下步骤:
S351、将目标关键词w输入步骤S24构建的文本-图像跨模态检索模型crosssearchtxt-img,获取结果排名第一的图像结果Iw
S352、将每个候选关键词
Figure BDA0004180418560000076
输入到步骤S24构建的文本-图像跨模态检索模型crosssearchtxt-i,获取结果排名第一的图像结果/>
Figure BDA0004180418560000077
S353、针对Iw
Figure BDA0004180418560000078
通过查询步骤S23中构建的多模态知识图谱中的图像的描述符/>
Figure BDA00041804185600000718
分别计算Iw和/>
Figure BDA0004180418560000079
的余弦距离相似度并取平均值,最终得到图像相似度值为:
Figure BDA00041804185600000710
其中,
Figure BDA00041804185600000711
表示关键词wi和候选关键词/>
Figure BDA00041804185600000712
通过图像语义计算的相似度值,/>
Figure BDA00041804185600000713
表示关键词wi的图像描述符/>
Figure BDA00041804185600000714
(在图像描述福
Figure BDA00041804185600000719
中任选一种描述方式)与候选关键词/>
Figure BDA00041804185600000715
的图像描述符/>
Figure BDA00041804185600000716
的余弦相似度。
优选的,在步骤S244中,使N个匹配的图文对相似度最大,不匹配的图文对相似度最小的判断表达式为:
Figure BDA00041804185600000717
其中,yi表示第i个图文对,匹配为1,不匹配为0,pi是模型将图文对yi预测为正例的概率,N为图文对的个数。
与现有技术相比,本发明具有以下有益效果:
1、通过构建航空领域航空文献以及关键词的关联关系图谱,充分挖掘了一个领域内航空文献中关键词之间的关系和隐含的相似度逻辑,扩充了关键词词库,解决航空领域高质量关键词缺失的问题;
2、通过构建航空领域多模态关联图谱,表示出关键词之间的文本语义联系和图像内容联系,以多模态关联图谱的形式构建关键词之间的内在联系,解决关键词之间语义表达只有文本一个模态信息的问题;
3、通过构建一套无监督融合文本内容和图像内容的语义相似度计算模型,融合了文本模态在词形和词义两方面的相似特征,以及图像模态的视觉特征来挖掘关键词之间的语义关系,计算关键词之间的相似度,形成可以用于航空标准领域搜索引擎的近义词词典,解决关键词语义相似度判断方法缺失的问题。
附图说明
图1为本发明融合多模态语义关联图谱的航空文献关键词相似度判定方法的流程框图;
图2为本发明构建的航空文献关键词的关联关系图谱示意图;
图3为本发明融合多模态语义关联图谱的航空文献关键词相似度判定方法中颜色布局描述符的计算方法流程图;
图4为本发明融合多模态语义关联图谱的航空文献关键词相似度判定方法中方向梯度直方图描述符的计算方法流程图;
图5为本发明融合多模态语义关联图谱的航空文献关键词相似度判定方法训练得到的文本-图像跨模态检索模型crosssearchtxt-img示意图。
具体实施方式
以下将参考附图详细说明本发明的示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
如图1所示,本发明提供一种的融合多模态语义关联图谱的航空文献关键词相似度判定方法,其包括:
S1、构建航空文献关键词的关联关系图谱;
S11、获取航空领域关键词,构建航空文献的关键词数据集;利用航空标准库中的标准名称作为输入,从互联网,例如知网开放的论文题录查询接口中检索与航空标准相关的科研论文以及关键词信息,作为航空领域的关键词库。
S12、针对每个关键词wi,进行词频统计,将所有的关键词作为集合W,关键词wi∈W,其词频c(wi)是关键词wi在航空文献关键词数据集中出现的次数;
S13、若一关键词wi与检索对象关键词wj在同一篇航空文献的关键词列表中出现,则定义所述关键词wi与检索对象关键词wj存在直接共现关系,wi与wj的共现概率计算方法为:将所有的关键词作为W,关键词wi∈W,检索对象关键词wj∈W,在此情况下关键词wi出现时检索对象关键词wj出现的概率为p(wj|wi):
Figure BDA0004180418560000091
其中p(wj|wi)表示关键词wi出现时检索对象wj出现的概率,c(wi,wj)表示wi与wj同时出现的次数,c(wi)表示关键词wi出现的次数;
S14、借助步骤S13的计算结果,获取全部关键词的共现矩阵M,其中共现矩阵向量Mij表示p(wj|wi);
S15、构建面向航空文献题目的句向量编码器,对航空文献题目进行特征提取,构建航空文献题目之间的相似度关系;
S151、将航空文献题目作为训练数据,用SimCSE模型无监督训练文本句向量编码器。
S152、将训练好的编码器对所有航空文献题目进行向量编码,并计算每个航空文献题目之间的余弦相似度,取相似度前端、即相似度排名前十位的结果:
Figure BDA0004180418560000092
其中,A,B分别表示两个文献题目的特征向量,Ai,Bi分别表示每一维特征向量的数值。
S16、将步骤S15获取的每个航空文献题目之间的余弦相似度的前端结果用图的形式表示,构建航空文献关键词的关联关系图谱;图谱中节点包括文献题目、文献关键词以及文献题目包含关键词,关系包括
Figure BDA0004180418560000093
其中,Ti表示第i个文献题目,Wi表示第i个关键词,指的是Ti文献中包含Wi关键词;/>
Figure BDA0004180418560000094
其中,Ti表示第i个文献题目,Tj表示第j个文献题目,Simcosij表示Ti与Tj之间的相似度,指的是第i个文献题目Ti和第j个文献题目Tj之间具备Simcosij相似度,/>
Figure BDA0004180418560000101
其中Wi表示第i个文献关键词,Wj表示第j个文献关键词,指的是关键词Wi出现时关键词Wj同时出现的概率;
S2、构建航空领域关键词多模态关联图谱。
S21、借助步骤S11获取的关键词,利用第一图片搜索和第二图片搜索,获取与关键词相关的图像,其中第一图片搜索为***图片搜索,第二图片搜索为bing图片搜索。
S22、进行图像清洗,去除掉文件损坏的图像以及gif格式图像,并将png、jpeg格式的图像均转换为jpg格式的图像,形成具备关键词标签的第一图像数据集,对于每张图像ik,均有标签ik-lab∈W。
S23、图像的多维特征描述符计算;针对步骤S21以及步骤S22获取的第一图像数据集,分别计算深度神经网络描述符、灰度直方图描述符、颜色布局描述符、颜色矩描述符以及方向梯度直方图描述符。
S231、计算深度神经网络描述符;通过深度神经网络对图像进行特征提取,采用ResNet神经网络模型和Vision Transformer(ViT)神经网络模型对图像向量化,生成深度神经网络特征向量
Figure BDA0004180418560000103
S232、计算灰度直方图描述符,利用灰度直方图对图像灰度分布进行统计;灰度直方图表示图像中所有像素的灰度大小出现的频率,利用下式计算灰度特征向量
Figure BDA0004180418560000104
Figure BDA0004180418560000102
其中,pr(rk)是图像的是像素的灰度级,nk是具有灰度rk的像素的个数,n是图像中总的像素个数。
S233、计算颜色布局描述符,如图3所示,颜色布局描述符是mpeg-7多媒体内容标准描述中一种高效的局部颜色特征描述,提取过程包括图像分割、代表颜色选择、DCT变换和Z字形扫描,最终获取颜色布局特征向量
Figure BDA0004180418560000105
S234、方向梯度直方图(HOG)是一种用于计算机视觉和图像处理领域目标检测的特征描述符,如图4所示,计算方向梯度直方图描述符,获取局部图像梯度方向信息的统计量,进而得到方向梯度特征向量
Figure BDA0004180418560000106
S24、图像-文本跨模态检索模型训练;针对步骤S22获取的第一图像数据集,构建图像-文本跨模态检索模型,主要包括训练数据集、文本编码器、图像编码器,通过训练得到航空领域关键词图文跨模态检索模型。
S241、根据第一图像数据集得到图像ik与标签ik-label,将标签ik-label扩展内容描述ik-sentence,内容描述ik-sentence与图像ik组成文本-图像对P。
S242、构建文本编码器,使用Transformer模型,生成文本模态向量vT,向量维度为N。
S243、构建图像编码器,使用ResNet和Vision Transformer(ViT)模型,生成图像模态向量vI维度为N。
S244、将文本模态向量vT和图像模态向量vI线性投射到同一向量空间,计算两模态之间的余弦相似度,使N个匹配的图文对相似度最大,不匹配的图文对相似度最小,其判定表达式为:
Figure BDA0004180418560000111
其中,yi表示第i个图文对,匹配为1,不匹配为0,pi是模型将图文对yi预测为正例的概率,N为图文对的个数。
使用对称的交叉熵损失cross-entropy loss进行训练,训练过程中随机选取60%的图片进行随机裁剪增强。
S245、对模型进行训练,获取的文本-图像跨模态检索模型crosssearchtxt-img如图5所示。
S3、构建多维度相似词语召回排序模型,计算融合文本内容和图像内容的航空关键词语义相似度;多维度相似词语召回排序模型主要通过构建关键词之间的词形相似性simword(i,j)和词义相似性simvec(i,j),综合计算关键词i和关键词j之间的相似程度。
S31、构建基于词形相似度的召回排序模型。
S311、构建分词词典dic,分词词典dic中包含目标领域内的术语和关键词。
S312、利用分词工具和词典dic对所有关键词W进行细粒度分词,每个关键词wi的特征词,如“拉瓦尔喷管”可分为“拉瓦尔喷管”、“拉瓦尔”和“喷管”三个特征词。
S313、针对关键词W以及相对应进行细粒度分词后的特征词FW,利用BM25算法定义关键词wi与关键词wj之间的关键词相似度值,给定一个关键词wi,其中包含特征词fwi1,fwi2…fwin,关键词wj与关键词wi的相关性分数scorekeyword(wj,wi)为:
Figure BDA0004180418560000121
其中IDF(fwik)表示查询项的逆文档频率,衡量这个特征词提供了多少信息;f(fwik,wj)表示特征词fwik在关键词wj中出现的频率,k1,b表示调节因子,通常k1=2,b=0.75,,其中|wj|表示关键词wj的长度,avgdl表示为所有关键词的平均长度。
S32、构建基于词义相似度的召回排序模型。
S321、利用中文sentence-BERT模型对每个关键词进行向量编码,将不定长的关键词wi转换为定长的768维向量
Figure BDA0004180418560000122
S322、借助余弦相似度来获取关键词wi与关键词wj之间的向量相似度值scoreveccos(wi,wj):
Figure BDA0004180418560000123
其中,
Figure BDA0004180418560000124
表示关键词wi的特征向量/>
Figure BDA0004180418560000125
与关键词wj的特征向量
Figure BDA0004180418560000126
之间的相似度值,/>
Figure BDA0004180418560000127
分别表示特征向量,/>
Figure BDA0004180418560000128
和||vj||表示向量长度。
S33、获取相似候选词序列;给出任意一个关键词wi,获取与wi相似的候选词列表Wcan
S331、通过步骤S313中的词形相似度计算公式,从所有关键词W中获取与wi具备词形相似度排名前五关键词候选列表Wkcan,按词形相似度值从高到底排列包括wkcan1,wkcan2,wkcan3,wkcan4,wkcan5,后进行归一化处理,获取候选关键词wkcanj与关键词wi的词形相似度值scorekeyword(wkcanj,wi),j=1…5。
S332、通过步骤S322中的词义相似度计算公式,从所有关键词W中得到与wi具备词义相似度排名前五关键词列表的关键词列表Wvcan:wvca,wvcan2,wvcan3,wvcan4,wvcan5,词义相似度值从高到底排列,并进行归一化处理,获取候选关键词wkcanj与关键词wi的词义相似度值scoreveccos(wi,wvcanj),j=1…5。
S333、将步骤S331和步骤S332中获取的候选词进行合并,获取综合候选词序列Wcan=Wkcan∪Wvcan,Wkcan是所有词形相似的候选关键词列表,Wvcan是所有词义相似的候选关键词列表,其中每个候选关键词的相似度值
Figure BDA0004180418560000131
为:
Figure BDA0004180418560000132
S34、利用步骤S1和步骤S2中构建的多模态知识图谱计算每个候选词的间接共现相似度值
Figure BDA0004180418560000133
S341、定义共同共现词termco,其中termco与目标关键词w在同一篇航空文献的关键词列表中出现;同时termco与候选关键词wcan也在同一篇航空文献的关键词中出现;具有此关系时称目标关键词w与候选关键词wcan具备间接共现关系。
S342、利用步骤S1获取的航空文献关键词的关联关系图谱,计算间接共现相似度值。
Figure BDA0004180418560000134
其中,
Figure BDA0004180418560000135
表示候选关键词/>
Figure BDA0004180418560000136
与关键词wi的共现关系评分,p(wi|termco)是termco出现时关键词wi出现的概率,/>
Figure BDA0004180418560000137
是termco出现时候选关键词/>
Figure BDA0004180418560000138
出现的概率。
S35、利用步骤S1和步骤S2中构建的多模态知识图谱计算每个候选词的图像相似度值
Figure BDA0004180418560000139
S351、将目标关键词w输入步骤S24构建的文本-图像跨模态检索模型crosssearchtxt-img,获取结果排名第一的图像结果Iw
S352、将每个候选关键词
Figure BDA00041804185600001310
输入到步骤S24构建的文本-图像跨模态检索模型crosssearchtxt-img,获取结果排名第一的图像结果/>
Figure BDA00041804185600001311
S353、针对Iw
Figure BDA00041804185600001312
通过查询步骤S23中构建的多模态知识图谱中的图像的描述符/>
Figure BDA00041804185600001314
分别计算Iw和/>
Figure BDA00041804185600001313
的余弦距离相似度并取平均值,最终得到图像相似度值为:
Figure BDA0004180418560000141
其中,
Figure BDA0004180418560000142
表示关键词wi和候选关键词/>
Figure BDA0004180418560000143
通过图像语义计算的相似度值,/>
Figure BDA0004180418560000144
表示关键词wi的图像描述符/>
Figure BDA0004180418560000145
(在图像描述福
Figure BDA00041804185600001413
中任选一种描述方式)与候选关键词/>
Figure BDA0004180418560000146
的图像描述符/>
Figure BDA0004180418560000147
的余弦相似度。
S36、通过计算综合相似度获取
Figure BDA0004180418560000148
的相似度值/>
Figure BDA0004180418560000149
获取与目标词具备相似词义的关键词并构建相似关键词词典:
Figure BDA00041804185600001410
其中,
Figure BDA00041804185600001411
表示关键词wi和候选关键词/>
Figure BDA00041804185600001412
的综合相似度判定分数。
本发明通过扩大领域关键词的近义词词库的手段,进而提高领域搜索/推荐引擎对于用户输入关键词的联想能力。利用航空文献中的关键词以及互联网上的相关图像,构建了可以表达关键词关联关系的多模态图谱,利用机器学习和图谱分析技术挖掘更多的近义关键词。通过构建一套无监督融合文本内容和图像内容的语义相似度计算模型,融合了文本模态在词形和词义两方面的相似特征,以及图像模态的视觉特征来挖掘关键词之间的语义关系,计算关键词之间的相似度,形成可以用于航空标准领域搜索引擎的近义词词典,解决关键词语义相似度判断方法缺失的问题。
以上所述的实施例仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (10)

1.一种融合多模态语义关联图谱的航空文献关键词相似度判定方法,其特征在于:其包括以下步骤:
S1、构建航空文献关键词的关联关系图谱;
S11、获取航空领域关键词,构建航空文献的关键词数据集;利用航空标准库中的标准名称作为输入,根据文献题录利用互联网检索与航空标准相关的航空文献以及关键词信息,作为航空文献关键词数据集;
S12、针对每个关键词wi,进行词频统计,将所有的关键词作为集合W,关键词wi∈W,其词频c(wi)是关键词wi在航空文献关键词数据集中出现的次数;
S13、若一关键词wi与检索对象关键词wj在同一篇航空文献的关键词列表中出现,则定义所述关键词wi与检索对象关键词wj存在直接共现关系,关键词wi与检索对象关键词wj的共现概率计算方法为:将所有的关键词作为W,关键词wi∈W,检索对象关键词wj∈W,在此情况下关键词wi出现时检索对象关键词wj出现的概率为p(wj|wi):
Figure FDA0004180418540000011
其中p(wj|wi)表示关键词wi出现时检索对象wj出现的概率,c(wi,wj)表示wi与wj同时出现的次数,c(wi)表示关键词wi出现的次数;
S14、借助步骤S13的计算结果,获取全部关键词的共现矩阵M,其中共现矩阵向量Mij表示p(wj|wi);
S15、构建面向航空文献题目的句向量编码器,对航空文献题目进行特征提取,构建航空文献题目之间的相似度关系;
S16、将步骤S15获取的每个航空文献题目之间的余弦相似度的前端结果用图的形式表示,构建航空文献关键词的关联关系图谱;图谱中节点包括文献题目、文献关键词以及文献题目包含关键词,关系包括
Figure FDA0004180418540000012
其中,Ti表示第i个文献题目,Wi表示第i个关键词,指的是Ti文献中包含Wi关键词;/>
Figure FDA0004180418540000013
其中,Ti表示第i个文献题目,Tj表示第j个文献题目,Simcosij表示Ti与Tj之间的相似度,指的是第i个文献题目Ti和第j个文献题目Tj之间具备Simcosij相似度,/>
Figure FDA0004180418540000014
其中Wi表示第i个文献关键词,Wj表示第j个文献关键词,指的是关键词Wi出现时关键词Wj同时出现的概率;
S2、构建航空文献关键词多模态关联图谱;
S21、借助步骤S11获取的关键词,利用第一图片搜索和第二图片搜索,获取与关键词相关的图像;
S22、进行图像清洗,去除掉文件损坏的图像以及gif格式图像,并将png、jpeg格式的图像均转换为jpg格式的图像,形成具备关键词标签的第一图像数据集,对于每张图像ik,均有标签ik-label∈W;
S23、图像的多维特征描述符计算;针对步骤S21以及步骤S22获取的第一图像数据集,分别计算深度神经网络描述符、灰度直方图描述符、颜色布局描述符、颜色矩描述符以及方向梯度直方图描述符;
S24、图像-文本跨模态检索模型训练;针对步骤S22获取的第一图像数据集,构建图像-文本跨模态检索模型;
S3、构建多维度相似词语召回排序模型,计算融合文本内容和图像内容的航空关键词语义相似度;
S31、构建基于词形相似度的召回排序模型;
S32、构建基于词义相似度的召回排序模型;
S33、获取相似候选词序列;给出任意一个关键词wi,获取与关键词wi相似的候选词列表Wcan
S34、利用步骤S1和步骤S2中构建的多模态知识图谱计算每个候选词的间接共现相似度值
Figure FDA0004180418540000021
S35、利用步骤S1和步骤S2中构建的多模态知识图谱计算每个候选词的图像相似度值
Figure FDA0004180418540000022
S36、通过计算综合相似度获取wi,
Figure FDA0004180418540000023
的相似度值/>
Figure FDA0004180418540000024
获取与目标词具备相似词义的关键词并构建相似关键词词典:
Figure FDA0004180418540000025
其中,
Figure FDA0004180418540000026
表示关键词wi和候选关键词wcanj的综合相似度判定分数。
2.根据权利要求1所述的融合多模态语义关联图谱的航空文献关键词相似度判定方法,其特征在于,步骤S15具体包括以下步骤:
S151、将航空文献题目作为训练数据,用SimCSE模型无监督训练文本句向量编码器;
S152、将训练好的编码器对所有航空文献题目进行向量编码,并计算每个航空文献题目之间的余弦相似度,取相似度前端结果进行分析:
Figure FDA0004180418540000031
其中,A,B分别表示两个文献题目的特征向量,Ai,Bi分别表示每一维特征向量的数值。
3.根据权利要求2所述的融合多模态语义关联图谱的航空文献关键词相似度判定方法,其特征在于,步骤S23具体包括以下步骤:
S231、计算深度神经网络描述符;通过深度神经网络对图像进行特征提取,采用ResNet神经网络模型和Vision Transformer(ViT)神经网络模型对图像向量化,生成深度神经网络特征向量
Figure FDA0004180418540000035
S232、计算灰度直方图描述符,利用灰度直方图对图像灰度分布进行统计;灰度直方图表示图像中所有像素的灰度大小出现的频率,利用下式计算灰度特征向量
Figure FDA0004180418540000036
Figure FDA0004180418540000032
其中,pr(rk)是图像的是像素的灰度级,nk是具有灰度rk的像素的个数,n是图像中总的像素个数;
S233、计算颜色布局描述符,提取过程包括图像分割、代表颜色选择、DCT变换和Z字形扫描,最终获取颜色布局特征向量
Figure FDA0004180418540000033
S234、计算方向梯度直方图描述符,获取局部图像梯度方向信息的统计量,进而得到方向梯度特征向量
Figure FDA0004180418540000034
4.根据权利要求3所述的融合多模态语义关联图谱的航空文献关键词相似度判定方法,其特征在于,步骤S24具体包括以下步骤:
S241、根据第一图像数据集得到图像ik与标签ik-lab,将标签ik-label扩展内容描述ik-sentence,内容描述ik-sentence与图像ik组成文本-图像对P;
S242、构建文本编码器,使用Transformer模型,生成文本模态向量vT,向量维度为N;
S243、构建图像编码器,使用ResNet和Vision Transformer(ViT)模型,生成图像模态向量vI维度为N;
S244、将文本模态向量vT和图像模态向量vI线性投射到同一向量空间,计算两模态之间的余弦相似度,从而使N个匹配的图文对相似度最大,不匹配的图文对相似度最小,使用对称的交叉熵损失cross-entropy loss进行训练,训练过程中选取60%的图片进行随机裁剪增强;
S245、对模型进行训练,获取文本-图像跨模态检索模型crosssearchtxt-img
5.根据权利要求1所述的融合多模态语义关联图谱的航空文献关键词相似度判定方法,其特征在于,步骤S31具体包括以下步骤:
S311、构建分词词典dic,分词词典dic中包含目标领域内的术语和关键词;
S312、利用分词工具和分词词典dic对所有关键词W进行细粒度分词;
S313、针对关键词W以及相对应进行细粒度分词后的特征词FW,利用BM25算法定义关键词wi与关键词wj之间的关键词相似度值,给定一个关键词wi,其中包含特征词fwi1,fwi2…fwin,关键词wj与关键词wi的相关性分数scorekeyword(wj,wi)为:
Figure FDA0004180418540000041
其中IDF(fwik)表示查询项的逆文档频率,衡量这个特征词提供了多少信息;f(fwik,wj)表示特征词fwik在关键词wj中出现的频率,k1,b表示调节因子,通常k1=2,b=0.75,,其中|wj|表示关键词wj的长度,avgdl表示为所有关键词的平均长度。
6.根据权利要求3所述的融合多模态语义关联图谱的航空文献关键词相似度判定方法,其特征在于,步骤S32具体包括以下步骤:
S321、利用中文sentence-BERT模型对每个关键词进行向量编码,将不定长的关键词wi转换为定长的768维向量
Figure FDA0004180418540000042
S322、借助余弦相似度来获取关键词wi与关键词wj之间的向量相似度值scoreveccos(wi,wj):
Figure FDA0004180418540000051
其中,
Figure FDA0004180418540000052
表示关键词wi的特征向量/>
Figure FDA0004180418540000053
与关键词wj的特征向量/>
Figure FDA0004180418540000054
之间的相似度值,/>
Figure FDA0004180418540000055
分别表示特征向量,/>
Figure FDA0004180418540000056
和||vj||表示向量长度。
7.根据权利要求1所述的融合多模态语义关联图谱的航空文献关键词相似度判定方法,其特征在于,步骤S33具体包括以下步骤:
S331、通过步骤S313中的词形相似度计算公式,从所有关键词W中获取与wi具备词形相似度排名前五关键词候选列表Wkcan,按词形相似度值从高到底排列包括wkcan1,wkcan,wkcan,wkcan4,wkcan5,后进行归一化处理,获取候选关键词wkcanj与关键词wi的词形相似度值scorekeyword(wkcanj,wi),j=1…5;
S332、通过步骤S322中的词义相似度计算公式,从所有关键词W中得到与wi具备词义相似度排名前五关键词列表的关键词列表Wvcan:wvcan1,wvcan2,wvcan3,wvcan4,wvcan,词义相似度值从高到底排列,并进行归一化处理,获取候选关键词wkcanj与关键词wi的词义相似度值scoreveccos(wi,wvcanj),j=1…5;
S333、将步骤S331和步骤S332中获取的候选词进行合并,获取综合候选词序列Wcan=Wkcan∪Wvcan,Wkcan是所有词形相似的候选关键词列表,Wvcan是所有词义相似的候选关键词列表,其中每个候选关键词的相似度值
Figure FDA0004180418540000057
为:
Figure FDA0004180418540000058
8.根据权利要求1所述的融合多模态语义关联图谱的航空文献关键词相似度判定方法,其特征在于,步骤S34具体包括以下步骤:
S341、定义共同共现词termco,其中termco与目标关键词w在同一篇航空文献的关键词列表中出现;同时termco与候选关键词wcan也在同一篇航空文献的关键词中出现;具有此关系时称目标关键词w与候选关键词wcan具备间接共现关系;
S342、利用步骤S1获取的航空文献关键词的关联关系图谱,计算间接共现相似度值;
Figure FDA0004180418540000061
其中,
Figure FDA0004180418540000062
表示候选关键词/>
Figure FDA0004180418540000063
与关键词wi的共现关系评分,p(wi|termco)是termco出现时关键词wi出现的概率,/>
Figure FDA0004180418540000064
是termco出现时候选关键词
Figure FDA0004180418540000065
出现的概率。
9.根据权利要求1所述的融合多模态语义关联图谱的航空文献关键词相似度判定方法,其特征在于,步骤S35具体包括以下步骤:
S351、将目标关键词w输入步骤S24构建的文本-图像跨模态检索模型crosssearchtxt-img,获取结果排名第一的图像结果Iw
S352、将每个候选关键词
Figure FDA0004180418540000066
输入到步骤S24构建的文本-图像跨模态检索模型crosssearchtxt-img,获取结果排名第一的图像结果/>
Figure FDA0004180418540000067
S353、针对Iw
Figure FDA0004180418540000068
通过查询步骤S23中构建的多模态知识图谱中的图像的描述符
Figure FDA0004180418540000069
分别计算Iw和/>
Figure FDA00041804185400000610
的余弦距离相似度并取平均值,最终得到图像相似度值为:
Figure FDA00041804185400000611
其中,scoresi
Figure FDA00041804185400000612
表示关键词wi和候选关键词/>
Figure FDA00041804185400000613
通过图像语义计算的相似度值,/>
Figure FDA00041804185400000614
表示关键词wi的图像描述符/>
Figure FDA00041804185400000615
(在图像描述福
Figure FDA00041804185400000616
中任选一种描述方式)与候选关键词/>
Figure FDA00041804185400000617
的图像描述符/>
Figure FDA00041804185400000618
的余弦相似度。
10.根据权利要求4所述的融合多模态语义关联图谱的航空文献关键词相似度判定方法,其特征在于,在步骤S244中,使N个匹配的图文对相似度最大,不匹配的图文对相似度最小的判断表达式为:
Figure FDA00041804185400000619
其中,yi表示第i个图文对,匹配为1,不匹配为0,pi是模型将图文对yi预测为正例的概率,N为图文对的个数。
CN202310402987.9A 2023-04-14 2023-04-14 融合多模态语义关联图谱的航空文献关键词相似度判定方法 Pending CN116362221A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310402987.9A CN116362221A (zh) 2023-04-14 2023-04-14 融合多模态语义关联图谱的航空文献关键词相似度判定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310402987.9A CN116362221A (zh) 2023-04-14 2023-04-14 融合多模态语义关联图谱的航空文献关键词相似度判定方法

Publications (1)

Publication Number Publication Date
CN116362221A true CN116362221A (zh) 2023-06-30

Family

ID=86908821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310402987.9A Pending CN116362221A (zh) 2023-04-14 2023-04-14 融合多模态语义关联图谱的航空文献关键词相似度判定方法

Country Status (1)

Country Link
CN (1) CN116362221A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116776854A (zh) * 2023-08-25 2023-09-19 湖南汇智兴创科技有限公司 在线多版本文献内容关联方法、装置、设备及介质
CN117763239A (zh) * 2024-01-10 2024-03-26 人民网股份有限公司 信息推荐方法及装置、计算设备、计算机存储介质
CN117910460A (zh) * 2024-03-18 2024-04-19 国网江苏省电力有限公司南通供电分公司 一种基于bge模型的电力科研知识关联性构建方法及***
CN117932161A (zh) * 2024-03-22 2024-04-26 成都数据集团股份有限公司 一种多源多模态数据的可视化搜索方法及***

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116776854A (zh) * 2023-08-25 2023-09-19 湖南汇智兴创科技有限公司 在线多版本文献内容关联方法、装置、设备及介质
CN116776854B (zh) * 2023-08-25 2023-11-03 湖南汇智兴创科技有限公司 在线多版本文献内容关联方法、装置、设备及介质
CN117763239A (zh) * 2024-01-10 2024-03-26 人民网股份有限公司 信息推荐方法及装置、计算设备、计算机存储介质
CN117910460A (zh) * 2024-03-18 2024-04-19 国网江苏省电力有限公司南通供电分公司 一种基于bge模型的电力科研知识关联性构建方法及***
CN117910460B (zh) * 2024-03-18 2024-06-07 国网江苏省电力有限公司南通供电分公司 一种基于bge模型的电力科研知识关联性构建方法及***
CN117932161A (zh) * 2024-03-22 2024-04-26 成都数据集团股份有限公司 一种多源多模态数据的可视化搜索方法及***
CN117932161B (zh) * 2024-03-22 2024-05-28 成都数据集团股份有限公司 一种多源多模态数据的可视化搜索方法及***

Similar Documents

Publication Publication Date Title
CN106202256B (zh) 基于语义传播及混合多示例学习的Web图像检索方法
Rath et al. A search engine for historical manuscript images
CN116362221A (zh) 融合多模态语义关联图谱的航空文献关键词相似度判定方法
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
WO2018120899A1 (zh) 一种商标查询结果近似度评价和排序方法、装置
WO2023065617A1 (zh) 基于预训练模型和召回排序的跨模态检索***及方法
CN108509521B (zh) 一种自动生成文本索引的图像检索方法
CN107480200B (zh) 基于词标签的词语标注方法、装置、服务器及存储介质
CN111324765A (zh) 基于深度级联跨模态相关性的细粒度草图图像检索方法
CN112270188B (zh) 一种提问式的分析路径推荐方法、***及存储介质
CN115270738B (zh) 一种研报生成方法、***及计算机存储介质
CN114461839B (zh) 基于多模态预训练的相似图片检索方法、装置及电子设备
CN114048354B (zh) 基于多元表征和度量学习的试题检索方法、装置及介质
CN113569050A (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN114048305A (zh) 一种基于图卷积神经网络的行政处罚文书的类案推荐方法
CN112148886A (zh) 一种内容知识图谱的构建方法及***
Wei et al. Representing word image using visual word embeddings and RNN for keyword spotting on historical document images
CN112182275A (zh) 一种基于多维度特征融合的商标近似检索***和方法
Gong et al. A semantic similarity language model to improve automatic image annotation
CN112836008B (zh) 基于去中心化存储数据的索引建立方法
CN112989811B (zh) 一种基于BiLSTM-CRF的历史典籍阅读辅助***及其控制方法
CN113902764A (zh) 基于语义的图像-文本的跨模态检索方法
CN113342950A (zh) 基于语义联合的答案选取方法及***
CN116775929A (zh) 一种基于多层次细粒度语义对齐的跨模态检索方法
CN114416914B (zh) 一种基于图片问答的处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination