CN116719904A - 基于图文结合的信息查询方法、装置、设备及存储介质 - Google Patents
基于图文结合的信息查询方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116719904A CN116719904A CN202310699771.3A CN202310699771A CN116719904A CN 116719904 A CN116719904 A CN 116719904A CN 202310699771 A CN202310699771 A CN 202310699771A CN 116719904 A CN116719904 A CN 116719904A
- Authority
- CN
- China
- Prior art keywords
- vector
- information
- entity
- preset
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000013598 vector Substances 0.000 claims abstract description 298
- 238000012512 characterization method Methods 0.000 claims abstract description 52
- 238000004364 calculation method Methods 0.000 claims abstract description 44
- 238000010606 normalization Methods 0.000 claims abstract description 30
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 230000011218 segmentation Effects 0.000 claims description 34
- 239000011159 matrix material Substances 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 11
- 238000013016 damping Methods 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000004891 communication Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000007726 management method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 241000501754 Astronotus ocellatus Species 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 235000004280 healthy diet Nutrition 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H80/00—ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能技术,揭露了一种基于图文结合的信息查询方法,包括:根据语义提取算法提取实体信息;获取符合实体信息的图片为待定图片;利用多模态模型进行编码,将待定图片转化成待定特征向量,将实体信息转化成实体特征向量;进行归一化计算,得到第一共同表征向量;在目标信息源中获取目标的文本信息以及目标的图像信息,利用上述同种方法得到第二共同表征向量并计算相似度,取最大相似度对应的第二共同表征向量作为信息查询结果。此外,本发明还涉及区块链技术,实体信息及目标信息源可存储于区块链的节点。本发明还提出一种基于图文结合的信息查询方法,可以应用于数字医疗领域,以提高信息查询精确度。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于图文结合的信息查询方法、装置、电子设备及计算机可读存储介质。
背景技术
随着信息时代的飞速发展,现代人们能够通过信息设备获得大量信息,为了在医疗领域给医生和患者提供及时、准确的搜索结果,帮助医生提高诊疗水平和科研能力,采用文字与图片相结合互相补充方式对目标进行定位查找,实现精确查询。
现有的信息查询过程一般都只使用纯文本的历史上下文信息,对一些可视化场景的对话中,缺少了直观视觉信息。例如,医疗领域中,医生使用纯文字来向患者解释与其疾病相关的信息,这使沟通效率低下,还会因语言障碍或专业术语的限制而造成误解。。实际医疗场景中,由于缺乏视觉信息的补充,只凭借上下文文本信息很难获取医生或患者的完整意图,从而导致查询结果不够符合要求,也就是查询结果不够精确。
发明内容
本发明提供一种基于图文结合的信息查询方法、装置及计算机可读存储介质,其主要目的在于解决进行产品推荐时的精确度较低的问题。
为实现上述目的,本发明提供的一种基于图文结合的信息查询方法,包括:
根据预设的语义提取算法提取预设的用户对话信息中的实体信息;
根据所述实体信息在预设的图片标签库内搜索符合所述实体信息的图片确定为待定图片;
将所述待定图片与所述实体信息利用预设的多模态模型进行编码,将所述待定图片转化成待定特征向量,将所述实体信息转化成实体特征向量;
将所述图片特征向量与所述文本特征向量进行归一化计算,得到涵盖待定特征向量以及实体特征向量的第一共同表征向量;
在预设的目标信息源中获取目标的文本信息以及目标的图像信息,利用预设的多模态模型对所述文本信息以及图像信息进行编码,得到目标文本向量以及目标图像向量,对所述目标文本向量以及目标图像向量进行归一化计算,得到涵盖所述目标文本向量以及目标图像向量的第二共同表征向量;
计算所述第一共同表征向量与第二共同表征向量的相似度,取最大相似度对应的第二共同表征向量作为信息查询结果。
可选地,,所述根据预设的语义提取算法提取预设的用户对话信息中的实体信息,包括:
去除所述用户对话信息中的无意词,得到精简对话;
对所述精简对话进行分词操作,得到对话分词;
将所述对话分词作为节点建立连接,根据预设的节点权重公式计算所述对话分词的权重;
取大于预设权重阈值的对话分词为实体信息。
可选地,所述根据预设的节点权重公式计算所述对话分词的权重,包括:
利用如下节点权重公式计算所述对话分词的权重:
其中,WS(Vi)为所述对话分词Vi的权重,WS(Vj)为所述对话分词Vj的权重,Vi表示第i个对话分词,Vj表示第j个对话分词,Vk表示其他预设的词语,i表示对话分词的编号,k表示其他词语的编号,j表示不同于i的另一个对话分词的编号,In(Vj)表示所有对话分词的集合,out(Vj)表示对话分词Vj连接其他词语的集合,d为设定的阻尼系数,ωji是对话分词Vi与Vj之间连接线的预设权重,ωjk是对话分词Vk与Vj之间连接线的预设权重。
可选地,所述根据所述实体信息在预设的图片标签库内搜索符合所述实体信息的图片确定为待定图片,包括:
将所述实体信息进行编码,得到实体向量;
将所述图片标签库内的标签进行编码,得到标签向量;
计算所述实体向量与所述标签向量的真实匹配度,将所述真实匹配度大于预设匹配度的标签向量对应的图片确定为待定图片。
可选地,所述计算所述实体向量与所述标签向量的真实匹配度,包括:
利用如下匹配度计算公式计算所述实体向量与所述标签向量的真实匹配度:
其中,P为所述真实匹配度,α为所述实体向量,β为所述标签向量。
可选地,所述将所述待定图片与所述实体信息利用预设的多模态模型进行编码,将所述待定图片转化成待定特征向量,将所述实体信息转化成实体特征向量,包括:
将所述待定图片逐一进行像素编码,将所述待定图片转化成像素向量;
将所有像素向量进行行向量拼接,得到拼接像素;
将所述拼接像素与所述多模态模型中预设的权重矩阵相乘,得到待定特征向量;
将所述实体信息逐一转化成预设维度的向量形式,得到实体特征向量。
可选地,所述,所述将所述图片特征向量与所述文本特征向量进行归一化计算,得到涵盖待定特征向量以及实体特征向量的第一共同表征向量,包括:
利用如下归一化计算公式将所述图片特征向量与所述文本特征向量进行归一化计算:
其中,表示归一化后的第一共同表征向量的权重矩阵参数,/>表示归一化后的图片特征向量与文本特征向量的权重矩阵参数,N表示参数的总量,i表示参数的序列号,/>表示第一共同表征向量权重矩阵参数中第i个参数,/>表示图片特征向量与文本特征向量的权重矩阵参数中第i个参数,/>表示第一共同表征向量权重矩阵参数中新参数最小值,/>表示图片特征向量与文本特征向量的权重矩阵参数中旧参数最小值。
为了解决上述问题,本发明还提供一种基于图文结合的信息查询装置,所述装置包括:
获取文字模块:根据预设的语义提取算法提取预设的用户对话信息中的实体信息;
获取图片模块:根据所述实体信息在预设的图片标签库内搜索符合所述实体信息的图片确定为待定图片;
编码计算模块:将所述待定图片与所述实体信息利用预设的多模态模型进行编码,将所述待定图片转化成待定特征向量,将所述实体信息转化成实体特征向量;
融合特征模块:将所述图片特征向量与所述文本特征向量进行归一化计算,得到涵盖待定特征向量以及实体特征向量的第一共同表征向量;
重复计算模块:在预设的目标信息源中获取目标的文本信息以及目标的图像信息,利用预设的多模态模型对所述文本信息以及图像信息进行编码,得到目标文本向量以及目标图像向量,对所述目标文本向量以及目标图像向量进行归一化计算,得到涵盖所述目标文本向量以及目标图像向量的第二共同表征向量;
确定结果模块:计算所述第一共同表征向量与第二共同表征向量的相似度,取最大相似度对应的第二共同表征向量作为信息查询结果。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;
以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的基于图文结合的信息查询方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于图文结合的信息查询方法。
本发明实施例通过将所述图片特征向量与所述文本特征向量进行归一化计算,得到涵盖待定特征向量以及实体特征向量的第一共同表征向量,能够使所述图片特征向量与所述文本特征向量能够被限定在同一范围内,消除异样数据导致的不良影响,从而加快后续数据处理的进程,实现数据的精准查询;用同样的方法计算出所述文本信息以及图像信息对应的第二共同表征向量;计算所述第一共同表征向量与第二共同表征向量的相似度,取最大相似度对应的第二共同表征向量作为信息查询结果,通过图文结合的形式,利用多模态模型寻找查询结果突破了以往意义上的单靠文字查询检索的方式,使查询结果更加准确快捷,查询内容更加精细丰富,在实际医疗使用场景中,获取图像信息能够很直观地表达信息,而获取文本信息则可以提供更为详细的解释,通过图文相结合,患者可以更轻松、更容易地理解医学知识,而不需要具备专业的背景知识。因此本发明提出的基于图文结合的信息查询方法、装置、电子设备及计算机可读存储介质,可以解决进行信息查询时的精确度较低的问题。
附图说明
图1为本发明一实施例提供的基于图文结合的信息查询方法的流程示意图;
图2为本发明一实施例提供的获取实体信息的流程示意图;
图3为本发明一实施例提供的确定待定图片的流程示意图;
图4为本发明一实施例提供的基于图文结合的信息查询装置的功能模块图;
图5为本发明一实施例提供的实现所述基于图文结合的信息查询方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种基于图文结合的信息查询方法。所述基于图文结合的信息查询方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述基于图文结合的信息查询方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供的基于图文结合的信息查询方法的流程示意图。在本实施例中,所述基于图文结合的信息查询方法包括:
S1、根据预设的语义提取算法提取预设的用户对话信息中的实体信息;
本发明实施例中,所述语义提取算法包括但不限于NLP、TF-IDF、TExtRank等。
详细地,所述实体信息是去除用户对话信息中的感叹词、虚拟词等无意义的词之后剩下的关键词,能够一定程度上代表某段用户对话的内容。例如,用户A:午餐吃了什么?用户B:午餐吃的牛排。以上对话中的实体信息为:午餐、牛排。
具体地,由于用户对话中通常含有大量无实际意义的词语,不对所述用户对话进行预处理会给后续操作带来麻烦,加大信息搜索的时间或者难以搜索到想要的内容。
本发明实施例中,参照图2所示,所述根据预设的语义提取算法提取预设的用户对话信息中的实体信息,包括:
S21、去除所述用户对话信息中的无意词,得到精简对话;
S22、对所述精简对话进行分词操作,得到对话分词;
S23、将所述对话分词作为节点建立连接,根据预设的节点权重公式计算所述对话分词的权重;
S24、取大于预设权重阈值的对话分词为实体信息。
详细地,所述无意词为所述用户对话中的感叹词、疑问词等,例如啊、吗、了、等。
具体地,所述根据预设的节点权重公式计算所述对话分词的权重,包括:
利用如下节点权重公式计算所述对话分词的权重:
其中,WS(Vi)为所述对话分词Vi的权重,WS(Vj)为所述对话分词Vj的权重,Vi表示第i个对话分词,Vj表示第j个对话分词,Vk表示其他预设的词语,i表示对话分词的编号,k表示其他词语的编号,j表示不同于i的另一个对话分词的编号,In(Vj)表示所有对话分词的集合,out(Vj)表示对话分词Vj连接其他词语的集合,d为设定的阻尼系数,ωji是对话分词Vi与Vj之间连接线的预设权重,ωjk是对话分词Vk与Vj之间连接线的预设权重。
详细地,使用节点权重计算公式能够准确计算出所述对话分词的权重,从而选出实体信息,便于后续更快检索到想要的信息。
S2、根据所述实体信息在预设的图片标签库内搜索符合所述实体信息的图片确定为待定图片;
本发明实施例中,所述标签图片库是预设的每张图片都带有对应标签的图片库,当输入标签内容时,能够轻易找到带有标签内容图片。
详细地,所述标签图片库可以根据图像分类模型例如VGG、ResNet等,将预设的图片出带有对应的标签,从而实现根据标签查询到相应的图片。
本发明实施例中,参照图3所示,所述根据所述实体信息在预设的图片标签库内搜索符合所述实体信息的图片确定为待定图片,包括:
S31、将所述实体信息进行编码,得到实体向量;
S32、将所述图片标签库内的标签进行编码,得到标签向量;
S33、计算所述实体向量与所述标签向量的真实匹配度,将所述真实匹配度大于预设匹配度的标签向量对应的图片确定为待定图片。
详细地,所述计算所述实体向量与所述标签向量的真实匹配度,包括:
利用如下匹配度计算公式计算所述实体向量与所述标签向量的真实匹配度:
其中,P为所述真实匹配度,α为所述实体向量,β为所述标签向量。
具体地,区别于传统的按文字进行信息检索,本发明致力于使用图文结合的形式,先根据已有的文字信息检索到对应的图片信息,再根据文字信息与图片信息结合的方式,互相补充,从而找到更加精准的查询结果。
S3、将所述待定图片与所述实体信息利用预设的多模态模型进行编码,将所述待定图片转化成待定特征向量,将所述实体信息转化成实体特征向量;
本发明实施例中,所述多模态模型是指有多种模态信息输入的模型,其中多种模态通常包括文本、语音、图像、视频等信息,模型的输出包含综合多模态信息后的核心概括。由于不同模态的信息是互相补充的,充分利用不同模态的信息能够帮助模型更好定位关键内容,本发明实施例中也就是更加准确的查询出想要的内容。
本发明实施例中,所述将所述待定图片与所述实体信息利用预设的多模态模型进行编码,将所述待定图片转化成待定特征向量,将所述实体信息转化成实体特征向量,包括:将所述待定图片逐一进行像素编码,将所述待定图片转化成像素向量;将所有像素向量进行行向量拼接,得到拼接像素;将所述拼接像素与所述多模态模型中预设的权重矩阵相乘,得到待定特征向量;将所述实体信息逐一转化成预设维度的向量形式,得到实体特征向量。
本发明实施例中多模态模型包括但不限于CLIP或者OSCAR等。
详细地,将所述拼接像素与所述多模态模型中预设的权重矩阵相乘目的是为了将所述拼接像素与实体特征向量控制在同一维度,便于后续进行归一化计算。
详细地,所述将所有像素向量进行行向量拼接,得到拼接像素,例如像素向量A(123,458,254),向量B(158,8,547),进行行向量的拼接后,得到新的向量C(123,458,254,158,8,547)。
具体地,将所述拼接像素与所述多模态模型中预设的权重矩阵相乘目的是为了将所述拼接像素与实体特征向量控制在同一维度,也就是将所述待定图片与所述实体信息转化成相同维度的向量,便于后续将所述待定特征向量与所述实体特征向量进行归一融合计算,有利于精准查询。
S4、将所述图片特征向量与所述文本特征向量进行归一化计算,得到涵盖待定特征向量以及实体特征向量的第一共同表征向量;
本发明实施例中,所述将所述图片特征向量与所述文本特征向量进行归一化计算,得到涵盖待定特征向量以及实体特征向量的第一共同表征向量,包括:
利用如下归一化计算公式将所述图片特征向量与所述文本特征向量进行归一化计算:
其中,表示归一化后的第一共同表征向量的权重矩阵参数,/>表示归一化后的图片特征向量与文本特征向量的权重矩阵参数,N表示参数的总量,i表示参数的序列号,/>表示第一共同表征向量权重矩阵参数中第i个参数,/>表示图片特征向量与文本特征向量的权重矩阵参数中第i个参数,/>表示第一共同表征向量权重矩阵参数中新参数最小值,/>表示图片特征向量与文本特征向量的权重矩阵参数中旧参数最小值。
具体地,将所述图片特征向量与所述文本特征向量进行归一化处理能够使所述图片特征向量与所述文本特征向量能够被限定在同一范围内,消除异样数据导致的不良影响,从而加快后续数据处理的进程,实现数据的精准查询。
S5、在预设的目标信息源中获取目标的文本信息以及目标的图像信息,利用预设的多模态模型对所述文本信息以及图像信息进行编码,得到目标文本向量以及目标图像向量,对所述目标文本向量以及目标图像向量进行归一化计算,得到涵盖所述目标文本向量以及目标图像向量的第二共同表征向量;
本发明实施例中,所述目标信息源为预设的包含所有待查询信息的资源库。例如,待查信息为搜索出长江路上的泰国餐厅,目标信息源中应该包括长江路上的所有餐厅的菜单、价格、具***置、室内环境等等。从所述目标信息源中获取所有餐厅的具体信息,与待查信息进行匹配,从而准确找出长江路上的泰国餐厅的所有具体名称。
具体地,所述在预设的目标信息源中获取目标的文本信息以及目标的图像信息,在实际医疗使用场景中,获取图像信息能够很直观地表达信息,而获取文本信息则可以提供更为详细的解释。通过图文相结合,患者可以更轻松、更容易地理解医学知识,而不需要具备专业的背景知识。
详细地,所述利用预设的多模态模型对所述文本信息以及图像信息进行编码,得到目标文本向量以及目标图像向量,对所述目标文本向量以及目标图像向量进行归一化计算,得到涵盖所述目标文本向量以及目标图像向量的第二共同表征向量,与S3到S4中获取第一共同表征向量的步骤相同,在此不多赘述。
具体地,通过归一化计算实现了多种特征的融合,所述第一共同表征向量就涵盖了待定特征向量以及实体特征向量的所有向量的特征,所诉第二共同表征向量也涵盖了所述目标文本向量以及目标图像向量的所有向量特征,通过归一化处理能够简化后续计算,不需要将所有特征逐个进行计算匹配,节约了大量时间,简化了查询过程。
S6、计算所述第一共同表征向量与第二共同表征向量的相似度,取最大相似度对应的第二共同表征向量作为信息查询结果。
本发明实施例中,由于第一共同表征与第二共同表征都是使用多模态模型计算出结果的,因此可以进行相似度计算。
具体地,所述第一共同表征向量是用户对话中获取到的需要查询的信息,所述第二共同表征向量是从预设的目标信息源中获取到的需要匹配的信息,将第一共同表征与第二共同表征逐一进行匹配计算,寻找最符合查询要求的计算结果。
本发明实施例中,所述计算所述第一共同表征向量与第二共同表征向量的相似度,包括:
如下相似度计算方法计算所述第一共同表征向量与第二共同表征向量的相似度:
其中,S为相似度,j为计数变量,n为所述第一共同表征向量与第二共同表征向量的最大个数,w1j为第一共同表征向量,w2j为第二共同表征向量。
详细地,所述取最大相似度对应的第二共同表征向量作为信息查询结果,可以通过MAX函数在计算出的所有相似度中选取最大相似度,选取最大相似度对应的第二共同表征向量作为用户想要查询的结果。
具体地,通过图文结合的形式,利用多模态模型寻找查询结果突破了以往意义上的单靠文字查询检索的方式,使查询结果更加准确快捷,查询内容更加精细丰富。
本发明实施例中,通过基于图文结合的信息查询方法,医生可以向患者介绍预防疾病的方法,比如健康饮食、锻炼等,同时还可以向患者展示相关的图片,这样可以让患者更加形象地理解这些预防措施的意义和重要性。
如图4所示,是本发明一实施例提供的基于图文结合的信息查询装置的功能模块图。
本发明所述基于图文结合的信息查询装置100可以安装于电子设备中。根据实现的功能,所述基于图文结合的信息查询装置100可以包括获取文字模块101、获取图片模块102、编码计算模块103、融合特征模块104、重复计算模块105及确定结果模块106。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述获取文字模块101:根据预设的语义提取算法提取预设的用户对话信息中的实体信息;
所述获取图片模块102:根据所述实体信息在预设的图片标签库内搜索符合所述实体信息的图片确定为待定图片;
所述编码计算模块103:将所述待定图片与所述实体信息利用预设的多模态模型进行编码,将所述待定图片转化成待定特征向量,将所述实体信息转化成实体特征向量;
所述融合特征模块104:将所述图片特征向量与所述文本特征向量进行归一化计算,得到涵盖待定特征向量以及实体特征向量的第一共同表征向量;
所述重复计算模块105:在预设的目标信息源中获取目标的文本信息以及目标的图像信息,利用预设的多模态模型对所述文本信息以及图像信息进行编码,得到目标文本向量以及目标图像向量,对所述目标文本向量以及目标图像向量进行归一化计算,得到涵盖所述目标文本向量以及目标图像向量的第二共同表征向量;
所述确定结果模块106:计算所述第一共同表征向量与第二共同表征向量的相似度,取最大相似度对应的第二共同表征向量作为信息查询结果。
详细地,本发明实施例中所述基于图文结合的信息查询装置100中所述的各模块在使用时采用与上述图1至图3中所述的基于图文结合的信息查询方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图5所示,是本发明一实施例提供的实现基于图文结合的信息查询方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11、通信总线12以及通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如基于图文结合的信息查询程序。
其中,所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行基于图文结合的信息查询程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如基于图文结合的信息查询程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述通信总线12可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
所述通信接口13用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
图中仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图中示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的基于图文结合的信息查询程序是多个指令的组合,在所述处理器10中运行时,可以实现:
根据预设的语义提取算法提取预设的用户对话信息中的实体信息;
根据所述实体信息在预设的图片标签库内搜索符合所述实体信息的图片确定为待定图片;
将所述待定图片与所述实体信息利用预设的多模态模型进行编码,将所述待定图片转化成待定特征向量,将所述实体信息转化成实体特征向量;
将所述图片特征向量与所述文本特征向量进行归一化计算,得到涵盖待定特征向量以及实体特征向量的第一共同表征向量;
在预设的目标信息源中获取目标的文本信息以及目标的图像信息,利用预设的多模态模型对所述文本信息以及图像信息进行编码,得到目标文本向量以及目标图像向量,对所述目标文本向量以及目标图像向量进行归一化计算,得到涵盖所述目标文本向量以及目标图像向量的第二共同表征向量;
计算所述第一共同表征向量与第二共同表征向量的相似度,取最大相似度对应的第二共同表征向量作为信息查询结果。
具体地,所述处理器10对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
根据预设的语义提取算法提取预设的用户对话信息中的实体信息;
根据所述实体信息在预设的图片标签库内搜索符合所述实体信息的图片确定为待定图片;
将所述待定图片与所述实体信息利用预设的多模态模型进行编码,将所述待定图片转化成待定特征向量,将所述实体信息转化成实体特征向量;
将所述图片特征向量与所述文本特征向量进行归一化计算,得到涵盖待定特征向量以及实体特征向量的第一共同表征向量;
在预设的目标信息源中获取目标的文本信息以及目标的图像信息,利用预设的多模态模型对所述文本信息以及图像信息进行编码,得到目标文本向量以及目标图像向量,对所述目标文本向量以及目标图像向量进行归一化计算,得到涵盖所述目标文本向量以及目标图像向量的第二共同表征向量;
计算所述第一共同表征向量与第二共同表征向量的相似度,取最大相似度对应的第二共同表征向量作为信息查询结果。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种基于图文结合的信息查询方法,其特征在于,所述方法包括:
根据预设的语义提取算法提取预设的用户对话信息中的实体信息;
根据所述实体信息在预设的图片标签库内搜索符合所述实体信息的图片确定为待定图片;
将所述待定图片与所述实体信息利用预设的多模态模型进行编码,将所述待定图片转化成待定特征向量,将所述实体信息转化成实体特征向量;
将所述图片特征向量与所述文本特征向量进行归一化计算,得到涵盖待定特征向量以及实体特征向量的第一共同表征向量;
在预设的目标信息源中获取目标的文本信息以及目标的图像信息,利用预设的多模态模型对所述文本信息以及图像信息进行编码,得到目标文本向量以及目标图像向量,对所述目标文本向量以及目标图像向量进行归一化计算,得到涵盖所述目标文本向量以及目标图像向量的第二共同表征向量;
计算所述第一共同表征向量与第二共同表征向量的相似度,取最大相似度对应的第二共同表征向量作为信息查询结果。
2.如权利要求1所述的基于图文结合的信息查询方法,其特征在于,所述根据预设的语义提取算法提取预设的用户对话信息中的实体信息,包括:
去除所述用户对话信息中的无意词,得到精简对话;
对所述精简对话进行分词操作,得到对话分词;
将所述对话分词作为节点建立连接,根据预设的节点权重公式计算所述对话分词的权重;
取大于预设权重阈值的对话分词为实体信息。
3.如权利要求2所述的基于图文结合的信息查询方法,其特征在于,所述根据预设的节点权重公式计算所述对话分词的权重,包括:
利用如下节点权重公式计算所述对话分词的权重:
其中,WS(Vi)为所述对话分词Vi的权重,WS(Vj)为所述对话分词Vj的权重,Vi表示第i个对话分词,Vj表示第j个对话分词,Vk表示其他预设的词语,i表示对话分词的编号,k表示其他词语的编号,j表示不同于i的另一个对话分词的编号,In(Vj)表示所有对话分词的集合,out(Vj)表示对话分词Vj连接其他词语的集合,d为设定的阻尼系数,ωji是对话分词Vi与Vj之间连接线的预设权重,ωjk是对话分词Vk与Vj之间连接线的预设权重。
4.如权利要求1所述的基于图文结合的信息查询方法,其特征在于,所述根据所述实体信息在预设的图片标签库内搜索符合所述实体信息的图片确定为待定图片,包括:
将所述实体信息进行编码,得到实体向量;
将所述图片标签库内的标签进行编码,得到标签向量;
计算所述实体向量与所述标签向量的真实匹配度,将所述真实匹配度大于预设匹配度的标签向量对应的图片确定为待定图片。
5.如权利要求4所述的基于图文结合的信息查询方法,其特征在于,所述计算所述实体向量与所述标签向量的真实匹配度,包括:
利用如下匹配度计算公式计算所述实体向量与所述标签向量的真实匹配度:
其中,P为所述真实匹配度,α为所述实体向量,β为所述标签向量。
6.如权利要求1至5中任一项所述的基于图文结合的信息查询方法,其特征在于,所述将所述待定图片与所述实体信息利用预设的多模态模型进行编码,将所述待定图片转化成待定特征向量,将所述实体信息转化成实体特征向量,包括:
将所述待定图片逐一进行像素编码,将所述待定图片转化成像素向量;
将所有像素向量进行行向量拼接,得到拼接像素;
将所述拼接像素与所述多模态模型中预设的权重矩阵相乘,得到待定特征向量;
将所述实体信息逐一转化成预设维度的向量形式,得到实体特征向量。
7.如权利要求1所述的基于图文结合的信息查询方法,其特征在于,所述将所述图片特征向量与所述文本特征向量进行归一化计算,得到涵盖待定特征向量以及实体特征向量的第一共同表征向量,包括:
利用如下归一化计算公式将所述图片特征向量与所述文本特征向量进行归一化计算:
其中,表示归一化后的第一共同表征向量的权重矩阵参数,/>表示归一化后的图片特征向量与文本特征向量的权重矩阵参数,N表示参数的总量,i表示参数的序列号,/>表示第一共同表征向量权重矩阵参数中第i个参数,/>表示图片特征向量与文本特征向量的权重矩阵参数中第i个参数,/>表示第一共同表征向量权重矩阵参数中新参数最小值,/>表示图片特征向量与文本特征向量的权重矩阵参数中旧参数最小值。
8.一种基于图文结合的信息查询装置,其特征在于,所述装置包括:
获取文字模块:根据预设的语义提取算法提取预设的用户对话信息中的实体信息;
获取图片模块:根据所述实体信息在预设的图片标签库内搜索符合所述实体信息的图片确定为待定图片;
编码计算模块:将所述待定图片与所述实体信息利用预设的多模态模型进行编码,将所述待定图片转化成待定特征向量,将所述实体信息转化成实体特征向量;
融合特征模块:将所述图片特征向量与所述文本特征向量进行归一化计算,得到涵盖待定特征向量以及实体特征向量的第一共同表征向量;
重复计算模块:在预设的目标信息源中获取目标的文本信息以及目标的图像信息,利用预设的多模态模型对所述文本信息以及图像信息进行编码,得到目标文本向量以及目标图像向量,对所述目标文本向量以及目标图像向量进行归一化计算,得到涵盖所述目标文本向量以及目标图像向量的第二共同表征向量;
确定结果模块:计算所述第一共同表征向量与第二共同表征向量的相似度,取最大相似度对应的第二共同表征向量作为信息查询结果。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;
以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的基于图文结合的信息查询方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于图文结合的信息查询方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310699771.3A CN116719904A (zh) | 2023-06-13 | 2023-06-13 | 基于图文结合的信息查询方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310699771.3A CN116719904A (zh) | 2023-06-13 | 2023-06-13 | 基于图文结合的信息查询方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116719904A true CN116719904A (zh) | 2023-09-08 |
Family
ID=87874770
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310699771.3A Pending CN116719904A (zh) | 2023-06-13 | 2023-06-13 | 基于图文结合的信息查询方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116719904A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116955669A (zh) * | 2023-09-19 | 2023-10-27 | 江苏洁瑞雅纺织品有限公司 | 一种纺织品图片特征库的更新*** |
-
2023
- 2023-06-13 CN CN202310699771.3A patent/CN116719904A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116955669A (zh) * | 2023-09-19 | 2023-10-27 | 江苏洁瑞雅纺织品有限公司 | 一种纺织品图片特征库的更新*** |
CN116955669B (zh) * | 2023-09-19 | 2023-12-22 | 江苏洁瑞雅纺织品有限公司 | 一种纺织品图片特征库的更新*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112380859A (zh) | 舆情信息的推荐方法、装置、电子设备及计算机存储介质 | |
CN112988963B (zh) | 基于多流程节点的用户意图预测方法、装置、设备及介质 | |
CN115238670B (zh) | 信息文本抽取方法、装置、设备及存储介质 | |
CN116578704A (zh) | 文本情感分类方法、装置、设备及计算机可读介质 | |
CN116450829A (zh) | 医疗文本分类方法、装置、设备及介质 | |
CN116719904A (zh) | 基于图文结合的信息查询方法、装置、设备及存储介质 | |
CN113157739B (zh) | 跨模态检索方法、装置、电子设备及存储介质 | |
CN116705304A (zh) | 基于图像文本的多模态任务处理方法、装置、设备及介质 | |
CN116705345A (zh) | 医疗实体标注方法、装置、设备及存储介质 | |
CN116383766A (zh) | 基于多模态数据的辅诊方法、装置、设备及存储介质 | |
CN116701635A (zh) | 培训视频文本二分类方法、装置、设备及存储介质 | |
CN116737933A (zh) | 文本分类方法、装置、电子设备及计算机可读存储介质 | |
CN116720525A (zh) | 基于问诊数据的疾病辅助分析方法、装置、设备及介质 | |
CN116681082A (zh) | 离散文本语义分段方法、装置、设备及存储介质 | |
CN116468025A (zh) | 电子病历结构化方法、装置、电子设备及存储介质 | |
CN111414452B (zh) | 搜索词匹配方法、装置、电子设备及可读存储介质 | |
CN114492446A (zh) | 法律文书处理方法、装置、电子设备及存储介质 | |
CN114548114A (zh) | 文本情绪识别方法、装置、设备及存储介质 | |
CN113723114A (zh) | 基于多意图识别的语义分析方法、装置、设备及存储介质 | |
CN114864032B (zh) | 基于his***的临床数据采集方法及装置 | |
CN112528183B (zh) | 基于大数据的网页组件布局方法、装置、电子设备及介质 | |
CN115098644B (zh) | 图像与文本匹配方法、装置、电子设备及存储介质 | |
CN114840560B (zh) | 非结构化数据转化及存储方法和装置 | |
CN113656703B (zh) | 基于新上线课程的智能推荐方法、装置、设备及存储介质 | |
CN114781833B (zh) | 基于业务人员的能力测评方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |