CN117290478A - 一种知识图谱问答方法、装置、设备和存储介质 - Google Patents
一种知识图谱问答方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN117290478A CN117290478A CN202311215605.8A CN202311215605A CN117290478A CN 117290478 A CN117290478 A CN 117290478A CN 202311215605 A CN202311215605 A CN 202311215605A CN 117290478 A CN117290478 A CN 117290478A
- Authority
- CN
- China
- Prior art keywords
- graph
- node
- result candidate
- query
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 239000013598 vector Substances 0.000 claims description 70
- 238000010586 diagram Methods 0.000 claims description 31
- 238000004422 calculation algorithm Methods 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 17
- 230000009467 reduction Effects 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 abstract description 5
- 238000004220 aggregation Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 235000008694 Humulus lupulus Nutrition 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种知识图谱问答方法、装置、设备和存储介质。主要技术方案包括:获取用户输入的询问信息,其中,询问信息包括询问语句,解析询问语句,得到主题查询图,根据主题查询图和预设知识图谱,生成询问语句的结果候选图,计算主题查询图和结果候选图的相似值,根据相似值最大的结果候选图,生成答复信息。主题查询图包含了更丰富的结构特征表示和询问语句的主题信息,避免询问语句的主题信息丢失,通过主题查询图和结果候选图的匹配准确地回应多跳、聚合等复杂问句的答案。
Description
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种知识图谱问答方法、装置、设备和存储介质。
背景技术
知识图谱问答是一种基于知识图谱的自然语言理解和生成技术,旨在解决人类与计算机之间的交互问题。近年来,随着人工智能技术的快速发展,知识图谱问答也得到了广泛的关注和研究。
目前,无论是通用图谱还是一定领域的图谱,其构建的简单问答效果都达到了一个比较好的水平,但在特定领域内,存在着知识图谱不完善、链接缺失等问题给多跳问答带了的诸多挑战,许多方法缺失了对于复杂问句的解析和对于问句的主题信息获取,从而难以在知识图谱中寻找问题答案。
发明内容
基于此,本申请提供了一种知识图谱问答方法、装置、设备和存储介质,能够在在知识图谱中准确地找到多跳、聚合等复杂问句的答案。
第一方面,提供一种知识图谱问答方法,该方法包括:
获取用户输入的询问信息,其中,询问信息包括询问语句;
解析询问语句,得到主题查询图;
根据主题查询图和预设知识图谱,生成询问语句的结果候选图;
计算主题查询图和结果候选图的相似值;
根据相似值最大的结果候选图,生成答复信息。
根据本申请实施例中一种可实现的方式,解析询问语句,得到主题查询图,包括:
通过预先训练的主题抽取模型获取询问语句的字向量;
采用数据降维分析算法对字向量进行降维处理,得到降维字向量;
根据降维字向量,选取询问语句的至少一个主题词;
根据询问语句和至少一个主题词,生成主题查询图。
根据本申请实施例中一种可实现的方式,根据询问语句和至少一个主题词,生成主题查询图,包括:
对询问语句进行语法分析,得到问句依存树图,其中,问句依存树图包括至少一个顶点;
对询问语句进行顶点识别,得到问句实体信息;
对询问语句进行关系抽取,得到实体关系信息;
根据问句依存树图、至少一个主题词、问句实体信息、至少一个顶点和实体关系信息,生成主题查询图。
根据本申请实施例中一种可实现的方式,主题查询图包括第一顶点和目标实体信息,预设知识图谱包括第二顶点;根据主题查询图和预设知识图谱,生成询问语句的结果候选图,包括:
将第一顶点作为实体链接到第二顶点;
根据目标实体信息,匹配主题查询图中的目标实体与预设知识图谱中对应的第二顶点,得到目标第二顶点;
连接目标第二顶点,得到询问语句的结果候选图。
根据本申请实施例中一种可实现的方式,计算主题查询图和结果候选图的相似值,包括:
提取主题查询图和结果候选图中节点的节点信息;
根据节点信息,计算主题查询图和结果候选图的节点相似值;
根据主题查询图和结果候选图的节点相似值,计算主题查询图和结果候选图的相似值。
根据本申请实施例中一种可实现的方式,节点信息包括节点总数、节点总集合和链接节点向量;提取主题查询图和知识图谱子图中节点的节点信息,包括:
采用第一公式计算主题查询图和结果候选图中节点的节点总数,第一公式表示为:
n=|R1|+|R2|
其中,n表示节点总数,R1表示主题查询图的节点集合,R2表示结果候选图的节点集合,|R1|表示主题查询图的节点个数,R2表示结果候选图的节点个数;
采用第二公式计算主题查询图和结果候选图中节点的节点总集合,第二公式表示为:
U=R1∪R2
其中,U表示节点总集合,R1表示主题查询图的节点集合,R2表示结果候选图的节点集合;
采用第三公式和第四公式计算主题查询图和结果候选图中节点的链接节点向量,第三公式表示为:
其中,表示/>中节点度的向量,/>为原始节点u到k跳邻居节点的节点集合,k≥0,u∈U,vector()表示变长数组函数;
当k∈[1,K]时,第四公式表示为:
其中,K为设定的直径,du表示链接节点向量,表示/>为中节点度的向量。
根据节点信息,计算主题查询图和结果候选图的节点相似值,包括:
根据链接节点向量,采用相似度算法计算主题查询图和结果候选图的节点相似值,相似度算法表示为以下公式:
其中,sim(n1,n2)表示节点相似值,γs表示标量参数,表示节点总集合U中主题查询图的节点n1的链接节点向量,/>表示节点总集合U中结果候选图的节点n2的链接节点向量。
根据本申请实施例中一种可实现的方式,根据主题查询图和结果候选图的节点相似值,计算主题查询图和结果候选图的相似值,包括:
根据主题查询图和结果候选图的节点相似值,生成节点相似矩阵;
基于所述节点相似矩阵,采用第五公式计算所述主题查询图和所述结果候选图的相似值,所述第五公式可以表示为:
其中,α表示主题查询图与结果候选图的相似值,simij表示主题查询图中第i个节点和结果候选图中第j个节点的节点相似值,|R1|表示主题查询图的节点个数,|R2|表示结果候选图的节点个数。
第二方面,提供了一种知识图谱问答装置,该装置包括:
获取模块,用于获取用户输入的询问信息,其中,询问信息包括询问语句;
解析模块,用于解析询问语句,得到主题查询图;
第一生成模块,用于根据主题查询图和预设知识图谱,生成询问语句的结果候选图;
计算模块,用于计算主题查询图和结果候选图的相似值;
第二生成模块,用于根据相似值最大的结果候选图,生成答复信息。
第三方面,提供了一种计算机设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机指令,所述计算机指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面中涉及的方法。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令用于使计算机执行上述第一方面中涉及的方法。
根据本申请实施例所提供的技术内容,通过获取用户输入的询问信息,其中,询问信息包括询问语句,解析询问语句,得到主题查询图,根据主题查询图和预设知识图谱,生成询问语句的结果候选图,计算主题查询图和结果候选图的相似值,根据相似值最大的结果候选图,生成答复信息,主题查询图包含了更丰富的结构特征表示和询问语句的主题信息,避免询问语句的主题信息丢失,通过主题查询图和结果候选图的匹配准确地回应多跳、聚合等复杂问句的答案。
附图说明
图1为一个实施例中知识图谱问答方法的应用环境图;
图2为一个实施例中知识图谱问答方法的流程示意图;
图3为一个实施例中知识图谱问答装置的结构框图;
图4为一个实施例中计算机设备的示意性结构图。
具体实施方式
以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
知识图谱问答是自然语言领域在智能问答应用中的技术路线之一,而作为一种底层基于知识图谱的问答技术,相比于基于阅读理解的问答方法和基于常见问题的问答方法,知识图谱问答可以结合行业图谱其高级的信息检索服务模型,通过确认、反馈、整合等操作完成信息提取。
目前,知识图谱问答已经成为了自然语言处理领域的一个重要研究方向。在医疗、金融、政务等领域被广泛应用。例如,在医疗领域中,知识图谱问答可以帮助医生快速准确地诊断疾病,提高医疗效率;在金融领域中,知识图谱问答可以帮助投资者更好地了解市场动态,做出更明智的投资决策;在政务领域中,知识图谱问答可以帮助政府更好地了解民意需求,提供更好的公共服务。
未来,基于知识图谱的问答***应以构建回答准确率高、可解释性强、稳定性强的模型为目标,不断迭代更新知识图谱问答领域的技术。同时,还需要加强对知识图谱的质量控制和数据管理,提高知识图谱的可信度和可用性。
知识图谱问答的基本原理是将用户提出的问题转化为机器可理解的形式,然后通过查询知识图谱来获取答案,最后将答案转化为人类可理解的形式返回给用户。具体来说,知识图谱问答包括以下几个步骤:
(1)问题表示:将用户提出的问题转化为机器可理解的形式,例如使用自然语言处理技术对问题进行分词、命名实体识别等操作。
查询知识图谱:使用图数据库等技术查询知识图谱,获取与问题相关的实体、属性等信息。
(2)答案生成:根据查询到的信息生成答案,可以使用文本生成模型、模板匹配等技术。
(3)答案表示:将生成的答案转化为人类可理解的形式,例如使用自然语言生成技术对答案进行语法分析、语义消歧等操作。
知识图谱问答可以分为基于序列编码的方法和基于路径编码的方法,其中,序列编码即利用字或词的向量模型,将问句中的词汇或者字转变成向量,通过序列向量进行问句表示,例如一种改进的分阶段查询图方法(Query Graph Generation,QGG)将预训练好的来自Transformers的双向编码器表示(Bidirectional Encoder Representation fromTransformers,BERT)模型应用到问句当中,将问句进行字向量便是,然后进行查询图的预测任务,知识图谱问答更是直接的将卷积神经网络应用到问句序列与路径序列当中,进行编码任务,通过计算内积相似度找到答案。自主访问控制模型是通过一种双向的门控循环单元模型对问句进行编码表示。以上这些方法,大多数都是将BERT预训练模型应用当中,也为本研究提供了一定的理论基础和实践基础,虽然序列编码缺乏可解释性,但通过实验表明这种深度学习产生的向量表示自然语言的方法在性能上有着明显的领先地位。
路径方法则更为直观地能够观察到编码序列,具体的就是对于问句本身的语法路径进行编码的一种方法,例如依存树模型,或者结构路径模型等。语法路径信息包含了更多关于问句主语谓语宾语的信息,也更加能辨明询问的自然语言本身的重点语义,而结构表示的方法也成为了图表示方法的一种,例如康柏CompAQ是一种利用循环神经网络对于疑问句中实体信息的依存路径表示方法。路径方法虽然能更加直观,但缺少了问句整体的结构信息,并且丢失了实体本身的语言含义。
为了解决现有技术问题,本申请实施例提供了一种知识图谱问答方法、装置、设备及计算机存储介质。
为了方便理解,首先对本申请所适用的***进行描述。本申请提供的知识图谱问答方法,可以应用于如图1所示的***架构中。其中,终端110通过网络与服务器120通过网络进行通信。用户通过终端110输入询问信息,服务器120获取用户输入的询问信息,其中,询问信息包括询问语句,解析询问语句,得到主题查询图,根据主题查询图和预设知识图谱,生成询问语句的结果候选图,计算主题查询图和所结果候选图的相似值,根据相似值最大的结果候选图,生成答复信息。其中,终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑,服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
图2示出了本申请一个实施例提供的知识图谱问答方法的流程示意图。如图2所示,该方法可以包括以下步骤:
S210,获取用户输入的询问信息。
其中,询问信息包括询问语句、询问用户、询问时间、询问类型等信息。
用户通过终端设备的触控显示屏或者按键输入询问语句,或者根据已展示的询问语句选择需要咨询的询问语句,终端设备接收到用户输入的操作信息之后,生成询问信息发送给服务器。服务器接收用户输入的询问信息,对其进行后续处理。
S220,解析询问语句,得到主题查询图。
主题查询图是一种包含主题词的复杂语句图。通过解析询问语句得到主题词,然后对询问语句进行语法分析得到一张依存树图,接着进行顶点识别得到询问语句的实体信息,抽取询问语句中实体之间的连接关系,最后,根据实体信息和连接关系将主题词***依存树图,得到主题查询图,主题查询图包括主题词、实体和至少一个顶点。
S230,根据主题查询图和预设知识图谱,生成询问语句的结果候选图。
预设知识图谱是预先设置的某个领域的结构化语义知识库,用于描述真实世界中各种实体和概念,以及他们之间的关系,其基本组成单位是实体-关系-实体三元组,实体间通过关系相互联结,构成网状的知识结构。
利用主题查询图去预设知识图谱当中找到多个相关子图,再将多个子图与主题查询图进行匹配,这些子图就是结果候选图,结果候选图属于预设知识图谱的一部分,能够尽可能对应询问语句表达的含义。其中,结果候选图包括实体和至少一个顶点。
S240,计算主题查询图和结果候选图的相似值。
将主题查询图中主题词和实体作为一个节点,将结果候选图中的实体作为一个节点。提取主题查询图和结果候选图中所有节点的节点信息,其中,节点信息包括每个节点的向量信息,向量信息包括节点本身的向量,也包括与其链接的节点的向量。在找到所有节点的向量信息之后,计算主题查询图和结果候选图节点之间的相似值,累加节点之间的相似值,得到主题查询图和结果候选图的相似值。
S250,根据相似值最大的结果候选图,生成答复信息。
相似值最大的结果候选图为询问语句最优答案的图结构,该图经过转换可以生成标准的查询语句在知识图谱中执行,获得询问语句的答案,生成答复信息发送至终端,反馈给用户。
可以看出,本申请实施例通过获取用户输入的询问信息,其中,询问信息包括询问语句,解析询问语句,得到主题查询图,根据主题查询图和预设知识图谱,生成询问语句的结果候选图,计算主题查询图和结果候选图的相似值,根据相似值最大的结果候选图,生成答复信息,主题查询图包含了更丰富的结构特征表示和询问语句的主题信息,避免询问语句的主题信息丢失,通过主题查询图和结果候选图的匹配准确地回应多跳、聚合等复杂问句的答案。
下面对上述方法流程中的各步骤进行详细描述。首先结合实施例对上述S220即“解析询问语句,得到主题查询图”进行详细描述。
作为一种可实现的方式,通过预先训练的主题抽取模型获取询问语句的字向量;
采用数据降维分析算法对字向量进行降维处理,得到降维字向量;
根据降维字向量,选取询问语句的至少一个主题词;
根据询问语句和至少一个主题词,生成主题查询图。
其中,预先训练的主题抽取模型为基于业务技术平台(Business TechnologyPlatform,BTP)的主题抽取模型,是以BERTopic模型为基础,可以利用BERT算法进行字向量生成的模型,该模型还包括数据降维分析算法和聚类算法。
在获取询问语句的字向量后,降维阶段主题抽取模型采用了主成分分析(Principal Component Analysis,PCA)算法作为数据降维分析算法,PCA算法通过将高维数据降维,整合到更低维度的空间上,能够更加有效地理解数据,提取数据本身更重要的信息组成,虽然降维后的数据很难用文字解释其含义,但是每一维度的数据都包含了原有数据的饱和信息,能够更加直观的呈现数据本身价值。例如,当数据降维到二维、三维空间时,能够用更加清晰的图将之表达出来。采用PCA算法处理后的字向量为降维字向量。
主题抽取模型采用HDBSCAN文本聚类算法对降维字向量进行聚类,利用原有函数进行簇关键词的选取方式,得到询问语句的至少一个主题词。通过主题抽取模型将询问语句和选取的主题词进行多对多的匹配,使得每一个询问语句都有属于自己的主题词汇,缩小了知识图谱查询的范围。
作为一种可实现的方式,根据询问语句和至少一个主题词,生成主题查询图,包括:
对询问语句进行语法分析,得到问句依存树图,其中,问句依存树图包括至少一个顶点;
对询问语句进行顶点识别,得到问句实体信息;
对询问语句进行关系抽取,得到实体关系信息;
根据问句依存树图、至少一个主题词、问句实体信息、至少一个顶点和实体关系信息,生成主题查询图。
采用句法依存树的方法对询问语句进行语法分析,得到问句依存树图,问句依存树图是一种宏观结构图,包括至少一个顶点。句法依存树是一种用于分析自然语言句子结构的图形表示方法。它由一个树形结构组成,其中每个节点代表一个语法单位,如单词、短语或句子。
在句法依存树中,每个节点都与其父节点和子节点相关联,表示它们之间的依赖关系。例如,在一个句子“我正在吃苹果”中,“我”是主语,“正在”是谓语动词的现在进行时,“吃”是谓语动词,“苹果”是宾语。这些语法单位可以被组织成一棵树,其中“我”是根节点,它的子节点包括“正在”、“吃”和“苹果”。
采用BERT分类器和自然语言分析工具CoreNLP对询问语句进行顶点识别,得到问句实体信息问句实体信息包括问句实体,问题实体的向量表示和类型变量等。
采用分割模型BLSTM-crf模型对询问语句进行关系抽取,得到实体关系信息,实体关系信息包括询问语句中实体之间的连接关系。
根据主题词之间的向量相似度将相近的主题词合并在一起,主题词和各个实体之间根据字向量空间的sim近似值最大链接,将实体与至少一个顶点链接,至少一个顶点根据实体之间的连接关系进行连线,将顶点之间的连线与问句依存树图中的关系线叠加得到主题查询图。
下面结合实施例对上述步骤S230即“根据主题查询图和预设知识图谱,生成询问语句的结果候选图”进行详细描述。
作为一种可实现的方式,将第一顶点作为实体链接到第二顶点;
根据目标实体信息,匹配主题查询图中的目标实体与预设知识图谱中对应的第二顶点,得到目标第二顶点;
连接目标第二顶点,得到询问语句的结果候选图。
主题查询图包括第一顶点和目标实体信息,第一顶点为主题查询图中与询问语句相关的顶点,目标实体信息为主题查询图中与询问语句相关的实体信息,可以包括目标实体的名称、类型和属性等。预设知识图谱包括第二顶点,第二顶点为预设知识图谱中与第一顶点对应的顶点。
将主题查询图当中各个顶点作为实体,通过基于词典的实体链接方法,链接到预设知识图谱中对应的第二顶点当中,作为结果候选图的实体提及。根据目标实体信息确定主题查询图中的目标实体,将目标实体与预设知识图谱中的实体进行匹配,将匹配成功的实体对应的第二顶点为目标第二顶点,完成子图搜索。连接目标第二顶点,得到询问语句的结果候选图。在解析多跳、复合的询问语句时,可以设置不同的步长从而实现多跳、复合问答的需求。
下面结合实施例对上述步骤S240即“计算主题查询图和结果候选图的相似值”进行详细描述。
作为一种可实现的方式,提取主题查询图和结果候选图中节点的节点信息;
根据节点信息,计算主题查询图和结果候选图的节点相似值;
根据主题查询图和结果候选图的节点相似值,计算主题查询图和结果候选图的相似值。
节点信息可以包括节点总数、节点总集合和链接节点向量,其中,链接节点为从原始节点到k跳的邻居节点,原始节点经过一条边,则k=1,链接节点向量为原始节点到k跳邻居节点的向量,每个节点可以是询问语句中任意词语。采用第一公式计算主题查询图和结果候选图中节点的节点总数,第一公式表示为:
n=|R1|+|R2| (1)
其中,n表示节点总数,R1表示主题查询图的节点集合,R2表示结果候选图的节点集合;
采用第二公式计算主题查询图和结果候选图中节点的节点总集合,第二公式表示为:
U=R1∪R2 (2)
其中,U表示节点总集合,R1表示主题查询图的节点集合,R2表示结果候选图的节点集合;
采用第三公式和第四公式计算主题查询图和结果候选图中节点的链接节点向量,第三公式表示为:
其中,表示/>中节点度的向量,/>为原始节点u到k跳邻居节点的节点集合,k≥0,u∈U,vector()表示变长数组函数;
当k∈[1,K]时,第四公式表示为:
其中,K为设定的直径,du表示链接节点向量,表示/>为中节点度的向量。
根据节点信息,计算主题查询图和结果候选图的节点相似值,包括:
根据链接节点向量,采用相似度算法计算主题查询图和结果候选图的节点相似值,相似度算法表示为以下公式:
其中,sim(n1,n2)表示节点相似值,λs表示标量参数,表示节点总集合U中主题查询图的节点n1的链接节点向量,/>表示节点总集合U中结果候选图的节点n2的链接节点向量。
作为一种可实现的方式,根据主题查询图和结果候选图的节点相似值,计算主题查询图和结果候选图的相似值,包括:
根据主题查询图和结果候选图的节点相似值,生成节点相似矩阵;
基于节点相似矩阵,采用第五公式计算主题查询图和结果候选图的相似值,第五公式可以表示为:
其中,α表示主题查询图与结果候选图的相似值,simij表示主题查询图中第i个节点和结果候选图中第j个节点的节点相似值,|R1|表示主题查询图的节点个数,|R2|表示结果候选图的节点个数。
在完成节点身份的提取,得到主题查询图和结果候选图的节点相似值后,对主题查询图和结果候选图中的节点做出相似性的判别,利用基于隐式矩阵分解的方法,构建结构和属性的节点相似矩阵,该矩阵考虑了在不同领域的亲缘关系。
首先,构建n×p的节点嵌入矩阵,其中,n为节点总数,p为小于n的随机选择的节点数量。为了减少n×p相似度的计算,在主题查询图和结果候选图中随机选择p=n的节点,确定该节点与节点总集合U中所有n个节点的节点相似值,得到一个n×p的局部节点相似矩阵C。节点相似矩阵S可以表示为以下公式:
S=CU∑1/2 (7)
其中,C表示n个节点与p个随机选择的节点之间的节点相似矩阵,U表示节点总集合。
由于主题查询图中的节点在结果候选图中可能存在多个相似节点,在得到节点相似矩阵之后,根据主题查询图中节点与结果候选图中节点的节点相似值的大小,确定在结果候选图中与主题查询图中节点的节点相似值最大的节点为最相似节点,将最相似节点与主题查询图中节点的节点相似值作为最终相似值,,其余比较相似的节点对应的节点相似值用0表示。节点相似矩阵包含了主题查询图中节点与其在结果候选图中最相似节点的节点相似值,便于获取主题查询图和结果候选图的节点相似度。
通过公式(6)累加主题查询图中每个节点在结果候选图中最相似的节点对应的节点相似值,得到主题查询图和结果候选图的相似值。
在本申请实施例中,通过获取主题词融入到复杂语句树图当中,根据实体链接等方法在预设知识图谱当中找到相应的子图,即结果候选图,最终根据图匹配的方法进行结果候选图与主题查询图的匹配,确定两张图的相似度,充分利用了依存树结构的信息,从而获得了更丰富的结构特征表示,并且利用BERT的字向量方法获取主题添加了询问语句的主题信息,进而解决了知识图谱的问句导向问题,最终的图匹配方法也是从图的角度解决了多跳、聚合等复杂问句的问题。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本申请中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
图3为本申请实施例提供的一种知识图谱问答装置的结构示意图,该装置可以设置于图1所示***中的服务器120,用以执行如图2中所示的方法流程。如图3所示,该装置可以包括:获取模块310、解析模块320、第一生成模块330、计算模块340和第二生成模块350,还可以进一步包括:提取模块。其中各组成模块的主要功能如下:
获取模块310,用于获取用户输入的询问信息,其中,所述询问信息包括询问语句;
解析模块320,用于解析所述询问语句,得到主题查询图;
第一生成模块330,用于根据所述主题查询图和预设知识图谱,生成所述询问语句的结果候选图;
计算模块340,用于计算所述主题查询图和所述结果候选图的相似值;
第二生成模块350,用于根据相似值最大的结果候选图,生成答复信息。
作为一种可实现的方式,解析模块320,具体用于:
通过预先训练的主题抽取模型获取询问语句的字向量;
采用数据降维分析算法对字向量进行降维处理,得到降维字向量;
根据降维字向量,选取询问语句的至少一个主题词;
根据询问语句和至少一个主题词,生成主题查询图。
作为一种可实现的方式,第一生成模块330,具体用于:
对询问语句进行语法分析,得到问句依存树图,其中,问句依存树图包括至少一个顶点;
对询问语句进行顶点识别,得到问句实体信息;
对询问语句进行关系抽取,得到实体关系信息;
根据问句依存树图、至少一个主题词、问句实体信息、至少一个顶点和实体关系信息,生成主题查询图。
作为一种可实现的方式,主题查询图包括第一顶点和目标实体信息,预设知识图谱包括第二顶点;第一生成模块330,具体用于:
将第一顶点作为实体链接到第二顶点;
根据目标实体信息,匹配主题查询图中的目标实体与预设知识图谱中对应的第二顶点,得到目标第二顶点;
连接目标第二顶点,得到询问语句的结果候选图。
作为一种可实现的方式,计算模块340,具体用于:
提取主题查询图和结果候选图中节点的节点信息;
根据节点信息,计算主题查询图和结果候选图的节点相似值;
根据主题查询图和结果候选图的节点相似值,计算主题查询图和结果候选图的相似值。
作为一种可实现的方式,节点信息包括节点总数、节点总集合和链接节点向量;所述装置还包括提取模块,用于:
采用第一公式计算主题查询图和结果候选图中节点的节点总数,第一公式表示为:
n=|R1|+|R2|
其中,n表示节点总数,R1表示主题查询图的节点集合,R2表示结果候选图的节点集合,|R1|表示主题查询图的节点个数,R2表示结果候选图的节点个数;
采用第二公式计算主题查询图和结果候选图中节点的节点总集合,第二公式表示为:
U=R1∪R2
其中,U表示节点总集合,R1表示主题查询图的节点集合,R2表示结果候选图的节点集合;
采用第三公式和第四公式计算主题查询图和结果候选图中节点的链接节点向量,第三公式表示为:
其中,表示/>中节点度的向量,/>为原始节点u到k跳邻居节点的节点集合,k≥0,u∈U,vector()表示变长数组函数;
当k∈[1,K]时,第四公式表示为:
其中,K为设定的直径,du表示链接节点向量,表示/>为中节点度的向量。
根据节点信息,计算主题查询图和结果候选图的节点相似值,包括:
根据链接节点向量,采用相似度算法计算主题查询图和结果候选图的节点相似值,相似度算法表示为以下公式:
其中,sim(n1,n2)表示节点相似值,γs表示标量参数,表示节点总集合U中主题查询图的节点n1的链接节点向量,/>表示节点总集合U中结果候选图的节点n2的链接节点向量。
作为一种可实现的方式,计算模块340,具体用于:
根据主题查询图和结果候选图的节点相似值,生成节点相似矩阵;
基于所述节点相似矩阵,采用第五公式计算所述主题查询图和所述结果候选图的相似值,所述第五公式可以表示为:
其中,α表示主题查询图与结果候选图的相似值,simij表示主题查询图中第i个节点和结果候选图中第j个节点的节点相似值,|R1|表示主题查询图的节点个数,|R2|表示结果候选图的节点个数。
上述各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,本申请实施例中可能会涉及到对用户数据的使用,在实际应用中,可以在符合所在国的适用法律法规要求的情况下(例如用户明确同意,对用户切实通知,用户明确授权等),在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。
根据本申请的实施例,本申请还提供了一种计算机设备、一种计算机可读存储介质。
如图4所示,是根据本申请实施例的计算机设备的框图。计算机设备旨在表示各种形式的数字计算机或移动装置。其中数字计算机可以包括台式计算机、便携式计算机、工作台、个人数字助理、服务器、大型计算机和其它适合的计算机。移动装置可以包括平板电脑、智能电话、可穿戴式设备等。
如图4所示,设备400包括计算单元401、ROM 402、RAM 403、总线404以及输入/输出(I/O)接口405,计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
计算单元401可以根据存储在只读存储器(ROM)402中的计算机指令或者从存储单元408加载到随机访问存储器(RAM)403中的计算机指令,来执行本申请方法实施例中的各种处理。计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401可以包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。在一些实施例中,本申请实施例提供的方法可被实现为计算机软件程序,其被有形地包含于计算机可读存储介质,例如存储单元408。
RAM 403还可存储设备400操作所需的各种程序和数据。计算机程序的部分或者全部可以经由ROM 802和/或通信单元409而被载入和/或安装到设备400上。
设备400中的输入单元406、输出单元407、存储单元408和通信单元409可以连接至I/O接口405。其中,输入单元406可以是诸如键盘、鼠标、触摸屏、麦克风等;输出单元407可以是诸如显示器、扬声器、指示灯等。设备400能够通过通信单元409与其他设备进行信息、数据等的交换。
需要说明的是,该设备还可以包括实现正常运行所必需的其他组件。也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件和/或它们的组合中实现。
用于实施本申请的方法的计算机指令可以采用一个或多个编程语言的任何组合来编写。这些计算机指令可以提供给计算单元401,使得计算机指令当由诸如处理器等计算单元401执行时使执行本申请方法实施例中涉及的各步骤。
本申请提供的计算机可读存储介质可以是有形的介质,其可以包含或存储计算机指令,用以执行本申请方法实施例中涉及的各步骤。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的等形式的存储介质。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (10)
1.一种知识图谱问答方法,其特征在于,所述方法包括:
获取用户输入的询问信息,其中,所述询问信息包括询问语句;
解析所述询问语句,得到主题查询图;
根据所述主题查询图和预设知识图谱,生成所述询问语句的结果候选图;
计算所述主题查询图和所述结果候选图的相似值;
根据相似值最大的结果候选图,生成答复信息。
2.根据权利要求1所述的方法,其特征在于,所述解析所述询问语句,得到主题查询图,包括:
通过预先训练的主题抽取模型获取所述询问语句的字向量;
采用数据降维分析算法对所述字向量进行降维处理,得到降维字向量;
根据所述降维字向量,选取所述询问语句的至少一个主题词;
根据所述询问语句和所述至少一个主题词,生成主题查询图。
3.根据权利要求2所述的方法,其特征在于,所述根据所述询问语句和所述至少一个主题词,生成主题查询图,包括:
对所述询问语句进行语法分析,得到问句依存树图,其中,所述问句依存树图包括至少一个顶点;
对所述询问语句进行顶点识别,得到问句实体信息;
对所述询问语句进行关系抽取,得到实体关系信息;
根据所述问句依存树图、所述至少一个主题词、所述问句实体信息、所述至少一个顶点和所述实体关系信息,生成主题查询图。
4.根据权利要求1所述的方法,其特征在于,所述主题查询图包括第一顶点和目标实体信息,所述预设知识图谱包括第二顶点;所述根据所述主题查询图和预设知识图谱,生成所述询问语句的结果候选图,包括:
将所述第一顶点作为实体链接到所述第二顶点;
根据所述目标实体信息,匹配所述主题查询图中的目标实体与所述预设知识图谱中对应的第二顶点,得到目标第二顶点;
连接所述目标第二顶点,得到所述询问语句的结果候选图。
5.根据权利要求1所述的方法,其特征在于,计算所述主题查询图和所述结果候选图的相似值,包括:
提取所述主题查询图和所述结果候选图中节点的节点信息;
根据所述节点信息,计算所述主题查询图和所述结果候选图的节点相似值;
根据所述主题查询图和所述结果候选图的节点相似值,计算所述主题查询图和所述结果候选图的相似值。
6.根据权利要求5所述的方法,其特征在于,所述节点信息包括节点总数、节点总集合和链接节点向量;所述提取所述主题查询图和所述知识图谱子图中节点的节点信息,包括:
采用第一公式计算所述主题查询图和所述结果候选图中节点的节点总数,所述第一公式表示为:
n=|R1|+|R2|
其中,n表示节点总数,R1表示主题查询图的节点集合,R2表示结果候选图的节点集合,|R1|表示主题查询图的节点个数,R2表示结果候选图的节点个数;
采用第二公式计算所述主题查询图和所述结果候选图中节点的节点总集合,所述第二公式表示为:
U=R1∪R2
其中,U表示节点总集合,R1表示主题查询图的节点集合,R2表示结果候选图的节点集合;
采用第三公式和第四公式计算所述主题查询图和所述结果候选图中节点的链接节点向量,所述第三公式表示为:
其中,表示/>中节点度的向量,/>为原始节点u到k跳邻居节点的节点集合,k≥0,u∈U,vector()表示变长数组函数;
当k∈[1,K]时,所述第四公式表示为:
其中,K为设定的直径,du表示链接节点向量,表示/>为中节点度的向量。
所述根据所述节点信息,计算所述主题查询图和所述结果候选图的节点相似值,包括:
根据所述链接节点向量,采用相似度算法计算所述主题查询图和所述结果候选图的节点相似值,所述相似度算法表示为以下公式:
其中,sim(n1,n2)表示节点相似值,γs表示标量参数,表示节点总集合U中主题查询图的节点n1的链接节点向量,/>表示节点总集合U中结果候选图的节点n2的链接节点向量。
7.根据权利要求6所述的方法,其特征在于,所述根据所述主题查询图和所述结果候选图的节点相似值,计算所述主题查询图和所述结果候选图的相似值,包括:
根据所述主题查询图和所述结果候选图的节点相似值,生成节点相似矩阵;
基于所述节点相似矩阵,采用第五公式计算所述主题查询图和所述结果候选图的相似值,所述第五公式可以表示为:
其中,α表示主题查询图与结果候选图的相似值,simij表示主题查询图中第i个节点和结果候选图中第j个节点的节点相似值,|R1|表示主题查询图的节点个数,|R2|表示结果候选图的节点个数。
8.一种知识图谱问答装置,其特征在于,所述装置包括:
获取模块,用于获取用户输入的询问信息,其中,所述询问信息包括询问语句;
解析模块,用于解析所述询问语句,得到主题查询图;
第一生成模块,用于根据所述主题查询图和预设知识图谱,生成所述询问语句的结果候选图;
计算模块,用于计算所述主题查询图和所述结果候选图的相似值;
第二生成模块,用于根据相似值最大的结果候选图,生成答复信息。
9.一种计算机设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机指令,所述计算机指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令用于使计算机执行权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311215605.8A CN117290478A (zh) | 2023-09-20 | 2023-09-20 | 一种知识图谱问答方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311215605.8A CN117290478A (zh) | 2023-09-20 | 2023-09-20 | 一种知识图谱问答方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117290478A true CN117290478A (zh) | 2023-12-26 |
Family
ID=89252754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311215605.8A Pending CN117290478A (zh) | 2023-09-20 | 2023-09-20 | 一种知识图谱问答方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117290478A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117573849A (zh) * | 2024-01-16 | 2024-02-20 | 之江实验室 | 一种知识图谱多跳问答方法、装置、设备及存储介质 |
-
2023
- 2023-09-20 CN CN202311215605.8A patent/CN117290478A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117573849A (zh) * | 2024-01-16 | 2024-02-20 | 之江实验室 | 一种知识图谱多跳问答方法、装置、设备及存储介质 |
CN117573849B (zh) * | 2024-01-16 | 2024-04-19 | 之江实验室 | 一种知识图谱多跳问答方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10262062B2 (en) | Natural language system question classifier, semantic representations, and logical form templates | |
CN116775847B (zh) | 一种基于知识图谱和大语言模型的问答方法和*** | |
WO2017092380A1 (zh) | 用于人机对话的方法、神经网络***和用户设备 | |
CN111159409B (zh) | 基于人工智能的文本分类方法、装置、设备、介质 | |
US20220406034A1 (en) | Method for extracting information, electronic device and storage medium | |
US20220245353A1 (en) | System and method for entity labeling in a natural language understanding (nlu) framework | |
US11354599B1 (en) | Methods and systems for generating a data structure using graphical models | |
CN112287085B (zh) | 语义匹配方法、***、设备及存储介质 | |
US20220114340A1 (en) | System and method for an automatic search and comparison tool | |
US20220245361A1 (en) | System and method for managing and optimizing lookup source templates in a natural language understanding (nlu) framework | |
US20230094730A1 (en) | Model training method and method for human-machine interaction | |
CN117290478A (zh) | 一种知识图谱问答方法、装置、设备和存储介质 | |
CN114153994A (zh) | 医保信息问答方法及装置 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
US20220237383A1 (en) | Concept system for a natural language understanding (nlu) framework | |
CN115759119A (zh) | 一种金融文本情感分析方法、***、介质和设备 | |
Zhen et al. | The research of convolutional neural network based on integrated classification in question classification | |
CN110309252B (zh) | 一种自然语言处理方法及装置 | |
US20220229990A1 (en) | System and method for lookup source segmentation scoring in a natural language understanding (nlu) framework | |
US20220245352A1 (en) | Ensemble scoring system for a natural language understanding (nlu) framework | |
US20220229987A1 (en) | System and method for repository-aware natural language understanding (nlu) using a lookup source framework | |
CN114398903B (zh) | 意图识别方法、装置、电子设备及存储介质 | |
US20220229986A1 (en) | System and method for compiling and using taxonomy lookup sources in a natural language understanding (nlu) framework | |
CN113886535B (zh) | 基于知识图谱的问答方法、装置、存储介质及电子设备 | |
CN113111136B (zh) | 一种基于ucl知识空间的实体消歧方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |