CN117725555B - 多源知识树的关联融合方法、装置、电子设备及存储介质 - Google Patents
多源知识树的关联融合方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117725555B CN117725555B CN202410176275.4A CN202410176275A CN117725555B CN 117725555 B CN117725555 B CN 117725555B CN 202410176275 A CN202410176275 A CN 202410176275A CN 117725555 B CN117725555 B CN 117725555B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- node
- nodes
- tree
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims description 37
- 238000000034 method Methods 0.000 claims abstract description 55
- 230000004927 fusion Effects 0.000 claims abstract description 50
- 238000004364 calculation method Methods 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 10
- 239000013598 vector Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了多源知识树的关联融合方法、装置、电子设备及存储介质,包括:对多个知识树进行处理,确定出不同的知识树簇;基于每一知识树簇中的多个知识节点的字符特征、语义特征以及结构特征对知识树簇中的不同知识树之间的任意两个知识节点进行节点关联度计算,确定出知识树簇中的多个关联知识节点列表;将每个关联知识节点列表中的多个关联知识节点的属性进行整合,确定出每个关联知识节点列表的合并知识节点,并基于权重最大化方法从关联知识节点列表中确定出关联知识节点列表的中间知识节点,并将中间知识节点作为合并知识节点;对知识树簇中的每个合并知识节点进行属性以及关系更新,生成一个融合知识树,从而提供更全面和综合的知识树。
Description
技术领域
本申请涉及知识树融合技术领域,尤其是涉及多源知识树的关联融合方法、装置、电子设备及存储介质。
背景技术
近年来,随着信息技术和大数据分析的快速发展,人们对知识管理和知识融合的需求越来越迫切。在许多领域,例如学术研究、企业管理和决策支持等,知识的关联和融合对于获取全面的信息和深入洞察问题至关重要。传统的知识融合方法主要依靠人工手动整合和分析,这种方法受制于时间、资源和主观因素的限制,效率较低并且容易引入主观偏差。因此,需要一种自动化且可靠的方法来进行知识的关联和融合。常见的知识表示模型是知识树,它通过节点和边的方式将知识元素组织在一起,形成了一种结构化的知识表示方式。知识树的节点可以表示领域中的概念、实体等,而边则表示节点之间的关系。然而,现有的知识树融合方法主要存在以下几个问题:1)知识树的节点关联需要进行大量的两两计算,导致计算效率低下。2)现有方法仅依赖于节点之间的相似性来浅层关联知识树,而忽视了节点之间更深层次的关联。这种方法限制了对知识树的全面理解和分析的能力。所以,如何对知识树进行融合成为了不容小觑的技术问题。
发明内容
有鉴于此,本申请的目的在于提供多源知识树的关联融合方法、装置、电子设备及存储介质,通过将不同知识树中的相同或相关的知识节点合并,去除重复和冗余的知识,提高知识的准确性以及提高知识的可信度,并且不同的知识树可能包含对同一概念或主题的不同方面的描述,通过将这些不同知识树中的相关知识节点进行关联融合,可以整合并展示不同知识源的观点和信息,从而提供更全面和综合的知识树。
本申请实施例提供了一种多源知识树的关联融合方法,所述关联融合方法包括:
对多个知识树进行知识聚类处理,确定出不同的知识树簇;
基于每一所述知识树簇中的多个知识节点的字符特征、语义特征以及结构特征对所述知识树簇中的不同知识树之间的任意两个知识节点进行节点关联度计算,确定出所述知识树簇中的多个关联知识节点列表;
将每个所述关联知识节点列表中的多个关联知识节点的属性进行整合,确定出每个所述关联知识节点列表的合并知识节点,并基于权重最大化方法从所述关联知识节点列表中确定出所述关联知识节点列表的中间知识节点,并将所述中间知识节点作为合并知识节点;
对所述知识树簇中的每个所述合并知识节点进行属性以及关系更新,生成一个融合知识树。
在一种可能的实施方式之中,所述对多个知识树进行知识聚类处理,确定出不同的知识树簇,包括:
对每一所述知识树的结构特征以及内容特征进行提取,确定出每个所述知识树的知识特征信息;
基于余弦相似度的计算公式对任意两个所述知识树的知识特征信息进行计算,确定出任意两个所述知识树之间的相似度;
使用聚类算法基于多个任意两个所述知识树之间的相似度将相似的知识树聚类在一起,确定出不同的所述知识树簇。
在一种可能的实施方式之中,所述基于每一所述知识树簇中的多个知识节点的字符特征、语义特征以及结构特征对所述知识树簇中的不同知识树之间的任意两个知识节点进行节点关联度计算,确定出所述知识树簇中的多个关联知识节点列表,包括:
对不同知识树之间的任意两个知识节点的字符特征进行计算,确定出任意两个知识节点之间的编辑距离相似度以及最长公共子序列相似度;
对不同知识树之间的任意两个知识节点的语义特征进行计算,确定出任意两个知识节点之间的语义相似度;
对任意两个知识节点之间的所述编辑距离相似度、所述最长公共子序列相似度以及所述语义相似度进行加权处理,确定出任意两个知识节点之间的相似度;
基于多个知识节点的结构特征以及任意两个知识节点之间的相似度进行节点关联度计算,确定出所述知识树簇中的多个关联知识节点列表。
在一种可能的实施方式之中,所述基于多个知识节点的结构特征以及任意两个知识节点之间的相似度进行节点关联度计算,确定出所述知识树簇中的多个关联知识节点列表,包括:
若任意两个知识节点均为叶子知识节点,则基于任意两个知识节点的相似度以及任意两个知识节点的父知识节点的相似度,确定出任意两个知识节点的关联度;
若任意两个知识节点中任一知识节点不为叶子知识节点,则将任意两个知识节点的相似度确定为任意两个知识节点的关联度;
若任意两个知识节点的关联度大于或等于预设关联度阈值,则任意两个知识节点为关联知识节点,并将存在关联关系的多个关联知识节点组成关联知识节点列表。
在一种可能的实施方式之中,所述基于权重最大化方法从所述关联知识节点列表中确定出所述关联知识节点列表的中间知识节点,并将所述中间知识节点作为合并知识节点,包括:
针对于任一所述关联知识节点列表,基于权重最大化方法对该关联知识节点列表之中的每个关联知识节点进行关联度平均值计算,将最大的所述关联度平均值相对应的关联知识节点作为该关联知识节点列表的中间知识节点,并将所述中间知识节点作为该关联知识节点列表的所述合并知识节点。
在一种可能的实施方式之中,所述关联融合方法还包括通过以下方式确定出所述中间知识节点:
将所述关联知识节点列表输入至自然语言模型之中,对所述关联知识节点列表中的多个关联知识节点进行处理,生成一个所述中间知识节点。
在一种可能的实施方式之中,所述对所述知识树簇中的每个所述合并知识节点进行属性以及关系更新,生成一个融合知识树,包括:
对所述关联知识节点列表中的多个关联知识节点的属性进行融合,确定出所述合并知识节点的属性信息,并对所述合并知识节点的属性信息进行更新;
控制所述合并知识节点继承所述关联知识节点列表中的每个其他知识节点的父子节点关系,基于多个所述合并知识节点以及所述知识树簇中的其他知识节点,生成所述融合知识树。
在一种可能的实施方式之中,所述对所述关联知识节点列表中的多个关联知识节点的属性进行融合,确定出所述合并知识节点的属性信息,包括:
基于数值平均值融合方法、关联度融合方法、字符串合并方法以及列表拼接方法中的任意一种方法对所述关联知识节点列表中的多个所述关联知识节点的属性进行融合,确定出所述合并知识节点的属性信息。
本申请实施例还提供了一种多源知识树的关联融合装置,所述关联融合装置包括:
知识树聚类模块,用于对多个知识树进行知识聚类处理,确定出不同的知识树簇;
关联模块,用于基于每一所述知识树簇中的多个知识节点的字符特征、语义特征以及结构特征对所述知识树簇中的不同知识树之间的任意两个知识节点进行节点关联度计算,确定出所述知识树簇中的多个关联知识节点列表;
融合模块,用于将每个所述关联知识节点列表中的多个关联知识节点的属性进行整合,确定出每个所述关联知识节点列表的合并知识节点,并基于权重最大化方法从所述关联知识节点列表中确定出所述关联知识节点列表的中间知识节点,并将所述中间知识节点作为合并知识节点;
生成模块,用于对所述知识树簇中的每个所述合并知识节点进行属性以及关系更新,生成一个融合知识树。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的多源知识树的关联融合方法的步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的多源知识树的关联融合方法的步骤。
本申请实施例提供的多源知识树的关联融合方法、装置、电子设备及存储介质,所述关联融合方法包括:对多个知识树进行知识聚类处理,确定出不同的知识树簇;基于每一所述知识树簇中的多个知识节点的字符特征、语义特征以及结构特征对所述知识树簇中的不同知识树之间的任意两个知识节点进行节点关联度计算,确定出所述知识树簇中的多个关联知识节点列表;将每个所述关联知识节点列表中的多个关联知识节点的属性进行整合,确定出每个所述关联知识节点列表的合并知识节点,并基于权重最大化方法从所述关联知识节点列表中确定出所述关联知识节点列表的中间知识节点,并将所述中间知识节点作为合并知识节点;对所述知识树簇中的每个所述合并知识节点进行属性以及关系更新,生成一个融合知识树。通过将不同知识树中的相同或相关的知识节点合并,去除重复和冗余的知识,提高知识的准确性以及提高知识的可信度,并且不同的知识树可能包含对同一概念或主题的不同方面的描述,通过将这些不同知识树中的相关知识节点进行关联融合,可以整合并展示不同知识源的观点和信息,从而提供更全面和综合的知识树。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种多源知识树的关联融合方法的流程图;
图2为本申请实施例所提供的一种多源知识树的关联融合方法的示意图;
图3为本申请实施例所提供的一种多源知识树的关联融合方法的装置的结构示意图;
图4为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
首先,对本申请可适用的应用场景进行介绍。本申请可应用于知识树融合技术领域。
基于此,本申请实施例提供了一种多源知识树的关联融合方法,通过将不同知识树中的相同或相关的知识节点合并,去除重复和冗余的知识,提高知识的准确性以及提高知识的可信度,并且不同的知识树可能包含对同一概念或主题的不同方面的描述,通过将这些不同知识树中的相关知识节点进行关联融合,可以整合并展示不同知识源的观点和信息,从而提供更全面和综合的知识树。
请参阅图1,图1为本申请实施例所提供的一种多源知识树的关联融合方法的流程图。如图1中所示,本申请实施例提供的关联融合方法,包括:
S101:对多个知识树进行知识聚类处理,确定出不同的知识树簇。
该步骤中,对不同来源的多个知识树进行知识聚类处理,确定出不同的知识树簇。
其中,知识树簇为将大量的知识树聚类成少量的树簇,将相似的知识树聚集在一起,这些相似的知识树具有相似的主题和内容,聚类后的知识树簇拥有更高的内部一致性和相关性。在后续的关联和融合计算中,将属于同一聚类簇的多个知识树关联和融合在一起,可以提高关联和融合的效率和准确性。
在具体实施例之中,所述对多个知识树进行知识聚类处理,确定出不同的知识树簇,包括:
A:对每一所述知识树的结构特征以及内容特征进行提取,确定出每个所述知识树的知识特征信息。
这里,对每一知识树的结构特征和内容特征进行特征提取,确定出每个知识数的知识特征信息。
其中,描述知识树的特征通常可以分为两种:结构特征和内容特征。结构特征包括知识树的高度、深度、分支数以及节点数等信息,可以用来评估树的结构相似度;内容特征包括知识节点上的属性、值或标签等信息,可以用来评估知识树的内容相似度。本方案的知识树聚类旨在将具有相似主题和内容的知识树聚类成一簇,为了更好地获取知识树的表征,本方案将结构特征和内容特征融合起来得到知识特征信息。首先,将每个知识树视为一个文档,将每个知识节点视为文档中的词组,并构建知识树词典。在统计词频时,引入结构特征,对不同层级的节点赋予不同权重,越靠近根节点的节点权重越高(因为根节点通常更能代表一个知识树的主题)。最后,利用自然语言处理技术中的文档向量表征方法来获取知识树的表征。
具体步骤如下:1)知识节点赋权:获取N个知识树,对于其中每一个知识树(tree_a),设tree_a树高为h_a,使用广度优先搜索遍历得到知识节点列表node_a,node_a中的每个知识节点都将包含name(文本命名)属性、level(层级,以根节点开始计算,计算并增加词频权重,对于node_a中的每个知识节点,为其设定weight(词频权重)属性, weight = log2(h_a-level+1);2)数据预处理:对知识节点列表中的每个知识节点,去除无关的标点符号、停用词、数字等,并进行分词操作;3)构建知识树词典:利用预处理后的知识树数据,构建词典。遍历每个知识树中的所有文本数据,将出现的单词添加到词汇表中,去除重复的单词。将每个单词与一个唯一的索引关联起来,形成一个字典,用于后续的向量表示;4)计算知识树表征:对于每个知识树,我可以使用词汇表、文本数据和节点词频权重来计算WTF-IDF(加权词频-逆文档频率)向量表示。首先,计算加权词频(WTF):统计每个单词在文本中出现的加权频率。对于单词w,在遍历知识树节点时,其在某个知识节点node_a的加权频率等于该知识节点词频权重乘以w在node_a中的出现频率。w的加权频率则是w在该知识树的所有知识节点中的加权频率之和。为了减小高频词对相似度的影响,将采用加权词频的对数形式。其次,计算逆文档频率(IDF):对于每个单词,统计包含该单词的知识树的数量,并将总知识树数量除以该数量的对数,再取对数形式。最后,将WTF和IDF相乘,得到WTF-IDF向量。完整的公式如下:
①WTF(w, node_a) = TF_weight(node_a)freq(w, node_a);
②WTF(w) = sum(WTF(w, node_a) for all nodes in the knowledge tree);
③WTF_IDF(w) = log(WTF(w))log(N / DF(w));
其中,WTF(w, node_a)表示单词w在知识节点node_a中的加权词频,TF_weight(node_a)表示知识节点node_a的词频权重,freq(w, node_a)表示单词w在node_a中的频率,WTF(w)表示单词w在知识树中的加权词频,sum表示求和操作,WTF_IDF(w)表示单词w的WTF-IDF向量,log表示自然对数,N表示知识树的总数量,DF(w)表示包含单词w的知识树数量。
B:基于余弦相似度的计算公式对任意两个所述知识树的知识特征信息进行计算,确定出任意两个所述知识树之间的相似度。
这里,通过余弦相似度的计算公式对任意两个知识树的知识特征信息进行计算,确定出任意两个知识树之间的相似度。
具体的,获取两个知识树的知识特征信息后,可以计算它们之间的相似度。可以使用余弦相似度来衡量两个向量之间的相似程度。构建一个NN维的相似度矩阵,其中N表示知识树的数量。矩阵中的第[i,j]位置的元素表示第i个知识树与第j个知识树的相似度计算结果。
C:使用聚类算法基于多个任意两个所述知识树之间的相似度将相似的知识树聚类在一起,确定出不同的所述知识树簇。
这里,将相似度矩阵输入到聚类算法中根据多个任意两个知识树之间的相似度将相似的知识树聚类在一起,确定出不同的知识树簇。
其中,每个知识树表示一个数据点,而两两相似度则表示数据点之间的距离。将每颗知识树的两两相似度,即相似度矩阵作为输入数据,通过聚类算法将相似的知识树聚类在一起,形成不同的簇。可选的聚类算法包括k-means聚类、层次聚类和密度聚类等。具体步骤如下:随机选择一个未被访问的知识树;判断知识树的邻域是否满足指定的半径(相似度阈值,设置为0.85)和邻域内最小数据点数(设置为1)的要求,如果满足要求,则将知识树及其邻域内的知识树归为一个簇,并将这些知识树标记为已访问;如果邻域内的知识树数量不足,则将知识树标记为噪声知识树;针对未被访问的知识树,重复上述步骤,直到所有知识树都被访问过;完成聚类后,将每个簇作为一个知识树簇,其中包含了一组关联密集的知识树。
通过此步骤,大量的知识树根据内容相似度聚类成了更少数量的知识树簇。后续的知识关联与融合将在每个独立的知识树簇中进行。该步骤的意义主要体现在以下两个方面:提升关联和融合的准确性:知识树聚类能够将相似的知识树聚集在一起,相似的知识树具有相似的主题和内容,聚类后的知识树堆具有更高的内部一致性和相关性。在后续的关联和融合计算中,将来自同一聚类堆的知识树关联和融合在一起,可以提升关联和融合的准确性。减轻计算压力:知识树聚类可以将大量细粒度的知识树合并成较少的聚类堆,减少了关联和融合计算的规模和复杂度,从而减轻了计算的压力。尤其是在面对大规模的知识树融合任务时,通过聚类可以将问题分解为多个小规模的聚类堆,更好地进行并行计算,提高整体的计算效率。
S102:基于每一所述知识树簇中的多个知识节点的字符特征、语义特征以及结构特征对所述知识树簇中的不同知识树之间的任意两个知识节点进行节点关联度计算,确定出所述知识树簇中的多个关联知识节点列表。
该步骤中,对于每一个知识数簇中的多个知识节点的字符特征、语义特征以及结构特征对知识树簇中的不同知识树之间的任意两个知识节点进行节点关联度计算,确定出知识树簇中的多个关联知识节点列表。
其中,字符特征为知识节点的名称字符串,语义特征为通过语言模型根据知识节点的字符特征获取的语义向量,结构特征为知识节点的父知识节点和叶子知识节点。
其中,关联知识节点列表是由多个相关的关联知识节点构成的。
在一种可能的实施方式之中,所述基于每一所述知识树簇中的多个知识节点的字符特征、语义特征以及结构特征对所述知识树簇中的不同知识树之间的任意两个知识节点进行节点关联度计算,确定出所述知识树簇中的多个关联知识节点列表,包括:
S1021:对不同知识树之间的任意两个知识节点的字符特征进行计算,确定出任意两个知识节点之间的编辑距离相似度以及最长公共子序列相似度。
这里,对不同知识树之间的任意两个知识节点的字符特征进行计算,确定出任意两个知识节点之间的编辑距离相似度以及最长公共子序列相似度。
S1022:对不同知识树之间的任意两个知识节点的语义特征进行计算,确定出任意两个知识节点之间的语义相似度。
这里,对不同知识树之间的任意两个知识节点的语义特征进行计算,确定出任意两个知识节点之间的语义相似度。
S1023:对任意两个知识节点之间的所述编辑距离相似度、所述最长公共子序列相似度以及所述语义相似度进行加权处理,确定出任意两个知识节点之间的相似度。
这里,对任意两个知识节点之间的编辑距离相似度、最长公共子序列相似度以及语义相似度进行加权处理,确定出任意两个知识节点之间的相似度。
具体的,根据知识节点A1的字符特征和知识节点B1的字符特征得到编辑距离相似度edit_distance(A1,B1)以及最长公共子序列相似度lcs_distance(A1,B1),知识节点A1的语义特征和知识节点B1的语义特征做余弦相似度计算得到语义相似度,则知识节点相似度为编辑距离相似度、最长公共子序列相似度、语义相似度的加权值。
S1024:基于多个知识节点的结构特征以及任意两个知识节点之间的相似度进行节点关联度计算,确定出所述知识树簇中的多个关联知识节点列表。
这里,根据多个知识节点的结构特征以及任意两个知识节点之间的相似度进行节点关联度计算,确定出知识树簇中的多个关联知识节点列表。
在具体实施例之中,所述基于多个知识节点的结构特征以及任意两个知识节点之间的相似度进行节点关联度计算,确定出所述知识树簇中的多个关联知识节点列表,包括:
a:若任意两个知识节点均为叶子知识节点,则基于任意两个知识节点的相似度以及任意两个知识节点的父知识节点的相似度,确定出任意两个知识节点的关联度。
这里,若任意两个知识节点均为叶子知识节点,则根据任意两个知识节点的相似度以及任意两个知识节点的父知识节点的相似度,确定出任意两个知识节点的关联度。
b:若任意两个知识节点中任一知识节点不为叶子知识节点,则将任意两个知识节点的相似度确定为任意两个知识节点的关联度。
这里,若任意两个知识节点中任一知识节点不为叶子知识节点,则将任意两个知识节点的相似度确定为任意两个知识节点的关联度。
举例来讲,知识节点A1与知识节点B1的关联度用correlation(A1,B1)表示,对于知识节点A1和知识节点B1,知识节点A1的父知识节点为A1_father,叶子知识节点为A1_children,知识节点B1的父节点为B1_father,叶子知识节点为B1_children,叶叶子知识节点的关联度为知识节点本身以及父知识节点的相似度的加权和,而中间知识节点的关联度只考虑知识节点本身的相似度值。如:若A1_children为空且B1_children为空,则correlation(A1,B1) = sim(A1,B1)+ sim(A1_father, B1_father) / 2;若A1_children不为空或B1_children不为空,则correlation(A1,B1) = sim(A1,B1)。
c:若任意两个知识节点的关联度大于或等于预设关联度阈值,则任意两个知识节点为关联知识节点,并将存在关联关系的多个关联知识节点组成关联知识节点列表。
这里,若任意两个知识节点的关联度大于或等于预设关联度阈值,则任意两个知识节点之间存在关联关系为关联知识节点,并将存在关联关系的多个关联知识节点组成关联知识节点列表。
其中,设定关联度阈值correlation_threshold=0.85,遍历知识树的每一个知识节点,与不同知识树的知识节点进行关联度计算,此步骤将得到n个关联知识节点列表,每个关联知识节点列表里面有m个关联知识节点。如,关联知识节点列表:[A1、B1、C1、D1] 其中,A1、B1为关联知识节点,B1、C1为关联知识节点,A1、D1为关联知识节点。
在本方案中, 将同一知识树簇中不同知识树的知识节点进行关联,通过建立知识节点之间的联系,生成具有相关性的知识节点对。通过知识关联,能够准确地找到相似或相关的知识节点,避免了无效或错误的融合,并提高了后续知识融合结果的准确性。
S103:将每个所述关联知识节点列表中的多个关联知识节点的属性进行整合,确定出每个所述关联知识节点列表的合并知识节点,并基于权重最大化方法从所述关联知识节点列表中确定出所述关联知识节点列表的中间知识节点,并将所述中间知识节点作为合并知识节点。
该步骤中,将每个关联知识节点列表中的多个关联知识节点的属性进行整合,确定出每个关联知识节点列表的合并知识节点,并根据权重最大化方法从关联知识节点列表中确定出关联知识节点列表的中间知识节点,并将中间知识节点作为合并知识节点。
其中,将每个关联知识节点列表中的多个知识节点的属性整合为一个合并知识节点,并为其分配唯一的标识符。如给关联列表[云录音(SaaS)产品介绍,1.云录音-产品介绍,云录音产品介绍]初始化一个新的合并知识节点Q。
在具体实施例之中,所述基于权重最大化方法从所述关联知识节点列表中确定出所述关联知识节点列表的中间知识节点,并将所述中间知识节点作为合并知识节点,包括:
针对于任一所述关联知识节点列表,基于权重最大化方法对该关联知识节点列表之中的每个关联知识节点进行关联度平均值计算,将最大的所述关联度平均值相对应的关联知识节点作为该关联知识节点列表的中间知识节点,并将所述中间知识节点作为该关联知识节点列表的所述合并知识节点。
这里,对于每个关联知识节点列表,根据权重最大化方法对该关联知识节点列表中的每个关联知识节点进行关联度平均值计算,将最大的关联度平均值相对应的关联知识节点作为该关联知识节点列表的中间知识节点,并将中间知识节点作为该关联知识节点列表的合并知识节点。
具体的,输入关联知识节点对列表cor_pair_list = [(node_A1, node_B1,weight(A1,B1)),...(node_N,node_M,weight(N,M))],其中weight(A1,B1)为node_A1关联知识节点和node_B1关联知识节点的关联度,对于cor_pair_list中的每个关联知识节点node,计算其关联权重平均值avg_weight,即在cor_pair_list中的关联知识节点对中包含该node的关联度之和除以该node出现次数。avg_weight = Σ(weight(A1,B1)) / count;其中,Σ(weight(A1,B1))表示cor_pair_list中包含该node的所有关联权重之和,count表示该node在cor_list中出现的次数。如cor_pair_list = [(云录音(SaaS)产品介绍,1.云录音-产品介绍,0.89),(云录音(SaaS)产品介绍,云录音产品介绍,0.92),(1.云录音-产品介绍,云录音产品介绍,0.91)],cor_list = [云录音(SaaS)产品介绍,1.云录音-产品介绍,云录音产品介绍], 分别计算关联知识节点列表中每个关联知识节点的平均关联度avg_weight,如avg_weight(云录音产品介绍) =( 0.92+0.91) /2 = 0.915 为最高,则选择“云录音产品介绍”作为中间节点。
在一种可能的实施方式之中,所述关联融合方法还包括通过以下方式确定出所述中间知识节点:
将所述关联知识节点列表输入至自然语言模型之中,对所述关联知识节点列表中的多个关联知识节点进行处理,生成一个所述中间知识节点。
其中,输入关联知识节点列表以及各知识节点间的关联度,利用自然语言生成方法从关联知识节点列表中生成一个新的知识节点作为合并知识节点的表示。
在本方案中,知识融合指的是将相关的知识节点合并为一个更全面和一致的知识树。主要任务是通过合并和整合相关的知识节点来完成。首先对合并知识节点进行初始化,然后进行属性融合和中间知识节点选择,最后使用选定的中间知识节点作为合并知识节点的表示,并更新其属性和关系。
S104:对所述知识树簇中的每个所述合并知识节点进行属性以及关系更新,生成一个融合知识树。
该步骤中,对所述知识树簇中的每个合并知识节点进行属性以及关系更新,生成一个融合知识树。实现了可以将不同知识树之间的关联知识节点融合,生成一个全局的知识树并保留每个关联知识点的关系和属性特征。
在一种可能的实施方式之中,所述对所述知识树簇中的每个所述合并知识节点进行属性以及关系更新,生成一个融合知识树,包括:
(1):对所述关联知识节点列表中的多个关联知识节点的属性进行融合,确定出所述合并知识节点的属性信息,并对所述合并知识节点的属性信息进行更新。
这里,对关联知识节点列表中的多个关联知识节点的属性进行融合,确定出合并知识节点的属性信息,并对合并知识节点的属性信息进行更新。
在一种可能的实施方式之中,所述对所述关联知识节点列表中的多个关联知识节点的属性进行融合,确定出所述合并知识节点的属性信息,包括:
基于数值平均值融合方法、关联度融合方法、字符串合并方法以及列表拼接方法中的任意一种方法对所述关联知识节点列表中的多个所述关联知识节点的属性进行融合,确定出所述合并知识节点的属性信息。
这里,根据数值平均值融合方法、关联度融合方法、字符串合并方法以及列表拼接方法中的任意一种方法对关联知识节点列表中的多个关联知识节点的属性进行融合,确定出合并知识节点的属性信息。
其中,数值平均值融合为对数值属性取平均值,关联度融合为根据关联知识节点的权重,在属性融合过程中对不同知识节点的属性进行加权平均,字符串合并为将文本属性合并为一个新的文本属性,列表拼接为将列表属性合并成一个大列表。
(2):控制所述合并知识节点继承所述关联知识节点列表中的每个其他知识节点的父子节点关系,基于多个所述合并知识节点以及所述知识树簇中的其他知识节点,生成所述融合知识树。
这里,控制合并知识节点继承关联知识节点列表中的每个其他知识节点的父子节点关系,根据多个合并知识节点以及知识树簇中的其他知识节点,生成融合知识树。
其中,将最终选择的中间知识节点作为合并知识节点的表示,并更新合并知识节点的属性和关系。
通过上述算法和步骤,可以将不同知识树之间的关联节点融合,生成一个全局的知识树,并保留每个关联树的关系和属性特征。通过将不同知识树中的相同或相关的知识节点合并,去除重复和冗余的知识,提高知识的准确性。同时,关联融合还可以通过对不同知识树节点的共同特征进行加权或取平均值等方式,进一步提高知识的可信度。不同的知识树可能包含对同一概念或主题的不同方面或角度的描述。通过将这些不同知识树中的相关节点进行关联融合,可以整合并展示不同知识源的观点和信息,从而提供更全面和综合的知识视角。
在具体实施例之中,本方案可应用于通信领域是指涉及电信、网络、无线通信等相关技术和应用的领域,在日常生活和工作中有广泛的应用。知识树是指从各种资料中整理出的有层次结构的知识图谱,能够帮助学习者更好地理解和掌握相关知识。在通信领域的知识培训中,知识树的来源主要包括word文档、pdf文档、ppt文档、ppt录屏视频等。这些资料可能是通过不同的方式和格式整理而来,但都包含着通信领域的相关知识。对这些知识树进行关联融合的目的是为了实现知识的集成与共享,帮助培训者更好地理解通信领域的知识。通过将不同知识树之间的节点进行关联,可以建立不同知识树之间的联系,实现知识的衔接和补充。而在知识融合的过程中,可以将关联节点进行合并和重组,形成更完整、更综合的知识树,使得学习者能够全面地了解和掌握通信领域的知识。知识树关联融合的意义在于提升知识传递和学习效果。通过将不同知识树之间的关联进行融合,可以避免知识的重复和遗漏,减少学习者对于不同资料的重复阅读和查找,提高学习效率。同时,关联融合也可以帮助学习者全面理解通信领域的知识,形成更完整的知识体系,有利于知识的应用和创新。
进一步的,请参阅图2,图2为本申请实施例所提供的一种多源知识树的关联融合方法的示意图。如图2所示,获取多源知识树集合,对多源知识树集合进行知识树聚类得到知识树簇,对知识树簇中的多个知识节点进行知识关联,得到知识树簇的关联知识节点列表,对关联知识节点列表中的多个关联知识节点进行知识融合,得到融合知识树。这里,通过知识树聚类的方式将大量的知识树聚类成少量的知识树簇,这样可以降低计算复杂度,提高计算效率,同时,通过聚类可以将相似领域的知识树聚集在一起,从而减少不同源、不同领域间的知识混淆,提高关联的准确性。其次,不仅考虑节点之间的相似性,还分析节点之间更深层次的关联。通过考虑节点的上下文信息和语义相似性,可以更全面地理解和分析知识树。这样可以充分利用知识树的丰富信息 ,提高关联的准确性和可靠性。最后,在知识融合阶段,将关联的节点进行合并融合,以得到最终的融合知识树。
本申请实施例提供的一种多源知识树的关联融合方法,所述关联融合方法包括:对多个知识树进行知识聚类处理,确定出不同的知识树簇;基于每一所述知识树簇中的多个知识节点的字符特征、语义特征以及结构特征对所述知识树簇中的不同知识树之间的任意两个知识节点进行节点关联度计算,确定出所述知识树簇中的多个关联知识节点列表;将每个所述关联知识节点列表中的多个关联知识节点的属性进行整合,确定出每个所述关联知识节点列表的合并知识节点,并基于权重最大化方法从所述关联知识节点列表中确定出所述关联知识节点列表的中间知识节点,并将所述中间知识节点作为合并知识节点;对所述知识树簇中的每个所述合并知识节点进行属性以及关系更新,生成一个融合知识树。通过将不同知识树中的相同或相关的知识节点合并,去除重复和冗余的知识,提高知识的准确性以及提高知识的可信度,并且不同的知识树可能包含对同一概念或主题的不同方面的描述,通过将这些不同知识树中的相关知识节点进行关联融合,可以整合并展示不同知识源的观点和信息,从而提供更全面和综合的知识树。
请参阅图3,图3为本申请实施例所提供的一种多源知识树的关联融合方法的装置的结构示意图。如图3中所示,所述多源知识树的关联融合装置300包括:
知识树聚类模块310,用于对多个知识树进行知识聚类处理,确定出不同的知识树簇;
关联模块320,用于基于每一所述知识树簇中的多个知识节点的字符特征、语义特征以及结构特征对所述知识树簇中的不同知识树之间的任意两个知识节点进行节点关联度计算,确定出所述知识树簇中的多个关联知识节点列表;
融合模块330,用于将每个所述关联知识节点列表中的多个关联知识节点的属性进行整合,确定出每个所述关联知识节点列表的合并知识节点,并基于权重最大化方法从所述关联知识节点列表中确定出所述关联知识节点列表的中间知识节点,并将所述中间知识节点作为合并知识节点;
生成模块340,用于对所述知识树簇中的每个所述合并知识节点进行属性以及关系更新,生成一个融合知识树。
进一步的,知识树聚类模块310在用于所述对多个知识树进行知识聚类处理,确定出不同的知识树簇时,知识树聚类模块310具体用于:
对每一所述知识树的结构特征以及内容特征进行提取,确定出每个所述知识树的知识特征信息;
基于余弦相似度的计算公式对任意两个所述知识树的知识特征信息进行计算,确定出任意两个所述知识树之间的相似度;
使用聚类算法基于多个任意两个所述知识树之间的相似度将相似的知识树聚类在一起,确定出不同的所述知识树簇。
进一步的,关联模块320在用于所述基于每一所述知识树簇中的多个知识节点的字符特征、语义特征以及结构特征对所述知识树簇中的不同知识树之间的任意两个知识节点进行节点关联度计算,确定出所述知识树簇中的多个关联知识节点列表时,关联模块320具体用于:
对不同知识树之间的任意两个知识节点的字符特征进行计算,确定出任意两个知识节点之间的编辑距离相似度以及最长公共子序列相似度;
对不同知识树之间的任意两个知识节点的语义特征进行计算,确定出任意两个知识节点之间的语义相似度;
对任意两个知识节点之间的所述编辑距离相似度、所述最长公共子序列相似度以及所述语义相似度进行加权处理,确定出任意两个知识节点之间的相似度;
基于多个知识节点的结构特征以及任意两个知识节点之间的相似度进行节点关联度计算,确定出所述知识树簇中的多个关联知识节点列表。
进一步的,关联模块320在用于所述基于多个知识节点的结构特征以及任意两个知识节点之间的相似度进行节点关联度计算,确定出所述知识树簇中的多个关联知识节点列表时,关联模块320具体用于:
若任意两个知识节点均为叶子知识节点,则基于任意两个知识节点的相似度以及任意两个知识节点的父知识节点的相似度,确定出任意两个知识节点的关联度;
若任意两个知识节点中任一知识节点不为叶子知识节点,则将任意两个知识节点的相似度确定为任意两个知识节点的关联度;
若任意两个知识节点的关联度大于或等于预设关联度阈值,则任意两个知识节点为关联知识节点,并将存在关联关系的多个关联知识节点组成关联知识节点列表。
进一步的,融合模块330在用于所述基于权重最大化方法从所述关联知识节点列表中确定出所述关联知识节点列表的中间知识节点,并将所述中间知识节点作为合并知识节点时,融合模块330具体用于:
针对于任一所述关联知识节点列表,基于权重最大化方法对该关联知识节点列表之中的每个关联知识节点进行关联度平均值计算,将最大的所述关联度平均值相对应的关联知识节点作为该关联知识节点列表的中间知识节点,并将所述中间知识节点作为该关联知识节点列表的所述合并知识节点。
进一步的,融合模块330通过以下方式确定出所述中间知识节点:
将所述关联知识节点列表输入至自然语言模型之中,对所述关联知识节点列表中的多个关联知识节点进行处理,生成一个所述中间知识节点。
进一步的,生成模块340在用于所述对所述知识树簇中的每个所述合并知识节点进行属性以及关系更新,生成一个融合知识树时,生成模块340具体用于:
对所述关联知识节点列表中的多个关联知识节点的属性进行融合,确定出所述合并知识节点的属性信息,并对所述合并知识节点的属性信息进行更新;
控制所述合并知识节点继承所述关联知识节点列表中的每个其他知识节点的父子节点关系,基于多个所述合并知识节点以及所述知识树簇中的其他知识节点,生成所述融合知识树。
进一步的,生成模块340在用于所述对所述关联知识节点列表中的多个关联知识节点的属性进行融合,确定出所述合并知识节点的属性信息时,生成模块340具体用于:
基于数值平均值融合方法、关联度融合方法、字符串合并方法以及列表拼接方法中的任意一种方法对所述关联知识节点列表中的多个所述关联知识节点的属性进行融合,确定出所述合并知识节点的属性信息。
本申请实施例提供的一种多源知识树的关联融合装置,所述关联融合装置包括:知识树聚类模块,用于对多个知识树进行知识聚类处理,确定出不同的知识树簇;关联模块,用于基于每一所述知识树簇中的多个知识节点的字符特征、语义特征以及结构特征对所述知识树簇中的不同知识树之间的任意两个知识节点进行节点关联度计算,确定出所述知识树簇中的多个关联知识节点列表;融合模块,用于将每个所述关联知识节点列表中的多个关联知识节点的属性进行整合,确定出每个所述关联知识节点列表的合并知识节点,并基于权重最大化方法从所述关联知识节点列表中确定出所述关联知识节点列表的中间知识节点,并将所述中间知识节点作为合并知识节点;生成模块,用于对所述知识树簇中的每个所述合并知识节点进行属性以及关系更新,生成一个融合知识树。通过将不同知识树中的相同或相关的知识节点合并,去除重复和冗余的知识,提高知识的准确性以及提高知识的可信度,并且不同的知识树可能包含对同一概念或主题的不同方面的描述,通过将这些不同知识树中的相关知识节点进行关联融合,可以整合并展示不同知识源的观点和信息,从而提供更全面和综合的知识树。
请参阅图4,图4为本申请实施例所提供的一种电子设备的结构示意图。如图4中所示,所述电子设备400包括处理器410、存储器420和总线430。
所述存储器420存储有所述处理器410可执行的机器可读指令,当电子设备400运行时,所述处理器410与所述存储器420之间通过总线430通信,所述机器可读指令被所述处理器410执行时,可以执行如上述图1所示方法实施例中的多源知识树的关联融合方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的多源知识树的关联融合方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种多源知识树的关联融合方法,其特征在于,所述关联融合方法包括:
对多个知识树进行知识聚类处理,确定出不同的知识树簇;
基于每一所述知识树簇中的多个知识节点的字符特征、语义特征以及结构特征对所述知识树簇中的不同知识树之间的任意两个知识节点进行节点关联度计算,确定出所述知识树簇中的多个关联知识节点列表;
将每个所述关联知识节点列表中的多个关联知识节点的属性进行整合,确定出每个所述关联知识节点列表的合并知识节点,并基于权重最大化方法从所述关联知识节点列表中确定出所述关联知识节点列表的中间知识节点,并将所述中间知识节点作为合并知识节点;
对所述知识树簇中的每个所述合并知识节点进行属性以及关系更新,生成一个融合知识树;
所述基于每一所述知识树簇中的多个知识节点的字符特征、语义特征以及结构特征对所述知识树簇中的不同知识树之间的任意两个知识节点进行节点关联度计算,确定出所述知识树簇中的多个关联知识节点列表,包括:
对不同知识树之间的任意两个知识节点的字符特征进行计算,确定出任意两个知识节点之间的编辑距离相似度以及最长公共子序列相似度;
对不同知识树之间的任意两个知识节点的语义特征进行计算,确定出任意两个知识节点之间的语义相似度;
对任意两个知识节点之间的所述编辑距离相似度、所述最长公共子序列相似度以及所述语义相似度进行加权处理,确定出任意两个知识节点之间的相似度;
基于多个知识节点的结构特征以及任意两个知识节点之间的相似度进行节点关联度计算,确定出所述知识树簇中的多个关联知识节点列表。
2.根据权利要求1所述的关联融合方法,其特征在于,所述对多个知识树进行知识聚类处理,确定出不同的知识树簇,包括:
对每一所述知识树的结构特征以及内容特征进行提取,确定出每个所述知识树的知识特征信息;
基于余弦相似度的计算公式对任意两个所述知识树的知识特征信息进行计算,确定出任意两个所述知识树之间的相似度;
使用聚类算法基于多个任意两个所述知识树之间的相似度将相似的知识树聚类在一起,确定出不同的所述知识树簇。
3.根据权利要求1所述的关联融合方法,其特征在于,所述基于多个知识节点的结构特征以及任意两个知识节点之间的相似度进行节点关联度计算,确定出所述知识树簇中的多个关联知识节点列表,包括:
若任意两个知识节点均为叶子知识节点,则基于任意两个知识节点的相似度以及任意两个知识节点的父知识节点的相似度,确定出任意两个知识节点的关联度;
若任意两个知识节点中任一知识节点不为叶子知识节点,则将任意两个知识节点的相似度确定为任意两个知识节点的关联度;
若任意两个知识节点的关联度大于或等于预设关联度阈值,则任意两个知识节点为关联知识节点,并将存在关联关系的多个关联知识节点组成关联知识节点列表。
4.根据权利要求1所述的关联融合方法,其特征在于,所述基于权重最大化方法从所述关联知识节点列表中确定出所述关联知识节点列表的中间知识节点,并将所述中间知识节点作为合并知识节点,包括:
针对于任一所述关联知识节点列表,基于权重最大化方法对该关联知识节点列表之中的每个关联知识节点进行关联度平均值计算,将最大的所述关联度平均值相对应的关联知识节点作为该关联知识节点列表的中间知识节点,并将所述中间知识节点作为该关联知识节点列表的所述合并知识节点。
5.根据权利要求1所述的关联融合方法,其特征在于,所述关联融合方法还包括通过以下方式确定出所述中间知识节点:
将所述关联知识节点列表输入至自然语言模型之中,对所述关联知识节点列表中的多个关联知识节点进行处理,生成一个所述中间知识节点。
6.根据权利要求1所述的关联融合方法,其特征在于,所述对所述知识树簇中的每个所述合并知识节点进行属性以及关系更新,生成一个融合知识树,包括:
对所述关联知识节点列表中的多个关联知识节点的属性进行融合,确定出所述合并知识节点的属性信息,并对所述合并知识节点的属性信息进行更新;
控制所述合并知识节点继承所述关联知识节点列表中的每个其他知识节点的父子节点关系,基于多个所述合并知识节点以及所述知识树簇中的其他知识节点,生成所述融合知识树。
7.根据权利要求6所述的关联融合方法,其特征在于,所述对所述关联知识节点列表中的多个关联知识节点的属性进行融合,确定出所述合并知识节点的属性信息,包括:
基于数值平均值融合方法、关联度融合方法、字符串合并方法以及列表拼接方法中的任意一种方法对所述关联知识节点列表中的多个所述关联知识节点的属性进行融合,确定出所述合并知识节点的属性信息。
8.一种多源知识树的关联融合装置,其特征在于,所述关联融合装置包括:
知识树聚类模块,用于对多个知识树进行知识聚类处理,确定出不同的知识树簇;
关联模块,用于基于每一所述知识树簇中的多个知识节点的字符特征、语义特征以及结构特征对所述知识树簇中的不同知识树之间的任意两个知识节点进行节点关联度计算,确定出所述知识树簇中的多个关联知识节点列表;
融合模块,用于将每个所述关联知识节点列表中的多个关联知识节点的属性进行整合,确定出每个所述关联知识节点列表的合并知识节点,并基于权重最大化方法从所述关联知识节点列表中确定出所述关联知识节点列表的中间知识节点,并将所述中间知识节点作为合并知识节点;
生成模块,用于对所述知识树簇中的每个所述合并知识节点进行属性以及关系更新,生成一个融合知识树;
所述关联模块在基于每一所述知识树簇中的多个知识节点的字符特征、语义特征以及结构特征对所述知识树簇中的不同知识树之间的任意两个知识节点进行节点关联度计算,确定出所述知识树簇中的多个关联知识节点列表时,关联模块具体用于:
对不同知识树之间的任意两个知识节点的字符特征进行计算,确定出任意两个知识节点之间的编辑距离相似度以及最长公共子序列相似度;
对不同知识树之间的任意两个知识节点的语义特征进行计算,确定出任意两个知识节点之间的语义相似度;
对任意两个知识节点之间的所述编辑距离相似度、所述最长公共子序列相似度以及所述语义相似度进行加权处理,确定出任意两个知识节点之间的相似度;
基于多个知识节点的结构特征以及任意两个知识节点之间的相似度进行节点关联度计算,确定出所述知识树簇中的多个关联知识节点列表。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至7任一所述的多源知识树的关联融合方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一所述的多源知识树的关联融合方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410176275.4A CN117725555B (zh) | 2024-02-08 | 2024-02-08 | 多源知识树的关联融合方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410176275.4A CN117725555B (zh) | 2024-02-08 | 2024-02-08 | 多源知识树的关联融合方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117725555A CN117725555A (zh) | 2024-03-19 |
CN117725555B true CN117725555B (zh) | 2024-06-11 |
Family
ID=90200141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410176275.4A Active CN117725555B (zh) | 2024-02-08 | 2024-02-08 | 多源知识树的关联融合方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117725555B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109739939A (zh) * | 2018-12-29 | 2019-05-10 | 颖投信息科技(上海)有限公司 | 知识图谱的数据融合方法和装置 |
CN111143479A (zh) * | 2019-12-10 | 2020-05-12 | 浙江工业大学 | 基于dbscan聚类算法的知识图谱关系抽取与rest服务可视化融合方法 |
CN111522968A (zh) * | 2020-06-22 | 2020-08-11 | 中国银行股份有限公司 | 知识图谱融合方法及装置 |
CN112149400A (zh) * | 2020-09-23 | 2020-12-29 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及存储介质 |
WO2022011681A1 (zh) * | 2020-07-17 | 2022-01-20 | 国防科技大学 | 一种基于迭代补全的知识图谱融合方法 |
CN114077674A (zh) * | 2021-10-31 | 2022-02-22 | 国电南瑞科技股份有限公司 | 一种电网调度知识图谱数据优化方法及*** |
WO2023040499A1 (zh) * | 2021-09-16 | 2023-03-23 | 支付宝(杭州)信息技术有限公司 | 知识图谱数据融合 |
CN116501887A (zh) * | 2023-04-18 | 2023-07-28 | 平安科技(深圳)有限公司 | 医疗知识图谱的融合方法、装置、设备及介质 |
CN116542332A (zh) * | 2023-05-16 | 2023-08-04 | 中国电子科技集团公司第五十四研究所 | 一种基于语义树的多领域知识融合方法 |
CN116775893A (zh) * | 2022-11-14 | 2023-09-19 | 中移(苏州)软件技术有限公司 | 知识图谱划分方法、装置、设备和存储介质 |
CN117194616A (zh) * | 2023-11-06 | 2023-12-08 | 湖南四方天箭信息科技有限公司 | 一种垂域知识图谱的知识查询方法、装置、计算机设备和存储介质 |
CN117236435A (zh) * | 2023-11-08 | 2023-12-15 | 中国标准化研究院 | 一种设计理性知识网络的知识融合方法、装置及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11783131B2 (en) * | 2020-09-10 | 2023-10-10 | International Business Machines Corporation | Knowledge graph fusion |
-
2024
- 2024-02-08 CN CN202410176275.4A patent/CN117725555B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109739939A (zh) * | 2018-12-29 | 2019-05-10 | 颖投信息科技(上海)有限公司 | 知识图谱的数据融合方法和装置 |
CN111143479A (zh) * | 2019-12-10 | 2020-05-12 | 浙江工业大学 | 基于dbscan聚类算法的知识图谱关系抽取与rest服务可视化融合方法 |
CN111522968A (zh) * | 2020-06-22 | 2020-08-11 | 中国银行股份有限公司 | 知识图谱融合方法及装置 |
WO2022011681A1 (zh) * | 2020-07-17 | 2022-01-20 | 国防科技大学 | 一种基于迭代补全的知识图谱融合方法 |
CN112149400A (zh) * | 2020-09-23 | 2020-12-29 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及存储介质 |
WO2023040499A1 (zh) * | 2021-09-16 | 2023-03-23 | 支付宝(杭州)信息技术有限公司 | 知识图谱数据融合 |
CN114077674A (zh) * | 2021-10-31 | 2022-02-22 | 国电南瑞科技股份有限公司 | 一种电网调度知识图谱数据优化方法及*** |
CN116775893A (zh) * | 2022-11-14 | 2023-09-19 | 中移(苏州)软件技术有限公司 | 知识图谱划分方法、装置、设备和存储介质 |
CN116501887A (zh) * | 2023-04-18 | 2023-07-28 | 平安科技(深圳)有限公司 | 医疗知识图谱的融合方法、装置、设备及介质 |
CN116542332A (zh) * | 2023-05-16 | 2023-08-04 | 中国电子科技集团公司第五十四研究所 | 一种基于语义树的多领域知识融合方法 |
CN117194616A (zh) * | 2023-11-06 | 2023-12-08 | 湖南四方天箭信息科技有限公司 | 一种垂域知识图谱的知识查询方法、装置、计算机设备和存储介质 |
CN117236435A (zh) * | 2023-11-08 | 2023-12-15 | 中国标准化研究院 | 一种设计理性知识网络的知识融合方法、装置及存储介质 |
Non-Patent Citations (2)
Title |
---|
组合相似度算法与知识图谱在电网数字化项目统筹中的应用研究;杨钊 等;《电子信息与通信技术》;20230325;第21卷(第3期);全文 * |
融合实体类型特征的知识图谱嵌入方法及其应用;李婷婷;《中国优秀硕士学位论文全文数据库 信息科技辑》;20231015(第15期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117725555A (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11227118B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
US8666984B2 (en) | Unsupervised message clustering | |
US8719267B2 (en) | Spectral neighborhood blocking for entity resolution | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
US11886515B2 (en) | Hierarchical clustering on graphs for taxonomy extraction and applications thereof | |
CN111797245B (zh) | 基于知识图谱模型的信息匹配方法及相关装置 | |
CN114386421A (zh) | 相似新闻检测方法、装置、计算机设备和存储介质 | |
CN110688593A (zh) | 一种社交媒体账号识别方法及*** | |
CN113590811B (zh) | 文本摘要生成方法、装置、电子设备及存储介质 | |
CN114676346A (zh) | 新闻事件处理方法、装置、计算机设备和存储介质 | |
CN114328800A (zh) | 文本处理方法、装置、电子设备和计算机可读存储介质 | |
CN111930949B (zh) | 搜索串处理方法、装置、计算机可读介质及电子设备 | |
Ruambo et al. | Towards enhancing information retrieval systems: A brief survey of strategies and challenges | |
CN117725555B (zh) | 多源知识树的关联融合方法、装置、电子设备及存储介质 | |
CN115905885A (zh) | 数据识别方法、设备、存储介质及程序产品 | |
Jain et al. | An extensible parsing pipeline for unstructured data processing | |
CN114528378A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
KR102454261B1 (ko) | 사용자 정보 기반 협업 파트너 추천 시스템 및 그 방법 | |
CN114328894A (zh) | 文档处理方法、装置、电子设备及介质 | |
Sharma et al. | A probabilistic approach to apriori algorithm | |
CN112883703A (zh) | 一种识别关联文本的方法、装置、电子设备及存储介质 | |
CN112926297A (zh) | 处理信息的方法、装置、设备和存储介质 | |
Wen et al. | Blockchain-based reviewer selection | |
US20240168999A1 (en) | Hierarchical clustering on graphs for taxonomy extraction and applications thereof | |
Ajeissh et al. | An adaptive distributed approach of a self organizing map model for document clustering using ring topology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |