CN116861269A

CN116861269A - 工程领域的多源异构数据融合及分析方法

Info

Publication number: CN116861269A
Application number: CN202310818073.0A
Authority: CN
Inventors: 龚文璞; 于海祥; 李晓倩; 徐立; 廖小烽; 冉桂精; 吴绍鹏; 张邱悦; 李红立; 刘嘉
Original assignee: Chongqing Bim Technology Co ltd; Chongqing Construction Engineering Group Co Ltd; Chongqing Vocational Institute of Engineering
Current assignee: Chongqing Bim Technology Co ltd; Chongqing Construction Engineering Group Co Ltd; Chongqing Vocational Institute of Engineering
Priority date: 2023-07-05
Filing date: 2023-07-05
Publication date: 2023-10-10

Abstract

本发明公开了工程领域的多源异构数据融合及分析方法，其包括以下步骤：对完成预处理的数据基于属性进行实体匹配，根据匹配成功的结果构建实体决策树；将完成对实体决策树实体的语义解析后，将实体及其对应的语义信息融合，得到融合数据；将每条融合数据转化为由标记组成的序列，采用自注意力机制计算序列中每个标记与其他所有标记之间的关系权重，通过深度学习模型对带有上下文信息的标记序列进行处理，生成预测结果及对应的解释性输出，用于提供对决策过程的理解，本发明能够有效地处理工程领域的多源异构数据，提供高质量的预测结果，同时提供对预测过程的解释，最终帮助进行有效的决策。

Description

工程领域的多源异构数据融合及分析方法

技术领域

本发明涉及电力***技术领域，具体地涉及一种基于环境参数的电缆群动态增容方法。

背景技术

在现代工程领域，面临的一大挑战是如何处理和分析大量、多源、异构的数据。这些数据可能来自不同的传感器、设备，以及其他各种来源，包括结构化的表格数据、非结构化的文本数据，甚至是知识图谱等。这些数据的处理和分析对于工程设计、优化、决策等活动具有极其重要的价值。然而，由于数据的多样性、大规模和复杂性，如何有效地进行数据融合及分析是一个极具挑战性的问题。

在现有的技术中，常见的解决方案是使用各种机器学习和深度学习模型进行数据处理和分析。然而，这些模型通常只能处理一种类型的数据，或者需要人工进行数据融合和预处理，这显著增加了工作量，并可能导致信息的丢失。此外，这些模型通常没有引入领域知识，这使得它们在处理工程数据时效率和精度都不理想。

同时，许多现有模型，尽管在预测性能上可能表现良好，但却缺乏解释性。这使得很难理解模型的决策过程，以及不同输入特征对预测结果的贡献。这对于进行决策分析和提升决策效率造成了困难。

此外，许多现有模型的输出结果常常需要经过进一步的处理和分析，才能直接服务于特定的工程任务，这使得在实际使用中面临一定的难度。

发明内容

本发明为了解决上述现有技术在处理多源异构数据过程中效率低下、信息丢失、精度差及缺乏解释性等问题，本发明提供工程领域的多源异构数据融合及分析方法，本发明提高了数据处理的精度和效率，能够捕捉数据的深层次特征和复杂模式，能够生成解释性输出，且预测结果可以直接服务于特定的工程任务，帮助进行决策分析。

工程领域的多源异构数据融合及分析方法，包括以下步骤：

对完成预处理的数据基于属性进行实体匹配，根据匹配成功的结果构建实体决策树；

将每个实体的属性值转化为一个特征向量，并与知识图谱中的节点对应的特征向量进行相似度计算，初步确定实体的语义信息，当存在至少两个特征向量时，基于知识图谱的信息，为每个特征向量计算权重，选择最佳的语义信息作为实体属性的语义解析结果，完成对实体决策树实体的语义解析后，将实体及其对应的语义信息融合，得到融合数据；

将每条融合数据转化为由标记组成的序列，采用自注意力机制计算序列中每个标记与其他所有标记之间的关系权重，通过深度学习模型对带有上下文信息的标记序列进行处理，生成预测结果及对应的解释性输出，用于提供对决策过程的理解。

优选的，所述预处理用于将各种格式和来源的数据转换为统一的形式，预处理包括数据清洗、数据标准化及数据转换。

优选的，所述实体决策树用于对实体及其属性进行组织和展示，其中每个节点为一个实体，每个边都表示实体之间的某种关系；

实体决策树的构建包括：将被标记为同一实体的数据归为同一组，每组数据行用于创建决策树中的一个节点，每个节点包含对应实体的所有相关数据，利用节点间的关系构建两个节点之间的边。

优选的，所述特征向量用于获取属性值的语义信息，语义信息包括：字面意思、上下文信息及词与词之间的关系。

优选的，初步确定实体的语义信息后，若只有一个特征向量，且当相似度大于预设阈值时，直接确定实体的语义信息；当相似度小于预设阈值时，对预设阈值、数据注解以及知识图谱进行综合调整，并确定实体的语义信息。

优选的，通过计算实体属性值对应的特征向量在知识图谱中对应节点的全局重要性和近期出现频率，为每个特征向量分配权重，其中，权重用于反映特征向量所代表的语义信息在整个知识图谱和特定上下文中的重要性；

根据权重选择最佳的语义信息作为实体属性的语义解析结果，当存在语义冲突的情况时，利用知识图谱中的概念关系和其他实体或概念的语义信息，来解决冲突，确保选择的是最合适的语义信息。

优选的，所述权重计算的表达式为：

其中，C是知识图谱节点的概念，W(C)是概念的权重；α和β是超参数，用于调整重要性值和时间衰减因素在权重计算中的相对重要性；PR(C)是概念C的重要性值，MaxPR是所有概念的最大重要性值；T(C)是概念C最近一次出现的时间，T_now是当前时间，λ是衰减因子。

优选的，所述采用自注意力机制计算序列中每个标记与其他所有标记之间的关系权重包括以下步骤：

查询、键和值：对于序列中的每一个标记，均生成：查询向量、键向量及值向量；

权重得分计算：计算每个标记的查询向量与所有标记的键向量之间的点积，得到一个原始的权重得分；

关系权重计算：计算每一个标记与其他所有标记的相似度，通过softmax函数将相似度转化为关系权重；

值的加权和：将每个标记的值向量与其对应的权重得分相乘，然后将这些加权的值向量加和起来，得到当前标记的上下文表示；

其中，所述标记为一种由词、子词及字符任意组合构成的编码；

所述上下文表示用于捕捉序列中的长距离依赖关系。

优选的，所述通过深度学习模型对带有上下文信息的标记序列进行处理，生成预测结果及对应的解释性输出包括：

S1、将包含有自身上下文信息的标记序列作为输入；

S2、标记序列通过深度学习模型的至少两个层叠处理；

S3、生成新标记序列，所述新标记序列包含对每个标记的预测结果；

S4、生成预测结果对应的解释性输出。

本发明的优点在于：

(1)融合多源异构数据:本发明可以处理和融合多种类型和来源的数据，包括结构化数据、非结构化数据，以及知识图谱等，这使得可以最大程度地利用现有的信息资源，获取更全面、更深入的洞见；

(2)引入工程领域知识图谱:利用工程领域的知识图谱，可以使得模型更好地理解和处理工程数据，提高数据处理的精度和效率；同时，知识图谱的引入也使得模型有能力处理复杂的工程问题，如工程设计、优化等；

(3)基于Transformer的模型设计:利用Transformer模型的自注意力机制，可以捕捉数据中的长距离依赖关系，以及复杂的上下文信息；此外，Transformer模型的层叠结构可以学习数据的深层次特征和复杂模式，使得模型有更强的表达能力；

(4)自解释性设计:本发明中的模型不仅能够给出预测结果，还能够生成解释性输出，帮助理解模型的决策过程，以及不同输入特征对预测结果的贡献；这有助于提升模型的可信度和透明度，同时也可以为的工程决策提供更多的信息和依据；

(5)直接服务于工程决策:通过后处理，本发明的预测结果可以直接服务于特定的工程任务，帮助进行决策分析，提升决策效率；

综上，上述优点使得本发明能够有效地处理工程领域的多源异构数据，提供高质量的预测结果，同时提供对预测过程的解释，最终帮助进行有效的决策。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1是本发明的流程示意图；

图2是本发明中对实体决策树实体的语义解析示意图；

图3是本发明中自注意力机制计算流程示意图；

图4是本发明中生成预测结果及对应的解释性输出的流程示意图。

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

如图1所示，工程领域的多源异构数据融合及分析方法，包括以下步骤：

本发明首先通过实体识别和属性抽取，将多源异构数据转化为实体及其属性的形式，统一了不同数据源的数据形式，为后续的数据融合和分析提供了基础。

通过匹配工程领域知识图谱，本发明可以将实体和属性映射到知识图谱中的节点和属性，得到实体的结构化表示。

实体决策树的构建，结合了知识图谱和实体的属性信息，为实体提供了更丰富的语义信息和上下文环境，提高了实体属性值的解析和融合的准确性。

通过使用自注意力机制的Transformer模型，本发明能够有效处理序列化的融合数据，捕捉到标记之间的长距离依赖关系，提取出深层次的特征。

模型生成的预测结果和解释性输出，不仅提供了对任务的预测，还提供了决策过程的解释，提高了模型的可解释性。

本发明用于工程领域多源异构数据的融合和分析，提高了数据融合的准确性和完整性：本发明利用知识图谱和实体决策树的结构化表示，有效地解决了实体的语义歧义问题，提高了数据融合的准确性。同时，通过处理多源异构数据，本发明可以获得更完整的实体视图，提高了数据融合的完整性。

提升了预测结果的质量和解释性：使用自注意力机制的Transformer模型，本发明能够从融合数据中提取出深层次的特征，生成高质量的预测结果。同时，模型生成的解释性输出，提供了决策过程的解释，提高了模型的可解释性。

加速了决策过程：本发明能够自动处理多源异构数据的融合和分析，大大缩短了数据处理和决策的时间，提高了决策效率。

总的来说，本发明综合利用了深度学习和知识图谱技术，实现了对工程领域多源异构数据的有效融合和分析，提高了数据处理的效率和效果。

在数据预处理阶段，首要任务是将各种格式和来源的数据转换为一个统一的形式，以便于进行后续的处理和分析。这个步骤通常包括以下部分：

数据清洗：需要检查和处理缺失值、重复值、错误值等问题。对于文本数据，可以进行语法检查和拼写检查。对于数值数据，需要进行异常值检测。

数据标准化：数据的尺度和分布可能会影响到后续分析的结果，因此在这个步骤中，模型需要将数据转换到一个通用的尺度，例如使用归一化或标准化的方法。此外，对于文本数据，模型可能需要进行一些预处理操作，如转小写、去除停用词、词干化、词性还原等，来减少数据的复杂性和提高处理效率。

数据转换：在这个步骤中，模型需要将非结构化的数据，例如文本、图像、音频等，转换为结构化的形式。例如，文本数据可以通过词袋模型或词嵌入技术转换为数值向量；图像数据可以通过特征提取技术转换为特征向量。

引入先进的预处理技术：例如，对于文本数据，可以引入词干化(Stemming)、词性还原(Lemmatization)、停用词移除等技术。

以上的处理都是为了提高数据质量，使得后续的数据处理和分析步骤更有效。

在对数据完成预处理后，进入实体匹配阶段，首先需要标准化属性名，例如将大写转换为小写，删除空格等。这个过程旨在降低文本表达方式的差异，从而增加可能匹配的实体对。

接着，通过比较属性名来识别可能表示同一实体的数据行。例如，如果两个数据行都有“名称”和“地址”这两个属性，并且这两个属性的值在某种程度上是相似的，那么就可以认为这两个数据行可能表示同一实体。这个相似度的判断可能会依赖于某种度量，例如余弦相似度、Jaccard相似度或者编辑距离等。

然后，对于识别出来的候选匹配，模型需要进一步判断它们是否真正表示同一实体。在这个过程中，会使用一些更复杂的方法，例如计算属性值的语义相似度，或者使用一些机器学习算法，如决策树、随机森林、支持向量机或神经网络等。这些方法能够考虑多个属性的共同作用，从而提高实体匹配的准确性。

为了处理一些复杂的情况，例如属性值的单位不一致或格式不一致，需要在处理过程中进行适当的转换或标准化。例如，对于日期类型的属性，可能需要将所有的日期都转换为同一种格式；对于数值类型的属性，可能需要进行单位转换等。

在引入深度学习技术后，如BERT或GPT，这些模型在大规模语料库上预训练，学习到的丰富的语义知识，会进一步提高实体匹配的精度。这些模型可以提取属性值的深层次特征，并且能够捕捉到微妙的词义差别和语义关系。

匹配结果可以分为匹配、不匹配和未确定三种状态。对于匹配的实体，将它们标记为同一实体；对于不匹配的，标记为不同实体；对于未确定的，可能需要进一步的审查，或者采用一些启发式规则来进行决定。

实体匹配阶段旨在通过对属性的比较，识别出那些表示同一实体的数据行，以便于进行后续的数据融合。

根据实体匹配结果，将那些被标记为同一实体的数据行归为同一组。每组数据行将被用来创建决策树中的一个节点。每个节点将包含该实体的所有相关数据，例如实体的属性和属性值等。

在这些节点间构建边，形成决策树。构建边的依据通常是节点间的关系，例如共享的属性或相似的属性值等。例如，如果两个节点表示的实体都有一个名为“公司名称”的属性，并且这个属性的值是相同的，那么就可以在这两个节点间构建一条边。

为了构建决策树，会使用一些启发式规则，例如最大化节点间的相似性、最小化节点间的差异性等。这些规则可以帮助模型找出最有可能的实体关系，从而构建出最有可能的决策树。

构建实体决策树的结果是一种对实体关系的可视化表示。这种表示可以帮助用户理解数据的结构，以便于进行后续的数据分析和挖掘。此外，实体决策树还可以作为后续步骤的输入，提供有用的信息，例如哪些实体是相关的、哪些属性是重要的等。

通过将深度学习技术引入该阶段，例如图神经网络(Graph Neural Networks,GNN)，可以处理更复杂的关系和属性，从而进一步提高决策树的质量。GNN可以有效地处理图结构的数据，能够在节点和边上学习复杂的模式，从而更好地理解和捕捉实体之间的关系。

在完成实体决策树的构建后需要进行实体属性语义解析、语义冲突识别和解决及数据融合。

实体属性语义解析：首先对构建的实体决策树进行语义解析。具体来说，要对决策树中每个实体的属性值进行分析，并将其转化为一种可以用于计算的形式，即特征向量。此外，通过决策树，也可以理解每个属性值在上下文环境中的含义，比如它与其他实体或属性的关系，以及它在整个决策树中的位置等。这有助于更准确地理解实体属性值的语义信息。

语义冲突识别和解决：当完成了语义解析之后，下一步就是识别并解决可能存在的语义冲突。在这个步骤中，知识图谱的作用就显得非常重要了。可以利用知识图谱中的背景知识，例如概念之间的关系、概念的定义等，来帮助识别出那些含义不清或者可能产生冲突的实体属性值。然后，需要找出这些冲突的原因，并提出合理的解决方案。这通常需要利用到的领域知识和经验，以及知识图谱中的信息。

数据融合：在解决了语义冲突之后，就可以进行数据融合了。在这个过程中，将实体决策树中的实体及其属性值与知识图谱中的概念进行匹配，形成新的数据表示。这个数据表示不仅包含了原始的实体属性值，还包含了这些属性值在知识图谱中的语义信息。这有助于更好地理解和利用数据，为后续的数据处理和决策提供更多的信息和便利。

在实体属性语义解析、语义冲突识别和解决及数据融合过程中，实体决策树和知识图谱都起到了非常重要的作用。实体决策树提供了关于实体及其属性的结构化和上下文信息，有助于理解和解析实体属性值的含义；而知识图谱则提供了更广泛的背景知识，有助于识别和解决语义冲突，以及进行数据融合。通过这两者的结合，可以更有效地处理和理解工程领域的多源异构数据。

为了理解实体的属性值，需要将其转化为机器可以理解的形式。在这个过程中，模型会将每个实体的属性值转化为一个特征向量。这个特征向量可以捕捉属性值的语义信息，这包括字面意思，上下文信息，以及词之间的关系等。

假设有一个实体的属性值为“涂料”，这个词在不同的上下文中可能有不同的含义，比如在建筑工程中可能指的是室内外的装修材料，而在艺术创作中可能指的是画家用来创作的颜料。因此，需要让机器理解这个词在不同的上下文中的不同含义，以便于进行正确的语义解析。

在特征向量的生成过程中，通常会使用预训练的词向量模型，比如Word2Vec、GloVe或者BERT等。这些模型在大量的文本数据上进行训练，可以捕捉单词的语义信息以及单词之间的关系。例如，Word2Vec模型通过预测单词的上下文，或者预测上下文中的单词，来学习单词的向量表示。这些向量表示在高维空间中，语义相似的单词会被映射到相近的位置。

在转化为特征向量之后，就可以利用这些特征向量来计算属性值和知识图谱中概念的相似度，这将为下一步的语义解析和冲突识别提供依据。同时，通过特征向量，可以更好地理解属性值在不同上下文中的不同含义，进一步提高语义解析的准确性。

将这个特征向量和知识图谱中的每个概念的特征向量进行比较，计算它们之间的相似度。如果一个属性值和一个概念的相似度超过了一个预设的阈值，那么模型就会认为这个属性值可能有这个概念的意义。

在特征向量生成后，接下来的步骤是比较这个特征向量与知识图谱中每个概念的特征向量。每个概念在知识图谱中都有对应的特征向量，这些向量表示了概念的语义属性和关联关系。这个过程主要是为了找出属性值与哪些概念最接近，因此需要比较属性值的特征向量与知识图谱中每个概念的特征向量。

这个比较过程通常通过计算两个特征向量之间的余弦相似度来进行。余弦相似度能够衡量两个向量在高维空间中的夹角，从而反映他们的相似度。如果一个属性值和一个概念的余弦相似度超过了一个预设的阈值，那么模型就会认为这个属性值可能有这个概念的意义。这个阈值需要通过实验确定，一般会设为一个比较高的值，以确保识别出的概念有较高的可信度。

优选的，如图2所示，初步确定实体的语义信息后，若只有一个特征向量，且当相似度大于预设阈值时，直接确定实体的语义信息；当相似度小于预设阈值时，对预设阈值、数据注解以及知识图谱进行综合调整，并确定实体的语义信息。

在这个阶段，基于每个实体属性值的特征向量与知识图谱中对应节点的特征向量进行相似度计算。如果某个实体属性值只有一个与之最匹配(相似度最高)的特征向量，那么可以直接用这个特征向量(以及其对应的知识图谱节点)来确定实体的语义信息。而如果存在至少两个特征向量，这就意味着该实体属性值有多个可能的语义解释，此时需要进一步处理，以解决这种语义冲突。

当计算得出的相似度低于预设的阈值时，这意味着实体属性值的特征向量与知识图谱中的特征向量之间的匹配程度不高，即实体的语义信息不能确切地从知识图谱中获取。对于这种情况，可以采取以下几种处理方式：

模型调整：如果很多实体属性值都无法与知识图谱中的特征向量匹配，那么可能需要重新考虑的特征提取和比较方法，也许需要修改模型或者采用其他的特征向量表示方法。

阈值调整：如果只有少数的实体属性值不能与知识图谱中的特征向量匹配，也可以考虑调整阈值。这需要权衡匹配的准确性和覆盖率，可能需要在准确性和覆盖率之间找到一个合适的平衡点。

手动注解和反馈：对于无法匹配的实体属性值，也可以通过人工方式进行处理。例如，专家可以手动为这些实体添加注解，或者提供反馈来改善模型的性能。

扩充知识图谱：如果知识图谱覆盖的领域和实体类型不够全面，可能会导致很多实体无法找到对应的匹配。在这种情况下，可以考虑扩充知识图谱，增加更多的领域和实体类型，以提高匹配的可能性。

当相似度低于预设阈值时，需要对模型、阈值、数据注解以及知识图谱等多个方面进行综合考虑和调整，以提高模型的匹配性能和处理能力。

一个属性值可能有多个概念的意义，这就产生了语义冲突。为了解决这个问题，将使用知识图谱中的信息，例如概念之间的关系，以及概念的重要性等，来为每个属性值选择一个最合适的概念。这个过程是通过计算概念的权重，以及概念与属性值之间的相似度，然后选择权重最高且相似度最高的概念来完成的。

在处理语义冲突时，可能会遇到一个属性值可能对应多个概念的情况，这时候就需要在这些概念中选择一个最合适的。

首先考虑知识图谱中概念之间的关系。例如，如果两个概念在知识图谱中有直接的关联，那么这两个概念可能更容易被同时选择。同时，模型还会考虑概念的重要性，这是通过概念的权重来反映的。权重可以根据概念在知识图谱中的位置，以及概念与其他概念的关系来计算得出。例如，如果一个概念有很多与之关联的概念，那么这个概念的权重可能就会比较高。

在考虑了这些因素后，将为每个属性值选择一个最合适的概念。这个过程是通过计算概念的权重，以及概念与属性值之间的相似度，然后选择权重最高且相似度最高的概念来完成的。

这种方式不仅可以解决语义冲突，还可以使得选择的概念更符合实际情况。例如，如果一个属性值可能对应的两个概念，一个是非常常见的，另一个则很少出现，那么模型更可能选择那个常见的概念，因为它的权重会更高。

这样处理后，就得到了每个属性值最可能的概念，这将作为模型的输出，用于后续的数据融合和解析步骤。

权重是一种度量概念重要性的量化指标，通常在知识图谱中被用来反映一个概念在整个知识图谱中的重要程度。计算权重的方法有很多种，具体的计算方法可能会根据知识图谱的特性和需求而变化。

其中一种常见的计算权重的方法是根据概念在知识图谱中的位置和关联性进行计算。具体来说，如果一个概念在知识图谱中有更多的连接(比如它与其他概念的关系更多)，那么它的权重就会更高。这是因为在知识图谱中，一个概念与其他概念的关联性通常可以反映其重要性。

另外，权重还可以根据概念在实际应用中的使用频率来计算。例如，如果一个概念在实际的数据处理过程中出现得更频繁，那么可以认为这个概念的权重更高。这种方法可以帮助模型更好地理解和处理实际的数据。

权重计算的方式会因应用场景和特定的需求而有所变化，C代表知识图谱节点的概念，C在知识图谱中的权重W可以被计算为：

其中，Degree(C)是概念C在知识图谱中的度数，也就是与它直接相连的其他概念的数量，这反映了概念在知识图谱中的位置和关联性；

MaxDegree是知识图谱中度数最大的概念的度数，用于归一化Degree(C)；

Frequency(C)是概念C在实际数据处理中的使用频率；

MaxFrequency是所有概念中最大的使用频率，用于归一化Frequency(C)；

α和β是超参数，用于调整Degree(C)和Frequency(C)在权重计算中的影响力。他们的值可以通过交叉验证等方法确定，以获得最佳的模型性能。

通常情况下，会同时考虑度数和使用频率来计算权重，即同时使用这两个度量。这是因为度数可以反映概念在知识图谱中的重要性，而使用频率可以反映概念在实际数据处理中的重要性。

但在某些情况下，可能只关注其中一个度量。例如，如果只对知识图谱的结构感兴趣，而不关心实际的数据处理过程，那么可能只考虑度数。反之，如果只关注实际的数据处理过程，而不关心知识图谱的结构，那么可能只考虑使用频率。

这个公式只是权重计算的一种可能的方式，具体的计算方式可能需要根据实际的知识图谱和任务需求来调整。

PageRank算法：如果更关注概念在知识图谱中的全局重要性，可能会使用PageRank算法。PageRank算法是一种链接分析算法，它可以为知识图谱中的每个概念分配一个全局重要性分数。假设PageRank值为PR(C)，则概念C的权重可能被定义为：

其中，MaxPR是所有概念的最大PageRank值，用于归一化PR(C)；γ是一个超参数，用于调整PR(C)在权重计算中的影响力。

基于时间衰减的权重计算：如果的数据中包含时间信息，可能会采取时间衰减的方式来计算权重。设T(C)为概念C最近一次出现的时间，T_now为当前时间，可以定义概念C的权重为：

W(C)＝δ*exp(-λ*(T_now-T(C)))

其中，λ是衰减因子，用于控制权重随时间的衰减速率；δ是一个超参数，用于调整时间衰减在权重计算中的影响力；这个公式假设最近出现的概念更重要。

在现实情况中，概念的重要性可能同时受到多种因素的影响。例如，一个概念在知识图谱中的全局重要性(PageRank值)和它在最近的数据中的出现频率(时间衰减因素)可能都会影响它的权重。因此，需要将这两种因素结合起来，计算出一个综合的权重，获得本发明中权重的计算表达式。

优选的，所述权重计算的表达式为：

通过调整α和β的值，可以在不同的任务和数据集中平衡全局重要性和最近出现频率的影响。例如，如果认为全局重要性比最近出现频率更重要，可以将α设置得比β大。反之亦然。

通过计算特征向量(代表某一实体属性的语义信息)在知识图谱中对应节点的全局重要性(即节点在整个图谱中的中心性，可能通过PageRank或其他图算法来衡量)和近期出现频率(反映了该概念在特定上下文中的重要性)，得到每个特征向量(即实体属性的语义信息)的权重。

实际上，计算权重的目的是为每个实体属性的可能语义(由特征向量表示)打分，选择权重最大的特征向量意味着选择了该实体属性最可能的语义。这个语义将被用于后续步骤，如实体决策树的构建、数据融合等。

本发明中，当遇到在存在语义冲突的情况下，借助知识图谱的信息来解决这些冲突。具体的步骤包括以下几点：

识别冲突：首先，需要识别出存在语义冲突的实体属性值。语义冲突可能来自于多个可能的语义解析结果，或者来自于不同的实体属性值对应的语义解析结果之间的不一致。

收集相关信息：在识别出存在冲突的实体属性值后，要收集所有与这些属性值有关的信息。这包括它们自身的语义解析结果，以及知识图谱中与这些结果相关的所有信息。这些信息可能包括与它们有直接关系的其他实体或概念的信息，以及知识图谱中的全局信息，如概念之间的层次结构，概念之间的关联关系等。

解决冲突：有了这些信息后，就可以尝试解决冲突。具体的解决方式可能需要根据具体的冲突情况和领域知识来决定。可能的策略包括选择权重最大的语义解析结果，根据知识图谱中的概念关系来判断哪个结果更合理，或者结合其他实体或概念的语义信息来判断哪个结果更一致。

更新结果：最后，根据解决冲突后的结果，更新实体属性值的语义解析结果，以及相关的融合数据。

需要注意的是，这个过程可能需要重复进行，直到所有的语义冲突都得到解决。同时，解决冲突的过程可能会影响到其他的实体属性值和融合数据，因此可能需要相应地更新这些数据。

同时，还需要考虑实体属性可能有多个语义，这些语义之间可能存在冲突。此时，就需要利用知识图谱中的信息，如概念之间的关系，以及其他实体和概念的语义信息等，来解决这些冲突，确保选择的是最合适、最有意义的语义。

通过上述步骤，可以有效地解析和理解数据，以及识别和解决冲突。此外，使用工程领域知识图谱还可以帮助模型理解工程领域的特定知识和规则，从而更好地处理工程领域的数据。

在本发明中，设计了一个自解释性的Transformer模型，该模型能够自我解释其决策过程，从而增加模型的可解释性。下面将详细描述模型的工作过程：

输入与编码：Transformer模型接收经过上述处理步骤得到的融合数据，每条数据被转化为一种由标记(tokens)组成的序列。每个标记为一种由词、子词及字符任意组合构成的编码。将这些标记转化为一组称为“嵌入向量”(Embedding Vectors)的高维向量。嵌入向量可以捕捉和表示标记的语义信息，比如词义、词序、语境关系等。

当Transformer模型接收经过前面处理步骤得到的融合数据时，其主要工作就是将数据进行编码处理。编码的过程可以分为两个主要步骤：标记化(Tokenization)和嵌入(Embedding)。

标记化:首先，模型会将输入数据进行标记化，即将文本数据分割成一个个的标记，具体的标记单位会根据应用的需求和数据的特性来选择。例如，如果数据是英文文本，那么一个标记通常是一个词或者一个子词。如果数据是汉语文本，由于汉语没有明确的词语分隔符，所以一个标记通常是一个字符或者一个词。标记化的目的是将文本数据分割成一个个可以被模型处理的单位。

嵌入:然后，模型会将这些标记转化为一种称为嵌入向量的高维向量。这个过程通常是通过一个称为嵌入矩阵的参数矩阵来实现的。每个标记都对应嵌入矩阵的一行，这行的向量就是该标记的嵌入向量。嵌入向量的维度是可以设置的参数，通常的选择是几百到几千维。这个嵌入矩阵是模型训练过程中需要学习的参数之一。

嵌入向量是模型对标记的内部表示，它可以捕捉和表示标记的语义信息。例如，相似的标记(在语义上或者语法上相似)的嵌入向量应该是相似的。此外，嵌入向量还可以通过模型的自注意力机制捕捉和表示标记的上下文信息，比如词序和语境关系。

Transformer模型的核心是“自注意力”(Self-Attention)机制，它可以捕捉序列中的各个标记之间的相互关系。具体来说，对于序列中的每一个标记，模型会计算它与序列中其他所有标记的关系权重，这个权重反映了其他标记对当前标记的影响程度或者相关性。通过这种方式，模型能够理解序列中的上下文信息。

“自注意力”机制是Transformer模型的核心部分，它的主要功能是理解并捕捉序列中的上下文信息。具体来说，自注意力机制会对序列中每个标记的上下文进行建模，这个上下文是通过计算当前标记与序列中其他所有标记的关系权重来得到的。

优选的，如图3所示，所述采用自注意力机制计算序列中每个标记与其他所有标记之间的关系权重包括以下步骤：

查询、键和值：对于序列中的每一个标记，均生成：查询向量(query)、键向量(key)及值向量(value)；

权重得分计算：通过计算每个标记的查询向量与所有标记的键向量之间的点积(dotproduct)，得到一个原始的权重得分，这个得分可以理解为当前标记与其他标记之间的关联程度；

关系权重计算：计算每一个标记与其他所有标记的相似度，通过softmax函数将相似度转化为关系权重，确保了关系权重的相对性，即权重较高的标记更重要，更需要被关注；

所述上下文表示用于捕捉序列中的长距离依赖关系。

上述步骤的目的是使得模型能够在表示每个标记的同时，融合其上下文信息，即考虑序列中其他标记对当前标记的影响。这样，生成的上下文表示就能够捕捉序列中的长距离依赖关系，使得模型能够更好地理解和处理序列数据。

通过以上的步骤，自注意力机制能够捕捉序列中的上下文信息。这个上下文信息反映了序列中各个标记之间的相互关系，例如，语法结构、语义关联等。这种上下文信息对于理解和生成文本都是非常重要的。

每个标记的查询、键、值向量都是独立生成的，这意味着模型可以并行处理序列中的所有标记。这是Transformer模型相比于其他序列处理模型(例如RNN)的一个重要优势。

Transformer模型是一个深度学习模型，它由多个层叠的“编码器”(Encoders)或者“解码器”(Decoders)组成。每一个编码器/解码器都包含一个自注意力机制和一个全连接神经网络。数据在每一层都会经过自注意力机制和全连接神经网络的处理，每一层的处理结果都会作为下一层的输入。通过这种层叠结构，模型可以学习到数据的深层次特征和复杂模式。

Transformer模型采用的是深度学习的层叠结构，这种结构主要由多个编码器(Encoders)或解码器(Decoders)组成。每一个编码器或解码器包括两个主要部分：一个自注意力机制和一个全连接神经网络。

自注意力机制:如上文所述，自注意力机制可以捕捉序列中各个标记之间的相互关系，这对理解和生成文本非常关键。具体来说，自注意力机制会将每个标记的嵌入向量与序列中所有其他标记的嵌入向量进行比较，计算出它们之间的关系权重。这个权重可以理解为其他标记对当前标记的重要性或相关性。

全连接神经网络:全连接神经网络(也称为前馈神经网络)是一种非常基础的神经网络结构，它由多个全连接层组成。在Transformer模型中，全连接神经网络接收自注意力机制的输出作为输入，然后通过一系列的线性变换和非线性激活函数，提取出输入数据的深层特征。

在Transformer模型中，数据会依次经过每一层的自注意力机制和全连接神经网络的处理。每一层的输出都会作为下一层的输入。这种层叠结构使得模型能够逐层提取和抽象数据的特征，从而学习到数据的深层次模式和复杂关系。这是深度学习模型相比于浅层学习模型的主要优势。

特别需要注意的是，虽然每一层都包含自注意力机制和全连接神经网络，但每一层的参数都是独立的，也就是说，每一层都会学习到不同的特征和模式。这是深度学习模型能够学习到复杂模式的重要原因之一。

优选的，如图4所示，所述通过深度学习模型(如Transformer)对带有上下文信息的标记序列进行处理，生成预测结果及对应的解释性输出包括：

S1、将包含有自身上下文信息的标记序列作为输入，这些序列经过了自注意力机制的处理，使得每个标记都包含了其上下文信息；

S2、标记序列通过深度学习模型的至少两个层叠处理，在每一层中，序列都会经过两个主要的子模块：自注意力机制和全连接神经网络，这两个子模块的作用是进行特征提取和特征变换，使得模型能够从输入序列中学习到深层次的特征和复杂模式，每一层的处理结果都会作为下一层的输入；

S3、生成新标记序列，所述新标记序列包含对每个标记的预测结果，在经过模型的最后一层处理后，会得到一个新标记序列，这个序列包含了模型对每个标记的预测结果。预测结果通常会通过一个特殊的输出层(比如softmax层或线性层)进行转换，使得它们可以被解释为需要的输出类型，比如概率分布或者连续值；

S4、生成预测结果对应的解释性输出，解释性输出可以帮助理解模型的决策过程，比如哪些输入标记对预测结果有重要影响，以及它们之间的相互关系等，这些信息通常通过模型中的一些内部状态(比如注意力权重)来提取。

在这个上述步骤中，深度学习模型通过层叠结构和自注意力机制，能够捕捉到序列数据的深层次特征和长距离依赖关系，从而生成高质量的预测结果和解释性输出。

在经过层叠的编码器/解码器处理之后，会生成一个输出序列，这个序列可以表示为一组预测值或者决策结果。在的自解释性Transformer模型中，除了这些预测结果，模型还会生成一组解释性输出。这些输出可以帮助理解模型的决策过程，比如哪些输入标记对决策结果有重要影响，以及它们之间的相互关系等。

在经过多层的编码器和解码器处理后，Transformer模型会生成一个输出序列。这个序列可以被解读为一组预测值或者决策结果。这些结果可以用于各种任务，比如文本翻译(输出序列代表翻译后的句子)，情感分析(输出序列表示各种情感的可能性)，分类任务(输出序列对应各个类别的概率)，等等。

在自解释性Transformer模型中，除了这些预测结果，还有一部分输出专门用于生成模型的解释。这些解释可以帮助理解模型的决策过程，也就是说，它们可以帮助理解模型是如何从输入数据得到预测结果的。

对于自解释性输出，其中最重要的部分可能是注意力权重。在自注意力机制中，模型会计算每个输入标记对每个输出标记的注意力权重。这些权重可以看作是输入标记对输出标记的影响程度。通过分析这些权重，可以了解到哪些输入标记对决策结果有重要影响，以及这些标记之间的相互关系。

当然，对于工程领域的问题，也可以使用自解释性Transformer模型。例如，在建筑设计项目中，模型可能需要预测一种特定的结构设计是否会达到所需的性能标准。这种情况下，输出序列可能是一个概率值，表示该设计达到性能标准的可能性。

同时，自解释性输出可以帮助理解这个预测结果背后的原因。通过分析注意力权重，可以看到模型是如何从输入的设计参数和环境条件中，确定这个预测结果的。可以看到哪些设计参数和环境条件对预测结果有重要影响，以及这些因素之间的相互关系。

例如，如果某个特定的设计参数(比如建筑的高度)的注意力权重特别高，那么就可以推断出这个参数在决定建筑是否满足性能标准中起到了关键的作用。如果某两个设计参数(比如建筑的高度和宽度)的注意力权重都比较高，并且它们在自注意力机制中有较强的相互关系，那么就可以推断出这两个参数可能需要一起考虑，才能正确地评估建筑的性能。

这样的解释性输出可以帮助工程师更好地理解和信任模型的决策过程，从而提高他们使用模型的信心和效率。同时，这也可以帮助工程师发现可能的设计问题，提高设计的质量和效率。

自解释性的Transformer模型通过自我解释的方式，使能够理解并信任其决策过程，这对于多源异构数据融合的工程领域应用来说是非常重要的。

本发明中的自解释性Transformer模型在接收并处理了多源异构数据(如CAD设计数据、材料属性、机械性能数据、生产参数等)后，会输出预测结果以及解释性输出。

预测结果方面，输出形式依赖于特定的工程任务。例如，在一个复杂的结构设计任务中，模型可能需要预测某种结构在特定条件下的强度。这种情况下，预测结果可能是结构强度的预测值。如果任务是分类任务，如预测材料是否适合某种应用，那么输出结果可能是每个类别的概率分布。

解释性输出方面，它可以帮助理解模型的决策过程，即在多源异构数据中，哪些信息对最终的预测结果产生了影响，哪些特征在预测中起到了决定性作用。对于工程领域的任务，这可以帮助理解，比如说，在设计一个复杂结构时，是设计参数、材料属性还是其他生产参数对预测结果产生了主导影响。

在后处理阶段，需要将解释性输出反馈给工程团队。这可以帮助他们理解模型如何从多源异构数据中抽取并利用信息，从而提升模型性能，或者根据解释性输出优化工程设计。例如，如果解释性输出显示某个设计参数对预测结果有重要影响，那么工程师在后续的设计中可能需要更多地考虑这个参数。

这种数据输出与后处理方式，可以最大限度地利用多源异构数据的融合与分析，对工程问题提供更全面、准确的解决方案，同时也使得模型的决策过程更透明，有利于提升工程决策的效率和准确性。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.工程领域的多源异构数据融合及分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的工程领域的多源异构数据融合及分析方法，其特征在于，所述预处理用于将各种格式和来源的数据转换为统一的形式，预处理包括数据清洗、数据标准化及数据转换。

3.根据权利要求1所述的工程领域的多源异构数据融合及分析方法，其特征在于，所述实体决策树用于对实体及其属性进行组织和展示，其中每个节点为一个实体，每个边都表示实体之间的某种关系；

4.根据权利要求1所述的工程领域的多源异构数据融合及分析方法，其特征在于，所述特征向量用于获取属性值的语义信息，语义信息包括：字面意思、上下文信息及词与词之间的关系。

5.根据权利要求1所述的工程领域的多源异构数据融合及分析方法，其特征在于，初步确定实体的语义信息后，若只有一个特征向量，且当相似度大于预设阈值时，直接确定实体的语义信息；当相似度小于预设阈值时，对预设阈值、数据注解以及知识图谱进行综合调整，并确定实体的语义信息。

6.根据权利要求1所述的工程领域的多源异构数据融合及分析方法，其特征在于，通过计算实体属性值对应的特征向量在知识图谱中对应节点的全局重要性和近期出现频率，为每个特征向量分配权重，其中，权重用于反映特征向量所代表的语义信息在整个知识图谱和特定上下文中的重要性；

7.根据权利要求1所述的工程领域的多源异构数据融合及分析方法，其特征在于，所述权重计算的表达式为：

8.根据权利要求1所述的工程领域的多源异构数据融合及分析方法，其特征在于，所述采用自注意力机制计算序列中每个标记与其他所有标记之间的关系权重包括以下步骤：

所述上下文表示用于捕捉序列中的长距离依赖关系。

9.根据权利要求1所述的工程领域的多源异构数据融合及分析方法，其特征在于，所述通过深度学习模型对带有上下文信息的标记序列进行处理，生成预测结果及对应的解释性输出包括：

S1、将包含有自身上下文信息的标记序列作为输入；

S2、标记序列通过深度学习模型的至少两个层叠处理；

S4、生成预测结果对应的解释性输出。