CN117151220B

CN117151220B - 一种基于实体链接与关系抽取的行业知识库***及方法

Info

Publication number: CN117151220B
Application number: CN202311405218.0A
Authority: CN
Inventors: 张煇; 王瑾锋; 剌昊跃; 赵建峰
Original assignee: Changhe Information Co ltd; Beijing Changhe Digital Intelligence Technology Co ltd
Current assignee: Changhe Information Co ltd; Beijing Changhe Digital Intelligence Technology Co ltd
Priority date: 2023-10-27
Filing date: 2023-10-27
Publication date: 2024-02-02
Anticipated expiration: 2043-10-27
Also published as: CN117151220A

Abstract

本申请公开了一种基于实体链接与关系抽取的行业知识库***及方法，涉及知识库构建技术领域，包括：采用基于迁移学习的实体识别模型，得到文本中包含的实体；采用深度学习模型对包含文本特征、图像特征和音频特征的多模态信息进行特征提取和融合，输出实体的融合多模态特征；采用基于字符串匹配和词向量匹配的方法，从知识库中为每个输入实体生成候选实体，并使用基于知识图谱的联合推断模型，选择与上下文信息最匹配的候选实体进行链接；采用基于依存句法分析和语义角色标注的方法，从输入文本中提取出链接后的实体之间的关系；构建行业领域知识图谱。针对现有技术中实体链接准确率低问题，本申请提高了知识库构建过程中实体链接准确率。

Description

一种基于实体链接与关系抽取的行业知识库***及方法

技术领域

本申请涉及知识库构建技术领域，特别涉及一种基于实体链接与关系抽取的行业知识库***及方法。

背景技术

随着互联网技术的发展，各行各业积累了大量文本、图像、音频等非结构化数据。这些非结构化数据中蕴含了丰富的知识，但是缺乏有效的组织和管理。为了***地组织、管理和应用这些知识，知识图谱技术应运而生。知识图谱通过实体抽取、概念抽取、关系抽取等技术，构建领域知识体系，实现知识的表达、组织和应用。但是，在复杂的行业背景下，现有知识图谱技术在实体链接、关系抽取等方面仍存在准确率不高的问题，无法满足构建高质量行业知识图谱的需求。

在行业知识图谱构建过程中，实体链接是一项关键技术，它对知识图谱的质量具有重要影响。但是，复杂的行业语境使得仅依靠词向量等单一特征的实体链接方法，其准确率较低。同时，依存句法分析是关系抽取的重要手段，但仅使用依存句法信息，也无法完全解决关系提取的歧义问题。

在相关技术中，比如中国专利文献CN114417004A中提供了一种知识图谱和事理图谱的融合方法，包括：对文本语料库进行事件抽取、事件关系抽取，事件相似度计算、事件泛化过程形成事理逻辑知识库；构建上下位概念体系和本体形成抽象知识图谱；利用实体识别将事理逻辑知识库中具象事件实体词与上下位概念体系中下位词进行匹配泛化成上位概念，并利用可视化工具构建事理图谱；通过实体识别和实体链接技术将事理图谱中的事件实体链接到相应的知识图谱中，实现知识图谱与事理图谱的深度融合，形成新融合图谱。但是该方案仅依靠字符串匹配的实体链接方法，忽略了实体的语义信息，导致同义词、近义词无法有效匹配，因此该方案的实体链接准确率有待进一步提高。

发明内容

1.要解决的技术问题

针对现有技术中存在的实体链接准确率低问题，本申请提供了一种基于实体链接与关系抽取的行业知识库***及方法，通过实体的多模态特征表达、知识图谱的关联约束等，提高了知识库构建过程中实体链接准确率。

2.技术方案

本申请的目的通过以下技术方案实现。

本说明书实施例的一个方面提供一种基于实体链接与关系抽取的行业知识库***，包括：实体识别模块，采用基于迁移学习的实体识别模型，对输入文本进行实体识别，得到文本中包含的实体；多模态信息融合模块，采用深度学习模型对包含文本特征、图像特征和音频特征的多模态信息进行特征提取和融合，输出实体的融合多模态特征至实体链接模块；实体链接模块，将识别出的实体和获取的融合多模态特征作为输入，采用基于字符串匹配和词向量匹配的方法，从知识库中为每个输入实体生成候选实体，并使用基于知识图谱的联合推断模型，选择与上下文信息最匹配的候选实体进行链接，得到链接后的实体；关系抽取模块，以包含链接后的实体的文本作为输入，采用基于依存句法分析和语义角色标注的方法，从输入文本中提取出链接后的实体之间的关系；知识图谱构建模块，以链接后的实体和抽取出的实体关系作为输入，构建行业领域知识图谱。

进一步地，实体识别模块包括：词性标注单元，采用卷积神经网络的文本特征提取模型，对输入文本进行特征提取，获取输入文本中的词性特征；第一实体识别单元，输入获取的词性特征，采用包含N1个神经元的双向LSTM层和条件随机场输出层的条件随机场模型，识别出输入文本中已命名实体类别的第一实体，已命名实体类别包含人名、地名和组织机构名；第二实体识别单元，输入获取的词性特征，加载BERT语言表示模型训练的文本编码器参数，通过回归模型校准编码器参数，在编码器输出端添加包含N2个神经元的全连接层作为输出层，识别出输入文本中未命名实体类别的第二实体；其中，双向LSTM层通过正向和反向获取输入文本的上下文特征；条件随机场输出层将双向LSTM层获取的上下文特征作为输入，利用状态转移特征函数和状态特征函数，在最大化条件概率的条件下，使用Viterbi算法获取最优的实体标注序列，以识别命名实体的边界和类别。

进一步地，实体链接模块包括：候选实体生成单元，接收识别出的实体和多模态特征表示，通过n-gram级别的Jaccard相似算法计算实体文本的相似度，并通过基于注意力机制的词向量匹配模型计算实体语义的相似度，从知识库中搜索出多个文本相似和语义相似的候选实体；排序单元，构建包含节点和有向边的实体关系图，节点表示实体关系图中的实体，有向边表示两个实体间的关系，将识别出的实体及其候选实体作为节点加入实体关系图中；建立多层图卷积网络模型学习实体的向量表示；将实体的向量表示输入Page Rank算法迭代计算实体的重要度分数；根据实体的重要度分数对候选实体列表进行排序；链接单元，通过设定重要度分数阈值的方法选择排序最前面的候选实体，作为识别实体的链接结果。

进一步地，建立多层图卷积网络模型学习实体的向量表示包括：构建M1层图卷积网络，M1为正整数，M1的取值范围为2至5，其中第i层包含多个节点，节点表示实体关系图中的实体；图卷积网络的输入层节点表示为对应实体的onehot编码；在第i层，为每个节点计算特征向量，通过对节点在第i+1层和第i-1层的相邻节点特征向量进行加权求和聚合计算得到；在图卷积网络的训练过程中，通过传播关系约束信息，学习节点的低维特征向量表达，低维特征向量的维度d1为正整数，d1的取值范围为10至100；在相邻节点特征向量的加权求和中，利用基于节点的入度数量进行归一化的注意力机制作为边权重；经过M1层图卷积网络训练后，输出网络中每个节点的d1维低维特征向量作为对应实体的向量表示。

进一步地，n-gram级别为2-gram或3-gram。

进一步地，关系抽取模块包括：预处理单元，对包含已链接实体的文本进行分词和词性标注的预处理；依存句法分析单元，通过转化为特征依存图的方法构建预处理后的文本的依存句法树；依存路径确定单元，通过找到依存句法树中两个实体节点间最短路径的方法获取依存句法树中每个实体对间的最短依存路径，得到依存关系；语义角色标注单元，利用基于双向LSTM-CRF结构的神经网络模型对预处理后的文本进行语义角色标注，获取每个实体的语义角色标签；关系抽取单元，构建基于多层自注意力机制的神经网络分类模型，输入每个实体对的依存关系和语义角色标签，输出每个实体对相应的语义关系类别。

进一步地，语义角色标注单元包括：输入子单元，用于接收经过预处理的文本数据，并将预处理后文本数据中的每个词转换成固定维度的词向量，作为输入层的输入；双向LSTM子单元，包含前向LSTM子单元和后向LSTM子单元，前向和后向LSTM子单元的隐藏层节点数相等，均为d2，用于分别对输入层中的词向量序列进行前向和后向遍历，并输出文本序列的前后上下文语义特征；条件随机场子单元，连接到双向LSTM子单元的输出层，用于接收双向LSTM输出的文本特征，并依据特征对输入文本进行语义角色标注，输出语义角色标注结果；人工标注子单元，用于提供人工标注的文本语义角色标注结果，作为训练数据；损失函数子单元，连接到条件随机场子单元的输出层和人工标注子单元，用于计算条件随机场子单元输出的预测语义角色标注结果和人工标注子单元提供的文本语义角色标注结果之间的负对数似然损失；正则化子单元，连接到损失函数子单元，用于向损失函数中添加L2正则化项，以防止神经网络模型过拟合。

进一步地，多模态信息融合模块包括：文本特征获取单元，用于接收文本数据，利用预训练的BERT模型对文本数据进行编码，获取文本的语义特征表示；图像特征获取单元，用于接收图像数据，利用预训练的ResNet模型对图像数据进行卷积操作，获取图像的视觉特征表示；音频特征获取单元，用于接收音频数据，利用预训练的ResNet模型对音频数据进行编码，获取音频的音频特征表示；多模态特征融合单元，分别连接文本特征获取单元、图像特征获取单元、音频特征获取单元，用于收集各模态的特征表示，并输入到多层感知机中，学习不同模态特征之间的关联，得到融合多模态特征；输出接口，连接多模态特征融合单元，用于输出融合多模态特征，以供实体链接模块使用。

进一步地，多模态特征融合单元包括：输入子单元，用于输入获取的包含语义特征、视觉特征和音频特征的多模态特征；多模态注意力子单元，通过计算不同模态特征的注意力权重，并进行加权求和，获取加权特征；交互建模子单元，采用多线性张量分解模型，分解多模态特征的张量表示，获取交互特征；拼接子单元，将加权特征和交互特征按照预定维度进行拼接，形成融合多模态特征；多层感知机子单元，包含输入层、隐藏层和输出层，隐藏层基于反向传播调节权重及非线性激活函数，学习特征的非线性关联；

输出子单元，输出经过多层感知机学习后的融合多模态特征。

本说明书实施例的另一个方面还提供一种基于实体链接与关系抽取的行业知识库构建方法，包括：实体识别步骤，采用条件随机场模型识别命名实体，并采用基于BERT的模型识别未命名实体；多模态信息融合步骤，通过深度学习模型提取并融合文本、图像、音频多模态特征；实体链接步骤，利用字符串匹配、词向量匹配从知识库生成候选实体，并通过知识图谱模型进行链接；关系抽取步骤，基于依存句法分析和语义角色标注的神经网络模型抽取实体关系；知识图谱构建步骤，以链接后的实体和抽取的关系为输入，构建知识图谱；其中，实体链接步骤中的候选实体排序采用多层图卷积网络模型学习实体表示；关系抽取步骤中的语义角色标注采用注意力机制增强的双向LSTM模型；多模态信息融合步骤采用含注意力机制和张量分解的多模态特征融合方法。

3.有益效果

相比于现有技术，本申请的优点在于：

（1）实体识别模块采用了迁移学习和多任务学习相结合的方法，迁移学习部分加载BERT等预训练语言模型以提高对新出现实体的识别能力，多任务学习部分同时进行命名实体识别和未登录词识别，扩大了实体识别的范围，提高了实体识别召回率，进而提高了实体链接的准确率；

（2）实体链接模块通过构建知识图谱并学习实体的向量表示，增加了实体之间的关联性建模，使得可以根据关联关系对候选实体进行更准确的排序，相比直接通过字符串匹配结果进行排序，提高了实体链接的准确率；

（3）关系抽取模块采用依存句法分析获取句法路径特征和语义角色标注获取语义特征的方式进行关系分类，相比单独使用句法或语义方法，句法结构表示和语义角色标注的有机结合，使关系表达更加完整，提高了关系分类的F1值，从而提高了实体链接的准确率。

附图说明

本说明书将以示例性实施例的方式进一步描述，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本说明书的一些实施例所示的一种基于实体链接与关系抽取的行业知识库***的示例性模块图；

图2是根据本说明书一些实施例所示的多模态信息融合模块的示意图；

图3是根据本说明书一些实施例所示的实体识别模块的示意图；

图4是根据本说明书一些实施例所示的实体链接模块的示意图；

图5是根据本说明书一些实施例所示的关系抽取模块的示意图；

图6是根据本说明书一些实施例所示的一种基于实体链接与关系抽取的行业知识库构建方法的示例性流程图。

图中标号说明

100、一种基于实体链接与关系抽取的行业知识库***；110、实体识别模块；120、多模态信息融合模块；130、实体链接模块；140、关系抽取模块；150、知识图谱构建模块；111、词性标注单元；112、第一实体识别单元；113、第二实体识别单元；121、文本特征获取单元；122、图像特征获取单元；123、音频特征获取单元；124、多模态特征融合单元；125、输出接口；131、候选实体生成单元；132、排序单元；133、链接单元；141、预处理单元；142、依存句法分析单元；143、依存路径确定单元；144、语义角色标注单元；145、关系抽取单元。

具体实施方式

应当理解，本说明书中所使用的“***”“装置”“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

下面结合附图对本说明书实施例提供的方法和***进行详细说明。

图1是根据本说明书的一些实施例所示的一种基于实体链接与关系抽取的行业知识库***100的示例性模块图，如图1所示，一种基于实体链接与关系抽取的行业知识库***100，包括：

实体识别模块110，采用基于迁移学习的实体识别模型，对输入文本进行实体识别，得到文本中包含的实体；采用基于迁移学习的实体识别模型来从输入文本中准确地识别实体。迁移学习可以通过在一个领域训练的模型的知识来帮助提高在另一个领域的实体识别准确率。这可以提高***的准确性，因为模型已经学会了一些通用的实体识别特征。

多模态信息融合模块120，采用深度学习模型对包含文本特征、图像特征和音频特征的多模态信息进行特征提取和融合，输出实体的融合多模态特征至实体链接模块130；这一模块使用深度学习模型，将文本、图像和音频特征融合在一起。多模态信息融合可以帮助***更全面地理解输入数据，提高对实体的特征提取。这可以增加实体链接的成功率，因为模型可以综合不同类型的信息来确定实体的身份。

实体链接模块130，将识别出的实体和获取的融合多模态特征作为输入，采用基于字符串匹配和词向量匹配的方法，从知识库中为每个输入实体生成候选实体，并使用基于知识图谱的联合推断模型，选择与上下文信息最匹配的候选实体进行链接，得到链接后的实体；在这个模块中，已经被识别出的实体和融合多模态特征用于实体链接。通过使用字符串匹配和词向量匹配等方法，***可以在知识库中为每个输入实体生成候选实体。使用基于知识图谱的联合推断模型，选择最匹配的候选实体进行链接。这个模块的准确率关键取决于匹配算法的效力和推断模型的精确性。通过改进这些部分，可以提高实体链接的准确性。

关系抽取模块140，以包含链接后的实体的文本作为输入，采用基于依存句法分析和语义角色标注的方法，从输入文本中提取出链接后的实体之间的关系；这一模块利用包含链接后的实体的文本，采用依存句法分析和语义角色标注等方法，从输入文本中提取实体之间的关系。准确的关系抽取对于构建知识图谱至关重要。提高依存句法分析和语义角色标注的精确性可以提高关系抽取的准确率。

知识图谱构建模块150，以链接后的实体和抽取出的实体关系作为输入，构建行业领域知识图谱。使用已链接的实体和抽取出的实体关系，构建行业领域的知识图谱。这个模块的准确性与前述步骤的准确性紧密相关。如果实体链接和关系抽取不准确，知识图谱也会受到影响。

综上所述，实体识别模块110负责识别文本中的实体，采用基于迁移学习的模型。这些识别到的实体包括文本中的文本实体和多模态信息中的实体。实体识别的准确性影响后续模块的结果。多模态信息融合模块120将文本、图像和音频特征融合在一起，帮助***更全面地理解输入数据，从而提高对实体的特征提取。这多模态特征的融合增加了对实体的全面理解，为实体链接提供更多信息，提高了实体链接的成功率。实体链接模块130使用已识别的文本实体和多模态信息中的实体作为输入，通过基于字符串匹配和词向量匹配的方法生成候选实体。这需要考虑多模态信息的特征，以提高候选实体的准确性。实体链接模块130将已生成的候选实体与知识库中的实体进行匹配。成功的实体链接是关系抽取的前提。通过更精确的实体链接，关系抽取模块140可以获得更准确的实体之间的关系。关系抽取模块140使用已链接的实体进行关系抽取。准确的实体链接确保了关系抽取的基础数据质量，因此提高了关系抽取的准确率。知识图谱构建模块150将已链接的实体和抽取出的实体关系用于构建知识图谱。只有通过实体链接和关系抽取获得准确的实体和关系数据，才能构建精准而完整的知识图谱。

图2是根据本说明书一些实施例所示的多模态信息融合模块120的示意图，如图2所示，多模态信息融合模块120包括：

文本特征获取单元121，用于接收文本数据，利用预训练的BERT模型对文本数据进行编码，获取文本的语义特征表示；文本数据通常包含实体的描述、上下文信息等，是实体链接中的一个重要信息来源。BERT（Bidirectional Encoder Representations fromTransformers）是一种预训练的深度学习模型，专门设计用于处理自然语言处理任务。BERT的关键在于其能够双向理解上下文信息，而不仅仅是从左到右或从右到左。通过BERT模型，文本数据被转换为一个高维度的向量，该向量包含了文本在语义空间中的表示。这意味着相似语义的文本将在这个向量空间中更为接近。BERT模型通过深度学习在大规模语料库上进行预训练，能够学习到丰富的语义信息。这有助于捕捉实体描述、上下文等信息的深层次语义，提高实体链接的语义关联性。由于BERT模型是双向的，它能够充分理解文本中的上下文信息。这对于实体链接非常重要，因为实体在不同的上下文中可能具有不同的含义，而BERT可以更好地捕捉这种语境相关性。BERT生成的语义向量可以用于量化实体之间的语义相似性。在实体链接任务中，通过比较实体描述的语义向量，可以更准确地匹配相似或相同的实体，从而提高链接准确率。

图像特征获取单元122，用于接收图像数据，利用预训练的ResNet模型对图像数据进行卷积操作，获取图像的视觉特征表示；图像数据通常以像素矩阵的形式存在，包含实体的视觉描述信息。ResNet（Residual Neural Network）是一个深度学习模型，通常用于图像识别任务。它的关键在于引入了残差学习，解决了深层网络训练过程中的梯度消失问题。预训练的ResNet模型已经在大规模图像数据上进行了训练，学到了通用的图像特征。通过ResNet模型，图像数据经过多层卷积操作得到一个高维度的特征向量。这个向量包含了图像在视觉空间中的抽象表示，其中包含了各种视觉特征，如边缘、纹理和物体的形状等。ResNet模型经过多层卷积操作，能够将图像信息抽象为高级的语义特征。这些特征包含了物体的形状、纹理等信息，对于实体链接任务中的物体识别非常有帮助。通过这种抽象表示，***可以更好地理解图像中的实体信息。将文本特征和图像特征结合，可以获得更全面的实体描述。例如，对于一个实体，文本描述可能提供了关于其职业、背景等方面的信息，而图像则可以提供其外貌、特定标志性特征等信息。将这两种信息融合在一起，可以提高实体链接的准确率，尤其是在处理歧义性较大的实体时更为有效。

音频特征获取单元123，用于接收音频数据，利用预训练的ResNet模型对音频数据进行编码，获取音频的音频特征表示；音频数据以数字形式存在，通常是时域信号。ResNet是一个视觉识别的模型，而不是专门用于音频的模型。在这里，使用ResNet的目的是将音频数据映射到一个高维度的特征空间，以获取有关音频的抽象表示。编码后的音频数据将产生一个高维度的特征向量。这个向量包含了音频中的一些抽象特征，如声音的频谱、音调、声音的强度、时域和频域的特征等。将音频特征与文本和图像特征结合，可以获得更全面的实体描述。音频信息可能提供关于实体的声音特征、环境声音等信息，而文本和图像提供了文本描述和视觉特征。将这些信息融合可以帮助***更好地理解实体并提高链接准确性。

多模态特征融合单元124，分别连接文本特征获取单元121、图像特征获取单元122、音频特征获取单元123，用于收集各模态的特征表示，并输入到多层感知机中，学习不同模态特征之间的关联，得到融合多模态特征；各模态的特征表示从文本、图像和音频获取单元中传送到多模态特征融合单元124。这些特征表示可以是高维向量，其中包含了文本、图像和音频数据的抽象信息。多层感知机用于学习模态之间的关联，这包括模态之间的相互作用和权重分配。这有助于***理解不同模态数据之间的联系和语义关联。融合多模态特征使***能够综合利用文本、图像和音频信息，从而提供更全面的实体描述。这有助于***更好地理解实体，并提高实体链接的准确性。多层感知机用于学习模态之间的关联，这使***能够更好地理解不同模态数据之间的语义关联，从而更好地匹配实体。多模态融合可以提高***的容错性。如果某个模态数据不完整或有噪声，其他模态数据可以弥补这些缺陷，提高实体链接的鲁棒性。

其中，多模态特征融合单元124包括：输入子单元，用于输入获取的包含语义特征、视觉特征和音频特征的多模态特征；将从各模态获取的特征输入到多模态特征融合单元124。

多模态注意力子单元，通过计算不同模态特征的注意力权重，并进行加权求和，获取加权特征；通过注意力机制，***学习哪些模态的特征在当前上下文中更重要，从而加强重要特征的表达。注意力机制是一种模仿人类视觉和认知注意力的方法，它使***能够在多个输入信号中选择性地关注某些部分，以便更好地理解和表示数据。在这个子单元中，注意力机制用于计算不同模态特征的权重，然后将它们加权求和，以获取加权特征。在多模态注意力子单元中，***计算每个模态特征在当前上下文中的重要性，即注意力权重。这是通过比较每个模态特征与实体链接任务的上下文之间的相关性来实现的。较相关的特征将获得更高的权重，而不相关的特征将获得较低的权重。通过本申请，***能够在不同模态的特征之间进行智能的权衡，确保在实体链接任务中使用最相关和有助于提高准确率的信息。这有助于减少噪声，提高任务的性能，因为只有与上下文最相关的特征将在最终的特征表示中得到更高的权重。

交互建模子单元，采用多线性张量分解模型，分解多模态特征的张量表示，获取交互特征；利用多线性张量分解技术，将多模态特征的张量表示分解成各模态之间的交互特征，从而更好地捕捉不同模态之间的关系。多线性张量分解是一种数学方法，用于分解多维张量（如多模态特征的张量表示）。这个技术允许将一个高维张量分解成一组低维张量，每个低维张量对应于不同模态的特征。这种分解有助于将多模态数据的复杂关系分解成更简单的组件。在实体链接任务中，不同模态的特征之间可能存在复杂的交互关系，例如文本描述和图像特征之间的语义关联。交互特征是指从多模态数据中提取的表示不同模态之间关系的特征。首先，将多模态特征整合成一个多维张量表示，其中每个模态对应于一个维度。这可以将不同模态的特征以张量的形式组合在一起，形成一个整体的多模态表示。然后，采用多线性张量分解技术，将这个多维张量分解成一组低维张量。这些低维张量表示分别对应于不同模态的特征，并捕捉了每个模态特征的内在结构。在分解后，可以根据这些低维张量表示来提取交互特征。这些交互特征捕捉了不同模态之间的相互作用，有助于更好地理解和建模不同模态特征之间的关系。通过捕捉不同模态之间的关系，交互建模子单元可以综合各模态之间的交互特征。这使得***能够更全面地理解多模态数据中的关联性和相关性。通过更好地捕捉不同模态之间的关系，实体链接***能够更精确地匹配实体和上下文信息。这有助于提高实体链接的准确率，因为它更好地考虑了不同模态之间的互动和关联，从而提供更丰富的特征表示。

拼接子单元，将加权特征和交互特征按照预定维度进行拼接，形成融合多模态特征；将通过多模态注意力子单元获得的加权特征和通过交互建模子单元获得的交互特征按照预定的维度拼接在一起，以得到完整的融合多模态特征。拼接子单元通过将加权特征和交互特征按照预定维度拼接在一起，形成融合多模态特征，有助于实体链接***更好地理解和表示多模态数据，从而提高实体链接的准确率。这个融合的特征向量包含了不同模态信息的综合，使得***更能够精确地匹配实体和上下文信息。

多层感知机子单元，包含输入层、隐藏层和输出层，隐藏层基于反向传播调节权重及非线性激活函数，学习特征的非线性关联；通过多层感知机的反向传播算法，不断地调整网络中的权重，以学习特征之间的非线性关系。反向传播是一种用于训练神经网络的算法，通过不断地调整网络中的权重，以最小化预测值与实际值之间的误差。这一过程涉及计算误差的梯度，并将其反向传播到网络的每一层，以更新权重。在隐藏层中使用非线性激活函数，如ReLU（Rectified Linear Unit）或Sigmoid，以引入非线性变换，使网络能够学习非线性关系。非线性激活函数允许网络更好地拟合复杂的数据分布。多层感知机的隐藏层充当了特征学习的角色。每个隐藏单元接收来自前一层的特征，并通过非线性激活函数引入非线性关系。这有助于网络学习数据中的复杂特征和关联。通过多层感知机的隐藏层和非线性激活函数，网络能够学习并捕捉数据中的非线性关系。这对于实体链接任务非常关键，因为实体链接的特征之间可能存在复杂的非线性关联。多层感知机有助于从原始特征中提取更高级的特征，同时降低噪声和冗余信息的影响。这有助于提高特征的表达质量，从而提高实体链接的准确率。通过反向传播算法，多层感知机能够不断地调整权重，以最小化误差。这意味着模型在训练过程中逐渐优化，以更好地拟合实体链接任务的数据和模式。输出子单元，输出经过多层感知机学习后的融合多模态特征。将经过多层感知机处理的特征作为输出，这个特征表示经过多模态融合和学习后的实体特征。

输出接口125，连接多模态特征融合单元124，用于输出融合多模态特征，以供实体链接模块130使用。将处理好的融合多模态特征提供给实体链接模块130，以用于后续的实体匹配和链接过程。

图3是根据本说明书一些实施例所示的实体识别模块110的示意图，如图3所示，实体识别模块110包括：

词性标注单元111，采用卷积神经网络的文本特征提取模型，对输入文本进行特征提取，获取输入文本中的词性特征；CNN是一种深度学习模型，通常用于图像处理，但也可用于文本处理。它通过卷积操作和池化操作，能够有效地捕捉文本中的局部特征，有助于文本特征的提取。词性标注是一种自然语言处理任务，其目标是为文本中的每个单词分配一个词性标签，如名词、动词、形容词等。这些词性标签提供了有关单词在句子中扮演的角色和语法信息。首先，使用CNN模型对输入文本进行特征提取。这涉及将文本分割成标记或单词，并使用卷积操作来捕捉不同单词之间的局部关系。这些卷积操作会产生文本的特征映射，其中包含了局部特征信息。然后，将文本的特征映射与词性标注相结合。这可以通过将每个特征映射与相应单词的词性标签关联起来，以获得对应的词性特征。这样，每个单词都将与其词性信息关联在一起。词性标注提供了有关文本中每个单词的语法和语义信息。这些信息对于实体链接任务非常重要，因为实体链接需要理解文本中的实体与其他单词之间的关系。通过将词性特征引入模型，可以更好地理解文本的结构。

第一实体识别单元112，输入获取的词性特征，采用包含N1个神经元的双向LSTM层和条件随机场输出层的条件随机场模型，识别出输入文本中已命名实体类别的第一实体，已命名实体类别包含人名、地名和组织机构名；较大的N1值增加了双向LSTM层的神经元数量，使模型具有更大的学习容量。这意味着模型可以更好地捕捉输入文本中的复杂特征和上下文信息。在实体链接任务中，这通常包括对实体名称、上下文词汇和语法结构的更好理解。实体链接需要考虑实体的上下文信息，以确定实体的类别和连接关系。较大的N1值可以帮助模型更好地理解上下文依赖关系，特别是在输入文本中存在多个实体时。这有助于提高准确率，因为模型更能区分不同实体之间的关系。CRF是一种序列标注模型，通常用于实体链接任务。较大的N1值可以在CRF层中提供更多的特征，以更好地建模实体之间的相互关系，从而提高实体链接的准确性。在本申请的优选实施例中N1为256，N1=256的选择有助于提高实体链接模型的性能，增加了模型的学习能力、上下文建模能力和序列标注精度，从而提高了已命名实体识别的准确性和鲁棒性。这在处理包含人名、地名和组织机构名等不同类型实体的文本中，尤其有益。双向长短时记忆网络（LSTM）层和条件随机场（CRF）输出层的条件随机场模型，双向长短时记忆网络（BiLSTM），BiLSTM是一种递归神经网络结构，用于处理序列数据。它包含两个方向的LSTM，一个从左到右，另一个从右到左。BiLSTM能够捕捉序列中的上下文信息，对于实体识别任务特别有用。条件随机场（CRF），CRF是一种统计建模方法，通常用于序列标注任务。它能够建模标签之间的相互关系，考虑整个序列的上下文信息，并帮助解决标签的依赖性问题。首先，该方案获取输入文本中的词性特征，这些特征提供了有关文本中每个词的语法信息。这些词性特征可以作为模型的输入。接下来，输入的词性特征通过双向LSTM层。BiLSTM层的任务是捕捉输入文本中的上下文信息，以便更好地理解每个词在文本中的语境。在BiLSTM层之后，使用条件随机场（CRF）作为输出层。CRF考虑了标签之间的依赖性，它会为每个词分配一个标签，这里是实体类别，如人名、地名或组织机构名。CRF模型的输出是已命名实体的类别标签，例如人名、地名或组织机构名。这样，***能够识别输入文本中的已命名实体并确定其类别。使用BiLSTM和CRF，该方案能够充分理解输入文本中的上下文信息，这对实体链接任务非常重要。实体链接需要考虑实体在文本中的上下文，以便更好地将实体与知识库中的实体相关联。

第二实体识别单元113，输入获取的词性特征，加载BERT语言表示模型训练的文本编码器参数，通过回归模型校准编码器参数，在编码器输出端添加包含N2个神经元的全连接层作为输出层，识别出输入文本中未命名实体类别的第二实体；在本申请的优选实施例中N2为512。第二实体识别单元113使用BERT语言表示模型训练的编码器参数，这意味着它可以从文本中提取高质量、上下文丰富的表示。通过在全连接层中使用较大的N2值（512），模型可以更充分地利用这些抽取的特征，从而提高对未命名实体的识别能力。未命名实体通常不受特定实体类别的限制，可以包括各种类型的实体，如日期、产品名称、事件等。较大的N2值有助于模型更好地理解和识别这种多样性，因为它提供了更多的神经元用于表示不同类型的未命名实体。使用N2=512的全连接层增加了模型的学习容量。这意味着模型能够更好地适应不同类型的未命名实体和不同上下文，从而提高了实体链接的准确性。N1和N2的不同取值允许第一实体识别单元112和第二实体识别单元113在不同层面对文本信息进行处理。第一实体识别单元112（N1=256）主要关注已命名实体的识别，而第二实体识别单元113（N2=512）则专注于未命名实体的识别。这种协同工作可以更好地满足实体链接任务的要求，因为不同类型的实体可能需要不同的处理方法。N2设置为512，与N1（256）相互配合，可以提高实体链接的准确率，特别是在处理已命名和未命名实体链接任务时。这种配置允许模型充分利用BERT编码器的上下文表示，并通过更大的全连接层捕获更多的特征，以更好地理解和识别不同类型的实体。这有助于提高整个实体链接***的性能。

BERT（Bidirectional Encoder Representations from Transformers）是一种预训练的深度学习模型，用于自然语言处理任务。它在大规模文本数据上进行预训练，生成了丰富的文本表示，可以捕捉上下文信息。回归模型是一种监督学习模型，通常用于预测连续数值输出。在这里，回归模型用于校准BERT编码器参数，以便更好地适应实体链接任务的需求。全连接层是一种神经网络层，用于将输入特征映射到输出层。在这里，它用于实体识别，识别输入文本中未命名实体的类别。首先，该方案获取输入文本的词性特征。此外，加载预训练的BERT编码器参数，这些参数已在大规模文本数据上进行了训练，以提供高质量的文本表示。使用回归模型，对加载的BERT编码器参数进行校准。这个过程可以帮助BERT模型更好地适应实体链接任务，因为BERT的编码器参数通常是通用的，而实体链接需要特定的上下文和实体关系。在BERT编码器输出端添加全连接层作为输出层。这个全连接层通过校准的BERT参数，将输入文本映射到未命名实体的类别。通过使用BERT编码器参数，该方案能够更好地理解输入文本中的上下文信息，因为BERT在预训练过程中学习了文本的丰富表示，包括语义和上下文。通过回归模型的校准，BERT编码器参数可以根据实体链接任务的需求进行微调，从而提高模型在特定任务上的性能。通过添加全连接层，***能够将文本映射到未命名实体的类别，这有助于更好地执行实体链接任务。

其中，双向LSTM层通过正向和反向获取输入文本的上下文特征；双向LSTM（LongShort Term Memory）是一种循环神经网络（RNN）变体，用于处理序列数据。与传统的RNN不同，它包括正向LSTM和反向LSTM两个部分，分别用于捕捉文本序列的正向和反向上下文信息。正向LSTM按照文本序列的顺序处理信息，而反向LSTM按相反的方向处理信息。这使得双向LSTM能够综合考虑每个位置的前后上下文信息，更全面地理解文本。

条件随机场输出层将双向LSTM层获取的上下文特征作为输入，利用状态转移特征函数和状态特征函数，在最大化条件概率的条件下，使用Viterbi算法获取最优的实体标注序列，以识别命名实体的边界和类别。条件随机场（Conditional Random Field，CRF）是一种概率图模型，通常用于序列标注任务，如实体识别。它允许对标注序列的全局依赖性进行建模，而不仅仅是局部依赖性，这有助于更准确地确定实体的边界和类别。CRF输出层接受来自双向LSTM的上下文特征作为输入。条件随机场利用两种主要类型的特征函数来建模：状态特征函数：衡量每个位置的标签预测与上下文特征的相关性。状态转移特征函数：衡量相邻标签之间的转移概率。CRF输出层的任务是在最大化条件概率的条件下，确定实体标签序列，以识别命名实体的边界和类别。这一步通常使用Viterbi算法来寻找最优标签序列。Viterbi算法是一种动态规划算法，用于寻找最有可能的隐藏状态序列。在实体链接中，这些隐藏状态对应于不同的实体类别标签。计算了在每个时间步每个可能状态下的最大概率路径。通过迭代，最终确定了整个序列中最可能的路径，即最优的实体标注序列。通过使用双向LSTM，***能够更好地捕捉文本的上下文信息，从而提高了对实体的理解。条件随机场输出层允许建模标签之间的全局依赖性，确保实体的边界和类别预测是一致的和全局一致的。Viterbi算法确保了在给定上下文信息的情况下，找到最可能的实体标签序列，从而提高了实体链接的准确率。CRF允许我们建模标签之间的全局依赖性，确保了标签的一致性。这对于实体链接非常关键，因为一个实体的边界通常受到其上下文实体的影响。CRF和Viterbi算法的结合，可以确保在给定输入文本的条件下，找到最可能的实体标注序列。通过最大化条件概率，我们能够更准确地确定实体的边界和类别。由于CRF考虑了全局依赖性，它对实体链接任务中的歧义和复杂情况有较好的处理能力。Viterbi算法保证了在计算上的高效性，同时提供了准确的结果。

图4是根据本说明书一些实施例所示的实体链接模块130的示意图，如图4所示，实体链接模块130包括：

候选实体生成单元131，接收识别出的实体和多模态特征表示，通过n-gram级别的Jaccard相似算法计算实体文本的相似度，并通过基于注意力机制的词向量匹配模型计算实体语义的相似度，从知识库中搜索出多个文本相似和语义相似的候选实体；其中，n-gram级别为2-gram或3-gram。Jaccard相似算法是一种用于比较两个集合的相似度的方法，通常用于文本相似度计算。在这里，它被用来计算候选实体的文本相似度。具体来说，将输入实体和候选实体的文本分成n-gram（通常是2-gram或3-gram）并计算它们的Jaccard相似度。2-gram级别意味着将文本切分成包含两个相邻词语的片段。这种级别的Jaccard相似度计算比较粗粒度，对于一些短语或句子的相似性匹配可能过于激进。相似度可能会高估，导致将实际不够相似的实体纳入候选列表。适用性：适用于较长的文本，当文本较长时，2-gram级别的匹配可以提供一个相对较好的文本相似度的评估。3-gram级别将文本切分成包含三个相邻词语的片段，这种级别的匹配相对于2-gram更细粒度。这能够更好地捕捉文本中的局部相似性，提供更准确的文本相似度度量。准确性提高：相较于2-gram，3-gram级别的匹配更加严格，减少了非常相似但并不完全匹配的实体进入候选列表的可能性。这提高了匹配的准确性。选择2-gram或3-gram级别的Jaccard相似算法应该根据任务需求和文本特性来决定。2-gram提供了更宽泛的相似性匹配，而3-gram则更加严格，可以提供更准确的匹配。选择适合任务的匹配级别将有助于提高实体链接的准确率。

基于注意力机制的词向量匹配模型：这是一个用于计算实体语义相似度的模型。这可能基于预训练的词向量（如Word2Vec、GloVe、FastText）。模型使用注意力机制，允许它关注输入实体和候选实体之间的关键信息。这有助于捕捉实体之间的语义关系。知识库搜索：使用文本相似度和语义相似度来评估候选实体。候选实体中的文本相似和语义相似度高于阈值的实体被选为最终的匹配。这个匹配可以用于实体链接任务，将输入实体关联到知识库中的实体。通过本申请，我们结合了文本相似度和语义相似度的计算，使用了多模态特征，以提高实体链接的准确率。这可以帮助***更可靠地将文本中的实体与知识库中的实体关联起来，特别是在存在多种模态信息（文本、图像、音频等）时。这个方法在提高实体链接的准确性方面非常有潜力。

排序单元132，构建包含节点和有向边的实体关系图，节点表示实体关系图中的实体，有向边表示两个实体间的关系，将识别出的实体及其候选实体作为节点加入实体关系图中；建立多层图卷积网络模型学习实体的向量表示；将实体的向量表示输入Page Rank算法迭代计算实体的重要度分数；根据实体的重要度分数对候选实体列表进行排序；首先，构建一个实体关系图，其中节点表示实体，有向边表示实体之间的关系。这个图可以是一个有向图，其中实体之间的关系以边的形式表示。图的构建可以基于知识库、文本关联或其他信息源。将从文本中识别出的实体以及其候选实体作为节点添加到实体关系图中。这些节点代表了需要进行链接的实体。使用多层图卷积网络（GCN）或其他图神经网络模型，学习实体的向量表示。这些向量表示捕获了实体之间的关系和连接模式，有助于更好地理解实体之间的语义关联。将学得的实体向量表示输入Page Rank算法中，用于迭代计算每个实体的重要度分数。Page Rank算法根据实体之间的关系和向量表示中的语义信息来计算实体的重要性。基于实体的重要度分数，对候选实体列表进行排序。Page Rank算法是一个用于计算网络图中节点重要度的算法，最初由Google用于评估网页在搜索结果中的重要性。在实体链接中，实体可以看作是图中的节点，它们之间的关系可以用图的有向边来表示。将实体的向量表示作为节点的初始权重。Page Rank算法通过迭代的方式更新节点的权重。在每次迭代中，节点的新权重基于其相邻节点的旧权重以及边的权重。实体之间的有向边的权重可以基于它们的相似性或其他关联度量来确定。Page Rank算法在多次迭代后，会为每个实体计算一个重要度分数。这个分数表示实体在整个网络中的相对重要性。实体的重要度分数可以用于确定最相关的实体，或者用于排序候选实体列表，以提高实体链接的准确率。通过使用实体的向量表示，Page Rank算法可以综合考虑实体之间的语义相似性，而不仅仅是表面特征。Page Rank算法允许全局性地考虑实体之间的关系，这对于捕捉实体在网络中的重要性非常有用，特别是在大型知识库中。通过实体的重要度分数，可以对候选实体列表进行排序，确保最相关的实体出现在前面，从而提高实体链接的准确率。这可以通过将候选实体按照其与输入实体的相似性或重要性进行排序来实现。更重要的实体将排名靠前，提高了准确链接的概率。本申请结合了图卷积网络、Page Rank算法和实体重要性分数，以提高实体链接的准确率。通过综合考虑实体之间的关系和语义信息，以及全局关联，可以更好地进行实体链接，并将相关实体排在候选列表的前面，从而提高了准确性。本申请适用于大规模知识库的实体链接任务，特别是在有复杂语义关联的情况下。

其中，建立多层图卷积网络模型学习实体的向量表示包括：

构建M1层图卷积网络，M1为正整数，M1的取值范围为2至5，其中第i层包含多个节点，节点表示实体关系图中的实体；M1是一个正整数，代表图卷积网络的层数。该参数的取值范围在2至5之间，当M1取值为2时，意味着构建了一个包括两层的图卷积网络。这种设置通常适用于相对简单的任务，其中实体之间的关系可以在两层网络中有效地建模。这可以降低计算成本和模型复杂度。在M1等于3的情况下，图卷积网络包括了三层。这增加了模型的深度，使其可以更好地捕捉实体关系图中的抽象特征和模式。当M1等于4时，图卷积网络有四层，这意味着模型非常深。这种设置通常在处理非常复杂的任务，或者在需要捕捉大规模实体图中高度抽象特征时非常有用。M1等于5时，图卷积网络非常深，适用于处理极其复杂的实体关系图。这种设置通常在大规模知识图谱构建或处理极其复杂的关系数据时使用。M1参数的取值范围从2至5提供了一种权衡，允许根据任务的复杂性和可用计算资源来选择适当的图卷积网络深度。较小的M1值可能更适用于简单任务，而较大的M1值则适用于更复杂的任务。

每一层（第i层）包含多个节点，这些节点表示实体关系图中的不同实体。这些节点在网络中相互连接，以传递信息和特征。从第1层开始，M1层图卷积网络会进行M1次迭代。在每一层中，以下步骤会重复多次：a. 特征传播，每个节点会传播其特征到其相邻节点。这是通过考虑节点之间的连接关系来完成的。b. 特征聚合，每个节点将汇总其相邻节点传播过来的特征信息。这汇总过程通常包括对相邻节点的特征向量进行加权求和，其中权重通常由注意力机制或入度数量进行归一化计算。

图卷积网络的输入层节点表示为对应实体的onehot编码；图卷积网络的输入层节点表示为对应实体的one-hot编码。这意味着每个节点的特征表示是一个高维稀疏向量，其中只有一个元素为1，表示实体的标识，其他元素为0。这种编码方式用于将实体转化为网络的输入。

在第i层，为每个节点计算特征向量，通过对节点在第i+1层和第i-1层的相邻节点特征向量进行加权求和聚合计算得到；首先，在第i层，每个节点表示实体关系图中的一个实体。为了进行实体链接，每个节点需要具有特定的特征向量，该特征向量应该捕获与实体相关的信息，例如实体的属性、上下文或其他相关特性。第i+1层和第i-1层的相邻节点是指与当前节点在图中直接相连的节点。这些相邻节点的特征向量包含了它们的信息，其中可能包括实体之间的关系、共现信息等。为了提高实体链接准确率，对于每个节点在第i层，需要计算其特征向量。这可以通过将当前节点在第i层的特征向量与其相邻节点在第i+1层和第i-1层的特征向量进行加权求和来实现。权重可以根据实际任务和需求来确定。通常，可以使用神经网络的学习方法来学习这些权重，以便更好地捕捉实体之间的相关性。利用了图卷积网络的思想，通过节点的相邻节点信息来改进节点的特征向量，从而提高实体链接的准确率。

在图卷积网络的训练过程中，通过传播关系约束信息，学习节点的低维特征向量表达，低维特征向量的维度d1为正整数，d1的取值范围为10至100；图卷积网络（GCN）：GCN是一种基于图结构的深度学习模型，用于处理图数据。它通过利用节点和其相邻节点的信息来学习节点的表征，使得节点的表征能够充分利用图结构的信息。在训练过程中，关系约束信息被传播到图卷积网络中。这些信息可以包括实体之间的关系、共现信息、上下文等。传播这些信息可以帮助网络更好地理解实体之间的联系和特性。GCN的目标是学习节点的低维特征向量表示，这些向量能够捕捉实体在图结构中的信息。这些特征向量可以用于后续的实体链接任务，以确保实体链接的准确性。特征向量的维度（d1）是一个重要参数，影响着特征表征的能力和效果。特征向量的维度（d1）决定了模型能够表达的信息量。如果特征向量的维度过小，可能无法捕捉实体之间复杂的关系和上下文信息，从而降低实体链接的准确性。反之，如果维度过大，可能会引入过多的噪声或冗余信息，导致过拟合，使得模型在新数据上表现较差。将d1限制在10至100之间有助于在计算资源有限的情况下仍能保持较高的效率。通过在10至100的范围内选择合适的维度，可以更好地适应不同类型的实体关系，从而提高实体链接的准确率。设置d1的取值范围为10至100允许在不同任务之间进行灵活调整。本申请，d1被限制为正整数，取值范围为10至100。d1的取值范围10至100的技术依据在于通过权衡模型表达能力、计算效率和泛化能力，确保特征向量在合适的维度上充分表达实体信息，从而提高实体链接的准确率。这种限制可以避免特征向量的维度过大或过小，使得特征向量能够在合适的维度上充分表达实体的信息。

在相邻节点特征向量的加权求和中，利用基于节点的入度数量进行归一化的注意力机制作为边权重；在图卷积网络中，相邻节点的特征向量通常用于更新目标节点的特征向量。这个方法利用了节点之间的连接关系来传播信息。节点的入度是指指向该节点的连接数量。入度的数量可以提供关于节点在图中的重要性或中心性的信息。通常，入度更高的节点被认为在网络中具有更大的影响力。归一化是将数值按比例缩放，使它们在特定范围内，通常是[0，1]或[-1，1]。本申请，入度数量被用作权重，通过归一化可以确保在不同节点之间进行比较，而不受节点度数的影响。注意力机制是一种重要的机制，用于学***衡和有效。经过M1层图卷积网络训练后，输出网络中每个节点的d1维低维特征向量作为对应实体的向量表示。

链接单元133，通过设定重要度分数阈值的方法选择排序最前面的候选实体，作为识别实体的链接结果。链接单元133是一个用于选择实体链接结果的组件。在实体链接任务中，通常有多个候选实体可以与给定实体链接。链接单元133的任务是确定哪个候选实体最有可能与给定实体相匹配。重要度分数阈值是一个设定的值，用于筛选链接单元133的输出。只有那些重要度分数高于阈值的候选实体将被选择为实体链接的结果，其余的会被丢弃。具体的重要度分数阈值设置方法可以根据实际任务和数据的特性来确定。一种方法是根据训练数据集中的分数分布来选择一个适当的阈值，以确保在验证或测试数据上能够获得良好的性能。可以使用如交叉验证等技术来确定最佳阈值，以在不同数据分布下获得较好的链接准确率。通过设置重要度分数阈值，链接单元133能够筛选出与给定实体高度相关的候选实体，从而提高实体链接的准确率。具体的阈值设置方法应根据任务的需求和数据的特性来确定，以获得最佳性能。本申请允许精确地控制链接单元133的输出，以确保链接结果的质量。

图5是根据本说明书一些实施例所示的关系抽取模块140的示意图，如图5所示，关系抽取模块140包括：

预处理单元141，对包含已链接实体的文本进行分词和词性标注的预处理；分词是将文本分割成单词或标记的过程。在自然语言处理中，文本通常以连续字符的形式输入，而分词的任务是将文本切分成有意义的词汇单元，这有助于后续处理的精确性。词性标注是为文本中的每个单词分配词性标签的任务。这些标签可以表示单词的语法角色，如名词、动词、形容词等。词性标注有助于理解文本的语法结构和语义关系。其中，中文分词和词性标注：逆向最大匹配（RMM），逆向最大匹配是一种基于字典的中文分词方法。它从文本的末尾开始，逐步减小分词窗口的大小，直到找到一个最大匹配的词或到达文本的开头。隐马尔可夫模型（HMM），隐马尔可夫模型是一种基于统计的中文分词方法。它将文本看作是一个隐马尔可夫链，其中每个状态对应一个词语，而观察值是字符。jieba是一种常用的中文分词工具，它基于前缀词典和统计信息来进行分词。它支持基于字典的精确匹配和全模式匹配，同时也支持用户自定义字典。英文分词和词性标注：基于规则的分词，英文分词相对较简单，通常可以基于规则进行。一个基本的规则是将单词通过空格或标点符号进行划分。此外，英文分词也可以根据词根和词缀的规则来切分单词，例如将“jumping”切分成“jump”和“ing”。基于统计的分词，基于统计的分词方法使用语料库中的单词频率信息来确定分词位置。通常，频率较高的单词会被认为是独立的单词。一种常见的方法是使用条件随机场（CRF）模型，结合上下文信息和特征来进行分词和词性标注。NLTK（Natural LanguageToolkit），NLTK是一个流行的自然语言处理库，提供了用于英文分词和词性标注的工具和资源。它包含了多种分词器和词性标注器，可以根据需求选择适合的工具。

依存句法分析单元142，通过转化为特征依存图的方法构建预处理后的文本的依存句法树；依存句法分析是自然语言处理中的一项任务，旨在分析句子的语法结构，并确定句子中的词语之间的依存关系。这些依存关系描述了词语之间的语法角色，如主谓关系、修饰关系等。特征依存图是一个表示文本依存句法结构的图形化表示。在这个图中，每个词语是图的节点，而依存关系则表示为边。此外，可以将附加信息（特征）与节点和边关联，以捕捉有关每个词语和依存关系的语义和语法信息。预处理单元141首先将文本进行分词和词性标注，以准备文本数据。依存句法分析单元142接下来对预处理后的文本进行依存句法分析，以构建文本的依存句法树。这一步骤涉及识别句子中的词语，并确定它们之间的依存关系。这通常需要使用自然语言处理工具或依存句法分析器。一旦依存句法树建立完成，可以进一步将其转化为特征依存图，其中每个节点和边都可以附加有关语法和语义信息的特征。

依存路径确定单元143，通过找到依存句法树中两个实体节点间最短路径的方法获取依存句法树中每个实体对间的最短依存路径，得到依存关系；依存句法树是一种树形结构，用于表示句子中词语之间的依存关系。在树中，每个词语是一个节点，而依存关系则表示为树中的边。这种结构有助于捕捉语法和语义关系。首先，文本需要进行分词和词性标注，以便构建依存句法树。依存路径确定单元143的任务是分析依存句法树，找到两个目标实体节点之间的最短路径。这通常需要使用图算法，如最短路径算法，来找到连接两个节点的最短边的序列。这个最短路径通常代表了两个实体之间的依存关系，包括通过哪些词语和依存关系连接这两个实体。

语义角色标注单元144，利用基于双向LSTM-CRF结构的神经网络模型对预处理后的文本进行语义角色标注，获取每个实体的语义角色标签；

其中，语义角色标注单元144包括：输入子单元，用于接收经过预处理的文本数据，并将预处理后文本数据中的每个词转换成固定维度的词向量，作为输入层的输入；接收预处理后的文本数据，将每个词转换成固定维度的词向量。这个步骤通常使用预训练的词向量模型（例如Word2Vec或GloVe）来获取每个词的表示。

双向LSTM子单元，包含前向LSTM子单元和后向LSTM子单元，前向和后向LSTM子单元的隐藏层节点数相等，均为d2，用于分别对输入层中的词向量序列进行前向和后向遍历，并输出文本序列的前后上下文语义特征；设置d2的初始值，例如d2=64；将数据集分成训练集、验证集和测试集；构建包含BiLSTM的模型，其中前向和后向LSTM的隐藏层节点数都设置为d2；如果模型在验证集上表现不佳，将不同的d2值，如d2=128或d2=256，使用新的d2值重新训练模型，重复直至找到最佳的d2.使用最佳的d2值在测试集上进行最终评估，以获取模型在实际任务上的性能。包含前向LSTM和后向LSTM，用于对输入的词向量序列进行前向和后向遍历，以获取文本序列的前后上下文语义特征。LSTM（长短时记忆网络）是一种递归神经网络，能够有效地捕捉序列数据中的长距离依赖关系。前向和后向LSTM，其隐藏层节点数相等，均为d2。这意味着每个方向上的LSTM网络都有相同数量的节点。这个设计允许模型同时考虑输入序列的过去和未来信息，从而获取文本序列的前后上下文语义特征。双向LSTM允许模型在分析输入时，同时考虑到每个词的过去和未来上下文信息，这使得模型对于理解文本中的语义关系和依赖关系更加强大。由于LSTM的能力，它可以捕捉到输入序列中的长距离依赖关系，这在自然语言处理任务中非常重要，因为句子中的重要信息可能相隔很远。在BiLSTM之前，可能会使用预训练的词嵌入模型（如Word2Vec、GloVe）将文本转换为固定维度的向量表示。在BiLSTM之后，可以使用CRF层来进一步提升标注的准确性，尤其在实体链接任务中，CRF可以考虑到实体标签之间的依赖关系。

条件随机场子单元，连接到双向LSTM子单元的输出层，用于接收双向LSTM输出的文本特征，并依据特征对输入文本进行语义角色标注，输出语义角色标注结果；接收双向LSTM输出的文本特征，使用条件随机场（CRF）模型进行标注。CRF是一种概率图模型，能够考虑序列标注任务中相邻标签之间的依赖关系，提高标注的一致性和准确性。连接到输出层，通过条件随机场对实体链接结果进行建模。CRF考虑了标签序列之间的关系，有助于全局一致性，尤其对于实体链接这样的序列标注任务。

人工标注子单元，用于提供人工标注的文本语义角色标注结果，作为训练数据；人工标注子单元提供了来自人工标注的文本语义角色标注结果。这充当了监督信号，帮助模型学习正确的实体链接。通过比较模型的预测和人工标注，可以计算损失，然后通过损失的反向传播来更新模型参数，从而改善实体链接的准确率。

损失函数子单元，连接到条件随机场子单元的输出层和人工标注子单元，用于计算条件随机场子单元输出的预测语义角色标注结果和人工标注子单元提供的文本语义角色标注结果之间的负对数似然损失；负对数似然损失的目标是最小化模型的预测输出和真实标注之间的差距。通过最小化这个损失，模型被鼓励逐渐提高实体链接任务的预测准确性。连接到条件随机场子单元的输出层用于产生模型的最终实体链接结果。该输出层通常输出概率分布，表示每个可能的标签或实体的概率。这允许模型对不同的实体链接选项进行概率建模，以更好地选择最可能的实体链接。将监督信号与人工标注的文本语义角色标注结果联系起来，使模型在训练过程中逐渐提高对实体链接任务的理解和准确性。负对数似然损失是一种常见的损失函数，用于分类任务，通过最小化这个损失，模型能够更好地拟合人工标注的实体链接结果，从而提高实体链接的准确率。同时，连接到条件随机场子单元的输出层允许模型更好地考虑标签之间的关系，从而在实体链接任务中提高全局一致性。

正则化子单元，连接到损失函数子单元，用于向损失函数中添加L2正则化项，以防止神经网络模型过拟合。为了避免过拟合，可能会在模型中使用L2正则化。此外，合适的优化算法（如Adam、SGD等）也可以影响模型的训练效果。在实体链接任务中，神经网络模型通常具有大量参数，因此容易过拟合，即模型在训练数据上表现出色，但在未见数据上泛化能力较差。L2正则化通过向损失函数中添加L2正则化项，迫使模型的权重参数保持较小的值。这是通过在损失函数中添加一个与参数的平方和成正比的项来实现的。正则化项的权重通常由超参数来控制。L2正则化有助于防止权重变得过大，降低模型对噪声数据的敏感性，从而提高泛化性能。它可以使模型更加平滑，减少模型的复杂度，有助于更好地处理实体链接任务的特征。合适的优化算法，如Adam、SGD（随机梯度下降）等，对于模型的训练效果至关重要。这些优化算法负责调整模型参数以最小化损失函数。不同的优化算法可能在不同的任务上表现更好。

关系抽取单元145，构建基于多层自注意力机制的神经网络分类模型，输入每个实体对的依存关系和语义角色标签，输出每个实体对相应的语义关系类别。接收每个实体对的依存关系和语义角色标签。依存关系表示句子中词语之间的语法关系，而语义角色标签表示每个词语在句子中的语义角色。自注意力机制是一种机制，能够给定一个序列，赋予不同部分不同的注意力权重。多层自注意力机制意味着模型可以在多个层次上学习到输入序列的不同抽象级别的表示。这有助于捕捉输入实体对之间复杂的依赖关系和语义关联。基于学习到的特征，构建神经网络分类模型。这个模型的输出是每个实体对所对应的语义关系类别，例如“父子关系”“工作关系”等。

图6是根据本说明书一些实施例所示的一种基于实体链接与关系抽取的行业知识库构建方法的示例性流程图，如图6所示，一种基于实体链接与关系抽取的行业知识库构建方法，包括：

S210实体识别步骤，采用条件随机场模型来识别命名实体，这是一种序列标注模型，可以有效地识别文本中的命名实体，如人名、地名等。同时，采用基于BERT的模型来识别未命名实体。BERT是一种预训练的深度学习模型，能够理解上下文中的语义信息，用于识别未被明确标记的实体。

S220多模态信息融合步骤，通过深度学习模型提取并融合文本、图像和音频等多模态特征。这意味着***可以处理不仅限于文本的数据类型，这对于处理丰富多样的信息很有帮助。多模态信息融合通常包括注意力机制，这有助于模型关注不同模态的关键信息。使用了含有注意力机制和张量分解的多模态特征融合方法。这意味着不同模态的信息会以智能的方式融合在一起，使***更好地理解多种数据类型，从而提高了综合信息的准确性。

S230实体链接步骤，实体链接是将文本中的实体与知识库中的实体进行关联。这一步采用字符串匹配和词向量匹配，这可以帮助生成候选实体。进一步，采用知识图谱模型来进行实体链接。知识图谱模型可以考虑实体之间的语义关系，帮助准确地将文本中的实体链接到知识库中的实体。

S240关系抽取步骤，用于抽取实体之间的关系。这一步采用依存句法分析和语义角色标注的神经网络模型，这有助于理解文本中实体之间的语法结构和语义关系。采用注意力机制增强的双向LSTM模型，提高了关系抽取的准确性，使模型能够更好地理解文本中的语义信息。

S250知识图谱构建步骤，借助链接后的实体和抽取的关系，构建知识图谱。这一步是整个方法的核心，将实体和关系的信息整合到一个结构化的知识库中，为进一步的查询和分析提供了基础。

综上所述，本申请通过多层次的技术组合，包括实体识别、多模态信息融合、实体链接、关系抽取以及知识图谱构建，综合考虑文本和非文本数据，充分挖掘文本中的实体和关系信息，从而提高了实体链接的准确率，使知识库构建更加全面和精确。

Claims

1.一种基于实体链接与关系抽取的行业知识库***，包括：

实体识别模块，采用基于迁移学习的实体识别模型，对输入文本进行实体识别，得到文本中包含的实体；

多模态信息融合模块，采用深度学习模型对包含文本特征、图像特征和音频特征的多模态信息进行特征提取和融合，输出实体的融合多模态特征至实体链接模块；

实体链接模块，将识别出的实体和获取的融合多模态特征作为输入，采用基于字符串匹配和词向量匹配的方法，从知识库中为每个输入实体生成候选实体，并使用基于知识图谱的联合推断模型，选择与上下文信息最匹配的候选实体进行链接，得到链接后的实体；

关系抽取模块，以包含链接后的实体的文本作为输入，采用基于依存句法分析和语义角色标注的方法，从输入文本中提取出链接后的实体之间的关系；

知识图谱构建模块，以链接后的实体和抽取出的实体关系作为输入，构建行业领域知识图谱；

实体识别模块包括：

词性标注单元，采用卷积神经网络的文本特征提取模型，对输入文本进行特征提取，获取输入文本中的词性特征；

第一实体识别单元，输入获取的词性特征，采用包含N1个神经元的双向LSTM层和条件随机场输出层的条件随机场模型，识别出输入文本中已命名实体类别的第一实体，已命名实体类别包含人名、地名和组织机构名；

第二实体识别单元，输入获取的词性特征，加载BERT语言表示模型训练的文本编码器参数，通过回归模型校准编码器参数，在编码器输出端添加包含N2个神经元的全连接层作为输出层，识别出输入文本中未命名实体类别的第二实体；

其中，

双向LSTM层通过正向和反向获取输入文本的上下文特征；

条件随机场输出层将双向LSTM层获取的上下文特征作为输入，利用状态转移特征函数和状态特征函数，在最大化条件概率的条件下，使用Viterbi算法获取最优的实体标注序列，以识别命名实体的边界和类别。

2.根据权利要求1所述的基于实体链接与关系抽取的行业知识库***，其特征在于：

实体链接模块包括：

候选实体生成单元，接收识别出的实体和多模态特征表示，通过n-gram级别的Jaccard相似算法计算实体文本的相似度，并通过基于注意力机制的词向量匹配模型计算实体语义的相似度，从知识库中搜索出多个文本相似和语义相似的候选实体；

排序单元，构建包含节点和有向边的实体关系图，节点表示实体关系图中的实体，有向边表示两个实体间的关系，将识别出的实体及其候选实体作为节点加入实体关系图中；建立多层图卷积网络模型学习实体的向量表示；将实体的向量表示输入Page Rank算法迭代计算实体的重要度分数；根据实体的重要度分数对候选实体列表进行排序；

链接单元，通过设定重要度分数阈值的方法选择排序最前面的候选实体，作为识别实体的链接结果。

3.根据权利要求2所述的基于实体链接与关系抽取的行业知识库***，其特征在于：

建立多层图卷积网络模型学习实体的向量表示包括：

构建M1层图卷积网络，M1为正整数，M1的取值范围为2至5，其中第i层包含多个节点，节点表示实体关系图中的实体；

图卷积网络的输入层节点表示为对应实体的onehot编码；

在第i层，为每个节点计算特征向量，通过对节点在第i+1层和第i-1层的相邻节点特征向量进行加权求和聚合计算得到；

在图卷积网络的训练过程中，通过传播关系约束信息，学习节点的低维特征向量表达，低维特征向量的维度d1为正整数，d1的取值范围为10至100；

在相邻节点特征向量的加权求和中，利用基于节点的入度数量进行归一化的注意力机制作为边权重；

经过M1层图卷积网络训练后，输出网络中每个节点的d1维低维特征向量作为对应实体的向量表示。

4.根据权利要求2所述的基于实体链接与关系抽取的行业知识库***，其特征在于：n-gram级别为2-gram或3-gram。

5.根据权利要求1所述的基于实体链接与关系抽取的行业知识库***，其特征在于：

关系抽取模块包括：

预处理单元，对包含已链接实体的文本进行分词和词性标注的预处理；

依存句法分析单元，通过转化为特征依存图的方法构建预处理后的文本的依存句法树；

依存路径确定单元，通过找到依存句法树中两个实体节点间最短路径的方法获取依存句法树中每个实体对间的最短依存路径，得到依存关系；

语义角色标注单元，利用基于双向LSTM-CRF结构的神经网络模型对预处理后的文本进行语义角色标注，获取每个实体的语义角色标签；

关系抽取单元，构建基于多层自注意力机制的神经网络分类模型，输入每个实体对的依存关系和语义角色标签，输出每个实体对相应的语义关系类别。

6.根据权利要求5所述的基于实体链接与关系抽取的行业知识库***，其特征在于：

语义角色标注单元包括：

输入子单元，用于接收经过预处理的文本数据，并将预处理后文本数据中的每个词转换成固定维度的词向量，作为输入层的输入；

双向LSTM子单元，包含前向LSTM子单元和后向LSTM子单元，前向和后向LSTM子单元的隐藏层节点数相等，均为d2，用于分别对输入层中的词向量序列进行前向和后向遍历，并输出文本序列的前后上下文语义特征；

条件随机场子单元，连接到双向LSTM子单元的输出层，用于接收双向LSTM输出的文本特征，并依据特征对输入文本进行语义角色标注，输出语义角色标注结果；

人工标注子单元，用于提供人工标注的文本语义角色标注结果，作为训练数据；

损失函数子单元，连接到条件随机场子单元的输出层和人工标注子单元，用于计算条件随机场子单元输出的预测语义角色标注结果和人工标注子单元提供的文本语义角色标注结果之间的负对数似然损失；

正则化子单元，连接到损失函数子单元，用于向损失函数中添加L2正则化项，以防止神经网络模型过拟合。

7.根据权利要求1所述的基于实体链接与关系抽取的行业知识库***，其特征在于：

多模态信息融合模块包括：

文本特征获取单元，用于接收文本数据，利用预训练的BERT模型对文本数据进行编码，获取文本的语义特征表示；

图像特征获取单元，用于接收图像数据，利用预训练的ResNet模型对图像数据进行卷积操作，获取图像的视觉特征表示；

音频特征获取单元，用于接收音频数据，利用预训练的ResNet模型对音频数据进行编码，获取音频的音频特征表示；

多模态特征融合单元，分别连接文本特征获取单元、图像特征获取单元、音频特征获取单元，用于收集各模态的特征表示，并输入到多层感知机中，学习不同模态特征之间的关联，得到融合多模态特征；

输出接口，连接多模态特征融合单元，用于输出融合多模态特征，以供实体链接模块使用。

8.根据权利要求7所述的基于实体链接与关系抽取的行业知识库***，其特征在于：

多模态特征融合单元包括：

输入子单元，用于输入获取的包含语义特征、视觉特征和音频特征的多模态特征；

多模态注意力子单元，通过计算不同模态特征的注意力权重，并进行加权求和，获取加权特征；

交互建模子单元，采用多线性张量分解模型，分解多模态特征的张量表示，获取交互特征；

拼接子单元，将加权特征和交互特征按照预定维度进行拼接，形成融合多模态特征；

多层感知机子单元，包含输入层、隐藏层和输出层，隐藏层基于反向传播调节权重及非线性激活函数，学习特征的非线性关联；