CN112507126B

CN112507126B - 一种基于循环神经网络的实体链接装置和方法

Info

Publication number: CN112507126B
Application number: CN202011416594.6A
Authority: CN
Inventors: 洪万福; 钱智毅; 赵青欣
Original assignee: Xiamen Yuanting Information Technology Co ltd
Current assignee: Xiamen Yuanting Information Technology Co ltd
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2022-11-15
Anticipated expiration: 2040-12-07
Also published as: CN112507126A

Abstract

本发明公开了一种基于循环神经网络的实体链接装置和方法，所述装置包括：文本输入单元；实体识别单元，对从文本输入单元输入的目标文本执行一个实体识别模型的推理过程，输出候选实体；知识库匹配单元，根据候选实体，执行数据库匹配，输出每一个候选实体对应的预选链接结果；文本向量化单元，对输入的目标文本、候选实体及候选实体对应的预选链接结果进行向量化处理，组合成一个嵌入向量进行输出；链接模型推理单元，根据嵌入向量进行实体链接推理，输出推理结果；链接结果输出单元，根据推理结果，确定每一个候选实体在知识库中的实体链接结果。本实现方式能够充分地利用外部知识，从而提高实体链接的准确性。

Description

一种基于循环神经网络的实体链接装置和方法

技术领域

本发明涉及人工智能领域，尤其涉及一种基于循环神经网络的实体链接装置和方法。

背景技术

随着这几年新一波人工智能浪潮的到来，深度学习相关技术被应用到诸多行业和领域。知识图谱是深度学习中非常重要的一个研究方向，目前知识图谱在经过实体-关系抽取后，研究技术已基本成型，但要真正大幅度使用还存在问题，主要因为自然语言具有复杂性、多意性和模糊性的多重特点。

实体链接是将文本中提到的实体与其知识库中相应的实体链接起来的任务，是解决实体间存在的歧义性问题。其潜在的应用包括信息提取、信息检索和知识库填充，但由于名称的变化和实体的模糊性，此任务具有挑战性。

实体的歧义性体现在两个方面，第一，实体可能存在多词同义的情况(需链接)，即一个实体可以用多个实体指称来表示，比如麻省理工学院和MIT都是指美国麻省同一个实体。同时，实体也有一词多义的现象(需消歧)，即同一个实体指称可以表示多个实体，例如苹果可以是水果也可以是Apple公司。实体链接算法需要通过实体指称及其上下文的文本信息，借助目标知识图谱，将其链接到知识图谱中正确的映射实体上。

发明内容

有鉴于现有技术的上述缺陷，本发明的目的是提供一种实体链接装置和方法，以充分地利用外部知识，优化链接模型推理过程，提高实体链接的准确性。

为实现上述目的，本发明提供了一种基于循环神经网络的实体链接装置，包括：

文本输入单元，用于输入文本数据，并对所述文本数据进行数据处理，输出目标文本；

实体识别单元，用于对输入的所述目标文本执行一个实体识别模型的推理过程，输出候选实体；

知识库匹配单元，用于输入实体识别单元的候选实体，根据所述候选实体，执行数据库匹配，输出每一个候选实体对应的预选链接结果；

文本向量化单元，用于对输入的所述目标文本、所述候选实体及所述候选实体对应的预选链接结果进行向量化处理，组合成一个嵌入向量进行输出；

链接模型推理单元，用于输入所述嵌入向量，根据所述嵌入向量进行实体链接推理，输出推理结果；

链接结果输出单元，用于输入所述推理结果，确定每一个候选实体在知识库中的实体链接结果，即输出每一个候选实体在知识库中的id、实体名称、实体类型、文本信息。

进一步的，所述文本输入单元包括：

文件读取模块，用于接收输入文本数据；

数据处理模块，用于将输入文本数据转换为指定结构化文本，形成目标文本。

进一步的，所述实体识别单元包括：

数据预处理模块，被配置对输入文本数据进行数据预处理过程，所述数据预处理过程包括数据清洗、筛选、分词；

向量化处理模块，被配置对数据预处理之后的向量编码操作，输出嵌入向量；

实体识别模型存储模块，用于存储已完成训练的实体识别模型；

实体识别模型加载模块，用于加载实体识别模型，确定所述目标文本中的全部候选实体；

和候选实体结果输出模块，用于执行标准化处理，用于输出候选实体。

进一步的，所述知识库匹配单元包括：

知识库存储模块，用于存储预准备的知识库文件；

和知识库匹配模块，用于匹配输入的候选实体和知识库文件，获取所述候选实体在知识库中的预选链接结果。

进一步的，所述链接模型推理单元包括：

实体链接模型存储模块，用于存储已完成训练的实体链接模型；

和实体链接模型加载模块，用于加载所述实体链接模型和所述嵌入向量，执行模型推理。

进一步的，所述链接结果输出单元包括实体链接结果输出模块，所述实体链接结果输出模块用于在模型推理结束后，对获取的全部候选实体的实体链接结果执行标准化处理，按设定的输出方式和输出格式输出结果。

本发明还提出了一种基于循环神经网络的实体链接方法，包括：

步骤S1：输入文本数据，并对所述文本数据进行数据处理，输出目标文本；

步骤S2：对所述目标文本执行实体识别模型的推理过程，输出候选实体；

步骤S3：通过知识库匹配获得每一个所述候选实体对应的预选链接结果；

步骤S4：对所述目标文本、所述候选实体及所述候选实体对应的预选链接结果进行向量化处理，并将向量化处理后的向量组合成一个嵌入向量；

步骤S5：根据所述嵌入向量执行实体链接模型的推理过程，输出推理结果；

步骤S6：根据所述推理结果，确定每一个候选实体在知识库中的实体链接结果。

进一步的，所述步骤S4的向量化处理具体为：采用多种语义编码拼接的方式处理目标文本、候选实体、候选实体的预选链接结果，所述多种语义编码包括：字编码、分词和n_gram模型。

进一步的，所述步骤S5具体包括：将所述候选实体的上下文语义以及每一个候选对应的预选链接结果输入到已训练好的实体链接模型中，输出推理结果；其中，所述实体链接模型采用循环神经网络，其框架是基于BiLSTM+CNN+CRF，其中BiLSTM用于获取到所述预选链接结果的整个序列的信息；CNN用于用于提取当前词的局部特征；CRF用于序列标注，以提供输出层面的关联性分离输出层面的关联性分离。

进一步的，所述步骤S6中的所述实体链接结果至少包括该实体在知识库中的具体id、实体名称、实体类型和文本信息。

本发明实现了如下技术效果：

本发明中实体链接方法，在实体链接过程和链接推理过程均设置有神经网络模型，以进行模型推理，获得候选实体，及根据所述候选实体的上下文语义以及每一个候选对应的预选链接结果进行模型推理获得实体链接结果，从而可以充分地利用外部知识，优化链接模型推理过程，提高实体链接的准确性。

附图说明

图1是本发明的实体链接装置的***框架及流程图；

图2是本发明的实体链接方法示意图；

图3是本发明的实体识别模型训练流程图；

图4是本发明的实体链接模型的训练流程图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

现结合附图和具体实施方式对本发明进一步说明。

参考图1-图4所示，本发明公开了一种基于循环神经网络的实体链接装置，为应用于服务器端的一组应用程序或一组控制组件，包括：文本输入单元、实体识别单元、知识库匹配单元、文本向量化单元、链接模型推理单元和链接结果输出单元。现对各功能单元具体说明如下：

1、文本输入单元，用于输入文本数据，并对所述文本数据进行数据处理，输出目标文本。具体包括文件读取模块和数据处理模块，其中，文件读取模块用于用于接收输入文本数据。文件读取模块被配置接收文本的文本格式，该文本格式可以是非结构化文本(如txt)、半结构化文本、结构化文本(如excel、csv、json)等多种文本上传方式；数据处理模块，被配置根据不同的文本格式，将输入文本数据转换成结构化文本，形成目标文本输出。

2、实体识别单元，用于对输入的所述目标文本执行一个实体识别模型的推理过程，输出候选实体。具体包括：数据预处理模块、向量化处理模块、实体识别模型存储模块、实体识别模型加载模块和候选实体结果输出模块。其中，数据预处理模块，被配置对输入文本数据进行数据预处理过程，所述数据预处理过程包括数据清洗、筛选、分词；向量化处理模块，被配置对数据预处理模块之后的向量编码操作，为实体识别模块提供嵌入向量；实体识别模型存储模块，用于存储已完成训练的实体识别模型；实体识别模型加载模块，用于加载实体识别模型，确定获取目标文本中的全部候选实体；候选实体结果输出模块，用于执行标准化处理，用于输出候选实体。

在本实体识别单元中，实体识别模型通过训练获得，如图3所示，实体识别模型的训练流程包括：输入文本数据作为训练数据，对训练数据进行预处理，如进行数据清洗、筛选、分词等操作；向量化处理模块对训练数据进行向量化处理；将向量化处理后输出的嵌入向量输入实体识别模型框架内进行训练；监视实体模型的训练效果，保存训练好的实体识别模型。

3、知识库匹配单元，用于输入实体识别单元的候选实体，根据所述候选实体，执行数据库匹配，输出每一个候选实体对应的预选链接结果。具体包括：知识库存储模块和知识库匹配模块。其中，知识库存储模块，用于存储预准备的知识库文件；知识库匹配模块，用于匹配输入的候选实体和知识库文件，获取候选实体在知识库中的预选链接结果。

4、文本向量化单元，用于对输入的目标文本、候选实体及候选实体对应的预选链接结果进行向量化处理，组合成一个嵌入向量进行输出。所述向量化处理是指采用多种语义编码拼接的方式处理目标文本和候选实体，多种语义编码包括：字编码、分词与n_gram模型(也称为N元模型)的多种分词编码。

5、链接模型推理单元，用于输入所述嵌入向量，根据所述嵌入向量进行实体链接推理，输出推理结果。具体包括：实体链接模型存储模块和实体链接模型加载模块，其中实体链接模型存储模块，用于存储已完成训练的实体链接模型；实体链接模型加载模块，用于加载实体链接模型和嵌入向量，执行模型推理。所述实体链接模型为一种循环神经网络模型，该循环神经网络框架大体是BiLSTM+CNN+CRF，其中BiLSTM可以获取到整个序列的信息，在实体链接任务中可以充分利用输入序列的上下文信息，更加准确的匹配知识库单元中的某一个实体。在处理序列数据时，由于BiLSTM比单向的LSTM增加了一个反向计算的过程，因此，此过程可以利用到序列的下文信息，最后把正向和反向两个方向计算的值同时输出到输出层，这样通过两个方向获取到了一个序列的全部信息。然而BiLSTM在学习一些较长句子时，可能会因为模型容量问题丢弃一些重要信息，因此模型中加一个CNN层，用于提取当前词的局部特征。而CRF即条件随机场，作为一个序列标注模块可以将输出层面的关联性分离出来，在预测知识库中的实体时可以充分考虑上下文信息的关联，更重要的是CRF的求解维特比算法是利用动态规划的方法求出概率最大的路径，这与实体链接任务的目的十分吻合，可以避免结果中出现“B-LOC”标签后接“I-ORG”标签这种非法序列的问题。

链接模型推理单元中，实体链接模型是通过训练获得。参见图4所示，实体链接模型的训练过程和实体识别模型的训练过程相似，包括：输入文本数据作为训练数据，对训练数据进行预处理；将训练数据关联知识库，并验证训练数据的正确性；将训练数据进行向量化处理；将向量化处理后输出的嵌入向量引入实体链接模型框架中进行训练；监视实体链接模型的训练效果，并保存训练好的实体链接模型。

6、链接结果输出单元，用于输入所述推理结果，确定每一个候选实体在知识库中的实体链接结果，即输出每一个候选实体在知识库中的id、实体名称、实体类型、文本信息。具体包括：实体链接结果输出模块，所述实体链接结果输出模块用于在模型推理结束后，对获取的全部候选实体的实体链接结果执行标准化处理，在规范后输出结果。其中标准化处理包括输出字段名称以及输出格式需要标准化处理，按照预先规定好的输出方式和输出格式，以及每一个字段所对应的含义都需要标准化，才能使***正确接收输出结果，作出正确的处理。

本发明还公开了一种实体链接方法，包括以下步骤：

步骤S1：输入原始文本数据，并对所述文本数据进行结构化转换处理，输出结构化的目标文本。

步骤S2：对所述目标文本执行实体识别模型的推理过程，输出候选实体。

步骤S3：通过知识库匹配获得每一个所述候选实体对应的预选链接结果。

步骤S4：对所述目标文本、所述候选实体及所述候选实体对应的预选链接结果进行向量化处理，并将向量化处理后的向量组合成一个嵌入向量。

更具体的，是采用多种语义编码拼接的方式处理目标文本和候选实体，多种语义编码包括：字编码、分词与n_gram方式的多种分词编码等。

步骤S5：根据所述嵌入向量进行实体链接推理，输出推理结果。

将嵌入向量传入实体链接模型执行模型推理过程，即将候选实体的上下文语义以及每一个候选对应的预选链接结果输入到基于循环神经网络搭建的已训练的实体链接模型中，输出推理结果。

步骤S6：根据所述推理结果，确定每一个候选实体在知识库中的实体链接结果。即该实体在知识库中的具体id、实体名称、实体类型、文本信息等。

实施例2

为便于本领域技术人员的理解，本发明的实体链接方法的一个具体实施示例如下所示：

步骤S1：用户在客户端上传原始文本数据，根据原本文本数据的格式进行解析，进行数据预处理，即进行结构化转换处理，将输出的结构化目标文本(即可训练数据)存储到服务器端的某一路径下，同时客户端展示数据预处理的进度以及是否处理成功，在本实施例中，数据交互示例采用JSON格式表示(JSON是一种与开发语言无关的、轻量级的数据存储格式,全称JavaScript Object Notation，为一种数据格式的标准规范)，发送的请求数据格式例子如下：

返回数据例子如下：

步骤S2、识别候选实体。获取目标文本后，采用实体识别技术识别目标文本中的候选实体。这里的实体识别技术是指：将目标文本进行向量化处理产生一嵌入向量，将嵌入向量传入已训练好的实体识别模型，获取实体识别结果。在操作上，该过程包括：客户端发送实体识别请求到服务器端服务门户，及服务器端给客户端返回结果。其中，客户端给服务端发送的请求数据格式示例如下：

其中，"component":"entity_identification"表示实体识别请求；"text"表示原始文本，"蒙特利尔银行基础和贵金属衍生品交易主管Tai Wong表示，“由于今年的刺激方案高度不确定，黄金仍受惠于美元。”为目标文本的内容。

服务器端给客户端的返回结果示例如下：

以上为金融领域的实体链接示例，即服务器端通过一系列的接收数据、模型推理、最后输出推理结果，输出文中提及到的相关实体名称，作为输出结果。

简要说明：由于金融领域中的目标实体可分为：产品(可细分为金属期货、农产品期货、外汇期货等)、机构名称(可细分为：上市公司、期货公司、其他公司等)。因此上述示例中将文中的相关实体作为了一个输出结果。

步骤3、知识库匹配候选实体的预选链接结果。客户端发布知识库匹配指令，服务器端接收到指令后，快速查询候选实体在知识库的预选链接结果。服务器端给客户发送的结果示例如下：

该结果表示，在知识库中，实体"滕王阁序"的预选链接结果包括"Thing","music","poetry"，即物品、音乐作品、诗歌作品。

步骤4、根据用户输入的目标文本以及所得的上述候选实体、候选实体的预选链接结果输入文本向量化单元，该单元将采用多种语义编码拼接的方式处理目标文本和候选实体，多种语义编码包括：字编码、分词与n_gram方式的多种分词编码等；来输出一个嵌入向量给服务器端以进行下一步向量的应用，同时给客户端输出一个向量结果。

步骤5、根据步骤4得到的嵌入向量，传入循环神经网络模型中，进行模型推理过程，即根据候选实体的上下文语义以及每一个候选对应的可能结果输入到基于循环神经网络搭建的已训练模型中。这个推理的过程在服务器端进行操作，客户端将得到一个推理的完成进度；

步骤6、根据步骤5中得出的推理结果，服务器端将得到一个各候选实体对应的实体链接结果，即该实体在知识库中的具体id、实体名称、实体类型、文本信息等。同时将推理结果输出给客户端，客户端进行界面展示，客户端发送给服务器端的的信息示例如下：

服务器端发送给客户端的信息示例如下：

根据本次推理结果，“滕王阁序”是一个音乐作品。

本发明的实体链接方法，在实体链接过程和链接推理过程均设置有神经网络模型，以进行模型推理，获得候选实体，及根据所述候选实体的上下文语义以及每一个候选对应的预选链接结果进行模型推理获得实体链接结果，从而可以充分地利用外部知识，优化链接模型推理过程，提高实体链接的准确性。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种基于循环神经网络的实体链接装置，其特征在于，包括：

文本输入单元，用于输入文本数据，并对所述文本数据进行结构化转换处理，输出目标文本；其中，结构化转换处理采用JSON格式；

链接模型推理单元，用于输入所述嵌入向量，根据所述嵌入向量进行实体链接模型的推理过程，输出推理结果；所述实体链接模型是基于循环神经网络的模型；

链接结果输出单元，用于输入所述推理结果，确定每一个候选实体在知识库中的实体链接结果，即输出每一个候选实体在知识库中的id、实体名称、实体类型、文本信息；

所述文本输入单元包括：文件读取模块，用于接收输入文本数据；和数据处理模块，用于将输入文本数据转换为指定结构化文本，形成目标文本；

所述实体识别单元包括：数据预处理模块，被配置对输入文本数据进行数据预处理；向量化处理模块，被配置对数据预处理之后的向量编码操作，输出嵌入向量；实体识别模型存储模块，用于存储已完成训练的实体识别模型；实体识别模型加载模块，用于加载实体识别模型，确定所述目标文本中的全部候选实体；和候选实体结果输出模块，用于执行标准化处理，用于输出候选实体；所述向量化处理模块采用多种语义编码拼接的方式处理目标文本、候选实体、候选实体的预选链接结果，所述多种语义编码包括：字编码、分词和n_gram模型；

所述知识库匹配单元包括：知识库存储模块，用于存储预准备的知识库文件；和知识库匹配模块，用于匹配输入的候选实体和知识库文件，获取所述候选实体在知识库中的预选链接结果；

所述链接模型推理单元包括：实体链接模型存储模块，用于存储已完成训练的实体链接模型；和实体链接模型加载模块，用于加载所述实体链接模型和所述嵌入向量，执行模型推理；所述实体链接模型采用循环神经网络，其框架是基于BiLSTM+CNN+CRF，其中BiLSTM用于获取到所述预选链接结果的整个序列的信息；CNN用于提取当前词的局部特征；CRF用于序列标注，以提供输出层面的关联性分离；

所述链接结果输出单元包括实体链接结果输出模块，所述实体链接结果输出模块用于在模型推理结束后，对获取的全部候选实体的实体链接结果执行标准化处理，按设定的输出方式和输出格式输出结果。

2.一种基于循环神经网络的实体链接方法，其特征在于，包括以下步骤：

步骤S1：输入文本数据，并对所述文本数据进行结构化转换处理，输出目标文本；其中，结构化转换处理采用JSON格式；

步骤S4：对所述目标文本、所述候选实体及所述候选实体对应的预选链接结果进行向量化处理，并将向量化处理后的结果组合成一个嵌入向量；

步骤S6：根据所述推理结果，确定每一个候选实体在知识库中的实体链接结果；

所述步骤S4的向量化处理具体为：采用多种语义编码拼接的方式处理目标文本、候选实体、候选实体的预选链接结果，所述多种语义编码包括：字编码、分词和n_gram模型；

所述步骤S5具体包括：将所述候选实体的上下文语义以及每一个候选实体对应的预选链接结果输入到已训练好的实体链接模型中，输出推理结果；所述实体链接模型采用循环神经网络，其框架是基于BiLSTM+CNN+CRF，其中BiLSTM用于获取到所述预选链接结果的整个序列的信息；CNN用于提取当前词的局部特征；CRF用于序列标注，以提供输出层面的关联性分离；

所述步骤S6中的所述实体链接结果至少包括该实体在知识库中的具体id、实体名称、实体类型和文本信息。