CN115828852A - 一种基于杂志的人名实体链接方法 - Google Patents

一种基于杂志的人名实体链接方法 Download PDF

Info

Publication number
CN115828852A
CN115828852A CN202211494547.2A CN202211494547A CN115828852A CN 115828852 A CN115828852 A CN 115828852A CN 202211494547 A CN202211494547 A CN 202211494547A CN 115828852 A CN115828852 A CN 115828852A
Authority
CN
China
Prior art keywords
entity
vector
candidate
model
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211494547.2A
Other languages
English (en)
Inventor
张开放
甘云锋
江敏
高雁冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dtwave Technology Co ltd
Original Assignee
Hangzhou Dtwave Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dtwave Technology Co ltd filed Critical Hangzhou Dtwave Technology Co ltd
Priority to CN202211494547.2A priority Critical patent/CN115828852A/zh
Publication of CN115828852A publication Critical patent/CN115828852A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于杂志的人名实体链接方法,包括BERT Encode编码器、实体分类模块和实体链接模块构成,BERT Encode编码器与实体分类模块、实体链接模块联通。本发明通过对时尚传统纸媒数据(杂志、期刊等)和时尚新媒体数据(公众号文章等)首先进行数据预处理操作,得到统一处理后的数据。然后对数据按照一定的比例进行切分为训练集、验证集和测试集,使用训练集进行模型的训练,使用验证集进行模型的验证,再将测试集送入训练好的实体生成模型获得候选人名实体集合。紧接着将候选实体集合和领域知识库送入实体消歧模型,具体是通过计算实体指称与候选实体之间的相似度并进行相似度排序来选择可能的候选实体,从而提升实体链接的准确性。

Description

一种基于杂志的人名实体链接方法
技术领域
本发明涉及数据处理领域,更具体的说,它涉及一种基于杂志的人名实体链接方法。
背景技术
指称或表述(mention)指自然语言文本中表达实体的语言片段,实体链接(entitylinking,EL)指将文本中的指称链接到知识库(knowledge base,KB)中相应的实体(entity)来进行实体消歧(entity disambiguation),帮助人类和计算机理解文本具体含义的任务。例如,在文本“苹果发布了最新产品”中,表述“苹果”在知识库中对应的实体有“苹果(科技产品)”、“苹果(苹果产品公司)”和“苹果(蔷薇科苹果属果实)”等,实体链接就是将表述“苹果”链接到知识库中的“苹果(苹果产品公司)”,消除其他义项导致的歧义的过程。实体链接能够利用知识库丰富的语义信息,在许多领域发挥非常重要的基础性作用,例如问答***(question answering)、语义搜索(semantic search)和信息抽取(information extraction)等。实体链接也具有扩充知识库的重要功能,可以用于更新实体和关系,是知识图谱构建中的一个重要环节。
人名实体链接研究的对象为包含人名的命名实体,将非结构化文本中的表述指向其代表的真实人名实体,主要解决实体名的歧义性和多样性问题,如马爸爸、风清扬、JackMa都指阿里巴巴集团创始人马云。实体链接通常分为候选实体生成和候选实体排序消歧两个阶段。候选实体生成是为文本中的指称生成一个知识库中的相关实体集合,其首要任务是识别出文档中的实体指称,即需要链接到知识库进行消歧的词或短语,这一过程与自然语言处理中的命名实体识别任务较为类似。候选实体排序阶段对实体指称和候选实体集中的所有候选实体进行相关度排序,选择相关度最大的候选实体作为实体指称对应的链接实体。
现有的申请号为CN201310202444.9的专利公开了一种基于本体的中文人名消歧方法,可以有效解决中文人名的实体链接问题,较好的解决了人名误匹的问题,提高了识别效果。但其依赖人工定义人物属性以及人物本体中涉及的概念、属性和关系等,人工干预多维护耗时,并且采用传统机器学习方法特征表达能力差。
申请号为CN201610547386.7的专利公开了一种命名实体链接方法,该方法将候选文档列表中的所有候选文档进行消歧,得到最贴切描述所述查询词的一个候选文档,实现提高链接准确性。然而其利用传统的主题建模LDA方法特征表达能力差,并且当文本长度过短时,不利于训练LDA。
申请号为CN201810103629.7的专利公开了一种融合先验信息的命名实体链接方法,突破了语料缺乏的限制,为用户提供了可靠的实体链接推荐结果,其中实体通用性特征加入了先验信息。但是其通过采用组合的TF-IDF和commoness特征,仍然无法获取更深层次的语义和结构信息,特征表达能力差。
因此急需特征表达能力强,准确性更高的人名实体链接方法。
发明内容
本发明克服了现有技术的不足,提供了准确性高,特征表达能力强的一种基于杂志的人名实体链接方法。
本发明的技术方案如下:
一种基于杂志的人名实体链接方法,包括BERT Encode编码器、实体分类模块和实体链接模块构成,BERT Encode编码器与实体分类模块、实体链接模块联通;
实体分类模块就是命名实体,其包括实体的边界和类型;实体分类模块要求较高的召回率,召回尽可能多的指称的可能的链接对象,以提高实体链接的准确性,同时尽可能排除不相关的实体,从而减少计算量;实体分类模块为实体链接模块提供重要的信息;
实体链接模块是实现实体链接问题,其将不同含义、不同类型的信息映射到同一特征空间,并对多源信息和多源文本之间的关系进行建模,从而获得不同类型和不同模态的上下文与知识的统一表示;
BERT Encode编码器接收来自实体分类模块和实体链接模块任务的梯度信息,并更新模型参数,从而得到通用的底层表达,以提升模型的泛化能力,提升人名实体链接任务的准确性。
进一步的,BERT Encode编码器是使用双向Transformer模型的Encoder Layer进行特征提取,其使用大量无标记数据集中训练得到;BERT Encode编码器包括输入部分、多头注意力机制和前馈神经网络,其中输入部分包括字向量、文本向量和位置向量;
Transformer模型是一种学习文本中词之间上下文关系的注意力机制,其注意力机制的改良公式为:
Figure BDA0003965063390000031
其中Q,K,V是输入的词向量矩阵,dk是输入向量的维度,首先Q和K先做一个点乘,softmax处理之后得到的是一个相似度的向量,再乘以V矩阵得到一个加权和;在得到Z向量之后,它会被送到前馈神经网络,这个全连接有2层,第一层的激活函数是ReLU,第二层是一个线性激活函数,表示公式如下为:
FFN=max(0,ZW1+b1)W2+b2 公式(2)
进一步的,实体链接模块中人名实体链接的实体指称一共有16类,所以将实体指称作为一个16分类任务,在两层全连接层之间增加一层Dropout层,来防止模型过拟合;全连接层的输出接着使用Softmax激活函数的处理,得到实体指称对应的类别概率分布,完成实体分类任务。
进一步的,实体分类模块的输入部分包含字向量、文本向量和位置向量;
字向量利用word2vector计算得到,字向量融合了各个字/词的全文语义信息;
文本向量在模型训练过程中自动学习,用于刻画文本的全局语义信息,并与单字/词的语义信息相融合;
位置向量是为了表征文本不同位置的字/词所携带的语义信息存在差异,因此需要对不同位置的字/词分别附加一个不同的向量以作区分。
进一步的,位置向量的公式如下:
Figure BDA0003965063390000041
其中pos表示某个词在句子序列中的实际位置,i表示词向量的第i个维度,dmodel是位置向量的维度;最终将位置向量、字向量以及词向量各维度相加,得到的结果作为最终BERT Encoder模型的输入。
进一步的,实体链接模块以二分类问题方式进行处理,其具体如下:
首先对实体指称构建对应的候选实体集,这里对候选实体集增加候选实体“NIL”,NIL表示实体指称在知识库中没有对应的实体,将NIL也作为一个候选实体参与训练过程,其对应的候选实体上下文记为“未知实体”;
预测时,分别计算每个候选实体上下文与实体指称上下文的相关度,若所有候选实体相关度得分的最大值大于给定阈值,则认为相关度最大的候选实体为实体指称对应的正确链接实体;若所有候选实体对应的相关度均小于阈值,则认为该实体指称在知识库中没有对应的实体;即将实体链接模型得到的实体指称与候选实体的相关度概率得分s与预先设定的阈值t进行比较,若s大于阈值t,则认为该候选实体是正确的链接实体,否则认为不是。
本发明的优点在于:
本发明通过对时尚传统纸媒数据(杂志、期刊等)和时尚新媒体数据(公众号文章等)首先进行数据预处理操作,得到统一处理后的数据。然后对数据按照一定的比例进行切分为训练集、验证集和测试集,使用训练集进行模型的训练,使用验证集进行模型的验证,再将测试集送入训练好的实体生成模型获得候选人名实体集合。紧接着将候选实体集合和领域知识库送入实体消歧模型,具体是通过计算实体指称与候选实体之间的相似度并进行相似度排序来选择可能的候选实体,从而提升实体链接的准确性。
本发明将实体分类模块和实体链接模块使用共同的BERT Encoder编码器,有利于模型学习到更加通用的底层表达,从而提升模型的泛化能力,最终优化下游的实体链接任务。
附图说明
图1为本发明的总体方案图;
图2为本发明的BERT Encoder编码器输入部分示意图;
图3为本发明的实体分类模型结构图;
图4为本发明的实体链接模型结构图。
具体实施方式
下面结合附图和具体实施方式对本发明进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,本方案中未明确具体描述的部分均可采用常规技术手段实现。
对可能涉及到的名词进行解释说明,具体如下:
如图1至图4所述,一种基于杂志的人名实体链接方法,包括BERT Encode编码器、实体分类模块和实体链接模块构成,BERT Encode编码器与实体分类模块、实体链接模块联通。在模型的训练阶段,交替地训练实体分类模型和实体链接模型,最终实体分类和实体链接两个模型的梯度信息会回传到共享的BERT Encoder编码器部分。BERT Encode编码器作为实体分类模块和实体链接模块的共享编码器,其是使用双向Transformer模型的EncoderLayer进行特征提取(BERT没有Decoder部分)。它使用大量无标记数据集中训练得到,与传统的只使用前序文本信息提取语义的单向编码器(如GPT等)相比,BERT Encode编码器具有更强的语义信息抽取能力。
BERT Encode编码器由输入部分、多头注意力机制以及前馈神经网络三部分组成,其中输入部分包括字向量、文本向量和位置向量组成。
字向量利用word2vector计算得到,字向量融合了各个字/词的全文语义信息;
文本向量在模型训练过程中自动学习,用于刻画文本的全局语义信息,并与单字/词的语义信息相融合;
位置向量是为了表征文本不同位置的字/词所携带的语义信息存在差异(比如:“我爱你”和“你爱我”),因此需要对不同位置的字/词分别附加一个不同的向量以作区分。
实体分类模块就是命名实体,其包括实体的边界和类型(人名、机构名、地名等实体,本方案中特指人名);实体分类模块是相对上游任务,是为实体链接模块提供重要的信息,上游任务的错误会带来不可避免的噪音。因此实体分类模块要求较高的召回率,召回尽可能多的指称的可能的链接对象,以提高实体链接的准确性,同时尽可能排除不相关的实体,从而减少计算量;将实体分类模块和实体链接模块使用共同的BERT Encoder编码器,有利于模型学习到更加通用的底层表达,从而提升模型的泛化能力,最终优化下游的实体链接任务。
实体分类模块的输入部分包含字向量、文本向量和位置向量,位置向量的公式如下:
Figure BDA0003965063390000071
其中pos表示某个词在句子序列中的实际位置,i表示词向量的第i个维度,dmodel是位置向量的维度;最终将位置向量、字向量以及词向量各维度相加,得到的结果作为最终BERT Encoder模型的输入。
BERT Encode编码器是使用双向Transformer模型的Encoder Layer进行特征提取,其使用大量无标记数据集中训练得到;BERT Encode编码器包括输入部分、多头注意力机制和前馈神经网络,其中输入部分包括字向量、文本向量和位置向量;
Transformer模型是一种学习文本中词之间上下文关系的注意力机制,其注意力机制的改良公式为:
Figure BDA0003965063390000072
其中Q,K,V是输入的词向量矩阵,dk是输入向量的维度,首先Q和K先做一个点乘,softmax处理之后得到的是一个相似度的向量,再乘以V矩阵得到一个加权和;在得到Z向量之后,它会被送到前馈神经网络,这个全连接有2层,第一层的激活函数是ReLU,第二层是一个线性激活函数,表示公式如下为:
FFN=max(0,ZW1+b1)W2+b2 公式(2)
实体链接模块中人名实体链接的实体指称一共有16类,所以将实体指称作为一个16分类任务,在两层全连接层之间增加一层Dropout层,来防止模型过拟合,进一步提高模型的泛化能力;全连接层的输出接着使用Softmax激活函数的处理,得到实体指称对应的类别概率分布,完成实体分类任务。
实体链接模块是实现实体链接问题,其将不同含义、不同类型的信息映射到同一特征空间,并对多源信息和多源文本之间的关系进行建模,从而获得不同类型和不同模态的上下文与知识的统一表示;
实体链接模块以二分类问题方式进行处理,其具体如下:
首先对实体指称构建对应的候选实体集,这里对候选实体集增加候选实体“NIL”,NIL表示实体指称在知识库中没有对应的实体,将NIL也作为一个候选实体参与训练过程,其对应的候选实体上下文记为“未知实体”;
预测时,分别计算每个候选实体上下文与实体指称上下文的相关度,若所有候选实体相关度得分的最大值大于给定阈值,则认为相关度最大的候选实体为实体指称对应的正确链接实体;若所有候选实体对应的相关度均小于阈值,则认为该实体指称在知识库中没有对应的实体;即将实体链接模型得到的实体指称与候选实体的相关度概率得分s与预先设定的阈值t进行比较,若s大于阈值t,则认为该候选实体是正确的链接实体,否则认为不是。
BERT Encode编码器接收来自实体分类模块和实体链接模块任务的梯度信息,并更新模型参数,从而得到通用的底层表达,以提升模型的泛化能力,提升人名实体链接任务的准确性。
作为优选,训练模型过程中还包括总的分类损失函数,其定义公式为
Loss=λ×loss实体分类+μ×loss实体链接
其中λ和μ为两个模块的权衡系数,用来平衡实体分类损失和实体链接损失,也可以理解为实体分类损失和实体链接损失在总的损失中所占的比例。总的分类损失函数的作用就是计算深度网络每次迭代的前向计算结果与真实值的差距,从而指导下一步的训练向正确的方向进行。也就是用来指导模型正确连接知识库中的人名,当Loss低于一定值时,即为正确连接到相应人名。
综上所述,本方案实体分类模块和实体链接模块使用共享的BERT Encoder编码器训练模型,来自两个任务的梯度信息均会传递到共享的BERT Encoder编码器部分并更新模型参数,从而得到更加通用的底层表达,从而提升模型的泛化能力,最终提升人名实体链接任务的准确性。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明构思的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明保护范围内。

Claims (6)

1.一种基于杂志的人名实体链接方法,其特征在于:包括BERT Encode编码器、实体分类模块和实体链接模块构成,BERT Encode编码器与实体分类模块、实体链接模块联通;
实体分类模块就是命名实体,其包括实体的边界和类型;实体分类模块要求较高的召回率,召回尽可能多的指称的可能的链接对象,以提高实体链接的准确性,同时尽可能排除不相关的实体,从而减少计算量;实体分类模块为实体链接模块提供重要的信息;
实体链接模块是实现实体链接问题,其将不同含义、不同类型的信息映射到同一特征空间,并对多源信息和多源文本之间的关系进行建模,从而获得不同类型和不同模态的上下文与知识的统一表示;
BERT Encode编码器接收来自实体分类模块和实体链接模块任务的梯度信息,并更新模型参数,从而得到通用的底层表达,以提升模型的泛化能力,提升人名实体链接任务的准确性。
2.根据权利要求1所述的一种基于杂志的人名实体链接方法,其特征在于:BERTEncode编码器是使用双向Transformer模型的Encoder Layer进行特征提取,其使用大量无标记数据集中训练得到;BERT Encode编码器包括输入部分、多头注意力机制和前馈神经网络,其中输入部分包括字向量、文本向量和位置向量;
Transformer模型是一种学习文本中词之间上下文关系的注意力机制,其注意力机制的改良公式为:
Figure FDA0003965063380000011
其中Q,K,V是输入的词向量矩阵,dk是输入向量的维度,首先Q和K先做一个点乘,softmax处理之后得到的是一个相似度的向量,再乘以V矩阵得到一个加权和;在得到Z向量之后,它会被送到前馈神经网络,这个全连接有2层,第一层的激活函数是ReLU,第二层是一个线性激活函数,表示公式如下为:
FFN=max(0,ZW1+b1)W2+b2 公式(2)
3.根据权利要求2所述的一种基于杂志的人名实体链接方法,其特征在于:实体链接模块中人名实体链接的实体指称一共有16类,所以将实体指称作为一个16分类任务,在两层全连接层之间增加一层Dropout层,来防止模型过拟合;全连接层的输出接着使用Softmax激活函数的处理,得到实体指称对应的类别概率分布,完成实体分类任务。
4.根据权利要求1所述的一种基于杂志的人名实体链接方法,其特征在于:实体分类模块的输入部分包含字向量、文本向量和位置向量;
字向量利用word2vector计算得到,字向量融合了各个字/词的全文语义信息;
文本向量在模型训练过程中自动学习,用于刻画文本的全局语义信息,并与单字/词的语义信息相融合;
位置向量是为了表征文本不同位置的字/词所携带的语义信息存在差异,因此需要对不同位置的字/词分别附加一个不同的向量以作区分。
5.根据权利要求4所述的一种基于杂志的人名实体链接方法,其特征在于:位置向量的公式如下:
Figure FDA0003965063380000021
其中pos表示某个词在句子序列中的实际位置,i表示词向量的第i个维度,dmodel是位置向量的维度;最终将位置向量、字向量以及词向量各维度相加,得到的结果作为最终BERTEncoder模型的输入。
6.根据权利要求1所述的一种基于杂志的人名实体链接方法,其特征在于:实体链接模块以二分类问题方式进行处理,其具体如下:
首先对实体指称构建对应的候选实体集,这里对候选实体集增加候选实体“NIL”,NIL表示实体指称在知识库中没有对应的实体,将NIL也作为一个候选实体参与训练过程,其对应的候选实体上下文记为“未知实体”;
预测时,分别计算每个候选实体上下文与实体指称上下文的相关度,若所有候选实体相关度得分的最大值大于给定阈值,则认为相关度最大的候选实体为实体指称对应的正确链接实体;若所有候选实体对应的相关度均小于阈值,则认为该实体指称在知识库中没有对应的实体;即将实体链接模型得到的实体指称与候选实体的相关度概率得分s与预先设定的阈值t进行比较,若s大于阈值t,则认为该候选实体是正确的链接实体,否则认为不是。
CN202211494547.2A 2022-11-25 2022-11-25 一种基于杂志的人名实体链接方法 Pending CN115828852A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211494547.2A CN115828852A (zh) 2022-11-25 2022-11-25 一种基于杂志的人名实体链接方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211494547.2A CN115828852A (zh) 2022-11-25 2022-11-25 一种基于杂志的人名实体链接方法

Publications (1)

Publication Number Publication Date
CN115828852A true CN115828852A (zh) 2023-03-21

Family

ID=85531758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211494547.2A Pending CN115828852A (zh) 2022-11-25 2022-11-25 一种基于杂志的人名实体链接方法

Country Status (1)

Country Link
CN (1) CN115828852A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306504A (zh) * 2023-05-23 2023-06-23 匀熵智能科技(无锡)有限公司 候选实体生成方法、装置、存储介质及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306504A (zh) * 2023-05-23 2023-06-23 匀熵智能科技(无锡)有限公司 候选实体生成方法、装置、存储介质及电子设备
CN116306504B (zh) * 2023-05-23 2023-08-08 匀熵智能科技(无锡)有限公司 候选实体生成方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN111611361B (zh) 抽取式机器智能阅读理解问答***
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
Zhang et al. Convolutional multi-head self-attention on memory for aspect sentiment classification
CN111259127B (zh) 一种基于迁移学习句向量的长文本答案选择方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN112115238A (zh) 一种基于bert和知识库的问答方法和***
CN114911892A (zh) 用于搜索、检索和排序的交互层神经网络
CN112417884A (zh) 一种基于知识增强和知识迁移的句子语义相关度判断方法
CN113297364A (zh) 一种面向对话***中的自然语言理解方法及装置
CN116662502A (zh) 基于检索增强的金融问答文本生成方法、设备及存储介质
El Desouki et al. A hybrid model for paraphrase detection combines pros of text similarity with deep learning
CN115828852A (zh) 一种基于杂志的人名实体链接方法
Mozafari et al. A method for answer selection using DistilBERT and important words
AU2019101147A4 (en) A sentimental analysis system for film review based on deep learning
CN112445887A (zh) 基于检索的机器阅读理解***的实现方法及装置
CN116521887A (zh) 一种基于深度学习的知识图谱复杂问答***及方法
Alwaneen et al. Stacked dynamic memory-coattention network for answering why-questions in Arabic
CN115169429A (zh) 一种轻量化方面级文本情感分析方法
Dereje et al. Sentence level Amharic word sense disambiguation
Bulfamante Generative enterprise search with extensible knowledge base using AI
Prajapati et al. Automatic Question Tagging using Machine Learning and Deep learning Algorithms
Yang et al. Common sense-based reasoning using external knowledge for question answering
Wang et al. Realization of Chinese word segmentation based on deep learning method
CN110909547A (zh) 一种基于改进深度学习的司法实体识别方法
Falzone et al. Measuring similarity for technical product descriptions with a character-level siamese neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination