CN110674304A - 实体消歧方法、装置、可读存储介质及电子设备 - Google Patents

实体消歧方法、装置、可读存储介质及电子设备 Download PDF

Info

Publication number
CN110674304A
CN110674304A CN201910952886.2A CN201910952886A CN110674304A CN 110674304 A CN110674304 A CN 110674304A CN 201910952886 A CN201910952886 A CN 201910952886A CN 110674304 A CN110674304 A CN 110674304A
Authority
CN
China
Prior art keywords
entity
word
text
processed
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910952886.2A
Other languages
English (en)
Inventor
陈栋
齐云飞
付骁弈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201910952886.2A priority Critical patent/CN110674304A/zh
Publication of CN110674304A publication Critical patent/CN110674304A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种实体消歧方法、装置、可读存储介质及电子设备,通过实体中每个字的字向量获得实体的向量,从而根据实体中的所有向量进行消歧。所述方法包括:首先将包括至少两个实体的待处理文本输入实体提取语言模型进行实体提取,获得待处理文本中所包括的实体;接着将待处理文本输入双向语言模型中进行处理,获得待处理文本的字向量序列;再接着获取任意一实体中的每个字的字向量;紧接着根据该任意一实体中每个字的字向量计算获得该任意一实体的词向量;然后根据各实体的词向量计算每两个实体之间的相似度;最后根据待处理文本中,每两个实体之间的相似度对实体进行聚类,以实现实体消歧。本实施例所述方案,能够提高实体消歧的精确度。

Description

实体消歧方法、装置、可读存储介质及电子设备
技术领域
本申请涉及自然语言处理领域,具体而言,涉及一种实体消歧方法、装置、可读存储介质及电子设备。
背景技术
文本是由大量的词语组织而成,在组成文本的词语中通常会存在着大量的歧义实体词。对文本进行实体消歧后,可以根据实体消歧的结果实现信息提取、文本摘要的构建等,实体消歧的精度也直接影响到信息提取等的精度。
现有技术中,在进行实体消歧时,一种方式是采用大量相关文本进行词向量训练,得到词嵌入矩阵,从待处理文本中抽取实体。将待处理文本中抽取到的实体转换为向量后对这些实体进行聚类,从而完成实体消歧。这种实体消歧方式,一个词只会对应一个词向量,如果一个词对应有多个含义,这种消歧方式则不能够将表达的不同含义区分出来。此外,对于词嵌入矩阵中不存在的新词,也无法转化为向量。因此,采用这种实体消歧方式进行消歧的结果存在较大的误差。
发明内容
为了至少克服现有技术中的上述不足,本申请的目的之一在于提供一种实体消歧方法,所述方法包括:
将包括至少两个实体的待处理文本输入预先训练好的实体提取语言模型进行实体提取,获得待处理文本中所包括的实体;
将所述待处理文本输入预先训练好的双向语言模型中进行处理,获得所述待处理文本的字向量序列,其中,所述字向量序列由所述待处理文本中各个字的字向量按照该各个字在所述待处理文本中的先后顺序排列而成,所述字向量通过所述字的上下文关系计算得来;
针对所述待处理文本中任意一实体,根据该任意一实体以及该任意一实体中的每个字在文本中的位置,从所述字向量序列中获取该任意一实体中的每个字的字向量;
根据该任意一实体中每个字的字向量计算获得该任意一实体的词向量;
根据各个实体的词向量计算每两个所述实体之间的相似度;
根据所述待处理文本中,每两个实体之间的相似度对实体进行聚类,以实现实体消歧。
可选地,所述针对所述待处理文本中任意一实体,根据该任意一实体以及该任意一实体中的每个字在文本中的位置,从所述字向量序列中获取该任意一实体中的每个字的字向量的步骤包括:
基于所述待处理文本获得标识序列,其中,所述待处理文本中每个实体中的字所在位置采用第一标识符表示,除实体外的其他字采用第二标识符表示;
针对该任意一实体,根据该任意一实体中的每个字的第一标识符在标识序列中的位置获取字向量序列中对应位置的字向量,从而获得该任意一实体中每个字的字向量。
可选地,所述根据该任意一实体中每个字的字向量计算获得该任意一实体的词向量的步骤包括,计算该实体中所有字的字向量的平均向量,将所述平均向量作为该实体的词向量。
可选地,所述根据各个实体的词向量计算每两个实体之间的相似度的步骤包括,采用余弦相似度算法计算每两个实体之间的相似度。
可选地,在将包括至少两个实体的待处理文本输入预先训练好的实体提取语言模型进行实体提取,获得待处理文本中所包括的实体的步骤前,所述方法还包括:
将多个标注好实体的训练文本作为训练样本输入实体提取语言模型进行训练;
将输出的实体标注与标注好实体进行对比,计算得到本次训练的损失函数值;
若损失函数值小于预设损失值,判定所述实体提取语言模型训练完成,若损失函数值不小于预设损失值,对所述实体提取语言模型中的参数进行调整,将多个标注好实体的训练文本作为训练样本输入参数调整后的实体提取语言模型中进行训练,重复上述步骤直到损失函数值小于预设损失值。
本申请的另一目的在于提供一种实体消歧装置,所述装置包括:
实体提取模块,用于将包括至少两个实体的待处理文本输入预先训练好的实体提取语言模型进行实体提取,获得待处理文本中所包括的实体;
字向量获取模块,用于将所述待处理文本输入预先训练好的双向语言模型中进行处理,获得所述待处理文本的字向量序列,其中,所述字向量序列由所述待处理文本中各个字的字向量按照该各个字在所述待处理文本中的先后顺序排列而成,所述字向量通过所述字的上下文关系计算得来;
字向量对应模块,用于针对所述待处理文本中任意一实体,根据该任意一实体以及该任意一实体中的每个字在文本中的位置,从所述字向量序列中获取该任意一实体中的每个字的字向量;
词向量计算模块,用于根据该任意一实体中每个字的字向量计算获得该任意一实体的词向量;
相似度计算模块,用于根据各个实体的词向量计算每两个所述实体之间的相似度;
实体消歧模块,用于根据所述待处理文本中,每两个实体之间的相似度对实体进行聚类,以实现实体消歧。
可选地,所述字向量对应模块具体用于:
基于所述待处理文本获得标识序列,其中,所述待处理文本中每个实体中的字所在位置采用第一标识符表示,除实体外的其他字采用第二标识符表示;
针对该任意一实体,根据该任意一实体中的每个字的第一标识符在标识序列中的位置获取字向量序列中对应位置的字向量,从而获得该任意一实体中每个字的字向量。
可选地,所述词向量计算模块具体用于,计算该实体中所有字的字向量的平均向量,将所述平均向量作为该实体的词向量。
本申请的另一目的还在于一种可读存储介质,所述可读存储介质存储有可执行程序,处理器在执行所述可执行程序时,实现如本申请任一项所述的方法。
本申请的另一目的还在于一种电子设备,所述电子设备包括存储器和处理器,所述存储器与所述处理器通信连接,所述存储器中存储有可执行程序,所述处理器在执行所述可执行程序时,实现如本申请任一项所述的方法。
相对于现有技术而言,本申请具有以下有益效果:
本申请实施例提供的实体消歧方法、装置、可读存储介质和电子设备,通过提取出文本中的各个实体,并提取出文本中各个字的字向量,然后根据实体中各个字在文本中的位置获得实体的各个字的字向量,进而计算出各个实体的词向量,然后根据各个实体的词向量计算相似度之后来进行实体消歧,由于各个字向量是与各个字的上下文相关的,因此,对于位置不同的相同实体,其向量表达也会和上下文相关,从而能够提高实体消歧的精确度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本申请实施例提供的电子设备的结构示意图;
图2是本申请实施例提供的实体消歧方法流程示意图一;
图3是本申请实施例提供的实体消歧方法流程示意图二;
图4是本申请实施例提供的实体消歧实体提取结果示意图;
图5是本申请实施例提供的实体消歧方法流程示意图三;
图6是本申请实施例提供的相似矩阵的示意图;
图7是双向语言模型的输入数据的结构示意图;
图8是双向语言模型训练过程中预测被掩盖字词的示意图一;
图9是双向语言模型训练过程中预测被掩盖字词的示意图二;
图10是本申请实施例提供的实体消歧装置的功能模块框图。
图标:100-电子设备;110-实体消歧装置;111-实体提取模块;112-字向量获取模块;113-字向量对应模块;114-词向量计算模块;115-相似度计算模块;116-实体消歧模块;120-存储器;130-处理器。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
随着自然语言处理相关的技术的发展,自然语言处理的技术被越来越多地应用到各个领域。例如,实体消歧在信息提取、文本摘要的构建、主题建模、领域知识挖掘以及专业文献自动翻译等等都是一种十分重要的技术手段。然而,自然语言的一种十分重要的表达形式是文本。文本通常而言是指具有完整、***含义的一个句子或者多个句子的组合,而句子中通常又由词语组成,组成文本的这些词语中,很多词语虽然并不相同,但是表达的含义可能相同,也有可能词语虽然相同,但是所表达的含义并不相同,因此,实体消歧的结果,往往会直接影响到应用该结果的其他过程。
在现有技术中,实现实体消歧通常有两种方法,其中一种方法是:基于词向量(Word Embedding)的聚类方法,这种方法中,需要首先对大量的相关行业的文本进行词向量训练,从而得到词嵌入矩阵(Word Embedding Matrix)。在得到词嵌入矩阵后,便将待处理文本中抽取到的实体转换为向量,然后根据词嵌入矩阵进行聚类,把相似的词归为一类。这种消歧方法的第一个缺陷是一个词只有一个词向量,无法解决解决一词多义的问题。这种方法的第二个缺陷是,无法对短语级别的实体(名词短语、动词短语、形容词短语等)进行消歧。此外,由于词嵌入矩阵都是根据已有的文本获得的,如果用于词向量训练的文本中不存在相应的词语,那么最终得到词向量矩阵中也不会存在这个词语的词向量。因此待处理文本中的词语并不一定能够转化为词向量。
现有技术中的另一种消歧方式是基于知识图谱的消歧方法。这种消歧方法中,通常是将文本中抽取的实体与既存的知识图谱中某一个实体进行对齐(实体链接),若文本中多个不同的实体可以对齐到知识图谱中相同的实体,则认为这些实体具有相同的语义。这种方式进行实体消歧,同样会存在不能对短语级别的实体(名词短语、动词短语、形容词短语等)进行消歧。此外,这种消歧方式计算实体相似度时通常采用的是神经网络等较为复杂的模型。
总而言之,现有的实体消歧技术存在的一个共同的缺点就是实体消歧的精度较低。
请参见图1,图1是本申请实施例提供的电子设备100的结构示意框图,所述电子设备100包括实体消歧装置110,存储器120和处理器130,存储器120和处理器130相互之间直接或间接电性连接,用于实现数据交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述实体消歧装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器120中或固化在所述电子设备100的操作***(operating system,OS)中的软件功能模块。所述处理器130用于执行所述存储器120中存储的可执行模块,例如所述实体消歧装置110所包括的软件功能模块及计算机程序等。
为了解决上述问题,本实施例提供一种可以应用于上述电子设备100的实体消歧方法,请参照图2,所述方法包括步骤S010-步骤S060。
步骤S010,采用实体提取语言模型进行实体提取,获得待处理文本中所包括的实体。
具体地,将包括至少两个实体的待处理文本输入预先训练好的实体提取语言模型进行实体提取,获得待处理文本中所包括的实体。
本实施例中,实体是指文本中具有特定意义的字、词或者短语,其中,短语可以是名词短语、动词短语、形容词短语等。
步骤S020,采用双向语言模型获取待处理文本的字向量序列。
具体地,将所述待处理文本输入预先训练好的双向语言模型中进行处理,获得所述待处理文本的字向量序列,其中,所述字向量序列由所述待处理文本中各个字的字向量按照该各个字在待处理文本中的先后顺序排列而成,所述字向量通过所述字的上下文关系计算得来。
步骤S030,分别获取每个实体的对应的每个字向量。
具体地,针对待处理文本中任意一实体,根据该任意一实体以及该任意一实体中的每个字在文本中的位置,从所述字向量序列中获取该任意一实体中的每个字的字向量。
步骤S040,根据该任意一实体中每个字的字向量计算获得该任意一实体的词向量。
步骤S050,根据各个实体的词向量计算每两个所述实体之间的相似度。
步骤S060,根据所述待处理文本中,每两个实体之间的相似度对实体进行聚类,以实现实体消歧。
本实施例通过采用实体提取语言模型来提取出待处理文本中的实体,并采用双向预训练模型提取出字的在待处理文本上下文相关的字向量序列,然后根据实体提取语言模型提取出的实体来计算来从字向量序列中分别获取各个实体中的各个字的字向量,从而根据实体中的字向量计算出该实体在待处理文本中与上下文相关的词向量,如此,便可以得到各个词语与位置及上下文相关的词向量,例如,对于多义词而言,在不同位置时便可以得到不同的词向量。根据本实施例所述方案得到的各个实体的词向量进行消歧,如此,便可以识别出多义词以及多词同义的情况,从而提高实体消歧的精度。
请参照图3,可选地,本实施例中,步骤S030包括子步骤S031-步骤S032。
步骤S031,基于待处理文本获得标识序列,其中,所述待处理文本中每个实体中的字所在位置采用第一标识符表示,除实体外的其他字采用第二标识符表示。
步骤S032,根据该任意一实体中的每个字的第一标识符获取字向量。
具体地,针对该任意一实体,根据该任意一实体中的每个字的第一标识符在标识序列中的位置获取字向量序列中对应位置的字向量,从而获得该任意一实体中每个字的字向量。
本实施例用于针对每个实体,分别获取该实体中的每个字的字向量。
以下结合实际的例子来讲解如何获取实体中的每个字的字向量,待处理文本为“乔布斯(全名:史蒂夫乔布斯)拿着一个吃了一半的苹果去了苹果公司。”时,经过步骤S010,提取出的实体有“乔布斯”、“史蒂夫乔布斯”、“苹果”、“苹果”,请参照图4所示,mean表示对实体中的字向量计算平均向量。如果第一标识符为1,第二标识符为2,于是,根据待处理文本获得的标识序列为“1、1、1、0、0、0、0、1、1、1、1、1、1、0、0、0、0、0、0、0、0、0、0、1、1、0、0、1、1、0、0”,那么,则可以根据实体对应的第一标识符在标识序列中的位置从字向量序列中获取与该实体的第一标识符位置对应的字的字向量。
本实施例中,第一标识符也可以用1、2、3来表示,其中,1表示实体的开头、2表示实体的中间、3表示实体的结尾,第二标识符用0来表示。此时,根据待处理文本获得的标识序列为“1、2、3、0、0、0、0、1、2、2、2、2、3、0、0、0、0、0、0、0、0、0、0、1、3、0、0、1、3、0、0”。那么,则可以根据实体对应的第一标识符在标识序列中的位置从字向量序列中获取与该实体的第一标识符位置对应的字的字向量。
可选地,本实施例中,所述根据该任意一实体中每个字的字向量计算获得该任意一实体的词向量的步骤包括,计算该实体中所有字的字向量的平均向量,将所述平均向量作为该实体的词向量。
本实施例用于对实体包含的字向量进行均值化处理,从而获得实体向量。本实施例中,对实体向量进行均值化处理,能够提高实体向量的准确度,从而可以使实体消歧的结果更加准确。
例如,在上述列举的待处理文本中,“史”为300维的一个向量,“蒂”也为300维的向量,“夫”也为300维的向量,那么“史蒂夫”为3个300维的向量,对这三个向量列向平均(均值化)后可得到一个300维的向量,该向量则为史蒂夫的实体表达,即词向量。
为帮助理解,以下举例来说明词向量均值化处理的过程:
一个包括三个字的实体中,三个字的字向量分别为:(a1,a2,a3),(b1,b2,b3),(c1,c2,c3),那么,这个实体的词向量则为((a1+b1+c1)/3,(a2+b2+c2)/3,(a3+b3+c3)/3)。
可选地,本实施例中,所述根据各个实体的词向量计算每两个实体之间的相似度的步骤包括,采用余弦相似度算法计算每两个实体之间的相似度。
本实施例,用于具体计算待处理文本中,实体两两之间的相似度。
同样,为了帮助理解,以下仍然举例来对计算实体相似度的方法进行说明:
例如,实体A的词向量表达为:[1,2,3,4,1],实体B的词向量表达为:[1,2,3,4,3]。
余弦相似度S的计算公式为:S=M/N。其中,M为词向量A与词向量B的点积,N为词向量A与词向量B的向量积。M、N的计算公式分别为:
M=1*1+2*2+3*3+4*4+1*3=33
最终,可以得到余弦相似度S=33/34.77=0.949。
请参照图5所示,可选地,本实施例中,在步骤S010前,所述方法还包括步骤S110-步骤S130。
步骤S110,将多个标注好实体的训练文本作为训练样本输入实体提取语言模型进行训练。
步骤S120,将输出的实体标注与标注好实体进行对比,计算得到本次训练的损失函数值。
步骤S130,判断损失函数是否小于预设损失值。
步骤S140,若损失函数值不小于预设损失值,对所述实体提取语言模型中的参数进行调整,将多个标注好实体的训练文本作为训练样本输入参数调整后的实体提取语言模型中进行训练,重复上述步骤直到损失函数值小于预设损失值。
若损失函数值小于预设损失值,判定所述实体提取语言模型训练完成。
本实施例用于进行模型训练,以得到能够进行实体提取的实体提取语言模型。
本实施例中,在训练实体提取语言模型时,可以根据实际需要提取的实体的类型来对训练文本进行实体标注,然后再采用现有的实体语言模型训练方法进行训练,这样训练出来的实体提取语言模型就可以用于对短语级别的实体(名词短语、动词短语、形容词短语等)进行实体提取,这样,便可以获得短语级别的实体的向量,实现对短语级别的实体(名词短语、动词短语、形容词短语等)进行消歧。
最后,便可以根据获得的各个词向量进行进行聚类,从而实现实体消歧。为了方便理解,仍然以待处理文本“乔布斯(全名:史蒂夫乔布斯)拿着一个吃了一半的苹果去了苹果公司。”为例,列举具体的聚类方法。
待处理文本中,提取出的实体包括“乔布斯”、“史蒂夫乔布斯”、“苹果”(水果)、“苹果”(公司),则计算这四个实体两两之间的相似度。计算这四个实体两两之间的相似度构成相似度矩阵请参照图6所示。如此,便可以根据实体之间的相似度进行聚类。
通过上面那个图可以看出来,相似度矩阵中对角线的元素都等于1,表示实体与自己的相似度为100%,例如“乔布斯”与“史蒂夫乔布斯”的相似度为93%,表示这两个实体相似度很高,可能属于同一类别。但是“苹果(水果)”与“苹果(公司)”虽然名称一样,但是向量表达所计算出来的相似度很低,表示这两个不是一个东西。聚类的目的就是把相似度高的元素放到一起,相似度不高的元素分割开来,最终同一个类下的元素都是表达的同一个东西,例如:乔布斯,史蒂夫乔布斯,乔老,苹果创始人乔布斯,美国苹果乔布斯。
在根据实体的相似度阈值进行聚类时,可以将相似度大于某一相似度阈值的实体归为一类。
本实施例中,双向语言模型可以采用谷歌通过注意力机制训练的模型,例如,Bert模型。对于Bert模型具有12层Transformer Encoder用来对数据的句子进行特征抽取,其处理数据的过程大致如下:首先通过用WordPiece工具来进行分词,并***特殊的分离符(例如,[CLS],用来分隔样本)和分隔符(例如,[SEP],用来分隔样本内的不同句子),然后输入用于将各个词转换成固定维度的向量WordEmbedding(TokenEmbeddings)层、用于获得各个字在句子中的位置的PositionEmbeddings层、用于对输入句子进行的分类的SegmentEmbeddings和用于作为掩膜掩盖句子中的部分字或者词的Masking加和而成的网络结构,以训练样本中的训练文本为“my dog is cute,he likes playing。”为例,关于该训练文本输入Bert模型的上述网络结构后,得到的结果请参见图7所示,Input表示输入层,E[CLS]代表分离符经TokenEmbeddings层“[CLS]”处理后的向量,Emy代表单词“my”经TokenEmbeddings层处理后的向量,Edog代表单词“dog”经TokenEmbeddings层处理后的向量,Eis代表单词“is”经TokenEmbeddings层处理后的向量,Ecute代表单词“cute”经TokenEmbeddings层处理后的向量,Ehe代表单词“he”经TokenEmbeddings层处理后的向量,Elikes代表单词“likes”经TokenEmbeddings层处理后的向量,Eplay代表单词“play”经TokenEmbeddings层处理后的向量,Eing代表字符“ing”经TokenEmbeddings层处理后的向量,E[SEP]代表分隔符“[SEP]”经TokenEmbeddings层处理后的向量。EA表示对应位置的字属于A类型,EB表示对应位置的字属于B类型。Ei表示字的位置向量,i为自然数,代表字或词在句子中的位置。
对于Bert模型而言,模型在训练过程中会随机掩盖训练文本中的字或者词,然后通过Transformer网络(模型中间的12层Transformer Encoder)来预测模型中的被掩盖的字或者词。例如,当训练文本是“哈尔滨是黑龙江的省会,国际冰雪文化名城”时,当被掩盖的字为“尔”、“黑”、“国”和“雪”时,将掩盖后的文本输入Transformer网络,则会输出被掩盖的字的预测结果:“尔”、“黑”、“国”和“雪”。当被掩盖的字为“哈尔滨”和“冰雪”时,将掩盖后的文本输入Transformer网络,则会输出被掩盖的字的预测结果:“哈尔滨”和“冰雪”。关于模型训练过程中对文本的预测示意图,请参照图8和图9所示。
本实施例中,双向语言模型也可以采用LSTM、CNN或者RNN训练得来。
请参照图10,本申请的实施例还提供一种实体消歧装置110,所述装置包括实体提取模块111、字向量获取模块112、字向量对应模块113、词向量计算模块114、相似度计算模块115和实体消歧模块116。所述实体消歧装置110包括一个可以软件或固件的形式存储于所述存储器120中或固化在所述图像处理设备的操作***(operating system,OS)中的软件功能模块。
实体提取模块111,用于将包括至少两个实体的待处理文本输入预先训练好的实体提取语言模型进行实体提取,获得待处理文本中所包括的实体。
本实施例中的实体提取模块111用于步骤S010,关于所述实体提取模块111的具体描述可参照对所述步骤S010的描述。
字向量获取模块112,用于将所述待处理文本输入预先训练好的双向语言模型中进行处理,获得所述待处理文本的字向量序列,其中,所述字向量序列由所述待处理文本中各个字的字向量按照该各个字在待处理文本中的先后顺序排列而成,所述字向量通过所述字的上下文关系计算得来;
本实施例中的字向量获取模块112用于步骤S020,关于所述字向量获取模块112的具体描述可参照对所述步骤S020的描述。
字向量对应模块113,用于针对待处理文本中任意一实体,根据该任意一实体以及该任意一实体中的每个字在文本中的位置,从所述字向量序列中获取该任意一实体中的每个字的字向量。
本实施例中的字向量对应模块113用于步骤S030,关于所述字向量对应模块113的具体描述可参照对所述步骤S030的描述。
词向量计算模块114,用于根据该任意一实体中每个字的字向量计算获得该任意一实体的词向量。
本实施例中的词向量计算模块114用于步骤S040,关于所述词向量计算模块114的具体描述可参照对所述步骤S040的描述。
相似度计算模块115,用于根据各个实体的词向量计算每两个所述实体之间的相似度。
本实施例中的相似度计算模块115用于步骤S050,关于所述相似度计算模块115的具体描述可参照对所述步骤S050的描述。
实体消歧模块116,用于根据所述待处理文本中,每两个实体之间的相似度对实体进行聚类,以实现实体消歧。
本实施例中的实体消歧模块116用于步骤S060,关于所述实体消歧模块116的具体描述可参照对所述步骤S060的描述。
本申请的另一目的还在于一种可读存储介质,所述可读存储介质存储有可执行程序,处理器130在执行所述可执行程序时,可以实现如本实施例任一项所述的方法。
以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种实体消歧方法,其特征在于,所述方法包括:
将包括至少两个实体的待处理文本输入预先训练好的实体提取语言模型进行实体提取,获得待处理文本中所包括的实体;
将所述待处理文本输入预先训练好的双向语言模型中进行处理,获得所述待处理文本的字向量序列,其中,所述字向量序列由所述待处理文本中各个字的字向量按照该各个字在所述待处理文本中的先后顺序排列而成,所述字向量通过所述字的上下文关系计算得来;
针对所述待处理文本中任意一实体,根据该任意一实体以及该任意一实体中的每个字在文本中的位置,从所述字向量序列中获取该任意一实体中的每个字的字向量;
根据该任意一实体中每个字的字向量计算获得该任意一实体的词向量;
根据各个实体的词向量计算每两个所述实体之间的相似度;
根据所述待处理文本中,每两个实体之间的相似度对实体进行聚类,以实现实体消歧。
2.根据权利要求1所述的方法,其特征在于,所述针对所述待处理文本中任意一实体,根据该任意一实体以及该任意一实体中的每个字在文本中的位置,从所述字向量序列中获取该任意一实体中的每个字的字向量的步骤包括:
基于所述待处理文本获得标识序列,其中,所述待处理文本中每个实体中的字所在位置采用第一标识符表示,除实体外的其他字采用第二标识符表示;
针对该任意一实体,根据该任意一实体中的每个字的第一标识符在所述标识序列中的位置获取字向量序列中对应位置的字向量,从而获得该任意一实体中每个字的字向量。
3.根据权利要求1所述的方法,其特征在于,所述根据该任意一实体中每个字的字向量计算获得该任意一实体的词向量的步骤包括,计算该实体中所有字的字向量的平均向量,将所述平均向量作为该实体的词向量。
4.根据权利要求1所述的方法,其特征在于,所述根据各个实体的词向量计算每两个实体之间的相似度的步骤包括,采用余弦相似度算法计算每两个实体之间的相似度。
5.根据权利要求1所述的方法,其特征在于,在将包括至少两个实体的待处理文本输入预先训练好的实体提取语言模型进行实体提取,获得待处理文本中所包括的实体的步骤前,所述方法还包括:
将多个标注好实体的训练文本作为训练样本输入实体提取语言模型进行训练;
将输出的实体标注与标注好实体进行对比,计算得到本次训练的损失函数值;
若损失函数值小于预设损失值,判定所述实体提取语言模型训练完成,若损失函数值不小于预设损失值,对所述实体提取语言模型中的参数进行调整,将多个标注好实体的训练文本作为训练样本输入参数调整后的实体提取语言模型中进行训练,重复上述步骤直到损失函数值小于预设损失值。
6.一种实体消歧装置,其特征在于,所述装置包括:
实体提取模块,用于将包括至少两个实体的待处理文本输入预先训练好的实体提取语言模型进行实体提取,获得待处理文本中所包括的实体;
字向量获取模块,用于将所述待处理文本输入预先训练好的双向语言模型中进行处理,获得所述待处理文本的字向量序列,其中,所述字向量序列由所述待处理文本中各个字的字向量按照该各个字在所述待处理文本中的先后顺序排列而成,所述字向量通过所述字的上下文关系计算得来;
字向量对应模块,用于针对所述待处理文本中任意一实体,根据该任意一实体以及该任意一实体中的每个字在文本中的位置,从所述字向量序列中获取该任意一实体中的每个字的字向量;
词向量计算模块,用于根据该任意一实体中每个字的字向量计算获得该任意一实体的词向量;
相似度计算模块,用于根据各个实体的词向量计算每两个所述实体之间的相似度;
实体消歧模块,用于根据所述待处理文本中,每两个实体之间的相似度对实体进行聚类,以实现实体消歧。
7.根据权利要求6所述的装置,其特征在于,所述字向量对应模块具体用于:
基于所述待处理文本获得标识序列,其中,所述待处理文本中每个实体中的字所在位置采用第一标识符表示,除实体外的其他字采用第二标识符表示;
针对该任意一实体,根据该任意一实体中的每个字的第一标识符在标识序列中的位置获取字向量序列中对应位置的字向量,从而获得该任意一实体中每个字的字向量。
8.根据权利要求6所述的装置,其特征在于,所述词向量计算模块具体用于,计算该实体中所有字的字向量的平均向量,将所述平均向量作为该实体的词向量。
9.一种可读存储介质,其特征在于,所述可读存储介质存储有可执行程序,处理器在执行所述可执行程序时,实现如权利要求1-5任一项所述的方法。
10.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器与所述处理器通信连接,所述存储器中存储有可执行程序,所述处理器在执行所述可执行程序时,实现如权利要求1-5任一项所述的方法。
CN201910952886.2A 2019-10-09 2019-10-09 实体消歧方法、装置、可读存储介质及电子设备 Pending CN110674304A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910952886.2A CN110674304A (zh) 2019-10-09 2019-10-09 实体消歧方法、装置、可读存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910952886.2A CN110674304A (zh) 2019-10-09 2019-10-09 实体消歧方法、装置、可读存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN110674304A true CN110674304A (zh) 2020-01-10

Family

ID=69081044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910952886.2A Pending CN110674304A (zh) 2019-10-09 2019-10-09 实体消歧方法、装置、可读存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN110674304A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414759A (zh) * 2020-03-12 2020-07-14 北京明略软件***有限公司 实体消歧的方法及***
CN111581949A (zh) * 2020-05-12 2020-08-25 上海市研发公共服务平台管理中心 学者人名的消歧方法、装置、存储介质及终端
CN111597336A (zh) * 2020-05-14 2020-08-28 腾讯科技(深圳)有限公司 训练文本的处理方法、装置、电子设备及可读存储介质
CN112949319A (zh) * 2021-03-12 2021-06-11 江南大学 文本中多义性单词的标注方法、设备、处理器和存储介质
CN113158687A (zh) * 2021-04-29 2021-07-23 新声科技(深圳)有限公司 语义的消歧方法及装置、存储介质、电子装置
CN113239149A (zh) * 2021-05-14 2021-08-10 北京百度网讯科技有限公司 实体处理方法、装置、电子设备和存储介质
CN113343669A (zh) * 2021-05-20 2021-09-03 北京明略软件***有限公司 一种学习字向量方法、***、电子设备及存储介质
CN115438674A (zh) * 2022-11-08 2022-12-06 腾讯科技(深圳)有限公司 实体数据处理、实体链接方法、装置和计算机设备
CN116266266A (zh) * 2022-11-08 2023-06-20 美的集团(上海)有限公司 多音字消歧方法、装置、设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160292281A1 (en) * 2015-04-01 2016-10-06 Microsoft Technology Licensing, Llc Obtaining content based upon aspect of entity
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
CN107168952A (zh) * 2017-05-15 2017-09-15 北京百度网讯科技有限公司 基于人工智能的信息生成方法和装置
CN107885721A (zh) * 2017-10-12 2018-04-06 北京知道未来信息技术有限公司 一种基于lstm的命名实体识别方法
US20180189265A1 (en) * 2015-06-26 2018-07-05 Microsoft Technology Licensing, Llc Learning entity and word embeddings for entity disambiguation
CN108280061A (zh) * 2018-01-17 2018-07-13 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
CN109472032A (zh) * 2018-11-14 2019-03-15 北京锐安科技有限公司 一种实体关系图的确定方法、装置、服务器及存储介质
CN109885698A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种知识图谱构建方法及装置、电子设备
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN110134965A (zh) * 2019-05-21 2019-08-16 北京百度网讯科技有限公司 用于信息处理的方法、装置、设备和计算机可读存储介质
CN110276075A (zh) * 2019-06-21 2019-09-24 腾讯科技(深圳)有限公司 模型训练方法、命名实体识别方法、装置、设备及介质
CN110287302A (zh) * 2019-06-28 2019-09-27 中国船舶工业综合技术经济研究院 一种国防科技领域开源信息置信度确定方法及***

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160292281A1 (en) * 2015-04-01 2016-10-06 Microsoft Technology Licensing, Llc Obtaining content based upon aspect of entity
US20180189265A1 (en) * 2015-06-26 2018-07-05 Microsoft Technology Licensing, Llc Learning entity and word embeddings for entity disambiguation
CN107168952A (zh) * 2017-05-15 2017-09-15 北京百度网讯科技有限公司 基于人工智能的信息生成方法和装置
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
CN107885721A (zh) * 2017-10-12 2018-04-06 北京知道未来信息技术有限公司 一种基于lstm的命名实体识别方法
CN108280061A (zh) * 2018-01-17 2018-07-13 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
CN109472032A (zh) * 2018-11-14 2019-03-15 北京锐安科技有限公司 一种实体关系图的确定方法、装置、服务器及存储介质
CN109885698A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种知识图谱构建方法及装置、电子设备
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN110134965A (zh) * 2019-05-21 2019-08-16 北京百度网讯科技有限公司 用于信息处理的方法、装置、设备和计算机可读存储介质
CN110276075A (zh) * 2019-06-21 2019-09-24 腾讯科技(深圳)有限公司 模型训练方法、命名实体识别方法、装置、设备及介质
CN110287302A (zh) * 2019-06-28 2019-09-27 中国船舶工业综合技术经济研究院 一种国防科技领域开源信息置信度确定方法及***

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414759A (zh) * 2020-03-12 2020-07-14 北京明略软件***有限公司 实体消歧的方法及***
CN111581949A (zh) * 2020-05-12 2020-08-25 上海市研发公共服务平台管理中心 学者人名的消歧方法、装置、存储介质及终端
CN111597336B (zh) * 2020-05-14 2023-12-22 腾讯科技(深圳)有限公司 训练文本的处理方法、装置、电子设备及可读存储介质
CN111597336A (zh) * 2020-05-14 2020-08-28 腾讯科技(深圳)有限公司 训练文本的处理方法、装置、电子设备及可读存储介质
CN112949319A (zh) * 2021-03-12 2021-06-11 江南大学 文本中多义性单词的标注方法、设备、处理器和存储介质
CN112949319B (zh) * 2021-03-12 2023-01-06 江南大学 文本中多义性单词的标注方法、设备、处理器和存储介质
CN113158687A (zh) * 2021-04-29 2021-07-23 新声科技(深圳)有限公司 语义的消歧方法及装置、存储介质、电子装置
CN113239149A (zh) * 2021-05-14 2021-08-10 北京百度网讯科技有限公司 实体处理方法、装置、电子设备和存储介质
CN113239149B (zh) * 2021-05-14 2024-01-19 北京百度网讯科技有限公司 实体处理方法、装置、电子设备和存储介质
CN113343669A (zh) * 2021-05-20 2021-09-03 北京明略软件***有限公司 一种学习字向量方法、***、电子设备及存储介质
CN116266266A (zh) * 2022-11-08 2023-06-20 美的集团(上海)有限公司 多音字消歧方法、装置、设备及存储介质
CN115438674A (zh) * 2022-11-08 2022-12-06 腾讯科技(深圳)有限公司 实体数据处理、实体链接方法、装置和计算机设备
CN116266266B (zh) * 2022-11-08 2024-02-20 美的集团(上海)有限公司 多音字消歧方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110674304A (zh) 实体消歧方法、装置、可读存储介质及电子设备
WO2022022163A1 (zh) 文本分类模型的训练方法、装置、设备及存储介质
CN110309267B (zh) 基于预训练模型的语义检索方法和***
CN112528672B (zh) 一种基于图卷积神经网络的方面级情感分析方法及装置
CN111274394B (zh) 一种实体关系的抽取方法、装置、设备及存储介质
CN106372061B (zh) 基于语义的短文本相似度计算方法
CN108255813B (zh) 一种基于词频-逆文档与crf的文本匹配方法
CN105975454A (zh) 一种网页文本的中文分词方法和装置
Pilehvar et al. Card-660: Cambridge rare word dataset-a reliable benchmark for infrequent word representation models
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN111274814B (zh) 一种新型的半监督文本实体信息抽取方法
CN108733644B (zh) 一种文本情感分析方法、计算机可读存储介质及终端设备
CN110134950B (zh) 一种字词结合的文本自动校对方法
CN110019820B (zh) 一种病历中主诉与现病史症状时间一致性检测方法
CN111160041A (zh) 语义理解方法、装置、电子设备和存储介质
CN109359184B (zh) 英文事件同指消解方法和***
CN113051922A (zh) 一种基于深度学习的三元组抽取方法及***
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及***
CN111079433A (zh) 一种事件抽取方法、装置及电子设备
KR20210125449A (ko) 업계 텍스트를 증분하는 방법, 관련 장치 및 매체에 저장된 컴퓨터 프로그램
CN113779190A (zh) 事件因果关系识别方法、装置、电子设备与存储介质
CN111241848B (zh) 一种基于机器学习的文章阅读理解答案检索方法及装置
CN112183060A (zh) 多轮对话***的指代消解方法
CN114969334B (zh) 异常日志检测方法、装置、电子设备及可读存储介质
CN113988085B (zh) 文本语义相似度匹配方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200110

RJ01 Rejection of invention patent application after publication