CN108959270A - 一种基于深度学习的实体链接方法 - Google Patents
一种基于深度学习的实体链接方法 Download PDFInfo
- Publication number
- CN108959270A CN108959270A CN201810906886.4A CN201810906886A CN108959270A CN 108959270 A CN108959270 A CN 108959270A CN 201810906886 A CN201810906886 A CN 201810906886A CN 108959270 A CN108959270 A CN 108959270A
- Authority
- CN
- China
- Prior art keywords
- entity
- candidate
- vector
- linked
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于深度学习的实体链接方法,包括获取待识别文档中待链接的实体指称,并抽取库中与实体指称对应的候选实体集;计算每个候选实体与实体指称的概念相似度,抽取候选实体集中与实体指称的概念相似度最高的候选实体为待链接实体;获取待链接实体的属性信息,判断待链接实体能否与相应的实体指称进行链接,并将能够链接的待链接实体与实体指称进行链接。本发明能够结合候选实体的属性信息以及概念相似度对候选实体能否与实体指称进行链接进行判断,将确定候选实体与实体指称的概念相似度、候选实体是否链接实体指称两过程进行联合建模,模型训练过程中将自动学习候选实体能否与实体指称进行链接,使判断更加准确。
Description
技术领域
本发明涉及数据库领域,具体为一种基于深度学习的实体链接方法。
背景技术
互联网的迅猛发展使得数字资源随处可见,接触频率最高的信息载体就是文字信息,如新闻、博客、评论等。同时,随着生活节奏的加快,用户对高效阅读的需求更加强烈,数字资源内包含有大量具有明确语义信息的文本实体,如何在文本中高效地获取出实体并加以利用是具有现实意义的事情。特别地,实体链接是利用实体的流程中最为关键的步骤之一。例如,通过分析用户浏览或者分享的数字资源来提取实体并进行知识库链接,将链接过的实体作为关键字或者标签,为用户进行更精准的兴趣建模;再如,在数字资源中增加针对实体的用户可能感兴趣的内容链接,这些链接可能指向实体相关概念解释或者指向另一篇以此实体为主题的新闻,从而提升用户阅读体验;最后,针对数字资源中链接上的实体,可根据对被连接的数字资源进行统计和分析来实现对不同类型如人物、机构等进行舆情监控。
目前,常见的实体链接方法在进行实体指称链接时,仍旧会出现一些问题。如,传统的实体链接方法在进行候选实体筛选时,只考虑实体指称和候选实体的概念相似度,但是如果待识别文本给出的实体指称背景信息不足时无法保证链接到的候选实体为正确实体;当到所有的候选实体都不是待识别文本中的实体时,概念相似度最高的候选实体仍旧会被链接到待识别文档的实体上。同时,在概念相似度的判断上,一般只是通过主题模型抽取关键词,没有获得语义层面上的信息,如果待识别文档中的关键词与实体文档关检测是同一词,就无法进行正确的重合度的衡量;主题模型仅考虑了实体主题层面的高层次语义特征,未考虑低层次细粒度的词级别特征,对背景相似的候选实体也无法较精细区分。
发明内容
本发明的目的是为了提供一种基于深度学习的实体链接方法,能够结合候选实体的属性信息以及概念相似度对候选实体能否与实体指称进行链接进行判断,将确定候选实体与实体指称的概念相似度、候选实体是否链接实体指称两过程进行联合建模,模型训练过程中将自动学习候选实体能否与实体指称进行链接,使得对是否进行链接的判断更加准确。
为了实现上述发明目的,本发明采用了以下技术方案:一种基于深度学习的实体链接方法,包括
S1:获取待识别文档中待链接的实体指称,并抽取库中与所述实体指称对应的候选实体集;
S2:计算候选实体集中每个候选实体与实体指称的概念相似度,抽取候选实体集中与实体指称的概念相似度最高的候选实体为待链接实体;
S3:获取待链接实体的属性信息,结合所述属性信息判断所述待链接实体能否与相应的实体指称进行链接,并将能够链接的待链接实体与实体指称进行链接。
与现有技术相比,采用了上述技术方案的基于深度学习的实体链接方法,具有如下有益效果:
一、采用本发明的基于深度学习的实体链接方法,在抽取候选实体集中与相应的实体指称概念相似度最高的候选实体之后,对该候选实体与实体指称之间是否能够链接进行进一步判断,提高实体链接的准确率。
二、在判断概念相似度最高的候选实体与实体指称是否能够链接时,抽取了该候选实体本身的属性信息作为判断的依据,判断过程中结合了该候选实体本身、候选实体内部词义以及实体指称在候选实体中的上下文等多个不同级别的语义特征,从不同层面对候选实体与实体指称能够链接进行判断,保证本发明实体链接方法的准确性。
三、将候选实体与实体指称的概念相似度计算、最接近的候选实体与实体指称是否连接的两个过程进行联合建模,模型训练过程中将自动学习候选实体能否与实体指称进行链接,使得对是否进行链接的判断更加准确。
优选的,步骤S2中所述计算候选实体集中每个候选实体与实体指称的概念相似度包括:
S21:获取实体指称的指称特征编码;
S22:获取候选实体集中每个候选实体对应的候选实体特征编码;
S23:计算指称特征编码和每个候选实体特征编码之间的编码距离。
优选的,步骤S21中所述获取实体指称的指称特征编码包括:
S211:获取待识别文档的待识别文档向量:
对待识别文档的文本进行分词,查询得到每个分词的词向量,根据所有词向量确定待识别文档向量;
S212:获取待识别文档中实体指称所在句子的上下文向量:
对待识别文档的文本进行分词,获得包含所述实体指称的句子中长度最长的最长句,抽取最长句对应的分词结果集,查询所述分词结果集中每个词的词向量,确定是上下文特征向量集,通过上下文特征向量集确定上下文向量;
S213:根据待识别文档向量和上下文向量确定指称特征编码。
优选的,步骤22中所述获取候选实体集中每个候选实体对应的候选实体特征编码包括:
S221:获取候选实体的特征词向量:
对候选实体的百科页面正文进行分词,抽取分词结果中的特征词集,查询得到特征词集中每个特征词的词向量,根据所有词向量确定特征词向量;
S222:获取候选实体的重合特征向量:
对待识别文档的文本进行分词,抽取该分词结果中与所述特征词集中特征词重合的重合词,查询得到每个重合词的词向量,根据所有词向量确定重合特征向量;
S223:获取候选实体的候选文档向量:
对候选实体的百科页面正文进行分词,查询得到每个分词的词向量,根据所有词向量确定候选文档向量;
S224:根据所述特征词向量、重合特征向量和候选文档向量确定相应候选实体的候选实体特征编码。
优选的,步骤S3中所述获取待链接实体的属性信息包括:
获取待链接实体的统计特征信息:
获取待链接实体的百科页面中的统计信息,对统计信息做对数化处理得到统计特征信息;所述统计信息包括infobox信息、浏览次数、编辑次数、收藏次数、分享次数、参考次数以及通过数学统计直接获取的信息。
优选的,步骤S3中所述获取待链接实体的属性信息还包括:
获取待链接实体的实体类型信息:
获取待链接实体百科页面的词条标签和infobox信息,通过词条标签和infobox信息建立模型确定所述待链接实体的实体类型信息。
优选的,采用欧式距离确定实体指称和候选实体的概念相似度。
优选的,步骤S213中所述根据待识别文档向量和上下文向量确定指称特征编码包括:将待识别文档向量和上下文向量进行拼接和处理得到矩阵,将矩阵通过全连接层得到指称特征编码。
优选的,步骤S224中所述的根据所述特征词向量、重合特征向量和候选文档向量确定相应候选实体的候选实体特征编码包括:将特征词向量、重合特征向量和候选文档向量进行拼接和处理得到矩阵,将矩阵通过全连接层得到候选实体特征编码。
附图说明
图1为本发明基于深度学习的实体链接方法的流程示意图;
图2为本实施例中候选实体的筛选过程图;
图3为本实施例中步骤S2中具体步骤示意图;
图4为本实施例中步骤S3中具体步骤示意图;
图5为本实施例中各个过程量的转换图;
图6为本实施例中从上下文特征向量集到指称特征编码过程的流程图;
图7为本实施例中确定概念相似度的流程图;
图8为本实施例中判断待链接实体能否与实体指称进行连接的流程图;
图9为本实施例中某新闻的链接结果图。
具体实施方式
下面参考附图来更加详细地描述本发明的实施方式。
实施例的提供是为了使本发明更加详尽,并且向本领域技术人员充分的传达保护范围。阐述了众多的特定细节如特定部位、装置的例子,以提供对本发明的实施方式的详尽理解。对于本领域技术人员而言将会明显的是,实施例可以用许多不同的形式来实施而不一定适用这些特定的细节,因此它们都不应该被理解为限制本发明的范围。另外,在本发明的一个附图或者一种实施方式中描述的元素和特征可以与一个或更多个其他附图或实施方式中示出的元素和特征相结合。在某些实施例中,为了清楚目的,没有在附图和说明中详细地进行描述的众所周知的过程、结构和技术。
如图1所示为本发明基于深度学习的实体链接方法整体流程图,图2为本发明候选实体的筛选过程图,能够显示出使用本方法中涉及到的实体指称和候选实体等之间的关系变化。本发明的实体链接方法的步骤大致为:S1获取待识别文档中待链接的实体指称,并抽取库中与所述实体指称对应的候选实体集;S2:计算候选实体集中每个候选实体与实体指称的概念相似度,抽取候选实体集中与实体指称的概念相似度最高的候选实体为待链接实体;S3:获取待链接实体的属性信息,结合所述属性信息判断所述待链接实体能否与相应的实体指称进行链接,并将能够链接的待链接实体与实体指称进行链接。在使用本发明进行实体链接时,运行过程中会产生很多过程量,图5为实体链接过程中各个过程量的转换图。
其中,步骤S1获取待识别文档中待链接的实体指称,并抽取库中与所述实体指称对应的候选实体集。例如,对一篇新闻稿或博客文章等进行实体链接时,这篇新闻稿或者博客文章即为待识别文档,文章中的词即为待链接的实体指称。一般地,待识别文档中存在多个待链接的实体指称。在实体指称确定后可以根据每个实体指称直接在库中进行搜索与该实体指称对应的实体作为候选实体,每个实体指称对应的多个候选实体组成这个实体指称的候选实体集。例如,在待识别文档中,有一待链接的实体指称为“林群”,在百度百科等知识库中能够搜索到的许多同姓名不同身份的多个候选实体,这些候选实体组成实体指称“林群”相对应的候选实体集。上述的库包括但不限于与该方法所应用场景对应的特定知识库,例如***、百度百科、互动百科、搜狗百科等。
如图3所示,在步骤S2中,计算候选实体集中每个候选实体与实体指称的概念相似度的过程包括:
S21获取实体指称的指称特征编码Vj anchor。实体指称编码中包含有待识别文档的整个文档的特征和实体指称在待识别文档中上下文特征。用待识别文档向量V(dj)代表整个待识别文档的特征,用上下文特征向量集表示待识别文档中实体指称的上下文特征。
待识别文档向量V(dj)的获取方法包括但不限于:利用分词工具将待识别文档进行分词,得到待识别文档的分词结果;根据分词结果得到每个分词对应的词向量,得到待识别文档对应的词向量列表;对待识别文档中的所有词向量求平均得到待识别文档向量V(dj)。其中,可以对待识别文档采用Ansj或Hanlp等分词工具进行分词;对分词结果采用词向量训练方法获取对应的词向量,词向量训练方法包括但不限于***的word2vec及相关变种,如Glove,SVD分解以及Gensim word2vec等。
上下文特征向量集的获取方法包括但不限于:从待识别文档的分词结果中抽取包含该实体指称句子的分词结果,统计每个句子的分词长度并且取出长度最长的句子分词结果作为该实体指称的句子上下文。查询该句子中每个分词的词向量,得到最长句的词向量序列,即上下文特征向量集,形式为:[V(s0),V(s1),……,V(si),……,V(sL-1),V(sL)],其中L为句子长度,V(si)为该句第i个词的词向量。
如图6所示为通过上下文特征向量集确定上下文向量并通过和V(dj)确定指称特征编码Vj anchor的流程图。其中,确定上下文向量的方法包括但不限于:将上下文特征向量集通过BI-LSTM网络获取实体指称所在最长句的每个词的隐编码向量其中为前向和后向LSTM网络在第i个词输出的向量,即:
其中,WL为BI-LSTM待训练参数。
与此同时,本实施例将待识别文档的待识别文档向量V(dj)对隐编码向量序列加入注意力模型,得到带注意力的实体指称所在句子的上下文向量 的计算公式为:
其中fAtt为注意力函数,tij为待识别文档向量V(dj)作用于BI-LSTM输出的隐编码向量序列的注意力权值,然后对权值tij进行指数归一化得到aij,将aij与进行加权求和即得到待识别文档中带注意力的实体指称的句子上下文向量其中,注意力函数公式常用以下几种:
注意力模型包括本发明所使用的注意力模型及其变种,注意力函数还包括除上述列举的注意力函数之外的其他各类注意力函数。在本实施例中,隐编码向量序列已为LSTM网络编码后的向量,故直接采用点积v1 Tv2作为注意力函数。
确定带注意力的实体指称句子的上下文向量后,将待识别文档向量V(dj)和上下文向量进行拼接得到矩阵将该矩阵进行2d卷积操作和max-pooling操作得到矩阵Dj’,即:
其中wconv1,bconv1为待训练参数,将矩阵Dj’重构成单行向量得到并接入全连接网络层,全连接采用sigmoid作为激活函数,得到实体指称的包含所有上下文的向量编码Vj anchor,计算公式为:
其中,Wfc1,bfc1为待训练参数。网络层激活函数除本发明中使用的sigmoid函数外,也包括tanh、relu等其他激活函数。
上述步骤S21获取到实体指称的指称特征编码之后,执行步骤S22。
S22:获取候选实体集中每个候选实体对应的候选实体特征编码候选实体特征编码通过相应的候选实体的重合特征向量V(Uk),特征词向量V(fk)以及候选文档向量V(ek)三个向量按行拼接成矩阵,如图7所示,将该矩阵进行2d卷积操作和max-pooling操作,并接入全连接网络层得到实体各类特征的编码向量计算公式为:
其中,Wconv2,bconv2,Wfc2,bfc2为待训练参数。
上述步骤S22获取到候选实体集中每个候选实体对应的候选实体特征编码之后,执行步骤S23。步骤S23计算指称特征编码Vj anchor和每个候选实体的候选实体特征编码之间的距离。在本实施例中,在建立相应实体库时,其中包含有实体参考资料URL,通过实体参考资料URL抓取该网页并提取正文作为实体链接深度学习模型的训练语料。将被参考实例标记为正样本,与该实体指称同名的其他实体标记为负样本。
分别将正负样本实体的特征按照参数共享方式经过以上操作后得到为 采用欧式距离作为距离度量函数,设计三元组损失函数:
其中d为距离函数,本发明采用欧式距离:λ为可调超参数。距离函数d为一种向量间的距离度量方式,本发明采用的欧氏距离为向量范数中的L2范数,可更换其他范数;同时,也可以采用其他概念相似度度量算法,如两向量夹角余弦值后通过取反或取倒数等方法变成距离度量。
在上述步骤S22中,特征词向量V(fk)的获取方法包括但不限于:将候选实体进行分词,抽取分词结果中的特征词集,并得到特征词集中每个特征词的词向量,将该候选实体中的所有特征词向量求平均得到特征词向量V(fk)。其中,特征词主要包括三类:第一类为根据分词工具标注的词性,抽取带有实体词性的词,如Hanlp中包括词性为nr开头的人名相关词性、ns开头的地名相关词性、ni和nt开头的机构名相关词性;第二类为实体百科页面摘要及正文介绍中带有超链接的锚文本;第三类为对实体百科页面的摘要及正文介绍进行关键词抽取方法获得的词。
在上述步骤S22中,重合特征向量V(Uk)的获取方法包括但不限于:从待识别文档的分词结果中抽取与上述特征词集中特征词重合的重合词,查询得到每个重合词的重合词向量,并且对所有重合词向量求平均得到重合特征向量V(Uk)。
在上述步骤S22中,候选文档向量V(ek)的获取方法包括但不限于:候选文档向量V(ek)与上述待识别文档向量V(dj)的获取方法相近似,对候选实体的百科页面正文进行分词,查询得到每个分词的词向量,所有词向量求平均得到候选文档向量
通过上述步骤后,得到待识别文档中的所有实体指称(m1……mn),并且对每个实体指称mi获取相应的多个候选码实体,并将每个候选实体经过计算得到实体指称mi对应的每个候选实体的候选实体特征编码组成的候选实体特征编码序列并计算每个候选实体特征编码与实体指称编码的欧氏距离(dkl……dkx)。
对于一个实体指称,得到的欧氏距离为实体指称与候选实体之间的概念相似度,抽取其中欧式距离最小的对应的待链接实体ei。相应地,对待识别文档中的每个实体指称获取相应的欧式距离最小的待链接实体,组成待链接实体集(e1……en)。
得到每个实体指称相应的最接近的待链接实体后,进行步骤S3获取待链接实体的属性信息,根据候选实体的属性信息判断待链接实体能否和相应的实体指称进行链接,并将能够链接的待链接实体与实体指称进行链接。
结合附图8,对实体指称和待链接实体之间是否能够进行链接的判断方法和候选实体属性信息的获取方法包括但不限于:获取待链接实体的属性信息,将获取到的属性信息和上述候选实体特征编码以及指称特征编码Vj anchor进行按列拼接并输入到全连接层中,用相应的候选实体的正或负样本作为监督信号,设计该网络层的损失函数为交叉熵损失cls_loss,计算函数为:
cls_loss=-∑kPklog(Qk)
其中Wfc3,bfc3为待训练参数,di为向量Qk的维度,由于网络输出用于预测正负样本,因此Qk维度大小为2,Pk为该实体属于正或负样本的基于one-hot表达的监督向量,若该候选实体为被参考实体则为正样本,Pk=[0,1],若该候选实体为被参考实体的其他同名实体则为负样本,Pk=[1,0]。
其中,候选实体中的属性信息包括统计特征信息和实体类型信息其中,统计特征信息为待链接实体的百科页面中的统计信息,对统计信息做对数化处理得到统计特征;所述统计特征信息包括百科页面的infobox信息、浏览次数、编辑次数、收藏次数、分享次数、参考次数以及通过数学统计直接获取的特征等,能够通过数学统计直接获取的特征包括但不限于:实体百科页面段落数、摘要长度、百科页面正文中超链接数量以及实体被引用次数等。实体类型信息通过词条标签和infobox信息建立模型确定。实体类型信息中包含有该实体的类型,如实体周杰伦百科页面中词条标签包括“歌手”、“人物”,而阿里巴巴的百科页面中词条标签包含“公司”,根据这些标签即可通过规则或模型设计实体的类型,本发明中实体类型包含人物、机构、地点三种类型,在必要时,可以根据不同场景需要设计不同的实体类型,如可扩展实体类型为书籍、电影、音乐等类型。本发明中加入了实体类型信息,目的是使模型对不同类型的实体特征进行区别对待,如与地址或机构类型实体相比人物实体的统计信息较大且百科正文也更丰富,模型将根据不同实体类型信息学习不同权重。
采用本实施例中的方法对实体进行链接前需要进行预处理,对库中的样本采用Mini-batch方式随机抽取正样本实体,对应的负样本实体及实体百科参考资料,及正样本实体对应的负样本实体,根据前述的三元组损失函数首先对用于概念相似度计算的网络结构进行预训练,保证指称特征编码和候选实体特征编码能得到较稳定的表达,然后对链接判断的网络结果进行预训练,最后再将两个网络进行联合训练。
图9如某篇新闻《***原***出任“扫黑钦差”》在经过本发明所述实体链接后得到的链接结果。从图中可以看出,本发明的实体链接方法从这篇新闻中抽取出了三种类型的实体指称,类型为人物、地点以及机构,实体指称链接有对应的实体。
以上所述是本发明的优选实施方式,对于本领域的普通技术人员来说不脱离本发明原理的前提下,还可以做出若干变型和改进,这些也应视为本发明的保护范围。
Claims (9)
1.一种基于深度学习的实体链接方法,其特征在于:包括
S1:获取待识别文档中待链接的实体指称,并抽取库中与所述实体指称对应的候选实体集;
S2:计算候选实体集中每个候选实体与实体指称的概念相似度,抽取候选实体集中与实体指称的概念相似度最高的候选实体为待链接实体;
S3:获取待链接实体的属性信息,结合所述属性信息判断所述待链接实体能否与相应的实体指称进行链接,并将能够链接的待链接实体与实体指称进行链接。
2.根据权利要求1所述的基于深度学习的实体链接方法,其特征在于:步骤S2中所述计算候选实体集中每个候选实体与实体指称的概念相似度包括:
S21:获取实体指称的指称特征编码;
S22:获取候选实体集中每个候选实体对应的候选实体特征编码;
S23:计算指称特征编码和每个候选实体特征编码之间的编码距离。
3.根据权利要求2所述的基于深度学习的实体链接方法,其特征在于:步骤S21中所述获取实体指称的指称特征编码包括:
S211:获取待识别文档的待识别文档向量:
对待识别文档的文本进行分词,查询得到每个分词的词向量,根据所有词向量确定待识别文档向量;
S212:获取待识别文档中实体指称所在句子的上下文向量:
对待识别文档的文本进行分词,获得包含所述实体指称的句子中长度最长的最长句,抽取最长句对应的分词结果集,查询所述分词结果集中每个词的词向量,确定是上下文特征向量集,通过上下文特征向量集确定上下文向量;
S213:根据待识别文档向量和上下文向量确定指称特征编码。
4.根据权利要求2或3所述的基于深度学习的实体链接方法,其特征在于:步骤22中所述获取候选实体集中每个候选实体对应的候选实体特征编码包括:
S221:获取候选实体的特征词向量:
对候选实体的百科页面正文进行分词,抽取分词结果中的特征词集,查询得到特征词集中每个特征词的词向量,根据所有词向量确定特征词向量;
S222:获取候选实体的重合特征向量:
对待识别文档的文本进行分词,抽取该分词结果中与所述特征词集中特征词重合的重合词,查询得到每个重合词的词向量,根据所有词向量确定重合特征向量;
S223:获取候选实体的候选文档向量:
对候选实体的百科页面正文进行分词,查询得到每个分词的词向量,根据所有词向量确定候选文档向量;
S224:根据所述特征词向量、重合特征向量和候选文档向量确定相应候选实体的候选实体特征编码。
5.根据权利要求1至4中任意一项所述的基于深度学习的实体链接方法,其特征在于:步骤S3中所述获取待链接实体的属性信息包括:
获取待链接实体的统计特征信息:
获取待链接实体的百科页面中的统计信息,对统计信息做对数化处理得到统计特征信息;所述统计信息包括infobox信息、浏览次数、编辑次数、收藏次数、分享次数、参考次数以及通过数学统计直接获取的信息。
6.根据权利要求5所述的基于深度学习的实体链接方法,其特征在于:步骤S3中所述获取待链接实体的属性信息还包括:
获取待链接实体的实体类型信息:
获取待链接实体百科页面的词条标签和infobox信息,通过词条标签和infobox信息建立模型确定所述待链接实体的实体类型信息。
7.根据权利要求1至4中所述的任意一项基于深度学习的实体链接方法,其特征在于:采用欧式距离确定实体指称和候选实体的概念相似度。
8.根据权利要求3所述的基于深度学习的实体链接方法,其特征在于:步骤S213中所述根据待识别文档向量和上下文向量确定指称特征编码包括:将待识别文档向量和上下文向量进行拼接和处理得到矩阵,将矩阵通过全连接层得到指称特征编码。
9.根据权利要求4所述的基于深度学习的实体链接方法,其特征在于:步骤S224中所述的根据所述特征词向量、重合特征向量和候选文档向量确定相应候选实体的候选实体特征编码包括:将特征词向量、重合特征向量和候选文档向量进行拼接和处理得到矩阵,将矩阵通过全连接层得到候选实体特征编码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810906886.4A CN108959270B (zh) | 2018-08-10 | 2018-08-10 | 一种基于深度学习的实体链接方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810906886.4A CN108959270B (zh) | 2018-08-10 | 2018-08-10 | 一种基于深度学习的实体链接方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108959270A true CN108959270A (zh) | 2018-12-07 |
CN108959270B CN108959270B (zh) | 2022-08-19 |
Family
ID=64468740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810906886.4A Active CN108959270B (zh) | 2018-08-10 | 2018-08-10 | 一种基于深度学习的实体链接方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108959270B (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109857871A (zh) * | 2019-01-28 | 2019-06-07 | 重庆邮电大学 | 一种基于社交网络海量情景数据的用户关系发现方法 |
CN110427436A (zh) * | 2019-07-31 | 2019-11-08 | 北京百度网讯科技有限公司 | 实体相似度计算的方法及装置 |
CN110879861A (zh) * | 2019-09-05 | 2020-03-13 | 国家计算机网络与信息安全管理中心 | 基于表示学习的相似移动应用计算方法及装置 |
CN110991187A (zh) * | 2019-12-05 | 2020-04-10 | 北京奇艺世纪科技有限公司 | 一种实体链接的方法、装置、电子设备及介质 |
CN111062214A (zh) * | 2019-11-25 | 2020-04-24 | 中国科学院计算技术研究所 | 基于深度学习的集成实体链接方法及*** |
CN111104520A (zh) * | 2019-11-21 | 2020-05-05 | 新华智云科技有限公司 | 一种基于人物身份的人物实体链接方法 |
CN111159485A (zh) * | 2019-12-30 | 2020-05-15 | 科大讯飞(苏州)科技有限公司 | 尾实体链接方法、装置、服务器及存储介质 |
CN111339737A (zh) * | 2020-02-27 | 2020-06-26 | 北京声智科技有限公司 | 实体链接方法、装置、设备及存储介质 |
CN111428443A (zh) * | 2020-04-15 | 2020-07-17 | 中国电子科技网络信息安全有限公司 | 一种基于实体上下文语义交互的实体链接方法 |
CN111581973A (zh) * | 2020-04-24 | 2020-08-25 | 中国科学院空天信息创新研究院 | 一种实体消歧方法及*** |
CN111737430A (zh) * | 2020-06-16 | 2020-10-02 | 北京百度网讯科技有限公司 | 实体链接方法、装置、设备以及存储介质 |
CN112036171A (zh) * | 2020-09-04 | 2020-12-04 | 平安科技(深圳)有限公司 | 医学特定指称及其关系的抽取方法、***及装置 |
CN112084777A (zh) * | 2020-09-03 | 2020-12-15 | 新华智云科技有限公司 | 一种实体链接方法 |
CN112465036A (zh) * | 2020-11-30 | 2021-03-09 | 上海寻梦信息技术有限公司 | 地址匹配模型的训练方法、代收地址确定方法及相关设备 |
CN112560485A (zh) * | 2020-11-24 | 2021-03-26 | 北京三快在线科技有限公司 | 一种实体链接方法、装置、电子设备及存储介质 |
CN112989235A (zh) * | 2021-03-09 | 2021-06-18 | 北京百度网讯科技有限公司 | 基于知识库的内链构建方法、装置、设备和存储介质 |
CN113420224A (zh) * | 2021-07-19 | 2021-09-21 | 北京字节跳动网络技术有限公司 | 一种信息处理的方法、装置以及计算机存储介质 |
CN113779225A (zh) * | 2021-09-17 | 2021-12-10 | 工银科技有限公司 | 实体链接模型的训练方法、实体链接方法及装置 |
CN114090795A (zh) * | 2022-01-11 | 2022-02-25 | 北京壬工智能科技有限公司 | 基于装备知识图谱的双向交互智能服务***和方法 |
CN114594891A (zh) * | 2022-03-09 | 2022-06-07 | 北京百度网讯科技有限公司 | 文档数据处理方法、装置、电子设备及介质 |
CN114647739A (zh) * | 2022-02-25 | 2022-06-21 | 北京百度网讯科技有限公司 | 实体链指方法、装置、电子设备及存储介质 |
CN115062619A (zh) * | 2022-08-11 | 2022-09-16 | 中国人民解放军国防科技大学 | 中文实体链接方法、装置、设备及存储介质 |
WO2023010514A1 (en) * | 2021-08-06 | 2023-02-09 | Robert Bosch Gmbh | Method for establishing knowledge repository for online courses |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295796A (zh) * | 2016-07-22 | 2017-01-04 | 浙江大学 | 基于深度学习的实体链接方法 |
EP3156949A2 (en) * | 2015-10-16 | 2017-04-19 | Baidu USA LLC | Systems and methods for human inspired simple question answering (hisqa) |
CN107368468A (zh) * | 2017-06-06 | 2017-11-21 | 广东广业开元科技有限公司 | 一种运维知识图谱的生成方法及*** |
CN107783973A (zh) * | 2016-08-24 | 2018-03-09 | 慧科讯业有限公司 | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和*** |
CN108304552A (zh) * | 2018-02-01 | 2018-07-20 | 浙江大学 | 一种基于知识库特征抽取的命名实体链接方法 |
-
2018
- 2018-08-10 CN CN201810906886.4A patent/CN108959270B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3156949A2 (en) * | 2015-10-16 | 2017-04-19 | Baidu USA LLC | Systems and methods for human inspired simple question answering (hisqa) |
CN106295796A (zh) * | 2016-07-22 | 2017-01-04 | 浙江大学 | 基于深度学习的实体链接方法 |
CN107783973A (zh) * | 2016-08-24 | 2018-03-09 | 慧科讯业有限公司 | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和*** |
CN107368468A (zh) * | 2017-06-06 | 2017-11-21 | 广东广业开元科技有限公司 | 一种运维知识图谱的生成方法及*** |
CN108304552A (zh) * | 2018-02-01 | 2018-07-20 | 浙江大学 | 一种基于知识库特征抽取的命名实体链接方法 |
Non-Patent Citations (1)
Title |
---|
张震宇: "基于深度学习的实体链接方法", 《中国优秀博硕士学位论文全文数据库(硕士)》 * |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109857871B (zh) * | 2019-01-28 | 2021-04-20 | 重庆邮电大学 | 一种基于社交网络海量情景数据的用户关系发现方法 |
CN109857871A (zh) * | 2019-01-28 | 2019-06-07 | 重庆邮电大学 | 一种基于社交网络海量情景数据的用户关系发现方法 |
CN110427436A (zh) * | 2019-07-31 | 2019-11-08 | 北京百度网讯科技有限公司 | 实体相似度计算的方法及装置 |
CN110427436B (zh) * | 2019-07-31 | 2022-03-22 | 北京百度网讯科技有限公司 | 实体相似度计算的方法及装置 |
CN110879861A (zh) * | 2019-09-05 | 2020-03-13 | 国家计算机网络与信息安全管理中心 | 基于表示学习的相似移动应用计算方法及装置 |
CN110879861B (zh) * | 2019-09-05 | 2023-07-14 | 国家计算机网络与信息安全管理中心 | 基于表示学习的相似移动应用计算方法及装置 |
CN111104520A (zh) * | 2019-11-21 | 2020-05-05 | 新华智云科技有限公司 | 一种基于人物身份的人物实体链接方法 |
CN111062214A (zh) * | 2019-11-25 | 2020-04-24 | 中国科学院计算技术研究所 | 基于深度学习的集成实体链接方法及*** |
CN110991187A (zh) * | 2019-12-05 | 2020-04-10 | 北京奇艺世纪科技有限公司 | 一种实体链接的方法、装置、电子设备及介质 |
CN110991187B (zh) * | 2019-12-05 | 2024-03-08 | 北京奇艺世纪科技有限公司 | 一种实体链接的方法、装置、电子设备及介质 |
CN111159485A (zh) * | 2019-12-30 | 2020-05-15 | 科大讯飞(苏州)科技有限公司 | 尾实体链接方法、装置、服务器及存储介质 |
CN111159485B (zh) * | 2019-12-30 | 2020-11-13 | 科大讯飞(苏州)科技有限公司 | 尾实体链接方法、装置、服务器及存储介质 |
CN111339737A (zh) * | 2020-02-27 | 2020-06-26 | 北京声智科技有限公司 | 实体链接方法、装置、设备及存储介质 |
CN111339737B (zh) * | 2020-02-27 | 2023-12-12 | 北京声智科技有限公司 | 实体链接方法、装置、设备及存储介质 |
CN111428443A (zh) * | 2020-04-15 | 2020-07-17 | 中国电子科技网络信息安全有限公司 | 一种基于实体上下文语义交互的实体链接方法 |
CN111581973B (zh) * | 2020-04-24 | 2020-12-29 | 中国科学院空天信息创新研究院 | 一种实体消歧方法及*** |
CN111581973A (zh) * | 2020-04-24 | 2020-08-25 | 中国科学院空天信息创新研究院 | 一种实体消歧方法及*** |
CN111737430A (zh) * | 2020-06-16 | 2020-10-02 | 北京百度网讯科技有限公司 | 实体链接方法、装置、设备以及存储介质 |
CN111737430B (zh) * | 2020-06-16 | 2024-04-05 | 北京百度网讯科技有限公司 | 实体链接方法、装置、设备以及存储介质 |
CN112084777A (zh) * | 2020-09-03 | 2020-12-15 | 新华智云科技有限公司 | 一种实体链接方法 |
CN112084777B (zh) * | 2020-09-03 | 2023-09-01 | 新华智云科技有限公司 | 一种实体链接方法 |
CN112036171A (zh) * | 2020-09-04 | 2020-12-04 | 平安科技(深圳)有限公司 | 医学特定指称及其关系的抽取方法、***及装置 |
CN112560485A (zh) * | 2020-11-24 | 2021-03-26 | 北京三快在线科技有限公司 | 一种实体链接方法、装置、电子设备及存储介质 |
CN112560485B (zh) * | 2020-11-24 | 2023-04-14 | 北京三快在线科技有限公司 | 一种实体链接方法、装置、电子设备及存储介质 |
CN112465036A (zh) * | 2020-11-30 | 2021-03-09 | 上海寻梦信息技术有限公司 | 地址匹配模型的训练方法、代收地址确定方法及相关设备 |
CN112989235A (zh) * | 2021-03-09 | 2021-06-18 | 北京百度网讯科技有限公司 | 基于知识库的内链构建方法、装置、设备和存储介质 |
CN112989235B (zh) * | 2021-03-09 | 2023-08-01 | 北京百度网讯科技有限公司 | 基于知识库的内链构建方法、装置、设备和存储介质 |
CN113420224A (zh) * | 2021-07-19 | 2021-09-21 | 北京字节跳动网络技术有限公司 | 一种信息处理的方法、装置以及计算机存储介质 |
WO2023010514A1 (en) * | 2021-08-06 | 2023-02-09 | Robert Bosch Gmbh | Method for establishing knowledge repository for online courses |
CN113779225A (zh) * | 2021-09-17 | 2021-12-10 | 工银科技有限公司 | 实体链接模型的训练方法、实体链接方法及装置 |
CN114090795A (zh) * | 2022-01-11 | 2022-02-25 | 北京壬工智能科技有限公司 | 基于装备知识图谱的双向交互智能服务***和方法 |
CN114647739B (zh) * | 2022-02-25 | 2023-02-28 | 北京百度网讯科技有限公司 | 实体链指方法、装置、电子设备及存储介质 |
CN114647739A (zh) * | 2022-02-25 | 2022-06-21 | 北京百度网讯科技有限公司 | 实体链指方法、装置、电子设备及存储介质 |
CN114594891A (zh) * | 2022-03-09 | 2022-06-07 | 北京百度网讯科技有限公司 | 文档数据处理方法、装置、电子设备及介质 |
CN114594891B (zh) * | 2022-03-09 | 2023-12-22 | 北京百度网讯科技有限公司 | 文档数据处理方法、装置、电子设备及介质 |
CN115062619A (zh) * | 2022-08-11 | 2022-09-16 | 中国人民解放军国防科技大学 | 中文实体链接方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108959270B (zh) | 2022-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959270A (zh) | 一种基于深度学习的实体链接方法 | |
Nguyen et al. | Hierarchical embeddings for hypernymy detection and directionality | |
CN111444326B (zh) | 一种文本数据处理方法、装置、设备以及存储介质 | |
CN108595708A (zh) | 一种基于知识图谱的异常信息文本分类方法 | |
CN106855853A (zh) | 基于深度神经网络的实体关系抽取*** | |
CN108804529A (zh) | 一种基于Web的问答***实现方法 | |
CN112766359B (zh) | 一种面向食品安全舆情的字词双维度微博谣言识别方法 | |
CN111091009B (zh) | 一种基于语义分析的文档关联审核方法 | |
CN108280057A (zh) | 一种基于blstm的微博谣言检测方法 | |
Najafi et al. | Text-to-Text Transformer in Authorship Verification Via Stylistic and Semantical Analysis. | |
CN110297986A (zh) | 一种微博热点话题的情感倾向分析方法 | |
Bastan et al. | Author's sentiment prediction | |
CN110688540B (zh) | 一种作弊账户筛选方法、装置、设备及介质 | |
Mohan et al. | Sarcasm detection using bidirectional encoder representations from transformers and graph convolutional networks | |
CN113779249B (zh) | 跨领域文本情感分类方法、装置、存储介质以及电子设备 | |
CN114547303A (zh) | 基于Bert-LSTM的文本多特征分类方法及装置 | |
CN107562774A (zh) | 小语种词嵌入模型的生成方法、***及问答方法和*** | |
US20210165791A1 (en) | Method and apparatus for building a paraphrasing model for question-answering | |
CN111368524A (zh) | 一种基于自注意力双向gru和svm的微博观点句识别方法 | |
CN116384379A (zh) | 一种基于深度学习的中文临床术语标准化方法 | |
CN116975275A (zh) | 多语种文本分类模型训练方法、装置和计算机设备 | |
Jiang et al. | Difm: An effective deep interaction and fusion model for sentence matching | |
CN110019814A (zh) | 一种基于数据挖掘与深度学习的新闻信息聚合方法 | |
Roman et al. | Investigating maps of science using contextual proximity of citations based on deep contextualized word representation | |
Li et al. | SCX-SD: semi-supervised method for contextual sarcasm detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |