CN107506486A - 一种基于实体链接的关系扩充方法 - Google Patents
一种基于实体链接的关系扩充方法 Download PDFInfo
- Publication number
- CN107506486A CN107506486A CN201710858346.9A CN201710858346A CN107506486A CN 107506486 A CN107506486 A CN 107506486A CN 201710858346 A CN201710858346 A CN 201710858346A CN 107506486 A CN107506486 A CN 107506486A
- Authority
- CN
- China
- Prior art keywords
- entity
- relation
- mrow
- candidate
- msub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于实体链接的关系扩充方法,本发明采用实体链接的技术手段,将自然语言中的文本链接到知识库中对应的实体上,将信息框属性值中未标注的实体识别出来,依据候选实体类型与关系两端的实体类型匹配度,利用百科词条的标签***作为实体的类型,通过统计规约得到关系两端的关系类型。同时,本发明采用了模型融合的方法对候选实体的排序,将非线性的提升(boosting)集成模型的优势融合线性模型中,提高模型性能,保证关系的准确性。通过本发明可以有效地识别出信息框中未链接的实体,并解决同名实体和实体别名等问题,与目标实体建立关系,实现关系扩充。
Description
技术领域
本发明涉及一种关系扩充方法,尤其涉及一种基于实体链接的关系扩充方法。
背景技术
近年来,为了解决互联网信息的语义问题,提出了语义万维网,即包含大量描述各种实体和实体之间丰富关系的万维网,将网络上的事物都理解为一个实体,拥有唯一的统一资源标识符(URI),这些实体之间有语义链接,可以让机器理解文本。基于此,各大搜索引擎公司都发布了知识图谱,旨在满足用户日益提高的搜索要求,提高用户体验。知识图谱也称知识库,其本质就是一种由概念、实体、属性、关系等多个元素构成的机器可读的语义网络,以结构化的方式将实体及其关系组织起来。目前,用自动化或半自动化的方法建立起了多个大型知识库,用于知识问答、知识推理和知识推理等。知名的知识库诸如谷歌知识图谱、DBpedia和Freebase等。其中,百科类网站是构建知识库的一个最重要的来源,其结构化程度高、知识覆盖面领域广、信息更新速度快,每个词条中都含有描述该实体的丰富信息,除了非结构化的基本文本内容之外,还包含描述实体属性的信息框,以属性-值对的形式描述词条实体的属性和关系,其中属性值可能含有链接指向其他实体,是建立知识库的一个重要来源。大型知识库例如DBpedia是从英文维基的信息框进行实体的关系提取,将属性值中带有超链接的指向其他实体的抽取为关系,然后将它们转化为资源描述框架(RDF)三元组。
然而,依靠现有技术从中文百科的信息框中抽取知识时,相较于英文维基,其内链很不完整,仅很小一部分实体被标注出超链接,丢失了很多语义关系,所以需要补全缺失的链接来扩充关系。比如在实体“青藏高原”的信息框里,“歌曲原唱”这个关系的属性值“李娜”,但是“李娜”仅仅是以一个字符串的形式出现的,并没有并链接到“歌手李娜”相应的实体上。
现有技术解决此问题的方法主要分为两种:一种是通过字符串匹配属性值和实体名称,具体来说,如果存在一个实体的名称可以和该属性值匹配上,就建立一个关系,这种方法仅仅是用字符串匹配。但是,由于自然语言的多样性和歧义性,同一实体具有不同的表达(实体名的变形),而且同一实体名可能对应不同实体(同名实体的消歧),这种方法可能会导致错误;另一种方法是利用排序模型,抽取若干个特征,对所有的候选实体进行排序,但是没有考虑实体的类型信息,导致对于同一类别下的实体结果很差。
发明内容
本发明采用实体链接的技术手段,将自然语言中的文本链接到知识库中对应的实体上,将信息框属性值中未标注的实体识别出来,依据候选实体类型与关系两端的实体类型匹配度,利用百科词条的标签***作为实体的类型,通过统计规约得到关系两端的关系类型。同时,本发明采用了模型融合的方法对候选实体的排序,将非线性的提升(boosting)集成模型的优势融合线性模型中,提高模型性能,保证关系的准确性。通过本发明可以有效地识别出信息框中未链接的实体,并解决同名实体和实体别名等问题,与目标实体建立关系,实现关系扩充。
附图说明
图1为本发明的运行流程图。
图2为本发明实施例的模型融合图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供了一种基于实体链接技术的关系扩充方法。如图1所示为本方法的框图,包括三个模块:候选集生成模块、特征抽取模块和排序模块。
给定一个主题实体ei,其信息框(infobox)的属性rj的属性值中存在可能指向某一实体的实体名mj。表示所有可能被链接的候选实体,任务是从所有的候选实体中找到真正要被链接的目标实体。
候选集生成模块实现所有候选集合体的生成,所述候选实体集的生成主要是基于实体名mj和知识库中实体名的字符串相似度得到。为了生成可能指向的所有候选实体本发明抽取百科中信息来建立实体名和实体之间的映射,比如词条本身、消歧页面、词条文本中的超链接锚文本及信息框(infobox)中“别名”属性等,生成一个实体名-实体字典D。表1为所述实体词-实体映射字典D,字典中的每一项<键(key),值(value),次数(count)>表示实体名、对应的实体候选集及该实体名下对应实体出现的次数。其中,次数可以体现实体的知名度。有了实体名-实体字典后,就可以识别出尚未被链接的属性值m,然后在字典中找到其对应的所有候选实体Em。
表1
百科中的每个词条描述的是一个实体,包含了实体的各种信息。其中,词条的标题即是该实体最标准的名字,本发明抽取词条页面的标题为字典D的键(key),其所描述实体的统一资源标识符(URI)作为值(value)加入到字典D中。值得注意的是,在百科中,如果有同名实体,为了防止歧义,是通过括号来标识的。比如,实体“运动员李娜”的词条页面中,标题是“李娜(中国女子网球名将)”,这种情况,会将括号去掉作为键,即将“李娜”为键,实体“运动员李娜”的统一资源标识符作为值。
百科中的不同实体可能会有相同的名字,所述候选集生成模块的消歧页面就是用于区分有相同实体名的不同实体的。例如,在实体名“李娜”的消歧页面中出现了47个不同的实体,包括了实体“运动员李娜”和“歌手李娜”等多个实体。
百科词条的文本中通常包含超链接信息将文本中出现的实体名链接到对应的实体上,这个信息提供了所指向实体的别名、实体名的变形及实体被提及的次数等很有用的信息;同时,也可从中抽取出该实体名下对应实体出现的次数,如果某一实体在文本中提及到的次数越多,则说明知名度越高,比如,当提到实体“李娜”时,大家首先想到的是实体“运动员李娜”而不是其他同名的实体,所以次数信息可以很好的反映实体知名度,这一信息有助于判断实体“运动员李娜”比其他同名的“李娜”实体更有可能成为被链接的对象。
在大部分信息框中,都会有实体的“别名”属性,来描述实体别名、简称、外文名等实体名的变异信息,抽取这部分数据就可以识别出实体名中实体名的变异名称,提高关系扩充的召回率。比如,在实体“沙奎尔·奥尼尔”的别名有“大鲨鱼”,这说明,当提到“大鲨鱼”这个字符串时,它有可能被链接到“沙奎尔·奥尼尔”这个实体上。
实体名-实体字典D建立后,从D中检索出mj对应的候选实体然而存在多个候选实体,即大于1,因此对每个候选实体的排序至关重要。抽取特征表征候选实体与mj、ei及rj的关联性,然后采用成对(pairwise)的排序模型对候选实体进行打分,取得分最高的作为目标实体,与ei建立关系,生成新的知识。本发明根据信息框(infobox)的特点,从候选实体本身、实体之间的语义和文本关联度、关系-实体类型这三个角度设计特征提取模块来体现候选实体的匹配程度。
为了形式化地表示特征函数,表示ei的信息框(infobox)中已有链接的实体,表示ei的文本中有超链接的实体,表示ei摘要信息中有超链接的实体,表示存在关系rj的实体。表2为候选实体的特征定义。
表2
实体相关特征:包括f1-f4,这类特征仅仅依赖于候选实体和对应的关系与主题实体。实体知名度Popularity(ej)是从实体词-实体映射字典可以得到实体词mj到实体ej的条件概率P(ej|mj),即实体词mj指代实体ej的先验概率
其中,count(mj)指在超链接锚文本中mj出现的总次数,count(mj,ej)指锚文本mj链接到实体ej的次数。
上下文关联特征:包括f5-f8,主要编码候选实体与主题实体和实体词的语义关联度及文本相似性。具体来说,采用基于百科超链接结构来计算实体之间的语义关联度,给定两个实体ei和ej,获取其语义关联度的方式如下:
其中,和分别是链向ei和ej的实体集合,W是百科中的所有实体。可以看出,公式(1)是杰卡德(Jaccard)相似系数的变形,两个实体的共同入链数越多,则语义关联度越高。获取候选实体ej与实体集合Tei之间的语义关联度的方式如下:
类似的,可以用Iei,Aei和Erj来替代Tei得到候选实体与其他实体集合的语义关联度,相应地得到f6、f7和f10。此外,还可以定义候选实体的描述信息和主题实体ei描述信息的文本相似度,采用词袋模型(Bag of Words)来表示文本,频率-反文档频率(TF-IDF)表示权重向量,然后用余弦相似度来衡量向量的匹配程度。
关系-实体类型特征:包括f9-f11,当候选实体的类型一样时,上述的特征就很难具有辨识性,所以本发明提出考虑关系左右两边的实体类型,即<主题实体类型,关系,目标实体类型>。比如,给定一个关系“代表作品”,如果主题实体的类型是“歌手”,则被链接的实体类型很可能是“歌曲”;而如果主题实体的类型是“演员”,那目标实体类型更可能属于“影视作品”。这样如果能精确地定义出关系两边实体的类型,就可以在给定主题实体和关系时,考察每个候选实体类型是否匹配。为了定义这个特征,本发明中将百科的标签信息作为实体类型,然后枚举和这个关系相连的所有实体类型并统计次数。表3中展示了关系“代表作品”和其左右两边对应的实体类型。
表3
这样,假设Type(ei)为实体ei的类型给定一个主题实体ei和关系rj,获取候选实体ej得到的实体类型得分如下:
本发明给每个候选实体生成一个向量然后定义一个打分函数f(m,e)=(f1,f2,...,f11),对每个候选实体进行打分sof(m,e),将得分最高的实体作为要链接的目标实体,与主题实体建立关系。本文采用成对的(pairwise)训练方法来学习排序模型的参数,模型的训练目标是使正确实体获得比错误实体更高的得分。用ei>ej表示实体ei的排名更高,这样可以得到训练实体对<ei,ej>,对所有实体对进行分类就可以得到候选实体的一个偏序关系,从而实现排序。
本发明在排序时引入两种模型,采用梯度提升决策树和逻辑回归来训练排序模型,模型融合的方案如图2所示。训练得到候选实体间的排序关系。其中,非线性的梯度提升决策树模型(GBDT)可以学习高维特征,作为原始特征的补充,最终输入到线性模型里,对所有的候选实体进行打分,取得分最高的作为要建立关系的目标实体。
采用原始特征训练出梯度提升决策树模型,获得的所有树的叶子节点就是其生成的特征空间,当每个样本点经过梯度提升决策树模型的每棵树时,会落到一个叶子节点,即产生一个中间特征。所述梯度提升决策树模型由多颗树组成,每次迭代都是在减少残差的梯度方向上新建立一颗决策树,最后累加所有树的结果。所有这些特征以及原始特征交叉再一起输入到线性模型逻辑回归分类模型(LR)中得到排序关系。梯度提升决策树模型可以发掘出更加有区分度的特征,将两种模型融合在一起,可以有效提升模型的泛化能力。所述梯度提升决策树中采用指数损失函数,逻辑回归分类模型通过激活函数(Sigmoid函数)来表示ei比ej排名更高的概率为:
模型参数的训练过程为,首先是梯度提升决策树(MART)的训练过程,每次迭代时新树的生成去拟合损失函数负梯度方向上的参数rmi,得到每个叶子上拟合的值cmj。生成梯度提升决策树模型树模型之后,得到新转换后的特征对应的训练数据T′,最后,将交叉熵作为损失函数进行拟合真实的标签(label),并采用梯度下降的方法去获得模型参数W。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种基于实体链接的关系扩充方法,其特征在于,所述方法包括将信息框内获取的信息,通过候选集生成模块生成一个实体名-实体字典,根据所述实体名-实体字典识别出尚未被链接的属性值m,找到其对应的所有候选实体Em,然后通过特征抽取模块抽取候选实体与实体名、主题实体及属性的关联性,最后通过排序模块对每个候选实体进行打分,将得分最高的实体作为要链接的目标实体,将所述目标实体与主题实体建立关系。
2.如权利要求1所述的方法,其特征在于,所述候选集生成模块中抽取百科中信息来建立实体名和实体之间的映射,所述信息包括词条本身、消歧页面、词条文本中的超链接锚文本及别名属性等,生成实体名-实体字典,所述字典中的每一项<键(key),值(value),次数(count)>表示实体名、对应的实体候选集及该实体名下对应实体出现的次数,所述次数体现实体的知名度,通过所述实体名-实体字典识别出尚未被链接的属性值m,然后找到其对应的所有候选实体Em。
3.如权利要求1所述的方法,其特征在于,所述特征抽取模块根据信息框(infobox)的特点,从候选实体本身、实体之间的语义和文本关联度、关系-实体类型三个角度进行提取抽取以体现候选实体的匹配程度,所述被抽取特征为实体相关特征,上下文关联特征,关系-实体类型特征。
4.如权利要求3所述的方法,其特征在于,所述实体相关特征包括实体ej的知名度、实体ei和实体ej的共现次数、实体ej是否在实体ei文本中出现过、实体ei是否在ej文本中出现过,获取实体词mj指代实体ej的先验概率的方式为:
<mrow>
<msub>
<mi>f</mi>
<mn>1</mn>
</msub>
<mo>=</mo>
<mi>P</mi>
<mi>o</mi>
<mi>u</mi>
<mi>l</mi>
<mi>a</mi>
<mi>r</mi>
<mi>t</mi>
<mi>i</mi>
<mi>t</mi>
<mi>y</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>e</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>c</mi>
<mi>o</mi>
<mi>u</mi>
<mi>n</mi>
<mi>t</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>m</mi>
<mi>j</mi>
</msub>
<mo>,</mo>
<msub>
<mi>e</mi>
<mi>j</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>c</mi>
<mi>o</mi>
<mi>u</mi>
<mi>n</mi>
<mi>t</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>m</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
其中,count(mj)为超链接锚文本中mj出现的总次数,count(mj,ej)为锚文本mj链接到实体ej的次数;所述上下文关联特征包括ej和中实体的平均语义关联度,ej和中实体的平均语义关联度,ej和中实体的平均语义关联度,ej和ei的文本相似度,所述为ei的信息框(infobox)中已有链接的实体,所述为ei的文本中有超链接的实体,所述为ei摘要信息中有超链接的实体,获取两个实体ei和ej语义关联度SR的方式为:
其中,所述和所述分别是链向ei和ej的实体集合,所述W是百科中的所有实体;所述关系-实体类型特征包括给定rj时,ej和rj两端的实体类型匹配度,ej和中实体的平均语义关联度,ej和中实体的共有属性个数,所述表示存在所述关系rj的实体,所述关系-实体类型特征的提取是将百科的标签信息作为实体类型,枚举和给定关系相连的所有实体类型并统计次数。
5.如权利要求1所述的方法,其特征在于,所述排序模块采用成对的训练方法来学习排序模型的参数,模型的训练目标使正确实体获得比错误实体更高的得分,ei>ej表示实体ei的排名更高,从而得到训练的实体对<ei,ej>,对所有所述实体对<ei,ej>进行分类就可以得到候选实体的一个偏序关系,从而实现排序。
6.如权利要求5所述的方法,其特征在于,所述排序模块排序时采用多模型融合的方法,采用梯度提升决策树(MART)和逻辑回归分类(LR)训练排序模型,所述梯度提升决策树由多颗树组成,每次迭代都是在减少残差的梯度方向上新建立一颗决策树,最后累加所有树的结果,所述累加所有树的结果及原始特征交叉再一起输入到线性模型逻辑回归中得到排序关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710858346.9A CN107506486A (zh) | 2017-09-21 | 2017-09-21 | 一种基于实体链接的关系扩充方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710858346.9A CN107506486A (zh) | 2017-09-21 | 2017-09-21 | 一种基于实体链接的关系扩充方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107506486A true CN107506486A (zh) | 2017-12-22 |
Family
ID=60698442
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710858346.9A Pending CN107506486A (zh) | 2017-09-21 | 2017-09-21 | 一种基于实体链接的关系扩充方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107506486A (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153736A (zh) * | 2017-12-28 | 2018-06-12 | 南开大学 | 一种基于向量空间模型的关系词映射方法 |
CN108563710A (zh) * | 2018-03-27 | 2018-09-21 | 腾讯科技(深圳)有限公司 | 一种知识图谱构建方法、装置及存储介质 |
CN108763333A (zh) * | 2018-05-11 | 2018-11-06 | 北京航空航天大学 | 一种基于社会媒体的事件图谱构建方法 |
CN109408704A (zh) * | 2018-09-03 | 2019-03-01 | 平安科技(深圳)有限公司 | 基金数据关联方法、***、计算机设备和存储介质 |
CN110134965A (zh) * | 2019-05-21 | 2019-08-16 | 北京百度网讯科技有限公司 | 用于信息处理的方法、装置、设备和计算机可读存储介质 |
CN110147401A (zh) * | 2019-05-22 | 2019-08-20 | 苏州大学 | 融合先验知识和上下文相关度的知识库抽取方法 |
CN110245197A (zh) * | 2019-05-20 | 2019-09-17 | 北京百度网讯科技有限公司 | 一种全网实体关联方法及*** |
CN110555137A (zh) * | 2018-03-31 | 2019-12-10 | 华为技术有限公司 | 一种标签补齐方法及装置 |
CN110704613A (zh) * | 2019-08-23 | 2020-01-17 | 上海科技发展有限公司 | 词汇数据库构建及查询方法、数据库***、设备及介质 |
CN110705301A (zh) * | 2019-09-30 | 2020-01-17 | 京东城市(北京)数字科技有限公司 | 实体关系抽取方法及装置、存储介质、电子设备 |
CN110795565A (zh) * | 2019-09-06 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 基于语义识别的别名挖掘方法、装置、介质及电子设备 |
CN110852106A (zh) * | 2019-11-06 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 基于人工智能的命名实体处理方法、装置及电子设备 |
CN110968665A (zh) * | 2019-11-08 | 2020-04-07 | 浙江工业大学 | 一种基于梯度增强决策树的上下位词关系识别方法 |
CN111259087A (zh) * | 2020-01-10 | 2020-06-09 | 中国科学院软件研究所 | 基于领域知识库的计算机网络协议实体链接方法和*** |
CN111339313A (zh) * | 2020-02-18 | 2020-06-26 | 北京航空航天大学 | 一种基于多模态融合的知识库构建方法 |
CN111401049A (zh) * | 2020-03-12 | 2020-07-10 | 京东方科技集团股份有限公司 | 一种实体链接方法及装置 |
CN111708891A (zh) * | 2019-03-01 | 2020-09-25 | 九阳股份有限公司 | 一种多源食材数据之间的食材实体链接方法和装置 |
CN112883192A (zh) * | 2021-02-09 | 2021-06-01 | 江苏名通信息科技有限公司 | 一种异构领域用户与资源关联挖掘方法及*** |
CN113157946A (zh) * | 2021-05-14 | 2021-07-23 | 咪咕文化科技有限公司 | 实体链接方法、装置、电子设备及存储介质 |
CN113190154A (zh) * | 2021-04-29 | 2021-07-30 | 北京百度网讯科技有限公司 | 模型训练、词条分类方法、装置、设备、存储介质及程序 |
CN113268987A (zh) * | 2021-05-26 | 2021-08-17 | 北京百度网讯科技有限公司 | 一种实体名称识别方法、装置、电子设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8874619B2 (en) * | 2011-06-03 | 2014-10-28 | Robert Mack | Method and apparatus for defining common entity relationships |
CN104933039A (zh) * | 2015-06-04 | 2015-09-23 | 中国科学院新疆理化技术研究所 | 面向资源缺乏语言的实体链接*** |
CN105204827A (zh) * | 2014-06-17 | 2015-12-30 | 索尼公司 | 信息获取装置、方法以及电子设备 |
CN105335519A (zh) * | 2015-11-18 | 2016-02-17 | 百度在线网络技术(北京)有限公司 | 模型生成方法及装置、推荐方法及装置 |
CN106934020A (zh) * | 2017-03-10 | 2017-07-07 | 东南大学 | 一种基于多域实体索引的实体链接方法 |
CN107092605A (zh) * | 2016-02-18 | 2017-08-25 | 北大方正集团有限公司 | 一种实体链接方法及装置 |
-
2017
- 2017-09-21 CN CN201710858346.9A patent/CN107506486A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8874619B2 (en) * | 2011-06-03 | 2014-10-28 | Robert Mack | Method and apparatus for defining common entity relationships |
CN105204827A (zh) * | 2014-06-17 | 2015-12-30 | 索尼公司 | 信息获取装置、方法以及电子设备 |
CN104933039A (zh) * | 2015-06-04 | 2015-09-23 | 中国科学院新疆理化技术研究所 | 面向资源缺乏语言的实体链接*** |
CN105335519A (zh) * | 2015-11-18 | 2016-02-17 | 百度在线网络技术(北京)有限公司 | 模型生成方法及装置、推荐方法及装置 |
CN107092605A (zh) * | 2016-02-18 | 2017-08-25 | 北大方正集团有限公司 | 一种实体链接方法及装置 |
CN106934020A (zh) * | 2017-03-10 | 2017-07-07 | 东南大学 | 一种基于多域实体索引的实体链接方法 |
Non-Patent Citations (2)
Title |
---|
曾宪宇 等: "用户在线购买预测:一种基于用户操作序列和选择模型的方法", 《计算机研究与发展》 * |
李禹恒 等: "基于微博文本的层次化实体链接方法", 《吉林大学学报(工学版)》 * |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153736A (zh) * | 2017-12-28 | 2018-06-12 | 南开大学 | 一种基于向量空间模型的关系词映射方法 |
CN108563710A (zh) * | 2018-03-27 | 2018-09-21 | 腾讯科技(深圳)有限公司 | 一种知识图谱构建方法、装置及存储介质 |
CN108563710B (zh) * | 2018-03-27 | 2021-02-02 | 腾讯科技(深圳)有限公司 | 一种知识图谱构建方法、装置及存储介质 |
CN110555137A (zh) * | 2018-03-31 | 2019-12-10 | 华为技术有限公司 | 一种标签补齐方法及装置 |
CN108763333A (zh) * | 2018-05-11 | 2018-11-06 | 北京航空航天大学 | 一种基于社会媒体的事件图谱构建方法 |
CN108763333B (zh) * | 2018-05-11 | 2022-05-17 | 北京航空航天大学 | 一种基于社会媒体的事件图谱构建方法 |
CN109408704A (zh) * | 2018-09-03 | 2019-03-01 | 平安科技(深圳)有限公司 | 基金数据关联方法、***、计算机设备和存储介质 |
CN109408704B (zh) * | 2018-09-03 | 2023-05-30 | 平安科技(深圳)有限公司 | 基金数据关联方法、***、计算机设备和存储介质 |
CN111708891B (zh) * | 2019-03-01 | 2023-12-08 | 九阳股份有限公司 | 一种多源食材数据之间的食材实体链接方法和装置 |
CN111708891A (zh) * | 2019-03-01 | 2020-09-25 | 九阳股份有限公司 | 一种多源食材数据之间的食材实体链接方法和装置 |
CN110245197A (zh) * | 2019-05-20 | 2019-09-17 | 北京百度网讯科技有限公司 | 一种全网实体关联方法及*** |
CN110134965B (zh) * | 2019-05-21 | 2023-08-18 | 北京百度网讯科技有限公司 | 用于信息处理的方法、装置、设备和计算机可读存储介质 |
CN110134965A (zh) * | 2019-05-21 | 2019-08-16 | 北京百度网讯科技有限公司 | 用于信息处理的方法、装置、设备和计算机可读存储介质 |
CN110147401A (zh) * | 2019-05-22 | 2019-08-20 | 苏州大学 | 融合先验知识和上下文相关度的知识库抽取方法 |
CN110704613A (zh) * | 2019-08-23 | 2020-01-17 | 上海科技发展有限公司 | 词汇数据库构建及查询方法、数据库***、设备及介质 |
CN110795565A (zh) * | 2019-09-06 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 基于语义识别的别名挖掘方法、装置、介质及电子设备 |
CN110795565B (zh) * | 2019-09-06 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 基于语义识别的别名挖掘方法、装置、介质及电子设备 |
CN110705301B (zh) * | 2019-09-30 | 2021-01-26 | 北京京东智能城市大数据研究院 | 实体关系抽取方法及装置、存储介质、电子设备 |
CN110705301A (zh) * | 2019-09-30 | 2020-01-17 | 京东城市(北京)数字科技有限公司 | 实体关系抽取方法及装置、存储介质、电子设备 |
CN110852106B (zh) * | 2019-11-06 | 2024-05-03 | 腾讯科技(深圳)有限公司 | 基于人工智能的命名实体处理方法、装置及电子设备 |
CN110852106A (zh) * | 2019-11-06 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 基于人工智能的命名实体处理方法、装置及电子设备 |
CN110968665A (zh) * | 2019-11-08 | 2020-04-07 | 浙江工业大学 | 一种基于梯度增强决策树的上下位词关系识别方法 |
CN110968665B (zh) * | 2019-11-08 | 2022-09-23 | 浙江工业大学 | 一种基于梯度增强决策树的上下位词关系识别方法 |
CN111259087A (zh) * | 2020-01-10 | 2020-06-09 | 中国科学院软件研究所 | 基于领域知识库的计算机网络协议实体链接方法和*** |
CN111259087B (zh) * | 2020-01-10 | 2022-10-14 | 中国科学院软件研究所 | 基于领域知识库的计算机网络协议实体链接方法和*** |
CN111339313A (zh) * | 2020-02-18 | 2020-06-26 | 北京航空航天大学 | 一种基于多模态融合的知识库构建方法 |
CN111401049A (zh) * | 2020-03-12 | 2020-07-10 | 京东方科技集团股份有限公司 | 一种实体链接方法及装置 |
CN112883192A (zh) * | 2021-02-09 | 2021-06-01 | 江苏名通信息科技有限公司 | 一种异构领域用户与资源关联挖掘方法及*** |
CN112883192B (zh) * | 2021-02-09 | 2023-09-05 | 江苏名通信息科技有限公司 | 一种异构领域用户与资源关联挖掘方法及*** |
CN113190154B (zh) * | 2021-04-29 | 2023-10-13 | 北京百度网讯科技有限公司 | 模型训练、词条分类方法、装置、设备、存储介质及程序 |
CN113190154A (zh) * | 2021-04-29 | 2021-07-30 | 北京百度网讯科技有限公司 | 模型训练、词条分类方法、装置、设备、存储介质及程序 |
CN113157946A (zh) * | 2021-05-14 | 2021-07-23 | 咪咕文化科技有限公司 | 实体链接方法、装置、电子设备及存储介质 |
CN113268987B (zh) * | 2021-05-26 | 2023-08-11 | 北京百度网讯科技有限公司 | 一种实体名称识别方法、装置、电子设备和存储介质 |
CN113268987A (zh) * | 2021-05-26 | 2021-08-17 | 北京百度网讯科技有限公司 | 一种实体名称识别方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107506486A (zh) | 一种基于实体链接的关系扩充方法 | |
US10678816B2 (en) | Single-entity-single-relation question answering systems, and methods | |
CN108573411B (zh) | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 | |
CN108415902B (zh) | 一种基于搜索引擎的命名实体链接方法 | |
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
CN111950285B (zh) | 多模态数据融合的医疗知识图谱智能自动构建***和方法 | |
CN108763321B (zh) | 一种基于大规模相关实体网络的相关实体推荐方法 | |
US9715493B2 (en) | Method and system for monitoring social media and analyzing text to automate classification of user posts using a facet based relevance assessment model | |
CN105893609B (zh) | 一种基于加权混合的移动app推荐方法 | |
CN110059271B (zh) | 运用标签知识网络的搜索方法及装置 | |
CN107180045B (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答***构建方法 | |
Foley et al. | Learning to extract local events from the web | |
CN106055675B (zh) | 一种基于卷积神经网络和距离监督的关系抽取方法 | |
CN106960001B (zh) | 一种检索词的实体链接方法及*** | |
CN110888991B (zh) | 一种弱标注环境下的分段式语义标注方法 | |
CN103336852B (zh) | 跨语言本体构建方法及装置 | |
CN102254014A (zh) | 一种网页特征自适应的信息抽取方法 | |
Wu et al. | News filtering and summarization on the web | |
CN106934071A (zh) | 基于异构信息网络和贝叶斯个性化排序的推荐方法及装置 | |
CN111325018B (zh) | 一种基于web检索和新词发现的领域词典构建方法 | |
CN108090223A (zh) | 一种基于互联网信息的开放学者画像方法 | |
CN110209659A (zh) | 一种简历过滤方法、***和计算机可读存储介质 | |
CN115563313A (zh) | 基于知识图谱的文献书籍语义检索*** | |
CN110825998A (zh) | 一种网站识别方法及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171222 |