CN106934020A - 一种基于多域实体索引的实体链接方法 - Google Patents

一种基于多域实体索引的实体链接方法 Download PDF

Info

Publication number
CN106934020A
CN106934020A CN201710144495.9A CN201710144495A CN106934020A CN 106934020 A CN106934020 A CN 106934020A CN 201710144495 A CN201710144495 A CN 201710144495A CN 106934020 A CN106934020 A CN 106934020A
Authority
CN
China
Prior art keywords
entity
candidate
domain
prop
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710144495.9A
Other languages
English (en)
Other versions
CN106934020B (zh
Inventor
李慧颖
师京
徐泽建
赵畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201710144495.9A priority Critical patent/CN106934020B/zh
Publication of CN106934020A publication Critical patent/CN106934020A/zh
Application granted granted Critical
Publication of CN106934020B publication Critical patent/CN106934020B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多域实体索引的实体链接方法,包含两个主要步骤:(1)对知识库中实体建立多域索引。(2)基于多域索引筛选候选实体及利用上下文相似度得分及流行度得分对候选实体重新排序并将实体指称链接到得分最高实体上。本发明不需基于别名词典进行候选实体的查找,而是针对知识库实体的不同属性(关系)分域建立索引,通过对名字域搜索得到与实体指称匹配的候选实体;对于初步筛选出的候选实体,利用其他域索引的信息计算候选实体的上下文得分和流行度得分,对候选实体重新排序并将实体指称链接到得分最高的候选实体上。

Description

一种基于多域实体索引的实体链接方法
技术领域
本发明涉及一种通过计算机将文本中提取到的实体指称链接到知识库中对应实体的方法,属于信息处理技术领域。
背景技术
目前尚未发现基于多域实体索引,并结合上下文相似度、实体流行度的实体链接方法,但存在基于同义词典和歧义词典的候选实体发现和链接方法。
实体链接(Entity Linking),是指将文本中提取到的实体指称链接到知识库中对应的实体上。实体链接技术有利于从非结构化本文中挖掘出有价值的信息,对于计算机理解文本的真实含义具有重要影响。具体而言,实体链接可以解决非结构化文本中广泛存在的实体多样性和歧义性问题。实体多样性是指一个实体可以用多个实体指称表示,例如实体美国在不同的语境中可以用“United States”、“United States of America”、“USA”来指代。歧义性是指相同的实体指称在不同的上下文环境中指向不同的实体对象,例如,实体指称“Apple”在不同的语境下可能指代水果“Apple”或科技领域的“Apple”公司或“Apple”产品。
当前的实体链接使用了多种技术方法,包括单实体链接方法和集成实体链接方法。单实体链接方法一次仅对文本中的一个实体进行链接,通过计算从文本中抽取的实体指称与知识库中获得的候选实体之间的上下文相似度,选择相似度最大的候选实体作为链接实体。集成实体链接方法是对文本中出现的所有实体指称同步进行实体链接。然而,上述方法多是基于别名词典进行候选实体的查找,别名词典是指根据实体的维基页面标题,重定向页面,消歧页面和锚文本建立的词典。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于多域实体索引的实体链接方法,该方法根据事先建立的多域实体索引,进行候选实体搜索,利用上下文相似度及流行度得分对候选实体排序来实现实体链接,以及便于一系列后续应用(如问答***)的开展。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于多域实体索引的实体链接方法,包括如下步骤:
(1)对知识库中每个实体建立多域索引
对每个实体(一个单词或一个短语)收集其属性值对及关系对,将实体的属性及关系划分为名字域、属性域、出关系域和入关系域,分别在各个域为每个实体建立索引;名字域包括实体的name属性、label属性和title属性,将该些属性的名称及对应的值作为名字域的值进行索引;属性域包括实体除名字域包含的属性以外的所有属性,将该些属性的名称及对应的值作为属性域的值进行索引;出关系域收集本实体到其他实体的关系,将该关系的名称及其关联实体的类型和name属性值作为出关系域的值进行索引;入关系域收集其他实体到本实体的关系,将该关系的名称及其关联实体的类型和name属性值作为入关系域的值进行索引;
(2)产生候选实体
将待链接的实体指称m作为查询关键词,在知识库的名字域内进行搜索,得到实体指称m对应的候选实体集合Em={ei},ei表示第i个候选实体,i=1,2,…,N,N为候选实体的总数;同时,对候选实体ei名字域的值和实体指称m进行文本相似度得分LS(m,ei)评价,根据文本相似度得分对所有候选实体进行排序;
(3)将候选实体ei属性域、入关系域和出关系域的值中的单词转化为一个特征向量{prop.Ti1,prop.Ti2,prop.Ti3},prop.Ti1表示候选实体ei属性域的值中包含的所有单词,prop.Ti2表示候选实体ei入关系域的值中包含的所有单词,prop.Ti3表示候选实体ei出关系域的值中包含的所有单词;同时收集实体指称m所在句的所有单词m.T作为该实体指称的特征向量,计算{prop.Ti1,prop.Ti2,prop.Ti3}和m.T的余弦相似度作为候选实体ei与实体指称m的上下文相似度得分CS(m,ei);
在候选实体ei的入关系域中,统计知识库内其他实体到候选实体ei的入关系次数num(ei),以得到候选实体ei的流行度得分PS(ei);prop.Ti1、prop.Ti2、prop.Ti3和m.T均使用标准向量空间模型表示;
(4)将候选实体ei使用由文本相似度得分LS(m,ei)、上下文相似度得分CS(m,ei)和流行度得分PS(ei)构成的特征向量表示Xm(ei)={LS(m,ei),CS(m,ei),PS(ei)},利用支持向量机模型进行权重向量W训练,S(m,ei)=WXm(ei),根据S(m,ei)对所有候选实体进行排序,最终将实体指称链接到得分最高的候选实体上,即:
本发明所述的四个域,通过名字域在大量的知识库实体中进行初次筛选,得到候选实体;通过属性域、出关系域和入关系域计算候选实体与实体指称之间的上下文相似度得分,入关系域还用于计算候选实体的流行度得分。
具体的,所述步骤(3)中,候选实体ei与实体指称m的上下文相似度得分计算过程为:
首先,分别计算prop.Ti1、prop.Ti2和prop.Ti3与m.T之间的余弦相似度:
然后,对三个余弦相似度进行加和:
将加和后的结果CS(m,ei)作为候选实体ei与实体指称m的上下文相似度得分。
具体的,所述步骤(3)中,实体指称m所在句的所有单词m.T包括该所有单词在WordNet中的同义词以及在ConceptNet中的相关词。
具体的,所述步骤(3)中,候选实体ei的流行度PS(ei)计算过程为:
其中,num(ei)为在候选实体ei的入关系域中,在知识库内统计到的其他实体到候选实体ei的入关系次数。
有益效果:本发明提供的基于多域实体索引的实体链接方法,相对于现有技术,具有如下优势:本发明不需基于别名词典进行候选实体的查找,而是针对知识库实体的不同属性(关系)分域建立索引,通过对名字域搜索得到与实体指称匹配的候选实体;对于初步筛选出的候选实体,利用其他域索引的信息计算候选实体的上下文得分和流行度得分,对候选实体重新排序并将实体指称链接到得分最高的候选实体上;因此本发明能够解决实体链接问题,以及便于一系列后续应用(如自然语言问答)的开展。
附图说明
图1为本发明的实施流程图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示为一种基于多域实体索引的实体链接方法,如图1所示,该方法包含对知识库中实体建立多域索引的过程,基于多域索引筛选候选实体及利用上下文相似度得分及流行度得分对候选实体重新排序并将实体指称链接到得分最高实体上到过程。
由于知识库中收录的实体数量有限,有可能无法为所有的实体指称找到候选实体,因此将满足此条件的实体指称定义为无指代实体指称,以NIL表示。我们以m表示待链接的实体指称,以E表示知识库中的所有实体,实体链接任务是将实体指称m链接到E∪{NIL}集合中的某个元素上。具体实施过程如下:
步骤一:对知识库中每个实体建立多域索引
对每个实体收集其属性值对及关系对,将实体的属性及关系划分为名字域、属性域、出关系域和入关系域,分别在各个域为每个实体建立索引;名字域包括实体的name属性、label属性和title属性,将该些属性的名称及对应的值作为名字域的值进行索引;属性域包括实体除名字域包含的属性以外的所有属性,将该些属性的名称及对应的值作为属性域的值进行索引;出关系域收集本实体到其他实体的关系,将该关系的名称及其关联实体的类型和name属性值作为出关系域的值进行索引;入关系域收集其他实体到本实体的关系,将该关系的名称及其关联实体的类型和name属性值作为入关系域的值进行索引。
步骤二:产生候选实体
将待链接的实体指称m作为查询关键词,在知识库的名字域内进行搜索,得到实体指称m对应的候选实体集合Em={ei},ei表示第i个候选实体,i=1,2,…,N,N为候选实体的总数。
步骤三:计算文本相似度得分
对候选实体ei名字域的值和实体指称m进行文本相似度得分LS(m,ei)评价,根据文本相似度得分对所有候选实体进行排序。
步骤四:计算上下文相似度得分
将候选实体ei属性域、入关系域和出关系域的值中的单词转化为一个特征向量{prop.Ti1,prop.Ti2,prop.Ti3},prop.Ti1表示候选实体ei属性域的值中包含的所有单词,prop.Ti2表示候选实体ei入关系域的值中包含的所有单词,prop.Ti3表示候选实体ei出关系域的值中包含的所有单词;同时收集实体指称m所在句的所有单词m.T作为该实体指称的特征向量,计算{prop.Ti1,prop.Ti2,prop.Ti3}和m.T的余弦相似度作为候选实体ei与实体指称m的上下文相似度得分CS(m,ei)。具体计算过程如下:
首先,分别计算prop.Ti1、prop.Ti2和prop.Ti3与m.T之间的余弦相似度:
然后,对三个余弦相似度进行加和:
将加和后的结果CS(m,ei)作为候选实体ei与实体指称m的上下文相似度得分。
需要说明的是,实体指称m所在句的所有单词m.T包括该所有单词在WordNet中的同义词以及在ConceptNet中的相关词。
步骤五:计算流行度得分
在候选实体ei的入关系域中,统计知识库内其他实体到候选实体ei的入关系次数num(ei),以得到候选实体ei的流行度得分PS(ei):
其中,num(ei)为在候选实体ei的入关系域中,在知识库内统计到的其他实体到候选实体ei的入关系次数。
步骤六:得到链接对象
将候选实体ei使用由文本相似度得分LS(m,ei)、上下文相似度得分CS(m,ei)和流行度得分PS(ei)构成的特征向量表示Xm(ei)={LS(m,ei),CS(m,ei),PS(ei)},利用支持向量机模型进行权重向量W训练,S(m,ei)=WXm(ei),根据S(m,ei)对所有候选实体进行排序,最终将实体指称链接到得分最高的候选实体上,即:
本发明在实验过程中,使用Lucene(https://lucene.apache.org/core/)为知识库中实体建立多域索引。使用libsvm(http://www.csie.ntu.edu.tw/~cjlin/libsvm/)对权重向量W进行训练,训练出的权重向量W=<0.50,0.23,0.26>。本发明提出的基于多域实体索引的实体链接方法,在DBpedia 2015-04版本数据集上,最好情况下准确率达到72%。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种基于多域实体索引的实体链接方法,其特征在于:包括如下步骤:
(1)对知识库中每个实体建立多域索引
对每个实体收集其属性值对及关系对,将实体的属性及关系划分为名字域、属性域、出关系域和入关系域,分别在各个域为每个实体建立索引;名字域包括实体的name属性、label属性和title属性,将该些属性的名称及对应的值作为名字域的值进行索引;属性域包括实体除名字域包含的属性以外的所有属性,将该些属性的名称及对应的值作为属性域的值进行索引;出关系域收集本实体到其他实体的关系,将该关系的名称及其关联实体的类型和name属性值作为出关系域的值进行索引;入关系域收集其他实体到本实体的关系,将该关系的名称及其关联实体的类型和name属性值作为入关系域的值进行索引;
(2)产生候选实体
将待链接的实体指称m作为查询关键词,在知识库的名字域内进行搜索,得到实体指称m对应的候选实体集合Em={ei},ei表示第i个候选实体,i=1,2,…,N,N为候选实体的总数;同时,对候选实体ei名字域的值和实体指称m进行文本相似度得分LS(m,ei)评价,根据文本相似度得分对所有候选实体进行排序;
(3)将候选实体ei属性域、入关系域和出关系域的值中的单词转化为一个特征向量{prop.Ti1,prop.Ti2,prop.Ti3},prop.Ti1表示候选实体ei属性域的值中包含的所有单词,prop.Ti2表示候选实体ei入关系域的值中包含的所有单词,prop.Ti3表示候选实体ei出关系域的值中包含的所有单词;同时收集实体指称m所在句的所有单词m.T作为该实体指称的特征向量,计算{prop.Ti1,prop.Ti2,prop.Ti3}和m.T的余弦相似度作为候选实体ei与实体指称m的上下文相似度得分CS(m,ei);
在候选实体ei的入关系域中,统计知识库内其他实体到候选实体ei的入关系次数num(ei),以得到候选实体ei的流行度得分PS(ei);prop.Ti1、prop.Ti2、prop.Ti3和m.T均使用标准向量空间模型表示;
(4)将候选实体ei使用由文本相似度得分LS(m,ei)、上下文相似度得分CS(m,ei)和流行度得分PS(ei)构成的特征向量表示Xm(ei)={LS(m,ei),CS(m,ei),PS(ei)},利用支持向量机模型进行权重向量W训练,S(m,ei)=WXm(ei),根据S(m,ei)对所有候选实体进行排序,最终将实体指称链接到得分最高的候选实体上,即:
2.根据权利要求1所述的基于多域实体索引的实体链接方法,其特征在于:所述步骤(3)中,候选实体ei与实体指称m的上下文相似度得分计算过程为:
首先,分别计算prop.Ti1、prop.Ti2和prop.Ti3与m.T之间的余弦相似度:
C o s S i m ( m , prop i 1 ) = m . T &CenterDot; p r o o . T i 1 | | m . T | | &CenterDot; | | p r o p . T i 1 | |
C o s S i m ( m , prop i 2 ) = m . T &CenterDot; p r o p . T i 2 | | m . T | | &CenterDot; | | p r o p . T i 2 | |
C o s S i m ( m , prop i 3 ) = m . T &CenterDot; p r o p . T i 3 | | m . T | | &CenterDot; | | p r o p . T i 3 | |
然后,对三个余弦相似度进行加和:
C S ( m , e i ) = &Sigma; j = 1 , 2 , 3 C o s S i m ( m , prop i j )
将加和后的结果CS(m,ei)作为候选实体ei与实体指称m的上下文相似度得分。
3.根据权利要求1所述的基于多域实体索引的实体链接方法,其特征在于:所述步骤(3)中,实体指称m所在句的所有单词m.T包括该所有单词在WordNet中的同义词以及在ConceptNet中的相关词。
4.根据权利要求1所述的基于多域实体索引的实体链接方法,其特征在于:所述步骤(3)中,候选实体ei的流行度PS(ei)计算过程为:
P S ( e i ) = n u m ( e i ) &Sigma; j = 1 N n u m ( e j )
其中,num(ei)为在候选实体ei的入关系域中,在知识库内统计到的其他实体到候选实体ei的入关系次数。
CN201710144495.9A 2017-03-10 2017-03-10 一种基于多域实体索引的实体链接方法 Active CN106934020B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710144495.9A CN106934020B (zh) 2017-03-10 2017-03-10 一种基于多域实体索引的实体链接方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710144495.9A CN106934020B (zh) 2017-03-10 2017-03-10 一种基于多域实体索引的实体链接方法

Publications (2)

Publication Number Publication Date
CN106934020A true CN106934020A (zh) 2017-07-07
CN106934020B CN106934020B (zh) 2019-04-30

Family

ID=59431976

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710144495.9A Active CN106934020B (zh) 2017-03-10 2017-03-10 一种基于多域实体索引的实体链接方法

Country Status (1)

Country Link
CN (1) CN106934020B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506486A (zh) * 2017-09-21 2017-12-22 北京航空航天大学 一种基于实体链接的关系扩充方法
CN108268643A (zh) * 2018-01-22 2018-07-10 北京邮电大学 一种基于多粒度lstm网络的深层语义匹配实体链接方法
CN109241294A (zh) * 2018-08-29 2019-01-18 国信优易数据有限公司 一种实体链接方法及装置
CN109522547A (zh) * 2018-10-23 2019-03-26 浙江大学 基于模式学习的中文同义词迭代抽取方法
CN111159485A (zh) * 2019-12-30 2020-05-15 科大讯飞(苏州)科技有限公司 尾实体链接方法、装置、服务器及存储介质
CN111274404A (zh) * 2020-02-12 2020-06-12 杭州量知数据科技有限公司 一种基于人机协同的小样本实体多领域分类方法
CN112115709A (zh) * 2020-09-16 2020-12-22 北京嘀嘀无限科技发展有限公司 实体识别方法、装置、存储介质和电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102508830A (zh) * 2011-11-28 2012-06-20 北京工商大学 从新闻文档中抽取社会网络的方法和***
CN102567306A (zh) * 2011-11-07 2012-07-11 苏州大学 一种不同语言间词汇相似度的获取方法及***
CN104866625A (zh) * 2015-06-15 2015-08-26 苏州大学张家港工业技术研究院 一种用于实体匹配的方法及***
CN105045826A (zh) * 2015-06-29 2015-11-11 华东师范大学 一种基于图模型的实体链接算法
CN105183770A (zh) * 2015-08-06 2015-12-23 电子科技大学 一种基于图模型的中文集成实体链接方法
CN105224648A (zh) * 2015-09-29 2016-01-06 浪潮(北京)电子信息产业有限公司 一种实体链接方法与***
WO2016205286A1 (en) * 2015-06-18 2016-12-22 Aware, Inc. Automatic entity resolution with rules detection and generation system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567306A (zh) * 2011-11-07 2012-07-11 苏州大学 一种不同语言间词汇相似度的获取方法及***
CN102508830A (zh) * 2011-11-28 2012-06-20 北京工商大学 从新闻文档中抽取社会网络的方法和***
CN104866625A (zh) * 2015-06-15 2015-08-26 苏州大学张家港工业技术研究院 一种用于实体匹配的方法及***
WO2016205286A1 (en) * 2015-06-18 2016-12-22 Aware, Inc. Automatic entity resolution with rules detection and generation system
CN105045826A (zh) * 2015-06-29 2015-11-11 华东师范大学 一种基于图模型的实体链接算法
CN105183770A (zh) * 2015-08-06 2015-12-23 电子科技大学 一种基于图模型的中文集成实体链接方法
CN105224648A (zh) * 2015-09-29 2016-01-06 浪潮(北京)电子信息产业有限公司 一种实体链接方法与***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BO MA,YATING YANG等: "Graph-based short text Entity Linking: A data integration perspective", 《2016 INTERNATIONAL CONFERENCE ON ASIAN LANGUAGE PROCESSING (IALP)》 *
冯冲,石戈,郭宇航,龚静,黄河燕: "基于词向量语义分类的微博实体链接方法", 《自动化学报》 *
郭宇航: "基于上下文的实体链指技术研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506486A (zh) * 2017-09-21 2017-12-22 北京航空航天大学 一种基于实体链接的关系扩充方法
CN108268643A (zh) * 2018-01-22 2018-07-10 北京邮电大学 一种基于多粒度lstm网络的深层语义匹配实体链接方法
CN109241294A (zh) * 2018-08-29 2019-01-18 国信优易数据有限公司 一种实体链接方法及装置
CN109522547A (zh) * 2018-10-23 2019-03-26 浙江大学 基于模式学习的中文同义词迭代抽取方法
CN109522547B (zh) * 2018-10-23 2020-09-18 浙江大学 基于模式学习的中文同义词迭代抽取方法
CN111159485A (zh) * 2019-12-30 2020-05-15 科大讯飞(苏州)科技有限公司 尾实体链接方法、装置、服务器及存储介质
CN111274404A (zh) * 2020-02-12 2020-06-12 杭州量知数据科技有限公司 一种基于人机协同的小样本实体多领域分类方法
CN111274404B (zh) * 2020-02-12 2023-07-14 杭州量知数据科技有限公司 一种基于人机协同的小样本实体多领域分类方法
CN112115709A (zh) * 2020-09-16 2020-12-22 北京嘀嘀无限科技发展有限公司 实体识别方法、装置、存储介质和电子设备
CN112115709B (zh) * 2020-09-16 2021-06-04 北京嘀嘀无限科技发展有限公司 实体识别方法、装置、存储介质和电子设备

Also Published As

Publication number Publication date
CN106934020B (zh) 2019-04-30

Similar Documents

Publication Publication Date Title
CN106934020A (zh) 一种基于多域实体索引的实体链接方法
CN104615593B (zh) 微博热点话题自动检测方法及装置
Froud et al. Arabic text summarization based on latent semantic analysis to enhance arabic documents clustering
CN107066553A (zh) 一种基于卷积神经网络与随机森林的短文本分类方法
CN113268995B (zh) 中文学术关键词抽取方法、装置和存储介质
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
CN106126619A (zh) 一种基于视频内容的视频检索方法及***
CN106649597A (zh) 一种基于图书内容的图书书后索引自动构建方法
CN103617157A (zh) 基于语义的文本相似度计算方法
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN102750316A (zh) 基于语义共现模型的概念关系标签抽取方法
CN103617290B (zh) 中文机器阅读***
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN108376133A (zh) 基于情感词扩充的短文本情感分类方法
CN111460820A (zh) 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置
CN106294320A (zh) 一种面向学术论文的术语抽取方法及***
CN107133212B (zh) 一种基于集成学习和词句综合信息的文本蕴涵识别方法
CN107066555A (zh) 面向专业领域的在线主题检测方法
Banerjee et al. Towards analyzing micro-blogs for detection and classification of real-time intentions
Biswas et al. Question Classification using syntactic and rule based approach
CN111967267B (zh) 一种基于XLNet的新闻文本地域提取的方法及***
Zhang et al. A Chinese question-answering system with question classification and answer clustering
CN104317783B (zh) 一种语义关系密切度的计算方法
CN108038099A (zh) 基于词聚类的低频关键词识别方法
Tembhurnikar et al. Topic detection using BNgram method and sentiment analysis on twitter dataset

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant