CN104615687A - 一种面向知识库更新的实体细粒度分类方法与*** - Google Patents

一种面向知识库更新的实体细粒度分类方法与*** Download PDF

Info

Publication number
CN104615687A
CN104615687A CN201510033050.4A CN201510033050A CN104615687A CN 104615687 A CN104615687 A CN 104615687A CN 201510033050 A CN201510033050 A CN 201510033050A CN 104615687 A CN104615687 A CN 104615687A
Authority
CN
China
Prior art keywords
entity
node
knowledge base
classification
represent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510033050.4A
Other languages
English (en)
Other versions
CN104615687B (zh
Inventor
程学旗
王元卓
林海伦
贾岩涛
熊锦华
李曼玲
常雨骁
许洪波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201510033050.4A priority Critical patent/CN104615687B/zh
Publication of CN104615687A publication Critical patent/CN104615687A/zh
Application granted granted Critical
Publication of CN104615687B publication Critical patent/CN104615687B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种面向知识库更新的实体细粒度分类方法与***。所述方法包括:从文本中识别出实体;将识别出的实体、知识库中与其相关的实体以及相关实体在知识库中的分类作为结点构建依赖图,其中依赖图中的边的权值表示该边连接的两个结点之间的相关程度;以及,通过在所述依赖图上执行重启动随机游走,得到识别出的实体所属的分类。本发明能够克服现有技术在实体上下文缺乏的情况下难以实现对该实体进行细粒度分类的缺陷,并且提高了实体细粒度分类的准确率。

Description

一种面向知识库更新的实体细粒度分类方法与***
技术领域
本发明涉及信息处理技术领域,具体涉及一种面向知识库更新的实体细粒度分类方法与***。
背景技术
知识库是采用某种知识表示方式组织和管理的互相联系的知识集合。在知识工程领域,知识描述的要素一般包括分类、实体、关系、属性等要素,其中分类用于对知识库中的知识项进行语义分组或语义标注。知识库在很多领域中起到至关重要的作用,例如在信息检索中,知识库可以帮助搜索引擎理解用户查询、感知用户查询意图、进行查询扩展和查询问答等;此外,知识库在数据分析、舆情监控、深网资源发现等领域中也有广泛的应用。虽然目前存在众多知识库,但是它们在知识的覆盖率和时新性方面仍存在诸多限制,根本原因在于,随着大数据时代的到来,数据正以***速度增长,在Web中每天都会产生新的知识。因此,为了构造高质量的知识库,将新产生的知识动态、实时、自动地更新到已有的知识库中,并且保障知识库的扩展能力、覆盖能力和时新性变得至关重要。
实体作为知识描述的重要组成要素,知识库必然需要具备自动扩展实体的能力。要将新出现的实体更新到知识库中,需要首先确定实体在知识库中的位置,即实体在知识库中所属的分类信息。在确定了实体的分类之后,将新出现的实体添加到知识库的该分类下,从而丰富知识库中包含的实体集合。目前,实体分类方法主要有两类:实体粗粒度分类和实体细粒度分类。
实体粗粒度分类将实体划分为粗粒度类别,如人名、地名、机构名等。主要采用有监督的方式训练实体分类模型,需要大量的人工标注的训练数据。这种方式无法直接应用到面向知识库的实体分类中,原因在于知识库将实体划分成成百上千个类别,它需要的训练数据的规模更大,而且创建如此规模的训练数据需要大量的人力。
实体细粒度分类将实体划分为更细致的类别,主要采用启发式规则或基于弱监督的方法对实体进行分类。其中,基于启发式规则的方法直接通过定义的句法模式为实体进行类别标注,这种方法操作简单,但是需要人工维护和定义大量的规则。基于弱监督的方法提取实体的上下文,利用上下文的词法、句法特征计算实体所属的分类信息,然而这种方法的准确率较低,而且这种方法在上下文缺乏的情况下将难以推断实体的分类信息。
综上所述,现有的实体粗粒度分类方法并不适用于知识库的更新,而现有的实体细粒度分类方法准确率较低。
发明内容
为解决上述问题,根据本发明的一个实施例,提供一种面向知识库更新的实体细粒度分类方法,包括:
步骤1)、从文本中识别出实体;
步骤2)、将识别出的实体、知识库中与其相关的实体以及相关实体在知识库中的分类作为结点构建依赖图,其中依赖图中的边的权值表示该边连接的两个结点之间的相关程度;
步骤3)、通过在所述依赖图上执行重启动随机游走,得到识别出的实体所属的分类。
上述方法中,步骤2)包括:
步骤21)、根据语义相容度获得识别出的实体在知识库中的相关实体,并且获得该相关实体在知识库中的分类;其中,语义相容度表示识别出的实体的上下文信息与相关实体的描述文本的相似度;
步骤22)、将识别出的实体、知识库中与其相关的实体以及相关实体在知识库中的分类作为结点;
步骤23)、在表示识别出的实体的结点和表示相关实体的结点之间添加边,边的权值为该识别出的实体与该相关实体之间的语义相容度;
在表示相关实体的结点和表示分类的结点之间添加边,边的权值指示该相关实体是否属于该分类;
在表示相关实体的结点之间添加边,边的权值为该相关实体之间的语义相关度;
在表示分类的结点之间添加边,边的权值为该分类之间的相关度。
上述方法中,根据下式计算语义相容度:
SC ( em , e ) = sim ( X , T ) = V → ( X ) · V → ( T ) | V → ( X ) | · | V → ( T ) |
其中,SC(em,e)表示识别出的实体em与知识库中的相关实体e的语义相容度,X表示em的上下文信息,T表示e的描述文本,表示文本中包含的所有Biterm组成的TF-IDF向量,表示向量的模,Biterm表示文本中共现的词对。其中,识别出的实体的上下文信息是由出现在所述文本之前和之后的词组成的。
上述方法中,步骤21)包括:
将知识库中与识别出的实体的语义相容度大于0的实体作为相关实体。
上述方法中,根据下式计算相关实体之间的语义相关度:
SR ( e 1 , e 2 ) = 1 - log ( max ( | I 1 | , | I 2 | ) ) - log ( | I 1 ∩ I 2 | ) log ( | Z | ) - log ( min ( | I 1 | , | I 2 | ) )
其中,SR(e1,e2)表示知识库中的相关实体e1和e2的语义相关度,I1和I2分别表示知识库中描述实体的文本中出现实体e1和e2的实体的集合,Z表示知识库中包含的所有实体的集合,|·|表示集合的大小。
上述方法中,根据下式计算分类之间的相关度:
CR ( c 1 , c 2 ) = | E c 1 ∩ E c 2 | | E c 1 ∪ E c 2 |
其中,CR(c1,c2)表示分类c1和c2之间的相关度,分别表示知识库中属于分类c1和c2的实体的集合,|·|表示集合的大小。
上述方法中,步骤3)包括:
步骤31)、根据下式初始化所述依赖图中结点的分布状态:
r → i ( 0 ) = ( r i ( 1 ) , . . . , r i ( k ) , . . . , r i ( n ) )
其中,n表示结点总数,表示结点i的初始分布状态;若k=i,则ri(k)=1,否则ri(k)=0,k是自然数且1≤k≤n;
步骤32)、计算状态转移概率矩阵A=(aij):
其中,aij表示在重启动随机游走过程中从结点i转移到结点j的概率,i、j是自然数且满足1≤i,j≤n;wij为结点i和结点j之间的边的权重;表示连接结点i的所有边的权重之和;
步骤33)、对于每个结点,迭代地向其邻居结点进行状态转移,直到所述依赖图中每个结点的分布状态不随迭代次数的增加而改变;其中,在第t次迭代后结点i的分布状态表示如下:
r → i ( t ) = ( 1 - μ ) A r → i ( t - 1 ) + μ v → i
其中,表示在第t次迭代后结点i的分布状态,t是自然数,i是自然数且1≤i≤n;表示在第t-1次迭代后结点i的分布状态;μ表示在第t次迭代后返回出发结点i的概率,称为重启动因子,μ为实数且表示结点i的重启动向量且若k=i,则vi(k)=1,否则vi(k)=0,k是自然数且1≤k≤n;
步骤34)、根据结点的分布状态,得到其对应的分类。
上述方法中,步骤34)包括:
在表示识别出的实体的结点的分布状态中,将表示分类的结点按该结点对应的分量的值进行排序;
根据排序结果得到识别出的实体对应的分类。
根据本发明的一个实施例,还提供一种面向知识库更新的实体细粒度分类***,包括:
实体识别设备,用于从文本中识别出实体;
依赖图构建设备,用于将识别出的实体、知识库中与其相关的实体以及相关实体在知识库中的分类作为结点构建依赖图,其中依赖图中的边的权值表示该边连接的两个结点之间的相关程度;以及迭代设备,用于通过在所述依赖图上执行重启动随机游走,得到识别出的实体所属的分类。
本发明能够克服现有技术在实体上下文缺乏的情况下难以实现对该实体进行细粒度分类的缺陷,通过建模同一文本中出现的实体之间的语义相关性,以及文本实体与知识库实体及其分类之间的关系,利用该语义相关性和关系为同一文本中实体细粒度分类提供有力的证据支持,并且通过重启动随机游走算法,提升了实体细粒度分类的准确率。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1是根据本发明一个实施例的面向知识库更新的实体细粒度分类方法的流程图;
图2是根据本发明一个实施例的创建依赖图模型的方法的流程图;
图3是根据本发明一个实施例的依赖图的示例;
图4是根据本发明一个实施例的联合推断实体分类的方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
根据本发明的一个实施例,提供一种面向知识库更新的实体细粒度分类方法。
概括而言,该方法包括:从文本中识别出实体;将识别出的实体、知识库中与其相关的实体以及相关实体在知识库中的分类作为结点构建依赖图,其中依赖图中的边的权值表示该边连接的两个结点之间的相关程度;以及,通过在所述依赖图上执行重启动随机游走,得到识别出的实体所属的分类。该方法基于分布假设理论,即两个实体所在的上下文语义相关性越大,则它们属于同一类别的可能性越大。
现参考图1,描述本发明方法的各个步骤。
步骤101:输入要进行处理的文本文档和目标知识库
选择要进行处理的文本文档D和目标知识库KB,初始化***输入。
如上文所述,知识库(Knowledge Base,KB)是由描述知识的实体、分类、关系、属性等要素组成的,因此可将目标知识库KB建模成如下形式:
KB=<C,E,P,R>
其中,C表示目标知识库中包含的分类集合;E和P分别表示属于分类的实体及其属性的集合,R是定义分类、实例、属性之间的关系的函数。在集合E中,每一个实体e可用如下形式来表示:
e=<name,aliases,T>
其中,name表示实体e的名字;aliases表示实体e的别名的集合;T表示实体e的描述文本。实体e的属性集合Pe和实体e所属的分类集合Ce可通过知识库KB的函数R求得,且满足
可利用现有的各种百科数据库资源来建模上述形式的目标知识库,例如,在本步骤中采用基于***创建的知识库作为输入的目标知识库。
步骤102:提取文本文档中包含的实体
利用命名实体识别工具,提取文本文档D中包含的所有实体的集合。
文本文档D中包含的所有实体的集合可记为:
EM={emi|i为整数,0≤i≤|D|}
其中,|D|为文本文档的长度;集合中的每一个元素em用如下形式来表示:
em=<name,D,X>
其中,name表示em的名字;D表示em的来源文本文档,X表示描述em的上下文。在一个实施例中,用em出现在文本文档D周围的词窗口来表示X,窗口大小为k(k为整数且0<k≤|D|),即上下文X的长度为2k(X是由出现在文本文档D前的k个词和文本文档D后的k个词组成的),优选地,k=min(50,|D|)。
本领域技术人员应理解,可利用现有的各种命名实体识别工具来提取文本中的实体。在一个实施例中,利用Stanford NER作为命名实体识别工具。
步骤103:创建依赖图
根据从文本文档D中提取的实体集合EM和目标知识库KB,创建依赖图,从而统一建模文本文档D中不同实体之间的语义相关性,以及文本文档D中的实体与知识库KB中的实体及其所属分类之间的依赖关系。
参考图2,在一个实施例中,创建依赖图包括以下子步骤:
步骤1031:输入从文本文档D中识别的实体集合EM和目标知识库KB。
步骤1032:选择候选实体。
根据描述实体的文本的语义相容度(Semantic Compatibility,SC),在知识库KB中为每一个实体em∈EM选择与其语义相容的候选实体集合,记为:
ESem={e∈E|SC(em,e)>0}
其中,SC(em,e)表示em和知识库实体e之间的语义相容度。在一个实施例中,采用基于Biterm的余弦相似度的方式计算该语义相容度:
SC ( em , e ) = sim ( X , T ) = V &RightArrow; ( X ) &CenterDot; V &RightArrow; ( T ) | V &RightArrow; ( X ) | &CenterDot; | V &RightArrow; ( T ) |
其中,SC(em,e)为实数且0≤SC(em,e)≤10;X为描述em的上下文信息;T为e的描述文本;sim(X,T)为X与T的相似度;为文本中包含的所有的Biterm组成的TF-IDF向量,为向量的模,且一个Biterm为文本中的一个共现的词对。例如,给定文本“苹果应用商店”,该文本通过分词获得三个词“苹果”、“应用”、“商店”,那么该文本包含的Biterm集合为{苹果应用,苹果商店,应用商店}。
根据上述公式,若SC(em,e)>0,则选择e作为em的候选实体,从而获得与em语义相容的候选实体集合ESem
步骤1033:选择候选分类。
根据知识库KB中的关系定义函数R,获得步骤1032中选择的每个候选实体e在知识库KB中所属的分类的集合将其作为候选分类集合。
步骤1034:确立依赖图中的结点及连边信息。
依赖图中的结点集合包括从文本文档D中提取的所有实体(简称文本实体)的集合、与提取的实体语义相容的候选实体(简称知识库实体)的集合,以及候选实体所属的分类(简称知识库分类)的集合。
在确立图中的结点之后,在这些结点之间分配连边及权重,具体包括:
1、在代表文本实体em的结点和代表与其语义相容的知识库实体结点e之间添加连边,边上的权值为它们之间的语义相容度SC(em,e)。
2、在代表知识库实体e的结点和代表其所属的分类c的结点之间添加连边,边上的权值为它们之间的所属关系(Attachment Relatedness,AR),若实体属于该分类,则权值为1.0,若不属于则权值为0.0。
3、在代表知识库实体的两个结点e1和e2之间添加连边,边上的权值为它们之间的语义相关度(Semantic Relatedness,SR)。值得注意的是,在此通过知识库实体之间的语义相关性来间接度量同一文本中实体之间的语义相关性。
在一个实施例中,基于规范化的谷歌距离(*** distance)计算实体e1和e2之间的语义相关度SR(e1,e2):
SR ( e 1 , e 2 ) = 1 - log ( max ( | I 1 | , | I 2 | ) ) - log ( | I 1 &cap; I 2 | ) log ( | Z | ) - log ( min ( | I 1 | , | I 2 | ) )
其中,SR(e1,e2)为实数且0≤SR(e1,e2)≤1.0;I1和I2分别表示知识库KB中,描述实体的文本中出现实体e1和e2的实体的集合,Z表示知识库KB中包含的所有实体的集合,|·|表示集合的大小。
4、在代表知识库分类的两个结点c1和c2之间添加连边,边上的权值为它们之间的相关程度(Correlation,CR)。在一个实施例中,采用Jaccard系数计算分类c1和c2之间的相关度CR(c1,c2):
CR ( c 1 , c 2 ) = | E c 1 &cap; E c 2 | | E c 1 &cup; E c 2 |
其中,CR(c1,c2)为实数且0≤CR(c1,c2)≤1.0,分别表示知识库KB中属于分类c1和c2的实体的集合,|·|表示集合的大小。
通过确立结点和连边,构造了关于文本文档D中所有实体EM的依赖图,记为G=(V,E,W)。G是一个无向图,其中V为图的顶点集合,包括给定文本中所有的实体、与这些实体语义相容的知识库中的所有实体,以及这些实体所属分类的集合。E为这些结点之间的边集合;W:E→R(R是实数)为边上的权值。
给定一段文本“对于球员来说,名人堂是伟大的丰碑,也是对于球员生涯的肯定,是除了冠军戒指之外最好的认可。但是因为球员想进入名人堂都必须等到退役后5年,所以飞人直到2009年才等到了这样的殊荣。不过,这并不妨碍乔丹的名字在NBA乃至全世界篮坛的历史上闪闪发光”。利用命名实体识别工具识别出3个不同的实体:“名人堂”、“乔丹”、“NBA”。利用本发明提供的方法,对这3个实体创建依赖图模型。如图3所示,图中总共包含12个结点:3个文本实体,6个知识库实体和3个知识库分类,并且包含12条边。
步骤104:根据创建的依赖图,联合推断实体的分类信息
在上一步创建的依赖图上,执行随机游走算法,如重启动随机游走算法。不断迭代地在依赖图上做随机游走,直至图中结点的分布状态不随着迭代次数的增加而改变,即达到稳定状态为止。此时,根据代表文本实体的结点的分布状态,获得其对应的分类标签,从而推断出文本实体的细粒度分类信息。
下面将参考图4,结合本发明的一个实施例,对本步骤进行具体说明:
步骤1041:初始化算法输入。
输入创建的依赖图G=(V,E,W)。
步骤1042:初始化依赖图中的结点的分布状态。
记图G中结点的数目为n=|V|,边的数目为m=|E|,G中的结点编号分别为1,…,i,…,n(i为自然数且1≤i≤n)。
设置算法初始时依赖图中结点i的分布状态该分布状态是关于图G中包含的所有结点的一个n x 1维的列向量,其中n是图G中结点的数目。记为:
r &RightArrow; i ( 0 ) = ( r i ( 1 ) , . . . , r i ( k ) , . . . , r i ( n ) )
其中,对于该向量中的每一个分量ri(k)的取值如下:若k=i,则ri(k)=1,否则ri(k)=0,k是自然数且1≤k≤n。
步骤1043:根据依赖图G=(V,E,W)的邻接矩阵U=(uij),计算随机游走过程中状态转移概率矩阵A=(aij),i、j是自然数且满足1≤i,j≤n。对于邻接矩阵U,uij取值如下:
其中,wij为结点i和结点j之间的连边上的权重,由G=(V,E,W)中的W:E→R(R是实数)来确定。
对于状态转移概率矩阵A,aij表示在重启动随机游走过程中,从结点i转移到结点j的概率。记图G=(V,E,W)中结点i与其他所有结点组成的邻接向量为邻接向量即为邻接矩阵U中第i行元素组成的向量,k是自然数且1≤k≤n。根据结点i的邻接向量,按照如下方式计算aij
从上式可知,若i=j或者结点i和j之间不存在连边,则aij=0;若结点i和j之间存在连边,则aij的取值与结点i和结点j之间边上的权重成比例,即为结点i和结点j之间连边上的权重与连接结点i的所有连边上的权重和之比。
步骤1044:在依赖图上,从出发结点i开始,不断迭代地向其周围的邻居结点进行状态转移。在第t次迭代后,图中结点i的分布状态表示如下:
r &RightArrow; i ( t ) = ( 1 - &mu; ) A r &RightArrow; i ( t - 1 ) + &mu; v &RightArrow; i
其中,t为自然数;表示在第t-1次迭代后结点i的分布状态;表示在第t次迭代后结点i的分布状态;μ表示在第t次迭代后返回出发结点i的概率(称为重启动因子,μ为实数且0<μ<1,优选为0.15);是结点i的重启动向量,是一个关于图G中包含的所有结点的一个n x 1维的列向量,n是图G中结点的数目,记为其中向量中的每一个分量vi(k)的取值如下:若k=i,则vi(k)=1,否则vi(k)=0,k是自然数且1≤k≤n。
重复执行步骤1044,直至依赖图中每个结点i(i为自然数且1≤i≤n)的分布状态达到稳定时终止算法。也就是说,依赖图中的结点i的分布状态不再随着迭代次数t的增加而改变(结点的分布达到稳定状态)。此时,根据代表文本实体的结点的分布状态,获得其对应的分类标签,从而推断出该文本实体具体的分类信息。
具体地,根据上文所讨论的,是关于图G中包含的所有结点的一个n x 1维的列向量。对于达到稳定状态的结点i的分布状态其也是关于图G中包含的所有结点的一个n x 1维的列向量,因此图G中的分类结点也包含在这个向量中。在向量中,分类结点所对应的分量的值作为通过重启动随机游走之后结点i表示的实体属于该分类的概率值,通过概率排序可获得结点i表示的实体所对应的分类标签(即选择最大概率对应的分类)。
联合推断文本实体的分类是为了利用知识库的分类信息对文本实体标注其所属的知识库分类,通过同一文本中一个实体分类的推断对另一个实体的分类推断的相互促进作用,同时实现对同一文本中所有实体的分类的推断。
根据本发明的一个实施例,还提供一种面向知识库更新的实体细粒度分类***,包括实体识别设备、依赖图构建设备和迭代设备。
其中实体识别设备用于从文本中识别出实体,例如,如上文所述的命名实体识别工具。依赖图构建设备用于将识别出的实体、知识库中与其相关的实体以及相关实体在知识库中的分类作为结点构建依赖图。迭代设备用于通过在所述依赖图上执行重启动随机游走,得到识别出的实体所属的分类。
为验证本发明提供的面向知识库更新的实体细粒度分类方法与***的有效性,发明人分别采用现有最新的实体分类技术(APOLLO)和本发明提供的方法,在真实YAGO数据集上进行了实验,实验参数如下:
实验所用的实体是利用YAGO中person分类的15个子目录下随机选择出来的数据组成的,其中从每个目录下随机最多选择200个实体,共计选择出2650个实体作为最终的数据集DSec。设置DSec中用作训练的数据占总数据的比例ρ=0.8,迭代次数t=10,重启动因子μ=0.15,窗口大小k=50。
经过实验得到如下结果:采用现有APOLLO技术的分类准确率为0.7254,而采用本发明提供的方法和***所得到分类结果的准确率为0.7708。采用本发明提供的实体细粒度分类方法和***与采用现有的APOLLO技术相比,准确率提升了4.5%左右。
综上,本发明提供了一种面向知识库更新的实体细粒度分类方法与***,该方法基于依赖图,建模同一文本中出现的实体之间的语义相关性,并利用此相关性为同一文本中实体细粒度的分类提供有力的证据支持,通过基于重启动随机游走算法的联合推断方法,实现实体细粒度分类的准确率的提升。
应当理解,虽然本说明书是按照各个实施例描述的,但并非每个实施例仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
以上所述仅为本发明示意性的具体实施方式,并非用以限定本发明的范围。任何本领域的技术人员,在不脱离本发明的构思和原则的前提下所作的等同变化、修改与结合,均应属于本发明保护的范围。

Claims (10)

1.一种面向知识库更新的实体细粒度分类方法,包括:
步骤1)、从文本中识别出实体;
步骤2)、将识别出的实体、知识库中与其相关的实体以及相关实体在知识库中的分类作为结点构建依赖图,其中依赖图中的边的权值表示该边连接的两个结点之间的相关程度;
步骤3)、通过在所述依赖图上执行重启动随机游走,得到识别出的实体所属的分类。
2.根据权利要求1所述的方法,其中,步骤2)包括:
步骤21)、根据语义相容度获得识别出的实体在知识库中的相关实体,并且获得该相关实体在知识库中的分类;其中,语义相容度表示识别出的实体的上下文信息与相关实体的描述文本的相似度;
步骤22)、将识别出的实体、知识库中与其相关的实体以及相关实体在知识库中的分类作为结点;
步骤23)、在表示识别出的实体的结点和表示相关实体的结点之间添加边,边的权值为该识别出的实体与该相关实体之间的语义相容度;
在表示相关实体的结点和表示分类的结点之间添加边,边的权值指示该相关实体是否属于该分类;
在表示相关实体的结点之间添加边,边的权值为该相关实体之间的语义相关度;
在表示分类的结点之间添加边,边的权值为该分类之间的相关度。
3.根据权利要求2所述的方法,其中,根据下式计算语义相容度:
SC ( em , e ) = sim ( X , T ) = V &RightArrow; ( X ) &CenterDot; V &RightArrow; ( T ) | V &RightArrow; ( X ) | &CenterDot; | V &RightArrow; ( T ) |
其中,SC(em,e)表示识别出的实体em与知识库中的相关实体e的语义相容度,X表示em的上下文信息,T表示e的描述文本,表示文本中包含的所有Biterm组成的TF-IDF向量,表示向量的模,Biterm表示文本中共现的词对。
4.根据权利要求3所述的方法,其中,识别出的实体的上下文信息是由出现在所述文本之前和之后的词组成的。
5.根据权利要求3或4所述的方法,其中,步骤21)包括:
将知识库中与识别出的实体的语义相容度大于0的实体作为相关实体。
6.根据权利要求2所述的方法,其中,根据下式计算相关实体之间的语义相关度:
SR ( e 1 , e 2 ) = 1 - log ( max ( | I 1 | , | I 2 | ) ) - log ( | I 1 &cap; I 2 | ) log ( | Z | ) - log ( min ( | I 1 | , | I 2 | ) )
其中,SR(e1,e2)表示知识库中的相关实体e1和e2的语义相关度,I1和I2分别表示知识库中描述实体的文本中出现实体e1和e2的实体的集合,Z表示知识库中包含的所有实体的集合,|·|表示集合的大小。
7.根据权利要求2所述的方法,其中,根据下式计算分类之间的相关度:
CR ( c 1 , c 2 ) = | E c 1 &cap; E c 2 | | E c 1 &cup; E c 2 |
其中,CR(c1,c2)表示分类c1和c2之间的相关度,分别表示知识库中属于分类c1和c2的实体的集合,|·|表示集合的大小。
8.根据权利要求1-4中任何一个所述的方法,其中,步骤3)包括:
步骤31)、根据下式初始化所述依赖图中结点的分布状态:
r &RightArrow; i ( 0 ) = ( r i ( 1 ) , . . . , r i ( k ) , . . . , r i ( n ) )
其中,n表示结点总数,表示结点i的初始分布状态;若k=i,则ri(k)=1,否则ri(k)=0,k是自然数且1≤k≤n;
步骤32)、计算状态转移概率矩阵A=(aij):
其中,aij表示在重启动随机游走过程中从结点i转移到结点j的概率,i、j是自然数且满足1≤i,j≤n;wij为结点i和结点j之间的边的权重;表示连接结点i的所有边的权重之和;
步骤33)、对于每个结点,迭代地向其邻居结点进行状态转移,直到所述依赖图中每个结点的分布状态不随迭代次数的增加而改变;其中,在第t次迭代后结点i的分布状态表示如下:
r &RightArrow; i ( t ) = ( 1 - &mu; ) A r &RightArrow; i ( t - 1 ) + &mu; v &RightArrow; i
其中,表示在第t次迭代后结点i的分布状态,t是自然数,i是自然数且1≤i≤n,;表示在第t-1次迭代后结点i的分布状态;μ表示在第t次迭代后返回出发结点i的概率,μ为实数且0<μ<1;表示结点i的重启动向量且若k=i,则vi(k)=1,否则vi(k)=0,k是自然数且1≤k≤n;
步骤34)、根据结点的分布状态,得到其对应的分类。
9.根据权利要求8所述的方法,其中,步骤34)包括:
在表示识别出的实体的结点的分布状态中,将表示分类的结点按该结点对应的分量的值进行排序;
根据排序结果得到识别出的实体对应的分类。
10.一种面向知识库更新的实体细粒度分类***,包括:
实体识别设备,用于从文本中识别出实体;
依赖图构建设备,用于将识别出的实体、知识库中与其相关的实体以及相关实体在知识库中的分类作为结点构建依赖图,其中依赖图中的边的权值表示该边连接的两个结点之间的相关程度;以及
迭代设备,用于通过在所述依赖图上执行重启动随机游走,得到识别出的实体所属的分类。
CN201510033050.4A 2015-01-22 2015-01-22 一种面向知识库更新的实体细粒度分类方法与*** Active CN104615687B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510033050.4A CN104615687B (zh) 2015-01-22 2015-01-22 一种面向知识库更新的实体细粒度分类方法与***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510033050.4A CN104615687B (zh) 2015-01-22 2015-01-22 一种面向知识库更新的实体细粒度分类方法与***

Publications (2)

Publication Number Publication Date
CN104615687A true CN104615687A (zh) 2015-05-13
CN104615687B CN104615687B (zh) 2018-05-22

Family

ID=53150129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510033050.4A Active CN104615687B (zh) 2015-01-22 2015-01-22 一种面向知识库更新的实体细粒度分类方法与***

Country Status (1)

Country Link
CN (1) CN104615687B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677913A (zh) * 2016-02-29 2016-06-15 哈尔滨工业大学 一种基于机器翻译的中文语义知识库的构建方法
CN105787105A (zh) * 2016-03-21 2016-07-20 浙江大学 一种基于迭代模型的中文百科知识图谱分类体系构建方法
CN106339401A (zh) * 2015-07-16 2017-01-18 富士通株式会社 确定实体之间的关系的方法和设备
CN107092605A (zh) * 2016-02-18 2017-08-25 北大方正集团有限公司 一种实体链接方法及装置
CN107545033A (zh) * 2017-07-24 2018-01-05 清华大学 一种基于表示学习的知识库实体分类的计算方法
CN107704892A (zh) * 2017-11-07 2018-02-16 宁波爱信诺航天信息有限公司 一种基于贝叶斯模型的商品编码分类方法以及***
CN108009184A (zh) * 2016-10-27 2018-05-08 北大方正集团有限公司 知识库同名实例混淆检测的方法及装置
CN108052625A (zh) * 2017-12-18 2018-05-18 清华大学 一种实体精细分类方法
CN108170689A (zh) * 2016-12-07 2018-06-15 富士通株式会社 对实体进行语义化的信息处理装置和信息处理方法
CN108460011A (zh) * 2018-02-01 2018-08-28 北京百度网讯科技有限公司 一种实体概念标注方法及***
CN108804599A (zh) * 2018-05-29 2018-11-13 浙江大学 一种相似子图的快速查找方法
CN110019840A (zh) * 2018-07-20 2019-07-16 腾讯科技(深圳)有限公司 一种知识图谱中实体更新的方法、装置和服务器
CN110377744A (zh) * 2019-07-26 2019-10-25 北京香侬慧语科技有限责任公司 一种舆情分类的方法、装置、存储介质及电子设备
CN110427606A (zh) * 2019-06-06 2019-11-08 福建奇点时空数字科技有限公司 一种基于语义模型的专业实体相似度计算方法
CN111428506A (zh) * 2020-03-31 2020-07-17 联想(北京)有限公司 实体分类方法、实体分类装置和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034693A (zh) * 2012-12-03 2013-04-10 哈尔滨工业大学 开放式实体及其类型识别方法
US8538916B1 (en) * 2010-04-09 2013-09-17 Google Inc. Extracting instance attributes from text
CN103678316A (zh) * 2012-08-31 2014-03-26 富士通株式会社 实体关系分类装置和实体关系分类方法
CN104182463A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于语义的文本分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8538916B1 (en) * 2010-04-09 2013-09-17 Google Inc. Extracting instance attributes from text
CN103678316A (zh) * 2012-08-31 2014-03-26 富士通株式会社 实体关系分类装置和实体关系分类方法
CN103034693A (zh) * 2012-12-03 2013-04-10 哈尔滨工业大学 开放式实体及其类型识别方法
CN104182463A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于语义的文本分类方法

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106339401A (zh) * 2015-07-16 2017-01-18 富士通株式会社 确定实体之间的关系的方法和设备
CN107092605A (zh) * 2016-02-18 2017-08-25 北大方正集团有限公司 一种实体链接方法及装置
CN105677913A (zh) * 2016-02-29 2016-06-15 哈尔滨工业大学 一种基于机器翻译的中文语义知识库的构建方法
CN105677913B (zh) * 2016-02-29 2019-04-26 哈尔滨工业大学 一种基于机器翻译的中文语义知识库的构建方法
CN105787105A (zh) * 2016-03-21 2016-07-20 浙江大学 一种基于迭代模型的中文百科知识图谱分类体系构建方法
CN105787105B (zh) * 2016-03-21 2019-04-19 浙江大学 一种基于迭代模型的中文百科知识图谱分类体系构建方法
CN108009184A (zh) * 2016-10-27 2018-05-08 北大方正集团有限公司 知识库同名实例混淆检测的方法及装置
CN108009184B (zh) * 2016-10-27 2021-08-27 北大方正集团有限公司 知识库同名实例混淆检测的方法及装置
CN108170689A (zh) * 2016-12-07 2018-06-15 富士通株式会社 对实体进行语义化的信息处理装置和信息处理方法
CN107545033A (zh) * 2017-07-24 2018-01-05 清华大学 一种基于表示学习的知识库实体分类的计算方法
CN107545033B (zh) * 2017-07-24 2020-12-01 清华大学 一种基于表示学习的知识库实体分类的计算方法
CN107704892A (zh) * 2017-11-07 2018-02-16 宁波爱信诺航天信息有限公司 一种基于贝叶斯模型的商品编码分类方法以及***
CN107704892B (zh) * 2017-11-07 2019-05-17 宁波爱信诺航天信息有限公司 一种基于贝叶斯模型的商品编码分类方法以及***
CN108052625A (zh) * 2017-12-18 2018-05-18 清华大学 一种实体精细分类方法
CN108052625B (zh) * 2017-12-18 2020-05-19 清华大学 一种实体精细分类方法
CN108460011A (zh) * 2018-02-01 2018-08-28 北京百度网讯科技有限公司 一种实体概念标注方法及***
CN108460011B (zh) * 2018-02-01 2022-03-25 北京百度网讯科技有限公司 一种实体概念标注方法及***
CN108804599A (zh) * 2018-05-29 2018-11-13 浙江大学 一种相似子图的快速查找方法
CN108804599B (zh) * 2018-05-29 2022-01-04 浙江大学 一种相似交易模式的快速查找方法
CN110019840A (zh) * 2018-07-20 2019-07-16 腾讯科技(深圳)有限公司 一种知识图谱中实体更新的方法、装置和服务器
CN110427606A (zh) * 2019-06-06 2019-11-08 福建奇点时空数字科技有限公司 一种基于语义模型的专业实体相似度计算方法
CN110377744A (zh) * 2019-07-26 2019-10-25 北京香侬慧语科技有限责任公司 一种舆情分类的方法、装置、存储介质及电子设备
CN111428506A (zh) * 2020-03-31 2020-07-17 联想(北京)有限公司 实体分类方法、实体分类装置和电子设备
CN111428506B (zh) * 2020-03-31 2023-02-21 联想(北京)有限公司 实体分类方法、实体分类装置和电子设备

Also Published As

Publication number Publication date
CN104615687B (zh) 2018-05-22

Similar Documents

Publication Publication Date Title
CN104615687A (zh) 一种面向知识库更新的实体细粒度分类方法与***
Gao et al. Collaborative learning-based industrial IoT API recommendation for software-defined devices: the implicit knowledge discovery perspective
CN106777274B (zh) 一种中文旅游领域知识图谱构建方法及***
Xu et al. Topic based context-aware travel recommendation method exploiting geotagged photos
Jiang et al. Author topic model-based collaborative filtering for personalized POI recommendations
CN105183869B (zh) 楼宇知识图谱数据库及其构建方法
Yu et al. Geo-friends recommendation in gps-based cyber-physical social network
CN104008203B (zh) 一种融入本体情境的用户兴趣挖掘方法
CN109299090B (zh) 基金中心度计算方法、***、计算机设备和存储介质
CN102902821B (zh) 基于网络热点话题的图像高级语义标注、检索方法及装置
CN103116657B (zh) 一种网络教学资源的个性化搜索方法
JP5092165B2 (ja) データ構築方法とシステム
CN103064924A (zh) 一种基于地理标注照片挖掘的旅游地点情境化推荐方法
CN105718579A (zh) 一种基于上网日志挖掘和用户活动识别的信息推送方法
CN107391542A (zh) 一种基于文件知识图谱的开源软件社区专家推荐方法
CN110457404A (zh) 基于复杂异质网络的社交媒体账户分类方法
CN104572797A (zh) 基于主题模型的个性化服务推荐***和方法
CN103678431A (zh) 一种基于标准标签和项目评分的推荐方法
CN104239513A (zh) 一种面向领域数据的语义检索方法
CN107944898A (zh) 广告投放楼宇信息的自动发现与排序方法
CN106960044A (zh) 一种基于张量分解及加权hits的时间感知个性化poi推荐方法
CN106233288A (zh) 重新评级位置细化和多样性的搜索结果
Bagci et al. Random walk based context-aware activity recommendation for location based social networks
CN105678590A (zh) 一种面向社交网络基于云模型的topN推荐方法
CN105654144A (zh) 一种基于机器学习的社交网络本体构建方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Cheng Xueqi

Inventor after: Wang Yuanzhuo

Inventor after: Lin Hailun

Inventor after: Jia Yantao

Inventor after: Jin Xiaolong

Inventor after: Xiong Jinhua

Inventor after: Li Manling

Inventor after: Chang Yuxiao

Inventor after: Xu Hongbo

Inventor before: Cheng Xueqi

Inventor before: Wang Yuanzhuo

Inventor before: Lin Hailun

Inventor before: Jia Yantao

Inventor before: Xiong Jinhua

Inventor before: Li Manling

Inventor before: Chang Yuxiao

Inventor before: Xu Hongbo

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant