CN101882259A - 用于对实体关系实例进行过滤的方法和设备 - Google Patents

用于对实体关系实例进行过滤的方法和设备 Download PDF

Info

Publication number
CN101882259A
CN101882259A CN2009101380558A CN200910138055A CN101882259A CN 101882259 A CN101882259 A CN 101882259A CN 2009101380558 A CN2009101380558 A CN 2009101380558A CN 200910138055 A CN200910138055 A CN 200910138055A CN 101882259 A CN101882259 A CN 101882259A
Authority
CN
China
Prior art keywords
entity relationship
confidence level
relationship example
entity
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009101380558A
Other languages
English (en)
Inventor
沈国阳
胡长建
许洪志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC China Co Ltd
Renesas Electronics China Co Ltd
Original Assignee
NEC China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC China Co Ltd filed Critical NEC China Co Ltd
Priority to CN2009101380558A priority Critical patent/CN101882259A/zh
Publication of CN101882259A publication Critical patent/CN101882259A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种对实体关系实例进行过滤的方法和设备。所述方法可以包括:基于实体关系实例的可靠性相关信息来对实体关系实例的可靠性进行标记;以及对经过标记的实体关系实例进行过滤,以得到可靠的实体关系实例。通过本发明,可以得到精确度更高的实体关系实例,为基于实体关系实例的高层分析提供了更加可靠的基础,从而使得得到的实体关系实例对于高层决策具有更大的实用性。

Description

用于对实体关系实例进行过滤的方法和设备
技术领域
本发明涉及信息抽取的技术领域,更具体地涉及用于对实体关系实例进行过滤的方法和设备。
背景技术
随着经济全球化的不断发展、市场区域的持续扩大以及竞争对手的不断增多,对于企业而言,拥有对外界信息进行捕捉和处理的能力显得愈发重要。具体来说,就是需要这样一种技术处理能力,即,通过对与之相关企业的商业关系分析营造出一个虚拟的企业经营环境,用以帮助企业各级决策者获得知识和洞察力,进而做出对企业更为有利的决策。
信息抽取是构筑上述技术处理能力的核心技术之一,而实体关系抽取继而是信息抽取领域中的重要研究课题之一。实体关系抽取是一种用于自动地从文本中发现实体之间的关系的技术。例如,对于给定文本“AMD plans to compete with Intel atom chip”,根据该技术能够自动分析出命名实体“AMD”和“Intel”之间存在“竞争(compete)”关系。实体关系抽取作为信息抽取领域的重要技术之一,其处理结果将会直接影响到更高层分析,例如企业商业信息处理。因此,高效准确的实体关系抽取方法是对于实体关系抽取而言是非常重要的。
从技术的角度来讲,实体关系抽取是要自动识别用自然语言表达的两个实体之间的关联。在现有技术中,通常使用的方法主要包括基于规则的抽取方法和机器学习的抽取方法。基于规则的抽取方法需要针对不同的领域由专家构造相应的知识库。而另外一种基于机器学习的抽取方法则是将关系抽取转换为分类问题,其通过构造关系候选,利用机器学习得到分类器,从而利用该分类器将关系标注为属于哪个预定义的关系。由于关系抽取问题本身具有极大的复杂性,所以无论是规则方法还是机器学习方法都无法达到令人满意的抽取精度。另外,使用不可信的数据源信息也会引入额外的干扰,这使得关系抽取距离实际应用的要求还相差很大的距离。
为得到比较精确的抽取结果,现有技术中的一个可行的办法就是对抽取后的结果进行分析和过滤,以便剔除错误的抽取结果,提高实体关系实例的精度,进而满足实际应用的需要。因此,如何构造一个高效的实体关系过滤机制就变成一个实用的并且亟待解决的问题。
对于实体关系过滤问题,现有技术中存在一些相关的解决方案。例如,在Katrin Fundel、Robert Küffner和Ralf Zimmer于2006年12月在Bioinformatics中发表的“RelEx-Relation extraction using dependency parse trees”(v.23n.3,p.365-371)中,公开了基于规则的关系过滤方法,也可以称为后处理步骤。在该文献中引入专家知识,并构建四种过滤机制来对抽取的实体关系进行进一步修正和过滤。
这四种处理机制分别对应于四个过滤步骤:
1)否定检查,即确定一个关系是否为否定关系。如果候选关系的节点或者各个子结点的节点中包含否定含义的词,比如:“no(不)”、“not(非)”、“nor(也不)”、“neither(均不)”、“without(没有)”、“lack(缺少)”、“fail(s,ed)(未能)”、“unable(s)(不能)”、“abrogate(s,d)(取消)”、“absen(ce,t))(缺乏)”等词,则该关系被认为是否定的。根据该文献中的方法,将会把这些否定的关系剔除。
2)施事-受事检测。施事是指语法上的动作主体,受事是指语法上的动作对象。在一对关系中,通常先出现的实体为施事,而后出现的为受事。如果检测到对应的上下文描述为被动语态,那么则将实体关系中的施事和受事的角色调换。在该文献中,通过一系列预先定义的词来判断上下文的语态是否是被动语态。
3)枚举消解。通过分析与检测到的关系对应的名词短语块,来判断是否存在并列枚举的实体,如果存在枚举的实体,则生成多个类似的实体关系实例。
4)兴趣域过滤。在该处理机制中,预先定义一系列领域相关词或者词组,并检测与检查到的关系对应的文本是否包含该领域相关词或者词组,如果不包含该领域相关词或者词组,则将该实体关系实例剔除。
从该文献的公开内容可以看出,这些过滤机制在一定程度上解决了滤除错误关系实例的问题。然而,事实上,实体关系实例的精确度仍然有待提高。
发明内容
为此,本发明目的之一在于提供了一种用于对实体关系实例进行过滤的方法和设备,以便提高得到的实体关系实例的精度。
根据本发明的一个方面,提供了一种用于对实体关系实例进行过滤的方法。所述方法可以包括:基于实体关系实例的可靠性相关信息来对实体关系实例的可靠性进行标记;以及对经过标记的实体关系实例进行过滤,以得到可靠的实体关系实例。
在根据本发明的一个实施方式中,对实体关系实例的可靠性进行标记可以包括:基于该实体关系实例的可靠性相关信息确定该实体关系实例的可信度;以及比较所确定的可信度与预定的可信度阈值,以将实体关系实例标记为可靠或者不可靠。
根据本发明的另一实施方式,所述可靠性相关信息可以包括:实体关系实例的数据源的可信度和实体关系实例的抽取规则的可信度中的至少一个,以及基于实体关系实例的数据源的可信度和实体关系实例的抽取规则的可信度中的至少一个来确定该实体关系的可信度。
根据本发明的再一实施方式,可以通过计算与该数据源相关的、预先经过标记的多个实体关系实例中可靠实体关系实例的比例来得到该数据源的可信度。
根据本发明的又一实施方式,可以基于包括该数据源的多个数据源之间的关联关系和其中部分数据源的已知初始可信度,通过预定迭代算法,来得到该多个数据源的可信度。
根据本发明的另一实施方式,所述抽取规则的可信度可以通过计算与该抽取规则相关的、预先经过标记的多个实体关系实例中可靠实体关系实例的比例而得到。
根据本发明的再一实施方式,所述可靠性相关信息可以包括广域上下文信息和预定的广域上下文判定规则,以及其中基于广域上下文信息和预定的广域上下文判定规则来确定该实体关系实例的可信度。
根据本发明的又一实施方式,所述可靠性相关信息可以进一步包括广域上下文信息和预定的广域上下文判定规则,以及其中进一步基于广域上下文信息和预定的广域上下文判定规则来确定该实体关系实例的可信度。
根据本发明的另一实施方式,所述广域上下文信息可以是与该实体关系实例相关的实体的商业类型信息,以及所述预定的广域上下文判定规则是与实体商业类型信息相关的规则。
根据本发明的再一实施方式,所述可靠性相关信息可以包括关系历史判定规则,以及其中基于关系历史判定规则对涉及相同实体对的实体关系实例进行标记。
根据本发明的又一实施方式,所述关系历史判定规则可以包括施事-受事关系对和/或关系变化模式。
根据本发明的另一实施方式,所述可靠性相关信息可以进一步包括关系历史判定规则,以及其中进一步基于关系历史判定规则对涉及相同实体对的实体关系实例进行标记。
根据本发明的再一实施方式,可以进一步包括将经过标记的、可信度在预定阈值范围内的实体关系实例保存到库中。
根据本发明的另一方面,提供了一种用于对实体关系实例进行过滤的设备。所述设备包括:标记装置,用于基于实体关系实例的可靠性相关信息来对实体关系实例的可靠性进行标记;以及过滤装置,用于对经过标记的实体关系实例进行过滤,以得到可靠的实体关系实例。
通过本发明,可以得到精确度更高的实体关系实例,为基于实体关系实例的高层分析提供了更加可靠的基础,使得得到的实体关系实例对于高层决策具有更大的实用性。
附图说明
通过对结合附图所示出的实施方式进行详细说明,本发明的上述以及其他特征将更加明显,本发明附图中相同的标号表示相同或相似的部件。在附图中,
图1示意性地示出根据本发明一个实施方式的用于对实体关系实例进行过滤的方法的流程图;
图2示意性地示出根据本发明一个实施方式的用于对实体关系实例进行标记的方法的过程图;
图3示意性地示出了根据本发明的用于计算数据源可信度的网络图;
图4示意性地示出了根据本发明另一实施方式的用于对实体关系实例进行标记的方法的过程图;
图5示意性地示出了根据本发明再一实施方式的用于对实体关系实例进行标记的方法的过程图;
图6示意性地示出关系方向异常突变的图示;
图7示意性地示出了根据本发明另一实施方式的用于对实体关系实例进行过滤的方法的流程图;
图8示意性地示出了根据本发明再一实施方式的用于对实体关系实例进行过滤的方法的流程图;以及
图9示意性地示出了根据本发明一个实施方式的用于对实体关系实例进行过滤的设备的方框图。
具体实施方式
在下文中,将参考附图通过实施方式对本发明提供的用于对实体关系实例进行过滤的方法和设备进行详细的描述。
首先,将参考图1描述根据本发明一个实施方式的方法。图1示出了根据本发明一个实施方式的用于对实体关系实例进行过滤的方法的流程图。
如图1所示,在步骤101,基于实体关系实例的可靠性相关信息来对实体关系实例的可靠性进行标记。
根据本发明的一种实施方式,可以首先根据与实体关系实例的可靠性相关的信息来确定该实体关系实例的可信度,然后基于该可信度和一个预定的阈值来进行可靠性标记。下面将参考图2至图4来描述这种实施方式。
参考图2,图2示出了根据本发明一个实施方式对实体关系实例进行标记的方法的过程图。在该实施方式中,可靠性相关信息是实体关系实例的数据源的可信度。
如图2所示,在块201输入待标记的实体关系实例,实体关系实例可以手动输入也可以由其他程序通过接口导入。实体关系实例典型地是借助于实体关系抽取技术从数据源的文本抽取得到的信息。每个实体关系实例至少包括两个实体及两个实体之间的关系类型。这两个实体可以分别是施事实体和受事实体,例如,具有收购关系或者供货关系的两个实体;也可以是具有对等关系的两个实体,例如具有竞争关系的两个实体。
根据本发明,实体关系实例可以进一步包括指示该实体关系实例来源的数据源(诸如网站、信息库或者其他信息源),还可以进一步包括抽取该实体关系实例所使用的规则或者方法。此外,还可以包括用于表示实体关系实例的可靠性的一个或多个检测标记。
实体关系实例在后台可以以下面给出的数据结构来存储:
  实体A
  实体B
  关系类型
  数据源
  应用规则
  检测标记
表1实体关系实例的数据结构
另外,为了便于理解,在表2中给出了数据库中存储的几个实体关系实例的例子:
 实体A  实体B   关系类型   数据源  应用规则   检测标记
  搜狐   新浪   竞争   网站A  抽取规则a
  谷歌   百度   竞争   网站C  抽取规则b
  微软   谷歌   竞争   网站A  抽取规则a
表2待标记实体关系实例的例子
需要说明的是,待标记的实体关系实例可以是经过实体关系抽取后得到的实体关系实例,也可以是采用了现有技术中的过滤方法后得到的实体关系实例。
继续参考图2,在块202,根据数据库207中与该实体关系实例相关联的数据源的可信度来确定该实体关系实例的可信度。数据库207是配置用于存储数据源可信度的库。该数据源可信度是在块206计算得到并被存储在数据库207中的。在图2示出的实施方式中,可以基于包括该实体关系实例的数据源的多个数据源之间的关联信息(存储在数据库205)和其中部分数据源的已知初始可信度(由数据库208中存储的经过标记的实体关系实例得到),通过预定迭代算法,得到多个数据源的可信度。在下文中,将参考图3来描述基于数据源之间的关联关系和已知初始可信度来计算数据源的可信度的一个实施例。
在该实施例中,假设存在6个数据源,即网站1至网站6。基于这些网站之间的链接关系,可以形成如图3所示的网络图G=(V,ε),其中V是图G的顶点,ε是图中连接各顶点的边。在图3所示的图中,顶点1至顶点6分别代表网站1至网站6。
如图3所示,由于网站1中包括至网站3和网站6的超级链接,所以顶点1具有分别指向顶点3和顶点6的两条边。类似地,网站2中包括至网站1的超级链接,因而顶点2具有指向顶点1的边;网站3中不包括至任何网站的超级链接,所以节点3没有任何指向其他顶点的边;网站4中包括至网站3的超级链接,因而顶点4具有指向顶点3的边;网站5中包括至网站2和网站4的超级链接,因而顶点5具有指向顶点2和顶点4的边;以及网站6中包括至网站3和网站5的超级链接,因而顶点6具有指向顶点3和顶点5的边。
接着,可以根据图3示出的图按照下式计算出信任值(TrustRank)矩阵T:
T ( p , q ) = 0 if ( q , p ) ∉ ϵ 1 / ω ( q ) if ( q , p ) ∈ ϵ 式1
其中,p和q表示图中顶点的编号,ω(q)是指编号为q的顶点指向外部的边的数目,即出度。根据该式1,如果在顶点q和顶点p之间存在由顶点q指向顶点p的边,则该信任值矩阵T的第p行第q列的元素的矩阵元素T(p,q)为1/ω(q),否则为0。例如,对于第1行第2个元素T(1,2),由于在顶点1和顶点2之间存在由顶点2指向顶点1的边,所以T(1,2)为1/ω(q),而ω(q),即指向外部的边数为1,因此T(1,2)为1。因此,根据上述式1以及图3中的图,可以得到如下所示出的信任值矩阵T。
T = 0 1 0 0 0 0 0 0 0 0 1 / 2 0 1 / 2 0 0 1 0 1 / 2 0 0 0 0 1 / 2 0 0 0 0 0 0 1 / 2 1 / 2 0 0 0 0 0
另外,假定根据数据库208中存储的经过标记的实体关系实例可以获知网站1和网站2的可信度初始值分别为0.9和0.8。于是,可以据此得到所有网站1至网站6的可信度初始向量:
d=[0.9,0.8,0,0,0,0]T
在初始向量d中,与网站1和网站2对应的元素值被设为网站1和网站2的已知可信度,而与其余可信度未知的网站对应的元素值被设为0。
然后,可以根据如下迭代算法来得到可靠度数值。
for i=1to IterNum
do R=a·T·R+(1-a)·d
其中,T为上述计算得到的信任值矩阵T,R的初始值为可信度初始矩阵d,而a为衰减因子。
在经过若干次迭代之后趋于稳定时,可以得到向量R,即为网站的可信度。对于该实例,得到的可信度为:
R=[0.8,0.7,0.8,0.4,0.2,0.3]
得到的各个网站的可信度可以存储在数据库207中。
在该实施例中,网站1和网站2的初始可信度可以通过分别计算数据库208中与网站1和网站2相关的预先经过标记的多个实体关系实例中可靠实体关系实例的比例而得到的。另外,部分网站的已知初始可信度也可以是具有可信来源的可信度值。 
关于网站可信度的计算的更为详尽的信息,可以参考
Figure B2009101380558D0000092
Zoltán、Hector Garcia-Molina、Jan Pedersen等人于2004在第三十届超大型数据库国际会议(VLDB)论文集中发表的“Combating Web Spam with Trust Rank”一文。
另外,除了按照上述实施例通过迭代算法得到各个数据源的可信度之外,数据源的可信度也可以是具有高可靠来源的设定值。此外,也可以通过计算数据库208中存储的、与该数据源相关的预先经过标记的多个实体关系实例中可靠实体关系实例的比例而得到各个数据源的可信度。在这种情况下,同样需要预先提供与各个数据源相关的、较大数量经过标记的实体关系实例,以便确保得到数据源的可信度的准确性。
这样,通过上文所描述的各种实施例,就可以得到数据源的可信度,并可以将待标记的实体关系实例的可信度确定为其数据源的可信度。
接着,可以在块203根据所确定的实体关系实例的可信度以及预定阈值对实体关系实例进行标记。
出于说明的目的,假定在块201输入的待标记实体关系实例为以下给出的实体关系实例:
RI1={<British Telecom,MCI>,收购,Rule 1,Source 1}
RI2={<MCI,British Telecom>,收购,Rule 2,Source 4}
RI3={<British Telecom,MCI>,收购,Rule 3,Source 3}
对于通过迭代算法得到的可信度R=[0.8,0.7,0.8,0.4,0.2,0.3]以及预定的可信度阈值0.7,则可以分别将实体关系实例RI1、RI2和RI3标记为:
RI1={<British Telecom,MCI>,收购,Rule 1,Source 1,数据源-可靠}
RI2={<MCI,British Telecom>,收购,Rule 2,Source 4,数据源-不可靠}
RI3={<British Telecom,MCI>,收购,Rule 3,Source 3,数据源-可靠}
这样,就分别为各个待标记的实体关系实例添加了数据源相关的可靠性标记。
在上文中描述了基于数据源的可信度对实体关系实例进行标记的实施方式,然而本发明并不局限于此。在本发明的另一个实施方式中,实体关系实例的可靠性相关信息包括该实体关系实例的抽取规则的可靠性。在实体关系抽取中,抽取规则对实体关系的可靠性也起到非常重要的作用,因此可以根据与实体关系实例的抽取规则的可信度确定实体关系实例的可信度,并据此对实体关系实例进行标记。
在该实施方式中,抽取规则的可信度与上述数据源的可信度类似,可以是具有高可靠来源的可信度值。另外,该抽取规则的可信度也可以通过数据库208中存储的经过人工标记的大量实体关系实例来确定。例如,抽取规则的可信度可以通过计算与该抽取规则相关的预先经过标记的多个实体关系实例中可靠实体关系实例的比例而得到。
例如,如果得到的抽取规则Rule 1、Rule 2、Rule 3的可信度分别为0.9、0.7、0.8,则根据抽取规则将各个实体实例的可信度确定为所使用的抽取规则的可信度。利用预定阈值0.8,则可以将下列存在矛盾关系的RI1、RI2和RI3标记为:
RI1={<British Telecom,MCI>,收购,Rule 1,Source 1,规则-可靠}
RI2={<MCI,British Telecom>,收购,Rule 2,Source 4,规则-不可靠}
RI3={<British Telecom,MCI>,收购,Rule 3,Source 3,规则-可靠}
这样,就为实体关系实例RI 1-RI3添加了与抽取规则相关的可靠性标记。
在根据本发明的优选实施方式中,可以将数据源的可信度和抽取规则的可信度结合在一起对实体关系实例标记。
例如,对于通过迭代算法得到的数据源可信度R=[0.8,0.7,0.8,0.4,0.2,0.3],以及所确定的抽取规则Rule 1、Rule 2、Rule 3的可信度0.9、0.7和0.8,可以将数据源的可信度与抽取规则的可信度的乘积确定为实体关系实例RI 1-RI3的可信度,其在下面给出:
RI[1-3]=[0.8×0.9  0.7×0.4  0.8×0.8]=[0.72  0.28  0.64]
因此,对于给定的阈值0.6,可针对实体关系实例RI 1-RI3标记如下:
RI1={<British Telecom,MCI>,收购,Rule 1,Source 1,数据源&规则-可靠}
RI2={<MCI,British Telecom>,收购,Rule 2,Source 4,数据源&规则-不可靠}
RI3={<British Telecom,MCI>,收购,Rule 3,Source 3,数据源&规则-可靠}
在对实体关系实例进行标记之后,就可以在块204输出经过标记的实体关系实例,即带有可靠性标记的实体关系实例。
需要说明的是,在结合数据源的可信度和抽取规则的可信度来计算实体关系的可信度时,除了上面给出的将两个可信度的乘积作为实体关系实例的可信度值之外,还可以采用其他算法来得到实体关系实例的可信度。例如,可以取两个可信度值中的较小值作为实体关系实例的可信度值,可以取两个可信度值的平均值作为实体关系实例的可信度,或者可以为两个可信度值设定权重并将这两个可信度值的加权平均值确定为实体关系实例的可信度。
数据源和抽取规则的可信度可以预先计算并存储在数据库中,但是本领域技术人员可以理解,这些可信度也可以在需要时执行计算而不存储在例如数据库207中。
下面将参考图4来描述根据本发明的另一实施方式对实体关系实例进行标记的方法。图4示意性地示出了基于广域上下文信息来对实体关系实例进行标记的方法的图示。在该实施方式中,所述可靠性相关信息可以包括广域上下文信息和预定的广域上下文判定规则,并且基于广域上下文信息和预定的广域上下文判定规则来确定该实体关系实例的可信度。
参考图4,在块401输入待标记实体关系实例,其同样可以手动输入或者由其他程序通过接口导入。然后在块402根据广域文上下文信息和广域上下文规则来确定实体关系实例的可信度。
数据库405用于存储广域上下文信息。广域上下文信息是指与所要抽取的实体及其实体关系相关但从用于抽取实体关系的当前文本中无法获取的信息。广域上下文信息可以手工或者自动地采集。例如可以从可靠的公司主页得到,或者通过其他资讯公司的可靠的信息来源获取。
广域上下文信息的一个示例性的实例为实体的商业类型信息。下面将以商业类型信息作为实例进行说明,但本发明并不局限于此。
商业类型信息在后台可以以下面给出的数据结构来存储:
  公司名
  商业类型
表3公司商业类型信息的存储数据结构
数据库中存储的示例性的数据信息如表4所示:
  公司名   商业类型
  苏宁   家用电器零售商
  美的   电器制造商
  公司名   商业类型
  国美   家用电器零售商
表4公司商业类型信息的实例
继续参考图4,数据库406存储了基于广域上下文信息的判定规则。这些规则可以由人工制定,或者通过机器学习的方法产生。每个规则都可以包括其对应的可信度。
广域上下文判定规则在后台可以以表5给出的数据结构来存储:
  判定规则
  判定规则的可靠度
表5广域上下文判定规则的存储数据结构
而数据库中存储的示例性的规则实例可以为:
Figure B2009101380558D0000141
表6广域上下文判定规则的实例
对于如下所示的待标记实体关系实例:
RI4={<苏宁,美的>,竞争,Rule 4,Source 4}
可以在块402根据上述存储在数据库中的判定规则“如果两个公司的商业类型没有交叉,则这两个公司不会存在竞争关系:0.98”的判定规则来确定该实体关系实例的可信度。由于该实体关系实例表示商业类型不交叉的两个公司苏宁和美的存在竞争关系,与该规则中的描述正好相反,因此可以判定苏宁和美的存在竞争的可信度为(1-0.98),即为0.02。
接着在块403根据诸如为0.8的预定阈值以及所确定的实体关系实例的可信度0.02,可以将实体关系实例RI4标记为:
RI4={<苏宁,美的>,竞争,Rule 4,Source 4,广域信息-不可靠}
对于另一示例性的实体关系实例RI5:
RI5={<苏宁,国美>,供货,Rule 4,Source 4}
类似地,可以在块402根据上述存储在数据库中的判定规则“如果两个公司的商业类型完全一致,则这两个公司不存在供货关系:0.81”确定该实体关系实例的可信度。由于该实体关系实例表示商业类型完全一致的两个公司苏宁和国美存在供货关系,与该规则中的描述正好相反,因此可以判定苏宁和国美存在供货关系的可信度为(1-0.81),即为0.19。
因此,根据诸如为0.8的预定阈值以及所确定的实体关系的可信度0.19,可以将该实体关系实例RI5标记为:
RI5={<苏宁,国美>,供货,Rule 4,Source 4,广域信息-不可靠}
这样,就可以根据广域上下文信息给实体关系实例添加广域信息相关的可靠性标记。
在上文中参考图2至图4描述了基于确定的实体关系实例的可信度值对实体关系实例进行标记的方法,下面将参考图5来描述根据本发明另一种实施方式的对实体关系实例进行标记的方法。
在图5示出的实施方式中,所述可靠性相关信息包括关系历史判定规则,并且基于关系历史判定规则对涉及相同实体对的实体关系实例进行标记。
如图5所示,在块501输入待标记实体关系实例,与前面已经描述的实施方式类似,待标记实体关系实例可以手动输入或者由其他程序通过接口导入。然后,在块502根据关系历史判定规则对待标记实体关系实例进行标记,并在块503输出经过标记的实体关系实例。其中,关系历史判定规则在块505处根据实体关系实例历史信息而生成,其可以基于专家经验人工产生,或者通过机器学习方法而生成。待标记实体关系实例在该实施例中是具有时间标记的实体关系实例。
关系历史判定规则的两个较为典型的实例是施事-受事关系对以及关系变化模式。下面将以此为例进行详细地描述。
施事-受事关系对是指这样一对关系,其中一旦一个关系发生则会对另一关系的状态产生影响,该一个关系被称为施事关系,该另一关系称为受事关系。施事-受事关系对在后台可以按照以表7所给出的数据结构来存储:
  施事关系
  受事关系
  影响
表7施事-受事关系对的存储结构
存储在数据库中的施事-受事关系对的一个示例性实例可以为:
  施事关系   受事关系   影响
  收购   竞争   消除
表8施事-受事关系对的实例
该施事-受事关系对表明在两个实体之间发生收购关系后,将消除这两个实体之间的竞争关系。
另外,关系方向变化模式是指实体关系发生变化所遵循的模式。
实体关系模式在后台可以以如下给出的数据结构进行存储:
  实体关系类型
  变化模式
表9关系变化模式的存储结构
在下表10中给出了存储在数据库中的关系变化模式的一个实例:
  实体关系类型   变化模式
  供应   不异常突变
表10关系变化模式的实例
上面给出的关系变化模式表明,两个实体之间的供应关系不会发生突变,即不会出现如图6所示的异常变化。
出于说明基于关系历史规则对实体关系实例进行标记的实施方式的目的,在下面给出了几个示例性的实体关系实例:
RI01=<A,B,竞争,Rule1,Source3>,t1
RI02=<A,B,竞争,Rule2,Source2>,t2
RI03=<A,B,收购,Rule4,Source6>,t3
RI04=<A,B,竞争,Rule3,Source2>,t4
RI05=<C,D,供应,Rule1,Source3>,t5
RI06=<C,D,供应,Rule3,Source2>,t6
RI07=<C,D,供应,Rule2,Source2>,t7
RI08=<D,C,供应,Rule7,Source5>,t8
RI09=<C,D,供应,Rule3,Source2>,t9
RI10=<C,D,供应,Rule2,Source1>,t10
RI11=<C,D,供应,Rule2,Source3>,t11
其中,t1>t2>t3>t4>t5>t6>t7>t8>t9>t10>t11。
实体关系实例RI01至RI04是涉及相同实体A和B的实体关系实例,并且涉及了示例的施事-受事关系对中的施事关系和受事关系,即“收购”和“竞争”。通过上述给出的施事受-事关系对<收购,竞争,消除>,可以判定RI04不可靠,因为在RI3的收购关系发生后,公司A和公司B之间的竞争关系应被消除。
类似地,实体关系实例RI05至RI11是涉及相同实体C和D的实体关系实例,并且涉及到上述实例给出的供应关系。根据上述给出的示例性的关系历史判定规则“<供应,不异常突变>”,可以判定RI08为不可靠。
因此,可以在块502将实体关系实例RI01-11标记为:
RI01=<A,B,竞争,Rule1,Source3,关系历史信息-可靠>
RI02=<A,B,竞争,Rule2,Source2,关系历史信息-可靠>
RI03=<A,B,收购,Rule4,Source6,关系历史信息-可靠>
RI04=<A,B,竞争,Rule3,Source2,关系历史信息-不可靠>
RI05=<C,D,供应,Rule1,Source3,关系历史信息-可靠>
RI06=<C,D,供应,Rule3,Source2,关系历史信息-可靠>
RI07=<C,D,供应,Rule2,Source2,关系历史信息-可靠>
RI08=<D,C,供应,Rule7,Source5,关系历史信息-不可靠>
RI09=<C,D,供应,Rule3,Source2,关系历史信息-可靠>
RI10=<C,D,供应,Rule2,Source1,关系历史信息-可靠>
RI11=<C,D,供应,Rule2,Source3,关系历史信息-可靠>
这样,就可以基于关系历史判定规则为各个实体关系实例添加关系历史关系的可靠性标记。
返回参考图1,接着在步骤102,对经过标记的实体关系实例进行过滤,以得到可靠的实体关系实例。
在经过步骤101的处理之后,每个实体关系实例包括有至少一个可靠性标记。然后可以根据该可靠性标记对实体关系实例进行过滤。例如,在携带有一个可靠性标记的情况下,直接将标记为不可靠的实体关系实例过滤掉。而在具有多个可靠性标记的情况下,可以按照特定的准确率和召回率的要求,可以采用不同的过滤标准来过滤掉不可靠的实体关系实例。例如,对于非常严格的准确率要求,可以设定只要实体关系实例的可靠性标记中有一个表示不可靠,则将对应实体关系实例剔除。反之,如果对准确率的要求不高,但希望召回率合理,就可以设置较低的过滤标准。例如,可以在实体关系实例的不可靠标记超过半数的情况下,将其滤除。此外,还可以在可靠性标记满足一定组合要求下,才滤除对应的实体关系实例,例如可以在不可靠的标记大于或等于两个且其中一个为数据源不可靠的情况下,将该实体关系实例滤除。
然后,可以进一步将最终得到的认为可靠的实体关系实例标记为“machinelabel-可靠”,并存储起来以供随后使用。
在上面的实施方式中,分别描述了基于数据源的可信度、抽取规则的可信度、广域上下文信息以及关系历史信息对实体关系实例进行标记。但是本法领域技术人员可以理解,上面描述的实施方式可以按各种方式进行组合。
下面将参考图7和图8来描述根据本发明的其他实施方式的对实体关系实例进行过滤的方法。
如图7所示,可以分别在步骤701手工输入或者导入待标记实体关系实例,然后可以并行地在步骤702、703、704和705分别基于上述各种可靠性相关信息对相同实体关系实例进行标记。然后,在步骤706,针对这些相同的实体关系实例,并根据它们所携带的可靠性标记执行上述过滤,在该实体关系实例需要被滤除时,则滤除所有实例;而认为该实体关系实例可靠需要保留时,则可以将这些相同实例的其中一个添加“machinelabel-可靠”标记,并保存起来,滤除其余相同实体关系实例。
另外,也可以如图8所示在步骤801手工输入或者导入待标记的实体关系实例后,以串行的方式在步骤802、803、804、和805依次对待标记的实体关系实例进行标记,并在步骤806根据每个实体关系实例所携带的多个可靠性标记,对实体关系实例进行过滤。
需要说明的是,也可以将上述基于各种可靠性相关信息执行标记的实施方式合并在一起。例如可以基于各种可靠性相关信息首先确定出综合可信度,然后根据该综合可信度和预定的阈值进行标记。例如可以基于数据源的可信度、抽取规则的可信度以及广域上下文的可信度其中两个或多个来确定该综合可信度。
需要说明的是,虽然在参考关系历史判定规则所描述的实施方式中,并给出关系历史判定规则的可信度。但是,本领域技术人员可以理解,可以与针对广域上下文描述的实施方式类似,针对每个关系历史判定规则给出可信度值,然后计算出基于该规则得到的实体关系实例的可信度。并根据规则和预定的阈值对实体关系实例进行标记。
还需说明的是,尽管在上述实施方式中,将输入的待标记实体关系实例描述为利用实体关系抽取技术从文本抽取得到的实体关系实例,但是本发明并不局限于此。待标记实体关系实例也可以是已经根据现有技术经过分析过滤后得到的实体关系实例。
另外,虽然示出了用于各种数据和信息的多个数据库,但是这些数据库并非必然是彼此独立的数据库,而是也可以是用于存储各种信息和数据的单个数据库。
在根据本发明的优选实施方式中,可以将经过标记的、可信度在预定阈值范围内的实体关系实例保存到数据库208和506中,以便在确定例如数据源的可信度、抽取规则的可信度使用以及供机器学习生成判定规则时使用。举例来讲,可以规定将可信度大于等于0.9的可靠关系实例以及可信度等于或小于0.1的不可靠关系实例返回到数据库中以供随后使用。
通过本发明提供的用于对实体关系实例进行过滤的方法,进一步根据可靠性相关信息对实体关系实例进行标记和过滤,因此可以得到精确度更高的实体关系实例,从而为基于实体关系实例的高层分析提供了更加可靠的基础,使得得到的实体关系实例对于高层决策具有更大的实用性。
在下文中,将参考图9来描述根据本发明的用于对实体关系实例进行过滤的设备。
图9示出了根据本发明的一个实施方式用于对实体关系实例进行过滤的设备900。如图9所示,该设备900包括标记装置901,用于基于实体关系实例的可靠性相关信息来对实体关系实例的可靠性进行标记;以及过滤装置902,用于对经过标记的实体关系实例进行过滤,以得到可靠的实体关系实例。
在根据本发明的一个实施方式中,所述标记装置901可以包括:确定装置,用于基于该实体关系实例的可靠性相关信息确定该实体关系实例的可信度;以及比较装置,用于比较所确定的可信度与预定的可信度阈值,以将实体关系实例标记为可靠或者不可靠。
在根据本发明的另一实施方式中,所述可靠性相关信息可以包括:实体关系实例的数据源的可信度和实体关系实例的抽取规则的可信度中的至少一个,以及其中所述确定装置可以被配置为基于实体关系实例的数据源的可信度和实体关系实例的抽取规则的可信度中的至少一个来确定该实体关系的可信度。
在根据本发明的再一实施方式中,可以通过计算与该数据源相关的、预先经过标记的多个实体关系实例中可靠实体关系实例的比例来得到该数据源的可信度。
在根据本发明的又一实施方式中,可以基于包括该数据源的多个数据源之间的关联关系和其中部分数据源的已知初始可信度,通过预定迭代算法,来得到该多个数据源的可信度。
在根据本发明的另一实施方式中,所述抽取规则的可信度可以通过计算与该抽取规则相关的、预先经过标记的多个实体关系实例中可靠实体关系实例的比例而得到。
在根据本发明的再一实施方式中,所述可靠性相关信息可以包括广域上下文信息和预定的广域上下文判定规则,以及其中所述确定装置可以被配置为基于广域上下文信息和预定的广域上下文判定规则来确定该实体关系的可信度。
在根据本发明的又一实施方式中,所述可靠性相关信息可以进一步包括广域上下文信息和预定的广域上下文判定规则,所述确定装置可以被配置为进一步基于广域上下文信息和预定的广域上下文判定规则来确定该实体关系的可信度。
在根据本发明的另一实施方式中,所述广域上下文信息可以是与该实体关系实例相关的实体的商业类型信息,以及所述预定的广域上下文判定规则是与实体商业类型信息相关的规则。
在根据本发明的再一实施方式中,所述可靠性相关信息可以包括关系历史判定规则,以及其中所述标记装置901可以被配置为基于关系历史判定规则对涉及相同实体对的实体关系实例进行标记。
在根据本发明的又一实施方式中,所述关系历史判定规则可以包括施事-受事关系对和/或关系变化模式。
在根据本发明的另一实施方式中,所述可靠性相关信息可以进一步包括关系历史判定规则,以及其中所述标记装置可以被配置为进一步基于关系历史判定规则对涉及相同实体对的实体关系实例进行标记。
在根据本发明的又一实施方式中,所述设备900进一步包括保存装置903,用于将经过标记的、可信度在预定阈值范围内的实体关系实例保存到库中。
关于上述实施方式中的标记装置901以及过滤装置902、保存装置903以及确定装置和比较装置等的具体操作,可以参考上面结合1至图8对于根据本发明实施例方式的用于对实体关系实例进行过滤的方法的描述。
本领域技术人员应当理解,本发明的实施例可以以软件、硬件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行***,例如微处理器或者专用设计硬件来执行。
虽然已经参考目前考虑到的实施例描述了本发明,但应该理解本发明不限于所公开的实施方式。相反,本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最广泛解释,以包含所有这样的修改及等同结构和功能。

Claims (26)

1.一种用于对实体关系实例进行过滤的方法,包括:
基于实体关系实例的可靠性相关信息来对实体关系实例的可靠性进行标记;以及
对经过标记的实体关系实例进行过滤,以得到可靠的实体关系实例。
2.根据权利要求1所述的方法,其中,对实体关系实例的可靠性进行标记包括:
基于该实体关系实例的可靠性相关信息确定该实体关系实例的可信度;以及
比较所确定的可信度与预定的可信度阈值,以将实体关系实例标记为可靠或者不可靠。
3.根据权利要求2所述的方法,其中,所述可靠性相关信息包括:实体关系实例的数据源的可信度和实体关系实例的抽取规则的可信度中的至少一个,以及基于实体关系实例的数据源的可信度和实体关系实例的抽取规则的可信度中的至少一个来确定该实体关系的可信度。
4.根据权利要求3所述的方法,其中,通过计算与该数据源相关的、预先经过标记的多个实体关系实例中可靠实体关系实例的比例来得到该数据源的可信度。
5.根据权利要求3所述的方法,其中,基于包括该数据源的多个数据源之间的关联关系和其中部分数据源的已知初始可信度,通过预定迭代算法,来得到该多个数据源的可信度。
6.根据权利要求3所述的方法,其中,所述抽取规则的可信度通过计算与该抽取规则相关的、预先经过标记的多个实体关系实例中可靠实体关系实例的比例而得到。
7.根据权利要求2所述的方法,其中,所述可靠性相关信息包括广域上下文信息和预定的广域上下文判定规则,以及其中基于广域上下文信息和预定的广域上下文判定规则来确定该实体关系实例的可信度。
8.根据权利要求3所述的方法,其中,所述可靠性相关信息进一步包括广域上下文信息和预定的广域上下文判定规则,以及其中进一步基于广域上下文信息和预定的广域上下文判定规则来确定该实体关系实例的可信度。
9.根据权利要求7或者8所述的方法,其中,所述广域上下文信息是与该实体关系实例相关的实体的商业类型信息,以及所述预定的广域上下文判定规则是与实体商业类型信息相关的规则。
10.根据权利要求1所述的方法,其中,所述可靠性相关信息包括关系历史判定规则,以及其中基于关系历史判定规则对涉及相同实体对的实体关系实例进行标记。
11.根据权利要求10所述的方法,其中,所述关系历史判定规则包括施事-受事关系对和/或关系变化模式。
12.根据权利要求3、7和8任一项所述的方法,其中,所述可靠性相关信息进一步包括关系历史判定规则,以及其中进一步基于关系历史判定规则对涉及相同实体对的实体关系实例进行标记。
13.根据权利要求1所述的方法,进一步包括将经过标记的、可信度在预定阈值范围内的实体关系实例保存到库中。
14.一种用于对实体关系实例进行过滤的设备,包括:
标记装置,用于基于实体关系实例的可靠性相关信息来对实体关系实例的可靠性进行标记;以及
过滤装置,用于对经过标记的实体关系实例进行过滤,以得到可靠的实体关系实例。
15.根据权利要求14所述的设备,其中,所述标记装置包括:
确定装置,用于基于该实体关系实例的可靠性相关信息确定该实体关系实例的可信度;以及
比较装置,用于比较所确定的可信度与预定的可信度阈值,以将实体关系实例标记为可靠或者不可靠。
16.根据权利要求15所述的设备,其中,所述可靠性相关信息包括:实体关系实例的数据源的可信度和实体关系实例的抽取规则的可信度中的至少一个,以及其中所述确定装置被配置为基于实体关系实例的数据源的可信度和实体关系实例的抽取规则的可信度中的至少一个来确定该实体关系的可信度。
17.根据权利要求16所述的设备,其中,通过计算与该数据源相关的、预先经过标记的多个实体关系实例中可靠实体关系实例的比例来得到该数据源的可信度。
18.根据权利要求16所述的设备,其中,基于包括该数据源的多个数据源之间的关联关系和其中部分数据源的已知初始可信度,通过预定迭代算法,来得到该多个数据源的可信度。
19.根据权利要求16所述的设备,其中,所述抽取规则的可信度通过计算与该抽取规则相关的、预先经过标记的多个实体关系实例中可靠实体关系实例的比例而得到。
20.根据权利要求15所述的设备,其中,所述可靠性相关信息包括广域上下文信息和预定的广域上下文判定规则,以及其中所述确定装置被配置为基于广域上下文信息和预定的广域上下文判定规则来确定该实体关系的可信度。
21.根据权利要求16所述的设备,其中,所述可靠性相关信息进一步包括广域上下文信息和预定的广域上下文判定规则,所述确定装置被配置为进一步基于广域上下文信息和预定的广域上下文判定规则来确定该实体关系的可信度。
22.根据权利要求20或者21所述的设备,其中,所述广域上下文信息是与该实体关系实例相关的实体的商业类型信息,以及所述预定的广域上下文判定规则是与实体商业类型信息相关的规则。
23.根据权利要求14所述的设备,其中,所述可靠性相关信息包括关系历史判定规则,以及其中所述标记装置被配置为基于关系历史判定规则对涉及相同实体对的实体关系实例进行标记。
24.根据权利要求23所述的设备,其中,所述关系历史判定规则包括施事-受事关系对和/或关系变化模式。
25.根据权利要求16、20和21任意一个所述的设备,其中,所述可靠性相关信息进一步包括关系历史判定规则,以及其中所述标记装置被配置为进一步基于关系历史判定规则对涉及相同实体对的实体关系实例进行标记。
26.根据权利要求14所述的设备,进一步包括保存装置,用于将经过标记的、可信度在预定阈值范围内的实体关系实例保存到库中。
CN2009101380558A 2009-05-06 2009-05-06 用于对实体关系实例进行过滤的方法和设备 Pending CN101882259A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009101380558A CN101882259A (zh) 2009-05-06 2009-05-06 用于对实体关系实例进行过滤的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101380558A CN101882259A (zh) 2009-05-06 2009-05-06 用于对实体关系实例进行过滤的方法和设备

Publications (1)

Publication Number Publication Date
CN101882259A true CN101882259A (zh) 2010-11-10

Family

ID=43054271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101380558A Pending CN101882259A (zh) 2009-05-06 2009-05-06 用于对实体关系实例进行过滤的方法和设备

Country Status (1)

Country Link
CN (1) CN101882259A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103167030A (zh) * 2013-03-07 2013-06-19 北京山海树科技有限公司 一种用于通信***中的关系检测和关系建立***和方法
CN103561123A (zh) * 2013-10-28 2014-02-05 北京国双科技有限公司 Ip段归属确定方法和装置
CN107977379A (zh) * 2016-10-25 2018-05-01 百度国际科技(深圳)有限公司 用于挖掘信息的方法和装置
CN109472032A (zh) * 2018-11-14 2019-03-15 北京锐安科技有限公司 一种实体关系图的确定方法、装置、服务器及存储介质
CN109885827A (zh) * 2019-01-08 2019-06-14 北京捷通华声科技股份有限公司 一种基于深度学习的命名实体的识别方法和***

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103167030A (zh) * 2013-03-07 2013-06-19 北京山海树科技有限公司 一种用于通信***中的关系检测和关系建立***和方法
CN103167030B (zh) * 2013-03-07 2016-08-03 北京山海树科技有限公司 一种用于通信***中的关系检测和关系建立***和方法
CN103561123A (zh) * 2013-10-28 2014-02-05 北京国双科技有限公司 Ip段归属确定方法和装置
CN103561123B (zh) * 2013-10-28 2017-05-10 北京国双科技有限公司 Ip段归属确定方法和装置
CN107977379A (zh) * 2016-10-25 2018-05-01 百度国际科技(深圳)有限公司 用于挖掘信息的方法和装置
CN107977379B (zh) * 2016-10-25 2022-06-28 百度国际科技(深圳)有限公司 用于挖掘信息的方法和装置
CN109472032A (zh) * 2018-11-14 2019-03-15 北京锐安科技有限公司 一种实体关系图的确定方法、装置、服务器及存储介质
CN109885827A (zh) * 2019-01-08 2019-06-14 北京捷通华声科技股份有限公司 一种基于深度学习的命名实体的识别方法和***
CN109885827B (zh) * 2019-01-08 2023-10-27 北京捷通华声科技股份有限公司 一种基于深度学习的命名实体的识别方法和***

Similar Documents

Publication Publication Date Title
US11899800B2 (en) Open source vulnerability prediction with machine learning ensemble
Fleischhacker et al. Detecting errors in numerical linked data using cross-checked outlier detection
Chen et al. Graphical tools for linear structural equation modeling
CN103902545B (zh) 一种类目路径识别方法及***
CN105915555A (zh) 网络异常行为的检测方法及***
Zhou et al. New model of semantic similarity measuring in wordnet
CN106156145A (zh) 一种地址数据的管理方法和装置
CN111242793B (zh) 医保数据异常的检测方法和装置
CN102609422A (zh) 类目错放识别方法和装置
Mo et al. Efficient ordering heuristics in binary decision diagram–based fault tree analysis
CN106844330B (zh) 文章情感的分析方法和装置
CN101882259A (zh) 用于对实体关系实例进行过滤的方法和设备
CN110321285A (zh) 测试用例处理方法及相关设备
CN101706812A (zh) 一种文档的检索方法和装置
CN108108477B (zh) 一种联动的kpi***及权限管理***
Gao et al. Pattern-based topic models for information filtering
CN105740388B (zh) 一种基于分布漂移数据集的特征选择方法
CN111353838A (zh) 自动化校验商品类目的方法和装置
Li et al. Exploiting statistically significant dependent rules for associative classification
Pamungkas et al. B-BabelNet: business-specific lexical database for improving semantic analysis of business process models
de Mast et al. Modeling and evaluating repeatability and reproducibility of ordinal classifications
Manotumruksa et al. CrossBERT: a triplet neural architecture for ranking entity properties
Du et al. Automated fashion size normalization
CN107239456A (zh) 年龄段识别方法及装置
CN104376064A (zh) 一种挖掘用户年龄样本的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20101110