CN102200983A - 属性提取装置和方法 - Google Patents

属性提取装置和方法 Download PDF

Info

Publication number
CN102200983A
CN102200983A CN2010101357889A CN201010135788A CN102200983A CN 102200983 A CN102200983 A CN 102200983A CN 2010101357889 A CN2010101357889 A CN 2010101357889A CN 201010135788 A CN201010135788 A CN 201010135788A CN 102200983 A CN102200983 A CN 102200983A
Authority
CN
China
Prior art keywords
syntax
attribute
text
synonym
attributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010101357889A
Other languages
English (en)
Inventor
丰强泽
齐红威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC China Co Ltd
Renesas Electronics China Co Ltd
Original Assignee
NEC China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC China Co Ltd filed Critical NEC China Co Ltd
Priority to CN2010101357889A priority Critical patent/CN102200983A/zh
Priority to JP2011012566A priority patent/JP5054210B2/ja
Publication of CN102200983A publication Critical patent/CN102200983A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种用于从非结构化文本中进行属性提取的装置和方法,可以基于属性关联知识,提取出与种子属性出现模式不同的新属性。根据本发明的属性提取装置包括:查询项构建单元,用于根据输入的实例和种子属性,基于属性关联知识库,构建基于一种或多种文法的查询项;文本检索单元,用于根据所述查询项,对非结构化文本库中的非结构化文本进行文本检索;以及文本匹配单元,用于对检索得到的文本执行基于前述文法的文本匹配,从而提取出所述实例的其他属性。通过本发明的技术方案,能够根据种子属性,从非结构化文本中自动提取出新属性。

Description

属性提取装置和方法
技术领域
本发明涉及自然语言处理领域,更具体地,涉及一种用于从非结构化文本中进行属性提取的装置和方法。
背景技术
属性提取可以从特定数据源(非结构化文本、结构化数据等)中抽取出一个实例的各个属性,例如,中国(实例)的属性有首都、人口等。基于种子属性的属性提取是采用滚雪球的方式,基于一个实例的已知的种子属性,从特定数据源中抽取出相关的新属性。
基于种子属性的属性提取方法可以帮助用户快速地构建属性知识。对一个实例,用户只需手工建立几个属性,就可以利用该方法来自动得到更多的新属性。
在这一领域,目前已经取得了一些研究成果。
专利申请公开WO 2006/132793A2提到了一种从半结构化文本中提取属性的方法,使用了模式学习的方法,但是只能提取出和种子属性在文本中的出现模式相同的新属性。
专利申请公开US 2006/0190684A1描述了一种从半结构化文本(属性被html标记)中提取属性的方法,但是不能根据种子属性来提取出相关的新属性。
Joseph Reisinger和Marius Pasca在WWW 2009会议上的论文(Bootstrapped Extraction of Class Attributes,2009年4月24日)提到了一种从非结构化文本中提取属性的方法,使用了模式学习的方法,但是只能提取出和种子属性在文本中的出现模式相同的新属性。
目前的方法大都只能从结构化或半结构化的文本中提取属性,有些方法虽然可以从非结构化文本中提取属性,但只能提取出和种子属性在文本中的出现模式相同的新属性,从而无法得到足够多的新属性。
发明内容
为了实现从非结构化文本中提取新属性这一目的,本申请的发明人提出了一种基于种子属性从非结构化文本中自动提取新属性的装置和方法,可以基于属性关联知识,提取出与种子属性出现模式不同的新属性。
根据本发明的第一方案,提出了一种属性提取装置,包括:查询项构建单元,用于根据输入的实例和种子属性,基于属性关联知识库,构建基于一种或多种文法的查询项;文本检索单元,用于根据所述查询项,对非结构化文本库中的非结构化文本进行文本检索;以及文本匹配单元,用于对检索得到的文本执行基于前述文法的文本匹配,从而提取出所述实例的其他属性。
优选地,所述属性提取装置还可以包括:扩展单元,用于根据输入的实例和/或种子属性,基于同义文法库,获取实例和/或种子属性的各种同义词形式,以及其中所述查询项构建单元还用于根据输入的实例和种子属性的所有同义词形式,基于属性关联知识库,构建基于所述文法的查询项。
优选地,所述文法可以是并列文法,用于表示在非结构化文本中多个属性经常在一起出现的模式。更优选地,所述的属性提取装置还可以包括:并列文法生成单元,用于根据训练用实例和种子属性,生成并列文法查询项,搜索非结构化文本库,根据检索到的文本,提取出并列文法,加入到属性关联知识库中。
优选地,所述文法可以是前缀文法,通过前缀词典表示在非结构化文本中经常出现在属性的名称开头的词语。更优选地,所述属性提取装置还可以包括:前缀文法生成单元,用于根据属性词典提取出在两个或两个以上属性的开头都出现的词,作为候选前缀,选择出现频度高于预设频度的候选前缀,加入到属性关联知识库中的前缀词典中。
优选地,所述文法可以是后缀文法,通过后缀词典表示在非结构化文本中经常出现在属性的名称结尾的词语。更优选地,所述属性提取装置还可以包括:后缀文法生成单元,用于根据属性词典提取出在两个或两个以上属性的结尾都出现的词,作为候选后缀,选择出现频度高于预设频度的候选后缀,加入到属性关联知识库中的后缀词典中。
优选地,所述属性提取装置还可以包括:同义文法生成单元,用于根据种子同义词典,生成同义文法查询项,以同义文法查询项搜索非结构化文本库,根据检索到的文本,提取出候选同义文法,并对各个候选同义文法进行验证,将验证通过的同义文法加入到同义文法库中。
根据本发明的第二方案,提出了一种属性提取方法,包括:根据输入的实例和种子属性,基于属性关联知识库,构建基于一种或多种文法的查询项;根据所述查询项,对非结构化文本库中的非结构化文本进行文本检索;以及对检索得到的文本执行基于前述文法的文本匹配,从而提取出所述实例的其他属性。
优选地,所述属性提取方法还可以包括:根据输入的实例和/或种子属性,基于同义文法库,执行实例和种子属性的扩展,得到实例和/或种子属性的各种同义词形式;以及根据输入的实例和种子属性的所有同义词形式,基于属性关联知识库,构建基于所述文法的查询项。
优选地,所述文法可以是并列文法,用于表示在非结构化文本中多个属性经常在一起出现的模式。更优选地,所述属性提取方法还可以包括:根据训练用实例和种子属性,生成并列文法查询项;以并列文法查询项搜索非结构化文本库;以及根据检索到的文本,提取出并列文法,加入到属性关联知识库中。
优选地,所述文法是可以前缀文法,通过前缀词典表示在非结构化文本中经常出现在属性的名称开头的词语。更优选地,所述属性提取方法还可以包括:根据属性词典提取出在两个或两个以上属性的开头都出现的词,作为候选前缀;以及选择出现频度高于预设频度的候选前缀,加入到属性关联知识库中的前缀词典中。
优选地,所述文法可以是后缀文法,通过后缀词典表示在非结构化文本中经常出现在属性的名称结尾的词语。更优选地,所述属性提取方法还可以包括:根据属性词典提取出在两个或两个以上属性的结尾都出现的词,作为候选后缀;以及选择出现频度高于预设频度的候选后缀,加入到属性关联知识库中的后缀词典中。
优选地,所述属性提取方法还可以包括:根据种子同义词典,生成同义文法查询项;以同义文法查询项搜索非结构化文本库;根据检索到的文本,提取出候选同义文法;以及对各个候选同义文法进行验证,将验证通过的同义文法加入到同义文法库中。
由此,通过本发明的技术方案,能够根据种子属性,从非结构化文本中自动提取出新属性。
附图说明
通过下面结合附图说明本发明的优选实施例,将使本发明的上述及其它目的、特征和优点更加清楚,其中:
图1A示出了根据本发明的属性提取装置1000的示意方框图;
图1B示出了根据本发明的属性提取方法2000的示意流程图;
图2示出了一个非结构化文本库1110的具体示例;
图3A示出了一个并列文法的具体示例;
图3B示出了一个前缀词典的具体示例;
图3C示出了一个后缀词典的具体示例;
图4A示出了并列文法生成单元1410及其具体操作流程;
图4B示出了前缀文法生成单元1420及其具体操作流程;
图4C示出了后缀文法生成单元1430及其具体操作流程;
图5A示出了属性关联知识库1120中的并列文法生成的具体示例;
图5B示出了属性关联知识库1120中的前缀词典生成的具体示例;
图5C示出了属性关联知识库1120中的后缀词典生成的具体示例;
图6示出了一个同义文法库1130的具体示例;
图7示出了同义文法生成单元1440及其具体操作流程;
图8示出了同义文法库1130中的同义文法生成的具体示例;
图9示出了实例和种子属性扩展的具体步骤;
图10示出了实例和种子属性扩展的具体示例;
图11示出了新属性提取的示意方框图;
图12示出了基于并列文法的新属性提取的具体示例;
图13示出了基于前缀词典的新属性提取的具体示例;以及
图14示出了基于前缀词典的新属性提取的具体示例。
在本发明的所有附图中,相同或相似的结构和步骤均以相同或相似的附图标记标识。
具体实施方式
下面参照附图对本发明的优选实施例进行详细说明,在描述过程中省略了对于本发明来说是不必要的细节和功能,以防止对本发明的理解造成混淆。
图1A示出了根据本发明的属性提取装置1000的示意方框图,如图1A所示,属性提取装置1000主要包括:存储单元1100(也可以位于属性提取装置1000的外部),用于存储以下各个数据库中的至少一个:非结构化文本库1110,用于存储各个非结构化文本,是属性提取的数据源;属性关联知识库1120,用于存储属性间的关联知识;和同义文法库1130(可选单元,图1A中以虚线示出),用于存储在非结构化文本中描述同义关系的各种文法模式;扩展单元1200(可选单元,图1A中以虚线示出),用于根据同义文法库1130,获取实例和种子属性的各种同义词形式;以及新属性提取单元1300,用于根据实例和种子属性,基于属性关联知识库1120,从非结构化文本中提取出该实例的其他属性。
如图1A所示,新属性提取单元1300包括:查询项构建单元1310,用于根据输入的实例和种子属性(和/或实例和/或种子属性的各种同义词形式),基于属性关联知识库1120,构建基于一种或多种文法(稍后描述)的查询项;文本检索单元1320,用于根据所述查询项,对非结构化文本库1110中的非结构化文本进行文本检索;以及文本匹配单元1330,用于对检索得到的文本执行基于前述文法的文本匹配,从而提取出所述实例的其他属性(新属性)。
图1B示出了根据本发明的属性提取方法2000的示意流程图,如图1B所示,属性提取方法2000主要包括:步骤S2100(可选步骤,图1B中以虚线示出),根据输入的实例和/或种子属性,由种子扩展单元1200基于同义文法库1130执行实例和/或种子属性的扩展,得到实例和/或种子属性的各种同义词形式;步骤S2200,根据输入的实例和种子属性(和/或实例和/或种子属性的各种同义词形式),由新属性提取单元1300基于属性关联知识库1120构建基于一种或多种文法(稍后描述)的查询项;步骤S2300,根据查询项,由新属性提取单元1300对非结构化文本库1110进行文本检索;最后,在步骤S2400,由新属性提取单元1300对检索得到的文本执行基于前述文法的文本匹配,从而提取出所述实例的其他属性(新属性)。
返回图1A,非结构化文本库1110用于存储各个非结构化文本,是属性提取的数据源。非结构化文本可以是网页、文档、纯文本等格式。图2示出了一个非结构化文本库1110的具体示例,存储了关于计算机的几个网页。
返回图1A,属性关联知识库1120存储了属性间的各种关联知识,例如,可以包括以下三种关联知识:1)并列文法;2)前缀词典(前缀文法);3)后缀词典(后缀文法)。
1)并列文法
并列文法用于表示在非结构化文本中多个属性经常在一起出现的模式。并列文法中包含一些特殊符号:
Figure GSA00000048354400061
<?C>:表示一个任意实例
Figure GSA00000048354400062
<Ai>:表示一个任意属性
<X1|X2|…>:表示此处可以出现X1或X2等任何一个词
Figure GSA00000048354400064
[X]:表示此处可以出现X或不出现X
Figure GSA00000048354400065
{X}:表示此处可以循环出现多个X
图3A示出了一个并列文法的具体示例。“<?C>[的]<A1>{<、|和|与或|以及|及其|…><A2>}”是一个并列文法,例如,它可以和非结构化文本“电脑的硬盘、内存和CPU”匹配。
2)前缀词典(前缀文法)
前缀词典存储了各属性的名称中经常使用的前缀词语,即哪些词语经常出现在属性的名称开头。
图3B示出了一个前缀词典的具体示例。“平均”、“最大”和“标准”都是前缀词,这些词语经常出现在属性的名称开头,例如,属性“平均工资”、“平均性能”、“平均负载”都是以“平均”开头的。
3)后缀词典(后缀文法)
后缀词典存储了各属性的名称中经常使用的后缀词语,即哪些词语经常出现在属性的名称结尾。
图3C示出了一个后缀词典的具体示例。“率”、“量”和“值”都是后缀词,这些词语经常出现在属性的名称结尾,例如,属性“分辨率”、“增长率”、“失业率”都是以“率”结尾的。
属性关联知识库1120中的并列文法可以由并列文法生成单元1410根据训练用实例和种子属性生成。图4A示出了并列文法生成单元1410及其具体操作流程,如图4A所示,并列文法生成单元1410的具体操作流程包括:
S410A,查询项构建:根据训练用实例和种子属性,生成相应的查询项『<实例>的<种子属性1>*<种子属性2>』;
S420A,文本检索:根据查询项来搜索非结构化文本库1110,以得到包含并列文法的各个文本;在步骤S420A中,可以采用任何公知的文本检索方法(例如,调用Google API等);
S430A,并列文法提取:将步骤S420A中检索到的各个文本与查询项『<实例>的<种子属性1>*<种子属性2>』进行匹配,从而提取出与“*”对应的词,然后生成并列文法。
图5A示出了属性关联知识库中的并列文法生成的具体示例;已知“电脑”有属性“硬盘”和“内存”,先构建查询项『电脑的硬盘*内存』(步骤S410A),然后调用Google API得到两篇检索文本(步骤S420A),它们与查询项匹配的句子分别是『电脑的硬盘和内存』与『电脑的硬盘或内存』,由此可提取出一条并列文法“<?C>的<A1><和|或><A2>”(步骤S430A)。
属性关联知识库1120中的前缀词典(前缀文法)可以由前缀文法生成单元1420根据属性词典生成。图4B示出了前缀文法生成单元1420及其具体操作流程,如图4B所示,前缀文法生成单元1420的具体操作流程包括:
S410B,候选前缀提取:根据属性词典提取出在两个或两个以上属性的开头都出现的词,作为候选前缀。这里,属性词典包括各个实例的各个属性,而且可以使用公知的属性词典。
S420B,候选前缀验证:选择出现频度高的候选前缀,加入到前缀词典中。例如,可选择出现频度大于(>)N的前缀,N是自然数,可由用户在构建***时设定。
图5B示出了属性关联知识库中的前缀词典生成的具体示例(N=2);属性词典包括“平均工资”、“平均性能”、“平均负载”、“标配”、“标准”等属性,先提取出所有的候选前缀(步骤S410B):“平均”(出现频度为3)和“标”(出现频度为2);然后,选择“平均”(出现频度为3>N=2),作为前缀(步骤S420B)。
属性关联知识库1120中的后缀词典(后缀文法)可以由后缀文法生成单元1430根据属性词典生成。图4C示出了后缀文法生成单元1430及其具体操作流程,如图4C所示,后缀文法生成单元1430的具体操作流程包括:
S410C,候选后缀提取:根据属性词典,提取出在两个或两个以上属性的结尾都出现的词,作为候选后缀。这里,属性词典包括各个实例的各个属性,而且可以使用公知的属性词典。
S420C,候选后缀验证:选择出现频度高的候选后缀,加入到后缀词典中。例如,可选择出现频度大于(>)N的后缀,N是自然数,可由用户在构建***时设定。
图5C示出了属性关联知识库中的后缀词典生成的具体示例(N=2);属性词典包括“分辨率”、“增长率”、“失业率”、“性能”、“功能”等属性,先提取出所有的候选后缀(步骤S410C):“率”(出现频度为3)和“能”(出现频度为2);然后,选择“率”(出现频度为3>N=2),作为后缀(步骤S420C)。
返回图1A,同义文法库1130(可选单元)存储了在非结构化文本中描述同义关系的各种文法模式。同义文法的格式与属性关联知识库1120中并列文法的格式类似。图6示出了同义文法库1130的具体示例。
例如:“<?C1>[的]<全称|简称>[是]<?C2>”,“<?C1>[的]<同义词|又称|又叫|也称|别名>[是]<?C2>”,“<?C1>[的]<英文|英文名字|翻译>[是]<?C2>”。实例C1和C2具有同义关系。
同义文法库1130中的同义文法可以由同义文法生成单元1440根据种子同义词典生成。图7示出了同义文法生成单元1440及其具体操作流程,如图7所示,同义文法生成单元1440的具体操作流程包括:
S710,查询项构建:根据种子同义词典,生成相应的查询项『<词1>*<词2>』。种子同义词典是公知的,无法涵盖所有的同义词,种子同义词典中的每行数据为“词1词2”表示词1和词2是同义词。
S720,文本检索:根据查询项来搜索非结构化文本库1110,以得到包含同义文法的各个文本;在步骤S720中,可以采用任何公知的文本检索方法(例如,调用Google API等);
S730,候选文法提取:将步骤S720中检索到的各个文本与查询项『<词1>*<词2>』进行匹配,从而提取出与“*”对应的词,生成候选同义文法。
S740,候选文法验证:对各个候选同义文法进行验证。例如,可采用下述具体验证方法:将具体词(词1词2)代入候选同义文法,形成查询项进行文本检索,若检索结果小于预设阈值TH,则不合法,TH是自然数,可由用户在构建***时设定。
图8示出了同义文法生成的具体示例(TH=100)。已知“个人电脑”的同义词是“PC”,先构建查询项“个人电脑*PC”(步骤S710),然后调用Google API得到两篇检索文本(步骤S720),它们与查询项匹配的句子分别是“个人电脑200PC”与“个人电脑(简称PC”,然后提取出两个候选同义文法“<?C1>200<?C2>”和“<?C1>(简称<?C2>”(步骤S730),最后,用“个人电脑200PC”来检索只得到4篇文本(<TH=100),而用“个人电脑(简称PC”来检索得到2000多篇文本(>TH=100)。因此将“<?C1>(简称<?C2>”作为一条同义文法,保存到同义文法库1130中。
返回图1A,扩展单元1200(可选单元)基于同义文法库1130,获取实例和种子属性的各种同义词形式。
图9示出了实例和种子属性扩展的具体步骤,包括:
S910,查询项构建:将每个实例或种子属性与同义文法库1130中的各个关键词拼接生成相应的查询项,例如,『“<实例或种子属性>”<同义词|又称|又叫|…>』。
S920,文本检索:根据每个查询项来搜索非结构化文本库1110,在步骤S920中,可以采用任何公知的文本检索方法(例如,调用Google API等);
S930,同义词提取:将步骤S920检索到的各个文本与同义文法库1130中的各个文法进行匹配,从而提取出对应的同义词。
图10示出了实例和种子属性扩展的具体示例。输入的实例为“计算机”,种子属性为“分辨率”。首先,对“计算机”和“分辨率”分别构建查询项『“计算机”(同义词|又称|又叫|…)』和『“分辨率”(同义词|又称|又叫|…)』(步骤S910);然后,进行文本检索得到相应的文本,如“为什么计算机又称电脑…”和“分辨率又叫解释度…”(步骤S920);然后,与各同义文法进行匹配,从而提取出“计算机”和“分辨率”的同义词分别为“电脑”和“解释度”(步骤S930)。
返回图1A,新属性提取单元1300根据实例和种子属性(如果之前实例和种子属性已被扩展单元1200扩展,则还要根据实例和种子属性的所有同义词),基于属性关联知识库1120,从非结构化文本中提取出该实例的其他属性。
图11示出了新属性提取的示意方框图,可以采用下述三种方式中的至少一种来实现:
1)基于并列文法的新属性提取
Figure GSA00000048354400111
查询项构建单元1310构建基于并列文法的查询项:根据实例和种子属性,生成查询项『“<实例>”<种子属性1|种子属性2|…>』;
Figure GSA00000048354400112
文本检索单元1320执行文本检索:根据查询项来搜索非结构化文本库1110;这里,可以采用公知的文本检索方法(例如,调用Google API等);以及
Figure GSA00000048354400113
文本匹配单元1330提取与并列文法匹配的新属性:将检索到的各个文本与各个并列文法进行匹配,从而提取出对应的新属性。
图12示出了基于并列文法的新属性提取的具体示例。
Figure GSA00000048354400114
输入的实例为“计算机”,种子属性为“价格”和“性能”;
Figure GSA00000048354400115
先构建并列文法查询项『“计算机”(价格|性能)』;
Figure GSA00000048354400116
然后,进行文本检索得到相应的文本,如“…计算机的性能及其评估标准、数据类型和数据表示、指令***设计原理和风格、标量流水技术…”;
Figure GSA00000048354400117
最后,该文本与并列文法“<?C>[的]<A1>{<、|和|与|或|以及|及其|…><A2>}”成功匹配,由此,可以提取出新属性“评估标准”、“数据类型”、“数据表示”等。
2)基于前缀文法的属性提取
Figure GSA00000048354400118
查询项构建单元1310构建基于前缀文法的查询项:根据前缀词典,找到种子属性中出现的前缀词,然后,结合实例生成查询项“<实例>的(<前缀词1|前缀词2|…>)*”;
Figure GSA00000048354400119
文本检索单元1320执行文本检索:根据查询项来搜索非结构化文本库1110;这里,可以采用公知的文本检索方法(例如,调用Google API等);以及
Figure GSA000000483544001110
文本匹配单元1330提取相同前缀的新属性:将检索到的各个文本与查询项进行匹配,从而提取出与种子属性有相同前缀词的新属性。
图13示出了基于前缀词典的新属性提取具体示例。
Figure GSA00000048354400121
输入的实例为“计算机”,种子属性为“性能”和“最大硬盘容量”;
Figure GSA00000048354400122
通过查找前缀词典得到“最大”是一个前缀词,构建查询项『计算机的最大*』;
Figure GSA00000048354400123
然后,进行文本检索得到相应的文本,如“…计算机的最大连接数…”;
Figure GSA00000048354400124
最后,提取出新属性“最大连接数”。
3)基于后缀文法的属性提取
Figure GSA00000048354400125
查询项构建单元1310构建基于后缀文法的查询项:根据后缀词典,找到种子属性中出现的后缀词,然后,结合实例生成查询项『<实例>的*(<后缀词1|后缀词2|…>)』。
文本检索单元1320执行文本检索:根据查询项来搜索非结构化文本库1110;这里,可以采用公知的文本检索方法(例如,调用Google API等);以及
Figure GSA00000048354400127
文本匹配单元1330提取相同后缀的新属性:将检索到的各个文本与查询项进行匹配,从而提取出与种子属性有相同后缀词的新属性。
图14示出了基于后缀词典的新属性提取具体示例。
输入的实例为“计算机”,种子属性为“性能”、“虚拟内存值”和“分辨率”;
Figure GSA00000048354400129
通过查找后缀词典得到“值”和“率”是后缀词,构建查询项『计算机的*(值|率)』;
Figure GSA000000483544001210
然后,进行文本检索得到相应的文本,如“…计算机的MAC值…”和“…计算机的普及率…”;
最后,提取出新属性“MAC值”和“普及率”。
在以上的描述中,针对各个步骤,列举了多个实例,虽然发明人尽可能地标示出彼此关联的实例,但这并不意味着这些实例必然按照相应的标号存在对应关系。只要所选择的实例所给定的条件间不存在矛盾,可以在不同的步骤中,选择标号并不对应的实例来构成相应的技术方案,这样的技术方案也应视为被包含在本发明的范围内。
应当注意的是,在以上的描述中,仅以示例的方式,示出了本发明的技术方案,但并不意味着本发明局限于上述步骤和单元结构。在可能的情形下,可以根据需要对步骤和单元结构进行调整和取舍。因此,某些步骤和单元并非实施本发明的总体发明思想所必需的元素。因此,本发明所必需的技术特征仅受限于能够实现本发明的总体发明思想的最低要求,而不受以上具体示例的限制。
这里所公开的本发明实施例的其他设置包括执行在先概述并随后详述的方法实施例的步骤和操作的软件程序。更具体地,计算机程序产品是如下的一种实施例:具有计算机可读介质,计算机可读介质上编码有计算机程序逻辑,当在计算设备上执行时,计算机程序逻辑提供相关的操作,从而提供上述单向代理转密方案。当在计算***的至少一个处理器上执行时,计算机程序逻辑使得处理器执行本发明实施例所述的操作(方法)。本发明的这种设置典型地提供为设置或编码在例如光介质(例如CD-ROM)、软盘或硬盘等的计算机可读介质上的软件、代码和/或其他数据结构、或者诸如一个或多个ROM或RAM或PROM芯片上的固件或微代码的其他介质、或专用集成电路(ASIC)、或一个或多个模块中的可下载的软件图像、共享数据库等。软件或固件或这种配置可安装在计算设备上,以使得计算设备中的一个或多个处理器执行本发明实施例所述的技术。结合诸如一组数据通信设备或其他实体中的计算设备进行操作的软件过程也可以提供根据本发明的***。根据本发明的***也可以分布在多个数据通信设备上的多个软件过程、或者在一组小型专用计算机上运行的所有软件过程、或者单个计算机上运行的所有软件过程之间。
应该理解,严格地讲,本发明的实施例可以实现为数据通信设备上的软件程序、软件和硬件、或者单独的软件和/或单独的电路。
至此已经结合优选实施例对本发明进行了描述。应该理解,本领域技术人员在不脱离本发明的精神和范围的情况下,可以进行各种其它的改变、替换和添加。因此,本发明的范围不局限于上述特定实施例,而应由所附权利要求所限定。

Claims (18)

1.一种属性提取装置,包括:
查询项构建单元,用于根据输入的实例和种子属性,基于属性关联知识库,构建基于一种或多种文法的查询项;
文本检索单元,用于根据所述查询项,对非结构化文本库中的非结构化文本进行文本检索;以及
文本匹配单元,用于对检索得到的文本执行基于前述文法的文本匹配,从而提取出所述实例的其他属性。
2.根据权利要求1所述的属性提取装置,还包括:
扩展单元,用于根据输入的实例和/或种子属性,基于同义文法库,获取实例和/或种子属性的各种同义词形式,以及
其中所述查询项构建单元还用于根据输入的实例和种子属性的所有同义词形式,基于属性关联知识库,构建基于所述文法的查询项。
3.根据权利要求1或2所述的属性提取装置,其特征在于
所述文法是并列文法,用于表示在非结构化文本中多个属性经常在一起出现的模式。
4.根据权利要求3所述的属性提取装置,还包括:
并列文法生成单元,用于根据训练用实例和种子属性,生成并列文法查询项,搜索非结构化文本库,根据检索到的文本,提取出并列文法,加入到属性关联知识库中。
5.根据权利要求1或2所述的属性提取装置,其特征在于
所述文法是前缀文法,通过前缀词典表示在非结构化文本中经常出现在属性的名称开头的词语。
6.根据权利要求5所述的属性提取装置,还包括:
前缀文法生成单元,用于根据属性词典提取出在两个或两个以上属性的开头都出现的词,作为候选前缀,选择出现频度高于预设频度的候选前缀,加入到属性关联知识库中的前缀词典中。
7.根据权利要求1或2所述的属性提取装置,其特征在于
所述文法是后缀文法,通过后缀词典表示在非结构化文本中经常出现在属性的名称结尾的词语。
8.根据权利要求7所述的属性提取装置,还包括:
后缀文法生成单元,用于根据属性词典提取出在两个或两个以上属性的结尾都出现的词,作为候选后缀,选择出现频度高于预设频度的候选后缀,加入到属性关联知识库中的后缀词典中。
9.根据权利要求2所述的属性提取装置,还包括:
同义文法生成单元,用于根据种子同义词典,生成同义文法查询项,以同义文法查询项搜索非结构化文本库,根据检索到的文本,提取出候选同义文法,并对各个候选同义文法进行验证,将验证通过的同义文法加入到同义文法库中。
10.一种属性提取方法,包括:
根据输入的实例和种子属性,基于属性关联知识库,构建基于一种或多种文法的查询项;
根据所述查询项,对非结构化文本库中的非结构化文本进行文本检索;以及
对检索得到的文本执行基于前述文法的文本匹配,从而提取出所述实例的其他属性。
11.根据权利要求10所述的属性提取方法,还包括:
根据输入的实例和/或种子属性,基于同义文法库,执行实例和/或种子属性的扩展,得到实例和/或种子属性的各种同义词形式;以及
根据输入的实例和种子属性的所有同义词形式,基于属性关联知识库,构建基于所述文法的查询项。
12.根据权利要求10或11所述的属性提取方法,其特征在于
所述文法是并列文法,用于表示在非结构化文本中多个属性经常在一起出现的模式。
13.根据权利要求12所述的属性提取方法,还包括:
根据训练用实例和种子属性,生成并列文法查询项;
以并列文法查询项搜索非结构化文本库;以及
根据检索到的文本,提取出并列文法,加入到属性关联知识库中。
14.根据权利要求10或11所述的属性提取方法,其特征在于
所述文法是前缀文法,通过前缀词典表示在非结构化文本中经常出现在属性的名称开头的词语。
15.根据权利要求14所述的属性提取方法,还包括:
根据属性词典提取出在两个或两个以上属性的开头都出现的词,作为候选前缀;以及
选择出现频度高于预设频度的候选前缀,加入到属性关联知识库中的前缀词典中。
16.根据权利要求10或11所述的属性提取方法,其特征在于
所述文法是后缀文法,通过后缀词典表示在非结构化文本中经常出现在属性的名称结尾的词语。
17.根据权利要求16所述的属性提取方法,还包括:
根据属性词典提取出在两个或两个以上属性的结尾都出现的词,作为候选后缀;以及
选择出现频度高于预设频度的候选后缀,加入到属性关联知识库中的后缀词典中。
18.根据权利要求11所述的属性提取方法,还包括:
根据种子同义词典,生成同义文法查询项;
以同义文法查询项搜索非结构化文本库;
根据检索到的文本,提取出候选同义文法;以及
对各个候选同义文法进行验证,将验证通过的同义文法加入到同义文法库中。
CN2010101357889A 2010-03-25 2010-03-25 属性提取装置和方法 Pending CN102200983A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2010101357889A CN102200983A (zh) 2010-03-25 2010-03-25 属性提取装置和方法
JP2011012566A JP5054210B2 (ja) 2010-03-25 2011-01-25 属性抽出装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101357889A CN102200983A (zh) 2010-03-25 2010-03-25 属性提取装置和方法

Publications (1)

Publication Number Publication Date
CN102200983A true CN102200983A (zh) 2011-09-28

Family

ID=44661667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101357889A Pending CN102200983A (zh) 2010-03-25 2010-03-25 属性提取装置和方法

Country Status (2)

Country Link
JP (1) JP5054210B2 (zh)
CN (1) CN102200983A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186633A (zh) * 2011-12-31 2013-07-03 北京百度网讯科技有限公司 一种结构化信息抽取方法、搜索方法和装置
CN103440252A (zh) * 2013-07-25 2013-12-11 北京师范大学 一种中文句子中并列信息提取方法及装置
CN104573009A (zh) * 2015-01-08 2015-04-29 南通大学 一种领域知识库属性扩展的方法
CN104778268A (zh) * 2015-04-23 2015-07-15 江苏省现代企业信息化应用支撑软件工程技术研发中心 一种知识查询方法
CN105488105A (zh) * 2015-11-19 2016-04-13 百度在线网络技术(北京)有限公司 信息提取模板的建立方法、知识数据的处理方法和装置
CN107871078A (zh) * 2016-09-27 2018-04-03 北京计算机技术及应用研究所 非结构化文本中提取漏洞信息的方法
CN108197151A (zh) * 2017-12-06 2018-06-22 阿里巴巴集团控股有限公司 文法库的更新方法及装置
CN109783651A (zh) * 2019-01-29 2019-05-21 北京百度网讯科技有限公司 提取实体相关信息的方法、装置、电子设备和存储介质
CN113157819A (zh) * 2021-03-25 2021-07-23 东南大学 基于规则挖掘的实例匹配方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7125322B2 (ja) 2018-10-18 2022-08-24 株式会社日立製作所 属性抽出装置および属性抽出方法
KR102263317B1 (ko) * 2019-04-25 2021-06-14 주식회사 마이셀럽스 속성 언어 관리 방법 및 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1761962A (zh) * 2003-03-21 2006-04-19 国际商业机器公司 将非结构化数据实时聚集为结构化数据以便关系数据库引擎进行sql处理
CN101253498A (zh) * 2005-05-31 2008-08-27 谷歌公司 从半结构化的文本学习事实

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000137720A (ja) * 1998-10-29 2000-05-16 Nippon Telegr & Teleph Corp <Ntt> 情報統合作表装置,情報統合作表方法および情報統合作表プログラムを記録した記録媒体
JP5076417B2 (ja) * 2006-09-15 2012-11-21 富士ゼロックス株式会社 概念ネットワーク生成システム、概念ネットワーク生成方法及び概念ネットワーク生成プログラム
JP2008217529A (ja) * 2007-03-06 2008-09-18 Nippon Hoso Kyokai <Nhk> テキスト分析装置およびテキスト分析プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1761962A (zh) * 2003-03-21 2006-04-19 国际商业机器公司 将非结构化数据实时聚集为结构化数据以便关系数据库引擎进行sql处理
CN101253498A (zh) * 2005-05-31 2008-08-27 谷歌公司 从半结构化的文本学习事实

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186633A (zh) * 2011-12-31 2013-07-03 北京百度网讯科技有限公司 一种结构化信息抽取方法、搜索方法和装置
CN103186633B (zh) * 2011-12-31 2016-08-17 北京百度网讯科技有限公司 一种结构化信息抽取方法、搜索方法和装置
CN103440252A (zh) * 2013-07-25 2013-12-11 北京师范大学 一种中文句子中并列信息提取方法及装置
CN103440252B (zh) * 2013-07-25 2016-11-16 北京师范大学 一种中文句子中并列信息提取方法及装置
CN104573009B (zh) * 2015-01-08 2018-08-24 南通大学 一种领域知识库属性扩展的方法
CN104573009A (zh) * 2015-01-08 2015-04-29 南通大学 一种领域知识库属性扩展的方法
CN104778268A (zh) * 2015-04-23 2015-07-15 江苏省现代企业信息化应用支撑软件工程技术研发中心 一种知识查询方法
CN104778268B (zh) * 2015-04-23 2018-01-30 江苏省现代企业信息化应用支撑软件工程技术研发中心 一种知识查询方法
CN105488105B (zh) * 2015-11-19 2019-11-05 百度在线网络技术(北京)有限公司 信息提取模板的建立方法、知识数据的处理方法和装置
CN105488105A (zh) * 2015-11-19 2016-04-13 百度在线网络技术(北京)有限公司 信息提取模板的建立方法、知识数据的处理方法和装置
CN107871078A (zh) * 2016-09-27 2018-04-03 北京计算机技术及应用研究所 非结构化文本中提取漏洞信息的方法
CN108197151A (zh) * 2017-12-06 2018-06-22 阿里巴巴集团控股有限公司 文法库的更新方法及装置
CN108197151B (zh) * 2017-12-06 2021-08-03 创新先进技术有限公司 文法库的更新方法及装置
CN109783651A (zh) * 2019-01-29 2019-05-21 北京百度网讯科技有限公司 提取实体相关信息的方法、装置、电子设备和存储介质
CN113157819A (zh) * 2021-03-25 2021-07-23 东南大学 基于规则挖掘的实例匹配方法
CN113157819B (zh) * 2021-03-25 2024-06-21 东南大学 基于规则挖掘的实例匹配方法

Also Published As

Publication number Publication date
JP2011204225A (ja) 2011-10-13
JP5054210B2 (ja) 2012-10-24

Similar Documents

Publication Publication Date Title
CN102200983A (zh) 属性提取装置和方法
US8301437B2 (en) Tokenization platform
JP4986919B2 (ja) タグ付きデータを有する完全形式レキシコンおよびタグ付きデータを構成し使用する方法
US8781817B2 (en) Phrase based document clustering with automatic phrase extraction
CN102479191B (zh) 提供多粒度分词结果的方法及其装置
Gottipati et al. Linking entities to a knowledge base with query expansion
KR101195341B1 (ko) 미등록 단어의 카테고리 결정 방법 및 장치
US20180173694A1 (en) Methods and computer systems for named entity verification, named entity verification model training, and phrase expansion
CN104462085A (zh) 检索关键词纠错方法及装置
Wu et al. Searching services" on the web": A public web services discovery approach
Nguyen et al. Exploiting syntactic and semantic information for relation extraction from wikipedia
Jain et al. Context sensitive text summarization using k means clustering algorithm
JP2004280574A (ja) 翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体
US12013903B2 (en) System and method for search discovery
CN101271449B (zh) 裁减词表和为汉字串注音的方法及装置
CN101470701A (zh) 支持基于有限状态机的语义规则的文本分析器及其方法
CN111090668B (zh) 数据检索方法及装置、电子设备和计算机可读存储介质
JP2004046438A (ja) テキスト検索方法及び装置及びテキスト検索プログラム及びテキスト検索プログラムを格納した記憶媒体
CN102053997B (zh) 一种人物踪迹的搜索方法及装置
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
JP2008276561A (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
JP2007011892A (ja) 語彙獲得方法及び装置及びプログラム及びプログラムを格納した記憶媒体
CN103077213A (zh) 一种应用于机顶盒的输入方法及其装置
JP5998779B2 (ja) 検索装置、検索方法、及びプログラム
Šimon et al. Transliterated named entity recognition based on Chinese word sketch

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110928