CN103699689B - 事件知识库的构建方法及装置 - Google Patents

事件知识库的构建方法及装置 Download PDF

Info

Publication number
CN103699689B
CN103699689B CN201410010694.7A CN201410010694A CN103699689B CN 103699689 B CN103699689 B CN 103699689B CN 201410010694 A CN201410010694 A CN 201410010694A CN 103699689 B CN103699689 B CN 103699689B
Authority
CN
China
Prior art keywords
event
fragment
knowledge
subject
guest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410010694.7A
Other languages
English (en)
Other versions
CN103699689A (zh
Inventor
孙珂
赵世奇
忻舟
王海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410010694.7A priority Critical patent/CN103699689B/zh
Publication of CN103699689A publication Critical patent/CN103699689A/zh
Priority to JP2016526443A priority patent/JP6163607B2/ja
Priority to KR1020157036777A priority patent/KR101707369B1/ko
Priority to PCT/CN2014/090073 priority patent/WO2015103899A1/zh
Priority to US14/899,510 priority patent/US10282664B2/en
Application granted granted Critical
Publication of CN103699689B publication Critical patent/CN103699689B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种事件知识库的构建方法及装置,其中,构建方法包括:对文本进行识别,识别出事件挖掘候选语句;对识别出的事件挖掘候选语句进行片段切分,获得句法片段;根据句法片段和预定义的事件知识结构,生成事件知识实例,其中,事件知识实例的个数等于句法片段中包含的动宾片段和主谓片段的个数;以及根据句法片段中包含的动宾片段和主谓片段获得对应的事件挖掘目标语句,对获得的事件挖掘目标语句进行成分划分,并将划分后的成分对应写入事件知识实例中,以完成事件知识库的构建。本发明通过预定义的事件知识结构可以构建事件知识库,基于该事件知识库能够为用户提供准确的搜索结果,提高了用户的搜索体验。

Description

事件知识库的构建方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种事件知识库的构建方法及装置。
背景技术
搜索引擎技术正围绕着知识图谱进行着一场变革,其变革的核心是在于从传统的面向无结构化网页文本为主转向以面向“结构化知识”为主的新一代知识搜索,从而为用户提供更为精确的检索结果,提升其检索体验。目前知识图谱技术(狭义知识图谱)的核心技术包括含有实体知识的实体知识库(以下简称实体库)及其相关应用技术。
在实体库中,一个实体知识主要由其独有的语义编号即语义标识(ID)以及具有明确语义含义的属性和属性值组成。例如,对于“百度公司”这样的一个实体知识,实体库会首先赋予全局唯一的ID(假设为company_XXX)作为其独有的语义编号,并根据该实体所隶属的类别为其添加语义信息,如“成立时间:2000年1月”、“经营范围:网络信息服务”、“董事长:李彦宏”、“子公司:91无线(company_YYY)、爱奇异(company_ZZZ)”等。上述知识可以很好地解决用户关于事实类知识的提问,例如“百度的子公司都有哪些?”或者“百度的董事长是谁?”,我们只需要将上述问句解析成“{类别=公司;实体=百度公司(company_XXX);属性=子公司;属性值=?}”以及“{类别=公司;实体=百度公司(company_XXX);属性=董事长;属性值=?}”便可通过现有的知识图谱检索满足用户需求了。
然而,由于实体知识是以实体或者某个虚拟的实体为中心,在描述实体与实体之间的关系时,一种最为常见的手段是将其抽象成一个特定的属性,例如“董事长”、“子公司”、“经营范围”等。这样的抽象虽然可以使得知识表示更加精炼,但却是以丢失细节为代价。
以深度问答应用为例,若用户询问“百度公司2013年收购了哪些子公司?”或“百度公司收购91无线和网络电视软件(PPS)视频一共花了多少钱?”这样的问题时,基于传统的实体库知识就无法给出答案。
由此可见,基于传统实体库进行深度知识搜索时,经常无法为用户提供检索结果,从而降低了用户的检索体验。
发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的第一个目的在于提出一种事件知识库的构建方法。该方法通过预定义的事件知识结构可以构建事件知识库,基于该事件知识库能够为用户提供准确的搜索结果,提高了用户的搜索体验。
本发明的第二个目的在于提出一种事件知识库的构建装置。
为了实现上述目的,本发明第一方面实施例的事件知识库的构建方法,包括以下步骤:对文本进行识别,识别出事件挖掘候选语句;对识别出的事件挖掘候选语句进行片段切分,获得句法片段;根据句法片段和预定义的事件知识结构,生成事件知识实例,其中,事件知识实例的个数等于句法片段中包含的动宾片段和主谓片段的个数;以及根据句法片段中包含的动宾片段和主谓片段获得对应的事件挖掘目标语句,对获得的事件挖掘目标语句进行成分划分,并将划分后的成分对应写入事件知识实例中,以完成事件知识库的构建。
本发明实施例的事件知识库的构建方法,通过预定义的事件知识结构和获得的语法片段可以构建事件知识库,基于该事件知识库能够将网页知识进行结构化并进一步支持知识之间的推理和计算;另外,还可以对相关事件进行融合,从而可以在用户进行深度知识搜索时,为用户提供准确的搜索结果,进而提高了用户的搜索体验。
为了实现上述目的,本发明第二方面实施例的事件知识库的构建装置,包括:识别模块、切分模块、生成模块和写入模块。
本发明实施例的事件知识库的构建装置,通过预定义的事件知识结构和获得的语法片段可以构建事件知识库,基于该事件知识库能够将网页知识进行结构化并进一步支持知识之间的推理和计算;另外,还可以对相关事件进行融合,从而可以在用户进行深度知识搜索时,为用户提供准确的搜索结果,进而提高了用户的搜索体验。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,
图1是根据本发明一个实施例的事件知识库的构建方法的流程图;
图2是根据本发明另一个实施例的事件知识库的构建方法的流程图;
图3是根据本发明一个实施例的事件知识库的构建装置的结构示意图;
图4是根据本发明另一个实施例的事件知识库的构建装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本发明的描述中,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
为了能够将网页文本知识进行结构化并进一步支持知识之间的推理和计算,本发明实施例提出了一种事件知识库的构建方法及装置。下面参考附图描述本发明实施例的事件知识库的构建方法及装置。
图1是根据本发明一个实施例的事件知识库的构建方法的流程图。
如图1所示,事件知识库的构建方法包括以下步骤:
S101,对文本进行识别,识别出事件挖掘候选语句。
事件知识的挖掘目标是自然语言文本,而在网络资源之中,自然语言句子并非都能最终形成事件知识。因此,首先需要对自然语言文本例如网页文本进行识别,识别出事件挖掘候选语句,本实施例中的事件挖掘候选语句至少需要包含一个主实体以及该主实体的核心动作。
假如,在本实施例中识别出的事件挖掘候选语句为“91无线,网龙公司的子公司,是中国领先的移动互联网公司,在Sj.91.com和apk.hiapk.com网站上,它为iPhone操作***和Android操作***开发和运行两大智能手机应用分发平台。”。
S102,对识别出的事件挖掘候选语句进行片段切分,获得句法片段。
其中,句法片段包括主谓片段、动宾片段、状语片段、主语片段和名词谓语片段等。
例如,对通过步骤S101获得的事件挖掘候选语句进行片段切分后,可以分为以下片段:
主语片段:91无线;名词谓语句片段:网龙公司的子公司;状语片段:在Sj.91.com和apk.hiapk.com网站上;动宾片段:是中国领先的移动互联网公司;主谓片段:它为iPhone操作***和Android操作***开发和运行两大智能手机应用分发平台。
S103,根据句法片段和预定义的事件知识结构,生成事件知识实例,其中,事件知识实例的个数等于句法片段中包含的动宾片段和主谓片段的个数。
在本发明的实施例中,预定义的事件知识结构包括事件知识实例标识(ID)、主实体、宾实体和动作四个属性,主实体包括动作的发起者对应的实体信息及其修饰信息,宾实体包括动作的承受者对应的实体信息及其修饰信息,动作包括核心动作及其约束信息;其中:
a)事件知识实例标识:是事件知识实例的唯一独立标识,主要由事件知识库分配,存储于事件ID属性中;单个事件知识实例中有且仅有一个ID;
b)主实体:标识事件的动作发起者(被字句的主语也算发起者);其“实体”属性域存放实体名以及实体语义ID,而修饰属性域(一个实体可以存在多个修饰属性)存放实体的修饰和限定成份;单个事件知识中,至少需要存在一个主实体属性;主实体可为复数;当然,上述修饰属性域中存放的就是修饰信息;
c)宾实体:标识事件的动作承受者;其“实体”属性域存放实体名以及实体语义ID;除了实体词之外,数量词(如,10.39%股份)、时间(日期、时分秒)、时间区间(XX日至YY日、AA点至BB点)、资源(url、uri等)、电话/邮编、位置/方向(如食堂、南边)、工具/材料(如毛线、工资)、比较(如一比二)、方式手段(如手术、低音)、枚举词(如星座、血型)以及普通名词(如手机应用分发平台)等词汇也可以充当宾实体;修饰属性域,主要用于存放宾实体的修饰和限定成分;单个事件知识中,宾实体可缺失;如“乔布斯去世”;当然,上述修饰属性域中存放的就是修饰信息。
d)动作:标识事件中主实体在事件中的行为;“核心动作”标识主实体的行为本身,单个事件知识中,有且仅有一个核心动作属性(可以存在并列动作,如“开发和运行”);约束属性用于对核心动作进行修饰,约束属性可以存在多个;为约束可以标识上具体属性类型(例如:时间、价格、状态、方位等),并为其对应的属性值指定类型(例如,数量词类型、实体类型)。
具体地,根据主谓片段和动宾片段的个数按照预定义的事件知识结构生成事件知识实例,即每个动宾片段和每个主谓片段均对应一个事件知识实例。例如在步骤S102中存在主谓和动宾两种片段,因此需要准备两个事件知识实例即event_1与event_2,如表1所示。同时,将所有非“主谓和动宾片段”划分为主谓和动宾片段的修饰和约束成分。
表1包含生成的事件知识实例的事件知识库
S104,根据句法片段中包含的动宾片段和主谓片段获得对应的事件挖掘目标语句,对获得的事件挖掘目标语句进行成分划分,并将划分后的成分对应写入事件知识实例中,以完成事件知识库的构建。
具体地,该步骤S104可以包括:先对获得的事件挖掘目标语句中的主谓片段进行成分划分,将划分出的所有成分对应写入事件知识实例的主实体、宾实体和动作中;确定获得的事件挖掘目标语句中的动宾片段存在主语片段时,将主语片段写入事件知识实例的主实体中,并对动宾片段进行成分划分,将划分出的所有成分对应写入事件知识实例的宾实体和动作中;然后将获得的事件挖掘目标语句中除主谓片段、动宾片段之外的句法片段进行成分划分,将划分出的所有成分对应写入事件知识实例的修饰信息和约束信息中;其中,成分包括主语、谓语、宾语、主语定语、状语和宾语定语中的一种或多种。
在本实施例中,根据句法片段中包含的动宾片段和主谓片段获得的事件挖掘目标语句为:
event_1挖掘目标语句:91无线,网龙公司的子公司,是中国领先的移动互联网公司;
event_2挖掘目标语句:在Sj.91.com和apk.hiapk.com网站上,它为iPhone操作***和Android操作***开发和运行两大智能手机应用分发平台。
在获得对应的事件挖掘目标语句之后,可以围绕动词开展挖掘,即可以先对事件挖掘目标语句中的主谓片段和动宾片段进行成分划分,然后对其他句法片段进行成分划分。
在本实施例中,首先对event_2挖掘目标语句的主谓片段进行主语、主语定语、谓语核心动词、状语以及宾语和宾语定语等成分的划分,并将其分别写入事件知识实例的主实体、宾实体以及动作之中。
例如,将“它为iPhone操作***和Android操作***开发和运行两大智能手机应用分发平台”划分为以下成分:
主语:它;状语:iPhone操作***和Android操作***;动词:开发和运行;宾语:两大智能手机应用分发平台,然后将划分后的成分写入表1所示的事件知识库的事件知识实例中,写入后的事件知识库如表2所示。
表2写入主谓片段后的事件知识库
然后,对event_1挖掘目标语句的动宾片段进行成分划分,首先判断整条句子中是否存在主语片段,如果存在,将其写入事件知识实例的主实体部分,之后,采取依存句法挖掘寻找出动宾片段中的动词、状语、宾语以及宾语定语等成分,并将其分别写入对应事件知识实例的宾实体以及动作之中,如果不存在主语片段,则直接抛弃当前待挖掘片段。
例如,将“是中国领先的移动互联网公司”划分为以下成分:
动词:是;宾语:移动互联网公司;宾语定语:中国领先;然后将划分后的成分写入表2所示的事件知识库的事件知识实例中,写入后的事件知识库如表3所示。
表3写入动宾片段后的事件知识库
最后,添加其他修饰成分,例如将event_2挖掘目标语句的状语片段作为右侧最近一个核心动作的约束,添加至事件知识实例之中。例如,将状语片段:“在Sj.91.com和apk.hiapk.com网站上”加入到事件知识库的事件知识实例中,如表4所示。
表4写入状语片段后的事件知识库
然后,将名词谓语句片段对应加入事件知识库的事件知识实例中,具体地,首先判断整条句子中是否存在主语片段,如果存在,将其写入对应事件知识实例的主实体的修饰部分,如果不存在主语片段,则直接抛弃当前片段。例如,将名词谓语句片段“网龙公司的子公司”加入事件知识库的事件知识实例中,如表5所示。
表5写入名词谓语句片段后的事件知识库
其中,表中用加粗字体标注的部分为当前表中的新增部分,通过上述表1-表5可以看出事件知识库的动态构建过程。
由此可见,本发明实施例主要通过从网页文本句子中碎片化地收集并填充预定义结构的事件知识库的方式来收集事件知识实例。但对于一个完整的事件,单个事件中的信息可能是片面的,以表6中的三条事件知识实例为例,这三条事件知识实例分别从不同的侧面以不同的语序描述了“百度收购91无线”这样一个事件,但仅通过一条事件知识实例所获取的信息是片面的。
表6写入三条事件知识实例的事件知识库
而为了保证在事件知识库中,能够尽可能多地收集一个事件相关信息,我们需要对上述碎片化的事件知识实例进行融合,从而形成一条包含更多细节信息、更为完整的事件知识实例。
因此,如图2所示,该方法在步骤S104之后,还可以包以下步骤:
S105,对事件知识库中的事件知识实例进行聚类分析,获得等价事件集合。
该步骤S105具体可以包括:对事件知识库中的主实体、宾实体且动作的约束信息一致的所有事件知识实例进行聚类,获得第一等价事件,抽取出第一等价事件中的核心动作,生成等价动作词典;以及对事件知识库中的主实体和宾实体一致的所有事件知识实例进行聚类,获得第二等价事件,根据等价动作词典从第二等价事件中挑选出所有核心动作等价的事件知识实例,生成等价事件集合。
S106,将等价事件集合中所有事件知识实例的信息写入事件知识库中,形成一个新的事件知识实例。
对表6知识库中包含的三条事件知识实例进行融合处理过程如下:
首先,对施事主实体和受事主实体且约束信息不冲突的所有事件知识实例进行聚类,将同一类别中的所有事件知识实例视为“等价事件”,抽取等价事件的核心动作,形成“等价动作词典”,在此实施例中,“等价动作词典”为“收购、并购和被收购”;再次对施事主实体和受事主实体一致的所有事件知识实例进行聚类,并根据“等价动作词典”从聚类中挑选所有核心动作等价的事件知识实例,形成等价事件集合,在该等价事件集合中的事件知识实例为:event_1,event_2以及event_3;然后,选取等价事件集合中的任意事件知识实例为核心事件EV,将集合中其余事件的所有约束以及主实体修饰属性融合进EV之中,形成最终的融合事件知识,并最终加入事件知识库,由知识库分配独立的事件ID。通过上述融合处理,event_1,event_2以及event_3将被融合成一个全新的事件知识实例event_4,如表7所示。
表7融合后的事件知识库
上述事件知识库的构建方法,通过预定义的事件知识结构和获得的语法片段可以构建事件知识库,基于该事件知识库能够将网页知识进行结构化并进一步支持知识之间的推理和计算;另外,还可以对相关事件进行融合,从而可以在用户进行深度知识搜索时,为用户提供准确的搜索结果,进而提高了用户的搜索体验。
图3是根据本发明一个实施例的事件知识库的构建装置的结构示意图。
如图3所示,该事件知识库的构建装置包括:识别模块310、切分模块320、生成模块330和写入模块340,其中:
识别模块310用于对文本进行识别,识别出事件挖掘候选语句;切分模块320用于对上述识别模块识别出的上述事件挖掘候选语句进行片段切分,获得句法片段;生成模块330用于根据切分模块获得的句法片段和预定义的事件知识结构,生成事件知识实例,其中,事件知识实例的个数等于句法片段中包含的动宾片段和主谓片段的个数;写入模块340用于根据句法片段中包含的动宾片段和主谓片段获得对应的事件挖掘目标语句,对获得的事件挖掘目标语句进行成分划分,并将划分后的成分对应写入事件知识实例中,以完成事件知识库的构建。
在本实施例中,上述句法片段包括主谓片段、动宾片段、状语片段、主语片段和名词谓语片段中的一种或多种。上述预定义的事件知识结构包括事件知识实例标识、主实体、宾实体和动作四个属性,上述主实体包括动作的发起者对应的实体信息及其修饰信息,上述宾实体包括动作的承受者对应的实体信息及其修饰信息,上述动作包括核心动作及其约束信息,其中:
a)事件知识实例标识:是事件知识实例的唯一独立标识,主要由事件知识库分配,存储于事件ID属性中;单个事件知识实例中有且仅有一个ID;
b)主实体:标识事件的动作发起者(被字句的主语也算发起者);其“实体”属性域存放实体名以及实体语义ID,而修饰属性域(一个实体可以存在多个修饰属性)存放实体的修饰和限定成份;单个事件知识中,至少需要存在一个主实体属性;主实体可为复数;当然,上述修饰属性域中存放的就是修饰信息;
c)宾实体:标识事件的动作承受者;其“实体”属性域存放实体名以及实体语义ID;除了实体词之外,数量词(如,10.39%股份)、时间(日期、时分秒)、时间区间(XX日至YY日、AA点至BB点)、资源(url、uri等)、电话/邮编、位置/方向(如食堂、南边)、工具/材料(如毛线、工资)、比较(如一比二)、方式手段(如手术、低音)、枚举词(如星座、血型)以及普通名词(如手机应用分发平台)等词汇也可以充当宾实体;修饰属性域,主要用于存放宾实体的修饰和限定成分;单个事件知识中,宾实体可缺失;如“乔布斯去世”;当然,上述修饰属性域中存放的就是修饰信息。
d)动作:标识事件中主实体在事件中的行为;“核心动作”标识主实体的行为本身,单个事件知识中,有且仅有一个核心动作属性(可以存在并列动作,如“开发和运行”);约束属性用于对核心动作进行修饰,约束属性可以存在多个;为约束可以标识上具体属性类型(例如,时间、价格、状态、方位等),并为其对应的属性值指定类型(例如,数量词类型、实体类型)。
上述写入模块340在获得对应的事件挖掘目标语句之后,可以围绕动词开展挖掘,即可以先对事件挖掘目标语句中的主谓片段和动宾片段进行成分划分,然后对其他句法片段进行成分划分。
具体地,上述写入模块340可以用于:对获得的事件挖掘目标语句中的主谓片段进行成分划分,将划分出的所有成分对应写入上述事件知识库中对应事件知识实例的主实体、宾实体和动作中;在确定获得的事件挖掘目标语句中的动宾片段存在主语片段时,将上述主语片段写入上述事件知识库中对应事件知识实例的主实体中,对上述动宾片段进行成分划分,将划分出的所有成分对应写入上述事件知识库中对应事件知识实例的宾实体和动作中;以及将获得的事件挖掘目标语句中除主谓片段、动宾片段之外的句法片段进行成分划分,将划分出的所有成分对应写入上述事件知识库中对应事件知识实例的修饰信息和约束信息中;其中,上述成分包括主语、谓语、宾语、主语定语、状语和宾语定语中的一种或多种。
另外,该装置还可以包括丢弃模块350,如图4所示,该丢弃模块350用于确定获得的事件挖掘目标语句中的动宾片段不存在主语片段时,丢弃上述动宾片段。
包含上述识别模块310、切分模块320、生成模块330、写入模块340和丢弃模块350的装置的工作过程可参见图1,此处不赘述。
进一步地,该装置还可以包括:融合模块360,融合模块360用于在上述写入模块340将划分后的成分对应写入上述事件知识实例中之后,对上述事件知识库中的事件知识实例进行聚类分析,获得等价事件集合;以及将上述等价事件集合中所有事件知识实例的信息写入上述事件知识库中,形成一个新的事件知识实例。
具体地,上述融合模块360可以用于:对事件知识库中的主实体、宾实体且动作的约束信息一致的所有事件知识实例进行聚类,获得第一等价事件,抽取出第一等价事件中的核心动作,生成等价动作词典;以及对事件知识库中的主实体和宾实体一致的所有事件知识实例进行聚类,获得第二等价事件,根据等价动作词典从第二等价事件中挑选出所有核心动作等价的事件知识实例,生成等价事件集合。
包含上述识别模块310、切分模块320、生成模块330、写入模块340、丢弃模块350和融合模块360的装置的工作过程可参见图2,此处不赘述。
上述事件知识库的构建装置,通过预定义的事件知识结构和获得的语法片段可以构建事件知识库,基于该事件知识库能够将网页知识进行结构化并进一步支持知识之间的推理和计算;另外,还可以对相关事件进行融合,从而可以在用户进行深度知识搜索时,为用户提供准确的搜索结果,进而提高了用户的搜索体验。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (14)

1.一种事件知识库的构建方法,其特征在于,包括:
对文本进行识别,识别出事件挖掘候选语句,其中,所述事件挖掘候选语句包含至少一个主实体以及所述主实体的核心动作;
对识别出的所述事件挖掘候选语句进行片段切分,获得句法片段;
根据所述句法片段和预定义的事件知识结构,生成事件知识实例,其中,所述事件知识实例的个数等于所述句法片段中包含的动宾片段和主谓片段的个数,每个所述动宾片段和每个所述主谓片段均对应一个所述事件知识实例;以及
根据所述句法片段中包含的动宾片段和主谓片段获得对应的事件挖掘目标语句,对获得的事件挖掘目标语句进行成分划分,并将划分后的成分对应写入所述事件知识实例中,以完成所述事件知识库的构建。
2.如权利要求1所述的方法,其特征在于,所述句法片段包括主谓片段、动宾片段、状语片段、主语片段和名词谓语片段中的一种或多种。
3.如权利要求1所述的方法,其特征在于,所述预定义的事件知识结构包括事件知识实例标识、主实体、宾实体和动作四个属性,所述主实体包括动作的发起者对应的实体信息及其修饰信息,所述宾实体包括动作的承受者对应的实体信息及其修饰信息,所述动作包括核心动作及其约束信息。
4.如权利要求3所述的方法,其特征在于,所述对获得的事件挖掘目标语句进行成分划分,并将划分后的成分对应写入所述事件知识实例中,包括:
对获得的事件挖掘目标语句中的主谓片段进行成分划分,将划分出的所有成分对应写入所述事件知识实例的主实体、宾实体和动作中;
确定获得的事件挖掘目标语句中的动宾片段存在主语片段时,将所述主语片段写入所述事件知识实例的主实体中,对所述动宾片段进行成分划分,将划分出的所有成分对应写入所述事件知识实例的宾实体和动作中;以及
将获得的事件挖掘目标语句中除主谓片段、动宾片段之外的句法片段进行成分划分,将划分出的所有成分对应写入所述事件知识实例的修饰信息和约束信息中;
其中,所述成分包括主语、谓语、宾语、主语定语、状语和宾语定语中的一种或多种。
5.如权利要求4所述的方法,其特征在于,还包括:
确定获得的事件挖掘目标语句中的动宾片段不存在主语片段时,丢弃所述动宾片段。
6.如权利要求5所述的方法,其特征在于,所述将划分后的成分对应写入所述事件知识实例中之后,还包括:
对所述事件知识库中的事件知识实例进行聚类分析,获得等价事件集合;以及
将所述等价事件集合中所有事件知识实例的信息写入所述事件知识库中,形成一个新的事件知识实例。
7.如权利要求6所述的方法,其特征在于,所述对所述事件知识库中的事件知识实例进行聚类分析,获得等价事件集合,包括:
对所述事件知识库中的主实体、宾实体且动作的约束信息一致的所有事件知识实例进行聚类,获得第一等价事件,抽取出所述第一等价事件中的核心动作,生成等价动作词典;以及
对所述事件知识库中的主实体和宾实体一致的所有事件知识实例进行聚类,获得第二等价事件,根据所述等价动作词典从所述第二等价事件中挑选出所有核心动作等价的事件知识实例,生成等价事件集合。
8.一种事件知识库的构建装置,其特征在于,包括:
识别模块,用于对文本进行识别,识别出事件挖掘候选语句,其中,所述事件挖掘候选语句包含至少一个主实体以及所述主实体的核心动作;
切分模块,用于对所述识别模块识别出的所述事件挖掘候选语句进行片段切分,获得句法片段;
生成模块,用于根据所述切分模块获得的所述句法片段和预定义的事件知识结构,生成事件知识实例,其中,所述事件知识实例的个数等于所述句法片段中包含的动宾片段和主谓片段的个数,每个所述动宾片段和每个所述主谓片段均对应一个所述事件知识实例;以及
写入模块,用于根据所述句法片段中包含的动宾片段和主谓片段获得对应的事件挖掘目标语句,对获得的事件挖掘目标语句进行成分划分,并将划分后的成分对应写入所述事件知识实例中,以完成所述事件知识库的构建。
9.如权利要求8所述的装置,其特征在于,所述句法片段包括主谓片段、动宾片段、状语片段、主语片段和名词谓语片段中的一种或多种。
10.如权利要求8所述的装置,其特征在于,所述预定义的事件知识结构包括事件知识实例标识、主实体、宾实体和动作四个属性,所述主实体包括动作的发起者对应的实体信息及其修饰信息,所述宾实体包括动作的承受者对应的实体信息及其修饰信息,所述动作包括核心动作及其约束信息。
11.如权利要求10所述的装置,其特征在于,所述写入模块,具体用于:
对获得的事件挖掘目标语句中的主谓片段进行成分划分,将划分出的所有成分对应写入所述事件知识实例的主实体、宾实体和动作中;
确定获得的事件挖掘目标语句中的动宾片段存在主语片段时,将所述主语片段写入所述事件知识实例的主实体中,对所述动宾片段进行成分划分,将划分出的所有成分对应写入所述事件知识实例的宾实体和动作中;以及
将获得的事件挖掘目标语句中除主谓片段、动宾片段之外的句法片段进行成分划分,将划分出的所有成分对应写入所述事件知识实例的修饰信息和约束信息中;
其中,所述成分包括主语、谓语、宾语、主语定语、状语和宾语定语中的一种或多种。
12.如权利要求11所述的装置,其特征在于,还包括:
丢弃模块,用于确定获得的事件挖掘目标语句中的动宾片段不存在主语片段时,丢弃所述动宾片段。
13.如权利要求12所述的装置,其特征在于,还包括:
融合模块,用于在所述写入模块将划分后的成分对应写入所述事件知识实例中之后,对所述事件知识库中的事件知识实例进行聚类分析,获得等价事件集合;以及将所述等价事件集合中所有事件知识实例的信息写入所述事件知识库中,形成一个新的事件知识实例。
14.如权利要求13所述的装置,其特征在于,所述融合模块,具体用于:
对所述事件知识库中的主实体、宾实体且动作的约束信息一致的所有事件知识实例进行聚类,获得第一等价事件,抽取出所述第一等价事件中的核心动作,生成等价动作词典;以及
对所述事件知识库中的主实体和宾实体一致的所有事件知识实例进行聚类,获得第二等价事件,根据所述等价动作词典从所述第二等价事件中挑选出所有核心动作等价的事件知识实例,生成等价事件集合。
CN201410010694.7A 2014-01-09 2014-01-09 事件知识库的构建方法及装置 Active CN103699689B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201410010694.7A CN103699689B (zh) 2014-01-09 2014-01-09 事件知识库的构建方法及装置
JP2016526443A JP6163607B2 (ja) 2014-01-09 2014-10-31 イベント知識データベースの構築方法および装置
KR1020157036777A KR101707369B1 (ko) 2014-01-09 2014-10-31 이벤트 저장소의 구축 방법 및 장치
PCT/CN2014/090073 WO2015103899A1 (zh) 2014-01-09 2014-10-31 事件知识库的构建方法及装置
US14/899,510 US10282664B2 (en) 2014-01-09 2014-10-31 Method and device for constructing event knowledge base

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410010694.7A CN103699689B (zh) 2014-01-09 2014-01-09 事件知识库的构建方法及装置

Publications (2)

Publication Number Publication Date
CN103699689A CN103699689A (zh) 2014-04-02
CN103699689B true CN103699689B (zh) 2017-02-15

Family

ID=50361217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410010694.7A Active CN103699689B (zh) 2014-01-09 2014-01-09 事件知识库的构建方法及装置

Country Status (5)

Country Link
US (1) US10282664B2 (zh)
JP (1) JP6163607B2 (zh)
KR (1) KR101707369B1 (zh)
CN (1) CN103699689B (zh)
WO (1) WO2015103899A1 (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699689B (zh) 2014-01-09 2017-02-15 百度在线网络技术(北京)有限公司 事件知识库的构建方法及装置
CN105528349B (zh) 2014-09-29 2019-02-01 华为技术有限公司 知识库中问句解析的方法及设备
CN104573006A (zh) * 2015-01-08 2015-04-29 南通大学 一种公共卫生突发事件领域知识库的构建方法
CN104794163B (zh) * 2015-03-25 2018-07-13 中国人民大学 实体集合扩展方法
CN108009184B (zh) * 2016-10-27 2021-08-27 北大方正集团有限公司 知识库同名实例混淆检测的方法及装置
CN108549667B (zh) * 2018-03-23 2022-04-08 绍兴诺雷智信息科技有限公司 一种结构化工程设计知识的语义检索方法
CN110569335B (zh) * 2018-03-23 2022-05-27 百度在线网络技术(北京)有限公司 基于人工智能的三元组校验方法、装置及存储介质
JP7095377B2 (ja) * 2018-04-17 2022-07-05 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
CN110889274B (zh) * 2018-08-17 2022-02-08 北大方正集团有限公司 信息质量评估方法、装置、设备及计算机可读存储介质
CN111443964B (zh) * 2019-01-17 2023-10-20 伊姆西Ip控股有限责任公司 更新用户界面的方法、设备和计算机可读存储介质
CN110263177B (zh) * 2019-05-23 2021-09-07 广州市香港科大***研究院 用于事件预测的知识图构建方法与事件预测方法
CN110348018A (zh) * 2019-07-16 2019-10-18 苏州大学 使用局部学习完成简易事件抽取的方法
CN110543574B (zh) * 2019-08-30 2022-05-17 北京百度网讯科技有限公司 一种知识图谱的构建方法、装置、设备及介质
EP4116841A4 (en) 2020-03-03 2023-03-22 Fujitsu Limited MACHINE LEARNING PROGRAM, MACHINE LEARNING METHOD AND MACHINE LEARNING DEVICE
CN111382256B (zh) * 2020-03-20 2024-04-09 北京百度网讯科技有限公司 信息推荐方法及装置
WO2022102825A1 (ko) * 2020-11-16 2022-05-19 주식회사 솔트룩스 표로부터 지식 데이터를 추출하기 위한 시스템 및 방법
EP4318268A4 (en) 2021-03-31 2024-05-15 Fujitsu Ltd INFORMATION PROCESSING PROGRAM, INFORMATION PROCESSING METHOD, INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING SYSTEM
CN113312490B (zh) * 2021-04-28 2023-04-18 乐山师范学院 一种针对突发事件的事件知识图谱构建方法
CN113157922B (zh) * 2021-04-28 2022-01-21 江苏易安联网络技术有限公司 基于图的网络实体行为评估、可视化方法
CN113312500B (zh) * 2021-06-24 2022-05-03 河海大学 一种面向大坝安全运行的事件图谱构建方法
CN113704490B (zh) * 2021-08-19 2023-06-20 扬州大学 一种面向异构数据的新工科教育知识图谱构建方法
CN117743586A (zh) * 2023-09-07 2024-03-22 四川大学 一种基于情绪事件知识图谱的心理健康辅助评价方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117283A (zh) * 2009-12-30 2011-07-06 安世亚太科技(北京)有限公司 一种基于语义索引的数据检索方法
CN102207947A (zh) * 2010-06-29 2011-10-05 天津海量信息技术有限公司 一种直接引语素材库的生成方法
CN102207948A (zh) * 2010-07-13 2011-10-05 天津海量信息技术有限公司 一种事件陈述句素材库的生成方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6907426B2 (en) * 2001-05-17 2005-06-14 International Business Machines Corporation Systems and methods for identifying and counting instances of temporal patterns
KR100481580B1 (ko) 2002-10-09 2005-04-08 한국전자통신연구원 문서에서 이벤트 문장을 추출하는 장치 및 그 방법
JP2005115882A (ja) 2003-10-03 2005-04-28 Akira Sagaraki 知識発見方法および知識発見システム
JP5071373B2 (ja) * 2006-02-27 2012-11-14 日本電気株式会社 言語処理装置、言語処理方法および言語処理用プログラム
JP4007413B2 (ja) 2007-01-22 2007-11-14 富士ゼロックス株式会社 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP4625535B1 (ja) 2009-12-14 2011-02-02 株式会社野村総合研究所 情報抽出システム及び情報抽出プログラム
CN101937430B (zh) * 2010-09-03 2015-04-15 清华大学 一种汉语句子中事件句式的抽取方法
KR20130099327A (ko) 2012-02-29 2013-09-06 한국전자통신연구원 오픈 도메인 정보 추출 장치 및 방법
US9208440B2 (en) * 2012-05-29 2015-12-08 Battelle Memorial Institute Method of analyzing a scenario represented as elements of a tensor space, and scored using tensor operators
CN103049532A (zh) * 2012-12-21 2013-04-17 东莞中国科学院云计算产业技术创新与育成中心 基于突发事件应急管理的知识库引擎构建及其查询方法
US9665875B2 (en) * 2013-10-18 2017-05-30 Sap Se Automated software tools for improving sales
CN103699689B (zh) * 2014-01-09 2017-02-15 百度在线网络技术(北京)有限公司 事件知识库的构建方法及装置
CN103902681A (zh) * 2014-03-21 2014-07-02 百度在线网络技术(北京)有限公司 搜索推荐方法和装置
CN103914548B (zh) * 2014-04-10 2018-01-09 北京百度网讯科技有限公司 信息搜索方法和装置
CN104035958B (zh) * 2014-04-14 2018-01-19 百度在线网络技术(北京)有限公司 搜索方法和搜索引擎
CN103995870A (zh) * 2014-05-21 2014-08-20 百度在线网络技术(北京)有限公司 交互式搜索方法和装置
CN104123351B (zh) * 2014-07-09 2017-08-25 百度在线网络技术(北京)有限公司 交互式搜索方法和装置
CN104102713B (zh) * 2014-07-16 2018-01-19 百度在线网络技术(北京)有限公司 推荐结果的展现方法和装置
CN104573028B (zh) * 2015-01-14 2019-01-25 百度在线网络技术(北京)有限公司 实现智能问答的方法和***
CN104965426A (zh) * 2015-06-24 2015-10-07 百度在线网络技术(北京)有限公司 基于人工智能的智能机器人控制***、方法和装置
CN107423274B (zh) * 2017-06-07 2020-11-20 北京百度网讯科技有限公司 基于人工智能的比赛解说内容生成方法、装置及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117283A (zh) * 2009-12-30 2011-07-06 安世亚太科技(北京)有限公司 一种基于语义索引的数据检索方法
CN102207947A (zh) * 2010-06-29 2011-10-05 天津海量信息技术有限公司 一种直接引语素材库的生成方法
CN102207948A (zh) * 2010-07-13 2011-10-05 天津海量信息技术有限公司 一种事件陈述句素材库的生成方法

Also Published As

Publication number Publication date
JP6163607B2 (ja) 2017-07-12
JP2016532942A (ja) 2016-10-20
KR20160018588A (ko) 2016-02-17
WO2015103899A1 (zh) 2015-07-16
CN103699689A (zh) 2014-04-02
US20160314394A1 (en) 2016-10-27
US10282664B2 (en) 2019-05-07
KR101707369B1 (ko) 2017-02-15

Similar Documents

Publication Publication Date Title
CN103699689B (zh) 事件知识库的构建方法及装置
US20170242934A1 (en) Methods for integrating semantic search, query, and analysis and devices thereof
CN105069560B (zh) 一种基于知识库和规则库的履历信息抽取与特征标识分析***及方法
CN103491205B (zh) 一种基于视频搜索的关联资源地址的推送方法和装置
JP2021108183A (ja) 意図推薦方法、装置、機器及び記憶媒体
CN105550375B (zh) 一种异构数据的整合方法及***
CN108196880A (zh) 软件项目知识图谱自动构造方法与***
CN104462547B (zh) 一种可配置的网页数据采集的方法及***
CN105528418B (zh) 一种设计文档生成方法及装置
CN103699389A (zh) 一种基于编译选项的Linux内核模块关系提取方法
CN104978332B (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
US9069880B2 (en) Prediction and isolation of patterns across datasets
CN105446966A (zh) 生成关系数据转换为rdf格式数据的映射规则的方法和装置
CN106155769B (zh) 一种工作流处理方法、装置及工作流引擎
CN108319661A (zh) 一种备件信息的结构化存储方法及装置
CN104239570B (zh) 论文的搜索方法及装置
CN104794221A (zh) 一种基于业务对象的多维数据分析***
CN102122280A (zh) 一种智能提取内容对象的方法及***
CN103914488A (zh) 文档的采集、标识、关联、搜索及展现的***
CN104765823A (zh) 一种网站数据采集的方法及装置
CN102508884A (zh) 热点事件与实时评论的获取方法及装置
CN104765763B (zh) 一种基于概念格的异构空间信息服务分类的语义匹配方法
CN101000618A (zh) 建立无连接的数据编程模型的方法、装置及其应用
US20150248385A1 (en) Semantic Network Establishing System and Establishing Method Thereof
CN113568923A (zh) 数据库中数据的查询方法和装置、存储介质及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant