CN111160030B - 一种信息抽取方法、装置、及存储介质 - Google Patents

一种信息抽取方法、装置、及存储介质 Download PDF

Info

Publication number
CN111160030B
CN111160030B CN201911262829.8A CN201911262829A CN111160030B CN 111160030 B CN111160030 B CN 111160030B CN 201911262829 A CN201911262829 A CN 201911262829A CN 111160030 B CN111160030 B CN 111160030B
Authority
CN
China
Prior art keywords
dependency
word
tree
verb
target text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911262829.8A
Other languages
English (en)
Other versions
CN111160030A (zh
Inventor
付骁弈
张�杰
吴信东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201911262829.8A priority Critical patent/CN111160030B/zh
Publication of CN111160030A publication Critical patent/CN111160030A/zh
Application granted granted Critical
Publication of CN111160030B publication Critical patent/CN111160030B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

一种信息抽取方法,包括对目标文本进行分词;对每个分词进行词性标注得到每个分词的词性标注结果;根据每个分词的词性标注结果进行依存树解析,得到所述目标文本所有分词的依存关系树;根据所述依存关系树抽取所述目标文本中实体关系的三元组本申请能够使用通用词性标注和依存关系识别技术进行实体抽取,节约标注成本的同时增强了***模型的鲁棒性。

Description

一种信息抽取方法、装置、及存储介质
技术领域
本文涉及计算机技术,尤指一种信息抽取方法、装置、及存储介质。
背景技术
信息抽取(IE)是将嵌入在文本中的非结构化信息自动提取转换为结构化数据的过程。信息抽取在互联网产品和企业服务领域有着广泛的应用。例如在构建搜索或者推荐引擎的过程中,首先需要对网页或者推荐品的文本内容进行信息提取。信息抽取的结果可以用于对文档去重,并且更精确地构建搜索索引和推荐特征:从而,不仅节约了存储成本,还提高了搜索和推荐的质量。
现有方法对实体抽取环节的建模使用命名实体识别技术进行识别,需要预先对特定领域的语料进行标注,此环节费时耗力,限制了信息抽取技术的应用范围。对于有方法的抽取结果无法还原原文中未提及的概念,缺少领域知识引导,导致抽取得到的三元组稀疏、语义连贯性不足。
发明内容
本申请提供了一种信息抽取方法、装置、及存储介质,能够达到节约标注成本和增强了***模型的鲁棒性的目的。
本申请提供了一种信息抽取方法,包括:对目标文本进行分词;对每个分词进行词性标注得到每个分词的词性标注结果;根据每个分词的词性标注结果进行依存树解析,得到所述目标文本所有分词的依存关系树;根据所述依存关系树抽取所述目标文本中实体关系的三元组,包括:对于每一个分词得到的动词分别进行如下操作:将该动词确定为三元组的谓词,以该动词为根节点,遍历所述依存关系树中与该动词有关的名词,将与该动词的依存关系为主体的实体确定为所述三元组的主体,将与该动词的依存关系为客体的实体确定为所述三元组的客体。
一个示例性实施例,上述对目标文本进行分词之前,还包括:移除所述目标文本中的特殊字符。
一个示例性实施例,上述根据依存关系树抽取所述目标文本中实体关系的三元组前,还包括:将所得到的依存关系树中名词词性的分词采用预定规则进行组块合并,获得组块合并后的依存关系树;所述采用预定规则进行组块合并包括以下方式至少之一:将连续的两个或两个以上专有名词进行组块合并;将专有名词和该专有名词后连接的非专有名词进行组块合并;将之间以一个标点或连词间隔的名词词性的分词进行组块合并。
一个示例性实施例,上述将所得到的依存关系树中名词词性的分词采用预定规则进行组块合并,获得组块合并后的依存关系树,还包括:将组块合并后得到的词作为名词词性的分词,按照所述预定规则进行组块合并,直到不存在能进行合并的名词词性的分词为止,获得最终的组块合并后的依存关系树。
一个示例性实施例,上述根据依存关系树抽取所述目标文本中实体关系的三元组前还包括:采用共指消解模型,将所述组块合并后的依存关系树中的指定的第一类型分词替换为所述共指消解模型分析出的所述分词中的名词,更新所述依存关系树;所述指定的第一类型分词包括其中至少之一:代词、称谓、及缩略语。
一个示例性实施例,上述根据依存关系树抽取所述目标文本中实体关系的三元组,包括:当对于一个动词,在所述依存关系树中未抽取到该动词为谓语的三元组中的主体或者客体时,使用所述依存关系树中与该动词关联的名词词性的分词,检索预定的领域知识库以确定所述主体或者客体。
一个示例性实施例,上述根据依存关系树进行实体关系的三元组抽取后还包括:将所抽取的关系三元组中的指定第二类型的词语移除后输出;所述指定第二类型的词语包括以下一种或多种:停用词、定冠词。
本申请还提供一种定向投放内容的装置,包括处理器和存储器,所述存储器中存储有用于定向投放内容的程序;所述处理器用于读取所述用于定向投放内容的程序,执行所述实施例中的任一项所述的方法。
本申请还提供一种信息抽取装置,包括:分词及解析模块,用于对目标文本进行分词;对每个分词进行词性标注得到每个分词的词性标注结果;根据每个分词的词性标注结果进行依存树解析,得到所述目标文本所有分词的依存关系树;抽取模块,用于根据所述依存关系树抽取所述目标文本中实体关系的三元组,是指:抽取模块,用于对于每一个分词得到的动词分别进行如下操作:将该动词确定为三元组的谓词,以该动词为根节点,遍历所述依存关系树中与该动词有关的名词,将与该动词的依存关系为主体的实体确定为所述三元组的主体,将与该动词的依存关系为客体的实体确定为所述三元组的客体。
本申请还提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所有实施例中的任一项所述的方法。
与相关技术相比,本申请通过对目标文本进行分词,对分词进行词性标注后,根据标注结果抽取三元组,能够使用通用词性标注和依存关系识别技术进行实体抽取,节约标注成本的同时增强了***模型的鲁棒性。
本申请在所述依存关系树中未抽取到该动词为谓语的三元组中的主体或者客体时,使用所述依存关系树中与该动词关联的名词词性的分词,检索预定的领域知识库以确定所述主体或者客体,使得关系抽取更加准确。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的其他优点可通过在说明书、权利要求书以及附图中所描述的方案来实现和获得。
附图说明
附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请实施例信息抽取方法流程图;
图2为本申请实施例一的目标文本分词及标注结果示意图;
图3为本申请实施例一种信息抽取装置模块图。
具体实施方式
本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合,以形成另一个由权利要求限定的独特的发明方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。
此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本申请实施例的精神和范围内。
下面将结合附图及实施例对本申请的技术方案进行更详细的说明。
如图1所示,本发明实施例一种信息抽取方法,包括如下步骤:
S101、对目标文本进行分词;对每个分词进行词性标注得到每个分词的词性标注结果;
S102、根据每个分词的词性标注结果进行依存树解析,得到所述目标文本所有分词的依存关系树;
所述步骤S102中,根据所述依存关系树抽取所述目标文本中实体关系的三元组,包括:对于每一个分词得到的动词分别进行如下操作:将该动词确定为三元组的谓词,以该动词为根节点,遍历所述依存关系树中与该动词有关的名词,将与该动词的依存关系为主体的实体确定为所述三元组的主体,将与该动词的依存关系为客体的实体确定为所述三元组的客体。
示例性的,使用自然语言处理软件包括但不局限于stanford CoreNLP,哈工大语言技术平台等对待抽取的目标文本进行分词、词性分析以及依存树解析。
在一个示例性的实施例中,如图2所示,以目标文本为“鲍勃打了玛丽,她随后被送往了医院。”这句话为例,使用stanford CoreNLP标注体系,进行分词得到如图2第三列所示的10个分词“鲍勃”、“打了”、“玛丽”、“,”、“她”、“随后”、“被”、“送往了”、“医院”、“。”。再进行词性分析,分析结果如图2第五列所示,每个分词的词性分别对应为“NR”、“VV”、“NR”、“PU”、“PN”、“AD”、“SB”、“NN”、“NN”、“PU”。其中NR表示专有名词;NN其他名词;VV表示动词;PU表示间隔符号。上述分词的标注为计算机领域常用的缩略形式,在此不赘述。
在一个示例性的实施例中,如图2所示,“鲍勃打了玛丽,她随后被送往了医院。”这句话中动词包括“打了”、“送往了”,将与动词“打了”存在依存关系的主体为“鲍勃”,客体为“玛丽”,故第一种抽取的三元组结果是:(鲍勃,打了,玛丽);同理,第二种抽取的三元组结果是:(玛丽,送往了,医院)。
在一个示例性的实施例中,所述对目标文本进行分词之前,还包括步骤104、移除所述目标文本中的特殊字符。
示例性的,可以通过建立特殊字符库,当存在匹配的特殊字符,比如当出现@、#、&等字符时,将其移除。
在一个示例性的实施例中,所述根据依存关系树抽取所述目标文本中实体关系的三元组前,还包括:
步骤S105、将所得到的依存关系树中名词词性的分词采用预定规则进行组块合并,获得组块合并后的依存关系树;
在一个示例性的实施例中,步骤S105中,所述采用预定规则进行组块合并包括以下方式至少之一:
A、将连续的两个或两个以上专有名词进行组块合并;
B、将专有名词和该专有名词后连接的非专有名词进行组块合并;
C、将之间以一个标点或连词间隔的名词词性的分词进行组块合并。
在一个示例性的实施例中,步骤S105中,所述将所得到的依存关系树中名词词性的分词采用预定规则进行组块合并,获得组块合并后的依存关系树,还包括:
将组块合并后得到的词作为名词词性的分词,按照所述预定规则进行组块合并,直到不存在能进行合并的名词词性的分词为止,获得最终的组块合并后的依存关系树。
示例性的,例如“人工智能、大数据和物联网技术”由“人工智能”,“、”,“大数据”和“物联网”三个专有名词,一个标点,一个连词,以及一个其他名词“技术”构成,此步骤通过迭代的合并“物联网技术”->大“数据和物联网技术”->“人工智能、大数据和物联网技术”构成最终的组块结果。又如图2所示,“鲍勃打了玛丽,她随后被送往了医院。“这句话为例,组块分析的结果如图2中第六列所示。nsubj表示名词主语;ROOT表示要处理文本的语句;dobj表示直接宾语;nsubj表示名词性主语;advmod表示副词修饰;auxpass表示被动词;conj表示连接两个并列的词;dobj表示直接宾语;punct表示间隔符号。
在一个示例性的实施例中,所述根据依存关系树抽取所述目标文本中实体关系的三元组前还包括:
步骤S106、采用共指消解模型,将所述组块合并后的依存关系树中的指定的第一类型分词替换为所述共指消解模型分析出的所述分词中的名词,更新所述依存关系树;
在一个示例性的实施例中,所述指定的第一类型分词包括其中至少之一:代词、称谓、及缩略语。
在一个示例性的实施例中,通过调用自然语言处理软件包对待分析文本中的代词替换为共指消解模型的分析结果。如“鲍勃打了玛丽,她随后被送往了医院”这句话,“她”需要被替换为玛丽。其中自然语言处理软件包包括但不局限于stanford CoreNLP等。
在一个示例性的实施例中,所述根据依存关系树抽取所述目标文本中实体关系的三元组,包括:
当对于一个动词,在所述依存关系树中未抽取到该动词为谓语的三元组中的主体或者客体时,使用所述依存关系树中与该动词关联的名词词性的分词,检索预定的领域知识库确定所述主体或者客体。
在一个示例性的实施例中,所述根据依存关系树进行实体关系的三元组抽取后还包括:步骤S107、将所抽取的关系三元组中的指定第二类型的词语移除后输出;所述指定第二类型的词语包括以下一种或多种:停用词、定冠词。能够使得抽取的关系三元组更加准确。
如图1所示,本发明实施例一种信息抽取装置,包括如下模块:
分词及解析模块10,用于对目标文本进行分词;对每个分词进行词性标注得到每个分词的词性标注结果;根据每个分词的词性标注结果进行依存树解析,得到所述目标文本所有分词的依存关系树;
抽取模块20,用于根据所述依存关系树抽取所述目标文本中实体关系的三元组,是指:抽取模块20,用于对于每一个分词得到的动词分别进行如下操作:将该动词确定为三元组的谓词,以该动词为根节点,遍历所述依存关系树中与该动词有关的名词,将与该动词的依存关系为主体的实体确定为所述三元组的主体,将与该动词的依存关系为客体的实体确定为所述三元组的客体。
示例性的,使用自然语言处理软件包括但不局限于stanford CoreNLP,哈工大语言技术平台等对待抽取的目标文本进行分词、词性分析以及依存树解析。
在一个示例性的实施例中,如图2所示,以目标文本为“鲍勃打了玛丽,她随后被送往了医院。”这句话为例,使用stanford CoreNLP标注体系,进行分词得到如图2第三列所示的10个分词“鲍勃”、“打了”、“玛丽”、“,”、“她”、“随后”、“被”、“送往了”、“医院”、“。”。再进行词性分析,分析结果如图2第五列所示,每个分词的词性分别对应为“NR”、“VV”、“NR”、“PU”、“PN”、“AD”、“SB”、“NN”、“NN”、“PU”。其中NR表示专有名词;NN其他名词;VV表示动词;PU表示间隔符号。上述分词的标注为计算机领域常用的缩略形式,在此不赘述。
在一个示例性的实施例中,如图2所示,“鲍勃打了玛丽,她随后被送往了医院。”这句话中动词包括“打了”、“送往了”,将与动词“打了”存在依存关系的主体为“鲍勃”,客体为“玛丽”,故第一种抽取的三元组结果是:(鲍勃,打了,玛丽);同理,第二种抽取的三元组结果是:(玛丽,送往了,医院)。
在一个示例性的实施例中,所述对目标文本进行分词之前,还包括步骤104、移除所述目标文本中的特殊字符。
示例性的,可以通过建立特殊字符库,当存在匹配的特殊字符,比如当出现@、#、&等字符时,将其移除。
在一个示例性的实施例中,所述装置还包括:
组块合并模块30,用于将所得到的依存关系树中名词词性的分词采用预定规则进行组块合并,获得组块合并后的依存关系树;
在一个示例性的实施例中,组块合并模块30,采用预定规则进行组块合并包括以下方式至少之一:
A、组块合并模块30将连续的两个或两个以上专有名词进行组块合并;
B、组块合并模块30将专有名词和该专有名词后连接的非专有名词进行组块合并;
C、组块合并模块30将之间以一个标点或连词间隔的名词词性的分词进行组块合并。
在一个示例性的实施例中,组块合并模块30,用于将所得到的依存关系树中名词词性的分词采用预定规则进行组块合并,获得组块合并后的依存关系树,还用于:
将组块合并后得到的词作为名词词性的分词,按照所述预定规则进行组块合并,直到不存在能进行合并的名词词性的分词为止,获得最终的组块合并后的依存关系树。
示例性的,例如“人工智能、大数据和物联网技术”由“人工智能”,“、”,“大数据”和“物联网”三个专有名词,一个标点,一个连词,以及一个其他名词“技术”构成,此步骤通过迭代的合并“物联网技术”->大“数据和物联网技术”->“人工智能、大数据和物联网技术”构成最终的组块结果。又如图2所示,“鲍勃打了玛丽,她随后被送往了医院。“这句话为例,组块分析的结果如图2中第六列所示。nsubj表示名词主语;ROOT表示要处理文本的语句;dobj表示直接宾语;nsubj表示名词性主语;advmod表示副词修饰;auxpass表示被动词;conj表示连接两个并列的词;dobj表示直接宾语;punct表示间隔符号。
在一个示例性的实施例中,抽取模块20,用于所述根据依存关系树抽取所述目标文本中实体关系的三元组前还用于:
采用共指消解模型,将所述组块合并后的依存关系树中的指定的第一类型分词替换为所述共指消解模型分析出的所述分词中的名词,更新所述依存关系树;
在一个示例性的实施例中,所述指定的第一类型分词包括其中至少之一:代词、称谓、及缩略语。
在一个示例性的实施例中,通过调用自然语言处理软件包对待分析文本中的代词替换为共指消解模型的分析结果。如“鲍勃打了玛丽,她随后被送往了医院”这句话,“她”需要被替换为玛丽。其中自然语言处理软件包包括但不局限于stanford CoreNLP等。
在一个示例性的实施例中,抽取模块20,用于根据依存关系树抽取所述目标文本中实体关系的三元组,是指:
当对于一个动词,在所述依存关系树中未抽取到该动词为谓语的三元组中的主体或者客体时,使用所述依存关系树中与该动词关联的名词词性的分词,检索预定的领域知识库确定所述主体或者客体。
在一个示例性的实施例中,抽取模块20,用述根据依存关系树进行实体关系的三元组抽取后还用于,将所抽取的关系三元组中的指定第二类型的词语移除后输出;所述指定第二类型的词语包括以下一种或多种:停用词、定冠词。能够使得抽取的关系三元组更加准确。
本申请还提供一种定向投放内容的装置,包括处理器和存储器,所述存储器中存储有用于定向投放内容的程序;所述处理器用于读取所述用于定向投放内容的程序,执行所述实施例中的任一项所述的方法。
本发明实施例提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述中任一项所述的方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、***、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

Claims (9)

1.一种信息抽取方法,其特征在于,包括:
对目标文本进行分词;对每个分词进行词性标注得到每个分词的词性标注结果;根据每个分词的词性标注结果进行依存树解析,得到所述目标文本所有分词的依存关系树;
根据所述依存关系树抽取所述目标文本中实体关系的三元组,包括:对于每一个分词得到的动词分别进行如下操作:将该动词确定为三元组的谓词,以该动词为根节点,遍历所述依存关系树中与该动词有关的名词,将与该动词的依存关系为主体的实体确定为所述三元组的主体,将与该动词的依存关系为客体的实体确定为所述三元组的客体;
当对于一个动词,在所述依存关系树中未抽取到该动词为谓语的三元组中的主体或者客体时,使用所述依存关系树中与该动词关联的名词词性的分词,检索预定的领域知识库以确定所述主体或者客体。
2.根据权利要求1所述的方法,其特征在于,所述对目标文本进行分词之前,还包括:移除所述目标文本中的特殊字符。
3.根据权利要求1所述的方法,其特征在于,所述根据所述依存关系树抽取所述目标文本中实体关系的三元组前,还包括:
将所得到的依存关系树中名词词性的分词采用预定规则进行组块合并,获得组块合并后的依存关系树;所述名词词性的分词包括专有名词和非专有名词;所述采用预定规则进行组块合并包括以下方式至少之一:
将连续的两个或两个以上的专有名词进行组块合并;
将专有名词和该专有名词后连接的非专有名词进行组块合并;
将之间以一个标点或连词间隔的名词词性的分词进行组块合并。
4.根据权利要求3所述的方法,其特征在于,所述将所得到的依存关系树中名词词性的分词采用预定规则进行组块合并,获得组块合并后的依存关系树,还包括:
将组块合并后得到的词作为名词词性的分词,按照所述预定规则进行组块合并,直到不存在能进行合并的名词词性的分词为止,获得最终的组块合并后的依存关系树。
5.根据权利要求3所述的方法,其特征在于,所述根据所述依存关系树抽取所述目标文本中实体关系的三元组前还包括:
采用共指消解模型,将所述组块合并后的依存关系树中的指定的第一类型分词替换为所述共指消解模型分析出的所述分词中的名词,更新所述依存关系树;
所述指定的第一类型分词包括其中至少之一:代词、称谓、及缩略语。
6.根据权利要求1所述的方法,其特征在于,其特征在于,根据依存关系树进行实体关系的三元组抽取后还包括:
将所抽取的关系三元组中的指定第二类型的词语移除后输出;所述指定第二类型的词语包括以下一种或多种:停用词、定冠词。
7.一种定向投放内容的装置,包括处理器和存储器,其特征在于,所述存储器中存储有用于定向投放内容的程序;所述处理器用于读取所述用于定向投放内容的程序,执行权利要求1-6中任一项所述的方法。
8.一种信息抽取装置,其特征在于,包括:
分词及解析模块,用于对目标文本进行分词;对每个分词进行词性标注得到每个分词的词性标注结果;根据每个分词的词性标注结果进行依存树解析,得到所述目标文本所有分词的依存关系树;
抽取模块,用于根据所述依存关系树抽取所述目标文本中实体关系的三元组,包括:用于对于每一个分词得到的动词分别进行如下操作:将该动词确定为三元组的谓词,以该动词为根节点,遍历所述依存关系树中与该动词有关的名词,将与该动词的依存关系为主体的实体确定为所述三元组的主体,将与该动词的依存关系为客体的实体确定为所述三元组的客体;
当对于一个动词,在所述依存关系树中未抽取到该动词为谓语的三元组中的主体或者客体时,使用所述依存关系树中与该动词关联的名词词性的分词,检索预定的领域知识库以确定所述主体或者客体。
9.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。
CN201911262829.8A 2019-12-11 2019-12-11 一种信息抽取方法、装置、及存储介质 Active CN111160030B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911262829.8A CN111160030B (zh) 2019-12-11 2019-12-11 一种信息抽取方法、装置、及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911262829.8A CN111160030B (zh) 2019-12-11 2019-12-11 一种信息抽取方法、装置、及存储介质

Publications (2)

Publication Number Publication Date
CN111160030A CN111160030A (zh) 2020-05-15
CN111160030B true CN111160030B (zh) 2023-09-19

Family

ID=70556890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911262829.8A Active CN111160030B (zh) 2019-12-11 2019-12-11 一种信息抽取方法、装置、及存储介质

Country Status (1)

Country Link
CN (1) CN111160030B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230140938A1 (en) * 2020-04-10 2023-05-11 Nippon Telegraph And Telephone Corporation Sentence data analysis information generation device using ontology, sentence data analysis information generation method, and sentence data analysis information generation program
CN111814466A (zh) * 2020-06-24 2020-10-23 平安科技(深圳)有限公司 基于机器阅读理解的信息抽取方法、及其相关设备
CN112948536A (zh) * 2020-11-09 2021-06-11 袭明科技(广东)有限公司 网页简历页面的信息抽取方法和装置
CN112269884B (zh) * 2020-11-13 2024-03-05 北京百度网讯科技有限公司 信息抽取方法、装置、设备及存储介质
CN113468878A (zh) * 2021-07-13 2021-10-01 腾讯科技(深圳)有限公司 词性标注方法、装置、电子设备及存储介质
CN114186552B (zh) * 2021-12-13 2023-04-07 北京百度网讯科技有限公司 文本分析方法、装置、设备及计算机存储介质
CN116484870B (zh) * 2022-09-09 2024-01-05 北京百度网讯科技有限公司 提取文本信息的方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010050675A2 (ko) * 2008-10-29 2010-05-06 한국과학기술원 의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출 방법
CN104573028A (zh) * 2015-01-14 2015-04-29 百度在线网络技术(北京)有限公司 实现智能问答的方法和***
CN107291687A (zh) * 2017-04-27 2017-10-24 同济大学 一种基于依存语义的中文无监督开放式实体关系抽取方法
CN108363816A (zh) * 2018-03-21 2018-08-03 北京理工大学 基于句义结构模型的开放式实体关系抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010050675A2 (ko) * 2008-10-29 2010-05-06 한국과학기술원 의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출 방법
CN104573028A (zh) * 2015-01-14 2015-04-29 百度在线网络技术(北京)有限公司 实现智能问答的方法和***
CN107291687A (zh) * 2017-04-27 2017-10-24 同济大学 一种基于依存语义的中文无监督开放式实体关系抽取方法
CN108363816A (zh) * 2018-03-21 2018-08-03 北京理工大学 基于句义结构模型的开放式实体关系抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于组块的中文自动文摘***研究;索红光等;《计算机***应用》;20070331(第03期);第97-100页 *

Also Published As

Publication number Publication date
CN111160030A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN111160030B (zh) 一种信息抽取方法、装置、及存储介质
Nothman et al. Learning multilingual named entity recognition from Wikipedia
JP6749110B2 (ja) ソーシャルメディアにおける言語識別
US10956662B2 (en) List manipulation in natural language processing
CN110874531A (zh) 一种话题分析方法、装置和存储介质
CN111178079B (zh) 一种三元组抽取方法及装置
CN109582799B (zh) 知识样本数据集的确定方法、装置及电子设备
CN109145110B (zh) 标签查询方法和装置
US20100161655A1 (en) System for string matching based on segmentation method and method thereof
CN111737499A (zh) 基于自然语言处理的数据搜索方法及相关设备
GB2555207A (en) System and method for identifying passages in electronic documents
US10592236B2 (en) Documentation for version history
US20190179888A1 (en) Data standardization rules generation
WO2020020287A1 (zh) 一种获取文本相似度的方法、装置、设备及可读存储介质
CN108875743B (zh) 一种文本识别方法及装置
US9779363B1 (en) Disambiguating personal names
CN110019948B (zh) 用于输出信息的方法和装置
Rehman et al. Morpheme matching based text tokenization for a scarce resourced language
CN104281716A (zh) 平行语料的对齐方法及装置
CN105446986A (zh) 用于处理web页面的方法和装置
US11182545B1 (en) Machine learning on mixed data documents
CN111133429A (zh) 提取表达以供自然语言处理
CN111046627A (zh) 一种中文文字显示方法及***
US9946765B2 (en) Building a domain knowledge and term identity using crowd sourcing
CN109558580B (zh) 一种文本分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant