CN104933027B

CN104933027B - 一种利用依存分析的开放式中文实体关系抽取方法

Info

Publication number: CN104933027B
Application number: CN201510321339.6A
Authority: CN
Inventors: 杨静; 李明耀; 贺樑
Original assignee: East China Normal University
Current assignee: Shanghai Chengguan Information Technology Co., Ltd.
Priority date: 2015-06-12
Filing date: 2015-06-12
Publication date: 2017-10-27
Anticipated expiration: 2035-06-12
Also published as: CN104933027A

Abstract

本发明公开了一种利用依存分析的开放式中文实体关系抽取方法，该方法首先对句子进行依存分析，再结合中文语法启发式规则和依存分析的结果抽取关系词语,然后根据距离确定命名实***置,最后进行三元组输出。在SogouCA和SogouCS语料库上进行实验，结果表明本发明适用于大规模语料库，具有良好的可移植性。本发明从根本上克服了汉语语法复杂，表达方式多样，语义丰富等固有性质的限制。

Description

一种利用依存分析的开放式中文实体关系抽取方法

技术领域

本发明涉及自然语言的信息抽取技术领域，尤其是一种利用依存分析的开放式中文实体关系抽取方法。

背景技术

近年来，随着互联网技术的发展，万维网逐渐成为一个取之不尽用之不竭的信息来源，如何快速获得用户感兴趣的信息成为研究关注的焦点。信息抽取(InformationExtraction,IE)技术正是在这种背景下应运而生，信息抽取的主要目的是从自然语言文本中抽取指定的实体(Entity)、关系(Relation)、事件(Event)等事实信息，把文本中无结构化信息转化成结构化的信息。实体关系抽取(Relation Extraction,RE)是指确定实体之间是否存在某种语义关系，是信息抽取的重要组成部分，涉及自然语言处理、机器学习等多方面的理论，在自动问答***、文本挖掘、搜索引擎、知识图谱构建等有着广泛的应用。

传统的信息抽取是面向限定领域文本的、限定类别实体、关系和事件等的抽取，面对日益增多不规范的和开放的海量数据，传统的依赖于标注语料的统计机器学习方法遇到了严重的挑战。开放式信息抽取(Open Information Extraction,OIE)在这种背景下产生，目标是从海量、异构、不规范、含有大量噪声和冗余的网页中大规模地抽取开放类别的实体、关系、事件等，并形成结构化的数据格式输出。

开放式实体关系抽取可以分为半监督、远程监督和无监督三种方法。其中，半监督的抽取方法需要少量的人工种子数据，并没有用到句法特征，更多的是一系列的正则表达式，而初始种子的好坏能够明显影响程序结果。远程监督的方法需要一个较大规模的知识库，需要尽可能多地含有关系类别以及对应的关系实例。知识库中的关系类别的数量会直接影响到能够抽取出来的关系类别，每种关系类别中的关系实例数量会直接影响到特征的数量，最终影响抽取关系抽取的准确率和召回率。此外，在中文上，也很难找到一个大规模的可用的关系知识库。无监督的抽取方法不需要任何人工标注数据，聚类方法在很大程度上减少了人工的介入，消除了预定义关系类别、不依赖标注的语料以及人工指定的规则。但这类方法仍存在一些不足，例如特征获取不准确、聚类结果不合理、准确率较低以及聚类数目、聚类中心难以确定等。在英文上无监督的另一种方法就是用实体之间的谓语作为关系表述，大量的研究学者在此基础上进行了研究。理论上，英文实体关系抽取的方法可以用于中文实体关系抽取。但是由于汉语语法复杂，表达方式多样，语义丰富等固有性质的限制，一些英文实体关系抽取的方法很难直接用在中文实体关系抽取上。

发明内容

本发明的目的是针对现有技术的不足而提供的一种利用依存分析的开放式中文实体关系抽取方法，利用依存分析结合中文语法启发式规则实现中文实体关系抽取。该方法以大规模的自由文本作为关系抽取的目标文本，并借助语言云(Language TechnologyPlatform,LTP)对分句后的自由文本进行分词、词性标注、命名实体识别和依存分析等预处理；然后，结合中文语法启发式规则和依存分析的结果抽取关系表述,然后根据距离确定命名实***置，最后输出表示实体关系的三元组的集合。

本发明的目的是这样实现的：

一种利用依存分析的开放式中文实体关系抽取方法，该方法包括以下具体步骤：

第一步：对大规模的自由文本采用基于视觉信息的网页分块算法进行正文提取；

第二步：按照句号、问号和感叹号对提取到的正文进行分句处理，得到单句的集合；

第三步：采用语言技术平台云，对每个单句进行分词、词性标注、命名实体识别和依存分析，得到带有分词、词性标注、命名实体和依存分析信息的单句；

第四步：根据第三步中依存分析的结果判断句子是不是动词谓语句，如果不是，执行第十步；

第五步：结合关系表述即“状语*动词+补语？宾语？”，以及第三步的依存分析结果抽取关系词语；

第六步：根据第三步的结果，将组成命名实体的词进行合并；根据第五步的结果，将组成关系词语的词进行合并；最后，将词、命名实体以及关系词语从右向左依次将它们的位置标记为1，2，......，N；若关系词语中含有命名实体，则其位置标记相同；

第七步：根据第六步的位置标记，确定命名实***置,利用公式(1)计算置信度，当置信度Confidence(L_i，L_j)达到最大值时，选择L_i的位置作为命名实体1，选择L_j的位置作为命名实体2，设命名实体1的位置总是位于命名实体2的位置的左边；

在公式(1)中，L表示命名实体的位置，R表示关系词语的位置；第一个分式中，L_i-L_j表示命名实体1和命名实体2的距离；在第二个分式中，L_i-R表示命名实体1和关系词语的距离；在第三个分式中，L_j-R+1表示命名实体2和关系词语的距离，距离越大表示命名实体和命名实体之间、命名实体和关系词语之间存在语义关系的可能性越小，置信度也会越低；

第八步：手动设置关系词语比例r

通过爬取百度百科WEB页面，选取公式(2)中的r＝0.1,0.2,0.3……,0.9作为阈值，通过实验当r＝0.7的时候准确率、召回率、F值最优；当命名实体长度为1时，识别出来的命名实体为1个字，这里选取命名实体的长度大于等于2作为阈值；

第九步：根据第五步抽取到关系词语和第七步的命名实体以及第八步的过滤条件，如果符合条件则输出三元组，如果不符合条件则不输出该三元组；

第十步：结束。

所述依存分析依是通过分析语言单位内成分之间的依存关系揭示其句法结构，主张句子中核心动词是支配其它成分的中心成分，而核心动词本身却不受其它任何成分的支配，所有受支配成分都以某种依存关系从属于核心动词。

与背景技术相比，本发明有以下优点：

根据本发明的实现步骤，能够从大规模的自由文本中抽取出中文实体关系，克服了半监督方法初始种子选择困难的问题；克服了远程监督方法，在中文上很难找到一个大规模的可用的关系知识库；克服了无监督聚类方法特征获取不准确、聚类结果不合理、准确率较低以及聚类数目、聚类中心难以确定的问题；克服了汉语语法复杂，表达方式多样，语义丰富等固有性质的限制，保证了关系抽取的准确率、召回率和F值。

附图说明

图1为本发明流程图

图2为本发明依存分析实例示意图；

图3为本发明依存句法分析标注关系示意图；

图4为本发明的关系词语示意图。

具体实施方式

参阅图1，本发明包括以下具体步骤：

第一步：对输入的自由文本采用基于视觉信息的网页分块(Vision-based PageSegmentation,VIPS)算法进行正文提取；

第二步：按照句号、问号和感叹号对提取的正文进行分句处理，输出单句的集合；

句子是语言的使用单位，句子由词或短语构成，能表达一个完整的意思，在书面上用句号、问号或感叹号表示停顿和语调。以句子的结构特点为分类标准，中文的句子可分为两大类：单句和复句。两个或两个以上的单句，意义上密切相连，结构上互不包含，组成一句话，这就是复句。复句拆分以后，即可成为单句。

第三步：借助哈工大社会计算与信息检索研究中心的语言技术平台云(LanguageTechnology Platform,LTP)，对每个单句进行分词、词性标注、命名实体识别和依存分析，输出带有分词、词性标注、命名实体和依存分析信息的单句。

依存分析通过分析语言单位内成分之间的依存关系揭示其句法结构，主张句子中核心动词是支配其它成分的中心成分，而核心动词本身却不受其它任何成分的支配，所有受支配成分都以某种依存关系从属于核心动词。依存句法分析可以反映出句子各成分之间的语义修饰关系，识别句子中的“主谓宾”、“定状补”这些语法成分，并分析各成分之间的关系。

第四步：根据第三步中依存分析的结果判断句子是不是动词谓语句，如果不是，执行第十步。

单句又可分为非主谓句和主谓句，其中主谓句由单个词或其他短语构成，可以分析出主语和谓语作为命名实体。主谓句分为动词谓语句、形容词谓语句和名词谓语句，动词谓语句的谓语是动词或者动词短语，它在日常用语中占了很大的比重，是汉语中常见的句型。

第五步：结合关系表述即“状语*动词+补语？宾语？”，以及第三步中的依存分析的结果抽取关系词语。

其中*表示出现0次或者任意多次，+表示出现1次或者任意多次，？表示出现0次或者1次。动词谓语句主要分为三大类，动词做谓语、动词短语做谓语、复杂的动词短语作谓语。动词作谓语的情况比较简单，动词作为谓语。动词短语做谓语是以动词为主体，主要分为三大类：动宾短语、后补短语、偏正短语。其中，偏正短语的结构由中心语和修饰语配对组成，可以分为两类：定语中心语、状语中心语。复杂的动词短语作谓语是一个动词同时带有状、宾、补语或其中的两个。例如：“状+动+补+宾”，“状+动+补”，“状+动+宾”，“动+补+宾”。

第六步：根据第三步的结果，将组成命名实体的词进行合并。根据第五步的结果，将组成关系词语的词进行合并。最后，将词、命名实体以及关系词语，从右向左依次将它们的位置标记为1，2，......，N。若关系词语中含有命名实体，则它们的位置标记相同。

第七步：根据第六步的位置标记，确定命名实***置,当公式(1)中置信度Confidence(L_i，L_j)达到最大值时，选择L_i的位置作为命名实体1，选择L_j的位置作为命名实体2，假定命名实体1的位置总是位于命名实体2的位置的左边。

在公式(1)中，L表示命名实体的位置，R表示关系词语的位置。第一个分式中，L_i-L_j表示命名实体1和命名实体2的距离；在第二个分式中，L_i-R表示命名实体1和关系词语的距离；在第三个分式中，L_j-R+1表示命名实体2和关系词语的距离，分母中加1的目的是为了防止除数为0，因为命名实体2有可能出现在关系词语中，距离越大表示命名实体和命名实体之间、命名实体和关系词语之间存在语义关系的可能性越小，置信度也会越低。

第八步：手动设置关系词语比例r

通过爬取的百度百科WEB页面，选取了公式(2)中的r＝0.1,0.2,0.3……,0.9作为阈值，通过实验当r＝0.7的时候准确率、召回率、F值最优。当命名实体长度为1的时候，识别出来的命名实体为1个字，选取命名实体的长度大于等于2作为阈值。

第九步：根据第五步抽取到关系表述和第七步的论元以及第八步的过滤条件，如果符合条件则输出三元组，如果不符合条件则不输出该三元组；

第十步：结束。

实施例

参阅图1-4，将大规模自由文本进行输入，接着对输入的自由文本进行预处理。

第一步：由于自由文本中含有大量的HTML标签以及其它噪声，对输入的自由文本采用基于视觉信息的网页分块(Vision-based Page Segmentation,VIPS)算法进行正文提取；

第二步：按照句号、问号和感叹号对输出的正文进行分句处理，输出单句的集合；

第三步：由于中文不像英文一样，词和词之间有空格作为明显的分割边界，借助哈工大社会计算与信息检索研究中心的语言技术平台云(Language Technology Platform,LTP)，对每个单句进行分词、词性标注、命名实体识别和依存分析。例如，用LTP对句子“上海市公安局和上海海关缉私局成立联合专案组，迅速开展案件侦查。”进行分析，可以得到图2的结果，其中n表示名词、v表示动词、a表示形容词。如图3所示，展示了在本专利方法中常用的依存句法分析标注关系。

第四步：根据第三步中的依存分析的结果判断句子是不是动词谓语句，如果不是，执行第十步。结合图3通过依存弧VOB确定图2中的句子是动词谓语句。

第五步：结合关系表述即“状语*动词+补语？宾语？”，以及第三步中的依存分析的结果抽取关系词语。图2中的句子，通过依存弧VOB确定动宾关系：“成立专案组和开展侦查”。然后按照关系表述更形象化的如图4所示，对动宾关系进一步完善，在“成立专案组”中，依存弧ATT表示定中关系，“联合”修饰“专案组”，最后可以得到关系词语“成立联合专案组”。在“开展侦查”中，依存弧ADV表示状中结构，“迅速”修饰“开展”，依存弧FOB表示前置宾语，“案件”修饰“侦查”，最后可以得到关系词语“迅速开展案件侦查”。

第六步：根据第三步的结果，将组成命名实体的词进行合并。根据第五步的结果，将组成关系词语的词进行合并。最后，将剩下的词、命名实体以及关系词语，从右向左依次将它们的位置标记为1，2，......，N。若关系词语中含有命名实体，则它们的位置标记相同。

第八步：手动设置关系表述比例r小于等于0.7以及论元的长度大于等于2：

第九步：根据第五步抽取到关系词语和第七步的命名实体以及第八步的过滤条件，如果符合条件则输出三元组，如果不符合条件则不输出该三元组。从第五步得到关系词语“成立联合专案组”和“迅速开展案件侦查”以及从第七步得到的命名实体“上海市公安局”和“上海海关缉私局”，最后输出关系三元组Triple1-(上海市公安局，上海海关缉私局，成立联合专案组)和Triple2-(上海市公安局，上海海关缉私局，迅速开展案件侦查)。

第十步：结束。

Claims

1.一种利用依存分析的开放式中文实体关系抽取方法，其特征在于该方法包括以下具体步骤：

第八步：手动设置关系词语比例r

通过爬取百度百科WEB页面，选取公式(2)中的r＝0.1,0.2,0.3……,0.9作为阈值，通过实验当r＝0.7的时候准确率、召回率、F值最优；当命名实体长度为1时，识别出来的命名实体为1个字，这里选取命名实体的长度大于等于2作为阈值条件；

第十步：结束。

2.根据权利要求1所述的方法，其特征在于所述依存分析是通过分析语言单位内成分之间的依存关系揭示其句法结构，主张句子中核心动词是支配其它成分的中心成分，而核心动词本身却不受其它任何成分的支配，所有受支配成分都以某种依存关系从属于核心动词。