CN104298714B

CN104298714B - 一种基于异常处理的海量文本自动标注方法

Info

Publication number: CN104298714B
Application number: CN201410472856.9A
Authority: CN
Inventors: 刘瑞; 左源; 王德庆
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2014-09-16
Filing date: 2014-09-16
Publication date: 2017-12-08
Anticipated expiration: 2034-09-16
Also published as: CN104298714A

Abstract

本发明公开了一种基于异常处理的海量文本自动标注方法，包括如下步骤：S1，从知识库中提取命名实体以及存在关系的命名实体对，分别进行存储；S2，根据存储的命名实体，通过使用字符串匹配找出海量文本中每个句子的命名实体，根据存储的命名实体对找出文本中所有命名实体对共现的句子，进行粗标注；S3，对进行过粗标注的句子中的命名实体进行判断，当存在词对异常时，将其删除；当存在命名实体异常时，通过过滤算法将有命名实体异常的命名实体全部去除掉，得到最终的文本标注结果。本发明能够有效解决在标注过程中错误标注的问题，提高了文本标注的准确率。

Description

一种基于异常处理的海量文本自动标注方法

技术领域

本发明涉及一种海量文本自动标注方法，尤其涉及一种基于异常处理的海量文本自动标注方法，属于自然语言处理领域。

背景技术

随着当今科学技术的飞速发展，各类信息层出不穷，甚至远远超出了人类阅读的能力，如何有效地使用海量数据，从中找出需要的信息越来越受到人们的重视。信息抽取(Information Extraction)是帮助人们使用海量数据的一种技术，信息抽取的主要目的是从无结构的自然语言文本中抽取特定的事件、事实等信息，再转化为结构化或半结构化的信息，然后储存在数据库中，供查询以及进一步分析利用，为数据挖掘、问答***、文本挖掘等应用***提供重要基础。而实体关系抽取是信息抽取中的重要部分，其任务是从文本中抽取出两个或者多个实体之间预先定义好的语义关系。

远程监督式实体关系抽取是实体关系抽取领域的研究热点之一。远程监督式实体关系抽取首先要使用知识库从海量文本中抽取出训练数据，传统的做法就是使用命名实体解析器从海量文本中识别命名实体，如果一个句子包含两个命名实体并且这两个命名实体具有Freebase中的某个关系，认为这个句子是在描述这两个命名实体之间的关系，把这个句子标注出来，后续再抽取特征、训练分类器。其中，文本标注的准确度直接关系到实体关系抽取后形成的训练分类器的准确性，进而影响后续利用该实体关系进行的数据挖掘、问答***、文本挖掘等应用的准确性。

然而，远程监督式实体关系抽取方法存在着很多的局限，命名实体解析器根据训练时的情况，可以找出的命名实体类型是有限的，比如斯坦福的命名实体解析器只能识别出人物、组织和地点这三种命名实体类型，不足Freebase中命名实体类型数量的百分之一，召回率也不能很好地满足用户的需求。其次命名实体解析器并不能正确标注出所有的人物、组织和地点实体，会存在错误和遗漏的情况，不能有效地满足文本标注的需求。

发明内容

本发明所要解决的技术问题在于提供一种基于异常处理的海量文本自动标注方法。

为实现上述目的，本发明采用下述的技术方案：

一种基于异常处理的海量文本自动标注方法，包括如下步骤：

S1，从知识库中提取命名实体以及存在关系的命名实体对，分别进行存储；

S2，根据存储的命名实体，通过使用字符串匹配找出海量文本中每个句子的命名实体，根据存储的命名实体对找出文本中所有命名实体对共现的句子，进行粗标注；

S3，对进行过粗标注的句子中的命名实体进行判断，当存在词对异常时，将其删除；当存在命名实体异常时，通过过滤算法将有命名实体异常的命名实体全部去除掉，得到最终的文本标注结果；

其中，所述通过过滤算法将有命名实体异常的命名实体全部去除掉包括使用基于命名实体词性的方法过滤掉词性异常的命名实体；

所述使用基于命名实体词性的方法过滤掉词性异常的命名实体，包括如下步骤：

对于命名实体e，判断其在文本中的常见词性POS_e；

当命名实体e是关系r的实例中的第一个实体时，找出关系r所有实例中第一个实体最常见的词性POS_r，否则找出关系r所有实例中第二个实体最常见的词性POS_r；

如果POS_e与POS_r不相等，则判定命名实体e有异常。

其中较优地，在S2中使用字符串匹配找出文本中每个句子的命名实体时，首先判断抽取的命名实体在句子中有没有重叠，如果有重叠，则选用长度最长的命名实体，如果没有重叠，则将句子中的所有命名实体全部提取。

其中较优地，对进行过粗标注的句子进行判断时，如果句子中两个命名实体存在单一关系，则该命名实体标注无异常；如果句子中两个命名实体存在多种关系，则该命名实体存在词对异常。

其中较优地，通过过滤算法将有异常的命名实体全部去除掉，得到最终的文本标注结果的过程包括如下步骤：

S31，对进行过粗标注的句子中的命名实体进行类别数量判断，根据类别数量将有命名实体异常的命名实体进行过滤；

S32，当命名实体的类别数量和其他同名实体差异性相当时，通过命名实体出现的频次对有命名实体异常的命名实体进行进一步的过滤；

S33，对于前两步中判定没有命名实体异常的命名实体，使用基于命名实体词性的方法再过滤掉词性异常的命名实体，得到最终的文本标注结果。

其中较优地，对进行过粗标注的句子中的命名实体进行类别数量判断包括如下步骤：

S311，对于命名实体e，在知识库中找出所有与e同名的命名实体，当命名实体e的类别数量多于其他同名实体时，则该命名实体e没有异常；

S312，当命名实体e的类别数量小于其他同名实体时，则命名实体e存在异常，此时把命名实体e过滤掉。

其中较优地，依据文本中命名实体出现的频次对异常的命名实体进行过滤包括如下步骤：

S321，对于命名实体e，统计文本中出现e的句子数量sentence_e；

S322，当命名实体e出现在关系的实例中时，统计所有包含命名实体e的关系实例出现的句子数量sentence_p；

S323，通过公式计算偏差系数α；

S324，当偏差系数α小于特定值时，把命名实体e过滤掉。

其中较优地，判断命名实体e在文本中的常见词性，首先找出文本中所有包含e的关系实例共现的句子，然后根据命名实体的词性就是其包含多个词语的最后一个词语的词性，得到命名实体e的所有词性，最后统计命名实体出现次数最多的词性，即为命名实体最常见的词性。

本发明提供的基于异常处理的海量文本自动标注方法，通过以知识库作为命名实体的识别依据，能够识别的命名实体类型比较齐全，对句子进行粗标注之后，再依据过滤算法将错误标注的命名实体去除掉，得到最终的文本标注结果，能有效地防止命名实体错误标注的情况，提高了标注的召回率和准确性，有效地满足文本标注的需求。

附图说明

图1为本发明所提供的文本自动标注方法的流程图；

图2为本发明所提供的通过过滤算法将有异常的命名实体进行过滤的流程图全。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细说明。

如图1所示，本发明提供一种基于异常处理的海量文本自动标注方法，包括如下步骤：从知识库中提取命名实体以及存在关系的命名实体对，分别进行存储，根据存储的命名实体，通过使用字符串匹配找出海量文本中每个句子的命名实体，根据存储的命名实体对找出文本中所有命名实体对共现的句子，进行粗标注。最后通过过滤算法将错误标注的命名实体去除掉，得到最终的文本标注结果。下面对这一过程做详细具体的说明。

S1，从知识库中提取命名实体以及存在关系的命名实体对，分别进行存储。

Freebase是一个开放的创作共享类网站，所有内容都由用户添加，采用创意共用许可证，可以自由引用。Freebase中把一个命名实体叫做Topic，Freebase中的条目都采用结构化数据的形式，例如已故美国总统肯尼迪的Topic中所有的内容是按照Common、Film、Government、People等几个类别进行组织，People的类别中包括出生时间、死亡时间、性别、职业、国籍、配偶等信息，Freebase的这种特性使得它被当作一个巨大的开放知识库来使用，例如美国总统肯尼迪的出生地属性值是Brookline，那么美国总统肯尼迪和Brookline之间的关系是人物地点之间的出生地关系。这样Freebase中每个事实表都可以看作是描述两个命名实体之间的一个关系实例。通过这种处理，从Freebase中可以抽取出海量的关系以及具有关系的命名实体对。在本发明所提供的实施例中，从知识库中提取出海量的命名实体以及存在关系的命名实体对，并将它们分别进行存储，便于后期对海量文本的句子中存在的命名实体进行提取。

S2，根据存储的命名实体，通过使用字符串匹配找出海量文本中每个句子的命名实体，根据存储的命名实体对找出文本中所有命名实体对共现的句子，进行粗标注。

在本发明所提供的实施例中，根据存储的命名实体，通过字符串匹配的方法在海量文本中找出每个句子中存在的命名实体，然后根据存储的命名实体对对找出的命名实体进行划分，找出海量文本中存在关系的命名实体对，根据划分结果找出海量文本中所有存在关系的命名实体对共现的句子，进行粗标注，降低了检索的时间复杂度，提高了检索的效率。

粗标注虽然能够达到100％的召回率，但也使得准确率有所下降。当一个词语(或短语)和Freebase中的一个命名实体完全相同时，它也不一定是在表述这个命名实体，主要有以下几种可能：

(1)部分匹配，例如Freebase中有“New York University”和“York University”这两个实体，当句子中包含“New York University”时，虽然这时句子中也包含了“YorkUniversity”，但句子并不是在表示这个命名实体；

(2)歧义，一个词语(或短语)可能有多种意思，例如“Most”，既可以表示绝大多数，也可以表示捷克的一个小城市。命名实体不会存在歧义，都是明确指代一个事物，但命名实体的词语可以存在歧义，例如作为捷克的一个小城市的命名实体“Most”是没有歧义的，但词语“Most”是有歧义的。在本发明所提供的实施例中，把命名实体的词语有歧义的情况，称为命名实体有歧义。

在本发明所提供的实施例中，面对词语的部分匹配问题，在一个句子中抽取出多个命名实体时，首先判断抽取的命名实体在句子中有没有重叠，如果有重叠，则选用长度最长的命名实体，如果没有重叠，则将句子中的所有命名实体全部提取。而面对命名实体有歧义的问题，则严重损害了粗标注数据的准确率。在本发明所提供的实施例中，将命名实体有歧义分为词对异常和命名实体异常，通过过滤掉这些异常来提升文本标注的准确率。

S3，对进行过粗标注的句子中的命名实体进行判断，当存在词对异常时，将其删除；当存在命名实体异常时，通过过滤算法将有命名实体异常的命名实体去除掉，得到最终的文本标注结果。

一个词语(或短语)可以表述多个意思，因此句子中出现了命名实体的词语并不表示这个句子一定是在描述这个命名实体。例如“Victoria”既可以表示澳大利亚的一个州，又可以表示加拿大“British Columbia”的首府，句子中出现了“Victoria”这个词并不能确定句子到底描述的是哪个命名实体。面对这种问题，一般通过寻找两个具有关系的命名实体共现的句子，来减少由于词语的歧义引起的错误标注，因为如果一个句子出现了有关系的两个命名实体，那该句子就很可能是描述这两个命名实体。例如“Victoria”表示澳大利亚的一个州时，和“Australia”存在地点之间的包含关系，在表示加拿大“BritishColumbia”的首府时，和“British Columbia”存在地点之间的包含关系，如果一个句子中同时出现“Victoria”和“British Columbia”，该句子很可能描述的就是加拿大的城市“Victoria”，而不是澳大利亚的州“Victoria”。

但是，当有歧义的词语之间有多个关系时，寻找两个具有关系的命名实体共现的句子的方式不能消除错误的标注。例如“Victoria”可以表示英国的一位女皇，也可以表示伦敦的一个区，这两个实体都和表示地点的命名实体“London”有关系，英国的女皇“Victoria”与地点“London”有人物地点之间的出生地的关系，而伦敦的一个区“Victoria”与地点“London”有地点之间的包含关系。这时如果有一个句子里面同时包含“Victoria”和“London”，就很难判断该句子中的“Victoria”到底描述的是哪个实体。在本发明所提供的实施例中，当两个词语(或短语)之间存在上述多个关系时，则判定句子存在词对异常，当存在异常的词对共同出现在一个句子中时，很难判断出句子中词对的关系，在本发明所提供的实施例中，通过将存在词对异常的句子全都删去，来减少错误标注的数据。

除此之外，一个词语(或短语)可以表示多个命名实体，当这些命名实体的使用频率差距很大时，使用频率低的命名实体很可能产生错误标注的数据。例如“August”既可以表示一年中第八个月，也可以表示美国加州的一个普查规定居民点。表示地点的命名实体“August”和“California”之间具有地点之间的包含关系，在查找这两个命名实体共现的句子时，由于表示八月的命名实体“August”非常常用，因此很可能错误地标注表示八月的“August”和“California”共现的句子，认为它们是两个地点命名实体之间的包含关系，导致了错误标注数据的产生。本发明所提供的实施例中，当一个命名实体出现的所有句子中，一半以上的句子都没有描述这个命名实体时，则判定该命名实体存在异常。当出现命名实体异常时，由于命名实体对共现的句子中绝大多所都不是在表述该命名实体，这时如果通过过滤掉没有表述实体的句子来消除错误标注的句子，很难把所有没表述实体的句子都过滤掉，而且有可能错误过滤掉描述实体的句子。在本发明所提供的实施例中，通过过滤算法将有命名实体异常的命名实体全部去除掉，得到最终的文本标注结果。

如图2所示，通过过滤算法将有异常的命名实体全部去除掉，得到最终的文本标注结果的过程包括如下步骤：

S31，对进行过粗标注的句子中的命名实体进行类别数量判断，据类别数量将有命名实体异常的命名实体进行过滤。

知识库Freebase中包括了人类社会海量的信息，包括每个命名实体各个方面的信息，在Freebase中没有同名的实体基本不存在，例如“Beijing”这个意思非常明确的词语，在Freebase中也有几十个同名实体，“Beijing”除了表示中国的首都这个地点，还可以表示一本由Philip Gambone写的书。因此单纯通过Freebase中是否包含同名的其他实体来判断一个实体是否有异常是不行的。

Freebase中的实体可以属于一些类别(Type)，一个类别其实就是从一个方面来介绍这个实体，因此一个实体越有名越常用，它所属的类别就越多。例如“Beijing”表示城市、地点时，有32个类别，分别从地点、城市、时区、奥林匹克举办城市等不同侧面记录了北京的信息，而“Beijing”表示书时，只有5个类别，从书、绿色教育等方面介绍了它。

在本发明所提供的实施例中，用实体在Freebase中的类别数量来判断该实体是否是同名实体中最有名最常用的一个。如果一个实体的类别数量多于其他同名实体(当一个命名实体的类别数量是同名实体中最多的，并且类别数量超过了第二和第三多的命名实体类别数量之和，则称该命名实体的类别数量多于其他同名实体。)，则该实体没有异常，如果一个实体的Type数量小于其他同名实体(当一个命名实体的类别数量排在同名实体中的类别数量的第三位以后，则称该命名实体的类别数量少于其他同名实体。)，则该命名实体异常，当一个命名实体的类别数量不属于上述两种情况时，则称该命名实体的类别数量和其他同名实体没有差异性，当命名实体的类别数量和其他同名实体没有差异性时，依据Freebase中的信息很难判断该命名实体是否有异常。

在本发明所提供的实施例中，判断一个实体的类别数量的过程包括如下步骤：

S311，对于命名实体e，在Freebase中找出所有与e同名的命名实体，当命名实体e的类别数量多于其他同名实体时，则该命名实体e没有异常；

S312，当命名实体e的类别数量小于其他同名实体，则命名实体e存在异常，此时把命名实体e过滤掉。

在本发明所提供的实施例中，当命名实体的类别数量和其他同名实体没有差异性相当时，依据Freebase中的信息很难判断该命名实体是否有异常，需要进一步的过滤来去除掉存在异常的命名实体。

S32，当命名实体的类别数量和其他同名实体差异性相当时，通过命名实体出现的频次对有命名实体异常的命名实体进行进一步的过滤。

当一个命名实体存在异常时，很多出现该命名实体的句子都没有描述这个命名实体，因此该命名实体的统计信息和其他没有异常的命名实体存在显著的区别。在本发明所提供的实施例中，依据海量文本中命名实体出现的频次对异常的命名实体进行过滤，包括如下步骤：

S321，对于命名实体e，统计文本中出现e的句子数量sentence_e；

S322，当命名实体e出现在关系的实例中时，统计所有包含命名实体e的关系实例平均出现的句子数量sentence_p；

当命名实体e有异常时，由于歧义导致出现命名实体e的句子总数sentence_e很多，但这些句子中实际描述命名实体e的句子总数sentence′_e很少，实际描述命名实体句子数量与出现命名实体的句子数量的比例sentence′_e/sentence_e会比其他的命名实体少很多。但描述命名实体e的句子总数sentence′_e是没办法得到的，在本发明所提供的实施例中，使用命名实体e和与之有关系的命名实体平均共现的句子数量sentence_p来替代描述命名实体e的句子总数sentence′_e，这样有异常的命名实体e的sentence_p/sentence_e会比其他命名实体少很多。

S323，通过公式计算偏差系数α；

S324，当偏差系数α小于特定值时，把命名实体e舍弃。其中，偏差系数α介于10^-6到10之间，在本发明所提供的实施例中，α的特定值取10^-2。

在本发明所提供的实施例中，偏差系数α介于10^-6到10之间，但当命名实体有异常时，a会显著地变小，a小于10^-2时就能够很好地区分有异常和没有异常的命名实体。一些和常用词重复的命名实体，例如“Most”、“August”等都被舍弃了，但也有些常见的没有和常用词重复的命名实体也被舍弃了，例如“New York”等。因为a的波动很可能由其他情况引起变化，例如地点“尼斯湖”和“印威内斯市”，他们之间有地点与地点之间的包含关系，“尼斯湖”位于“印威内斯市”。在尼斯湖水怪事件出现之前，“尼斯湖”出现的句子数目和这个实体对共现的句子数量都很低，但尼斯湖水怪事件爆发之后，“尼斯湖”出现的句子数目***性地飞涨，而这个实体对共现的句子还是很少。因此偏差系数a虽然可以在一定程度上发现实体有异常，但也会错误过滤掉一些热门的命名实体。

除此之外，当一个实体的类别数量多于其他同名实体时，则认为该实体没有异常，但是并不能准确地判断出实体是否和常用词重复，因为Freebase中存储的是实体和实体之间的关系，而副词等词语并不会构成实体，也就不会存储在Freebase中。例如，在海量文本中，词语“Most”一定会出现在很多句子中，而且这些句子并没有表述捷克共和国的城市“Most”，但由于和“Most”重复的是一个副词，因此依靠Freebase的知识库是不能将其去除掉的。

S33，对于前两步中判定没有命名实体异常的命名实体，使用基于命名实体词性的方法再过滤掉词性明显异常的命名实体，得到最终的文本标注结果。

当命名实体有异常时，包含该命名实体的关系实例共现的句子的综合信息和关系的其他实例共现句子的信息会有所差异。例如“Most”和“Most District”这两个地点实体，在Wikipedia中寻找共现的句子时，很多句子包含这两个词，但其实表述的并不是这两个实体，在这些句子里面，“Most”的词性并不是名词，而是副词，通过这种词性的区别，可以来判断实体是否有异常。由于一个命名实体可能包含多个词语，在本发明所提供的实施例中，认为一个命名实体的词性就是其中最后一个词语的词性。使用基于命名实体词性的方法再过滤掉词性明显异常的命名实体的过程包括如下步骤：

S331，对于命名实体e，当命名实体e出现在关系r的实例中时，找出海量文本中所有包含e的关系实例共现的句子中，根据命名实体的词性就是其包含多个词语的最后一个词语的词性，得到命名实体e最常见的词性POS_e；在本发明所提供的实施例中，命名实体的常见词性就是在海量文本中，命名实体出现最多次数的词性。

S332，当命名实体e是关系r的实例中的第一个实体时，则找出关系r所有实例中第一个实体最常见的词性POS_r，否则找出关系r所有实例中第二个实体最常见的词性POS_r；

S333，如果POS_e与POS_r不相等，则判定命名实体e有异常，将其过滤掉。

在斯坦福自然语言处理工具包的词法分析器中，词法分析器把名词分为了NN(单数或不可数的名词)、NNS(复数的名词)、NNP(专有名词的单数形式)、NNPS(专有名词的复数形式)四种。使用这样的划分去判断命名实体的词性是否相同，会影响判断的准确性。由于命名实体的词性应该都是名词，为了提高判断的准确性，在本发明所提供的实施例中，只把词性分为名词和其他，名词包括NN、NNS、NNP和NNPS，剩下的词性都归类为其他。当POS_e与POS_r不相等时，则判定命名实体e有异常，导致句子中提到其实并不是实体。

这种依据命名实体词性的过滤方法可以把词性有明显异常的命名实体过滤掉，而这种词性异常的命名实体在根据类别数量对命名实体进行过滤以及，命名实体出现的频次对命名实体进行进过滤的过程是很难过滤掉的。

综上所述，本发明所提供的基于异常处理的海量文本自动标注方法，以知识库作为命名实体的识别依据，能够识别的命名实体类型比较齐全，对句子进行粗标注之后，对进行过粗标注的句子中的命名实体进行判断，当存在词对异常时，将其删除；当存在命名实体异常时，通过过滤算法将有命名实体异常的命名实体全部去除掉，得到最终的文本标注结果，能够有效地会解决在标注过程中错误标注的情况，提高了文本标注的准确率，有效地满足文本标注的需求。

以上对本发明所提供的一种基于异常处理的海量文本自动标注方法进行了详细的说明。对本领域的技术人员而言，在不背离本发明实质精神的前提下对它所做的任何显而易见的改动，都将构成对本发明专利权的侵犯，将承担相应的法律责任。

Claims

1.一种基于异常处理的海量文本自动标注方法，其特征在于包括如下步骤：

对于命名实体e，判断其在文本中的常见词性POS_e；

如果POS_e与POS_r不相等，则判定命名实体e有异常。

2.如权利要求1所述的基于异常处理的海量文本自动标注方法，其特征在于：

在S2中使用字符串匹配找出文本中每个句子的命名实体时，首先判断抽取的命名实体在句子中有没有重叠，如果有重叠，则选用长度最长的命名实体，如果没有重叠，则将句子中的所有命名实体全部提取。

3.如权利要求1所述的基于异常处理的海量文本自动标注方法，其特征在于：

对进行过粗标注的句子进行判断时，如果句子中两个命名实体存在单一关系，则该命名实体标注无异常；如果句子中两个命名实体存在多种关系，则该命名实体存在词对异常。

4.如权利要求1所述的基于异常处理的海量文本自动标注方法，其特征在于通过过滤算法将有异常的命名实体全部去除掉，得到最终的文本标注结果的过程包括如下步骤：

5.如权利要求4所述的基于异常处理的海量文本自动标注方法，其特征在于对进行过粗标注的句子中的命名实体进行类别数量判断包括如下步骤：

6.如权利要求4所述的基于异常处理的海量文本自动标注方法，其特征在于依据文本中命名实体出现的频次对异常的命名实体进行过滤包括如下步骤：

S321，对于命名实体e，统计文本中出现e的句子数量sentence_e；

S323，通过公式计算偏差系数α；

S324，当偏差系数α小于特定值时，把命名实体e过滤掉。

7.如权利要求1所述的基于异常处理的海量文本自动标注方法，其特征在于：

判断命名实体e在文本中的常见词性，首先找出文本中所有包含e的关系实例共现的句子，然后根据命名实体的词性就是其包含多个词语的最后一个词语的词性，得到命名实体e的所有词性，最后统计命名实体出现次数最多的词性，即为命名实体最常见的词性。