CN107133208A

CN107133208A - 一种实体抽取的方法及装置

Info

Publication number: CN107133208A
Application number: CN201710186520.XA
Authority: CN
Inventors: 吴刚
Original assignee: Nanjing Rim Mdt Infotech Ltd
Current assignee: Nanjing Rim Mdt Infotech Ltd
Priority date: 2017-03-24
Filing date: 2017-03-24
Publication date: 2017-09-05
Anticipated expiration: 2037-03-24
Also published as: CN107133208B

Abstract

本发明实施例公开了一种实体抽取方法及装置，该方法包括：确定目标文本的实体关系词，目标文本包括与预定实体相关的信息；抽取目标文本中的表格，以及与表格一一对应的表格描述；基于实体关系词从表格描述中筛选目标表格描述；将目标表格描述对应的表格确定为待抽取表格；基于待抽取表格的内容确定待抽取表格中记录待抽取实体的列或行；抽取记录待抽取实体的列或行中的目标数据，将目标数据作为待抽取实体。本发明能够解决当用户需要从面对大量的文本信息中获取指定的信息时，现有技术中的方法浪费人力和时间，降低工作的效率的问题。

Description

一种实体抽取的方法及装置

技术领域

本发明涉及结构化表格处理领域，尤其涉及一种实体抽取的方法及装置。

背景技术

随着互联网的迅猛发展，越来越多的信息以电子文本的形式出现在人们的生活中，如何帮助人们在电子文本信息源中迅速找到真正需要的信息成为要解决的问题，由此产生了信息抽取的方法。信息抽取的主要功能是从文本中抽取出特定的事实信息，实体抽取为信息抽取中的一种。信息抽取在金融领域也得到广泛的应用，金融领域经常需要从一些文本信息中获取指定的信息，现有技术中通常采用的方法是通过人工浏览的方式，即用户需要依次浏览文本中的信息，然后从中找出指定的信息。但是，当用户需要从大量的文本信息中获取指定的信息时，例如，从上千家公司的新股发行公告、招股说明书、年报和季报等文本中找出指定信息，采用现有技术中的方法，势必需要花费大量的时间和人力才能实现，如此不仅浪费人力和时间，还降低了工作的效率。

发明内容

本发明提供了一种实体抽取的方法及装置，能够解决当用户需要从面对大量的文本信息中获取指定的信息时，现有技术中的方法浪费人力和时间，降低工作的效率的问题。

第一方面，本发明实施例提供一种实体抽取的方法，包括：

确定目标文本的实体关系词，所述目标文本包括与预定实体相关的信息，所述实体关系词表示所述预定实体与待抽取实体之间为目标实体关系的词；

抽取所述目标文本中的表格，以及与所述表格一一对应的表格描述，所述表格描述为所述目标文本中位于所述表格之前的一个句子；

基于所述实体关系词从所述表格描述中筛选目标表格描述，所述目标表格描述包括记录了所述目标实体关系的表格描述；

将所述目标表格描述对应的表格确定为待抽取表格；

基于所述待抽取表格的内容确定所述待抽取表格中记录所述待抽取实体的列或行；

抽取所述记录待抽取实体的列或行中的目标数据，将所述目标数据作为所述待抽取实体。

第二方面，本发明实施例提供一种实体抽取的装置，包括：

确定单元，用于确定目标文本的实体关系词，所述目标文本包括与预定实体相关的信息，所述实体关系词表示所述预定实体与待抽取实体之间为目标实体关系的词；

抽取单元，用于抽取所述目标文本中的表格，以及与所述表格一一对应的表格描述，所述表格描述为所述目标文本中位于所述表格之前的一个句子；

筛选单元，用于基于所述实体关系词从所述表格描述中筛选目标表格描述，所述目标表格描述包括记录了所述实体关系词的表格描述；

所述确定单元，还用于将所述目标表格描述对应的表格确定为待抽取表格；

所述确定单元，还用于基于所述待抽取表格的内容确定所述待抽取表格中记录所述待抽取实体的列或行；

所述抽取单元，还用于抽取所述记录待抽取实体的列或行中的目标数据，将所述目标数据作为所述待抽取实体。

本发明实施例提供一种实体关系抽取的方法及装置，本发明实施例中目标文本包括与预定实体相关的信息，确定目标文本的实体关系词后，从目标文本中抽取其中的表格和与表格一一对应的表格描述；基于实体关系词从表格描述中筛选记录了目标实体关系的目标表格描述；并从目标表格描述对应的表格中确定记录待抽取实体的列或行。本发明实施例中，对目标文本中表格提取满足目标实体关系的实体，首先通过表格描述确定出待抽取表格，然后从记录预设关系的表格中确定记录抽取目标的列，记录抽取目标的列对应内容即为抽取目标，如此，通过对目标文本中表格分析可得出满足预设关系的内容，即不需要用户需要依次浏览目标文本中，就可以找出指定信息，从而节省大量的人力和时间，提高工作的效率。

附图说明

从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明，其中：

通过阅读以下参照附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显,其中，相同或相似的附图标记表示相同或相似的特征。

图1为根据本发明一实施例提供的实体抽取的方法的示意性流程图；

图2是根据本发明一实施例提供的实体抽取的装置的示意性框图；

图3是根据本发明又一个或多个实施例提供的实体抽取的装置的示意性框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面将详细描述本发明的各个方面的特征和示例性实施例。在下面的详细描述中，提出了许多具体细节，以便提供对本发明的全面理解。但是，对于本领域技术人员来说很明显的是，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明的更好的理解。本发明决不限于下面所提出的任何具体配置和算法，而是在不脱离本发明的精神的前提下覆盖了元素、部件和算法的任何修改、替换和改进。在附图和下面的描述中，没有示出公知的结构和技术，以便避免对本发明造成不必要的模糊。

本发明实施例适用于在目标文本中抽取与预设实体为目标实体关系的实体的场景，即在目标文本中抽取与预设实体存在某种关系的实体的场景。目标文本包括与预定实体相关的信息，即目标文本中的内容与预定实体相关，包括：预设实体发布的与其相关的文本，或者预设实体发布的只与其相关的文本。预设实体为抽取实体关系前预先设定的实体，包括组织机构、公司名称等等。例如，金融领域中对于上市公司A发布的与其相关的文本有：招股说明书、年度报告、半年度报告、季度报告、公司股份变更报告、发行证券申请、发行证券募集说明书、权益变动报告、上市公司收购报告、要约收购报告等等，本发明实施例可以以上述文本为目标文本，以A为预设实体，在上述文本中抽取与A存在合作关系、竞争关系、客户关系、供应商关系等等关系的实体。本发明实施例中所涉及的实体关系抽取表示对与发布文本的预设实体满足要抽取的目标实体关系的实体进行抽取，即抽取的为实体。

图1是根据本发明一实施例提供的实体抽取的方法的示意性流程图。该方法可以用于具有计算功能的设备，例如计算机。如图1所示，该方法包括：步骤101、确定目标文本的实体关系词；步骤102、抽取目标文本中的表格，以及与表格一一对应的表格描述；步骤103、基于实体关系词从表格描述中筛选目标表格描述；步骤104，将目标表格描述对应的表格确定为待抽取表格；步骤105、基于待抽取表格的内容确定待抽取表格中记录待抽取实体的列或行；步骤106、抽取记录待抽取实体的列或行中的目标数据，将目标数据作为待抽取实体。

在步骤101中，目标文本可以包括与预定实体相关的信息。实体关系词表示预定实体与待抽取实体之间为目标实体关系的词，实体关系词可以预先设定，例如，合作、竞争等等。本发明实施例中中为从目标文本的表格中抽取与预设实体存在目标实体关系的实体。

在步骤102中，表格描述为目标文本中位于表格之前的一个句子。通常情况下，文本中表格之前均有用一句话介绍或概括表格中内容的句子，即为表格描述，所以本发明实施例中在抽取表格的同时，还抽取每个表格的表格描述，即为目标文本中位于表格之前的一个句子。

在步骤103中，目标表格描述包括记录了目标实体关系的表格描述。通过分析抽取的表格描述的内容，基于实体关系词可以得出记录了目标实体关系的表格描述。由于实体关系词能够体现出预设实体与待抽取实体之间为目标实体关系，所以基于实体关系词对表格描述进行筛选，筛选出目标表格描述。

在步骤104中，在筛选出目标表格描述后，由于目标表格描述记录了目标实体关系，所以可以确定出目标表格描述对应的表格中记录与预设实体之间存在目标实体关系的内容，所以目标表格描述对应的表格为待抽取表格。

在步骤105中，表格通常由列和行构成，所以在确定待抽取实体之前需要首先确定待抽取表格中记录了待抽取实体的行或者列。

在步骤106中，在确定出记录了待抽取实体的行或者列后，记录了待抽取实体的行或者列对应的数据即为待抽取实体。

本发明实施例中，对目标文本中表格提取满足目标实体关系的实体，首先通过表格描述确定出待抽取表格，然后从记录预设关系的表格中确定记录抽取目标的列，记录抽取目标的列对应内容即为抽取目标，如此，通过对目标文本中表格分析可得出满足预设关系的内容，即不需要用户需要依次浏览目标文本中，就可以找出指定信息，从而节省大量的人力和时间，提高工作的效率

可以理解的是，在本发明实施例中，步骤103可以具体执行为如下步骤：1031，根据预设启发式规则从表格描述中筛选符合预设启发式规则的表格描述；1032，计算符合预设启发式规则的表格描述中每个词的信息增益；1033，基于信息增益的大小从每个词中选取至少一个特征词；1034，基于至少一个特征词和特征向量构建规则构建每个表格描述的特征向量，特征向量中的元素表示特征向量对应的表格描述是否包含至少一个特征词；1035，根据特征向量从表格描述中筛选目标表格描述。

在步骤1031中，预设启发式规则可以根据实体关系词设定。对于某种特定关系，使用一个启发式规则可以将所有表格描述分为两部分：极可能符合该关系的部分和极可能不符合该关系的部分。本发明实施例中，启发式规则基于实体关系词设定，实体关系词体现的是预设实体与带抽取实体之间的目标实体关系，则基于该启发式规则，可以将表格描述分为极可能符合目标实体关系的部分和极可能不符合目标实体关系的部分，则极可能符合目标实体关系的部分即为满足启发式规则的表格描述。

例如，本发明实施例中目标实体关系为合作伙伴关系时，利用启发式规则：表格描述中是否包含“合作”这个词，来把所有表格描述分成极可能符合合作关系的表格描述和极可能不符合合作关系的表格描述，进而得出目标表格描述。

在步骤1032中，计算信息增益的方式可以为通过如下过程计算每个此的信息增益。

在本发明实施例中给定条件为启发式规则，基于启发式规则将表格描述分为两部分。对于表格描述C中符合目标关系的表格描述中的一个词T，其在表格描述C的信息增益IG(T)，IG(T)定义为C的熵H(C)与T在给定条件下C的条件熵H(C∣T)之差，即为公式1。

IG(T)＝H(C)-H(C|T) 公式1

其中，H(C)可以通过公式2计算得出，H(C|T)可以通过公式3计算得出。

在公式2中，i表示表格描述基于启发式规则被划分的个数，即本发明实施例中表格描述分为两部分，则i取值为1和2，例如，i等于1表示表格描述中符合目标关系的部分，i等于2表示表格描述中不符合目标关系的部分；c_i表示表格描述中符合或者不符合目标关系；P(c_i)表示所有表格描述中符合(或不符合)目标实体关系的类别出现的概率；t表示表格描述C中不符合目标关系的表格描述中的一个词，P(t)表示该词在表格描述中出现的概率，表示该词在表格描述中不出现的概率，且P(c_i∣t)表示在词t出现的条件下，该表格描述属于类别c_i的概率，表示在词t不出现的条件下，该表格描述属于类别c_i的概率；

综上，某个词T对表格描述C的信息增益IG(T)可以通过公式4计算。

需要说明的是，在计算每个词的信息增益之前，还可以对表格描述进行分词，以此来确定表格描述中包括的词。

在步骤1033中，基于表格描述中各词的信息增益的大小可以体现出各词在表格描述中出现的频率，或者各词的信息增益的大小可以体现在区分表格描述是否符合启发式规则时各词所起作用的大小，信息增益越大的词在符合启发式规则的表格描述中出现的频率越大、在区分表格描述是否符合启发式规则时所起作用的越大，所以基于各词的信息增益的大小选取至少一个特征词。特征词为能够在表格描述中体现目标实体关系的词，即表示如果在表格描述中包含了特征词，此表格描述很有可能是目标表格描述的词。

具体的，步骤1033可以具体执行为：从每个词中选取预设数目个信息增益最大的词为特征词，预设数目为不小于1的整数。

例如，将每个词按照信息增益由大到小的顺序进行排序，则排在前面的预设数目个词即为选取的特征词。

在步骤1034中，特征向量中的元素表示特征向量对应的表格描述是否包含至少一个特征词。即特征向量中的元素的值表示特征向量对应的表格描述中有没有选取的各特征词。

具体的，本发明实施例中设置特征向量构建规则包括特征向量中的元素与一个特征词一一对应，步骤1034具体执行为：对每个表格描述，确定表格描述中包含的特征词和不包含的特征词；在表格描述的特征向量中，将包含的特征词对应元素的值设置为第一预设值，将不包含的特征词对应的元素的值设置为第二预设值。

其中，特征向量中的每一个元素与一个特征词一一对应，当表格描述中有某个特征词时，此表格描述对应特征向量中与此特征词对应的元素的值确定为第一预设值；当表格描述中没有某个特征词时，此表格描述对应特征向量中与此特征词对应的元素的值确定为第二预设值，通过上述规则来构建每个表格描述的特征向量。如果某个表格描述中包含所有的特征词，则此表格描述的特征向量中元素的值均为第一预设值；如果某个表格描述中不包含任何一个特征词，则此表格描述的特征向量中元素的值均为第二预设值。

在步骤1035中，根据构建出的每个表格描述的特征向量可以从表格描述中筛选目标表格描述。

具体的，本发明实施例中步骤1035可以具体执行为：通过分类模型从特征向量中筛选满足预设规则的特征向量，其中，分类模型为对特征向量中的一部分特征向量进行标注后、通过标注的特征向量训练得到的，标注用于表示特征向量是否满足预设规则；将满足预设规则的特征向量对应的表格描述确定为目标表格描述。

其中，标注可以为人工判断后完成，则分类模型可以为通过经人工标注的部分特征向量学习训练后得到的，即为用户在全部特征向量中选定一部分作为训练样本，并对训练样本进行标注，标注出哪些特征向量为目标表格描述的特征向量，以及标注出哪些特征向量不为目标表格描述的特征向量，这样分类模型通过训练样本训练后，就可以将所有的特征向量识别，并筛选出目标表格描述的特征向量，进而确定出哪些为目标表格描述。本实施例通过机器学习中的分类模型筛选目标表格描述，可以快速准确的得出满足预设规则的特征向量，进而保证实体抽取的准确性。用户可以通过对样本中每个特征向量对应表格实体表达的含义来判定哪些为目标表格描述的特征向量。

可以理解的是，在本发明实施例中，步骤105可以具体可以通过两种方式来实现。

方式一：将待抽取表格中数据与预设词库匹配，确定所述待抽取表格中记录所述待抽取实体的行或列。

方式二：基于预定特征构建所述待抽取表格中各行或各列的特征向量，预定特征包括各行或各列所包括数据的特征；从各行或各列的特征向量中筛选出记录所述待抽取实体的行或列。

在方式一中，预设词库为根据表格中通常在记录待抽取实体时的记录规律建立的。具体的可以执行为如下步骤：将待抽取表格中数据与预设词库匹配，确定待抽取表格中记录待抽取实体的列或行。

例如，本发明实施例中预设实体为A公司(A为公司名称)，目标实体关系为合作，表1为待抽取表格，从表1中抽取第一行和第一列的所有词，得出第一行为：序号、客户名称、销售额(元)、占年度销售总额比例；第一列为：序号、1、2、3、4、5。将抽取的数据与预设词库进行比较。由于本发明实施例中待抽取的实体为与预设实体之间为目标实体关系的实体，则所以待抽取的实体应为公司名称，所以预设词库中包括公司名称，此时将从表1中抽取的第一行和第一列数据与预设词库匹配，得出第一行中客户名称能够与预设词库匹配，从而将表1中客户名称所在列作为记录待抽取实体的列。

表1

序号	客户名称	销售额(元)	占年度销售总额比例
				1	A	34584143.00	1.49％
2	B	15915190.81	0.68％
				3	C	7162135.00	0.31％
4	D	7049503.00	0.30％
				5	E	5970553.00	0.26％
合计	-	70681524.81	3.04％

在方式二中，预定特征包括各行或各列所包括数据的特征，例如，是否包括某个字符，各行或各列的字符串长度，行数或列数等等。具体可以包括：第一行是否包含字符串“公司”(是为1，否有为0)、第一行是否包含字符串“名称”(是为1，否有为0)、第一行是否包含字符串“供应商”(是为1，否有为0)、第一行是否包含字符串“合作伙伴”(是为1，否有为0)、第一行是否包含字符串“客户”(是为1，否有为0)、第一行是否包含字符串“竞争对手”(是为1，否有为0)、该列包含字符串“公司”的行数、该列包含字符串“厂”的行数、该列包含数字的行数、该列的平均字符串长度等等。

在构建出各行或各列的特征向量后，从各行或各列的特征向量中筛选出记录待抽取实体的列或行的方式可以为根据机器学习训练行分类模型或列分类模型，通过行分类模型或列分类模型筛选出记录待抽取实体的行或列。

例如，从各行或各列的特征向量中筛选出记录待抽取实体的行可以具体为：对行特征向量中的一部分行特征向量进行标注，标注用于表示行特征向量是否满足预设规则；通过标注的行特征向量训练行分类模型；通过行分类模型从全部的行特征向量中筛选满足预设规则的行特征向量；将满足预设规则的行特征向量对应的行确定为记录待抽取实体的行。

例如，从各行或各列的特征向量中筛选出记录待抽取实体的列可以具体为：对列特征向量中的一部分列特征向量进行标注，标注用于表示列特征向量是否满足预设规则；通过标注的列特征向量训练列分类模型；通过列分类模型从全部的列特征向量中筛选满足预设规则的列特征向量；将满足预设规则的列特征向量对应的列确定为记录待抽取实体的列。

需要说明的是，由于一些表格中为了对某些数据进行统计或者其他目的，通常会存在“合计”、“其他”等类似的数据，而这些数据并不仅是待抽取的实体，所以在通过步骤106确定称呼目标数据后，还可以在对目标数据进行过滤。

具体可以实现为：根据过滤词列表对目标数据进行过滤，过滤词列表包括至少一个过滤词，过滤词为预估的记录待抽取实体的列或行中不属于抽取实体的词；将过滤后的目标数据作为待抽取实体。

通过对目标数据进行过滤，滤除预估的可能存在的不属于抽取实体的词，提高抽取实体的准确性。

需要说明的是，目标格式为设备可以解析或识别其表格和文字的格式，例如doc或docx格式。在实际场景中，用户经常用到的目标文本并不是文档格式的，例如，PDF格式，这时就需要说先将目标文本转化为文档格式，在进行操作。例如，使用固态转换器SolidConverter将PDF格式的招股说明书转换成docx格式以方便解析招股说明书的表格内容。

图2是根据本发明一实施例提供的实体抽取的装置的示意性框图。如图2所示，所述装置20包括：

确定单元21，用于确定目标文本的实体关系词，所述目标文本包括与预定实体相关的信息，所述实体关系词表示所述预定实体与待抽取实体之间为目标实体关系的词；

抽取单元22，用于抽取所述目标文本中的表格，以及与所述表格一一对应的表格描述，所述表格描述为所述目标文本中位于所述表格之前的一个句子；

筛选单元23，用于基于所述实体关系词从所述表格描述中筛选目标表格描述，所述目标表格描述包括记录了所述实体关系词的表格描述；

所述确定单元21，还用于将所述目标表格描述对应的表格确定为待抽取表格；

所述确定单元21，还用于基于所述待抽取表格的内容确定所述待抽取表格中记录所述待抽取实体的列或行；

所述抽取单元22，还用于抽取所述记录待抽取实体的列或行中的目标数据，将所述目标数据作为所述待抽取实体。

本发明实施例中，对目标文本中表格提取满足目标实体关系的实体，首先通过表格描述确定出待抽取表格，然后从记录预设关系的表格中确定记录抽取目标的列，记录抽取目标的列对应内容即为抽取目标，如此，通过对目标文本中表格分析可得出满足预设关系的内容，即不需要用户需要依次浏览目标文本中，就可以找出指定信息，从而节省大量的人力和时间，提高工作的效率。

可以理解的是，所述筛选单元23还可以用于：

根据预设启发式规则从所述表格描述中筛选符合所述预设启发式规则的表格描述，所述预设启发式规则根据所述实体关系词设定；

计算所述符合所述预设启发式规则的表格描述中每个词的信息增益；

基于所述信息增益的大小从所述每个词中选取至少一个特征词；

基于所述至少一个特征词和特征向量构建规则构建每个所述表格描述的特征向量，所述特征向量中的元素表示所述特征向量对应的表格描述是否包含所述至少一个特征词；

根据所述特征向量从所述表格描述中筛选所述目标表格描述。

可以理解的是，所述特征向量构建规则包括特征向量中的元素与一个所述特征词一一对应；所述筛选单元23还可以用于：

对每个所述表格描述执行如下步骤：

确定所述表格描述中包含的特征词和不包含的特征词；

在所述表格描述的特征向量中，将所述包含的特征词对应元素的值设置为第一预设值，将所述不包含的特征词对应的元素的值设置为第二预设值。

可以理解的是，所述筛选单元23还可以用于：

从所述每个词中选取预设数目个所述信息增益最大的词为所述特征词，所述预设数目为不小于1的整数。

可以理解的是，所述筛选单元23还可以用于：

通过所述分类模型从所述特征向量中筛选满足所述预设规则的特征向量，其中，所述分类模型为对所述特征向量中的一部分特征向量进行标注后、通过标注的特征向量训练得到的，所述标注用于表示所述特征向量是否满足预设规则；

将所述满足所述预设规则的特征向量对应的表格描述确定为所述目标表格描述。

可以理解的是，所述确定单元21还可以用于：

获取所述待抽取表格的第一列的数据；

判断所述第一列的数据中是否包括与所述预设词库匹配的词，所述预设词库根据所述表格中记录所述待抽取实体的规律设定；

当所述第一列的数据中包括与所述预设词库匹配的词时，将所述待抽取表格中所述与所述预设词库匹配的词对应的行确定为所述待抽取实体的行。

可以理解的是，所述确定单元21还可以用于：

获取所述待抽取表格的第一行的数据；

判断所述第一行的数据中是否包括与所述预设词库匹配的词，所述预设词库根据所述表格中记录所述待抽取实体的规律设定；

当所述第一行的数据中包括与所述预设词库匹配的词时，将所述待抽取表格中所述与所述预设词库匹配的词对应的列确定为所述待抽取实体的列。

可以理解的是，所述确定单元21还可以用于：

构建所述待抽取表格中每一行的行特征向量；

对所述行特征向量中的一部分行特征向量进行标注，所述标注用于表示所述行特征向量是否满足预设规则；

通过标注的行特征向量训练行分类模型；

通过所述行分类模型从全部的行特征向量中筛选满足所述预设规则的行特征向量；

将所述满足所述预设规则的行特征向量对应的行确定为所述记录所述待抽取实体的行。

可以理解的是，所述确定单元21还可以用于：

构建所述待抽取表格中每一列的列特征向量；

对所述列特征向量中的一部分列特征向量进行标注，所述标注用于表示所述列特征向量是否满足预设规则；

通过标注的列特征向量训练列分类模型；

通过所述列分类模型从全部的列特征向量中筛选满足所述预设规则的列特征向量；

将所述满足所述预设规则的列特征向量对应的列确定为所述记录所述待抽取实体的列。

作为一个可选实施例，如图3所示，所述装置20还可以包括：

过滤单元24，用于根据过滤词列表对所述目标数据进行过滤，所述过滤词列表包括至少一个过滤词，所述过滤词为预估的所述记录待抽取实体的列或行中不属于抽取实体的词；

所述确定单元21还用于将过滤后的目标数据作为所述待抽取实体。

作为一个可选实施例，如图3所示，所述装置20还可以包括：

转化单元25，用于将所述目标文本的格式转化为文档格式。

需要说明的是，根据本发明实施例的实体抽取的装置200可对应于根据本发明实施例的实体抽取的方法中的执行主体，并且实体抽取的装置200中的各个模块的上述和其它操作和/或功能分别为了实现图1中的各个方法的相应流程，为了简洁，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

Claims

1.一种实体抽取的方法，其特征在于，包括：

将所述目标表格描述对应的表格确定为待抽取表格；

2.根据权利要求1所述的方法，其特征在于，所述基于所述实体关系词从所述表格描述中筛选目标表格描述的处理，包括：

3.根据权利要求2所述的方法，其特征在于，所述特征向量构建规则包括特征向量中的元素与一个所述特征词一一对应；

基于所述至少一个特征词和特征向量构建规则构建每个所述表格描述的特征向量，包括：

对每个所述表格描述，确定所述表格描述中包含的特征词和不包含的特征词；

4.根据权利要求2所述的方法，其特征在于，所述基于所述信息增益的大小从所述每个词中选取至少一个特征词，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据所述特征向量从所述表格描述中筛选所述目标表格描述，包括:

6.根据权利要求1所述的方法，其特征在于，所述基于所述待抽取表格的内容确定所述待抽取表格中记录所述待抽取实体的列或行，包括：

将所述待抽取表格中数据与预设词库匹配，确定所述待抽取表格中记录所述待抽取实体的列或行；或者，

基于预定特征构建所述待抽取表格中各行或各列的特征向量，所述预定特征包括所述各行或各列所包括数据的特征；

从所述各行或各列的特征向量中筛选出记录所述待抽取实体的列或行。

7.根据权利要求6所述的方法，其特征在于，所述将所述待抽取表格中数据与预设词库匹配，确定所述待抽取表格中记录所述待抽取实体的列或行，包括：

获取所述待抽取表格的第一行的数据和第一列数据；

将所述第一行的数据和所述第一列数据与预设词库匹配；

将所述第一行的数据中与所述预设词库匹配的数据对应的列确定为记录所述待抽取实体的列，将所述第一列的数据中与所述预设词库匹配的数据对应的行确定为记录所述待抽取实体的行。

8.根据权利要求6所述的方法，其特征在于，所述从所述各行或各列的特征向量中筛选出记录所述待抽取实体的行，包括：

通过标注的行特征向量训练行分类模型；

9.根据权利要求6所述的方法，其特征在于，所述从所述各行或各列的特征向量中筛选出记录所述待抽取实体的列，包括：

通过标注的列特征向量训练列分类模型；

10.根据权利要求1所述的方法，其特征在于，还包括：

根据过滤词列表对所述目标数据进行过滤，所述过滤词列表包括至少一个过滤词，所述过滤词为预估的所述记录待抽取实体的列或行中不属于抽取实体的词；

将过滤后的目标数据作为所述待抽取实体。

11.根据权利要求1所述的方法，其特征在于，在所述确定目标文本的实体关系词之前，还包括：

将所述目标文本的格式转化为文档格式。

12.一种实体抽取的装置，其特征在于，包括：

筛选单元，用于基于所述实体关系词从所述表格描述中筛选目标表格描述，所述目标表格描述包括记录了所述目标实体关系的表格描述；

13.根据权利要求12所述的装置，其特征在于，所述筛选单元还用于：

14.根据权利要求13所述的装置，其特征在于，所述特征向量构建规则包括特征向量中的元素与一个所述特征词一一对应；所述筛选单元还用于：

对每个所述表格描述执行如下步骤：

确定所述表格描述中包含的特征词和不包含的特征词；

15.根据权利要求13所述的装置，其特征在于，所述筛选单元还用于：

16.根据权利要求13所述的装置，其特征在于，所述筛选单元还用于：

17.根据权利要求16所述的装置，其特征在于，所述确定单元还用于：

18.根据权利要求16所述的装置，其特征在于，所述确定单元还用于：

获取所述待抽取表格的第一行的数据和第一列数据；

将所述第一行的数据和所述第一列数据与预设词库匹配；

19.根据权利要求16所述的装置，其特征在于，所述确定单元还用于：

通过标注的行特征向量训练行分类模型；

20.根据权利要求16所述的装置，其特征在于，所述确定单元还用于：

通过标注的列特征向量训练列分类模型；

21.根据权利要求12所述的装置，其特征在于，还包括：

过滤单元，用于根据过滤词列表对所述目标数据进行过滤，所述过滤词列表包括至少一个过滤词，所述过滤词为预估的所述记录待抽取实体的列或行中不属于抽取实体的词；

所述确定单元还用于将过滤后的目标数据作为所述待抽取实体。

22.根据权利要求12所述的装置，其特征在于，还包括：

转化单元，用于将所述目标文本的格式转化为文档格式。