CN108595421A

CN108595421A - 一种中文实体关联关系的抽取方法、装置及***

Info

Publication number: CN108595421A
Application number: CN201810329836.4A
Authority: CN
Inventors: 李德彦; 晋耀红; 吴相博
Original assignee: Beijing Shenzhou Taiyue Software Co Ltd
Current assignee: China Science and Technology (Beijing) Co., Ltd.
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2018-09-28
Anticipated expiration: 2038-04-13
Also published as: CN108595421B

Abstract

本申请公开了一种中文实体关联关系的抽取方法、装置及***，根据中文文本中关系词的关系性质，抽取文本中与该关系词相关的目标施事实体和目标受事实体，再根据关系词和关系词对应的目标施事实体和目标受事实体，生成文本中该关系词对应的中文实体关联关系。本申请实施例提供的技术方案，将非结构化中文文本按照不同关系性质划分为不同的字句，进一步缩减了每一个关系词的目标施事实体和目标受事实体所在的位置范围，以便提高搜索精度和搜索速度，减少运算量。另外，本申请实施例中的技术方案，还使用了中文语法层面上的划分规则，很大程度上滤除一些冗余的错误关系词和错误实体，提高了抽取关系词和抽取实体的准确率。

Description

一种中文实体关联关系的抽取方法、装置及***

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种中文实体关联关系的抽取方法、装置及***。

背景技术

随着互联网的高速发展和经济水平的飞速提升，想要在制定企业战略的时候把控先机，就必须具有敏锐的嗅觉，把握更多的相关信息，尽可能多的把握企业与企业之间的关系以及企业与个体之间的关系可以辅助决策者做出最合理的规划。

现有的企业关联识别技术一般更多的依赖于标准化和结构化的已收集数据。然而这种方式具有很大的局限性，如文本信息来源更新慢、延迟高等，并且数据的结构化会耗费较多的时间去对信息进行筛选与整理，有可能无法得到最及时的信息，另外，现今的文本信息是海量增长的，如果人工从这些文本信息中收集并整理有价值的信息，不仅过程十分繁琐而且会错过决策的最佳时机。

另外，上述这种技术仅仅只适用于标准化和结构化的中文文本，当处理一条非结构化中文文本时，这种方式显然无法胜任。再者，目前多数的非结构化中文文本信息并不会只存在单一的关联关系，实际存在于互联网中的企业相关的可抓取的非结构化中文文本信息的句式通常是较复杂的，一句话中可能包含多对不同属性的关联关系，现有的关联识别技术也无法从语法层面上提高关系识别的准确度。所以，如何从非结构化的复杂的中文文本中精确的抽取关联关系，成为一个亟待解决的问题。

发明内容

本申请提供了一种中文实体关联关系的抽取方法、装置及***，以解决现有技术中不能精确地从非结构化中文文本中抽取关联关系的问题。

一方面，本申请实施例提供一种中文实体关联关系的抽取方法，包括：

抽取文本中的关系词；

如果抽取出的关系词的数量大于1，确定每一个关系词的关系性质；

根据每一个关系词的关系性质，从文本中依次抽取每一个关系词对应的目标施事实体和目标受事实体；

根据所述关系词以及所述关系词对应的目标施事实体和目标受事实体，生成中文实体关联关系。

第二方面，本申请实施例提供一种中文实体关联关系的抽取装置，所述装置包括：

关系词抽取模块，用于抽取文本中的关系词；

性质确定模块，用于如果抽取出的关系词的数量大于1，确定每一个关系词的关系性质；

目标实体抽取模块，用于根据所述每一个关系词的关系性质，从文本中依次抽取每一个关系词对应的目标施事实体和目标受事实体；

关联关系生成模块，用于根据所述关系词以及所述关系词对应的目标施事实体和目标受事实体，生成中文实体关联关系。

第三方面，本申请实施例提供一种中文实体关联关系的抽取***，所述***包括存储器和处理器；

所述存储器用于存储所述处理器的可执行程序；

所述处理器被配置为：

抽取文本中的关系词；

根据所述每一个关系词的关系性质，从文本中依次抽取每一个关系词对应的目标施事实体和目标受事实体；

由以上技术方案可知，本申请实施例提供的中文实体关联关系的抽取方法、装置及***，根据中文文本中关系词的关系性质，抽取文本中与该关系词相关的目标施事实体和目标受事实体，再根据关系词和关系词对应的目标施事实体和目标受事实体，生成文本中该关系词对应的中文实体关联关系。本申请实施例提供的技术方案，将非结构化中文文本按照不同关系性质划分为不同的字句，进一步缩减了每一个关系词的目标施事实体和目标受事实体所在的位置范围，以便提高搜索精度和搜索速度，减少运算量。另外，本申请实施例中的技术方案，还使用了中文语法层面上的划分规则，很大程度上滤除一些冗余的错误关系词和错误实体，提高了抽取关系词和抽取实体的准确率。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施案例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种中文实体关联关系的抽取方法流程图；

图2为本申请实施例提供的一个优选实施例中的步骤102的流程图；

图3为本申请实施例提供的第二个优选实施例中的步骤102的流程图；

图4为本申请实施例提供的第三个优选实施例中的步骤102的流程图；

图5为本申请实施例提供的第四个优选实施例中的步骤102的流程图；

图6为本申请实施例提供的一种中文实体关联关系的抽取装置的结构图；

图7为本申请实施例提供的一种中文实体关联关系的抽取***的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

结构化信息是我们通常接触的数据库所管理的信息，包括生产、业务、交易、客户信息等方面的记录。非结构化信息，专业术语为内容，所涵盖的信息更为广泛，可分为：营运内容：如合约、***、书信与采购记录；部门内容：如文书处理、电子表格、简报档案与电子邮件；Web内容：如HTML与XML等格式的信息；多媒体内容：如声音、影片、图形等。

互连网上出现的海量信息，大概分为结构化、半结构化和非结构化三种。当然中文文本信息也是如此，结构化信息如电子商务信息，信息的性质和量值的出现的位置是固定的；半结构化的信息如专业网站上的细分频道，其标题和正文的语法相当规范，关键词的范围相当局限；非结构化的信息如BLOG和BBS，所有内容都是不可预知的。

由于目前大多数的企业关联识别技术一般更多的依赖于标准化和结构化的中文文本信息，而对于非结构化的中文文本信息却缺少更加精确的识别方法，所以，本申请实施例提供一种中文实体关联关系的抽取方法，具体参见图1，该方法包括：

步骤100，抽取文本中的关系词；每一段存在关系抽取价值的中文文本中，必然存在关系词，那么在抽取文本实体关联关系之前，就先要抽取文本中的关系词，以确定文本的中存在的关系。通常，关系词可以是名词，也可以是动词。

中文文本信息是依靠一系列词语组合起来的具有一定语意的信息，对于语意复杂的中文文本信息，想要抽取其中的具有关联关系的实体，首先需要先确定文本中存在有哪个或者哪些关系，以便实现准确抽取的目的。

可选的，在抽取文本中的关系词之后，还要判断所述关系词是否存在于预定义关系库中。预定义关系库中存在有海量的关系词，这些关系词都是从处理过的大量的文本信息中获取而来，其中还可以包括与关系词相关的协同词、关系词的一些属性和关系词对应的关系等等，每一个关系词都有特定的属性及特定的关系，以及具有特定的实***置关系。预定义关系库可以为抽取中文文本中的关系词提供一定的参考，如果抽取到的关系词存在于预定义的关系库中，那么可以直接从关系库中调用关系词所对应的一些的属性和关系词的其它参数，这样也避免了重新建立关系词属性及参数的过程，使得整个抽取实体关联关系的前期过程更加快速，另外，由于有在先的关系词性质及参数作为比较，在后的关系词抽取及关系词性质的获取会更加准确。

进一步地，关系词的属性包括关系词的意义、关系词的词性和关系词的关系性质等等，而根据关系词的意义、关系词的词性和关系词的关系性质等可以更进一步地获得与关系词相关的实体的具体的位置，这些都预先存放在预定义关系库中，以便抽取关系词时能够快速使用。

如果所述关系词存在于预定义关系库中，则确定所述关系词的关系性质。一般来说，中文文本中的语意关系主要取决于关系词的关系性质，所以在抽取出文本中的关系词之后，还要进一步判断关系词的关系性质，以便根据关系性质，对文本进一步处理。

如果在预定义关系库中并未发现所述关系词，说明，该关系词之前并未在预定义关系库中存储，与该关系词相关的其他信息在预定义关系库中也查找不到，这时则可以选择放弃对该关系词的进一步操作，即判断该关系词无效；或者，在预定义关系库中建立与该关系词相关的信息，包括：与该关系词相关的协同词、该关系词的属性及该关系词对应的关系等等，待建立好一系列信息后，再对该关系词进行下一步操作，由于本次关于该关系词的信息已经建立，所以，如果下一次抽取实体关联关系时，再遇到该关系词，则可以快速地从预定义关系库中提取该关系词的相关信息，因此，关系词信息建立的过程可以丰富预定义关系库，使其内容更加全面。

步骤101，如果抽取出的关系词的数量大于1，确定每一个关系词的关系性质。如果抽取出的关系词数量大于1，说明这段文本中的实体关联关系不止一种，对于这种关系词数量大于1的情况，需要清楚每一个关系词的关系性质，以便此后在文本中根据关系词的关系性质抽取实体关联关系。

另外，在抽取出关系词之后，还可以将文本中所有关系词存放在一起生成关系词集合，一个关系词集合对应于一段文本，关系词集合中的关系词顺序与关系词在文本中出现的顺序一致，除此之外，关系词集合还记录与关系词相关的协同词、关系词的关系性质和协同词的关系性质。

在生成关系词集合之后，可以根据关系词集合中关系词的顺序和关系词的关系性质，从文本中依次抽取每一个关系词对应的目标施事实体和目标受事实体，这种方式可以既准确又有序地对实体进行抽取，对于关系复杂的中文文本来说，也节省了很多实体抽取的时间，提高了效率。

步骤102，根据每一个关系词的关系性质，从文本中依次抽取每一个关系词对应的目标施事实体和目标受事实体。通常将关系词的关系性质分为动词主动关系、名词正向关系、动词被动关系和名词反向关系等。动词主动关系中的关系词通常是一个主动的动词，例如，“收购”、“兼并”和“增资”等；名词正向关系中的关系词通常是一个正向的名词，例如，“控股股东”和“投资人”等；动词被动关系中的关系词通常由两部分构成，一部分是协同词，另一部分是关系词主体，协同词表示被动关系，关系词主体仍然是一个动词，例如，“被……收购”和“由……兼并”等，这里，“被”和“由”都是协同词，表示被动关系，而“收购”和“兼并”为关系词的主体；名词反向关系中的关系词也是分为协同词和关系词主体两部分，协同词表示反向关系，关系词主体是一个名词，例如，“作为……控股股东”和“成为……控股人”等，其中，“作为”和“成为”是协同词，表示名词的反向关系，“控股股东”和“控股人”是关系词主体。

每一个关系词一般都有一个施事实体和一个受事实体，施事实体为构成实体关联关系的主动方，受事实体为构成实体关联关系的被动方，即施事实体为关系词的主语，而受事实体为关系词的宾语。在复杂关系的文本中，由于关系词有多个，那么每个关系词的施事实体和受事实体的确定与该关系词附近的其他关系词的施事实体和受事实体都有关系，需要根据文本中其他关系词的施事实体和受事实体确定目标关系词的目标施事实体和目标受事实体。

值得说明的是，每一个关系词对应的施事实体和受事实体的位置通常都是固定的，具体的位置根据关系词的关系性质而改变。在动词主动关系中，施事实***于关系词之前，受事实***于关系词之后，比如A收购B，这里的A就是施事实体，而B就是受事实体。在动词被动关系中，受事实***于协同词之前，施事实体则位于协同词与关系词主体之间，比如B被A收购，这里的B就是受事实体，A为施事实体。在名词正向关系中，同动词主动关系，施事实***于关系词之前，受事实***于关系词之后，比如A的收购人是B，这里A就是施事实体，B是受事实体。在名词反向关系中，同动词被动关系，受事实***于协同词之前，施事实***于协同词与关系词主体之间，比如B作为A的收购人，这里的B为受事实体，A为施事实体。

步骤103，根据关系词以及关系词对应的目标施事实体和目标受事实体，生成中文实体关联关系。

值得说明的是，本申请的技术方案中，当抽取出的关系词的数量大于1时，确定每一个关系词的关系性质，然后根据每一个关系词的关系性质，从文本中依次抽取每一个关系词对应的目标施事实体和目标受事实体，并对应生成中文实体关联关系。但是当一段文本中的关系词数量仅为一个时，本申请的技术方案仍然适用，相对于关系复杂的文本而言，处理仅有一种关系词的文本的过程就比较简单，无需考虑其他关系词的关系性质与相关实体的位置，只对该关系词自身进行判断与实体抽取即可。例如，对文本“万达体育收购了IRONMAN系列赛事”进行文本实体关联关系的抽取，可以先抽取出关系词“收购”，然后判断该关系词为动词主动关系，再根据动词主动关系中，目标施事实体和目标受事实体的位置关系，抽取出目标施事实体“万达体育”和目标受事实体“IRONMAN系列赛事”，最后再生成中文实体关联关系“万达体育->收购->IRONMAN系列赛事”。

本申请实施例提供的中文实体关联关系的抽取方法，根据中文文本中关系词的关系性质，抽取文本中与该关系词相关的目标施事实体和目标受事实体，再根据关系词和关系词对应的目标施事实体和目标受事实体，生成文本中该关系词对应的中文实体关联关系。本申请实施例提供的技术方案，将非结构化中文文本按照不同关系性质划分为不同的字句，进一步缩减了每一个关系词的目标施事实体和目标受事实体所在的位置范围，以便提高搜索精度和搜索速度，减少运算量。另外，本申请实施例中的技术方案，还使用了中文语法层面上的划分规则，很大程度上滤除一些冗余的错误关系词和错误实体，提高了抽取关系词和抽取实体的准确率。

在本申请的一个优选实施例中，以动词主动关系为例，进一步解释步骤102，如图2所示，步骤102具体可以包括：

步骤201，如果关系词的关系性质是动词主动关系，则在文本中寻找位于关系词之前并且最靠近关系词的第一目标关系词，和文本中位于关系词之后距离关系词最远的第二目标关系词。

以文本“去年，万达旗下的万达体育收购了世界铁人公司旗下的IRONMAN系列赛事”为例，在文本中存在三个关系词，分别是“旗下”、“收购”和“旗下”，在本优选实施例中我们研究动词主动关系，所以在对三个关系的关系性质进行判断之后，确定“旗下”为名词主动关系，而“收购”为动词主动关系。再根据步骤201所述，由于在“收购”之前最靠近“收购”的关系词是“旗下”，所以第一目标关系词为“旗下”；由于在“收购”之后并且距离“收购”最远的关系词也是“旗下”，所以第二目标关系词也为“旗下”。

步骤202，在文本中抽取第一目标关系词的第一受事实体和第二目标关系词的第二受事实体。

由于第一目标关系词“旗下”为名词正向关系，所以“旗下”的第一受事实***于“旗下”之后，“收购”之前，而第一施事实***于“旗下”之前，确定实体所在位置后，所以第一施事实***于“去年，万达集团”这段文本中，进一步实体识别，可以确定“万达集团”即为“旗下”第一施事实体，而第一受事实***于“的万达体育”这段文本中，识别后，可以确定“万达体育”为“旗下”的第一受事实体。

第二目标关系词为“旗下”，所以“旗下”的第二施事实***于“收购”与“旗下”之间的“了世界铁人公司”的文本中，经过实体识别，可以确定第二施事实体为“世界铁人公司”，第二受事实***于“旗下”之后的“的IRONMAN系列赛事”文本中，识别后可以确定第二受事实体为“IRONMAN系列赛事”。

步骤203，将第一受事实体作为关系词的目标施事实体，以及第二受事实体作为关系词的目标受事实体。

所以，经过上述步骤201和步骤202之后，“收购”的目标施事实体为“万达体育”，而“收购”的目标受事实体为“IRONMAN系列赛事”。

之后，再根据步骤103，根据关系词“收购”以及“收购”对应的目标施事实体“万达体育”和目标受事实体“IRONMAN系列赛事”，生成中文实体关联关系为“万达体育->收购->IRONMAN系列赛事”。

可选的，在上述内容中可知，将第一受事实体作为关系词的目标施事实体，以及第二受事实体作为关系词的目标受事实体的具体过程包括：分别对第一受事实体和第二受事实体进行实体识别；将实体识别后的第一受事实体作为关系词的目标施事实体，以及实体识别后的第二受事实体作为关系词的目标受事实体。事实上，实体识别的步骤在步骤202中同步进行或者在步骤203中都符合本申请实施例的要求，都可以实现识别出小段中文文本中实体的目的。由于抽取第一受事实体和第二受事实体的过程本身就是确定实***置的过程，实际上只能确定实体所在的范围，经过实体识别后才能真正确定实体以及实体的确切位置，所以实体识别这一过程可以增加整个实体关联关系抽取过程的准确度。

另外，在上述步骤202中，如果在“收购”之前或者“收购”之后未发现关系词，则说明第一目标关系词或者第二目标关系词不存在，此时，需要寻找“收购”之前最靠近“收购”的实体作为目标施事实体，或者寻找“收购”之后距离“收购”最远的实体作为目标受事实体。例如，在“万达集团的万达体育收购世界铁人公司的IRONMAN系列赛事”的文本中，“收购”前后均没有其他关系词，所以寻找“收购”之前最靠近“收购”的实体“万达体育”作为目标施事实体，寻找“收购”之后距离“收购”最远的实体“IRONMAN系列赛事”作为目标受事实体。

在本申请的第二个优选实施例中，以名词正向关系为例，进一步解释步骤102，如图3所示，步骤102具体可以包括：

步骤301，如果关系词的关系性质是名词正向关系，则在文本中寻找位于关系词之前并且最靠近关系词的第一目标关系词，和文本中位于关系词之后距离所述关系词最远的第二目标关系词。

以文本“A的子公司B的控股股东C收购D”为例，以名词正向关系词“控股股东”为例，文本中“控股股东”之前最靠近“控股股东”的第一目标关系词为“子公司”，在“控股股东”之后距离“控股股东”最远的第二目标关系词为“收购”。

步骤302，在文本中抽取第一目标关系词的第一受事实体和第二目标关系词的第二受事实体。

文本中第一目标关系词“子公司”的第一施事实体为“A”，第一受事实体为“B”，第二目标关系词的第二施事实体为“C”，第二受事实体为“D”。

步骤303，将第一受事实体作为关系词的目标施事实体，以及第二受事实体作为关系词的目标受事实体。则“控股股东”的目标施事实体为“A”，目标受事实体为“D”。

再根据步骤103，根据关系词“控股股东”以及“控股股东”对应的目标施事实体“A”和目标受事实体“D”，生成中文实体关联关系为“A->控股股东->D”。

可选的，在上述内容中可知，将第一受事实体作为关系词的目标施事实体，以及第二受事实体作为关系词的目标受事实体的具体过程包括：分别对第一受事实体和第二受事实体进行实体识别；将实体识别后的第一受事实体作为关系词的目标施事实体，以及实体识别后的第二受事实体作为关系词的目标受事实体。事实上，实体识别的步骤在步骤302中同步进行或者在步骤303中都符合本申请实施例的要求，都可以实现识别出小段中文文本中实体的目的。由于抽取第一受事实体和第二受事实体的过程本身就是确定实***置的过程，实际上只能确定实体所在的范围，经过实体识别后才能真正确定实体以及实体的确切位置，所以实体识别这一过程可以增加整个实体关联关系抽取过程的准确度。

此外，在文本中如果关系词“控股股东”之前或者之后没有发现其他关系词，需要寻找“控股股东”之前最靠近“控股股东”的实体作为目标施事实体，或者寻找“控股股东”之后距离“控股股东”最远的实体作为目标受事实体。

在本申请的第三个优选实施例中，以动词被动关系为例，进一步解释步骤102，如图4所示，步骤102具体可以包括：

步骤401，如果关系词的关系性质是动词被动关系，则将关系词分解为协同词与关系词主体。

以文本“美国电视制作公司Dick作为A公司的控股股东被万达集团的子公司B斥资10亿美元(约78亿港元)收购”为例，该文本中存在动词被动关系的关系词“被……收购”，其中“被”为协同词，“收购”为关系词主体。

步骤402，寻找文本中位于协同词之前并且最靠近协同词的第一目标关系词，和文本中位于关系词主体之前并且最靠近关系词主体的第二目标关系词。

在文本中寻找协同词“被”之前最靠近协同词的第一目标关系词“作为……控股股东”，寻找协同词“被”与关系词主体“收购”之间最靠近“收购”的第二目标关系词“子公司”。

步骤403，在文本中抽取第一目标关系词的第一受事实体和第二目标关系词的第二受事实体。

第一目标关系词“作为……控股股东”为名词反向关系，此时，该关系词的第一受事实***于“作为”之前的文本“美国电视制作公司Dick”中，通过实体识别过程，可确定“美国电视制作公司Dick”为第一目标关系词的第一受事实体。第二目标关系词“子公司”为名词正向关系，此时该关系词的第二受事实***于“子公司”之后的“B斥资10亿美元(约78亿港元)”的文本中，实体识别后，第二受事实体为“B”。

步骤404，将第一受事实体作为关系词的目标受事实体，以及第二受事实体作为关系词的目标施事实体。

经过步骤403之后，获得的第一受事实体为“美国电视制作公司Dick”，第二受事实体为“B”，所以，关系词“被……收购”的目标受事实体为“美国电视制作公司Dick”，目标施事实体为“B”。

再根据步骤103，可以生成实体关联关系“B->收购->美国电视制作公司Dick”。

可选的，在上述内容中可知，将第一受事实体作为关系词的目标受事实体，以及第二受事实体作为关系词的目标施事实体的具体过程，包括：分别对第一受事实体和第二受事实体进行实体识别；将实体识别后的第一受事实体作为关系词的目标受事实体，以及实体识别后的第二受事实体作为关系词的目标施事实体。事实上，实体识别的步骤在步骤403中同步进行或者在步骤404中都符合本申请实施例的要求，都可以实现识别出小段中文文本中实体的目的。由于抽取第一受事实体和第二受事实体的过程本身就是确定实***置的过程，实际上只能确定实体所在的范围，经过实体识别后才能真正确定实体以及实体的确切位置，所以实体识别这一过程可以增加整个实体关联关系抽取过程的准确度。

另外，如果包括关系词“被……收购”的文本为“美国电视制作公司Dick被万达集团斥资10亿美元(约78亿港元)收购”，那么在协同词“被”之前就不存在其他关系词，此时需要识别“被”之前文本中最靠近“被”的实体“美国电视制作公司Dick”作为目标受事实体；同理，在协同词“被”和关系词主体“收购”之间也不存在其他关系词，则识别出“被”与“收购”之间最靠近“收购”的实体“万达集团”作为目标施事实体。所以，最终生成的实体关联关系为“万达集团->收购->美国电视制作公司Dick”。

在本申请的第四个优选实施例中，以名词反向关系为例，进一步解释步骤102，如图5所示，步骤102具体可以包括：

步骤501，如果关系词的关系性质是名词反向关系，则将关系词分解为协同词与关系词主体。

以文本“甘肃省电力公司的实际控制公司甲公司作为国家电网公司的子公司乙公司的全资子公司”为例，其中，“作为……全资子公司”为名词反向关系的关系词，“作为”为协同词，“全资子公司”为关系词主体。

步骤502，寻找文本中位于协同词之前并且最靠近协同词的第一目标关系词，和文本中位于关系词主体之前并且最靠近关系词主体的第二目标关系词。

在文本中寻找“作为”之前的最靠近“作为”的第一目标关系词为“实际控制公司”，在“作为”与“全资子公司”之间，最靠近“全资子公司”的第二目标关系词为“子公司”。

步骤503，在文本中抽取第一目标关系词的第一受事实体和第二目标关系词的第二受事实体。

第一目标关系词“实际控制公司”是名词正向关系，其第一受事实体为“甲公司”。第一施事实体为“甘肃省电力公司”；第二目标关系词“子公司”为名词正向关系，其第二受事实***于“乙公司的”文本之中，经过实体识别，可以确定“乙公司”为“子公司”的第二受事实体，其第二施事实***于“国家电网公司的”文本之中，实体识别后可确定“国家电网公司”为第二施事实体。

步骤504，将第一受事实体作为关系词的目标受事实体，以及第二受事实体作为关系词的目标施事实体。

经过步骤503之后，确定第一受事实体为“甲公司”作为关系词“作为……全资子公司”的目标受事实体，第二受事实体为“乙公司”作为关系词“作为……全资子公司”的目标施事实体，所以根据步骤103生成的实体关联关系为“乙公司->全资子公司->甲公司”。

可选的，在上述内容中可知，将第一受事实体作为关系词的目标受事实体，以及第二受事实体作为关系词的目标施事实体的具体过程，包括：分别对第一受事实体和第二受事实体进行实体识别；将实体识别后的第一受事实体作为关系词的目标受事实体，以及实体识别后的第二受事实体作为关系词的目标施事实体。事实上，实体识别的步骤在步骤503中同步进行或者在步骤504中都符合本申请实施例的要求，都可以实现识别出小段中文文本中实体的目的。由于抽取第一受事实体和第二受事实体的过程本身就是确定实***置的过程，实际上只能确定实体所在的范围，经过实体识别后才能真正确定实体以及实体的确切位置，所以实体识别这一过程可以增加整个实体关联关系抽取过程的准确度。

此外，如果文本为“甘肃省电力公司作为国家电网公司的全资子公司”时，文本中名词反向关系词“作为……全资子公司”的协同词“作为”之前不存在其他关系词，则识别出“作为”之前最靠近“作为”的实体“甘肃省电力公司”作为关系词“作为……全资子公司”的目标受事实体，再由于协同词“作为”与关系词主体“全资子公司”之间也不存在其他关系词，所以识别出协同词与关系词主体之间最靠近关系词主体的实体“国家电网公司”作为关系词“作为……全资子公司”目标施事实体。最终生成的实体关联关系为“国家电网公司->全资子公司->甘肃省电力公司”。

上述优选实施例中，分别对不同关系性质的关系词如何进行实体关系抽取进行说明，对于上述具有多个关系词的复杂中文文本来说，需要分别对每一个关系词进行实体关联关系的抽取，然后所有关系词对应的实体关联关系构成这一段中文文本中所有的实体关联关系。

例如，文本“去年，万达旗下的万达体育收购了世界铁人公司旗下的IRONMAN系列赛事”中，存在三个关系词“旗下”、“收购”和“旗下”，并且三个关系词的关系性质分别是名词正向关系、动词主动关系和名词正向关系，根据关系性质分别对这三个关系词进行实体关联关系的抽取与生成，可以得到三个实体关联关系，分别是：“万达集团->旗下->万达体育”、“万达体育->收购->IRONMAN系列赛事”和“世界铁人公司->旗下->IRONMAN系列赛事”。

文本“美国电视制作公司Dick作为A公司的控股股东被万达集团的子公司B斥资10亿美元(约78亿港元)收购”中，存在“作为……控股股东”、“被……收购”和“子公司”三个关系词，并且三个关系词的关系性质分别是名词反向关系、动词被动关系和名词正向关系，根据关系性质分别对这三个关系词进行实体关联关系的抽取与生成，可以得到三个实体关联关系，分别是：“A公司->控股股东->美国电视制作公司Dick”、“B->收购->美国电视制作公司Dick”和“万达集团->子公司->B”。

文本“甘肃省电力公司的实际控制公司甲公司作为国家电网公司的子公司乙公司的全资子公司”中，存在“实际控制公司”、“作为……全资子公司”和“子公司”三个关系词，并且三个关系词的关系性质分别是名词正向关系、名词反向关系和名词正向关系，根据关系性质分别对这三个关系词进行实体关联关系的抽取与生成，可以得到三个实体关联关系，分别是：“甘肃省电力公司->实际控制公司->甲公司”、“乙公司->全资子公司->甲公司”和“国家电网公司->子公司->乙公司”。

由以上技术方案可知，本申请实施例提供的中文实体关联关系的抽取方法，根据中文文本中关系词的关系性质，抽取文本中与该关系词相关的目标施事实体和目标受事实体，再根据关系词和关系词对应的目标施事实体和目标受事实体，生成文本中该关系词对应的中文实体关联关系。本申请实施例提供的技术方案，将非结构化中文文本按照不同关系性质划分为不同的字句，进一步缩减了每一个关系词的目标施事实体和目标受事实体所在的位置范围，以便提高搜索精度和搜索速度，减少运算量。另外，本申请实施例中的技术方案，还使用了中文语法层面上的划分规则，很大程度上滤除一些冗余的错误关系词和错误实体，提高了抽取关系词和抽取实体的准确率。

参见图6，本申请实施例还提供一种中文实体关联关系的抽取装置，包括：

关系词抽取模块601，用于抽取文本中的关系词；

性质确定模块602，用于如果抽取出的关系词的数量大于1，确定每一个关系词的关系性质；

目标实体抽取模块603，用于根据每一个关系词的关系性质，从文本中依次抽取每一个关系词对应的目标施事实体和目标受事实体；

关联关系生成模块604，用于根据关系词以及关系词对应的目标施事实体和目标受事实体，生成中文实体关联关系。

可选的，目标实体抽取模块603还包括：动词主动关系实体抽取模块，用于，

如果关系词的关系性质是动词主动关系，则在文本中寻找位于关系词之前并且最靠近关系词的第一目标关系词，和文本中位于关系词之后距离关系词最远的第二目标关系词；

在文本中抽取第一目标关系词的第一受事实体和第二目标关系词的第二受事实体；

将第一受事实体作为关系词的目标施事实体，以及第二受事实体作为关系词的目标受事实体。

可选的，目标实体抽取模块603还包括：名词正向关系实体抽取模块，用于，

如果关系词的关系性质是名词正向关系，则在文本中寻找位于关系词之前并且最靠近关系词的第一目标关系词，和文本中位于关系词之后距离关系词最远的第二目标关系词；

可选的，目标实体抽取模块603还包括：动词被动关系实体抽取模块，用于，

如果关系词的关系性质是动词被动关系，则将关系词分解为协同词与关系词主体；

寻找文本中位于协同词之前并且最靠近协同词的第一目标关系词，和文本中位于关系词主体之前并且最靠近关系词主体的第二目标关系词；

将第一受事实体作为关系词的目标受事实体，以及第二受事实体作为关系词的目标施事实体。

可选的，目标实体抽取模块603还包括：名词反向关系实体抽取模块，用于，

如果关系词的关系性质是名词反向关系，则将关系词分解为协同词与关系词主体；

可选的，所述装置还包括：

关系词判断模块，用于，判断关系词是否存在于预定义关系库中；

如果关系词存在于预定义关系库中，则确定关系词的关系性质。

可选的，动词主动关系实体抽取模块或者名词正向关系实体抽取模块中包括：

第一实体识别模块，用于分别对第一受事实体和第二受事实体进行实体识别；

将实体识别后的第一受事实体作为关系词的目标施事实体，以及实体识别后的第二受事实体作为关系词的目标受事实体。

可选的，动词被动关系实体抽取模块或者名词反向关系实体抽取模块中包括：

第二实体识别模块，用于分别对第一受事实体和第二受事实体进行实体识别；

将实体识别后的第一受事实体作为关系词的目标受事实体，以及实体识别后的第二受事实体作为关系词的目标施事实体。

参见图7，本申请实施例还提供一种中文实体关联关系的抽取***，所述***包括存储器701和处理器702；

存储器701用于存储处理器702的可执行程序；

处理器702被配置为：

抽取文本中的关系词；

根据关系词以及关系词对应的目标施事实体和目标受事实体，生成中文实体关联关系。

本申请可用于众多通用或专用的计算***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种中文实体关联关系的抽取方法，其特征在于，包括：

抽取文本中的关系词；

2.根据权利要求1所述的方法，其特征在于，所述根据每一个关系词的关系性质，从文本中依次抽取每一个关系词对应的目标施事实体和目标受事实体的步骤，包括：

如果所述关系词的关系性质是动词主动关系，则在文本中寻找位于关系词之前并且最靠近所述关系词的第一目标关系词，和文本中位于关系词之后距离所述关系词最远的第二目标关系词；

在文本中抽取所述第一目标关系词的第一受事实体和所述第二目标关系词的第二受事实体；

将所述第一受事实体作为所述关系词的目标施事实体，以及所述第二受事实体作为所述关系词的目标受事实体。

3.根据权利要求1所述的方法，其特征在于，所述根据每一个关系词的关系性质，从文本中依次抽取每一个关系词对应的目标施事实体和目标受事实体的步骤，包括：

如果所述关系词的关系性质是名词正向关系，则在文本中寻找位于关系词之前并且最靠近所述关系词的第一目标关系词，和文本中位于关系词之后距离所述关系词最远的第二目标关系词；

4.根据权利要求1所述的方法，其特征在于，所述根据每一个关系词的关系性质，从文本中依次抽取每一个关系词对应的目标施事实体和目标受事实体的步骤，包括：

如果所述关系词的关系性质是动词被动关系，则将所述关系词分解为协同词与关系词主体；

寻找文本中位于所述协同词之前并且最靠近所述协同词的第一目标关系词，和文本中位于所述关系词主体之前并且最靠近所述关系词主体的第二目标关系词；

将所述第一受事实体作为所述关系词的目标受事实体，以及所述第二受事实体作为所述关系词的目标施事实体。

5.根据权利要求1所述的方法，其特征在于，所述根据每一个关系词的关系性质，从文本中依次抽取每一个关系词对应的目标施事实体和目标受事实体的步骤，包括：

如果所述关系词的关系性质是名词反向关系，则将所述关系词分解为协同词与关系词主体；

6.根据权利要求2-5任一项所述的方法，其特征在于，所述抽取文本中的关系词之后，还包括：

判断所述关系词是否存在于预定义关系库中；

如果所述关系词存在于预定义关系库中，则确定所述关系词的关系性质。

7.根据权利要求2-3任一项所述的方法，其特征在于，所述将第一受事实体作为所述关系词的目标施事实体，以及第二受事实体作为所述关系词的目标受事实体的步骤，包括：

分别对所述第一受事实体和所述第二受事实体进行实体识别；

将实体识别后的第一受事实体作为所述关系词的目标施事实体，以及实体识别后的第二受事实体作为所述关系词的目标受事实体。

8.根据权利要求4-5任一项所述的方法，其特征在于，所述将第一受事实体作为所述关系词的目标受事实体，以及第二受事实体作为所述关系词的目标施事实体的步骤，包括：

将实体识别后的第一受事实体作为所述关系词的目标受事实体，以及实体识别后的第二受事实体作为所述关系词的目标施事实体。

9.一种中文实体关联关系的抽取装置，其特征在于，所述装置包括：

关系词抽取模块，用于抽取文本中的关系词；

10.一种中文实体关联关系的抽取***，其特征在于，所述***包括存储器和处理器；

所述存储器用于存储所述处理器的可执行程序；

所述处理器被配置为：

抽取文本中的关系词；