CN112183059A

CN112183059A - 一种中文结构化事件抽取方法

Info

Publication number: CN112183059A
Application number: CN202011015681.0A
Authority: CN
Inventors: 万齐智; 万常选; 胡蓉; 刘德喜
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2021-01-05
Anticipated expiration: 2040-09-24
Also published as: CN112183059B

Abstract

本发明涉及一种中文结构化事件抽取方法，属于信息抽取技术领域；一种中文结构化事件抽取方法，利用句法依存分析工具对非结构化文本语句进行句法依存结构分析，获得句法依存分析树；分析中文语言学和句法依存分析树的特征，构建核心动词链，识别语句中存在的所有事件；借助语义依存分析工具为句法依存分析树添加语义依存关系，构建句法语义依存分析树；调整句法语义依存分析树中事件核心动词、介词和被动语态的依存结构，构建句法语义依存分析事件图；本发明不需要人工标注数据，能够较好地抽取结构化事件，且抽取的精确率、召回率较高。

Description

一种中文结构化事件抽取方法

技术领域

本发明属于信息抽取技术领域，具体属于事件抽取技术领域，涉及一种中文结构化事件抽取方法。

背景技术

随着网络的迅速发展，每天都会产生大量的非结构化文本数据，如何根据具体应用需求从非结构化文本数据中抽取有价值、有意义的结构化信息，具有重大意义。事件抽取作为信息抽取的子任务，具有较大的应用前景。以财经领域为例，投资者及上市公司对股票市场趋势比较感兴趣，趋势预测可以为市场分析、决策提供较为有力的支撑，抽取的事件可为预测提供帮助。事件抽取主要是从本文中抽取包含的所有事件。财经领域比较关注事件的行为动作以及作用的对象，事件抽取的内容对股市趋势预测效果至关重要，而上述内容主要包含于语句的主谓宾中，因此结构化事件抽取目标主要是抽取包含主谓宾的事件。

在过去的十多年中，国内外已有较多有关事件抽取的研究，根据抽取目标及应用价值不同分为传统事件抽取和基于应用需求驱动的事件抽取。传统事件抽取一般分为4个子任务，触发词识别和分类、论元识别和分类，前者称为事件探测。传统事件抽取重点研究采用何种方法或模型提高事件触发词或论元所属类别的正确率，即分类效果，且大部分聚焦于标准事件类型的事件抽取。此系列的事件抽取主要采取经典的卷积神经网络、循环神经网络以及各种先进的、变形的神经网络等深度学习模型来解决分类问题，但这需要大量人工标注数据作为训练支撑，在目前中文标注数据匮乏情况下，一定程度限制了传统事件抽取的分类效果。

基于应用需求驱动的事件抽取旨在结合具体应用需求，定义事件类型及需要抽取的内容，采取先进的方法完成所需事件的抽取。Ding等人提出使用结构化事件来预测股票价格波动，但该研究在事件内容抽取上存在较大的局限性。在抽取谓语和论元时添加了句法和词汇限制，约束条件过于严苛，使得大量事件被过滤掉了。另外，该技术针对于英文语料，而中文属于意合性语言，多短句、惯用动词表达，使得语句包含的谓语较多，增加了哪些动词充当事件谓语的判断难度，该研究采用的信息开放抽取技术不太适用。Yang等人自定义了财经领域事件类型，采用Bi-LSTM-CRF方法抽取文档级事件，但该技术存在三个问题：一是需要基于存在的事件知识库，二是只能抽取指定类型的事件，对于无类型的开放模式事件抽取存在局限性，三是一个文档只能抽取一个结构化事件。

开放领域结构化事件抽取主要采用贝叶斯图形模型方法，且取得了一定的进展。但是这些方法假设一个文档中所有词都是来自于一个单独事件，这对短文本可能成立，但针对长文本则不太合适。为了解决这个问题，Wang等人提出了对抗-神经事件模型，但这些方法均需要较多的标注语料作为训练，才能取得较好的效果。

由于上述方法存在着较多严重的缺陷，需要一种简单的、无需任何知识基础和人工标注数据的中文结构化事件抽取方法，以提高事件抽取的效果。

发明内容

为了克服目前对于中文结构化事件抽取模型的不足，本发明基于句法和语义依存分析提出了一种中文结构化事件抽取方法。

本发明通过以下技术方案实现：

一种中文结构化事件抽取方法，所述的结构化事件记为：ET＝(Sub,Pred,Obj)，其中Sub、Pred和Obj分别表示事件的主语、谓语和宾语，包含以下步骤：

A、首先利用句法依存分析工具对非结构化文本语句进行句法依存分析，获得句法依存分析树；

B、根据中文语言学和句法依存分析树的特征，建立核心动词链，识别语句中包含的所有事件谓语Pred；

C、借助语义依存分析工具，获得语义依存分析树，在获得的句法依存分析树上添加语义依存关系，构建句法语义依存分析树；

D、根据语义依存关系，调整句法语义依存分析树中事件核心动词、介词和被动语态的依存结构，构建句法语义依存分析事件图；

E、基于构建的句法语义依存分析事件图，通过得到的事件核心动词，分别获取事件的主语Sub和宾语Obj；

F、添加事件核心动词间语义依存关系；

G、添加事件非核心动词间语义依存关系；。

优选的，所述步骤A中句法依存分析采用LTP工具，句法依存分析树记为：DP＝(V,E)，其中V表示经LTP分词后的词语集合，E表示词语的句法依存集合。

进一步地，所述中文语言学包括以下特征：

特征1、事件由动词触发，谓语一般由动词充当；

特征2、语句中具有并列关系的谓语在句法结构上应该拥有相同的地位或性质，即形成的句法结构在语法角度上应通过某个约定的并列符号进行关联；

所述句法依存分析树包含以下特征：

特征3、一条语句只给出一个核心词，事件间谓语为父子结点，且保持连续；

特征4、事件谓语之间父子结点的边为COO句法依存关系，且依存路径上不能出现其他句法依存关系。

进一步地，通过对依存于语句核心词的所有具有连续COO的动词结点进行识别，建立核心动词链，记为CVC＝(V)，其中每个动词对应一个事件，称为核心动词，V表示语句核心动词集合，建立规则包括：

规则1、如果LTP给出的语句核心词是动词，则默认属于核心动词链中，否则考虑其满足COO关系的孩子结点，直到找到动词为止；

规则2、加入的结点是与核心动词链中结点构成COO关系的动词结点，且确保添加的动词从语句核心词开始一直保持COO关系的连续性，一旦中断则不再考虑后续动词；

规则3、如果LTP给出的语句核心词是非动词，且其孩子中没有满足COO关系的动词结点，则该语句不生成核心动词链。

进一步地，所述步骤C中语义依存分析采用SDP工具，语义依存分析树记为：SDP＝(V,E)，其中V表示经LTP分词后的词语集合，E表示词语的语义依存关系集合。

进一步地，所述步骤F中向句法依存分析树中添加语义依存关系具体步骤包括：

步骤1、对DP树进行剪枝，只保留主语、核心动词和宾语等主干成分，减少DP树中的结点数量；

步骤2、对剪枝后的DP树进行语义依存分析，获取核心动词间语义关联；

步骤3、将获取的语义关联添加至原始DP树中。

其中，核心动词代表事件，事件间的语义依存关系采用eXX(如eCoo)表示，对于核心动词间非eXX关系的情况，在依赖的孩子结点中查询获取，并作为核心动词间语义关联；

所述步骤G中向句法依存分析树中添加事件非核心动词间语义依存关系具体步骤包括：

步骤4、对于DP树与SDP树中依存结构相同的结点，将其语义依存关系直接添加至DP树中；

步骤5、对于DP树与SDP树中依存结构不相同的结点，其语义依存关系添加为“NULL”。

进一步地，添加了语义依存关系的句法依存分析树称为句法语义依存分析树，记为：SSDP＝(V,E)，E＝E^dpUsdp，其中V表示词语集合，E＝E^dpUsdp表示词语的句法依存关系和语义依存关系集合。

进一步地，所述步骤D中的调整句法语义依存分析树中事件核心动词、介词和被动语态的依存结构，具体包括：

调整1、将除直接依存于根结点的事件核心动词外的所有事件核心动词调整为根结点的直接孩子结点；

调整2、将依存于介词的主语或宾语调整为直接依存于所属事件核心动词，调整规则包括：

规则4、调整后的语义依存关系采用语义依存分析树中该调整结点的语义依存关系；

规则5、句法依存关系则根据调整后的语义依存关系的语义含义调整，如果属于主语含义，则句法依存关系调整为SBV，如果为宾语含义，则调整为VOB，否则保持原有句法依存关系。

调整3、将被动语态涉及的主语和宾语调整为主动语态下主语和宾语，具体步骤如下：

步骤6、提升被动语句对应结点层级；

步骤7、借助语义依存分析树中该结点的语义依存关系，将被动语义和主动语义的依存关系调转，修改句法依存关系和语义依存关系。

进一步地，将事件谓语、介词和被动语态依存结构调整后的以事件为单位且不满足树定义的有向图称为句法语义依存分析事件图，记为：SSPEG＝(V,E)，V＝{V_e1,V_e2,…,V_ei}，

其中V_ei表示事件ei包含的词语集合，

表示事件ei包含词语的句法依存关系和语义依存关系集合。

最后，基于SSPEG，获取所有事件核心动词，针对每个事件核心动词，扫描其孩子结点，分别获取句法关系为SBV的结点作为事件的主语Sub、句法关系为VOB的结点作为事件的宾语Obj。

与现有技术相比，本发明的有益效果在于：

本发明通过分析中文语言学和句法依存结构中谓语的特征，利用句法依存分析工具，构建了核心动词链，较好地解决了识别语句中所包含的所有事件的困难；结合语义依存分析构建了句法语义依存分析树；借助语义依存关系调整事件谓语、介词和被动语态结构，构建句法语义依存分析事件图，该事件图以事件为单位，结构清晰、层次分明，事件谓语全部直接依存于根结点，事件中相同成分的结点尽量处于同一层次。本发明属于一种无监督方法，不需要人工标注数据，且抽取的精确率和召回率均较高；本发明能够快速探测语句中包含的所有事件，并抽取每一个ET＝(Sub,Pred,Obj)形式的结构化事件；能够获得比较满意的事件抽取效果，而且不需要人工标注数据，具有较强的实用性。

附图说明

图1为本发明的流程框架图。

图2为本发明例1的句法依存分析结果和句法依存分析树示意图，左边为句法依存分析结果示意图，右边为句法依存分析树示意图。

图3为本发明例2的语义依存分析树示意图。

图4为本发明例3的句法依存分析树示意图。

图5为本发明例3的语义依存分析树示意图。

图6为本发明例3的句法语义依存分析树示意图。

图7为本发明图6经核心动词调整后的句法语义依存分析事件图。

图8为本发明例4的句法依存分析树示意图。

图9为本发明例4的语义依存分析树示意图。

图10为本发明例4经核心动词调整后的句法语义依存分析事件图。

图11为本发明图10经介词结构调整后的句法语义依存分析事件图。

图12为本发明例5经核心动词调整后的句法语义依存分析事件图。

图13为本发明图12经被动语态调整后的句法语义依存分析事件图。

具体实施方式

下面结合附图，对本发明的技术方案做进一步的详细描述。

本发明的过程如图1所示，具体过程如下。

首先利用句法依存分析工具和语义依存分析工具对输入的语句分别进行句法依存分析和语义依存分析，得到句法依存分析(DP)树和语义依存分析(SDP)树，然后根据探寻的语句并列谓语的特征，从DP树中获取核心动词链CVC，识别语句中包含的所有事件，获得事件核心动词，随后为DP树中每个结点添加其在SDP树中对应的语义依存关系，构建句法语义依存分析(SSDP)树，其次基于该树调整事件核心动词、介词和被动语态的依存结构，构建句法语义依存分析事件图(SSPEG)，最后扫描SSPEG，抽取每个事件主语、谓语和宾语。

1.句法依存分析树和语义依存分析树

句法依存分析(Dependency Parsing)是自然语言处理中的关键技术之一，其主要任务是确定句子的句法结构或者句子中词汇之间的依存关系。主要包括两方面的内容，一是确定语言的语法体系，即对语言中合法句子的语法结构给予形式化定义；二是句法依存分析技术，即根据给定的语法体系，自动推导出句子的句法结构，分析句子所包含的句法单位以及这些句法单位之间的依存关系。句法依存分析树则将句法单位之间的依存关系以树的形式表示。

例1.“首钢控股购入约40.78股权”。其句法依存分析结果和句法依存分析树如图2所示。“购入”与父结点Root关系为HED，是本语句核心词，结点之间的边代表句法依存关系。

语义依存分析(Semantic Dependency Parsing)用于刻画词汇间语义依存关系，与语义角色标注存在一定的关联。语义角色标注只关注句子谓词与其主要论元之间的关系，而语义依存分析不仅关注谓词与论元，还关注谓词与谓词、论元与论元、论元内部的语义关系，对句子语义信息的刻画更加完整全面，属于深层语义分析。

例2.“果源价格分化严重”。其SDP树如图3所示。其中，Root结点与“分化”结点的语义依存关系为Root。

2.语句中包含事件的识别方案

在中文语言学上，并列谓语在句法结构理论上应该拥有相同的地位或性质，因此，在对语句进行句法依存结构分析时，应通过某个约定的并列符号将它们进行关联，LTP工具在实现句法依存分析的过程中则采用COO符号表示。

例3.“果源价格分化严重，苹果期货增仓上涨”。图4为例3的DP树。其中，共包含3个事件ET₁(果源价格,分化,)、ET₂(苹果期货,增仓,)和ET₃(苹果期货,上涨,)。针对例3，图4中只给出一个语句核心动词“分化”，“增仓”作为ET₂的核心动词，是ET₁核心动词“分化”的孩子结点，且句法依存关系为COO，而ET₃的核心动词“上涨”又作为ET₂“增仓”的孩子结点。

通过对句法依存分析树的分析发现3条线索：①事件的谓词一般由动词充当；②一个语句中事件谓词为父子结点，且保持连续，如“分化”→“增仓”→“上涨”；③事件谓词父子结点的边为COO。根据这些特征，构建了一个事件识别方法(核心动词链CVC的建立规则)，具体包括：

规则1.如果LTP给出的语句核心词是动词，则默认属于核心动词链中；否则考虑其满足COO关系的孩子结点，直到找到动词为止。

规则2.加入的结点是与核心动词链中结点构成COO关系的动词结点，且确保添加的动词从语句核心词开始一直保持COO关系的连续性，一旦中断则不再考虑后续动词。

规则3.如果LTP给出的语句核心词是非动词，且其孩子中没有满足COO关系的动词结点，则该语句不生成核心动词链。

其中，添加至核心动词链中的每个动词结点需满足以上所有规则，链中结点数即为语句包含的事件数。

针对图4中“增仓”和“上涨”结点，按照规则应全部添加至核心动词链中，但它们反映同一事件的不同情况。为了避免将一个事件拆分成多个事件而降低事件信息的连贯性和完整性，对于语句中位置连续的核心动词(如果核心动词之间只包含副词，也认为连续)，则将所有核心动词合并为一个整体，表示一系列连贯动作。例3中事件ET₂与ET₃合并为事件ET₄(苹果期货,[增仓,上涨],)。

3.句法语义依存分析树

考虑到SDP工具可能存在分析错误情况，且与DP工具分析结果在结构上有时会存在冲突(作用对象不一致)，图5为例3基于SDP工具的SDP树。其中依存结构存在部分错误，“严重”结点错误地依存于“上涨”结点，同时“上涨”结点又依存于“分化”结点，与DP树中“增仓”依存于“分化”的依存结构不一致。在添加语义依存关系的过程中，为进一步降低冲突的可能性，对事件核心动词和非核心动词采取不同的添加措施，分别如下：

(1)事件核心动词间语义依存关系

步骤1.对DP树进行剪枝，只保留主语、核心动词和宾语等主干成分，减少DP树中的结点数量；

步骤2.对剪枝后的DP树进行语义依存分析，获取核心动词间语义依存关系；

步骤3.将获取的语义依存关系添加至原始DP树中。

其中，核心动词代表事件，事件间的语义依存关系采用eXX(如eCoo)表示，对于核心动词间非eXX关系的情况，在依赖的孩子结点中查询获取，并作为核心动词间语义关联。例如，图5中“上涨”与“分化”结点之间的关系为Cons，需在其孩子结点中获取eCoo关系。

(2)事件非核心动词间语义依存关系

步骤4.对于DP树与SDP树中依存结构相同的结点，将其语义依存关系直接添加至DP树中；

步骤5.对于DP树与SDP树中依存结构不相同的结点，其语义依存关系添加为“NULL”。

按照上述语义依存关系添加步骤，针对例3构建的句法语义依存分析树如图6所示。

4.句法语义依存分析事件图

同一条语句中，每个事件的发生虽然存在前后顺序，但它们在句法结构上(包括每个事件的核心动词、主语及宾语等)应处于相同地位，这样不仅使得句子句法结构一目了然，还有利于事件的识别和事件ET元组中成分的抽取。本发明对SSDP树做了一定的优化和调整，剪除无效路径，降低树的高度，调整后的SSDP树更趋于扁平化，缩短搜索路径。具体调整包括：

(1)核心动词调整

提升处于核心动词链中的每个核心动词结点层级，使得调整后的SSPEG图中所有核心动词结点均处于相同层级，为Root结点的直接孩子结点，依存关系均为(HED,Root)。图7为图6经核心动词调整后的SSPEG。其中，“[增仓,上涨]”结点调整为Root结点的直接孩子，使其与“分化”结点处于同级，但原始关系仍保留，并采用有向虚线进行连接，方向代表事件的时序性。SBV关系的“期货”和“价格”结点，ATT关系的“果源”和“苹果”结点均处于相同层级。

(2)介词结构调整

提升介词引导的充当主语或宾语的结点层级，使其作为对应根结点的直接孩子结点，具体规则包括：

规则4.调整后的语义依存关系采用语义依存分析树中该调整结点的语义依存关系；

规则5.句法依存关系则根据调整后的语义依存关系的语义含义调整，如果属于主语含义，则调整为SBV，如果为宾语含义，则为VOB，否则保持原有句法依存关系。

例4.“中国动力飙近21％，与中国能源达战略性合作框架”。图8和图9分别为例4的DP树和SDP树，图10为经核心动词调整后的SSPEG，图11为图10经介词结构调整后的SSPEG。

其中，根据语义依存关系的添加步骤，结点“与”和“中国能源”在图8中的句法依存结构和图9中的语义依存结构均不一致，所以图10中添加的语义依存关系为“NULL”；图11在图10的基础上，根据图9中“中国能源”的语义依存关系Datv，将依存于介词“与”的“中国能源”调整为“达”的直接孩子，句法和语义依存关系从(POB,NULL)调整为(SBV,Datv)，同时保留原始依存关系(POB,NULL)，采用无向虚线连接。

(3)被动语态调整

同一语句因其表达的形式不同会使得其句法依存结构发生变化，一定程度上增大了ET形式的结构化事件抽取的难度，但语句的语义含义并未发生变化，因此，对于被动语态，将其调整为主动形式可使事件抽取变得相对容易些，具体步骤如下：

步骤6.提升被动语句对应结点层级；

步骤7.借助语义依存关系，将被动语义和主动语义的依存关系调转，修改句法依存关系和语义依存关系。

例5.“伽马投资未披露基金运作情况，被监管责令改正”。图12和图13分别为其经核心动词调整和经被动语态调整后的SSPEG。其中，“被”结点的直接孩子结点“监管”调整为“责令”的直接孩子结点，且添加了依存关系(SBV,Agt)。

按照上述SSPEG构建过程，可为每条语句生成对应的SSPEG，基于SSPEG可获取语句包含的所有事件谓语Pred(即事件核心动词)，通过扫描事件核心动词的孩子结点，获取句法依存关系为SBV的结点作为事件的主语Sub、句法依存关系为VOB的结点作为事件的宾语Obj，完成ET形式的结构化事件抽取。

5.中文事件抽取实验

为了考察事件的抽取效果，使用精确率(precision)、召回率(recall)和F1值作为评价指标。计算方式如下：

其中，CEQ为正确抽取数，EQ为抽取数，LQ为标注数。可以看出，精确率反映的是抽取结果的准确情况，召回率反映的是抽取结果在样本中的召回情况。

为了验证事件抽取效果，我们选择了新浪网和东方财富网的新闻文本数据，分别对事件核心动词、事件主语、事件宾语和事件ET形式的抽取效果做了实验，实验结果如表1和表2所示。

表1事件核心动词及事件ET形式抽取的效果

表2事件主语和宾语抽取的效果

实验证明本发明提出的中文事件抽取方法抽取效果较好，事件核心动词抽取遵循了中文语言学和句法依存的特点，取得了很好的效果。通过对SSDP树的优化，构建了结构清晰的SSPEG，使得事件主语、事件宾语和事件ET的抽取效果也都不错。

另外，为了验证事件抽取效果优于其他方法，我们设计了7种对比方案，实验结果如表3所示。实验结果证明本发明的中文结构化事件抽取方法优于目前的其他方法。

表3新浪网上事件ET抽取的效果对比

上述内容为本发明的详细说明，任何依照本发明的权利要求范围所做的同等变化与修改，皆为本发明的权利要求范围所涵盖。

Claims

1.一种中文结构化事件抽取方法，其特征在于：所述的结构化事件记为：ET＝(Sub,Pred,Obj)，其中Sub、Pred和Obj分别表示事件的主语、谓语和宾语，包含以下步骤：

F、添加事件核心动词间语义依存关系；

G、添加事件非核心动词间语义依存关系；。

2.根据权利要求1所述的一种中文结构化事件抽取方法，其特征在于：所述步骤A中句法依存分析采用LTP工具，句法依存分析树记为：DP＝(V,E)，其中V表示经LTP分词后的词语集合，E表示词语的句法依存集合。

3.根据权利要求1或2所述的一种中文结构化事件抽取方法，其特征在于：所述中文语言学包括以下特征：

特征1、事件由动词触发，谓语一般由动词充当；

所述句法依存分析树包含以下特征：

4.根据权利要求2或3所述的一种中文结构化事件抽取方法，其特征在于：通过对依存于语句核心词的所有具有连续COO的动词结点进行识别，建立核心动词链，记为CVC＝(V)，其中每个动词对应一个事件，称为核心动词，V表示语句核心动词集合，建立规则包括：

5.根据权利要求1所述的一种中文结构化事件抽取方法，其特征在于：所述步骤C中语义依存分析采用SDP工具，语义依存分析树记为：SDP＝(V,E)，其中V表示经LTP分词后的词语集合，E表示词语的语义依存关系集合。

6.根据权利要求1所述的一种中文结构化事件抽取方法，其特征在于：所述步骤F中向句法依存分析树中添加语义依存关系具体步骤包括：

步骤3、将获取的语义关联添加至原始DP树中。

7.根据权利要求4-6中任一所述的一种中文结构化事件抽取方法，其特征在于：添加了语义依存关系的句法依存分析树称为句法语义依存分析树，记为：SSDP＝(V,E)，E＝E^dpUsdp，其中V表示词语集合，E＝E^dpUsdp表示词语的句法依存关系和语义依存关系集合。

8.根据权利要求1所述的一种中文结构化事件抽取方法，其特征在于：所述步骤D中的调整句法语义依存分析树中事件核心动词、介词和被动语态的依存结构，具体包括：

步骤6、提升被动语句对应结点层级；

9.根据权利要求8所述的一种中文结构化事件抽取方法，其特征在于：将事件谓语、介词和被动语态依存结构调整后的以事件为单位且不满足树定义的有向图称为句法语义依存分析事件图，记为：SSPEG＝(V,E)，V＝{V_e1,V_e2,…,V_ei}，

其中V_ei表示事件ei包含的词语集合，

表示事件ei包含词语的句法依存关系和语义依存关系集合。

10.根据权利要求9所述的一种中文结构化事件抽取方法，其特征在于：基于SSPEG，获取所有事件核心动词，针对每个事件核心动词，扫描其孩子结点，分别获取句法关系为SBV的结点作为事件的主语Sub、句法关系为VOB的结点作为事件的宾语Obj。