CN111222330B

CN111222330B - 一种中文事件的检测方法和***

Info

Publication number: CN111222330B
Application number: CN201911366648.XA
Authority: CN
Inventors: 谈元鹏; 宋磊; 李思; 徐会芳; 彭国政; 张锐; 刘剑青; 王凯; 王明轩; 朱明阳; 蓝海波; 李晶; 陆树栋; 王新迎; 乔骥; 张玉天; 赵紫璇; 王芳
Original assignee: State Grid Corp of China SGCC; Beijing University of Posts and Telecommunications; China Electric Power Research Institute Co Ltd CEPRI; State Grid Jibei Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Beijing University of Posts and Telecommunications; China Electric Power Research Institute Co Ltd CEPRI; State Grid Jibei Electric Power Co Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2022-07-12
Anticipated expiration: 2039-12-26
Also published as: CN111222330A

Abstract

本发明提供了一种中文事件的检测方法，包括：将待检测文本转换成字符向量序列和词向量序列；将字符向量序列和词向量序列输入预先建立的中文事件检测模型，得到待检测文本的触发词以及对应的事件类型；其中，中文事件检测模型考虑了事件类型间共现关系。本发明对于原基础模型检测输出的不确定结果，利用事件类型间的共现关系，可以在文本中寻找其它事件的分类，对部分错误的输出结果进行更正，提高中文事件检测的性能。

Description

一种中文事件的检测方法和***

技术领域

本发明自然语言处理技术领域，具体涉及一种中文事件的检测方法和***。

背景技术

随着计算机技术的发展，计算机的计算能力得到巨大的提升，机器学习和深度学习的研究取得一系列重要成果，自然语言处理逐渐得到广泛应用，例如通过情感分析技术挖掘商品评论中的用户喜好，通过机器翻译技术自动为用户翻译外文内容等。同时，随着互联网的普及特别是社交媒体的快速发展，由此产生的文本数据呈现***试增长，对大量信息进行自动处理及分析具有重要的意义和价值。因此，自然语言处理技术凭借其高效的文本处理及分析能力，获得了社会的广泛关注。对于国内而言，对中文的处理和分析与人们的生活工作息息相关。中文事件检测，作为中文信息提取的基本任务，以中文分词、中文词性标注、命名实体识别等任务为基础，在自动文摘、自动问答、信息检索、事件推理等领域有着广泛的应用。

用于事件检测的传统方法包括模式匹配、结构化感知机、最大熵模型等。近年来发展的深度学习中的前馈神经网络、长短期记忆模型、卷积神经网络、注意力机制等都被用在事件检测任务上并在公开数据集上取得了不错的效果，而自然语言处理需要在大量文本信息中，极速完成海量文本的分类和文本标签提取，就需要高效率的检测性能，因此，如何提高中文事件检测的性能是本领域技术人员需要解决的问题。

发明内容

为克服上述现有技术的不足，本发明提供一种中文事件的检测方法包括：

将待检测文本转换成字符向量序列和词向量序列；

将所述字符向量序列和词向量序列输入预先建立的中文事件检测模型，得到所述待检测文本的触发词以及对应的事件类型；

所述中文事件检测模型考虑了事件类型间共现关系。

优选的，将待检测文本转换成字符向量序列和词向量序列，包括：

采用中文分词工具将待检测文本转换成字符序列和词序列；

基于字符向量表和词向量表，将所述字符序列和词序列转化成字符向量序列和词向量序列。

优选的，中文事件检测模型的建立，包括：

基于具有确定触发词和事件类型的文本构建训练集；

构建基础模型，采用训练集对所述基础模型进行训练，得到训练集文本中的触发词和各字符对应的初步事件类型特征和初步事件类型概率分布；

在基础模型上构建用于建模事件类型间共现关系的共现关系层，将所述基础模型中得到的各个字符对应的初步事件类型特征和初步事件类型概率分布作为所述共现关系层的输入，计算各个字符对应的考虑事件类型间共现关系的事件类型特征；

在共现关系层上构建分类层，将所述共现关系层得到的各个字符对应的考虑事件类型间共现关系的事件类型特征作为的输入，计算各个字符对应的考虑事件类型间共现关系的事件类型概率分布，事件类型结果取概率最高的事件类型。

优选的，中文事件检测模型的建立，还包括：

基于分类层预测的事件类型概率分布与真实的事件类型概率分布得到模型训练的交叉熵损失函数；

求解交叉熵损失函数的反向梯度，根据学习率对共现关系层及分类层中的参数进行更新。

优选的，所述基础模型中得到的各个字符对应的初步事件类型特征和初步事件类型概率分布作为所述共现关系层的输入，计算各个字符对应的考虑事件类型间共现关系的事件类型特征，包括：

基于待检测字符对应的初步事件类型特征与其它各个字符对应的初步事件类型概率分布，依次计算待检测字符与其它各个字符对应的初步事件类型特征间的相关度打分；

基于所述待检测字符与其它各个字符对应的初步事件类型特征间的相关度打分，依次计算待检测字符与其它各个字符对应的初步事件类型特征间的相关度权重；

基于所述待检测字符与其它各个字符对应的初步事件类型特征间的相关度权重和其它各个字符对应的初步事件类型特征，计算待检测字符对应的共现关系特征；

基于所述待检测字符对应的共现关系特征和待检测字符对应的初步事件类型特征，计算待检测字符考虑共现关系的事件类型特征。

优选的，基于待检测字符对应的初步事件类型特征与其它各个字符对应的初步事件类型概率分布，依次计算待检测字符与其它各个字符对应的初步事件类型特征间的相关度打分，计算公式如下：

其中，

为待检测字符对应的初步事件类型特征，

为第j个字符对应的初步事件类型概率分布，W_A为可训练参数，s_cj为待检测字符与第j个字符对应的初步事件类型特征间的相关度打分。

优选的，基于所述待检测字符与其它各个字符对应的初步事件类型特征间的相关度打分，依次计算待检测字符与其它各个字符对应的初步事件类型特征间的相关度权重，计算公式如下：

其中，s_cj为待检测字符与第j个字符对应的初步事件类型特征间的相关度打分，a_cj为待检测字符与第j个字符对应的初步事件类型特征间的相关度权重。

优选的，基于所述待检测字符与其它各个字符对应的初步事件类型特征间的相关度权重和其它各个字符对应的初步事件类型特征，计算待检测字符对应的共现关系特征，计算公式如下：

其中，a_cj为待检测字符与第j个字符对应的初步事件类型特征间的相关度权重，

表示第j个字符对应的初步事件类型特征，

为待检测字符对应的共现关系特征。

优选的，基于所述待检测字符对应的共现关系特征和待检测字符对应的初步事件类型特征，计算待检测字符考虑共现关系的事件类型特征，计算公式如下：

其中，

为前检测字符对应的共现关系特征，

为待检测字符对应的初步事件类型特征，

为待检测字符考虑共现关系的事件类型特征。

基于同一发明构思，本发明还提供了一种中文事件的检测***，包括：

文本处理模块，用于将待检测文本转换成字符向量序列和词向量序列；

文件检测模块，用于将所述字符向量序列和词向量序列输入预先建立的中文事件检测模型，得到所述待检测文本的触发词以及对应的事件类型；

所述中文事件检测模型考虑了事件类型间共现关系。

优选的，文本处理模块，包括：

分词模块，用于采用中文分词工具将待检测文本转换成字符序列和词序列；

转化模块，用于基于字符向量表和词向量表，将所述字符序列和词序列转化成字符向量序列和词向量序列。

优选的，中文事件检测模块，包括：

训练集构建模块，用于基于具有确定触发词和事件类型的文本构建训练集；

基础模型构建模块，用于采用训练集对所述基础模型进行训练，得到训练集文本中触发词和各字符对应的初步事件类型特征和初步事件类型概率分布；

共现关系层构建模块，用于将所述基础模型中得到的各个字符对应的初步事件类型特征和初步事件类型概率分布作为所述共现关系层的输入，计算各个字符对应的考虑事件类型间共现关系的事件类型特征；

分类层构建模块，用于将所述共现关系层得到的各个字符对应的考虑事件类型间共现关系的事件类型特征作为的输入，计算各个字符对应的考虑事件类型间共现关系的事件类型概率分布，事件类型结果取概率最高的事件类型。

与最接近的现有技术相比，本发明具有的有益效果如下：

附图说明

图1为本发明提供的一种中文事件的检测方法的示意图；

图2为本发明提供的一种中文事件的检测***示意图；

图3为本发明提供的中文事件的检测模型的示意图；

图4为本发明实施例中提供的获取待检测字符的字符级特征和词级特征的过程示意图；

图5为本发明实施例中提供的融合待检测字符对应的字符级特征和词级特征的过程示意图；

图6为本发明实施例中提供的计算触发词的边界类型及相应的事件类型过程示意图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步的详细说明。

实施例1：

本发明提供的一种中文事件的检测方法，示意图如图1所示，包括：将待检测文本转换成字符向量序列和词向量序列；将字符向量序列和词向量序列输入预先建立的中文事件检测模型，得到待检测文本的触发词以及对应的事件类型；其中，中文事件检测模型考虑了事件类型间共现关系。

本实施例中输入的中文文本字符长度为N，待检测字符为C，j代表文本中任意一个字符，具体的检测方法如下：

101对于给定的中文文本采用jieba中文分词工具进行分词，将其转化为字符序列和词序列，再通过已有的字符向量表和词向量表，将字符序列转化成字符向量序列，词序列转化成词向量序；

102使用Nugget Proposal Networks for Chinese Event Detection作为基础模型层，依次将各一个字符作为待检测字符，输入对应的字符向量序列和词向量序列,利用卷积网络为各个字符获取任务相关的特征，输出本文中触发词和各个字符对应的初步事件类型特征和初步事件类型概率分布；

具体的，以待检测字符c对应的触发词、初步事件类型特征和初步事件类型概率分布获取的过程为例，计算步骤如下：

102-1如图4所示，图4中Word/Position Embedding表示词/位置向量，Convolutional Feature Map表示卷积特征映射，Compositional Feature表示合成特征，Token Level Feature表示记号级特征，Lexical Feature表示词汇级特征，DynamicMulti-Pooling表示动态多池化，对于输入的字符向量序列

及其对应的词向量序列

利用DMCNN(即动态多池化卷积神经网络)分别获取待检测字符c对应的字符级特征和词级特征，两种特征的计算过程相同，统一描述如下：

x_j＝[e_j：p_j] 式(2-1)

r_ij＝tanh(W_ix_j:j+h-1+b_i) 式(2-2)

r_i ^left＝max_j＜cr_ij 式（2-3）

r_i ^right＝max_j≥cr_ij 式（2-4）

f_c＝[r^left:r^right:e_c-1:e_c+1] 式(2-5)

其中，h表示卷积核覆盖的序列宽度，e_j表示第j个字符或者词的嵌入表示，p_j表示位置j对应的位置嵌入表示，W_i表示可训练的第i个卷积核、b_i表示可训练的第i个卷积核对应的偏置，r_ij表示第j个字符通过第i个卷积核计算出的字符特征，f_c表示待检测字符c的字符级特征(表示为

)或词级特征(表示为

)。

102-2如图5所示，模型利用Hybrid Representation Learning(混合表征学习)融合DMCNN(即动态多池化卷积神经网络)得到的待检测字符c对应的字符级特征和词级特征，计算待检测字符c对应的触发词计算边界特征和事件类型特征，共有三种实现形式：

Concat Hybrid(拼接混合)方式如下式所示：

General Hybrid(通用混合)方式如下式所示：

Task-specific Hybrid(任务相关混合)方式如下式所示：

其中，W_N、U_N、b_N、W_T、U_T、b_T为可训练参数，s为激活函数，z为字符信息在计算触发词边界类型和事件类别的时统一的权重，z^N和z^T为字符信息在计算触发词边界类型和事件类别的时相应的权重，

和

为待检测字符c对应的触发词计算边界特征和初步事件类型特征。

102-3如图6所示，图6中Nugget Generator表示壳生成器，用于计算触发词边界，Type Classifier表示事件分类器，用于输出事件分类的结果，Hybrid Char-WordRepresentation Learning表示字词混合表征学习，基于待检测字符c对应的触发词计算边界特征和事件类型特征，通过Nuggets Proposal Networks计算待检测字符c对应的触发词计算边界概率分布及相应的事件类型特征概率分布。

根据触发词计算边界概率分布，确定若设定的触发词最大字符序列长度为L，则包含当前字符的对应的可能边界有

种，各种边界类型表示触发词覆盖待检测字符c的一种情况，其计算得到的概率如下：

其中，W_G、b_G、W_C、b_C为可训练参数，

和

分别为待检测字符c取第n种边界的概率和第k种事件类别的概率。

102-4根据触发词计算边界概率分布，确定概率分布中最大概率对应的触发词计算边界为待检测字符c对应的触发词边界；

102-5根据待检测字符c对应的触发词边界，计算待检测字符c对应的触发词；

102-6根据步骤102-1到102-5，识别出文本中的所有触发词；

103在基础模型层上搭建用于建模事件类型间共现关系的Self-Attention层，Self-Attention层即共现关系层，将步骤102-3中得到的待检测字符c对应的初步事件类型特征和初步事件类型概率分布输入共现关系层，输出待检测字符c对应的考虑共现关系的事件类型特征，其计算过程如下：

其中，

为待检测字符对应的初步事件类型特征，

为第j个字符对应的初步事件类型概率分布，W_A为可训练参数，s_cj为待检测字符与第j个字符对应的初步事件类型特征间的相关度打分，a_cj为待检测字符与第j个字符对应的初步事件类型特征间的相关度权重，

表示第j个字符对应的初步事件类型特征，

为待检测字符对应的共现关系特征，

为待检测字符对应的初步事件类型特征，

为待检测字符对应的考虑共现关系的事件类型特征；

104将步骤103的待检测字符c对应的考虑共现关系的事件类型特征输入到Classifier层(分类层)，进行新的事件类型概率分布的计算，事件类型结果取概率最高的为待检测字符c对应的事件类型结果，分类层包含一层全连接层及Softmax激活函数；

105用于模型训练的交叉熵损失函数基于步骤104中预测的事件类别概率分布与真实的事件类别的概率分布构建，计算方式采用如下式所示的交叉熵：

L(θ)＝-∑_(x,y)∈Slog P(y|x；θ) 式(5-1)

其中，S表示训练集，各一条训练数据包含标记字符序列对应的字符向量序列、词向量序列及事件类型，x表示待检测字符对应的字符向量序列、词向量序列，y表示待检测字符的正确事件类型结果，θ表示模型的参数、字向量表和词向量表；

106求解步骤105中的交叉熵损失函数的反向梯度，根据学习率对Self-Attention层(共现关系层)及全连接层的参数进行更新，得到新的中文事件检测模型；

107基于训练完毕的中文事件检测模型，根据步骤101至104，对中文文本进行中文事件检测，得到文本对应的触发词和事件类型。

利用训练完毕的中文事件检测模型对文本进行检测，如图3所示，将文本信息通过步骤101进行处理后输入中文事件检测模型的基础模型层，得到待检测文本的触发词以及对应的事件类型，包括：

将文本信息进行处理后输入中文事件检测模型的基础模型层，得到待检测文本的触发词及各个字符对应的旧事件类型分布和旧事件分类特征，其中，旧事件类型分布即初步事件类型概率分布，旧事件分类特征即初步事件分类特征；

将各个字符对应的旧事件类型分布和旧事件分类特征输入Self-Attention层(共现关系层)，得到各个字符对应的新事件分类特征，其中，新事件分类特征即考虑贡献关系的事件分类特征；

将各个字符考虑共现关系的新的事件类型特征输入Classifier层(分类层)，得到文本触发词对应的事件类型。

实施例2：

本发明提供的一种中文事件的检测***，示意图如图2所示，包括：

文本处理模块和文件检测模块；

所述中文事件检测模型考虑了事件类型间共现关系，共现关系即：由于事件间存在内在关联，一些事件类型经常一起出现在文本中，而一些事件类型则基本不会。

其中，所述文本处理模块，包括：

分词模块和转化模块；

其中，中文事件检测模块，包括：

训练集构建模块、基础模型构建模块、共现关系层构建模块和分类层构建模块；

分类层构建模块，用于将所述共现关系层得到的各个字符对应的考虑事件类型间共现关系的事件类型特征作为的输入，计算各个字符对应的考虑事件类型间共现关系的事件类型概率分布，事件类型结果取概率最高的事件类型。其中，所述分类层包括一层全连接层和激活函数层。

本发明在原基础模型的事件类型特征中补充了与同一文本中其它字符对应的共现关系特征，对于原基础模型检测输出的不确定结果，利用事件类型间的共现关系，可以在文本中寻找其它事件的分类，对部分错误的输出结果进行更正，提高中文事件检测的性能。

最后应当说明的是:以上实施例仅用于说明本申请的技术方案而非对其保护范围的限制,尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换，但这些变更、修改或者等同替换，均在申请待批的权利要求保护范围之内。

Claims

1.一种中文事件的检测方法，其特征在于，包括：

将待检测文本转换成字符向量序列和词向量序列；

所述中文事件检测模型考虑了事件类型间共现关系；

所述中文事件检测模型的建立，包括：

基于具有确定触发词和事件类型的文本构建训练集；

在共现关系层上构建分类层，将所述共现关系层得到的各个字符对应的考虑事件类型间共现关系的事件类型特征作为输入，计算各个字符对应的考虑事件类型间共现关系的事件类型概率分布，事件类型结果取概率最高的事件类型；所述分类层包括一层全连接层和激活函数层；将所述基础模型中得到的各个字符对应的初步事件类型特征和初步事件类型概率分布作为所述共现关系层的输入，计算各个字符对应的考虑事件类型间共现关系的事件类型特征，包括：

2.如权利要求1所述的方法，其特征在于，所述将待检测文本转换成字符向量序列和词向量序列，包括：

采用中文分词工具将待检测文本转换成字符序列和词序列；

3.如权利要求1所述的方法，其特征在于，所述中文事件检测模型的建立，还包括：

4.如权利要求1所述的方法，其特征在于，所述基于待检测字符对应的初步事件类型特征与其它各个字符对应的初步事件类型概率分布，依次计算待检测字符与其它各个字符对应的初步事件类型特征间的相关度打分，计算公式如下：

其中，

为待检测字符对应的初步事件类型特征，

5.如权利要求1所述的方法，其特征在于，所述基于所述待检测字符与其它各个字符对应的初步事件类型特征间的相关度打分，依次计算待检测字符与其它各个字符对应的初步事件类型特征间的相关度权重，计算公式如下：

6.如权利要求1所述的方法，其特征在于，所述基于所述待检测字符与其它各个字符对应的初步事件类型特征间的相关度权重和其它各个字符对应的初步事件类型特征，计算待检测字符对应的共现关系特征，计算公式如下：

表示第j个字符对应的初步事件类型特征，

为待检测字符对应的共现关系特征。

7.如权利要求1所述的方法，其特征在于，所述基于所述待检测字符对应的共现关系特征和待检测字符对应的初步事件类型特征，计算待检测字符考虑共现关系的事件类型特征，计算公式如下：

其中，

为前检测字符对应的共现关系特征，

为待检测字符对应的初步事件类型特征，

为待检测字符考虑共现关系的事件类型特征。

8.一种中文事件的检测***，其特征在于，包括：

所述中文事件检测模型考虑了事件类型间共现关系；

所述中文事件检测模块，包括：

分类层构建模块，用于将所述共现关系层得到的各个字符对应的考虑事件类型间共现关系的事件类型特征作为输入，计算各个字符对应的考虑事件类型间共现关系的事件类型概率分布，事件类型结果取概率最高的事件类型；所述分类层包括一层全连接层和激活函数层；

将所述基础模型中得到的各个字符对应的初步事件类型特征和初步事件类型概率分布作为所述共现关系层的输入，计算各个字符对应的考虑事件类型间共现关系的事件类型特征，包括：

9.如权利要求8所述的***，其特征在于，所述文本处理模块，包括：