CN109710946A

CN109710946A - 一种基于依赖解析树的联合论辩挖掘***及方法

Info

Publication number: CN109710946A
Application number: CN201910034772.XA
Authority: CN
Inventors: 廖祥文; 陈泽泽; 陈志豪; 陈国龙
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-01-15
Filing date: 2019-01-15
Publication date: 2019-05-03

Abstract

本发明涉及一种基于依赖解析树的联合论辩挖掘***，包括：数据预处理模块，用于对数据进行预处理；文本嵌入模块，用于对从输入的文本中提取词、字符、词性、论点之间依赖关系以及论点类型的向量表示；序列编码模块，使用双向长短时记忆神经网络学习文本的上下文信息，用来完成论点边界检测和论点关系抽取的任务；依赖解析树模块，通过构建依赖解析树，用于在两个论点部件实体中寻找最短路经；论辩挖掘标签输出模块，用于完成论辩挖掘三个任务的标签预测工作，论点的类型标签和论点的关系标签。本发明能够从论辩文本数据中学习高质量的文本向量特点，最终检测出文本的论辩结构。

Description

一种基于依赖解析树的联合论辩挖掘***及方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种基于依赖解析树的联合论辩挖掘***及方法。

背景技术

当前，有很多技术方法可用于论辩挖掘。传统的论辩挖掘方法主要都是对子任务独立建模，而忽略了三个子任务之间的关联信息，导致性能低下。另外，还有部分工作采用流水线模型对三个子任务进行联合建模，这些模型在训练过程中存在错误传播的问题。

当前，存在着一些基于流水线的研究方法。其基本的思想是对论辩挖掘的三个子任务采用流水线的方法，按照流水线的顺序解决。流水线方法由于论点类型识别的错误会影响到论点关系的抽取错误，存在错误传播的问题。另外，这种方法将识别出来的论点进行两两配对，之后进行论点关系分类，产生了论点关系对的冗余信息。

然而，目前论辩挖掘研究方法往往忽略了子任务之间的关联信息，也存在忽略每个子任务不同特点的问题，而关联信息对论辩挖掘有着很重要的意义，一个任务的标签预测结果可以作为预测其它论辩挖掘子任务标签的有效特征。因此，针对上述不足，人们希望找到一种更加高效、细致的以及能够充分利用子任务之间关联信息并且充分利用每个子任务特点的方法，进而提高论辩挖掘模型的性能。

发明内容

有鉴于此，本发明的目的在于提供一种基于依赖解析树的联合论辩挖掘***及方法，能够从论辩文本数据中学习高质量的文本向量特点，最终检测出文本的论辩结构。

为实现上述目的，本发明采用如下技术方案：

一种基于依赖解析树的联合论辩挖掘***，包括：

一数据预处理模块，用于对数据进行预处理；

一文本嵌入模块，用于对从输入的文本中提取词、字符、词性、论点之间依赖关系以及论点类型的向量表示；

一序列编码模块，使用双向长短时记忆神经网络学习文本的上下文信息，用来完成论点边界检测和论点关系抽取的任务；

一依赖解析树模块，通过构建依赖解析树，用于在两个论点部件实体中寻找最短路经；

一论辩挖掘标签输出模块，用于完成论辩挖掘三个任务的标签预测工作，论点的类型标签和论点的关系标签。

进一步的，所述数据预处理模块对数据进行预处理具体包括：

(1)去除文档中的网页链接，特殊字符，标点符号；

(2)对文档进行分词处理；

(3)对英文数据进行词干还原处理；

(4)根据中英文的停用词表分别过滤掉数据集中包含的停用词。

进一步的，所述文本嵌入模块采用深度卷积神经网络。

进一步的，所述一种基于依赖解析树的联合论辩挖掘***的解析方法，其特征在于，包括以下步骤：

步骤S1:将待挖掘论变形文档输入至数据预处理模块进行预处理，得到的预处理后的文本,并输入文本嵌入模块；

步骤S2:文本嵌入模块采用深度卷积神经网络对预处理后的文本提取词、字符、词性、论点之间依赖关系以及论点类型的向量表示，并输入序列编码模块；

步骤S3:输入序列编码模块根据文本嵌入模块输入的文本数据，使用双向长短时记忆神经网络学习文本数据的上下文信息，完成论点边界检测和论点关系抽取，得到论点部件实体的类型标签；

步骤S4:根据论点部件实体的类型标签和论点之间依赖关依赖关系，依赖解析树模块通过构建依赖解析树，训练得到论点关系的标签；

步骤S5:论辩挖掘标签输出模块将得到的论点的类型标签和论点的关系标签输出。

进一步的，所述步骤S2具体为：

步骤S21:深度卷积神经网络输入为预处理后的文本序列x＝[x₁,x₂,...,x_n],按照文本句子中单词的顺序，每一行都是一个由d维向量表示的单词，CNN输出为序列C＝[c₁,c₂,...,c_n,]，C表示输入每个单词的特征，n表示输入序列的最大长度；

步骤S22:在x之间使用窄卷积和一个宽度为k的卷积核W∈R^(d×k)，并且将和作为填充向量被填充到序列的头部和尾部；

步骤S23:分别输出文本提取词V^w、字符V^c、词性V^p、论点之间依赖关系V^d以及论点类型V^e的向量表示，并输入序列编码模块中。

进一步的，所述步骤S3具体为：

步骤S31:序列编码层输入为文本嵌入层输出的共享特征参数向量，包括词V^w、字符V^c、词性V^p，用于学习文本的上下文信息并识别论点部件实体；

步骤S32:构建一个双向LSTM，计算获得句子向量，每个LSTM单元在第t个单词由一个n维向量组成，包括：一个输入门i_t，一个遗忘门f_t，一个输出门o_t，一个记忆单元c_t，以及一个隐藏单元h_t，每个LSTM单元接收一个n维的向量输入，前一个隐藏状态为h_t-1，前一个记忆单元为c_t-1；

根据以下公式更新参数：

i_t＝σ(W⁽ⁱ⁾x_t+I⁽ⁱ⁾h_t-1+bⁱ)

f_t＝σ(W^(f)x_t+I^(f)h_t-1+b^f)

o_t＝σ(W^(o)x_t+I^(o)h_t-1+b^o)

u_t＝tanh(W^(u)x_t+I^(u)h_t-1+b^u)

c_t＝i_t⊙u_t+f_t⊙c_t-1

h_t＝o_t⊙tanh(c_t)

其中，σ表示logistic激活函数，⊙表示向量的点积，W和I表示权重矩阵，b表示偏差向量，LSTM单元在第t个单词上的输入为第t个单词的词V_t ^w、字符V_t ^c和词性V_t ^p的联结向量将两个反向LSTM的隐藏单元和连接为作为输出；

步骤S32:对输入句子的每个单词标记上BIO标签，然后再标记它的论点类型,形成“BIO-论点类型”的形式；

步骤S33:构建一个由DenseNet和Softmax组成的两层神经网络：

其中，W是权重矩阵，b是偏差向量；

步骤S34:将s_t和前一个词的向量e_i-1作为输入，之后经过一层神经网络输入到Softmax层获得论点部件实体的类型标签，得到输出映射为向量e_i。

进一步的，所述步骤S4具体为：

步骤S41:将论点部件实体的类型标签e_i和来自文本嵌入层的依赖关系V^e输入依赖解析层；

步骤S42:构建双向树结构的LSTM结合递归神经网络，并通过以下公式在LSTM单元内计算第t个节点的n维向量：

h_t＝o_t⊙tanh(c_t)

其中，m(.)为映射函数，C(t)是第t个节点的子节点，i是共享参数。

使用最短路径结构来表示两个目标词对之间的关系，它用于捕获目标词对之间的依赖路径,将依赖解析层堆叠在序列层之上，将文本序列和依赖解析树的信息合并到输出中，依赖解析层第t个单词的LSTM输入为：连接序列层中的隐藏单元s_t和论点关系依赖类型以及论点部件的实体表示

步骤S43:将关系的类型和关系的方向来表示论点之间的关系,每个候选的依赖关系可以表示为d_p＝[↑h_pA:↓h_p1:↓h_p2]，其中，↓h_pA表示两个论点实体节点对应的最低父节点的隐含层，↑h_p1和↑h_p2是两个LSTM单元的隐藏状态向量，分别表示自顶向下LSTM-RNN中的第一和第二个目标论点实体部件；

步骤S44:设置一个两层神经网络，它包含一个n维的隐藏层h^(r)和一个Softmax的输出层：

其中，W为权重矩阵，b为偏差向量；

将树结构的LSTM-RNNs叠加在序列层之上，构造了论点关系分类的输入d_p，将每个论点实体部件的隐藏状态向量的平均值从序列层连接到d_p来进行论点关系的分类，得到如下公式：

其中，U_p1和U_p2是第一和第二个论点实体词集合的索引；

步骤S45:在预测是给每个单词对按照方向分配了两个标签，当预测的两个方向标签不一致时，选择具有较高置信度的关系作为输出的最后结果,并训练输出得到论点关系的标签。

进一步的，所述双向树结构的双向是指从上往下和从下往上的方式，不仅向每个节点传递来自叶子节点的信息，还向跟节点传递信息

本发明与现有技术相比具有以下有益效果：

本发明主观性文档中自动得识别论点并抽取论点之间的关系的***，能够结合多任务学习方法、高质量地从论辩性文本中进行论辩挖掘。

附图说明

图1是本发明***的示意配置图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种基于依赖解析树的联合论辩挖掘***，包括：

一数据预处理模块，用于对数据进行预处理；

本实施中，各模块具体功能为：

(1)数据预处理模块

输入的在线论辩性文档中包含了丰富的信息但是同时也夹杂了一定的噪声。因此，首先对数据进行预处理，主要进行以下几个方面的操作：

1.去除文档中的网页链接，特殊字符，标点符号等；

2.对文档进行分词处理；

3.对英文数据进行词干还原处理；

4.根据中英文的停用词表分别过滤掉数据集中包含的停用词。

2)文本嵌入模块

使用卷积神经网络从输入的文本中提取词、字符、词性(Part-of-Speech)、论点之间的依赖关系以及论点类型的表示，深度卷积神经网络(CNN)输入为文本序列x＝[x₁,x₂,...,x_n]，按照文本句子中单词的顺序，每一行都是一个由d维向量表示的单词，CNN输出为序列C＝[c₁,c₂,...,c_n,]，C表示输入每个单词的特征，n表示输入序列的最大长度。我们在x之间使用窄卷积和一个宽度为k的卷积核W∈R^(d×k)，并且将和作为填充向量被填充到序列的头部和尾部，以便保证输入序列的长度在卷积层后不会发生改变。分别输出V^w，V^c，V^p，V^d和V^e，这些参数作为模型的底层共享参数输入后续的文本序列层中进行训练学习。

3)序列层模块

序列编码层输入为文本嵌入层输出的共享特征参数向量，来学习文本的上下文信息并识别论点部件实体，首先使用一个双向LSTM计算获得句子向量，每个LSTM单元在第t个单词由一个n维向量组成，包括：一个输入门(input gate)i_t，一个遗忘门(forget gate)f_t，一个输出门(output gate)o_t，一个记忆单元(memory cell)c_t，以及一个隐藏单元h_t，每个LSTM单元接收一个n维的向量输入，前一个隐藏状态为h_t-1，前一个记忆单元为c_t-1。根据以下公式更新参数：

i_t＝σ(W⁽ⁱ⁾x_t+I⁽ⁱ⁾h_t-1+bⁱ)

f_t＝σ(W^(f)x_t+I^(f)h_t-1+b^f)

o_t＝σ(W^(o)x_t+I^(o)h_t-1+b^o)

u_t＝tanh(W^(u)x_t+I^(u)h_t-1+b^u)

c_t＝i_t⊙u_t+f_t⊙c_t-1

h_t＝o_t⊙tanh(c_t)

其中，σ表示logistic激活函数，⊙表示向量的点积，W和I表示权重矩阵，b表示偏差向量，LSTM单元在第t个单词上的输入为第t个单词的词V_t ^w、字符V_t ^c和词性V_t ^p的联结向量我们同时将两个反向LSTM的隐藏单元和连接为作为输出。

将论辩挖掘的任务一论点边界检测和任务二论点类型的识别都看做序列标注问题，我们先对输入句子的每个单词标记上BIO标签，然后再标记它的论点类型，即每个单词形成“BIO-论点类型”的形式，这样的标记方法既是论辩挖掘任务一和任务二的标签。在序列编码层的顶层完成这两项任务，我们实现了一个由DenseNet和Softmax组成的两层神经网络：

其中，W是权重矩阵，b是偏差向量。

论点实体识别的解码过程中，考虑到标签的依赖性，使用一个单词的预测值来预测下一个单词的值，具体做法为我们将s_t和前一个词的向量e_i-1作为输入，之后经过一层神经网络输入到Softmax层获得论点部件实体的类型标签，得到输出映射为向量e_i。

4)依赖解析层模块

依赖解析层模块输入为序列层神经网络训练输出得到的论点部件实体的类型标签e_i和来自文本嵌入层的依赖关系V^e。

使用双向树结构的LSTM结合递归神经网络的方式实现，这里的双向是指从上往下和从下往上的方式，这种双向结构不仅向每个节点传递来自叶子节点的信息，还向跟节点传递信息，这对于论点关系的分类十分重要，充分利用了树底部附近的节点，自顶向下的结构将信息从顶部发送到叶子节点附近，并且可以兼容不同类型和数量的叶子节点，相同类型的子节点在LSTM单元内共享权重矩阵。按照以下公式在LSTM单元内计算第t个节点的n维向量：

h_t＝o_t⊙tanh(c_t)

使用最短路径结构(SPTree)来表示两个目标词对之间的关系，它用于捕获目标词对之间的依赖路径。我们将依赖解析层堆叠在序列层之上，将文本序列和依赖解析树的信息合并到输出中，依赖解析层第t个单词的LSTM输入为：连接序列层中的隐藏单元s_t和论点关系依赖类型以及论点部件的实体表示

根据序列层识别出来的所有论点实体部件，对每个论点实体部件的最后一个单词排列出所有的情况，然后将其输入依赖解析层，最后通过两层神经网络层输出这个论点实体部件组合的关系类别。当抽取到的两个论点实体部件是错误的或者它们之间没有关系，将它们之间的关系视作负关系，因此将关系的类型和关系的方向来表示论点之间的关系。每个候选的依赖关系可以表示为d_p＝[↑h_pA:↓h_p1:↓h_p2]，其中，↓h_pA表示两个论点实体节点对应的最低父节点的隐含层，↑h_p1和↑h_p2是两个LSTM单元的隐藏状态向量，分别表示自顶向下LSTM-RNN中的第一和第二个目标论点实体部件。

与论点类型的实体识别类似，我们实现了一个两层神经网络，它包含一个n维的隐藏层h^(r)和一个Softmax的输出层：

其中，W为权重矩阵，b为偏差向量。

将树结构的LSTM-RNNs叠加在序列层之上，构造了论点关系分类的输入d_p，此时，序列层对依赖解析层的输入是没有方向的，为了充分利用论点实体的信息和解决输入d_p无向的问题。将每个论点实体部件的隐藏状态向量的平均值从序列层连接到d_p来进行论点关系的分类，得到如下公式：

其中，U_p1和U_p2是第一和第二个论点实体词集合的索引。

将树结构的LSTM-RNNs叠加在序列层之上，构造了论点关系分类的输入d_p，此时，序列层对依赖解析层的输入是没有方向的，为了充分利用论点实体的信息和解决输入d_p无向的问题。将每个论点实体部件的隐藏状态向量的平均值从序列层连接到d_p来进行论点关系的分类。

此外，同时考虑了两个论点部件实体之间从左到右和从右到左的方向，在预测是给每个单词对按照方向分配了两个标签，当预测的两个方向标签不一致时，选择具有较高置信度的关系作为输出的最后结果。最后训练输出得到论点关系的标签。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于依赖解析树的联合论辩挖掘***，其特征在于，包括：

一数据预处理模块，用于对数据进行预处理；

2.根据权利要求1所述的基于依赖解析树的联合论辩挖掘***，其特征在于：所述数据预处理模块对数据进行预处理具体包括：

(1)去除文档中的网页链接，特殊字符，标点符号；

(2)对文档进行分词处理；

(3)对英文数据进行词干还原处理；

3.根据权利要求1所述的基于依赖解析树的联合论辩挖掘***，其特征在于：所述文本嵌入模块采用深度卷积神经网络。

4.根据权利要求1-3任一所述一种基于依赖解析树的联合论辩挖掘***的解析方法，其特征在于，包括以下步骤：

5.根据权利要求4所述的一种基于依赖解析树的联合论辩挖掘***的解析方法，其特征在于：所述步骤S2具体为：

6.根据权利要求4所述的一种基于依赖解析树的联合论辩挖掘***的解析方法，其特征在于：所述步骤S3具体为：

根据以下公式更新参数：

i_t＝σ(W⁽ⁱ⁾x_t+I⁽ⁱ⁾h_t-1+bⁱ)

f_t＝σ(W^(f)x_t+I^(f)h_t-1+b^f)

o_t＝σ(W^(o)x_t+I^(o)h_t-1+b^o)

u_t＝tanh(W^(u)x_t+I^(u)h_t-1+b^u)

c_t＝i_t⊙u_t+f_t⊙c_t-1

h_t＝o_t⊙tanh(c_t)

步骤S33:构建一个由DenseNet和Softmax组成的两层神经网络：

其中，W是权重矩阵，b是偏差向量；

7.根据权利要求6所述的一种基于依赖解析树的联合论辩挖掘***的解析方法，其特征在于：所述步骤S4具体为：

h_t＝o_t⊙tanh(c_t)

其中，m(.)为映射函数，C(t)是第t个节点的子节点，i是共享参数；

其中，W为权重矩阵，b为偏差向量；

其中，U_p1和U_p2是第一和第二个论点实体词集合的索引；

8.根据权利要求7所述的一种基于依赖解析树的联合论辩挖掘***的解析方法，其特征在于：所述双向树结构的双向是指从上往下和从下往上的方式，不仅向每个节点传递来自叶子节点的信息，还向跟节点传递信息。