CN110941700B

CN110941700B - 一种基于多任务联合学习的论辩挖掘***及其工作方法

Info

Publication number: CN110941700B
Application number: CN201911161645.2A
Authority: CN
Inventors: 廖祥文; 倪继昌; 叶锴; 张铭洲; 苏锦河
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2022-08-09
Anticipated expiration: 2039-11-22
Also published as: CN110941700A

Abstract

本发明涉及一种基于多任务联合学习的论辩挖掘***及其工作方法，包括数据预处理模块，进行数据预处理；文本嵌入模块，由CNN网络从词级别和字符级别提取特征表示，并联合任务特定特征作为下一模块的向量输入；联合学习模块，采用多任务学习中参数的硬共享机制，多个任务共享了一个模型的隐层，并行的进行模型的训练学习，此外使用栈式双向长短时记忆神经网络（LSTM）学习文本的上下文信息，用来完成序列标注任务；论辩挖掘标签预测输出模块，用于完成论辩挖掘论点类型预测工作，输出文本中论点的类型。本发明能够从论辩文本数据中学习高质量的文本特征，最终检测出文本所包含的论点的类型。

Description

一种基于多任务联合学习的论辩挖掘***及其工作方法

技术领域

本发明涉及自然语言处理领域特别是一种基于多任务联合学习的论辩挖掘***及其工作方法。

背景技术

目前，有许多方法可以应用在论辩挖掘任务中。在早期的工作，绝大多数研究都仅从论辩挖掘的单个子任务出发，针对单个子任务进行建模解决任务，而忽略了三个子任务间的关联信息，导致***性能较低。

此外，有部分工作采用流水线模型对三个子任务进行联合建模以加入三个子任务的联系。流水线方法由于论点类型识别的错误会影响到论点关系的抽取错误，存在错误传播的问题。另外，这种方法将识别出来的论点进行两两配对，之后进行论点关系分类，产生了论点关系对的冗余信息。

为此，有工作采用Bi-LSTM-CRF的标注模型，将三个子任务拼接成一个整体，训练神经网络预测标签的总体分布。但这种方法未能充分考虑到论辩挖掘语料库标签样本的多样性，只能解决一些数据量充足且标签完备的数据集，无法解决数据稀疏性问题，导致了模型的泛化性能较差，难以应用到新的数据集上。面临上述问题，人们希望能够找到一种更加细致的以及能够充分考虑不同数据集标签不一致问题的方法，进而解决数据稀疏性难题，提高论辩挖掘模型的泛化能力。

发明内容

有鉴于此，本发明的目的是提供一种基于多任务联合学习的论辩挖掘***及其工作方法，能够从现有论辩文本数据中学习高质量的文本向量特点，提高泛化能力，应用于预测的新数据集中，最终检测出文本的论辩结构。

本发明采用以下方案实现：包括数据预处理模块、文本嵌入模块、联合学习模块和论辩挖掘标签输出模块；所述数据预处理模块用以对数据进行预处理；所述文本嵌入模块用以分别在词级别和字符级别提取包括输入的文本中的语义、词性以及论点类型的表示，并以向量表示这些特征，作为联合学习模块的向量输入；所述联合学习模块用以采用多任务学习中参数的硬共享机制，将不同论辩挖掘数据集都视为不同的任务，多个任务共享了一个联合学习模块的隐层，并行的进行训练学习，并且使用栈式双向长短时记忆神经网络学习文本的上下文信息，用以完成序列标注任务；所述论辩挖掘标签输出模块用以完成论辩挖掘论点类型预测工作，输出文本中论点的类型。

进一步地，本发明提供一种基于多任务联合学习的论辩挖掘***的工作方法，包括以下步骤：

步骤S1：将待挖掘论辩结构即论点类型的论辩文档输入至数据预处理模块进行预处理，得到的预处理后的文本,并输入所述文本嵌入模块；

步骤S2：所述文本嵌入模块采用词级别的CNN和字符级别的CNNs-Highwway分别对预处理后的文本提取词级别和字符级别的特征，这些特征包括词的数字字符占比信息和字符大小写信息，并以向量表示，输入联合学习模块；

步骤S3：所述联合学习模块根据文本嵌入模块输出的文本数据，采用多任务硬参数共享机制，将每一个不同的数据集视为不同的论辩挖掘任务，使用双向长短时记忆神经网络学习隐层表示，并行进行训练参数，学习文本数据的上下文信息，用以完成论点边界检测和后续的论点部件类型预测；

步骤S4：所述论辩挖掘标签输出模块将得到的论点的类型标签输出。

进一步地，所述数据预处理模块对数据进行预处理包括以下步骤：

步骤SA：去除文档中的网页链接，特殊字符，标点符号；

步骤SB：对文档进行分词处理；

步骤SC：对英文数据进行词干还原处理；

步骤SD：根据中英文的停用词表分别过滤掉数据集中包含的停用词。

进一步地，所述步骤S2具体包括以下步骤：

步骤S21：令CNN的输入为一段预处理后长度为n的文本为x＝[x₁,x₂,x₃,...x_n]，按照词向量的定义，每个单词表示为d维的向量；

步骤S22：在序列x上调用一个窄卷积和一个窗口大小为k的卷积核，以

和

作为填充向量，使得序列保持固定长度；

步骤S23：根据：

计算文本x经过CNN提取特征后的序列C＝[c₁,c₂,c₃,...c_n]；其中f表示非线性激活函数，x_i:j表示第i到j个单词,b表示偏差；

步骤S23：通过采用四种不同长度的k＝1,2,3,4的卷积核窗口获取论辩挖掘文本中的局部上下文特征表示；

步骤S24：令单词K∈V由字符序列[c₁,...,c_l]组成，其中l表示单词K的长度；单词K的字符级表示由矩阵C^K∈R^d×l给出，其中第j列表示字符向量c^j；这样即在C^k之间调用一个窄卷积和一个宽度为w的滤波器H＝R^d×w；

步骤S25：接着添加一个偏移变量bias并应用非线性函数得到特征映射f^k∈R^l-w+1；对于特定的第i个特征映射，有：f^k[i]＝tanh(〈C^k[*,i:i+w+1],H>+b)，其中C^k[*,i:i+w+1]为第i列到第(i+w+1)列的C^k，符号〈A,B>＝Tr(AB^T)表示Frobenius内积；

步骤S26：引入最大化函数：

以此作为滤波器H所对应的特征应用于单词。

步骤S27：将CNN提取的结果输入到高速神经网络层中，通过高速神经网络的转换门来过滤有价值的特征，并将得到的结果输入联合学习模块；

其中，g表示非线性函数，t＝σ(W_Ty+b_T)称为转换门，(1-t)称为进位门。

进一步地，所述步骤S3具体包括以下步骤：

步骤S31:联合学习模块输入为文本嵌入模块输出的共享特征参数向量，包括词V^w、字符V^c、词性V^p，用于学习文本的上下文信息并识别论点部件实体；

步骤S32:构建双向栈式LSTM，计算获得句子向量，每个LSTM单元在第t个单词由一个n维向量组成，包括：一个输入门i_t，一个遗忘门f_t，一个输出门o_t，一个记忆单元c_t，以及一个隐藏单元h_t，每个LSTM单元接收一个n维的向量输入，前一个隐藏状态为h_t-1，前一个记忆单元为c_t-1；

根据以下公式更新参数：

i_t＝σ(W⁽ⁱ⁾x_t+I⁽ⁱ⁾h_t-1+bⁱ)

f_t＝σ(W^(f)x_t+I^(f)h_t-1+b^f)

o_t＝σ(W^(o)x_t+I^(o)h_t-1+b^o)

u_t＝tanh(W^(u)x_t+I^(u)h_t-1+b^u)

c_t＝i_t⊙u_t+f_t⊙c_t-1

h_t＝o_t⊙tanh(c_t)

其中，σ表示logistic激活函数，⊙表示向量的点积，W和I表示权重矩阵，b表示偏差向量，LSTM单元在第t个单词上的输入为第t个单词的词V_t ^w、字符V_t ^c和词性V^e的联结向量

将两个反向LSTM的隐藏单元

和

连接为

作为输出；

步骤S33:对输入句子的每个单词标记上BIO标签，然后再标记它的论点类型,形成BIO-论点类型的形式；

步骤S34:构建一个由DenseNet和Softmax组成的两层神经网络：

其中，W是权重矩阵，b是偏差向量；

步骤S35:将s_t和前一个词的向量e_i-1作为输入，之后经过一层神经网络输入到Softmax层获得论点部件实体的类型标签，得到输出映射为向量e_i。

进一步地，所述步骤S4具体包括以下步骤：

步骤S41：采用条件随机场(CRF)直接将输出层面的关联分离出来，学习上下文的相关信息；

步骤S42：在训练过程中，给出了损失函数如下：loss(y,x)＝-E(y,x)+log(z)

其中，y表示真实的标签序列，x为输入序列，z为归一化常量，E(y,x)指输入x与标签y的路径能量，表示为

h(y_i；x)表示标签的打分函数，g(y_k,y_k+1)为一个待训练的参数矩阵；

步骤S43：根据步骤S42的得分输出预测的数据集标签结果。

与现有技术相比，本发明具有以下有益效果：

本发明能够结合多任务学习方法、高质量地从论辩性文本中进行论辩挖掘。

附图说明

图1为本发明实施例的***的示意配置图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供一种基于多任务联合学习的论辩挖掘***，包括数据预处理模块、文本嵌入模块、联合学习模块和论辩挖掘标签输出模块；所述数据预处理模块用以对数据进行预处理；所述文本嵌入模块用以分别在词级别和字符级别提取包括输入的文本中的语义、词性以及论点类型的表示，并以向量表示这些特征，作为联合学习模块的向量输入；所述联合学习模块用以采用多任务学习中参数的硬共享机制，将不同论辩挖掘数据集都视为不同的任务，多个任务共享了一个联合学习模块的隐层，并行的进行训练学习，并且使用栈式双向长短时记忆神经网络学习文本的上下文信息，用以完成序列标注任务；所述论辩挖掘标签输出模块用以完成论辩挖掘论点类型预测工作，输出文本中论点的类型。

较佳的，本实施例提供一种基于多任务联合学习的论辩挖掘***的工作方法，包括以下步骤：

步骤S3：所述联合学习模块根据文本嵌入模块输出的文本数据，采用多任务硬参数共享机制，将每一个不同的数据集视为不同的论辩挖掘任务，使用双向长短时记忆神经网络学习隐层表示，并行进行训练参数；此外，在该模块使用双向长短时记忆神经网络学习文本数据的上下文信息，加入双向长短时记忆神经网络中用以完成论点边界检测和后续的论点部件类型预测；

较佳的，在本实施例中，所述文本嵌入模块主要包含了词级别的CNN和字符级别的CNNs-Highwway两个部分。

在本实施例中，输入的在线论辩性文档中包含了丰富的信息但是同时也夹杂了一定的噪声。因此，首先对数据进行预处理，所述数据预处理模块对数据进行预处理包括以下步骤：

步骤SA：去除文档中的网页链接，特殊字符，标点符号；

步骤SB：对文档进行分词处理；

步骤SC：对英文数据进行词干还原处理；

在本实施例中，文本嵌入模块使用神经网络分别在词级别和字符级别提取输入的文本中语义、词性以及论点类型的表示等，具体分为两个部分，如下：

基于CNN的词级别表示：

和

作为填充向量，使得序列保持固定长度；

步骤S23：根据：

基于CNNs-Highway的字符级表示：

本实施例拓展应用了用以解决序列PTB的CNN模型。使用了多个不同宽度的滤波器来获取单词k的特征。对于给定的单词k我们将它的字符堆叠形成矩阵C_k，对C_k用多个滤波器卷积操作，接着进行最大池化为单词k获得一个固定的维度的表示作为高速神经网络的输入。

步骤S24：假设C为字符集合，d表示字符向量的维度，Q∈R^d×|C|表示字符向量矩阵。令单词K∈V由字符序列[c₁,...,c_l]组成，其中l表示单词K的长度；单词K的字符级表示由矩阵C^K∈R^d×l给出，其中第j列表示字符向量c^j；这样即在C^k之间调用一个窄卷积和一个宽度为w的滤波器H＝R^d×w；

步骤S25：接着添加一个偏移变量bias并应用非线性函数得到特征映射f^k∈R^l-w+1；对于特定的第i个特征映射，有：f^k[i]＝tanh(<C^k[*,i:i+w+1],H>+b)，其中C^k[*,i:i+w+1]为第i列到第(i+w+1)列的C^k，符号<A,B>＝Tr(AB^T)表示Frobenius内积；

步骤S26：引入最大化函数：

以此作为滤波器H所对应的特征应用于单词。

在本实施例中，联合学习模块采用多任务学习中参数的硬共享机制，将不同论辩挖掘数据集都视为不同的任务，当模型训练时，不是单独地为每个任务训练模型，而是多个任务共享了一个模型的隐层，这样做的目的在于能够有效降低过拟合的风险。此外，使用栈式双向长短时记忆神经网络学习文本的上下文信息加入模型中，用来完成序列标注任务。

所述步骤S3具体包括以下步骤：

步骤S32:栈式LSTM神经网络的输入为文本嵌入层输出的共享特征参数向量，来学习文本的上下文信息并识别论点部件实体，构建双向栈式LSTM，计算获得句子向量，每个LSTM单元在第t个单词由一个n维向量组成，包括：一个输入门(i nput gate)i_t，一个遗忘门(forget gate)f_t，一个输出门(output gate)o_t，一个记忆单元(memory ce l l)c_t，以及一个隐藏单元h_t，每个LSTM单元接收一个n维的向量输入，前一个隐藏状态为h_t-1，前一个记忆单元为c_t-1；

根据以下公式更新参数：

i_t＝σ(W⁽ⁱ⁾x_t+I⁽ⁱ⁾h_t-1+bⁱ)

f_t＝σ(W^(f)x_t+I^(f)h_t-1+b^f)

o_t＝σ(W^(o)x_t+I^(o)h_t-1+b^o)

u_t＝tanh(W^(u)x_t+I^(u)h_t-1+b^u)

c_t＝i_t⊙u_t+f_t⊙c_t-1

h_t＝o_t⊙tanh(c_t)

将两个反向LSTM的隐藏单元

和

连接为

作为输出；

步骤S34:将论辩挖掘的任务一论点边界检测和任务二论点类型的识别都看做序列标注问题，先对输入句子的每个单词标记上BIO标签，然后再标记它的论点类型，即每个单词形成“BIO-论点类型”的形式，这样的标记方法即是论辩挖掘任务一和任务二的标签。在序列编码层的顶层完成这两项任务，构建一个由DenseNet和Softmax组成的两层神经网络：

其中，W是权重矩阵，b是偏差向量；

栈式LSTM(StackedLSTM)能够学习更高时域的特征表示，通过融合当前的LSTM的隐层状态和上一层LSTM的隐层状态，可以充分学习文本中的上下文信息，获取更深层次的特征。在训练过程中，栈式LSTM通过前向或后向的传播，使用隐层状态和捕获论辩挖掘文本中“过去”和“将来”的信息，最后将两种状态结合为网络的输出。

在本实施例中，作为本***的最终预测标签输出模块，本实施例采用了条件随机场(CRF)，相较于普通的softmax解析分类，条件随机场(CRF)可以直接将输出层面的关联分离出来，更容易学习到上下文的相关信息，效果也更加的优秀。

所述步骤S4具体包括以下步骤：

步骤S43：根据步骤S42的得分输出预测的数据集标签结果。以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于多任务联合学习的论辩挖掘***，其特征在于：包括数据预处理模块、文本嵌入模块、联合学习模块和论辩挖掘标签输出模块；所述数据预处理模块用以对数据进行预处理；所述文本嵌入模块用以分别在词级别和字符级别提取包括输入的文本中的语义、词性以及论点类型的表示，并以向量表示这些特征，作为联合学习模块的向量输入；所述联合学习模块用以采用多任务学习中参数的硬共享机制，将不同论辩挖掘数据集都视为不同的任务，多个任务共享了一个联合学习模块的隐层，并行的进行训练学习，并且使用栈式双向长短时记忆神经网络学习文本的上下文信息，用以完成序列标注任务；所述论辩挖掘标签输出模块用以完成论辩挖掘论点类型预测工作，输出文本中论点的类型；

所述联合学习模块具体包括联合学习模块输入为文本嵌入模块输出的共享特征参数向量，包括词V^w、字符V^c、词性V^p，用于学习文本的上下文信息并识别论点部件实体；

构建双向栈式LSTM，计算获得句子向量，每个LSTM单元在第t个单词由一个n维向量组成，包括：一个输入门i_t，一个遗忘门f_t，一个输出门o_t，一个记忆单元c_t，以及一个隐藏单元h_t，每个LSTM单元接收一个n维的向量输入，前一个隐藏状态为h_t-1，前一个记忆单元为c_t-1；

根据以下公式更新参数：

i_t＝σ(W⁽ⁱ⁾x_t+I⁽ⁱ⁾h_t-1+bⁱ)

f_t＝σ(W^(f)x_t+I^(f)h_t-1+b^f)

o_t＝σ(W^(o)x_t+I^(o)h_t-1+b^o)

u_t＝tanh(W^(u)x_t+I^(u)h_t-1+b^u)

c_t＝i_t⊙u_t+f_t⊙c_t-1

h_t＝o_t⊙tanh(c_t)

将两个反向LSTM的隐藏单元

和

连接为

作为输出；

对输入句子的每个单词标记上BIO标签，然后再标记它的论点类型,形成BIO-论点类型的形式；

构建一个由DenseNet和Softmax组成的两层神经网络：

其中，W是权重矩阵，b是偏差向量；

将s_t和前一个词的向量e_i-1作为输入，之后经过一层神经网络输入到Softmax层获得论点部件实体的类型标签，得到输出映射为向量e_i；

所述文本嵌入模块包括：

令CNN的输入为一段预处理后长度为n的文本为x＝[x₁,x₂,x₃,...x_n]，按照词向量的定义，每个单词表示为d维的向量；

在序列x上调用一个窄卷积和一个窗口大小为k的卷积核，以

和

作为填充向量，使得序列保持固定长度；

根据：

通过采用四种不同长度的k＝1,2,3,4的卷积核窗口获取论辩挖掘文本中的局部上下文特征表示；

令单词K∈V由字符序列[c₁,...,c_l]组成，其中l表示单词K的长度；单词K的字符级表示由矩阵C^K∈R^d×l给出，其中第j列表示字符向量c^j；这样即在C^k之间调用一个窄卷积和一个宽度为w的滤波器H＝R^d×w；

接着添加一个偏移变量bias并应用非线性函数得到特征映射f^k∈R^l-w+1；对于特定的第i个特征映射，有：f^k[i]＝tanh(<C^k[*,i:i+w+1],H>+b)，其中C^k[*,i:i+w+1]为第i列到第(i+w+1)列的C^k，符号<A,B>＝Tr(AB^T)表示Frobenius内积；

引入最大化函数：

以此作为滤波器H所对应的特征应用于单词；

将CNN提取的结果输入到高速神经网络层中，通过高速神经网络的转换门来过滤有价值的特征，并将得到的结果输入联合学习模块；

其中，g表示非线性函数，t＝σ(W_Ty+b_T)称为转换门，(1-t)称为进位门；

所述论辩挖掘标签输出模块包括：

采用条件随机场直接将输出层面的关联分离出来，学习上下文的相关信息；

在训练过程中，给出了损失函数如下：loss(y,x)＝-E(y,x)+log(z)

根据得分输出预测的数据集标签结果。

2.一种根据权利要求1所述的基于多任务联合学习的论辩挖掘***的工作方法，其特征在于：包括以下步骤：

步骤S2：所述文本嵌入模块采用词级别的CNN和字符级别的CNNs-Highway分别对预处理后的文本提取词级别和字符级别的特征，这些特征包括词的数字字符占比信息和字符大小写信息，并以向量表示，输入联合学习模块；

步骤S3：所述联合学习模块根据文本嵌入模块输出的文本数据，采用多任务硬参数共享机制，将每一个不同的数据集视为不同的论辩挖掘任务，使用双向长短时记忆神经网络学习隐层表示，并行进行训练参数并学习文本数据的上下文信息，用以完成论点边界检测和后续的论点部件类型预测；

3.根据权利要求2所述的一种基于多任务联合学习的论辩挖掘***的工作方法，其特征在于：所述数据预处理模块对数据进行预处理包括以下步骤：

步骤SA：去除文档中的网页链接，特殊字符，标点符号；

步骤SB：对文档进行分词处理；

步骤SC：对英文数据进行词干还原处理；