CN110941700B - 一种基于多任务联合学习的论辩挖掘***及其工作方法 - Google Patents

一种基于多任务联合学习的论辩挖掘***及其工作方法 Download PDF

Info

Publication number
CN110941700B
CN110941700B CN201911161645.2A CN201911161645A CN110941700B CN 110941700 B CN110941700 B CN 110941700B CN 201911161645 A CN201911161645 A CN 201911161645A CN 110941700 B CN110941700 B CN 110941700B
Authority
CN
China
Prior art keywords
text
word
module
argument
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911161645.2A
Other languages
English (en)
Other versions
CN110941700A (zh
Inventor
廖祥文
倪继昌
叶锴
张铭洲
苏锦河
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201911161645.2A priority Critical patent/CN110941700B/zh
Publication of CN110941700A publication Critical patent/CN110941700A/zh
Application granted granted Critical
Publication of CN110941700B publication Critical patent/CN110941700B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于多任务联合学习的论辩挖掘***及其工作方法,包括数据预处理模块,进行数据预处理;文本嵌入模块,由CNN网络从词级别和字符级别提取特征表示,并联合任务特定特征作为下一模块的向量输入;联合学习模块,采用多任务学习中参数的硬共享机制,多个任务共享了一个模型的隐层,并行的进行模型的训练学习,此外使用栈式双向长短时记忆神经网络(LSTM)学习文本的上下文信息,用来完成序列标注任务;论辩挖掘标签预测输出模块,用于完成论辩挖掘论点类型预测工作,输出文本中论点的类型。本发明能够从论辩文本数据中学习高质量的文本特征,最终检测出文本所包含的论点的类型。

Description

一种基于多任务联合学习的论辩挖掘***及其工作方法
技术领域
本发明涉及自然语言处理领域特别是一种基于多任务联合学习的论辩挖掘***及其工作方法。
背景技术
目前,有许多方法可以应用在论辩挖掘任务中。在早期的工作,绝大多数研究都仅从论辩挖掘的单个子任务出发,针对单个子任务进行建模解决任务,而忽略了三个子任务间的关联信息,导致***性能较低。
此外,有部分工作采用流水线模型对三个子任务进行联合建模以加入三个子任务的联系。流水线方法由于论点类型识别的错误会影响到论点关系的抽取错误,存在错误传播的问题。另外,这种方法将识别出来的论点进行两两配对,之后进行论点关系分类,产生了论点关系对的冗余信息。
为此,有工作采用Bi-LSTM-CRF的标注模型,将三个子任务拼接成一个整体,训练神经网络预测标签的总体分布。但这种方法未能充分考虑到论辩挖掘语料库标签样本的多样性,只能解决一些数据量充足且标签完备的数据集,无法解决数据稀疏性问题,导致了模型的泛化性能较差,难以应用到新的数据集上。面临上述问题,人们希望能够找到一种更加细致的以及能够充分考虑不同数据集标签不一致问题的方法,进而解决数据稀疏性难题,提高论辩挖掘模型的泛化能力。
发明内容
有鉴于此,本发明的目的是提供一种基于多任务联合学习的论辩挖掘***及其工作方法,能够从现有论辩文本数据中学习高质量的文本向量特点,提高泛化能力,应用于预测的新数据集中,最终检测出文本的论辩结构。
本发明采用以下方案实现:包括数据预处理模块、文本嵌入模块、联合学习模块和论辩挖掘标签输出模块;所述数据预处理模块用以对数据进行预处理;所述文本嵌入模块用以分别在词级别和字符级别提取包括输入的文本中的语义、词性以及论点类型的表示,并以向量表示这些特征,作为联合学习模块的向量输入;所述联合学习模块用以采用多任务学习中参数的硬共享机制,将不同论辩挖掘数据集都视为不同的任务,多个任务共享了一个联合学习模块的隐层,并行的进行训练学习,并且使用栈式双向长短时记忆神经网络学习文本的上下文信息,用以完成序列标注任务;所述论辩挖掘标签输出模块用以完成论辩挖掘论点类型预测工作,输出文本中论点的类型。
进一步地,本发明提供一种基于多任务联合学习的论辩挖掘***的工作方法,包括以下步骤:
步骤S1:将待挖掘论辩结构即论点类型的论辩文档输入至数据预处理模块进行预处理,得到的预处理后的文本,并输入所述文本嵌入模块;
步骤S2:所述文本嵌入模块采用词级别的CNN和字符级别的CNNs-Highwway分别对预处理后的文本提取词级别和字符级别的特征,这些特征包括词的数字字符占比信息和字符大小写信息,并以向量表示,输入联合学习模块;
步骤S3:所述联合学习模块根据文本嵌入模块输出的文本数据,采用多任务硬参数共享机制,将每一个不同的数据集视为不同的论辩挖掘任务,使用双向长短时记忆神经网络学习隐层表示,并行进行训练参数,学习文本数据的上下文信息,用以完成论点边界检测和后续的论点部件类型预测;
步骤S4:所述论辩挖掘标签输出模块将得到的论点的类型标签输出。
进一步地,所述数据预处理模块对数据进行预处理包括以下步骤:
步骤SA:去除文档中的网页链接,特殊字符,标点符号;
步骤SB:对文档进行分词处理;
步骤SC:对英文数据进行词干还原处理;
步骤SD:根据中英文的停用词表分别过滤掉数据集中包含的停用词。
进一步地,所述步骤S2具体包括以下步骤:
步骤S21:令CNN的输入为一段预处理后长度为n的文本为x=[x1,x2,x3,...xn],按照词向量的定义,每个单词表示为d维的向量;
步骤S22:在序列x上调用一个窄卷积和一个窗口大小为k的卷积核,以
Figure BDA0002285495810000031
Figure BDA0002285495810000032
作为填充向量,使得序列保持固定长度;
步骤S23:根据:
Figure BDA0002285495810000041
计算文本x经过CNN提取特征后的序列C=[c1,c2,c3,...cn];其中f表示非线性激活函数,xi:j表示第i到j个单词,b表示偏差;
步骤S23:通过采用四种不同长度的k=1,2,3,4的卷积核窗口获取论辩挖掘文本中的局部上下文特征表示;
步骤S24:令单词K∈V由字符序列[c1,...,cl]组成,其中l表示单词K的长度;单词K的字符级表示由矩阵CK∈Rd×l给出,其中第j列表示字符向量cj;这样即在Ck之间调用一个窄卷积和一个宽度为w的滤波器H=Rd×w
步骤S25:接着添加一个偏移变量bias并应用非线性函数得到特征映射fk∈Rl-w+1;对于特定的第i个特征映射,有:fk[i]=tanh(〈Ck[*,i:i+w+1],H>+b),其中Ck[*,i:i+w+1]为第i列到第(i+w+1)列的Ck,符号〈A,B>=Tr(ABT)表示Frobenius内积;
步骤S26:引入最大化函数:
Figure BDA0002285495810000042
以此作为滤波器H所对应的特征应用于单词。
步骤S27:将CNN提取的结果输入到高速神经网络层中,通过高速神经网络的转换门来过滤有价值的特征,并将得到的结果输入联合学习模块;
Figure BDA0002285495810000043
其中,g表示非线性函数,t=σ(WTy+bT)称为转换门,(1-t)称为进位门。
进一步地,所述步骤S3具体包括以下步骤:
步骤S31:联合学习模块输入为文本嵌入模块输出的共享特征参数向量,包括词Vw、字符Vc、词性Vp,用于学习文本的上下文信息并识别论点部件实体;
步骤S32:构建双向栈式LSTM,计算获得句子向量,每个LSTM单元在第t个单词由一个n维向量组成,包括:一个输入门it,一个遗忘门ft,一个输出门ot,一个记忆单元ct,以及一个隐藏单元ht,每个LSTM单元接收一个n维的向量输入,前一个隐藏状态为ht-1,前一个记忆单元为ct-1
根据以下公式更新参数:
it=σ(W(i)xt+I(i)ht-1+bi)
ft=σ(W(f)xt+I(f)ht-1+bf)
ot=σ(W(o)xt+I(o)ht-1+bo)
ut=tanh(W(u)xt+I(u)ht-1+bu)
ct=it⊙ut+ft⊙ct-1
ht=ot⊙tanh(ct)
其中,σ表示logistic激活函数,⊙表示向量的点积,W和I表示权重矩阵,b表示偏差向量,LSTM单元在第t个单词上的输入为第t个单词的词Vt w、字符Vt c和词性Ve的联结向量
Figure BDA0002285495810000051
将两个反向LSTM的隐藏单元
Figure BDA0002285495810000052
Figure BDA0002285495810000053
连接为
Figure BDA0002285495810000054
作为输出;
步骤S33:对输入句子的每个单词标记上BIO标签,然后再标记它的论点类型,形成BIO-论点类型的形式;
步骤S34:构建一个由DenseNet和Softmax组成的两层神经网络:
Figure BDA0002285495810000061
Figure BDA0002285495810000062
其中,W是权重矩阵,b是偏差向量;
步骤S35:将st和前一个词的向量ei-1作为输入,之后经过一层神经网络输入到Softmax层获得论点部件实体的类型标签,得到输出映射为向量ei
进一步地,所述步骤S4具体包括以下步骤:
步骤S41:采用条件随机场(CRF)直接将输出层面的关联分离出来,学习上下文的相关信息;
步骤S42:在训练过程中,给出了损失函数如下:loss(y,x)=-E(y,x)+log(z)
其中,y表示真实的标签序列,x为输入序列,z为归一化常量,E(y,x)指输入x与标签y的路径能量,表示为
Figure BDA0002285495810000063
h(yi;x)表示标签的打分函数,g(yk,yk+1)为一个待训练的参数矩阵;
步骤S43:根据步骤S42的得分输出预测的数据集标签结果。
与现有技术相比,本发明具有以下有益效果:
本发明能够结合多任务学习方法、高质量地从论辩性文本中进行论辩挖掘。
附图说明
图1为本发明实施例的***的示意配置图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供一种基于多任务联合学习的论辩挖掘***,包括数据预处理模块、文本嵌入模块、联合学习模块和论辩挖掘标签输出模块;所述数据预处理模块用以对数据进行预处理;所述文本嵌入模块用以分别在词级别和字符级别提取包括输入的文本中的语义、词性以及论点类型的表示,并以向量表示这些特征,作为联合学习模块的向量输入;所述联合学习模块用以采用多任务学习中参数的硬共享机制,将不同论辩挖掘数据集都视为不同的任务,多个任务共享了一个联合学习模块的隐层,并行的进行训练学习,并且使用栈式双向长短时记忆神经网络学习文本的上下文信息,用以完成序列标注任务;所述论辩挖掘标签输出模块用以完成论辩挖掘论点类型预测工作,输出文本中论点的类型。
较佳的,本实施例提供一种基于多任务联合学习的论辩挖掘***的工作方法,包括以下步骤:
步骤S1:将待挖掘论辩结构即论点类型的论辩文档输入至数据预处理模块进行预处理,得到的预处理后的文本,并输入所述文本嵌入模块;
步骤S2:所述文本嵌入模块采用词级别的CNN和字符级别的CNNs-Highwway分别对预处理后的文本提取词级别和字符级别的特征,这些特征包括词的数字字符占比信息和字符大小写信息,并以向量表示,输入联合学习模块;
步骤S3:所述联合学习模块根据文本嵌入模块输出的文本数据,采用多任务硬参数共享机制,将每一个不同的数据集视为不同的论辩挖掘任务,使用双向长短时记忆神经网络学习隐层表示,并行进行训练参数;此外,在该模块使用双向长短时记忆神经网络学习文本数据的上下文信息,加入双向长短时记忆神经网络中用以完成论点边界检测和后续的论点部件类型预测;
步骤S4:所述论辩挖掘标签输出模块将得到的论点的类型标签输出。
较佳的,在本实施例中,所述文本嵌入模块主要包含了词级别的CNN和字符级别的CNNs-Highwway两个部分。
在本实施例中,输入的在线论辩性文档中包含了丰富的信息但是同时也夹杂了一定的噪声。因此,首先对数据进行预处理,所述数据预处理模块对数据进行预处理包括以下步骤:
步骤SA:去除文档中的网页链接,特殊字符,标点符号;
步骤SB:对文档进行分词处理;
步骤SC:对英文数据进行词干还原处理;
步骤SD:根据中英文的停用词表分别过滤掉数据集中包含的停用词。
在本实施例中,文本嵌入模块使用神经网络分别在词级别和字符级别提取输入的文本中语义、词性以及论点类型的表示等,具体分为两个部分,如下:
基于CNN的词级别表示:
步骤S21:令CNN的输入为一段预处理后长度为n的文本为x=[x1,x2,x3,...xn],按照词向量的定义,每个单词表示为d维的向量;
步骤S22:在序列x上调用一个窄卷积和一个窗口大小为k的卷积核,以
Figure BDA0002285495810000091
Figure BDA0002285495810000092
作为填充向量,使得序列保持固定长度;
步骤S23:根据:
Figure BDA0002285495810000093
计算文本x经过CNN提取特征后的序列C=[c1,c2,c3,...cn];其中f表示非线性激活函数,xi:j表示第i到j个单词,b表示偏差;
步骤S23:通过采用四种不同长度的k=1,2,3,4的卷积核窗口获取论辩挖掘文本中的局部上下文特征表示;
基于CNNs-Highway的字符级表示:
本实施例拓展应用了用以解决序列PTB的CNN模型。使用了多个不同宽度的滤波器来获取单词k的特征。对于给定的单词k我们将它的字符堆叠形成矩阵Ck,对Ck用多个滤波器卷积操作,接着进行最大池化为单词k获得一个固定的维度的表示作为高速神经网络的输入。
步骤S24:假设C为字符集合,d表示字符向量的维度,Q∈Rd×|C|表示字符向量矩阵。令单词K∈V由字符序列[c1,...,cl]组成,其中l表示单词K的长度;单词K的字符级表示由矩阵CK∈Rd×l给出,其中第j列表示字符向量cj;这样即在Ck之间调用一个窄卷积和一个宽度为w的滤波器H=Rd×w
步骤S25:接着添加一个偏移变量bias并应用非线性函数得到特征映射fk∈Rl-w+1;对于特定的第i个特征映射,有:fk[i]=tanh(<Ck[*,i:i+w+1],H>+b),其中Ck[*,i:i+w+1]为第i列到第(i+w+1)列的Ck,符号<A,B>=Tr(ABT)表示Frobenius内积;
步骤S26:引入最大化函数:
Figure BDA0002285495810000101
以此作为滤波器H所对应的特征应用于单词。
步骤S27:将CNN提取的结果输入到高速神经网络层中,通过高速神经网络的转换门来过滤有价值的特征,并将得到的结果输入联合学习模块;
Figure BDA0002285495810000102
其中,g表示非线性函数,t=σ(WTy+bT)称为转换门,(1-t)称为进位门。
在本实施例中,联合学习模块采用多任务学习中参数的硬共享机制,将不同论辩挖掘数据集都视为不同的任务,当模型训练时,不是单独地为每个任务训练模型,而是多个任务共享了一个模型的隐层,这样做的目的在于能够有效降低过拟合的风险。此外,使用栈式双向长短时记忆神经网络学习文本的上下文信息加入模型中,用来完成序列标注任务。
所述步骤S3具体包括以下步骤:
步骤S31:联合学习模块输入为文本嵌入模块输出的共享特征参数向量,包括词Vw、字符Vc、词性Vp,用于学习文本的上下文信息并识别论点部件实体;
步骤S32:栈式LSTM神经网络的输入为文本嵌入层输出的共享特征参数向量,来学习文本的上下文信息并识别论点部件实体,构建双向栈式LSTM,计算获得句子向量,每个LSTM单元在第t个单词由一个n维向量组成,包括:一个输入门(i nput gate)it,一个遗忘门(forget gate)ft,一个输出门(output gate)ot,一个记忆单元(memory ce l l)ct,以及一个隐藏单元ht,每个LSTM单元接收一个n维的向量输入,前一个隐藏状态为ht-1,前一个记忆单元为ct-1
根据以下公式更新参数:
it=σ(W(i)xt+I(i)ht-1+bi)
ft=σ(W(f)xt+I(f)ht-1+bf)
ot=σ(W(o)xt+I(o)ht-1+bo)
ut=tanh(W(u)xt+I(u)ht-1+bu)
ct=it⊙ut+ft⊙ct-1
ht=ot⊙tanh(ct)
其中,σ表示logistic激活函数,⊙表示向量的点积,W和I表示权重矩阵,b表示偏差向量,LSTM单元在第t个单词上的输入为第t个单词的词Vt w、字符Vt c和词性Ve的联结向量
Figure BDA0002285495810000121
将两个反向LSTM的隐藏单元
Figure BDA0002285495810000122
Figure BDA0002285495810000123
连接为
Figure BDA0002285495810000124
作为输出;
步骤S33:对输入句子的每个单词标记上BIO标签,然后再标记它的论点类型,形成BIO-论点类型的形式;
步骤S34:将论辩挖掘的任务一论点边界检测和任务二论点类型的识别都看做序列标注问题,先对输入句子的每个单词标记上BIO标签,然后再标记它的论点类型,即每个单词形成“BIO-论点类型”的形式,这样的标记方法即是论辩挖掘任务一和任务二的标签。在序列编码层的顶层完成这两项任务,构建一个由DenseNet和Softmax组成的两层神经网络:
Figure BDA0002285495810000125
Figure BDA0002285495810000126
其中,W是权重矩阵,b是偏差向量;
步骤S35:将st和前一个词的向量ei-1作为输入,之后经过一层神经网络输入到Softmax层获得论点部件实体的类型标签,得到输出映射为向量ei
栈式LSTM(StackedLSTM)能够学习更高时域的特征表示,通过融合当前的LSTM的隐层状态和上一层LSTM的隐层状态,可以充分学习文本中的上下文信息,获取更深层次的特征。在训练过程中,栈式LSTM通过前向或后向的传播,使用隐层状态和捕获论辩挖掘文本中“过去”和“将来”的信息,最后将两种状态结合为网络的输出。
在本实施例中,作为本***的最终预测标签输出模块,本实施例采用了条件随机场(CRF),相较于普通的softmax解析分类,条件随机场(CRF)可以直接将输出层面的关联分离出来,更容易学习到上下文的相关信息,效果也更加的优秀。
所述步骤S4具体包括以下步骤:
步骤S41:采用条件随机场(CRF)直接将输出层面的关联分离出来,学习上下文的相关信息;
步骤S42:在训练过程中,给出了损失函数如下:loss(y,x)=-E(y,x)+log(z)
其中,y表示真实的标签序列,x为输入序列,z为归一化常量,E(y,x)指输入x与标签y的路径能量,表示为
Figure BDA0002285495810000131
h(yi;x)表示标签的打分函数,g(yk,yk+1)为一个待训练的参数矩阵;
步骤S43:根据步骤S42的得分输出预测的数据集标签结果。以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (3)

1.一种基于多任务联合学习的论辩挖掘***,其特征在于:包括数据预处理模块、文本嵌入模块、联合学习模块和论辩挖掘标签输出模块;所述数据预处理模块用以对数据进行预处理;所述文本嵌入模块用以分别在词级别和字符级别提取包括输入的文本中的语义、词性以及论点类型的表示,并以向量表示这些特征,作为联合学习模块的向量输入;所述联合学习模块用以采用多任务学习中参数的硬共享机制,将不同论辩挖掘数据集都视为不同的任务,多个任务共享了一个联合学习模块的隐层,并行的进行训练学习,并且使用栈式双向长短时记忆神经网络学习文本的上下文信息,用以完成序列标注任务;所述论辩挖掘标签输出模块用以完成论辩挖掘论点类型预测工作,输出文本中论点的类型;
所述联合学习模块具体包括联合学习模块输入为文本嵌入模块输出的共享特征参数向量,包括词Vw、字符Vc、词性Vp,用于学习文本的上下文信息并识别论点部件实体;
构建双向栈式LSTM,计算获得句子向量,每个LSTM单元在第t个单词由一个n维向量组成,包括:一个输入门it,一个遗忘门ft,一个输出门ot,一个记忆单元ct,以及一个隐藏单元ht,每个LSTM单元接收一个n维的向量输入,前一个隐藏状态为ht-1,前一个记忆单元为ct-1
根据以下公式更新参数:
it=σ(W(i)xt+I(i)ht-1+bi)
ft=σ(W(f)xt+I(f)ht-1+bf)
ot=σ(W(o)xt+I(o)ht-1+bo)
ut=tanh(W(u)xt+I(u)ht-1+bu)
ct=it⊙ut+ft⊙ct-1
ht=ot⊙tanh(ct)
其中,σ表示logistic激活函数,⊙表示向量的点积,W和I表示权重矩阵,b表示偏差向量,LSTM单元在第t个单词上的输入为第t个单词的词Vt w、字符Vt c和词性Ve的联结向量
Figure FDA0003597631300000021
将两个反向LSTM的隐藏单元
Figure FDA0003597631300000022
Figure FDA0003597631300000023
连接为
Figure FDA0003597631300000024
作为输出;
对输入句子的每个单词标记上BIO标签,然后再标记它的论点类型,形成BIO-论点类型的形式;
构建一个由DenseNet和Softmax组成的两层神经网络:
Figure FDA0003597631300000025
Figure FDA0003597631300000026
其中,W是权重矩阵,b是偏差向量;
将st和前一个词的向量ei-1作为输入,之后经过一层神经网络输入到Softmax层获得论点部件实体的类型标签,得到输出映射为向量ei
所述文本嵌入模块包括:
令CNN的输入为一段预处理后长度为n的文本为x=[x1,x2,x3,...xn],按照词向量的定义,每个单词表示为d维的向量;
在序列x上调用一个窄卷积和一个窗口大小为k的卷积核,以
Figure FDA0003597631300000027
Figure FDA0003597631300000028
作为填充向量,使得序列保持固定长度;
根据:
Figure FDA0003597631300000029
计算文本x经过CNN提取特征后的序列C=[c1,c2,c3,...cn];其中f表示非线性激活函数,xi:j表示第i到j个单词,b表示偏差;
通过采用四种不同长度的k=1,2,3,4的卷积核窗口获取论辩挖掘文本中的局部上下文特征表示;
令单词K∈V由字符序列[c1,...,cl]组成,其中l表示单词K的长度;单词K的字符级表示由矩阵CK∈Rd×l给出,其中第j列表示字符向量cj;这样即在Ck之间调用一个窄卷积和一个宽度为w的滤波器H=Rd×w
接着添加一个偏移变量bias并应用非线性函数得到特征映射fk∈Rl-w+1;对于特定的第i个特征映射,有:fk[i]=tanh(<Ck[*,i:i+w+1],H>+b),其中Ck[*,i:i+w+1]为第i列到第(i+w+1)列的Ck,符号<A,B>=Tr(ABT)表示Frobenius内积;
引入最大化函数:
Figure FDA0003597631300000031
以此作为滤波器H所对应的特征应用于单词;
将CNN提取的结果输入到高速神经网络层中,通过高速神经网络的转换门来过滤有价值的特征,并将得到的结果输入联合学习模块;
Figure FDA0003597631300000032
其中,g表示非线性函数,t=σ(WTy+bT)称为转换门,(1-t)称为进位门;
所述论辩挖掘标签输出模块包括:
采用条件随机场直接将输出层面的关联分离出来,学习上下文的相关信息;
在训练过程中,给出了损失函数如下:loss(y,x)=-E(y,x)+log(z)
其中,y表示真实的标签序列,x为输入序列,z为归一化常量,E(y,x)指输入x与标签y的路径能量,表示为
Figure FDA0003597631300000041
h(yi;x)表示标签的打分函数,g(yk,yk+1)为一个待训练的参数矩阵;
根据得分输出预测的数据集标签结果。
2.一种根据权利要求1所述的基于多任务联合学习的论辩挖掘***的工作方法,其特征在于:包括以下步骤:
步骤S1:将待挖掘论辩结构即论点类型的论辩文档输入至数据预处理模块进行预处理,得到的预处理后的文本,并输入所述文本嵌入模块;
步骤S2:所述文本嵌入模块采用词级别的CNN和字符级别的CNNs-Highway分别对预处理后的文本提取词级别和字符级别的特征,这些特征包括词的数字字符占比信息和字符大小写信息,并以向量表示,输入联合学习模块;
步骤S3:所述联合学习模块根据文本嵌入模块输出的文本数据,采用多任务硬参数共享机制,将每一个不同的数据集视为不同的论辩挖掘任务,使用双向长短时记忆神经网络学习隐层表示,并行进行训练参数并学习文本数据的上下文信息,用以完成论点边界检测和后续的论点部件类型预测;
步骤S4:所述论辩挖掘标签输出模块将得到的论点的类型标签输出。
3.根据权利要求2所述的一种基于多任务联合学习的论辩挖掘***的工作方法,其特征在于:所述数据预处理模块对数据进行预处理包括以下步骤:
步骤SA:去除文档中的网页链接,特殊字符,标点符号;
步骤SB:对文档进行分词处理;
步骤SC:对英文数据进行词干还原处理;
步骤SD:根据中英文的停用词表分别过滤掉数据集中包含的停用词。
CN201911161645.2A 2019-11-22 2019-11-22 一种基于多任务联合学习的论辩挖掘***及其工作方法 Active CN110941700B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911161645.2A CN110941700B (zh) 2019-11-22 2019-11-22 一种基于多任务联合学习的论辩挖掘***及其工作方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911161645.2A CN110941700B (zh) 2019-11-22 2019-11-22 一种基于多任务联合学习的论辩挖掘***及其工作方法

Publications (2)

Publication Number Publication Date
CN110941700A CN110941700A (zh) 2020-03-31
CN110941700B true CN110941700B (zh) 2022-08-09

Family

ID=69907634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911161645.2A Active CN110941700B (zh) 2019-11-22 2019-11-22 一种基于多任务联合学习的论辩挖掘***及其工作方法

Country Status (1)

Country Link
CN (1) CN110941700B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347269A (zh) * 2020-11-11 2021-02-09 重庆邮电大学 基于BERT和Att-BiLSTM的论点对识别方法
CN112613316B (zh) * 2020-12-31 2023-06-20 北京师范大学 一种生成古汉语标注模型的方法和***
US11527074B1 (en) * 2021-11-24 2022-12-13 Continental Automotive Technologies GmbH Systems and methods for deep multi-task learning for embedded machine vision applications

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255119A (zh) * 2018-07-18 2019-01-22 五邑大学 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及***
CN109635109A (zh) * 2018-11-28 2019-04-16 华南理工大学 基于lstm并结合词性及多注意力机制的句子分类方法
CN109710946A (zh) * 2019-01-15 2019-05-03 福州大学 一种基于依赖解析树的联合论辩挖掘***及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11586928B2 (en) * 2018-03-09 2023-02-21 Tata Consultancy Services Limited Method and system for incorporating regression into stacked auto encoder (SAE)

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255119A (zh) * 2018-07-18 2019-01-22 五邑大学 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及***
CN109635109A (zh) * 2018-11-28 2019-04-16 华南理工大学 基于lstm并结合词性及多注意力机制的句子分类方法
CN109710946A (zh) * 2019-01-15 2019-05-03 福州大学 一种基于依赖解析树的联合论辩挖掘***及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Xiuyi Fan 等."A first step towards explained activity recognition with ".《2016 IEEE International Conference on Multisensor Fusion and 》.2017, *
廖祥文 等."基于多任务迭代学习的论辩挖掘方法".《计算机学报》.2018, *
鄂海红 等."深度学习实体关系抽取研究综述".《软件学报》.2019,第30卷(第6期), *

Also Published As

Publication number Publication date
CN110941700A (zh) 2020-03-31

Similar Documents

Publication Publication Date Title
Qiu et al. DGeoSegmenter: A dictionary-based Chinese word segmenter for the geoscience domain
CN106469560B (zh) 一种基于无监督域适应的语音情感识别方法
CN110941700B (zh) 一种基于多任务联合学习的论辩挖掘***及其工作方法
CN109858041B (zh) 一种半监督学习结合自定义词典的命名实体识别方法
CN109325231B (zh) 一种多任务模型生成词向量的方法
Li et al. Improving convolutional neural network for text classification by recursive data pruning
CN107729311B (zh) 一种融合文本语气的中文文本特征提取方法
Sun et al. Deep LSTM networks for online Chinese handwriting recognition
CN110287323B (zh) 一种面向目标的情感分类方法
CN113344206A (zh) 融合通道与关系特征学习的知识蒸馏方法、装置及设备
JP6720764B2 (ja) テキスト解析装置及びプログラム
CN113255294A (zh) 命名实体识别模型训练方法、识别方法及装置
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN109710946A (zh) 一种基于依赖解析树的联合论辩挖掘***及方法
CN112287106A (zh) 一种基于双通道混合神经网络的在线评论情感分类方法
CN115630156A (zh) 一种融合Prompt和SRU的蒙古语情感分析方法与***
CN114239574A (zh) 一种基于实体和关系联合学习的矿工违规行为知识抽取方法
Gajurel et al. A fine-grained visual attention approach for fingerspelling recognition in the wild
Reyes-Nava et al. Performance analysis of deep neural networks for classification of gene-expression microarrays
El-Demerdash et al. Psychological human traits detection based on universal language modeling
CN115795044A (zh) 基于知识注入的用户关系挖掘方法和装置
CN111078881A (zh) 细粒度情感分析方法、***、电子设备和存储介质
CN114818718A (zh) 合同文本识别方法及装置
Elleuch et al. The Effectiveness of Transfer Learning for Arabic Handwriting Recognition using Deep CNN.
CN113779966A (zh) 一种基于注意力的双向cnn-rnn深度模型的蒙文情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant