CN109710946A - 一种基于依赖解析树的联合论辩挖掘***及方法 - Google Patents
一种基于依赖解析树的联合论辩挖掘***及方法 Download PDFInfo
- Publication number
- CN109710946A CN109710946A CN201910034772.XA CN201910034772A CN109710946A CN 109710946 A CN109710946 A CN 109710946A CN 201910034772 A CN201910034772 A CN 201910034772A CN 109710946 A CN109710946 A CN 109710946A
- Authority
- CN
- China
- Prior art keywords
- argument
- text
- vector
- debate
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及一种基于依赖解析树的联合论辩挖掘***,包括:数据预处理模块,用于对数据进行预处理;文本嵌入模块,用于对从输入的文本中提取词、字符、词性、论点之间依赖关系以及论点类型的向量表示;序列编码模块,使用双向长短时记忆神经网络学习文本的上下文信息,用来完成论点边界检测和论点关系抽取的任务;依赖解析树模块,通过构建依赖解析树,用于在两个论点部件实体中寻找最短路经;论辩挖掘标签输出模块,用于完成论辩挖掘三个任务的标签预测工作,论点的类型标签和论点的关系标签。本发明能够从论辩文本数据中学习高质量的文本向量特点,最终检测出文本的论辩结构。
Description
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于依赖解析树的联合论辩挖掘***及方法。
背景技术
当前,有很多技术方法可用于论辩挖掘。传统的论辩挖掘方法主要都是对子任务独立建模,而忽略了三个子任务之间的关联信息,导致性能低下。另外,还有部分工作采用流水线模型对三个子任务进行联合建模,这些模型在训练过程中存在错误传播的问题。
当前,存在着一些基于流水线的研究方法。其基本的思想是对论辩挖掘的三个子任务采用流水线的方法,按照流水线的顺序解决。流水线方法由于论点类型识别的错误会影响到论点关系的抽取错误,存在错误传播的问题。另外,这种方法将识别出来的论点进行两两配对,之后进行论点关系分类,产生了论点关系对的冗余信息。
然而,目前论辩挖掘研究方法往往忽略了子任务之间的关联信息,也存在忽略每个子任务不同特点的问题,而关联信息对论辩挖掘有着很重要的意义,一个任务的标签预测结果可以作为预测其它论辩挖掘子任务标签的有效特征。因此,针对上述不足,人们希望找到一种更加高效、细致的以及能够充分利用子任务之间关联信息并且充分利用每个子任务特点的方法,进而提高论辩挖掘模型的性能。
发明内容
有鉴于此,本发明的目的在于提供一种基于依赖解析树的联合论辩挖掘***及方法,能够从论辩文本数据中学习高质量的文本向量特点,最终检测出文本的论辩结构。
为实现上述目的,本发明采用如下技术方案:
一种基于依赖解析树的联合论辩挖掘***,包括:
一数据预处理模块,用于对数据进行预处理;
一文本嵌入模块,用于对从输入的文本中提取词、字符、词性、论点之间依赖关系以及论点类型的向量表示;
一序列编码模块,使用双向长短时记忆神经网络学习文本的上下文信息,用来完成论点边界检测和论点关系抽取的任务;
一依赖解析树模块,通过构建依赖解析树,用于在两个论点部件实体中寻找最短路经;
一论辩挖掘标签输出模块,用于完成论辩挖掘三个任务的标签预测工作,论点的类型标签和论点的关系标签。
进一步的,所述数据预处理模块对数据进行预处理具体包括:
(1)去除文档中的网页链接,特殊字符,标点符号;
(2)对文档进行分词处理;
(3)对英文数据进行词干还原处理;
(4)根据中英文的停用词表分别过滤掉数据集中包含的停用词。
进一步的,所述文本嵌入模块采用深度卷积神经网络。
进一步的,所述一种基于依赖解析树的联合论辩挖掘***的解析方法,其特征在于,包括以下步骤:
步骤S1:将待挖掘论变形文档输入至数据预处理模块进行预处理,得到的预处理后的文本,并输入文本嵌入模块;
步骤S2:文本嵌入模块采用深度卷积神经网络对预处理后的文本提取词、字符、词性、论点之间依赖关系以及论点类型的向量表示,并输入序列编码模块;
步骤S3:输入序列编码模块根据文本嵌入模块输入的文本数据,使用双向长短时记忆神经网络学习文本数据的上下文信息,完成论点边界检测和论点关系抽取,得到论点部件实体的类型标签;
步骤S4:根据论点部件实体的类型标签和论点之间依赖关依赖关系,依赖解析树模块通过构建依赖解析树,训练得到论点关系的标签;
步骤S5:论辩挖掘标签输出模块将得到的论点的类型标签和论点的关系标签输出。
进一步的,所述步骤S2具体为:
步骤S21:深度卷积神经网络输入为预处理后的文本序列x=[x1,x2,...,xn],按照文本句子中单词的顺序,每一行都是一个由d维向量表示的单词,CNN输出为序列C=[c1,c2,...,cn,],C表示输入每个单词的特征,n表示输入序列的最大长度;
步骤S22:在x之间使用窄卷积和一个宽度为k的卷积核W∈R(d×k),并且将和作为填充向量被填充到序列的头部和尾部;
步骤S23:分别输出文本提取词Vw、字符Vc、词性Vp、论点之间依赖关系Vd以及论点类型Ve的向量表示,并输入序列编码模块中。
进一步的,所述步骤S3具体为:
步骤S31:序列编码层输入为文本嵌入层输出的共享特征参数向量,包括词Vw、字符Vc、词性Vp,用于学习文本的上下文信息并识别论点部件实体;
步骤S32:构建一个双向LSTM,计算获得句子向量,每个LSTM单元在第t个单词由一个n维向量组成,包括:一个输入门it,一个遗忘门ft,一个输出门ot,一个记忆单元ct,以及一个隐藏单元ht,每个LSTM单元接收一个n维的向量输入,前一个隐藏状态为ht-1,前一个记忆单元为ct-1;
根据以下公式更新参数:
it=σ(W(i)xt+I(i)ht-1+bi)
ft=σ(W(f)xt+I(f)ht-1+bf)
ot=σ(W(o)xt+I(o)ht-1+bo)
ut=tanh(W(u)xt+I(u)ht-1+bu)
ct=it⊙ut+ft⊙ct-1
ht=ot⊙tanh(ct)
其中,σ表示logistic激活函数,⊙表示向量的点积,W和I表示权重矩阵,b表示偏差向量,LSTM单元在第t个单词上的输入为第t个单词的词Vt w、字符Vt c和词性Vt p的联结向量将两个反向LSTM的隐藏单元和连接为作为输出;
步骤S32:对输入句子的每个单词标记上BIO标签,然后再标记它的论点类型,形成“BIO-论点类型”的形式;
步骤S33:构建一个由DenseNet和Softmax组成的两层神经网络:
其中,W是权重矩阵,b是偏差向量;
步骤S34:将st和前一个词的向量ei-1作为输入,之后经过一层神经网络输入到Softmax层获得论点部件实体的类型标签,得到输出映射为向量ei。
进一步的,所述步骤S4具体为:
步骤S41:将论点部件实体的类型标签ei和来自文本嵌入层的依赖关系Ve输入依赖解析层;
步骤S42:构建双向树结构的LSTM结合递归神经网络,并通过以下公式在LSTM单元内计算第t个节点的n维向量:
ht=ot⊙tanh(ct)
其中,m(.)为映射函数,C(t)是第t个节点的子节点,i是共享参数。
使用最短路径结构来表示两个目标词对之间的关系,它用于捕获目标词对之间的依赖路径,将依赖解析层堆叠在序列层之上,将文本序列和依赖解析树的信息合并到输出中,依赖解析层第t个单词的LSTM输入为:连接序列层中的隐藏单元st和论点关系依赖类型以及论点部件的实体表示
步骤S43:将关系的类型和关系的方向来表示论点之间的关系,每个候选的依赖关系可以表示为dp=[↑hpA:↓hp1:↓hp2],其中,↓hpA表示两个论点实体节点对应的最低父节点的隐含层,↑hp1和↑hp2是两个LSTM单元的隐藏状态向量,分别表示自顶向下LSTM-RNN中的第一和第二个目标论点实体部件;
步骤S44:设置一个两层神经网络,它包含一个n维的隐藏层h(r)和一个Softmax的输出层:
其中,W为权重矩阵,b为偏差向量;
将树结构的LSTM-RNNs叠加在序列层之上,构造了论点关系分类的输入dp,将每个论点实体部件的隐藏状态向量的平均值从序列层连接到dp来进行论点关系的分类,得到如下公式:
其中,Up1和Up2是第一和第二个论点实体词集合的索引;
步骤S45:在预测是给每个单词对按照方向分配了两个标签,当预测的两个方向标签不一致时,选择具有较高置信度的关系作为输出的最后结果,并训练输出得到论点关系的标签。
进一步的,所述双向树结构的双向是指从上往下和从下往上的方式,不仅向每个节点传递来自叶子节点的信息,还向跟节点传递信息
本发明与现有技术相比具有以下有益效果:
本发明主观性文档中自动得识别论点并抽取论点之间的关系的***,能够结合多任务学习方法、高质量地从论辩性文本中进行论辩挖掘。
附图说明
图1是本发明***的示意配置图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于依赖解析树的联合论辩挖掘***,包括:
一数据预处理模块,用于对数据进行预处理;
一文本嵌入模块,用于对从输入的文本中提取词、字符、词性、论点之间依赖关系以及论点类型的向量表示;
一序列编码模块,使用双向长短时记忆神经网络学习文本的上下文信息,用来完成论点边界检测和论点关系抽取的任务;
一依赖解析树模块,通过构建依赖解析树,用于在两个论点部件实体中寻找最短路经;
一论辩挖掘标签输出模块,用于完成论辩挖掘三个任务的标签预测工作,论点的类型标签和论点的关系标签。
本实施中,各模块具体功能为:
(1)数据预处理模块
输入的在线论辩性文档中包含了丰富的信息但是同时也夹杂了一定的噪声。因此,首先对数据进行预处理,主要进行以下几个方面的操作:
1.去除文档中的网页链接,特殊字符,标点符号等;
2.对文档进行分词处理;
3.对英文数据进行词干还原处理;
4.根据中英文的停用词表分别过滤掉数据集中包含的停用词。
2)文本嵌入模块
使用卷积神经网络从输入的文本中提取词、字符、词性(Part-of-Speech)、论点之间的依赖关系以及论点类型的表示,深度卷积神经网络(CNN)输入为文本序列x=[x1,x2,...,xn],按照文本句子中单词的顺序,每一行都是一个由d维向量表示的单词,CNN输出为序列C=[c1,c2,...,cn,],C表示输入每个单词的特征,n表示输入序列的最大长度。我们在x之间使用窄卷积和一个宽度为k的卷积核W∈R(d×k),并且将和作为填充向量被填充到序列的头部和尾部,以便保证输入序列的长度在卷积层后不会发生改变。分别输出Vw,Vc,Vp,Vd和Ve,这些参数作为模型的底层共享参数输入后续的文本序列层中进行训练学习。
3)序列层模块
序列编码层输入为文本嵌入层输出的共享特征参数向量,来学习文本的上下文信息并识别论点部件实体,首先使用一个双向LSTM计算获得句子向量,每个LSTM单元在第t个单词由一个n维向量组成,包括:一个输入门(input gate)it,一个遗忘门(forget gate)ft,一个输出门(output gate)ot,一个记忆单元(memory cell)ct,以及一个隐藏单元ht,每个LSTM单元接收一个n维的向量输入,前一个隐藏状态为ht-1,前一个记忆单元为ct-1。根据以下公式更新参数:
it=σ(W(i)xt+I(i)ht-1+bi)
ft=σ(W(f)xt+I(f)ht-1+bf)
ot=σ(W(o)xt+I(o)ht-1+bo)
ut=tanh(W(u)xt+I(u)ht-1+bu)
ct=it⊙ut+ft⊙ct-1
ht=ot⊙tanh(ct)
其中,σ表示logistic激活函数,⊙表示向量的点积,W和I表示权重矩阵,b表示偏差向量,LSTM单元在第t个单词上的输入为第t个单词的词Vt w、字符Vt c和词性Vt p的联结向量我们同时将两个反向LSTM的隐藏单元和连接为作为输出。
将论辩挖掘的任务一论点边界检测和任务二论点类型的识别都看做序列标注问题,我们先对输入句子的每个单词标记上BIO标签,然后再标记它的论点类型,即每个单词形成“BIO-论点类型”的形式,这样的标记方法既是论辩挖掘任务一和任务二的标签。在序列编码层的顶层完成这两项任务,我们实现了一个由DenseNet和Softmax组成的两层神经网络:
其中,W是权重矩阵,b是偏差向量。
论点实体识别的解码过程中,考虑到标签的依赖性,使用一个单词的预测值来预测下一个单词的值,具体做法为我们将st和前一个词的向量ei-1作为输入,之后经过一层神经网络输入到Softmax层获得论点部件实体的类型标签,得到输出映射为向量ei。
4)依赖解析层模块
依赖解析层模块输入为序列层神经网络训练输出得到的论点部件实体的类型标签ei和来自文本嵌入层的依赖关系Ve。
使用双向树结构的LSTM结合递归神经网络的方式实现,这里的双向是指从上往下和从下往上的方式,这种双向结构不仅向每个节点传递来自叶子节点的信息,还向跟节点传递信息,这对于论点关系的分类十分重要,充分利用了树底部附近的节点,自顶向下的结构将信息从顶部发送到叶子节点附近,并且可以兼容不同类型和数量的叶子节点,相同类型的子节点在LSTM单元内共享权重矩阵。按照以下公式在LSTM单元内计算第t个节点的n维向量:
ht=ot⊙tanh(ct)
其中,m(.)为映射函数,C(t)是第t个节点的子节点,i是共享参数。
使用最短路径结构(SPTree)来表示两个目标词对之间的关系,它用于捕获目标词对之间的依赖路径。我们将依赖解析层堆叠在序列层之上,将文本序列和依赖解析树的信息合并到输出中,依赖解析层第t个单词的LSTM输入为:连接序列层中的隐藏单元st和论点关系依赖类型以及论点部件的实体表示
根据序列层识别出来的所有论点实体部件,对每个论点实体部件的最后一个单词排列出所有的情况,然后将其输入依赖解析层,最后通过两层神经网络层输出这个论点实体部件组合的关系类别。当抽取到的两个论点实体部件是错误的或者它们之间没有关系,将它们之间的关系视作负关系,因此将关系的类型和关系的方向来表示论点之间的关系。每个候选的依赖关系可以表示为dp=[↑hpA:↓hp1:↓hp2],其中,↓hpA表示两个论点实体节点对应的最低父节点的隐含层,↑hp1和↑hp2是两个LSTM单元的隐藏状态向量,分别表示自顶向下LSTM-RNN中的第一和第二个目标论点实体部件。
与论点类型的实体识别类似,我们实现了一个两层神经网络,它包含一个n维的隐藏层h(r)和一个Softmax的输出层:
其中,W为权重矩阵,b为偏差向量。
将树结构的LSTM-RNNs叠加在序列层之上,构造了论点关系分类的输入dp,此时,序列层对依赖解析层的输入是没有方向的,为了充分利用论点实体的信息和解决输入dp无向的问题。将每个论点实体部件的隐藏状态向量的平均值从序列层连接到dp来进行论点关系的分类,得到如下公式:
其中,Up1和Up2是第一和第二个论点实体词集合的索引。
将树结构的LSTM-RNNs叠加在序列层之上,构造了论点关系分类的输入dp,此时,序列层对依赖解析层的输入是没有方向的,为了充分利用论点实体的信息和解决输入dp无向的问题。将每个论点实体部件的隐藏状态向量的平均值从序列层连接到dp来进行论点关系的分类。
此外,同时考虑了两个论点部件实体之间从左到右和从右到左的方向,在预测是给每个单词对按照方向分配了两个标签,当预测的两个方向标签不一致时,选择具有较高置信度的关系作为输出的最后结果。最后训练输出得到论点关系的标签。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (8)
1.一种基于依赖解析树的联合论辩挖掘***,其特征在于,包括:
一数据预处理模块,用于对数据进行预处理;
一文本嵌入模块,用于对从输入的文本中提取词、字符、词性、论点之间依赖关系以及论点类型的向量表示;
一序列编码模块,使用双向长短时记忆神经网络学习文本的上下文信息,用来完成论点边界检测和论点关系抽取的任务;
一依赖解析树模块,通过构建依赖解析树,用于在两个论点部件实体中寻找最短路经;
一论辩挖掘标签输出模块,用于完成论辩挖掘三个任务的标签预测工作,论点的类型标签和论点的关系标签。
2.根据权利要求1所述的基于依赖解析树的联合论辩挖掘***,其特征在于:所述数据预处理模块对数据进行预处理具体包括:
(1)去除文档中的网页链接,特殊字符,标点符号;
(2)对文档进行分词处理;
(3)对英文数据进行词干还原处理;
(4)根据中英文的停用词表分别过滤掉数据集中包含的停用词。
3.根据权利要求1所述的基于依赖解析树的联合论辩挖掘***,其特征在于:所述文本嵌入模块采用深度卷积神经网络。
4.根据权利要求1-3任一所述一种基于依赖解析树的联合论辩挖掘***的解析方法,其特征在于,包括以下步骤:
步骤S1:将待挖掘论变形文档输入至数据预处理模块进行预处理,得到的预处理后的文本,并输入文本嵌入模块;
步骤S2:文本嵌入模块采用深度卷积神经网络对预处理后的文本提取词、字符、词性、论点之间依赖关系以及论点类型的向量表示,并输入序列编码模块;
步骤S3:输入序列编码模块根据文本嵌入模块输入的文本数据,使用双向长短时记忆神经网络学习文本数据的上下文信息,完成论点边界检测和论点关系抽取,得到论点部件实体的类型标签;
步骤S4:根据论点部件实体的类型标签和论点之间依赖关依赖关系,依赖解析树模块通过构建依赖解析树,训练得到论点关系的标签;
步骤S5:论辩挖掘标签输出模块将得到的论点的类型标签和论点的关系标签输出。
5.根据权利要求4所述的一种基于依赖解析树的联合论辩挖掘***的解析方法,其特征在于:所述步骤S2具体为:
步骤S21:深度卷积神经网络输入为预处理后的文本序列x=[x1,x2,...,xn],按照文本句子中单词的顺序,每一行都是一个由d维向量表示的单词,CNN输出为序列C=[c1,c2,...,cn,],C表示输入每个单词的特征,n表示输入序列的最大长度;
步骤S22:在x之间使用窄卷积和一个宽度为k的卷积核W∈R(d×k),并且将和作为填充向量被填充到序列的头部和尾部;
步骤S23:分别输出文本提取词Vw、字符Vc、词性Vp、论点之间依赖关系Vd以及论点类型Ve的向量表示,并输入序列编码模块中。
6.根据权利要求4所述的一种基于依赖解析树的联合论辩挖掘***的解析方法,其特征在于:所述步骤S3具体为:
步骤S31:序列编码层输入为文本嵌入层输出的共享特征参数向量,包括词Vw、字符Vc、词性Vp,用于学习文本的上下文信息并识别论点部件实体;
步骤S32:构建一个双向LSTM,计算获得句子向量,每个LSTM单元在第t个单词由一个n维向量组成,包括:一个输入门it,一个遗忘门ft,一个输出门ot,一个记忆单元ct,以及一个隐藏单元ht,每个LSTM单元接收一个n维的向量输入,前一个隐藏状态为ht-1,前一个记忆单元为ct-1;
根据以下公式更新参数:
it=σ(W(i)xt+I(i)ht-1+bi)
ft=σ(W(f)xt+I(f)ht-1+bf)
ot=σ(W(o)xt+I(o)ht-1+bo)
ut=tanh(W(u)xt+I(u)ht-1+bu)
ct=it⊙ut+ft⊙ct-1
ht=ot⊙tanh(ct)
其中,σ表示logistic激活函数,⊙表示向量的点积,W和I表示权重矩阵,b表示偏差向量,LSTM单元在第t个单词上的输入为第t个单词的词Vt w、字符Vt c和词性Vt p的联结向量将两个反向LSTM的隐藏单元和连接为作为输出;
步骤S32:对输入句子的每个单词标记上BIO标签,然后再标记它的论点类型,形成“BIO-论点类型”的形式;
步骤S33:构建一个由DenseNet和Softmax组成的两层神经网络:
其中,W是权重矩阵,b是偏差向量;
步骤S34:将st和前一个词的向量ei-1作为输入,之后经过一层神经网络输入到Softmax层获得论点部件实体的类型标签,得到输出映射为向量ei。
7.根据权利要求6所述的一种基于依赖解析树的联合论辩挖掘***的解析方法,其特征在于:所述步骤S4具体为:
步骤S41:将论点部件实体的类型标签ei和来自文本嵌入层的依赖关系Ve输入依赖解析层;
步骤S42:构建双向树结构的LSTM结合递归神经网络,并通过以下公式在LSTM单元内计算第t个节点的n维向量:
ht=ot⊙tanh(ct)
其中,m(.)为映射函数,C(t)是第t个节点的子节点,i是共享参数;
使用最短路径结构来表示两个目标词对之间的关系,它用于捕获目标词对之间的依赖路径,将依赖解析层堆叠在序列层之上,将文本序列和依赖解析树的信息合并到输出中,依赖解析层第t个单词的LSTM输入为:连接序列层中的隐藏单元st和论点关系依赖类型以及论点部件的实体表示
步骤S43:将关系的类型和关系的方向来表示论点之间的关系,每个候选的依赖关系可以表示为dp=[↑hpA:↓hp1:↓hp2],其中,↓hpA表示两个论点实体节点对应的最低父节点的隐含层,↑hp1和↑hp2是两个LSTM单元的隐藏状态向量,分别表示自顶向下LSTM-RNN中的第一和第二个目标论点实体部件;
步骤S44:设置一个两层神经网络,它包含一个n维的隐藏层h(r)和一个Softmax的输出层:
其中,W为权重矩阵,b为偏差向量;
将树结构的LSTM-RNNs叠加在序列层之上,构造了论点关系分类的输入dp,将每个论点实体部件的隐藏状态向量的平均值从序列层连接到dp来进行论点关系的分类,得到如下公式:
其中,Up1和Up2是第一和第二个论点实体词集合的索引;
步骤S45:在预测是给每个单词对按照方向分配了两个标签,当预测的两个方向标签不一致时,选择具有较高置信度的关系作为输出的最后结果,并训练输出得到论点关系的标签。
8.根据权利要求7所述的一种基于依赖解析树的联合论辩挖掘***的解析方法,其特征在于:所述双向树结构的双向是指从上往下和从下往上的方式,不仅向每个节点传递来自叶子节点的信息,还向跟节点传递信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910034772.XA CN109710946A (zh) | 2019-01-15 | 2019-01-15 | 一种基于依赖解析树的联合论辩挖掘***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910034772.XA CN109710946A (zh) | 2019-01-15 | 2019-01-15 | 一种基于依赖解析树的联合论辩挖掘***及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109710946A true CN109710946A (zh) | 2019-05-03 |
Family
ID=66261394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910034772.XA Pending CN109710946A (zh) | 2019-01-15 | 2019-01-15 | 一种基于依赖解析树的联合论辩挖掘***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109710946A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110941700A (zh) * | 2019-11-22 | 2020-03-31 | 福州大学 | 一种基于多任务联合学习的论辩挖掘***及其工作方法 |
CN111104797A (zh) * | 2019-12-17 | 2020-05-05 | 南开大学 | 一种基于对偶的序列到序列生成的论文网络表示学习方法 |
CN112116095A (zh) * | 2019-06-19 | 2020-12-22 | 北京搜狗科技发展有限公司 | 一种多任务学习模型训练的方法及相关装置 |
CN112487812A (zh) * | 2020-10-21 | 2021-03-12 | 上海旻浦科技有限公司 | 一种基于边界识别的嵌套实体识别方法及*** |
CN112732994A (zh) * | 2021-01-07 | 2021-04-30 | 上海携宁计算机科技股份有限公司 | 网页信息的提取方法、装置、设备及存储介质 |
CN113962547A (zh) * | 2021-10-19 | 2022-01-21 | 北京房江湖科技有限公司 | 一种分配工地巡检任务的方法、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100235308A1 (en) * | 2009-03-11 | 2010-09-16 | Shingo Takamatsu | Text analysis device and method and program |
CN107220300A (zh) * | 2017-05-05 | 2017-09-29 | 平安科技(深圳)有限公司 | 信息挖掘方法、电子装置及可读存储介质 |
CN107944014A (zh) * | 2017-12-11 | 2018-04-20 | 河海大学 | 一种基于深度学习的中文文本情感分析方法 |
CN108363695A (zh) * | 2018-02-23 | 2018-08-03 | 西南交通大学 | 一种基于双向依赖语法树表征的用户评论属性抽取方法 |
-
2019
- 2019-01-15 CN CN201910034772.XA patent/CN109710946A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100235308A1 (en) * | 2009-03-11 | 2010-09-16 | Shingo Takamatsu | Text analysis device and method and program |
CN107220300A (zh) * | 2017-05-05 | 2017-09-29 | 平安科技(深圳)有限公司 | 信息挖掘方法、电子装置及可读存储介质 |
CN107944014A (zh) * | 2017-12-11 | 2018-04-20 | 河海大学 | 一种基于深度学习的中文文本情感分析方法 |
CN108363695A (zh) * | 2018-02-23 | 2018-08-03 | 西南交通大学 | 一种基于双向依赖语法树表征的用户评论属性抽取方法 |
Non-Patent Citations (3)
Title |
---|
MAKOTO MIWA等: "End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures", 《HTTP://ARXIV.ORG/ABS/1601.00770》 * |
STEFFEN EGER等: "Neural End-to-End Learning for Computational Argumentation Mining", 《HTTP://ARXIV.ORG/ABS/1704.06104》 * |
廖祥文等: "基于多任务迭代学习的论辩挖掘方法", 《计算机学报》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116095A (zh) * | 2019-06-19 | 2020-12-22 | 北京搜狗科技发展有限公司 | 一种多任务学习模型训练的方法及相关装置 |
CN112116095B (zh) * | 2019-06-19 | 2024-05-24 | 北京搜狗科技发展有限公司 | 一种多任务学习模型训练的方法及相关装置 |
CN110941700A (zh) * | 2019-11-22 | 2020-03-31 | 福州大学 | 一种基于多任务联合学习的论辩挖掘***及其工作方法 |
CN110941700B (zh) * | 2019-11-22 | 2022-08-09 | 福州大学 | 一种基于多任务联合学习的论辩挖掘***及其工作方法 |
CN111104797A (zh) * | 2019-12-17 | 2020-05-05 | 南开大学 | 一种基于对偶的序列到序列生成的论文网络表示学习方法 |
CN111104797B (zh) * | 2019-12-17 | 2023-05-02 | 南开大学 | 一种基于对偶的序列到序列生成的论文网络表示学习方法 |
CN112487812A (zh) * | 2020-10-21 | 2021-03-12 | 上海旻浦科技有限公司 | 一种基于边界识别的嵌套实体识别方法及*** |
CN112487812B (zh) * | 2020-10-21 | 2021-07-06 | 上海旻浦科技有限公司 | 一种基于边界识别的嵌套实体识别方法及*** |
CN112732994A (zh) * | 2021-01-07 | 2021-04-30 | 上海携宁计算机科技股份有限公司 | 网页信息的提取方法、装置、设备及存储介质 |
CN112732994B (zh) * | 2021-01-07 | 2022-01-28 | 上海携宁计算机科技股份有限公司 | 网页信息的提取方法、装置、设备及存储介质 |
CN113962547A (zh) * | 2021-10-19 | 2022-01-21 | 北京房江湖科技有限公司 | 一种分配工地巡检任务的方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109710946A (zh) | 一种基于依赖解析树的联合论辩挖掘***及方法 | |
WO2021147726A1 (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN107330032B (zh) | 一种基于递归神经网络的隐式篇章关系分析方法 | |
CN109657135B (zh) | 一种基于神经网络的学者用户画像信息抽取方法及模型 | |
Qiu et al. | DGeoSegmenter: A dictionary-based Chinese word segmenter for the geoscience domain | |
CN110334339B (zh) | 一种基于位置感知自注意力机制的序列标注模型与标注方法 | |
CN110196913A (zh) | 基于文本生成式的多实体关系联合抽取方法和装置 | |
CN109800437A (zh) | 一种基于特征融合的命名实体识别方法 | |
CN108846017A (zh) | 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法 | |
Sun et al. | Deep LSTM networks for online Chinese handwriting recognition | |
CN108363695A (zh) | 一种基于双向依赖语法树表征的用户评论属性抽取方法 | |
CN109960728A (zh) | 一种开放域会议信息命名实体识别方法及*** | |
CN112966525B (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
Li et al. | UD_BBC: Named entity recognition in social network combined BERT-BiLSTM-CRF with active learning | |
CN110941700B (zh) | 一种基于多任务联合学习的论辩挖掘***及其工作方法 | |
CN112699685A (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
CN114239574A (zh) | 一种基于实体和关系联合学习的矿工违规行为知识抽取方法 | |
CN114065702A (zh) | 一种融合实体关系和事件要素的事件检测方法 | |
CN113780059A (zh) | 一种基于多特征点的连续手语识别方法 | |
CN116245097A (zh) | 训练实体识别模型的方法、实体识别方法及对应装置 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN114662456A (zh) | 基于Faster R-卷积神经网络检测模型的图像古诗生成方法 | |
CN113901228A (zh) | 融合领域知识图谱的跨境民族文本分类方法及装置 | |
Shirghasemi et al. | The impact of active learning algorithm on a cross-lingual model in a Persian sentiment task | |
CN114881038B (zh) | 基于跨度和注意力机制的中文实体与关系抽取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190503 |
|
RJ01 | Rejection of invention patent application after publication |