CN109918510A - 跨领域关键词提取方法 - Google Patents
跨领域关键词提取方法 Download PDFInfo
- Publication number
- CN109918510A CN109918510A CN201910235391.8A CN201910235391A CN109918510A CN 109918510 A CN109918510 A CN 109918510A CN 201910235391 A CN201910235391 A CN 201910235391A CN 109918510 A CN109918510 A CN 109918510A
- Authority
- CN
- China
- Prior art keywords
- theme
- keyword
- vector
- text
- target domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种跨领域关键词提取方法,包括:构建基于主题的对抗神经网络,其使用基于主题的编码器对源领域和目标领域的文本基于主题进行编码,并引入对抗学习来与双向自编码器来确保基于主题的编码器学习到的特征与领域无关以及保留目标领域的私有特征,最后由主题的对抗神经网络中的关键词标注器结合基于主题的编码器的输出,完成关键词提取;在训练阶段,不断优化基于主题的对抗神经网络内的各部分参数;在测试阶段,将目标领域的文本输入至训练好的基于主题的对抗神经网络,从而提取出关键词。该方法可实现无标签或少量标签的目标领域的关键词提取,相比传统模型,有效地利用了相关领域的信息。对于提取结果,在评价指标F1上有一定的提高。
Description
技术领域
本发明涉及迁移学习和关键词提取领域,尤其涉及一种跨领域关键词提取方法。
背景技术
关键词提取是一种从文本中自动提取高度概括文章内容的短语的任务。已有的关键词提取方法通常分为有监督和无监督两大类。有监督方法把关键词提取当成一个分类任务,从文本中得到的候选短语被分为关键短语和非关键短语。虽然有监督的关键词提取方法效果比较好但需要大量的有标签数据来训练一个鲁棒的模型。同时当有标签数目比较少时,可以使用无监督的关键词提取方法:基于图的排序方法,聚类方法,语言模型方法。然而,无监督的关键词提取方法的效果并不如用充分有标签数据训练的有监督方法。
此外,现有的大部分有监督和无监督的关键词提取方法都集中在单领域关键词提取,无法实现跨领域关键词的提取。
发明内容
本发明的目的是提供一种跨领域关键词提取方法,可以实现无标签或少量标签的目标领域的关键词提取,并具有较好的提取效果。
本发明的目的是通过以下技术方案实现的:
一种跨领域关键词提取方法,包括:
构建基于主题的对抗神经网络,该基于主题的对抗神经网络使用基于主题的编码器对源领域和目标领域的文本基于主题进行编码,并引入对抗学习来与双向自编码器来确保基于主题的编码器学习到的特征与领域无关以及保留目标领域的私有特征,最后由主题的对抗神经网络中的关键词标注器结合基于主题的编码器的输出,完成关键词提取;
在训练阶段,不断优化基于主题的对抗神经网络内的各部分参数;
在测试阶段,将目标领域的文本输入至训练好的基于主题的对抗神经网络,从而提取出关键词。
由上述本发明提供的技术方案可以看出,利用基于主题的对抗神经网络模型类进行跨领域关键词提取,可以实现无标签或少量标签的目标领域的关键词提取,相比传统模型,有效地利用了相关领域的信息。对于提取结果,在评价指标F1上有一定的提高。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种跨领域关键词提取方法的流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种跨领域关键词提取方法,主要包括:
构建基于主题的对抗神经网络,该基于主题的对抗神经网络使用基于主题的编码器对源领域和目标领域的文本基于主题进行编码,并引入对抗学习来与双向自编码器来确保基于主题的编码器学习到的特征与领域无关以及保留目标领域的私有特征,最后由主题的对抗神经网络中的关键词标注器结合基于主题的编码器的输出,完成关键词提取;
在训练阶段,不断优化基于主题的对抗神经网络内的各部分参数;
在测试阶段,将目标领域的文本输入至训练好的基于主题的对抗神经网络,从而提取出关键词。
为了便于理解,下面结合附图1对上述方案做详细的介绍。
一、数据爬取与数据预处理。
1、数据爬取。
从若干不同领域中爬取一定量的文本数据;所述文本数据包括:论文的题目、摘要和/或对应的关键词。
示例性的,可以根据中国计算机学会推荐国际学术会议和期刊目录选取了三个不同的领域:数据挖掘领域,语言与软件领域,计算机图形学领域。然后,依据这三个领域的国际学术会议和期刊爬取了对应的论文题目、摘要以及对应的关键词(如果有关键词的话)。
2、数据预处理。
1)对于爬取到的论文的题目和摘要,将二者拼接在一起作为一个文本;
2)对文本内容进行分词处理,把文本中的数字统一用数字0代替;
3)构建词向量所用的词表,选择词频数大于等于设定值(例如,设为15)的所有单词来构建词表,
对源领域和目标领域的文本均采用上述方式进行预处理,源领域文本与目标领域文本对应的词表分别记为x与x′(x与x′均可理解为一个样本)。
若还爬取到了关键词,则直接输入至关键词标注器进行关键词标注。
二、构建基于主题的对抗神经网络。
本发明实施例中,所构建的基于主题的对抗神经网络主要包括如下四个部分:基于主题的编码器,领域判别器,目标领域的双向解码器,关键词标注器。
1、基于主题的编码器。
所述基于主题的编码器,包括双向长短期记忆网络和主题注意力机制模块。
1)双向长短期记忆网络(BiLSTM)。
对于源领域文本对应的词表x=(x1,x2,...,xn),其中n是源领域文本的长度;首先使用WordEmbedding的方法把文本映射成向量形式E=(e1,e1,...,en),再使用双向长短期记忆网络对向量序列E进行编码,向量ei在两个方向的隐向量为:
最终向量ei的隐向量表示为:
LSTM细胞单元为:
ii=σ(Wxiei+Whihi-1+bi)
fi=σ(Wxfei+Whfhi-1+bf)
oi=σ(Wxoei+Whohi-1+bo)
hi=oi⊙φ(ci)
其中,i,f,o,c分别是输入门,输出门,遗忘门和记忆门;σ是sigmoid激活函数,是相应门的权重、偏置Wx*为相应门的权重,Wh*为对应上一时刻的权重,b*为偏置,
对于目标领域文本对应的词表x′做相同的处理,最终向量ei′的隐向量记为hi′。
2)主题注意力机制模块
双向长短期记忆网络只考虑局部上下文的语义关系。然而关键词与文中的全局主题信息有关,因此,使用来考虑文本中每个词与主题的联系:
首先,使用预训练的LDA模型计算源领域中文档的主题分布来得到主题向量z;
然后,衡量隐向量hi与主题向量z相关性的门ti:
ti=tanh(Wzhi+Uzz+bz)
上式中,Wz、Uz、bz是参数矩阵;
基于主题的特征向量表示如下:
从而得到源领域文本对应的词表x所对应的主题特征向量序列
对于目标领域做相同的处理,得到目标领域文本对应的词表x′所对应的主题特征向量序列
2、领域判别器
本发明实施例中,为了解决两个领域数据分布不一致的问题,通过带有对抗损失函数的领域判别器来学习领域无关的特征连接两个不同的领域。将判别器的参数表示为θd,基于主题的编码器的参数表示为θenc。在训练的过程中,领域判别器优化θd的参数来最小化判别器的损失函数来正确的区分出源领域和目标领域的特征表示。相反地,优化基于主题的编码器的参数θenc来最大化领域判别器的损失函数以降低判别器的准确率。最终这个对抗训练使得基于主题的编码器学到的主题特征向量序列(即,hz与hz′)是领域无关的,可以更好地泛化到其它领域。
因为卷积神经网络已经展示出了它在序列分类任务中有效性,本发明实施例中,带有对抗损失函数的领域判别器使用卷积神经网络来实现。
以主题特征向量序列hz为例进行说明,卷积神经网络地输入是基于主题的编码器输出的主题特征向量序列其中dh是LSTM细胞单元的大小;对该主题特征向量序列使用带有一个过滤器窗口大小为c个单词的卷积操作得到的新的特征向量如下:
q=f(Wq*hz+bq)
其中,*是卷积操作,表示参数偏置,f是非线性的激活函数,可使用ELU激活函数;
最后,使用时间上的最大值池化操作来取它的最大值:
以上过程是使用一个过滤器,通过使用多个过滤器Wq以及多个窗口大小c来得到主题特征向量序列的多个特征;
对主题特征向量序列hz′做相同的处理,得到多个特征。
在得到的这些特征上,使用softmax层来预测领域标签d∈{0,1},其中,0,1分别表示源领域和目标领域;
领域判别器的目标是区分出源领域和目标领域样本的领域特征以及最小化下面的目标函数:
其中,是源领域的有标签样本数目,是源领域的无标签样本数目,Nt是目标领域的无标签样本数目,是预测的第j个样本的领域标签的概率,dj是正确的领域标签,di∈{0,1}。
预测领域标签的目的主要是进行对抗训练,当领域判别器不能正确分类领域特征时,我们学习到领域无关的特征。
3、双向自编码器
带有对抗损失函数的领域判别器的主要目的是学习领域无关的特征并且想要消除所有的领域特有的信息。这对目标领域的关键词提取任务可能是有害的。为了保护目标领域的私有信息,本发明实施例提出在目标领域使用带有双向重建损失函数的解码器。这个无监督的损失函数可以鼓励模型保留目标领域主要的语义信息并且有效地利用目标领域地无标签数据。具体地,使用双向解码器从正向和反向来重建BiLSTM编码器的输出序列。
对于前向解码器,输出记为对于在第t个时间步预测的单词在字典上的概率分布:
其中,权重偏置是训练参数,x′<t表示第t个时间步之前的输入单词序列{x1′,...,xt-1′},使用LSTM基于之前时间步的真实值et-1计算隐层状态st:
其中,是初始化的状态,使用前向编码器的最后一个状态来初始化前向解码器。
采用相同的方式,得到后向解码器的预测每一个单词的概率分布并且使用后向编码器的最后一个状态初始化后向解码器;
最终目标领域的双向重建损失函数是:
其中,Nt是目标领域的无标签样本数目,lm是第m个文本序列的长度;x′t是第t个单词的独热编码,是前向解码器预测的第t个单词的概率分布,是后向解码器预测的第t个单词的概率分布。
4、关键词标注器。
关键词标注器的输入是基于主题的编码器的输出。关键词标注器通过预测基于主题的编码器输出的主题特征向量中每个词的标签从而得到关键短语;每个词的标签有5种:B表示关键短语的开始,M表示关键短语的中间部分,E表示关键短语的结尾,S表示单个词成为关键短语,O表示当前词不是任何关键短语的一部分;这些标签之间有着强烈的依赖关系,例如标签M不可能在标签B前面。因此,我们使用条件随机场(CRF)来建模这些标签之间的依赖关系。
在训练阶段,对于给定的基于主题的编码器输出的主题特征向量序列 以及相应的标签序列y=(y1,y2,...,yn);序列y在hz下的条件概率为:
其中,y(hz)是对于hz所有可能的标签序列,是得分,其中是标签的数目;是给第i个单词分配标签yi的得分;标签转移概率矩阵,Wg和bg分别是可训练的权重和偏置参数。
对于条件随机场的训练,最小化在源领域的有标签样本上的负的似然函数:
测试时,使用Viterbi算法搜索具有最高条件概率的标签序列:
三、模型参数的训练。
本步骤主要对上一步骤所建立的基于主题的对抗神经网络中的所有参数矩阵或向量进行训练。总体的训练目标函数看成是基于主题的编码器(参数为θenc)、关键词标注器(参数为θtagger)、目标领域双向解码器(参数为θdec)和领域判别器(参数为θd)之间的一个最小最大游戏:
其中,α与β为设定的权值;
为了愚弄领域判别器学习出领域无关的特征,使用领域判别器的损失函数的负的梯度来更新θenc,同时结合关键词标注器的损失函数双向重建损失函数得到总的损失函数来更新θenc,其中总的损失函数为:
上式中,α′与β′均为设定的权值;
整个训练过程交替进行,我们使用更新参数θd,使用更新参数θenc、θtagg er、θdec,所有参数的更新都使用反向传播算法。
四、对目标领域的文章提取关键词。
在测试阶段,将给定的目标领域的文本输入至训练好的基于主题的对抗神经网络,结合基于主题的编码器以及关键词标注器,得到文本序列的标签,整合得到对应的关键短语。
本发明实施例上述方案中,利用基于主题的对抗神经网络模型类进行跨领域关键词提取,可以实现无标签或少量标签的目标领域的关键词提取,相比传统模型,有效地利用了相关领域的信息。对于提取结果,在评价指标F1上有一定的提高。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (8)
1.一种跨领域关键词提取方法,其特征在于,包括:
构建基于主题的对抗神经网络,该基于主题的对抗神经网络使用基于主题的编码器对源领域和目标领域的文本基于主题进行编码,并引入对抗学习来与双向自编码器来确保基于主题的编码器学习到的特征与领域无关以及保留目标领域的私有特征,最后由主题的对抗神经网络中的关键词标注器结合基于主题的编码器的输出,完成关键词提取;
在训练阶段,不断优化基于主题的对抗神经网络内的各部分参数;
在测试阶段,将目标领域的文本输入至训练好的基于主题的对抗神经网络,从而提取出关键词。
2.根据权利要求1所述的一种跨领域关键词提取方法,其特征在于,所述基于主题的编码器,包括双向长短期记忆网络和主题注意力机制模块;其中:
对于源领域文本对应的词表x=(x1,x2,...,xn),其中n是文本的长度;首先使用WordEmbedding的方法把文本映射成向量形式E=(e1,e2,...,en),再使用双向长短期记忆网络对向量序列E进行编码,向量ei在两个方向的隐向量为:
最终向量ei的隐向量表示为:
LSTM细胞单元为:
ii=σ(Wxiei+Whihi-1+bi)
fi=σ(Wxfei+Whfhi-1+bf)
oi=σ(Wxoei+Whohi-1+bo)
hi=oi⊙φ(ci)
其中,i,f,o,c分别是输入门,输出门,遗忘门和记忆门;σ是sigmoid激活函数是相应门的权重、偏置,Wx*为相应门的权重,Wh*为对应上一时刻的权重,b*为偏置,i∈[1,n];
对于目标领域文本对应的词表x′做相同的处理,最终向量ei′的隐向量记为hi′;
之后,使用主题注意力机制模块来考虑文本中每个词与主题的联系:
首先,使用预训练的LDA模型计算源领域中文档的主题分布来得到主题向量z;
然后,衡量隐向量hi与主题向量z相关性的门ti:
ti=tanh(Wzhi+Uzz+bz)
上式中,Wz、Uz、bz是参数矩阵;
基于主题的特征向量表示如下:
从而得到源领域文本对应的词表x所对应的主题特征向量序列
对于目标领域做相同的处理,得到目标领域文本对应的词表x′所对应的主题特征向量序列
3.根据权利要求2所述的一种跨领域关键词提取方法,其特征在于,引入对抗学习来确保基于主题的编码器学习到的特征与领域无关,其通过带有对抗损失函数的领域判别器来实现;
所述带有对抗损失函数的领域判别器使用卷积神经网络来实现;
卷积神经网络输入基于主题的编码器输出的主题特征向量序列其中dh是LSTM细胞单元的大小;对该主题特征向量序列使用带有一个过滤器窗口大小为c个单词的卷积操作得到的新的特征向量如下:
q=f(Wq*hz+bq)
其中,*是卷积操作,f是非线性的激活函数;
最后,使用时间上的最大值池化操作来取它的最大值:
以上过程是使用一个过滤器,通过使用多个过滤器Wq以及多个窗口大小c来得到向量序列的多个特征;
对主题特征向量序列hz′做相同的处理,得到多个特征;
在得到的这些特征上,使用softmax层来预测领域标签d∈{0,1},其中,0,1分别表示源领域和目标领域;
领域判别器的目标是区分出源领域和目标领域样本的领域特征以及最小化下面的目标函数:
其中,是源领域的有标签样本数目,是源领域的无标签样本数目,Nt是目标领域的无标签样本数目,是预测的第j个样本的领域标签的概率,dj是正确的领域标签。
4.根据权利要求3所述的一种跨领域关键词提取方法,其特征在于,引入双向自编码器来保留目标领域的私有特征;其中:
对于前向解码器,输出记为对于在第t个时间步预测的单词在字典上的概率分布:
其中,权重偏置是训练参数,x′<t表示第t个时间步之前的输入单词序列{x1′,...,xt-1′},使用LSTM基于之前时间步的真实值et-1计算隐层状态st:
其中是初始化的状态,使用前向编码器的最后一个状态来初始化前向解码器;
采用相同的方式,得到后向解码器的预测每一个单词的概率分布并且使用后向编码器的最后一个状态初始化后向解码器;
最终目标领域的双向重建损失函数是:
其中,Nt是目标领域的无标签样本数目,lm是第m个文本序列的长度;是前向解码器预测的第t个单词的概率分布,是后向解码器预测的第t个单词的概率分布。
5.根据权利要求4所述的一种跨领域关键词提取方法,其特征在于,关键词标注器通过预测基于主题的编码器输出的主题特征向量中每个词的标签从而得到关键短语;每个词的标签有5种:B表示关键短语的开始,M表示关键短语的中间部分,E表示关键短语的结尾,S表示单个词成为关键短语,O表示当前词不是任何关键短语的一部分;使用条件随机场来建模这些标签之间的依赖关系;
在训练阶段,对于基于主题的编码器输出的主题特征向量序列 以及相应的标签序列y=(y1,y2,...,yn);序列y在hz下的条件概率为:
其中,是对于hz所有可能的标签序列,是得分,其中是标签的数目;是给第i个单词分配标签yi的得分;标签转移概率矩阵,Wg和bg分别是可训练的权重和偏置参数和是可训练的参数;
对于条件随机场的训练,最小化在源领域的有标签样本上的负的似然函数:
测试时,使用Viterbi算法搜索具有最高条件概率的标签序列:
6.根据权利要求5所述的一种跨领域关键词提取方法,其特征在于,所述在训练阶段,不断优化基于主题的对抗神经网络内的各部分参数包括:
总体的训练目标函数看成是基于主题的编码器的参数θenc、关键词标注器的参数θtagger、目标领域双向解码器的参数θdec和领域判别器的参数θd之间的一个最小最大游戏:
其中,α与β为设定的权值;
使用领域判别器的损失函数的负的梯度来更新θenc,同时结合关键词标注器的损失函数双向重建损失函数得到总的损失函数来更新θenc,其中总的损失函数为:
上式中,α′与β′均为设定的权值;
整个训练过程交替进行,使用更新参数θd,使用更新参数θenc、θtagger、θdec,所有参数的更新都使用反向传播算法。
7.根据权利要求1或6所述的一种跨领域关键词提取方法,其特征在于,在测试阶段,将目标领域的文本输入至训练好的基于主题的对抗神经网络,从而提取出关键词包括:
将给定的目标领域的文本输入至训练好的基于主题的对抗神经网络,结合基于主题的编码器以及关键词标注器,得到文本序列的标签,整合得到对应的关键短语。
8.根据权利要求1所述的一种跨领域关键词提取方法,其特征在于,在构建基于主题的对抗神经网络之前还包括:数据爬取与数据预处理的步骤;其中:
数据爬取包括:从若干不同领域中爬取一定量的文本数据;所述文本数据包括:论文的题目、摘要和/或对应的关键词;
数据预处理包括:对于爬取到的论文的题目和摘要,将二者拼接在一起作为一个文本;对文本内容进行分词处理,把文本中的数字统一用数字0代替;构建词向量所用的词表,选择词频数大于等于设定值的所有单词来构建词表;
若还爬取到了关键词,则直接输入至关键词标注器进行关键词标注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910235391.8A CN109918510B (zh) | 2019-03-26 | 2019-03-26 | 跨领域关键词提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910235391.8A CN109918510B (zh) | 2019-03-26 | 2019-03-26 | 跨领域关键词提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109918510A true CN109918510A (zh) | 2019-06-21 |
CN109918510B CN109918510B (zh) | 2022-10-28 |
Family
ID=66967108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910235391.8A Active CN109918510B (zh) | 2019-03-26 | 2019-03-26 | 跨领域关键词提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109918510B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263343A (zh) * | 2019-06-24 | 2019-09-20 | 北京理工大学 | 基于短语向量的关键词抽取方法及*** |
CN110472238A (zh) * | 2019-07-25 | 2019-11-19 | 昆明理工大学 | 基于层级交互注意力的文本摘要方法 |
CN110674648A (zh) * | 2019-09-29 | 2020-01-10 | 厦门大学 | 基于迭代式双向迁移的神经网络机器翻译模型 |
CN110766073A (zh) * | 2019-10-22 | 2020-02-07 | 湖南科技大学 | 一种强化主题注意力机制的移动应用分类方法 |
CN111274815A (zh) * | 2020-01-15 | 2020-06-12 | 北京百度网讯科技有限公司 | 用于挖掘文本中的实体关注点的方法和装置 |
CN111444712A (zh) * | 2020-03-25 | 2020-07-24 | 重庆邮电大学 | 一种关键词提取方法、终端、计算机可读存储介质 |
CN111680669A (zh) * | 2020-08-12 | 2020-09-18 | 江西风向标教育科技有限公司 | 一种试题分割方法、***及可读存储介质 |
CN111813924A (zh) * | 2020-07-09 | 2020-10-23 | 四川大学 | 基于可扩展动态选择与注意力机制的类别检测算法及*** |
CN111881257A (zh) * | 2020-07-24 | 2020-11-03 | 广州大学 | 基于主题词和语句主旨的自动匹配方法、***及存储介质 |
CN112100327A (zh) * | 2020-08-31 | 2020-12-18 | 北京航空航天大学 | 一种基于综合特征提取的对话摘要生成方法及*** |
CN112464656A (zh) * | 2020-11-30 | 2021-03-09 | 科大讯飞股份有限公司 | 关键词抽取方法、装置、电子设备和存储介质 |
CN112463956A (zh) * | 2020-11-26 | 2021-03-09 | 重庆邮电大学 | 基于对抗学习和分层神经网络的文本摘要生成***和方法 |
CN112528667A (zh) * | 2020-11-27 | 2021-03-19 | 北京大学 | 一种语义解析上的领域迁移方法和装置 |
CN112925516A (zh) * | 2019-12-06 | 2021-06-08 | 奥多比公司 | 用上下文信息进行槽填充 |
CN113723088A (zh) * | 2020-05-25 | 2021-11-30 | 阿里巴巴集团控股有限公司 | 自然语言处理方法、装置、文本处理方法、设备和介质 |
CN115329070A (zh) * | 2022-06-29 | 2022-11-11 | 北京数美时代科技有限公司 | 基于关键词的分类模型文本对抗方法、***和电子设备 |
CN115809665A (zh) * | 2022-12-13 | 2023-03-17 | 杭州电子科技大学 | 一种基于双向多粒度注意力机制的无监督关键词抽取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229582A (zh) * | 2018-02-01 | 2018-06-29 | 浙江大学 | 一种面向医学领域的多任务命名实体识别对抗训练方法 |
US20180329883A1 (en) * | 2017-05-15 | 2018-11-15 | Thomson Reuters Global Resources Unlimited Company | Neural paraphrase generator |
CN108984524A (zh) * | 2018-07-05 | 2018-12-11 | 北京理工大学 | 一种基于变分神经网络主题模型的标题生成方法 |
-
2019
- 2019-03-26 CN CN201910235391.8A patent/CN109918510B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180329883A1 (en) * | 2017-05-15 | 2018-11-15 | Thomson Reuters Global Resources Unlimited Company | Neural paraphrase generator |
CN108229582A (zh) * | 2018-02-01 | 2018-06-29 | 浙江大学 | 一种面向医学领域的多任务命名实体识别对抗训练方法 |
CN108984524A (zh) * | 2018-07-05 | 2018-12-11 | 北京理工大学 | 一种基于变分神经网络主题模型的标题生成方法 |
Non-Patent Citations (1)
Title |
---|
丁亮等: "融合领域知识与深度学习的机器翻译领域自适应研究", 《情报科学》 * |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263343A (zh) * | 2019-06-24 | 2019-09-20 | 北京理工大学 | 基于短语向量的关键词抽取方法及*** |
CN110472238A (zh) * | 2019-07-25 | 2019-11-19 | 昆明理工大学 | 基于层级交互注意力的文本摘要方法 |
CN110472238B (zh) * | 2019-07-25 | 2022-11-18 | 昆明理工大学 | 基于层级交互注意力的文本摘要方法 |
CN110674648B (zh) * | 2019-09-29 | 2021-04-27 | 厦门大学 | 基于迭代式双向迁移的神经网络机器翻译模型 |
CN110674648A (zh) * | 2019-09-29 | 2020-01-10 | 厦门大学 | 基于迭代式双向迁移的神经网络机器翻译模型 |
CN110766073B (zh) * | 2019-10-22 | 2023-10-27 | 湖南科技大学 | 一种强化主题注意力机制的移动应用分类方法 |
CN110766073A (zh) * | 2019-10-22 | 2020-02-07 | 湖南科技大学 | 一种强化主题注意力机制的移动应用分类方法 |
CN112925516A (zh) * | 2019-12-06 | 2021-06-08 | 奥多比公司 | 用上下文信息进行槽填充 |
US11775761B2 (en) | 2020-01-15 | 2023-10-03 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for mining entity focus in text |
CN111274815A (zh) * | 2020-01-15 | 2020-06-12 | 北京百度网讯科技有限公司 | 用于挖掘文本中的实体关注点的方法和装置 |
CN111274815B (zh) * | 2020-01-15 | 2024-04-12 | 北京百度网讯科技有限公司 | 用于挖掘文本中的实体关注点的方法和装置 |
CN111444712A (zh) * | 2020-03-25 | 2020-07-24 | 重庆邮电大学 | 一种关键词提取方法、终端、计算机可读存储介质 |
CN111444712B (zh) * | 2020-03-25 | 2022-08-30 | 重庆邮电大学 | 一种关键词提取方法、终端、计算机可读存储介质 |
CN113723088A (zh) * | 2020-05-25 | 2021-11-30 | 阿里巴巴集团控股有限公司 | 自然语言处理方法、装置、文本处理方法、设备和介质 |
CN111813924A (zh) * | 2020-07-09 | 2020-10-23 | 四川大学 | 基于可扩展动态选择与注意力机制的类别检测算法及*** |
CN111813924B (zh) * | 2020-07-09 | 2021-04-09 | 四川大学 | 基于可扩展动态选择与注意力机制的类别检测算法及*** |
CN111881257A (zh) * | 2020-07-24 | 2020-11-03 | 广州大学 | 基于主题词和语句主旨的自动匹配方法、***及存储介质 |
CN111881257B (zh) * | 2020-07-24 | 2022-06-03 | 广州大学 | 基于主题词和语句主旨的自动匹配方法、***及存储介质 |
CN111680669A (zh) * | 2020-08-12 | 2020-09-18 | 江西风向标教育科技有限公司 | 一种试题分割方法、***及可读存储介质 |
CN112100327B (zh) * | 2020-08-31 | 2022-05-31 | 北京航空航天大学 | 一种基于综合特征提取的对话摘要生成方法及*** |
CN112100327A (zh) * | 2020-08-31 | 2020-12-18 | 北京航空航天大学 | 一种基于综合特征提取的对话摘要生成方法及*** |
CN112463956A (zh) * | 2020-11-26 | 2021-03-09 | 重庆邮电大学 | 基于对抗学习和分层神经网络的文本摘要生成***和方法 |
CN112528667A (zh) * | 2020-11-27 | 2021-03-19 | 北京大学 | 一种语义解析上的领域迁移方法和装置 |
CN112464656A (zh) * | 2020-11-30 | 2021-03-09 | 科大讯飞股份有限公司 | 关键词抽取方法、装置、电子设备和存储介质 |
CN112464656B (zh) * | 2020-11-30 | 2024-02-13 | 中国科学技术大学 | 关键词抽取方法、装置、电子设备和存储介质 |
CN115329070B (zh) * | 2022-06-29 | 2023-03-24 | 北京数美时代科技有限公司 | 基于关键词的分类模型文本对抗方法、***和电子设备 |
CN115329070A (zh) * | 2022-06-29 | 2022-11-11 | 北京数美时代科技有限公司 | 基于关键词的分类模型文本对抗方法、***和电子设备 |
CN115809665B (zh) * | 2022-12-13 | 2023-07-11 | 杭州电子科技大学 | 一种基于双向多粒度注意力机制的无监督关键词抽取方法 |
CN115809665A (zh) * | 2022-12-13 | 2023-03-17 | 杭州电子科技大学 | 一种基于双向多粒度注意力机制的无监督关键词抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109918510B (zh) | 2022-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918510A (zh) | 跨领域关键词提取方法 | |
Zhang et al. | Sentiment classification using comprehensive attention recurrent models | |
Liu et al. | Deep fusion lstms for text semantic matching | |
Qu et al. | Question answering over freebase via attentive RNN with similarity matrix based CNN | |
CN112100351A (zh) | 一种通过问题生成数据集构建智能问答***的方法及设备 | |
CN109800411A (zh) | 临床医疗实体及其属性抽取方法 | |
CN111046673B (zh) | 一种用于防御文本恶意样本的对抗生成网络的训练方法 | |
CN111414461B (zh) | 一种融合知识库与用户建模的智能问答方法及*** | |
CN110334339A (zh) | 一种基于位置感知自注意力机制的序列标注模型与标注方法 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及*** | |
CN111079409B (zh) | 一种利用上下文和方面记忆信息的情感分类方法 | |
CN110765775A (zh) | 一种融合语义和标签差异的命名实体识别领域自适应的方法 | |
Zhang et al. | Dense video captioning using graph-based sentence summarization | |
CN110390397A (zh) | 一种文本蕴含识别方法及装置 | |
Diao et al. | A multi-dimension question answering network for sarcasm detection | |
CN111291556A (zh) | 基于实体义项的字和词特征融合的中文实体关系抽取方法 | |
Kleenankandy et al. | An enhanced Tree-LSTM architecture for sentence semantic modeling using typed dependencies | |
CN113392209A (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN114548101A (zh) | 基于可回溯序列生成方法的事件检测方法和*** | |
Cao et al. | Social media text generation based on neural network model | |
CN115796182A (zh) | 一种基于实体级跨模态交互的多模态命名实体识别方法 | |
CN111145914A (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN113220884A (zh) | 基于双滑动窗口的图神经网络文本情感分类方法 | |
Gong et al. | Hierarchical text-label integrated attention network for document classification | |
Xu et al. | Short text classification of chinese with label information assisting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |