CN109918510A

CN109918510A - 跨领域关键词提取方法

Info

Publication number: CN109918510A
Application number: CN201910235391.8A
Authority: CN
Inventors: 陈恩红; 王亚楠; 刘淇; 秦川; 徐童; 王怡君; 熊辉
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2019-06-21
Anticipated expiration: 2039-03-26
Also published as: CN109918510B

Abstract

本发明公开了一种跨领域关键词提取方法，包括：构建基于主题的对抗神经网络，其使用基于主题的编码器对源领域和目标领域的文本基于主题进行编码，并引入对抗学习来与双向自编码器来确保基于主题的编码器学习到的特征与领域无关以及保留目标领域的私有特征，最后由主题的对抗神经网络中的关键词标注器结合基于主题的编码器的输出，完成关键词提取；在训练阶段，不断优化基于主题的对抗神经网络内的各部分参数；在测试阶段，将目标领域的文本输入至训练好的基于主题的对抗神经网络，从而提取出关键词。该方法可实现无标签或少量标签的目标领域的关键词提取，相比传统模型，有效地利用了相关领域的信息。对于提取结果，在评价指标F1上有一定的提高。

Description

跨领域关键词提取方法

技术领域

本发明涉及迁移学习和关键词提取领域，尤其涉及一种跨领域关键词提取方法。

背景技术

关键词提取是一种从文本中自动提取高度概括文章内容的短语的任务。已有的关键词提取方法通常分为有监督和无监督两大类。有监督方法把关键词提取当成一个分类任务，从文本中得到的候选短语被分为关键短语和非关键短语。虽然有监督的关键词提取方法效果比较好但需要大量的有标签数据来训练一个鲁棒的模型。同时当有标签数目比较少时，可以使用无监督的关键词提取方法：基于图的排序方法，聚类方法，语言模型方法。然而，无监督的关键词提取方法的效果并不如用充分有标签数据训练的有监督方法。

此外，现有的大部分有监督和无监督的关键词提取方法都集中在单领域关键词提取，无法实现跨领域关键词的提取。

发明内容

本发明的目的是提供一种跨领域关键词提取方法，可以实现无标签或少量标签的目标领域的关键词提取，并具有较好的提取效果。

本发明的目的是通过以下技术方案实现的：

一种跨领域关键词提取方法，包括：

构建基于主题的对抗神经网络，该基于主题的对抗神经网络使用基于主题的编码器对源领域和目标领域的文本基于主题进行编码，并引入对抗学习来与双向自编码器来确保基于主题的编码器学习到的特征与领域无关以及保留目标领域的私有特征，最后由主题的对抗神经网络中的关键词标注器结合基于主题的编码器的输出，完成关键词提取；

在训练阶段，不断优化基于主题的对抗神经网络内的各部分参数；

在测试阶段，将目标领域的文本输入至训练好的基于主题的对抗神经网络，从而提取出关键词。

由上述本发明提供的技术方案可以看出，利用基于主题的对抗神经网络模型类进行跨领域关键词提取，可以实现无标签或少量标签的目标领域的关键词提取，相比传统模型，有效地利用了相关领域的信息。对于提取结果，在评价指标F1上有一定的提高。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种跨领域关键词提取方法的流程图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种跨领域关键词提取方法，主要包括：

为了便于理解，下面结合附图1对上述方案做详细的介绍。

一、数据爬取与数据预处理。

1、数据爬取。

从若干不同领域中爬取一定量的文本数据；所述文本数据包括：论文的题目、摘要和/或对应的关键词。

示例性的，可以根据中国计算机学会推荐国际学术会议和期刊目录选取了三个不同的领域：数据挖掘领域，语言与软件领域，计算机图形学领域。然后，依据这三个领域的国际学术会议和期刊爬取了对应的论文题目、摘要以及对应的关键词(如果有关键词的话)。

2、数据预处理。

1)对于爬取到的论文的题目和摘要，将二者拼接在一起作为一个文本；

2)对文本内容进行分词处理，把文本中的数字统一用数字0代替；

3)构建词向量所用的词表，选择词频数大于等于设定值(例如，设为15)的所有单词来构建词表，

对源领域和目标领域的文本均采用上述方式进行预处理，源领域文本与目标领域文本对应的词表分别记为x与x′(x与x′均可理解为一个样本)。

若还爬取到了关键词，则直接输入至关键词标注器进行关键词标注。

二、构建基于主题的对抗神经网络。

本发明实施例中，所构建的基于主题的对抗神经网络主要包括如下四个部分：基于主题的编码器，领域判别器，目标领域的双向解码器，关键词标注器。

1、基于主题的编码器。

所述基于主题的编码器，包括双向长短期记忆网络和主题注意力机制模块。

1)双向长短期记忆网络(BiLSTM)。

对于源领域文本对应的词表x＝(x₁，x₂，...，x_n)，其中n是源领域文本的长度；首先使用WordEmbedding的方法把文本映射成向量形式E＝(e₁，e₁，...，e_n)，再使用双向长短期记忆网络对向量序列E进行编码，向量e_i在两个方向的隐向量为：

最终向量e_i的隐向量表示为：

LSTM细胞单元为：

i_i＝σ(W_xie_i+W_hih_i-1+b_i)

f_i＝σ(W_xfe_i+W_hfh_i-1+b_f)

o_i＝σ(W_xoe_i+W_hoh_i-1+b_o)

h_i＝o_i⊙φ(c_i)

其中，i，f，o，c分别是输入门，输出门，遗忘门和记忆门；σ是sigmoid激活函数，是相应门的权重、偏置W_x*为相应门的权重，W_h*为对应上一时刻的权重，b_*为偏置，

对于目标领域文本对应的词表x′做相同的处理，最终向量e_i′的隐向量记为h_i′。

2)主题注意力机制模块

双向长短期记忆网络只考虑局部上下文的语义关系。然而关键词与文中的全局主题信息有关，因此，使用来考虑文本中每个词与主题的联系：

首先，使用预训练的LDA模型计算源领域中文档的主题分布来得到主题向量z；

然后，衡量隐向量h_i与主题向量z相关性的门t_i：

t_i＝tanh(W_zh_i+U_zz+b_z)

上式中，W_z、U_z、b_z是参数矩阵；

基于主题的特征向量表示如下：

从而得到源领域文本对应的词表x所对应的主题特征向量序列

对于目标领域做相同的处理，得到目标领域文本对应的词表x′所对应的主题特征向量序列

2、领域判别器

本发明实施例中，为了解决两个领域数据分布不一致的问题，通过带有对抗损失函数的领域判别器来学习领域无关的特征连接两个不同的领域。将判别器的参数表示为θ_d，基于主题的编码器的参数表示为θ_enc。在训练的过程中，领域判别器优化θ_d的参数来最小化判别器的损失函数来正确的区分出源领域和目标领域的特征表示。相反地，优化基于主题的编码器的参数θ_enc来最大化领域判别器的损失函数以降低判别器的准确率。最终这个对抗训练使得基于主题的编码器学到的主题特征向量序列(即，h^z与h^z′)是领域无关的，可以更好地泛化到其它领域。

因为卷积神经网络已经展示出了它在序列分类任务中有效性，本发明实施例中，带有对抗损失函数的领域判别器使用卷积神经网络来实现。

以主题特征向量序列h^z为例进行说明，卷积神经网络地输入是基于主题的编码器输出的主题特征向量序列其中d_h是LSTM细胞单元的大小；对该主题特征向量序列使用带有一个过滤器窗口大小为c个单词的卷积操作得到的新的特征向量如下：

q＝f(W_q*h^z+b_q)

其中，*是卷积操作，表示参数偏置，f是非线性的激活函数，可使用ELU激活函数；

最后，使用时间上的最大值池化操作来取它的最大值：

以上过程是使用一个过滤器，通过使用多个过滤器W_q以及多个窗口大小c来得到主题特征向量序列的多个特征；

对主题特征向量序列h^z′做相同的处理，得到多个特征。

在得到的这些特征上，使用softmax层来预测领域标签d∈{0，1}，其中，0，1分别表示源领域和目标领域；

领域判别器的目标是区分出源领域和目标领域样本的领域特征以及最小化下面的目标函数：

其中，是源领域的有标签样本数目，是源领域的无标签样本数目，N_t是目标领域的无标签样本数目，是预测的第j个样本的领域标签的概率，d_j是正确的领域标签，d_i∈{0，1}。

预测领域标签的目的主要是进行对抗训练，当领域判别器不能正确分类领域特征时，我们学习到领域无关的特征。

3、双向自编码器

带有对抗损失函数的领域判别器的主要目的是学习领域无关的特征并且想要消除所有的领域特有的信息。这对目标领域的关键词提取任务可能是有害的。为了保护目标领域的私有信息，本发明实施例提出在目标领域使用带有双向重建损失函数的解码器。这个无监督的损失函数可以鼓励模型保留目标领域主要的语义信息并且有效地利用目标领域地无标签数据。具体地，使用双向解码器从正向和反向来重建BiLSTM编码器的输出序列。

对于前向解码器，输出记为对于在第t个时间步预测的单词在字典上的概率分布：

其中，权重偏置是训练参数，x′_＜t表示第t个时间步之前的输入单词序列{x₁′，...，x_t-1′}，使用LSTM基于之前时间步的真实值e_t-1计算隐层状态s_t：

其中，是初始化的状态，使用前向编码器的最后一个状态来初始化前向解码器。

采用相同的方式，得到后向解码器的预测每一个单词的概率分布并且使用后向编码器的最后一个状态初始化后向解码器；

最终目标领域的双向重建损失函数是：

其中，N_t是目标领域的无标签样本数目，l_m是第m个文本序列的长度；x′_t是第t个单词的独热编码，是前向解码器预测的第t个单词的概率分布，是后向解码器预测的第t个单词的概率分布。

4、关键词标注器。

关键词标注器的输入是基于主题的编码器的输出。关键词标注器通过预测基于主题的编码器输出的主题特征向量中每个词的标签从而得到关键短语；每个词的标签有5种：B表示关键短语的开始，M表示关键短语的中间部分，E表示关键短语的结尾，S表示单个词成为关键短语，O表示当前词不是任何关键短语的一部分；这些标签之间有着强烈的依赖关系，例如标签M不可能在标签B前面。因此，我们使用条件随机场(CRF)来建模这些标签之间的依赖关系。

在训练阶段，对于给定的基于主题的编码器输出的主题特征向量序列以及相应的标签序列y＝(y₁，y₂，...，y_n)；序列y在h^z下的条件概率为：

其中，y(h^z)是对于h^z所有可能的标签序列，是得分，其中是标签的数目；是给第i个单词分配标签y_i的得分；标签转移概率矩阵，W_g和b_g分别是可训练的权重和偏置参数。

对于条件随机场的训练，最小化在源领域的有标签样本上的负的似然函数：

测试时，使用Viterbi算法搜索具有最高条件概率的标签序列：

三、模型参数的训练。

本步骤主要对上一步骤所建立的基于主题的对抗神经网络中的所有参数矩阵或向量进行训练。总体的训练目标函数看成是基于主题的编码器(参数为θ_enc)、关键词标注器(参数为θ_tagger)、目标领域双向解码器(参数为θ_dec)和领域判别器(参数为θ_d)之间的一个最小最大游戏：

其中，α与β为设定的权值；

为了愚弄领域判别器学习出领域无关的特征，使用领域判别器的损失函数的负的梯度来更新θ_enc，同时结合关键词标注器的损失函数双向重建损失函数得到总的损失函数来更新θ_enc，其中总的损失函数为：

上式中，α′与β′均为设定的权值；

整个训练过程交替进行，我们使用更新参数θ_d，使用更新参数θ_enc、θ_{tagg er}、θ_dec，所有参数的更新都使用反向传播算法。

四、对目标领域的文章提取关键词。

在测试阶段，将给定的目标领域的文本输入至训练好的基于主题的对抗神经网络，结合基于主题的编码器以及关键词标注器，得到文本序列的标签，整合得到对应的关键短语。

本发明实施例上述方案中，利用基于主题的对抗神经网络模型类进行跨领域关键词提取，可以实现无标签或少量标签的目标领域的关键词提取，相比传统模型，有效地利用了相关领域的信息。对于提取结果，在评价指标F1上有一定的提高。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种跨领域关键词提取方法，其特征在于，包括：

2.根据权利要求1所述的一种跨领域关键词提取方法，其特征在于，所述基于主题的编码器，包括双向长短期记忆网络和主题注意力机制模块；其中：

对于源领域文本对应的词表x＝(x₁，x₂，...，x_n)，其中n是文本的长度；首先使用WordEmbedding的方法把文本映射成向量形式E＝(e₁，e₂，...，e_n)，再使用双向长短期记忆网络对向量序列E进行编码，向量e_i在两个方向的隐向量为：

最终向量e_i的隐向量表示为：

LSTM细胞单元为：

i_i＝σ(W_xie_i+W_hih_i-1+b_i)

f_i＝σ(W_xfe_i+W_hfh_i-1+b_f)

o_i＝σ(W_xoe_i+W_hoh_i-1+b_o)

h_i＝o_i⊙φ(c_i)

其中，i，f，o，c分别是输入门，输出门，遗忘门和记忆门；σ是sigmoid激活函数是相应门的权重、偏置，W_x*为相应门的权重，W_h*为对应上一时刻的权重，b_*为偏置，i∈[1，n]；

对于目标领域文本对应的词表x′做相同的处理，最终向量e_i′的隐向量记为h_i′；

之后，使用主题注意力机制模块来考虑文本中每个词与主题的联系：

然后，衡量隐向量h_i与主题向量z相关性的门t_i：

t_i＝tanh(W_zh_i+U_zz+b_z)

上式中，W_z、U_z、b_z是参数矩阵；

基于主题的特征向量表示如下：

从而得到源领域文本对应的词表x所对应的主题特征向量序列

3.根据权利要求2所述的一种跨领域关键词提取方法，其特征在于，引入对抗学习来确保基于主题的编码器学习到的特征与领域无关，其通过带有对抗损失函数的领域判别器来实现；

所述带有对抗损失函数的领域判别器使用卷积神经网络来实现；

卷积神经网络输入基于主题的编码器输出的主题特征向量序列其中d_h是LSTM细胞单元的大小；对该主题特征向量序列使用带有一个过滤器窗口大小为c个单词的卷积操作得到的新的特征向量如下：

q＝f(W_q*h^z+b_q)

其中，*是卷积操作，f是非线性的激活函数；

最后，使用时间上的最大值池化操作来取它的最大值：

以上过程是使用一个过滤器，通过使用多个过滤器W_q以及多个窗口大小c来得到向量序列的多个特征；

对主题特征向量序列h^z′做相同的处理，得到多个特征；

其中，是源领域的有标签样本数目，是源领域的无标签样本数目，N_t是目标领域的无标签样本数目，是预测的第j个样本的领域标签的概率，d_j是正确的领域标签。

4.根据权利要求3所述的一种跨领域关键词提取方法，其特征在于，引入双向自编码器来保留目标领域的私有特征；其中：

其中是初始化的状态，使用前向编码器的最后一个状态来初始化前向解码器；

最终目标领域的双向重建损失函数是：

其中，N_t是目标领域的无标签样本数目，l_m是第m个文本序列的长度；是前向解码器预测的第t个单词的概率分布，是后向解码器预测的第t个单词的概率分布。

5.根据权利要求4所述的一种跨领域关键词提取方法，其特征在于，关键词标注器通过预测基于主题的编码器输出的主题特征向量中每个词的标签从而得到关键短语；每个词的标签有5种：B表示关键短语的开始，M表示关键短语的中间部分，E表示关键短语的结尾，S表示单个词成为关键短语，O表示当前词不是任何关键短语的一部分；使用条件随机场来建模这些标签之间的依赖关系；

在训练阶段，对于基于主题的编码器输出的主题特征向量序列以及相应的标签序列y＝(y₁，y₂，...，y_n)；序列y在h^z下的条件概率为：

其中，是对于h^z所有可能的标签序列，是得分，其中是标签的数目；是给第i个单词分配标签y_i的得分；标签转移概率矩阵，W_g和b_g分别是可训练的权重和偏置参数和是可训练的参数；

测试时，使用Viterbi算法搜索具有最高条件概率的标签序列：

6.根据权利要求5所述的一种跨领域关键词提取方法，其特征在于，所述在训练阶段，不断优化基于主题的对抗神经网络内的各部分参数包括：

总体的训练目标函数看成是基于主题的编码器的参数θ_enc、关键词标注器的参数θ_tagger、目标领域双向解码器的参数θ_dec和领域判别器的参数θ_d之间的一个最小最大游戏：

其中，α与β为设定的权值；

使用领域判别器的损失函数的负的梯度来更新θ_enc，同时结合关键词标注器的损失函数双向重建损失函数得到总的损失函数来更新θ_enc，其中总的损失函数为：

上式中，α′与β′均为设定的权值；

整个训练过程交替进行，使用更新参数θ_d，使用更新参数θ_enc、θ_tagger、θ_dec，所有参数的更新都使用反向传播算法。

7.根据权利要求1或6所述的一种跨领域关键词提取方法，其特征在于，在测试阶段，将目标领域的文本输入至训练好的基于主题的对抗神经网络，从而提取出关键词包括：

将给定的目标领域的文本输入至训练好的基于主题的对抗神经网络，结合基于主题的编码器以及关键词标注器，得到文本序列的标签，整合得到对应的关键短语。

8.根据权利要求1所述的一种跨领域关键词提取方法，其特征在于，在构建基于主题的对抗神经网络之前还包括：数据爬取与数据预处理的步骤；其中：

数据爬取包括：从若干不同领域中爬取一定量的文本数据；所述文本数据包括：论文的题目、摘要和/或对应的关键词；

数据预处理包括：对于爬取到的论文的题目和摘要，将二者拼接在一起作为一个文本；对文本内容进行分词处理，把文本中的数字统一用数字0代替；构建词向量所用的词表，选择词频数大于等于设定值的所有单词来构建词表；