CN109543017A

CN109543017A - 法律问题关键词生成方法及其***

Info

Publication number: CN109543017A
Application number: CN201811388135.4A
Authority: CN
Inventors: 谢松县; 曾道建; 陈仲生; 彭立宏; 高辉; 桂林; 韩冰; 唐志峰; 王宁
Original assignee: Guangzhou Semantic Technology Co Ltd
Current assignee: Guangzhou Semantic Technology Co Ltd
Priority date: 2018-11-21
Filing date: 2018-11-21
Publication date: 2019-03-29
Anticipated expiration: 2038-11-21
Also published as: CN109543017B

Abstract

本发明属于自然语言处理和机器学习技术领域，涉及一种法律问题关键词生成方法，该方法包括模型训练和预测输出两个主要步骤。本发明还提供了一种法律问题关键词生成***，该***包括：模型训练模块和预测输出模块，其中，所述模型训练模块包括：训练集提供模块、模型训练模块以及保存模块；所述预测输出模块包括：输入与生成模块、词向量集生成模块、向量输出模块、计算模块、概率分布输出模块以及关键词输出模块。本发明具有如下有益效果：在预测输出之前，先对seq2seq模型进行训练，使得本发明可以实现抽取法律问题中不存在的关键词；在解码过程中引入强化学习，从而显著提高抽取的关键词的准确性，并添加了注意力机制，突出了学习重点。

Description

法律问题关键词生成方法及其***

技术领域

本发明属于自然语言处理和机器学习技术领域，尤其涉及一种法律问题关键词生成方法及其***。

背景技术

关键词通常是一段简短的和总结性的内容，它能够描述较长文本中的主题信息。高质量的关键词能够为用户提供高度浓缩和有价值的信息。关键词抽取是自然语言处理中一个重要的任务，它在信息检索，问答***，文本摘要和文本分类等任务上发挥着重要作用。由于关键词抽取具有重大现实意义，许多研究者已经使用不同的方法对自动关键词抽取进行了研究。

由于科学出版物容易被公众获取，所以许多科学出版物数据集经常被用作关键词抽取算法的测试上。这些研究通常集中在从文档和文章中抽取关键词。这些文档的特点是一般有较长的篇幅。大多数已经存在的关键词抽取算法通常使用两个步骤来解决这个问题：第一步是将要抽取关键词的内容分为多个文本块，这些文本块作为候选关键词；第二步是对候选关键词按照对文本内容的重要性来进行排序。

随着网络信息的快速发展，在微博和推特上，短文本推文逐渐成为人们的主要信息来源。如何从海量的网络短推文中快速获得所需要的关键信息变得越来越重要，一些研究人员已经开始研究如何从短文本(例如推特)中抽取关键词的问题。

法律领域问答***能使人们更容易的获得法律信息。关键词有助于问答***更好更快的理解问题背后的用户意图，所以关键词抽取技术对法律问题解答***十分重要。

首先，在短文本中，许多语言学特征和统计特征无法使用，传统的关键词抽取方法是基于词出现和共现的次数来判断词的重要性，这类算法无法获取内容中的隐含语义。其次，两步关键词抽取方法(候选关键词生成和候选关键词排序)只能够抽取那些已经在源文本中出现过的短语作为关键词，然而在法律问题的短文本中对应的关键词并不会在源文本中一模一样的出现。

综上所述，当关键词在文档中以轻微不同的连续顺序或者同义词出现时，这类传统的方法将不能准确的抽取关键词。然而，在法律问答***中，问题是由普通用户提交的而不是由法律专家提交的，由于专业领域的限制，普通用户提交的问题文本口语化程度比较高，用传统的基于两步关键词抽取方法直接从源文本中抽取关键词将不能生成正式的法律术语。

关键词以简洁概括的短语描述文档，目前已经有许多关键词抽取算法，这些算法通常分为两个步骤：

第一步，利用一些启发式规则生成关键词候选集，因为生成的候选词要在之后进行过滤，为保证最终被抽取的关键词的准确性，所以在这个步骤中会生成大量的候选关键词。生成关键词候选集的主要方式有去除停用词，抽取指定词性的词(例如名词，形容词等)，抽取在Wikipedia等重要语料库中的n-gram和按照事先制定好的规则抽取n-gram或者名词短语等^[1]方法。

第二步，计算在候选关键词集中的每个候选关键词在文本中作为准确关键词的可能性。选取排名最高的候选关键词作为准确关键词。在此步骤中广泛使用的方法是有监督和无监督机器学习方法。在有监督的机器学习方法中，抽取关键词任务被转化为二元分类问题。有监督方法就需要有人工标注好的数据集，利用已经标注好的训练集训练分类器，同时利用训练好的分类器对训练集中的关键词进行抽取。抽取的关键词是训练集中的标注好的准确关键词就作为正例，如果不是就作为负例，然后正例和负例共同训练得到一个适用于关键词抽取的最终分类器。许多训练方法都已经用在训练分类器上，例如Frank等采用朴素贝叶斯训练分类器和Turney等^[2]采用决策树训练分类器。有监督关键词抽取方法还需要特征训练分类器，这些特征主要分为两大类：文本内部特征和文本外部特征，文本内部特征包括统计特征，结构特征和句法特征。文本外部特征包括Wikipedia等语料库中的词频，搜索引擎中查询的次数和词之间的语义关联等。无监督的方法有Mihalce和Tarau等^[3]提出的计算候选关键词之间的关联性基于图的排序方法和liu等^[4]提出的利用聚类的KeyCluster方法。

这些采用机器学的算法，例如TF-IDF和TextRank，都使用了大量的文本内语言学和统计学的特征。然而在我们抽取法律问题(短文本)关键词的上，文本中只含有极为少量的这类特征。

有一些学者已经研究如何从短文中抽取关键词，例如Zhang等^[5]，提出了一种联合循环神经网络模型对短文本进行关键词抽取，但是他们所提出的模型并不能抽取源文本中没有出现过的关键词，在短文本中，并不是所有的关键词都会在原文中出现。

背景技术中涉及到的参考文献：

[1]Frank E,Paynter GW,Witten IH,et al.Domain-Specific KeyphraseExtraction[C]//Inter national Joint Conference on Artificial Intelligence,1999:283-284.

[2]PD Turney.Learning Algorithms for Keyphrase Extraction[J].Information R-etrieval,2002,2(4):303-336.

[3]Mihalcea R,Tarau P.TextRank:Brin-ging Order into Texts[J].Emnlp,2004:404-411.

[4]Liu Z,Li P,Zheng Y,et al.Clustering to find exemplar terms forkeyphra-se extrac tion[J].Conf Empirical Meth-ods in Natural LanguageProcessing,2009,1:257-266.

[5]Zhang Q,Wang Y,Gong Y,et al.K-eyphrase Extraction Using Deep Recu-rrent Ne ural Networks on Twitter[C]//Conference on Empirical Methods inNatural Language Pro cessing,2016:836-845.

基于上述考虑，本发明提供一种新的法律问题关键词生成方法及其***。

发明内容

本发明提出了法律问题关键词生成方法及其***，其解决了传统方法不能抽取法律问题文本中不存在的关键词的技术问题。本发明的技术方案如下。

一种法律问题关键词生成方法，该方法包括如下步骤:

步骤S1、模型训练；

步骤S11、提供由法律问题与关键词对组成的训练集；

步骤S12、通过反向传播算法训练seq2seq模型；

步骤S13、通过所述seq2seq模型保存计算图结构和参数；

步骤S2、预测输出；

步骤S21、输入包含法律问题的语句，并将所述语句进行分词，生成词集；

步骤S22、将所述词集输入嵌入层，生成用于表示所述语句的词向量集；

步骤S23、将所述词向量集输入基于seq2seq模型的编码器中，输出用于表示所述语句的

向量输出；

步骤S24、通过基于seq2seq模型的解码器接收所述向量输出，并根据所述向量输出由注

意力机制计算出注意力向量；

步骤S25、根据所述向量输出和所述注意力向量输出关键词集合的概率分布，其中，所

述关键词集合包含多个与法律问题对应的关键词；

步骤S26、根据所述概率分布，由基于强化学习的选择器从所述关键词集合中选择概率

最大值对应的关键词进行输出。

优选的，在步骤S12中，所述seq2seq模型使用PyTorch工具在图形处理器上训练。

本发明还提供了一种法律问题关键词生成***，该***包括：

模型训练模块和预测输出模块，其中，

所述模型训练模块包括：

训练集提供子模块，用于提供由法律问题与关键词对组成的训练集；

模型训练子模块，用于通过反向传播算法训练seq2seq模型；

保存模块，用于通过所述seq2seq模型保存计算图结构和参数；

所述预测输出模块包括：

输入与生成模块，用于输入包含法律问题的语句，并将所述语句进行分词，生成词集；

词向量集生成模块，用于将所述词集输入嵌入层，生成用于表示所述语句的词向量集；

向量输出模块，用于所述词向量集输入基于seq2seq模型的编码器中，输出用于表示所述语句的向量输出；

计算模块，用于通过基于seq2seq模型的解码器接收所述向量输出，并根据所述向量输出由注意力机制计算出注意力向量；

概率分布输出模块，用于根据所述向量输出和所述注意力向量输出关键词集合的概率分布，其中，所述关键词集合包含多个与法律问题对应的关键词；

关键词输出模块，用于根据所述概率分布，由基于强化学习的选择器从所述关键词集合中选择最优的关键词进行输出。

优选的，所述seq2seq模型使用PyTorch工具在图形处理器上训练。

为了更好的理解本发明内容，下面结合现有技术中相关理论，对发明内容进行补充说明。

典型的基于RNN的编码器-解码器通常由两个RNN组成。一个作为编码器，另一个作为解码器。所提出的模型的编码器和解码器联合训练以最大化给定源序列的目标序列的奖励。如附图1所示，我们提出的方法是在解码器中用强化学习***编码器-解码器框架。***的输入是一个句子，它首先被编码器转换成相应的表示。然后，编码表示被馈送到解码器以生成关键词。正如介绍中所提到的，关键词的顺序在本文的任务中无关紧要，所以我们只关注生成的关键字句的正确性。因此，我们使用强化学习来优化外部奖励模型而不是提供每个时间步骤的监督关键词。

基于循环神经网络的编码器-解码器

循环神经网络(Recurrent Neural Network，RNN)是一种反馈型的神经网络。RNN的输出不仅与网络的权重和当前时刻的输入有关，还和之前的输入有关。在RNN的结构中，隐含层中的神经元互相连接，它的输入不但有当前时刻的输入还有上一个时刻隐含层神经元的输出。由于在训练RNN中，如果长时间的传播，会导致最后的求导结果趋于零，出现梯度消失的问题。所以在实践中，RNN还有一些门变体的形式例如LSTM(Long Short-TermMemory)和GRU(Gated Recurrent Unit)。LSTM隐含神经元通过不同的门来控制记住信息和忘记信息，所以LSTM能够克服RNN的缺点，从而学习到长时间的信息。RNN的另一种变体是双向循环神经网络(Bi-directional Recurrent Neural Network)，它能够连接正时间方向和负时间方向两种隐含状态。

基于RNN的编码器-解码器是主要用于序列到序列学习。在编码器-解码器的框架中，分为编码过程和解码过程。在编码过程中，每个时刻向编码器(Encoder)输入一个词，隐含层就会根据公式(1)而变化，当输入到最后一个词时，RNN编码就会最终将源序列转换成编码表示。因为RNN会把前面每一步的输入信息都保存，所以向量能够包含源序列的所有信息。用公式(1)来描述编码过程：

h_t＝f(x_t,h_t-1)；c＝φ(h₁,L,h_t) (1)

句子经过分词、word Embedding，转化为一个向量序列x_t，相继传入RNN单元后，每一个时间t都会保存一个状态和输出一个隐层h。h_t表示在t时刻，也就是在第t个输入下，RNN单元的输出向量；c表示此时RNN单元的状态向量，用φ集合表示。f是激活函数，一般为softmax。

在解码器的设计上，每个时刻都是用了相同的上下文向量c，有研究人员提出可以在不同时刻输入不同的上下文向量。引入了注意力机制的解编码器，就出现了引入了注意力机制的编解码器，也就是将向量c改为c_t′，表示t′时刻的上下文向量。那么在t′时刻，解码器的隐含状态S_t′为：

S_t′＝f(y_t′-1,S_t′-1,c_t′) (2)

其中S_t′是时间t′时RNN的隐含状态，y_t′-1是时间t′-1处的解码器中RNN单元的输出向量，取编码器隐含状态h_t的加权平均来设计不同的上下文向量c_t′，即：

其中是a_tt′表示权重值，因句子用时间序列进行表示，T表示句子的长度，与当前时刻编码器的隐含状态h_t以及上一个时刻的解码器隐含状态S_t′-1有关，即：

a_tt′＝soft max(a(s(S_t′-1,h_t))) (4)

选取不同的函数a，可以得到不同的注意力机制强化学习，a()表示sigmod激活函数，s()表示计算两个向量之间的距离，此处用的是点积来计算距离。

强化学习是环境状态映射到动作的学习，目的是使agent在与环境交互过程中获得最大的累计奖励。强化学习的过程就是agent根据当前所处的状态，做出动作，得到回报，转移到新的状态。这个过程会一直重复持续下去，直到到达终止状态。这个过程是马尔科夫决策过程，即下一个时刻的状态有且仅和当前时刻所处的状态和将要做出的动作有关。在本文的任务中，Seq2Seq模型被认为是一个agent，一个关键词抽取***可以表示为由agent生成的一系列关键词。我们将生成的关键词视为根据策略执行的动作，这个策略是由编解码器的循环神经网络模型定义的。优化网络参数以最大限度地提高策略搜索的累计奖励。

强化学习算法主要分为基于值函数的算法和基于策略梯度的算法。基于策略梯度的算法比基于值函数的Q-学习算法更适合我们场景。因为我们可以使用已经产生合理响应的MLE参数初始化基于RNN的编码器-解码器，在改变目标并调整为最大化总奖励的策略之前。另一方面，Q-学习算法是直接估计每个行动的预期奖励，这可能与MLE目标相差数量级，因此使得MLE参数不适合初始化。基于策略梯度的算法能够直接优化策略的预期总奖励，并直接在策略空间中搜索最优策略。

本文中使用强化学习进行序列决策，强化学习主要包含关键部分：agent(代理)、状态、动作、奖励，强化学习的目标就是获得最多的累计奖励。前面已经介绍，Seq2Seq模型被认为是agent，下面对动作，状态，奖励进行介绍。

用A为agent可以执行的动作的集合，a_t为集合中的元素，动作a_t表示在t时刻agent做出的动作。动作是问题的关键词序列，由于可以生成任意长度的序列，动作空间是无限的。

用P为所有状态的集合，p_t为集合中的元素，p_t表示在t时刻agent所处的状态。当前的状态由先前生成的关键词决定。通过将送到RNN编码器模型中，之前的解码被进一步转换为矢量表示。

与监督学习计算每一步骤的损失不同，我们设计评估标准来计算每个行动获得的奖励。最终奖励函数描述如下：

其中r(a_t)表示动作a_t的奖励，N_s是输出序列的长度，b_r的定义如下：

其中T表示目标序列集合。即使序列顺序与训练集不同，奖励函数也会为产生正确关键句的动作给出高分。输出序列的长度是不确定的。为了使奖励标准化，最终奖励除以序列的长度。如果模型生成重复的关键字，会在动作上添加惩罚项目。

传统Seq2Seq模型解码器输出序列时时采用贪婪的策略，即预测当前最大概率的关键词输出。加入强化学习机制后，强化学习相当于一个选择器，选择关键词集合的最佳组合，使得预测出的关键词集合整体概率最大。

本发明的有益技术效果：本发明通过在预测输出之前，先对seq2seq模型进行训练，解决了抽取法律问题中不存在的关键词的问题；本发明在解码过程中引入强化学习，提高抽取的关键词的准确性；解码器采用循环神经网络，并添加了注意力机制，突出了学习重点。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1为本发明的法律问题关键词生成方法的流程示意图；

图2为本发明模型训练的具体流程示意图；

图3为本发明的预测输出的具体流程示意图；

图4为本发明的法律问题关键词生成方法的具体应用流程框图；

图5为本发明的法律问题关键词生成***的结构框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1-3所示，本发明提供了一种法律问题关键词生成方法，该方法包括如下步骤:

步骤S1、模型训练；

步骤S11、提供由法律问题与关键词对组成的训练集；

实施例中，所述训练集可从国内的主流法律社区问题答案网站上获取，该网站包含法律问题和由用户协作注释的关键词，两者构成<法律问题，关键词>对。

步骤S12、通过反向传播算法训练seq2seq模型；

其中，所述seq2seq模型使用PyTorch工具在图形处理器上训练，优选的，所述图形处理器可选用英伟达公司的NVIDIA TITAN X图形处理器。

步骤S13、通过所述seq2seq模型保存计算图结构和参数；

所述计算图结构和参数是在所述步骤2中seq2seq模型训练中得到的。

步骤S2、预测输出；

步骤S21、在经过训练的模型中输入包含法律问题的待预测语句，并将所述语句进行分词，生成词集；

步骤S23、将所述词向量集输入基于seq2seq模型的编码器中，输出用于表示所述语句的向量输出；

步骤S24、通过基于seq2seq模型的解码器接收所述向量输出，并根据所述向量输出由注意力机制计算出注意力向量；

步骤S25、根据所述向量输出和所述注意力向量输出关键词集合的概率分布，其中，所述关键词集合包含多个与法律问题对应的关键词；

步骤S26、根据所述概率分布，由基于强化学习的选择器从所述关键词集合中选择最优的关键词进行输出。

为了使本领域技术人员更清楚本发明提供的所述法律问题关键词生成方法，现通过实施例进行具体说明。下表1为采用本发明提供的所述法律问题关键词生成方法所生成的关键词的例子。

表1

由表1可以看出，采用本发明提供的所述法律问题关键词生成方法可以实现抽取法律问题中不存在的关键词，而且生成的关键词更加符合法律问题的题意。

再请参阅图4所示，图4为本发明提供的法律问题关键词生成方法的具体应用流程框图，取表1中法律问题1进行说明，其中，Encoder为编码器，Decoder为解码器，Attentionvector为注意力向量，h₁-h₇为向量输出，P₁-P_n为关键词出现的概率；multinomial表示根据关键词出现的概率进行随机采样。

法律问题被分词成被保险人、死亡、保险金、是否、属于、遗产和范围七个词，分别对应向量输出h₁-h₇。然后由注意力机制计算出注意力向量，通过解码器根据所述向量输出和所述注意力向量输出关键词集合的概率分布，最后由基于强化学习的选择器从所述关键词集合中选择最优的关键词进行输出，即得到生成的关键词。

由于训练集取自国内主流的法律社区问题答案网站，因此，与法律问题对应的关键词并不一定包含在法律问题文本内，本发明采用这种训练集训练seq2seq模型，从而在输入新的法律问题后，可以实现抽取的关键词不包含在新的法律问题文本内。

为证明本发明提供的法律问题关键词生成方法的优越性，现将本发明提供的方法与TF-IDF、TextRank、RNN以及CopyRNN四种传统方法进行比对，通过关键词抽取算法来进行实验。

关键词抽取算法的实验结果，如下表2所示，其中，P为精确度，r为召回率，F为F值(F值为精度和召回率的调和平均数)。

表2

	P	r	F
				TF-IDF	0.4665	0.5195	0.4916
TextRank	0.5977	0.6231	0.6101
				RNN	0.7609	0.7885	0.7745
CopyRNN	0.7551	0.7618	0.7584
				本发明	0.7784	0.8066	0.7923

在表2中，TF-IDF和TextRank这两种方法从问题中抽取可能的关键短语并对它们进行排名，关键词的重要性随着它在问题中出现的次数成正比增加，但同时会随着它在整个问题语料库中出现的频率成反比下降。RNN和CopyRNN这两种方法基于序列到序列模型来抽取可能的关键字。RNN是指具有交叉熵损失的基本序列到序列模型。CopyRNN在RNN中引入了一个拷贝机制。

经过关键词抽取算法的实验，可见，在精确度，召回率和F值上，本发明提供的方法明显优于传统的四种主流方法，本发明通过引入强化学些，而非交叉熵学习，从而取得更为有效的关键词生成方法。

请参阅图5所示，本发明还提供了一种法律问题关键词生成系100，该***包括：

模型训练模块1和预测输出模块2，其中，所述模型训练模块1包括训练集提供子模块11、模型训练子模块12以及保存模块13，所述预测输出模块2包括输入与生成模块21、词向量生成模块22、向量输出模块23、计算模块24、概率分布输出模块25以及关键词输出模块26。

所述训练集提供模块11，用于提供由法律问题与关键词对组成的训练集。

所述模型训练模块12，用于通过反向传播算法训练seq2seq模型。

所述保存模块13，用于通过所述seq2seq模型保存计算图结构和参数。

所述输入与生成模块21，用于输入包含法律问题的语句，并将所述语句进行分词，生成词集。

所述词向量集生成模块22，用于将所述词集输入嵌入层，生成用于表示所述语句的词向量集。

所述向量输出模块23，用于所述词向量集输入基于seq2seq模型的编码器中，输出用于表示所述语句的向量输出。

所述计算模块24，用于通过基于seq2seq模型的解码器接收所述向量输出，并根据所述向量输出由注意力机制计算出注意力向量。

所述概率分布输出模块25，用于根据所述向量输出和所述注意力向量输出关键词集合的概率分布，其中，所述关键词集合包含多个与法律问题对应的关键词。

所述关键词输出模块26，用于根据所述概率分布，由基于强化学习的选择器从所述关键词集合中选择最优的关键词进行输出。

在本发明中，所述编码器和所述解码器均基于循环神经网络设计的，主要可用于序列到序列学习。本发明提供的所述法律问题关键词生成方法是在解码器中用强化学习***编码器-解码器框架，当输入一个包含法律问题的语句时，该语句先被编码器转换成相应的编码表示，即向量输出；然后，编码表示被送到解码器以生成关键词，在本发明提供的方法中，关键词的顺序在本发明提供的方法中无关紧要，所以，本发明只关注生成的关键字的正确性。

以上包含了本发明优选实施例的说明，这是为了详细说明本发明的技术特征，并不是想要将发明内容限制在实施例所描述的具体形式中，依据本发明内容主旨进行的其他修改和变型也受本专利保护。本发明内容的主旨是由权利要求书所界定，而非由实施例的具体描述所界定。

Claims

1.一种法律问题关键词生成方法，其特征在于，该方法包括如下步骤:

步骤S1、模型训练；

步骤S11、提供由法律问题与关键词组成的训练集；

步骤S12、通过反向传播算法训练seq2seq模型；

步骤S13、通过所述seq2seq模型保存计算图结构和参数；

步骤S2、预测输出；

步骤S26、根据所述概率分布，由基于强化学习的选择器从所述关键词集合中选择概率最大值对应的关键词进行输出。

2.根据权利要求1所述的法律问题关键词生成方法，其特征在于，在步骤S12中，所述seq2seq模型使用PyTorch工具在图形处理器上训练。

3.一种法律问题关键词生成***，其特征在于，该***包括：

模型训练模块和预测输出模块，其中，

所述模型训练模块包括：

模型训练子模块，用于通过反向传播算法训练seq2seq模型；

保存模块，用于通过所述seq2seq模型保存计算图结构和参数；

所述预测输出模块包括：

4.根据权利要求3所述的法律问题关键词生成***，其特征在于，所述seq2seq模型使用PyTorch工具在图形处理器上训练。