CN110413783A

CN110413783A - 一种基于注意力机制的司法文本分类方法及***

Info

Publication number: CN110413783A
Application number: CN201910666514.3A
Authority: CN
Inventors: 金佳佳; 丁锴; 蒋立靓; 陈涛; 李建元
Original assignee: Enjoyor Co Ltd
Current assignee: Enjoyor Co Ltd
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2019-11-05
Anticipated expiration: 2039-07-23
Also published as: CN110413783B

Abstract

本发明涉及一种基于注意力机制的司法文本分类方法及***，本发明主要包括数据预处理操作，数据向量化处理，利用自注意力机制进行自我学习，利用协同注意力机制明确问题的意图，利用lstm训练文本分类模型。本发明采用多头自注意力机制，扩展模型关注不同位置的能力，解决多主题和中文文本深层语义表达不够全面的问题，使得中文文本所表示的语义信息更加准确和丰富；同时节约了时间成本。

Description

一种基于注意力机制的司法文本分类方法及***

技术领域

本发明涉及自然语言处理领域，尤其涉及一种基于注意力机制的司法文本分类方法及***。

背景技术

搜索引擎技术是近些年来互联网发展中出现的一项新技术，其应用的目的是帮助互联网用户在浩如烟海的信息中快速地找到并显示其所需信息。随着网络信息的飞速增长，搜索引擎已成为现代人上网获取信息的必备工具。法律检索是一个复杂、***、繁琐的工程或任务，如何从千万裁判文书中找到所想的内容，需要精细的安排与设计。法律搜索引擎可以帮助用户在海量司法库中快速地找到并显示其所需信息。例如中国裁判文书网内的裁判文书多达数千万件，每日新增数万件，民事案由达400多类，如何通过语义的理解对用户的输入进行意图识别，从而准确的找到用户所需信息，提高用户查询效率，是一项值得探讨的工作。搜索引擎意图识别存在以下难点：1、用户输入不规范，输入方式多样化，使用自然语言查询，甚至非标准的自然语言；2、用户的查询词表现出多意图；3、用户查询涉及主次意图。意图识别本质上是一个分类问题，司法文本类型细分种类繁多，文本分类技术可以识别出用户想要查询的司法文本类型，再通过搜索引擎中的倒排索引等排序技术返回用户想要的结果。用户输入文本存在模糊性、多意图性和不规范性等特点。用户输入文本的这些特点使文本分类面临以下难点：1、文本模糊性，用户输入的文本主要以短文本为主，缺少词语间潜在的语义关联关系，无法确认多义词；2、文本不规范性，用户输入不规范，输入方式多样化使文本中出现不规则特征词和分词词典无法识别的未登录词；3、文本多意图性，用户输入文本涉及多意图查询，传统的文本分类理解不了用户查询意图的主次，增加了分类的难度。

随着短文本数据的大量产生，人们针对短文本的分类技术做了大量探索和实践。专利申请号CN 201710686945.7提出了一种组合类降维算法和加权欠采样SVM算法相结合的短文本分类方法，解决了文本分类中高纬度稀疏性和类别不平衡的问题，但在多分类准确度上效果不佳。专利申请号CN201510271672.0公开了一种基于卷积神经网络的短文本分类方法，通过预训练的词表示向量对短文本进行语义扩展，利用卷积神经网络提取定长的语义特征向量，使其语义特征向量化表示得到进一步增强，并最终使其分类任务的性能得以改善。但该方法在垂直领域，很难根据外部辅助数据对语料进行扩充。

发明内容

本发明为克服上述的不足之处，目的在于提供一种基于注意力机制的司法文本分类方法及***，本发明主要包括数据预处理操作，数据向量化处理，利用自注意力机制进行自我学习，利用协同注意力机制明确问题的意图，利用lstm训练文本分类模型。本发明采用多头自注意力机制，扩展模型关注不同位置的能力，解决多主题和中文文本深层语义表达不够全面的问题，使得中文文本所表示的语义信息更加准确和丰富；同时节约了时间成本。

本发明是通过以下技术方案达到上述目的：一种基于注意力机制的司法文本分类方法，包括如下步骤：

(1)对收集得到的司法文本数据进行数据预处理，对预处理后的数据进行整理构建得到词汇表，并进行数据向量化；

(2)基于步骤(1)的结果，利用自注意力机制进行自我学习，得到自我关注向量，其中所述的自我关注向量包括问题文本的自我关注向量和答案文本的自我关注向量；

(3)利用co-attention协同注意力机制明确问题的意图，其中包括获取问题—答案视图、从不同的视角理解问题及输出问题向量；

(4)利用lstm神经网络对文本分类模型进行训练，基于训练得到的文本分类模型实现司法文本的快速分类。

作为优选，所述步骤(1)具体如下：

(1.1)收集司法文本数据：收集司法相关问答数据，其中问题作为训练数据，答案作为辅助数据，根据专家经验将司法问答数据打上类别标签，类别标签与司法案由一致；

(1.2)司法文本数据预处理：将收集的司法问答数据进行分词处理，同时去除停用词，得到词级与字符级共存的司法问题数据E_q和答案数据E_a；

(1.3)司法文本构建词汇表：将司法数据E_q和E_a中的字与词整理成集合作为数据中所用的词汇表C＝{unk：0,eos:1,…,c：vocab_size}，其中，unk为未知词，eos为结束标识，vocab_size为词汇表大小，c为司法数据E_q和E_a中的词或字；

(1.4)文本嵌入：根据输出词汇表C构造司法文本矩阵，并用向量表示。

作为优选，所述步骤(1.4)具体包括：假设一个司法问答数据预处理后，问题为其中L_q为问题固定的句长度，答案为其中L_a为答案固定的句长度，则根据输出的词汇表C构造司法文本矩阵，问题矩阵为答案矩阵为并利用WordEmbedding矩阵给每个字符分配一个固定长度为l的向量表示，得到问题向量答案向量

作为优选，所述步骤(2)具体如下：

(2.1)添加词位置标识：根据步骤(1)输出的问题向量分别给每个词的位置赋予一个位置向量，通过结合位置向量和问题向量，使每个词引入一定的位置信息，得到带位置信息的问题向量同理得到带位置信息的答案向量

(2.2)创建三个c,k,v矢量：初始化三个变量W^c,W^k,W^v∈R^l×l，分别与问题向量进行点乘：

(2.3)计算自注意力：计算问题文本中第一个词的自我关注，第一个得分score＝c₁·k₁，第二个得分score＝c₁·k₂，以此类推第L_q个得分将使梯度保持稳定，其中b_k为k的维度；

(2.4)Key Masking：对k进行求和为key_mask，记录key_mask为0时的索引，根据步骤(2.3)输出的score在相同索引处替换为小数字，保持关注的词或字的值不变并淹没不相关的词或字；

(2.5)输出自我关注向量：通过softmax将步骤(2.4)输出的分数标准化，softmax分数即此词在该位置表达的程度,由softmax分数乘以v为z₁(即第一个词的编码向量)，以此类推问题文本的自我关注向量同理得答案文本的自我关注向量

作为优选，所述步骤(2)还包括：

(2.6)采用多头自注意力机制，将步骤(2.1)输出的Q_p和A_p输入到步骤(2.2)、步骤(2.3)、步骤(2.4)和步骤(2.5)中重复多次，经过测试，重复8次效果最佳，得到

初始化权重W^O∈R^(l×8)×l，分别乘以Q'_attention和A'_attention对多头自注意力向量进行压缩，输出问题文本的自我关注向量和答案文本的自我关注向量扩展模型关注不同位置的能力。

作为优选，所述步骤(3)具体包括：

(3.1)获取问题-答案视图：将步骤(2)输出的问题文本的自我关注向量与答案文本的自我关注向量相乘，得到问题-答案矩阵Q·A；

(3.2)从不同的视角理解问题及输出问题向量：将步骤(3.1)输出的问题-答案矩阵Q·A对行进行max-pooling或mean-pooling或alignment-based pooling操作，得到问题向量表示

作为优选，所述的max-pooling是基于单词对另一文本序列的最大贡献来提取特征；mean-pooling是计算其对整个句子的贡献；alignment-based pooling是另一种协同注意力机制，它将语义相似的子短语对齐在一起；因此，可以选择任意一种、任意两种的组合或者三种组合，不同的pooling操作提供了不同的问题视角。

作为优选，若选择任意两种的组合或者三种组合，最后将不同视角下的问题向量结果拼接，即可得到多视角问题向量。

作为优选，所述步骤(4)具体如下：

(4.1)学习序列依赖表示：使用标准的LSTM在Q_pool和Q_attention之间共享权重，得到新的问题向量表示和其中L_lstm为隐含层维度；

(4.2)优化问题的自我学***均损失加速梯度下降，即利用协同注意力得到的高质量表示来加速自我学习能力，得到预训练模型M_Q·A；

(4.3)用户意图识别：保留预训练模型M_Q·A的自注意力层和lstm层，舍弃协同注意力层得到新的模型M_Q，将用户输入的文本进行预处理操作并输入到模型M_Q中预测分类，识别出用户意图，实现文本的分类。

一种基于注意力机制的司法文本分类***，包括：数据采集模块、特征提取模块、特征微调模块、网络训练模块；所述的数据采集模块用于采集司法领域的问答数据，并对采集得到的问题与答案进行数据清洗、分词与去停用词预处理操作，形成答案数据集和问题数据集；特征提取模块，采用自注意力机制提取问题数据特征和答案数据特征；特征微调模块采用协同注意力机制根据答案特征对问题特征进行微调，更新问题特征；网络训练模块采用lstm长短记忆网络进行分类训练，获得最终的分类模型。

本发明的有益效果在于：(1)本发明采用字向量与词向量共存的方法，同时保留了字与词的特征信息，从而能够获得更全面的文本特征；(2)本发明采用自注意力机制(self-attention)和协同注意力机制(co-attention)，提供了不同的视角去审视用户的输入文本,消除词级上存在的一词多义问题，用以学习高质量的向量表示，同时节约了时间成本；(3)本发明采用多头自注意力机制，扩展模型关注不同位置的能力，解决多主题和中文文本深层语义表达不够全面的问题，使得中文文本所表示的语义信息更加准确和丰富。

附图说明

图1是本发明的方法流程示意图；

图2是本发明的协同注意力结构示意图；

图3是本发明的意图识别流程示意图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此：

实施例：一种基于注意力机制的司法文本分类***，包括数据采集模块、特征提取模块、特征微调模块、网络训练模块；所述的数据采集模块用于采集司法领域的问答数据，并对采集得到的问题与答案进行数据清洗、分词与去停用词预处理操作，形成答案数据集和问题数据集；特征提取模块，采用自注意力机制提取问题数据特征和答案数据特征；特征微调模块采用协同注意力机制根据答案特征对问题特征进行微调，更新问题特征；网络训练模块采用lstm长短记忆网络进行分类训练，获得最终的分类模型。

如图1所示，一种基于注意力机制的司法文本分类方法，包括如下步骤：

(1)司法文本数据预处理：

(1.1)收集司法文本数据：收集司法相关问答数据共计10万，其中问题作为训练数据，答案作为辅助数据，根据专家经验将司法问答数据打上类别标签与司法案由的类别一致，司法案由根据国家法律法规确定，如《民事案由规定》等。

(1.2)司法文本数据预处理：将收集的司法问答数据进行分词处理(保留单字)，同时去停用词(数字、日期、标点符号等干扰信息)得到词级与字符级共存的司法问题数据E_q和答案数据E_a。

(1.3)司法文本构建词汇表：将步骤1.2输出的司法数据E_q和E_a中的字与词整理成集合，给每个词或者字赋予一个id作为数据中所用的词汇表C＝{unk：0,eos:1,受伤：2，…,酒驾：vocab_size}，其中unk为未知词，eos为结束标识，vocab_size＝10000为词汇表大小。

(1.4)文本嵌入(数据向量化)：根据步骤1.3输出的词汇表C，假设一个司法问答数据预处理后，问题为其中L_q＝50为问题固定的句长度，答案(answer)为其中L_a＝200为答案固定的句长度，则根据步骤1.3输出的词汇表C构造司法文本矩阵，问题矩阵为答案矩阵为利用WordEmbedding矩阵给每个字符分配一个固定长度为l＝200的向量表示，得到问题向量答案向量

(2)利用自注意力机制进行自我学习：

(2.1)添加词位置标识：根据步骤1.4输出的问题向量，分别给每个词的位置赋予一个位置向量，通过结合位置向量和问题向量，使每个词引入一定的位置信息，得到带位置信息的问题向量同理得带位置信息的答案向量

(2.3)计算自注意力：首先计算问题文本中第一个词的自我关注，第一个得分score＝c₁·k₁，第二个得分score＝c₁·k₂，以此类推第L_q个得分将(其中b_k为k的维度)使梯度保持稳定；

(2.4)Key Masking：对k进行求和为key_mask，记录key_mask为0时的索引，根据步骤2.3输出的score在相同索引处替换为小数字，保持关注的词或字的值不变并淹没不相关的词或字；

(2.5)输出自我关注向量：通过softmax将步骤2.4输出的分数标准化，softmax分数即此词在该位置表达的程度,由softmax分数乘以v为z₁(即第一个词的编码向量)，以此类推问题文本的自我关注向量同理得答案文本的自我关注向量(其中答案和问题的权重W^c,W^k,W^v共享)。

(2.6)本实施例采用多头自注意力机制，根据步骤2.1输出的Q_p和A_p输入到步骤2.2、步骤2.3、步骤2.4和步骤2.5中重复多次，经过测试，重复8次效果最佳，得到

初始化权重W^O∈R^(l×8)×l，分别乘以Q'_attention和A'_attention对多头自注意力向量进行压缩，输出和扩展模型关注不同位置的能力，解决多主题和中文文本深层语义表达不够全面的问题，使得中文文本所表示的语义信息更加准确和丰富。

(3)co-attention协同注意力机制明确问题的意图；其中，协同注意力结构如图2所示：

(3.1)获取问题-答案视图：将步骤2输出的问题的多头自我关注向量与答案的自我关注向量相乘，得到问题-答案矩阵Q·A；

(3.2)从不同的视角理解问题：将步骤3.1输出的问题-答案矩阵Q·A分别对行进行max-pooling，mean-pooling和alignment-based pooling操作，分别得到问题表示

则

其中max-pooling是基于单词对另一文本序列的最大贡献来提取特征；mean-pooling是计算其对整个句子的贡献；alignment-basedpooling是另一种协同注意力机制，它将语义相似的子短语对齐在一起。因此，可以选择任意一种、任意两种的组合或者三种组合，不同的pooling操作提供了不同的问题视角。

(3.3)输出问题向量：若选择前述任意一种pooling操作，直接得到对应的问题向量表示；若选择任意两种的组合或者三种组合，最后将不同视角下的问题向量结果拼接，即可得到多视角问题向量。本实施例通过max-pooling，mean-pooling和alignment-basedpooling操作获取不同视角的问题向量，经过测试将步骤3.2输出的Q_max、Q_mean、Q_alignment进行拼接得到多视角问题向量可以学习到高质量的向量表示，同时节约了时间成本。

(4)利用lstm训练文本分类模型：

(4.1)学习序列依赖表示：使用标准的LSTM在Q_pool和Q”_attention之间共享权重，得到新的问题向量表示和其中L_lstm＝1200为隐含层维度。关键思想是LSTM编码器通过使用非线性变换作为门控函数来学习表示序列依赖性的表示。因此，在该层之前注意力作为特征的关键思想是它为LSTM编码器提供了带有信息的提示，例如长期和全局句子知识和句子对(问题和答案)之间的知识。

(4.3)用户意图识别：如图3所示，保留预训练模型的自注意力层和lstm层，舍弃协同注意力层得到新的模型M_Q，根据步骤4.2输出的预训练模型M_Q·A，加载模型的自我关注层，lstm层权重，将用户输入的文本进行预处理操作，输入到模型M_Q中预测分类，识别出用户意图，实现文本的分类。

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种基于注意力机制的司法文本分类方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于注意力机制的司法文本分类方法，其特征在于：所述步骤(1)具体如下：

3.根据权利要求2所述的一种基于注意力机制的司法文本分类方法，其特征在于：所述步骤(1.4)具体包括：假设一个司法问答数据预处理后，问题为其中L_q为问题固定的句长度，答案为其中L_a为答案固定的句长度，则根据输出的词汇表C构造司法文本矩阵，问题矩阵为答案矩阵为并利用WordEmbedding矩阵给每个字符分配一个固定长度为l的向量表示，得到问题向量答案向量

4.根据权利要求1所述的一种基于注意力机制的司法文本分类方法，其特征在于：所述步骤(2)具体如下：

5.根据权利要求1所述的一种基于注意力机制的司法文本分类方法，其特征在于：所述步骤(2)还包括：

(2.6)采用多头自注意力机制，将步骤(2.1)输出的Q_p和A_p依次输入到步骤(2.2)、步骤(2.3)、步骤(2.4)和步骤(2.5)中并重复多次，重复次数优选为8次，得到

6.根据权利要求1所述的一种基于注意力机制的司法文本分类方法，其特征在于：所述步骤(3)具体包括：

7.根据权利要求6所述的一种基于注意力机制的司法文本分类方法，其特征在于：所述的max-pooling是基于单词对另一文本序列的最大贡献来提取特征；mean-pooling是计算其对整个句子的贡献；

alignment-based pooling是另一种协同注意力机制，它将语义相似的子短语对齐在一起；因此，可以选择任意一种、任意两种的组合或者三种组合，不同的pooling操作提供了不同的问题视角。

8.根据权利要求7所述的一种基于注意力机制的司法文本分类方法，其特征在于：若选择任意两种的组合或者三种组合，最后将不同视角下的问题向量结果拼接，即可得到多视角问题向量。

9.根据权利要求1所述的一种基于注意力机制的司法文本分类方法，其特征在于：所述步骤(4)具体如下：

10.一种基于注意力机制的司法文本分类***，其特征在于，包括：数据采集模块、特征提取模块、特征微调模块、网络训练模块；所述的数据采集模块用于采集司法领域的问答数据，并对采集得到的问题与答案进行数据清洗、分词与去停用词预处理操作，形成答案数据集和问题数据集；特征提取模块，采用自注意力机制提取问题数据特征和答案数据特征；特征微调模块采用协同注意力机制根据答案特征对问题特征进行微调，更新问题特征；网络训练模块采用lstm长短记忆网络进行分类训练，获得最终的分类模型。