CN106202010B

CN106202010B - 基于深度神经网络构建法律文本语法树的方法和装置

Info

Publication number: CN106202010B
Application number: CN201610546350.7A
Authority: CN
Inventors: 彭德光; 李鹏华; 孙健; 利节; 刘太林; 赵芬
Original assignee: Chongqing Trillion Light Polytron Technologies Inc
Current assignee: Chongqing Trillion Light Polytron Technologies Inc
Priority date: 2016-07-12
Filing date: 2016-07-12
Publication date: 2019-11-26
Anticipated expiration: 2036-07-12
Also published as: CN106202010A

Abstract

本发明提供一种基于深度神经网络构建法律文本语法树的方法和装置，其中，所述方法包括：获取法律服务的训练文本；对所述训练文本进行词向量稀疏表示；根据所述词向量稀疏表示通过DNN对所述训练文本进行语义标注；根据所述语义标注对所述训练文本进行依存描述，构建得到法律文本语法树。本发明提出一种***性的方法来构建法律服务领域中专业语言理解的语法树，并利用全局‑局部训练解决法律语言理解中语义偏差的问题。

Description

基于深度神经网络构建法律文本语法树的方法和装置

技术领域

本发明涉及计算机信息处理技术领域，具体涉及一种基于深度神经网络构建法律文本语法树的方法及装置。

背景技术

采用互联网技术推广法律服务，是解决当前法律服务供给不足、覆盖不全、发展不平衡等问题的一条有效途径。经过十多年发展，国内的“互联网+法律服务”领域已经取得很大进展，出现了一大批法律电商，产生了检索类网站、律师背景介绍、联系方式供客户参考等互动性更强的法律咨询服务。

然而，这些法律咨询服务大多采用常规的数据挖掘、专家***、文本检索等技术，并不足以支撑智能化、个性化的法律服务。

事实上，法律咨询是咨询主体将事件用语言（或文本）表述成一个客观事实，再由律师根据先验知识将该客观事实抽取为法律事实，接着依靠自身储备的法律知识体系对法律事实加工并做出决策的过程。

“互联网+法律服务”技术的一个重要目标是通过计算机逐步取代律师，将律师从简单的咨询服务中解放出来。因此，利用计算机自动地将用户描述文本抽取为客观事实，再抽取为法律事实并做出决策这一过程，本质上属于自然语言处理（NLP）的问题。

长期以来，机器学习一直都是NLP的主要工具。然而在NLP中，机器学习大多局限于针对从文本数据中所获取特征的数值权重优化。在最近的研究中，深度学习开始应用在NLP领域，并取得显著进展。深度神经网络（DNN）的出现显著降低了语言模型的困惑度，而困惑度是语言模型中一些基准任务的性能指标。通过引入“嵌入”（embedding）这个重要概念，DNN用连续实值向量来表示自然语言文本中词级、短语级、句子级的符号信息，在语言模型、词性标注、浅层句法分析、语义角色标注等任务中有着出色表现。Socher等人通过训练神经网络得到“词嵌入”较好解决同音异义和一词多义问题。现有技术还给出从大量无标注的训练数据中学习到内在表征和“词嵌入”的一般方法。在Mikolov等人的工作中，提出一种连续词袋模型（CBOW），通过层次Softmax算法并结合Huffman编码，使每个词都可从树的根结点沿着唯一路径被访问到，该路径即是词向量编码。在Mikolov团队后续工作中，借助反演预测提出跳跃文法模型（skip-gram），利用负采样提高了词嵌入的学习效率。Huang等人在扩展局部上下文模型的基础上，利用循环神经网络（RNN）学习词嵌入在语境中的语义信息。现有技术还采用复述检测方法设计一种RNN来合并自然语言的处理能力，在句法分析上取得显著效果。在一些现有技术中，还考虑了局部上下文和全局上下文模型，通过从训练的整体文档中获取全局语义向量，并将其作为原始局部上下文词嵌入模型输入的一部分，提高句法分析的准确性。

尽管上述DNN技术爆发式地应用于NLP邻域获得许多富有成效的结果，但DNN在NLP领域所表现出的优势并没有超过其在语音或视觉目标识别上体现的优势。其中一个重要原因在于缺乏***性的方法来构建语法树。

此外，目前的研究大多数关注于英语等语言模型，对于中文，特别地在一些垂直领域，比如法律服务、医疗服务等领域所涉及的专业语言理解，国内外的相关研究成果依然较少。

综上，现有技术中没有采用***性的方法来构建法律服务领域中专业语言理解的语法树的方法，而且，现有的法律语言理解中存在很严重的语义偏差问题。

发明内容

针对现有技术中的缺陷，本发明提供一种基于深度神经网络构建法律文本语法树的方法及装置。

一种基于深度神经网络构建法律文本语法树的方法，所述方法包括：

获取法律服务的训练文本；

对所述训练文本进行词向量稀疏表示；

根据所述词向量稀疏表示通过DNN对所述训练文本进行语义标注；

根据所述语义标注对所述训练文本进行依存描述，构建得到法律文本语法树。

优选地，所述获取法律服务的训练文本，包括：

由网络爬虫从互联网获取法律服务相关的数据；

去除所述数据中的非法律要素，得到训练文本。

优选地，所述对所述训练文本进行词向量稀疏表示，包括：

将所述训练文本经过分词处理后提交给预设的CBOW模型转化为词向量的稀疏表示。

优选地，所述转化为词向量的稀疏表示包括：

对所述训练文本中一段长度为的词序列，所述CDOW模型的输入为：

；

其中，表示目标词所处的上下文语境，表示以为中心，分别向前向后个词构成的词序列，，一般取奇数；表示上下文语境中的第个词，表示对应的词向量。

优选地，所述CBOW模型的输出层对应一个二叉树，通过哈弗曼编码实现词向量的稀疏表示。

优选地，所述DNN的输入层为所述训练文本中由个词序列构成的一个句子，表示为，以及该句子所对应的词性标注序列和关系标签序列。

一种基于深度神经网络构建法律文本语法树的装置，所述装置包括：

获取模块，用于获取法律服务的训练文本；

处理模块，用于对所述训练文本进行词向量稀疏表示；

标注模块，用于根据所述词向量稀疏表示通过DNN对所述训练文本进行语义标注；

构建模块，用于根据所述语义标注对所述训练文本进行依存描述，构建得到法律文本语法树。

由上述技术方案可知，本发明提出一种***性的方法来构建法律服务领域中专业语言理解的语法树，并利用全局-局部训练解决法律语言理解中语义偏差的问题。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1示出了生成法律文本稀疏词向量的CDOW模型；

图2示出了语义标注深度神经网络网络；

图3示出了本发明实施例一种基于深度神经网络构建法律文本语法树的方法的流程图；

图4示出了本发明实施例一种基于深度神经网络构建法律文本语法树的装置的结构图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只是作为示例，而不能以此来限制本发明的保护范围。

本发明提出一种在深度学习下的法律文本语法树训练方法。该方法将数据清洗后的法律文本利用word2vec转换为词向量，接着将这些词向量提交给连续词袋模型以获取文本在分词级别下的稀疏词嵌入表征。接着根据稀疏词设计一种基于标准转换的神经网络模型，该模型能完成词类/词性标注（根据词在上下文中的功能进行划分，词包括名词、代词、动词、形容词、副词、介词、连词、感叹词和冠词），根据依存关系进行句法分析（把句子分解成各个组成词类，并从形式、功能和各部分的句法关系上加以说明），以及句子压缩。

本发明能够通过一个比局部转换模型在表达方式上更加严格且丰富的全局转换模型来克服语义标签的偏差问题。

下面对本发明提供的基于深度神经网络构建法律文本语法树的方法和装置的一种实施例进行详细介绍。

首先，对法律文本进行词向量稀疏表示。

具体的，法律服务的训练文本由网络爬虫从互联网获取，经过数据清洗，在去掉文本中的链接、图像、广告等无关要素之后得到纯净文本。

法律服务的测试文本由用户直接输入，并限定为文档录入。训练文本经过分词处理后提交给如图2所示的CBOW模型转化为词向量的稀疏表示。

具体地，对训练文本中一段长度为的词序列，CDOW模型的输入为：

（1）

其中，表示目标词所处的上下文语境，即以为中心，分别向前向后个词构成的词序列，，一般取奇数。表示上下文语境中的第个词，表示对应的词向量。目标词出现的概率可表示为：

（2）

这里，表示长度为的词序列所对应的词汇表。对于整个训练文本而言，CBOW的目标函数为：

（3）

其中，表示训练文本对应的字典，即文本中所有词及其上下文语境构成的集合。

CBOW模型输出层对应一个二叉树，通过哈弗曼编码实现词向量的稀疏表示。哈弗曼树中的叶子结对应训练文本字典中的词向量，以表示，共个。非叶子结点对应一个向量，该向量代表一个词类，而不是具体的词向量，以表示，共个。对中的，当从根节点搜索到其对应的叶子节点所经过的路径为，长度为。该路径经历的非叶子节点为，除根节点之外的所有节点对应的编码为，且。也就是说，于中的的唯一路径有个分支，且每个分支可看作一次二分类，该二分类的概率为：

（4）

其中，。由此，CBOW的目标参数为

（5）

记，则CBOW在学习率为时，关于参数与的学习规则分别可表示为：

（6）

（7）

通过上述学习规则，神经网络便能自动更新参数与，每次更新就完成一次对的搜索。当搜索到目标词时，神经网络训练完成，此时记录下相关的编码，即是目标词的稀疏词向量。

接着，对法律描述文本进行语义标注。

具体的，假设由CBOW模型获得目标词对应的稀疏表示（词嵌入）为一个维的向量，词嵌入矩阵为。目标词对应的词性标注向量为，关系标签向量为。相应地，由个词性向量构成的词性矩阵为，由个关系标签向量构成的关系标签矩阵为。此外，对法律训练文本定义三个属性状态集合，即各个词向量自身的状态集，词性状态集={名词，代词，动词，……}，关系标签集={限定关系，动宾关系，主谓关系，……}。

本发明通过构建如图3所示的一个DNN来实现对法律训练文本的语义标注。神经网络的输入层为训练样本中由个词序列构成的一个句子，即，以及该句子所对应的词性标注序列和关系标签序列。此时的状态属性集为。网络的隐藏层含有个子隐藏层。其中第1隐藏层节点数为，其输出为立方激活函数映射输出，即：

（8）

其中，第1隐藏层与稀疏词向量、词性标注向量、关系标签向量相连接的权值矩阵分别为、、，相应的偏置为。第2隐藏层为第1隐藏层的扩张输出为，即：

（9）

其中，为第2隐藏层偏置。第隐藏层中第个隐藏层输出为：

（10）

其中，是被选中作为层输入的神经元矩阵，为卷积核元素，为隐藏层共用偏置。第隐藏层对应的向下采样层灵敏度为：

（11）

其中，为向下采样权重，为向下采样层激活函数，表示向上采样操作，即通过卷积操作实现。输出层为：

（11）

其中，，为目标语义文本，为最后隐藏层神经元个数。

接着,对法律文本进行依存描述。

具体的，对于法律文本中给定的一句话，以表示。定义一个关于状态集，初始状态集，决策集，，转换函数，。则句子与文本中其他句子的依存关系用在状态下决策的得分函数计算，且对模型参数可导。与对应的决策数量用表示，对于长度为的句子，要完整地分析其依存关系，所需的决策数量为。

那么，法律文本中的目标句子与其他句子的依存关系可用一系列数组对加以描述，即。其中

（12）

（13）

（14）

约定，假设为一一映射，即一个状态编码了整个决策历史轨迹。因此，每一个状态都能通过一个唯一的，且由开始的决策序列达到。那么，决策序列与状态是可以互换的，则有：

（15）

上述得分函数可用一个神经网络表示，即：

（16）

其中，是神经网络除了输出层之外的所有参数，且是线性表达，为神经网络输出层的参数。表示状态，且该状态由神经网络参数计算得到。在下的条件概率分布为：

（17）

其中，剖分函数为：

（18）

每一个就是一个局部的标准量。决策序列的概率为：

（19）

通过定向搜索就可找到中的最大值。

类似地，定义一个全局标准量下的决策序列的概率分布为：

（20）

其中，

（21）

是训练文本中所有长度为的决策序列集合。通过定向搜索依然可以找到在全局标准量的最大值，即：

（22）

下面结合图3对本发明提供的一种基于深度神经网络构建法律文本语法树的方法进行介绍。

步骤301、获取法律服务的训练文本；

步骤302、对所述训练文本进行词向量稀疏表示；

步骤303、根据所述词向量稀疏表示通过DNN对所述训练文本进行语义标注；

步骤304、根据所述语义标注对所述训练文本进行依存描述，构建得到法律文本语法树。

在一实施例中，所述获取法律服务的训练文本，包括：

由网络爬虫从互联网获取法律服务相关的数据；

去除所述数据中的非法律要素，得到训练文本。

在一实施例中，所述对所述训练文本进行词向量稀疏表示，包括：

在一实施例中，所述转化为词向量的稀疏表示包括：

；

在一实施例中，所述CBOW模型的输出层对应一个二叉树，通过哈弗曼编码实现词向量的稀疏表示。

在一实施例中，所述DNN的输入层为所述训练文本中由个词序列构成的一个句子，表示为，以及该句子所对应的词性标注序列和关系标签序列。

本发明提供的一种基于深度神经网络构建法律文本语法树的装置，如图4所示，所述装置包括：

获取模块401，用于获取法律服务的训练文本；

处理模块402，用于对所述训练文本进行词向量稀疏表示；

标注模块403，用于根据所述词向量稀疏表示通过DNN对所述训练文本进行语义标注；

构建模块404，用于根据所述语义标注对所述训练文本进行依存描述，构建得到法律文本语法树。

需要注意的是，除非另有说明，本发明使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

本发明实施例所提供的基于深度神经网络构建法律文本语法树的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于深度神经网络构建法律文本语法树的方法，其特征在于，所述方法包括：

获取法律服务的训练文本；

对所述训练文本进行词向量稀疏表示；

根据所述语义标注对所述训练文本进行依存描述，构建得到法律文本语法树；

所述依存描述包括：对于法律文本中给定的一句话，法律文本中的目标句子与其他句子的依存关系可用数组对加以描述；利用神经网络表示得分函数，由神经网络计算得到局部标准量下的决策序列的概率，和全局标准量下的决策序列概率。

2.根据权利要求1所述的基于深度神经网络构建法律文本语法树的方法，其特征在于，所述获取法律服务的训练文本，包括：

由网络爬虫从互联网获取法律服务相关的数据；

去除所述数据中的非法律要素，得到训练文本。

3.根据权利要求1所述的基于深度神经网络构建法律文本语法树的方法，其特征在于，所述对所述训练文本进行词向量稀疏表示，包括：

4.根据权利要求3所述的基于深度神经网络构建法律文本语法树的方法，其特征在于，所述转化为词向量的稀疏表示包括：

对所述训练文本中一段长度为n的词序列w_i-(n-1),…w_i-1,w_i，所述CBOW模型的输入为：

其中，c表示目标词w_i所处的上下文语境，表示以w_i为中心，分别向前向后(j-1)/2个词构成的词序列，w_i-(j-1)/2,…w_i+(j-1)/2，j一般取奇数；w_k表示上下文语境中的第k个词，e(w_k)表示w_k对应的词向量。

5.根据权利要求3所述的基于深度神经网络构建法律文本语法树的方法，其特征在于，所述CBOW模型的输出层对应一个二叉树，通过哈弗曼编码实现词向量的稀疏表示。

6.根据权利要求1所述的基于深度神经网络构建法律文本语法树的方法，其特征在于，所述DNN的输入层为所述训练文本中由n_w个词序列构成的一个句子，表示为以及该句子所对应的词性标注序列和关系标签序列