CN110717324B

CN110717324B - 裁判文书答案信息提取方法、装置、提取器、介质和设备

Info

Publication number: CN110717324B
Application number: CN201910840224.6A
Authority: CN
Inventors: 孙玉霞; 杨梓铭; 邝庆璇
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2023-04-07
Anticipated expiration: 2039-09-06
Also published as: CN110717324A

Abstract

本发明公开了一种裁判文书答案信息提取方法、装置、提取器、介质和设备，首先针对于训练样本集中的数据包括裁判文书、问题以及参***进行以中文词汇为粒度的分词处理，然后针对于分词获取到的各词块进行编码，得到各词块的文本特征；然后通过各训练样本中各词块的文本特征对ERNIE模型进行训练，得到预测模型；通过训练样本针对深度神经网络进行训练，得到答案验证模型；在进行测试时，将裁判文书和问题进行分词和编码处理后均输入到预测模型中得到预测答案，将预测答案输入到答案验证模型进行验证，在验证通过的情况下，将预测答案作为最终答案，否则判定无解。本发明大大提高了裁判文书答案信息提取的准确度。

Description

裁判文书答案信息提取方法、装置、提取器、介质和设备

技术领域

本发明涉及裁判文书信息处理技术领域，特别涉及一种裁判文书答案信息提取方法、装置、提取器、介质和设备。

背景技术

随着我国法制建设不断发展和完善，海量的中文法律裁判文书(涉及隐私和国家机密，商业秘密除外)被公开，为司法、执法乃至相关法律研究积累了大量的参考素材。法律裁判文书中含有十分丰富的案件关键信息，比如时间、地点、人物关系等等，因此长期以来，法官、律师及其他法律人员会人工地阅读相关中文裁判文书，来获取相关信息。

然而人工阅读裁判文书有如下不足：(1)裁判文书的数量巨大，需要花费较多的时间与精力进行检索筛选，这会影响信息获取的效率。(2)在检索到了相关裁判文书后，仍需要人工地排除并非阅读者所需的冗余信息，从而找到有用信息。(3)裁判文书包含相对于非法律专业人士而言晦涩的术语，不利于大多数群众进行直接的阅读理解。

因此，机器智能化提取法律文书信息的研究，具有重要的意义。该技术的目的是：使用自然语言处理的模型对裁判文书进行挖掘，在使用者提出问题时，利用机器阅读理解裁判文书，从中提取出相应的回答信息，即答案，从而提高了工作效率。

现有可用于文本信息提取的相关技术包括：

(1)Hochreiter等人提出的LSTM(Long short-term memory长短期记忆)模型，该模型在可以接收并处理不同长度的语句序列，并捕捉出其中的文本特征，但不适用于进行并行计算。

(2)Kim提出的CNN模型也可用于裁判文书文本信息提取，该模型更加支持并行计算，但其局部和实体之间的负相关会对模型有影响，在经过几层池化之后，词的位置特征也会丢失，预测结果也受不利影响。

(3)BERT模型，该模型利用大量数据集来进行无监督学习的预训练，预训练后的调优是利用特定的数据集来训练以适用于特性场景。许多场景下BERT能取得比LSTM和CNN更好的效果，但它并未引进只是图谱机制，不适用于知识驱动型的NLP任务，经过实验证明其在裁判文书信息提取方面不如基于知识增强的网络模型。

综上所述，目前工作成果主要利用文本特征提取信息，没有考虑到文本中语义知识实体的识别、上下文关联的文本特征提取、以及文本语义推理等问题，因此对于裁判文书所提出问题给出的回答信息，现有技术中的几种方法都不够准确。

发明内容

本发明的第一目的在于克服现有技术的缺点与不足，提供一种裁判文书答案信息提取方法，该方法结合了语义知识实体文本信息提取、知识增强模型和语义推理检验实现裁判文书答案信息的提取，大大提高了裁判文书答案信息提取的准确度。

本发明的第二目的在于提供一种裁判文书答案信息的提取装置。

本发明的第三目的在于提供一种裁判文书答案信息提取器

本发明的第四目的在于提供一种存储介质。

本发明的第五目的在于提供一种计算设备。

本发明的第一目的通过下述技术方案实现：一种裁判文书答案信息提取方法，步骤如下：

获取多个裁判文书，各裁判文书对应各问题为已知参***的，将各裁判文书及其对应的一个问题作为各训练样本；

针对于各训练样本中的裁判文书、问题以及训练样本中裁判文书对应问题的参***，以词汇为粒度进行分词；然后针对于分词获取到的各词块进行编码，得到训练样本中裁判文书、问题、参***的各词块对应的文本特征；

将各训练样本中裁判文书和问题的各词块对应的文本特征作为ERNIE模型的输入，将训练样本中参***的各词块对应的文本特征作为标签对ERNIE模型进行训练，得到预测模型；

针对于各训练样本，根据训练样本中裁判文书对应问题的参***确定训练样本中裁判文书对应问题是否具备可答性；将各训练样本的裁判文书和问题的连结整体作为前提、将各训练样本中裁判文书对应问题的参***作为假设均输入到深度神经网络中，将各训练样本中裁判文书对应问题是否具备可答性的结果作为深度神经网络输出，对深度神经网络进行训练，得到答案验证模型；

针对于要提取答案的裁判文书，将该裁判文书针对其所提出的问题作为测试样本；针对于测试样本中的裁判文书和问题，以词汇为粒度进行分词；然后针对于分词获取到的各词块进行编码，得到测试样本中裁判文书和问题中各词块对应的文本特征；

将测试样本中裁判文书和问题中各词块对应的文本特征输入到预测模型中，通过预测模型输出测试样本对应的预测答案；

将测试样本中裁判文书和问题的连结整体作为前提，将测试样本对应的预测答案作为假设，均输入到答案验证模型，通过答案验证模型得到测试样本对应的预测答案是否具备可答性；

若是，则将预测模型得到的预测答案作为测试样本中裁判文书提出问题的最终答案；

若否，则判定针对于裁判文书所提出的问题是无解的。

优选的，训练得到答案验证模型的深度神经网络为长短期记忆网络LSTM或BiLSTM。

优选的，针对于训练样本和测试样本中裁判文书和问题的各词块进行编码，生成分词向量、句对向量和位置向量，作为训练样本和测试样本中裁判文书和问题中各词块对应的文本特征；针对于训练样本中裁判文书对应问题的参***的各词块进行编码，生成分词向量、句对向量和位置向量，作为训练样本中的参***的各词块的文本特征。

更进一步的，在得到训练样本和测试样本中裁判文书和问题各词块的分词向量、句对向量和位置向量后，将裁判文书所有分词对应的分词向量、句对向量和位置向量进行融合得到第一张量；将问题所有分词对应的分词向量、句对向量和位置向量进行融合得到第二张量；在得到训练样本中裁判文书对应问题的参***的各词块对应的分词向量、句对向量和位置向量后，将参***所有分词对应的分词向量、句对向量和位置向量进行融合得到第三张量；

在对ERNIE模型进行训练时，将训练样本下得到的第一张量、第二张量作为ERNIE模型的输入，第三张量作为ERNIE模型的标签对ERNIE模型进行训练；在针对测试样本进行测试时，将测试样本下得到的第一张量和第二张量输入到预测模型中。

优选的，针对于训练样本和测试样本中裁判文书和问题以及训练样本中裁判文书对应问题的参***，分词器利用中文全词覆盖模型处理裁判文书和问题，以词汇为粒度进行分词，得到词语的词块，然后针对各词块进行编码得到各词块对应的分词向量、句对向量和位置向量。

优选的，裁判文书和问题的连结指的是：将问题对应的字符串接在裁判文书对应的字符后面。

本发明的第二目的通过下述技术方案实现：一种裁判文书答案信息提取装置，包括：

训练样本获取模块，用于获取多个裁判文书，各裁判文书对应各问题为已知参***的，将各裁判文书及其对应的一个问题作为各训练样本；

第一分词模块，用于针对于各训练样本中的裁判文书、问题以及各训练样本中裁判文书对应问题的参***，以词汇为粒度进行分词；

第一编码模块，用于针对于第一分词模块得到的各词块进行编码，得到训练样本中裁判文书、问题和参***的各词块对应的文本特征；

预测模型构建模块，用于将各训练样本中裁判文书和问题的各词块对应的文本特征作为ERNIE模型的输入，将各训练样本中参***的各词块对应的文本特征作为ERNIE模型的输出对ERNIE模型进行训练，得到预测模型；

答案验证模型构建模块，用于根据训练样本中裁判文书对应问题的参***确定训练样本中裁判文书对应问题是否具备可答性；将各训练样本的裁判文书和问题的连结整体作为前提、将各训练样本中裁判文书对应问题的参***作为假设均输入到神经网络中，将训练样本中裁判文书对应问题是否具备可答性的结果作为深度神经网络标签，对深度神经网络进行训练，得到答案验证模型；

测试样本获取模块，用于获取测试样本，所述测试样本为裁判文书以及针对该裁判文书所提出的问题；

第二分词模块，用于针对测试样本中的裁判文书和问题，以词汇为粒度进行分词；然后针对于分词获取到的各词块进行编码，得到测试样本中裁判文书和问题的各词块对应的文本特征；

预测模块，用于将测试样本中裁判文书和问题中各词块对应的文本特征输入到预测模型中，通过预测模型输出测试样本对应的预测答案；

验证模块，用于将测试样本中裁判文书和问题的连结整体作为前提，将测试样本对应的预测答案作为假设，均输入到答案验证模型，通过答案验证模型得到测试样本对应的预测答案是否具备可答性；

答案获取模块，在验证模块验证出测试样本对应的预测答案具备可答性的情况下，将预测模型得到的预测答案作为测试样本中裁判文书提出问题的最终答案，否则，判定针对于裁判文书所提出的问题是无解的。

本发明的第三目的通过下述技术方案实现：一种裁判文书答案信息提取器，包括分词器、编码器、答案提取器和答案验证器；其中：

所述分词器，用于输入各训练样本中的裁判文书、各训练样本中的问题、各训练样本中裁判文书对应问题的参***、测试样本中的裁判文书或测试样本中的问题，针对于上述输入，分别以词汇为粒度进行分词处理，得到上述输入对应的各词块；其中，将各裁判文书及其对应的一个问题作为各训练样本，训练样本中裁判文书对应的问题为已知参***的；将要提取答案的裁判文书及针对其所提出的问题作为测试样本；

所述编码器，用于输入分词器分词处理后所输出的各词块，针对于输入的各词块进行编码，以得到输入的各词块对应的文本特征；

所述答案提取器，用于输入测试样本中裁判文书和问题的各词块对应的文本特征，根据测试样本中裁判文书和问题的各词块对应的文本特征，从测试样本的裁判文书中提取出问题对应的答案，将该答案作为测试样本对应的预测答案；

答案验证器，用于输入测试样本中裁判文书和问题的连结整体，并且作为前提；用于输入答案提取器所提取出的测试样本对应的预测答案，并且作为假设；然后采用自然语言推理方式判定前提和假设之间是否蕴含关系，即判定测试样本对应的预测答案是否具备可答性；若是，则将预测模型得到的预测答案作为测试样本中裁判文书提出问题的最终答案；若否，则判定针对于裁判文书所提出的问题是无解的；

其中：

答案提取器，由ERNIE模型输入训练样本中裁判文书和问题的各词块对应的文本特征，将训练样本中参***的各词块对应的文本特征作为标签训练得到；

答案验证器，由深度神经网络输入作为前提的训练样本中裁判文书和问题的连结整体，输入作为假设的训练样本中裁判文书对应问题的参***，并且将训练样本中裁判文书对应问题是否具备可答性的结果作为标签训练得到。

本发明的第四目的通过下述技术方案实现：一种存储介质，存储有程序，所述程序被处理器执行时，实现本发明第一目的所述的裁判文书答案信息提取方法。

本发明的第五目的通过下述技术方案实现：一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现本发明第一目的所述的裁判文书答案信息提取方法。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明裁判文书答案信息提取方法中，首先针对于训练样本集中的数据包括裁判文书、问题以及参***进行以中文词汇为粒度的分词处理，然后针对于分词获取到的各词块进行编码，得到各词块的文本特征；然后通过各训练样本中得到各词块的文本特征对ERNIE模型进行训练，得到预测模型；同时通过训练样本中裁判文书、问题以及参***针对深度神经网络进行训练，得到答案验证模型；在进行实际测试时，首先将裁判文书及所提出的问题进行分词处理，然后针对各词块进行编码得到各词块的文本特征；将裁判文书和问题所对应的各词块的文本特征均输入到预测模型中得到预测答案，然后将预测答案输入到答案验证模型进行验证，在验证通过的情况下，将预测答案作为最终答案，否则判定针对于裁判文书所提出的问题是无解的。由上述可见，本发明方法将分词处理技术、ERNIE语言模型和应答检验相结合实现裁判文书答案信息的提取，其中分词处理技术利用了先验语义知识将裁判文书、问题转换成语义知识实体，语义知识实体中所提取的文本信息在通过基于知识增强的ERNIE语言模型检测出预测答案后，又由深度神经网络所构建的答案验证模型以语义推理技术检验输入问题的可回答性即所提取信息的可用性，大大提高了针对文本的阅读理解能力，使得裁判文书中答案信息提取的准确度更高。

(2)本发明裁判文书答案信息提取方法中，针对于训练样本和测试样本中裁判文书和问题以及训练样本中裁判文书对应问题的参***，分词器利用中文全词覆盖模型处理裁判文书和问题，以词汇为粒度进行分词，得到词语的词块，即语义知识实体；由上述可见，本发明方法采取全词覆盖来遮盖所有词片段，能够有效的帮助捕捉重要特征，提高了词法以及语法分析的准确度，从而进一步提高裁判文书中答案信息提取的准确度。

(3)本发明裁判文书答案信息提取方法中，训练得到答案验证模型的深度神经网络可以使用长短期记忆网络LSTM或BiLSTM，在针对于预测模型输出预测档案进行验证时，长短期记忆网络在其中实现语义推理功能，判定{问题,裁判文书}和预测答案之间是否存在逻辑蕴含关系，即检测针对于裁判文书所提出的问题是否具备可答性；其中，裁判文书和问题是前提，而预测的答案是假设，由长短期记忆网络训练得到的答案验证模型分类的类别包括蕴涵，矛盾和中立。如果验证结果是蕴含或中立，则表示问题是可回答有解的，预测答案是有效的。否则，问题是无法回答即无解的，裁判文书阅读器回答“未知”。由于LSTM或BiLSTM能自动提取并保留句子的词汇、语义信息特征，无需人工完成大量的特征提取工作，得到更丰富的文本特征。再者，LSTM或BiLSTM利用前提的词汇特征表达假设，以建立一个文本蕴含的关系，判断前提和假设之间是否存在文本蕴含，从而判断问题是否具有可回答性，提高问答回答的准确率。

附图说明

图1是本发明所获取实施例数据集分布图。

图2是本发明裁判文书答案信息提取器的结构原理图。

图3是本发明方法和现有技术中单纯使用ERNIE模型进行裁判文书答案信息提取结果对比图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1

本实施例公开一种裁判文书答案信息提取方法，步骤如下：

S1、获取多个裁判文书，各裁判文书对应各问题为已知参***的，将各裁判文书及其对应的一个问题作为各训练样本；

S2、针对于各训练样本中的裁判文书、问题以及训练样本中裁判文书对应问题的参***，以词汇为粒度进行分词，得到各词块；在本实施例中，通过分词器利用中文全词覆盖模型处理裁判文书、问题和参***，分词器基于字段(WordPiece)分词方法将词语划分为若干词块，再利用先验语义知识，将属于一个完整词语的词块进行覆盖，其中来自于一个词汇的词块被MASK覆盖，得到语义知识实体。上述全词覆盖模型是利用大量实体预训练后的、可以从文本中精确捕捉丰富特征的模型，在文本进行分词时，每个句子有一个标签[CLS]作为开始，并且两个句子之间被[SEP]分割。

针对于上述获取到的裁判文书、问题和参***中各词块分别进行编码，得到训练样本中裁判文书、问题、参***的各词块对应的文本特征；在本实施例中，针对于分词获取到的各词块进行编码生成分词向量Token embedding、句对向量Segment Embedding和位置向量Position Embedding，作为裁判文书、问题和参***中各词块对应的文本特征。其中分词向量Token embedding用于存储词块的词义，句对向量Segment Embedding存储词块与句子的包含关系，即词块位于的哪个句子；位置向量Position Embedding存储词块在句子中的位置。

在本实施例中，在得到训练样本中裁判文书、问题和参***各词块的分词向量、句对向量和位置向量后，将裁判文书所有分词对应的分词向量、句对向量和位置向量进行融合得到第一张量；将问题所有分词对应的分词向量、句对向量和位置向量进行融合得到第二张量；将参***所有分词对应的分词向量、句对向量和位置向量进行融合得到第三张量；

S3、将各训练样本中裁判文书和问题的各词块对应的文本特征作为ERNIE模型的输入，将训练样本中参***的各词块对应的文本特征作为标签对ERNIE模型进行训练，得到预测模型；

本实施例中由于步骤S2将训练样本中裁判文书的所有分词对应的分词向量、句对向量和位置向量进行融合得到第一张量，将训练样本中问题的所有分词对应的分词向量、句对向量和位置向量进行融合得到第二张量，将训练样本中参***的所有分词对应的分词向量、句对向量和位置向量进行融合得到第三张量；因此本步骤中针对ERNIE模型进行训练时，将各训练样本下得到的第一张量和第二张量作为ERNIE模型的输入，将第三张量作为ERNIE模型的标签针对ERNIE模型进行训练。

S4、针对于各训练样本，根据训练样本中裁判文书对应问题的参***确定训练样本中裁判文书对应问题是否具备可答性；将各训练样本的裁判文书和问题的连结整体作为前提、将各训练样本中裁判文书对应问题的参***作为假设均输入到深度神经网络中，将各训练样本中裁判文书对应问题是否具备可答性的结果作为深度神经网络输出，对深度神经网络进行训练，得到答案验证模型。

在本实施例中，深度神经网络可以使用长短期记忆网络LSTM或BiLSTM；上述裁判文书和问题的连结指：将问题对应的字符串接在裁判文书对应的字符后面，从而连结成一个整体。

S5、针对于要提取答案的裁判文书，将该裁判文书针对其所提出的问题作为测试样本；针对于测试样本中的裁判文书和问题，以词汇为粒度进行分词，得到各词块；在本实施例中，通过和步骤S2同样的分词方法针对测试样本中的裁判文书和问题进行分词，以得到测试样本中的裁判文书和问题对应的各语义知识实体。

针对于本步骤获取到的测试样本中的裁判文书和问题各词块进行编码，得到测试样本中裁判文书和问题中各词块对应的文本特征；在本实施例中，通步骤S2所示，针对于测试样本中裁判文书和问题中各词块进行编码生成分词向量Token embedding、句对向量Segment Embedding和位置向量Position Embedding，作为测试样本中裁判文书和问题中各词块对应的文本特征。在本实施例中，将测试样本中裁判文书的所有分词对应的分词向量、句对向量和位置向量进行融合得到第一张量，将测试样本中问题的所有分词对应的分词向量、句对向量和位置向量进行融合得到第二张量。

S6、将测试样本中裁判文书和问题中各词块对应的文本特征输入到预测模型中，通过预测模型输出测试样本对应的预测答案；在本实施例中，由于步骤S5将测试样本中裁判文书的所有分词对应的分词向量、句对向量和位置向量融合成第一张量，将测试样本中问题的所有分词对应的分词向量、句对向量和位置向量融合得到第二张量，因此在本步骤中，将测试样本下得到的第一张量和第二张量输入到预测模型中进行答案的预测。

S7、将测试样本中裁判文书和问题的连结整体作为前提，将测试样本对应的预测答案作为假设，均输入到答案验证模型，通过答案验证模型得到测试样本对应的预测答案是否具备可答性；

若否，则判定针对于裁判文书所提出的问题是无解的。

在本实施例中，步骤S1中构成训练样本的裁判文书可以收集自中国裁判文书网，在本实施例中，总共收集4千份民事裁判文书和4千份刑事裁判文书。每一份裁判文书包含5个问题，每个问题包含1个人工标注的参***。其中，问题分为3种类型，包含片段抽取问题、是非判断问题和无解问题。在训练预测模型和答案验证模型之前，对数据集进行具体分析。数据集的问题种类分布如图1所示，共有4万个问题，其中38766个问题是有解的，1234个问题是无解的。在有解问题中，共33651个问题属于片段抽取式问题，5115个问题属于是非判断式问题。片段抽取问题的答案来自裁判文书的原文，而且连续截取于其中的句子。大部分是非判断问题

以一般疑问句的形式提问，无解问题是指从裁判文书中无法找到相关信息的问题。

本实施例中，按照7:3的比例将上述数据集划分为训练集和测试集，将训练集用于模型的训练，测试集用于模型的阅读理解性能测试。将上述训练集用于本实施例方法，通过本实施例上述方法中的步骤得到预测模型和答案验证模型，然后将测试集用于本实施例方法，通过本实施例方法将测试集的测试样本输入到预测模型和答案验证模型中，得到裁判文书中答案信息提取的准确度如图3所示。基于上述相同的训练集和测试集，当采用单一ERNIE模型进行答案提取时，得到裁判文书中答案信息提取的平均准确度如图3中所示。对比图3中本实施例方法和单一ERNIE模型进行答案提取的方法，本实施例方法答案提取的准确度明显高很多。

实施例2

本实施例公开了一种裁判文书答案信息提取装置，包括：

第一分词模块，用于针对于各训练样本中的裁判文书、问题以及各训练样本中裁判文书对应问题的参***，以词汇为粒度进行分词；在本实施例中，第一分词模块通过分词器利用中文全词覆盖模型处理裁判文书、问题和参***，分词器基于字段(WordPiece)分词方法将词语划分为若干词块，再利用先验语义知识，将属于一个完整词语的词块进行覆盖，其中来自于一个词汇的词块被MASK覆盖，得到语义知识实体。

第一编码模块，用于针对于第一分词模块得到的各词块进行编码，得到训练样本中裁判文书、问题和参***的各词块对应的文本特征；在本实施例中，针对于分词获取到的各词块进行编码生成分词向量Token embedding、句对向量Segment Embedding和位置向量Position Embedding，作为裁判文书、问题和参***中各词块对应的文本特征。

预测模型构建模块，用于将各训练样本中裁判文书和问题的各词块对应的文本特征作为ERNIE模型的输入，将各训练样本中参***的各词块对应的文本特征作为ERNIE模型的输出对ERNIE模型进行训练，得到预测模型。

答案验证模型构建模块，用于根据训练样本中裁判文书对应问题的参***确定训练样本中裁判文书对应问题是否具备可答性；将各训练样本的裁判文书和问题的连结整体作为前提、将各训练样本中裁判文书对应问题的参***作为假设均输入到深度神经网络中，将训练样本中裁判文书对应问题是否具备可答性的结果作为深度神经网络标签，对深度神经网络进行训练，得到答案验证模型。在本实施例中，深度神经网络可以使用长短期记忆网络LSTM或BiLSTM；上述裁判文书和问题的连结指：将问题对应的字符串接在裁判文书对应的字符后面，从而连结成一个整体。

测试样本获取模块，用于获取测试样本，测试样本为裁判文书以及针对该裁判文书所提出的问题；

第二分词模块，用于针对测试样本中的裁判文书和问题，以词汇为粒度进行分词；然后针对于分词获取到的各词块进行编码，得到测试样本中裁判文书和问题的各词块对应的文本特征。在本实施例中，第二分词模块通过分词器利用中文全词覆盖模型处理测试样本中裁判文书、问题，分词器基于字段(WordPiece)分词方法将词语划分为若干词块，再利用先验语义知识，将属于一个完整词语的词块进行覆盖。

实施例3

本实施例公开了一种裁判文书答案信息提取器，如图2所示，包括分词器、编码器、答案提取器和答案验证器；其中：

在本实施例中，分词器利用中文全词覆盖模型处理测试样本中裁判文书、问题，分词器基于字段(WordPiece)分词方法将词语划分为若干词块Token，再利用先验语义知识，将属于一个完整词语的词块进行覆盖。如图2中所示，在文本进行分词时，每个句子有一个标签[CLS]作为开始，并且两个句子之间被[SEP]分割。其中Token1、Token2、Token3表示的是文本中某个句子分词后得到的3个词块，Token4、Token5、Token6表示的下一个句子分词后得到的3个词块。

所述编码器，用于输入分词器分词处理后所输出的各词块，针对于输入的各词块进行编码，以得到输入的各词块对应的文本特征；本实施例中，编码器针对各词块进行编码后，生成分词向量Token embedding、句对向量Segment Embedding和位置向量PositionEmbedding。图2中，EToken1、EToken2……表示的是分词向量，EA、EB……表示的是句对向量，其中同一个句子中的词块的句对向量相同，E0、E1……表示的是位置向量。

答案验证器，用于输入测试样本中裁判文书和问题的连结整体，并且作为前提；用于输入答案提取器所提取出的测试样本对应的预测答案，并且作为假设；然后采用自然语言推理方式判定前提和假设之间是否蕴含关系，即判定测试样本对应的预测答案是否具备可答性；若是，则将预测模型得到的预测答案作为测试样本中裁判文书提出问题的最终答案；若否，则判定针对于裁判文书所提出的问题是无解的。

其中：

实施例4

本实施例公开了一种存储介质，存储有程序，所述程序被处理器执行时，实现实施例1所述的裁判文书答案信息提取方法，如下：

若否，则判定针对于裁判文书所提出的问题是无解的。

本实施例中的存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、U盘、移动硬盘等介质。

实施例5

本实施例公开了一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现实施例所述的裁判文书答案信息提取方法，如下：

若否，则判定针对于裁判文书所提出的问题是无解的。

本实施例中所述的计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑等终端设备。

综上所述，本发明使用自然语言处理为法律实务提供了技术支持，而语言结构严谨的法律裁判文书为自然语言处理提供了良好的训练数据，充分发挥自然语言处理技术，提出了法律领域的计算机创新应用，其中ERNIE模型通过大规模语料库的语义知识实体进行建模训练后，得到用于预测答案的语音模型，即预测模型，该模型具有语义表示能力，能够识别现实应用中的信息实体。本发明利用深度神经网络(例如长短期记忆网络(LSTM))实现语义推理功能，将语义推理用于检验输入问题的可回答性，即判断问题能否在裁判文书中检索到答案。若能，则该问题是可回答的；否则该问题是无解的，语义推理技术避免了模型以不正确的文本片段回答无解的问题，从而提高信息提取的准确性；本发明以裁判文书和问题为前提，以问题对应的答案作为假设，使用长短期记忆网络(LSTM)实现分类器，判断前提和假设是否存在蕴含关系，从而检验问题的可回答性。本发明使用简便，用户输入需要分析的裁判文书和问题后，通过本发明就能自动从裁判文书中获取问题所对应的答案，大大提高了用户分析裁判文书的效率。本发明结合了中文全词覆盖、ERNIE模型的知识增强和语义推理，能够利用先验语义知识提取文本的信息，并根据语义推理检验所提取信息的可用性，提高了阅读理解和文本信息提取的准确率。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种裁判文书答案信息提取方法，其特征在于，步骤如下：

针对于训练样本和测试样本中裁判文书和问题的各词块进行编码，生成分词向量、句对向量和位置向量，作为训练样本和测试样本中裁判文书和问题中各词块对应的文本特征；针对于训练样本中裁判文书对应问题的参***的各词块进行编码，生成分词向量、句对向量和位置向量，作为训练样本中的参***的各词块的文本特征；

若否，则判定针对于裁判文书所提出的问题是无解的。

2.根据权利要求1所述的裁判文书答案信息提取方法，其特征在于，训练得到答案验证模型的深度神经网络为长短期记忆网络LSTM或BiLSTM。

3.根据权利要求1所述的裁判文书答案信息提取方法，其特征在于，在得到训练样本和测试样本中裁判文书和问题各词块的分词向量、句对向量和位置向量后，将裁判文书所有分词对应的分词向量、句对向量和位置向量进行融合得到第一张量；将问题所有分词对应的分词向量、句对向量和位置向量进行融合得到第二张量；在得到训练样本中裁判文书对应问题的参***的各词块对应的分词向量、句对向量和位置向量后，将参***所有分词对应的分词向量、句对向量和位置向量进行融合得到第三张量；

4.根据权利要求1所述的裁判文书答案信息提取方法，其特征在于，针对于训练样本和测试样本中裁判文书和问题以及训练样本中裁判文书对应问题的参***，利用中文全词覆盖模型处理裁判文书和问题，以词汇为粒度进行分词，得到词语的词块，然后针对各词块进行编码得到各词块对应的分词向量、句对向量和位置向量。

5.根据权利要求1所述的裁判文书答案信息提取方法，其特征在于，裁判文书和问题的连结指的是：将问题对应的字符串接在裁判文书对应的字符后面。

6.一种裁判文书答案信息提取装置，其特征在于，包括：

第一编码模块，用于针对于第一分词模块分词得到的各词块进行编码，得到训练样本中裁判文书、问题和参***的各词块对应的文本特征；

7.一种裁判文书答案信息提取器，其特征在于，包括分词器、编码器、答案提取器和答案验证器；其中：

其中：

8.一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1至5中任一项所述的裁判文书答案信息提取方法。

9.一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1至5中任一项所述的裁判文书答案信息提取方法。