CN112784034B

CN112784034B - 摘要生成方法、装置及计算机设备

Info

Publication number: CN112784034B
Application number: CN201911060461.7A
Authority: CN
Inventors: 张雅婷; 周鑫; 孙常龙; 张琼; 司罗
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-11-01
Filing date: 2019-11-01
Publication date: 2024-05-31
Anticipated expiration: 2039-11-01
Also published as: CN112784034A

Abstract

本申请公开了一种摘要生成方法、装置及计算机设备。其中，该方法包括：获取待检测庭审文字信息；基于法律知识要素图谱确定所述待检测庭审文字信息中每个角色的要素集合，得到多个要素集合，其中，该要素集合中的要素用于反映所述每个角色的争论要点；将所述多个要素集合中的要素输入至争议焦点模型中进行分析，得到至少一个争议焦点；提取所述至少一个争议焦点所在语句的摘要信息；输出所述摘要信息。本申请解决了人工在庭审记录中梳理争议焦点，影响案件审理效率的技术问题。

Description

摘要生成方法、装置及计算机设备

技术领域

本申请涉及计算机领域，具体而言，涉及一种摘要生成方法、装置及计算机设备。

背景技术

相关技术中，庭审笔录通常非常的冗长，一个1或2小时的庭审大约会产生1-3万字的庭审笔录。这导致了法官在庭审中或庭审结束后需要耗费大量时间进行案件的争议焦点梳理，影响案件审理的效率。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种摘要生成方法、装置及计算机设备，以至少解决人工在庭审记录中梳理争议焦点，影响案件审理效率的技术问题。

根据本申请实施例的一个方面，提供了一种摘要生成方法，包括：获取待检测庭审文字信息；基于法律知识要素图谱确定所述待检测庭审文字信息中每个角色的要素集合，得到多个要素集合，其中，该要素集合中的要素用于反映所述每个角色的争论要点；将所述多个要素集合中的要素输入至争议焦点模型中进行分析，得到至少一个争议焦点；提取所述至少一个争议焦点所在语句的摘要信息；输出所述摘要信息。

根据本申请实施例的一个方面，提供了一种语句类型的识别方法，包括：获取待检测庭审文字信息中的第二目标语句；从所述第二目标语句中确定争议焦点语句；确定所述争议焦点语句和争议焦点语句集合中各个样本争议焦点语句的相似度，得到多个相似度；将所述多个相似度中最大值对应的样本争议焦点语句所对应的类型作为所述第二目标语句的类型。

根据本申请实施例的一个方面，提供了一种摘要生成方法，包括：获取待检测庭审文字信息；基于法律知识要素图谱确定所述待检测庭审文字信息中每个角色的要素集合，得到多个要素集合，其中，该要素集合中的要素用于反映每个角色的争论要点；基于所述多个要素集合中的要素确定至少一个争议焦点；提取所述至少一个争议焦点所在语句的摘要信息；输出所述摘要信息。

根据本申请实施例的另一方面，还提供了一种摘要生成装置，包括：获取模块，用于获取待检测庭审文字信息；确定模块，用于基于法律知识要素图谱确定所述待检测庭审文字信息中每个角色的要素集合，得到多个要素集合，其中，该要素集合中的要素用于反映所述每个角色的争论要点；分析模块，用于将所述多个要素集合中的要素输入至争议焦点模型中进行分析，得到至少一个争议焦点；提取模块，用于提取所述至少一个争议焦点所在语句的摘要信息；输出模块，用于输出所述摘要信息。

根据本申请实施例的另一方面，还提供了一种计算机设备，包括：处理器；以及存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：获取待检测庭审文字信息；基于法律知识要素图谱确定所述待检测庭审文字信息中每个角色的要素集合，得到多个要素集合，其中，该要素集合中的要素用于反映所述每个角色的争论要点；将所述多个要素集合中的要素输入至争议焦点模型中进行分析，得到至少一个争议焦点；提取所述至少一个争议焦点所在语句的摘要信息；输出所述摘要信息。

在本申请实施例中，采用获取待检测庭审文字信息；基于法律知识要素图谱确定所述待检测庭审文字信息中每个角色的要素集合，得到多个要素集合，其中，该要素集合中的要素用于反映所述每个角色的争论要点；将所述多个要素集合中的要素输入至争议焦点模型中进行分析，得到至少一个争议焦点；提取所述至少一个争议焦点所在语句的摘要信息；输出所述摘要信息的方式，通过自动识别庭审文字信息中的争议焦点，并输出摘要信息，从而实现了减少法官获取争议焦点与案件要点的时间，提高案件审理效率的技术效果，进而解决了人工在庭审记录中梳理争议焦点，影响案件审理效率的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种计算机终端的硬件结构框图；

图2是根据本申请实施例的一种可选的摘要生成方法的流程示意图；

图3是根据本申请实施例的一种可选的法律知识要素图谱；

图4a是根据本申请实施例的摘要提取原理示意图；

图4b是根据本申请实施例的一种可选的语句类型的识别方法的流程示意图；

图5是根据本申请实施例的一种摘要生成方法的流程示意图；

图6是根据本申请实施例的一种可选的摘要生成装置的结构示意图；

图7是根据本申请实施例的一种可选的计算机设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

语音识别技术：也被称为ASR(Automatic Speech Recognition，自动语音识别)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。

争议焦点：争议焦点是当事人之间产生纠纷支之后需要解决的主要问题，其首先是一个问题，具体而言，包括引起争议的事实、证据、法律规定、责任等方面的主要问题。

实施例1

根据本申请实施例，还提供了一种摘要生成方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现摘要生成方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的摘要生成方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输模块106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输模块106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输模块106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

在上述运行环境下，本申请提供了如图2所示的摘要生成方法。图2是根据本申请实施例一的摘要生成方法的流程图，该方法包括以下处理流程：

步骤S202，获取待检测庭审文字信息；

具体地，待检测庭审文字信息可以为法庭案件审理过程中原告方与被告方的语音辩论信息或文字辩论信息，也可以为庭审前的文字辩论信息；

在本申请的一些可选的实施例中，上述方法还需执行以下步骤：检测当前的语音信息；将所述语音信息转换为文字信息，并将所述文字信息作为所述待检测庭审文字信息。可在法庭预设位置安装获取语音信息的语音采集装置，并且设置语音转文字实时转录装置，该语音转文字实时转录装置实时运行在庭审过程中。当事人以及法官的对话会通过支持多角色ASR进行语音转文字的实时转录，转录最小单位为字级别，且转录结果会根据上下文进行转录动态更新，达到更好的转录效果。ASR之后会接入庭审笔录人格化转录***，对ASR的结果进行平滑处理，包含消除断句错误、删除口语重复、消除实体识别错误、消除法律用语识别错误等。其中，上述实体包括：人名、地名、机构名称等。

步骤S204，基于法律知识要素图谱确定所述待检测庭审文字信息中每个角色的要素集合，得到多个要素集合，其中，该要素集合中的要素用于反映所述每个角色的争论要点；

在本申请的一些可选的实施例中，法律知识要素图谱为法律事件中涉及的法律元素的图谱，以本金争议为例，如图3所示，法律知识要素图谱中包括：借贷合议、款项给付、以及与借贷合意相关的书面协议or电子协议、口头协议；以及与款项给付相关的交付凭证、现金(票据)交付等信息。

具体地，每个角色的要素集合中的要素可以通过以下信息确定：庭审前的文字辩论信息、庭审过程中的辩论信息。庭审过程中会有不同角色的辩论，基于法律知识要素图谱，可自动识别原告方与被告方的要素集合。其中，法律知识要素图谱可以为一个层级树，可通过对一方角色的每句话要素的预测，给每个角色赋予一个层级要素集合。其中，层级要素集合可以理解为多个层级要素路径，例如，“本金-借贷合意-签章”是一个要素路径，对于每个角色的N句话会预测一个要素路径集合，即K个要素路径。层级要素集合是通过multi-label hierarchical classification模型得到的，其输入是N句话，输出是K个要素路径。

步骤S206，将所述多个要素集合中的要素输入至争议焦点模型中进行分析，得到至少一个争议焦点；其中，该争议焦点模型为通过多组数据训练得到的，该多组数据中的每组数据中均包括：样本要素和用于标识该样本要素为争议焦点的标签。

具体地，当争议焦点模型的输入为多角色的层级要素集合中的要素时，则输出多角色对应的至少一个争议焦点。

步骤S208，提取所述至少一个争议焦点所在语句的摘要信息。在本申请的一些可选的实施例中，摘要信息为可以反映案件的争议焦点的摘要信息。

步骤S210，输出所述摘要信息；

在本申请的一些可选的实施例中，上述方法还需执行以下步骤：确定所述至少一个争议焦点所在的语句，得到第一目标语句；基于所述第一目标语句的语义表示和所述第一目标语句在所述法律要素图谱中的要素表示确定所述第一目标语句的语句向量；获取所述第一目标语句的语句向量和争议焦点语句集合中各个样本争议焦点语句向量的相似度，得到多个相似度；基于所述多个相似度确定所述第一目标语句所属的争议焦点类型。其中，上述样本争议焦点语句可以为基于类似历史案件的庭审过程中的庭审信息，获取的样本争议焦点语句。

具体地，基于所述多个相似度确定所述第一目标语句所属的争议焦点类型，可以通过以下处理步骤进行实现：比较所述多个相似度的大小，并将所述多个相似度中最大值对应的争议焦点语句所属的争议焦点类型作为所述第一目标语句的争议焦点类型。

为了避免第一目标语句与样本争议焦点语句的相似度都较低，导致生成的摘要信息不准确的问题，上述方法还可以包括执行以下步骤：确定所述多个相似度中的最大值；比较所述最大值和第一阈值；在比较结果指示所述最大值大于所述第一阈值时，确定提取所述至少一个争议焦点所在语句的摘要信息；在所述比较结果指示所述最大值小于所述第一阈值时，拒绝提取所述至少一个争议焦点所在语句的摘要信息。

在提取至少一个争议焦点所在语句的摘要信息之前，在确定第一目标语句的语句向量与各个样本争议焦点语句的向量的相似度之后，当相似度的最大值超过设定的第一阈值时才确定提取所述至少一个争议焦点所在语句的摘要信息。采用上述过程，保证了摘要信息提取的准确度。

为了方便法官通过摘要信息可直观获取到当前案件的被告方与原告方的争辩情况，输出所述摘要信息时，上述方法还需执行以下步骤：输出所述第一目标语句所属的争议焦点类型、所述第一目标语句对应的角色信息以及所述争议焦点类型所述角色信息和所述摘要信息之间的关联关系。第一目标语句所属的争议焦点类型、所述第一目标语句对应的角色信息以及所述争议焦点类型所述角色信息和所述摘要信息之间的关联关系的显示，有助于法官快速获取被告方与原告方的争辩进度，更好地把握时间。

具体地，输出的所述争议焦点类型通过争议焦点类型标识表示，且不同的争议焦点类型标识采用的展示形式不同。

可选地，争议焦点类型标识可以为***数字编号，也可以为数字编号和文字的结合(例如d1、d2、d3···dn等)，不同的争议焦点类型标识采用的展示形式可以为不同的颜色，或者不同的字体。

在本申请的一些可选的实施例中，上述方法还需执行以下步骤：将所述至少一个争议焦点所在语句在所述待检测庭审文字信息中进行突出显示。其中，突出显示方式可以为高亮显示。例如，过争议焦点模型自动识别的争议焦点可用不同颜色表示，相对应的提取的争议焦点所在的句子，也用相对应的争议焦点的颜色进行高亮展示。摘要也可以为围绕争议焦点的多角色对话的罗列。

在获取所述第一目标语句的语句向量和争议焦点语句集合中各个样本争议焦点语句向量的相似度时，可以利用机器学习的方式确定，机器学习可以为回归模型，例如：

将所述庭审文字信息中每个角色对应的文本信息和法律知识图谱中的各个要素分别输入至第一级学习模型进行单个信息源的表征学习，得到各个信息源的特征信息；并确定所述每个角色以及与每个角色对应的文本信息和所述各个要素进行表征联合处理，得到各个角色的发言内容表征；将所述各个角色的发言内容表征输入至第二级学习模型，得到具有相关性的对话信息；基于所述具有相关性的对话信息和争议焦点语句集合中的争议焦点语句输入至注意力模型进行分析，得到所述相似度。具体地：

首先，构建庭审句子的表示(representation)分为语义表示和基于要素图谱的要素表示。语义表示即通过预训练的句子编码器(sentencecoder))对该句的语义进行编码形成一个embeding向量表示；要素表示是将该句映射到要素图谱上，利用要素图谱向量进行表示。两种表示的级联作为该句的表示。例如，如图4a所示，将庭审文字信息中多个角色对应的文本信息(r1,r2,r3,···rm)和知识图谱信息中的各个词词(W1，W2,···，Wn)分别输入至第一级学习模型(例如GRU模型)进行单个信息源的表征学习，然后将各个信息源表征学习的结果(角色、文本和知识图谱中各个词(即要素))的表征联合(concat)起来，作为当前该角色发言内容的表征，即得到上述庭审句子的表示；

然后，将联合后的表征输入至第二级学习模型(例如GRU模型)，该层学习到的是相邻的对话之间的话语层面的表征，即学习到对话之间的相关性。在基于第二级学习模型的输出结果和之前得到的争议焦点，利用attention层为庭审文本信息中的每个句子加权重，以计算庭审文本信息中的语句与争议焦点语句集合中的语句的相似度，从而对庭审文字信息中的语句进行分类，得到每个句子的分类标签。

上述相似度的计算过程可以理解为：执行围绕争议焦点的句子分类子任务：该子任务可以理解为动态计算当前句与争议焦点之间的相似度，以最相似的争议焦点作为该句的分类标签。

基于上述场景，在确定相似度后，为了得到摘要(即重要句子)，可以执行摘要的抽取子任务：该子任务可以为计算一个回归的过程，即当前句是否应该被抽取。需要说明的是，构建庭审句子的标识，执行围绕争议焦点的剧组分类子任务以及摘要的抽取子任务的过程是一个多任务学习的过程，即所有参数在学习过程中同时更新，达到学习好的句子表示满足句子分类的任务和摘要抽取的任务的需求。

在本申请实施例中，采用获取待检测庭审文字信息；基于法律知识要素图谱确定所述待检测庭审文字信息中每个角色的要素集合，得到多个要素集合，其中，该要素集合中的要素用于反映所述每个角色的争论要点；将所述多个要素集合中的要素输入至争议焦点模型中进行分析，得到至少一个争议焦点；提取所述至少一个争议焦点所在语句的摘要信息；输出所述摘要信息的方式，通过自动识别庭审庭审文字信息中的争议焦点，并输出摘要信息，从而实现了减少法官获取争议焦点与案件要点的时间，提高案件审理效率的技术效果，进而解决了人工在庭审记录中梳理争议焦点，影响案件审理效率的技术问题。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

实施例2

根据本申请实施例，还提供了一种语句类型的识别方法，图4b是根据本申请实施例2的语句类型的识别方法的流程图，如图4b所示，该方法包括步骤S402-S408以下处理流程：

步骤S402，获取待检测庭审文字信息中的第二目标语句；

具体地，待检测庭审文字信息可以为法庭案件审理过程中原告方与被告方的语音辩论信息或文字辩论信息，也可以为庭审前的文字辩论信息，第二目标语句为辩论信息的语句；

在本申请的一些可选的实施例中，可在法庭预设位置安装获取语音信息的语音采集装置，并且设置语音转文字实时转录装置，该语音转文字实时转录装置实时运行在庭审过程中。当事人以及法官的对话会通过支持多角色ASR进行语音转文字的实时转录，转录最小单位为字级别，且转录结果会根据上下文进行转录动态更新，达到更好的转录效果。ASR之后会接入庭审笔录人格化转录***，对ASR的结果进行平滑处理，包含消除断句错误、删除口语重复、消除实体识别错误、消除法律用语识别错误等。其中，上述实体包括：人名、地名、机构名称等。

第二目标语句也可以为经过平滑处理的辩论语句。

具体地，需要基于法律知识要素图谱确定所述第二目标语句中每个角色的要素集合，得到多个要素集合，其中，该要素集合中的要素用于反映所述每个角色的争论要点；

步骤S404，从所述第二目标语句中确定争议焦点语句；

在本申请的一些可选的实施例中，法律知识要素图谱为法律事件中涉及的法律元素的图谱，以本金争议为例，如图3所示，法律知识要素图谱中包括：借贷合议、款项给付、书面协议or电子协议、口头协议、交付凭证、现金(票据)交付等。

具体地，每个角色的要素集合中的要素可以通过以下信息确定：庭审前的文字辩论信息、庭审过程中的辩论信息。庭审过程中会有不同角色的辩论，基于法律知识要素图谱，可自动识别原告方与被告方的要素集合。其中，法律知识要素图谱可以为一个层级树，可通过对一方角色的每句话要素的预测，给每个角色赋予一个层级要素集合。

具体地，该语句类型识别方法还须执行步骤:将所述多个要素集合中的要素输入至争议焦点模型中进行分析，得到至少一个争议焦点；

其中，该争议焦点模型为通过多组数据训练得到的，该多组数据中的每组数据中均包括：样本要素和用于标识该样本要素为争议焦点的标签。

具体地，当争议焦点模型的输入为多角色的层级要素集合中的要素时，则输出多角色对应的至少一个争议焦点。具体地，通过争议焦点模型自动识别的争议焦点可用不同颜色表示，相对应的提取的争议焦点所在的句子，也用相对应的争议焦点的颜色进行高亮展示。摘要也可以为围绕争议焦点的多角色对话的罗列。争议焦点所在的第二目标语句即为争议焦点语句。

步骤S406，确定所述争议焦点语句和争议焦点语句集合中各个样本争议焦点语句的相似度，得到多个相似度；

步骤S408，将所述多个相似度中最大值对应的样本争议焦点语句所对应的类型作为所述第二目标语句的类型。

实施例3

根据本申请实施例，还提供了一种摘要生成方法，如图5所示，图5是根据本申请实施例3的摘要生成方法的流程图，该方法包括以下处理流程：

步骤S502，获取待检测庭审文字信息；

步骤S504，基于法律知识要素图谱确定所述待检测庭审文字信息中每个角色的要素集合，得到多个要素集合，其中，该要素集合中的要素用于反映每个角色的争论要点；

步骤S506，基于所述多个要素集合中的要素确定至少一个争议焦点；

可选地，基于所述多个要素集合中的要素确定至少一个争议焦点可以通过以下方式进行实现：将所述多个要素集合中的要素输入至争议焦点模型中进行分析，得到至少一个争议焦点；其中，该争议焦点模型为通过多组数据训练得到的，该多组数据中的每组数据中均包括：样本要素和用于标识该样本要素为争议焦点的标签。

具体地，通过争议焦点模型自动识别的争议焦点可用不同颜色表示，相对应的提取的争议焦点所在的句子，也用相对应的争议焦点的颜色进行高亮展示。摘要也可以为围绕争议焦点的多角色对话的罗列。

步骤S508，提取所述至少一个争议焦点所在语句的摘要信息；在本申请的一些可选的实施例中，摘要信息为可以反映出案件的争议焦点的摘要信息；

步骤S510，输出所述摘要信息。

在本申请的一些可选的实施例中，上述方法还需执行以下步骤：确定所述至少一个争议焦点所在的语句，得到第一目标语句；基于所述第一目标语句的语义表示和所述第一目标语句在所述法律要素图谱中的要素表示确定所述第一目标语句的语句向量；获取所述第一目标语句的语句向量和争议焦点语句集合中各个样本争议焦点语句向量的相似度，得到多个相似度；基于所述多个相似度确定所述第一目标语句所属的争议焦点类型。

其中，上述样本争议焦点语句可以为基于类似历史案件的庭审过程中的庭审信息，获取的样本争议焦点语句。

在提取至少一个争议焦点所在语句的摘要信息之前，在确定第一目标语句的语句向量与各个样本争议焦点语句的向量的相似度之后，当相似度的最大值超过设定的第一阈值时才确定提取所述至少一个争议焦点所在语句的摘要信息；采用上述过程，保证了摘要信息提取的准确度。

可选地，争议焦点类型标识可以为争议焦点的***编号，不同的争议焦点类型标识采用的展示形式可以为不同的颜色，或者不同的字体。

在本申请的一些可选的实施例中，上述方法还需执行以下步骤：将所述至少一个争议焦点所在语句在所述待检测庭审文字信息中进行突出显示。

其中，突出显示方式可以为高亮显示。

实施例4

根据本申请实施例，还提供了一种用于实施上述摘要生成方法的摘要生成装置，如图6所示，该装置包括：获取模块62、确定模块64、分析模块66、提取模块68、输出模块610；其中：

获取模块62，用于获取待检测庭审文字信息；

确定模块64，用于基于法律知识要素图谱确定所述待检测庭审文字信息中每个角色的要素集合，得到多个要素集合，其中，该要素集合中的要素用于反映所述每个角色的争论要点；

分析模块66，用于将所述多个要素集合中的要素输入至争议焦点模型中进行分析，得到至少一个争议焦点；

提取模块68，用于提取所述至少一个争议焦点所在语句的摘要信息；

输出模块610，用于输出所述摘要信息。

所述确定模块64还用于确定所述至少一个争议焦点所在的语句，得到第一目标语句；基于所述第一目标语句的语义表示和所述第一目标语句在所述法律要素图谱中的要素表示确定所述第一目标语句的语句向量；获取所述第一目标语句的语句向量和争议焦点语句集合中各个样本争议焦点语句向量的相似度，得到多个相似度；基于所述多个相似度确定所述第一目标语句所属的争议焦点类型。

所述确定模块64还用于比较所述多个相似度的大小，并将所述多个相似度中最大值对应的争议焦点语句所属的争议焦点类型作为所述第一目标语句的争议焦点类型。

所述确定模块64还用于：确定所述多个相似度中的最大值；比较所述最大值和第一阈值；在比较结果指示所述最大值大于所述第一阈值时，确定提取所述至少一个争议焦点所在语句的摘要信息；在所述比较结果指示所述最大值小于所述第一阈值时，拒绝提取所述至少一个争议焦点所在语句的摘要信息。

所述装置还包括摘要模块，用于在输出模块610输出所述摘要信息时，输出所述第一目标语句所属的争议焦点类型、所述第一目标语句对应的角色信息以及所述争议焦点类型所述角色信息和所述摘要信息之间的关联关系。

其中，输出的所述争议焦点类型通过争议焦点类型标识表示，且不同的争议焦点类型标识采用的展示形式不同。

所述装置还包括显示模块，用于将所述至少一个争议焦点所在语句在所述待检测庭审文字信息中进行突出显示。

所述装置还包括检测模块，用于检测当前的语音信息；将所述语音信息转换为文字信息，并将所述文字信息作为所述待检测庭审文字信息。其中，每个角色的要素集合中的要素通过以下信息确定：庭审前的文字辩论信息、庭审过程中的辩论信息。

此处需要说明的是，上述获取模块62、确定模块64、、分析模块66、提取模块68、输出模块610对应于实施例1中的步骤S202至步骤S210，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

实施例5

本申请的实施例可以提供一种计算机设备，该计算机设备可以是计算机设备群中的任意一个计算机设备。可选地，在本实施例中，上述计算机设备也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机设备可以执行应用程序的摘要生成方法中以下步骤的程序代码：

获取待检测庭审文字信息；基于法律知识要素图谱确定所述待检测庭审文字信息中每个角色的要素集合，得到多个要素集合，其中，该要素集合中的要素用于反映所述每个角色的争论要点；将所述多个要素集合中的要素输入至争议焦点模型中进行分析，得到至少一个争议焦点；提取所述至少一个争议焦点所在语句的摘要信息；输出所述摘要信息。

可选地，图7是根据本申请实施例的一种计算机设备的结构框图。如图7所示，该计算机设备700可以包括：一个或多个(图中仅示出一个)处理器702、存储器704。

其中，存储器704可用于存储软件程序以及模块，如本申请实施例中的摘要生成方法和装置对应的程序指令/模块，处理器702通过运行存储在存储器704内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的摘要生成方法。存储器704可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器704可进一步包括相对于处理器702远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器702可以通过传输模块调用存储器704存储的信息及应用程序，以执行下述步骤：

可选地，上述处理器702还可以执行如下步骤的程序代码：确定所述至少一个争议焦点所在的语句，得到第一目标语句；基于所述第一目标语句的语义表示和所述第一目标语句在所述法律要素图谱中的要素表示确定所述第一目标语句的语句向量；获取所述第一目标语句的语句向量和争议焦点语句集合中各个样本争议焦点语句向量的相似度，得到多个相似度；基于所述多个相似度确定所述第一目标语句所属的争议焦点类型。

可选地，上述处理器702还可以执行如下步骤的程序代码：比较所述多个相似度的大小，并将所述多个相似度中最大值对应的争议焦点语句所属的争议焦点类型作为所述第一目标语句的争议焦点类型。

可选地，上述处理器702还可以执行如下步骤的程序代码：确定所述多个相似度中的最大值；比较所述最大值和第一阈值；在比较结果指示所述最大值大于所述第一阈值时，确定提取所述至少一个争议焦点所在语句的摘要信息；在所述比较结果指示所述最大值小于所述第一阈值时，拒绝提取所述至少一个争议焦点所在语句的摘要信息。

可选地，上述处理器702还可以执行如下步骤的程序代码：输出所述第一目标语句所属的争议焦点类型、所述第一目标语句对应的角色信息以及所述争议焦点类型所述角色信息和所述摘要信息之间的关联关系。

可选地，输出的所述争议焦点类型通过争议焦点类型标识表示，且不同的争议焦点类型标识采用的展示形式不同。

可选地，上述处理器702还可以执行如下步骤的程序代码：将所述至少一个争议焦点所在语句在所述待检测庭审文字信息中进行突出显示。

可选地，上述处理器702还可以执行如下步骤的程序代码：检测当前的语音信息；将所述语音信息转换为文字信息，并将所述文字信息作为所述待检测庭审文字信息。

可选地，每个角色的要素集合中的要素通过以下信息确定：庭审前的文字辩论信息、庭审过程中的辩论信息。

本领域普通技术人员可以理解，图7所示的结构仅为示意，计算机设备700也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图7其并不对上述电子装置的结构造成限定。例如，计算机设备700还可包括比图7中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图7所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的摘要生成方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取待检测庭审文字信息；基于法律知识要素图谱确定所述待检测庭审文字信息中每个角色的要素集合，得到多个要素集合，其中，该要素集合中的要素用于反映所述每个角色的争论要点；将所述多个要素集合中的要素输入至争议焦点模型中进行分析，得到至少一个争议焦点；提取所述至少一个争议焦点所在语句的摘要信息；输出所述摘要信息。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种摘要生成方法，其特征在于，包括：

获取待检测庭审文字信息；

基于法律知识要素图谱确定所述待检测庭审文字信息中每个角色的要素集合，得到多个要素集合，其中，该要素集合中的要素用于反映所述每个角色的争论要点；

将所述多个要素集合中的要素输入至争议焦点模型中进行分析，得到至少一个争议焦点；

提取所述至少一个争议焦点所在语句的摘要信息；

输出所述摘要信息；

还包括：确定所述至少一个争议焦点所在的语句，得到第一目标语句；基于所述第一目标语句的语义表示和所述第一目标语句在所述法律知识要素图谱中的要素表示确定所述第一目标语句的语句向量；获取所述第一目标语句的语句向量和争议焦点语句集合中各个样本争议焦点语句向量的相似度，得到多个相似度；基于所述多个相似度确定所述第一目标语句所属的争议焦点类型；

输出所述摘要信息时，还包括：输出所述第一目标语句所属的争议焦点类型、所述第一目标语句对应的角色信息以及所述争议焦点类型所述角色信息和所述摘要信息之间的关联关系。

2.根据权利要求1所述的方法，其特征在于，基于所述多个相似度确定所述第一目标语句所属的争议焦点类型，包括：

比较所述多个相似度的大小，并将所述多个相似度中最大值对应的争议焦点语句所属的争议焦点类型作为所述第一目标语句的争议焦点类型。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述多个相似度中的最大值；

比较所述最大值和第一阈值；

在比较结果指示所述最大值大于所述第一阈值时，确定提取所述至少一个争议焦点所在语句的摘要信息；在所述比较结果指示所述最大值小于所述第一阈值时，拒绝提取所述至少一个争议焦点所在语句的摘要信息。

4.根据权利要求1所述的方法，其特征在于，输出的所述争议焦点类型通过争议焦点类型标识表示，且不同的争议焦点类型标识采用的展示形式不同。

5.根据权利要求1所述的方法，其特征在于，获取所述第一目标语句的语句向量和争议焦点语句集合中各个样本争议焦点语句向量的相似度，包括：

将所述庭审文字信息中每个角色对应的文本信息和所述法律知识要素图谱中的各个要素分别输入至第一级学习模型进行单个信息源的表征学习，得到各个信息源的特征信息；

确定所述每个角色以及与每个角色对应的文本信息和所述各个要素进行表征联合处理，得到各个角色的发言内容表征；

将所述各个角色的发言内容表征输入至第二级学习模型，得到具有相关性的对话信息；

基于所述具有相关性的对话信息和争议焦点语句集合中的争议焦点语句输入至注意力模型进行分析，得到所述相似度。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述至少一个争议焦点所在语句在所述待检测庭审文字信息中进行突出显示。

7.根据权利要求1至5中任意一项所述的方法，其特征在于，所述方法还包括：

检测当前的语音信息；将所述语音信息转换为文字信息，并将所述文字信息作为所述待检测庭审文字信息。

8.根据权利要求1至6中任意一项所述的方法，其特征在于，每个角色的要素集合中的要素通过以下信息确定：

庭审前的文字辩论信息、庭审过程中的辩论信息。

9.一种语句类型的识别方法，其特征在于，包括：

确定至少一个争议焦点所在的语句，得到第二目标语句；

基于所述第二目标语句的语义表示和所述第二目标语句在法律知识要素图谱中的要素表示确定所述第二目标语句的语句向量；

获取所述第二目标语句的语句向量和争议焦点语句集合中各个样本争议焦点语句向量的相似度，得到多个相似度；

基于所述多个相似度确定所述第二目标语句所属的争议焦点类型。

10.一种摘要生成方法，其特征在于，包括：

获取待检测庭审文字信息；

基于法律知识要素图谱确定所述待检测庭审文字信息中每个角色的要素集合，得到多个要素集合，其中，该要素集合中的要素用于反映每个角色的争论要点；

基于所述多个要素集合中的要素确定至少一个争议焦点；

提取所述至少一个争议焦点所在语句的摘要信息；

输出所述摘要信息；

11.一种摘要生成装置，其特征在于，包括：

获取模块，用于获取待检测庭审文字信息；

确定模块，用于基于法律知识要素图谱确定所述待检测庭审文字信息中每个角色的要素集合，得到多个要素集合，其中，该要素集合中的要素用于反映所述每个角色的争论要点；

分析模块，用于将所述多个要素集合中的要素输入至争议焦点模型中进行分析，得到至少一个争议焦点；

提取模块，用于提取所述至少一个争议焦点所在语句的摘要信息；

输出模块，用于输出所述摘要信息；

所述确定模块，还用于确定所述至少一个争议焦点所在的语句，得到第一目标语句；基于所述第一目标语句的语义表示和所述第一目标语句在所述法律知识要素图谱中的要素表示确定所述第一目标语句的语句向量；获取所述第一目标语句的语句向量和争议焦点语句集合中各个样本争议焦点语句向量的相似度，得到多个相似度；基于所述多个相似度确定所述第一目标语句所属的争议焦点类型；

摘要模块，用于输出所述第一目标语句所属的争议焦点类型、所述第一目标语句对应的角色信息以及所述争议焦点类型所述角色信息和所述摘要信息之间的关联关系。

12.一种非易失性存储介质，其特征在于，所述非易失性存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至8中任意一项所述的摘要生成方法。

13.一种计算机设备，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：

获取待检测庭审文字信息；

提取所述至少一个争议焦点所在语句的摘要信息；

输出所述摘要信息；