CN112632223B

CN112632223B - 案事件知识图谱构建方法及相关设备

Info

Publication number: CN112632223B
Application number: CN202011592591.8A
Authority: CN
Inventors: 朵思惟; 余梓飞; 于锋杰; 薛晨云
Original assignee: Tianjin Huizhi Xingyuan Information Technology Co ltd
Current assignee: Tianjin Huizhi Xingyuan Information Technology Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2023-01-20
Anticipated expiration: 2040-12-29
Also published as: CN112632223A

Abstract

本说明书一个或多个实施例提供一种案事件知识图谱构建方法及其相关设备，所述构建方法包括：通过对收集到的司法案事件相关数据进行数据处理，总结构建案事件表示体系，基于案事件表示体系进行案事件的信息抽取，最终以抽取到的信息作为点和边，形成结构化的案事件图谱。本发明基于深度学习的事件抽取方法，提出了一套司法案事件图谱的构建方法。该案事件知识图谱通过信息抽取，将以自由文本形式存在的司法案事件信息结构化，为其下游任务例如相似案例检索、类案精准推送、裁判文书自动生成等一系列司法领域的应用提供了基础保障。

Description

案事件知识图谱构建方法及相关设备

技术领域

本说明书一个或多个实施例涉及知识图谱技术领域，尤其涉及一种案事件知识图谱构建方法及相关设备。

背景技术

知识图谱(Knowledge Graph)，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

具体来说，知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来，揭示知识领域的动态发展规律，为学科研究提供切实的、有价值的参考。迄今为止，其实际应用在发达国家已经逐步拓展并取得了较好的效果，但它在我国仍属研究的起步阶段。

目前，面向垂直领域的图谱构建在医学、经济等多个领域都取得了成功的运用，而对于司法领域案事件信息抽取及图谱构建的研究还比较欠缺。基于深度学习的司法案事件图谱以图谱化的方式将案件进行结构化和逻辑化的记录，这将为实现机器对案事件的认知和理解起到推动性的作用。

发明内容

有鉴于此，本说明书一个或多个实施例的目的在于提出一种案事件知识图谱构建方法及相关设备。

基于上述目的，本说明书一个或多个实施例提供了一种案事件知识图谱构建方法，包括：

采集司法案事件相关数据；

对所述司法案事件相关数据进行数据处理得到案事件；

基于现有法律法规定义案事件类型，基于所述案事件类型对所述案事件进行分类，通过对所述案事件进行角色挖掘建立每个所述案事件类型对应的案事件角色，基于所述案事件类型和所述案事件角色构建事件表示体系；

采用联合抽取算法从所述案事件中提取事件信息，基于所述事件表示体系对所述事件信息进行分类，基于经过分类的所述事件信息构建案事件知识图谱。

进一步的，所述对所述司法案事件相关数据进行数据处理，包括：

去除所述司法案事件相关数据中的非案事件内容，保留相关案事件文本；

提取所述司法案事件相关数据中的案事件名称；

对所述司法案事件相关数据中的相同案事件进行归一化处理；

对每一个案事件的所有所述非案事件内容进行融合得到案事件相关资讯，将所述案事件相关资讯与该案事件进行关联。

进一步的，所述基于所述案事件类型对所述案事件进行分类，包括：

通过预训练的来自变换器的双向编码器表示BERT模型对所述案事件的案事件名称进行编码，得到所述案事件名称的向量表示，通过前馈神经网络计算得到所述向量表示对应于所述案事件类型的得分向量，基于所述得分向量通过softmax函数计算得到概率最高的所述案事件类型作为所述案事件名称对应的案事件类型。

进一步的，所述采用联合抽取算法从所述案事件中提取事件信息，基于所述事件表示体系对所述事件信息进行分类，包括：

通过BERT模型对所述案事件语句进行编码，得到所述案事件语句中每个字的向量表示；

采用BIO序列标注方法对所述每个字的向量表示进行标注，识别出所述案事件中的实体和事件触发词；

将所述实体和事件触发词作为所述案事件知识图谱的节点，对所述节点中的每个字的向量表示求平均得到所述节点的向量表示，通过对两个所述节点的向量表示进行拼接得到对应边的向量表示，基于所述事件表示体系中的类别通过前馈神经网络计算分别生成所述节点、所述边的向量表示对应的得分向量，取所述得分向量的最大分量对应的所述类别作为所述节点和所述边的类别。

进一步的，所述基于经过分类的所述事件信息构建案事件知识图谱，包括：

采用集束搜索算法对所述节点和所述边进行迭代，集束中的所有所述点和所述边构成候选图集合，基于所述点和所述边的得分向量定义全局得分函数，基于所述全局得分函数分别计算所述候选图集合中每一个候选图的全局得分，根据所述全局得分对所有所述候选图进行排序，输出所述全局得分最高的所述候选图作为所述案事件知识图谱。

基于同一发明构思，本说明书一个或多个实施例还提供了一种案事件知识图谱构建装置，包括：

数据采集模块，被配置为采集司法案事件相关数据；

事件库构建模块，被配置为对所述司法案事件相关数据进行数据处理得到案事件，基于所述案事件构建事件库；

事件表示体系构建模块，被配置为基于现有法律法规定义案事件类型，基于所述案事件类型对所述案事件进行分类，通过对所述案事件进行角色挖掘建立每个所述案事件类型对应的案事件角色，基于所述案事件类型和所述案事件角色构建事件表示体系；

案事件知识图谱构建模块，被配置为采用联合抽取算法从所述案事件中提取事件信息，基于所述事件表示体系对所述事件信息进行分类，基于经过分类的所述事件信息构建案事件知识图谱。

基于同一发明构思，本说明书一个或多个实施例提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上任意一项所述的方法。

基于同一发明构思，本说明书一个或多个实施例提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令在被计算机执行时，使所述计算机实现如上任意一项所述的方法。

从上面所述可以看出，本说明书一个或多个实施例提供的一种案事件知识图谱构建方法及相关设备，基于深度学习的事件抽取方法，结合法律专家和人工抽取建立的法律案事件表示体系，提出了一套司法案事件图谱的构建方法。该案事件知识图谱通过信息抽取，将以自由文本形式存在的司法案事件信息结构化，为其下游任务例如相似案例检索、类案精准推送、裁判文书自动生成等一系列司法领域的应用提供了基础保障。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书一个或多个实施例的案事件知识图谱构建方法流程的示意图；

图2为本说明书一个或多个实施例的数据处理操作流程的示意图；

图3为本说明书一个或多个实施例的事件库结构示意图；

图4为本说明书一个或多个实施例的提取事件信息并构建案事件知识图谱的操作流程的示意图；

图5为本说明书一个或多个实施例的全局特征模板应用的示意图；

图6为本说明书一个或多个实施例的案事件知识图谱构建装置模块结构示意图；

图7为本说明书一个或多个实施例的电子设备硬件结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

如背景技术部分所述，在信息***的时代，司法领域案件信息急剧增长。虽然司法领域的办公逐步在向信息化转型，但是面对海量的司法裁判文书，民事、刑事判决书等，仍然存在相当一部分的案件信息以自由文本的形式存在。在人工智能浪潮推动下的司法改革中，让机器通过人工智能领域的相关前沿技术认知、理解案情，通过信息抽取技术从中抽取信息并将其形成结构化的案事件图谱供后续类案查询及数据挖掘研究使用，是当前人工智能在司法领域应用的基本前提和薄弱之处。

事件图谱其本质是包含事件、事件角色(或事件属性)、事件论元(或属性值)和事件之间关联等的以事件为基本知识单位的知识网。知识网由节点和边组成，其中“节点”可以为事件触发词、事件所属的类型或事件论元，“边”可以为事件角色(或事件属性)或事件之间的关联。每个事件都有其对应的事件类型，并且事件角色是根据事件类型进行定义的，不同事件拥有不同的事件类型。例如对于一个婚姻类型的事件，可能的事件角色为：丈夫、妻子、结婚时间等。区别于实体-关系生成的知识图谱，事件图谱可以动态刻画客观世界的变化。当实体和实体属性更新时，传统的知识图谱只能记录实体和属性的最新状态值，而忽略了变化性和与之前信息的对比。事件图谱由于是对事件本身的记录，变化后的实体和属性被作为一个新的事件记录下来，这样既能够保留之前实体和属性的值，也能更进一步通过对图谱的计算得到前后两次变化之间的关联，很好的刻画了客观世界的变化性。

针对现有技术存在的上述问题，本说明书一个或多个实施例提供了一种案事件知识图谱构建方法，通过对收集到的司法案事件数据进行数据检测，总结构建案事件表示体系，基于案事件表示体系进行案事件的信息抽取，最终以抽取到的信息作为点和边，形成结构化的案事件图谱。

以下，通过具体的实施例进一步详细说明本公开的技术方案。

参考图1，本公开的一个实施例的案事件知识图谱构建方法，包括以下步骤：

步骤S101、采集司法案事件相关数据。司法案事件相关数据包括但不限于法律裁判文书、民事/刑事判决书和用户应用日志。

本步骤中，首先对司法案事件相关文本数据进行采集，采集来源主要包含半结构化文本法律裁判文书和非结构化文本民事、刑事判决书及用户的应用日志。用户应用日志是指在案事件知识图谱的各种应用场景中，用户搜索的文本信息。法律裁判文书属于半结构化文本，包含内容主要有：案件基本信息、案情特征、当事人、审理经过、原告诉称、被告辩称、前审经过、本院查明、本院认为等。由于法律裁判文书中原告诉称和被告辩称部分对案事件的陈述带有个人色彩，我们在数据采集时主要基于本院查明、本院认为等部分，对于多次审理的案件“前审经过”也会作为信息采集的主要来源。

步骤S102、对所述司法案事件相关数据进行数据处理得到案事件，基于所述案事件构建事件库。

参考图2，本实施例中，对司法案事件相关数据进行数据处理主要包括以下几个步骤：

步骤S201、案事件片段识别，主要目的是去除所述司法案事件相关数据中的非案事件内容，保留相关案事件文本。

具体的，对于一篇给定的法律裁判文书，根据标题信息，识别出结构化的文本信息，如“文书标题”、“案号”、“当事人信息”等案件相关信息；对于裁判文书的其他部分，采用结合正则匹配和人工校验的方式抽取出“本院查明”、“本院认为”等对应部分的文本。对于非结构化的民事、刑事判决书，基于预定规则进行分段标记，识别出类结构化文本和非结构化的案情事件相关文本，删除不属于案情事件描述的段落。由于用户应用日志的输入内容一般较短，因此在本步骤暂时保留全部文本。然后，对得到的相关案事件文本进行文本预处理。预处理阶段主要包含对标点符号和特殊符号的删除、繁简体统一化处理、表达方式标准化统一、文本纠错等常规操作。

步骤S202、案事件名称提取，目的是提取所述司法案事件相关数据中的案事件名称。对于法律裁判文书，民事、刑事判决书等文本，由于文本本身的标题即为案事件名称，因此可以将其标题作为案事件名称进行直接提取。

步骤S203、案事件归一化，目的在于对所述司法案事件相关数据中的相同案事件进行归一化处理。

由于数据来源不同，很有可能从不同的数据源抽取到相同案事件相关文本，因此需要对相同的案事件进行归一化处理。虽然对于同一法律案事件的描述文档在不同网站的文本数据可能略有差异，但其最终来源都是规范的法律裁判文书，因此对于案件的描述关键词及专业用语基本一致。基于此，我们采用相对简单且高效的杰卡德Jaccard相似度系数来计算两段案事件描述的相似度：

其中，上式中的分子表示事件文本A和B所有词汇取交集后集合元素的个数，也就是两段文本相同词汇的个数，分母表示事件文本A和B所有词汇取并集后的个数。给定阈值为0.9，如果J(A,B)的值大于0.9，两个文本就会被判断为是对于相同事件的文本描述，进行归一化处理。

步骤S204、案事件相关资讯关联，对每一个案事件的所有所述非案事件内容进行融合得到案事件相关资讯，将所述案事件相关资讯与该案事件进行关联。

具体的，对于每一个给定的案事件，基于最初的数据信息，召回步骤S201中去除的和案事件相关的但不属于对案事件描述的内容，并将其和该案事件进行关联。这些信息包括：案号，文书标题等。由于对应于同一个事件可能对应于多条数据，这些条数据可能是单纯的重复，也有可能具有另一方不具备的信息，因此在召回的过程中，我们会对来源于不同数据源的资讯进行融合取并集。还可以根据提取出的案号等案件的唯一性特征来再次确认步骤S203中对于案事件的归一化是否准确。

通过步骤S201至步骤S204，完成对采集的司法案事件相关数据的数据处理，构建如图3所示的事件库。从图中可以看出，每一个案事件都对应一个事件名称、事件片段和事件关联信息，所有的案事件组成了事件库。

步骤S103、基于现有法律法规定义案事件类型，基于所述案事件类型对所述案事件进行分类，通过对所述案事件进行角色挖掘建立每个所述案事件类型对应的案事件角色，基于所述案事件类型和所述案事件角色构建事件表示体系。

在传统的知识图谱构建中，由于其知识来源大多是一些优质的结构化文本，可以利用这些文本中的结构化字段优先构建图谱的知识表示体系。而在事件图谱的构建中，由于缺少优质的结构化数据，因此首先需要进行数据处理，在此基础上进行事件表示体系的构建。事件表示体系构建的目的是构建一个准确性高，覆盖面广的事件知识表示体系，为后续事件信息抽取等任务做准备。

具体的，本步骤可以分为以下三个步骤：

步骤S301、案事件分类，基于由法律专家确定的案事件类型(如，民事案由体系)对案事件的案事件名称进行分类形成类别标签。首先将事件库中的案事件名称输入BERT-Chinese预训练模型进行编码，得到该案事件名称对应的向量表示v_i。使用前馈神经网络计算每个案事件名称对应于不同类别标签的得分向量y_i＝FFN(v_i)。其中，向量y_i的每一个分量代表该案事件名称对于相应类别标签的得分。最后，应用Softmax函数得到该案事件名称被分到不同案事件类型的概率p_i＝Softmax(y_i),取概率最高的类别标签作为该案事件对应的案事件类型。

步骤S302、事件角色挖掘，根据案事件类型对相关资讯进行召回，并结合法律专家的建议和人工抽取的方式对案事件进行角色挖掘，将同属于一个案事件类型的所有案事件中挖掘出的角色进行合并整理，然后针对每一个案事件类型建立其对应的案事件角色。

步骤S303、人工校验，对步骤S301和步骤S302中得到的案事件类型及案事件角色需要进一步结合法律领域专家的经验进行人工校验，最终得到更为准确的案事件表示体系。

基于步骤S301至步骤S303，完成事件表示体系的构建。

步骤S104、采用联合抽取算法从所述案事件中提取事件信息，基于所述事件表示体系对所述事件信息进行分类，基于经过分类的所述事件信息构建案事件知识图谱。

本步骤中，采用基于深度学习的实体、关系、事件联合抽取算法，对非结构化的法律文本进行信息抽取。信息抽取在案事件知识图谱的构建中扮演着最重要的角色，抽取的准确度直接决定了图谱对案事件描述的准确性及图谱的泛化能力。在这一步骤中，首先对文本进行预处理，通过对原被告指代进行补全以及分句处理得到案事件描述文本列表。我们会对案例文书中的时间、地点、涉案物品等关键实体、实体之间的关系、案事件及其涉及的案事件触发词、案事件角色等进行抽取。区别于传统的将实体，关系和事件分开抽取的方式，我们采用实体、关系和案事件的联合抽取算法。该联合抽取的思想能够将法律文书中的实体、关系和事件及其要素从整体语义的角度进行关联，避免了分开抽取方式带来的关系链接建立不全以及由于没有联系全句语义造成的链接错误。

具体的，参考图4，本实施例中分为以下几个步骤：

步骤S401、编码，在编码阶段采用在NLP领域非常成熟且表达能力强的中文预训练模型Bert-Chinese对案事件语句整体的文本内容进行编码，最终输出句子中每个字的向量表示。

步骤S402、实体和事件触发词识别，基于上一步骤S401得到的对每个字的向量表示，我们对每个字向量进行标注，最终返回一个标注了具体实体和事件触发词类别的句子。这里我们采用词语标注中最常用的BIO标签格式定义标签类别，如：‘B-PER’,‘I-PER’,‘O’等。其中连接符‘-’左侧代表该字在实体或触发词中所处的位置，只有两种情况：‘B’代表起始位置，‘I’代表非起始位置。连接符右侧代表该字所属词或短语的类别：实体、事件触发词，或二者都不属于。例如，‘PER’代表‘人’这一具体的实体类，‘O’代表既非实体也非事件触发词。例如：“王红被抢钱包。”这句话中，“王被标注为‘B-PER’，‘红’被标注为‘I-PER’；‘被’既不属于实体也不属于案事件触发词，因此被标注为‘O’；“抢”被标注为‘B-ATTACK’，属于事件触发词。该标注过程相当于根据定义好的实体和事件触发词类别标签对每个字向量进行分类，该类别标签来源于之前构建的事件表示体系。

假设句子中有L个字，经过步骤S401得到的字向量表示为{x₁,…,x_L}，我们采用前馈神经网络(FFN)对每个字向量x_i生成一个得分向量：

该得分向量的每一个分量对应于该字向量对应每个标签的得分，得分向量

的长度即为全部标签的个数。在得到每个字向量的得分向量后，如果我们直接取

最大的分量作为x_i的标签输出，那么会得到一个对应的标签路径：

其中，

代表向量

的最大分量，作为字向量x_i的标签输出。这样直接取最大值得到的标签路径没有考虑到路径中每个标签的联系，以及顺序的合理性等问题。例如：

这种标签路径是不合理的，因为‘I-PER’前面只有可能是‘B-PER’或另一个‘I-PER’。为了考虑到标签路径中标签之间的关联性，我们在得到得分向量后不直接选取最大值，而是在其后添加一个CRF层(条件随机场层)。该层通过引入标签的关系矩阵A，将其位于

的元素

用于表示路径中标签

和

的关系，并将

的值融入到整个句子X对标签路径

的得分函数的计算中：

其中，

代表标签得分向量

的第

个分量。矩阵A可以在训练的过程中学习得到。在训练过程中，我们的目标是找到得分最高的标签路径z＝{z₁,…,z_L}，等价于求如下损失函数的最小值：

经过训练，最终我们可以得到一个最优的标签路径z，根据该标签路径，我们可以得到每个词的标签，并根据标注的标签完成对实体和事件触发词的识别。识别得到的实体和事件触发词将作为案事件知识图谱的节点。

步骤S403、图谱节点和边的分类，由于同一个节点对应的实体或事件触发词可能由多个字组成，通常是一个词或者词组，我们将这个词中每个字的向量表示求平均，得到的向量作为该节点唯一的向量表示。在此基础上，我们对两个节点类任务(两个节点类任务包括实体识别和事件触发词识别)，采用前馈神经网络(FFN)，对节点i的向量表示生成一个对应的得分向量：

其中，上角标‘t’代表两个节点类任务中的某一类，

是对于任务t中所有类别的得分向量，每一个分量代表该词向量对该分量对应的类别的得分，得分越高该词对应于该类别的可能性越大。

的长度等于任务t总类别的个数。例如：我们假设在实体识别任务中预定义的实体类别为“人”、“时间”、“地点”这三类，那么实体节点“王红”对应的得分向量

向量的长度为3，等于实体识别任务中类别总数。

对于“边”的向量表示，我们首先将连接边的两个节点的向量v_i和v_j进行直接拼接，将得到的向量(v_i,v_j)作为该边的向量表示。对于边，我们同样有两类任务，两类任务分别为关系抽取和事件角色抽取，我们可以基于节点类型对这两类任务进行区分。依据上一步得到的两类节点，节点对儿有三种组合方式：“实体-实体”，“触发词-触发词”，“实体-触发词”。由于“触发词-触发词”不合理，在实际情况中不可能出现，因此我们只有两种节点对儿类型，恰好对应于两类边任务。基于此，对于给定的任务t，我们同样采用前馈神经网络(FFN)，对边k的向量表示生成一个对应的得分向量：

在对前馈神经网络模型参数训练的过程中，对于给定的任务t，我们的目标是最小化如下交叉熵损失函数：

其中N是任务t对应的节点个数。取每个节点和边的得分向量的最大分量对应的类别，我们就得到了一个局部最优图

该图的得分函数计算如下：

其中，T代表四类任务的集合。

步骤S404、全局特征融合，根据步骤S401至步骤S403，我们可以得到一个局部最优的图谱

但由于生成该图谱的模型没有考虑到整句话的全局特征，也就是图谱中全部节点和边之间的综合联系，很容易出现基于局部信息判断错误的情况。如图5所示，例如：“***造成了***和三名购物者死亡。”这句话中“***”很容易被识别为“***”事件中事件角色“袭击者”的论元，但由于其在句中离“死亡”这个词相对较远，不容易被识别为“***”事件的“受害者”。

在本步骤中，我们将从法律裁判文书案事件中总结的全局特征添加到模型中，用以提升模型对句子全局信息的理解和融合。对于全局特征，我们根据法律专家的建议总结了相应的模板体系，该模板体系也会随着案事件素材的增加相应地添加新的模板，在这里我们仅就以上句子举一例说明模板体系中的每条模板的形式：同时作为<事件A>中<角色1>和<角色2>的论元的实体个数。应用这一模板，上文句子中作为事件<***>中<袭击者>和<受害者>的论元的实体个数为1。如果模型没有添加这个全局特征模板体系，那么“在<***>事件中，存在同时作为<袭击者>和<受害者>的论元”这一信息就不容易被学习到。在训练过程中，给定一个图G，其对应的全局特征向量为:

f_G＝{f₁(G),…,f_M(G)}

其中，M为图G中全局特征的个数，函数f_i(·)会返回满足全局特征i的节点或者边的个数。以上文中的模板举例，函数f_i(·)定义为：

f_i(G)＝n·χ(C_i)

其中C_i为“存在实体作为事件<***>中<袭击者>和<受害者>的论元”这一事实陈述，χ(·)是特征函数，如果事实C_i发生，那么χ(C_i)＝1，反之为0；n为满足条件的实体的个数。将图G的全局特征向量f_G加权求和，与图G的局部得分函数s′(G)相加，最终我们得到了图G的全局得分函数：

s(G)＝s′(G)+u·f_G

其中，向量u为权重向量，可以通过对模型的训练学习得到。我们希望融合了全局特征后得到的最优图G和融合前得到的局部最优图

尽量统一成相同的图谱，因此我们在训练的过程中需要极小化如下损失函数：

综合步骤S402至步骤S404中的损失函数L₁，L^t和L₂，我们对整个模型的损失函数做如下定义：

最后，我们通过在训练过程中极小化以上损失函数L，得到最终的模型。该模型输出的结果是一个带有标签得分的点和边的集合。

步骤S405、解码，在解码阶段将会对模型输出的带有标签得分的点、边集合进行解码。对所有的节点和其连接的边的信息进行综合考虑，最终得到一个全局得分最高的候选图作为最终的案事件知识图谱输出。

具体的，由于对所有的候选图做贪心搜索会带来很大的算力消耗，我们在此采用集束搜索(beam search)算法。我们首先用一个零序图(order-zero graph)K₀初始化集束B＝{K₀}。在每个迭代步骤i，我们都会将B中的候选图进行节点和边的扩展。其中，

节点扩展：选取节点v_i∈V，并且定义它的候选集为

其中

代表v_i的第k个最大的节点的得分向量的分量对应的标签，a_i和b_i分别代表节点v_i中词的首尾位置，β_v为控制候选标签最大数量的超参数。

节点扩展之后我们对集束进行如下更新：

B←{G+v|(G,v)∈B×V_i}

边扩展：我们迭代地选取编号小于i的节点v_j∈V,j<i,并且添加上v_i和v_j之间所有可能的边。但是对于v_i和v_j都是事件触发词这种情况，我们不添加它们之间的边，并且跳过节点v_j。在每步迭代中，我们建立候选边的集合

其中

代表e_ij的第k个最大的边的得分向量的分量对应的标签，β_v为控制候选标签最大数量的超参数。

边扩展后我们对集束进行如下更新：

B←{G+e|(G,e)∈B×E_ij}

集束B的宽度为θ，在每一次迭代之后，集束B中的所有点和所有边构成一个候选图集合，我们通过之前定义的全局得分函数对候选图集合中的每一个候选图进行全局得分计算，并根据全局得分对所有候选图进行排序，保留前θ个候选图。所有迭代步骤完成后，我们返回全局分数最高的候选图作为该案事件的最终案事件知识图谱输出。

基于步骤S401至步骤S405完成对案事件的事件信息抽取并构建案事件知识图谱。

可以理解，上述的案事件知识图谱构建方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。

需要说明的是，本说明书一个或多个实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的本公开的一个或多个实施例还提供了一种案事件知识图谱构建装置。

参考图6，所述案事件知识图谱构建装置，包括：

数据采集模块601，被配置为采集司法案事件相关数据；

事件库构建模块602，被配置为对所述司法案事件相关数据进行数据处理得到案事件，基于所述案事件构建事件库；

事件表示体系构建模块603，被配置为基于现有法律法规定义案事件类型，基于所述案事件类型对所述案事件进行分类，通过对所述案事件进行角色挖掘建立每个所述案事件类型对应的案事件角色，基于所述案事件类型和所述案事件角色构建事件表示体系；

案事件知识图谱构建模块604，被配置为采用联合抽取算法从所述案事件中提取事件信息，基于所述事件表示体系对所述事件信息进行分类，基于经过分类的所述事件信息构建案事件知识图谱。

作为一个可选的实施例，所述数据采集模块601，具体被配置为所述司法案事件相关数据包括但不限于法律裁判文书、民事/刑事判决书和用户应用日志。

作为一个可选的实施例，事件库构建模块602，具体被配置为：

案事件片段识别，去除所述司法案事件相关数据中的非案事件内容，保留相关案事件文本；

案事件名称提取，提取所述司法案事件相关数据中的案事件名称；

案事件归一化，对所述司法案事件相关数据中的相同案事件进行归一化处理；

案事件相关资讯关联，对每一个案事件的所有所述非案事件内容进行融合得到案事件相关资讯，将所述案事件相关资讯与该案事件进行关联。

作为一个可选的实施例，事件表示体系构建模块603，具体被配置为通过预训练的来自变换器的双向编码器表示BERT模型对所述案事件的案事件名称进行编码，得到所述案事件名称的向量表示，通过前馈神经网络计算得到所述向量表示对应于所述案事件类型的得分向量，基于所述得分向量通过softmax函数计算得到概率最高的所述案事件类型作为所述案事件名称对应的案事件类型。

作为一个可选的实施例，案事件知识图谱构建模块604，具体被配置为：

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，本说明书一个或多个实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任意一实施例所述的方法。

图7出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作***和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，本说明书一个或多个实施例还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任意一实施例所述的方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本说明书一个或多个实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本说明书一个或多个实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种案事件知识图谱构建方法，其特征在于，包括：

采集司法案事件相关数据；

对所述司法案事件相关数据进行数据处理得到案事件；

采用联合抽取算法从所述案事件中提取事件信息，基于所述事件表示体系对所述事件信息进行分类，

将所述实体和事件触发词作为所述案事件知识图谱的节点，对所述节点中的每个字的向量表示求平均得到所述节点的向量表示，通过对两个所述节点的向量表示进行拼接得到对应边的向量表示，基于所述事件表示体系中的类别通过前馈神经网络计算分别生成所述节点、所述边的向量表示对应的得分向量，取所述得分向量的最大分量对应的所述类别作为所述节点和所述边的类别，

基于经过分类的所述节点和所述边构建案事件知识图谱。

2.根据权利要求1所述的构建方法，其特征在于，所述司法案事件相关数据包括：法律裁判文书、民事/刑事判决书和用户应用日志。

3.根据权利要求1或2所述的构建方法，其特征在于，所述对所述司法案事件相关数据进行数据处理，包括：

提取所述司法案事件相关数据中的案事件名称；

4.根据权利要求1或2所述的构建方法，其特征在于，所述基于所述案事件类型对所述案事件进行分类，包括：

5.根据权利要求1所述的构建方法，其特征在于，所述基于经过分类的所述节点和所述边构建案事件知识图谱，包括：

6.一种案事件知识图谱构建装置，其特征在于，包括：

数据采集模块，被配置为采集司法案事件相关数据；

案事件知识图谱构建模块，被配置为采用联合抽取算法从所述案事件中提取事件信息，基于所述事件表示体系对所述事件信息进行分类，

基于经过分类的所述节点和所述边构建案事件知识图谱。

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任意一项所述的方法。

8.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如权利要求1至5任意一所述的方法。