CN117453856A

CN117453856A - 一种基于多源数据融合的历审案件串联的提取方法及装置

Info

Publication number: CN117453856A
Application number: CN202311361252.2A
Authority: CN
Inventors: 聂欣慧; 辛国忠; 徐昊天; 张瑞; 许远航; 蔡志新
Original assignee: China Judicial Big Data Research Institute Co ltd
Current assignee: China Judicial Big Data Research Institute Co ltd
Priority date: 2023-10-19
Filing date: 2023-10-19
Publication date: 2024-01-26
Anticipated expiration: 2043-10-19
Also published as: CN117453856B

Abstract

本发明公开了一种基于多源数据融合的历审案件串联的提取方法及装置。本方法为：1)从多个数据源获取案件并抽取案件的设定核心要素信息，得到每一案件的结构化案件数据，根据各案件的结构化案件数据生成案件标准库；2)基于所述案件标准库内每一案件记录中存储的本案案号和前审案号迭代查找案件之间的关系，生成历审案件的案件串联树；3)依据所述案件串联树和业务需求生成每个案件的可视化字段以及对应案件生命周期内的历审案件信息；然后将历审案件信息存储到数据库中并建立业务所需的索引项；4)当收到用户的查询时，根据索引项返回所查询的案件及其相关联的历审案件。本发明解决了前审后续的案件节点多对一问题，适用实际的诉讼业务。

Description

一种基于多源数据融合的历审案件串联的提取方法及装置

技术领域

本发明属于计算机软件技术领域，涉及一种基于多源数据融合的历审案件串联的提取方法及装置。

背景技术

“案”是指人民法院受理的当事人提请解决的矛盾纠纷，包括民事、刑事、行政等。“件”是指当事人提请解决的“案”在进入人民法院后所经历的审判执行程序。包括刑事、民事、行政、司法赔偿一审及其衍生的后续案件。由于案件及其衍生的案件可能由不同等级的法院负责审理，而现有业务***中的司法数据很难直接从几亿案件信息中找出一个“案”的所有衍生案件，也无法梳理清楚案件之间的前审后续的相关关系。

在涉诉金融服务、案件画像、审判质效评估等应用场景需要检索或展示某一案件的所有衍生案件的诉讼流程以及案件之间的审理关系，因此，提取案件前审后续的需求迫切且意义重大。

本发明基于多源数据融合的基础之上，提出一种历审案件串联的方法及装置，实现案件串联结果优化存储、快速查询的装置，满足实际的应用需求。

专利公开号CN115730561A《案件关联方法、装置、计算设备及计算机存储介质》公开了一种案件关联方法、装置、计算设备及计算机存储介质。方法包括：获取法律文书数据,将法律文书数据划分为多个域块数据,该域块包括：案号域块以及审理过程域块；从案号域块数据中提取出法律文书数据对应的本案案号,以及从审理过程域块数据中提取出法律文书数据对应的候选案号；针对于任一候选案号,获取该候选案号在审理过程域块数据中的位置；根据候选案号在审理过程域块数据中的位置,从候选案号中筛选出法律文书数据对应的历审案号；建立本案案号与历审案号的关联关系。

该方法局限于历审案号出现的审理过程块，如果解析审理过程块不准确，则本案案号与历史案号的关联关系不准确，很大程度上无法应用到实际应用中。

授权公告号CN110209760B《历审案件关联的方法和装置、电子设备、计算机可读介质》的专利公开提供了一种历审案件关联的方法，该方法包括：获取一个案件文书,以所述案件文书对应的案件的案号为当前案号；根据预设的案号模板,在所述案件文书中查询得到至少一个候选案号；根据各所述候选案号的相关文本,确定至少一个所述候选案号为前审案号,其中任意所述候选案号的相关文本包括该候选案号之前预定长度的文本和/或该候选案号之后预定长度的文本；将所述案件文书的当前案号与前审案号相关联,得到一个案号组并将其加入案号数据库。

该方法使用指定预定长度的文本来提取候选案号，认为出现在文本中的案号为该案件的前审案号，但是文本中的案号可能为相关联案号，而不是本案的前审。如,文书中提及“罪犯B另案处理(案号：XXXX第XXX号)”，这种情况会把误将“XXXX第XXX号”作为前审案号，导致关联错误。

专利公开号CN114036170A《相关联案件获取方法、装置、设备、存储介质和程序产品》申请涉及一种相关联案件获取方法、装置、设备、存储介质和程序产品。所述方法包括：获取相关数据的变更信息,所述变更信息携带有案件标识；对所述变更信息进行解析,以更新与所述案件标识对应的详情数据；根据所述详情数据构建新的案件关系；根据所述新的案件关系获取到与所述案件标识对应的当前案号组；获取与所述案件标识对应的历史案号组；当所述当前案号组与所述历史案号组不同时,删除所述历史案号组,并新增所述当前案号组。

该方法能够提供一种能够加快案号组的更改效率的相关联案件获取方法。但该发明专利强调更改案号组的效率方法，与本发明的解决问题的角度不同。

专利公开号CN112948571A《一种基于裁判文书的历审案件关联方法和装置、电子设备、计算机可读介质》涉及一种基于裁判文书的历审案件关联方法和装置、电子设备、计算机可读介质。该方法包括：获取目标裁判文书,以其案号作为当前案号；根据预设案号模板在目标裁判文书中查询除本目标裁判文书案号之外的所有案号,去重后作为候选案号；根据预设的筛选条件对每个候选案号进行筛选,将符合筛选条件的候选案号确定为前审案号,得到一组当前案号和前审案号的关联关系；获取前审案号对应的裁判文书作为目标裁判文书,以该前审案号作为当前案号,重复上述步骤,直到找不到候选案号或前审案号为止；将按顺序关联到的当前案号和前置案号组合后作为关联结果返回。

该发明与专利公开号CN110209760B类似，都是基于裁判文书，根据预设的案号模板，迭代提取案件关联关系，其准确性是否可以达到应用级别，暂时无法评估。

综上所述，目前既有的技术主要是基于单一数据源，都是使用裁判文书来提取历审案号信息，裁判文书是非结构化的数据形式，后续串联结果的好坏依托于解析裁判文书的准确性，在此基础上进行的案件相关性分析的准确性覆盖率无法达到应用级别。其次从文书中可以提取多个候选案号，但是上诉专利中提取的是一个候选案号组与本案案号的关系，没有提及到案件链的存储和可视化方法。

发明内容

针对现有技术中存在的问题，本发明的目的在于提供一种基于多源数据融合的历审案件串联的提取方法及装置。本发明不仅仅使用裁判文书来提取案号信息，而是使用多种数据源，对案件信息进行数据融合，该方法会修正和填充案件的前审案号信息以及案件的核心要素，在此基础之上，提出一种案件串联树的生成方法，解决前审后续的案件节点多对一问题，以适用实际的诉讼业务；并提供了一种可查询案件及其历审关联案件的装置。

本发明解决了案件串联信息案号不全、不标准的问题，以及历审案件串联结果生成的问题。本发明还提供一种历审案件索引装置。

本发明的技术方案为：

一种基于多源数据融合的历审案件串联的提取方法，其步骤包括：

1)从多个数据源获取案件并抽取案件的设定核心要素信息，得到每一案件的结构化案件数据，根据各案件的结构化案件数据生成案件标准库；所述设定核心要素信息包括本案案号、前审案号、案由、立案日期和结案日期；

2)基于所述案件标准库内每一案件记录中存储的本案案号和前审案号迭代查找案件之间的关系，生成历审案件的案件串联树；

3)依据所述案件串联树和业务需求生成每个案件的可视化字段以及对应案件生命周期内的历审案件信息；然后将历审案件信息存储到数据库中并建立业务所需的索引项；

4)当收到用户的查询时，根据索引项返回所查询的案件及其相关联的历审案件。

进一步的，生成所述案件标准库的方法为：

11)根据每一类所述数据源的元数据信息，抽取案件的设定核心要素信息；

12)以法标要求的表命名、字段命名、数据类型生成标准库的数据结构；

13)建立每一类所述数据源的数据结构中表字段与所述标准库的数据结构中表字段间的映射关系；

14)根据构建的数据清理规则库修正和排除所抽取的设定核心要素信息中不规范数据；

15)将步骤14)清洗后的数据，依据所述映射关系填入所述标准库中；然后对于有数据缺失的案件，根据案号和经办法院查找候选案件，对该有数据缺失的案件进行补充，生成所述案件标准库。

进一步的，生成所述案件串联树的方法为：

21)依据司法案件审理的诉讼流程，生成每一案件类型的前审后续关系，形成每一案件类型对应的案件串联规则库；

22)针对每一案件类型，从所述案件标准库中获取该案件类型的案件子类型、案号、前审案号，依据该案件类型的案件串联规则库首先对该案件类型审理阶段案件的历审案件串联，再对该案件类型执行阶段的执行案件串联；然后将审理阶段的最后一个节点与执行阶段的首节点进行串联，根据节点的串联信息生成该案件类型的案件串联树。

进一步的，利用案件树生成函数生成每一案件类型的案件串联树，其方法为：根据同一案件类型对应的各节点的串联信息获取两两关联的一对节点，根据每一对节点生成一链接信息，记为c_link；然后从头节点开始，根据每一节点对应的若干个c_link生成数组，以左右树生产逻辑产生该案件类型的案件串联树，返回包含所有节点信息的map数组，每个节点的信息包括本案案号的案件ID，前审案号的案件ID，节点的左右节点标记信息以及节点所属层级。

进一步的，所述历审案件信息包括：案件id，案件串联的头节点id，案件子类型，案件的前审id，案件的后续id，案件树信息，案件进展阶段，经办法院，所属省份，立案日期，结案日期，结案方式，立案案由。

进一步的，所述可视化字段包括案件受理信息和审结信息；所述受理信息包括经办法院、立案日期、本案案号、前审案号、承办人和立案案由，所述审理信息包括审结状态、结案案由、结案金额、结案方式和结案日期。

进一步的，所述可视化字段还包括案件其他信息字段和记录信息字段，所述案件其他信息包括是否公开、是否开通审理、扣除审限天数、申请延长审限天数、发回重审事由；所述记录信息包括记录时间、记录状态和分区。

进一步的，所述数据源包括审流案件、解析后结构化的裁判文书、执行公开案件信息和破产重整的案件信息。

进一步的，所述数据库为Elastcisearch库。

一种基于多源数据融合的历审案件串联的提取装置，其特征在于，包括数据源融合模块、案件串联树生成模块和数据库索引模块；

所述数据源融合模块，用于从多个数据源获取案件并抽取案件的设定核心要素信息，得到每一案件的结构化案件数据，根据各案件的结构化案件数据生成案件标准库；所述设定核心要素信息包括本案案号、前审案号、案由、立案日期和结案日期；

所述案件串联树生成模块，用于基于所述案件标准库内每一案件记录中存储的本案案号和前审案号迭代查找案件之间的关系，生成历审案件的案件串联树；

所述数据库索引模块，用于依据所述案件串联树和业务需求生成每个案件的可视化字段以及对应案件生命周期内的历审案件信息；然后将历审案件信息存储到数据库中并建立业务所需的索引项。

本发明的优点如下：

本发明提出一种将审流数据、法律裁判文书数据、执行公开数据、破产重整数据以案件为主题进行数据融合的方法，本方法可以提升案件的数据质量，更好的为案件串联提供基础数据；其次，提出一种历审案件串联关系的生成方法，本方法可实现增量的更新并存储历审案件的关联关系；提出一种案件串联结果查询的服务装置，进而为涉诉金融服务，案件画像等多应用场景提供数据服务能力。

首先，提出一种多源数据司法案件信息的数据融合方法。通过对多个数据源(审流案件，解析后结构化的裁判文书，执行公开案件信息，破产重整的案件信息)，抽取案件相关的核心要素信息，形成统一的、标准的结构化数据，并对同一案件的关键信息通过多数据源的信息进行相互验证，补充和融合，为后续的历审案件提取做准备性的基础工作。

其次，提出一种历审案件的案件串联树的生成方法。基于多源数据融合后的案件数据，依据案件记录中存储的“本案案号”和“前审案号”迭代查找案件与案件的关系，采用左右树的存储方式，将案件的衍生关系拓展为“案件串联树”的形式，方便用户了解整个案件的诉讼过程以及各案件节点的情况。

最后，提供一种案件关联结果查询的服务装置。基于“案件串联树”，形成案件查询的接口服务，为涉诉金融提供涉案查询服务。

附图说明

图1为一种基于多源数据融合的案件前审后续串联的提取方法及装置。

图2为一种多源数据的司法案件信息的数据融合方法。

图3为一种案件串联树的生成方法。

图4为案件串联树的逻辑图。

图5为一种案件关联结果查询的服务装置。

具体实施方式

下面结合附图对本发明进行进一步详细描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

本发明为一种基于多源数据融合的案件前审后续串联的提取方法及装置，本发明方法及装置的生成流程如图1所示，主要包含以下三个方面的内容：

一、如图2所示，一种多源司法案件信息的数据融合方法。

多源司法案件信息的数据融合方法的处理流程如下：

首先，从业务***中采集四类案件相关信息，包括：全国法院汇聚到高法的审流案件信息，以下简称为法标数据，裁判文书解析后的结构化数据，执行***息，以及破产重整信息。

其次，对采集的数据进行数据清洗、标准化，构建案件标准库。由于汇聚的数据源结构各异，比如：裁判文书解析后的结构化数据除案件信息还有许多案情相关的、当事人相关的信息，执行公开数据以当事人的维度(如：失信被执行人，限高被执行人等)且字段名称差异较大。通过对本案案号、前审案号、案由、立案日期，结案日期等案件核心信息字段的清洗及结构标准化分别形成四类数据源的案件标准库。其清洗标准化过程步骤为：1.分析核心业务数据，归纳出需要入标准库的业务***数据，识别核心字段。2.生成标准库的数据结构。3.明确源数据结构与标准库表字段间的映射关系。4.分析现有数据源字段的数据问题，数据现状，制定并梳理形成清洗规则库。5.依据清洗规则，分别对四类数据源标准化形成案件维度的四类标准库。下面分别对各个实施步骤进行详细描述：

步骤1.分析数据源，识别核心字段：通过四类数据源的元数据信息(元数据，描述数据的数据，描述该数据的字段名称，数据类型，业务含义等)，按照核心业务所需的信息分别抽取标准库所需的字段。在四类数据源业务数据中，按照不同案件类型(管辖案件、刑事案件、民事案件、行政案件、国家赔偿与司法救助案件、区际司法协助案件、国际司法协助案件、司法制裁案件、非诉保全审查案件、执行案件、强制清算与破产案件11大类)抽取出案件的要素字段，包括：案件受理信息(经办法院，立案日期，本案案号，前审案号，承办人，立案案由等)，审理信息(审结状态，结案案由，结案金额，结案方式，结案日期)，案件其他信息(是否公开，是否开通审理，扣除审限天数，申请延长审限天数，发回重审事由等)，记录信息(记录时间，记录状态，分区等)。

步骤2构建标准库，生成标准库的数据结构。由于法标数据是最高法要求的汇聚数据的标准规范数据，将四类数据源以法标要求的表命名、字段命名、数据类型等标准规范，依据我们抽取出的核心字段生成标准库的数据结构。

步骤3明确源数据结构与标准库表字段间的映射关系。由于四类数据源的数据结构、字段命名等都存在差异，因此需要建立源与目标之间的映射关系。同一业务含义信息的描述在不同数据源中，使用的字段是不同的，在同一数据源不同案件类型的字段也是不同的；针对四类数据源，11大类案件类型分别明确每个字段与目标字段的映射关系。构建生成了元数据映射信息表。元数据映射表的以前审案号为样例：

表中数据源类型1代表法标数据2代表执行公开数据3代表裁判文书数据，4代表破产数据。

步骤4分析现有数据的问题，构建数据清理规则库，修正和排除不规范数据。针对案号填写不规范的情况，如，括号大小写或者存在特殊字符等情况进行修正，即建立案号标准化清洗规则；针对字段非法代码问题包括非法代码、代码与数据标准不一致等，非法值问题包括取值错误、格式错误、多余字符、乱码等,进行校核及修正；内容中有不该存在的字符某些内容可能只包括一部分字符，比如就是头、尾、中间的空格，特殊符号、乱码也可能出现在当事人姓名中等存在数字符号、身份证号中出现汉字等问题。

步骤5生成标准库。将清洗后的字段，依据源数据结构与标准库表字段间的映射关系，生产标准库。

最后，对同一案件，不同数据源进行案件信息修正及补全。规定将案号和经办法院两个字段唯一确定一个案件，若不同数据源的案号和经办法院相同，则认为是同一案件的不同数据源，则以审流案件为基准，依据已构建的修正、填充规则，利用其他数据源对审流案件数据的标准库进行修正和填充。即对于有数据缺失的案件，根据案号和经办法院查找候选案件，对该有数据缺失的案件进行补充；例如，若审流案件信息里的前审案号缺失，而同一案件文书数据源的信息中带有前审案号，则用文书中的案号填充案件的前审信息字段，并记录该字段填充规则，便于后续信息追溯，形成以案件信息为分析主体的数据融合库。

二、如图3所示，一种历审案件的案件串联树的生成方法。

历审案件的案件串联数的生成方法如下：

首先，依据司法案件审理的诉讼流程生成每一案件类型的前审后续关系，形成每一案件类型对应的案件串联规则库，本发明梳理7类案件类型每个案件类型的前审后续关系，形成案件串联规则库，案件串联的规则库是生成历审案件树的基础，以该业务规则为前提才能准确的串联诉讼流程各个审理案件节点的关系。案件串联规则主要对7类案件类型的审理关系进行梳理，包括：民事案件，刑事案件，行政案件，国家赔偿与司法救助案件中的行政赔偿赔偿案件，非诉保全审查案件，强制清算与破产案件、执行案件等。

案件串联规则库具体如下(部分情况)：

其次，从案件融合库中，获取案件子类型，案号、前审案号等信息。依据案件关联规则，首先进行审理阶段案件的历审案件串联，再进行执行阶段的执行案件串联；然后，在将审理阶段的最后一个节点与执行阶段的首节点进行串联，形成两两计算案件串联的结果，并将串联信息存入多个临时表中。具体实施为以民事案件串联为例：先将民事一审案件从标准库中取出作为头节点存入一临时表--node1表中，按照规则1提取民事二审案件找到前审案号等于一审的本案案号的案件将头节点信息及它后续第二个节点信息存入一临时表--node2表中，同理，将再审审查和再审案件进行关联得到的结果与node2表中的民事二审进行关联，将头节点和关联信息存入一临时表--node3表中，依次类推，得出多个两两关联的节点信息。最后，将同一类型案件的头节点的多个前审后续关系作为输入参数，传递到案件树生成函数，给出案件串联树的左右节点标记信息，存入案件串联信息表。案件树生成函数是自主研发的。

案件树生成函数的数据处理步骤为：1.将两两关联的节点信息(当前节点信息以及前审节点信息)生成链接信息，记为c_link；2.将同一头节点的多个两两关联c_link生产数组作为入参输入到函数中。3函数依据输入参数，以左右树生产逻辑产生案件串联树，返回所有节点信息的map数组，每个节点的信息包括本案案号的案件ID，前审案号的案件ID，节点的左下标(左值)和右下标(右值)以及节点所属案件树的层级。案件串联树的逻辑表达如图4所示。

图4是案件及其衍生的所有案件生成的案件串联树，是一个8层的案件关系树，图中椭圆节点表示一个案件，用案号进行描述(案号已去掉法院代字进行脱敏)，箭头连接的是该节点的后续案件。节点“(2017)民终1600号”有两个后续案件节点。矩形表示的是该节点的左右下标。左右下标的表示含义为：1.节点包含左值、右值字段，作为子节点的范围；2.节点的左值小于所有子节点左值，右值大于所有子节点右值。本发明生成的案件树解决现有技术只生成案件单链的情况，无法生成1个节点对多个后续节点的情况；本发明的案件串联树无层级限制，查询效率高，修改效率较低。

三、如图5所示，一种案件串联结果查询服务装置

首先，依据案件串联树，案件融合库加工，生成每个案件的关键信息以及该案件生命周期内的历审案件信息。历审案件信息包括：案件id，案件串联的头节点id，案件子类型，案件的前审id，案件的后续id，案件树信息，案件进展阶段，经办法院，所属省份，立案日期，结案日期，结案方式，立案案由等。关键信息是与业务需求挂钩，用来提供可视化字段，包括案件受理信息，审结信息等；案件受理信息包括经办法院，立案日期，本案案号，前审案号，承办人，立案案由等，审理信息包括审结状态，结案案由，结案金额，结案方式，结案日期；案件其他信息包括是否公开，是否开通审理，扣除审限天数，申请延长审限天数，发回重审事由等；记录信息包括记录时间，记录状态，分区等。

然后，将历审案件信息存储到Elastcisearch库，建立业务所需的索引项，为用户提供查询服务，将数据封装成接口服务，上线应用到涉诉金融，用户画像等服务中。

本发明基于融合数据的案件串联方法准确率达95％以上，能够覆盖多个案件对一个后续的情况。

本方法在实际应用场景中处理3亿左右的数据，生成案件树约半个小时左右，已满足实际的应用需求。

本发明主要应用到涉诉金融服务等场景中，已经满足用户需求，提供业务支持，并为公司带来了收益。

尽管为说明目的公开了本发明的具体实施例，其目的在于帮助理解本发明的内容并据以实施，本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。因此，本发明不应局限于最佳实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于多源数据融合的历审案件串联的提取方法，其步骤包括：

2.根据权利要求1所述的方法，其特征在于，生成所述案件标准库的方法为：

3.根据权利要求1所述的方法，其特征在于，生成所述案件串联树的方法为：

4.根据权利要求3所述的方法，其特征在于，利用案件树生成函数生成每一案件类型的案件串联树，其方法为：根据同一案件类型对应的各节点的串联信息获取两两关联的一对节点，根据每一对节点生成一链接信息，记为c_link；然后从头节点开始，根据每一节点对应的若干个c_link生成数组，以左右树生产逻辑产生该案件类型的案件串联树，返回包含所有节点信息的map数组，每个节点的信息包括本案案号的案件ID，前审案号的案件ID，节点的左右节点标记信息以及节点所属层级。

5.根据权利要求1或2或3所述的方法，其特征在于，所述历审案件信息包括：案件id，案件串联的头节点id，案件子类型，案件的前审id，案件的后续id，案件树信息，案件进展阶段，经办法院，所属省份，立案日期，结案日期，结案方式，立案案由。

6.根据权利要求1或2或3所述的方法，其特征在于，所述可视化字段包括案件受理信息和审结信息；所述受理信息包括经办法院、立案日期、本案案号、前审案号、承办人和立案案由，所述审理信息包括审结状态、结案案由、结案金额、结案方式和结案日期。

7.根据权利要求6所述的方法，其特征在于，所述可视化字段还包括案件其他信息字段和记录信息字段，所述案件其他信息包括是否公开、是否开通审理、扣除审限天数、申请延长审限天数、发回重审事由；所述记录信息包括记录时间、记录状态和分区。

8.根据权利要求1所述的方法，其特征在于，所述数据源包括审流案件、解析后结构化的裁判文书、执行公开案件信息和破产重整的案件信息。

9.根据权利要求1所述的方法，其特征在于，所述数据库为Elastcisearch库。

10.一种基于多源数据融合的历审案件串联的提取装置，其特征在于，包括数据源融合模块、案件串联树生成模块和数据库索引模块；