CN118096452A - 一种案件辅助审判方法、装置、终端设备及介质 - Google Patents

一种案件辅助审判方法、装置、终端设备及介质 Download PDF

Info

Publication number
CN118096452A
CN118096452A CN202410494749.XA CN202410494749A CN118096452A CN 118096452 A CN118096452 A CN 118096452A CN 202410494749 A CN202410494749 A CN 202410494749A CN 118096452 A CN118096452 A CN 118096452A
Authority
CN
China
Prior art keywords
case
entity
knowledge
matching
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410494749.XA
Other languages
English (en)
Other versions
CN118096452B (zh
Inventor
陈晓红
詹敏
韩啸
曹世东
董玉成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiangjiang Laboratory
Original Assignee
Xiangjiang Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangjiang Laboratory filed Critical Xiangjiang Laboratory
Priority to CN202410494749.XA priority Critical patent/CN118096452B/zh
Priority claimed from CN202410494749.XA external-priority patent/CN118096452B/zh
Publication of CN118096452A publication Critical patent/CN118096452A/zh
Application granted granted Critical
Publication of CN118096452B publication Critical patent/CN118096452B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本申请适用于法律案情分析技术领域,提供了一种案件辅助审判方法、装置、终端设备及介质,该方法通过提炼案件知识标签;根据文本结构特征,构建文书结构抽取规则,分别对裁判文书进行划分,得到结构化数据集;根据案件知识标签,构建实体识别规则,对结构化数据集进行识别,得到案件实体集;根据案件关系集和案件实体集,构建案件知识图谱;计算案件知识图谱中各案件实体的影响度,从案件实体集中确定典型案件实体;计算待审判案件与典型案件实体之间的相似度,确定匹配案件;根据最高匹配得分对应的典型案件实体的裁判文书,对待审判案件的主刑进行预测,实现案件辅助审判。本申请能提高案件辅助审判的准确性和可解释性。

Description

一种案件辅助审判方法、装置、终端设备及介质
技术领域
本申请属于法律案情分析技术领域,尤其涉及一种案件辅助审判方法、装置、终端设备及介质。
背景技术
基于人工智能技术的案件辅助审判方法及***能够对海量案件进行处理提取关键信息并进行管理、分析,根据现实场景需求实现案件检索、经典案件推送、类案匹配等功能,以提升法院运转效率和效果。现有案件辅助审判方法一般是通过深度学习模型对案件进行大规模训练提取信息,再将其储存在关系数据库中通过结构化查询语句(SQL,Structured Query Language)进行遍历分析。然而,在信息提取方面,作为一种半结构文本,裁判文书行文通常具有一定的特征和规律,仅通过深度学习模型对文本进行直接处理会丢失案件知识关键特征,导致信息提取准确性和司法解释性不高;此外,现有案件辅助审判***中检索、类案匹配、典型案件推送等功能一般是将案件储存在关系数据库管理***(RDBMS,Relational Database Management System)中,主要是基于SQL语句对各个部分案件信息进行遍历,进而实现检索等功能。但是,用于储存案件的数据库往往具有较大的规模,基于关系数据库所构建的辅助审判***需在应用过程中重复索引、重复读取数据库,导致效率和准确性不高。
发明内容
本申请提供了一种案件辅助审判方法、装置、终端设备及介质,可以解决 传统案件辅助审判方法准确性低、解释性较差的问题。
第一方面,本申请提供了一种案件辅助审判方法,包括:
从预先构建的案件信息库中,提炼案件知识标签;案件信息库包括多份裁判文书,案件知识标签包括辅助审判知识标签和案件检索管理知识标签,辅助审判知识标签用以指示适用于辅助审判方法、具有法律依据的知识标签,案件检索管理知识标签用于指示适用于精细化检索的多维知识标签,案件知识标签与裁判文书一一对应;
根据多份裁判文书的文本结构特征,构建用于划分裁判文书文本结构的文书结构抽取规则,并根据文书结构抽取规则分别对多份裁判文书进行划分,得到结构化数据集;
根据案件知识标签,构建实体识别规则,并根据实体识别规则对结构化数据集进行识别,得到案件实体集;识别规则包括用于识别文本结构的文本结构实体识别规则、用于识别案件知识标签中断言词的零宽断言实体识别规则以及用于识别案件知识标签中判断词的判断语句实体识别规则,案件实体集包括多个案件实体,案件实体与裁判文书一一对应;
根据预先设计的案件关系集和案件实体集,构建案件知识图谱;
分别计算案件知识图谱中各案件实体的影响度,并根据影响度,从案件实体集中确定至少一个典型案件实体;
分别计算待审判案件与每个典型案件实体之间的相似度,并根据相似度确定至少一个匹配案件;匹配案件表示与待审判案件相似的典型案件实体;
分别计算每个匹配案件的匹配得分,并根据最高匹配得分对应的典型案件实体的裁判文书,对待审判案件的主刑进行预测,实现案件辅助审判。
可选的,辅助审判知识标签包括犯罪事实、从轻因素、从重因素、判决依据以及判决结果;
案件检索管理知识标签包括案件类型、案号、具体案由、归属省份、审理法院、主要审判人员、判决日期、被告人姓名、被告人职业、被告人文化程度、被告人民族、被告人性别。
可选的,文书结构抽取规则的表达式如下:
首部:从文本中匹配“审理终结”、“指控”为后断言词,获取后断言词之前的内容作为首部部分;
事实:从文本中匹配“审理终结”、“指控”为前断言词,依照顺序从文本中匹配“本院认为”、“本庭认为”、“本合议庭认为”为后断言词,获取前后断言词之间的内容作为事实部分;
理由:从文本中匹配“本院认为”、“本庭认为”、“本合议庭认为”为前断言词,从文本中匹配“判决如下”为后断言词,获取前后断言词之间的内容作为理由部分;
主文:从文本中匹配“判决如下”为前断言词,依照顺序从文本中匹配“如不服本判决”、“审判”为后断言词,获取前后断言词之间的内容作为主文部分;
尾部:从文本中匹配“如不服本判决”、“审判”为前断言词,获取前断言词之后的内容作为尾部部分。
可选的,根据实体识别规则对结构化数据集进行识别,得到案件实体集,包括:
针对文本结构实体识别规则,通过将每个裁判文书的文书内容转换成list形式,并以段落作为间隔,得到列表,/>为当前文书的第i段内容,/>为审理法院实体,/>为案件类型实体,/>为案号实体;
针对零宽断言实体识别规则,通过获取每个案件知识标签中的断言词,构建案件知识标签对应的正则匹配式;通过正则匹配式提取特定断言词之前、之后或者两个断言词之间的特定内容,如具体案由可将“犯”作为前断言词,“罪”为后断言词抽取当前案件的具体案由,即被告人罪名。
针对判断语句实体识别规则,通过预定义实体内容并构建知识标签判断词,将判断为True的知识标签映射为预定义内容。
可选的,影响度的计算公式如下:
其中,表示第/>案件实体/>在时刻/>的影响度,/>表示阻尼系数,表示案件实体/>的传入邻点,/>表示/>的传出邻点/>,/>表示评价出度,即从当前实体发出的边的数量。
可选的,分别计算待审判案件与每个典型案件实体之间的相似度,并根据相似度确定至少一个匹配案件,包括:
分别将待审判案件和每个典型案件实体向量化;
通过计算公式
得到待审判案件与典型案件实体/>之间的相似度/>;其中,/>表示所计算相似度的实体对象,/>表示所计算相似度的实体向量,/>表示当前实体的向量维度,/>表示当前向量矩阵的第/>维向量;
将相似度大于等于预设相似度阈值对应的典型案件实体,确定为待审判案件的匹配案件。
可选的,匹配得分的计算公式如下:
其中,表示所述待审判案件的向量/>与所述匹配案件/>的向量/>之间的匹配得分,/>表示所述判决结果对应的向量。
第二方面,本申请提供了一种案件辅助审判装置,包括:
标签模块,用于从预先构建的案件信息库中,提炼案件知识标签;案件信息库包括多份裁判文书,案件知识标签包括辅助审判知识标签和案件检索管理知识标签,辅助审判知识标签用以指示适用于辅助审判方法、具有法律依据的知识标签,案件检索管理知识标签用于指示适用于精细化检索的多维知识标签,案件知识标签与裁判文书一一对应;
抽取规则模块,用于根据多份裁判文书的文本结构特征,构建用于划分裁判文书文本结构的文书结构抽取规则,并根据文书结构抽取规则分别对多份裁判文书进行划分,得到结构化数据集;
识别规则模块,用于根据案件知识标签,构建实体识别规则,并根据实体识别规则对结构化数据集进行识别,得到案件实体集;识别规则包括用于识别文本结构的文本结构实体识别规则、用于识别案件知识标签中断言词的零宽断言实体识别规则以及用于识别案件知识标签中判断词的判断语句实体识别规则,案件实体集包括多个案件实体,案件实体与裁判文书一一对应;
知识图谱模块,用于根据预先设计的案件关系集和案件实体集,构建案件知识图谱;
典型案件确定模块,用于分别计算案件知识图谱中各案件实体的影响度,并根据影响度,从案件实体集中确定至少一个典型案件实体;
匹配案件确定模块,用于分别计算待审判案件与每个典型案件实体之间的相似度,并根据相似度确定至少一个匹配案件;匹配案件表示与待审判案件相似的典型案件实体;
辅助审判模块,用于分别计算每个匹配案件的匹配得分,并根据最高匹配得分对应的典型案件实体的裁判文书,对待审判案件的主刑进行预测,实现案件辅助审判。
第三方面,本申请提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的案件辅助审判方法。
第四方面,本申请提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述的案件辅助审判方法。
本申请的上述方案有如下的有益效果:
本申请提供的案件辅助审判方法,根据多份裁判文书的文本结构特征,构建文书结构抽取规则,利用了裁判文书半结构化的特性,能够准确对裁判文书的文本结构进行划分,增强了结构化数据的可解释性,从而提高案件辅助审判的准确性;通过分别计算待审判案件与其他案件之间的相似度和匹配得分,能进一步筛选出与待审判案件最相似的案件,减小其他不相干案件带来的干扰,减小流程工作量的同时,提高了案件辅助审判的准确性。
本申请的其它有益效果将在随后的具体实施方式部分予以详细说明。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的案件辅助审判方法的流程图;
图2为本申请一实施例提供的案件辅助审判装置的结构示意图;
图3为本申请一实施例提供的终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
针对传统案件辅助审判方法准确性低、解释性较差的问题,本申请提供了一种案件辅助审判方法、装置、终端设备及介质,该方法根据多份裁判文书的文本结构特征,构建文书结构抽取规则,利用了裁判文书半结构化的特性,能够准确对裁判文书的文本结构进行划分,增强了结构化数据的可解释性,从而提高案件辅助审判的准确性;通过分别计算待审判案件与其他案件之间的相似度和匹配得分,能进一步筛选出与待审判案件最相似的案件,减小其他不相干案件带来的干扰,减小流程工作量的同时,提高了案件辅助审判的准确性。
下面对本申请提供的案件辅助审判方法进行示例性说明。
如图1所示,本申请提供的案件辅助审判方法包括以下步骤:
步骤11,从预先构建的案件信息库中,提炼案件知识标签。
上述案件信息库包括多份裁判文书,案件知识标签包括辅助审判知识标签和案件检索管理知识标签,辅助审判知识标签用以指示适用于辅助审判方法、具有法律依据的知识标签,案件检索管理知识标签用于指示适用于精细化检索的多维知识标签,案件知识标签与裁判文书一一对应。
具体的,在本申请的实施例中,辅助审判知识标签包括犯罪事实、从轻因素、从重因素、判决依据以及判决结果。
案件检索管理知识标签包括案件类型、案号、具体案由、归属省份、审理法院、主要审判人员、判决日期、被告人姓名、被告人职业、被告人文化程度、被告人民族、被告人性别。
步骤12,根据多份裁判文书的文本结构特征,构建用于划分裁判文书文本结构的文书结构抽取规则,并根据文书结构抽取规则分别对多份裁判文书进行划分,得到结构化数据集。
具体的,文书结构抽取规则的表达式及思路如下:
首部:依照顺序从文本中匹配“审理终结”、“指控”为后断言词,获取后断言词之前的内容作为首部部分;
事实:依照顺序从文本中匹配“审理终结”、“指控”为前断言词,依照顺序从文本中匹配“本院认为”、“本庭认为”、“本合议庭认为”为后断言词,获取前后断言词之间的内容作为事实部分;
理由:依照顺序从文本中匹配“本院认为”、“本庭认为”、“本合议庭认为”为前断言词,从文本中匹配“判决如下”为后断言词,获取前后断言词之间的内容作为理由部分;
主文:依照顺序从文本中匹配“如不服本判决”、“审判”为后断言词,获取前后断言词之间的内容作为主文部分;
尾部:依照顺序从文本中匹配“如不服本判决”、“审判”为前断言词,获取前断言词之后的内容作为尾部部分。
所构建提取规则均是通过正则表达式中的零宽断言(zero-width assertions)方法构建,即匹配特定内容之前、之后或者两个特定内容中间的对象。通过所构建抽取规则对(XX年)上刑初字第XX号文书进行处理,首部抽取规则匹配到文中的“审理终结。”,即将该断言词及该断言词之前所有内容识别为当前文书的首部部分;事实抽取规则匹配到文中的“审理终结。”和“本院认为”,即将该两个断言词之间的内容识别为当前文书的事实部分;理由抽取规则匹配到文中的“本院认为”和“判决如下”,即将该两个断言词之间的内容识别为当前文书的理由部分;主文抽取规则匹配到文中的“判决如下”和“如不服本判决”,即将该两个断言词之间的内容识别为当前文书的主文部分;尾部抽取规则匹配到文中的“如不服本判决”,即将该两个断言词之间的内容识别为当前文书的主文部分;
通过文本分析可得知裁判文书在行文表达方面存在一定的差异性,如事实提取规则和理由提取规则中的断言词“本院认为”,个别文书在该部分是以“本庭认为”、“本合议庭认为”为起始句,因此,在实施过程中所构建结构抽取规则通过多层匹配模型实现匹配,在匹配过程中先以第一个断言词尝试,若匹配到内容即停止,若匹配不到则尝试下一个断言词,直至尝试完所有断言词。
步骤13,根据案件知识标签,构建实体识别规则,并根据实体识别规则对结构化数据集进行识别,得到案件实体集。
上述识别规则包括用于识别文本结构的文本结构实体识别规则、用于识别案件知识标签中断言词的零宽断言实体识别规则以及用于识别案件知识标签中判断词的判断语句实体识别规则,案件实体集包括多个案件实体,案件实体与裁判文书一一对应。
步骤14,根据预先设计的案件关系集和案件实体集,构建案件知识图谱。
示例性的,在本申请的实施例中,案件关系集如下表所示:
表1
下面对本申请中构建案件知识图谱的过程进行示例性说明。
首先,根据案件关系集,对案件实体集中的实体进行连接,得到案件知识图谱。连接过程主要通过如下语法实现:
LOAD CSV WITH HEADERS FROM "file:///X.csv" AS line
match (from:A{A:line.A}),(to:B{B:line.B})
merge (from)-[r:C{A:line.A,B:line.B}]->(to)
其中X.csv为储存所提取实体的CSV文件,A为主体实体,B为客体实体,C为具体关系。
然后,将案件实体三元组导入pyneo2库(一个客户端库和工具包,用于在Python应用程序中使用Neo4j),并配置用于检索的模块和可视化模块。
最后,配置检索语法,将Cypher(一种查询语言)语法转换为自然语言检索,通过中文关键词实现案件检索和可视化。
步骤15,分别计算案件知识图谱中各案件实体的影响度,并根据影响度,从案件实体集中确定至少一个典型案件实体。
具体的,步骤15.1,通过计算公式
得到第案件实体/>在时刻/>的影响度/>
其中,表示阻尼系数,/>表示案件实体/>的传入邻点,/>表示的传出邻点/>,/>表示评价出度,即从当前实体发出的边的数量。
步骤15.2,将影响度超过预设影响度阈值的案件实体作为典型案件实体。
典型案件表示在当前案件数据库中影响度较大的案件,可方便使用人员通过典型案件更深入地了解和理解相关法律知识和法律适用原则。
步骤16,分别计算待审判案件与每个典型案件实体之间的相似度,并根据相似度确定至少一个匹配案件。
上述匹配案件表示与待审判案件相似的典型案件实体。
步骤17,分别计算每个匹配案件的匹配得分,并根据最高匹配得分对应的典型案件实体的裁判文书,对待审判案件的主刑进行预测,实现案件辅助审判。
其中,匹配得分的计算公式如下:
其中,表示所述待审判案件/>的向量/>与所述匹配案件/>的向量/>之间的匹配得分,/>表示所述判决结果对应的向量。
获取到匹配得分后,法官可根据最高匹配得分对应的典型案件实体的裁判文书的判决结果,对待审判案件的主刑、量刑进行参考判决,得到的判决结果符合法规条例,可解释程度高,量刑准确。
下面对步骤13(根据案件知识标签,构建实体识别规则,并根据实体识别规则对结构化数据集进行识别,得到案件实体集)的过程进行示例性说明。
针对所述文本结构实体识别规则,通过将每个所述裁判文书的文书内容转换成list形式,并以段落作为间隔,得到列表,/>为当前文书的第i段内容,为审理法院实体,/>为案件类型实体,/>为案号实体;
针对所述零宽断言实体识别规则,通过获取每个所述案件知识标签中的断言词,构建所述案件知识标签对应的正则匹配式;通过正则匹配式提取特定断言词之前、之后或者两个断言词之间的特定内容,如具体案由可将“犯”作为前断言词,“罪”为后断言词抽取当前案件的具体案由,即被告人罪名。
针对判断语句实体识别规则,通过预定义实体内容并构建知识标签判断词,将判断为True的知识标签映射为预定义内容。其中,从轻因素内容预定义为如实供述、自首、无,判断词为如实供述、自首;从重因素内容预定义为累犯、无,判断词为累犯;被告人职业预定义为务工、务农、无业、司机、个体,判断词为务农、农业、农民、务工、工人、无业、无职业;被告人性别预定义为男、女,判断词为男、女;被告人文化程度预定义为小学文化、初中文化、高中文化、大学文化,判断词为小学、初中、高中、中专、专科、本科。
以(XX年)上刑初字第XX号文书为例,实施所述文本结构实体识别规则效果如下:
通过python程序读取(XX年)上刑初字第XX号文书内容,将其转化为list形式,所获得列表Text具体内容为:Text=[XX省XX县人民法院,刑事判决书,(XX年)上刑初字第XX号,公诉机关……];其中(XX省XX县人民法院)识别为审理法院实体,/>(刑事判决书)为案件类型实体,/>((XX年)上刑初字第XX号)为案号实体;
以(XX年)上刑初字第XX号文书为例,实施所述零宽断言实体识别规则效果如下:
被告人姓名:所构建识别规则识别到文本中的断言词“被告人”和“,”,即将断言词之间的“XXX”识别为被告人;
被告人民族:所构建识别规则识别到文本中的断言词“,”和“族”,即将断言词之间的“X”识别为被告人民族;
犯罪事实:所构建识别规则立方米'识别到文本中的断言词“立方米”,即将断言词之前的前置内容不为至(排除文本中关于法规说明的内容,如“XX违法行为”“XX违法程度”,以二十至五十立方米为起点”)的数值“XX违法程度值”识别为犯罪事实;
判决依据:所构建识别规则识别到文本中的断言词“依照”,即将断言词之后的“《XX刑法》第三百四十五条第一款,第六十七条第三款”识别为判决依据;
具体案由:所构建识别规则识别到文本中的断言词“犯”和“罪”,即将断言词之间的“XX罪”识别为判决依据;
判决结果:所构建识别规则中未识别到文本中的断言词“有期”和“月”,即尝试下一规则/>,成功识别到断言词“有期”和“年”将断言词之间的“三年”识别为判决结果中的***;所构建识别规则识别到文本中的断言词“罚金”和“元”,即将断言词之间的“15000元”识别为判决结果中的罚金;
归属省份:以文本结构实体识别规则结果中的审理法院实体为识别对象,识别规则识别到审理法院中的断言词“省”,即将断言词之前的“XX省”识别为归属省份;
主要审判人员:所构建识别规则识别到文本中的断言词“/>”,即将断言词之前的人民名单中的首位审判人员“XX”识别为主要审判人员;
判决日期:所构建识别规则识别到文本中的断言词“/>”和“日”,即将断言词之间的“二〇一四年九月二十八日”识别为判决日期;
以(XX年)上刑初字第XX号文书为例,实施所述判断语句实体识别规则效果如下:
被告人性别:识别到文本中的判断词“男”,根据预定义将被告人性别识别为“男”;
被告人文化程度:识别到文本中的判断词“小学”,根据预定义将被告人文化程度识别为“小学文化”;
被告人职业:识别到文本中的判断词“务农”,根据预定义将被告人职业识别为“务农”;
从轻因素:识别到文本中的判断词“如实供述”,根据预定义将从轻因素识别为“如实供述”。
下面对步骤16(分别计算待审判案件与每个典型案件实体之间的相似度,并根据相似度确定至少一个匹配案件)的过程进行示例性说明,具体包括步骤16.1~步骤16.3:
步骤16.1,分别将待审判案件和每个典型案件实体向量化。
步骤16.2,通过计算公式
得到待审判案件与典型案件实体/>之间的相似度/>;其中,/>表示所计算相似度的实体对象,/>表示所计算相似度的实体向量,/>表示当前实体的向量维度,/>表示当前向量矩阵的第/>维向量;
步骤16.3,将相似度大于等于预设相似度阈值对应的典型案件实体,确定为待审判案件的匹配案件。
下面对本申请提供的案件辅助审判装置进行示例性说明。
如图2所示,该案件辅助审判装置200包括:
标签模块201,用于从预先构建的案件信息库中,提炼案件知识标签;案件信息库包括多份裁判文书,案件知识标签包括辅助审判知识标签和案件检索管理知识标签,辅助审判知识标签用以指示适用于辅助审判方法、具有法律依据的知识标签,案件检索管理知识标签用于指示适用于精细化检索的多维知识标签,案件知识标签与裁判文书一一对应;
抽取规则模块202,用于根据多份裁判文书的文本结构特征,构建用于划分裁判文书文本结构的文书结构抽取规则,并根据文书结构抽取规则分别对多份裁判文书进行划分,得到结构化数据集;
识别规则模块203,用于根据案件知识标签,构建实体识别规则,并根据实体识别规则对结构化数据集进行识别,得到案件实体集;识别规则包括用于识别文本结构的文本结构实体识别规则、用于识别案件知识标签中断言词的零宽断言实体识别规则以及用于识别案件知识标签中判断词的判断语句实体识别规则,案件实体集包括多个案件实体,案件实体与裁判文书一一对应;
知识图谱模块204,用于根据预先设计的案件关系集和案件实体集,构建案件知识图谱;
典型案件确定模块205,用于分别计算案件知识图谱中各案件实体的影响度,并根据影响度,从案件实体集中确定至少一个典型案件实体;
匹配案件确定模块206,用于分别计算待审判案件与每个典型案件实体之间的相似度,并根据相似度确定至少一个匹配案件;匹配案件表示与待审判案件相似的典型案件实体;
辅助审判模块207,用于分别计算每个匹配案件的匹配得分,并根据最高匹配得分对应的典型案件实体的裁判文书,对待审判案件的主刑进行预测,实现案件辅助审判。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
如图3所示,本申请的实施例提供了一种终端设备,如图3所示,该实施例的终端设备D10包括:至少一个处理器D100(图3中仅示出一个处理器)、存储器D101以及存储在所述存储器D101中并可在所述至少一个处理器D100上运行的计算机程序D102,所述处理器D100执行所述计算机程序D102时实现上述任意各个方法实施例中的步骤。
具体的,所述处理器D100执行所述计算机程序D102时,从预先构建的案件信息库中,提炼案件知识标签;根据多份裁判文书的文本结构特征,构建用于划分裁判文书文本结构的文书结构抽取规则,并根据文书结构抽取规则分别对多份裁判文书进行划分,得到结构化数据集;根据案件知识标签,构建实体识别规则,并根据实体识别规则对结构化数据集进行识别,得到案件实体集;根据预先设计的案件关系集和案件实体集,构建案件知识图谱;分别计算案件知识图谱中各案件实体的影响度,并根据影响度,从案件实体集中确定至少一个典型案件实体;分别计算待审判案件与每个典型案件实体之间的相似度,并根据相似度确定至少一个匹配案件;分别计算每个匹配案件的匹配得分,并根据最高匹配得分对应的典型案件实体的裁判文书,对待审判案件的主刑进行预测,实现案件辅助审判。其中,根据多份裁判文书的文本结构特征,构建文书结构抽取规则,利用了裁判文书半结构化的特性,能够准确对裁判文书的文本结构进行划分,增强了结构化数据的可解释性,从而提高案件辅助审判的准确性;通过分别计算待审判案件与其他案件之间的相似度和匹配得分,能进一步筛选出与待审判案件最相似的案件,减小其他不相干案件带来的干扰,减小流程工作量的同时,提高了案件辅助审判的准确性。
所称处理器D100可以是中央处理单元(CPU,Central Processing Unit),该处理器D100还可以是其他通用处理器、数字信号处理器 (DSP,Digital Signal Processor)、专用集成电路 (ASIC,Application Specific Integrated Circuit)、现成可编程门阵列(FPGA,Field-Programmable Gate Array) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器D101在一些实施例中可以是所述终端设备D10的内部存储单元,例如终端设备D10的硬盘或内存。所述存储器D101在另一些实施例中也可以是所述终端设备D10的外部存储设备,例如所述终端设备D10上配备的插接式硬盘,智能存储卡(SMC,SmartMedia Card ),安全数字(SD,Secure Digital)卡,闪存卡(Flash Card)等。进一步地,所述存储器D101还可以既包括所述终端设备D10的内部存储单元也包括外部存储设备。所述存储器D101用于存储操作***、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器D101还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到案件辅助审判装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
本申请提供的案件辅助审判方法具备以下优点:
1、对案件相关法规法条进行分析,从应用角度出发构建了案件多维知识标签体系,确保了所抽取知识的实用价值,并为其他方法提供标签体系参考。
2、基于法律文书结构特征和所构建知识标签特征,构建三类案件实体抽取方法,有效提升了命名实体识别准确率和效率。
3、结合案件知识图谱和现实需求,利用智能推理算法构建案件多维标签检索及可视化模型、经典案件推送模型、类案匹配模型、审判结果预测模型,打通了案件知识图谱构建到应用的流程。
4、所构建案件辅助审判方法依托于无索引邻接图数据库,与现有方法相比可避免对数据库的重复读取和重复索引,可有效提升模型准确率和效率。
以上所述是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种案件辅助审判方法,其特征在于,包括:
从预先构建的案件信息库中,提炼案件知识标签;所述案件信息库包括多份裁判文书,所述案件知识标签包括辅助审判知识标签和案件检索管理知识标签,所述辅助审判知识标签表示适用于辅助审判方法、具有法律依据的知识标签,所述案件检索管理知识标签适用于精细化检索的多维知识标签,所述案件知识标签与所述裁判文书一一对应;
根据所述多份裁判文书的文本结构特征,构建用于划分裁判文书文本结构的文书结构抽取规则,并根据所述文书结构抽取规则分别对所述多份裁判文书进行划分,得到结构化数据集;
根据所述案件知识标签,构建实体识别规则,并根据所述实体识别规则对所述结构化数据集进行识别,得到案件实体集;所述识别规则包括用于识别文本结构的文本结构实体识别规则、用于识别案件知识标签中断言词的零宽断言实体识别规则以及用于识别案件知识标签中判断词的判断语句实体识别规则,所述案件实体集包括多个案件实体,所述案件实体与所述裁判文书一一对应;
根据预先设计的案件关系集和所述案件实体集,构建案件知识图谱;
分别计算所述案件知识图谱中各案件实体的影响度,并根据所述影响度,从所述案件实体集中确定至少一个典型案件实体;
分别计算待审判案件与每个典型案件实体之间的相似度,并根据所述相似度确定至少一个匹配案件;所述匹配案件表示与所述待审判案件相似的典型案件实体;
分别计算每个所述匹配案件的匹配得分,并根据最高匹配得分对应的典型案件实体的裁判文书,对所述待审判案件的主刑进行预测,实现案件辅助审判。
2.根据权利要求1所述的案件辅助审判方法,其特征在于,所述辅助审判知识标签包括犯罪事实、从轻因素、从重因素、判决依据以及判决结果;
所述案件检索管理知识标签包括案件类型、案号、具体案由、归属省份、审理法院、主要审判人员、判决日期、被告人姓名、被告人职业、被告人文化程度、被告人民族、被告人性别。
3.根据权利要求1所述的案件辅助审判方法,其特征在于,所述文书结构抽取规则的表达式及思路如下:
首部:从文本中匹配“审理终结”、“指控”为后断言词,获取后断言词之前的内容作为首部部分;
事实:从文本中匹配“审理终结”、“指控”为前断言词,依照顺序从文本中匹配“本院认为”、“本庭认为”、“本合议庭认为”为后断言词,获取前后断言词之间的内容作为事实部分;
理由:从文本中匹配“本院认为”、“本庭认为”、“本合议庭认为”为前断言词,从文本中匹配“判决如下”为后断言词,获取前后断言词之间的内容作为理由部分;
主文:从文本中匹配“判决如下”为前断言词,依照顺序从文本中匹配“如不服本判决”、“审判”为后断言词,获取前后断言词之间的内容作为主文部分;
尾部:从文本中匹配“如不服本判决”、“审判”为前断言词,获取前断言词之后的内容作为尾部部分。
4.根据权利要求1所述的案件辅助审判方法,其特征在于,所述根据所述实体识别规则对所述结构化数据集进行识别,得到案件实体集,包括:
针对所述文本结构实体识别规则,通过将每个所述裁判文书的文书内容转换成list形式,并以段落作为间隔,得到列表,/>为当前文书的第i段内容,/>为审理法院实体,/>为案件类型实体,/>为案号实体;
针对所述零宽断言实体识别规则,通过获取每个所述案件知识标签中的断言词,构建所述案件知识标签对应的正则匹配式;
针对判断语句实体识别规则,通过预定义实体内容并构建知识标签判断词,将判断为True的知识标签映射为预定义内容。
5.根据权利要求1所述的案件辅助审判方法,其特征在于,所述影响度的计算公式如下:
其中,表示第/>案件实体/>在时刻/>的影响度,/>表示阻尼系数,/>表示案件实体/>的传入邻点,/>表示/>的传出邻点/>,/>表示评价出度,即从当前实体发出的边的数量。
6.根据权利要求1所述的案件辅助审判方法,其特征在于,所述分别计算待审判案件与每个典型案件实体之间的相似度,并根据所述相似度确定至少一个匹配案件,包括:
分别将所述待审判案件和所述每个典型案件实体向量化;
通过计算公式
得到待审判案件与典型案件实体/>之间的相似度/>;其中,/>表示所计算相似度的实体对象,/>表示所计算相似度的实体向量,/>表示当前实体的向量维度,/>表示当前向量矩阵的第/>维向量;
将所述相似度大于等于预设相似度阈值对应的典型案件实体,确定为所述待审判案件的匹配案件。
7.根据权利要求1所述的案件辅助审判方法,其特征在于,所述匹配得分的计算公式如下:
其中,表示所述待审判案件的向量/>与所述匹配案件/>的向量/>之间的匹配得分,/>表示判决结果对应的向量。
8.一种案件辅助审判装置,其特征在于,包括:
标签模块,用于从预先构建的案件信息库中,提炼案件知识标签;所述案件信息库包括多份裁判文书,所述案件知识标签包括辅助审判知识标签和案件检索管理知识标签,所述辅助审判知识标签表示适用于辅助审判方法、具有法律依据的知识标签,所述案件检索管理知识标签表示适用于精细化检索的多维知识标签,所述案件知识标签与所述裁判文书一一对应;
抽取规则模块,用于根据所述多份裁判文书的文本结构特征,构建用于划分裁判文书文本结构的文书结构抽取规则,并根据所述文书结构抽取规则分别对所述多份裁判文书进行划分,得到结构化数据集;
识别规则模块,用于根据所述案件知识标签,构建实体识别规则,并根据所述实体识别规则对所述结构化数据集进行识别,得到案件实体集;所述识别规则包括用于识别文本结构的文本结构实体识别规则、用于识别案件知识标签中断言词的零宽断言实体识别规则以及用于识别案件知识标签中判断词的判断语句实体识别规则,所述案件实体集包括多个案件实体,所述案件实体与所述裁判文书一一对应;
知识图谱模块,用于根据预先设计的案件关系集和所述案件实体集,构建案件知识图谱;
典型案件确定模块,用于分别计算所述案件知识图谱中各案件实体的影响度,并根据所述影响度,从所述案件实体集中确定至少一个典型案件实体;
匹配案件确定模块,用于分别计算待审判案件与每个典型案件实体之间的相似度,并根据所述相似度确定至少一个匹配案件;所述匹配案件表示与所述待审判案件相似的典型案件实体;
辅助审判模块,用于分别计算每个所述匹配案件的匹配得分,并根据最高匹配得分对应的典型案件实体的裁判文书,对所述待审判案件的主刑进行预测,实现案件辅助审判。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的案件辅助审判方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的案件辅助审判方法。
CN202410494749.XA 2024-04-24 一种案件辅助审判方法、装置、终端设备及介质 Active CN118096452B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410494749.XA CN118096452B (zh) 2024-04-24 一种案件辅助审判方法、装置、终端设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410494749.XA CN118096452B (zh) 2024-04-24 一种案件辅助审判方法、装置、终端设备及介质

Publications (2)

Publication Number Publication Date
CN118096452A true CN118096452A (zh) 2024-05-28
CN118096452B CN118096452B (zh) 2024-07-30

Family

ID=

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597999A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法
CN110634088A (zh) * 2018-06-25 2019-12-31 阿里巴巴集团控股有限公司 案件裁判方法、装置和***
CN113868391A (zh) * 2021-09-27 2021-12-31 平安国际智慧城市科技股份有限公司 基于知识图谱的法律文书生成方法、装置、设备及介质
US20220027569A1 (en) * 2021-02-09 2022-01-27 Beijing Baidu Netcom Science And Technology Co., Ltd. Method for semantic retrieval, device and storage medium
CN114048325A (zh) * 2021-11-11 2022-02-15 泰康保险集团股份有限公司 基于知识图谱的案件处理方法及装置、存储介质
US20220121695A1 (en) * 2020-01-08 2022-04-21 Ping An Technology (Shenzhen) Co., Ltd. Knowledge graph-based case retrieval method, device and equipment, and storage medium

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110634088A (zh) * 2018-06-25 2019-12-31 阿里巴巴集团控股有限公司 案件裁判方法、装置和***
CN110597999A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法
US20220121695A1 (en) * 2020-01-08 2022-04-21 Ping An Technology (Shenzhen) Co., Ltd. Knowledge graph-based case retrieval method, device and equipment, and storage medium
US20220027569A1 (en) * 2021-02-09 2022-01-27 Beijing Baidu Netcom Science And Technology Co., Ltd. Method for semantic retrieval, device and storage medium
CN113868391A (zh) * 2021-09-27 2021-12-31 平安国际智慧城市科技股份有限公司 基于知识图谱的法律文书生成方法、装置、设备及介质
CN114048325A (zh) * 2021-11-11 2022-02-15 泰康保险集团股份有限公司 基于知识图谱的案件处理方法及装置、存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DONG, B: "A Knowledge Graph Construction Approach for Legal Domain", 《TEHNICKI VJESNIK-TECHNICAL GAZETTE》, vol. 28, no. 2, 20 May 2021 (2021-05-20), pages 357 - 362 *
商少帅: "面向法律文本的知识要素间关系抽取技术研究与实现", 《优秀硕士学位论文》, 15 February 2021 (2021-02-15), pages 1 - 66 *

Similar Documents

Publication Publication Date Title
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
CN103473283B (zh) 一种文本案例匹配方法
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及***
CN107562919B (zh) 一种基于信息检索的多索引集成软件构件检索方法及***
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
US20220004545A1 (en) Method of searching patent documents
US12039272B2 (en) Method of training a natural language search system, search system and corresponding use
CN109446313B (zh) 一种基于自然语言分析的排序***及方法
CN110990532A (zh) 一种处理文本的方法和装置
US20210350125A1 (en) System for searching natural language documents
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及***
CN113779358A (zh) 一种事件检测方法和***
CN115757819A (zh) 裁判文书中引用法条信息获取方法及装置
CN114625748A (zh) Sql查询语句的生成方法、装置、电子设备及可读存储介质
CN111597349A (zh) 一种基于人工智能的轨道交通规范实体关系自动补全方法
CN111241299A (zh) 一种法律咨询的知识图谱自动构建方法及其检索***
CN111858830A (zh) 基于自然语言处理的卫生监督执法数据检索***及其方法
CN110941713B (zh) 基于主题模型的自优化金融资讯版块分类方法
CN118096452B (zh) 一种案件辅助审判方法、装置、终端设备及介质
CN118096452A (zh) 一种案件辅助审判方法、装置、终端设备及介质
CN111858885B (zh) 一种关键词分离的用户问题意图识别方法
CN117235137B (zh) 一种基于向量数据库的职业信息查询方法及装置
CN115687632B (zh) 一种刑事量刑情节分解分析的方法和***
CN115859968B (zh) 一种基于自然语言解析及机器学习的政策颗粒化分析***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant