CN109344187B - 一种司法判决书案情信息结构化处理*** - Google Patents

一种司法判决书案情信息结构化处理*** Download PDF

Info

Publication number
CN109344187B
CN109344187B CN201810989323.6A CN201810989323A CN109344187B CN 109344187 B CN109344187 B CN 109344187B CN 201810989323 A CN201810989323 A CN 201810989323A CN 109344187 B CN109344187 B CN 109344187B
Authority
CN
China
Prior art keywords
attribute
judicial
information
judicial judgment
case information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810989323.6A
Other languages
English (en)
Other versions
CN109344187A (zh
Inventor
吴共庆
汪瀛寰
薛婵
马凤君
何颖
李培培
胡学钢
吴信东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201810989323.6A priority Critical patent/CN109344187B/zh
Publication of CN109344187A publication Critical patent/CN109344187A/zh
Application granted granted Critical
Publication of CN109344187B publication Critical patent/CN109344187B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Technology Law (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种司法判决书案情信息结构化处理***,适用于信息抽取和自然语言处理领域;***包括以下模块:司法判决书案情信息结构化表示模块、建立司法判决书案情信息序列标注模型模块、属性触发词管理模块和生成结构化司法判决书案情信息模块。根据用户给定的案件类型,建立司法判决书案情信息结构化数据表示框架,构建司法判决书案情信息序列标注训练集并训练序列标注模型,结合属性触发词集合,根据生成结构化司法判决书案情信息方法生成结构化的司法判决书案情信息。本发明根据用户提供的司法判决书案件类型和案情信息,实现司法判决书案情信息的结构化处理,其目的在于提供一种从无结构化司法判决书文本中抽取结构化信息的有效方式。

Description

一种司法判决书案情信息结构化处理***
技术领域
本发明涉及到信息抽取和自然语言处理领域,具体是一种司法判决书案情信息结构化处理***。
背景技术
在司法公开的背景下,生效的司法判决书在互联网上公布,产生了大量真实有效的司法判决书数据。加强对司法判决书数据的研究应用是信息化建设的需要,是推进人民法院审判体系和审判能力现代化的需要,也是加速推进“智慧法院”建设和“智能检察院”建设的必然要求。目前,针对司法判决书数据的应用主要使用两类技术,分别是和基于规则的司法判决书信息抽取技术和基于搜索引擎的类案检索技术。
不同法院的司法判决书的内容组织形式基本相同,大多包括判决书基本信息、法律角色信息、起诉书信息、案情信息和判决信息五部分内容,并且各部分内容包含相对规范的线索词。基于规则的司法判决书信息抽取技术首先利用线索词构建规则表达式对司法判决书进行拆分,然后再根据各部分内容的不同陈述方式,分别构造不同的抽取规则进行语义信息的抽取。这类技术对司法判决书中的判决书基本信息和法律角色信息等部分的抽取准确率较高,但也存在不足之处:(1)规则需要由那些同时具备法律背景及计算机语言学背景的专家制作,导致规则的制定成本高。(2)不同类型的司法判决书有不同的表述方式,导致规则的类型多种多样,制定这些规则需要耗费大量的人力物力。(3)对于司法判决书中的案情信息和判决信息等部分,由于这些部分存在陈述方式的多样性和复杂性,因此仅依据规则难以准确抽取语义信息。
基于搜索引擎技术的类案检索技术,为用户提供相关司法判决书的检索功能,即根据用户输入的关键词,返回所有与关键词相关的司法判决书集合。但这类技术存在以下三点不足:(1)关键词涉及到与法律相关的专业词汇,如当事人、法官观点等,需要用户有相关的法律业务背景知识。(2)***返回的是所有包含关键词的司法判决书,信息量大且不具有针对性。(3)返回的结果以完整的司法判决书形式呈现,需要用户花费大量时间阅读判决书以获取所需信息。
总之,现有的司法判决书数据的相关应用均集中在对司法判决书的简单检索,以及对司法判决书中部分数据的精确抽取工作上,未能充分考虑到司法判决书的内容冗长且陈述方式多样性的数据特点,不具备对案情信息等部分内容的精确抽取能力,因此难以满足面向司法判决书数据的后续分析需求。若能对司法判决书中的案情信息进行结构化处理,即从司法判决书案情信息中抽取有用信息,并以<属性,值>对的形式呈现出来,则能方便用户的查阅和后续的分析处理工作。
发明内容
本发明的目的是提供一种司法判决书案情信息结构化处理***,依托事件抽取、序列标注和<属性,值>对抽取技术,可以从无结构且冗长的司法判决书案情信息中抽取案件的<属性,值>对信息,并以树状结构化数据表示框架向用户展示,解决了基于规则的司法判决书案情信息抽取技术在制定规则时的高成本问题,以及基于搜索引擎的类案检索技术对法律业务背景知识的要求高、检索结果的信息覆盖率低、难以满足面向司法判决书案情信息的后续分析需求的问题。
为了达到上述目的,本发明所采用的技术方案为:
一种司法判决书案情信息结构化处理***,其特征在于,包括:
司法判决书案情信息结构化表示模块:给定案件类型,建立所述案件类型的司法判决书案情信息结构化数据表示框架;所述司法判决书案情信息结构化数据表示框架是树状数据表示框架,树的叶节点存储属性信息,树的内部节点存储属性的类别;所述属性信息包括属性名、属性值类型和<属性,值>对集合;
建立司法判决书案情信息序列标注模型模块:给定案件类型的司法判决书案情信息集合,根据司法判决书案情信息序列标注预处理方法构建司法判决书案情信息序列标注训练集;根据司法判决书案情信息序列标注建模方法,使用司法判决书案情信息序列标注训练集建立所述案件类型的司法判决书案情信息序列标注模型;
属性触发词管理模块:为给定案件类型的司法判决书案情信息结构化数据表示框架中每个属性管理一份触发词集合,使用属性触发词集合初始化方法对给定案件类型的司法判决书案情信息结构化数据表示框架中每个属性的触发词集合进行初始化,所述触发词是一个字符串;
生成结构化司法判决书案情信息模块:给定案件类型的司法判决书案情信息,根据给定案件类型的司法判决书案情信息结构化数据表示框架、给定案件类型的司法判决书案情信息结构化数据表示框架中每个属性的触发词集合、给定案件类型的司法判决书案情信息序列标注模型和生成结构化司法判决书案情信息方法生成结构化司法判决书案情信息;所述结构化司法判决书案情信息在结构上和司法判决书案情信息结构化数据表示框架相同,其中每个属性的<属性,值>对集合根据给定案件类型的司法判决书案情信息的内容生成。
所述司法判决书案情信息序列标注预处理方法,其步骤如下:
步骤2-1:以司法判决书案情信息结构化数据表示框架中属性信息的属性名为标签,手工标记给定案件类型的司法判决书案情信息集合中描述属性的句子;
步骤2-2:抽取包含属性名标签的所有句子,依据属性名对句子进行分组,并去除句子中的标签,每个分组为一个属性的序列集合;所述序列是指描述属性的一个句子;
步骤2-3:利用自然语言处理工具处理各属性的序列集合,并手工给序列集合中构成序列的每个元素标记一个标签,构建司法判决书案情信息序列标注训练集;所述元素是指构成序列的一个字符串及经自然语言处理工具处理后所得的特征;所述标签,对于值为布尔型的属性,标签类型包括T和O,对于值为字符串型的属性,标签类型包括T、A、V和O,其中,T为触发词,O为其他,A为属性,V为属性值。
所述属性触发词集合初始化方法为:对于司法判决书案情信息结构化数据表示框架中的每个属性,使用建立司法判决书案情信息序列标注模型模块中司法判决书案情信息序列标注预处理方法构建的司法判决书案情信息序列标注训练集,抽取标签为T的字符串加入给定案件类型的司法判决书案情信息结构化数据表示框架中该属性的触发词集合。
所述司法判决书案情信息序列标注建模方法,其步骤如下:
步骤4-1:对于值为布尔型的属性,训练基于T、O的序列标注模型;
步骤4-2:对于值为字符串型的属性,训练基于T、A、V、O的序列标注模型。
所述给定案件类型的司法判决书案情信息结构化数据表示框架由司法判决书案情信息结构化表示模块建立;所述给定案件类型的司法判决书案情信息序列标注模型由建立司法判决书案情信息序列标注模型模块构建。
所述生成结构化司法判决书案情信息方法,其步骤如下:
步骤6-1:根据给定案件类型的司法判决书案情信息结构化数据表示框架生成一份司法判决书案情信息结构化数据表示实例;所述司法判决书案情信息结构化数据表示实例初始化为给定案件类型的司法判决书案情信息结构化数据表示框架的一个副本,司法判决书案情信息结构化数据表示实例中属性信息的<属性,值>对集合初始化为空集合;
步骤6-2:给定一份司法判决书案情信息,以“。”为分隔符对司法判决书案情信息进行分句处理;遍历所有分句,使用给定案件类型的司法判决书案情信息结构化数据表示框架中每个属性的触发词集合,如果分句中包含触发词集合中的触发词,则将分句加入该属性的候选序列集合中;所述候选序列是指可能用于描述属性的一个句子;
步骤6-3:对司法判决书案情信息结构化数据表示实例中的每个属性,选择相应属性的序列标注模型标注候选序列集合;对于值为布尔型的属性,若标注结果中包含触发词标签,则将<属性名,T>加入司法判决书案情信息结构化数据表示实例中属性信息的<属性,值>对集合,若触发词标签标注的字符串不在属性的触发词集合中,则调用属性触发词管理模块将触发词标签标注的字符串添加到属性的触发词集合中;对于值为字符串型的属性,若标记结果中包含触发词、属性和属性值标签,则依据<属性,值>对生成方法生成<属性,值>对集合并添加到司法判决书案情信息结构化数据表示实例中属性信息的<属性,值>对集合,若触发词标签标注的字符串不在属性的触发词集合中,则调用属性触发词管理模块将触发词标签标注的字符串添加到属性的触发词集合中;
步骤6-4:将司法判决书案情信息结构化数据表示实例作为结构化司法判决书案情信息输出。
所述<属性,值>对生成方法,其步骤如下:
步骤6-3-1:抽取标记结果中同时包含触发词、属性和属性值标签的序列,构成序列集合;创建三个集合,分别是属性集合、属性值集合和<属性,值>对集合,均初始化为空集合;
步骤6-3-2:依次遍历序列集合的每个序列;
步骤6-3-3:依次遍历当前序列的每个元素;若元素的标签为属性,则将元素中的字符串加入属性集合;若元素的标签为属性值,则将元素中的字符串加入属性值集合;若元素的字符串为“,”或“;”,若属性集合和属性值集合均不为空,则将属性集合和属性值集合的笛卡尔积加入到<属性,值>对集合,清空属性集合和属性值集合,转步骤6-3-3;若元素的字符串为“,”或“;”,若属性集合或属性值集合为空,转步骤6-3-3;若元素的字符串为句尾,若属性集合和属性值集合均不为空,则将属性集合和属性值集合的笛卡尔积加入到<属性,值>对集合,则清空属性集合和属性值集合,转步骤6-3-2;若元素的字符串为句尾,若属性集合或属性值集合为空,则清空属性集合和属性值集合,转步骤6-3-2;所述句尾为用户自定义的序列结束标志。
与已有技术相比,本发明的有益效果体现在:
(1)处理的信息具有较好的针对性。司法判决书案情信息是司法判决书中内容语义最为复杂且用户感兴趣的信息。面向司法判决书的案情信息进行结构化处理,处理的信息具有较好的针对性。
(2)处理后的信息具有良好的结构化特征,方便用户做进一步的分析工作。通过司法判决书案情信息结构化数据表示框架,使得案情信息数据具有良好的层次结构。通过<属性,值>对抽取技术从案情事件中抽取案情信息属性的属性值,以<属性,值>对集合的形式表示案情信息的关键内容,具有较好的结构化特征。
(3)***处理的效率较高。通过利用事件抽取技术中的事件触发词定位案情的候选事件,避免了对不相干事件的处理,使得***处理的效率较高。
(4)***处理的准确率较高且成本低。***采用了利用序列标注模型标注后再抽取的<属性,值>对抽取技术,比基于规则的<属性,值>对抽取技术抽取准确率更高,并且无需专家制定抽取规则,使得成本较低。
本发明适用于司法判决书案情信息结构化处理领域,不要求用户具备较多的司法领域专业知识和计算机领域专业知识,即可对司法判决书案情信息进行结构化处理。
附图说明
图1为本发明一种司法判决书案情信息结构化处理***的流程图。
图2为机动车事故司法判决书案情信息结构化数据表示框架。
图3为处理后的结构化司法判决书案情信息。
具体实施方式
一种司法判决书案情信息结构化处理***,包括以下模块:
司法判决书案情信息结构化表示模块:给定案件类型,建立所述案件类型的司法判决书案情信息结构化数据表示框架;所述司法判决书案情信息结构化数据表示框架是树状数据表示框架,树的叶节点存储属性信息,树的内部节点存储属性的类别;所述属性信息包括属性名、属性值类型和<属性,值>对集合;
建立司法判决书案情信息序列标注模型模块:给定案件类型的司法判决书案情信息集合,根据司法判决书案情信息序列标注预处理方法构建司法判决书案情信息序列标注训练集;根据司法判决书案情信息序列标注建模方法,使用司法判决书案情信息序列标注训练集建立所述案件类型的司法判决书案情信息序列标注模型;
属性触发词管理模块:为给定案件类型的司法判决书案情信息结构化数据表示框架中每个属性管理一份触发词集合,使用属性触发词集合初始化方法对给定案件类型的司法判决书案情信息结构化数据表示框架中每个属性的触发词集合进行初始化,所述触发词是一个字符串;
生成结构化司法判决书案情信息模块:给定案件类型的司法判决书案情信息,根据给定案件类型的司法判决书案情信息结构化数据表示框架、给定案件类型的司法判决书案情信息结构化数据表示框架中每个属性的触发词集合、给定案件类型的司法判决书案情信息序列标注模型和生成结构化司法判决书案情信息方法生成结构化司法判决书案情信息;所述结构化司法判决书案情信息在结构上和司法判决书案情信息结构化数据表示框架相同,其中每个属性的<属性,值>对集合根据给定案件类型的司法判决书案情信息的内容生成。
建立司法判决书案情信息序列标注模型模块中司法判决书案情信息序列标注预处理方法的步骤如下:
步骤2-1:以司法判决书案情信息结构化数据表示框架中属性信息的属性名为标签,手工标记给定案件类型的司法判决书案情信息集合中描述属性的句子;
步骤2-2:抽取包含属性名标签的所有句子,依据属性名对句子进行分组,并去除句子中的标签,每个分组为一个属性的序列集合;所述序列是指描述属性的一个句子;
步骤2-3:利用自然语言处理工具处理各属性的序列集合,并手工给序列集合中构成序列的每个元素标记一个标签,构建司法判决书案情信息序列标注训练集;所述元素是指构成序列的一个字符串及经自然语言处理工具处理后所得的特征;所述标签,对于值为布尔型的属性,标签类型包括T和O,对于值为字符串型的属性,标签类型包括T、A、V和O,其中,T为触发词,O为其他,A为属性,V为属性值。
属性触发词管理模块中属性触发词集合初始化方法为:对于司法判决书案情信息结构化数据表示框架中的每个属性,使用建立司法判决书案情信息序列标注模型模块中司法判决书案情信息序列标注预处理方法构建的司法判决书案情信息序列标注训练集,抽取标签为T的字符串加入给定案件类型的司法判决书案情信息结构化数据表示框架中该属性的触发词集合。
建立司法判决书案情信息序列标注模型模块中司法判决书案情信息序列标注建模方法的步骤如下:
步骤4-1:对于值为布尔型的属性,训练基于T、O的序列标注模型;
步骤4-2:对于值为字符串型的属性,训练基于T、A、V、O的序列标注模型。
所述给定案件类型的司法判决书案情信息结构化数据表示框架由司法判决书案情信息结构化表示模块建立;所述给定案件类型的司法判决书案情信息序列标注模型由建立司法判决书案情信息序列标注模型模块构建。
生成结构化司法判决书案情信息模块中生成结构化司法判决书案情信息方法的步骤如下:
步骤6-1:根据给定案件类型的司法判决书案情信息结构化数据表示框架生成一份司法判决书案情信息结构化数据表示实例;所述司法判决书案情信息结构化数据表示实例初始化为给定案件类型的司法判决书案情信息结构化数据表示框架的一个副本,司法判决书案情信息结构化数据表示实例中属性信息的<属性,值>对集合初始化为空集合;
步骤6-2:给定一份司法判决书案情信息,以“。”为分隔符对司法判决书案情信息进行分句处理;遍历所有分句,使用给定案件类型的司法判决书案情信息结构化数据表示框架中每个属性的触发词集合,如果分句中包含触发词集合中的触发词,则将分句加入该属性的候选序列集合中;所述候选序列是指可能用于描述属性的一个句子;
步骤6-3:对司法判决书案情信息结构化数据表示实例中的每个属性,选择相应属性的序列标注模型标注候选序列集合;对于值为布尔型的属性,若标注结果中包含触发词标签,则将<属性名,T>加入司法判决书案情信息结构化数据表示实例中属性信息的<属性,值>对集合,若触发词标签标注的字符串不在属性的触发词集合中,则调用属性触发词管理模块将触发词标签标注的字符串添加到属性的触发词集合中;对于值为字符串型的属性,若标记结果中包含触发词、属性和属性值标签,则依据<属性,值>对生成方法生成<属性,值>对集合并添加到司法判决书案情信息结构化数据表示实例中属性信息的<属性,值>对集合,若触发词标签标注的字符串不在属性的触发词集合中,则调用属性触发词管理模块将触发词标签标注的字符串添加到属性的触发词集合中;
步骤6-4:将司法判决书案情信息结构化数据表示实例作为结构化司法判决书案情信息输出。
所述<属性,值>对生成方法,其步骤如下:
步骤6-3-1:抽取标记结果中同时包含触发词、属性和属性值标签的序列,构成序列集合;创建三个集合,分别是属性集合、属性值集合和<属性,值>对集合,均初始化为空集合;
步骤6-3-2:依次遍历序列集合的每个序列;
步骤6-3-3:依次遍历当前序列的每个元素;若元素的标签为属性,则将元素中的字符串加入属性集合;若元素的标签为属性值,则将元素中的字符串加入属性值集合;若元素的字符串为“,”或“;”,若属性集合和属性值集合均不为空,则将属性集合和属性值集合的笛卡尔积加入到<属性,值>对集合,清空属性集合和属性值集合,转步骤6-3-3;若元素的字符串为“,”或“;”,若属性集合或属性值集合为空,转步骤6-3-3;若元素的字符串为句尾,若属性集合和属性值集合均不为空,则将属性集合和属性值集合的笛卡尔积加入到<属性,值>对集合,则清空属性集合和属性值集合,转步骤6-3-2;若元素的字符串为句尾,若属性集合或属性值集合为空,则清空属性集合和属性值集合,转步骤6-3-2;所述句尾为用户自定义的序列结束标志。
具体实施例:
本实施例以机动车事故司法判决书案情信息结构化处理为例,司法判决书案情信息结构化处理***按图1所示流程进行机动车事故司法判决书案情信息结构化处理。
(1)如图1的S101所示,调用司法判决书案情信息结构化表示模块,根据给定的机动车事故案件类型,建立机动车事故司法判决书案情信息结构化数据表示框架。对于机动车事故案件,用户通常希望了解事故中的主体责任类型、事故造成的伤残等级、车辆所购买的保险类型等信息,或者希望了解司法判决书中是否含有特定情形的描述。因此,可建立如图2所示的机动车事故司法判决书的案情信息结构化数据表示框架。
(2)如图1中的S102所示,调用建立司法判决书案情信息序列标注模型模块,根据司法判决书案情信息序列标注预处理方法构建机动车事故司法判决书案情信息序列标注训练集。
以机动车事故司法判决书案情信息结构化数据表示框架中属性信息的属性名为标签,创建诸如<伤残>、<保险>等标签,利用标签标记给定的机动车事故司法判决书案件信息集合中用于描述相应属性的句子。从标签标记后的机动车事故司法判决书案情信息集合中抽取包含标签的句子,并依据属性对句子进行分组。去除各分组句子中的标签,这样每个分组即为一个属性的序列集合。对一篇机动车事故司法判决书案情信息进行标签标注和分组的结果如表1所示。
表1.机动车事故司法判决书标签标注和分组结果
Figure BDA0001780415010000091
Figure BDA0001780415010000101
Figure BDA0001780415010000111
利用哈工大社会计算与信息检索研究中心研发的“语言技术平台(LTP)”自然语言处理工具对各属性的序列集合中的每个序列进行分词、词性标注和句法分析处理,处理后的一个序列由多个元素构成,每个元素结构形如{字符串词性特征句法结构特征}。手工给各属性的序列集合中构成序列的每个元素标记一个标签,构建机动车事故司法判决书案情信息序列标注训练集,其中对于值为布尔型的属性,标签类型包括“T”(触发词)和“O”(其他)。对于值为字符串型的属性,标签类型包括“T”(触发词)、“B-A”(属性前)、“M-A”(属性中)、“E-A”(属性后)、“B-V”(属性值前)、“M-V”(属性值中)、“E-V”(属性值后)和“O”(其他)。以处理“全部责任”属性序列集合中的一个序列为例,该序列经自然语言处理工具处理后的结果如表2左所示;经手工标注后的结果如表2右所示。
表2.“全部责任”属性的一个序列经自然语言处理及手工标记的结果
Figure BDA0001780415010000121
(3)如图1的S103所示,调用建立司法判决书案情信息序列标注模型模块,使用机动车事故司法判决书案情信息序列标注训练集建立机动车事故司法判决书案情信息序列标注模型。
本实施例采用的序列标注模型是条件随机场模型,所使用的工具为CRF++。对于诸如“交强险限额分配”等值为布尔型的属性,调用CRF++工具训练基于“T”(触发词)和“O”(其他)的条件随机场模型。对于诸如“伤残”、“保险”等值为字符串类型的属性,调用CRF++工具训练基于“T”(触发词)、“A”(属性)、“V”(属性值)和“O”(其他)的条件随机场模型。所有属性的序列标注模型构成机动车事故司法判决书案情信息序列标注模型。
(4)如图1的S104所示,调用属性触发词管理模块,使用属性触发词集合初始化方法对机动车事故司法判决书案情信息结构化数据表示框架中每个属性管理的触发词集合进行初始化。
对于机动车事故司法判决书案情信息结构化数据表示框架中的每个属性,分别抽取属性序列标注训练集中标签为“T”的元素,将元素中的字符串加入属性所管理的触发词集合中,完成触发词集合的初始化工作。机动车事故司法判决书的部分触发词集合如表3所示。
表3.机动车事故司法判决书的部分触发词表
序号 属性名 触发词集合
1 主要责任 认定、认定书
2 次要责任 认定、认定书
3 同等责任 认定、认定书
4 全部责任 认定、认定书
5 无责任 认定、认定书
6 伤残 鉴定、评定、构成
7 保险 投保、承保、购买、参保
8 交强险限额分配 比例、分摊
9 车内物品损失 造成
…… ……
(5)如图1的S105所示,调用生成结构化司法判决书案情信息模块,利用生成结构化司法判决书案情信息的方法生成结构化的机动车事故司法判决书案情信息。具体操作如下:
步骤S105-1:生成机动车事故司法判决书案情信息结构化数据表示框架的一个副本,并将其中属性信息的<属性,值>对集合初始化为空集合,做为一份机动车事故司法判决书案情信息结构化数据表示实例。
步骤S105-2:给定一篇机动车事故司法判决书案情信息,以“。”为分隔符对机动车事故司法判决书案情信息进行分句处理,形成该机动车事故司法判决书案情信息的分句集合。遍历所有分句,使用机动车事故司法判决书案情信息结构化数据表示框架中每个属性的触发词集合,如果分句中包含触发词集合中的触发词,则将分句加入该属性的候选序列集合中。一篇机动车事故司法判决书案情信息的候选序列集合如表4所示。
表4.司法判决书案情信息的候选序列集合
Figure BDA0001780415010000131
Figure BDA0001780415010000141
步骤S105-3:对机动车事故司法判决书案情信息结构化数据表示实例中每个属性的候选序列集合,选择机动车事故司法判决书案情信息序列标注模型中相应属性的序列标注模型进行标注。以标注“保险”属性的候选序列集合为例,首先调用司法判决书案情信息序列标注预处理方法中的自然语言处理工具,对候选序列集合中的每个序列做与训练集同样的处理,即分词、词性标注和句法分析处理;然后选用机动车事故司法判决书案情信息序列标注模型中“保险”属性的序列标注模型进行标注,标注结果如表5所示。
表5.“保险”属性的候选序列集合标注结果
Figure BDA0001780415010000142
Figure BDA0001780415010000151
对于诸如“交强险限额分配”等值为布尔型的属性,若标注结果中包含触发词标签,则将<属性名,T>加入司法判决书案情信息结构化数据表示实例中属性信息的<属性,值>对集合,若触发词标签标注的字符串不在属性的触发词集合中,则调用属性触发词管理模块将触发词标签标注的字符串添加到属性的触发词集合中。对于诸如“保险”等值为字符串型的属性,则按照以下步骤生成<属性,值>对:
步骤S105-3-1:“B-A”或“M-A”或“E-A”为“-A”类标签,“B-V”或“M-V”或“E-V”为“-V”类标签,抽取标记结果中同时包含“T”、“-A”类标签和“-V”类标签的序列构成序列集合,因此“保险”属性的序列集合中只有表5中序号为1序列;创建三个集合,分别是属性集合、属性值集合和<属性,值>对集合,均初始化为空集合。
步骤S105-3-2:依次遍历序列集合的每个序列。
步骤S105-3-3:依次遍历当前序列的每个元素。若元素的标签为“T”,若该元素中的字符串不在属性的触发词集合中,则调用属性触发词管理模块将触发词标签标注的字符串添加到属性的触发词集合中。标签后缀为“-A”的元素是指标签为“B-A”或“M-A”或“E-A”的元素,若元素的标签为“B-A”,则按照“B-A+M-A+E-A”的顺序组合相邻的标签后缀为“-A”元素中的字符串,并将组合后的字符串加入属性集合。后缀为“-V”的元素是指标签为“B-V”或“M-V”或“E-V”的元素,若元素的标签为“B-V”,则按照“B-V+M-V+E-V”的顺序组合相邻的标签后缀为“-V”元素中的字符串,并将组合后的字符串加入属性值集合。若元素的字符串为“,”或“;”,若属性集合和属性值集合均不为空,则将属性集合和属性值集合的笛卡尔积加入到<属性,值>对集合,清空属性集合和属性值集合,转步骤S105-3-3。若元素的字符串为“,”或“;”,若属性集合或属性值集合为空,转步骤S105-3-3。定义句尾为空串,若元素的字符串为句尾,若属性集合和属性值集合均不为空,则将属性集合和属性值集合的笛卡尔积加入到<属性,值>对集合,清空属性集合和属性值集合,转步骤S105-3-2。若元素的字符串为句尾,若属性集合或属性值集合为空,则清空属性集合和属性值集合,转步骤S105-3-2。笛卡尔积的计算公式如下:属性集合×属性值集合={<属性,值>|属性∈属性集合∧值∈属性值集合}。
步骤S105-4:将机动车事故司法判决书案情信息结构化数据表示实例作为结构化司法判决书案情信息输出,如图3所示。

Claims (6)

1.一种司法判决书案情信息结构化处理***,其特征在于,包括:
司法判决书案情信息结构化表示模块:给定案件类型,建立所述案件类型的司法判决书案情信息结构化数据表示框架;所述司法判决书案情信息结构化数据表示框架是树状数据表示框架,树的叶节点存储属性信息,树的内部节点存储属性的类别;所述属性信息包括属性名、属性值类型和<属性,值>对集合;
建立司法判决书案情信息序列标注模型模块:给定案件类型的司法判决书案情信息集合,根据司法判决书案情信息序列标注预处理方法构建司法判决书案情信息序列标注训练集;根据司法判决书案情信息序列标注建模方法,使用司法判决书案情信息序列标注训练集建立所述案件类型的司法判决书案情信息序列标注模型;
属性触发词管理模块:为给定案件类型的司法判决书案情信息结构化数据表示框架中每个属性管理一份触发词集合,使用属性触发词集合初始化方法对给定案件类型的司法判决书案情信息结构化数据表示框架中每个属性的触发词集合进行初始化,所述触发词是一个字符串;
生成结构化司法判决书案情信息模块:给定案件类型的司法判决书案情信息,根据给定案件类型的司法判决书案情信息结构化数据表示框架、给定案件类型的司法判决书案情信息结构化数据表示框架中每个属性的触发词集合、给定案件类型的司法判决书案情信息序列标注模型和生成结构化司法判决书案情信息方法生成结构化司法判决书案情信息;所述结构化司法判决书案情信息在结构上和司法判决书案情信息结构化数据表示框架相同,其中每个属性的<属性,值>对集合根据给定案件类型的司法判决书案情信息的内容生成;
所述生成结构化司法判决书案情信息方法,其步骤如下:
步骤6-1:根据给定案件类型的司法判决书案情信息结构化数据表示框架生成一份司法判决书案情信息结构化数据表示实例;所述司法判决书案情信息结构化数据表示实例初始化为给定案件类型的司法判决书案情信息结构化数据表示框架的一个副本,司法判决书案情信息结构化数据表示实例中属性信息的<属性,值>对集合初始化为空集合;
步骤6-2:给定一份司法判决书案情信息,以“。”为分隔符对司法判决书案情信息进行分句处理;遍历所有分句,使用给定案件类型的司法判决书案情信息结构化数据表示框架中每个属性的触发词集合,如果分句中包含触发词集合中的触发词,则将分句加入该属性的候选序列集合中;所述候选序列是指可能用于描述属性的一个句子;
步骤6-3:对司法判决书案情信息结构化数据表示实例中的每个属性,选择相应属性的序列标注模型标注候选序列集合;对于值为布尔型的属性,若标注结果中包含触发词标签,则将<属性名,T>加入司法判决书案情信息结构化数据表示实例中属性信息的<属性,值>对集合,若触发词标签标注的字符串不在属性的触发词集合中,则调用属性触发词管理模块将触发词标签标注的字符串添加到属性的触发词集合中;对于值为字符串型的属性,若标记结果中包含触发词、属性和属性值标签,则依据<属性,值>对生成方法生成<属性,值>对集合并添加到司法判决书案情信息结构化数据表示实例中属性信息的<属性,值>对集合,若触发词标签标注的字符串不在属性的触发词集合中,则调用属性触发词管理模块将触发词标签标注的字符串添加到属性的触发词集合中;
步骤6-4:将司法判决书案情信息结构化数据表示实例作为结构化司法判决书案情信息输出。
2.根据权利要求1所述的司法判决书案情信息结构化处理***,其特征在于:所述司法判决书案情信息序列标注预处理方法,其步骤如下:
步骤2-1:以司法判决书案情信息结构化数据表示框架中属性信息的属性名为标签,手工标记给定案件类型的司法判决书案情信息集合中描述属性的句子;
步骤2-2:抽取包含属性名标签的所有句子,依据属性名对句子进行分组,并去除句子中的标签,每个分组为一个属性的序列集合;所述序列是指描述属性的一个句子;
步骤2-3:利用自然语言处理工具处理各属性的序列集合,并手工给序列集合中构成序列的每个元素标记一个标签,构建司法判决书案情信息序列标注训练集;所述元素是指构成序列的一个字符串及经自然语言处理工具处理后所得的特征;所述标签,对于值为布尔型的属性,标签类型包括T和O,对于值为字符串型的属性,标签类型包括T、A、V和O,其中,T为触发词,O为其他,A为属性,V为属性值。
3.根据权利要求2所述的司法判决书案情信息结构化处理***,其特征在于:所述属性触发词集合初始化方法为:对于司法判决书案情信息结构化数据表示框架中的每个属性,使用建立司法判决书案情信息序列标注模型模块中司法判决书案情信息序列标注预处理方法构建的司法判决书案情信息序列标注训练集,抽取标签为T的字符串加入给定案件类型的司法判决书案情信息结构化数据表示框架中该属性的触发词集合。
4.根据权利要求2所述的司法判决书案情信息结构化处理***,其特征在于:所述司法判决书案情信息序列标注建模方法,其步骤如下:
步骤4-1:对于值为布尔型的属性,训练基于T、O的序列标注模型;
步骤4-2:对于值为字符串型的属性,训练基于T、A、V、O的序列标注模型。
5.根据权利要求1所述的司法判决书案情信息结构化处理***,其特征在于:所述给定案件类型的司法判决书案情信息结构化数据表示框架由司法判决书案情信息结构化表示模块建立;所述给定案件类型的司法判决书案情信息序列标注模型由建立司法判决书案情信息序列标注模型模块构建。
6.根据权利要求1所述的司法判决书案情信息结构化处理***,其特征在于:所述<属性,值>对生成方法,其步骤如下:
步骤6-3-1:抽取标记结果中同时包含触发词、属性和属性值标签的序列,构成序列集合;创建三个集合,分别是属性集合、属性值集合和<属性,值>对集合,均初始化为空集合;
步骤6-3-2:依次遍历序列集合的每个序列;
步骤6-3-3:依次遍历当前序列的每个元素;若元素的标签为属性,则将元素中的字符串加入属性集合;若元素的标签为属性值,则将元素中的字符串加入属性值集合;若元素的字符串为“,”或“;”,若属性集合和属性值集合均不为空,则将属性集合和属性值集合的笛卡尔积加入到<属性,值>对集合,清空属性集合和属性值集合,转步骤6-3-3;若元素的字符串为“,”或“;”,若属性集合或属性值集合为空,转步骤6-3-3;若元素的字符串为句尾,若属性集合和属性值集合均不为空,则将属性集合和属性值集合的笛卡尔积加入到<属性,值>对集合,则清空属性集合和属性值集合,转步骤6-3-2;若元素的字符串为句尾,若属性集合或属性值集合为空,则清空属性集合和属性值集合,转步骤6-3-2;所述句尾为用户自定义的序列结束标志。
CN201810989323.6A 2018-08-28 2018-08-28 一种司法判决书案情信息结构化处理*** Active CN109344187B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810989323.6A CN109344187B (zh) 2018-08-28 2018-08-28 一种司法判决书案情信息结构化处理***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810989323.6A CN109344187B (zh) 2018-08-28 2018-08-28 一种司法判决书案情信息结构化处理***

Publications (2)

Publication Number Publication Date
CN109344187A CN109344187A (zh) 2019-02-15
CN109344187B true CN109344187B (zh) 2021-11-12

Family

ID=65291990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810989323.6A Active CN109344187B (zh) 2018-08-28 2018-08-28 一种司法判决书案情信息结构化处理***

Country Status (1)

Country Link
CN (1) CN109344187B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147553A (zh) * 2019-05-23 2019-08-20 贵州大学 一种基于案件要素的法律文书分析方法
CN111241274B (zh) * 2019-12-31 2023-11-28 航天信息股份有限公司 刑事法律文书处理方法和装置、存储介质和电子设备
CN111783472A (zh) * 2020-06-30 2020-10-16 鼎富智能科技有限公司 一种判决书内容提取方法及相关装置
CN112330501A (zh) * 2020-10-30 2021-02-05 南京智慧图谱信息技术有限公司 一种文书处理方法、装置、电子设备及存储介质
CN112632223B (zh) * 2020-12-29 2023-01-20 天津汇智星源信息技术有限公司 案事件知识图谱构建方法及相关设备
CN114238418B (zh) * 2022-02-24 2022-05-10 佛山市禅城区人民法院 ***要素表生成方法、***和可读存储介质
CN115545671B (zh) * 2022-11-02 2023-10-03 广州明动软件股份有限公司 一种法律法规结构化处理的方法、***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7941419B2 (en) * 2006-03-01 2011-05-10 Oracle International Corporation Suggested content with attribute parameterization
CN105260361A (zh) * 2015-10-28 2016-01-20 南京邮电大学 一种生物医学事件的触发词标注***及方法
CN105488105A (zh) * 2015-11-19 2016-04-13 百度在线网络技术(北京)有限公司 信息提取模板的建立方法、知识数据的处理方法和装置
CN106156143A (zh) * 2015-04-13 2016-11-23 富士通株式会社 网页处理装置和网页处理方法
CN106777274A (zh) * 2016-06-16 2017-05-31 北京理工大学 一种中文旅游领域知识图谱构建方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7702500B2 (en) * 2004-11-24 2010-04-20 Blaedow Karen R Method and apparatus for determining the meaning of natural language

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7941419B2 (en) * 2006-03-01 2011-05-10 Oracle International Corporation Suggested content with attribute parameterization
CN106156143A (zh) * 2015-04-13 2016-11-23 富士通株式会社 网页处理装置和网页处理方法
CN105260361A (zh) * 2015-10-28 2016-01-20 南京邮电大学 一种生物医学事件的触发词标注***及方法
CN105488105A (zh) * 2015-11-19 2016-04-13 百度在线网络技术(北京)有限公司 信息提取模板的建立方法、知识数据的处理方法和装置
CN106777274A (zh) * 2016-06-16 2017-05-31 北京理工大学 一种中文旅游领域知识图谱构建方法及***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Autonomously semantifying wikipedia;Fei Wu;《CIKM "07: Proceedings of the sixteenth ACM conference on Conference on information and knowledge management》;20071108;全文 *
Word sense disambiguation for event trigger word detection;David Martinez;《DTMBIO "10: Proceedings of the ACM fourth international workshop on Data and text mining in biomedical informatics》;20101026;全文 *
人物信息相关网页过滤方法研究;周成阳;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180815(第8期);全文 *

Also Published As

Publication number Publication date
CN109344187A (zh) 2019-02-15

Similar Documents

Publication Publication Date Title
CN109344187B (zh) 一种司法判决书案情信息结构化处理***
CN110334178B (zh) 数据检索方法、装置、设备及可读存储介质
CN110633373B (zh) 一种基于知识图谱和深度学习的汽车舆情分析方法
CN110990590A (zh) 一种基于强化学习和迁移学习的动态金融知识图谱构建方法
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及***
CN112650840A (zh) 一种基于知识图谱推理的医疗智能问答处理方法及***
CN107766483A (zh) 一种基于知识图谱的交互式问答方法及***
CN107705066A (zh) 一种商品入库时信息录入方法及电子设备
CN109766417A (zh) 一种基于知识图谱的文学编年史问答***的构建方法
CN110321420B (zh) 基于问句生成的智能问答***和方法
CN110442728A (zh) 基于word2vec汽车产品领域的情感词典构建方法
CN106126619A (zh) 一种基于视频内容的视频检索方法及***
CN103886020B (zh) 一种房地产信息快速搜索方法
CN104794169A (zh) 一种基于序列标注模型的学科术语抽取方法及***
CN113515632B (zh) 基于图路径知识萃取的文本分类方法
CN104484380A (zh) 个性化搜索方法及装置
CN113157860B (zh) 一种基于小规模数据的电力设备检修知识图谱构建方法
CN114238573A (zh) 基于文本对抗样例的信息推送方法及装置
CN112328800A (zh) 自动生成编程规范问题答案的***及方法
CN113196277A (zh) 用于检索自然语言文档的***
CN111813874B (zh) 太赫兹知识图谱构建方法及***
CN112685513A (zh) 一种基于文本挖掘的Al-Si合金材料实体关系抽取方法
CN113742493A (zh) 一种病理知识图谱的构建方法及装置
CN112131453A (zh) 一种基于bert的网络不良短文本检测方法、装置及存储介质
CN116737922A (zh) 一种游客在线评论细粒度情感分析方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant