CN115017144A - 一种基于图神经网络的司法文书案情要素实体识别方法 - Google Patents

一种基于图神经网络的司法文书案情要素实体识别方法 Download PDF

Info

Publication number
CN115017144A
CN115017144A CN202210598184.0A CN202210598184A CN115017144A CN 115017144 A CN115017144 A CN 115017144A CN 202210598184 A CN202210598184 A CN 202210598184A CN 115017144 A CN115017144 A CN 115017144A
Authority
CN
China
Prior art keywords
graph
node
entity
neural network
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210598184.0A
Other languages
English (en)
Other versions
CN115017144B (zh
Inventor
白雄文
惠欣恒
陈炫言
王红艳
郭旭东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN202210598184.0A priority Critical patent/CN115017144B/zh
Publication of CN115017144A publication Critical patent/CN115017144A/zh
Application granted granted Critical
Publication of CN115017144B publication Critical patent/CN115017144B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Artificial Intelligence (AREA)
  • Technology Law (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及一种基于图神经网络的司法文书案情要素实体识别方法,属于自然语言处理及自然语言理解技术领域。本发明根据文书类型、案由罪名选择对应的规则模板;对文书数据清洗,去除多余空行以及非法字符,完成半角全角符号转换;使用模板对检务文书进行段落划分;对包含案情的审理查明段落构建多路径有向无环图结构,输入图神经网络学习节点表示;将图神经网络的各节点依次输入基于注意力机制的神经网络和条件随机场进行识别结果的序列次序校对;对提取的识别结果按照所需格式生成结构化数据,提高办公效率,促进检务工作高质量发展。

Description

一种基于图神经网络的司法文书案情要素实体识别方法
技术领域
本发明属于自然语言处理及自然语言理解技术领域,具体涉及一种基于图神经网络的司法文书案情要素实体识别方法。
背景技术
为了促进新时代法律监督工作,高质量发展检察工作,引领社会法治意识,维护国家安全和社会大局稳定,服务保障经济社会高质量发展。根据“智慧检务”工程的设计和实施,依靠互联网、大数据、人工智能等技术积极推动“智慧”司法进程,以高度信息化的方式支持审判工作和司法管理,对司法领域的司法信息开展抽取、融合、识别、分析、摘要、检索等应用工作势在必行。
检务工作中,各类业务文书具有半结构化的文本结构,传统的信息提取工作基于人工归纳的抽取规则进行信息抽取,耗费人力物力且准确率低,同时抽取规则难以复用。以规则制定的模板在文本内容匹配的情况下,可得到正确结果;当出现内容复杂,或超出已有规则的情况下,容易出现错误匹配的情况。针对检务文书的案情关系、诸多当事人等复杂情况,传统规则的解析难以保证准确率;同时部分定制规则包含了大量已有的半结构化的文本结构信息。图神经网络结构作为非欧数据的表示结构,适合将非规则化的案情信息中实体信息进行表达学习。
因此本发明提出一种基于图神经网络的司法文书案情要素实体识别方法,在基于规则的基础上,使用图神经网络进行实体信息边界校对,同时使用基于注意力机制的神经网络对图神经网络结果进行输出序列的次序校对,在满足各案情信息的实体识别同时,保证实体识别的结果准确率。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是如何提供一种基于图神经网络的司法文书案情要素实体识别方法,以解决针对检务文书的案情关系、诸多当事人等复杂情况,传统规则的解析难以保证准确率的问题。
(二)技术方案
为了解决上述技术问题,本发明提出一种基于图神经网络的司法文书案情要素实体识别方法,该方法包括如下步骤:
S1、根据文书类型、案由罪名选择对应的规则模板,规则模板包括依据文本类型和案由制定的文本分类关键字、人工归纳的字典、根据归纳的字典及正则表达式制定的实体识别规则;
S2、对文书数据清洗,将文书中的多余空行以及非法字符去除,完成清洗工作;
S3、使用S1选择的规则模板中的关键字对检务文书进行段落划分,提取出包含案情的审理查明段落;
S4、使用S1规则模板中的字典及实体识别规则对S3提取的审理查明段落进行实体识别,根据实体识别的结果对文书数据中的命名实体及实体类型进行标注;
S5、对S3提取的审理查明段落进行图神经网络的节点表示的构建,根据S4标注的实体类型建立命名实体的有向边的连接,根据S3提取的审理查明段落的文书顺序建立相邻字符间的有向边连接,使用图神经网络来更新图节点的编码,更新步骤为使用邻接矩阵和预训练字向量对节点的编码进行迭代更新,将更新后得到的图节点隐状态向量表示作为图神经网络的节点表示的最终状态;
S6、将S5步骤中得到的图神经网络的节点表示的最终状态输入基于注意力机制的神经网络和条件随机场进行识别结果的状态约束,保证命名实体识别结果的开头是“B”而不是“I”或者“0”,以及同类型的“I”排在同类型的“B”之后,得到命名实体的最终识别结果;
S7、对S6步骤中得到的命名实体的最终识别结果按照所需格式要求生成结构化数据。
(三)有益效果
本发明提出一种基于图神经网络的司法文书案情要素实体识别方法,本发明是一种基于图神经网络的司法文书案情要素实体识别方法,旨在将非结构化的司法文书通过图神经网络进行非欧空间转换后,利用图神经网络的节点表示进行命名实体的表示学习,并对识别结果进行结构化储存,为检务工作提供非数转数的数据支持,同时为司法文书的智能化检索、专项统计等工作提供底层数据,方便加工处理,提供办公效率。
本发明提出一种基于图神经网络的司法文书案情要素实体识别方法,在基于规则的基础上,使用图神经网络进行实体信息边界校对,同时使用基于注意力机制的神经网络对图神经网络结果进行输出序列的次序校对,在满足各案情信息的实体识别同时,保证实体识别的结果准确率。
附图说明
图1为本发明基于图神经网络的实体识别模型数据流图;
图2为transformer encoder模型结构图;
图3为基于图神经网络的司法文书案情要素实体识别流程图。
具体实施方式
为使本发明的目的、内容和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明涉及一种基于图神经网络的司法文书案情要素实体识别方法,包括以下步骤:一、根据文书类型、案由罪名选择对应的规则模板;二、对文书数据清洗,去除多余空行以及非法字符,完成半角全角符号转换;三、使用模板对检务文书进行段落划分;四、对包含案情的审理查明段落构建多路径有向无环图结构,输入图神经网络学习节点表示;五、将图神经网络的各节点依次输入基于注意力机制的神经网络和条件随机场进行识别结果的序列次序校对;六、对提取的识别结果按照所需格式生成结构化数据,提高办公效率,促进检务工作高质量发展。
本发明提供了一种基于图神经网络的司法文书案情信息实体识别方法,实体识别使用BIO标注方式,B表示命名实体的开始,I表示命名实体的延续,O表示非命名实体词,流程包括:
步骤S1:根据文书类型、案由罪名选择对应的规则模板,规则模板包括依据文本类型和案由制定的文本分类关键字、人工归纳的字典、根据归纳的字典及正则表达式制定的实体识别规则。其中文本分类的关键字以危险驾驶罪的判决书为例:'(审理查明|检察院指控|公诉机关指控)';人工归纳的字典以品牌字典为例包含具体品牌名称本田及实体类型vehicle:本田brandvehicle;根据归纳的字典及正则表达式制定的实体识别规则以机动车的实体识别规则为例:[brand].*?商务车,规则中的[brand]为定义的机动车品牌字典,如比亚迪吉利丰田本田等,结合之后的正则表达式,可以匹配出本田商务车等实体类型标签为机动车类型的命名实体;
步骤S2:对文书数据清洗,将文书中的多余空行以及非法字符去除,完成半角全角符号转换等清洗工作;
步骤S3:使用S1选择的规则模板中的关键字对检务文书进行段落划分,提取出包含案情的审理查明段落;
步骤S4:使用S1规则模板中的字典及实体识别规则对S3提取的审理查明段落进行实体识别,根据实体识别的结果对文书数据中的命名实体及实体类型进行标注;
步骤S5:对S3提取的审理查明段落进行图神经网络的节点表示的构建,根据S4标注的实体类型建立命名实体的有向边的连接,根据S3提取的审理查明段落的文书顺序建立相邻字符间的有向边连接,使用图神经网络来更新图节点的编码,更新步骤为使用邻接矩阵和预训练字向量对节点的编码进行迭代更新,将更新后得到的图节点隐状态向量表示作为图神经网络的节点表示的最终状态;
步骤S6:将S5步骤中得到的图神经网络的节点表示的最终状态输入基于注意力机制的神经网络和条件随机场进行识别结果的状态约束,保证命名实体识别结果的开头应该是“B”而不是“I”或者“O”,以及同类型的“I”需要排在同类型的“B”之后,得到命名实体的最终识别结果;
步骤S7:对S6步骤中得到的命名实体的最终识别结果按照所需格式要求生成结构化数据,例如交通肇事罪的判决书中被告相关信息,按照要求形成,如下所示。
Figure BDA0003668626350000041
Figure BDA0003668626350000051
根据本发明的司法文书案情要素实体识别方法的流程步骤,上述流程包括图神经网络、注意力机制神经网络和条件随机场。其中图神经网络包括输入层、嵌入层和输出层。注意力机制神经网络包括输入层、嵌入层、基于自注意力机制的堆叠注意力层和输出层。
本发明使用的图神经网络为多路径有向无环图,图结构中包含依次表示文本中每个字符:
Figure BDA0003668626350000052
的图节点(下文简称为图表示节点,为与文中另一类图节点进行区分)。各图表示节点在提取实体识别的字符特征时,将自身节点的特征信息与相邻节点特征、相邻边的特征进行合并,使用GRU神经网络进行信息的门控操作,选择控制所需的特征表达信息。
具体的计算步骤如下:
S1:根据文书类型、案由罪名选择对应的规则模板,规则模板包含依据文本类型和案由制定的文本分类关键字、人工归纳的字典、根据归纳的字典及正则表达式制定的实体识别规则。其中文本分类的关键字以危险驾驶罪的判决书为例:'(审理查明|检察院指控|公诉机关指控)';人工归纳的字典以品牌字典为例包含具体品牌名称本田及实体类型vehicle:本田brandvehicle;根据归纳的字典及正则表达式制定的实体识别规则以机动车的实体识别规则为例:[brand].*?商务车,规则中的[brand]为定义的机动车品牌字典,如比亚迪吉利丰田本田等,结合之后的正则表达式,可以匹配出本田商务车等实体类型标签为机动车类型的命名实体;
S2:对文书数据清洗,将文书中的多余空行以及非法字符去除,完成半角全角符号转换等清洗工作;
S3:使用S1选择的规则模板中的关键字对检务文书进行段落划分,提取出包含案情的审理查明段落;
S4:使用S1规则模板中的字典及实体识别规则对S3提取的审理查明段落进行实体识别,根据实体识别的结果对文书数据中的命名实体及实体类型进行标注,实体类型如PER、LOC、ORG、VEHICLE……;
S5:将S3提取的审理查明段落,按照文书内容依次对每个字符建立对应的图表示节点,依次对每个汉字节点使用
Figure BDA0003668626350000061
作为图结构中的图表示节点的特征表示;
S6:根据S4步骤中取得的实体识别结果及实体类型,在各实体的起始节点之前和结束节点之后建立指向节点(下文简称为图指向节点),例如
Figure BDA0003668626350000062
Figure BDA0003668626350000063
并在图指向节点与对应的图表示节点之间建立从指向起始节点至指向结束节点的有向边,例如
Figure BDA0003668626350000064
Figure BDA0003668626350000065
是实体PER的起始节点和结束节点,
Figure BDA0003668626350000066
表示指向起始节点的图指向节点,
Figure BDA0003668626350000067
表示指向结束节点的图指向节点。因此建立图指向节点后,实体PER包含的有向边为:
Figure BDA0003668626350000068
Figure BDA0003668626350000069
通过对每个实体类型建立图指向节点,构建多路径有向无环图结构。
S6:使用表达式G表示S5建立的多路径有向无环图结构,:
G∶=(V,E,La)
其中V代表节点集合,E代表边的集合,La代表标签的集合。对于由n个汉字组成的输入句子和m个基于模板的实体识别结果,其最终的节点集合V=Vc∪Vs∪Ve,这里Vc代表每个图表示节点的节点编码,而对于某一个基于模板的实体识别结果g,使用图指向节点
Figure BDA00036686263500000610
Figure BDA00036686263500000611
在图结构中来表示指向命名实体g的开始节点和结束节点。Vs、Ve表示这图指向节点集合
Figure BDA00036686263500000612
在集合E中的每个边都有一个标签来表示节点之间的连接类型,对于非实体的节点的相邻边的标签代表了节点间的连接关系,对于实体中的节点的相邻边的标签代表了实体类型。因此标签集合
Figure BDA0003668626350000071
这里标签lc表示了相邻图表示节点之间的标签集合,这个信息由模型用来获取文本的词序信息。同时标签集合
Figure BDA0003668626350000072
代表了所有用来描述基于模板的识别结果g的有向边信息。
S7:对于上述的图结构G,使用图神经网络GGNN来更新图表示节点的编码,并使用GRU网络进行训练,学习节点表达。GGNN网络具有捕获相邻文本信息的能力,适用于司法文书中的命名实体识别任务;
GGNN网络计算过程为:首先,根据长短期记忆神经网络(LSTM)结构对司法文书和基于模板的实体识别结果进行预训练,预训练过程为:以单字为粒度对司法文书使用通用的LSTM网络进行预训练得到Wc(单字向量);以相邻字为粒度对司法文书使用通用的LSTM网络进行预训练得到Wbi(二元字向量);以规则模板对司法文书进行实体识别的结果为粒度对司法文书使用通用的LSTM网络进行预训练得到Wg(基于模板的词嵌入向量)。根据公式E1建立每个节点对应的初始化隐状态向量,当节点是图指向节点时使用基于模板的词嵌入向量作为初始化隐状态向量,当节点为图表示节点时使用单字向量与二元字向量的拼接作为初始化隐状态向量:
公式E1:
Figure BDA0003668626350000073
接着,构建具有图结构信息的邻接矩阵A,矩阵A表示了节点间的连接关系,如公式E2所示。矩阵中的参数对应了图的有向边信息,以不包含实体的有向图邻接矩阵Mα为例,Mα表示一个由6个汉字组成的不包含实体的语句,因此构建邻接矩阵如下所示,仅对角线及其向前一位的位置处有连接关系;以包含实体的有向图邻接矩阵Mβ为例,Mβ表示一个由6个汉字组成的包含实体的语句,因此不仅有对角线及其向前一位的位置处有连接关系,还在实体所处的部分也保持连接关系。
Figure BDA0003668626350000081
Figure BDA0003668626350000082
以上述方式,通过将语句中实体的信息以邻接矩阵的形式进行构建,使得图结构中包含了S4步骤中取得的实体识别的状态信息,其中基于实体L构建的邻接矩阵AL表示由第L个实体所构建的邻接矩阵,公式E2中的L表示基于模板的识别结果的实体总数,例如文本中包含5个基于模板识别得到的实体,则L为5,针对S4步骤中取得的实体识别结果中的各实体分别构建邻接矩阵A1,...,AL,然后将各邻接矩阵进行拼接,得到包含多实体路径信息的图结构邻接矩阵A。
公式E2:A=[A1,...,AL]
完成图表示节点、图指向节点和邻接矩阵构建,使用GRU网络对图表示节点的隐状态进行更新,更新过程如下:
公式E3:
Figure BDA0003668626350000083
公式E4:
Figure BDA0003668626350000084
公式E5:
Figure BDA0003668626350000085
公式E6:
Figure BDA0003668626350000086
公式E7:
Figure BDA0003668626350000087
公式E8:
Figure BDA0003668626350000088
公式E3为上一时刻的所有图表示节点的隐状态向量表示集合H。
公式E4为根据图表示节点的隐状态向量表示H、基于模板的词嵌入
Figure BDA0003668626350000091
Figure BDA0003668626350000092
和邻接矩阵A中对应节点v的相邻边信息(Av是行向量,代表第v个节点在邻接矩阵A中的第v行,即与节点v相连的边信息)计算通过相邻节点传播的图表示节点信息,b是偏移量。
公式E5为GRU网络的控制门的权重
Figure BDA0003668626350000093
参数更新过程:使用GRU网络的控制门的计算机制,利用图表示节点的节点信息
Figure BDA0003668626350000094
和上一时刻的图表示节点的隐状态向量表示
Figure BDA0003668626350000095
对控制门的可学习参数Wz、Uz进行更新,σ是Logistic函数。
公式E6为GRU网络的更新门的权重
Figure BDA0003668626350000096
参数更新过程:使用GRU网络的更新门的计算机制,利用图表示节点的节点信息
Figure BDA0003668626350000097
和上一时刻的图表示节点的隐状态向量表示
Figure BDA0003668626350000098
对更新门的可学习参数Wr、Ur进行更新,σ是Logistic函数。
公式E7为当前时刻的图表示节点隐状态的候选状态表示向量
Figure BDA0003668626350000099
的计算过程:利用当前时刻的图表示节点信息
Figure BDA00036686263500000910
更新门的权重
Figure BDA00036686263500000911
和上一时刻的图表示节点的隐状态向量表示
Figure BDA00036686263500000912
对候选状态的可学习参数Wh、Uh进行更新。
公式E8为当前时刻的图表示节点的隐状态
Figure BDA00036686263500000913
计算过程:通过控制门的权重
Figure BDA00036686263500000914
上一时刻的图表示节点的隐状态向量表示
Figure BDA00036686263500000915
和当前时刻的图表示节点隐状态的候选状态表示向量
Figure BDA00036686263500000916
对当前时刻的图表示节点的隐状态
Figure BDA00036686263500000917
进行更新。
通过上述步骤不断迭代,经过T个循环更新后,得到最终的图表示节点的隐状态向量表示
Figure BDA00036686263500000918
S8:将图神经网络的最终表示向量
Figure BDA00036686263500000919
按照文本次序,作为序列标注任务依次输入注意力机制模型(transformer encoder)和条件随机场CRF,对实体识别结果进行输出标签的路径约束,保证命名实体识别结果的开头应该是“B”而不是“I”或者“O”,以及同类型的“I”需要排在同类型的“B”之后,得到符合转移概率的最优识别结果。注意力机制模型中注意力计算公式如E9所示,其中Q、K、V分别代表查询向量、键向量、值向量,在当前网络中,Q、K、V分别由基于图神经网络的节点表示
Figure BDA0003668626350000101
与可学习参数WQ、WK、WV进行相乘得到,公式E9中dK的表示健向量K的维度。
条件随机场的输出是序列中每个字符对应标签的概率,概率的计算公式如E10所示,其中
Figure BDA0003668626350000102
表示当前字符识别为yi时下一个字符识别为yi+1的转移概率,
Figure BDA0003668626350000103
表示当前第i个字符识别为yi的预测概率。本发明中yi表示当前字符的实体识别结果,yi+1表示下一个字符的实体识别结果,x表示字符序列,y表示条件随机场的计算概率,n为字符数量,表示字符序列的长度,实体识别结果为各字符对应的实体标签,如下所示。:
BPER IPER IPER O O BLOC ILOC O……
公式E9:
Figure BDA0003668626350000104
公式E10:
Figure BDA0003668626350000105
司法文书案情要素的实体识别任务是在图神经网络的表示基础上,使用注意力神经网络叠加条件随机场进行每个实体类别及实体边界进行判断,求得每个字符对应的命名实体最大概率。
实施例1:
一种基于图神经网络的司法文书案情要素实体识别方法,该方法所包括步骤如下:一、根据文书类型、案由罪名选择对应的规则模板;二、对文书数据清洗;三、使用模板对检务文书进行段落划分;四、对包含案情的审理查明段落构建多路径有向无环图结构,输入图神经网络学习节点表示;五、将图神经网络的各节点依次输入基于注意力机制的神经网络和条件随机场进行识别结果的序列次序校对;六、对提取的识别结果按照所需格式生成结构化数据。
进一步地,所述步骤一中规则模板为根据文书类型、罪名案由的定制模板,包含对应文书类型的分段模板、基础信息模板、独有信息模板等各项规则。
进一步地,所述步骤二对文书数据清洗包括去除包括空格、空行、编码、全半角、停用词等处理手段。
进一步地,所述步骤三中根据类型文书的对应模板进行段落划分,分解为案件基础信息、诉讼信息、基本案情、审理查明、判决信息等段落。
进一步地,所述步骤四中图神经网络为多路径有向无环图,节点间的连接均为有向连接,且无闭环结构。
进一步地,所述步骤五中识别结果的次序校对采用“三位标注”的方式完成对要素的实体标注,包括:实体主体开头、实体主体内部、非实体类型。
本发明是一种基于图神经网络的司法文书案情要素实体识别方法,旨在将非结构化的司法文书通过图神经网络进行非欧空间转换后,利用图神经网络的节点表示进行命名实体的表示学习,并对识别结果进行结构化储存,为检务工作提供非数转数的数据支持,同时为司法文书的智能化检索、专项统计等工作提供底层数据,方便加工处理,提供办公效率。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种基于图神经网络的司法文书案情要素实体识别方法,其特征在于,该方法包括如下步骤:
S1、根据文书类型、案由罪名选择对应的规则模板,规则模板包括依据文本类型和案由制定的文本分类关键字、人工归纳的字典、根据归纳的字典及正则表达式制定的实体识别规则;
S2、对文书数据清洗,将文书中的多余空行以及非法字符去除,完成清洗工作;
S3、使用S1选择的规则模板中的关键字对检务文书进行段落划分,提取出包含案情的审理查明段落;
S4、使用S1规则模板中的字典及实体识别规则对S3提取的审理查明段落进行实体识别,根据实体识别的结果对文书数据中的命名实体及实体类型进行标注;
S5、对S3提取的审理查明段落进行图神经网络的节点表示的构建,根据S4标注的实体类型建立命名实体的有向边的连接,根据S3提取的审理查明段落的文书顺序建立相邻字符间的有向边连接,使用图神经网络来更新图节点的编码,更新步骤为使用邻接矩阵和预训练字向量对节点的编码进行迭代更新,将更新后得到的图节点隐状态向量表示作为图神经网络的节点表示的最终状态;
S6、将S5步骤中得到的图神经网络的节点表示的最终状态输入基于注意力机制的神经网络和条件随机场进行识别结果的状态约束,保证命名实体识别结果的开头是“B”而不是“I”或者“O”,以及同类型的“I”排在同类型的“B”之后,得到命名实体的最终识别结果;
S7、对S6步骤中得到的命名实体的最终识别结果按照所需格式要求生成结构化数据。
2.如权利要求1所述的基于图神经网络的司法文书案情要素实体识别方法,其特征在于,实体识别使用BIO标注方式,B表示命名实体的开始,I表示命名实体的延续,O表示非命名实体词。
3.如权利要求1或2所述的基于图神经网络的司法文书案情要素实体识别方法,其特征在于,所述步骤S5中的对S3提取的审理查明段落进行图神经网络的节点表示的构建,根据S4标注的实体类型建立命名实体的有向边的连接,根据S3提取的审理查明段落的文书顺序建立相邻字符间的有向边连接包括:
将S3提取的审理查明段落,按照文书内容依次对每个字符建立对应的图表示节点,依次对每个汉字节点使用
Figure FDA0003668626340000025
作为图结构中的图表示节点的特征表示;
根据S4步骤中取得的实体识别结果及实体类型,在各实体的起始节点之前和结束节点之后建立图指向节点,并在图指向节点与对应的图表示节点之间建立从指向起始节点至指向结束节点的有向边;通过对每个实体类型建立图指向节点,构建多路径有向无环图结构。
4.如权利要求3所述的基于图神经网络的司法文书案情要素实体识别方法,其特征在于,所述步骤S5中邻接矩阵和预训练字向量的获得方式为:
使用表达式G表示S5建立的多路径有向无环图结构,:
G∶=(V,E,La)
其中V代表节点集合,E代表边的集合,La代表标签的集合;对于由n个汉字组成的输入句子和m个基于模板的实体识别结果,其最终的节点集合V=Vc∪Vs∪Ve,这里Vc代表每个图表示节点的节点编码,而对于某一个基于模板的实体识别结果g,使用图指向节点
Figure FDA0003668626340000021
Figure FDA0003668626340000022
在图结构中来表示指向命名实体g的开始节点和结束节点;Vs、Ve表示这图指向节点集合
Figure FDA0003668626340000023
在集合E中的每个边都有一个标签来表示节点之间的连接类型,对于非实体的节点的相邻边的标签代表了节点间的连接关系,对于实体中的节点的相邻边的标签代表了实体类型;因此标签集合
Figure FDA0003668626340000024
这里标签lc表示了相邻图表示节点之间的标签集合,这个信息由模型用来获取文本的词序信息;同时标签集合
Figure FDA0003668626340000026
代表了所有用来描述基于模板的识别结果g的有向边信息。
5.如权利要求4所述的基于图神经网络的司法文书案情要素实体识别方法,其特征在于,所述步骤S5还包括:对于上述的图结构G,使用图神经网络GGNN来更新图表示节点的编码;
GGNN网络过程为:根据长短期记忆神经网络(LSTM)结构对司法文书和基于模板的实体识别结果进行预训练,预训练过程为:以单字为粒度对司法文书使用通用的LSTM网络进行预训练得到单字向量Wc;以相邻字为粒度对司法文书使用通用的LSTM网络进行预训练得到二元字向量Wbi;以规则模板对司法文书进行实体识别的结果为粒度对司法文书使用通用的LSTM网络进行预训练得到基于模板的词嵌入向量Wg;根据公式E1建立每个节点对应的初始化隐状态向量,当节点是图指向节点时使用基于模板的词嵌入向量作为初始化隐状态向量,当节点为图表示节点时使用单字向量与二元字向量的拼接作为初始化隐状态向量;
公式E1:
Figure FDA0003668626340000031
6.如权利要求5所述的基于图神经网络的司法文书案情要素实体识别方法,其特征在于,邻接矩阵的获得方式为:构建具有图结构信息的邻接矩阵A,矩阵A表示了节点间的连接关系,矩阵中的参数对应了图的有向边信息;通过将语句中实体的信息以邻接矩阵的形式进行构建,使得图结构中包含了S4步骤中取得的实体识别的状态信息,其中基于实体L构建的邻接矩阵AL表示由第L个实体所构建的邻接矩阵,公式E2中的L表示基于模板的识别结果的实体总数,针对S4步骤中取得的实体识别结果中的各实体分别构建邻接矩阵A1,...,AL,然后将各邻接矩阵进行拼接,得到包含多实体路径信息的图结构邻接矩阵A;
公式E2:A=[A1,...,AL]。
7.如权利要求6所述的基于图神经网络的司法文书案情要素实体识别方法,其特征在于,所述步骤S5包括:使用GRU网络对图表示节点的隐状态进行更新,更新过程如下:
公式E3:
Figure FDA0003668626340000032
公式E4:
Figure FDA0003668626340000033
公式E5:
Figure FDA0003668626340000034
公式E6:
Figure FDA0003668626340000035
公式E7:
Figure FDA0003668626340000036
公式E8:
Figure FDA0003668626340000037
公式E3为上一时刻的所有图表示节点的隐状态向量表示集合H;
公式E4为根据图表示节点的隐状态向量表示H、基于模板的词嵌入
Figure FDA0003668626340000041
Figure FDA0003668626340000042
和邻接矩阵A中对应节点v的相邻边信息计算通过相邻节点传播的图表示节点信息,b是偏移量;
公式E5为GRU网络的控制门的权重
Figure FDA0003668626340000043
参数更新过程:使用GRU网络的控制门的计算机制,利用图表示节点的节点信息
Figure FDA0003668626340000044
和上一时刻的图表示节点的隐状态向量表示
Figure FDA0003668626340000045
对控制门的可学习参数Wz、Uz进行更新,σ是Logistic函数;
公式E6为GRU网络的更新门的权重
Figure FDA0003668626340000046
参数更新过程:使用GRU网络的更新门的计算机制,利用图表示节点的节点信息
Figure FDA0003668626340000047
和上一时刻的图表示节点的隐状态向量表示
Figure FDA0003668626340000048
对更新门的可学习参数Wr、Ur进行更新;σ是Logistic函数;
公式E7为当前时刻的图表示节点隐状态的候选状态表示向量
Figure FDA0003668626340000049
的计算过程:利用当前时刻的图表示节点信息
Figure FDA00036686263400000410
更新门的权重
Figure FDA00036686263400000411
和上一时刻的图表示节点的隐状态向量表示
Figure FDA00036686263400000412
对候选状态的可学习参数Wh、Uh进行更新;
公式E8为当前时刻的图表示节点的隐状态
Figure FDA00036686263400000413
计算过程:通过控制门的权重
Figure FDA00036686263400000414
上一时刻的图表示节点的隐状态向量表示
Figure FDA00036686263400000415
和当前时刻的图表示节点隐状态的候选状态表示向量
Figure FDA00036686263400000416
对当前时刻的图表示节点的隐状态
Figure FDA00036686263400000417
进行更新;
通过上述步骤不断迭代,经过T个循环更新后,得到最终的图表示节点的隐状态向量表示
Figure FDA00036686263400000418
8.如权利要求7所述的基于图神经网络的司法文书案情要素实体识别方法,其特征在于,所述步骤S6包括:将图神经网络的最终表示向量
Figure FDA00036686263400000419
按照文本次序,作为序列标注任务依次输入注意力机制模型和条件随机场CRF,对实体识别结果进行输出标签的路径约束,保证命名实体识别结果的开头是“B”而不是“I”或者“O”,以及同类型的“I”排在同类型的“B”之后,得到符合转移概率的最优识别结果。
9.如权利要求8所述的基于图神经网络的司法文书案情要素实体识别方法,其特征在于,注意力机制模型中注意力计算公式如E9所示,其中Q、K、V分别代表查询向量、键向量、值向量,在当前网络中,Q、K、V分别由基于图神经网络的节点表示
Figure FDA0003668626340000051
与可学习参数WQ、WK、WV进行相乘得到,公式E9中dK的表示健向量K的维度;
公式E9:
Figure FDA0003668626340000052
10.如权利要求8所述的基于图神经网络的司法文书案情要素实体识别方法,其特征在于,条件随机场的输出是序列中每个字符对应标签的概率,概率的计算公式如E10所示,其中
Figure FDA0003668626340000053
表示当前字符识别为yi时下一个字符识别为yi+1的转移概率,
Figure FDA0003668626340000054
表示当前第i个字符识别为yi的预测概率;其中yi表示当前字符的实体识别结果,yi+1表示下一个字符的实体识别结果,x表示字符序列,y表示条件随机场的计算概率,n为字符数量,表示字符序列的长度,实体识别结果为各字符对应的实体标签,如下所示:
BPER IPER IPER O O BLOC ILOC O……
公式E10:
Figure FDA0003668626340000055
CN202210598184.0A 2022-05-30 2022-05-30 一种基于图神经网络的司法文书案情要素实体识别方法 Active CN115017144B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210598184.0A CN115017144B (zh) 2022-05-30 2022-05-30 一种基于图神经网络的司法文书案情要素实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210598184.0A CN115017144B (zh) 2022-05-30 2022-05-30 一种基于图神经网络的司法文书案情要素实体识别方法

Publications (2)

Publication Number Publication Date
CN115017144A true CN115017144A (zh) 2022-09-06
CN115017144B CN115017144B (zh) 2024-03-29

Family

ID=83070439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210598184.0A Active CN115017144B (zh) 2022-05-30 2022-05-30 一种基于图神经网络的司法文书案情要素实体识别方法

Country Status (1)

Country Link
CN (1) CN115017144B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753025A (zh) * 2020-06-24 2020-10-09 南方科技大学 案件信息的自动获取方法、装置、设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753054A (zh) * 2020-06-22 2020-10-09 神思电子技术股份有限公司 一种基于图神经网络的机器阅读推断方法
CN111783399A (zh) * 2020-06-24 2020-10-16 北京计算机技术及应用研究所 一种法律裁判文书信息抽取方法
CN112417880A (zh) * 2020-11-30 2021-02-26 太极计算机股份有限公司 一种面向法院电子卷宗的案情信息自动抽取方法
WO2021073116A1 (zh) * 2019-10-18 2021-04-22 平安科技(深圳)有限公司 生成法律文书的方法、装置、设备和存储介质
WO2021114745A1 (zh) * 2019-12-13 2021-06-17 华南理工大学 一种基于词缀感知的社交媒体命名实体识别方法
CN113282726A (zh) * 2021-05-27 2021-08-20 成都数之联科技有限公司 数据处理方法及***及装置及介质及数据分析方法
CN114372153A (zh) * 2022-01-05 2022-04-19 重庆大学 基于知识图谱的法律文书结构化入库方法及***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021073116A1 (zh) * 2019-10-18 2021-04-22 平安科技(深圳)有限公司 生成法律文书的方法、装置、设备和存储介质
WO2021114745A1 (zh) * 2019-12-13 2021-06-17 华南理工大学 一种基于词缀感知的社交媒体命名实体识别方法
CN111753054A (zh) * 2020-06-22 2020-10-09 神思电子技术股份有限公司 一种基于图神经网络的机器阅读推断方法
CN111783399A (zh) * 2020-06-24 2020-10-16 北京计算机技术及应用研究所 一种法律裁判文书信息抽取方法
CN112417880A (zh) * 2020-11-30 2021-02-26 太极计算机股份有限公司 一种面向法院电子卷宗的案情信息自动抽取方法
CN113282726A (zh) * 2021-05-27 2021-08-20 成都数之联科技有限公司 数据处理方法及***及装置及介质及数据分析方法
CN114372153A (zh) * 2022-01-05 2022-04-19 重庆大学 基于知识图谱的法律文书结构化入库方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
朱福勇;刘雅迪;高帆;王凯;: "基于图谱融合的人工智能司法数据库构建研究", 扬州大学学报(人文社会科学版), no. 06, 31 December 2019 (2019-12-31), pages 90 - 97 *
洪文兴;胡志强;翁洋;张恒;王竹;郭志新;: "面向司法案件的案情知识图谱自动构建", 中文信息学报, no. 01, 15 January 2020 (2020-01-15), pages 39 - 49 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753025A (zh) * 2020-06-24 2020-10-09 南方科技大学 案件信息的自动获取方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN115017144B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
WO2021147726A1 (zh) 信息抽取方法、装置、电子设备及存储介质
CN111382272B (zh) 一种基于知识图谱的电子病历icd自动编码方法
CN108416058B (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN110008469B (zh) 一种多层次命名实体识别方法
CN111694924A (zh) 一种事件抽取方法和***
CN109960728B (zh) 一种开放域会议信息命名实体识别方法及***
CN112131920A (zh) 用于扫描图像中的表格信息的数据结构生成
CN114580424B (zh) 一种用于法律文书的命名实体识别的标注方法和装置
CN113468887A (zh) 基于边界与片段分类的学者信息关系抽取方法和***
CN113190656A (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN112559734A (zh) 简报生成方法、装置、电子设备及计算机可读存储介质
CN112101031A (zh) 一种实体识别方法、终端设备及存储介质
CN111209362A (zh) 基于深度学习的地址数据解析方法
CN116150361A (zh) 一种财务报表附注的事件抽取方法、***及存储介质
CN112699685A (zh) 基于标签引导的字词融合的命名实体识别方法
CN111428501A (zh) 命名实体的识别方法、识别***及计算机可读存储介质
CN116205211A (zh) 基于大规模预训练生成模型的文档级简历解析方法
CN116070602A (zh) 一种pdf文档智能标注与抽取方法
CN117196032A (zh) 一种用于智能决策的知识图谱构建方法、装置、电子设备及存储介质
CN106445914B (zh) 微博情感分类器的构建方法及构建装置
CN115017144B (zh) 一种基于图神经网络的司法文书案情要素实体识别方法
CN113158659B (zh) 一种基于司法文本的涉案财物计算方法
CN113204975A (zh) 一种基于远程监督的敏感文风识别方法
CN117034948A (zh) 基于多特征自适应融合的段落识别方法、***及存储介质
CN115186670B (zh) 一种基于主动学习的领域命名实体识别方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant