CN115017144B - 一种基于图神经网络的司法文书案情要素实体识别方法 - Google Patents
一种基于图神经网络的司法文书案情要素实体识别方法 Download PDFInfo
- Publication number
- CN115017144B CN115017144B CN202210598184.0A CN202210598184A CN115017144B CN 115017144 B CN115017144 B CN 115017144B CN 202210598184 A CN202210598184 A CN 202210598184A CN 115017144 B CN115017144 B CN 115017144B
- Authority
- CN
- China
- Prior art keywords
- graph
- node
- entity
- neural network
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000007246 mechanism Effects 0.000 claims abstract description 19
- 238000004140 cleaning Methods 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims description 27
- 230000014509 gene expression Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 2
- 230000000644 propagated effect Effects 0.000 claims description 2
- 238000007689 inspection Methods 0.000 abstract description 7
- 238000006243 chemical reaction Methods 0.000 abstract description 6
- 238000012937 correction Methods 0.000 abstract description 5
- 238000011161 development Methods 0.000 abstract description 4
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Artificial Intelligence (AREA)
- Technology Law (AREA)
- Quality & Reliability (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及一种基于图神经网络的司法文书案情要素实体识别方法,属于自然语言处理及自然语言理解技术领域。本发明根据文书类型、案由罪名选择对应的规则模板;对文书数据清洗,去除多余空行以及非法字符,完成半角全角符号转换;使用模板对检务文书进行段落划分;对包含案情的审理查明段落构建多路径有向无环图结构,输入图神经网络学习节点表示;将图神经网络的各节点依次输入基于注意力机制的神经网络和条件随机场进行识别结果的序列次序校对;对提取的识别结果按照所需格式生成结构化数据,提高办公效率,促进检务工作高质量发展。
Description
技术领域
本发明属于自然语言处理及自然语言理解技术领域,具体涉及一种基于图神经网络的司法文书案情要素实体识别方法。
背景技术
为了促进新时代法律监督工作,高质量发展检察工作,引领社会法治意识,维护国家安全和社会大局稳定,服务保障经济社会高质量发展。根据“智慧检务”工程的设计和实施,依靠互联网、大数据、人工智能等技术积极推动“智慧”司法进程,以高度信息化的方式支持审判工作和司法管理,对司法领域的司法信息开展抽取、融合、识别、分析、摘要、检索等应用工作势在必行。
检务工作中,各类业务文书具有半结构化的文本结构,传统的信息提取工作基于人工归纳的抽取规则进行信息抽取,耗费人力物力且准确率低,同时抽取规则难以复用。以规则制定的模板在文本内容匹配的情况下,可得到正确结果;当出现内容复杂,或超出已有规则的情况下,容易出现错误匹配的情况。针对检务文书的案情关系、诸多当事人等复杂情况,传统规则的解析难以保证准确率;同时部分定制规则包含了大量已有的半结构化的文本结构信息。图神经网络结构作为非欧数据的表示结构,适合将非规则化的案情信息中实体信息进行表达学习。
因此本发明提出一种基于图神经网络的司法文书案情要素实体识别方法,在基于规则的基础上,使用图神经网络进行实体信息边界校对,同时使用基于注意力机制的神经网络对图神经网络结果进行输出序列的次序校对,在满足各案情信息的实体识别同时,保证实体识别的结果准确率。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是如何提供一种基于图神经网络的司法文书案情要素实体识别方法,以解决针对检务文书的案情关系、诸多当事人等复杂情况,传统规则的解析难以保证准确率的问题。
(二)技术方案
为了解决上述技术问题,本发明提出一种基于图神经网络的司法文书案情要素实体识别方法,该方法包括如下步骤:
S1、根据文书类型、案由罪名选择对应的规则模板,规则模板包括依据文本类型和案由制定的文本分类关键字、人工归纳的字典、根据归纳的字典及正则表达式制定的实体识别规则;
S2、对文书数据清洗,将文书中的多余空行以及非法字符去除,完成清洗工作;
S3、使用S1选择的规则模板中的关键字对检务文书进行段落划分,提取出包含案情的审理查明段落;
S4、使用S1规则模板中的字典及实体识别规则对S3提取的审理查明段落进行实体识别,根据实体识别的结果对文书数据中的命名实体及实体类型进行标注;
S5、对S3提取的审理查明段落进行图神经网络的节点表示的构建,根据S4标注的实体类型建立命名实体的有向边的连接,根据S3提取的审理查明段落的文书顺序建立相邻字符间的有向边连接,使用图神经网络来更新图节点的编码,更新步骤为使用邻接矩阵和预训练字向量对节点的编码进行迭代更新,将更新后得到的图节点隐状态向量表示作为图神经网络的节点表示的最终状态;
S6、将S5步骤中得到的图神经网络的节点表示的最终状态输入基于注意力机制的神经网络和条件随机场进行识别结果的状态约束,保证命名实体识别结果的开头是“B”而不是“I”或者“0”,以及同类型的“I”排在同类型的“B”之后,得到命名实体的最终识别结果;
S7、对S6步骤中得到的命名实体的最终识别结果按照所需格式要求生成结构化数据。
(三)有益效果
本发明提出一种基于图神经网络的司法文书案情要素实体识别方法,本发明是一种基于图神经网络的司法文书案情要素实体识别方法,旨在将非结构化的司法文书通过图神经网络进行非欧空间转换后,利用图神经网络的节点表示进行命名实体的表示学习,并对识别结果进行结构化储存,为检务工作提供非数转数的数据支持,同时为司法文书的智能化检索、专项统计等工作提供底层数据,方便加工处理,提供办公效率。
本发明提出一种基于图神经网络的司法文书案情要素实体识别方法,在基于规则的基础上,使用图神经网络进行实体信息边界校对,同时使用基于注意力机制的神经网络对图神经网络结果进行输出序列的次序校对,在满足各案情信息的实体识别同时,保证实体识别的结果准确率。
附图说明
图1为本发明基于图神经网络的实体识别模型数据流图;
图2为transformer encoder模型结构图;
图3为基于图神经网络的司法文书案情要素实体识别流程图。
具体实施方式
为使本发明的目的、内容和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明涉及一种基于图神经网络的司法文书案情要素实体识别方法,包括以下步骤:一、根据文书类型、案由罪名选择对应的规则模板;二、对文书数据清洗,去除多余空行以及非法字符,完成半角全角符号转换;三、使用模板对检务文书进行段落划分;四、对包含案情的审理查明段落构建多路径有向无环图结构,输入图神经网络学习节点表示;五、将图神经网络的各节点依次输入基于注意力机制的神经网络和条件随机场进行识别结果的序列次序校对;六、对提取的识别结果按照所需格式生成结构化数据,提高办公效率,促进检务工作高质量发展。
本发明提供了一种基于图神经网络的司法文书案情信息实体识别方法,实体识别使用BIO标注方式,B表示命名实体的开始,I表示命名实体的延续,O表示非命名实体词,流程包括:
步骤S1:根据文书类型、案由罪名选择对应的规则模板,规则模板包括依据文本类型和案由制定的文本分类关键字、人工归纳的字典、根据归纳的字典及正则表达式制定的实体识别规则。其中文本分类的关键字以危险驾驶罪的判决书为例:'(审理查明|检察院指控|公诉机关指控)';人工归纳的字典以品牌字典为例包含具体品牌名称本田及实体类型vehicle:本田brandvehicle;根据归纳的字典及正则表达式制定的实体识别规则以机动车的实体识别规则为例:[brand].*?商务车,规则中的[brand]为定义的机动车品牌字典,如比亚迪吉利丰田本田等,结合之后的正则表达式,可以匹配出本田商务车等实体类型标签为机动车类型的命名实体;
步骤S2:对文书数据清洗,将文书中的多余空行以及非法字符去除,完成半角全角符号转换等清洗工作;
步骤S3:使用S1选择的规则模板中的关键字对检务文书进行段落划分,提取出包含案情的审理查明段落;
步骤S4:使用S1规则模板中的字典及实体识别规则对S3提取的审理查明段落进行实体识别,根据实体识别的结果对文书数据中的命名实体及实体类型进行标注;
步骤S5:对S3提取的审理查明段落进行图神经网络的节点表示的构建,根据S4标注的实体类型建立命名实体的有向边的连接,根据S3提取的审理查明段落的文书顺序建立相邻字符间的有向边连接,使用图神经网络来更新图节点的编码,更新步骤为使用邻接矩阵和预训练字向量对节点的编码进行迭代更新,将更新后得到的图节点隐状态向量表示作为图神经网络的节点表示的最终状态;
步骤S6:将S5步骤中得到的图神经网络的节点表示的最终状态输入基于注意力机制的神经网络和条件随机场进行识别结果的状态约束,保证命名实体识别结果的开头应该是“B”而不是“I”或者“O”,以及同类型的“I”需要排在同类型的“B”之后,得到命名实体的最终识别结果;
步骤S7:对S6步骤中得到的命名实体的最终识别结果按照所需格式要求生成结构化数据,例如交通肇事罪的判决书中被告相关信息,按照要求形成,如下所示。
根据本发明的司法文书案情要素实体识别方法的流程步骤,上述流程包括图神经网络、注意力机制神经网络和条件随机场。其中图神经网络包括输入层、嵌入层和输出层。注意力机制神经网络包括输入层、嵌入层、基于自注意力机制的堆叠注意力层和输出层。
本发明使用的图神经网络为多路径有向无环图,图结构中包含依次表示文本中每个字符:的图节点(下文简称为图表示节点,为与文中另一类图节点进行区分)。各图表示节点在提取实体识别的字符特征时,将自身节点的特征信息与相邻节点特征、相邻边的特征进行合并,使用GRU神经网络进行信息的门控操作,选择控制所需的特征表达信息。
具体的计算步骤如下:
S1:根据文书类型、案由罪名选择对应的规则模板,规则模板包含依据文本类型和案由制定的文本分类关键字、人工归纳的字典、根据归纳的字典及正则表达式制定的实体识别规则。其中文本分类的关键字以危险驾驶罪的判决书为例:'(审理查明|检察院指控|公诉机关指控)';人工归纳的字典以品牌字典为例包含具体品牌名称本田及实体类型vehicle:本田brandvehicle;根据归纳的字典及正则表达式制定的实体识别规则以机动车的实体识别规则为例:[brand].*?商务车,规则中的[brand]为定义的机动车品牌字典,如比亚迪吉利丰田本田等,结合之后的正则表达式,可以匹配出本田商务车等实体类型标签为机动车类型的命名实体;
S2:对文书数据清洗,将文书中的多余空行以及非法字符去除,完成半角全角符号转换等清洗工作;
S3:使用S1选择的规则模板中的关键字对检务文书进行段落划分,提取出包含案情的审理查明段落;
S4:使用S1规则模板中的字典及实体识别规则对S3提取的审理查明段落进行实体识别,根据实体识别的结果对文书数据中的命名实体及实体类型进行标注,实体类型如PER、LOC、ORG、VEHICLE……;
S5:将S3提取的审理查明段落,按照文书内容依次对每个字符建立对应的图表示节点,依次对每个汉字节点使用作为图结构中的图表示节点的特征表示;
S6:根据S4步骤中取得的实体识别结果及实体类型,在各实体的起始节点之前和结束节点之后建立指向节点(下文简称为图指向节点),例如 并在图指向节点与对应的图表示节点之间建立从指向起始节点至指向结束节点的有向边,例如/>和/>是实体PER的起始节点和结束节点,/>表示指向起始节点的图指向节点,/>表示指向结束节点的图指向节点。因此建立图指向节点后,实体PER包含的有向边为: 通过对每个实体类型建立图指向节点,构建多路径有向无环图结构。
S6:使用表达式G表示S5建立的多路径有向无环图结构,:
G∶=(V,E,La)
其中V代表节点集合,E代表边的集合,La代表标签的集合。对于由n个汉字组成的输入句子和m个基于模板的实体识别结果,其最终的节点集合V=Vc∪Vs∪Ve,这里Vc代表每个图表示节点的节点编码,而对于某一个基于模板的实体识别结果g,使用图指向节点和在图结构中来表示指向命名实体g的开始节点和结束节点。Vs、Ve表示这图指向节点集合在集合E中的每个边都有一个标签来表示节点之间的连接类型,对于非实体的节点的相邻边的标签代表了节点间的连接关系,对于实体中的节点的相邻边的标签代表了实体类型。因此标签集合/>这里标签lc表示了相邻图表示节点之间的标签集合,这个信息由模型用来获取文本的词序信息。同时标签集合/>代表了所有用来描述基于模板的识别结果g的有向边信息。
S7:对于上述的图结构G,使用图神经网络GGNN来更新图表示节点的编码,并使用GRU网络进行训练,学习节点表达。GGNN网络具有捕获相邻文本信息的能力,适用于司法文书中的命名实体识别任务;
GGNN网络计算过程为:首先,根据长短期记忆神经网络(LSTM)结构对司法文书和基于模板的实体识别结果进行预训练,预训练过程为:以单字为粒度对司法文书使用通用的LSTM网络进行预训练得到Wc(单字向量);以相邻字为粒度对司法文书使用通用的LSTM网络进行预训练得到Wbi(二元字向量);以规则模板对司法文书进行实体识别的结果为粒度对司法文书使用通用的LSTM网络进行预训练得到Wg(基于模板的词嵌入向量)。根据公式E1建立每个节点对应的初始化隐状态向量,当节点是图指向节点时使用基于模板的词嵌入向量作为初始化隐状态向量,当节点为图表示节点时使用单字向量与二元字向量的拼接作为初始化隐状态向量:
公式E1:
接着,构建具有图结构信息的邻接矩阵A,矩阵A表示了节点间的连接关系,如公式E2所示。矩阵中的参数对应了图的有向边信息,以不包含实体的有向图邻接矩阵Mα为例,Mα表示一个由6个汉字组成的不包含实体的语句,因此构建邻接矩阵如下所示,仅对角线及其向前一位的位置处有连接关系;以包含实体的有向图邻接矩阵Mβ为例,Mβ表示一个由6个汉字组成的包含实体的语句,因此不仅有对角线及其向前一位的位置处有连接关系,还在实体所处的部分也保持连接关系。
以上述方式,通过将语句中实体的信息以邻接矩阵的形式进行构建,使得图结构中包含了S4步骤中取得的实体识别的状态信息,其中基于实体L构建的邻接矩阵AL表示由第L个实体所构建的邻接矩阵,公式E2中的L表示基于模板的识别结果的实体总数,例如文本中包含5个基于模板识别得到的实体,则L为5,针对S4步骤中取得的实体识别结果中的各实体分别构建邻接矩阵A1,...,AL,然后将各邻接矩阵进行拼接,得到包含多实体路径信息的图结构邻接矩阵A。
公式E2:A=[A1,...,AL]
完成图表示节点、图指向节点和邻接矩阵构建,使用GRU网络对图表示节点的隐状态进行更新,更新过程如下:
公式E3:
公式E4:
公式E5:
公式E6:
公式E7:
公式E8:
公式E3为上一时刻的所有图表示节点的隐状态向量表示集合H。
公式E4为根据图表示节点的隐状态向量表示H、基于模板的词嵌入 和邻接矩阵A中对应节点v的相邻边信息(Av是行向量,代表第v个节点在邻接矩阵A中的第v行,即与节点v相连的边信息)计算通过相邻节点传播的图表示节点信息,b是偏移量。
公式E5为GRU网络的控制门的权重参数更新过程:使用GRU网络的控制门的计算机制,利用图表示节点的节点信息/>和上一时刻的图表示节点的隐状态向量表示对控制门的可学习参数Wz、Uz进行更新,σ是Logistic函数。
公式E6为GRU网络的更新门的权重参数更新过程:使用GRU网络的更新门的计算机制,利用图表示节点的节点信息/>和上一时刻的图表示节点的隐状态向量表示对更新门的可学习参数Wr、Ur进行更新,σ是Logistic函数。
公式E7为当前时刻的图表示节点隐状态的候选状态表示向量的计算过程:利用当前时刻的图表示节点信息/>更新门的权重/>和上一时刻的图表示节点的隐状态向量表示/>对候选状态的可学习参数Wh、Uh进行更新。
公式E8为当前时刻的图表示节点的隐状态计算过程:通过控制门的权重/>上一时刻的图表示节点的隐状态向量表示/>和当前时刻的图表示节点隐状态的候选状态表示向量/>对当前时刻的图表示节点的隐状态/>进行更新。
通过上述步骤不断迭代,经过T个循环更新后,得到最终的图表示节点的隐状态向量表示
S8:将图神经网络的最终表示向量按照文本次序,作为序列标注任务依次输入注意力机制模型(transformer encoder)和条件随机场CRF,对实体识别结果进行输出标签的路径约束,保证命名实体识别结果的开头应该是“B”而不是“I”或者“O”,以及同类型的“I”需要排在同类型的“B”之后,得到符合转移概率的最优识别结果。注意力机制模型中注意力计算公式如E9所示,其中Q、K、V分别代表查询向量、键向量、值向量,在当前网络中,Q、K、V分别由基于图神经网络的节点表示/>与可学习参数WQ、WK、WV进行相乘得到,公式E9中dK的表示健向量K的维度。
条件随机场的输出是序列中每个字符对应标签的概率,概率的计算公式如E10所示,其中表示当前字符识别为yi时下一个字符识别为yi+1的转移概率,/>表示当前第i个字符识别为yi的预测概率。本发明中yi表示当前字符的实体识别结果,yi+1表示下一个字符的实体识别结果,x表示字符序列,y表示条件随机场的计算概率,n为字符数量,表示字符序列的长度,实体识别结果为各字符对应的实体标签,如下所示。:
BPER IPER IPER O O BLOC ILOC O……
公式E9:
公式E10:
司法文书案情要素的实体识别任务是在图神经网络的表示基础上,使用注意力神经网络叠加条件随机场进行每个实体类别及实体边界进行判断,求得每个字符对应的命名实体最大概率。
实施例1:
一种基于图神经网络的司法文书案情要素实体识别方法,该方法所包括步骤如下:一、根据文书类型、案由罪名选择对应的规则模板;二、对文书数据清洗;三、使用模板对检务文书进行段落划分;四、对包含案情的审理查明段落构建多路径有向无环图结构,输入图神经网络学习节点表示;五、将图神经网络的各节点依次输入基于注意力机制的神经网络和条件随机场进行识别结果的序列次序校对;六、对提取的识别结果按照所需格式生成结构化数据。
进一步地,所述步骤一中规则模板为根据文书类型、罪名案由的定制模板,包含对应文书类型的分段模板、基础信息模板、独有信息模板等各项规则。
进一步地,所述步骤二对文书数据清洗包括去除包括空格、空行、编码、全半角、停用词等处理手段。
进一步地,所述步骤三中根据类型文书的对应模板进行段落划分,分解为案件基础信息、诉讼信息、基本案情、审理查明、判决信息等段落。
进一步地,所述步骤四中图神经网络为多路径有向无环图,节点间的连接均为有向连接,且无闭环结构。
进一步地,所述步骤五中识别结果的次序校对采用“三位标注”的方式完成对要素的实体标注,包括:实体主体开头、实体主体内部、非实体类型。
本发明是一种基于图神经网络的司法文书案情要素实体识别方法,旨在将非结构化的司法文书通过图神经网络进行非欧空间转换后,利用图神经网络的节点表示进行命名实体的表示学习,并对识别结果进行结构化储存,为检务工作提供非数转数的数据支持,同时为司法文书的智能化检索、专项统计等工作提供底层数据,方便加工处理,提供办公效率。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种基于图神经网络的司法文书案情要素实体识别方法,其特征在于,该方法包括如下步骤:
S1、根据文书类型、案由罪名选择对应的规则模板,规则模板包括依据文本类型和案由制定的文本分类关键字、人工归纳的字典、根据归纳的字典及正则表达式制定的实体识别规则;
S2、对文书数据清洗,将文书中的多余空行以及非法字符去除,完成清洗工作;
S3、使用S1选择的规则模板中的关键字对检务文书进行段落划分,提取出包含案情的审理查明段落;
S4、使用S1规则模板中的字典及实体识别规则对S3提取的审理查明段落进行实体识别,根据实体识别的结果对文书数据中的命名实体及实体类型进行标注;
S5、对S3提取的审理查明段落进行图神经网络的节点表示的构建,根据S4标注的实体类型建立命名实体的有向边的连接,根据S3提取的审理查明段落的文书顺序建立相邻字符间的有向边连接,使用图神经网络来更新图节点的编码,更新步骤为使用邻接矩阵和预训练字向量对节点的编码进行迭代更新,将更新后得到的图节点隐状态向量表示作为图神经网络的节点表示的最终状态;
S6、将S5步骤中得到的图神经网络的节点表示的最终状态输入基于注意力机制的神经网络和条件随机场进行识别结果的状态约束,保证命名实体识别结果的开头是“B”而不是“I”或者“O”,以及同类型的“I”排在同类型的“B”之后,得到命名实体的最终识别结果;
S7、对S6步骤中得到的命名实体的最终识别结果按照所需格式要求生成结构化数据。
2.如权利要求1所述的基于图神经网络的司法文书案情要素实体识别方法,其特征在于,实体识别使用BIO标注方式,B表示命名实体的开始,I表示命名实体的延续,O表示非命名实体词。
3.如权利要求1或2所述的基于图神经网络的司法文书案情要素实体识别方法,其特征在于,所述步骤S5中的对S3提取的审理查明段落进行图神经网络的节点表示的构建,根据S4标注的实体类型建立命名实体的有向边的连接,根据S3提取的审理查明段落的文书顺序建立相邻字符间的有向边连接包括:
将S3提取的审理查明段落,按照文书内容依次对每个字符建立对应的图表示节点,依次对每个汉字节点使用作为图结构中的图表示节点的特征表示;
根据S4步骤中取得的实体识别结果及实体类型,在各实体的起始节点之前和结束节点之后建立图指向节点,并在图指向节点与对应的图表示节点之间建立从指向起始节点至指向结束节点的有向边;通过对每个实体类型建立图指向节点,构建多路径有向无环图结构。
4.如权利要求3所述的基于图神经网络的司法文书案情要素实体识别方法,其特征在于,所述步骤S5中邻接矩阵和预训练字向量的获得方式为:
使用表达式G表示S5建立的多路径有向无环图结构,:
G∶=(V,E,La)
其中V代表节点集合,E代表边的集合,La代表标签的集合;对于由n个汉字组成的输入句子和m个基于模板的实体识别结果,其最终的节点集合V=Vc∪Vs∪Ve,这里Vc代表每个图表示节点的节点编码,而对于某一个基于模板的实体识别结果g,使用图指向节点和/>在图结构中来表示指向命名实体g的开始节点和结束节点;Vs、Ve表示这图指向节点集合在集合E中的每个边都有一个标签来表示节点之间的连接类型,对于非实体的节点的相邻边的标签代表了节点间的连接关系,对于实体中的节点的相邻边的标签代表了实体类型;因此标签集合/>这里标签lc表示了相邻图表示节点之间的标签集合,这个信息由模型用来获取文本的词序信息;同时标签集合/>代表了所有用来描述基于模板的识别结果g的有向边信息。
5.如权利要求4所述的基于图神经网络的司法文书案情要素实体识别方法,其特征在于,所述步骤S5还包括:对于上述的图结构G,使用图神经网络GGNN来更新图表示节点的编码;
GGNN网络过程为:根据长短期记忆神经网络(LSTM)结构对司法文书和基于模板的实体识别结果进行预训练,预训练过程为:以单字为粒度对司法文书使用通用的LSTM网络进行预训练得到单字向量Wc;以相邻字为粒度对司法文书使用通用的LSTM网络进行预训练得到二元字向量Wbi;以规则模板对司法文书进行实体识别的结果为粒度对司法文书使用通用的LSTM网络进行预训练得到基于模板的词嵌入向量Wg;根据公式E1建立每个节点对应的初始化隐状态向量,当节点是图指向节点时使用基于模板的词嵌入向量作为初始化隐状态向量,当节点为图表示节点时使用单字向量与二元字向量的拼接作为初始化隐状态向量;
公式E1:
6.如权利要求5所述的基于图神经网络的司法文书案情要素实体识别方法,其特征在于,邻接矩阵的获得方式为:构建具有图结构信息的邻接矩阵A,矩阵A表示了节点间的连接关系,矩阵中的参数对应了图的有向边信息;通过将语句中实体的信息以邻接矩阵的形式进行构建,使得图结构中包含了S4步骤中取得的实体识别的状态信息,其中基于实体L构建的邻接矩阵AL表示由第L个实体所构建的邻接矩阵,公式E2中的L表示基于模板的识别结果的实体总数,针对S4步骤中取得的实体识别结果中的各实体分别构建邻接矩阵A1,...,AL,然后将各邻接矩阵进行拼接,得到包含多实体路径信息的图结构邻接矩阵A;
公式E2:A=[A1,...,AL]。
7.如权利要求6所述的基于图神经网络的司法文书案情要素实体识别方法,其特征在于,所述步骤S5包括:使用GRU网络对图表示节点的隐状态进行更新,更新过程如下:
公式E3:
公式E4:
公式E5:
公式E6:
公式E7:
公式E8:
公式E3为上一时刻的所有图表示节点的隐状态向量表示集合H;
公式E4为根据图表示节点的隐状态向量表示H、基于模板的词嵌入 和邻接矩阵A中对应节点v的相邻边信息计算通过相邻节点传播的图表示节点信息,b是偏移量;
公式E5为GRU网络的控制门的权重参数更新过程:使用GRU网络的控制门的计算机制,利用图表示节点的节点信息/>和上一时刻的图表示节点的隐状态向量表示/>对控制门的可学习参数Wz、Uz进行更新,σ是Logistic函数;
公式E6为GRU网络的更新门的权重参数更新过程:使用GRU网络的更新门的计算机制,利用图表示节点的节点信息/>和上一时刻的图表示节点的隐状态向量表示/>对更新门的可学习参数Wr、Ur进行更新;σ是Logistic函数;
公式E7为当前时刻的图表示节点隐状态的候选状态表示向量的计算过程:利用当前时刻的图表示节点信息/>更新门的权重/>和上一时刻的图表示节点的隐状态向量表示/>对候选状态的可学习参数Wh、Uh进行更新;
公式E8为当前时刻的图表示节点的隐状态计算过程:通过控制门的权重/>上一时刻的图表示节点的隐状态向量表示/>和当前时刻的图表示节点隐状态的候选状态表示向量/>对当前时刻的图表示节点的隐状态/>进行更新;
通过上述步骤不断迭代,经过T个循环更新后,得到最终的图表示节点的隐状态向量表示
8.如权利要求7所述的基于图神经网络的司法文书案情要素实体识别方法,其特征在于,所述步骤S6包括:将图神经网络的最终表示向量按照文本次序,作为序列标注任务依次输入注意力机制模型和条件随机场CRF,对实体识别结果进行输出标签的路径约束,保证命名实体识别结果的开头是“B”而不是“I”或者“O”,以及同类型的“I”排在同类型的“B”之后,得到符合转移概率的最优识别结果。
9.如权利要求8所述的基于图神经网络的司法文书案情要素实体识别方法,其特征在于,注意力机制模型中注意力计算公式如E9所示,其中Q、K、V分别代表查询向量、键向量、值向量,在当前网络中,Q、K、V分别由基于图神经网络的节点表示与可学习参数WQ、WK、WV进行相乘得到,公式E9中dK的表示健向量K的维度;
公式E9:
10.如权利要求8所述的基于图神经网络的司法文书案情要素实体识别方法,其特征在于,条件随机场的输出是序列中每个字符对应标签的概率,概率的计算公式如E10所示,其中表示当前字符识别为yi时下一个字符识别为yi+1的转移概率,/>表示当前第i个字符识别为yi的预测概率;其中yi表示当前字符的实体识别结果,yi+1表示下一个字符的实体识别结果,x表示字符序列,y表示条件随机场的计算概率,n为字符数量,表示字符序列的长度,实体识别结果为各字符对应的实体标签,如下所示:
BPER IPER IPER O O BLOC ILOC O……
公式E10:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210598184.0A CN115017144B (zh) | 2022-05-30 | 2022-05-30 | 一种基于图神经网络的司法文书案情要素实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210598184.0A CN115017144B (zh) | 2022-05-30 | 2022-05-30 | 一种基于图神经网络的司法文书案情要素实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115017144A CN115017144A (zh) | 2022-09-06 |
CN115017144B true CN115017144B (zh) | 2024-03-29 |
Family
ID=83070439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210598184.0A Active CN115017144B (zh) | 2022-05-30 | 2022-05-30 | 一种基于图神经网络的司法文书案情要素实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115017144B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753025B (zh) * | 2020-06-24 | 2024-06-14 | 南方科技大学 | 案件信息的自动获取方法、装置、设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753054A (zh) * | 2020-06-22 | 2020-10-09 | 神思电子技术股份有限公司 | 一种基于图神经网络的机器阅读推断方法 |
CN111783399A (zh) * | 2020-06-24 | 2020-10-16 | 北京计算机技术及应用研究所 | 一种法律裁判文书信息抽取方法 |
CN112417880A (zh) * | 2020-11-30 | 2021-02-26 | 太极计算机股份有限公司 | 一种面向法院电子卷宗的案情信息自动抽取方法 |
WO2021073116A1 (zh) * | 2019-10-18 | 2021-04-22 | 平安科技(深圳)有限公司 | 生成法律文书的方法、装置、设备和存储介质 |
WO2021114745A1 (zh) * | 2019-12-13 | 2021-06-17 | 华南理工大学 | 一种基于词缀感知的社交媒体命名实体识别方法 |
CN113282726A (zh) * | 2021-05-27 | 2021-08-20 | 成都数之联科技有限公司 | 数据处理方法及***及装置及介质及数据分析方法 |
CN114372153A (zh) * | 2022-01-05 | 2022-04-19 | 重庆大学 | 基于知识图谱的法律文书结构化入库方法及*** |
-
2022
- 2022-05-30 CN CN202210598184.0A patent/CN115017144B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021073116A1 (zh) * | 2019-10-18 | 2021-04-22 | 平安科技(深圳)有限公司 | 生成法律文书的方法、装置、设备和存储介质 |
WO2021114745A1 (zh) * | 2019-12-13 | 2021-06-17 | 华南理工大学 | 一种基于词缀感知的社交媒体命名实体识别方法 |
CN111753054A (zh) * | 2020-06-22 | 2020-10-09 | 神思电子技术股份有限公司 | 一种基于图神经网络的机器阅读推断方法 |
CN111783399A (zh) * | 2020-06-24 | 2020-10-16 | 北京计算机技术及应用研究所 | 一种法律裁判文书信息抽取方法 |
CN112417880A (zh) * | 2020-11-30 | 2021-02-26 | 太极计算机股份有限公司 | 一种面向法院电子卷宗的案情信息自动抽取方法 |
CN113282726A (zh) * | 2021-05-27 | 2021-08-20 | 成都数之联科技有限公司 | 数据处理方法及***及装置及介质及数据分析方法 |
CN114372153A (zh) * | 2022-01-05 | 2022-04-19 | 重庆大学 | 基于知识图谱的法律文书结构化入库方法及*** |
Non-Patent Citations (2)
Title |
---|
基于图谱融合的人工智能司法数据库构建研究;朱福勇;刘雅迪;高帆;王凯;;扬州大学学报(人文社会科学版);20191231(06);90-97 * |
面向司法案件的案情知识图谱自动构建;洪文兴;胡志强;翁洋;张恒;王竹;郭志新;;中文信息学报;20200115(01);39-49 * |
Also Published As
Publication number | Publication date |
---|---|
CN115017144A (zh) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709241B (zh) | 一种面向网络安全领域的命名实体识别方法 | |
US11631007B2 (en) | Method and device for text-enhanced knowledge graph joint representation learning | |
WO2021147726A1 (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
Sharnagat | Named entity recognition: A literature survey | |
CN110263325B (zh) | 中文分词*** | |
CN110990590A (zh) | 一种基于强化学习和迁移学习的动态金融知识图谱构建方法 | |
CN113312501A (zh) | 基于知识图谱的安全知识自助查询***的构建方法及装置 | |
CN112559734B (zh) | 简报生成方法、装置、电子设备及计算机可读存储介质 | |
CN107832458A (zh) | 一种字符级的基于嵌套深度网络的文本分类方法 | |
CN110750635A (zh) | 一种基于联合深度学习模型的法条推荐方法 | |
CN112100398B (zh) | 一种专利空白预测方法及*** | |
CN113722490A (zh) | 一种基于键值匹配关系的视觉富文档信息抽取方法 | |
CN113515632A (zh) | 基于图路径知识萃取的文本分类方法 | |
CN115017144B (zh) | 一种基于图神经网络的司法文书案情要素实体识别方法 | |
CN111209362A (zh) | 基于深度学习的地址数据解析方法 | |
CN111428501A (zh) | 命名实体的识别方法、识别***及计算机可读存储介质 | |
CN115292568B (zh) | 一种基于联合模型的民生新闻事件抽取方法 | |
CN115470871A (zh) | 基于命名实体识别与关系抽取模型的政策匹配方法及*** | |
CN111985207A (zh) | 一种访问控制策略的获取方法、装置及电子设备 | |
CN106445914B (zh) | 微博情感分类器的构建方法及构建装置 | |
CN113312918B (zh) | 融合部首向量的分词和胶囊网络法律命名实体识别方法 | |
CN117094325B (zh) | 水稻病虫害领域命名实体识别方法 | |
CN112035629B (zh) | 基于符号化知识与神经网络的问答模型的实现方法 | |
CN113869054A (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
CN116127986A (zh) | 一种基于预训练模型和BiLatticeLSTM的标书关键信息抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |