CN111563374B - 一种基于司法裁判文书的人员社交关系抽取方法 - Google Patents
一种基于司法裁判文书的人员社交关系抽取方法 Download PDFInfo
- Publication number
- CN111563374B CN111563374B CN202010205874.6A CN202010205874A CN111563374B CN 111563374 B CN111563374 B CN 111563374B CN 202010205874 A CN202010205874 A CN 202010205874A CN 111563374 B CN111563374 B CN 111563374B
- Authority
- CN
- China
- Prior art keywords
- document
- entity
- sentence
- judicial
- referee
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 26
- 239000013598 vector Substances 0.000 claims abstract description 49
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 19
- 230000011218 segmentation Effects 0.000 claims abstract description 14
- 238000004140 cleaning Methods 0.000 claims abstract description 12
- 230000004927 fusion Effects 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 4
- 241000590419 Polygonia interrogationis Species 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 238000011835 investigation Methods 0.000 abstract description 4
- 238000012545 processing Methods 0.000 abstract description 4
- 238000010276 construction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Tourism & Hospitality (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Marketing (AREA)
- Bioinformatics & Computational Biology (AREA)
- Strategic Management (AREA)
- Probability & Statistics with Applications (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于司法裁判文书的人员社交关系抽取方法,用以解决司法裁判文书中人员社交关系数据处理的问题。所述基于司法裁判文书的人员社交关系抽取方法,对裁判文书进行数据清洗、中文分词以及去停用词,构建基于预训练语言模型的词向量学习模型,再分别结合相关实体关联关系和实体属性的抽取裁判文书特征并进行融合,构建关系抽取模型,抽取裁判文书中相关人员的社交关系。本发明充分挖掘裁判文书数据中的实体关联关系以及司法实体的背景信息,支持司法工作人员理清裁判文书中人员之间的社交关系,挖掘涉案人员潜在的社交关系,有助于法务工作者进行案件相关人员的社交关系发现,减少了人工调查的成本。
Description
技术领域
本发明属于司法数据处理领域,具体涉及一种基于司法裁判文书的人员社交关系抽取方法。
背景技术
随着计算机技术的发展,数据处理及信息化已渗透进每一个领域。在司法信息化改革中,如何利用科学信息化技术辅助司法工作人员从海量的司法裁判文书、案件卷宗等文本资料中进行信息抽取和整理,已经成为司法信息化建设中的一个研究热点。司法裁判文书记载了人民法院审理过程和结果,其中包含大量的相关人员以及机构等司法实体。将司法裁判文书中司法实体之间复杂的社交关系抽取出来,有助于司法人员快速了解涉案人员及机构之间的关系;同时依据司法裁判文书中的相关信息以及其他背景信息,挖掘涉案人员潜在的社交关系,有助于司法工作者理清案件事实。现有技术中,尚无专门针对人员社交关系的数据处理。
发明内容
本发明实施例提供了一种基于司法裁判文书的人员社交关系抽取方法,基于预训练语言模型的词向量表示模型,提升模型的泛化性能以及复用性,提高人员社交关系抽取的准确率和召回率,支持司法工作人员快速理清裁判文书中人员之间复杂的社交关系,挖掘涉案人潜在的社交关系,为法院等司法机构减少人工调查的成本,节省人力物力,推动司法信息化的建设。
为了实现上述目的,本发明采用的技术方案如下:
本发明实施例提供了一种基于司法裁判文书的人员社交关系抽取方法,所述抽取方法包括如下步骤:
步骤S1,对所述司法裁判文书中的文本信息进行数据清洗、中文分词,并去掉停用词,得到分词后的裁判文书数据;
步骤S2,基于所述分词后的裁判文书数据,构建基于预训练语言模型的词向量学习模型;
步骤S3,采用所述裁判文书的词向量学习模型,表示司法实体共现网络中的每个实体,结合实体关联关系,抽取第一裁判文书特征;
步骤S4,结合实体属性,抽取第二裁判文书特征;
步骤S5,基于所述第一裁判文书特征和第二裁判文书特征,构建人员社交关系抽取模型;
步骤S6,采用所述人员社交关系抽取模型,对司法裁判文书中的人员社交关系进行抽取。
作为本发明的一个优选实施例,所述步骤S1包括:
步骤S101,对司法裁判文书中的文本信息进行数据清洗与存储;
步骤S102,基于清洗后的司法裁判文书数据构建法律专业词库和停用词表。
作为本发明的一个优选实施例,所述数据清洗,进一步为,删除裁判文书中内容为空或者描述字段过少、重复的文本数据;检测并修正裁判文书中的术语缩写、常见拼写错误;使用空格替换裁判文书中的全部特殊符号。
作为本发明的一个优选实施例,所述步骤S2包括:
步骤S201,对所述分词后的裁判文书进行句段分割,得到裁判文书编号、句子编号以及句子内容的三元组;
步骤S202,对所述三元组中的句子内容进行预处理,得到训练句子语料;
步骤S203,根据所述训练句子语料对预训练语言模型进行参数调整,得到词向量学习模型。
作为本发明的一个优选实施例,所述步骤S201中的句段分割,进一步为,设定总共包含n篇裁判文书,di表示第i篇裁判文书,裁判文书集合表示为:Dn={d1,d2,......,di,......,dn};对每篇裁判文书di,按“/001”进行分割获取裁判文书编号以及裁判文书内容两部分;对裁判文书内容按照句号、感叹号、问号为句子结束标识进行分割;按照是否包含司法实体对分割后的句子进行筛选,包含司法实体则保留句子,不包含司法实体则删除句子;将保留的句子与裁判文书编号进行拼接,得到裁判文书编号、句子编号以及句子内容的三元组。
作为本发明的一个优选实施例,所述步骤S3包括:
步骤S301,基于所述裁判文书的词向量学习模型构建与表示裁判文书共现网络,得到实体对的全局上下文特征;
步骤S302,对所述实体对的全局上下文特征进行特征表示;
步骤S303,基于所述上下文特征表示提取裁判文书中句子级语义特征作为第一裁判文书特征。作为本发明的一个优选实施例,所述步骤S301中裁判文书共现网络的构建与表示,进一步为,从裁判文书的全部句子中抽取出任意两个实体在同一个句子中的共同出现关系,作为所有的实体共现关系,形成一个完整的实体共现网络;将所述司法实体共现网络中的每个实体都使用所述词向量学习模型表示为嵌入向量
作为本发明的一个优选实施例,所述步骤S302中对分词后的裁判文书进行上下文特征表示,进一步为,通过引入注意力机制为每个实体计算其各个相邻实体的不同权重,使用相邻实体的加权词向量和来表示该实体在共现网络中的上下文特征fi c;计算公式如下:
通过注意力机制为每个相邻实体eij计算其相对于实体ei的关系重要程度,计算公式如下:
对aij进行归一化,使得任意实体的所有相邻实体的权重和为1,从而得到邻居实体的关系权重如下:
其中,W1和b1分别为参数矩阵和偏置。
作为本发明的一个优选实施例,所述步骤S4进一步包括:
步骤S401,抽取裁判文书中的实体属性特征;
步骤S402,基于所述实体属性,抽取裁判文书中的实体特征作为第二裁判文书特征。
作为本发明的一个优选实施例,所述步骤S5进一步包括:
步骤S501,融合第一裁判文书特征和第二裁判文书特征,得到分类器的输入数据;
步骤S502,将所述分类器的输入数据输入分类器,对裁判文书中的实体关系进行分类。
本发明具有如下有益效果:
本发明实施例基于司法裁判文书的人员社交关系抽取方法及***,基于预训练语言模型的词向量表示模型,提升了模型的泛化性能以及复用性;结合实体关联关系的裁判文书特征,提高了相关人员关系抽取的召回率;基于实体属性的裁判文书特征,提高了相关人员关系抽取的准确率;结合上述两种裁判文书特征抽取方法构建关系抽取模型,辅助法务工作者进行案件相关人员的社交关系发现,支持司法工作人员理清裁判文书中人员之间社交关系,并挖掘涉案人员潜在的社交关系,减少人工调查的成本。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于司法裁判文书的人员社交关系抽取方法流程图。
具体实施方式
下面通过参考示范性实施例,对本发明技术问题、技术方案和优点进行详细阐明。以下所述示范性实施例仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非在这里进行定义,否则不会用理想化或过于正式的含义来解释。
本发明提出了一种基于司法裁判文书的人员社交关系抽取方法,对裁判文书中的文本信息进行数据清洗、中文分词以及去停用词,基于预训练语言模型的词向量学习模型,再基于相关实体关联关系的抽取裁判文书特征,并结合实体属性的抽取裁判文书特征,以上述两种裁判文书特征,构建人员社交关系抽取模型,抽取裁判文书中相关人员的社交关系。本发明充分挖掘裁判文书数据中的实体关联关系以及司法实体的背景信息,以支持司法工作人员快速理清裁判文书中人员之间复杂的社交关系,挖掘涉案人潜在的社交关系,有助于法务工作者进行案件相关人员的社交关系发现,为人民法院等司法机构减少人工调查的成本,节省人力物力,在智慧司法的建设中具有重要意义。
为便于对本发明实施方式的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明技术方案的限定。
实施例
本实施例提供了一种基于司法裁判文书的人员社交关系抽取方法。图1所示为本实施例所述人员社交关系抽取方法流程示意图。
本实施例以以某中级人民法院提供的真实数据集为例,其中包括该法院审理的2018年司法财产保全相关的2,800余桩案件,共涉及7,500余篇司法裁判文书,包含“保全裁定书”,“解除裁定书”,“撤回保全申请”,“审理报告”等多种裁判文书形式。研究目标是从多样化的司法裁判文书中,抽取出相关人员的社交关系,形成案件相关人员的社交网络,为案件的后续智能化案情分析奠定基础。
如图1所示,所述基于司法裁判文书的人员社交关系抽取方法包括如下步骤:
步骤S1,对所述司法裁判文书中的文本信息进行数据清洗、中文分词,并去掉停用词,得到分词后的裁判文书数据。
进一步地,本步骤包括:
步骤S101,对司法裁判文书中的文本信息进行数据清洗与存储。
优选地,本步骤使用Spark分布式计算对所述司法裁判文书中的文本信息进行数据清洗,并采用分布式文件***HDFS存储清洗后的司法裁判文书。所述数据清洗,进一步为,删除裁判文书中内容为空或者描述字段过少、重复的文本数据;检测并修正裁判文书中的术语缩写、常见拼写错误;使用空格替换裁判文书中的全部特殊符号。所述存储,存储格式为裁判文书序号、裁判文书内容两部分以“/001”分割,以RDD的形式存储于HDFS中。
步骤S102,基于清洗后的司法裁判文书数据构建法律专业词库和停用词表。
本步骤首先对通用司法领域词库进行词汇的人工删除、合并、添加以及替换,形成自定义裁判文书专业词库;再对通用停用词表进行停用词的人工删除、添加以及替换,形成自定义停用词表;采用THULAC(THU Lexical Analyzer for Chinese,THULAC)中文分词工具,导入自定义裁判文书专业词库和自定义停用词表,对所述清洗后的司法裁判文书数据进行中文分词并去除停用词,得到分词后的裁判文书数据,并存储到HDFS中。这里的存储,存储格式为裁判文书序号、裁判文书内容两部分以“/001”分割,以RDD的形式存储于HDFS中。
步骤S2,基于所述分词后的裁判文书数据,构建基于预训练语言模型的词向量学习模型。
进一步地,本步骤包括:
步骤S201,对所述分词后的裁判文书进行句段分割,得到裁判文书编号、句子编号以及句子内容的三元组。
本步骤的句段分割,设定总共包含n篇裁判文书,di表示第i篇裁判文书,裁判文书集合表示为:Dn={d1,d2,......,di,......,dn};对每篇裁判文书di,按“/001”进行分割获取裁判文书编号以及裁判文书内容两部分;对裁判文书内容按照句号、感叹号、问号为句子结束标识进行分割;按照是否包含司法实体对分割后的句子进行筛选,包含司法实体则保留句子,不包含司法实体则删除句子;将保留的句子与裁判文书编号进行拼接,得到裁判文书编号、句子编号以及句子内容的三元组,以“/001”分割,以RDD的形式存储于HDFS中。
步骤S202,对所述三元组中的句子内容进行预处理,得到训练句子语料;。
本步骤中,所述预处理,首先使用“#”和“$”标识出句子内容中的头尾实体;在句首添加句子分类标识符“[CLS]”;在句末添加句子结束标识符“[SEP]”。所得到的所述训练句子语料中,包含有目标实体对。
步骤S203,根据所述训练句子语料对预训练语言模型进行参数调整,得到词向量学习模型。
本步骤所述预训练语言模型为BERT模型;所述参数调整,使用关系分类任务作为下游任务,将裁判文书中的经过预处理的句子输入BERT模型,将分类标识“[CLS]”的标识作为整个句子的向量表示输入softmax分类器进行分类,计算分类结果的交叉熵损失反向传播,对BERT模型的部分参数进行微调,直至模型收敛;保存微调参数之后的BERT模型作为裁判文书词向量学习模型。优选地,所述部分参数为模型网络中的参数,至少包括:Transformer中的self-attention中线性变换涉及参数以及全连接层feedforward参数。
步骤S3,采用所述裁判文书的词向量学习模型,表示司法实体共现网络中的每个实体,结合实体关联关系,抽取第一裁判文书特征。
本步骤进一步包括:
步骤S301,基于所述裁判文书的词向量学习模型构建与表示裁判文书共现网络,得到实体对的全局上下文特征。
本步骤中,实体共现网络由实体共现关系构成,所述实体共现关系定义为任意两个实体在同一个句子中的共同出现关系;从整个裁判文书的全部句子中抽取出所有的实体共现关系,形成一个完整的实体共现网络。将所述司法实体共现网络中的每个实体都使用所述词向量学习模型表示为嵌入向量对于网络中任意实体节点ei,设其相应的邻居集合为Ni={ei1,ei2,......,eij}。
步骤S302,对所述实体对的全局上下文特征进行特征表示。
本步骤中,通过引入注意力机制为每个实体计算其各个相邻实体的不同权重,使用相邻实体的加权词向量和来表示该实体在共现网络中的上下文特征fi c。计算公式如下:
其中,W1和b1分别为参数矩阵和偏置。
步骤S303,基于所述上下文特征表示提取裁判文书中句子级语义特征作为第一裁判文书特征。
则目标实体对的句子特征由bi-GRU输入通过最大池化层得到,如下:
fs=maxPool(h1,h2,......,hn) (7)
步骤S4,结合实体属性,抽取第二裁判文书特征。
本步骤具体包括:
步骤S401,抽取裁判文书中的实体属性特征。
本步骤利用司法实体的半结构化描述信息来提供背景信息。对句子s中的实体ei,从知识库D中查找实体ei的属性集合Ai={Ai1,Ai2,......,Aim},然后使用S2中所述方法将Ai中的每个属性Aij的属性名Kij和属性值Vij转化为向量;对于实体ei,我们定义其属性向量的集合KVi={KVi1,KVi2,......,KVim},其中第j个属性向量可以表示为KVij=[Kij;Vij];
步骤S402,基于所述实体属性,抽取裁判文书中的实体特征作为第二裁判文书特征。
本步骤中,对于实体ei有属性向量KVij,首先将属性值向量Vij通过最大池化操作捕捉重要特征接着,将属性名向量Kij与S3中的句子向量fs之间通过点乘操作来计算其对该句子中实体关系的重要程度,计算公式如下:
aij=tanh(Kij(W1(fs)T)) (8)
步骤S5,基于所述第一裁判文书特征和第二裁判文书特征,构建人员社交关系抽取模型。
进一步地,本步骤包括:
步骤S501,融合第一裁判文书特征和第二裁判文书特征,得到分类器的输入数据。
本步骤中,将句子级语义特征fs与语料级环境特征fc进行拼接后输入全连接层,得到语义融合特征f,计算公式如下:
f=ReLU(W3[fs;fc]+b3) (11)
其中ReLU为激活函数,W3和b3分别为参数矩阵和偏置;本发明使用语义融合特征和实体特征作为最终分类器的输入。
步骤S502,将所述分类器的输入数据输入分类器,对裁判文书中的实体关系进行分类。
其中W4和W5为参数矩阵;模型的损失函数定义为交叉熵损失函数:
其中m为语料集中句子数目,r为关系标签类别数,tij表示真实标签的one-hot向量矩阵,θ表示模型的所有参数。
步骤S6,采用所述人员社交关系抽取模型,对司法裁判文书中的人员社交关系进行抽取。
由以上技术方案可以看出,本发明实施例所提供的基于司法裁判文书的人员社交关系抽取方法,通过设计并实现基于预训练语言模型的词向量表示模型,提升了模型的泛化性能以及复用性;通过使用结合实体关联关系的裁判文书特征抽取方法,提高了相关人员关系抽取的召回率;通过使用基于实体属性的裁判文书特征抽取方法,提高了相关人员关系抽取的准确率;结合上述两种裁判文书特征抽取方法构建的关系抽取模型,解决了裁判文书中相关人员关系抽取不准确的问题。充分挖掘裁判文书数据中的实体关联关系以及司法实体的背景信息,有助于法务工作者进行案件相关人员的社交关系发现,在智慧司法的建设中具有重要意义。
以上所述是本发明的优选实施方式,应当指出,本发明并不受限于以上所公开的示范性实施例,说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,在本发明揭露的技术范围做出的若干改进和润饰、可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种基于司法裁判文书的人员社交关系抽取方法,其特征在于,所述抽取方法包括如下步骤:
步骤S1,对所述司法裁判文书中的文本信息进行数据清洗、中文分词,并去掉停用词,得到分词后的裁判文书数据;
步骤S2,基于所述分词后的裁判文书数据,构建基于预训练语言模型的词向量学习模型;
步骤S3,采用所述裁判文书的词向量学习模型,表示司法实体共现网络中的每个实体,结合实体关联关系,提取裁判文书中的句子级语义特征fs作为第一裁判文书特征;
步骤S4,结合实体属性,抽取第二裁判文书特征;具体包括:
步骤S401,抽取裁判文书中的实体属性特征;对句子s中的实体ei,从知识库D中查找实体ei的属性集合Ai={Ai1,Ai2,......,Aim},然后将Ai中的每个属性Aij的属性名Kij和属性值Vij转化为向量;对于实体ei,定义其属性向量的集合KVi={KVi1,KVi2,......,KVim},其中第j个属性向量表示为KVij=[Kij;Vij];
步骤S402,基于所述实体属性,抽取裁判文书中的实体特征作为第二裁判文书特征;对于实体ei有属性向量KVij,首先将属性值向量Vij通过最大池化操作捕捉重要特征接着,将属性名向量Kij与S3中的句子级语义特征fs之间通过点乘操作来计算其对该句子中实体关系的重要程度,计算公式如下:
aij=tanh(Kij(W1(fs)T)) (8)
步骤S5,基于所述第一裁判文书特征和第二裁判文书特征,构建人员社交关系抽取模型;具体包括:
步骤S501,融合第一裁判文书特征和第二裁判文书特征,首先,将句子级语义特征fs与语料级环境特征进行拼接后输入全连接层,得到语义融合特征;使用语义融合特征和实体特征作为最终分类器的输入;
步骤S502,将分类器的输入数据输入分类器,对裁判文书中的实体关系进行分类;
步骤S6,采用所述人员社交关系抽取模型,对司法裁判文书中的人员社交关系进行抽取。
2.根据权利要求1所述的人员社交关系抽取方法,其特征在于,所述步骤S1包括:
步骤S101,对司法裁判文书中的文本信息进行数据清洗与存储;
步骤S102,基于清洗后的司法裁判文书数据构建法律专业词库和停用词表。
3.根据权利要求2所述的人员社交关系抽取方法,其特征在于,所述数据清洗,进一步为,删除裁判文书中内容为空或者描述字段过少、重复的文本数据;检测并修正裁判文书中的术语缩写、常见拼写错误;使用空格替换裁判文书中的全部特殊符号。
4.根据权利要求1所述的人员社交关系抽取方法,其特征在于,所述步骤S2包括:
步骤S201,对所述分词后的裁判文书进行句段分割,得到裁判文书编号、句子编号以及句子内容的三元组;
步骤S202,对所述三元组中的句子内容进行预处理,得到训练句子语料;
步骤S203,根据所述训练句子语料对预训练语言模型进行参数调整,得到词向量学习模型。
5.根据权利要求4所述的人员社交关系抽取方法,其特征在于,所述步骤S201中的句段分割,进一步为,设定总共包含n篇裁判文书,di表示第i篇裁判文书,裁判文书集合表示为:Dn={d1,d2,......,di,......,dn};对每篇裁判文书di,按“/001”进行分割获取裁判文书编号以及裁判文书内容两部分;对裁判文书内容按照句号、感叹号、问号为句子结束标识进行分割;按照是否包含司法实体对分割后的句子进行筛选,包含司法实体则保留句子,不包含司法实体则删除句子;将保留的句子与裁判文书编号进行拼接,得到裁判文书编号、句子编号以及句子内容的三元组。
6.根据权利要求1所述的人员社交关系抽取方法,其特征在于,所述步骤S3包括:
步骤S301,基于所述裁判文书的词向量学习模型构建与表示裁判文书共现网络,得到实体对的全局上下文特征;
步骤S302,对所述实体对的全局上下文特征进行特征表示;
步骤S303,基于所述上下文特征表示提取裁判文书中句子级语义特征作为第一裁判文书特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010205874.6A CN111563374B (zh) | 2020-03-23 | 2020-03-23 | 一种基于司法裁判文书的人员社交关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010205874.6A CN111563374B (zh) | 2020-03-23 | 2020-03-23 | 一种基于司法裁判文书的人员社交关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111563374A CN111563374A (zh) | 2020-08-21 |
CN111563374B true CN111563374B (zh) | 2022-08-19 |
Family
ID=72074127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010205874.6A Active CN111563374B (zh) | 2020-03-23 | 2020-03-23 | 一种基于司法裁判文书的人员社交关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111563374B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569046B (zh) * | 2021-07-19 | 2022-10-21 | 北京华宇元典信息服务有限公司 | 裁判文书人物关系识别方法、装置和电子设备 |
CN115033528B (zh) * | 2022-06-29 | 2023-04-07 | 广东国讯信息科技有限公司 | 一种档案数据管理方法及*** |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018224028A1 (zh) * | 2017-06-09 | 2018-12-13 | 北京国双科技有限公司 | 获取裁判文书焦点的方法和装置 |
CN110750974A (zh) * | 2019-09-20 | 2020-02-04 | 成都星云律例科技有限责任公司 | 一种裁判文书结构化处理方法及*** |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8504490B2 (en) * | 2010-04-09 | 2013-08-06 | Microsoft Corporation | Web-scale entity relationship extraction that extracts pattern(s) based on an extracted tuple |
CN108763321B (zh) * | 2018-05-02 | 2021-07-06 | 深圳智能思创科技有限公司 | 一种基于大规模相关实体网络的相关实体推荐方法 |
CN109472033B (zh) * | 2018-11-19 | 2022-12-06 | 华南师范大学 | 文本中的实体关系抽取方法及***、存储介质、电子设备 |
CN109933789B (zh) * | 2019-02-27 | 2021-04-13 | 中国地质大学(武汉) | 一种基于神经网络的司法领域关系抽取方法及*** |
CN109992629B (zh) * | 2019-02-28 | 2021-08-06 | 中国科学院计算技术研究所 | 一种融合实体类型约束的神经网络关系抽取方法及*** |
CN109947897B (zh) * | 2019-03-15 | 2020-12-15 | 南京邮电大学 | 司法案件事件树构建方法 |
CN110650156B (zh) * | 2019-10-23 | 2021-12-31 | 北京天融信网络安全技术有限公司 | 网络实体的关系聚类方法、装置及网络事件的识别方法 |
CN110837558B (zh) * | 2019-11-07 | 2022-04-15 | 成都星云律例科技有限责任公司 | 一种裁判文书实体关系抽取方法及*** |
-
2020
- 2020-03-23 CN CN202010205874.6A patent/CN111563374B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018224028A1 (zh) * | 2017-06-09 | 2018-12-13 | 北京国双科技有限公司 | 获取裁判文书焦点的方法和装置 |
CN110750974A (zh) * | 2019-09-20 | 2020-02-04 | 成都星云律例科技有限责任公司 | 一种裁判文书结构化处理方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN111563374A (zh) | 2020-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427623B (zh) | 半结构化文档知识抽取方法、装置、电子设备及存储介质 | |
CN110717047B (zh) | 一种基于图卷积神经网络的Web服务分类方法 | |
CN110245229B (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN107239444B (zh) | 一种融合词性与位置信息的词向量训练方法及*** | |
CN105279495B (zh) | 一种基于深度学习和文本总结的视频描述方法 | |
CN109670039B (zh) | 基于三部图和聚类分析的半监督电商评论情感分析方法 | |
CN110569508A (zh) | 融合词性和自注意力机制的情感倾向性分类方法及*** | |
CN109800310B (zh) | 一种基于结构化表达的电力运维文本分析方法 | |
US20160350288A1 (en) | Multilingual embeddings for natural language processing | |
CN110807328A (zh) | 面向法律文书多策略融合的命名实体识别方法及*** | |
CN110134954B (zh) | 一种基于Attention机制的命名实体识别方法 | |
CN113157859B (zh) | 一种基于上位概念信息的事件检测方法 | |
Li et al. | UD_BBC: Named entity recognition in social network combined BERT-BiLSTM-CRF with active learning | |
CN111563374B (zh) | 一种基于司法裁判文书的人员社交关系抽取方法 | |
CN113468887A (zh) | 基于边界与片段分类的学者信息关系抽取方法和*** | |
CN112699685A (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
CN111710428A (zh) | 一种建模全局和局部上下文交互的生物医学文本表示方法 | |
Van Atteveldt et al. | Studying political decision making with automatic text analysis | |
CN115470871A (zh) | 基于命名实体识别与关系抽取模型的政策匹配方法及*** | |
CN110610003A (zh) | 用于辅助文本标注的方法和*** | |
CN112989830A (zh) | 一种基于多元特征和机器学习的命名实体识别方法 | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
CN115878800A (zh) | 一种融合共现图和依赖关系图的双图神经网络及其构建方法 | |
Aouichaty et al. | Automated decision classification model for tax appeals commission in Morocco using latent dirichlet allocation | |
CN114328894A (zh) | 文档处理方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |