CN111291570A - 一种实现司法文书中要素识别的方法及装置 - Google Patents
一种实现司法文书中要素识别的方法及装置 Download PDFInfo
- Publication number
- CN111291570A CN111291570A CN201811497428.6A CN201811497428A CN111291570A CN 111291570 A CN111291570 A CN 111291570A CN 201811497428 A CN201811497428 A CN 201811497428A CN 111291570 A CN111291570 A CN 111291570A
- Authority
- CN
- China
- Prior art keywords
- sentence
- judicial
- target sentence
- target
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000012549 training Methods 0.000 claims abstract description 123
- 238000012545 processing Methods 0.000 claims abstract description 38
- 239000013598 vector Substances 0.000 claims description 97
- 238000013145 classification model Methods 0.000 claims description 36
- 230000014509 gene expression Effects 0.000 claims description 28
- 230000008569 process Effects 0.000 claims description 17
- 238000003909 pattern recognition Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种实现司法文书中要素识别的方法和装置,具体为,先对该待识别司法文书进行分句处理,获得该待识别司法文书划的多个语句,同时获取该待识别司法文书包括的案由。再提取各句的文本特征,并将每句的文本特征输入预先生成的案由对应的要素识别模型,从而得到每句对应的第一要素标签。由于本申请实施例提供的识别方法,可以充分学习第二目标句的文本特征,不再受固定语句、复杂句式的限制,从而可以适用于语义复杂的司法文书。而且预先训练的要素识别模型是以句子为单位进行训练生成的,从而可以获得司法文书中每句对应的要素标签,提高要素识别的准确性。
Description
技术领域
本申请涉及人工智能技术领域,具体涉及一种实现司法文书中要素识别的方法及装置。
背景技术
在司法领域,通常会涉及多种类型的司法文书,例如判决书,裁定书,而这类司法文书的内容通常比较长。对于某些案情比较复杂的案件,法院工作者要想迅速从司法文书中抓取案件关键信息点需要花费很大的精力和时间,给法院工作者带来较大的工作压力。
现有技术中,为便于法院工作者可以迅速从司法文书中获取要素信息,通过人工抽样部分司法文书,并从司法文书中抽取关键词,然后通过关键词方法从司法文书中识别要素信息。而此种方法需要人工进行查看、记录、计算等操作,很难做到大批量的统计,司法文书中通常会有大量当事人口语化的表述,通过关键词识别要素的方法无法适应语义复杂的司法文书,造成司法文书中要素识别不准确。
发明内容
有鉴于此,本申请实施例提供一种实现司法文书中要素识别的方法及装置,以提高要素识别的准确性。
为解决上述问题,本申请实施例提供的技术方案如下:
一种实现司法文书中要素识别的方法,所述方法包括:
获取待识别司法文书,对所述待识别司法文书进行分句处理并获取所述待识别司法文书中包括的案由;
提取所述待识别司法文书中各句的文本特征,所述文本特征包括词向量、词性特征向量、依存句法特征向量以及文本主题词向量中的一种或多种;
将所述待识别司法文书中第一目标句的文本特征输入预先训练生成的所述案由对应的要素识别模型,获得所述第一目标句对应的第一要素标签,所述第一目标句为所述待识别司法文书中的任意句;
所述案由对应的要素识别模型是根据训练数据对初始分类模型进行训练生成的,所述训练数据包括待训练司法文书中第二目标句的文本特征以及所述第二目标句对应的要素标签,所述待训练司法文书中包括所述案由,所述第二目标句为所述待训练司法文书中的任意句。
在一种可能的实现方式中,所述方法还包括:
将所述第一目标句与预先建立的所述案由对应的要素正则表达式进行匹配;
将与所述第一目标句匹配的要素正则表达式对应的要素标签确定为所述第一目标句对应的第二要素标签。
在一种可能的实现方式中,所述方法还包括:
将所述第一目标句对应的第一要素标签以及所述第一目标句对应的第二要素标签取并集,获得所述第一目标句对应的要素标签。
在一种可能的实现方式中,所述案由对应的要素识别模型的生成过程包括:
获取待训练司法文书,对所述待训练司法文书进行分句处理,所述待训练司法文书中包括所述案由;
提取所述待训练司法文书中各句的文本特征,所述文本特征包括词向量、词性特征向量、依存句法特征向量以及文本主题词向量中的一种或多种;
将所述待训练司法文书中第二目标句的文本特征以及所述第二目标句对应的至少一个要素标签作为训练数据;
根据所述训练数据对初始分类模型进行训练生成所述案由对应的要素识别模型。
在一种可能的实现方式中,所述案由对应的要素识别模型的生成过程包括:
获取待训练司法文书,对所述待训练司法文书进行分句处理,所述待训练司法文书中包括所述案由;
提取所述待训练司法文书中各句的文本特征,所述文本特征包括词向量、词性特征向量、依存句法特征向量以及文本主题词向量中的一种或多种;
将所述待训练司法文书中第二目标句的文本特征以及所述第二目标句是否包括目标要素标签的分类结果作为训练数据;所述目标要素标签分别为所述案由对应的要素标签中的每一个;
根据所述训练数据对初始分类模型进行训练分别生成所述目标要素标签对应的识别模型,将各个要素标签对应的识别模型组成所述案由对应的要素识别模型。
在一种可能的实现方式中,所述将所述待识别司法文书中第一目标句的文本特征输入预先训练生成的所述案由对应的要素识别模型,获得所述第一目标句对应的第一要素标签,包括:
将所述待识别司法文书中第一目标句的文本特征输入所述案由对应的要素识别模型,将所述案由对应的要素识别模型输出的至少一个要素标签确定为所述第一目标句对应的第一要素标签。
在一种可能的实现方式中,所述将所述待识别司法文书中第一目标句的文本特征输入预先训练生成的所述案由对应的要素识别模型,获得所述第一目标句对应的第一要素标签,包括:
将所述待识别司法文书中第一目标句的文本特征输入所述目标要素标签对应的识别模型,获得所述第一目标句是否包括所述目标要素标签的分类结果;所述目标要素标签分别为所述案由对应的要素标签中的每一个;
根据各个第一目标句是否包括所述目标要素标签的分类结果,确定所述第一目标句对应的第一要素标签。
一种实现司法文书中要素识别的装置,所述装置包括:
获取单元,用于获取待识别司法文书,对所述待识别司法文书进行分句处理并获取所述待识别司法文书中包括的案由;
提取单元,用于提取所述待识别司法文书中各句的文本特征,所述文本特征包括词向量、词性特征向量、依存句法特征向量以及文本主题词向量中的一种或多种;
识别单元,用于将所述待识别司法文书中第一目标句的文本特征输入预先训练生成的所述案由对应的要素识别模型,获得所述第一目标句对应的第一要素标签,所述第一目标句为所述待识别司法文书中的任意句;所述案由对应的要素识别模型是根据训练数据对初始分类模型进行训练生成的,所述训练数据包括待训练司法文书中第二目标句的文本特征以及所述第二目标句对应的要素标签,所述待训练司法文书中包括所述案由,所述第二目标句为所述待训练司法文书中的任意句。
在一种可能的实现方式中,所述装置还包括:
匹配单元,用于将所述第一目标句与预先建立的所述案由对应的要素正则表达式进行匹配;
确定单元,用于将与所述第一目标句匹配的要素正则表达式对应的要素标签确定为所述第一目标句对应的第二要素标签。
在一种可能的实现方式中,所述装置还包括:
获得单元,用于将所述第一目标句对应的第一要素标签以及所述第一目标句对应的第二要素标签取并集,获得所述第一目标句对应的要素标签。
在一种可能的实现方式中,所述案由对应的要素识别模型的生成过程包括:
获取待训练司法文书,对所述待训练司法文书进行分句处理,所述待训练司法文书中包括所述案由;
提取所述待训练司法文书中各句的文本特征,所述文本特征包括词向量、词性特征向量、依存句法特征向量以及文本主题词向量中的一种或多种;
将所述待训练司法文书中第二目标句的文本特征以及所述第二目标句对应的至少一个要素标签作为训练数据;
根据所述训练数据对初始分类模型进行训练生成所述案由对应的要素识别模型。
在一种可能的实现方式中,所述案由对应的要素识别模型的生成过程包括:
获取待训练司法文书,对所述待训练司法文书进行分句处理,所述待训练司法文书中包括所述案由;
提取所述待训练司法文书中各句的文本特征,所述文本特征包括词向量、词性特征向量、依存句法特征向量以及文本主题词向量中的一种或多种;
将所述待训练司法文书中第二目标句的文本特征以及所述第二目标句是否包括目标要素标签的分类结果作为训练数据;所述目标要素标签分别为所述案由对应的要素标签中的每一个;
根据所述训练数据对初始分类模型进行训练分别生成所述目标要素标签对应的识别模型,将各个要素标签对应的识别模型组成所述案由对应的要素识别模型。
在一种可能的实现方式中,识别单元,具体用于将所述待识别司法文书中第一目标句的文本特征输入所述案由对应的要素识别模型,将所述案由对应的要素识别模型输出的至少一个要素标签确定为所述第一目标句对应的第一要素标签。
在一种可能的实现方式中,识别单元,具体用于所述将所述待识别司法文书中第一目标句的文本特征输入预先训练生成的所述案由对应的要素识别模型,获得所述第一目标句对应的第一要素标签,包括:
将所述待识别司法文书中第一目标句的文本特征输入所述目标要素标签对应的识别模型,获得所述第一目标句是否包括所述目标要素标签的分类结果;所述目标要素标签分别为所述案由对应的要素标签中的每一个;
根据各个第一目标句是否包括所述目标要素标签的分类结果,确定所述第一目标句对应的第一要素标签。
一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述的实现司法文书中要素识别的方法。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述的实现司法文书中要素识别的方法。
由此可见,本申请实施例具有如下有益效果:
本申请实施例中预先利用待训练司法文书中的第二目标句的文本特征以及该第二目标句对应的要素标签训练初始分类模型以获取案由对应的要素识别模型。对于未携带有要素标签的待识别司法文书,可以先对该待识别司法文书进行分句处理,获得该待识别司法文书划的多个语句,同时获取该待识别司法文书包括的案由。再提取各句的文本特征,并将每句的文本特征输入预先训练生成的案由对应的要素识别模型,从而得到每句对应的第一要素标签。由于本申请实施例提供的识别方法,可以充分学习第二目标句的文本特征,不再受固定语句、复杂句式的限制,从而可以适用于语义复杂的司法文书。而且预先训练的要素识别模型是以句子为单位进行训练生成的,从而可以获得司法文书中每句对应的要素标签,提高要素识别的准确性。
附图说明
图1为本申请实施例提供的一种生成要素识别模型的方法流程图;
图2为本申请实施例提供的另一种生成要素识别模型的方法的流程图;
图3为本申请实施例提供的一种实现司法文书中要素识别的方法的流程图;
图4为本申请实施提供的一种实现司法文书中要素识别的装置结构图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
为便于理解本申请实施例提供的技术方案,下面先对本申请的背景技术进行说明。
发明人在对传统的司法文书中要素识别方法研究中发现,传统的识别方法采用关键词进行匹配,先找到少部分涉及要素信息的文本样本,再人工进行总结提炼关键词,然后通过关键词从待识别司法文书中识别要素信息。然而,传统的识别方法是以整篇文书为单位,识别的要素信息是该篇文书包括的要素信息,无法获取该篇文书中某句话所包括的要素信息。而且,不同类型的司法文书的语义表述存在差别,传统的识别方法仅适用于某一类司法文书,不能复用在其他文书,影响使用体验。
基于此,本申请实施例提供了一种实现司法文书中要素识别的方法和装置,针对同一案由的待训练司法文书,首先获取待训练司法文书中每句的文本特征以及该句对应的要素标签,将其作为训练数据对初始分类模型进行训练,从而获得案由对应的要素识别模型。当需要识别待识别司法文书中每句对应的要素标签时,首先获取待识别司法文书,并获取该待识别司法文书包括的案由,然后,对待识别司法文书进行分句处理,并提取每句的文本特征,再将待识别司法文书中每句的文本特征输入预先生成的案由对应的要素识别模型,以获取每句对应的要素标签。可见,本申请实施例在训练生成要素识别模型时,是以司法文书中句子为单位进行训练,在识别待识别司法文书中要素时,可以识别出待识别司法文书中任意句的要素,不再局限于整篇文书的要素。而且,生成的要素识别模型可以充分学习每句的文本特征,不再受固定语句以及不同语义表述的影响,可以直接应用于同一案由的其它司法文书识别要素,提高要素识别的准确性以及识别效率。
为便于理解本申请提供的要素识别方法,将先对训练生成案由对应的要素识别模型进行说明。在本申请中,提供了两种生成案由对应的要素识别模型的方法,下面将分别对两种生成方法进行说明。
参见图1,该图为本申请实施例提供的一种案由对应的生成要素识别模型方法的流程图,如图1所示,该方法可以包括:
S101:获取待训练司法文书,对待训练司法文书进行分句处理。
本实施例中,为实现对司法文书中各句的要素进行识别,首先需要通过训练生成一种要素识别模型。在进行要素识别模型生成过程中,需要获取待训练司法文书,该待训练司法文书中包括案由。其中,案由是人民法院对诉讼案件所涉及的法律关系的性质进行概括后形成的案件名称,例如,肖像权纠纷、抚养费纠纷、遗嘱继承纠纷、专利侵权纠纷等等。由于不同案由的案件所涉及的要素信息不同,因此,为适应同一案由的司法文书的要素识别,以案由为单位,训练生成该案由对应的要素识别模型。
为可以识别司法文书中每句的要素,可以先对待训练司法文书进行分句处理,以将待训练司法文书划分为多句。在具体实现时,可以按照句号、分好、问号为基准对待训练司法文书进行分句处理。其中,每句可以均对应有要素标签,该要素标签预先进行标注,用于表征该句的要素类别。其中,要素标签可以由司法领域专业人员进行专门梳理,以适用于该领域,然后再由专业人员对待训练司法文书中的各句进行要素标签的标注。
例如,以离婚财产分配案件为例,其中描述为“二人在婚姻维持期间购买一辆货车”,则该句标注的要素标签为“有夫妻共同财产”。
另外,可以理解的是,司法文书中一句话可以携带多种信息,因此,分句处理后,该句可以对应有多个要素标签。例如,“二人在婚姻维持期间购买一辆货车,男方在未告知女方的情况下,为其私生子购置一套房子”,则该句标注的要素标签为“有夫妻共同财产”和“有非婚生子女”。
S102:提取待训练司法文书中各句的文本特征。
本实施例中,当对待训练司法文书进行分句处理后,提取每句的文本特征,其中文本特征包括词向量、词性特征向量、依存句法特征向量以及文本主题词向量中的一种或多种,该文本特征可以表征该句所具有的属性特点。
其中,词向量是指词汇表的单词或短语被映射到实数的向量,涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入,在具体提取时,可以利用Word2vec算法进行提取。词性特征向量,是提取司法文书中的名词和动词作为文本的一级特征词,然后提取一级特征词的向量,可以利用TF-IDF算法进行提取。依存句法特征向量是将句子分析呈一颗依存句法书,描述出各个词语之间的依存关系,根据依存关系提取特征向量。
在具体实现时,可以提取一种文本特征,利用一种文本特征进行模型的训练,也可以提取多种文本特征,多维度反应该句的特征,提高要素识别模型的准确性。
S103:将待训练司法文书中第二目标句的文本特征以及第二目标句对应的至少一个要素标签作为训练数据。
本实施例中,针对待训练司法文书中任意句,将其中任意一句作为第二目标句,将第二目标句的文本特征以及该第二目标句对应的至少一个要素标签作为训练数据。
当第二目标句仅对应一个要素标签时,将第二目标句的文本特征以及该要素标签作为一条训练数据进行初始模型的训练。当利用生成的要素识别模型识别待识别司法文书中句子时,如果该句的文本特征与第二目标句的文本特征匹配时,则该句对应的要素标签为第二目标句对应的要素标签。
当第二目标句对应多个要素标签,可以将多个要素标签作为一个要素标签,与第二目标句的文本特征作为一条训练数据进行初始模型的训练。当利用生成的要素识别模型识别待识别司法文书中句子时,如果该句的文本特征与第二目标句的文本特征匹配时,则该句对应的要素标签为第二目标句对应的多个要素标签,即待识别司法文书中该句对应有多个要素标签。
例如,当第二目标句仅对应一个要素标签A时,将第二目标句的文本特征和要素标签A作为一条训练数据进行初始模型的训练;当第二目标句对应要素标签A、要素标签B以及要素标签C时,将要素标签A+B+C共同与第二目标句的文本特征作为一条训练数据进行初始模型的训练。
另外,为保证待训练司法文书中每句标注的要素标签的准确性,可以由2个以上的专家对同一待训练司法文书进行标注,并由第三人对标注结果进行审核。当审核通过且同一要素标签的标注量达到预设阈值时,将该句的文本特征以及该句对应的要素标签作为训练数据训练初始分类模型。其中,标注量对应的预设阈值可以根据文本特征进行设置。例如,进行标注的专家对于待训练司法文书中某句的标注结果相同,且复核通过,同时,该句对应的要素标签A的标注量达到500以上,则可以将携带要素标签A的所有句的文本特征作为训练数据训练初始分类模型。
当某要素标签对应的标注量未达到预设阈值时,为保证可以全面识别出司法文书中所包括的要素标签,可以针对标注量较少的要素标签生成对应的要素正则表达式,以利用要素正则表达式识别待识别文书中各句的要素标签。
可以理解的是,在一种可能的实现方式中,也可以针对一种司法文书包括的所有要素标签均生成对应的要素正则表达式,然后,利用要素正则表达式获得待识别司法文书中各句的要素标签。由于要素正则表达式是由专家通过总结提炼的,能够准确识别某句所包括的要素标签,提高了识别的准确率。
在实际应用中,为避免样本类型严重倾斜,导致训练生成的要素识别模型识别效果不理想,还可以采用过采样或欠采样的方法均衡训练样本,以使得每个要素标签对应的训练样本均衡。
S104:根据训练数据对初始分类模型进行训练生成案由对应的要素识别模型。
本实施例中,将第二目标句的文本特征以及该第二目标句对应的要素标签作为输入数据输入至初始分类模型,从而实现对初始分类模型训练,生成案由对应的要素识别模型。
其中,初始分类模型可以为神经网络模型或深度学习模型。常见的神经网络模型有随机森林(Random Forest)模型、朴素贝叶斯(Bayes)模型、逻辑回归(LogisticRegression)模型、支持向量机(Support Vector Machine)模型等。在对上述初始模型进行训练时,可以采用TF-IDF方法对文本特征进行筛选,具体可以通过卡方检验筛选Top100特征词,提取特征向量。深度学习模型通常可以为带有attention机制的递归神经网络(Recurrent Neural Network)模型、卷积神经网络(Convolutional Neural Networks)模型以及具有卷积神经网络特征的区域模型(Regions with Convolutional NeuralNetwork Feature)等。
在具体实现时,针对不同的案由,生成每个案由对应的要素识别模型,从而在利用该要素识别模型时,可以根据待识别司法文书包括的案由查找对应的要素识别模型,以利用对应的要素识别模型进行要素识别,提高识别效率。
由上述实施例可以看出,本申请实施例获取待训练司法文书以及该待训练司法文书包括的案由,然后,对待训练司法文书进行分句处理,并提取每句的文本特征,并利用每句的文本特征以及该句对应的要素标签训练初始分类模型,以获得某案由对应的要素识别模型。可见,本申请实施例在训练生成要素识别模型时,是以司法文书中句子为单位进行训练,在识别待识别司法文书中要素时,可以识别出待识别司法文书中任意句的要素,不再局限于整篇文书的要素。而且,生成的要素识别模型可以充分学习每句的文本特征,不再受固定语句以及不同语义表述的影响,可以直接应用于同一案由的其它司法文书要素的识别,提高要素识别的准确性以及识别效率。
参见图2,该图为本申请实施例提供的另一种生成案由对应的要素识别模型方法的流程图,如图2所示,该方法可以包括:
S201:获取待训练司法文书,对待训练司法文书进行分句处理,待训练司法文书中包括案由。
S202:提取待训练司法文书中各句的文本特征。
其中,文本特征包括词向量、词性特征向量、依存句法特征向量以及文本主题词向量中的一种或多种。
需要说明的是,本实施例中S201和S202分别与S101和S102具有相同的实现,具体可以参见上述步骤的实现,本实施例在此不再赘述。
S203:将待训练司法文书中第二目标句的文本特征以及第二目标句是否包括目标要素标签的分类结果作为训练数据。
本实施例中,预先对第二目标句进行分类,该分类结果是指第二目标句是否包括目标要素标签。其中,目标要素标签为案由对应的要素标签中的每一个。再将待训练司法文书中的第二目标句的文本特征以及该第二目标句是否包括目标要素标签分类结果作为训练数据。
其中,第二目标句是否包括目标要素标签的分类结果可以利用数字0和1进行标注,当第二目标句包括目标要素标签时,其分类结果为1,若第二目标句不包括目标要素标签,则分类结果为0。当然,在具体实现时,也可以采用其他方式来呈现分类结果,本实施例不进行限定。
可以理解的是,一个案由可以对应多个要素标签,则针对第二目标句,其对应有每个要素标签的分类结果,因此,需将第二目标句对应每个要素标签的分类结果作为一条训练数据去训练初始分类模型,以得到该要素标签对应的要素识别模型。
例如,案由对应的要素标签分别为要素标签A、要素标签B以及要素标签C,第二目标句1包括要素分类标签A,则对应要素标签A的分类结果为1,第二目标句1不包括要素标签B,则对应要素标签B的分类结果为0,第二目标句1包括要素标签C,则对应要素标签C的分类结果为1。第二目标句2包括要素分类标签A,则对应要素标签A的分类结果为1,第二目标句1包括要素标签B,则对应要素标签B的分类结果为1,第二目标句1不包括要素标签C,则对应要素标签C的分类结果为0。则将第二目标句1对应的三个不同要素标签的分类结果作为三条训练数据,以及第二目标句2对应的三个不同要素标签的分类结果作为三条训练数据训练每个要素标签的初始分类模型,以得到要素标签A对应的识别模型1、要素标签B对应的识别模型2以及要素标签C对应的识别模型3。
S204:根据训练数据对初始分类模型进行训练分别生成目标要素标签对应的识别模型,将各个要素标签对应的识别模型组成案由对应的要素识别模型。
本实施例中,可以将大量针对同一目标要素标签的第二目标句的文本特征以及该第二目标句是否包括目标要素标签的分类结果作为输入数据输入初始分类模型中,以得到目标要素标签对应的识别模型。
对于每个要素标签均进行上述训练,以获得同一案由下所有要素标签对应的识别模型,并将同一案由下的识别模型组成一个该案由对应的要素识别模型。也就是,一个案由对应的要素识别模型可以包括多个子识别模型,通过多个子识别模型获得待识别文书中各句是否包括某要素标签。
例如,案由共包括三个要素标签,分别为要素标签A、要素标签B以及要素标签C,通过训练,要素标签A对应的识别模型1、要素标签B对应的识别模型2以及要素标签C对应的识别模型3,将上述三个识别模型进行组合生成该案由对应的要素识别模型。
由上述实施例可以看出,本申请实施例获取待训练司法文书以及该待训练司法文书包括的案由,然后,对待训练司法文书进行分句处理,并提取每句的文本特征,并利用每句的文本特征以及该句是否包括目标要素标签的分类结果训练初始分类模型,以获得该目标要素标签对应的识别模型,在将同一案由对应的要素标签的识别模型组成该案由对应的要素识别模型。可见,本申请实施例在训练生成要素识别模型时,是以司法文书中句子为单位进行训练,在识别待识别司法文书中要素时,可以识别出待识别司法文书中任意句的要素,不再局限于整篇文书的要素。而且,生成的要素识别模型可以充分学习每句的文本特征,不再受固定语句以及不同语义表述的影响,可以直接应用于同一案由的其它司法文书要素的识别,提高要素识别的准确性以及识别效率。
图1和图2分别说明了两种生成要素识别模型的方法,从而可以生成识别要素的要素识别模型。下面将结合附图对利用要素识别模型对待识别司法文书中的各句进行要素识别。
参见图3,该图为本申请实施例提供的一种实现司法文书中要素识别的方法的流程图,该方法可以包括:
S301:获取待识别司法文书,对待识别司法文书进行分句处理并获取待识别司法文书中包括的案由。
本实施例中,利用已经训练生成的要素识别模型对待识别文书中每句进行识别。由于在训练要素识别模型,是针对同一案由生成对应的要素识别模型,因此,需要首先获取识别司法文书中包括的案由。而且,是以句子为单位训练生成要素识别模型,因此,也要对获取的待识别司法文书进行分句处理,以获得待识别司法文书中每句对应的要素标签。
S302:提取所述待识别司法文书中各句的文本特征。
可以理解的是,在训练生成要素识别模型时,是利用各句的文本特征训练生成的,因此为获取待识别司法文书中各句对应的要素标签,首先需提取各句的文本特征。其中,文本特征包括词向量、词性特征向量、依存句法特征向量以及文本主题词向量中的一种或多种。
在实际应用中,提取待识别司法文书中各句的文本特征的类型数量需要与训练生成要素识别模型时提取的类型数量相同。如果训练生成要素识别模型时,提取一种文本特征,则在识别待识别司法文书中各句的要素标签时,也只提取一种文本特征;如果训练生成要素识别模型时,提取多种文本特征,在利用要素识别模型时,也提取待识别司法文书中各句的多种文本特征,且提取的文本特征种类也与训练时提取的相同,从而保证可以利用训练生成的要素识别模型获得待识别司法文书中各句的要素标签。
S303:将待识别司法文书中第一目标句的文本特征输入预先训练生成的案由对应的要素识别模型,获得第一目标句对应的第一要素标签。
本实施例中,对于待识别司法文书中的任意句,将其作为第一目标句,并将该第一目标句的文本特征输入该待识别司法文书中所包括的案由对应的要素识别模型中,从而获得该第一目标句对应的第一要素标签。
另外,当针对案由对应的要素标签存在该要素正则表达式时,可以将第一目标句与预先建立的案由对应的要素正则表达式进行匹配,然后将与第一目标句匹配的要素正则表达式对应的要素标签确定为第一目标句对应的第二要素标签。
在实际应用中,当通过要素识别模型获得第一目标句的第一要素标签和通过要素正则表达式获得第一目标句的第二要素标签时,将两个要素标签取并集,获得第一目标句对应的要素标签。其中,第一要素标签与第二要素标签可以相同,也可以不同。当二者相同时,取其中一个要素标签作为该第一目标句对应的要素标签。如果二者不相同,则将两个要素标签均作为第一目标句的要素标签,也就是说,第一目标句对应多个要素标签。通过将要素正则表达式和要素识别模型结合使用,可以提高要素识别准确率。
需要说明的是,本实施例中案由对应的要素识别模型是根据训练数据对初始分类模型进行训练生成的,训练数据包括待训练司法文书中第二目标句的文本特征以及第二目标句对应的要素标签,待训练司法文书中包括案由,第二目标句为待训练司法文书中的任意句,初始分类模型为神经网络模型或者深度学习模型。
通过上述两个实施例可知,要素识别模型可以通过两种生成,当要素识别模型利用图1所述方法生成时,则S303可以包括,将待识别司法文书中第一目标句的文本特征输入案由对应的要素识别模型,将案由对应的要素识别模型输出的至少一个要素标签确定为该第一目标句对应的第一要素标签。
其中,第一要素标签可以包括一个要素标签,也可以包括多个要素标签。当第一目标句的文本特征输入案由对应的要素识别模型输出一个要素标签时,则将该要素标签作为该第一目标句的第一要素标签;当第一目标句的文本特输入案由对应的要素识别模型输入多个要素标签时,则将多个要素标签作为第一目标句的第一要素标签。
例如,第一目标句输入待识别司法文书中案由对应的要素识别模型,输出结果为要素标签A,则第一目标句对应的第一要素标签为A;当输出结果为要素标签A和要素标签C时,则第一目标句对应的第一要素标签为A+C。
当要素识别模型利用图2所述方法生成时,则S303可以包括,将待识别司法文书中第一目标句的文本特征输入目标要素标签对应的识别模型,获得第一目标句是否包括目标要素标签的分类结果,然后根据各个第一目标句是否包括目标要素标签的分类结果,确定第一目标句对应的第一要素标签。其中,目标要素标签为案由对应的要素标签中的每一个。
本实施例中,通过图2生成的要素识别模型包括多个子识别模型,每个子识别模型对应的一个目标要素标签,因此,当将第一目标句的文本特征输入每个目标要素标签对应的识别模型时,可以获得第一目标句是否包括该目标要素标签的分类结果,然后,在将每个分类结果进行组合,得到第一目标句对应的第一要素标签。
例如,第一目标句的文本特征输入要素标签A对应的识别模型,输出分类结果为1,表示第一目标句包括要素标签A;输入要素标签B对应的识别模型,输出结果为0,表示第一目标句不包括要素标签B;输入要素标签C对应的识别模型,输出结果为1,表示第一目标句包括要素标签C,则第一目标句对应的第一要素标签为A+C。
通过上述描述可知,本申请实施例将待识别司法文书中各句的文本特征输入该识别司法文书中案由对应的要素识别模型,可以获得各句对应的要素标签。由于本申请实施例在训练生成要素识别模型时,是以司法文书中句子为单位进行训练,在识别待识别司法文书中要素时,可以识别出待识别司法文书中任意句的要素,不再局限于整篇文书的要素。而且,生成的要素识别模型可以充分学习每句的文本特征,不再受固定语句以及不同语义表述的影响,可以直接应用于同一案由的其它司法文书要素的识别,提高要素识别的准确性以及识别效率。
基于上述方法,本申请实施例还提供了一种实现司法文书中要素识别的装置,下面将结合附图对该装置进行说明。
参见图4,该图为本申请实施例提供的一种实现司法文书中要素识别的装置结构图,该装置可以包括:
获取单元401,用于获取待识别司法文书,对所述待识别司法文书进行分句处理并获取所述待识别司法文书中包括的案由;
提取单元402,用于提取所述待识别司法文书中各句的文本特征,所述文本特征包括词向量、词性特征向量、依存句法特征向量以及文本主题词向量中的一种或多种;
识别单元403,用于将所述待识别司法文书中第一目标句的文本特征输入预先训练生成的所述案由对应的要素识别模型,获得所述第一目标句对应的第一要素标签,所述第一目标句为所述待识别司法文书中的任意句;所述案由对应的要素识别模型是根据训练数据对初始分类模型进行训练生成的,所述训练数据包括待训练司法文书中第二目标句的文本特征以及所述第二目标句对应的要素标签,所述待训练司法文书中包括所述案由,所述第二目标句为所述待训练司法文书中的任意句。
在一种可能的实现方式中,该装置还可以包括:
匹配单元,用于将所述第一目标句与预先建立的所述案由对应的要素正则表达式进行匹配;
确定单元,用于将与所述第一目标句匹配的要素正则表达式对应的要素标签确定为所述第一目标句对应的第二要素标签。
在一种可能的实现方式中,该装置还可以包括:
获得单元,用于将所述第一目标句对应的第一要素标签以及所述第一目标句对应的第二要素标签取并集,获得所述第一目标句对应的要素标签。
在一种可能的实现方式中,所述案由对应的要素识别模型的生成过程包括:
获取待训练司法文书,对所述待训练司法文书进行分句处理,所述待训练司法文书中包括所述案由;
提取所述待训练司法文书中各句的文本特征,所述文本特征包括词向量、词性特征向量、依存句法特征向量以及文本主题词向量中的一种或多种;
将所述待训练司法文书中第二目标句的文本特征以及所述第二目标句对应的至少一个要素标签作为训练数据;
根据所述训练数据对初始分类模型进行训练生成所述案由对应的要素识别模型。
在一种可能的实现方式中,所述案由对应的要素识别模型的生成过程包括:
获取待训练司法文书,对所述待训练司法文书进行分句处理,所述待训练司法文书中包括所述案由;
提取所述待训练司法文书中各句的文本特征,所述文本特征包括词向量、词性特征向量、依存句法特征向量以及文本主题词向量中的一种或多种;
将所述待训练司法文书中第二目标句的文本特征以及所述第二目标句是否包括目标要素标签的分类结果作为训练数据;所述目标要素标签分别为所述案由对应的要素标签中的每一个;
根据所述训练数据对初始分类模型进行训练分别生成所述目标要素标签对应的识别模型,将各个要素标签对应的识别模型组成所述案由对应的要素识别模型。
在一种可能的实现方式中,识别单元,具体用于将所述待识别司法文书中第一目标句的文本特征输入所述案由对应的要素识别模型,将所述案由对应的要素识别模型输出的至少一个要素标签确定为所述第一目标句对应的第一要素标签。
在一种可能的实现方式中,识别单元,具体用于所述将所述待识别司法文书中第一目标句的文本特征输入预先训练生成的所述案由对应的要素识别模型,获得所述第一目标句对应的第一要素标签,包括:
将所述待识别司法文书中第一目标句的文本特征输入所述目标要素标签对应的识别模型,获得所述第一目标句是否包括所述目标要素标签的分类结果;所述目标要素标签分别为所述案由对应的要素标签中的每一个;
根据各个第一目标句是否包括所述目标要素标签的分类结果,确定所述第一目标句对应的第一要素标签。
需要说明的是,本实施例中各单元的实现可以参见上述方法实施例的实现,本实施例在此不再赘述。
所述装置包括处理器和存储器,上述获取单元、提取单元、和识别单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高要素识别的准确性。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
通过上述可知,本申请实施例中预先利用待训练司法文书中的第二目标句的文本特征以及该第二目标句对应的要素标签训练初始分类模型以获取案由对应的要素识别模型。对于未携带有要素标签的待识别司法文书,可以先对该待识别司法文书进行分句处理,获得该待识别司法文书划的多个语句,同时获取该待识别司法文书包括的案由。再提取各句的文本特征,并将每句的文本特征输入预先训练生成的案由对应的要素识别模型,从而得到每句对应的第一要素标签。由于本申请实施例提供的识别方法,可以充分学习第二目标句的文本特征,不再受固定语句、复杂句式的限制,从而可以适用于语义复杂的司法文书。而且预先训练的要素识别模型是以句子为单位进行训练生成的,从而可以获得司法文书中每句对应的要素标签,提高要素识别的准确性。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述司法文书中要素识别方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述司法文书中要素识别方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
获取待识别司法文书,对所述待识别司法文书进行分句处理并获取所述待识别司法文书中包括的案由;
提取所述待识别司法文书中各句的文本特征,所述文本特征包括词向量、词性特征向量、依存句法特征向量以及文本主题词向量中的一种或多种;
将所述待识别司法文书中第一目标句的文本特征输入预先训练生成的所述案由对应的要素识别模型,获得所述第一目标句对应的第一要素标签,所述第一目标句为所述待识别司法文书中的任意句;
所述案由对应的要素识别模型是根据训练数据对初始分类模型进行训练生成的,所述训练数据包括待训练司法文书中第二目标句的文本特征以及所述第二目标句对应的要素标签,所述待训练司法文书中包括所述案由,所述第二目标句为所述待训练司法文书中的任意句。
在一种可能实现方式中,将所述第一目标句与预先建立的所述案由对应的要素正则表达式进行匹配;
将与所述第一目标句匹配的要素正则表达式对应的要素标签确定为所述第一目标句对应的第二要素标签。
在一种可能实现方式中,所述方法还包括:
将所述第一目标句对应的第一要素标签以及所述第一目标句对应的第二要素标签取并集,获得所述第一目标句对应的要素标签。
在一种可能实现方式中,所述案由对应的要素识别模型的生成过程包括:
获取待训练司法文书,对所述待训练司法文书进行分句处理,所述待训练司法文书中包括所述案由;
提取所述待训练司法文书中各句的文本特征,所述文本特征包括词向量、词性特征向量、依存句法特征向量以及文本主题词向量中的一种或多种;
将所述待训练司法文书中第二目标句的文本特征以及所述第二目标句对应的至少一个要素标签作为训练数据;
根据所述训练数据对初始分类模型进行训练生成所述案由对应的要素识别模型。
在一种可能实现方式中,所述案由对应的要素识别模型的生成过程包括:
获取待训练司法文书,对所述待训练司法文书进行分句处理,所述待训练司法文书中包括所述案由;
提取所述待训练司法文书中各句的文本特征,所述文本特征包括词向量、词性特征向量、依存句法特征向量以及文本主题词向量中的一种或多种;
将所述待训练司法文书中第二目标句的文本特征以及所述第二目标句是否包括目标要素标签的分类结果作为训练数据;所述目标要素标签分别为所述案由对应的要素标签中的每一个;
根据所述训练数据对初始分类模型进行训练分别生成所述目标要素标签对应的识别模型,将各个要素标签对应的识别模型组成所述案由对应的要素识别模型。
在一种可能实现方式中,所述将所述待识别司法文书中第一目标句的文本特征输入预先训练生成的所述案由对应的要素识别模型,获得所述第一目标句对应的第一要素标签,包括:
将所述待识别司法文书中第一目标句的文本特征输入所述案由对应的要素识别模型,将所述案由对应的要素识别模型输出的至少一个要素标签确定为所述第一目标句对应的第一要素标签。
在一种可能实现方式中,所述将所述待识别司法文书中第一目标句的文本特征输入预先训练生成的所述案由对应的要素识别模型,获得所述第一目标句对应的第一要素标签,包括:
将所述待识别司法文书中第一目标句的文本特征输入所述案由对应的要素识别模型,将所述案由对应的要素识别模型输出的至少一个要素标签确定为所述第一目标句对应的第一要素标签。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
获取待识别司法文书,对所述待识别司法文书进行分句处理并获取所述待识别司法文书中包括的案由;
提取所述待识别司法文书中各句的文本特征,所述文本特征包括词向量、词性特征向量、依存句法特征向量以及文本主题词向量中的一种或多种;
将所述待识别司法文书中第一目标句的文本特征输入预先训练生成的所述案由对应的要素识别模型,获得所述第一目标句对应的第一要素标签,所述第一目标句为所述待识别司法文书中的任意句;
所述案由对应的要素识别模型是根据训练数据对初始分类模型进行训练生成的,所述训练数据包括待训练司法文书中第二目标句的文本特征以及所述第二目标句对应的要素标签,所述待训练司法文书中包括所述案由,所述第二目标句为所述待训练司法文书中的任意句。
在一种可能实现方式中,将所述第一目标句与预先建立的所述案由对应的要素正则表达式进行匹配;
将与所述第一目标句匹配的要素正则表达式对应的要素标签确定为所述第一目标句对应的第二要素标签。
在一种可能实现方式中,所述方法还包括:
将所述第一目标句对应的第一要素标签以及所述第一目标句对应的第二要素标签取并集,获得所述第一目标句对应的要素标签。
在一种可能实现方式中,所述案由对应的要素识别模型的生成过程包括:
获取待训练司法文书,对所述待训练司法文书进行分句处理,所述待训练司法文书中包括所述案由;
提取所述待训练司法文书中各句的文本特征,所述文本特征包括词向量、词性特征向量、依存句法特征向量以及文本主题词向量中的一种或多种;
将所述待训练司法文书中第二目标句的文本特征以及所述第二目标句对应的至少一个要素标签作为训练数据;
根据所述训练数据对初始分类模型进行训练生成所述案由对应的要素识别模型。
在一种可能实现方式中,所述案由对应的要素识别模型的生成过程包括:
获取待训练司法文书,对所述待训练司法文书进行分句处理,所述待训练司法文书中包括所述案由;
提取所述待训练司法文书中各句的文本特征,所述文本特征包括词向量、词性特征向量、依存句法特征向量以及文本主题词向量中的一种或多种;
将所述待训练司法文书中第二目标句的文本特征以及所述第二目标句是否包括目标要素标签的分类结果作为训练数据;所述目标要素标签分别为所述案由对应的要素标签中的每一个;
根据所述训练数据对初始分类模型进行训练分别生成所述目标要素标签对应的识别模型,将各个要素标签对应的识别模型组成所述案由对应的要素识别模型。
在一种可能实现方式中,所述将所述待识别司法文书中第一目标句的文本特征输入预先训练生成的所述案由对应的要素识别模型,获得所述第一目标句对应的第一要素标签,包括:
将所述待识别司法文书中第一目标句的文本特征输入所述案由对应的要素识别模型,将所述案由对应的要素识别模型输出的至少一个要素标签确定为所述第一目标句对应的第一要素标签。
在一种可能实现方式中,所述将所述待识别司法文书中第一目标句的文本特征输入预先训练生成的所述案由对应的要素识别模型,获得所述第一目标句对应的第一要素标签,包括:
将所述待识别司法文书中第一目标句的文本特征输入所述案由对应的要素识别模型,将所述案由对应的要素识别模型输出的至少一个要素标签确定为所述第一目标句对应的第一要素标签。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种实现司法文书中要素识别的方法,其特征在于,所述方法包括:
获取待识别司法文书,对所述待识别司法文书进行分句处理并获取所述待识别司法文书中包括的案由;
提取所述待识别司法文书中各句的文本特征,所述文本特征包括词向量、词性特征向量、依存句法特征向量以及文本主题词向量中的一种或多种;
将所述待识别司法文书中第一目标句的文本特征输入预先训练生成的所述案由对应的要素识别模型,获得所述第一目标句对应的第一要素标签,所述第一目标句为所述待识别司法文书中的任意句;
所述案由对应的要素识别模型是根据训练数据对初始分类模型进行训练生成的,所述训练数据包括待训练司法文书中第二目标句的文本特征以及所述第二目标句对应的要素标签,所述待训练司法文书中包括所述案由,所述第二目标句为所述待训练司法文书中的任意句。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述第一目标句与预先建立的所述案由对应的要素正则表达式进行匹配;
将与所述第一目标句匹配的要素正则表达式对应的要素标签确定为所述第一目标句对应的第二要素标签。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
将所述第一目标句对应的第一要素标签以及所述第一目标句对应的第二要素标签取并集,获得所述第一目标句对应的要素标签。
4.根据权利要求1所述的方法,其特征在于,所述案由对应的要素识别模型的生成过程包括:
获取待训练司法文书,对所述待训练司法文书进行分句处理,所述待训练司法文书中包括所述案由;
提取所述待训练司法文书中各句的文本特征,所述文本特征包括词向量、词性特征向量、依存句法特征向量以及文本主题词向量中的一种或多种;
将所述待训练司法文书中第二目标句的文本特征以及所述第二目标句对应的至少一个要素标签作为训练数据;
根据所述训练数据对初始分类模型进行训练生成所述案由对应的要素识别模型。
5.根据权利要求1所述的方法,其特征在于,所述案由对应的要素识别模型的生成过程包括:
获取待训练司法文书,对所述待训练司法文书进行分句处理,所述待训练司法文书中包括所述案由;
提取所述待训练司法文书中各句的文本特征,所述文本特征包括词向量、词性特征向量、依存句法特征向量以及文本主题词向量中的一种或多种;
将所述待训练司法文书中第二目标句的文本特征以及所述第二目标句是否包括目标要素标签的分类结果作为训练数据;所述目标要素标签分别为所述案由对应的要素标签中的每一个;
根据所述训练数据对初始分类模型进行训练分别生成所述目标要素标签对应的识别模型,将各个要素标签对应的识别模型组成所述案由对应的要素识别模型。
6.根据权利要求4所述的方法,其特征在于,所述将所述待识别司法文书中第一目标句的文本特征输入预先训练生成的所述案由对应的要素识别模型,获得所述第一目标句对应的第一要素标签,包括:
将所述待识别司法文书中第一目标句的文本特征输入所述案由对应的要素识别模型,将所述案由对应的要素识别模型输出的至少一个要素标签确定为所述第一目标句对应的第一要素标签。
7.根据权利要求5所述的方法,其特征在于,所述将所述待识别司法文书中第一目标句的文本特征输入预先训练生成的所述案由对应的要素识别模型,获得所述第一目标句对应的第一要素标签,包括:
将所述待识别司法文书中第一目标句的文本特征输入所述目标要素标签对应的识别模型,获得所述第一目标句是否包括所述目标要素标签的分类结果;所述目标要素标签分别为所述案由对应的要素标签中的每一个;
根据各个第一目标句是否包括所述目标要素标签的分类结果,确定所述第一目标句对应的第一要素标签。
8.一种实现司法文书中要素识别的装置,其特征在于,所述装置包括:
获取单元,用于获取待识别司法文书,对所述待识别司法文书进行分句处理并获取所述待识别司法文书中包括的案由;
提取单元,用于提取所述待识别司法文书中各句的文本特征,所述文本特征包括词向量、词性特征向量、依存句法特征向量以及文本主题词向量中的一种或多种;
识别单元,用于将所述待识别司法文书中第一目标句的文本特征输入预先训练生成的所述案由对应的要素识别模型,获得所述第一目标句对应的第一要素标签,所述第一目标句为所述待识别司法文书中的任意句;所述案由对应的要素识别模型是根据训练数据对初始分类模型进行训练生成的,所述训练数据包括待训练司法文书中第二目标句的文本特征以及所述第二目标句对应的要素标签,所述待训练司法文书中包括所述案由,所述第二目标句为所述待训练司法文书中的任意句。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至7中任意一项所述的实现司法文书中要素识别的方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的实现司法文书中要素识别的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811497428.6A CN111291570B (zh) | 2018-12-07 | 2018-12-07 | 一种实现司法文书中要素识别的方法及装置 |
PCT/CN2019/122579 WO2020114373A1 (zh) | 2018-12-07 | 2019-12-03 | 一种实现司法文书中要素识别的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811497428.6A CN111291570B (zh) | 2018-12-07 | 2018-12-07 | 一种实现司法文书中要素识别的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111291570A true CN111291570A (zh) | 2020-06-16 |
CN111291570B CN111291570B (zh) | 2022-07-05 |
Family
ID=70974468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811497428.6A Active CN111291570B (zh) | 2018-12-07 | 2018-12-07 | 一种实现司法文书中要素识别的方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111291570B (zh) |
WO (1) | WO2020114373A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967437A (zh) * | 2020-09-03 | 2020-11-20 | 平安国际智慧城市科技股份有限公司 | 文本识别方法、装置、设备及存储介质 |
CN112699643A (zh) * | 2020-12-23 | 2021-04-23 | 车智互联(北京)科技有限公司 | 一种生成语言模型的方法和文章自动生成方法 |
CN113673243A (zh) * | 2021-08-23 | 2021-11-19 | 上海浦东华宇信息技术有限公司 | 文本类型识别方法及装置 |
CN116610770A (zh) * | 2023-04-26 | 2023-08-18 | 重庆邮电大学 | 一种基于大数据的司法领域类案推送方法 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753538B (zh) * | 2020-06-12 | 2024-06-14 | 鼎富智能科技有限公司 | 离婚纠纷裁判文书要素提取方法及装置 |
CN111858834B (zh) * | 2020-07-30 | 2023-12-01 | 平安国际智慧城市科技股份有限公司 | 基于ai的案件争议焦点确定方法、装置、设备及介质 |
CN111858682A (zh) * | 2020-08-04 | 2020-10-30 | 西安交通大学 | 一种基于深度学习的裁判文书逻辑评估方法及*** |
CN112001159A (zh) * | 2020-08-24 | 2020-11-27 | 平安国际智慧城市科技股份有限公司 | 文书生成方法、装置、电子设备及存储介质 |
CN112541075B (zh) * | 2020-10-30 | 2024-04-05 | 中科曙光南京研究院有限公司 | 一种警情文本的标准案发时间提取方法及*** |
CN112417880B (zh) * | 2020-11-30 | 2023-06-23 | 太极计算机股份有限公司 | 一种面向法院电子卷宗的案情信息自动抽取方法 |
CN112507079B (zh) * | 2020-12-15 | 2023-01-17 | 科大讯飞股份有限公司 | 文书间案情匹配方法、装置、设备及存储介质 |
CN112560481B (zh) * | 2020-12-25 | 2024-05-31 | 北京百度网讯科技有限公司 | 语句处理方法、设备和存储介质 |
CN112950414B (zh) * | 2021-02-25 | 2023-04-18 | 华东师范大学 | 一种基于解耦法律要素的法律文本表示方法 |
CN113033216B (zh) * | 2021-03-03 | 2024-05-28 | 东软集团股份有限公司 | 文本预处理方法、装置、存储介质及电子设备 |
CN117577348B (zh) * | 2024-01-15 | 2024-03-29 | 中国医学科学院医学信息研究所 | 一种循证医学证据的识别方法及相关装置 |
CN118212078A (zh) * | 2024-05-22 | 2024-06-18 | 杭州律途科技有限公司 | 基于文本要素分析提取模型的医保数据分级方法及*** |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140279583A1 (en) * | 2013-03-14 | 2014-09-18 | Lex Machina, Inc. | Systems and Methods for Classifying Entities |
CN106815198A (zh) * | 2015-11-27 | 2017-06-09 | 北京国双科技有限公司 | 模型训练方法及装置和语句业务类型的识别方法及装置 |
CN106815194A (zh) * | 2015-11-27 | 2017-06-09 | 北京国双科技有限公司 | 模型训练方法及装置和关键词识别方法及装置 |
CN106815192A (zh) * | 2015-11-27 | 2017-06-09 | 北京国双科技有限公司 | 模型训练方法及装置和语句情感识别方法及装置 |
CN107122451A (zh) * | 2017-04-26 | 2017-09-01 | 北京科技大学 | 一种法律文书案由分类器的自动构建方法 |
CN107784041A (zh) * | 2016-08-31 | 2018-03-09 | 北京国双科技有限公司 | 裁判文书案由的获取方法和装置 |
CN107818077A (zh) * | 2016-09-13 | 2018-03-20 | 北京金山云网络技术有限公司 | 一种敏感内容识别方法及装置 |
CN108009299A (zh) * | 2017-12-28 | 2018-05-08 | 北京市律典通科技有限公司 | 法律审判业务处理方法和装置 |
CN108021545A (zh) * | 2016-11-03 | 2018-05-11 | 北京国双科技有限公司 | 一种司法文书的案由提取方法及装置 |
CN108038091A (zh) * | 2017-10-30 | 2018-05-15 | 上海思贤信息技术股份有限公司 | 一种基于图的裁判文书案件相似计算与检索方法及*** |
CN108073569A (zh) * | 2017-06-21 | 2018-05-25 | 北京华宇元典信息服务有限公司 | 一种基于多层级多维度语义理解的法律认知方法、装置和介质 |
CN108153726A (zh) * | 2016-12-05 | 2018-06-12 | 北京国双科技有限公司 | 文本处理方法和装置 |
CN108197163A (zh) * | 2017-12-14 | 2018-06-22 | 上海银江智慧智能化技术有限公司 | 一种基于裁判文书的结构化处理方法 |
CN108334500A (zh) * | 2018-03-05 | 2018-07-27 | 上海思贤信息技术股份有限公司 | 一种基于机器学习算法的裁判文书标注方法及装置 |
CN109190144A (zh) * | 2018-07-12 | 2019-01-11 | 哈尔滨工程大学 | 一种任意形状放射源辐射屏蔽计算仿真方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104298665A (zh) * | 2014-10-16 | 2015-01-21 | 苏州大学 | 一种中文文本中评价对象的识别方法及装置 |
CN106156204B (zh) * | 2015-04-23 | 2020-05-29 | 深圳市腾讯计算机***有限公司 | 文本标签的提取方法和装置 |
-
2018
- 2018-12-07 CN CN201811497428.6A patent/CN111291570B/zh active Active
-
2019
- 2019-12-03 WO PCT/CN2019/122579 patent/WO2020114373A1/zh active Application Filing
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140279583A1 (en) * | 2013-03-14 | 2014-09-18 | Lex Machina, Inc. | Systems and Methods for Classifying Entities |
CN106815198A (zh) * | 2015-11-27 | 2017-06-09 | 北京国双科技有限公司 | 模型训练方法及装置和语句业务类型的识别方法及装置 |
CN106815194A (zh) * | 2015-11-27 | 2017-06-09 | 北京国双科技有限公司 | 模型训练方法及装置和关键词识别方法及装置 |
CN106815192A (zh) * | 2015-11-27 | 2017-06-09 | 北京国双科技有限公司 | 模型训练方法及装置和语句情感识别方法及装置 |
CN107784041A (zh) * | 2016-08-31 | 2018-03-09 | 北京国双科技有限公司 | 裁判文书案由的获取方法和装置 |
CN107818077A (zh) * | 2016-09-13 | 2018-03-20 | 北京金山云网络技术有限公司 | 一种敏感内容识别方法及装置 |
CN108021545A (zh) * | 2016-11-03 | 2018-05-11 | 北京国双科技有限公司 | 一种司法文书的案由提取方法及装置 |
CN108153726A (zh) * | 2016-12-05 | 2018-06-12 | 北京国双科技有限公司 | 文本处理方法和装置 |
CN107122451A (zh) * | 2017-04-26 | 2017-09-01 | 北京科技大学 | 一种法律文书案由分类器的自动构建方法 |
CN108073569A (zh) * | 2017-06-21 | 2018-05-25 | 北京华宇元典信息服务有限公司 | 一种基于多层级多维度语义理解的法律认知方法、装置和介质 |
CN108038091A (zh) * | 2017-10-30 | 2018-05-15 | 上海思贤信息技术股份有限公司 | 一种基于图的裁判文书案件相似计算与检索方法及*** |
CN108197163A (zh) * | 2017-12-14 | 2018-06-22 | 上海银江智慧智能化技术有限公司 | 一种基于裁判文书的结构化处理方法 |
CN108009299A (zh) * | 2017-12-28 | 2018-05-08 | 北京市律典通科技有限公司 | 法律审判业务处理方法和装置 |
CN108334500A (zh) * | 2018-03-05 | 2018-07-27 | 上海思贤信息技术股份有限公司 | 一种基于机器学习算法的裁判文书标注方法及装置 |
CN109190144A (zh) * | 2018-07-12 | 2019-01-11 | 哈尔滨工程大学 | 一种任意形状放射源辐射屏蔽计算仿真方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967437A (zh) * | 2020-09-03 | 2020-11-20 | 平安国际智慧城市科技股份有限公司 | 文本识别方法、装置、设备及存储介质 |
CN112699643A (zh) * | 2020-12-23 | 2021-04-23 | 车智互联(北京)科技有限公司 | 一种生成语言模型的方法和文章自动生成方法 |
CN112699643B (zh) * | 2020-12-23 | 2024-04-19 | 车智互联(北京)科技有限公司 | 一种生成语言模型的方法和文章自动生成方法 |
CN113673243A (zh) * | 2021-08-23 | 2021-11-19 | 上海浦东华宇信息技术有限公司 | 文本类型识别方法及装置 |
CN113673243B (zh) * | 2021-08-23 | 2022-04-22 | 上海浦东华宇信息技术有限公司 | 文本类型识别方法及装置 |
CN116610770A (zh) * | 2023-04-26 | 2023-08-18 | 重庆邮电大学 | 一种基于大数据的司法领域类案推送方法 |
CN116610770B (zh) * | 2023-04-26 | 2024-02-27 | 火眼金睛数据服务(雄安)有限公司 | 一种基于大数据的司法领域类案推送方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2020114373A1 (zh) | 2020-06-11 |
CN111291570B (zh) | 2022-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291570B (zh) | 一种实现司法文书中要素识别的方法及装置 | |
CN110781276B (zh) | 文本抽取方法、装置、设备及存储介质 | |
CN110209764B (zh) | 语料标注集的生成方法及装置、电子设备、存储介质 | |
CN109992664B (zh) | 争议焦点的标注分类方法、装置、计算机设备和存储介质 | |
CN104503998B (zh) | 针对用户查询句的类型识别方法及装置 | |
AlQahtani | Product sentiment analysis for amazon reviews | |
US20200160196A1 (en) | Methods and systems for detecting check worthy claims for fact checking | |
CN112632226B (zh) | 基于法律知识图谱的语义搜索方法、装置和电子设备 | |
CN112380848B (zh) | 文本生成方法、装置、设备及存储介质 | |
CN117501283A (zh) | 文本到问答模型*** | |
CN114417785A (zh) | 知识点标注方法、模型的训练方法、计算机设备及存储介质 | |
CN111382243A (zh) | 文本的类别匹配方法、类别匹配装置及终端 | |
CN117278675A (zh) | 一种基于意图分类的外呼方法、装置、设备及介质 | |
US20210117448A1 (en) | Iterative sampling based dataset clustering | |
Kavitha et al. | A review on machine learning techniques for text classification | |
Baniata et al. | Sentence representation network for Arabic sentiment analysis | |
Nongmeikapam et al. | Verb based manipuri sentiment analysis | |
CN110717029A (zh) | 一种信息处理方法和*** | |
CN110287396A (zh) | 文本匹配方法及装置 | |
CN115964484A (zh) | 基于多标签分类模型实现的法律多意图识别方法和装置 | |
Oswal | Identifying and categorizing offensive language in social media | |
CN113934849A (zh) | 一种文本聚类方法、装置、电子设备及存储介质 | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 | |
CN114254622A (zh) | 一种意图识别方法和装置 | |
He | Recent works for sentiment analysis using machine learning and lexicon based approaches |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |