CN111047092A - 纠纷案件胜率预测方法、装置、计算机设备及存储介质 - Google Patents
纠纷案件胜率预测方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN111047092A CN111047092A CN201911267505.3A CN201911267505A CN111047092A CN 111047092 A CN111047092 A CN 111047092A CN 201911267505 A CN201911267505 A CN 201911267505A CN 111047092 A CN111047092 A CN 111047092A
- Authority
- CN
- China
- Prior art keywords
- case
- document
- training
- dispute
- key elements
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 149
- 238000013145 classification model Methods 0.000 claims abstract description 73
- 239000013598 vector Substances 0.000 claims abstract description 59
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 238000012360 testing method Methods 0.000 claims description 104
- 238000013527 convolutional neural network Methods 0.000 claims description 84
- 238000001914 filtration Methods 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 31
- 238000004590 computer program Methods 0.000 claims description 22
- 230000011218 segmentation Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 12
- 238000007477 logistic regression Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 206010000210 abortion Diseases 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012954 risk control Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 229910052956 cinnabar Inorganic materials 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000001294 propane Substances 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Technology Law (AREA)
- Biomedical Technology (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Primary Health Care (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及纠纷案件胜率预测方法、装置、计算机设备及存储介质,该方法包括获取需要预测的纠纷案件;对需要预测的纠纷案件进行关键要素提取,以得到案件关键要素;将案件关键要素进行词向量化后输入胜率预测模型内进行胜率预测,以得到胜率估测值;发送胜率估测值至终端,以在终端进行显示;胜率预测模型是通过带有胜诉和败诉类别标签的关键要素进行词向量后作为样本集训练分类模型所得的。本发明通过对需要预测的纠纷案件进行关键要素提取,对纠纷案件进行特征提取,根据文书的格式规范与否进行正则表达式匹配要素或实体识别模型提取要素,将案件关键要素输入到胜率预测模型内进行对应的胜率预测,以实现增大纠纷案件胜率预测的准确率以及效率。
Description
技术领域
本发明涉及计算机,更具体地说是指纠纷案件胜率预测方法、装置、计算机设备及存储介质。
背景技术
对于金融公司来说,金融纠纷是经常涉及到的事情,金融纠纷是指金融机构与公民、法人和其他组织之间,金融机构之间所发生的因货币融通而引起的纠纷。为了减少由于金融纠纷引起的司法损失,金融公司往往需要花费大量的人力物力对现有案件进行金融借贷纠纷关键要素的提取,再根据个人经验以及关键要素进行胜率的预测,这种方式预测出来的结果准确率不高,且效率较低。
因此,有必要设计一种方法,实现增大纠纷案件胜率预测的准确率以及效率。
发明内容
本发明的目的在于克服现有技术的缺陷,提供纠纷案件胜率预测方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:纠纷案件胜率预测方法,包括:
获取需要预测的纠纷案件;
对需要预测的纠纷案件进行关键要素提取,以得到案件关键要素;
将案件关键要素进行词向量化后输入胜率预测模型内进行胜率预测,以得到胜率估测值;
发送所述胜率估测值至终端,以在终端进行显示;
其中,所述胜率预测模型是通过带有胜诉和败诉类别标签的关键要素进行词向量后作为样本集训练分类模型所得的。
其进一步技术方案为:所述对需要预测的纠纷案件进行关键要素提取,以得到案件关键要素,包括:
根据需要预测的纠纷案件获取相关的法律文书,以得到文书主体;
对文书主体进行特征工程提取,以得到目标文书;
判断所述目标文书是否是格式规范的文书;
若所述目标文书是格式规范的文书,则通过正则表达式对目标文书进行匹配,以得到案件关键要素;
若所述目标文书不是格式规范的文书,则将目标文书进行预处理,以得到词语向量;
将词语向量输入实体识别模型进行要素分类,以得到关键要素类别;
根据关键要素类别以及目标文书提取案件关键要素;
其中,所述实体识别模型是通过若干带有关键要素分类标签的文本数据经过词向量化后得到的向量训练卷积神经网络所得的。
其进一步技术方案为:所述根据需要预测的纠纷案件获取相关的法律文书,以得到文书主体,包括:
根据需要预测的纠纷案件获取民事案件;
对所述民事案件进行内容过滤,以得到初步文书;
对初步文书通过案件号进行一审案件和二审案件的合并,以得到文书主体。
其进一步技术方案为:所述对文书主体进行特征工程提取,以得到目标文书,包括:
对所述文书主体内的停用词以及标点符号进行过滤,以得到过滤结果;
对所述过滤结果进行文书内容长度不符合要求的文书内容舍弃,以得到中间文书;
对所述中间文书进行分词处理和词性标注,以得到目标文书。
其进一步技术方案为:所述实体识别模型是通过若干带有关键要素分类标签的文本数据经过词向量化后得到的向量训练卷积神经网络所得的,包括:
构建卷积神经网络以及第一损失函数;
获取若干带有关键要素分类标签的文本数据,并对所述文本数据进行词向量化,以得到带有关键要素分类标签的向量,对带有关键要素分类标签的向量划分为第一训练集以及第一测试集;
将所述第一训练集输入所述卷积神经网络内进行卷积训练,以得到第一训练结果;
采用第一损失函数计算第一训练结果与关键要素分类标签的差距,以得到第一损失值;
判断所述第一损失值是否维持不变;
若所述第一损失值不是维持不变,则调整卷积神经网络的参数,并执行所述将第一训练集输入至卷积神经网络进行卷积训练,以得到第一训练结果;
若所述第一损失值维持不变,则将第一测试集输入卷积神经网络内进行要素分类,以得到第一测试结果;
判断所述第一测试结果是否符合要求;
若所述第一测试结果不符合要求,则执行所述调整卷积神经网络的参数;
若所述第一测试结果符合要求,则将所述卷积神经网络作为实体识别模型。
其进一步技术方案为:所述卷积神经网络通过随机梯度下降算法进行优化。
其进一步技术方案为:所述胜率预测模型是通过带有胜诉和败诉类别标签的关键要素进行词向量后作为样本集训练分类模型所得的,包括:
构建分类模型以及第二损失函数;
获取带有胜诉和败诉类别标签的关键要素,并对所述关键要素进行词向量化,以得到带有胜诉和败诉类别标签的向量,形成样本集,对样本集划分为第二训练集以及第二测试集;
将所述第二训练集输入所述分类模型内进行分类训练,以得到第二训练结果;
采用第二损失函数计算第二训练结果与胜诉和败诉类别标签的差距,以得到第二损失值;
判断所述第二损失值是否维持不变;
若所述第二损失值不是维持不变,则调整分类模型的参数,并执行所述将所述第二训练集输入所述分类模型内进行分类训练,以得到第二训练结果;
若所述第二损失值维持不变,则将第二测试集输入分类模型内进行胜率预测,以得到第二测试结果;
判断所述第二测试结果是否符合要求;
若所述第二测试结果不符合要求,则执行所述调整分类模型的参数;
若所述第二测试结果符合要求,则将所述分类模型作为胜率预测模型;
其中,所述分类模型包括逻辑回归模型或者卷积神经网络模型。
本发明还提供了纠纷案件胜率预测装置,包括:
案件获取单元,用于获取需要预测的纠纷案件;
提取单元,用于对需要预测的纠纷案件进行关键要素提取,以得到案件关键要素;
预测单元,用于将案件关键要素进行词向量化后输入胜率预测模型内进行胜率预测,以得到胜率估测值;
发送单元,用于发送所述胜率估测值至终端,以在终端进行显示。
本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述的方法。
本发明与现有技术相比的有益效果是:本发明通过对需要预测的纠纷案件进行关键要素提取,先对纠纷案件进行特征提取,再根据文书的格式规范与否进行正则表达式匹配要素或实体识别模型提取要素,再将提取的案件关键要素输入到胜率预测模型内进行对应的胜率预测,以实现增大纠纷案件胜率预测的准确率以及效率。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的纠纷案件胜率预测方法的应用场景示意图;
图2为本发明实施例提供的纠纷案件胜率预测方法的流程示意图;
图3为本发明实施例提供的纠纷案件胜率预测装置的示意性框图;
图4为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的纠纷案件胜率预测方法的应用场景示意图。图2为本发明实施例提供的纠纷案件胜率预测方法的示意性流程图。该纠纷案件胜率预测方法应用于服务器中。该服务器与终端进行数据交互,从终端获取到需要预测的纠纷案件后,进行关键要素的提取后,在进行胜率的预测,并将预测的结果输出至终端进行显示。
图2是本发明实施例提供的纠纷案件胜率预测方法的流程示意图。如图2所示,该方法包括以下步骤S110至S140。
S110、获取需要预测的纠纷案件。
在本实施例中,该纠纷案件是指由终端输入的金融借贷纠纷的案件信息,一般为简要的案件信息,包括涉及者以及事件相关信息等。
纠纷案件主要为金融借贷纠纷案件。
S120、对需要预测的纠纷案件进行关键要素提取,以得到案件关键要素。
在本实施例中,案件关键要素是指该纠纷案件关键的内容,比如1.借款主体;2.贷款主体;3.借款期限;4.还款时间;5.逾期时间;6.借款金额;7.合同及是否有效;8.有无可执行财产;9.借款人年龄;10.借款用途;11.银行流水;12.借款利息;13.还款记录等。
在一实施例中,上述的步骤S120可包括步骤S121~S127。
S121、根据需要预测的纠纷案件获取相关的法律文书,以得到文书主体。
在本实施例中,在本实施例中,文书主体是经过内容过滤,且将该法律文书内的一审案件和二审案件的合并后所形成的法律文书。
在一实施例中,上述的步骤S121可包括步骤S1211~S1213。
S1211、根据需要预测的纠纷案件获取民事案件。
在本实施例中,民事案件是指从裁判文书网中根据金融纠纷案件获取到的对应的案件;可能是一个,也可能是多个,因此,需要进行再一次过滤。
S1212、对所述民事案件进行内容过滤,以得到初步文书。
在本实施例中,初步文书是指经过初步过滤比如关键词过滤后形成的对应的金融借贷相关的民事案件。
具体地,通过包括但不限于“金融”、“借贷”、借款”等关键字对民事案件的主要内容进行过滤,得到初步文书,从而提高实体识别的准确率。
S1213、对初步文书通过案件号进行一审案件和二审案件的合并,以得到文书主体。
在本实施例中,上述的文书主体是指将一审案件的相关信息和二审案件的相关信息进行合并后所形成的法律文书。
所述初步文书通过自身的案件号将不服重新提起上诉的相关案件和该初步文书相关的一审案件进行合并,所述合并过程是提取该初步文书相关的二审的判决结果,对于驳回上诉的保留一审文书,舍弃再审文书,其余以二审结果为最终结果,两次审判的文书主体合并成最终文书主体,确保文书的准确性和完整性,以增大实体识别的准确率,也就是增大要素提取的准确率。
S122、对文书主体进行特征工程提取,以得到目标文书。
在本实施例中,目标文书是指筛选符合要求的内容,且针对这些内容进行分词处理处理和词性标注后所形成的法律文书。
在一实施例中,上述的步骤S122可包括步骤S1221~S1223。
S1221、对所述文书主体内的停用词以及标点符号进行过滤,以得到过滤结果。
在本实施例中,过滤结果是指已过滤文书主体内的停用词和标点符号后的文书。
具体地,根据预设的停用词库对文书主体进行词语判断,一旦出现一样的词语,则进行过滤,以完成文书主体的停用词过滤。
而标点符号是通过string.punctuation过滤,减少对分词处理和词性标注的干扰,且可减少后续分词处理和词性标注的工作量。
S1222、对所述过滤结果进行文书内容长度不符合要求的文书内容舍弃,以得到中间文书。
在本实施例中,所述中间文书是指字符长度大于预设值得内容,比如词语的字符长度,比如字符长度低于某个阈值比如150个字,对于长度不符合要求的文书内容进行过滤舍弃,以确保该文书内容剩下的均是可以进行分词处理的内容,减少后续的工作量,以提高识别效率。
S1223、对所述中间文书进行分词处理和词性标注,以得到目标文书。
具体地,可以采用不局限于LSTM、CRF、HMM等方法进行分词处理,并采用不局限于NLP等方式进行词性标注。
S123、判断所述目标文书是否是格式规范的文书。
在本实施例中,法律文书是具有一定的格式规范的,包括标题的布置和顺序等各项内容的格式均是由同一标准进行规范的,因此,可以根据该标准判定该目标文书是否是格式规范的文书。
S124、若所述目标文书是格式规范的文书,则通过正则表达式对目标文书进行匹配,以得到案件关键要素。
具体地,当目标文书是格式规范的文书,则可以采用统一的正则表达式进行匹配,比如原告.*?公司|被告\s*[\u4e00-\u9fa5]{1,3}|于.*?借款|金额.*?钱|逾期,进而直接匹配得到关键要素。
S125、若所述目标文书不是格式规范的文书,则将目标文书进行预处理,以得到词语向量。
在本实施例中,词语向量是指目标文书内的分词进行词向量化后所得到的对应的向量。
具体地,对目标文书进行词向量化,以得到词语向量。词向量化可以采用不局限于tf-idf、one-hot、word2vec等进行词向量化。
分词、词性标注以及词向量化可以更好地分析到目标文书内所进行词性标注的词语对应的内容,比如哪些词语对应的是关键要素的借款主体等。
S126、将词语向量输入实体识别模型进行要素分类,以得到关键要素类别。
在本实施例中,关键要素类别是指词语向量对应的属于哪一类的关键要素,比如是属于借款主体的类别还是属于贷款主体的类别等。
其中,所述实体识别模型是通过若干带有关键要素分类标签的文本数据经过词向量化后得到的向量训练卷积神经网络所得的。
在一实施例中,上述的所述实体识别模型是通过若干带有关键要素分类标签的文本数据经过词向量化后得到的向量训练卷积神经网络所得的,可包括步骤S1261~S1269。
S1261、构建卷积神经网络以及第一损失函数。
在本实施例中,该卷积神经网络是一个深度学习模型,具有输入层、卷积层以及输出层的网络。第一损失函数可以为Center Loss函数。
S1262、获取若干带有关键要素分类标签的文本数据,并对所述文本数据进行词向量化,以得到带有关键要素分类标签的向量,对带有关键要素分类标签的向量划分为第一训练集以及第一测试集。
在本实施例中,上述的第一训练集是指用于训练模型所用的数据,第一测试集是指对已训练完成的模型进行测试所用的数据。
该文本数据是指从裁判文书网的文书作为原始数据进行上述的内容过滤以及分词和词性标注处理后所形成的,对形成后的文书进行对应关键要素分类标签标注,以作为基准数据,该基准数据进行词向量化所形成的向量作为输入。
对分词过后的裁判文书网的文书进行手动标注,将需要提取的关键要素标记为对应分类的标签例如借款人、放款人标记为P,法律依据标记为A,以B作为开始,以I作为中间,以E作为结束,其余为O;不规范的文书的实体识别通过以上标记后以词或词加词性进行向量化后作为输入,以标记的结果作为输出,训练网络。
S1263、将所述第一训练集输入所述卷积神经网络内进行卷积训练,以得到第一训练结果。
具体地,积神经网络内并采用CRF或LSTM+CRF进行卷积训练,以得到第一训练结果。
在本实施例中,第一训练结果是指训练集依次输入卷积神经网络后输出该第一训练集对应的类别标签,也就是关键要素类别的概率,且会经过与预设的阈值进行对比,当关键要素类别的概率超过预设的阈值,则会输出类别标签为该关键要素类别,反之则输出类别标签为不是关键要素类别。
S1264、采用第一损失函数计算第一训练结果与关键要素分类标签的差距,以得到第一损失值。
在本实施例,第一损失值是指利用上述的损失函数计算训练结果以及对应的类别标签的差距。
S1265、判断所述第一损失值是否维持不变。
在本实施例中,当第一损失值维持不变,即当前的卷积神经网络已经收敛,即第一损失值基本不变且非常小,也表明当前的卷积神经网络是可以被用作实体识别模型的,一般是开始训练时第一损失值比较大,越往后训,第一损失值越小,倘若该第一损失值未维持不变,表明当前的卷积神经网络不可以用作实体识别模型,也就是评估出来的类别并不准确,会导致后期的胜率预测也不准确。
S1266、若所述第一损失值不是维持不变,则调整卷积神经网络的参数,并执行所述步骤S1263,以得到第一训练结果。
在本实施例中,调整卷积神经网络的参数是指调整卷积神经网络中各个层的权重值。通过不断地训练,便可以得到满足要求的卷积神经网络。
S1267、若所述第一损失值维持不变,则将第一测试集输入卷积神经网络内进行要素分类,以得到第一测试结果。
在本实施例中,第一测试结果是指第一测试集进行要素分类后,便可得到对应的要素类别。
S1268、判断所述第一测试结果是否符合要求;
若所述第一测试结果不符合要求,则执行所述步骤S1266;
S1269、若所述第一测试结果符合要求,则将所述卷积神经网络作为实体识别模型。
当第一测试结果的精度和召回率这两个指标评估符合条件,则表明拟合程度符合要求,便可认为第一测试结果是符合要求的;否则,则认为该第一测试结果不符合要求。卷积神经网络收敛时停止训练。卷积神经网络训练好后对卷积神经网络进行测试,如果第一测试结果不好,需要调整训练策略重新进行卷积神经网络训练。当然,在训练的过程中,会进行训练和测试,训练时测试是为了实时查看训练情况;而训练卷积神经网络完成后的测试,用精度和召回率这两个指标评估整个卷积神经网络的执行准确程度。
关键要素因所标注的标签改变而改变,可以灵活满足业务人员不同的需求。
上述的卷积神经网络通过随机梯度下降算法进行优化。因为CNN可以自动选取特征,所以准确率更高,特别地采用SGD(随机梯度下降,Stochastic Gradient Descent)对CNN进行优化的结果更优,且采用较小的学习率能得到更好的结果。
S127、根据关键要素类别以及目标文书提取案件关键要素;
目标文书内的分词均进行关键要求类别的确定,也就是目标文书的内容已经确定关键要素的类别,该关键要素类别与目标文书便可确定关键要素。
S130、将案件关键要素进行词向量化后输入胜率预测模型内进行胜率预测,以得到胜率估测值。
在本实施例中,胜率估测值是指经过关键要素进行估算纠纷案件的成功率的数值。
其中,所述胜率预测模型是通过带有胜诉和败诉类别标签的关键要素进行词向量后作为样本集训练分类模型所得的。
具体地,所述胜率预测模型是通过带有胜诉和败诉类别标签的关键要素进行词向量后作为样本集训练分类模型所得的,可包括步骤S131~S139。
S131、构建分类模型以及第二损失函数。
在本实施例中,该卷分类模型包括逻辑回归模型或者卷积神经网络模型,具有输入层、卷积层以及输出层的网络。第二损失函数可以为Center Loss函数。
S132、获取带有胜诉和败诉类别标签的关键要素,并对所述关键要素进行词向量化,以得到带有胜诉和败诉类别标签的向量,形成样本集,对样本集划分为第二训练集以及第二测试集。
在本实施例中,上述的第二训练集是指用于训练模型所用的数据,第二测试集是指对已训练完成的模型进行测试所用的数据。
该关键要素是指从裁判文书网的文书作为原始数据进行上述的内容过滤以及分词和词性标注处理后所形成的,对形成后的文书提取对应的要素后,形成的关键要素进行词向量化,再结合裁判文书网上对应的胜诉和败诉结果,进行对应的标记,以作为基准数据,该基准数据作为输入。
在进行标签标记时,根据结果和词向量化后的关键要素结合原告是借款人还是贷款人以贷款人作为主体判断为胜诉的标记为0,败诉的标记为1,关键要素通过tf-idf、one-hot、word2vec等方法词向量化;以上述词向量化的结果作为输入,以胜诉和败诉的类别概率作为输出,通过分类模型例如LR(逻辑回归模型,Logistic Regression)或者CNN(卷积神经网络,Convolutional Neural Networks)模型等进行训练。
S133、将所述第二训练集输入所述分类模型内进行分类训练,以得到第二训练结果。
在本实施例中,第二训练结果是指第二训练集依次输入分类模型后输出该第二训练集对应的类别的概率,也就是胜诉类别和败诉类别的概率,当然,还可以经过与预设的阈值进行对比,当关键要素类别的概率超过预设的阈值,则会输出类别标签为胜诉类别,反之则输出类别标签为败诉类别。
判决结果中的包括但不限于“撤诉”,“驳回”等关键字判定为败诉,其余判定为胜诉;特别地为了提高模型的准确率,可对文书胜诉和败诉的文书数量进行了平衡。
S134、采用第二损失函数计算第二训练结果与胜诉和败诉类别标签的差距,以得到第二损失值。
在本实施例,第二损失值是指利用上述的第二损失函数计算训练结果以及对应的类别标签的差距。
S135、判断所述第二损失值是否维持不变。
在本实施例中,当第二损失值维持不变,即当前的分类模型已经收敛,即第二损失值基本不变且非常小,也表明当前的分类模型是可以被用作胜率预测模型的,一般是开始训练时第二损失值比较大,越往后训,第二损失值越小,倘若该第二损失值未维持不变,表明当前的分类模型不可以用作胜率预测模型,也就是评估出来的类别并不准确,会导致后期的风险把控也不准确。
S136、若所述第二损失值不是维持不变,则调整分类模型的参数,并执行所述步骤S133。
在本实施例中,调整分类模型的参数是指调整分类模型中各个层的权重值。通过不断地训练,便可以得到满足要求的分类模型。
S137、若所述第二损失值维持不变,则将第二测试集输入分类模型内进行要素分类,以得到第二测试结果。
在本实施例中,第二测试结果是指第二测试集进行要素分类后,便可得到对应的要素类别。
S138、判断所述第二测试结果是否符合要求;
若所述第二测试结果不符合要求,则执行所述步骤S136;
S139、若所述第二测试结果符合要求,则将所述分类模型作为胜率预测模型。
当第二测试结果的精度和召回率这两个指标评估符合条件,则表明拟合程度符合要求,便可认为第二测试结果是符合要求的;否则,则认为该测试结果不符合要求。分类模型收敛时停止训练。分类模型训练好后对分类模型进行测试,如果第二测试结果不好,需要调整训练策略重新进行分类模型训练。当然,在训练的过程中,会进行训练和测试,训练时测试是为了实时查看训练情况;而训练分类模型完成后的测试,用精度和召回率这两个指标评估整个分类模型的执行准确程度。
另外,上述的分类模型是卷积神经网络模型时,可通过随机梯度下降算法进行优化。因为CNN可以自动选取特征,所以准确率更高,特别地采用SGD(随机梯度下降,Stochastic Gradient Descent)对CNN进行优化的结果更优,且采用较小的学习率能得到更好的结果。
S140、发送所述胜率估测值至终端,以在终端进行显示。
举个例子:以下是与借贷事实相关的案件书,即中间文书:
朱丙金融借款合同纠纷一案本院于2011年1月24日受理后原告浙江村合行诉称被告朱甲于2009年8月3日向澧浦支行东湖分理处贷款5万元2010年7月20日到期用途为养蚌利率为7.965‰并由朱乙方某某朱丙承担连带保证责任到期后被告未按合同约定支付本金和利息因此原告向法院提出诉请:1判令被告朱甲归还原告贷款本金5万元及利息5992.69元2判令被告朱乙方某某朱丙对上述欠款承担连带清偿责任原告浙江村合行向本院提交借款申请书一份借款借据一份保证借款合同一份证明第一被告向原告借款未归还的事实以及其他三被告对欠款承担连带保证责任的事实被告朱甲朱乙方某某朱丙未答辩也未向本院提交证据。
通过案件关键要素提取的结果:1.借款主体:朱甲朱乙方某某朱丙;2.贷款主体:澧浦支行东湖分理处;3.借款期限:1年;4.还款时间:2010年7月20日;5.逾期时间:无,6.借款金额:5992.69元;7.合同及是否有效:借款借据一份;8.有无可执行财产:无;9.借款人年龄:无;10.借款用途:无;11.银行流水:无;12.借款利息:无;13.还款记录:无。
以上案件关键要素作为胜率预测模型输入,预测结果为0的概率为75.4%,也就是大概率贷款主体会赢得这场官司。
整个预测过程不加入经验,而是将标准采用数据统一化,增大纠纷案件胜率预测的准确率,帮助金融公司有效地控制借贷风险,加上裁判文书网有很多金融纠纷相关的文书数据,因此开发相关的胜率预测模型不仅能提高公司的风险控制能力,还能提高公共数据的利用率,挖掘公共数据的价值。
上述的纠纷案件胜率预测方法,通过对需要预测的纠纷案件进行关键要素提取,先对纠纷案件进行特征提取,再根据文书的格式规范与否进行正则表达式匹配要素或实体识别模型提取要素,再将提取的案件关键要素输入到胜率预测模型内进行对应的胜率预测,以实现增大纠纷案件胜率预测的准确率以及效率。
图3是本发明实施例提供的一种纠纷案件胜率预测装置300的示意性框图。如图3所示,对应于以上纠纷案件胜率预测方法,本发明还提供一种纠纷案件胜率预测装置300。该纠纷案件胜率预测装置300包括用于执行上述纠纷案件胜率预测方法的单元,该装置可以被配置于服务器中。具体地,请参阅图3,该纠纷案件胜率预测装置300包括案件获取单元301、提取单元302、预测单元303以及发送单元304。
案件获取单元301,用于获取需要预测的纠纷案件;提取单元302,用于对需要预测的纠纷案件进行关键要素提取,以得到案件关键要素;预测单元303,用于将案件关键要素进行词向量化后输入胜率预测模型内进行胜率预测,以得到胜率估测值;发送单元304,用于发送所述胜率估测值至终端,以在终端进行显示。
在一实施例中,所述提取单元302包括文书获取子单元、工程提取子单元、判断子单元、匹配子单元、预处理子单元、类别获取子单元以及要素提取子单元。
文书获取子单元,用于根据需要预测的纠纷案件获取相关的法律文书,以得到文书主体;工程提取子单元,用于对文书主体进行特征工程提取,以得到目标文书;判断子单元,用于判断所述目标文书是否是格式规范的文书;匹配子单元,用于若所述目标文书是格式规范的文书,则通过正则表达式对目标文书进行匹配,以得到案件关键要素;预处理子单元,用于若所述目标文书不是格式规范的文书,则将目标文书进行预处理,以得到词语向量;类别获取子单元,用于将词语向量输入实体识别模型进行要素分类,以得到关键要素类别;要素提取子单元,用于根据关键要素类别以及目标文书提取案件关键要素。
在一实施例中,所述文书获取子单元包括民事案件获取模块、内容过滤模块以及合并模块。
民事案件获取模块,用于根据需要预测的纠纷案件获取民事案件;内容过滤模块,用于对所述民事案件进行内容过滤,以得到初步文书;合并模块,用于对初步文书通过案件号进行一审案件和二审案件的合并,以得到文书主体。
在一实施例中,所述工程提取子单元包括过滤模块、舍弃模块以及标注模块。
过滤模块,用于对所述文书主体内的停用词以及标点符号进行过滤,以得到过滤结果;舍弃模块,用于对所述过滤结果进行文书内容长度不符合要求的文书内容舍弃,以得到中间文书;标注模块,用于对所述中间文书进行分词处理和词性标注,以得到目标文书。
在一实施例中,所述提取单元302还包括模型形成子单元,所述模型形成子单元,用于通过若干带有关键要素分类标签的文本数据经过词向量化后得到的向量训练卷积神经网络,以得到实体识别模型。
在一实施例中,所述模型形成子单元包括第一构建模块、数据获取模块、第一训练模块、第一损失计算模块、第一损失值判断模块、第一调整模块、第一测试模块以及第一测试结果判断模块。
第一构建模块,用于构建卷积神经网络以及第一损失函数;数据获取模块,用于获取若干带有关键要素分类标签的文本数据,并对所述文本数据进行词向量化,以得到带有关键要素分类标签的向量,对带有关键要素分类标签的向量划分为第一训练集以及第一测试集;第一训练模块,用于将所述第一训练集输入所述卷积神经网络内进行卷积训练,以得到第一训练结果;第一损失计算模块,用于采用第一损失函数计算第一训练结果与关键要素分类标签的差距,以得到第一损失值;第一损失值判断模块,用于判断所述第一损失值是否维持不变;第一调整模块,用于若所述第一损失值不是维持不变,则调整卷积神经网络的参数,并执行所述将第一训练集输入至卷积神经网络进行卷积训练,以得到第一训练结果;第一测试模块,用于若所述第一损失值维持不变,则将第一测试集输入卷积神经网络内进行要素分类,以得到第一测试结果;第一测试结果判断模块,用于判断所述第一测试结果是否符合要求;若所述第一测试结果不符合要求,则执行所述调整卷积神经网络的参数;若所述第一测试结果符合要求,则将所述卷积神经网络作为实体识别模型。
在一实施例中,所述装置还包括预测模型形成单元,该预测模型形成单元,用于通过带有胜诉和败诉类别标签的关键要素进行词向量后作为样本集训练分类模型,以形成胜率预测模型。
在一实施例中,所述预测模型形成单元包括第二构建子单元、样本集形成子单元、第一训练子单元、第一损失计算子单元、第一损失值判断子单元、第一调整子单元、第一测试子单元以及第一测试结果判断子单元。
第二构建子单元,用于构建分类模型以及第二损失函数;样本集形成子单元,用于获取带有胜诉和败诉类别标签的关键要素,并对所述关键要素进行词向量化,以得到带有胜诉和败诉类别标签的向量,形成样本集,对样本集划分为第二训练集以及第二测试集;第一训练子单元,用于将所述第二训练集输入所述分类模型内进行分类训练,以得到第二训练结果;第一损失计算子单元,用于采用第二损失函数计算第二训练结果与胜诉和败诉类别标签的差距,以得到第二损失值;第一损失值判断子单元,用于判断所述第二损失值是否维持不变;第一调整子单元,用于若所述第二损失值不是维持不变,则调整分类模型的参数,并执行所述将所述第二训练集输入所述分类模型内进行分类训练,以得到第二训练结果;第一测试子单元,用于若所述第二损失值维持不变,则将第二测试集输入分类模型内进行胜率预测,以得到第二测试结果;第一测试结果判断子单元,用于判断所述第二测试结果是否符合要求;若所述第二测试结果不符合要求,则执行所述调整分类模型的参数;若所述第二测试结果符合要求,则将所述分类模型作为胜率预测模型;其中,所述分类模型包括逻辑回归模型或者卷积神经网络模型。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述纠纷案件胜率预测装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述纠纷案件胜率预测装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。
请参阅图4,图4是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图4,该计算机设备500包括通过***总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作***5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种纠纷案件胜率预测方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种纠纷案件胜率预测方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
获取需要预测的纠纷案件;对需要预测的纠纷案件进行关键要素提取,以得到案件关键要素;将案件关键要素进行词向量化后输入胜率预测模型内进行胜率预测,以得到胜率估测值;发送所述胜率估测值至终端,以在终端进行显示;其中,所述胜率预测模型是通过带有胜诉和败诉类别标签的关键要素进行词向量后作为样本集训练分类模型所得的。
在一实施例中,处理器502在实现所述对需要预测的纠纷案件进行关键要素提取,以得到案件关键要素步骤时,具体实现如下步骤:
根据需要预测的纠纷案件获取相关的法律文书,以得到文书主体;对文书主体进行特征工程提取,以得到目标文书;判断所述目标文书是否是格式规范的文书;若所述目标文书是格式规范的文书,则通过正则表达式对目标文书进行匹配,以得到案件关键要素;若所述目标文书不是格式规范的文书,则将目标文书进行预处理,以得到词语向量;将词语向量输入实体识别模型进行要素分类,以得到关键要素类别;根据关键要素类别以及目标文书提取案件关键要素;其中,所述实体识别模型是通过若干带有关键要素分类标签的文本数据经过词向量化后得到的向量训练卷积神经网络所得的。
在一实施例中,处理器502在实现所述根据需要预测的纠纷案件获取相关的法律文书,以得到文书主体步骤时,具体实现如下步骤:
根据需要预测的纠纷案件获取民事案件;对所述民事案件进行内容过滤,以得到初步文书;对初步文书通过案件号进行一审案件和二审案件的合并,以得到文书主体
在一实施例中,处理器502在实现所述对文书主体进行特征工程提取,以得到目标文书步骤时,具体实现如下步骤:
对所述文书主体内的停用词以及标点符号进行过滤,以得到过滤结果;对所述过滤结果进行文书内容长度不符合要求的文书内容舍弃,以得到中间文书;对所述中间文书进行分词处理和词性标注,以得到目标文书。
在一实施例中,处理器502在实现所述实体识别模型是通过若干带有关键要素分类标签的文本数据经过词向量化后得到的向量训练卷积神经网络所得的步骤时,具体实现如下步骤:
构建卷积神经网络以及第一损失函数;获取若干带有关键要素分类标签的文本数据,并对所述文本数据进行词向量化,以得到带有关键要素分类标签的向量,对带有关键要素分类标签的向量划分为第一训练集以及第一测试集;将所述第一训练集输入所述卷积神经网络内进行卷积训练,以得到第一训练结果;采用第一损失函数计算第一训练结果与关键要素分类标签的差距,以得到第一损失值;判断所述第一损失值是否维持不变;若所述第一损失值不是维持不变,则调整卷积神经网络的参数,并执行所述将第一训练集输入至卷积神经网络进行卷积训练,以得到第一训练结果;若所述第一损失值维持不变,则将第一测试集输入卷积神经网络内进行要素分类,以得到第一测试结果;判断所述第一测试结果是否符合要求;若所述第一测试结果不符合要求,则执行所述调整卷积神经网络的参数;若所述第一测试结果符合要求,则将所述卷积神经网络作为实体识别模型。
其中,所述卷积神经网络通过随机梯度下降算法进行优化。
在一实施例中,处理器502在实现所述胜率预测模型是通过带有胜诉和败诉类别标签的关键要素进行词向量后作为样本集训练分类模型所得的步骤时,具体实现如下步骤:
构建分类模型以及第二损失函数;获取带有胜诉和败诉类别标签的关键要素,并对所述关键要素进行词向量化,以得到带有胜诉和败诉类别标签的向量,形成样本集,对样本集划分为第二训练集以及第二测试集;将所述第二训练集输入所述分类模型内进行分类训练,以得到第二训练结果;采用第二损失函数计算第二训练结果与胜诉和败诉类别标签的差距,以得到第二损失值;判断所述第二损失值是否维持不变;若所述第二损失值不是维持不变,则调整分类模型的参数,并执行所述将所述第二训练集输入所述分类模型内进行分类训练,以得到第二训练结果;若所述第二损失值维持不变,则将第二测试集输入分类模型内进行胜率预测,以得到第二测试结果;判断所述第二测试结果是否符合要求;若所述第二测试结果不符合要求,则执行所述调整分类模型的参数;若所述第二测试结果符合要求,则将所述分类模型作为胜率预测模型;其中,所述分类模型包括逻辑回归模型或者卷积神经网络模型。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机***中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
获取需要预测的纠纷案件;对需要预测的纠纷案件进行关键要素提取,以得到案件关键要素;将案件关键要素进行词向量化后输入胜率预测模型内进行胜率预测,以得到胜率估测值;发送所述胜率估测值至终端,以在终端进行显示;其中,所述胜率预测模型是通过带有胜诉和败诉类别标签的关键要素进行词向量后作为样本集训练分类模型所得的。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对需要预测的纠纷案件进行关键要素提取,以得到案件关键要素步骤时,具体实现如下步骤:
根据需要预测的纠纷案件获取相关的法律文书,以得到文书主体;对文书主体进行特征工程提取,以得到目标文书;判断所述目标文书是否是格式规范的文书;若所述目标文书是格式规范的文书,则通过正则表达式对目标文书进行匹配,以得到案件关键要素;若所述目标文书不是格式规范的文书,则将目标文书进行预处理,以得到词语向量;将词语向量输入实体识别模型进行要素分类,以得到关键要素类别;根据关键要素类别以及目标文书提取案件关键要素;其中,所述实体识别模型是通过若干带有关键要素分类标签的文本数据经过词向量化后得到的向量训练卷积神经网络所得的。
在一实施例中,所述处理器在执行所述计算机程序而实现所述根据需要预测的纠纷案件获取相关的法律文书,以得到文书主体步骤时,具体实现如下步骤:
根据需要预测的纠纷案件获取民事案件;对所述民事案件进行内容过滤,以得到初步文书;对初步文书通过案件号进行一审案件和二审案件的合并,以得到文书主体。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对文书主体进行特征工程提取,以得到目标文书步骤时,具体实现如下步骤:
对所述文书主体内的停用词以及标点符号进行过滤,以得到过滤结果;对所述过滤结果进行文书内容长度不符合要求的文书内容舍弃,以得到中间文书;对所述中间文书进行分词处理和词性标注,以得到目标文书。
在一实施例中,所述处理器在执行所述计算机程序而实现所述实体识别模型是通过若干带有关键要素分类标签的文本数据经过词向量化后得到的向量训练卷积神经网络所得的步骤时,具体实现如下步骤:
构建卷积神经网络以及第一损失函数;获取若干带有关键要素分类标签的文本数据,并对所述文本数据进行词向量化,以得到带有关键要素分类标签的向量,对带有关键要素分类标签的向量划分为第一训练集以及第一测试集;将所述第一训练集输入所述卷积神经网络内进行卷积训练,以得到第一训练结果;采用第一损失函数计算第一训练结果与关键要素分类标签的差距,以得到第一损失值;判断所述第一损失值是否维持不变;若所述第一损失值不是维持不变,则调整卷积神经网络的参数,并执行所述将第一训练集输入至卷积神经网络进行卷积训练,以得到第一训练结果;若所述第一损失值维持不变,则将第一测试集输入卷积神经网络内进行要素分类,以得到第一测试结果;判断所述第一测试结果是否符合要求;若所述第一测试结果不符合要求,则执行所述调整卷积神经网络的参数;若所述第一测试结果符合要求,则将所述卷积神经网络作为实体识别模型。
所述卷积神经网络通过随机梯度下降算法进行优化。
在一实施例中,所述处理器在执行所述计算机程序而实现所述胜率预测模型是通过带有胜诉和败诉类别标签的关键要素进行词向量后作为样本集训练分类模型所得的步骤时,具体实现如下步骤:
构建分类模型以及第二损失函数;获取带有胜诉和败诉类别标签的关键要素,并对所述关键要素进行词向量化,以得到带有胜诉和败诉类别标签的向量,形成样本集,对样本集划分为第二训练集以及第二测试集;将所述第二训练集输入所述分类模型内进行分类训练,以得到第二训练结果;采用第二损失函数计算第二训练结果与胜诉和败诉类别标签的差距,以得到第二损失值;判断所述第二损失值是否维持不变;若所述第二损失值不是维持不变,则调整分类模型的参数,并执行所述将所述第二训练集输入所述分类模型内进行分类训练,以得到第二训练结果;若所述第二损失值维持不变,则将第二测试集输入分类模型内进行胜率预测,以得到第二测试结果;判断所述第二测试结果是否符合要求;若所述第二测试结果不符合要求,则执行所述调整分类模型的参数;若所述第二测试结果符合要求,则将所述分类模型作为胜率预测模型;其中,所述分类模型包括逻辑回归模型或者卷积神经网络模型。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.纠纷案件胜率预测方法,其特征在于,包括:
获取需要预测的纠纷案件;
对需要预测的纠纷案件进行关键要素提取,以得到案件关键要素;
将案件关键要素进行词向量化后输入胜率预测模型内进行胜率预测,以得到胜率估测值;
发送所述胜率估测值至终端,以在终端进行显示;
其中,所述胜率预测模型是通过带有胜诉和败诉类别标签的关键要素进行词向量后作为样本集训练分类模型所得的。
2.根据权利要求1所述的纠纷案件胜率预测方法,其特征在于,所述对需要预测的纠纷案件进行关键要素提取,以得到案件关键要素,包括:
根据需要预测的纠纷案件获取相关的法律文书,以得到文书主体;
对文书主体进行特征工程提取,以得到目标文书;
判断所述目标文书是否是格式规范的文书;
若所述目标文书是格式规范的文书,则通过正则表达式对目标文书进行匹配,以得到案件关键要素;
若所述目标文书不是格式规范的文书,则将目标文书进行预处理,以得到词语向量;
将词语向量输入实体识别模型进行要素分类,以得到关键要素类别;
根据关键要素类别以及目标文书提取案件关键要素;
其中,所述实体识别模型是通过若干带有关键要素分类标签的文本数据经过词向量化后得到的向量训练卷积神经网络所得的。
3.根据权利要求2所述的纠纷案件胜率预测方法,其特征在于,所述根据需要预测的纠纷案件获取相关的法律文书,以得到文书主体,包括:
根据需要预测的纠纷案件获取民事案件;
对所述民事案件进行内容过滤,以得到初步文书;
对初步文书通过案件号进行一审案件和二审案件的合并,以得到文书主体。
4.根据权利要求2所述的纠纷案件胜率预测方法,其特征在于,所述对文书主体进行特征工程提取,以得到目标文书,包括:
对所述文书主体内的停用词以及标点符号进行过滤,以得到过滤结果;
对所述过滤结果进行文书内容长度不符合要求的文书内容舍弃,以得到中间文书;
对所述中间文书进行分词处理和词性标注,以得到目标文书。
5.根据权利要求2所述的纠纷案件胜率预测方法,其特征在于,所述实体识别模型是通过若干带有关键要素分类标签的文本数据经过词向量化后得到的向量训练卷积神经网络所得的,包括:
构建卷积神经网络以及第一损失函数;
获取若干带有关键要素分类标签的文本数据,并对所述文本数据进行词向量化,以得到带有关键要素分类标签的向量,对带有关键要素分类标签的向量划分为第一训练集以及第一测试集;
将所述第一训练集输入所述卷积神经网络内进行卷积训练,以得到第一训练结果;
采用第一损失函数计算第一训练结果与关键要素分类标签的差距,以得到第一损失值;
判断所述第一损失值是否维持不变;
若所述第一损失值不是维持不变,则调整卷积神经网络的参数,并执行所述将第一训练集输入至卷积神经网络进行卷积训练,以得到第一训练结果;
若所述第一损失值维持不变,则将第一测试集输入卷积神经网络内进行要素分类,以得到第一测试结果;
判断所述第一测试结果是否符合要求;
若所述第一测试结果不符合要求,则执行所述调整卷积神经网络的参数;
若所述第一测试结果符合要求,则将所述卷积神经网络作为实体识别模型。
6.根据权利要求5所述的纠纷案件胜率预测方法,其特征在于,所述卷积神经网络通过随机梯度下降算法进行优化。
7.根据权利要求1所述的纠纷案件胜率预测方法,其特征在于,所述胜率预测模型是通过带有胜诉和败诉类别标签的关键要素进行词向量后作为样本集训练分类模型所得的,包括:
构建分类模型以及第二损失函数;
获取带有胜诉和败诉类别标签的关键要素,并对所述关键要素进行词向量化,以得到带有胜诉和败诉类别标签的向量,形成样本集,对样本集划分为第二训练集以及第二测试集;
将所述第二训练集输入所述分类模型内进行分类训练,以得到第二训练结果;
采用第二损失函数计算第二训练结果与胜诉和败诉类别标签的差距,以得到第二损失值;
判断所述第二损失值是否维持不变;
若所述第二损失值不是维持不变,则调整分类模型的参数,并执行所述将所述第二训练集输入所述分类模型内进行分类训练,以得到第二训练结果;
若所述第二损失值维持不变,则将第二测试集输入分类模型内进行胜率预测,以得到第二测试结果;
判断所述第二测试结果是否符合要求;
若所述第二测试结果不符合要求,则执行所述调整分类模型的参数;
若所述第二测试结果符合要求,则将所述分类模型作为胜率预测模型;
其中,所述分类模型包括逻辑回归模型或者卷积神经网络模型。
8.纠纷案件胜率预测装置,其特征在于,包括:
案件获取单元,用于获取需要预测的纠纷案件;
提取单元,用于对需要预测的纠纷案件进行关键要素提取,以得到案件关键要素;
预测单元,用于将案件关键要素进行词向量化后输入胜率预测模型内进行胜率预测,以得到胜率估测值;
发送单元,用于发送所述胜率估测值至终端,以在终端进行显示。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911267505.3A CN111047092A (zh) | 2019-12-11 | 2019-12-11 | 纠纷案件胜率预测方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911267505.3A CN111047092A (zh) | 2019-12-11 | 2019-12-11 | 纠纷案件胜率预测方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111047092A true CN111047092A (zh) | 2020-04-21 |
Family
ID=70235696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911267505.3A Pending CN111047092A (zh) | 2019-12-11 | 2019-12-11 | 纠纷案件胜率预测方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111047092A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541075A (zh) * | 2020-10-30 | 2021-03-23 | 中科曙光南京研究院有限公司 | 一种警情文本的标准案发时间提取方法及*** |
CN112966072A (zh) * | 2021-03-11 | 2021-06-15 | 暨南大学 | 案件的预判方法、装置、电子装置和存储介质 |
JP7047231B1 (ja) * | 2021-06-25 | 2022-04-05 | 株式会社Robot Consulting | 情報処理システム、コンピュータシステム及びプログラム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107590131A (zh) * | 2017-10-16 | 2018-01-16 | 北京神州泰岳软件股份有限公司 | 一种规范文书处理方法、装置及*** |
CN109992782A (zh) * | 2019-04-02 | 2019-07-09 | 深圳市华云中盛科技有限公司 | 法律文书命名实体识别方法、装置及计算机设备 |
CN110276075A (zh) * | 2019-06-21 | 2019-09-24 | 腾讯科技(深圳)有限公司 | 模型训练方法、命名实体识别方法、装置、设备及介质 |
CN110377632A (zh) * | 2019-06-17 | 2019-10-25 | 平安科技(深圳)有限公司 | 诉讼结果预测方法、装置、计算机设备和存储介质 |
CN110490439A (zh) * | 2019-08-05 | 2019-11-22 | 北京市律典通科技有限公司 | 诉讼风险评估方法、装置、电子设备及计算机可存储介质 |
CN110532538A (zh) * | 2018-05-24 | 2019-12-03 | 中国科学院沈阳计算技术研究所有限公司 | 财产纠纷裁判文书关键实体抽取算法 |
-
2019
- 2019-12-11 CN CN201911267505.3A patent/CN111047092A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107590131A (zh) * | 2017-10-16 | 2018-01-16 | 北京神州泰岳软件股份有限公司 | 一种规范文书处理方法、装置及*** |
CN110532538A (zh) * | 2018-05-24 | 2019-12-03 | 中国科学院沈阳计算技术研究所有限公司 | 财产纠纷裁判文书关键实体抽取算法 |
CN109992782A (zh) * | 2019-04-02 | 2019-07-09 | 深圳市华云中盛科技有限公司 | 法律文书命名实体识别方法、装置及计算机设备 |
CN110377632A (zh) * | 2019-06-17 | 2019-10-25 | 平安科技(深圳)有限公司 | 诉讼结果预测方法、装置、计算机设备和存储介质 |
CN110276075A (zh) * | 2019-06-21 | 2019-09-24 | 腾讯科技(深圳)有限公司 | 模型训练方法、命名实体识别方法、装置、设备及介质 |
CN110490439A (zh) * | 2019-08-05 | 2019-11-22 | 北京市律典通科技有限公司 | 诉讼风险评估方法、装置、电子设备及计算机可存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541075A (zh) * | 2020-10-30 | 2021-03-23 | 中科曙光南京研究院有限公司 | 一种警情文本的标准案发时间提取方法及*** |
CN112541075B (zh) * | 2020-10-30 | 2024-04-05 | 中科曙光南京研究院有限公司 | 一种警情文本的标准案发时间提取方法及*** |
CN112966072A (zh) * | 2021-03-11 | 2021-06-15 | 暨南大学 | 案件的预判方法、装置、电子装置和存储介质 |
JP7047231B1 (ja) * | 2021-06-25 | 2022-04-05 | 株式会社Robot Consulting | 情報処理システム、コンピュータシステム及びプログラム |
WO2022270329A1 (ja) * | 2021-06-25 | 2022-12-29 | 株式会社Robot Consulting | 情報処理システム、コンピュータシステム及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108846520B (zh) | 贷款逾期预测方法、装置以及计算机可读存储介质 | |
CN108550065B (zh) | 评论数据处理方法、装置及设备 | |
CN110163242B (zh) | 风险识别方法、装置及服务器 | |
CN108256098B (zh) | 一种确定用户评论情感倾向的方法及装置 | |
CN111047092A (zh) | 纠纷案件胜率预测方法、装置、计算机设备及存储介质 | |
CN109087163A (zh) | 信用评估的方法及装置 | |
CN111062834A (zh) | 纠纷案件实体识别方法、装置、计算机设备及存储介质 | |
CN108073988B (zh) | 一种基于强化学习的法律认知方法、装置和介质 | |
CN112102073A (zh) | 信贷风险控制方法及***、电子设备及可读存储介质 | |
CN108898476A (zh) | 一种贷款客户信用评分方法和装置 | |
CN113989019A (zh) | 识别风险的方法、装置、设备及存储介质 | |
CN113034263A (zh) | 一种信贷审批方法、装置、服务器及介质 | |
CN110728142A (zh) | 一种流水文件识别方法、装置及计算机存储介质、电子设备 | |
CN111723870A (zh) | 基于人工智能的数据集获取方法、装置、设备和介质 | |
CN113887214A (zh) | 基于人工智能的意愿推测方法、及其相关设备 | |
CN113919432A (zh) | 一种分类模型构建方法、数据分类方法及装置 | |
CN112463922A (zh) | 一种风险用户识别方法及存储介质 | |
CN111915312A (zh) | 风险识别方法及装置和电子设备 | |
Asali | Social media analysis for investigating consumer sentiment on mobile banking | |
CN109635289A (zh) | 词条分类方法及审计信息抽取方法 | |
CN111427880A (zh) | 数据处理的方法、装置、计算设备以及介质 | |
CN112632219B (zh) | 一种垃圾短信的拦截方法和拦截装置 | |
CN110570301B (zh) | 风险识别方法、装置、设备及介质 | |
Xia et al. | Analysis and prediction of telecom customer churn based on machine learning | |
Spliethöver et al. | No word embedding model is perfect: Evaluating the representation accuracy for social bias in the media |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |