CN110119449B - 一种基于序列增强胶囊网络的刑事案件罪名预测方法 - Google Patents

一种基于序列增强胶囊网络的刑事案件罪名预测方法 Download PDF

Info

Publication number
CN110119449B
CN110119449B CN201910396510.8A CN201910396510A CN110119449B CN 110119449 B CN110119449 B CN 110119449B CN 201910396510 A CN201910396510 A CN 201910396510A CN 110119449 B CN110119449 B CN 110119449B
Authority
CN
China
Prior art keywords
sequence
criminal
case
capsule network
enhanced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910396510.8A
Other languages
English (en)
Other versions
CN110119449A (zh
Inventor
彭黎
何从庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN201910396510.8A priority Critical patent/CN110119449B/zh
Publication of CN110119449A publication Critical patent/CN110119449A/zh
Application granted granted Critical
Publication of CN110119449B publication Critical patent/CN110119449B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Development Economics (AREA)
  • Biomedical Technology (AREA)
  • Game Theory and Decision Science (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Technology Law (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Alarm Systems (AREA)

Abstract

本发明涉及智能法律领域,尤其涉及一种基于序列增强胶囊网络的刑事案件罪名预测方法。包括以下步骤:S1构建训练数据集,获取案件的事实描述以及罪名判罚结果作为训练数据;S2构建序列增强胶囊网络模型并通过训练数据进行训练;S3通过S2训练之后的序列增强胶囊网络模型,将新的案件的事实描述文本输入到序列胶囊网络模型中,模型自动预测相应罪名作为罪名预测结果。本发明提出的模型不仅能较好地捕捉到法律文本的显著特征和语义信息,而且在低频罪名预测问题上具有较好的竞争力;引入了focal loss损失函数,作为序列增强胶囊网络模型的损失函数,进一步缓解了低频罪名预测任务的罪名高度不平衡问题。

Description

一种基于序列增强胶囊网络的刑事案件罪名预测方法
技术领域
本发明涉及智能法律领域,尤其涉及一种基于序列增强胶囊网络的刑事案件罪名预测方法。
背景技术
近年来,以深度学习和自然语言处理为代表的人工智能技术取得巨大突破,开始在智能法律领域崭露头角,受到了学术界与产业界的广泛关注。智能法律赋予机器理解法律文本、分析案例的能力,能根据案件进行智能办案。
自动罪名预测作为智能法律中最具有表性的子任务之一,在法律助理***中发挥着重要的作用,在现实生活中也有着广泛的应用。例如,它可以为法律专家(如律师和法官)提供案件被告人的罪名参考,以此辅助法官判案,提高工作效率;同时可以为不熟悉法律术语和复杂程序的普通人提供法律咨询。自动罪名预测是利用机器学习或深度学习技术训练机器法官判断案件被告人的罪名(如盗窃、抢劫、交通肇事等)。以前的研究工作提出了许多实现自动罪名预测的方法。这些方法主要分为三类:(1)传统方法;(2)机器学习方法;(3)深度学习方法。
传统方法常采用数学公式或者定量计算。Kort[Fred Kort.Predicting SupremeCourt decisions mathematically:A quantitative analysis of the“right tocounsel”cases.American Political Science Review,1957,51(1):1–12]试图运用定量方法预测通常被认为高度不确定的人类事件,即美国最高法院的判决。该研究旨在证明,至少在司法审查的一个领域,用一些已经决策的案件来确定影响决策的事实因素,用公式求出这些因素的数值,然后在指定的领域中正确地预测剩余案件的决策。Nagel[Stuart SNagel.Applying correlation analysis to case prediction.Tex.L.Rev.,1963,42:1006]认为可以科学地预测诉讼结果,他利用重新分配的例子证明了通过对案例中出现的四个变量分配相关系数,预测是可能的。这一预测将有助于规划诉讼的当事人、理解司法程序的理论家、解释司法反应的立法者以及寻求遵守法律的公众。Keown[RKeown.Mathematical models for legal prediction.Computer/LJ,1980,2:829]提出了用数学方法预测司法判决的可行性。他利用Haar、Sawyer和Cummings的线性模型法以及Mackaay和Robillard的最近邻法在1000多个案例中,正确预测了99%的决策。这种成功为在其他特殊领域开发线性模型提供了真正的机会和迫切的需要,这不仅是为了从经验上验证该方法在一般情况下是有效的,而且还为法律行业提供了额外的预测模型。这些传统的方法在某些场景中取得了一些效果,但它们仅限于具有少量标签的小数据集。
由于机器学习在许多领域的成功,研究人员开始使用机器学习方法来处理罪名预测。这类工作通常侧重于从案例事实中提取特征,然后使用机器学习算法进行预测。Liu等人[Chao-Lin Liu,Cheng-Tsung Chang,Jim-How Ho.Case instance generation andrefinement for case-based criminal summary judgments in Chinese.2004.,Chao-Lin Liu,Chwen-Dar Hsieh.Exploring phrase-based classification of judicialdocuments for criminal charges in chinese.In:Proc of International Symposiumon Methodologies for Intelligent Systems.Springer,2006,681–690]提出了一种基于K-Nearest Neighbor(KNN)算法,用于从现实世界的判决文本中自动生成和细化用于刑事简易判决的案件实例。该算法试图从过去的诉讼文件中提取重要的法律信息来构建案例实例,然后通过合并相似的案例并从案例中删除相对不相关的信息来细化这些案例实例。Lin等人[Wan-Chen Lin,Tsung-Ting Kuo,Tung-Jia Chang.Exploiting machine learningmodels for Chinese legal documents labeling,case classification,andsentencing prediction.ROCLING XXIV(2012),2012.140]针对“强盗罪”与“恐吓取财罪”定义21种法律要素标签,然后利用法律要素资讯来分类来分类“强盗罪”与“恐吓取财罪”以及预测此两种罪的判处刑期。Mackaay等人[Ejan Mackaay,Pierre Robillard.Predictingjudicial decisions:The nearest neighbor rule and visual representation ofcase patterns.1974]通过聚类语义相似的N-grams来提取特征。Sulea等人[Octavia-Maria Sulea,Marcos Zampieri,Shervin Malmasi,et al.Exploring the Use of TextClassification in the Legal Domain.CoRR,2017,abs/1710.09306]利用法国最高法院的案例和裁决,调查了文本分类方法在法律领域的应用,然后提出了一种基于支持向量机的案件描述、时间跨度和判决特征的判决***,以预测案件的法律领域和判决方面的准确性。然而,这些方法仅提取浅层文本特性或手动标记,很难在大的数据集上收集这些特征。因此,当数据量很大时,它们的性能不会很好。
近年来,随着深度神经网络在自然语言处理(NLP)、计算机视觉(CV)和语音领域的成功,一些工作开始将其应用到自动罪名预测任务中,并显示出巨大的性能提升。Luo等人[Bingfeng Luo,Yansong Feng,Jianbo Xu,et al.Learning to Predict Charges forCriminal Cases with Legal Basis.arXiv preprint arXiv:1707.09168,2017.]认为相关法律条文在这一任务对罪名预测任务起着非常重要的作用。因此提出了一种基于注意力的神经网络方法,将罪名预测任务和相关条文提取任务在统一的框架下进行联合建模,从而能够有效预测不同表达方式案件的适当罪名。然而,这项工作不能解决低频罪名预测以及多重罪名预测的问题。Zhong等人[Haoxi Zhong,Guo Zhipeng,Cunchao Tu,et al.LegalJudgment Prediction via Topological Learning.In:Proc of Proceedings of the2018Conference on Empirical Methods in Natural Language Processing.2018,3540–3549]通过考虑到法律条文中的罪名、法条、罚款、处罚期限这些子任务之间的拓扑依赖关系,提出了一种拓扑多任务学习的框架,将多个子任务的依赖关系结合到罪名判断预测中。Hu等人[Zikun Hu,Xiang Li,Cunchao Tu,et al.Few-shot charge prediction withdiscriminative legal attributes.In:Proc of Proceedings of the 27thInternational Conference on Computational Linguistics.2018,487–498]针对低频罪名预测以及容易混淆的罪名,引入罪名的几个判别属性作为案件的事实描述和罪名之间的内部映射,这些属性为低频罪名提供了附加信息以及区分混淆罪名的有效特征,然后提出了一种Attribute-attentive罪名预测模型来同时推断属性和罪名。通过对上述学者研究内容的进一步分析可以发现,目前学术界和工业界虽然已经提出了一系列的基于深度学习的自动罪名预测算法,并取得了不小的进步。但已有的方法仍在存在不足:(1)现有的大部分工作[9,10]忽视了自动罪名预测任务的低频罪名场景,仅考虑到高频罪名场景,因此不能很好的解决低频罪名预测问题。(2)Hu等人[11]利用人工生成的辅助信息在低频罪名场景中取得了不错的效果,然而,人工标注信息浪费了大量的时间,且不能够实现端到端的深度学习模型。
国家发明专利申请“一种基于记忆神经网络的刑事案件罪名预测方法”(公开日:2019.02.22)以标准的案情描述及其罪名作为训练数据建训练数据集,通过训练数据集对构建出的记忆神经网络模型进行训练,“案情描述特征向量”-“罪名编码”对转换为记忆神经网络模型中存储的键-值对,采用多层感知机分类器对刑事案件罪名进行裁判,该方法提出的模型虽然对低频罪名也能进行预测,但是记忆模块需要对比真实的罪名与预测的罪名的关系,然而低频罪名数据量较少,在部分罪名中甚至仅仅只有几条案件,因此,很难在低频罪名预测场景中取到好的效果。
发明内容
经过对上述国内外众多学者的研究成果深入分析,针对上述现有技术中存在的问题,本发明提出一种基于序列增强胶囊网络的刑事案件罪名预测方法,以缓解刑事案件中低频罪名预测问题。
为了实现上述目的,本发明采用的技术方案为,一种基于序列增强胶囊网络的刑事案件罪名预测方法,包括以下步骤:
S1构建训练数据集,获取案件的事实描述以及罪名判罚结果作为训练数据;
S2构建序列增强胶囊网络模型并通过训练数据进行训练,包括以下步骤:
S2.1构建序列增强胶囊网络模型,具体步骤如下:
S2.1.1构建初始胶囊层:对案件的事实描述文本进行分词,并映射为词向量序列,将其作为初始胶囊层u={u1,u2,…,un};
S2.1.2构建Multiple seq-caps层:通过对S2.1.1得到的初始胶囊层u,利用Multiple seq-caps层提取特征,得到案件事实描述文本的主要特征向量,所述Multipleseq-caps层由两个seq-caps层组成;
S2.1.3构建基于注意力机制的残差单元层(attention层),对S2.1.1得到的初始胶囊层u使用注意力机制,得到案件事实描述文本的辅助特征向量c:
所述attention层如下:将初始胶囊层u中的n个初始胶囊ui,(i=1,2,…,n)通过权值矩阵W,得到一个经过矩阵变换后的向量ei,然后对向量ei,经过softmax函数,得到每一个初始胶囊ui的重要性权值αi,按照重要性权值将所有初始胶囊相加,最后得到案件事实描述文本的辅助特征向量c;公式如下所示:
ei=tanh(Wui+b)
Figure BDA0002058316800000031
Figure BDA0002058316800000032
其中W是权值矩阵,b是偏置向量。
S2.1.4构建输出层,将S2.1.2得到的案件事实描述文本的主要特征向量以及S2.1.3得到的案件事实描述文本的辅助特征向量c结合起来,并输送给全连层网络。
S2.2训练序列增强胶囊网络模型;
S3通过S2训练之后的序列增强胶囊网络模型,将新的案件的事实描述文本输入到序列胶囊网络模型中,模型自动预测相应罪名作为罪名预测结果。
进一步的,S1中的数据集来自于中国裁判文书网公开的真实刑事案件,每件案件包括两个部分:案件的事实描述和罪名判罚结果,将其作为训练数据。
进一步的,S2.1.1中分词采用的是北京大学开源工具pkuseg,并利用Embedding技术将Word2vec训练的词向量映射为词向量序列。
进一步的,S2.2中采用focal loss损失函数训练序列增强胶囊网络模型。
与现有技术相比:
(1)本发明提出了一种序列增强胶囊网络模型,该模型不仅能较好地捕捉到法律文本的显著特征和语义信息,而且在低频罪名预测问题上具有较好的竞争力。
(2)引入了focal loss损失函数,作为序列增强胶囊网络模型的损失函数,进一步缓解了低频罪名预测任务的罪名高度不平衡问题。
(3)通过比较目前最先进的方法,本发明提出的序列增加胶囊网络模型在真实数据集Criminal-S和Criminal-L中分别实现了4.5%和6.4%的F1提升。实验结果一致证明了序列增强胶囊网络模型在解决低频罪名场景中的优越性和竞争力。
附图说明
图1是本发明所述方法的流程图;
图2是本发明序列胶囊网络模型的示意图;
图3是本发明的Seq-caps层的示意图;
图4是本发明的Attention层的示意图。
具体实施方式
下面结合说明书附图和具体实施例对本发明做进一步阐述。
本发明的简要流程框图如图1所示,本发明基于序列胶囊网络模型的刑事案件罪名预测方法包括以下步骤:
S1构建训练数据集,获取案件的事实描述以及罪名判罚结果作为训练数据;
本发明在公开的三个真实数据集上进行实验,这些数据集均来自于中国裁判文书网中公开的三个刑事案件,获取案件的事实描述以及罪名判罚结果作为训练数据;由于公开的数据集中仅保留了案件的主罪名,因此,只需要将每个罪名映射为一个唯一的整数进行编码。
S2构建序列增强胶囊网络模型并通过训练数据进行训练,包括以下步骤:
S2.1构建序列增强胶囊网络模型,本发明的序列增强胶囊网络模型如图2所示。构建该模型包括以下步骤:
S2.1.1构建初始胶囊层:对案件的事实描述文本进行分词,并利用Embedding技术将Word2vec训练的词向量映射为词向量序列,将其作为初始胶囊层u={u1,u2,…,un}。
S2.1.2构建Multiple seq-caps层,通过对S2.1.1得到的初始胶囊层u,利用Multiple seq-caps层得到案件事实描述文本的主要特征向量。
所述Multiple seq-caps层由两个seq-caps层组成,对于每一个seq-caps层,如图3所示,由一个序列信息编码器(Sequence Information Encode)和一个动态路由转化器(Dynamic Routing)组成。本发明使用长短期记忆网络(LSTM)作为序列信息编码器。以第一个seq-caps层为例,将初始胶囊层u={u1,u2,…,un}传入到seq-caps层中,长短期记忆网络的公式如下:
ft=σ(Wfut+Ufht-1+bf),
it=σ(Wiut+Uiht-1+bi),
oT=σ(Wout+Uoht-1+bo),
Figure BDA0002058316800000051
Figure BDA0002058316800000052
ht=OtOtanh(ct)
通过上述公式求解第ht时刻的序列信息,其中ft、it、ot分别是LSTM的遗忘门、输入门、输出门,
Figure BDA0002058316800000053
表示当前是可时刻的候选值,ct表示当前时刻的状态,ht表示当前时刻的输出值,Wf、Wi、Wo、Wc均表示权重矩阵,Uf、Ui、Uo、Uc均表示权重矩阵,bf、bi、bo、bc表示偏置向量,ut表示当前输入值,ct-1表示上一时刻的状态,ht-1表示上一时刻的输出值,σ表示sigmoid函数。
然后将序列信息编码器的输出传到动态路由转化器中,首先将低层胶囊uj|i通过矩阵wj映射到低层胶囊副本。接着,低层胶囊副本利用动态路由机制将uj|i聚合成高层胶囊层,在这一步,得到了动态路由转化器的输出v={v1,v2,…,vn},v表示案件事实描述文本的主要特征向量。
S2.1.3构建基于注意力机制的残差单元层(attention层),对初始胶囊层u={u1,u2,…,un}使用注意力机制,得到案件事实描述文本的辅助特征向量c。
所述attention层如图4所示:
将初始胶囊层u中的n个初始胶囊ui,(i=1,2,…,n)通过权值矩阵W,得到一个经过矩阵变换后的向量ei,然后对向量ei,经过softmax函数,得到每一个初始胶囊ui的重要性权值αi,按照重要性权值将所有初始胶囊向量相加,最后得到案件事实描述文本的辅助特征向量c;公式如下所示:
ei=tanh(Wui+b)
Figure BDA0002058316800000054
Figure BDA0002058316800000055
其中W是权值矩阵,b是偏置向量。
S2.1.4构建输出层,将S2.1.2得到的案件事实描述文本的主要特征向量以及S2.1.3得到的案件事实描述文本的辅助特征向量c结合起来,并输送给全连层网络。
S2.2训练序列增强胶囊网络模型:利用focal loss损失函数训练S2.1得到的序列增强胶囊网络模型。所述focal loss损失函数公式如下式所示:
Figure BDA0002058316800000061
其中,
Figure BDA0002058316800000062
是通过softmax函数计算得到的模型估计概率,α是focal loss的α-balanced变量。
Figure BDA0002058316800000063
是一个调节因子,γ(γ≠0)为可调的参数,目的是为了提高调节因子的作用。
S3通过S2训练之后的序列增强胶囊网络模型,将新的案件的事实描述文本输入到序列胶囊网络模型中,模型自动预测相应罪名作为罪名预测结果。
为了说明本发明提出的基于序列胶囊网络的刑事案件罪名预测方法的有效性,本发明将其与几个经典的文本分类方法以及现有的两个最先进的罪名预测方法在三个数据集中进行比较。此外,为了证明本发明的模型在处理低频罪名预测方面的有效性,我们进行了一组不同频率的罪名预测实验。
表1显示了基于三个数据集的基线模型的结果。总的来说,本发明提出的基于序列胶囊网络的刑事案件罪名预测方法在三个数据集上的性能优于所有的基线,具有显著的优势。具体地,与之前最先进的罪名预测方法相比,本发明的模型利用F1评价指标,在三个数据集上分别获得了4.5%、2.5%和6.4%绝对可观的改进,说明了本发明提出的基于序列胶囊网络的刑事案件罪名预测方法对罪名预测任务的有效性。这一趋势表明本发明提出的基于序列胶囊网络的刑事案件罪名预测方法能够捕获对罪名预测至关重要的法律文本的高级语义表示。
表1:真实数据集下的罪名预测结果比较,其中MP表示macro precision,MR表示macro recall,F1表示macro f1。
Figure BDA0002058316800000064
低频罪名比较
表2:真实数据集下的低频罪名比较
Figure BDA0002058316800000065
为了进一步说明本发明提出的基于序列胶囊网络的刑事案件罪名预测方法在处理低频罪名方面的有效性,我们进行了一组不同频率的罪名分割实验。我们将罪名按频率分为三部分(低频、中频和高频)。低频定义为所有数据集中出现的罪名小于10次(含10次),高频定义为所有数据集中出现的罪名大于100次(除100次外),其他则属于中频。
表2显示了本发明提出的基于序列胶囊网络的刑事案件罪名预测方法在Criminal-S数据集上不同频率下的性能,我们比较了本发明的模型与最先进的罪名预测模型以及最先进的文本分类模型在macro-f1的低频、中频和高频结果。从表中可以看出,低频的macro-f1为53.8%,比LSTM-200模型提高了65%以上,比最先进的罪名预测模型提高了4.1%。在SECaps模型的帮助下,不仅缓解了低频罪名预测问题,而且提出了一种端到端的模型,减少了人工数据标记。其中SECaps模型具有较强的向量表示能力和序列表示能力,focal loss在处理分类不平衡和分类困难的问题上有较好的表现,可以缓解低频罪名预测的不足。

Claims (7)

1.一种基于序列增强胶囊网络的刑事案件罪名预测方法,其特征在于,该方法包括以下步骤:
S1构建训练数据集,获取案件的事实描述以及罪名判罚结果作为训练数据;
S2构建序列增强胶囊网络模型并通过训练数据进行训练,包括以下步骤:
S2.1构建序列增强胶囊网络模型,具体步骤如下:
S2.1.1构建初始胶囊层:对案件的事实描述文本进行分词,并映射为词向量序列,将其作为初始胶囊层u={u1,u2,…,un};
S2.1.2构建Multiple seq-caps层:通过对S2.1.1得到的初始胶囊层u,利用Multipleseq-caps层提取特征,得到案件事实描述文本的主要特征向量;
所述Multiple seq-caps层由两个seq-caps层组成;每一个seq-caps层由一个序列信息编码器和一个动态路由转化器组成;
S2.1.3构建attention层,对S2.1.1得到的初始胶囊层u使用注意力机制,得到案件事实描述文本的辅助特征向量c;
S2.1.4构建输出层,将S2.1.2得到的案件事实描述文本的主要特征向量以及S2.1.3得到的案件事实描述文本的辅助特征向量c结合起来,并输送给全连层网络;
S2.2训练序列增强胶囊网络模型;
S3通过S2训练之后的序列增强胶囊网络模型,将新的案件的事实描述文本输入到序列胶囊网络模型中,模型自动预测相应罪名作为罪名预测结果。
2.一种根据权利要求1所述基于序列增强胶囊网络的刑事案件罪名预测方法,其特征在于:S1中的数据集来自于中国裁判文书网公开的真实刑事案件,每件案件包括两个部分:案件的事实描述和罪名判罚结果,将其作为训练数据。
3.一种根据权利要求1所述基于序列增强胶囊网络的刑事案件罪名预测方法,其特征在于:S2.1.1中分词采用的是北京大学开源工具pkuseg,并利用Embedding技术将Word2vec训练的词向量映射为词向量序列。
4.一种根据权利要求1所述基于序列增强胶囊网络的刑事案件罪名预测方法,其特征在于:S2.1.2中,采用长短期记忆网络作为序列信息编码器。
5.一种根据权利要求1所述基于序列增强胶囊网络的刑事案件罪名预测方法,其特征在于:S2.1.3中,所述attention层如下:将初始胶囊层u中的n个初始胶囊ui,(i=1,2,…,n)通过权值矩阵W,得到一个经过矩阵变换后的向量ei,然后对向量ei,经过softmax函数,得到每一个初始胶囊ui的重要性权值αi,按照重要性权值将所有初始胶囊相加,最后得到案件事实描述文本的辅助特征向量c;公式如下所示:
ei=tanh(Wui+b)
Figure FDA0002780658540000011
Figure FDA0002780658540000021
其中W是权值矩阵,b是偏置向量。
6.一种根据权利要求1所述基于序列增强胶囊网络的刑事案件罪名预测方法,其特征在于:S2.2中,采用focal loss损失函数训练序列增强胶囊网络模型。
7.一种根据权利要求6所述基于序列增强胶囊网络的刑事案件罪名预测方法,其特征在于:所述focal loss损失函数公式如下式所示:
Figure FDA0002780658540000022
其中,
Figure FDA0002780658540000023
是通过softmax函数计算得到的模型估计概率,α是focal loss的α-balanced变量,
Figure FDA0002780658540000024
是一个调节因子,γ(γ≠0)为可调的参数,目的是为了提高调节因子的作用。
CN201910396510.8A 2019-05-14 2019-05-14 一种基于序列增强胶囊网络的刑事案件罪名预测方法 Active CN110119449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910396510.8A CN110119449B (zh) 2019-05-14 2019-05-14 一种基于序列增强胶囊网络的刑事案件罪名预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910396510.8A CN110119449B (zh) 2019-05-14 2019-05-14 一种基于序列增强胶囊网络的刑事案件罪名预测方法

Publications (2)

Publication Number Publication Date
CN110119449A CN110119449A (zh) 2019-08-13
CN110119449B true CN110119449B (zh) 2020-12-25

Family

ID=67522206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910396510.8A Active CN110119449B (zh) 2019-05-14 2019-05-14 一种基于序列增强胶囊网络的刑事案件罪名预测方法

Country Status (1)

Country Link
CN (1) CN110119449B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179971A (zh) * 2019-12-03 2020-05-19 杭州网易云音乐科技有限公司 无损音频检测方法、装置、电子设备及存储介质
CN111260114B (zh) * 2020-01-08 2022-06-17 昆明理工大学 融入案件辅助句的低频和易混淆罪名预测方法
CN113111895A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于支持向量机的处警警情类别确定方法和装置
CN111985680B (zh) * 2020-07-10 2022-06-14 昆明理工大学 基于胶囊网络与时序的刑事多罪名预测方法
CN111881654B (zh) * 2020-08-01 2023-07-18 牡丹江师范学院 一种基于多目标优化的刑罚测试数据扩增方法
CN112101559B (zh) * 2020-09-04 2023-08-04 中国航天科工集团第二研究院 一种基于机器学习的案件罪名推断方法
CN112231477B (zh) * 2020-10-20 2023-09-22 淮阴工学院 一种基于改进胶囊网络的文本分类方法
CN112256916B (zh) * 2020-11-12 2021-06-18 中国计量大学 一种基于图胶囊网络的短视频点击率预测方法
CN113033174B (zh) * 2021-03-23 2022-06-10 哈尔滨工业大学 一种基于输出型相似门的案件分类方法、装置及存储介质
CN114781389B (zh) * 2022-03-04 2024-04-05 重庆大学 一种基于标签增强表示的罪名预测方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241285A (zh) * 2018-08-29 2019-01-18 东南大学 一种基于机器学习的辅助司法案件判决的装置
CN109344839A (zh) * 2018-08-07 2019-02-15 北京市商汤科技开发有限公司 图像处理方法和装置、电子设备、存储介质、程序产品
CN109410575A (zh) * 2018-10-29 2019-03-01 北京航空航天大学 一种基于胶囊网络和嵌套式长短时记忆神经网络的路网状态预测方法
CN109740148A (zh) * 2018-12-16 2019-05-10 北京工业大学 一种BiLSTM结合Attention机制的文本情感分析方法
CN110097096A (zh) * 2019-04-16 2019-08-06 天津大学 一种基于tf-idf矩阵和胶囊网络的文本分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10482619B2 (en) * 2017-07-27 2019-11-19 AI Incorporated Method and apparatus for combining data to construct a floor plan

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344839A (zh) * 2018-08-07 2019-02-15 北京市商汤科技开发有限公司 图像处理方法和装置、电子设备、存储介质、程序产品
CN109241285A (zh) * 2018-08-29 2019-01-18 东南大学 一种基于机器学习的辅助司法案件判决的装置
CN109410575A (zh) * 2018-10-29 2019-03-01 北京航空航天大学 一种基于胶囊网络和嵌套式长短时记忆神经网络的路网状态预测方法
CN109740148A (zh) * 2018-12-16 2019-05-10 北京工业大学 一种BiLSTM结合Attention机制的文本情感分析方法
CN110097096A (zh) * 2019-04-16 2019-08-06 天津大学 一种基于tf-idf矩阵和胶囊网络的文本分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Study on Text Classification using Capsule Networks;Rahul Katarya 等;《2019 5th International Conference on Advanced Computing & Communication Systems(ICACCS)》;20190316;第501-505页 *
基于自注意力与动态路由的文本建模方法;沈炜域;《软件导刊》;20190115(第1期);第56-60、64页 *
时间序列数据的胶囊式LSTM特征提取算法研究;郑毅;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115(第1期);第A002-1265页 *

Also Published As

Publication number Publication date
CN110119449A (zh) 2019-08-13

Similar Documents

Publication Publication Date Title
CN110119449B (zh) 一种基于序列增强胶囊网络的刑事案件罪名预测方法
CN106777013A (zh) 对话管理方法和装置
CN115114455A (zh) 一种基于本体的多粒度城市暴雨内涝知识图谱构建方法
CN112069825B (zh) 面向警情笔录数据的实体关系联合抽取方法
CN116150509B (zh) 社交媒体网络的威胁情报识别方法、***、设备及介质
Bedi et al. CitEnergy: A BERT based model to analyse Citizens’ Energy-Tweets
CN117237559B (zh) 面向数字孪生城市的三维模型数据智能分析方法及***
Li et al. Zero-shot surface defect recognition with class knowledge graph
CN117574898A (zh) 基于电网设备的领域知识图谱更新方法及***
CN117349437A (zh) 基于智能ai的政府信息管理***及其方法
CN114742071A (zh) 基于图神经网络的汉越跨语言观点对象识别分析方法
CN110889505A (zh) 一种图文序列匹配的跨媒体综合推理方法和***
Yao et al. Fuzzy representation learning on dynamic graphs
Zhu et al. Causality extraction model based on two-stage GCN
Sathiyaprasad Ontology-based video retrieval using modified classification technique by learning in smart surveillance applications
CN116050523A (zh) 一种基于混合知识图的注意力引导增强的常识推理框架
CN110633394A (zh) 基于特征加强的图压缩方法
CN115878800A (zh) 一种融合共现图和依赖关系图的双图神经网络及其构建方法
CN115965085A (zh) 一种基于知识图谱技术的船舶静态属性推理方法及***
Hu et al. Adaptive cross-stitch graph convolutional networks
CN112307914B (zh) 一种基于文本信息指导的开放域图像内容识别方法
Gao et al. Command2Vec: Feature Learning of 3D Modeling Behavior Sequence—A Case Study on “Spiral-stair”
Agbesi et al. Attention based BiGRU-2DCNN with hunger game search technique for low-resource document-level sentiment classification
Lapertot et al. Supervised learning of hierarchical image segmentation
Zhang et al. [Retracted] Temporal and Spatial Differences of Urban Ecological Environment and Economic Development Based on Graph Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant