CN112132710A - 法律要素处理方法、装置、电子设备及存储介质 - Google Patents
法律要素处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112132710A CN112132710A CN202011010742.4A CN202011010742A CN112132710A CN 112132710 A CN112132710 A CN 112132710A CN 202011010742 A CN202011010742 A CN 202011010742A CN 112132710 A CN112132710 A CN 112132710A
- Authority
- CN
- China
- Prior art keywords
- legal
- documents
- document
- legal element
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 48
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000012015 optical character recognition Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims description 18
- 238000005457 optimization Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 238000000586 desensitisation Methods 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 4
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 24
- 238000011161 development Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Marketing (AREA)
- Technology Law (AREA)
- Software Systems (AREA)
- Bioethics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Multimedia (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及大数据处理技术领域,提供一种法律要素处理方法、装置、电子设备及存储介质,该方法包括:获取法律图像文件;对法律图像文件进行光学字符识别OCR识别,获得法律文书;将法律文书输入至智能编目模型,获得法律文书的多个类别文书;将每个类别文书输入至要素抽取模型,获得类别文书中的第一法律要素;从第一法律要素中提取事件信息;判断事件信息的事件类型是否属于重点关注事件类型;若事件信息的事件类型属于重点关注事件类型,通过法律要素知识图谱查询与第一法律要素相关的关联法律要素;输出第一法律要素以及关联法律要素。本发明可应用在智慧政务、智慧法律等需要进行法律要素处理的领域,从而推动智慧城市的发展。
Description
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种法律要素处理方法、装置、电子设备及存储介质。
背景技术
随着互联网+和司法行业的信息化,法院等司法机关积累了大量的卷宗数据,但现阶段这些卷宗均以图片等非结构化数据的方式进行存储,停留在存档留存使用。
现有技术中,通常是采用正则表达式去匹配以提取非结构化数据,然而,这些以图片形式存在的非结构化数据却很难用正则表达式去匹配。
因此,如何提取图片形式的非结构化数据是一个亟待解决的技术问题。
发明内容
鉴于以上内容,有必要提供一种法律要素处理方法、装置、电子设备及存储介质,能够提高要素提取的效率。
本发明的第一方面提供一种法律要素处理方法,所述方法包括:
获取法律图像文件;
对所述法律图像文件进行光学字符识别OCR识别,获得法律文书;
将所述法律文书输入至预先训练的智能编目模型,获得所述法律文书的多个类别文书;
将每个所述类别文书输入至要素抽取模型,获得所述类别文书中的第一法律要素;
从所述第一法律要素中提取事件信息;
判断所述事件信息的事件类型是否属于重点关注事件类型;
若所述事件信息的事件类型属于重点关注事件类型,通过法律要素知识图谱查询与所述第一法律要素相关的关联法律要素;
输出所述第一法律要素以及所述关联法律要素。
在一种可能的实现方式中,所述将所述法律文书输入至预先训练的智能编目模型,获得所述法律文书的多个类别文书包括:
将所述法律文书输入至预先训练的智能编目模型;
获取所述法律文书任意相邻的两页的相关度;
若所述相关度大于预设相关度阈值,将所述相邻的两页划分为一类文书;
识别每类文书的标题行,并统计每类文书的页码范围;
根据每类文书的标题行以及所述页码范围,生成所述法律文书的多个类别文书。
在一种可能的实现方式中,所述法律要素处理方法还包括:
接收第一用户对所述多个类别文书的第一反馈信息;
若所述第一反馈信息表明所述多个类别文书中存在分类错误的类别文书,获取所述第一用户对所述分类错误的类别文书进行修改后的目标类别文书;
判断当前时间是否处于预设的低频时间范围内;
若所述当前时间处于预设的低频时间范围内,使用所述目标类别文书对所述智能编目模型进行优化训练,获得优化后的智能编目模型。
在一种可能的实现方式中,所述法律要素处理方法还包括:
接收第二用户对所述第一法律要素的第二反馈信息;
若所述第二反馈信息表明所述第一法律要素中存在标注错误的法律要素,获取所述第二用户对所述标注错误的法律要素进行修改后的目标法律要素;
判断当前时间是否处于预设的低频时间范围内;
若所述当前时间不处于预设的低频时间范围内,判断所述目标法律要素是否属于重要法律要素列表中的法律要素;
若所述目标法律要素属于重要法律要素列表中的法律要素,监测电子设备的剩余计算资源;
若所述剩余计算资源超过预设资源阈值,使用所述目标法律要素对所述要素抽取模型进行优化训练,获得优化后的要素抽取模型。
在一种可能的实现方式中,所述法律要素处理方法还包括:
获取预设法律参数;
判断所述预设法律参数与所述第一法律要素是否匹配;
若所述预设法律参数中存在与所述第一法律要素不匹配的目标法律参数,从所述类别文书中查找与所述目标法律参数匹配的第二法律要素;
若所述第二法律要素为所述要素抽取模型未提取的法律要素,判断所述第二法律要素是否属于所述类别文书的关键要素;
若所述第二法律要素属于所述类别文书的关键要素,使用所述第二法律要素对所述要素抽取模型进行优化训练,获得优化后的要素抽取模型。
在一种可能的实现方式中,所述法律要素处理方法还包括:
对所述法律图像文件中的所述第一法律要素进行脱敏处理,获得脱敏图像;
获取所述法律图像文件的文件标识;
根据所述文件标识以及所述第一法律要素,生成第一签名;
对所述第一签名进行加密,生成第一访问密钥;
建立所述脱敏图像和所述第一访问密钥的绑定关系。
在一种可能的实现方式中,所述法律要素处理方法还包括:
接收针对所述脱敏图像的访问请求,所述访问请求携带有第二访问密钥;
查询预设的绑定关系中所述脱敏图像对应的第一访问密钥;
使用所述第一访问密钥,对所述第二访问密钥进行校验;
若校验通过,输出所述脱敏图像中隐藏的所述第一法律要素。
本发明的第二方面提供一种法律要素处理装置,所述装置包括:
获取模块,用于获取法律图像文件;
识别模块,用于对所述法律图像文件进行光学字符识别OCR识别,获得法律文书;
输入模块,用于将所述法律文书输入至预先训练的智能编目模型,获得所述法律文书的多个类别文书;
所述输入模块,还用于将每个所述类别文书输入至要素抽取模型,获得所述类别文书中的第一法律要素;
提取模块,用于从所述第一法律要素中提取事件信息;
判断模块,用于判断所述事件信息的事件类型是否属于重点关注事件类型;
查询模块,用于若所述事件信息的事件类型属于重点关注事件类型,通过法律要素知识图谱查询与所述第一法律要素相关的关联法律要素;
输出模块,用于输出所述第一法律要素以及所述关联法律要素。
本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的法律要素处理方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的法律要素处理方法。
由以上技术方案可知,本发明可应用在智慧政务、智慧法律等需要进行法律要素处理的领域,从而推动智慧城市的发展。本发明中,在对法律图像文件进行识别获得法律文书之后,可以通过智能编目模型以及要素抽取模型,自动化地对所述法律文书进行分类,同时获得每个类别文书的第一法律要素,此外,如果第一法律要素涉及到的事件信息的事件类型属于重点关注事件类型,还可以通过法律要素知识图谱查询与第一法律要素相关的关联法律要素,整个过程,不仅实现了自动化提取法律要素,提高了法律要素提取的效率,同时,还扩展了相关联的法律要素,使得法律要素提取的更全面,挖掘出的数据更有参考价值。
附图说明
图1是本发明公开的一种法律要素处理方法的较佳实施例的流程图。
图2是本发明公开的一种法律要素处理装置的较佳实施例的功能模块图。
图3是本发明实现法律要素处理方法的较佳实施例的电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
其中,所述电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、嵌入式设备等。所述电子设备还可包括网络设备和/或用户设备。其中,所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云。所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理PDA等。
请参见图1,图1是本发明公开的一种法律要素处理方法的较佳实施例的流程图。其中,根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
S11、获取法律图像文件。
其中,可以通过接口读取批量的文件,以获得法律图像文件。
其中,该法律图像文件的数据形式可以为pdf格式,也可以为图像格式,比如bmp、jpg、png、tif、gif、pcx、tga、exif以及fpx。
S12、对所述法律图像文件进行光学字符识别OCR识别,获得法律文书。
其中,OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
其中,OCR可以识别出法律图像文件上的文字和位置,会在原始的法律图像文件上进行显示,用户可以在原始的法律图像文件上对识别出来的文字复制、黏贴和修改。
可选的,为了提高法律文书处理的效率和准确度,在将法律文书输入模型之前,可以对所述法律文书进行预处理,所述预处理包括以下至少一项:异常换行处理,中文金额处理,中文数字转***数字,标点格式统一,非法字符替换以及错别字处理。
S13、将所述法律文书输入至预先训练的智能编目模型,获得所述法律文书的多个类别文书。
其中,智能编目模型可以区分法律文书的类别(比如起诉状、讯问笔录、身份证、驾驶证……),可以对每个类别的法律文书进行编目(即编辑每种类别的页面范围)。
具体的,所述将所述法律文书输入至预先训练的智能编目模型,获得所述法律文书的多个类别文书包括:
将所述法律文书输入至预先训练的智能编目模型;
获取所述法律文书任意相邻的两页的相关度;
若所述相关度大于预设相关度阈值,将所述相邻的两页划分为一类文书;
识别每类文书的标题行,并统计每类文书的页码范围;
根据每类文书的标题行以及所述页码范围,生成所述法律文书的多个类别文书。
在该可选的实施方式中,可以采用序列标注任务,在智能编目模型中输入一份法律文书,依次计算所述法律文书相邻的两页的相关度,如果任意相邻的两页的相关度大于预设相关度阈值,表明该任意相邻的两页的内容相关,属于同一类,此外,还可以将标题行检出任务转换成二分类任务,识别每类文书每页中的每行是否为标题行,并统计每类文书的页码范围;根据每类文书的标题行以及所述页码范围,生成所述法律文书的多个类别文书。其中,每行是否为标题行,与其文本、位置,其他行的位置、内容有关。
可选的,所述方法还包括:
接收第一用户对所述多个类别文书的第一反馈信息;
若所述第一反馈信息表明所述多个类别文书中存在分类错误的类别文书,获取所述第一用户对所述分类错误的类别文书进行修改后的目标类别文书;
判断当前时间是否处于预设的低频时间范围内;
若所述当前时间处于预设的低频时间范围内,使用所述目标类别文书对所述智能编目模型进行优化训练,获得优化后的智能编目模型。
在该可选的实施方式中,可以预先统计业务(即需要使用智能编目模型提取法律文书的业务)运行的时间,根据业务运行的时间来确定业务的低频时间范围,比如每日24:00。其中,低频时间范围指的是业务的低频时间,也即在该低频时间范围内,使用智能编目模型提取法律文书的频率较小。在该低频时间范围内,业务暂停工作,或者业务工作的力度较小,在低频时间范围内对用户的影响也是最小的。本发明中,在获取所述第一用户对所述分类错误的类别文书进行修改后的目标类别文书之后,并不会立即去训练模型,而是在所述当前时间处于预设的低频时间范围内时,采用所述目标类别文书对所述智能编目模型进行优化训练,获得优化后的智能编目模型,从而可以将对用户的影响降低到最小,同时,还及时地对算法模型进行调优。
其中,经过编目后的多个类别文书,会经过人员进行审核确认,如果模型标注错误,审核人员会进行修改,修改过的结果会反馈回来。该实施例采用了增量学习对智能编目模型进行自优化。通过不断输入训练数据,使得智能编目模型处于一个动态优化的状态,提高了模型的准确性和模型的泛化能力。
S14、将每个所述类别文书输入至要素抽取模型,获得所述类别文书中的第一法律要素。
其中,第一法律要素即在相应的类别文书中找到重要的内容信息,这些内容信息是根据业务需要进行定义的,比如:当事人的姓名、住址、事件信息等。要素抽取采用中文序列标注方法BIO(B-begin,I-inside,O-outside)方法,使用隐马尔科夫模型或者条件随机场等传统方法。本发明使用自主研发的半自动的序列标注***—基于双向的LSTM模型,CRF模型以及词库积累的中文序列标注***。
具体的,可以对输入的类别文书进行embeding,可以采用one-hot,TF-IDF(termfrequency–inverse document frequency,词频-逆文本频率指数),word2vec等方法对类别文书的词进行编码。采用BI-LSTM神经模型更好的捕捉双向的语义依赖。以BI-LSTM层的输出作为CRF(Conditional RandomField)层的输入,可以通过学习数据集中不同标签label间的转移概率从而修正Bi-LSTM层的输出。根据CRF层输入的概率值,判断某个要素在句子中的开始和结束,比如y1输出B代表该要素的开始,y2输出E代表该要素结束。
可选的,所述方法还包括:
接收第二用户对所述第一法律要素的第二反馈信息;
若所述第二反馈信息表明所述第一法律要素中存在标注错误的法律要素,获取所述第二用户对所述标注错误的法律要素进行修改后的目标法律要素;
判断当前时间是否处于预设的低频时间范围内;
若所述当前时间不处于预设的低频时间范围内,判断所述目标法律要素是否属于重要法律要素列表中的法律要素;
若所述目标法律要素属于重要法律要素列表中的法律要素,监测电子设备的剩余计算资源;
若所述剩余计算资源超过预设资源阈值,使用所述目标法律要素对所述要素抽取模型进行优化训练,获得优化后的要素抽取模型。
其中,该实施方式针对的场景是要素抽取模型提取出来的法律要素出现错误的情况。经过要素抽取后的第一法律要素,会经过人员进行审核确认,如果模型标注错误,审核人员会进行修改,修改过的结果会反馈回来。
在该可选的实施方式中,在当前时间不处于预设的低频时间范围内,且所述目标法律要素属于重要法律要素列表中的法律要素的情况下,为了适应业务的发展需求,需要及时地进行算法训练,但是训练会占用电子设备的计算资源,如果计算资源不足,会导致电子设备崩溃。因此,还需要监测电子设备的剩余计算资源,当剩余计算资源超过预设资源阈值时,表明在确保当前业务的正常运行所需要的计算资源的情况下,剩余的计算资源仍能够确保算法模型的训练,此时,可以使用所述目标法律要素对所述要素抽取模型进行优化训练,获得优化后的要素抽取模型。
其中,重要法律要素列表即预先设置的比较重要的法律要素组合构成的列表。该预设资源阈值即算法模型训练需要的计算资源的最小值。计算资源一般指计算机程序运行时所需的CPU资源、内存资源、硬盘资源和网络资源。
该实施例采用了增量学习对要素抽取模型进行自优化。通过该实施方式,既可以确保当前业务的正常运行,又可以及时的对算法模型进行训练,及时地对算法模型进行调优,以适应业务的发展需求。同时,通过不断输入训练数据,使得智能编目模型处于一个动态优化的状态,提高了模型的准确性和模型的泛化能力。
可选的,所述方法还包括:
获取预设法律参数;
判断所述预设法律参数与所述第一法律要素是否匹配;
若所述预设法律参数中存在与所述第一法律要素不匹配的目标法律参数,从所述类别文书中查找与所述目标法律参数匹配的第二法律要素;
若所述第二法律要素为所述要素抽取模型未提取的法律要素,判断所述第二法律要素是否属于所述类别文书的关键要素;
若所述第二法律要素属于所述类别文书的关键要素,使用所述第二法律要素对所述要素抽取模型进行优化训练,获得优化后的要素抽取模型。
在该可选的实施方式中,可以预先设置一些预设法律参数,该预设法律参数没有具体的内容,只是一个变量参数而已。在提取到第一法律要素之后,可以将所述预设法律参数与所述第一法律要素进行匹配,以判断设置的预设法律参数对应的法律要素是否全部被提取出来,如果所述预设法律参数中存在与所述第一法律要素不匹配的目标法律参数,表明该要素抽取模型并未将所有的法律要素提取出来,因此还需要进一步从所述类别文书中查找与所述目标法律参数匹配的第二法律要素,如果第二法律要素属于所述类别文书的关键要素,需要及时地使用所述第二法律要素对所述要素抽取模型进行优化训练,以适应业务的需求。反之,如果第二法律要素不属于所述类别文书的关键要素,那就不需要使用所述第二法律要素对所述要素抽取模型进行优化训练了。
其中,该实施方式针对的场景是要素抽取模型没有将所有的法律要素提取出来的情况,这种情况下,如果未被提取出来的法律要素属于关键要素,就需要采用该未被提取出来的法律要素对模型进行优化训练,以便优化后的模型能适应业务的需求,提高模型的准确性和泛化能力。
S15、从所述第一法律要素中提取事件信息。
其中,该事件信息即该类别文书对应的案由事件的相关信息。
S16、判断所述事件信息的事件类型是否属于重点关注事件类型。
其中,重点关注事件类型比如重大的交通事故事件、恶劣地损坏人身财产安全事件、泄露国家机密事件等等。
S17、若所述事件信息的事件类型属于重点关注事件类型,通过法律要素知识图谱查询与所述第一法律要素相关的关联法律要素。
其中,可以预先建立法律要素知识图谱,该法律要素知识图谱中包括多个法律要素以及各个法律要素之间的关联关系。比如,采用法律要素知识图谱,可以查询到与当事人相关联的其他用户,也可以查询到与当事人关联的其他事件等等关联法律要素。
S18、输出所述第一法律要素以及所述关联法律要素。
其中,输出的法律要素不仅包括用户想要从类别文书中提取的法律要素,还包括相关的关联法律要素,通过这种扩展方式,可以使得法律要素提取的更全面,挖掘出的数据更有参考价值。
可选的,为了数据的私密性和安全性,可以将所述第一法律要素以及所述关联法律要素发送至区块链上。
可选的,所述方法还包括:
对所述法律图像文件中的所述第一法律要素进行脱敏处理,获得脱敏图像;
获取所述法律图像文件的文件标识;
根据所述文件标识以及所述第一法律要素,生成第一签名;
对所述第一签名进行加密,生成第一访问密钥;
建立所述脱敏图像和所述第一访问密钥的绑定关系。
在该可选的实施方式中,提取出来的第一法律要素通常是比较敏感的信息,为了防止非法用户肆意套用该法律图像文件中的信息,需要对法律图像文件中的所述第一法律要素进行脱敏处理,同时,生成第一访问密钥,并建立二者之间的绑定关系,以防止敏感信息的泄露,保护数据的安全。
可选的,所述方法还包括:
接收针对所述脱敏图像的访问请求,所述访问请求携带有第二访问密钥;
查询预设的绑定关系中所述脱敏图像对应的第一访问密钥;
使用所述第一访问密钥,对所述第二访问密钥进行校验;
若校验通过,输出所述脱敏图像中隐藏的所述第一法律要素。
在该可选的实施方式中,当用户需要访问脱敏图像中的敏感信息时,需要使用所述第一访问密钥,对所述第二访问密钥进行校验,只有第二访问密钥的第二签名与第一访问密钥的第一签名完全相同时,校验才能通过,才可以输出脱敏图像中隐藏的所述第一法律要素,从而能够避免敏感信息的泄露,保护数据的安全。
在图1所描述的方法流程中,在对法律图像文件进行识别获得法律文书之后,可以通过智能编目模型以及要素抽取模型,自动化地对所述法律文书进行分类,同时获得每个类别文书的第一法律要素,此外,如果第一法律要素涉及到的事件信息的事件类型属于重点关注事件类型,还可以通过法律要素知识图谱查询与第一法律要素相关的关联法律要素,整个过程,不仅实现了自动化提取法律要素,提高了法律要素提取的效率,同时,还扩展了相关联的法律要素,使得法律要素提取的更全面,挖掘出的数据更有参考价值。
由以上实施例可知,本发明可应用在智慧政务、智慧法律等需要进行法律要素处理的领域,从而推动智慧城市的发展。以上所述,仅是本发明的具体实施方式,但本发明的保护范围并不局限于此,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出改进,但这些均属于本发明的保护范围。
请参见图2,图2是本发明公开的一种法律要素处理装置的较佳实施例的功能模块图。
在一些实施例中,所述法律要素处理装置运行于电子设备中。所述法律要素处理装置可以包括多个由程序代码段所组成的功能模块。所述法律要素处理装置中的各个程序段的程序代码可以存储于存储器中,并由至少一个处理器所执行,以执行图1所描述的法律要素处理方法中的部分或全部步骤,具体请参考图1中的相关描述,在此不再赘述。
本实施例中,所述法律要素处理装置根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:获取模块201、识别模块202、输入模块203、提取模块204、判断模块205、查询模块206及输出模块207。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。
获取模块201,用于获取法律图像文件。
识别模块202,用于对所述法律图像文件进行光学字符识别OCR识别,获得法律文书。
输入模块203,用于将所述法律文书输入至预先训练的智能编目模型,获得所述法律文书的多个类别文书。
所述输入模块203,还用于将每个所述类别文书输入至要素抽取模型,获得所述类别文书中的第一法律要素。
提取模块204,用于从所述第一法律要素中提取事件信息。
判断模块205,用于判断所述事件信息的事件类型是否属于重点关注事件类型。
查询模块206,用于若所述事件信息的事件类型属于重点关注事件类型,通过法律要素知识图谱查询与所述第一法律要素相关的关联法律要素。
输出模块207,用于输出所述第一法律要素以及所述关联法律要素。
在图2所描述的法律要素处理装置中,在对法律图像文件进行识别获得法律文书之后,可以通过智能编目模型以及要素抽取模型,自动化地对所述法律文书进行分类,同时获得每个类别文书的第一法律要素,此外,如果第一法律要素涉及到的事件信息的事件类型属于重点关注事件类型,还可以通过法律要素知识图谱查询与第一法律要素相关的关联法律要素,整个过程,不仅实现了自动化提取法律要素,提高了法律要素提取的效率,同时,还扩展了相关联的法律要素,使得法律要素提取的更全面,挖掘出的数据更有参考价值。
如图3所示,图3是本发明实现法律要素处理方法的较佳实施例的电子设备的结构示意图。所述电子设备3包括存储器31、至少一个处理器32、存储在所述存储器31中并可在所述至少一个处理器32上运行的计算机程序33及至少一条通讯总线34。
本领域技术人员可以理解,图3所示的示意图仅仅是所述电子设备3的示例,并不构成对所述电子设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备3还可以包括输入输出设备、网络接入设备等。
所述至少一个处理器32可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。该处理器32可以是微处理器或者该处理器32也可以是任何常规的处理器等,所述处理器32是所述电子设备3的控制中心,利用各种接口和线路连接整个电子设备3的各个部分。
所述存储器31可用于存储所述计算机程序33和/或模块/单元,所述处理器32通过运行或执行存储在所述存储器31内的计算机程序和/或模块/单元,以及调用存储在存储器31内的数据,实现所述电子设备3的各种功能。所述存储器31可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备3的使用所创建的数据等。此外,存储器31可以包括易失性和非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他存储器件。
结合图1,所述电子设备3中的所述存储器31存储多个指令以实现一种法律要素处理方法,所述处理器32可执行所述多个指令从而实现:
获取法律图像文件;
对所述法律图像文件进行光学字符识别OCR识别,获得法律文书;
将所述法律文书输入至预先训练的智能编目模型,获得所述法律文书的多个类别文书;
将每个所述类别文书输入至要素抽取模型,获得所述类别文书中的第一法律要素;
从所述第一法律要素中提取事件信息;
判断所述事件信息的事件类型是否属于重点关注事件类型;
若所述事件信息的事件类型属于重点关注事件类型,通过法律要素知识图谱查询与所述第一法律要素相关的关联法律要素;
输出所述第一法律要素以及所述关联法律要素。
具体地,所述处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在图3所描述的电子设备3中,在对法律图像文件进行识别获得法律文书之后,可以通过智能编目模型以及要素抽取模型,自动化地对所述法律文书进行分类,同时获得每个类别文书的第一法律要素,此外,如果第一法律要素涉及到的事件信息的事件类型属于重点关注事件类型,还可以通过法律要素知识图谱查询与第一法律要素相关的关联法律要素,整个过程,不仅实现了自动化提取法律要素,提高了法律要素提取的效率,同时,还扩展了相关联的法律要素,使得法律要素提取的更全面,挖掘出的数据更有参考价值。
所述电子设备3集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器以及只读存储器(ROM,Read-Only Memory)、随机存取存储器等。
在本发明所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。***权利要求中陈述的多个单元或装置也可以通过软件或者硬件来实现。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种法律要素处理方法,其特征在于,所述法律要素处理方法包括:
获取法律图像文件;
对所述法律图像文件进行光学字符识别OCR识别,获得法律文书;
将所述法律文书输入至预先训练的智能编目模型,获得所述法律文书的多个类别文书;
将每个所述类别文书输入至要素抽取模型,获得所述类别文书中的第一法律要素;
从所述第一法律要素中提取事件信息;
判断所述事件信息的事件类型是否属于重点关注事件类型;
若所述事件信息的事件类型属于重点关注事件类型,通过法律要素知识图谱查询与所述第一法律要素相关的关联法律要素;
输出所述第一法律要素以及所述关联法律要素。
2.根据权利要求1所述的法律要素处理方法,其特征在于,所述将所述法律文书输入至预先训练的智能编目模型,获得所述法律文书的多个类别文书包括:
将所述法律文书输入至预先训练的智能编目模型;
获取所述法律文书任意相邻的两页的相关度;
若所述相关度大于预设相关度阈值,将所述相邻的两页划分为一类文书;
识别每类文书的标题行,并统计每类文书的页码范围;
根据每类文书的标题行以及所述页码范围,生成所述法律文书的多个类别文书。
3.根据权利要求1所述的法律要素处理方法,其特征在于,所述法律要素处理方法还包括:
接收第一用户对所述多个类别文书的第一反馈信息;
若所述第一反馈信息表明所述多个类别文书中存在分类错误的类别文书,获取所述第一用户对所述分类错误的类别文书进行修改后的目标类别文书;
判断当前时间是否处于预设的低频时间范围内;
若所述当前时间处于预设的低频时间范围内,使用所述目标类别文书对所述智能编目模型进行优化训练,获得优化后的智能编目模型。
4.根据权利要求1所述的法律要素处理方法,其特征在于,所述法律要素处理方法还包括:
接收第二用户对所述第一法律要素的第二反馈信息;
若所述第二反馈信息表明所述第一法律要素中存在标注错误的法律要素,获取所述第二用户对所述标注错误的法律要素进行修改后的目标法律要素;
判断当前时间是否处于预设的低频时间范围内;
若所述当前时间不处于预设的低频时间范围内,判断所述目标法律要素是否属于重要法律要素列表中的法律要素;
若所述目标法律要素属于重要法律要素列表中的法律要素,监测电子设备的剩余计算资源;
若所述剩余计算资源超过预设资源阈值,使用所述目标法律要素对所述要素抽取模型进行优化训练,获得优化后的要素抽取模型。
5.根据权利要求1所述的法律要素处理方法,其特征在于,所述法律要素处理方法还包括:
获取预设法律参数;
判断所述预设法律参数与所述第一法律要素是否匹配;
若所述预设法律参数中存在与所述第一法律要素不匹配的目标法律参数,从所述类别文书中查找与所述目标法律参数匹配的第二法律要素;
若所述第二法律要素为所述要素抽取模型未提取的法律要素,判断所述第二法律要素是否属于所述类别文书的关键要素;
若所述第二法律要素属于所述类别文书的关键要素,使用所述第二法律要素对所述要素抽取模型进行优化训练,获得优化后的要素抽取模型。
6.根据权利要求1所述的法律要素处理方法,其特征在于,所述法律要素处理方法还包括:
对所述法律图像文件中的所述第一法律要素进行脱敏处理,获得脱敏图像;
获取所述法律图像文件的文件标识;
根据所述文件标识以及所述第一法律要素,生成第一签名;
对所述第一签名进行加密,生成第一访问密钥;
建立所述脱敏图像和所述第一访问密钥的绑定关系。
7.根据权利要求6所述的法律要素处理方法,其特征在于,所述法律要素处理方法还包括:
接收针对所述脱敏图像的访问请求,所述访问请求携带有第二访问密钥;
查询预设的绑定关系中所述脱敏图像对应的第一访问密钥;
使用所述第一访问密钥,对所述第二访问密钥进行校验;
若校验通过,输出所述脱敏图像中隐藏的所述第一法律要素。
8.一种法律要素处理装置,其特征在于,所述法律要素处理装置包括:
获取模块,用于获取法律图像文件;
识别模块,用于对所述法律图像文件进行光学字符识别OCR识别,获得法律文书;
输入模块,用于将所述法律文书输入至预先训练的智能编目模型,获得所述法律文书的多个类别文书;
所述输入模块,还用于将每个所述类别文书输入至要素抽取模型,获得所述类别文书中的第一法律要素;
提取模块,用于从所述第一法律要素中提取事件信息;
判断模块,用于判断所述事件信息的事件类型是否属于重点关注事件类型;
查询模块,用于若所述事件信息的事件类型属于重点关注事件类型,通过法律要素知识图谱查询与所述第一法律要素相关的关联法律要素;
输出模块,用于输出所述第一法律要素以及所述关联法律要素。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1至7中任意一项所述的法律要素处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现如权利要求1至7任意一项所述的法律要素处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011010742.4A CN112132710B (zh) | 2020-09-23 | 2020-09-23 | 法律要素处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011010742.4A CN112132710B (zh) | 2020-09-23 | 2020-09-23 | 法律要素处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112132710A true CN112132710A (zh) | 2020-12-25 |
CN112132710B CN112132710B (zh) | 2023-02-03 |
Family
ID=73842875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011010742.4A Active CN112132710B (zh) | 2020-09-23 | 2020-09-23 | 法律要素处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112132710B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112749564A (zh) * | 2021-01-31 | 2021-05-04 | 云知声智能科技股份有限公司 | 病历事件元素抽取方法、装置、电子设备和存储介质 |
CN112989820A (zh) * | 2021-03-22 | 2021-06-18 | 平安国际智慧城市科技股份有限公司 | 法律文书定位方法、装置、设备及存储介质 |
CN114550194A (zh) * | 2022-04-26 | 2022-05-27 | 北京北大软件工程股份有限公司 | 一种识别信访件的方法和装置 |
TWI821081B (zh) * | 2022-12-22 | 2023-11-01 | 倍利科技股份有限公司 | 醫學影像定頁系統 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737039A (zh) * | 2011-04-07 | 2012-10-17 | 北京百度网讯科技有限公司 | 索引建立方法、搜索方法和搜索结果排序方法及对应装置 |
US20170301052A1 (en) * | 2016-04-19 | 2017-10-19 | International Business Machines Corporation | Digital passport country entry stamp |
CN109977237A (zh) * | 2019-05-27 | 2019-07-05 | 南京擎盾信息科技有限公司 | 一种面向法律领域的动态法律事件图谱构建方法 |
CN110929746A (zh) * | 2019-05-24 | 2020-03-27 | 南京大学 | 一种基于深度神经网络的电子卷宗标题定位提取与分类方法 |
CN111475613A (zh) * | 2020-03-06 | 2020-07-31 | 深圳壹账通智能科技有限公司 | 案件分类方法、装置、计算机设备及存储介质 |
CN111680504A (zh) * | 2020-08-11 | 2020-09-18 | 四川大学 | 法律信息抽取模型及方法及***及装置及辅助*** |
-
2020
- 2020-09-23 CN CN202011010742.4A patent/CN112132710B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737039A (zh) * | 2011-04-07 | 2012-10-17 | 北京百度网讯科技有限公司 | 索引建立方法、搜索方法和搜索结果排序方法及对应装置 |
US20170301052A1 (en) * | 2016-04-19 | 2017-10-19 | International Business Machines Corporation | Digital passport country entry stamp |
CN110929746A (zh) * | 2019-05-24 | 2020-03-27 | 南京大学 | 一种基于深度神经网络的电子卷宗标题定位提取与分类方法 |
CN109977237A (zh) * | 2019-05-27 | 2019-07-05 | 南京擎盾信息科技有限公司 | 一种面向法律领域的动态法律事件图谱构建方法 |
CN111475613A (zh) * | 2020-03-06 | 2020-07-31 | 深圳壹账通智能科技有限公司 | 案件分类方法、装置、计算机设备及存储介质 |
CN111680504A (zh) * | 2020-08-11 | 2020-09-18 | 四川大学 | 法律信息抽取模型及方法及***及装置及辅助*** |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112749564A (zh) * | 2021-01-31 | 2021-05-04 | 云知声智能科技股份有限公司 | 病历事件元素抽取方法、装置、电子设备和存储介质 |
CN112989820A (zh) * | 2021-03-22 | 2021-06-18 | 平安国际智慧城市科技股份有限公司 | 法律文书定位方法、装置、设备及存储介质 |
CN114550194A (zh) * | 2022-04-26 | 2022-05-27 | 北京北大软件工程股份有限公司 | 一种识别信访件的方法和装置 |
CN114550194B (zh) * | 2022-04-26 | 2022-08-19 | 北京北大软件工程股份有限公司 | 一种识别信访件的方法和装置 |
TWI821081B (zh) * | 2022-12-22 | 2023-11-01 | 倍利科技股份有限公司 | 醫學影像定頁系統 |
Also Published As
Publication number | Publication date |
---|---|
CN112132710B (zh) | 2023-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112132710B (zh) | 法律要素处理方法、装置、电子设备及存储介质 | |
US10817615B2 (en) | Method and apparatus for verifying images based on image verification codes | |
CN111737499B (zh) | 基于自然语言处理的数据搜索方法及相关设备 | |
CN111680490B (zh) | 一种跨模态的文档处理方法、装置及电子设备 | |
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
WO2022057707A1 (zh) | 文本识别方法、图像识别分类方法、文档识别处理方法 | |
US20150154193A1 (en) | System and method for extracting facts from unstructured text | |
Frantzeskou et al. | Source code authorship analysis for supporting the cybercrime investigation process | |
WO2007139039A1 (ja) | 情報分類装置、情報分類方法、及び情報分類プログラム | |
WO2020141890A1 (en) | Method and apparatus for document management | |
CN114722141A (zh) | 文本检测方法及装置 | |
CN109657043B (zh) | 自动生成文章的方法、装置、设备及存储介质 | |
US20230325601A1 (en) | System and method for intelligent generation of privilege logs | |
CN111488622A (zh) | 一种网页篡改行为的检测方法、装置及相关组件 | |
CN110909538B (zh) | 问答内容的识别方法、装置、终端设备及介质 | |
CN108920700B (zh) | 一种虚假图片识别方法及装置 | |
Jones et al. | Abstract images have different levels of retrievability per reverse image search engine | |
CN114443834A (zh) | 一种证照信息提取的方法、装置及存储介质 | |
CN112199948A (zh) | 文本内容识别和违规广告识别方法、装置及电子设备 | |
CN111563276B (zh) | 一种网页篡改检测方法、检测***及相关设备 | |
Banerjee et al. | Quote examiner: verifying quoted images using web-based text similarity | |
CN113204579A (zh) | 内容关联方法、***、装置、电子设备及存储介质 | |
CN117493645B (zh) | 一种基于大数据的电子档案推荐*** | |
CN114417870B (zh) | 一种安全实体的检测方法、装置、电子设备及存储介质 | |
Flynn | Document classification in support of automated metadata extraction form heterogeneous collections |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |