CN110929746A

CN110929746A - 一种基于深度神经网络的电子卷宗标题定位提取与分类方法

Info

Publication number: CN110929746A
Application number: CN201910454209.8A
Authority: CN
Inventors: 葛季栋; 李传艺; 刘宇翔; 姚林霞; 乔洪波; 周筱羽; 骆斌
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2020-03-27

Abstract

本发明公开了一种基于深度神经网络的电子卷宗标题定位提取与分类方法，包括以下步骤：将卷宗图片输入神经网络提取多张多尺寸的特征图，根据输出的特征图计算类别分数以及边框位置，通过多种标题选举算法推选出文书当中的标题位置以及标题类别。本发明目的是为了解决在实际处理电子卷宗过程中，经常需要手动对电子卷宗图像进行分类的情况，从单纯的图像层面而不是通过OCR(光学字符识别)等方式来提取图像的标题，通过图像的特征能够准确获得图像标题的位置及类别，提高了鲁棒性泛用性，提高了图像分类的准确性。

Description

一种基于深度神经网络的电子卷宗标题定位提取与分类方法

技术领域

本发明涉及一种针对电子卷宗的分类方法，具体涉及一种基于深度神经网络的电子卷宗标题定位提取与分类方法，属于计算机视觉、深度学习领域。

背景技术

为了全力推进电子卷宗随案同步生成工作，促进现代信息技术与法院工作的深度融合，助推“智慧法院”再升级，全国各地各法院所受理的执行案件，大多一律随案同步生成电子卷宗，涵盖了立案、办理、归档、结案全过程。办案人员须实时将办案资料转换成电子文档并生成电子卷宗，确保了整个办案过程在***中全部留痕；部门负责人、合议庭、分管院领导等相关人员可通过电子卷宗***在线跟踪案件办理进度、合议评审案件、考核案卷质量，提高了司法智能化管理水平；各级法院可通过电子卷宗***实现执行案件卷宗的线上移送，提高了法院间协作工作效率；当事人及其诉讼代理人可在省高院提供的设备上自行扫描上传电子诉讼资料，申请查阅、打印案件的相关电子卷宗信息，实时了解跟踪执行案件办理进度，更好地促进司法公开，实现执行监督。

但由于案件和电子卷宗需要人工进行处理，工作人员需要浏览相关类型的信息，其他数据挖掘信息抽取也依赖于特定类型的卷宗图片，需要编目人员对电子资料进行识别拆分，提取文件标题并手工输入文件名，费时又费力。

电子卷宗图片分类的价值正体现在这，一方面对于一份电子卷宗中的各个图片明确标注好类别后方便其他相关人员或是工作人员更快的审查想要浏览的图片，跟踪具体信息检查是否有材料等的遗漏，极大的提高了工作人员在检阅电子卷宗时的效率。另一方面，作为建设“智慧法院”的第一步，由于许多相关的人工智能的后续步骤都极大的依赖分类后的图片再进行额外的信息提取等步骤，而对于成千上万张图片的分类十分消耗人力，对于电子卷宗图片的智能编目标标注为后续步骤提供了极大的便利，节省了大量的时间和人力。

在计算机视觉中，图像分类是一个十分基础的问题，但是在应用在电子卷宗的图像分类时，由于文本类型卷宗图像整体特征大致相同，同时新类型诉讼材料不断出现以及卷宗材料本身可识别性等因素影响，直接针对整体卷宗图像分类的效果并不会特别理想。由此采用计算机视觉中另一个经典的目标检测和识别，针对文本图像进行标题位置的定位和分类。目标检测大体上分为两种类型，一种是two-stage先将感兴趣区域提出随后重新提取感兴趣区域的图像特征进行后续的分类和推论。另一种是当前采用的端到端对于图像整体特征进行提取，利用图像金字塔的形式在特征图缩小的同时在各层输出不同目标框纵横比和大小的预测框。将不同目标大小的预测负担分担到不同的层去完成，同时联合预测标题类型并对标题框长宽进行回归这种多任务的形式也互相作用提高了各自的准确度。在计算过程中由于需要对于许多纵横比极大的长文本框进行预测，所以添加了许多极小纵横比的卷积层，导致对于文本标题文字的特征很容易丢失，仅仅依靠高层特征同时计算文本标题的类型难以取得令人满意的效果，所以需要在预测文本标题的类型时拼接底层特征使得字体特征不会随着网络层级的增加而消失。因此本发明以基础的端到端目标检测深度网络为基础，简化了传统过程中对于电子卷宗进行扫描全局进行OCR识别(Optical CharacterRecognition，光学字符识别)后再进行文本分析提取标题的流水线步骤，着重研究了一种针对电子卷宗标题的定位、提取和分类的方法。

发明内容

本发明是一种基于深度神经网络的电子卷宗标题定位提取与分类方法，提供一种电子卷宗图像预处理方法，包括自动定位提取电子卷宗图像标题框位置及大小以及类别的方法，并针对电子卷宗图像的大体图像类别训练图像目标检测识别模型，通过神经网络提取的图像特征进行标题框类别以及标题框边框位置的计算，获得概率最大的标题框类别以及该类别中标题框的位置。该方法能极大地减少法院在对电子卷宗进行人工查阅以及分类归档时的人力时间消耗，在法官需要查阅特定类型的卷宗资料或档案时提供便捷的检索，同时为之后特定的人工智能相关处理中提供明确的图像类别方便如诉讼书、判决书等类型文书的后续信息抽取等。

本发明所述的一种基于深度神经网络的电子卷宗标题定位提取与分类方法，其特征在于包含以下步骤：

步骤(1)将卷宗图片输入神经网络提取多张多尺寸的特征图。

步骤(2)根据输出的特征图计算类别分数以及边框位置。

步骤(3)通过多种标题选举算法推选出文书当中的标题位置以及标题类别。

2.根据权利要求1所述的一种基于深度神经网络的电子卷宗标题定位提取与分类方法，其特征在于步骤(1)中将卷宗图片输入神经网络提取多张多尺寸的特征图，具体子步骤包括：

步骤(1.1)将卷宗图像进行大小修正，图像预处理。

步骤(1.2)将预处理后的卷宗图像输入基础神经网络并在特征图大小变为初始的1/8时传入标题提议神经网络。

步骤(1.3)在标题提议神经网络中对于特征图进行多次横向长卷积以及膨胀卷积并进行合并。

步骤(1.4)在将特征图最终缩小到原图的1/32时结束，并取中间过程的两个1/8，两个1/16以及一个1/32的特征图进行计算分类。

步骤(1.5)在训练阶段采取图像旋转、填充、模糊、截取、亮度对比度调整进行图像增强。通过Jaccard 选取对应的框作为正类别标记，选取预测值最低的指定个数的框作为负类别标记，将数据集分为训练、验证和测试集。通过不断改变网络参数层次结构训练网络，并最后通过边框的f-measure和分类的recall联合评估网络。

3.根据权利要求1所述的一种基于深度神经网络的电子卷宗标题定位提取与分类方法，其特征在于步骤(2)中根据输出的特征图计算类别分数以及边框位置，具体子步骤包括：

步骤(2.1)通过边框回归卷积对各层特征图预测该点映射使用在原图中的竖排多处标题中心的位置以及标题多种纵横比的长和宽。

步骤(2.2)通过额外的多层分类模块对各层特征图继续计算标题类别的特征，输出该点映射在原图中的标题类别。

4.根据权利要求1所述的一种基于深度神经网络的电子卷宗标题定位提取与分类方法，其特征在于步骤(3)中通过多种标题选举算法推选出文书当中的标题位置以及标题类别，具体子步骤包括：

步骤(3.1)先判断图像中所有点各个标题存在可能性，若存在，则获取其标题边框中心以及高度宽度的预测值。

步骤(3.2)将所有预测框经过阙值进行筛选。

步骤(3.3)修正所有标题边界框预测超出图像边界的值。

步骤(3.4)将处理后的所有标题框按照各类标题可能性降序排序，提取可能性最大的前k个标题框。

步骤(3.5)使用NMS算法选举出预测概率最大的几个边框类型及边框位置。

步骤(3.6)通过一种抑制NMS算法重新处理步骤(3.5)中得出的几个结果并最终推选出一个边框结果。

步骤(3.7)标题提出分类网络的效果采用IOU＞0.5的边框预测的f-measure以及分类的准确率联合评定。

本发明与现有技术相比，其显著优点是：将针对电子卷宗编目的传统手段即对于卷宗图像进行OCR 后再通过文本分析的方式提取标题这种流水线的方式改变为直接通过图像特征预测标题框的位置，并通过共享卷积同时计算标题框的类别，简化了步骤，减少了OCR过程中的一些错误情况以及标题名称不显著无法分类的情况。同时通过图像特征也有很强的鲁棒性在针对如手写体，旋转，模糊之后的图像可以在 OCR并不能正确检测的情况下同样检测出标题的位置并推测可能的标题类别。节省了时间。同时在需要添加额外的电子卷宗图片类别时也仅需要额外的进行训练，不需要额外的步骤。由于提取的图像特征十分明显所以在判断的准确率上也十分可靠。而当需要人工核验时也可以通过本发明在图像上所标注的标题框以及框上的类别可以很直观的检查是否有误，方便后续校验。通过本发明提出的方法，大量的纯文本类型的电子卷宗图像能够很好地进行标题提取识别而不需要额外的OCR等步骤，同时针对OCR难以识别的手写体或模糊的文本图像也能较好的定位标题位置并且通过图像特征进行识别。当需要增加新类别的图像时仅需添加新类别的图像样本进行训练，网络收敛比较迅速。

附图说明

图1基于深度神经网络的电子卷宗标题定位提取与分类方法流程图

图2标题定位网络的大体结构

图3标题提取网络中针对标题边框所采用的特殊模块

图4电子卷宗标题示例

图5部分预分配边框的示意图(只展示纵横比为3和13的，实际上远不止这两种，并且为了可见性将纵横比为3和9的边框分别放置在两列)

图6分类模块的大体网络结构

图7后抑制NMS算法的流程图

图8传统的TextBoxes方法与本文提出的电子卷宗标题提取定位分类网络的实验对比图

具体实施方式

为使本发明的目的、技术方案和优点更加清晰，下面将结合附图及具体实施例对本发明进行详细描述。

本发明的目的在于解决电子卷宗编目问题，提出一种基于深度神经网络的电子卷宗标题定位提取与分类方法。通过使用深度神经网络，提取电子卷宗中的标题位置和标题类别，避免了全篇幅进行OCR识别后再进行文本信息抽取来找到该文书标题的步骤。将针对电子卷宗编目的传统手段即对于卷宗图像进行 OCR后再通过文本分析的方式提取标题这种流水线的方式改变为直接通过图像特征预测标题框的位置，并通过共享卷积同时计算标题框的类别，简化了步骤，减少了OCR过程中的一些错误情况以及标题名称不显著无法分类的情况。同时通过图像特征也有很强的鲁棒性在针对如手写体，旋转，模糊之后的图像可以在OCR并不能正确检测的情况下同样检测出标题的位置并推测可能的标题类别。节省了时间。同时在需要添加额外的电子卷宗图片类别时也仅需要额外的进行训练，不需要额外的步骤。由于提取的图像特征十分明显所以在判断的准确率上也十分可靠。而当需要人工核验时也可以通过本发明在图像上所标注的标题框以及框上的类别可以很直观的检查是否有误，方便后续校验。通过本发明提出的方法，大量的纯文本类型的电子卷宗图像能够很好地进行标题提取识别而不需要额外的OCR等步骤，同时针对OCR难以识别的手写体或模糊的文本图像也能较好的定位标题位置并且通过图像特征进行识别。当需要增加新类别的图像时仅需添加新类别的图像样本进行训练，网络收敛比较迅速。本发明概括来说主要包括以下步骤：

步骤(1)将卷宗图片输入神经网络提取多张多尺寸的特征图。

步骤(2)根据输出的特征图计算类别分数以及边框位置。

上述一种基于深度神经网络的电子卷宗标题定位提取与分类方法的详细工作流程如图1所示。这里将对上述步骤进行详细描述。

1.由于电子卷宗图像大小比例变化大，将卷宗图片输入神经网络提取多张多尺寸的特征图时需要进行一系列预处理操作使得所有卷宗图像都能加入深度神经网络进行处理，具体步骤是：

步骤(1.1)将卷宗图像进行大小修正到固定的尺度的分辨率(如320*320)。

步骤(1.2)将预处理后的卷宗图像输入基础神经网络并在特征图大小变为初始的1/8时传入标题提议神经网络，基础神经网络的选择旨在提取电子卷宗图像的特征，可以选择使用inception系列、vgg或resnet 等基础神经网络，通过他们的预训练模型帮助标题提出网络能够更好更快地学习到图像的基本特征，通过这个基础神经网络，电子卷宗图像的文字特征，各行文字间的关系等层次的图像特征被提取，整体网络的网络结构如图2所示。

步骤(1.3)在标题提议神经网络中对于特征图进行多次横向长卷积以及膨胀卷积并进行合并。由于所有电子卷宗图像的标题部分都属于长条状而不是如同传统目标检测任务当中的类正方形，所以需要更频繁的使用横向长卷积的形式来提取标题框的特征，同时辅以竖状的卷积来提取图像上的其他信息的特征，同时由于需要在不减小特征图的情况下，更好地获得图像高级特征，需要采用膨胀卷积，上池化等形式提高对于图像高级特征的提取，以此来更好地获得图像标题框的特征，这种网络模块的结构如图3所示。

步骤(1.4)在将特征图最终缩小到原图的1/32时结束，并取中间过程的两个1/8，两个1/16以及一个1/32的特征图进行计算分类。由于电子卷宗图像中的标题大小类型跨度十分大，如图4所示，所以需要采用多层不同大小的图像金字塔对于标题框进行预测来使得网络具有尺度上的泛用性。

步骤(1.5)在训练阶段采取图像旋转、填充、模糊、截取、亮度对比度调整进行图像增强。通过Jaccard 选取对应的框作为正类别标记，选取预测值最低的指定个数的框作为负类别标记，将数据集分为训练、验证和测试集。通过不断改变网络参数层次结构训练网络，并最后通过边框的f-measure和分类的recall联合评估网络。同时在训练阶段，针对边框类别的判断采用softmax进行预测值的转换，采用交叉熵进行训练网络的损失值，针对负样本采用选取top-k个预测结果最差的负样本值，其中k为正样本个数，具体计算公式为：

边框的长宽和中心点的损失值采用smooth L1计算，同时对于中心点的回归进行缩放0.1倍，对于长宽的回归进行缩放0.15倍，使得两者的分布相似，具体的计算公式为：

两者求和除以选取的正样本个数N，具体计算公式为：

其中正样本通过输入时的标记框与特征图上预先配置的框进行匹配，其中预配置的框大体分布如图5所示，为多种纵横比的框，每一个特征图的节点负责原图中该区域的多个中心点生成的多个不同纵横比的框，每个框的长和宽的具体计算公式为：

其中v_k为预先设定的边框大小，f_k为边框步长与图像大小的比值。通过Jaccard计算IOU，即计算两个矩形框的相交面积占两个矩形框面积和的比例，IOU大于0.5的则代表正样本。训练目标是选择出最优的标题提出模型，可以首先针对通用标题数据集进行预训练，之后采用迁移学习的方式转移到电子卷宗的标题提取上来，以此减少模型过拟合。

2.为了将经过神经网络提取出来的图像特征转换为最后多尺度的标题检测结果，需要在步骤(2)中根据输出的特征图计算类别分数以及边框位置，具体子步骤包括：

步骤(2.2)通过额外的多层分类模块对各层特征图继续计算标题类别的特征，输出该点映射在原图中的标题类别。大体结构如图6所示。由于大多数标题有很多字相同，而高层的图像特征可能并不具备这些图像低层特征的值，尤其是在针对长标题计算特征之后，所以采用联合底层特征和高层特征进行合并的方式共同预测标题的类别，使得针对大标题框中的小字体区别得到放大。

3.为了将神经网络输出的所有预设定标题框进行整合，筛选最终得出针对电子卷宗图像的单一标题框位置和标题框类别，需要在步骤(3)中通过多种标题选举算法推选出文书当中的标题位置以及标题类别，具体子步骤包括：

步骤(3.1)先判断图像中所有点各个标题存在可能性，若存在，则获取其标题边框中心以及高度宽度的预测值。即为步骤(2)中输出的分类输出和标题框回归。

步骤(3.2)将所有预测框经过阙值进行筛选。由于大多数标题框都为背景或不需要被采纳，且特征图中输出的标题框数量十分大，为了后续处理便捷需要经过阙值直接排除掉预测结果小的标题框来减少后续的计算。

步骤(3.3)修正所有标题边界框预测超出图像边界的值。由于输出的标题框的回归值有可能会超出图像的边界，针对这些超出的值需要修正为图像的边界。

步骤(3.4)将处理后的所有标题框按照各类标题可能性降序排序，提取可能性最大的前k个标题框。由此获得了最有可能是该电子卷宗标题的所有标题。

步骤(3.6)通过一种抑制NMS算法重新处理步骤(3.5)中得出的几个结果并最终推选出一个边框结果。这里的抑制NMS算法的大致流程如图7所示，目的是为了筛选由于错误输出一个概率最大的预测边框类型而导致最终判断结果错误，因为网络最后只要采纳一个边界框，所以传统的NMS算法针对电子卷宗的标题定位会退化成只选择概率最大的边界框而产生一些波动。采用后抑制NMS算法后能减少一些针对检测标题结果的干扰。

步骤(3.7)标题提出分类网络的效果采用IOU＞0.5的边框预测的f-measure以及分类的准确率联合评定。由于电子卷宗的标题大小纵横比变化的多样性，并没有很好的一种特征，此外不同类型的电子卷宗各种类型的标题字体还有很大区别。在电子卷宗智能编目的场景下，好的电子卷宗图像分类网络应该考虑到字体的可变性。因此，本发明采用边框预测的f-measure以及分类的准确率联合进行评估。在实验评估时，本发明针对五种不同类型的电子卷宗图像计算实验，对比了传统的TextBoxes方法与本文提出的电子卷宗标题提取定位分类网络，实验结果如图8所示。可见，针对五种不同类型的电子卷宗图像，本发明提取的标题位置以及类别判定都优于其他方法。而其他传统的方法甚至无法覆盖所有电子卷宗的标题，也无法很好地提取电子卷宗的标题类别信息。

上面已经参考附图对根据本发明实施的一种基于深度神经网络的电子卷宗标题定位提取与分类方法进行了详细描述。本发明具有如下优点：将针对电子卷宗编目的传统手段即对于卷宗图像进行OCR后再通过文本分析的方式提取标题这种流水线的方式改变为直接通过图像特征预测标题框的位置，并通过共享卷积同时计算标题框的类别，简化了步骤，减少了OCR过程中的一些错误情况以及标题名称不显著无法分类的情况。同时通过图像特征也有很强的鲁棒性在针对如手写体，旋转，模糊之后的图像可以在OCR 并不能正确检测的情况下同样检测出标题的位置并推测可能的标题类别。节省了时间。同时在需要添加额外的电子卷宗图片类别时也仅需要额外的进行训练，不需要额外的步骤。由于提取的图像特征十分明显所以在判断的准确率上也十分可靠。而当需要人工核验时也可以通过本发明在图像上所标注的标题框以及框上的类别可以很直观的检查是否有误，方便后续校验。通过本发明提出的方法，大量的纯文本类型的电子卷宗图像能够很好地进行标题提取识别而不需要额外的OCR等步骤，同时针对OCR难以识别的手写体或模糊的文本图像也能较好的定位标题位置并且通过图像特征进行识别。当需要增加新类别的图像时仅需添加新类别的图像样本进行训练，网络收敛比较迅速。同时相较传统的目标检测网络，针对电子卷宗所特定设计的网络模块使得网络能够很好的检测到几乎所有电子卷宗的标题位置，同时也能很好地提取电子卷宗标题中各个字的特征。

需要明确，本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且，为了简明起见，这里省略对已知方法技术的详细描述。当前的实施例在所有方面都被看作是示例性的而非限定性的，本发明的范围由所附权利要求而非上述描述定义，并且，落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims

1.一种基于深度神经网络的电子卷宗标题定位提取与分类方法，其特征在于包含以下步骤：

步骤(1)将卷宗图片输入神经网络提取多张多尺寸的特征图。

步骤(2)根据输出的特征图计算类别分数以及边框位置。

步骤(1.1)将卷宗图像进行大小修正，图像预处理。

步骤(1.5)在训练阶段采取图像旋转、填充、模糊、截取、亮度对比度调整进行图像增强。通过Jaccard选取对应的框作为正类别标记，选取预测值最低的指定个数的框作为负类别标记，将数据集分为训练、验证和测试集。通过不断改变网络参数层次结构训练网络，并最后通过边框的f-measure和分类的recall联合评估网络。

步骤(3.2)将所有预测框经过阙值进行筛选。

步骤(3.3)修正所有标题边界框预测超出图像边界的值。