CN110929746A - 一种基于深度神经网络的电子卷宗标题定位提取与分类方法 - Google Patents
一种基于深度神经网络的电子卷宗标题定位提取与分类方法 Download PDFInfo
- Publication number
- CN110929746A CN110929746A CN201910454209.8A CN201910454209A CN110929746A CN 110929746 A CN110929746 A CN 110929746A CN 201910454209 A CN201910454209 A CN 201910454209A CN 110929746 A CN110929746 A CN 110929746A
- Authority
- CN
- China
- Prior art keywords
- title
- image
- neural network
- frame
- electronic file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 41
- 230000008569 process Effects 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 20
- 230000000694 effects Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 230000010339 dilation Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010791 quenching Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 2
- 238000012015 optical character recognition Methods 0.000 abstract description 23
- 238000012545 processing Methods 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 7
- 238000012795 verification Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种基于深度神经网络的电子卷宗标题定位提取与分类方法,包括以下步骤:将卷宗图片输入神经网络提取多张多尺寸的特征图,根据输出的特征图计算类别分数以及边框位置,通过多种标题选举算法推选出文书当中的标题位置以及标题类别。本发明目的是为了解决在实际处理电子卷宗过程中,经常需要手动对电子卷宗图像进行分类的情况,从单纯的图像层面而不是通过OCR(光学字符识别)等方式来提取图像的标题,通过图像的特征能够准确获得图像标题的位置及类别,提高了鲁棒性泛用性,提高了图像分类的准确性。
Description
技术领域
本发明涉及一种针对电子卷宗的分类方法,具体涉及一种基于深度神经网络的电子卷宗标题定位提取与分类方法,属于计算机视觉、深度学习领域。
背景技术
为了全力推进电子卷宗随案同步生成工作,促进现代信息技术与法院工作的深度融合,助推“智慧法院”再升级,全国各地各法院所受理的执行案件,大多一律随案同步生成电子卷宗,涵盖了立案、办理、归档、结案全过程。办案人员须实时将办案资料转换成电子文档并生成电子卷宗,确保了整个办案过程在***中全部留痕;部门负责人、合议庭、分管院领导等相关人员可通过电子卷宗***在线跟踪案件办理进度、合议评审案件、考核案卷质量,提高了司法智能化管理水平;各级法院可通过电子卷宗***实现执行案件卷宗的线上移送,提高了法院间协作工作效率;当事人及其诉讼代理人可在省高院提供的设备上自行扫描上传电子诉讼资料,申请查阅、打印案件的相关电子卷宗信息,实时了解跟踪执行案件办理进度,更好地促进司法公开,实现执行监督。
但由于案件和电子卷宗需要人工进行处理,工作人员需要浏览相关类型的信息,其他数据挖掘信息抽取也依赖于特定类型的卷宗图片,需要编目人员对电子资料进行识别拆分,提取文件标题并手工输入文件名,费时又费力。
电子卷宗图片分类的价值正体现在这,一方面对于一份电子卷宗中的各个图片明确标注好类别后方便其他相关人员或是工作人员更快的审查想要浏览的图片,跟踪具体信息检查是否有材料等的遗漏,极大的提高了工作人员在检阅电子卷宗时的效率。另一方面,作为建设“智慧法院”的第一步,由于许多相关的人工智能的后续步骤都极大的依赖分类后的图片再进行额外的信息提取等步骤,而对于成千上万张图片的分类十分消耗人力,对于电子卷宗图片的智能编目标标注为后续步骤提供了极大的便利,节省了大量的时间和人力。
在计算机视觉中,图像分类是一个十分基础的问题,但是在应用在电子卷宗的图像分类时,由于文本类型卷宗图像整体特征大致相同,同时新类型诉讼材料不断出现以及卷宗材料本身可识别性等因素影响,直接针对整体卷宗图像分类的效果并不会特别理想。由此采用计算机视觉中另一个经典的目标检测和识别,针对文本图像进行标题位置的定位和分类。目标检测大体上分为两种类型,一种是two-stage先将感兴趣区域提出随后重新提取感兴趣区域的图像特征进行后续的分类和推论。另一种是当前采用的端到端对于图像整体特征进行提取,利用图像金字塔的形式在特征图缩小的同时在各层输出不同目标框纵横比和大小的预测框。将不同目标大小的预测负担分担到不同的层去完成,同时联合预测标题类型并对标题框长宽进行回归这种多任务的形式也互相作用提高了各自的准确度。在计算过程中由于需要对于许多纵横比极大的长文本框进行预测,所以添加了许多极小纵横比的卷积层,导致对于文本标题文字的特征很容易丢失,仅仅依靠高层特征同时计算文本标题的类型难以取得令人满意的效果,所以需要在预测文本标题的类型时拼接底层特征使得字体特征不会随着网络层级的增加而消失。因此本发明以基础的端到端目标检测深度网络为基础,简化了传统过程中对于电子卷宗进行扫描全局进行OCR识别(Optical CharacterRecognition,光学字符识别)后再进行文本分析提取标题的流水线步骤,着重研究了一种针对电子卷宗标题的定位、提取和分类的方法。
发明内容
本发明是一种基于深度神经网络的电子卷宗标题定位提取与分类方法,提供一种电子卷宗图像预处理方法,包括自动定位提取电子卷宗图像标题框位置及大小以及类别的方法,并针对电子卷宗图像的大体图像类别训练图像目标检测识别模型,通过神经网络提取的图像特征进行标题框类别以及标题框边框位置的计算,获得概率最大的标题框类别以及该类别中标题框的位置。该方法能极大地减少法院在对电子卷宗进行人工查阅以及分类归档时的人力时间消耗,在法官需要查阅特定类型的卷宗资料或档案时提供便捷的检索,同时为之后特定的人工智能相关处理中提供明确的图像类别方便如诉讼书、判决书等类型文书的后续信息抽取等。
本发明所述的一种基于深度神经网络的电子卷宗标题定位提取与分类方法,其特征在于包含以下步骤:
步骤(1)将卷宗图片输入神经网络提取多张多尺寸的特征图。
步骤(2)根据输出的特征图计算类别分数以及边框位置。
步骤(3)通过多种标题选举算法推选出文书当中的标题位置以及标题类别。
2.根据权利要求1所述的一种基于深度神经网络的电子卷宗标题定位提取与分类方法,其特征在于步骤(1)中将卷宗图片输入神经网络提取多张多尺寸的特征图,具体子步骤包括:
步骤(1.1)将卷宗图像进行大小修正,图像预处理。
步骤(1.2)将预处理后的卷宗图像输入基础神经网络并在特征图大小变为初始的1/8时传入标题提议神经网络。
步骤(1.3)在标题提议神经网络中对于特征图进行多次横向长卷积以及膨胀卷积并进行合并。
步骤(1.4)在将特征图最终缩小到原图的1/32时结束,并取中间过程的两个1/8,两个1/16以及一个1/32的特征图进行计算分类。
步骤(1.5)在训练阶段采取图像旋转、填充、模糊、截取、亮度对比度调整进行图像增强。通过Jaccard 选取对应的框作为正类别标记,选取预测值最低的指定个数的框作为负类别标记,将数据集分为训练、验证和测试集。通过不断改变网络参数层次结构训练网络,并最后通过边框的f-measure和分类的recall联合评估网络。
3.根据权利要求1所述的一种基于深度神经网络的电子卷宗标题定位提取与分类方法,其特征在于步骤(2)中根据输出的特征图计算类别分数以及边框位置,具体子步骤包括:
步骤(2.1)通过边框回归卷积对各层特征图预测该点映射使用在原图中的竖排多处标题中心的位置以及标题多种纵横比的长和宽。
步骤(2.2)通过额外的多层分类模块对各层特征图继续计算标题类别的特征,输出该点映射在原图中的标题类别。
4.根据权利要求1所述的一种基于深度神经网络的电子卷宗标题定位提取与分类方法,其特征在于步骤(3)中通过多种标题选举算法推选出文书当中的标题位置以及标题类别,具体子步骤包括:
步骤(3.1)先判断图像中所有点各个标题存在可能性,若存在,则获取其标题边框中心以及高度宽度的预测值。
步骤(3.2)将所有预测框经过阙值进行筛选。
步骤(3.3)修正所有标题边界框预测超出图像边界的值。
步骤(3.4)将处理后的所有标题框按照各类标题可能性降序排序,提取可能性最大的前k个标题框。
步骤(3.5)使用NMS算法选举出预测概率最大的几个边框类型及边框位置。
步骤(3.6)通过一种抑制NMS算法重新处理步骤(3.5)中得出的几个结果并最终推选出一个边框结果。
步骤(3.7)标题提出分类网络的效果采用IOU>0.5的边框预测的f-measure以及分类的准确率联合评定。
本发明与现有技术相比,其显著优点是:将针对电子卷宗编目的传统手段即对于卷宗图像进行OCR 后再通过文本分析的方式提取标题这种流水线的方式改变为直接通过图像特征预测标题框的位置,并通过共享卷积同时计算标题框的类别,简化了步骤,减少了OCR过程中的一些错误情况以及标题名称不显著无法分类的情况。同时通过图像特征也有很强的鲁棒性在针对如手写体,旋转,模糊之后的图像可以在 OCR并不能正确检测的情况下同样检测出标题的位置并推测可能的标题类别。节省了时间。同时在需要添加额外的电子卷宗图片类别时也仅需要额外的进行训练,不需要额外的步骤。由于提取的图像特征十分明显所以在判断的准确率上也十分可靠。而当需要人工核验时也可以通过本发明在图像上所标注的标题框以及框上的类别可以很直观的检查是否有误,方便后续校验。通过本发明提出的方法,大量的纯文本类型的电子卷宗图像能够很好地进行标题提取识别而不需要额外的OCR等步骤,同时针对OCR难以识别的手写体或模糊的文本图像也能较好的定位标题位置并且通过图像特征进行识别。当需要增加新类别的图像时仅需添加新类别的图像样本进行训练,网络收敛比较迅速。
附图说明
图1基于深度神经网络的电子卷宗标题定位提取与分类方法流程图
图2标题定位网络的大体结构
图3标题提取网络中针对标题边框所采用的特殊模块
图4电子卷宗标题示例
图5部分预分配边框的示意图(只展示纵横比为3和13的,实际上远不止这两种,并且为了可见性将纵横比为3和9的边框分别放置在两列)
图6分类模块的大体网络结构
图7后抑制NMS算法的流程图
图8传统的TextBoxes方法与本文提出的电子卷宗标题提取定位分类网络的实验对比图
具体实施方式
为使本发明的目的、技术方案和优点更加清晰,下面将结合附图及具体实施例对本发明进行详细描述。
本发明的目的在于解决电子卷宗编目问题,提出一种基于深度神经网络的电子卷宗标题定位提取与分类方法。通过使用深度神经网络,提取电子卷宗中的标题位置和标题类别,避免了全篇幅进行OCR识别后再进行文本信息抽取来找到该文书标题的步骤。将针对电子卷宗编目的传统手段即对于卷宗图像进行 OCR后再通过文本分析的方式提取标题这种流水线的方式改变为直接通过图像特征预测标题框的位置,并通过共享卷积同时计算标题框的类别,简化了步骤,减少了OCR过程中的一些错误情况以及标题名称不显著无法分类的情况。同时通过图像特征也有很强的鲁棒性在针对如手写体,旋转,模糊之后的图像可以在OCR并不能正确检测的情况下同样检测出标题的位置并推测可能的标题类别。节省了时间。同时在需要添加额外的电子卷宗图片类别时也仅需要额外的进行训练,不需要额外的步骤。由于提取的图像特征十分明显所以在判断的准确率上也十分可靠。而当需要人工核验时也可以通过本发明在图像上所标注的标题框以及框上的类别可以很直观的检查是否有误,方便后续校验。通过本发明提出的方法,大量的纯文本类型的电子卷宗图像能够很好地进行标题提取识别而不需要额外的OCR等步骤,同时针对OCR难以识别的手写体或模糊的文本图像也能较好的定位标题位置并且通过图像特征进行识别。当需要增加新类别的图像时仅需添加新类别的图像样本进行训练,网络收敛比较迅速。本发明概括来说主要包括以下步骤:
步骤(1)将卷宗图片输入神经网络提取多张多尺寸的特征图。
步骤(2)根据输出的特征图计算类别分数以及边框位置。
步骤(3)通过多种标题选举算法推选出文书当中的标题位置以及标题类别。
上述一种基于深度神经网络的电子卷宗标题定位提取与分类方法的详细工作流程如图1所示。这里将对上述步骤进行详细描述。
1.由于电子卷宗图像大小比例变化大,将卷宗图片输入神经网络提取多张多尺寸的特征图时需要进行一系列预处理操作使得所有卷宗图像都能加入深度神经网络进行处理,具体步骤是:
步骤(1.1)将卷宗图像进行大小修正到固定的尺度的分辨率(如320*320)。
步骤(1.2)将预处理后的卷宗图像输入基础神经网络并在特征图大小变为初始的1/8时传入标题提议神经网络,基础神经网络的选择旨在提取电子卷宗图像的特征,可以选择使用inception系列、vgg或resnet 等基础神经网络,通过他们的预训练模型帮助标题提出网络能够更好更快地学习到图像的基本特征,通过这个基础神经网络,电子卷宗图像的文字特征,各行文字间的关系等层次的图像特征被提取,整体网络的网络结构如图2所示。
步骤(1.3)在标题提议神经网络中对于特征图进行多次横向长卷积以及膨胀卷积并进行合并。由于所有电子卷宗图像的标题部分都属于长条状而不是如同传统目标检测任务当中的类正方形,所以需要更频繁的使用横向长卷积的形式来提取标题框的特征,同时辅以竖状的卷积来提取图像上的其他信息的特征,同时由于需要在不减小特征图的情况下,更好地获得图像高级特征,需要采用膨胀卷积,上池化等形式提高对于图像高级特征的提取,以此来更好地获得图像标题框的特征,这种网络模块的结构如图3所示。
步骤(1.4)在将特征图最终缩小到原图的1/32时结束,并取中间过程的两个1/8,两个1/16以及一个1/32的特征图进行计算分类。由于电子卷宗图像中的标题大小类型跨度十分大,如图4所示,所以需要采用多层不同大小的图像金字塔对于标题框进行预测来使得网络具有尺度上的泛用性。
步骤(1.5)在训练阶段采取图像旋转、填充、模糊、截取、亮度对比度调整进行图像增强。通过Jaccard 选取对应的框作为正类别标记,选取预测值最低的指定个数的框作为负类别标记,将数据集分为训练、验证和测试集。通过不断改变网络参数层次结构训练网络,并最后通过边框的f-measure和分类的recall联合评估网络。同时在训练阶段,针对边框类别的判断采用softmax进行预测值的转换,采用交叉熵进行训练网络的损失值,针对负样本采用选取top-k个预测结果最差的负样本值,其中k为正样本个数,具体计算公式为:
边框的长宽和中心点的损失值采用smooth L1计算,同时对于中心点的回归进行缩放0.1倍,对于长宽的回归进行缩放0.15倍,使得两者的分布相似,具体的计算公式为:
两者求和除以选取的正样本个数N,具体计算公式为:
其中正样本通过输入时的标记框与特征图上预先配置的框进行匹配,其中预配置的框大体分布如图5所示,为多种纵横比的框,每一个特征图的节点负责原图中该区域的多个中心点生成的多个不同纵横比的框,每个框的长和宽的具体计算公式为:
其中vk为预先设定的边框大小,fk为边框步长与图像大小的比值。通过Jaccard计算IOU,即计算两个矩形框的相交面积占两个矩形框面积和的比例,IOU大于0.5的则代表正样本。训练目标是选择出最优的标题提出模型,可以首先针对通用标题数据集进行预训练,之后采用迁移学习的方式转移到电子卷宗的标题提取上来,以此减少模型过拟合。
2.为了将经过神经网络提取出来的图像特征转换为最后多尺度的标题检测结果,需要在步骤(2)中根据输出的特征图计算类别分数以及边框位置,具体子步骤包括:
步骤(2.1)通过边框回归卷积对各层特征图预测该点映射使用在原图中的竖排多处标题中心的位置以及标题多种纵横比的长和宽。
步骤(2.2)通过额外的多层分类模块对各层特征图继续计算标题类别的特征,输出该点映射在原图中的标题类别。大体结构如图6所示。由于大多数标题有很多字相同,而高层的图像特征可能并不具备这些图像低层特征的值,尤其是在针对长标题计算特征之后,所以采用联合底层特征和高层特征进行合并的方式共同预测标题的类别,使得针对大标题框中的小字体区别得到放大。
3.为了将神经网络输出的所有预设定标题框进行整合,筛选最终得出针对电子卷宗图像的单一标题框位置和标题框类别,需要在步骤(3)中通过多种标题选举算法推选出文书当中的标题位置以及标题类别,具体子步骤包括:
步骤(3.1)先判断图像中所有点各个标题存在可能性,若存在,则获取其标题边框中心以及高度宽度的预测值。即为步骤(2)中输出的分类输出和标题框回归。
步骤(3.2)将所有预测框经过阙值进行筛选。由于大多数标题框都为背景或不需要被采纳,且特征图中输出的标题框数量十分大,为了后续处理便捷需要经过阙值直接排除掉预测结果小的标题框来减少后续的计算。
步骤(3.3)修正所有标题边界框预测超出图像边界的值。由于输出的标题框的回归值有可能会超出图像的边界,针对这些超出的值需要修正为图像的边界。
步骤(3.4)将处理后的所有标题框按照各类标题可能性降序排序,提取可能性最大的前k个标题框。由此获得了最有可能是该电子卷宗标题的所有标题。
步骤(3.5)使用NMS算法选举出预测概率最大的几个边框类型及边框位置。
步骤(3.6)通过一种抑制NMS算法重新处理步骤(3.5)中得出的几个结果并最终推选出一个边框结果。这里的抑制NMS算法的大致流程如图7所示,目的是为了筛选由于错误输出一个概率最大的预测边框类型而导致最终判断结果错误,因为网络最后只要采纳一个边界框,所以传统的NMS算法针对电子卷宗的标题定位会退化成只选择概率最大的边界框而产生一些波动。采用后抑制NMS算法后能减少一些针对检测标题结果的干扰。
步骤(3.7)标题提出分类网络的效果采用IOU>0.5的边框预测的f-measure以及分类的准确率联合评定。由于电子卷宗的标题大小纵横比变化的多样性,并没有很好的一种特征,此外不同类型的电子卷宗各种类型的标题字体还有很大区别。在电子卷宗智能编目的场景下,好的电子卷宗图像分类网络应该考虑到字体的可变性。因此,本发明采用边框预测的f-measure以及分类的准确率联合进行评估。在实验评估时,本发明针对五种不同类型的电子卷宗图像计算实验,对比了传统的TextBoxes方法与本文提出的电子卷宗标题提取定位分类网络,实验结果如图8所示。可见,针对五种不同类型的电子卷宗图像,本发明提取的标题位置以及类别判定都优于其他方法。而其他传统的方法甚至无法覆盖所有电子卷宗的标题,也无法很好地提取电子卷宗的标题类别信息。
上面已经参考附图对根据本发明实施的一种基于深度神经网络的电子卷宗标题定位提取与分类方法进行了详细描述。本发明具有如下优点:将针对电子卷宗编目的传统手段即对于卷宗图像进行OCR后再通过文本分析的方式提取标题这种流水线的方式改变为直接通过图像特征预测标题框的位置,并通过共享卷积同时计算标题框的类别,简化了步骤,减少了OCR过程中的一些错误情况以及标题名称不显著无法分类的情况。同时通过图像特征也有很强的鲁棒性在针对如手写体,旋转,模糊之后的图像可以在OCR 并不能正确检测的情况下同样检测出标题的位置并推测可能的标题类别。节省了时间。同时在需要添加额外的电子卷宗图片类别时也仅需要额外的进行训练,不需要额外的步骤。由于提取的图像特征十分明显所以在判断的准确率上也十分可靠。而当需要人工核验时也可以通过本发明在图像上所标注的标题框以及框上的类别可以很直观的检查是否有误,方便后续校验。通过本发明提出的方法,大量的纯文本类型的电子卷宗图像能够很好地进行标题提取识别而不需要额外的OCR等步骤,同时针对OCR难以识别的手写体或模糊的文本图像也能较好的定位标题位置并且通过图像特征进行识别。当需要增加新类别的图像时仅需添加新类别的图像样本进行训练,网络收敛比较迅速。同时相较传统的目标检测网络,针对电子卷宗所特定设计的网络模块使得网络能够很好的检测到几乎所有电子卷宗的标题位置,同时也能很好地提取电子卷宗标题中各个字的特征。
需要明确,本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且,为了简明起见,这里省略对已知方法技术的详细描述。当前的实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。
Claims (4)
1.一种基于深度神经网络的电子卷宗标题定位提取与分类方法,其特征在于包含以下步骤:
步骤(1)将卷宗图片输入神经网络提取多张多尺寸的特征图。
步骤(2)根据输出的特征图计算类别分数以及边框位置。
步骤(3)通过多种标题选举算法推选出文书当中的标题位置以及标题类别。
2.根据权利要求1所述的一种基于深度神经网络的电子卷宗标题定位提取与分类方法,其特征在于步骤(1)中将卷宗图片输入神经网络提取多张多尺寸的特征图,具体子步骤包括:
步骤(1.1)将卷宗图像进行大小修正,图像预处理。
步骤(1.2)将预处理后的卷宗图像输入基础神经网络并在特征图大小变为初始的1/8时传入标题提议神经网络。
步骤(1.3)在标题提议神经网络中对于特征图进行多次横向长卷积以及膨胀卷积并进行合并。
步骤(1.4)在将特征图最终缩小到原图的1/32时结束,并取中间过程的两个1/8,两个1/16以及一个1/32的特征图进行计算分类。
步骤(1.5)在训练阶段采取图像旋转、填充、模糊、截取、亮度对比度调整进行图像增强。通过Jaccard选取对应的框作为正类别标记,选取预测值最低的指定个数的框作为负类别标记,将数据集分为训练、验证和测试集。通过不断改变网络参数层次结构训练网络,并最后通过边框的f-measure和分类的recall联合评估网络。
3.根据权利要求1所述的一种基于深度神经网络的电子卷宗标题定位提取与分类方法,其特征在于步骤(2)中根据输出的特征图计算类别分数以及边框位置,具体子步骤包括:
步骤(2.1)通过边框回归卷积对各层特征图预测该点映射使用在原图中的竖排多处标题中心的位置以及标题多种纵横比的长和宽。
步骤(2.2)通过额外的多层分类模块对各层特征图继续计算标题类别的特征,输出该点映射在原图中的标题类别。
4.根据权利要求1所述的一种基于深度神经网络的电子卷宗标题定位提取与分类方法,其特征在于步骤(3)中通过多种标题选举算法推选出文书当中的标题位置以及标题类别,具体子步骤包括:
步骤(3.1)先判断图像中所有点各个标题存在可能性,若存在,则获取其标题边框中心以及高度宽度的预测值。
步骤(3.2)将所有预测框经过阙值进行筛选。
步骤(3.3)修正所有标题边界框预测超出图像边界的值。
步骤(3.4)将处理后的所有标题框按照各类标题可能性降序排序,提取可能性最大的前k个标题框。
步骤(3.5)使用NMS算法选举出预测概率最大的几个边框类型及边框位置。
步骤(3.6)通过一种抑制NMS算法重新处理步骤(3.5)中得出的几个结果并最终推选出一个边框结果。
步骤(3.7)标题提出分类网络的效果采用IOU>0.5的边框预测的f-measure以及分类的准确率联合评定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910454209.8A CN110929746A (zh) | 2019-05-24 | 2019-05-24 | 一种基于深度神经网络的电子卷宗标题定位提取与分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910454209.8A CN110929746A (zh) | 2019-05-24 | 2019-05-24 | 一种基于深度神经网络的电子卷宗标题定位提取与分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110929746A true CN110929746A (zh) | 2020-03-27 |
Family
ID=69855684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910454209.8A Pending CN110929746A (zh) | 2019-05-24 | 2019-05-24 | 一种基于深度神经网络的电子卷宗标题定位提取与分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110929746A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111860524A (zh) * | 2020-07-28 | 2020-10-30 | 上海兑观信息科技技术有限公司 | 一种数字档案智能分类的装置及方法 |
CN112132710A (zh) * | 2020-09-23 | 2020-12-25 | 平安国际智慧城市科技股份有限公司 | 法律要素处理方法、装置、电子设备及存储介质 |
CN112446372A (zh) * | 2020-12-08 | 2021-03-05 | 电子科技大学 | 基于通道分组注意力机制的文本检测方法 |
CN112560902A (zh) * | 2020-12-01 | 2021-03-26 | 中国农业科学院农业信息研究所 | 基于书脊视觉信息的图书识别方法及*** |
CN112766246A (zh) * | 2021-04-09 | 2021-05-07 | 上海旻浦科技有限公司 | 基于深度学习的文档标题识别方法、***、终端及介质 |
CN113781607A (zh) * | 2021-09-17 | 2021-12-10 | 平安科技(深圳)有限公司 | Ocr图像的标注数据的处理方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682697A (zh) * | 2016-12-29 | 2017-05-17 | 华中科技大学 | 一种基于卷积神经网络的端到端物体检测方法 |
CN108564097A (zh) * | 2017-12-05 | 2018-09-21 | 华南理工大学 | 一种基于深度卷积神经网络的多尺度目标检测方法 |
CN109584227A (zh) * | 2018-11-27 | 2019-04-05 | 山东大学 | 一种基于深度学习目标检测算法的焊点质量检测方法及其实现*** |
-
2019
- 2019-05-24 CN CN201910454209.8A patent/CN110929746A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682697A (zh) * | 2016-12-29 | 2017-05-17 | 华中科技大学 | 一种基于卷积神经网络的端到端物体检测方法 |
CN108564097A (zh) * | 2017-12-05 | 2018-09-21 | 华南理工大学 | 一种基于深度卷积神经网络的多尺度目标检测方法 |
CN109584227A (zh) * | 2018-11-27 | 2019-04-05 | 山东大学 | 一种基于深度学习目标检测算法的焊点质量检测方法及其实现*** |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111860524A (zh) * | 2020-07-28 | 2020-10-30 | 上海兑观信息科技技术有限公司 | 一种数字档案智能分类的装置及方法 |
CN112132710A (zh) * | 2020-09-23 | 2020-12-25 | 平安国际智慧城市科技股份有限公司 | 法律要素处理方法、装置、电子设备及存储介质 |
CN112132710B (zh) * | 2020-09-23 | 2023-02-03 | 平安国际智慧城市科技股份有限公司 | 法律要素处理方法、装置、电子设备及存储介质 |
CN112560902A (zh) * | 2020-12-01 | 2021-03-26 | 中国农业科学院农业信息研究所 | 基于书脊视觉信息的图书识别方法及*** |
CN112446372A (zh) * | 2020-12-08 | 2021-03-05 | 电子科技大学 | 基于通道分组注意力机制的文本检测方法 |
CN112766246A (zh) * | 2021-04-09 | 2021-05-07 | 上海旻浦科技有限公司 | 基于深度学习的文档标题识别方法、***、终端及介质 |
CN113781607A (zh) * | 2021-09-17 | 2021-12-10 | 平安科技(深圳)有限公司 | Ocr图像的标注数据的处理方法、装置、设备及存储介质 |
CN113781607B (zh) * | 2021-09-17 | 2023-09-19 | 平安科技(深圳)有限公司 | Ocr图像的标注数据的处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325203B (zh) | 一种基于图像校正的美式车牌识别方法及*** | |
CN110929746A (zh) | 一种基于深度神经网络的电子卷宗标题定位提取与分类方法 | |
CN111931684B (zh) | 一种基于视频卫星数据鉴别特征的弱小目标检测方法 | |
US20200302248A1 (en) | Recognition system for security check and control method thereof | |
CN109857889B (zh) | 一种图像检索方法、装置、设备及可读存储介质 | |
CN110717534B (zh) | 一种基于网络监督的目标分类和定位方法 | |
CN112446388A (zh) | 一种基于轻量化二阶段检测模型的多类别蔬菜幼苗识别方法及*** | |
CN109740603A (zh) | 基于cnn卷积神经网络下的车辆字符识别方法 | |
CN112232371B (zh) | 一种基于YOLOv3与文本识别的美式车牌识别方法 | |
CN112633382B (zh) | 一种基于互近邻的少样本图像分类方法及*** | |
Ahranjany et al. | A very high accuracy handwritten character recognition system for Farsi/Arabic digits using convolutional neural networks | |
CN111738055B (zh) | 多类别文本检测***和基于该***的票据表单检测方法 | |
CN110781648A (zh) | 一种基于深度学习的试卷自动转录***及方法 | |
CN114155527A (zh) | 一种场景文本识别方法和装置 | |
CN112365497A (zh) | 基于TridentNet和Cascade-RCNN结构的高速目标检测方法和*** | |
CN110674777A (zh) | 一种专利文本场景下的光学字符识别方法 | |
CN110008899B (zh) | 一种可见光遥感图像候选目标提取与分类方法 | |
CN106845513A (zh) | 基于条件随机森林的人手检测器及方法 | |
CN114092938B (zh) | 图像的识别处理方法、装置、电子设备及存储介质 | |
CN111310820A (zh) | 基于交叉验证深度cnn特征集成的地基气象云图分类方法 | |
CN108960005B (zh) | 一种智能视觉物联网中对象视觉标签的建立及显示方法、*** | |
CN111832497B (zh) | 一种基于几何特征的文本检测后处理方法 | |
CN112418262A (zh) | 车辆再识别的方法、客户端及*** | |
CN111242131B (zh) | 一种智能阅卷中图像识别的方法、存储介质及装置 | |
Castillo et al. | Object detection in digital documents based on machine learning algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |