CN111476165A - 基于深度学习的电子文档中标题***指纹特征检测方法 - Google Patents

基于深度学习的电子文档中标题***指纹特征检测方法 Download PDF

Info

Publication number
CN111476165A
CN111476165A CN202010266816.4A CN202010266816A CN111476165A CN 111476165 A CN111476165 A CN 111476165A CN 202010266816 A CN202010266816 A CN 202010266816A CN 111476165 A CN111476165 A CN 111476165A
Authority
CN
China
Prior art keywords
fast
electronic document
rcnn model
model
coordinates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010266816.4A
Other languages
English (en)
Inventor
蒋翱
魏明欣
张兵
李丹
钟夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Same Side Seville Information Technology Co ltd
Original Assignee
Same Side Seville Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Same Side Seville Information Technology Co ltd filed Critical Same Side Seville Information Technology Co ltd
Priority to CN202010266816.4A priority Critical patent/CN111476165A/zh
Publication of CN111476165A publication Critical patent/CN111476165A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明公开了一种基于深度学习的电子文档中标题***指纹特征检测方法,包括:对电子文档图片按比例进行手工标注作为训练集,其余作为测试集;搭建并训练集训练Faster‑RCNN模型;将测试集输入训练好的Faster‑RCNN模型预测目标类别和坐标,对测试集进行自动标注,形成标注数据集;采用标注数据集对Faster‑RCNN模型进行迭代训练,导出最终的Faster‑RCNN模型的模型参数,输入电子文档图片,得到电子文档中标题***指纹信息。本发明采用多次修改模型参数和迭代训练的方法,将基于深度学习的目标检测用于传统的案件电子卷宗文档处理领域后,极大方便了文档处理;采用半自动化标注,节约了人力。

Description

基于深度学习的电子文档中标题***指纹特征检测方法
技术领域
本发明涉及电子文档处理技术领域,具体的说,是一种基于深度学习的电子文档中标题***指纹特征检测方法。
背景技术
当今社会是信息社会,信息资源已经成为当今社会重要的战略资源之一。信息资源的利用和开发水平已经成为推动经济、文化、科技和社会发展的重要动力。在司法领域,很多卷宗都是由自由文本的形式处理,识别文档中的字符目标和图像中的关键的图像图形,比如标题,***,指纹等,目前主要依靠人工来观察,其效率低,消耗大,不利于提高文案处理效率。
发明内容
本发明的目的在于提供一种基于深度学习的电子文档中标题***指纹特征检测方法,用于解决现有技术中依靠人工识别文档中的标题***指纹特征效率低下的问题。
本发明通过下述技术方案解决上述问题:
一种基于深度学习的电子文档中标题***指纹特征检测方法,包括:
步骤S100:对电子文档图片按照预设比例进行手工标注,这部分数据作为训练集,其余部分作为测试集;
步骤S200:搭建Faster-RCNN模型,采用训练集训练Faster-RCNN模型;
步骤S300:将测试集输入训练好的Faster-RCNN模型预测目标类别和坐标,对测试集进行自动标注,形成标注数据集;
步骤S400:采用标注数据集对Faster-RCNN模型进行迭代训练,直到Faster-RCNN输出的目标类别和坐标准确为止;
步骤S500:导出最终的Faster-RCNN模型的模型参数,输入电子文档图片,得到电子文档中标题***指纹信息。
所述步骤S200具体包括:
步骤S210:迁移采用ImageNet数据预训练的模型数据,对Faster-RCNN模型参数进行初始化;
步骤S220:将训练集输入Faster-RCNN模型,得到目标类别和坐标,将得到的目标类别和坐标分别与训练集的真实目标类别和真实坐标进行比较,采用BP算法,修改Faster-RCNN模型参数;
步骤S230:返回步骤S220进行迭代训练,直到Faster-RCNN模型输出的目标类别和坐标准确为止。
还包括统计小概率样本,抽取样本并制作小数据集,采用小数据集对步骤S400中的Faster-RCNN模型进行迭代训练,直到Faster-RCNN模型输出的目标类别和坐标准确为止。
所述Faster-RCNN模型包括卷积层、区域候选网络、池化层和分类器,图像进入模型后,使用卷积层提取到图像的feature maps,提取的feature maps进入区域候选网络,区域候选网络提取proposals,池化层结合输入的feature maps和proposals,提取proposalfeature maps,送入分类器进行判别目标类别和坐标,Faster-RCNN模型最终输出目标类别和坐标。
本发明与现有技术相比,具有以下优点及有益效果:
(1)本发明将基于深度学习的目标检测算法应用于案件电子卷宗文档处理中,可以检测并定位到文档中的字符目标和图像中的关键的图像图形,提取文档的关键特征,这些特征可以被展示给用户;将基于深度学习的目标检测用于传统的案件电子卷宗文档处理领域后,极大方便了文档处理。
(2)本发明采用多次修改模型参数和迭代训练的方法,以及综合了长尾分布,提高检测结果的准确度;采用半自动化标注,节约了人力。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例:
结合附图1所示,一种基于深度学习的电子文档中标题***指纹特征检测方法,包括:
(1):收集数据,抽取一部分案件电子卷宗文档,观察文档结构,针对需要提取出来的特征,设计出需要的检测的特征目标的,例如,红色指纹与灰色指纹,圆形***与方形***,标题等,以下称为被检测目标集合,设计好被检测目标集合后,将案件转换为图片格式;
(2):搭建Faster-RCNN模型,所述Faster-RCNN模型包括卷积层、区域候选网络、池化层和分类器,图像进入模型后,使用卷积层提取到图像的feature maps,提取的featuremaps进入区域候选网络,区域候选网络提取proposals,池化层结合输入的feature maps和proposals,提取proposal feature maps,送入分类器进行判别目标类别和坐标,Faster-RCNN模型最终输出目标类别和坐标;迁移采用ImageNet数据预训练的模型数据,对Faster-RCNN模型参数进行初始化;
步骤A:将训练集输入Faster-RCNN模型,得到目标类别和坐标,将得到的目标类别和坐标分别与训练集的真实目标类别和真实坐标进行比较,采用BP算法,修改Faster-RCNN模型参数;
步骤B:返回步骤A进行迭代训练,直到Faster-RCNN模型输出的目标类别和坐标准确为止采用训练集训练Faster-RCNN模型;
(3)划分数据集:电子文档图片按照预设比例进行手工标注,手工标注的方法可以采用:使用左上点的x,y坐标和长,宽来定义一个矩形,矩形内的目标是被标注的目标;每一个矩形被标注为一个类别,如标题,指纹,***;为提高的模型的精确度,标注数据集时,应该使用人工多次核对的方式尽量保证标注数据的准确性。如将其中的10%进行手工标注,这部分数据作为训练集,其余部分作为测试集;
(4):训练模型和半自动标注:
将测试集输入步骤B中训练好的Faster-RCNN模型预测目标类别和坐标,对测试集进行自动标注,形成标注数据集;自动标注的数据可能有不准确的地方,需要人工复核,但是由于本方法10%用人工标注,90%采用自动标注,节约了大量人力。
(5)训练模型:采用标注数据集对Faster-RCNN模型进行迭代训练,直到Faster-RCNN输出的目标类别和坐标准确为止;
(6)处理长尾分布:
统计小概率样本,抽取样本并制作小数据集;采用小数据集对步骤S400中的Faster-RCNN模型进行迭代训练,直到Faster-RCNN模型输出的目标类别和坐标准确为止;
(7)导出模型:导出最终的Faster-RCNN模型的模型参数,输入任意一张电子文档图片,检测得到电子文档中标题***指纹信息(类别和坐标)。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims (4)

1.一种基于深度学习的电子文档中标题***指纹特征检测方法,其特征在于,包括:
步骤S100:对电子文档图片按照预设比例进行手工标注,这部分数据作为训练集,其余部分作为测试集;
步骤S200:搭建Faster-RCNN模型,采用训练集训练Faster-RCNN模型;
步骤S300:将测试集输入训练好的Faster-RCNN模型预测目标类别和坐标,对测试集进行自动标注,形成标注数据集;
步骤S400:采用标注数据集对Faster-RCNN模型进行迭代训练,直到Faster-RCNN输出的目标类别和坐标准确为止;
步骤S500:导出最终的Faster-RCNN模型的模型参数,输入电子文档图片,得到电子文档中标题***指纹信息。
2.根据权利要求1所述的基于深度学习的电子文档中标题***指纹特征检测方法,其特征在于,所述步骤S200具体包括:
步骤S210:迁移采用ImageNet数据预训练的模型数据,对Faster-RCNN模型参数进行初始化;
步骤S220:将训练集输入Faster-RCNN模型,得到目标类别和坐标,将得到的目标类别和坐标分别与训练集的真实目标类别和真实坐标进行比较,采用BP算法,修改Faster-RCNN模型参数;
步骤S230:返回步骤S220进行迭代训练,直到Faster-RCNN模型输出的目标类别和坐标准确为止。
3.根据权利要求1所述的基于深度学习的电子文档中标题***指纹特征检测方法,其特征在于,还包括统计小概率样本,抽取样本并制作小数据集,采用小数据集对步骤S400中的Faster-RCNN模型进行迭代训练,直到Faster-RCNN模型输出的目标类别和坐标准确为止。
4.根据权利要求1所述的基于深度学习的电子文档中标题***指纹特征检测方法,其特征在于,所述Faster-RCNN模型包括卷积层、区域候选网络、池化层和分类器,图像进入模型后,使用卷积层提取到图像的feature maps,提取的feature maps进入区域候选网络,区域候选网络提取proposals,池化层结合输入的feature maps和proposals,提取proposalfeature maps,送入分类器进行判别目标类别和坐标,Faster-RCNN模型最终输出目标类别和坐标。
CN202010266816.4A 2020-04-07 2020-04-07 基于深度学习的电子文档中标题***指纹特征检测方法 Pending CN111476165A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010266816.4A CN111476165A (zh) 2020-04-07 2020-04-07 基于深度学习的电子文档中标题***指纹特征检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010266816.4A CN111476165A (zh) 2020-04-07 2020-04-07 基于深度学习的电子文档中标题***指纹特征检测方法

Publications (1)

Publication Number Publication Date
CN111476165A true CN111476165A (zh) 2020-07-31

Family

ID=71750140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010266816.4A Pending CN111476165A (zh) 2020-04-07 2020-04-07 基于深度学习的电子文档中标题***指纹特征检测方法

Country Status (1)

Country Link
CN (1) CN111476165A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673507A (zh) * 2020-08-10 2021-11-19 广东电网有限责任公司 电力专业的设备铭牌识别算法
CN113743361A (zh) * 2021-09-16 2021-12-03 上海深杳智能科技有限公司 基于图像目标检测的文档切割方法
CN117372787A (zh) * 2023-12-05 2024-01-09 同方赛威讯信息技术有限公司 一种图像多类别识别方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416377A (zh) * 2018-02-26 2018-08-17 阿博茨德(北京)科技有限公司 柱状图中的信息提取方法及装置
CN108537269A (zh) * 2018-04-04 2018-09-14 中山大学 一种弱交互式的物体检测深度学习方法及其***
CN108595544A (zh) * 2018-04-09 2018-09-28 深源恒际科技有限公司 一种文档图片分类方法
CN108921058A (zh) * 2018-06-19 2018-11-30 厦门大学 基于深度学习的鱼类识别方法、介质、终端设备及装置
CN109034190A (zh) * 2018-06-15 2018-12-18 广州深域信息科技有限公司 一种动态选择策略的主动样本挖掘的物体检测***及方法
CN109029641A (zh) * 2018-07-27 2018-12-18 华南理工大学 一种基于Faster-rcnn的水表自动检测方法
CN110060233A (zh) * 2019-03-20 2019-07-26 中国农业机械化科学研究院 一种玉米果穗破损检测方法
CN110120036A (zh) * 2019-04-17 2019-08-13 杭州数据点金科技有限公司 一种多尺度的轮胎x光病疵检测方法
CN110163224A (zh) * 2018-01-23 2019-08-23 天津大学 一种可在线学习的辅助数据标注方法
CN110287998A (zh) * 2019-05-28 2019-09-27 浙江工业大学 一种基于Faster-RCNN的科技文献图片提取方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163224A (zh) * 2018-01-23 2019-08-23 天津大学 一种可在线学习的辅助数据标注方法
CN108416377A (zh) * 2018-02-26 2018-08-17 阿博茨德(北京)科技有限公司 柱状图中的信息提取方法及装置
CN108537269A (zh) * 2018-04-04 2018-09-14 中山大学 一种弱交互式的物体检测深度学习方法及其***
CN108595544A (zh) * 2018-04-09 2018-09-28 深源恒际科技有限公司 一种文档图片分类方法
CN109034190A (zh) * 2018-06-15 2018-12-18 广州深域信息科技有限公司 一种动态选择策略的主动样本挖掘的物体检测***及方法
CN108921058A (zh) * 2018-06-19 2018-11-30 厦门大学 基于深度学习的鱼类识别方法、介质、终端设备及装置
CN109029641A (zh) * 2018-07-27 2018-12-18 华南理工大学 一种基于Faster-rcnn的水表自动检测方法
CN110060233A (zh) * 2019-03-20 2019-07-26 中国农业机械化科学研究院 一种玉米果穗破损检测方法
CN110120036A (zh) * 2019-04-17 2019-08-13 杭州数据点金科技有限公司 一种多尺度的轮胎x光病疵检测方法
CN110287998A (zh) * 2019-05-28 2019-09-27 浙江工业大学 一种基于Faster-RCNN的科技文献图片提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
鞠孟汐等: "基于深度主动学习的白带白细胞智能检测方法研究", 《生物医学工程学杂志》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673507A (zh) * 2020-08-10 2021-11-19 广东电网有限责任公司 电力专业的设备铭牌识别算法
CN113743361A (zh) * 2021-09-16 2021-12-03 上海深杳智能科技有限公司 基于图像目标检测的文档切割方法
CN117372787A (zh) * 2023-12-05 2024-01-09 同方赛威讯信息技术有限公司 一种图像多类别识别方法及装置
CN117372787B (zh) * 2023-12-05 2024-02-20 同方赛威讯信息技术有限公司 一种图像多类别识别方法及装置

Similar Documents

Publication Publication Date Title
CN107833213B (zh) 一种基于伪真值自适应法的弱监督物体检测方法
CN110610166B (zh) 文本区域检测模型训练方法、装置、电子设备和存储介质
WO2019163985A1 (ja) 特徴表現装置、特徴表現方法、およびプログラム
CN111476165A (zh) 基于深度学习的电子文档中标题***指纹特征检测方法
CN111626146B (zh) 一种基于模板匹配的合并单元格表格分割识别方法
CN110033018B (zh) 图形相似度判断方法、装置及计算机可读存储介质
CN111738113B (zh) 基于双注意力机制与语义约束的高分辨遥感图像的道路提取方法
CN112949783B (zh) 一种基于改进U-Net神经网络的道路裂缝检测方法
CN107730553B (zh) 一种基于伪真值搜寻法的弱监督物体检测方法
CN111583180B (zh) 一种图像的篡改识别方法、装置、计算机设备及存储介质
CN114187595A (zh) 基于视觉特征和语义特征融合的文档布局识别方法及***
CN116189162A (zh) 一种船牌检测与识别方法、装置、电子设备和储存介质
CN114330247A (zh) 一种基于图像识别的自动化保险条款解析方法
CN111783416B (zh) 一种利用先验知识构建文档图像数据集的方法
CN105404682A (zh) 一种基于数字图像内容的图书检索方法
CN112329669A (zh) 一种电子档案管理方法
CN117351505A (zh) 信息码的识别方法、装置、设备及存储介质
CN110956174A (zh) 一种器件编号的识别方法
CN113516114B (zh) 一种自然场景文本检测方法、设备和介质
CN115761782A (zh) 一种道路工程图纸标题栏信息提取方法
CN104504385A (zh) 手写粘连数字串的识别方法
CN115393748A (zh) 一种基于Logo识别的侵权商标检测方法
CN110175563B (zh) 金属切削刀具图纸标注识别方法及***
CN113112515B (zh) 一种纹样图像分割算法评价方法
CN115359346B (zh) 基于街景图片的小微空间识别方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200731