CN115035541A - 一种大尺寸复杂pdf工程图纸文本检测与识别方法 - Google Patents

一种大尺寸复杂pdf工程图纸文本检测与识别方法 Download PDF

Info

Publication number
CN115035541A
CN115035541A CN202210735421.3A CN202210735421A CN115035541A CN 115035541 A CN115035541 A CN 115035541A CN 202210735421 A CN202210735421 A CN 202210735421A CN 115035541 A CN115035541 A CN 115035541A
Authority
CN
China
Prior art keywords
text
image
sub
pdf
resolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210735421.3A
Other languages
English (en)
Inventor
姚昊
潘炼
伍吉泽
李武平
沈祯杰
刘忠良
李清
熊伟
张永兴
***
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CNNC Nuclear Power Operation Management Co Ltd
Original Assignee
CNNC Nuclear Power Operation Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CNNC Nuclear Power Operation Management Co Ltd filed Critical CNNC Nuclear Power Operation Management Co Ltd
Priority to CN202210735421.3A priority Critical patent/CN115035541A/zh
Publication of CN115035541A publication Critical patent/CN115035541A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

本发明提供了一种大尺寸复杂pdf工程图纸文本检测与识别方法,包括以下步骤:步骤S1:预处理pdf工程图纸,生成对应的高分辨率图像;步骤S2:将高分辨率图像切割为若干低分辨率的子图,并根据位置记录子图对应顺序;步骤S3:进行第一次子图文本检测,初步定位子图中的文本区域范围,输出范围对应的位置坐标;步骤S4:将子图中的文本区域位置坐标映射到原大图中,去除其中的重复数据,并根据去重后的位置坐标获取对应文本区域图像;步骤S5:进行第二次文本检测,精确定位文本区域中的文本,并裁剪对应的文本块;步骤S6:对文本块进行文本识别,提取文本块中的文本内容,以及对应的坐标位置。本发明提供的方法提高了复杂图纸的文本识别准确率。

Description

一种大尺寸复杂pdf工程图纸文本检测与识别方法
技术领域
本发明涉及核电厂文本图纸管理技术领域,尤其涉及一种大尺寸复杂pdf工程图纸文本检测与识别方法。
背景技术
在工程领域,常常需要建立图纸与其文本内容之间的关系,以便快速查询图纸中物料编码、元器件编号等信息及其对应的图纸。以往此类工作大多基于人工手段实现,效率较低下,在大量图纸的文本数据处理情况下人力资源的成本极为高昂。因此,需要一种自动识别图纸文本内容的方法代替人工,完成大批量pdf图纸的文本提取,以此降低人工成本的同时提高工程图纸的文本提取效率。
当前针对图纸的文本识别一般需要两个步骤:文本检测、文本识别。文本检测目的在于检测出图纸中的文本区域,实现文本在图像中的定位,并输出对应文本区域的位置坐标信息;文本识别目的在于,针对图纸中的文本区域,输出对应的文本。
可见,现有的图纸文本提取手段存在成本高昂、效率低下以及图纸内容复杂等问题。
发明内容
本发明的目的在于克服现有技术中所述的缺陷,从而提供一种成本低廉、效率高的大尺寸复杂pdf工程图纸文本检测与识别方法。
为了实现上述目的,本发明提供如下技术方案:
一种大尺寸复杂pdf工程图纸文本检测与识别方法,包括以下步骤:
步骤S1:预处理pdf工程图纸,生成对应的高分辨率图像;
步骤S2:将高分辨率图像切割为若干低分辨率的子图,并根据位置记录子图对应顺序;
步骤S3:进行第一次子图文本检测,初步定位子图中的文本区域范围,输出范围对应的位置坐标;
步骤S4:将子图中的文本区域位置坐标映射到原大图中,去除其中的重复数据,并根据去重后的位置坐标获取对应文本区域图像;
步骤S5:进行第二次文本检测,精确定位文本区域中的文本,并裁剪对应的文本块;
步骤S6:对文本块进行文本识别,提取文本块中的文本内容,以及对应的坐标位置。
步骤S2中,通过使用滑动窗口裁剪,将高分辨率图像切割为若干低分辨率的子图。
步骤S3中,使用AdvancedEAST方法完成子图的文本检测,初步获取子图中文本区域的粗略位置信息。
步骤S4包括:
步骤S41:将步骤S3中的坐标位置映射到原高分辨率大图上;
步骤S42:去除坐标信息中的重复数据;
步骤S43:根据去重后的位置坐标,裁剪对应的文本区域图像。
步骤S5中,对步骤S4中得到的文本区域图像进行第二次文本检测,对文本进行精确定位,并裁剪出对应的文本图像。
步骤S6中,使用PaddleOCR文本识别方案,完成对步骤S5中得到的文本图像的文本识别,最终输出文本内容以及对应的图像区域坐标。
与现有技术相比,本发明提供的大尺寸复杂pdf工程图纸文本检测与识别方法具有以下有益效果:
本发明提供的方法可精确的检测出大尺寸复杂PDF工程图纸中的有效文本区域,包括横向文本区域坐标信息、竖向文本区域坐标信息,并准确的识别出有效文本区域内的文本内容。
并且本发明通过连续两次文本检测,有效避免了线条、图案等干扰对于识别的不利影响,提高了复杂图纸的文本识别准确率。
进一步地,本发明通过滑动窗口分块处理方式实现文本检测识别方法应用在大尺寸图纸上,同时避免了连续文本被截断的风险。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例所提供的大尺寸复杂pdf工程图纸文本检测与识别方法的流程图。
具体实施方式
下面通过具体实施方式进一步详细说明。
本发明提供了一种大尺寸复杂pdf工程图纸文本检测与识别方法,方法总体可分为四部分:一、处理PDF图纸,转换为高分辨率图像,并有序拆分为固定尺寸的子图。二、进行两次文本检测,精确定位文本区域。第一次检测针对子图,找出子图中存在文本的粗略区域范围;第二次检测针对第一次检测的区域,排除区域中存在的干扰,精确定位文本位置。三、文本坐标处理,将子图中的坐标映射到高分辨率大图上,并筛除坐标中的重复数据;四、文本识别,针对文本检测结果,识别对应区域的文本内容,输出文本内容及其对应的坐标位置。
如图1所示,本发明提供的大尺寸复杂pdf工程图纸文本检测与识别方法包括以下步骤:
步骤S1:预处理pdf工程图纸,生成对应的高分辨率图像,如3680x2944的千万像素级别图像;
步骤S2:使用滑动窗口裁剪方法,将高分辨率图像切割为若干较小尺寸的子图,并根据裁剪窗口的横、纵向滑动次数i、j记录子图对应序号。具体做法为:对于3680x2944的大图,每个子图Ii,j的宽度w和高度h均为736,横、纵向滑动步长Δx、Δy均为368,最终得到63个子图;
步骤S3:使用AdvancedEAST方法完成子图的文本检测,初步获取子图中文本区域的粗略位置信息,具体表现为矩形文本区域的四个顶点,对应8个坐标值(x0,y0)…(x3,y3);
步骤S4:将子图中的文本区域位置坐标映射到原大图中,去除其中的重复数据,并根据去重后的位置坐标获取对应文本区域图像;
步骤S41:将步骤S3中的坐标位置映射到原高分辨率大图上,坐标映射公式如下:
Xm=i*Δx+xm,m=0,1,2,3;
Yn=j*Δy+yn,n=0,1,2,3;
步骤S42:去除坐标信息中的重复数据。由于步骤S2中使用滑动窗口裁剪得到子图,检测中必然存在同一文本区域被检测多次的情形,从而得到多组指向原图中同一区域的坐标信息,这些重复数据需要合并为一组坐标数据。重复数据合并判定公式如下:
Figure BDA0003715147000000051
其中,Si表示文本区域,如果文本检测区域存在包含情形,则合并文本区域坐标,舍弃较小区域坐标。
步骤S43:根据去重后的位置坐标,裁剪对应的文本区域图像。
步骤S5:对第一次文本检测的文本区域图像进行第二次文本检测,对文本进行精确定位,并裁剪出对应的文本图像。二次检测能够有效地去除第一次检测的文本区域中文本内容以外的线条或图案干扰,实现更为精确的文本定位,确保后续识别的准确性。
步骤S6:使用PaddleOCR文本识别方案,对文本检测得到的精确文本区域进行文本识别。最终,输出文本内容以及对应的图像区域坐标位置。
本发明的文本检测采用AdvancedEAST开源文本检测方案,以VGG16网络结构作为主干网络提取图纸中的像素特征,使用上采样、卷积等方式实现多通道的特征融合,并根据融合特征预测文本区域。文本识别部分使用PaddleOCR开源文本识别方案,基于CRNN模型,使用CTC Loss作为损失函数。
本发明提供了一项应用型基础技术,解决了PDF工程图纸在尺寸较大(注:导致无法直接将整张PDF图纸作为输入源)和内容复杂(注:存在横向文本、竖向文本、类似文本的干扰线条或图案)的场景中的文本检测与识别问题,可为针对大尺寸复杂PDF工程图纸中特定文本的相关应用提供技术支撑,如:设备编码或物资编码的编码识别、编码纠错推荐、编码定位查询、编码文件关联等等。
以上所述仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (6)

1.一种大尺寸复杂pdf工程图纸文本检测与识别方法,其特征在于,包括以下步骤:
步骤S1:预处理pdf工程图纸,生成对应的高分辨率图像;
步骤S2:将高分辨率图像切割为若干低分辨率的子图,并根据位置记录子图对应顺序;
步骤S3:进行第一次子图文本检测,初步定位子图中的文本区域范围,输出范围对应的位置坐标;
步骤S4:将子图中的文本区域位置坐标映射到原大图中,去除其中的重复数据,并根据去重后的位置坐标获取对应文本区域图像;
步骤S5:进行第二次文本检测,精确定位文本区域中的文本,并裁剪对应的文本块;
步骤S6:对文本块进行文本识别,提取文本块中的文本内容,以及对应的坐标位置。
2.根据权利要求1所述的大尺寸复杂pdf工程图纸文本检测与识别方法,其特征在于,步骤S2中,通过使用滑动窗口裁剪,将高分辨率图像切割为若干低分辨率的子图。
3.根据权利要求1所述的大尺寸复杂pdf工程图纸文本检测与识别方法,其特征在于,步骤S3中,使用AdvancedEAST方法完成子图的文本检测,初步获取子图中文本区域的粗略位置信息。
4.根据权利要求1所述的大尺寸复杂pdf工程图纸文本检测与识别方法,其特征在于,步骤S4包括:
步骤S41:将步骤S3中的坐标位置映射到原高分辨率大图上;
步骤S42:去除坐标信息中的重复数据;
步骤S43:根据去重后的位置坐标,裁剪对应的文本区域图像。
5.根据权利要求1所述的大尺寸复杂pdf工程图纸文本检测与识别方法,其特征在于,步骤S5中,对步骤S4中得到的文本区域图像进行第二次文本检测,对文本进行精确定位,并裁剪出对应的文本图像。
6.根据权利要求1所述的大尺寸复杂pdf工程图纸文本检测与识别方法,其特征在于,步骤S6中,使用PaddleOCR文本识别方案,完成对步骤S5中得到的文本图像的文本识别,最终输出文本内容以及对应的图像区域坐标。
CN202210735421.3A 2022-06-27 2022-06-27 一种大尺寸复杂pdf工程图纸文本检测与识别方法 Pending CN115035541A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210735421.3A CN115035541A (zh) 2022-06-27 2022-06-27 一种大尺寸复杂pdf工程图纸文本检测与识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210735421.3A CN115035541A (zh) 2022-06-27 2022-06-27 一种大尺寸复杂pdf工程图纸文本检测与识别方法

Publications (1)

Publication Number Publication Date
CN115035541A true CN115035541A (zh) 2022-09-09

Family

ID=83126782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210735421.3A Pending CN115035541A (zh) 2022-06-27 2022-06-27 一种大尺寸复杂pdf工程图纸文本检测与识别方法

Country Status (1)

Country Link
CN (1) CN115035541A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190266394A1 (en) * 2018-02-26 2019-08-29 Abc Fintech Co., Ltd. Method and device for parsing table in document image
CN111414906A (zh) * 2020-03-05 2020-07-14 北京交通大学 纸质票据图片的数据合成与文本识别方法
CN111860348A (zh) * 2020-07-21 2020-10-30 国网山东省电力公司青岛供电公司 基于深度学习的弱监督电力图纸ocr识别方法
CN112069985A (zh) * 2020-08-31 2020-12-11 华中农业大学 基于深度学习的高分辨率大田图像稻穗检测与计数方法
CN112633277A (zh) * 2020-12-30 2021-04-09 杭州电子科技大学 基于深度学习的航道船牌检测、定位及识别方法
CN113269049A (zh) * 2021-04-30 2021-08-17 天津科技大学 一种用于检测手写汉字区域的方法
WO2021190171A1 (zh) * 2020-03-25 2021-09-30 腾讯科技(深圳)有限公司 图像识别方法、装置、终端和存储介质
CN113569629A (zh) * 2021-06-11 2021-10-29 杭州玖欣物联科技有限公司 一种机加工图纸关键信息提取和敏感信息脱敏的模型方法
CN114140803A (zh) * 2022-01-30 2022-03-04 杭州实在智能科技有限公司 基于深度学习的文档单字坐标检测和修正方法及***
CN114170608A (zh) * 2021-12-01 2022-03-11 上海东普信息科技有限公司 超分辨文本图像识别方法、装置、设备及存储介质
CN114220091A (zh) * 2021-12-16 2022-03-22 广东电网有限责任公司 基于Faster Rcnn的图像文本检测方法及***

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190266394A1 (en) * 2018-02-26 2019-08-29 Abc Fintech Co., Ltd. Method and device for parsing table in document image
CN111414906A (zh) * 2020-03-05 2020-07-14 北京交通大学 纸质票据图片的数据合成与文本识别方法
WO2021190171A1 (zh) * 2020-03-25 2021-09-30 腾讯科技(深圳)有限公司 图像识别方法、装置、终端和存储介质
CN111860348A (zh) * 2020-07-21 2020-10-30 国网山东省电力公司青岛供电公司 基于深度学习的弱监督电力图纸ocr识别方法
CN112069985A (zh) * 2020-08-31 2020-12-11 华中农业大学 基于深度学习的高分辨率大田图像稻穗检测与计数方法
CN112633277A (zh) * 2020-12-30 2021-04-09 杭州电子科技大学 基于深度学习的航道船牌检测、定位及识别方法
CN113269049A (zh) * 2021-04-30 2021-08-17 天津科技大学 一种用于检测手写汉字区域的方法
CN113569629A (zh) * 2021-06-11 2021-10-29 杭州玖欣物联科技有限公司 一种机加工图纸关键信息提取和敏感信息脱敏的模型方法
CN114170608A (zh) * 2021-12-01 2022-03-11 上海东普信息科技有限公司 超分辨文本图像识别方法、装置、设备及存储介质
CN114220091A (zh) * 2021-12-16 2022-03-22 广东电网有限责任公司 基于Faster Rcnn的图像文本检测方法及***
CN114140803A (zh) * 2022-01-30 2022-03-04 杭州实在智能科技有限公司 基于深度学习的文档单字坐标检测和修正方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李昊 等: "基于深度学习和图匹配的接线图检测与校核", 北京航空航天大学学报, vol. 47, no. 3, 2 November 2020 (2020-11-02) *

Similar Documents

Publication Publication Date Title
CN111814722B (zh) 一种图像中的表格识别方法、装置、电子设备及存储介质
CN110363102B (zh) 一种pdf文件的对象识别处理方法及装置
US8401333B2 (en) Image processing method and apparatus for multi-resolution feature based image registration
RU2651144C2 (ru) Ввод данных с изображений документов с фиксированной структурой
US9230382B2 (en) Document image capturing and processing
CN104751142B (zh) 一种基于笔划特征的自然场景文本检测方法
Chen et al. Shadow-based Building Detection and Segmentation in High-resolution Remote Sensing Image.
CN112883926B (zh) 表格类医疗影像的识别方法及装置
CN110321750A (zh) 一种图片中的二维码识别方法及***
CN116052193B (zh) Rpa界面动态表格的拾取和匹配方法及***
CN116311259B (zh) 一种pdf业务文档的信息抽取方法
CN111626145B (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
CN113688688A (zh) 图片中表格线条的补全方法与图片中表格的识别方法
CN112016481A (zh) 基于ocr的财务报表信息检测和识别方法
CN115620325A (zh) 表格结构的还原方法、装置、电子设备及存储介质
CN109635729B (zh) 一种表格识别方法及终端
CN112364863B (zh) 证照文档的文字定位方法及***
US8897538B1 (en) Document image capturing and processing
CN115861922B (zh) 一种稀疏烟火检测方法、装置、计算机设备及存储介质
CN101901333A (zh) 文本图像中切分词的方法及使用该方法的识别装置
CN115035541A (zh) 一种大尺寸复杂pdf工程图纸文本检测与识别方法
CN112861861B (zh) 识别数码管文本的方法、装置及电子设备
CN112232390B (zh) 一种高像素大图像的识别方法和***
Biswas et al. Text extraction from scanned land map images
CN113793264A (zh) 一种基于卷积模型的档案图像处理方法、***和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination