CN115035541A

CN115035541A - 一种大尺寸复杂pdf工程图纸文本检测与识别方法

Info

Publication number: CN115035541A
Application number: CN202210735421.3A
Authority: CN
Inventors: 姚昊; 潘炼; 伍吉泽; 李武平; 沈祯杰; 刘忠良; 李清; 熊伟; 张永兴; ***
Original assignee: CNNC Nuclear Power Operation Management Co Ltd
Current assignee: CNNC Nuclear Power Operation Management Co Ltd
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-09-09

Abstract

本发明提供了一种大尺寸复杂pdf工程图纸文本检测与识别方法，包括以下步骤：步骤S1：预处理pdf工程图纸，生成对应的高分辨率图像；步骤S2：将高分辨率图像切割为若干低分辨率的子图，并根据位置记录子图对应顺序；步骤S3：进行第一次子图文本检测，初步定位子图中的文本区域范围，输出范围对应的位置坐标；步骤S4：将子图中的文本区域位置坐标映射到原大图中，去除其中的重复数据，并根据去重后的位置坐标获取对应文本区域图像；步骤S5：进行第二次文本检测，精确定位文本区域中的文本，并裁剪对应的文本块；步骤S6：对文本块进行文本识别，提取文本块中的文本内容，以及对应的坐标位置。本发明提供的方法提高了复杂图纸的文本识别准确率。

Description

一种大尺寸复杂pdf工程图纸文本检测与识别方法

技术领域

本发明涉及核电厂文本图纸管理技术领域，尤其涉及一种大尺寸复杂pdf工程图纸文本检测与识别方法。

背景技术

在工程领域，常常需要建立图纸与其文本内容之间的关系，以便快速查询图纸中物料编码、元器件编号等信息及其对应的图纸。以往此类工作大多基于人工手段实现，效率较低下，在大量图纸的文本数据处理情况下人力资源的成本极为高昂。因此，需要一种自动识别图纸文本内容的方法代替人工，完成大批量pdf图纸的文本提取，以此降低人工成本的同时提高工程图纸的文本提取效率。

当前针对图纸的文本识别一般需要两个步骤：文本检测、文本识别。文本检测目的在于检测出图纸中的文本区域，实现文本在图像中的定位，并输出对应文本区域的位置坐标信息；文本识别目的在于，针对图纸中的文本区域，输出对应的文本。

可见，现有的图纸文本提取手段存在成本高昂、效率低下以及图纸内容复杂等问题。

发明内容

本发明的目的在于克服现有技术中所述的缺陷，从而提供一种成本低廉、效率高的大尺寸复杂pdf工程图纸文本检测与识别方法。

为了实现上述目的，本发明提供如下技术方案：

一种大尺寸复杂pdf工程图纸文本检测与识别方法，包括以下步骤：

步骤S1：预处理pdf工程图纸，生成对应的高分辨率图像；

步骤S2：将高分辨率图像切割为若干低分辨率的子图，并根据位置记录子图对应顺序；

步骤S3：进行第一次子图文本检测，初步定位子图中的文本区域范围，输出范围对应的位置坐标；

步骤S4：将子图中的文本区域位置坐标映射到原大图中，去除其中的重复数据，并根据去重后的位置坐标获取对应文本区域图像；

步骤S5：进行第二次文本检测，精确定位文本区域中的文本，并裁剪对应的文本块；

步骤S6：对文本块进行文本识别，提取文本块中的文本内容，以及对应的坐标位置。

步骤S2中，通过使用滑动窗口裁剪，将高分辨率图像切割为若干低分辨率的子图。

步骤S3中，使用AdvancedEAST方法完成子图的文本检测，初步获取子图中文本区域的粗略位置信息。

步骤S4包括：

步骤S41：将步骤S3中的坐标位置映射到原高分辨率大图上；

步骤S42：去除坐标信息中的重复数据；

步骤S43：根据去重后的位置坐标，裁剪对应的文本区域图像。

步骤S5中，对步骤S4中得到的文本区域图像进行第二次文本检测，对文本进行精确定位，并裁剪出对应的文本图像。

步骤S6中，使用PaddleOCR文本识别方案，完成对步骤S5中得到的文本图像的文本识别，最终输出文本内容以及对应的图像区域坐标。

与现有技术相比，本发明提供的大尺寸复杂pdf工程图纸文本检测与识别方法具有以下有益效果：

本发明提供的方法可精确的检测出大尺寸复杂PDF工程图纸中的有效文本区域，包括横向文本区域坐标信息、竖向文本区域坐标信息，并准确的识别出有效文本区域内的文本内容。

并且本发明通过连续两次文本检测，有效避免了线条、图案等干扰对于识别的不利影响，提高了复杂图纸的文本识别准确率。

进一步地，本发明通过滑动窗口分块处理方式实现文本检测识别方法应用在大尺寸图纸上，同时避免了连续文本被截断的风险。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例所提供的大尺寸复杂pdf工程图纸文本检测与识别方法的流程图。

具体实施方式

下面通过具体实施方式进一步详细说明。

本发明提供了一种大尺寸复杂pdf工程图纸文本检测与识别方法，方法总体可分为四部分：一、处理PDF图纸，转换为高分辨率图像，并有序拆分为固定尺寸的子图。二、进行两次文本检测，精确定位文本区域。第一次检测针对子图，找出子图中存在文本的粗略区域范围；第二次检测针对第一次检测的区域，排除区域中存在的干扰，精确定位文本位置。三、文本坐标处理，将子图中的坐标映射到高分辨率大图上，并筛除坐标中的重复数据；四、文本识别，针对文本检测结果，识别对应区域的文本内容，输出文本内容及其对应的坐标位置。

如图1所示，本发明提供的大尺寸复杂pdf工程图纸文本检测与识别方法包括以下步骤：

步骤S1：预处理pdf工程图纸，生成对应的高分辨率图像，如3680x2944的千万像素级别图像；

步骤S2：使用滑动窗口裁剪方法，将高分辨率图像切割为若干较小尺寸的子图，并根据裁剪窗口的横、纵向滑动次数i、j记录子图对应序号。具体做法为：对于3680x2944的大图，每个子图I_i，j的宽度w和高度h均为736，横、纵向滑动步长Δx、Δy均为368，最终得到63个子图；

步骤S3：使用AdvancedEAST方法完成子图的文本检测，初步获取子图中文本区域的粗略位置信息，具体表现为矩形文本区域的四个顶点，对应8个坐标值(x₀，y₀)…(x₃，y₃)；

步骤S41：将步骤S3中的坐标位置映射到原高分辨率大图上，坐标映射公式如下：

X_m＝i*Δx+x_m，m＝0，1，2，3；

Y_n＝j*Δy+y_n，n＝0，1，2，3；

步骤S42：去除坐标信息中的重复数据。由于步骤S2中使用滑动窗口裁剪得到子图，检测中必然存在同一文本区域被检测多次的情形，从而得到多组指向原图中同一区域的坐标信息，这些重复数据需要合并为一组坐标数据。重复数据合并判定公式如下：

其中，S_i表示文本区域，如果文本检测区域存在包含情形，则合并文本区域坐标，舍弃较小区域坐标。

步骤S5：对第一次文本检测的文本区域图像进行第二次文本检测，对文本进行精确定位，并裁剪出对应的文本图像。二次检测能够有效地去除第一次检测的文本区域中文本内容以外的线条或图案干扰，实现更为精确的文本定位，确保后续识别的准确性。

步骤S6：使用PaddleOCR文本识别方案，对文本检测得到的精确文本区域进行文本识别。最终，输出文本内容以及对应的图像区域坐标位置。

本发明的文本检测采用AdvancedEAST开源文本检测方案，以VGG16网络结构作为主干网络提取图纸中的像素特征，使用上采样、卷积等方式实现多通道的特征融合，并根据融合特征预测文本区域。文本识别部分使用PaddleOCR开源文本识别方案，基于CRNN模型，使用CTC Loss作为损失函数。

本发明提供了一项应用型基础技术，解决了PDF工程图纸在尺寸较大(注：导致无法直接将整张PDF图纸作为输入源)和内容复杂(注：存在横向文本、竖向文本、类似文本的干扰线条或图案)的场景中的文本检测与识别问题，可为针对大尺寸复杂PDF工程图纸中特定文本的相关应用提供技术支撑，如：设备编码或物资编码的编码识别、编码纠错推荐、编码定位查询、编码文件关联等等。

以上所述仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种大尺寸复杂pdf工程图纸文本检测与识别方法，其特征在于，包括以下步骤：

步骤S1：预处理pdf工程图纸，生成对应的高分辨率图像；

2.根据权利要求1所述的大尺寸复杂pdf工程图纸文本检测与识别方法，其特征在于，步骤S2中，通过使用滑动窗口裁剪，将高分辨率图像切割为若干低分辨率的子图。

3.根据权利要求1所述的大尺寸复杂pdf工程图纸文本检测与识别方法，其特征在于，步骤S3中，使用AdvancedEAST方法完成子图的文本检测，初步获取子图中文本区域的粗略位置信息。

4.根据权利要求1所述的大尺寸复杂pdf工程图纸文本检测与识别方法，其特征在于，步骤S4包括：

步骤S41：将步骤S3中的坐标位置映射到原高分辨率大图上；

步骤S42：去除坐标信息中的重复数据；

5.根据权利要求1所述的大尺寸复杂pdf工程图纸文本检测与识别方法，其特征在于，步骤S5中，对步骤S4中得到的文本区域图像进行第二次文本检测，对文本进行精确定位，并裁剪出对应的文本图像。

6.根据权利要求1所述的大尺寸复杂pdf工程图纸文本检测与识别方法，其特征在于，步骤S6中，使用PaddleOCR文本识别方案，完成对步骤S5中得到的文本图像的文本识别，最终输出文本内容以及对应的图像区域坐标。