CN114663904A

CN114663904A - 一种pdf文档布局检测方法、装置、设备及介质

Info

Publication number: CN114663904A
Application number: CN202210344990.5A
Authority: CN
Inventors: 祝蕾; 吴杰
Original assignee: Chengdu Westone Information Industry Inc
Current assignee: Chengdu Westone Information Industry Inc
Priority date: 2022-04-02
Filing date: 2022-04-02
Publication date: 2022-06-24

Abstract

本申请公开了一种PDF布局文档检测方法、装置、设备及介质，涉及计算机视觉技术领域，该方法包括：获取各类历史PDF文档，并将历史PDF文档的页面转化为图片；根据预设标注框对图片中的目标对象进行标注得到已标注图片和目标标注信息；根据已标注图片和目标标注信息对目标检测点网络进行训练得到训练模型；目标检测点网络为基于图片中的关键点进行目标检测的网络；将待检测PDF文档输入训练模型以对待检测PDF文档进行布局检测。可见，本申请使训练模型检测各类PDF文档，能够更细致地区分标题；本申请将历史PDF文档的页面转化为图片可实现对扫描型PDF文档的检测；利用基于关键点的目标检测网络，提高了布局检测算法模型的精度和速度。

Description

一种PDF文档布局检测方法、装置、设备及介质

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种PDF文档布局检测方法、装置、设备及介质。

背景技术

当前，随着信息化的发展，越来越多的办公场合使用便携式文档格式PDF(Portable Document Format)电子文档进行沟通交流，该格式文件将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中，集成度和安全可靠性都较高，这一特点使它成为在网络上进行电子文档发行和数字化信息传播的理想文档格式。

虽然这些电子文档便于使用和传播，但由于理解文档布局和使用这种格式提取信息很复杂，并且PDF文档的语言不同(中文、英文等)、排版格式不同、文档格式不同(扫描型、文本型)、字体类型和字号大小不同、行业领域不同等原因，实现统一的文档布局检测具有十分的难度和挑战，因此很难自动处理和检测这些文档。现有的PDF文档解析工具在一定程度上可以实现文档布局检测，但现有算法大多针对某一特定类型PDF文档数据进行训练，如：英文论文、中文期刊，无法应用到内容格式差异较大的其他行业及领域，例如无法实现对通知、告示、合同、请假条、技术报告等类型文档的布局检测；并且现有文档布局检测算法无法实现对多种重要对象的定位和提取，包括：标题、文本、图像、表格、列表、公式六大类，其中大多现有算法无法实现对公式和列表两个类别的定位和提取，布局检测类型不够丰富；另外，对于标题提取这项功能，现有算法无法定位和提取多级标题，包括：一级标题、二级标题、三级标题、四级标题、以及各类无明显前缀的小标题，功能不够完善，无法实现精细化布局检测；现有基于目标检测的文档布局检测的算法采用Faster-Rcnn框架进行训练和测试，该框架模型复杂，运算复杂度高，运行时间长，效率低下，无法满足实时布局检测要求；最后，现有基于自然语言处理的文档布局检测的算法依赖于文档中各个字符的语义信息和位置信息，无法处理扫描型PDF文档，应用场景具有局限性，且模型复杂、计算量大。

综上所述，如何在对PDF文档布局检测时，实现检测多种格式、多种类别和多种语言的PDF文档，实现对扫描型PDF文档的检测，并提高布局检测算法模型的精度和速度。

发明内容

有鉴于此，本发明的目的在于提供一种PDF文档布局检测方法，能够检测多种格式、多种类别和多种语言的PDF文档，实现对扫描型PDF文档的检测，并提高布局检测算法模型的精度和速度。其具体方案如下：

第一方面，本申请公开了一种PDF文档布局检测方法，包括:

获取各类预设内容、预设格式和预设语言的历史PDF文档，并将所述历史PDF文档对应的全部页面转化为图片；

根据预设标注框对所述图片中的目标对象进行标注得到已标注图片以及对应的目标标注信息；所述目标标注信息包含目标标注类别和目标标注位置坐标；

根据所述已标注图片以及对应的所述目标标注信息对目标检测点网络进行训练以得到训练模型；所述目标检测点网络为基于图片中的关键点进行目标检测的网络；

将待检测PDF文档输入所述训练模型以对所述待检测PDF文档行布局检测。

可选的，所述根据所述已标注图片以及对应的所述目标标注信息对目标检测点网络进行训练，包括：

将所述已标注图片划分至训练集得到训练图片，并将所述目标标注信息作为所述训练集的预设格式的训练标签；

根据所述训练图片以及所述训练标签对所述目标检测点网络进行训练。

可选的，所述根据所述训练图片以及所述训练标签对所述目标检测点网络进行训练，包括：

对所述训练图片进行预处理得到预处理后图片；

将所述预处理后图片以及所述训练标签输入所述目标检测点网络中的MobileNet-V2基础网络，以便所述MobileNet-V2基础网络对所述预处理后图片进行特征提取得到不同初始特征图；

将所述不同初始特征图输入所述目标检测点网络中的特征金字塔网络，以便所述特征金字塔基于预设通道数量的输出通道得到不同强化后特征图；

检测所述目标对象的中心点以及预设点数量的边界点，并将所述中心点和所述边界点作为用于构成目标检测框的关键点，然后基于所述目标检测框对所述强化后特征图进行目标检测，并输出目标检测信息。

可选的，所述对所述训练图片进行预处理得到预处理后图片，包括：

将所述训练图片的边长调整至预设长度范围得到调整后训练图片，并对所述调整后训练图片的RGB三通道进行归一化处理得到处理后训练图片，然后对所述处理后训练图片进行填充处理和随机水平翻转得到预处理后图片。

可选的，所述基于所述目标检测框对所述强化后特征图进行目标检测，并输出目标检测信息，包括：

以所述强化后特征图的每一个像素点为中心，预测所述目标对象中所述关键点的回归前偏移量，并基于所述回归前偏移量进行第一卷积运算完成第一阶段偏移量回归得到回归后偏移量，然后基于所述强化后特征图和所述回归后偏移量进行第二卷积运算得到新特征图，将所述新特征图输入分类层得到类别得分图；所述类别得分图中标明目标检测类别；

基于所述新特征图进行第一卷积运算以完成第二阶段偏移量回归，并将所述第一阶段偏移量和所述第二阶段偏移量进行结合以得到目标偏移量，然后基于所述目标偏移量确定目标位置坐标；

输出包含所述目标检测类别和所述目标位置坐标的目标检测信息。

可选的，所述根据所述已标注图片以及对应的所述目标标注信息对目标检测点网络进行训练以得到训练模型，包括：

基于所述目标检测信息以及所述训练标签，利用第一损失函数计算类别损失、第二损失函数计算位置坐标损失、第三损失函数计算目标检测框损失；其中，所述训练标签包含训练对象类别和训练对象位置坐标，所述类别损失表示所述目标检测类别与训练对象类别之间的差别，所述位置坐标损失表示所述目标检测位置坐标与所述训练对象位置坐标之间的差别，所述目标检测框损失表示所述目标检测框与所述预设标注框之间的差别；

根据所述类别损失、所述位置坐标损失以及所述目标检测框损失，利用具有预设迭代次数、预设权重衰减和预设初始学习率的随机梯度下降算法对目标检测点网络进行优化训练以更新模型参数得到训练模型。

可选的，所述根据所述已标注图片以及对应的所述目标标注信息对目标检测点网络进行训练以得到训练模型之后，还包括：

利用非极大值抑制算法对所述目标检测框进行后处理得到后处理模块；

将所述MobileNet-V2基础网络中的卷积过程以及归一化操作进行融合，并将所述测试集中的所述测试图片的边长调整为预设数值得到调整后测试图片；

基于所述后处理模块和融合后MobileNet-V2基础网络对所述训练模型进行调整得到调整后模型；

利用所述调整后测试图片以及测试标签对所述调整后模型进行测试，以便根据测试结果判断是否继续对所述训练模型进行训练。

可选的，所述PDF文档布局检测方法，还包括：

确定第一预设已标注图片比例以及第二预设已标注图片比例；

按照所述第一预设已标注图片比例将相应数量的所述已标注图片以及所述目标标注信息划分至所述训练集，以便利用所述训练集对所述目标检测点网络进行训练以得到所述训练模型；

按照所述第二预设已标注图片比例将相应数量的所述已标注图片以及所述目标标注信息划分至所述测试集，以便利用所述测试集对所述训练模型进行测试。

第二方面，本申请公开了一种PDF文档布局检测装置，包括：

文档获取模块，用于获取各类预设内容、预设格式和预设语言的历史PDF文档；

图片转化模块，用于将所述历史PDF文档对应的全部页面转化为图片；

图片标注模块，用于根据预设标注框对所述图片中的目标对象进行标注得到已标注图片以及对应的目标标注信息；所述目标标注信息包含目标标注类别和目标标注位置坐标；

模型训练模块，用于根据所述已标注图片以及对应的所述目标标注信息对目标检测点网络进行训练以得到训练模型；所述目标检测点网络为基于图片中的关键点进行目标检测的网络；

布局检测模块，用于将待检测PDF文档输入所述训练模型以对所述待检测PDF文档进行布局检测。

第三方面，本申请公开了一种电子设备，包括处理器和存储器；其中，所述处理器执行所述存储器中保存的计算机程序时实现前述公开的PDF文档布局检测方法。

第四方面，本申请公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的PDF文档布局检测方法。

可见，本申请获取各类预设内容、预设格式和预设语言的历史PDF文档，并将所述历史PDF文档对应的全部页面转化为图片；根据预设标注框对所述图片中的目标对象进行标注得到已标注图片以及对应的目标标注信息；所述目标标注信息包含目标标注类别和目标标注位置坐标；根据所述已标注图片以及对应的所述目标标注信息对目标检测点网络进行训练以得到训练模型；所述目标检测点网络为基于图片中的关键点进行目标检测的网络；将待检测PDF文档输入所述训练模型以对所述待检测PDF文档行布局检测。由此可见，本申请获取各类预设内容、预设格式和预设语言的历史PDF文档，并利用所述文档进行模型训练，可以使获得的训练模型能够检测多种格式、多种类别和多种语言的PDF文档，也能够更细致地区分标题；本申请将所述历史PDF文档对应的全部页面转化为图片可以实现对扫描型PDF文档的检测；另外，利用基于关键点的目标检测网络进行目标检测，通过关键点定位目标对象的边界位置，去除了由矩形候选框引入的背景因素的影响并采用多分辨率训练，模型精度更高，能实现对文档中重要对象的精准定位和分类。同时，优化了网络的大小结构，使模型运行速度更快，提高了布局检测算法模型的精度和速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种PDF文档布局检测方法流程图；

图2为本申请提供的一种图片标注示意图；

图3为本申请提供的一种图片标注示意图；

图4为本申请提供的一种PDF文档布局检测结果示意图；

图5为本申请提供的一种PDF文档布局检测结果示意图；

图6为本申请提供的一种PDF文档布局检测结果示意图；

图7为本申请提供的一种PDF文档布局检测结果示意图；

图8为本申请提供的一种具体的PDF文档布局检测方法流程图；

图9为本申请提供的一种目标检测网络示意图；

图10为本申请提供的一种PDF文档布局检测装置结构示意图；

图11为本申请提供的一种电子设备结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

当前对于PDF文档布局检测的方法，无法应用到内容格式差异较大的其他行业及领域、无法实现对多种重要对象的定位和提取、无法定位和提取多级标题、无法处理扫描型PDF文档，并且框架模型复杂，运算复杂度高，运行时间长，效率低下，无法满足实时布局检测要求。

为了克服上述问题，本申请提供了一种PDF文档布局检测方案，能够检测多种格式、多种类别和多种语言的PDF文档，实现对扫描型PDF文档的检测，并提高布局检测算法模型的精度和速度。

参见图1所示，本申请实施例公开了一种PDF文档布局检测方法，该方法包括：

步骤S11：获取各类预设内容、预设格式和预设语言的历史PDF文档，并将所述历史PDF文档对应的全部页面转化为图片。

本申请实施例中，识别非结构化数字文档，例如PDF，将其解析为机器可读的结构化格式，是实现下游任务的重要基础。文档布局检测是识别和分类文本文档的扫描图像中的感兴趣区域的过程，具体定义为对文档中重要的对象如标题、正文、图像、公式、列表、以及表格等的自动检测和定位过程。基于文档布局检测结果，可以精准快速地提取出感兴趣对象，实现文档自动分析和处理，为下游任务奠定基础。具体的，文档相似性分析、文档分类、文档检索等自然语言处理任务极大程度上依赖于对文档中各级标题、文本的提取和分类。另一方面，某些下游任务需要对文档中的图像和表格进行分析分类，则需要算法能准确的定位、分类和提取文档中的图像和表格类别。

需要指出的是，现有的PDF文档解析工具在一定程度上可以实现文档布局检测，例如PDF文档解析工具pdfplumber，它可以获取文档中的文本、图像、表格等的详细内容和坐标信息。然而，该类工具无法区分标题和普通文本，同时无法正确完整的提取矢量图，也无法获取公式和列表等感兴趣对象；另一方面，该类工具对于扫描型PDF无法进行解析，具有一定局限性，因此不能提供精准的文档布局检测服务。

需要指出的是，传统的PDF文档布局检测方法通过解析PDF内部元素，对各种算法进行分析和融合，将独立的单个字符、图像信息，组合拼装成视觉上看到的标题、段落、图片、表格等碎片化单元。该方法虽然能够精确提取PDF内部基础元素的信息，但在组合拼装环节，缺乏通用的方法，特别是不同版式的内容，人工成本较高。部分算法利用机器学习和图像处理自动分析和处理文档图像的各个区域，例如，自下而上的文档布局检测算法，首先将文档解析为黑白连接区域，然后将这些区域分组为单词，然后分为文本行，最后分组为文本块，但该方法局限于将文档图像进行文本分块，不能检测和定位具体的标题、图像、表格等重要对象。而近年来，随着深度学习的不断发展，基于深度学习的文档布局检测算法取得了较好的研究成果，其方法可以归纳为基于计算机视觉的方法和基于自然语言处理的方法两大类。其中基于计算机视觉的方法充分利用文档的排版信息，以及图像中文字和图片的颜色、大小、位置、相对关系等信息进行布局检测；基于自然语言处理的方法则通过充分利用文档中文本的语义信息，以及坐标信息，从而实现文档布局检测。

需要指出的是，基于计算机视觉的方法包括通过AlexNet神经网络编码特征，反卷积加上采样解码特征，得到精细化的分割结果从而实现布局检测的方法，但是该方法无法分类标题、列表对象，容易出现分割不明显，效果模糊的情况，且模型较大，无法达到实时检测的目的。Publaynet数据集则通过Faster-Rcnn(更快的循环神经网络)二阶段目标检测方法，对重要对象进行检测定位。由于训练数据庞大，模型参数量大，该方法取得了不错的布局检测效果。但是该方法基于英文文档进行训练，无法拟合中文PDF文档，且不能检测识别公式和无明显前缀特征的小标题。此外，其基于候选框的检测方法由于需要预先定义检测框的长宽比，在检测细长型目标对象时容易出现部分边框不能完全包含目标对象的情况，存在回归不准的缺点，且模型结构复杂，计算量大，运行时间较慢，无法实现实时布局检测。一种基于视觉深度学习的文档信息碎片化抽取方法同样利用Faster-Rcnn目标检测方法进行布局检测，该方法优化了采样区域，在输入图像中均匀采样一小部分像素并以采样像素中心，在不同尺度下生成不同数量和不同大小的锚框，该方法无法识别定位列表类别，基于锚框的两阶段检测方法仍然存在检测框不准、模型结构复杂的缺点。通用文档预训练模型方法将自然语言处理和计算机视觉方法相结合，充分利用了文档的图像信息和文本信息，搭建了性能强大的文档布局检测预训练框架，但是该方法由于依赖于文字信息，不适合扫描PDF文档，泛化性较差，且模型框架庞大，不适合实际使用。其他基于目标检测的文档布局检测方法，有的只能单独定位和分类表格或者图像等特定类别，功能单一，无法实现精细文档布局检测。

本申请实施例中，根据上述现有的对PDF文档进行布局检测方法的缺点，提出了一种新的PDF文档布局检测方法；首先，通过获取各类预设内容、预设格式和预设语言的历史PDF文档，并将所述文档应用于模型训练，使得训练模型在实际应用中泛化性更好，能提取出排版差异较大的各类PDF文档的布局信息，而不局限于带明显特征的期刊、论文等；可以理解的是，所述训练模型能够对论文、通知、告示、合同、标书、请假条、技术报告等内容格式各异的文档进行布局检测，可以对包括标题、文本、图像、表格、列表和公式等类型的重要对象的文档进行布局检测，可以对英文和中文文档进行布局检测，也可以区分一级标题、二级标题、三级标题、四级标题、以及无明显前缀的小标题，进一步精细划分普通文本和标题类别；然后，通过将所述历史PDF文档转化为图片，从而将PDF文档布局检测问题转化为目标检测问题，充分利用了文档的视觉特征，而不依赖于单个字符的详细信息，例如语义信息和坐标信息，同时适用于扫描型文档和文本型PDF文档，使训练模型能够处理扫描型PDF文档和文本型PDF文档。

步骤S12：根据预设标注框对所述图片中的目标对象进行标注得到已标注图片以及对应的目标标注信息；所述目标标注信息包含目标标注类别和目标标注位置坐标。

本申请实施例中，通过图像标注工具对存储下来的每张文档图片进行标注，如labelme，标注效果如图2和图3所示。首先设置需要标注的类别，包括：标题、文本、图像、表格、列表、公式六大类，其中标题包括一级标题、二级标题、三级标题、四级标题、以及无明显前缀的小标题等不同等级的标题，全面涵盖了文档的重要内容。然后，用预设标注框沿着目标边缘对各类别对象进行标注。最终，得到包含目标标注类别和目标标注位置坐标的目标标注信息，所述目标标注信息可存储在JSON(JavaScript Object Notation,JS对象简谱)格式的文件，每张图片对应一个JSON格式的文件。

步骤S13：根据所述已标注图片以及对应的所述目标标注信息对目标检测点网络进行训练以得到训练模型；所述目标检测点网络为基于图片中的关键点进行目标检测的网络。

本申请实施例中，所述目标训练网络主要包括：基础网络、特征金字塔网络FPN(feature pyramid network)、检测头三个模块。基础网络采用轻量级卷积神经网络MobilenetV2进行特征提取，输出语义信息逐渐从低阶到高阶、特征图的分辨率逐渐减小、感受野逐渐扩大的不同阶段的特征图；其中，MobilenetV2基础网络在大型图像分类数据集imagenet上进行预训练，被广泛运用在硬件条件一般的部署环境中，兼顾速度的同时使模型精度达到满意水平；特征金字塔网络FPN主要解决的是物体检测中的多尺度问题；检测头用于进行目标检测。

步骤S14：将待检测PDF文档输入所述训练模型以对所述待检测PDF文档进行布局检测。

本申请实施例中，将待检测PDF文档输入所述训练模型以对所述待检测PDF文档行布局检测之后可得到完成定位及分类后的文档，如图4、图5、图6、图7所示，本申请提出的文档布局检测模型能精准定位和分类文档中的各种重要类别，包括：标题、文本、图像、表格、公式、列表六大类，其中标题包括一级标题、二级标题、三级标题以及小标题等，提取范围广，包含内容更全面。同时，该模型能够适应内容、格式差异较大的不同PDF文档，包括通知、公告、论文、期刊、合同、策划书等，同时支持扫描型和文本型PDF文档，泛化性能好，为后续文档相似性分析、文档检索等下游任务打下坚实基础。需要指出的是，图7为手机拍摄的PDF文档，因此图7中背景与图4、图5和图6相比较为灰暗，但所述训练模型依旧能够检测手机拍摄的所述PDF文档，进一步说明该模型能够处理各种差异较大的不同PDF文档。

参见图8所示，本申请实施例公开了一种具体的PDF文档布局检测方法，该方法包括：

步骤S21：获取各类预设内容、预设格式和预设语言的历史PDF文档，并将所述历史PDF文档对应的全部页面转化为图片。

其中，关于步骤S21的更加具体的处理过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

步骤S22：根据预设标注框对所述图片中的目标对象进行标注得到已标注图片以及对应的目标标注信息；所述目标标注信息包含目标标注类别和目标标注位置坐标。

其中，关于步骤S22的更加具体的处理过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

步骤S23：将所述已标注图片划分至训练集得到训练图片，并将所述目标标注信息作为所述训练集的预设格式的训练标签。

本申请实施例中，所述预设格式为COCO(Microsoft Common Objects inContext)格式，将所述训练集标签设置为COCO格式。以便进行目标检测训练。

步骤S24：对所述训练图片进行预处理得到预处理后图片，并将所述预处理后图片以及所述训练标签输入所述目标检测点网络中的MobileNet-V2基础网络，以便所述MobileNet-V2基础网络对所述预处理后图片进行特征提取得到不同初始特征图，然后将所述不同初始特征图输入所述目标检测点网络中的特征金字塔网络，以便所述特征金字塔基于预设通道数量的输出通道得到不同强化后特征图。

本申请实施例中，在得到训练图片以及训练标签之后，对所述训练图片进行预处理得到预处理后图片，其中所述预处理包括：将所述训练图片的边长调整至预设长度范围得到调整后训练图片，并对所述调整后训练图片的RGB三通道进行归一化处理得到处理后训练图片，然后对所述处理后训练图片进行填充处理和随机水平翻转得到预处理后图片。

需要指出的是，将所述训练图片的边长调整至预设长度范围得到调整后训练图片的方法需要保证训练图片的长边和短边的比例是不变的，另外此种方法支持分辨率训练，能够在不增加训练过程运算量的情况下显著提高训练模型精度，加强训练模型的泛化能力；进一步，在接下来的测试过程中，对尺度变化较大的测试图片也能准确地输出其中目标对象的位置坐标和类别信息。

需要指出的是，对所述调整后训练图片的RGB三通道进行归一化处理得到处理后训练图片的方法，能够使训练图片的分布趋于一致，帮助训练过程快速收敛；其中，所述归一化处理包括减均值和除方差。

需要指出的是，对所述处理后训练图片进行填充处理和随机水平翻转得到预处理后图片的方法，能够达到数据增强的目的，增强训练模型的鲁棒性。

本申请实施例中，获得预处理后图片之后，将所述预处理后图片以及所述训练标签输入所述目标检测点网络中的MobileNet-V2基础网络，以便所述MobileNet-V2基础网络对所述预处理后图片进行特征提取，输出语义信息逐渐从低阶到高阶、特征图的分辨率逐渐减小、感受野逐渐扩大的不同特征图。并在得到不同特征图后，将所述不同初始特征图输入所述目标检测点网络中的特征金字塔网络，进一步融合高阶语义特征和低阶语义特征，以便所述特征金字塔基于预设数量的输出通道得到不同分辨率的不同强化后特征图。需要指出的是，所述输出通道的预设通道数量为64，将所述预设通道数量设置为64，可以在不影响模型精度的情况下，极大的减少运算量，起到训练模型加速的作用，具体过程如图9所示。可以理解的是，特征金字塔主要解决的是物体检测中的多尺度问题，通过简单的网络连接改变，将分辨率低的高阶特征图进行上采样，然后与上一层分辨率较高的低阶特征图进行相加融合，在基本不增加原有模型计算量情况下，大幅度提升小物体检测的性能。

步骤S25：检测所述目标对象的中心点以及预设数量的边界点，并将所述中心点和所述边界点作为用于构成目标检测框的关键点，然后基于所述目标检测框对所述强化后特征图进行目标检测，并输出目标检测信息，以便利用所述目标检测信息进行模型训练得到训练模型。

本申请实施例中，获得不同强化后特征图之后，将基于关键点的检测头分别连接到不同强化后特征图上进行目标检测，输出标题、文本、图像、表格、列表、公式六大类的最终定位和分类结果，具体过程如图9所示。具体的，检测所述目标对象的中心点以及预设点数量的边界点，并将所述中心点和所述边界点作为用于构成目标检测框的关键点，然后基于所述目标检测框对所述强化后特征图进行目标检测，并输出目标检测信息。需要指出的是，边界点对应的预设点数量为9。

需要指出的是，不同于传统的用矩形框的左上角和右下角在图像坐标系中的坐标来表示目标位置信息的检测方法，本申请将目标对象的中心点和边界点作为关键点，可以更精细地表示物体边缘，再通过一定方法将关键点组合成目标检测框，从而实现目标检测。后续的分类和回归特征均是沿着目标的关键点选取的，忽略了背景因素对目标对象的影响，特征质量更高。

本申请实施例中，基于所述目标检测框对所述强化后特征图进行目标检测，并输出目标检测信息的具体内容包括：以所述强化后特征图的每一个像素点为中心，预测所述目标对象中所述关键点的回归前偏移量，并基于所述回归前偏移量进行第一卷积运算完成第一阶段偏移量回归得到回归后偏移量，然后基于所述强化后特征图和所述回归后偏移量进行第二卷积运算得到新特征图，将所述新特征图输入分类层得到类别得分图；所述类别得分图中标明目标检测类别；基于所述新特征图进行第一卷积运算以完成第二阶段偏移量回归，并将所述第一阶段偏移量和所述第二阶段偏移量进行结合以得到目标偏移量，然后基于所述目标偏移量确定目标位置坐标；输出包含所述目标检测类别和所述目标位置坐标的目标检测信息。

需要指出的是，第一卷积运算为普通二维卷积运算，公式为：

其中，w为卷积核参数，x为待卷积特征图，p₀为输出特征图的任一空间位置，

定义了标准3×3卷积核的大小和形状。在标准卷积操作中，卷积核作用区域始终为中心点周围标准卷积核大小的矩形区域内，不能真实表达物体的形状。

需要指出的是，第二卷积运算表示形变卷积，公式为：

其中，△p_n|n＝1,...,N为偏移量，

形变卷积通过在标准卷积核

上增加一个偏移量△p_n来实现不规则卷积。可以理解的是，由于偏移量的引入，形变卷积可以表达不规则物体的特征，更贴切的拟合物体形状，从而更好的进行像素分割和物体检测。具体的，由于检测头中分类和边框回归均采用形变卷积，该操作在CPU(central processingunit，中央处理器)上的运行需要耗费大量时间，为保证模型的运行效率和精度，本发明中将特征通道数设置为64，极大的提升了模型的运行速度。

需要指出的是，第一卷积运算被应用在第二卷积运算前后的偏移量回归，由此该检测头包含两阶段关键点偏移量回归，进一步优化了关键点回归准确度，可以提高训练模型性能。

本申请实施例中，输出包含目标检测类别和目标位置坐标的目标检测信息后，基于所述目标检测信息以及所述训练标签，利用第一损失函数计算类别损失、第二损失函数计算位置坐标损失、第三损失函数计算目标检测框损失；其中，所述训练标签包含训练对象类别和训练对象位置坐标，所述类别损失表示所述目标检测类别与训练对象类别之间的差别，所述位置坐标损失表示所述目标检测位置坐标与所述训练对象位置坐标之间的差别，所述目标检测框损失表示所述目标检测框与所述预设标注框之间的差别。

需要指出的是，所述第一损失函数为Focal Loss(FL)，用在分类损失方面，公式为：

FL(p_t)＝-(1-p_t)^γlog(p_t)；

其中，p_t为样本分类概率，γ为控制调制系数(1-p_t)^γ的参数，γ值越大，第一损失函数赋予难分样本的权重越大，赋予易分类样本的权重越小，进一步优化了正负样本不均衡问题，提升模型的检测性能。本申请实施例中，正样本为实际存在的样本，负样本为疑似样本。

需要指出的是，所述第二损失函数为Smoth_L1_Loss，用在关键点损失方面，公式为：

式中，x为真实位置坐标值与预测位置坐标值之间的差值。

由于Smoth_L1_Loss在原点处趋于平滑，很好的解决了离群点梯度***问题，加速模型收敛。

需要指出的是，所述第三损失函数为GIoULoss(Generalized Intersection overUnion Loss)，用在边框回归方面，公式为：

其中，A、B分别为目标检测框和预设标注框，C为一个最小的封闭形状，将A和B包围在里面。第三损失函数可以很好的反应两个方框之间测重叠关系，具有尺度不变性。IoU(Intersection over Union)是A和B的交集和并集之比；GIOU指的是假设现在有两个任意的A和B，我们要找到一个最小的封闭形状C，让C可以将A和B包围在里面，然后我们计算C中没有覆盖A和B的面积占C总面积的比例，然后用A和B的IOU值减去这个比值。

本申请实施例中，利用所述第一损失函数计算类别损失、第二损失函数计算位置坐标损失、第三损失函数计算目标检测框损失之后，根据所述类别损失、所述位置坐标损失以及所述目标检测框损失，利用具有预设迭代次数、预设权重衰减和预设初始学习率的随机梯度下降算法(Stochastic Gradient Descent，SGD)对目标检测点网络进行优化训练以更新模型参数得到训练模型。

需要指出的是，随机梯度下降法进行优化训练时，设置迭代次数epoch＝24，权重衰减wd(weight decay)＝0.0001，初始学习率lr(learning rate)＝0.01。在epoch分别等于16、22时，学习率下降10倍。

本申请实施例中，在对模型进行优化训练得到训练模型之后，还需要对所述训练模型进行测试，判断所述训练模型的精度是否足够，如果不够则继续对所述训练模型进行训练。具体过程为利用非极大值抑制算法对所述目标检测框进行后处理得到后处理模块；将所述MobileNet-V2基础网络中的卷积过程以及归一化操作进行融合，并将所述测试集中的所述测试图片的边长调整为预设数值得到调整后测试图片；基于所述后处理模块和融合后MobileNet-V2基础网络对所述训练模型进行调整得到调整后模型；利用所述调整后测试图片以及测试标签对所述调整后模型进行测试，以便根据测试结果判断是否继续对所述训练模型进行训练。

需要指出的是，本申请采用mAP(mean Average Precision)指标来衡量算法的准确度，该指标综合考虑了模型的准确率和召回率，为目标检测算法广泛采用的评价指标。首先采用非极大值抑制NMS(Non-Maximum Suppression)算法对目标检测框进行后处理得到后处理模块，其中得分阈值设置为0.05，边框的重叠指标IOU(Intersection over Union)阈值设置为0.1，单张图片最大检测框数设置为100；然后将测试集分辨率设置为固定尺寸，即短边600。同时，为了提高检测速度，将MobilenetV2基础网络中的卷积和归一化BN(batchnormalization)操作进行融合。完成测试后，如果训练模型在测试集上的mAP值达到56.7％，单张文档图片在CPU上的测试时间为0.4～0.5s，模型大小为22M，则满足文档布局检测的实时处理和精度要求，能够精确定位和分类PDF文档图片中的重要类别。

本申请实施例中，由于用到了训练集进行训练得到训练模型，用测试集对训练模型进行测试，因此需要将已标注图片划分至训练集和测试集中，具体的，确定第一预设已标注图片比例以及第二预设已标注图片比例；按照所述第一预设已标注图片比例将相应数量的所述已标注图片以及所述目标标注信息划分至所述训练集，以便利用所述训练集对所述目标检测点网络进行训练以得到所述训练模型；按照所述第二预设已标注图片比例将相应数量的所述已标注图片以及所述目标标注信息划分至所述测试集，以便利用所述测试集对所述训练模型进行测试。

步骤S26：将待检测PDF文档输入所述训练模型以对所述待检测PDF文档进行布局检测。

其中，关于步骤S26的更加具体的处理过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

可见，本申请获取各类预设内容、预设格式和预设语言的历史PDF文档，并将所述历史PDF文档对应的全部页面转化为图片；根据预设标注框对所述图片中的目标对象进行标注得到已标注图片以及对应的目标标注信息；所述目标标注信息包含目标标注类别和目标标注位置坐标；将所述已标注图片划分至训练集得到训练图片，并将所述目标标注信息作为所述训练集的预设格式的训练标签；对所述训练图片进行预处理得到预处理后图片，并将所述预处理后图片以及所述训练标签输入所述目标检测点网络中的MobileNet-V2基础网络，以便所述MobileNet-V2基础网络对所述预处理后图片进行特征提取得到不同初始特征图，然后将所述不同初始特征图输入所述目标检测点网络中的特征金字塔网络，以便所述特征金字塔基于预设通道数量的输出通道得到不同强化后特征图，检测所述目标对象的中心点以及预设数量的边界点，并将所述中心点和所述边界点作为用于构成目标检测框的关键点，然后基于所述目标检测框对所述强化后特征图进行目标检测，并输出目标检测信息，以便利用所述目标检测信息进行模型训练得到训练模型；将待检测PDF文档输入所述训练模型以对所述待检测PDF文档进行布局检测。由此可见。本申请获取各类预设内容、预设格式和预设语言的历史PDF文档，并利用所述文档进行模型训练，可以使获得的训练模型能够检测多种格式、多种类别和多种语言的PDF文档，也能够更细致地区分标题；本申请将所述历史PDF文档对应的全部页面转化为图片可以实现对扫描型PDF文档的检测；另外，利用基于关键点的目标检测网络进行目标检测，通过关键点定位目标对象的边界位置，并利用普通二维卷积算法进行两阶段关键点偏移量回归，同时利用形变卷积提取特征从而进行定位和识别，去除了由矩形候选框引入的背景因素的影响并采用多分辨率训练，模型精度更高，能实现对文档中重要对象的精准定位和分类。同时，优化了网络的大小结构，使模型运行速度更快，提高了布局检测算法模型的精度和速度。

参见图10所示，本申请实施例公开了一种PDF文档布局检测装置，包括：

文档获取模块11，用于获取各类预设内容、预设格式和预设语言的历史PDF文档；

图片转化模块12，用于将所述历史PDF文档对应的全部页面转化为图片；

图片标注模块13，用于根据预设标注框对所述图片中的目标对象进行标注得到已标注图片以及对应的目标标注信息；所述目标标注信息包含目标标注类别和目标标注位置坐标；

模型训练模块14，用于根据所述已标注图片以及对应的所述目标标注信息对目标检测点网络进行训练以得到训练模型；所述目标检测点网络为基于图片中的关键点进行目标检测的网络；

布局检测模块15，用于将待检测PDF文档输入所述训练模型以对所述待检测PDF文档进行布局检测。

其中，关于上述各个模块更加具体的工作过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

进一步的，本申请实施例还提供了一种电子设备，图11是根据一示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本申请的使用范围的任何限制。

图11为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、输入输出接口24、通信接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任意实施例公开的PDF文档布局检测方法的相关步骤。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口25能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口24，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，存储器22作为可以包括作为运行内存的随机存取存储器和用于外部内存的存储用途的非易失性存储器，其上的存储资源包括操作***221、计算机程序222等，存储方式可以是短暂存储或者永久存储。

其中，操作***221用于管理与控制源主机上电子设备20上的各硬件设备以及计算机程序222，操作***221可以是Windows、Unix、Linux等。计算机程222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的PDF文档布局检测方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。

本实施例中，所述输入输出接口24具体可以包括但不限于USB接口、硬盘读取接口、串行接口、语音输入接口、指纹输入接口等。

进一步的，本申请实施例还公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的PDF文档布局检测方法。

关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述

这里所说的计算机可读存储介质包括随机存取存储器(Random Access Memory，RAM)、内存、只读存储器(Read-Only Memory，ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、磁碟或者光盘或技术领域内所公知的任意其他形式的存储介质。其中，所述计算机程序被处理器执行时实现前述PDF文档布局检测方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的PDF文档布局检测方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种PDF文档布局检测方法、装置、设备及介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种PDF文档布局检测方法，其特征在于，包括:

2.根据权利要求1所述的PDF文档布局检测方法，其特征在于，所述根据所述已标注图片以及对应的所述目标标注信息对目标检测点网络进行训练，包括：

3.根据权利要求2所述的PDF文档布局检测方法，其特征在于，所述根据所述训练图片以及所述训练标签对所述目标检测点网络进行训练，包括：

对所述训练图片进行预处理得到预处理后图片；

4.根据权利要求3所述的PDF文档布局检测方法，其特征在于，所述对所述训练图片进行预处理得到预处理后图片，包括：

5.根据权利要求3所述的PDF文档布局检测方法，其特征在于，所述基于所述目标检测框对所述强化后特征图进行目标检测，并输出目标检测信息，包括：

6.根据权利要求5所述的PDF文档布局检测方法，其特征在于，所述根据所述已标注图片以及对应的所述目标标注信息对目标检测点网络进行训练以得到训练模型，包括：

7.根据权利要求1所述的PDF文档布局检测方法，其特征在于，所述根据所述已标注图片以及对应的所述目标标注信息对目标检测点网络进行训练以得到训练模型之后，还包括：

将所述MobileNet-V2基础网络中的卷积过程以及归一化操作进行融合，并将测试集中的所述测试图片的边长调整为预设数值得到调整后测试图片；

8.根据权利要求1至7任一项所述的PDF文档布局检测方法，其特征在于，还包括：

9.一种PDF文档布局检测装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括处理器和存储器；其中，所述处理器执行所述存储器中保存的计算机程序时实现如权利要求1至8任一项所述的PDF文档布局检测方法。

11.一种计算机可读存储介质，其特征在于，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的PDF文档布局检测方法。