CN117493712B

CN117493712B - Pdf文档可导航目录提取方法、装置、电子设备及存储介质

Info

Publication number: CN117493712B
Application number: CN202311852456.6A
Authority: CN
Inventors: 邓新星; 程斯静; 顾丹鹏; 谢世超; 邬远祥; 唐海涛
Original assignee: Zhejiang East China Engineering Digital Technology Co ltd; PowerChina Huadong Engineering Corp Ltd
Current assignee: Zhejiang East China Engineering Digital Technology Co ltd; PowerChina Huadong Engineering Corp Ltd
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-06-21
Anticipated expiration: 2043-12-29
Also published as: CN117493712A

Abstract

为实现可导航的PDF文档的目录提取，保证目录的准确性，并提供快速跳转功能，本发明提出一种PDF文档可导航目录提取方法、装置、电子设备及存储介质，所述可导航目录提取方法采用如下步骤：查找PDF文档的目录页面；对目录所在页面进行目录标题和目录页码提取；将PDF文档的每页转换成图片，按照页面顺序对所有图片排序，提取图片序号作为该页面的导航页码；对所有页面图片的页码进行识别；基于页码差对图片页码进行的二次校验和修正；将目录项与导航页码进行匹配与关联，获得所有目录标题、目录页码、导航页码；输出可导航的PDF文档目录。采用本发明技术方案可提升PDF文档目录识别准确率，帮助用户快速定位PDF文档目录内容。

Description

PDF文档可导航目录提取方法、装置、电子设备及存储介质

技术领域

本发明涉及文档数据处理技术领域，特别是一种PDF文档可导航目录提取方法、装置、电子设备及存储介质。

背景技术

数字化转型是当前经济社会发展的一个重要趋势，随着新一代信息技术的发展和国家政策的大力支持，越来越多企业建设数字化平台以提高生产效率和质量。数字化转型的核心内容之一是数据资源的整合与利用，其中包含对大量电子文档的处理和使用。例如：电子图档中心，提供工程档案、图档资料的存储、检索、在线查阅；项目管理平台，提供各类项目文档的整合管理与关键信息的提取。

当前，PDF（Portable Document Format，便携式文档格式）是处理和传输电子文档的主要格式之一。由于PDF文档制作方式不同，存在大量PDF文档无法实现点击目录跳转到对应内容的页面，例如：目录没有设置内容链接的PDF文档，目录无法跳转；传统纸质资料扫描形成的PDF文档，无法读取目录内容，更无法实现跳转。此类PDF文档需要人工查找内容，耗费时间，在查找的过程中，由于PDF文档除了目录包含的内容外，还可能包含封面、说明页、空白页、目录页等不在目录列表中内容，使得目录页码（即目录标题对应的页码）和导航页码（即目录标题对应的内容页面在整个文档中的实际位置）不一致，导致人工查找不能直接按照目录页码定位到指定页面，查找效率低下。

在文档的目录提取和生成方面，已有一些研究方法，比如：公开号为CN201611028787.8、CN202211734526.3、CN202110638300.2、CN201910973998.6等中国发明专利，但这些技术存在如下不足：它们是基于文本数据或可提取文字及版式的文字版PDF文档进行目录提取，对于当前大量通过图片扫描等方式获取的、不可读取文字的扫面版PDF文档，这类技术无法处理，适用性低。

针对扫描版PDF文档的目录提取也有一些方法，例如,公开号为CN202111420845.2、CN202010919654.X中国发明专利，主要利用OCR技术和基于文档内容的视觉属性进行处理，缺点是高度依赖文档格式，由于不同文档版式、格式不一，准确率受限，需要对大量文档全文标注和训练来提升准确率，成本较高，同时缺少二次校验，存在识别错误无法处理的情况。公开号为CN202310291320.6的中国发明专利虽然在OCR方法上有所改进，但也是只对文档目录进行提取，未提取页码，无法提供目录导航和跳转。

数字化平台中，资料的查阅功能需求量和频率极高，可导航的PDF文档目录逐渐成为必不可少的功能。在目录导航方面，公开号为CN202310265473.3的中国专利提供了实体文档扫描生成可跳转的PDF文件，该方法实现了扫描版PDF文档的目录提取并建立目录与内容的跳转链接，但该方法存在明显不足：一是缺少目录页面查找方法，需要人工判定目录所在页面，再对目录进行识别，无法实现自动化；二是目录、内容的识别未进行二次检查，影响跳转链接的准确性。

发明内容

为克服现有技术的上述不足，提升用户阅读效率和电子文档的利用率，本发明旨在建立较为准确和自动化的方法，实现可导航的PDF文档的目录提取，保证目录的准确性，并提供快速跳转功能。

本发明针对现有方法存在的问题，提出一种PDF文档可导航目录提取方法、装置及存储介质，提升PDF文档目录识别准确率，帮助用户快速定位PDF文档目录内容。

本发明的第一个目的在于提出一种PDF文档可导航目录提取方法，包括如下步骤：

S101、查找PDF文档的目录页面；

S102、对目录所在页面进行目录标题和目录页码提取；

S103、将PDF文档的每页转换成图片，按照页面顺序对所有图片排序，提取图片序号作为该页面的导航页码；

S104、对所有页面图片的页码进行识别；

S105、基于页码差对图片页码进行的二次校验和修正；

S106、将目录项与导航页码进行匹配与关联，获得所有目录标题、目录页码、导航页码；

S107、输出可导航的PDF文档目录。

优选的，所述查找PDF文档目录页面包括如下方法之任一种：

1）如果PDF文档是文字版：对PDF文档的每一页或者从头开始逐页进行，提取该页所有文本，然后查找文字版PDF文档目录所在页面；

2）如果PDF文档是扫描版：使用目录识别模型，对PDF文档的每页或者从头开始逐页进行识别，判定是否为目录页面，查找出PDF文档的所有目录页面。

优选的，所述基于页码差对图片页码进行的二次校验和修正包括如下步骤：

1）将导航页码与图片页码进行相减，得到PDF文档的页码差；

2）对图片页码进行的二次校验，并使用PDF文档页码差修正识别错误的图片页码。

本发明第二个目的在于提出一种PDF文档可导航目录提取装置，该装置包括：

目录页面查找模块，用来查找PDF文档的目录页面，对不同类型PDF文档的目录页面，采用不同方法进行查找；

目录提取模块，用于提取PDF文档目录内容，对不同类型PDF文档的目录页面，采用不同方法提取目录页面的所有目录项的标题、页码；

导航页码提取模块，用于将PDF文档的每页转换成图片，按照页面顺序对所有图片排序，提取图片序号作为该页面的导航页码；

页码识别模块，用于对所有页面图片的页码进行识别；

页码校验与修正模块，用于基于页码差对图片页码进行的二次校验和修正；

页码匹配与关联模块，用于将目录项与导航页码进行匹配与关联，最后获得所有目录标题、目录页码、导航页码；

PDF文档目录输出模块，用于输出可导航的PDF文档目录。

优选的，对于文字版PDF文档，所述目录页面查找模块包括：

页面文本提取子模块，用于对PDF文档的每一页或者从头开始逐页进行，提取该页所有文本；

目录页面查找子模块，用于查找文字版PDF文档目录所在页面；

优选的，对于扫描版PDF文档，所述目录页面查找模块为使用目录识别模型，对PDF文档的每页或者从头开始逐页进行识别，判定是否为目录页面，查找出PDF文档的所有目录页面。

优选的，所述基页码校验与修正模块包括：

1）页码差计算子模块，用于将导航页码与图片页码进行相减，得到PDF文档的页码差；

2）页码校验和修正子模块，用于对图片页码进行的二次校验，并使用PDF文档页码差修正识别错误的图片页码。

本发明的第三个目的在于提出一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行存储器上所存储的程序，实现前述任一项PDF文档可导航目录提取方法各步骤。

本发明第四个目的在于提出一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现前述任一项PDF文档可导航目录提取方法各步骤。

与现有技术相比，本发明技术方案具有如下积极、有益效果：

1、可同时适用于可解析的文字版PDF文档与不可解析的扫面版PDF文档，应用范围更广，更具有通用性。

2、提出基于页码差的二次校验方法，对PDF页码提取结果进行检查和修正，提升目录提取的准确性。

3、可将PDF目录与导航页码关联，生成可导航的目录数据，可广泛应用于数字化***，大大提升电子文档阅读效率。

附图说明

图1为本发明一种PDF文档可导航目录提取方法实施例的流程示意图；

图2为本发明一种PDF文档可导航目录提取装置示意图。

具体实施方式

为了进一步理解本发明，下面结合实施例对本发明优选实施方案进行描述，但是应当理解，这些描述只是为进一步说明本发明的特征和优点，而不是对本发明权利要求的限制。

术语解释

目录标题，用title表示，指目录页面中指示文档结构的文字标题。

目录页码，用pdf_pn表示，指目录页面中的目录标题对应的页码。

导航页码，用page_num表示，指页面在PDF文档中的顺序位置。

图片页码，用footer_int表示，指页面的页码处显示的页码。

跳转，指根据所选目录标题，直接定位到标题对应的内容页面。

本发明实施例提供了一种PDF文档可导航目录提取方法，并示出了基于该方法实现的装置。下面结合附图和具体实例对本发明的方法和装置作进一步说明。

如图1所示，是本发明的一种可导航的PDF文档目录提取方法实施例具体实施步骤，详细说明如下：

步骤S101：查找PDF文档的目录页面。

具体的，对于给出的PDF文档，首先根据PDF文档内的文本是否可提取来判断PDF文档是扫描版还是文字版。下面分别对文字版和扫描版PDF文档目录页面的查找进行详细说明。

1、如果PDF文档是文字版，按如下步骤查找目录页面：

（1）对PDF文档的每一页或者从头开始逐页进行，提取该页所有文本。现有较多开源库可用于PDF文本提取，如pdfminer、pypdf、pdfplumber等，本实施例使用的是pdfplumber库。

（2）查找文字版PDF文档目录所在页面。本实施例采用如下方法来查找文字版PDF文档目录所在页面：计算每页英文句号数量占该页总文字数量的比例，并与设定的阈值对比，英文句号占比超过阈值的页面为目录页面。本实施例将这种方法定义为基于目录特征文本占比的方法。

在本实施例中，设定阈值为50%。例如：页码页面一的文本的英文句号数量占该页总文字数量的79.55%，大于50%，判定为目录页面；页面二的文本内容的英文句号占0.001%，小于50%，判断为非目录页面。

需要说明的是，基于目录特征文本占比的方法适用于大部分PDF文档，对于特殊情况不包含句号的目录页面，采用扫描版PDF文档的方法查找目录页面。

2、如果PDF文档是扫描版，按如下步骤查找目录页面：

使用目录识别模型，对PDF文档的每页或者从头开始逐页进行识别，判定是否为目录页面，查找出PDF文档的所有目录页面。

目录识别模型可以预先建立好。本实施例的目录识别模型采用如下方法建立：基于通用图像分类模型，对目录页面和非目录页面进行标注，使用标注数据训练通用图像分类模型，得到目录识别模型。所述通用图像分类模型是当前较为成熟的技术，互联网上已有较多开源项目，如Pytorch、Tensorflow、百度飞桨等框架开源的图像分类算法。一般来说目录与非目录的页面特征区别明显，目录识别模型所需的标注和训练工作量较小。

需要说明的是，对上述两种PDF文档，查找目录页码均不需要对整本PDF文档进行识别，而是可以按顺序进行识别，当第n页为目录页，第n+1页为非目录页时，停止识别，1~n页中已识别为目录页是该PDF文档的目录页。

步骤S102：对目录所在页面进行目录标题与目录页码提取。

下面分别对文字版和扫描版PDF文档进行详细说明如何提取目录标题与目录页码。

1、如果PDF文档是文字版：首先，对目录页的每一行目录，分割标题和页码；然后，对于页码部分，过滤页码中的非数字，获取目录每一项的标题部分和页码部分。本实施例采用正则表达式分割每一行目录的标题和页码，这是一种现有技术，在此不做赘述。

2、如果PDF文档是扫描版：采用目录识别模型提取目录的标题、页码。

所述目录识别模型可以采用现有成熟技术，如Paddle版面分析模型等开源成熟算法，也可使用现有工具，例如百度智能云的办公文档识别工具（参见cloud.***.com/product/ocr/doc_analysis_office）。

在本实施例中，目录页面的提取结果如下方代码所示：

[

{

"title": "1. 前言",

"pdf_pn": "1"

},

{

"title": "2. 非结构化数据管理",

"pdf_pn": "2"

},

{

"title": "2.1. 非结构化数据定义及特征",

"pdf_pn": "2"

},

{

"title": "2.2. 非结构化数据管理发展历程",

"pdf_pn": "4"

},

{

"title": "3. 非结构化数据管理体系",

"pdf_pn": "6"

},

……

]

其中，数组的每一项为一个目录项，每个目录项包含目录标题和目录页码，其中title表示目录标题，pdf_pn表示目录页码。

步骤S103：导航页码提取，将PDF文档的每页转换成图片，按照页面顺序对所有图片排序，提取图片序号作为该页面的导航页码。

具体的，将PDF文档的每页转换成图片，存储到临时文件夹，按照页面顺序对所有图片排序，提取页面图片的序号作为该页面的导航页码，并将页面图片序号作为该页面图片文件名。在本实施例中，进行导航页码提取得到57张图片，图片的序号从“0”开始编号，若页面在文件夹中的序号为2，则导航页码为2。

步骤S104，对所有页面图片的页码进行识别。

图片页码是指在S103步骤PDF文档的每页转换成图片后，对所有页面图片的页码识别结果。图片页码是后续步骤S105计算PDF文档的页码差所需要的中间结果。需要说明的是，PDF文档的封面、说明页、空白页、目录页等页面可能没有页码，这部分页面一般不包含在PDF文档的目录内容中，本实施例方法只提取目录涵盖的范围，因此不需要处理这部分页面。具体的，对步骤S103得到的图片，使用页码识别模型进行图片页码识别。

页码识别模型可以预先建立。本实施例采用如下方法建立页码识别模型：基于通用OCR模型，对页面的页码进行标注，使用标注数据训练通用OCR模型，得到页码识别模型。所述通用OCR模型是当前较为成熟的技术，互联网上已有较多开源项目，如Paddle版面分析模型等。一般来说页码的布局较为规范，页码识别模型所需的标注和训练工作量较小。

需要说明的是，由于扫描页面不全、遮挡及模型准确率等原因，可能存在少数图片页码识别不到或识别错误。

在本实施例中，图片页码识别的部分结果如下方代码所示：

[

{

"page_num": 0,

"footer_int": null

},

{

"page_num": 1,

"footer_int": null

},

{

"page_num": 2,

"footer_int": null

},

{

"page_num": 3,

"footer_int": null

},

{

"page_num": 4,

"footer_int": 1

},

{

"page_num": 5,

"footer_int": 2

},

{

"page_num": 6,

"footer_int": 3

},

{

"page_num": 7,

"footer_int": 4

},

{

"page_num": 8,

"footer_int": null

},

……

]

需要说明的是，由于基于OCR的页码识别准确性很难达到100%，页码识别不到或识别错误是一种常见情况。现有技术很少对页码识别结果进行检查，尚无自动校验方法，本发明实施例提出基于页码差的二次校验方法，检查图片页码识别结果并修正错误的图片页码，是本发明实施例的重要创新点。详见下面的步骤105。

步骤S105，基于页码差对图片页码进行的二次校验和修正。

（1）计算PDF文档的页码差。

首先，对每张图片，将导航页码与图片页码进行相减，得到每张图片的页码差。

然后，考虑到OCR识别的准确性很难达到100%，存在少数图片的页码差与其他页码差不同，取多数页码差作为本PDF的页码差。比如：可将所有图片的页码差进行统计，按照频率由高到低排序，最后，取出现频率最高的页码差作为PDF文档的页码差。

在本实施例中，页面二的导航页码为4，图片页码为1，则页码差为4-1=3。依次类推得到每张图片的页码差，其中，导航页码为8的图片页码为null，无法计算页码差，页码差为null。然后，将全部页码差进行统计，得到页码差为“3”的图片有49张，页码差为null的图片有8张。最后取大多数页面的页码差3作为该PDF文档的页码差。

（2）对图片页码进行的二次校验，并使用PDF文档页码差修正识别错误的图片页码，补全图片页码。

在本步骤中，对S104的图片页码提取结果进行的二次校验，下面两种情形属于图片页码识别错误：1）无法计算页码差的图片，例如图片页码识别为null的图片；2）页码差不等于PDF文档的页码差的图片，例如，PDF文档的页码差为3，第n张图片的导航页码为19，图片页码为18，得到页码差为1，1≠3，则图片页码识别错误。

本实施例中，使用PDF文档的页码差修正识别错误的图片页码，修正方法为：图片页码=导航页码-页码差。在本实施例中，导航页码为8的图片footer_int为null，修正结果如下方代码所示：

[

……

{

"page_num": 7,

"real_pn": 8,

"footer_int": 4,

"footer_patched": 4

},

{

"page_num": 8,

"real_pn": 9,

"footer_int": null,

"footer_patched": 5

},

{

"page_num": 9,

"real_pn": 10,

"footer_int": 6,

"footer_patched": 6

},

……

]

其中，page_num表示导航页码，footer_int表示图片页码，footer_patched表示补全后的图片页码，代码示例中第二条数据补全后的图片页码footer_patched=8-3=5。

需要说明的是，real_pn表示实际导航页码，由于导航页码从0排序，而PDF文档的页面实际从1排序，实际导航页码由导航页码加一得到。导航页码和实际导航页码都可以用于PDF文档的导航跳转，取决于应用***实现方式。

需要说明的是，上述步骤101-102和103-105可以并行，没有严格的顺序。

步骤S106，将目录项与导航页码进行匹配与关联。

具体的，对于S102获得的目录提取结果，对包括目录标题和目录页码的每个目录项，查找所有图片页码，如果存在与目录页码相同的图片页码，则将目录项与导航页码关联，即目录标题-导航页码-目录页码。

在本实施例中，将步骤S102目录提取结果和步骤S105修正后的图片页码识别结果进行匹配，对目录提取结果中的每个目录项，当修正后的图片页码识别结果中的footer_patched（修正后的图片页码）等于目录提取结果中pdf_pn（目录页码）时，将修正后的图片页码识别结果中的page_num（导航页码）、real_pn（实际导航页码）添加到目录提取结果中的目录项中。匹配和关联结果如下方代码所示：

[

{

"title": "1. 前言",

"page_num": 4,

"real_pn": 5,

"pdf_pn": 1

},

{

"title": "2. 非结构化数据管理",

"page_num": 5,

"real_pn": 6,

"pdf_pn": 2

},

{

"title": "2.1. 非结构化数据定义及特征",

"page_num": 5,

"real_pn": 6,

"pdf_pn": 2

},

{

"title": "2.2. 非结构化数据管理发展历程",

"page_num": 7,

"real_pn": 8,

"pdf_pn": 4

},

{

"title": "3. 非结构化数据管理体系",

"page_num": 9,

"real_pn": 10,

"pdf_pn": 6

},

……

]

例如，目录项第4项的关联结果为：目录标题为“2.2 非结构化数据定义及特征”，导航页码“7”，目录页码“4”。

步骤S107，输出可导航的PDF文档目录。

具体的，获取所有目录项的关联结果，输出可导航的PDF文档目录。应用***可利用该目录，通过检索导航页码，将目录与页面链接，实现跳转。

本发明还提出了一种PDF文档可导航目录提取装置实施例，装置示意图如图2所示，包括：

页码识别模块，用于对所有页面图片的页码进行识别；

页码校验与修正模块，用于基于页码差对图片页码进行的二次校验和修正，使用PDF文档页码差补全图片页码；

PDF文档目录输出模块，用于输出可导航的PDF文档目录。

所述目录页面查找模块包括以下之一种：

1）对于文字版PDF文档，包括：

2）对于扫描版PDF文档，包括：

目录识别模型建立子模块，用于根据通用图像分类模型，对目录页面和非目录页面进行标注，使用标注数据训练通用图像分类模型，得到目录识别模型；

目录页面查找子模块，用于使用目录识别模型，对PDF文档的每页或者从头开始逐页进行识别，判定是否为目录页面，查找出PDF文档的所有目录页面。

所述页码识别模块包括：

1）页码识别模型建立子模块，用于基于通用OCR模型，对页面的页码进行标注，使用标注数据训练通用OCR模型，得到页码识别模型；

2）页码识别子模块，用于使用页码识别模型对图片页面的页码进行识别。

所述基页码校验与修正模块包括：

各模块的具体实现方式与前述PDF文档可导航目录提取方法各步骤相同，在此不予赘述。

在本实施例中，本PDF文档可导航目录提取装置提供了一个应用***的前端页面，在该页面中通过输入模块上传PDF文档至服务端，调用基于本方法实现的算法，包括目录页面查找模块、目录提取模块、导航页码提取模块、页码识别模块、页码校验与修正模块、页码匹配与关联模块等，输出可导航的PDF文档目录，并接入应用***，实现文档导航和跳转。

本发明实施例还提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行存储器上所存储的程序，实现前述PDF文档可导航目录提取方法实施例的各步骤。

关于该方法各个步骤的具体实现以及相关解释内容可以参见前述PDF文档可导航目录提取方法实施例，在此不做赘述。

本实施例提到的电子设备的存储器可以包括随机存取存储器(Random AccessMemory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，该计算机程序被处理器执行时实现前述PDF文档可导航目录提取方法实施例的各步骤。关于该方法各个步骤的具体实现以及相关解释内容可以参见PDF文档可导航目录提取实施例，在此不做赘述。

需要说明的是，本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

尤其，对于装置、电子设备、计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述描述仅是对本发明较佳实施例的描述，并非对本发明范围的任何限定，本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰，均属于本发明的保护范围之内。

Claims

1.一种PDF文档可导航目录提取方法，其特征在于包括如下步骤：

S101、查找PDF文档的目录页面；

所述查找PDF文档目录页面包括如下方法之任一种：

2）如果PDF文档是扫描版：使用目录识别模型，对PDF文档的每页或者从头开始逐页进行识别，判定是否为目录页面，查找出PDF文档的所有目录页面；

S102、对目录所在页面所有目录项的目录标题和目录页码进行提取；

S104、对所有页面图片的页码进行识别，获得图片页码；

S105、基于导航页码和图片页码相减得到的页码差，将得到的所有图片的页码差进行统计，按照频率由高到低排序，最后，取出现频率最高的页码差作为PDF文档的页码差；对图片页码进行二次校验，并使用PDF文档页码差修正识别错误的图片页码，补全图片页码；

S106、查找与目录项中的目录页码相同的图片页码，将所述图片页码对应的导航页码与所述目录项相匹配，获得目录项对应的导航页码，所述目录项包括目录标题、目录页码；

S107、输出目录标题、目录页码、导航页码组成的可导航的PDF文档目录，通过检索导航页码，将目录与页面链接，实现跳转。

2.如权利要求1所述的PDF文档可导航目录提取方法，其特征在于，所述使用目录识别模型查找PDF文档目录页面包括如下方法：基于通用图像分类模型，对目录页面和非目录页面进行标注，使用标注数据训练通用图像分类模型，得到目录识别模型。

3.一种PDF文档可导航目录提取装置，其特征在于包括：

目录页面查找模块，用来查找PDF文档的目录页面；

对于文字版PDF文档，所述目录页面查找模块包括：页面文本提取子模块，用于对PDF文档的每一页或者从头开始逐页进行，提取该页所有文本；目录页面查找子模块，用于查找文字版PDF文档目录所在页面；

对于扫描版PDF文档，所述目录页面查找模块为使用目录识别模型，对PDF文档的每页或者从头开始逐页进行识别，判定是否为目录页面，查找出PDF文档的所有目录页面；

导航页码提取模块，用于将PDF文档的每页转换成图片，按照页面顺序对所有图片排序，提取图片序号作为该页面的导航页码；页码识别模块，用于对所有页面图片的页码进行识别，获得图片页码；

页码校验与修正模块，用于基于导航页码和图片页码相减得到的页码差，将得到的所有图片的页码差进行统计，按照频率由高到低排序，最后，取出现频率最高的页码差作为PDF文档的页码差，并对图片页码进行二次校验，使用PDF文档页码差修正识别错误的图片页码，补全图片页码；

页码匹配与关联模块，用于查找与目录项中的目录页码相同的图片页码，将所述图片页码对应的导航页码与所述目录项相匹配，最后获得目录项对应的导航页码；所述目录项包括目录标题、目录页码；

PDF文档目录输出模块，用于输出目录标题、目录页码、导航页码组成的可导航的PDF文档目录，通过检索导航页码，将目录与页面链接，实现跳转。

4.如权利要求3所述的PDF文档可导航目录提取装置，其特征在于，所述目录页面查找模块包括目录识别模型训练子模块，用于基于通用图像分类模型，对目录页面和非目录页面进行标注，使用标注数据训练通用图像分类模型，得到目录识别模型。

5.一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行存储器上所存储的程序，实现权利要求1-2任一所述的方法步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-2任一项所述的方法步骤。