CN117493712B - Pdf文档可导航目录提取方法、装置、电子设备及存储介质 - Google Patents

Pdf文档可导航目录提取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117493712B
CN117493712B CN202311852456.6A CN202311852456A CN117493712B CN 117493712 B CN117493712 B CN 117493712B CN 202311852456 A CN202311852456 A CN 202311852456A CN 117493712 B CN117493712 B CN 117493712B
Authority
CN
China
Prior art keywords
page
catalog
pdf document
page number
directory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311852456.6A
Other languages
English (en)
Other versions
CN117493712A (zh
Inventor
邓新星
程斯静
顾丹鹏
谢世超
邬远祥
唐海涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang East China Engineering Digital Technology Co ltd
PowerChina Huadong Engineering Corp Ltd
Original Assignee
Zhejiang East China Engineering Digital Technology Co ltd
PowerChina Huadong Engineering Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang East China Engineering Digital Technology Co ltd, PowerChina Huadong Engineering Corp Ltd filed Critical Zhejiang East China Engineering Digital Technology Co ltd
Priority to CN202311852456.6A priority Critical patent/CN117493712B/zh
Publication of CN117493712A publication Critical patent/CN117493712A/zh
Application granted granted Critical
Publication of CN117493712B publication Critical patent/CN117493712B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

为实现可导航的PDF文档的目录提取,保证目录的准确性,并提供快速跳转功能,本发明提出一种PDF文档可导航目录提取方法、装置、电子设备及存储介质,所述可导航目录提取方法采用如下步骤:查找PDF文档的目录页面;对目录所在页面进行目录标题和目录页码提取;将PDF文档的每页转换成图片,按照页面顺序对所有图片排序,提取图片序号作为该页面的导航页码;对所有页面图片的页码进行识别;基于页码差对图片页码进行的二次校验和修正;将目录项与导航页码进行匹配与关联,获得所有目录标题、目录页码、导航页码;输出可导航的PDF文档目录。采用本发明技术方案可提升PDF文档目录识别准确率,帮助用户快速定位PDF文档目录内容。

Description

PDF文档可导航目录提取方法、装置、电子设备及存储介质
技术领域
本发明涉及文档数据处理技术领域,特别是一种PDF文档可导航目录提取方法、装置、电子设备及存储介质。
背景技术
数字化转型是当前经济社会发展的一个重要趋势,随着新一代信息技术的发展和国家政策的大力支持,越来越多企业建设数字化平台以提高生产效率和质量。数字化转型的核心内容之一是数据资源的整合与利用,其中包含对大量电子文档的处理和使用。例如:电子图档中心,提供工程档案、图档资料的存储、检索、在线查阅;项目管理平台,提供各类项目文档的整合管理与关键信息的提取。
当前,PDF(Portable Document Format,便携式文档格式)是处理和传输电子文档的主要格式之一。由于PDF文档制作方式不同,存在大量PDF文档无法实现点击目录跳转到对应内容的页面,例如:目录没有设置内容链接的PDF文档,目录无法跳转;传统纸质资料扫描形成的PDF文档,无法读取目录内容,更无法实现跳转。此类PDF文档需要人工查找内容,耗费时间,在查找的过程中,由于PDF文档除了目录包含的内容外,还可能包含封面、说明页、空白页、目录页等不在目录列表中内容,使得目录页码(即目录标题对应的页码)和导航页码(即目录标题对应的内容页面在整个文档中的实际位置)不一致,导致人工查找不能直接按照目录页码定位到指定页面,查找效率低下。
在文档的目录提取和生成方面,已有一些研究方法,比如:公开号为CN201611028787.8、CN202211734526.3、CN202110638300.2、CN201910973998.6等中国发明专利,但这些技术存在如下不足:它们是基于文本数据或可提取文字及版式的文字版PDF文档进行目录提取,对于当前大量通过图片扫描等方式获取的、不可读取文字的扫面版PDF文档,这类技术无法处理,适用性低。
针对扫描版PDF文档的目录提取也有一些方法,例如,公开号为CN202111420845.2、CN202010919654.X中国发明专利,主要利用OCR技术和基于文档内容的视觉属性进行处理,缺点是高度依赖文档格式,由于不同文档版式、格式不一,准确率受限,需要对大量文档全文标注和训练来提升准确率,成本较高,同时缺少二次校验,存在识别错误无法处理的情况。公开号为CN202310291320.6的中国发明专利虽然在OCR方法上有所改进,但也是只对文档目录进行提取,未提取页码,无法提供目录导航和跳转。
数字化平台中,资料的查阅功能需求量和频率极高,可导航的PDF文档目录逐渐成为必不可少的功能。在目录导航方面,公开号为CN202310265473.3的中国专利提供了实体文档扫描生成可跳转的PDF文件,该方法实现了扫描版PDF文档的目录提取并建立目录与内容的跳转链接,但该方法存在明显不足:一是缺少目录页面查找方法,需要人工判定目录所在页面,再对目录进行识别,无法实现自动化;二是目录、内容的识别未进行二次检查,影响跳转链接的准确性。
发明内容
为克服现有技术的上述不足,提升用户阅读效率和电子文档的利用率,本发明旨在建立较为准确和自动化的方法,实现可导航的PDF文档的目录提取,保证目录的准确性,并提供快速跳转功能。
本发明针对现有方法存在的问题,提出一种PDF文档可导航目录提取方法、装置及存储介质,提升PDF文档目录识别准确率,帮助用户快速定位PDF文档目录内容。
本发明的第一个目的在于提出一种PDF文档可导航目录提取方法,包括如下步骤:
S101、查找PDF文档的目录页面;
S102、对目录所在页面进行目录标题和目录页码提取;
S103、将PDF文档的每页转换成图片,按照页面顺序对所有图片排序,提取图片序号作为该页面的导航页码;
S104、对所有页面图片的页码进行识别;
S105、基于页码差对图片页码进行的二次校验和修正;
S106、将目录项与导航页码进行匹配与关联,获得所有目录标题、目录页码、导航页码;
S107、输出可导航的PDF文档目录。
优选的,所述查找PDF文档目录页面包括如下方法之任一种:
1)如果PDF文档是文字版:对PDF文档的每一页或者从头开始逐页进行,提取该页所有文本,然后查找文字版PDF文档目录所在页面;
2)如果PDF文档是扫描版:使用目录识别模型,对PDF文档的每页或者从头开始逐页进行识别,判定是否为目录页面,查找出PDF文档的所有目录页面。
优选的,所述基于页码差对图片页码进行的二次校验和修正包括如下步骤:
1)将导航页码与图片页码进行相减,得到PDF文档的页码差;
2)对图片页码进行的二次校验,并使用PDF文档页码差修正识别错误的图片页码。
本发明第二个目的在于提出一种PDF文档可导航目录提取装置,该装置包括:
目录页面查找模块,用来查找PDF文档的目录页面,对不同类型PDF文档的目录页面,采用不同方法进行查找;
目录提取模块,用于提取PDF文档目录内容,对不同类型PDF文档的目录页面,采用不同方法提取目录页面的所有目录项的标题、页码;
导航页码提取模块,用于将PDF文档的每页转换成图片,按照页面顺序对所有图片排序,提取图片序号作为该页面的导航页码;
页码识别模块,用于对所有页面图片的页码进行识别;
页码校验与修正模块,用于基于页码差对图片页码进行的二次校验和修正;
页码匹配与关联模块,用于将目录项与导航页码进行匹配与关联,最后获得所有目录标题、目录页码、导航页码;
PDF文档目录输出模块,用于输出可导航的PDF文档目录。
优选的,对于文字版PDF文档,所述目录页面查找模块包括:
页面文本提取子模块,用于对PDF文档的每一页或者从头开始逐页进行,提取该页所有文本;
目录页面查找子模块,用于查找文字版PDF文档目录所在页面;
优选的,对于扫描版PDF文档,所述目录页面查找模块为使用目录识别模型,对PDF文档的每页或者从头开始逐页进行识别,判定是否为目录页面,查找出PDF文档的所有目录页面。
优选的,所述基页码校验与修正模块包括:
1)页码差计算子模块,用于将导航页码与图片页码进行相减,得到PDF文档的页码差;
2)页码校验和修正子模块,用于对图片页码进行的二次校验,并使用PDF文档页码差修正识别错误的图片页码。
本发明的第三个目的在于提出一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行存储器上所存储的程序,实现前述任一项PDF文档可导航目录提取方法各步骤。
本发明第四个目的在于提出一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现前述任一项PDF文档可导航目录提取方法各步骤。
与现有技术相比,本发明技术方案具有如下积极、有益效果:
1、可同时适用于可解析的文字版PDF文档与不可解析的扫面版PDF文档,应用范围更广,更具有通用性。
2、提出基于页码差的二次校验方法,对PDF页码提取结果进行检查和修正,提升目录提取的准确性。
3、可将PDF目录与导航页码关联,生成可导航的目录数据,可广泛应用于数字化***,大大提升电子文档阅读效率。
附图说明
图1为本发明一种PDF文档可导航目录提取方法实施例的流程示意图;
图2为本发明一种PDF文档可导航目录提取装置示意图。
具体实施方式
为了进一步理解本发明,下面结合实施例对本发明优选实施方案进行描述,但是应当理解,这些描述只是为进一步说明本发明的特征和优点,而不是对本发明权利要求的限制。
术语解释
目录标题,用title表示,指目录页面中指示文档结构的文字标题。
目录页码,用pdf_pn表示,指目录页面中的目录标题对应的页码。
导航页码,用page_num表示,指页面在PDF文档中的顺序位置。
图片页码,用footer_int表示,指页面的页码处显示的页码。
跳转,指根据所选目录标题,直接定位到标题对应的内容页面。
本发明实施例提供了一种PDF文档可导航目录提取方法,并示出了基于该方法实现的装置。下面结合附图和具体实例对本发明的方法和装置作进一步说明。
如图1所示,是本发明的一种可导航的PDF文档目录提取方法实施例具体实施步骤,详细说明如下:
步骤S101:查找PDF文档的目录页面。
具体的,对于给出的PDF文档,首先根据PDF文档内的文本是否可提取来判断PDF文档是扫描版还是文字版。下面分别对文字版和扫描版PDF文档目录页面的查找进行详细说明。
1、如果PDF文档是文字版,按如下步骤查找目录页面:
(1)对PDF文档的每一页或者从头开始逐页进行,提取该页所有文本。现有较多开源库可用于PDF文本提取,如pdfminer、pypdf、pdfplumber等,本实施例使用的是pdfplumber库。
(2)查找文字版PDF文档目录所在页面。本实施例采用如下方法来查找文字版PDF文档目录所在页面:计算每页英文句号数量占该页总文字数量的比例,并与设定的阈值对比,英文句号占比超过阈值的页面为目录页面。本实施例将这种方法定义为基于目录特征文本占比的方法。
在本实施例中,设定阈值为50%。例如:页码页面一的文本的英文句号数量占该页总文字数量的79.55%,大于50%,判定为目录页面;页面二的文本内容的英文句号占0.001%,小于50%,判断为非目录页面。
需要说明的是,基于目录特征文本占比的方法适用于大部分PDF文档,对于特殊情况不包含句号的目录页面,采用扫描版PDF文档的方法查找目录页面。
2、如果PDF文档是扫描版,按如下步骤查找目录页面:
使用目录识别模型,对PDF文档的每页或者从头开始逐页进行识别,判定是否为目录页面,查找出PDF文档的所有目录页面。
目录识别模型可以预先建立好。本实施例的目录识别模型采用如下方法建立:基于通用图像分类模型,对目录页面和非目录页面进行标注,使用标注数据训练通用图像分类模型,得到目录识别模型。所述通用图像分类模型是当前较为成熟的技术,互联网上已有较多开源项目,如Pytorch、Tensorflow、百度飞桨等框架开源的图像分类算法。一般来说目录与非目录的页面特征区别明显,目录识别模型所需的标注和训练工作量较小。
需要说明的是,对上述两种PDF文档,查找目录页码均不需要对整本PDF文档进行识别,而是可以按顺序进行识别,当第n页为目录页,第n+1页为非目录页时,停止识别,1~n页中已识别为目录页是该PDF文档的目录页。
步骤S102:对目录所在页面进行目录标题与目录页码提取。
下面分别对文字版和扫描版PDF文档进行详细说明如何提取目录标题与目录页码。
1、如果PDF文档是文字版:首先,对目录页的每一行目录,分割标题和页码;然后,对于页码部分,过滤页码中的非数字,获取目录每一项的标题部分和页码部分。本实施例采用正则表达式分割每一行目录的标题和页码,这是一种现有技术,在此不做赘述。
2、如果PDF文档是扫描版:采用目录识别模型提取目录的标题、页码。
所述目录识别模型可以采用现有成熟技术,如Paddle版面分析模型等开源成熟算法,也可使用现有工具,例如百度智能云的办公文档识别工具(参见cloud.***.com/product/ocr/doc_analysis_office)。
在本实施例中,目录页面的提取结果如下方代码所示:
[
{
"title": "1. 前言",
"pdf_pn": "1"
},
{
"title": "2. 非结构化数据管理",
"pdf_pn": "2"
},
{
"title": "2.1. 非结构化数据定义及特征",
"pdf_pn": "2"
},
{
"title": "2.2. 非结构化数据管理发展历程",
"pdf_pn": "4"
},
{
"title": "3. 非结构化数据管理体系",
"pdf_pn": "6"
},
……
]
其中,数组的每一项为一个目录项,每个目录项包含目录标题和目录页码,其中title表示目录标题,pdf_pn表示目录页码。
步骤S103:导航页码提取,将PDF文档的每页转换成图片,按照页面顺序对所有图片排序,提取图片序号作为该页面的导航页码。
具体的,将PDF文档的每页转换成图片,存储到临时文件夹,按照页面顺序对所有图片排序,提取页面图片的序号作为该页面的导航页码,并将页面图片序号作为该页面图片文件名。在本实施例中,进行导航页码提取得到57张图片,图片的序号从“0”开始编号,若页面在文件夹中的序号为2,则导航页码为2。
步骤S104,对所有页面图片的页码进行识别。
图片页码是指在S103步骤PDF文档的每页转换成图片后,对所有页面图片的页码识别结果。图片页码是后续步骤S105计算PDF文档的页码差所需要的中间结果。需要说明的是,PDF文档的封面、说明页、空白页、目录页等页面可能没有页码,这部分页面一般不包含在PDF文档的目录内容中,本实施例方法只提取目录涵盖的范围,因此不需要处理这部分页面。具体的,对步骤S103得到的图片,使用页码识别模型进行图片页码识别。
页码识别模型可以预先建立。本实施例采用如下方法建立页码识别模型:基于通用OCR模型,对页面的页码进行标注,使用标注数据训练通用OCR模型,得到页码识别模型。所述通用OCR模型是当前较为成熟的技术,互联网上已有较多开源项目,如Paddle版面分析模型等。一般来说页码的布局较为规范,页码识别模型所需的标注和训练工作量较小。
需要说明的是,由于扫描页面不全、遮挡及模型准确率等原因,可能存在少数图片页码识别不到或识别错误。
在本实施例中,图片页码识别的部分结果如下方代码所示:
[
{
"page_num": 0,
"footer_int": null
},
{
"page_num": 1,
"footer_int": null
},
{
"page_num": 2,
"footer_int": null
},
{
"page_num": 3,
"footer_int": null
},
{
"page_num": 4,
"footer_int": 1
},
{
"page_num": 5,
"footer_int": 2
},
{
"page_num": 6,
"footer_int": 3
},
{
"page_num": 7,
"footer_int": 4
},
{
"page_num": 8,
"footer_int": null
},
……
]
其中,page_num表示导航页码,footer_int表示图片页码,其中导航页码为0~3的图片为封面、版权声明、目录,页面上没有页码,图片页码为null;导航页码为8的图片页码识别失败,图片页码为null,其他图片识别成功。
需要说明的是,由于基于OCR的页码识别准确性很难达到100%,页码识别不到或识别错误是一种常见情况。现有技术很少对页码识别结果进行检查,尚无自动校验方法,本发明实施例提出基于页码差的二次校验方法,检查图片页码识别结果并修正错误的图片页码,是本发明实施例的重要创新点。详见下面的步骤105。
步骤S105,基于页码差对图片页码进行的二次校验和修正。
(1)计算PDF文档的页码差。
首先,对每张图片,将导航页码与图片页码进行相减,得到每张图片的页码差。
然后,考虑到OCR识别的准确性很难达到100%,存在少数图片的页码差与其他页码差不同,取多数页码差作为本PDF的页码差。比如:可将所有图片的页码差进行统计,按照频率由高到低排序,最后,取出现频率最高的页码差作为PDF文档的页码差。
在本实施例中,页面二的导航页码为4,图片页码为1,则页码差为4-1=3。依次类推得到每张图片的页码差,其中,导航页码为8的图片页码为null,无法计算页码差,页码差为null。然后,将全部页码差进行统计,得到页码差为“3”的图片有49张,页码差为null的图片有8张。最后取大多数页面的页码差3作为该PDF文档的页码差。
(2)对图片页码进行的二次校验,并使用PDF文档页码差修正识别错误的图片页码,补全图片页码。
在本步骤中,对S104的图片页码提取结果进行的二次校验,下面两种情形属于图片页码识别错误:1)无法计算页码差的图片,例如图片页码识别为null的图片;2)页码差不等于PDF文档的页码差的图片,例如,PDF文档的页码差为3,第n张图片的导航页码为19,图片页码为18,得到页码差为1,1≠3,则图片页码识别错误。
本实施例中,使用PDF文档的页码差修正识别错误的图片页码,修正方法为:图片页码=导航页码-页码差。在本实施例中,导航页码为8的图片footer_int为null,修正结果如下方代码所示:
[
……
{
"page_num": 7,
"real_pn": 8,
"footer_int": 4,
"footer_patched": 4
},
{
"page_num": 8,
"real_pn": 9,
"footer_int": null,
"footer_patched": 5
},
{
"page_num": 9,
"real_pn": 10,
"footer_int": 6,
"footer_patched": 6
},
……
]
其中,page_num表示导航页码,footer_int表示图片页码,footer_patched表示补全后的图片页码,代码示例中第二条数据补全后的图片页码footer_patched=8-3=5。
需要说明的是,real_pn表示实际导航页码,由于导航页码从0排序,而PDF文档的页面实际从1排序,实际导航页码由导航页码加一得到。导航页码和实际导航页码都可以用于PDF文档的导航跳转,取决于应用***实现方式。
需要说明的是,上述步骤101-102和103-105可以并行,没有严格的顺序。
步骤S106,将目录项与导航页码进行匹配与关联。
具体的,对于S102获得的目录提取结果,对包括目录标题和目录页码的每个目录项,查找所有图片页码,如果存在与目录页码相同的图片页码,则将目录项与导航页码关联,即目录标题-导航页码-目录页码。
在本实施例中,将步骤S102目录提取结果和步骤S105修正后的图片页码识别结果进行匹配,对目录提取结果中的每个目录项,当修正后的图片页码识别结果中的footer_patched(修正后的图片页码)等于目录提取结果中pdf_pn(目录页码)时,将修正后的图片页码识别结果中的page_num(导航页码)、real_pn(实际导航页码)添加到目录提取结果中的目录项中。匹配和关联结果如下方代码所示:
[
{
"title": "1. 前言",
"page_num": 4,
"real_pn": 5,
"pdf_pn": 1
},
{
"title": "2. 非结构化数据管理",
"page_num": 5,
"real_pn": 6,
"pdf_pn": 2
},
{
"title": "2.1. 非结构化数据定义及特征",
"page_num": 5,
"real_pn": 6,
"pdf_pn": 2
},
{
"title": "2.2. 非结构化数据管理发展历程",
"page_num": 7,
"real_pn": 8,
"pdf_pn": 4
},
{
"title": "3. 非结构化数据管理体系",
"page_num": 9,
"real_pn": 10,
"pdf_pn": 6
},
……
]
例如,目录项第4项的关联结果为:目录标题为“2.2 非结构化数据定义及特征”,导航页码“7”,目录页码“4”。
步骤S107,输出可导航的PDF文档目录。
具体的,获取所有目录项的关联结果,输出可导航的PDF文档目录。应用***可利用该目录,通过检索导航页码,将目录与页面链接,实现跳转。
本发明还提出了一种PDF文档可导航目录提取装置实施例,装置示意图如图2所示,包括:
目录页面查找模块,用来查找PDF文档的目录页面,对不同类型PDF文档的目录页面,采用不同方法进行查找;
目录提取模块,用于提取PDF文档目录内容,对不同类型PDF文档的目录页面,采用不同方法提取目录页面的所有目录项的标题、页码;
导航页码提取模块,用于将PDF文档的每页转换成图片,按照页面顺序对所有图片排序,提取图片序号作为该页面的导航页码;
页码识别模块,用于对所有页面图片的页码进行识别;
页码校验与修正模块,用于基于页码差对图片页码进行的二次校验和修正,使用PDF文档页码差补全图片页码;
页码匹配与关联模块,用于将目录项与导航页码进行匹配与关联,最后获得所有目录标题、目录页码、导航页码;
PDF文档目录输出模块,用于输出可导航的PDF文档目录。
所述目录页面查找模块包括以下之一种:
1)对于文字版PDF文档,包括:
页面文本提取子模块,用于对PDF文档的每一页或者从头开始逐页进行,提取该页所有文本;
目录页面查找子模块,用于查找文字版PDF文档目录所在页面;
2)对于扫描版PDF文档,包括:
目录识别模型建立子模块,用于根据通用图像分类模型,对目录页面和非目录页面进行标注,使用标注数据训练通用图像分类模型,得到目录识别模型;
目录页面查找子模块,用于使用目录识别模型,对PDF文档的每页或者从头开始逐页进行识别,判定是否为目录页面,查找出PDF文档的所有目录页面。
所述页码识别模块包括:
1)页码识别模型建立子模块,用于基于通用OCR模型,对页面的页码进行标注,使用标注数据训练通用OCR模型,得到页码识别模型;
2)页码识别子模块,用于使用页码识别模型对图片页面的页码进行识别。
所述基页码校验与修正模块包括:
1)页码差计算子模块,用于将导航页码与图片页码进行相减,得到PDF文档的页码差;
2)页码校验和修正子模块,用于对图片页码进行的二次校验,并使用PDF文档页码差修正识别错误的图片页码。
各模块的具体实现方式与前述PDF文档可导航目录提取方法各步骤相同,在此不予赘述。
在本实施例中,本PDF文档可导航目录提取装置提供了一个应用***的前端页面,在该页面中通过输入模块上传PDF文档至服务端,调用基于本方法实现的算法,包括目录页面查找模块、目录提取模块、导航页码提取模块、页码识别模块、页码校验与修正模块、页码匹配与关联模块等,输出可导航的PDF文档目录,并接入应用***,实现文档导航和跳转。
本发明实施例还提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行存储器上所存储的程序,实现前述PDF文档可导航目录提取方法实施例的各步骤。
关于该方法各个步骤的具体实现以及相关解释内容可以参见前述PDF文档可导航目录提取方法实施例,在此不做赘述。
本实施例提到的电子设备的存储器可以包括随机存取存储器(Random AccessMemory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,该计算机程序被处理器执行时实现前述PDF文档可导航目录提取方法实施例的各步骤。关于该方法各个步骤的具体实现以及相关解释内容可以参见PDF文档可导航目录提取实施例,在此不做赘述。
需要说明的是,本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
尤其,对于装置、电子设备、计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述描述仅是对本发明较佳实施例的描述,并非对本发明范围的任何限定,本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰,均属于本发明的保护范围之内。

Claims (6)

1.一种PDF文档可导航目录提取方法,其特征在于包括如下步骤:
S101、查找PDF文档的目录页面;
所述查找PDF文档目录页面包括如下方法之任一种:
1)如果PDF文档是文字版:对PDF文档的每一页或者从头开始逐页进行,提取该页所有文本,然后查找文字版PDF文档目录所在页面;
2)如果PDF文档是扫描版:使用目录识别模型,对PDF文档的每页或者从头开始逐页进行识别,判定是否为目录页面,查找出PDF文档的所有目录页面;
S102、对目录所在页面所有目录项的目录标题和目录页码进行提取;
S103、将PDF文档的每页转换成图片,按照页面顺序对所有图片排序,提取图片序号作为该页面的导航页码;
S104、对所有页面图片的页码进行识别,获得图片页码;
S105、基于导航页码和图片页码相减得到的页码差,将得到的所有图片的页码差进行统计,按照频率由高到低排序,最后,取出现频率最高的页码差作为PDF文档的页码差;对图片页码进行二次校验,并使用PDF文档页码差修正识别错误的图片页码,补全图片页码;
S106、查找与目录项中的目录页码相同的图片页码,将所述图片页码对应的导航页码与所述目录项相匹配,获得目录项对应的导航页码,所述目录项包括目录标题、目录页码;
S107、输出目录标题、目录页码、导航页码组成的可导航的PDF文档目录,通过检索导航页码,将目录与页面链接,实现跳转。
2.如权利要求1所述的PDF文档可导航目录提取方法,其特征在于,所述使用目录识别模型查找PDF文档目录页面包括如下方法:基于通用图像分类模型,对目录页面和非目录页面进行标注,使用标注数据训练通用图像分类模型,得到目录识别模型。
3.一种PDF文档可导航目录提取装置,其特征在于包括:
目录页面查找模块,用来查找PDF文档的目录页面;
对于文字版PDF文档,所述目录页面查找模块包括:页面文本提取子模块,用于对PDF文档的每一页或者从头开始逐页进行,提取该页所有文本;目录页面查找子模块,用于查找文字版PDF文档目录所在页面;
对于扫描版PDF文档,所述目录页面查找模块为使用目录识别模型,对PDF文档的每页或者从头开始逐页进行识别,判定是否为目录页面,查找出PDF文档的所有目录页面;
目录提取模块,用于提取PDF文档目录内容,对不同类型PDF文档的目录页面,采用不同方法提取目录页面的所有目录项的标题、页码;
导航页码提取模块,用于将PDF文档的每页转换成图片,按照页面顺序对所有图片排序,提取图片序号作为该页面的导航页码;页码识别模块,用于对所有页面图片的页码进行识别,获得图片页码;
页码校验与修正模块,用于基于导航页码和图片页码相减得到的页码差,将得到的所有图片的页码差进行统计,按照频率由高到低排序,最后,取出现频率最高的页码差作为PDF文档的页码差,并对图片页码进行二次校验,使用PDF文档页码差修正识别错误的图片页码,补全图片页码;
页码匹配与关联模块,用于查找与目录项中的目录页码相同的图片页码,将所述图片页码对应的导航页码与所述目录项相匹配,最后获得目录项对应的导航页码;所述目录项包括目录标题、目录页码;
PDF文档目录输出模块,用于输出目录标题、目录页码、导航页码组成的可导航的PDF文档目录,通过检索导航页码,将目录与页面链接,实现跳转。
4.如权利要求3所述的PDF文档可导航目录提取装置,其特征在于,所述目录页面查找模块包括目录识别模型训练子模块,用于基于通用图像分类模型,对目录页面和非目录页面进行标注,使用标注数据训练通用图像分类模型,得到目录识别模型。
5.一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行存储器上所存储的程序,实现权利要求1-2任一所述的方法步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-2任一项所述的方法步骤。
CN202311852456.6A 2023-12-29 2023-12-29 Pdf文档可导航目录提取方法、装置、电子设备及存储介质 Active CN117493712B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311852456.6A CN117493712B (zh) 2023-12-29 2023-12-29 Pdf文档可导航目录提取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311852456.6A CN117493712B (zh) 2023-12-29 2023-12-29 Pdf文档可导航目录提取方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN117493712A CN117493712A (zh) 2024-02-02
CN117493712B true CN117493712B (zh) 2024-06-21

Family

ID=89669425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311852456.6A Active CN117493712B (zh) 2023-12-29 2023-12-29 Pdf文档可导航目录提取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117493712B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115048908A (zh) * 2022-06-29 2022-09-13 珠海豹好玩科技有限公司 一种生成文本目录的方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06231127A (ja) * 1993-02-01 1994-08-19 Hitachi Ltd ペ−ジ番号の自動採番方法
JP2002024796A (ja) * 2000-07-06 2002-01-25 Matsushita Electric Ind Co Ltd 文字認識装置および方法
CN103778141A (zh) * 2012-10-23 2014-05-07 南开大学 一种混合pdf图书目录自动抽取算法
CN105095285B (zh) * 2014-05-14 2019-03-26 北大方正集团有限公司 数字出版物导览目录处理方法和装置
CN107291682B (zh) * 2016-03-30 2020-12-08 同方知网(北京)技术有限公司 一种基于跳转处理及双重校验的多篇电子文档分篇算法
CN106250830B (zh) * 2016-07-22 2019-05-24 浙江大学 数字图书结构化分析处理方法
US10956731B1 (en) * 2019-10-09 2021-03-23 Adobe Inc. Heading identification and classification for a digital document
CN110837788B (zh) * 2019-10-31 2022-10-28 北京深度制耀科技有限公司 一种pdf文档的处理方法及装置
CN111753500B (zh) * 2020-07-07 2021-05-04 江苏中威科技软件***有限公司 版式化后的电子表单与ofd合并展现及目录生成的方法
CN112016273B (zh) * 2020-09-03 2024-03-12 平安科技(深圳)有限公司 文档目录生成方法、装置、电子设备及可读存储介质
CN112818647A (zh) * 2021-01-14 2021-05-18 史朝斌 基于图像识别对照和人工智能自动对比的***审稿方法
CN116092108A (zh) * 2023-03-20 2023-05-09 四川竺信档案数字科技有限责任公司 一种实体文档扫描生成pdf文件的方法、***及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115048908A (zh) * 2022-06-29 2022-09-13 珠海豹好玩科技有限公司 一种生成文本目录的方法及装置

Also Published As

Publication number Publication date
CN117493712A (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
US8315997B1 (en) Automatic identification of document versions
CN102053991B (zh) 用于多语言文档检索的方法及***
US8391614B2 (en) Determining near duplicate “noisy” data objects
US9430478B2 (en) Anchor image identification for vertical video search
CN109144968B (zh) 一种数据分布管理***
CN109598228B (zh) 将纸质文件电子化著录归档的方法和***
CN104346415B (zh) 图像文档命名的方法
CN114117171A (zh) 一种基于赋能思维的工程档案智能收整方法及***
CN111310750B (zh) 一种信息处理方法、装置、计算设备及介质
CN110688349A (zh) 一种文档整理方法、装置、终端及计算机可读存储介质
CN111353004A (zh) 一种药品文档的数据关联分析方法和***
CN111353005A (zh) 一种药品研发申报文档管理方法和***
CN113190502A (zh) 基于深度学习的档案管理方法
CN111860524A (zh) 一种数字档案智能分类的装置及方法
US9672438B2 (en) Text parsing in complex graphical images
CN109670092A (zh) Xml文档校对方法及装置
CN113220821A (zh) 一种针对试题检索的索引建立方法、装置及电子设备
CN112418813A (zh) 基于智能解析识别的aeo资质智能评级管理***、方法及存储介质
CN117493712B (zh) Pdf文档可导航目录提取方法、装置、电子设备及存储介质
US20090327210A1 (en) Advanced book page classification engine and index page extraction
CN107577667B (zh) 一种实体词处理方法和装置
CN112925874B (zh) 基于案例标记的相似代码搜索方法及***
CN115422125A (zh) 一种基于智能算法的电子文档自动归档方法与***
CN114495138A (zh) 一种智能文档识别与特征提取方法、装置平台和存储介质
CN109739981B (zh) 一种pdf文件类别判定方法及文字提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant