CN112818642B - 将pdf文件转换成表格文件的方法、装置及计算机设备及存储介质 - Google Patents

将pdf文件转换成表格文件的方法、装置及计算机设备及存储介质 Download PDF

Info

Publication number
CN112818642B
CN112818642B CN202110166013.6A CN202110166013A CN112818642B CN 112818642 B CN112818642 B CN 112818642B CN 202110166013 A CN202110166013 A CN 202110166013A CN 112818642 B CN112818642 B CN 112818642B
Authority
CN
China
Prior art keywords
file
target
text
writing
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110166013.6A
Other languages
English (en)
Other versions
CN112818642A (zh
Inventor
张欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Wondershare Software Co Ltd
Original Assignee
Shenzhen Wondershare Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Wondershare Software Co Ltd filed Critical Shenzhen Wondershare Software Co Ltd
Priority to CN202110166013.6A priority Critical patent/CN112818642B/zh
Publication of CN112818642A publication Critical patent/CN112818642A/zh
Application granted granted Critical
Publication of CN112818642B publication Critical patent/CN112818642B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种将PDF文件转换成表格文件的方法、装置、计算机设备及存储介质,其中方法包括:获取目标PDF文件,并根据所述目标PDF文件生成目标文件;根据预设规则配置写入接口以获得目标写入接口,其中,所述目标写入接口与所述目标文件相关联;解析所述目标PDF文件以获取元素内容和元素属性;调用所述目标写入接口并将所述元素内容和所述元素属性通过所述目标写入接口写入所述目标文件;根据所述目标文件生成表格文件。本发明能够实现将PDF文件转换成表格格式的文件。

Description

将PDF文件转换成表格文件的方法、装置及计算机设备及存储 介质
技术领域
本发明涉及文档处理技术领域,尤其涉及一种将PDF文件转换成表格文件的方法、装置、计算机设备及存储介质。
背景技术
PDF(便携式文档格式)文件作为一种电子文档,不仅可以在任何操作***上进行阅读,同时还可以较为理想的还原原稿,因而越来越多的电子图书、论文或者其它电子文档均采用PDF格式来进行保存。但是,PDF文件不易于编辑,在需要编辑时,通常会将PDF文件转换成其它格式的文件,而表格文件也是一种常用的电子文档格式。
常见的表格文件的格式有xls格式和Numbers格式,由于PDF文件中的内容并不包含表格元素,现有的技术并不能直接将PDF文件中的内容转换表格文件中的内容。
发明内容
本发明实施例提供了一种将PDF文件转换成表格文件的方法、装置、计算机设备及存储介质,可以实现将PDF文件直接转换成表格文件。
第一方面,本发明实施例提供了一种将PDF文件转换成表格文件的方法,该方法具体包括:获取目标PDF文件,并根据所述目标PDF文件生成目标文件;
根据预设规则配置写入接口以获得目标写入接口,其中,所述目标写入接口与所述目标文件相关联;
解析所述目标PDF文件以获取元素内容和元素属性;
调用所述目标写入接口并将所述元素内容和所述元素属性通过所述目标写入接口写入所述目标文件;
根据所述目标文件生成表格文件。
第二方面,本发明实施例还提供了一种将PDF文件转换成表格文件的装置,该装置具体包括:第一获取单元,用于获取目标PDF文件,并根据所述目标PDF文件生成目标文件;
第一配置单元,用于根据预设规则配置写入接口以获得目标写入接口,其中,所述目标写入接口与所述目标文件相关联;
第一解析单元,用于解析所述目标PDF文件以获取元素内容和元素属性;
第一调用单元,用于调用所述目标写入接口并将所述元素内容和所述元素属性通过所述目标写入接口写入所述目标文件;
第一生成单元,用于根据所述目标文件生成表格文件。
第三方面,本发明实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现上述方法。
本发明实施例提供了一种将PDF文件转换成表格文件的方法、装置、计算机设备及存储介质。其中,所述方法包括:获取目标PDF文件,并根据所述目标PDF文件生成目标文件;根据预设规则配置写入接口以获得目标写入接口,其中,所述目标写入接口与所述目标文件相关联;解析所述目标PDF文件以获取元素内容和元素属性;调用所述目标写入接口并将所述元素内容和所述元素属性通过所述目标写入接口写入所述目标文件;根据所述目标文件生成表格文件。本发明实施例通过生成一个目标文件作为载体,同时修改写入接口以获得目标写入接口使得可以通过目标写入接口将目标PDF文件中的元素内容和元素属性写入值目标文件,最后再根据目标文件生成表格文件从而完成将PDF文件转换成表格文件。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的将PDF文件转换成表格文件的方法的流程示意图;
图2是本发明实施例提供的将PDF文件转换成表格文件的方法的子流程示意图
图3是本发明实施例提供的将PDF文件转换成表格文件的方法的子流程示意图;
图4是本发明实施例提供的将PDF文件转换成表格文件的方法的子流程示意图;
图5是本发明实施例提供的将PDF文件转换成表格文件的方法的子流程示意图;
图6是本发明实施例提供的将PDF文件转换成表格文件的方法的子流程示意图;
图7是本发明实施例提供的将PDF文件转换成表格文件的装置的示意性框图;
图8是本发明实施例提供的将PDF文件转换成表格文件的装置的第一获取单元的示意性框图
图9是本发明实施例提供的将PDF文件转换成表格文件的装置的第一配置单元的示意性框图;
图10是本发明实施例提供的将PDF文件转换成表格文件的装置的第一解析单元的示意性框图;
图11是本发明实施例提供的将PDF文件转换成表格文件的装置的第一调用单元的示意性框图;
图12是本发明实施例提供的将PDF文件转换成表格文件的装置的第一生成单元的示意性框图;
图13是本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1是本发明实施例提供的将PDF文件转换成表格文件的方法的流程示意图。本发明实施例的将PDF文件转换成表格文件的方法可应用于计算机设备中、平板电脑以及笔记本电脑等设备中。本发明的方法可以将PDF文件转换成表格文件。如图1所示,该方法包括步骤S110~S160。
S110,获取目标PDF文件,并根据所述目标PDF文件生成目标文件。
在本发明实施例中,目标PDF文件为需要将格式从PDF格式转换成表格文件的文件,表格文件的格式可以是xls格式或者是Numbers格式,以Numbers格式为例,在获取到目标PDF文件后,根据该目标PDF文件生成目标文件,其中目标文件的过程可以是先生成一个临时文件夹,并且在临时文件夹中创建一个XML(Extensible Markup Language)格式的文件,其中,XML是一种可扩展标记语言,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。并且XML文件通常会带有一些默认的XML节点,例如“<ls:stylesheet>”、“<sf:styles>”、“<sf:anon-styles>”、“<ls:workspace-array>”、“<ls:workspace ls:workspace-name="Sheet 1">”以及“<ls:document>”等类型的XML节点,用于保存目标PDF文件中的内容。
在某些实施例,例如本实施例中,如图2所示,所述步骤S110还可包括步骤S111-S112
S111,获取所述目标PDF文件的名称和路径。
在本发明实施例中,在获取目标PDF文件的同时,会获取目标PDF文件的名称和路径以便于后续步骤使用。
S112,修改所述目标PDF文件的名称中的后缀名并保存为新的目标PDF文件,其中,所述新的目标PDF文件的路径和名称和所述目标PDF文件的路径和名称一致。
在本发明实施例中,新的目标PDF文件的路径和名称主要用于对目标文件的命名,其中,后缀名可以是.Numbers或者.xls,其具体根据待转换的表格格式的文件来设置。
S120,根据预设规则配置写入接口以获得目标写入接口,其中,所述写入接口与所述目标文件相关联。
在本发明实施例中,目标写入接口用于实现PDF文件与目标文件之间的通信,即将PDF文件中的内容写入至目标文件中,因此,需要根据预设规则配置写入接口。
在某些实施例,例如本实施例中,如图3所示,所述步骤S120可包括步骤S121-S122。
S121,根据预设的表格文件写入接口获得中间写入接口。
在本发明实施例中,预设的表格文件写入接口可以是常用的表格文件写入接口,用于将其他格式文件的内容以表格文件可识别的形式进行保存。例如,可以是通过继承一个预设的表格文件接口以获得中间写入接口,该中间写入接口暂时不具备将其他格式的文件写入至目标文件的功能,需要在后续步骤中补充。
S122,确认待转换的表格文件的格式,并根据所述待转换的表格文件的格式修改所述中间写入接口以获得目标写入接口,其中,所述目标写入接口包括元素内容写入接口和元素属性写入接口。
在本发明实施例中,表格文件的格式可以是xls格式或者是Numbers格式,而二者的写入方法并不相同,因此,需要先确认表格文件的格式。例如,当表格文件的格式为Numbers格式时,可以在中间写入接口中增加写入Numbers格式的函数从而获得目标写入接口,具体过程可以是,先构造Numbers格式文件创建类,并且初始化写入类的指针,然后通过Numbers格式的指针对象构造Numbers格式写入类,从而获得Numbers格式写入接口,该Numbers格式写入接口包括有元素内容写入接口和元素属性写入接口。即可以根据不同的待转换的表格文件获取不同的目标写入接口。
S130,解析所述目标PDF文件以获取元素内容和元素属性。
在本发明实施例中,元素内容通常指目标PDF文件中的文本、图片以及路径,而元素属性通常指目标PDF文件中的文本的样式,例如,字体、字体颜色、字体大小以及下划线等等,图片的样式,例如,图片的大小和图片的位置等等以及路径的样式,例如路径的宽度和颜色等等。
在某些实施例,例如本实施例中,如图4所示,所述步骤S130可包括步骤S131-S132。
S131,解析所述目标PDF文件以获取文本元素、图像元素、路径元素和文本框。
在本发明实施例中,PDF文件中的内容可分为文本元素、图像元素和路径元素,而PDF文件中不具备文本框结构的,因此,一般情况下会通过其它方法先识别PDF文件中的文本框,然后将文本框从PDF文件中解析出来。其中,文本元素可以包括文本内容和文本样式、图像元素包括图片本身和图片的样式。在PDF文件中,路径元素通常由直线、矩形框(re)、3次贝塞尔曲线构成,而路径元素属性通常指路径元素的边框样式、填充样式以及路径样式等等,路径元素内容通常指路径本身,例如3次贝塞尔曲线。文本框一般包括文本框中的文本内容和文本框本身,而文本框本身的元素内容是指文本框,属性内容是指文本框的样式、大小。
S131a,通过预设方法处理所述文本元素和所述文本框以去除所述文本框中与所述文本元素重复的内容。
在本发明实施例中,文本元素中包含有文本内容,文本框中同样包含有文本内容,为了避免文本元素的文本内容和文本框中的文本内容重复出现,需要通过预设方法去除掉文本框中与文本元素中重复的文本内容。
S132,分别解析所述文本元素、所述图像元素、所述路径元素和所述文本框以获取所述元素内容和所述元素属性,其中,所述元素内容包括文本元素内容、图像元素内容、路径元素内容以及文本框内容,所述元素属性包括文本元素属性、图像元素属性、路径元素属性以及文本框属性。
在本发明实施例中,在将PDF文件中的各个元素写入至目标文件时,通常是分别将元素内容和元素属性通过相对应的接口写入进去,因此,需要分别解析文本元素、图像元素、路径元素和文本框以获取他们的元素内容和元素属性。
S140、调用所述目标写入接口并将所述元素内容和所述元素属性通过所述目标写入接口写入所述目标文件。
在本发明实施例中,目标写入接口用于将元素内容和元素属性写入至目标文件中。该目标写入接口与待转换的表格文件相关联,例如,待转换的表格文件的格式为Numbers格式,则该目标写入接口用于将PDF文件汇总的元素内容和元素属性写入至目标文件中以便于Numbers软件可以识别目标文件中的内容。
在某些实施例,例如本实施例中,如图5所示,所述步骤S140可包括步骤S141-S142。
S141、分别调用所述元素内容写入接口和所述元素属性写入接口。
在本发明实施例中,在前面的步骤中已经获取了目标写入接口,而目标写入接口包含有元素内容写入接口和元素属性写入接口,因此,需要分别获取两种写入接口以便于写入元素内容和元素属性。
S142,通过所述元素内容写入接口将所述文本元素内容、所述图像元素内容、所述路径元素内容以及所述文本框内容写入至所述目标文件中,以及通过所述元素属性写入接口将所述文本元素属性、所述图像元素属性、所述路径元素属性以及所述文本框属性希尔至所述目标文件中。
在本发明实施例中,在写入文本元素、图像元素、路径元素和文本框时,通常是先通过元素内容写入接口将文本元素内容写入至目标文件中,再通过元素属性写入接口将文本元素属性写入至目标文件中从而完成对文本元素的写入,然后再以同样的方法分别写入图像元素、路径元素以及文本框,其中文本元素、图像元素、路径元素和文本框的写入顺序可作调整,在此并不做限定。
S150,根据所述目标文件生成表格文件。
在本发明实施例中,在将图像元素、文本元素、路径元素和文本框写入至目标文件后即完成将PDF文件中的内容写入至目标文件。例如,目标文件是XML文件,则将图像元素、文本元素、路径元素和文本框分别写入至XML文件后,可以通过修改XML文件的后缀名来获得表格文件,例如将XML文件的后缀名修改为.Numbers,则获得Numbers格式的文件。
在某些实施例,例如本实施例中,如图6所示,所述步骤S150还可包括步骤S151-S152。
S151,压缩所述目标文件以获取目标压缩文件,并根据所述新的目标PDF文件的路径保存所述目标压缩文件以使所述目标压缩文件的路径与所述新的目标PDF文件的路径一致。
在本发明实施例中,在步骤S111中获取了目标PDF文件的名称和路径,在步骤S112中获得了新的目标PDF文件,且新的目标PDF文件的路径和目标PDF文件的路径一致,因此,可以根据新的目标PDF文件的路径对目标文件进行压缩以使目标压缩文件的路径与新的目标PDF文件的路径一致。例如,目标文件中包含有临时文件夹,在临时文件夹中包含有XML文件,则可以对临时文件夹进行压缩以获得目标压缩文件。
S152,根据所述新的目标PDF文件的名称修改所述目标压缩文件的名称以获得所述表格文件。
在本发明实施例中,若新的目标PDF文件的名称的后缀名为“.Numbers”,则在获得目标压缩文件时,根据新的目标PDF文件的名称修改目标压缩文件的后缀名,使得目标压缩文件的名称中的后缀名带有“.Numbers”,从而获得Numbers格式的文件。
图7是本发明实施例提供的一种将PDF文件转换成表格文件的装置100的示意性框图。如图7所示,对应于以上将PDF文件转换成表格文件的方法,本发明还提供一种将PDF文件转换成表格文件的装置100。该将PDF文件转换成表格文件的装置100包括用于执行上述将PDF文件转换成表格文件的方法的单元。具体地,请参阅图7,该将PDF文件转换成表格文件的装置100包括第一获取单元110、第一配置单元120、第一解析单元130、第一调用单元140以及第一生成单元150。
其中,第一获取单元110用于获取目标PDF文件,并根据所述目标PDF文件生成目标文件;第一配置单元120用于根据预设规则配置写入接口以获得目标写入接口,其中,所述写入接口与所述目标文件相关联;第一解析单元130用于解析所述目标PDF文件以获取元素内容和元素属性;第一调用单元140用于调用所述目标写入接口并将所述元素内容和所述元素属性通过所述目标写入接口写入所述目标文件;第一生成单元150用于根据所述目标文件生成表格文件。
在某些实施例,例如本实施例中,参见图8,第一获取单元110包括第二获取单元111和第一修改单元112。
其中,第二获取单元111用于获取所述目标PDF文件的名称和路径;第一修改单元112用于修改所述目标PDF文件的名称中的后缀名并保存为新的目标PDF文件,其中,所述新的目标PDF文件的路径和名称和所述目标PDF文件的路径和名称一致。
在某些实施例,例如本实施例中,参见图9,所述第一配置单元120包括第二生成单元121和第二修改单元122。
其中,第二生成单元121用于根据预设的表格文件写入接口获得中间写入接口;第二修改单元122用于确认待转换的表格文件的格式,并根据所述待转换的表格文件的格式修改所述中间写入接口以获得目标写入接口,其中,所述目标写入接口包括元素内容写入接口和元素属性写入接口。
在某些实施例,例如本实施例中,参见图10,所述第一解析单元130包括第二解析单元131、处理单元131a、第三解析单元132。
其中,第二解析单元141用于解析所述目标PDF文件以获取文本元素、图像元素、路径元素和文本框;处理单元141a用于通过预设方法处理所述文本元素和所述文本框以去除所述文本框中与所述文本元素重复的内容;第三解析单元142用于分别解析所述文本元素、所述图像元素、所述路径元素和所述文本框以获取所述元素内容和所述元素属性,其中,所述元素内容包括文本元素内容、图像元素内容、路径元素内容以及文本框内容,所述元素属性包括文本元素属性、图像元素属性、路径元素属性以及文本框属性。
在某些实施例,例如本实施例中,参见图11,所述第一调用单元140包括第二调用单元141和第一写入单元142。
其中,第二调用单元141用于分别调用所述元素内容写入接口和所述元素属性写入接口;第一写入单元142用于通过所述元素内容写入接口将所述文本元素内容、所述图像元素内容、所述路径元素内容以及所述文本框内容写入至所述目标文件中,以及通过所述元素属性写入接口将所述文本元素属性、所述图像元素属性、所述路径元素属性以及所述文本框属性希尔至所述目标文件中。
在某些实施例,例如本实施例中,参见图12,所述第一生成单元150包括压缩单元151和第三修改单元152。
其中,压缩单元151用于压缩所述目标文件以获取目标压缩文件,并根据所述新的目标PDF文件的路径保存所述目标压缩文件以使所述目标压缩文件的路径与所述新的目标PDF文件的路径一致;第三修改单元152用于根据所述新的目标PDF文件的名称修改所述目标压缩文件的名称以获得所述表格文件。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述将PDF文件转换成表格文件的装置和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述将PDF文件转换成表格文件的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图13所示的计算机设备上运行。
请参阅图13,图13是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500为带有感应芯片的计算机设备,例如平板电脑和笔记本。
参阅图13,该计算机设备500包括通过***总线501连接的处理器502、存储器和接口1107,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作***5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行一种将PDF文件转换成表格文件的方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种将PDF文件转换成表格文件的方法。
该接口505用于与其它设备进行通信。本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
获取目标PDF文件,并根据所述目标PDF文件生成目标文件;
根据预设规则配置写入接口以获得目标写入接口,其中,所述目标写入接口与所述目标文件相关联;
解析所述目标PDF文件以获取元素内容和元素属性;
调用所述目标写入接口并将所述元素内容和所述元素属性通过所述目标写入接口写入所述目标文件;
根据所述目标文件生成表格文件。
在某些实施例,例如本实施例中,处理器502在实现所述获取目标PDF文件的步骤时,具体实现如下步骤:
获取所述目标PDF文件的名称和路径;
修改所述目标PDF文件的名称中的后缀名并保存为新的目标PDF文件,其中,所述新的目标PDF文件的路径和名称和所述目标PDF文件的路径和名称一致。
在某些实施例,例如本实施例中,处理器502在实现所述根据预设规则配置写入接口以获得目标写入接口的步骤时,具体实现如下步骤:
根据预设的表格文件写入接口获得中间写入接口;
确认待转换的表格文件的格式,并根据所述待转换的表格文件的格式修改所述中间写入接口以获得目标写入接口,其中,所述目标写入接口包括元素内容写入接口和元素属性写入接口。
在某些实施例,例如本实施例中,处理器502在实现所述解析所述目标PDF文件以获取元素内容和元素属性的步骤时,具体实现如下步骤:
解析所述目标PDF文件以获取文本元素、图像元素、路径元素和文本框;
分别解析所述文本元素、所述图像元素、所述路径元素和所述文本框以获取所述元素内容和所述元素属性,其中,所述元素内容包括文本元素内容、图像元素内容、路径元素内容以及文本框内容,所述元素属性包括文本元素属性、图像元素属性、路径元素属性以及文本框属性。
在某些实施例,例如本实施例中,处理器502在实现所述分别解析所述文本元素、所述图像元素、所述路径元素和所述文本框以获取所述元素内容和所述元素属性的步骤之前,还包括:
通过预设方法处理所述文本元素和所述文本框以去除所述文本框中与所述文本元素重复的内容。
在某些实施例,例如本实施例中,处理器502在实现所述调用所述目标写入接口并将所述元素内容和所述元素属性通过所述目标写入接口写入所述目标文件的步骤时,具体实现如下步骤:
分别调用所述元素内容写入接口和所述元素属性写入接口;
通过所述元素内容写入接口将所述文本元素内容、所述图像元素内容、所述路径元素内容以及所述文本框内容写入至所述目标文件中,以及通过所述元素属性写入接口将所述文本元素属性、所述图像元素属性、所述路径元素属性以及所述文本框属性希尔至所述目标文件中。
在某些实施例,例如本实施例中,处理器502在实现所述根据所述目标文件生成表格文件的步骤时,具体实现如下步骤:
压缩所述目标文件以获取目标压缩文件,并根据所述新的目标PDF文件的路径保存所述目标压缩文件以使所述目标压缩文件的路径与所述新的目标PDF文件的路径一致;
根据所述新的目标PDF文件的名称修改所述目标压缩文件的名称以获得所述表格文件。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该计算机程序被该计算机***中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备执行本发明各个实施例所述方法的全部或部分步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,尚且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种将PDF文件转换成表格文件的方法,其特征在于,所述方法包括:
获取目标PDF文件,并根据所述目标PDF文件生成目标文件,其中,通过生成一个临时文件夹,并在所述临时文件夹中创建一个XML文件以生成所述目标文件;
根据预设规则配置写入接口以获得目标写入接口,其中,所述目标写入接口与所述目标文件相关联;
解析所述目标PDF文件以获取元素内容和元素属性;
调用所述目标写入接口并将所述元素内容和所述元素属性通过所述目标写入接口写入所述目标文件;
根据所述目标文件生成表格文件;
其中,所述根据预设规则配置写入接口以获得目标写入接口的步骤,包括:
根据预设的表格文件写入接口获得中间写入接口;
确认待转换的表格文件的格式,并根据所述待转换的表格文件的格式修改所述中间写入接口以获得目标写入接口,其中,所述目标写入接口包括元素内容写入接口和元素属性写入接口;
所述解析所述目标PDF文件以获取元素内容和元素属性的步骤,包括:
解析所述目标PDF文件以获取文本元素、图像元素、路径元素和文本框;
分别解析所述文本元素、所述图像元素、所述路径元素和所述文本框以获取所述元素内容和所述元素属性,其中,所述元素内容包括文本元素内容、图像元素内容、路径元素内容以及文本框内容,所述元素属性包括文本元素属性、图像元素属性、路径元素属性以及文本框属性。
2.如权利要求1所述的将PDF文件转换成表格文件的方法,其特征在于,所述分别解析所述文本元素、所述图像元素、所述路径元素和所述文本框以获取所述元素内容和所述元素属性的步骤之前,还包括:
通过预设方法处理所述文本元素和所述文本框以去除所述文本框中与所述文本元素重复的内容。
3.如权利要求2所述的将PDF文件转换成表格文件的方法,其特征在于,所述调用所述目标写入接口并将所述元素内容和所述元素属性通过所述目标写入接口写入所述目标文件的步骤,包括:
分别调用所述元素内容写入接口和所述元素属性写入接口;
通过所述元素内容写入接口将所述文本元素内容、所述图像元素内容、所述路径元素内容以及所述文本框内容写入至所述目标文件中,以及通过所述元素属性写入接口将所述文本元素属性、所述图像元素属性、所述路径元素属性以及所述文本框属性写入至所述目标文件中。
4.如权利要求1所述的将PDF文件转换成表格文件的方法,其特征在于,所述获取目标PDF文件的步骤,包括:
获取所述目标PDF文件的名称和路径;
修改所述目标PDF文件的名称中的后缀名并保存为新的目标PDF文件,其中,所述新的目标PDF文件的路径和名称和所述目标PDF文件的路径和名称一致。
5.如权利要求4所述的将PDF文件转换成表格文件的方法,其特征在于,所述根据所述目标文件生成表格文件的步骤,包括:
压缩所述目标文件以获取目标压缩文件,并根据所述新的目标PDF文件的路径保存所述目标压缩文件以使所述目标压缩文件的路径与所述新的目标PDF文件的路径一致;
根据所述新的目标PDF文件的名称修改所述目标压缩文件的名称以获得所述表格文件。
6.一种将PDF文件转换成表格文件的装置,其特征在于,所述装置包括:
第一获取单元,用于获取目标PDF文件,并根据所述目标PDF文件生成目标文件,其中,通过生成一个临时文件夹,并在所述临时文件夹中创建一个XML文件以生成所述目标文件;
第一配置单元,用于根据预设规则配置写入接口以获得目标写入接口,其中,所述目标写入接口与所述目标文件相关联;
第一解析单元,用于解析所述目标PDF文件以获取元素内容和元素属性;
第一调用单元,用于调用所述目标写入接口并将所述元素内容和所述元素属性通过所述目标写入接口写入所述目标文件;
第一生成单元,用于根据所述目标文件生成表格文件;
其中,所述第一配置单元包括:
第二生成单元,用于根据预设的表格文件写入接口获得中间写入接口;
第二修改单元,用于确认待转换的表格文件的格式,并根据所述待转换的表格文件的格式修改所述中间写入接口以获得目标写入接口,其中,所述目标写入接口包括元素内容写入接口和元素属性写入接口;
所述第一解析单元包括:
第二解析单元,用于解析所述目标PDF文件以获取文本元素、图像元素、路径元素和文本框;
处理单元,用于通过预设方法处理所述文本元素和所述文本框以去除所述文本框中与所述文本元素重复的内容;
第三解析单元,用于分别解析所述文本元素、所述图像元素、所述路径元素和所述文本框以获取所述元素内容和所述元素属性,其中,所述元素内容包括文本元素内容、图像元素内容、路径元素内容以及文本框内容,所述元素属性包括文本元素属性、图像元素属性、路径元素属性以及文本框属性。
7.一种计算机设备,其特征在于,所述计算机设备包括存储器以及与所述存储器相连的处理器;所述存储器用于存储计算机程序;所述处理器用于运行所述存储器中存储的计算机程序,以执行如权利要求1-5任一项所述方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可于计算机设备上实现如权利要求1-5中任一项所述方法的步骤。
CN202110166013.6A 2021-02-03 2021-02-03 将pdf文件转换成表格文件的方法、装置及计算机设备及存储介质 Active CN112818642B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110166013.6A CN112818642B (zh) 2021-02-03 2021-02-03 将pdf文件转换成表格文件的方法、装置及计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110166013.6A CN112818642B (zh) 2021-02-03 2021-02-03 将pdf文件转换成表格文件的方法、装置及计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112818642A CN112818642A (zh) 2021-05-18
CN112818642B true CN112818642B (zh) 2024-02-13

Family

ID=75861978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110166013.6A Active CN112818642B (zh) 2021-02-03 2021-02-03 将pdf文件转换成表格文件的方法、装置及计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112818642B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101963956A (zh) * 2010-09-19 2011-02-02 深圳市万兴软件有限公司 一种xml文档转换为pptx文档的方法和装置
CN101968783A (zh) * 2010-09-19 2011-02-09 深圳市万兴软件有限公司 一种XML文档转换为Excel文档的方法及装置
CN111046634A (zh) * 2019-12-10 2020-04-21 深圳前海环融联易信息科技服务有限公司 文档处理方法、装置、计算机设备以及存储介质
CN111290996A (zh) * 2020-01-16 2020-06-16 平安医疗健康管理股份有限公司 文档格式转换方法、装置、设备及可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101963956A (zh) * 2010-09-19 2011-02-02 深圳市万兴软件有限公司 一种xml文档转换为pptx文档的方法和装置
CN101968783A (zh) * 2010-09-19 2011-02-09 深圳市万兴软件有限公司 一种XML文档转换为Excel文档的方法及装置
CN111046634A (zh) * 2019-12-10 2020-04-21 深圳前海环融联易信息科技服务有限公司 文档处理方法、装置、计算机设备以及存储介质
CN111290996A (zh) * 2020-01-16 2020-06-16 平安医疗健康管理股份有限公司 文档格式转换方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN112818642A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
US9141596B2 (en) System and method for processing markup language templates from partial input data
JP2005536783A (ja) pdfドキュメントのセクション抽出ツール
US10516803B2 (en) Information processing apparatus, and storage medium
RU2586872C2 (ru) Удаление поврежденных стилей из документов расширяемого языка разметки
CN111818175B (zh) 企业服务总线配置文件生成方法、装置、设备和存储介质
CN110347984B (zh) 保单页面变更方法、装置、计算机设备及存储介质
CN111950247A (zh) 一种基于配置的Word文档生成方法
JP2009048450A (ja) 文書管理プログラム,サムネイル表示方法
US7453594B2 (en) Document filing apparatus for storing information added to a document file
CN114691712A (zh) 一种生成票据的方法、装置以及存储介质
US9218327B2 (en) Optimizing the layout of electronic documents by reducing presentation size of content within document sections so that when combined a plurality of document sections fit within a page
US8325376B2 (en) Image-forming device having index printing function
CN112818642B (zh) 将pdf文件转换成表格文件的方法、装置及计算机设备及存储介质
CN110221790B (zh) 通用打印方法和装置、分析仪器和存储介质
JP2019008566A (ja) 文書変換装置、文書変換プログラム及び文書変換方法
JP2011233104A (ja) 情報処理システム、情報処理装置、情報処理方法、プログラム、記録媒体
CN114239529A (zh) 基于模板引擎的文档生成方法、装置、设备及介质
CN109948123B (zh) 一种图像合并方法及装置
JP3835182B2 (ja) 文書作成支援装置
US7428697B2 (en) Preserving content or attribute information during conversion from a structured document to a computer program
CN111523294A (zh) 基于pdf文件的批注分离的处理方法及装置
JP5600960B2 (ja) ホストコンピュータ、印刷データ生成方法およびプログラム
JP4348880B2 (ja) ファイル管理プログラム、ファイル管理プログラムを記録したコンピュータ読取可能な記録媒体、およびファイル管理方法
CN110705216B (zh) 基于java的docx文件转xml文件的方法、装置及计算机设备
JP2001202362A (ja) 文字編集処理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant