CN109446490B

CN109446490B - Pdf文件的预览方法、生成方法及处理方法

Info

Publication number: CN109446490B
Application number: CN201811068441.XA
Authority: CN
Inventors: 许卫鹏
Original assignee: Hangzhou Suoji Data Technology Co ltd
Current assignee: Hangzhou Suoji Data Technology Co ltd
Priority date: 2018-09-13
Filing date: 2018-09-13
Publication date: 2023-07-21
Anticipated expiration: 2038-09-13
Also published as: CN109446490A

Abstract

本发明提供一种PDF文件的预览方法、生成方法以及处理方法，该预览方法包括：解析原始PDF文件，获得原始PDF文件中的文本和样式、字体以及图片；将获取的文本和样式中文字部分的顺序以绝对定位的方式随机打乱，形成乱序文件；将每一页PDF所形成的乱序文件进行存储，同时关联存储该页PDF中文字所对应的字体文件和图片文件；获取输入的PDF预览信息；根据PDF预览信息查询存储的乱序文件，获得PDF预览信息所在的那一页PDF或多页的PDF；根据绝对定位的方式获得文字的顺序排列，获取与文字对应的字体文件和图片文件并进行重组；并在浏览器端以PDF的样式展示重组后的且满足PDF预览信息的那一页PDF或多页的PDF。

Description

PDF文件的预览方法、生成方法及处理方法

技术领域

本发明涉及一种文件处理技术，且特别涉及一种PDF文件的预览方法、生成方法及处理方法。

背景技术

PDF文件(便携式文档格式)是由Adobe Systems用于与应用程序、操作***、硬件无关的方式进行文件交换所发展出的文件格式。目前互联网上大部分的内容或信息都以PDF文件的形式向用户展示。用户在使用中需要对PDF文件进行预览或编辑。

对于预览而言，目前主要有三种方式，第一种方式是用户通过下载整个PDF文件来实现文档内容阅读。在该种方法中，必须下载完整的PDF，文件可能过大且无法控制用户可以阅读的权限，同时极容易被爬虫爬取，不利于版权保护。第二种方式是服务器将PDF转换成图片提供预览，该种方法中PDF文件转换成图片时，图片过大会浪费传输流量和时间。第三种方式是服务器将PDF转换成纯文本提供预览，转换成纯文本时，无法还原PDF文件的原貌，可能造成用户阅读困难。

对于编辑而言，第一种是使用官方的PDF阅读器对PDF进行编辑操作，官方的PDF阅读器编辑PDF流程繁琐、可操作性差且其安装所占用的计算机内存也非常的大，使用非常的不方便。第二种方法是将PDF转换成word格式进行编辑，再重新生成PDF，这种方式生成PDF的代码过于繁琐，不够灵活，且难以形成完整的解决方案。

发明内容

本发明为了克服现有技术的不足，提供一种PDF文件的预览方法、生成方法及处理方法。

为了实现上述目的，本发明提供一种PDF文件的预览方法，该方法包括：

解析原始PDF文件，获得原始PDF文件中的文本和样式、字体以及图片；

将获取的文本和样式中文字部分的顺序以绝对定位的方式随机打乱，形成乱序文件；

将每一页PDF所形成的乱序文件进行存储，同时关联存储该页PDF中文字所对应的字体文件和图片文件；

获取输入的PDF预览信息；

根据PDF预览信息查询存储的乱序文件，获得PDF预览信息所在的那一页PDF或多页的PDF；

根据绝对定位的方式获得文字的顺序排列，同时获取与文字对应的字体文件和图片文件并进行重组；并在浏览器端以PDF的样式展示重组后的且满足PDF预览信息的那一页PDF或多页的PDF。

根据本发明的一实施例，在获得原始PDF文件中的文本和样式后将文本和样式转换为可缩放矢量图形，再将可缩放矢量图形中的文字打乱形成乱序文件。

根据本发明的一实施例，在将每一页PDF所形成的乱序文件进行存储时，将该页中与文字对应的图片文件和字体文件分别存储至乱序文件存储文件夹下的图片目录和字体目录。

根据本发明的一实施例，所述PDF预览信息包括原始PDF文件的页数或原始PDF文件中所包含的词语。

另一方面，本发明还提供一种PDF文件的生成方法，该方法包括：

获取输入的PDF生成信息；

根据PDF生成信息查询存储的乱序文件，获得生成信息所在的那一页PDF或多页的PDF；

根据绝对定位的方式获得文字的顺序排列并将重组后的文字和样式转换为满足可缩放矢量图形的文件；

将可缩放矢量图形的文件和该可缩放矢量图形的文件内的文字所对应的字体文件和图片文件一同重组生成PDF文件。

根据本发明的一实施例，PDF生成信息包括定位信息和编辑信息，所述定位信息为原始PDF文件的页数或原始PDF文件中所包含的词语，所述编辑信息为基于定位信息对PDF文件进行修改的信息。

根据本发明的一实施例，当输入的PDF生成信息包含编辑信息时，首先根据定位信息查询存储的乱序文件，获得定位信息所在的那一页PDF或多页的PDF；然后根据编辑信息对定位信息所在的文本进行修改。

根据本发明的一实施例，所述编辑信息包括对文字的删除、增加或修改。

另一方面，本发明还提供一种PDF文件的处理方法，该处理方法包括：上述任一项PDF文件的预览方法以及上述任一项PDF文件的生成方法。

综上所述，本发明提供的PDF文件的预览方法、生成方法及处理方法通过将原始的PDF文件进行解析，将PDF文件中的文本和样式进行随机打乱存储，同时关联存储相应的字体文件和图片文件，随机打乱存储可有效防止PDF文件内的内容被爬虫爬取，提高文档的版权保护。当获取到PDF预览信息或PDF生成信息时，根据PDF预览信息或PDF生成信息查询乱序文件，获得需要预览或生成的PDF的页数，实现部分PDF文件的提取，将提取的部分PDF文件进行预览或重新生成PDF。在预览时，用户无需下载PDF文件，在浏览器端即可实现PDF文件的查看；同样的，在生成PDF文件时，用户也可直接在浏览器端对PDF文件进行编辑。该设置大大提高了用户对PDF文件的浏览和编辑PDF文件时的速度。

此外，本发提供的PDF文件的预览方法、生成方法及处理方法用户无需下载PDF文件即可实现PDF文件的浏览以及编辑，同时在浏览PDF和生成PDF时可通过提取部分页面来控制用户的浏览权限，即可控浏览，该设置在反爬虫的基础上进一步增加文件的安全性。

为让本发明的上述和其它目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合附图，作详细说明如下。

附图说明

图1所示为本发明实施例一提供的PDF文件的预览方法的流程图。

图2所示为本发明实施例二提供的PDF文件的生成方法的流程图。

图3所示为本发明实施例三提供的PDF文件的处理方法的流程图。

具体实施方式

实施例一

如图1所示，本实施例提供的PDF文件的预览方法包括：解析原始PDF文件，获得原始PDF文件中的文本和样式、字体以及图片(步骤S10)。将获取的文本和样式中文字部分的顺序以绝对定位的方式随机打乱，形成乱序文件(步骤S20)。将每一页PDF所形成的乱序文件进行存储，同时关联存储该页PDF中文字所对应的字体文件和图片文件(步骤S30)。获取输入的PDF预览信息(步骤S40)。根据PDF预览信息查询存储的乱序文件，获得PDF预览信息所在的那一页PDF或多页的PDF(步骤S50)。根据绝对定位的方式获得文字的顺序排列，同时获取与文字对应的字体文件和图片文件并进行重组(步骤S60)。在浏览器端以PDF的样式展示重组后的且满足PDF预览信息的那一页PDF或多页的PDF(步骤S70)。

本实施例提供的PDF文件的预览方法将原始的PDF文件进行解析存储，根据用户输入的PDF预览信息来实现部分PDF文件的预览。该种预览方式不仅大大提高了现有浏览器端PDF文件的浏览速度；同时展示的部分文档是基于用户输入的PDF预览信息，用户可快速在原始PDF文件中定位并获得其所需要的文件信息，其它无关的信息不会对用户造成干扰。进一步的，目前互联网上很多的PDF文件需要付费后才能浏览，在实际使用中，用户需要支付整个PDF文件的费用后才能实现浏览；而本实施例提供的PDF文件的预览方法可实现部分PDF文件的付费浏览，使用更加的灵活、方便，也更有利于版权的保护。以下将结合图1详细介绍本实施例提供的PDF文件的预览方法。

本实施例提供PDF文件的预览方法始于步骤S10，将原始的PDF文件进行解析，获得原始PDF文件的文本和样式、字体以及图片。于本实施了中，采用基于Node.js的PDF解析器来对原始的PDF文件进行解析。于本实施例中，在获得原始PDF文件的文本和样式后将文本和样式转换为可缩放矢量图形(简称SVG)，可缩放矢量图形是一种基于XML的语言，可缩放矢量图形中文字具有可编辑和可搜寻的状态。之后执行步骤S20，将可缩放矢量图形中文字部分的顺序以绝对定位的方式随机打乱，形成乱序文件。于本实施例中，形成的乱序文件为JSON乱序文件。然而，本发明对此不作任何限定。

之后执行步骤S30，将每一页PDF所形成的JSON乱序文件存储到服务器中，同时将该页PDF中与文字相关的图片文件和字体文件分别存储至乱序文件存储文件夹下的图片目录和字体目录。

获取用户输入的PDF预览信息(步骤S40)。于本实施例中，用户输入的PDF预览信息原始PDF文件的页数，如用户输入第3页。然而，本发明对此不作任何限定。于其它实施例中，用户输入的页数可包含连续的多页或不连续的多页。或者，于其它实施例中，输入的PDF预览信息也可为原始PDF文件中所包含的词语。之后执行步骤S50，根据“第3页”查询存储的JSON乱序文件，获取原始PDF文件中第3页内在服务器中的存储位置，在获得第3页的JSON乱序文件后根据绝对定位将JSON乱序文件按照顺序进行排列，同时根据关联存储的关系，在图片目录和字体目录中获取与文字相关联的字体文件和图片文件并进行重组，并在浏览器端以PDF的样式展示重组后的第3页的PDF。于其它实施例中，若根据PDF预览信息定位获得的PDF为多页时，在浏览器端按照PDF页数的顺序依次展示。

于本实施例中，采用JSON解析器来将JSON乱序文件中的文本和样式以及相应的字体文件和图片文件进行重组并在浏览器端采用网页的形式展示PDF样式的浏览文件。。JSON解析器是基于JS语言的网页插件，该插件可将SON乱序文件中的文本和样式以及相应的字体文件和图片文件重组成PDF的样式并在浏览器端展示，用户无需下载PDF文件即可实现PDF文件的浏览。然而，本发明对此不作任何限定。于其它实施例中，也可参照SVG在浏览器端的展示方式采用其它解析器来实现重组

实施例二

如图2所示，本实施例提供一种PDF文件的生成方法，该方法包括：解析原始PDF文件，获得原始PDF文件中的文本和样式、字体以及图片(步骤S10)。将获取的文本和样式中文字部分的顺序以绝对定位的方式随机打乱，形成乱序文件(步骤S20)。将每一页PDF所形成的乱序文件进行存储，同时关联存储该页PDF中文字所对应的字体文件和图片文件(步骤S30)。获取输入的PDF生成信息(步骤S80)。根据PDF生成信息查询存储的乱序文件，获得生成信息所在的那一页PDF或多页的PDF(步骤S90)。根据绝对定位的方式获得文字的顺序排列并将重组后的文字和样式转换为满足可缩放矢量图形的文件(步骤S100)。将可缩放矢量图形的文件和该可缩放矢量图形的文件内的文字所对应的字体文件和图片文件一同重组生成PDF文件(步骤S110)。

本实施例中步骤S10至步骤S30与实施例一种的步骤S10至步骤S30一致，具体步骤如下：在步骤S10中将原始的PDF文件进行解析，获得原始PDF文件的文本和样式、字体以及图片。于本实施了中，采用基于Node.js的PDF解析器来对原始的PDF文件进行解析。于本实施例中，在获得原始PDF文件的文本和样式后将文本和样式转换为可缩放矢量图形(简称SVG)，可缩放矢量图形是一种基于XML的语言，可缩放矢量图形中文字具有可编辑和可搜寻的状态。之后执行步骤S20，将可缩放矢量图形中文字部分的顺序以绝对定位的方式随机打乱，形成乱序文件。于本实施例中，形成的乱序文件为JSON乱序文件。然而，本发明对此不作任何限定。

之后执行步骤S80，获取输入的PDF生成信息。于本实施例中，PDF生成信息包括定位信息和编辑信息，定位信息为原始PDF文件的页数或原始PDF文件中所包含的词语，编辑信息为基于定位信息对PDF文件进行修改的信息。然而，本发明对此不作任何限定。于其它实施例中，若仅仅只需对原始PDF文件中的部分页数进行提取并重新生成PDF文件，则PDF生成信息可仅包括定位信息。于本实施例中，定位信息为原始PDF文件中所包含的词语，如“XX”词语。在步骤S90中，根据“XX”词语查询在步骤30中存储的JSON乱序文件，获得包含“XX”词语的PDF的页数，如第3页到底6页，以及第9页。然而，本发明对此不作任何限定。于其它实施例中，定位信息可为原始PDF文件中的页数，直接根据页数进行定位。

于本实施例中，编辑信息为对文字的修改。然而，本发明对此不作任何限定。于其它实施例中，编辑信息可为对文字的增加或删除。根据编辑信息对定位信息所在的文本进行修改具体如下：当编辑信息为“将第3页中YY修改为YYY”时，在第3页的乱序文件中查询到“YY”并将其修改为“YYY”，修改后的文件仍然为乱序文件。之后执行步骤S100，根据绝对定位将编辑后的第3页，第4页到第6页，以及第9页中的文字按照顺序依次排列并将重组后的文字和样式转换为满足可缩放矢量图形(SVG)的文件，并将可缩放矢量图形的文件和该可缩放矢量图形的文件内的文字所对应的字体文件和图片文件一同重组生成PDF文件(步骤S110)。于本实施例中，步骤S100和步骤S110通过PDF生成器来实现。于本实施例中，PDF生成器基于NodeJS开源工具包“pdfkit”插件。然而，本发明对此不作任何限定。

本实施例提供的PDF文件的生成方法根据PDF生成信息可实现原始PDF文件中的部分页数的提取并重新生成，实现可控浏览。进一步的，本实施例提供的PDF文件的生成方法中还提供了PDF文件的在线编辑，用户无需下载PDF文件即可实现PDF文件在浏览器端的编辑，该设置大大降低了用户的使用成本且其操作非常简单，操作响应的速度也很快。

实施例三

如图3所示，本实施例提供了一种PDF文件的处理方法，该方法包括实施例一提供的PDF文件的PDF文件的预览方法和实施例二提供的PDF文件的生成方法。具体而言，本实施例提供的PDF文件的处理方法包括：

解析原始PDF文件，获得原始PDF文件中的文本和样式、字体以及图片(步骤S10)。将获取的文本和样式中文字部分的顺序以绝对定位的方式随机打乱，形成乱序文件(步骤S20)。将每一页PDF所形成的乱序文件进行存储，同时关联存储该页PDF中文字所对应的字体文件和图片文件(步骤S30)。

获取输入的PDF预览信息(步骤S40)。根据PDF预览信息查询存储的乱序文件，获得PDF预览信息所在的那一页PDF或多页的PDF(步骤S50)。根据绝对定位的方式获得文字的顺序排列，同时获取与文字对应的字体文件和图片文件并进行重组(步骤S60)。在浏览器端以PDF的样式展示重组后的且满足PDF预览信息的那一页PDF或多页的PDF(步骤S70)。

获取输入的PDF生成信息(步骤S80)。根据生成信息查询存储的乱序文件，获得生成信息所在的那一页PDF或多页的PDF(步骤S90)。根据绝对定位的方式获得文字的顺序排列并将重组后的文字和样式转换为满足可缩放矢量图形的文件(步骤S100)。将可缩放矢量图形的文件和该可缩放矢量图形的文件内的文字所对应的字体文件和图片文件一同重组生成PDF文件(步骤S110)。

步骤S10至步骤S110的具体实现步骤请参照实施例一和实施例二所述，在此不再赘述。

本实施例提供的PDF文件的处理方法将集PDF文件的预览方法和生成方法于一体并将两者打包成Worker节点，在使用时，根据用户的输入需求来实现弹性部署。与现有的需要消耗大量计算资源的PDF转换器或编辑器而言，本实施例提供的PDF文件的处理方法中在线预览和在线编辑大大降低了用户的使用成本。进一步的，于本实施例中，正向解析PDF的过程和逆向生成PDF的过程格式统一，达到生成的PDF文件用于下载，在预览时则采用JSON文件在浏览器端进行重组并以PDF的样式进行展示，大大节省存储空间。

综上所述，本发明提供的PDF文件的预览方法、生成方法及处理方法通过将原始的PDF文件进行解析，将PDF文件中的文本和样式进行随机打乱存储，同时关联相应的字体文件和图片文件，随机打乱存储可有效防止PDF文件内的内容被爬虫爬取，提高文档的版权保护。当获取到PDF预览信息或PDF生成信息时，根据PDF预览信息或PDF生成信息查询乱序文件，获得需要预览或生成的PDF的页数，实现部分PDF文件的提取，将提取的部分PDF文件进行预览或重新生成PDF。在预览时，用户无需下载PDF文件，在浏览器端即可实现PDF文件的查看；同样的，在生成PDF文件时，用户也可直接在浏览器端对PDF文件进行编辑。该设置大大提高了用户对PDF文件的浏览和编辑PDF文件时的速度。

虽然本发明已由较佳实施例揭露如上，然而并非用以限定本发明，任何熟知此技艺者，在不脱离本发明的精神和范围内，可作些许的更动与润饰，因此本发明的保护范围当视权利要求书所要求保护的范围为准。

Claims

1.一种PDF文件的预览方法，其特征在于，包括：

获取输入的PDF预览信息，所述PDF预览信息包括原始PDF文件的页数或原始PDF文件中所包含的词语；

根据绝对定位的方式获得文字的顺序排列，同时获取与文字对应的字体文件和图片文件并进行重组，并在浏览器端以PDF的样式展示重组后的且满足PDF预览信息的那一页PDF或多页的PDF。

2.根据权利要求1所述的PDF文件的预览方法，其特征在于，在获得原始PDF文件中的文本和样式后将文本和样式转换为可缩放矢量图形，再将可缩放矢量图形中的文字打乱形成乱序文件。

3.根据权利要求1所述的PDF文件的预览方法，其特征在于，在将每一页PDF所形成的乱序文件进行存储时，将该页中与文字对应的图片文件和字体文件分别存储至乱序文件存储文件夹下的图片目录和字体目录。

4.一种PDF文件的生成方法，其特征在于，包括：

获取输入的PDF生成信息，PDF生成信息包括定位信息和编辑信息，所述定位信息为原始PDF文件的页数或原始PDF文件中所包含的词语，所述编辑信息为基于定位信息对PDF文件进行修改的信息；

5.根据权利要求4所述的PDF文件的生成方法，其特征在于，当输入的PDF生成信息包含编辑信息时，首先根据定位信息查询存储的乱序文件，获得定位信息所在的那一页PDF或多页的PDF；然后根据编辑信息对定位信息所在的文本进行修改。

6.根据权利要求4所述的PDF文件的生成方法，其特征在于，所述编辑信息包括对文字的删除、增加或修改。

7.根据权利要求4所述的PDF文件的生成方法，其特征在于，在获得原始PDF文件中的文本和样式后将文本和样式转换为可缩放矢量图形，再将可缩放矢量图形中的文字打乱形成乱序文件。

8.一种PDF文件的处理方法，其特征在于，包括：

权利要求1～3任一项所述的PDF文件的预览方法；以及

权利要求4～7任一项所述的PDF文件的生成方法。