CN109446490B - Pdf文件的预览方法、生成方法及处理方法 - Google Patents

Pdf文件的预览方法、生成方法及处理方法 Download PDF

Info

Publication number
CN109446490B
CN109446490B CN201811068441.XA CN201811068441A CN109446490B CN 109446490 B CN109446490 B CN 109446490B CN 201811068441 A CN201811068441 A CN 201811068441A CN 109446490 B CN109446490 B CN 109446490B
Authority
CN
China
Prior art keywords
pdf
file
information
page
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811068441.XA
Other languages
English (en)
Other versions
CN109446490A (zh
Inventor
许卫鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Suoji Data Technology Co ltd
Original Assignee
Hangzhou Suoji Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Suoji Data Technology Co ltd filed Critical Hangzhou Suoji Data Technology Co ltd
Priority to CN201811068441.XA priority Critical patent/CN109446490B/zh
Publication of CN109446490A publication Critical patent/CN109446490A/zh
Application granted granted Critical
Publication of CN109446490B publication Critical patent/CN109446490B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种PDF文件的预览方法、生成方法以及处理方法,该预览方法包括:解析原始PDF文件,获得原始PDF文件中的文本和样式、字体以及图片;将获取的文本和样式中文字部分的顺序以绝对定位的方式随机打乱,形成乱序文件;将每一页PDF所形成的乱序文件进行存储,同时关联存储该页PDF中文字所对应的字体文件和图片文件;获取输入的PDF预览信息;根据PDF预览信息查询存储的乱序文件,获得PDF预览信息所在的那一页PDF或多页的PDF;根据绝对定位的方式获得文字的顺序排列,获取与文字对应的字体文件和图片文件并进行重组;并在浏览器端以PDF的样式展示重组后的且满足PDF预览信息的那一页PDF或多页的PDF。

Description

PDF文件的预览方法、生成方法及处理方法
技术领域
本发明涉及一种文件处理技术,且特别涉及一种PDF文件的预览方法、生成方法及处理方法。
背景技术
PDF文件(便携式文档格式)是由Adobe Systems用于与应用程序、操作***、硬件无关的方式进行文件交换所发展出的文件格式。目前互联网上大部分的内容或信息都以PDF文件的形式向用户展示。用户在使用中需要对PDF文件进行预览或编辑。
对于预览而言,目前主要有三种方式,第一种方式是用户通过下载整个PDF文件来实现文档内容阅读。在该种方法中,必须下载完整的PDF,文件可能过大且无法控制用户可以阅读的权限,同时极容易被爬虫爬取,不利于版权保护。第二种方式是服务器将PDF转换成图片提供预览,该种方法中PDF文件转换成图片时,图片过大会浪费传输流量和时间。第三种方式是服务器将PDF转换成纯文本提供预览,转换成纯文本时,无法还原PDF文件的原貌,可能造成用户阅读困难。
对于编辑而言,第一种是使用官方的PDF阅读器对PDF进行编辑操作,官方的PDF阅读器编辑PDF流程繁琐、可操作性差且其安装所占用的计算机内存也非常的大,使用非常的不方便。第二种方法是将PDF转换成word格式进行编辑,再重新生成PDF,这种方式生成PDF的代码过于繁琐,不够灵活,且难以形成完整的解决方案。
发明内容
本发明为了克服现有技术的不足,提供一种PDF文件的预览方法、生成方法及处理方法。
为了实现上述目的,本发明提供一种PDF文件的预览方法,该方法包括:
解析原始PDF文件,获得原始PDF文件中的文本和样式、字体以及图片;
将获取的文本和样式中文字部分的顺序以绝对定位的方式随机打乱,形成乱序文件;
将每一页PDF所形成的乱序文件进行存储,同时关联存储该页PDF中文字所对应的字体文件和图片文件;
获取输入的PDF预览信息;
根据PDF预览信息查询存储的乱序文件,获得PDF预览信息所在的那一页PDF或多页的PDF;
根据绝对定位的方式获得文字的顺序排列,同时获取与文字对应的字体文件和图片文件并进行重组;并在浏览器端以PDF的样式展示重组后的且满足PDF预览信息的那一页PDF或多页的PDF。
根据本发明的一实施例,在获得原始PDF文件中的文本和样式后将文本和样式转换为可缩放矢量图形,再将可缩放矢量图形中的文字打乱形成乱序文件。
根据本发明的一实施例,在将每一页PDF所形成的乱序文件进行存储时,将该页中与文字对应的图片文件和字体文件分别存储至乱序文件存储文件夹下的图片目录和字体目录。
根据本发明的一实施例,所述PDF预览信息包括原始PDF文件的页数或原始PDF文件中所包含的词语。
另一方面,本发明还提供一种PDF文件的生成方法,该方法包括:
解析原始PDF文件,获得原始PDF文件中的文本和样式、字体以及图片;
将获取的文本和样式中文字部分的顺序以绝对定位的方式随机打乱,形成乱序文件;
将每一页PDF所形成的乱序文件进行存储,同时关联存储该页PDF中文字所对应的字体文件和图片文件;
获取输入的PDF生成信息;
根据PDF生成信息查询存储的乱序文件,获得生成信息所在的那一页PDF或多页的PDF;
根据绝对定位的方式获得文字的顺序排列并将重组后的文字和样式转换为满足可缩放矢量图形的文件;
将可缩放矢量图形的文件和该可缩放矢量图形的文件内的文字所对应的字体文件和图片文件一同重组生成PDF文件。
根据本发明的一实施例,PDF生成信息包括定位信息和编辑信息,所述定位信息为原始PDF文件的页数或原始PDF文件中所包含的词语,所述编辑信息为基于定位信息对PDF文件进行修改的信息。
根据本发明的一实施例,当输入的PDF生成信息包含编辑信息时,首先根据定位信息查询存储的乱序文件,获得定位信息所在的那一页PDF或多页的PDF;然后根据编辑信息对定位信息所在的文本进行修改。
根据本发明的一实施例,所述编辑信息包括对文字的删除、增加或修改。
根据本发明的一实施例,在获得原始PDF文件中的文本和样式后将文本和样式转换为可缩放矢量图形,再将可缩放矢量图形中的文字打乱形成乱序文件。
另一方面,本发明还提供一种PDF文件的处理方法,该处理方法包括:上述任一项PDF文件的预览方法以及上述任一项PDF文件的生成方法。
综上所述,本发明提供的PDF文件的预览方法、生成方法及处理方法通过将原始的PDF文件进行解析,将PDF文件中的文本和样式进行随机打乱存储,同时关联存储相应的字体文件和图片文件,随机打乱存储可有效防止PDF文件内的内容被爬虫爬取,提高文档的版权保护。当获取到PDF预览信息或PDF生成信息时,根据PDF预览信息或PDF生成信息查询乱序文件,获得需要预览或生成的PDF的页数,实现部分PDF文件的提取,将提取的部分PDF文件进行预览或重新生成PDF。在预览时,用户无需下载PDF文件,在浏览器端即可实现PDF文件的查看;同样的,在生成PDF文件时,用户也可直接在浏览器端对PDF文件进行编辑。该设置大大提高了用户对PDF文件的浏览和编辑PDF文件时的速度。
此外,本发提供的PDF文件的预览方法、生成方法及处理方法用户无需下载PDF文件即可实现PDF文件的浏览以及编辑,同时在浏览PDF和生成PDF时可通过提取部分页面来控制用户的浏览权限,即可控浏览,该设置在反爬虫的基础上进一步增加文件的安全性。
为让本发明的上述和其它目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合附图,作详细说明如下。
附图说明
图1所示为本发明实施例一提供的PDF文件的预览方法的流程图。
图2所示为本发明实施例二提供的PDF文件的生成方法的流程图。
图3所示为本发明实施例三提供的PDF文件的处理方法的流程图。
具体实施方式
实施例一
如图1所示,本实施例提供的PDF文件的预览方法包括:解析原始PDF文件,获得原始PDF文件中的文本和样式、字体以及图片(步骤S10)。将获取的文本和样式中文字部分的顺序以绝对定位的方式随机打乱,形成乱序文件(步骤S20)。将每一页PDF所形成的乱序文件进行存储,同时关联存储该页PDF中文字所对应的字体文件和图片文件(步骤S30)。获取输入的PDF预览信息(步骤S40)。根据PDF预览信息查询存储的乱序文件,获得PDF预览信息所在的那一页PDF或多页的PDF(步骤S50)。根据绝对定位的方式获得文字的顺序排列,同时获取与文字对应的字体文件和图片文件并进行重组(步骤S60)。在浏览器端以PDF的样式展示重组后的且满足PDF预览信息的那一页PDF或多页的PDF(步骤S70)。
本实施例提供的PDF文件的预览方法将原始的PDF文件进行解析存储,根据用户输入的PDF预览信息来实现部分PDF文件的预览。该种预览方式不仅大大提高了现有浏览器端PDF文件的浏览速度;同时展示的部分文档是基于用户输入的PDF预览信息,用户可快速在原始PDF文件中定位并获得其所需要的文件信息,其它无关的信息不会对用户造成干扰。进一步的,目前互联网上很多的PDF文件需要付费后才能浏览,在实际使用中,用户需要支付整个PDF文件的费用后才能实现浏览;而本实施例提供的PDF文件的预览方法可实现部分PDF文件的付费浏览,使用更加的灵活、方便,也更有利于版权的保护。以下将结合图1详细介绍本实施例提供的PDF文件的预览方法。
本实施例提供PDF文件的预览方法始于步骤S10,将原始的PDF文件进行解析,获得原始PDF文件的文本和样式、字体以及图片。于本实施了中,采用基于Node.js的PDF解析器来对原始的PDF文件进行解析。于本实施例中,在获得原始PDF文件的文本和样式后将文本和样式转换为可缩放矢量图形(简称SVG),可缩放矢量图形是一种基于XML的语言,可缩放矢量图形中文字具有可编辑和可搜寻的状态。之后执行步骤S20,将可缩放矢量图形中文字部分的顺序以绝对定位的方式随机打乱,形成乱序文件。于本实施例中,形成的乱序文件为JSON乱序文件。然而,本发明对此不作任何限定。
之后执行步骤S30,将每一页PDF所形成的JSON乱序文件存储到服务器中,同时将该页PDF中与文字相关的图片文件和字体文件分别存储至乱序文件存储文件夹下的图片目录和字体目录。
获取用户输入的PDF预览信息(步骤S40)。于本实施例中,用户输入的PDF预览信息原始PDF文件的页数,如用户输入第3页。然而,本发明对此不作任何限定。于其它实施例中,用户输入的页数可包含连续的多页或不连续的多页。或者,于其它实施例中,输入的PDF预览信息也可为原始PDF文件中所包含的词语。之后执行步骤S50,根据“第3页”查询存储的JSON乱序文件,获取原始PDF文件中第3页内在服务器中的存储位置,在获得第3页的JSON乱序文件后根据绝对定位将JSON乱序文件按照顺序进行排列,同时根据关联存储的关系,在图片目录和字体目录中获取与文字相关联的字体文件和图片文件并进行重组,并在浏览器端以PDF的样式展示重组后的第3页的PDF。于其它实施例中,若根据PDF预览信息定位获得的PDF为多页时,在浏览器端按照PDF页数的顺序依次展示。
于本实施例中,采用JSON解析器来将JSON乱序文件中的文本和样式以及相应的字体文件和图片文件进行重组并在浏览器端采用网页的形式展示PDF样式的浏览文件。。JSON解析器是基于JS语言的网页插件,该插件可将SON乱序文件中的文本和样式以及相应的字体文件和图片文件重组成PDF的样式并在浏览器端展示,用户无需下载PDF文件即可实现PDF文件的浏览。然而,本发明对此不作任何限定。于其它实施例中,也可参照SVG在浏览器端的展示方式采用其它解析器来实现重组
实施例二
如图2所示,本实施例提供一种PDF文件的生成方法,该方法包括:解析原始PDF文件,获得原始PDF文件中的文本和样式、字体以及图片(步骤S10)。将获取的文本和样式中文字部分的顺序以绝对定位的方式随机打乱,形成乱序文件(步骤S20)。将每一页PDF所形成的乱序文件进行存储,同时关联存储该页PDF中文字所对应的字体文件和图片文件(步骤S30)。获取输入的PDF生成信息(步骤S80)。根据PDF生成信息查询存储的乱序文件,获得生成信息所在的那一页PDF或多页的PDF(步骤S90)。根据绝对定位的方式获得文字的顺序排列并将重组后的文字和样式转换为满足可缩放矢量图形的文件(步骤S100)。将可缩放矢量图形的文件和该可缩放矢量图形的文件内的文字所对应的字体文件和图片文件一同重组生成PDF文件(步骤S110)。
本实施例中步骤S10至步骤S30与实施例一种的步骤S10至步骤S30一致,具体步骤如下:在步骤S10中将原始的PDF文件进行解析,获得原始PDF文件的文本和样式、字体以及图片。于本实施了中,采用基于Node.js的PDF解析器来对原始的PDF文件进行解析。于本实施例中,在获得原始PDF文件的文本和样式后将文本和样式转换为可缩放矢量图形(简称SVG),可缩放矢量图形是一种基于XML的语言,可缩放矢量图形中文字具有可编辑和可搜寻的状态。之后执行步骤S20,将可缩放矢量图形中文字部分的顺序以绝对定位的方式随机打乱,形成乱序文件。于本实施例中,形成的乱序文件为JSON乱序文件。然而,本发明对此不作任何限定。
之后执行步骤S30,将每一页PDF所形成的JSON乱序文件存储到服务器中,同时将该页PDF中与文字相关的图片文件和字体文件分别存储至乱序文件存储文件夹下的图片目录和字体目录。
之后执行步骤S80,获取输入的PDF生成信息。于本实施例中,PDF生成信息包括定位信息和编辑信息,定位信息为原始PDF文件的页数或原始PDF文件中所包含的词语,编辑信息为基于定位信息对PDF文件进行修改的信息。然而,本发明对此不作任何限定。于其它实施例中,若仅仅只需对原始PDF文件中的部分页数进行提取并重新生成PDF文件,则PDF生成信息可仅包括定位信息。于本实施例中,定位信息为原始PDF文件中所包含的词语,如“XX”词语。在步骤S90中,根据“XX”词语查询在步骤30中存储的JSON乱序文件,获得包含“XX”词语的PDF的页数,如第3页到底6页,以及第9页。然而,本发明对此不作任何限定。于其它实施例中,定位信息可为原始PDF文件中的页数,直接根据页数进行定位。
于本实施例中,编辑信息为对文字的修改。然而,本发明对此不作任何限定。于其它实施例中,编辑信息可为对文字的增加或删除。根据编辑信息对定位信息所在的文本进行修改具体如下:当编辑信息为“将第3页中YY修改为YYY”时,在第3页的乱序文件中查询到“YY”并将其修改为“YYY”,修改后的文件仍然为乱序文件。之后执行步骤S100,根据绝对定位将编辑后的第3页,第4页到第6页,以及第9页中的文字按照顺序依次排列并将重组后的文字和样式转换为满足可缩放矢量图形(SVG)的文件,并将可缩放矢量图形的文件和该可缩放矢量图形的文件内的文字所对应的字体文件和图片文件一同重组生成PDF文件(步骤S110)。于本实施例中,步骤S100和步骤S110通过PDF生成器来实现。于本实施例中,PDF生成器基于NodeJS开源工具包“pdfkit”插件。然而,本发明对此不作任何限定。
本实施例提供的PDF文件的生成方法根据PDF生成信息可实现原始PDF文件中的部分页数的提取并重新生成,实现可控浏览。进一步的,本实施例提供的PDF文件的生成方法中还提供了PDF文件的在线编辑,用户无需下载PDF文件即可实现PDF文件在浏览器端的编辑,该设置大大降低了用户的使用成本且其操作非常简单,操作响应的速度也很快。
实施例三
如图3所示,本实施例提供了一种PDF文件的处理方法,该方法包括实施例一提供的PDF文件的PDF文件的预览方法和实施例二提供的PDF文件的生成方法。具体而言,本实施例提供的PDF文件的处理方法包括:
解析原始PDF文件,获得原始PDF文件中的文本和样式、字体以及图片(步骤S10)。将获取的文本和样式中文字部分的顺序以绝对定位的方式随机打乱,形成乱序文件(步骤S20)。将每一页PDF所形成的乱序文件进行存储,同时关联存储该页PDF中文字所对应的字体文件和图片文件(步骤S30)。
获取输入的PDF预览信息(步骤S40)。根据PDF预览信息查询存储的乱序文件,获得PDF预览信息所在的那一页PDF或多页的PDF(步骤S50)。根据绝对定位的方式获得文字的顺序排列,同时获取与文字对应的字体文件和图片文件并进行重组(步骤S60)。在浏览器端以PDF的样式展示重组后的且满足PDF预览信息的那一页PDF或多页的PDF(步骤S70)。
获取输入的PDF生成信息(步骤S80)。根据生成信息查询存储的乱序文件,获得生成信息所在的那一页PDF或多页的PDF(步骤S90)。根据绝对定位的方式获得文字的顺序排列并将重组后的文字和样式转换为满足可缩放矢量图形的文件(步骤S100)。将可缩放矢量图形的文件和该可缩放矢量图形的文件内的文字所对应的字体文件和图片文件一同重组生成PDF文件(步骤S110)。
步骤S10至步骤S110的具体实现步骤请参照实施例一和实施例二所述,在此不再赘述。
本实施例提供的PDF文件的处理方法将集PDF文件的预览方法和生成方法于一体并将两者打包成Worker节点,在使用时,根据用户的输入需求来实现弹性部署。与现有的需要消耗大量计算资源的PDF转换器或编辑器而言,本实施例提供的PDF文件的处理方法中在线预览和在线编辑大大降低了用户的使用成本。进一步的,于本实施例中,正向解析PDF的过程和逆向生成PDF的过程格式统一,达到生成的PDF文件用于下载,在预览时则采用JSON文件在浏览器端进行重组并以PDF的样式进行展示,大大节省存储空间。
综上所述,本发明提供的PDF文件的预览方法、生成方法及处理方法通过将原始的PDF文件进行解析,将PDF文件中的文本和样式进行随机打乱存储,同时关联相应的字体文件和图片文件,随机打乱存储可有效防止PDF文件内的内容被爬虫爬取,提高文档的版权保护。当获取到PDF预览信息或PDF生成信息时,根据PDF预览信息或PDF生成信息查询乱序文件,获得需要预览或生成的PDF的页数,实现部分PDF文件的提取,将提取的部分PDF文件进行预览或重新生成PDF。在预览时,用户无需下载PDF文件,在浏览器端即可实现PDF文件的查看;同样的,在生成PDF文件时,用户也可直接在浏览器端对PDF文件进行编辑。该设置大大提高了用户对PDF文件的浏览和编辑PDF文件时的速度。
此外,本发提供的PDF文件的预览方法、生成方法及处理方法用户无需下载PDF文件即可实现PDF文件的浏览以及编辑,同时在浏览PDF和生成PDF时可通过提取部分页面来控制用户的浏览权限,即可控浏览,该设置在反爬虫的基础上进一步增加文件的安全性。
虽然本发明已由较佳实施例揭露如上,然而并非用以限定本发明,任何熟知此技艺者,在不脱离本发明的精神和范围内,可作些许的更动与润饰,因此本发明的保护范围当视权利要求书所要求保护的范围为准。

Claims (8)

1.一种PDF文件的预览方法,其特征在于,包括:
解析原始PDF文件,获得原始PDF文件中的文本和样式、字体以及图片;
将获取的文本和样式中文字部分的顺序以绝对定位的方式随机打乱,形成乱序文件;
将每一页PDF所形成的乱序文件进行存储,同时关联存储该页PDF中文字所对应的字体文件和图片文件;
获取输入的PDF预览信息,所述PDF预览信息包括原始PDF文件的页数或原始PDF文件中所包含的词语;
根据PDF预览信息查询存储的乱序文件,获得PDF预览信息所在的那一页PDF或多页的PDF;
根据绝对定位的方式获得文字的顺序排列,同时获取与文字对应的字体文件和图片文件并进行重组,并在浏览器端以PDF的样式展示重组后的且满足PDF预览信息的那一页PDF或多页的PDF。
2.根据权利要求1所述的PDF文件的预览方法,其特征在于,在获得原始PDF文件中的文本和样式后将文本和样式转换为可缩放矢量图形,再将可缩放矢量图形中的文字打乱形成乱序文件。
3.根据权利要求1所述的PDF文件的预览方法,其特征在于,在将每一页PDF所形成的乱序文件进行存储时,将该页中与文字对应的图片文件和字体文件分别存储至乱序文件存储文件夹下的图片目录和字体目录。
4.一种PDF文件的生成方法,其特征在于,包括:
解析原始PDF文件,获得原始PDF文件中的文本和样式、字体以及图片;
将获取的文本和样式中文字部分的顺序以绝对定位的方式随机打乱,形成乱序文件;
将每一页PDF所形成的乱序文件进行存储,同时关联存储该页PDF中文字所对应的字体文件和图片文件;
获取输入的PDF生成信息,PDF生成信息包括定位信息和编辑信息,所述定位信息为原始PDF文件的页数或原始PDF文件中所包含的词语,所述编辑信息为基于定位信息对PDF文件进行修改的信息;
根据PDF生成信息查询存储的乱序文件,获得生成信息所在的那一页PDF或多页的PDF;
根据绝对定位的方式获得文字的顺序排列并将重组后的文字和样式转换为满足可缩放矢量图形的文件;
将可缩放矢量图形的文件和该可缩放矢量图形的文件内的文字所对应的字体文件和图片文件一同重组生成PDF文件。
5.根据权利要求4所述的PDF文件的生成方法,其特征在于,当输入的PDF生成信息包含编辑信息时,首先根据定位信息查询存储的乱序文件,获得定位信息所在的那一页PDF或多页的PDF;然后根据编辑信息对定位信息所在的文本进行修改。
6.根据权利要求4所述的PDF文件的生成方法,其特征在于,所述编辑信息包括对文字的删除、增加或修改。
7.根据权利要求4所述的PDF文件的生成方法,其特征在于,在获得原始PDF文件中的文本和样式后将文本和样式转换为可缩放矢量图形,再将可缩放矢量图形中的文字打乱形成乱序文件。
8.一种PDF文件的处理方法,其特征在于,包括:
权利要求1~3任一项所述的PDF文件的预览方法;以及
权利要求4~7任一项所述的PDF文件的生成方法。
CN201811068441.XA 2018-09-13 2018-09-13 Pdf文件的预览方法、生成方法及处理方法 Active CN109446490B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811068441.XA CN109446490B (zh) 2018-09-13 2018-09-13 Pdf文件的预览方法、生成方法及处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811068441.XA CN109446490B (zh) 2018-09-13 2018-09-13 Pdf文件的预览方法、生成方法及处理方法

Publications (2)

Publication Number Publication Date
CN109446490A CN109446490A (zh) 2019-03-08
CN109446490B true CN109446490B (zh) 2023-07-21

Family

ID=65533037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811068441.XA Active CN109446490B (zh) 2018-09-13 2018-09-13 Pdf文件的预览方法、生成方法及处理方法

Country Status (1)

Country Link
CN (1) CN109446490B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109739981B (zh) * 2018-12-17 2020-12-29 四川译讯信息科技有限公司 一种pdf文件类别判定方法及文字提取方法
CN110502711B (zh) * 2019-07-17 2022-08-26 汉海信息技术(上海)有限公司 页面展示方法、装置、电子设备及可读存储介质
CN113535017B (zh) * 2020-09-28 2024-03-15 腾讯科技(深圳)有限公司 一种绘本文件的处理、同步显示方法、装置及存储介质
CN112818274B (zh) * 2021-02-05 2024-03-19 深圳市世强元件网络有限公司 Pdf文件转换为分页html文件的方法及计算机设备
CN115587075B (zh) * 2022-12-05 2023-07-04 北京合思信息技术有限公司 版式文件处理方法、装置、终端设备及存储介质
CN116186438B (zh) * 2023-01-13 2023-09-05 北京华宇信息技术有限公司 版式文档浏览方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814118A (zh) * 2009-07-02 2010-08-25 西安电子科技大学 基于图片的网页文本保护方法
CN103389969A (zh) * 2012-05-07 2013-11-13 腾讯科技(深圳)有限公司 一种用于移动终端预览pdf文件的方法、装置和***
CN103870583A (zh) * 2014-03-25 2014-06-18 东方电气集团东方汽轮机有限公司 一种基于关系型数据库的在线可控浏览pdf文档的方法
CA2975477A1 (en) * 2016-08-04 2018-02-04 Lulu Software Holdings System and method for the online editing of pdf documents

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814118A (zh) * 2009-07-02 2010-08-25 西安电子科技大学 基于图片的网页文本保护方法
CN103389969A (zh) * 2012-05-07 2013-11-13 腾讯科技(深圳)有限公司 一种用于移动终端预览pdf文件的方法、装置和***
CN103870583A (zh) * 2014-03-25 2014-06-18 东方电气集团东方汽轮机有限公司 一种基于关系型数据库的在线可控浏览pdf文档的方法
CA2975477A1 (en) * 2016-08-04 2018-02-04 Lulu Software Holdings System and method for the online editing of pdf documents

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
教育技术媒体新的传媒形式――PDF文档;刘丹非等;《云南师范大学学报(自然科学版)》;20031115(第06期);第22-25页 *

Also Published As

Publication number Publication date
CN109446490A (zh) 2019-03-08

Similar Documents

Publication Publication Date Title
CN109446490B (zh) Pdf文件的预览方法、生成方法及处理方法
US8381093B2 (en) Editing web pages via a web browser
US8020094B2 (en) Editing web pages via a web browser
JP4306991B2 (ja) データ処理装置及び方法、並びに、コンピュータプログラム及び記憶媒体
KR100853281B1 (ko) 브라우저 창에 웹 페이지 디스플레이하기 및 웹 페이지처리 방법
US20090150769A1 (en) Method and arrangement for paginating and previewing xhtml/html formatted information content
JP4716612B2 (ja) Html文書に表示されるデータオブジェクトのソースをリダイレクトする方法
CN104346322A (zh) 文档格式处理装置和文档格式处理方法
Holzmann et al. Archivespark: Efficient web archive access, extraction and derivation
US20050187899A1 (en) Structured document processing method, structured document processing system, and program for same
US20190310976A1 (en) Search Results Modulator
JP4794127B2 (ja) データ処理方法、データ処理プログラム、およびデータ処理装置
CN108170409A (zh) Web前端控件的开发方法和***
CN102955852A (zh) 一种网页资源处理方法、装置及设备
KR100305363B1 (ko) 전자문서를위한메타데이타모형화방법과메타데이타관리시스템및그관리방법
van Ossenbruggen et al. Towards a multimedia formatting vocabulary
JP5707937B2 (ja) 電子文書変換装置及び電子文書変換方法
Di Iorio et al. From xml inclusions to xml transclusions
Stegemann et al. Interactive construction of semantic widgets for visualizing semantic web data
WO2006051973A1 (ja) 文書処理装置及び文書処理方法
CN109101429A (zh) 一种机顶盒的浏览器页面调试的方法及装置
Karlík Blogging platform utilizing Kentico Cloud and Jekyll static site generator
KR102000542B1 (ko) 페이지 변경 편집 명령에 기초하여 돔 객체들을 편집하는 웹 문서 편집 장치 및 이의 동작 방법
Kivelä et al. Topic map aided publishing–A case study of assembly media archive
Fan et al. Research on Addressing Method in XML File Based on XPointer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant