CN110457276B - Pdf文档可用程度解析***及方法 - Google Patents

Pdf文档可用程度解析***及方法 Download PDF

Info

Publication number
CN110457276B
CN110457276B CN201910723248.3A CN201910723248A CN110457276B CN 110457276 B CN110457276 B CN 110457276B CN 201910723248 A CN201910723248 A CN 201910723248A CN 110457276 B CN110457276 B CN 110457276B
Authority
CN
China
Prior art keywords
document
image
equipment
content
pdf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910723248.3A
Other languages
English (en)
Other versions
CN110457276A (zh
Inventor
欧峥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Super Intellectual Property Consultant (Beijing) Co.,Ltd.
Original Assignee
Super Intellectual Property Consultant Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Super Intellectual Property Consultant Beijing Co ltd filed Critical Super Intellectual Property Consultant Beijing Co ltd
Priority to CN201910723248.3A priority Critical patent/CN110457276B/zh
Publication of CN110457276A publication Critical patent/CN110457276A/zh
Application granted granted Critical
Publication of CN110457276B publication Critical patent/CN110457276B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • G06F16/1794Details of file format conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Storage Device Security (AREA)
  • Facsimiles In General (AREA)

Abstract

本发明涉及一种PDF文档可用程度解析***,包括:文档提取设备,通过网络对全网数据库进行访问以获得待解析的、撰写论文参考用的PDF文档;内容剥离设备,获取所述PDF文档的各页图像;模糊度鉴别设备,对每一页图像执行模糊度分析;信号转换设备,对各页图像分别对应的各个模糊度进行均值计算以获得参考模糊度,在参考模糊度超限时,发出文档不可用命令,否则,发出文档可用命令;后台控制引擎,在线编辑论文使用,在接收到文档可用命令时,将当前的待解析的PDF文档作为在线编辑论文的参考文档以用于后续的WORD转换。本发明还涉及一种PDF文档可用程度解析方法。通过本发明,避免在线编辑论文时引用出现乱码的参考段落。

Description

PDF文档可用程度解析***及方法
技术领域
本发明涉及文档格式转换领域,尤其涉及一种PDF文档可用程度解析***及方法。
背景技术
论文写作,简单的说,就是大专院校毕业论文的写作,包含着本科生的学士论文,研究生的硕士论文,博士生的博士论文,延伸到了职称论文的写作以及科技论文的写作。一般来说,论文写作,即高校毕业生,科技工作者以及各科研***,事业单位工作人员,依据一定的论文格式和字数要求,对学习和工作的学术总结和创新。
论文一般由题名、作者、摘要、关键词、正文、参考文献和附录等部分组成,其中部分组成(例如附录)可有可无。论文各组成的排序为:题名、作者、摘要、关键词、英文题名、英文摘要、英文关键词、正文、参考文献和附录和致谢。
现有技术中存在一些帮助用户撰写论文的技术方案,例如,根据用户输入的关键词,直接从全网数据库中提取相关参考文献的PDF文档,并对所述PDF文档执行WORD格式转换,以直接将转换后的内容进行参考使用。
然而,全网数据库包括且不限于各种期刊数据库、专利数据库和学位论文数据库,由于当初文档扫描仪器的年代和质量不一,导致获取到的相关参考文献的PDF文档模糊度不一,一旦出现过于模糊的段落,则用户在线编辑论文时很容易引用到出现乱码的参考段落。
发明内容
为了解决上述问题,本发明提供了一种PDF文档可用程度解析***及方法,能够对撰写论文参考用的PDF文档的各页图像分别对应的各个模糊度进行均值计算以获得参考模糊度,在参考模糊度超限时,发出文档不可用命令,以放弃后续的PDF转WORD的格式处理,避免获得无效的、无参考意义的转换乱码。
根据本发明的一方面,提供了一种PDF文档可用程度解析***,所述***包括:
文档提取设备,用于通过网络对全网数据库进行访问以获得待解析的、撰写论文参考用的PDF文档;
内容剥离设备,与所述文档提取设备连接,用于获取所述PDF文档的各页图像;
模糊度鉴别设备,与所述内容剥离设备连接,用于对每一页图像执行模糊度分析;
信号转换设备,与所述模糊度鉴别设备连接,用于对各页图像分别对应的各个模糊度进行均值计算以获得参考模糊度,在参考模糊度超限时,发出文档不可用命令,否则,发出文档可用命令;
后台控制引擎,与所述信号转换设备连接,用于在线编辑论文使用,在接收到文档可用命令时,将当前的待解析的PDF文档作为在线编辑论文的参考文档以用于后续的WORD转换;
格式转换引擎,与所述后台控制引擎连接,用于对接收到的在线编辑论文的参考文档执行PDF格式到WORD格式的格式转换。
根据本发明的另一方面,还提供了一种PDF文档可用程度解析方法,所述方法包括:
使用文档提取设备,用于通过网络对全网数据库进行访问以获得待解析的、撰写论文参考用的PDF文档;
使用内容剥离设备,与所述文档提取设备连接,用于获取所述PDF文档的各页图像;
使用模糊度鉴别设备,与所述内容剥离设备连接,用于对每一页图像执行模糊度分析;
使用信号转换设备,与所述模糊度鉴别设备连接,用于对各页图像分别对应的各个模糊度进行均值计算以获得参考模糊度,在参考模糊度超限时,发出文档不可用命令,否则,发出文档可用命令;
使用后台控制引擎,与所述信号转换设备连接,用于在线编辑论文使用,在接收到文档可用命令时,将当前的待解析的PDF文档作为在线编辑论文的参考文档以用于后续的WORD转换;
使用格式转换引擎,与所述后台控制引擎连接,用于对接收到的在线编辑论文的参考文档执行PDF格式到WORD格式的格式转换。
其中,在PDF格式的文件中,也可以进行简单的修改,比如添加书签之类的,但是文字不再发生变化。PDF全称Portable Document Format,是一种电子文件格式。这种文件格式与操作***平台无关,也就是说,PDF文件不管是在Windows,Unix还是在苹果公司的MacOS操作***中都是通用的。这一特点使它成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式。越来越多的电子图书、产品说明、公司文告、网络资料、电子邮件开始使用PDF格式文件。PDF格式文件目前已成为数字化信息事实上的一个工业标准。
Adobe公司设计PDF文件格式的目的是为了支持跨平台上的,多媒体集成的信息出版和发布,尤其是提供对网络信息发布的支持。为了达到此目的,PDF具有许多其他电子文档格式无法相比的优点。PDF文件格式可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。该格式文件还可以包含超文本链接、声音和动态影像等电子信息,支持特长文件,集成度和安全可靠性都较高。PDF文件使用了工业标准的压缩算法,通常比PostScript文件小,易于传输与储存。它还是页独立的,一个PDF文件包含一个或多个“页”,可以单独处理各页,特别适合多处理器***的工作。此外,一个PDF文件还包含文件中所使用的PDF格式版本,以及文件中一些重要结构的定位信息。
正是由于PDF文件的种种优点,它逐渐成为出版业中的新宠。对普通读者而言,用PDF制作的电子书具有纸版书的质感和阅读效果,可以“逼真地”展现原书的原貌,而显示大小可任意调节,给读者提供了个性化的阅读方式。由于PDF文件可以不依赖操作***的语言和字体及显示设备,阅读起来很方便。这些优点使读者能很快适应电子阅读与网上阅读,无疑有利于计算机与网络在日常生活中的普及。Adobe公司以PDF文件技术为核心,提供了一整套电子和网络出版解决方案,其中包括用于生成和阅读PDF文件的商业软件Acrobat和用于编辑制作PDF文件的Illustrator等。Adobe还提供了用于阅读和打印亚洲文字,即中日韩文字所需的字型包。如果需要打印文件,为了确保文件在不同电脑上的格式和字体不发生变化,可以将WORD转化为PDF格式,更安全一点。而为了文字编辑的方便,一般用户更愿意将PDF格式转换为WORD格式。
本发明至少具备以下两处重要的发明点:
(1)对撰写论文参考用的PDF文档的各页图像分别对应的各个模糊度进行均值计算以获得参考模糊度,在参考模糊度超限时,发出文档不可用命令,以放弃后续的PDF转WORD的格式处理,避免获得无效的、无参考意义的转换乱码;
(2)采用针对性的图像处理机制以提升对各页图像分别对应的各个模糊度的检测精度。
附图说明
以下将结合附图对本发明的实施方案进行描述,其中:
图1为根据本发明实施方案示出的PDF文档可用程度解析***的一种结构方框图。
图2为根据本发明实施方案示出的PDF文档可用程度解析***的另一种结构方框图。
图3为根据本发明实施方案示出的PDF文档可用程度解析***的又一种结构方框图。
图4为根据本发明实施方案示出的PDF文档可用程度解析方法的一种步骤流程图。
图5为根据本发明实施方案示出的PDF文档可用程度解析方法的另一种步骤流程图。
图6为根据本发明实施方案示出的PDF文档可用程度解析方法的又一种步骤流程图。
图7为根据本发明实施方案示出的PDF文档可用程度解析方法判断文档可用的当前的待解析的PDF文档进行WORD转换后获得的文档的浏览示意图。
具体实施方式
下面将参照附图对本发明的PDF文档可用程度解析***及方法的实施方案进行详细说明。
当前,在一些论文写作辅助的技术方案中,由于PDF格式的参考文档质量差异,在执行PDF转WORD的格式处理后,容易导致用户在线编辑论文时引用到无效的、无参考意义的转换乱码,同时,当前对PDF文档的各页图像的模糊度缺乏有效的图像分析机制。
为了克服上述不足,本发明搭建了一种PDF文档可用程度解析***及方法,能够有效解决相应的技术问题。
图1为根据本发明实施方案示出的PDF文档可用程度解析***的一种结构方框图,所述***包括:
文档提取设备,用于通过网络对全网数据库进行访问以获得待解析的、撰写论文参考用的PDF文档;
内容剥离设备,与所述文档提取设备连接,用于获取所述PDF文档的各页图像;
模糊度鉴别设备,与所述内容剥离设备连接,用于对每一页图像执行模糊度分析;
信号转换设备,与所述模糊度鉴别设备连接,用于对各页图像分别对应的各个模糊度进行均值计算以获得参考模糊度,在参考模糊度超限时,发出文档不可用命令,否则,发出文档可用命令;
后台控制引擎,与所述信号转换设备连接,用于在线编辑论文使用,在接收到文档可用命令时,将当前的待解析的PDF文档作为在线编辑论文的参考文档以用于后续的WORD转换;
格式转换引擎,与所述后台控制引擎连接,用于对接收到的在线编辑论文的参考文档执行PDF格式到WORD格式的格式转换;
其中,所述全网数据库包括期刊数据库、专利数据库和学位论文数据库;
其中,所述文档提取设备包括网络访问接口和数据提取单元,所述网络访问接口用于通过网络对全网数据库进行访问;
其中,所述数据提取单元与所述网络访问接口连接,用于基于用户设定的访问条件通过所述网络访问接口获得待解析的、撰写论文参考用的PDF文档。
接着,继续对本发明的PDF文档可用程度解析***的具体结构进行进一步的说明。
所述PDF文档可用程度解析***中:
所述网络访问接口为时分双工通信接口或频分双工通信接口。
所述PDF文档可用程度解析***中还可以包括:
条件输入设备,与所述文档提取设备连接,用于在用户的操作下,向所述文档提取设备输入用户设定的访问条件。
如图2所示,所述PDF文档可用程度解析***中还可以包括:
均匀性分析设备,与所述内容剥离设备连接,用于接收所述内容剥离设备输出的每一页图像以作为当前接收图像,基于所述当前接收图像的像素点的像素值分布情况确定所述当前接收图像的内容均匀程度,并输出所述内容均匀程度;
清晰度分析设备,用于接收所述当前接收图像,基于所述当前接收图像的像素点的像素值动态分布范围确定所述当前接收图像的内容清晰程度,并输出所述内容清晰程度;
对比度分析设备,用于接收所述当前接收图像,检测所述当前接收图像的对比度,并输出所述对比度。
如图3所示,所述PDF文档可用程度解析***中还可以包括:
参数识别设备,分别与所述均匀性分析设备、清晰度分析设备和对比度分析设备连接,用于接收所述内容均匀程度、所述内容清晰程度以及所述对比度,基于所述内容均匀程度确定其对图像分割阈值的影响系数,基于所述内容清晰程度确定其对图像分割阈值的影响系数,基于所述对比度确定其对图像分割阈值的影响系数;
图像分割设备,与所述参数识别设备连接,用于基于从所述参数识别设备获取的三种影响系数同时对图像分割阈值进行纠正,并基于纠正后的图像分割阈值对所述当前接收图像进行分割,以获得并输出存在各种目标的目标区域;
维纳滤波设备,分别与所述模糊度鉴别设备和所述图像分割设备连接,用于接收所述目标区域,对所述目标区域执行维纳滤波处理,以获得相应的待处理图像,并将所述待处理图像替换当前接收图像输出给所述模糊度鉴别设备。
图4为根据本发明实施方案示出的PDF文档可用程度解析方法的一种步骤流程图,所述方法包括:
使用文档提取设备,用于通过网络对全网数据库进行访问以获得待解析的、撰写论文参考用的PDF文档;
使用内容剥离设备,与所述文档提取设备连接,用于获取所述PDF文档的各页图像;
使用模糊度鉴别设备,与所述内容剥离设备连接,用于对每一页图像执行模糊度分析;
使用信号转换设备,与所述模糊度鉴别设备连接,用于对各页图像分别对应的各个模糊度进行均值计算以获得参考模糊度,在参考模糊度超限时,发出文档不可用命令,否则,发出文档可用命令;
使用后台控制引擎,与所述信号转换设备连接,用于在线编辑论文使用,在接收到文档可用命令时,将当前的待解析的PDF文档作为在线编辑论文的参考文档以用于后续的WORD转换;
使用格式转换引擎,与所述后台控制引擎连接,用于对接收到的在线编辑论文的参考文档执行PDF格式到WORD格式的格式转换;
其中,所述全网数据库包括期刊数据库、专利数据库和学位论文数据库;
其中,所述文档提取设备包括网络访问接口和数据提取单元,所述网络访问接口用于通过网络对全网数据库进行访问;
其中,所述数据提取单元与所述网络访问接口连接,用于基于用户设定的访问条件通过所述网络访问接口获得待解析的、撰写论文参考用的PDF文档。
接着,继续对本发明的PDF文档可用程度解析方法的具体步骤进行进一步的说明。
所述PDF文档可用程度解析方法中:
所述网络访问接口为时分双工通信接口或频分双工通信接口。
所述PDF文档可用程度解析方法还可以包括:
使用条件输入设备,与所述文档提取设备连接,用于在用户的操作下,向所述文档提取设备输入用户设定的访问条件。
如图5所示,所述PDF文档可用程度解析方法还可以包括:
使用均匀性分析设备,与所述内容剥离设备连接,用于接收所述内容剥离设备输出的每一页图像以作为当前接收图像,基于所述当前接收图像的像素点的像素值分布情况确定所述当前接收图像的内容均匀程度,并输出所述内容均匀程度;
使用清晰度分析设备,用于接收所述当前接收图像,基于所述当前接收图像的像素点的像素值动态分布范围确定所述当前接收图像的内容清晰程度,并输出所述内容清晰程度;
使用对比度分析设备,用于接收所述当前接收图像,检测所述当前接收图像的对比度,并输出所述对比度。
如图6所示,所述PDF文档可用程度解析方法还可以包括:
使用参数识别设备,分别与所述均匀性分析设备、清晰度分析设备和对比度分析设备连接,用于接收所述内容均匀程度、所述内容清晰程度以及所述对比度,基于所述内容均匀程度确定其对图像分割阈值的影响系数,基于所述内容清晰程度确定其对图像分割阈值的影响系数,基于所述对比度确定其对图像分割阈值的影响系数;
使用图像分割设备,与所述参数识别设备连接,用于基于从所述参数识别设备获取的三种影响系数同时对图像分割阈值进行纠正,并基于纠正后的图像分割阈值对所述当前接收图像进行分割,以获得并输出存在各种目标的目标区域;
使用维纳滤波设备,分别与所述模糊度鉴别设备和所述图像分割设备连接,用于接收所述目标区域,对所述目标区域执行维纳滤波处理,以获得相应的待处理图像,并将所述待处理图像替换当前接收图像输出给所述模糊度鉴别设备。
图7为根据本发明实施方案示出的PDF文档可用程度解析方法判断文档可用的当前的待解析的PDF文档进行WORD转换后获得的文档的浏览示意图。
如图7所示,根据本发明实施方案示出的PDF文档可用程度解析方法判断文档可用的当前的待解析的PDF文档的标题为探析计算机网络安全,并具有至少6章的提纲内容,图7给出了转换后WORD文档的一部分内容。
另外,4G LTE是一个全球通用的标准,包括两种网络模式FDD和TDD,分别用于成对频谱和非成对频谱。运营商最初在两个模式之间的取舍纯粹出于对频谱可用性的考虑。大多运营商将会同时部署两种网络,以便充分利用其拥有的所有频谱资源。FDD和TDD在技术上区别其实很小,主要区别就在于采用不同的双工方式,频分双工(FDD)和时分双工(TDD)是两种不同的双工方式。
FDD是在分离的两个对称频率信道上进行接收和发送,用保护频段来分离接收和发送信道。FDD必须采用成对的频率,依靠频率来区分上下行链路,其单方向的资源在时间上是连续的。FDD在支持对称业务时,能充分利用上下行的频谱,但在支持非对称业务时,频谱利用率将大大降低。
TDD用时间来分离接收和发送信道。在TDD方式的移动通信***中,接收和发送使用同一频率载波的不同时隙作为信道的承载,其单方向的资源在时间上是不连续的,时间资源在两个方向上进行了分配。某个时间段由基站发送信号给移动台,另外的时间由移动台发送信号给基站,基站和移动台之间必须协同一致才能顺利工作。
最后应注意到的是,在本发明各个实施例中的各功能设备可以集成在一个处理设备中,也可以是各个设备单独物理存在,也可以两个或两个以上设备集成在一个设备中。
所述功能如果以软件功能设备的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.一种PDF文档可用程度解析***,其特征在于,所述***包括:
文档提取设备,用于通过网络对全网数据库进行访问以获得待解析的、撰写论文参考用的PDF文档;
内容剥离设备,与所述文档提取设备连接,用于获取所述PDF文档的各页图像;
模糊度鉴别设备,与所述内容剥离设备连接,用于对每一页图像执行模糊度分析;
信号转换设备,与所述模糊度鉴别设备连接,用于对各页图像分别对应的各个模糊度进行均值计算以获得参考模糊度,在参考模糊度超限时,发出文档不可用命令,否则,发出文档可用命令;
后台控制引擎,与所述信号转换设备连接,用于在线编辑论文使用,在接收到文档可用命令时,将当前的待解析的PDF文档作为在线编辑论文的参考文档以用于后续的WORD转换;
格式转换引擎,与所述后台控制引擎连接,用于对接收到的在线编辑论文的参考文档执行PDF格式到WORD格式的格式转换;
其中,所述全网数据库包括期刊数据库、专利数据库和学位论文数据库;
其中,所述文档提取设备包括网络访问接口和数据提取单元,所述网络访问接口用于通过网络对全网数据库进行访问;
其中,所述数据提取单元与所述网络访问接口连接,用于基于用户设定的访问条件通过所述网络访问接口获得待解析的、撰写论文参考用的PDF文档;
所述网络访问接口为时分双工通信接口或频分双工通信接口。
2.如权利要求1所述的PDF文档可用程度解析***,其特征在于,所述***还包括:
条件输入设备,与所述文档提取设备连接,用于在用户的操作下,向所述文档提取设备输入用户设定的访问条件。
3.如权利要求2所述的PDF文档可用程度解析***,其特征在于,所述***还包括:
均匀性分析设备,与所述内容剥离设备连接,用于接收所述内容剥离设备输出的每一页图像以作为当前接收图像,基于所述当前接收图像的像素点的像素值分布情况确定所述当前接收图像的内容均匀程度,并输出所述内容均匀程度;
清晰度分析设备,用于接收所述当前接收图像,基于所述当前接收图像的像素点的像素值动态分布范围确定所述当前接收图像的内容清晰程度,并输出所述内容清晰程度;
对比度分析设备,用于接收所述当前接收图像,检测所述当前接收图像的对比度,并输出所述对比度。
4.如权利要求3所述的PDF文档可用程度解析***,其特征在于,所述***还包括:
参数识别设备,分别与所述均匀性分析设备、清晰度分析设备和对比度分析设备连接,用于接收所述内容均匀程度、所述内容清晰程度以及所述对比度,基于所述内容均匀程度确定其对图像分割阈值的影响系数,基于所述内容清晰程度确定其对图像分割阈值的影响系数,基于所述对比度确定其对图像分割阈值的影响系数;
图像分割设备,与所述参数识别设备连接,用于基于从所述参数识别设备获取的三种影响系数同时对图像分割阈值进行纠正,并基于纠正后的图像分割阈值对所述当前接收图像进行分割,以获得并输出存在各种目标的目标区域;
维纳滤波设备,分别与所述模糊度鉴别设备和所述图像分割设备连接,用于接收所述目标区域,对所述目标区域执行维纳滤波处理,以获得相应的待处理图像,并将所述待处理图像替换当前接收图像输出给所述模糊度鉴别设备。
5.一种PDF文档可用程度解析方法,其特征在于,所述方法包括:
使用文档提取设备,用于通过网络对全网数据库进行访问以获得待解析的、撰写论文参考用的PDF文档;
使用内容剥离设备,与所述文档提取设备连接,用于获取所述PDF文档的各页图像;
使用模糊度鉴别设备,与所述内容剥离设备连接,用于对每一页图像执行模糊度分析;
使用信号转换设备,与所述模糊度鉴别设备连接,用于对各页图像分别对应的各个模糊度进行均值计算以获得参考模糊度,在参考模糊度超限时,发出文档不可用命令,否则,发出文档可用命令;
使用后台控制引擎,与所述信号转换设备连接,用于在线编辑论文使用,在接收到文档可用命令时,将当前的待解析的PDF文档作为在线编辑论文的参考文档以用于后续的WORD转换;
使用格式转换引擎,与所述后台控制引擎连接,用于对接收到的在线编辑论文的参考文档执行PDF格式到WORD格式的格式转换;
其中,所述全网数据库包括期刊数据库、专利数据库和学位论文数据库;
其中,所述文档提取设备包括网络访问接口和数据提取单元,所述网络访问接口用于通过网络对全网数据库进行访问;
其中,所述数据提取单元与所述网络访问接口连接,用于基于用户设定的访问条件通过所述网络访问接口获得待解析的、撰写论文参考用的PDF文档;
所述网络访问接口为时分双工通信接口或频分双工通信接口。
6.如权利要求5所述的PDF文档可用程度解析方法,其特征在于,所述方法还包括:
使用条件输入设备,与所述文档提取设备连接,用于在用户的操作下,向所述文档提取设备输入用户设定的访问条件。
7.如权利要求6所述的PDF文档可用程度解析方法,其特征在于,所述方法还包括:
使用均匀性分析设备,与所述内容剥离设备连接,用于接收所述内容剥离设备输出的每一页图像以作为当前接收图像,基于所述当前接收图像的像素点的像素值分布情况确定所述当前接收图像的内容均匀程度,并输出所述内容均匀程度;
使用清晰度分析设备,用于接收所述当前接收图像,基于所述当前接收图像的像素点的像素值动态分布范围确定所述当前接收图像的内容清晰程度,并输出所述内容清晰程度;
使用对比度分析设备,用于接收所述当前接收图像,检测所述当前接收图像的对比度,并输出所述对比度。
8.如权利要求7所述的PDF文档可用程度解析方法,其特征在于,所述方法还包括:
使用参数识别设备,分别与所述均匀性分析设备、清晰度分析设备和对比度分析设备连接,用于接收所述内容均匀程度、所述内容清晰程度以及所述对比度,基于所述内容均匀程度确定其对图像分割阈值的影响系数,基于所述内容清晰程度确定其对图像分割阈值的影响系数,基于所述对比度确定其对图像分割阈值的影响系数;
使用图像分割设备,与所述参数识别设备连接,用于基于从所述参数识别设备获取的三种影响系数同时对图像分割阈值进行纠正,并基于纠正后的图像分割阈值对所述当前接收图像进行分割,以获得并输出存在各种目标的目标区域;
使用维纳滤波设备,分别与所述模糊度鉴别设备和所述图像分割设备连接,用于接收所述目标区域,对所述目标区域执行维纳滤波处理,以获得相应的待处理图像,并将所述待处理图像替换当前接收图像输出给所述模糊度鉴别设备。
CN201910723248.3A 2019-08-06 2019-08-06 Pdf文档可用程度解析***及方法 Active CN110457276B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910723248.3A CN110457276B (zh) 2019-08-06 2019-08-06 Pdf文档可用程度解析***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910723248.3A CN110457276B (zh) 2019-08-06 2019-08-06 Pdf文档可用程度解析***及方法

Publications (2)

Publication Number Publication Date
CN110457276A CN110457276A (zh) 2019-11-15
CN110457276B true CN110457276B (zh) 2022-02-25

Family

ID=68485259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910723248.3A Active CN110457276B (zh) 2019-08-06 2019-08-06 Pdf文档可用程度解析***及方法

Country Status (1)

Country Link
CN (1) CN110457276B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105357307A (zh) * 2015-11-16 2016-02-24 浪潮软件集团有限公司 一种文件在线编辑方法、装置及***
CN109492199A (zh) * 2018-10-17 2019-03-19 四川译讯信息科技有限公司 一种基于ocr预判断的pdf文件转换方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2648636C2 (ru) * 2014-03-31 2018-03-26 Общество с ограниченной ответственностью "Аби Девелопмент" Сохранение контента в конвертированных документах

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105357307A (zh) * 2015-11-16 2016-02-24 浪潮软件集团有限公司 一种文件在线编辑方法、装置及***
CN109492199A (zh) * 2018-10-17 2019-03-19 四川译讯信息科技有限公司 一种基于ocr预判断的pdf文件转换方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向PDF文档的图像恢复***的设计与实现;唐斓;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20130715(第7期);I138-1277 *

Also Published As

Publication number Publication date
CN110457276A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
US20160342578A1 (en) Systems, Methods, and Media for Generating Structured Documents
US20140325348A1 (en) Conversion of a document of captured images into a format for optimized display on a mobile device
CN100562869C (zh) 翻译处理方法和文档处理装置
US11604930B2 (en) Generation of translated electronic document from an input image by consolidating each of identical untranslated text strings into a single element for translation
US20110131482A1 (en) System and method for multi-channel publishing
CN101923541A (zh) 翻译装置、翻译方法
JPH10228473A (ja) 文書画像処理方法、文書画像処理装置および記憶媒体
CA2701930A1 (en) Methods, apparatus, and systems for providing local and online data services
US20090037463A1 (en) Image processing apparatus, control method thereof, and storage medium that stores program thereof
US9529792B2 (en) Glossary management device, glossary management system, and recording medium for glossary generation
JP5412903B2 (ja) 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
CN110457276B (zh) Pdf文档可用程度解析***及方法
CN101727588B (zh) 成像装置和方法
US11256880B2 (en) Information processing apparatus and non-transitory computer readable medium
US9135517B1 (en) Image based document identification based on obtained and stored document characteristics
CN107590136B (zh) 翻译设备、翻译***以及翻译方法
CN103853849A (zh) 高压缩可回流文件的建立和绘制方法
CN103870543A (zh) 一种用于文档文件重构的方法及装置
CN116340259A (zh) 文档管理方法、文档管理***和计算设备
CN110874519B (zh) 一种将Markdown文档转换为PDF文档的方法、装置
JP2010105191A (ja) 画像処理装置
US11656819B2 (en) Information processing apparatus and printing request for designating documents based on a spoken voice
US11720303B1 (en) Social media influenced personalized printing
US20140233051A1 (en) Document distribution server and program for document distribution server
US9307107B2 (en) Classification of scanned hardcopy media

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20211130

Address after: 1501-1, floor 15, No. 19, Chegongzhuang West Road, Haidian District, Beijing 100048

Applicant after: Super Intellectual Property Consultant (Beijing) Co.,Ltd.

Address before: 12a-3-110, block D, 12 / F, No. 28, information road, Haidian District, Beijing 100085

Applicant before: Beijing Ruyou Education Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant