CN112861820A - 基于pdf文件解析的图谱截图抓取方法 - Google Patents

基于pdf文件解析的图谱截图抓取方法 Download PDF

Info

Publication number
CN112861820A
CN112861820A CN202110364510.7A CN202110364510A CN112861820A CN 112861820 A CN112861820 A CN 112861820A CN 202110364510 A CN202110364510 A CN 202110364510A CN 112861820 A CN112861820 A CN 112861820A
Authority
CN
China
Prior art keywords
screenshot
pdf
picture
pdf file
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110364510.7A
Other languages
English (en)
Other versions
CN112861820B (zh
Inventor
刘羽
李姜晖
王辉
付俐
刘永
王贺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202110364510.7A priority Critical patent/CN112861820B/zh
Priority claimed from CN202110364510.7A external-priority patent/CN112861820B/zh
Publication of CN112861820A publication Critical patent/CN112861820A/zh
Application granted granted Critical
Publication of CN112861820B publication Critical patent/CN112861820B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开基于PDF文件解析的图谱截图抓取方法,所述方法包括:通过解析文件的中以PDF页面为参照物生成的路径对象(Path Object),得到目标图谱的坐标范围;通过解析PDF页面属性,得到PDF页面的尺寸信息;上述得到的数据形成截图位置中间参数;将目标图谱的PDF页面保存为图片格式;分析输出图片的尺寸属性;根据截图位置中间参数、所保存的目标图谱的PDF页面图片的尺寸及截图专用软件的原点设置情况,进行计算,得到截图位置参数;通过截图专用软件导入截图位置参数对所保存的目标图谱的PDF页面图片进行处理,间接得到目标图谱的截图。上述方案可在PDF文件中对图谱进行准确定位,间接截取图谱为可引用的图片。

Description

基于PDF文件解析的图谱截图抓取方法
技术领域
本发明涉及实验室报告数据管理领域,是基于PDF文件解析的图谱截图抓取方法。
背景技术
图谱作为科学研究的重要手段,在分析实验中的作用巨大。
现有lims***(实验室信息管理***)及SDMS(科学数据管理***)对多是对图谱中的文字性记录进行采集,对图谱的采集支持较差。图谱报告中的图谱因报告编辑的原因,其位置会发生变化,准确的截取较为困难。
目前的处理方式通常是采用工作站或专用软件的报告程序生成的报告文件作为附件提供。
PDF(Portable Document Format,便携式文档格式)是一种独立于硬件、操作***、应用程序的电子文档。上述的图谱数据都可以通过虚拟打印的方式实现图谱报告的输出,生成图谱的PDF文件。PDF文件因其独特的优点成了事实上的实验室通用报告文本。
发明内容
发明目的:本发明针对数据采集存在的问题,提出了一种图谱的截取方法,通过判断图谱在图谱报告PDF页面中的位置,间接地在图谱报告页面上进行截取,实现图谱的抓取和使用。
技术方案:PDF是从PS语言(Postscript语言,即页面描述语言)发展而来的一种结构化的文档格式。通过页面描述指令对指定区域进行着色绘制页面,PDF支持5种类型的的位图对象(Graphic Objects)包括:路径对象(Path Object),文本对象(Text Obejct),图像对象(Image Object)和外部对象(External object:XObject)。
PDF文件中的图谱通常是采用路径对象(Path Object)形式实现,其中直线(Line),曲线(Curve),长方形(Rectangle)都属于路径对象(Path Object)。
随着信息技术的发展,目前已经工具可以实现对PDF文件中各类资源的解析,更进一步的可以实现对路径对象的识别和位置确定。这就为本发明的实现创造了必要的条件。
图谱报告通常采用安装于PC机、工作站或者网络服务器的专用工作软件的报告程序调用预设报告模板生成图谱报告,通过调用PDF的虚拟打印功能生成图谱报告的PDF文件。在上述过程中,所设置的报告模板会以框架的形式设定报告图谱的位置范围,这种框架在进行PDF虚拟打印的过程中通常采用长方形(Rectangle)的路径对象的形式输出到PDF页面上。
通过对这一路径对象的识别即可得到图谱的位置范围;结合页面尺寸的数据,即可测算所需确定的位置范围在各个方向的比例特征;通过对目标页面图像的等比例处理,即可实现准确截图。
由于采用了上述技术方案,本发明的有益效果为:可在PDF文件中对图谱进行准确定位,间接截取图谱为可引用的图片;可以统一实验室的报告形式,无需通过附件形式附加图谱,有助于形成更规范的报告文本;减少人工介入,提高工作效率。
附图说明
图1为本发明的流程示意图;
图2为本发明中实施例1的目标图谱PDF页面;
图3为本发明中的相关术语示意图(以实施例1为例);
图4为本发明中实施例1处理过程的示例;
图5为本发明中实施例1处理结果示例;
图6为本发明中实施例2的目标图谱PDF页面;
图7为本发明中的相关术语示意图(以实施例2为例);
图8为本发明中实施例8处理过程的示例;
附图标记:1、图谱范围(LTRect对象)示例。
具体实施方式
下面将结合附图来和具体实施例,为便于理解,本实施例采用python语言编写的Pdfminer作为PDF解析工作软件,采用ImageMagick作为PDF页面图片输出软件,采用Python语言编写的Pillow作为截图软件,进一步阐明本发明。
需要说明的是,因生成PDF图谱文件的报告程序不同,所调用的虚拟打印的方法不同,不同的图谱PDF文件在绘图细节上也存在差异,如表征图谱范围的 LTRect对象是隐藏或显示,但并不影响路径对象的识别和判断。基本流程见图1。
下面结合附图描述本发明的具体实施例。
实施例1:
目标PDF见图2,该实施例的表征图谱范围的 LTRect对象为显示状态,参见图3。
1、采用Pdfminer软件对PDF进行解析,获得PDF页面的尺寸信息;
结果为[x0=0、y0=0、x1=595、y1=842]。
2、通过解析文件的中以PDF页面为参照物生成的用于标示图谱范围的路径对象(Path Object),该类路径对象在Pdfminer中定义为LTRect对象,参见图3的标记;解析LTRect对象的位置信息(x0、y0、x1、y1),计算并寻找满足x1-x0及y1-y0均为最大值的LTRect对象1,并记录LTRect对象1的位置信息(x0,y0,x1,y1),参见图4,结果为(x0=73.080、y0=327.000、x1=537.600、y1=635.040);将结果与PDF页面的尺寸信息保存为截图中间参数。
3、采用ImageMagick作为PDF页面图片输出软件,将待截取的PDF页面保存为长宽比与PDF页面一致的图片格式,清晰度根据需要,选择300dpi,保存到指定位置备用。
4、采用Python语言编写的Pillow作为截图软件,对备用的图片进行尺寸分析;
图片尺寸:高1101,宽778;
采用Python语言编写的Pillow作为截图软件,其对参照原点(0,0)规定为图片的左上角,而所获得的截图中间参数的参照原点(0,0)为左下角,需要进行参数的计算和变换;
计算公式采用:
xL=x0/Pw*SW
yU=( PH -y1)/PH*SH
xR=x1/ Pw *SW
yL=( PH -y0)/ PH *SH
其中:
PW=595、PH=842,所述PW与PH为PDF页面尺寸,PW为页面宽度,PH为页面高度;
x0=73.080、y0=327.000、x1=537.600、y1=635.040,所述x0、y0、x1、y1为所获得的图谱位置信息。
SH=1101、SW=778,所述SH与SW为备用的PDF页面图片的尺寸,SH为图片高度,SW为图片宽度。
计算得到截图参数xL、yU、xR、yL即截图的Left:左、 Upper:上、Right:右、Lower:下。
5、根据所得到的截图参数截图并输出为图片,保存到指定位置备用,结果见图5。并删除备用的PDF页面图片。
6、采用Lims(实验室信息管理***)或者SDMS(科学数据管理***)通过程序调用所输出的图谱图片合成报告文件。
实施例2:
目标PDF见图6,该实施例的表征图谱范围的 LTRect对象为隐藏状态,参见图7;其页面尺寸与实施例一中的目标PDF不一致。实施过程的操作步骤亦进行了调整。
1、采用ImageMagick作为PDF页面图片输出软件,将待截取的PDF页面保存为长宽比与PDF页面一致的图片格式,清晰度根据需要,选择600dpi。保存到指定位置备用。
2、通过解析文件的中以PDF页面为参照物生成的用于标示图谱范围的路径对象(Path Object),该类路径对象在Pdfminer中定义为LTRect对象;解析LTRect对象的位置信息(x0、y0、x1、y1),计算并寻找满足x1-x0及y1-y0均为最大值的LTRect对象1,并记录LTRect对象1的位置信息(x0、y0、x1、y1),结果为(x0=60.66、y0=379.8、x1=550.40、y1=570.36)。
3、采用Pdfminer软件对PDF进行解析,获得PDF页面的尺寸信息;
结果为[x0=0,y0=0,x1=612,y1=792] ,将尺寸结果与图谱位置信息保存为截图中间参数。
4、采用Python语言编写的Pillow作为截图软件,对备用的图片进行尺寸分析;
图片尺寸:高1558,宽1204;
采用Python语言编写的Pillow作为截图软件,其对参照原点(0,0)规定为图片的左上角,而所获得的截图中间参数的参照原点(0,0)为左下角,需要进行参数的计算和变换;
计算公式采用:
xL=x0/Pw*SW
yU=( PH -y1)/PH*SH
xR=x1/ Pw *SW
yL=( PH -y0)/ PH *SH
其中:
PW=612、PH=792,所述PW与PH为PDF页面尺寸,PW为页面宽度,PH为页面高度;
x0=60.66、y0=379.8、x1=550.40、y1=570.36,所述x0、y0、x1、y1为所获得的图谱位置信息。
SH=1558、SW=1204,所述SH与SW为备用的PDF页面图片的尺寸,SH为图片高度,SW为图片宽度。
计算得到截图参数xL、yU、xR、yL即截图的Left:左、 Upper:上、Right:右、Lower:下。
5、根据所得到的截图参数截图并输出为图片,保存到指定位置备用,结果见图8。并删除备用的PDF页面图片。
6、采用Lims(实验室信息管理***)或者SDMS(科学数据管理***)通过程序调用所输出的图谱图片合成报告文件。
所述实施例仅为本发明的部分实施例,并非因此限制本发明的专利范围,在本发明的技术构思范围内,采用不同的编程语言及处理软件,对技术方案进行的变换或直接/间接应用于其他技术领域均在本发明的专利保护范围内。

Claims (10)

1.基于PDF文件解析的图谱截图抓取方法,其特征在于,所述处理方法包括以下步骤:
步骤一:使用计算机软件工具对PDF文件进行解析,获得页面尺寸(高和宽);
步骤二:使用计算机软件工具对PDF文件进行解析,依次读取图谱报告中存在的路径对象(Path Object),并对路径对象的位置信息进行分析,寻找确定图谱位置相对坐标,与步骤一所述页面尺寸一起保存为截图中间参数;
步骤三:将PDF格式的图谱文件页面输出为具有可满足使用需求的清晰度的图片格式;
步骤四:获得步骤三所输出的图片尺寸(高和宽);
步骤五:根据步骤二所述截图中间参数进行计算,对步骤三所输出的已知尺寸的图片的指定位置进行截图,并输出为具有特定清晰度的图谱的图片格式,同时根据需要可删除步骤三所输出的图片。
2.根据权利要求1所述基于PDF文件解析的图谱截图抓取方法,其特征在于,所述PDF文件为由生成数据的仪器设备的工作站或专用软件的报告程序通过调用PDF虚拟打印功能直接生成的具备规范内部结构的可被程序解析其中所包含的各类对象位置和内容的PDF文件。
3.根据权利要求1所述基于PDF文件解析的图谱截图抓取方法,其特征在于,所述步骤一、步骤二中涉及的计算机工具软件包括而不仅限于C、C#、Python、Java、Visual Studio等计算机语言所创建的可对PDF文件内容进行解析的工具软件,进一步要求为可实现对PDF中各类对象的位置信息进行解析的工具软件,更进一步要求为Python语言中的Pdfminer或Pdfminer3K。
4.根据权利要求1基于PDF文件解析的图谱截图抓取方法,其特征在于,所述步骤一中的PDF文件页面尺寸的高和宽通过可进行PDF文件解析的工具软件分析文件属性获得;优选通过分析符合Pdfminer工具软件所定义的页面的Mediabox属性获得。
5.根据权利要求1基于PDF文件解析的图谱截图抓取方法,其特征在于,所述步骤二中路径对象(Path Object)为符合Pdfminer工具软件所定义的LTRect对象。
6.根据权利要求1基于PDF文件解析的图谱截图抓取方法,其特征在于,所述步骤二中图谱位置相对坐标系指由满足x1-x0最大且y1-y0最大的LTRect对象的x0、y0、x1、y1。
7.根据权利要求1基于PDF文件解析的图谱截图抓取方法,其特征在于,所述步骤三中图片的输出所采用的计算机工具软件包括而不仅限于C、C#、Python、Java、Visual Studio等计算机语言所创建的可实现对PDF页面进行图片转换并输出的软件,进一步要求为PyMuPDF,Pdf2image或ImageMagick。
8.根据权利要求1基于PDF文件解析的图谱截图抓取方法,其特征在于,所述步骤三中图片格式在尺寸上维持与原页面文件一致或具有相同长宽比。
9.根据权利要求1基于PDF文件解析的图谱截图抓取方法,其特征在于,所述步骤五中对步骤三所输出的已知尺寸的图片的指定位置进行截图的具体方法为:
通过截图专用工具软件,在导入截图中间参数经过计算后,对步骤三所输出的已知尺寸的图片的根据定位位置的页面比例设定特定范围进行截取并保存,进一步要求所述步骤五中的图片的指定位置(xL、yU、xR、yL)系根据截图软件所定义的坐标原点的情况计算得到:
如截图软件定义的坐标原点为PDF页面图片的左上角,则通过以下公式计算得到:
xL=x0/Pw*SW
yU=( PH -y1)/PH*SH
xR=x1/ Pw *SW
yL=( PH -y0)/ PH *SH
如截图软件定义的坐标原点为PDF页面图片的左下角,则通过以下公式计算得到:
xL=x0/ Pw *SW
yU=y1/ PH *SH
xR=x1/ Pw *SW
yL=y0/ PH *SH
其中:
x0、y0、x1、y1为步骤二所述图谱位置相对坐标;
(xL,yU)、(xR,yL)分别对应定义截图位置的矩形的呈对角线分布的左上角及右下角的坐标;
Sw,SH分别为步骤四所述的PDF文件页面图片的宽和高;
Pw,PH分别为步骤一所述的PDF页面的宽和高。
10.根据权利要求9基于PDF文件解析的图谱截图抓取方法,其特征在于,所述截图专用工具软件包括而不仅限于通过C、C#、Python、Java、Visual Studio等计算机语言创建的工具软件,优选为Python语言所创建的Pillow或Opencv。
CN202110364510.7A 2021-04-06 基于pdf文件解析的图谱截图抓取方法 Active CN112861820B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110364510.7A CN112861820B (zh) 2021-04-06 基于pdf文件解析的图谱截图抓取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110364510.7A CN112861820B (zh) 2021-04-06 基于pdf文件解析的图谱截图抓取方法

Publications (2)

Publication Number Publication Date
CN112861820A true CN112861820A (zh) 2021-05-28
CN112861820B CN112861820B (zh) 2024-07-26

Family

ID=

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090327873A1 (en) * 2008-06-26 2009-12-31 Glen Cairns Page editing
CN104063364A (zh) * 2013-03-19 2014-09-24 福建福昕软件开发股份有限公司北京分公司 一种pdf文档识别方法
US20150012339A1 (en) * 2004-06-01 2015-01-08 Daniel W. Onischuk Computerized voting system
CN109492199A (zh) * 2018-10-17 2019-03-19 四川译讯信息科技有限公司 一种基于ocr预判断的pdf文件转换方法
CN110532523A (zh) * 2019-08-30 2019-12-03 深圳点猫科技有限公司 网页页面数据转换成pdf文件的方法与装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150012339A1 (en) * 2004-06-01 2015-01-08 Daniel W. Onischuk Computerized voting system
US20090327873A1 (en) * 2008-06-26 2009-12-31 Glen Cairns Page editing
CN104063364A (zh) * 2013-03-19 2014-09-24 福建福昕软件开发股份有限公司北京分公司 一种pdf文档识别方法
CN109492199A (zh) * 2018-10-17 2019-03-19 四川译讯信息科技有限公司 一种基于ocr预判断的pdf文件转换方法
CN110532523A (zh) * 2019-08-30 2019-12-03 深圳点猫科技有限公司 网页页面数据转换成pdf文件的方法与装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘华中: "面向PDF文档的论文元数据提取方法研究", 中国优秀硕士学位论文全文数据库, 15 August 2012 (2012-08-15) *
杨道良, 常明, 任晓霞: "PDF及其在电子出版领域的应用", 计算机应用, no. 01, 28 January 1999 (1999-01-28) *

Similar Documents

Publication Publication Date Title
US8718364B2 (en) Apparatus and method for digitizing documents with extracted region data
CA2676487C (en) Method for emphasizing differences in graphical appearance between an original document and a modified document with annotations
US10198407B2 (en) System and method for dynamic linking between graphic documents and comment data bases
CN107220274B (zh) 一种可视化数据接口集市实现方法
GB2406674A (en) Specifying scanned image document layout definition
CN113094770A (zh) 图纸生成方法、装置、计算机设备和存储介质
CN109656652B (zh) 网页图表绘制方法、装置、计算机设备和存储介质
CN116245052A (zh) 一种图纸迁移方法、装置、设备和存储介质
CN112560406B (zh) 生成预报会商演示文稿的方法及装置
CN110706240B (zh) 基于小图斑的无人机影像数据批量裁切方法
CN111723799B (zh) 坐标定位方法、装置、设备及存储介质
CN112861820A (zh) 基于pdf文件解析的图谱截图抓取方法
CN112861820B (zh) 基于pdf文件解析的图谱截图抓取方法
KR20120075626A (ko) 웹 기반 서비스에서의 전자해도 처리 장치 및 방법
CN112861821B (zh) 基于pdf文件解析的图谱数据还原方法
CN107861931B (zh) 模板文件处理方法、装置、计算机设备和存储介质
CN110688688A (zh) 一种测绘竣工图批量转换为勘测定界图的方法
CN112861822B (zh) 基于pdf文件解析的图谱数据处理方法
CA3105227C (en) Techniques for extraction of vectorized content of an oil and gas play within an unstructured file
CN111506690A (zh) 一种南方CASS数据向MapGis数据无损转换的方法
CN109741417B (zh) 一种图形文件的生成方法、装置、计算设备及存储介质
CN110675729A (zh) 一种多版本地理信息一体化制图方法及***
CN108205527B (zh) 一种发动机数据平衡的绘制方法及装置
CN111367478A (zh) 一种用于实验室仪器的数据交互打印***及其打印方法
CN114676484B (zh) 一种光伏电站三维结构的生成方法、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant