CN113157642A - 一种实现电子材料数字化流程自动化的方法 - Google Patents

一种实现电子材料数字化流程自动化的方法 Download PDF

Info

Publication number
CN113157642A
CN113157642A CN202110294010.0A CN202110294010A CN113157642A CN 113157642 A CN113157642 A CN 113157642A CN 202110294010 A CN202110294010 A CN 202110294010A CN 113157642 A CN113157642 A CN 113157642A
Authority
CN
China
Prior art keywords
file
electronic
electronic file
pdf
directory data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110294010.0A
Other languages
English (en)
Inventor
石园
王家乐
张晓明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202110294010.0A priority Critical patent/CN113157642A/zh
Publication of CN113157642A publication Critical patent/CN113157642A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • G06F16/1794Details of file format conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种实现电子材料数字化流程自动化的方法,属于电子信息化技术领域。本发明的实现电子材料数字化流程自动化的方法包括以下步骤:S1、获取电子文件;S2、判断电子文件类型;S3、电子文件预处理;S4、生成可搜索PDF文件;S5、提取结构化目录数据;S6、结构化目录数据入库;S7、电子文件特定规则重新命名;S8、电子文件上传;S9、电子文件与结构化目录数据自动连接。该发明的实现电子材料数字化流程自动化的方法能够加快电子文件数字化处理速度,同时避免人工操作失误或者操作环境异常导致数据不一致问题,具有很好的推广应用价值。

Description

一种实现电子材料数字化流程自动化的方法
技术领域
本发明涉及电子信息化技术领域,具体提供一种实现电子材料数字化流程自动化的方法。
背景技术
纸质档案扫描、电子文件数字化是档案大数据库建设最基础的工作,其操作流程包括纸质档案扫描、电子文件预处理、电子文件分类、电子文件目录数据提取入库、档案数据挂接等步骤。整个处理过程因操作流程环节多,且各个环节步骤间涉及不同参与主体和设备环境,加大了误操作和数据不一致的出现几率,电子文件和文件目录数据也无法快速入库挂接。
电子文件数字化操作流程包括电子文件预处理、电子文件分类、电子文件目录数据提取入库、电子文件上传、档案数据挂接等步骤。因操作流程环节多,且各个环节步骤间涉及不同参与主体和设备环境,容易出现***错误或者人工失误造成数据不一致的问题,有待进一步的改进。
发明内容
本发明的技术任务是针对上述存在的问题,提供一种能够加快电子文件数字化处理速度,同时避免人工操作失误或者操作环境异常导致数据不一致问题的实现电子材料数字化流程自动化的方法。
为实现上述目的,本发明提供了如下技术方案:
一种实现电子材料数字化流程自动化的方法,包括以下步骤:
S1、获取电子文件;
S2、判断电子文件类型;
S3、电子文件预处理;
S4、生成可搜索PDF文件;
S5、提取结构化目录数据;
S6、结构化目录数据入库;
S7、电子文件特定规则重新命名;
S8、电子文件上传;
S9、电子文件与结构化目录数据自动连接;
S10、通过脚本编程将上述各步骤组织成工作流,自动化管理数据流在在上述各步骤间流转。
作为优选,步骤S2中,判断电子文件类型是否为PDF类型,若为非PDF类型则使用PDF生成组件转化为PDF格式文件。
作为优选,PDF生成组件基于脚本实现office格式文件转换成PDF文件。
其中Windows环境下基于Microsoft、Office、Interop、Word类库编写PowerShell脚本实现。Linux环境下基于libreoffice基础组件编写shell脚本实现。
作为优选,步骤S3中,基于itextpdf类库通过脚本实现横向排版的页面自动纠偏、空白页自动去除的预处理。
作为优选,步骤S4中,可搜索PDF生成组件检查PDF文件的文本图层,若存在文本图层,使用现有的文本图层,否则使用OCR创建新的文本图层。
作为优选,步骤S5中,结构化目录数据提取组件间生成的可搜索的PDF文件作为输入,读取电子文件第一页的文本内容,采用关键字正则表达式匹配的方式读取当前电子文件的文件业务类别、业务唯一标识码的信息项,形成当前电子文件的结构化形式的目录项信息。
作为优选,步骤S6中,将解析出的结构化目录数据导入关系数据库,以业务唯一标识码作为数据库表主键。
作为优选,步骤S7中,将解析出的结构化目录数据,以业务唯一标识码-文件业务类别的命名规则,重新命名当前电子文件。
作为优选,电子文件上传组件调用云对象存储HTTP接口,上传当前电子文件的同时,传递基于当前电子文件固定的命名规则解析出的业务唯一标识码和文件业务类别两个参数。
作为优选,步骤S9中,结构化目录数据的关系数据库表以业务唯一标识码作为主键,云对象存储中的文件元数据包含业务唯一标识码信息,基于业务唯一标识码自动实现电子文件和结构化目录数据间的挂接。
此外该实现电子材料数字化流程自动化的方法基于电子文件数字化***,将各个电子文件数字化处理定义为一个流程,实现自动化执行处理。电子文件数字化***将一个请求处理过程分成几个步骤,不同资源消耗的步骤使用不同数量的线程来处理,步骤间使用事件驱动的异步通信模式。电子文件数字化***提供常用文件读写组件、数据库读写和脚本扩展调用组件,其中“脚本扩展调用组件”可通过脚本实现对其他专业软件处理能力的调用执行,比如“可搜索PDF生成”处理步骤的底层实现既可以调用专业商业软件,也可以调用OCR云服务或者自定义实现。电子文件数字化的处理作业***,可以将各类不同技术实现处理程序组织成工作流,让***按照组装的流水线模式和工作流进行自动运行,实现高度智能化。
与现有技术相比,本发明的实现电子材料数字化流程自动化的方法具有以下突出的有益效果:所述实现电子材料数字化流程自动化的方法实现电子化文件预处理、OCR文字识别、结构化目录数据自动提取及最终电子文件和目录数据入库等流水线的工作,加快电子文件数字化处理速度,同时避免人工操作失误或者操作环境异常导致数据不一致的情况,具有良好的推广应用价值。
附图说明
图1是本发明所述实现电子材料数字化流程自动化的方法的流程图。
具体实施方式
下面将结合附图和实施例,对本发明的实现电子材料数字化流程自动化的方法作进一步详细说明。
实施例
如图1所示,本发明的实现电子材料数字化流程自动化的方法,包括以下步骤:
S1、获取电子文件。
S2、判断电子文件类型。
判断电子文件类型是否为PDF类型,若为非PDF类型则使用PDF生成组件转化为PDF格式文件。基于PowerShell脚本引入Microsoft.Office.Interop.Word等类库实现office格式文件转换生成pdf文件,Linux环境可基于libreoffice基础组件来生成PDF文件,统一转换成PDF格式文件的目的是在电子文件数字化数据查询***中能够提供文件在线浏览功能。
S3、电子文件预处理。
针对横向排版的页面进行自动纠偏和去空白页的预处理。
S4、生成可搜索PDF文件。
“生成可搜索PDF”步骤对应的功能程序将检查PDF文件的文本图层,并且如果存在文本图层且包含的文本质量较好,将使用现有的文本图层,否者将使用OCR创建新的文本图层。
S5、提取结构化目录数据。
结构化目录数据提取组件间生成的可搜索的PDF文件作为输入,读取电子文件第一页的文本内容,采用关键字正则表达式匹配的方式读取当前电子文件的文件业务类别、业务唯一标识码的信息项,形成当前电子文件的结构化形式的目录项信息。
S6、结构化目录数据入库。
基于“结构化目录数据提取”步骤提取电子文件的目录数据,以“{业务唯一标识码}-{文件业务类别}”规则重新命名当前电子文件。在“电子文件上传”步骤中,调用云对象存储服务接口传递当前电子文件的同时,传递基于当前电子文件固定的命名规则解析出的“业务唯一标识码”和“文件业务类别”两个参数。云对象存储服务不只提供文件存储功能,同时提供电子文件元数据如文件名称、文件大小、文件存储路径、文件类别及业务编码(对应科技计划类电子材料的业务唯一标识码)等的结构化目录数据的存储。
S7、电子文件特定规则重新命名。
将解析出的结构化目录数据,以业务唯一标识码-文件业务类别规则,重新命名当前电子文件。
S8、电子文件上传。
电子文件上传组件基于电子文件固定的命名规则解析当前电子文件的业务唯一标识码和所属文件业务类别,调用云对象存储服务接口传递当前电子文件的同时,传递基于当前电子文件固定的命名规则解析出的业务唯一标识码和文件业务类别两个参数。
S9、电子文件与结构化目录数据自动连接。
结构化目录数据的关系数据库表以业务唯一标识码作为主键,基于业务唯一标识码自动实现电子文件和结构化目录数据间的挂接。
S10、通过脚本编程将上述各步骤组织成工作流,自动化管理数据流在在上述各步骤间流转。
该实现电子材料数字化流程自动化的方法基于电子文件数字化***,将各个电子文件数字化处理定义为一个流程,实现自动化执行处理。电子文件数字化***将一个请求处理过程分成几个步骤,不同资源消耗的步骤使用不同数量的线程来处理,步骤间使用事件驱动的异步通信模式。电子文件数字化***提供常用文件读写组件、数据库读写和脚本扩展调用组件,其中“脚本扩展调用组件”可通过脚本实现对其他专业软件处理能力的调用执行,比如“可搜索PDF生成”处理步骤的底层实现既可以调用专业商业软件,也可以调用OCR云服务或者自定义实现。电子文件数字化的处理作业***,可以将各类不同技术实现处理程序组织成工作流,让***按照组装的流水线模式和工作流进行自动运行,实现高度智能化。
以上所述的实施例,只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (10)

1.一种实现电子材料数字化流程自动化的方法,其特征在于:包括以下步骤:
S1、获取电子文件;
S2、判断电子文件类型;
S3、电子文件预处理;
S4、生成可搜索PDF文件;
S5、提取结构化目录数据;
S6、结构化目录数据入库;
S7、电子文件特定规则重新命名;
S8、电子文件上传;
S9、电子文件与结构化目录数据自动连接;
S10、通过脚本编程将上述各步骤组织成工作流,自动化管理数据流在在上述各步骤间流转。
2.根据权利要求1所述的实现电子材料数字化流程自动化的方法,其特征在于:步骤S2中,判断电子文件类型是否为PDF类型,若为非PDF类型则使用PDF生成组件转化为PDF格式文件。
3.根据权利要求2所述的实现电子材料数字化流程自动化的方法,其特征在于:PDF生成组件基于脚本实现office格式文件转换成PDF文件。
4.根据权利要求3所述的实现电子材料数字化流程自动化的方法,其特征在于:步骤S3中,基于itextpdf类库通过脚本实现横向排版的页面自动纠偏、空白页自动去除的预处理。
5.根据权利要求4所述的实现电子材料数字化流程自动化的方法,其特征在于:步骤S4中,可搜索PDF生成组件检查PDF文件的文本图层,若存在文本图层,使用现有的文本图层,否则使用OCR创建新的文本图层。
6.根据权利要求5所述的实现电子材料数字化流程自动化的方法,其特征在于:步骤S5中,结构化目录数据提取组件间生成的可搜索的PDF文件作为输入,读取电子文件第一页的文本内容,采用关键字正则表达式匹配的方式读取当前电子文件的文件业务类别、业务唯一标识码的信息项,形成当前电子文件的结构化形式的目录项信息。
7.根据权利要求6所述的实现电子材料数字化流程自动化的方法,其特征在于:步骤S6中,将解析出的结构化目录数据导入关系数据库,以业务唯一标识码作为数据库表主键。
8.根据权利要求7所述的实现电子材料数字化流程自动化的方法,其特征在于:步骤S7中,将解析出的结构化目录数据,以业务唯一标识码-文件业务类别的命名规则,重新命名当前电子文件。
9.根据权利要求8所述的实现电子材料数字化流程自动化的方法,其特征在于:步骤S8中,电子文件上传组件调用云对象存储HTTP接口,上传当前电子文件的同时,传递基于当前电子文件固定的命名规则解析出的业务唯一标识码和文件业务类别两个参数。
10.根据权利要求9所述的实现电子材料数字化流程自动化的方法,其特征在于:步骤S9中,结构化目录数据的关系数据库表以业务唯一标识码作为主键,云对象存储中的文件元数据包含业务唯一标识码信息,基于业务唯一标识码自动实现电子文件和结构化目录数据间的挂接。
CN202110294010.0A 2021-03-19 2021-03-19 一种实现电子材料数字化流程自动化的方法 Pending CN113157642A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110294010.0A CN113157642A (zh) 2021-03-19 2021-03-19 一种实现电子材料数字化流程自动化的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110294010.0A CN113157642A (zh) 2021-03-19 2021-03-19 一种实现电子材料数字化流程自动化的方法

Publications (1)

Publication Number Publication Date
CN113157642A true CN113157642A (zh) 2021-07-23

Family

ID=76887818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110294010.0A Pending CN113157642A (zh) 2021-03-19 2021-03-19 一种实现电子材料数字化流程自动化的方法

Country Status (1)

Country Link
CN (1) CN113157642A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590551A (zh) * 2021-07-30 2021-11-02 广东时谛智能科技有限公司 一种材料数字化扩展格式***、方法、介质及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492199A (zh) * 2018-10-17 2019-03-19 四川译讯信息科技有限公司 一种基于ocr预判断的pdf文件转换方法
CN110675289A (zh) * 2019-09-29 2020-01-10 四川大学 一种随案刑事一审电子卷宗目录编著方法
CN110705503A (zh) * 2019-10-14 2020-01-17 北京信息科技大学 生成目录结构化信息的方法和装置
CN111352898A (zh) * 2020-05-25 2020-06-30 浙江明度智控科技有限公司 一种药品申报文档的智能归档方法和***
CN111753500A (zh) * 2020-07-07 2020-10-09 江苏中威科技软件***有限公司 版式化后的电子表单与ofd合并展现及目录生成的方法
CN112380255A (zh) * 2020-11-16 2021-02-19 广东亿迅科技有限公司 一种业务处理方法、装置、设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492199A (zh) * 2018-10-17 2019-03-19 四川译讯信息科技有限公司 一种基于ocr预判断的pdf文件转换方法
CN110675289A (zh) * 2019-09-29 2020-01-10 四川大学 一种随案刑事一审电子卷宗目录编著方法
CN110705503A (zh) * 2019-10-14 2020-01-17 北京信息科技大学 生成目录结构化信息的方法和装置
CN111352898A (zh) * 2020-05-25 2020-06-30 浙江明度智控科技有限公司 一种药品申报文档的智能归档方法和***
CN111753500A (zh) * 2020-07-07 2020-10-09 江苏中威科技软件***有限公司 版式化后的电子表单与ofd合并展现及目录生成的方法
CN112380255A (zh) * 2020-11-16 2021-02-19 广东亿迅科技有限公司 一种业务处理方法、装置、设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590551A (zh) * 2021-07-30 2021-11-02 广东时谛智能科技有限公司 一种材料数字化扩展格式***、方法、介质及设备
CN113590551B (zh) * 2021-07-30 2023-09-01 广东时谛智能科技有限公司 一种材料数字化扩展格式***、方法、介质及设备

Similar Documents

Publication Publication Date Title
CN109947789B (zh) 一种多数据库的数据处理的方法、装置、计算机设备及存储介质
EP1990740A1 (en) Schema matching for data migration
WO2006102512A2 (en) Change control management of xml documents
CN110738049B (zh) 相似文本的处理方法、装置及计算机可读存储介质
CN110737630A (zh) 电子归档文件的处理方法、装置、计算机设备及存储介质
CN108287889B (zh) 一种基于弹性表模型的多源异构数据存储方法和***
CN113157642A (zh) 一种实现电子材料数字化流程自动化的方法
CN114330284A (zh) 一种基于规则模型的自动化保险条款解析方法
US11537785B1 (en) Spreadsheet flat data extractor
CN117033249B (zh) 一种测试用例生成方法、装置、计算机设备及存储介质
CN113268265A (zh) 字典数据提取方法、装置、设备及存储介质
CN112667873A (zh) 一种适用于多数网站通用采集数据的爬虫***及方法
CN109740130B (zh) 用于生成文件的方法和装置
CN114495138A (zh) 一种智能文档识别与特征提取方法、装置平台和存储介质
CN108182285B (zh) 信息处理方法、终端及计算机可读存储介质
CN111522815A (zh) 一种企业基本信息入库的方法
CN113947389B (zh) 一种陶瓷供应链***磅单的数字化方法及其数字化***
CN115640758B (zh) 一种基于知识构建的三维模型数模质检方法
US11182238B2 (en) Problematic characters
CN111427938B (zh) 数据转存的方法和装置
CN118411190A (zh) 一种数据资产管理方法、装置、设备及可读存储介质
CN112861473B (zh) 基于openpyxl的目录审查结果汇总***及方法
CN117648920A (zh) 研报数据处理方法、装置、计算机设备和存储介质
CN114564929A (zh) 一种标准化技术工程文件的信息处理方法和***
Khalid et al. MDPrep: Data Preparation for Metadata Management.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210723