CN117556784A - 一种从Excel文档中提取自定义图片的方法及*** - Google Patents
一种从Excel文档中提取自定义图片的方法及*** Download PDFInfo
- Publication number
- CN117556784A CN117556784A CN202410038520.5A CN202410038520A CN117556784A CN 117556784 A CN117556784 A CN 117556784A CN 202410038520 A CN202410038520 A CN 202410038520A CN 117556784 A CN117556784 A CN 117556784A
- Authority
- CN
- China
- Prior art keywords
- picture
- client
- excel document
- extracting
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 28
- 239000000284 extract Substances 0.000 claims abstract description 9
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 7
- 238000012795 verification Methods 0.000 claims abstract description 4
- 230000008569 process Effects 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种从Excel文档中提取自定义图片的方法及***,该方法包括如下步骤:S1:配置提取图片后的存储地址;S2:判断客户端的运行状态;S3:将待处理的Excel文档上传至客户端;S4:客户端通过Excel文档内容校验算法判断是否可以进行下一步操作处理;S5:客户端首先采用自定义或自动命名的方式对文档进行命名,然后采用二次处理的方式对Excel文档中的图片数据进行提取,并最后输出至步骤S1所指定的存储位置。本发明可安全、快速的从Excel中提取图片,并拓展支持自定义文件名、文件类型,以及存储地址。
Description
技术领域
本发明涉及数据存储技术领域,尤其涉及一种从Excel文档中提取自定义图片的方法及***。
背景技术
当前从Excel中提取图片大致分为两种方式,一种是利用在线的三方收费工具提取图片,另一种是本地将Excel文件类型变成压缩包后再提取,然而这两种方式都存在一定的局限性,具体如下:
第一种利用在线的三方收费工具提取图片最大的缺陷就是信息泄露,图片信息可能涉及个人的肖像、或者是身份证之类的保密信息。当我们使用在线的三方工具提取时,无疑我们的图片数据,以及Excel中的各种信息都是暴露无遗的,如果三方工具提取了信息中的有用数据,对我们来说都是一种巨大的损失,而且还可能面临着潜藏的风险,对于Excel中有着重要数据和重要图片信息时,这种有着信息外泄风险的做法肯定不能使用。除此之外,这类工具都是执行着收费模式的盈利策略,一般有着需要开通某个服务网站的会员、或者按照处理文件大小收费不等,对于需要有大量图片提取或者不想额外付费的需求方来说也是不能接受的方式。最后这种方式自定义的部分比较局限,比如文件名称或者格式之类的,都不能按照自己的意愿进行自定义处理。
第二种本地处理Excel文件,这种方式的步骤是将Excel文件类型变更为.rar或者.tar类型的压缩文件,然后再将压缩文件解压,便可以得到Excel文件中的图片文件。这种方式有一个大前提是Excel的版本必须是大于2007版,因为这个版本以后是采用的xml格式存储才能支持。以这种方式提取的图片文件名称也是固定的,不能做到自定义文件名称或者自定义文件类型。如果有大批量的提取图片需要重命名,一种方式是对单个文件进行手动处理,显然这是一项巨大的工作量,对于上千上万的图片就根本不可能完成;另一种方式需要有一定的编程基础才能完成,就是通过脚本用程序自动化完成文件名的替换,这里有一定的门槛,需要编写批处理脚本,而且数据量比较大的时候怎么自定义文件名和怎样写批处理程序都是需要编程功底的,所以这对大多数人来说应该是一个完成不了的任务。
发明内容
本发明的目的是提供一种从Excel文档中提取自定义图片的方法及***,以解决如何安全、快速的从Excel中提取图片,并拓展支持自定义文件名、文件类型,以及存储地址的技术问题。
本发明是采用以下技术方案实现的:一种从Excel文档中提取自定义图片的方法,包括如下步骤:
S1:配置提取图片后的存储地址;
S2:判断客户端的运行状态,若客户端运行正常,则进行步骤S3,若客户端异常,则重新启动客户端;
S3:将待处理的Excel文档上传至客户端;
S4:客户端通过Excel文档内容校验算法判断是否可以进行下一步操作处理,若可以正常处理,则进行步骤S5;
S5:客户端首先采用自定义或自动命名的方式对文档进行命名,然后采用二次处理的方式对Excel文档中的图片数据进行提取,并最后输出至步骤S1所指定的存储地址。
进一步的,步骤S1具体为:根据需求,配置提取图片文件后保存的位置,所述位置包括云存储地址和本地地址。
进一步的,步骤S2具体为:确保客户端提取图片的服务在线,通过访问地址来判断服务是否正常,若服务在线,则进行步骤S3,若服务没有在线,则通过脚本,启动客户端。
进一步的,步骤S4具体为:当客户端接收到Excel文档后,对文档中的图片进行校验,校验图片是否以单图的形式存在,若图片为单图,则进行步骤S5,若图片为组图,则终止。
进一步的,步骤S5包括如下子步骤:
S51:客户端首先判断用户是否指定使用Excel文档中的哪一列信息为文件名,如果有明确的指定,则直接使用该列信息;如果没有指定,则自动匹配出Excel文档中最能标识个人信息的字段,匹配过程为经过排序后的名称,采用优先模糊匹配的原则,匹配成功就退出的逻辑,若最后文件所有属性列都未成功匹配,则采用默认递增序号进行命名。
进一步的,步骤S5还包括如下子步骤:
S52:通过客户端读取Excel文档中的图片信息,遍历文档中的每个sheet页进行分别处理,通过POI工具读出单元格中的图片数据,此时同时记录图片信息以及图片所在的单元格位置信息并缓存。
进一步的,步骤S5还包括如下子步骤:
S53:客户端通过步骤S52图片记录的位置信息,查找步骤S51得到的图片命名信息后,对图片进行重命名处理和文件类型自定义处理,并根据步骤S1配置的存储地址,保存文件到目标位置。
一种从Excel文档中提取自定义图片的***,用以实现上述所述的一种从Excel文档中提取自定义图片的方法,包括配置模块、判断模块、上传模块以及客户端,其中,
配置模块,用以配置提取图片后的存储地址;
判断模块,用以判断客户端的运行状态,若客户端运行正常,则进行步骤S3,若客户端异常,则重新启动客户端;
上传模块,用以将待处理的Excel文档上传至客户端;
客户端,用Excel文档内容检测算法判断是否可以继续正常处理,并采用自定义或自动命名的方式对文档进行命名,然后采用二次处理的方式对Excel文档中的图片数据进行提取,并最后输出至配置模块指定的存储地址。
一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,实现上述所述的一种从Excel文档中提取自定义图片的方法。
一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现上述所述的一种从Excel文档中提取自定义图片的方法。
本发明的有益效果在于:
1. 本发明主要是利用了Java技术对Excel文件进行读取,然后二次处理的过程,本地处理可以有效保证数据的安全性和可观的处理速度,以及通过Excel文本的输入数据可以产生出自定义的文件名称和文件类型,进而通过程序的配置文件可以指定云存储,如果不指定云存储,默认会保存到本地。
2. 本发明可安全、快速的从Excel中提取图片,并拓展支持自定义文件名、文件类型,以及存储地址。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明原理图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
下面结合附图,对本发明的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
参见图1,一种从Excel文档中提取自定义图片的方法,包括如下步骤:
S1:配置提取图片后的存储地址;
S2:判断客户端的运行状态,若客户端运行正常,则进行步骤S3,若客户端异常,则重新启动客户端;
S3:将待处理的Excel文档上传至客户端;
S4:客户端通过Excel文档内容校验算法判断是否可以进行下一步操作处理,若可以正常处理,则进行步骤S5;
S5:客户端首先采用自定义或自动命名的方式对文档进行命名,然后采用二次处理的方式对Excel文档中的图片数据进行提取,并最后输出至步骤S1所指定的存储地址。
在本实施例当中,步骤S1具体为:根据使用需求,配置提取图片文件后保存的位置,可以配置自己的云存储地址,也可以使用默认配置直接保存到本地。
在本实施例当中,步骤S2具体为:确保客户端提取图片信息的服务在线,也就是客户端要处于正常运行的状态,可以通过访问一个健康地址来判断服务是否正常,若服务没有在线,可以双击(windows***下)启动脚本,一键启动服务。
步骤S3~S5具体的处理过程为:上传待处理的Excel文档至客户端,并指定使用哪个字段作为文件名,如果不指定文件名的类型,客户端会自动优先选择最能标识用户身份的字段作为文件名输出,例如会优先匹配身份证号、姓名等,然后等客户端执行完以后,可以到指定的位置查找输出的图片文件。具体的,步骤S4:当客户端接收到Excel文档后,对文档中的图片进行校验,校验图片是否以单图的形式存在,若图片为单图,则进行步骤S5,若图片为组图,则终止;因为如果是组图,不能区分出这张图对应于哪个人导致文件名和图片的映射关系出现错误。
进一步的,步骤S5如下:
S51:客户端首先判断用户是否指定使用Excel文档中的哪一列信息为文件名,如果有明确的指定,则直接使用该列信息;如果没有指定,则自动匹配出Excel文档中最能标识个人信息的字段,匹配过程为客户端内定的一系列经过排序后的名称,采用优先模糊匹配的原则,匹配成功就退出的逻辑,若最后文件所有属性列都未成功匹配,则采用默认递增序号进行命名,这一步最后会把文件中每一行对应的用户标识(身份证号或姓名)进行缓存,以供后续为文件重命名提供支持。
S52:通过客户端读取Excel文档中的图片信息,遍历文档中的每个sheet页进行分别处理,通过POI工具读出单元格中的图片数据,此时同时记录图片信息以及图片所在的单元格位置信息并缓存。
S53:客户端通过步骤S52图片记录的位置信息,查找步骤S51得到的图片命名信息后,对图片进行重命名处理和文件类型自定义处理,并根据步骤S1配置的存储地址,保存文件到目标位置。
总的来说,本发明的设计思路为:用户在客户端的操作页面上传文件,并可以自定义执行参数;然后服务端(本机)接收到文件后,进行文件是否可以正常处理的检查,检查通过后会依次进行图片文件名的提取、图片数据的提取,以及最后的图片文件自定义的处理;最后输出文件到本地或者云端存储。
本发明还提供了一种从Excel文档中提取自定义图片的***,用以实现上述所述的一种从Excel文档中提取自定义图片的方法,包括配置模块、判断模块、上传模块以及客户端,其中,
配置模块,用以配置提取图片后的存储地址;
判断模块,用以判断客户端的运行状态,若客户端运行正常,则进行步骤S3,若客户端异常,则重新启动客户端;
上传模块,用以将待处理的Excel文档上传至客户端;
客户端,用Excel文档内容检测算法判断是否可以继续正常处理,并采用自定义或自动命名的方式对文档进行命名,然后采用二次处理的方式对Excel文档中的图片数据进行提取,并最后输出至配置模块指定的存储地址。
本发明还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,实现上述所述的一种从Excel文档中提取自定义图片的方法。
本发明还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现上述所述的一种从Excel文档中提取自定义图片的方法。
基于上述实施例,本发明至少具有以下技术效果:
本发明主要是利用了Java技术对Excel文件进行读取,然后二次处理的过程,本地处理可以有效保证数据的安全性和可观的处理速度,以及通过Excel文本的输入数据可以产生出自定义的文件名称和文件类型,进而通过程序的配置文件可以指定云存储,如果不指定云存储,默认会保存到本地。本发明可安全、快速的从Excel中提取图片,并拓展支持自定义文件名、文件类型,以及存储地址。
对于前述的实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例属于优选实施例,所涉及的动作并不一定是本申请所必需的。
上述实施例中,描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (8)
1.一种从Excel文档中提取自定义图片的方法,其特征在于,包括如下步骤:
S1:配置提取图片后的存储地址;
S2:判断客户端的运行状态,若客户端运行正常,则进行步骤S3,若客户端异常,则重新启动客户端;
S3:将待处理的Excel文档上传至客户端;
S4:客户端通过Excel文档内容校验算法判断是否可以进行下一步操作处理,若可以正常处理,则进行步骤S5;
S5:客户端首先采用自定义或自动命名的方式对文档进行命名,然后采用二次处理的方式对Excel文档中的图片数据进行提取,并最后输出至步骤S1所指定的存储地址。
2.如权利要求1所述的一种从Excel文档中提取自定义图片的方法,其特征在于,步骤S1具体为:配置提取图片文件后保存的位置,所述位置包括云存储地址和本地地址。
3.如权利要求1所述的一种从Excel文档中提取自定义图片的方法,其特征在于,步骤S2具体为:确保客户端提取图片的服务在线,通过访问地址来判断服务是否正常,若服务在线,则进行步骤S3,若服务没有在线,则通过脚本,启动服务端。
4.如权利要求1所述的一种从Excel文档中提取自定义图片的方法,其特征在于,步骤S4具体为:当客户端接收到Excel文档后,对文档中的图片进行校验,校验图片是否以单图的形式存在,若图片为单图,则进行步骤S5,若图片为组图,则终止。
5.如权利要求1所述的一种从Excel文档中提取自定义图片的方法,其特征在于,步骤S5包括如下子步骤:
S51:客户端首先判断用户是否指定使用Excel文档中的哪一列信息为文件名,如果有明确的指定,则直接使用该列信息;如果没有指定,则自动匹配出Excel文档中标识个人信息的字段,匹配过程为经过排序后的名称,采用优先模糊匹配的原则,匹配成功就退出的逻辑,若最后文件所有属性列都未成功匹配,则采用默认递增序号进行命名。
6.如权利要求5所述的一种从Excel文档中提取自定义图片的方法,其特征在于,步骤S5还包括如下子步骤:
S52:通过客户端读取Excel文档中的图片信息,遍历文档中的每个sheet页进行分别处理,通过POI工具读出单元格中的图片数据,此时同时记录图片信息以及图片所在的单元格位置信息并缓存。
7.如权利要求6所述的一种从Excel文档中提取自定义图片的方法,其特征在于,步骤S5还包括如下子步骤:
S53:客户端通过步骤S52图片记录的位置信息,查找步骤S51得到的图片命名信息后,对图片进行重命名处理和文件类型自定义处理,并根据步骤S1配置的存储地址,保存文件到目标位置。
8.一种从Excel文档中提取自定义图片的***,用以实现权利要求1~7任意一项所述的一种从Excel文档中提取自定义图片的方法,其特征在于,包括配置模块、判断模块、上传模块以及客户端,其中,
配置模块,用以配置提取图片后的存储地址;
判断模块,用以判断客户端的运行状态,若客户端运行正常,则进行步骤S3,若客户端异常,则重新启动客户端;
上传模块,用以将待处理的Excel文档上传至客户端;
客户端,用Excel文档内容检测算法判断是否可以继续正常处理,并采用自定义或自动命名的方式对文档进行命名,然后采用二次处理的方式对Excel文档中的图片数据进行提取,并最后输出至配置模块指定的存储地址。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410038520.5A CN117556784A (zh) | 2024-01-11 | 2024-01-11 | 一种从Excel文档中提取自定义图片的方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410038520.5A CN117556784A (zh) | 2024-01-11 | 2024-01-11 | 一种从Excel文档中提取自定义图片的方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117556784A true CN117556784A (zh) | 2024-02-13 |
Family
ID=89823524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410038520.5A Pending CN117556784A (zh) | 2024-01-11 | 2024-01-11 | 一种从Excel文档中提取自定义图片的方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117556784A (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109636303A (zh) * | 2018-10-27 | 2019-04-16 | 华中科技大学 | 一种半自动提取和结构化文档信息的存储方法及*** |
-
2024
- 2024-01-11 CN CN202410038520.5A patent/CN117556784A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109636303A (zh) * | 2018-10-27 | 2019-04-16 | 华中科技大学 | 一种半自动提取和结构化文档信息的存储方法及*** |
Non-Patent Citations (2)
Title |
---|
小翰子_: "JAVA POI的excel中包含图片进行读取保存, 单张图片, 多张图片", pages 1 - 3, Retrieved from the Internet <URL:https://blog.csdn.net/qq_43409973/article/details/131556630> * |
秃头老舒: "POI实现读取excel中的图片并使用其中一列命名导出到文件夹", pages 1 - 3, Retrieved from the Internet <URL:https://blog.csdn.net/qq_45069494/article/details/121858704> * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10482134B2 (en) | Document management techniques to account for user-specific patterns in document metadata | |
JP5617095B2 (ja) | 新たな画像及びその情報を画像データベースに書き込むための方法、システム、及びプログラム | |
CN107704539B (zh) | 大规模文本信息批量结构化的方法及装置 | |
US9454535B2 (en) | Topical mapping | |
CN113407785B (zh) | 一种基于分布式储存***的数据处理方法和*** | |
RU2768233C1 (ru) | Нечеткий поиск с использованием форм слов для работы с большими данными | |
CA3044034A1 (en) | Electronic form identification using spatial information | |
CN112149387A (zh) | 财务数据的可视化方法、装置、计算机设备及存储介质 | |
US11755958B1 (en) | Systems and methods for detecting cryptocurrency wallet artifacts in a file system | |
CN111090668B (zh) | 数据检索方法及装置、电子设备和计算机可读存储介质 | |
CN117251777A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN117556784A (zh) | 一种从Excel文档中提取自定义图片的方法及*** | |
CN106502825A (zh) | 数据处理方法及装置 | |
CN115050042A (zh) | 一种理赔资料录入方法、装置、计算机设备及存储介质 | |
AU2021364331A1 (en) | Systems and methods for enabling relevant data to be extracted from a plurality of documents | |
CN114820211B (zh) | 理赔资料质检核验方法、装置、计算机设备及存储介质 | |
US12014561B2 (en) | Image reading systems, methods and storage medium for performing geometric extraction | |
CN112989823B (zh) | 一种日志处理方法、装置、设备及存储介质 | |
CN117493466B (zh) | 财务数据同步方法及*** | |
US20230418833A1 (en) | Generation of feature stores | |
CN117492752A (zh) | 一种页面动态配置方法、装置、计算机设备及存储介质 | |
CN117278298A (zh) | 基于人工智能的域名检测方法、装置、设备及存储介质 | |
CN117875321A (zh) | 信息录入方法、装置、计算机设备及存储介质 | |
CN114064390A (zh) | 日志碰撞规则转化方法、装置、***和电子装置 | |
CN117389607A (zh) | 看板配置方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |