CN112818937A - Excel文件的识别方法、装置、电子设备及可读存储介质 - Google Patents
Excel文件的识别方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN112818937A CN112818937A CN202110231358.5A CN202110231358A CN112818937A CN 112818937 A CN112818937 A CN 112818937A CN 202110231358 A CN202110231358 A CN 202110231358A CN 112818937 A CN112818937 A CN 112818937A
- Authority
- CN
- China
- Prior art keywords
- column
- row
- excel file
- name
- cell data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000015654 memory Effects 0.000 claims description 30
- 230000007717 exclusion Effects 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000009191 jumping Effects 0.000 claims description 3
- 230000008676 import Effects 0.000 abstract description 27
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及清单识别技术领域,公开了一种Excel文件的识别方法、装置、电子设备及可读存储介质。其中,该方法包括:获取目标Excel文件;解析所述目标Excel文件,得到所述目标Excel文件的单元格数据;识别所述单元格数据,确定所述目标Excel文件对应的列名称和/或行名称;基于所述列名称和/或所述行名称,确定与所述列名称和/或所述行名称对应的列文本数据和/或行文本数据。通过实施本发明,实现了目标Excel文件的自动识别,避免目标Excel文件的格式与模板格式不一致而导致文件导入出错的问题,从而实现了任意格式的Excel文件均能成功导入。
Description
技术领域
本发明涉及清单识别技术领域,具体涉及一种Excel文件的识别方法、装置、电子设备及可读存储介质。
背景技术
工程造价中通常会涉及招标方和投标方,而投标方通常需要对招标方提供的Excel格式的清单导入至软件中进行造价计算。目前,在进行Excel文件数据导入时,软件通常只能识别特定模板格式的Excel文件,如果招标方提供的Excel文件的格式恰好与软件能识别的模板格式一致,则可以直接导入。但是,软件不能自动识别Excel文件的行和列,当招标方提供的Excel文件的格式与软件能识别的模板格式不一致时,便需要投标方将招标方的Excel文件的格式手动调整至与软件能识别的模板格式一致,才能够实现Excel文件数据的导入,否则将会导致Excel文件数据的导入错误。
发明内容
有鉴于此,本发明实施例提供了一种Excel文件的识别方法、装置、电子设备及可读存储介质,以解决Excel文件的行和列不能自动识别而导致文件导入错误的问题。
根据第一方面,本发明实施例提供了一种Excel文件的识别方法,包括如下步骤:获取目标Excel文件;解析所述目标Excel文件,得到所述目标Excel文件的单元格数据;识别所述单元格数据,确定所述目标Excel文件对应的列名称和/或行名称;基于所述列名称和/或所述行名称,确定与所述列名称和/或所述行名称对应的列文本数据和/或行文本数据。
本发明实施例提供的Excel文件的识别方法,通过解析获取到的目标Excel文件,得到目标Excel文件中的各个单元格数据,对各个单元格数据进行识别,确定目标Excel文件对应的列名称和/或行名称,以及与列名称和/或行名称对应的列文本数据和/或行文本数据。该方法无需目标Excel文件必须按照一定的模板格式导入才能被识别,对于任意格式的目标Excel文件均可以通过识别列名称和/或行名称以确定目标Excel文件中包含的列文本数据以及行文本数据,实现了目标Excel文件的自动识别,避免目标Excel文件的格式与模板格式不一致而导致文件导入出错的问题,从而实现了任意格式的Excel文件均能成功导入。
结合第一方面,在第一方面的第一实施方式中,所述识别所述单元格数据,确定与所述目标Excel文件对应的列名称和/或行名称,包括:基于预设标识符对所述单元格数据进行匹配,判断所述单元格数据是否满足匹配条件;当所述单元格数据满足所述匹配条件时,判定所述目标Excel文件识别成功,得到与所述预设标识符对应的列名称和/或行名称。
本发明实施例提供的Excel文件的识别方法,通过预设标识符对各个单元格数据进行匹配,判断单元格数据是否满足匹配条件,当单元格满足匹配条件时,判定目标Excel文件识别成功,得到与预设标识符对应的列名称和/或行名称。其中,预设标识符为对应于列名称或行名称的标识符。由此实现了任意格式的目标Excel文件的自动识别,避免了目标Excel文件的格式与模板格式不一致而导致文件导入出错的问题,从而保证了任意格式的目标Excel文件都能够成功导入。
结合第一方面第一实施方式,在第一方面的第二实施方式中,所述单元格数据包括列单元格数据和行单元格数据,当所述预设识别符为列标识符时,所述基于预设标识符对所述单元格数据进行识别,判断所述单元格数据是否满足匹配条件,包括:获取与所述列标识符对应的识别关键字和排除关键字;判断所述列单元格数据与所述识别关键是否匹配;当所述列单元格数据与所述识别关键字匹配时,判断所述列单元格数据是否与所述排除关键字匹配;当所述列单元格数据与所述排除关键字不匹配时,判定所述列单元格数据满足匹配条件。
结合第一方面第二实施方式,在第一方面的第三实施方式中,当所述预设标识符为行标识符时,所述基于预设标识符对所述单元格数据进行识别,判断所述单元格数据是否满足匹配条件,包括:基于满足所述匹配条件的列单元格数据,确定与当前所述行标识符对应的当前行单元格数据;获取与当前所述行标识符对应的预设条件;判断当前所述行单元格数据是否满足所述预设条件;当当前所述行单元格数据满足所述预设条件时,判定当前所述行单元格数据满足匹配条件。
结合第一方面第三实施方式,在第一方面的第四实施方式中,当所述预设标识符为行标识符时,所述基于预设标识符对所述单元格数据进行识别,判断所述单元格数据是否满足匹配条件,还包括:当当前所述行单元格数据不满足所述预设条件时,判定当前所述行单元格数据匹配失败,并跳转至下一行继续识别。
本发明实施例提供的Excel文件的识别方法,通过列标识符对各个单元格数据进行匹配,确定满足匹配条件的列单元格数据,再基于满足匹配条件的列单元格数据可以确定每一行的行单元格数据,对每一行的行单元格数据依次进行匹配,依次判断行单元格是否满足预设条件,在行单元格数据满足预设条件时判定行单元格数据满足匹配条件。由此实现了任意格式的目标Excel文件行列的自动识别,满足了的任意格式的目标Excel文件的导入。
结合第一方面,在第一方面的第五实施方式中,所述方法还包括:响应于对所述目标Excel文件页签的选择指令,确定所述目标Excel文件对应待导入页签。
本发明实施例提供的Excel文件的识别方法,通过响应于对目标Excel文件页签的选择指令,基于选择指令确定待导入页签及其对应的单元格数据,克服了目标Excel文件难以部分数据导入的缺陷,实现了目标Excel文件的灵活导入。
结合第一方面第一实施方式,在第一方面的第六实施方式中,所述方法还包括:显示经过识别的所述目标Excel文件对应的所述列名称和/或所述行名称,以及与所述列名称和/或所述行名称对应的列文本数据和/或行文本数据列数据和行数据;响应于所述列名称和/或所述行名称的调整指令;基于所述调整指令,调整所述列名称和/或所述行名称。
本发明实施例提供的Excel文件的识别方法,通过显示经过识别的目标Excel文件对应的列名称和/或行名称,以及与列名称和/或行名称对应的列文本数据和/或行文本数据列数据,以使用户能够确定目标Excel文件的识别结果是否正确,避免了盲目导入损坏现有工程文件。当识别结果不合理时,用户可以进行手动调整,电子设备则可以响应于列名称和/或行名称的调整指令,并基于调整指令对列名称和/或行名称进行调整。由此能够实现对识别结果的二次调整,无需修改原始的目标Excel文件,提高了Excel文件的导入效率。
根据第二方面,本发明实施例提供了一种Excel文件的识别装置,包括:获取模块,用于获取目标Excel文件;解析模块,用于解析所述目标Excel文件,得到所述目标Excel文件的单元格数据;识别模块,用于识别所述单元格数据,确定所述目标Excel文件对应的列名称和/或行名称;确定模块,用于基于所述列名称和/或所述行名称,确定与所述列名称和/或所述行名称对应的列文本数据和/或行文本数据。
本发明实施例提供的Excel文件的识别装置,通过解析获取到的目标Excel文件,得到目标Excel文件中的各个单元格数据,对各个单元格数据进行识别,确定目标Excel文件对应的列名称和/或行名称,以及与列名称和/或行名称对应的列文本数据和/或行文本数据。该装置需目标Excel文件必须按照一定的模板格式导入才能被识别,对于任意格式的目标Excel文件均可以通过识别列名称和/或行名称以确定目标Excel文件中包含的列文本数据以及行文本数据,实现了目标Excel文件的自动识别,避免目标Excel文件的格式与模板格式不一致而导致文件导入出错的问题,从而实现了任意格式的Excel文件均能成功导入。
根据第三方面,本发明实施例提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面或第一方面任一实施方式所述的Excel文件的识别方法。
根据第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行第一方面或第一方面任一实施方式所述的Excel文件的识别方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的Excel文件的识别方法的流程图;
图2是根据本发明实施例的Excel文件的识别方法的另一流程图;
图3是根据本发明实施例的Excel文件的识别方法的另一流程图;
图4是根据本发明实施例的Excel文件的识别装置的结构框图;
图5是本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在进行Excel文件数据导入时,软件通常只能识别特定模板格式的Excel文件,如果招标方提供的Excel文件的格式恰好与软件能识别的模板格式一致,则可以直接导入。但是,软件不能自动识别Excel文件的行和列,当招标方提供的Excel文件的格式与软件能识别的模板格式不一致时,便需要投标方将招标方的Excel文件的格式手动调整至与软件能识别的模板格式一致,才能够实现Excel文件数据的导入,否则将会导致Excel文件数据的导入错误。
基于此,本技术方案通过解析Excel文件各个单元格数据,自动识别Excel文件的列名称和/或行名称,无需设定Excel文件的格式,从而实现任意格式的Excel文件的行列数据的自动识别以及成功导入。
根据本发明实施例,提供了一种Excel文件的识别方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种Excel文件的识别方法,可用于电子设备,如手机、电脑、平板电脑等,图1是根据本发明实施例的Excel文件的识别方法的流程图,如图1所示,该流程包括如下步骤:
S11,获取目标Excel文件。
目标Excel文件为导入电子设备中以进行造价计算的建筑材料清单数据。目标Excel文件通常时外部提供的Excel文件,例如,招标方提供Excel清单。用户可以从外部导入目标Excel文件。
S12,解析目标Excel文件,得到目标Excel文件的单元格数据。
单元格数据为单元格中的具体内容。目标Excel文件包含若干行和若干列的文本数据,电子设备可以对该目标Excel文件进行解析,获取目标Excel文件包含的若干个单元格数据。例如,目标Excel文件包含3行3列,则电子设备可以分别对这3行3列的9个单元格中的内容进行解析,以确定每个单元格对应的单元格数据,例如“名称”、“单位”、“cm”等具体的单元格内容。
S13,识别单元格数据,确定目标Excel文件对应的列名称和/或行名称。
电子设备对得到的各个单元格数据由上至下或由左向右进行依次遍历,确定目标Excel文件的表头信息,即列名称和/或行名称。例如,对于一维表格只存在列名称或行名称;对于二维表格,则同时具有列名称和行名称。对于二维表格而言,可以由左至右进行单元格数据的遍历,确定目标Excel文件中的列名称;也可以由上至下进行单元数据的遍历,确定目标Excel文件中的行名称。通常目标Excel文件中对应有多个列名称和/或多个行名称,对于不同的列名称和/或行名称可以定义与其相应的列识别算法或行识别算法。其中,列识别算法和行识别算法的核心均是通过正则表达式进行关键字匹配来进行识别的。
S14,基于列名称和/或行名称,确定与列名称和/或行名称对应的列文本数据和/或行文本数据。
目标Excel文件中的列名称有其对应的列文本数据,行名称有其对应的行文本数据。当识别到目标Excel文件的列名称后即可根据识别到的各个列名称确定与其对应的列文本数据,同理,当识别到目标Excel文件的行名称后即可根据识别到的各个行名称确定与其对应的行文本数据。
本实施例提供的Excel文件的识别方法,通过解析获取到的目标Excel文件,得到目标Excel文件中的各个单元格数据,对各个单元格数据进行识别,确定目标Excel文件对应的列名称和/或行名称,以及与列名称和/或行名称对应的列文本数据和/或行文本数据。该方法无需目标Excel文件必须按照一定的模板格式导入才能被识别,对于任意格式的目标Excel文件均可以通过识别列名称和/或行名称以确定目标Excel文件中包含的列文本数据以及行文本数据,实现了目标Excel文件的自动识别,避免目标Excel文件的格式与模板格式不一致而导致文件导入出错的问题,从而实现了任意格式的Excel文件均能成功导入。
在本实施例中提供了一种Excel文件的识别方法,可用于电子设备,如手机、电脑、平板电脑等,图2是根据本发明实施例的Excel文件的识别方法的流程图,如图2所示,该流程包括如下步骤:
S21,获取目标Excel文件。详细说明参见上述实施例对应步骤S11的相关描述,此处不再赘述。
S22,解析目标Excel文件,得到目标Excel文件的单元格数据。详细说明参见上述实施例对应步骤S12的相关描述,此处不再赘述。
S23,识别单元格数据,确定目标Excel文件对应的列名称和/或行名称。
具体地,上述步骤S23可以包括如下步骤:
S231,基于预设标识符对单元格数据进行匹配,判断单元格数据是否满足匹配条件。
单元格数据包括列单元格数据和行单元格数据,预设标识符为识别行名称或列名称所设定的算法标识符,预设标识符可以包括列标识符和行标识符。具体地,当识别列名称时,可以将列名称作为列标识符,即列识别算法的算法标识符;当识别行名称时,可以将行名称作为行标识符,即行识别算法的算法标识符。基于列识别符或行标识符对单元格数据进行匹配,以确定与列识别符或行标识符对应的单元格数据,即判断单元格数据是否满足匹配条件。
具体地,当预设识别符为列标识符时,上述步骤S231可以包括如下步骤:
(1)获取与列标识符对应的识别关键字和排除关键字。
识别关键字即为包含其的单元格数据均会被识别,排除关键字即为包含其的单元格数据均不会被识别。电子设备可以将识别关键字和排除关键字添加至列识别算法中以进行列名称的识别。识别关键字可以为一个,也可以为多个,此处不作具体限定。需要说明的是,电子设备可以自动将列名称添加至识别关键字列表。
(2)判断列单元格数据与识别关键是否匹配。
遍历识别关键字列表,将各个列单元格数据由上至下进行一一比对,判断列单元格数据中是否存在识别关键字,若列单元格数据中存在某个识别关键字,则判定列单元格数据与识别关键字匹配,执行步骤(3);若上述识别关键字在列单元格数据中均不存在,则匹配失败,判定列单元格数据未识别。
例如,定义列名称“名称”,注册列识别算法:含有“名称”文本。定义列名称“单位”,注册列识别算法:含有“单位”,“计量单位”文本。Excel文件的D3单元格里的内容为“项目名称”,那么将D列识别为“名称”列。E3单元格里的内容为“单位”,那么将E列识别为“单位”列。
(3)判断列单元格数据是否与排除关键字匹配。
当列单元格数据与识别关键字匹配时,进一步判断与识别关键字匹配的列单元格数据是否包含排除关键字,即判断与识别关键字匹配的列单元格数据是否与排除关键字匹配,当与识别关键字匹配的列单元格数据不包含排除关键字时,判定列单元格数据与排除关键字不匹配,执行步骤(4);否则,判定列单元格数据未识别。
(4)判定列单元格数据满足匹配条件。
当列单元格数据与排除关键字不匹配时,表示列单元数据中不包含排除关键字,可以判定列单元格数据满足匹配条件,即目标Excel文件的列识别成功。
具体地,当预设识别符为行标识符时,上述步骤S231还可以包括如下步骤:
(5)基于满足匹配条件的列单元格数据,确定与当前行标识符对应的当前行单元格数据。
行单元格数据即为各个列单元格数据组成的。当确定满足匹配条件的列单元格数据后即可确定目标Excel文件所有的行单元格数据。以行标识符作为行识别算法的算法标识符,不同的行对应于不同的行标识符,基于当前行标识符可以从目标Excel文件的行单元格数据中确定出与其对应的当前行单元格数据。
(6)获取与当前行标识符对应的预设条件。
预设条件为根据具体的造价业务需求所定义的相应行识别规则,此处对行识别规则不作具体限定,本领域技术人员可以根据实际业务需求进行确定。例如清单行,根据清单业务的需求,一定要有名称、编码以及单位,因此行识别规则(预设条件)可以为:该行单元格数据的名称列、编码列以及单位列的内容均不能为空。
(7)判断当前行单元格数据是否满足预设条件。
将当前行单元格数据与预设条件进行比对,确定当前行单元格数据是否满足预设条件。若当前行单元格数据满足预设条件,则执行步骤(8),否则,执行步骤(9)。
(8)判定当前行单元格数据满足匹配条件。
若当前行单元格数据满足预设条件,表示当前行单元格数据符合业务需求,即可以判定当前单元格数据满足匹配条件。
(9)判定当前行单元格数据匹配失败,并跳转至下一行继续识别。
若当前行单元格数据不满足预设条件,则表示当前行单元格数据不符合业务需求,当前行单元格数据匹配失败。此处,电子设备并不会停止行识别,而是跳到下一行对应的行单元格数据继续识别。
例如,定义行名称“清单”,注册行识别算法:某行“名称”列不为空,“单位”列不为空。对于Excel文件第一行,取值D1与E1,两者都没有数据,因此第一行标识为“未识别”。对于第二行,D2里的内容为“挖土方”,E2里的内容为“m3”,两者都不为空,因此将第二行标识为“清单”。
S232,判定目标Excel文件识别成功,得到与预设标识符对应的列名称和/或行名称。
当单元格数据满足匹配条件时,即可确定目标Excel文件的列单元格数据和/或行单元格数据识别成功,此时可以得到与预设标识符对应的列名称和/或行名称。
经过上述配置,电子设备已经具备自动识别的能力。具体的识别过程如下:
(1)列识别。开始对目标Excel文件进行遍历,遍历的顺序按单元格从上至下,从左至右。读取每个单元格里的数据,用各列识别算法进行识别。如果某个单元格的数据被某列的列识别算法所识别,那么把该单元格所在的列标识为定义的列名称,对该列所在的所有单元格,后续不再进行列识别。由于不允许有多个相同的列名称,该列对应的列识别算法已经识别出了列,那么该列识别算法后续不再调用。如此直到所有列识别算法全部识别出了相应的列,或者Excel已经遍历完毕,对于没有被识别出来的列,标识为未识别。
(2)上述的列识别可以作为行识别的基础。同样,重新对目标Excel文件进行遍历,从上到下遍历行即可。遍历到某行时,由于上述列识别已经识别出所有的列,此时不需要再对所有列的单元格数据进行遍历,根据列号取出相关列对应的列单元格数据,用各行识别算法进行识别,如果被某种行识别算法识别,那么将该行标识为定义的行名称,并停止对该行进行行识别,自动跳转到下一行进行识别。如果某行没有被任何一种行识别算法所识别,那么将该行标识为未识别,仍然跳转到下一行继续识别。与列识别不同的是,行识别允许有相同的行名称,因此,对于每一行的行单元格数据,每次都会调用所有的行识别算法进行识别,直至遍历完所有的行单元格数据。
S24,基于列名称和/或行名称,确定与列名称和/或行名称对应的列文本数据和/或行文本数据。详细说明参见上述实施例对应步骤S14的相关描述,此处不再赘述。
本实施例提供的Excel文件的识别方法,通过预设标识符对各个单元格数据进行匹配,判断单元格数据是否满足匹配条件,当单元格满足匹配条件时,判定目标Excel文件识别成功,得到与预设标识符对应的列名称和/或行名称。其中,预设标识符为对应于列名称或行名称的标识符。由此实现了任意格式的目标Excel文件的自动识别,避免了目标Excel文件的格式与模板格式不一致而导致文件导入出错的问题,从而保证了任意格式的目标Excel文件都能够成功导入。
在本实施例中提供了一种Excel文件的识别方法,可用于电子设备,如手机、电脑、平板电脑等,图3是根据本发明实施例的Excel文件的识别方法的流程图,如图3所示,该流程包括如下步骤:
S31,获取目标Excel文件。
S32,解析目标Excel文件,得到目标Excel文件的单元格数据。详细说明参见上述实施例对应步骤S22的相关描述,此处不再赘述。
S33,识别单元格数据,确定目标Excel文件对应的列名称和/或行名称。详细说明参见上述实施例对应步骤S23的相关描述,此处不再赘述。
S34,基于列名称和/或行名称,确定与列名称和/或行名称对应的列文本数据和/或行文本数据。详细说明参见上述实施例对应步骤S24的相关描述,此处不再赘述。
S35,显示经过识别的目标Excel文件对应的列名称和/或行名称,以及与列名称和/或行名称对应的列文本数据和/或行文本数据。
电子设备通过预览界面对将目标Excel文件的所有数据(列文本数据和行文本数据)与行识别结果和列识别结果进行显示。具体地,电子设备可以在预览界面的最上方显示目标Excel文件相应的列识别结果,如果被识别,显示定义的列名称,如果未识别,显示未识别;电子设置可以在预览界面的最左侧显示目标Excel文件相应的行识别结果,如果被识别,显示定义的行名称,如果未识别,显示未识别,并且每行均有一个勾选框,被识别的行自动默认勾选。
S36,响应于列名称和/或行名称的调整指令。
用户通过预览目标Excel文件的识别结果,可以确定该识别结果是否正确,对于识别有误的识别结果,可以进行手动调整。电子设备则可以响应用户输入的列名称和/或行名称的调整指令。具体地,
S37,基于调整指令,调整列名称和/或行名称。
电子设备通过响应用户输入的调整指令对经过识别的目标Excel文件的列名称或行名称进行调整。具体地,对于列,用户可以点击最上方的识别结果,弹出右键菜单,显示出电子设备定义的所有列名称,点击相应的列名称,则电子设备可以响应该点击操作将该列重新定义为所选的列名称。由于不存在相同的列名称,所以会将该列以外的具有相同列名称的其他列自动重新标识为未识标。对于行,用户可以点击左侧的识别结果,弹出右键菜单,显示出电子设备定义的所有行名称,点击相应的行名称,则电子设备可以响应该点击操作将该行重新定义为所选的行名称。
S38,响应于对目标Excel文件页签的选择指令,确定目标Excel文件对应待导入页签。
选择指令为用户输入的对目标Excel文件页签的选择操作,电子设备则可以响应用户输入的选择指令。例如,选择指令可以为页签勾选操作,电子设备则可以响应用户的页签勾选操作。当然选择指令也可以是其他的选择操作,此处不作具体限定,本领域技术人员可以根据实际需要确定。电子设备根据选择指令可以确定与目标Excel文件对应的待导入页签。
具体地,预览界面一次只能显示一个页签的单元格数据以及识别结果,通过预览界面提供的目标Excel文件的页签下拉框可以切换不同的页签。导入时只能导入当前所选页签的单元格数据,如果需要导入当前页签的部分数据,将不需要导入的行所在的勾选框取消勾选即可。
通过自动识别、手动识别以及数据筛选,预览界面可以呈现执行导入的实际单元格数据。导入时,从下到下遍历目标Excel文件,跳过未勾选的行。对于勾选的行,根据识别的行名称,在数据库相应的表中新增一条记录,并记录各字段的数据从该行相应各列中读取,直至遍历完整个目标Excel文件。
本发明实施例提供的Excel文件的识别方法,通过响应于对目标Excel文件页签的选择指令,基于选择指令确定待导入页签及其对应的单元格数据,克服了目标Excel文件难以部分数据导入的缺陷,实现了目标Excel文件的灵活导入。通过显示经过识别的目标Excel文件对应的列名称和/或行名称,以及与列名称和/或行名称对应的列文本数据和/或行文本数据列数据,以使用户能够确定目标Excel文件的识别结果是否正确,避免了盲目导入损坏现有工程文件。当识别结果不合理时,用户可以进行手动调整,电子设备则可以响应于列名称和/或行名称的调整指令,并基于调整指令对列名称和/或行名称进行调整。由此能够实现对识别结果的二次调整,无需修改原始的目标Excel文件,提高了Excel文件的导入效率。
在本实施例中还提供了一种Excel文件的识别装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种Excel文件的识别装置,如图4所示,包括:
获取模块41,用于获取目标Excel文件。详细说明参见上述方法实施例对应的相关描述,此处不再赘述。
解析模块42,用于解析目标Excel文件,得到目标Excel文件的单元格数据。详细说明参见上述方法实施例对应的相关描述,此处不再赘述。
识别模块43,用于识别单元格数据,确定目标Excel文件对应的列名称和/或行名称。详细说明参见上述方法实施例对应的相关描述,此处不再赘述。
确定模块44,用于基于列名称和/或行名称,确定与列名称和/或行名称对应的列文本数据和/或行文本数据。详细说明参见上述方法实施例对应的相关描述,此处不再赘述。
本实施例提供的Excel文件的识别装置,通过解析获取到的目标Excel文件,得到目标Excel文件中的各个单元格数据,对各个单元格数据进行识别,确定目标Excel文件对应的列名称和/或行名称,以及与列名称和/或行名称对应的列文本数据和/或行文本数据。该装置需目标Excel文件必须按照一定的模板格式导入才能被识别,对于任意格式的目标Excel文件均可以通过识别列名称和/或行名称以确定目标Excel文件中包含的列文本数据以及行文本数据,实现了目标Excel文件的自动识别,避免目标Excel文件的格式与模板格式不一致而导致文件导入出错的问题,从而实现了任意格式的Excel文件均能成功导入。
本实施例中的Excel文件的识别装置是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各个模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本发明实施例还提供一种电子设备,具有上述图4所示的Excel文件的识别装置。
请参阅图5,图5是本发明可选实施例提供的一种电子设备的结构示意图,如图5所示,该电子设备可以包括:至少一个处理器501,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口503,存储器504,至少一个通信总线502。其中,通信总线502用于实现这些组件之间的连接通信。其中,通信接口503可以包括显示屏(Display)、键盘(Keyboard),可选通信接口503还可以包括标准的有线接口、无线接口。存储器504可以是高速RAM存储器(Random Access Memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器504可选的还可以是至少一个位于远离前述处理器501的存储装置。其中处理器501可以结合图4所描述的装置,存储器504中存储应用程序,且处理器501调用存储器504中存储的程序代码,以用于执行上述任一方法步骤。
其中,通信总线502可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。通信总线502可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器504可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器504还可以包括上述种类的存储器的组合。
其中,处理器501可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器501还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写:GAL)或其任意组合。
可选地,存储器504还用于存储程序指令。处理器501可以调用程序指令,实现如本申请图1至图3实施例中所示的Excel文件的识别方法。
本发明实施例还提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的Excel文件的识别方法的处理方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(FlashMemory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (10)
1.一种Excel文件的识别方法,其特征在于,包括如下步骤:
获取目标Excel文件;
解析所述目标Excel文件,得到所述目标Excel文件的单元格数据;
识别所述单元格数据,确定所述目标Excel文件对应的列名称和/或行名称;
基于所述列名称和/或所述行名称,确定与所述列名称和/或所述行名称对应的列文本数据和/或行文本数据。
2.根据权利要求1所述的方法,其特征在于,所述识别所述单元格数据,确定与所述目标Excel文件对应的列名称和/或行名称,包括:
基于预设标识符对所述单元格数据进行匹配,判断所述单元格数据是否满足匹配条件;
当所述单元格数据满足所述匹配条件时,判定所述目标Excel文件识别成功,得到与所述预设标识符对应的列名称和/或行名称。
3.根据权利要求2所述的方法,其特征在于,所述单元格数据包括列单元格数据和行单元格数据,当所述预设识别符为列标识符时,所述基于预设标识符对所述单元格数据进行识别,判断所述单元格数据是否满足匹配条件,包括:
获取与所述列标识符对应的识别关键字和排除关键字;
判断所述列单元格数据与所述识别关键是否匹配;
当所述列单元格数据与所述识别关键字匹配时,判断所述列单元格数据是否与所述排除关键字匹配;
当所述列单元格数据与所述排除关键字不匹配时,判定所述列单元格数据满足匹配条件。
4.根据权利要求3所述的方法,其特征在于,当所述预设标识符为行标识符时,所述基于预设标识符对所述单元格数据进行识别,判断所述单元格数据是否满足匹配条件,包括:
基于满足所述匹配条件的列单元格数据,确定与当前所述行标识符对应的当前行单元格数据;
获取与当前所述行标识符对应的预设条件;
判断当前所述行单元格数据是否满足所述预设条件;
当当前所述行单元格数据满足所述预设条件时,判定当前所述行单元格数据满足匹配条件。
5.根据权利要求4所述的方法,其特征在于,当所述预设标识符为行标识符时,所述基于预设标识符对所述单元格数据进行识别,判断所述单元格数据是否满足匹配条件,还包括:
当当前所述行单元格数据不满足所述预设条件时,判定当前所述行单元格数据匹配失败,并跳转至下一行继续识别。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于对所述目标Excel文件页签的选择指令,确定所述目标Excel文件对应待导入页签。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
显示经过识别的所述目标Excel文件对应的所述列名称和/或所述行名称,以及与所述列名称和/或所述行名称对应的列文本数据和/或行文本数据;
响应于所述列名称和/或所述行名称的调整指令;
基于所述调整指令,调整所述列名称和/或所述行名称。
8.一种Excel文件的识别装置,其特征在于,包括:
获取模块,用于获取目标Excel文件;
解析模块,用于解析所述目标Excel文件,得到所述目标Excel文件的单元格数据;
识别模块,用于识别所述单元格数据,确定所述目标Excel文件对应的列名称和/或行名称;
确定模块,用于基于所述列名称和/或所述行名称,确定与所述列名称和/或所述行名称对应的列文本数据和/或行文本数据。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-7任一项所述的Excel文件的识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1-7任一项所述的Excel文件的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110231358.5A CN112818937B (zh) | 2021-03-02 | Excel文件的识别方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110231358.5A CN112818937B (zh) | 2021-03-02 | Excel文件的识别方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112818937A true CN112818937A (zh) | 2021-05-18 |
CN112818937B CN112818937B (zh) | 2024-06-28 |
Family
ID=
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115757423A (zh) * | 2022-11-29 | 2023-03-07 | 中诚智信工程咨询集团股份有限公司 | 工程造价数据修正方法、***、设备及存储介质 |
CN116611430A (zh) * | 2023-07-17 | 2023-08-18 | 深圳市维度数据科技股份有限公司 | excel文件的处理方法、装置、电子设备及存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005070829A (ja) * | 2003-08-22 | 2005-03-17 | Merchandising On:Kk | データ処理装置、データ処理方法およびそのプログラム |
US20070078872A1 (en) * | 2005-09-30 | 2007-04-05 | Ronen Cohen | Apparatus and method for parsing unstructured data |
US20140136243A1 (en) * | 2012-11-13 | 2014-05-15 | Hartford Fire Insurance Company | System and method for loss analysis |
CN106649319A (zh) * | 2015-10-29 | 2017-05-10 | 北京国双科技有限公司 | 搜索结果显示方法及装置 |
CN108280056A (zh) * | 2017-12-26 | 2018-07-13 | 北京市天元网络技术股份有限公司 | 一种Excel文件解析方法 |
JP2019057235A (ja) * | 2017-09-22 | 2019-04-11 | カシオ計算機株式会社 | 帳票管理装置及びプログラム |
CN110489381A (zh) * | 2019-07-04 | 2019-11-22 | 北京雷石天地电子技术有限公司 | 外接资源的识别方法及*** |
CN111414889A (zh) * | 2020-03-31 | 2020-07-14 | 中国工商银行股份有限公司 | 基于文字识别的财务报表识别方法及装置 |
CN111459943A (zh) * | 2020-04-03 | 2020-07-28 | 中国建设银行股份有限公司 | 一种数据处理方法、装置、***、设备及存储介质 |
WO2020186783A1 (zh) * | 2019-03-21 | 2020-09-24 | 平安国际智慧城市科技股份有限公司 | 数据导入方法、装置、计算机设备和存储介质 |
CN111831382A (zh) * | 2020-07-20 | 2020-10-27 | 杭州品茗安控信息技术股份有限公司 | 一种工程造价软件的数据录入方法、装置、设备及介质 |
CN111897884A (zh) * | 2020-07-20 | 2020-11-06 | 北京用友薪福社云科技有限公司 | 数据关系信息显示方法、终端设备 |
CN112035412A (zh) * | 2020-08-31 | 2020-12-04 | 北京奇虎鸿腾科技有限公司 | 数据文件导入方法、设备、存储介质及装置 |
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005070829A (ja) * | 2003-08-22 | 2005-03-17 | Merchandising On:Kk | データ処理装置、データ処理方法およびそのプログラム |
US20070078872A1 (en) * | 2005-09-30 | 2007-04-05 | Ronen Cohen | Apparatus and method for parsing unstructured data |
US20140136243A1 (en) * | 2012-11-13 | 2014-05-15 | Hartford Fire Insurance Company | System and method for loss analysis |
CN106649319A (zh) * | 2015-10-29 | 2017-05-10 | 北京国双科技有限公司 | 搜索结果显示方法及装置 |
JP2019057235A (ja) * | 2017-09-22 | 2019-04-11 | カシオ計算機株式会社 | 帳票管理装置及びプログラム |
CN108280056A (zh) * | 2017-12-26 | 2018-07-13 | 北京市天元网络技术股份有限公司 | 一种Excel文件解析方法 |
WO2020186783A1 (zh) * | 2019-03-21 | 2020-09-24 | 平安国际智慧城市科技股份有限公司 | 数据导入方法、装置、计算机设备和存储介质 |
CN110489381A (zh) * | 2019-07-04 | 2019-11-22 | 北京雷石天地电子技术有限公司 | 外接资源的识别方法及*** |
CN111414889A (zh) * | 2020-03-31 | 2020-07-14 | 中国工商银行股份有限公司 | 基于文字识别的财务报表识别方法及装置 |
CN111459943A (zh) * | 2020-04-03 | 2020-07-28 | 中国建设银行股份有限公司 | 一种数据处理方法、装置、***、设备及存储介质 |
CN111831382A (zh) * | 2020-07-20 | 2020-10-27 | 杭州品茗安控信息技术股份有限公司 | 一种工程造价软件的数据录入方法、装置、设备及介质 |
CN111897884A (zh) * | 2020-07-20 | 2020-11-06 | 北京用友薪福社云科技有限公司 | 数据关系信息显示方法、终端设备 |
CN112035412A (zh) * | 2020-08-31 | 2020-12-04 | 北京奇虎鸿腾科技有限公司 | 数据文件导入方法、设备、存储介质及装置 |
Non-Patent Citations (4)
Title |
---|
JUNICHI HIRAYAMA ET AL.: "Development of Template-Free Form Recognition System", 《2011 INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION》, 3 November 2011 (2011-11-03), pages 237 - 241 * |
T KASAR ET AL.: "Table information extraction and structure recognition using query patterns", 《2015 13TH INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION (ICDAR)》, pages 1086 - 1090 * |
王洁茹: "CAD图形文件关键字智能识别***设计与实现", 《中国水运.航道科技》, no. 3, 31 December 2016 (2016-12-31), pages 47 - 50 * |
闫学东: "基于语义的半结构化文档检索", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2007, no. 04, pages 138 - 436 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115757423A (zh) * | 2022-11-29 | 2023-03-07 | 中诚智信工程咨询集团股份有限公司 | 工程造价数据修正方法、***、设备及存储介质 |
CN115757423B (zh) * | 2022-11-29 | 2024-01-30 | 中诚智信工程咨询集团股份有限公司 | 工程造价数据修正方法、***、设备及存储介质 |
CN116611430A (zh) * | 2023-07-17 | 2023-08-18 | 深圳市维度数据科技股份有限公司 | excel文件的处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635292B (zh) | 基于机器学习算法的工单质检方法和装置 | |
CN108388640B (zh) | 一种数据转换方法、装置以及数据处理*** | |
CN109670091B (zh) | 一种基于数据标准的元数据智能维护方法和装置 | |
CN110377742B (zh) | 文本分类评测方法、装置、可读存储介质和计算机设备 | |
US20150278619A1 (en) | Method and system for verification by reading | |
CN111667231B (zh) | 自动化报税方法、装置、***、计算机设备和存储介质 | |
CN114648302B (zh) | 一种用于协同想定编辑的数据处理方法及装置 | |
CN107844515B (zh) | 数据合规检查方法及装置 | |
WO2019080419A1 (zh) | 标准知识库的构建方法、电子装置及存储介质 | |
CN112818937B (zh) | Excel文件的识别方法、装置、电子设备及可读存储介质 | |
CN112818937A (zh) | Excel文件的识别方法、装置、电子设备及可读存储介质 | |
CN108629699B (zh) | 数据上传方法、数据上传设备、存储介质及装置 | |
CN111159262A (zh) | 自动驾驶仿真数据处理方法和装置 | |
JP6994138B2 (ja) | 情報管理装置並びにファイル管理方法 | |
CN113098961B (zh) | 组件上传方法、装置、***、计算机设备及可读存储介质 | |
CN115310011A (zh) | 页面展示方法、***以及可读存储介质 | |
CN111143643B (zh) | 元素识别方法、装置、可读存储介质和电子设备 | |
CN114398496A (zh) | 文本的知识表示方法、装置、设备及计算机可读介质 | |
CN109560964B (zh) | 一种设备合规检查方法及装置 | |
CN114371866A (zh) | 业务***的版本重构测试方法、装置和设备 | |
CN110597810A (zh) | 一种数据处理方法、装置、终端及存储介质 | |
CN112540754B (zh) | 基于b/s架构的构件复用方法、装置、电子设备及存储介质 | |
CN112966764B (zh) | 一种图模对比方法及装置 | |
CN112783840B (zh) | 一种存储文档的方法、装置、电子设备及存储介质 | |
CN116484802B (zh) | 字符串颜色标记方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |