CN112256685A

CN112256685A - 基于电子表格的分割去重导入方法及相关产品

Info

Publication number: CN112256685A
Application number: CN202011195549.2A
Authority: CN
Inventors: 岳湘黔; 胡栋; 罗利娟; 姚傲雪; 江涌
Original assignee: Shenzhen Wuxun Technology Co ltd
Current assignee: Shenzhen Wuxun Technology Co ltd
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2021-01-22

Abstract

本申请公开提供一种基于电子表格的分割去重导入方法，所述方法包括如下步骤：批量导入表格数据，获取表格数据的数据集合；判断所述数据集合中是否具有重复数据，获取所述数据集合的重复量；当所述重复量不为0时，将所述数据集合划分为多个子数据集合，同时对所述子数据集合执行数据去重操作；将所述子数据集合汇总后导入数据库中。通过将一个大的数据集合分割为多个子数据集合，每个数据集合用一个异步线程处理去重，各自处理完后合并结果集返回，提高数据去重导入效率。

Description

基于电子表格的分割去重导入方法及相关产品

技术领域

本发明涉及大数据处理领域，具体涉及一种基于电子表格的分割去重导入方法及相关产品。

背景技术

随着互联网技术的发展，各类信息的数据量越来越多，而电子表格excel是人们常用分析、观察数据的软件之一。在数据量多的情况下，上千上万的excel数据并需要去重数据，导致服务器卡顿，内存崩溃。

Easyexcel是一个JAVA解析Excel工具。Java解析、生成Excel比较有名的框架有Apache poi、jxl。但他们都存在一个严重的问题就是非常的耗内存，poi有一套SAX模式的API可以一定程度的解决一些内存溢出的问题，但POI还是有一些缺陷，比如07版Excel解压缩以及解压后存储都是在内存中完成的，内存消耗依然很大。Easyexcel重写了poi对07版Excel的解析，能够原本一个3M的excel用POI sax依然需要100M左右内存降低到KB级别，并且再大的excel不会出现内存溢出，03版依赖POI的sax模式。在上层做了模型转换的封装，让使用者更加简单方便。

但对于Easyexcel在导入过程中如果有大数据去重情况下，会对***造成很慢的输入数据这个问题还没有得到有效地解决。

发明内容

本发明实施例提供了一种基于电子表格的去重导入法及相关产品，可以实现数据导入过程中数据均衡分割以及高效去重导入。

第一方面，本发明实施例提供一种基于电子表格的分割去重导入方法，所述方法包括如下步骤：

批量导入表格数据，获取表格数据的数据集合；

判断所述数据集合中是否具有重复数据，获取所述数据集合的重复量；

当所述重复量不为0时，将所述数据集合划分为多个子数据集合，同时对所述子数据集合执行数据去重操作；

将所述子数据集合汇总后导入数据库中。

第二方面，提供一种电子设备，所述电子设备包括：

获取单元，用于批量导入表格数据，获取表格数据的数据集合；

判断单元，用于判断所述数据集合中是否具有重复数据，获取所述数据集合的重复量；

处理单元，用于当所述重复量不为0时，将所述数据集合划分为多个子数据集合，同时对所述子数据集合执行数据去重操作；

导入单元，用于将所述子数据集合汇总后导入数据库中。

第三方面，本申请实施例提供了一种电子设备，包括处理器、存储器、通信接口以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行本申请实施例第一方面中所述的部分或全部步骤的指令。

第四方面，本申请实施例提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。

第五方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

实施本发明实施例，具有如下有益效果：

可以看出，本申请实施例中所描述的基于电子表格的分割去重导入方法及相关产品，通过批量导入表格数据，获取表格数据的数据集合；判断所述数据集合中是否具有重复数据，获取所述数据集合的重复量；当所述重复量不为0时，将所述数据集合划分为多个子数据集合，同时对所述子数据集合执行数据去重操作；将所述子数据集合汇总后导入数据库中。通过以上数据过程，从而实现将需要导入的数据集合，均衡分割为N个单元的数据子集合，数据子集合多线程异步执行去重后，返回结果统一导入数据库中，大大地提高了多数据导入效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种基于电子表格的分割去重导入方法的流程示意图。

图2是本申请实施例提供的一种数据表格去重过程示意图。

图3是本申请实施例提供的一种电子设备的功能单元组成框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结果或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

由于本申请实施例涉及基于电子表格的分割去重导入方法，为了便于理解，下面先对本申请实施例涉及的相关术语进行介绍。

1、解析XML的两种方式DOM和SAX

解析XML是指在得到一个XML文档之后，按照XML中的元素取出对应的信息。

DOM解析是一次性加载XML文档后，进行文档读取。在这种情况下不适合大容量的文件读取，所占用的内存容量较大。

SAX解析是一种XML解析的替代方式，相对于DOM解析来说能够快速、轻量地读取和操作XML数据，所占用内存容量较小。SAX允许读取文档过程中进行处理，从而不必等待整个文档被存储之后才采取操作。即在执行过程中，逐行扫描文档，一边扫描一边解析，可在解析文档的任意时刻停止解析。

参阅图1，图1提供了一种基于电子表格的分割去重导入方法，包括以下步骤：

步骤101、批量导入表格数据，获取表格数据的数据集合

具体地，在大数据应用场景中，批量地导入大量数据表格，并且所述数据表格需要进行去重数据，即把相同的数据去除，以避免浪费存储资源。在批量导入数据过程中，可首先将需导入的表格数据组合成一个数据集合，方便对于这些大量表格数据进行操作。

步骤102、判断数据集合中是否具有重复数据，获取数据集合的重复量。

具体地，通过获取数据集合的重复量来判断还集合中是否具有重复数据，重复不为0则一定具有重复数据。

其中判断过程的具体步骤为：

S1、利用SAX解析所述数据集合，生成对象数据；

S2、判断所述辖区校验是否为空，当所述辖区校验为空，不存在重复数据；当所述辖区校验不为空，存在重复数据。

步骤103、划分子数据集合，对子数据集合进行去重操作。

具体地，由上述过程中所得的重复量不为0时，将数据集合划分为多个子数据集合，同时对子数据集合执行数据去重操作。

其中，当重复量不为0时，证明数据集合中具有相同的数据，需要进行去重操作后再将数据导入，避免导入相同的数据浪费资源。直接对一个数据量很大的数据集合进行操作，需要很长的去重时间，数据导入效率很低。通过将数据集合划分为多个子数据集合，能够同时进行多个数据去重操作，大大地减少去重导入时间，提升数据导入效率。

在本实施例中，将一个数据量大的数据集合采用均衡分割数据算法，分成N个单元的子数据集合，其中N为正整数，N可优选为5～10的范围内。对每一个子数据集合进行多线程的异步操作，同时处理多个数据，提高数据去重的效率，缩短用户批量输入数据的等待时间。并且，通过均衡分割数据形成数据量相同的子数据集合，能够保证多个子数据集合处理时间的差值保持最小，能够最有效地实现快速处理。

其中，每个子数据集合去重的操作包括以下步骤：

S21、判断是否具有重复数据

S22、数据循环、筛选出重复数据

S23、删除所述重复数据。

其中，当步骤S21与步骤S22中，出现数据全部重复则直接返回结果0，不进行数据的导入。

通过上述的去重操作后，同时获得了去除重复数据后的N个新的子数据集合，减少了去重操作花费的时间，提高速度与效率，提升了用户数据导入体验好感度。

步骤104、汇总子数据集合并导入数据库中。

通过上述步骤，更加快速地同时获取到了多个去重后的子数据集合，在导入这些子数据集合前，首先应该将多个子数据集合按照分割顺序合并形成完整地去重后的数据集合。

通过先划分处理，后合并结果的方式，能够有效地提高多数据导入情况下的导入效率。

在一个可能的实施例中，通过Easyexcel导入大量数据，生成一个数据集合；该数据集合通过SAX解析，解析成功生成VO对象数据，对该数据进行去重操作；解析失败，停止导入数据。

在进行去重操作时，首先判断辖区检验是否为空。是，证明没有重复数据，直接返回数据后导入该数据集合；不为空，对该数据集合进行List分割即均衡分割，分割后放入future子线程中进行异步执行去重，返回结果后统一将数据汇总，进行批量导入。

参阅图2，图2是本申请实施例中所涉及的一种可能的数据表格去重过程示意图。

在该可能的实施例中，导入xls模板数据。电子设备在获取到导入数据后，首先需要进行第一判断过程，根据判断过程的结果执行操作。

在第一判断过程中，判断所导入的数据是否具有重复数据。当判断结果为导入数据全部重复，则认为该数据不用进行导入，返回结果0，结束数据导入去重过程；当判断结果为数据非全部重复，需执行去重操作，删除重复数据导入该数据。

上述的去重过程包括，首先将数据进行循环筛选过滤，将相同重复的数据进行通过循环过滤过程删除，获取去重后的可导入数据，而后进入第二判断过程。

在第二判断过程中，对于去重后的可导入数据进行权限判断，即判断该数据是否为在管辖范围内的数据和与数据库中的数据是否重复。当数据不为管辖区内的数据或者该数据与数据库中数据全部重复，两种情况满足一种，则会判断成为数据无法导入，返回结果0，结束数据导入过程。除这两种情况之外，则可进行数据导入，完成数据导入过程。

另有一种可能的实施例，即将第二判断过程中对于判断数据是否为在管辖范围内的数据，在第一判断过程前执行。即首先获取到导入数据的数据类型，判断其的数据类型是否为权限范围内，即管辖范围内数据，数据类型为管辖范围数据，则可进行下一判断即判断导入数据中是否具有重复数据；当数据类型不为管辖范围数据，拒绝导入数据，返回结果0.

参阅图3，图3本申请实施例中所涉及的电子设备300，所述电子设备300包括：获取单元301、判断单元302、处理单元303和导入单元304，其中，

所述获取单元301，用于批量导入表格数据，获取表格数据的数据集合；

所述判断单元302，用于判断所述数据集合中是否具有重复数据，获取所述数据集合的重复量；

所述处理单元303，用于当所述重复量不为0时，将所述数据集合划分为多个子数据集合，同时对所述子数据集合执行数据去重操作；

所述导入单元304，用于将所述子数据集合汇总后导入数据库中。

可以看出，本申请实施例中所描述的电子设备，通过批量导入表格数据，获取表格数据的数据集合；判断所述数据集合中是否具有重复数据，获取所述数据集合的重复量；当所述重复量不为0时，将所述数据集合划分为多个子数据集合，同时对所述子数据集合执行数据去重操作；将所述子数据集合汇总后导入数据库中。通过以上数据过程，从而实现将需要导入的数据集合，均衡分割为N个单元的数据子集合，数据子集合多线程异步执行去重后，返回结果统一导入数据库中，大大地提高了多数据导入效率。

可选地，在所述判断所述数据集合中是否具有重复数据方面，所述判断单元302具体用于：

利用SAX解析所述数据集合，生成对象数据；

判断所述辖区校验是否为空，当所述辖区校验为空，不存在重复数据；

当所述辖区校验不为空，存在重复数据。

可选地，在所述当所述重复量不为0时，将所述数据集合划分为多个子数据集合方面，所述处理单元303具体用于：

获取所述数据集合的数据量；

根据所述数据量，将所述数据集合均分为N个子数据集合，其中N取正整数。

可选地，在所述同时对所述子数据集合执行数据去重操作方面，所述处理单元303具体用于：

获取所述子数据集合中的重复数据，删除所述重复数据，并输出剩余的数据集合形成新的子数据集合。

可选地，在所述将所述子数据集合汇总后导入数据库中方面，所述导入单元304具体用于：

将所述子数据集合按照划分方式排列，形成可导入的数据集合，将所述可导入的数据集合批量导入数据库中。

可选地，在所述判断所述数据集合中是否具有重复数据，获取所述数据集合的重复量之前，所述获取单元301具体用于：

获取所述数据集合的数据类型；

当所述数据类型为权限内数据，判断所述数据集合中是否具有重复数据，获取所述数据集合的重复量；

当所述数据类型不为权限内数据，拒绝导入该数据。

可以理解的是，本实施例的电子设备的各程序模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

本发明实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任何一种方法的部分或全部步骤。

本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本发明实施例进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于电子表格的分割去重导入方法，应用于电子设备中，其特征在于，所述方法包括如下步骤：

批量导入表格数据，获取表格数据的数据集合；

将所述子数据集合汇总后导入数据库中。

2.根据权利要求1所述的方法，其特征在于，所述判断所述数据集合中是否具有重复数据，包括：

利用SAX解析所述数据集合，生成对象数据；

当所述辖区校验不为空，存在重复数据。

3.根据权利要求1所述的方法，其特征在于，所述当所述重复量不为0时，将所述数据集合划分为多个子数据集合，包括：

获取所述数据集合的数据量；

4.根据权利要求1所述的方法，其特征在于，所述同时对所述子数据集合执行数据去重操作，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述子数据集合汇总后导入数据库中，包括：

6.根据权利要求1所述的方法，其特征在于，所述判断所述数据集合中是否具有重复数据，获取所述数据集合的重复量之前，还包括：

获取所述数据集合的数据类型；

当所述数据类型为权限范围内数据，判断所述数据集合中是否具有重复数据，获取所述数据集合的重复量；

当所述数据类型不为权限范围内数据，拒绝导入该数据。

7.一种电子设备，其特征在于，所述电子设备包括：

导入单元，用于将所述子数据集合汇总后导入数据库中。

8.根据权利要求7所述的电子设备，其特征在于，包括：

所述判断单元，用于利用SAX解析所述数据集合，生成对象数据；判断所述辖区校验是否为空，当所述辖区校验为空，不存在重复数据；当所述辖区校验不为空，存在重复数据。

9.根据权利要求7所述的电子设备，其特征在于，包括：

所述处理单元，用于获取所述数据集合的数据量；根据所述数据量，将所述数据集合均分为N个子数据集合，其中N取正整数。

10.一种计算机可读存储介质，其特征在于，存储计算机程序，其中，所述计算机程序使得计算机执行如权利要求1至6中任一项的基于电子表格的分割去重导入方法。