CN104298739A

CN104298739A - 一种数据处理方法及装置

Info

Publication number: CN104298739A
Application number: CN201410527974.5A
Authority: CN
Inventors: 余正宁; 崔文革; 罗喜霜
Original assignee: Beijing Jingwei Hirain Tech Co Ltd
Current assignee: Beijing Runke General Technology Co Ltd
Priority date: 2014-10-09
Filing date: 2014-10-09
Publication date: 2015-01-21
Anticipated expiration: 2034-10-09
Also published as: CN104298739B

Abstract

本申请公开了一种数据处理方法和装置，获取待处理数据，判断所述待处理数据的数据量是否大于预设阈值；如果所述待处理数据的数据量大于预设阈值，将所述待处理数据划分为多个数据段，且每个数据段中的数据量均不大于所述预设阈值；从所述多个数据段中选择至少一个样本数据，利用选择出的至少一个样本数据构建用于全局浏览的数据子集，所述数据子集中的数据量不大于所述预设阈值。这样，可以将海量的待处理数据划分为多个小的数据段，然后从多个数据段中选择多个样本数据组成数据子集，数据段和数据子集中的数据量均不大于预设阈值，可供现有的数据查看软件浏览和查看，从而通过浏览构建的数据子集即可实现海量数据的全局浏览。

Description

一种数据处理方法及装置

技术领域

本申请涉及数据处理技术领域，特别是涉及一种数据处理方法及装置。

背景技术

在各种工程试验或仿真过程中，一般都会将试验或仿真数据保存下来，方便后期回放与查看。

对于某些试验或仿真场景，运行时间很长，需要保存记录的数据量很大，一般会达到GB级别。若将所有数据都记录在一个数据文件中，不对数据文件进行拆分，当数据量非常大时，该数据文件将会很大，甚至单个数据文件的大小将超出软件的查看极限，导致现有的数据查看软件都无法直接查看该数据文件中的数据，导致浏览失败。因此，现有技术在记录数据的过程中，一般都会将大的数据文件拆分为多个小的数据文件，对不同段的数据分别进行保存，减小数据文件的大小，便于软件回放与查看。

但是，现有技术中至少存在如下问题：当将大的数据文件拆分为多个小的数据文件时，只能查看当前选择的小的数据文件中的数据，无法对海量数据进行全局浏览，特别是拆分成的小的数据文件很多时，浏览将很不方便。

发明内容

有鉴于此，本申请提供一种数据处理方法及装置，以实现对海量数据的全局浏览。

为了实现上述目的，本申请实施例提供的技术方案如下：

一种数据处理方法，包括：

获取待处理数据，判断所述待处理数据的数据量是否大于预设阈值；

如果所述待处理数据的数据量大于预设阈值，将所述待处理数据划分为多个数据段，且每个数据段中的数据量均不大于所述预设阈值；

从所述多个数据段中选择至少一个样本数据，利用选择出的至少一个样本数据构建用于全局浏览的数据子集，所述数据子集中的数据量不大于所述预设阈值。

优选地，所述将所述待处理数据划分为多个数据段，包括：

获取所述待处理数据的第一索引信息；

根据所述第一索引信息把所述待处理数据划分为多个数据段，所述第一索引信息用于定位每个数据段中的数据。

优选地，所述从所述多个数据段中选择至少一个样本数据，包括：

依据预定的抽样间隔确定所述待处理数据中的至少一个样本数据，并依据所述第一索引信息确定每个样本数据所在的数据段；

从每个样本数据所在的数据段中选择所述样本数据，并记录每个样本数据与所在的数据段的对应关系。

优选地，其特征在于，还包括：

获取对所述数据子集中的样本数据的选择操作，确定所述选择操作所选择的样本数据；

依据每个样本数据与所在的数据段的对应关系，提取并显示所述选择操作所选择的样本数据对应的数据段中的数据。

优选地，还包括：

获取每个数据段的第二索引信息；

根据所述第二索引信息把每个数据段划分为多个子数据段，所述第二索引信息用于定位每个子数据段中的数据；

获取对所述子数据段中的数据的第二选择操作，依据所述第二索引信息，提取并显示所述第二选择操作所选择的数据对应的子数据段中的数据。

本申请还提供一种数据处理装置，包括：

第一获取模块，用于获取待处理数据，判断所述待处理数据的数据量是否大于预设阈值；

第一划分模块，用于如果所述待处理数据的数据量大于预设阈值，将所述待处理数据划分为多个数据段，且每个数据段中的数据量均不大于所述预设阈值；

构建模块，用于从所述多个数据段中选择至少一个样本数据，利用选择出的至少一个样本数据构建用于全局浏览的数据子集，所述数据子集中的数据量不大于所述预设阈值。

优选地，所述第一划分模块，包括：

获取单元，用于获取所述待处理数据的第一索引信息；

划分单元，用于根据所述第一索引信息把所述待处理数据划分为多个数据段，所述第一索引信息用于定位每个数据段中的数据。

优选地，所述构建模块，包括：

样本单元，用于依据预定的抽样间隔确定所述待处理数据中的至少一个样本数据，并依据所述第一索引信息确定每个样本数据所在的数据段；

选择单元，用于从每个样本数据所在的数据段中选择所述样本数据，并记录每个样本数据与所在的数据段的对应关系。

优选地，其特征在于，还包括：

确定模块，用于获取对所述数据子集中的样本数据的选择操作，确定所述选择操作所选择的样本数据；

提取模块，用于依据每个样本数据与所在的数据段的对应关系，提取并显示所述选择操作所选择的样本数据对应的数据段中的数据。

优选地，还包括：

第二获取模块，用于获取每个数据段的第二索引信息；

第二划分模块，用于根据所述第二索引信息把每个数据段划分为多个子数据段，所述第二索引信息用于定位每个子数据段中的数据；

第二提取模块，用于获取对所述子数据段中的数据的第二选择操作，依据所述第二索引信息，提取并显示所述第二选择操作所选择的数据对应的子数据段中的数据。

由以上本申请提供的数据处理方法和装置，获取待处理数据，判断所述待处理数据的数据量是否大于预设阈值；如果所述待处理数据的数据量大于预设阈值，将所述待处理数据划分为多个数据段，且每个数据段中的数据量均不大于所述预设阈值；从所述多个数据段中选择至少一个样本数据，利用选择出的至少一个样本数据构建用于全局浏览的数据子集，所述数据子集中的数据量不大于所述预设阈值。这样，可以将海量的待处理数据划分为多个小的数据段，然后从多个数据段中选择多个样本数据组成数据子集，数据段和数据子集中的数据量均不大于预设阈值，可供现有的数据查看软件浏览和查看，从而通过浏览构建的数据子集即可实现海量数据的全局浏览。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例一提供的数据处理方法的流程图；

图2为本申请实施例二提供的数据处理方法的流程图；

图3为本申请实施例三提供的数据处理方法的流程图；

图4为本申请实施例四提供的数据处理方法的流程图；

图5为本申请实施例五提供的数据处理方法的流程图；

图6为本申请提供的一种数据处理装置的结构示意图；

图7为本申请提供的另一种数据处理装置的结构示意图；

图8为本申请提供的又一种数据处理装置的结构示意图；

图9为本申请提供的再一种数据处理装置的结构示意图；

图10为本申请提供的再一种数据处理装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

为了使本技术领域的人员更好地理解本申请方案，下面结合附图对本申请作进一步的详细说明：

实施例一：

图1为本申请实施例一提供的数据处理方法的流程图。

参照图1所示，本申请实施例提供的数据处理方法，包括：

步骤S11：获取待处理数据，判断所述待处理数据的数据量是否大于预设阈值。

在本申请实施例中，在获取到待处理数据后，可以进一步获取待处理数据的数据信息，包括数据名称、保存路径、数据类型、数据格式以及数据量大小等，均可以通过操作***自带的函数直接获取。

由于待处理数据可能是海量的数据，保存为一个数据文件后难以被软件读取，因此在获取到待处理数据的数据信息后，可以根据待处理数据的数据信息判断待处理数据的数据量是否大于预设阈值，这里的预设阈值可以是常用软件所能读取的数据量的最大值。

步骤S12：如果所述待处理数据的数据量大于预设阈值，将所述待处理数据划分为多个数据段，且每个数据段中的数据量均不大于所述预设阈值。

在本申请实施例中，当待处理数据的数据量大于预设阈值，即待处理数据的数据量大于软件所能读取的数据量的最大值时，可以将待处理数据划分为多个数据段，使每个数据段中的数据量均不大于所述预设阈值，以便每个数据段均可以被软件读取。

步骤S13：从所述多个数据段中选择至少一个样本数据，利用选择出的至少一个样本数据构建用于全局浏览的数据子集，所述数据子集中的数据量不大于所述预设阈值。

在本申请实施例中，从步骤S12划分的多个数据段中选择至少一个样本数据，可以从每个数据段中选择一个样本数据，也可以从任意一个数据段中选择多个样本数据，还可以从多个数据段中选择一个样本数据，也即样本数据的个数不一定与数据段的个数一致，优选样本数据的个数越多越好，所在的数据段的个数越多越好，然后利用选择出的至少一个样本数据构建用于全局浏览的数据子集，同样使所述数据子集中的数据量不大于所述预设阈值，即可通过软件打开构建的用于全局浏览的数据子集，概览待处理数据的全局状况。

由以上本申请实施例提供的数据处理方法，获取待处理数据，判断所述待处理数据的数据量是否大于预设阈值；如果所述待处理数据的数据量大于预设阈值，将所述待处理数据划分为多个数据段，且每个数据段中的数据量均不大于所述预设阈值；从所述多个数据段中选择至少一个样本数据，利用选择出的至少一个样本数据构建用于全局浏览的数据子集，所述数据子集中的数据量不大于所述预设阈值。这样，可以将海量的待处理数据划分为多个小的数据段，然后从多个数据段中选择多个样本数据组成数据子集，数据段和数据子集中的数据量均不大于预设阈值，可供现有的数据查看软件浏览和查看，从而通过浏览构建的数据子集即可实现海量数据的全局浏览。

实施例二：

图2为本申请实施例二提供的数据处理方法的流程图。

参照图2所示，本申请实施例提供的数据处理方法，包括：

步骤S21：获取待处理数据，判断所述待处理数据的数据量是否大于预设阈值。

步骤S22：如果所述待处理数据的数据量大于预设阈值，获取所述待处理数据的第一索引信息。

在本申请实施例中，如果所述待处理数据的数据量大于预设阈值，则对数据进行索引处理，获取所述待处理数据的第一索引信息。例如，待处理数据中若包含时间信息，可从中提取时间信息，作为第一索引信息，这里的第一索引信息是后续数据处理的依据，此时如果待处理数据中只有数据信息没有时间信息，则可以自动赋予额外的时间信息，连同数据信息共同保存在一个索引文件中。

步骤S23：根据所述第一索引信息把所述待处理数据划分为多个数据段，所述第一索引信息用于定位每个数据段中的数据，且每个数据段中的数据量均不大于所述预设阈值。

在本申请实施例中，第一索引信息用于定位每个数据段中的数据，是指第一索引信息可以唯一定位待处理数据中的某个或某组数据的信息，这里的第一索引信息可能是某个数据名称、数据值或者二者的组合，例如：“试验时间为0.1秒时的数据”，这里，“试验时间”即为第一索引信息，因为“0.1秒”这个时间值是唯一的，不会出现多个0.1秒。相反的，“速度为0.1m/s时的数据”，则不能唯一确定一个数据或一组数据，因为速度可以变化，可以多次达到0.1m/s，因此本例子中的“速度”不是第一索引信息。

根据选择的第一索引信息，设定第一索引信息与待处理数据的数据段的对应关系，就可以按照该对应关系根据第一索引信息把所述待处理数据划分为多个数据段，并可以将此对应关系连同之前所得到的数据信息共同保存在一个索引文件中。

以一个大小为3.29GB的待处理数据test.txt为例，其数据格式参考下面的表1。待处理数据中的每列均保存一个变量数据时，待处理数据的行数超过2000万行，利用常用的数据查看工具都无法浏览。

而test.txt中Time变量是唯一的，故可以将此变量作为第一索引信息，为了方便查找，需要将第一索引信息即Time的值与待处理数据的行数对应起来，因此，可以根据Time的值对应的待处理数据的行数，将待处理数据按照行数划分为不同的数据段。比如，此待处理数据的索引文件中需要保存的信息包括：

待处理数据的数据名称：test.txt

待处理数据的数据量大小：3.29GB

待处理数据的所在位置：C:\(示例)

待处理数据的数据格式：TXT

待处理数据的第一索引信息：

Time(时间)	Line(行数)
		0	2～20001
100	20002～40001
		200	40002～60001
……	……

表1

其中，第一索引信息Time为0时对应的数据段为2～20001行，第一索引信息Time为100时对应的数据段为20002～40001行，第一索引信息Time为200时对应的数据段为40002～60001行，依此类推。

步骤S24：从所述多个数据段中选择至少一个样本数据，利用选择出的至少一个样本数据构建用于全局浏览的数据子集，所述数据子集中的数据量不大于所述预设阈值。

由以上本申请实施例提供的数据处理方法，获取待处理数据，判断所述待处理数据的数据量是否大于预设阈值；如果所述待处理数据的数据量大于预设阈值，根据获取的所述待处理数据的第一索引信息将所述待处理数据划分为多个数据段，且每个数据段中的数据量均不大于所述预设阈值；从所述多个数据段中选择至少一个样本数据，利用选择出的至少一个样本数据构建用于全局浏览的数据子集，所述数据子集中的数据量不大于所述预设阈值。这样，可以根据第一索引信息将海量的待处理数据划分为多个小的数据段，然后从多个数据段中选择多个样本数据组成数据子集，数据段和数据子集中的数据量均不大于预设阈值，可供现有的数据查看软件浏览和查看，从而通过浏览构建的数据子集即可实现海量数据的全局浏览。

实施例三：

图3为本申请实施例三提供的数据处理方法的流程图。

参照图3所示，本申请实施例提供的数据处理方法，包括：

步骤S31：获取待处理数据，判断所述待处理数据的数据量是否大于预设阈值。

步骤S32：如果所述待处理数据的数据量大于预设阈值，获取所述待处理数据的第一索引信息。

步骤S33：根据所述第一索引信息把所述待处理数据划分为多个数据段，所述第一索引信息用于定位每个数据段中的数据，且每个数据段中的数据量均不大于所述预设阈值。

步骤S34：依据预定的抽样间隔确定所述待处理数据中的至少一个样本数据，并依据所述第一索引信息确定每个样本数据所在的数据段。

在本申请实施例中，预定的抽样间隔可以根据索引文件中的第一索引信息确定，也可以按照需求自行设定，这里的抽样间隔可以与第一索引信息对应的数据段的个数一致，也可以不一致，本申请实施例中优选一致的情况。

在本申请实施例中，确定出所述待处理数据的抽样间隔后，就可以根据该抽样间隔从待处理数据中确定待抽取的样本数据，而且，由于第一索引信息与数据段相对应，确定出每个样本数据后，就可以依据所述第一索引信息确定每个样本数据所在的数据段。

步骤S35：从每个样本数据所在的数据段中选择所述样本数据，并记录每个样本数据与所在的数据段的对应关系，利用选择出的至少一个样本数据构建用于全局浏览的数据子集，所述数据子集中的数据量不大于所述预设阈值。

在本申请实施例中，确定第一索引信息后，可以根据需要对待处理数据进行抽样，得到一个数据子集，此数据子集的数据量适用于现有的数据查看软件直接处理。此数据子集可以达到预览全局趋势的作用，通过读取并显示此数据集达到对全局数据的预览效果。

例如，对于以上示例的待处理数据test.txt，可以依据第一索引信息Time与数据段即行数Line的对应关系，每间隔20000行抽取一组样本数据，这样，数据子集的数据量则仅有1000行左右，现有的数据查看工具完全可以轻松浏览。

实施例四：

图4为本申请实施例四提供的数据处理方法的流程图。

参照图4所示，本申请实施例提供的数据处理方法，包括：

步骤S41：获取待处理数据，判断所述待处理数据的数据量是否大于预设阈值。

步骤S42：如果所述待处理数据的数据量大于预设阈值，将所述待处理数据划分为多个数据段，且每个数据段中的数据量均不大于所述预设阈值。

步骤S43：从所述多个数据段中选择至少一个样本数据，利用选择出的至少一个样本数据构建用于全局浏览的数据子集，所述数据子集中的数据量不大于所述预设阈值。

步骤S44：获取对所述数据子集中的样本数据的第一选择操作，确定所述第一选择操作所选择的样本数据。

在本申请实施例中，用户在根据数据子集全局浏览整个待处理数据的趋势后，还可以根据需要，对所述数据子集中的感兴趣的样本数据进行选择。

步骤S45：依据每个样本数据与所在的数据段的对应关系，提取并显示所述第一选择操作所选择的样本数据对应的数据段中的数据。

在本申请实施例中，当确定用户的第一选择操作所选择的样本数据后，可以确定用户选择的样本数据所在的数据段，并且从待处理数据中提取出该数据段的全部数据，进行详细查看。

其中，当待处理数据中包含第一索引信息时，可以根据第一索引信息确定用户选择的样本数据所在的数据段，当待处理数据中不包含第一索引信息时，也可以直接根据划分的数据段确定用户选择的样本数据所在的数据段，本申请对此不作任何限定。

继续以上述示例为例，如果用户选择详细查看第20000行的样本数据，则可以通过划分的数据段直接确定第20000行的样本数据在第2～20001的数据段中，也可以根据第20000行的样本数据对应的第一索引信息Time为0确定第20000行的样本数据对应的数据段为2～20001行，进而可以提取第2～20001的数据段中的所有数据并显示，供用户详细查看。

由以上本申请实施例提供的数据处理方法，获取待处理数据，判断所述待处理数据的数据量是否大于预设阈值；如果所述待处理数据的数据量大于预设阈值，将所述待处理数据划分为多个数据段，且每个数据段中的数据量均不大于所述预设阈值；从所述多个数据段中选择至少一个样本数据，利用选择出的至少一个样本数据构建用于全局浏览的数据子集，所述数据子集中的数据量不大于所述预设阈值；获取对所述数据子集中的样本数据的第一选择操作，确定所述第一选择操作所选择的样本数据；依据每个样本数据与所在的数据段的对应关系，提取并显示所述第一选择操作所选择的样本数据对应的数据段中的数据。这样，可以将海量的待处理数据划分为多个小的数据段，然后从多个数据段中选择多个样本数据组成数据子集，数据段和数据子集中的数据量均不大于预设阈值，可供现有的数据查看软件浏览和查看，从而通过浏览构建的数据子集即可实现海量数据的全局浏览，然后还可以从数据子集中选择感兴趣的样本数据，详细查看该样本数据所在的数据段的全部数据，可以在全局浏览后，为用户快速缩小数据的浏览范围，提供详细浏览部分感兴趣数据的体验。

实施例五：

图5为本申请实施例五提供的数据处理方法的流程图。

参照图5所示，本申请实施例提供的数据处理方法，包括：

步骤S51：获取待处理数据，判断所述待处理数据的数据量是否大于预设阈值。

步骤S52：如果所述待处理数据的数据量大于预设阈值，获取所述待处理数据的第一索引信息。

步骤S53：根据所述第一索引信息把所述待处理数据划分为多个数据段，所述第一索引信息用于定位每个数据段中的数据，且每个数据段中的数据量均不大于所述预设阈值。

步骤S54：从所述多个数据段中选择至少一个样本数据，利用选择出的至少一个样本数据构建用于全局浏览的数据子集，所述数据子集中的数据量不大于所述预设阈值。

步骤S55：获取每个数据段的第二索引信息。

在本申请实施例中，为了防止单个索引信息中保存的信息太多，影响处理速度，还可以建立两级索引，即在待处理数据的第一索引信息之外，为每个数据段建立第二索引信息。

步骤S56：根据所述第二索引信息把每个数据段划分为多个子数据段，所述第二索引信息用于定位每个子数据段中的数据。

在本申请实施例中，由于第二索引信息是每个数据段的第二索引信息，所以第二索引信息会把每个数据段进一步划分为多个子数据段。

以一个大小为3.29GB的待处理数据test.txt为例，其数据格式参考下面的表2。待处理数据中的每列均保存一个变量数据时，待处理数据的行数超过2000万行，利用常用的数据查看工具都无法浏览。

待处理数据的数据名称：test.txt

待处理数据的数据量大小：3.29GB

待处理数据的所在位置：C:\(示例)

待处理数据的数据格式：TXT

待处理数据的第一索引信息：

Time(时间)	Line(行数)	二级索引
			0	2～20001
100	20002～40001	1.index
			200	40002～60001	2.index
……	……	……

表2

而由于上表2中的索引跨度比较大，故增加了“二级索引”即第二索引信息，方便对数据初步定位后，再次缩小读取位置。例如，1.index中保存了第一索引信息Time从0到100对应的Line为2～20001行数据段的第二索引信息，其内容如下表3：

表3

其中，第二索引信息Time为0时对应的子数据段为2～2001行，第二索引信息Time为10时对应的子数据段为2002～4001行，第二索引信息Time为20时对应的子数据段为4002～6001行，依此类推。

由表2和表3对比可见，Time从5到15之间的数据，位于第一索引信息中Time从0到100之间对应的数据段中，即待处理数据的第2到20002行之间。由于存在第二索引信息，故根据第二索引信息1.index，可以进一步定位数据位置，Time从5到15之间的数据第二索引信息中Time从0到20之间的子数据段中，通过这样定位，可以将数据范围缩小1000倍。即待处理数据的第2到4002行之间，常用的数据查看工具都可以显示此数据量的数据。

步骤S57：获取对所述子数据段中的数据的第二选择操作，依据所述第二索引信息，提取并显示所述第二选择操作所选择的数据对应的子数据段中的数据。

在本申请实施例中，用户在查看到感兴趣的数据段中的全部数据后，还可以根据需要，对所述数据段中感兴趣的数据进行选择。

在本申请实施例中，当确定用户的第二选择操作所选择的数据后，可以确定用户选择的数据所在数据段中的子数据段，并且提取出该子数据段的全部数据，进行详细查看。

继续以上述示例为例，如果用户选择详细查看第20000行的样本数据，根据第20000行的样本数据对应的第一索引信息Time为0确定第20000行的样本数据对应的数据段为2～20001行，提取第2～20001的数据段中的所有数据并显示，供用户详细查看后，如果用户进一步选择查看第2000行的数据，则可以根据第2000行的数据对应的第二索引信息Time为0确定第2000行的数据对应的子数据段为2～2001行，进而提取第2～2001的子数据段中的所有数据并显示，供用户详细查看。

而且，在用户利用软件读取到Time为0的第2～2001的子数据段中的所有数据后，由于数据范围已经很小，还可以在软件内部自行查找更小范围的数据，进行下一步的显示与查看。

在本申请实施例中，并不限定索引信息的等级数量，因此除上述实施例中的第一索引信息和第二索引信息外，还可以设置第三索引信息以及第四索引信息等，依此类推，以便更小的缩小数据范围。

由以上本申请实施例提供的数据处理方法，获取待处理数据，判断所述待处理数据的数据量是否大于预设阈值；如果所述待处理数据的数据量大于预设阈值，将所述待处理数据划分为多个数据段，且每个数据段中的数据量均不大于所述预设阈值；从所述多个数据段中选择至少一个样本数据，利用选择出的至少一个样本数据构建用于全局浏览的数据子集，所述数据子集中的数据量不大于所述预设阈值；获取对所述数据子集中的样本数据的第一选择操作，确定所述第一选择操作所选择的样本数据；依据每个样本数据与所在的数据段的对应关系，提取并显示所述第一选择操作所选择的样本数据对应的数据段中的数据。这样，可以将海量的待处理数据划分为多个小的数据段，然后从多个数据段中选择多个样本数据组成数据子集，数据段和数据子集中的数据量均不大于预设阈值，可供现有的数据查看软件浏览和查看，从而通过浏览构建的数据子集即可实现海量数据的全局浏览，然后还可以从数据子集中选择感兴趣的样本数据，根据第一索引信息详细查看该样本数据所在的数据段的全部数据，根据第二索引信息详细查看数据段中的数据所在的子数据段中的全部数据，可以在全局浏览后，为用户快速缩小数据的浏览范围，提供详细浏览部分感兴趣数据的体验。

可以理解的是，对于前述的各实施例，如果判断出所述待处理数据的数据量不大于预设阈值，即可直接通过数据查看工具打开和查看待处理数据，无需再划分数据段以及进行后续处理。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。

本发明上述公开了数据处理方法，相应的，本发明还公开了应用上述数据处理方法的装置，该装置用于实现对海量数据的全局浏览。

图6为本申请提供的一种数据处理装置的结构示意图。

参照图6所示，本申请实施例提供的数据处理装置，包括：

第一获取模块1，用于获取待处理数据，判断所述待处理数据的数据量是否大于预设阈值。

第一划分模块2，用于如果所述待处理数据的数据量大于预设阈值，将所述待处理数据划分为多个数据段，且每个数据段中的数据量均不大于所述预设阈值。

构建模块3，用于从所述多个数据段中选择至少一个样本数据，利用选择出的至少一个样本数据构建用于全局浏览的数据子集，所述数据子集中的数据量不大于所述预设阈值。

本申请实施例提供的数据处理装置，可以采用上述方法实施例中的数据处理方法，此处不再赘述。

图7为本申请提供的另一种数据处理装置的结构示意图。

参照图7所示，本申请实施例提供的数据处理装置，包括：

所述第一划分模块2具体包括：获取单元21，用于如果所述待处理数据的数据量大于预设阈值，获取所述待处理数据的第一索引信息。划分单元22，用于根据所述第一索引信息把所述待处理数据划分为多个数据段，所述第一索引信息用于定位每个数据段中的数据，且每个数据段中的数据量均不大于所述预设阈值。

图8为本申请提供的又一种数据处理装置的结构示意图。

参照图8所示，本申请实施例提供的数据处理装置，包括：

所述构建模块3具体包括：样本单元31，用于依据预定的抽样间隔确定所述待处理数据中的至少一个样本数据，并依据所述第一索引信息确定每个样本数据所在的数据段。选择单元32，用于从每个样本数据所在的数据段中选择所述样本数据，并记录每个样本数据与所在的数据段的对应关系，利用选择出的至少一个样本数据构建用于全局浏览的数据子集，所述数据子集中的数据量不大于所述预设阈值。

图9为本申请提供的再一种数据处理装置的结构示意图。

参照图9所示，本申请实施例提供的数据处理装置，包括：

确定模块4，用于获取对所述数据子集中的样本数据的选择操作，确定所述选择操作所选择的样本数据。

第一提取模块5，用于依据每个样本数据与所在的数据段的对应关系，提取并显示所述选择操作所选择的样本数据对应的数据段中的数据。

图10为本申请提供的一种数据处理装置的结构示意图。

参照图10所示，本申请实施例提供的数据处理装置，包括：

第二获取模块6，用于获取每个数据段的第二索引信息。

第二划分模块7，用于根据所述第二索引信息把每个数据段划分为多个子数据段，所述第二索引信息用于定位每个子数据段中的数据。

第二提取模块8，用于获取对所述子数据段中的数据的第二选择操作，依据所述第二索引信息，提取并显示所述第二选择操作所选择的数据对应的子数据段中的数据。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的数据处理方法，其特征在于，所述将所述待处理数据划分为多个数据段，包括：

获取所述待处理数据的第一索引信息；

3.根据权利要求2所述的数据处理方法，其特征在于，所述从所述多个数据段中选择至少一个样本数据，包括：

4.根据权利要求1-3中任意一项所述的数据处理方法，其特征在于，还包括：

获取对所述数据子集中的样本数据的第一选择操作，确定所述第一选择操作所选择的样本数据；

依据每个样本数据与所在的数据段的对应关系，提取并显示所述第一选择操作所选择的样本数据对应的数据段中的数据。

5.根据权利要求4所述的数据处理方法，其特征在于，还包括：

获取每个数据段的第二索引信息；

6.一种数据处理装置，其特征在于，包括：

7.根据权利要求6所述的数据处理装置，其特征在于，所述第一划分模块，包括：

获取单元，用于获取所述待处理数据的第一索引信息；

8.根据权利要求7所述的数据处理装置，其特征在于，所述构建模块，包括：

9.根据权利要求6-8中任意一项所述的数据处理装置，其特征在于，还包括：

第一提取模块，用于依据每个样本数据与所在的数据段的对应关系，提取并显示所述选择操作所选择的样本数据对应的数据段中的数据。

10.根据权利要求9所述的数据处理装置，其特征在于，还包括：

第二获取模块，用于获取每个数据段的第二索引信息；