CN110321349B

CN110321349B - 一种面向数据起源***的自适应数据合并存储方法

Info

Publication number: CN110321349B
Application number: CN201910509291.XA
Authority: CN
Inventors: 邓玉辉; 赵刘琦
Original assignee: Jinan University
Current assignee: Shenzhen Lizhuan Technology Transfer Center Co ltd
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2021-11-12
Anticipated expiration: 2039-06-13
Also published as: CN110321349A

Abstract

本发明公开了一种面向数据起源***的自适应数据合并存储方法，旨在解决数据起源***收集信息过程中，细粒度收集的溯源信息中存在大量冗余以及数据信息中存在大量小数据的问题。该自适应数据合并存储方法通过对溯源信息进行类字典编码压缩，删减溯源信息中的冗余。对数据信息中的小数据利用溯源信息的相关性进行自适应合并：减少数据信息的存储开销。本发明减少了溯源信息和数据信息的存储开销；同时在查询数据时，由于合并了相关小数据，提升了数据查询速度。

Description

一种面向数据起源***的自适应数据合并存储方法

技术领域

本发明涉及存储***技术领域，具体涉及一种面向数据起源***的自适应数据合并存储方法。

背景技术

数据起源***收集到的溯源信息和数据信息，当前国内外存在大量针对溯源信息优化的研究，但未有针对数据信息的优化研究。其中针对溯源信息的优化方式主要集中在删除冗余信息，过滤无用溯源信息以及选择性存储溯源信息等几个方面。

第一类方法是极大限度地减少收集到的溯源信息。这类方法认为当前数据起源***不可避免存储了过多的信息“噪音”，这些无用的信息是导致溯源信息的巨大存储开销和时间开销的原因。因此提出了一种基于属性限制策略的剪枝算法，然后将其运用到其设计的“起源墙”模块中。“起源墙”跟踪***并产生一个***执行图，通过剪枝算法来判断当前获取的溯源信息是存储还是丢弃。

还有一种方法与之相近的，该方法认为不必保留所有收集到的溯源信息，而是选择性保留部分结果。该方法将溯源信息的获取分为直接读取存储的溯源信息和由其他溯源信息推理获得的溯源信息。由于溯源信息会持续不断地记录一个数据的变迁，因此可以通过溯源信息可以重新推出目标结果。该方法提出一种权衡算法——计算出直接存储结果的开销和间接存储历史数据并运算出结果的开销，选择存储代价最低的方式。选择性存储溯源信息能有效减少存储空间。但是在选择的过程中，选取的条件因素可能带有使用者的主观性。而相同条件下有不确定结果的科学实验中，后者的算法就不是那么有效了。

另一种方法是对收集到的溯源信息进行压缩。例如在工作流的溯源信息记录中，一些节点数据会存在多次记录的情况，当前提出了一种类似树型结构的嵌套模型，减少重复溯源信息的记录。同样存在类似方法，通过自定义了多项规则将溯源信息规范化，根据规范化的溯源信息组构建溯源信息查询树，进而对溯源信息查询树进行优化：将树中重复的数据进行删除并且在该处引用一个“最终”版本。这种方法能够在不影响使用的情况下有效地对冗余进行删除。还有在更细粒度上对溯源信息中的冗余进行删除。该方法利用溯源信息图和web图的相似性，对溯源信息进行web压缩，减少溯源信息之间的冗余。再结合字典编码，减少重复的前缀，在更细的粒度上减少冗余。

以上算法是针对溯源信息的优化方法，大多是离线利用溯源关系图针对溯源信息优化。但是在数据起源***中在线收集溯源信息和数据信息，因此数据量巨大，以上算法都未考虑数据信息的优化，不适用于数据起源***中。因此针对此问题亟待提出了一种面向数据起源***的自适应数据合并存储方法。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，公开了一种面向数据起源***的自适应数据合并存储方法。

本发明的目的可以通过采取如下技术方案达到：

一种面向数据起源***的自适应数据合并存储方法，所述的自适应数据合并存储方法包括以下步骤：

使用数据起源***收集信息：当进程执行时，数据起源***会自动拦截并收集的该进程的起源信息，其中，所述的起源信息包括溯源信息和数据信息，所述的溯源信息是用于描述进程或者文件的元数据，所述的数据信息是进程发生写操作时写入的内容；

判断收集到的起源信息是溯源信息还是数据信息，根据当前收集到起源信息的类型，进行不同的优化存储方式；

若收集到的起源信息是溯源信息，则利用一种字典编码方式对溯源信息进行压缩，初始设置一个小字典，读取溯源信息，首先查询溯源信息中的内容是否在小字典中存在对应编码，若不存在，将溯源信息的各项内容进行编码，将编码存入小字典中，并将原本溯源信息中的内容用编码代替后，存储到键值数据库中，若存在，则按小字典中对应编码代替溯源信息，存储到键值数据库中；

若收集到的起源信息是数据信息，则利用一种自适应合并方式对数据信息中小数据进行相关性合并存储，所述的小数据是指数据信息大小小于数据信息平均值大小一半的数据信息，首先使用一个调节器统计当前数据信息的大小，并计算出当前数据信息的阈值，设置合并窗口的窗口值为两倍阈值，读取数据信息，上述的合并窗口是一个缓存区，用于暂时存储小数据；若当前收集的数据信息的大小大于阈值，则直接存储到键值数据库中，若当前收集的数据信息的大小小于阈值，则将其加入合并窗口并获取其相关的溯源信息；当合并窗口缓存的数据信息大小总和大于窗口值时，对合并窗口内部数据按照溯源信息的属性进行排序，然后按照每条大小不大于阈值的方式存储到键值数据库中。

进一步地，所述的数据起源***包括用户***层、虚拟文件***层、起源信息收集层和底层文件***，当外部进程执行时，数据起源***会将进程的信息传送，经过虚拟文件***层、起源信息收集层，最后到达底层文件***，其中起源信息收集层用于收集起源信息。

进一步地，所述的小字典的存储区间具有上限阈值，适用于在线***，存储区间的上限阈值不小于当前进程的最大数。

进一步地，所述的若收集到的起源信息是溯源信息，则利用一种字典编码方式对溯源信息进行压缩的过程如下：

对溯源信息编码时，先读取溯源信息，查询进程号、TID、CPU、文件名信息是否存在于当前小字典中，若存在相同信息，则查询小字典中对应的编码并用编码替代溯源信息中原本的信息；若不存在相同信息，则编码进程号、TID、CPU、文件名信息并将编码信息加入小字典，然后用编码代替溯源信息中原本的信息；在将新的编码信息加入到小字典时，需要判断小字典存储的编码个数是否达到小字典存储区间的上限阈值，若没有达到，则直接将编码加入小字典中，若达到上限，则踢出小字典中最早进入字典的编码，把踢出的编码存储到键值数据库中并把新的编码加入小字典中。

进一步地，所述的若收集到的起源信息是数据信息，则利用一种自适应合并方式对数据信息中小数据进行相关性合并存储的过程如下：

合并数据信息时，在数据起源***收集的数据信息可能大小差异过大，其中数据信息大小小于数据信息平均值大小一半的数据信息被称为小数据。首先使用调节器间隔计算阈值和合并窗口的窗口值，调节器通过统计当前数据信息的大小来计算阈值，以2^NKbyte，N＝0,1,2,3,4…即0K到1K，1K到2K，2K到4K…来划分区间；调节器统计数据信息大小所在的范围区间，所属范围区间最多的区间上限为小数据的阈值，同时设定合并窗口的窗口值等于两倍阈值大小；

处理数据信息，当数据信息大小大于阈值时，将数据信息直接存储到键值数据库中，否则将数据信息加入合并窗口中，并读取其相关溯源信息，读取下一条数据信息；

当合并窗口缓存的数据信息大于合并窗口的窗口值，根据数据信息的属性即溯源信息对数据信息进行排序合并，属性的优先级别从高到低分别是文件名、进程号、父进程号，将相同属性的小数据合并，按照不大于一个阈值大小切分，键值的方式存储合并后的数据信息。

进一步地，所述的键值数据库的存储方式具体如下：

当数据信息存储到键值数据库(Key-Value Database，简称KV)时，按照键值(KV)方式存储，即一个唯一编号对应一条合并的数据；

当溯源信息存储到键值数据库时，字典编码中编码信息和对应的溯源信息使用KV方式存储，溯源信息使用建表存储，表中数据包括用编码代替后的溯源信息和对应数据信息的唯一编号，数据信息中小数据所在位置的偏移量。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明主要用于删减数据起源***中的溯源信息，与传统直接存储方式相比，本发明提出的自适应合并算法能够减少溯源信息的存储空间损耗。

(2)本发明主要用于优化数据起源***中数据信息的存储方式，与传统直接存储方式相比，本发明提出的自适应数据合并存储方法能够减少数据信息的存储空间损耗，加速数据信息查询的过程。

附图说明

图1是本发明公开的一种面向数据起源***的自适应数据合并存储方法的框架图；

图2是本发明公开的一种面向数据起源***的自适应数据合并存储策略的类字典编码压缩说明案例图；其中图2(a)表示的是部分真实的溯源信息，图2(b)是图2(a)中溯源信息经过压缩后的表示图；

图3是本发明公开的一种面向数据起源***的自适应数据合并存储策略的自适应合并窗口图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例中提出了一种面向数据起源***的自适应数据合并存储方法，对数据起源***收集的溯源信息和数据信息进行优化存储。数据起源信息***中，细粒度的收集信息方式会导致大量的额外存储开销，***效率低下。本发明实施例通过压缩删减溯源信息中的冗余，合并数据信息中的小数据，减少了溯源信息中冗余导致的额外存储开销。由于合并了相关信息，也提高了数据信息在查询过程中的效率。

根据附图1所示，本实施例公开的一种面向数据起源***的自适应数据合并存储方法具体包括以下步骤：

S1、使用数据起源***收集信息：当进程执行时，数据起源***会自动拦截并收集的该进程的起源信息，其中，所述的起源信息包括溯源信息和数据信息，所述的溯源信息是用于描述进程或者文件的元数据，所述的数据信息是进程发生写操作时写入的内容；

其中，数据起源***包括用户***层、虚拟文件***层、起源信息收集层和底层文件***，当外部进程执行时，数据起源***会将进程的信息传送，经过虚拟文件***层、起源信息收集层，最后到达底层文件***，其中起源信息收集层用于收集起源信息。

S2、判断收集到的起源信息是溯源信息还是数据信息，根据当前收集到起源信息的类型，进行不同的优化存储方式；

S3、若收集到的起源信息是溯源信息，则利用一种字典编码方式对溯源信息进行压缩，初始设置一个小字典，读取溯源信息，首先查询溯源信息中的内容是否在小字典中存在对应编码，若不存在，将溯源信息的各项内容进行编码，将编码存入小字典中，并将原本溯源信息中的内容用编码代替后，存储到键值数据库中，若存在，则按小字典中对应编码代替溯源信息，存储到键值数据库中；

其中，小字典的存储区间具有上限阈值，适用于在线***，存储区间的上限阈值不小于当前进程的最大数。

S4、若收集到的起源信息是数据信息，则利用一种自适应合并方式对数据信息中小数据进行相关性合并存储，首先使用一个调节器统计当前数据信息的大小，并计算出当前数据信息的阈值，设置合并窗口的窗口值为两倍阈值，读取数据信息，上述的合并窗口是一个缓存区，用于暂时存储小数据；若当前收集的数据信息的大小大于阈值，则直接存储到键值数据库中，若当前收集的数据信息的大小小于阈值，则将其加入合并窗口并获取其相关的溯源信息；当合并窗口缓存的数据信息大小总和大于窗口值时，对合并窗口内部数据按照溯源信息的属性进行排序，然后按照每条大小不大于阈值的方式存储到键值数据库中。

上述步骤S3中，对溯源信息利用一种类字典编码方式对溯源信息进行压缩删除的过程具体如下：

初始设置一个小字典，读取溯源信息。首先查询溯源信息中的内容是否在小字典中存在对应编码。若不存在，将溯源信息的各项内容进行编码，将编码存入小字典中。将原本溯源信息中的内容用编码代替后，存储到键值数据库中。若存在，则按字典中对应编码代替溯源信息，存储到键值数据库中。

类字典编码方式是通过设置小字典来体现的。不同于现有统计字典大小的离线字典编码方式，本发明提出的小字典是有大小上限，适用于在线***的。选用小字典的原因是进程存在一定的生命周期，在进程的生命周期内，进程的溯源信息基本上不会发生变化，因此起源数据***收集到一个进程下的多次写操作，它们的溯源信息可能是相同的。而进程结束后，其溯源信息大概率不会再次出现。因此小字典设置与进程的生命周期相关，小字典内编码个数的上限只需满足大于计算机***运行时最大进程的数量即可。

上述步骤S4中，利用一种自适应合并方式对小数据信息进行相关性合并存储的过程具体如下：

在数据起源***收集的数据信息可能大小差异过大，其中数据信息大小小于数据信息平均值大小一半的数据信息被称为小数据。针对小数据的自适应合并策略算法着重于两个问题，第一是如何合并，合并的方式是怎样的。第二是怎样进行合并，合并的大小是怎么确定的。数据起源***记录数据信息的顺序是文件的访问时间顺序。所以在合并小数据时，整体按照时间先后顺序进行合并，更细粒度上，由于多进程执行任务可能是交替进行的，相同任务不一定在记录的时间上是紧密连续的。因此使用数据信息的属性即溯源信息来和合并。其中主要使用三种属性，根据属性优先级由高到低分别是：文件名，进程号，父进程号。最先使用高优先级文件名划分小数据，当文件名无法继续划分时，使用下一优先级进程号划分并以此类推。在合并小数据上，需要确定一个合并大小范围区间。过小不利于优化，合并区间过大不仅是是毫无意义的，对于后续查找合并偏移量也带来不便。为了保证整体稳定性，根据数据信息的数据大小占比自适应调整小数据合并的大小。合并数据信息时，首先使用调节器间隔计算阈值和窗口值。调节器通过统计当前数据信息的大小来计算阈值。以2NKbyte(N＝0,1,2,3,4…)即0K到1K，1K到2K，2K到4K…来划分区间。调节器统计数据信息中数据大小所属的范围区间，所属范围区间最多的区间上限为小数据的阈值。同时设定窗口值等于两倍阈值大小。合并窗口是一个缓存区，用于暂时存储小数据。例如处理了若干条数据，通过记录得知大部分数据大小属于1K-2K区间内，则将阈值设定为2K。选择计算当前数据信息预测未来一段时间的数据，阈值是间隔性计算的，因此阈值不是恒定不变的。

设置好阈值和窗口值后，处理数据信息，当数据信息大小大于阈值时，将数据信息直接存储到键值数据库中，否则将数据信息加入合并窗口中，读取其相关溯源信息，并读取下一条数据信息。合并窗口缓存的数据信息大小等于合并窗口值大小。当缓存满时，根据溯源信息即数据信息的属性对数据信息进行排序合并，相同属性的小数据会被合并到一起，属性的优先级别从高到低分别是文件名、进程号、父进程号。将不大于一个阈值大小的数据信息合并存储到键值数据库中。

实施例二

由于数据起源***记录粒度较细，可以最大程度保证信息的完整性。但是细粒度的收集方式导致巨大开销。溯源信息中冗余较多，因此本发明实现类字典编码压缩方式：

溯源压缩：根据图2(a)所示，选取了部分真实溯源信息，其中溯源信息包括了进程的时间，进程号，线程号，CPU,偏移量，文件名等。图2(b)也展示了溯源的压缩方式。可以看出，图2(a)中第1，4，5行具有大量相同的信息，PID,TID等，这些相同的信息可以合并成图2(b)中的A行，同样图2(a)中2，9，10行可以合并成图2(b)中的B行。将图2(b)中提取的各个信息(PID,TID,CPU等冗余信息)进行小字典编码，图2(a)中相应冗余信息替换为对应字典的编码并存入键值数据库。而图2(a)中的非冗余信息，时间，偏移量等，直接存储到键值数据库中。这种类字典编码的方式由于删除了大量冗余信息，因此能够有效地对减少了溯源信息数据量。

表1.溯源信息表

数据合并：合并数据时，首先获取当前的阈值。在读取数据时，大于或等于阈值的数据将不做处理，直接存储到键值数据库中，小于阈值的数据将被保留在窗口缓存中，当缓存到窗口值时，将其按照相对应溯源中的属性进行排序。文件名作为第一优先属性，这是为了保证在后续查询数据时，能够一次性读取单个文件的多次操作。排序好一个窗口后，将其数据信息存储到键值数据库中，将偏移量加入到溯源信息中，压缩后存储到键值数据库中。接下来再读取数据信息并缓存到窗口中。为了详细说明合并策略，本发明设计一些案例，溯源信息如表1：

为了方便理解，表1中只包含标识号，进程号，文件名，数据大小。假设计算出当前阈值为2K，则窗口值为两倍阈值：4K，算法会一次性读取总值为4K大小的数据存放在缓存区，缓存数据窗口如图3所示。表1的数据将合并在图3窗口内，序列识别号为3号和9号的数据因数据大小没有小于阈值会直接存储到键值数据库中。剩下的数据按照文件名优先编号。序列号1号，4号，5号对应文件f1,序列号2号，6号，8号对应文件f2.最后所有文件名只出现一次，例如10号，11号，12号。则将其按照次优先进程号进行排序为10号12号11号。排序后按照不大于阈值(2K)的大小来存储数据。图3中每个2K大小的窗口为可合并的数据，对应表1编号为1,4,5,2,6作为一个值存储，8号的加入会导致整体数据超过2K大小，因此8号加入下一个窗口内进行存储。

综上所述，本发明的面向数据起源***的自适应数据合并存储方法，将数据起源***收集到溯源信息中重复数据进行压缩删减，将数据信息中小数据进行相关度合并。优化了数据起源***下的存储开销；通过压缩删减溯源信息，可以充分减少溯源信息的空间消耗，通过合并数据，在定长键值数据库中可以减少数据信息的空间消耗，加快查找数据速度。本发明提供的方案能够较好的适应于数据起源***中存储空间开销减少。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种面向数据起源***的自适应数据合并存储方法，其特征在于，所述的自适应数据合并存储方法包括以下步骤：

若收集到的起源信息是溯源信息，则利用一种字典编码方式对溯源信息进行压缩，初始设置一个小字典，读取溯源信息，首先查询溯源信息中的内容是否在小字典中存在对应编码，若不存在，将溯源信息的各项内容进行编码，将编码存入小字典中，并将原本溯源信息中的内容用编码代替后，存储到键值数据库中，若存在，则按小字典中对应编码代替溯源信息，存储到键值数据库中；其中，所述的若收集到的起源信息是溯源信息，则利用一种字典编码方式对溯源信息进行压缩的过程具体如下：

对溯源信息编码时，先读取溯源信息，查询进程号、TID、CPU、文件名信息是否存在于当前小字典中，若存在相同信息，则查询小字典中对应的编码并用编码替代溯源信息中原本的信息；若不存在相同信息，则编码进程号、TID、CPU、文件名信息并将编码信息加入小字典，然后用编码代替溯源信息中原本的信息；在将新的编码信息加入到小字典时，需要判断小字典存储的编码个数是否达到小字典存储区间的上限阈值，若没有达到，则直接将编码加入小字典中，若达到上限，则踢出小字典中最早进入字典的编码，把踢出的编码存储到键值数据库中并把新的编码加入小字典中；

若收集到的起源信息是数据信息，则利用一种自适应合并方式对数据信息中小数据进行相关性合并存储，所述的小数据是指数据信息大小小于数据信息平均值大小一半的数据信息，首先使用一个调节器统计当前数据信息的大小，并计算出当前数据信息的阈值，设置合并窗口的窗口值为两倍阈值，读取数据信息，上述的合并窗口是一个缓存区，用于暂时存储小数据；若当前收集的数据信息的大小大于阈值，则直接存储到键值数据库中，若当前收集的数据信息的大小小于阈值，则将其加入合并窗口并获取其相关的溯源信息；当合并窗口缓存的数据信息大小总和大于窗口值时，对合并窗口内部数据按照溯源信息的属性进行排序，然后按照每条大小不大于阈值的方式存储到键值数据库中；其中，所述的若收集到的起源信息是数据信息，则利用一种自适应合并方式对数据信息中小数据进行相关性合并存储的过程具体如下：

合并数据信息时，首先使用调节器间隔计算阈值和合并窗口的窗口值，调节器通过统计当前数据信息的大小来计算阈值，以2^N Kbyte，N＝0,1,2,3,4…即0K到1K，1K到2K，2K到4K…来划分区间；调节器统计数据信息大小所在的范围区间，所属范围区间最多的区间上限为小数据的阈值，同时设定合并窗口的窗口值等于两倍阈值大小；

当合并窗口缓存的数据信息大于合并窗口的窗口值，根据数据信息的属性即溯源信息对数据信息进行排序合并，属性的优先级别从高到低分别是文件名、进程号、父进程号，将相同属性的小数据合并，按照不大于一个阈值大小切分，并按键值的方式存储合并后的数据信息。

2.根据权利要求1所述的一种面向数据起源***的自适应数据合并存储方法，其特征在于，所述的数据起源***包括用户***层、虚拟文件***层、起源信息收集层和底层文件***，当外部进程执行时，数据起源***会将进程的信息传送，经过虚拟文件***层、起源信息收集层，最后到达底层文件***，其中起源信息收集层用于收集起源信息。

3.根据权利要求1所述的一种面向数据起源***的自适应数据合并存储方法，其特征在于，所述的小字典的存储区间具有上限阈值，适用于在线***，存储区间的上限阈值不小于当前进程的最大数。

4.根据权利要求1所述的一种面向数据起源***的自适应数据合并存储方法，其特征在于，所述的键值数据库的存储方式具体如下：

当数据信息存储到键值数据库时，按照键值方式存储，即一个唯一编号对应一条合并的数据；

当溯源信息存储到键值数据库时，字典编码中编码信息和对应的溯源信息使用KV方式存储，溯源信息使用建表存储，表中数据包括用编码代替后的溯源信息和对应数据信息的唯一编号，小数据所在位置的偏移量。