CN112347104A

CN112347104A - 一种基于深度强化学习的列存储布局优化方法

Info

Publication number: CN112347104A
Application number: CN202011228158.6A
Authority: CN
Inventors: 覃雄派; 陈跃国; 杜小勇; 赵丽萍
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-02-09
Anticipated expiration: 2040-11-06
Also published as: CN112347104B

Abstract

本发明公开了一种基于深度强化学习的列存储布局优化方法，该方法包括：接收查询负载；对查询负载进行解析，以生成查询特征；根据查询特征获取数据列的特征数据；基于列的输出顺序的策略、所述数据列的特征数据确定列的输出顺序；对所述输出顺序进行量化评价，所述量化评价策略基于***的奖赏进行调整；根据量化评价结果调整列的输出顺序的策略。通过本发明，能够在磁盘跳读时间减少的期望方向上不断调整所使用的模型参数，让神经网络根据列的特征数据自动学习最优列排序，并能够实现增量训练，而且不用在每次优化时重新计算列排序，从而大大降低计算代价。

Description

一种基于深度强化学习的列存储布局优化方法

技术领域

本发明涉及计算机领域，尤其涉及一种基于深度强化学习的列存储布局优化方法，主要是对大数据的列存储进行布局优化，从而提升数据读取性能。

背景技术

面向关系型数据的OLAP(Online Line Analytic Processing)分析在很多分析和决策支持类应用中发挥着至关重要的作用。在大数据时代，很多大数据分析***，如Hive、Spark SQL等，将HDFS(Hadoop Distributed File System)作为底层的存储，大量的数据不断地积累并存储在HDFS上，而数据分析的实时性要求越来越高。作为分布式大数据低成本数据存储与处理的事实标准，HDFS为大数据分析***提供了容错的、可移植、可扩展、高读写吞吐量的统一数据存储。HDFS上的大数据分析***通常被用于支持海量数据上批量的和交互式的查询分析。

在这些***中，数据表通常采用如RCFile、ORC、Parquet、CarbonData等列存储格式，采用列存储的数据存储提供灵活有效的数据编码和压缩功能并且能够只读取必要的数据列，从而避免了不必要的I/O，但我们发现HDFS上数据的查询分析性能可以通过存储布局的优化而进一步提高。当查询访问HDFS数据块中的一个水平分片中的数据列时，需要进行多次的磁盘跳读，一个最优的列顺序可以提供最小的磁盘跳读代价。其中，列排序问题已经被学术论文证明为NP-Hard。如何在给定的查询负载下，设计有效的列排序算法来找到一个近似最优的列顺序是一个难题。而现有的启发式搜索的优化随机性强，容易陷入次优中，同时每次优化都需要重新计算列排序，计算代价较高。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的技术方案。因此，本发明的一个方面，提供了一种基于深度强化学习的列存储布局优化方法，该方法包括：

接收查询负载；

对查询负载进行解析，以生成查询特征；

根据查询特征获取数据列的特征数据；

基于列的输出顺序的策略、所述数据列的特征数据确定列的输出顺序；

对所述输出顺序进行量化评价，所述量化评价策略基于***的奖赏进行调整；

根据量化评价结果调整列的输出顺序的策略。

可选的，根据磁盘跳读时间对所述输出顺序进行量化评价。

可选的，采用Actor-Critic算法实现深度强化学习列的输出顺序的策略，基于***的奖赏调整量化评价策略，包括根据***给出的奖赏调整critic神经网络中的参数。

可选的，采用Pointer Net的神经网络进行输出顺序的决策，包括从一个序列到另一个序列进行映射。

可选的，基于列的输出顺序的策略、所述数据列的特征数据确定列的输出顺序，包括：

利用注意力机制得到输出序列某一个位置的元素与输入序列每个位置关联的权重；

将输入序列与该权重进行组合以计算当前输出与输入序列关系最大的元素，并将该输入序列的元素作为输出元素。

可选的，该方法还包括：对输入查询负载进行统一编码，具体包括：

将输入查询负载中的每一个查询初始化为一集合；

确定每一个查询的对应列访问特征；

根据列访问特征将该查询对应的所述集合中的元素进行二值编码。

本申请提供的技术方案，至少具有如下技术效果或优点：本发明实现了一种基于深度强化学习的列存储布局优化方法，并与现有的启发式列排序算法进行实验对比，进一步降低磁盘跳读代价，能够在磁盘跳读时间减少的期望方向上不断调整所使用的模型参数，让神经网络根据列的特征数据自动学习最优列排序，并能够实现增量训练，将最新的查询负载直接输入到模型中，不用在每次优化时重新计算列排序，从而大大降低计算代价。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述技术方案和其目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明提出的基于深度强化学习的列存储布局优化方法的流程图；

图2示出了一种基于宽表的列存储布局优化方案中磁盘的跳读代价模型图；

图3示出了本发明提出的基于深度强化学习的列存储布局优化的总体框架图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

在大数据分析***中，I/O往往是主要的性能瓶颈，存储***的设计和优化对于大数据分析性能的提升至关重要。在数据组织方面，列存储(如ORC、Parquet)提供灵活有效的数据编码和压缩功能并且能够只需读取必要的数据列，从而避免了不必要的I/O。在列存储布局下，如何调整物理数据存储布局以适合不断变化的查询负载和***环境是亟待解决的问题。本发明的目的是在Hadoop环境下，设计并实现一种基于深度强化学习的列存储布局优化方法DRL-COA(Deep Reinforcement Learning based Column Ordering Algorithm)，应用于自适应的列存储布局优化中，其与现有的启发式列排序算法比较，进一步降低了磁盘跳读代价。

在本发明提出的DRL-COA中，使用Actor-Critic算法模型进行强化学习，并在Actor神经网络中应用Pointer Net的网络结构，主要是用于根据最开始的输入，不断输出新的动作(列顺序)，Critic神经网络根据动作之后的“收益”用于对该动作进行评价，从而不断选择新的动作。在做动作选择时，由于是一个列顺序，因此每个位置的列的选择也很重要，这里通过注意力机制得到某一个位置的元素与输入序列每个位置关联的权重，从而进行选择。

本发明的一个方面，提供了一种基于深度强化学习的列存储布局优化方法，该方法利用深度强化学习技术来解决列的顺序决策问题，通过训练模型来优化存储布局，具体地，如图1所示，该方法包括：

接收查询负载；

对查询负载进行解析，以生成查询特征；

根据查询特征获取数据列的特征数据；

根据量化评价结果调整列的输出顺序的策略。

作为一种优选实施方式，采用Actor-Critic算法实现深度强化学习列的输出顺序的策略，基于***的奖赏调整量化评价策略，包括根据***给出的奖赏调整critic神经网络中的参数。

下面具体描述Actor-Critic算法实现的具体过程。方案中DRL-COA网络模型的输入可以表示为矩阵[1*n]：

c_i代表每个数据列在该查询中是否存在(其中，1代表存在，0代表不存在)，n表示查询个数，输入即为查询负载Q的数学表示。Actor-Critic模型的输出为数据列的顺序，可以表示为O(Order)。同时，使用磁盘跳读时间来对模型每次迭代的输出结果进行评价。其流程主要如下：

(1)根据目前的state，Actor做出一个列排序输出的action；

(2)根据state(状态)和action，Critic对actor刚才的表现打一个分数；

(3)依据critic的打分，Actor调整目前的策略(即actor神经网络中的参数)，执行下一个动作；

(4)根据***给出的reward(收益)，Critic也来调整目前的打分策略(即critic神经网络中的参数)；

(5)最初，Actor随机表演，Critic随机打分。但由于reward的存在，Critic打分越来越准，Actor也表现越来越好。

在该方法中，优选根据磁盘跳读时间对所述输出顺序进行量化评价。本方案的网络模型随机策略p_θ(o|c)可以表示为：当输入为c(column)，输出为o(order)时，模型评价SC(o│c)为相应的磁盘跳读时间。研究模型训练的目标为：当模型评价SC(o|c)值愈小，则输出o会以较大的概率被选中。其中，训练时将磁盘跳读时间来对模型每次迭代的输出结果进行评价，这样设计可以保证在训练过程中模型参数是在磁盘跳读时间减少的期望方向上不断调整。

图2示出了一种基于宽表的列存储布局优化方案中磁盘的跳读代价模型图。在基于宽表的列存储布局优化方案中，针对传统磁盘上数据访问的特征设计了基于磁盘的跳读时间代价模型，在一系列的HDFS文件中执行多次距离相等的跳读操作，取此跳读距离d上的平均跳读时间作为d对应的统计意义上的跳读代价。得到不同跳读距离下的跳读代价后，采用线性拟合来构建一个分段的跳读代价函数。图2示出了采用此方法在三种不同型号磁盘上得到的跳读代价函数。

在本专利中，采用Actor-Critic算法实现了深度强化学习，从而在处理游戏数据上能既可以处理离散值又可以实现单步更新，相比较，现有技术中基于值函数的算法仅能对离散值进行处理，在游戏的每一步都进行更新，基于策略的算法虽可以处理离散值和连续值，但是必须等到每一回合游戏结束才可以进行处理。但在本申请中采用Actor-Critic深度学习算法后则能够实现既可以处理离散值又可以单步更新。

图3为本发明提出的基于深度强化学习的列存储布局优化的总体框架图。图中展示了DRL-COA模型的几大组件，从查询负载的收集、解析到模型的特征输入与训练，智能体(深度学习体)通过与环境的不断交互学习，学习列的特征数据，Critic神经网络根据跳读估计器组件来对Actor神经网络模型每次迭代的输出结果进行评价，使得模型参数能在磁盘跳读时间减少的期望方向上不断调整，相比于启发式搜索的随机性优化，更具有方向性，不易陷入次优中；同时，作为深度强化学习模型，不用在每次优化时重新计算列排序，通过增量训练的方式大大降低了计算代价。

在本专利中，基于列的输出顺序的策略、所述数据列的特征数据确定列的输出顺序，可包括：

优选的，采用Pointer Net的神经网络进行输出顺序的决策，包括从一个序列到另一个序列进行映射。

本方案在考虑列排序的问题上，将其类比为一种组合优化的相关问题，即需要进行序列之间的决策，来调整列顺序。DRL-COA模型，采用Pointer Net的神经网络来求解列排序中的序列决策问题，解决从一个序列到另一个序列的映射问题。同时，在计算输出序列时，利用注意力机制得到该输出序列某一个位置的元素与输入序列每一个位置关联的权重，然后将输入序列与该权重以一定的方式组合来影响输出。由此，可以计算出当前输出与输入序列关系最大的元素，就将输入序列的元素作为该输出元素，每一个输出元素都像有一个指针一样指向输入元素。这样设计可以控制每个输入元素只能被一个输出元素所指，这样就避免了输入元素的重复出现。

在本发明中，在模型训练前会先进行输入查询负载样本的编码。这是因为每个查询访问的列可能只是部分列，而输出的是所有列的集合，通过输入编码可以达到PointerNet网络结构的要求，输出序列的内容与输入序列的内容完全一致，只是序列的顺序发生了改变。在图3中，C₁,C₂,C₃,C₄,C₅为编码器输入的数据列，而<g>,C₄,C₅,C₁,C₂为解码器输出的数据列。

假设负载Q中的查询个数为N，访问的数据列集合长度为n，我们将每一个查询q初始化为

c_i＝0的集合N’。

因此对输入查询负载进行统一编码，具体可包括：

将输入查询负载中的每一个查询初始化为一集合；

确定每一个查询的对应列访问特征；具体地，对于负载Q中的每一个查询q(只涉及m个数据列)，其列访问特征为C_q＝{c_q,1,c_q,2,...,c_q,m}。

根据列访问特征将该查询对应的所述集合中的元素进行二值编码，具体地，可以将该查询q在N’中对应的{1,2,...,m}等数据列的下标位置设置为1，其他位置仍然为0(表示查询q不曾访问该列)。由此，负载统一编码成{1,0,...,1}的模式。

本专利申请通过Actor-Critic深度强化学习算法、Pointer Net神经网络、注意力机制以及磁盘跳读代价模拟等技术，对输入负载样本进行有效编码，以列顺序作为输出，磁盘跳读代价作为对模型每次迭代的输出结果进行评价，从而使得模型参数能在磁盘跳读时间减少的期望方向上不断调整。在此实现方案下，让神经网络根据列的特征数据自动学习最优列排序，且可以实现DRL-COA模型的增量训练，将最新的查询负载直接输入到模型中，不用在每次优化时重新计算列排序，从而大大降低计算代价。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。

Claims

1.一种基于深度强化学习的列存储布局优化方法，其特征在于，该方法包括：

接收查询负载；

对查询负载进行解析，以生成查询特征；

根据查询特征获取数据列的特征数据；

根据量化评价结果调整列的输出顺序的策略。

2.根据权利要求1所述的列存储布局优化方法，其特征还在于，根据磁盘跳读时间对所述输出顺序进行量化评价。

3.根据权利要求1所述的列存储布局优化方法，其特征还在于，采用Actor-Critic算法实现深度强化学习列的输出顺序的策略，基于***的奖赏调整量化评价策略包括根据***给出的奖赏调整critic神经网络中的参数。

4.根据权利要求1所述的列存储布局优化方法，其特征还在于，采用Pointer Net的神经网络进行输出顺序的决策，包括从一个序列到另一个序列进行映射。

5.根据权利要求1所述的列存储布局优化方法，其特征还在于，基于列的输出顺序的策略、所述数据列的特征数据确定列的输出顺序，包括：

6.根据权利要求4所述的列存储布局优化方法，其特征还在于，基于列的输出顺序的策略、所述数据列的特征数据确定列的输出顺序，包括：对输入查询负载进行统一编码，具体为：将输入查询负载中的每一个查询初始化为一集合；确定每一个查询的对应列访问特征；根据列访问特征将该查询对应的所述集合中的元素进行二值编码。