CN111768028B

CN111768028B - 一种基于深度强化学习的gwlf模型参数调节方法

Info

Publication number: CN111768028B
Application number: CN202010506685.2A
Authority: CN
Inventors: 李幼萌; 龚文多
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2022-05-27
Anticipated expiration: 2040-06-05
Also published as: CN111768028A

Abstract

本发明公开了一种基于深度强化学习的GWLF模型参数调节方法，包括如下步骤：深度强化学习模型基于局部最优NSE初始化状态产生GWLF模型参数值，GWLF模型使用气象数据集和GWLF模型参数值计算产生NSE系数并传入深度强化学习模型；其中：状态调节模块基于神经网络对当前状态选择执行动作a后改变状态s到s’；计算奖励模块通过前一状态和后一状态对应的NSE系数计算动作奖励r；步长调节模块基于每一轮的奖励累计结果进行动作步长的衰减；记忆池随时对更新的状态s、s’、动作a和奖励r进行存储；神经网络模块定时对记忆池进行采样学习更新神经网络参数提升网络决策能力；本发明提高了调节GWLF模型参数的速度，优化了NSE系数，提升了GWLF模型的效果。

Description

一种基于深度强化学习的GWLF模型参数调节方法

技术领域

本发明涉及提升GWLF模型参数对水文预测能力应用方法，尤其涉及一种基于深度强化学习的GWLF模型的参数调节方法。

背景技术

强化学习(Rreinforcement Learning)，智能体(Agent)接收环境(Environment)状态s，为根据策略选择相应的动作a并作用于环境，环境状态转移到下一状态s′，同时给返回奖励r，智能体通过与环境不断交互、不断试错最终学习到经验和策略，然后指导之后的动作。

该过程表现为转化到下一状态不仅与上一状态s_t-1有关，还与状s_t-2,s_t-3,...,s₀有关。考虑模型的简化，当前状态s_t只与上一状态s_t-1有关，即该过程具有马尔科夫性。随着状态空间和动作空间的不断增大，通过类似于Q-learning查表的强化学习算法存在数据存储以及查询表格规模太大的问题。

2013年Deep Mind团队提出了一种基于深度学习的强化学习方法DQN(DeepReinforcement Learning)，该方法主要是通过神经网络拟合状态、动作到价值函数的映射关系，该方法开创了深度强化学习的先河。

论文《Dueling Network Architectures for Deep Reinforcement Learning》尝试从改变神经网络结构的角度对DQN进行改进。该方法基于基本的DQN算法，提出将神经网络单输出变为多输出，一部分输出与状态相关的价值函数V(S,w,α)，另一部分输出与状态和动作相关的优势函数A(S,A,w,β)，Dueling DQN的Q值为这两部分之和。如公式(1)所示，其中w,α,β为网络参数，在实际使用中对优势函数A(S,A,w,β)还要做去中心化处理。

Q(S,A,w,α,β)＝V(S,w,α)+A(S,A,w,β) (1)

Dueling DQN在很多领域中表现优异，如无人驾驶、计算机视觉、机器人控制等领域。

GWLF采用数学模型的方法模拟整个水文过程，该模型有大量参数，包括土地类参数、退水系数阈值、慢退水系数、最大持水量、月相关系数等参数，通过对这些参数的调节提高 GWLF模型水文预测能力。该模型预测结果的好坏可以用NSE系数(范围为(-∞,1])评定，NSE系数在范围内越高说明模型越准确，参数调节越优。

发明内容

针对于GWLF模型的参数数量多、区间大、精度难控制等问题，本文提供一种基于深度强化学习的GWLF模型的参数调节方法，能够在有限的学习过程中自动调节参数，加快调节速度的同时提高了模型的准确度。

GWLF模型的参数调节过程中，一般地对参数穷举调节是非常困难的，主要在于参数调节具有维度高、区间大、精度难控制、耗时和工作量大等特点。深度强化学习基于当前状态，经过神经网络动作选择对状态进行修改，得出结果返回奖励，并学习到动作策略。

本发明考虑将深度强化学习算法应用到GWLF模型参数调节中，基于深度强化学习进行调参的优点在于不需要了解每个参数实际的物理意义，通过神经网络的拟合能力和强化学习的决策能力提升GWLF模型的性能。

为了实现基于深度强化学习的GWLF模型的参数调节，本发明主要包含以下三个部分：基于深度强化学习GWLF调参模型的搭建、模型的参数调节范围和参数调节精度的选择。一种基于深度强化学习的GWLF参数调节方法，其特征在于，包括如下步骤：

深度强化学习模型基于局部最优NSE初始化状态产生GWLF模型参数值；

GWLF模型使用气象数据集和GWLF模型参数值计算产生NSE系数并传入深度强化学习模型；其中：

状态调节模块基于神经网络对当前状态选择执行动作a后改变状态s到s’；

计算奖励模块通过前一状态和后一状态对应的NSE系数计算动作奖励r；

步长调节模块基于每一轮的奖励累计结果进行动作步长的衰减；

记忆池随时对更新的状态s、s’、动作a和奖励r进行存储；

神经网络模块定时对记忆池进行采样学习更新神经网络参数提升网络决策能力。

将深度强化学习应用到GWLF模型参数调节问题，提出了一种状态空间、动作空间、奖励函数的建模方法。

初始化GWLF参数范围：每一轮学习过程对NSE系数计算获取其最大的参数值组合；采用贪婪策略在一定的概率下缩小初始参数范围。产生随机数a是否满足随时探索率；如果满足， GWLF参数范围等于当前最大参数组合后m,n步长；否则，GWLF参数范围等于全局范围；步长衰减：在每一轮的学习过程中，累计所有动作对应的奖励r，选择奖励最小且为负的动作衰减该动作的步长，从而提高模型的精度。

有益效果

本方法提供了一种基于深度强化学习的GWLF参数调节方法，在能够找到更大的NSE 系数值对应的模型参数的同时，提高了调节参数的速度，提升了GWLF模型的效果，该方法在GWLF调参实例表现效果优于其他调参方法。

附图说明

图1基于深度强化学习GWLF调参模型；

图2 Dueling DQN神经网络结构；

图3模型参数范围选择流程图；

图4模型参数调节精度流程图；

图5 Gym环境程序流程图；

图6调参Step流程图；

具体实施方式

以下结合附图，对本发明设计的模型结构搭建、网络训练、调节优化过程详细说明如下。

为了实现基于深度强化学习的GWLF模型的参数调节，本发明主要包含以下三个部分：基于深度强化学习GWLF调参模型的搭建、模型的参数调节范围和参数调节精度的选择。

1、基于深度强化学习GWLF调参模型的搭建

在使用强化学习调节参数前，需要对参数调节问题建立强化学习模型，图1为基于深度强化学习的GWLF模型的调参示意图。包括GWLF模型和深度强化学习模型两个部分。

GWLF模型通过输入深度强化学习模型输出的参数值组合，使用相关气象数据集通过 GWLF模型计算得到对应的NSE系数，并将NSE系数传递到深度强化学习模型。

深度强化学习模型包括模型参数初始化、GWLF参数范围和步长调节、初始化状态、神经网络、选择动作、改变状态、计算奖励以及回放记忆池、神经网络训练等模块。模型参数初始化包括对深度强化学习率r、学习轮数T、衰减值γ、记忆池大小M等深度强化学习模型参数进行初始化，也包括对GWLF模型的参数信息的初始化，包括参数值大小、参数范围和参数步长的初始化。在每一轮学习中首先初始化状态s。

神经网络接收当前状态选择执行动作a后改变状态s到s’，将新的参数值带入GWLF模型得到运算结果NSE返回深度强化学习模型中进行评估并计算奖励r。将状态信息s和s’、动作a以及奖励r加入回放池中，神经网络定时对回放池进行采样更新神经网络参数,从而优化强化学习模型的调节策略。

1.1、Dueling DQN的使用

对于GWLF模型的参数调节问题而言，将模型参数值组合作为状态，每一组模型参数值本身具有一定的价值，既要考虑该状态与目标状态s^*相差多少，还需要考虑在当前状态s下采取动作a的价值对整体价值的影响。Dueling DQN将状态值函数V(s)(valuefunction)和依赖状态的动作优势函数A(a)(advantage function)聚合在一起得到每个动作的Q值的优越性。

如图2所示。本发明主要使用的强化学习算法是基于Dueling DQN的深度强化学习算法。包括一个输入层，一个隐藏层、两个分支层和一个输出层。采用全连接的方式。采用对抗神经网络的方式，计算目标值与估计值的均方误差作为损失函数，通过梯度的反向传播更新神经网络参数，直至模型收敛。

1.2、基于参数值组合的状态空间

在GWLF模型的参数调节的问题中，每一种参数组合和带入这些参数后得到的NSE系数是对应的。所以考虑将所有GWLF模型参数组成的集合S＝(p₁,p₂,...,p_t,...,p_n)作为观察环境状态，其中t表示第几个超参数的序号，n表示有n维超参数。定义目标状态S^*为GWLF 模型最优状态，即NSE值最大。

1.3、基于对单个参数值修改的动作空间

在GWLF模型的参数调节中是对多个参数的增大或减小。动作的选择共有两种策略。

第一种是对n个超参数同时进行修改，每个参数的修改包括增大、减小和不变三种情况， n维参数需要3ⁿ种动作，这种方法的好处是可以快速将初始环境状态转移到目标状态S^*，但是由于动作种类非常多，所以需要进行非常多的时间步的学习模型才能收敛，并不适用于 GWLF模型的参数调节问题。

另一种是本发明所采取的动作选择方法。不需要同时修改所有参数，一个动作只对一个参数进行增加或减小，这样n维参数只需要n×2种动作。这样虽然不能快速将初始状态转移到目标状态S^*，但是相较于第一种方法来说，动作种类的减小能够有效提高强化学习速度，能够满足GWLF模型的参数调节问题。

1.4、基于反正切函数的奖励误差映射

奖励是用来评价一个动作对环境状态修改的优劣程度的，对有利于提高计算结果的动作进行奖励，对降低计算结果的动作进行惩罚。

对于GWLF模型的参数调节来说，本发明定义某个状态s_t对应的计算结果为o_t,下一状态 s_t+1对应的计算结果为o_t+1，则定义误差为

error＝(o_t+1-o_t)/(1-o_t+1)

基于反正切函数(inverse tangent)在

范围内有良好的性能，即奖励 r＝arctan(error)，表现在error＞0时，arctan(error)＞0，且error越大arctan(error)越大，且呈现平滑过渡地变化，error＜0时有类似特性。之后采用式(2)将奖励映射到(-1,1)区间内。

2、基于局部最优值的参数范围选择方法

传统的DQN对于奖励和惩罚的经验不做任何区分的存入同一个回放池中，目的是更好的拟合状态到动作价值的映射函数，能够使用学习到的策略从任意起始状态值执行相应的动作转移到目标值，这一过程具有持续性特点，使用∈-贪婪法在当前Q值输出中选择动作A 存在随机性，可能会在很长的持续动作-状态转移过程后执行随机动作导致当前轮次结束。而 GWLF模型参数调节的特点在于快速找到目标值，那些奖励大的经验对寻找目标值的作用更加重要。所以模型每次参数调节的范围选择对GWLF模型参数调节的影响非常大。

采用随机初始化参数，但是如果参数调节的范围太大，那么DQN模型随机性较大，收敛速度非常慢。注意力机制的目标在于从多个候选区域当中找到置信度最高的任务，在GWLF 模型参数调节中认为是从整个参数区间集合中找到得分最高的区间集合。

本发明基于局部最优值的参数范围选择方法，认为比当前最优状态更优的状态在当前最优状态的左右分布，即当前最大参数组合前后m,n倍步长，这样能够有效地缩小参数的范围。每一个episode初始化状态时，可以有概率地选择在缩小后的调节范围内随机选择，同时保持一定的全局随机探索率，防止陷入局部最优。图3为每次episode初始化GWLF模型参数范围流程图。

3、基于奖励值累计的步长衰减方法

另一个对GWLF模型参数调节结果影响较大的因素是参数调节的精度，即每次执行动作的步长，如果步长太大可能会错过最优值，产生震荡，如果步长太小寻找速度太慢。

本发明提出的解决办法是可变步长精度调节。该方法在每一个Step中通过记录每个动作累计反馈奖励值，在下一次Episode初始时，将获得奖励最小且为负的参数调节步长减半，由于精度越小对结果提升越大，所以每个参数的精度在调节的过程中会一直衰减，为了防止精度太小造成的调节过慢，设置最小精度。当参数调节精度小于等于最小精度时不再继续衰减。精度调节具体流程如图4所示。

实施本项目需要准备GWLF模型、气象数据集、以及基于Gym的强化学习接口函数的实现和编码。

针对于不同流域的GWLF模型参数个数是不统一的，对数据进行分类后包括以下10种类型，土地相关参数、退水系数、阈值、渗滤系数阈值、慢退水系数等，这些参数的类型、个数和范围如表1所示。应用本发明可以得出GWLF模型状态空间为9+n维，动作空间为2* (9+n)，是一个典型的多维参数调节问题。

表1 GWLF模型参数列表

以泾河流域为例，泾河GWLF模型共有22个参数(以下简称GWLF模型)，其中土地类参数有13个，则GWLF环境状态空间为22维，动作空间为22×2＝44。

定义保存参数相关信息数组，本实例中定义Par[22,5]，如表2所示。该数组保存参数的当前值(value)、参数范围下限(min)、参数范围上限(max)、调节步长(step size，对某一参数增加或减少的数值)，以及修改某一状态的动作奖励之和(all reword)。表中数据会在学习过程中的不同时刻自动修正。

参数值和动作奖励在每一次动作执行后都会被修改。调节步长是在每一轮结束后，下一轮开始前进行修改。参数信息的初始化就是初始化这一数据结构中的值。

表2 GWLF模型参数相关信息数组Par

针对于GWLF学习环境进行建模方式，本发明环境的建模和编码参考Open AI用于开发和比较强化学习算法的工具包Gym进行实现，基本的Gym框架结构如图5所示。Gym的核心是环境对象env，提供了一些接口函数，Episode为循环轮数；reset()的作用是重置环境到初始状态；step(action)的作用是执行action，返回下一状态observation，奖励reward，一轮是否结束标识done以及其他信息info；render()函数进行图形渲染(多适用于基于图像视频的游戏，在多维参数调节的环境中不需要定义该方法)。

Reset()方法完成状态的初始化，主要完成在范围内随机选择初始状态和对参数调节步长的修改两个任务。本发明按照式(3)选择初始状态，其中i＝0,1,...,21，random(a,b)为产生随机数函数，a,b为区间范围，ran为[0,1]之间随机数，ε_scop为范围探索率初始值为0，伴随找到更优值的过程会不断累加，s^#为当前最优状态数组，η和μ为超参数，用来规定缩小范围的幅度。通过这种方式能够有效缩小初始随机状态范围，加快学习速度。在本实例中，本实例取ε_scop≤0.9，η和μ取值分别为20和30。

初始化调节步长为Par[i,3]＝(Par[i,2]-Par[i,1])/2，每个参数的奖励之和Par[i,4]＝0。在每一个step中对某个参数进行修改所得到的奖励r会累加到Par[i,4]中，每次rest时，遍历 Par[i,4]找到奖励值最小且为负数(如果是多个，随机选择一个)对应的i，执行Par[i,3]/2的操作对步长进行衰减。之后执行Par[i,4]＝0进行下一轮奖励统计。在整个步长调节的过程中为了提高精度，调节步长会一直衰减下去，这样并不会有益于参数调节问题，所以需要规定参数步长的最小值，本实例规定步长最小值为Par[i,3]＝(Par[i,2]-Par[i,1])/100。

Step()方法的作用是接收动作并修改参数值，返回奖励和是否结束标志。该过程如图6所示。

针对于GWLF模型参数调节问题，每次执行动作可能对结果的影响有多种情况，对于不同的情况有不同的奖惩制度，如表3所示。

表3 执行动作对结果的不同影响与奖惩

环境搭建完毕后，将强化学习算法Dueling DQN作为调参决策单元应用到学习过程中，将动作空间(44个离散动作)，状态空间(22维状态空间)，模型采用TensorFlow框架搭建神经网络，学习率α(取0.01)，初始随机动作探索率ε_greedy(取0.92)，记忆库大小memory_size(取2500)，动作探索率衰变值γ(取0.001)带入到算法中。网络采用全连接神经网络，激活函数使用Relu，损失函数采用MSE均方误差，优化器使用RMSPro-pOptimizer。参数调节的具体算法流程如下所示。

实验表明通过不断地学习该模型能够很好地收敛。本方法可以通过对参数的自动调整有效提高了GWLF算法的性能。可以在12000～23700次step，大约7500次episode中找到NSE 系数大于0.78140对应的参数组合。相较于其他的参数调节方法，该发明大大提高了水文预测模型GWLF的稳定性和精确度。同时该方法具有一定的泛化能力，通过修改部分参数和算法，可以调节类似于GWLF多维参数调节的其他问题。

Claims

1.一种基于深度强化学习的GWLF模型参数调节方法，其特征在于，

通过对深度强化学习的状态空间、动作空间、奖励函数应用到GWLF模型，所述GWLF模型的参数调节方法包括GWLF模型的搭建、模型的参数调节范围和参数调节精度的选择，采用如下步骤：

状态调节模块是基于神经网络对当前状态选择执行动作a后改变状态s到s’；

记忆池随时对更新的状态s、s’、动作a和奖励r进行存储；

神经网络模块定时对记忆池进行采样学习更新神经网络参数提升网络决策能力；其中：

状态调节模块接收当前状态选择执行动作a后改变状态s到s’，将新的参数值带入所述计算奖励模块得到运算结果NSE进行评估并计算奖励r；将状态信息s和s’、动作a以及奖励r加入记忆池中，神经网络定时对记忆池进行采样更新神经网络参数，从而优化强化学习模型的调节策略；其中：

所述GWLF模型参数调节范围是基于局部最优值进行参数选择，初始化GWLF参数范围：每一轮学习过程对NSE系数计算获取其最大的参数值组合；采用贪婪策略缩小初始参数范围；产生随机数a是否满足随时探索率；如果满足，GWLF参数范围等于当前最大参数组合前后m,n步长；否则，GWLF参数范围等于全局范围；

所述GWLF模型参数调节精度的选择是基于步长衰减的参数精度调节：在每一轮的学习过程中，累计所有动作对应的奖励r，选择奖励最小且为负的动作衰减该动作的步长，从而提高模型的精度。