CN106997488A

CN106997488A - 一种结合马尔科夫决策过程的动作知识提取方法

Info

Publication number: CN106997488A
Application number: CN201710173631.7A
Authority: CN
Inventors: 吕强; 李兆荣; 李欢
Original assignee: Yangzhou University
Current assignee: Yangzhou University
Priority date: 2017-03-22
Filing date: 2017-03-22
Publication date: 2017-08-01

Abstract

本发明公开了一种结合马尔科夫决策过程的动作知识提取方法，包括：训练随机森林模型H；定义动作知识提取问题AKE：针对随机森林模型H，对属性进行分割，定义属性变化、动作，在此基础上定义动作知识提取问题AKE；用马尔科夫决策过程求解AKE优化问题：对任意输入数据，定义马尔科夫决策过程MDP，并定义策略，通过策略迭代更新策略，最后求解得到一个最优策略；本发明中动作知识提取定义的动作，能够改变状态的多个属性值，在实际应用中，将会给出准确的可行性建议。

Description

一种结合马尔科夫决策过程的动作知识提取方法

技术领域

本发明属于机器学习技术领域，特别是一种结合马尔科夫决策过程的动作知识提取方法。

背景技术

在机器学习中，许多模型如支持向量机、随机森林、深层神经网络已经被提出并取得了很大的成功，但是在许多实际应用中，这些模型的可实施性比较差。

强化学习是一类特殊的机器学习，通过与所在环境的自主交互来学习决策策略，使得策略收到的长期累积奖赏最大；强化学习与其他机器学习方法的区别在于：不用预先给出训练数据，而是要通过与环境的交互来产生；在管理科学领域，知识提取问题是采用统计学的方法来分析用户的行为并找出特定的规则；在机器学习领域，知识提取问题主要是采用模型后续分析技术。

这两类方法的主要缺点是他们是用全部数据建立模型来提取知识，并不是对单独记录提取其有用的知识。所以在许多应用中，这些模型的可实施性比较差，因为这些模型仅对状态的一个属性值进行修改，这就造成了在实际应用中结果会出现误差，不能准确地给出可行性的建议。

发明内容

本发明所解决的技术问题在于提供一种结合马尔科夫决策过程的动作知识提取方法，以解决现有技术中用全部数据建立模型提取知识和只改变状态的一个属性值，导致结果误差较大的问题；本发明通过强化学习的马尔科夫决策过程实现数据驱动的动作知识提取，实现把机器学习模型的预测结果转化为动作知识的能力。

实现本发明目的的技术解决方案为：

一种结合马尔科夫决策过程的动作知识提取方法，包括如下步骤：

步骤1：训练随机森林模型H；

步骤2：定义动作知识提取问题AKE：针对随机森林模型H，对属性进行分割，定义属性变化、动作，在此基础上定义动作知识提取问题AKE；

步骤3、用马尔科夫决策过程求解AKE优化问题：对任意输入数据，定义马尔科夫决策过程MDP，并定义策略，通过策略迭代更新策略，最后求解得到一个最优策略。

本发明与现有技术相比，其显著优点：

(1)本发明提出了一种结合经典强化学习方法马尔科夫决策过程的方法，为当前动作知识提取领域提供了一种新的方法。

(2)本发明提出的动作知识提取技术有效地改进了在有限时间内找到最优策略的准确率；本发明是基于随机森林模型，随机森林模型是现有的最好分类模型之一，已被广泛用于实际问题中，通过随机森林模型的预处理，可以使得数据有序分类，优化了在后续的马尔科夫决策过程中迭代寻找最优策略的时间。

(3)本发明中动作知识提取定义的动作，能够改变状态的多个属性值，在实际应用中，将会给出准确的可行性建议。

(4)基于马尔科夫决策过程中每步状态完全可以被观测到，迭代寻找最优策略的准确率得以保证；结合马尔科夫决策过程不需要使用全部数据来建立模型的特点，本发明能够针对某个单独记录提取其可用的动作知识，可以通过与环境的交互来自主地了解环境并得到一个更好的策略。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为本发明方法总体流程图。

具体实施方式

本发明的一种结合马尔科夫决策过程的动作知识提取方法，结合机器学习与强化学习，利用马尔科夫决策过程提取动作知识；具体步骤如下：

步骤1：训练随机森林模型H：

给定一个训练数据集，建立一个随机森林模型H；定义训练数据集为{X,Y}，X为输入数据向量集合，Y为输出类别标记集合，通过随机采样和完全***建立随机森林模型H，随机森林模型H的预测函数为

其中，为输入向量，y∈Y，y为随机森林模型H在输入向量为的情况下输出的预测分类，c为期望分类目标，d为第d棵决策树，D为随机森林中决策树的总棵数，w_d为第d棵决策树的权重，为第d棵决策树在输入的情况下对应的输出，为指示函数，表示在输入数据向量为的情况下输出的预测分类为c的概率。

步骤2：定义动作知识提取问题(AKE)：针对随机森林模型H，对属性进行分割，定义属性变化、动作，在此基础上定义动作知识提取问题(AKE)。

2.1对属性进行分割：给定一个随机森林模型H，每一个属性x_i(i＝1，…，M)被分割为M个数量的区间。

1)如果属性x_i是分类类型的并且具有n个分类，则属性x_i自然被分割成n个区间，此时M＝n。

2)如果属性x_i是数值类型的，随机森林模型H中每棵决策树上的分支结点为x_i＞b，则b即为属性x_i的一个分割点。如果在所有决策树中属性x_i有n个分割点，则属性x_i分割为n+1个区间，此时M＝n+1。

2.2定义属性变化：给定一个随机森林模型H，一个属性变化τ定义为一个三元组τ＝(x_i，p，q)，p和q分别是该属性x_i的两个分割区间。

一个属性变化τ在给定的输入向量上是可执行的，当且仅当该输入向量的第i个属性x_i在区间p中；一个属性变化τ即是把输入向量的属性x_i从区间p转变到区间q。

2.3、定义动作：

一个动作a定义为一个属性变化集，即动作a＝{τ₁，…，τ_|a|}；每个动作a都有一个立即奖赏R(α)。

其中，|a|表示动作a中属性变化的个数，|a|≥1，即一个动作a至少包含一个属性变化τ。

一个动作a在输入向量上是可执行的，当且仅当其所有属性变化τ在上是可执行的。

2.4、定义动作知识提取问题(AKE)为：

subject to p(y＝c|x^*)＞z

其中，A为可执行的动作集合，A_s为需要寻找的最优动作序列，a_i为最优动作序列A_s中任意一个动作，R(a_i)为动作a_i的立即奖赏，F(A_s)为作用于最优动作序列A_s上得到的总奖赏值，y为随机森林模型H在输入向量为的情况下输出的预测分类，z为一个常数阈值，x^*为从初始输入向量执行最优动作序列A_s中所有动作之后得到的向量结果。

AKE问题是找一个动作序列把输入向量转变为一个具有期望预测分类的目标向量，同时保证该动作序列的奖赏总和最大；所以，这是一个优化问题，称为AKE优化问题。在AKE问题的动作定义中，一个动作至少包含一个属性变化，这就能够改变一个状态的多个属性值，在实际应用中，将会给出准确的可行性建议。

步骤3、用马尔科夫决策过程求解AKE优化问题：对任意输入数据，定义马尔科夫决策过程(MDP)，并定义策略，通过策略迭代更新策略，最后求解得到一个最优策略。

3.1定义马尔科夫决策过程为Π_MDP＝{S，A，T，R}；

定义过程为现有技术，其中S表示状态空间，状态用s表示；A表示动作空间，动作用a表示；T：S×A×S→[0，1]是状态转移函数，表示在一个状态下执行一个动作后转移到另一个状态的概率；R：S×A→R是奖赏函数，表示发生状态转移时环境给出的立即奖赏。从状态s出发，采取动作a∈A(s)，收到环境反馈的奖赏R(s，a)，并且以T(s，a，s′)的概率转移到下一时刻的状态s′∈S，其中A(s)表示在状态s可采取动作的集合。

马尔科夫决策过程是一个循环迭代的过程，直到满足终止条件为止，结束之后输出最优策略序列B。

3.2定义策略：

策略π为状态到动作的映射：S×A→[0，1]，目标是找到一个具有最大累计奖赏R_π的最优策略π^*：

其中，R_π是策略π下t时刻执行动作的累计奖赏，γ^t是折扣因子γ的t次方，E_π[·]是策略π下的期望，r_t是t时刻执行动作的立即奖赏。

3.3定义值函数：

奖赏函数是对一个状态(动作)的即时评价，值函数则是从长远角度来考虑一个状态的好坏；这里使用状态值函数V(s)。

给定一个策略π，状态值函数定义为：

基于最优策略π^*，最优状态值函数V^*(s)可以定义为：

其中，s₀表示初始状态，s₀＝s表示以状态s为初始状态，V^π(s)是在策略π下以状态s为初始状态的状态值函数，V^*(s)是在策略π下以状态s为初始状态的最优状态值函数。

根据Bellman最优等式，可有：

其中，r_t+1是t+1时刻执行动作的立即奖赏，V^*(s_t+1)为t+1时刻状态s_t+1的最优状态值函数，s′是下一时刻的状态，T(s，a，s′)是状态转移概率，γ是折扣因子，R(s，α)是在状态s、动作a下的累计奖赏，V^*(s′)是下一状态s′下最优状态值函数。

3.4、根据策略迭代求解得到一个最优策略：

先随机初始化一个策略π_t，计算这个策略下状态值函数v_t，根据这些状态值函数得到新的策略π_t+1，计算新策略下每个状态的值函数v_t+1，直到收敛。

计算一个策略下每个状态的价值，被称为策略评估；根据状态价值得到新策略，被称为策略改进。

3.4.1进行策略评估：

根据Bellman等式，一个状态的值函数和它后续状态的值函数相关；因此，用后续状态值函数v(s′)来更新当前状态的值函数v(s)；

策略评估遍历所有状态，按照下面公式来更新状态值函数：

更新状态值函数之后，将策略π_t添加到最优策略序列B中；

其中，是策略π_t下状态s的状态值函数，是策略π_t+1下状态s′的状态值函数，π(s，a)表示策略为状态s、动作a。

3.4.2进行策略改进：

根据状态值函数得到一个优于旧策略的新策略；对于一个状态s，让策略选择一个动作a，使得当前状态值函数R_(s，a)+γ∑_s′T_{(s，a，s′)}V^π(s′)最大，即

其中，π_t+1表示t+1时刻的策略。

3.4.3根据策略改进的结果，输出最优策略序列B：判断策略中的状态是否是目标状态，如果是目标状态就退出策略迭代并输出最优策略序列B；如果不是目标状态，则重新进行策略评估，直到满足状态s是目标状态，并输出最优策略B。

是否为目标函数的判断条件为：

本发明提出了一种结合经典强化学习方法马尔科夫决策过程的方法，为当前动作知识提取领域提供了一种新的方法。本发明是基于随机森林模型，随机森林模型是现有的最好分类模型之一，已被广泛用于实际问题中。通过随机森林模型的预处理，可以使得数据有序分类，优化了在后续的马尔科夫决策过程中迭代寻找最优策略的时间，因此本发明提出的动作知识提取方法有效地改进了在有限时间内找到最优策略的准确率。本发明中动作知识提取定义的动作，能够改变状态的多个属性值，在实际应用中，将会给出准确的可行性建议。基于马尔科夫决策过程中每步状态完全可以被观测到，迭代寻找最优策略的准确率得以保证。结合马尔科夫决策过程不需要使用全部数据来建立模型的特点，本发明能够针对某个单独记录提取其可用的动作知识，可以通过与环境的交互来自主地了解环境并得到一个更好的策略。

Claims

1.一种结合马尔科夫决策过程的动作知识提取方法，其特征在于，包括如下步骤：

步骤1：训练随机森林模型H；

2.如权利要求1所述的一种结合马尔科夫决策过程的动作知识提取方法，其特征在于，步骤1中的训练随机森林模型H具体为：

p (y = c | \overset{&RightArrow;}{x}) = \frac{Σ_{d - 1}^{D} w_{d} I (o_{d} (\overset{&RightArrow;}{x}) = c)}{Σ_{d - 1}^{D} w_{d}}

3.如权利要求1所述的一种结合马尔科夫决策过程的动作知识提取方法，其特征在于，步骤2中定义动作知识提取问题具体包括如下步骤：

2.1对属性进行分割：给定一个随机森林模型H，每一个属性x_i(i＝1，…，M)被分割为M个数量的区间；

2.2定义属性变化：给定一个随机森林模型H，一个属性变化τ定义为一个三元组τ＝(x_i，p，q)，p和q分别是该属性x_i的两个分割区间；

2.3、定义动作：

一个动作a定义为一个属性变化集，即动作a＝{τ₁，…，τ_|a|}；每个动作a都有一个立即奖赏R(α)；

其中，|a|表示动作a中属性变化的个数，|α|≥1，即一个动作α至少包含一个属性变化τ；

2.4、定义动作知识提取问题(AKE)为：

\max_{A_{s} &Element; A} F (A_{s}) = \underset{a_{i} &Element; A_{s}}{Σ} R (a_{i})

subject to p(y＝C|x^*)＞z

其中，A为可执行的动作集合，A_s为需要寻找的最优动作序列，α_i为最优动作序列A_s中任意一个动作，R(a_i)为动作a_i的立即奖赏，F(A_s)为作用于最优动作序列A_s上得到的总奖赏值，y为随机森林模型H在输入向量为的情况下输出的预测分类，z为一个常数阈值，x^*为从初始输入向量执行最优动作序列A_s中所有动作之后得到的向量结果。

4.如权利要求3所述的一种结合马尔科夫决策过程的动作知识提取方法，其特征在于，步骤2.1中属性x_i被分割为M个数量的区间，具体分为：

1)如果属性x_i是分类类型的并且具有n个分类，则属性x_i自然被分割成n个区间，此时M＝n；

2)如果属性x_i是数值类型的，随机森林模型H中每棵决策树上的分支结点为x_i＞b，则b即为属性x_i的一个分割点；如果在所有决策树中属性x_i有n个分割点，则属性x_i分割为n+1个区间，此时M＝n+1。

5.如权利要求1所述的一种结合马尔科夫决策过程的动作知识提取方法，其特征在于，步骤3中用马尔科夫决策过程求解AKE优化问题具体包括以下步骤：

3.1定义马尔科夫决策过程为Π_MDP＝{S，A，T，R}：

S表示状态空间，状态用s表示；A表示动作空间，动作用a表示；T：S×A×S→[0，1]是状态转移函数，表示在一个状态下执行一个动作后转移到另一个状态的概率；R：S×A→R是奖赏函数，表示发生状态转移时环境给出的立即奖赏；从状态s出发，采取动作a∈A(s)，收到环境反馈的奖赏R(s，a)，并且以T(s，a，s′)的概率转移到下一时刻的状态s′∈S，其中A(s)表示在状态s可采取动作的集合；

3.2定义策略：

π^{*} = \arg \max_{π} R_{π}

R_{π} = E_{π} [Σ_{t = 0}^{\infty} γ^{t} r_{t}]

其中，R_π是策略π下t时刻执行动作的累计奖赏，γ^t是折扣因子γ的t次方，E_π[·]是策略π下的期望，r_t是t时刻执行动作的立即奖赏；

3.3定义值函数：

给定一个策略π，状态值函数定义为：

V^{π} (s) = E_{π} [Σ_{t = 0}^{\infty} γ^{t} r_{t} | s_{0} = s]

基于最优策略π^*，最优状态值函数V^*(s)可以定义为：

V^{*} (s) = E_{π^{*}} [Σ_{t = 0}^{\infty} γ^{t} r_{t} | s_{0} = s]

其中，s₀表示初始状态，s₀＝s表示以状态s为初始状态，V^π(s)是在策略π下以状态s为初始状态的状态值函数，V^*(s)是在策略π下以状态s为初始状态的最优状态值函数；

根据Bellman最优等式，可有：

V^{*} (s) = \underset{a}{m a x} E [r_{t + 1} + {γV}^{*} (s_{t + 1}) | s_{t} = s, a_{t} = a] = \underset{a}{m a x} Σ_{s^{'}} T (s, a, s^{'}) [R (s, a) + {γV}^{*} (s^{'})]

其中，r_t+1是t+1时刻执行动作的立即奖赏，V^*(s_t+1)为t+1时刻状态s_t+1的最优状态值函数，s′是下一时刻的状态，T(s，a，s′)是状态转移概率，γ是折扣因子，R(s，a)是在状态s、动作a下的累计奖赏，V^*(s′)是下一状态s′下最优状态值函数；

3.4、根据策略迭代求解得到一个最优策略：

6.如权利要求5所述的一种结合马尔科夫决策过程的动作知识提取方法，其特征在于，步骤3.4中根据策略迭代求解得到一个最优策略，具体包括以下步骤：

3.4.1进行策略评估：

策略评估遍历所有状态，按照下面公式来更新状态值函数：

V^{π_{t}} (s) = \underset{a &Element; A}{Σ} π (s, a) (R_{(s, a)} + γ \underset{s^{'}}{Σ} T_{(s, a, s^{'})} V^{π_{t + 1}} (s^{'}))

更新状态值函数之后，将策略π_t添加到最优策略序列B中；

其中，是策略π_t下状态s的状态值函数，是策略π_t+1下状态s′的状态值函数，π(s，a)表示策略为状态s、动作a；

3.4.2进行策略改进：

π_{t + 1} = \{\begin{matrix} 1 & a = \arg \max_{a} (R_{(s, a)} + γ \underset{s^{'}}{Σ} T_{(s, a, s^{'})} V^{π_{t + 1}} (s^{'})) \\ 0 & a &NotEqual; \arg \max_{a} (R_{(s, a)} + γ \underset{s^{'}}{Σ} T_{(s, a, s^{'})} V^{π_{t + 1}} (s^{'})) \end{matrix}

其中，π_t+1表示t+1时刻的策略；

7.如权利要求6所述的一种结合马尔科夫决策过程的动作知识提取方法，其特征在于，步骤3.4.3中是否为目标函数判断条件为：