CN106997488A - 一种结合马尔科夫决策过程的动作知识提取方法 - Google Patents
一种结合马尔科夫决策过程的动作知识提取方法 Download PDFInfo
- Publication number
- CN106997488A CN106997488A CN201710173631.7A CN201710173631A CN106997488A CN 106997488 A CN106997488 A CN 106997488A CN 201710173631 A CN201710173631 A CN 201710173631A CN 106997488 A CN106997488 A CN 106997488A
- Authority
- CN
- China
- Prior art keywords
- state
- action
- attribute
- strategy
- value function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种结合马尔科夫决策过程的动作知识提取方法,包括:训练随机森林模型H;定义动作知识提取问题AKE:针对随机森林模型H,对属性进行分割,定义属性变化、动作,在此基础上定义动作知识提取问题AKE;用马尔科夫决策过程求解AKE优化问题:对任意输入数据,定义马尔科夫决策过程MDP,并定义策略,通过策略迭代更新策略,最后求解得到一个最优策略;本发明中动作知识提取定义的动作,能够改变状态的多个属性值,在实际应用中,将会给出准确的可行性建议。
Description
技术领域
本发明属于机器学习技术领域,特别是一种结合马尔科夫决策过程的动作知识提取方法。
背景技术
在机器学习中,许多模型如支持向量机、随机森林、深层神经网络已经被提出并取得了很大的成功,但是在许多实际应用中,这些模型的可实施性比较差。
强化学习是一类特殊的机器学习,通过与所在环境的自主交互来学习决策策略,使得策略收到的长期累积奖赏最大;强化学习与其他机器学习方法的区别在于:不用预先给出训练数据,而是要通过与环境的交互来产生;在管理科学领域,知识提取问题是采用统计学的方法来分析用户的行为并找出特定的规则;在机器学习领域,知识提取问题主要是采用模型后续分析技术。
这两类方法的主要缺点是他们是用全部数据建立模型来提取知识,并不是对单独记录提取其有用的知识。所以在许多应用中,这些模型的可实施性比较差,因为这些模型仅对状态的一个属性值进行修改,这就造成了在实际应用中结果会出现误差,不能准确地给出可行性的建议。
发明内容
本发明所解决的技术问题在于提供一种结合马尔科夫决策过程的动作知识提取方法,以解决现有技术中用全部数据建立模型提取知识和只改变状态的一个属性值,导致结果误差较大的问题;本发明通过强化学习的马尔科夫决策过程实现数据驱动的动作知识提取,实现把机器学习模型的预测结果转化为动作知识的能力。
实现本发明目的的技术解决方案为:
一种结合马尔科夫决策过程的动作知识提取方法,包括如下步骤:
步骤1:训练随机森林模型H;
步骤2:定义动作知识提取问题AKE:针对随机森林模型H,对属性进行分割,定义属性变化、动作,在此基础上定义动作知识提取问题AKE;
步骤3、用马尔科夫决策过程求解AKE优化问题:对任意输入数据,定义马尔科夫决策过程MDP,并定义策略,通过策略迭代更新策略,最后求解得到一个最优策略。
本发明与现有技术相比,其显著优点:
(1)本发明提出了一种结合经典强化学习方法马尔科夫决策过程的方法,为当前动作知识提取领域提供了一种新的方法。
(2)本发明提出的动作知识提取技术有效地改进了在有限时间内找到最优策略的准确率;本发明是基于随机森林模型,随机森林模型是现有的最好分类模型之一,已被广泛用于实际问题中,通过随机森林模型的预处理,可以使得数据有序分类,优化了在后续的马尔科夫决策过程中迭代寻找最优策略的时间。
(3)本发明中动作知识提取定义的动作,能够改变状态的多个属性值,在实际应用中,将会给出准确的可行性建议。
(4)基于马尔科夫决策过程中每步状态完全可以被观测到,迭代寻找最优策略的准确率得以保证;结合马尔科夫决策过程不需要使用全部数据来建立模型的特点,本发明能够针对某个单独记录提取其可用的动作知识,可以通过与环境的交互来自主地了解环境并得到一个更好的策略。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为本发明方法总体流程图。
具体实施方式
本发明的一种结合马尔科夫决策过程的动作知识提取方法,结合机器学习与强化学习,利用马尔科夫决策过程提取动作知识;具体步骤如下:
步骤1:训练随机森林模型H:
给定一个训练数据集,建立一个随机森林模型H;定义训练数据集为{X,Y},X为输入数据向量集合,Y为输出类别标记集合,通过随机采样和完全***建立随机森林模型H,随机森林模型H的预测函数为
其中,为输入向量,y∈Y,y为随机森林模型H在输入向量为的情况下输出的预测分类,c为期望分类目标,d为第d棵决策树,D为随机森林中决策树的总棵数,wd为第d棵决策树的权重,为第d棵决策树在输入的情况下对应的输出,为指示函数,表示在输入数据向量为的情况下输出的预测分类为c的概率。
步骤2:定义动作知识提取问题(AKE):针对随机森林模型H,对属性进行分割,定义属性变化、动作,在此基础上定义动作知识提取问题(AKE)。
2.1对属性进行分割:给定一个随机森林模型H,每一个属性xi(i=1,…,M)被分割为M个数量的区间。
1)如果属性xi是分类类型的并且具有n个分类,则属性xi自然被分割成n个区间,此时M=n。
2)如果属性xi是数值类型的,随机森林模型H中每棵决策树上的分支结点为xi>b,则b即为属性xi的一个分割点。如果在所有决策树中属性xi有n个分割点,则属性xi分割为n+1个区间,此时M=n+1。
2.2定义属性变化:给定一个随机森林模型H,一个属性变化τ定义为一个三元组τ=(xi,p,q),p和q分别是该属性xi的两个分割区间。
一个属性变化τ在给定的输入向量上是可执行的,当且仅当该输入向量的第i个属性xi在区间p中;一个属性变化τ即是把输入向量的属性xi从区间p转变到区间q。
2.3、定义动作:
一个动作a定义为一个属性变化集,即动作a={τ1,…,τ|a|};每个动作a都有一个立即奖赏R(α)。
其中,|a|表示动作a中属性变化的个数,|a|≥1,即一个动作a至少包含一个属性变化τ。
一个动作a在输入向量上是可执行的,当且仅当其所有属性变化τ在上是可执行的。
2.4、定义动作知识提取问题(AKE)为:
subject to p(y=c|x*)>z
其中,A为可执行的动作集合,As为需要寻找的最优动作序列,ai为最优动作序列As中任意一个动作,R(ai)为动作ai的立即奖赏,F(As)为作用于最优动作序列As上得到的总奖赏值,y为随机森林模型H在输入向量为的情况下输出的预测分类,z为一个常数阈值,x*为从初始输入向量执行最优动作序列As中所有动作之后得到的向量结果。
AKE问题是找一个动作序列把输入向量转变为一个具有期望预测分类的目标向量,同时保证该动作序列的奖赏总和最大;所以,这是一个优化问题,称为AKE优化问题。在AKE问题的动作定义中,一个动作至少包含一个属性变化,这就能够改变一个状态的多个属性值,在实际应用中,将会给出准确的可行性建议。
步骤3、用马尔科夫决策过程求解AKE优化问题:对任意输入数据,定义马尔科夫决策过程(MDP),并定义策略,通过策略迭代更新策略,最后求解得到一个最优策略。
3.1定义马尔科夫决策过程为ΠMDP={S,A,T,R};
定义过程为现有技术,其中S表示状态空间,状态用s表示;A表示动作空间,动作用a表示;T:S×A×S→[0,1]是状态转移函数,表示在一个状态下执行一个动作后转移到另一个状态的概率;R:S×A→R是奖赏函数,表示发生状态转移时环境给出的立即奖赏。从状态s出发,采取动作a∈A(s),收到环境反馈的奖赏R(s,a),并且以T(s,a,s′)的概率转移到下一时刻的状态s′∈S,其中A(s)表示在状态s可采取动作的集合。
马尔科夫决策过程是一个循环迭代的过程,直到满足终止条件为止,结束之后输出最优策略序列B。
3.2定义策略:
策略π为状态到动作的映射:S×A→[0,1],目标是找到一个具有最大累计奖赏Rπ的最优策略π*:
其中,Rπ是策略π下t时刻执行动作的累计奖赏,γt是折扣因子γ的t次方,Eπ[·]是策略π下的期望,rt是t时刻执行动作的立即奖赏。
3.3定义值函数:
奖赏函数是对一个状态(动作)的即时评价,值函数则是从长远角度来考虑一个状态的好坏;这里使用状态值函数V(s)。
给定一个策略π,状态值函数定义为:
基于最优策略π*,最优状态值函数V*(s)可以定义为:
其中,s0表示初始状态,s0=s表示以状态s为初始状态,Vπ(s)是在策略π下以状态s为初始状态的状态值函数,V*(s)是在策略π下以状态s为初始状态的最优状态值函数。
根据Bellman最优等式,可有:
其中,rt+1是t+1时刻执行动作的立即奖赏,V*(st+1)为t+1时刻状态st+1的最优状态值函数,s′是下一时刻的状态,T(s,a,s′)是状态转移概率,γ是折扣因子,R(s,α)是在状态s、动作a下的累计奖赏,V*(s′)是下一状态s′下最优状态值函数。
3.4、根据策略迭代求解得到一个最优策略:
先随机初始化一个策略πt,计算这个策略下状态值函数vt,根据这些状态值函数得到新的策略πt+1,计算新策略下每个状态的值函数vt+1,直到收敛。
计算一个策略下每个状态的价值,被称为策略评估;根据状态价值得到新策略,被称为策略改进。
3.4.1进行策略评估:
根据Bellman等式,一个状态的值函数和它后续状态的值函数相关;因此,用后续状态值函数v(s′)来更新当前状态的值函数v(s);
策略评估遍历所有状态,按照下面公式来更新状态值函数:
更新状态值函数之后,将策略πt添加到最优策略序列B中;
其中,是策略πt下状态s的状态值函数,是策略πt+1下状态s′的状态值函数,π(s,a)表示策略为状态s、动作a。
3.4.2进行策略改进:
根据状态值函数得到一个优于旧策略的新策略;对于一个状态s,让策略选择一个动作a,使得当前状态值函数R(s,a)+γ∑s′T(s,a,s′)Vπ(s′)最大,即
其中,πt+1表示t+1时刻的策略。
3.4.3根据策略改进的结果,输出最优策略序列B:判断策略中的状态是否是目标状态,如果是目标状态就退出策略迭代并输出最优策略序列B;如果不是目标状态,则重新进行策略评估,直到满足状态s是目标状态,并输出最优策略B。
是否为目标函数的判断条件为:
本发明提出了一种结合经典强化学习方法马尔科夫决策过程的方法,为当前动作知识提取领域提供了一种新的方法。本发明是基于随机森林模型,随机森林模型是现有的最好分类模型之一,已被广泛用于实际问题中。通过随机森林模型的预处理,可以使得数据有序分类,优化了在后续的马尔科夫决策过程中迭代寻找最优策略的时间,因此本发明提出的动作知识提取方法有效地改进了在有限时间内找到最优策略的准确率。本发明中动作知识提取定义的动作,能够改变状态的多个属性值,在实际应用中,将会给出准确的可行性建议。基于马尔科夫决策过程中每步状态完全可以被观测到,迭代寻找最优策略的准确率得以保证。结合马尔科夫决策过程不需要使用全部数据来建立模型的特点,本发明能够针对某个单独记录提取其可用的动作知识,可以通过与环境的交互来自主地了解环境并得到一个更好的策略。
Claims (7)
1.一种结合马尔科夫决策过程的动作知识提取方法,其特征在于,包括如下步骤:
步骤1:训练随机森林模型H;
步骤2:定义动作知识提取问题AKE:针对随机森林模型H,对属性进行分割,定义属性变化、动作,在此基础上定义动作知识提取问题AKE;
步骤3、用马尔科夫决策过程求解AKE优化问题:对任意输入数据,定义马尔科夫决策过程MDP,并定义策略,通过策略迭代更新策略,最后求解得到一个最优策略。
2.如权利要求1所述的一种结合马尔科夫决策过程的动作知识提取方法,其特征在于,步骤1中的训练随机森林模型H具体为:
给定一个训练数据集,建立一个随机森林模型H;定义训练数据集为{X,Y},X为输入数据向量集合,Y为输出类别标记集合,通过随机采样和完全***建立随机森林模型H,随机森林模型H的预测函数为
其中,为输入向量,y∈Y,y为随机森林模型H在输入向量为的情况下输出的预测分类,c为期望分类目标,d为第d棵决策树,D为随机森林中决策树的总棵数,wd为第d棵决策树的权重,为第d棵决策树在输入的情况下对应的输出,为指示函数,表示在输入数据向量为的情况下输出的预测分类为c的概率。
3.如权利要求1所述的一种结合马尔科夫决策过程的动作知识提取方法,其特征在于,步骤2中定义动作知识提取问题具体包括如下步骤:
2.1对属性进行分割:给定一个随机森林模型H,每一个属性xi(i=1,…,M)被分割为M个数量的区间;
2.2定义属性变化:给定一个随机森林模型H,一个属性变化τ定义为一个三元组τ=(xi,p,q),p和q分别是该属性xi的两个分割区间;
2.3、定义动作:
一个动作a定义为一个属性变化集,即动作a={τ1,…,τ|a|};每个动作a都有一个立即奖赏R(α);
其中,|a|表示动作a中属性变化的个数,|α|≥1,即一个动作α至少包含一个属性变化τ;
2.4、定义动作知识提取问题(AKE)为:
subject to p(y=C|x*)>z
其中,A为可执行的动作集合,As为需要寻找的最优动作序列,αi为最优动作序列As中任意一个动作,R(ai)为动作ai的立即奖赏,F(As)为作用于最优动作序列As上得到的总奖赏值,y为随机森林模型H在输入向量为的情况下输出的预测分类,z为一个常数阈值,x*为从初始输入向量执行最优动作序列As中所有动作之后得到的向量结果。
4.如权利要求3所述的一种结合马尔科夫决策过程的动作知识提取方法,其特征在于,步骤2.1中属性xi被分割为M个数量的区间,具体分为:
1)如果属性xi是分类类型的并且具有n个分类,则属性xi自然被分割成n个区间,此时M=n;
2)如果属性xi是数值类型的,随机森林模型H中每棵决策树上的分支结点为xi>b,则b即为属性xi的一个分割点;如果在所有决策树中属性xi有n个分割点,则属性xi分割为n+1个区间,此时M=n+1。
5.如权利要求1所述的一种结合马尔科夫决策过程的动作知识提取方法,其特征在于,步骤3中用马尔科夫决策过程求解AKE优化问题具体包括以下步骤:
3.1定义马尔科夫决策过程为ΠMDP={S,A,T,R}:
S表示状态空间,状态用s表示;A表示动作空间,动作用a表示;T:S×A×S→[0,1]是状态转移函数,表示在一个状态下执行一个动作后转移到另一个状态的概率;R:S×A→R是奖赏函数,表示发生状态转移时环境给出的立即奖赏;从状态s出发,采取动作a∈A(s),收到环境反馈的奖赏R(s,a),并且以T(s,a,s′)的概率转移到下一时刻的状态s′∈S,其中A(s)表示在状态s可采取动作的集合;
3.2定义策略:
策略π为状态到动作的映射:S×A→[0,1],目标是找到一个具有最大累计奖赏Rπ的最优策略π*:
其中,Rπ是策略π下t时刻执行动作的累计奖赏,γt是折扣因子γ的t次方,Eπ[·]是策略π下的期望,rt是t时刻执行动作的立即奖赏;
3.3定义值函数:
给定一个策略π,状态值函数定义为:
基于最优策略π*,最优状态值函数V*(s)可以定义为:
其中,s0表示初始状态,s0=s表示以状态s为初始状态,Vπ(s)是在策略π下以状态s为初始状态的状态值函数,V*(s)是在策略π下以状态s为初始状态的最优状态值函数;
根据Bellman最优等式,可有:
其中,rt+1是t+1时刻执行动作的立即奖赏,V*(st+1)为t+1时刻状态st+1的最优状态值函数,s′是下一时刻的状态,T(s,a,s′)是状态转移概率,γ是折扣因子,R(s,a)是在状态s、动作a下的累计奖赏,V*(s′)是下一状态s′下最优状态值函数;
3.4、根据策略迭代求解得到一个最优策略:
先随机初始化一个策略πt,计算这个策略下状态值函数vt,根据这些状态值函数得到新的策略πt+1,计算新策略下每个状态的值函数vt+1,直到收敛。
6.如权利要求5所述的一种结合马尔科夫决策过程的动作知识提取方法,其特征在于,步骤3.4中根据策略迭代求解得到一个最优策略,具体包括以下步骤:
3.4.1进行策略评估:
根据Bellman等式,一个状态的值函数和它后续状态的值函数相关;因此,用后续状态值函数v(s′)来更新当前状态的值函数v(s);
策略评估遍历所有状态,按照下面公式来更新状态值函数:
更新状态值函数之后,将策略πt添加到最优策略序列B中;
其中,是策略πt下状态s的状态值函数,是策略πt+1下状态s′的状态值函数,π(s,a)表示策略为状态s、动作a;
3.4.2进行策略改进:
根据状态值函数得到一个优于旧策略的新策略;对于一个状态s,让策略选择一个动作a,使得当前状态值函数R(s,a)+γ∑s′T(s,a,s′)Vπ(s′)最大,即
其中,πt+1表示t+1时刻的策略;
3.4.3根据策略改进的结果,输出最优策略序列B:判断策略中的状态是否是目标状态,如果是目标状态就退出策略迭代并输出最优策略序列B;如果不是目标状态,则重新进行策略评估,直到满足状态s是目标状态,并输出最优策略B。
7.如权利要求6所述的一种结合马尔科夫决策过程的动作知识提取方法,其特征在于,步骤3.4.3中是否为目标函数判断条件为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710173631.7A CN106997488A (zh) | 2017-03-22 | 2017-03-22 | 一种结合马尔科夫决策过程的动作知识提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710173631.7A CN106997488A (zh) | 2017-03-22 | 2017-03-22 | 一种结合马尔科夫决策过程的动作知识提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106997488A true CN106997488A (zh) | 2017-08-01 |
Family
ID=59431600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710173631.7A Pending CN106997488A (zh) | 2017-03-22 | 2017-03-22 | 一种结合马尔科夫决策过程的动作知识提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106997488A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108376287A (zh) * | 2018-03-02 | 2018-08-07 | 复旦大学 | 基于CN-DBpedia的多值属性分割装置及方法 |
CN108510110A (zh) * | 2018-03-13 | 2018-09-07 | 浙江禹控科技有限公司 | 一种基于知识图谱的水位趋势分析方法 |
CN109741626A (zh) * | 2019-02-24 | 2019-05-10 | 苏州科技大学 | 停车场停车情况预测方法、调度方法和*** |
CN110363015A (zh) * | 2019-07-10 | 2019-10-22 | 华东师范大学 | 一种基于用户属性分类的马尔可夫预取模型的构建方法 |
CN110378717A (zh) * | 2018-04-13 | 2019-10-25 | 北京京东尚科信息技术有限公司 | 用于输出信息的方法和装置 |
CN111294284A (zh) * | 2018-12-10 | 2020-06-16 | 华为技术有限公司 | 流量调度方法及装置 |
CN113112051A (zh) * | 2021-03-11 | 2021-07-13 | 同济大学 | 一种基于增强学习的串行生产***生产维护联合优化方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5806056A (en) * | 1994-04-29 | 1998-09-08 | International Business Machines Corporation | Expert system and method employing hierarchical knowledge base, and interactive multimedia/hypermedia applications |
CN101000624A (zh) * | 2007-01-10 | 2007-07-18 | 华为技术有限公司 | 实现数据挖掘模型转换和应用的方法、***及装置 |
CN102054002A (zh) * | 2009-10-28 | 2011-05-11 | ***通信集团公司 | 一种数据挖掘***中决策树的生成方法及装置 |
CN103034691A (zh) * | 2012-11-30 | 2013-04-10 | 南京航空航天大学 | 一种基于支持向量机的专家***知识获取方法 |
CN103246991A (zh) * | 2013-05-28 | 2013-08-14 | 运筹信息科技(上海)有限公司 | 一种基于数据挖掘的客户关系管理方法和*** |
CN103258255A (zh) * | 2013-03-28 | 2013-08-21 | 国家电网公司 | 一种适用于电网管理***的知识发现方法 |
CN105182988A (zh) * | 2015-09-11 | 2015-12-23 | 西北工业大学 | 基于马尔科夫决策过程的飞行员操作行为引导方法 |
CN105955921A (zh) * | 2016-04-18 | 2016-09-21 | 苏州大学 | 基于自动发现抽象动作的机器人分层强化学习初始化方法 |
CN106021377A (zh) * | 2016-05-11 | 2016-10-12 | 上海点荣金融信息服务有限责任公司 | 计算机实现的信息处理方法及装置 |
CN106156488A (zh) * | 2016-06-22 | 2016-11-23 | 南京邮电大学 | 基于贝叶斯个性化排序的知识图链接预测方法 |
CN106447463A (zh) * | 2016-10-21 | 2017-02-22 | 南京大学 | 一种基于马尔科夫决策过程模型的商品推荐方法 |
-
2017
- 2017-03-22 CN CN201710173631.7A patent/CN106997488A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5806056A (en) * | 1994-04-29 | 1998-09-08 | International Business Machines Corporation | Expert system and method employing hierarchical knowledge base, and interactive multimedia/hypermedia applications |
CN101000624A (zh) * | 2007-01-10 | 2007-07-18 | 华为技术有限公司 | 实现数据挖掘模型转换和应用的方法、***及装置 |
CN102054002A (zh) * | 2009-10-28 | 2011-05-11 | ***通信集团公司 | 一种数据挖掘***中决策树的生成方法及装置 |
CN103034691A (zh) * | 2012-11-30 | 2013-04-10 | 南京航空航天大学 | 一种基于支持向量机的专家***知识获取方法 |
CN103258255A (zh) * | 2013-03-28 | 2013-08-21 | 国家电网公司 | 一种适用于电网管理***的知识发现方法 |
CN103246991A (zh) * | 2013-05-28 | 2013-08-14 | 运筹信息科技(上海)有限公司 | 一种基于数据挖掘的客户关系管理方法和*** |
CN105182988A (zh) * | 2015-09-11 | 2015-12-23 | 西北工业大学 | 基于马尔科夫决策过程的飞行员操作行为引导方法 |
CN105955921A (zh) * | 2016-04-18 | 2016-09-21 | 苏州大学 | 基于自动发现抽象动作的机器人分层强化学习初始化方法 |
CN106021377A (zh) * | 2016-05-11 | 2016-10-12 | 上海点荣金融信息服务有限责任公司 | 计算机实现的信息处理方法及装置 |
CN106156488A (zh) * | 2016-06-22 | 2016-11-23 | 南京邮电大学 | 基于贝叶斯个性化排序的知识图链接预测方法 |
CN106447463A (zh) * | 2016-10-21 | 2017-02-22 | 南京大学 | 一种基于马尔科夫决策过程模型的商品推荐方法 |
Non-Patent Citations (4)
Title |
---|
LONGBING CAO: ""Actionable knowledge discovery and delivery"", 《METASYNTHETIC COMPUTING AND ENGINEERING OF COMPLEX SYSTEMS》 * |
QIANG YANG等: ""Extracting Actionable Knowledge from Decision Trees"", 《IEEE TRANSACTIONS ON KNOELEDGE AND DATA ENGINEERING》 * |
ZHICHENG CUI等: ""Optimal Action Extraction for Random Forests and Boosted Trees"", 《PROCEEDINGS OF THE 21TH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》 * |
陈兴国等: ""强化学习及其在电脑围棋中的应用"", 《自动化学报》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108376287A (zh) * | 2018-03-02 | 2018-08-07 | 复旦大学 | 基于CN-DBpedia的多值属性分割装置及方法 |
CN108510110A (zh) * | 2018-03-13 | 2018-09-07 | 浙江禹控科技有限公司 | 一种基于知识图谱的水位趋势分析方法 |
CN110378717A (zh) * | 2018-04-13 | 2019-10-25 | 北京京东尚科信息技术有限公司 | 用于输出信息的方法和装置 |
CN110378717B (zh) * | 2018-04-13 | 2024-03-05 | 北京京东尚科信息技术有限公司 | 用于输出信息的方法和装置 |
CN111294284A (zh) * | 2018-12-10 | 2020-06-16 | 华为技术有限公司 | 流量调度方法及装置 |
CN111294284B (zh) * | 2018-12-10 | 2022-04-26 | 华为技术有限公司 | 流量调度方法及装置 |
CN109741626A (zh) * | 2019-02-24 | 2019-05-10 | 苏州科技大学 | 停车场停车情况预测方法、调度方法和*** |
CN109741626B (zh) * | 2019-02-24 | 2023-09-29 | 苏州科技大学 | 停车场停车情况预测方法、调度方法和*** |
CN110363015A (zh) * | 2019-07-10 | 2019-10-22 | 华东师范大学 | 一种基于用户属性分类的马尔可夫预取模型的构建方法 |
CN113112051A (zh) * | 2021-03-11 | 2021-07-13 | 同济大学 | 一种基于增强学习的串行生产***生产维护联合优化方法 |
CN113112051B (zh) * | 2021-03-11 | 2022-10-25 | 同济大学 | 一种基于增强学习的串行生产***生产维护联合优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106997488A (zh) | 一种结合马尔科夫决策过程的动作知识提取方法 | |
Al-Shabandar et al. | A deep gated recurrent neural network for petroleum production forecasting | |
Alzubaidi et al. | A survey on deep learning tools dealing with data scarcity: definitions, challenges, solutions, tips, and applications | |
WO2023065545A1 (zh) | 风险预测方法、装置、设备及存储介质 | |
CN110889556B (zh) | 一种企业经营风险特征数据信息提取方法和提取*** | |
CN109299396B (zh) | 融合注意力模型的卷积神经网络协同过滤推荐方法及*** | |
Jin et al. | Bayesian symbolic regression | |
CN104008203B (zh) | 一种融入本体情境的用户兴趣挖掘方法 | |
WO2019015631A1 (zh) | 生成机器学习样本的组合特征的方法及*** | |
Pirani et al. | A comparative analysis of ARIMA, GRU, LSTM and BiLSTM on financial time series forecasting | |
US11151480B1 (en) | Hyperparameter tuning system results viewer | |
CN105893609A (zh) | 一种基于加权混合的移动app推荐方法 | |
CN104798043A (zh) | 一种数据处理方法和计算机*** | |
WO2018133596A1 (zh) | 一种基于名义属性的连续型特征构造方法 | |
CN103324954A (zh) | 一种基于树结构的图像分类方法及其*** | |
CN107451230A (zh) | 一种问答方法以及问答*** | |
CN113326852A (zh) | 模型训练方法、装置、设备、存储介质及程序产品 | |
Patidar et al. | Handling missing value in decision tree algorithm | |
CN116861924A (zh) | 基于人工智能的项目风险预警方法及*** | |
CN107368895A (zh) | 一种结合机器学习和自动规划的动作知识提取方法 | |
Li | A study on the influence of non-intelligence factors on college students’ English learning achievement based on C4. 5 algorithm of decision tree | |
Prudêncio et al. | A modal symbolic classifier for selecting time series models | |
Kim et al. | Knowledge extraction and representation using quantum mechanics and intelligent models | |
CN110310012A (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN113326884A (zh) | 大规模异构图节点表示的高效学习方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170801 |