CN106842925B - 一种基于深度强化学习的机车智能操纵方法与*** - Google Patents

一种基于深度强化学习的机车智能操纵方法与*** Download PDF

Info

Publication number
CN106842925B
CN106842925B CN201710045758.0A CN201710045758A CN106842925B CN 106842925 B CN106842925 B CN 106842925B CN 201710045758 A CN201710045758 A CN 201710045758A CN 106842925 B CN106842925 B CN 106842925B
Authority
CN
China
Prior art keywords
locomotive
study
module
learning
train
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710045758.0A
Other languages
English (en)
Other versions
CN106842925A (zh
Inventor
赵曦滨
夏雅楠
黄晋
卢莎
任育琦
顾明
孙家广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
CRRC Dalian Institute Co Ltd
CRRC Information Technology Co Ltd
Original Assignee
Tsinghua University
CRRC Dalian Institute Co Ltd
CRRC Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, CRRC Dalian Institute Co Ltd, CRRC Information Technology Co Ltd filed Critical Tsinghua University
Priority to CN201710045758.0A priority Critical patent/CN106842925B/zh
Publication of CN106842925A publication Critical patent/CN106842925A/zh
Application granted granted Critical
Publication of CN106842925B publication Critical patent/CN106842925B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种基于深度强化学习的机车智能操纵方法与***,该***包括数据源模块、机车运行环境学习模块、评价机制学习模块和控制策略学习模块,数据源模块为机车运行环境学习模块和评价机制学习模块提供所需的数据输入,机车运行环境学习模块和评价机制学习模块将分别获得的具体的运行环境和奖赏函数值输出至控制策略学习模块。基于深度强化学习算法,机车运行环境模型以机车操纵动作的实时评价作为反馈信息,通过奖赏或惩罚当前的操纵动作,给控制策略反馈一个奖赏函数作为奖赏评价值,控制策略结合运行状态迭代地进行策略的更新与优化。本发明能更好的实现机车智能优化操纵,并极大地减少了人工参与。

Description

一种基于深度强化学习的机车智能操纵方法与***
技术领域
本发明涉及一种机车操纵方法与***,尤其涉及一种基于深度强化学习的机车智能操纵方法与***,属于机车控制领域。
背景技术
铁路机车的自动驾驶和优化操纵对于解放人力、降低能耗、提高机车准点率和安全性等方面具有重要作用。由于列车运行环境复杂、影响因素众多,各国学者在机车操纵优化算法进行了大量研究,其中大体可以分为三类:解析求解方法、数值优化方法和启发式的优化算法。在解析求解方法应用中,一般分为两种:一种应用于输入的牵引力和制动力是离散类型的机车,另一种应用于输入的牵引力和制动力是连续类型的机车。但是解析求解方法中的约束过于简单,不能很好的拟合机车显示运行情况,而数值优化方法实时性较差,难以用于机车的实时优化控制,启发式的优化算法具有人工依赖度过大的缺点。目前的机车操纵实时控制算法一般都会基于特定假设进行设计,难以适用于机车复杂的运行工况,从而难以确保机车运行安全。
近年来,基于机器学习人工智能技术的机车优化控制也成为研究热点。LuoHengyu和Xu Hongze提出了一个适用于高速机车自动化控制操作***的综合智能控制***。***中包含多个模糊神经网络控制器,并用专家决策***基于机车的运行状态自动选择最优的控制器以实现机车的有效控制。Heqing Sun等人提出了一个迭代的学习算法以实现机车运行轨迹的跟踪,该算法基于机车动力学模型,联合应用了错误反馈机制。他们通过理论分析证明了算法的可收敛性。Lixing Yang等人针对不确定性条件干扰下的实时机车操控***的实现,基于专家学习提出了两个RTO算法和一个在线学习算法,算法考虑了不确定性条件的干扰,满足了多目标的要求。Jia TengYin等人在现有的ATO算法基础上加入了基于数据挖掘算法和专家学习以及启发式的机车停站算法(HSA),形成了优化的STO算法。这些研究在一定程度上借助了人工驾驶经验,通过专家***辅以机器学习等方式实现机车优化操纵,但仍存在人工参与度过大且难以保证优化效果。
深度强化学***。之后DeepMind团队在Nature上发表了改进版的DQN文章,引起人们的广泛关注。试验表明该方法较为适用于类似游戏、机车操纵等优化序列控制过程,对铁路机车优化操纵提供了新的思路和机遇。
发明内容
本发明利用机器学习领域深度强化学习方法的重大突破,实现完全应用机器学习人工智能手段进行铁路机车优化操纵。针对该目标,本发明的重点为机车优化操纵的深度强化学习算法,且深度强化学习过程所需的机车运行环境和机车实时操纵的评价机制学习也均使用机器学习方法实现,并将兼顾环境中的不确定性和影响运行安全的不规范操作等。
一种基于深度强化学习的机车智能操纵***,其特征在于,所述机车智能操纵***包括数据源模块、机车运行环境学习模块、评价机制学习模块和控制策略学习模块;
所述数据源模块用于对获得的数据源进行数据预处理,所述数据源包括机车运行日志、列车运行交路数据、列车运行能耗信息和列车运行时刻表信息,所述数据预处理是将所述机车运行日志和所述列车运行交路数据输送至所述机车运行环境学习模块,将所述列车运行能耗信息和所述列车运行时刻表信息输送至所述评价机制学习模块;
所述机车运行环境学习模块用于构建机车运行环境模型,所述机车运行环境学习模块包含列车运行参数的基础参数部分和扰动参数部分的学习,学习结果构成机车具体的运行环境,所述机车运行环境学习模块将获得的所述机车具体的运行环境输送至所述控制策略学习模块;
所述评价机制学习模块将从所述数据源模块中获得的信息结合评价机制得到机车运行过程中所需要的奖赏函数,所述奖赏函数作为所述评价机制的反馈数据被所述评价机制学习模块输送至所述控制策略学习模块;
所述控制策略学习模块从所述机车运行环境学习模块和所述评价机制学习模块分别获得所述机车具体的运行环境和所述奖赏函数,并进行基于深度强化学习方法的列车优化操纵策略学习训练,与所述机车运行环境模型进行不断的交互学习,通过所述评价机制学习模块得到反馈的所述奖赏函数从而用于指导列车之后的操纵序列,并通过策略更新机制,得到所述机车最终的实际操纵策略。
进一步地,所述评价机制包括列车操作评分机制学习和不规范操作惩罚评分机制设计。
进一步地,所述控制策略学习模块进行深度强化学习是基于DQN模型进行的,所述DQN模型与所述机车运行环境模型进行不断的交互学习。
本发明还包括一种基于深度强化学习的机车智能操纵方法,其特征在于,所述机车智能操纵方法通过如下步骤实现:
S1:对数据源进行预处理;
从数据源中提取出机车运行环境模型学习的特征数据,即机车运行日志和列车运行交路数据,构成机车运行环境监督学习算法学习的样本数据;从数据源中提取出列车运行能耗信息和列车运行时刻表信息的数据作为评价机制学习的参数;
S2:机车运行环境的学习与构建;
通过机车的运行环境信息采用基于历史运行数据的监督学习和动态时序图算法进行机车运行环境模型的训练和构建,机车运行环境模型通过学习获得机车具体的运行环境,并将获得的机车具体的运行环境用于控制策略学习;
S3:评价机制学习;
将从数据源中获得的信息结合评价机制针对特定行驶路线和机车状态信息进行短区间内的目标观察获得机车运行的奖赏函数,奖赏函数作为机车操纵的评价值被用于控制策略学习;
S4:控制策略学习;
采用深度强化学习方法对机车具体的运行环境进行控制策略学习,并通过获得的奖赏函数对运行状态进行策略的更新与优化,进而获得机车的优化操纵控制策略。
进一步地,所述机车智能操纵方法还包括策略更新机制,优化后的所述控制策略能够应用所述策略更新机制进行实时的策略更新,指导自身在当前控制策略的基础上,实时自适应学习得出更优化的控制策略,实现机车控制策略的逐步优化。
进一步地,在步骤S2中,机车的运行环境信息包括机车运行日志、列车运行交路数据构成的列车本身的状态信息和外界的环境参数信息,其中大部分参数在一定的范围内波动,是可通过历史数据观察和预测到的波动信息,而有小部分参数在实际场景中是不确定性的,并可能发生不可预测的波动。
进一步地,所述机车运行环境模型通过监督学习算法基于机理模型完成列车运行基础模型参数学习来实现对普场景的覆盖,基于动态图模型完成列车运行环境扰动参数学习。
进一步地,所述监督学习算法为决策树算法或神经网络算法。
进一步地,在步骤S3中,所述评价机制包括列车操作评分机制和不规范操作惩罚评分机制,所述列车操作评分机制基于历史运行记录制定,所述不规范操作惩罚评分机制基于不规范操作制定。
进一步地,在步骤S4中,通过DQN模型完成控制策略学习,基于所述深度强化学习算法,所述机车运行环境模型以机车操纵动作的实时评价作为反馈信息,评价机制通过奖赏或惩罚当前的操纵动作,给所述DQN模型反馈一个奖赏评价值,所述DQN模型结合运行状态迭代地进行策略的更新与优化。
本发明的有益效果是:
(1)通过机器的自主学习实现铁路机车的优化操纵,本发明基于深度强化学习算法,机车运行环境以及奖赏函数均通过机器的自主学习实现,整个算法设计与实施过程中,尽最大可能性避免了人工的参与。
(2)利用机器学习技术对机车的运行环境和机车操纵的奖赏函数进行训练与构建,并兼顾了环境模型的不确定性与机车操纵的安全性。本发明针对机车的运行环境,采用了基于历史运行数据的监督学习和动态时序图算法进行模型的训练和构建。其中动态时序图算法创新性地应用于环境参数变化趋势的学习,以建立机车运行环境模型。本发明针对机车操纵的奖赏函数,考虑机车操纵安全性问题,分别从正常操作和不规范操作两个方面获得奖赏函数值,并基于列车历史记录信息,应用监督学习完成了机车操纵的评价机制学习的训练。
(3)面向机车优化操纵与实时策略更新机制的深度强化学习算法。本发明具体实施中,基于深度强化学习算法(DQN模型)开创性地设计了适用于本问题的优化算法方案,且该方案在具体实施中能够结合深度学习算法训练得出实时策略更新机制。
因此,本发明能更好的实现机车智能优化操纵,并极大地减少了人工参与。
附图说明
图1为本发明基于深度强化学习的机车智能操纵***结构示意图;
图2为本发明基于深度强化学习的机车智能操纵方法的技术路线流程图;
图3为本发明中深度强化学习基本模型流程图;
图4为本发明中DQN模型架构图。
具体实施方式
下面结合附图和实施例对本发明的技术方案进行详述。
本实施例提供一种基于深度强化学习的机车智能操纵***,如图1所示,该***包含四个模块,分别是:数据源模块、机车运行环境学习模块、评价机制学习模块和控制策略学习模块。
数据源模块用于对获得的数据源进行预处理,数据源包括机车运行日志、列车运行交路数据、列车运行能耗信息和列车运行时刻表信息,数据预处理即从数据源中提取出机车运行日志和列车运行交路数据作为机车运行环境的特征数据输送至机车运行环境学习模块,构成机车运行环境学习的样本数据,将列车运行能耗信息和列车运行时刻表信息输送至评价机制学习模块,用于评价机制学习模块对机车操纵进行实时评价。
机车运行环境学习模块用于构建机车运行环境模型,机车运行环境学习包含两部分参数的学习,即列车运行参数的基础参数部分和扰动参数部分的学习,学习结果构成机车具体的运行环境。通常分别使用经典的监督学习算法和动态时序图算法对这两部分参数进行学习。机车运行环境学习模块将获得的机车具体的运行环境输送至控制策略学习模块。
评价机制学习模块将从数据源模块中获得的信息结合评价机制得到机车运行过程中所需要的奖赏函数。评价机制包括列车操作评分机制学习和不规范操作惩罚评分机制设计。奖赏函数作为评价机制学习模块的反馈数据被评价机制学习模块输送至控制策略学习模块。
控制策略学习模块从机车运行环境学习模块和评价机制学习模块获得具体的运行环境和奖赏函数,并基于DQN模型进行深度强化学习,即进行基于深度强化学习方法的列车优化操纵策略学习训练,具体地,DQN模型与机车运行环境模型进行不断的交互学习(见图3),通过评价机制学习模块得到反馈的奖赏函数从而用于指导列车之后的操纵序列,并通过策略更新机制,得到机车最终的实际操纵策略。
上述机车智能操纵***基于深度强化学习实现机车的智能操纵,如图2所示,所用方法是:
步骤1,对数据源进行预处理
从数据源中提取出机车运行环境模型学习的特征数据,即机车运行日志和列车运行交路数据,构成机车运行环境监督学习算法学习的样本数据。从数据源中提取出列车运行能耗信息和列车运行时刻表信息的数据作为评价机制学习的参数。
步骤2,机车运行环境的学习与构建
机车的运行环境信息通常不只包括机车运行日志和列车运行交路数据构成的列车本身的状态信息,还包括外界的环境参数信息,其中大部分参数在一定的范围内波动,是可通过历史数据观察和预测到的波动信息;而有小部分参数在实际场景中是不确定性的,并可能发生不可预测的波动。本发明通过机车的运行环境信息采用基于历史运行数据的监督学习和动态时序图算法进行不确定性的机车运行环境模型的训练和构建。具体来讲,通过监督学习算法(如决策树、神经网络等经典算法)基于机理模型完成列车运行基础模型参数学习来实现对普场景的覆盖,基于动态图模型完成列车运行环境扰动参数学习。
机车运行环境模型通过学习获得机车具体的运行环境,并将获得的机车具体的运行环境用于控制策略学习。
步骤3,评价机制学习
评价机制学习是将从数据源中获得的信息结合评价机制获得机车运行的奖赏函数,奖赏函数值作为机车操纵的评价值被用于控制策略学习,是本发明基于的强化学习算法,基础的策略选择依据。该奖赏函数值在一般的应用场景(如游戏操控、机器人控制)中是确定的、客观的,如游戏操控中是直接根据游戏规则获取该评价值。而在本发明中,奖赏函数作为机车操作的评价,是无法根据规则直接确定的,它需要将从数据源中获得的信息结合评价机制针对特定行驶路线和机车状态信息进行短区间内的目标观察来确定该值。本发明针对机车行驶优化目标制定操作的评价机制。该评价机制包括基于历史运行记录制定的列车操作评分机制和通过对不规范操作分析后制定的不规范操作惩罚评分机制,特别地,基于不规范操作制定的不规范操作惩罚评分机制,考虑到高安全性的***需求,对于可能造成严重后果的不规范操作(如坡停或超速风险)给予最大的惩罚值,以规避该类不规范的机车操纵动作,有效保证策略生成的安全性。
步骤4,控制策略学习
本发明采用深度强化学习方法对机车具体的运行环境进行控制策略学习,并通过获得的奖赏函数对运行状态进行策略的更新与优化,进而获得机车的优化操纵控制策略。深度强化学习方法在复杂***的优化操纵策略生成方面具有显著的优势。强化学习算法可以使算法依赖极少的外界信息,通过在环境中不断迭代训练,并依靠自身学习,得到优化操纵控制策略。深度学习算法则在处理复杂多维数据方面具有显著的优势。所以,强化学习与深度学习相结合的深度强化学习可以解决复杂***下的优化操纵策略生成问题。如图3所示,任意状态下,基于深度强化学习算法,机车运行环境模型以机车操纵动作的实时评价作为反馈信息,评价机制通过奖赏或惩罚当前的操纵动作,给DQN模型反馈一个奖赏函数作为奖赏评价值,DQN模型结合运行状态迭代地进行策略的更新与优化。
本发明基于DQN模型进行深度强化学习方法的设计。具体地,DQN模型与机车运行环境模型进行不断的交互学习,应用本发明中不确定的机车运行环境和评价机制做出改进,机车在任意状态下每执行一个操作(动作),评价机制就反馈一个奖赏评价值,用于指导列车之后的操纵序列,即不断激励DQN模型进行策略的更新与优化,以解决机车优化操纵问题,经过多次的迭代之后,模型将最终收敛并得到最优化的列车控制策略。
DQN模型的详细架构图如图4所示,其中交互环境为不确定性列车运行环境。在具体实施中,强化学习算法采用了优化的Q-learning算法,其优化方法为:在Q-learning算法中结合Experience Replay的思想,即算法迭代过程中建立一个回放存储池,将每次学习到的经验保存起来,下次训练时随机选择一个经验进行训练。应用该思想相对普通的强化学习主要具有以下三个优势:(1)能够有效打破状态数据之间的相关性,降低数据更新的不确定性;(2)能够有效避免算法收敛时造成局部最优的恶劣情况;(3)解决强化学习算法的目标不固定问题。模型中采用深度学习算法(如深度神经网络)与优化的Q-learning算法相结合,能够获得近似Q矩阵的元素值(Q值即为图2中所说的列车运行累计评估函数),如图4中Q网络为深度神经网络构建的Q矩阵的模型。具体算法实施中,Q网络模型每迭代N次,则更新一次目标Q网络参数,然后进一步更新DQN模型的DQN差值,最终通过梯度下降算法指导Q网络模型的不断优化训练。深度学习方法的应用能够有效解决***状态空间量级较大的问题。最后,DQN模型中机车操作(动作)的选择使用常规的ε-greedy策略,即该策略以很小的概率随机选择操作而以较大概率选择当前最优的操作,最终迭代地生成机车优化操纵策略。
此外,机车智能操纵方法还包括策略更新机制,优化后的控制策略能够应用策略更新机制进行实时的策略更新,即指导自身在当前控制策略的基础上,实时自适应学习得出更优化的控制策略,实现机车控制策略的逐步优化。
虽然上面结合本发明的优选实施例对本发明的原理进行了详细的描述,本领域技术人员应该理解,上述实施例仅仅是对本发明的示意性实现方式的解释,并非对本发明包含范围的限定。实施例中的细节并不构成对本发明范围的限制,在不背离本发明的精神和范围的情况下,任何基于本发明技术方案的等效变换、简单替换等显而易见的改变,均落在本发明保护范围之内。

Claims (10)

1.一种基于深度强化学习的机车智能操纵***,其特征在于,所述机车智能操纵***包括数据源模块、机车运行环境学习模块、评价机制学习模块和控制策略学习模块;
所述数据源模块用于对获得的数据源进行数据预处理,所述数据源包括机车运行日志、列车运行交路数据、列车运行能耗信息和列车运行时刻表信息,所述数据预处理是将所述机车运行日志和所述列车运行交路数据输送至所述机车运行环境学习模块,将所述列车运行能耗信息和所述列车运行时刻表信息输送至所述评价机制学习模块;
所述机车运行环境学习模块用于构建机车运行环境模型,所述机车运行环境学习模块包含列车运行参数的基础参数部分和扰动参数部分的学习,学习结果构成机车具体的运行环境,所述机车运行环境学习模块将获得的所述机车具体的运行环境输送至所述控制策略学习模块;
所述评价机制学习模块将从所述数据源模块中获得的信息结合评价机制得到机车运行过程中所需要的奖赏函数,所述奖赏函数作为所述评价机制的反馈数据被所述评价机制学习模块输送至所述控制策略学习模块;
所述控制策略学习模块从所述机车运行环境学习模块和所述评价机制学习模块分别获得所述机车具体的运行环境和所述奖赏函数,并进行基于深度强化学习方法的列车优化操纵策略学习训练,与所述机车运行环境模型进行不断的交互学习,通过所述评价机制学习模块得到反馈的所述奖赏函数从而用于指导列车之后的操纵序列,并通过策略更新机制,得到所述机车最终的实际操纵策略。
2.根据权利要求1所述的基于深度强化学习的机车智能操纵***,其特征在于,所述评价机制包括列车操作评分机制学习和不规范操作惩罚评分机制设计。
3.根据权利要求1所述的基于深度强化学习的机车智能操纵***,其特征在于,所述控制策略学习模块进行深度强化学习是基于DQN模型进行的,所述DQN模型与所述机车运行环境模型进行不断的交互学习。
4.一种基于深度强化学习的机车智能操纵方法,其特征在于,所述机车智能操纵方法通过如下步骤实现:
S1:对数据源进行预处理;
从数据源中提取出机车运行环境模型学习的特征数据,即机车运行日志和列车运行交路数据,构成机车运行环境监督学习算法学习的样本数据;从数据源中提取出列车运行能耗信息和列车运行时刻表信息的数据作为评价机制学习的参数;
S2:机车运行环境的学习与构建;
通过机车的运行环境信息采用基于历史运行数据的监督学习和动态时序图算法进行机车运行环境模型的训练和构建,机车运行环境模型通过学习获得机车具体的运行环境,并将获得的机车具体的运行环境用于控制策略学习;
S3:评价机制学习;
将从数据源中获得的信息结合评价机制针对特定行驶路线和机车状态信息进行短区间内的目标观察获得机车运行的奖赏函数,奖赏函数作为机车操纵的评价值被用于控制策略学习;
S4:控制策略学习;
采用深度强化学习方法对机车具体的运行环境进行控制策略学习,并通过获得的奖赏函数对运行状态进行策略的更新与优化,进而获得机车的优化操纵控制策略。
5.根据权利要求4所述的基于深度强化学习的机车智能操纵方法,其特征在于,所述机车智能操纵方法还包括策略更新机制,优化后的所述控制策略能够应用所述策略更新机制进行实时的策略更新,指导自身在当前控制策略的基础上,实时自适应学习得出更优化的控制策略,实现机车控制策略的逐步优化。
6.根据权利要求4所述的基于深度强化学习的机车智能操纵方法,其特征在于,在步骤S2中,机车的运行环境信息包括机车运行日志、列车运行交路数据构成的列车本身的状态信息和外界的环境参数信息,其中大部分参数在一定的范围内波动,是可通过历史数据观察和预测到的波动信息,而有小部分参数在实际场景中是不确定性的,并可能发生不可预测的波动。
7.根据权利要求6所述的基于深度强化学习的机车智能操纵方法,其特征在于,所述机车运行环境模型通过监督学习算法基于机理模型完成列车运行基础模型参数学习来实现对普场景的覆盖,基于动态图模型完成列车运行环境扰动参数学习。
8.根据权利要求7所述的基于深度强化学习的机车智能操纵方法,其特征在于,所述监督学习算法为决策树算法或神经网络算法。
9.根据权利要求4所述的基于深度强化学习的机车智能操纵方法,其特征在于,在步骤S3中,所述评价机制包括列车操作评分机制和不规范操作惩罚评分机制,所述列车操作评分机制基于历史运行记录制定,所述不规范操作惩罚评分机制基于不规范操作制定。
10.根据权利要求4所述的基于深度强化学习的机车智能操纵方法,其特征在于,在步骤S4中,通过DQN模型完成控制策略学习,基于所述深度强化学习算法,所述机车运行环境模型以机车操纵动作的实时评价作为反馈信息,评价机制通过奖赏或惩罚当前的操纵动作,给所述DQN模型反馈一个奖赏评价值,所述DQN模型结合运行状态迭代地进行策略的更新与优化。
CN201710045758.0A 2017-01-20 2017-01-20 一种基于深度强化学习的机车智能操纵方法与*** Active CN106842925B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710045758.0A CN106842925B (zh) 2017-01-20 2017-01-20 一种基于深度强化学习的机车智能操纵方法与***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710045758.0A CN106842925B (zh) 2017-01-20 2017-01-20 一种基于深度强化学习的机车智能操纵方法与***

Publications (2)

Publication Number Publication Date
CN106842925A CN106842925A (zh) 2017-06-13
CN106842925B true CN106842925B (zh) 2019-10-11

Family

ID=59119196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710045758.0A Active CN106842925B (zh) 2017-01-20 2017-01-20 一种基于深度强化学习的机车智能操纵方法与***

Country Status (1)

Country Link
CN (1) CN106842925B (zh)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239628A (zh) * 2017-06-15 2017-10-10 清华大学 一种基于动态时序图的不确定性机车仿真模型***构建方法
CN107194612B (zh) * 2017-06-20 2020-10-13 清华大学 一种基于深度强化学习的列车运行调度方法及***
CN107315573B (zh) * 2017-07-19 2020-06-16 北京上格云技术有限公司 建筑机电***的控制方法、存储介质和终端设备
CN107367929B (zh) * 2017-07-19 2021-05-04 北京上格云技术有限公司 更新q值矩阵的方法、存储介质和终端设备
CN107315572B (zh) * 2017-07-19 2020-08-11 北京上格云技术有限公司 建筑机电***的控制方法、存储介质和终端设备
CN107563426B (zh) * 2017-08-25 2020-05-22 清华大学 一种机车运行时序特征的学习方法
CN107450593B (zh) * 2017-08-30 2020-06-12 清华大学 一种无人机自主导航方法和***
US10935982B2 (en) * 2017-10-04 2021-03-02 Huawei Technologies Co., Ltd. Method of selection of an action for an object using a neural network
CN107544516A (zh) * 2017-10-11 2018-01-05 苏州大学 基于相对熵深度逆强化学习的自动驾驶***及方法
CN107832836B (zh) * 2017-11-27 2020-04-21 清华大学 无模型深度增强学习探索方法及装置
JP6917878B2 (ja) * 2017-12-18 2021-08-11 日立Astemo株式会社 移動体挙動予測装置
CN108161934B (zh) * 2017-12-25 2020-06-09 清华大学 一种利用深度强化学习实现机器人多轴孔装配的方法
CN108333959A (zh) * 2018-03-09 2018-07-27 清华大学 一种基于卷积神经网络模型的机车节能操纵方法
CN110390398B (zh) * 2018-04-13 2021-09-10 北京智行者科技有限公司 在线学习方法
EP3557489A1 (en) * 2018-04-19 2019-10-23 Siemens Mobility GmbH Energy optimisation in operation of a rail vehicle
CN108820157B (zh) * 2018-04-25 2020-03-10 武汉理工大学 一种基于强化学习的船舶智能避碰方法
CN108549237B (zh) * 2018-05-16 2020-04-28 华南理工大学 基于深度增强学习的预观控制仿人机器人步态规划方法
CN110687802A (zh) * 2018-07-06 2020-01-14 珠海格力电器股份有限公司 一种智能家电控制方法及智能家电控制装置
CN108984275A (zh) * 2018-08-27 2018-12-11 洛阳中科龙网创新科技有限公司 基于Unity3D和深度增强学习的智能无人农用驾驶训练方法
CN109243021B (zh) * 2018-08-28 2021-09-17 余利 基于用户体验分析的深度强化学习式智能门锁***及装置
CN109204390B (zh) * 2018-09-29 2021-03-12 交控科技股份有限公司 一种基于深度学习的列车控制方法
CN109225640A (zh) * 2018-10-15 2019-01-18 厦门邑通软件科技有限公司 一种智慧化电除尘节能方法
US10831208B2 (en) 2018-11-01 2020-11-10 Ford Global Technologies, Llc Vehicle neural network processing
WO2020098226A1 (en) * 2018-11-16 2020-05-22 Huawei Technologies Co., Ltd. System and methods of efficient, continuous, and safe learning using first principles and constraints
CN109740839B (zh) * 2018-11-23 2021-06-18 北京交通大学 一种突发事件下的列车动态调整方法及***
CN111324099A (zh) * 2018-12-12 2020-06-23 上汽通用汽车有限公司 一种基于机器学习的定标方法以及于机器学习的定标***
JP2020103494A (ja) * 2018-12-27 2020-07-09 パナソニックIpマネジメント株式会社 時差ぼけ低減システム及び時差ぼけ低減方法
CN109472984A (zh) * 2018-12-27 2019-03-15 苏州科技大学 基于深度强化学习的信号灯控制方法、***和存储介质
CN109919319A (zh) * 2018-12-31 2019-06-21 中国科学院软件研究所 基于多个历史最佳q网络的深度强化学习方法及设备
CN109782600A (zh) * 2019-01-25 2019-05-21 东华大学 一种通过虚拟环境建立自主移动机器人导航***的方法
CN109835375B (zh) * 2019-01-29 2021-05-11 中国铁道科学研究院集团有限公司通信信号研究所 基于人工智能技术的高速铁路列车自动驾驶***
CN109977998B (zh) * 2019-02-14 2022-05-03 网易(杭州)网络有限公司 信息处理方法及装置、存储介质和电子装置
CN109919243A (zh) * 2019-03-15 2019-06-21 天津拾起卖科技有限公司 一种基于cnn的废钢铁种类自动识别方法及装置
CN110194041B (zh) * 2019-05-19 2020-10-16 瑞立集团瑞安汽车零部件有限公司 多源信息融合的自适应车身高度调节方法
CN110147891B (zh) * 2019-05-23 2021-06-01 北京地平线机器人技术研发有限公司 应用于强化学习训练过程的方法、装置及电子设备
US11389957B2 (en) * 2019-09-30 2022-07-19 Mitsubishi Electric Research Laboratories, Inc. System and design of derivative-free model learning for robotic systems
US11472452B2 (en) 2019-10-11 2022-10-18 Progress Rail Services Corporation Machine learning based train handling evaluation
CN111581178A (zh) * 2020-05-12 2020-08-25 国网安徽省电力有限公司信息通信分公司 一种基于深度强化学习Ceph***性能调优策略与***
CN111781940B (zh) * 2020-05-19 2022-12-20 中车工业研究院有限公司 一种基于dqn强化学习的列车姿态控制方法
CN111965981B (zh) * 2020-09-07 2022-02-22 厦门大学 一种航空发动机强化学习控制方法及***
CN112193280B (zh) * 2020-12-04 2021-03-16 华东交通大学 一种重载列车强化学习控制方法及***
CN113537603B (zh) * 2021-07-21 2022-02-01 北京交通大学 一种高速列车智能调度控制方法和***
CN113525462B (zh) * 2021-08-06 2022-06-28 中国科学院自动化研究所 延误情况下的时刻表调整方法、装置和电子设备
CN115598985B (zh) * 2022-11-01 2024-02-02 南栖仙策(南京)高新技术有限公司 一种反馈控制器的训练方法、装置、电子设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103019267A (zh) * 2012-12-10 2013-04-03 华东交通大学 高速列车anfis建模与运行速度预测控制方法
CN103870892A (zh) * 2014-03-26 2014-06-18 北京清软英泰信息技术有限公司 一种从离线至在线实现铁路机车运行操纵的方法及***
CN103879414A (zh) * 2014-03-26 2014-06-25 北京清软英泰信息技术有限公司 一种基于自适应A-Star算法的铁路机车优化操纵方法
CN104951425A (zh) * 2015-07-20 2015-09-30 东北大学 一种基于深度学习的云服务性能自适应动作类型选择方法
CN105427016A (zh) * 2015-10-28 2016-03-23 南车株洲电力机车研究所有限公司 一种机车车载数据处理方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102981408B (zh) * 2012-12-10 2015-05-27 华东交通大学 一种动车组运行过程建模与自适应控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103019267A (zh) * 2012-12-10 2013-04-03 华东交通大学 高速列车anfis建模与运行速度预测控制方法
CN103870892A (zh) * 2014-03-26 2014-06-18 北京清软英泰信息技术有限公司 一种从离线至在线实现铁路机车运行操纵的方法及***
CN103879414A (zh) * 2014-03-26 2014-06-25 北京清软英泰信息技术有限公司 一种基于自适应A-Star算法的铁路机车优化操纵方法
CN104951425A (zh) * 2015-07-20 2015-09-30 东北大学 一种基于深度学习的云服务性能自适应动作类型选择方法
CN105427016A (zh) * 2015-10-28 2016-03-23 南车株洲电力机车研究所有限公司 一种机车车载数据处理方法及***

Also Published As

Publication number Publication date
CN106842925A (zh) 2017-06-13

Similar Documents

Publication Publication Date Title
CN106842925B (zh) 一种基于深度强化学习的机车智能操纵方法与***
Wang et al. Continuous control for automated lane change behavior based on deep deterministic policy gradient algorithm
Michelmore et al. Uncertainty quantification with statistical guarantees in end-to-end autonomous driving control
CN112131786B (zh) 基于多智能体强化学习的目标探测与分配方法及装置
CN107194612A (zh) 一种基于深度强化学习的列车运行调度方法及***
CN109835375A (zh) 基于人工智能技术的高速铁路列车自动驾驶***
US12033521B2 (en) Machine learning in avionics
Wong Cybernetical intelligence: Engineering cybernetics with machine intelligence
Palmroth Performance monitoring and operator assistance systems in mobile machines
CN109635246A (zh) 一种基于深度学习的多属性数据建模方法
Tagliaferri et al. A real-time strategy-decision program for sailing yacht races
Chen et al. Modeling the impact of lane-changing’s anticipation on car-following behavior
Li et al. Complementary learning-team machines to enlighten and exploit human expertise
Guevarra et al. Augmenting flight training with AI to efficiently train pilots
Liu et al. Design of transfer reinforcement learning mechanisms for autonomous collision avoidance
Klarner The rhythm of change: A longitudinal analysis of the European insurance industry
Knox et al. Understanding human teaching modalities in reinforcement learning environments: A preliminary report
Yan Research on path planning of robot based on artificial intelligence algorithm
Yuan et al. Human feedback enhanced autonomous intelligent systems: a perspective from intelligent driving
Aguilar et al. Teacher strategies simulation by using fuzzy systems
Mi et al. Smart Port and Artificial Intelligence
Zhang et al. Optimization Model of Urban Rail Transportation Planning Based on Evolutionary Algorithm of State Space Model
van Luipen et al. Uploading to the MATRICS: Combining simulation and serious gaming in railway simulators
Aydın et al. The Reactive-Causal Architecture: Radar Task Simulation
CN113158430B (zh) 一种高效的在线行为建模作战仿真方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant