JP2019008472A - 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 - Google Patents

機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 Download PDF

Info

Publication number
JP2019008472A
JP2019008472A JP2017122449A JP2017122449A JP2019008472A JP 2019008472 A JP2019008472 A JP 2019008472A JP 2017122449 A JP2017122449 A JP 2017122449A JP 2017122449 A JP2017122449 A JP 2017122449A JP 2019008472 A JP2019008472 A JP 2019008472A
Authority
JP
Japan
Prior art keywords
backlash
value
correction
servo control
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017122449A
Other languages
English (en)
Other versions
JP6499720B2 (ja
Inventor
聡史 猪飼
Satoshi Igai
聡史 猪飼
勉 中邨
Tsutomu Nakamura
勉 中邨
智之 相澤
Tomoyuki Aizawa
智之 相澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fanuc Corp
Original Assignee
Fanuc Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fanuc Corp filed Critical Fanuc Corp
Priority to JP2017122449A priority Critical patent/JP6499720B2/ja
Priority to US15/997,043 priority patent/US10747193B2/en
Priority to DE102018209951.0A priority patent/DE102018209951A1/de
Priority to CN201810638894.5A priority patent/CN109116811B/zh
Publication of JP2019008472A publication Critical patent/JP2019008472A/ja
Application granted granted Critical
Publication of JP6499720B2 publication Critical patent/JP6499720B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/404Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by control arrangements for compensation, e.g. for backlash, overshoot, tool offset, tool wear, temperature, machine construction errors, load, inertia
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/416Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by control of velocity, acceleration or deceleration
    • G05B19/4163Adaptive control of feed or cutting velocity
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B23MACHINE TOOLS; METAL-WORKING NOT OTHERWISE PROVIDED FOR
    • B23QDETAILS, COMPONENTS, OR ACCESSORIES FOR MACHINE TOOLS, e.g. ARRANGEMENTS FOR COPYING OR CONTROLLING; MACHINE TOOLS IN GENERAL CHARACTERISED BY THE CONSTRUCTION OF PARTICULAR DETAILS OR COMPONENTS; COMBINATIONS OR ASSOCIATIONS OF METAL-WORKING MACHINES, NOT DIRECTED TO A PARTICULAR RESULT
    • B23Q15/00Automatic control or regulation of feed movement, cutting velocity or position of tool or work
    • B23Q15/007Automatic control or regulation of feed movement, cutting velocity or position of tool or work while the tool acts upon the workpiece
    • B23Q15/12Adaptive control, i.e. adjusting itself to have a performance which is optimum according to a preassigned criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0205Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
    • G05B13/024Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a parameter or coefficient is automatically adjusted to optimise the performance
    • G05B13/0245Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a parameter or coefficient is automatically adjusted to optimise the performance not using a perturbation signal
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/36Nc in input of data, input key till input tape
    • G05B2219/36521Select by combination of detected force, acceleration, speed, work rate
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/41Servomotor, servo controller till figures
    • G05B2219/41032Backlash
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/41Servomotor, servo controller till figures
    • G05B2219/41054Using neural network techniques
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/41Servomotor, servo controller till figures
    • G05B2219/41078Backlash acceleration compensation when inversing, reversing direction
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/41Servomotor, servo controller till figures
    • G05B2219/41386System identifier adapts coefficients tables for state and observer controller

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Automation & Control Theory (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Manufacturing & Machinery (AREA)
  • Mechanical Engineering (AREA)
  • Numerical Control (AREA)
  • Feedback Control In General (AREA)

Abstract

【課題】バックラッシ補正及びバックラッシ加速補正の係数の煩雑な調整を回避できる強化学習を行う。【解決手段】所定の加工プログラムをサーボ制御装置100に実行させることにより、少なくとも位置偏差と、バックラッシ加速補正部110で用いる係数の組み合わせと、を含む状態情報を、サーボ制御装置100から取得する状態情報取得部201と、状態情報に含まれる係数の組み合わせの調整情報を含む行動情報をサーボ制御装置100に出力する行動情報出力部203と状態情報に含まれる位置偏差に基づく、強化学習における報酬の値を出力する報酬出力部2021と、報酬出力手段により出力される報酬の値と、状態情報と、行動情報とに基づいて行動価値関数を更新する価値関数更新部2022と、を備える機械学習装置200。【選択図】図2

Description

本発明は、バックラッシ補正制御及びバックラッシ加速補正制御を実行するサーボ制御装置に対して、バックラッシ補正制御におけるバックラッシ補正パラメータ及び/又はバックラッシ加速補正制御におけるバックラッシ加速補正パラメータを対象とした強化学習を行う機械学習装置、当該機械学習装置を含むサーボ制御装置、及び機械学習装置とサーボ制御装置とを含むサーボ制御システム、並びに機械学習方法に関する。
従来、物体の位置、方位、姿勢等を制御量とする制御系、例えば工作機械や産業機械の制御系において、サーボモータが用いられている。サーボモータのモータ軸の回転を他の主軸に伝えるために用いられる機械要素であって互いに係合する機械要素においては、当該機械要素間の抵触面に意図的に隙間が設けられている。この隙間が存在することにより、例えばねじやギア等の機械要素は、ある程度の範囲で自由に回転することができる。この隙間を「バックラッシ」(又は「バックラッシュ」)と呼ぶ。
例えば、モータと主軸等の被駆動軸がギアで結合されている場合、ギアのバックラッシが存在することにより、モータの反転時には、被駆動軸の反転がモータの反転に対して遅れてしまうこととなる。この被駆動軸の反転遅れを補正するために、モータへの位置指令にバックラッシ補正量を加算する方法が、従来存在する。これを「バックラッシ補正」と呼ぶ。
一方で、例えば被駆動軸における静摩擦等の影響により、被駆動軸の反転がモータの反転に対して遅れてしまうことがある。この被駆動軸の反転遅れを補正するために、モータ反転時に、位置指令ではなく、速度指令又はトルク指令に補正を加算する方法が、従来存在する。これを「バックラッシ加速補正」と呼ぶ。
バックラッシ補正制御及びバックラッシ加速補正制御を用いたサーボ制御装置としては、例えば、特許文献1に記載されたサーボ制御装置がある。特許文献1に記載された補正パラメータ調整装置としてのサーボ制御装置は、実際の使用状態にある機械の運動軌跡をジグや工具を外さずに測定し、誤差要因を分離して補正パラメータの適切な設定を可能とするため、機械の加速度を測定するための加速度計と、機械運動を解析する機械運動解析部と、機械の運動精度を向上するための、バックラッシ補正パラメータ等を決定する補正パラメータ計算部とを備える。
特開2011−221612号公報
上記のように、サーボ制御装置においては、機械の摩擦、ガタ、ロストモーション等の非線形特性の影響により、位置指令値や速度指令値が変化したときに位置偏差が発生する場合がある。このような場合に、バックラッシ補正やバックラッシ加速補正を時間や距離に応じた複雑な形状(以下、「複雑な形状」ともいう)にすることで、位置偏差や速度偏差を低減し、位置指令や速度指令に対する追従性を向上できる。しかし、バックラッシ補正やバックラッシ補正を複雑な形状にするほど、バックラッシ補正やバックラッシ加速補正の際に用いられるパラメータ(「係数」ともいう)の調整は難しくなる。
本発明は、バックラッシ補正やバックラッシ加速補正を用いたサーボ制御装置において、位置偏差や速度偏差を低減して、位置指令に対する追従性を向上させるためにバックラッシ補正やバックラッシ加速補正を複雑な形状にした場合に、複雑な形状のバックラッシ補正やバックラッシ加速補正のパラメータ(係数)の煩雑な調整を回避できる強化学習を行う機械学習装置、この機械学習装置を含むサーボ制御装置、サーボ制御システム、及び機械学習方法を提供することを目的とする。
(1) 本発明に係る機械学習装置(例えば、後述の「機械学習装置200」)は、位置指令又は位置偏差に対するバックラッシ補正量を作成するバックラッシ補正手段(例えば、後述の「バックラッシ補正部109」)及び/又は、速度指令に対するバックラッシ加速補正量を作成するバックラッシ加速補正手段(例えば、後述の「バックラッシ加速補正部110」)を備える、サーボ制御装置に対して、前記バックラッシ補正手段におけるバックラッシ補正パラメータ及び/又は前記バックラッシ加速補正手段におけるバックラッシ加速補正パラメータを対象とする強化学習を行う機械学習装置であって、前記バックラッシ補正パラメータ及び/又は前記バックラッシ加速補正パラメータの調整情報を含む行動情報を前記バックラッシ補正手段及び/又は前記バックラッシ加速補正手段に対して出力する行動情報出力手段(例えば、後述の「行動情報出力部203」)と、前記行動情報に基づいて、所定の加工プログラムを前記サーボ制御装置に実行させた場合における、前記位置指令と位置フィードバックから得られる位置偏差と、前記バックラッシ補正パラメータ及び/又は前記バックラッシ加速補正パラメータと、を含む状態情報を前記サーボ制御装置から取得する状態情報取得手段(例えば、後述の「状態情報取得部201」)と、前記状態情報に含まれる前記位置偏差に基づいて、強化学習における報酬の値を出力する報酬出力手段(例えば、後述の「報酬出力部2021」)と、前記報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新手段(例えば、後述の「価値関数更新部2022」)と、を備える。
(2) 上記(1)の機械学習装置において、前記バックラッシ補正手段におけるバックラッシ補正パラメータを対象として強化学習を行った後に、前記バックラッシ加速補正手段における前記バックラッシ加速補正パラメータを対象として強化学習を行うようにしてもよい。
(3) 上記(1)又は(2)の機械学習装置において、前記報酬出力手段は、前記位置偏差の絶対値に基づいて前記報酬の値を出力してもよい。
(4) 上記(1)から(3)の何れかの機械学習装置において、前記価値関数更新手段により更新された行動価値関数に基づいて、前記バックラッシ補正手段におけるバックラッシ補正パラメータ及び/又は前記バックラッシ加速補正手段における前記バックラッシ加速補正パラメータを生成して出力する最適化行動情報出力手段(例えば、後述の「最適化行動情報出力部205」)を備えてもよい。
(5) 本発明に係るサーボ制御装置は、上記(1)から(4)の何れかの機械学習装置を含むサーボ制御装置である。
(6) 本発明に係るサーボ制御システムは、上記(1)から(4)の何れかの機械学習装置と、前記サーボ制御装置と、を備えたサーボ制御システムである。
(7) 本発明に係る機械学習方法は、位置指令又は位置偏差に対するバックラッシ補正量を作成するバックラッシ補正手段と、速度指令に対するバックラッシ加速補正量を作成するバックラッシ加速補正手段とを備える、サーボ制御装置に対して前記バックラッシ補正手段におけるバックラッシ補正パラメータ及び/又は前記バックラッシ加速補正手段におけるバックラッシ加速補正パラメータを対象とする強化学習を行う機械学習装置の機械学習方法であって、前記バックラッシ補正パラメータ及び/又は前記バックラッシ加速補正パラメータの調整情報を含む行動情報を前記バックラッシ補正手段及び/又は前記バックラッシ加速補正手段に対して出力する行動情報出力ステップと、前記行動情報に基づいて、所定の加工プログラムを前記サーボ制御装置に実行させた場合における、前記位置指令と位置フィードバックから得られる位置偏差と、前記バックラッシ補正パラメータ及び/又は前記バックラッシ加速補正パラメータと、を含む状態情報を前記サーボ制御装置から取得する状態情報取得ステップと、前記状態情報に含まれる前記位置偏差に基づいて、強化学習における報酬の値を出力する報酬出力ステップと、前記報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新ステップと、を備える。
本発明によれば、バックラッシ補正やバックラッシ加速補正を用いたサーボ制御装置において、位置偏差や速度偏差を低減して、位置指令に対する追従性を向上させるためにバックラッシ補正やバックラッシ加速補正を複雑な形状にした場合に、複雑な形状のバックラッシ補正やバックラッシ加速補正の係数の煩雑な調整を回避できる強化学習を行うことができる。
本発明の第1の実施形態のサーボ制御システムを示すブロック図である。 サーボ制御装置100と機械学習装置200がネットワークで接続された構成例を示すブロック図である。 制御対象300の一例を示すブロック図である。 加工形状が円形の場合のサーボモータの動作を説明するための図である。 加工形状が四角の場合のサーボモータの動作を説明するための図である。 加工形状が角R付き四角の場合のサーボモータの動作を説明するための図である。 加工形状が円形で、位置A1で、テーブルをY軸方向に移動するサーボモータの回転方向が反転しようとした時の象限突起を示す説明図である。 第1の実施形態の機械学習装置200を示すブロック図である。 台形型加速方式に基づくバックラッシ加速補正の概要を示す図である。 バックラッシ加速補正の際の加速量V0の大きさと加速度の平方根との関係を示す図である。 バックラッシ加速補正の際の加速量V0の大きさと加速度の平方根との関係を示す図である。 バックラッシ加速補正の際の加速量V0の大きさと加速度の平方根との関係を示す図である。 第1の強化学習時におけるサーボ制御装置100と機械学習装置200の構成例を示すブロック図である。 機械学習装置200の動作を説明するフローチャートである。 機械学習装置200の最適化行動情報出力部205の動作を説明するフローチャートである。 第2の強化学習時におけるサーボ制御装置100と機械学習装置200の構成例を示すブロック図である。 機械学習終了後の運用時におけるサーボ制御装置100の構成例を示すブロック図である。
以下、本発明の実施形態について図面を用いて詳細に説明する。
(第1の実施形態)
図1は発明の第1の実施形態のサーボ制御システムを示すブロック図である。サーボ制御システム10は、図1に示すように、例えばn台のサーボ制御装置100−1〜100−n、n台の機械学習装置200−1〜200−n、及びネットワーク400を備えている。なお、nは任意の自然数である。
ここで、サーボ制御装置100−1と機械学習装置200−1とは1対1の組とされて、通信可能に接続されている。サーボ制御装置100−2〜100−nと機械学習装置200−2〜200−nについてもサーボ制御装置100−1と機械学習装置200−1と同様に接続される。図1では、サーボ制御装置100−1〜100−nと機械学習装置200−1〜200−nとのn個の組は、ネットワーク400を介して接続されているが、サーボ制御装置100−1〜100−nと機械学習装置200−1〜200−nとのn個の組は、それぞれの組のサーボ制御装置と機械学習装置とが接続インタフェースを介して直接接続されてもよい。これらサーボ制御装置100−1〜100−nと機械学習装置200−1〜200−nとのn個の組は、例えば同じ工場に複数組設置されていてもよく、それぞれ異なる工場に設置されていてもよい。
なお、ネットワーク400は、例えば、工場内に構築されたLAN(Local Area Network)や、インターネット、公衆電話網、或いは、これらの組み合わせである。ネットワーク400における具体的な通信方式や、有線接続及び無線接続の何れであるか等については、特に限定されない。
図2は本発明の第1の実施形態のサーボ制御システムのサーボ制御装置と機械学習装置との組、及び制御対象を示すブロック図である。図2のサーボ制御装置100と、機械学習装置200は例えば、図1に示すサーボ制御装置100−1と機械学習装置200−1とに対応している。
制御対象300は例えばサーボモータ、サーボモータを含む工作機械,ロボット,産業機械等である。サーボ制御装置100は工作機械,ロボット,産業機械等の一部として設けられてもよい。
最初に、サーボ制御装置100について説明する。
サーボ制御装置100は、位置指令作成部101、減算器102、加算器103、位置制御部104、減算器105、加算器106、速度制御部107、積分器108、バックラッシ補正部109、及びバックラッシ加速補正部110を備えている。
位置指令作成部101は位置指令値を作成し、作成した位置指令値を減算器102に出力する。減算器102は位置指令値とフィードバックされた検出位置との差を求め、その差を位置偏差値として加算器103とに出力する。なお、機械学習時には当該位置偏差値は後述の機械学習装置200に対しても送信される。
位置指令作成部101は、制御対象300を動作させる任意の加工プログラムに基づいて位置指令値を作成する。制御対象300は、例えばサーボモータを含む工作機械で、被加工物(ワーク)を搭載するテーブルをX軸方向及びY軸方向に移動させて加工する場合には、X軸方向及びY軸方向に対してそれぞれ図2に示すサーボ制御装置が設けられる。テーブルを3軸以上の方向に移動させる場合には、それぞれの軸方向に対してサーボ制御装置が設けられる。
位置指令作成部101は、加工プログラムにより指定される加工形状となるように、送り速度を設定して位置指令値を作成する。
バックラッシ補正部109は、バックラッシ補正パラメータに基づいて作成されるバックラッシ補正量を加算器103に出力する。
加算器103は、減算器102から入力される位置偏差に、バックラッシ補正部109から入力されたバックラッシ補正量を加算し、バックラッシ補正量を加算した位置偏差を、位置制御部104に出力する。なお、加算器103は、位置偏差ではなく、位置指令にバックラッシ補正量を加算することも可能である。
位置制御部104は、位置偏差にポジションゲインKpを乗じた値を、速度指令値として減算器105に出力する。減算器105は速度指令値とフィードバックされた速度検出値との差を求め、その差を速度偏差として加算器106に出力する。
バックラッシ加速補正部110は、バックラッシ加速補正パラメータに基づいて作成されるバックラッシ加速補正量を加算器106に出力する。
加算器106は、減算器105から入力される速度偏差に、バックラッシ加速補正部110から入力されたバックラッシ加速補正量を加算し、バックラッシ加速補正量を加算した速度偏差を、速度制御部107に出力する。
速度制御部107は、速度偏差に積分ゲインK1vを乗じて積分した値と、速度偏差に比例ゲインK2vを乗じた値とを加算して、トルク指令値として制御対象300に出力する。
制御対象300は速度検出値を出力し、速度検出値は速度フィードバックとして減算器105に入力される。速度検出値は積分器108で積分されて位置検出値となり、位置検出値は位置フィードバックとして減算器102に入力される。
以上のように、サーボ制御装置100は構成される。
次に、サーボ制御装置100により制御される制御対象300について説明する。
図3は制御対象300の一例となる、サーボモータを含む工作機械を示すブロック図である。
サーボ制御装置100は、サーボモータ302で連結機構303を介してテーブル304を移動させ、テーブル304の上に搭載された被加工物(ワーク)を加工する。連結機構303は、サーボモータ302に連結されたカップリング3031と、カップリング3031に固定されるボールねじ3033とを有し、ボールねじ3033にナット3032が螺合されている。サーボモータ302の回転駆動によって、ボールねじ3033に螺着されたナット3032がボールねじ3033の軸方向に移動する。
サーボモータ302の回転角度位置は、サーボモータ302に関連付けられた、位置検出部となるロータリーエンコーダ301によって検出され、検出された信号は速度フィードバックとして利用される。検出された信号は積分することで位置フィードバックとして利用される。なお、ボールねじ3033の端部に取り付けられ、ボールねじ3033の移動距離を検出するリニアスケール305の出力を位置フィードバックとして用いてもよい。また、加速度センサを用いて位置フィードバックを生成してもよい。
機械学習装置200は、予め用意される所定の加工プログラム(以下、「学習時の加工プログラム」ともいう)を実行することで、バックラッシ補正部109がバックラッシ補正量を作成する際に用いるバックラッシ補正パラメータ、及びバックラッシ加速補正部110がバックラッシ加速補正量を作成する際に用いるバックラッシ加速補正パラメータを対象として強化学習を行う。ここで、学習時の加工プログラムにより指定される加工形状は、例えば、円、四角、及び角R付き四角(a square with quarter arc)等である。
学習時の加工プログラムについて説明する。
図4Aは、学習時の加工プログラムにより指定される加工形状が円形の場合のサーボモータの動作を説明するための図である。図4Bは、学習時の加工プログラムにより指定される加工形状が四角の場合のサーボモータの動作を説明するための図である。図4Cは、学習時の加工プログラムにより指定される加工形状が角R付き四角の場合のサーボモータの動作を説明するための図である。図4A〜図4Cにおいて、被加工物(ワーク)が時計まわりに加工されるようにテーブルが移動する。
加工形状が円形の場合は、図4Aに示すように、位置A1と位置A3で、テーブルをY軸方向に移動するサーボモータは回転方向が反転し、テーブルはY軸方向に直線反転するように移動する。位置A2と位置A4で、テーブルをX軸方向に移動するサーボモータは、回転方向が反転し、テーブルはX軸方向に直線反転するように移動する。
加工形状が四角の場合は、図4Bに示すように、位置B1で、テーブルをY軸方向に移動するサーボモータは、停止から回転動作に移り、テーブルをX軸方向に移動するサーボモータは、回転動作から停止に移り、テーブルはX軸方向の直線動作からY軸方向の直線動作に移る。同様に、位置B2で、テーブルをX軸方向に移動するサーボモータは、停止から回転動作に移り、テーブルをY軸方向に移動するサーボモータは、回転動作から停止に移り、テーブルはY軸方向の直線動作からX軸方向の直線動作に移る。位置B3で、テーブルをY軸方向に移動するサーボモータは、停止から回転動作に移り、テーブルをX軸方向に移動するサーボモータは、回転動作から停止に移り、テーブルはX軸方向の直線動作からY軸方向の直線動作に移る。位置B4で、テーブルをX軸方向に移動するサーボモータは、停止から回転動作に移り、テーブルをY軸方向に移動するサーボモータは、回転動作から停止に移り、テーブルはY軸方向の直線動作からX軸方向の直線動作に移る。
加工形状が角R付き四角の場合は、図4Cに示すように、位置C1で、テーブルをY軸方向に移動するサーボモータは、停止から回転動作に移り、テーブルはX軸方向の直線動作から円弧動作に移る。位置C2で、テーブルをX軸方向に移動するサーボモータは、回転動作から停止に移り、テーブルは円弧動作からY軸方向の直線動作に移る。同様に、位置C3で、テーブルをX軸方向に移動するサーボモータは、停止から回転動作に移り、テーブルはY軸方向の直線動作から円弧動作に移る。位置C4で、テーブルをY軸方向に移動するサーボモータは、回転動作から停止に移り、テーブルは円弧動作からX軸方向の直線動作に移る。位置C5で、テーブルをY軸方向に移動するサーボモータは、停止から回転動作に移り、テーブルはX軸方向の直線動作から円弧動作に移る。位置C6で、テーブルをX軸方向に移動するサーボモータは回転動作から停止に移り、テーブルは円弧動作からY軸方向の直線動作に移る。位置C7で、テーブルをX軸方向に移動するサーボモータは、停止から回転動作に移り、テーブルはY軸方向の直線動作から円弧動作に移る。位置C8で、テーブルをY軸方向に移動するサーボモータは、回転動作から停止に移り、テーブルは円弧動作からX軸方向の直線動作に移る。
図4Dは、加工形状が円形で、位置A1で、テーブルをY軸方向に移動するサーボモータの回転方向が反転しようとした時に、機械要素間の抵触面におけるガタや摩擦により生ずる象限突起の生成を示す説明図である。
図4Dに示すように、テーブルをY軸方向に移動するサーボモータの回転方向が位置A1で反転しようとした時に、機械要素間の抵触面にガタが存在することにより、軌跡の回転中心がずれてしまう。また、摩擦によって反転遅れが生じることにより、半径方向に軌跡誤差が拡大し、軌跡誤差の拡大表示を行うと軌跡誤差が突起として見える。回転中心のずれに対しては、バックラッシ補正が必要であり、突起の解消に対しては、バックラッシ加速補正が必要である。
以上のように、学習時の加工プログラムにより指定される加工形状により、回転方向が反転したり、回転状態から停止したりする場合に生ずる惰走(惰性で動作する)を評価し、位置偏差に対する影響を調べることができる。
学習時の加工プログラムを実行することで、サーボ制御装置100の位置指令作成部101は順次、円、四角、角R付き四角(a square with quarter arc)の加工形状となるように位置指令値を出力する。また、円、四角、角R付き四角(a square with quarter arc)の加工形状毎に、送り速度を変更し、複数の送り速度についての影響も学習できるようにする。送り速度は、加工形状の図形の移動途中、例えば四角の加工形状にテーブルを移動させているときに、角を過ぎたときに送り速度を変更してもよい。
<強化学習について>
機械学習装置200に含まれる各機能ブロックの説明に先立って、まず強化学習の基本的な仕組みについて説明する。エージェント(本実施形態における機械学習装置200に相当)は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択(意思決定)を学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。
このように、強化学習では、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶ。これは、本実施形態において、例えば、位置偏差を低減するための行動情報を選択するという、未来に影響をおよぼすような行動を獲得できることを表している。
ここで、強化学習としては、任意の学習方法を用いることができるが、以下の説明では、或る環境の状態sの下で、行動aを選択する価値Q(s,a)を学習する方法であるQ学習(Q−learning)を用いる場合を例にとって説明をする。
Q学習では、或る状態sのとき、取り得る行動aのなかから、価値Q(s,a)の最も高い行動aを最適な行動として選択することを目的とする。
しかしながら、Q学習を最初に開始する時点では、状態sと行動aとの組合せについて、価値Q(s,a)の正しい値は全く分かっていない。そこで、エージェントは、或る状態sの下で様々な行動aを選択し、その時の行動aに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい価値Q(s,a)を学習していく。
また、将来にわたって得られる報酬の合計を最大化したいので、最終的にQ(s,a)=E[Σ(γ)r]となるようにすることを目指す。ここでE[]は期待値を表し、tは時刻、γは後述する割引率と呼ばれるパラメータ、rは時刻tにおける報酬、Σは時刻tによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしQ学習の過程において最適な行動が何であるのかは不明であるので、様々な行動を行うことにより、探索しながら強化学習をする。このような価値Q(s,a)の更新式は、例えば、次の数式1(以下に数1として示す)により表すことができる。
Figure 2019008472
上記の数式1において、sは、時刻tにおける環境の状態を表し、aは、時刻tにおける行動を表す。行動aにより、状態はst+1に変化する。rt+1は、その状態の変化により得られる報酬を表している。また、maxの付いた項は、状態st+1の下で、その時に分かっている最もQ値の高い行動aを選択した場合のQ値にγを乗じたものになる。ここで、γは、0<γ≦1のパラメータで、割引率と呼ばれる。また、αは、学習係数で、0<α≦1の範囲とする。
上述した数式1は、試行aの結果、返ってきた報酬rt+1を元に、状態sにおける行動aの価値Q(s,a)を更新する方法を表している。
この更新式は、状態sにおける行動aの価値Q(s,a)よりも、行動aによる次の状態st+1における最良の行動の価値max Q(st+1,a)の方が大きければ、Q(s,a)を大きくし、逆に小さければ、Q(s,a)を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬rt+1のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。
ここで、Q学習では、すべての状態行動ペア(s,a)についてのQ(s,a)のテーブルを作成して、学習を行う方法がある。しかし、すべての状態行動ペアのQ(s,a)の値を求めるには状態数が多すぎて、Q学習が収束するのに多くの時間を要してしまう場合がある。
そこで、公知のDQN(Deep Q−Network)と呼ばれる技術を利用するようにしてもよい。具体的には、行動価値関数Qを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、価値関数Qを適当なニューラルネットワークで近似することにより価値Q(s,a)の値を算出するようにしてもよい。DQNを利用することにより、Q学習が収束するのに要する時間を短くすることが可能となる。なお、DQNについては、例えば、以下の非特許文献に詳細な記載がある。
<非特許文献>
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著[online]、[平成29年1月17日検索]、インターネット〈URL:http://files.davidqiu.com/research/nature14236.pdf〉
以上説明をしたQ学習を機械学習装置200が行う。
なお、本実施形態では、バックラッシ補正部109が作成するバックラッシ補正量の算出に用いるバックラッシ補正パラメータ、及びバックラッシ加速補正部110がバックラッシ加速補正量を作成する際に用いるバックラッシ加速補正パラメータについて同時に学習するのではなく、先ずバックラッシ補正パラメータを対象とする強化学習(「第1の強化学習」ともいう)を行う。第1の強化学習により、最適なバックラッシ補正パラメータを算出すると、当該バックラッシ補正パラメータをバックラッシ補正部109に設定したうえで、バックラッシ加速補正部110がバックラッシ加速補正量を作成する際に用いるバックラッシ加速補正パラメータを対象とする強化学習(「第2の強化学習」ともいう)を行う。
こうすることで、強化学習を効率的に行うことができる。
<第1の強化学習>
まず、第1の強化学習について説明する。第1の強化学習において、機械学習装置200は、サーボ制御装置100におけるバックラッシ補正部109が作成するバックラッシ補正量の算出に用いるバックラッシ補正パラメータ、並びに学習時の位置指令に応じた制御を実行することで取得されるサーボ制御装置100の位置偏差情報を含むサーボ状態を状態sとして、当該状態sに係る、バックラッシ補正パラメータの調整を行動aとして選択する価値Qを学習する。なお、第1の強化学習時においては、バックラッシ加速補正を省略してもよい。
バックラッシ補正のための学習においては、バックラッシ補正パラメータPの調整(修正)を、行動aとして選択する価値Qを学習する。
機械学習装置200は、バックラッシ補正パラメータPに基づいて、学習時の加工プログラムをサーボ制御装置100に実行させた場合の位置指令と位置フィードバック値から得られる位置偏差値の集合と、バックラッシ補正パラメータPと、を含む状態情報sを観測して、次の行動a(バックラッシ補正パラメータPの調整)を決定する。
機械学習装置200は、行動aをするたびに報酬が返ってくる。機械学習装置200は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動aを試行錯誤的に探索する。そうすることで、機械学習装置200は、バックラッシ補正パラメータPに基づいて、学習時の加工プログラムをサーボ制御装置100に実行させることで得られるサーボ制御装置100の位置偏差情報を含むサーボ状態を含む状態情報sに対して、最適な行動a、すなわち、バックラッシ補正パラメータPを選択することが可能となる。
これにより、機械学習装置200により学習された価値関数Qに基づいて、或る状態sに係るバックラッシ補正パラメータPに対して適用される行動aのうち、Qの値が最大となるような行動aを選択することで、位置偏差が最小になるような行動a(すなわち、バックラッシ補正部109の最適なバックラッシ補正パラメータPを選択すること)が可能となる。
すなわち、機械学習装置200により学習された価値関数Qに基づいて、或る状態sに係るバックラッシ補正パラメータPに対して適用される行動aのうち、Qの値が最大となるような行動aを選択することで、学習時の加工プログラムを実行することで取得される位置偏差が最小になるような行動a(すなわち、バックラッシ補正パラメータP)を選択することが可能となる。
なお、本実施形態における強化学習は、バックラッシ補正パラメータPを対象としたものとして説明したが、バックラッシ補正パラメータPに限定されない。
例えば、サーボモータの回転方向が反転した後、反転後の移動量が固定値Lに達するまでは補正を行わず、移動量が固定値Lに達した時点において、補正量がバックラッシ補正パラメータPのバックラッシ補正を実行するケースについて強化学習を行ってもよい。すなわち、バックラッシ補正パラメータとしてP及びLを対象として強化学習を行ってもよい。
この場合、行動aは、バックラッシ補正パラメータP及びLの調整となる。
また、サーボモータの回転方向が右方向(順方向)か、左方向(逆方向)かによって、補正量及び/又は移動量として、右方向(順方向)のバックラッシ補正パラメータ及び左方向(逆方向)のバックラッシ補正パラメータによるバックラッシ補正を実行するケースについて強化学習を行ってもよい。すなわち、右方向(順方向)のバックラッシ補正パラメータ及び左方向(逆方向)のバックラッシ補正パラメータを対象として強化学習を行ってもよい。
<機械学習装置200の機能ブロック>
図5は第1の強化学習を行う場合の機械学習装置200を示すブロック図である。
上述した第1の強化学習を行うために、図5に示すように、機械学習装置200は、状態情報取得部201、学習部202、行動情報出力部203、価値関数記憶部204、及び最適化行動情報出力部205を備える。学習部202は報酬出力部2021、価値関数更新部2022、及び行動情報生成部2023を備える。
なお、状態情報取得部201、学習部202、行動情報出力部203、価値関数記憶部204、最適化行動情報出力部205、報酬出力部2021、価値関数更新部2022、行動情報生成部2023は、上記のバックラッシ補正パラメータPを対象とした強化学習のために動作する。
状態情報取得部201は、サーボ制御装置100におけるバックラッシ補正パラメータPに基づいて、学習時の加工プログラムを実行することで取得されるサーボ制御装置100の位置偏差情報を含む指令、フィードバック等のサーボ状態を含む状態sを、サーボ制御装置100から取得する。この状態情報sは、Q学習における、環境状態sに相当する。
状態情報取得部201は、取得した状態情報sを学習部202に対して出力する。
なお、最初にQ学習を開始する時点での、バックラッシ補正パラメータPは、予めユーザが生成するようにする。本実施形態では、ユーザが作成したバックラッシ補正パラメータPの初期設定値を、強化学習により最適なものに調整する。
学習部202は、或る環境状態sの下で、ある行動aを選択する場合の価値Q(s,a)を学習する部分である。具体的には、学習部202は、報酬出力部2021、価値関数更新部2022及び行動情報生成部2023を備える。
報酬出力部2021は、或る状態sの下で、行動aを選択した場合の報酬を算出する部分である。ここで、状態sにおける状態変数である位置偏差値の集合(位置偏差集合)をPD(s)、行動情報a(バックラッシ補正パラメータPの修正)により状態sから変化した状態情報s´に係る状態変数である位置偏差集合をPD(s´)で示す。また、状態sにおける位置偏差の値を、予め設定された評価関数f(PD(s))に基づいて算出される値とする。
評価関数fとしては、例えば、
位置偏差の絶対値の積算値を算出する関数
∫|e|dt
位置偏差の絶対値に時間の重み付けをして積算値を算出する関数
∫t|e|dt
位置偏差の絶対値の2n(nは自然数)乗の積算値を算出する関数、
∫e2ndt(nは自然数)
位置偏差の絶対値の最大値を算出する関数
Max{|e|}
等を適用することができる。
このとき、行動情報aにより修正された状態情報s´に係る修正後のバックラッシ補正部109に基づいて動作したサーボ制御装置100の位置偏差の値f(PD(s´))が、行動情報aにより修正される前の状態情報sに係る修正前のバックラッシ補正部109に基づいて動作したサーボ制御装置100の位置偏差の値f(PD(s))よりも大きくなった場合に、報酬出力部2021は、報酬の値を負の値とする。
一方で、行動情報aにより修正された状態情報s´に係る修正後のバックラッシ補正部109に基づいて動作したサーボ制御装置100の位置偏差の値f(PD(s´))が、行動情報aにより修正される前の状態情報sに係る修正前のバックラッシ補正部109に基づいて動作したサーボ制御装置100の位置偏差の値f(PD(s))よりも小さくなった場合に、報酬の値を正の値とする。
なお、行動情報aにより修正された状態情報s´に係る修正後のバックラッシ補正部109に基づいて動作したサーボ制御装置100の位置偏差の値f(PD(s´))が、行動情報aにより修正される前の状態情報sに係る修正前のバックラッシ補正部109に基づいて動作したサーボ制御装置100の位置偏差の値f(PD(s))と等しい場合は、報酬出力部2021は、報酬の値をゼロとする。
また、行動aを実行後の状態s´の位置偏差の値f(PD(s´))が、前の状態sにおける位置偏差の値f(PD(s))より大きくなった場合の負の値としては、その比率に応じて負の値を大きくするようにしてもよい。つまり位置偏差の値が大きくなった度合いに応じて負の値が大きくなるようにするとよい。逆に、行動aを実行後の状態s´の位置偏差の値f(PD(s´))が、前の状態sにおける位置偏差の値f(PD(s))より小さくなった場合の正の値としては、比率に応じて正の値を大きくするようにしてもよい。つまり位置偏差の値が小さくなった度合いに応じて正の値が大きくなるようにするとよい。
また、各係数の値をランダムに設定してもよい。
価値関数更新部2022は、状態sと、行動aと、行動aを状態sに適用した場合の状態s´と、上記のようにして算出された報酬の値と、に基づいてQ学習を行うことにより、価値関数記憶部204が記憶する行動価値関数Qを更新する。
行動価値関数Qの更新は、オンライン学習で行ってもよく、バッチ学習で行ってもよく、ミニバッチ学習で行ってもよい。
オンライン学習とは、或る行動aを現在の状態sに適用することにより、状態sが新たな状態s´に遷移する都度、即座に行動価値関数Qの更新を行うという学習方法である。また、バッチ学習とは、或る行動aを現在の状態sに適用することにより、状態sが新たな状態s´に遷移することを繰り返すことにより、学習用のデータを収集し、収集したすべての学習用データを用いて、行動価値関数Qの更新を行うという学習方法である。更に、ミニバッチ学習とは、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに行動価値関数Qの更新を行うという学習方法である。
行動情報生成部2023は、現在の状態sに対して、Q学習の過程における行動aを選択する。行動情報生成部2023は、Q学習の過程において、サーボ制御装置100のバックラッシ補正パラメータPを修正する動作(Q学習における行動aに相当)を行わせるために、行動情報aを生成して、生成した行動情報aを行動情報出力部203に対して出力する。より具体的には、行動情報生成部2023は、例えば、バックラッシ補正部109のバックラッシ補正パラメータPをインクレメンタル(例えば0.01程度)に加算又は減算させる。
そして、行動情報生成部2023は、バックラッシ補正パラメータPの増加又は減少を適用して、状態s´に遷移して、プラスの報酬(正の値の報酬)が返った場合、次の行動a´としては、バックラッシ補正パラメータPに対して、前回のアクションと同様にインクレメンタルに加算又は減算させる等、位置偏差の値がより小さくなるような行動a´を選択する方策を取るようにしてもよい。
また、逆に、マイナスの報酬(負の値の報酬)が返った場合、行動情報生成部2023は、次の行動a´としては、例えば、バックラッシ補正部109のバックラッシ補正パラメータPに対して、前回のアクションとは逆にインクレメンタルに減算又は加算させる等、位置偏差が前回の値よりも小さくなるような行動a´を選択する方策を取るようにしてもよい。
また、行動情報生成部2023は、現在の推定される行動aの価値の中で、最も価値Q(s,a)の高い行動a´を選択するグリーディ法や、ある小さな確率εでランダムに行動a´選択し、それ以外では最も価値Q(s,a)の高い行動a´を選択するεグリーディ法といった公知の方法により、行動a´を選択する方策を取るようにしてもよい。
行動情報出力部203は、学習部202から出力される行動情報aをサーボ制御装置100に対して送信する部分である。サーボ制御装置100は上述したように、この行動情報に基づいて、現在の状態s、すなわち現在設定されているバックラッシ補正パラメータPを調整することで、次の状態s´(すなわち修正された、バックラッシ補正パラメータP)に遷移する。
価値関数記憶部204は、行動価値関数Qを記憶する記憶装置である。行動価値関数Qは、例えば状態s、行動a毎にテーブル(以下、行動価値テーブルと呼ぶ)として格納してもよい。価値関数記憶部204に記憶された行動価値関数Qは、価値関数更新部2022により更新される。また、価値関数記憶部204に記憶された行動価値関数Qは、他の機械学習装置200との間で共有されるようにしてもよい。行動価値関数Qを複数の機械学習装置200で共有するようにすれば、各機械学習装置200にて分散して強化学習を行うことが可能となるので、強化学習の効率を向上させることが可能となる。
最適化行動情報出力部205は、価値関数更新部2022がQ学習を行うことにより更新した行動価値関数Qに基づいて、価値Q(s,a)が最大となる動作をバックラッシ補正部109に行わせるための行動情報a(以下、「最適化行動情報」と呼ぶ)を生成する。
より具体的には、最適化行動情報出力部205は、価値関数記憶部204が記憶している行動価値関数Qを取得する。この行動価値関数Qは、上述したように価値関数更新部2022がQ学習を行うことにより更新したものである。そして、最適化行動情報出力部205は、行動価値関数Qに基づいて、行動情報を生成し、生成した行動情報をサーボ制御装置100(バックラッシ補正部109)に対して出力する。この最適化行動情報には、行動情報出力部203AがQ学習の過程において出力する行動情報と同様に、バックラッシ補正部109の係数P0を修正する情報が含まれる。
サーボ制御装置100では、この行動情報に基づいてバックラッシ補正部109に修正されたバックラッシ補正パラメータPが設定され、位置偏差の値を低減するように動作することができる。
以上のように、本発明に係る機械学習装置200を利用することで、サーボ制御装置100のバックラッシ補正部109に設定されたバックラッシ補正パラメータPの最適化を容易にすることができる。
<第2の強化学習>
次に、第1の強化学習に続いて、バックラッシ加速補正部110におけるバックラッシ加速補正パラメータを対象として強化学習(第2の強化学習)を行う場合について説明する。
前述したように、第1の強化学習により算出された、最適なバックラッシ補正パラメータをバックラッシ補正部109に設定したうえで、第2の強化学習を行う。
バックラッシ加速補正パラメータを対象とした第2の強化学習に際しては、例えば、台形型加速に基づく補正を適用することができる。台形型加速に基づく補正とは、各軸の速度指令の符号が反転したとき、又はその直前から、図6に示すように、台形の形状に基づいて「しばらくの時間」補正を行う方式を意味する。
図6に示す台形型加速に基づく補正を適用する場合、加速量V0、計算開始時間TZ、加速時間T0、加速時間T1、及び減衰係数αは、それぞれ速度指令の符号反転直後の加速度xの平方根√|x|に応じて、以下の式(1)〜式(6)のように定められる。ここで、a、b、c(1≦i≦5)は、バックラッシ加速補正のためのパラメータである。なお、加速時間T2については、加速度xの平方根√|x|に依存しない定数パラメータである。
V0=a・√|x|・H1/2(b−√|x|)
+a1・b・H1/2(√|x|−b
+c (式1)
TZ=a・√|x|・H1/2(b−√|x|)
+a・b・H1/2(√|x|−b
+c (式2)
T0=a・√|x|・H1/2(b−√|x|)
+a・b・H1/2(√|x|−b
+c (式3)
T1=a・√|x|・H1/2(b−√|x|)
+a・b・H1/2(√|x|−b
+c (式4)
α= a・√|x|・H1/2(b−√|x|)
+a・b・H1/2(√|x|−b
+c (式5)
ここで、H1/2(x)は、以下の値をとるヘヴィサイドの階段関数である。
1/2(x)=0 (x<0)
1/2(0)=1/2
1/2(x)=1 (x>0)
(式6)
具体的には、加速量V0を例にとると、図7Aのグラフに示すように、加速量V0は、加速度xの平方根√|x|の関数となっている。また、加速量V0は、0<√|x|<bにおいては、傾きがaでy切片の値がcの一次関数となっており、√|x|≧bにおいては、加速量V0は、定数a・b+cとなっている。
なお、例えば、加速量V0と加速度xの平方根√|x|との関係は、上記以外に、図7B又は図7Cのグラフに示す関係でも良い。
、b(6≦i≦15)、c(6≦i≦21)が、バックラッシ加速補正のためのパラメータであって、例えば、加速量V0と加速度xの平方根√|x|との関係が図7Bのグラフに示す関係となる場合、0≦√|x|<bの範囲において、グラフの傾きをa(>0)、y切片をc(>0)とすると
V0=a√|x|+c
となる。
≦√|x|<bの範囲において、グラフの傾きがa(>0)、y切片がc(>0)であって、a≠a、c≠cとすると、
V0=a√|x|+c
となる。
なお、√|x|=bのとき、a×b+c=a×b+c=cとなる。
≦√|x|の範囲においては、c>0とすると、
V0=c
と常に定数となる。
これを、上記と同様に、ヘヴィサイドの階段関数を用いて表すと、
V0=(a√|x|+c)・H1/2(b−√|x|)
+(a√|x|+c)・H1/2((√|x|−b)(b−√|x|))
+c・H1/2(√|x|−b) (式7)
となる。
V0に限らず、TZ、T0、T1、αについても、以下のように、これと同様の関数で表わすことが可能である。すなわち、
TZ=(a√|x|+c10)・H1/2(b−√|x|)
+(a√|x|+c11)・H1/2((√|x|−b)(b−√|x|))
+c12・H1/2(√|x|−b) (式8)
T0=(a10√|x|+c13)・H1/2(b10−√|x|)
+(a11√|x|+c14)・H1/2((√|x|−b10)(b11−√|x|))
+c15・H1/2(√|x|−b11) (式9)
T1=(a12√|x|+c16)・H1/2(b12−√|x|)
+(a13√|x|+c17)・H1/2((√|x|−b12)(b13−√|x|))
+c18・H1/2(√|x|−b13) (式10)
α=(a14√|x|+c19)・H1/2(b14−√|x|)
+(a15√|x|+c20)・H1/2((√|x|−b14)(b15−√|x|))
+c21・H1/2(√|x|−b15) (式11)
また、a、b(16≦i≦25)、c(22≦i≦37)が、バックラッシ加速補正のためのパラメータであって、加速量V0と加速度xの平方根√|x|との関係が図7Cのグラフに示す関係となる場合、0≦√|x|<b16の範囲において、グラフの傾きをa16(>0)、y切片をc22(>0)とすると、
V0=a16√|x|+c22
となる。
16≦√|x|<b17の範囲において、グラフの傾きがa17(<0)、y切片がc23(>0)であって、c23≠c22とすると、
V0=a17√|x|+c23
なお、√|x|=b16のとき、a16×b16+c22=a17×b16+c23=c25となる。
17≦√|x|の範囲においては、c24>0とすると、
V0=c24
と常に定数となる。
これを、上記と同様に、ヘヴィサイドの階段関数を用いて表すと、
V0=(a16√|x|+c22)・H1/2(b16−√|x|)
+(a17√|x|+c23)・H1/2((√|x|−b16)(b17−√|x|))
+c24・H1/2(√|x|−b17) (式12)
となる。
V0に限らず、TZ、T0、T1、αについても、以下のように、これと同様の関数で表わすことが可能である。すなわち、
TZ=(a18√|x|+c26)・H1/2(b18−√|x|)
+(a19√|x|+c27)・H1/2((√|x|−b18)(b19−√|x|))
+c28・H1/2(√|x|−b19) (式13)
T0=(a20√|x|+c29)・H1/2(b20−√|x|)
+(a21√|x|+c30)・H1/2((√|x|−b20)(b21−√|x|))
+c31・H1/2(√|x|−b21) (式14)
T1=(a22√|x|+c32)・H1/2(b22−√|x|)
+(a23√|x|+c33)・H1/2((√|x|−b22)(b23−√|x|))
+c34・H1/2(√|x|−b23) (式15)
α=(a24√|x|+c35)・H1/2(b24−√|x|)
+(a25√|x|+c36)・H1/2((√|x|−b24)(b25−√|x|))
+c37・H1/2(√|x|−b25) (式16)
と表わすことが可能である。
このように、バックラッシ加速補正部110は、速度指令の符号反転直後の加速度xの平方根√|x|に基づいて、(式1)から(式16)によりそれぞれ求められる、加速量V0、計算開始時間TZ、加速時間T0、加速時間T1、及び減衰係数α、並びに加速時間T2に基づいて、図6に示す台形の形状に基づいて「しばらくの時間」補正を行うように動作する。
第2の強化学習において、機械学習装置200は、サーボ制御装置100におけるバックラッシ加速補正部110がバックラッシ加速補正量を作成する際に用いるバックラッシ加速補正パラメータ並びに学習時の位置指令に応じた制御を実行することで取得されるサーボ制御装置100の位置偏差情報を含むサーボ状態を状態sとして、当該状態sに係る、バックラッシ加速補正パラメータa、b、c、及び加速時間T2の調整を行動aとして選択する価値Qを学習する。
バックラッシ加速補正パラメータを対象とした強化学習においては、バックラッシ加速補正パラメータa、b、c、及び加速時間T2の調整(修正)を、行動aとして選択する価値Qを学習する。
機械学習装置200は、バックラッシ加速補正パラメータa、b、c及び加速時間T2に基づいて、学習時の加工プログラムをサーボ制御装置100に実行させた場合の位置指令と位置フィードバック値から得られる位置偏差値の集合と、バックラッシ加速補正パラメータa、b、c、及び加速時間T2と、を含む状態情報sを観測して、次の行動a(バックラッシ加速補正パラメータa、b、c、及び加速時間T2の調整)を決定する。
機械学習装置200は、行動aをするたびに報酬が返ってくる。機械学習装置200は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動aを試行錯誤的に探索する。そうすることで、機械学習装置200は、バックラッシ加速補正パラメータa、b、c、及び加速時間T2に基づいて、学習時の加工プログラムをサーボ制御装置100に実行させることで得られるサーボ制御装置100の位置偏差情報を含むサーボ状態を含む状態情報sに対して、最適な行動a、すなわち、バックラッシ加速補正パラメータa、b、c、及び加速時間T2を選択することが可能となる。
これにより、第2の強化学習において、機械学習装置200により学習された価値関数Qに基づいて、或る状態sに係るバックラッシ加速補正パラメータa、b、c及び加速時間T2に対して適用される行動aのうち、Qの値が最大となるような行動aを選択することで、位置偏差が最小になるような行動a(すなわち、バックラッシ加速補正部110の最適なバックラッシ加速補正パラメータa、b、c、及び加速時間T2を選択すること)が可能となる。
なお、第2の強化学習における、状態情報取得部201、学習部202(報酬出力部2021、価値関数更新部2022、及び行動情報生成部2023)、行動情報出力部203、価値関数記憶部204、及び最適化行動情報出力部205の処理は、前述した第1の強化学習時と同等の処理を行う。すなわち、機械学習装置200は、第1の強化学習についての前述の説明において、バックラッシ補正部109をバックラッシ加速補正部110に読み替え、バックラッシ補正パラメータPをバックラッシ加速補正パラメータa、b、c、及び加速時間T2に読み替えた強化学習を行う。
以上のように、本発明に係る機械学習装置200を利用することで、サーボ制御装置100のバックラッシ加速補正部110のバックラッシ加速補正パラメータ調整を簡易化することができる。
以上、サーボ制御装置100、機械学習装置200に含まれる機能ブロックについて説明した。
これらの機能ブロックを実現するために、サーボ制御装置100、及び機械学習装置200のそれぞれは、CPU(Central Processing Unit)等の演算処理装置を備える。また、サーボ制御装置100、及び機械学習装置200のそれぞれは、アプリケーションソフトウェアやOS(Operating System)等の各種の制御用プログラムを格納したHDD(Hard Disk Drive)等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのRAM(Random Access Memory)といった主記憶装置も備える。
そして、サーボ制御装置100、及び機械学習装置200のそれぞれにおいて、演算処理装置が補助記憶装置からアプリケーションソフトウェアやOSを読み込み、読み込んだアプリケーションソフトウェアやOSを主記憶装置に展開させながら、これらのアプリケーションソフトウェアやOSに基づいた演算処理を行なう。また、この演算結果に基づいて、各装置が備える各種のハードウェアを制御する。これにより、本実施形態の機能ブロックは実現される。つまり、本実施形態は、ハードウェアとソフトウェアが協働することにより実現することができる。
機械学習装置200については機械学習に伴う演算量が多いため、例えば、パーソナルコンピュータにGPU(Graphics Processing Units)を搭載し、GPGPU(General-Purpose computing on Graphics Processing Units)と呼ばれる技術により、GPUを機械学習に伴う演算処理に利用するようにすると高速処理できるようになるのでよい。更には、より高速な処理を行うために、このようなGPUを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。
上記のサーボ制御装置のサーボ制御部及び機械学習装置に含まれる各構成部は、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記のサーボ制御装置に含まれる各構成部のそれぞれの協働により行なわれるサーボ制御方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば、光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
<本実施形態の動作>
次に、図8のブロック図、図9のフローチャートを参照してバックラッシ補正パラメータを対象とする第1の強化学習時の機械学習装置200の動作について説明をする。
バックラッシ補正パラメータを対象とする第1の強化学習時には、図8の太線で示されるように、機械学習装置200は、バックラッシ補正パラメータPの調整情報を含む行動情報をバックラッシ補正部109に対して出力し、当該行動情報に基づいて、学習時の加工プログラムをサーボ制御装置100に実行させて、位置偏差情報を観測する。
第1の強化学習は、図9に示すように、ステップS11において、学習時の加工プログラムを実行することで、状態情報取得部201がサーボ制御装置100から状態情報sを取得する。取得した状態情報は、価値関数更新部2022や行動情報生成部2023に対して出力される。上述したように、この状態情報sは、Q学習における状態に相当する情報であり、ステップS11時点での、バックラッシ補正部109のバックラッシ補正パラメータPが含まれる。こうして、バックラッシ補正パラメータPが初期値であるときの、学習時の加工プログラムにより指定される所定の送り速度且つ円の加工形状に対応する位置偏差の集合PD(s)が取得される。
最初にQ学習を開始する時点での減算器102から状態sにおける位置偏差の値PD(s)は、学習時の加工プログラムでサーボ制御装置100を動作させることで得られる。なお、学習時の加工プログラムにおいては、サーボモータ302の回転速度は前述したとおり、送り速度を変更し複数の送り速度が用意されている。位置指令作成部101は、学習時の加工プログラムにより指定された所定の加工形状で、例えば、円、四角、角R付き四角(a square with quarter arc)の加工形状で、送り速度を変えて位置指令を順次出力する。例えば、所定の送り速度で円の加工形状に対応する位置指令値が位置指令作成部101から出力され、減算器102は位置指令値と積分器108から出力される検出位置との差を位置偏差PD(s)として機械学習装置200に出力する。
ステップS12において、行動情報生成部2023は新たな行動情報aを生成し、生成した新たな行動情報aを、行動情報出力部203を介してサーボ制御装置100に対して出力する。行動情報生成部2023は前述した方策に基づいて、新たな行動情報aを出力する。なお、行動情報aを受信したサーボ制御装置100は、受信した行動情報に基づいて現在の状態sに係るバックラッシ補正部109のバックラッシ補正パラメータPを修正した状態s´により、サーボモータを含む工作機械を駆動させる。
ステップS13において、状態情報取得部201は、減算器102から新たな状態s´における位置偏差PD(s´)を取得する。こうして、状態情報取得部201は、バックラッシ補正部109から状態s´に係るバックラッシ補正パラメータPに基づいて、学習時の加工プログラムを前記サーボ制御装置に実行させた場合における、位置偏差の集合PD(s´)を取得する。取得した状態情報は、報酬出力部2021に対して出力される。
ステップS14において、報酬出力部2021は、状態s´における位置偏差の値f(PD(s´))と状態sにおける位置偏差の値f(PD(s))との大小関係を判断し、f(PD(s´))>f(PD(s))の場合には、ステップS15において、報酬を負の値とする。f(PD(s´))<f(PD(s))の場合には、ステップS16において、報酬を正の値とする。f(PD(s´))=f(PD(s))の場合には、ステップS17において、報酬をゼロとする。なお、報酬の負の値、正の値について重みづけを行うようにしてもよい。
ステップS15、ステップS16及びステップS17の何れかが終了すると、ステップS18において、この何れかのステップにて算出された報酬の値に基づいて、価値関数更新部2022が、価値関数記憶部204に記憶している行動価値関数Qを更新する。そして、再度ステップS11に戻り、上述した処理を繰り返すことにより、行動価値関数Qは適切な値に収束していく。なお、上述した処理を、所定回数繰り返したことや、所定時間繰り返したことを条件として処理を終了するようにしてもよい。
なお、ステップS18はオンライン更新を例示しているが、オンライン更新に替えてバッチ更新又はミニバッチ更新に置き換えてもよい。
以上、図8及び図9を参照して説明した第1の強化学習により、本実施形態では、機械学習装置200を利用することで、バックラッシ補正パラメータPの最適な値を容易に取得することができる。
次に、図10のフローチャートを参照して、最適化行動情報出力部205による最適化行動情報の生成時の動作について説明をする。
まず、ステップS21において、最適化行動情報出力部205は、価値関数記憶部204に記憶している行動価値関数Qを取得する。行動価値関数Qは、上述したように価値関数更新部2022がQ学習を行うことにより更新したものである。
ステップS22において、最適化行動情報出力部205は、この行動価値関数Qに基づいて、最適化行動情報を生成し、生成した最適化行動情報をサーボ制御装置100のバックラッシ補正部109に対して出力する。
このようにして、第1の強化学習を終了する。
次にバックラッシ加速補正パラメータa、b、c及び加速時間T2を対象とする第2の強化学習時の機械学習装置200の動作について説明をする。
機械学習装置200は、バックラッシ加速補正パラメータを対象とした第2の強化学習時にも、図9のフローチャートと同様の動作フローにより、バックラッシ加速補正パラメータa、b、c、及びT2の最適な値を容易に取得することができる。
なお、バックラッシ加速補正パラメータを対象とした第2の強化学習時には、図11の太線で示されるように、バックラッシ補正部109は、加算器103に対して、第1の強化学習で最適化されたバックラッシ補正パラメータPを適用して、バックラッシ補正量を出力する。
そして、機械学習装置200は、バックラッシ加速補正パラメータa、b、c及び加速時間T2の調整情報を含む行動情報をバックラッシ加速補正部110に対して出力し、当該行動情報に基づいて、学習時の加工プログラムをサーボ制御装置100に実行させて、位置偏差情報を観測する。
なお、第2の強化学習における、状態情報取得部201、学習部202(報酬出力部2021、価値関数更新部2022、及び行動情報生成部2023)、行動情報出力部203、価値関数記憶部204、及び最適化行動情報出力部205の動作は、前述した第1の強化学習時と同等の動作を行う。すなわち、機械学習装置200は、第1の強化学習についての前述の動作説明において、バックラッシ補正部109をバックラッシ加速補正部110に読み替え、バックラッシ補正パラメータPをバックラッシ加速補正パラメータa、b、c、及び加速時間T2に読み替えた強化学習の動作を行う。
このようにして、第2の強化学習時に、バックラッシ加速補正パラメータa、b、c、及びT2の最適な値を容易に取得することができる。
バックラッシ加速補正パラメータを対象とした第2の強化学習後には、図12の太線で示されるように、バックラッシ加速補正部110は、加算器106に対して、第2の強化学習で最適化されたバックラッシ加速補正パラメータa、b、c、及びT2を適用して、バックラッシ加速補正量を出力する。
上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。
<サーボ制御装置が機械学習装置を備える変形例>
上述した実施形態では、機械学習装置200を、サーボ制御装置100とは別体の装置により構成したが、機械学習装置200の機能の一部又は全部をサーボ制御装置100により実現するようにしてもよい。
<システム構成の自由度>
上述した実施形態では、機械学習装置200とサーボ制御装置100とが1対1の組として通信可能に接続されているが、例えば1台の機械学習装置200が複数のサーボ制御装置100とネットワーク400を介して通信可能に接続され、各サーボ制御装置100の機械学習を実施するようにしてもよい。
その際、機械学習装置200の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、機械学習装置200の各機能を実現してもよい。
また、複数の同じ型名、同一仕様、又は同一シリーズのサーボ制御装置100−1〜100−nとそれぞれ対応する複数の機械学習装置200−1〜200−nがあった場合に、各機械学習装置200−1〜200−nにおける学習結果を共有するように構成するようにしてもよい。そうすることで、より最適なモデルを構築することが可能となる。
10 サーボ制御システム
100 サーボ制御装置
101 位置指令作成部
102 減算器
103 加算器
104 位置制御部
105 減算器
106 加算器
107 速度制御部
108 積分器
109 バックラッシ補正部
110 バックラッシ加速補正部
200 機械学習装置
201 状態情報取得部
202 学習部
203 行動情報出力部
204 価値関数記憶部
205 最適化行動情報出力部
300 制御対象
400 ネットワーク
2021 報酬出力部
2022 価値関数更新部
2023 行動情報生成部

Claims (7)

  1. 位置指令又は位置偏差に対するバックラッシ補正量を作成するバックラッシ補正手段及び/又は、速度指令に対するバックラッシ加速補正量を作成するバックラッシ加速補正手段を備える、サーボ制御装置に対して、前記バックラッシ補正手段におけるバックラッシ補正パラメータ及び/又は前記バックラッシ加速補正手段におけるバックラッシ加速補正パラメータを対象とする強化学習を行う機械学習装置であって、
    前記バックラッシ補正パラメータ及び/又は前記バックラッシ加速補正パラメータの調整情報を含む行動情報を前記バックラッシ補正手段及び/又は前記バックラッシ加速補正手段に対して出力する行動情報出力手段と、
    前記行動情報に基づいて、所定の加工プログラムを前記サーボ制御装置に実行させた場合における、前記位置指令と位置フィードバックから得られる位置偏差と、前記バックラッシ補正パラメータ及び/又は前記バックラッシ加速補正パラメータと、を含む状態情報を前記サーボ制御装置から取得する状態情報取得手段と、
    前記状態情報に含まれる前記位置偏差に基づいて、強化学習における報酬の値を出力する報酬出力手段と、
    前記報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新手段と、
    を備える機械学習装置。
  2. 前記バックラッシ補正手段におけるバックラッシ補正パラメータを対象として強化学習を行った後に、前記バックラッシ加速補正手段における前記バックラッシ加速補正パラメータを対象として強化学習を行う、請求項1に記載の機械学習装置。
  3. 前記報酬出力手段は、前記位置偏差の絶対値に基づいて前記報酬の値を出力する請求項1又は請求項2に記載の機械学習装置。
  4. 前記価値関数更新手段により更新された行動価値関数に基づいて、前記バックラッシ補正手段におけるバックラッシ補正パラメータ及び/又は前記バックラッシ加速補正手段における前記バックラッシ加速補正パラメータを生成して出力する最適化行動情報出力手段を備えた請求項1から請求項3の何れか1項に記載の機械学習装置。
  5. 請求項1〜4の何れか1項に記載の機械学習装置を含む前記サーボ制御装置。
  6. 請求項1〜4の何れか1項に記載の機械学習装置と、前記サーボ制御装置と、を備えたサーボ制御システム。
  7. 位置指令又は位置偏差に対するバックラッシ補正量を作成するバックラッシ補正手段と、速度指令に対するバックラッシ加速補正量を作成するバックラッシ加速補正手段とを備える、サーボ制御装置に対して前記バックラッシ補正手段におけるバックラッシ補正パラメータ及び/又は前記バックラッシ加速補正手段におけるバックラッシ加速補正パラメータを対象とする強化学習を行う機械学習装置の機械学習方法であって、
    前記バックラッシ補正パラメータ及び/又は前記バックラッシ加速補正パラメータの調整情報を含む行動情報を前記バックラッシ補正手段及び/又は前記バックラッシ加速補正手段に対して出力する行動情報出力ステップと、
    前記行動情報に基づいて、所定の加工プログラムを前記サーボ制御装置に実行させた場合における、前記位置指令と位置フィードバックから得られる位置偏差と、前記バックラッシ補正パラメータ及び/又は前記バックラッシ加速補正パラメータと、を含む状態情報を前記サーボ制御装置から取得する状態情報取得ステップと、
    前記状態情報に含まれる前記位置偏差に基づいて、強化学習における報酬の値を出力する報酬出力ステップと、
    前記報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新ステップと、
    を備える機械学習方法。
JP2017122449A 2017-06-22 2017-06-22 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 Active JP6499720B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2017122449A JP6499720B2 (ja) 2017-06-22 2017-06-22 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
US15/997,043 US10747193B2 (en) 2017-06-22 2018-06-04 Machine learning apparatus, servo control apparatus, servo control system, and machine learning method
DE102018209951.0A DE102018209951A1 (de) 2017-06-22 2018-06-20 Maschinenlerngerät, servosteuergerät, servosteuersystem und maschinenlernverfahren
CN201810638894.5A CN109116811B (zh) 2017-06-22 2018-06-20 机器学习装置和方法、伺服控制装置、伺服控制***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017122449A JP6499720B2 (ja) 2017-06-22 2017-06-22 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法

Publications (2)

Publication Number Publication Date
JP2019008472A true JP2019008472A (ja) 2019-01-17
JP6499720B2 JP6499720B2 (ja) 2019-04-10

Family

ID=64692544

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017122449A Active JP6499720B2 (ja) 2017-06-22 2017-06-22 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法

Country Status (4)

Country Link
US (1) US10747193B2 (ja)
JP (1) JP6499720B2 (ja)
CN (1) CN109116811B (ja)
DE (1) DE102018209951A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6800384B1 (ja) * 2020-03-04 2020-12-16 三菱電機株式会社 位置決め制御装置および位置決め方法
JP2021039648A (ja) * 2019-09-05 2021-03-11 ファナック株式会社 機械学習装置、サーボ制御装置、サーボ制御システム及び機械学習方法
JPWO2021260921A1 (ja) * 2020-06-26 2021-12-30

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6474449B2 (ja) * 2017-04-07 2019-02-27 ファナック株式会社 調整装置及び調整方法
JP6646025B2 (ja) * 2017-09-15 2020-02-14 ファナック株式会社 制御装置及び機械学習装置
JP7181753B2 (ja) * 2018-10-12 2022-12-01 株式会社アドバンテスト 解析装置、解析方法および解析プログラム
JP2020095586A (ja) * 2018-12-14 2020-06-18 富士通株式会社 強化学習方法、および強化学習プログラム
CN109799701B (zh) * 2018-12-29 2022-04-29 南京埃斯顿机器人工程有限公司 一种工业机器人振动抑制方法
JP7010877B2 (ja) * 2019-04-25 2022-01-26 ファナック株式会社 機械学習装置、数値制御システム及び機械学習方法
JP7181849B2 (ja) * 2019-10-31 2022-12-01 横河電機株式会社 装置、方法およびプログラム
JP7483013B2 (ja) 2020-01-17 2024-05-14 シーメンス・ヘルスケア・ダイアグノスティックス・インコーポレイテッド 運動制御システムにおけるバックラッシュ補償
CN111516695B (zh) * 2020-03-23 2021-10-26 浙江吉利汽车研究院有限公司 一种车辆输出扭矩的控制方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012093982A (ja) * 2010-10-27 2012-05-17 Makino Milling Mach Co Ltd 象限突起補正方法
JP2017064837A (ja) * 2015-09-29 2017-04-06 ファナック株式会社 電動機に対する動作指令を学習する機械学習方法および機械学習装置並びに該機械学習装置を備えた工作機械

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6611823B1 (en) * 2000-04-20 2003-08-26 Board Of Regents, The University Of Texas System Backlash compensation using neural network
JP2003048136A (ja) * 2001-08-09 2003-02-18 Mori Seiki Co Ltd 送り装置の制御方法及び制御装置
CN1258431C (zh) 2004-03-31 2006-06-07 清华大学 数控机床误差补偿方法及其***
JP2008225780A (ja) * 2007-03-12 2008-09-25 Okuma Corp 工作機械における旋回軸のバックラッシ補正方法
JP5404507B2 (ja) 2010-04-05 2014-02-05 三菱電機株式会社 補正パラメータ調整装置
KR101827572B1 (ko) * 2011-05-13 2018-02-08 두산공작기계 주식회사 공작기계의 백래시 자동 검출과 보상을 위한 방법 및 장치
CN103331310A (zh) 2013-07-13 2013-10-02 吉林大学 镁合金板材轧制参数监测与故障诊断***及方法
JP5905521B2 (ja) * 2014-06-26 2016-04-20 ファナック株式会社 工具先端点制御中に生じるバックラッシを抑制することを特徴とする数値制御装置
JP6374274B2 (ja) 2014-09-04 2018-08-15 国立大学法人長岡技術科学大学 制御装置及び減速機システム
JP6088581B2 (ja) 2015-06-04 2017-03-01 ファナック株式会社 主軸と送り軸との同期運転を制御する工作機械の制御装置及び制御方法
CN106338970B (zh) 2016-11-17 2018-09-07 沈阳工业大学 一种五轴联动数控机床伺服***控制方法
CN106763311B (zh) * 2017-02-15 2019-04-12 三环集团有限公司 一种具有间隙补偿功能的全盘式制动器

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012093982A (ja) * 2010-10-27 2012-05-17 Makino Milling Mach Co Ltd 象限突起補正方法
JP2017064837A (ja) * 2015-09-29 2017-04-06 ファナック株式会社 電動機に対する動作指令を学習する機械学習方法および機械学習装置並びに該機械学習装置を備えた工作機械

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021039648A (ja) * 2019-09-05 2021-03-11 ファナック株式会社 機械学習装置、サーボ制御装置、サーボ制御システム及び機械学習方法
JP7405537B2 (ja) 2019-09-05 2023-12-26 ファナック株式会社 機械学習装置、サーボ制御装置、サーボ制御システム及び機械学習方法
US11914333B2 (en) 2019-09-05 2024-02-27 Fanuc Corporation Machine learning device, servo control device, servo control system, and machine learning method
JP6800384B1 (ja) * 2020-03-04 2020-12-16 三菱電機株式会社 位置決め制御装置および位置決め方法
WO2021176619A1 (ja) * 2020-03-04 2021-09-10 三菱電機株式会社 位置決め制御装置および位置決め方法
JPWO2021260921A1 (ja) * 2020-06-26 2021-12-30
WO2021260921A1 (ja) * 2020-06-26 2021-12-30 三菱電機株式会社 バックラッシ量測定装置、学習済みの学習モデル生成装置、学習用データ生成装置、バックラッシ量測定方法、学習済みの学習モデル生成方法、学習用データ生成方法、バックラッシ量測定プログラム、学習済みの学習モデル生成プログラム、及び学習用データ生成プログラム

Also Published As

Publication number Publication date
US10747193B2 (en) 2020-08-18
CN109116811A (zh) 2019-01-01
DE102018209951A1 (de) 2019-02-21
US20180373223A1 (en) 2018-12-27
JP6499720B2 (ja) 2019-04-10
CN109116811B (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
JP6499720B2 (ja) 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
JP6490127B2 (ja) 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
CN109274314B (zh) 机器学习装置、伺服电动机控制装置、伺服电动机控制***以及机器学习方法
US10824121B2 (en) Machine learning device, servo motor controller, servo motor control system, and machine learning method
JP6748135B2 (ja) 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
JP6474449B2 (ja) 調整装置及び調整方法
JP6474456B2 (ja) 機械学習装置、サーボ制御システム及び機械学習方法
JP6490131B2 (ja) 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
JP6740279B2 (ja) 調整装置及び調整方法
US11087509B2 (en) Output device, control device, and evaluation function value output method
JP6740278B2 (ja) 機械学習装置、制御装置、及び機械学習方法
US11914333B2 (en) Machine learning device, servo control device, servo control system, and machine learning method
JP2020035213A (ja) 機械学習装置、制御システム及び機械学習方法
CN111722530B (zh) 机器学习装置、控制***以及机器学习方法
JP6740263B2 (ja) 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法
JP6740290B2 (ja) 機械学習装置、制御装置、及び機械学習方法

Legal Events

Date Code Title Description
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20181109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190315

R150 Certificate of patent or registration of utility model

Ref document number: 6499720

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150