JP6748135B2 - 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 - Google Patents

機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 Download PDF

Info

Publication number
JP6748135B2
JP6748135B2 JP2018051219A JP2018051219A JP6748135B2 JP 6748135 B2 JP6748135 B2 JP 6748135B2 JP 2018051219 A JP2018051219 A JP 2018051219A JP 2018051219 A JP2018051219 A JP 2018051219A JP 6748135 B2 JP6748135 B2 JP 6748135B2
Authority
JP
Japan
Prior art keywords
feedforward
calculation unit
machine learning
feedforward calculation
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018051219A
Other languages
English (en)
Other versions
JP2019164484A (ja
Inventor
亮太郎 恒木
亮太郎 恒木
聡史 猪飼
聡史 猪飼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FANUC Corp
Original Assignee
FANUC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FANUC Corp filed Critical FANUC Corp
Priority to JP2018051219A priority Critical patent/JP6748135B2/ja
Priority to US16/272,099 priority patent/US11023827B2/en
Priority to DE102019201758.4A priority patent/DE102019201758A1/de
Priority to CN201910197184.8A priority patent/CN110286645B/zh
Publication of JP2019164484A publication Critical patent/JP2019164484A/ja
Application granted granted Critical
Publication of JP6748135B2 publication Critical patent/JP6748135B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/404Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by control arrangements for compensation, e.g. for backlash, overshoot, tool offset, tool wear, temperature, machine construction errors, load, inertia
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/33Director till display
    • G05B2219/33116Configuration of motion control
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/33Director till display
    • G05B2219/33327Self diagnostic of control system, servo system
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/34Director, elements to supervisory
    • G05B2219/34013Servocontroller

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Automation & Control Theory (AREA)
  • Human Computer Interaction (AREA)
  • Manufacturing & Machinery (AREA)
  • Feedback Control In General (AREA)
  • Numerical Control (AREA)

Description

本発明は、少なくとも二つ以上のフィードフォワード計算部が多重ループを構成するフィードフォワード制御を用いたサーボ制御装置に対して、機械学習を行う機械学習装置、この機械学習装置を含むサーボ制御装置とサーボ制御システム、及び機械学習方法に関する。
フィードフォワード制御を用いたサーボ制御装置は、例えば特許文献1から特許文献4に記載されている。
特許文献1は、位置指令値から速度指令のフィードフォワード項を計算して、位置制御部から出力される速度指令に加算する神経回路網と、速度指令値からトルク指令のフィードフォワード項を計算して、速度制御部から出力されるトルク指令に加算する神経回路網とを記載している。そして、各神経回路網は駆動系の慣性モーメントの変動及び駆動系の持つ共振特性などを学習して、最適なフォードフォワード項を演算する。
特許文献2は、位置指令値から速度指令のフィードフォワード項を計算して、位置制御器から出力される速度指令に加算する位置フィードフォワード計算部と、位置指令値からトルク指令のフィードフォワード項を計算して、速度制御器から出力されるトルク指令に加算する速度フィードフォワード計算部とを記載している。また特許文献2は、位置指令値とフィードバックされた位置検出値との差である位置偏差に基づいて位置フィードフォワード計算部のゲインを学習する学習制御器と、位置偏差又は、速度指令値とフィードバックされた速度検出値との差である速度偏差に基づいて速度フィードフォワード計算部のゲインを学習する学習制御器とを記載している。
特許文献3は、指令値を入力し、制御対象が所望の動作を実現しうる理想的な動作指令を作成し、制御対象を制御するサーボ制御部へ動作指令を出力する最適指令作成装置において、制御対象モデルと、制御対象モデルが所望の動作を実現するように学習制御を行う学習制御部あるいは予測制御を行う予測制御部を記載している。
特許文献4は、フィードフォワード制御系が、位置指令に基づいて速度フィードフォワード信号を生成する速度フィードフォワード作成部と、位置指令に基づいてトルクフィードフォワード信号を生成するトルクフィードフォワード作成部と、速度フィードフォワード信号およびトルクフィードフォワード信号に基づいて速度フィードフォワード変更信号を生成する速度フィードフォワード変更部と、を備えたサーボ制御装置を記載している。
特開平4−084303号公報 特開平2−085902号公報 特開2003−084804号公報 特開2000−033172号公報
特許文献2において、サーボ制御装置は、位置フィードフォワード制御に対する学習を行う学習制御器と、速度フィードフォワード制御に対する学習を行う学習制御器とを用いて、位置フィードフォワード制御に対する学習と速度フィードフォワード制御に対する学習とを同時に行っている。
しかしながら、位置フィードフォワード制御に対する学習と速度フィードフォワード制御に対する学習とを同時に行うと、学習のための情報処理量が増大する。一方の学習制御器が位置偏差を低減すべく、位置偏差に基づいて速度指令に対するフィードフォワード項を変更しても、他方の学習制御器が位置偏差に基づいてトルク速度指令に対するフィードフォワード項を変更すると、その変更の影響を受けて位置偏差が変わる。このため、二つの学習制御器の学習が相互に干渉して、二つの学習制御器の学習のための情報処理量が増大する。
本発明は、少なくとも二つ以上のフィードフォワード計算部が多重ループを構成するフィードフォワード制御を用いたサーボ制御装置において、機械学習のための情報処理量を低減して機械学習の収束時間を短縮化でき、且つ位置偏差の変動を抑制して高精度化を図ることができる機械学習装置、この機械学習装置を含むサーボ制御装置、サーボ制御システム、及び機械学習方法を提供することを目的とする。
(1) 本発明に係る機械学習装置は、少なくとも二つ以上のフィードフォワード計算部(例えば、後述の位置フィードフォワード計算部109と速度フィードフォワード計算部110)が多重ループを構成するフィードフォワード制御を用いて、工作機械又は産業機械の軸を駆動するサーボモータ(例えば、後述のサーボモータ300)を制御するサーボ制御装置(例えば、後述のサーボ制御装置100)に対して、前記少なくとも二つ以上のフィードフォワード計算部の係数の最適化に係る機械学習を行う機械学習装置(例えば、後述の機械学習装置200)であって、
前記少なくとも二つのフィードフォワード計算部のうちの一のフィードフォワード計算部により計算されるフィードフォワード項により補正される一つの指令が、前記少なくとも二つのフィードフォワード計算部のうちの他のフィードフォワード計算部により計算されるフィードフォワード項により補正される他の指令よりも、前記サーボモータから見て内側の指令である場合、
先ず、前記一のフィードフォワード計算部の係数の最適化に係る機械学習を行い、その次に、前記一のフィードフォワード計算部の係数の最適化に係る機械学習により得られる前記一のフィードフォワード計算部の最適化された係数に基づいて、前記他のフィードフォワード計算部の係数の最適化に係る機械学習を行う機械学習装置である。
(2) 上記(1)の機械学習装置において、前記少なくとも二つ以上のフィードフォワード計算部は、位置指令に基づいて速度指令の第1のフィードフォワード項を計算する位置フィードフォワード計算部(例えば、後述の位置フィードフォワード計算部109)、位置指令に基づいてトルク指令の第2の第2のフィードフォワード項を計算する速度フィードフォワード計算部(例えば、後述の速度フィードフォワード計算部110)、及び位置指令に基づいて電流指令の第3のフィードフォワード項を計算する電流フィードフォワード計算部(例えば、後述の電流フィードフォワード計算部114)のうちの少なくとも二つのフィードフォワード計算部であり、
前記一の指令及び前記他の指令は、前記速度指令、前記トルク指令及び前記電流指令のうちの二つの指令であり、
前記サーボモータは前記トルク指令又は前記電流指令により駆動されてもよい。
(3) 上記(2)の機械学習装置において、前記一のフィードフォワード計算部は前記速度フィードフォワード計算部であり、前記他のフィードフォワード計算部は前記位置フィードフォワード計算部であってもよい。
(4) 上記(2)の機械学習装置において、前記サーボ制御装置は、前記位置フィードフォワード計算部、前記速度フィードフォワード計算部、及び前記電流フィードフォワード計算部を備え、
前記一のフィードフォワード計算部は前記速度フィードフォワード計算部又は前記電流フィードフォワード計算部であり、前記他のフィードフォワード計算部は前記位置フィードフォワード計算部であってもよい。
(5) 上記(1)から(4)のいずれかの機械学習装置において、前記他のフィードフォワード計算手段の伝達関数の係数の初期設定値は、前記一のフィードフォワード計算手段の伝達関数の係数の初期設定値と同じ値としてもよい。
(6) 上記(1)から(5)のいずれかの機械学習装置において、所定の加工プログラムを前記サーボ制御装置に実行させることにより、少なくとも位置偏差を含むサーボ状態と、前記一又は他のフィードフォワード計算手段の伝達関数の係数の組み合わせと、を含む状態情報を、前記サーボ制御装置から取得する状態情報取得手段(例えば、後述の状態情報取得部201)と、
前記状態情報に含まれる前記係数の組み合わせの調整情報を含む行動情報を前記サーボ制御装置に出力する行動情報出力手段(例えば、後述の行動情報出力部203)と、
前記状態情報に含まれる前記位置偏差に基づく、強化学習における報酬の値を出力する報酬出力手段(例えば、後述の報酬出力部2021)と、
前記報酬出力手段により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新手段(例えば、後述の価値関数更新部2022)と、
を備えてもよい。
(7) 上記(6)の機械学習装置において、前記報酬出力手段は、前記位置偏差の絶対値に基づいて前記報酬の値を出力してもよい。
(8) 上記(6)又は(7)の機械学習装置において、前記価値関数更新手段により更新された価値関数に基づいて、前記少なくとも二つのフィードフォワード計算手段の伝達関数の係数の組み合わせを生成して出力する最適化行動情報出力手段(例えば、後述の最適化行動情報出力部205)を備えてもよい。
(9) 本発明に係るサーボ制御システムは、上記(1)から(8)のいずれかの機械学習装置と、少なくとも二つ以上のフィードフォワード計算部が多重ループを構成するフィードフォワード制御を用いて、工作機械又は産業機械の軸を駆動するサーボモータを制御するサーボ制御装置と、を備えたサーボ制御システムである。
(10) 本発明に係るサーボ制御装置は、上記(1)から(8)のいずれかの機械学習装置と、少なくとも二つ以上のフィードフォワード計算部と、を備え、
前記少なくとも二つ以上のフィードフォワード計算部が多重ループを構成するフィードフォワード制御を用いて、工作機械又は産業機械の軸を駆動するサーボモータを制御するサーボ制御装置である。
(11) 本発明に係る機械学習方法は、少なくとも二つ以上のフィードフォワード計算部が多重ループを構成するフィードフォワード制御を用いて、工作機械又は産業機械の軸を駆動するサーボモータを制御するサーボ制御装置に対して、前記少なくとも二つ以上のフィードフォワード計算部の係数の最適化に係る機械学習を行う機械学習装置の機械学習方法であって、
前記少なくとも二つのフィードフォワード計算部のうちの一のフィードフォワード計算部により計算されるフィードフォワード項により補正される一つの指令が、前記少なくとも二つのフィードフォワード計算部のうちの他のフィードフォワード計算部により計算されるフィードフォワード項により補正される他の指令よりも、前記サーボモータから見て内側の指令である場合、
先ず、前記一のフィードフォワード計算部の係数の最適化に係る機械学習を行い、その次に、前記一のフィードフォワード計算部の係数の最適化に係る機械学習により得られる前記一のフィードフォワード計算部の最適化された係数に基づいて、前記他のフィードフォワード計算部の係数の最適化に係る機械学習を行う機械学習方法である。
本発明によれば、少なくとも二つ以上のフィードフォワード計算部が多重ループを構成するフィードフォワード制御を用いたサーボ制御装置において、機械学習の収束時間を短縮化でき、且つ位置偏差の変動を抑制して高精度化を図ることができる。
本発明の第1の実施形態のサーボ制御システムを示すブロック図である。 本発明の第1の実施形態のサーボ制御システムのサーボ制御装置と機械学習装置との組、及びモータを示すブロック図である。 サーボ制御装置の制御対象の一例となる、モータを含む工作機械の一部を示すブロック図である。 加工形状が八角形の場合のモータの動作を説明するための図である。 加工形状が、八角形の角が一つ置きに円弧に置き換えられた形の場合のモータの動作を説明するための図である。 第1の実施形態の機械学習装置を示すブロック図である。 第1の実施形態の機械学習装置の動作を説明するフローチャートである。 第1の実施形態の機械学習装置の最適化行動情報出力部の動作を説明するフローチャートである。 本発明の第2の実施形態のサーボ制御装置の一部を示すブロック図である。
以下、本発明の実施形態について図面を用いて詳細に説明する。
(第1の実施形態)
図1は発明の第1の実施形態のサーボ制御システムを示すブロック図である。サーボ制御システム10は、図1に示すように、n台のサーボ制御装置100−1〜100−n、n台の機械学習装置200−1〜200−n、及びネットワーク400を備えている。なお、nは任意の自然数である。第1の実施形態の機械学習装置200−1〜200−nは、機械学習の一例として、後述するように、サーボ制御装置100−1〜100−nにおいて多重ループを構成する、位置フィードフォワード計算部109と速度フィードフォワード計算部110の係数に係る強化学習を行うものとして説明する。
なお、本発明は、これに限定されない。すなわち、本発明は位置フィードフォワード計算部109と速度フィードフォワード計算部110以外の多重ループを構成するフィードフォワード計算部に係る機械学習に対しても適用できる。また、本発明における機械学習は強化学習に限定されず、他の機械学習(例えば教師あり学習)を行う場合にも適用できる。
ここで、サーボ制御装置100−1と機械学習装置200−1とは1対1の組とされて、通信可能に接続されている。サーボ制御装置100−2〜100−nと機械学習装置200−2〜100−nについてもサーボ制御装置100−1と機械学習装置200−1と同様に接続される。図1では、サーボ制御装置100−1〜100−nと機械学習装置200−1〜200−nとのn個の組は、ネットワーク400を介して接続されているが、サーボ制御装置100−1〜100−nと機械学習装置200−1〜200−nとのn個の組は、それぞれの組のサーボ制御装置と機械学習装置とが接続インタフェースを介して直接接続されてもよい。これらサーボ制御装置100−1〜100−nと機械学習装置200−1〜200−nとのn個の組は、例えば同じ工場に複数組設置されていてもよく、それぞれ異なる工場に設置されていてもよい。
なお、ネットワーク400は、例えば、工場内に構築されたLAN(Local Area Network)や、インターネット、公衆電話網、或いは、これらの組み合わせである。ネットワーク400における具体的な通信方式や、有線接続および無線接続のいずれであるか等については、特に限定されない。
図2は本発明の第1の実施形態のサーボ制御システムのサーボ制御装置と機械学習装置との組、及びモータを示すブロック図である。図2のサーボ制御装置100と、機械学習装置200は例えば、図1に示すサーボ制御装置100−1と機械学習装置200−1とに対応している。
サーボモータ300は、サーボ制御装置の制御対象となる、例えば工作機械,ロボット,産業機械等に含まれる。サーボ制御装置100はサーボモータ300とともに、工作機械,ロボット,産業機械等の一部として設けられてもよい。
最初に、サーボ制御装置100について説明する。
サーボ制御装置100は、位置指令作成部101、減算器102、位置制御部103、加算器104、減算器105、速度制御部106、加算器107、積分器108、位置フィードフォワード計算部109、及び速度フィードフォワード計算部110を備えている。位置フィードフォワード計算部109は微分器1091と位置フィードフォワード処理部1092とを備えている。また、速度フィードフォワード計算部110は2回微分器1101と速度フィードフォワード処理部1102とを備えている。
位置指令作成部101は位置指令値を作成し、作成した位置指令値を、減算器102、位置フィードフォワード計算部109、速度フィードフォワード計算部110、及び機械学習装置200に出力する。減算器102は位置指令値と位置フィードバックされた検出位置との差を求め、その差を位置偏差として位置制御部103及び機械学習装置200に出力する。
位置指令作成部101は、サーボモータ300を動作させるプログラムに基づいて位置指令値を作成する。サーボモータ300は、例えば工作機械に含まれる。工作機械において、被加工物(ワーク)を搭載するテーブルがX軸方向及びY軸方向に移動される場合には、X軸方向及びY軸方向に対してそれぞれ図2に示すサーボ制御装置100及びサーボモータ300が設けられる。テーブルを3軸以上の方向に移動させる場合には、それぞれの軸方向に対してサーボ制御装置100及びサーボモータ300が設けられる。
位置指令作成部101は、加工プログラムにより指定される加工形状となるように、送り速度を設定して位置指令値を作成する。
位置制御部103は、位置偏差にポジションゲインKpを乗じた値を、速度指令値として加算器104に出力する。
位置フィードフォワード計算部109の微分器1091は、位置指令値を微分して定数βを掛け、位置フィードフォワード処理部1092は微分器1091の出力に、数式1(以下に数1として示す)で示す伝達関数G(s)で示された位置フィードフォワード処理を行い、その処理結果を位置フィードフォワード項として、加算器104に出力する。数式1の係数a、b(i,j≧0)は位置フィードフォワード処理部1092の伝達関数の各係数である。
Figure 0006748135
加算器104は、速度指令値と位置フィードフォワード計算部109の出力値(位置フィードフォワード項)とを加算して、フィードフォワード制御された速度指令値として減算器105に出力する。減算器105は加算器104の出力と速度フィードバックされた速度検出値との差を求め、その差を速度偏差として速度制御部106に出力する。
速度制御部106は、速度偏差に積分ゲインK1vを乗じて積分した値と、速度偏差に比例ゲインK2vを乗じた値とを加算して、トルク指令値として加算器107に出力する。
速度フィードフォワード計算部110の2回微分器1101は、位置指令値を2回微分して定数αを掛け、速度フィードフォワード処理部1102は2回微分器1101の出力に、数式2(以下に数2として示す)で示された伝達関数F(s)で示される速度フィードフォワード処理を行い、その処理結果を速度フィードフォワード項として、加算器107に出力する。数式2の係数c、d(i,j≧0)は速度フィードフォワード処理部1102の伝達関数の各係数である。
Figure 0006748135
加算器107は、トルク指令値と速度フィードフォワード計算部110の出力値(速度フィードフォワード項)とを加算して、フィードフォワード制御されたトルク指令値としてサーボモータ300に出力してサーボモータ300を駆動する。
サーボモータ300の回転角度位置は、サーボモータ300に関連付けられた、位置検出部となるロータリーエンコーダによって検出され、速度検出値は速度フィードバックとして減算器105に入力される。速度検出値は積分器108で積分されて位置検出値となり、位置検出値は位置フィードバックとして減算器102に入力される。
以上のように、サーボ制御装置100は構成される。
次に、サーボ制御装置100により制御されるサーボモータ300を含む制御対象500について説明する。
図3はサーボ制御装置100の制御対象500の一例となる、モータを含む工作機械の一部を示すブロック図である。
サーボ制御装置100は、サーボモータ300で連結機構302を介してテーブル303を移動させることで、テーブル303の上に搭載された被加工物(ワーク)を加工する。連結機構302は、サーボモータ300に連結されたカップリング3021と、カップリング3021に固定されるボールねじ3023とを有し、ボールねじ3023にナット3022が螺合されている。サーボモータ300の回転駆動によって、ボールねじ3023に螺着されたナット3022がボールねじ3023の軸方向に移動する。ナット3022の移動によってテーブル303が移動する。
サーボモータ300の回転角度位置は、サーボモータ300に関連付けられた、位置検出部となるロータリーエンコーダ301によって検出される。上述したように、検出された信号は速度フィードバックとして利用される。検出された信号は積分器108で積分することで位置フィードバックとして利用される。なお、ボールねじ3023の端部に取り付けられ、ボールねじ3023の移動距離を検出するリニアスケール304出力を位置フィードバックとして用いてもよい。また、加速度センサを用いて位置フィードバックを生成してもよい。
<機械学習装置200>
機械学習装置200は、例えば、位置フィードフォワード処理部1092の伝達関数の係数と、速度フィードフォワード処理部1102の伝達関数の係数とを機械学習(以下、学習という)する。既に特許文献2に関する説明で述べたように、位置フィードフォワード項に対する学習と速度フィードフォワード項に対する学習とを同時に行うと、二つの学習が相互に干渉して、位置フィードフォワード制御の係数の学習と速度フィードフォワード制御の係数の学習のための情報処理量が増大する。
そこで、本実施形態では、機械学習装置200は、速度フィードフォワード計算部110の伝達関数の係数の学習と、位置フィードフォワード計算部109の伝達関数の係数の学習とは別に行い、位置フィードフォワード計算部109より内側(インナーループ)にある速度フィードフォワード計算部110の伝達関数の係数の学習を位置フィードフォワード計算部109の伝達関数の係数の学習よりも先に行う。具体的には、位置フィードフォワード計算部109の位置フィードフォワード処理部1092の伝達関数の係数を固定し、速度フィードフォワード計算部110の速度フィードフォワード処理部1102の伝達関数の係数の最適な値を学習する。その後に、機械学習装置200は、速度フィードフォワード処理部1102の伝達関数の係数を学習で得られた最適な値に固定して、位置フィードフォワード処理部1092の伝達関数の係数を学習する。
機械学習装置200が、位置フィードフォワード計算部109より内側(インナーループ)にある速度フィードフォワード処理部1102の伝達関数の係数を、位置フィードフォワード処理部1092の伝達関数の係数よりも先に学習する理由を、図2を用いて説明する。
サーボモータ300から見た場合、トルク指令は速度指令を用いて作成されるために、トルク指令は速度指令よりも内側(インナー)の指令である。そのためトルク指令に含まれる速度フィードフォワード項の計算は、速度指令に含まれる位置フィードフォワード項の計算より内側(インナー)に位置する処理である。具体的には、位置フィードフォワード計算部109の出力(位置フィードフォワード項)は加算器104に入力され、速度フィードフォワード計算部110の出力(速度フィードフォワード項)は加算器107に入力される。加算器104は、減算器105、速度制御部106、及び加算器107を介してサーボモータ300に接続される。
位置フィードフォワード処理部1092の伝達関数の係数の最適化に係る学習が速度フィードフォワード処理部1102の伝達関数の係数の最適化に係る学習より先であると、後に行われる速度フィードフォワード処理部1102の伝達関数の係数の最適化に係る学習によって、速度フィードフォワード項が変わってしまう。位置偏差を充分に抑制するためには、変わった速度フィードフォワード項の条件下で位置フィードフォワード処理部1092の伝達関数の係数の最適化に係る学習を再度行う必要がでてくる。
これに対して、速度フィードフォワード処理部1102の伝達関数の係数の最適化に係る学習が位置フィードフォワード処理部1092の伝達関数の係数の最適化に係る学習より先であると、学習により最適化された速度フィードフォワード項の条件下で、位置フィードフォワード処理部1092の伝達関数の係数の最適化に係る学習を行うことができ、位置偏差の変動を抑制することができる。
このため、位置フィードフォワード計算部109より内側(インナーループ)にある速度フィードフォワード処理部1102の伝達関数の係数の学習が位置フィードフォワード処理部1092の伝達関数の係数の学習より先にした方が、位置偏差の変動を抑制し、高精度化を実現できる。
機械学習装置200は、予め設定された加工プログラム(以下、「学習時の加工プログラム」ともいう)を実行することで、位置フィードフォワード計算部109の位置フィードフォワード処理部1092の伝達関数の係数、及び速度フィードフォワード計算部110の速度フィードフォワード処理部1102の伝達関数の係数を学習する。
ここで、学習時の加工プログラムにより指定される加工形状は、例えば、八角形、又は八角形の角が一つ置きに円弧に置き換えられた形等である。
図4は、加工形状が八角形の場合のモータの動作を説明するための図である。図5は、加工形状が八角形の角が一つ置きに円弧に置き換えられた形の場合のモータの動作を説明するための図である。図4及び図5において、被加工物(ワーク)が時計まわりに加工されるようにテーブルがX軸及びY軸方向に移動するものとする。
加工形状が八角形の場合は、図4に示すように、角の位置A1で、テーブルをY軸方向に移動するモータは回転速度が遅くなり、テーブルをX軸方向に移動するモータは回転速度が速くなる。
角の位置A2で、テーブルをY軸方向に移動するモータは、回転方向が反転し、テーブルはY軸方向に直線反転するように移動する。また、テーブルをX軸方向に移動するモータは、位置A1から位置A2及び位置A2から位置A3にかけて、同じ回転方向で、等速度で回転する。
角の位置A3で、テーブルをY軸方向に移動するモータは回転速度が速くなり、テーブルをX軸方向に移動するモータは回転速度が遅くなる。
角の位置A4で、テーブルをX軸方向に移動するモータは、回転方向が反転し、テーブルはX軸方向に直線反転するように移動する。また、テーブルをY軸方向に移動するモータは、位置A3から位置A4及び位置A4から次の角の位置にかけて、同じ回転方向で、等速度で回転する。
加工形状が八角形の角が一つ置きに円弧に置き換えられた形の場合は、図5に示すように、角の位置B1で、テーブルをY軸方向に移動するモータは回転速度が遅くなり、テーブルをX軸方向に移動するモータは回転速度が速くなる。
円弧の位置B2で、テーブルをY軸方向に移動するモータは、回転方向が反転し、テーブルはY軸方向に直線反転するように移動する。また、テーブルをX軸方向に移動するモータは位置B1から位置B3にかけて同じ回転方向で、等速度で回転する。図4に示した加工形状が八角形の場合と異なり、テーブルをY軸方向に移動するモータは位置B2の前後で円弧の加工形状が形成されるように、位置B2に向かって徐々に減速され、位置B2で回転が停止され、位置B2を過ぎると回転方向が徐々に増加していく。
角の位置B3で、テーブルをY軸方向に移動するモータは回転速度が速くなり、テーブルをX軸方向に移動するモータは回転速度が遅くなる。
円弧の位置B4で、テーブルをX軸方向に移動するモータは、回転方向が反転し、テーブルはX軸方向に直線反転するように移動する。また、テーブルをY軸方向に移動するモータは位置B3から位置B4、及び位置B4から次の角の位置にかけて同じ回転方向で、等速度で回転する。テーブルをX軸方向に移動するモータは位置B4の前後で円弧の加工形状が形成されるように、位置B4に向かって徐々に減速され、位置B4で回転が停止され、位置B4を過ぎると回転方向が徐々に増加していく。
本実施形態では、以上説明した、学習時の加工プログラムにより指定される加工形状の位置A1と位置A3、及び位置B1と位置B3により、線形制御において回転速度が変更されたときの振動を評価し、位置偏差に対する影響を調べることで、係数の機械学習を行うものとする。なお、本実施形態では用いていないが、加工形状の位置A2と位置A4、及び位置B2と位置B4により、回転方向が反転する場合に生ずる惰走(惰性で動作する)を評価し、位置偏差に対する影響を調べることもできる。
以下、機械学習装置200について更に詳細に説明する。
以下の説明では機械学習装置200が強化学習を行う場合について説明するが、機械学習装置200が行う学習は特に強化学習に限定されず、例えば、教師あり学習を行う場合にも本発明は適用可能である。
機械学習装置200に含まれる各機能ブロックの説明に先立って、まず強化学習の基本的な仕組みについて説明する。エージェント(本実施形態における機械学習装置200に相当)は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択(意思決定)を学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。
このように、強化学習では、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶ。これは、本実施形態において、例えば、位置偏差を低減するための行動情報を選択するという、未来に影響をおよぼすような行動を獲得できることを表している。
ここで、強化学習としては、任意の学習方法を用いることができるが、以下の説明では、或る環境の状態Sの下で、行動Aを選択する価値Q(S,A)を学習する方法であるQ学習(Q-learning)を用いる場合を例にとって説明をする。
Q学習では、或る状態Sのとき、取り得る行動Aのなかから、価値Q(S,A)の最も高い行動Aを最適な行動として選択することを目的とする。
しかしながら、Q学習を最初に開始する時点では、状態Sと行動Aとの組合せについて、価値Q(S,A)の正しい値は全く分かっていない。そこで、エージェントは、或る状態Sの下で様々な行動Aを選択し、その時の行動Aに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい価値Q(S,A)を学習していく。
また、将来にわたって得られる報酬の合計を最大化したいので、最終的にQ(S,A)=E[Σ(γ)r]となるようにすることを目指す。ここでE[]は期待値を表し、tは時刻、γは後述する割引率と呼ばれるパラメータ、rは時刻tにおける報酬、Σは時刻tによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしQ学習の過程において最適な行動が何であるのかは不明であるので、様々な行動を行うことにより、探索しながら強化学習をする。このような価値Q(S,A)の更新式は、例えば、次の数式3(以下に数3として示す)により表すことができる。
Figure 0006748135
上記の数式3において、Sは、時刻tにおける環境の状態を表し、Aは、時刻tにおける行動を表す。行動Aにより、状態はSt+1に変化する。rt+1は、その状態の変化により得られる報酬を表している。また、maxの付いた項は、状態St+1の下で、その時に分かっている最もQ値の高い行動Aを選択した場合のQ値にγを乗じたものになる。ここで、γは、0<γ≦1のパラメータで、割引率と呼ばれる。また、αは、学習係数で、0<α≦1の範囲とする。
上述した数式3は、試行Aの結果、返ってきた報酬rt+1を元に、状態Sにおける行動Aの価値Q(S,A)を更新する方法を表している。
この更新式は、状態Sにおける行動Aの価値Q(S,A)よりも、行動Aによる次の状態St+1における最良の行動の価値max Q(St+1,A)の方が大きければ、Q(S,A)を大きくし、逆に小さければ、Q(S,A)を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬rt+1のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。
ここで、Q学習では、すべての状態行動ペア(S,A)についてのQ(S,A)のテーブルを作成して、学習を行う方法がある。しかし、すべての状態行動ペアのQ(S,A)の値を求めるには状態数が多すぎて、Q学習が収束するのに多くの時間を要してしまう場合がある。
そこで、公知のDQN(Deep Q-Network)と呼ばれる技術を利用するようにしてもよい。具体的には、価値関数Qを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、価値関数Qを適当なニューラルネットワークで近似することにより価値Q(S,A)の値を算出するようにしてもよい。DQNを利用することにより、Q学習が収束するのに要する時間を短くすることが可能となる。なお、DQNについては、例えば、以下の非特許文献に詳細な記載がある。
<非特許文献>
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著[online]、[平成29年1月17日検索]、インターネット〈URL:http://files.davidqiu.com/research/nature14236.pdf〉
以上説明をしたQ学習を機械学習装置200が行う。具体的には、機械学習装置200は、サーボ制御装置100における、位置フィードフォワード処理部1092の伝達関数の各係数a、b(i,j≧0)の値又は速度フィードフォワード処理部1102の伝達関数の各係数c、d(i,j≧0)の値、並びに学習時の加工プログラムを実行することで取得されるサーボ制御装置100の位置偏差情報、及び位置指令を含む、指令及びフィードバック等のサーボ状態を状態Sとして、当該状態Sに係る、位置フィードフォワード処理部1092の伝達関数の各係数a、bの値又は速度フィードフォワード処理部1102の伝達関数の各係数c、dの調整を行動Aとして選択する価値Qを学習する。
機械学習装置200は、まず速度フィードフォワード処理部1102の伝達関数の各係数c、d(i,j≧0)の値の学習を行い、その後に、位置フィードフォワード処理部1092の伝達関数の各係数a、b(i,j≧0)の値の学習を行う。以下の説明では、速度フィードフォワード処理部1102の伝達関数の各係数c、d(i,j≧0)の値の学習の説明が行われるが、位置フィードフォワード処理部1092の伝達関数の各係数a、b(i,j≧0)の値の学習も同様にして行われる。
機械学習装置200は、速度フィードフォワード処理部1102の伝達関数の各係数c、dに基づいて、学習時の加工プログラムを実行することで前述した加工形状の位置A1と位置A3、及び位置B1と位置B3における、サーボ制御装置100の位置指令及び位置偏差情報を含む、指令及びフィードバック等のサーボ状態を含む状態情報Sを観測して、行動Aを決定する。機械学習装置200は、行動Aをするたびに報酬が返ってくる。機械学習装置200は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動Aを試行錯誤的に探索する。そうすることで、機械学習装置200は、速度フィードフォワード処理部1102の伝達関数の各係数c、dに基づいて、学習時の加工プログラムを実行することで取得されるサーボ制御装置100の位置指令及び位置偏差情報を含む指令、フィードバック等のサーボ状態を含む状態Sに対して、最適な行動A(すなわち、速度フィードフォワード処理部1102の最適な係数c、d)を選択することが可能となる。位置A1と位置A3、及び位置B1と位置B3とでは、X軸方向及びY軸方向のサーボモータの回転方向は変わらず、機械学習装置200は線形動作時の速度フィードフォワード処理部1102の伝達関数の各係数c、dの学習を行うことができる。
すなわち、機械学習装置200により学習された価値関数Qに基づいて、或る状態Sに係る速度フィードフォワード計算部110の伝達関数の各係数c、dに対して適用される行動Aのうち、Qの値が最大となるような行動Aを選択することで、学習時の加工プログラムを実行することで取得される位置偏差が最小になるような行動A(すなわち、速度フィードフォワード処理部1102の係数c、d)を選択することが可能となる。
図6は本発明の第1の実施形態の機械学習装置200を示すブロック図である。
上述した強化学習を行うために、図6に示すように、機械学習装置200は、状態情報取得部201、学習部202、行動情報出力部203、価値関数記憶部204、及び最適化行動情報出力部205を備える。学習部202は報酬出力部2021、価値関数更新部2022、及び行動情報生成部2023を備える。
状態情報取得部201は、サーボ制御装置100における速度フィードフォワード処理部1102の伝達関数の各係数c、dに基づいて、学習時の加工プログラムを実行することで取得されるサーボ制御装置100の位置指令及び位置偏差情報を含む指令、フィードバック等のサーボ状態を含む状態Sを、サーボ制御装置100から取得する。この状態情報Sは、Q学習における、環境状態Sに相当する。
状態情報取得部201は、取得した状態情報Sを学習部202に対して出力する。
なお、最初にQ学習を開始する時点での速度フィードフォワード計算部110の係数c、dは、予めユーザが生成するようにする。本実施形態では、ユーザが作成した速度フィードフォワード処理部1102の係数c、dの初期設定値を、強化学習により最適なものに調整する。速度フィードフォワード計算部110の2回微分器1101の係数αは固定値とし、例えばα=1とする。また、速度フィードフォワード処理部1102の係数c、dは例えば、初期設定値として、数式2のc=1、c=0、c=0、cx=0、d=1、d=0、d=0、d=0とする。また、係数c、dの次元m、nを予め設定する。すなわち、cについては0≦i≦m dについては0≦j≦nとする。
なお、位置フィードフォワード計算部109の微分器1091の係数βも固定値とし、例えばβ=1とする。また、位置フィードフォワード処理部1092の係数a、bは例えば、初期設定値として、数式1のa=1、a=0、a=0、ax=0、b=1、b=0、b=0、b=0とする。また、係数a、bの次元m、nを予め設定する。すなわち、aについては0≦i≦m bについては0≦j≦nとする。係数a、bの初期設定値は、上記速度フィードフォワード処理部1102の伝達関数の係数c、dの初期設定値と同じ値を適用してもよい。
なお、係数a、bは及び係数c、dは予め操作者が工作機械を調整している場合には、調整済の値を初期値として機械学習してもよい。
学習部202は、或る環境状態Sの下で、ある行動Aを選択する場合の価値Q(S,A)を学習する部分である。
報酬出力部2021は、或る状態Sの下で、行動Aを選択した場合の報酬を算出する部分である。ここで、状態Sにおける状態変数である位置偏差の集合(位置偏差集合)をPD(S)、行動情報A(速度フィードフォワード処理部1102の各係数c、d(i,jは0及び正の整数を示す)の修正)により状態Sから変化した状態情報S´に係る状態変数である位置偏差集合をPD(S´)で示す。また、状態Sにおける位置偏差の値を、予め設定された評価関数f(PD(S))に基づいて算出される値とする。
評価関数fとしては、例えば、
位置偏差の絶対値の積算値を算出する関数
∫|e|dt
位置偏差の絶対値に時間の重み付けをして積算値を算出する関数
∫t|e|dt
位置偏差の絶対値の2n(nは自然数)乗の積算値を算出する関数
∫e2ndt(nは自然数)
位置偏差の絶対値の最大値を算出する関数
Max{|e|}
等を適用することができる。
このとき、行動情報Aにより修正された状態情報S´に係る修正後の速度フィードフォワード計算部110に基づいて動作したサーボ制御装置100の位置偏差の値f(PD(S´))が、行動情報Aにより修正される前の状態情報Sに係る修正前の速度フィードフォワード計算部110に基づいて動作したサーボ制御装置100の位置偏差の値f(PD(S))よりも大きくなった場合に、報酬出力部2021は、報酬の値を負の値とする。
一方で、行動情報Aにより修正された状態情報S´に係る修正後の速度フィードフォワード計算部110に基づいて動作したサーボ制御装置100の位置偏差の値f(PD(S´))が、行動情報Aにより修正される前の状態情報Sに係る修正前の速度フィードフォワード計算部110に基づいて動作したサーボ制御装置100の位置偏差の値f(PD(S))よりも小さくなった場合に、報酬出力部2021は、報酬の値を正の値とする。
なお、行動情報Aにより修正された状態情報S´に係る修正後の速度フィードフォワード計算部110に基づいて動作したサーボ制御装置100の位置偏差の値f(PD(S´))が、行動情報Aにより修正される前の状態情報Sに係る修正前の速度フィードフォワード計算部110に基づいて動作したサーボ制御装置100の位置偏差の値f(PD(S))と等しい場合は、報酬出力部2021は、報酬の値をゼロとする。
また、行動Aを実行後の状態S´の位置偏差の値f(PD(S´))が、前の状態Sにおける位置偏差の値f(PD(S))より大きくなった場合の負の値としては、比率に応じて負の値を大きくするようにしてもよい。つまり位置偏差の値が大きくなった度合いに応じて負の値が大きくなるようにするとよい。逆に、行動Aを実行後の状態S´の位置偏差の値f(PD(S´))が、前の状態Sにおける位置偏差の値f(PD(S))より小さくなった場合の正の値としては、比率に応じて正の値を大きくするようにしてもよい。つまり位置偏差の値が小さくなった度合いに応じて正の値が大きくなるようにするとよい。
価値関数更新部2022は、状態Sと、行動Aと、行動Aを状態Sに適用した場合の状態S´と、上記のようにして算出された報酬の値と、に基づいてQ学習を行うことにより、価値関数記憶部204が記憶する価値関数Qを更新する。
価値関数Qの更新は、オンライン学習で行ってもよく、バッチ学習で行ってもよく、ミニバッチ学習で行ってもよい。
オンライン学習とは、或る行動Aを現在の状態Sに適用することにより、状態Sが新たな状態S´に遷移する都度、即座に価値関数Qの更新を行うという学習方法である。また、バッチ学習とは、或る行動Aを現在の状態Sに適用することにより、状態Sが新たな状態S´に遷移することを繰り返すことにより、学習用のデータを収集し、収集した全ての学習用データを用いて、価値関数Qの更新を行うという学習方法である。更に、ミニバッチ学習とは、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに価値関数Qの更新を行うという学習方法である。
行動情報生成部2023は、現在の状態Sに対して、Q学習の過程における行動Aを選択する。行動情報生成部2023は、Q学習の過程において、サーボ制御装置100の速度フィードフォワード処理部1102の各係数c、dを修正する動作(Q学習における行動Aに相当)を行わせるために、行動情報Aを生成して、生成した行動情報Aを行動情報出力部203に対して出力する。より具体的には、行動情報生成部2023は、例えば、状態Sに含まれる速度フィードフォワード計算部の各係数に対して行動Aに含まれる、速度フィードフォワード処理部1102の各係数c、dをインクレメンタル(例えば0.01程度)に加算又は減算させる。
そして、行動情報生成部2023は、速度フィードフォワード処理部1102の各係数c、dの増加又は減少を適用して、状態S´に遷移して、プラスの報酬(正の値の報酬)が返った場合、次の行動A´としては、速度フィードフォワード処理部1102の各係数c、dに対して、前回のアクションと同様にインクレメンタルに加算又は減算させる等、位置偏差の値がより小さくなるような行動A´を選択する方策を取るようにしてもよい。
また、逆に、マイナスの報酬(負の値の報酬)が返った場合、行動情報生成部2023は、次の行動A´としては、例えば、速度フィードフォワード計算部の各係数c、dに対して、前回のアクションとは逆にインクレメンタルに減算又は加算させる等、位置偏差が前回の値よりも小さくなるような行動A´を選択する方策を取るようにしてもよい。
また、行動情報生成部2023は、現在の推定される行動Aの価値の中で、最も価値Q(S,A)の高い行動A´を選択するグリーディ法や、ある小さな確率εでランダムに行動A´選択し、それ以外では最も価値Q(S,A)の高い行動A´を選択するεグリーディ法といった公知の方法により、行動A´を選択する方策を取るようにしてもよい。
行動情報出力部203は、学習部202から出力される行動情報Aをサーボ制御装置100に対して送信する部分である。サーボ制御装置100は上述したように、この行動情報に基づいて、現在の状態S、すなわち現在設定されている速度フィードフォワード処理部1102の各係数c、dを微修正することで、次の状態S´(すなわち修正された、速度フィードフォワード処理部1102の各係数)に遷移する。
価値関数記憶部204は、価値関数Qを記憶する記憶装置である。価値関数Qは、例えば状態S、行動A毎にテーブル(以下、行動価値テーブルと呼ぶ)として格納してもよい。価値関数記憶部204に記憶された価値関数Qは、価値関数更新部2022により更新される。また、価値関数記憶部204に記憶された価値関数Qは、他の機械学習装置200との間で共有されるようにしてもよい。価値関数Qを複数の機械学習装置200で共有するようにすれば、各機械学習装置200にて分散して強化学習を行うことが可能となるので、強化学習の効率を向上させることが可能となる。
最適化行動情報出力部205は、価値関数更新部2022がQ学習を行うことにより更新した価値関数Qに基づいて、価値Q(S,A)が最大となる動作を速度フィードフォワード計算部110に行わせるための行動情報A(以下、「最適化行動情報」と呼ぶ)を生成する。
より具体的には、最適化行動情報出力部205は、価値関数記憶部204が記憶している価値関数Qを取得する。この価値関数Qは、上述したように価値関数更新部2022がQ学習を行うことにより更新したものである。そして、最適化行動情報出力部205は、価値関数Qに基づいて、行動情報を生成し、生成した行動情報をサーボ制御装置100(速度フィードフォワード計算部110の速度フィードフォワード処理部1102)に対して出力する。この最適化行動情報には、行動情報出力部203がQ学習の過程において出力する行動情報と同様に、速度フィードフォワード処理部1102の各係数c、dを修正する情報が含まれる。
サーボ制御装置100では、この行動情報に基づいて速度フィードフォワード処理部1102の各係数c、dが修正される。
機械学習装置200は、以上の動作で、速度フィードフォワード処理部1102の係数c、dの最適化を行った後に、速度フィードフォワード処理部1102の係数の学習と最適化と同様に、位置フィードフォワード処理部1092の係数a、bの学習及び最適化を行い、位置偏差の値を低減するように動作することができる。
以上のように、本発明に係る機械学習装置200を利用することで、サーボ制御装置100の速度フィードフォワード計算部110及び位置フィードフォワード計算部109のパラメータ調整を簡易化することができる。
本発明者らは、学習時の加工プログラムにより指定される加工形状を八角形として、強化学習を用いた機械学習装置200により、速度フィードフォワード処理部1102の係数c、dの最適化を行った後に、位置フィードフォワード処理部1092の係数a、bの最適化を行い、位置偏差の変動範囲を調べた。また、比較のために、学習時の加工プログラムにより指定される加工形状を八角形として、強化学習を用いた機械学習装置200により、位置フィードフォワード処理部1092の係数a、bの最適化を行った後に、速度フィードフォワード処理部1102の係数c、dの最適化を行い、位置偏差の変動範囲を調べた。その結果、速度フィードフォワード処理部1102の係数c、dの最適化を行った後に、位置フィードフォワード処理部1092の係数a、bの最適化を行う方が、機械学習の収束時間を短縮化でき、また、より位置偏差の変動を抑制して高精度化を図ることができることが分かった。
以上、サーボ制御装置100、機械学習装置200に含まれる機能ブロックについて説明した。
これらの機能ブロックを実現するために、サーボ制御装置100、及び機械学習装置200のそれぞれは、CPU(Central Processing Unit)等の演算処理装置を備える。また、サーボ制御装置100、及び機械学習装置200のそれぞれは、アプリケーションソフトウェアやOS(Operating System)等の各種の制御用プログラムを格納したHDD(Hard Disk Drive)等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのRAM(Random Access Memory)といった主記憶装置も備える。
そして、サーボ制御装置100、及び機械学習装置200のそれぞれにおいて、演算処理装置が補助記憶装置からアプリケーションソフトウェアやOSを読み込み、読み込んだアプリケーションソフトウェアやOSを主記憶装置に展開させながら、これらのアプリケーションソフトウェアやOSに基づいた演算処理を行なう。また、この演算結果に基づいて、各装置が備える各種のハードウェアを制御する。これにより、本実施形態の機能ブロックは実現される。つまり、本実施形態は、ハードウェアとソフトウェアが協働することにより実現することができる。
機械学習装置200については機械学習に伴う演算量が多いため、例えば、パーソナルコンピュータにGPU(Graphics Processing Units)を搭載し、GPGPU(General-Purpose computing on Graphics Processing Units)と呼ばれる技術により、GPUを機械学習に伴う演算処理に利用するようにすると高速処理できるようになるのでよい。更には、より高速な処理を行うために、このようなGPUを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。
次に、図7のフローチャートを参照して本実施形態におけるQ学習時の機械学習装置200の動作について説明をする。
ステップS11において、状態情報取得部201がサーボ制御装置100から状態情報Sを取得する。取得した状態情報は、価値関数更新部2022や行動情報生成部2023に対して出力される。上述したように、この状態情報Sは、Q学習における状態に相当する情報であり、ステップS11時点での、速度フィードフォワード処理部1102の各係数c、dが含まれる。こうして、速度フィードフォワード計算部110から係数が初期値であるときの、所定の送り速度且つ円の加工形状に対応する位置偏差の集合PD(S)が取得される。
なお、前述したように、初期状態Sにおける速度フィードフォワード処理部1102の係数c、dは例えば、c=1、c=0、c=0、c=0、d=0、d=0、d=0、d=0とする。
最初にQ学習を開始する時点での減算器102から状態Sにおける位置偏差の値PD(S)は、学習時の加工プログラムでサーボ制御装置100を動作させることで得られる。位置指令作成部101は、加工プログラムにより指定された所定の加工形状で、例えば、八角形の加工形状で、位置指令を順次出力する。例えば、八角形の加工形状に対応する位置指令値が位置指令作成部101から出力され、その位置指令値が減算器102、位置フィードフォワード計算部109、及び速度フィードフォワード計算部110及び機械学習装置200に出力される。減算器102は、前述した加工形状の位置A1と位置A3、及び位置B1と位置B3における、位置指令値と積分器108から出力される検出位置との差を位置偏差PD(S)として機械学習装置200に出力する。なお、機械学習装置200において、前述した加工形状の位置A1と位置A3、及び位置B1と位置B3における、位置指令値と積分器108から出力される検出位置との差を位置偏差PD(S)として抽出するようにしてもよい。
ステップS12において、行動情報生成部2023は新たな行動情報Aを生成し、生成した新たな行動情報Aを、行動情報出力部203を介してサーボ制御装置100に対して出力する。行動情報生成部2023は前述した方策に基づいて、新たな行動情報Aを出力する。なお、行動情報Aを受信したサーボ制御装置100は、受信した行動情報に基づいて現在の状態Sに係る速度フィードフォワード処理部1102の各係数c、dを修正した状態S´により、サーボモータ300を含む工作機械を駆動させる。上述したように、この行動情報は、Q学習における行動Aに相当するものである。
ステップS13において、状態情報取得部201は、減算器102から新たな状態S´における位置偏差PD(S´)、及び速度フィードフォワード処理部1102から係数c、dを取得する。こうして、状態情報取得部201は、速度フィードフォワード処理部1102から状態S´における係数c、dであるときの、八角形の加工形状(具体的には、前述した加工形状の位置A1と位置A3、及び位置B1と位置B3)に対応する位置偏差の集合PD(S´)を取得する。取得した状態情報は、報酬出力部2021に対して出力される。
ステップS14において、報酬出力部2021は、状態S´における位置偏差の値f(PD(S´))と状態Sにおける位置偏差の値f(PD(S))との大小関係を判断し、f(PD(S´))>f(PD(S))の場合には、ステップS15において、報酬を負の値とする。f(PD(S´))<f(PD(S))の場合には、ステップS16において、報酬を正の値とする。f(PD(S´))=f(PD(S))の場合には、ステップS17において、報酬をゼロとする。なお、報酬の負の値、正の値について重みづけを行うようにしてもよい。
ステップS15、ステップS16及びステップS17の何れかが終了すると、ステップS18において、この何れかのステップにて算出された報酬の値に基づいて、価値関数更新部2022が、価値関数記憶部204に記憶している価値関数Qを更新する。そして、再度ステップS11に戻り、上述した処理を繰り返すことにより、価値関数Qは適切な値に収束していく。なお、上述した処理を、所定回数繰り返したことや、所定時間繰り返したことを条件として処理を終了するようにしてもよい。
なお、ステップS18はオンライン更新を例示しているが、オンライン更新に替えてバッチ更新又はミニバッチ更新に置き換えてもよい。
以上、図7を参照して説明した動作により、本実施形態では、機械学習装置200を利用することで、速度フィードフォワード処理部1102の係数c、dの調整のための、適切な価値関数を得ることができ、速度フィードフォワード処理部1102の係数c、dの最適化を簡易化することができる、という効果を奏する。
次に、図8のフローチャートを参照して、最適化行動情報出力部205による最適化行動情報の生成時の動作について説明をする。
まず、ステップS21において、最適化行動情報出力部205は、価値関数記憶部204に記憶している価値関数Qを取得する。価値関数Qは、上述したように価値関数更新部2022がQ学習を行うことにより更新したものである。
ステップS22において、最適化行動情報出力部205は、この価値関数Qに基づいて、最適化行動情報を生成し、生成した最適化行動情報をサーボ制御装置100の速度フィードフォワード処理部1102に対して出力する。
機械学習装置200は、以上の動作で、速度フィードフォワード処理部1102の係数c、dの最適化を行った後に、同様な動作で、位置フィードフォワード処理部1092の係数a、bの学習及び最適化を行う。
また、図8を参照して説明した動作により、本実施形態では、機械学習装置200により学習することにより求められる価値関数Qに基づいて、最適化行動情報を生成し、サーボ制御装置100が、この最適化行動情報に基づいて、現在設定されている速度フィードフォワード処理部1102の係数c、dの調整を簡易化するとともに、位置偏差の値を低減することができる。また、速度フィードフォワードをより高次元のものに初期設定して、機械学習装置200により学習することで、位置偏差の値をさらに低減することができる。位置フィードフォワード処理部1092の係数a、bの調整についても速度フィードフォワード処理部1102の係数c、dの調整と同様に、位置偏差の値を低減することができる。
第1の実施形態においては、報酬出力部2021は、報酬の値を、状態Sにおける位置偏差PD(S)を入力として予め設定された評価関数f(PD(S))に基づいて算出される状態Sの位置偏差の値f(PD(S))と、状態S´における位置偏差PD(S´)を入力として評価関数fに基づいて算出される状態S´の位置偏差の値f(PD(S´))とを比較することで算出した。
しかし、報酬の値の算出にあたっては位置偏差以外の他の要素を加えてもよい。
例えば、機械学習装置200に、減算器102の出力となる位置偏差の他に、加算器104の出力となる位置フォワード制御された速度指令、位置フォワード制御された速度指令と速度フィードバックとの差、及び加算器107の出力となる位置フォワード制御されたトルク指令等の少なくとも1つが加えられてもよい。
(第2の実施形態)
第1の実施形態では、位置フィードフォワード計算部109と、速度フィードフォワード計算部110とを有するサーボ制御装置に対する機械学習装置について説明した。本実施形態は、位置フィードフォワード計算部及び速度フィードフォワード計算部に加えて、電流フォードフォワード計算部を有するサーボ制御装置に対する機械学習装置について説明する。
図9は、本実施形態に係るサーボ制御装置の一部を示すブロック図である。図9に示すように、本実施形態のサーボ制御装置は図1に示したサーボ制御装置100に、図9の破線領域で示す、減算器111、電流制御部112、加算器113、及び電流フィードフォワード計算部114を追加している。
減算器111は、加算器107から出力された、速度フィードフォワード制御されたトルク指令値と、電流フィードバックされた電流検出値との差をとり、その差を電流偏差として電流制御部112に出力する。電流制御部112は電流偏差に基づいて電流指令値を求め、その電流指令値を加算器113に出力する。
電流フィードフォワード計算部114は、位置指令値に基づいて電流指令値を求め、加算器113に出力する。加算器113は、電流指令値と電流フィードフォワード計算部114の出力値とを加算して、フィードフォワード制御された電流指令値としてサーボモータ300に出力してサーボモータ300を駆動する。
機械学習装置200は、速度フィードフォワード処理部1102の各係数c、dと同様に、電流フィードフォワード計算部114の伝達関数の係数を学習する。
本実施形態では、サーボモータ300から見た場合、電流指令はトルク指令よりも内側の指令となり、トルク指令は速度指令よりも内側の指令となる。そして、サーボモータ300から見た場合、内側から外側に向かって、電流フィードフォワード制御、速度フィードフォワード制御、位置フィードフォワード制御はその並び順で配置される。このため、第1の実施形態と同様に、速度フィードフォワード計算部の係数の最適化に係る学習は位置フィードフォワード計算部の係数の最適化に係る学習より先に行われることが好ましい。さらに、電流フィードフォワード制御は速度フィードフォワード制御より内側(インナー)に配置されるため、電流フィードフォワード計算部の係数の最適化に係る学習は速度フィードフォワード計算部の係数の最適化に係る学習より先に行われることが好ましい。ただし、電流フィードフォワード制御が位置偏差に与える影響が小さければ、速度フィードフォワード計算部の係数の最適化に係る学習の後に電流フィードフォワード計算部の係数の最適化に係る機械学習を行い、その後に、位置フィードフォワード計算部の係数の最適化に係る学習を行ってもよい。この場合も、速度フィードフォワード制御に関する学習は位置フィードフォワード制御に関する学習より先に行われる形態の一例となる。
以上説明した実施形態においては、機械学習装置200は、X軸方向及びY軸方向のサーボモータの回転方向が変わらない線形動作時の、位置フィードフォワード計算部と速度フィードフォワード計算部の係数の最適化に係る学習、及び位置フィードフォワード計算部と速度フィードフォワード計算部と電流フィードフォワード計算部の係数の最適化に係る学習について説明した。
しかし、本発明は、線形動作時の学習に限定されず、非線形動作の学習に適用することもできる。例えば、バックラッシュ補正のために、位置フィードフォワード計算部と速度フィードフォワード計算部の係数の最適化に係る学習、又は位置フィードフォワード計算部と速度フィードフォワード計算部と電流フィードフォワード計算部の最適化に係る学習フィードフォワード計算部の係数の最適化に係る学習を行う場合、前述した加工形状の位置A2と位置A4、及び位置B2と位置B4における、位置指令値と積分器108から出力される検出位置との差を位置偏差として抽出して、これを判定情報として報酬を与えて強化学習することができる。
位置A2と位置A4、及び位置B2と位置B4とでは、Y軸方向又はX軸方向のサーボモータの回転方向は反転して非線形動作となってバックラッシが生じ、機械学習装置は非線形動作時のフィードフォワード処理部の伝達関数の係数の学習を行うことができる。
上記のサーボ制御装置のサーボ制御部及び機械学習装置に含まれる各構成部は、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記のサーボ制御装置に含まれる各構成部のそれぞれの協働により行なわれるサーボ制御方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えば、フレキシブルディスク、ハードディスクドライブ)、光磁気記録媒体(例えば、光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。
上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。
<サーボ制御装置が機械学習装置を備える変形例>
上述した実施形態では、機械学習装置200を、サーボ制御装置100とは別体の装置により構成したが、機械学習装置200の機能の一部又は全部をサーボ制御装置100により実現するようにしてもよい。
<システム構成の自由度>
上述した実施形態では、機械学習装置200とサーボ制御装置100とが1対1の組として通信可能に接続されているが、例えば1台の機械学習装置200が複数のサーボ制御装置100とネットワーク400を介して通信可能に接続され、各サーボ制御装置100の機械学習を実施するようにしてもよい。
その際、機械学習装置200の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、機械学習装置200の各機能を実現してもよい。
また、複数の同じ型名、同一仕様、又は同一シリーズのサーボ制御装置100−1〜100−nとそれぞれ対応する複数の機械学習装置200−1〜200−nがあった場合に、各機械学習装置200−1〜200−nにおける学習結果を共有するように構成するようにしてもよい。そうすることで、より最適なモデルを構築することが可能となる。
10 サーボ制御システム
100 サーボ制御装置
101 位置指令作成部
102 減算器
103 位置制御部
104 加算器
105 減算器
106 速度制御部
107 加算器
108 積分器
109 位置フィードフォワード計算部
110 速度フィードフォワード計算部
200 機械学習装置
201 状態情報取得部
202 学習部
203 行動情報出力部
204 価値関数記憶部
205 最適化行動情報出力部
300 モータ
400 ネットワーク

Claims (11)

  1. 少なくとも二つ以上のフィードフォワード計算部が多重ループを構成するフィードフォワード制御を用いて、工作機械又は産業機械の軸を駆動するサーボモータを制御するサーボ制御装置に対して、前記少なくとも二つ以上のフィードフォワード計算部の係数の最適化に係る機械学習を行う機械学習装置であって、
    前記少なくとも二つのフィードフォワード計算部のうちの一のフィードフォワード計算部により計算されるフィードフォワード項により補正される一つの指令が、前記少なくとも二つのフィードフォワード計算部のうちの他のフィードフォワード計算部により計算されるフィードフォワード項により補正される他の指令よりも、前記サーボモータから見て内側の指令である場合、
    先ず、前記一のフィードフォワード計算部の係数の最適化に係る機械学習を行い、その次に、前記一のフィードフォワード計算部の係数の最適化に係る機械学習により得られる前記一のフィードフォワード計算部の最適化された係数に基づいて、前記他のフィードフォワード計算部の係数の最適化に係る機械学習を行い、
    前記多重ループの外に設けられた機械学習装置。
  2. 前記少なくとも二つ以上のフィードフォワード計算部は、位置指令に基づいて速度指令の第1のフィードフォワード項を計算する位置フィードフォワード計算部、位置指令に基づいてトルク指令の第2のフィードフォワード項を計算する速度フィードフォワード計算部、及び位置指令に基づいて電流指令の第3のフィードフォワード項を計算する電流フィードフォワード計算部のうちの少なくとも二つのフィードフォワード計算部であり、
    前記一の指令及び前記他の指令は、前記速度指令、前記トルク指令及び前記電流指令のうちの二つの指令であり、
    前記サーボモータは前記トルク指令又は前記電流指令により駆動される、請求項1に記載の機械学習装置。
  3. 前記一のフィードフォワード計算部は前記速度フィードフォワード計算部であり、前記他のフィードフォワード計算部は前記位置フィードフォワード計算部である、請求項2に記載の機械学習装置。
  4. 前記サーボ制御装置は、前記位置フィードフォワード計算部、前記速度フィードフォワード計算部、及び前記電流フィードフォワード計算部を備え、
    前記一のフィードフォワード計算部は前記速度フィードフォワード計算部又は前記電流フィードフォワード計算部であり、前記他のフィードフォワード計算部は前記位置フィードフォワード計算部である、請求項2に記載の機械学習装置。
  5. 前記他のフィードフォワード計算部の伝達関数の係数の初期設定値は、前記一のフィードフォワード計算部の伝達関数の係数の初期設定値と同じ値とする、請求項1から4のいずれか1項に記載の機械学習装置。
  6. 所定の加工プログラムを前記サーボ制御装置に実行させることにより、少なくとも位置偏差を含むサーボ状態と、前記一又は他のフィードフォワード計算部の伝達関数の係数の組み合わせと、を含む状態情報を、前記サーボ制御装置から取得する状態情報取得部と、
    前記状態情報に含まれる前記係数の組み合わせの調整情報を含む行動情報を前記サーボ制御装置に出力する行動情報出力部と、
    前記状態情報に含まれる前記位置偏差に基づく、強化学習における報酬の値を出力する報酬出力部と、
    前記報酬出力部により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する価値関数更新部と、
    を備える請求項1から5のいずれか1項に記載の機械学習装置。
  7. 前記報酬出力部は、前記位置偏差の絶対値に基づいて前記報酬の値を出力する請求項6に記載の機械学習装置。
  8. 前記価値関数更新部により更新された価値関数に基づいて、前記一又は他のフィードフォワード計算部の伝達関数の係数の組み合わせを生成して出力する最適化行動情報出力部を備えた請求項6又は7に記載の機械学習装置。
  9. 請求項1から請求項8のいずれか1項に記載の機械学習装置と、少なくとも二つ以上のフィードフォワード計算部が多重ループを構成するフィードフォワード制御を用いて、工作機械又は産業機械の軸を駆動するサーボモータを制御するサーボ制御装置と、を備えたサーボ制御システム。
  10. 請求項1から請求項8のいずれか1項に記載の機械学習装置と、少なくとも二つ以上のフィードフォワード計算部と、を備え、
    前記少なくとも二つ以上のフィードフォワード計算部が多重ループを構成するフィードフォワード制御を用いて、工作機械又は産業機械の軸を駆動するサーボモータを制御するサーボ制御装置。
  11. 少なくとも二つ以上のフィードフォワード計算部が多重ループを構成するフィードフォワード制御を用いて、工作機械又は産業機械の軸を駆動するサーボモータを制御するサーボ制御装置に対して、前記少なくとも二つ以上のフィードフォワード計算部の係数の最適化に係る機械学習を行い、前記多重ループの外に設けられた機械学習装置の機械学習方法であって、
    前記少なくとも二つのフィードフォワード計算部のうちの一のフィードフォワード計算部により計算されるフィードフォワード項により補正される一つの指令が、前記少なくとも二つのフィードフォワード計算部のうちの他のフィードフォワード計算部により計算されるフィードフォワード項により補正される他の指令よりも、前記サーボモータから見て内側の指令である場合、
    先ず、前記一のフィードフォワード計算部の係数の最適化に係る機械学習を行い、その次に、前記一のフィードフォワード計算部の係数の最適化に係る機械学習により得られる前記一のフィードフォワード計算部の最適化された係数に基づいて、前記他のフィードフォワード計算部の係数の最適化に係る機械学習を行う機械学習方法。
JP2018051219A 2018-03-19 2018-03-19 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 Active JP6748135B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2018051219A JP6748135B2 (ja) 2018-03-19 2018-03-19 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
US16/272,099 US11023827B2 (en) 2018-03-19 2019-02-11 Machine learning device, servo control device, servo control system, and machine learning method for suppressing variation in position error using feedforward control
DE102019201758.4A DE102019201758A1 (de) 2018-03-19 2019-02-12 Vorrichtung für maschinelles lernen; vorrichtung zurservosteuerung; system zur servosteuerung; undverfahren für maschinelles lernen
CN201910197184.8A CN110286645B (zh) 2018-03-19 2019-03-15 机器学习装置、伺服控制装置、伺服控制***以及机器学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018051219A JP6748135B2 (ja) 2018-03-19 2018-03-19 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法

Publications (2)

Publication Number Publication Date
JP2019164484A JP2019164484A (ja) 2019-09-26
JP6748135B2 true JP6748135B2 (ja) 2020-08-26

Family

ID=67774682

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018051219A Active JP6748135B2 (ja) 2018-03-19 2018-03-19 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法

Country Status (4)

Country Link
US (1) US11023827B2 (ja)
JP (1) JP6748135B2 (ja)
CN (1) CN110286645B (ja)
DE (1) DE102019201758A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7229686B2 (ja) * 2017-10-06 2023-02-28 キヤノン株式会社 制御装置、リソグラフィ装置、測定装置、加工装置、平坦化装置及び物品製造方法
JP6536978B1 (ja) * 2018-03-15 2019-07-03 オムロン株式会社 学習装置、学習方法、及びそのプログラム
JP6748135B2 (ja) * 2018-03-19 2020-08-26 ファナック株式会社 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
JP7176645B2 (ja) * 2019-10-11 2022-11-22 株式会社タダノ 制御システムおよびクレーン
JP2021070101A (ja) * 2019-10-31 2021-05-06 セイコーエプソン株式会社 制御方法および算出装置
JP7357537B2 (ja) * 2019-12-24 2023-10-06 本田技研工業株式会社 制御装置、制御装置の制御方法、プログラム、情報処理サーバ、情報処理方法、並びに制御システム
US20240058950A1 (en) 2021-03-02 2024-02-22 Fanuc Corporation Adjustment assistance device, control system, and adjustment assistance method

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0285902A (ja) 1988-09-22 1990-03-27 Mitsubishi Electric Corp フィードフォワード制御装置
JP2762364B2 (ja) * 1989-03-20 1998-06-04 ファナック株式会社 サーボモータのフィードフォワード制御方法
JPH03289385A (ja) * 1990-04-03 1991-12-19 Fanuc Ltd モータ制御のゲイン調整方法
JP2923000B2 (ja) 1990-07-27 1999-07-26 株式会社日立製作所 サーボ制御装置
JPH07129535A (ja) * 1993-11-08 1995-05-19 Mitsubishi Electric Corp 学習制御方法
JP2607838B2 (ja) * 1994-03-30 1997-05-07 東芝機械株式会社 射出成形機におけるバレル温度制御装置
US5771476A (en) * 1995-12-29 1998-06-23 Dbb Fuel Cell Engines Gmbh Power control system for a fuel cell powered vehicle
JP3633095B2 (ja) * 1996-04-22 2005-03-30 富士通株式会社 光学的記憶装置
US6556980B1 (en) * 1998-08-28 2003-04-29 General Cyberation Group, Inc. Model-free adaptive control for industrial processes
US6965578B1 (en) * 1998-09-30 2005-11-15 Conexant Systems, Inc. Echo canceling method and apparatus for digital data communication system
KR100855798B1 (ko) * 2000-05-15 2008-09-01 가부시키가이샤 야스카와덴키 위치결정 서보콘트롤러
KR100408288B1 (ko) * 2001-06-20 2003-12-03 삼성전자주식회사 편심 보상을 위한 디스크 드라이브 서보 시스템 및 외란보상 방법
JP2003084804A (ja) 2001-09-10 2003-03-19 Yaskawa Electric Corp 最適指令作成装置
JP4391218B2 (ja) * 2003-02-20 2009-12-24 三菱電機株式会社 サーボ制御装置
JP4697139B2 (ja) * 2004-07-27 2011-06-08 株式会社安川電機 サーボ制御装置
US7451004B2 (en) * 2005-09-30 2008-11-11 Fisher-Rosemount Systems, Inc. On-line adaptive model predictive control in a process control system
CN100430844C (zh) 2005-10-21 2008-11-05 浙江工业大学 多道次拉拔设备的收卷机控制装置
US8014881B2 (en) * 2007-02-15 2011-09-06 Asml Netherlands B.V. Lithographic apparatus and device manufacturing method
JP2010033172A (ja) 2008-07-25 2010-02-12 Yaskawa Electric Corp フィードフォワード信号を用いたディジタルサーボ制御装置
JP5566469B2 (ja) * 2010-10-27 2014-08-06 株式会社牧野フライス製作所 数値制御方法
JP5750657B2 (ja) * 2011-03-30 2015-07-22 株式会社国際電気通信基礎技術研究所 強化学習装置、制御装置、および強化学習方法
JP5772345B2 (ja) * 2011-07-25 2015-09-02 富士通株式会社 パラメータ設定装置、コンピュータプログラム及びパラメータ設定方法
US8902535B1 (en) * 2012-12-12 2014-12-02 Western Digital Technologies, Inc. Disk drive adapting feed-forward compensation using iterative learning control over segments of seek length
JP5899547B2 (ja) 2013-07-09 2016-04-06 パナソニックIpマネジメント株式会社 電動機の制御装置
JP5897645B2 (ja) 2014-06-05 2016-03-30 ファナック株式会社 機械先端点のたわみを低減するサーボ制御装置
DE102014212747A1 (de) * 2014-07-01 2016-01-07 Siemens Aktiengesellschaft Interaktives Assistenzsystem und Verfahren zur rechnergestützten Steuerungsoptimierung für ein technisches System
US10133246B2 (en) * 2014-09-12 2018-11-20 Canon Kabushiki Kaisha Position control device and position control method, optical device, and image pickup apparatus
JP6106226B2 (ja) 2015-07-31 2017-03-29 ファナック株式会社 ゲインの最適化を学習する機械学習装置及び機械学習装置を備えた電動機制御装置並びに機械学習方法
JP6193961B2 (ja) * 2015-11-30 2017-09-06 ファナック株式会社 機械の送り軸の送りの滑らかさを最適化する機械学習装置および方法ならびに該機械学習装置を備えたモータ制御装置
JP6604198B2 (ja) * 2015-12-25 2019-11-13 株式会社ジェイテクト モータ制御装置
EP3437420B1 (en) * 2016-03-30 2020-05-20 Telefonaktiebolaget LM Ericsson (PUBL) Control link definition in networked control system
JP6490127B2 (ja) * 2017-03-15 2019-03-27 ファナック株式会社 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
JP6474449B2 (ja) * 2017-04-07 2019-02-27 ファナック株式会社 調整装置及び調整方法
CN107276465B (zh) 2017-06-26 2019-06-28 桂林电子科技大学 一种转矩-电流神经网络开关磁阻电机控制方法与***
JP6538766B2 (ja) * 2017-07-18 2019-07-03 ファナック株式会社 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法
CN111095132B (zh) * 2017-09-08 2023-04-18 三菱电机株式会社 伺服控制装置
JP6680756B2 (ja) * 2017-12-26 2020-04-15 ファナック株式会社 制御装置及び機械学習装置
US10439511B2 (en) * 2018-02-03 2019-10-08 S&C Electric Company Three phase inverter grid voltage feed forward method under unbalanced operating conditions
JP6748135B2 (ja) * 2018-03-19 2020-08-26 ファナック株式会社 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
US10787984B2 (en) * 2018-08-08 2020-09-29 Caterpillar Inc. Power system optimization calibration
JP6860541B2 (ja) * 2018-10-29 2021-04-14 ファナック株式会社 出力装置、制御装置、及び評価関数値の出力方法

Also Published As

Publication number Publication date
US20190287007A1 (en) 2019-09-19
DE102019201758A1 (de) 2019-09-19
US11023827B2 (en) 2021-06-01
CN110286645B (zh) 2021-07-23
JP2019164484A (ja) 2019-09-26
CN110286645A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
JP6490127B2 (ja) 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
JP6748135B2 (ja) 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
CN109274314B (zh) 机器学习装置、伺服电动机控制装置、伺服电动机控制***以及机器学习方法
JP6499720B2 (ja) 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
US10824121B2 (en) Machine learning device, servo motor controller, servo motor control system, and machine learning method
JP6740277B2 (ja) 機械学習装置、制御装置、及び機械学習方法
JP6474456B2 (ja) 機械学習装置、サーボ制御システム及び機械学習方法
JP6474449B2 (ja) 調整装置及び調整方法
JP6740278B2 (ja) 機械学習装置、制御装置、及び機械学習方法
JP6784722B2 (ja) 出力装置、制御装置、及び評価関数値の出力方法
JP6740279B2 (ja) 調整装置及び調整方法
JP6841801B2 (ja) 機械学習装置、制御システム及び機械学習方法
US11914333B2 (en) Machine learning device, servo control device, servo control system, and machine learning method
JP6978452B2 (ja) 機械学習装置、制御装置、及び機械学習の探索範囲の設定方法
CN111722530B (zh) 机器学习装置、控制***以及机器学习方法
JP6740263B2 (ja) 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法
WO2022030346A1 (ja) 制御支援装置、制御システム及び制御支援方法
JP6740290B2 (ja) 機械学習装置、制御装置、及び機械学習方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190710

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20191021

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20191107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200303

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200714

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200806

R150 Certificate of patent or registration of utility model

Ref document number: 6748135

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150