JP7275389B2

JP7275389B2 - サーボ制御装置

Info

Publication number: JP7275389B2
Application number: JP2022528376A
Authority: JP
Inventors: 敏章木全; 剛佐藤; 剛志津田; 秀之増井; 潤丸田; 滉稀中根
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2023-05-17
Anticipated expiration: 2040-06-05
Also published as: WO2021245916A1; CN115917445A; DE112020007299T5; JPWO2021245916A1

Description

本開示は、工作機械等の制御対象の軸を駆動するサーボモータを制御するサーボ制御装置に関する。

一般に、工作機械、ロボットおよび産業機械等の制御対象を駆動するモータを駆動制御するサーボ制御装置では、指令値生成装置から指令された位置および速度を実現するようにモータへの駆動電流の制御が行われている。指令値生成装置の一例は、数値制御（Numerical Control：ＮＣ）装置またはモーションコントローラである。特に、加工プログラムにて指示された移動軌跡上を加工工具が移動する場合、位置を精緻に管理しながらモータの駆動制御が行われる。

特許文献１には、ワークの特徴量および製品を生産する環境の属性値を入力データとして、予測モデルによって、ワークから製品を生産する生産設備への指令値を予測する制御装置が開示されている。特許文献１に記載の制御装置では、予測モデルの演算処理を開始した後に、予測モデルの演算処理が完了するまでの残処理時間に基づいて、予測モデルから得られる出力値に基づく指令値の決定が、生産装置による生産の動作を制御する制御タイミングに間に合うかが判定される。指令値の決定が制御タイミングに間に合う場合には、予測モデルの演算処理の完了によって得られる出力値に基づいて、生産装置への指令値が決定される。一方、指令値の決定が制御タイミングに間に合わない場合には、予測モデルの演算処理が中止され、中止された結果が予測の結果として信頼できるかが判定され、信頼できる場合に中止した結果の値に基づいて生産装置への指令値が決定される。

特開２０１９－１７９４６８号公報

ところで、モータの駆動制御では、センサ等で取得したモータの位置および速度といったデータに基づいて指令値の補正量を推定するモデルを使って、指令値を補正する技術が知られている。しかし、モデルがモータの駆動制御で生じる現象を十分に考慮できていないと、補正効果が全く表れなかったり、あるいは過補正となってしまったりして、補正によっては結果が却って悪化することがあった。また、モデルへの入力が外乱等で乱れた場合または未知の入力があった場合に想定外の補正をする可能性もあった。そこで、モデルで推定した値がどの程度信頼できるか、すなわち予測の結果の不確実性を判断し、制御に活用することが考えられる。しかしながら、特許文献１に記載の技術における信頼度は、予測モデルで最後まで演算した結果と比較した場合の信頼度であり、予測モデルから得られる予測結果の不確実性を判定するための信頼度ではない。つまり、特許文献１に記載の技術では、予測モデルで最後まで演算した場合の結果は、予測の不確実性を考慮することなく、指令値の生成に使用される。このため、モータの動作の状態に基づいて補正量を推定するモデルを使用して指令値を補正する場合に、補正量の推定時点において推定した補正量がどの程度信頼できるかを判断することができる技術が求められていた。

本開示は、上記に鑑みてなされたものであって、補正量の推定時点において、補正量の推定時点以降の推定した補正量がどの程度信頼できるかを判断することができるサーボ制御装置を得ることを目的とする。

上述した課題を解決し、目的を達成するために、本開示に係るサーボ制御装置は、周期的に入力されるサーボモータの動作を指示する指令値に基づいてサーボモータの動作を制御する。サーボ制御装置は、補正部と、判断部と、サーボアンプと、を備える。補正部は、指令値とサーボモータの動作の実測結果とに基づいて、指令値を補正した指令値である候補指令値と、候補指令値の信頼度を評価する指標である信頼度指標と、を決定し、サーボモータを制御するための補正後の指令値である補正後指令値を出力する。判断部は、候補指令値のサーボモータの制御への適用の許可または不許可を、信頼度指標に基づいて判断し、判断結果を補正部に出力する。サーボアンプは、補正後指令値に基づいてサーボモータを制御する。補正部は、予測部と、補正選択部と、を有する。予測部は、現在または未来のサーボモータの動作の状態量を予測する予測モデルを用いて、指令値とサーボモータの動作の実測結果とを入力として、候補指令値を決定する時点以降の時点におけるサーボモータの動作の状態量を予測した予測状態量を予測し、予測状態量の信頼度を評価する。補正選択部は、予測状態量に基づいて候補指令値を決定する。予測部は、予測状態量の信頼度を信頼度指標とする。補正部の補正選択部は、判断結果に基づいて候補指令値を補正後指令値としてサーボアンプに出力する。

本開示に係るサーボ制御装置は、補正量の推定時点において、補正量の推定時点以降の推定した補正量がどの程度信頼できるかを判断することができるという効果を奏する。

実施の形態１によるサーボ制御装置の構成の一例を模式的に示すブロック図予測値と予測値のばらつきとを概念的に説明するための図実施の形態１によるサーボ制御装置における制御方法の手順の一例を示すフローチャート実施の形態２によるサーボ制御装置の構成の一例を模式的に示すブロック図実施の形態２によるサーボ制御装置のモデル情報更新部の構成の一例を模式的に示すブロック図実施の形態３によるサーボ制御装置の構成の一例を模式的に示すブロック図実施の形態１，２，３によるサーボ制御装置を実現するハードウェア構成の一例を模式的に示す図

以下に、本開示の実施の形態に係るサーボ制御装置を図面に基づいて詳細に説明する。

実施の形態１.
サーボモータの駆動制御では、サーボモータの回転方向が反転する際の摩擦外乱の影響で軌跡誤差が発生してしまうという問題がある。この軌跡誤差は、象限突起またはロストモーションとも呼ばれ、軌跡誤差を抑制するための技術が求められている。軌跡誤差を抑制する技術の一例として、センサ等で取得したモータの位置および速度といったデータに基づいて軌跡誤差を抑制する補正量を推定するモデルを使って、指令値を補正する方法が考えられる。しかし、軌跡誤差を発生させる現象を十分に考慮できていないと、補正効果が全く表れなかったり、あるいは過補正となってしまったりして、補正によっては結果が却って悪化する可能性がある。また、モデルへの入力が外乱等で乱れた場合または未知の入力があった場合に想定外の補正をしてしまう可能性もあった。そこで、モデルを用いて補正量の推定時点以降の時点を推定した値がどの程度信頼できるのか、すなわち予測の結果の不確実性を判断し、制御に活用することで、軌跡誤差を抑制することが可能になる。以下の実施の形態では、モデルを用いて推定した結果の予測の不確実性を判断して、サーボモータの駆動制御における軌跡誤差の発生を抑制することができるサーボ制御装置について説明する。

図１は、実施の形態１によるサーボ制御装置の構成の一例を模式的に示すブロック図である。サーボ制御装置１は、指令値生成部２と、サーボモータ３と、に電気的に接続される。サーボ制御装置１は、周期的に指令値生成部２によって生成される指令値に基づいて、サーボモータ３の実際の動作の状態が補正された後の指令値に一致するように制御を行う。動作の状態の一例は、サーボモータ３の位置、速度および加速度である。サーボ制御装置１は、指令値生成部２で生成される指令値に基づいて、サーボモータ３を駆動するための電流および電圧を生成し、サーボモータ３に印加する。

指令値生成部２は、予め定められた時間間隔であるサーボ制御周期で指令値をサーボ制御装置１へ出力する装置である。指令値生成部２は、例えば数値制御装置またはモーションコントローラで実現され、公知の技術を用いて指令値を生成する。ここで、指令値は、サーボモータ３の動作の状態または制御量を所望の状態に制御するための目標値であり、サーボモータ３の位置、速度、加速度、トルク、電流およびモデル位置の少なくとも１つを含む。なお、モデル位置は、計算によって求められたサーボモータ３のおおよその位置であり、今回のサーボ制御周期におけるサーボモータ３の実際の位置を推定したものである。サーボモータ３の構造を模擬したサーボモデルを用いることによって、モデル位置を推定することが可能である。このサーボモデルは、単純には、カットオフ周波数を有する１次遅れフィルタとして定義されるものであり、一般には低域通過特性を有するフィルタとして扱うことができる。

サーボモータ３は、図示しないボールねじなどの動力伝達機構を介して制御対象の駆動制御を行うための駆動装置であり、サーボ制御装置１内のサーボアンプ１１から電圧の印加を受けて回転する。制御対象の一例は、工作機械、ロボットまたは産業機械である。サーボモータ３は、サーボモータ３の位置を検出するエンコーダ等の位置検出器を備える。位置検出器は、検出した位置をサーボ制御装置１に出力する。位置検出器が検出した位置は、サーボ制御装置１内のサーボアンプ１１および補正部１２に入力される。

サーボ制御装置１は、サーボアンプ１１と、補正部１２と、判断部１３と、を備える。サーボアンプ１１は、予め定められた時間間隔、すなわちサーボ制御周期でサーボモータ３の位置、速度および加速度を制御する装置である。サーボアンプ１１は、実際には、後述する補正部１２で補正が行われた後の指令値にサーボモータ３の実際の動作の状態が一致するように制御を行う。以下では、サーボモータ３の動作を制御させる際に使用される指令値は、補正後指令値と称される。

補正部１２は、指令値生成部２で生成された指令値とサーボモータ３の実際の位置および速度等の状態量とに基づいて、現在または未来の補正後指令値の候補である候補指令値と、この候補指令値の信頼度を評価するための指標である信頼度指標と、を決定する。また、補正部１２は、サーボモータ３を制御するための補正後の指令値である補正後指令値を出力する。具体的には、補正部１２は、指令値生成部２で生成された指令値とサーボモータ３の実際の位置および速度等の状態量とを入力として、後述する方法で、候補指令値と信頼度指標とを決定し、出力する。サーボモータ３の実際の状態量は、サーボモータ３の動作の実測結果である。

判断部１３は、補正部１２から出力された信頼度指標に基づいて、候補指令値のサーボモータ３の制御への適用の許可または不許可を判断し、判断結果を補正部１２に出力する。具体的には、判断部１３は、補正部１２から出力された信頼度指標を基に候補指令値の適用に対して信頼できると判断した場合には、補正部１２に対して候補指令値のサーボアンプ１１への出力を許可とする判断結果を出力する。判断部１３は、補正部１２から出力された信頼度指標を基に候補指令値の適用に対して信頼できないと判断した場合には、補正部１２に対して候補指令値のサーボアンプ１１への出力を不許可とする判断結果を出力する。信頼度指標は、予測した結果の不確実性を判定するための指標であり、予測した結果を指令値の補正に使用できるか否かを判定する指標である。補正部１２では、予測モデルを使用して未来のサーボモータ３の状態を予測するため、予測モデルの精度が低い場合には未来の予測の不確実性が上がることがある。また、予測モデルへの入力が外乱等で乱れたり、未知の入力があったりした場合にも、予測モデルで予測した結果の不確実性が上がることがある。判断部１３では、このような補正部１２における予測の不確実性を判断する。補正部１２で信頼度指標から信頼度を判断する方法として、例えば予め設定した基準値である閾値との大小関係から判断する等の方法があるが、この方法に限定されるものではない。

また、補正部１２は、判断部１３からの判断結果にしたがって、サーボモータ３を制御するための指令値を選択し、選択した指令値を補正後指令値としてサーボアンプ１１に出力する。具体的には、補正部１２は、許可の判断結果を取得した場合には、候補指令値を補正後指令値としてサーボアンプ１１に出力し、不許可の判断結果を取得した場合には、後述する方法によって候補指令値とは異なる指令を補正後指令値としてサーボアンプ１１に出力する。

ここで、補正部１２のより詳細な構成について説明する。補正部１２は、予測部１２１と、補正選択部１２２と、を有する。予測部１２１は、現在または未来のサーボモータ３の位置等の動作の状態量を予測する予測モデルを有する。予測部１２１は、指令値生成部２から取得した指令値と、サーボモータ３から取得したサーボモータ３の実際の動作の状態量と、を入力として、予測モデルを使用して予測した現在または未来のサーボモータ３の動作の状態である予測状態量を予測する。また、予測部１２１は、予測モデルを使用して予測状態量の信頼度を評価する信頼度指標を算出する。なお、信頼度指標は、予測状態量の信頼度を評価するものであるが、候補指令値は評価の対象である予測状態量を用いて補正された指令値であるので、候補指令値の信頼度を評価するものでもある。

予測モデルと、予測モデルから予測した予測状態量とこの予測状態量に対応する信頼度指標と、を算出する一例として、予測状態量が特定の分布に従う確率変数であると仮定した確率モデルの一例であるガウス過程回帰を用いる方法が挙げられる。ガウス過程回帰を用いて予測状態量と信頼度指標とを算出する場合、例えば、次のような計算が行われる。Ｎを自然数として、加工等によってサーボモータ３を動作させている際のＮ点のサンプリングを行い、入力データをｘとし、出力データをｙとし、グラム行列をＣ_Nとする。このとき、サンプリングの入力データの１つをｘ_i（ｉは自然数）とし、サンプリングの出力データの１つをｙ_i（ｉは自然数）とし、サンプリング入力データの値をｘ₁，・・・，ｘ_Nとすると、新たな入力ｘ_N+1に対する出力ｙ_N+1の予測値ｍ（ｘ_N+1）と信頼度指標の基となる分散σ²（ｘ_N+1）は次式（１）および次式（２）によって計算される。

ｍ（ｘ_N+1）＝ｋ^T・（Ｃ_N ^-1）・ｙ・・・（１）
σ²（ｘ_N+1）＝ｃ－ｋ^T・（Ｃ_N ^-1）・ｋ・・・（２）

ここで、ｋは、次式（３）に示されるように、サンプリングした入力データｘ₁，・・・，ｘ_Nのそれぞれと新たな入力ｘ_N+1とを引数としたときのカーネル関数の値を並べたベクトルである。また、ｃは、新たな入力ｘ_N+1同士のカーネル関数の値に予測モデルの精度パラメータを加えたスカラー値である。なお、（２）式では、分散σ²（ｘ_N+1）を求めているが、分散の平方根を計算することで標準偏差σ（ｘ_N+1）を求めることができる。

つぎに、予測値および予測値のばらつきについて説明する。図２は、予測値と予測値のばらつきとを概念的に説明するための図である。図２には、予測値とこの予測値のばらつきの範囲とがガウス過程回帰を用いて算出される例が示されている。図２の横軸は、入力データｘを示し、縦軸は、出力データｙを示す。図２の黒丸で示した点は、予め取得したデータの点を示す。ガウス過程回帰を用いた予測では、出力データｙがガウス分布に従うとして出力データｙの予測値を予測する。このため、予測値をガウス分布の平均ｍ（ｘ）とし、予測の不確実性を示す指標をガウス分布の標準偏差σ（ｘ）とすると、実際の出力データｙは、約９５％の確率で、ｍ（ｘ）－２σ（ｘ）以上かつｍ（ｘ）＋２σ（ｘ）以下の範囲に入ることが統計的に示される。図２において、実線で示された曲線は、出力データｙの予測値であるｍ（ｘ）を示し、破線で示された曲線は、ｍ（ｘ）－２σ（ｘ）およびｍ（ｘ）＋２σ（ｘ）の曲線を示す。図２に示されるように、取得したデータに近い箇所では予測値のばらつきは小さくなり、取得したデータから離れた箇所では予測値のばらつきは大きくなる傾向がある。

この統計的な観点から、標準偏差σ（ｘ）を基に信頼度指標を定義する。例えば、標準偏差σ（ｘ）を信頼度指標とした場合、信頼度指標が小さくなるほどばらつきが小さくなるので予測値が確からしくなる。加えて、実際の出力データｙが許容誤差δ（＞０）を要求する場合、２σ（ｘ）≦δを満たしていれば補正をした際に許容誤差以内に収まる可能性がある。また別の例では、信頼度指標を１／（１＋α・σ（ｘ））、α＝２／δとした場合、ばらつきが０のときには信頼度指標が１になり、ばらつきが無限大のときには信頼度指標が０になり、信頼度指標の値が大きいほどばらつきが小さく予測値が確からしくなる。加えて、信頼度指標が０．５以上の場合、２σ（ｘ）≦δを満たすので補正をした際に許容誤差以内に収まる可能性がある。このように、予測部１２１は、予測モデルを用いて予測した出力データｙ、すなわちサーボモータ３の動作の状態量のばらつきに基づいて信頼度指標を決定することができる。なお、信頼度指標についてはこれに限定されるものではない。

ここでは、ガウス過程回帰を用いて予測と予測に対する信頼度指標とを算出する例を説明した。しかし、予測方法はこれに限定されず、例えば、決定木、線形回帰、ブースティング、ニューラルネットワークといった機械学習を用いた方法であってもよい。また、信頼度指標の算出方法もこれに限定されず、例えば、密度推定、混合密度ネットワーク等といった手法を用いてもよい。

図１に戻り、補正選択部１２２は、予測部１２１から出力された予測状態量が指令値に一致するように補正量を計算し、指令値を補正して候補指令値を生成する。そして、補正選択部１２２は、判断部１３から出力される判断結果に基づいてサーボアンプ１１に候補指令値を出力するか否かを制御する。補正選択部１２２は、判断結果が許可である場合には、候補指令値を補正後指令値としてサーボアンプ１１に出力し、判断結果が不許可である場合には、候補指令値とは別の値を補正後指令値としてサーボアンプ１１に出力する。別の値の一例は、１つ前の周期の補正後指令値、指令値生成部２から出力された指令値、つまり補正を行っていない指令値、または予め指定された値である。ただし、別の値は、これらに限定されるものではない。なお、不許可の場合に、上記の別の値のうちのどの値を出力するかは予め設定される。

つぎに、実施の形態１によるサーボ制御装置１の動作について説明する。図３は、実施の形態１によるサーボ制御装置における制御方法の手順の一例を示すフローチャートである。まず、指令値生成部２は、サーボ制御周期で指令値を生成し、サーボ制御装置１に出力する。この指令値は、サーボ制御装置１の予測部１２１に入力される。また、サーボモータ３は、サーボモータ３の実際の動作の状態量をサーボ制御装置１に出力する。このサーボモータ３の動作の状態量は、予測部１２１に入力される。

予測部１２１は、指令値およびサーボモータ３の動作の状態量を取得すると（ステップＳ１１）、予測モデルを使用して、サーボモータ３の補正量の推定時点以降におけるサーボモータ３の動作の予測状態量および信頼度指標を算出する（ステップＳ１２）。予測部１２１は、算出したサーボモータ３の動作の予測状態量を補正選択部１２２に出力し、信頼度指標を判断部１３に出力する。

補正選択部１２２は、動作の予測状態量が指令値に一致するように指令値を補正した候補指令値を生成する（ステップＳ１３）。また、判断部１３は、信頼度指標に基づいて候補指令値のサーボアンプ１１への出力を許可するか否かを判断する（ステップＳ１４）。判断部１３は、信頼度指標を基に候補指令値の適用に対して信頼できると判断した場合には、候補指令値のサーボアンプ１１への出力を許可とする判断結果を補正選択部１２２に対して出力する。また、判断部１３は、信頼度指標を基に候補指令値の適用に対して信頼できないと判断した場合には、候補指令値のサーボアンプ１１への出力を不許可とする判断結果を補正選択部１２２に対して出力する。

補正選択部１２２は、判断結果が許可であるかを判定する（ステップＳ１５）。判断結果が許可である場合（ステップＳ１５でＹｅｓの場合）には、補正選択部１２２は、候補指令値を補正後指令値としてサーボアンプ１１に出力する（ステップＳ１６）。一方、判断結果が許可ではない場合、すなわち不許可である場合（ステップＳ１５でＮｏの場合）には、補正選択部１２２は、候補指令値ではない別の値を補正後指令値としてサーボアンプ１１に出力する（ステップＳ１７）。ステップＳ１６またはステップＳ１７の後、サーボアンプ１１は、補正後指令値に基づいてサーボモータ３を制御する（ステップＳ１８）。そして、処理がステップＳ１１に戻る。以上の処理が、指令値生成部２からサーボ制御周期で指令値が入力される毎に繰り返される。

実施の形態１では、補正部１２が指令値生成部２で生成された指令値とサーボモータ３の動作の状態量の実測結果とを入力として、指令値を補正した候補指令値と、この候補指令値の予測の不確実性を示す信頼度指標とを決定する。また、判断部１３は、信頼度指標に基づいて、候補指令値を補正後指令値としてサーボモータ３の制御に適用するか否かの判断を行い、この判断結果を補正部１２に出力する。そして、補正部１２は、判断結果に基づいて、サーボアンプ１１に出力する補正後指令値を決定する。これによって、予測の不確実性が高い候補指令値を補正後指令値として使用し、加工精度が悪化してしまうことを抑制することができるという効果を有する。つまり、実施の形態１によるサーボ制御装置１によって、指令値を補正する補正量の推定時点において、補正量の推定時点以降の推定した補正量がどの程度信頼できるかを判断することができるという効果を有する。

また、補正部１２は、予測モデルを使用して、候補指令値を決定する時点から後の時点のサーボモータ３の動作の状態量である予測状態量と、予測状態量に対応する信頼度指標と、を予測する。さらに、補正部１２は、予測状態量に基づいて、候補指令値を決定する。このように、現在または未来の補正量と、この補正量に対応した信頼度指標と、を同時に出力できる予測モデルを使用するので、補正量の信頼度の評価が容易になるという効果を有する。

さらに、補正部１２は、候補指令値の適用が許可の場合には、候補指令値を補正後指令値としてサーボアンプ１１に出力し、候補指令値の適用が不許可の場合には、別の値を補正後指令値としてサーボアンプ１１に出力する。このように、信頼度指標を用いて予測モデルから計算した候補指令値を用いた補正か、それ以外の値を用いた補正かを自動で切り替えることができる。また、予測モデルへの入力が外乱等で乱れた場合、あるいは未知の入力があった場合に、想定外の補正量となってしまうことを抑制することができる。さらに、信頼度指標を予測値のばらつきを基に算出するようにしたので、信頼度の精度を高めることができる。

実施の形態２.
図４は、実施の形態２によるサーボ制御装置の構成の一例を模式的に示すブロック図である。以下では、実施の形態１と同一の構成要素には同一の符号を付して、その説明を省略し、実施の形態１と異なる部分について説明する。実施の形態２によるサーボ制御装置１Ａは、蓄積部１４と、モデル情報更新部１５と、をさらに備える。

蓄積部１４は、指令値生成部２からの指令値と、サーボモータ３からの実際の動作の状態量と、を対応させて蓄積情報として記憶する。動作の状態量の一例は、サーボモータ３の位置もしくは速度またはサーボモータ３に流れる電流である。実施の形態２では、蓄積部１４に記憶される動作の状態量は、フィードバック情報と称される。すなわち、蓄積情報は、指令値とフィードバック情報とを対応させた情報である。なお、フィードバック情報は、サーボモータ３の動作の実測結果に基づいて補正部１２によって決定される。一例では、予測モデルの構築に使用されるサーボモータ３からの実際の動作の状態量がフィードバック情報として収集されるデータに決定される。

蓄積情報は、判断部１３での判断結果が不許可となる場合の指令値とフィードバック情報との組み合わせを含む。このため、蓄積部１４は、判断部１３から蓄積部１４に出力される判断結果が不許可になったタイミングで、蓄積情報を記録する。なお、記録するタイミングは一例であり、タイミングは判断結果が不許可になった場合を基準に予め設定された時間より早くしてもよいし、または遅くしてもよい。判断結果が不許可になった場合を基準に予め定められた時間よりも早くする場合には、一例では、判断結果が出されるタイミングよりも予め定められた時間だけ早いタイミングで蓄積情報を記録すればよい。この場合、判断結果が不許可の場合には記録した蓄積情報はそのままとし、判断結果が許可の場合には、記録した蓄積情報はそのままとしてもよいし、削除してもよい。また、記録する時間も不許可になっている時間だけでなく、開始タイミングから予め設定された時間間隔で蓄積情報を記録してもよい。

モデル情報更新部１５は、蓄積部１４に記憶された蓄積情報を用いて予測モデルについてのモデル情報を更新する。モデル情報は、予測状態量とこの予測状態量に対応する信頼度指標とを出力する予測モデルのモデルパラメータもしくはハイパーパラメータ、または予測モデルを含む。つまり、モデル情報更新部１５は、予測モデルのモデルパラメータまたはハイパーパラメータをモデル情報として、蓄積情報にしたがって更新したり、予測モデルをモデル情報として、蓄積情報にしたがって更新したりする。ここでは、予測モデルのモデルパラメータを、機械学習を用いて更新する場合を例に挙げて説明する。

図５は、実施の形態２によるサーボ制御装置のモデル情報更新部の構成の一例を模式的に示すブロック図である。モデル情報更新部１５は、状態観測部１５１と、学習部１５２と、学習済みモデル記憶部１５３と、出力部１５４と、を備える。

状態観測部１５１は、蓄積部１４に記憶された蓄積情報を状態変数として観測する。なお、ここでは、状態観測部１５１は、蓄積情報を状態変数として観測しているが、少なくとも蓄積情報を含むサーボモータ３またはサーボ制御装置１Ａに関する状態変数を観測するものであればよい。サーボモータ３またはサーボ制御装置１Ａに関する状態変数の一例は、サーボモータ３の位置、速度またはサーボモータ３に流れる電流等の状態量、および指令値である。

学習部１５２は、状態変数に基づいて作成される訓練データセットに従って、予測モデルのモデルパラメータを学習する。学習部１５２が用いる学習アルゴリズムはどのようなものを用いてもよい。一例として教師あり学習アルゴリズムの１つであるガウス過程回帰を適用した場合について説明する。予測モデルにガウス過程回帰を用いた場合、カーネル関数等に使用されているパラメータを蓄積部１４に記憶された蓄積情報を使って推定し、予測モデルを更新する。例えば、指令値生成部２から出力された指令値の時系列データを入力データとし、サーボモータ３の実際の状態を出力データとする教師データを作成し、これらのデータに基づいて学習を行い、パラメータを推定する。パラメータの推定方法としては最尤推定等を用いることで、より確からしい予測モデルを構築することができるが、パラメータの推定方法はこの方法に限定されない。学習部１５２は、学習が収束した場合に、学習した予測モデル、または予測モデルに適用する、学習したモデルパラメータもしくはハイパーパラメータを学習済みのモデル情報である学習結果とする。学習が収束したという判定は公知の判定手法を用いることができる。

学習済みモデル記憶部１５３は、学習結果を記憶する。上記したように、学習結果は、学習が収束したモデルである学習済みモデルまたは更新されたモデルパラメータもしくはハイパーパラメータである。

出力部１５４は、学習済みモデル記憶部１５３から学習結果を取得して、適切なタイミングで学習結果を予測部１２１の予測モデルに適用する。すなわち、出力部１５４は、予測モデルを学習した場合には、更新された予測モデルを予測部１２１の予測モデルに反映させる。また、出力部１５４は、予測モデルのモデルパラメータまたはハイパーパラメータを学習した場合には、更新されたモデルパラメータまたはハイパーパラメータを予測部１２１の予測モデルに反映させる。このように、判断部１３の判定結果で信頼度が不足しているときの入出力データを用いて逐次予測モデルを更新することで、信頼度の高い補正を可能とする予測モデルを構築することが可能になる。すなわち、候補指令値のサーボモータ３への適用が不許可となる場合を低減することができる。

なお、図４では、蓄積部１４およびモデル情報更新部１５がサーボ制御装置１Ａ内に備えられる場合が示されているが、蓄積部１４およびモデル情報更新部１５がサーボ制御装置１Ａとは別個の装置であってもよい。一例では、蓄積部１４およびモデル情報更新部１５は、外部のパーソナルコンピュータなどの情報処理装置に内蔵されていてもよい。この場合には、外部の情報処理装置上で蓄積情報の記録および予測モデルの構築等を行い、この結果をサーボ制御装置１Ａ内の予測部１２１に反映させる構成となる。

実施の形態２では、蓄積部１４が、指令値生成部２からの指令値と、サーボモータ３からのフィードバック情報と、を対応させて蓄積情報として記憶する。蓄積情報には、判断部１３による判断結果が不許可となった指令値とフィードバック情報とが含まれるようにする。モデル情報更新部１５は、機械学習によって蓄積情報を用いて予測モデル、またはモデルパラメータもしくはハイパーパラメータである結果情報を更新し、更新した結果情報を予測部１２１に反映させる。これによって、判断部１３による判定結果で信頼度が不足しているとされた場合の入出力データを用いて逐次、予測モデルを更新することができる。つまり、信頼度が低いときのデータを用いて、再度、予測モデルまたはモデルパラメータもしくはハイパーパラメータを更新することで予測モデルの予測精度を向上させることができる。また、機械学習によってより確からしい予測モデルを構築することができる。

実施の形態３.
図６は、実施の形態３によるサーボ制御装置の構成の一例を模式的に示すブロック図である。以下では、実施の形態１と同一の構成要素には同一の符号を付して、その説明を省略し、実施の形態１と異なる部分について説明する。実施の形態３によるサーボ制御装置１Ｂでは、補正部１２は、２以上の予測部を有する。図６の例では、補正部１２は、第１予測部１２１Ａと、第２予測部１２１Ｂと、を有する。なお、補正部１２は、３以上の予測部を有していてもよい。

第１予測部１２１Ａと第２予測部１２１Ｂとは、用いる予測モデルが異なっている。つまり、第１予測部１２１Ａと第２予測部１２１Ｂとで、予測モデルの構造もしくは予測方法が異なっているか、または予測モデルの構造もしくは予測方法は同じであるが使用しているモデルパラメータもしくはハイパーパラメータが異なっている。このため、通常、第１予測部１２１Ａおよび第２予測部１２１Ｂの予測結果には差異が生じる。

第１予測部１２１Ａおよび第２予測部１２１Ｂは、指令値生成部２から出力される指令値と、サーボモータ３から出力されるサーボモータ３の実際の動作の状態量と、を取得して、それぞれの予測モデルを使用して、予測状態量とこの予測状態量に対応する信頼度指標を予測する。第１予測部１２１Ａおよび第２予測部１２１Ｂは、予測状態量を補正選択部１２２に出力し、信頼度指標を判断部１３に出力する。ここで、第１予測部１２１Ａおよび第２予測部１２１Ｂのそれぞれの出力を区別するため、第１予測部１２１Ａから出力された予測状態量および信頼度指標はそれぞれ第１予測状態量および第１信頼度指標と称され、第２予測部１２１Ｂから出力された予測状態量および信頼度指標はそれぞれ第２予測状態量および第２信頼度指標と称される。

判断部１３は、第１予測部１２１Ａから出力された第１信頼度指標および第２予測部１２１Ｂから出力された第２信頼度指標を取得する。判断部１３は、取得した第１信頼度指標および第２信頼度指標と予め設定された基準値である閾値とを用いて信頼度を判断する。この信頼度の判断では、第１信頼度指標および第２信頼度指標がともに閾値を満たし、信頼度を満たしていると判断した第１の場合と、第１信頼度指標および第２信頼度指標のいずれか一方のみが閾値を満たし、信頼度を満たしていると判断した第２の場合と、第１信頼度指標および第２信頼度指標がともに閾値を満たさず、信頼度を満たしていないと判断した第３の場合と、のいずれかとなる。

第１の場合には、判断部１３は、第１予測部１２１Ａおよび第２予測部１２１Ｂのうち信頼度がより高い方の予測部から出力される予測状態量に基づいて補正した候補指令値をサーボアンプ１１に出力することを許可する判断結果を補正選択部１２２に出力する。

第２の場合には、判断部１３は、信頼度を満たしているいずれか一方の予測部から出力される予測状態量に基づいて補正した候補指令値をサーボアンプ１１に出力することを許可する判断結果を補正選択部１２２に出力する。

第３の場合には、第１予測状態量および第２予測状態量ともに補正に用いることを不許可とする判断結果を補正選択部１２２に出力する。

補正選択部１２２は、第１予測部１２１Ａから出力された第１予測状態量については、第１予測状態量が指令値に一致するように補正量を計算し、指令値を補正して候補指令値を生成する。また、補正選択部１２２は、第２予測部１２１Ｂから出力された第２予測状態量については、第２予測状態量が指令値に一致するように補正量を計算し、指令値を補正して候補指令値を生成する。

そして、補正選択部１２２は、判断部１３から出力される判断結果に基づいてサーボアンプ１１に候補指令値を出力するか否かを制御する。第１の場合には、補正選択部１２２は、第１予測部１２１Ａおよび第２予測部１２１Ｂのうち信頼度がより高い方の予測部から出力される予測状態量に基づいて補正した候補指令値を補正後指令値としてサーボアンプ１１に出力する。第２の場合には、補正選択部１２２は、信頼度を満たしているいずれか一方の予測部から出力される予測状態量に基づいて補正した候補指令値を補正後指令値としてサーボアンプ１１に出力する。第３の場合には、補正選択部１２２は、別の値を補正後指令値として出力する。別の値の一例は、１つ前の周期の補正後指令値、指令値生成部２から出力された指令値、つまり補正を行っていない指令値、または予め指定された値である。ただし、別の値は、これらに限定されるものではない。

つまり、補正選択部１２２は、複数の予測部１２１Ａ，１２１Ｂが決定した信頼度指標に基づく判断結果のうち少なくとも１つが許可である場合には、判断結果が許可となった予測部による候補指令値のうち、信頼度指標が最も良い候補指令値を補正後指令値として決定する。また、補正選択部１２２は、複数の予測部１２１Ａ，１２１Ｂが決定した信頼度指標に基づく判断結果がすべて不許可である場合には、候補指令値を決定する時点の直前の補正後指令値、候補指令値を決定する時点の指令値、または予め設定した値を補正後指令値として決定する。

実施の形態３では、サーボ制御装置１Ｂは、複数の予測部１２１Ａ，１２１Ｂを備え、それぞれの予測部１２１Ａ，１２１Ｂで用いられる予測モデルは異なるものとなる。これによって、それぞれの予測部１２１Ａ，１２１Ｂからは、異なる予測状態量と信頼度指標とが算出される。判断部１３は、複数の予測部１２１Ａ，１２１Ｂから出力される信頼度指標に基づいてサーボアンプ１１に出力する候補指令値の選択を行う。つまり、信頼度指標が閾値を満たすもののうち、信頼度がより高い方の予測部から出力される予測状態量に基づいて補正した候補指令値が補正後指令値として選択され、信頼度指標がすべて閾値を満たさない場合には別の値が補正後指令値として選択される。このように、複数の予測モデルの中から信頼度指標を比較して、最も確からしい補正量を選択することで補正の精度を高めることができる。また、制御対象または複数の予測部１２１Ａ，１２１Ｂへの入力の変化に対しても、制御対象またはデータに応じてより適した予測モデルを用いることで、信頼度指標に基づきより確からしい補正を行うことが可能となる。この結果、不適切な補正によって加工精度が悪化することを防止することができる。

なお、実施の形態２の構成を実施の形態３の構成に適用してもよい。これによって、判断部１３による判定結果で信頼度が不足しているとされた場合の入出力データを用いて逐次、複数の予測部１２１Ａ，１２１Ｂにおける予測モデルを更新することができる。つまり、信頼度が低いときのデータを用いて、再度、複数の予測部１２１Ａ，１２１Ｂにおける予測モデルまたはモデルパラメータもしくはハイパーパラメータを更新することで予測モデルの予測精度を向上させることができる。

つぎに、各実施の形態で説明したサーボ制御装置１，１Ａ，１Ｂの補正部１２、判断部１３、蓄積部１４およびモデル情報更新部１５を実現するハードウェアの構成について説明する。図７は、実施の形態１，２，３によるサーボ制御装置を実現するハードウェア構成の一例を模式的に示す図である。実施の形態１，２，３で説明した補正部１２、判断部１３、蓄積部１４およびモデル情報更新部１５は、図７に示される処理回路１００で実現可能である。

処理回路１００は、プロセッサ１０１、メモリ１０２、入力回路１０３および出力回路１０４を有する。プロセッサ１０１は、ＣＰＵ（Central Processing Unit、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサ、ＤＳＰともいう）、システムＬＳＩ（Large Scale Integration）などである。メモリ１０２は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ、ＥＰＲＯＭ（Erasable Programmable Read Only Memory）、ＥＥＰＲＯＭ（登録商標）（Electrically Erasable Programmable Read-Only Memory）等の、不揮発性または揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスクまたはＤＶＤ（Digital Versatile Disc）等である。

補正部１２、判断部１３、蓄積部１４およびモデル情報更新部１５は、それぞれに対応するプログラムをメモリ１０２から読み出してプロセッサ１０１が実行することにより実現できる。入力回路１０３は、プロセッサ１０１が処理する情報、メモリ１０２が記憶する情報などを外部から受け取る際に使用し、出力回路１０４は、プロセッサ１０１が生成した情報、メモリ１０２が記憶している情報を外部へ出力する際に使用する。

なお、サーボアンプ１１は、外部から供給される電圧を変換してサーボモータ３に印加する電圧を生成する変換回路、変換回路を制御する制御回路などを含む専用の回路で実現される。

以上の実施の形態に示した構成は、一例を示すものであり、別の公知の技術と組み合わせることも可能であるし、実施の形態同士を組み合わせることも可能であるし、要旨を逸脱しない範囲で、構成の一部を省略、変更することも可能である。

１，１Ａ，１Ｂサーボ制御装置、２指令値生成部、３サーボモータ、１１サーボアンプ、１２補正部、１３判断部、１４蓄積部、１５モデル情報更新部、１２１予測部、１２１Ａ第１予測部、１２１Ｂ第２予測部、１２２補正選択部、１５１状態観測部、１５２学習部、１５３学習済みモデル記憶部、１５４出力部。

Claims

周期的に入力されるサーボモータの動作を指示する指令値に基づいてサーボモータの動作を制御するサーボ制御装置であって、
前記指令値と前記サーボモータの動作の実測結果とに基づいて、前記指令値を補正した指令値である候補指令値と、前記候補指令値の信頼度を評価する指標である信頼度指標と、を決定し、前記サーボモータを制御するための補正後の指令値である補正後指令値を出力する補正部と、
前記候補指令値の前記サーボモータの制御への適用の許可または不許可を、前記信頼度指標に基づいて判断し、判断結果を前記補正部に出力する判断部と、
前記補正後指令値に基づいて前記サーボモータを制御するサーボアンプと、
を備え、
前記補正部は、
現在または未来の前記サーボモータの動作の状態量を予測する予測モデルを用いて、前記指令値と前記サーボモータの動作の実測結果とを入力として、前記候補指令値を決定する時点以降の時点における前記サーボモータの動作の状態量を予測した予測状態量を予測し、前記予測状態量の信頼度を評価する予測部と、
前記予測状態量に基づいて前記候補指令値を決定する補正選択部と、
を有し、
前記予測部は、前記予測状態量の信頼度を前記信頼度指標とし、
前記補正部の前記補正選択部は、前記判断結果に基づいて前記候補指令値を前記補正後指令値として前記サーボアンプに出力することを特徴とするサーボ制御装置。
前記指令値と前記サーボモータの動作の実測結果とを対応させて蓄積情報として記憶する蓄積部と、
前記判断結果が不許可の場合に、前記蓄積情報を用いて、前記予測モデルまたは前記予測モデルのモデルパラメータもしくはハイパーパラメータを含むモデル情報を更新し、前記予測部の前記予測モデルに更新された前記モデル情報を反映させるモデル情報更新部と、
をさらに備えることを特徴とする請求項１に記載のサーボ制御装置。
前記モデル情報更新部は、
少なくとも前記蓄積情報を含む前記サーボモータまたは前記サーボ制御装置に関する状態変数を観測する状態観測部と、
前記状態変数に基づいて作成される訓練データセットに従って、前記モデル情報を学習する学習部と、
前記学習部で学習した学習済みの前記モデル情報を記憶する学習済みモデル記憶部と、
学習済みの前記モデル情報を前記予測部の前記予測モデルに反映させる出力部と、
を有することを特徴とする請求項２に記載のサーボ制御装置。
前記予測部は、前記予測モデルを用いて予測した前記サーボモータの状態量のばらつきに基づいて前記信頼度指標を決定し、
前記判断部は、前記予測モデルから出力された前記信頼度指標と予め定められた基準値とを比較し、比較した結果に基づいて、前記判断結果を決定することを特徴とする請求項１から３のいずれか１つに記載のサーボ制御装置。
前記補正選択部は、前記判断結果が許可の場合に、前記候補指令値を前記補正後指令値として出力し、前記判断結果が不許可の場合に、前記候補指令値を決定する時点の直前の前記補正後指令値、前記候補指令値を決定する時点の前記指令値、または予め指定した値を前記補正後指令値として出力することを特徴とする請求項１から４のいずれか１つに記載のサーボ制御装置。
前記補正部は、複数の前記予測部を有し、
前記補正選択部は、複数の前記予測部が決定した前記信頼度指標に基づく前記判断結果のうち少なくとも１つが許可である場合に、前記判断結果が許可となった前記予測部による前記候補指令値のうち、前記信頼度指標が最も良い前記候補指令値を前記補正後指令値として決定し、複数の前記予測部が決定した前記信頼度指標に基づく前記判断結果がすべて不許可である場合に、前記候補指令値を決定する時点の直前の前記補正後指令値、前記候補指令値を決定する時点の前記指令値、または予め設定した値を前記補正後指令値として決定することを特徴とする請求項１から４のいずれか１つに記載のサーボ制御装置。