JP7357813B2 - データ駆動型モデル適応を用いる制御のための装置および方法 - Google Patents

データ駆動型モデル適応を用いる制御のための装置および方法 Download PDF

Info

Publication number
JP7357813B2
JP7357813B2 JP2022579161A JP2022579161A JP7357813B2 JP 7357813 B2 JP7357813 B2 JP 7357813B2 JP 2022579161 A JP2022579161 A JP 2022579161A JP 2022579161 A JP2022579161 A JP 2022579161A JP 7357813 B2 JP7357813 B2 JP 7357813B2
Authority
JP
Japan
Prior art keywords
model
state
control
constraints
closed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022579161A
Other languages
English (en)
Other versions
JP2023517142A (ja
Inventor
ベノスマン,モウハシン
チャクラバルティ,アンクシュ
ナビ,サレー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2023517142A publication Critical patent/JP2023517142A/ja
Application granted granted Critical
Publication of JP7357813B2 publication Critical patent/JP7357813B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/08Active safety systems predicting or avoiding probable or impending collision or attempting to minimise its consequences
    • B60W30/095Predicting travel path or likelihood of collision
    • B60W30/0956Predicting travel path or likelihood of collision the prediction being responsive to traffic or environmental parameters
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/10Path keeping
    • B60W30/12Lane keeping
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/14Adaptive cruise control
    • B60W30/16Control of distance between vehicles, e.g. keeping a distance to preceding vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B17/00Systems involving the use of models or simulators of said systems
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B17/00Systems involving the use of models or simulators of said systems
    • G05B17/02Systems involving the use of models or simulators of said systems electric
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/20Pc systems
    • G05B2219/26Pc applications
    • G05B2219/2614HVAC, heating, ventillation, climate control

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Feedback Control In General (AREA)

Description

この発明は一般に、システムのモデル化および制御に関し、より特定的には、マシンをモデル化し、シミュレートし、制御するために強化学習を用いるデータ駆動型モデル適応のための方法および装置に関する。
制御システム工学における制御理論は、工学的プロセスおよびマシンにおいて連続的に動作する力学的システムの制御を扱う数学の下位分野である。目的は、遅延またはオーバーシュートなく最適の態様で制御動作を使用してそのようなシステムを制御し、制御安定性を保証するための制御ポリシーを開発することである。
たとえば、モデル予測制御(model predictive control:MPC)などの最適化ベースの制御および推定技術は、システムの力学および制約が直接考慮され得るモデルベースの設計フレームワークを可能にする。MPCは、さまざまな複雑性の力学的システムを制御するために、多くの用途で使用される。そのようなシステムの例は、生産ライン、自動車エンジン、ロボット、数値制御機械加工、モータ、衛星、および発電機を含む。本明細書で使用される場合、システムの力学のモデルまたはシステムのモデルは、微分方程式を使用して当該システムの力学を記述する。たとえば、p個の入力uとq個の出力yとn個の状態変数xとを用いる線形システムの最も一般的なモデルは、以下の形で書かれる。
Figure 0007357813000001
しかしながら、多くの状況では、制御されるシステムのモデルは非線形であり、設計すること、リアルタイムで使用することが難しい場合があり、または不正確である場合がある。そのような場合の例は、ロボット工学、建物制御(HVAC)、スマートグリッド、工場自動化、輸送、自己調整マシン、および交通網において普及している。加えて、たとえ非線形モデルがまさに利用可能であっても、最適なコントローラを設計することは本質的に困難なタスクである。なぜなら、ハミルトン・ヤコビ・ベルマン(Hamilton-Jacobi-Bellman:HJB)方程式と呼ばれる偏微分方程式を解く必要があるためである。
力学的システムの正確なモデルがない場合、いくつかの制御方法は、システム力学を安定させるかまたは定量化可能な制御関連性能を組込むフィードバック制御ポリシーを構築するために、力学的システムによって生成された動作データを活用する。制御ポリシーを設計するための動作データの使用は、データ駆動型制御と呼ばれる。データ駆動型制御方法には、(i)まずシステムのモデルを構築し、次に当該モデルを活用してコントローラを設計する間接的方法と、(ii)中間のモデル構成ステップなしでデータから制御ポリシーを直接構築する直接的方法との2種類がある。
間接的方法の欠点は、モデル構築段階において大量のデータが必要とされる可能性があることである。加えて、間接的制御方法では、コントローラは、推定されたモデルから、たとえば確実性等価原理に従って計算されるが、実際には、データから推定されたモデルは、システムの力学の物理学を捕らえていない。よって、多くのモデルベースの制御技術は、そのようなデータ駆動型モデルを用いて使用することができない。
この問題を克服するために、いくつかの方法は、モデルが合間に識別されることなく実験データをコントローラ上に直接マッピングするために直接的制御方法を使用する。しかしながら、直接的制御方法は、システムの状態を制御コマンドに直接マッピングする制御ポリシーのブラックボックス設計をもたらす。しかしながら、そのような制御ポリシーは、システムの物理学を考慮して設計されていない。加えて、制御設計者は、制御ポリシーのデータ駆動型決定に影響を与えることができない。
したがって、システムを最適の態様で制御するための方法および装置に対する要望が依然として存在する。
いくつかの実施形態の目的は、システムの挙動の物理学を捕らえるシステムの力学のモデルを生成するために、システムの力学のモデルのデータ駆動型設計のための装置および方法を提供することである。そのような態様で、これらの実施形態は、制御アプリケーションを設計する際にシステムのモデルを有するという利点を保ちながら、モデル設計プロセスを簡略化する。しかしながら、現在のデータ駆動型方法は、システムの物理的力学を捕らえるシステムのモデルを推定するのに適していない。
たとえば、強化学習(reinforcement learning:RL)は、累積報酬の何らかの概念を最大化する(言い換えれば、累積損失/コストを最小化する)ように環境においてどのような措置を取るかに関わる機械学習の領域である。強化学習は、連続状態入力空間における最適な制御と関連付けられ、それは概して、制御されるシステムおよび/または環境の数学モデルがない場合の最適な制御ポリシーおよびそれらの計算用アルゴリズムの存在および特徴付けに関わる。
RL方法によって提供される利点に鑑み、いくつかの実施形態は、微分方程式を用いて記述され得る力学的システムのための最適な制御ポリシーをもたらすRL技術を開発することを目標とする。しかしながら、制御ポリシーは、システムの状態を制御コマンドにマッピングしており、このマッピングをシステムの物理的力学に基づいて行なわず、または、少なくとも行なう必要がない。よって、システムの力学を記述するために1つまたは複数の微分方程式を有する、物理的な意味を有するモデルのRLベースのデータ駆動型推定は、制御コミュニティによって調査されていない。
いくつかの実施形態は、報酬関数が学習されたモデルに従ったシステムの挙動とシステムの実際の挙動との差異の最小化である場合に、物理的な意味を有するシステムの力学のモデルのRLデータ駆動型学習が仮想制御問題として見られ得るという認識に基づいている。とりわけ、システムの挙動は、システムの高レベルの特徴付け、たとえばシステムの安定性、状態の有界性である。実際、システムは、制御されない状況でも挙動を有する。残念ながら、RLによるそのようなモデルの推定は、計算が困難である。
その目的のために、いくつかの実施形態は、システムのモデルが、閉鎖モデルと呼ばれる、仮想制御項と組合された減少次数モデルで表わされ得るという認識に基づいている。たとえば、システムの完全に物理学ベースのモデルが典型的には偏微分方程式(partial differential equation:PDE)によって捕らえられる場合、減少次数モデルは、常微分方程式(ordinary differential equation:ODE)によって表わされ得る。ODEは、システムの力学を時間の関数として表わすが、PDEを使用して力学を表わすことほど正確ではない。よって、閉鎖モデルの目的は、このギャップを小さくすることである。
本明細書で使用される場合、閉鎖モデルは、ODEおよびPDEによって推定されたシステムの挙動の差異を捕らえるシステムの状態の非線形関数である。よって、閉鎖モデルは、ODEおよびPDEによって捕らえられた力学間の力学差異を表わす時間の関数でもある。いくつかの実施形態は、PDE方程式を解くことは計算が高くつくため、システムの力学をODEと閉鎖モデルとの組合せとして表わすことはシステムのその後の制御を簡略化することができるという理解に基づいている。したがって、いくつかの実施形態は、力学をODEおよび閉鎖モデルで表わし、閉鎖モデルのみを更新することによって、システムの力学のデータ駆動型推定を簡略化しようとしている。しかしながら、この問題は、計算がより単純であるものの、RLのフレームワークにおいて定式化される場合には困難でもある。これは、通常、RLは、システムを正確に制御するための制御ポリシーを学習するために使用されるためである。ここでは、これと同様に、RLは、閉鎖モデルを正確に推定しようとするべきであり、それは困難である。
しかしながら、いくつかの実施形態は、多くのモデル化状況では、システムの力学の挙動そのものではなく挙動のパターンを表わすことが十分であるという認識に基づいている。たとえば、挙動そのものが各時点でシステムのエネルギーを捕らえる場合、挙動のパターンは、エネルギーの変化率を捕らえる。一例として、システムが励起されると、システムのエネルギーは増加する。システムの力学の挙動そのものを知ることは、そのようなエネルギー増加を評価することを可能にする。システムの力学の挙動のパターンを知ることは、エネルギーの実際の値に比例する新たな値を推定するために増加率を評価することを可能にする。
このため、システムの力学の挙動のパターンは挙動そのものではないが、多くのモデルベースの制御アプリケーションでは、システムの力学の挙動のパターンは、リアプノフ(Lyapunov)安定制御を設計するのに十分である。そのような制御アプリケーションの例は、システムの状態を安定させることを目標とする安定化制御を含む。
その目的のために、いくつかの実施形態はRLを使用して、ODEおよび更新されたCLの力学がシステムの力学のパターンを模倣するように閉鎖モデルを更新する。いくつかの実施形態は、力学のパターンが、システムの状態の値とは対照的に、時間の関数として決定された状態軌道の形状によって表わされ得るという認識に基づいている。状態軌道は、システムがオンラインで機能している間に測定され得る。それに加えて、またはそれに代えて、状態軌道は、PDEを使用してシミュレートされ得る。
その目的のために、いくつかの実施形態は、ODEと閉鎖モデルとの組合せを含むシステムのモデルを使用してシステムを制御し、状態軌道の実際の形状と更新された閉鎖モデルを伴うODEを使用して推定された状態軌道の形状との差異を減少させる値関数を有するRLを用いて閉鎖モデルを更新する。
しかしながら、収束後、更新されたCLを伴うODEは、システムの挙動の力学のパターンを表わすが、挙動の実際の値を表わさない。言い換えれば、更新されたCLを伴うODEは、システムの実際の物理的力学に比例する関数である。その目的のために、いくつかの実施形態は、後でシステムのオンライン制御中にRLよりもモデルベースの最適化に適した方法で学習される閉鎖モデルにゲインを含める。これらの方法の例は、極値探索、ガウス過程ベースの最適化などである。
それに加えて、またはそれに代えて、いくつかの実施形態は、さまざまなモデル予測制御、たとえばMPCにおいて、データ駆動型適応によって決定されたシステムのモデルを使用する。これらの実施形態は、MPCがシステムの制御における制約を考慮する能力から利点を得ることを可能にする。たとえば、従来のRL方法は、制約されたシステムのデータ駆動型制御に適していない。これは、従来のRL方法が、連続状態動作空間において状態制約および入力制約を満たすことを考慮していないためである。すなわち、従来のRLが、制御入力を用いて動作された制御されるシステムの状態が動作全体を通して状態制約および入力制約を満たすことを保証できないためである。
しかしながら、いくつかの実施形態はRLを使用してシステムの物理学を学習し、RLのデータ駆動型の利点をモデルベースの制約された最適化と組合せることを可能にする。
したがって、一実施形態は、システムの動作を制御するための装置を開示する。装置は、システムの状態軌道を受信するように構成された入力インターフェイスと、少なくとも1つの微分方程式と閉鎖モデルとの組合せを含むシステムの力学のモデルを格納するように構成されたメモリと、プロセッサとを含み、プロセッサは、受信された状態軌道の形状と更新された閉鎖モデルを有するモデルを使用して推定された状態軌道の形状との差異を減少させる値関数を有する強化学習(RL)を使用して閉鎖モデルを更新し、更新された閉鎖モデルを有するモデルに基づいて制御コマンドを決定するように構成され、装置はさらに、システムの動作を制御するために、制御コマンドをシステムのアクチュエータに送信するように構成された出力インターフェイスを含む。
別の実施形態は、システムの動作を制御するための方法を開示する。方法は、少なくとも1つの微分方程式と閉鎖モデルとの組合せを含むシステムの力学のモデルを格納するメモリに結合されたプロセッサを使用し、プロセッサは、プロセッサによって実行されると方法のステップを行なう格納された命令と結合されており、方法は、システムの状態軌道を受信するステップと、受信された状態軌道の形状と更新された閉鎖モデルを有するモデルを使用して推定された状態軌道の形状との差異を減少させる値関数を有する強化学習(RL)を使用して、閉鎖モデルを更新するステップと、更新された閉鎖モデルを有するモデルに基づいて制御コマンドを決定するステップと、システムの動作を制御するために、制御コマンドをシステムのアクチュエータに送信するステップとを含む。
ここに開示される実施形態を、添付図面を参照してさらに説明する。示された図面は必ずしも縮尺通りではなく、代わりに、ここに開示される実施形態の原理を例示することに重きが概して置かれている。
システムの動作を制御するためにいくつかの実施形態によって使用される原理の概略的概観を示す図である。 いくつかの実施形態に従った、システムの動作を制御するための装置のブロック図である。 いくつかの実施形態に従った、システムを制御するための原理のフローチャートを示す図である。 いくつかの実施形態に従った、減少次数モデルを生成するための概略的なアーキテクチャを示す図である。 いくつかの実施形態に従った、強化学習(RL)に基づいた減少次数モデルの概略図である。 この発明の一実施形態に従った、RLを使用して閉鎖モデルを更新するための動作のフローチャートを示す図である。 いくつかの実施形態に従った、システムの実際の挙動と推定された挙動との差異を示す図である。 この発明の一実施形態に従った、最適な閉鎖モデルを調整するための最適化アルゴリズムの概略図である。 この発明の一実施形態に従った、最適な閉鎖モデルを調整するための最適化アルゴリズムの概略図である。 この発明の一実施形態に従った、最適な閉鎖モデルを調整するための最適化アルゴリズムの概略図である。 この発明の別の実施形態に従った、最適な閉鎖モデルを調整するための最適化アルゴリズムの概略図である。 この発明の別の実施形態に従った、最適な閉鎖モデルを調整するための最適化アルゴリズムの概略図である。 この発明の別の実施形態に従った、最適な閉鎖モデルを調整するための最適化アルゴリズムの概略図である。 いくつかの実施形態に従った、ゲインを更新するための極値探索(extremum seeking:ES)アルゴリズムのフローチャートを示す図である。 いくつかの実施形態に従った、ゲインを更新するために性能コスト関数を使用する極値探索(ES)アルゴリズムのフローチャートを示す図である。 いくつかの実施形態に従った、単一のパラメータ調整のための極値探索(ES)コントローラの概略図である。 いくつかの実施形態に従った、複数のパラメータ調整のための極値探索(ES)コントローラの概略図である。 いくつかの実施形態に従った、システムを制御するための制約を考慮するための予測モデルベースのアルゴリズムを示す図である。 システムが空調システムである場合の、システムを制御するための装置の例示的なリアルタイム実現化例を示す図である。 システムが車両である場合の、システムを制御するための装置の例示的なリアルタイム実現化例を示す図である。 いくつかの実施形態に従った、車両の1つのコントローラと複数のコントローラとの間の相互作用の概略図である。 システムが誘導モータである場合の、システムを制御するための装置の例示的なリアルタイム実現化例を示す図である。
以下の説明では、説明する目的のために、多くの特定の詳細が、本開示の完全な理解を提供するために述べられる。しかしながら、これらの特定の詳細がなくても本開示が実践され得ることは、当業者には自明であろう。他の事例では、本開示を不明瞭にすることを避けるために、装置および方法はブロック図の形式でのみ示される。
この明細書および請求項で使用される場合、「たとえば」、「といった」、「などの」という用語、ならびに「備える」、「有する」、「含む」という動詞およびそれらの他の動詞形は、1つ以上の構成要素または他の項目のリストとともに使用される場合、非限定的であるとして各々解釈されるべきである。すなわち、リストは、他の追加の構成要素または項目を除外するものとして考慮されるべきではない。「に基づいて」という用語は、少なくとも部分的に基づいていることを意味する。また、明細書で採用されている言葉遣いおよび用語は説明のためのものであり、限定的であると見なされるべきでないということが理解されるはずである。この説明内で利用されるどの見出しも便宜上のものに過ぎず、法的効果または限定する効果を有していない。
図1は、システムの動作を制御するためにいくつかの実施形態によって使用される原理の概略的概観を示す。いくつかの実施形態は、システム102を制御するように構成された制御装置100を提供する。たとえば、装置100は、工学的プロセスおよびマシンにおいて連続的に動作する力学的システム102を制御するように構成され得る。以下、「制御装置」および「装置」は交換可能に使用されてもよく、同じことを意味するであろう。以下、「連続的に動作する力学的システム」および「システム」は交換可能に使用されてもよく、同じことを意味するであろう。システム102の例は、HVACシステム、LIDARシステム、凝縮ユニット、生産ライン、自己調整マシン、スマートグリッド、自動車エンジン、ロボット、数値制御機械加工、モータ、衛星、発電機、交通網などである。いくつかの実施形態は、装置100が、遅延またはオーバーシュートなく最適の態様で制御動作を使用してシステム102を制御し、制御安定性を保証するための制御ポリシー106を開発するという認識に基づいている。
いくつかの実施形態では、装置100は、システム102のための制御コマンド106を開発するために、モデル予測制御(MPC)などのモデルベースのおよび/または最適化ベースの制御および推定技術を使用する。モデルベースの技術は、力学的システムの制御にとって有利であり得る。たとえば、MPCは、システム102の力学および制約が直接考慮され得るモデルベースの設計フレームワークを可能にする。MPCは、システムのモデル104に基づいて制御コマンド106を開発する。システム102のモデル104とは、微分方程式を使用して記述されるシステム102の力学を指す。いくつかの実施形態では、モデル104は非線形であり、設計すること、および/またはリアルタイムで使用することが難しい場合がある。たとえば、たとえ非線形モデルがまさに利用可能であっても、最適な制御コマンド106を推定することは本質的に困難なタスクである。なぜなら、ハミルトン・ヤコビ・ベルマン(HJB)方程式と呼ばれる、システム102の力学を記述する偏微分方程式(PDE)を解く必要があり、それは計算が困難であるためである。
いくつかの実施形態は、モデル104を設計するためにデータ駆動型制御技術を使用する。これらのデータ駆動型技術は、システム102を安定させるフィードバック制御ポリシーを構築するために、システム102によって生成された動作データを活用する。たとえば、システム102の動作中に測定されたシステム102の各状態は、システム102を制御するためのフィードバックとして与えられてもよい。一般に、制御ポリシーおよび/またはコマンド106を設計するための動作データの使用は、データ駆動型制御と呼ばれる。データ駆動型制御の目的は、データから制御ポリシーを設計し、そのデータ駆動型制御ポリシーを使用してシステムを制御することである。そのようなデータ駆動型制御アプローチとは対照的に、いくつかの実施形態は、動作データを使用して制御システムのモデル、たとえばモデル104を設計し、次に、そのデータ駆動型モデルを使用して、さまざまなモデルベースの制御方法を使用するシステムを制御する。なお、いくつかの実施形態の目的は、システムの実際のモデル、すなわち、システムの挙動を推定するために使用され得るようなモデルをデータから決定することである。たとえば、いくつかの実施形態の目的は、微分方程式を使用してシステムの力学を捕らえるシステムのモデルをデータから決定することである。それに加えて、またはそれに代えて、いくつかの実施形態の目的は、物理学ベースのPDEモデル精度を有するモデルをデータから学習することである。
計算を簡略化するために、いくつかの実施形態は、システム102の力学を記述するために常微分方程式(ODE)108aを定式化する。いくつかの実施形態では、ODE108aは、モデル縮小技術を使用して定式化されてもよい。たとえば、ODE108aは、PDEの減少次元であってもよい。その目的のために、ODE108aは、PDEの一部であり得る。しかしながら、いくつかの実施形態では、不確実性条件の場合、ODE108aは、システム102の実際の力学(すなわち、PDEによって記述された力学)を再現しない。不確実性条件の例は、PDEの境界条件が経時変化している場合、または、PDEに関与する係数のうちの1つが変化している場合であってもよい。
その目的のために、いくつかの実施形態は、不確実性条件の場合を網羅しながら、PDEを解く閉鎖モデル108bを定式化する。いくつかの実施形態では、閉鎖モデル108bは、ODEおよびPDEに従ったシステム102の挙動(たとえば力学)の差異を捕らえるシステム102の状態の非線形関数であってもよい。閉鎖モデル108bは、強化学習(RL)を使用して定式化されてもよい。言い換えれば、システム102のPDEモデルは、ODE108aと閉鎖モデル108bとの組合せによって近似化され、閉鎖モデル108bは、RLを使用してデータから学習される。そのような態様で、PDEの精度に近づくモデルが、データから学習される。
いくつかの実施形態では、RLは、システム102の個々の状態を学習するのではなく、システム102の挙動を定義するシステム102の状態軌道を学習する。状態軌道は、システム102の一連の状態であってもよい。いくつかの実施形態は、ODE108aと閉鎖モデル108bとを含むモデル108が、システム102の実際の挙動値(たとえば状態)ではなく、システム102の挙動のパターンを再現するという認識に基づいている。システム102の挙動のパターンは、状態軌道の形状、たとえば、時間の関数としてのシステムの一連の状態を表わしてもよい。システム102の挙動のパターンはまた、モデルの高レベルの特徴、たとえば、経時的なその解の有界性、または経時的なその解の減衰を表わしてもよいが、それは、システムの力学を最適に再現しない。
その目的のために、いくつかの実施形態は、システム102の力学を最適に再現するために、ゲインを決定し、ゲインを閉鎖モデル108bに含める。いくつかの実施形態では、ゲインは、最適化アルゴリズムを使用して更新されてもよい。ODE108aと更新されたゲインを有する閉鎖モデル108bとを含むモデル108は、システム102の力学を再現する。したがって、モデル108は、システム102の力学を最適に再現する。いくつかの実施形態は、モデル108がPDEよりも少ない数のパラメータを含むという認識に基づいている。その目的のために、モデル108は、システム102の物理モデルを記述するPDEほど計算が複雑ではない。いくつかの実施形態では、制御ポリシー106は、モデル108を使用して決定される。制御ポリシー106は、システム102の動作を制御するために、システム102の状態を制御コマンドに直接マッピングする。したがって、システム102のための制御を効率的に設計するために、縮小されたモデル108が使用される。
図2は、いくつかの実施形態に従った、システム102の動作を制御するための装置200のブロック図を示す。装置200は、装置200を他のシステムおよびデバイスと接続するための入力インターフェイス202および出力インターフェイス218を含む。いくつかの実施形態では、装置200は、複数の入力インターフェイスと、複数の出力インターフェイスとを含んでいてもよい。入力インターフェイス202は、システム102の状態軌道216を受信するように構成される。入力インターフェイス202は、バス210を通して装置200をネットワーク214に接続するように適合されたネットワークインターフェイスコントローラ(network interface controller:NIC)212を含む。無線または有線でネットワーク214を通して、装置200は、システム102の状態軌道216を受信する。
状態軌道216は、システム102の力学の実際の挙動を定義するシステム102の複数の状態であってもよい。たとえば、状態軌道216は、システム102を制御するための基準連続状態空間として作用する。いくつかの実施形態では、状態軌道216は、システム102の状態の部分のリアルタイム測定から受信されてもよい。いくつかの他の実施形態では、状態軌道216は、システム102の力学を記述するPDEを使用してシミュレートされてもよい。いくつかの実施形態では、受信された状態軌道のために、形状が、時間の関数として決定されてもよい。状態軌道の形状は、システム102の挙動の実際のパターンを表わしてもよい。
装置200はさらに、プロセッサ204と、プロセッサ204によって実行可能な命令を格納するメモリ206とを含む。プロセッサ204は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスタ、または任意の数の他の構成であってもよい。メモリ206は、ランダムアクセスメモリ(random access memory:RAM)、読取専用メモリ(read only memory:ROM)、フラッシュメモリ、または任意の他の好適なメモリシステムを含んでいてもよい。プロセッサ204は、バス210を通して、1つ以上の入力および出力デバイスに接続される。格納された命令は、システム102の動作を制御するための方法を実現する。
メモリ206はさらに、ストレージ208を含むように拡張されてもよい。ストレージ208は、モデル208aと、コントローラ208bと、更新モジュール208cと、制御コマンドモジュール208dとを格納するように構成されてもよい。いくつかの実施形態では、モデル208aは、システム102の力学を記述するモデルであってもよく、それは、少なくとも1つの微分方程式と閉鎖モデルとの組合せを含む。モデル208の微分方程式は、常微分方程式(ODE)108aであってもよい。モデル208aの閉鎖モデルは、システム102の状態の線形関数または非線形関数であってもよい。閉鎖モデルは、システム102の挙動を模倣するために、RLを使用して学習されてもよい。理解されるはずであるように、閉鎖モデルがいったん学習されると、閉鎖モデルは、図1に示されるような閉鎖モデル108bであってもよい。
コントローラ208bは、プロセッサ204によって実行されるとストレージ208内の1つ以上のモジュールを実行する命令を格納するように構成されてもよい。いくつかの実施形態は、コントローラ208bがシステム102を制御するためにストレージ208の各モジュールを管理するという認識に基づいている。
更新モジュール208cは、受信された状態軌道の形状と更新された閉鎖モデルを有するモデル208aを使用して推定された状態軌道の形状との差異を減少させる値関数を有する強化学習(RL)を使用して、モデル208aの閉鎖モデルを更新するように構成されてもよい。いくつかの実施形態では、更新モジュール208cは、終了条件が満たされるまでRLを用いて閉鎖モジュールを反復的に更新するように構成されてもよい。更新された閉鎖モデルは、ODEおよびPDEに従ったシステムの挙動の差異を捕らえるシステムの状態の非線形関数である。
また、いくつかの実施形態では、更新モジュール208cは、更新された閉鎖モデルのためのゲインを更新するように構成されてもよい。その目的のために、いくつかの実施形態は、更新されたゲインを有する更新された閉鎖モデルを有するモデル208aを用いて推定されたシステム102の状態とシステムの実際の状態との誤差を減少させるゲインを決定する。いくつかの実施形態では、システムの実際の状態は、測定された状態であってもよい。いくつかの他の実施形態では、システムの実際の状態は、システム102の力学を記述するPDEを用いて推定された状態であってもよい。いくつかの実施形態では、更新モジュール208cは、極値探索を使用してゲインを更新してもよい。いくつかの他の実施形態では、更新モジュール208cは、ガウス過程ベースの最適化を使用してゲインを更新してもよい。
更新コマンドモジュール208cは、更新された閉鎖モデルを有するモデル208aに基づいて制御コマンドを決定するように構成されてもよい。制御コマンドは、システムの動作を制御し得る。いくつかの実施形態では、システムの動作は制約を受ける場合がある。その目的のために、更新コマンドモジュール208cは、制約を強制しながら制御コマンドを決定するために、予測モデルベースの制御を使用する。制約は、システム102の連続状態空間における状態制約と、システム102の連続制御入力空間における制御入力制約とを含む。
出力インターフェイス218は、システムの動作を制御するために制御コマンドをシステム102のアクチュエータ220に送信するように構成される。出力インターフェイス218のいくつかの例は、システム102を制御するために制御コマンドをサブミットする制御インターフェイスを含んでいてもよい。
図3は、いくつかの実施形態に従った、システム102を制御するための原理のフローチャートを示す。いくつかの実施形態は、システム102が物理学の法則からモデル化され得るという認識に基づいている。たとえば、システム102の力学は、物理学の法則を使用する数学的方程式によって表わされ得る。ステップ302で、システム102は、物理学ベースの高次元モデルによって表わされてもよい。物理学ベースの高次元モデルは、システム102の力学を記述する偏微分方程式(PDE)であってもよい。説明する目的のために、システム102はHVACシステムであると考えられ、そのモデルはブシネスク(Boussinesq)方程式によって表わされる。ブシネスク方程式は物理学から得られ、それは、部屋の中の空気流と温度との結合を記述する。したがって、HAVCシステムモデルは、数学的に以下のように表わされ得る。
Figure 0007357813000002
いくつかの実施形態は、リアルタイムでシステム102の動作を制御するために、システム102の物理学ベースの高次元モデルを解く必要があるという認識に基づいている。たとえば、HVACシステムの場合、部屋の中の空気流力学と温度とを制御するために、ブシネスク方程式を解く必要がある。いくつかの実施形態は、システム102の物理学ベースの高次元モデルが多数の方程式および変数を含み、それらは解くことが複雑であるという認識に基づいている。たとえば、物理学ベースの高次元モデルをリアルタイムで解くために、より大きい計算パワーが必要とされる。その目的のために、いくつかの実施形態の目的は、物理学ベースの高次元モデルを簡略化することである。
ステップ304で、装置200は、装置200がシステム102を効率的に制御するようにシステム102の力学を再現するように減少次数モデルを生成するために提供される。いくつかの実施形態では、装置200は、減少次数モデルを生成するために、モデル縮小技術を使用して物理学ベースの高次元モデルを簡略化してもよい。いくつかの実施形態は、モデル縮小技術は、減少次数モデルがシステム102の予測および制御のためにリアルタイムで使用されるように、物理学ベースの高次元モデルの次元性(たとえば、PDEの変数)を減少させるという認識に基づいている。また、システム102を制御するための減少次数モデルの生成は、図4を参照して詳細に説明される。ステップ306で、装置200は、システム102を予測および制御するために、減少次数モデルをリアルタイムで使用する。
図4は、いくつかの実施形態に従った、減少次数モデルを生成するための概略的なアーキテクチャを示す。いくつかの実施形態は、装置200が減少次数モデル(reduced order model:ROM)406を生成するためにモデル縮小技術を使用するという認識に基づいている。モデル縮小技術を使用する、生成されたROM406は、物理学ベースの高次元モデルの一部402であってもよい。物理学ベースの高次元モデルの一部402は、システム102の力学を記述する1つ以上の微分方程式であってもよい。物理学ベースの高次元モデルの一部402は、常微分方程式(ODE)であってもよい。いくつかの実施形態では、不確実性条件の場合、ODEは、実際の力学(すなわち、PDEによって記述された力学)を再現しない。不確実性条件の例は、PDEの境界条件が経時変化している場合、または、PDEに関与する係数のうちの1つが変化している場合であってもよい。これらの数学的変化は実際に、実際の力学のいくつかの実際の変化を反映する。たとえば、HVACシステムの場合、部屋の窓および/またはドアの開閉は、ブシネスク方程式(すなわちPDE)の境界条件を変更する。同様に、日々の変化および季節変化などの天候変化は、部屋の中と部屋の外側との温度差に影響を与え、それは次にPDE係数のうちのいくつかに影響を与え、たとえば、レイノルズ数が影響を受ける場合がある。
すべてのこれらのシナリオでは、モデル縮小技術は、上述のシナリオ、すなわち、パラメータ不確実性および境界条件不確実性をすべて網羅するシステム102の力学の減少次数(または減少次元)モデル406を得るための統一されたアプローチを有していない。
いくつかの実施形態の目的は、境界条件を変更する場合および/またはパラメータを変更する場合にPDEを解くROM406を生成することである。その目的のために、いくつかの実施形態は、適応モデル縮小方法、体制検出方法などを使用する。
たとえば、この発明の一実施形態では、減少次数モデル406は、以下の二次形式を有する。
Figure 0007357813000003

式中、b、A、Bは、PDE方程式の定数と、使用されるモデル縮小アルゴリズムのタイプとに関連する定数であり、xは、減少次元rのものであり、減少次数状態のベクトルを表わす。システムxの元の状態は、以下の単純な代数方程式を使用してxから回復され得る。
Figure 0007357813000004

式中、xは通常、PDE方程式の空間離散化から得られたn個の状態を含む高次元n(>>r)のベクトルであり、Φは、ROM406のモードまたは基底ベクトルと呼ばれる所与のベクトルを連結させることによって形成された行列である。これらのモードは、どのモデル縮小方法が使用されるかに依存して異なる。モデル縮小方法の例は、固有直交分解(proper orthogonal decomposition:POD)、動的モード分解(dynamic mode decomposition:DMD)方法などを含む。
しかしながら、ROM406の方程式の解は、解を常に安定させる、すなわち有界時間支援にわたって有界である粘性項を有する元のPDEモデルの物理学を再現していない(有限時間支援にわたって相違する)不安定な解をもたらし得る。たとえば、ODEは、モデル縮小中、物理学ベースの高次元モデルの実際の解の固有特性を失う場合がある。その目的のために、ODEは、空間および時間における物理学ベースの高次元モデルの実際の解の有界性を失う場合がある。
したがって、いくつかの実施形態は、ODEとPDEとの差異を表わす閉鎖モデル404を追加することによってROM406を修正する。たとえば、閉鎖モデル404は、PDEの実際の解の失われた固有特性を捕らえ、安定化因子のように作用する。いくつかの実施形態は、ODEとPDEとの差異を減少させるために閉鎖モデル40のみを更新することを可能にする。
たとえば、いくつかの実施形態では、ROM406は、数学的に以下のように表わされ得る。
Figure 0007357813000005
関数Fは閉鎖モデル404であり、それは、ROM406の解を安定させるために追加される。項
Figure 0007357813000006

は、ODEを表わす。項Kは、安定性と、ROM406が元のPDEモデルの力学または解を再現する必要があるという事実とを保証するために調整されるべき係数のベクトルを表わす。いくつかの実施形態では、閉鎖モデル404は、システム102の状態の線形関数である。いくつかの他の実施形態では、閉鎖モデル404は、システム102の状態の非線形関数であってもよい。いくつかの実施形態では、閉鎖モデル404を計算するために、強化学習(RL)ベースのデータ駆動型方法が使用されてもよい。また、強化学習(RL)を使用する閉鎖モデル404の計算は、図5A~5Bを参照して詳細に説明される。
図5Aは、いくつかの実施形態に従った、強化学習(RL)に基づいた減少次数モデル406の概略図を示す。いくつかの実施形態では、RLベースの閉鎖モデル502を計算するために、RLベースのデータ駆動型方法が使用されてもよい。いくつかの実施形態は、RLベースの閉鎖モデル502を計算するために、閉鎖モデル402がRLを用いて反復的に更新されるという認識に基づいている。RLベースの閉鎖モデル502は、最適な閉鎖モデルであり得る。また、閉鎖モデル404を更新するための反復プロセスは、図5Bを参照して詳細に説明される。いくつかの実施形態は、ODEと組合された最適な閉鎖モデルが最適なROM406を形成し得るという認識に基づいている。いくつかの実施形態では、ROM406は、システム102の挙動の実際のパターンを推定してもよい。たとえば、ROM406は、受信された状態軌道の形状を模倣する。
図5Bは、この発明の一実施形態に従った、RLを使用して閉鎖モデル502を更新するための動作のフローチャートを示す。ステップ504で、装置200は、初期閉鎖モデルポリシーと、初期閉鎖モデルポリシーに関連付けられた学習累積報酬関数とを初期化するように構成されてもよい。初期閉鎖モデルポリシーは、単純な線形閉鎖モデルポリシーであってもよい。累積報酬関数は、値関数であってもよい。ステップ506で、装置200は、有限時間間隔に沿ってデータを集めるために、物理学ベースの高次元モデルの部分402と現在の閉鎖モデル(たとえば初期閉鎖モデルポリシー)とを含むROM406を実行するように構成される。その目的のために、装置200は、システム102の力学の挙動のパターンを表わすデータを集める。たとえば、挙動のパターンは、有限時間間隔にわたるシステム102のエネルギーの変化率を捕らえる。いくつかの実施形態は、システム102の力学の挙動のパターンが、有限時間間隔にわたる状態軌道の形状によって表わされ得るという認識に基づいている。
ステップ508で、装置200は、集められたデータを使用して累積報酬関数を更新するように構成される。いくつかの実施形態では、装置200は、受信された状態軌道の形状と現在の閉鎖モデル(たとえば、初期化された閉鎖モデル)を有するROM406を使用して推定された状態軌道の形状との差異を示すように、累積報酬関数(すなわち値関数)を更新する。
いくつかの実施形態は、RLは値関数を最小化するように訓練されたニューラルネットワークを使用するという認識に基づいている。その目的のために、ステップ510で、装置200は、値関数が最小化されるように、集められたデータおよび/または更新された累積報酬関数を使用して現在の閉鎖モデルポリシーを更新するように構成される。
いくつかの実施形態では、装置200は、終了条件が満たされるまで、ステップ506、508、および510を繰り返すように構成される。その目的のために、ステップ512で、装置200は、学習が収束されるかどうかを判断するように構成される。たとえば、装置200は、学習累積報酬関数がしきい値限度未満かどうか、または、連続する2つの学習累積報酬関数が小さいしきい値限度内にあるかどうかを判断する。学習が収束される場合、装置200はステップ516に進み、その他の場合、装置200はステップ514に進む。ステップ514で、装置200は、閉鎖モデルを更新された閉鎖モデルと置き換えるように構成され、終了条件が満たされるまで更新手順を反復する。いくつかの実施形態では、装置200は、学習が収束されるまで更新手順を反復する。ステップ51で、装置200は、閉鎖モデル学習を停止し、最後に更新された閉鎖モデルポリシーをROM406にとって最適な閉鎖モデルとして使用するように構成される。
Figure 0007357813000007
いくつかの実施形態では、スカラー
Figure 0007357813000008

は、コストが現在の状態および制御動作によってより強調されることを可能にし、過去をあまり信用しないよう意図された忘却/割引因子である。
Figure 0007357813000009
そのような最適なコントローラを直接構築することは、一般的な非線形システムにとって非常に困難である。システムは不確実な力学を含むため、これはさらに悪化する。したがって、いくつかの実施形態は、適応/近似動的プログラミング(adaptive/approximate dynamic programming:ADP)という、その限度が最適制御ポリシー
Figure 0007357813000010

であると数学的に証明されている制御ポリシーの収束列を生成する反復的なデータ駆動型アルゴリズムのクラスを使用する。
Figure 0007357813000011
Figure 0007357813000012
一実施形態では、ROM406の目標が、二次値関数を最小化する解を生成することである場合、
Figure 0007357813000013

であり、式中、RおよびQは、2つのユーザ定義の正の重み行列である。
次に、閉鎖モデルポリシー改良ステップが、以下の式によって与えられる。
Figure 0007357813000014
いくつかの実施形態は、ODE402と最適な閉鎖モデルとを含む生成されたROM406(たとえば最適なROM)が、システム102の実際の挙動のパターンを模倣するが、挙動の実際の値を模倣しないという認識に基づいている。言い換えれば、最適な閉鎖モデルを伴うODE402は、システム102の実際の物理的力学に比例する関数である。たとえば、最適なROM406の挙動(すなわち推定された挙動)は、システム102の実際の挙動と質的に同様であり得るが、システム102の実際の挙動と推定された挙動との間には量的ギャップが存在し得る。また、実際の挙動と推定された挙動との差異は、図6を参照して詳細に説明される。
図6は、いくつかの実施形態に従った、システム102の実際の挙動と推定された挙動との差異を示す。いくつかの実施形態では、システム102の挙動のパターンは2次元の軸によって表わされてもよく、X軸は時間に対応し、Y軸はシステム102のエネルギーの大きさに対応する。波602は、システム102の実際の挙動を表わし得る。波604は、システム102の推定された挙動を表わし得る。いくつかの実施形態は、実際の挙動602と推定された挙動604との間には量的ギャップ606が存在し得るという認識に基づいている。たとえば、実際の挙動602と推定された挙動604とは、同様の周波数を有し得るが、異なる振幅を有する。
その目的のために、いくつかの実施形態の目的は、実際の挙動602と推定された挙動604との間のギャップ606が小さくなるように、最適な閉鎖モデルにゲインを含めることである。たとえば、いくつかの実施形態では、閉鎖モデルは、以下のように表わされてもよい。
Figure 0007357813000015

式中、θは、実際の挙動602と推定された挙動604との間のギャップ606が小さくなるように学習コスト関数Qを最小化するために最適に調整される必要のある正のゲインである。また、ギャップ606を小さくするためにゲインを決定する装置200は、図7を参照して詳細に説明される。
図7A~7Cは、この発明の一実施形態に従った、最適な閉鎖モデルを調整するための最適化アルゴリズムの概略図を示す。いくつかの実施形態は、ODE402と最適な閉鎖モデルとを含むROM406(すなわち最適なROM406)が、小さい時間間隔の間、有用であり得るという認識に基づいている。言い換えれば、最適なROM406は、システム102の挙動が、小さい時間間隔の間のみ有界であるよう強制する。その目的のために、いくつかの実施形態の目的は、最適なROM406のゲイン(係数とも呼ばれる)を経時的に調整することである。
一実施形態では、装置200は、最適な閉鎖モデルのゲインを調整するために、物理学ベースの高次元モデル挙動702(すなわち、実際の挙動602)を使用する。いくつかの例示的な実施形態では、装置200は、最適なROM406に対応する推定された挙動704と挙動702との誤差706を計算する。また、装置200は、誤差706を減少させるゲインを決定する。いくつかの実施形態は、装置200が、最適なROM406を用いて推定されたシステム102の状態(すなわち、推定された挙動704)とPDEを用いて推定されたシステム102の実際の状態(すなわち、挙動702)との誤差706を減少させるゲインを決定するという認識に基づいている。いくつかの実施形態では、装置200は、決定されたゲインを含むように、最適な閉鎖モデルにおける決定されたゲインを更新する。
いくつかの実施形態は、装置200がゲインを更新するために最適化アルゴリズムを使用するという認識に基づいている。一実施形態では、最適化アルゴリズムは、7Bに例示的に示されるように、極値探索(ES)710であってもよい。別の実施形態では、最適化アルゴリズムは、7Cに例示的に示されるように、ガウス過程ベースの最適化712であってもよい。
図8A~8Cは、この発明の別の実施形態に従った、最適な閉鎖モデルを調整するための最適化アルゴリズムの概略図を示す。いくつかの実施形態は、最適なROM406が、小さい時間間隔の間、有用であり得るという認識に基づいている。言い換えれば、最適なROM406は、システム102の挙動が、小さい時間間隔の間のみ有界であるよう強制する。その目的のために、いくつかの実施形態の目的は、最適なROM406のゲインを経時的に調整することである。
一実施形態では、装置200は、最適な閉鎖モデルのゲインを調整するために、システム102の部分のリアルタイム測定の状態802(すなわち、実際の挙動602)を使用する。いくつかの例示的な実施形態では、装置200は、最適なROM406に対応する推定された挙動804と実際の挙動602(たとえば、システム102のリアルタイム測定された状態802)との誤差806を計算する。また、装置200は、誤差806を減少させるゲインを決定する。いくつかの実施形態は、装置200が、最適なROM406を用いて推定されたシステム102の状態(すなわち、推定された挙動704)とシステム102の実際の状態(すなわち、リアルタイム測定された状態802)との誤差806を減少させるゲインを決定するという認識に基づいている。いくつかの実施形態では、装置200は、決定されたゲインを含むように、最適な閉鎖モデルにおける決定されたゲインを更新する。
いくつかの実施形態は、装置200がゲインを更新するために最適化アルゴリズムを使用するという認識に基づいている。一実施形態では、最適化アルゴリズムは、8Bに例示的に示されるように、極値探索(ES)810であってもよい。別の実施形態では、最適化アルゴリズムは、8Cに例示的に示されるように、ガウス過程ベースの最適化812であってもよい。
図9Aは、いくつかの実施形態に従った、ゲインを更新するための極値探索(ES)アルゴリズム900のフローチャートを示す。いくつかの実施形態は、ESアルゴリズム900は、装置200が最適な閉鎖モデルのゲインを調整することを可能にするモデルなし学習アルゴリズムであるという認識に基づいている。いくつかの実施形態は、ESアルゴリズム900は、終了条件が満たされるまで、最適な閉鎖モジュールのゲインを摂動信号を用いて反復的に摂動させるという認識に基づいている。いくつかの実施形態では、摂動信号は、予め定められた周波数を有する周期信号であってもよい。いくつかの実施形態では、終了条件は、ギャップ606がしきい値限度内にある条件であってもよい。最適な閉鎖モデルのゲインは、制御パラメータであってもよい。
ステップ902aで、ESアルゴリズム900は、最適な閉鎖モデルの制御パラメータを摂動させてもよい。たとえば、ESアルゴリズム900は、制御パラメータを摂動させるために摂動信号を使用してもよい。いくつかの実施形態では、摂動信号は、以前に更新された摂動信号であってもよい。ステップ904aで、ESアルゴリズム900は、制御パラメータを摂動させることに応答して、閉鎖モデル性能のためのコスト関数Qを決定してもよい。ステップ906aで、ESは、摂動信号を用いてコスト関数を修正することによってコスト関数の勾配を決定してもよい。たとえば、コスト関数の勾配は、コスト関数と摂動信号とESアルゴリズム900のゲインとの積として決定される。ステップ908aで、ESアルゴリズム900は、次の反復のために摂動信号を更新するために、摂動信号を決定された勾配と統合してもよい。ES900の反復は、終了条件が満たされるまで繰り返され得る。
図9Bは、いくつかの実施形態に従った、ゲインを更新するために性能コスト関数を使用する極値探索(ES)アルゴリズム900のフローチャートを示す。ステップ904bで、ES900は、閉鎖モデル性能のためのコスト関数を決定してもよい。いくつかの実施形態では、ESアルゴリズム900は、ステップ904bで、図9Aのステップ904aで例示的に示されるようにコスト関数を決定する。いくつかの実施形態では、決定されたコスト関数は、性能コスト関数904b-0であってもよい。いくつかの例示的な実施形態によれば、性能コスト関数904b-0は、ギャップ606の挙動を表わす二次方程式であってもよい。
ステップ906bで、ESアルゴリズム900は、摂動されたコスト関数906b-1を生成するために、決定されたコスト関数に時間の第1の周期信号906b-0を乗算してもよい。ステップ908bで、ESアルゴリズム900は、コスト関数の導関数908b-1を生成するために、摂動されたコスト関数906b-1から、第1の周期信号906b-0の位相に対して90度の直交位相シフトを有する第2の周期信号908b-0を減算してもよい。ステップ910bで、ESアルゴリズム900は、制御パラメータ値910b-0を時間の関数として生成するために、コスト関数の導関数908b-1を経時的に統合してもよい。
Figure 0007357813000016
図11は、いくつかの実施形態に従った、複数のパラメータ調整のための極値探索(ES)コントローラ1100の概略図を示す。いくつかの実施形態は、複数のパラメータのESコントローラ1100が単一のパラメータのES1000から生じるという認識に基づいている。たとえば、n個のパラメータのESコントローラ1100を得るために、単一のパラメータのESコントローラ1000がn回複製されてもよい。いくつかの実施形態は、n個のパラメータのESコントローラ1100が、最適な閉鎖モデルを更新するために、n個の異なる周波数を有する対応するn個の摂動信号1104-1~1104-nを用いて、1組のn個の制御パラメータθ1102を摂動させるという認識に基づいている。いくつかの実施形態では、n個の異なる周波数の各々は、システム102の周波数応答よりも大きい。加えて、n個の摂動信号1104-1~1104-nのn個の異なる周波数は、1組のうちの第1の摂動信号1104-1の第1の周波数と第2の摂動信号1104-2の第2の周波数との和が第3の摂動信号1104-3の第3の周波数と等しくならないように、収束の条件を満たす。
Figure 0007357813000017
リアルタイムの組込みシステム102において複数のパラメータのESコントローラ1100を実現するために、複数のパラメータのESコントローラ1100の離散的バージョンが有利である。たとえば、複数のパラメータのESコントローラ1100の離散的バージョンは、数学的に以下のように表わされてもよい。
Figure 0007357813000018

式中、kは時間ステップであり、ΔTはサンプリング時間である。
理解されるはずであるように、最適な閉鎖モデルにおいて、制御パラメータθ(すなわち正のゲイン)が、ESアルゴリズムまたはガウス過程ベースの最適化を使用していったん更新されると、ODEと組合された最適な閉鎖モデルは、システム102の実際の挙動602を模倣する。たとえば、推定された挙動604は、ギャップ606なく、実際の挙動602と質的にかつ量的に同様であり得る。
その目的のために、ODEと更新されたゲインを有する最適な閉鎖モデルとを含む最適な減少次数モデル406は、制御コマンドを決定するために使用され得る。いくつかの実施形態では、ODEと更新されたゲインを有する最適な閉鎖モデルとを含む最適な減少次数モデル406は、システム102のための制御ポリシー106を開発し得る。制御ポリシー106は、システム102の動作を制御するために、システム102の状態を制御コマンドに直接マッピングし得る。制御コマンドの例は、システム102がHAVCシステムである場合、位置弁、圧縮器のスピード、蒸発器のパラメータなどを含む。制御コマンドの例は、システム102がロータである場合、ロータのスピード、モータの温度などを含む。また、制御コマンドは、システム102を制御するために、出力インターフェイス218を介してシステム102のアクチュエータに送信され得る。いくつかの実施形態は、システム102の動作が制約を受けるという認識に基づいている。制約は、システム102の連続状態空間における状態制約と、システム102の連続制御入力空間における制御入力制約とを含み得る。また、制約を受ける動作を制御するための装置200は、図12の詳細説明で説明される。
図12は、いくつかの実施形態に従った、システム102を制御するための制約を考慮するための予測モデルベースのアルゴリズム1200を示す。いくつかの実施形態は、従来のRL方法は制約されたシステム102のデータ駆動型制御に適していないという認識に基づいている。たとえば、従来のRL方法は、連続状態動作空間において状態制約および入力制約を満たすことを考慮していない。すなわち、従来のRL方法は、制御入力を用いて動作された制御されるシステム102の状態が動作全体を通して状態制約および入力制約を満たすことを保証できない。しかしながら、いくつかの実施形態は、RL方法が、RLのデータ駆動型の利点をモデルベースの制約された最適化と組合せることを可能にするという認識に基づいている。
その目的のために、いくつかの実施形態は、さまざまな予測モデルベースのアルゴリズムにおけるデータ駆動型適応によって決定されたシステム102のRLベースのモデル(たとえば、最適な減少次数モデル406)を使用する。いくつかの実施形態では、システム102を制御するための制約を考慮するために、最適化器1202が定式化される。いくつかの実施形態は、最適化器1202がモデル予測制御アルゴリズム(MPC)であってもよいという認識に基づいている。MPCは、制約を強制しながらシステム102を制御するために使用される制御方法である。その目的のために、いくつかの実施形態は、システム102の制御における制約を考慮するためにMPCを利用する。また、システム102を制御するための装置200のリアルタイム実現化例が、図13~15の詳細な説明で説明される。
図13は、システム102が空調システムである場合の、システム102を制御するための装置200の例示的なリアルタイム実現化例を示す。この例では、部屋1300は、ドア1302と、少なくとも1つの窓1304とを有する。部屋1300の温度および空気流は、換気ユニット1306を通り、空調システム102を介して、装置200によって制御される。部屋1300の中の所与の点での空気流の速度を測定するための少なくとも1つの空気流センサ1308a、および、室温を測定するための少なくとも1つの温度センサ1308bといった、1組のセンサ1308が、部屋1300の中に配置される。たとえば、複数のHVACユニットを有する部屋、または複数の部屋を有する家といった、他のタイプの設定が考慮され得る。
いくつかの実施形態は、空調システム102が、図3に例示的に示されるような、ブシネスク方程式と呼ばれる物理学ベースのモデルによって記述され得るという認識に基づいている。しかしながら、ブシネスク方程式は、空調システム102を制御するためにブシネスク方程式を解くための無限次元を含む。その目的のために、図1~12の詳細説明で説明されるように、ODE402と更新されたゲインを有する更新された閉鎖モデルとを含むモデルが定式化される。モデルは、空調システム102の力学(たとえば空気流力学)を最適な態様で再現する。また、いくつかの実施形態では、空調システム102の動作中、空気流力学のモデルは、空調された部屋1300の空気流の値(たとえば、空気流の速度)と温度とを結びつける。その目的のために、装置200は、調節された態様で空気流を生成するように空調システム102を最適に制御する。
図14Aは、システム102が車両1400である場合の、システム102を制御するための装置200の例示的なリアルタイム実現化例を示す。車両1400は、乗用車、バス、またはローバーといった任意のタイプの車輪付き車両であってもよい。また、車両1400は、自律車両または半自律車両であってもよい。たとえば、いくつかの実施形態は、車両1400の動きを制御する。動きの例は、車両1400の操舵システム1404によって制御される車両の横方向の動きを含む。一実施形態では、操舵システム1404は、コントローラ1402によって制御される。それに加えて、またはそれに代えて、操舵システム1404は、車両1400の運転者によって制御されてもよい。
いくつかの実施形態では、車両はエンジン1410を含んでいてもよく、それは、コントローラ1402によって、または車両1400の他の構成要素によって制御され得る。いくつかの実施形態では、車両は、エンジン1410の代わりに電気モータを含んでいてもよく、コントローラ1402によって、または車両1400の他の構成要素によって制御され得る。車両はまた、周囲環境を感知するための1つ以上のセンサ1406を含み得る。センサ1406の例は、レーダーなどの距離範囲探知機を含む。いくつかの実施形態では、車両1400は、その現在の動きのパラメータおよび内部ステータスを感知するための1つ以上のセンサ1408を含む。1つ以上のセンサ1408の例は、全地球測位システム(global positioning system:GPS)、加速度計、慣性測定ユニット、ジャイロスコープ、シャフト回転センサ、トルクセンサ、撓みセンサ、圧力センサ、および流量センサを含む。これらのセンサは、情報をコントローラ1402に提供する。車両は、コントローラ1402が有線または無線通信チャネルを通していくつかの実施形態の装置200と通信する能力を可能にするトランシーバ1412を搭載していてもよい。たとえば、トランシーバ1412を通して、コントローラ1402は、装置200から制御コマンドを受信する。また、コントローラ1402は、車両の動きを制御するために、受信された制御コマンドを、車両のハンドルおよび/またはブレーキといった車両1400の1つ以上のアクチュエータに出力する。
図14Bは、いくつかの実施形態に従った、車両1400の1つのコントローラ1402と複数のコントローラ1414との間の相互作用の概略図を示す。たとえば、いくつかの実施形態では、車両1400の複数のコントローラ1414は、車両1400の回転および加速を制御するクルーズコントロール141および障害物回避1418である。そのような場合、コントローラ1402は、車両の運動学的状態を制御するために、制御コマンドをコントローラ1416および1418に出力する。いくつかの実施形態では、複数のコントローラ1414はまた、高レベルコントローラ、たとえば、コントローラ1402の制御コマンドをさらに処理する車線保持コントローラ1420を含む。いずれの場合も、複数のコントローラ1414は、車両の動きを制御するために、コントローラ1402の出力(すなわち制御コマンド)を利用して、車両のハンドルおよび/またはブレーキといった車両の少なくとも1つのアクチュエータを制御する。いくつかの実施形態では、車両1400の動きは制約を受ける場合がある。制約は、図12の詳細説明で説明されるように考慮される。制約は、車両1400の連続状態空間における状態制約と、車両1400の連続制御入力空間における制御入力制約とを含み得る。いくつかの実施形態では、車両1400の状態は、車両1400の位置、配向、縦方向速度、および横方向速度のうちの1つまたはそれらの組合せを含む。状態制約は、速度制約、車線保持制約、および障害物回避制約のうちの1つまたはそれらの組合せを含む。
いくつかの実施形態では、制御入力は、横方向加速度、縦方向加速度、操舵角、エンジントルク、およびブレーキトルクのうちの1つまたはそれらの組合せを含む。制御入力制約は、操舵角制約および加速度制約のうちの1つまたはそれらの組合せを含む。
図15は、システム102が誘導モータ1500である場合の、システム102を制御するための装置200の例示的なリアルタイム実現化例を示す。この例では、誘導モータ1500は装置200と統合される。装置は、図1~12の詳細説明で説明されるように誘導モータ1500の動作を制御するように構成される。いくつかの実施形態では、誘導モータ1500の動作は制約を受ける場合がある。制約は、誘導モータ1500の連続状態空間における状態制約と、誘導モータ1500の連続制御入力空間における制御入力制約とを含む。いくつかの実施形態では、モータ1500の状態は、ステータ磁束、線電流、およびロータスピードのうちの1つまたはそれらの組合せを含む。状態制約は、ステータ磁束、線電流、およびロータスピードのうちの1つまたはそれらの組合せの値に対する制約を含む。いくつかの実施形態では、制御入力は、励起電圧の値を含む。制御入力制約は、励起電圧に対する制約を含む。
上述の説明は例示的な実施形態を提供するに過ぎず、この開示の範囲、利用可能性、または構成を限定するよう意図されてはいない。むしろ、例示的な実施形態の以下の説明は、1つ以上の例示的な実施形態を実現するための実施可能説明を当業者に提供するであろう。添付された請求項で述べられるように開示された主題の精神および範囲から逸脱することなく、要素の機能および配置において行なわれ得るさまざまな変更が考えられる。
実施形態の完全な理解を提供するために、特定の詳細が以下の説明で与えられる。しかしながら、当業者によって理解されれば、実施形態はこれらの特定の詳細がなくても実践されてもよい。たとえば、実施形態を不必要に詳細に述べて不明瞭にすることを避けるために、開示された主題におけるシステム、プロセス、および他の要素は、ブロック図の形式における構成要素として示されてもよい。他の事例では、実施形態を不明瞭にすることを避けるために、周知のプロセス、構造、および技術は、不必要な詳細なく示されてもよい。また、さまざまな図面における同じ参照番号および名称は、同じ要素を示す。
また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、またはブロック図として描かれるプロセスとして説明されてもよい。フローチャートは動作を逐次プロセスとして説明し得るが、動作の多くは並行してまたは同時に行なわれ得る。加えて、動作の順序は並べ替えられてもよい。プロセスはその動作が完了すると終了し得るが、図面で説明されていない、または図面に含まれていない追加のステップを有していてもよい。さらに、特に説明された任意のプロセスにおけるすべての動作が、すべての実施形態において生じるとは限らない。プロセスは、方法、機能、手順、サブルーチン、サブプログラムなどに対応していてもよい。プロセスが機能に対応する場合、その機能の終了は、その機能が呼出機能または主機能に戻ることに対応し得る。
さらに、開示された主題の実施形態は、少なくとも部分的に、手動でまたは自動的に実現されてもよい。手動のまたは自動的な実現化例は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組合せの使用を通して実行されるかまたは少なくとも支援されてもよい。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実現される場合、必要なタスクを行なうためのプログラムコードまたはコードセグメントは、マシン読取可能媒体に格納されてもよい。プロセッサが、必要なタスクを行なってもよい。
本明細書で概説されるさまざまな方法またはプロセスは、さまざまなオペレーティングシステムまたはプラットフォームのいずれか1つを採用する1つ以上のプロセッサ上で実行可能なソフトウェアとして符号化されてもよい。加えて、そのようなソフトウェアは、いくつかの好適なプログラミング言語および/またはプログラミングツールまたはスクリプトツールのいずれかを用いて書かれてもよく、フレームワークまたは仮想マシン上で実行される実行可能マシン言語コードまたは中間コードとしてコンパイルされてもよい。典型的には、プログラムモジュールの機能性は、さまざまな実施形態において所望されるように組合わされるかまたは分散されてもよい。
本開示の実施形態は、その例が提供された方法として具現化されてもよい。当該方法の一部として実行される動作は、任意の好適なやり方で順序付けられてもよい。したがって、例示的な実施形態では連続的な動作として示されていても、動作が図示とは異なる順序で実行される実施形態が構築されてもよい。この場合、いくつかの動作を同時に実行することも含まれてもよい。
本開示を、ある好ましい実施形態を参照して説明してきたが、本開示の精神および範囲内で他のさまざまな適応および変更が実施可能であることが理解されるはずである。したがって、添付の特許請求の範囲の局面は、本開示の真の精神および範囲内に収まるようにそのようなすべての変形および変更を網羅することである。

Claims (14)

  1. 工学的プロセスおよびマシンにおいて連続的に動作する力学的システム(102)の動作を制御するために構成された装置(100、200)であって、
    前記システムの一連の状態である状態軌道(216)を受信するように構成された入力インターフェイス(202)と、
    少なくとも1つの微分方程式(108a)と閉鎖モデル(108b)との組合せを含む前記システム(102)の力学を記述するモデル(104、208a)を格納するように構成されたメモリ(206)と、
    プロセッサ(204)とを含み、前記プロセッサは、
    受信された前記状態軌道(216)の形状と更新された前記閉鎖モデルを有する前記モデルを使用して推定された状態軌道(216)の形状との差異を減少させる値関数を有する強化学習RLを使用して、前記閉鎖モデル(108b)を更新するように構成され、前記状態軌道(216)の形状は、時間の関数としての前記システム(102)の一連の状態であり、前記プロセッサはさらに、
    更新された前記閉鎖モデルを有する前記モデルに基づいて制御コマンドを決定するように構成され、前記装置はさらに、
    前記システム(102)の前記動作を制御するために、前記制御コマンドを前記システム(102)のアクチュエータ(220)に送信するように構成された出力インターフェイス(218)を含み、
    前記モデルの前記微分方程式は、偏微分方程式PDEに従った前記システム(102)の物理モデルよりも少ない数のパラメータを有する前記システム(102)の減少次数モデルを定義し、前記減少次数モデルは常微分方程式ODEであり、更新された前記閉鎖モデルは、前記ODEおよび前記PDEに従った前記システム(102)の挙動の差異を捕らえる前記システム(102)の状態の非線形関数であり、
    前記偏微分方程式PDEは、ブシネスク方程式であり、
    更新された前記閉鎖モデルはゲインを含み、前記プロセッサ(204)は、更新された前記ゲインを有する更新された前記閉鎖モデルを有する前記モデルを用いて推定された前記システム(102)の状態と前記システム(102)の実際の状態との誤差を減少させる前記ゲインを決定するように構成され、
    前記システム(102)の前記実際の状態は、測定された状態である、装置。
  2. 前記プロセッサ(204)は、前記システム(102)の状態の線形関数を用いて前記閉鎖モデル(108b)を初期化し、終了条件が満たされるまで前記RLを用いて前記閉鎖モデル(108b)を反復的に更新するように構成される、請求項1に記載の装置(100、200)
  3. 前記システム(102)の前記実際の状態は、前記システム(102)の力学を記述する偏微分方程式PEを用いて推定された状態である、請求項に記載の装置(100、200)
  4. 前記プロセッサ(204)は、極値探索を使用して前記ゲインを更新する、請求項に記載の装置(100、200)
  5. 前記プロセッサ(204)は、ガウス過程ベースの最適化を使用して前記ゲインを更新する、請求項に記載の装置(100、200)
  6. 前記システム(102)の前記動作は制約を受け、前記RLは前記制約を考慮せずに前記閉鎖モデル(108b)を更新し、前記プロセッサ(204)は、前記制約を受ける更新された前記閉鎖モデル(108b)を有する前記モデルを使用して前記制御コマンドを決定する、請求項1に記載の装置(100、200)
  7. 前記制約は、前記システム(102)の連続状態空間における状態制約と、前記システム(102)の連続制御入力空間における制御入力制約とを含む、請求項に記載の装置(100、200)
  8. 前記プロセッサ(204)は、前記制約を強制しながら前記制御コマンドを決定するために、予測モデルベースの制御を使用する、請求項に記載の装置(100、200)
  9. 前記システム(102)は、車線保持、クルーズコントロール、および障害物回避動作のうちの1つまたはそれらの組合せを行なうように制御される車両であり、
    前記車両の状態は、前記車両の位置、配向、縦方向速度、および横方向速度のうちの1つまたはそれらの組合せを含み、
    制御入力は、横方向加速度、縦方向加速度、操舵角、エンジントルク、およびブレーキトルクのうちの1つまたはそれらの組合せを含み、
    前記状態制約は、速度制約、車線保持制約、および障害物回避制約のうちの1つまたはそれらの組合せを含み、
    前記制御入力制約は、操舵角制約および加速度制約のうちの1つまたはそれらの組合せを含む、請求項に記載の装置(100、200)
  10. 前記システム(102)は、タスクを行なうように制御される誘導モータであり、
    前記モータの状態は、ステータ磁束、線電流、およびロータスピードのうちの1つまたはそれらの組合せを含み、
    制御入力は、励起電圧の値を含み、
    前記状態制約は、前記ステータ磁束、前記線電流、および前記ロータスピードのうちの1つまたはそれらの組合せの値に対する制約を含み、
    前記制御入力制約は、前記励起電圧に対する制約を含む、請求項に記載の装置(100、200)
  11. 前記システム(102)は、調節された環境において空気流を生成する空調システム(102)であり、前記モデルは、前記空調システム(102)の動作中に調節される空気の流れおよび温度の値を結びつける空気流力学のモデルである、請求項1に記載の装置(100、200)
  12. 前記RLは、前記値関数を最小化するように訓練されたニューラルネットワークを使用する、請求項1に記載の装置(100、200)
  13. 工学的プロセスおよびマシンにおいて連続的に動作する力学的システム(102)の動作を制御するための方法であって、前記方法は、少なくとも1つの微分方程式(108a)と閉鎖モデル(108b)との組合せを含む前記システム(102)の力学のモデルを格納するメモリに結合されたプロセッサ(204)を使用し、前記プロセッサ(204)は、前記プロセッサ(204)によって実行されると前記方法のステップを行なう格納された命令と結合されており、前記方法は、
    前記システム(102)一連の状態である状態軌道(216)を受信するステップと、
    受信された前記状態軌道の形状と更新された前記閉鎖モデルを有する前記モデルを使用して推定された状態軌道(216)の形状との差異を減少させる値関数を有する強化学習RLを使用して、前記閉鎖モデルを更新するステップとを含み、状態軌道(216)の形状は、時間の関数としての前記システム(102)の一連の状態であり、前記方法はさらに
    更新された前記閉鎖モデルを有する前記モデルに基づいて制御コマンドを決定するステップと、
    前記システム(102)の前記動作を制御するために、前記制御コマンドを前記システムのアクチュエータに送信するステップとを含み、
    前記モデルの前記微分方程式は、ブシネスク方程式に従った前記システム(102)の物理モデルよりも少ない数のパラメータを有する前記システム(102)の減少次数モデルを定義し、前記ブシネスク方程式は偏微分方程式PDEであり、前記減少次数モデルは常微分方程式ODEであり、更新された前記閉鎖モデルは、前記ODEおよび前記PDEに従った前記システム(102)の挙動の差異を捕らえる前記システム(102)の状態の非線形関数であり、
    更新された前記閉鎖モデルはゲインを含み、前記方法はさらに、更新された前記ゲインを有する更新された前記閉鎖モデル(108b)を有する前記モデルを用いて推定された前記システムの状態と前記システム(102)の実際の状態との誤差を減少させる前記ゲインを決定するステップを含み、
    前記システム(102)の前記実際の状態は、測定された状態である、方法。
  14. 前記システム(102)の前記動作は制約を受け、前記RLは前記制約を考慮せずに前記閉鎖モデル(108b)を更新し、前記方法はさらに、前記制約を受ける更新された前記閉鎖モデル(108b)を有する前記モデルを使用して前記制御コマンドを決定するステップを含む、請求項1に記載の方法。
JP2022579161A 2020-03-20 2021-01-08 データ駆動型モデル適応を用いる制御のための装置および方法 Active JP7357813B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/824,949 US11840224B2 (en) 2020-03-20 2020-03-20 Apparatus and method for control with data-driven model adaptation
US16/824,949 2020-03-20
PCT/JP2021/002353 WO2021186894A1 (en) 2020-03-20 2021-01-08 Apparatus and method for control with data-driven model adaptation

Publications (2)

Publication Number Publication Date
JP2023517142A JP2023517142A (ja) 2023-04-21
JP7357813B2 true JP7357813B2 (ja) 2023-10-06

Family

ID=74844961

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022579161A Active JP7357813B2 (ja) 2020-03-20 2021-01-08 データ駆動型モデル適応を用いる制御のための装置および方法

Country Status (5)

Country Link
US (1) US11840224B2 (ja)
EP (1) EP3928167B1 (ja)
JP (1) JP7357813B2 (ja)
CN (1) CN115298622A (ja)
WO (1) WO2021186894A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114428460A (zh) * 2022-01-28 2022-05-03 青岛科技大学 一种数据驱动的动态内模控制技术
CN114527768B (zh) * 2022-03-07 2023-06-30 上海海事大学 基于hjb方程数据驱动解的无人船最优避障路径规划方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019181038A1 (en) 2018-03-21 2019-09-26 Mitsubishi Electric Corporation System and method for controlling operation of air-conditioning system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11531308B2 (en) * 2019-12-23 2022-12-20 Johnson Controls Tyco IP Holdings LLP Adaptively learning surrogate model for predicting building system dynamics from simulation model

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019181038A1 (en) 2018-03-21 2019-09-26 Mitsubishi Electric Corporation System and method for controlling operation of air-conditioning system

Also Published As

Publication number Publication date
CN115298622A (zh) 2022-11-04
WO2021186894A1 (en) 2021-09-23
EP3928167B1 (en) 2023-08-09
US20210291826A1 (en) 2021-09-23
EP3928167A1 (en) 2021-12-29
US11840224B2 (en) 2023-12-12
JP2023517142A (ja) 2023-04-21

Similar Documents

Publication Publication Date Title
EP3924884B1 (en) System and method for robust optimization for trajectory-centric model-based reinforcement learning
JP7297155B2 (ja) マシンの動作を制御するためのシステムおよびコンピュータ実施方法
CN113498523B (zh) 用于控制机器对象的操作的装置和方法以及存储介质
US10895854B1 (en) System and method for control constrained operation of machine with partially unmodeled dynamics using Lipschitz constant
JP7357813B2 (ja) データ駆動型モデル適応を用いる制御のための装置および方法
US11474486B2 (en) Model-based control with uncertain motion model
Murilo et al. Real-time implementation of a parameterized Model Predictive Control for Attitude Control Systems of rigid-flexible satellite
Menner et al. Automated controller calibration by Kalman filtering
Kim et al. TOAST: trajectory optimization and simultaneous tracking using shared neural network dynamics
Wang et al. Differentiable moving horizon estimation for robust flight control
CN116382093A (zh) 用于模型未知的非线性***最优控制方法及设备
An et al. Prediction of angular acceleration for practical realization of incremental nonlinear trajectory-tracking control for aircrafts
Rahmani et al. Optimal control of a MEMS gyroscope based on the Koopman theory
Rahmani et al. Data-driven Koopman fractional order PID control of a MEMS gyroscope using bat algorithm
US11790247B2 (en) Robust adaptive dynamic mode decomposition for modeling, prediction, and control of high dimensional physical systems
Pandey et al. Learning koopman operators with control using bi-level optimization
US12038727B2 (en) System for performing a task according to a reference trajectory
US20220308530A1 (en) System for Performing a Task According to a Reference Trajectory
Cedro et al. An Adaptive PID Control System for the Attitude and Altitude Control of a Quadcopter
US20230341141A1 (en) Time-varying reinforcement learning for robust adaptive estimator design with application to HVAC flow control
US20240152748A1 (en) System and Method for Training of neural Network Model for Control of High Dimensional Physical Systems
Machado et al. Hybrid Predictive Control of Quadcopters Based on GOBF Models
JP2023539698A (ja) ダイナミクスにおける不確実性を有するシステムを制御するための装置および方法
WO2024034204A1 (en) System and method for controlling an operation of a device
JP2024524771A (ja) フィードバックコントローラを較正するためのシステムおよび方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220907

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220907

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230828

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230829

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230926

R150 Certificate of patent or registration of utility model

Ref document number: 7357813

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150