JP7357813B2

JP7357813B2 - データ駆動型モデル適応を用いる制御のための装置および方法

Info

Publication number: JP7357813B2
Application number: JP2022579161A
Authority: JP
Inventors: ベノスマン，モウハシン; チャクラバルティ，アンクシュ; ナビ，サレー
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2020-03-20
Filing date: 2021-01-08
Publication date: 2023-10-06
Anticipated expiration: 2041-01-08
Also published as: CN115298622A; WO2021186894A1; EP3928167B1; US20210291826A1; EP3928167A1; US11840224B2; JP2023517142A

Description

この発明は一般に、システムのモデル化および制御に関し、より特定的には、マシンをモデル化し、シミュレートし、制御するために強化学習を用いるデータ駆動型モデル適応のための方法および装置に関する。

制御システム工学における制御理論は、工学的プロセスおよびマシンにおいて連続的に動作する力学的システムの制御を扱う数学の下位分野である。目的は、遅延またはオーバーシュートなく最適の態様で制御動作を使用してそのようなシステムを制御し、制御安定性を保証するための制御ポリシーを開発することである。

たとえば、モデル予測制御（model predictive control：ＭＰＣ）などの最適化ベースの制御および推定技術は、システムの力学および制約が直接考慮され得るモデルベースの設計フレームワークを可能にする。ＭＰＣは、さまざまな複雑性の力学的システムを制御するために、多くの用途で使用される。そのようなシステムの例は、生産ライン、自動車エンジン、ロボット、数値制御機械加工、モータ、衛星、および発電機を含む。本明細書で使用される場合、システムの力学のモデルまたはシステムのモデルは、微分方程式を使用して当該システムの力学を記述する。たとえば、ｐ個の入力ｕとｑ個の出力ｙとｎ個の状態変数ｘとを用いる線形システムの最も一般的なモデルは、以下の形で書かれる。

しかしながら、多くの状況では、制御されるシステムのモデルは非線形であり、設計すること、リアルタイムで使用することが難しい場合があり、または不正確である場合がある。そのような場合の例は、ロボット工学、建物制御（ＨＶＡＣ）、スマートグリッド、工場自動化、輸送、自己調整マシン、および交通網において普及している。加えて、たとえ非線形モデルがまさに利用可能であっても、最適なコントローラを設計することは本質的に困難なタスクである。なぜなら、ハミルトン・ヤコビ・ベルマン（Hamilton-Jacobi-Bellman：ＨＪＢ）方程式と呼ばれる偏微分方程式を解く必要があるためである。

力学的システムの正確なモデルがない場合、いくつかの制御方法は、システム力学を安定させるかまたは定量化可能な制御関連性能を組込むフィードバック制御ポリシーを構築するために、力学的システムによって生成された動作データを活用する。制御ポリシーを設計するための動作データの使用は、データ駆動型制御と呼ばれる。データ駆動型制御方法には、（ｉ）まずシステムのモデルを構築し、次に当該モデルを活用してコントローラを設計する間接的方法と、（ｉｉ）中間のモデル構成ステップなしでデータから制御ポリシーを直接構築する直接的方法との２種類がある。

間接的方法の欠点は、モデル構築段階において大量のデータが必要とされる可能性があることである。加えて、間接的制御方法では、コントローラは、推定されたモデルから、たとえば確実性等価原理に従って計算されるが、実際には、データから推定されたモデルは、システムの力学の物理学を捕らえていない。よって、多くのモデルベースの制御技術は、そのようなデータ駆動型モデルを用いて使用することができない。

この問題を克服するために、いくつかの方法は、モデルが合間に識別されることなく実験データをコントローラ上に直接マッピングするために直接的制御方法を使用する。しかしながら、直接的制御方法は、システムの状態を制御コマンドに直接マッピングする制御ポリシーのブラックボックス設計をもたらす。しかしながら、そのような制御ポリシーは、システムの物理学を考慮して設計されていない。加えて、制御設計者は、制御ポリシーのデータ駆動型決定に影響を与えることができない。

したがって、システムを最適の態様で制御するための方法および装置に対する要望が依然として存在する。

いくつかの実施形態の目的は、システムの挙動の物理学を捕らえるシステムの力学のモデルを生成するために、システムの力学のモデルのデータ駆動型設計のための装置および方法を提供することである。そのような態様で、これらの実施形態は、制御アプリケーションを設計する際にシステムのモデルを有するという利点を保ちながら、モデル設計プロセスを簡略化する。しかしながら、現在のデータ駆動型方法は、システムの物理的力学を捕らえるシステムのモデルを推定するのに適していない。

たとえば、強化学習（reinforcement learning：ＲＬ）は、累積報酬の何らかの概念を最大化する（言い換えれば、累積損失／コストを最小化する）ように環境においてどのような措置を取るかに関わる機械学習の領域である。強化学習は、連続状態入力空間における最適な制御と関連付けられ、それは概して、制御されるシステムおよび／または環境の数学モデルがない場合の最適な制御ポリシーおよびそれらの計算用アルゴリズムの存在および特徴付けに関わる。

ＲＬ方法によって提供される利点に鑑み、いくつかの実施形態は、微分方程式を用いて記述され得る力学的システムのための最適な制御ポリシーをもたらすＲＬ技術を開発することを目標とする。しかしながら、制御ポリシーは、システムの状態を制御コマンドにマッピングしており、このマッピングをシステムの物理的力学に基づいて行なわず、または、少なくとも行なう必要がない。よって、システムの力学を記述するために１つまたは複数の微分方程式を有する、物理的な意味を有するモデルのＲＬベースのデータ駆動型推定は、制御コミュニティによって調査されていない。

いくつかの実施形態は、報酬関数が学習されたモデルに従ったシステムの挙動とシステムの実際の挙動との差異の最小化である場合に、物理的な意味を有するシステムの力学のモデルのＲＬデータ駆動型学習が仮想制御問題として見られ得るという認識に基づいている。とりわけ、システムの挙動は、システムの高レベルの特徴付け、たとえばシステムの安定性、状態の有界性である。実際、システムは、制御されない状況でも挙動を有する。残念ながら、ＲＬによるそのようなモデルの推定は、計算が困難である。

その目的のために、いくつかの実施形態は、システムのモデルが、閉鎖モデルと呼ばれる、仮想制御項と組合された減少次数モデルで表わされ得るという認識に基づいている。たとえば、システムの完全に物理学ベースのモデルが典型的には偏微分方程式（partial differential equation：ＰＤＥ）によって捕らえられる場合、減少次数モデルは、常微分方程式（ordinary differential equation：ＯＤＥ）によって表わされ得る。ＯＤＥは、システムの力学を時間の関数として表わすが、ＰＤＥを使用して力学を表わすことほど正確ではない。よって、閉鎖モデルの目的は、このギャップを小さくすることである。

本明細書で使用される場合、閉鎖モデルは、ＯＤＥおよびＰＤＥによって推定されたシステムの挙動の差異を捕らえるシステムの状態の非線形関数である。よって、閉鎖モデルは、ＯＤＥおよびＰＤＥによって捕らえられた力学間の力学差異を表わす時間の関数でもある。いくつかの実施形態は、ＰＤＥ方程式を解くことは計算が高くつくため、システムの力学をＯＤＥと閉鎖モデルとの組合せとして表わすことはシステムのその後の制御を簡略化することができるという理解に基づいている。したがって、いくつかの実施形態は、力学をＯＤＥおよび閉鎖モデルで表わし、閉鎖モデルのみを更新することによって、システムの力学のデータ駆動型推定を簡略化しようとしている。しかしながら、この問題は、計算がより単純であるものの、ＲＬのフレームワークにおいて定式化される場合には困難でもある。これは、通常、ＲＬは、システムを正確に制御するための制御ポリシーを学習するために使用されるためである。ここでは、これと同様に、ＲＬは、閉鎖モデルを正確に推定しようとするべきであり、それは困難である。

しかしながら、いくつかの実施形態は、多くのモデル化状況では、システムの力学の挙動そのものではなく挙動のパターンを表わすことが十分であるという認識に基づいている。たとえば、挙動そのものが各時点でシステムのエネルギーを捕らえる場合、挙動のパターンは、エネルギーの変化率を捕らえる。一例として、システムが励起されると、システムのエネルギーは増加する。システムの力学の挙動そのものを知ることは、そのようなエネルギー増加を評価することを可能にする。システムの力学の挙動のパターンを知ることは、エネルギーの実際の値に比例する新たな値を推定するために増加率を評価することを可能にする。

このため、システムの力学の挙動のパターンは挙動そのものではないが、多くのモデルベースの制御アプリケーションでは、システムの力学の挙動のパターンは、リアプノフ（Lyapunov）安定制御を設計するのに十分である。そのような制御アプリケーションの例は、システムの状態を安定させることを目標とする安定化制御を含む。

その目的のために、いくつかの実施形態はＲＬを使用して、ＯＤＥおよび更新されたＣＬの力学がシステムの力学のパターンを模倣するように閉鎖モデルを更新する。いくつかの実施形態は、力学のパターンが、システムの状態の値とは対照的に、時間の関数として決定された状態軌道の形状によって表わされ得るという認識に基づいている。状態軌道は、システムがオンラインで機能している間に測定され得る。それに加えて、またはそれに代えて、状態軌道は、ＰＤＥを使用してシミュレートされ得る。

その目的のために、いくつかの実施形態は、ＯＤＥと閉鎖モデルとの組合せを含むシステムのモデルを使用してシステムを制御し、状態軌道の実際の形状と更新された閉鎖モデルを伴うＯＤＥを使用して推定された状態軌道の形状との差異を減少させる値関数を有するＲＬを用いて閉鎖モデルを更新する。

しかしながら、収束後、更新されたＣＬを伴うＯＤＥは、システムの挙動の力学のパターンを表わすが、挙動の実際の値を表わさない。言い換えれば、更新されたＣＬを伴うＯＤＥは、システムの実際の物理的力学に比例する関数である。その目的のために、いくつかの実施形態は、後でシステムのオンライン制御中にＲＬよりもモデルベースの最適化に適した方法で学習される閉鎖モデルにゲインを含める。これらの方法の例は、極値探索、ガウス過程ベースの最適化などである。

それに加えて、またはそれに代えて、いくつかの実施形態は、さまざまなモデル予測制御、たとえばＭＰＣにおいて、データ駆動型適応によって決定されたシステムのモデルを使用する。これらの実施形態は、ＭＰＣがシステムの制御における制約を考慮する能力から利点を得ることを可能にする。たとえば、従来のＲＬ方法は、制約されたシステムのデータ駆動型制御に適していない。これは、従来のＲＬ方法が、連続状態動作空間において状態制約および入力制約を満たすことを考慮していないためである。すなわち、従来のＲＬが、制御入力を用いて動作された制御されるシステムの状態が動作全体を通して状態制約および入力制約を満たすことを保証できないためである。

しかしながら、いくつかの実施形態はＲＬを使用してシステムの物理学を学習し、ＲＬのデータ駆動型の利点をモデルベースの制約された最適化と組合せることを可能にする。

したがって、一実施形態は、システムの動作を制御するための装置を開示する。装置は、システムの状態軌道を受信するように構成された入力インターフェイスと、少なくとも１つの微分方程式と閉鎖モデルとの組合せを含むシステムの力学のモデルを格納するように構成されたメモリと、プロセッサとを含み、プロセッサは、受信された状態軌道の形状と更新された閉鎖モデルを有するモデルを使用して推定された状態軌道の形状との差異を減少させる値関数を有する強化学習（ＲＬ）を使用して閉鎖モデルを更新し、更新された閉鎖モデルを有するモデルに基づいて制御コマンドを決定するように構成され、装置はさらに、システムの動作を制御するために、制御コマンドをシステムのアクチュエータに送信するように構成された出力インターフェイスを含む。

別の実施形態は、システムの動作を制御するための方法を開示する。方法は、少なくとも１つの微分方程式と閉鎖モデルとの組合せを含むシステムの力学のモデルを格納するメモリに結合されたプロセッサを使用し、プロセッサは、プロセッサによって実行されると方法のステップを行なう格納された命令と結合されており、方法は、システムの状態軌道を受信するステップと、受信された状態軌道の形状と更新された閉鎖モデルを有するモデルを使用して推定された状態軌道の形状との差異を減少させる値関数を有する強化学習（ＲＬ）を使用して、閉鎖モデルを更新するステップと、更新された閉鎖モデルを有するモデルに基づいて制御コマンドを決定するステップと、システムの動作を制御するために、制御コマンドをシステムのアクチュエータに送信するステップとを含む。

ここに開示される実施形態を、添付図面を参照してさらに説明する。示された図面は必ずしも縮尺通りではなく、代わりに、ここに開示される実施形態の原理を例示することに重きが概して置かれている。

システムの動作を制御するためにいくつかの実施形態によって使用される原理の概略的概観を示す図である。いくつかの実施形態に従った、システムの動作を制御するための装置のブロック図である。いくつかの実施形態に従った、システムを制御するための原理のフローチャートを示す図である。いくつかの実施形態に従った、減少次数モデルを生成するための概略的なアーキテクチャを示す図である。いくつかの実施形態に従った、強化学習（ＲＬ）に基づいた減少次数モデルの概略図である。この発明の一実施形態に従った、ＲＬを使用して閉鎖モデルを更新するための動作のフローチャートを示す図である。いくつかの実施形態に従った、システムの実際の挙動と推定された挙動との差異を示す図である。この発明の一実施形態に従った、最適な閉鎖モデルを調整するための最適化アルゴリズムの概略図である。この発明の一実施形態に従った、最適な閉鎖モデルを調整するための最適化アルゴリズムの概略図である。この発明の一実施形態に従った、最適な閉鎖モデルを調整するための最適化アルゴリズムの概略図である。この発明の別の実施形態に従った、最適な閉鎖モデルを調整するための最適化アルゴリズムの概略図である。この発明の別の実施形態に従った、最適な閉鎖モデルを調整するための最適化アルゴリズムの概略図である。この発明の別の実施形態に従った、最適な閉鎖モデルを調整するための最適化アルゴリズムの概略図である。いくつかの実施形態に従った、ゲインを更新するための極値探索（extremum seeking：ＥＳ）アルゴリズムのフローチャートを示す図である。いくつかの実施形態に従った、ゲインを更新するために性能コスト関数を使用する極値探索（ＥＳ）アルゴリズムのフローチャートを示す図である。いくつかの実施形態に従った、単一のパラメータ調整のための極値探索（ＥＳ）コントローラの概略図である。いくつかの実施形態に従った、複数のパラメータ調整のための極値探索（ＥＳ）コントローラの概略図である。いくつかの実施形態に従った、システムを制御するための制約を考慮するための予測モデルベースのアルゴリズムを示す図である。システムが空調システムである場合の、システムを制御するための装置の例示的なリアルタイム実現化例を示す図である。システムが車両である場合の、システムを制御するための装置の例示的なリアルタイム実現化例を示す図である。いくつかの実施形態に従った、車両の１つのコントローラと複数のコントローラとの間の相互作用の概略図である。システムが誘導モータである場合の、システムを制御するための装置の例示的なリアルタイム実現化例を示す図である。

以下の説明では、説明する目的のために、多くの特定の詳細が、本開示の完全な理解を提供するために述べられる。しかしながら、これらの特定の詳細がなくても本開示が実践され得ることは、当業者には自明であろう。他の事例では、本開示を不明瞭にすることを避けるために、装置および方法はブロック図の形式でのみ示される。

この明細書および請求項で使用される場合、「たとえば」、「といった」、「などの」という用語、ならびに「備える」、「有する」、「含む」という動詞およびそれらの他の動詞形は、１つ以上の構成要素または他の項目のリストとともに使用される場合、非限定的であるとして各々解釈されるべきである。すなわち、リストは、他の追加の構成要素または項目を除外するものとして考慮されるべきではない。「に基づいて」という用語は、少なくとも部分的に基づいていることを意味する。また、明細書で採用されている言葉遣いおよび用語は説明のためのものであり、限定的であると見なされるべきでないということが理解されるはずである。この説明内で利用されるどの見出しも便宜上のものに過ぎず、法的効果または限定する効果を有していない。

図１は、システムの動作を制御するためにいくつかの実施形態によって使用される原理の概略的概観を示す。いくつかの実施形態は、システム１０２を制御するように構成された制御装置１００を提供する。たとえば、装置１００は、工学的プロセスおよびマシンにおいて連続的に動作する力学的システム１０２を制御するように構成され得る。以下、「制御装置」および「装置」は交換可能に使用されてもよく、同じことを意味するであろう。以下、「連続的に動作する力学的システム」および「システム」は交換可能に使用されてもよく、同じことを意味するであろう。システム１０２の例は、ＨＶＡＣシステム、ＬＩＤＡＲシステム、凝縮ユニット、生産ライン、自己調整マシン、スマートグリッド、自動車エンジン、ロボット、数値制御機械加工、モータ、衛星、発電機、交通網などである。いくつかの実施形態は、装置１００が、遅延またはオーバーシュートなく最適の態様で制御動作を使用してシステム１０２を制御し、制御安定性を保証するための制御ポリシー１０６を開発するという認識に基づいている。

いくつかの実施形態では、装置１００は、システム１０２のための制御コマンド１０６を開発するために、モデル予測制御（ＭＰＣ）などのモデルベースのおよび／または最適化ベースの制御および推定技術を使用する。モデルベースの技術は、力学的システムの制御にとって有利であり得る。たとえば、ＭＰＣは、システム１０２の力学および制約が直接考慮され得るモデルベースの設計フレームワークを可能にする。ＭＰＣは、システムのモデル１０４に基づいて制御コマンド１０６を開発する。システム１０２のモデル１０４とは、微分方程式を使用して記述されるシステム１０２の力学を指す。いくつかの実施形態では、モデル１０４は非線形であり、設計すること、および／またはリアルタイムで使用することが難しい場合がある。たとえば、たとえ非線形モデルがまさに利用可能であっても、最適な制御コマンド１０６を推定することは本質的に困難なタスクである。なぜなら、ハミルトン・ヤコビ・ベルマン（ＨＪＢ）方程式と呼ばれる、システム１０２の力学を記述する偏微分方程式（ＰＤＥ）を解く必要があり、それは計算が困難であるためである。

いくつかの実施形態は、モデル１０４を設計するためにデータ駆動型制御技術を使用する。これらのデータ駆動型技術は、システム１０２を安定させるフィードバック制御ポリシーを構築するために、システム１０２によって生成された動作データを活用する。たとえば、システム１０２の動作中に測定されたシステム１０２の各状態は、システム１０２を制御するためのフィードバックとして与えられてもよい。一般に、制御ポリシーおよび／またはコマンド１０６を設計するための動作データの使用は、データ駆動型制御と呼ばれる。データ駆動型制御の目的は、データから制御ポリシーを設計し、そのデータ駆動型制御ポリシーを使用してシステムを制御することである。そのようなデータ駆動型制御アプローチとは対照的に、いくつかの実施形態は、動作データを使用して制御システムのモデル、たとえばモデル１０４を設計し、次に、そのデータ駆動型モデルを使用して、さまざまなモデルベースの制御方法を使用するシステムを制御する。なお、いくつかの実施形態の目的は、システムの実際のモデル、すなわち、システムの挙動を推定するために使用され得るようなモデルをデータから決定することである。たとえば、いくつかの実施形態の目的は、微分方程式を使用してシステムの力学を捕らえるシステムのモデルをデータから決定することである。それに加えて、またはそれに代えて、いくつかの実施形態の目的は、物理学ベースのＰＤＥモデル精度を有するモデルをデータから学習することである。

計算を簡略化するために、いくつかの実施形態は、システム１０２の力学を記述するために常微分方程式（ＯＤＥ）１０８ａを定式化する。いくつかの実施形態では、ＯＤＥ１０８ａは、モデル縮小技術を使用して定式化されてもよい。たとえば、ＯＤＥ１０８ａは、ＰＤＥの減少次元であってもよい。その目的のために、ＯＤＥ１０８ａは、ＰＤＥの一部であり得る。しかしながら、いくつかの実施形態では、不確実性条件の場合、ＯＤＥ１０８ａは、システム１０２の実際の力学（すなわち、ＰＤＥによって記述された力学）を再現しない。不確実性条件の例は、ＰＤＥの境界条件が経時変化している場合、または、ＰＤＥに関与する係数のうちの１つが変化している場合であってもよい。

その目的のために、いくつかの実施形態は、不確実性条件の場合を網羅しながら、ＰＤＥを解く閉鎖モデル１０８ｂを定式化する。いくつかの実施形態では、閉鎖モデル１０８ｂは、ＯＤＥおよびＰＤＥに従ったシステム１０２の挙動（たとえば力学）の差異を捕らえるシステム１０２の状態の非線形関数であってもよい。閉鎖モデル１０８ｂは、強化学習（ＲＬ）を使用して定式化されてもよい。言い換えれば、システム１０２のＰＤＥモデルは、ＯＤＥ１０８ａと閉鎖モデル１０８ｂとの組合せによって近似化され、閉鎖モデル１０８ｂは、ＲＬを使用してデータから学習される。そのような態様で、ＰＤＥの精度に近づくモデルが、データから学習される。

いくつかの実施形態では、ＲＬは、システム１０２の個々の状態を学習するのではなく、システム１０２の挙動を定義するシステム１０２の状態軌道を学習する。状態軌道は、システム１０２の一連の状態であってもよい。いくつかの実施形態は、ＯＤＥ１０８ａと閉鎖モデル１０８ｂとを含むモデル１０８が、システム１０２の実際の挙動値（たとえば状態）ではなく、システム１０２の挙動のパターンを再現するという認識に基づいている。システム１０２の挙動のパターンは、状態軌道の形状、たとえば、時間の関数としてのシステムの一連の状態を表わしてもよい。システム１０２の挙動のパターンはまた、モデルの高レベルの特徴、たとえば、経時的なその解の有界性、または経時的なその解の減衰を表わしてもよいが、それは、システムの力学を最適に再現しない。

その目的のために、いくつかの実施形態は、システム１０２の力学を最適に再現するために、ゲインを決定し、ゲインを閉鎖モデル１０８ｂに含める。いくつかの実施形態では、ゲインは、最適化アルゴリズムを使用して更新されてもよい。ＯＤＥ１０８ａと更新されたゲインを有する閉鎖モデル１０８ｂとを含むモデル１０８は、システム１０２の力学を再現する。したがって、モデル１０８は、システム１０２の力学を最適に再現する。いくつかの実施形態は、モデル１０８がＰＤＥよりも少ない数のパラメータを含むという認識に基づいている。その目的のために、モデル１０８は、システム１０２の物理モデルを記述するＰＤＥほど計算が複雑ではない。いくつかの実施形態では、制御ポリシー１０６は、モデル１０８を使用して決定される。制御ポリシー１０６は、システム１０２の動作を制御するために、システム１０２の状態を制御コマンドに直接マッピングする。したがって、システム１０２のための制御を効率的に設計するために、縮小されたモデル１０８が使用される。

図２は、いくつかの実施形態に従った、システム１０２の動作を制御するための装置２００のブロック図を示す。装置２００は、装置２００を他のシステムおよびデバイスと接続するための入力インターフェイス２０２および出力インターフェイス２１８を含む。いくつかの実施形態では、装置２００は、複数の入力インターフェイスと、複数の出力インターフェイスとを含んでいてもよい。入力インターフェイス２０２は、システム１０２の状態軌道２１６を受信するように構成される。入力インターフェイス２０２は、バス２１０を通して装置２００をネットワーク２１４に接続するように適合されたネットワークインターフェイスコントローラ（network interface controller：ＮＩＣ）２１２を含む。無線または有線でネットワーク２１４を通して、装置２００は、システム１０２の状態軌道２１６を受信する。

状態軌道２１６は、システム１０２の力学の実際の挙動を定義するシステム１０２の複数の状態であってもよい。たとえば、状態軌道２１６は、システム１０２を制御するための基準連続状態空間として作用する。いくつかの実施形態では、状態軌道２１６は、システム１０２の状態の部分のリアルタイム測定から受信されてもよい。いくつかの他の実施形態では、状態軌道２１６は、システム１０２の力学を記述するＰＤＥを使用してシミュレートされてもよい。いくつかの実施形態では、受信された状態軌道のために、形状が、時間の関数として決定されてもよい。状態軌道の形状は、システム１０２の挙動の実際のパターンを表わしてもよい。

装置２００はさらに、プロセッサ２０４と、プロセッサ２０４によって実行可能な命令を格納するメモリ２０６とを含む。プロセッサ２０４は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスタ、または任意の数の他の構成であってもよい。メモリ２０６は、ランダムアクセスメモリ（random access memory：ＲＡＭ）、読取専用メモリ（read only memory：ＲＯＭ）、フラッシュメモリ、または任意の他の好適なメモリシステムを含んでいてもよい。プロセッサ２０４は、バス２１０を通して、１つ以上の入力および出力デバイスに接続される。格納された命令は、システム１０２の動作を制御するための方法を実現する。

メモリ２０６はさらに、ストレージ２０８を含むように拡張されてもよい。ストレージ２０８は、モデル２０８ａと、コントローラ２０８ｂと、更新モジュール２０８ｃと、制御コマンドモジュール２０８ｄとを格納するように構成されてもよい。いくつかの実施形態では、モデル２０８ａは、システム１０２の力学を記述するモデルであってもよく、それは、少なくとも１つの微分方程式と閉鎖モデルとの組合せを含む。モデル２０８ａの微分方程式は、常微分方程式（ＯＤＥ）１０８ａであってもよい。モデル２０８ａの閉鎖モデルは、システム１０２の状態の線形関数または非線形関数であってもよい。閉鎖モデルは、システム１０２の挙動を模倣するために、ＲＬを使用して学習されてもよい。理解されるはずであるように、閉鎖モデルがいったん学習されると、閉鎖モデルは、図１に示されるような閉鎖モデル１０８ｂであってもよい。

コントローラ２０８ｂは、プロセッサ２０４によって実行されるとストレージ２０８内の１つ以上のモジュールを実行する命令を格納するように構成されてもよい。いくつかの実施形態は、コントローラ２０８ｂがシステム１０２を制御するためにストレージ２０８の各モジュールを管理するという認識に基づいている。

更新モジュール２０８ｃは、受信された状態軌道の形状と更新された閉鎖モデルを有するモデル２０８ａを使用して推定された状態軌道の形状との差異を減少させる値関数を有する強化学習（ＲＬ）を使用して、モデル２０８ａの閉鎖モデルを更新するように構成されてもよい。いくつかの実施形態では、更新モジュール２０８ｃは、終了条件が満たされるまでＲＬを用いて閉鎖モジュールを反復的に更新するように構成されてもよい。更新された閉鎖モデルは、ＯＤＥおよびＰＤＥに従ったシステムの挙動の差異を捕らえるシステムの状態の非線形関数である。

また、いくつかの実施形態では、更新モジュール２０８ｃは、更新された閉鎖モデルのためのゲインを更新するように構成されてもよい。その目的のために、いくつかの実施形態は、更新されたゲインを有する更新された閉鎖モデルを有するモデル２０８ａを用いて推定されたシステム１０２の状態とシステムの実際の状態との誤差を減少させるゲインを決定する。いくつかの実施形態では、システムの実際の状態は、測定された状態であってもよい。いくつかの他の実施形態では、システムの実際の状態は、システム１０２の力学を記述するＰＤＥを用いて推定された状態であってもよい。いくつかの実施形態では、更新モジュール２０８ｃは、極値探索を使用してゲインを更新してもよい。いくつかの他の実施形態では、更新モジュール２０８ｃは、ガウス過程ベースの最適化を使用してゲインを更新してもよい。

更新コマンドモジュール２０８ｃは、更新された閉鎖モデルを有するモデル２０８ａに基づいて制御コマンドを決定するように構成されてもよい。制御コマンドは、システムの動作を制御し得る。いくつかの実施形態では、システムの動作は制約を受ける場合がある。その目的のために、更新コマンドモジュール２０８ｃは、制約を強制しながら制御コマンドを決定するために、予測モデルベースの制御を使用する。制約は、システム１０２の連続状態空間における状態制約と、システム１０２の連続制御入力空間における制御入力制約とを含む。

出力インターフェイス２１８は、システムの動作を制御するために制御コマンドをシステム１０２のアクチュエータ２２０に送信するように構成される。出力インターフェイス２１８のいくつかの例は、システム１０２を制御するために制御コマンドをサブミットする制御インターフェイスを含んでいてもよい。

図３は、いくつかの実施形態に従った、システム１０２を制御するための原理のフローチャートを示す。いくつかの実施形態は、システム１０２が物理学の法則からモデル化され得るという認識に基づいている。たとえば、システム１０２の力学は、物理学の法則を使用する数学的方程式によって表わされ得る。ステップ３０２で、システム１０２は、物理学ベースの高次元モデルによって表わされてもよい。物理学ベースの高次元モデルは、システム１０２の力学を記述する偏微分方程式（ＰＤＥ）であってもよい。説明する目的のために、システム１０２はＨＶＡＣシステムであると考えられ、そのモデルはブシネスク（Boussinesq）方程式によって表わされる。ブシネスク方程式は物理学から得られ、それは、部屋の中の空気流と温度との結合を記述する。したがって、ＨＡＶＣシステムモデルは、数学的に以下のように表わされ得る。

いくつかの実施形態は、リアルタイムでシステム１０２の動作を制御するために、システム１０２の物理学ベースの高次元モデルを解く必要があるという認識に基づいている。たとえば、ＨＶＡＣシステムの場合、部屋の中の空気流力学と温度とを制御するために、ブシネスク方程式を解く必要がある。いくつかの実施形態は、システム１０２の物理学ベースの高次元モデルが多数の方程式および変数を含み、それらは解くことが複雑であるという認識に基づいている。たとえば、物理学ベースの高次元モデルをリアルタイムで解くために、より大きい計算パワーが必要とされる。その目的のために、いくつかの実施形態の目的は、物理学ベースの高次元モデルを簡略化することである。

ステップ３０４で、装置２００は、装置２００がシステム１０２を効率的に制御するようにシステム１０２の力学を再現するように減少次数モデルを生成するために提供される。いくつかの実施形態では、装置２００は、減少次数モデルを生成するために、モデル縮小技術を使用して物理学ベースの高次元モデルを簡略化してもよい。いくつかの実施形態は、モデル縮小技術は、減少次数モデルがシステム１０２の予測および制御のためにリアルタイムで使用されるように、物理学ベースの高次元モデルの次元性（たとえば、ＰＤＥの変数）を減少させるという認識に基づいている。また、システム１０２を制御するための減少次数モデルの生成は、図４を参照して詳細に説明される。ステップ３０６で、装置２００は、システム１０２を予測および制御するために、減少次数モデルをリアルタイムで使用する。

図４は、いくつかの実施形態に従った、減少次数モデルを生成するための概略的なアーキテクチャを示す。いくつかの実施形態は、装置２００が減少次数モデル（reduced order model：ＲＯＭ）４０６を生成するためにモデル縮小技術を使用するという認識に基づいている。モデル縮小技術を使用する、生成されたＲＯＭ４０６は、物理学ベースの高次元モデルの一部４０２であってもよい。物理学ベースの高次元モデルの一部４０２は、システム１０２の力学を記述する１つ以上の微分方程式であってもよい。物理学ベースの高次元モデルの一部４０２は、常微分方程式（ＯＤＥ）であってもよい。いくつかの実施形態では、不確実性条件の場合、ＯＤＥは、実際の力学（すなわち、ＰＤＥによって記述された力学）を再現しない。不確実性条件の例は、ＰＤＥの境界条件が経時変化している場合、または、ＰＤＥに関与する係数のうちの１つが変化している場合であってもよい。これらの数学的変化は実際に、実際の力学のいくつかの実際の変化を反映する。たとえば、ＨＶＡＣシステムの場合、部屋の窓および／またはドアの開閉は、ブシネスク方程式（すなわちＰＤＥ）の境界条件を変更する。同様に、日々の変化および季節変化などの天候変化は、部屋の中と部屋の外側との温度差に影響を与え、それは次にＰＤＥ係数のうちのいくつかに影響を与え、たとえば、レイノルズ数が影響を受ける場合がある。

すべてのこれらのシナリオでは、モデル縮小技術は、上述のシナリオ、すなわち、パラメータ不確実性および境界条件不確実性をすべて網羅するシステム１０２の力学の減少次数（または減少次元）モデル４０６を得るための統一されたアプローチを有していない。

いくつかの実施形態の目的は、境界条件を変更する場合および／またはパラメータを変更する場合にＰＤＥを解くＲＯＭ４０６を生成することである。その目的のために、いくつかの実施形態は、適応モデル縮小方法、体制検出方法などを使用する。

たとえば、この発明の一実施形態では、減少次数モデル４０６は、以下の二次形式を有する。

式中、ｂ、Ａ、Ｂは、ＰＤＥ方程式の定数と、使用されるモデル縮小アルゴリズムのタイプとに関連する定数であり、ｘ_ｒは、減少次元ｒのものであり、減少次数状態のベクトルを表わす。システムｘの元の状態は、以下の単純な代数方程式を使用してｘ_ｒから回復され得る。

式中、ｘは通常、ＰＤＥ方程式の空間離散化から得られたｎ個の状態を含む高次元ｎ（＞＞ｒ）のベクトルであり、Φは、ＲＯＭ４０６のモードまたは基底ベクトルと呼ばれる所与のベクトルを連結させることによって形成された行列である。これらのモードは、どのモデル縮小方法が使用されるかに依存して異なる。モデル縮小方法の例は、固有直交分解（proper orthogonal decomposition：ＰＯＤ）、動的モード分解（dynamic mode decomposition：ＤＭＤ）方法などを含む。

しかしながら、ＲＯＭ４０６の方程式の解は、解を常に安定させる、すなわち有界時間支援にわたって有界である粘性項を有する元のＰＤＥモデルの物理学を再現していない（有限時間支援にわたって相違する）不安定な解をもたらし得る。たとえば、ＯＤＥは、モデル縮小中、物理学ベースの高次元モデルの実際の解の固有特性を失う場合がある。その目的のために、ＯＤＥは、空間および時間における物理学ベースの高次元モデルの実際の解の有界性を失う場合がある。

したがって、いくつかの実施形態は、ＯＤＥとＰＤＥとの差異を表わす閉鎖モデル４０４を追加することによってＲＯＭ４０６を修正する。たとえば、閉鎖モデル４０４は、ＰＤＥの実際の解の失われた固有特性を捕らえ、安定化因子のように作用する。いくつかの実施形態は、ＯＤＥとＰＤＥとの差異を減少させるために閉鎖モデル４０４のみを更新することを可能にする。

たとえば、いくつかの実施形態では、ＲＯＭ４０６は、数学的に以下のように表わされ得る。

関数Ｆは閉鎖モデル４０４であり、それは、ＲＯＭ４０６の解を安定させるために追加される。項

は、ＯＤＥを表わす。項Ｋは、安定性と、ＲＯＭ４０６が元のＰＤＥモデルの力学または解を再現する必要があるという事実とを保証するために調整されるべき係数のベクトルを表わす。いくつかの実施形態では、閉鎖モデル４０４は、システム１０２の状態の線形関数である。いくつかの他の実施形態では、閉鎖モデル４０４は、システム１０２の状態の非線形関数であってもよい。いくつかの実施形態では、閉鎖モデル４０４を計算するために、強化学習（ＲＬ）ベースのデータ駆動型方法が使用されてもよい。また、強化学習（ＲＬ）を使用する閉鎖モデル４０４の計算は、図５Ａ～５Ｂを参照して詳細に説明される。

図５Ａは、いくつかの実施形態に従った、強化学習（ＲＬ）に基づいた減少次数モデル４０６の概略図を示す。いくつかの実施形態では、ＲＬベースの閉鎖モデル５０２を計算するために、ＲＬベースのデータ駆動型方法が使用されてもよい。いくつかの実施形態は、ＲＬベースの閉鎖モデル５０２を計算するために、閉鎖モデル４０２がＲＬを用いて反復的に更新されるという認識に基づいている。ＲＬベースの閉鎖モデル５０２は、最適な閉鎖モデルであり得る。また、閉鎖モデル４０４を更新するための反復プロセスは、図５Ｂを参照して詳細に説明される。いくつかの実施形態は、ＯＤＥと組合された最適な閉鎖モデルが最適なＲＯＭ４０６を形成し得るという認識に基づいている。いくつかの実施形態では、ＲＯＭ４０６は、システム１０２の挙動の実際のパターンを推定してもよい。たとえば、ＲＯＭ４０６は、受信された状態軌道の形状を模倣する。

図５Ｂは、この発明の一実施形態に従った、ＲＬを使用して閉鎖モデル５０２を更新するための動作のフローチャートを示す。ステップ５０４で、装置２００は、初期閉鎖モデルポリシーと、初期閉鎖モデルポリシーに関連付けられた学習累積報酬関数とを初期化するように構成されてもよい。初期閉鎖モデルポリシーは、単純な線形閉鎖モデルポリシーであってもよい。累積報酬関数は、値関数であってもよい。ステップ５０６で、装置２００は、有限時間間隔に沿ってデータを集めるために、物理学ベースの高次元モデルの部分４０２と現在の閉鎖モデル（たとえば初期閉鎖モデルポリシー）とを含むＲＯＭ４０６を実行するように構成される。その目的のために、装置２００は、システム１０２の力学の挙動のパターンを表わすデータを集める。たとえば、挙動のパターンは、有限時間間隔にわたるシステム１０２のエネルギーの変化率を捕らえる。いくつかの実施形態は、システム１０２の力学の挙動のパターンが、有限時間間隔にわたる状態軌道の形状によって表わされ得るという認識に基づいている。

ステップ５０８で、装置２００は、集められたデータを使用して累積報酬関数を更新するように構成される。いくつかの実施形態では、装置２００は、受信された状態軌道の形状と現在の閉鎖モデル（たとえば、初期化された閉鎖モデル）を有するＲＯＭ４０６を使用して推定された状態軌道の形状との差異を示すように、累積報酬関数（すなわち値関数）を更新する。

いくつかの実施形態は、ＲＬは値関数を最小化するように訓練されたニューラルネットワークを使用するという認識に基づいている。その目的のために、ステップ５１０で、装置２００は、値関数が最小化されるように、集められたデータおよび／または更新された累積報酬関数を使用して現在の閉鎖モデルポリシーを更新するように構成される。

いくつかの実施形態では、装置２００は、終了条件が満たされるまで、ステップ５０６、５０８、および５１０を繰り返すように構成される。その目的のために、ステップ５１２で、装置２００は、学習が収束されるかどうかを判断するように構成される。たとえば、装置２００は、学習累積報酬関数がしきい値限度未満かどうか、または、連続する２つの学習累積報酬関数が小さいしきい値限度内にあるかどうかを判断する。学習が収束される場合、装置２００はステップ５１６に進み、その他の場合、装置２００はステップ５１４に進む。ステップ５１４で、装置２００は、閉鎖モデルを更新された閉鎖モデルと置き換えるように構成され、終了条件が満たされるまで更新手順を反復する。いくつかの実施形態では、装置２００は、学習が収束されるまで更新手順を反復する。ステップ５１６で、装置２００は、閉鎖モデル学習を停止し、最後に更新された閉鎖モデルポリシーをＲＯＭ４０６にとって最適な閉鎖モデルとして使用するように構成される。

いくつかの実施形態では、スカラー

は、コストが現在の状態および制御動作によってより強調されることを可能にし、過去をあまり信用しないよう意図された忘却／割引因子である。

そのような最適なコントローラを直接構築することは、一般的な非線形システムにとって非常に困難である。システムは不確実な力学を含むため、これはさらに悪化する。したがって、いくつかの実施形態は、適応／近似動的プログラミング（adaptive/approximate dynamic programming：ＡＤＰ）という、その限度が最適制御ポリシー

であると数学的に証明されている制御ポリシーの収束列を生成する反復的なデータ駆動型アルゴリズムのクラスを使用する。

一実施形態では、ＲＯＭ４０６の目標が、二次値関数を最小化する解を生成することである場合、

であり、式中、ＲおよびＱは、２つのユーザ定義の正の重み行列である。

次に、閉鎖モデルポリシー改良ステップが、以下の式によって与えられる。

いくつかの実施形態は、ＯＤＥ４０２と最適な閉鎖モデルとを含む生成されたＲＯＭ４０６（たとえば最適なＲＯＭ）が、システム１０２の実際の挙動のパターンを模倣するが、挙動の実際の値を模倣しないという認識に基づいている。言い換えれば、最適な閉鎖モデルを伴うＯＤＥ４０２は、システム１０２の実際の物理的力学に比例する関数である。たとえば、最適なＲＯＭ４０６の挙動（すなわち推定された挙動）は、システム１０２の実際の挙動と質的に同様であり得るが、システム１０２の実際の挙動と推定された挙動との間には量的ギャップが存在し得る。また、実際の挙動と推定された挙動との差異は、図６を参照して詳細に説明される。

図６は、いくつかの実施形態に従った、システム１０２の実際の挙動と推定された挙動との差異を示す。いくつかの実施形態では、システム１０２の挙動のパターンは２次元の軸によって表わされてもよく、Ｘ軸は時間に対応し、Ｙ軸はシステム１０２のエネルギーの大きさに対応する。波６０２は、システム１０２の実際の挙動を表わし得る。波６０４は、システム１０２の推定された挙動を表わし得る。いくつかの実施形態は、実際の挙動６０２と推定された挙動６０４との間には量的ギャップ６０６が存在し得るという認識に基づいている。たとえば、実際の挙動６０２と推定された挙動６０４とは、同様の周波数を有し得るが、異なる振幅を有する。

その目的のために、いくつかの実施形態の目的は、実際の挙動６０２と推定された挙動６０４との間のギャップ６０６が小さくなるように、最適な閉鎖モデルにゲインを含めることである。たとえば、いくつかの実施形態では、閉鎖モデルは、以下のように表わされてもよい。

式中、θは、実際の挙動６０２と推定された挙動６０４との間のギャップ６０６が小さくなるように学習コスト関数Ｑを最小化するために最適に調整される必要のある正のゲインである。また、ギャップ６０６を小さくするためにゲインを決定する装置２００は、図７を参照して詳細に説明される。

図７Ａ～７Ｃは、この発明の一実施形態に従った、最適な閉鎖モデルを調整するための最適化アルゴリズムの概略図を示す。いくつかの実施形態は、ＯＤＥ４０２と最適な閉鎖モデルとを含むＲＯＭ４０６（すなわち最適なＲＯＭ４０６）が、小さい時間間隔の間、有用であり得るという認識に基づいている。言い換えれば、最適なＲＯＭ４０６は、システム１０２の挙動が、小さい時間間隔の間のみ有界であるよう強制する。その目的のために、いくつかの実施形態の目的は、最適なＲＯＭ４０６のゲイン（係数とも呼ばれる）を経時的に調整することである。

一実施形態では、装置２００は、最適な閉鎖モデルのゲインを調整するために、物理学ベースの高次元モデル挙動７０２（すなわち、実際の挙動６０２）を使用する。いくつかの例示的な実施形態では、装置２００は、最適なＲＯＭ４０６に対応する推定された挙動７０４と挙動７０２との誤差７０６を計算する。また、装置２００は、誤差７０６を減少させるゲインを決定する。いくつかの実施形態は、装置２００が、最適なＲＯＭ４０６を用いて推定されたシステム１０２の状態（すなわち、推定された挙動７０４）とＰＤＥを用いて推定されたシステム１０２の実際の状態（すなわち、挙動７０２）との誤差７０６を減少させるゲインを決定するという認識に基づいている。いくつかの実施形態では、装置２００は、決定されたゲインを含むように、最適な閉鎖モデルにおける決定されたゲインを更新する。

いくつかの実施形態は、装置２００がゲインを更新するために最適化アルゴリズムを使用するという認識に基づいている。一実施形態では、最適化アルゴリズムは、図７Ｂに例示的に示されるように、極値探索（ＥＳ）７１０であってもよい。別の実施形態では、最適化アルゴリズムは、図７Ｃに例示的に示されるように、ガウス過程ベースの最適化７１２であってもよい。

図８Ａ～８Ｃは、この発明の別の実施形態に従った、最適な閉鎖モデルを調整するための最適化アルゴリズムの概略図を示す。いくつかの実施形態は、最適なＲＯＭ４０６が、小さい時間間隔の間、有用であり得るという認識に基づいている。言い換えれば、最適なＲＯＭ４０６は、システム１０２の挙動が、小さい時間間隔の間のみ有界であるよう強制する。その目的のために、いくつかの実施形態の目的は、最適なＲＯＭ４０６のゲインを経時的に調整することである。

一実施形態では、装置２００は、最適な閉鎖モデルのゲインを調整するために、システム１０２の部分のリアルタイム測定の状態８０２（すなわち、実際の挙動６０２）を使用する。いくつかの例示的な実施形態では、装置２００は、最適なＲＯＭ４０６に対応する推定された挙動８０４と実際の挙動６０２（たとえば、システム１０２のリアルタイム測定された状態８０２）との誤差８０６を計算する。また、装置２００は、誤差８０６を減少させるゲインを決定する。いくつかの実施形態は、装置２００が、最適なＲＯＭ４０６を用いて推定されたシステム１０２の状態（すなわち、推定された挙動７０４）とシステム１０２の実際の状態（すなわち、リアルタイム測定された状態８０２）との誤差８０６を減少させるゲインを決定するという認識に基づいている。いくつかの実施形態では、装置２００は、決定されたゲインを含むように、最適な閉鎖モデルにおける決定されたゲインを更新する。

いくつかの実施形態は、装置２００がゲインを更新するために最適化アルゴリズムを使用するという認識に基づいている。一実施形態では、最適化アルゴリズムは、図８Ｂに例示的に示されるように、極値探索（ＥＳ）８１０であってもよい。別の実施形態では、最適化アルゴリズムは、図８Ｃに例示的に示されるように、ガウス過程ベースの最適化８１２であってもよい。

図９Ａは、いくつかの実施形態に従った、ゲインを更新するための極値探索（ＥＳ）アルゴリズム９００のフローチャートを示す。いくつかの実施形態は、ＥＳアルゴリズム９００は、装置２００が最適な閉鎖モデルのゲインを調整することを可能にするモデルなし学習アルゴリズムであるという認識に基づいている。いくつかの実施形態は、ＥＳアルゴリズム９００は、終了条件が満たされるまで、最適な閉鎖モジュールのゲインを摂動信号を用いて反復的に摂動させるという認識に基づいている。いくつかの実施形態では、摂動信号は、予め定められた周波数を有する周期信号であってもよい。いくつかの実施形態では、終了条件は、ギャップ６０６がしきい値限度内にある条件であってもよい。最適な閉鎖モデルのゲインは、制御パラメータであってもよい。

ステップ９０２ａで、ＥＳアルゴリズム９００は、最適な閉鎖モデルの制御パラメータを摂動させてもよい。たとえば、ＥＳアルゴリズム９００は、制御パラメータを摂動させるために摂動信号を使用してもよい。いくつかの実施形態では、摂動信号は、以前に更新された摂動信号であってもよい。ステップ９０４ａで、ＥＳアルゴリズム９００は、制御パラメータを摂動させることに応答して、閉鎖モデル性能のためのコスト関数Ｑを決定してもよい。ステップ９０６ａで、ＥＳは、摂動信号を用いてコスト関数を修正することによってコスト関数の勾配を決定してもよい。たとえば、コスト関数の勾配は、コスト関数と摂動信号とＥＳアルゴリズム９００のゲインとの積として決定される。ステップ９０８ａで、ＥＳアルゴリズム９００は、次の反復のために摂動信号を更新するために、摂動信号を決定された勾配と統合してもよい。ＥＳ９００の反復は、終了条件が満たされるまで繰り返され得る。

図９Ｂは、いくつかの実施形態に従った、ゲインを更新するために性能コスト関数を使用する極値探索（ＥＳ）アルゴリズム９００のフローチャートを示す。ステップ９０４ｂで、ＥＳ９００は、閉鎖モデル性能のためのコスト関数を決定してもよい。いくつかの実施形態では、ＥＳアルゴリズム９００は、ステップ９０４ｂで、図９Ａのステップ９０４ａで例示的に示されるようにコスト関数を決定する。いくつかの実施形態では、決定されたコスト関数は、性能コスト関数９０４ｂ－０であってもよい。いくつかの例示的な実施形態によれば、性能コスト関数９０４ｂ－０は、ギャップ６０６の挙動を表わす二次方程式であってもよい。

ステップ９０６ｂで、ＥＳアルゴリズム９００は、摂動されたコスト関数９０６ｂ－１を生成するために、決定されたコスト関数に時間の第１の周期信号９０６ｂ－０を乗算してもよい。ステップ９０８ｂで、ＥＳアルゴリズム９００は、コスト関数の導関数９０８ｂ－１を生成するために、摂動されたコスト関数９０６ｂ－１から、第１の周期信号９０６ｂ－０の位相に対して９０度の直交位相シフトを有する第２の周期信号９０８ｂ－０を減算してもよい。ステップ９１０ｂで、ＥＳアルゴリズム９００は、制御パラメータ値９１０ｂ－０を時間の関数として生成するために、コスト関数の導関数９０８ｂ－１を経時的に統合してもよい。

図１１は、いくつかの実施形態に従った、複数のパラメータ調整のための極値探索（ＥＳ）コントローラ１１００の概略図を示す。いくつかの実施形態は、複数のパラメータのＥＳコントローラ１１００が単一のパラメータのＥＳ１０００から生じるという認識に基づいている。たとえば、ｎ個のパラメータのＥＳコントローラ１１００を得るために、単一のパラメータのＥＳコントローラ１０００がｎ回複製されてもよい。いくつかの実施形態は、ｎ個のパラメータのＥＳコントローラ１１００が、最適な閉鎖モデルを更新するために、ｎ個の異なる周波数を有する対応するｎ個の摂動信号１１０４－１～１１０４－ｎを用いて、１組のｎ個の制御パラメータθ_ｉ１１０２を摂動させるという認識に基づいている。いくつかの実施形態では、ｎ個の異なる周波数の各々は、システム１０２の周波数応答よりも大きい。加えて、ｎ個の摂動信号１１０４－１～１１０４－ｎのｎ個の異なる周波数は、１組のうちの第１の摂動信号１１０４－１の第１の周波数と第２の摂動信号１１０４－２の第２の周波数との和が第３の摂動信号１１０４－３の第３の周波数と等しくならないように、収束の条件を満たす。

リアルタイムの組込みシステム１０２において複数のパラメータのＥＳコントローラ１１００を実現するために、複数のパラメータのＥＳコントローラ１１００の離散的バージョンが有利である。たとえば、複数のパラメータのＥＳコントローラ１１００の離散的バージョンは、数学的に以下のように表わされてもよい。

式中、ｋは時間ステップであり、ΔＴはサンプリング時間である。

理解されるはずであるように、最適な閉鎖モデルにおいて、制御パラメータθ（すなわち正のゲイン）が、ＥＳアルゴリズムまたはガウス過程ベースの最適化を使用していったん更新されると、ＯＤＥと組合された最適な閉鎖モデルは、システム１０２の実際の挙動６０２を模倣する。たとえば、推定された挙動６０４は、ギャップ６０６なく、実際の挙動６０２と質的にかつ量的に同様であり得る。

その目的のために、ＯＤＥと更新されたゲインを有する最適な閉鎖モデルとを含む最適な減少次数モデル４０６は、制御コマンドを決定するために使用され得る。いくつかの実施形態では、ＯＤＥと更新されたゲインを有する最適な閉鎖モデルとを含む最適な減少次数モデル４０６は、システム１０２のための制御ポリシー１０６を開発し得る。制御ポリシー１０６は、システム１０２の動作を制御するために、システム１０２の状態を制御コマンドに直接マッピングし得る。制御コマンドの例は、システム１０２がＨＡＶＣシステムである場合、位置弁、圧縮器のスピード、蒸発器のパラメータなどを含む。制御コマンドの例は、システム１０２がロータである場合、ロータのスピード、モータの温度などを含む。また、制御コマンドは、システム１０２を制御するために、出力インターフェイス２１８を介してシステム１０２のアクチュエータに送信され得る。いくつかの実施形態は、システム１０２の動作が制約を受けるという認識に基づいている。制約は、システム１０２の連続状態空間における状態制約と、システム１０２の連続制御入力空間における制御入力制約とを含み得る。また、制約を受ける動作を制御するための装置２００は、図１２の詳細説明で説明される。

図１２は、いくつかの実施形態に従った、システム１０２を制御するための制約を考慮するための予測モデルベースのアルゴリズム１２００を示す。いくつかの実施形態は、従来のＲＬ方法は制約されたシステム１０２のデータ駆動型制御に適していないという認識に基づいている。たとえば、従来のＲＬ方法は、連続状態動作空間において状態制約および入力制約を満たすことを考慮していない。すなわち、従来のＲＬ方法は、制御入力を用いて動作された制御されるシステム１０２の状態が動作全体を通して状態制約および入力制約を満たすことを保証できない。しかしながら、いくつかの実施形態は、ＲＬ方法が、ＲＬのデータ駆動型の利点をモデルベースの制約された最適化と組合せることを可能にするという認識に基づいている。

その目的のために、いくつかの実施形態は、さまざまな予測モデルベースのアルゴリズムにおけるデータ駆動型適応によって決定されたシステム１０２のＲＬベースのモデル（たとえば、最適な減少次数モデル４０６）を使用する。いくつかの実施形態では、システム１０２を制御するための制約を考慮するために、最適化器１２０２が定式化される。いくつかの実施形態は、最適化器１２０２がモデル予測制御アルゴリズム（ＭＰＣ）であってもよいという認識に基づいている。ＭＰＣは、制約を強制しながらシステム１０２を制御するために使用される制御方法である。その目的のために、いくつかの実施形態は、システム１０２の制御における制約を考慮するためにＭＰＣを利用する。また、システム１０２を制御するための装置２００のリアルタイム実現化例が、図１３～１５の詳細な説明で説明される。

図１３は、システム１０２が空調システムである場合の、システム１０２を制御するための装置２００の例示的なリアルタイム実現化例を示す。この例では、部屋１３００は、ドア１３０２と、少なくとも１つの窓１３０４とを有する。部屋１３００の温度および空気流は、換気ユニット１３０６を通り、空調システム１０２を介して、装置２００によって制御される。部屋１３００の中の所与の点での空気流の速度を測定するための少なくとも１つの空気流センサ１３０８ａ、および、室温を測定するための少なくとも１つの温度センサ１３０８ｂといった、１組のセンサ１３０８が、部屋１３００の中に配置される。たとえば、複数のＨＶＡＣユニットを有する部屋、または複数の部屋を有する家といった、他のタイプの設定が考慮され得る。

いくつかの実施形態は、空調システム１０２が、図３に例示的に示されるような、ブシネスク方程式と呼ばれる物理学ベースのモデルによって記述され得るという認識に基づいている。しかしながら、ブシネスク方程式は、空調システム１０２を制御するためにブシネスク方程式を解くための無限次元を含む。その目的のために、図１～１２の詳細説明で説明されるように、ＯＤＥ４０２と更新されたゲインを有する更新された閉鎖モデルとを含むモデルが定式化される。モデルは、空調システム１０２の力学（たとえば空気流力学）を最適な態様で再現する。また、いくつかの実施形態では、空調システム１０２の動作中、空気流力学のモデルは、空調された部屋１３００の空気流の値（たとえば、空気流の速度）と温度とを結びつける。その目的のために、装置２００は、調節された態様で空気流を生成するように空調システム１０２を最適に制御する。

図１４Ａは、システム１０２が車両１４００である場合の、システム１０２を制御するための装置２００の例示的なリアルタイム実現化例を示す。車両１４００は、乗用車、バス、またはローバーといった任意のタイプの車輪付き車両であってもよい。また、車両１４００は、自律車両または半自律車両であってもよい。たとえば、いくつかの実施形態は、車両１４００の動きを制御する。動きの例は、車両１４００の操舵システム１４０４によって制御される車両の横方向の動きを含む。一実施形態では、操舵システム１４０４は、コントローラ１４０２によって制御される。それに加えて、またはそれに代えて、操舵システム１４０４は、車両１４００の運転者によって制御されてもよい。

いくつかの実施形態では、車両はエンジン１４１０を含んでいてもよく、それは、コントローラ１４０２によって、または車両１４００の他の構成要素によって制御され得る。いくつかの実施形態では、車両は、エンジン１４１０の代わりに電気モータを含んでいてもよく、コントローラ１４０２によって、または車両１４００の他の構成要素によって制御され得る。車両はまた、周囲環境を感知するための１つ以上のセンサ１４０６を含み得る。センサ１４０６の例は、レーダーなどの距離範囲探知機を含む。いくつかの実施形態では、車両１４００は、その現在の動きのパラメータおよび内部ステータスを感知するための１つ以上のセンサ１４０８を含む。１つ以上のセンサ１４０８の例は、全地球測位システム（global positioning system：ＧＰＳ）、加速度計、慣性測定ユニット、ジャイロスコープ、シャフト回転センサ、トルクセンサ、撓みセンサ、圧力センサ、および流量センサを含む。これらのセンサは、情報をコントローラ１４０２に提供する。車両は、コントローラ１４０２が有線または無線通信チャネルを通していくつかの実施形態の装置２００と通信する能力を可能にするトランシーバ１４１２を搭載していてもよい。たとえば、トランシーバ１４１２を通して、コントローラ１４０２は、装置２００から制御コマンドを受信する。また、コントローラ１４０２は、車両の動きを制御するために、受信された制御コマンドを、車両のハンドルおよび／またはブレーキといった車両１４００の１つ以上のアクチュエータに出力する。

図１４Ｂは、いくつかの実施形態に従った、車両１４００の１つのコントローラ１４０２と複数のコントローラ１４１４との間の相互作用の概略図を示す。たとえば、いくつかの実施形態では、車両１４００の複数のコントローラ１４１４は、車両１４００の回転および加速を制御するクルーズコントロール１４１６および障害物回避１４１８である。そのような場合、コントローラ１４０２は、車両の運動学的状態を制御するために、制御コマンドをコントローラ１４１６および１４１８に出力する。いくつかの実施形態では、複数のコントローラ１４１４はまた、高レベルコントローラ、たとえば、コントローラ１４０２の制御コマンドをさらに処理する車線保持コントローラ１４２０を含む。いずれの場合も、複数のコントローラ１４１４は、車両の動きを制御するために、コントローラ１４０２の出力（すなわち制御コマンド）を利用して、車両のハンドルおよび／またはブレーキといった車両の少なくとも１つのアクチュエータを制御する。いくつかの実施形態では、車両１４００の動きは制約を受ける場合がある。制約は、図１２の詳細説明で説明されるように考慮される。制約は、車両１４００の連続状態空間における状態制約と、車両１４００の連続制御入力空間における制御入力制約とを含み得る。いくつかの実施形態では、車両１４００の状態は、車両１４００の位置、配向、縦方向速度、および横方向速度のうちの１つまたはそれらの組合せを含む。状態制約は、速度制約、車線保持制約、および障害物回避制約のうちの１つまたはそれらの組合せを含む。

いくつかの実施形態では、制御入力は、横方向加速度、縦方向加速度、操舵角、エンジントルク、およびブレーキトルクのうちの１つまたはそれらの組合せを含む。制御入力制約は、操舵角制約および加速度制約のうちの１つまたはそれらの組合せを含む。

図１５は、システム１０２が誘導モータ１５００である場合の、システム１０２を制御するための装置２００の例示的なリアルタイム実現化例を示す。この例では、誘導モータ１５００は装置２００と統合される。装置は、図１～１２の詳細説明で説明されるように誘導モータ１５００の動作を制御するように構成される。いくつかの実施形態では、誘導モータ１５００の動作は制約を受ける場合がある。制約は、誘導モータ１５００の連続状態空間における状態制約と、誘導モータ１５００の連続制御入力空間における制御入力制約とを含む。いくつかの実施形態では、モータ１５００の状態は、ステータ磁束、線電流、およびロータスピードのうちの１つまたはそれらの組合せを含む。状態制約は、ステータ磁束、線電流、およびロータスピードのうちの１つまたはそれらの組合せの値に対する制約を含む。いくつかの実施形態では、制御入力は、励起電圧の値を含む。制御入力制約は、励起電圧に対する制約を含む。

上述の説明は例示的な実施形態を提供するに過ぎず、この開示の範囲、利用可能性、または構成を限定するよう意図されてはいない。むしろ、例示的な実施形態の以下の説明は、１つ以上の例示的な実施形態を実現するための実施可能説明を当業者に提供するであろう。添付された請求項で述べられるように開示された主題の精神および範囲から逸脱することなく、要素の機能および配置において行なわれ得るさまざまな変更が考えられる。

実施形態の完全な理解を提供するために、特定の詳細が以下の説明で与えられる。しかしながら、当業者によって理解されれば、実施形態はこれらの特定の詳細がなくても実践されてもよい。たとえば、実施形態を不必要に詳細に述べて不明瞭にすることを避けるために、開示された主題におけるシステム、プロセス、および他の要素は、ブロック図の形式における構成要素として示されてもよい。他の事例では、実施形態を不明瞭にすることを避けるために、周知のプロセス、構造、および技術は、不必要な詳細なく示されてもよい。また、さまざまな図面における同じ参照番号および名称は、同じ要素を示す。

また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、またはブロック図として描かれるプロセスとして説明されてもよい。フローチャートは動作を逐次プロセスとして説明し得るが、動作の多くは並行してまたは同時に行なわれ得る。加えて、動作の順序は並べ替えられてもよい。プロセスはその動作が完了すると終了し得るが、図面で説明されていない、または図面に含まれていない追加のステップを有していてもよい。さらに、特に説明された任意のプロセスにおけるすべての動作が、すべての実施形態において生じるとは限らない。プロセスは、方法、機能、手順、サブルーチン、サブプログラムなどに対応していてもよい。プロセスが機能に対応する場合、その機能の終了は、その機能が呼出機能または主機能に戻ることに対応し得る。

さらに、開示された主題の実施形態は、少なくとも部分的に、手動でまたは自動的に実現されてもよい。手動のまたは自動的な実現化例は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組合せの使用を通して実行されるかまたは少なくとも支援されてもよい。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実現される場合、必要なタスクを行なうためのプログラムコードまたはコードセグメントは、マシン読取可能媒体に格納されてもよい。プロセッサが、必要なタスクを行なってもよい。

本明細書で概説されるさまざまな方法またはプロセスは、さまざまなオペレーティングシステムまたはプラットフォームのいずれか１つを採用する１つ以上のプロセッサ上で実行可能なソフトウェアとして符号化されてもよい。加えて、そのようなソフトウェアは、いくつかの好適なプログラミング言語および／またはプログラミングツールまたはスクリプトツールのいずれかを用いて書かれてもよく、フレームワークまたは仮想マシン上で実行される実行可能マシン言語コードまたは中間コードとしてコンパイルされてもよい。典型的には、プログラムモジュールの機能性は、さまざまな実施形態において所望されるように組合わされるかまたは分散されてもよい。

本開示の実施形態は、その例が提供された方法として具現化されてもよい。当該方法の一部として実行される動作は、任意の好適なやり方で順序付けられてもよい。したがって、例示的な実施形態では連続的な動作として示されていても、動作が図示とは異なる順序で実行される実施形態が構築されてもよい。この場合、いくつかの動作を同時に実行することも含まれてもよい。

本開示を、ある好ましい実施形態を参照して説明してきたが、本開示の精神および範囲内で他のさまざまな適応および変更が実施可能であることが理解されるはずである。したがって、添付の特許請求の範囲の局面は、本開示の真の精神および範囲内に収まるようにそのようなすべての変形および変更を網羅することである。

Claims

工学的プロセスおよびマシンにおいて連続的に動作する力学的システム（１０２）の動作を制御するために構成された装置（１００、２００）であって、
前記システムの一連の状態である状態軌道（２１６）を受信するように構成された入力インターフェイス（２０２）と、
少なくとも１つの微分方程式（１０８ａ）と閉鎖モデル（１０８ｂ）との組合せを含む前記システム（１０２）の力学を記述するモデル（１０４、２０８ａ）を格納するように構成されたメモリ（２０６）と、
プロセッサ（２０４）とを含み、前記プロセッサは、
受信された前記状態軌道（２１６）の形状と更新された前記閉鎖モデルを有する前記モデルを使用して推定された状態軌道（２１６）の形状との差異を減少させる値関数を有する強化学習ＲＬを使用して、前記閉鎖モデル（１０８ｂ）を更新するように構成され、前記状態軌道（２１６）の形状は、時間の関数としての前記システム（１０２）の一連の状態であり、前記プロセッサはさらに、
更新された前記閉鎖モデルを有する前記モデルに基づいて制御コマンドを決定するように構成され、前記装置はさらに、
前記システム（１０２）の前記動作を制御するために、前記制御コマンドを前記システム（１０２）のアクチュエータ（２２０）に送信するように構成された出力インターフェイス（２１８）を含み、
前記モデルの前記微分方程式は、偏微分方程式ＰＤＥに従った前記システム（１０２）の物理モデルよりも少ない数のパラメータを有する前記システム（１０２）の減少次数モデルを定義し、前記減少次数モデルは常微分方程式ＯＤＥであり、更新された前記閉鎖モデルは、前記ＯＤＥおよび前記ＰＤＥに従った前記システム（１０２）の挙動の差異を捕らえる前記システム（１０２）の状態の非線形関数であり、
前記偏微分方程式ＰＤＥは、ブシネスク方程式であり、
更新された前記閉鎖モデルはゲインを含み、前記プロセッサ（２０４）は、更新された前記ゲインを有する更新された前記閉鎖モデルを有する前記モデルを用いて推定された前記システム（１０２）の状態と前記システム（１０２）の実際の状態との誤差を減少させる前記ゲインを決定するように構成され、
前記システム（１０２）の前記実際の状態は、測定された状態である、装置。
前記プロセッサ（２０４）は、前記システム（１０２）の状態の線形関数を用いて前記閉鎖モデル（１０８ｂ）を初期化し、終了条件が満たされるまで前記ＲＬを用いて前記閉鎖モデル（１０８ｂ）を反復的に更新するように構成される、請求項１に記載の装置（１００、２００）。
前記システム（１０２）の前記実際の状態は、前記システム（１０２）の力学を記述する偏微分方程式ＰＤＥを用いて推定された状態である、請求項１に記載の装置（１００、２００）。
前記プロセッサ（２０４）は、極値探索を使用して前記ゲインを更新する、請求項１に記載の装置（１００、２００）。
前記プロセッサ（２０４）は、ガウス過程ベースの最適化を使用して前記ゲインを更新する、請求項１に記載の装置（１００、２００）。
前記システム（１０２）の前記動作は制約を受け、前記ＲＬは前記制約を考慮せずに前記閉鎖モデル（１０８ｂ）を更新し、前記プロセッサ（２０４）は、前記制約を受ける更新された前記閉鎖モデル（１０８ｂ）を有する前記モデルを使用して前記制御コマンドを決定する、請求項１に記載の装置（１００、２００）。
前記制約は、前記システム（１０２）の連続状態空間における状態制約と、前記システム（１０２）の連続制御入力空間における制御入力制約とを含む、請求項６に記載の装置（１００、２００）。
前記プロセッサ（２０４）は、前記制約を強制しながら前記制御コマンドを決定するために、予測モデルベースの制御を使用する、請求項６に記載の装置（１００、２００）。
前記システム（１０２）は、車線保持、クルーズコントロール、および障害物回避動作のうちの１つまたはそれらの組合せを行なうように制御される車両であり、
前記車両の状態は、前記車両の位置、配向、縦方向速度、および横方向速度のうちの１つまたはそれらの組合せを含み、
制御入力は、横方向加速度、縦方向加速度、操舵角、エンジントルク、およびブレーキトルクのうちの１つまたはそれらの組合せを含み、
前記状態制約は、速度制約、車線保持制約、および障害物回避制約のうちの１つまたはそれらの組合せを含み、
前記制御入力制約は、操舵角制約および加速度制約のうちの１つまたはそれらの組合せを含む、請求項７に記載の装置（１００、２００）。
前記システム（１０２）は、タスクを行なうように制御される誘導モータであり、
前記モータの状態は、ステータ磁束、線電流、およびロータスピードのうちの１つまたはそれらの組合せを含み、
制御入力は、励起電圧の値を含み、
前記状態制約は、前記ステータ磁束、前記線電流、および前記ロータスピードのうちの１つまたはそれらの組合せの値に対する制約を含み、
前記制御入力制約は、前記励起電圧に対する制約を含む、請求項７に記載の装置（１００、２００）。
前記システム（１０２）は、調節された環境において空気流を生成する空調システム（１０２）であり、前記モデルは、前記空調システム（１０２）の動作中に調節される空気の流れおよび温度の値を結びつける空気流力学のモデルである、請求項１に記載の装置（１００、２００）。
前記ＲＬは、前記値関数を最小化するように訓練されたニューラルネットワークを使用する、請求項１に記載の装置（１００、２００）。
工学的プロセスおよびマシンにおいて連続的に動作する力学的システム（１０２）の動作を制御するための方法であって、前記方法は、少なくとも１つの微分方程式（１０８ａ）と閉鎖モデル（１０８ｂ）との組合せを含む前記システム（１０２）の力学のモデルを格納するメモリに結合されたプロセッサ（２０４）を使用し、前記プロセッサ（２０４）は、前記プロセッサ（２０４）によって実行されると前記方法のステップを行なう格納された命令と結合されており、前記方法は、
前記システム（１０２）の一連の状態である状態軌道（２１６）を受信するステップと、
受信された前記状態軌道の形状と更新された前記閉鎖モデルを有する前記モデルを使用して推定された状態軌道（２１６）の形状との差異を減少させる値関数を有する強化学習ＲＬを使用して、前記閉鎖モデルを更新するステップとを含み、状態軌道（２１６）の形状は、時間の関数としての前記システム（１０２）の一連の状態であり、前記方法はさらに、
更新された前記閉鎖モデルを有する前記モデルに基づいて制御コマンドを決定するステップと、
前記システム（１０２）の前記動作を制御するために、前記制御コマンドを前記システムのアクチュエータに送信するステップとを含み、
前記モデルの前記微分方程式は、ブシネスク方程式に従った前記システム（１０２）の物理モデルよりも少ない数のパラメータを有する前記システム（１０２）の減少次数モデルを定義し、前記ブシネスク方程式は偏微分方程式ＰＤＥであり、前記減少次数モデルは常微分方程式ＯＤＥであり、更新された前記閉鎖モデルは、前記ＯＤＥおよび前記ＰＤＥに従った前記システム（１０２）の挙動の差異を捕らえる前記システム（１０２）の状態の非線形関数であり、
更新された前記閉鎖モデルはゲインを含み、前記方法はさらに、更新された前記ゲインを有する更新された前記閉鎖モデル（１０８ｂ）を有する前記モデルを用いて推定された前記システムの状態と前記システム（１０２）の実際の状態との誤差を減少させる前記ゲインを決定するステップを含み、
前記システム（１０２）の前記実際の状態は、測定された状態である、方法。
前記システム（１０２）の前記動作は制約を受け、前記ＲＬは前記制約を考慮せずに前記閉鎖モデル（１０８ｂ）を更新し、前記方法はさらに、前記制約を受ける更新された前記閉鎖モデル（１０８ｂ）を有する前記モデルを使用して前記制御コマンドを決定するステップを含む、請求項１３に記載の方法。