JP2022548836A

JP2022548836A - 状態行列を用いたフレキシブル生産システムおよび装置のための自己学習型製造スケジューリング方法

Info

Publication number: JP2022548836A
Application number: JP2022515782A
Authority: JP
Inventors: ベーア，シーリーン; チェルシーターナー，ダニエレ
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2022-11-22
Also published as: KR20220066336A; EP4004663A1; CN114503038A; US20220342398A1; WO2021052588A1

Abstract

本発明は、状態行列を用いるフレキシブル生産システムおよび装置のための自己学習型製造スケジューリング方法を提供する。ハンドリングエンティティを介して相互接続された処理エンティティを有するフレキシブル生産システムのための自己学習製造スケジューリング方法であって、前記製造スケジューリングが前記フレキシブル生産システムのモデルに対して強化学習システムによって学習されるものであって、前記モデルが、少なくとも前記フレキシブル生産システムの行動および意思決定を表し、前記モデルが、状態行列に変換されて前記フレキシブル生産システムの状態をシミュレートする、方法。提案した解決策は、オンラインスケジューリングと資源配分のための自己学習システムを含み、シミュレーションにおいてトレーニングされ、ＦＭＳ内の異なる状況に対して定義された行動の集合から最善の決定を学習する。初見の状況では、解に近づく（ニューラルネットワークを使用する場合）。このシステムを適用する場合、生産プロセス中にほぼリアルタイムで意思決定を行うことができ、システムは異なる最適化目標を使用して、製品ごとに最適な方法をＦＭＳを介して見つける。ルーティングの柔軟性を備えた製造システムの使用に特に適しており、プラント内の製品を自動的にルーティングし、適切な機械または製造モジュールを割り当てることができる。

Description

本発明は、状態行列を用いたフレキシブル生産システムおよび装置のための自己学習型製造スケジューリング方法に関する。

フレキシブル生産システム（flexible manufacturing system：ＦＭＳ）とは、予測されている、されていないに関わらず、変更があった場合にシステムが対応できるようにする、ある程度の柔軟性がある生産システムのことである。
経路設定（ルーティング）の柔軟性とは、新しい製品タイプを生産するために変更されるシステムの能力や、部品に対して実行される作業の順序を変更する能力をカバーすることである。また、機械の柔軟性とは、数量、生産力、性能などの大規模な変化を吸収するというシステムの能力ばかりでなく、複数の機械を使用して一つの部品に対して同じ操作を施すことができる能力をもいう。

ほとんどのＦＭＳは、３つの主要なシステムから構成されている。
作業機械は、自動化されることの多いＣＮＣ機械であり、部品の流れを最適化するためのマテリアルハンドリングシステムと、材料の動きと機械の流れを制御する中央制御コンピュータと、が接続されている。
ＦＭＳの主な利点は、新製品を製造するための時間や労力などの製造資源（リソース）を管理する際の柔軟性が高いことである。ＦＭＳの最良の用途は、大量生産される製品のような製品を少量生産する際に見られる。

Di Caro, G., and Dorigo, M.、Antnet distributed stigmergic control for communications networks.（AntNet：通信ネットワークのための分散スティグマージティック制御）、Journal of Artificial Intelligence Research 9(1998):317-365 Dorigo, M., and Stutzle, T.、Ant Colony Optimization（アントコロニー最適化）、The MIT Press.(2004) Sallez, Y.; Berger, T.; and Trentesaux, D.、A stigmergic approach for dynamic routing of active products in fms.（ＦＭＳにおけるアクティブ製品の動的ルーティングのための生物学的アプローチ）、Computers in Industry 60(2009):204-216. Pach, C.; Berger, T.; Bonte, T.; and Trentesaux, D.、Orca-fms: a dynamic architecture for the optimized and reactive control of flexible manufacturing scheduling（フレキシブル生産スケジューリングの最適化および反応制御のための動的アーキテクチャ）、Computers in Industry 65(2014):706-720. Frankovic, B., and Budinsk'a, I.、"Advantages and Disadvantages of Heuristic and Multi Agents Approaches to the Solution of Scheduling Problem（スケジューリング問題の解法に対するヒューリスティックおよびマルチエージェントアプローチの利点と欠点）"、IFAC Proceedings of the Conference IFAC Control Systems Design. Bratislava, Slovak Rep.: IFAC Proceeding Volumes 60, Issue 13. Leit~ao, P., and Rodrigues, N.、"Multi-agent system for on-demand production integrating production and quality control（生産と品質管理を統合したオンデマンド生産のためのマルチエージェントシステム）"、HoloMAS 2011, LNAI 6867: 84-93.

世の風潮がモジュール化されたフレキシブル生産システム（ＦＭＳ）に移行するにつれて、オフラインスケジューリングはもはや、効率的な製品ルーティングを可能にする唯一の手段ではなくなっている。製造モジュールの故障、材料の空積み、ＦＭＳの再構築など、予期せぬ事態を考慮しなければならない。したがって、（付加的な）オンラインスケジューリングおよび資源配分システムを有することは有用である。

第２の問題は、ＭＥＳとしての製品ルーティングシステムのような、最尖端のスケジューリングシステムには、技術的に高い労力が必要となることである。さらに、これらの解決策は、静的なものである。自己学習型の製品ルーティングシステムは、実行時に適用されるまで、シミュレーションであらゆる状況に対する決定を自ら学習し、ＦＭＳの変更または適応に合わせて再トレーニングできるため、技術的な労力を軽減すると考えられる。

製造実行システム（Manufacturing Execution Systems：ＭＥＳ）は、製品の計画とスケジューリングに使用される。しかし、これらの殆どが顧客の固有のシステムを実装することは、極めて高い技術的負担となる。このＭＥＳの計画およびスケジューリング部分は、本発明のオンラインスケジューリングおよび配分システムに置き換えることができる。

さらに、自己学習型製品ルーティングシステムにはいくつかのコンセプトがあるが、計算コストが高い（製品が回答を待っている間に、オンラインで最善の決定を計算する）。
これらの概念の説明は、例えば、非特許文献１～４の開示に見ることができる。

もう一つのアプローチは、マルチエージェントシステムである。このシステムには、エージェントの入札を制御する中心的な実体（エンティティ）があるため、エージェントはこの実体と通信する必要がある。このシステムについては、非特許文献５または非特許文献６に記述されている。

強化学習とは、機械学習の一つの方法であり、報酬と懲罰のシステムを用いてエージェントを訓練する。
一般的に、強化学習アルゴリズム、あるいはエージェントは、その環境と相互作用することによって学習する。エージェントは、正しく実行することで報酬を受け取り、間違って実行することでペナルティを受け取る。エージェントは、その報酬を最大化し、ペナルティを最小化することにより、人間からの介入なしに学習する。

本発明の目的は、ＦＭＳの製品計画およびスケジューリングのために、上述した問題に対する解決策を提供することである。

本課題は、請求項１に記載の特徴に係る方法によって解決され、さらに、請求項１０に記載の特徴に係るシステムによって解決される。

本発明に係る、フレキシブル生産システムのための自己学習型製造スケジューリング方法は、ハンドリングエンティティを介して相互接続されている処理エンティティを有し、以下のステップ：
製造スケジューリングは、強化学習システムによって、フレキシブル生産システムのモデルに対して学習される、
モデルは、少なくとも、フレキシブル生産システムの行動および意思決定を表す、
モデルは、フレキシブル生産システムの状態をシミュレートするための状態行列に変換される、
ことを備える。

さらに、本発明に係る、少なくとも製品を製造するために使用されるフレキシブル生産システムのための自己学習型製造スケジューリングのための強化学習システムは、
生産システムが、ハンドリングエンティティを介して相互接続されている処理エンティティで構成され、
学習プロセスの入力が、フレキシブル生産システムのモデルを含み、
モデルは、少なくともフレキシブル生産システムの行動および意思決定を表し、
モデル（４００）は、状態行列（１００）として実現される、
ことを特徴とする、特許請求の範囲１～９のいずれかの方法による。

本発明の有利な実施形態は、従属請求項に記載されている。
実施形態の説明は、本発明の実施の単なる例であり、本発明に対して制限的であることを意味するものではない。

提案された解決策には、オンラインスケジューリングと資源配分のための自己学習システムが含まれる。このシステムは、シミュレーションにおいて訓練（トレーニング）され、ＦＭＳ内の多くの状況に対して定義された行動の集合からの最善の決定を学習する。初見の状況では、解に近づく（ニューラルネットワークを使用する場合）。このシステムを適用すると、生産プロセス中にほぼリアルタイムで意思決定を行うことができ、システムはＦＭＳを通じ、異なる最適化目標を使用して、製品ごとに最適な方法を見出す。特に、ルーティングの自由度が高い生産システムの利用において優れており、生産施設（プラント）内で製品を自動的にルーティングし、適切な機械や製造モジュールを割り当てることができる。

以下では、発明を、図を用いて好ましい実施形態について例示する。

仮想レベルでのＲＬエージェントのトレーニングコンセプトと、物理レベル（実際のＦＭＳ）でのトレーニング済みモデルの応用と、を示す。ＦＭＳの状態と行動についての、仮想レベルにおける表現と行列での表現である。ＦＭＳを模式的に設計するためのＧＵＩの可能なドラフトを示す。

図１には、物理レベル（実際のＦＭＳ５００）における、仮想レベル（つまり、シミュレーションを意味する）でのＲＬエージェント３００のトレーニングの概念が示されている。エージェント３００は、ＦＭＳ１００のシミュレーションに対して、訓練される。訓練済みモデル４００は、後に、物理レベル５００の制御されたポリシー６００として適用される。
右上には、実際のＦＭＳ５００の模式図１００が示されており、すべての処理エンティティＭ１，…Ｍ６、およびハンドリングエンティティＣ０，…Ｃ６、が示されている。処理エンティティは、機能／行動Ｆ１，…Ｆ３を有し、例えば、機械加工、穴あけ等として実現される。

有限の行動の集合から行動を選択３０２した後、ランダムな選択から始まり、環境が更新され、ＲＬエージェントは、新しい状態を観測３０３し、その行動の評価として報酬を得る。ＲＬエージェントの目標は、最良の制御ポリシーを見つけることによって、長期割引報酬３０１を最大化することである。

ＲＬ技術としては、ＳＡＲＳＡ、ＤＱＮなどがあり、図１では、ディープニューラルネット（Deep Neural Net）ＤＮＮ１０４が見られる。

モジュールはさまざまな製造プロセスに置き換えることができる。そのため、このコンセプトは、プラント内の物流のあらゆるアプリケーションに移管可能である。

場合によってはシステムに認識されていない状況がある場合（すなわち、新しい製造モジュールがある場合など）、システムは、この状況における行動を探索し、その行動がどのように実行されるかをオンラインで学習することができる。したがって、システムは、初期には準最適な決定を選択する可能性があるが、未知の状況に対する最良の行動をオンラインで学習する。あるいは、ＧＵＩを使用することによって適応されたプラントトポロジーを使用して、システムを、トレーニング・セットアップで再度トレーニングすることも可能である。これについては、図３で後ほど詳しく説明する。

重要なステップは、ＦＭＳのシミュレーションとしての状態行列（state matrix）２００によるＦＭＳ５００の表現（表示）である。ＦＭＳの表現１００からの状態行列の生成は、好ましくは、自動的に行われる。
状態行列は、例えば図３のＧＵＩ１０の助けを借りて、ＦＭＳの概念図を設計した後に、自動的に生成される。状態行列の一例を、これに属するＦＭＳと共に図２に示す。この形状の行列を使用することにより、ユーザはブラックボックスを信頼する代わりに、エージェントの行動を容易に理解することができる。

図２において、右側にＦＭＳの表現１００が配され、左側に、対応するＦＭＳの状態行列２００が配されている。
状態行列中に、各処理ユニットＭ１，…Ｍ６は対応するフィールドを有し、状態行列の当該フィールドの配置は、ＦＭＳのトポロジーに対応している。特定のフィールドの内容は、特定の処理エンティティの機能（Ｆ１，Ｆ２，Ｆ３）についての情報を示す。
さらに、ハンドリングユニット（Ｃ０，…Ｃ６）は、自身のフィールドに描かれ、決定点Ｄは、それぞれの待機製品１，…４と共に、最終行２０２の行列に見ることができる。最後のラインＪＬの前のラインは、例えば、どの機械Ｍ１，…Ｍ６がまだ必要なのかなど、処理ジョブの進行状況を示す。

ハンドリングユニット、たとえばベルトコンベア（Ｃ０，…Ｃ６）は、実際のプラントトポロジーおよびそれらの周囲の生産モジュール／処理ユニット（Ｍ１，…Ｍ６）と同様の方法で順序づけられる。生産モジュールには、実行可能なジョブに関する詳細情報、または生産時間、品質、またはエネルギー効率のように、プラントオペレータが表現したいと考える属性に関する詳細情報が含まれている。これらのうちのいくつかについてのみ、言及する。制御された製品２０４は、特定の番号、この例では番号５、によってマークされており、現在配置されている意思決定点４．１，４．２，…に更新される。

最後から２番目の行は、ジョブ・リストＪＬを表し、最後の行２０２は、製造プロセスで他の製品を考慮するために特定のモジュールのキュー（待ち行列）で現在待機している、製品の数を内容としている。あるいは、製品ＩＤを有するリストを、上記の行列のフィールドに格納することもできる。

状態行列は、どの決定が選択されたかに応じて、製品がベルトコンベアの次の位置に移動するように、シミュレーションとして並行して使用される。製品があるモジュールに移動しても、それはシミュレーションには描画されず、シミュレーションは次の意思決定点において更新されたジョブリストによってのみ更新される。初期状態は、完全なジョブリストおよび定義された製品の位置によって定義することができ、終了状態は、遂行ジョブリスト、つまり、すべてのフィールドが値「０」（空)を有し、製品が待機していない状態として定義することができる。

プラントのすべてのモジュールまたは機械に対して、行列中に１つのプレース（place）が生成される。これは、各モジュールについて行われ、行列は、プラントトポロジーでモジュールが順に並べられるのと同じように構築される。すべての輸送の決定点（モジュール間のコンベア部分）に対してもまた、あるプレース上に生成された行列中に１つのプレースが生成され、これは２つの接続モジュールに隣接している。行列は、自動的に、かつ、プラントトポロジーと同じ順序でルールに基づいて、構築される。例えば、行列に新しい行を生成する決定のために、ＧＵＩ中のグリッドが役に立つ可能性がある。グリッドは、一般的に、モジュールやコンベアセクションの位置を特定し、行列内の適切な位置を見つけるのに役立つ。

状態行列とシミュレーションが自動的に作成された後、システムはこれらの要件についてトレーニングを受けることができる。システムをトレーニングするために、強化学習（ＲＬ）エージェントが使用される。マルチエージェントシステム（Multi Agent System：ＭＡＳ）ではないため、プラントの状態にはモジュールのキューの長さ情報が含まれており、製品が相互に通信する必要はない。ＲＬのラベル付きデータが必要ないという事実により、このアプローチは、ラベル付きデータを生成するタスクに苦労することがあるプラントオペレータにとって、非常に魅力的なものとなる。

本発明の一実施形態では、ＧＵＩを使用することができ、ここでプラントオペレータは、プラントを図式的に、かつ非常に少ない技術的負担で表示する必要がある。ＧＵＩの一例を図３に示す。図３には、モジュール式で静的な生産モジュール用のボックスと、ベルトコンベアセクションを表す薄いボックスと、がある。意思決定点Ｄは、目的の位置に配置しなければならない。ＧＵＩの背景には、意思決定点において意思決定を行う必要があること、意思決定後に製品がある意思決定点から次の意思決定点へとベルトコンベア上を移動することができること、等の一般的な一定のルールが実装されている。

処理ユニットは、ＧＵＩのボックス１１を介して定義することができる。ＧＵＩでは、ボックス１２および１３に参照されるように、プラント内の一度にできる製品の最大数、１つのジョブリスト内の最大ジョブ数、およびジョブリスト内のすべての可能なジョブ、ならびに、モジュールのプロパティ（使用可能な実行可能ジョブまたは操作または最大キュー長を含む）を簡単に設定できる。
行動も設定でき、さまざまな方向を持つ決定点では、デフォルトの行動が方向を選択している。モジュールの前に決定点があり、モジュールに通じるベルトコンベアがない場合、行動「ステップイン」を設定することができる。このプラント１００の概略図と、入力の意味に関する一定の知識とを用いることで、ある決定点から次の決定点に移動する製品のトレーニングに十分な、プラントの簡単なシミュレーションを自動的に生成することができる。

さらに、ＦＭＳの状態の表現は、状態行列を生成するシステムがＧＵＩの入力の意味についての知識を有するので、状態行列１５として直接かつ自動的に表現することができる。プラントオペレータがシミュレーションまたは状態行列に表現したい追加情報があれば、その情報を直接コード化する可能性もある。

また代わりに、プラントトポロジーなどを記述した記述型（ＯＰＣＵＡ）情報モデルを、特定の（ＯＰＣＵＡ）クライアントによって読み取ることもできる。その後、クライアントは、シミュレーションと状態行列を構築することができる。

報酬関数１６は、システムが選択した行動を評価する。この場合、製品が取るルートだけでなく、製品がそのルート上の与えられた制約にどのように適合したかをも評価し、その行動が有用であったかどうかを、各時間ステップで確認する。したがって、報酬関数は、これらのプロセス固有の制約、局所的な最適化目標、および全体的な最適化目標を含む必要があり、これらは、ボックス１４を介してすべて定義することができる。また、ジョブ順序についての制約（最初、２番目、などに行う必要があるジョブ）を設定１７することもできる。

報酬関数は、考慮すべき最適化目標を数学的に定式化したものであるため、自動的に生成される。
ユーザは、（たとえば、ＧＵＩ１４で）最適化目標の重要度を、例えば以下：
５×生産時間，２×品質，１×エネルギー効率
のように定義し、そしてこの情報は、以下のように、報酬関数の数学的な記述：
０．６２５×生産時間＋０．２５×品質＋０．１２５×時間エネルギー
に直接変換されることになる。

さらに、報酬関数には、システムが製造プロセス中に考慮すべき最適化目標が含まれる。これらの目標には、メイクスパン、処理時間、材料コスト、生産コスト、エネルギー需要、および品質を含めることができる。ＧＵＩでプロセス固有の制約と最適化目標とを設定するのは、プラントオペレータの作業である。また、プラントオペレータの希望に応じて、組み合わせおよび重み付けされた最適化目標を検討することも可能である。
実行時に、受け取った報酬を期待される報酬と比較することで、モデルを再トレーニングしたり、微調整したりするためのさらなる分析や決定を行うことができる。

要約すると、本発明は、仮想環境（生成されたシミュレーション）で訓練され、見た可能性のあるすべての状況においてどのように反応するかを学習する、ＲＬエージェントを示す。ランダムな選択を行うことで始め、有限の行動の集合から行動を選択した後、環境が更新され、ＲＬエージェントは、新しい状態を観測し、その行動の評価として報酬を得る。ＲＬエージェントの目標は、最良の制御ポリシーを見つけることにより、長期割引報酬を最大化することである。

訓練中、ＲＬエージェントは、最適な行動を認識するまで、多くの可能性のある状況（非常に高い状態空間）を複数回確認する。最適化の目標ごとに、異なるＲＬエージェントがトレーニングされる。

最初のトレーニングステップでは、ＲＬエージェントは、その最適化目標にしたがって製造される方法で、製品を制御するようにトレーニングされる。製造工程におけるその他の製品は、一定のポリシーで管理される。
２番目の訓練ステップでは、同じ製造プロセスおよびシミュレーションの間に、複数のＲＬエージェントを訓練する。これは、ＲＬエージェントを相互に調整し、他のエージェントの意思決定を尊重し、それらに対応するためである。ＲＬエージェントが満足な結果を与えると、仮想環境で訓練されたモデルはプラントの物理レベルに転送され、そこで制御ポリシーとして適用される。各製品に定義された最適化目標に応じて、適切な制御ポリシーを使用して、製品ルーティング、したがって製造を制御する。これにより、ロットサイズ１の製品と、高いエネルギー効率または低材料費のような特定の最適化目標を、同時に１つのＦＲＭＳで製造することが可能になる。この制御ポリシーにより、製造プラントの各製品は、定義された最適化目標に応じて、製造工程のあらゆる時間ステップで、自らの決定を下すことができようになる。

すでに述べたように、図１には、仮想レベルでのＲＬエージェントのトレーニングの概念（シミュレーション）と、物理レベルでのトレーニング済みモデルの適用（実際のＦＭＳ）が示されている。
モジュールはさまざまな製造プロセスに置き換えることができるため、このコンセプトは、プラント内物流のあらゆるアプリケーションに転用することができる。
場合によっては、システムに認識されていない状況がある場合（すなわち、新しい製造モジュールがある場合など）、システムは、この状況における行動を探索し、その行動がどのように実行されるかをオンラインで学習することができる。そのため、システムは、初期には準最適の決定を選択する可能性があるが、未知の状況に対する最良の行動をオンラインで学習する。あるいは、ＧＵＩを使用することによって適応されたプラントトポロジーを使用して、システムを、トレーニング・セットアップで再度トレーニングすることも可能である。

本発明における重要なステップは、ＦＭＳを状態行列として自動的に表現することである。したがって、ＧＵＩが使用される。この場合、プラントオペレータは、プラントを図式的に、かつ、非常に少ない技術的労力で表現しなければならない。ＧＵＩの一例を図３に示す。モジュール式で静的な生産モジュール用のボックスと、ベルトコンベアセクションを表す細いボックスがある。意思決定点は、必要な位置に配置する必要がある。ＧＵＩの背景には、意思決定点において意思決定を行う必要があること、意思決定が行われた後に製品がある意思決定点から次の意思決定点へとベルトコンベア上を移動することができること、のような、一般的な一定のルールが実装されている。

ＧＵＩでは、プラント内の一度にできる製品の最大数、１つのジョブリスト内の最大ジョブ数、およびジョブリストのすべての可能なジョブ、ならびに、モジュールのプロパティ（使用可能な実行可能ジョブまたは最大キュー長を含む）を簡単に設定できる。行動も設定できるが、さまざまな方向を持つ決定点では、デフォルトの行動が方向を選択している。モジュールの前に決定点があり、モジュールに通じるベルトコンベアがない場合、行動「ステップイン」を設定できる。このプラントの概略図と入力の意味に関する一定の知識により、ある決定点から次の決定点に移動する製品でのトレーニングに十分な、プラントの簡単なシミュレーションを自動的に生成することができる。

さまざまな最適化目標を同時に使用して、さまざまな製品を１つのＦＭＳで最適に製造することができる。
プログラミング（自己訓練システム）を必要とせずに、シミュレーションされた環境と相互に作用することにより、ＦＭＳを介して製品の最適な方法を自動的に見つけることができる。
シミュレーションはＧＵＩから自動的に生成され、トレーニング用のＧＵＩを生成するための高度な技術的負担はない。
ＦＭＳの現在の状態の表現はＧＵＩから自動的に生成されるため、ＦＭＳからの重要情報のみを使用して、状態記述を設計するための高い労力は必要ない。
意思決定は、ルールベースでも工学的でもない。高度な技術的負担の少ない自己学習システムである。
意思決定は、オンラインおよびほぼリアルタイムで行われ、トレーニングによってあらゆる状況に対する解決策が分かっている。
場合によっては、システムに認知されていない状況がある場合（すなわち、新しい製造モジュールがある場合など）、システムは、この状況における行動を探索し、その行動がどのように実行されるかをオンラインで学習することができる。したがって、システムは初期に準最適な決定を選択する可能性があるが、未知の状況に対する最良の行動をオンラインで学習する。あるいは、ＧＵＩを使用することによって適応されたプラントトポロジーを使用して、システムを、トレーニング・セットアップで再度トレーニングすることも可能である。現在の状態に関する情報はモジュールのキューを含み、したがって重要な製品位置が含まれているため、製品間の通信は必要ない。
シミュレーションとの相互作用によってトレーニングされるため、ラベル付きデータは必要なく、システムは最善の決定を見つけることができる。
このコンセプトは、プラント内物流のあらゆるアプリケーションに適用可能である。

１０…ＧＵＩ、１５…状態行列、１００…ＦＭＳ、２００…状態行列、３００…ＲＬエージェント、４００…訓練済みモデル、５００…実際のＦＭＳ、６００…ポリシー

Claims

少なくとも製品を製造するために使用されるフレキシブル生産システム（５００）のための自己学習型製造スケジューリング方法であって、
前記生産システムは、ハンドリングエンティティ（Ｃ，Ｃ１，…）を介して相互接続される処理エンティティ（Ｍ１，Ｍ２，…Ｍ６）から構成されており、
前記製造スケジューリングは、前記フレキシブル生産システムのモデル（４００）に対して強化学習システム（３００）によって学習されてもよく、
前記モデル（４００）は、少なくとも前記フレキシブル生産システムの前記行動および前記意思決定を表し、
前記モデル（４００）は、状態行列（２００）に変換されて、前記フレキシブル生産システムの前記状態をシミュレートする、
方法。
前記状態行列（２００）の１つの状態は、前記製品を含む前記フレキシブル生産システム（５００）の１つの状況を表す、
ことを特徴とする特許請求項１に記載の方法。
前記フレキシブル生産システム（５００）は、既知のトポロジー（１００）を有し、
前記状態行列（２００）は前記モデル（１００）からの前記情報に対応するものとして生成され、
前記状態行列（２００）における前記情報の前記位置は、前記フレキシブル生産システム（５００）の前記トポロジーに応じて順序づけられている、
ことを特徴とする先行する特許請求項の１つに記載の方法。
前記状態行列（２００）における前記情報は、
ａ）前記ハンドリングエンティティ（Ｃ，Ｃ１，…，２０３）の前記情報を、前記フレキシブル生産システムにおける前記実際の位置にしたがって、前記行列中に配置する、第１のステップと、
ｂ）前記処理エンティティ（Ｍ１，Ｍ２，…Ｍ６，２０１）の前記情報を配置する、第２のステップと、
において自動的に生成される、
ことを特徴とする先行する特許請求項の１つに記載の方法。
前記処理エンティティに関する前記状態行列（２００）における前記情報は、前記それぞれのエンティティの前記処理能力（Ｆ１，Ｆ２，…）の表現を含む、
ことを特徴とする先行する特許請求項の１つに記載の方法。
前記状態行列（２００）の前記本体は、ある時点において前記フレキシブル生産システム内に位置し、処理エンティティに対する処理キューで待機しているすべての製品についての入力（２０２）を含む、
ことを特徴とする先行する特許請求項の１つに記載の方法。
前記状態行列（２００）の前記本体は、ジョブリスト（ＪＬ）に関する入力（ＪＬ）を含む、
ことを特徴とする先行する特許請求項の１つに記載の方法。
前記強化学習システムの前記訓練のために、前記状態行列（２００）に含まれる前記情報は、ある時間ｔにおける前記フレキシブル生産システムに関する全ての状態情報を含む前記状態行列（２００）の前記次の遷移状態を計算することによって用いられ、それは、前記製品の前記製造プロセスまたは前記フレキシブル生産システムの前記効率に関し、付加的に入力され優先順位付けされた最適化基準に基づいて、前記強化学習システムの時間ｔ＋１における次のステップへの前記次の遷移の前記選択のための基礎として、前記強化学習システムのための入力情報として使用される、
ことを特徴とする先行する特許請求項の１つに記載の方法。
前記強化学習システムの前記訓練のために、前記行列の前記初期状態は、フルジョブリスト（ＪＬ）、および定義された製品位置を示し、
前記終了状態は、空のジョブリスト（ＪＬ）によって特徴づけられる、
ことを特徴とする先行する特許請求項の１つに記載の方法。
少なくとも製品を製造するために使用されるフレキシブル生産システム（５００）の自己学習型製造スケジューリングのための強化学習システムであって、
前記生産システムは、ハンドリングエンティティ（Ｃ，Ｃ１，…）を介して相互接続された処理エンティティ（Ｍ１，Ｍ２，…Ｍ６）からなり、
前記学習プロセスの前記入力は、前記フレキシブル生産システムのモデル（１００）を含み、
前記モデルは、少なくとも前記フレキシブル生産システムの前記行動および前記意思決定を表し、
前記モデル（１００）は、特許請求項１～９の方法の１つによる、状態行列（２００）として実現される、強化学習システム。