JP2022548836A - 状態行列を用いたフレキシブル生産システムおよび装置のための自己学習型製造スケジューリング方法 - Google Patents

状態行列を用いたフレキシブル生産システムおよび装置のための自己学習型製造スケジューリング方法 Download PDF

Info

Publication number
JP2022548836A
JP2022548836A JP2022515782A JP2022515782A JP2022548836A JP 2022548836 A JP2022548836 A JP 2022548836A JP 2022515782 A JP2022515782 A JP 2022515782A JP 2022515782 A JP2022515782 A JP 2022515782A JP 2022548836 A JP2022548836 A JP 2022548836A
Authority
JP
Japan
Prior art keywords
flexible manufacturing
manufacturing system
state
state matrix
manufacturing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022515782A
Other languages
English (en)
Inventor
ベーア,シーリーン
チェルシー ターナー,ダニエレ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of JP2022548836A publication Critical patent/JP2022548836A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/41885Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by modeling, simulation of the manufacturing system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/41865Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by job scheduling, process planning, material flow
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/31From computer integrated manufacturing till monitoring
    • G05B2219/31264Control, autonomous self learn knowledge, rearrange task, reallocate resources
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/32Operator till task planning
    • G05B2219/32131Use job graph
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/32Operator till task planning
    • G05B2219/32301Simulate production, process stages, determine optimum scheduling rules
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/33Director till display
    • G05B2219/33034Online learning, training
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/33Director till display
    • G05B2219/33056Reinforcement learning, agent acts, receives reward, emotion, action selective
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/18Manufacturability analysis or optimisation for manufacturability
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Manufacturing & Machinery (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Automation & Control Theory (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • General Factory Administration (AREA)

Abstract

本発明は、状態行列を用いるフレキシブル生産システムおよび装置のための自己学習型製造スケジューリング方法を提供する。ハンドリングエンティティを介して相互接続された処理エンティティを有するフレキシブル生産システムのための自己学習製造スケジューリング方法であって、前記製造スケジューリングが前記フレキシブル生産システムのモデルに対して強化学習システムによって学習されるものであって、前記モデルが、少なくとも前記フレキシブル生産システムの行動および意思決定を表し、前記モデルが、状態行列に変換されて前記フレキシブル生産システムの状態をシミュレートする、方法。提案した解決策は、オンラインスケジューリングと資源配分のための自己学習システムを含み、シミュレーションにおいてトレーニングされ、FMS内の異なる状況に対して定義された行動の集合から最善の決定を学習する。初見の状況では、解に近づく(ニューラルネットワークを使用する場合)。このシステムを適用する場合、生産プロセス中にほぼリアルタイムで意思決定を行うことができ、システムは異なる最適化目標を使用して、製品ごとに最適な方法をFMSを介して見つける。ルーティングの柔軟性を備えた製造システムの使用に特に適しており、プラント内の製品を自動的にルーティングし、適切な機械または製造モジュールを割り当てることができる。

Description

本発明は、状態行列を用いたフレキシブル生産システムおよび装置のための自己学習型製造スケジューリング方法に関する。
フレキシブル生産システム(flexible manufacturing system:FMS)とは、予測されている、されていないに関わらず、変更があった場合にシステムが対応できるようにする、ある程度の柔軟性がある生産システムのことである。
経路設定(ルーティング)の柔軟性とは、新しい製品タイプを生産するために変更されるシステムの能力や、部品に対して実行される作業の順序を変更する能力をカバーすることである。また、機械の柔軟性とは、数量、生産力、性能などの大規模な変化を吸収するというシステムの能力ばかりでなく、複数の機械を使用して一つの部品に対して同じ操作を施すことができる能力をもいう。
ほとんどのFMSは、3つの主要なシステムから構成されている。
作業機械は、自動化されることの多いCNC機械であり、部品の流れを最適化するためのマテリアルハンドリングシステムと、材料の動きと機械の流れを制御する中央制御コンピュータと、が接続されている。
FMSの主な利点は、新製品を製造するための時間や労力などの製造資源(リソース)を管理する際の柔軟性が高いことである。FMSの最良の用途は、大量生産される製品のような製品を少量生産する際に見られる。
Di Caro, G., and Dorigo, M.、Antnet distributed stigmergic control for communications networks.(AntNet:通信ネットワークのための分散スティグマージティック制御)、Journal of Artificial Intelligence Research 9(1998):317-365 Dorigo, M., and Stutzle, T.、Ant Colony Optimization(アントコロニー最適化)、The MIT Press.(2004) Sallez, Y.; Berger, T.; and Trentesaux, D.、A stigmergic approach for dynamic routing of active products in fms.(FMSにおけるアクティブ製品の動的ルーティングのための生物学的アプローチ)、Computers in Industry 60(2009):204-216. Pach, C.; Berger, T.; Bonte, T.; and Trentesaux, D.、Orca-fms: a dynamic architecture for the optimized and reactive control of flexible manufacturing scheduling(フレキシブル生産スケジューリングの最適化および反応制御のための動的アーキテクチャ)、Computers in Industry 65(2014):706-720. Frankovic, B., and Budinsk'a, I.、"Advantages and Disadvantages of Heuristic and Multi Agents Approaches to the Solution of Scheduling Problem(スケジューリング問題の解法に対するヒューリスティックおよびマルチエージェントアプローチの利点と欠点)"、IFAC Proceedings of the Conference IFAC Control Systems Design. Bratislava, Slovak Rep.: IFAC Proceeding Volumes 60, Issue 13. Leit~ao, P., and Rodrigues, N.、"Multi-agent system for on-demand production integrating production and quality control(生産と品質管理を統合したオンデマンド生産のためのマルチエージェントシステム)"、HoloMAS 2011, LNAI 6867: 84-93.
世の風潮がモジュール化されたフレキシブル生産システム(FMS)に移行するにつれて、オフラインスケジューリングはもはや、効率的な製品ルーティングを可能にする唯一の手段ではなくなっている。製造モジュールの故障、材料の空積み、FMSの再構築など、予期せぬ事態を考慮しなければならない。したがって、(付加的な)オンラインスケジューリングおよび資源配分システムを有することは有用である。
第2の問題は、MESとしての製品ルーティングシステムのような、最尖端のスケジューリングシステムには、技術的に高い労力が必要となることである。さらに、これらの解決策は、静的なものである。自己学習型の製品ルーティングシステムは、実行時に適用されるまで、シミュレーションであらゆる状況に対する決定を自ら学習し、FMSの変更または適応に合わせて再トレーニングできるため、技術的な労力を軽減すると考えられる。
製造実行システム(Manufacturing Execution Systems:MES)は、製品の計画とスケジューリングに使用される。しかし、これらの殆どが顧客の固有のシステムを実装することは、極めて高い技術的負担となる。このMESの計画およびスケジューリング部分は、本発明のオンラインスケジューリングおよび配分システムに置き換えることができる。
さらに、自己学習型製品ルーティングシステムにはいくつかのコンセプトがあるが、計算コストが高い(製品が回答を待っている間に、オンラインで最善の決定を計算する)。
これらの概念の説明は、例えば、非特許文献1~4の開示に見ることができる。
もう一つのアプローチは、マルチエージェントシステムである。このシステムには、エージェントの入札を制御する中心的な実体(エンティティ)があるため、エージェントはこの実体と通信する必要がある。このシステムについては、非特許文献5または非特許文献6に記述されている。
強化学習とは、機械学習の一つの方法であり、報酬と懲罰のシステムを用いてエージェントを訓練する。
一般的に、強化学習アルゴリズム、あるいはエージェントは、その環境と相互作用することによって学習する。エージェントは、正しく実行することで報酬を受け取り、間違って実行することでペナルティを受け取る。エージェントは、その報酬を最大化し、ペナルティを最小化することにより、人間からの介入なしに学習する。
本発明の目的は、FMSの製品計画およびスケジューリングのために、上述した問題に対する解決策を提供することである。
本課題は、請求項1に記載の特徴に係る方法によって解決され、さらに、請求項10に記載の特徴に係るシステムによって解決される。
本発明に係る、フレキシブル生産システムのための自己学習型製造スケジューリング方法は、ハンドリングエンティティを介して相互接続されている処理エンティティを有し、以下のステップ:
製造スケジューリングは、強化学習システムによって、フレキシブル生産システムのモデルに対して学習される、
モデルは、少なくとも、フレキシブル生産システムの行動および意思決定を表す、
モデルは、フレキシブル生産システムの状態をシミュレートするための状態行列に変換される、
ことを備える。
さらに、本発明に係る、少なくとも製品を製造するために使用されるフレキシブル生産システムのための自己学習型製造スケジューリングのための強化学習システムは、
生産システムが、ハンドリングエンティティを介して相互接続されている処理エンティティで構成され、
学習プロセスの入力が、フレキシブル生産システムのモデルを含み、
モデルは、少なくともフレキシブル生産システムの行動および意思決定を表し、
モデル(400)は、状態行列(100)として実現される、
ことを特徴とする、特許請求の範囲1~9のいずれかの方法による。
本発明の有利な実施形態は、従属請求項に記載されている。
実施形態の説明は、本発明の実施の単なる例であり、本発明に対して制限的であることを意味するものではない。
提案された解決策には、オンラインスケジューリングと資源配分のための自己学習システムが含まれる。このシステムは、シミュレーションにおいて訓練(トレーニング)され、FMS内の多くの状況に対して定義された行動の集合からの最善の決定を学習する。初見の状況では、解に近づく(ニューラルネットワークを使用する場合)。このシステムを適用すると、生産プロセス中にほぼリアルタイムで意思決定を行うことができ、システムはFMSを通じ、異なる最適化目標を使用して、製品ごとに最適な方法を見出す。特に、ルーティングの自由度が高い生産システムの利用において優れており、生産施設(プラント)内で製品を自動的にルーティングし、適切な機械や製造モジュールを割り当てることができる。
以下では、発明を、図を用いて好ましい実施形態について例示する。
仮想レベルでのRLエージェントのトレーニングコンセプトと、物理レベル(実際のFMS)でのトレーニング済みモデルの応用と、を示す。 FMSの状態と行動についての、仮想レベルにおける表現と行列での表現である。 FMSを模式的に設計するためのGUIの可能なドラフトを示す。
図1には、物理レベル(実際のFMS500)における、仮想レベル(つまり、シミュレーションを意味する)でのRLエージェント300のトレーニングの概念が示されている。エージェント300は、FMS100のシミュレーションに対して、訓練される。訓練済みモデル400は、後に、物理レベル500の制御されたポリシー600として適用される。
右上には、実際のFMS500の模式図100が示されており、すべての処理エンティティM1,…M6、およびハンドリングエンティティC0,…C6、が示されている。処理エンティティは、機能/行動F1,…F3を有し、例えば、機械加工、穴あけ等として実現される。
有限の行動の集合から行動を選択302した後、ランダムな選択から始まり、環境が更新され、RLエージェントは、新しい状態を観測303し、その行動の評価として報酬を得る。RLエージェントの目標は、最良の制御ポリシーを見つけることによって、長期割引報酬301を最大化することである。
RL技術としては、SARSA、DQNなどがあり、図1では、ディープニューラルネット(Deep Neural Net)DNN104が見られる。
モジュールはさまざまな製造プロセスに置き換えることができる。そのため、このコンセプトは、プラント内の物流のあらゆるアプリケーションに移管可能である。
場合によってはシステムに認識されていない状況がある場合(すなわち、新しい製造モジュールがある場合など)、システムは、この状況における行動を探索し、その行動がどのように実行されるかをオンラインで学習することができる。したがって、システムは、初期には準最適な決定を選択する可能性があるが、未知の状況に対する最良の行動をオンラインで学習する。あるいは、GUIを使用することによって適応されたプラントトポロジーを使用して、システムを、トレーニング・セットアップで再度トレーニングすることも可能である。これについては、図3で後ほど詳しく説明する。
重要なステップは、FMSのシミュレーションとしての状態行列(state matrix)200によるFMS500の表現(表示)である。FMSの表現100からの状態行列の生成は、好ましくは、自動的に行われる。
状態行列は、例えば図3のGUI10の助けを借りて、FMSの概念図を設計した後に、自動的に生成される。状態行列の一例を、これに属するFMSと共に図2に示す。この形状の行列を使用することにより、ユーザはブラックボックスを信頼する代わりに、エージェントの行動を容易に理解することができる。
図2において、右側にFMSの表現100が配され、左側に、対応するFMSの状態行列200が配されている。
状態行列中に、各処理ユニットM1,…M6は対応するフィールドを有し、状態行列の当該フィールドの配置は、FMSのトポロジーに対応している。特定のフィールドの内容は、特定の処理エンティティの機能(F1,F2,F3)についての情報を示す。
さらに、ハンドリングユニット(C0,…C6)は、自身のフィールドに描かれ、決定点Dは、それぞれの待機製品1,…4と共に、最終行202の行列に見ることができる。最後のラインJLの前のラインは、例えば、どの機械M1,…M6がまだ必要なのかなど、処理ジョブの進行状況を示す。
ハンドリングユニット、たとえばベルトコンベア(C0,…C6)は、実際のプラントトポロジーおよびそれらの周囲の生産モジュール/処理ユニット(M1,…M6)と同様の方法で順序づけられる。生産モジュールには、実行可能なジョブに関する詳細情報、または生産時間、品質、またはエネルギー効率のように、プラントオペレータが表現したいと考える属性に関する詳細情報が含まれている。これらのうちのいくつかについてのみ、言及する。制御された製品204は、特定の番号、この例では番号5、によってマークされており、現在配置されている意思決定点4.1,4.2,…に更新される。
最後から2番目の行は、ジョブ・リストJLを表し、最後の行202は、製造プロセスで他の製品を考慮するために特定のモジュールのキュー(待ち行列)で現在待機している、製品の数を内容としている。あるいは、製品IDを有するリストを、上記の行列のフィールドに格納することもできる。
状態行列は、どの決定が選択されたかに応じて、製品がベルトコンベアの次の位置に移動するように、シミュレーションとして並行して使用される。製品があるモジュールに移動しても、それはシミュレーションには描画されず、シミュレーションは次の意思決定点において更新されたジョブリストによってのみ更新される。初期状態は、完全なジョブリストおよび定義された製品の位置によって定義することができ、終了状態は、遂行ジョブリスト、つまり、すべてのフィールドが値「0」(空)を有し、製品が待機していない状態として定義することができる。
プラントのすべてのモジュールまたは機械に対して、行列中に1つのプレース(place)が生成される。これは、各モジュールについて行われ、行列は、プラントトポロジーでモジュールが順に並べられるのと同じように構築される。すべての輸送の決定点(モジュール間のコンベア部分)に対してもまた、あるプレース上に生成された行列中に1つのプレースが生成され、これは2つの接続モジュールに隣接している。行列は、自動的に、かつ、プラントトポロジーと同じ順序でルールに基づいて、構築される。例えば、行列に新しい行を生成する決定のために、GUI中のグリッドが役に立つ可能性がある。グリッドは、一般的に、モジュールやコンベアセクションの位置を特定し、行列内の適切な位置を見つけるのに役立つ。
状態行列とシミュレーションが自動的に作成された後、システムはこれらの要件についてトレーニングを受けることができる。システムをトレーニングするために、強化学習(RL)エージェントが使用される。マルチエージェントシステム(Multi Agent System:MAS)ではないため、プラントの状態にはモジュールのキューの長さ情報が含まれており、製品が相互に通信する必要はない。RLのラベル付きデータが必要ないという事実により、このアプローチは、ラベル付きデータを生成するタスクに苦労することがあるプラントオペレータにとって、非常に魅力的なものとなる。
本発明の一実施形態では、GUIを使用することができ、ここでプラントオペレータは、プラントを図式的に、かつ非常に少ない技術的負担で表示する必要がある。GUIの一例を図3に示す。図3には、モジュール式で静的な生産モジュール用のボックスと、ベルトコンベアセクションを表す薄いボックスと、がある。意思決定点Dは、目的の位置に配置しなければならない。GUIの背景には、意思決定点において意思決定を行う必要があること、意思決定後に製品がある意思決定点から次の意思決定点へとベルトコンベア上を移動することができること、等の一般的な一定のルールが実装されている。
処理ユニットは、GUIのボックス11を介して定義することができる。GUIでは、ボックス12および13に参照されるように、プラント内の一度にできる製品の最大数、1つのジョブリスト内の最大ジョブ数、およびジョブリスト内のすべての可能なジョブ、ならびに、モジュールのプロパティ(使用可能な実行可能ジョブまたは操作または最大キュー長を含む)を簡単に設定できる。
行動も設定でき、さまざまな方向を持つ決定点では、デフォルトの行動が方向を選択している。モジュールの前に決定点があり、モジュールに通じるベルトコンベアがない場合、行動「ステップイン」を設定することができる。このプラント100の概略図と、入力の意味に関する一定の知識とを用いることで、ある決定点から次の決定点に移動する製品のトレーニングに十分な、プラントの簡単なシミュレーションを自動的に生成することができる。
さらに、FMSの状態の表現は、状態行列を生成するシステムがGUIの入力の意味についての知識を有するので、状態行列15として直接かつ自動的に表現することができる。プラントオペレータがシミュレーションまたは状態行列に表現したい追加情報があれば、その情報を直接コード化する可能性もある。
また代わりに、プラントトポロジーなどを記述した記述型(OPC UA)情報モデルを、特定の(OPC UA)クライアントによって読み取ることもできる。その後、クライアントは、シミュレーションと状態行列を構築することができる。
報酬関数16は、システムが選択した行動を評価する。この場合、製品が取るルートだけでなく、製品がそのルート上の与えられた制約にどのように適合したかをも評価し、その行動が有用であったかどうかを、各時間ステップで確認する。したがって、報酬関数は、これらのプロセス固有の制約、局所的な最適化目標、および全体的な最適化目標を含む必要があり、これらは、ボックス14を介してすべて定義することができる。また、ジョブ順序についての制約(最初、2番目、などに行う必要があるジョブ)を設定17することもできる。
報酬関数は、考慮すべき最適化目標を数学的に定式化したものであるため、自動的に生成される。
ユーザは、(たとえば、GUI14で)最適化目標の重要度を、例えば以下:
5×生産時間,2×品質,1×エネルギー効率
のように定義し、そしてこの情報は、以下のように、報酬関数の数学的な記述:
0.625×生産時間+0.25×品質+0.125×時間エネルギー
に直接変換されることになる。
さらに、報酬関数には、システムが製造プロセス中に考慮すべき最適化目標が含まれる。これらの目標には、メイクスパン、処理時間、材料コスト、生産コスト、エネルギー需要、および品質を含めることができる。GUIでプロセス固有の制約と最適化目標とを設定するのは、プラントオペレータの作業である。また、プラントオペレータの希望に応じて、組み合わせおよび重み付けされた最適化目標を検討することも可能である。
実行時に、受け取った報酬を期待される報酬と比較することで、モデルを再トレーニングしたり、微調整したりするためのさらなる分析や決定を行うことができる。
要約すると、本発明は、仮想環境(生成されたシミュレーション)で訓練され、見た可能性のあるすべての状況においてどのように反応するかを学習する、RLエージェントを示す。ランダムな選択を行うことで始め、有限の行動の集合から行動を選択した後、環境が更新され、RLエージェントは、新しい状態を観測し、その行動の評価として報酬を得る。RLエージェントの目標は、最良の制御ポリシーを見つけることにより、長期割引報酬を最大化することである。
訓練中、RLエージェントは、最適な行動を認識するまで、多くの可能性のある状況(非常に高い状態空間)を複数回確認する。最適化の目標ごとに、異なるRLエージェントがトレーニングされる。
最初のトレーニングステップでは、RLエージェントは、その最適化目標にしたがって製造される方法で、製品を制御するようにトレーニングされる。製造工程におけるその他の製品は、一定のポリシーで管理される。
2番目の訓練ステップでは、同じ製造プロセスおよびシミュレーションの間に、複数のRLエージェントを訓練する。これは、RLエージェントを相互に調整し、他のエージェントの意思決定を尊重し、それらに対応するためである。RLエージェントが満足な結果を与えると、仮想環境で訓練されたモデルはプラントの物理レベルに転送され、そこで制御ポリシーとして適用される。各製品に定義された最適化目標に応じて、適切な制御ポリシーを使用して、製品ルーティング、したがって製造を制御する。これにより、ロットサイズ1の製品と、高いエネルギー効率または低材料費のような特定の最適化目標を、同時に1つのFRMSで製造することが可能になる。この制御ポリシーにより、製造プラントの各製品は、定義された最適化目標に応じて、製造工程のあらゆる時間ステップで、自らの決定を下すことができようになる。
すでに述べたように、図1には、仮想レベルでのRLエージェントのトレーニングの概念(シミュレーション)と、物理レベルでのトレーニング済みモデルの適用(実際のFMS)が示されている。
モジュールはさまざまな製造プロセスに置き換えることができるため、このコンセプトは、プラント内物流のあらゆるアプリケーションに転用することができる。
場合によっては、システムに認識されていない状況がある場合(すなわち、新しい製造モジュールがある場合など)、システムは、この状況における行動を探索し、その行動がどのように実行されるかをオンラインで学習することができる。そのため、システムは、初期には準最適の決定を選択する可能性があるが、未知の状況に対する最良の行動をオンラインで学習する。あるいは、GUIを使用することによって適応されたプラントトポロジーを使用して、システムを、トレーニング・セットアップで再度トレーニングすることも可能である。
本発明における重要なステップは、FMSを状態行列として自動的に表現することである。したがって、GUIが使用される。この場合、プラントオペレータは、プラントを図式的に、かつ、非常に少ない技術的労力で表現しなければならない。GUIの一例を図3に示す。モジュール式で静的な生産モジュール用のボックスと、ベルトコンベアセクションを表す細いボックスがある。意思決定点は、必要な位置に配置する必要がある。GUIの背景には、意思決定点において意思決定を行う必要があること、意思決定が行われた後に製品がある意思決定点から次の意思決定点へとベルトコンベア上を移動することができること、のような、一般的な一定のルールが実装されている。
GUIでは、プラント内の一度にできる製品の最大数、1つのジョブリスト内の最大ジョブ数、およびジョブリストのすべての可能なジョブ、ならびに、モジュールのプロパティ(使用可能な実行可能ジョブまたは最大キュー長を含む)を簡単に設定できる。行動も設定できるが、さまざまな方向を持つ決定点では、デフォルトの行動が方向を選択している。モジュールの前に決定点があり、モジュールに通じるベルトコンベアがない場合、行動「ステップイン」を設定できる。このプラントの概略図と入力の意味に関する一定の知識により、ある決定点から次の決定点に移動する製品でのトレーニングに十分な、プラントの簡単なシミュレーションを自動的に生成することができる。
さまざまな最適化目標を同時に使用して、さまざまな製品を1つのFMSで最適に製造することができる。
プログラミング(自己訓練システム)を必要とせずに、シミュレーションされた環境と相互に作用することにより、FMSを介して製品の最適な方法を自動的に見つけることができる。
シミュレーションはGUIから自動的に生成され、トレーニング用のGUIを生成するための高度な技術的負担はない。
FMSの現在の状態の表現はGUIから自動的に生成されるため、FMSからの重要情報のみを使用して、状態記述を設計するための高い労力は必要ない。
意思決定は、ルールベースでも工学的でもない。高度な技術的負担の少ない自己学習システムである。
意思決定は、オンラインおよびほぼリアルタイムで行われ、トレーニングによってあらゆる状況に対する解決策が分かっている。
場合によっては、システムに認知されていない状況がある場合(すなわち、新しい製造モジュールがある場合など)、システムは、この状況における行動を探索し、その行動がどのように実行されるかをオンラインで学習することができる。したがって、システムは初期に準最適な決定を選択する可能性があるが、未知の状況に対する最良の行動をオンラインで学習する。あるいは、GUIを使用することによって適応されたプラントトポロジーを使用して、システムを、トレーニング・セットアップで再度トレーニングすることも可能である。現在の状態に関する情報はモジュールのキューを含み、したがって重要な製品位置が含まれているため、製品間の通信は必要ない。
シミュレーションとの相互作用によってトレーニングされるため、ラベル付きデータは必要なく、システムは最善の決定を見つけることができる。
このコンセプトは、プラント内物流のあらゆるアプリケーションに適用可能である。
10…GUI、15…状態行列、100…FMS、200…状態行列、300…RLエージェント、400…訓練済みモデル、500…実際のFMS、600…ポリシー

Claims (10)

  1. 少なくとも製品を製造するために使用されるフレキシブル生産システム(500)のための自己学習型製造スケジューリング方法であって、
    前記生産システムは、ハンドリングエンティティ(C,C1,…)を介して相互接続される処理エンティティ(M1,M2,…M6)から構成されており、
    前記製造スケジューリングは、前記フレキシブル生産システムのモデル(400)に対して強化学習システム(300)によって学習されてもよく、
    前記モデル(400)は、少なくとも前記フレキシブル生産システムの前記行動および前記意思決定を表し、
    前記モデル(400)は、状態行列(200)に変換されて、前記フレキシブル生産システムの前記状態をシミュレートする、
    方法。
  2. 前記状態行列(200)の1つの状態は、前記製品を含む前記フレキシブル生産システム(500)の1つの状況を表す、
    ことを特徴とする特許請求項1に記載の方法。
  3. 前記フレキシブル生産システム(500)は、既知のトポロジー(100)を有し、
    前記状態行列(200)は前記モデル(100)からの前記情報に対応するものとして生成され、
    前記状態行列(200)における前記情報の前記位置は、前記フレキシブル生産システム(500)の前記トポロジーに応じて順序づけられている、
    ことを特徴とする先行する特許請求項の1つに記載の方法。
  4. 前記状態行列(200)における前記情報は、
    a)前記ハンドリングエンティティ(C,C1,…,203)の前記情報を、前記フレキシブル生産システムにおける前記実際の位置にしたがって、前記行列中に配置する、第1のステップと、
    b)前記処理エンティティ(M1,M2,…M6,201)の前記情報を配置する、第2のステップと、
    において自動的に生成される、
    ことを特徴とする先行する特許請求項の1つに記載の方法。
  5. 前記処理エンティティに関する前記状態行列(200)における前記情報は、前記それぞれのエンティティの前記処理能力(F1,F2,…)の表現を含む、
    ことを特徴とする先行する特許請求項の1つに記載の方法。
  6. 前記状態行列(200)の前記本体は、ある時点において前記フレキシブル生産システム内に位置し、処理エンティティに対する処理キューで待機しているすべての製品についての入力(202)を含む、
    ことを特徴とする先行する特許請求項の1つに記載の方法。
  7. 前記状態行列(200)の前記本体は、ジョブリスト(JL)に関する入力(JL)を含む、
    ことを特徴とする先行する特許請求項の1つに記載の方法。
  8. 前記強化学習システムの前記訓練のために、前記状態行列(200)に含まれる前記情報は、ある時間tにおける前記フレキシブル生産システムに関する全ての状態情報を含む前記状態行列(200)の前記次の遷移状態を計算することによって用いられ、それは、前記製品の前記製造プロセスまたは前記フレキシブル生産システムの前記効率に関し、付加的に入力され優先順位付けされた最適化基準に基づいて、前記強化学習システムの時間t+1における次のステップへの前記次の遷移の前記選択のための基礎として、前記強化学習システムのための入力情報として使用される、
    ことを特徴とする先行する特許請求項の1つに記載の方法。
  9. 前記強化学習システムの前記訓練のために、前記行列の前記初期状態は、フルジョブリスト(JL)、および定義された製品位置を示し、
    前記終了状態は、空のジョブリスト(JL)によって特徴づけられる、
    ことを特徴とする先行する特許請求項の1つに記載の方法。
  10. 少なくとも製品を製造するために使用されるフレキシブル生産システム(500)の自己学習型製造スケジューリングのための強化学習システムであって、
    前記生産システムは、ハンドリングエンティティ(C,C1,…)を介して相互接続された処理エンティティ(M1,M2,…M6)からなり、
    前記学習プロセスの前記入力は、前記フレキシブル生産システムのモデル(100)を含み、
    前記モデルは、少なくとも前記フレキシブル生産システムの前記行動および前記意思決定を表し、
    前記モデル(100)は、特許請求項1~9の方法の1つによる、状態行列(200)として実現される、強化学習システム。
JP2022515782A 2019-09-19 2019-09-19 状態行列を用いたフレキシブル生産システムおよび装置のための自己学習型製造スケジューリング方法 Pending JP2022548836A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2019/075168 WO2021052588A1 (en) 2019-09-19 2019-09-19 Method for self-learning manufacturing scheduling for a flexible manufacturing system by using a state matrix and device

Publications (1)

Publication Number Publication Date
JP2022548836A true JP2022548836A (ja) 2022-11-22

Family

ID=68172154

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022515782A Pending JP2022548836A (ja) 2019-09-19 2019-09-19 状態行列を用いたフレキシブル生産システムおよび装置のための自己学習型製造スケジューリング方法

Country Status (6)

Country Link
US (1) US20220342398A1 (ja)
EP (1) EP4004663A1 (ja)
JP (1) JP2022548836A (ja)
KR (1) KR20220066336A (ja)
CN (1) CN114503038A (ja)
WO (1) WO2021052588A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7481182B2 (ja) 2020-07-10 2024-05-10 株式会社日立製作所 工程管理システムおよび工程管理方法
JP7503150B2 (ja) 2020-05-14 2024-06-19 エス・エム・エス・グループ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング 複数の設備部分から成る生産設備、特に金属の半製品のような工業製品を生産するための生産設備を制御するためのシステム及び方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11645498B2 (en) * 2019-09-25 2023-05-09 International Business Machines Corporation Semi-supervised reinforcement learning
WO2023043601A1 (en) * 2021-09-16 2023-03-23 Siemens Corporation System and method for supporting execution of batch production using reinforcement learning
US20230176552A1 (en) * 2021-12-02 2023-06-08 Microsoft Technology Licensing, Llc Reinforcement learning-based optimization of manufacturing lines

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004005431A (ja) * 2002-03-26 2004-01-08 Mitsui Zosen System Research Inc シミュレーションモデルの作成方法並びにシミュレーション方法および装置、並びに監視・制御方法およびシステム
JP2008117309A (ja) * 2006-11-07 2008-05-22 Nippon Steel Corp 生産・物流スケジュール作成装置及び方法、生産・物流プロセス制御装置及び方法、コンピュータプログラム、並びにコンピュータ読み取り可能な記録媒体
JP2017033525A (ja) * 2015-07-31 2017-02-09 ファナック株式会社 複数の製造機械を有する製造セルを制御するセルコントロールシステム、生産システム、制御方法及び制御プログラム
US20180218296A1 (en) * 2015-03-23 2018-08-02 Siemens Aktiengesellschaft Method for planning and producing an assembled product, production module, and production control

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933231B (zh) * 2015-06-01 2017-12-29 浙江大学 一种采用级联多知识模型的柔性装配生产线选型布局方法
CN106295081A (zh) * 2016-09-18 2017-01-04 张选琪 柔性制造***决策仿真***
WO2018126286A1 (en) * 2017-01-02 2018-07-05 Newvoicemedia Us Inc. System and method for optimizing communication operations using reinforcement learing
JP6530783B2 (ja) * 2017-06-12 2019-06-12 ファナック株式会社 機械学習装置、制御装置及び機械学習プログラム
JP2020151770A (ja) * 2017-07-05 2020-09-24 芳賀電機株式会社 フレキシブル製造システム
WO2019063079A1 (en) * 2017-09-28 2019-04-04 Siemens Aktiengesellschaft SYSTEM, DEVICE AND METHOD FOR OPTIMIZING ENERGY AND COMFORT IN AN IMMOTIC ENVIRONMENT
EP3467718A1 (en) * 2017-10-04 2019-04-10 Prowler.io Limited Machine learning system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004005431A (ja) * 2002-03-26 2004-01-08 Mitsui Zosen System Research Inc シミュレーションモデルの作成方法並びにシミュレーション方法および装置、並びに監視・制御方法およびシステム
JP2008117309A (ja) * 2006-11-07 2008-05-22 Nippon Steel Corp 生産・物流スケジュール作成装置及び方法、生産・物流プロセス制御装置及び方法、コンピュータプログラム、並びにコンピュータ読み取り可能な記録媒体
US20180218296A1 (en) * 2015-03-23 2018-08-02 Siemens Aktiengesellschaft Method for planning and producing an assembled product, production module, and production control
JP2017033525A (ja) * 2015-07-31 2017-02-09 ファナック株式会社 複数の製造機械を有する製造セルを制御するセルコントロールシステム、生産システム、制御方法及び制御プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7503150B2 (ja) 2020-05-14 2024-06-19 エス・エム・エス・グループ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング 複数の設備部分から成る生産設備、特に金属の半製品のような工業製品を生産するための生産設備を制御するためのシステム及び方法
JP7481182B2 (ja) 2020-07-10 2024-05-10 株式会社日立製作所 工程管理システムおよび工程管理方法

Also Published As

Publication number Publication date
KR20220066336A (ko) 2022-05-24
EP4004663A1 (en) 2022-06-01
CN114503038A (zh) 2022-05-13
US20220342398A1 (en) 2022-10-27
WO2021052588A1 (en) 2021-03-25

Similar Documents

Publication Publication Date Title
Zhou et al. Multi-agent reinforcement learning for online scheduling in smart factories
JP2022548836A (ja) 状態行列を用いたフレキシブル生産システムおよび装置のための自己学習型製造スケジューリング方法
Wang et al. An adaptive artificial bee colony with reinforcement learning for distributed three-stage assembly scheduling with maintenance
JP7379672B2 (ja) フレキシブル生産システムおよび装置のための自己学習型製造スケジューリング方法
Zhang et al. Agent technology for collaborative process planning: a review
Hajrizi Smart solution for smart factory
Lohse et al. Implementing an online scheduling approach for production with multi agent proximal policy optimization (MAPPO)
Paul et al. Efficient planning of multi-robot collective transport using graph reinforcement learning with higher order topological abstraction
Pisarić et al. Towards a non-disruptive system for dynamic orchestration of the shop floor
Makanda et al. Emergence of collective intelligence in industrial cyber-physical-social systems for collaborative task allocation and defect detection
Gu et al. A distributed physical architecture and data-based scheduling method for smart factory based on intelligent agents
Bramhane et al. Simulation of flexible manufacturing system using adaptive neuro fuzzy hybrid structure for efficient job sequencing and routing
Dhatterwal et al. The role of multiagent system in industry 4.0
Gao et al. Collaborative scheduling with adaptation to failure for heterogeneous robot teams
Firme et al. Multi-agent system for dynamic scheduling
Benjaafar Intelligent simulation for flexible manufacturing systems: An integrated approach
Ahmed et al. Comparison of performances of Jaya algorithm and cuckoo search algorithm using benchmark functions
Workneh et al. Deep q network method for dynamic job shop scheduling problem
Gu et al. Dynamic scheduling mechanism for intelligent workshop with deep reinforcement learning method based on multi-agent system architecture
López-Ortega et al. Intelligent and collaborative Multi-Agent System to generate and schedule production orders
Ranky Network simulation models of lean manufacturing systems in digital factories and an intranet server balancing algorithm
Qin et al. Multi-Agent-Based Self-Organizing Manufacturing Network Towards Mass Personalization
Wang et al. Job Shop Scheduling Problem Using Proximal Policy Optimization
Nehzati et al. Application of Artificial Intelligent in Production Scheduling: A critical evaluation and comparison of key approaches
Taratukhin et al. A Fuzzy Multiagent Approach for Integrated Product Life Cycle Environment

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220509

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220509

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230823

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240311

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20240325

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20240614