WO2024079883A1

WO2024079883A1 - 生産支援装置

Info

Publication number: WO2024079883A1
Application number: PCT/JP2022/038371
Authority: WO
Inventors: 弘健江嵜; 聡希竹内
Original assignee: 株式会社Fuji
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2024-04-18

Abstract

生産支援装置は、複数の部品装着機の間で基板に装着する部品の部品種ペアを入れ替えて装着処理を試行することにより装着処理が改善して報酬が得られる部品種ペアに関する第一機械学習に用いられる複数の第一学習用データを取得する第一学習用データ取得部と、取得された複数の第一学習用データを所定の分類基準に従って分類して記憶する学習用データ記憶部と、学習用データ記憶部に分類されて記憶されている各々の第一学習用データを無作為に抽出する抽出部と、無作為に抽出された第一学習用データを用いて第一機械学習を行うことによって生成された学習済みモデルを記憶する学習済みモデル記憶部と、を備える。

Description

生産支援装置

　本明細書は、生産支援装置に関するものである。

　従来から、例えば、特許文献１に開示された状態判定装置及び状態判定方法（以下、「従来の状態判定装置等」と称呼する。）が知られている。従来の状態判定装置等では、分類条件に基づいて分類した学習用データを適用する学習済みモデルを決定し、決定した学習済みモデルに対して分類した学習用データを適用して機械学習を行うようになっている。

特開２０２０－６６１７８号公報

　従来の状態判定装置等では、複数の学習済みモデルから選択的に決定された学習済みモデルについて、分類された特定の学習用データが適用されて機械学習が行われる。このため、従来の状態判定装置等では、学習済みモデルは、分類された特定の学習用データに類するデータについて所望の推論結果を出力することができる。従来の状態判定装置等のように、分類された特定の学習用データのみを用いて機械学習を行う場合、学習に用いる学習用データに偏りが生じており、その結果、時間の経過に伴って学習用データを分類する分類基準に特化した学習済みモデルが生成される。

　本明細書は、学習用データの偏りを抑制して生成された学習済みモデルを用いることができる生産支援装置を提供することを目的とする。

　本明細書は、複数の部品装着機の間で基板に装着する部品の部品種ペアを入れ替えて装着処理を試行することにより装着処理が改善して報酬が得られる部品種ペアに関する第一機械学習に用いられる複数の第一学習用データを取得する第一学習用データ取得部と、取得された複数の第一学習用データを所定の分類基準に従って分類して記憶する学習用データ記憶部と、学習用データ記憶部に分類されて記憶されている各々の第一学習用データを無作為に抽出する抽出部と、無作為に抽出された第一学習用データを用いて第一機械学習を行うことによって生成された学習済みモデルを記憶する学習済みモデル記憶部と、を備えた、生産支援装置を開示する。

　本明細書では、出願当初の請求項４において、「請求項１又は２記載の生産支援装置」を「請求項１－３の何れか一項に記載の生産支援装置」に変更した技術的思想も開示されている。又、本明細書では、出願当初の請求項５において、「請求項１又は２記載の生産支援装置」を「請求項１－４の何れか一項に記載の生産支援装置」に変更した技術的思想も開示されている。又、本明細書では、出願当初の請求項７において、「請求項１又は２に記載の生産支援装置」を「請求項１－６の何れか一項に記載の生産支援装置」に変更した技術的思想も開示されている。又、本明細書では、出願当初の請求項１４において、「請求項１又は２記載の生産支援装置」を「請求項１－１３の何れか一項に記載の生産支援装置」に変更した技術的思想も開示されている。更に、本明細書では、出願当初の請求項１６において、「請求項１又は２記載の生産支援装置」を「請求項１－１５の何れか一項に記載の生産支援装置」に変更した技術的思想も開示されている。

　生産支援装置によれば、分類されて記憶されている各々の第一学習用データを無作為に抽出して第一機械学習を行うことにより、学習用データの偏りを抑制して生成された学習済みモデルを用いることができる。

生産システムの全体構成を示す図である。図１の生産システムを構成する複数の部品装着機を説明するための図である。図２の部品装着機の全体構成を模式的に示す図である。図１のフィーダの要部を模式的に示した側面図である。キャリアテープを模式的に示した上面図である。生産支援装置の構成を示す機能ブロック図である。生産支援装置（学習済みモデル生成部）による学習フェーズの構成を示す機能ブロック図である。生産支援装置（推論部）による推論フェーズの構成を示す機能ブロック図である。生産支援装置により実行される最適化プログラムを示すフローチャートである。

　以下、生産支援装置について、図面を参照しながら説明する。本実施形態においては、自動搬送機によってフィーダが部品装着機に搬送される生産システムに生産支援装置が設けられる場合を例示して説明する。

１．生産システム１の全体構成
　最初に、図１、図２及び図３を参照して、生産システム１の全体構成を説明する。生産システム１は、幅方向に複数（本実施形態においては、４つ）並べられた部品装着機１０と、自動搬送機２０と、ローダ装置３０と、フィーダ４０と、生産支援装置１００とを備える。部品装着機１０は、所定作業として部品Ｐ（例えば、電子部品）を基板Ｋに装着する装着作業を実施する対基板作業機である。

　そして、複数の部品装着機１０によって形成される生産システム１においては、各々の部品装着機１０の内部に基板Ｋが順番に搬送され、それぞれの部品装着機１０において所定の部品を装着する装着処理が行われる。尚、以下の説明においては、Ｘ軸方向を部品装着機１０の左右方向（幅方向）とし、Ｙ軸方向を部品装着機１０の前後方向（奥行方向）とし、Ｚ軸方向を部品装着機１０の上下方向（鉛直方向）とする。

　又、生産システム１は、部品装着機１０の各々に対して、フィーダ４０を搬送して脱着する（入れ替える）自動搬送機２０を備えている。ここで、自動搬送機２０としては、例えば、図示を省略する自動倉庫と部品装着機１０との間を自動的に往復移動して、所定のフィーダ４０を搬送する無人搬送車（無人搬送ロボット）であるＡＧＶ（Automatic Guided Vehicle）等を例示することができる。尚、図示を省略するが、自動搬送機２０は、後述する部品装着機１０の部品供給装置１２に対して、フィーダ４０を脱着するための脱着機構（例えば、ベルトコンベアや多関節ロボット等）を備えている。

　更に、生産システム１は、生産スケジュールに合わせて、部品Ｐの補給や、次生産への段取り替えを行うローダ装置３０を備えている。ローダ装置３０は、Ｙ軸方向にて部品装着機１０（より詳しくは、後述する部品供給装置１２）の前方に配置されてＸ軸方向に移動可能とされる。尚、本実施形態において、ローダ装置３０は、隣接する部品装着機１０（部品供給装置１２）に対しても横断的にＸ軸方向に移動可能とされている。

　又、ローダ装置３０は、後述する部品供給装置１２のスロット１２Ｓにおいて、上段から下段へ、又は、下段から上段へフィーダ４０を移動させる。更に、ローダ装置３０は、２つの部品装着機１０の間、即ち、２つの部品供給装置１２の各々のスロット１２Ｓの間で、フィーダ４０移動させて入れ替える。具体的に、ローダ装置３０は、スロット１２Ｓの上段にセットされたフィーダ４０を一旦収容（回収）し、Ｘ軸方向に移動した後、収容（回収）したフィーダ４０を下段に排出してセットすることができる。又、ローダ装置３０は、スロット１２Ｓの下段にセットされたフィーダ４０を一旦収容（回収）し、Ｘ軸方向に移動した後、収容（回収）したフィーダ４０を上段に排出してセットすることができる。

　更に、ローダ装置３０は、一方の部品装着機１０の部品供給装置１２のスロット１２Ｓにセットされたフィーダ４０を一旦収容（回収）し、Ｘ軸方向に移動した後、収容（回収）したフィーダ４０を他方の部品装着機１０の部品供給装置１２のスロット１２Ｓに排出してセットする、即ち、部品装着機１０の間で複数のフィーダ４０を入れ替えることができる。これにより、ローダ装置３０は、部品Ｐの供給及び段取り替え（フィーダ４０の入れ替えを含む）を自動的に行うことができる。

　ここで、生産システム１においては、図１に示すように、上述した各装置１０，２０，３０，４０の他に、生産の全体をコントロールするための管理装置Ｈが設けられる。管理装置Ｈとしては、例えば、上述した各装置と通信可能に接続されたホストコンピュータやバッファ等を例示することができる。そして、管理装置Ｈは、後述するように、生産に関する生産情報Ｊを含む各種情報を、必要に応じて上述した各装置１０，２０，３０，４０，１００に供給する。

２．部品装着機１０
　部品装着機１０は、図３にて概略的に示すように、基板搬送装置１１と、部品供給装置１２と、部品移載装置１３と、部品カメラ１４と、基板カメラ１５と、制御装置１６とを主に備える。

　基板搬送装置１１は、ベルトコンベア等により構成され、基板ＫをＸ軸方向へ順次搬送する。基板搬送装置１１は、部品装着機１０の機内における所定位置に基板Ｋを位置決めする。そして、基板搬送装置１１は、位置決めされた基板Ｋに対する装着作業が終了すると、基板Ｋを部品装着機１０の機外（例えば、隣接する部品装着機１０）へ搬出する。

　部品供給装置１２は、基板Ｋに装着する部品Ｐ（例えば、電子部品）を供給する。部品供給装置１２は、Ｘ軸方向に配列された複数のスロット１２Ｓを備え、スロット１２Ｓの各々にはフィーダ４０が着脱可能にセットされる。ここで、本実施形態のスロット１２Ｓは、Ｚ軸方向に沿った上段と下段とによって形成されている（図２を参照）。部品供給装置１２は、フィーダ４０によって後述する部品Ｐを供給するキャリアテープ５０を送り移動させ、フィーダ４０の先端側（図３において上側）に設けられた部品供給位置Ｐｓ（図４を参照）に部品Ｐを供給する。

　部品移載装置１３は、部品供給位置Ｐｓに供給された部品Ｐを保持し、保持した部品Ｐを位置決めされた基板Ｋに装着する。部品移載装置１３は、ヘッド駆動装置１３Ａと、移動台１３Ｂと、装着ヘッド１３Ｃとを主に備える。ヘッド駆動装置１３Ａは、直動機構により移動台１３ＢをＸ軸方向及びＹ軸方向へ移動させる。

　装着ヘッド１３Ｃは、部品Ｐを保持する保持装置であり、移動台１３Ｂに対して着脱可能に設けられる。そして、装着ヘッド１３Ｃに設けられたノズルホルダ１３Ｄには、部品Ｐを保持可能な複数の吸着ノズル１３Ｅが着脱可能に設けられる。吸着ノズル１３Ｅは、装着ヘッド１３Ｃに対して、Ｚ軸方向（部品装着機１０の上下方向）に平行な軸線の回りに回転可能に、且つ、昇降可能に支持される。吸着ノズル１３Ｅは、部品供給位置Ｐｓに供給された部品Ｐを吸着により保持し、その保持した部品Ｐを位置決めされた基板Ｋに装着する。

　部品カメラ１４及び基板カメラ１５は、ＣＣＤやＣＭＯＳ等の撮像素子を有するデジタル式の撮像装置である。部品カメラ１４は、光軸をＺ軸方向へ向けた状態で部品装着機１０の基台に固定され、吸着ノズル１３Ｅに保持された部品Ｐを下方から撮像する。基板カメラ１５は、光軸をＺ軸方向へ向けた状態で移動台１３Ｂに固定され、基板Ｋを上方から撮像する。

　制御装置１６は、ＣＰＵ、ＲＯＭ、ＲＡＭ、各種インターフェースを主要構成部品とするコンピュータ装置であり、部品装着機１０の作動を統括的に制御する。具体的に、制御装置１６は、図示省略の制御プログラムを実行することにより、部品装着機１０を作動させる。これにより、部品装着機１０は、例えば、予め記憶されたシーケンスに従い、部品Ｐの装着作業を実施する。

　例えば、制御装置１６は、基板搬送装置１１によって位置決めされた基板Ｋを基板カメラ１５に撮像させる。そして、制御装置１６は、基板カメラ１５によって撮像された画像を画像処理し、基板Ｋの位置決め状態を認識する。又、制御装置１６は、部品供給装置１２によって供給された部品Ｐを吸着ノズル１３Ｅに採取させて保持させ、保持されている部品Ｐを部品カメラ１４に撮像させる。そして、制御装置１６は、部品カメラ１４によって撮像された画像を画像処理し、部品Ｐの姿勢を認識する。

　制御装置１６は、制御プログラムを実行し、基板Ｋに部品Ｐを装着する位置として予め設定されている指定装着位置の上方に向かって吸着ノズル１３Ｅ（装着ヘッド１３Ｃ）を移動させる。又、制御装置１６は、基板Ｋの位置決め状態や部品Ｐの姿勢等に基づいて指定装着位置や指定装着角度を補正し、実際に部品Ｐを装着する装着位置及び装着角度を設定する。

　制御装置１６は、装着位置及び装着角度に合わせて、吸着ノズル１３Ｅの目標位置（Ｘ軸座標及びＹ軸座標）と回転角度とを補正する。そして、制御装置１６は、補正された目標位置において補正された回転角度で吸着ノズル１３Ｅを降下させ、基板Ｋに部品Ｐを装着する。制御装置１６は、上述したようにピックアンドプレースサイクルを繰り返すことにより、基板Ｋに複数の部品Ｐを装着する装着処理を行う。

３．フィーダ４０
　フィーダ４０は、図４に示すように、フィーダ本体４１と、駆動スプロケット４２と、テープ押え部４３と、剥離部４４とを備える。フィーダ４０は、部品種ごとに部品Ｐを収容したキャリアテープ５０が巻回されたリールＲを保持する。フィーダ４０は、例えば、部品装着機１０の部品供給装置１２のスロット１２Ｓにセットされた状態で、又は、自動搬送機２０によって搬送されている状態で、管理装置Ｈと通信することが可能である。

　ここで、リールＲに巻回されるキャリアテープ５０について、説明しておく。キャリアテープ５０は、図５に示すように、ベーステープ５１と、カバーテープ５２とを備える。ベーステープ５１は、紙材や樹脂等の柔軟な材料を用いて形成される。ベーステープ５１の幅方向の一方側（図５における下側）には、部品Ｐを収容可能な複数のキャビティ５１１がベーステープ５１の長手方向（図５における左右方向）に沿って等間隔に設けられる。又、ベーステープ５１の幅方向の他方側（図５において上側）には、複数の送り孔５１２がベーステープ５１の長手方向に沿って等間隔に設けられる。複数の送り孔５１２は、駆動スプロケット４２に歯合する。

　カバーテープ５２は、透明な高分子フィルム等を用いて形成される。カバーテープ５２は、図５にて破線により示すように、ベーステープ５１の上面を覆い、キャビティ５１１に収容された部品Ｐの脱落を防止する。又、ベーステープ５１とカバーテープ５２とは、キャビティ５１１を挟んだキャリアテープ５０の幅方向の両側（一方側及び他方側）に設けられた接合部位５０１及び接合部位５０２において互いに接合されている。ここで、接合部位５０１及び接合部位５０２は、送り孔５１２よりもキャリアテープ５０の幅方向の一方側に設けられる。

　フィーダ４０の説明に戻り、フィーダ本体４１は、透明又は不透明の樹脂板又は金属板等によって形成された薄い箱状の部材である。フィーダ本体４１の側面は、図示を省略するが開閉可能に設けられており、フィーダ本体４１の内部には、図４に示すように、駆動スプロケット４２、テープ押え部４３及び剥離部４４が配置される。

　駆動スプロケット４２は、キャリアテープ５０のベーステープ５１に設けられた送り孔５１２に歯合可能なスプロケットであり、フィーダ本体４１に回転可能に設けられる。駆動スプロケット４２には、図示省略の複数のギヤを介してモータ（例えば、ステッピングモータ等）が接続されている。これにより、駆動スプロケット４２は、モータによって駆動され、キャリアテープ５０をピッチ送りすることにより、部品Ｐを部品供給位置Ｐｓに搬送する。

　ここで、部品供給位置Ｐｓは、駆動スプロケット４２の回転軸線方向（Ｘ軸方向）から見た場合に、駆動スプロケット４２が配置される位置の上方に設けられる。これにより、フィーダ４０は、キャリアテープ５０と駆動スプロケット４２との歯合位置を部品供給位置Ｐｓに近い位置に配置することができるため、フィーダ４０は、部品供給位置Ｐｓに搬送される部品Ｐの位置決め精度を高めることができる。

　テープ押え部４３は、部品供給位置Ｐｓに部品Ｐが搬送されるように、リールＲから引き出されたキャリアテープ５０を案内する。剥離部４４は、部品Ｐが部品供給位置Ｐｓに到達するまでの間に、カバーテープ５２をベーステープ５１から剥離し、キャビティ５１１に収容された部品Ｐを吸着ノズル１３Ｅ(図３を参照)によって吸着可能な状態にする。

４．生産支援装置１００の概要
　上述したように、生産システム１を構成する各々の部品装着機１０は、自動搬送機２０又はローダ装置３０によって部品供給装置１２の複数のスロット１２Ｓにセットされた複数のフィーダ４０の各々から供給される複数の異なる部品種の部品Ｐを基板Ｋに装着する。即ち、生産システム１を構成する各々の部品装着機１０は、異なる部品種の部品Ｐを順番にピックアンドプレースすることにより基板Ｋに装着処理を施し、装着処理を施した基板Ｋを、例えば、隣接する部品装着機１０に供給する。

　ところで、複数の部品装着機１０を配置した生産システム１においては、基板Ｋに装着する部品Ｐの部品種に依存してピックアンドプレースに要する時間が異なる場合がある。従って、生産システム１においては、各々の部品装着機１０が基板Ｋへの部品Ｐの装着が完了するまでに要する時間を表すサイクルタイムに差が生じる場合がある。生産システム１において、サイクルタイムに大きな差が生じる場合には、長いサイクルタイムを要する部品装着機１０が、所謂、ボトルネックとなり、基板Ｋを生産する際の生産性を悪化させる虞がある。

　ここで、生産性を向上させる、換言すれば、ボトルネックを生じさせないようにサイクルタイムを平準化する場合、通常、生産システム１における複数の部品装着機１０の各々が基板Ｋに装着する部品Ｐ（部品種）の配置の最適化、即ち、生産システム１における部品Ｐの部品種の入れ替えが検討される。つまり、生産システム１において複数の部品装着機１０が順次基板Ｋに装着する部品Ｐの装着順序を最適化するために、部品種同士の入れ替え、即ち、部品種ごとに部品Ｐを供給するフィーダ４０同士の入れ替えが検討される。

　しかしながら、部品種同士の入れ替え（フィーダ４０同士の入れ替え）の検討においては、生産システム１において用いられる全ての部品種のうちの部品種同士を表す部品種ペアＫｐ、又は、入れ替え対象となる部品種の部品Ｐを部品装着機１０に供給するフィーダ４０同士を表すフィーダペアＫｆを仮に決定する。そして、仮決定した部品種ペアＫｐ（又はフィーダペアＫｆ）について、部品種（フィーダ４０）を入れ替えた場合の部品Ｐの装着処理をシミュレーションし、サイクルタイムを計測する。

　通常、配置の最適化の検討においては、このような部品種ペアＫｐ（又はフィーダペアＫｆ）の仮決定、仮決定した部品種ペアＫｐ（又はフィーダペアＫｆ）についての装着処理のシミュレーション、及び、シミュレーション結果であるサイクルタイムの評価を、例えば、生産システム１において用いられる全ての部品種（フィーダ４０）を組み合わせて行う。このため、部品種、即ち、フィーダ４０、或いは、部品装着機１０の数が増える程、配置の最適化に関する検討の内容が複雑化すると共に、サイクルタイムの評価、つまり、ボトルネックの解消が可能な部品種の配置（フィーダ４０の配置）の最適化を実現する最適解を得るまでに膨大な時間が必要になる。

　この懸念に関し、生産システム１は、上述した部品種ペアＫｐを推論する生産支援装置１００を備えている。生産支援装置１００は、生産システム１を構成する各部品装着機１０（フィーダ４０）、自動搬送機２０、ローダ装置３０、及び、管理装置Ｈと通信可能に設けられる。尚、生産支援装置１００は、例えば、管理装置Ｈに組み込まれた装置とすることもできる。生産支援装置１００は、予め設定された評価対象に関して、評価を最大化するための支援を行う。評価対象としては、例えば、サイクルタイムを例示することができる。生産支援装置１００は、評価対象の評価結果に応じて、部品装着機１０において装着される部品Ｐの複数の部品種のうちの入れ替え対象となる部品種ペアＫｐを推論して出力する。

　具体的に、生産支援装置１００は、強化学習によって生成された学習済みモデルが記憶されている。そして、生産支援装置１００は、学習済みモデルと管理装置Ｈから供給される生産情報Ｊとを用いて、生産に用いられる部品Ｐの複数の部品種のうちの入れ替え対象となる部品種ペアＫｐ、具体的には、部品装着機１０にセットされる複数のフィーダ４０のうちの入れ替え対象となるフィーダペアＫｆを推論して決定する。これにより、生産システム１においては、部品種の配置（入れ替え）、即ち、フィーダ４０の配置（入れ替え）の最適化を図ることができる。その結果、各々の部品装着機１０のサイクルタイムが平準化され、ひいては、生産システム１におけるボトルネックの生産全体に対する影響を低減することができる。尚、ボトルネックについては、例えば、平準化度が一定基準以上の場合に「ボトルネックがない」とみなすことができる。

　ところで、上述したように、強化学習によって学習済みモデルを生成する場合、機械学習に用いる学習用データに偏りが無いようにすることが、効率が良く且つ精度の良い学習済みモデルを短い学習時間で生成する上で肝要である。例えば、評価対象であるサイクルタイムが短縮される、即ち、評価結果が良好な部品種ペアＫｐを常に学習用データに含めて強化学習を行った場合、例えば、サイクルタイムを短縮できない部品種ペアＫｐ、或いは、そもそも部品種の入れ替えが不能である部品種ペアＫｐの推論精度が悪化してしまう可能性がある。そして、この場合には、評価結果が良好な部品種ペアＫｐの推論精度に対しても悪化するように影響を及ぼす可能性がある。

　そこで、本実施形態においては、生産支援装置１００が所定の分類基準に従って分類された第一学習用データを各々記憶する。そして、生産支援装置１００は、分類されて記憶された各々の第一学習用データを無作為（ランダム）に抽出し、抽出した第一学習用データＬ１を用いた第一機械学習（強化学習）を行う。これにより、生産支援装置１００は、第一学習用データＬ１の偏りを少なくして（抑制して）、精度の良い学習済みモデルを短期間で生成することが可能となり、ひいては、評価結果が良好な部品種ペアＫｐを精度良く推論することができる。

４－１．生産支援装置１００の構成
　次に、本実施形態の生産支援装置１００の構成を説明する。生産支援装置１００は、ＣＰＵ、ＲＯＭ、ＲＡＭ、各種インターフェースを有するコンピュータ装置を主要構成部品とする装置であり、図６に示すように、第一学習用データ取得部１１０と、学習用データ記憶部１２０と、抽出部１３０と、学習済みモデル記憶部１５０と、を備えている。又、生産支援装置１００は、生産情報取得部１６０と、推論部１７０とを備えている。更に、生産支援装置１００は、学習済みモデル生成部１４０を備えている。

　又、生産支援装置１００は、任意に選択した（組み合わせた）部品種ペアＫｐを入れ替えた場合の評価結果であるサイクルタイムのシミュレーションを行ったり、推論部１７０による推論結果を用いて最適化のシミュレーションを行ったりすることが可能なオプチマイザ１８０を備えている。ここで、本実施形態においては、生産支援装置１００がオプチマイザ１８０を備える場合を例示して説明する。しかし、オプチマイザ１８０については、任意に選択した部品種ペアＫｐや推論部１７０から推論結果を取得できれば良く、生産支援装置１００以外に、例えば、生産支援装置１００と通信可能な管理装置Ｈ等に設けることも可能である。

　第一学習用データ取得部１１０は、複数の部品装着機１０の各々が基板Ｋに装着する複数の部品Ｐの部品種ペアデータＣｐによって表される部品種ペアＫｐを入れ替えて装着処理を試行することにより装着処理が改善して報酬Ｅが得られる部品種ペアＫｐに関する第一機械学習に用いられる複数の第一学習用データＬ１を取得する。尚、以下の説明においては、部品種ペアＫｐを表す部品種ペアデータＣｐと、後述するフィーダペアＫｆを表すフィーダペアデータＣｆ及び部品装着機ペアＫｍを表す部品装着機ペアデータＣｍとをまとめて「ペアデータＣ」と称呼する場合がある。

　ここで、第一学習用データ取得部１１０が取得する第一学習用データＬ１としては、生産システム１を構成する複数の部品装着機１０の配置に関する配置データＤａ及び部品装着機１０の各々が基板Ｋに装着する複数の部品Ｐの部品種を表す部品種データＤｋを含むオプチマイズ情報Ｄを含むことができる。尚、オプチマイズ情報Ｄには、例えば、後述するように、任意に組み合わされた部品種ペアＫｐの部品種ペアデータＣｐや推論部１７０が推論した部品種ペアＫｐを表す推論部品種ペアデータＣｐｉについて、オプチマイザ１８０が各々の部品装着機１０にて行う装着処理をシミュレーションした際のサイクルタイムを表す想定サイクルタイムデータＤｓが含まれる。又、オプチマイズ情報Ｄには、厳守すべき部品Ｐの装着順序、或いは、部品Ｐの入れ替え可否を表す入れ替え規制情報Ｄｊが含まれる。

　尚、オプチマイズ情報Ｄに含まれる配置データＤａ、部品種データＤｋ、想定サイクルタイムデータＤｓ及び入れ替え規制情報Ｄｊの各々については、管理装置Ｈ、又は、図示省略の外部装置から供給される。本実施形態においては、図６に示すように、管理装置Ｈから供給される場合を例示する。

　又、第一学習用データ取得部１１０は、オプチマイザ１８０から出力されたペアデータＣ、具体的には、任意に組み合わされた部品種ペアＫｐを表す部品種ペアデータＣｐと、部品種ペアデータＣｐによって表される部品種ペアＫｐを入れ替えた場合の装着処理をシミュレーションした場合に得られる結果データとしてのサイクルタイムデータＲｓと、を第一学習用データＬ１として取得する。尚、オプチマイザ１８０は、シミュレーションを実行した部品種ペアデータＣｐとサイクルタイムデータＲｓとを紐付けて第一学習用データ取得部１１０に出力する。

　ここで、オプチマイザ１８０は、例えば、オプチマイズ情報Ｄに含まれる配置データＤａ及び部品種データＤｋに基づいて決定可能な任意の部品種ペアＫｐの部品種ペアデータＣｐについて装着処理のシミュレーションを実行し、サイクルタイムデータＲｓを取得する。この場合、オプチマイザ１８０は、オプチマイズ情報Ｄに含まれる入れ替え規制情報Ｄｊに基づき、部品Ｐの入れ替えが不可とされている部品種ペアＫｐについても敢えてシミュレーションを実行する。この場合、得られる結果データとしては、例えば、サイクルタイムデータＲｓが部品種の入れ替えが不可であること表す値が出力される。

　第一学習用データ取得部１１０は、取得したオプチマイズ情報Ｄ、ペアデータＣ（具体的には、部品種ペアデータＣｐ（或いは、フィーダペアデータＣｆ））、及び、サイクルタイムデータＲｓを互いに紐付ける。そして、第一学習用データ取得部１１０は、互いに紐付けたオプチマイズ情報Ｄ、ペアデータＣ（具体的には、部品種ペアデータＣｐ（或いは、フィーダペアデータＣｆ））、及び、サイクルタイムデータＲｓを第一学習用データＬ１として学習用データ記憶部１２０に出力する。

　学習用データ記憶部１２０は、第一学習用データ取得部１１０によって取得された複数の第一学習用データＬ１を所定の分類基準に従って分類して記憶する。ここで、本実施形態においては、上述したように、結果データとして、サイクルタイムデータＲｓを含んでいる。又、上述したように、結果データとしては、部品種ペアＫｐの入れ替えが不可である場合を含んでいる。このため、本実施形態においては、分類基準として、例えば、想定サイクルタイムデータＤｓによって表される想定サイクルタイムに対してサイクルタイムデータＲｓによって表されるサイクルタイムが短縮されたか否かに応じて第一学習用データＬ１を分類する基準を採用した場合を例示して説明する。又、本実施形態においては、分類基準として、例えば、入れ替え規制情報Ｄｊに基づいて部品種の入れ替えが可能か否か応じて第一学習用データＬ１を分類する基準を採用した場合を例示して説明する。

　学習用データ記憶部１２０は、図６に示すように、複数（本実施形態においては、３つ）の記憶領域として、第一メモリバッファ１２１、第二メモリバッファ１２２及び第三メモリバッファ１２３を備えている。第一メモリバッファ１２１は、例えば、部品種の入れ替えを行ってサイクルタイムデータＲｓによって表されるサイクルタイムが想定サイクルタイムデータＤｓによって表される想定サイクルタイムよりも減少した第一学習用データＬ１を順次蓄積して記憶する。即ち、第一メモリバッファ１２１には、入れ替えが可能であり、且つ、サイクルタイムを短縮する場合の第一学習用データＬ１、換言すれば、出現頻度の低い第一学習用データＬ１が順次蓄積されて記憶される。

　第二メモリバッファ１２２は、例えば、部品種の入れ替えを行ってサイクルタイムデータＲｓによって表されるサイクルタイムが想定サイクルタイムと変わらない又は想定サイクルタイムよりも増加した第一学習用データＬ１を順次蓄積して記憶する。第三メモリバッファ１２３は、例えば、入れ替え規制情報Ｄｊに基づいて、部品種の入れ替えが不能な第一学習用データＬ１を順次蓄積して記憶する。即ち、第二メモリバッファ１２２及び第三メモリバッファ１２３には、出現頻度の高い第一学習用データＬ１が順次蓄積されて記憶される。

　抽出部１３０は、学習用データ記憶部１２０に分類されて第一メモリバッファ１２１、第二メモリバッファ１２２及び第三メモリバッファ１２３に記憶されている各々の第一学習用データＬ１を無作為に抽出する。尚、以下の説明においては、抽出部１３０が第一メモリバッファ１２１から無作為に抽出した第一学習用データＬ１を第一学習用データＤＥ１と称呼する場合がある。又、抽出部１３０が第二メモリバッファ１２２から無作為に抽出した第一学習用データＬ１を第一学習用データＤＥ２と称呼する場合がある。更に、抽出部１３０が第三メモリバッファ１２３から無作為に抽出した第一学習用データＬ１を第一学習用データＤＥ３と称呼する場合がある。

　具体的に、抽出部１３０は、学習用データ記憶部１２０の第一メモリバッファ１２１、第二メモリバッファ１２２及び第三メモリバッファ１２３の各々において、第一学習用データＤＥ１、第一学習用データＤＥ２及び第一学習用データＤＥ３が一定数以上記憶された（蓄積された）状態で、各々の第一学習用データＤＥ１、第一学習用データＤＥ２及び第一学習用データＤＥ３を無作為に抽出する。更に、抽出部１３０は、学習用データ記憶部１２０に分類された記憶されている第一学習用データＤＥ１、第一学習用データＤＥ２及び第一学習用データＤＥ３を、任意に設定可能な構成比となるように無作為に抽出する。

　ここで、任意に設定可能な構成比としては、例えば、後述するように生成される学習済みモデルＭを用いた推論に要求される推論精度に応じて設定することができる。例えば、抽出部１３０は、第一学習用データＤＥ１を４０％、第一学習用データＤＥ２を３０％及び第一学習用データＤＥ３を３０％となるように、第一学習用データＤＥ１、第一学習用データＤＥ２及び第一学習用データＤＥ３を無作為に抽出する。或いは、抽出部１３０が一定動作（一定パターン）により第一学習用データＤＥ１、第一学習用データＤＥ２及び第一学習用データＤＥ３を抽出する場合には、例えば、第一メモリバッファ１２１に４０％、第二メモリバッファ１２２及び第三メモリバッファ１２３にそれぞれ３０％ずつとなるように、学習用データ記憶部１２０が第一学習用データＬ１を蓄積して記憶する。

　学習済みモデル生成部１４０は、抽出部１３０によって所定の構成比になるように無作為に抽出された第一学習用データＤＥ１、第一学習用データＤＥ２及び第一学習用データＤＥ３の各々を用いて第一機械学習を繰り返し行うことによって、学習済みモデルＭを生成する。ここで、上述したように、複数の部品Ｐは、各々、リールＲに巻回されたキャリアテープ５０に収容されており、リールＲは、各々、キャリアテープ５０に収容された部品Ｐを部品装着機１０に供給するフィーダ４０に装填される。

　従って、部品種ペアＫｐは、部品種ペアＫｐを形成する部品種の部品Ｐを収容しているキャリアテープ５０が巻回されたリールＲの装填されたフィーダ４０同士を表すフィーダペアＫｆに対応する。このため、学習済みモデル生成部１４０は、部品種ペアＫｐの入れ替えパターンに関する機械学習（強化学習）に代えて、又は、加えて、フィーダペアＫｆの入れ替えを行い、複数の部品装着機１０が部品Ｐを装着することにより後述する報酬Ｅが得られる入れ替えパターンに関する機械学習（強化学習）を繰り返し行うことによって、学習済みモデルＭを生成することもできる。尚、学習済みモデル生成部１４０は、後述するように、学習済みモデルＭとして、価値関数、より詳しくは、最適行動価値関数を生成する。

　学習済みモデル記憶部１５０は、学習済みモデル生成部１４０によって生成された学習済みモデルＭを記憶する。このため、学習済みモデル記憶部１５０は、学習済みモデル生成部１４０が機械学習（強化学習）を繰り返し行うことによって更新される学習済みモデルＭを記憶することができる。

　生産情報取得部１６０は、新たな配置データＤａｎ及び新たな部品種データＤｋｎを少なくとも含み、部品装着機１０を用いて新たな部品Ｐを装着して基板Ｋを生産することを指示する生産情報Ｊを取得する。具体的に、生産情報取得部１６０は、基板Ｋの生産に際し、換言すれば、新たな部品種ペアＫｐ（又は新たなフィーダペアＫｆ）の最適化が必要な際に、管理装置Ｈから生産情報Ｊを取得する。

　ここで、管理装置Ｈが出力する生産情報Ｊは、配置データＤａに相当する生産システム１を構成する部品装着機１０の新たな数と新たな配置と、各々の部品装着機１０にセットされるフィーダ４０の数と、部品種データＤｋに相当する各々の部品装着機１０において実装される部品Ｐの新たな種類と新たな実装数と、想定サイクルタイムデータＤｓに相当する実績又はシミュレーション結果としてのサイクルタイムを含んでいる。更に、生産情報Ｊは、部品Ｐの基板Ｋに対する指定装着位置及び指定装着角度を含む制御データ、部品情報（形状、寸法、最大移動速度、撮像条件等）、サイクルタイムの平準化度（ボトルネックの有無）、装着処理の効率に影響を与える機器情報（装着ヘッド１３Ｃや吸着ノズル１３Ｅ等）を含んでいる。従って、学習済みモデル生成部１４０は、生産情報Ｊを第一学習用データＬ１として機械学習（強化学習）を行うことが可能である。

　推論部１７０は、生産情報取得部１６０によって取得された生産情報Ｊに含まれる新たな配置データＤａｎ及び新たな部品種データＤｋｎと、学習済みモデル記憶部１５０に記憶されている学習済みモデルＭとを用いて、部品種データＤｋｎによって区別される新たな部品種のうちの入れ替え対象となる推論した推論ペアデータＣｉ（具体的には、推論した部品種ペアＫｐを表す推論部品種ペアデータＣｐｉ又は推論したフィーダペアＫｆを表す推論フィーダペアデータＣｆｉ）を出力する。ここで、推論部１７０は、推論ペアデータＣｉ（推論部品種ペアデータＣｐｉ又は推論フィーダペアデータＣｆｉ）を管理装置Ｈ（より詳しくは、例えば、管理装置Ｈに設けられた図示を省略する表示装置等）に出力し、作業者等に案内することができる。尚、推論部１７０による部品種ペアＫｐ（又は、フィーダペアＫｆ）の推論については、後に詳述する。

４－２．学習フェーズにおいて機能する学習済みモデル生成部１４０の構成
　次に、図７を参照して、学習フェーズにおいて機能する生産支援装置１００の学習済みモデル生成部１４０の構成を説明する。図７に示すように、学習済みモデル生成部１４０は、状態情報取得部１４１と、評価結果取得部１４２と、報酬算出部１４３と、価値関数記憶部１４４と、行動決定部１４５と、行動情報出力部１４６と、価値関数更新部１４７とを主に備える。

　本実施形態において、状態情報取得部１４１は、抽出部１３０によって無作為に且つ所定の構成比となるように抽出された第一学習用データＤＥ１、第一学習用データＤＥ２及び第一学習用データＤＥ３のうちの一つを状態情報として取得する。即ち、本実施形態の状態情報取得部１４１は、分類され且つ所定の構成比となるように無作為に抽出された第一学習用データＤＥ１、第一学習用データＤＥ２及び第一学習用データＤＥ３の一つを状態情報として取得する。ここで、本実施形態においては、状態情報取得部１４１は、主として、抽出部１３０から状態情報を取得するが、オプチマイザ１８０からも状態情報（第一学習用データＬ１）を取得することができる。

　評価結果取得部１４２は、予め設定された評価対象に関して、第一学習用データＤＥ１、第一学習用データＤＥ２及び第一学習用データＤＥ３の一つに含まれる部品種ペアデータＣｐによって表される部品種ペアＫｐの入れ替え、或いは、複数のフィーダ４０のうちのフィーダペアデータＣｆによって表されるフィーダペアＫｆの入れ替えを行った後の装着処理によって得られる評価結果を取得する。評価結果取得部１４２は、評価結果として、サイクルタイムデータＲｓや、部品Ｐが小さい順に基板Ｋに装着されたか、部品Ｐの基板Ｋの表面からのＺ軸方向への高さが低い順に基板Ｋに装着されたか等を取得する。評価結果取得部１４２は、図７に示すように、評価対象に対する評価結果をオプチマイザ１８０から取得することができる。

　報酬算出部１４３は、部品種ペアデータＣｐによって表される部品種ペアＫｐの入れ替え（又はフィーダペアデータＣｆによって表されるフィーダペアＫｆの入れ替え）によって得られる評価対象の評価結果（例えば、サイクルタイムデータＲｓ）に基づき、第一学習用データＤＥ１、第一学習用データＤＥ２及び第一学習用データＤＥ３の一つにおける部品種ペアＫｐの入れ替え（又はフィーダペアＫｆの入れ替え）に対する報酬Ｅを算出する。報酬算出部１４３は、評価結果が良好である場合に、部品種ペアＫｐの入れ替え（又はフィーダペアＫｆの入れ替え）に対してプラスの報酬Ｅを与える。一方、報酬算出部１４３は、評価結果が良好でない場合に部品種ペアＫｐの入れ替え（又はフィーダペアＫｆの入れ替え）に対してマイナスの報酬（罰則）を与える。

　例えば、報酬算出部１４３は、評価結果の一つであるサイクルタイムに関して、部品種ペアＫｐの入れ替え（又はフィーダペアＫｆの入れ替え）を行った後の装着処理をシミュレーションした場合（或いは、実際に部品装着機１０にて装着処理を行った場合）に、サイクルタイムデータＲｓによって表されるサイクルタイムが減少していれば、プラスの報酬Ｅを与える。一方、報酬算出部１４３は、サイクルタイムデータＲｓによって表されるサイクルタイムが増加していれば、マイナスの報酬Ｅを与える。又、報酬算出部１４３は、評価結果の一つである基板Ｋに対して部品Ｐの配置する順番に関して、部品種ペアＫｐの入れ替え（又はフィーダペアＫｆの入れ替え）を行った後の装着処理をシミュレーションした場合（或いは、実際に部品装着機１０にて装着処理を行った場合）に、小さな部品Ｐから順に配置（装着）されていれば、或いは、低い部品Ｐから順に配置（装着）されていれば、プラスの報酬Ｅを与える。一方、報酬算出部１４３は、大きな部品Ｐから順に配置（装着）されていれば、或いは、高い部品Ｐから順に配置（装着）されていれば、マイナスの報酬Ｅを与える。

　このように、報酬算出部１４３は、評価対象ごとに報酬Ｅを算出する。又、報酬算出部１４３は、評価対象ごとに設定された基準と評価結果との差に応じた報酬Ｅを付与する。即ち、報酬算出部１４３は、評価結果と基準との差がプラス方向に大きい場合には、評価結果と基準との差がプラス方向に小さい場合よりも大きな報酬Ｅを与える。逆に、評価結果と基準との差がマイナス方向に大きい場合には、評価結果と基準との差がマイナス方向に小さい場合よりも大きな罰則を与える。

　具体的に、評価結果の一つであるサイクルタイムを例に挙げて説明する。例えば、部品種ペアデータＣｐによって表される部品種ペアＫｐの入れ替え（又はフィーダペアデータＣｆによって表されるフィーダペアＫｆの入れ替え）を行う（シミュレーションを行う）前であって、例えば、オプチマイズ情報Ｄに含まれる想定サイクルタイムデータＤｓによって表されるサイクルタイムを想定サイクルタイムとする。そして、報酬算出部１４３は、例えば、部品種ペアＫｐの入れ替え（又はフィーダペアＫｆの入れ替え）を行った後の装着処理のシミュレーションにおいて、サイクルタイムデータＲｓによって表されるサイクルタイムと想定サイクルタイムとの差である短縮時間がプラス方向に大きい場合は、短縮時間がプラス方向に小さい場合よりも大きな報酬Ｅを与える。即ち、報酬算出部１４３は、サイクルタイムの短縮時間が大きくなるにつれて（サイクルタイムが短縮されるにつれて）、大きな報酬Ｅを与える。逆に、短縮時間がマイナス方向に大きい場合、即ち、サイクルタイムが想定サイクルタイムよりも長い場合には、報酬算出部１４３は、マイナスの報酬Ｅを与えるか、或いは、報酬Ｅを与えない。

　価値関数記憶部１４４は、状態情報取得部１４１が取得した状態情報（より具体的には、無作為に抽出された第一学習用データＤＥ１、第一学習用データＤＥ２及び第一学習用データＤＥ３の一つに含まれるペアデータＣ）と報酬算出部１４３が算出した報酬Ｅとに基づく強化学習即ち第一機械学習において価値関数を生成する。ここで、価値関数は、学習フェーズにおいて、評価対象の評価結果が最適となるように状態情報に応じた行動情報を得るために生成された関数である。そして、価値関数記憶部１４４は、生成された価値関数即ち学習済みモデルＭを更新可能に記憶する。従って、価値関数記憶部１４４は、学習済みモデル記憶部１５０の機能も発揮する。

　特に、本実施形態の価値関数（学習済みモデルＭ）は、強化学習アルゴリズムとしてＤＱＮ（Deep Q-Network）により生成される最適行動価値関数である。この場合、最適行動価値関数は、ニューラルネットワークを用いた近似関数として求められ、ある状態のときの行動ごとにＱ値（状態に応じて即時的に得られる報酬Ｅの価値）が推定できた場合に取るべき最善の行動を与えるものである。即ち、最適行動価値関数を学習済みモデルＭとした場合には、状態情報によって表される「状態」を入力とすると、部品種ペアデータＣｐによって表される部品種ペアＫｐ（又はフィーダペアデータＣｆによって表されるフィーダペアＫｆ）が出力層のノードとなるようなニューラルネットワークを用いてＱ値が推定され、その結果、「最善の行動」としての入れ替え対象となる部品種ペアデータＣｐによって表される部品種ペアＫｐ（又はフィーダペアデータＣｆによって表されるフィーダペアＫｆ）が与えられる。

　尚、価値関数については、ＤＱＮを用いて最適行動価値関数を求める場合に限られない。例えば、Ｑ学習、Ｓａｒｓａ、モンテカルロ法等の強化学習アルゴリズムにより、価値関数を生成することも可能である。この場合には、生成された価値関数に基づく「政策」が決定され、「政策」に基づいて「最善の行動」が決定される。

　行動決定部１４５は、状態情報（無作為に抽出された第一学習用データＤＥ１、第一学習用データＤＥ２及び第一学習用データＤＥ３の一つ）及び学習済みモデルＭ（最適行動価値関数）に基づき、複数の部品種のうちから選択可能な部品種同士の部品種ペアＫｐ、或いは、複数のフィーダ４０のうちから選択可能なフィーダペアＫｆを決定する。尚、この場合、行動決定部１４５は、最適行動価値関数（学習済みモデルＭ）に基づいて部品種ペアＫｐ（又はフィーダペアＫｆ）を選択したり、必要に応じて、最適行動価値関数（学習済みモデルＭ）に基づかずに部品種ペアＫｐ（又はフィーダペアＫｆ）を探索したりすることができる。そして、行動決定部１４５は、決定した部品種ペアＫｐを表す部品種ペアデータＣｐ（又は決定したフィーダペアＫｆを表すフィーダペアデータＣｆ）、即ち、ペアデータＣを出力する。

　行動情報出力部１４６は、行動決定部１４５による決定内容、即ち、入れ替え対象となる部品種ペアＫｐ（又はフィーダペアＫｆ）を、行動情報Ａとしてオプチマイザ１８０に出力する。この場合、オプチマイザ１８０は、行動情報Ａを取得し、行動情報Ａに従って部品種ペアＫｐ（又はフィーダペアＫｆ）を入れ替えた仮想の装着条件に基づいて装着処理のシミュレーションを行う。そして、オプチマイザ１８０は、行動情報Ａに従って部品種ペアＫｐ（又はフィーダペアＫｆ）の入れ替た場合のシミュレーション結果として、評価態様に対する評価結果であるサイクルタイムを推定してサイクルタイムデータＲｓを出力する。

　その後、状態情報取得部１４１は、仮想の装着条件を新たなオプチマイズ情報Ｄ即ち新たな状態情報として行動情報Ａを取得し、評価結果取得部１４２はオプチマイザ１８０による評価対象の推定評価結果（例えば、サイクルタイムデータＲｓ）を取得する。続いて、報酬算出部１４３は、オプチマイザ１８０による推定評価結果に基づき、新たなオプチマイズ情報Ｄ（即ち、行動情報Ａ）に対する報酬Ｅを算出する。つまり、報酬算出部１４３は、部品種ペアＫｐ（又はフィーダペアＫｆ）の入れ替え前の状態情報（例えば、第一学習用データＤＥ１，ＤＥ２，ＤＥ３のうちの一つに含まれるオプチマイズ情報Ｄの想定サイクルタイムデータＤｓ）から部品種ペアＫｐ（又はフィーダペアＫｆ）の入れ替え後の新たな状態情報（例えば、サイクルタイムデータＲｓ）へ状態を遷移させた行動情報Ａに対する評価を、新たな状態情報即ちオプチマイズ情報Ｄに対する報酬Ｅとして算出する。

　価値関数更新部１４７は、行動情報Ａに基づいて更新した新たな状態情報即ちオプチマイズ情報Ｄ（具体的には、サイクルタイムデータＲｓ）、及び、新たな状態情報（行動情報Ａを反映したオプチマイズ情報Ｄ）に対する報酬Ｅに基づき、価値関数更新部１４７に記憶された最適行動価値関数を更新する。尚、価値関数更新部１４７は、強化学習アルゴリズム（ＤＱＮ）に基づいて最適行動価値関数を更新すればよく、例えば、マイナスの報酬Ｅが与えられた場合には、最適行動価値関数の更新を行わないことも可能である。

４－３．推論フェーズにおいて機能する推論部１７０の構成
　次に、図８を参照して、推論フェーズにおいて機能する生産支援装置１００の推論部１７０の構成を説明する。図８に示すように、推論部１７０は、状態情報取得部１７１と、価値関数記憶部１７２と、行動決定部１７３と、行動情報出力部１７４とを主に備える。尚、状態情報取得部１７１、価値関数記憶部１７２、行動決定部１７３、及び、行動情報出力部１７４は、それぞれ、上述した学習済みモデル生成部１４０の状態情報取得部１４１、価値関数記憶部１４４、行動決定部１４５、及び、行動情報出力部１４６と同等の構成である。

４－４．生産支援装置１００による部品種ペアＫｐの配置（入れ替え）の最適化
　次に、図９に示す最適化プログラムのフローチャートを参照して、生産支援装置１００のうち主として推論部１７０による部品種ペアＫｐ（又はフィーダペアＫｆ）の入れ替えの最適化について説明する。最適化プログラムは、ステップＳ１０に開始される。そして、続くステップＳ１１において、生産支援装置１００は、生産情報取得部１６０が、例えば、管理装置Ｈから実際の生産を指示する生産情報Ｊを取得する。そして、生産支援装置１００（推論部１７０）は、「第一工程」として、生産情報Ｊに基づいて生産システム１を構成する複数の部品装着機１０のうちの部品装着機ペアＫｍを表す部品装着機ペアデータＣｍを設定する。

　上述したように、最適化が実行される際、各々の部品装着機１０にセットされ得る複数のフィーダ４０は、例えば、オプチマイズ情報Ｄや生産情報Ｊによって既知である。換言すれば、各々の部品装着機１０において装着処理される部品Ｐの部品種も、例えば、オプチマイズ情報Ｄや生産情報Ｊによって既知である。つまり、部品Ｐの各々の部品種と各々の部品装着機１０との関係も既知である。このため、部品種の最適化を図りたい場合、第一工程として、例えば、作業者の指示に従い、推論部１７０は、生産情報Ｊに基づいて、生産システム１を構成する複数の部品装着機１０のうちの部品装着機ペアＫｍを表す部品装着機ペアデータＣｍを適宜設定する。

　続く、ステップＳ１２においては、生産支援装置１００は、「第二工程」として、最適行動価値関数（学習済みモデルＭ）を用いて、部品種ペアＫｐ（又はフィーダペアＫｆ）を推論する。即ち、推論部１７０は、図８に示すように、状態情報取得部１７１が生産情報取得部１６０から新たな配置データＤａｎ及び新たな部品種の部品種データＤｋｎを含む生産情報Ｊを状態情報として取得する。そして、行動決定部１７３は、状態情報取得部１７１が取得した状態情報（生産情報Ｊ）と、価値関数記憶部１７２（学習済みモデル記憶部１５０）に記憶されている最適行動価値関数（学習済みモデルＭ）とを用いて、入れ替え対象となる部品種ペアＫｐ（又はフィーダペアＫｆ（部品装着機ペアＫｍ））を推論する。ここで、行動決定部１７３は、推論した部品種ペアＫｐを表す推論部品種ペアデータＣｐｉ（又は、推論したフィーダペアＫｆを表す推論フィーダペアデータＣｆｉ、或いは、推論した部品装着機ペアＫｍを表す推論部品装着機ペアデータＣｍｉ）即ち推論ペアデータＣｉを行動情報出力部１７４に出力する。

　再び、図９に戻り、ステップＳ１３においては、生産支援装置１００は、部品装着機１０において、部品種ペアＫｐ（又はフィーダペアＫｆ）の入れ替えを行う。即ち、生産支援装置１００の行動情報出力部１７４は、図８に示すように、前記ステップＳ１１にて推論された部品種ペアＫｐ（又はフィーダペアＫｆ）を行動情報Ａとして、管理装置Ｈに出力する。そして、管理装置Ｈは、行動情報Ａに基づく指令、具体的には、部品種ペアＫｐに対応するフィーダペアＫｆを形成するフィーダ４０同士の入れ替え指令を、例えば、複数の部品装着機１０及びローダ装置３０に出力する。

　これにより、各々の部品装着機１０及びローダ装置３０は、行動情報Ａにおいて特定された部品種ペアデータＣｐによって表される部品種ペアＫｐ、具体的には、フィーダペアデータＣｆによって表されるフィーダペアＫｆにより特定される２つのフィーダ４０の入れ替えを行う。尚、部品装着機１０におけるフィーダ４０の入れ替えについては、例えば、部品供給装置１２のスロット１２Ｓに付された識別番号（部品Ｐを装着する順番に対応する番号）を、フィーダ４０の入れ替えに対応して変更することが含まれる。

　再び、図９に戻り、ステップＳ１４においては、生産支援装置１００は、部品装着機１０において、部品種、即ち、フィーダ４０を入れ替えた後の装着処理に要するサイクルタイムを取得する。即ち、生産支援装置１００状態情報取得部１７１は、管理装置Ｈから、フィーダ４０を入れ替えた後においてフィーダ４０を入れ替えた部品装着機１０における装着処理に要するサイクルタイムを取得する。

　続く、ステップＳ１５においては、生産支援装置１００は、前記ステップＳ１４にて取得したサイクルタイムが、フィーダ４０の入れ替え前に比べて改善しているか否かを判定する。即ち、生産支援装置１００は、前記ステップＳ１４にて取得した部品種ペアＫｐ（又はフィーダペアＫｆ）の入れ替え後におけるサイクルタイムが、前記ステップＳ１１にて生産情報取得部１６０が取得した生産情報Ｊ（状態情報）に含まれている部品種ペアＫｐ（又はフィーダペアＫｆ）の入れ替え前の想定サイクルタイムに比べて短縮されていれば、サイクルタイムが改善されているため、「Ｙｅｓ」と判定する。そして、生産支援装置１００は、再び、前記ステップＳ１２に戻り、前記ステップＳ１２以降の各ステップ処理を実行する。

　一方、生産支援装置１００は、例えば、複数回の最適化（入れ替え）を行った結果、前記ステップＳ１２にて取得した部品種ペアＫｐ（又はフィーダペアＫｆ）の入れ替え後におけるサイクルタイムが想定サイクルタイムに比べて短縮されていなければ、サイクルタイムが改善されていないため、「Ｎｏ」と判定する。そして、生産支援装置１００は、ステップＳ１６にて、前記ステップＳ１３にて入れ替えた部品種、即ち、フィーダ４０を入れ替え前の状態に戻し、ステップＳ１７に進む。

　即ち、生産支援装置１００の行動情報出力部１７４は、例えば、該当するフィーダ４０を入れ替え前に戻すフィーダペアＫｆ（又は部品種ペアＫｐ）を行動情報Ａとして、管理装置Ｈに出力する。これにより、管理装置Ｈは、行動情報Ａに基づく指令、具体的には、部品種ペアＫｐに対応するフィーダペアＫｆを形成するフィーダ４０同士を入れ替え前に戻す指令を、例えば、複数の部品装着機１０及びローダ装置３０に出力する。

　これにより、各々の部品装着機１０及びローダ装置３０は、行動情報Ａにおいて特定された部品種ペアＫｐ、具体的には、フィーダペアＫｆによって特定される２つのフィーダ４０を入れ替え前の状態に戻す。尚、部品装着機１０におけるフィーダ４０の入れ替えについては、例えば、部品供給装置１２のスロット１２Ｓに付された識別番号（部品Ｐを装着する順番に対応する番号）を、フィーダ４０の入れ替えに対応して変更することが含まれる。

　ステップＳ１７においては、生産支援装置１００は、生産情報Ｊに基づき、生産システム１を構成する複数の部品装着機１０に関して組み合わせ可能な対象全ての部品装着機ペアデータＣｍによって表される部品装着機ペアＫｍについて、上述した部品種（フィーダ４０）の入れ替え、換言すれば、最適化の検討が完了したか否かを判定する。即ち、生産支援装置１００は、対象全ての部品装着機ペアＫｍについての最適化の検討が完了していなければ、「Ｎｏ」と判定して前記ステップＳ１１に戻る。そして、生産支援装置１００は、前記ステップＳ１１にて新たな部品装着機ペアＫｍを設定すると、上述したように、前記ステップＳ１２以降の各ステップ処理を実行する。一方、生産支援装置１００は、対象全ての部品装着機ペアＫｍについての最適化の検討が完了していれば、「Ｙｅｓ」と判定してステップＳ１８に進み、最適化プログラムの実行をステップＳ１６にて終了する。

　ここで、「組み合わせ可能な対象全ての部品装着機ペアＫｍ」については、例えば、生産システム１を構成する全ての部品装着機１０同士の組み合わせを部品装着機ペアＫｍとして設定することを含んでも良い。又、例えば、予めサイクルタイムの短縮等の効果が期待できる部品装着機１０同士の組み合わせがあれば、全ての部品装着機１０のうちから効果の期待できそうな部品装着機１０同士を選択して部品装着機ペアＫｍを設定することもできる。

　以上の説明からも理解できるように、生産支援装置１００は、複数の部品装着機１０の間で基板Ｋに装着する部品Ｐの部品種ペアＫｐを入れ替えて装着処理を試行することにより装着処理が改善して報酬Ｅが得られる部品種ペアＫｐに関する第一機械学習に用いられる複数の第一学習用データＬ１を取得する第一学習用データ取得部１１０と、取得された複数の第一学習用データＬ１を所定の分類基準に従って分類して記憶する学習用データ記憶部１２０と、学習用データ記憶部１２０の第一メモリバッファ１２１、第二メモリバッファ１２２及び第三メモリバッファ１２３のそれぞれに分類されて記憶されている各々の第一学習用データＬ１を無作為に抽出する抽出部１３０と、無作為に抽出された第一学習用データＬ１を用いて第一機械学習を行うことによって生成された学習済みモデルＭを記憶する学習済みモデル記憶部１５０と、を備える。又、生産支援装置１００は、無作為に抽出された第一学習用データＬ１を用いて、第一機械学習を繰り返し行うことにより、学習済みモデルＭを生成する学習済みモデル生成部１４０を備える。

　更に、生産支援装置１００は、部品装着機１０の配置を表す配置データＤａ（新たな配置データＤａｎ）及び部品Ｐの部品種を表す部品種データＤｋ（新たな部品種データＤｋｎ）を少なくとも含み、部品装着機１０を用いて新たな部品Ｐを装着して基板Ｋを生産することを指示する生産情報Ｊを取得する生産情報取得部１６０と、生産情報Ｊに含まれる配置データＤａ（新たな配置データＤａｎ）及び部品Ｐの部品種データＤｋ（新たな部品種データＤｋｎ）と学習済みモデルＭとを用いて、部品種データＤｋ（新たな部品種データＤｋｎ）によって区別される新たな部品種のうちの入れ替え対象となる部品種ペアＫｐ（推論された部品種ペアＫｐを表す推論部品種ペアデータＣｐｉ）を推論して出力する推論部１７０と、を備える。

　これらよれば、分類されて記憶されている各々の第一学習用データＬ１を無作為に抽出して第一機械学習を行うことにより、第一学習用データＬ１の偏りを抑制して生成された学習済みモデルＭを用いることができる。これにより、生産支援装置１００においては、生成された学習済みモデルＭにより、複数の部品装着機１０の間で装着処理を改善することができる部品種ペアＫｐ（或いは、フィーダペアＫｆ）を精度良く推論して決定することができる。

　従って、生産支援装置１００を用いることにより、複数の部品種について、逐次、部品種同士（フィーダ４０同士）の全ての組み合わせを検討して最適化に有効な部品種ペアＫｐ（フィーダペアＫｆ）を決定する必要がない。又、学習済みモデルＭを用いることにより、新たな部品種についても選択的に最適化に有効な部品種ペアＫｐ（フィーダペアＫｆ）を決定することができ、効率良く部品種（フィーダ４０）の配置の最適化を行うことができる。

５．第一変形例
　上述した実施形態においては、学習用データ記憶部１２０の第一メモリバッファ１２１、第二メモリバッファ１２２及び第三メモリバッファ１２３には、所定の分類基準に従って分類された第一学習用データＬ１が記憶されて蓄積される。ところで、特に、第一メモリバッファ１２１に蓄積される第一学習用データＤＥ１、具体的には、部品種ペアＫｐの入れ替えが可能であり、且つ、サイクルタイムが短縮されるペアデータＣを含む第一学習用データＬ１は、組み合わせを見つけるまでにオプチマイザ１８０を用いた多くの試行が必要である。

　即ち、部品種ペアＫｐの入れ替えが可能であり、且つ、サイクルタイムが短縮されるペアデータＣを含む第一学習用データＬ１は、上述したように、出現頻度が低くなる。従って、学習済みモデルＭを生成する際に、第一学習用データＬ１の偏りを少なくして第一機械学習（強化学習）を行うためには、第一メモリバッファ１２１に第一学習用データＤＥ１を所定数以上蓄積する必要があり、学習を進める上で時間を要する場合がある。

　そこで、第一変形例においては、上述した第一学習用データＬ１を用いた第一機械学習による学習済みモデルＭの生成に加え、第一機械学習によって生成された学習済みモデルＭを用いて、推論部１７０が推論した推論ペアデータＣｉを含む第二学習用データＬ２を用いた第二機械学習を行い、学習済みモデルＭを生成する。ここで、学習済みモデルＭを用いて推論された部品種ペアＫｐ（又はフィーダペアＫｆ）については、部品種の入れ替えが可能であり、且つ、サイクルタイムの短縮が可能であり、更には、時間経過に伴う出現頻度が多くなる。

　このため、第一変形例において、生産支援装置１００は、図６において長破線により示すように、第二学習用データ取得部１９０を備える。第二学習用データ取得部１９０は、推論部１７０によって推論された推論ペアデータＣｉ、例えば、推論された部品種ペアＫｐを表す推論部品種ペアデータＣｐｉを含む第二学習用データＬ２を取得する。尚、第二学習用データＬ２は、推論部品種ペアデータＣｐｉに加え、管理装置Ｈから取得されるオプチマイズ情報Ｄ及び生産情報Ｊを含む。

　ここで、第一変形例においては、学習済みモデル生成部１４０は、抽出部１３０によって抽出された第一学習用データＤＥ１、第一学習用データＤＥ２及び第一学習用データＤＥ３即ち第一学習用データＬ１を用いた第一機械学習（強化学習）を行うことができ、又、第二学習用データ取得部１９０によって取得された第二学習用データＬ２を用いた第二機械学習（強化学習）を行うことができる。この場合、学習済みモデル生成部１４０は、第一機械学習及び第二機械学習の一方を選択して、学習済みモデルＭを生成する。

　具体的に、学習済みモデル生成部１４０は、イプシロン－グリーディ法に従い、探索割合を決定する探索率に応じて第一機械学習及び第二機械学習の一方を選択して行い、学習済みモデルＭを生成する。このため、図７に示すように、第一変形例の状態情報取得部１４１は、イプシロン－グリーディ法に従って第一機械学習が選択された場合には、抽出部１３０から第一学習用データＬ１即ち第一学習用データＤＥ１、第一学習用データＤＥ２及び第一学習用データＤＥ３のうちの一つを状態情報として取得する。一方、第一変形例の状態情報取得部１４１は、イプシロン－グリーディ法に従って第二機械学習が選択された場合には、第二学習用データ取得部１９０によって取得された第二学習用データＬ２を状態情報として取得する。

　学習済みモデル生成部１４０が第二機械学習によって強化学習を行う場合、状態情報取得部１４１は、第二学習用データ取得部１９０から第二学習用データＬ２を取得する。そして、価値関数記憶部１４４は、上述した実施形態の場合と同様に、状態情報取得部１４１が取得した状態情報（第二学習用データＬ２、特に、推論ペアデータＣｉ）と報酬算出部１４３が算出した報酬Ｅとに基づく強化学習において価値関数を生成する。即ち、第一変形例においては、価値関数記憶部１４４は、上述した実施形態において第一学習用データＤＥ１に含まれるペアデータＣを用いて生成された価値関数即ち学習済みモデルＭについて、第二学習用データＬ２に含まれる推論ペアデータＣｉを用いて強化学習を進め、強化学習を進めて生成された学習済みモデルＭを更新可能に記憶する。

　このように、第一変形例においては、推論ペアデータＣｉ（推論部品種ペアデータＣｐｉ（又は推論フィーダペアデータＣｆｉ））を用いることができる。従って、第一変形例においては、見かけ上、上述した実施形態において説明した第一学習用データＤＥ１を用いた強化学習の頻度を増やすことができ、学習済みモデルＭの生成速度、換言すれば、学習速度を向上させることができる。

　又、第一変形例において、行動決定部１４５は、上述した実施形態と同様に、状態情報（第二学習用データＬ２）及び学習済みモデルＭ（最適行動価値関数）に基づき、複数の部品種のうちから選択可能な部品種同士の部品種ペアＫｐ、或いは、複数のフィーダ４０のうちから選択可能なフィーダ４０同士のフィーダペアＫｆを決定することができる。尚、この場合においても、行動決定部１４５は、最適行動価値関数（学習済みモデルＭ）に基づいて部品種ペアＫｐ（又はフィーダペアＫｆ）を選択したり、必要に応じて、最適行動価値関数（学習済みモデルＭ）に基づかずに部品種ペアＫｐ（又はフィーダペアＫｆ）を探索したりすることができる。

　又、第一変形例においても、行動情報出力部１４６は、行動決定部１４５による決定内容、即ち、入れ替え対象となる部品種ペアＫｐ（又はフィーダペアＫｆ）を、行動情報Ａとしてオプチマイザ１８０に出力する。そして、オプチマイザ１８０は、行動情報Ａを取得し、行動情報Ａに従って部品種ペアＫｐ（又はフィーダペアＫｆ）を入れ替えた仮想の装着条件に基づいて装着処理のシミュレーションを行い、シミュレーション結果として評価態様に対する評価結果であるサイクルタイムを推定してサイクルタイムデータＲｓを出力する。

　そして、第一変形例においても、価値関数更新部１４７は、行動情報Ａに基づいて更新した新たな状態情報即ちオプチマイズ情報Ｄ（具体的には、サイクルタイムデータＲｓ）、及び、新たな状態情報（行動情報Ａを反映したオプチマイズ情報Ｄ）に対する報酬Ｅに基づき、価値関数更新部１４７に記憶された最適行動価値関数を更新する。尚、第一変形例においても、価値関数更新部１４７は、強化学習アルゴリズム（ＤＱＮ）に基づいて最適行動価値関数を更新すればよく、例えば、マイナスの報酬Ｅが与えられた場合には、最適行動価値関数の更新を行わないことも可能である。

　従って、第一変形例においては、状況に応じた判断に従い、特に、サイクルタイムデータＲｓによって表されるサイクルタイムの短縮が可能な部品種ペアＫｐ（又はフィーダペアＫｆ）について、学習済みモデルＭを用いて推論される推論ペアデータＣｉ即ち推論部品種ペアデータＣｐｉ（又は推論フィーダペアデータＣｆｉ））を第二学習用データＬ２として用いて強化学習を進めることができる。

　即ち、第一変形例においては、学習用データ記憶部１２０における第一メモリバッファ１２１への蓄積に時間を要する第一学習用データＤＥ１に加えて、学習済みモデルＭによって推論される第一学習用データＤＥ１に含まれるペアデータＣに相当する推論ペアデータＣｉ（推論部品種ペアデータＣｐｉ又は推論フィーダペアデータＣｆｉ）を第二機械学習において用いることができる。ここで、学習済みモデルＭを用いて推論することにより、推論ペアデータＣｉ（推論部品種ペアデータＣｐｉ又は推論フィーダペアデータＣｆｉ）、換言すれば、入れ替えが可能であり、且つ、サイクルタイムを短縮する部品種ペアＫｐ（又はフィーダペアＫｆ）の出現頻度は高くなる。

　これにより、第一変形例においては、所定の分類基準に従って分類されて第一メモリバッファ１２１に記憶される第一学習用データＬ１及び第二学習用データＬ２について、所定数以上となるまで蓄積するために要する時間を短縮することができる。その結果、第一変形例においては、推論精度の高い学習済みモデルＭを生成するための学習時間を短縮して効率良く学習済みモデルＭを生成することができる。その他の効果については、上述した実施形態と同様の効果が得られる。

６．第二変形例
　上述した実施形態においては、例えば、第一工程として作業者等によって部品装着機ペアＫｍが設定され、生産支援装置１００は、第二工程として選択的に設定された部品装着機ペアＫｍにセットされたフィーダ４０（部品種）を入れ替え即ち最適化の対象とすることができるようにした。これにより、上述した実施形態及び第一変形例においては、例えば、オプチマイザ１８０が実行するシミュレーションの回数を低減することができ、効率良く部品種の配置の最適化を行うことができる。

　ところで、上述したように、各々の部品装着機１０において装着処理される部品Ｐの部品種は既知である。従って、生産支援装置１００は、上述した実施形態のように、入れ替えの対象として部品種ペアＫｐ又はフィーダペアＫｆを推論することに代えて、又は、加えて、図６、図７及び図９に示すように、部品種ペアデータＣｐによって表される部品種ペアＫｐ又はフィーダペアデータＣｆによって表されるフィーダペアＫｆの推論と同様にして部品装着機ペアデータＣｍによって表される部品装着機ペアＫｍを推論することも可能である。即ち、この場合には、第一工程として、例えば、上述した最適化プログラムの前記ステップＳ１１において、学習済みモデルＭとオプチマイズ情報Ｄ（又は生産情報Ｊ）とに基づいて、入れ替えの対象となるフィーダ４０（部品種）が装着される可能性の高い部品装着機１０について部品装着機ペアＫｍ（部品装着機ペアデータＣｍ）が推論される。これにより、上述したように、生産支援装置１００は、第二工程において、部品装着機ペアＫｍに実際にセットされるフィーダペアＫｆ即ち部品種ペアＫｐを推論することができるため、効率良く部品種の配置の最適化を図ることができる。

７．第三変形例
　又、上述した実施形態及び第一変形例においては、学習フェーズにおいて、報酬算出部１４３は、評価対象に関係なく、評価結果に応じた報酬Ｅを算出するようにした。これに加えて、図７にて破線により示すように、学習済みモデル生成部１４０が重み付け部１４８を備えることも可能である。以下、重み付け部１４８を説明する。

　重み付け部１４８は、報酬算出部１４３が複数の評価対象の各々に対して与える報酬Ｅの重み付けを行う。つまり、重み付け部１４８は、複数の評価対象のうち一部の評価対象（例えば、サイクルタイム）の重要度が他の評価対象（例えば、部品Ｐの配置等）の重要度よりも高い場合に、一部の評価対象に対し、他の評価対象よりも与える報酬Ｅ又は罰則の程度を大きくする。従って、第三変形例においても、上述した実施形態及び第一変形例と同様の効果が得られる。尚、各々の評価対象に対する報酬Ｅの重み付けは、例えば、作業者による設定が可能である。

８．その他の変形例
　上述した実施形態及び第一変形例においては、生産支援装置１００が学習済みモデルＭとオプチマイズ情報Ｄ（生産情報Ｊ）とに基づいて、部品種ペアＫｐ（フィーダペアＫｆ）を推論するようにした。これに代えて、例えば、第二変形例のように、生産支援装置１００によって部品装着機ペアＫｍが推論される場合には、部品装着機ペアＫｍを形成する部品装着機１０にセットされる限られたフィーダ４０即ち部品種について、作業者が部品種ペアＫｐやフィーダペアＫｆを決定するようにしても良い。この場合においても、入れ替えの対象となる部品種（フィーダ４０）の数が限られるため、仮に作業者が部品種ペアＫｐやフィーダペアＫｆを決定したとしても、上述した従来の方法に比べて、効率良く部品種の配置の最適化を図ることが可能となる。

　更に、上述した実施形態及び各変形例においては、生産支援装置１００が学習済みモデル生成部１４０を備えるようにした。これに代えて、学習済みモデル生成部１４０を、生産システム１に設けられた生産支援装置１００以外の装置（例えば、生産システム１の管理装置Ｈや、管理装置Ｈと通信可能で生産システム１及び部品装着機１０を製造するメーカが所有するコンピュータ装置等）に設けることも可能である。この場合、生産支援装置１００以外の装置に設けられた学習済みモデル生成部１４０は、例えば、メーカが所有しているオプチマイズ情報Ｄを用いて学習済みモデルＭを生成することができる。そして、生成された学習済みモデルＭは、例えば、生産システム１の管理装置Ｈに供給され、管理装置Ｈから生産支援装置１００の学習済みモデル記憶部１５０に供給されて記憶される。この場合においても、上述した実施形態及び各変形例と同様の効果が得られる。

　１…生産システム、１０…部品装着機、１１…基板搬送装置、１２…部品供給装置、１２Ｓ…スロット、１３…部品移載装置、１３Ａ…ヘッド駆動装置、１３Ｂ…移動台、１３Ｃ…装着ヘッド、１３Ｄ…ノズルホルダ、１３Ｅ…吸着ノズル、１４…部品カメラ、１５…基板カメラ、１６…制御装置、２０…自動搬送機、３０…ローダ装置、４０…フィーダ、４１…フィーダ本体、４２…駆動スプロケット、４３…テープ押え部、４４…剥離部、５０…キャリアテープ、５０１…接合部位、５０２…接合部位、５１…ベーステープ、５１１…キャビティ、５１２…送り孔、５２…カバーテープ、１００…生産支援装置、１１０…第一学習用データ取得部、１２０…学習用データ記憶部、１３０…抽出部、１４０…学習済みモデル生成部、１４１…状態情報取得部、１４２…評価結果取得部、１４３…報酬算出部、１４４…価値関数記憶部、１４５…行動決定部、１４６…行動情報出力部、１４７…価値関数更新部、１４８…重み付け部、１５０…学習済みモデル記憶部、１６０…生産情報取得部、１７０…推論部、１７１…状態情報取得部、１７２……価値関数記憶部、１７３…行動決定部、１７４…行動情報出力部、１８０…オプチマイザ、１９０…第二学習用データ取得部、Ｐ…部品、Ｐｓ…部品供給位置、Ｒ…リール、Ｄ…オプチマイズ情報、Ｄａ…配置データ、Ｄｋ…部品種データ、Ｄｓ…想定サイクルタイムデータ、Ｄｊ…入れ替え規制情報、Ｃ…ペアデータ、Ｃｐ…部品種ペアデータ、Ｃｆ…フィーダペアデータ、Ｃｍ…部品装着機ペアデータ、Ｃi…推論ペアデータ、Ｃｐi…推論部品種ペアデータ、Ｃｆi…推論フィーダペアデータ、Ｃｍi…推論部品装着機ペアデータ、Ｒｓ…サイクルタイムデータ（結果データ）、Ｊ…生産情報、Ｍ…学習済みモデル、Ｅ…報酬、Ａ…行動情報、Ｈ…管理装置

Claims

　複数の部品装着機の間で基板に装着する部品の部品種ペアを入れ替えて装着処理を試行することにより前記装着処理が改善して報酬が得られる前記部品種ペアに関する第一機械学習に用いられる複数の第一学習用データを取得する第一学習用データ取得部と、
　取得された複数の前記第一学習用データを所定の分類基準に従って分類して記憶する学習用データ記憶部と、
　前記学習用データ記憶部に分類されて記憶されている各々の前記第一学習用データを無作為に抽出する抽出部と、
　無作為に抽出された前記第一学習用データを用いて前記第一機械学習を行うことによって生成された学習済みモデルを記憶する学習済みモデル記憶部と、
　を備えた、生産支援装置。
　前記部品装着機の配置を表す配置データ及び前記部品の部品種を表す部品種データを少なくとも含み、前記部品装着機を用いて新たな前記部品を装着して前記基板を生産することを指示する生産情報を取得する生産情報取得部と、
　前記生産情報に含まれる前記配置データ及び前記部品の部品種データと前記学習済みモデルとを用いて、前記部品種データによって区別される新たな前記部品種のうちの入れ替え対象となる前記部品種ペアを推論して出力する推論部と、
　を備えた、請求項１に記載の生産支援装置。
　前記抽出部は、前記学習用データ記憶部において任意に設定可能な構成比となるように分類されて記憶されている各々の前記第一学習用データのうちから無作為に前記第一学習用データを抽出する、請求項１又は２に記載の生産支援装置。
　前記抽出部は、前記学習用データ記憶部において一定数以上記憶されて蓄積されている各々の前記第一学習用データのうちから無作為に前記第一学習用データを抽出する、請求項１又は２に記載の生産支援装置。
　無作為に抽出された前記第一学習用データを用いて、前記第一機械学習を繰り返し行うことにより、前記学習済みモデルを生成する学習済みモデル生成部を備えた、請求項１又は２に記載の生産支援装置。
　前記第一学習用データは、前記学習用データ記憶部において各々の前記第一学習用データが一定数以上記憶されて蓄積された状態で、無作為に抽出される、請求項５に記載の生産支援装置。
　前記第一学習用データは、
　前記部品装着機の配置を表す配置データと、前記部品の部品種を表す部品種データと、前記部品種データによって区別される前記部品種同士の前記部品種ペアを表す部品種ペアデータと、複数の前記部品装着機が前記部品種同士を入れ替えて前記部品を装着する際に得られる結果を表す結果データと、が互いに紐付けされて形成される、請求項１又は２に記載の生産支援装置。
　前記学習用データ記憶部は、
　取得された複数の前記第一学習用データを、前記結果データに関する所定の前記分類基準に従って分類して記憶する、請求項７に記載の生産支援装置。
　前記結果データは、前記部品の装着に要するサイクルタイムを含んでおり、
　前記分類基準は、前記サイクルタイムに応じて前記第一学習用データを分類する基準である、請求項８に記載の生産支援装置。
　前記結果データは、前記部品種ペアの入れ替えが不能である場合を含んでおり、
　前記分類基準は、前記部品種ペアの入れ替えが可能か否かに応じて前記第一学習用データを分類する基準である、請求項８に記載の生産支援装置。
　更に、前記推論部によって推論された前記部品種ペアを表す推論部品種ペアデータを含む第二学習用データを取得する第二学習用データ取得部を有し、
　前記学習済みモデル記憶部は、
　前記第一学習用データを用いた前記第一機械学習、及び、前記第二学習用データを用いて推論された前記部品種ペアを入れ替えて前記装着処理を試行することにより前記装着処理が改善して報酬が得られる前記部品種ペアに関する第二機械学習のうちの何れか一方を行うことによって生成された前記学習済みモデルを記憶する、請求項２に記載の生産支援装置。
　前記第一機械学習、及び、前記第二機械学習のうちの何れか一方を繰り返し行うことにより、前記学習済みモデルを生成する学習済みモデル生成部を備えた、請求項１１に記載の生産支援装置。
　前記学習済みモデル生成部は、
　イプシロン－グリーディ法に従い、探索割合を決定する探索率に応じて前記第一機械学習及び前記第二機械学習の一方を選択して行い、前記学習済みモデルを生成する、請求項１２に記載の生産支援装置。
　前記報酬は、
　前記部品種ペアの入れ替えを行った後のシミュレーションにおいて、前記部品の装着に要するサイクルタイムが短縮される場合に与えられる、請求項１又は２に記載の生産支援装置。
　前記報酬は、
　前記部品種ペアの入れ替えを行う前の前記サイクルタイムに比べて、前記部品種ペアの入れ替えを行った後の前記サイクルタイムの短縮時間が大きくなるにつれて大きくなる、請求項１４に記載の生産支援装置。
　前記報酬は、
　前記部品種ペアの入れ替えを行った後のシミュレーションにおいて、前記部品が小さい順に前記基板に装着される場合に与えられる、請求項１又は２に記載の生産支援装置。
　前記報酬は、
　前記部品種ペアの入れ替えを行った後のシミュレーションにおいて、前記部品の前記基板の表面からの高さが低い順に前記基板に装着される場合に与えられる、請求項１６に記載の生産支援装置。
　複数の前記部品は、各々、リールに巻回されたキャリアテープに収容されており、
　前記リールは、各々、前記キャリアテープに収容された前記部品を前記部品装着機に供給するフィーダに装填される、請求項２に記載の生産支援装置。
　前記推論部は、
　前記部品を前記部品装着機に供給する前記フィーダ同士を表すフィーダペアを前記部品種ペアとして推論して出力する、請求項１８に記載の生産支援装置。
　前記配置データに基づいて複数の前記部品装着機のうちの前記部品装着機同士を表す部品装着機ペアを設定する第一工程と、
　前記部品装着機ペアにおける前記部品種ペアを推論して出力する第二工程と、を実行する、請求項２に記載の生産支援装置。
　前記推論部は、
　前記生産情報と前記学習済みモデルとを用いて、前記第一工程における前記部品装着機ペアを推論して出力する、請求項２０に記載の生産支援装置。