JP6339655B1

JP6339655B1 - 光源ユニットの光学部品の調芯手順を学習する機械学習装置および光源ユニット製造装置

Info

Publication number: JP6339655B1
Application number: JP2016245834A
Authority: JP
Inventors: 道徳前田
Original assignee: FANUC Corp
Current assignee: FANUC Corp
Priority date: 2016-12-19
Filing date: 2016-12-19
Publication date: 2018-06-06
Anticipated expiration: 2036-12-19
Also published as: CN108205180A; US20180172983A1; CN108205180B; DE102017011463B4; JP2018101025A; DE102017011463A1; US10241324B2

Abstract

【課題】短時間で光源ユニットの光学部品の調芯作業を実施する手順を学習する機械学習装置を提供する。【解決手段】機械学習装置２は、光学部品の位置および姿勢と構成部品の品質情報とを含む状態データを取得する。機械学習装置２は、光学部品の位置および姿勢の調整時間と光測定器１３にて測定した光の状態とを含む判定データを取得する。機械学習装置２は、光学部品の位置および姿勢を調整する手順を学習する学習部２３を備える。学習部２３は、調芯の調整時間および光の状態に基づいて報酬を計算する報酬計算部２８と、報酬に基づいて価値関数を更新する価値関数更新部２９とを含む。学習部２３は、価値関数に基づいて、光学部品の移動方法を設定する意思決定部２４を含む。【選択図】図２

Description

本発明は、光源ユニットの光学部品の調芯手順を学習する機械学習装置および光源ユニット製造装置に関する。

レーザダイオードモジュールなどの光源ユニットが多くの装置に使用されている。光源ユニットでは、発光素子、レンズ、および光ファイバーなどの光学部品が筐体に固定される。光源ユニットの製造工程では、発光素子を筐体の所定の位置に固定した後に、その他の光学部品を筐体に固定する。光学部品は、発光素子に対して相対的に最適な位置および姿勢になるように固定する必要がある。例えば、光学部品は、所定の向きに所定の強度にて光が出射されるように配置する必要がある。光学部品は、受光素子が受ける光の強度などが予め定められた基準を満足するように筐体に固定される（例えば、特開２００８−１７６３４２号公報を参照）。

光学部品の位置および姿勢の調整を行う作業は、調芯と称されている。または、この作業は、光軸調整と称されている。光学部品の調芯を行う工程では、光学部品の位置および姿勢を変化させながら光の強度等を測定する。光の測定値が予め定められた基準を満足するまで位置および姿勢の変更が繰り返される。

従来の技術における調芯工程では、作業者は、予め経験的に調芯手順を決める。作業者は、光学部品の位置および姿勢を設定した後に光の測定値を分析する。この後に、作業者は、分析した結果に基づいて光学部品の位置および姿勢を修正する作業を繰り返していた。このように、調芯手順の見直しは、作業者の技量に依存しており、自動化が困難であった。

特開平７−０８４１７１号公報には、オートフォーカス用のレンズ駆動装置におけるサーチ駆動の際に、レンズ保持枠が機械端に衝突しないように制御できるレンズ駆動の制御装置が開示されている。

特開２００８−１７６３４２号公報特開平７−０８４１７１号公報

一般的に、光学部品の位置および姿勢は、３次元の座標系の各軸の位置（ｘ，ｙ，ｚ）および各軸の周りの回転角度（θｘ,θｙ,θｚ）にて表すことができる。すなわち、１つの光学部品の位置および姿勢は、６個の軸を用いて調整することができる。作業者が経験に基づいて調芯手順を決める方法では、作業者は多くの手順の中から最適と考えられる手順を選定する。

この際に、光学部品の移動方法に依存して、最適な位置および最適な姿勢に到達するまでの作業時間に大きな差が生じる。作業者に依存して、光学部品の調芯作業に長い時間がかかる場合があり、生産効率が低くなる原因となっている。光学部品の位置および姿勢の調整が予め定められた時間内に終了しない場合には、一般的にアラームを出して作業を終了する。アラームが発信されると、作業者は部品が不良であると判定する。ところが、部品が不良でない場合があり、光源ユニットの歩留まりを悪化させる原因となっている。最終的に調芯が完了した場合であっても、調芯作業の途中に無駄な作業が生じている虞がある。または、調芯が最短時間で行われる場合に比べて長い時間を要している虞がある。

また、１種類の光源ユニットを製造する場合には、作業者は、部品の品質のばらつきを考慮せずに、同一の調芯手順にて作業を実施することができる。この方法は、品質が同一の部品の調芯を行う時に有効である。ところが、使用する部品の品質が変わった場合には、この調芯手順は最適でなくなる。作業者は、調芯手順を見直す必要がある。この結果、作業時間のばらつきが大きくなる。または、作業者は、無駄な手順を繰り返したり、光学部品の移動のやり直しに多大な時間がかかったりする場合がある。

光源ユニットの部品の品質は光学部品の調芯作業に影響することは分かっているものの、これらの品質の情報は、多くの種類が存在する。各軸の移動方法と部品の品質の情報との組み合わせは非常に多くなる。このために、作業者が部品の品質の情報と調芯手順とを理論的に関連づけて、調芯手順を決定することは困難である。

本開示の一態様の機械学習装置は、光源ユニットの光学部品の調芯を実施する手順を学習する。機械学習装置は、光学部品の位置および姿勢と光源ユニットの構成部品の品質情報とを含む状態データを取得する状態観測部を備える。機械学習装置は、光学部品の位置および姿勢の調整時間と光測定器にて測定した光の状態とを含む判定データを取得する判定データ取得部を備える。機械学習装置は、状態観測部にて取得した状態データおよび判定データ取得部にて取得した判定データに基づいて、光学部品の位置および姿勢を調整する手順を学習する学習部を備える。学習部は、判定データ取得部にて取得した調整時間および光の状態に基づいて報酬を計算する報酬計算部を含む。学習部は、報酬計算部にて設定された報酬に基づいて価値関数を更新する価値関数更新部を含む。学習部は、価値関数に基づいて、光学部品の移動方法を設定する意思決定部を含む。

本開示の一態様の光源ユニット製造装置は、発光素子から出射される光の状態を測定する光測定器と、光学部品を保持して移動させる移動装置と、移動装置を制御する制御器とを備える。制御器は、光学部品の位置および姿勢と構成部品の品質情報とを含む状態データを取得する状態観測部を含む。制御器は、光学部品の位置および姿勢の調整時間と光測定器にて測定した光の状態とを含む判定データを取得する判定データ取得部を含む。制御器は、状態観測部にて取得した状態データおよび判定データ取得部にて取得した判定データに基づいて、光学部品の位置および姿勢を調整する手順を学習する学習部を含む。学習部は、判定データ取得部にて取得した調整時間および光の状態に基づいて報酬を計算する報酬計算部を含む。学習部は、報酬計算部にて設定された報酬に基づいて価値関数を更新する価値関数更新部を含む。学習部は、価値関数に基づいて、光学部品の移動方法を設定する意思決定部を含む。

本開示の一態様によれば、短時間で光源ユニットの光学部品の調芯作業を実施する手順を学習する機械学習装置および光源ユニット製造装置を提供することができる。

実施の形態における光源ユニットの概略側面図である。実施の形態における第１の製造システムのブロック図である。実施の形態における光源ユニット製造装置にて第１のレンズの調芯を行っている時の側面図である。レンズの調芯を実施している時のレンズおよびステージの側面図である。ｘ軸方向におけるレンズの位置に対する光の強度のグラフである。ニューロンのモデルを模式的に示す図である。複数のニューロンを組み合わせて構成した３層のニューラルネットワークの模式図である。レンズの移動を説明する概略図である。実施の形態における機械学習装置が行う学習の制御のフローチャートである。第２のレンズの調芯を実施している時の光源ユニットの側面図である。実施の形態における第２の製造システムのブロック図である。実施の形態における第３の製造システムのブロック図である。

図１から図１２を参照して、実施の形態における機械学習装置および光源ユニット製造装置について説明する。本実施の形態の機械学習装置および光源ユニット製造装置は、光源ユニットの光学部品の調芯を実施する手順を学習する。

図１に、本実施の形態における光源ユニットの概略側面図を示す。本実施の形態における光源ユニット４は、発光素子４２から出射された光を、光ファイバー４４に入射させる。光源ユニット４は、レーザー光などの光を出射する発光素子４２を備える。発光素子４２は、例えばレーザーダイオードである。光源ユニット４は、光の進行方向を変更する第１のレンズ４５および第２のレンズ４６を含む。第１のレンズ４５および第２のレンズ４６は、曲面状の表面が互いに対向するように配置されている。光源ユニット４は、第２のレンズ４６から出射されたレーザー光を受光する受光素子４３を備える。受光素子４３の内部には、光ファイバー４４が配置されている。

発光素子４２および受光素子４３は、筐体４１に固定されている。第１のレンズ４５は、筐体４１の固定部４１ａに接着剤８２にて固定されている。第２のレンズ４６は、筐体４１の固定部４１ｂに接着剤８２にて固定されている。発光素子４２から出射された光は、第１のレンズ４５によって平行光に変換される。第１のレンズ４５を出射した光は、第２のレンズ４６により集光される。そして、第２のレンズ４６を出射した光は、受光素子４３の内部の光ファイバー４４に入射する。このように、光源ユニット４は、少なくとも１つの光学部品を含む。本実施の形態では、調芯を実施する光学部品としてレンズ４５，４６を例に取り上げて説明する。

図２に、本実施の形態における第１の製造システムのブロック図を示す。図３に、第１のレンズの調芯作業を実施している時の光源ユニットの側面図を示す。図２および図３を参照して、製造システム８は、光源ユニット製造装置１と機械学習装置２とを備える。光源ユニット製造装置１は、光源ユニット４に配置された光学部品の調芯を実施する。すなわち、光源ユニット製造装置１は、光学部品の位置および姿勢を調整する。機械学習装置２は、光源ユニット製造装置１と通信できるように、光源ユニット製造装置１に接続されている。機械学習装置２は、光源ユニット製造装置１から受信した情報およびレンズの品質情報３１に基づいて、光学部品の位置および姿勢を調整する手順を学習する。

光源ユニット製造装置１は、光学部品を移動する光学部品移動装置としてのレンズ移動装置１２を含む。本実施の形態のレンズ移動装置１２は、レンズ４５，４６を保持するステージ１８を含む。レンズ移動装置１２は、ステージ１８を駆動するための駆動モーター１６と、駆動モーター１６に取り付けられた回転位置検出器１７とを含む。

光源ユニット製造装置１は、レンズ移動装置１２を制御する制御器１１を備える。制御器１１は、バスを介して互いに接続されたＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、およびＲＯＭ（Read Only Memory）等を備える演算処理装置にて構成されている。制御器１１は、光測定器１３およびレンズ移動装置１２に動作指令を送出する動作制御部１４を含む。レンズ移動装置１２の駆動モーター１６は、動作指令に基づいて駆動する。

駆動モーター１６が駆動することにより、ステージ１８の位置および姿勢が変化する。また、回転位置検出器１７は、駆動モーター１６の出力シャフトの回転位置を検出する。回転位置検出器１７の出力に基づいて、レンズ４５，４６の位置および姿勢が検出される。

図４に、レンズの位置および姿勢を調整している時のステージおよびレンズの側面図を示す。ステージ１８は、例えば吸着により、レンズ４５を保持することができる。駆動モーター１６が駆動することにより、ステージ１８の位置および姿勢が変化すると共に、レンズ４５の位置および姿勢が変化する。本実施の形態においては、レンズ４５の位置は、３次元の座標系の各軸の位置（ｘ，ｙ，ｚ）により表される。また、レンズ４５の姿勢は、回転移動の駆動軸に沿った回転位置（θｘ，θｙ，θｚ）により表される。

本実施の形態においては、レンズ４５において中心点４５ａが予め設定されている。レンズ４５の位置を示す座標系としては、例えば筐体４１における任意の位置を原点として、ｘ軸、ｙ軸およびｚ軸を含む座標系を設定することができる。レンズ４５の姿勢（回転位置）を示す座標系としては、例えばレンズの中心点４５ａを原点として、ｘ軸、ｙ軸およびｚ軸を設定する。そして、ｘ軸の周りの駆動軸、ｙ軸の周りの駆動軸、およびｚ軸の周りの駆動軸を含む座標系を採用することができる。それぞれの駆動軸に沿った回転角度を、レンズ４５の回転位置として定めることができる。例えば、ｘ軸の周りの駆動軸の座標値は、回転角度θｘにより表わすことができる。

本実施の形態のレンズ移動装置１２は、６個の駆動軸に沿って、レンズ４５の位置および姿勢を調整する。レンズ移動装置は、この形態に限られず、レンズの位置および姿勢が調整できるように形成されていれば構わない。例えば、光学部品の形状によっては、５個の駆動軸によりレンズの位置および姿勢を調整できる場合がある。この場合には、レンズ移動装置は、５個の駆動軸に基づいてステージが動くように形成されていれば構わない。また、レンズ移動装置は、レンズが配置される際に発生するレンズの位置および姿勢の相対的なずれを補正するために、画像処理装置および検出器を備えても良い。

図２および図３を参照して、光源ユニット製造装置１は、光測定器１３を含む。光測定器１３は、光の特性を検出可能なように形成されている。本実施の形態の光測定器１３は光の強度の分布を検出可能に形成されている。光測定器１３は、光の強度、光のモードパターン、光の中心位置を検出することができる。光の強度の分布によりモードパターンが定まる。例えば、モードパターンがシングルモードの場合に、レーザー光はガウシアンビームになる。

光測定器１３としては、例えば、固定式の光センサーを用いることができる。光センサーは、ＣＣＤ（Charge Coupled Device）を含み、ＣＣＤにより光の強度の分布を検出することができる。本実施の形態では、２次元の光センサーを用いている。光測定器１３は、少なくとも１つの光の状態を検出可能な測定器を採用することができる。たとえば、走査式の光センサーを用いても構わない。

図３に示す例では、光測定器１３は、支持部材１９に支持されている。支持部材１９は、固定部４１ｂの上に置かれている。光測定器１３は、受光素子４３が配置される位置に固定されても構わない。また、光源ユニット製造装置は、光源ユニットの外側に光を導く反射鏡等を含んでいても構わない。この場合に、光測定器は、光源ユニットの外側に配置することができる。本実施の形態では、光測定器１３は、発光素子４２から出射される光の光軸８１と交差するように配置されている。また、光測定器１３は、受光面が光軸８１に対して垂直になるように配置されている。光測定器１３は、制御器１１に制御されている。光測定器１３にて測定された光の状態の情報は、制御器１１に送信される。

本実施の形態の光源ユニット製造装置１では、６軸の方向に移動可能なステージ１８により、２つのレンズ４５，４６の調芯を実施する。本実施の形態では、第１のレンズ４５の調芯を行った後に、第２のレンズ４６の調芯を行う。

それぞれのレンズ４５，４６の調芯においては、受光素子４３が受光をする光の強度が所定の判定値よりも大きくなるようにレンズ４５，４６の位置および姿勢の調整を行う。また、光の強度の分布が理想のモードパターンに近くなるようにレンズ４５，４６の位置および姿勢の調整を行う。また、光の中心位置が光ファイバーの中心軸に近くなるようにレンズ４５，４６の位置および姿勢を調整する。

本実施の形態の調芯作業では、レンズ４５，４６を、予め定められた６軸のうち、１つの軸の方向に微小距離または微小角度にて移動する。次に、光測定器１３にて受光した光の状態が改善しているか否かを判定する。この作業を、光測定器１３にて受光する光の状態が予め定められた判定範囲内になるまで繰り返す。

図５に、ｘ軸方向のレンズの中心位置と光測定器にて検出される光の強度との関係を説明するグラフを示す。図５は、同じ種類の２つの光源ユニットにおいて、同じ種類のレンズの調芯を実施した時のグラフを示している。このグラフには、レーザー光の強度とレンズの中心位置との関係が示されている。位置ｘｓは、レンズの調芯を開始する時のレンズの中心位置である。第１の光源ユニットでは、レンズの中心位置が位置ｘ１において、光の強度が最大になっている。これに対して、第２の光源ユニットでは、レンズの中心位置が位置ｘ２において、光の強度が最大になっている。

第１の光源ユニットに取り付けられたレンズと第２の光源ユニットに取り付けられたレンズは同様の製造方法により製造された同じ設計仕様のレンズである。ところが、レンズの品質等に依存して、レンズの最適な位置および姿勢が異なっている。第１の光源ユニットでは、矢印９１に示すように、調芯の開始の位置ｘｓからｘ軸の負側にレンズを移動する必要ある。これに対して、第２の光源ユニットでは、矢印９２に示すように、調芯の開始の位置ｘｓからｘ軸の正側にレンズを移動する必要がある。

このように、同一仕様のレンズであるにもかかわらず、レンズの品質に依存してレンズの最適な位置は変化する。作業者が第１の光源ユニットの調芯を行った後に第２の光源ユニットの調芯を行う場合には、第１の光源ユニットの最適なレンズの位置ｘ１を参考にする。作業者は、位置ｘ１の近傍に調芯を開始する位置を設定することができる。または、作業者は、位置ｘｓからｘ軸の負側にレンズを移動することができる。ところが、第２の光源ユニットの最適な位置ｘ２は位置ｘ１から離れている。第２の光源ユニットの最適な位置ｘ２は、初期の位置ｘｓに関して、位置ｘ１の反対側に存在する。このために、第２の光源ユニットの調芯のための調整時間は長くなる。

本実施の形態では、６個の駆動軸に基づいてレンズ４５，４６を移動することができる。それぞれの駆動軸に沿って正側または負側にレンズ４５，４６を移動することができる。すなわち、レンズ４５，４６の移動においては、それぞれのレンズについて１２個の移動方向のうち、いずれかの方向に移動させることができる。レンズ４５，４６の移動方向が数多く存在する。調芯のための調整時間は短いことが好ましいが、作業者が多くの移動方向から調整時間が短くなる様に最適な移動方向を選定することは難しい。

また、レンズの品質には、レンズの形状、レンズの材料の組成、レンズの屈折率、焦点距離、および表面に蒸着された光学薄膜の特性などが含まれる。多くの移動方向に加えてレンズの品質を考慮して、作業者が最適な移動方向を選定することは困難である。本実施の形態の機械学習装置は、レンズの移動方向およびレンズの品質を考慮して、調整時間が短くなるように調芯を実施する手順を学習する。ここで、本実施の形態の機械学習について説明する。

機械学習装置は、装置に入力されるデータの集合から、その中にある有用な規則、知識表現、および判断基準等を解析により抽出し、その判断結果を出力するとともに、知識の学習(機械学習)を行う機能を有する。機械学習の手法は様々であるが、大別すれば、例えば、「教師あり学習」、「教師なし学習」および「強化学習」に分けられる。本実施の形態では、機械学習のうち強化学習（Ｑ学習）を実施する。さらに、強化学習を実現するうえで、特徴量の抽出を学習する「深層学習(ディープラーニング：Deep Learning)」と呼ばれる手法がある。

まず、強化学習の問題設定として、次のように考えられる。
・製造システム(例えば、光源ユニット製造装置の制御器および機械学習装置を含む)は、環境の状態を観測し、行動を決定する。
・環境は、何らかの規則に従って変化し、さらに、自分の行動が環境に変化を与えることもある。
・行動するたびに、報酬信号が帰ってくる。
・最大化したいのは、将来にわたっての(割引)報酬の合計である。
・行動が引き起こす結果を全く知らない、または、不完全にしか知らない状態から学習はスタートする。すなわち、機械学習装置は、実際に行動して初めて、その結果をデータとして得ることができる。つまり、試行錯誤しながら最適な行動を探索する必要がある。
・人間の動作を真似るように、事前学習(教師あり学習または逆強化学習といった手法)した状態を初期状態として、良いスタート地点から学習をスタートさせることもできる。

ここで、強化学習（Ｑ学習）では、判定や分類だけではなく、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習する。すなわち、強化学習では、将来的に得られる報酬を最大にするための方法を学ぶものである。

強化学習は、或る環境状態ｓの下で、行動ａを選択する行動価値Ｑ(ｓ，ａ)を学習する方法である。つまり、或る状態ｓのとき、行動価値Ｑ(ｓ，ａ)の最も高い行動ａを最適な行動として選択すればよい。しかし、最初は、状態ｓと行動ａとの組合せについて、行動価値Ｑ(ｓ，ａ)の正しい値は全く分かっていない。そこで、エージェント(行動主体)は、或る状態ｓの下で様々な行動ａを選択し、その時の行動ａに対して、報酬が与えられる。それにより、エージェントは、より良い行動の選択、すなわち、正しい行動価値Ｑ(ｓ，ａ)を学習していく。

さらに、行動の結果、将来にわたって得られる報酬の合計を最大化したいので、最終的にＱ(ｓ，ａ)＝Ｅ［Σ(γ^t)ｒ_t］となるようにすることを目指す。ここで、期待値は、最適な行動に従って状態変化したときに取得し、それは、分かっていないので、探索しながら学習することになる。このような行動価値Ｑ(ｓ，ａ)の更新式は、例えば、次の式(１)により表すことができる。

上記の式(１)において、ｓ_tは、時刻ｔにおける環境の状態を表し、ａ_tは、時刻ｔにおける行動を表す。行動ａ_tにより、状態はｓ_t+1に変化する。r_t+1は、その状態の変化により得られる報酬を表している。また、「ｍａｘ」の付いた項は、状態ｓ_t+1の下で、その時に分かっている最もＱ値の高い行動ａを選択した場合のＱ値にγを乗じたものになる。ここで、γは、０＜γ≦１のパラメータで、割引率と呼ばれる。また、αは、学習係数で、０＜α≦１の範囲とする。

上述した式(１)は、試行ａ_tの結果、帰ってきた報酬ｒ_t+1を元に、状態ｓ_tにおける行動ａ_tの行動価値Ｑ(ｓ_t，ａ_t)を更新する方法を表している。すなわち、状態ｓにおける行動ａの行動価値Ｑ(ｓ_t，ａ_t)よりも、報酬ｒ_t+1と行動ａによる次の状態における最良の行動ｍａｘａの行動価値Ｑ(ｓ_t+1，ｍａｘａ_t+1)との和の方が大きければ、Ｑ(ｓ_t，ａ_t)を大きくし、反対に小さければ、Ｑ(ｓ_t，ａ_t)を小さくすることを示している。つまり、或る状態における或る行動の価値を、結果として即時帰ってくる報酬と、その行動による次の状態における最良の行動の価値に近付けるようにしている。

ここで、行動価値Ｑ(ｓ，ａ)の計算機上での表現方法は、すべての状態行動ペア(ｓ，ａ)に対して、その値を行動価値テーブルとして保持しておく方法と、行動価値Ｑ(ｓ，ａ)を近似するような関数を用意する方法がある。後者の方法では、前述の式(１)は、確率勾配降下法等の手法で近似関数のパラメータを調整していくことにより、実現することができる。なお、近似関数としては、後述のニューラルネットワークを用いることができる。

ところで、強化学習での価値関数の近似アルゴリズムとして、ニューラルネットワークを用いることができる。図６は、ニューロンのモデルを模式的に示す図である。図７は、図６に示すニューロンを組み合わせて構成した三層のニューラルネットワークを模式的に示す図である。すなわち、ニューラルネットワークは、例えば、図６に示すようなニューロンのモデルを模した演算装置およびメモリ等で構成される。

図６に示されるように、ニューロンは、複数の入力ｘ(図６では、一例として入力ｘ1〜ｘ3)に対する出力(結果)ｙを出力するものである。各入力ｘ(ｘ1，ｘ2，ｘ3)には、この入力ｘに対応する重みｗ(ｗ1，ｗ2，ｗ3)が乗算される。これにより、ニューロンは、次の式(２)により表現される結果ｙを出力する。なお、入力ｘ、結果ｙおよび重みｗは、すべてベクトルである。また、下記の式(２)において、θは、バイアスであり、ｆ_kは、活性化関数である。

図７を参照して、図６に示すニューロンを組み合わせて構成した三層のニューラルネットワークを説明する。図７に示されるように、ニューラルネットワークの左側から複数の入力ｘ(ここでは、一例として、入力ｘ1〜入力ｘ3)が入力される。ニューラルネットワークの右側から結果ｙ(ここでは、一例として、結果ｙ1〜結果ｙ3)が出力される。具体的に、入力ｘ1，ｘ2，ｘ3は、３つのニューロンＮ11〜Ｎ13の各々に対して、対応する重みが掛けられて入力される。これらの入力に掛けられる重みは、まとめてＷ１と標記されている。

ニューロンＮ11〜Ｎ13は、それぞれ、ｚ11〜ｚ13を出力する。図７において、これらｚ11〜ｚ13は、まとめて特徴ベクトルＺ１と標記され、入力ベクトルの特徴量を抽出したベクトルとみなすことができる。この特徴ベクトルＺ１は、重みＷ１と重みＷ２との間の特徴ベクトルである。ｚ11〜ｚ13は、２つのニューロンＮ21およびＮ22の各々に対して、対応する重みが掛けられて入力される。これらの特徴ベクトルに掛けられる重みは、まとめてＷ２と標記されている。

ニューロンＮ21，Ｎ22は、それぞれｚ21，ｚ22を出力する。図７において、これらｚ21，ｚ22は、まとめて特徴ベクトルＺ２と標記されている。この特徴ベクトルＺ２は、重みＷ２と重みＷ３との間の特徴ベクトルである。ｚ21，ｚ22は、３つのニューロンＮ31〜Ｎ33の各々に対して、対応する重みが掛けられて入力される。これらの特徴ベクトルに掛けられる重みは、まとめてＷ３と標記されている。

最後に、ニューロンＮ31〜Ｎ33は、それぞれ、結果ｙ１〜結果ｙ３を出力する。ニューラルネットワークの動作には、学習モードと価値予測モードとがある。例えば、学習モードにおいて、学習データセットを用いて重みＷを学習し、そのパラメータを用いて予測モードにおいて、制御器の行動判断を行う。なお、便宜上、予測と書いたが、検出、分類、推論等の多様なタスクが可能である。

ここで、予測モードで実際に光源ユニット製造装置の制御器を動かして得られたデータを即時学習し、次の行動に反映させる(オンライン学習)ことができる。または、予め収集しておいたデータ群を用いてまとめた学習を行った後に、以降はそのパラメータで検知モードを行う(バッチ学習)こともできる。或いは、その中間的な、ある程度データが溜まるたびに学習モードを挟むということも可能である。

また、重みＷ１〜Ｗ３は、誤差逆伝搬法(誤差逆転伝播法：バックプロパゲーション：Backpropagation)により学習可能なものである。なお、誤差の情報は、右側から入り左側に流れる。誤差逆伝搬法は、各ニューロンについて、入力ｘが入力されたときの出力ｙと真の出力ｙ(教師)との差分を小さくするように、それぞれの重みを調整(学習)する手法である。このようなニューラルネットワークは、三層以上に、さらに層を増やすことも可能であり、その学習方法は、深層学習と称される。

本実施の形態の機械学習装置２は、上記の強化学習を実施する。図２を参照して、機械学習装置２は、ＣＰＵおよびＲＡＭ等を含む演算処理装置にて構成されている。本実施の形態では、一つの駆動軸において微小距離または微小角度ごとにレンズを移動する行為が行動に相当する。そして、それぞれの位置から移動する行動に関して、価値関数に基づいて行動価値が算出される。行動価値に基づいて、移動方向が選定される。

機械学習装置２は、光学部品の位置および姿勢と光源ユニット４の構成部品の品質情報とを含む状態データを取得する状態観測部２１を含む。本実施の形態の光学部品は、レンズである。状態観測部２１は、レンズの位置および姿勢を光源ユニット製造装置１の制御器１１から取得する。

作業者は、レンズの品質情報３１を予め機械学習装置２の入力部２５に入力する。機械学習装置２は、学習に関する任意の情報を記憶する記憶部２６を含む。入力部２５に入力されたレンズの品質情報３１は、記憶部２６に記憶される。レンズの品質情報３１には、例えば、材料の組成、レンズの形状、屈折率、焦点距離、および表面に蒸着された光学薄膜の特性と、材料ロット、製造装置、作業者、製造プロセス、および製造年月日などの製造情報とが含まれる。レンズの品質情報３１としては、これらの項目のうち少なくとも一つを採用することができる。状態観測部２１は、記憶部２６から構成部品の品質情報としてのレンズの品質情報３１を取得する。

構成部品の品質情報は、１個の構成部品ごとの情報を入力することが好ましい。しかしながら、構成部品の品質情報は、構成部品の製造ロットごとの情報を代表値として使用しても構わない。また、構成部品の品質情報は、学習により調芯手順の最適化が行われた後に不要と判断された情報は、廃棄しても構わない。

機械学習装置２は、判定データを取得する判定データ取得部２２を含む。判定データは、強化学習において価値関数における報酬を設定するために用いられる。判定データは、光測定器１３にて測定した光の状態を含む。本実施の形態では、判定データ取得部２２は、光の状態として、光の強度、光のモードパターン、および光の中心位置を取得する。

また、判定データ取得部２２は、光学部品の位置および姿勢の調整時間を取得する。すなわち、判定データ取得部２２は、調芯の開始から調芯の終了までに要した時間を取得する。光源ユニット製造装置１の制御器１１は、調整時間測定部１５を含む。調整時間測定部１５は、微小距離または微小角度ごとにレンズを動かして光を測定した時の作業時間を検出する。そして、１回の移動に関する作業時間を積算することにより、調芯の開始から調芯の終了までに要した調整時間を算出することができる。判定データ取得部２２は、調整時間を制御器１１から取得する。

機械学習装置２は、光学部品の位置および姿勢を調整する手順を学習する学習部２３を含む。学習部２３は、状態観測部２１にて取得した状態データおよび判定データ取得部２２にて取得した判定データに基づいて学習を実施する。学習部２３は、判定データ取得部２２にて取得した調整時間および光の状態に基づいて報酬を計算する報酬計算部２８を含む。学習部２３は、報酬計算部２８にて設定された報酬に基づいて価値関数を更新する価値関数更新部２９を含む。

機械学習装置２は、学習部２３にて設定された価値関数に基づいてレンズの移動方法を設定する意思決定部２４を含む。本実施の形態では、意思決定部２４は、レンズの移動方法として、レンズの移動方向を設定する。すなわち、意思決定部２４は、現在のレンズの位置から移動する方向を、６個の駆動軸における正側の方向および負側の方向から選定する。なお、意思決定部２４が設定するレンズの移動方法には、移動する距離または角度が含まれていても構わない。

意思決定部２４にて設定された移動方向の指令は、光源ユニット製造装置１の制御器１１に送信される。動作制御部１４は、受信した移動方向の指令に基づいてレンズ移動装置１２を駆動する。レンズ移動装置１２は、レンズの位置および姿勢を変更する。

図８に、本実施の形態におけるレンズの移動を説明する概略図を示す。図８では、説明を簡略化するために、６個の駆動軸のうち、ｘ軸およびｙ軸を示している。また、図８では、２次元の平面上にレンズ４５が移動する例を示している。この例では、レンズ４５は、ｘ軸またはｙ軸に沿って移動する。

レンズ４５が移動する可能性のある領域には、格子状に移動点ＭＰ_mnが設定されている。それぞれの移動点同士の微小距離は一定である。ここでの例では、レンズ４５は、移動点ＭＰ₀₀に配置されている。レンズ４５の中心点４５ａは、移動点ＭＰ₀₀に配置されている。レンズ４５は、ｘ軸の正側および負側と、ｙ軸の正側および負側とを含む４個の方向に移動可能である。４個の方向の移動について行動価値が算出される。意思決定部２４は、それぞれの移動方向に対する行動価値に基づいて、移動点の移動方向を選定することができる。図８に示す例では、矢印９３に示すように、レンズ４５をｘ軸の正側に移動している。レンズ４５の中心点４５ａは、移動点ＭＰ₁₀に移動する。レンズ移動装置は、このようなレンズの移動を複数の駆動軸に基づいて実施することができる。

図９に、本実施の形態の機械学習の制御のフローチャートを示す。図２および図９を参照して、ステップ６０において、作業者は、レンズの品質情報３１を機械学習装置２の入力部２５に入力する。記憶部２６は、レンズの品質情報３１を記憶する。

ステップ６１において、意思決定部２４は、調芯を開始するレンズの位置および姿勢を設定する。図９に示す例では、調芯を開始する位置は予め定められている。意思決定部２４は、この位置を調芯の開始位置に設定する。

ステップ６２において、光測定器１３は、光の測定を行う。本実施の形態において、光測定器１３は、光の強度、モードパターン、および光の中心位置を測定する。制御器１１は、初期の位置における測定結果を受信する。判定データ取得部２２は、制御器１１から初期の位置における測定結果を取得する。

ステップ６３において、意思決定部２４は、現在の位置から移動する方向を設定する。意思決定部２４は、行動価値の大きい方向を選定することができる。それぞれの移動点からの移動方向に関する行動価値の初期値は、予め定められている。または、ε-greedy法に基づいて、移動方向を設定しても構わない。すなわち、確率εにてランダムに方向を選定しても構わない。意思決定部２４にて設定された移動方向は、制御器１１に送信される。

ステップ６４において、制御器１１は、意思決定部２４にて設定された移動方向に基づいてレンズ移動装置１２を駆動する。レンズ４５が微小距離または微小角度にて移動することにより、レンズ４５の位置および姿勢が変更される。回転位置検出器１７は、駆動モーター１６の出力シャフトの回転位置を検出する。動作制御部１４は、移動後の各軸の位置を取得する。

ステップ６５において、光測定器１３は、光の測定を行う。光測定器１３は、光の強度、モードパターン、および光の中心位置を測定する。制御器１１は、測定結果を受信する。

ステップ６６において、機械学習装置２の状態観測部２１は、状態データを取得する。状態観測部２１は、各軸における位置を取得する。また、状態観測部２１は、記憶部２６に記憶されたレンズの品質情報３１を記憶部２６から取得する。判定データ取得部２２は、判定データを取得する。判定データ取得部２２は、制御器１１から光の強度、モードパターン、および光の中心位置の測定結果を受信する。状態データおよび判定データは、記憶部２６に記憶される。

ステップ６７において、学習部２３の報酬計算部２８は、前回のレンズの位置および姿勢における光の強度よりも今回のレンズの位置および姿勢における光の強度が増加したか否かを判別する。ステップ６７において、光の強度が増加した場合には、制御はステップ６８に移行する。ステップ６８において、報酬計算部２８は、今回の移動に関する価値関数に含まれる報酬を増加する制御を行う。

ステップ６７において、光の強度が増加していない場合には、制御はステップ６９に移行する。ステップ６９において、報酬計算部２８は、今回の移動に関する価値関数に含まれる報酬を減少する制御を実施する。

次に、ステップ７０において、報酬計算部２８は、前回のレンズの位置および姿勢における光のモードパターンよりも今回のレンズの位置および姿勢における光のモードパターンが優れているか否かを判別する。すなわち、報酬計算部２８は、モードパターンが改善したか否かを判別する。例えば、光がシングルモードの場合には、報酬計算部２８は、光の強度分布の形状が強度の最大点に対して対称に近いか否かを判別することができる。報酬計算部２８は、強度分布の形状が対称な形状に近いほど、モードパターンが優れていると判別することができる。または、報酬計算部２８は、強度の分布の真円度が１に近いか否かを判別することができる。報酬計算部２８は、真円度が１に近いほどモードパターンが優れていると判別することができる。

ステップ７０において、前回のレンズの位置および姿勢における光のモードパターンよりも、今回のレンズの位置および姿勢における光のモードパターンが優れている場合には、制御はステップ７１に移行する。ステップ７１において、報酬計算部２８は、今回の移動に関する価値関数に含まれる報酬を増加する制御を行う。ステップ７０において、モードパターンが改善されていない場合には、制御はステップ７２に移行する。ステップ７２において、報酬計算部２８は、今回の行動に関する価値関数に含まれる報酬を減少する制御を行う。

次に、ステップ７３において、報酬計算部２８は、光の中心位置が改善しているか否かを判別する。光は、受光素子４３の光ファイバー４４の中心軸の位置に入射することが好ましい。このような光の中心位置の最適点は、予め設定されている。報酬計算部２８は、今回のレンズの位置および姿勢における光の強度の最大点が、前回のレンズの位置および姿勢における光の強度の最大点よりも、最適点に近いか否かを判定する。今回の光の強度の最大点が前回の光の強度の最大点よりも最適点に近い場合に、報酬計算部２８は、光の中心位置が改善されていると判別することができる。

ステップ７３において、光の中心位置が改善されている場合に、制御はステップ７４に移行する。ステップ７４において、報酬計算部２８は、今回の移動に関する価値関数に含まれる報酬を増加する制御を実施する。ステップ７３において、光の中心位置が改善されていない場合に、制御はステップ７５に移行する。ステップ７５において、報酬計算部２８は、今回の移動に関する価値関数に含まれる報酬を減少する制御を実施する。

ステップ６８，７１，７４において報酬の増加する場合には、任意の方法を採用することができる。例えば、判定基準が光強度の場合には、報酬計算部２８は、光強度の増加量が大きくなるほど報酬を大きく増加させる制御を実施することができる。または、報酬計算部２８は、予め定められた増加量にて報酬を増加する制御を実施しても構わない。

ステップ６９，７２，７５において報酬の減少する場合には、任意の方法を採用することができる。例えば、判定基準が光強度の場合には、報酬計算部２８は、光強度の減少量が大きいほど、報酬の減少量を大きくする制御を実施することができる。または、報酬計算部２８は、予め定められた減少量にて報酬を減少する制御を実施しても構わない。

このように、報酬計算部２８は、レンズの移動により光の状態が改善した場合には、報酬を増加する制御を実施する。また、報酬計算部２８は、レンズの移動により光の状態が悪化した場合には、報酬を減少する制御を実施する。なお、ステップ６７，７０，７３において、前回の光の状態が今回の光の状態と同じ場合には、報酬計算部は、報酬を減少する制御を行っているが、制御は、この形態に限られない。光の状態が変化しない場合に、報酬計算部は、報酬を現在の値に維持する制御を行っても構わない。

次に、ステップ７６においては、価値関数更新部２９は、報酬計算部２８にて設定された報酬に基づいて価値関数を更新する。

次に、ステップ７７において、機械学習装置２の意思決定部２４は、光の強度、モードパターン、および光の中心位置が予め定められた判定範囲内であるか否かを判別する。すなわち、意思決定部２４は、光の状態が所望の条件を満たしているか否かを判別する。ステップ７７において、光の強度、モードパターンおよび光の中心位置が判定範囲内である場合には、この制御を終了する。ステップ７７において、光の強度、モードパターンおよび光の中心位置のうち少なくとも１つが判定範囲から逸脱している場合には、制御はステップ６３に戻る。ステップ６３において、意思決定部２４は、現在の位置および姿勢から移動する方向を設定する。そして、機械学習装置２は、光の状態が判定範囲内になるまで、ステップ６３からステップ７７の制御を繰り返すことができる。

ところで、制御器１１の調整時間測定部１５は、調芯の開始から調芯の終了までの時間を検出することができる。判定データ取得部２２は、図９に示す制御が終了した後に、この調整時間を制御器１１から取得する。そして、報酬計算部２８は、調整時間に基づいて、それぞれの移動に関する価値関数の報酬を更新することができる。例えば、報酬計算部２８は、調整時間が長いほど報酬を減少させる制御を行うことができる。または、報酬計算部２８は、調整時間が短いほど報酬を増加させる制御を行うことができる。

次に、価値関数更新部２９は、今回のレンズの調芯を行った全ての移動経路における価値関数を更新する。また、価値関数更新部２９は、修正された価値関数に基づいて、それぞれの移動における行動価値を算出することができる。更新された行動価値に基づいて、次の光源ユニットのレンズの調芯を行うことができる。

このように、機械学習装置２は、レンズの位置および姿勢を調整する手順を学習することができる。そして、学習した結果に基づいてレンズの移動を行うことにより、短時間でレンズの調芯を行うことができる。第１のレンズ４５の位置および姿勢の調整が終了した後に、第１のレンズ４５は、接着剤８２にて固定部４１ａに固定される。

上記の実施の形態においては、レンズの調芯を開始する位置は予め定められているが、この形態に限られない。レンズの調芯を開始する位置についても機械学習により学習することができる。例えば、レンズの調芯を開始する位置についても強化学習により学習することができる。状態観測部２１は、レンズの品質情報と開始位置を取得することができる。判定データ取得部２２は、調整時間測定部１５から調芯に要した調整時間を取得することができる。そして、報酬計算部２８は、調整時間に基づいて報酬を設定することができる。例えば、報酬計算部２８は、調整時間が短いほど報酬を大きく増加させることができる。価値関数更新部２９は、設定された報酬に基づいて価値関数を更新することができる。意思決定部２４は、価値関数に基づいて算出された行動価値により、レンズの調芯を開始する位置を設定することができる。

または、レンズの調芯を開始する位置は、教師有り学習にて学習しても構わない。教師あり学習では、教師データ、すなわち、ある入力と結果(ラベル)のデータの組を大量に機械学習装置に与える。機械学習装置は、それらのデータセットにある特徴を学習し、入力から結果を推定するモデル(誤差モデル)、すなわち、その関係性を帰納的に獲得することができる。入力データとしては、部品の品質情報およびレンズの調芯の開始位置を入力することができる。機械学習装置は、出力データとして調芯時間を出力することができる。機械学習装置は、調芯時間が短くなるような開始位置を選定することができる。

図１０に、本実施の形態における第２のレンズの位置および姿勢を調整する時の側面図を示す。本実施の形態では、第１のレンズ４５の位置および姿勢の調整が終了した後に第２のレンズの位置および姿勢を調整する。光源ユニット製造装置１のステージ１８は、第２のレンズ４６を保持する。光測定器１３は、筐体４１の受光素子４３が配置される位置に対応した位置に配置される。例えば、光測定器１３は、発光素子４２の光軸８１が受光面と垂直になるように配置される。また、光測定器１３は、受光面のほぼ中央部に光軸８１が通るように配置される。

次に、前述の第１のレンズ４５の調芯と同様の方法により、第２のレンズ４６の位置および姿勢を調整することができる。第２のレンズ４６の位置および姿勢の調整が終了した後には、接着剤８２により、固定部４１ｂに第２のレンズ４６を固定することができる。

このように、第１のレンズ４５の調芯および第２のレンズ４６の調芯を実施することができる。本実施の形態では、第１のレンズ４５の調芯を実施した後に、第２のレンズの調芯を実施しているが、この形態に限られない。第１のレンズ４５の調芯と、第２のレンズの調芯とを同時に実施しても構わない。この場合に、光源ユニット製造装置は、第１のレンズを第１のステージにて保持し、第２のレンズを第２のステージにて保持することができる。光源ユニット製造装置は、第１のレンズまたは第２のレンズの一方を動かして光の状態を取得する制御を繰り返して実施することができる。このように、光源ユニット製造装置は、複数の光学部品の調芯を同時に行っても構わない。

図１１に、本実施の形態における第２の製造システムのブロック図を示す。第２の製造システムは、複数の機械学習装置２が、通信装置を介して互いに接続されている。図１１に示す例では、２つの機械学習装置２が通信装置を介して互いに接続されている。機械学習装置２は、他の機械学習装置と通信するための通信装置３０を備える。１つの機械学習装置は、他の機械学習装置から状態データおよび判定データを受信する。

複数の機械学習装置が互いに接続されることにより、機械学習装置は、多くの学習データを共有することができる。また、複数の機械学習装置において、価値関数を共有することができる。この結果、価値関数の更新が早くなり、最適な価値関数および行動価値を求める時間を短くすることができる。すなわち、機械学習装置の学習時間が短くなる。

また、遠方に配置された機械学習装置同士を接続することができる。例えば、遠く離れた場所に新しい工場を建設した場合に、光源ユニットの調芯の条件の設定を短時間にて行うことができる。または、同一の光源ユニットの製造ラインの増設を行う場合には、調芯の条件の設定を短時間で行うことができる。この結果、工場における光源ユニットの製造効率が向上する。

上記の実施の形態においては、機械学習装置２が光源ユニット製造装置１に接続されているが、この形態に限られず、光源ユニット製造装置は、機械学習装置の機能を有していても構わない。

図１２に、本実施の形態における第３の製造システムのブロック図を示す。第３の製造システムは、光源ユニット製造装置５を含む。光源ユニット製造装置５の制御器１１は、第１の製造システムの機械学習装置２の機能を有する機械学習部５１を含む。機械学習部５１は、状態観測部２１、判定データ取得部２２、学習部２３、および意思決定部２４を含む。

判定データ取得部２２は、光測定器１３から光の状態を取得することができる。また判定データ取得部２２は、調整時間測定部１５からレンズの調芯に要した時間を取得することができる。状態観測部２１は、レンズ移動装置１２の回転位置検出器１７の出力に基づいて、レンズの位置および姿勢を取得することができる。意思決定部２４は、動作制御部１４に、レンズの動作指令を送出することができる。

また、機械学習部５１は、入力部２５および記憶部２６を含む。レンズの品質情報３１は、入力部２５に入力され、記憶部２６に記憶される。状態観測部２１は、記憶部２６からレンズの品質情報３１を取得する。機械学習部５１のその他の構成および機能は、第１の製造システム８の機械学習装置２（図２参照）と同様である。

このように、光源ユニット製造装置の制御器が機械学習の機能を有することができる。この場合にも、複数台の光源ユニット製造装置の制御器同士が互いに接続されていても構わない。この構成により、複数台の光源ユニット製造装置は、価値関数および行動価値を共有することができて、学習時間を短くすることができる。

上記の実施の形態においては、入力部にレンズの品質情報が入力されるが、この形態に限られない。入力部には、光源ユニットの構成部品の品質情報を入力することができる。そして、状態観測部は、構成部品の品質情報を含む状態データを取得することができる。学習部は、この状態データに基づいて機械学習を実施することができる。

光源ユニットの構成部品には、光学部品が含まれる。光学部品としては、発光素子、受光素子、鏡、フィルタ、光ファイバー、およびスプリッタ等が含まれる。また、構成部品には、筐体が含まれる。例えば、発光素子の品質情報には、光の波長、光の強度、温度特性、および拡がり角度などの特性と、材料ロット、製造装置、作業者、製造プロセス、および製造年月日などの製造情報とが含まれる。発光素子の品質情報は、これらの項目のうち少なくとも一つを採用することができる。筐体の品質情報には、筐体の形状（筐体の形状の誤差）と、材料ロット、製造装置、作業者、製造プロセス、および製造年月日などの製造情報とが含まれる。筐体の品質情報は、これらの項目のうち少なくとも一つを採用することができる。構成部品の品質は、光学部品の調芯に影響を与える。状態観測部は、任意の構成部品の品質の情報を取得することができる。学習部は、取得した構成部品の品質に基づいて学習を実施することができる。

本実施の形態では、調芯を行う光学部品としてレンズを例に取り上げて説明したが、この形態に限られない。機械学習による位置および姿勢の調整は、光源ユニットに配置される任意の光学部品に適用することができる。

本実施の形態の光源ユニットは、２つのレンズ、１つの発光素子、および１つの受光素子を含むが、この形態に限られない。光源ユニットは、任意の数の光学部品を含むことができる。例えば、光源ユニットは、複数のレンズ同士の間に配置されたフィルタまたはミラーを含んだり、複数の発光素子から出射される光を１つの受光素子にて受光したりしても構わない。

上述のそれぞれの制御においては、機能および作用が変更されない範囲において適宜ステップの順序を変更することができる。

上記の実施の形態は、適宜組み合わせることができる。上述のそれぞれの図において、同一または相等する部分には同一の符号を付している。なお、上記の実施の形態は例示であり発明を限定するものではない。また、実施の形態においては、特許請求の範囲に示される実施の形態の変更が含まれている。

１，５光源ユニット製造装置
２機械学習装置
４光源ユニット
１１制御器
１２レンズ移動装置
１３光測定器
１５調整時間測定部
１７回転位置検出器
１８ステージ
２１状態観測部
２２判定データ取得部
２３学習部
２４意思決定部
２８報酬計算部
２９価値関数更新部
３１レンズの品質情報
４５，４６レンズ
５１機械学習部

Claims

光源ユニットの光学部品の調芯を実施する手順を学習する機械学習装置であって、
光学部品の位置および姿勢と光源ユニットの構成部品の品質情報とを含む状態データを取得する状態観測部と、
光学部品の位置および姿勢の調整時間と光測定器にて測定した光の状態とを含む判定データを取得する判定データ取得部と、
前記状態観測部にて取得した状態データおよび前記判定データ取得部にて取得した判定データに基づいて、光学部品の位置および姿勢を調整する手順を学習する学習部とを備え、
前記学習部は、前記判定データ取得部にて取得した前記調整時間および前記光の状態に基づいて報酬を計算する報酬計算部と、
前記報酬計算部にて設定された報酬に基づいて価値関数を更新する価値関数更新部と、
前記価値関数に基づいて、光学部品の移動方法を設定する意思決定部とを含む、機械学習装置。
前記光の状態は、光の強度、モードパターン、および光の中心位置のうち少なくとも一つを含む、請求項１に記載の機械学習装置。
前記構成部品は、レンズであり、
前記構成部品の品質情報は、材料の組成、レンズの形状、屈折率、焦点距離、表面に蒸着された光学薄膜の特性、材料ロット、製造装置、作業者、製造プロセス、および製造年月日のうち少なくとも一つを含む、請求項１または２に記載の機械学習装置。
他の機械学習装置と通信を行う通信装置を備え、
前記他の機械学習装置から状態データおよび判定データを受信し、
前記他の機械学習装置と前記価値関数を共有する、請求項１から３のいずれか一項に記載の機械学習装置。
発光素子から出射される光の状態を測定する光測定器と、
光学部品を保持して移動させる移動装置と、
移動装置を制御する制御器とを備え、
前記制御器は、光学部品の位置および姿勢と構成部品の品質情報とを含む状態データを取得する状態観測部と、
光学部品の位置および姿勢の調整時間と前記光測定器にて測定した光の状態とを含む判定データを取得する判定データ取得部と、
前記状態観測部にて取得した状態データおよび前記判定データ取得部にて取得した判定データに基づいて、光学部品の位置および姿勢を調整する手順を学習する学習部とを含み、
前記学習部は、前記判定データ取得部にて取得した前記調整時間および前記光の状態に基づいて報酬を計算する報酬計算部と、
前記報酬計算部にて設定された報酬に基づいて価値関数を更新する価値関数更新部と、
前記価値関数に基づいて、光学部品の移動方法を設定する意思決定部とを含む、光源ユニット製造装置。