JP7271809B2

JP7271809B2 - 学習済みモデル生成装置、学習済みモデル生成方法、及び認識装置

Info

Publication number: JP7271809B2
Application number: JP2023513902A
Authority: JP
Inventors: 南己淺谷
Original assignee: Kyocera Corp
Current assignee: Kyocera Corp
Priority date: 2021-05-28
Filing date: 2022-05-27
Publication date: 2023-05-11
Anticipated expiration: 2042-05-27
Also published as: JP2023099084A; JPWO2022250154A1; CN117396927A; WO2022250154A1; EP4350614A1

Description

関連出願へのクロスリファレンス

本出願は、日本国特許出願２０２１－９０６７６号（２０２１年５月２８日出願）の優先権を主張するものであり、当該出願の開示全体を、ここに参照のために取り込む。

本開示は、学習済みモデル生成装置、学習済みモデル生成方法、及び認識装置に関する。

従来、対象標本を合成した学習画像を用いた学習によって生成された識別関数に被識別画像を入力することによって被識別画像に対象が含まれるか識別する装置が知られている（例えば特許文献１参照）。

特開２０１６－７１５０２号公報

本開示の一実施形態に係る学習済みモデル生成装置は、入力情報に含まれる認識対象の認識結果を出力する学習済みモデルを生成する制御部を備える。前記制御部は、前記入力情報と同一又は関連する学習対象の情報を含む教師データを用いた第１の学習を実行することによって生成された少なくとも１つのベースモデルに結合された状態で、前記学習対象の情報のうち前記第１の学習で用いられた情報と異なる情報を含む教師データを用いた第２の学習を実行することによって生成された、前記入力情報を前記少なくとも１つのベースモデルに入力する前に変換可能なアダプタを取得する。前記制御部は、前記学習対象の情報のうち前記第１の学習で用いられた情報及び前記第２の学習で用いられた情報のいずれとも異なる情報を含む教師データを用いた第３の学習を実行することによってターゲットモデルを生成する。前記制御部は、前記アダプタと前記ターゲットモデルとを結合することによって前記学習済みモデルを生成する。

本開示の一実施形態に係る学習済みモデル生成方法は、入力情報に含まれる認識対象の認識結果を出力する学習済みモデルを生成する学習済みモデル生成装置によって実行される。前記学習済みモデル生成方法は、前記入力情報と同一又は関連する学習対象の情報を含む教師データを用いた第１の学習を実行することによって生成された少なくとも１つのベースモデルに結合された状態で、前記学習対象の情報のうち前記第１の学習で用いられた情報と異なる情報を含む教師データを用いた第２の学習を実行することによって生成された、前記入力情報を前記少なくとも１つのベースモデルに入力する前に変換可能なアダプタを取得することを含む。前記学習済みモデル生成方法は、前記学習対象の情報のうち前記第１の学習で用いられた情報及び前記第２の学習で用いられた情報のいずれとも異なる情報を含む教師データを用いた第３の学習を実行することによってターゲットモデルを生成することを含む。前記学習済みモデル生成方法は、前記アダプタと前記ターゲットモデルとを結合することによって前記学習済みモデルを生成することを含む。

本開示の一実施形態に係る認識装置は、入力情報に含まれる認識対象の認識結果を出力する学習済みモデルを備える。前記学習済みモデルは、前記入力情報と同一又は関連する学習対象の情報を含む教師データを用いた第１の学習を実行することによって生成された少なくとも１つのベースモデルに結合された状態で、前記学習対象の情報のうち前記第１の学習で用いられた情報と異なる情報を含む教師データを用いた第２の学習を実行することによって生成された、前記入力情報を前記少なくとも１つのベースモデルに入力する前に変換可能なアダプタを含む。前記学習済みモデルは、前記学習対象の情報のうち前記第１の学習で用いられた情報及び前記第２の学習で用いられた情報のいずれとも異なる情報を含む教師データを用いた第３の学習を実行することによって生成したターゲットモデルを含む。前記学習済みモデルは、前記アダプタと前記ターゲットモデルとを結合することによって構成されている。

一実施形態に係る学習済みモデル生成システムの構成例を示すブロック図である。イメージアダプタが結合される、汎用ライブラリと学習済みモデルとを示す模式図である。イメージアダプタの一例を示す図である。複数のベースモデルに結合されるイメージアダプタの生成と、イメージアダプタの学習済みモデルへの転移による学習済みモデルの生成とを示す模式図である。学習済みモデル生成方法の手順例を示すフローチャートである。ロボット制御システムの構成例を示す模式図である。

学習済みモデルを用いた認識における認識精度の向上が求められる。本開示の一実施形態に係る学習済みモデル生成装置、学習済みモデル生成方法、及び認識装置によれば、認識精度が向上され得る。

（学習済みモデル生成装置２０の構成例）
図１に示されるように、本開示の一実施形態に係る学習済みモデル生成装置２０は、制御部２２と、情報生成部２６とを備える。学習済みモデル生成装置２０は、学習済みモデル７０（図２参照）を生成する。

制御部２２は、情報生成部２６から学習に適用される対象に関する情報を取得する。学習に適用される対象は、学習対象とも称される。制御部２２は、情報生成部２６から取得した学習対象に関する情報を教師データとする学習を実行し、学習結果に基づく情報又はデータを出力する。例えば学習済みモデル７０が工業部品等の特定の物体を認識するモデルとして生成される場合、その学習済みモデル７０を生成するための学習対象は、認識する物体そのものを含んでもよいし、他の物体を含んでもよい。学習済みモデル７０が認識できる物体は、認識対象とも称される。

制御部２２は、種々の機能を実行するための制御及び処理能力を提供するために、少なくとも１つのプロセッサを含んで構成されてよい。プロセッサは、制御部２２の種々の機能を実現するプログラムを実行してよい。プロセッサは、単一の集積回路として実現されてよい。集積回路は、ＩＣ（Integrated Circuit）とも称される。プロセッサは、複数の通信可能に接続された集積回路及びディスクリート回路として実現されてよい。プロセッサは、他の種々の既知の技術に基づいて実現されてよい。

制御部２２は、記憶部を備えてよい。記憶部は、磁気ディスク等の電磁記憶媒体を含んでよいし、半導体メモリ又は磁気メモリ等のメモリを含んでもよい。記憶部は、各種情報を格納する。記憶部は、制御部２２で実行されるプログラム等を格納する。記憶部は、非一時的な読み取り可能媒体として構成されてもよい。記憶部は、制御部２２のワークメモリとして機能してよい。記憶部の少なくとも一部は、制御部２２とは別体として構成されてもよい。

情報生成部２６は、制御部２２における学習で用いられる教師データを制御部２２に出力する。情報生成部２６は、教師データを生成してもよいし、外部装置から教師データを取得してもよい。

情報生成部２６は、教師データを生成又は取得するための制御及び処理能力を提供するために、少なくとも１つのプロセッサを含んで構成されてよい。プロセッサは、教師データを生成又は取得するプログラムを実行してよい。情報生成部２６は、制御部２２と同一又は類似に構成されてもよい。情報生成部２６は、制御部２２と一体に構成されてもよい。

情報生成部２６は、教師データとして、学習対象の実際の態様を表す情報を生成してよい。学習対象の実際の態様を表す情報は、実情報とも称される。情報生成部２６は、学習対象の実際の画像を撮影するカメラを備えてもよい。情報生成部２６は、学習対象の実際の画像に対してラベル等の情報を付与するアノテーションを実行してもよい。情報生成部２６は、アノテーションに関する操作入力をユーザから受け付けてよい。情報生成部２６は、あらかじめ準備されたアノテーションに関する学習モデルに基づいてアノテーションを実行してもよい。情報生成部２６は、学習対象の実際の画像に対してアノテーションを実行することによって実情報を生成できる。

情報生成部２６は、教師データとして、学習済みモデル７０に入力する入力情報と同一又は関連するタスクの情報として学習対象に関する情報を仮想的に生成する。学習済みモデル７０を、画像に含まれる物体を認識して分類するタスクに利用することが想定されている場合、入力情報は物体が撮影された画像となる。入力情報と同一又は関連するタスクは、学習済みモデル７０による処理対象の入力情報を用いて実行されるタスク、又は入力情報と類似、関連する情報を用いて実行されるタスクに対応する。例えば、画像に含まれる所定の種類のネジと釘とを分類するタスクにおいて、入力情報と同一のタスクは、実際に学習済みモデル７０に分類させることとなるネジと釘とを分類するタスクに対応する。入力情報と関連するタスクは、所定の種類のネジ及び釘と類似する他の種類のネジ若しくは釘、又はこれらと類似する物体も含めた画像から、ネジ及び釘を分類するタスクに対応する。仮想的に生成された学習対象に関する情報は、疑似情報とも称される。疑似情報は、例えばネジ又は釘の実物を実際に撮影した画像情報ではなく、認識対象となるネジ又は釘を、ＣＧ（Computer Graphics）等で描画した画像であってよい。タスクは、例えば、入力情報に含まれる認識対象を少なくとも２種類に分類する分類タスクを含んでよい。タスクは、例えば、認識対象がネジであるか釘であるかを区別するタスク、又は、入力情報に基づいて少なくとも１種類の評価値を算出する評価タスクを含んでもよい。分類タスクは、例えば認識対象が犬であるか猫であるかを区別するタスクなどに細分化され得る。タスクは、分類タスクに限られず、他の種々の動作を実現するタスクを含んでよい。タスクは、特定の対象物に属する画素から判定するセグメンテーションを含んでよい。タスクは、内包する矩形領域を検出する物体検出を含んでよい。タスクは、対象物の姿勢推定を含んでよい。タスクは、ある特徴点を見つけるキーポイント検出を含んでよい。

ここで、入力情報と学習対象に関する情報とが両方とも分類タスクの情報である場合、入力情報と学習対象に関する情報との間の関係は、関連するタスクの情報になっているとする。さらに、入力情報と学習対象に関する情報とが両方とも、認識対象が犬であるか猫であるかを区別するタスクの情報である場合、入力情報と学習対象に関する情報との間の関係は、同一のタスクの情報になっているとする。入力情報と学習対象に関する情報との間の関係は、これらの例に限られず、種々の条件で定められ得る。

情報生成部２６は、疑似情報を生成するために、学習対象の外観を仮想的に表す情報を生成してよい。情報生成部２６は、学習対象の外観を仮想的に表す情報として、例えば学習対象の外観の三次元ＣＡＤ（Computer Aided Design）データ等のモデリングデータを生成してもよい。情報生成部２６は、学習対象の外観を仮想的に表す情報として、学習対象の画像を生成してもよい。情報生成部２６は、学習対象の外観を仮想的に表すモデリングデータ又は画像等に対してラベル等の情報を付与するアノテーションを実行してもよい。情報生成部２６は、生成した学習対象の外観を仮想的に表す情報にアノテーションを実行することによって疑似情報を生成できる。

情報生成部２６は、学習対象の外観を仮想的に表す情報を外部装置から取得してもよい。情報生成部２６は、モデリングデータに関する入力をユーザから受け付けてもよい。情報生成部２６は、学習対象の外観を仮想的に表す情報に対してアノテーションが実行されたデータを取得してもよい。情報生成部２６は、アノテーションに関する操作入力をユーザから受け付けてもよい。情報生成部２６は、あらかじめ準備されたアノテーションに関する学習モデルに基づいて、学習対象の外観を仮想的に表す情報に対してアノテーションを実行してもよい。

（学習済みモデル７０の例）
図２に示されるように、学習済みモデル生成装置２０は、入力情報に含まれる認識対象の認識結果を出力する学習済みモデル７０を生成する。学習済みモデル７０は、ターゲットモデル４０の入力側にイメージアダプタ５０を結合したモデルとして構成される。イメージアダプタ５０は、入力情報を入力可能に構成される。イメージアダプタ５０は、単にアダプタとも称される。

学習済みモデル生成装置２０は、学習済みモデル７０を生成するための準備として以下の動作を実行する。学習済みモデル生成装置２０は、疑似情報に基づいて学習することによってベースモデル３０を生成する。ベースモデル３０を生成するために実行される学習は、第１の学習とも称される。第１の学習で用いられる教師データは、入力情報と同一又は関連する学習対象の情報を含んでよい。なお、学習済みモデル生成装置２０は、ベースモデル３０の生成において、疑似情報の代わりに実情報を用いてもよいし、疑似情報と実情報とを併用してもよい。ベースモデル３０を生成するための学習に用いられる疑似情報は、第１疑似情報とも称される。学習済みモデル生成装置２０は、ベースモデル３０の入力側にイメージアダプタ５０を結合した状態で実情報に更に基づいて学習することによって、イメージアダプタ５０を生成する。イメージアダプタ５０を生成するために実行される学習は、第２の学習とも称される。第２の学習で用いられる教師データは、入力情報と同一又は関連する学習対象の情報を含んでおり、第１の学習で用いられた情報と異なる情報を含んでよい。イメージアダプタ５０を生成するための学習に用いられる実情報は、第１実情報とも称される。なお、第１疑似情報及び第１実情報として、後述する第２疑似情報及び第２実情報が用いられてもよい。

学習済みモデル生成装置２０は、イメージアダプタ５０を結合しない状態で疑似情報又は実情報に基づいて学習することによってターゲットモデル４０を生成する。ターゲットモデル４０を生成するために実行される学習は、第３の学習とも称される。第３の学習で用いられる教師データは、入力情報と同一又は関連する学習対象の情報を含んでおり、第１の学習で用いられた情報及び第２の学習で用いられた情報のいずれとも異なる情報を含んでよい。ターゲットモデル４０を生成するための学習に用いられる疑似情報は、第２疑似情報とも称される。ターゲットモデル４０を生成するための学習に用いられる実情報は、第２実情報とも称される。学習済みモデル生成装置２０は、ベースモデル３０に結合した状態で事前学習することによってあらかじめ生成したイメージアダプタ５０を転移し、新たに生成したターゲットモデル４０の入力側に結合することによって学習済みモデル７０を生成する。なお、学習済みモデル生成装置２０は、ターゲットモデル４０として、事前学習に用いたベースモデル３０を転移させてもよい。また、学習済みモデル生成装置２０は、イメージアダプタ５０とターゲットモデル４０とを結合させて、第２疑似情報、第２実情報を教師データとして、更に学習を行って学習済みモデル７０を生成してもよい。

学習済みモデル生成装置２０は、事前学習によってあらかじめイメージアダプタ５０を生成しておくことによって、疑似情報だけに基づく学習によってターゲットモデル４０を生成し、イメージアダプタ５０を結合するだけで学習済みモデル７０を生成できる。その結果、ターゲットモデル４０を生成する作業負荷が低減され得る。なお、事前学習において、実情報若しくは疑似情報、又はこれらを併せた情報が教師データとして用いられ得る。

ベースモデル３０及びターゲットモデル４０は、複数の層を有するＣＮＮ（Convolution Neural Network）として構成される。ベースモデル３０及びターゲットモデル４０に入力された情報に対して、ＣＮＮの各層において所定の重みづけ係数に基づく畳み込みが実行される。ベースモデル３０及びターゲットモデル４０の学習において、重みづけ係数が更新される。ベースモデル３０及びターゲットモデル４０は、ＶＧＧ１６又はＲｅｓＮｅｔ５０によって構成されてもよい。ベースモデル３０及びターゲットモデル４０は、これらの例に限られず、他の種々のモデルとして構成されてもよい。

ベースモデル３０は、第１ベースモデル３１と第２ベースモデル３２とを含むとする。ターゲットモデル４０は、第１ターゲットモデル４１と第２ターゲットモデル４２とを含むとする。第１ベースモデル３１及び第１ターゲットモデル４１は、バックボーンとも称される。第２ベースモデル３２及び第２ターゲットモデル４２は、ヘッドとも称される。ベースモデル３０及びターゲットモデル４０は、バックボーンとヘッドとを含む。なお、ターゲットモデル４０に含まれる学習済みモデルのそれぞれは、ベースモデル３０に含まれる学習済みモデルと異なっていてもよい。例えば、ターゲットモデル４０に含まれる学習済みモデルのそれぞれは、ベースモデル３０に含まれる学習済みモデルのそれぞれと、異なる学習処理が実行されていてもよい。より具体的には、互いに異なる情報を含む教師データによって学習処理が実行されていてもよい。なお、ターゲットモデル４０に含まれる学習前モデルは、ベースモデル３０に含まれる学習前モデルと、同一のモデルでもよい。

バックボーンは、入力情報の特徴量を抽出した結果を出力するように構成される。特徴量は、例えば学習対象の外観の特徴を数値として表す。ヘッドは、バックボーンの出力に基づいて入力情報についての所定の判断を行うように構成される。具体的に、ヘッドは、バックボーンが出力した入力情報の特徴量に基づいて、入力情報に含まれる認識対象の認識結果を出力してよい。つまり、ヘッドは、所定の判断として、認識対象の認識を実行するように構成される。例えば、馬とシマウマとを見分けるタスクにおいて、特徴量は、体表面における縞模様の面積の割合を表すパラメータであり得る。所定の判断は、体表面における縞模様の面積の割合を閾値と比較して認識対象が馬であるかシマウマであるか判断することであり得る。また、例えば、アワビとトコブシとを見分けるタスクにおいて、特徴量は、大きさ又は殻の穴の数を表すパラメータであり得る。所定の判断は、大きさ又は殻の穴の数を閾値と比較して認識対象がアワビであるかトコブシであるか判断することであり得る。

イメージアダプタ５０は、図３に例示されるように、複数の層を有するＣＮＮとして構成されてよい。イメージアダプタ５０は、ベースモデル３０又はターゲットモデル４０に入力される情報を、ベースモデル３０又はターゲットモデル４０に入力される前に変換可能に構成される。イメージアダプタ５０は、図３においてターゲットモデル４０の入力側に結合されているが、ベースモデル３０の入力側にも結合され得る。

図３の例において、“Conv”と記載されているブロックは、畳み込みを実行することを表す。畳み込みは、ダウンサンプリングとも称される。また、“Conv Trans”と記載されているブロックは、転置畳み込みを実行することを表す。転置畳み込みは、アップサンプリングとも称される。転置畳み込みは、逆畳み込みと称されることもある。“Conv 4x4”と記載されているブロックは、２次元データに対して畳み込みを実行するために用いられるフィルタのサイズが４×４であることを表す。フィルタは、カーネルとも称され、ブロックに入力された情報の畳み込み又は逆畳み込みを実行する際の重みづけ係数の組に対応する。“Conv Trans 4x4”と記載されているブロックは、２次元データに対して転置畳み込みを実行するために用いられるフィルタのサイズが４×４であることを表す。“stride 2”と記載されているブロックは、畳み込み又は転置畳み込みを実行する際にフィルタを２要素ずつシフトさせることを表す。逆に、“stride 2”が記載されていないブロックは、畳み込み又は転置畳み込みを実行する際にフィルタを１要素ずつシフトさせることを表す。

イメージアダプタ５０は、ベースモデル３０の入力側に結合された場合、学習のために入力される疑似情報又は実情報を変換してベースモデル３０に対して出力する。疑似情報又は実情報が画像である場合、イメージアダプタ５０は、入力される画像を変換してベースモデル３０に対して出力する。イメージアダプタ５０は、ターゲットモデル４０の入力側に結合された場合、学習済みモデル７０に入力される入力情報に含まれる認識対象の画像を変換して出力する。また、イメージアダプタ５０は、入力される画像の態様を変換して出力してもよい。イメージアダプタ５０は、入力される画像の態様を、例えば画像のエッジを強調したり、影となっている部分を明るくした態様に変換したりして出力してもよいがこれに限られない。イメージアダプタ５０は、接続されるターゲットモデル４０が、タスクを正しく処理できる態様に変換させる。例えば、タスクが画像に含まれる物体の認識である場合には、ベースモデル３０又はターゲットモデル４０が、認識対象を正しく認識した結果を出力できるように、態様を変換する。

（学習済みモデル生成装置２０の動作例）
学習済みモデル生成装置２０の制御部２２は、例えば図４に模式的に示される動作を実行することによって学習済みモデル７０を生成できる。以下、図４を参照して学習済みモデル生成装置２０の動作が説明される。

制御部２２は、第１ステップとして、少なくとも１つのベースモデル３０を生成する。具体的に、制御部２２は、情報生成部２６から教師データとして第１疑似情報を取得する。制御部２２は、第１疑似情報に基づいて学習することによって、ベースモデル３０を生成する。制御部２２は、学習中のベースモデル３０から出力される情報が第１疑似情報に含まれる学習対象を表す情報となる確率を高めるように、ベースモデル３０を更新する。制御部２２は、ベースモデル３０の重みづけ係数を更新することによってベースモデル３０を更新してよい。学習開始前の状態において、ベースモデル３０は、あらかじめ定められた初期状態とされてよい。つまり、ベースモデル３０の重みづけ係数は、あらかじめ定められた初期値とされてよい。制御部２２は、第１ステップとして説明した動作を実行することによって、第１疑似情報に基づく学習によってベースモデル３０を生成できる。ベースモデル３０を生成するための学習は、後述する第２ステップのイメージアダプタ５０を生成するための学習に先立って実行されることから、事前学習であるともいえる。なお、第１ステップにおいて、制御部２２が、情報生成部２６から教師データとして第１疑似情報を取得するものとして説明したが、これに限られない。教師データとしては、第１疑似情報だけでなく第１実情報が利用され得る。また、教師データとして、第２疑似情報又は第２実情報が利用されてもよい。

本実施形態において、制御部２２は、ｘ個のベースモデル３０を生成する。ｘ個のベースモデル３０は、１番目のベースモデル３０１からｘ番目のベースモデル３０ｘまでとして区別される。制御部２２は、各ベースモデル３０を生成するための学習に用いる第１疑似情報として互いに異なる情報を取得する。また、１番目のベースモデル３０１は、第１ベースモデル３１１と第２ベースモデル３２１とを含む。ｘ番目のベースモデル３０ｘは、第１ベースモデル３１ｘと第２ベースモデル３２ｘとを含む。

制御部２２は、第２ステップとして、イメージアダプタ５０を生成する。具体的に、制御部２２は、情報生成部２６から教師データとして実情報を更に取得してよい。制御部２２は、第１ステップで生成した学習済みのベースモデル３０にイメージアダプタ５０を結合した状態で、第１疑似情報及び実情報に基づいて学習し、イメージアダプタ５０を更新する。制御部２２は、イメージアダプタ５０の重みづけ係数を更新することによってイメージアダプタ５０を更新してよい。制御部２２は、各ベースモデル３０を生成するための学習に用いる実情報として互いに異なる情報を取得する。学習開始前の状態において、ベースモデル３０に結合されるイメージアダプタ５０は、あらかじめ定められた初期状態とされてよい。つまり、イメージアダプタ５０の重みづけ係数は、あらかじめ定められた初期値とされてよい。学習によって更新する対象とされている学習中のイメージアダプタ５０ａは、黒塗りの矩形で表されている。なお、第２ステップにおいて、制御部２２は、第１ステップで生成した学習済みのベースモデル３０にイメージアダプタ５０を結合した状態で、第１疑似情報及び実情報に基づいて学習し、イメージアダプタ５０を更新するものとして説明したが、これに限られない。制御部２２は、第１疑似情報及び実情報の一方のみに基づいて学習を行い、イメージアダプタ５０を更新してもよい。

制御部２２は、学習中のイメージアダプタ５０ａをｘ個のベースモデル３０の各々に結合した状態で、各ベースモデル３０に対応する第１疑似情報又は実情報に基づいて学習する。言い換えれば、制御部２２は、学習中のイメージアダプタ５０ａに第１疑似情報及び実情報をそれぞれ入力し、学習中のイメージアダプタ５０ａの出力をｘ個のベースモデル３０の各々に入力させて学習する。制御部２２は、学習によってイメージアダプタ５０を更新することによってイメージアダプタ５０を生成する。制御部２２は、イメージアダプタ５０を経由して第１疑似情報を入力した各ベースモデル３０から出力される情報と、イメージアダプタ５０を経由して実情報を入力した各ベースモデル３０から出力される情報とが近づくように、イメージアダプタ５０を更新する。制御部２２は、イメージアダプタ５０を経由して第１疑似情報を入力した各ベースモデル３０から出力される情報と、イメージアダプタ５０を経由して実情報を入力した各ベースモデル３０から出力される情報とが一致する確率を高めるようにイメージアダプタ５０を更新してもよい。制御部２２は、学習によって各ベースモデル３０をイメージアダプタ５０とともに更新してもよいし、イメージアダプタ５０のみを更新してもよい。

制御部２２は、１個のベースモデル３０に学習中のイメージアダプタ５０ａを結合した組み合わせ１つずつについて学習を実行してもよい。制御部２２は、１個のベースモデル３０に学習中のイメージアダプタ５０ａを結合した組み合わせを複数まとめて並列に学習を実行してもよい。

制御部２２は、第２ステップとして説明した動作を実行することによって、第１疑似情報及び実情報に基づく学習によってイメージアダプタ５０を生成できる。イメージアダプタ５０を生成するための学習は、後述する第３ステップのターゲットモデル４０を生成するための学習と独立に実行され得る。

制御部２２は、第３ステップとして、ターゲットモデル４０を生成する。具体的に、制御部２２は、情報生成部２６から教師データとして第２疑似情報を取得する。制御部２２は、第２疑似情報として、ベースモデル３０を生成するための学習に用いた第１疑似情報と同一又は関連するタスクの情報を取得する。制御部２２は、第２疑似情報に基づいて学習することによって、ターゲットモデル４０を生成する。制御部２２は、第２疑似情報をイメージアダプタ５０に入力して変換せずにターゲットモデル４０に入力する。制御部２２は、学習中のターゲットモデル４０から出力される情報が第２疑似情報に含まれる学習対象を表す情報となる確率を高めるように、ターゲットモデル４０を更新する。制御部２２は、ターゲットモデル４０の重みづけ係数を更新することによってターゲットモデル４０を更新してよい。学習開始前の状態において、ターゲットモデル４０は、あらかじめ定められた初期状態とされてよい。つまり、ターゲットモデル４０の重みづけ係数は、あらかじめ定められた初期値とされてよい。学習によって更新する対象とされているターゲットモデル４０は、学習中の第１ターゲットモデル４１ａと第２ターゲットモデル４２ａとを含み、黒塗りの矩形で表されている。制御部２２は、第３ステップとして説明した動作を実行することによって、第２疑似情報に基づく学習によってターゲットモデル４０を生成できる。なお、第３ステップにおいて、制御部２２は、情報生成部２６から教師データとして第２疑似情報を取得するものとして説明したが、これに限られない。教師データとして、第２疑似情報だけでなく第２実情報が利用されてもよい。また、第３ステップにおいて、制御部２２は、第２疑似情報を変換せずにターゲットモデル４０に入力して、ターゲットモデル４０を更新するものとしたが、これに限られない。制御部２２は、ターゲットモデル４０とイメージアダプタ５０とを結合させて、第２疑似情報若しくは第２実情報、又はこれらの両方を用いて学習することにより、ターゲットモデル４０とイメージアダプタ５０を更新してもよい。

制御部２２は、第４ステップとして、イメージアダプタ５０をターゲットモデル４０に結合することによって、学習済みモデル７０を生成する。具体的に、制御部２２は、第２ステップで生成した学習済みのイメージアダプタ５０ｂを、第３ステップで生成した学習済みの第１ターゲットモデル４１ｂと第２ターゲットモデル４２ｂとを含むターゲットモデル４０に結合する。つまり、制御部２２は、第２ステップで生成したイメージアダプタ５０を転移してターゲットモデル４０に結合する。なお、第４ステップでは、第３ステップで生成したターゲットモデル４０とイメージアダプタ５０とを結合するものとして説明したが、これに限られない。ターゲットモデル４０としては、第１ステップで生成したベースモデル３０を利用してもよい。この場合、第３ステップが実行されなくてもよい。

＜学習済みモデル生成方法＞
学習済みモデル生成装置２０の制御部２２は、以上述べてきた動作を、図５に例示されるフローチャートの手順を含む学習済みモデル生成方法として実行してよい。学習済みモデル生成方法は、制御部２２を構成するプロセッサに実行させる学習済みモデル生成プログラムとして実現されてもよい。学習済みモデル生成プログラムは、非一時的なコンピュータ読み取り可能な媒体に格納されてよい。

制御部２２は、複数のベースモデル３０を取得する（ステップＳ１）。制御部２２は、複数のベースモデル３０を第１疑似情報に基づく学習によって生成してもよいし、外部装置から取得してもよい。制御部２２は、イメージアダプタ５０を生成するための学習に用いる複数のベースモデル３０のみを取得する。

制御部２２は、複数のベースモデル３０から少なくとも１つのベースモデル３０を選択する（ステップＳ２）。制御部２２は、学習対象の情報を取得する（ステップＳ３）。具体的に、制御部２２は、選択したベースモデル３０を生成するための学習で用いられた疑似情報と同一又は関連するタスクの実情報を学習対象の情報として取得してよい。

制御部２２は、イメージアダプタ５０を選択したベースモデル３０に結合した状態で学習対象の情報に基づいて学習することによってイメージアダプタ５０を生成する（ステップＳ４）。具体的に、制御部２２は、学習対象の情報として実情報をイメージアダプタ５０に入力する。イメージアダプタ５０で実情報から変換された情報は、選択したベースモデル３０に入力される。制御部２２は、選択したベースモデル３０から出力される情報に基づいてイメージアダプタ５０を更新することによってイメージアダプタ５０を生成する。

制御部２２は、全ベースモデル３０が選択済みとなったか判定する（ステップＳ５）。制御部２２は、全ベースモデル３０が選択済みとなっていない場合（ステップＳ５：ＮＯ）、つまり少なくとも１つのベースモデル３０が未選択である場合、ステップＳ２の手順に戻って未選択のベースモデル３０を選択する。

制御部２２は、全ベースモデル３０が選択済みとなった場合（ステップＳ５：ＹＥＳ）、認識対象の情報を取得する（ステップＳ６）。具体的に、制御部２２は、選択したベースモデル３０を生成するための学習で用いられた第１疑似情報と同一又は関連するタスクの第２疑似情報を認識対象の情報として取得してよい。

制御部２２は、認識対象の情報に基づいて学習することによってターゲットモデル４０を生成する（ステップＳ７）。制御部２２は、イメージアダプタ５０とターゲットモデル４０とを結合する（ステップＳ８）。制御部２２は、以上の手順を実行することによって、イメージアダプタ５０とターゲットモデル４０とを結合した学習済みモデル７０を生成できる。制御部２２は、ステップＳ８の手順の実行後、図５のフローチャートの手順の実行を終了する。制御部２２は、ステップＳ８の手順の実行後、生成した学習済みモデル７０に入力情報を入力し、入力情報に含まれる認識対象の認識精度を学習済みモデル７０の出力に基づいて評価してもよい。制御部２２は、ステップＳ８の手順の実行後、生成した学習済みモデル７０を後述するロボット制御装置１１０（図６参照）に出力してもよい。

＜小括＞
以上述べてきたように、本実施形態に係る学習済みモデル生成装置２０は、ベースモデル３０に結合した状態における学習によって生成したイメージアダプタ５０を、別の学習によって新たに生成したターゲットモデル４０に結合することによって、学習済みモデル７０を生成できる。学習済みモデル生成装置２０は、実情報又は疑似情報に基づいて学習することによって、イメージアダプタ５０を生成する。学習済みモデル生成装置２０は、疑似情報だけに基づいて学習することによってターゲットモデル４０を生成する。実情報又は疑似情報に基づく学習によって生成されたイメージアダプタ５０を結合した学習済みモデル７０による認識精度は、ターゲットモデル４０だけの場合に比べて認識精度が向上する。したがって、あらかじめ実情報又は疑似情報に基づく学習によってイメージアダプタ５０を生成しておけば、ターゲットモデル４０にイメージアダプタ５０を結合させることで、高い認識精度が期待される。

また、学習済みモデル生成装置２０は、ターゲットモデル４０を新規に生成した場合でもイメージアダプタ５０を結合して学習済みモデル７０を生成することによって、認識精度を高めることができる。言い換えれば、ターゲットモデル４０にベースモデル３０を転移しなくても、学習済みモデル７０の認識精度を高めることができる。

ここで、ベースモデル３０の少なくとも一部を転移してターゲットモデル４０を生成する場合、ベースモデル３０を転移する動作そのものが学習済みモデル７０の生成の制約となり得る。例えば、ベースモデル３０の少なくとも一部を転移することによって、サービスのエンドユーザが所望の認識対象に合わせてターゲットモデル４０を生成する場合に、ターゲットモデル４０が所望の認識対象に合いにくくなることがある。これに対して、本実施形態に係る学習済みモデル生成装置２０は、ターゲットモデル４０にベースモデル３０を転移しなくてもよいことによって、ターゲットモデル４０をエンドユーザが所望するモデルに合わせやすくできる。

複数のベースモデル３０の各々に結合された状態で学習することによって生成されるイメージアダプタ５０は、サービス提供者が事前に学習することによって生成することから、上流タスクとも称される。一方で、上流タスクからイメージアダプタ５０を転移して新たに生成したターゲットモデル４０に結合することによって生成される学習済みモデル７０は、サービスのエンドユーザが所望の認識対象に合わせて生成することから、下流タスクとも称される。

下流タスクにおいて、データ取得の手間が少なく、又は、短い学習時間で学習済みモデル７０を生成して早くシステムを稼働させることが求められる。一方で、上流タスクにおいて、転移学習が高速かつ汎化性能が高い高品質なメタモデルを提供するために、事前に多くのデータと計算リソースをかけることができる。本実施形態に係る学習済みモデル生成装置２０は、多くのデータと計算リソースをかけて上流タスクを生成することによって、少ない負荷で下流タスクを生成できる結果、システムを早期に稼働できる。

下流タスクで実情報に基づいて学習しない場合、Sim-to-Realと呼ばれるドメインギャップが問題になり得る。本実施形態に係る学習済みモデル生成装置２０は、ドメイン適応のためのイメージアダプタ５０を上流タスクから下流タスクに転移することによって、実情報に基づいて学習していない下流タスクにおいても実情報に対する認識精度を高めることができる。具体的に、上流タスクにおいてイメージアダプタ５０は、疑似情報に対する認識精度を高めるように生成された複数のベースモデル３０の各々の、実情報に対する認識精度を高めるように生成される。イメージアダプタ５０は、複数のベースモデル３０の各々の認識精度を高めるように生成されることによって、下流タスクで新たに生成されるターゲットモデル４０の認識精度も高めることができる。イメージアダプタ５０が複数のベースモデル３０の各々の認識精度を高めるように生成されることは、イメージアダプタ５０の一般化、又は、Generalized Image Adaptor（ＧＩＡ）とも称される。ＧＩＡによって、複数のベースモデル３０でパフォーマンスが高くなる共通の特徴を強調しつつノイズ源となる特徴を抑制するような、タスクに根本的に有効な画質改善が獲得され得る。この画質改善によって、Sim-to-Real問題に対する改善のみならず、様々なベースモデルによる認識精度の向上が期待できる。

本実施形態において、学習済みモデル生成装置２０は、上流タスクにおいてイメージアダプタ５０を生成し、上流タスクで生成したイメージアダプタ５０を下流タスクに転移してよい。学習済みモデル生成装置２０は、下流タスクだけで第２実情報又は第２疑似情報に基づく学習によってイメージアダプタ５０を生成してもよい。

＜認識精度の比較＞
疑似情報である生成画像のみに基づく学習によって生成したモデルで実画像を含む入力情報から認識対象を認識する場合、生成画像と実画像との差異に起因して、認識精度は低下する。具体的に、生成画像に対して１００％に近い確率で認識対象を認識できるモデルにおいて、実画像に対して認識対象を認識できる確率は７０％程度に低下し得る。

本実施形態に係る学習済みモデル７０は、複数のベースモデル３０の各々に結合した状態で学習することによって生成したイメージアダプタ５０を、ターゲットモデル４０に結合したモデルとして生成される。イメージアダプタ５０は、生成画像と実画像との差異に起因する認識結果の誤差を修正できる。その結果、実画像に対して認識対象を認識できる確率が８０％程度にまで高められ得る。つまり、イメージアダプタ５０を結合した場合、イメージアダプタ５０を結合しない場合と比較して、認識対象を認識できる確率が高められ得る。また、本実施形態に係る学習済みモデル７０は、ベースモデル３０を転移せずに生成される。つまり、ベースモデル３０を転移しなくても実画像に対して認識対象を認識できる確率が高められ得る。ベースモデル３０を転移しなくてもよいことによって、ターゲットモデル４０は、エンドユーザが所望するモデルに合いやすくなる。

（ロボット制御システム１００の構成例）
図６に示されるように、一実施形態に係るロボット制御システム１００は、ロボット２と、ロボット制御装置１１０とを備える。本実施形態において、ロボット２は、作業対象物８を作業開始地点６から作業目標地点７へ移動させるとする。つまり、ロボット制御装置１１０は、作業対象物８が作業開始地点６から作業目標地点７へ移動するようにロボット２を制御する。作業対象物８は、作業対象とも称される。ロボット制御装置１１０は、ロボット２が作業を実施する空間に関する情報に基づいて、ロボット２を制御する。空間に関する情報は、空間情報とも称される。

＜ロボット２＞
ロボット２は、アーム２Ａと、エンドエフェクタ２Ｂとを備える。アーム２Ａは、例えば、６軸又は７軸の垂直多関節ロボットとして構成されてよい。アーム２Ａは、３軸又は４軸の水平多関節ロボット又はスカラロボットとして構成されてもよい。アーム２Ａは、２軸又は３軸の直交ロボットとして構成されてもよい。アーム２Ａは、パラレルリンクロボット等として構成されてもよい。アーム２Ａを構成する軸の数は、例示したものに限られない。言い換えれば、ロボット２は、複数の関節で接続されるアーム２Ａを有し、関節の駆動によって動作する。

エンドエフェクタ２Ｂは、例えば、作業対象物８を把持できるように構成される把持ハンドを含んでよい。把持ハンドは、複数の指を有してよい。把持ハンドの指の数は、２つ以上であってよい。把持ハンドの指は、１つ以上の関節を有してよい。エンドエフェクタ２Ｂは、作業対象物８を吸着できるように構成される吸着ハンドを含んでもよい。エンドエフェクタ２Ｂは、作業対象物８を掬うことができるように構成される掬いハンドを含んでもよい。エンドエフェクタ２Ｂは、ドリル等の工具を含み、作業対象物８に穴を開ける作業等の種々の加工を実施できるように構成されてもよい。エンドエフェクタ２Ｂは、これらの例に限られず、他の種々の動作ができるように構成されてよい。図１に例示される構成において、エンドエフェクタ２Ｂは、把持ハンドを含むとする。

ロボット２は、アーム２Ａを動作させることによって、エンドエフェクタ２Ｂの位置を制御できる。エンドエフェクタ２Ｂは、作業対象物８に対して作用する方向の基準となる軸を有してもよい。エンドエフェクタ２Ｂが軸を有する場合、ロボット２は、アーム２Ａを動作させることによって、エンドエフェクタ２Ｂの軸の方向を制御できる。ロボット２は、エンドエフェクタ２Ｂが作業対象物８に作用する動作の開始及び終了を制御する。ロボット２は、エンドエフェクタ２Ｂの位置、又は、エンドエフェクタ２Ｂの軸の方向を制御しつつ、エンドエフェクタ２Ｂの動作を制御することによって、作業対象物８を動かしたり加工したりすることができる。図１に例示される構成において、ロボット２は、作業開始地点６でエンドエフェクタ２Ｂに作業対象物８を把持させ、エンドエフェクタ２Ｂを作業目標地点７へ移動させる。ロボット２は、作業目標地点７でエンドエフェクタ２Ｂに作業対象物８を解放させる。このようにすることで、ロボット２は、作業対象物８を作業開始地点６から作業目標地点７へ移動させることができる。

＜センサ３＞
図２に示されるように、ロボット制御システム１００は、更にセンサ３を備える。センサ３は、ロボット２の物理情報を検出する。ロボット２の物理情報は、ロボット２の各構成部の現実の位置若しくは姿勢、又は、ロボット２の各構成部の速度若しくは加速度に関する情報を含んでよい。ロボット２の物理情報は、ロボット２の各構成部に作用する力に関する情報を含んでよい。ロボット２の物理情報は、ロボット２の各構成部を駆動するモータに流れる電流又はモータのトルクに関する情報を含んでよい。ロボット２の物理情報は、ロボット２の実際の動作の結果を表す。つまり、ロボット制御システム１００は、ロボット２の物理情報を取得することによって、ロボット２の実際の動作の結果を把握することができる。

センサ３は、ロボット２の物理情報として、ロボット２に作用する力、分布圧、若しくはすべり等を検出する力覚センサ又は触覚センサを含んでよい。センサ３は、ロボット２の物理情報として、ロボット２の位置若しくは姿勢、又は、速度若しくは加速度を検出するモーションセンサを含んでよい。センサ３は、ロボット２の物理情報として、ロボット２を駆動するモータに流れる電流を検出する電流センサを含んでよい。センサ３は、ロボット２の物理情報として、ロボット２を駆動するモータのトルクを検出するトルクセンサを含んでよい。

センサ３は、ロボット２の関節、又は、関節を駆動する関節駆動部に設置されてよい。センサ３は、ロボット２のアーム２Ａ又はエンドエフェクタ２Ｂに設置されてもよい。

センサ３は、検出したロボット２の物理情報をロボット制御装置１１０に出力する。センサ３は、所定のタイミングでロボット２の物理情報を検出して出力する。センサ３は、ロボット２の物理情報を時系列データとして出力する。

＜カメラ４＞
図１に示される構成例において、ロボット制御システム１００は、２台のカメラ４を備えるとする。カメラ４は、ロボット２の動作に影響を及ぼす可能性がある影響範囲５に位置する物品又は人間等を撮影する。カメラ４が撮影する画像は、モノクロの輝度情報を含んでもよいし、ＲＧＢ（Red, Green and Blue）等で表される各色の輝度情報を含んでもよい。影響範囲５は、ロボット２の動作範囲を含む。影響範囲５は、ロボット２の動作範囲を更に外側に広げた範囲であるとする。影響範囲５は、ロボット２の動作範囲の外側から動作範囲の内側へ向かって移動する人間等がロボット２の動作範囲の内側に入るまでにロボット２を停止できるように設定されてよい。影響範囲５は、例えば、ロボット２の動作範囲の境界から所定距離だけ外側まで拡張された範囲に設定されてもよい。カメラ４は、ロボット２の影響範囲５若しくは動作範囲又はこれらの周辺の領域を俯瞰的に撮影できるように設置されてもよい。カメラ４の数は、２つに限られず、１つであってもよいし、３つ以上であってもよい。

＜ロボット制御装置１１０＞
ロボット制御装置１１０は、学習済みモデル生成装置２０で生成された学習済みモデル７０を取得する。ロボット制御装置１１０は、カメラ４で撮影した画像と学習済みモデル７０とに基づいて、ロボット２が作業を実施する空間に存在する、作業対象物８、又は作業開始地点６若しくは作業目標地点７等を認識する。言い換えれば、ロボット制御装置１１０は、カメラ４で撮影した画像に基づいて作業対象物８等を認識するために生成された学習済みモデル７０を取得する。ロボット制御装置１１０は、認識装置とも称される。

ロボット制御装置１１０は、種々の機能を実行するための制御及び処理能力を提供するために、少なくとも１つのプロセッサを含んで構成されてよい。ロボット制御装置１１０の各構成部は、少なくとも１つのプロセッサを含んで構成されてもよい。ロボット制御装置１１０の各構成部のうち複数の構成部が１つのプロセッサで実現されてもよい。ロボット制御装置１１０の全体が１つのプロセッサで実現されてもよい。プロセッサは、ロボット制御装置１１０の種々の機能を実現するプログラムを実行しうる。プロセッサは、単一の集積回路として実現されてよい。集積回路は、ＩＣ（Integrated Circuit）とも称される。プロセッサは、複数の通信可能に接続された集積回路及びディスクリート回路として実現されてよい。プロセッサは、他の種々の既知の技術に基づいて実現されてよい。

ロボット制御装置１１０は、記憶部を備えてよい。記憶部は、磁気ディスク等の電磁記憶媒体を含んでよいし、半導体メモリ又は磁気メモリ等のメモリを含んでもよい。記憶部は、各種情報及びロボット制御装置１１０で実行されるプログラム等を格納する。記憶部は、非一時的な読み取り可能媒体として構成されてもよい。記憶部は、ロボット制御装置１１０のワークメモリとして機能してよい。記憶部の少なくとも一部は、ロボット制御装置１１０とは別体として構成されてもよい。

（ロボット制御システム１００の動作例）
ロボット制御装置１１０（認識装置）は、学習済みモデル７０をあらかじめ取得する。ロボット制御装置１１０は、学習済みモデル７０を記憶部に格納してよい。ロボット制御装置１１０は、カメラ４から作業対象物８を撮影した画像を取得する。ロボット制御装置１１０は、作業対象物８を撮影した画像を入力情報として学習済みモデル７０に入力する。ロボット制御装置１１０は、学習済みモデル７０から入力情報の入力に応じて出力される出力情報を取得する。ロボット制御装置１１０は、出力情報に基づいて作業対象物８を認識し、作業対象物８を把持したり移動したりする作業を実行する。

＜小括＞
以上述べてきたように、ロボット制御システム１００は、学習済みモデル生成装置２０から学習済みモデル７０を取得し、学習済みモデル７０によって作業対象物８を認識できる。

（他の実施形態）
以下、他の実施形態が説明される。

＜損失関数＞
学習済みモデル生成装置２０は、生成した学習済みモデル７０に対して入力情報を入力した場合における出力が教師データを入力した場合における出力に近づくように損失関数を設定してよい。本実施形態において、損失関数として交差エントロピーが用いられ得る。交差エントロピーは、２つの確率分布の間の関係を表す値として算出される。具体的に、本実施形態において、交差エントロピーは、入力する疑似情報又は実情報と、バックボーン、ヘッド又はアダプタとの間の関係を表す値として算出される。

学習済みモデル生成装置２０は、損失関数の値が小さくなるように学習する。損失関数の値が小さくなるように学習することによって生成した学習済みモデル７０において、入力情報の入力に応じた出力が教師データの入力に応じた出力に近づき得る。

学習済みモデル生成装置２０の制御部２２は、イメージアダプタ５０がベースモデル３０に結合した状態で入力情報と同一又は関連するタスクの損失関数を最適化するように学習することによって、イメージアダプタ５０を生成してよい。損失関数の最適化は、例えば損失関数の値の最小化であってよい。入力情報と同一又は関連するタスクの損失関数は、ベースモデル３０の損失関数を含む。一方で、制御部２２は、イメージアダプタ５０がベースモデル３０に結合した状態で入力情報と同一又は関連するタスク以外の損失関数を最適化するように学習することによって、イメージアダプタ５０を生成してもよい。入力情報と同一又は関連するタスク以外の損失関数は、ベースモデル３０の損失関数以外の他の種々の有意な損失関数を含む。ベースモデル３０の損失関数以外の損失関数として、例えば、Discrimination Loss、又は、Contrastive Lossが利用され得る。Discrimination Lossは、生成画像についての真贋を、完全に真であることを表す１から完全に贋であることを表す０までの間の数値でラベル付けして学習するために用いられる損失関数である。制御部２２は、Discrimination Lossを損失関数とする学習において、イメージアダプタ５０に入力情報として画像が入力された場合にイメージアダプタ５０が出力する画像を、正解をラベルとして学習する。このようにすることで、制御部２２は、疑似情報に基づく学習によって生成されたベースモデル３０にとって、実情報としての画像とイメージアダプタ５０が出力する画像との区別がつかないようにイメージアダプタ５０を生成できる。

＜複数のベースモデル３０の各々を学習に適用する態様＞
学習済みモデル生成装置２０の制御部２２は、複数のベースモデル３０の各々にイメージアダプタ５０を結合した状態で学習することによって、イメージアダプタ５０を生成する。つまり、制御部２２は、複数のベースモデル３０の各々を、イメージアダプタ５０を生成するための事前学習に適用する。

複数のベースモデル３０が１番目のベースモデル３０１からｘ番目のベースモデル３０ｘまでを含む場合、制御部２２は、各ベースモデル３０を１つずつ順番にイメージアダプタ５０に結合した組み合わせを生成し、各組み合わせの各々について学習してイメージアダプタ５０を更新することによってイメージアダプタ５０を生成してよい。つまり、制御部２２は、複数のベースモデル３０の各々を１つずつ順番に、イメージアダプタ５０を生成するための事前学習に適用してよい。

制御部２２は、ベースモデル３０を事前学習に適用する順番を、ランダムに決定してもよいし所定ルールに基づいて決定してもよい。制御部２２は、複数の組み合わせの各々を適用した複数の事前学習を並列に実行してもよい。つまり、制御部２２は、複数のベースモデル３０を並列に事前学習に適用してもよい。

制御部２２は、複数のベースモデル３０を複数のグループに分類し、各グループを順番にイメージアダプタ５０を生成するための事前学習に適用してもよい。制御部２２は、１つのグループに複数のベースモデル３０を分類してもよい。この場合、制御部２２は、グループに分類した複数のベースモデル３０を並列に事前学習に適用してもよいし、複数のベースモデル３０の各々を１つずつ順番に事前学習に適用してもよい。制御部２２は、各グループに１つのベースモデル３０を分類してもよい。制御部２２は、各グループを事前学習に適用する順番を、ランダムに決定してもよいし所定ルールに基づいて決定してもよい。

以上、学習済みモデル生成システム１及びロボット制御システム１００の実施形態を説明してきたが、本開示の実施形態としては、システム又は装置を実施するための方法又はプログラムの他、プログラムが記録された記憶媒体（一例として、光ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＣＤ－ＲＷ、磁気テープ、ハードディスク、又はメモリカード等）としての実施態様をとることも可能である。

また、プログラムの実装形態としては、コンパイラによってコンパイルされるオブジェクトコード、インタプリタにより実行されるプログラムコード等のアプリケーションプログラムに限定されることはなく、オペレーティングシステムに組み込まれるプログラムモジュール等の形態であっても良い。さらに、プログラムは、制御基板上のＣＰＵにおいてのみ全ての処理が実施されるように構成されてもされなくてもよい。プログラムは、必要に応じて基板に付加された拡張ボード又は拡張ユニットに実装された別の処理ユニットによってその一部又は全部が実施されるように構成されてもよい。

本開示に係る実施形態について、諸図面及び実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形又は改変を行うことが可能であることに注意されたい。従って、これらの変形又は改変は本開示の範囲に含まれることに留意されたい。例えば、各構成部等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の構成部等を１つに組み合わせたり、或いは分割したりすることが可能である。

本開示に記載された構成要件の全て、及び／又は、開示された全ての方法、又は、処理の全てのステップについては、これらの特徴が相互に排他的である組合せを除き、任意の組合せで組み合わせることができる。また、本開示に記載された特徴の各々は、明示的に否定されない限り、同一の目的、同等の目的、又は類似する目的のために働く代替の特徴に置換することができる。したがって、明示的に否定されない限り、開示された特徴の各々は、包括的な一連の同一、又は、均等となる特徴の一例にすぎない。

さらに、本開示に係る実施形態は、上述した実施形態のいずれの具体的構成にも制限されるものではない。本開示に係る実施形態は、本開示に記載された全ての新規な特徴、又は、それらの組合せ、あるいは記載された全ての新規な方法、又は、処理のステップ、又は、それらの組合せに拡張することができる。

本開示において「第１」及び「第２」等の記載は、当該構成を区別するための識別子である。本開示における「第１」及び「第２」等の記載で区別された構成は、当該構成における番号を交換することができる。例えば、第１疑似情報は、第２疑似情報と識別子である「第１」と「第２」とを交換することができる。識別子の交換は同時に行われる。識別子の交換後も当該構成は区別される。識別子は削除してよい。識別子を削除した構成は、符号で区別される。本開示における「第１」及び「第２」等の識別子の記載のみに基づいて、当該構成の順序の解釈、小さい番号の識別子が存在することの根拠に利用してはならない。

２０学習済みモデル生成装置（２２：制御部、２６：情報生成部）
３０ベースモデル（３１：第１ベースモデル（３１ａ：学習中、３１ｂ：学習済み）、３２：第２ベースモデル（３２ａ：学習中、３２ｂ：学習済み）、３０１～３０ｘ：１番目～ｘ番目のベースモデル、３１１～３１ｘ：１番目～ｘ番目の第１ベースモデル、３２１～３２ｘ：１番目～ｘ番目の第２ベースモデル）
４０ターゲットモデル（４１：第１ターゲットモデル（４１ａ：学習中、４１ｂ：学習済み）、４２：第２ターゲットモデル（４２ａ：学習中、４２ｂ：学習済み））
５０アダプタ（５０ａ：学習中、５０ｂ：学習済み）
７０学習済みモデル
１００ロボット制御システム（２：ロボット、２Ａ：アーム、２Ｂ：エンドエフェクタ、３：センサ、４：カメラ、５：ロボットの影響範囲、６：作業開始台、７：作業目標台、８：作業対象物、１１０：ロボット制御装置（認識装置）

Claims

入力情報に含まれる認識対象の認識結果を出力する学習済みモデルを生成する制御部を備え、
前記制御部は、
前記入力情報と同一又は関連する学習対象の情報を含む教師データを用いた第１の学習を実行することによって生成された少なくとも１つのベースモデルに結合された状態で、前記学習対象の情報のうち前記第１の学習で用いられた情報と異なる情報を含む教師データを用いた第２の学習を実行することによって生成された、前記入力情報を前記少なくとも１つのベースモデルに入力する前に変換可能なアダプタを取得し、
前記学習対象の情報のうち前記第１の学習で用いられた情報及び前記第２の学習で用いられた情報のいずれとも異なる情報を含む教師データを用いた第３の学習を実行することによってターゲットモデルを生成し、
前記アダプタと前記ターゲットモデルとを結合することによって前記学習済みモデルを生成する、学習済みモデル生成装置。
前記ベースモデルは、前記入力情報と同一又は関連するタスクの情報として仮想的に生成された学習対象の第１疑似情報を教師データとして事前学習されたモデルであり、
前記制御部は、
前記学習対象の実際の態様を表す第１実情報及び前記第１疑似情報の少なくとも一方を更に教師データとして、前記ベースモデルに結合させた前記アダプタを学習させ、
前記認識対象を表すデータとして仮想的に生成された第２疑似情報、又は、前記認識対象の実際の態様を表す第２実情報を教師データとして学習して前記ターゲットモデルを生成する、請求項１に記載の学習済みモデル生成装置。
前記第１疑似情報、前記第２疑似情報、前記第１実情報、及び前記第２実情報は画像を含み、
前記アダプタは、入力される画像の態様を変換して出力する、請求項２に記載の学習済みモデル生成装置。
前記ベースモデルは、前記入力情報と同一又は関連するタスクの情報として仮想的に生成された学習対象の第１疑似情報のみを教師データとして事前学習されたモデルであり、
前記制御部は、前記認識対象を表すデータとして仮想的に生成された第２疑似情報のみを教師データとして学習して前記ターゲットモデルを生成する、請求項２に記載の学習済みモデル生成装置。
複数の前記ベースモデルが事前学習によって生成され、
前記アダプタは、前記複数のベースモデルそれぞれに前記入力情報を入力可能に構成され、
前記制御部は、前記アダプタの出力を前記複数のベースモデルの各々に入力させて学習させることによって、少なくとも前記アダプタを生成する、請求項１から４までのいずれか一項に記載の学習済みモデル生成装置。
前記制御部は、前記アダプタの出力を前記複数のベースモデルの各々に入力させて学習させることによって、前記アダプタのみを生成又は更新する、請求項５に記載の学習済みモデル生成装置。
前記制御部は、前記アダプタを生成するために、前記複数のベースモデルを複数のグループに分類して前記各グループを順番に、前記アダプタを生成するための事前学習に適用する、請求項５に記載の学習済みモデル生成装置。
前記制御部は、前記各グループに１つの前記ベースモデルを分類する、請求項７に記載の学習済みモデル生成装置。
前記制御部は、前記アダプタを生成するための事前学習に前記各グループを適用する順番をランダムに決定する、請求項７に記載の学習済みモデル生成装置。
前記制御部は、前記認識対象を表すデータとして仮想的に生成された第２疑似情報とに基づいて学習することによって、前記アダプタに結合されるターゲットモデルを生成する、請求項１から４までのいずれか一項に記載の学習済みモデル生成装置。
前記制御部は、前記アダプタを前記ターゲットモデルに結合した状態で学習することによって前記アダプタを生成する、請求項１から４までのいずれか一項に記載の学習済みモデル生成装置。
前記制御部は、前記入力情報と同一又は関連するタスクの損失関数を最適化するように、前記ベースモデルに結合したアダプタを学習する、請求項１から４までのいずれか一項に記載の学習済みモデル生成装置。
前記制御部は、前記入力情報と同一又は関連するタスク以外の損失関数を最適化するように学習することによって、前記ベースモデルに結合したアダプタを生成する、請求項１から４までのいずれか一項に記載の学習済みモデル生成装置。
前記ベースモデルは、前記入力情報の特徴量を抽出した結果を出力する第１ベースモデルと、前記第１ベースモデルの出力に基づいて前記入力情報についての所定の判断を行う第２ベースモデルとを含む、請求項１から４までのいずれか一項に記載の学習済みモデル生成装置。
入力情報に含まれる認識対象の認識結果を出力する学習済みモデルを生成する学習済みモデル生成装置が実行する学習済みモデル生成方法であって、
前記入力情報と同一又は関連する学習対象の情報を含む教師データを用いた第１の学習を実行することによって生成された少なくとも１つのベースモデルに結合された状態で、前記学習対象の情報のうち前記第１の学習で用いられた情報と異なる情報を含む教師データを用いた第２の学習を実行することによって生成された、前記入力情報を前記少なくとも１つのベースモデルに入力する前に変換可能なアダプタを取得することと、
前記学習対象の情報のうち前記第１の学習で用いられた情報及び前記第２の学習で用いられた情報のいずれとも異なる情報を含む教師データを用いた第３の学習を実行することによってターゲットモデルを生成することと、
前記アダプタと前記ターゲットモデルとを結合することによって前記学習済みモデルを生成することと
を含む学習済みモデル生成方法。
入力情報に含まれる認識対象の認識結果を出力する学習済みモデルを備えた認識装置であって、
前記学習済みモデルは、
前記入力情報と同一又は関連する学習対象の情報を含む教師データを用いた第１の学習を実行することによって生成された少なくとも１つのベースモデルに結合された状態で、前記学習対象の情報のうち前記第１の学習で用いられた情報と異なる情報を含む教師データを用いた第２の学習を実行することによって生成された、前記入力情報を前記少なくとも１つのベースモデルに入力する前に変換可能なアダプタと、
前記学習対象の情報のうち前記第１の学習で用いられた情報及び前記第２の学習で用いられた情報のいずれとも異なる情報を含む教師データを用いた第３の学習を実行することによって生成したターゲットモデルと
を含み、
前記アダプタと前記ターゲットモデルとを結合することによって構成されている、
認識装置。