JP6722351B2

JP6722351B2 - 学習装置、画像認識装置、学習方法及びプログラム

Info

Publication number: JP6722351B2
Application number: JP2019514953A
Authority: JP
Inventors: 大地小野
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2017-04-26
Filing date: 2017-04-26
Publication date: 2020-07-15
Anticipated expiration: 2037-04-26
Also published as: CN110582783B; WO2018198233A1; US11403560B2; CN110582783A; EP3617991A4; US20210056464A1; JPWO2018198233A1; EP3617991A1

Description

本発明は、学習装置、画像認識装置、学習方法及びプログラムに関する。

近年、機械学習の分野において、分類器を用いた実写画像の画像認識技術が注目されている。

分類器を用いた実写画像の画像認識技術の一つであるセマンティックセグメンテーションでは、入力された実写画像に含まれる画素単位で、その画素が表す物体などといった、その画素の意味が特定される。

また、分類器を用いた実写画像の画像認識技術の他の例として、入力された実写画像が何の画像であるかを特定する技術や、入力された実写画像内のどこに何が配置されているのかを特定する技術などが存在する。

セマンティックセグメンテーション等の、分類器を用いた実写画像の画像認識の精度を向上させるには、大量の実写画像を用いて分類器の学習を行う必要がある。しかし大量の実写画像を入手することは困難である。そこで実写画像の代わりにコンピュータグラフィックの技術で作成したＣＧ画像を用いて分類器の学習を行うことが考えられる。

ところがＣＧ画像と実写画像との間には、たとえＣＧ画像が実写画像と同様のものであったとしても特徴量には差がある。そして特徴量の差のために、ＣＧ画像により学習が行われた分類器を用いた実写画像の画像認識精度の向上には限界があった。

本発明は上記課題に鑑みてなされたものであって、その目的の１つは、ＣＧ画像による学習が行われた分類器を用いた実写画像の画像認識精度を向上できる学習装置、画像認識装置、学習方法及びプログラムを提供することにある。

上記課題を解決するために、本発明に係る学習装置は、ＣＧ画像と実写画像とを分類する第１分類器に画像の入力データを入力した際の当該第１分類器に含まれる１の中間層の出力を、当該画像に対応付けられる中間特徴量として特定する中間特徴量特定部と、１又は複数のＣＧ画像のそれぞれに対応付けられる前記中間特徴量と、１又は複数の実写画像のそれぞれに対応付けられる前記中間特徴量と、に基づいて、オフセット特徴量を特定するオフセット特徴量特定部と、ＣＧ画像に対応付けられる前記中間特徴量と、前記オフセット特徴量と、に基づいて、当該ＣＧ画像に対応付けられるオフセット後中間特徴量を特定するオフセット後中間特徴量特定部と、複数のＣＧ画像のそれぞれに対応付けられる前記オフセット後中間特徴量を用いた、実写画像の画像認識の際に当該実写画像に対応付けられる前記中間特徴量が入力される第２分類器の学習を実行する学習部と、を含む。

本発明の一態様では、前記オフセット特徴量特定部は、複数のＣＧ画像のそれぞれに対応付けられる前記中間特徴量の代表値と、複数の実写画像のそれぞれに対応付けられる前記中間特徴量の代表値と、に基づいて、前記オフセット特徴量を特定する。

また、本発明の一態様では、前記第１分類器は、ＣＧ画像の学習データと実写画像の学習データを用いた学習が行われた後の分類器である。

また、本発明に係る画像認識装置は、ＣＧ画像と実写画像とを分類する第１分類器に画像の入力データを入力した際の当該第１分類器に含まれる１の中間層の出力を、当該画像に対応付けられる中間特徴量として特定する中間特徴量特定部と、１又は複数のＣＧ画像のそれぞれに対応付けられる前記中間特徴量と、１又は複数の実写画像のそれぞれに対応付けられる前記中間特徴量と、に基づくオフセット特徴量と、画像認識対象の実写画像に対応付けられる前記中間特徴量と、に基づいて、当該実写画像に対応付けられるオフセット後中間特徴量を特定するオフセット後中間特徴量特定部と、前記画像認識対象の実写画像に対応付けられる前記オフセット後中間特徴量を、複数のＣＧ画像のそれぞれに対応付けられる前記中間特徴量を用いた学習が実行された第２分類器に入力データとして入力した場合における当該第２分類器の出力を当該実写画像の画像認識の結果として特定する画像認識実行部と、を含む。

また、本発明に係る学習方法は、ＣＧ画像と実写画像とを分類する第１分類器に画像の入力データを入力した際の当該第１分類器に含まれる１の中間層の出力を、当該画像に対応付けられる中間特徴量として特定するステップと、１又は複数のＣＧ画像のそれぞれに対応付けられる前記中間特徴量と、１又は複数の実写画像のそれぞれに対応付けられる前記中間特徴量と、に基づいて、オフセット特徴量を特定するステップと、ＣＧ画像に対応付けられる前記中間特徴量と、前記オフセット特徴量と、に基づいて、当該ＣＧ画像に対応付けられるオフセット後中間特徴量を特定するステップと、複数のＣＧ画像のそれぞれに対応付けられる前記オフセット後中間特徴量を用いた、実写画像の画像認識の際に当該実写画像に対応付けられる前記中間特徴量が入力される第２分類器の学習を実行するステップと、を含む。

また、本発明に係る画像認識方法は、ＣＧ画像と実写画像とを分類する第１分類器に画像の入力データを入力した際の当該第１分類器に含まれる１の中間層の出力を、当該画像に対応付けられる中間特徴量として特定するステップと、１又は複数のＣＧ画像のそれぞれに対応付けられる前記中間特徴量と、１又は複数の実写画像のそれぞれに対応付けられる前記中間特徴量と、に基づくオフセット特徴量と、画像認識対象の実写画像に対応付けられる前記中間特徴量と、に基づいて、当該実写画像に対応付けられるオフセット後中間特徴量を特定するステップと、前記画像認識対象の実写画像に対応付けられる前記オフセット後中間特徴量を、複数のＣＧ画像のそれぞれに対応付けられる前記中間特徴量を用いた学習が実行された第２分類器に入力データとして入力した場合における当該第２分類器の出力を当該実写画像の画像認識の結果として特定するステップと、を含む。

また、本発明に係るプログラムは、ＣＧ画像と実写画像とを分類する第１分類器に画像の入力データを入力した際の当該第１分類器に含まれる１の中間層の出力を、当該画像に対応付けられる中間特徴量として特定する手順、１又は複数のＣＧ画像のそれぞれに対応付けられる前記中間特徴量と、１又は複数の実写画像のそれぞれに対応付けられる前記中間特徴量と、に基づいて、オフセット特徴量を特定する手順、ＣＧ画像に対応付けられる前記中間特徴量と、前記オフセット特徴量と、に基づいて、当該ＣＧ画像に対応付けられるオフセット後中間特徴量を特定する手順、複数のＣＧ画像のそれぞれに対応付けられる前記オフセット後中間特徴量を用いた、実写画像の画像認識の際に当該実写画像に対応付けられる前記中間特徴量が入力される第２分類器の学習を実行する手順、をコンピュータに実行させる。

また、本発明に係る別のプログラムは、ＣＧ画像と実写画像とを分類する第１分類器に画像の入力データを入力した際の当該第１分類器に含まれる１の中間層の出力を、当該画像に対応付けられる中間特徴量として特定する手順、１又は複数のＣＧ画像のそれぞれに対応付けられる前記中間特徴量と、１又は複数の実写画像のそれぞれに対応付けられる前記中間特徴量と、に基づくオフセット特徴量と、画像認識対象の実写画像に対応付けられる前記中間特徴量と、に基づいて、当該実写画像に対応付けられるオフセット後中間特徴量を特定する手順、前記画像認識対象の実写画像に対応付けられる前記オフセット後中間特徴量を、複数のＣＧ画像のそれぞれに対応付けられる前記中間特徴量を用いた学習が実行された第２分類器に入力データとして入力した場合における当該第２分類器の出力を当該実写画像の画像認識の結果として特定する手順、をコンピュータに実行させる。

本発明の一実施形態に係る情報処理装置の構成図である。実行結果画像の一例を示す図である。本発明の一実施形態に係る情報処理装置で実装される機能の一例を示す機能ブロック図である。第１分類器の一例を模式的に示す図である。第２分類器の一例を模式的に示す図である。本発明の一実施形態に係る情報処理装置で行われる処理の流れの一例を示すフロー図である。本発明の一実施形態に係る情報処理装置で行われる処理の流れの一例を示すフロー図である。本発明の一実施形態に係る情報処理装置で行われる処理の流れの一例を示すフロー図である。本発明の一実施形態に係る情報処理装置で行われる処理の流れの一例を示すフロー図である。

以下、本発明の一実施形態について図面に基づき詳細に説明する。

図１は、本発明の一実施形態に係る情報処理装置１０の構成図である。本実施形態に係る情報処理装置１０は、例えば、ゲームコンソールやパーソナルコンピュータなどのコンピュータである。図１に示すように、本実施形態に係る情報処理装置１０は、例えば、プロセッサ１２、記憶部１４、操作部１６、表示部１８を含んでいる。

プロセッサ１２は、例えば情報処理装置１０にインストールされるプログラムに従って動作するＣＰＵ等のプログラム制御デバイスである。

記憶部１４は、ＲＯＭやＲＡＭ等の記憶素子やハードディスクドライブなどである。記憶部１４には、プロセッサ１２によって実行されるプログラムなどが記憶される。

操作部１６は、キーボード、マウス、ゲームコンソールのコントローラ等のユーザインタフェースであって、ユーザの操作入力を受け付けて、その内容を示す信号をプロセッサ１２に出力する。

表示部１８は、液晶ディスプレイ等の表示デバイスであって、プロセッサ１２の指示に従って各種の画像を表示する。

なお、情報処理装置１０は、ネットワークボードなどの通信インタフェース、ＤＶＤ−ＲＯＭやＢｌｕ−ｒａｙ（登録商標）ディスクなどの光ディスクを読み取る光ディスクドライブ、ＵＳＢ（Universal Serial Bus）ポートなどを含んでいてもよい。

本実施形態に係る情報処理装置１０には、畳み込みニューラルネットワークの分類器が実装されている。そして本実施形態に係る情報処理装置１０では、実空間をカメラで撮影した画像である実写画像に対するセマンティックセグメンテーション等の画像認識処理が実行される。

図２は、実写画像に対するセマンティックセグメンテーションの実行結果の画像である実行結果画像２０の一例を示す図である。図２に示すように、実行結果画像２０は、それぞれが認識結果である物体に応じたカテゴリに対応付けられる複数の領域に画素単位で分割されている。

図２の例では、壁に対応付けられる壁領域２２、机に対応付けられる机領域２４、椅子に対応付けられる椅子領域２６、床に対応付けられる床領域２８、及び、カーテンに対応付けられるカーテン領域３０が示されている。ここで壁領域２２や椅子領域２６のように、互いに分離された複数の領域が同じカテゴリの領域として認識されてもよい。

ここで各領域が、当該領域に対応付けられるカテゴリに応じた色で表現されてもよい。こうすれば、ユーザは実行結果画像２０を表示部１８に表示させることなどによって、それぞれの領域について、当該領域に対応するカテゴリを確認できる。

また例えば実行結果画像２０が、自動車の自動運転制御などといった各種の制御における入力として用いられてもよい。

セマンティックセグメンテーション等の、分類器を用いた実写画像の画像認識の精度を向上させるには、大量の実写画像を用いて分類器の学習を行う必要がある。しかし大量の実写画像を入手することは困難である。

そこで本実施形態では、以下のようにして、実写画像の代わりにコンピュータグラフィックの技術で作成したＣＧ画像を用いて分類器の学習を行うこととした。

以下、本実施形態に係る情報処理装置１０の機能、及び、情報処理装置１０で実行される処理についてさらに説明する。

図３は、本実施形態に係る情報処理装置１０で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係る情報処理装置１０で、図３に示す機能のすべてが実装される必要はなく、また、図３に示す機能以外の機能が実装されていても構わない。

図３に示すように、情報処理装置１０は、機能的には例えば、第１分類器４０ａ、第２分類器４０ｂ、第１分類器学習部４２、中間特徴量特定部４４、オフセット特徴量特定部４６、オフセット後中間特徴量特定部４８、第２分類器学習部５０、画像認識実行部５２、を含んでいる。以上の要素はプロセッサ１２、及び、記憶部１４を主として実装される。本実施形態に係る情報処理装置１０は、分類器を用いた画像の学習を実行する学習装置としての役割も、学習済の分類器を用いた画像認識を実行する画像認識装置としての役割も担っている。

以上の機能は、コンピュータである情報処理装置１０にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ１２で実行することにより実装されてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して情報処理装置１０に供給されてもよい。

第１分類器４０ａは、本実施形態では例えば、図４に模式的に示す、ＣＧ画像と実写画像とを分類する分類器である。第１分類器４０ａは、二値分類器であってもよい。また第１分類器４０ａは、例えば、畳み込み層、プーリング層、全結合層などを含む、畳み込みニューラルネットワークの分類器であってもよい。本実施形態に係る第１分類器４０ａは、１個の入力層６０と、１個の出力層６２と、ｎ個の中間層６４（６４（１）、６４（２）、・・・、６４（ｎ−２）、６４（ｎ−１）、６４（ｎ））と、を含んでいる。ここでｎは１以上の整数である。なお図４には、５個の中間層６４が図示されているが、中間層６４の数は４個以下でも構わない。また図４には、入力層６０への入力６６、及び、出力層６２からの出力６８も示されている。また、図４には、中間層６４（ｎ）からの出力７０も示されている。出力７０については後述する。

第２分類器４０ｂは、本実施形態では例えば、図５に模式的に示す、実写画像のセマンティックセグメンテーション等の画像認識を実行する分類器である。第２分類器４０ｂは、例えば、畳み込み層、プーリング層、全結合層などを含む、畳み込みニューラルネットワークの分類器であってもよい。本実施形態に係る第２分類器４０ｂは、１個の入力層７２と、１個の出力層７４と、ｍ個の中間層７６（７６（１）、７６（２）、・・・、７６（ｍ−２）、７６（ｍ−１）、７６（ｍ））と、を含んでいる。ここでｍは１以上の整数である。また値ｍと上述の値ｎとは同じであっても異なっていてもよい。なお図５には、５個の中間層７６が図示されているが、中間層７６の数は４個以下でも構わない。また図５には、入力層７２への入力７８、及び、出力層７４からの出力８０も示されている。また、図５には、中間層７６（ｍ）への入力８２も示されている。入力８２については後述する。

本実施形態では、第１分類器４０ａに含まれる特定の１の中間層６４の出力（図４の例では中間層６４（ｎ）の出力７０）が第２分類器４０ｂへの入力７８として用いられる。ここで出力７０は、畳込み層又はプーリング層の出力である画像（マップ）であってもよい。

以下、出力が第２分類器４０ｂへの入力７８として用いられる中間層６４を、特定中間層６４ａと呼ぶこととする。図４の例では、中間層６４（ｎ）が特定中間層６４ａであることとなる。ここで中間層６４（ｎ）の代わりに、中間層６４（ｎ）よりも前の中間層６４である中間層６４（ｎ−１）や中間層６４（ｎ−２）などが特定中間層６４ａであってもよい。この場合は、中間層６４（ｎ−１）や中間層６４（ｎ−２）などの出力が、第２分類器４０ｂへの入力７８として用いられることとなる。

第１分類器学習部４２は、複数の画像を学習データとして用いた第１分類器４０ａの学習を実行する。ここで例えば、複数のＣＧ画像の学習データ、及び、複数の実写画像の学習データを用いた学習が行われてもよい。

ここで学習データには、入力６６として第１分類器４０ａに入力される入力データと、当該入力データが入力された際の出力６８と比較される教師データと、が含まれていてもよい。このように教師データが含まれる学習データを用いた教師あり学習が行われるようにしてもよい。

ここでＣＧ画像の入力データとは、ＣＧ画像に対して所定の前処理を行うことで生成されるデータなどを指す。また実写画像の入力データとは、実写画像に対して所定の前処理を行うことで生成されるデータなどを指す。なおＣＧ画像の入力データと実写画像の入力データとが同等に扱えるような前処理が実行されるようにしてもよい。例えばＣＧ画像の入力データと実写画像の入力データとが同じフォーマットのデータとして扱えるような前処理が実行されるようにしてもよい。

第１分類器学習部４２による学習が実行されることにより、畳み込み層のフィルタの係数や全結合層における重みなどを示す、第１分類器４０ａのパラメータの値が適切な値に設定される。例えば誤差逆伝搬法などにより、学習データに含まれる入力データを入力６６とした際の出力６８と、当該学習データに含まれる教師データとの比較に基づく、第１分類器４０ａのパラメータの値の調整が行われる。

中間特徴量特定部４４は、本実施形態では例えば、第１分類器４０ａに画像の入力データを入力した際の、上述の特定中間層６４ａの出力７０を、当該画像に対応付けられる中間特徴量として特定する。ここで入力データが入力される第１分類器４０ａは、第１分類器学習部４２によるＣＧ画像の学習データと実写画像の学習データを用いた学習が行われた後の分類器（学習済の分類器）であってもよい。以下、ＣＧ画像に対応付けられる中間特徴量をＣＧ中間特徴量と呼び、実写画像に対応付けられる中間特徴量を実写中間特徴量と呼ぶこととする。

オフセット特徴量特定部４６は、１又は複数のＣＧ画像のそれぞれに対応付けられるＣＧ中間特徴量と、１又は複数の実写画像のそれぞれに対応付けられる実写中間特徴量と、に基づいて、オフセット特徴量を特定する。

ここで例えば、中間特徴量特定部４４が、ＣＧ画像の入力データを学習済の第１分類器４０ａに入力した際における、特定中間層６４ａからの出力７０である個別ＣＧ中間特徴量を特定してもよい。そして中間特徴量特定部４４が、複数のＣＧ画像について特定される個別ＣＧ中間特徴量に基づいて、ＣＧ中間特徴量を特定してもよい。例えば、複数のＣＧ画像について特定される個別ＣＧ中間特徴量の平均値などといった代表値が、ＣＧ中間特徴量の値として特定されてもよい。なお１のＣＧ画像について特定される個別ＣＧ中間特徴量がＣＧ中間特徴量の値として特定されてもよい。

また例えば、中間特徴量特定部４４が、実写画像の入力データを学習済の第１分類器４０ａに入力した際における、特定中間層６４ａからの出力７０である個別実写中間特徴量を特定してもよい。そして中間特徴量特定部４４が、複数の実写画像について特定される個別実写中間特徴量に基づいて、実写中間特徴量を特定してもよい。例えば、複数の実写画像について特定される個別実写中間特徴量の平均値などといった代表値が、実写中間特徴量の値として特定されてもよい。なお１の実写画像について特定される個別実写中間特徴量が、実写中間特徴量として特定されてもよい。

そしてオフセット特徴量特定部４６は、上述のようにして特定されるＣＧ中間特徴量と実写中間特徴量との差を、オフセット特徴量として特定してもよい。

ここで例えば、中間特徴量特定部４４が、ＣＧ画像と実写画像との組合せについて、当該ＣＧ画像に対応付けられる個別ＣＧ中間特徴量と、当該実写画像に対応付けられる個別実写中間特徴量と、を特定してもよい。ここで当該組合せに含まれるＣＧ画像と実写画像とは、互いに似た画像であってもよい。例えば当該組合せに含まれるＣＧ画像と実写画像は、同じ物体を表す画像であってもよい。そしてオフセット特徴量特定部４６は、当該個別ＣＧ中間特徴量と当該個別実写中間特徴量との差を、個別オフセット特徴量として特定してもよい。そして、複数のＣＧ画像と実写画像との組合せのそれぞれについて特定される個別オフセット特徴量に基づいて、オフセット特徴量が特定されてもよい。例えば複数のＣＧ画像と実写画像との組合せのそれぞれについて特定される個別オフセット特徴量の平均値などといった代表値が、オフセット特徴量として特定されてもよい。

オフセット後中間特徴量特定部４８は、本実施形態では例えば、ＣＧ画像に対応付けられる中間特徴量と、オフセット特徴量と、に基づいて、当該ＣＧ画像に対応付けられるオフセット後中間特徴量を特定する。またオフセット後中間特徴量特定部４８は、本実施形態では例えば、実写画像に対応付けられる中間特徴量と、オフセット特徴量と、に基づいて、当該実写画像に対応付けられるオフセット後中間特徴量を特定する。

ここで例えば、実写中間特徴量の値からＣＧ中間特徴量の値を引いた値が、オフセット特徴量の値であることとする。この場合、ＣＧ画像の中間特徴量の値にオフセット特徴量の値を加算した値が、ＣＧ画像に対応付けられるオフセット後中間特徴量の値として算出されてもよい。また、実写画像の中間特徴量の値にオフセット特徴量の値を減算した値が、実写画像に対応付けられるオフセット後中間特徴量の値として算出されてもよい。

逆に例えば、ＣＧ中間特徴量の値から実写中間特徴量の値を引いた値が、オフセット特徴量の値であることとする。この場合、ＣＧ画像の中間特徴量の値にオフセット特徴量の値を減算した値が、ＣＧ画像に対応付けられるオフセット後中間特徴量の値として算出されてもよい。また、実写画像の中間特徴量の値にオフセット特徴量の値を加算した値が、実写画像に対応付けられるオフセット後中間特徴量の値として算出されてもよい。

以下、ＣＧ画像に対応付けられるオフセット後中間特徴量をオフセット後ＣＧ中間特徴量と呼ぶこととし、実写画像に対応付けられるオフセット後中間特徴量をオフセット後実写中間特徴量と呼ぶこととする。

ここでＣＧ画像に対応付けられるオフセット後ＣＧ中間特徴量は、当該ＣＧ画像と同様な実写画像が存在することを仮定した場合における当該実写画像の実写中間特徴量に相当する。また、実写画像に対応付けられるオフセット後実写中間特徴量は、当該実写画像と同様なＣＧ画像が存在することを仮定した場合における当該ＣＧ画像のＣＧ中間特徴量に相当する。

第２分類器学習部５０は、本実施形態では例えば、第２分類器４０ｂの学習を実行する。ここで第２分類器学習部５０は、ＣＧ画像に対応付けられるＣＧ中間特徴量を学習データに含まれる入力データとして用いた、第２分類器４０ｂの学習を実行してもよい。この場合、当該学習データは、ＣＧ画像に対応付けられるＣＧ中間特徴量を入力データとして含み、当該ＣＧ画像に対応付けられる、図２に示す実行結果画像２０のようなカテゴリによって領域が分割された画像を教師データとして含んでいてもよい。そして当該教師データが含まれる学習データを用いた教師あり学習が行われるようにしてもよい。

また第２分類器学習部５０は、ＣＧ画像に対応付けられるオフセット後ＣＧ中間特徴量を学習データに含まれる入力データとして用いた、第２分類器４０ｂの学習を実行してもよい。この場合、当該学習データは、ＣＧ画像に対応付けられるオフセット後ＣＧ中間特徴量を入力データとして含み、当該ＣＧ画像に対応付けられる、図２に示す実行結果画像２０のようなカテゴリによって領域が分割された画像を教師データとして含んでいてもよい。そして当該教師データが含まれる学習データを用いた教師あり学習が行われるようにしてもよい。

本実施形態では例えば、第２分類器学習部５０による第２分類器４０ｂの学習の際に、空間情報を補間するためのデータが入力８２として中間層７６（ｍ）に入力される。例えばＣＧ画像の中間特徴量を学習データとして用いた第２分類器４０ｂの学習の際に、当該ＣＧ画像の入力データが入力８２として中間層７６（ｍ）に入力されてもよい。また例えば、ＣＧ画像のオフセット後中間特徴量を学習データとして用いた第２分類器４０ｂの学習の際に、当該ＣＧ画像の入力データが入力８２として中間層７６（ｍ）に入力されてもよい。

第２分類器学習部５０による学習が実行されることにより、畳み込み層のフィルタの係数や全結合層における重みなどを示す、第２分類器４０ｂのパラメータの値が適切な値に設定される。例えば、誤差逆伝搬法などにより、例えばＣＧ画像に対応付けられるＣＧ中間特徴量を入力７８とした際の出力８０と、当該ＣＧ画像に対応付けられる教師データとの比較に基づく、第２分類器４０ｂのパラメータの値の調整が行われる。あるいは例えば、ＣＧ画像に対応付けられるオフセット後ＣＧ中間特徴量を入力７８とした際の出力８０と、当該ＣＧ画像に対応付けられる教師データとの比較に基づく、第２分類器４０ｂのパラメータの値の調整が行われる。

画像認識実行部５２は、本実施形態では例えば、セマンティックセグメンテーション等の画像認識処理を実行する。

本実施形態では例えば、画像認識実行部５２による実写画像の画像認識の際に、空間情報を補間するためのデータが入力８２として中間層７６（ｍ）に入力される。例えば実写画像の画像認識の際に、当該実写画像の入力データが入力８２として中間層７６（ｍ）に入力されてもよい。

例えば、第２分類器学習部５０が、複数のＣＧ画像のそれぞれに対応付けられるオフセット後ＣＧ中間特徴量を学習データに含まれる入力データとして用いた第２分類器４０ｂの学習を実行したとする。

この場合は、第２分類器４０ｂは、ＣＧ画像に対応付けられるオフセット後ＣＧ中間特徴量による学習が実行されている。すなわち第２分類器４０ｂは、当該ＣＧ画像と同様な実写画像が存在することを仮定した場合における当該実写画像の実写中間特徴量に相当するオフセット後ＣＧ中間特徴量によって学習が実行されている。よってこの場合は、入力７８は実写画像に相当するものであることが望ましい。そのためこの場合は、本実施形態では、画像認識実行部５２は、画像認識対象の実写画像に対応付けられる実写中間特徴量を入力７８として第２分類器４０ｂに入力する。

そしてこの場合は、画像認識実行部５２は、画像認識対象の実写画像に対応付けられる実写中間特徴量が第２分類器４０ｂに入力された場合における第２分類器４０ｂの出力８０を当該実写画像の画像認識の結果として特定する。

また例えば、第２分類器学習部５０が、複数のＣＧ画像のそれぞれに対応付けられるＣＧ中間特徴量を学習データに含まれる入力データとして用いた第２分類器４０ｂの学習を実行したとする。

この場合は、第２分類器４０ｂは、ＣＧ中間特徴量による学習が実行されているので、入力７８はＣＧ画像に相当するものであることが望ましい。そのためこの場合は、本実施形態では、画像認識実行部５２が、画像認識対象の実写画像に対応付けられるオフセット後実写中間特徴量を入力７８として第２分類器４０ｂに入力する。上述のように当該オフセット後実写中間特徴量は、画像認識対象の実写画像と同様なＣＧ画像が存在することを仮定した場合における当該ＣＧ画像のＣＧ中間特徴量に相当する。

そしてこの場合は、画像認識実行部５２は、画像認識対象の実写画像に対応付けられるオフセット後実写中間特徴量を学習済の第２分類器４０ｂに入力データとして入力した場合における第２分類器４０ｂの出力８０を当該実写画像の画像認識の結果として特定する。

なお、第２分類器学習部５０による第２分類器４０ｂの学習や画像認識実行部５２による実写画像の画像認識の際に、空間情報を補間するためのデータが入力８２として中間層７６（ｍ）に入力される必要はない。空間情報を補間するためのデータは、中間層７６（ｍ）以外の中間層７６に入力されてもよい。

ここで、本実施形態に係る情報処理装置１０で行われる、第２分類器４０ｂの学習処理の流れの一例を、図６に例示するフロー図を参照しながら説明する。図６には、オフセット後ＣＧ中間特徴量を用いた第２分類器４０ｂの学習が実行される場合における、第２分類器４０ｂの学習処理の流れの一例が示されている。

まず、第１分類器学習部４２が、複数のＣＧ画像の学習データ、及び、複数の実写画像の学習データを用いた第１分類器４０ａの学習を実行する（Ｓ１０１）。

そして中間特徴量特定部４４が、複数のＣＧ画像の入力データのそれぞれについて、当該ＣＧ画像の個別ＣＧ中間特徴量を特定する（Ｓ１０２）。

Ｓ１０２に示す処理では、中間特徴量特定部４４は、Ｓ１０１に示す処理で用いられたＣＧ画像の学習データに含まれる入力データを、再度、第１分類器学習部４２による学習済の第１分類器４０ａに入力６６として入力してもよい。そして当該入力６６に応じた出力７０に基づいて、当該ＣＧ画像の個別ＣＧ中間特徴量を特定してもよい。

あるいは中間特徴量特定部４４が、Ｓ１０１に示す処理で用いられたＣＧ画像の学習データとは別の新たなＣＧ画像の入力データを、第１分類器学習部４２による学習済の第１分類器４０ａに入力６６として入力してもよい。そして中間特徴量特定部４４が、当該入力６６に応じた出力７０に基づいて、当該ＣＧ画像の個別ＣＧ中間特徴量を特定してもよい。

そして中間特徴量特定部４４が、Ｓ１０２に示す処理で複数のＣＧ画像について特定された個別ＣＧ中間特徴量に基づいて、ＣＧ中間特徴量を特定する（Ｓ１０３）。

そして中間特徴量特定部４４が、複数の実写画像の入力データのそれぞれについて、当該実写画像の個別実写中間特徴量を特定する（Ｓ１０４）。

Ｓ１０４に示す処理では、中間特徴量特定部４４は、Ｓ１０１に示す処理で用いられた実写画像の学習データに含まれる入力データを、再度、第１分類器学習部４２による学習済の第１分類器４０ａに入力６６として入力してもよい。そして当該入力６６に応じた出力７０に基づいて、当該実写画像の個別実写中間特徴量を特定してもよい。

あるいは中間特徴量特定部４４が、Ｓ１０１に示す処理で用いられた実写画像の学習データとは別の新たな実写画像の入力データを、第１分類器学習部４２による学習済の第１分類器４０ａに入力６６として入力してもよい。そして中間特徴量特定部４４が、当該入力６６に応じた出力７０に基づいて、当該実写画像の個別実写中間特徴量を特定してもよい。

そして中間特徴量特定部４４が、Ｓ１０４に示す処理で複数の実写画像について特定された個別実写中間特徴量に基づいて、実写中間特徴量を特定する（Ｓ１０５）。

そしてオフセット特徴量特定部４６が、Ｓ１０３に示す処理で特定されたＣＧ中間特徴量と、Ｓ１０５に示す処理で特定された実写中間特徴量と、に基づいて、オフセット特徴量を特定する（Ｓ１０６）。

そしてオフセット後中間特徴量特定部４８が、複数のＣＧ画像のそれぞれに対応付けられるオフセット後ＣＧ中間特徴量を特定する（Ｓ１０７）。

そして第２分類器学習部５０が、Ｓ１０７に示す処理で特定されたオフセット後ＣＧ中間特徴量を用いた第２分類器４０ｂの学習を実行して（Ｓ１０８）、本処理例に示す処理が終了される。Ｓ１０８に示す処理では、ＣＧ画像に対応付けられるオフセット後ＣＧ中間特徴量が入力７８として第２分類器４０ｂに入力される際に、当該ＣＧ画像の入力データが入力８２として中間層７６（ｍ）に入力される。

Ｓ１０７に示す処理では、Ｓ１０１やＳ１０２に示す処理で用いられたものとは別の新たなＣＧ画像の学習データに含まれる入力データが、第１分類器学習部４２による学習済の第１分類器４０ａに入力６６として入力されてもよい。そして当該入力６６に応じた出力７０に基づいて、当該ＣＧ画像に対応付けられるオフセット後ＣＧ中間特徴量が特定されてもよい。そしてＳ１０８に示す処理では、当該オフセット後ＣＧ中間特徴量と当該学習データに含まれる教師データとを用いた第２分類器４０ｂの学習が実行されてもよい。

また例えば、Ｓ１０２に示す処理で特定された個別ＣＧ中間特徴量に対応付けられるＣＧ画像に、Ｓ１０８に示す処理での学習に用いられる教師データが予め関連付けられていてもよい。そしてこの場合にＳ１０７に示す処理で、Ｓ１０２に示す処理で特定されたＣＧ画像に対応付けられる個別ＣＧ中間特徴量と、オフセット特徴量と、に基づいて、当該ＣＧ画像に対応付けられるオフセット後ＣＧ中間特徴量が特定されてもよい。そしてＳ１０８に示す処理で、当該オフセット後ＣＧ中間特徴量と当該ＣＧ画像に関連付けられている教師データとを用いた第２分類器４０ｂの学習が実行されてもよい。

なお図６に示す処理の実行順序は上述のものに限定されない。例えば図６のＳ１０２〜Ｓ１０５に示す処理は、Ｓ１０２、Ｓ１０４、Ｓ１０３、Ｓ１０５の順序や、Ｓ１０４、Ｓ１０５、Ｓ１０２、Ｓ１０３の順序などで実行されてもよい。

また例えば、複数の処理対象のデータについてのＳ１０７に示す処理が終了した後に、当該複数の処理対象のデータについてのＳ１０８に示す処理が実行される必要はない。例えば、処理対象毎にＳ１０７及びＳ１０８に示す一連の処理が実行されることで、Ｓ１０７及びＳ１０８に示す一連の処理が繰り返し実行されてもよい。

次に、本実施形態に係る情報処理装置１０で行われる、実写画像の画像認識処理の流れの一例を、図７に例示するフロー図を参照しながら説明する。図７には、図６に示す一連の処理により第２分類器４０ｂの学習が実行される場合における、実写画像の画像認識処理の流れの一例が示されている。

まず、画像認識実行部５２が、画像認識対象の実写画像の入力データを取得する（Ｓ２０１）。

そして中間特徴量特定部４４が、Ｓ２０１に示す処理で取得された実写画像の入力データを入力６６とした、第１分類器４０ａへの入力を実行する（Ｓ２０２）。

そして中間特徴量特定部４４が、Ｓ２０２に示す処理で実行された入力における入力６６に応じた出力７０を、当該実写画像の実写中間特徴量として特定する（Ｓ２０３）。

そして画像認識実行部５２が、Ｓ２０３に示す処理で特定された実写中間特徴量を入力７８とし、Ｓ２０１に示す処理で取得された実写画像の入力データを入力８２とした、第２分類器４０ｂへの入力を実行する（Ｓ２０４）。

そして画像認識実行部５２が、Ｓ２０４に示す処理で実行された入力における入力７８及び入力８２に応じた出力８０を、画像認識対象の実写画像の認識結果として特定して（Ｓ２０５）、本処理例に示す処理を終了する。

次に、本実施形態に係る情報処理装置１０で行われる、第２分類器４０ｂの学習処理の流れの別の一例を、図８に例示するフロー図を参照しながら説明する。図８には、ＣＧ中間特徴量を用いた第２分類器４０ｂの学習が実行される場合における、第２分類器４０ｂの学習処理の流れの一例が示されている。

なお、図８におけるＳ３０１〜Ｓ３０６に示す処理では、図６に示すＳ１０１〜Ｓ１０６に示す処理と同様の処理が実行される。そのためＳ３０１〜Ｓ３０６に示す処理については説明を省略する。

Ｓ３０６に示す処理が終了すると、第２分類器学習部５０が、複数のＣＧ画像のそれぞれに対応付けられるＣＧ中間特徴量を用いた第２分類器４０ｂの学習を実行して（Ｓ３０７）、本処理例に示す処理が終了される。

Ｓ３０７に示す処理では、ＣＧ画像に対応付けられるＣＧ中間特徴量が入力７８として第２分類器４０ｂに入力される際に、当該ＣＧ画像の入力データが入力８２として中間層７６（ｍ）に入力される。

Ｓ３０７に示す処理では、Ｓ３０１やＳ３０２に示す処理で用いられたものとは別の新たなＣＧ画像の学習データに含まれる入力データが、第１分類器学習部４２による学習済の第１分類器４０ａに入力６６として入力されてもよい。そして当該入力６６に応じた出力７０が、当該ＣＧ画像に対応付けられるＣＧ中間特徴量として特定されてもよい。そして特定されたＣＧ中間特徴量と当該学習データに含まれる教師データとを用いた第２分類器４０ｂの学習が実行されてもよい。

また例えば、Ｓ３０２に示す処理で特定された個別ＣＧ中間特徴量に対応付けられるＣＧ画像に、Ｓ３０７に示す処理での学習に用いられる教師データが予め関連付けられていてもよい。そしてこの場合にＳ３０７に示す処理で、Ｓ３０２に示す処理で特定されたＣＧ画像に対応付けられる個別ＣＧ中間特徴量と、当該ＣＧ画像に関連付けられている教師データとを用いた第２分類器４０ｂの学習が実行されてもよい。

なお図８に示す処理の実行順序は上述のものに限定されない。例えば図８のＳ３０２〜Ｓ３０５に示す処理は、Ｓ３０２、Ｓ３０４、Ｓ３０３、Ｓ３０５の順序や、Ｓ３０４、Ｓ３０５、Ｓ３０２、Ｓ３０３の順序などで実行されてもよい。

次に、本実施形態に係る情報処理装置１０で行われる、第２分類器４０ｂの学習処理の流れの別の一例を、図９に例示するフロー図を参照しながら説明する。図９には、図８に示す一連の処理により第２分類器４０ｂの学習が実行される場合における、実写画像の画像認識処理の流れの一例が示されている。

なお、図９におけるＳ４０１〜Ｓ４０３に示す処理では、図７に示すＳ２０１〜Ｓ２０３に示す処理と同様の処理が実行される。そのためＳ４０１〜Ｓ４０３に示す処理については、説明を省略する。

Ｓ４０３に示す処理が終了すると、オフセット後中間特徴量特定部４８が、画像認識対象の実写画像に対応付けられるオフセット後実写中間特徴量を特定する（Ｓ４０４）。Ｓ４０４に示す処理では例えば、Ｓ４０３に示す処理で特定された実写中間特徴量と、Ｓ３０６に示す処理で特定されたオフセット特徴量と、に基づいて、当該オフセット後実写中間特徴量が特定される。

そして画像認識実行部５２が、Ｓ４０４に示す処理で特定されたオフセット後実写中間特徴量を入力７８とし、Ｓ４０１に示す処理で取得された実写画像の入力データを入力８２とした、第２分類器４０ｂへの入力を実行する（Ｓ４０５）。

そして画像認識実行部５２が、Ｓ４０５に示す処理で実行された入力における入力７８及び入力８２に応じた出力８０を、画像認識対象の実写画像の認識結果として特定して（Ｓ４０６）、本処理例に示す処理を終了する。

以上のように本実施形態では、ＣＧ画像と実写画像とを分類する第１分類器４０ａが、特定中間層６４ａからの出力７０によってＣＧ中間特徴量や実写中間特徴量が抽出される特徴量抽出器としての役割も担うこととなる。そしてＣＧ中間特徴量と実写中間特徴量とに基づいて特定されるオフセット特徴量によって、ＣＧ画像と当該ＣＧ画像と同様の実写画像との特徴量の差が補正される。このようにして本実施形態では、ＣＧ画像による学習が行われた分類器を用いた実写画像の画像認識精度が向上することとなる。

なお、本発明は上述の実施形態に限定されるものではない。

例えば、画像認識実行部５２が実行する画像認識は、セマンティックセグメンテーションに限定されない。例えば、画像認識実行部５２が、入力された実写画像が何の画像であるかを特定する処理や、入力された実写画像内のどこに何が配置されているのかを特定する処理を実行してもよい。

また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。

Claims

ＣＧ画像と実写画像とを分類する第１分類器に画像の入力データを入力した際の当該第１分類器に含まれる１の中間層の出力を、当該画像に対応付けられる中間特徴量として特定する中間特徴量特定部と、
１又は複数のＣＧ画像のそれぞれに対応付けられる前記中間特徴量と、１又は複数の実写画像のそれぞれに対応付けられる前記中間特徴量と、に基づいて、オフセット特徴量を特定するオフセット特徴量特定部と、
ＣＧ画像に対応付けられる前記中間特徴量と、前記オフセット特徴量と、に基づいて、当該ＣＧ画像に対応付けられるオフセット後中間特徴量を特定するオフセット後中間特徴量特定部と、
複数のＣＧ画像のそれぞれに対応付けられる前記オフセット後中間特徴量を用いた、実写画像の画像認識の際に当該実写画像に対応付けられる前記中間特徴量が入力される第２分類器の学習を実行する学習部と、
を含むことを特徴とする学習装置。
前記オフセット特徴量特定部は、複数のＣＧ画像のそれぞれに対応付けられる前記中間特徴量の代表値と、複数の実写画像のそれぞれに対応付けられる前記中間特徴量の代表値と、に基づいて、前記オフセット特徴量を特定する、
ことを特徴とする請求項１に記載の学習装置。
前記第１分類器は、ＣＧ画像の学習データと実写画像の学習データを用いた学習が行われた後の分類器である、
ことを特徴とする請求項１又は２に記載の学習装置。
ＣＧ画像と実写画像とを分類する第１分類器に画像の入力データを入力した際の当該第１分類器に含まれる１の中間層の出力を、当該画像に対応付けられる中間特徴量として特定する中間特徴量特定部と、
１又は複数のＣＧ画像のそれぞれに対応付けられる前記中間特徴量と、１又は複数の実写画像のそれぞれに対応付けられる前記中間特徴量と、に基づくオフセット特徴量と、画像認識対象の実写画像に対応付けられる前記中間特徴量と、に基づいて、当該実写画像に対応付けられるオフセット後中間特徴量を特定するオフセット後中間特徴量特定部と、
前記画像認識対象の実写画像に対応付けられる前記オフセット後中間特徴量を、複数のＣＧ画像のそれぞれに対応付けられる前記中間特徴量を用いた学習が実行された第２分類器に入力データとして入力した場合における当該第２分類器の出力を当該実写画像の画像認識の結果として特定する画像認識実行部と、
を含むことを特徴とする画像認識装置。
ＣＧ画像と実写画像とを分類する第１分類器に画像の入力データを入力した際の当該第１分類器に含まれる１の中間層の出力を、当該画像に対応付けられる中間特徴量として特定するステップと、
１又は複数のＣＧ画像のそれぞれに対応付けられる前記中間特徴量と、１又は複数の実写画像のそれぞれに対応付けられる前記中間特徴量と、に基づいて、オフセット特徴量を特定するステップと、
ＣＧ画像に対応付けられる前記中間特徴量と、前記オフセット特徴量と、に基づいて、当該ＣＧ画像に対応付けられるオフセット後中間特徴量を特定するステップと、
複数のＣＧ画像のそれぞれに対応付けられる前記オフセット後中間特徴量を用いた、実写画像の画像認識の際に当該実写画像に対応付けられる前記中間特徴量が入力される第２分類器の学習を実行するステップと、
を含むことを特徴とする学習方法。
ＣＧ画像と実写画像とを分類する第１分類器に画像の入力データを入力した際の当該第１分類器に含まれる１の中間層の出力を、当該画像に対応付けられる中間特徴量として特定する手順、
１又は複数のＣＧ画像のそれぞれに対応付けられる前記中間特徴量と、１又は複数の実写画像のそれぞれに対応付けられる前記中間特徴量と、に基づいて、オフセット特徴量を特定する手順、
ＣＧ画像に対応付けられる前記中間特徴量と、前記オフセット特徴量と、に基づいて、当該ＣＧ画像に対応付けられるオフセット後中間特徴量を特定する手順、
複数のＣＧ画像のそれぞれに対応付けられる前記オフセット後中間特徴量を用いた、実写画像の画像認識の際に当該実写画像に対応付けられる前記中間特徴量が入力される第２分類器の学習を実行する手順、
をコンピュータに実行させることを特徴とするプログラム。