JP7103412B2

JP7103412B2 - 辞書学習装置、情報処理装置、辞書学習方法およびコンピュータプログラム

Info

Publication number: JP7103412B2
Application number: JP2020521248A
Authority: JP
Inventors: 丈晴北川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2018-05-23
Filing date: 2019-05-21
Publication date: 2022-07-20
Anticipated expiration: 2039-05-21
Also published as: US20210150185A1; WO2019225595A1; JPWO2019225595A1; US11600086B2

Description

本発明は、コンピュータが処理を実行する際に参照する参考データを含む辞書を学習する技術に関する。

撮影装置により撮影された観察対象の物体の撮影画像を利用して、その観察対象の物体の長さなどを計測する場合がある。このような場合にコンピュータを利用して撮影画像から物体の長さ等を計測する場合には、コンピュータは、例えば、物体における長さ計測対象部分の両端を撮影画像から検知する処理を行い、その後、検知した両端間の長さを算出する処理を行う。

撮影画像から上述したような長さ計測対象部分の両端を検知する処理では、コンピュータは、例えば、記憶装置に保持されている辞書の参考データを参照する。その参考データの生成手法としては、例えば、観察対象の物体における長さ計測対象部分の両端が撮影されている互いに異なる複数の教師データを利用した機械学習がある。

なお、特許文献１には、撮影画像から個人認証や動作認識に必要な画像領域を切り出す処理で利用する切り出し領域検出用モデルの生成に関する技術が開示されている。

特開２００５－２５０８６３号公報

ところで、コンピュータが辞書の参考データを利用して例えば物体の長さ計測対象部分の両端（このような検知すべき部位を以下、検知対象とも記す）を撮影画像から検知する処理において、次のような問題が生じることがあった。例えば、問題の一つは、撮影画像に観察対象の物体が撮影されているのにも拘わらず、検知対象を検知できないことがあるという問題である。また、別の問題としては、コンピュータが撮影画像から検知対象を検知しても、その検知した検知対象の位置が、正しい位置（例えば長さ計測対象部分の両端）からずれているという問題もある。

本発明は上記課題を解決するために考え出された。すなわち、本発明の主な目的は、撮影画像から検知対象を検知する検知率、および、検知対象の検知位置の確からしさを高める技術を提供することにある。

上記目的を達成するために、本発明に係る辞書学習装置は、
認識対象の物体を撮影する撮影装置による撮影画像から、前記認識対象の物体における検知対象を含む基準となる基準画像領域の画像を基準切り出し情報に基づいて抽出する基準データ抽出部と、
前記基準画像領域を含み前記基準画像領域よりも広い画像領域であって、前記認識対象の物体以外が表されている背景を含む拡大画像領域の画像を拡大切り出し情報に基づいて前記撮影画像から抽出する拡大データ抽出部と、
前記検知対象を含み前記基準画像領域よりも狭い画像領域であって、前記認識対象の物体が部分的に領域外となる縮小画像領域の画像を縮小切り出し情報に基づいて前記撮影画像から抽出する縮小データ抽出部と、
前記撮影画像から前記検知対象を検知する検知処理で参照する参考データを含む辞書を、前記基準画像領域と前記拡大画像領域と前記縮小画像領域の画像を利用して学習する学習部と
を備える。

本発明に係る情報処理装置は、
本発明に係る辞書学習装置により学習された辞書を保持する記憶装置と、
撮影装置による撮影画像から認識対象の物体における検知対象を前記記憶装置の辞書を利用して検知する検知部と、
前記検知された検知対象を利用した処理を実行する処理部と
を備える。

本発明に係る辞書学習方法は、
コンピュータによって、
認識対象の物体を撮影する撮影装置による撮影画像から、前記認識対象の物体における検知対象を含む基準となる基準画像領域の画像を基準切り出し情報に基づいて抽出し、
前記基準画像領域を含み前記基準画像領域よりも広い画像領域であって、前記認識対象の物体以外が表されている背景を含む拡大画像領域の画像を拡大切り出し情報に基づいて前記撮影画像から抽出し、
前記検知対象を含み前記基準画像領域よりも狭い画像領域であって、前記認識対象の物体が部分的に領域外となる縮小画像領域の画像を縮小切り出し情報に基づいて前記撮影画像から抽出し、
前記撮影画像から前記検知対象を検知する検知処理で参照する参考データを含む辞書を、前記基準画像領域と前記拡大画像領域と前記縮小画像領域の画像を利用して学習する。

本発明に係るプログラム記憶媒体は、
認識対象の物体を撮影する撮影装置による撮影画像から、前記認識対象の物体における検知対象を含む基準となる基準画像領域の画像を基準切り出し情報に基づいて抽出する処理と、
前記基準画像領域を含み前記基準画像領域よりも広い画像領域であって、前記認識対象の物体以外が表されている背景を含む拡大画像領域の画像を拡大切り出し情報に基づいて前記撮影画像から抽出する処理と、
前記検知対象を含み前記基準画像領域よりも狭い画像領域であって、前記認識対象の物体が部分的に領域外となる縮小画像領域の画像を縮小切り出し情報に基づいて前記撮影画像から抽出する処理と、
前記撮影画像から前記検知対象を検知する検知処理で参照する参考データを含む辞書を、前記基準画像領域と前記拡大画像領域と前記縮小画像領域の画像を利用して学習する処理と
をコンピュータに実行させるコンピュータプログラムを記憶する。

本発明によれば、撮影画像から検知対象を検知する検知率、および、検知対象の検知位置の確からしさを高めることができる。

本発明に係る第１実施形態の辞書学習装置の構成を簡略化して表すブロック図である。第１実施形態の辞書学習装置により学習された辞書を利用する情報処理装置の構成を簡略化して表すブロック図である。認識対象の物体とその検知対象の具体例を表すモデル図である。撮影画像における基準画像領域の一例を説明する図である。基準画像領域における検知対象の位置情報を図５Ｂと共に説明する図である。基準画像領域における検知対象の位置情報を図５Ａと共に説明する図である。拡大画像領域の具体例を表すモデル図である。拡大画像領域の別の具体例を表すモデル図である。さらに、拡大画像領域の別の具体例を表すモデル図である。さらにまた、拡大画像領域の別の具体例を表すモデル図である。縮小画像領域の具体例を表すモデル図である。変形画像領域の具体例を表すモデル図である。変形画像領域の別の具体例を表すモデル図である。第１実施形態の辞書学習装置における教師データの生成に係る動作の一例を表すフローチャートである。第１実施形態の辞書学習装置における効果の説明で利用する図である。第２実施形態における認識対象の物体とその検知対象の具体例を表すモデル図である。第２実施形態における基準画像領域と拡大画像領域と縮小画像領域の具体例を表す図である。第２実施形態における変形画像領域の具体例を表す図である。認識対象の物体とその検知対象のさらに別の具体例を表すモデル図である。図１８に表される認識対象の物体についての基準画像領域と拡大画像領域と縮小画像領域の具体例を表す図である。図１８に表される認識対象の物体についての変形画像領域の具体例を表す図である。本発明に係るその他の実施形態の辞書学習装置の構成を簡略化して表すブロック図である。図２１における辞書学習装置により学習された辞書を利用する情報処理装置の構成を簡略化して表すブロック図である。情報処理装置に備えられている検知部の処理の一例を説明する図である。情報処理装置に備えられている検知部の処理の一例をさらに説明する図である。本発明に係る第３実施形態の辞書学習装置の構成を説明するブロック図である。撮影画像における認識対象の物体と物体検知領域の具体例を表す図である。撮影画像における認識対象の物体と物体検知領域の別の具体例を表す図である。撮影画像における認識対象の物体と物体検知領域のさらに別の具体例を表す図である。

以下に、本発明に係る実施形態を図面を参照しつつ説明する。

＜第１実施形態＞
図１は、本発明に係る第１実施形態の辞書学習装置の構成を簡略化して表すブロック図である。第１実施形態の辞書学習装置１０は、コンピュータが利用する辞書を学習する装置である。ここでの辞書とは、図２に表されているような情報処理装置（コンピュータ）１に備えられている記憶装置３に保持され、情報処理装置１の制御装置（プロセッサ）２が処理を実行する際に参照する参考データを含むものである。

第１実施形態では、辞書学習装置１０が学習する辞書を利用する情報処理装置１の制御装置２は、機能部として、検知部６と処理部７を備える。検知部６は、撮影装置４０による撮影画像から認識対象の物体における予め定められた検知対象を、辞書５を参照して検知する機能を備える。具体例を挙げると、検知部６は、図３に表されているような認識対象の物体である魚８０の撮影画像から、検知対象としての魚８０の口先Ｈと尾の二叉する部分Ｔを、辞書５を参照して検知する。さらに、検知部６は、必要に応じて、認識対象の物体（魚）８０の撮影画像から、魚８０の背側の頂部Ｂと腹側の膨らみ部分Ｐを、辞書５を参照して検知する。なお、検知部６は、腹側の膨らみ部分Ｐに代えて、腹びれの付け根を検知してもよい。

処理部７は、検知部６により検知された検知対象を利用した処理を実行する機能を備える。具体例を挙げると、処理部７は、検知部６により検知された口先Ｈと尾の二叉する部分Ｔの位置情報を算出し、算出した口先Ｈと尾の二叉する部分Ｔとの位置情報に基づいて魚８０の尾叉長を算出する。また、処理部７は、検知部６が魚８０の背側の頂部Ｂと腹側の膨らみ部分（あるいは腹びれの付け根）Ｐを検知した場合には、それら背側の頂部Ｂと腹側の膨らみ部分（腹びれの付け根）Ｐの位置情報を算出し、算出した位置情報に基づいて魚８０の体高を算出してもよい。さらに、処理部７は、算出した尾叉長と体高を利用して魚８０の体重を推定してもよい。

検知部６と処理部７が上述したような具体例の処理を実行する場合には、撮影装置４０として次のような撮影装置が用いられる。すなわち、撮影装置４０は、例えば、複数の異なる方向から同時に対象物を撮影することにより両眼視差を実現することによって立体写真を生成可能な構成を備えている。このような構成を備える撮影装置として、ステレオカメラ（１台のカメラに複数のレンズが並設された状態で搭載され当該レンズを通して同時に撮影された複数の撮影画像を取得可能なカメラ）と称されるカメラがあるが、２台のカメラが間隔（例えば基線長：１メートル）を介し並設されている状態で支持部材に固定されている構成を持つ装置を撮影装置４０として利用してもよい。このような撮影装置４０による撮影画像は、当該撮影画像の縦方向と横方向の長さ情報だけなく、撮影画像の奥行き方向の長さ情報をも取得可能な画像である。なお、撮影装置４０は、動画を撮影する機能を備えていてもよいし、動画撮影機能を持たずに静止画を撮影する機能を備えていてもよいし、動画および静止画を撮影する機能を備えていてもよい。

撮影装置４０は、例えば、魚が養殖されている生簀内に進入し、魚の観察（換言すれば、観察対象の魚の撮影）に適切と判断された水深およびレンズの向きで配設され、魚を撮影する。このように撮影装置４０により撮影された魚の撮影画像を辞書学習装置１０や情報処理装置１に与える手法としては、例えば、有線通信あるいは無線通信を利用する手法がある。あるいは、魚の撮影画像を撮影装置４０から可搬型記憶媒体（例えば、ＳＤ（Secure Digital）カード）に格納した後に当該可搬型記憶媒体から辞書学習装置１０や情報処理装置１に与える手法もある。

第１実施形態の辞書学習装置１０は、撮影装置４０による撮影画像を用いた教師データを利用して、情報処理装置１に与える辞書５を教師有り学習手法により学習する機能を備えている。

すなわち、辞書学習装置１０は、コンピュータにより構成されている。当該コンピュータは、辞書学習専用の装置であってもよいし、辞書学習機能だけでなく、辞書を利用した処理（例えば魚の尾叉長や体重を算出する処理）をも実行する装置であってもよい。つまり、図２のような情報処理装置１が、辞書学習装置１０としての機能をも備えている構成であってもよい。

辞書学習装置１０は、図１に表されているように、入力装置５０と表示装置６０に接続されている。入力装置５０は、辞書学習装置１０を操作するユーザ（操作者）の操作により情報を辞書学習装置１０に入力する装置（例えば、キーボードやマウスやタッチパネル）である。表示装置６０は、情報を表示する装置（ディスプレイ）である。辞書学習装置１０は、さらに、当該辞書学習装置１０とは別体の外付けの記憶装置７０に接続されていてもよい。

辞書学習装置１０は、大概構成として、制御装置２０と記憶装置３０を備えている。記憶装置３０は、各種データやコンピュータプログラムを記憶する機能を有し、例えば、ハードディスク装置や半導体メモリ等の記憶媒体により実現される。辞書学習装置１０に備えられる記憶装置は一つに限定されず、複数種の記憶装置が辞書学習装置１０に備えられていてもよく、この場合には、複数の記憶装置を総称して記憶装置３０と記すものとする。また、記憶装置７０も、記憶装置３０と同様に、各種データやコンピュータプログラムを記憶する機能を有し、例えば、ハードディスク装置や半導体メモリ等の記憶媒体により実現される。なお、辞書学習装置１０が記憶装置７０に接続されている場合には、記憶装置７０には適宜な情報が格納される。また、この場合には、辞書学習装置１０は、適宜、記憶装置７０に情報を書き込む処理および読み出す処理を実行するが、以下の説明では、記憶装置７０に係る処理の説明を省略する。

第１実施形態では、記憶装置３０には、撮影装置４０による撮影画像が、撮影した撮影装置４０を識別する識別情報や、撮影時間の情報などの撮影状況に関わる情報に関連付けられた状態で格納される。

制御装置２０は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）などのプロセッサにより構成される。制御装置２０は、例えばプロセッサが記憶装置３０に格納されているコンピュータプログラムを実行することにより、次のような機能を有することができる。すなわち、制御装置２０は、機能部として、基準データ抽出部２１と、拡大データ抽出部２２と、縮小データ抽出部２３と、変形データ抽出部２４と、学習部２５と、表示制御部２６とを備えている。

表示制御部２６は、表示装置６０の表示動作を制御する機能を備えている。例えば、表示制御部２６は、ユーザによる入力装置５０の操作によって辞書学習装置１０に入力された情報を表示装置６０に表示する。また、表示制御部２６は、基準データ抽出部２１などから表示を要求された情報を表示装置６０に表示する。

基準データ抽出部２１は、教師データを生成するために、撮影装置４０による撮影画像から認識対象の物体の検知対象を含む基準画像領域を抽出する機能を備えている。基準画像領域とは、撮影画像から教師データの生成に利用する画像領域を抽出する際に基準となる画像領域であり、例えば検知対象を利用する処理などを考慮してユーザにより定められた基準抽出条件を満たす領域である。

例えば、基準データ抽出部２１は、検知対象として魚の口先Ｈと尾の二叉する部分Ｔと腹側の膨らみ部分Ｐと背側の頂部Ｂを検知する処理で利用される辞書の学習で用いる教師データの生成に用いる基準画像領域を抽出するとする。この場合における基準画像領域の一例が、図４に表されているような撮影画像４２における基準画像領域Ｇｓである。この基準画像領域Ｇｓは、認識対象の物体である魚８０における検知対象Ｈ，Ｔ，Ｐ，Ｂを利用した尾叉長や体高などの長さの計測値の算出処理を考慮してユーザにより定められた次のような基準抽出条件を満たす領域である。その基準抽出条件とは、領域が矩形状であることと、検知対象Ｈ，Ｔ，Ｐ，Ｂを全て含むことと、魚８０の姿勢が長さ算出に適切な基本姿勢（つまり、頭から尾に掛けて真っ直ぐ、あるいは、真っ直ぐと見なせる姿勢）であることと、魚８０以外の背景の入り込みが抑えられていることとの全てを満たすという条件である。

基準データ抽出部２１は、例えば、撮影装置４０による撮影画像が表示装置６０に表示されている状態において、ユーザに基準画像領域と検知対象を指定する操作を促すメッセージ等の表示を表示制御部２６に要求する。その要求に応じた表示制御部２６による表示装置６０の表示を受けて、ユーザが入力装置５０の操作により撮影画像において基準画像領域を指定したとする。この場合には、基準データ抽出部２１は、指定された基準画像領域の位置と広さに関連する情報を基準切り出し情報として表示制御部２６から取得する。取得した基準切り出し情報は、例えば基準データ抽出部２１によって記憶装置３０に格納される。

さらに、基準データ抽出部２１は、表示制御部２６から取得した基準切り出し情報に基づいて撮影画像から基準画像領域の画像を抽出する。さらにまた、基準データ抽出部２１は、抽出した基準画像領域の画像に、ユーザにより指定された検知対象の位置を表す位置情報を関連付けることにより、基準画像領域の画像と、当該基準画像領域における検知対象の位置情報とを含む教師データを生成する。ここでは、検知対象の位置情報は、図５Ａ、図５Ｂに表されるような部分領域Ｐｈ，Ｐｔ，Ｐｐ，Ｐｂを利用して表される。なお、図５Ｂは、部分領域Ｐｈ，Ｐｔ，Ｐｐ，Ｐｂを分かり易くするために、図５Ａから魚８０の画像を除いた図である。

部分領域Ｐｈ，Ｐｔ，Ｐｐ，Ｐｂは、矩形状であり、四隅の頂点の中から基準点として設定された頂点が基準画像領域Ｇｓの対応する頂点に一致し、かつ、その中心位置に検知対象Ｈ，Ｔ，Ｐ，Ｂが位置している領域である。つまり、部分領域Ｐｈは、図５Ａ、図５Ｂにおける左下の頂点が基準点に設定され、当該基準点が基準画像領域Ｇｓの左下の頂点に一致し、かつ、その中心位置には検知対象である魚８０の口先Ｈが位置している領域である。部分領域Ｐｔは、図５Ａ、図５Ｂにおける右上の頂点が基準点に設定され、当該基準点が基準画像領域Ｇｓの右上の頂点に一致し、かつ、その中心位置には検知対象である魚８０の尾の二叉する部分Ｔが位置している領域である。部分領域Ｐｐは、図５Ａ、図５Ｂにおける左下の頂点が基準点に設定され、当該基準点が基準画像領域Ｇｓの左下の頂点に一致し、かつ、その中心位置には検知対象である魚８０の腹の膨らんでいる部分Ｐが位置している領域である。部分領域Ｐｂは、図５Ａ、図５Ｂにおける左上の頂点が基準点に設定され、当該基準点が基準画像領域Ｇｓの左上の頂点に一致し、かつ、その中心位置には検知対象である魚８０の背側の頂部Ｂが位置している領域である。

すなわち、部分領域Ｐｈ，Ｐｔ，Ｐｐ，Ｐｂは、その中心位置によって、検知対象Ｈ，Ｔ，Ｐ，Ｂの位置を表す。

基準データ抽出部２１は、上記のように撮影画像から抽出した基準画像領域を利用して生成した教師データを記憶装置３０に格納する。

拡大データ抽出部２２は、撮影装置４０による撮影画像から拡大画像領域を抽出する機能を備えている。拡大画像領域とは、基準画像領域を含み当該基準画像領域よりも広い画像領域であって、認識対象の物体以外が表されている背景を含む画像領域である。図６～図９には、拡大画像領域の具体例が表されている。図６における拡大画像領域Ｇｅは、基準画像領域Ｇｓを図６における点線に示すような上方向あるいは鎖線に示すような下方向に拡大した画像領域である。図７における拡大画像領域Ｇｅは、基準画像領域Ｇｓを図７における点線に示すような左方向あるいは鎖線に示すような右方向に拡大した画像領域である。図８における拡大画像領域Ｇｅは、基準画像領域Ｇｓを図８における上方向と下方向と左方向と右方向のうちの二方向に拡大した画像領域である。つまり、拡大画像領域Ｇｅには、基準画像領域Ｇｓを、図８における点線に示すような下方向と右方向の二方向や、図８における鎖線に示すような上方向と左方向の二方向や、上方向と下方向の二方向や、右方向と左方向の二方向や、上方向と右方向の二方向や、下方向と左方向の二方向に拡大した画像領域がある。図９における拡大画像領域Ｇｅは、基準画像領域Ｇｓを図９における上方向と下方向と左方向と右方向のうちの少なくとも三方向に拡大した画像領域である。つまり、拡大画像領域Ｇｅには、基準画像領域Ｇｓを、図９における点線に示すような上方向と左方向と下方向の三方向や、図９における鎖線に示すような上方向と右方向と下方向の三方向や、上方向と右方向と左方向の三方向や、下方向と右方向と左方向の三方向に拡大した画像領域がある。さらに、拡大画像領域Ｇｅには、基準画像領域Ｇｓを、上方向と下方向と左方向と右方向の四方向に拡大した画像領域がある。

第１実施形態では、拡大データ抽出部２２は、基準データ抽出部２１により基準画像領域Ｇｓが抽出された以降に、当該基準画像領域Ｇｓを抽出した撮影画像から、記憶装置３０に格納されている拡大切り出し情報に基づいて拡大画像領域Ｇｅを抽出する。拡大切り出し情報は、基準画像領域Ｇｓに基づいて抽出する拡大画像領域Ｇｅの数と、基準画像領域Ｇｓに対する拡大画像領域Ｇｅの拡大方向およびその拡大率との情報を含む情報である。なお、基準画像領域Ｇｓに基づいて抽出する拡大画像領域Ｇｅが複数である場合には、抽出される拡大画像領域Ｇｅの拡大方向と拡大率とのうちの一方あるいは両方が異なる複数の拡大タイプの情報が拡大切り出し情報に含まれる。具体例を挙げると、拡大切り出し情報は、基準画像領域Ｇｓに基づいて抽出する拡大画像領域Ｇｅの数が『３』である情報を含むとする。この場合には、拡大切り出し情報は、３つの拡大タイプＩ、II、IIIの情報を含む。例えば、拡大タイプＩは、基準画像領域Ｇｓに対する拡大方向は『上方向および左方向』であり、その拡大率は『１１０％』であるというような情報である。拡大タイプIIは、基準画像領域Ｇｓに対する拡大方向は『上方向』であり、その拡大率は『１２５％』であるというような情報である。拡大タイプIIIは、基準画像領域Ｇｓに対する拡大方向は『左方向と右方向』であり、その拡大率は『１１０％』であるというような情報である。

このような拡大切り出し情報に基づいて、拡大データ抽出部２２は拡大画像領域Ｇｅを撮影画像から抽出する。

なお、拡大切り出し情報が予め記憶装置３０に格納されているのに代えて、拡大データ抽出部２２が次のように拡大切り出し情報を取得し、当該取得した拡大切り出し情報に基づいて拡大データ抽出部２２が撮影画像から拡大画像領域Ｇｅを抽出してもよい。すなわち、拡大データ抽出部２２は、撮影装置４０による撮影画像が、抽出された基準画像領域Ｇｓを表す情報と共に表示装置６０に表示されている状態において、ユーザに拡大画像領域Ｇｅを指定する操作を促すメッセージ等の表示を表示制御部２６に要求する。その要求に応じた表示制御部２６による表示装置６０の表示を受けて、ユーザが入力装置５０の操作により撮影画像において拡大画像領域Ｇｅを指定したとする。この場合には、拡大データ抽出部２２は、指定された拡大画像領域Ｇｅの位置と広さに関連する情報を拡大切り出し情報として表示制御部２６から取得する。さらに、拡大データ抽出部２２は、表示制御部２６から取得した拡大切り出し情報に基づいて撮影画像から拡大画像領域Ｇｅの画像を抽出する。

拡大データ抽出部２２は、さらに、抽出した拡大画像領域Ｇｅの画像に、検知対象の位置を表す位置情報を関連付けることにより、拡大画像領域Ｇｅの画像と、当該拡大画像領域Ｇｅにおける検知対象の位置情報とを含む教師データを生成する。

なお、拡大画像領域Ｇｅの画像に関連付ける検知対象の位置情報は、基準画像領域Ｇｓの画像に関連付ける検知対象の位置情報と同様に、部分領域Ｐｈ，Ｐｔ，Ｐｐ，Ｐｂを利用する情報とする。ただ、拡大画像領域Ｇｅの画像に関連付ける検知対象の位置情報に利用される部分領域Ｐｈ，Ｐｔ，Ｐｐ，Ｐｂは、その基準点としての頂点が拡大画像領域Ｇｅの対応する頂点に一致してもよいし、基準画像領域Ｇｓの対応する頂点に一致してもよい。つまり、部分領域Ｐｈ，Ｐｔ，Ｐｐ，Ｐｂの基準点としての頂点が基準画像領域Ｇｓの対応する頂点に一致する場合には、部分領域Ｐｈ，Ｐｔ，Ｐｐ，Ｐｂの位置および大きさは、基準画像領域Ｇｓにおける部分領域Ｐｈ，Ｐｔ，Ｐｐ，Ｐｂと同様である。部分領域Ｐｈ，Ｐｔ，Ｐｐ，Ｐｂの基準点としての頂点が拡大画像領域Ｇｅの対応する頂点に一致する場合には、部分領域Ｐｈ，Ｐｔ，Ｐｐ，Ｐｂは、拡大画像領域Ｇｅが基準画像領域Ｇｓから拡大した方向によっては、基準画像領域Ｇｓにおける部分領域Ｐｈ，Ｐｔ，Ｐｐ，Ｐｂよりも拡大した領域となる。

拡大データ抽出部２２は、上記のように撮影画像から抽出した拡大画像領域を利用して教師データを生成し、当該生成した教師データを記憶装置３０に格納する。

縮小データ抽出部２３は、撮影装置４０による撮影画像から縮小画像領域を抽出する機能を備えている。縮小画像領域とは、検知対象を含み基準画像領域よりも狭い画像領域であって、認識対象の物体が部分的に領域外となる画像領域である。図１０には、縮小画像領域の具体例が表されている。図１０における縮小画像領域Ｇｒは、検知対象Ｈ，Ｔ，Ｐ，Ｂを含み基準画像領域Ｇｓよりも縮小した領域であり、認識対象の物体である魚８０の尾の一部が領域外となっている画像領域である。図１０における縮小画像領域Ｇｒの変形例としては、認識対象の物体である魚８０の尾の一部だけでなく、腹びれも領域外となっている画像領域であってもよい。また、図１０における縮小画像領域Ｇｒの別の変形例としては、認識対象の物体である魚８０の尾全体は縮小画像領域Ｇｒに含まれているが、魚８０の腹びれと背びれの一方又は両方が領域外となっている画像領域であってもよい。つまり、縮小画像領域Ｇｒには、基準画像領域Ｇｓから、上方向と下方向と左方向と右方向のうちの一方向や、上方向と下方向と左方向と右方向のうちの二方向に縮小した画像領域がある。また、縮小画像領域Ｇｒには、基準画像領域Ｇｓから、上方向と下方向と左方向と右方向のうちの三方向や、上方向と下方向と左方向と右方向の四方向に縮小した画像領域がある。

縮小データ抽出部２３は、基準データ抽出部２１により基準画像領域Ｇｓが抽出された以降に、当該基準画像領域Ｇｓを抽出した撮影画像から、記憶装置３０に格納されている縮小切り出し情報に基づいて縮小画像領域Ｇｒを抽出する。縮小切り出し情報は、基準画像領域Ｇｓに基づいて抽出する縮小画像領域Ｇｒの数と、基準画像領域Ｇｓに対する縮小画像領域Ｇｒの縮小方向およびその縮小率との情報を含む情報である。なお、基準画像領域Ｇｓに基づいて抽出する縮小画像領域Ｇｒが複数である場合には、抽出される縮小画像領域Ｇｒの縮小方向と縮小率とのうちの一方あるいは両方が異なる複数の縮小タイプの情報が縮小切り出し情報に含まれる。具体例を挙げると、縮小切り出し情報は、基準画像領域Ｇｓに基づいて抽出する縮小画像領域Ｇｒの数が『２』である情報を含むとする。この場合には、縮小切り出し情報は、２つの縮小タイプＩ、IIの情報を含む。例えば、縮小タイプＩは、基準画像領域Ｇｓに対する縮小方向は『左方向』であり、その縮小率は『９５％』であるというような情報である。縮小タイプIIは、基準画像領域Ｇｓに対する縮小方向は『上方向と左方向』であり、その縮小率は『上：９５％、左：９２％』であるというような情報である。

このような縮小切り出し情報に基づいて、縮小データ抽出部２３は縮小画像領域Ｇｒを撮影画像から抽出する。

なお、縮小切り出し情報が予め記憶装置３０に格納されているのに代えて、縮小データ抽出部２３が次のように縮小切り出し情報を取得し、当該取得した縮小切り出し情報に基づいて縮小データ抽出部２３が撮影画像から縮小画像領域Ｇｒを抽出してもよい。すなわち、縮小データ抽出部２３は、撮影装置４０による撮影画像が、抽出された基準画像領域Ｇｓを表す情報と共に表示装置６０に表示されている状態において、ユーザに縮小画像領域Ｇｒを指定する操作を促すメッセージ等の表示を表示制御部２６に要求する。その要求に応じた表示制御部２６による表示装置６０の表示を受けて、ユーザが入力装置５０の操作により撮影画像において縮小画像領域Ｇｒを指定したとする。この場合には、縮小データ抽出部２３は、指定された縮小画像領域Ｇｒの位置と広さに関連する情報を縮小切り出し情報として表示制御部２６から取得する。さらに、縮小データ抽出部２３は、表示制御部２６から取得した縮小切り出し情報に基づいて撮影画像から縮小画像領域Ｇｒの画像を抽出する。

縮小データ抽出部２３は、さらに、抽出した縮小画像領域Ｇｒの画像に、検知対象の位置を表す位置情報を関連付けることにより、縮小画像領域Ｇｒの画像と、当該縮小画像領域Ｇｒにおける検知対象の位置情報とを含む教師データを生成する。

なお、縮小画像領域Ｇｒの画像に関連付ける検知対象の位置情報は、基準画像領域Ｇｓの画像に関連付ける検知対象の位置情報と同様に、部分領域Ｐｈ，Ｐｔ，Ｐｐ，Ｐｂを利用する情報とする。縮小画像領域Ｇｒにおける部分領域Ｐｈ，Ｐｔ，Ｐｐ，Ｐｂは、矩形状であり、四隅の頂点の中から基準点として設定された頂点が縮小画像領域Ｇｒの対応する頂点に一致し、かつ、その中心位置に検知対象Ｈ，Ｔ，Ｐ，Ｂが位置している領域である。つまり、縮小画像領域Ｇｒにおける部分領域Ｐｈ，Ｐｔ，Ｐｐ，Ｐｂは、縮小画像領域Ｇｒが基準画像領域Ｇｓよりも縮小した方向によっては、基準画像領域Ｇｓにおける部分領域Ｐｈ，Ｐｔ，Ｐｐ，Ｐｂよりも縮小した領域となる。

縮小データ抽出部２３は、上記のように撮影画像から抽出した縮小画像領域を利用して教師データを生成し、当該生成した教師データを記憶装置３０に格納する。

変形データ抽出部２４は、変形状態における認識対象の物体を含む画像領域を変形切り出し情報に基づいて撮影画像から抽出する機能を備えている。変形状態とは、認識対象の物体から検知される検知対象を利用する情報処理装置１の処理部７の処理を考慮して設定された認識対象の物体の基本姿勢から変形している状態である。図１１には、変形状態の認識対象の物体（魚）の具体例が表されている。また、図１２に表されているような認識対象の物体（魚８０）の一部が他の物体８１によって隠れているような状態も変形状態とする。

変形データ抽出部２４は、例えば、撮影装置４０による撮影画像が表示装置６０に表示されている状態において、変形状態の認識対象の物体を含む変形画像領域と検知対象を指定する操作をユーザに促すメッセージ等の表示を表示制御部２６に要求する。その要求に応じた表示制御部２６による表示装置６０の表示を受けて、ユーザが入力装置５０の操作により撮影画像において変形画像領域と検知対象を指定したとする。この場合には、変形データ抽出部２４は、指定された変形画像領域の位置と広さに関連する情報を変形切り出し情報として表示制御部２６から取得する。さらに、変形データ抽出部２４は、表示制御部２６から取得した変形切り出し情報に基づいて撮影画像から変形画像領域の画像を抽出する。

さらにまた、変形データ抽出部２４は、抽出した変形画像領域の画像に、ユーザにより指定された検知対象の位置を表す位置情報を関連付けることにより、変形画像領域の画像と、当該変形画像領域における検知対象の位置情報とを含む教師データを生成する。検知対象の位置情報は、例えば、前述したような部分領域Ｐｈ，Ｐｔ，Ｐｐ，Ｐｂを利用して表される。つまり、部分領域Ｐｈ，Ｐｔ，Ｐｐ，Ｐｂは、矩形状であり、四隅の頂点の中から基準点として設定された頂点が変形画像領域の対応する頂点に一致し、かつ、その中心位置に検知対象Ｈ，Ｔ，Ｐ，Ｂが位置している領域である。

変形データ抽出部２４は、上記のように撮影画像から抽出した変形画像領域を利用して教師データを生成し、当該生成した教師データを記憶装置３０に格納する。

学習部２５は、記憶装置３０に格納されている教師データを利用して情報処理装置１の検知部６における検知処理で使用する辞書を学習する機能を備えている。辞書を学習する手法は教師データ有りの学習手法であれば特に限定されず、ここでは、その説明は省略する。

第１実施形態の辞書学習装置１０は上記のように構成されている。以下に、辞書学習装置１０における教師データの生成に関する動作例を図１３のフローチャートを利用して説明する。

まず、撮影装置４０による撮影画像が表示装置６０に表示されている状態において、基準データ抽出部２１が、基準画像領域と検知対象を指定する操作を促すメッセージ等の表示を表示制御部２６に要求する。その要求に応じた表示制御部２６による表示装置６０の表示を受けて、ユーザが入力装置５０の操作により撮影画像において基準画像領域を指定すると、基準データ抽出部２１は、その指定された基準画像領域を表す情報を基準切り出し情報として取得する。そして、基準データ抽出部２１は、基準切り出し情報に基づき撮影画像から基準画像領域Ｇｓを抽出する（図１３におけるステップＳ１０１）。

さらに、基準データ抽出部２１は、ユーザにより指定された撮影画像における検知対象の位置情報を取得し、この取得した情報に基づき、基準画像領域Ｇｓにおいて設定された基準点を利用して検知対象の位置を表す位置情報を算出する（ステップＳ１０２）。基準データ抽出部２１は、然る後に、抽出した基準画像領域の画像に、検知対象の位置を表す位置情報を関連付けることにより、基準画像領域の画像と、当該基準画像領域における検知対象の位置情報とを含む教師データを生成する。

基準画像領域が抽出された以降に、拡大データ抽出部２２が、記憶装置３０における拡大切り出し情報に基づいて撮影画像から拡大画像領域Ｇｅを抽出する（ステップＳ１０３）。拡大データ抽出部２２は、その後、拡大画像領域Ｇｅの画像に、検知対象の位置を表す位置情報を関連付けることにより、拡大画像領域Ｇｅの画像と、当該拡大画像領域Ｇｅにおける検知対象の位置情報とを含む教師データを生成する。

また、縮小データ抽出部２３が、記憶装置３０における縮小切り出し情報に基づいて撮影画像から縮小画像領域Ｇｒを抽出する（ステップＳ１０４）。縮小データ抽出部２３は、その後、縮小画像領域Ｇｒの画像に、検知対象の位置を表す位置情報を関連付けることにより、縮小画像領域Ｇｒの画像と、当該縮小画像領域Ｇｒにおける検知対象の位置情報とを含む教師データを生成する。

その後、基準画像領域Ｇｓと、当該基準画像領域Ｇｓに関連する拡大画像領域Ｇｅおよび縮小画像領域Ｇｒとに基づいた基本状態の教師データの生成を終了する旨の指示がユーザによる入力装置５０の操作によって発信されたか否かが判断される（ステップＳ１０５）。そして、終了の指示が無い場合には、ステップＳ１０１以降の動作が繰り返される。

また、終了の指示が有った場合には、変形データ抽出部２４が、撮影装置４０による撮影画像と共に、変形状態の認識対象の物体を含む変形画像領域と検知対象を指定する操作をユーザに促すメッセージ等の表示を表示制御部２６に要求する。その要求に応じた表示制御部２６による表示装置６０の表示を受けて、ユーザが入力装置５０の操作により撮影画像において変形画像領域を指定すると、変形データ抽出部２４は、その指定された変形画像領域を表す情報を変形切り出し情報として取得する。そして、変形データ抽出部２４は、変形切り出し情報に基づき撮影画像から変形画像領域を抽出する（ステップＳ１０６）。さらに、変形データ抽出部２４は、ユーザにより指定された撮影画像における検知対象の位置情報を取得し、この取得した情報に基づき、変形画像領域において設定された基準点を利用して検知対象の位置を表す位置情報を算出する。変形データ抽出部２４は、然る後に、抽出した変形画像領域の画像に、検知対象の位置を表す位置情報を関連付けることにより、変形画像領域の画像と、当該変形画像領域における検知対象の位置情報とを含む教師データを生成する。

その後、変形画像領域に基づいた変形状態の教師データの生成を終了する旨の指示がユーザによる入力装置５０の操作によって発信されたか否かが判断される（ステップＳ１０７）。そして、終了の指示が無い場合には、ステップＳ１０６以降の動作が繰り返される。また、終了の指示が有った場合には、教師データの生成動作を終了する。

なお、制御装置２０における教師データの生成に関する動作は図１３に表される動作順に限定されるものではなく、適宜変更され得る。例えば、縮小画像領域を抽出した後に、拡大データ抽出部２２が拡大画像領域を抽出してもよい。また、教師データを生成するタイミングは適宜設定されるものである。例えば、基準画像領域Ｇｓと拡大画像領域Ｇｅと縮小画像領域Ｇｒを抽出した後に、基準画像領域Ｇｓに基づく教師データと拡大画像領域Ｇｅに基づく教師データと縮小画像領域Ｇｒに基づく教師データがそれぞれ生成されてもよい。

さらに、制御装置２０は、ステップＳ１０３の動作の前に、拡大画像領域Ｇｅと縮小画像領域Ｇｒに基づく教師データが必要か否かをユーザに判断させ、必要な場合にはステップＳ１０３の動作に移行し、不要な場合にはステップＳ１０６の動作に移行してもよい。

さらに、基準画像領域Ｇｓに基づく教師データと、拡大画像領域Ｇｅに基づく教師データと、縮小画像領域Ｇｒに基づく教師データとの生成比率は適宜設定される。例えば、その生成比率は、教師データによって学習される辞書を利用する処理の手法や、撮影画像における認識対象の物体の背景などを考慮して、１対１対１とする。

第１実施形態の辞書学習装置１０は、上記のような構成を備えていることにより、次のような効果を得ることができる。すなわち、辞書学習装置１０は、基準画像領域Ｇｓに基づく教師データを生成するだけでなく、基準画像領域Ｇｓを拡大した拡大画像領域Ｇｅに基づく教師データと、基準画像領域Ｇｓを縮小した縮小画像領域Ｇｒに基づく教師データをも生成する。これにより、辞書学習装置１０は、教師データの生成数とバリエーションを増加することができるため、学習量の増加と学習内容の拡大により辞書の信頼性を高めることができる。

例えば、図１４に表されているような撮影画像４２において、認識対象の物体（魚８０）における検知対象を検知する処理を実行する処理領域Ｎをユーザが入力装置５０の操作により指定したとする。また、処理領域Ｎは、検知対象の検知を適切に処理できる領域（つまり、前述した基準画像領域Ｇｓと同様な領域）とであるとする。このような場合には、情報処理装置１の検知部６は、辞書５を利用して正しく検知対象Ｈ，Ｔ（ここでは、説明を分かり易くするために検知対象Ｐ，Ｂの説明は省略する）を検知できる。

これに対し、仮に、辞書学習装置１０が拡大画像領域Ｇｅと縮小画像領域Ｇｒについての教師データを学習に利用しなかったとする。この場合に生成される辞書５には、拡大画像領域Ｇｅと縮小画像領域Ｇｒについての教師データの情報が反映されていない。つまり、例えば検知対象Ｈ，Ｔの位置を表す情報として、前述したような部分領域Ｐｈ，Ｐｔの情報が与えられている場合には、部分領域Ｐｈ，Ｐｔの学習による情報には、拡大画像領域Ｇｅと縮小画像領域Ｇｒの情報が反映されていない。このため、処理領域として、図１４に表されているような基準の処理領域Ｎよりも拡大された領域Ｎ１がユーザにより指定されてしまうと、拡大された領域Ｎ１に起因して、拡大された部分領域Ｐｈ１，Ｐｔ１が辞書に基づいて検知されてしまう。部分領域Ｐｈ１，Ｐｔ１の中心位置が検知対象を表すから、部分領域Ｐｈ１，Ｐｔ１の拡大に因り、検知される検知対象Ｈ１，Ｔ１の位置は正しい検知対象Ｈ，Ｔの位置からずれてしまう。また、処理領域として、図１４に表されているような基準の処理領域Ｎよりも縮小された領域Ｎ１がユーザにより指定された場合においても、同様に検知対象Ｈ，Ｔを正しい位置に検知できないということがある。

第１実施形態の辞書学習装置１０は、基準画像領域Ｇｓだけでなく、拡大画像領域Ｇｅと縮小画像領域Ｇｒを考慮して辞書を学習する。このことから、辞書学習装置１０は、上述したような基準の領域Ｎよりも拡大あるいは縮小された処理領域が指定された場合において検知対象の検知位置の確からしさを高めることができる辞書を提供できる。

また、辞書学習装置１０は、変形データ抽出部２４によって、変形状態の認識対象の物体についての教師データを生成し、辞書の学習に利用することから、魚のような、動きが速くて形状などが時々刻々と変化する認識対象の物体から検知対象を検知する処理に有効な辞書を生成できる。

さらにまた、辞書学習装置１０は、図１２に表されるような認識対象の物体の一部が他の物体によって撮影画像に映っていない場合における教師データが生成され辞書の学習に利用される。また、辞書学習装置１０は、認識対象の物体の一部が領域外となる縮小画像領域の画像に基づいた教師データが生成され辞書の学習に利用される。このため、辞書学習装置１０は、認識対象の物体の一部が撮影画像に映っていない場合においても当該認識対象の物体における検知対象を検知可能な辞書を生成できる。

なお、上述した説明では、基準データ抽出部２１は、ユーザが入力装置５０の操作により撮影画像において領域を指定した場合には、その指定された領域をそのまま基準画像領域としている。これに代えて、次のような処理が実行されてもよい。例えば、基準データ抽出部２１は、指定された領域が基準画像領域か変形画像領域かをユーザに確認する処理を実行し、基準画像領域である場合には、前述同様の基準画像領域の抽出と教師データの生成に関する処理を行う。一方、変形画像領域である場合には、基準データ抽出部２１は、処理を中止する。そして、基準データ抽出部２１に代わって、変形データ抽出部２４が、その指定された領域を変形画像領域とし、変形画像領域の抽出と教師データの生成に関する処理を行う。

また、上述した説明では、基準画像領域と拡大画像領域と縮小画像領域と変形画像領域は矩形状であったが、それ以外の形状であってもよい。

＜第２実施形態＞
以下に、本発明に係る第２実施形態を説明する。なお、第２実施形態の説明において、第１実施形態の辞書学習装置と情報処理装置における構成部分の名称と同一名称部分には同一符号を付し、その共通部分の重複説明は省略する。

第２実施形態の辞書学習装置は、第１実施形態と同様に、情報処理装置１の制御装置２が参照する辞書を教師データ有り学習手法により学習する装置であり、ここでは、認識対象の物体から検知対象を一つ検知する検知処理で使用する辞書を学習する。第２実施形態の辞書学習装置は、第１実施形態の辞書学習装置１０と同様に、図１に表されるような構成を備える。ただ、第１実施形態の辞書学習装置１０と、第２実施形態の辞書学習装置１０とには、認識対象の物体から検知する検知対象の数が一つであることによる次のような相違がある。

すなわち、第２実施形態では、認識対象の物体における検知対象が中心部に位置している画像領域が、基準画像領域、拡大画像領域、縮小画像領域、変形画像領域として、辞書学習装置１０により撮影画像から抽出される。

具体例を挙げると、辞書学習装置１０により学習される辞書を利用する情報処理装置１は、移動可能なロボット等の移動体に搭載されるとする。情報処理装置１の検知部６は、図１５に表されるような目印８３の中心部を認識対象の物体における検知対象Ｍとして検知する機能を備えるとし、処理部７は検知対象Ｍに向かって移動体を移動させるべく移動手段を制御する機能を備えるとする。第２実施形態の辞書学習装置１０は、そのような情報処理装置１の検知部６が利用する辞書を学習するとする。なお、認識対象の物体（目印８３）が配設される場所は限定されず、認識対象の物体（目印８３）は、用途に応じた適宜な場所（例えば、建物の壁）に配設される。

このような場合には、図１６に表されるように検知対象Ｍを中心とする基準画像領域Ｇｓと拡大画像領域Ｇｅと縮小画像領域Ｇｒが、それぞれ、基準データ抽出部２１と拡大データ抽出部２２と縮小データ抽出部２３により、撮影画像４２から抽出される。

すなわち、基準データ抽出部２１は、例えば、撮影装置４０による撮影画像が表示装置６０に表示されている状態において、ユーザに検知対象Ｍを指定する操作を促すメッセージ等の表示を表示制御部２６に要求する。その要求に応じた表示制御部２６による表示装置６０の表示を受けて、ユーザが入力装置５０の操作により撮影画像において検知対象（目印８３の中心部）Ｍを指定したとする。この場合には、基準データ抽出部２１は、さらに、検知対象Ｍを中心部とする基準画像領域Ｇｓをユーザに指定させる処理を実行する。ここでの基準画像領域Ｇｓとは、検知対象Ｍが中心部に位置していることと、認識対象の物体の全体が含まれていることと、認識対象の物体以外の背景の入り込みが抑えられていることとの全てを満たすという基準抽出条件を満たす画像領域である。

さらに、ユーザが入力装置５０の操作により撮影画像４２において基準画像領域Ｇｓを指定した場合には、基準データ抽出部２１は、指定された基準画像領域Ｇｓの撮影画像４２における位置と広さに関連する情報を基準切り出し情報として表示制御部２６から取得する。取得した基準切り出し情報は、例えば基準データ抽出部２１によって記憶装置３０に格納される。

さらに、基準データ抽出部２１は、表示制御部２６から取得した基準切り出し情報に基づいて撮影画像から基準画像領域Ｇｓの画像を抽出する。さらにまた、基準データ抽出部２１は、抽出した基準画像領域Ｇｓの画像に、ユーザにより指定された検知対象Ｍの位置を表す位置情報を関連付けることにより、基準画像領域Ｇｓの画像と、当該基準画像領域Ｇｓにおける検知対象の位置情報とを含む教師データを生成する。このように生成された教師データは、記憶装置３０に格納される。

拡大データ抽出部２２および縮小データ抽出部２３は、それぞれ、第１実施形態における拡大データ抽出部２２および縮小データ抽出部２３と同様に、拡大画像領域Ｇｅと縮小画像領域Ｇｒを撮影画像４２から抽出し、さらに、教師データを生成する。生成された教師データは記憶装置３０に格納される。なお、前述したように、抽出される拡大画像領域Ｇｅと縮小画像領域Ｇｒにおいては、その中心部に検知対象Ｍが位置している。

変形データ抽出部２４は、撮影装置４０による撮影画像が表示装置６０に表示されている状態において、例えば図１７に表されるような変形状態の認識対象の物体における検知対象Ｍを指定する操作をユーザに促すメッセージ等の表示を表示制御部２６に要求する。その要求に応じた表示制御部２６による表示装置６０の表示を受けて、ユーザが入力装置５０の操作により撮影画像において検知対象（目印８３の中心部）Ｍを指定したとする。この場合には、変形データ抽出部２４は、さらに、検知対象Ｍを中心部とする変形画像領域をユーザに指定させる処理を実行する。ここでの変形画像領域とは、検知対象Ｍが中心部に位置していることと、認識対象の物体の全体が含まれていることと、認識対象の物体以外の背景の入り込みが抑えられていることとの全てを満たすという抽出条件を満たす画像領域である。

さらに、ユーザが入力装置５０の操作により撮影画像において変形画像領域を指定した場合には、変形データ抽出部２４は、撮影画像における指定された変形画像領域の位置と広さに関連する情報を変形切り出し情報として表示制御部２６から取得する。取得した基準切り出し情報は、例えば変形データ抽出部２４によって記憶装置３０に格納される。

さらに、変形データ抽出部２４は、表示制御部２６から取得した変形切り出し情報に基づいて撮影画像から変形画像領域の画像を抽出する。さらにまた、変形データ抽出部２４は、抽出した変形画像領域の画像に、ユーザにより指定された検知対象Ｍの位置を表す位置情報を関連付けることにより、変形画像領域の画像と、当該変形画像領域における検知対象の位置情報とを含む教師データを生成する。このように生成された教師データは、記憶装置３０に格納される。

第２実施形態の辞書学習装置１０は、上記のように基準画像領域と拡大画像領域と縮小画像領域と変形画像領域を撮影画像から抽出し、抽出した画像領域に基づく教師データを利用して辞書を学習する。第２実施形態の辞書学習装置１０における上記以外の構成は第１実施形態の辞書学習装置１０と同様である。

第２実施形態の辞書学習装置１０は、上記のように認識対象の物体における検知対象が一つである場合においても、第１実施形態と同様に、基準画像領域Ｇｓだけでなく、拡大画像領域Ｇｅと縮小画像領域Ｇｒをも撮影画像から抽出して教師データを生成する。これにより、第１実施形態と同様に、第２実施形態の辞書学習装置１０も、教師データの生成数とバリエーションを増加することができるため、学習量の増加と学習内容の拡大により辞書の信頼性を高めることができる。つまり、第２実施形態の辞書学習装置１０は、情報処理装置１において検知される検知対象の検知位置の確からしさを高めることができる。

ところで、仮に、辞書学習装置１０が拡大画像領域Ｇｅと縮小画像領域Ｇｒに基づいた教師データを用いずに生成した辞書を利用して、情報処理装置１の検知部６が検知処理を行った場合に、次のような問題が発生する虞がある。つまり、その問題とは、撮影画像に認識対象の物体における検知対象が映っているのにも拘わらず、検知部６が検知対象を検知できないという問題である。この問題が発生する原因の一つは、例えば、撮影画像において検知処理の対象とする画像領域をユーザが入力装置５０を利用して指定した場合に、その検知対象の画像領域が認識対象の物体よりも広すぎて背景の情報が多く含まれていることに因ると考えられる。また、別の原因の一つは、ユーザにより指定された検知対象の画像領域が認識対象の物体全体を含まないことに因ると考えられる。

これに対し、第２実施形態の辞書学習装置１０は、認識対象の物体における背景の情報をも考慮して辞書を学習させるべく、拡大画像領域Ｇｅに基づいた教師データを生成する。また、辞書学習装置１０は、認識対象の物体における一部の情報が含まれていない場合を考慮して辞書を学習させるべく、縮小画像領域Ｇｒに基づいた教師データを生成する。このため、辞書学習装置１０は、上述したような検知対象を検知できないという問題の発生を低減することができる辞書を生成できる。このような辞書学習装置１０により生成された辞書を利用することにより、情報処理装置１は、検知対象の検知率を高めることができる。

なお、第２実施形態では、認識対象の物体として、図１５に表されるような静止している物体を例にして説明している。これに代えて、認識対象の物体が動く物体であっても、第２実施形態の辞書学習装置１０は、上記同様に、情報処理装置１の検知部６が利用する辞書を生成することができる。この場合には、検知対象は、例えば、認識対象の物体における重心に応じた部位とする。図１８には認識対象の物体の一例が表されている。図１８における認識対象の物体は人型ロボット８５の胴体部分であり、その検知対象は人型ロボット８５の重心に応じた部位Ｍである。図１９には、図１８における認識対象の物体に関し、辞書学習装置１０における制御装置２０の基準データ抽出部２１と拡大データ抽出部２２と縮小データ抽出部２３が抽出する基準画像領域と拡大画像領域と縮小画像領域の画像の具体例が表されている。この具体例においても、検知対象Ｍは、基準画像領域と拡大画像領域と縮小画像領域における中心部に位置している。また、図２０は、図１８における認識対象の物体に関し、変形データ抽出部２４が抽出する変形画像領域の画像の具体例が表されている。これらのような変形画像領域の画像においても、その中心部は認識対象の物体（人型ロボット８５）における重心に応じた部位が位置している。図１９と図２０に表されるような様々な画像領域の画像に基づいた教師データを利用して辞書学習装置１０が学習した辞書を利用することにより、情報処理装置１は、検知部６の検知処理の性能を高めることができる。例えば、情報処理装置１の検知部６は、認識対象の物体である人型ロボット８５の脚と片腕が他の物体によって隠れているような場合であっても人型ロボット８５の位置を検知できることが本発明者の実験により確認されている。これにより、情報処理装置１は、処理部７による例えば認識対象の物体の追尾処理の性能を高めることができる。なお、人型ロボット８５などの移動体である認識対象の物体は、水中で動作する移動体に限定されず、水中で動作する移動体や、水中と陸上の両方で動作可能な移動体や、空中や宇宙で移動あるいは飛行する移動体であってもよい。

＜第３実施形態＞
以下に、本発明に係る第３実施形態を説明する。なお、第３実施形態の説明において、第１や第２の実施形態の辞書学習装置と情報処理装置における構成部分の名称と同一名称部分には同一符号を付し、その共通部分の重複説明は省略する。

第３実施形態の辞書学習装置１０は、第１又は第２の実施形態における辞書学習装置１０の構成に加えて、物体認識処理で利用する参考データを含む辞書を学習する機能を備える。物体認識処理とは、情報処理装置１の制御装置２の検知部６が認識対象の物体から検知対象を検知する検知処理の前に行う処理であり、撮影画像において認識対象の物体を検知（認識）する処理である。つまり、第３実施形態の辞書学習装置１０は、情報処理装置１において次のような処理を実行する検知部６で利用される辞書を学習する。

すなわち、検知部６は、まず、図２３Ａに表されるような撮影画像４２において認識対象の物体（例えば魚８０）を検知する。この処理が物体認識処理であり、ここでは、撮影画像４２において、認識対象の物体（魚８０）を含む矩形状の画像領域Ｚが検知部６により検知される。この物体認識処理では、検知部６は、物体認識用の参考データを含む辞書（ここでは、辞書５Ａ（図２参照）と記すこととする）を利用する。辞書５Ａは情報処理装置１の記憶装置３に格納されている。

その後、検知部６は、検知された画像領域Ｚにおいて、図２３Ｂに表されるように、認識対象の物体（魚８０）における検知対象（例えば、点Ｈ，Ｔ，Ｐ，Ｂ）を検知する。この検知処理では、検知部６は、検知対象検知用の参考データを含む辞書（ここでは、辞書５Ｂ（図２参照）と記すこととする）を利用する。辞書５Ｂも、辞書５Ａと同様に、情報処理装置１の記憶装置３に格納されている。

第１と第２の実施形態における辞書学習装置１０は、上述したような認識対象の物体において検知対象を検知する処理で利用する辞書５Ｂを学習する機能を備えている。第３実施形態の辞書学習装置１０は、辞書５Ｂを学習する機能に加えて、物体認識処理で利用する辞書５Ａをも学習する機能を備えている。

すなわち、第３実施形態の辞書学習装置１０は、図１に表される構成に加えて、図２４に表されているような物体認識データ生成部２７を備えている。なお、図２４では、辞書５Ｂの学習に関わる基準データ抽出部２１と拡大データ抽出部２２と縮小データ抽出部２３と変形データ抽出部２４の図示が省略されている。

物体認識データ生成部２７は、辞書５Ａの学習に利用する教師データを生成する機能を備えている。例えば、物体認識データ生成部２７は、撮影装置４０による撮影画像が表示装置６０に表示されている状態において、ユーザに認識対象の物体を指定する操作を促すメッセージ等の表示を表示制御部２６に要求する。第３実施形態では、撮影画像において指定される認識対象の物体の数は１つとは限らず、撮影画像における認識対象の物体の数に応じて複数の認識対象の物体を指定することをユーザに促すメッセージ等が表示制御部２６によって表示装置６０に表示される。この表示装置６０の表示を受けて、ユーザが入力装置５０を操作し、撮影画像において認識対象の物体を含む物体検知領域が指定されたとする。図２５～図２７は、物体検知領域が指定（設定）された撮影画像の具体例が表されている。これら具体例では、認識対象の物体は魚体であり、撮影画像４２において、認識対象の物体を含む物体検知領域は矩形状の画像領域Ｋにより指定されている。また、第３実施形態では、表示装置６０により表示されている撮影画像４２には、物体検知領域Ｋを明示すべく矩形状の枠が表示される。

図２５～図２７の具体例にも表されるように、撮影画像４２において指定される物体検知領域Ｋの数は、撮影画像４２における認識対象の物体の数を含む撮影状態に応じて異なる。つまり、撮影画像４２における認識対象の物体の数が増加するに従って、認識可能な物体の数が増加するから物体検知領域Ｋの数も増加する。ただ、撮影画像４２に映っている認識対象の物体の数が同じでも、物体同士の重なり等に因り認識可能な物体の数が変化する等の理由により、撮影画像４２における認識対象の物体の数と、物体検知領域Ｋの数との変化傾向が比例関係になるとは限らない。

また、第３実施形態では、基本姿勢である認識対象の物体だけが指定されるのではなく、例えば図１１に表されるような変形状態の認識対象の物体をも指定されるように、例えば、その旨のメッセージが表示装置６０に表示される。これにより、大きさが異なる複数の認識対象の物体や、基本姿勢から回転している認識対象の物体や、物体の一部が変形している認識対象の物体（例えば、くねっている魚体や、口が開いている魚体）なども指定されることとなる。さらに、撮影装置４０に近い認識対象の物体や遠い認識対象の物体や、他の物体に一部が隠れている認識対象の物体などをも指定されることとなる。

物体認識データ生成部２７は、指定された物体検知領域Ｋの情報を物体情報として撮影画像４２に関連付けることにより、物体情報が関連付けられた撮影画像のデータを教師データとして生成し、生成した教師データを記憶装置３０に格納する。

学習部２５は、物体認識データ生成部２７により生成され記憶装置３０に格納されている教師データを利用して、情報処理装置１の検知部６における物体認識処理で利用する辞書５Ａを学習により生成する機能を備える。学習部２５が辞書５Ａの学習に利用する教師データは、例えば映っている認識対象の物体の数や、画像の鮮明度などの撮影状況が異なる撮影画像に基づいた多数のデータである。学習部２５が辞書５Ａを学習する手法は限定されず、ここでは、その説明は省略される。

第３実施形態の辞書学習装置１０は、第１又は第２の実施形態の構成を備えているので、第１又は第２の実施形態と同様の効果を得ることができる。さらに、第３実施形態の辞書学習装置１０は、情報処理装置１の検知部６が物体認識処理で利用する辞書５Ａを学習することができる。辞書学習装置１０は、撮影画像４２から抽出された１つの認識対象の物体の画像を教師データとして利用するのではなく、認識対象の物体を含む画像領域を物体毎に表す物体情報が関連付けられた撮影画像全体のデータを教師データとして辞書５Ａを学習する。このような教師データを利用した学習により生成された辞書５Ａを利用することにより、情報処理装置１の検知部６が実行する物体認識処理において、検知部６は、撮影画像４２において認識（検知）する認識対象の物体の数を増加させることができる。

なお、上述した説明では、物体認識データ生成部２７は、ユーザにより指定された物体検知領域Ｋの情報を物体情報として撮影画像４２に関連付けることにより、教師データを生成している。これに代えて、物体認識データ生成部２７は、次のような処理により、物体検知領域Ｋの情報である物体情報を関連付けた撮影画像のデータを教師データとして生成してもよい。例えば、記憶装置３０には予め物体参考データが登録されているとする。その物体参考データは、例えば、撮影画像から抽出された認識対象の物体単独の画像を教師データとして利用した学習により得られるデータである。物体認識データ生成部２７は、そのような物体参考データを利用して撮影画像４２において認識対象の物体（物体検知領域Ｋ）を検知する。ここでは、図２５～図２７に表されるように、物体認識データ生成部２７は、撮影画像４２における認識対象の物体の数に応じた数の物体検知領域Ｋを検知する。そして、物体認識データ生成部２７は、検知した物体検知領域Ｋの情報を物体情報として撮影画像４２に関連付けることにより、教師データを生成する。

また、第３実施形態では、辞書学習装置１０の学習部２５は、辞書５Ａと辞書５Ｂを学習する例を説明している。これに代えて、例えば、学習部２５は、基準データ抽出部２１と拡大データ抽出部２２と縮小データ抽出部２３と変形データ抽出部２４と物体認識データ生成部２７によりそれぞれ生成された教師データを利用して、１つの辞書を学習してもよい。この場合には、情報処理装置１の検知部６は、その辞書を利用して、撮影画像から認識対象の物体を検知し、かつ、認識対象の物体における検知対象を検知する。

さらに、辞書学習装置１０が生成する辞書に関連する認識対象の物体は第１～第３の実施形態の説明に利用した魚体やマークや人型ロボットに限定されない。さらに、第３実施形態では、情報処理装置１の検知部６が辞書５Ａを利用して撮影画像４２において１種類の認識対象の物体を検知する例を説明している。これに代えて、例えば、情報処理装置１は、認識対象の物体の一つとしての鰤を物体認識処理により検知する際に利用する辞書５Ａ＿１と、別の認識対象の物体としての鯛を物体認識処理により検知する際に利用する辞書５Ａ＿２とを備えてもよい。この場合には、情報処理装置１の検知部６は、辞書５Ａ＿１，５Ａ＿２を利用することにより、撮影画像４２から鰤と鯛を種別かつ個別（１体ずつ）に検知することが可能となる。このように、検知部６は、物体認識処理を実行する場合に、複数の辞書を利用することにより、撮影画像から複数種の認識対象の物体を検知してもよい。

さらに、第３実施形態では、撮影画像の全体に亘り物体検知領域Ｋが指定される例を示しているが、例えば、撮影画像において物体検知領域Ｋを指定する領域が例えば撮影装置４０のキャリブレーション処理に関連して定まる領域に制限されていてもよい。

さらにまた、第３実施形態の辞書学習装置１０は、辞書５Ａと辞書５Ｂの両方の辞書を学習する機能を備えている。これに代えて、辞書学習装置１０は、基準データ抽出部２１と拡大データ抽出部２２と縮小データ抽出部２３と変形データ抽出部２４が省略され、辞書５Ａを学習する装置であってもよい。

＜その他の実施形態＞
なお、本発明は第１～第３の実施形態に限定されず、様々な実施の態様を採り得る。例えば、図２１には、本発明に係るその他の実施形態の辞書学習装置の構成がブロック図により表されている。図２２には、図２１における辞書学習装置により生成された辞書を利用する情報処理装置の構成がブロック図により表されている。図２１における辞書学習装置１００は、基準データ抽出部１０１と拡大データ抽出部１０２と縮小データ抽出部１０３と学習部１０４を備える。基準データ抽出部１０１は、認識対象の物体を撮影する撮影装置による撮影画像から、認識対象の物体における検知対象を含む基準となる基準画像領域の画像を基準切り出し情報に基づいて抽出する機能を備える。拡大データ抽出部１０２は、基準画像領域を含み基準画像領域よりも広い画像領域であって、認識対象の物体以外が表されている背景を含む拡大画像領域の画像を拡大切り出し情報に基づいて撮影画像から抽出する機能を備える。縮小データ抽出部１０３は、検知対象を含み基準画像領域よりも狭い画像領域であって、認識対象の物体が部分的に領域外となる縮小画像領域の画像を縮小切り出し情報に基づいて撮影画像から抽出する機能を備える。学習部１０４は、撮影画像から検知対象を検知する検知処理で参照する参考データを含む辞書を、基準画像領域と拡大画像領域と縮小画像領域の画像を利用して学習する機能を備える。

情報処理装置１１０は、検知部１１１と処理部１１２と記憶装置１１３を備える。記憶装置１１３は、辞書学習装置１００により学習（生成）された辞書１１４を保持する記憶装置である。検知部１１１は、撮影装置による撮影画像から認識対象の物体における検知対象を記憶装置１１３の辞書１１４を利用して検知する機能を備える。処理部１１２は、検知された検知対象を利用した処理を実行する機能を備える。

上記のような辞書学習装置１００および情報処理装置１１０は上記のような構成を備えることにより、第１と第２の実施形態と同様の効果を奏することができる。

以上、上述した実施形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。

この出願は、２０１８年５月２３日に出願された日本出願特願２０１８－０９８７００および２０１８年９月２６日に出願された日本出願特願２０１８－１７９７７５を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１，１１０情報処理装置
３，３０記憶装置
５，１１４辞書
６，１１１検知部
７，１１２処理部
１０，１００辞書学習装置
２１，１０１基準データ抽出部
２２，１０２拡大データ抽出部
２３，１０３縮小データ抽出部
２４変形データ抽出部
２７物体認識データ生成部
２５，１０４学習部

Claims

認識対象の物体を撮影する撮影装置による撮影画像から、前記認識対象の物体における検知対象を含む基準となる基準画像領域の画像を基準切り出し情報に基づいて抽出する基準データ抽出手段と、
前記基準画像領域を含み前記基準画像領域よりも広い画像領域であって、前記認識対象の物体以外が表されている背景を含む拡大画像領域の画像を拡大切り出し情報に基づいて前記撮影画像から抽出する拡大データ抽出手段と、
前記検知対象を含み前記基準画像領域よりも狭い画像領域であって、前記認識対象の物体が部分的に領域外となる縮小画像領域の画像を縮小切り出し情報に基づいて前記撮影画像から抽出する縮小データ抽出手段と、
前記撮影画像から、変形状態の前記認識対象の物体を含む変形画像領域の画像を変形切り出し情報に基づいて抽出する変形データ抽出手段と、
前記撮影画像から前記検知対象を検知する検知処理で参照する参考データを含む辞書を、前記基準画像領域と前記拡大画像領域と前記縮小画像領域と前記変形画像領域の画像を利用して学習する学習手段と
を備える辞書学習装置。
前記基準画像領域と前記拡大画像領域と前記縮小画像領域は、その中心に前記検知対象が位置している画像領域である請求項１に記載の辞書学習装置。
前記基準画像領域には、互いに異なる複数の前記検知対象が含まれており、
前記拡大画像領域と前記縮小画像領域は、それら複数の前記検知対象を含む画像領域である請求項１に記載の辞書学習装置。
前記基準画像領域と前記拡大画像領域と前記縮小画像領域との各画像領域における前記検知対象の位置情報は、それら画像領域内において設定され、かつ、前記検知対象が中心部に位置している部分領域の位置を利用して表される請求項３に記載の辞書学習装置。
前記認識対象の物体が含まれている画像領域を物体毎に表す物体情報が関連付けられ、かつ、前記物体情報の数が前記撮影画像における前記認識対象の物体の撮影状態に応じて異なる前記撮影画像のデータを生成する物体認識データ生成手段をさらに備え、
前記学習手段は、前記認識対象の物体を検知する物体認識処理で参照する参考データを含む辞書を、前記物体情報が付与された前記撮影画像のデータを利用して学習する機能をさらに備える請求項１乃至請求項４の何れか一項に記載の辞書学習装置。
認識対象の物体を撮影する撮影装置による撮影画像から、前記認識対象の物体における検知対象を含む基準となる基準画像領域の画像を基準切り出し情報に基づいて抽出する基準データ抽出手段と、前記基準画像領域を含み前記基準画像領域よりも広い画像領域であって、前記認識対象の物体以外が表されている背景を含む拡大画像領域の画像を拡大切り出し情報に基づいて前記撮影画像から抽出する拡大データ抽出手段と、前記検知対象を含み前記基準画像領域よりも狭い画像領域であって、前記認識対象の物体が部分的に領域外となる縮小画像領域の画像を縮小切り出し情報に基づいて前記撮影画像から抽出する縮小データ抽出手段と、前記撮影画像から、変形状態の前記認識対象の物体を含む変形画像領域の画像を変形切り出し情報に基づいて抽出する変形データ抽出手段と、前記撮影画像から前記検知対象を検知する検知処理で参照する参考データを含む辞書を、前記基準画像領域と前記拡大画像領域と前記縮小画像領域と前記変形画像領域の画像を利用して学習する学習手段とを備える辞書学習装置により学習された辞書を保持する記憶装置と、
前記撮影画像から前記認識対象の物体における前記検知対象を前記記憶装置の辞書を利用して検知する検知手段と、
検知された前記検知対象を利用した処理を実行する処理手段と
を備える情報処理装置。
コンピュータによって、
認識対象の物体を撮影する撮影装置による撮影画像から、前記認識対象の物体における検知対象を含む基準となる基準画像領域の画像を基準切り出し情報に基づいて抽出し、
前記基準画像領域を含み前記基準画像領域よりも広い画像領域であって、前記認識対象の物体以外が表されている背景を含む拡大画像領域の画像を拡大切り出し情報に基づいて前記撮影画像から抽出し、
前記検知対象を含み前記基準画像領域よりも狭い画像領域であって、前記認識対象の物体が部分的に領域外となる縮小画像領域の画像を縮小切り出し情報に基づいて前記撮影画像から抽出し、
前記撮影画像から、変形状態の前記認識対象の物体を含む変形画像領域の画像を変形切り出し情報に基づいて抽出し、
前記撮影画像から前記検知対象を検知する検知処理で参照する参考データを含む辞書を、前記基準画像領域と前記拡大画像領域と前記縮小画像領域と前記変形画像領域の画像を利用して学習する辞書学習方法。
認識対象の物体を撮影する撮影装置による撮影画像から、前記認識対象の物体における検知対象を含む基準となる基準画像領域の画像を基準切り出し情報に基づいて抽出する処理と、
前記基準画像領域を含み前記基準画像領域よりも広い画像領域であって、前記認識対象の物体以外が表されている背景を含む拡大画像領域の画像を拡大切り出し情報に基づいて前記撮影画像から抽出する処理と、
前記検知対象を含み前記基準画像領域よりも狭い画像領域であって、前記認識対象の物体が部分的に領域外となる縮小画像領域の画像を縮小切り出し情報に基づいて前記撮影画像から抽出する処理と、
前記撮影画像から、変形状態の前記認識対象の物体を含む変形画像領域の画像を変形切り出し情報に基づいて抽出する処理と、
前記撮影画像から前記検知対象を検知する検知処理で参照する参考データを含む辞書を、前記基準画像領域と前記拡大画像領域と前記縮小画像領域と前記変形画像領域の画像を利用して学習する処理と
をコンピュータに実行させるコンピュータプログラム。