JP6151908B2

JP6151908B2 - 学習装置、識別装置、およびそのプログラム

Info

Publication number: JP6151908B2
Application number: JP2012250151A
Authority: JP
Inventors: 吉彦河合; 藤井　真人; 真人藤井
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2012-11-14
Filing date: 2012-11-14
Publication date: 2017-06-21
Anticipated expiration: 2032-11-14
Also published as: JP2014099027A

Description

本発明は、画像特徴量算出装置、学習装置、識別装置、およびそのプログラムに関する。特に、映像や画像に含まれる事物を検出するために画像特徴量を算出する画像特徴量算出装置、学習装置、識別装置、およびそのプログラムに関する。

映像の内容を解析するための方法として、映像フレームから特徴量を抽出し、その特徴量に基づいて特定の被写体が映っているか否かを判定する手法が存在する。また、そのような判定を行なうための機械学習を行なう手法が存在する。この学習においては、正例あるいは負例のラベルが付与された学習データ（画像）を用いて、判定器のパラメーターを調整する。つまり、特定の被写体が移っているか否かを示す正解が付与された画像による学習を行なうものである。この手法を用いる場合、学習手法自体のフレームワークを変更することなく、学習データを変更するだけで、様々な被写体を検出するための判定器を実現することができることが特徴である。

フレーム画像を、特定の被写体が映っているかいないかの２つのクラスに分類するためには、まず、画像データを何らかの特徴ベクトルに変換する。特徴ベクトルを得るための最も単純な手法の例は、画像全体の各画素のＲ（赤）、Ｇ（緑）、Ｂ（青）それぞれの画素値に関する統計量（たとえば平均値や分散など）を要素として並べ、数次元の特徴ベクトルを算出する方法である。また、特徴ベクトルを得るためのその他の手法の例は、画像全体の周波数成分を算出し、それらの強度分布を特徴ベクトルとする（周波数成分ごとの強度値を要素として並べた特徴ベクトルを得る）方法である。また、さらに他の手法として、非特許文献１には、フレーム画像から特徴点を検出し、その周辺領域から勾配特徴を算出した後、それらの出現頻度ヒストグラムを求めることによって、そのフレーム画像の特徴ベクトルを算出する方式が示されている。この方式は、バッグ・オブ・ビジュアル・ワーズ（Bag of Visual Words, BoVW）法と呼ばれる。

また、非特許文献２には、フレーム画像を複数の領域に分割して、それらの領域ごとに特徴ベクトルを算出し、算出されたベクトルを連結することでフレーム画像全体の特徴ベクトルを算出する方式が示されている。具体的に示されているフレーム画像の分割方法は、たとえば縦横２×２分割、あるいは縦横１×３分割といったものである。非特許文献２に記載された技術は、これにより、フレーム画像内における被写体の位置が特徴ベクトルに反映できないという問題や、被写体とそれ以外の背景領域の特徴が混合してしまうという問題の解決を図っている。

G. Csurka, C. Bray, C. Dance and L. Fan, "Visual categorization with bags of keypoints,", In Proc. ECCV Workshop on Statistical Learning in Computer Vision, pp. 59-74, ２００４年 S.-F. Chang, J. He, Y.-G. Jiang, E.E. Khoury, C.-W. Ngo, A. Yanagawa and E. Zavesky, ``Columbia University/VIREO-City/IRIT TRECVID2008 high-level feature extraction and interactive video search,'' In Proc. TRECVID 2008 Workshop, ２００８年

しかしながら、非特許文献２に記載の技術では、フレーム画像を分割する際に、たとえば縦横２×２分割あるいは縦横１×３分割といったように、固定サイズ、固定位置での分割を行なってしまっている。このように分割のサイズや方法を固定してしまうと、被写体のサイズ変動に対する頑健性が不足してしまうという問題が生じる。たとえば同じ自動車であっても、フレーム画像全体にアップで被写体として映る場合もあれば、フレーム画像の隅のほうに小さく映る場合もある。分割された領域の画像サイズを固定することによって、そのサイズから外れるような自動車を検出できなくなるおそれもある。

また、別の問題として、フレーム画像を分割した際に、目的とする被写体が領域の境界をまたぐ場合もあり得る。被写体が領域の境界をまたいだ場合は、分割された画像から得られる特徴ベクトルに、被写体全体の情報が正確に反映されなくなってしまう。

これらの問題は、フレーム画像から特定の被写体を検出する際の精度の低下につながる。本発明は、このような事情を考慮して為されたものであり、高精度な被写体検出を行なうための画像特徴量算出装置、学習装置、識別装置、およびそのプログラムを提供するものである。

［１］上記の課題を解決するため、本発明の一態様による画像特徴量算出装置は、入力画像に含まれる複数のサイズの領域画像の範囲を指定する領域画像抽出部と、前記入力画像に基づき、前記領域画像抽出部によって指定された前記領域画像の各々の特徴量を算出するとともに、複数の前記領域画像から算出された特徴量を連結することによって前記入力画像の特徴量を生成する特徴量算出部とを具備する。

ここで「領域画像」とは、入力画像の一部分の領域の画像である。なお、入力画像と全く同一の領域の画像もまた領域画像である。領域画像が複数のサイズであるということは、縦および横のサイズ（画素数等の単位）が様々な領域画像を用いることを表わす。複数のサイズは、所定の差で段階的に変化する画素数である場合（つまり、矩形画像の縦または横の辺の長さが等差数列を為すように段階的な領域画像を用いる場合）もあり得る。また、所定の比で段階的に変化する画素数である場合（つまり、矩形画像の縦または横の辺の長さが等比数列を為すように段階的な領域画像を用いる場合）もあり得る。また、領域画像のサイズが、より不規則に段階的になるような場合もあり得る。
また「領域画像の各々の特徴量」とは、上記の領域画像の一つから得られる画像の特徴量（スカラーまたはベクトル）である。
また「複数の領域画像から算出された特徴量を連結する」とは、例えば、各々の領域画像から得られた上記の特徴量を単純に要素として並べる（連結する）ことによって特徴ベクトルを得る操作である。

「複数のサイズの領域画像の範囲を指定する」ことと「指定された領域画像の各々の特徴量を算出するとともに、複数の領域画像から算出された特徴量を連結することによって入力画像の特徴量を生成する」こととの組合せは、本実施形態の技術的特徴を有する構成の一つである。領域画像が複数のサイズを有することにより、入力画像に含まれる被写体が、ある領域画像からはみ出す場合や、ある領域画像の中に相対的に小さく含まれる場合や、その中間である領域画像に程よく収まる場合などが生じる。被写体が領域画像からはみ出す場合には、画像におけるその被写体の特徴をその領域画像から良好に抽出することができないことがある。被写体が領域画像の中に小さく写りこむ場合には、その領域画像のから抽出した特徴量においてその被写体の特徴の情報が不十分であることがある。被写体が領域画像内に程よく収まる場合には、その領域画像から抽出した特徴量が、情報として、被写体の特徴を良好に表わす。そして、複数の領域画像の各々から算出された特徴量を連結することによって、ある被写体の画像としての特徴が、連結された特徴量のいずれかの場所に良好に含まれている可能性が相対的に高くなる。したがって、このような技術構成により、被写体が写りこむ大きさがたとえ変化しても、その被写体の特徴を良好に捉えた特徴量を抽出することができる。

［２］また、本発明の一態様による学習装置は、［１］に記載の画像特徴量算出装置と、前記入力画像が正例または負例のいずれであるかを示す情報と、前記特徴量算出部によって生成された前記入力画像の特徴量の組合せとに基づいて、未知の入力画像が正例であるか負例であるかのいずれかを識別するための識別器のパラメーターを求める識別器学習部とを具備する。
ここで、識別器のパラメーターを求める処理は、学習用データに基づいた機械学習処理である。識別器は、所定のモデルにより、未知の入力画像から抽出された特徴量を入力とし、この特徴量とパラメーターとを用いた計算の結果として、その入力画像が正例であるか負例であるかを表わす情報を出力する。パラメーターは通常は複数の変数であり、識別器学習部の処理を行なうことより、最適なパラメーター値の集合が得られる。「正例であるか負例であるか」とは、入力画像が、所定のクラスターに属するか否かということを表わす。具体例としては、入力画像に所定の被写体（人、車、山、犬、猫など）が写っているか否かを表わす。これにより、良好な特徴量を用いた学習が可能になる。

［３］また、本発明の一態様は、上記の学習装置において、前記領域画像抽出部は、同一サイズの複数の前記領域画像の少なくとも一部が互いに重なり合うように、前記領域画像の範囲を指定することを特徴とする。
これは、実施形態に記載する設定値αまたはβの値を１未満（０＜α＜１または０＜β＜１）とすることにより実現される。これにより、特徴量抽出部は、被写体の特徴を良好に表わす特徴量を抽出できる可能性が高くなる。
さらに、０＜α≦０．５としたとき、または０＜α≦０．５としたときには、元のキーフレーム画像の中の任意の画素が、同一サイズの少なくとも２個の領域画像の範囲に含まれることとなる。つまりこの場合は、被写体を適切なサイズの領域画像内に捉えることのできる可能性がよりいっそう高まる。つまり、より良好な特徴量を抽出できるようになる。

［４］また、本発明の一態様による識別装置は、［１］に記載の画像特徴量算出装置と、予め学習済みのパラメーターと、前記特徴量算出部が生成した前記入力画像の特徴量とに基づいて、前記入力画像が正例であるか負例かを識別する識別部とを具備する。
これにより、画像特徴量算出装置で得られた画像特徴量と、学習済みのパラメーターとに基づき、入力画像が正例であるか負例であるかを識別できる。

［５］また、本発明の一態様は、上記の識別装置において、学習用データとして入力された前記入力画像が正例または負例のいずれであるかを示す情報と、前記特徴量算出部によって生成された前記入力画像の特徴量の組合せとに基づいて、未知の入力画像が正例であるか負例であるかのいずれかを識別するための識別器のパラメーターを求める識別器学習部をさらに具備し、前記識別部は、前記識別器学習部によって求められた前記パラメーターを前記予め学習済みのパラメーターとして用いることによって、未知の前記入力画像が正例であるか負例かを識別することを特徴とする。
これにより、この識別装置は、学習処理と識別処理とを行なう。

［６］また、本発明の一態様は、上記の識別装置において、前記領域画像抽出部は、同一サイズの複数の前記領域画像の少なくとも一部が互いに重なり合うように、前記領域画像の範囲を指定することを特徴とする。
同一サイズの複数の前記領域画像の少なくとも一部が互いに重なり合うことにより、被写体の特徴を良好に表わす特徴量を算出することができる可能性が高まる。

［７］また、本発明の一態様は、コンピューターを、入力画像に含まれる複数のサイズの領域画像の範囲を指定する領域画像抽出部、前記入力画像に基づき、前記領域画像抽出部によって指定された前記領域画像の各々の特徴量を算出するとともに、複数の前記領域画像から算出された特徴量を連結することによって前記入力画像の特徴量を生成する特徴量算出部、として機能させるためのプログラムである。

本発明によれば、画像内における被写体の位置やサイズの変化の影響を受けることなく、高精度に被写体の出現を判別することが可能となる。
特に、複数のサイズの領域画像の各々から得られる特徴を情報として維持する特徴量を算出することにより、被写体のサイズ変化に対して頑健な特徴量を得て使用することができる。
また特に、同一サイズの領域画像が少なくとも一部において互いに重なり合うようにして、それらの領域画像を用いることにより、被写体の位置変化に対して頑健な特徴量を得て使用することができる。つまり、グリッド境界に存在する被写体に対しても良好な結果を得ることができる。

本発明の第１実施形態による識別装置の概略機能構成を示したブロック図である。同実施形態による特徴量算出部の詳細な機能構成を示すブロック図である。同実施形態によってフレーム画像を基に抽出される領域画像の範囲を示す概略図である。同実施形態による領域画像抽出部が領域画像を抽出する処理の手順を示すフローチャートである。同実施形態による特徴量算出部が算出する各種の特徴ベクトルと、領域画像抽出部によって抽出される領域画像との関係を示す概略図である。同実施形態における学習用データの構成例を示す概略図である。

次に、本発明の実施形態について、図面を参照しながら説明する。
［第１の実施形態］
図１は、第１の実施形態による識別装置２の概略機能構成を示すブロック図である。図示するように、識別装置２は、内部に学習装置１を備えている。学習装置１は、学習用映像入力部１１と、キーフレーム画像抽出部１３と、領域画像抽出部１５と、特徴量算出部１７と、識別器学習部１９とを含んで構成される。また、識別装置２は、さらに、映像入力部１２と、キーフレーム画像抽出部１４と、領域画像抽出部１６と、特徴量算出部１８と、識別部２０とを含んで構成される。なお、図示していないが、領域画像抽出部１５と特徴量算出部１７との組合せは画像特徴量算出装置として機能する。同様に、領域画像抽出部１６と特徴量算出部１８との組合せは画像特徴量算出装置として機能する。

学習装置１は、読み込んだ学習データに基づいて、識別部２０の機械学習を行なう。
識別装置２は、学習装置１によって学習済みの識別部により、入力映像に特定の被写体が出現するか否かを判定する。

学習用映像入力部１１は、学習用の映像データを外部から取得する。
キーフレーム画像抽出部１３は、学習用映像入力部１１で取得された学習用映像から、キーフレーム画像を抽出する。具体的方法としては、キーフレーム画像抽出部１３は、映像からショット境界を検出して、映像をショットに分割した後、各ショットの冒頭あるいは中間位置からフレーム画像を取得する。なお、ショット境界の検出は、例えば画素値の時間方向の微分値の総和が所定の閾値を超えてピークを示す箇所を検出することにより行なう。また、ショット境界が存在しない映像、あるいはひとつのショットの時間長が非常に長い映像においては、キーフレーム画像抽出部１３は、所定の時間間隔でキーフレーム画像を抽出したり、フレーム間の動きベクトルの大きさが閾値以上となったタイミングでキーフレーム画像を抽出したりするようにする。

領域画像抽出部１５は、キーフレーム画像抽出部１３によって抽出されたキーフレーム画像に含まれる、複数のサイズの領域画像を抽出し、それら領域画像の範囲を指定する。キーフレーム画像抽出部１３は、抽出された領域画像の範囲に関する情報を出力する。
特徴量算出部１７は、キーフレーム画像抽出部１３で抽出されたフレーム画像から、特徴ベクトルを算出する。特徴ベクトルの算出方法については後で詳述する。
識別器学習部１９は、正例あるいは負例のラベルが付与された学習データから、被写体が映っているかどうかを判定するための識別器の学習を行なう。識別器学習部１９への入力データは、キーフレーム画像を基に特徴量算出部１７によって算出された特徴量（特徴ベクトル）であり、各々の入力画像に対応して、「正例」または「負例」のいずれであるかを示すラベルが付随している。識別器学習部１９は、このラベルを正解として使用し、機械学習処理を行なう。識別器学習部１９による学習手法としては、サポートベクターマシン、ニューラルネットワーク、ベイジアンネットワークなどの一般的な機械学習手法を利用できる。なお、学習用データの構成例については、後で図６を参照しながら詳述する。

映像入力部１２は、映像データを外部から取得する。この映像データは、特定の被写体が映っているか否かを判定する対象となる映像のデータである。
キーフレーム画像抽出部１４は、キーフレーム画像抽出部１３と同様の方法によりキーフレーム画像を抽出する。但し、キーフレーム画像抽出部１４が対象とするのは、学習用の映像データではなく、映像入力部１２によって取得された映像データである。
領域画像抽出部１６は、キーフレーム画像抽出部１４によって抽出されたキーフレーム画像について、領域画像抽出部１５と同様の方法により、領域画像の抽出を行なう。
特徴量算出部１８は、特徴量算出部１７と同様の方法により、キーフレーム画像の特徴量を抽出する。
識別部２０は、特徴量算出部１８が算出した特徴量に基づいて、入力画像（未知の画像）が正例であるか負例かを識別する。なお、識別部２０は、識別器学習部１９によって予め学習済みである。言い換えれば、識別部２０が識別のために用いるパラメーターは、識別器学習部１９による学習処理によって、予め最適化されている。

これにより識別装置２は、入力される映像に特定の被写体が映っているか否かを判別する処理を行い、判別結果を出力する。

なお既に述べたように、キーフレーム画像抽出部１３と１４は、同一の機能を有する。また、領域画像抽出部１５と１６は、同一の機能を有する。また、特徴量算出部１７と１８は、同一の機能を有する。したがって、これらの同一機能を有する機能ブロックについては、これら各部を共用として装置を構成するようにしても良い。

図２は、特徴量算出部１７の詳細な機能構成を示すブロック図である。図示するように、特徴量算出部１７は、特徴点検出部１７１と、局所特徴量子化部１７４と、局所特徴ベクトル生成部１７７と、色統計特徴算出部１７２と、色特徴ベクトル生成部１７８と、テクスチャ特徴算出部１７３と、テクスチャ特徴ベクトル生成部１７９と、特徴ベクトル生成部１７０とを含んで構成される。

また、図２に示すように、フレーム画像データが、領域画像抽出部１５と特徴量算出部１７とに入力される。領域画像抽出部１５は、入力されたフレーム画像から、その部分を切り取って得られるグリッド領域の画像（これを「領域画像」と呼ぶ）を順次抽出する。そして、領域画像抽出部１５は、各々の領域画像の範囲を示す情報を局所特徴ベクトル生成部１７７と色特徴ベクトル生成部１７８とテクスチャ特徴ベクトル生成部１７９とに供給する。領域画像の形状は典型的には矩形であり、その場合、領域画像の範囲を示す情報とは、領域画像の左上隅および右下隅それぞれの画素の座標値や、領域画像の左上隅の画素の座標値および縦と横のサイズである。

特徴点検出部１７１は、特徴点検出手法を用いて、入力されるフレーム画像全体から特徴点を抽出する。
局所特徴量子化部１７４は、特徴点検出部１７１によって検出された特徴点の周囲の局所領域の特徴を量子化する。
局所特徴ベクトル生成部１７７は、領域画像ごとの局所特徴量を連結することにより局所特徴ベクトルを生成する。
色統計特徴算出部１７２は、入力されるフレーム画像データを基に、色空間の変換を行い、変換後の色空間における特徴量を算出する。
色特徴ベクトル生成部１７８は、領域画像ごとの色特徴量を連結することにより色特徴ベクトルを生成する。
テクスチャ特徴算出部１７３は、ウェーブレット変換等の処理を行なうことにより、入力されるフレーム画像データのテクスチャ特徴を算出する。
テクスチャ特徴ベクトル生成部１７９は、ウェーブレット変換の結果の画素値の、領域画像ごとの統計的特徴値を基に、テクスチャ特徴ベクトルを算出する。
特徴ベクトル生成部１７０は、局所特徴ベクトルと色特徴ベクトルとテクスチャ特徴ベクトルとを連結したベクトルを生成する。
これら各部の処理の詳細については後述する。

なお、特徴量算出部１８もまた、特徴量算出部１７と同様の構成を有する。そして、領域画像抽出部１５が抽出した領域画像に関する情報を特徴量算出部１７に供給するのと同様に、領域画像抽出部１６は抽出した領域画像に関する情報を特徴量算出部１８に供給する。

次に、各々の特徴量抽出の詳細について説明する。
（Ａ）局所特徴ベクトルの抽出
局所特徴ベクトルの抽出のためには、前記のバッグ・オブ・ビジュアル・ワーズ法を用いる。
特徴点検出部１７１は、ＳＩＦＴ（Scale-invariant feature transform）やＳＵＲＦ（Supeeded-Up. Robust Features）などの特徴点検出手法を用いて、入力されるフレーム画像全体から特徴点を抽出する。ＳＩＦＴおよびＳＵＲＦは、画像内における局所的特徴を検出する手法であり、それぞれ、参考文献［David G. Lowe, ``Object recognition from local scale-invariant features,'' In Proc. IEEE International Conference on Computer Vision, vol. 2, pp. 1150-1157, 1999.］および［Herbert Bay, Tinne Tuytelaars, and L Van Gool, ``SURF: Speeded Up Robust Features,'' In Proc. 9th European Conference on Computer Vision, vol. 3951, pp. 404--417, 2006.］にもその詳細が記載されている。

そして、局所特徴量子化部１７４は、特徴点検出部１７１によって検出された特徴点の周囲の局所領域の特徴を量子化する。具体的には、局所特徴量子化部１７４は、特徴点の周囲の局所領域から算出される勾配特徴量をクラスタリングすることにより量子化する。そのために、局所特徴量子化部１７４は、あらかじめ学習データから求めた勾配特徴量をたとえばｋ−ｍｅａｎｓなどによってクラスタリングしてクラスターごとの代表値を求めておく。そして、局所特徴量子化部１７４は、入力データから算出された特徴量を、最も近い代表値に対応するクラスターに割り当てる。

そして、局所特徴ベクトル生成部１７７は、領域画像抽出部１５から各々の領域画像の範囲に関する情報を得て、ある１つの領域画像に含まれる特徴点に関して、量子化された勾配特徴量の出現頻度ヒストグラムを求め、そのヒストグラムを構成する頻度値の列を求める。局所特徴ベクトル生成部１７７は、すべての領域画像について、上記の処理を行なう。そして、局所特徴ベクトル生成部１７７は、各領域画像から得られた頻度値の列を、すべての領域画像に関して連結することにより、局所特徴ベクトルを生成する。この局所特徴ベクトルをＶ_ｌとする。なお、「すべての領域画像に関して連結」については、後で図５を参照しながら詳述する。

（Ｂ）色特徴ベクトルの抽出
色統計特徴算出部１７２は、入力されるフレーム画像データを、ＨＳＶ色空間およびＬａｂ色空間に変換する。ＨＳＶ色空間は、色相（Hue）、彩度（Saturation）、明度（Value）の三成分からなる色空間である。Ｌａｂ色空間は、明度（Ｌ）、補色次元（ａおよびｂ）の成分からなる色空間である。例えばＲＧＢの画素値から、ＨＳＶ色空間およびＬａｂ色空間への変換は、既存の技術を使って行なわれる。色空間の変換の結果、色統計特徴算出部１７２は、フレーム画像に含まれる各画素について、各コンポーネントｃの画素値を出力する。なお、ｃ∈｛ｈ，ｓ，ｖ，ｌ，ａ，ｂ｝であり、これらｈ，ｓ，ｖ，ｌ，ａ，ｂのそれぞれは、ＨＳＶ色空間およびＬａｂ色空間の成分である。

色特徴ベクトル生成部１７８は、領域画像抽出部１５から各々の領域画像の範囲に関する情報を得て、領域画像ごとに、各コンポーネントｃに対して、画素値の平均μ_c、標準偏差σ_c、歪度の立方根ω_cを算出する。具体的には、色特徴ベクトル生成部１７８は、下の式（１）、式（２）、式（３）により、これらの値を算出する。

なお、式（１）〜（３）において、ｘは横座標値、ｙは縦座標値であり、ｆ_ｃ（ｘ，ｙ）は座標（ｘ，ｙ）におけるコンポーネントｃの画素値である。また、ｘおよびｙそれぞれにおいて、記号Σによって総和を算出する範囲は、当該領域画像の範囲である。またＨ_ＳおよびＷ_Ｓは、それぞれ、当該領域画像の縦サイズ（高さ）および横サイズ（幅）である。Ｈ_ＳおよびＷ_Ｓの単位は、画素［ｐｉｘｅｌｓ］である。Ｈ_ＳおよびＷ_Ｓについては、後でもさらに述べる。

色特徴ベクトル生成部１７８は、すべての領域画像について、上記の処理を行なう。そして、色特徴ベクトル生成部１７８は、各領域画像から算出された値の列（μ_ｈ，σ_ｈ，ω_ｈ，μ_ｓ，σ_ｓ，ω_ｓ，μ_ｖ，σ_ｖ，ω_ｖ，μ_ｌ，σ_ｌ，ω_ｌ，μ_ａ，σ_ａ，ω_ａ，μ_ｂ，σ_ｂ，ω_ｂ）を、すべての領域画像に関して連結することにより、色特徴ベクトルを生成する。この色特徴ベクトルをＶ_ｃとする。なお、「すべての領域画像に関して連結」については、後で図５を参照しながら詳述する。

（Ｃ）テクスチャ特徴ベクトルの抽出
ここでは、Ｈａａｒウェーブレットに基づいて画像のテクスチャを反映した特徴量を算出する。まず、テクスチャ特徴算出部１７３は、入力されるフレーム画像データを基に、Ｈａａｒウェーブレット変換を３段階適用する。次に、テクスチャ特徴ベクトル生成部１７９は、領域画像抽出部１５から各々の領域画像の範囲に関する情報を得て、領域画像ごとに、それぞれのサブバンド領域の画素値の分散を算出し、それらの分散値の列を当該領域画像における特徴量とする。そして、すべての領域画像に関してこれらの数値列を連結することにより、テクスチャ特徴ベクトルを生成する。このテクスチャ特徴ベクトルをＶ_ｔとする。なお、「すべての領域画像に関して連結」については、後で図５を参照しながら詳述する。

以上述べたように、局所特徴ベクトル生成部１７７が局所特徴ベクトルＶ_ｌを生成し、色特徴ベクトル生成部１７８が色特徴ベクトルＶ_ｃを生成し、テクスチャ特徴ベクトル生成部１７９がテクスチャ特徴ベクトルＶ_ｔを生成する。そして、特徴ベクトル生成部１７０は、これらの３つのベクトルを連結して特徴ベクトルＶを求める。このＶについては、下の式（４）に表わす通りである。特徴ベクトル生成部１７０によって連結されたベクトルＶが、特徴量算出部１７からの出力される特徴量である。

以上、述べたように、特徴量算出部１７は、入力画像に基づき、領域画像抽出部１５によって指定された領域画像の各々の特徴量を算出するとともに、複数の領域画像から算出された特徴量を連結することによって入力画像の特徴量（特徴ベクトルＶ_ｌ，Ｖ_ｃ，Ｖ_ｔ，Ｖ）を生成する。特徴量算出部１７によって算出された特徴量は、複数の領域画像の各々の特徴を情報として保持している。

図３は、領域画像抽出部１５および１６によって抽出されるグリッド領域の領域画像の範囲を示す概略図である。以下では、代表として領域画像抽出部１５による処理を説明するが、領域画像抽出部１６による処理も同様のものである。
領域画像抽出部１５は、領域画像のサイズを段階的に変化させる。同図に示す例においては、（ａ）、（ｂ）、（ｃ）の順に、徐々に抽出する領域画像のサイズを小さくしている。入力される元のフレーム画像のサイズを縦（高さ）Ｈ、横（幅）Ｗとしたとき、第Ｓ番目（Ｓ＝１，２，３，・・・）のスケールにおける領域画像のサイズは、縦Ｈ_Ｓ、横Ｗ_Ｓであり、これらは、下の式（５）で表わされる。

ここで、δは、スケールの変化の度合いを表す定数であり０＜δ＜１である。この不等式の範囲内でδの値については適宜設定可能とする。一例として、同図に示す場合、δ＝０．５としている。そして、同図（ａ）の場合に、Ｓ＝１、Ｈ_１＝Ｈ、Ｗ_１＝Ｗである。また同図（ｂ）の場合に、Ｓ＝２、Ｈ_２＝δＨ、Ｗ_２＝δＷである。また同図（ｃ）の場合に、Ｓ＝３、Ｈ_３＝δ^２Ｈ、Ｗ_３＝δ^２Ｗである。また、同図にも示すように、領域画像抽出部１５は、縦方向Ｈ_Ｓ×α、横方向Ｗ_Ｓ×βの刻みで順次移動させながら、領域画像の範囲を抽出していく。ここで、αおよびβは、適宜設定可能な定数であり、０＜α≦１、０＜β≦１である。一例として、同図に示す場合、α＝β＝０．５としている。

同図（ａ）〜（ｃ）のそれぞれにおいて、領域画像の枠の左上隅の部分のみを、黒丸と、縦・横の太線で示している。なお、フレーム画像全体の左上角の画素の座標を（ｘ，ｙ）＝（０，０）とする。同図（ａ）においては、Ｓ＝１であり、フレーム画像全体が領域画像に相当する。つまり、Ｓ＝１の場合における領域画像の数Ｎ_１は１である。また同図（ｂ）においては、Ｓ＝２であり、各々の領域画像の左上角の画素における、ｘ座標（横座標）の値は０，βδＷ，２βδＷであり、ｙ座標（縦座標）の値は０，αδＨ，２αδＨである。同図（ｂ）に一例として示している破線の枠は、左上角の画素の座標位置が（ｘ，ｙ）＝（βδＷ，αδＨ）である領域画像を示す。Ｓ＝２の場合における領域画像の数Ｎ_２は９である。また同図（ｃ）においては、Ｓ＝３であり、各々の領域画像の左上角の画素における、ｘ座標（横座標）の値は０，βδ^２Ｗ，２βδ^２Ｗ，３βδ^２Ｗ，４βδ^２Ｗ，５βδ^２Ｗ，６βδ^２Ｗである。また、ｙ座標（縦座標）の値は０，αδ^２Ｈ，２αδ^２Ｈ，３αδ^２Ｈ，４αδ^２Ｈ，５αδ^２Ｈ，６αδ^２Ｈである。同図（ｃ）に一例として示している破線の枠は、左上角の画素の座標位置が（ｘ，ｙ）＝（５βδ^２Ｗ，４αδ^２Ｈ）である領域画像を示す。Ｓ＝３の場合における領域画像の数Ｎ_３は４９である。

つまり、領域画像抽出部１５は、上記のように、同一サイズの複数の領域画像の少なくとも一部が互いに重なり合うように、領域画像の範囲を指定する。同一サイズの複数の領域画像の一部が互いに重なり合うのは、縦方向に関してはα＜１である場合である。また、横方向に関してはβ＜１である場合である。これにより、被写体が領域画像の枠（境界線）をまたぐような位置に存在するとき（つまりその１つの領域画像の中に収まらないとき）にも、その被写体は同じサイズの他の領域画像に収まりきる可能性がある。これにより、その被写体の画像特徴を表わす特徴量を、より適切に抽出することが可能となる。
特に、０＜α≦０．５としたとき、または０＜β≦０．５としたときには、元のキーフレーム画像の中の任意の画素が、同一サイズの少なくとも２個の領域画像の範囲に含まれることとなる。つまりこの場合は、被写体を適切なサイズの領域画像内に捉えることのできる可能性がよりいっそう高まる。つまり、より良好な特徴量を抽出できるようになる。

図４は、領域画像抽出部１５による、領域画像抽出の処理手順を示すフローチャートである。以下、このフローチャートに沿って説明する。なお、領域画像抽出部１６による処理もこれと同様である。
まずステップＳ１において、領域画像抽出部１５は、変数Ｓの値を１に初期化する。このＳは、前述の通り、領域画像のスケールを指標するための値である。
次にステップＳ２において、領域画像抽出部１５は、変数Ｓの値が、予め設定された上限（設定スケール）未満であるか否かを判定する。上限未満である場合（ステップＳ２：ＹＥＳ）には、次のステップＳ３に進む。その他の場合（ステップＳ２：ＮＯ）には、このフローチャート全体の処理を終了する。
次にステップＳ３において、領域画像抽出部１５は、変数ｙの値を０に初期化する。このｙは、縦座標の値を表わすものである。このステップの処理により、領域画像の縦座標を初期化する。

次にステップＳ４において、領域画像抽出部１５は、変数ｙに関して、ｙ＋Ｈ_Ｓ＜Ｈの不等式で表わされる条件を満たすか否かを判定する。この条件を満たす場合（ステップＳ４：ＹＥＳ，つまり縦方向にまだ領域画像を取れる場合）には次のステップＳ５に進み、満たさない場合（ステップＳ４：ＮＯ，つまりフレーム画像の下端に達してしまい縦方向にもう領域画像を取れない場合）にはステップＳ１０の処理に分岐する。
次にステップＳ５に進んだ場合、領域画像抽出部１５は、変数ｘの値を０に初期化する。このｘは、横座標の値を表わすものである。このステップの処理により、領域画像の横座標を初期化する。

次にステップＳ６において、領域画像抽出部１５は、変数ｘに関して、ｘ＋Ｗ_Ｓ＜Ｗの不等式で表わされる条件を満たすか否かを判定する。この条件を満たす場合（ステップＳ６：ＹＥＳ，つまり横方向にまだ領域画像を取れる場合）には次のステップＳ７に進み、満たさない場合（ステップＳ６：ＮＯ，つまりフレーム画像の右端に達してしまい横方向にもう領域画像を取れない場合）にはステップＳ９の処理に分岐する。
次にステップＳ７に進んだ場合、領域画像抽出部１５は、その時の変数ｘおよびｙの値に応じて、座標（ｘ，ｙ）を基点（左上角の画素）とする、高さＨ_Ｓ、幅Ｗ_Ｓのグリッドによる領域画像を抽出する。そして、領域画像抽出部１５は、抽出した領域画像の範囲を示す情報を、局所特徴ベクトル生成部１７７と色特徴ベクトル生成部１７８とテクスチャ特徴ベクトル生成部１７９とに渡す。これに応じて、局所特徴ベクトル生成部１７７と色特徴ベクトル生成部１７８とテクスチャ特徴ベクトル生成部１７９の各々は、当該領域画像に関する特徴量を前述の方法により算出する。

次にステップＳ８において、領域画像抽出部１５は、変数ｘの値をβ・Ｗ_Ｓの増分で増加させる。これは、領域画像の横座標の値を、次の領域画像の座標に進めるための処理である。このステップの処理のあとは、ステップＳ６の処理に戻る。
ステップＳ６からステップＳ９に進んだ場合には、領域画像抽出部１５は、変数ｙの値をα・Ｈ_Ｓの増分で増加させる。これは、領域画像の縦座標の値を、次の領域画像の座標に進めるための処理である。このステップの処理のあとは、ステップＳ４の処理に戻る。
ステップＳ４からステップＳ１０に進んだ場合には、領域画像抽出部１５は、変数Ｓの値を次の値に更新する。つまり、（Ｓ＋１）の値を変数Ｓの記憶領域に格納する。これは、領域画像のスケールを次の段階に進めるための処理である。そして、このステップの処理のあとは、ステップＳ２の処理に戻る。

上述した一連の処理により、領域画像抽出部１５は、図３に例示したような領域画像をすべて抽出し、各領域画像の範囲を示す情報を特徴量算出部１７に渡す。領域画像抽出部１５がすべての領域画像の抽出を終えた後は、局所特徴ベクトル生成部１７７と色特徴ベクトル生成部１７８とテクスチャ特徴ベクトル生成部１７９の各々が、前述の通り、各領域画像に対応した特徴量の列をすべて並べた特徴ベクトルを出力する。そして、特徴ベクトル生成部１７０が、それらの特徴ベクトルを連結して得られる特徴ベクトルを出力する。領域画像抽出部１６と特徴量算出部１８との関係も、これと同様である。

このように、領域画像のサイズを段階的に変化させて、各々の領域画像から特徴量を抽出し、それら領域画像ごとの特徴量を情報として含んだ特徴量（特徴ベクトル）を用いることにより、映像に含まれる被写体の大きさの変動に対して頑健性を得ることができる。

図５は、上述した方法によって抽出された複数の領域画像と、特徴ベクトルとの関係を示す概略図である。同図において、（ａ）〜（ｄ）は、領域画像のスケールの段階に対応しており、それぞれの場合において順に、Ｓ＝１，２，３，４である。前述の通り、フレーム画像全体のサイズは、縦（高さ）Ｈ、横（幅）Ｗである。領域画像のサイズは、Ｓの値に応じて、縦（高さ）δ^Ｓ−１・Ｈ、横（幅）δ^Ｓ−１・Ｗである。（ａ）〜（ｄ）のそれぞれにおいて、領域画像のうちの１つを、破線で示している。図中において、連結された特徴ベクトルを、２次元のグラフの形式で示している。このグラフにおいて、横軸は特徴量（スカラー）の並び順であり、縦軸は各特徴量に共通する値の大きさを表わす。「ａ１」で示す範囲に含まれる特徴量の列は、同図（ａ）に含まれる領域画像から得られる特徴量である。「ｂ１」、「ｂ２」、「ｂ３」、・・・のそれぞれに示す範囲に含まれる特徴量の列は、同図（ｂ）に含まれる複数の領域画像から得られる特徴量である。同図においては「ｂ４」までだけを示してそれより後を省略しているが、実際には、領域画像の数の分だけ特徴量の列が後続する。同図（ｃ）や（ｄ）についても同様であり、領域画像ごとの特徴量の列が後続する。本実施形態では、このようにして、特徴量の列をすべての領域画像について連結することにより、特徴ベクトルを生成する。つまり、局所特徴と、色特徴と、テクスチャ特徴のそれぞれに関して、領域画像ごとの特徴量の値（または値の列）を、図５で説明したようにすべての領域画像に関して連結したものが、局所特徴ベクトルと、色特徴ベクトルと、テクスチャ特徴ベクトルである。

次に、学習用データの構成方法の一例について説明する。
図６は、学習用データの構成例を示す概略図である。学習用データは、学習装置１の内部の記憶装置に格納される。既に述べたように、学習用データには、正例あるいは負例のラベルが付与されている。学習用データは、例えば、オブジェクト指向データベースを用いて構成され、図示するような表構造を有している。同データは、映像番号、映像データロケーション、フレーム識別情報、被写体種類（１から４０まで）のデータ項目を有している。このデータは、複数の映像データについての情報を格納するものである。また、１つの映像データに対して、１つまたは複数のキーフレームを対応させている。映像番号は、映像データを識別するために付与された番号である。映像データロケーションは、映像データの実体の所在を表わす情報であり、例えば、ファイルシステムにおけるパス名の情報が用いられる。フレーム識別情報は、１つの映像データ内に含まれる、複数のキーフレームのそれぞれを識別する情報である。フレーム識別情報としては、単なるキーフレームの連番を用いても良いし、「ｈｈ：ｍｍ：ｓｓ．ｎｎｎ」（時：分：秒．フレーム番号）の形式等で映像内のフレーム位置を特定する情報を用いても良い。各々の被写体種類に対応する欄には、「正」または「負」のラベル（入力画像が正例または負例のいずれであるかを示す情報）を格納する。これらのラベルは、キーフレーム画像抽出部１３によって抽出される各々のキーフレームに、被写体種類（１〜４０）のそれぞれが被写体として含まれているか否かの正解を表わすラベル情報である。なお、被写体種類の第６番目から第３９番目のデータは図中において記載を省略している。「正」のラベルは、その被写体がそのキーフレーム画像に含まれていることを表わす。「負」のラベルは、その被写体がそのキーフレーム画像に含まれていないことを表わす。このラベルの値が、学習時の教師データとして用いられる。なお、被写体の種類数は４０に限らず、これより多くても少なくても良い。

なお、「正」または「負」のラベルの値は、例えば、キーフレーム画像抽出部１３がキーフレーム画像を抽出した後に、人手によって与え、学習用データに書き込むようにする。

以上、述べたように、本実施形態では、正例（ある物体・事象が写っている）および負例（映っていない）のラベルが付与された学習データを用いた機械学習によって、映像に特定の被写体が出現しているかどうかを判定する。そのため、フレーム画像内における被写体の出現位置やサイズなどが変動した場合においても、特定の被写体を頑健に判定することができる画像特徴量を算出する。具体的には、映像フレーム画像を、様々なサイズのグリッド領域（領域画像）に区切り、グリッド領域ごとに特徴量を算出し、それらを連結することによってサイズ変動に対する頑健性を確保する。グリッド領域のサイズは、段階的に変化させる。また、グリッド領域同士が重なりを持つようにすることによって、グリッド領域の境界に存在する物体にも対応する。

［評価実験］
本実施形態について、実際の映像データを使用して行なった評価実験の結果は、以下の通りである。本実験では、約６００時間の映像を対象として、４０種類の被写体を検出し、その検出精度を評価した。検出精度の算出については、テスト映像における全フレーム画像に対して判定処理を適用し、スコアが高いものから順に並び替え、その上位２０００件に対する推定平均適合率を算出することで求めた。なお、設定値としては、δ＝０．５，α＝０．５，β＝０．５とした。領域画像のスケールの範囲は、１≦Ｓ≦４とした。

なお、評価のための比較対象（従来技術による手法）としては、フレーム画像を固定的なグリッドサイズに分割する方式を用いた。具体的には、フレーム画像を縦横２×２分割とする分割方法と、縦横３×１分割とする分割方法を用いて、分割された各領域における特徴量を求めた。

その結果、従来手法と比べて、検出精度が向上することを確認できた。被写体の種類別に精度を比較したところ、最大で４％の精度向上が認められたものもあった。本実施形態による手法と、従来手法との、検出精度の比較結果を表１に示す。ここに示すように、本実施形態による手法では、推定平均適合率（４０種類の被写体の平均）において、従来手法よりも良い結果が得られた。

［第２の実施形態］
次に、本発明の第２の実施形態について説明する。第１の実施形態が、学習処理と識別処理の両方を行なうものであったのに対して、第２の実施形態は、学習処理のみを行なう。本実施形態の機能構成は、図１の機能ブロック図に含まれる機能のうち、学習装置１と識別部２０の機能のみを有するものである。学習装置１が、学習用映像入力部１１とキーフレーム画像抽出部１３と領域画像抽出部１５と特徴量算出部１７と識別器学習部１９とを含んで構成される点は、第１の実施形態と同様である。また、ここに列挙した各部の処理機能およびその作用、効果も、第１の実施形態において述べたそれらと同様であるので説明を省略する。この構成により、本実施形態の学習装置は、良好な特徴量を用いて機械学習を行い、識別部２０を生成する（学習によりパラメーターの値を最適化する）ことができる。

［第３の実施形態］
次に、本発明の第３の実施形態について説明する。第１の実施形態が、学習処理と識別処理の両方を行なうものであったのに対して、第３の実施形態は、識別処理のみを行なう。本実施形態の機能構成は、図１の機能ブロック図に含まれる機能のうち、映像入力部１２とキーフレーム画像抽出部１４と領域画像抽出部１６と特徴量算出部１８と識別部２０のみを含んで構成され、学習装置１を含まない。そして、ここに列挙した各部の処理機能およびその作用、効果も、第１の実施形態において述べたそれらと同様であるので説明を省略する。また、識別部２０は、予め学習済である。この構成により、本実施形態の識別装置は、良好な特徴量を用いて識別処理を行うことができる。

［第４の実施形態］
次に、本発明の第４の実施形態について説明する。第４の実施形態は、第１の実施形態の中で説明した画像特徴量算出装置の機能のみを単独の装置として実施する形態である。既に述べたように、画像特徴量算出装置は、領域画像抽出部１５と特徴量算出部１７とを組合せた装置として実現される。この画像特徴量算出装置における領域画像抽出部１５と特徴量算出部１７の機能、作用、効果は、既に説明したとおりであるため、ここでは説明を省略する。本実施形態の構成により、画像特徴量算出装置は、入力画像を基に、良好な、つまり、被写体のサイズの変化に対して頑健な画像特徴量を算出することができる。

［第５の実施形態］
第１〜第４の実施形態では、領域画像を抽出する際に、範囲を等間隔に移動させていた。本実施形態における領域画像抽出部１５および１６は、第１〜第４の実施形態とは異なる方法で、領域画像の抽出を行なう。なお、以下に述べる領域画像の抽出のしかたは、第１〜第４の実施形態に適用可能である。そのとき、領域画像の抽出のしかた以外の技術事項に関しては、各実施形態において既に述べたとおりであるので、ここでは説明を省略する。本実施形態における領域画像抽出部１５および１６は、次のいずれかの方法で領域画像の抽出を行なう。

第１の方法では、入力画像内の位置に応じて、領域画像を抽出する密度を変化させる。具体的には、図４で説明したフローチャートにおいて、設定値αおよびβの値を常に一定にするのではなく、例えば、フレーム画像の中央に近い領域ではαおよびβの値を小さくし、フレーム画像の周辺に近い領域ではαおよびβの値を相対的に大きくする。これは、フレーム画像の中央に近い領域に被写体が存在する場合に検出精度をより高めることにつながる。なお、逆に、フレーム画像の周辺部において被写体の検出精度を相対的に高めたい場合には、逆に、周辺部においてαおよびβの値を相対的に高くする。なお、この場合も、０＜α≦１、且つ０＜β≦１である。このように、領域画像を抽出する密度に差をつけることにより、特徴量を算出したり被写体を識別したりするための総合的な計算量を抑制しながら、画像内の重点的な領域のみによりきめ細かな計算を行なうことができる。

第２の方法では、目的とする被写体が存在する可能性が高い領域において、領域画像を抽出する密度を相対的に高める。画像内の場所に応じた、被写体が存在する可能性（確率値）を表わすデータを、外部から供給するようにする。これにより、第１の方法と類似の効果が得られる。即ち、特徴量を算出したり被写体を識別したりするための総合的な計算量を抑制しながら、画像内の重点的な領域のみによりきめ細かな計算を行なうことができる。

第３の方法では、フレーム画像内のランダムな場所において同一サイズで複数の領域画像を抽出するようにする。

［第１〜第５の実施形態のコンピュータープログラムによる実施］
なお、上述した各実施形態における各処理部の機能をコンピューターで実現するようにしても良い。その場合、これらの機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
（変形例１）前述の実施形態では、一例としてα＝０．５，β＝０．５とした。また、α≦０．５またはβ≦０．５とすることにより領域画像の抽出密度を高める例を記載した。しかしながら、α＞０．５またはβ＞０．５としても良い。
（変形例２）前述の実施形態では、画像の特徴量として、局所特徴ベクトルや色特徴ベクトルやテクスチャ特徴ベクトルを用いた。変形例では、その他の特徴量を用いるようにしても良い。
（変形例３）前述の実施形態では、学習装置１内において、キーフレーム画像抽出部１３が抽出したキーフレームについて、「正例」または「負例」のラベル値を与えるようにした。変形例では、その代わりに、映像に対応したキーフレーム画像を予め抽出しておき、抽出済みのキーフレーム画像とラベル値のデータとをセットにして学習装置１が外部から取り込むようにする。そして、学習装置１は、特に映像データそのものを用いず、キーフレーム画像とラベル値とに基づいた学習処理を行なう。
（変形例４）図４のフローチャートの処理によって領域画像抽出部が領域画像を抽出する際に、元のフレーム画像の下端部または右端部に余剰が生じた場合には、領域画像の下端または右端がちょうどフレーム画像の下端または右端に合うように、領域画像の座標の増分を調整する。あるいは、フレーム画像の下端または右端をはみ出して、領域画像の座標を決定しても良い。領域画像の一部がフレーム画像の外側にはみ出す場合は、はみ出した部分については一様な画素値が存在するものとして（つまり、その部分には画像情報がないものとして）、以後の特徴量算出等の処理を行なうようにする。

以上、この発明の実施形態およびその変形例について詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

本発明は、映像コンテンツの管理等に利用することができる。

１学習装置
２識別装置
１１学習用映像入力部
１２映像入力部
１３，１４キーフレーム画像抽出部
１５，１６領域画像抽出部
１７，１８特徴量算出部
１９識別器学習部
２０識別部
１７０特徴ベクトル生成部
１７１特徴点検出部
１７２色統計特徴算出部
１７３テクスチャ特徴算出部
１７４局所特徴量子化部
１７７局所特徴ベクトル生成部
１７８色特徴ベクトル生成部
１７９テクスチャ特徴ベクトル生成部

Claims

入力画像に含まれる複数のサイズの領域画像の範囲を指定する領域画像抽出部と、
前記入力画像に基づき、前記領域画像抽出部によって指定された前記領域画像の各々の特徴量を算出するとともに、複数の前記領域画像から算出された特徴量を連結することによって前記入力画像の特徴量を生成する特徴量算出部と、
前記入力画像が正例または負例のいずれであるかを示す情報と、前記特徴量算出部によって生成された前記入力画像の特徴量の組合せとに基づいて、未知の入力画像が正例であるか負例であるかのいずれかを識別するための識別器のパラメーターを求める識別器学習部と、
を具備し、
前記領域画像抽出部は、縦Ｈ _Ｓ画素且つ横Ｗ _Ｓ画素の同一サイズの複数の前記領域画像の少なくとも一部が互いに重なり合うように、縦方向（Ｈ _Ｓ ×α）画素且つ横方向（Ｗ _Ｓ ×β）画素の刻みで順次移動させながら前記領域画像の範囲を指定するものであり、０＜α≦０．５または０＜β≦０．５とする、
ことを特徴とする学習装置。
入力画像に含まれる複数のサイズの領域画像の範囲を指定する領域画像抽出部と、
前記入力画像に基づき、前記領域画像抽出部によって指定された前記領域画像の各々の特徴量を算出するとともに、複数の前記領域画像から算出された特徴量を連結することによって前記入力画像の特徴量を生成する特徴量算出部と、
予め学習済みのパラメーターと、前記特徴量算出部が生成した前記入力画像の特徴量とに基づいて、前記入力画像が正例であるか負例かを識別する識別部と、
を具備し、
前記領域画像抽出部は、縦Ｈ _Ｓ画素且つ横Ｗ _Ｓ画素の同一サイズの複数の前記領域画像の少なくとも一部が互いに重なり合うように、縦方向（Ｈ _Ｓ ×α）画素且つ横方向（Ｗ _Ｓ ×β）画素の刻みで順次移動させながら前記領域画像の範囲を指定するものであり、０＜α≦０．５または０＜β≦０．５とする、
ことを特徴とする識別装置。
学習用データとして入力された前記入力画像が正例または負例のいずれであるかを示す情報と、前記特徴量算出部によって生成された前記入力画像の特徴量の組合せとに基づいて、未知の入力画像が正例であるか負例であるかのいずれかを識別するための識別器のパラメーターを求める識別器学習部をさらに具備し、
前記識別部は、前記識別器学習部によって求められた前記パラメーターを前記予め学習済みのパラメーターとして用いることによって、未知の前記入力画像が正例であるか負例かを識別する、
ことを特徴とする請求項２に記載の識別装置。
コンピューターを、請求項１に記載の学習装置
として機能させるためのプログラム。
コンピューターを、請求項２または３に記載の識別装置
として機能させるためのプログラム。