JP2019109843A

JP2019109843A - 分類装置、分類方法、属性認識装置、及び機械学習装置

Info

Publication number: JP2019109843A
Application number: JP2017243946A
Authority: JP
Inventors: 望仲尾; Nozomi Nakao
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2017-12-20
Filing date: 2017-12-20
Publication date: 2019-07-04
Anticipated expiration: 2037-12-20
Also published as: JP6947005B2

Abstract

【課題】認識対象の被写体を複数の属性クラスに精度良く分類する。【解決手段】認識対象の被写体より上方に設置されたカメラで撮影された撮影画像を用いて、被写体を所定の属性に関する複数の属性クラスに分類する分類装置であって、カメラの撮影範囲をカメラの直下からの距離に応じて分割して生成された複数の分割領域を表す分割領域情報を記憶する記憶部と、撮影画像から被写体を含む領域の画像である被写体領域画像を抽出する画像処理部と、被写体領域画像を用いて、複数の分割領域ごとに、被写体が複数の属性クラスに属する各確率を出力する分類器と、を備えるものである。【選択図】図１

Description

本発明は、認識対象の被写体を複数の属性クラスに分類する分類装置及び分類方法、当該分類装置を用いて認識対象の被写体が属する属性クラスを認識する属性認識装置、及び当該分類装置を学習させる機械学習装置に関する。

従来、機械学習により、入力データを複数のクラスのいずれかに分類する識別装置が提案されている（例えば、特許文献１参照）。特許文献１に記載の識別装置では、複数のクラス間の尤度の独立性の強さから信頼度が算出される。この信頼度は、最も尤度が高いクラスを正解としたときに、これを、どの程度信頼していいのかの指標とされている。

特開２０１７−１５１６７９号公報

近年、例えばマーケティング情報を得るために、カメラで撮影された画像から、認識対象の被写体が属する、年齢等の属性を分類した属性クラスを精度良く認識することが求められている。このためには、認識対象の被写体を複数の属性クラスに精度良く分類することが必要になる。そこで、被写体の属性クラスへの分類に、機械学習の技術を適用することが考えられる。しかし、上記特許文献１では、カメラで撮影された被写体を属性クラスに分類することについては十分に検討されていない。

本発明は、上記課題に鑑みてなされたもので、認識対象の被写体を複数の属性クラスに精度良く分類する分類装置及び分類方法、当該分類装置を用いて認識対象の被写体が属する属性クラスを認識する属性認識装置、及び当該分類装置を学習させる機械学習装置を提供することを目的とする。

本発明の第１態様は、
認識対象の被写体より上方に設置されたカメラで撮影された撮影画像を用いて、前記被写体を所定の属性に関する複数の属性クラスに分類する分類装置であって、
前記カメラの撮影範囲を前記カメラの直下からの距離に応じて分割して生成された複数の分割領域を表す分割領域情報を記憶する記憶部と、
前記撮影画像から前記被写体を含む領域の画像である被写体領域画像を抽出する画像処理部と、
前記被写体領域画像を用いて、前記複数の分割領域ごとに、前記被写体が前記複数の属性クラスに属する各確率を出力する分類器と、
を備えるものである。

本発明の第２態様は、
認識対象の被写体より上方に設置されたカメラで撮影された撮影画像を用いて、前記被写体を所定の属性に関する複数の属性クラスに分類する分類方法であって、
前記撮影画像から前記被写体を含む領域の画像である被写体領域画像を抽出する画像処理ステップと、
前記被写体領域画像を用いて、前記カメラの撮影範囲を前記カメラの直下からの距離に応じて分割して生成された複数の分割領域ごとに、前記被写体が前記複数の属性クラスに属する各確率を出力する分類ステップと、
を備えるものである。

第１態様及び第２態様では、撮影画像から被写体を含む領域の画像である被写体領域画像が抽出される。被写体領域画像に含まれる被写体が、複数の分割領域のうちのいずれの分割領域に位置するかによって、被写体が複数の属性クラスに属する確率が、それぞれ異なったものになると考えられる。そこで、第１態様及び第２態様では、さらに、被写体領域画像を用いて、複数の分割領域ごとに、被写体が複数の属性クラスに属する確率が、それぞれ出力される。したがって、第１態様及び第２態様によれば、被写体が複数の属性クラスに属する各確率を用いることによって、被写体を属性クラスに好適に分類することが可能になる。

本発明の第３態様は、
上記第１態様の分類装置と、
前記複数の属性クラスのうち前記被写体が属する属性クラスを決定する属性決定部と、を備え、
前記画像処理部は、前記複数の分割領域のうち前記被写体が位置する分割領域を特定分割領域として特定し、
前記属性決定部は、前記複数の分割領域ごとに前記分類器から出力された前記各確率のうち、少なくとも前記特定分割領域において前記被写体が前記複数の属性クラスに属する各確率を用いて、前記被写体が属する属性クラスを決定するものである。

本態様によれば、特定分割領域に被写体が位置しているため、被写体が属する属性クラスを精度良く決定することができる。

上記第３態様において、例えば、前記属性決定部は、前記複数の分割領域ごとに前記分類器から出力された前記各確率のうち、前記特定分割領域において最も高い確率に対応する属性クラスを、前記被写体が属する属性クラスであると決定してもよい。

本態様によれば、決定された属性クラスが、特定分割領域において最も高い確率に対応するので、被写体が属する属性クラスを精度良く決定することができる。

上記第３態様において、例えば、前記属性決定部は、前記特定分割領域において前記複数の属性クラスに属する各確率に特定重み係数を乗算した積と、前記特定分割領域以外の分割領域において前記複数の属性クラスに属する各確率に非特定重み係数を乗算した積と、の和を前記複数の属性クラスごとにそれぞれ算出し、前記和が最大の属性クラスを、前記被写体が属する属性クラスであると決定してもよい。

カメラによる被写体の映り方は、複数の分割領域ごとに異なる。これに対して、本態様によれば、特定分割領域において複数の属性クラスに属する各確率と、特定分割領域以外の分割領域において複数の属性クラスに属する各確率と、の両方が用いられている。このため、複数の分割領域ごとに異なる被写体の映り方の違いによる影響を低減して、被写体が属する属性クラスを精度良く決定することが可能になる。

上記第３態様において、例えば、前記特定重み係数及び前記非特定重み係数は、それぞれ正の数であってもよく、前記特定重み係数は、前記非特定重み係数より大きい値であってもよい。

本態様によれば、特定分割領域以外の分割領域による影響が、特定分割領域による影響より過大になるのを防ぐことができる。

本発明の第４態様は、
上記第１態様の分類装置の前記分類器を学習させる機械学習装置であって、
前記分類器は、入力層と、少なくとも１つの中間層と、出力層と、を含むニューラルネットワークで構成され、
前記機械学習装置は、
前記特定分割領域に位置し、所定の属性クラスに属する前記被写体領域画像を、前記入力層に入力する入力処理部と、
真値と、前記出力層から出力された前記特定分割領域において前記所定の属性クラスに属する確率と、の誤差を逆伝播させ、かつ、偽値と、前記出力層から出力された前記特定分割領域において前記所定の属性クラスに属する確率以外の確率と、の誤差を逆伝播させる誤差逆伝播処理部と、を備え、
前記入力処理部は、前記特定分割領域を表す情報と前記所定の属性クラスを表す情報とを、前記誤差逆伝播処理部に入力するものである。

本態様によれば、出力層から出力された特定分割領域において所定の属性クラスに属する確率のみが正解とされ、出力層から出力された特定分割領域において所定の属性クラスに属する確率以外の確率は不正解とされる。このため、複数の分割領域ごとに、分類器を好適に学習させることができる。

本発明の第５態様は、
上記第１態様の分類装置の前記分類器を学習させる機械学習装置であって、
前記分類器は、入力層と、少なくとも１つの中間層と、出力層と、を含むニューラルネットワークで構成され、
前記機械学習装置は、
前記特定分割領域に位置し、所定の属性クラスに属する前記被写体領域画像を、前記入力層に入力する入力処理部と、
真値と、前記出力層から出力された前記特定分割領域において前記所定の属性クラスに属する確率と、の誤差を逆伝播させ、偽値と、前記出力層から出力された前記複数の分割領域において前記所定の属性クラス以外の属性クラスに属する確率と、の誤差を逆伝播させ、かつ、前記真値及び前記偽値の間の中間値と、前記出力層から出力された前記特定分割領域以外の分割領域において前記所定の属性クラスに属する確率と、の誤差を逆伝播させる誤差逆伝播処理部と、を備え、
前記入力処理部は、前記特定分割領域を表す情報と前記所定の属性クラスを表す情報とを、前記誤差逆伝播処理部に入力するものである。

本態様によれば、出力層から出力された特定分割領域において所定の属性クラスに属する確率が正解とされ、出力層から出力された特定分割領域において所定の属性クラス以外の属性クラスに属する確率は不正解とされる。また、出力層から出力された特定分割領域以外の分割領域において所定の属性クラスに属する確率は、正解と不正解との中間的な値として取り扱われる。このため、特定分割領域以外の分割領域における情報を使用することにより、分類器を好適に学習させることができる。

本発明に係る分類装置によれば、被写体が複数の属性クラスに属する各確率を用いることによって、被写体を属性クラスに好適に分類することが可能になる。

第１実施形態の属性認識装置の構成を示すブロック図である。分類器の機能を概略的に示す図である。分類器の機能を概略的に示す図である。分類器の機能を概略的に示す図である。第１実施形態の属性認識装置の動作を概略的に示すフローチャートである。第２実施形態の属性認識装置の動作を概略的に示すフローチャートである。第３実施形態の属性認識装置の構成を示すブロック図である。第３実施形態の属性認識装置の動作を概略的に示すフローチャートである。第４実施形態の属性認識装置の動作を概略的に示すフローチャートである。第５実施形態である機械学習装置の構成を示すブロック図である。第５実施形態において逆伝播される誤差の一例を概略的に示す図である。第６実施形態において逆伝播される誤差の一例を概略的に示す図である。属性認識装置、機械学習装置のハードウェア構成の一例を概略的に示すブロック図である。被写体の直上に設置されたカメラの撮影範囲を概略的に示す図である。図１４のカメラにより撮影された撮影画像の一例を概略的に示す図である。図１４のカメラにより撮影された被写体の映り方を説明する図である。

（本発明の基礎となった知見）
図１４は、被写体の直上に設置されたカメラの撮影範囲を概略的に示す図である。図１５は、図１４のカメラにより撮影された撮影画像の一例を概略的に示す図である。図１６は、図１４のカメラにより撮影された被写体の映り方を説明する図である。図１４〜図１６を参照して、本発明の基礎となった知見が説明される。

図１４の例では、カメラ１３０は、カメラ１３０の光軸ＯＡが鉛直方向になるように、撮影場所の天井ＣＬに設置されている。したがって、カメラ１３０の撮影範囲の中心である撮影中心ＣＣは、カメラ１３０の直下に位置している。

図１４に示されるような、被写体の直上に設置されたカメラ１３０により撮影された画像を用いて何らかの作業を行う場合には、用いる画像に被写体、例えば人物の顔が映っていないことが殆どであるため、プライバシー保護を考慮すると利点はある。しかし、被写体、例えば人物の属性認識を行う場合には、問題がある。人物の属性認識とは、例えば人物が属する、人物の年齢に関する年齢クラスを判断することである。この場合、人物の顔に関する情報を用いて属性クラスを判断することはできない。このため、人物の髪型、人物が持つ鞄などの持ち物、人物の服装などから、当該人物が属する属性クラスを判断することになる。その結果、属性認識の難易度が高くなる。

被写体の上方に設置されたカメラによって撮影された画像においては、カメラからの距離に応じて被写体の映り方が異なることが多い。図１４の例では、カメラ１３０の撮影範囲が、カメラ１３０の撮影中心ＣＣを含む分割領域Ａと、分割領域Ａを取り囲む分割領域Ｂと、更に分割領域Ｂを取り囲む分割領域Ｃとに、カメラ１３０の撮影中心ＣＣからの距離に応じて分割されている。このように分割した場合、図１５に示される撮影画像１３１のように、分割領域Ａ，Ｂでは、それぞれ、被写体Ｈ１，Ｈ２の頭頂部及び肩のみが映っているが、分割領域Ｃでは、被写体Ｈ３の頭頂部及び肩に加えて、足先も映っている。

このように、被写体の上方に設置されたカメラによって撮影された画像においては、被写体の位置によって被写体の形状に違いの生じることが多い。このため、被写体の上方に設置されたカメラの撮影画像を用いて、被写体の属性を認識する場合には、分割領域Ａ，Ｂ，Ｃのそれぞれにおいて、被写体の属性を表す特徴量を個別に抽出するのが好ましいと考えられる。これによって、撮影画像全体において被写体の属性を表す特徴量を抽出するよりも、被写体の属性を精度良く認識できると考えられる。

上述のような知見に基づいて、本発明者は、撮影範囲を分割した分割領域ごとに、被写体が複数の属性クラスに属する各確率を出力する分類に関する発明を想到するに至った。また、本発明者は、この分類に関する発明を用いて、被写体が属する属性クラスを精度良く認識する発明を想到するに至った。

さらに、被写体の属性認識においては、属性クラスの判断に用いる物体（例えば服装又は鞄）の映り方が、被写体の位置によって異なっていても、最終的に判断したい属性クラスは同じである。例えば、被写体の鞄保持に関する属性、つまり被写体が属性クラス「鞄を持つ人物」に属するか、属性クラス「鞄を持たない人物」に属するかを認識することを考える。例えば、鞄を持つ人物が分割領域Ａに位置し、鞄を持つ別の人物が分割領域Ｃに位置する場合、鞄を持つ２人の人物の位置が互いに異なる。このため、それぞれの人物が持つ鞄の映り方が異なることはあり得る。しかし、いずれの人物も、属性クラス「鞄を持つ人物」に属するという点では、同じである。

したがって、被写体の位置により異なる被写体の映り方によって生じる影響を軽減し、被写体の属性を表す情報だけを抽出する技術を実現することが望まれる。そこで、この技術を機械学習によって実現することが考えられる。その場合には、多くの正例を用いて学習させる必要がある。

ところで、例えば図１６に示されるように、分割領域Ａにおいても、矩形画像Ｉ１１のように、人物の足元が映る可能性はゼロではない。しかしながら、分割領域Ａにおける被写体の映り方は、矩形画像Ｉ１２，Ｉ１３のように頭頂部及び肩のみが映る場合が殆どである。このため、分割領域Ａにおける「足元が映った人物」に対する学習を十分に行うことは困難である。

また、分割領域Ｃにおいて、同じ属性クラスに属する人物の足元が映っていても、分割領域ごとに、それぞれ特徴量を個別に抽出する場合には、分割領域Ｃにおいて得られた情報を分割領域Ａに反映させることは困難であった。

上述のような知見に基づいて、本発明者は、さらに、被写体が位置する分割領域の情報だけでなく、被写体が位置する分割領域以外の分割領域の情報を用いることにより、被写体の属性をさらに精度良く認識する発明を想到するに至った。

（実施の形態）
以下、本発明にかかる実施の形態が図面に基づいて説明される。なお、各図において同一の符号を付した構成は、同一の構成であることを示し、適宜、その説明は省略される。本明細書において、総称する場合は添え字を省略した参照符号で示され、個別の構成を指す場合は添え字を付した参照符号で示される。

（第１実施形態）
図１は、第１実施形態の属性認識装置１００の構成を示すブロック図である。図２〜図４は、それぞれ分類器の機能を概略的に示す図である。

属性認識装置１００は、撮影された認識対象の被写体が属する属性クラスを認識する。この第１実施形態では、認識対象の被写体は、例えば人であり、属性は、例えば年齢であり、属性クラスは、例えば幼年クラス、若年クラス、青年クラス、壮年クラス、中年クラス、老年クラスを含む。属性認識装置１００は、図１に示されるように、ディスプレイ１１０と、入力部１２０と、カメラ１３０と、メモリ１４０と、中央演算処理装置（ＣＰＵ）１５０と、を備える。

ディスプレイ１１０は、例えば液晶ディスプレイ（ＬＣＤ）を含む。ディスプレイ１１０は、ＣＰＵ１５０により制御されて、例えば被写体の属性の認識結果を表示する。なお、ディスプレイ１１０は、ＬＣＤに限られない。ディスプレイ１１０は、有機ＥＬ（ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ）などの他の表示デバイスを含んでもよい。

入力部１２０は、例えばマウス又はキーボードを含む。入力部１２０は、ユーザにより操作されると、その操作内容を示す操作信号をＣＰＵ１５０に出力する。なお、ディスプレイ１１０がタッチパネル式ディスプレイの場合には、マウス又はキーボードに代えて、タッチパネル式ディスプレイが入力部１２０を兼用してもよい。

カメラ１３０は、図１４に示されるように、例えば、地下街の通路又は小売店舗の内部等の天井ＣＬに設置される。カメラ１３０は、ＣＰＵ１５０に無線又は有線で接続され、ＣＰＵ１５０の制御に従って、所定の撮影範囲内を撮影して、撮影画像を生成する。カメラ１３０は、撮影したフレーム画像を例えば１秒ごとにＣＰＵ１５０に出力して静止画を生成する。代替的に、カメラ１３０は、撮影したフレーム画像を例えば１／６０秒ごとにＣＰＵ１５０に出力して動画を生成してもよい。

メモリ１４０は、例えばハードディスク又は半導体メモリ等により構成される。メモリ１４０は、例えばリードオンリーメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、電気的に消去書き換え可能なＲＯＭ（ＥＥＰＲＯＭ）などを含む。メモリ１４０のＲＯＭは、ＣＰＵ１５０を動作させる本実施形態の制御プログラムを記憶する。

メモリ１４０は、分割領域情報記憶部１４１、抽出情報記憶部１４２、確率情報記憶部１４３、画像データ記憶部１４４を含む。各記憶部１４１〜１４４は、互いに別の媒体で構成されてもよい。代替的に、各記憶部１４１〜１４４は、記憶領域が分けられた一つの媒体で構成されてもよい。

分割領域情報記憶部１４１（記憶部の一例に相当）は、カメラ１３０の撮影範囲を分割した分割領域の情報を予め記憶する。この第１実施形態では、分割領域情報記憶部１４１は、分割領域Ａ，Ｂ，Ｃの境界座標を予め記憶する。分割領域Ａ，Ｂ，Ｃの境界座標は、例えば、撮影中心ＣＣを原点とし、撮影中心ＣＣからの半径ｒと、撮影中心ＣＣから例えば図１５中、右方に延びる直線に対する角度θと、を用いて、座標（ｒ，θ）により表されてもよい。或いは、分割領域Ａ，Ｂ，Ｃの境界座標は、例えば、撮影画像１３１（図１５）の左下の頂点を原点とし、左下の頂点から右向きをＸ軸とし、左下の頂点から上向きをＹ軸として、座標（Ｘ，Ｙ）により表されてもよい。抽出情報記憶部１４２、確率情報記憶部１４３、画像データ記憶部１４４の記憶内容は後述される。

ＣＰＵ１５０は、メモリ１４０に記憶された本実施形態の制御プログラムにしたがって動作することによって、画像処理部１５１、分類器１５２、属性決定部１５３及び制御部１５４として機能する。制御部１５４は、属性認識装置１００全体の動作を制御する。制御部１５４は、カメラ１３０から入力されたフレーム画像を画像データ記憶部１４４に保存する。

画像処理部１５１は、画像データ記憶部１４４に保存されたフレーム画像から、例えばテンプレートマッチングによって認識対象の被写体（この第１実施形態では、人）を抽出し、抽出した被写体を含む矩形画像を切り出す。画像処理部１５１は、切り出した矩形画像のフレーム画像における位置から、被写体が位置する分割領域（特定分割領域の一例に相当）を特定する。画像処理部１５１は、被写体を含む矩形画像（被写体領域画像の一例に相当）と、その被写体が位置する分割領域とを互いに対応付けて、抽出情報記憶部１４２に保存する。

画像処理部１５１は、例えば、図１５に示される撮影画像１３１から、被写体Ｈ１を抽出する。画像処理部１５１は、被写体Ｈ１を含む矩形画像Ｉ１（図２）を撮影画像１３１から切り出す。画像処理部１５１は、被写体Ｈ１が分割領域Ａに位置すると特定する。画像処理部１５１は、矩形画像Ｉ１と分割領域Ａとを互いに対応付けて抽出情報記憶部１４２に保存する。

画像処理部１５１は、例えば、図１５に示される撮影画像１３１から、被写体Ｈ２を抽出する。画像処理部１５１は、被写体Ｈ２を含む矩形画像Ｉ２（図３）を撮影画像１３１から切り出す。画像処理部１５１は、被写体Ｈ２が分割領域Ｂに位置すると特定する。画像処理部１５１は、矩形画像Ｉ２と分割領域Ｂとを互いに対応付けて抽出情報記憶部１４２に保存する。

画像処理部１５１は、例えば、図１５に示される撮影画像１３１から、被写体Ｈ３を抽出する。画像処理部１５１は、被写体Ｈ３を含む矩形画像Ｉ３（図４）を撮影画像１３１から切り出す。画像処理部１５１は、被写体Ｈ３が分割領域Ｃに位置すると特定する。画像処理部１５１は、矩形画像Ｉ３と分割領域Ｃとを互いに対応付けて抽出情報記憶部１４２に保存する。

分類器１５２は、被写体を含む矩形画像が入力されると、分割領域Ａ，Ｂ，Ｃ毎に、被写体が属性クラスｘ（ｘ＝０，・・・，ｋ，・・・，ｎ）に属する各確率を出力する。すなわち、分類器１５２は、分割領域毎に、かつ、属性クラス毎に、各確率を出力する。具体的には、分類器１５２は、図２〜図４に示されるように、確率Ｐａｘ，Ｐｂｘ，Ｐｃｘ（ｘ＝０，・・・，ｋ，・・・，ｎ）を出力する。

確率Ｐａｘ（ｘ＝０，・・・，ｋ，・・・，ｎ）は、入力された矩形画像に含まれる被写体が、分割領域Ａに位置し、属性クラスｘに属する各確率を表す。確率Ｐｂｘ（ｘ＝０，・・・，ｋ，・・・，ｎ）は、入力された矩形画像に含まれる被写体が、分割領域Ｂに位置し、属性クラスｘに属する各確率を表す。確率Ｐｃｘ（ｘ＝０，・・・，ｋ，・・・，ｎ）は、入力された矩形画像に含まれる被写体が、分割領域Ｃに位置し、属性クラスｘに属する各確率を表す。

この第１実施形態では、属性クラス０は、幼年クラスであり、属性クラス１は、若年クラスであり、属性クラス２は、青年クラスであり、属性クラス３は、壮年クラスであり、属性クラス４は、中年クラスであり、属性クラス５は、老年クラスである。すなわち、この第１実施形態では、ｎ＝５である。

属性決定部１５３は、分類器１５２から出力された確率Ｐａｘ，Ｐｂｘ，Ｐｃｘ（ｘ＝０，・・・，ｋ，・・・，ｎ）と、抽出情報記憶部１４２に保存されている、分類器１５２に入力された矩形画像に含まれる被写体が位置する分割領域の情報とを用いて、被写体が属する属性クラスＡＣを決定する。この第１実施形態では、属性決定部１５３は、式（１）により属性クラスＡＣを決定する。

ＡＣ＝ｍａｘ（Ｐｙｘ）となるｘ（１）
式（１）において、符号ｙは、分類器１５２に入力された矩形画像に含まれる被写体が位置する分割領域を表す。この第１実施形態では、被写体が位置する分割領域が、分割領域Ａであればｙ＝ａであり、分割領域Ｂであればｙ＝ｂであり、分割領域Ｃであればｙ＝ｃである。

まず、図２に示されるように、矩形画像Ｉ１が分類器１５２に入力される例が説明される。矩形画像Ｉ１に含まれる被写体Ｈ１は、上述のように、分割領域Ａに位置する。このため、式（１）において、ｙ＝ａである。図２の例では、確率Ｐａｘ（ｘ＝０，・・・，ｋ，・・・，ｎ）のうち最大値は確率Ｐａｋである。よって、属性決定部１５３は、被写体Ｈ１が属性クラスｋに属すると決定する。

次に、図３に示されるように、矩形画像Ｉ２が分類器１５２に入力される例が説明される。矩形画像Ｉ２に含まれる被写体Ｈ２は、上述のように、分割領域Ｂに位置する。このため、式（１）において、ｙ＝ｂである。図３の例では、確率Ｐｂｘ（ｘ＝０，・・・，ｋ，・・・，ｎ）のうち最大値は確率Ｐｂｋである。よって、属性決定部１５３は、被写体Ｈ２が属性クラスｋに属すると決定する。

次に、図４に示されるように、矩形画像Ｉ３が分類器１５２に入力される例が説明される。矩形画像Ｉ３に含まれる被写体Ｈ３は、上述のように、分割領域Ｃに位置する。このため、式（１）において、ｙ＝ｃである。図４の例では、確率Ｐｃｘ（ｘ＝０，・・・，ｋ，・・・，ｎ）のうち最大値は確率Ｐｃｋである。よって、属性決定部１５３は、被写体Ｈ３が属性クラスｋに属すると決定する。

この第１実施形態において、図２〜図４の矩形画像Ｉ１，Ｉ２，Ｉ３は、被写体領域画像の一例に相当する。また、図２の例では分割領域Ａが特定分割領域の一例に相当し、図３の例では分割領域Ｂが特定分割領域の一例に相当し、図４の例では分割領域Ｃが特定分割領域の一例に相当する。

図５は、第１実施形態の属性認識装置１００の動作手順例を概略的に示すフローチャートである。属性認識装置１００は、例えば、カメラ１３０からフレーム画像がＣＰＵ１５０に入力される度に、図５に示される処理を繰り返して実行する。

ステップＳ１００において、画像処理部１５１は、画像データ記憶部１４４に保存されたフレーム画像を取得する。ステップＳ１０５において、画像処理部１５１は、例えばテンプレートマッチングにより人を含む矩形画像を抽出し、抽出した矩形画像を抽出情報記憶部１４２に保存する。ステップＳ１１０において、画像処理部１５１は、人が位置する分割領域を特定する。ステップＳ１１５において、画像処理部１５１は、特定した分割領域を、矩形画像と対応付けて抽出情報記憶部１４２に保存する。

ステップＳ１２０において、制御部１５４は、抽出情報記憶部１４２に保存されている矩形画像を、分類器１５２に入力する。ステップＳ１２５において、制御部１５４は、分類器１５２から出力された、分割領域ごとの、各属性クラスの確率を確率情報記憶部１４３に保存する。ステップＳ１３０において、属性決定部１５３は、矩形画像に含まれる人が属する属性クラスＡＣを式（１）により決定する。属性決定部１５３は、決定した属性クラスを、矩形画像と対応付けて、抽出情報記憶部１４２に保存する。

ステップＳ１４０において、画像処理部１５１は、ステップＳ１００で取得したフレーム画像に対して、例えばテンプレートマッチングによる人の抽出が、フレーム画像の全体において終了したか否かを判定する。人の抽出が終了していなければ（ステップＳ１４０でＮＯ）、処理はステップＳ１０５に戻って、以上のステップが繰り返される。一方、人の抽出が終了していれば（ステップＳ１４０でＹＥＳ）、図５の動作は終了する。

以上説明されたように、第１実施形態では、カメラ１３０の撮影範囲を分割領域Ａ，Ｂ，Ｃに分割している。人を含む矩形画像が入力されると、分類器１５２は、分割領域Ａ，Ｂ，Ｃごとに、矩形画像に含まれる人が、各属性クラスに属する各確率を出力する。属性決定部１５３は、式（１）により、人が位置する分割領域において、最大の確率に対応する属性クラスを、人が属する属性クラスＡＣであると決定する。したがって、第１実施形態によれば、人が位置する分割領域に応じて、人が属する属性クラスを好適に決定することができる。

（第２実施形態）
上記第１実施形態では、（本発明の基礎となった知見）で説明されたように、その分割領域内で学習された映り方だけに強くなってしまい、図１６に示されるような、少数派の映り方に弱い。そこで、第２実施形態では、「被写体が属する属性クラスは、被写体の位置する分割領域が異なるため映り方が異なっている場合でも、映り方によって変わらない筈である」ということを利用して、他の分割領域の情報が参照される。第２実施形態における属性認識装置１００の構成は、図１に示される第１実施形態と同じである。以下、第１実施形態との相違点を中心に、第２実施形態が説明される。

第２実施形態では、属性決定部１５３は、式（２）により属性クラスＡＣを決定する。
ＡＣ＝ｍａｘ｛Ｐｙｘ×Ｗｔ＋Σ（Ｐｚｘ×Ｗｏ）｝となるｘ（２）
式（２）において、第１実施形態と同様にｘ＝０，・・・，ｋ，・・・，ｎである。符号ｙは、第１実施形態と同様に、分類器１５２に入力された矩形画像に含まれる被写体が位置する分割領域を表す。すなわち、ｙ＝ａ又はｙ＝ｂ又はｙ＝ｃである。

符号ｚは、分類器１５２に入力された矩形画像に含まれる被写体が位置する分割領域以外の分割領域を表す。すなわち、ｚ≠ｙである。言い換えると、ｙ＝ａであればｚ＝ｂ，ｃであり、ｙ＝ｂであればｚ＝ａ，ｃであり、ｙ＝ｃであればｚ＝ａ，ｂである。重み係数Ｗｔは、Ｗｔ≧１であり、例えばＷｔ＝１である。重み係数Ｗｏは、０＜Ｗｏ＜１であり、例えばＷｏ＝０．５である。なお、重み係数Ｗｔ，Ｗｏは、０＜Ｗｏ＜Ｗｔであってもよい。

まず、図３に示されるように、矩形画像Ｉ２が分類器１５２に入力される例が説明される。図３において、矩形画像Ｉ２に含まれる被写体Ｈ２は、上述のように、分割領域Ｂに位置している。このため、属性決定部１５３は、
ｍａｘ｛Ｐｂｘ×Ｗｔ＋（Ｐａｘ×Ｗｏ＋Ｐｃｘ×Ｗｏ）｝
となるｘを、属性クラスＡＣと決定する。

例えば、属性決定部１５３は、
Ｐｂ０×Ｗｔ＋（Ｐａ０×Ｗｏ＋Ｐｃ０×Ｗｏ）
を算出して、計算結果をメモリ１４０に保存する。また、属性決定部１５３は、
Ｐｂｋ×Ｗｔ＋（Ｐａｋ×Ｗｏ＋Ｐｃｋ×Ｗｏ）
を算出して、計算結果をメモリ１４０に保存する。また、属性決定部１５３は、
Ｐｂｎ×Ｗｔ＋（Ｐａｎ×Ｗｏ＋Ｐｃｎ×Ｗｏ）
を算出して、計算結果をメモリ１４０に保存する。すなわち、属性決定部１５３は、
Ｐｂｘ×Ｗｔ＋（Ｐａｘ×Ｗｏ＋Ｐｃｘ×Ｗｏ）
の計算を、ｘ＝０，・・・，ｋ，・・・，ｎについて繰り返して行い、それぞれの計算結果をメモリ１４０に保存する。そして、属性決定部１５３は、メモリ１４０に保存された計算結果のうち、最大値となるｘを属性クラスＡＣに決定する。

次に、図２に示されるように、矩形画像Ｉ１が分類器１５２に入力される例が説明される。図２において、矩形画像Ｉ１に含まれる被写体Ｈ１は、上述のように、分割領域Ａに位置している。このため、属性決定部１５３は、
ｍａｘ｛Ｐａｘ×Ｗｔ＋（Ｐｂｘ×Ｗｏ＋Ｐｃｘ×Ｗｏ）｝
となるｘを、属性クラスＡＣと決定する。

次に、図４に示されるように、矩形画像Ｉ３が分類器１５２に入力される例が説明される。図４において、矩形画像Ｉ３に含まれる被写体Ｈ３は、上述のように、分割領域Ｃに位置している。このため、属性決定部１５３は、
ｍａｘ｛Ｐｃｘ×Ｗｔ＋（Ｐａｘ×Ｗｏ＋Ｐｂｘ×Ｗｏ）｝
となるｘを、属性クラスＡＣと決定する。

図６は、第２実施形態の属性認識装置１００の動作手順例を概略的に示すフローチャートである。属性認識装置１００は、例えば、カメラ１３０からフレーム画像がＣＰＵ１５０に入力される度に、図６に示される処理を繰り返して実行する。

ステップＳ１００〜Ｓ１２５は、図５のステップＳ１００〜Ｓ１２５と同じである。ステップＳ１２５に続くステップＳ３００において、属性決定部１５３は、矩形画像に含まれる人が属する属性クラスＡＣを式（２）により決定する。ステップＳ３００に続くステップＳ１３５〜Ｓ１４０は、図５のステップＳ１３５〜Ｓ１４０と同じである。

以上説明されたように、第２実施形態では、カメラ１３０の撮影範囲を分割領域Ａ，Ｂ，Ｃに分割している。人を含む矩形画像が入力されると、分類器１５２は、分割領域Ａ，Ｂ，Ｃごとに、矩形画像に含まれる人が、各属性クラスに属する各確率を出力する。属性決定部１５３は、式（２）により、人が位置する分割領域において各属性クラスに属する各確率と、人が位置する分割領域以外の分割領域において各属性クラスに属する各確率と、を用いて、人が属する属性クラスＡＣを決定する。

言い換えると、第２実施形態では、人を含む矩形画像が位置している分割領域での映り方に対して，異なる映り方の他の分割領域の情報も参照している。これによって、第２実施形態によれば、人が属する属性クラスを精度良く決定することができる。

例えば、被写体が分割領域Ａに位置するときは、図１６の矩形画像Ｉ１１のように足元が映ることは殆ど無い。このため、上記第１実施形態では、矩形画像Ｉ１２，Ｉ１３のように足元が映らない画像の影響が大きくなる。これに対して、第２実施形態では、式（２）に示されるように、被写体が分割領域Ａに位置する場合であっても、同じ属性クラスの分割領域Ｂ，Ｃの情報も用いられている。このため、第２実施形態によれば、特に被写体が分割領域Ａに位置する場合において、被写体が属する属性クラスを、第１実施形態に比べて、精度良く決定することができる。

（第３実施形態）
図７は、第３実施形態の属性認識装置１００の構成を示すブロック図である。以下、第１、第２実施形態との相違点を中心に、第３実施形態が説明される。

ＣＰＵ１５０は、メモリ１４０に記憶された本実施形態の制御プログラムにしたがって動作することによって、画像処理部１５１、分類器１５２、属性決定部１５３、制御部１５４及び同定処理部１５５として機能する。

同定処理部１５５は、画像データ記憶部１４４に保存されているフレーム画像から抽出された人に、それぞれ人物識別情報（人物ＩＤ）を付与する。同定処理部１５５は、画像データ記憶部１４４に保存されている最新のフレーム画像から抽出された人のうち、１つ前のフレーム画像から抽出された人と同一人物を特定する同定処理を行う。同定処理部１５５は、画像データ記憶部１４４に保存されている最新のフレーム画像から抽出された人が、１つ前のフレーム画像から抽出された人と同一人物であるときは、最新のフレーム画像から抽出された人に、同一人物である１つ前のフレーム画像から抽出された人に付与された人物ＩＤと同じ人物ＩＤを付与する。同定処理部１５５は、矩形画像及び分割領域と対応付けて、人物ＩＤを抽出情報記憶部１４２に保存する。

属性決定部１５３は、式（１）により属性クラスＡＣを決定する。属性決定部１５３は、矩形画像、分割領域及び人物ＩＤと対応付けて、決定した属性クラスを抽出情報記憶部１４２に保存する。

属性決定部１５３は、さらに、決定された属性クラスのうちで、人物ＩＤが同じ属性クラスを用いて、最終的な属性クラスを再決定する。例えば、人物ＩＤが同じ属性クラスのなかで異なる属性クラスが含まれている場合には、属性決定部１５３は、最も多く判定された属性クラスを、最終的な属性クラスとして再決定してもよい。或いは、属性決定部１５３は、例えば、人物ＩＤが同じ矩形画像について、確率情報記憶部１４３に保存されている、分類器１５２から出力された各確率をそれぞれ加算して、加算結果が最大値となる属性クラスを、最終的な属性クラスとして再決定してもよい。

属性決定部１５３は、矩形画像、分割領域、人物ＩＤ及び最初に決定した属性クラスと対応付けて、再決定された最終的な属性クラスを抽出情報記憶部１４２に保存する。

図８は、第３実施形態の属性認識装置１００の動作手順例を概略的に示すフローチャートである。ステップＳ１００〜Ｓ１３０は、図５のステップＳ１００〜Ｓ１３０と同じである。

ステップＳ２００において、同定処理部１５５は、ステップＳ１０５で抽出情報記憶部１４２に保存された矩形画像に含まれる人と、１つ前のフレーム画像で抽出された人との間で、同一人物を特定する同定処理を行う。

ステップＳ２０５において、同定処理部１５５は、ステップＳ１０５で抽出情報記憶部１４２に保存された矩形画像に含まれる人に人物ＩＤを付与し、付与した人物ＩＤを、当該矩形画像と対応付けて、抽出情報記憶部１４２に保存する。同定処理部１５５は、１つ前のフレーム画像で抽出された人と同一人物であると特定したときは、その同一人物に付与された人物ＩＤと同じ人物ＩＤを、ステップＳ１０５で抽出情報記憶部１４２に保存された矩形画像に含まれる人に付与する。

ステップＳ２１０において、属性決定部１５３は、ステップＳ１３０で決定した属性クラスを、ステップＳ２０５で保存された人物ＩＤに対応付けて、抽出情報記憶部１４２に保存する。ステップＳ２１５において、属性決定部１５３は、ステップＳ２０５で付与された人物ＩＤが、既に抽出情報記憶部１４２に保存されているときは、その人物ＩＤが付与された人について属性クラスを再決定し、ステップＳ１０５で抽出情報記憶部１４２に保存された矩形画像に対応付けて、再決定した属性クラスを抽出情報記憶部１４２に保存する。

ステップＳ１４０において、画像処理部１５１は、ステップＳ１００で取得したフレーム画像に対して、例えばテンプレートマッチングによる人の抽出が、全ての領域において終了したか否かを判定する。人の抽出が終了していなければ（ステップＳ１４０でＮＯ）、処理はステップＳ１０５に戻って、以上のステップが繰り返される。一方、人の抽出が終了していれば（ステップＳ１４０でＹＥＳ）、処理はステップＳ２２０に進む。

ステップＳ２２０において、制御部１５４は、処理を継続するか否かを判定する。処理を継続する場合には（ステップＳ２２０でＹＥＳ）、処理はステップＳ１００に戻って、以上のステップが繰り返される。一方、処理を継続しない場合には（ステップＳ２２０でＮＯ）、図８の動作は終了する。

制御部１５４は、例えば、入力部１２０を用いて処理の終了が指示されると、処理を継続しないと判定してもよい。制御部１５４は、例えば、入力部１２０を用いて処理の終了が指示されない限り、処理を継続すると判定してもよい。制御部１５４は、処理を継続する場合には（ステップＳ２２０でＹＥＳ）、例えば、カメラ１３０からフレーム画像がＣＰＵ１５０に入力される度に、処理をステップＳ１００に戻してもよい。

以上説明されたように、第３実施形態では、同定処理部１５５は、フレーム画像から抽出された人が、既に抽出された人と同一人物であるか否かを判定し、同一人物であれば、同じ人物ＩＤを付与している。属性決定部１５３は、決定された属性クラスのうちで、人物ＩＤが同じ属性クラスを用いて、最終的な属性クラスを再決定する。同一人物であれば、その人物は、同じ属性クラスに属する筈である。したがって、人物ＩＤが同じ属性クラスを用いて、最終的な属性クラスを再決定することにより、人物に対する属性認識の精度を向上することができる。

（第４実施形態）
第４実施形態における属性認識装置１００の構成は、図７に示される第３実施形態と同じである。第４実施形態の属性決定部１５３は、第２実施形態と同様に、上記式（２）により属性クラスＡＣを決定する。以下、第１〜第３実施形態との相違点を中心に、第４実施形態が説明される。

図９は、第４実施形態の属性認識装置１００の動作手順例を概略的に示すフローチャートである。ステップＳ１００〜Ｓ１２５は、図５のステップＳ１００〜Ｓ１２５と同じである。ステップＳ３００は、図６のステップＳ３００と同じである。ステップＳ２００〜Ｓ２１５は、図８のステップＳ２００〜Ｓ２１５と同じである。ステップＳ１４０は、図５のステップＳ１４０と同じである。ステップＳ２２０は、図８のステップＳ２２０と同じである。

以上のように、第４実施形態は、上記第２実施形態と、上記第３実施形態とを合わせた実施形態になっている。したがって、第４実施形態によれば、上記第２実施形態及び上記第３実施形態と同様の効果を得ることができる。

（第５実施形態）
図１０は、第５実施形態である機械学習装置の構成を示すブロック図である。図１１は、第５実施形態である機械学習装置において、逆伝播される誤差の一例を概略的に示す図である。機械学習装置２００は、入力処理部２１０、誤差逆伝播処理部２２０を備え、分類器１５２を機械学習させる。分類器１５２は、本実施形態では、入力層１６１、少なくとも１つの中間層１６２、出力層１６３を含むニューラルネットワークである。

入力処理部２１０は、入力画像ＩＬを分類器１５２の入力層１６１に入力する。入力処理部２１０は、入力画像ＩＬの正解属性クラスＰＣを誤差逆伝播処理部２２０に入力する。入力処理部２１０は、入力画像ＩＬの正解分割領域ＰＡを誤差逆伝播処理部２２０に入力する。

誤差逆伝播処理部２２０は、入力画像ＩＬの正解属性クラスＰＣ、正解分割領域ＰＡ、及び分類器１５２の出力層１６３から出力される出力値を用いて、出力値と真値との誤差Ｅｔ１を式（３）により算出し、出力値と偽値との誤差Ｅｆ１を式（４）により算出し、算出したそれぞれの誤差Ｅｔ１，Ｅｆ１を逆伝播する。

Ｅｔ１＝１−Ｄｑｐ（３）
式（３）において、符号ｐは、ｐ＝０，・・・，ｋ，・・・，ｎのうち正解の属性クラスを表す。符号ｑは、正解の分割領域を表す。すなわち、正解の分割領域が分割領域Ａであれば、ｑ＝ａであり、正解の分割領域が分割領域Ｂであれば、ｑ＝ｂであり、正解の分割領域が分割領域Ｃであれば、ｑ＝ｃである。このように、出力値Ｄｑｐは、正解の属性クラス、かつ正解の分割領域に対応する出力値である。したがって、誤差Ｅｔ１は、真値である１と、正解の属性クラス、かつ正解の分割領域に対応する出力値Ｄｑｐと、の差を表す。

Ｅｆ１＝０−Ｄｗｖ（４）
式（４）において、符号ｖは、ｖ＝０，・・・，ｋ，・・・，ｎのうち正解の属性クラス以外の属性クラスを表す。すなわちｖ≠ｐである。符号ｗは、正解の分割領域以外の分割領域を表す。すなわち、ｗ≠ｑである。このように、出力値Ｄｗｖは、正解の属性クラス以外の属性クラスに対応する出力値、又は正解の分割領域以外の分割領域に対応する出力値である。したがって、誤差Ｅｆ１は、偽値である０と、正解の属性クラス以外の属性クラス、又は正解の分割領域以外の分割領域に対応する出力値Ｄｗｖと、の差を表す。

図１１には、正解の属性クラスを表す符号ｐがｐ＝０であり、正解の分割領域が分割領域Ｂである例が示されている。すなわち、図１１の例では、値Ｇｂ０が真値（つまりＧｂ０＝１）であり、値Ｇｂ０以外の値Ｇｔｓ（ｔ≠ｂ又はｓ≠０）が偽値（つまりＧｔｓ＝０）である。また、図１１に示される出力値Ｄｙｘ（ｙ＝ａ又はｂ又はｃ、ｘ＝０，・・・，ｋ，・・・，ｎ）は、分類器１５２の入力層１６１に入力画像ＩＬが入力されたときに、出力層１６３から出力される出力値の一例である。

以上説明されたように、第５実施形態では、誤差逆伝播処理部２２０は、正解の属性クラス、かつ正解の分割領域のみを真値として、誤差を逆伝播させる。したがって、第５実施形態によれば、第１、第３実施形態の属性認識装置１００に使用可能な分類器１５２を好適に作製することができる。

また、第２、第４実施形態の属性認識装置１００では、上述のように、正解の属性クラス、かつ正解の分割領域の情報だけでなく、正解の属性クラス、かつ正解の分割領域以外の分割領域の情報も参照して、認識対象が属する属性クラスを決定している。一方、第５実施形態では、分類器１５２は、正解の分割領域以外の分割領域の影響を受けずに、正解の分割領域のみを独立して学習している。このため、第５実施形態で作製された分類器１５２を第２、第４実施形態の属性認識装置１００に用いると、正解の分割領域以外の分割領域の情報も参照することにより、属性クラス決定の精度向上を図ることができる。

（第６実施形態）
図１２は、第６実施形態である機械学習装置において、逆伝播される誤差の一例を概略的に示す図である。第６実施形態における機械学習装置２００の構成は、図１０に示される第５実施形態と同じである。以下、第５実施形態との相違点を中心に、第６実施形態が説明される。

第６実施形態の誤差逆伝播処理部２２０は、入力画像ＩＬの正解属性クラスＰＣ、正解分割領域ＰＡ、及び分類器１５２の出力層１６３から出力される出力値を用いて、出力値と真値との誤差Ｅｔ２を式（５）により算出し、出力値と疑似真値との誤差Ｅｔ３を式（６）により算出し、出力値と偽値との誤差Ｅｆ２を式（７）により算出し、算出したそれぞれの誤差Ｅｔ２，Ｅｔ３，Ｅｆ２を逆伝播する。

Ｅｔ２＝１−Ｄｑｐ（５）
式（５）において、符号ｐは、第５実施形態の式（３）と同様に、ｐ＝０，・・・，ｋ，・・・，ｎのうち正解の属性クラスを表す。符号ｑは、第５実施形態の式（３）と同様に、正解の分割領域を表す。このように、出力値Ｄｑｐは、第５実施形態と同様に、正解の属性クラス、かつ正解の分割領域に対応する出力値である。したがって、誤差Ｅｔ２は、第５実施形態の式（３）の誤差Ｅｔ１と同様に、真値である１と、正解の属性クラス、かつ正解の分割領域に対応する出力値Ｄｑｐと、の差を表す。

Ｅｔ３＝Ｇｗｐ−Ｄｗｐ（６）
式（６）において、符号ｐは、第５実施形態の式（３）と同様に、ｐ＝０，・・・，ｋ，・・・，ｎのうち正解の属性クラスを表す。符号ｗは、正解の分割領域以外の分割領域を表す。すなわち、ｗ≠ｑである。このように、出力値Ｄｗｐは、正解の属性クラス、かつ正解の分割領域以外の分割領域に対応する出力値である。疑似真値Ｇｗｐは、０＜Ｇｗｐ＜１に設定された値である。第６実施形態では、例えば、Ｇｗｐ＝０．５である。したがって、誤差Ｅｔ３は、疑似真値Ｇｗｐと、正解の属性クラス、かつ正解の分割領域以外の分割領域に対応する出力値Ｄｗｐと、の差を表す。

Ｅｆ２＝０−Ｄｙｖ（７）
式（７）において、符号ｖは、ｖ＝０，・・・，ｋ，・・・，ｎのうち正解の属性クラス以外の属性クラスを表す。すなわちｖ≠ｐである。符号ｙは、いずれかの分割領域を表す。すなわち、ｙ＝ａ又はｂ又はｃである。このように、出力値Ｄｙｖは、正解の属性クラス以外の属性クラスに対応する出力値である。したがって、誤差Ｅｆ２は、偽値である０と、正解の属性クラス以外の属性クラスに対応する出力値Ｄｙｖと、の差を表す。

図１２には、正解の属性クラスを表す符号ｐがｐ＝０であり、正解の分割領域が分割領域Ｂである例が示されている。すなわち、図１２の例では、値Ｇｂ０が真値（つまりＧｂ０＝１）であり、値Ｇａ０，Ｇｃ０が疑似真値（つまり０＜Ｇａ０＜１、０＜Ｇｃ０＜１）であり、値Ｇａ０，Ｇｂ０，Ｇｃ０以外の値Ｇｙｓ（ｙ＝ａ又はｂ又はｃ、ｓ≠０）が偽値（つまりＧｙｓ＝０）である。また、図１２に示される出力値Ｄｙｘ（ｙ＝ａ又はｂ又はｃ、ｘ＝０，・・・，ｋ，・・・，ｎ）は、分類器１５２の入力層１６１に入力画像ＩＬが入力されたときに、出力層１６３から出力される出力値の一例である。

以上説明されたように、第６実施形態では、誤差逆伝播処理部２２０は、正解の属性クラス、かつ正解の分割領域を真値とし、正解の属性クラス、かつ正解の分割領域以外の分割領域を疑似真値として、誤差を逆伝播させる。すなわち、誤差逆伝播処理部２２０は、属性クラスが正解の属性クラスであれば、正解の分割領域だけでなく、正解の分割領域以外の分割領域の誤差も、逆伝播させる。

これによって、例えば分割領域Ａに位置する学習用データ（つまり入力画像ＩＬ）が不足している場合でも、他の分割領域Ｂ，Ｃの誤差も逆伝播させることにより、学習用データの不足を補うことができる。その結果、例えば図１６に示されるような、分割領域Ａにおいて人物の足元が映っている矩形画像Ｉ１１が入力された場合でも、高精度に分類する出力値を出力する分類器１５２を作製することができる。

（ハードウェア構成）
図１３は、属性認識装置１００（図１、図７）、機械学習装置２００（図１０）のハードウェア構成の一例を概略的に示すブロック図である。属性認識装置１００（図１、図７）、機械学習装置２００（図１０）は、図１３に示されるように、ＣＰＵ３０１、ＲＡＭ３０２、ＲＯＭ３０３、ハードディスクドライブ（ＨＤＤ）３０４、ＬＣＤ３０５、キーボード３０６、マウス３０７、ＵＳＢインターフェース（ＩＦ）３０８、通信ＩＦ３０９と、これらＣＰＵ３０１、ＲＡＭ３０２、ＲＯＭ３０３、ＨＤＤ３０４、ＬＣＤ３０５、キーボード３０６、マウス３０７、ＵＳＢＩＦ３０８、通信ＩＦ３０９を相互に接続するバス３１０とを備えるコンピュータ３００によって構成される。なお、通信ＩＦ３０９は、カメラ１３０（図１、図７）と有線又は無線によって通信可能に接続するものであり、機械学習装置２００（図１０）では、省略できる。

（その他）
（１）上記第１、第３実施形態では、分割領域ごとに属性クラスの確率を出力する１つの分類器１５２を備え、分割領域Ａ，Ｂ，Ｃで、１つの分類器を兼用しているが、これに限られない。属性クラスの確率のみを出力する、分割領域Ａ用の分類器、分割領域Ｂ用の分類器、分割領域Ｃ用の分類器の、３個の分類器を備えるようにしてもよい。

（２）上記第１〜第４実施形態では、例えば図１４に示されるように、カメラ１３０は、カメラ１３０の光軸ＯＡが鉛直方向になるように設置され、撮影中心ＣＣはカメラ１３０の直下に位置しているが、これに限られない。例えば、カメラは、カメラの光軸が鉛直方向に対して傾斜するように設置されてもよい。この実施形態でも、上記各実施形態と同様に、カメラの撮影範囲の撮影中心からの距離に応じて、カメラの撮影範囲を分割すればよい。

（３）上記第３実施形態（図８）、上記第４実施形態（図９）では、ステップＳ２１０に続いて、ステップＳ１４０の前に、ステップＳ２１５が実行されている。すなわち、決定した属性クラスが人物ＩＤに対応付けて保存される度に（ステップＳ２１０）、同じ人物ＩＤの情報を用いて属性クラスが再決定されている（ステップＳ２１５）。

代替的に、人の抽出が終了していれば（ステップＳ１４０でＹＥＳ）、ステップＳ２２０の前に、ステップＳ２１５が実行されてもよい。さらに代替的に、処理を継続しない場合に（ステップＳ２２０でＮＯ）、ステップＳ２１５が実行されてもよい。すなわち、決定した属性クラスが人物ＩＤに対応付けて保存される処理（ステップＳ２１０）が、複数回数、実行された後で、同じ人物ＩＤの情報を用いて属性クラスが再決定されるようにしてもよい（ステップＳ２１５）。

（４）第５実施形態の機械学習装置２００によって作製された分類器１５２を、第１、第３実施形態の属性認識装置１００の分類器１５２として使用してもよい。代替的に、第６実施形態の機械学習装置２００によって作製された分類器１５２を、第１、第３実施形態の属性認識装置１００の分類器１５２として使用してもよい。

（５）第６実施形態の機械学習装置２００によって作製された分類器１５２を、第２、第４実施形態の属性認識装置１００の分類器１５２として使用してもよい。この場合において、疑似真値Ｇｗｐと、非特定重み係数Ｗｏとは、同じ値に設定してもよく、異なる値に設定してもよい。代替的に、第５実施形態の機械学習装置２００によって作製された分類器１５２を、第２、第４実施形態の属性認識装置１００の分類器１５２として使用してもよい。

（６）上記各実施形態では、認識対象の被写体は、人とされ、属性は、年齢とされているが、これに限られない。

認識対象の被写体が人の場合、属性は、性別でもよい。属性は、身に着けている装飾品の有無でもよい。装飾品は、鞄、靴、ジャケットなどの衣服、帽子、サングラスなどのメガネ類、杖、シルバーカーなどの歩行補助器具などを含む。属性は、装飾品の色及び種類でもよい。例えば、赤い上着、黒いズボン、茶色のコート、ある職種の制服などが含まれる。属性は、物体保持の有無でもよい。例えば、店舗で商品を手にしているか否か、銃などの危険物を手にしているか否か、などが含まれる。属性は、他の人物の帯同の有無でもよい。属性は、ペットの帯同の有無でもよい。

認識対象の被写体は、動物でもよい。この場合、属性は、動物の種類でもよい。例えば犬種、模様などが含まれる。属性は、着衣の有無でもよい。属性は、リール類の有無でもよい。属性は、飼い主の帯同の有無でもよい。

認識対象の被写体は、車、バイクなどの乗り物でもよい。属性は、車種でもよい。属性は、色でもよい。属性は、型番でもよい。属性は、同乗者の有無でもよい。

（７）本発明を表現するために、上述において図面を参照しながら実施形態を通して本発明を適切且つ十分に説明したが、当業者であれば上述の実施形態を変更および／または改良することは容易に為し得ることであると認識すべきである。したがって、当業者が実施する変更形態または改良形態が、請求の範囲に記載された請求項の権利範囲を離脱するレベルのものでない限り、当該変更形態または当該改良形態は、当該請求項の権利範囲に包括されると解釈される。

１００属性認識装置
１３０カメラ
１４１分割領域情報記憶部
１５１画像処理部
１５２分類器
１５３属性決定部
２００機械学習装置
２１０入力処理部
２２０誤差逆伝播処理部

Claims

認識対象の被写体より上方に設置されたカメラで撮影された撮影画像を用いて、前記被写体を所定の属性に関する複数の属性クラスに分類する分類装置であって、
前記カメラの撮影範囲を前記カメラの直下からの距離に応じて分割して生成された複数の分割領域を表す分割領域情報を記憶する記憶部と、
前記撮影画像から前記被写体を含む領域の画像である被写体領域画像を抽出する画像処理部と、
前記被写体領域画像を用いて、前記複数の分割領域ごとに、前記被写体が前記複数の属性クラスに属する各確率を出力する分類器と、
を備える分類装置。
請求項１に記載の分類装置と、
前記複数の属性クラスのうち前記被写体が属する属性クラスを決定する属性決定部と、を備え、
前記画像処理部は、前記複数の分割領域のうち前記被写体が位置する分割領域を特定分割領域として特定し、
前記属性決定部は、前記複数の分割領域ごとに前記分類器から出力された前記各確率のうち、少なくとも前記特定分割領域において前記被写体が前記複数の属性クラスに属する各確率を用いて、前記被写体が属する属性クラスを決定する、
属性認識装置。
前記属性決定部は、前記複数の分割領域ごとに前記分類器から出力された前記各確率のうち、前記特定分割領域において最も高い確率に対応する属性クラスを、前記被写体が属する属性クラスであると決定する、
請求項２に記載の属性認識装置。
前記属性決定部は、前記特定分割領域において前記複数の属性クラスに属する各確率に特定重み係数を乗算した積と、前記特定分割領域以外の分割領域において前記複数の属性クラスに属する各確率に非特定重み係数を乗算した積と、の和を前記複数の属性クラスごとにそれぞれ算出し、前記和が最大の属性クラスを、前記被写体が属する属性クラスであると決定する、
請求項２に記載の属性認識装置。
前記特定重み係数及び前記非特定重み係数は、それぞれ正の数であり、
前記特定重み係数は、前記非特定重み係数より大きい値である、
請求項４に記載の属性認識装置。
請求項１に記載の分類装置の前記分類器を学習させる機械学習装置であって、
前記分類器は、入力層と、少なくとも１つの中間層と、出力層と、を含むニューラルネットワークで構成され、
前記機械学習装置は、
前記特定分割領域に位置し、所定の属性クラスに属する前記被写体領域画像を、前記入力層に入力する入力処理部と、
真値と、前記出力層から出力された前記特定分割領域において前記所定の属性クラスに属する確率と、の誤差を逆伝播させ、かつ、偽値と、前記出力層から出力された前記特定分割領域において前記所定の属性クラスに属する確率以外の確率と、の誤差を逆伝播させる誤差逆伝播処理部と、を備え、
前記入力処理部は、前記特定分割領域を表す情報と前記所定の属性クラスを表す情報とを、前記誤差逆伝播処理部に入力する、
機械学習装置。
請求項１に記載の分類装置の前記分類器を学習させる機械学習装置であって、
前記分類器は、入力層と、少なくとも１つの中間層と、出力層と、を含むニューラルネットワークで構成され、
前記機械学習装置は、
前記特定分割領域に位置し、所定の属性クラスに属する前記被写体領域画像を、前記入力層に入力する入力処理部と、
真値と、前記出力層から出力された前記特定分割領域において前記所定の属性クラスに属する確率と、の誤差を逆伝播させ、偽値と、前記出力層から出力された前記複数の分割領域において前記所定の属性クラス以外の属性クラスに属する確率と、の誤差を逆伝播させ、かつ、前記真値及び前記偽値の間の中間値と、前記出力層から出力された前記特定分割領域以外の分割領域において前記所定の属性クラスに属する確率と、の誤差を逆伝播させる誤差逆伝播処理部と、を備え、
前記入力処理部は、前記特定分割領域を表す情報と前記所定の属性クラスを表す情報とを、前記誤差逆伝播処理部に入力する、
機械学習装置。
認識対象の被写体より上方に設置されたカメラで撮影された撮影画像を用いて、前記被写体を所定の属性に関する複数の属性クラスに分類する分類方法であって、
前記撮影画像から前記被写体を含む領域の画像である被写体領域画像を抽出する画像処理ステップと、
前記被写体領域画像を用いて、前記カメラの撮影範囲を前記カメラの直下からの距離に応じて分割して生成された複数の分割領域ごとに、前記被写体が前記複数の属性クラスに属する各確率を出力する分類ステップと、
を備える分類方法。