JP2019109843A - 分類装置、分類方法、属性認識装置、及び機械学習装置 - Google Patents

分類装置、分類方法、属性認識装置、及び機械学習装置 Download PDF

Info

Publication number
JP2019109843A
JP2019109843A JP2017243946A JP2017243946A JP2019109843A JP 2019109843 A JP2019109843 A JP 2019109843A JP 2017243946 A JP2017243946 A JP 2017243946A JP 2017243946 A JP2017243946 A JP 2017243946A JP 2019109843 A JP2019109843 A JP 2019109843A
Authority
JP
Japan
Prior art keywords
attribute
subject
image
divided area
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017243946A
Other languages
English (en)
Other versions
JP6947005B2 (ja
Inventor
望 仲尾
Nozomi Nakao
望 仲尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2017243946A priority Critical patent/JP6947005B2/ja
Publication of JP2019109843A publication Critical patent/JP2019109843A/ja
Application granted granted Critical
Publication of JP6947005B2 publication Critical patent/JP6947005B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】認識対象の被写体を複数の属性クラスに精度良く分類する。【解決手段】認識対象の被写体より上方に設置されたカメラで撮影された撮影画像を用いて、被写体を所定の属性に関する複数の属性クラスに分類する分類装置であって、カメラの撮影範囲をカメラの直下からの距離に応じて分割して生成された複数の分割領域を表す分割領域情報を記憶する記憶部と、撮影画像から被写体を含む領域の画像である被写体領域画像を抽出する画像処理部と、被写体領域画像を用いて、複数の分割領域ごとに、被写体が複数の属性クラスに属する各確率を出力する分類器と、を備えるものである。【選択図】図1

Description

本発明は、認識対象の被写体を複数の属性クラスに分類する分類装置及び分類方法、当該分類装置を用いて認識対象の被写体が属する属性クラスを認識する属性認識装置、及び当該分類装置を学習させる機械学習装置に関する。
従来、機械学習により、入力データを複数のクラスのいずれかに分類する識別装置が提案されている(例えば、特許文献1参照)。特許文献1に記載の識別装置では、複数のクラス間の尤度の独立性の強さから信頼度が算出される。この信頼度は、最も尤度が高いクラスを正解としたときに、これを、どの程度信頼していいのかの指標とされている。
特開2017−151679号公報
近年、例えばマーケティング情報を得るために、カメラで撮影された画像から、認識対象の被写体が属する、年齢等の属性を分類した属性クラスを精度良く認識することが求められている。このためには、認識対象の被写体を複数の属性クラスに精度良く分類することが必要になる。そこで、被写体の属性クラスへの分類に、機械学習の技術を適用することが考えられる。しかし、上記特許文献1では、カメラで撮影された被写体を属性クラスに分類することについては十分に検討されていない。
本発明は、上記課題に鑑みてなされたもので、認識対象の被写体を複数の属性クラスに精度良く分類する分類装置及び分類方法、当該分類装置を用いて認識対象の被写体が属する属性クラスを認識する属性認識装置、及び当該分類装置を学習させる機械学習装置を提供することを目的とする。
本発明の第1態様は、
認識対象の被写体より上方に設置されたカメラで撮影された撮影画像を用いて、前記被写体を所定の属性に関する複数の属性クラスに分類する分類装置であって、
前記カメラの撮影範囲を前記カメラの直下からの距離に応じて分割して生成された複数の分割領域を表す分割領域情報を記憶する記憶部と、
前記撮影画像から前記被写体を含む領域の画像である被写体領域画像を抽出する画像処理部と、
前記被写体領域画像を用いて、前記複数の分割領域ごとに、前記被写体が前記複数の属性クラスに属する各確率を出力する分類器と、
を備えるものである。
本発明の第2態様は、
認識対象の被写体より上方に設置されたカメラで撮影された撮影画像を用いて、前記被写体を所定の属性に関する複数の属性クラスに分類する分類方法であって、
前記撮影画像から前記被写体を含む領域の画像である被写体領域画像を抽出する画像処理ステップと、
前記被写体領域画像を用いて、前記カメラの撮影範囲を前記カメラの直下からの距離に応じて分割して生成された複数の分割領域ごとに、前記被写体が前記複数の属性クラスに属する各確率を出力する分類ステップと、
を備えるものである。
第1態様及び第2態様では、撮影画像から被写体を含む領域の画像である被写体領域画像が抽出される。被写体領域画像に含まれる被写体が、複数の分割領域のうちのいずれの分割領域に位置するかによって、被写体が複数の属性クラスに属する確率が、それぞれ異なったものになると考えられる。そこで、第1態様及び第2態様では、さらに、被写体領域画像を用いて、複数の分割領域ごとに、被写体が複数の属性クラスに属する確率が、それぞれ出力される。したがって、第1態様及び第2態様によれば、被写体が複数の属性クラスに属する各確率を用いることによって、被写体を属性クラスに好適に分類することが可能になる。
本発明の第3態様は、
上記第1態様の分類装置と、
前記複数の属性クラスのうち前記被写体が属する属性クラスを決定する属性決定部と、を備え、
前記画像処理部は、前記複数の分割領域のうち前記被写体が位置する分割領域を特定分割領域として特定し、
前記属性決定部は、前記複数の分割領域ごとに前記分類器から出力された前記各確率のうち、少なくとも前記特定分割領域において前記被写体が前記複数の属性クラスに属する各確率を用いて、前記被写体が属する属性クラスを決定するものである。
本態様によれば、特定分割領域に被写体が位置しているため、被写体が属する属性クラスを精度良く決定することができる。
上記第3態様において、例えば、前記属性決定部は、前記複数の分割領域ごとに前記分類器から出力された前記各確率のうち、前記特定分割領域において最も高い確率に対応する属性クラスを、前記被写体が属する属性クラスであると決定してもよい。
本態様によれば、決定された属性クラスが、特定分割領域において最も高い確率に対応するので、被写体が属する属性クラスを精度良く決定することができる。
上記第3態様において、例えば、前記属性決定部は、前記特定分割領域において前記複数の属性クラスに属する各確率に特定重み係数を乗算した積と、前記特定分割領域以外の分割領域において前記複数の属性クラスに属する各確率に非特定重み係数を乗算した積と、の和を前記複数の属性クラスごとにそれぞれ算出し、前記和が最大の属性クラスを、前記被写体が属する属性クラスであると決定してもよい。
カメラによる被写体の映り方は、複数の分割領域ごとに異なる。これに対して、本態様によれば、特定分割領域において複数の属性クラスに属する各確率と、特定分割領域以外の分割領域において複数の属性クラスに属する各確率と、の両方が用いられている。このため、複数の分割領域ごとに異なる被写体の映り方の違いによる影響を低減して、被写体が属する属性クラスを精度良く決定することが可能になる。
上記第3態様において、例えば、前記特定重み係数及び前記非特定重み係数は、それぞれ正の数であってもよく、前記特定重み係数は、前記非特定重み係数より大きい値であってもよい。
本態様によれば、特定分割領域以外の分割領域による影響が、特定分割領域による影響より過大になるのを防ぐことができる。
本発明の第4態様は、
上記第1態様の分類装置の前記分類器を学習させる機械学習装置であって、
前記分類器は、入力層と、少なくとも1つの中間層と、出力層と、を含むニューラルネットワークで構成され、
前記機械学習装置は、
前記特定分割領域に位置し、所定の属性クラスに属する前記被写体領域画像を、前記入力層に入力する入力処理部と、
真値と、前記出力層から出力された前記特定分割領域において前記所定の属性クラスに属する確率と、の誤差を逆伝播させ、かつ、偽値と、前記出力層から出力された前記特定分割領域において前記所定の属性クラスに属する確率以外の確率と、の誤差を逆伝播させる誤差逆伝播処理部と、を備え、
前記入力処理部は、前記特定分割領域を表す情報と前記所定の属性クラスを表す情報とを、前記誤差逆伝播処理部に入力するものである。
本態様によれば、出力層から出力された特定分割領域において所定の属性クラスに属する確率のみが正解とされ、出力層から出力された特定分割領域において所定の属性クラスに属する確率以外の確率は不正解とされる。このため、複数の分割領域ごとに、分類器を好適に学習させることができる。
本発明の第5態様は、
上記第1態様の分類装置の前記分類器を学習させる機械学習装置であって、
前記分類器は、入力層と、少なくとも1つの中間層と、出力層と、を含むニューラルネットワークで構成され、
前記機械学習装置は、
前記特定分割領域に位置し、所定の属性クラスに属する前記被写体領域画像を、前記入力層に入力する入力処理部と、
真値と、前記出力層から出力された前記特定分割領域において前記所定の属性クラスに属する確率と、の誤差を逆伝播させ、偽値と、前記出力層から出力された前記複数の分割領域において前記所定の属性クラス以外の属性クラスに属する確率と、の誤差を逆伝播させ、かつ、前記真値及び前記偽値の間の中間値と、前記出力層から出力された前記特定分割領域以外の分割領域において前記所定の属性クラスに属する確率と、の誤差を逆伝播させる誤差逆伝播処理部と、を備え、
前記入力処理部は、前記特定分割領域を表す情報と前記所定の属性クラスを表す情報とを、前記誤差逆伝播処理部に入力するものである。
本態様によれば、出力層から出力された特定分割領域において所定の属性クラスに属する確率が正解とされ、出力層から出力された特定分割領域において所定の属性クラス以外の属性クラスに属する確率は不正解とされる。また、出力層から出力された特定分割領域以外の分割領域において所定の属性クラスに属する確率は、正解と不正解との中間的な値として取り扱われる。このため、特定分割領域以外の分割領域における情報を使用することにより、分類器を好適に学習させることができる。
本発明に係る分類装置によれば、被写体が複数の属性クラスに属する各確率を用いることによって、被写体を属性クラスに好適に分類することが可能になる。
第1実施形態の属性認識装置の構成を示すブロック図である。 分類器の機能を概略的に示す図である。 分類器の機能を概略的に示す図である。 分類器の機能を概略的に示す図である。 第1実施形態の属性認識装置の動作を概略的に示すフローチャートである。 第2実施形態の属性認識装置の動作を概略的に示すフローチャートである。 第3実施形態の属性認識装置の構成を示すブロック図である。 第3実施形態の属性認識装置の動作を概略的に示すフローチャートである。 第4実施形態の属性認識装置の動作を概略的に示すフローチャートである。 第5実施形態である機械学習装置の構成を示すブロック図である。 第5実施形態において逆伝播される誤差の一例を概略的に示す図である。 第6実施形態において逆伝播される誤差の一例を概略的に示す図である。 属性認識装置、機械学習装置のハードウェア構成の一例を概略的に示すブロック図である。 被写体の直上に設置されたカメラの撮影範囲を概略的に示す図である。 図14のカメラにより撮影された撮影画像の一例を概略的に示す図である。 図14のカメラにより撮影された被写体の映り方を説明する図である。
(本発明の基礎となった知見)
図14は、被写体の直上に設置されたカメラの撮影範囲を概略的に示す図である。図15は、図14のカメラにより撮影された撮影画像の一例を概略的に示す図である。図16は、図14のカメラにより撮影された被写体の映り方を説明する図である。図14〜図16を参照して、本発明の基礎となった知見が説明される。
図14の例では、カメラ130は、カメラ130の光軸OAが鉛直方向になるように、撮影場所の天井CLに設置されている。したがって、カメラ130の撮影範囲の中心である撮影中心CCは、カメラ130の直下に位置している。
図14に示されるような、被写体の直上に設置されたカメラ130により撮影された画像を用いて何らかの作業を行う場合には、用いる画像に被写体、例えば人物の顔が映っていないことが殆どであるため、プライバシー保護を考慮すると利点はある。しかし、被写体、例えば人物の属性認識を行う場合には、問題がある。人物の属性認識とは、例えば人物が属する、人物の年齢に関する年齢クラスを判断することである。この場合、人物の顔に関する情報を用いて属性クラスを判断することはできない。このため、人物の髪型、人物が持つ鞄などの持ち物、人物の服装などから、当該人物が属する属性クラスを判断することになる。その結果、属性認識の難易度が高くなる。
被写体の上方に設置されたカメラによって撮影された画像においては、カメラからの距離に応じて被写体の映り方が異なることが多い。図14の例では、カメラ130の撮影範囲が、カメラ130の撮影中心CCを含む分割領域Aと、分割領域Aを取り囲む分割領域Bと、更に分割領域Bを取り囲む分割領域Cとに、カメラ130の撮影中心CCからの距離に応じて分割されている。このように分割した場合、図15に示される撮影画像131のように、分割領域A,Bでは、それぞれ、被写体H1,H2の頭頂部及び肩のみが映っているが、分割領域Cでは、被写体H3の頭頂部及び肩に加えて、足先も映っている。
このように、被写体の上方に設置されたカメラによって撮影された画像においては、被写体の位置によって被写体の形状に違いの生じることが多い。このため、被写体の上方に設置されたカメラの撮影画像を用いて、被写体の属性を認識する場合には、分割領域A,B,Cのそれぞれにおいて、被写体の属性を表す特徴量を個別に抽出するのが好ましいと考えられる。これによって、撮影画像全体において被写体の属性を表す特徴量を抽出するよりも、被写体の属性を精度良く認識できると考えられる。
上述のような知見に基づいて、本発明者は、撮影範囲を分割した分割領域ごとに、被写体が複数の属性クラスに属する各確率を出力する分類に関する発明を想到するに至った。また、本発明者は、この分類に関する発明を用いて、被写体が属する属性クラスを精度良く認識する発明を想到するに至った。
さらに、被写体の属性認識においては、属性クラスの判断に用いる物体(例えば服装又は鞄)の映り方が、被写体の位置によって異なっていても、最終的に判断したい属性クラスは同じである。例えば、被写体の鞄保持に関する属性、つまり被写体が属性クラス「鞄を持つ人物」に属するか、属性クラス「鞄を持たない人物」に属するかを認識することを考える。例えば、鞄を持つ人物が分割領域Aに位置し、鞄を持つ別の人物が分割領域Cに位置する場合、鞄を持つ2人の人物の位置が互いに異なる。このため、それぞれの人物が持つ鞄の映り方が異なることはあり得る。しかし、いずれの人物も、属性クラス「鞄を持つ人物」に属するという点では、同じである。
したがって、被写体の位置により異なる被写体の映り方によって生じる影響を軽減し、被写体の属性を表す情報だけを抽出する技術を実現することが望まれる。そこで、この技術を機械学習によって実現することが考えられる。その場合には、多くの正例を用いて学習させる必要がある。
ところで、例えば図16に示されるように、分割領域Aにおいても、矩形画像I11のように、人物の足元が映る可能性はゼロではない。しかしながら、分割領域Aにおける被写体の映り方は、矩形画像I12,I13のように頭頂部及び肩のみが映る場合が殆どである。このため、分割領域Aにおける「足元が映った人物」に対する学習を十分に行うことは困難である。
また、分割領域Cにおいて、同じ属性クラスに属する人物の足元が映っていても、分割領域ごとに、それぞれ特徴量を個別に抽出する場合には、分割領域Cにおいて得られた情報を分割領域Aに反映させることは困難であった。
上述のような知見に基づいて、本発明者は、さらに、被写体が位置する分割領域の情報だけでなく、被写体が位置する分割領域以外の分割領域の情報を用いることにより、被写体の属性をさらに精度良く認識する発明を想到するに至った。
(実施の形態)
以下、本発明にかかる実施の形態が図面に基づいて説明される。なお、各図において同一の符号を付した構成は、同一の構成であることを示し、適宜、その説明は省略される。本明細書において、総称する場合は添え字を省略した参照符号で示され、個別の構成を指す場合は添え字を付した参照符号で示される。
(第1実施形態)
図1は、第1実施形態の属性認識装置100の構成を示すブロック図である。図2〜図4は、それぞれ分類器の機能を概略的に示す図である。
属性認識装置100は、撮影された認識対象の被写体が属する属性クラスを認識する。この第1実施形態では、認識対象の被写体は、例えば人であり、属性は、例えば年齢であり、属性クラスは、例えば幼年クラス、若年クラス、青年クラス、壮年クラス、中年クラス、老年クラスを含む。属性認識装置100は、図1に示されるように、ディスプレイ110と、入力部120と、カメラ130と、メモリ140と、中央演算処理装置(CPU)150と、を備える。
ディスプレイ110は、例えば液晶ディスプレイ(LCD)を含む。ディスプレイ110は、CPU150により制御されて、例えば被写体の属性の認識結果を表示する。なお、ディスプレイ110は、LCDに限られない。ディスプレイ110は、有機EL(electroluminescence)などの他の表示デバイスを含んでもよい。
入力部120は、例えばマウス又はキーボードを含む。入力部120は、ユーザにより操作されると、その操作内容を示す操作信号をCPU150に出力する。なお、ディスプレイ110がタッチパネル式ディスプレイの場合には、マウス又はキーボードに代えて、タッチパネル式ディスプレイが入力部120を兼用してもよい。
カメラ130は、図14に示されるように、例えば、地下街の通路又は小売店舗の内部等の天井CLに設置される。カメラ130は、CPU150に無線又は有線で接続され、CPU150の制御に従って、所定の撮影範囲内を撮影して、撮影画像を生成する。カメラ130は、撮影したフレーム画像を例えば1秒ごとにCPU150に出力して静止画を生成する。代替的に、カメラ130は、撮影したフレーム画像を例えば1/60秒ごとにCPU150に出力して動画を生成してもよい。
メモリ140は、例えばハードディスク又は半導体メモリ等により構成される。メモリ140は、例えばリードオンリーメモリ(ROM)、ランダムアクセスメモリ(RAM)、電気的に消去書き換え可能なROM(EEPROM)などを含む。メモリ140のROMは、CPU150を動作させる本実施形態の制御プログラムを記憶する。
メモリ140は、分割領域情報記憶部141、抽出情報記憶部142、確率情報記憶部143、画像データ記憶部144を含む。各記憶部141〜144は、互いに別の媒体で構成されてもよい。代替的に、各記憶部141〜144は、記憶領域が分けられた一つの媒体で構成されてもよい。
分割領域情報記憶部141(記憶部の一例に相当)は、カメラ130の撮影範囲を分割した分割領域の情報を予め記憶する。この第1実施形態では、分割領域情報記憶部141は、分割領域A,B,Cの境界座標を予め記憶する。分割領域A,B,Cの境界座標は、例えば、撮影中心CCを原点とし、撮影中心CCからの半径rと、撮影中心CCから例えば図15中、右方に延びる直線に対する角度θと、を用いて、座標(r,θ)により表されてもよい。或いは、分割領域A,B,Cの境界座標は、例えば、撮影画像131(図15)の左下の頂点を原点とし、左下の頂点から右向きをX軸とし、左下の頂点から上向きをY軸として、座標(X,Y)により表されてもよい。抽出情報記憶部142、確率情報記憶部143、画像データ記憶部144の記憶内容は後述される。
CPU150は、メモリ140に記憶された本実施形態の制御プログラムにしたがって動作することによって、画像処理部151、分類器152、属性決定部153及び制御部154として機能する。制御部154は、属性認識装置100全体の動作を制御する。制御部154は、カメラ130から入力されたフレーム画像を画像データ記憶部144に保存する。
画像処理部151は、画像データ記憶部144に保存されたフレーム画像から、例えばテンプレートマッチングによって認識対象の被写体(この第1実施形態では、人)を抽出し、抽出した被写体を含む矩形画像を切り出す。画像処理部151は、切り出した矩形画像のフレーム画像における位置から、被写体が位置する分割領域(特定分割領域の一例に相当)を特定する。画像処理部151は、被写体を含む矩形画像(被写体領域画像の一例に相当)と、その被写体が位置する分割領域とを互いに対応付けて、抽出情報記憶部142に保存する。
画像処理部151は、例えば、図15に示される撮影画像131から、被写体H1を抽出する。画像処理部151は、被写体H1を含む矩形画像I1(図2)を撮影画像131から切り出す。画像処理部151は、被写体H1が分割領域Aに位置すると特定する。画像処理部151は、矩形画像I1と分割領域Aとを互いに対応付けて抽出情報記憶部142に保存する。
画像処理部151は、例えば、図15に示される撮影画像131から、被写体H2を抽出する。画像処理部151は、被写体H2を含む矩形画像I2(図3)を撮影画像131から切り出す。画像処理部151は、被写体H2が分割領域Bに位置すると特定する。画像処理部151は、矩形画像I2と分割領域Bとを互いに対応付けて抽出情報記憶部142に保存する。
画像処理部151は、例えば、図15に示される撮影画像131から、被写体H3を抽出する。画像処理部151は、被写体H3を含む矩形画像I3(図4)を撮影画像131から切り出す。画像処理部151は、被写体H3が分割領域Cに位置すると特定する。画像処理部151は、矩形画像I3と分割領域Cとを互いに対応付けて抽出情報記憶部142に保存する。
分類器152は、被写体を含む矩形画像が入力されると、分割領域A,B,C毎に、被写体が属性クラスx(x=0,・・・,k,・・・,n)に属する各確率を出力する。すなわち、分類器152は、分割領域毎に、かつ、属性クラス毎に、各確率を出力する。具体的には、分類器152は、図2〜図4に示されるように、確率Pax,Pbx,Pcx(x=0,・・・,k,・・・,n)を出力する。
確率Pax(x=0,・・・,k,・・・,n)は、入力された矩形画像に含まれる被写体が、分割領域Aに位置し、属性クラスxに属する各確率を表す。確率Pbx(x=0,・・・,k,・・・,n)は、入力された矩形画像に含まれる被写体が、分割領域Bに位置し、属性クラスxに属する各確率を表す。確率Pcx(x=0,・・・,k,・・・,n)は、入力された矩形画像に含まれる被写体が、分割領域Cに位置し、属性クラスxに属する各確率を表す。
この第1実施形態では、属性クラス0は、幼年クラスであり、属性クラス1は、若年クラスであり、属性クラス2は、青年クラスであり、属性クラス3は、壮年クラスであり、属性クラス4は、中年クラスであり、属性クラス5は、老年クラスである。すなわち、この第1実施形態では、n=5である。
属性決定部153は、分類器152から出力された確率Pax,Pbx,Pcx(x=0,・・・,k,・・・,n)と、抽出情報記憶部142に保存されている、分類器152に入力された矩形画像に含まれる被写体が位置する分割領域の情報とを用いて、被写体が属する属性クラスACを決定する。この第1実施形態では、属性決定部153は、式(1)により属性クラスACを決定する。
AC=max(Pyx)となるx (1)
式(1)において、符号yは、分類器152に入力された矩形画像に含まれる被写体が位置する分割領域を表す。この第1実施形態では、被写体が位置する分割領域が、分割領域Aであればy=aであり、分割領域Bであればy=bであり、分割領域Cであればy=cである。
まず、図2に示されるように、矩形画像I1が分類器152に入力される例が説明される。矩形画像I1に含まれる被写体H1は、上述のように、分割領域Aに位置する。このため、式(1)において、y=aである。図2の例では、確率Pax(x=0,・・・,k,・・・,n)のうち最大値は確率Pakである。よって、属性決定部153は、被写体H1が属性クラスkに属すると決定する。
次に、図3に示されるように、矩形画像I2が分類器152に入力される例が説明される。矩形画像I2に含まれる被写体H2は、上述のように、分割領域Bに位置する。このため、式(1)において、y=bである。図3の例では、確率Pbx(x=0,・・・,k,・・・,n)のうち最大値は確率Pbkである。よって、属性決定部153は、被写体H2が属性クラスkに属すると決定する。
次に、図4に示されるように、矩形画像I3が分類器152に入力される例が説明される。矩形画像I3に含まれる被写体H3は、上述のように、分割領域Cに位置する。このため、式(1)において、y=cである。図4の例では、確率Pcx(x=0,・・・,k,・・・,n)のうち最大値は確率Pckである。よって、属性決定部153は、被写体H3が属性クラスkに属すると決定する。
この第1実施形態において、図2〜図4の矩形画像I1,I2,I3は、被写体領域画像の一例に相当する。また、図2の例では分割領域Aが特定分割領域の一例に相当し、図3の例では分割領域Bが特定分割領域の一例に相当し、図4の例では分割領域Cが特定分割領域の一例に相当する。
図5は、第1実施形態の属性認識装置100の動作手順例を概略的に示すフローチャートである。属性認識装置100は、例えば、カメラ130からフレーム画像がCPU150に入力される度に、図5に示される処理を繰り返して実行する。
ステップS100において、画像処理部151は、画像データ記憶部144に保存されたフレーム画像を取得する。ステップS105において、画像処理部151は、例えばテンプレートマッチングにより人を含む矩形画像を抽出し、抽出した矩形画像を抽出情報記憶部142に保存する。ステップS110において、画像処理部151は、人が位置する分割領域を特定する。ステップS115において、画像処理部151は、特定した分割領域を、矩形画像と対応付けて抽出情報記憶部142に保存する。
ステップS120において、制御部154は、抽出情報記憶部142に保存されている矩形画像を、分類器152に入力する。ステップS125において、制御部154は、分類器152から出力された、分割領域ごとの、各属性クラスの確率を確率情報記憶部143に保存する。ステップS130において、属性決定部153は、矩形画像に含まれる人が属する属性クラスACを式(1)により決定する。属性決定部153は、決定した属性クラスを、矩形画像と対応付けて、抽出情報記憶部142に保存する。
ステップS140において、画像処理部151は、ステップS100で取得したフレーム画像に対して、例えばテンプレートマッチングによる人の抽出が、フレーム画像の全体において終了したか否かを判定する。人の抽出が終了していなければ(ステップS140でNO)、処理はステップS105に戻って、以上のステップが繰り返される。一方、人の抽出が終了していれば(ステップS140でYES)、図5の動作は終了する。
以上説明されたように、第1実施形態では、カメラ130の撮影範囲を分割領域A,B,Cに分割している。人を含む矩形画像が入力されると、分類器152は、分割領域A,B,Cごとに、矩形画像に含まれる人が、各属性クラスに属する各確率を出力する。属性決定部153は、式(1)により、人が位置する分割領域において、最大の確率に対応する属性クラスを、人が属する属性クラスACであると決定する。したがって、第1実施形態によれば、人が位置する分割領域に応じて、人が属する属性クラスを好適に決定することができる。
(第2実施形態)
上記第1実施形態では、(本発明の基礎となった知見)で説明されたように、その分割領域内で学習された映り方だけに強くなってしまい、図16に示されるような、少数派の映り方に弱い。そこで、第2実施形態では、「被写体が属する属性クラスは、被写体の位置する分割領域が異なるため映り方が異なっている場合でも、映り方によって変わらない筈である」ということを利用して、他の分割領域の情報が参照される。第2実施形態における属性認識装置100の構成は、図1に示される第1実施形態と同じである。以下、第1実施形態との相違点を中心に、第2実施形態が説明される。
第2実施形態では、属性決定部153は、式(2)により属性クラスACを決定する。
AC=max{Pyx×Wt+Σ(Pzx×Wo)}となるx (2)
式(2)において、第1実施形態と同様にx=0,・・・,k,・・・,nである。符号yは、第1実施形態と同様に、分類器152に入力された矩形画像に含まれる被写体が位置する分割領域を表す。すなわち、y=a又はy=b又はy=cである。
符号zは、分類器152に入力された矩形画像に含まれる被写体が位置する分割領域以外の分割領域を表す。すなわち、z≠yである。言い換えると、y=aであればz=b,cであり、y=bであればz=a,cであり、y=cであればz=a,bである。重み係数Wtは、Wt≧1であり、例えばWt=1である。重み係数Woは、0<Wo<1であり、例えばWo=0.5である。なお、重み係数Wt,Woは、0<Wo<Wtであってもよい。
まず、図3に示されるように、矩形画像I2が分類器152に入力される例が説明される。図3において、矩形画像I2に含まれる被写体H2は、上述のように、分割領域Bに位置している。このため、属性決定部153は、
max{Pbx×Wt+(Pax×Wo+Pcx×Wo)}
となるxを、属性クラスACと決定する。
例えば、属性決定部153は、
Pb0×Wt+(Pa0×Wo+Pc0×Wo)
を算出して、計算結果をメモリ140に保存する。また、属性決定部153は、
Pbk×Wt+(Pak×Wo+Pck×Wo)
を算出して、計算結果をメモリ140に保存する。また、属性決定部153は、
Pbn×Wt+(Pan×Wo+Pcn×Wo)
を算出して、計算結果をメモリ140に保存する。すなわち、属性決定部153は、
Pbx×Wt+(Pax×Wo+Pcx×Wo)
の計算を、x=0,・・・,k,・・・,nについて繰り返して行い、それぞれの計算結果をメモリ140に保存する。そして、属性決定部153は、メモリ140に保存された計算結果のうち、最大値となるxを属性クラスACに決定する。
次に、図2に示されるように、矩形画像I1が分類器152に入力される例が説明される。図2において、矩形画像I1に含まれる被写体H1は、上述のように、分割領域Aに位置している。このため、属性決定部153は、
max{Pax×Wt+(Pbx×Wo+Pcx×Wo)}
となるxを、属性クラスACと決定する。
次に、図4に示されるように、矩形画像I3が分類器152に入力される例が説明される。図4において、矩形画像I3に含まれる被写体H3は、上述のように、分割領域Cに位置している。このため、属性決定部153は、
max{Pcx×Wt+(Pax×Wo+Pbx×Wo)}
となるxを、属性クラスACと決定する。
図6は、第2実施形態の属性認識装置100の動作手順例を概略的に示すフローチャートである。属性認識装置100は、例えば、カメラ130からフレーム画像がCPU150に入力される度に、図6に示される処理を繰り返して実行する。
ステップS100〜S125は、図5のステップS100〜S125と同じである。ステップS125に続くステップS300において、属性決定部153は、矩形画像に含まれる人が属する属性クラスACを式(2)により決定する。ステップS300に続くステップS135〜S140は、図5のステップS135〜S140と同じである。
以上説明されたように、第2実施形態では、カメラ130の撮影範囲を分割領域A,B,Cに分割している。人を含む矩形画像が入力されると、分類器152は、分割領域A,B,Cごとに、矩形画像に含まれる人が、各属性クラスに属する各確率を出力する。属性決定部153は、式(2)により、人が位置する分割領域において各属性クラスに属する各確率と、人が位置する分割領域以外の分割領域において各属性クラスに属する各確率と、を用いて、人が属する属性クラスACを決定する。
言い換えると、第2実施形態では、人を含む矩形画像が位置している分割領域での映り方に対して,異なる映り方の他の分割領域の情報も参照している。これによって、第2実施形態によれば、人が属する属性クラスを精度良く決定することができる。
例えば、被写体が分割領域Aに位置するときは、図16の矩形画像I11のように足元が映ることは殆ど無い。このため、上記第1実施形態では、矩形画像I12,I13のように足元が映らない画像の影響が大きくなる。これに対して、第2実施形態では、式(2)に示されるように、被写体が分割領域Aに位置する場合であっても、同じ属性クラスの分割領域B,Cの情報も用いられている。このため、第2実施形態によれば、特に被写体が分割領域Aに位置する場合において、被写体が属する属性クラスを、第1実施形態に比べて、精度良く決定することができる。
(第3実施形態)
図7は、第3実施形態の属性認識装置100の構成を示すブロック図である。以下、第1、第2実施形態との相違点を中心に、第3実施形態が説明される。
CPU150は、メモリ140に記憶された本実施形態の制御プログラムにしたがって動作することによって、画像処理部151、分類器152、属性決定部153、制御部154及び同定処理部155として機能する。
同定処理部155は、画像データ記憶部144に保存されているフレーム画像から抽出された人に、それぞれ人物識別情報(人物ID)を付与する。同定処理部155は、画像データ記憶部144に保存されている最新のフレーム画像から抽出された人のうち、1つ前のフレーム画像から抽出された人と同一人物を特定する同定処理を行う。同定処理部155は、画像データ記憶部144に保存されている最新のフレーム画像から抽出された人が、1つ前のフレーム画像から抽出された人と同一人物であるときは、最新のフレーム画像から抽出された人に、同一人物である1つ前のフレーム画像から抽出された人に付与された人物IDと同じ人物IDを付与する。同定処理部155は、矩形画像及び分割領域と対応付けて、人物IDを抽出情報記憶部142に保存する。
属性決定部153は、式(1)により属性クラスACを決定する。属性決定部153は、矩形画像、分割領域及び人物IDと対応付けて、決定した属性クラスを抽出情報記憶部142に保存する。
属性決定部153は、さらに、決定された属性クラスのうちで、人物IDが同じ属性クラスを用いて、最終的な属性クラスを再決定する。例えば、人物IDが同じ属性クラスのなかで異なる属性クラスが含まれている場合には、属性決定部153は、最も多く判定された属性クラスを、最終的な属性クラスとして再決定してもよい。或いは、属性決定部153は、例えば、人物IDが同じ矩形画像について、確率情報記憶部143に保存されている、分類器152から出力された各確率をそれぞれ加算して、加算結果が最大値となる属性クラスを、最終的な属性クラスとして再決定してもよい。
属性決定部153は、矩形画像、分割領域、人物ID及び最初に決定した属性クラスと対応付けて、再決定された最終的な属性クラスを抽出情報記憶部142に保存する。
図8は、第3実施形態の属性認識装置100の動作手順例を概略的に示すフローチャートである。ステップS100〜S130は、図5のステップS100〜S130と同じである。
ステップS200において、同定処理部155は、ステップS105で抽出情報記憶部142に保存された矩形画像に含まれる人と、1つ前のフレーム画像で抽出された人との間で、同一人物を特定する同定処理を行う。
ステップS205において、同定処理部155は、ステップS105で抽出情報記憶部142に保存された矩形画像に含まれる人に人物IDを付与し、付与した人物IDを、当該矩形画像と対応付けて、抽出情報記憶部142に保存する。同定処理部155は、1つ前のフレーム画像で抽出された人と同一人物であると特定したときは、その同一人物に付与された人物IDと同じ人物IDを、ステップS105で抽出情報記憶部142に保存された矩形画像に含まれる人に付与する。
ステップS210において、属性決定部153は、ステップS130で決定した属性クラスを、ステップS205で保存された人物IDに対応付けて、抽出情報記憶部142に保存する。ステップS215において、属性決定部153は、ステップS205で付与された人物IDが、既に抽出情報記憶部142に保存されているときは、その人物IDが付与された人について属性クラスを再決定し、ステップS105で抽出情報記憶部142に保存された矩形画像に対応付けて、再決定した属性クラスを抽出情報記憶部142に保存する。
ステップS140において、画像処理部151は、ステップS100で取得したフレーム画像に対して、例えばテンプレートマッチングによる人の抽出が、全ての領域において終了したか否かを判定する。人の抽出が終了していなければ(ステップS140でNO)、処理はステップS105に戻って、以上のステップが繰り返される。一方、人の抽出が終了していれば(ステップS140でYES)、処理はステップS220に進む。
ステップS220において、制御部154は、処理を継続するか否かを判定する。処理を継続する場合には(ステップS220でYES)、処理はステップS100に戻って、以上のステップが繰り返される。一方、処理を継続しない場合には(ステップS220でNO)、図8の動作は終了する。
制御部154は、例えば、入力部120を用いて処理の終了が指示されると、処理を継続しないと判定してもよい。制御部154は、例えば、入力部120を用いて処理の終了が指示されない限り、処理を継続すると判定してもよい。制御部154は、処理を継続する場合には(ステップS220でYES)、例えば、カメラ130からフレーム画像がCPU150に入力される度に、処理をステップS100に戻してもよい。
以上説明されたように、第3実施形態では、同定処理部155は、フレーム画像から抽出された人が、既に抽出された人と同一人物であるか否かを判定し、同一人物であれば、同じ人物IDを付与している。属性決定部153は、決定された属性クラスのうちで、人物IDが同じ属性クラスを用いて、最終的な属性クラスを再決定する。同一人物であれば、その人物は、同じ属性クラスに属する筈である。したがって、人物IDが同じ属性クラスを用いて、最終的な属性クラスを再決定することにより、人物に対する属性認識の精度を向上することができる。
(第4実施形態)
第4実施形態における属性認識装置100の構成は、図7に示される第3実施形態と同じである。第4実施形態の属性決定部153は、第2実施形態と同様に、上記式(2)により属性クラスACを決定する。以下、第1〜第3実施形態との相違点を中心に、第4実施形態が説明される。
図9は、第4実施形態の属性認識装置100の動作手順例を概略的に示すフローチャートである。ステップS100〜S125は、図5のステップS100〜S125と同じである。ステップS300は、図6のステップS300と同じである。ステップS200〜S215は、図8のステップS200〜S215と同じである。ステップS140は、図5のステップS140と同じである。ステップS220は、図8のステップS220と同じである。
以上のように、第4実施形態は、上記第2実施形態と、上記第3実施形態とを合わせた実施形態になっている。したがって、第4実施形態によれば、上記第2実施形態及び上記第3実施形態と同様の効果を得ることができる。
(第5実施形態)
図10は、第5実施形態である機械学習装置の構成を示すブロック図である。図11は、第5実施形態である機械学習装置において、逆伝播される誤差の一例を概略的に示す図である。機械学習装置200は、入力処理部210、誤差逆伝播処理部220を備え、分類器152を機械学習させる。分類器152は、本実施形態では、入力層161、少なくとも1つの中間層162、出力層163を含むニューラルネットワークである。
入力処理部210は、入力画像ILを分類器152の入力層161に入力する。入力処理部210は、入力画像ILの正解属性クラスPCを誤差逆伝播処理部220に入力する。入力処理部210は、入力画像ILの正解分割領域PAを誤差逆伝播処理部220に入力する。
誤差逆伝播処理部220は、入力画像ILの正解属性クラスPC、正解分割領域PA、及び分類器152の出力層163から出力される出力値を用いて、出力値と真値との誤差Et1を式(3)により算出し、出力値と偽値との誤差Ef1を式(4)により算出し、算出したそれぞれの誤差Et1,Ef1を逆伝播する。
Et1=1−Dqp (3)
式(3)において、符号pは、p=0,・・・,k,・・・,nのうち正解の属性クラスを表す。符号qは、正解の分割領域を表す。すなわち、正解の分割領域が分割領域Aであれば、q=aであり、正解の分割領域が分割領域Bであれば、q=bであり、正解の分割領域が分割領域Cであれば、q=cである。このように、出力値Dqpは、正解の属性クラス、かつ正解の分割領域に対応する出力値である。したがって、誤差Et1は、真値である1と、正解の属性クラス、かつ正解の分割領域に対応する出力値Dqpと、の差を表す。
Ef1=0−Dwv (4)
式(4)において、符号vは、v=0,・・・,k,・・・,nのうち正解の属性クラス以外の属性クラスを表す。すなわちv≠pである。符号wは、正解の分割領域以外の分割領域を表す。すなわち、w≠qである。このように、出力値Dwvは、正解の属性クラス以外の属性クラスに対応する出力値、又は正解の分割領域以外の分割領域に対応する出力値である。したがって、誤差Ef1は、偽値である0と、正解の属性クラス以外の属性クラス、又は正解の分割領域以外の分割領域に対応する出力値Dwvと、の差を表す。
図11には、正解の属性クラスを表す符号pがp=0であり、正解の分割領域が分割領域Bである例が示されている。すなわち、図11の例では、値Gb0が真値(つまりGb0=1)であり、値Gb0以外の値Gts(t≠b又はs≠0)が偽値(つまりGts=0)である。また、図11に示される出力値Dyx(y=a又はb又はc、x=0,・・・,k,・・・,n)は、分類器152の入力層161に入力画像ILが入力されたときに、出力層163から出力される出力値の一例である。
以上説明されたように、第5実施形態では、誤差逆伝播処理部220は、正解の属性クラス、かつ正解の分割領域のみを真値として、誤差を逆伝播させる。したがって、第5実施形態によれば、第1、第3実施形態の属性認識装置100に使用可能な分類器152を好適に作製することができる。
また、第2、第4実施形態の属性認識装置100では、上述のように、正解の属性クラス、かつ正解の分割領域の情報だけでなく、正解の属性クラス、かつ正解の分割領域以外の分割領域の情報も参照して、認識対象が属する属性クラスを決定している。一方、第5実施形態では、分類器152は、正解の分割領域以外の分割領域の影響を受けずに、正解の分割領域のみを独立して学習している。このため、第5実施形態で作製された分類器152を第2、第4実施形態の属性認識装置100に用いると、正解の分割領域以外の分割領域の情報も参照することにより、属性クラス決定の精度向上を図ることができる。
(第6実施形態)
図12は、第6実施形態である機械学習装置において、逆伝播される誤差の一例を概略的に示す図である。第6実施形態における機械学習装置200の構成は、図10に示される第5実施形態と同じである。以下、第5実施形態との相違点を中心に、第6実施形態が説明される。
第6実施形態の誤差逆伝播処理部220は、入力画像ILの正解属性クラスPC、正解分割領域PA、及び分類器152の出力層163から出力される出力値を用いて、出力値と真値との誤差Et2を式(5)により算出し、出力値と疑似真値との誤差Et3を式(6)により算出し、出力値と偽値との誤差Ef2を式(7)により算出し、算出したそれぞれの誤差Et2,Et3,Ef2を逆伝播する。
Et2=1−Dqp (5)
式(5)において、符号pは、第5実施形態の式(3)と同様に、p=0,・・・,k,・・・,nのうち正解の属性クラスを表す。符号qは、第5実施形態の式(3)と同様に、正解の分割領域を表す。このように、出力値Dqpは、第5実施形態と同様に、正解の属性クラス、かつ正解の分割領域に対応する出力値である。したがって、誤差Et2は、第5実施形態の式(3)の誤差Et1と同様に、真値である1と、正解の属性クラス、かつ正解の分割領域に対応する出力値Dqpと、の差を表す。
Et3=Gwp−Dwp (6)
式(6)において、符号pは、第5実施形態の式(3)と同様に、p=0,・・・,k,・・・,nのうち正解の属性クラスを表す。符号wは、正解の分割領域以外の分割領域を表す。すなわち、w≠qである。このように、出力値Dwpは、正解の属性クラス、かつ正解の分割領域以外の分割領域に対応する出力値である。疑似真値Gwpは、0<Gwp<1に設定された値である。第6実施形態では、例えば、Gwp=0.5である。したがって、誤差Et3は、疑似真値Gwpと、正解の属性クラス、かつ正解の分割領域以外の分割領域に対応する出力値Dwpと、の差を表す。
Ef2=0−Dyv (7)
式(7)において、符号vは、v=0,・・・,k,・・・,nのうち正解の属性クラス以外の属性クラスを表す。すなわちv≠pである。符号yは、いずれかの分割領域を表す。すなわち、y=a又はb又はcである。このように、出力値Dyvは、正解の属性クラス以外の属性クラスに対応する出力値である。したがって、誤差Ef2は、偽値である0と、正解の属性クラス以外の属性クラスに対応する出力値Dyvと、の差を表す。
図12には、正解の属性クラスを表す符号pがp=0であり、正解の分割領域が分割領域Bである例が示されている。すなわち、図12の例では、値Gb0が真値(つまりGb0=1)であり、値Ga0,Gc0が疑似真値(つまり0<Ga0<1、0<Gc0<1)であり、値Ga0,Gb0,Gc0以外の値Gys(y=a又はb又はc、s≠0)が偽値(つまりGys=0)である。また、図12に示される出力値Dyx(y=a又はb又はc、x=0,・・・,k,・・・,n)は、分類器152の入力層161に入力画像ILが入力されたときに、出力層163から出力される出力値の一例である。
以上説明されたように、第6実施形態では、誤差逆伝播処理部220は、正解の属性クラス、かつ正解の分割領域を真値とし、正解の属性クラス、かつ正解の分割領域以外の分割領域を疑似真値として、誤差を逆伝播させる。すなわち、誤差逆伝播処理部220は、属性クラスが正解の属性クラスであれば、正解の分割領域だけでなく、正解の分割領域以外の分割領域の誤差も、逆伝播させる。
これによって、例えば分割領域Aに位置する学習用データ(つまり入力画像IL)が不足している場合でも、他の分割領域B,Cの誤差も逆伝播させることにより、学習用データの不足を補うことができる。その結果、例えば図16に示されるような、分割領域Aにおいて人物の足元が映っている矩形画像I11が入力された場合でも、高精度に分類する出力値を出力する分類器152を作製することができる。
(ハードウェア構成)
図13は、属性認識装置100(図1、図7)、機械学習装置200(図10)のハードウェア構成の一例を概略的に示すブロック図である。属性認識装置100(図1、図7)、機械学習装置200(図10)は、図13に示されるように、CPU301、RAM302、ROM303、ハードディスクドライブ(HDD)304、LCD305、キーボード306、マウス307、USBインターフェース(IF)308、通信IF309と、これらCPU301、RAM302、ROM303、HDD304、LCD305、キーボード306、マウス307、USBIF308、通信IF309を相互に接続するバス310とを備えるコンピュータ300によって構成される。なお、通信IF309は、カメラ130(図1、図7)と有線又は無線によって通信可能に接続するものであり、機械学習装置200(図10)では、省略できる。
(その他)
(1)上記第1、第3実施形態では、分割領域ごとに属性クラスの確率を出力する1つの分類器152を備え、分割領域A,B,Cで、1つの分類器を兼用しているが、これに限られない。属性クラスの確率のみを出力する、分割領域A用の分類器、分割領域B用の分類器、分割領域C用の分類器の、3個の分類器を備えるようにしてもよい。
(2)上記第1〜第4実施形態では、例えば図14に示されるように、カメラ130は、カメラ130の光軸OAが鉛直方向になるように設置され、撮影中心CCはカメラ130の直下に位置しているが、これに限られない。例えば、カメラは、カメラの光軸が鉛直方向に対して傾斜するように設置されてもよい。この実施形態でも、上記各実施形態と同様に、カメラの撮影範囲の撮影中心からの距離に応じて、カメラの撮影範囲を分割すればよい。
(3)上記第3実施形態(図8)、上記第4実施形態(図9)では、ステップS210に続いて、ステップS140の前に、ステップS215が実行されている。すなわち、決定した属性クラスが人物IDに対応付けて保存される度に(ステップS210)、同じ人物IDの情報を用いて属性クラスが再決定されている(ステップS215)。
代替的に、人の抽出が終了していれば(ステップS140でYES)、ステップS220の前に、ステップS215が実行されてもよい。さらに代替的に、処理を継続しない場合に(ステップS220でNO)、ステップS215が実行されてもよい。すなわち、決定した属性クラスが人物IDに対応付けて保存される処理(ステップS210)が、複数回数、実行された後で、同じ人物IDの情報を用いて属性クラスが再決定されるようにしてもよい(ステップS215)。
(4)第5実施形態の機械学習装置200によって作製された分類器152を、第1、第3実施形態の属性認識装置100の分類器152として使用してもよい。代替的に、第6実施形態の機械学習装置200によって作製された分類器152を、第1、第3実施形態の属性認識装置100の分類器152として使用してもよい。
(5)第6実施形態の機械学習装置200によって作製された分類器152を、第2、第4実施形態の属性認識装置100の分類器152として使用してもよい。この場合において、疑似真値Gwpと、非特定重み係数Woとは、同じ値に設定してもよく、異なる値に設定してもよい。代替的に、第5実施形態の機械学習装置200によって作製された分類器152を、第2、第4実施形態の属性認識装置100の分類器152として使用してもよい。
(6)上記各実施形態では、認識対象の被写体は、人とされ、属性は、年齢とされているが、これに限られない。
認識対象の被写体が人の場合、属性は、性別でもよい。属性は、身に着けている装飾品の有無でもよい。装飾品は、鞄、靴、ジャケットなどの衣服、帽子、サングラスなどのメガネ類、杖、シルバーカーなどの歩行補助器具などを含む。属性は、装飾品の色及び種類でもよい。例えば、赤い上着、黒いズボン、茶色のコート、ある職種の制服などが含まれる。属性は、物体保持の有無でもよい。例えば、店舗で商品を手にしているか否か、銃などの危険物を手にしているか否か、などが含まれる。属性は、他の人物の帯同の有無でもよい。属性は、ペットの帯同の有無でもよい。
認識対象の被写体は、動物でもよい。この場合、属性は、動物の種類でもよい。例えば犬種、模様などが含まれる。属性は、着衣の有無でもよい。属性は、リール類の有無でもよい。属性は、飼い主の帯同の有無でもよい。
認識対象の被写体は、車、バイクなどの乗り物でもよい。属性は、車種でもよい。属性は、色でもよい。属性は、型番でもよい。属性は、同乗者の有無でもよい。
(7)本発明を表現するために、上述において図面を参照しながら実施形態を通して本発明を適切且つ十分に説明したが、当業者であれば上述の実施形態を変更および/または改良することは容易に為し得ることであると認識すべきである。したがって、当業者が実施する変更形態または改良形態が、請求の範囲に記載された請求項の権利範囲を離脱するレベルのものでない限り、当該変更形態または当該改良形態は、当該請求項の権利範囲に包括されると解釈される。
100 属性認識装置
130 カメラ
141 分割領域情報記憶部
151 画像処理部
152 分類器
153 属性決定部
200 機械学習装置
210 入力処理部
220 誤差逆伝播処理部

Claims (8)

  1. 認識対象の被写体より上方に設置されたカメラで撮影された撮影画像を用いて、前記被写体を所定の属性に関する複数の属性クラスに分類する分類装置であって、
    前記カメラの撮影範囲を前記カメラの直下からの距離に応じて分割して生成された複数の分割領域を表す分割領域情報を記憶する記憶部と、
    前記撮影画像から前記被写体を含む領域の画像である被写体領域画像を抽出する画像処理部と、
    前記被写体領域画像を用いて、前記複数の分割領域ごとに、前記被写体が前記複数の属性クラスに属する各確率を出力する分類器と、
    を備える分類装置。
  2. 請求項1に記載の分類装置と、
    前記複数の属性クラスのうち前記被写体が属する属性クラスを決定する属性決定部と、を備え、
    前記画像処理部は、前記複数の分割領域のうち前記被写体が位置する分割領域を特定分割領域として特定し、
    前記属性決定部は、前記複数の分割領域ごとに前記分類器から出力された前記各確率のうち、少なくとも前記特定分割領域において前記被写体が前記複数の属性クラスに属する各確率を用いて、前記被写体が属する属性クラスを決定する、
    属性認識装置。
  3. 前記属性決定部は、前記複数の分割領域ごとに前記分類器から出力された前記各確率のうち、前記特定分割領域において最も高い確率に対応する属性クラスを、前記被写体が属する属性クラスであると決定する、
    請求項2に記載の属性認識装置。
  4. 前記属性決定部は、前記特定分割領域において前記複数の属性クラスに属する各確率に特定重み係数を乗算した積と、前記特定分割領域以外の分割領域において前記複数の属性クラスに属する各確率に非特定重み係数を乗算した積と、の和を前記複数の属性クラスごとにそれぞれ算出し、前記和が最大の属性クラスを、前記被写体が属する属性クラスであると決定する、
    請求項2に記載の属性認識装置。
  5. 前記特定重み係数及び前記非特定重み係数は、それぞれ正の数であり、
    前記特定重み係数は、前記非特定重み係数より大きい値である、
    請求項4に記載の属性認識装置。
  6. 請求項1に記載の分類装置の前記分類器を学習させる機械学習装置であって、
    前記分類器は、入力層と、少なくとも1つの中間層と、出力層と、を含むニューラルネットワークで構成され、
    前記機械学習装置は、
    前記特定分割領域に位置し、所定の属性クラスに属する前記被写体領域画像を、前記入力層に入力する入力処理部と、
    真値と、前記出力層から出力された前記特定分割領域において前記所定の属性クラスに属する確率と、の誤差を逆伝播させ、かつ、偽値と、前記出力層から出力された前記特定分割領域において前記所定の属性クラスに属する確率以外の確率と、の誤差を逆伝播させる誤差逆伝播処理部と、を備え、
    前記入力処理部は、前記特定分割領域を表す情報と前記所定の属性クラスを表す情報とを、前記誤差逆伝播処理部に入力する、
    機械学習装置。
  7. 請求項1に記載の分類装置の前記分類器を学習させる機械学習装置であって、
    前記分類器は、入力層と、少なくとも1つの中間層と、出力層と、を含むニューラルネットワークで構成され、
    前記機械学習装置は、
    前記特定分割領域に位置し、所定の属性クラスに属する前記被写体領域画像を、前記入力層に入力する入力処理部と、
    真値と、前記出力層から出力された前記特定分割領域において前記所定の属性クラスに属する確率と、の誤差を逆伝播させ、偽値と、前記出力層から出力された前記複数の分割領域において前記所定の属性クラス以外の属性クラスに属する確率と、の誤差を逆伝播させ、かつ、前記真値及び前記偽値の間の中間値と、前記出力層から出力された前記特定分割領域以外の分割領域において前記所定の属性クラスに属する確率と、の誤差を逆伝播させる誤差逆伝播処理部と、を備え、
    前記入力処理部は、前記特定分割領域を表す情報と前記所定の属性クラスを表す情報とを、前記誤差逆伝播処理部に入力する、
    機械学習装置。
  8. 認識対象の被写体より上方に設置されたカメラで撮影された撮影画像を用いて、前記被写体を所定の属性に関する複数の属性クラスに分類する分類方法であって、
    前記撮影画像から前記被写体を含む領域の画像である被写体領域画像を抽出する画像処理ステップと、
    前記被写体領域画像を用いて、前記カメラの撮影範囲を前記カメラの直下からの距離に応じて分割して生成された複数の分割領域ごとに、前記被写体が前記複数の属性クラスに属する各確率を出力する分類ステップと、
    を備える分類方法。
JP2017243946A 2017-12-20 2017-12-20 属性認識装置、属性認識方法、及び機械学習装置 Active JP6947005B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017243946A JP6947005B2 (ja) 2017-12-20 2017-12-20 属性認識装置、属性認識方法、及び機械学習装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017243946A JP6947005B2 (ja) 2017-12-20 2017-12-20 属性認識装置、属性認識方法、及び機械学習装置

Publications (2)

Publication Number Publication Date
JP2019109843A true JP2019109843A (ja) 2019-07-04
JP6947005B2 JP6947005B2 (ja) 2021-10-13

Family

ID=67179947

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017243946A Active JP6947005B2 (ja) 2017-12-20 2017-12-20 属性認識装置、属性認識方法、及び機械学習装置

Country Status (1)

Country Link
JP (1) JP6947005B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709480A (zh) * 2020-06-17 2020-09-25 北京百度网讯科技有限公司 用于识别图像类别的方法及装置
RU2756778C1 (ru) * 2020-06-17 2021-10-05 Федеральное государственное бюджетное учреждение науки Институт проблем машиноведения Российской академии наук (ИПМаш РАН) Способ классификации изображений
JP2022050251A (ja) * 2020-09-17 2022-03-30 ヤフー株式会社 学習装置、学習方法、及び学習プログラム
CN117079058A (zh) * 2023-10-11 2023-11-17 腾讯科技(深圳)有限公司 图像处理方法和装置、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006018688A (ja) * 2004-07-02 2006-01-19 Toyota Motor Corp 道路環境認識方法及び道路環境認識装置
US20130113934A1 (en) * 2010-07-12 2013-05-09 Hitachi Kokusai Electric Inc. Monitoring system and monitoring method
WO2013099368A1 (ja) * 2011-12-28 2013-07-04 Necソフト株式会社 画像認識装置、画像認識方法、プログラム、記録媒体および画像認識システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006018688A (ja) * 2004-07-02 2006-01-19 Toyota Motor Corp 道路環境認識方法及び道路環境認識装置
US20130113934A1 (en) * 2010-07-12 2013-05-09 Hitachi Kokusai Electric Inc. Monitoring system and monitoring method
WO2013099368A1 (ja) * 2011-12-28 2013-07-04 Necソフト株式会社 画像認識装置、画像認識方法、プログラム、記録媒体および画像認識システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
C.J. SOLANA-CIPRES, 外3名: ""Automatic object labelling for monitored environments using clustering techniques"", 3RD INTERNATIONAL CONFERENCE ON IMAGING FOR CRIME DETECTION AND PREVENTION (ICDP 2009), JPN6021023491, 3 December 2009 (2009-12-03), ISSN: 0004532929 *
清水早苗, 外1名: ""動作タイミングに基づく挙動不審者の検出"", 電気学会研究会資料, JPN6021023490, 24 February 2007 (2007-02-24), JP, pages 71 - 74, ISSN: 0004532928 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709480A (zh) * 2020-06-17 2020-09-25 北京百度网讯科技有限公司 用于识别图像类别的方法及装置
RU2756778C1 (ru) * 2020-06-17 2021-10-05 Федеральное государственное бюджетное учреждение науки Институт проблем машиноведения Российской академии наук (ИПМаш РАН) Способ классификации изображений
CN111709480B (zh) * 2020-06-17 2023-06-23 北京百度网讯科技有限公司 用于识别图像类别的方法及装置
JP2022050251A (ja) * 2020-09-17 2022-03-30 ヤフー株式会社 学習装置、学習方法、及び学習プログラム
JP7348150B2 (ja) 2020-09-17 2023-09-20 ヤフー株式会社 学習装置、学習方法、及び学習プログラム
CN117079058A (zh) * 2023-10-11 2023-11-17 腾讯科技(深圳)有限公司 图像处理方法和装置、存储介质及电子设备
CN117079058B (zh) * 2023-10-11 2024-01-09 腾讯科技(深圳)有限公司 图像处理方法和装置、存储介质及电子设备

Also Published As

Publication number Publication date
JP6947005B2 (ja) 2021-10-13

Similar Documents

Publication Publication Date Title
CN110249360B (zh) 用于推荐产品的装置和方法
EP3324339B1 (en) Method and apparatus to perform material recognition and training for material recognition
US20210081754A1 (en) Error correction in convolutional neural networks
JP6361387B2 (ja) 識別装置および識別装置の制御方法
JP2019109843A (ja) 分類装置、分類方法、属性認識装置、及び機械学習装置
US20130121584A1 (en) System and Method for Using Contextual Features to Improve Face Recognition in Digital Images
KR20210028185A (ko) 사람 자세 분석 시스템 및 방법
CN111279377A (zh) 通过使用人工智能技术提供与广告和产品购买相关的服务的装置、***及方法
JP2014093023A (ja) 物体検出装置、物体検出方法及びプログラム
JP2010262425A (ja) 衣服を認識および分類するためのコンピュータ実行方法
US10635919B2 (en) Information processing device, image processing system, image processing method, and program storage medium
US20200034605A1 (en) Intelligent persona generation
EP3214604B1 (en) Orientation estimation method and orientation estimation device
Asif et al. Human gait recognition subject to different covariate factors in a multi-view environment
CN112052746A (zh) 目标检测方法、装置、电子设备和可读存储介质
JP2022553779A (ja) キャビン内の環境の調整方法及び装置
CN111902821A (zh) 检测动作以阻止识别
CN112115790A (zh) 人脸识别方法、装置、可读存储介质和电子设备
CN110532838A (zh) 对象检测装置和方法及存储介质
CN108875549A (zh) 图像识别方法、装置、***及计算机存储介质
Assiri et al. Face emotion recognition based on infrared thermal imagery by applying machine learning and parallelism
Sanil et al. 2D-3D facial image analysis for identification of facial features using machine learning algorithms with hyper-parameter optimization for forensics applications
KR102246471B1 (ko) 이미지 내 동물의 코 영역을 검출하는 방법 및 장치
Jang et al. User oriented language model for face detection
Santosh et al. Recent Trends in Image Processing and Pattern Recognition: Second International Conference, RTIP2R 2018, Solapur, India, December 21–22, 2018, Revised Selected Papers, Part I

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200618

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210611

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210802

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210817

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210830

R150 Certificate of patent or registration of utility model

Ref document number: 6947005

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150