<第1の実施の形態>
本開示の第1の実施の形態について図面を参照して詳細に説明する。図1は、本実施の形態に係る画像処理システム1の全体構成の一例を示す図である。図1に示す通り、本実施の形態に係る画像処理システム1は、一次解析装置100と、映像配信装置200と、二次解析装置300と、表示装置400とを含む。なお、画像処理システム1の構成は一例であり、図1に示す構成に限定されない。例えば、画像処理システム1は、図1に示す構成以外の装置を含んでもよい。
映像配信装置200は、映像データを一次解析装置100に配信する。映像配信装置200は、被写体を撮像する、例えば、ビデオカメラや監視カメラ、ネットワークカメラ、インテリジェントカメラ等の撮像装置(撮像部)で実現される。映像配信装置200は、撮像した映像データを、一次解析装置100に配信する。
一次解析装置100は、映像配信装置200から受信した映像データから、二次解析装置300が行う解析に対して有効なデータである有効データを決定するための処理を行う。一次解析装置100については、図面を変えて後述する。一次解析装置100は、決定した有効データに含まれる被写体の特徴量を抽出し、抽出した被写体の特徴量を二次解析装置300に供給する。
二次解析装置300は、一次解析装置100から出力された、被写体の特徴量を用いて、解析を行う。二次解析装置300が行う解析の種類は、特に限定されず、例えば、顔認証、車体認証等、が挙げられる。二次解析装置300は、解析結果を表示装置400に送信する。
表示装置400は、二次解析装置300における解析結果を表示部に表示する。表示装置400は、例えば、液晶ディスプレイ等によって実現される。
図2は、本実施の形態に係る画像処理システム1の一次解析装置100の機能構成の一例を示す機能ブロック図である。図2に示す通り、一次解析装置100は、取得部110と、検出部120と、追跡部130と、被写体データ決定部140と、抽出部150と、送信部160とを備える。
取得部110は、一次解析装置100に入力される映像データを取得する。なお、本実施の形態において、映像データは、複数のフレーム画像を含む動画像データであるとして説明を行うが、映像データは、複数のフレーム画像の夫々を表してもよい。
取得部110は、映像データを、映像配信装置200から取得してもよいし、映像配信装置200によって配信された映像データが記録された記録部から取得してもよい。取得部110は、取得した映像データを複数のフレーム画像に分割し、該フレーム画像を検出部120に供給する。
検出部120は、複数のフレーム画像の夫々から被写体を検出する。検出部120は、取得部110から供給されたフレーム画像を受け取る。検出部120は、受け取ったフレーム画像から、1つまたは複数の被写体を検出する。検出部120は、フレーム画像に被写体が含まれる場合、検出した被写体の該フレーム画像上における領域を被写体領域として該フレーム画像から抽出する。本実施の形態では、検出部120は、被写体領域の中心座標を、被写体領域の位置を表す位置情報とするが、位置情報は中心座標ではなく、例えば、被写体領域の左上の座標であってもよいし、その他の位置を表す座標であってもよい。なお、被写体領域の座標で表現される位置情報は、フレーム画像における被写体の位置を表しているため、被写体の位置を表す位置情報であると言える。また本実施の形態では、被写体領域の大きさを被写体の大きさであるとして説明を行う。
本実施の形態では、被写体は人物であり、検出部120が検出する被写体領域は人物の顔の領域であるとして説明を行う。なお、被写体領域は、人物全体の領域であってもよい。また、被写体は、人物以外の物体であってもよい。
検出部120は、更に、被写体の向きを検出してもよい。なお、被写体の検出方法および被写体の向きの検出方法は特に限定されず、任意の方法を採用してもよい。また、被写体領域の抽出方法は特に限定されず、任意の方法を採用してもよい。また、検出部120がフレーム画像から抽出する被写体領域の形状は、矩形であってもよいし、円形であってもよいし、その他の形状であってもよい。
このように、検出部120は、被写体の位置、該被写体の大きさ、および向きを、検出対象のフレーム画像における被写体の状態として検出する。
また、検出部120は、検出した被写体に関する品質(第1品質とも呼ぶ)を表す品質スコアを、抽出した被写体領域毎に算出する。被写体に関する品質とは、二次解析装置300が行う解析の種類に応じて定められるものである。例えば、二次解析装置300が顔認証を行う装置の場合、検出部120は、被写体領域の画像(被写体画像と呼ぶ)が顔認証に用いる特徴量がより多く抽出できるような画像であるほど、該被写体領域の品質がより高くなるように、品質スコアを算出する。また、二次解析装置300が被写体全体の特徴点を用いて解析を行う装置の場合、検出部120は、被写体領域に被写体全体が含まれる場合に、該被写体領域の品質が被写体の一部が含まれる場合よりも高くなるように、品質スコアを算出する。また、検出部120は、フレーム画像に含まれる被写体の撮影時の条件やカメラパラメータに基づいて、品質スコアを算出してもよい。撮影時の条件とは、例えば、撮影時の明るさ、被写体との距離、時刻等、品質に関連する条件であればどのような条件であってもよい。つまり、検出部120は、フレーム画像における被写体の画質などを考慮した品質スコアを算出してもよい。なお、品質スコアの算出方法は特に限定されず、どのような方法を採用してもよい。
検出部120は、被写体を検出したフレーム画像を表すフレーム番号、被写体の状態(被写体の位置、被写体の大きさ、および被写体の向き)、被写体画像および品質スコアを関連付け、検出結果として出力する。検出結果は、図示されないメモリ等に被写体ごとに記憶されることが望ましい。なお、検出部120は、被写体画像の代わりにまたは被写体画像に加えて、該被写体画像の抽出元であるフレーム画像を出力してもよい。
追跡部130は、検出部120が出力した検出結果を受け取り、受け取った検出結果に含まれる被写体の状態を用いて、該被写体の追跡を行う。追跡部130は、検出結果に含まれるフレーム番号が表すフレーム画像よりも、メモリに記憶された過去のフレーム画像に含まれる被写体の位置、大きさおよび向きと、受け取った検出結果に含まれる被写体の位置、大きさおよび向きとを用いて、各フレーム画像に含まれる被写体同士が、同一の被写体か否かを判定することにより、被写体を追跡する。追跡部130は、同一の被写体であると判定した場合、被写体同士を対応付ける。追跡部130は、検出結果に含まれるフレーム番号が表すフレーム画像よりも過去のフレーム画像に含まれる被写体(過去の被写体と呼ぶ)と対応付けが行われた被写体に関連する検出結果に、過去の被写体と同様の被写体番号を付し、追跡結果として出力する。被写体番号は、被写体を識別するための番号である。なお、追跡部130は、過去の被写体と対応付けが行われなかった被写体に関連する検出結果には、新たな被写体番号を付し、追跡結果として出力する。なお、追跡部130が行う被写体の追跡方法は、特に限定されず、任意の方法を採用してもよい。
被写体データ決定部140は、追跡部130から追跡結果を受け取る。追跡結果は、上述した通り、互いに関連付けられた、被写体番号、フレーム番号、被写体の状態、被写体画像および品質スコアを含むため、被写体に関連する被写体データとも呼ぶ。被写体データ決定部140は、被写体番号ごとに、所定の時間幅(ウインドウと呼ぶ)に含まれる複数のフレーム画像の夫々に関連付けられた被写体の状態および品質スコアを参照し、解析に用いる被写体データを決定する。被写体データ決定部140の具体的な処理については図面を変えて説明する。被写体データ決定部140は、決定した被写体データを抽出部150に出力する。なお、被写体データ決定部140は、決定した被写体データのうち、被写体画像を抽出部150に出力してもよい。
被写体データ決定部140が決定する被写体データは、二次解析装置300が行う解析に対して有効な有効データである。したがって、被写体データ決定部140は有効データを決定する処理を行うとも言える。
抽出部150は、被写体データ決定部140から出力された被写体データを受け取り、被写体データに含まれる該被写体画像から特徴量を抽出する。抽出部150が抽出する特徴量は、二次解析装置300が行う解析に応じたものであればよく、特徴量の種類は特に限定されない。また、抽出部150が特徴量を抽出する方法は特に限定されず、任意の方法を採用してもよい。抽出部150は抽出した特徴量を送信部160に出力する。なお、抽出部150は、抽出した特徴量を、特徴量の抽出元である被写体画像を含む被写体データと共に送信部160に出力してもよい。
送信部160は、抽出部150から受け取った特徴量を二次解析装置300に送信する。送信部160が送信する特徴量には、被写体データとして、被写体画像、該被写体画像に関連付けられた被写体番号、フレーム番号、被写体の状態および品質スコアの少なくとも何れかが関連付けられていてもよい。
図3は、本実施の形態における一次解析装置100の被写体データ決定部140の機能構成の一例を示す機能ブロック図である。図3に示す通り、被写体データ決定部140は、選択部141と、第1決定部(出力候補決定部)142と、推定部143と、第2決定部144と、記憶部145とを備える。なお、記憶部145は、被写体データ決定部140とは別個の部材で構成されてもよい。
選択部141は、被写体データ決定部140に入力される被写体データ(追跡結果)を受け取る。選択部141は、ウインドウ内において同じ被写体番号を含む被写体データを互いに比較する。具体的には、選択部141は、ウインドウに含まれる複数のフレーム画像の夫々に含まれる被写体のうち、同じ被写体番号に関連付けられた品質スコアを比較し、最も高い品質スコアを含む被写体データを選択する。選択部141は、例えば、1秒ごとに、1秒間に含まれる複数のフレーム画像の夫々に含まれる被写体画像のうち、最も品質スコアが高い被写体画像を、被写体番号ごとに選択する。
例えば、ウインドウサイズが1秒であり、1秒間には10枚のフレーム画像が含まれるとする。そして、フレーム画像の夫々には一人の被写体が含まれ、この夫々の被写体は同じ被写体番号を有しているとする。この場合、選択部141は、10枚のフレーム画像の夫々に含まれる被写体画像の夫々に関連付けられた品質スコアを比較し、最も高い品質スコアを含む被写体データを選択する。そして、選択部141は、選択した被写体データを選択結果として、第1決定部142に供給する。
選択部141は、ウインドウごとに被写体の被写体データを選択する選択処理を、被写体番号ごとに行う。これにより、あるウインドウに含まれる被写体が複数の場合、選択部141は、複数の被写体の夫々に関連する選択結果を出力する。なお、選択部141は、ウインドウを識別するウインドウ番号を選択結果に関連付けて出力してもよい。
なお、ウインドウサイズは、映像配信装置200によって撮像された映像データを、表示装置400が画面に出力するまでにかかる遅延量に応じて設定されるものであり、1秒に限定されない。
記憶部145は、決定履歴情報146、状態モデル147、品質モデル148および出力ポリシー149を記憶する。記憶部145は、この他に、被写体データ決定部140に含まれる各部が出力する出力データを記憶してもよい。決定履歴情報146、状態モデル147、品質モデル148および出力ポリシー149の夫々については、後述する。
第1決定部142は、選択結果に含まれる品質スコアに基づいて、該選択結果が、出力候補の被写体データか否かを決定する。第1決定部142は、選択結果を受け取る。選択結果は、あるウインドウに含まれる複数のフレーム画像の夫々に関連する被写体データ(追跡結果)のうち、最も高い品質スコアを含む被写体データである。
第1決定部142は、決定履歴情報146を参照して、選択結果である被写体データが出力候補の被写体データか否かを決定する。ここで、図4を参照して、決定履歴情報146について説明する。図4は、本実施の形態における被写体データ決定部140の記憶部145に格納される決定履歴情報146の一例を示す図である。決定履歴情報146は、図4に示す通り、被写体番号41と、最高品質スコア42とを含む。被写体番号41は、被写体データに含まれる被写体番号と同様の番号であり、被写体を識別するための番号である。最高品質スコア42は、後述する第2決定部144が過去に決定した、被写体番号41を含む被写体データに含まれる品質スコアのうち、最も高い品質スコアを示す。決定履歴情報146は、後述する第2決定部144によって更新される。
第1決定部142は、決定履歴情報146を参照し、被写体データに含まれる品質スコアが、該被写体データに含まれる被写体番号と同じ番号の被写体番号41に関連付けられた最高品質スコア42よりも大きいか否かを判定する。第1決定部142は、被写体データに含まれる品質スコアが、最高品質スコア42よりも大きい場合、該被写体データを出力候補として決定する。
一方、第1決定部142は、被写体データに含まれる品質スコアが、最高品質スコア42以下の場合、該被写体データを出力しないと決定する。被写体データに含まれる品質スコアが、最高品質スコア42以下の場合、該被写体データは過去に出力した被写体データ(過去の被写体データと呼ぶ)よりも品質が低いまたは同じ品質であることがわかる。過去の被写体データと同じ品質または過去の被写体データよりも低い品質の被写体データは、過去の被写体データよりも有効なデータとなる可能性が低い。第1決定部142は、このような過去の被写体データと同じ品質または過去の被写体データよりも低い品質の被写体データを出力しないと決定することにより、被写体データ決定部140が抽出部150に出力するデータ量を削減することができる。また、品質が良い過去の被写体データが出力されているため、入力された被写体データを出力しなくとも、被写体データに関連する被写体に対する解析の精度は高い状態で維持される。また、第1決定部142は、過去の被写体データの最高品質スコア42と、入力された被写体データの品質スコアとの比較という少ない計算量で、出力候補の被写体データを決定するため、処理にかかる負荷を小さくすることができる。そのため、画像処理システム1は、映像配信装置200が映像データを取得してから、表示装置400に該映像データに関連する情報が表示されるまでの遅延量を少なくすることができる。
第1決定部142は、出力候補として決定した被写体データを推定部143に供給する。
推定部143は、第1決定部142から供給された出力候補である被写体データから、状態モデル147を用いて、被写体の次の状態を推定する。被写体の次の状態とは、入力される被写体データに関連する被写体の、被写体データの抽出元のフレーム画像(第1フレーム画像と呼ぶ)とは異なるフレーム画像(第2フレーム画像と呼ぶ)における被写体の位置および大きさである。第2フレーム画像は、第1フレーム画像よりも時間的に後に映像配信装置200によって撮像される。なお、次の状態は、被写体の向きを含んでもよい。上述した通り、選択部141によって、あるウインドウ内からは1つのフレーム画像が選択されるため、第1フレーム画像と第2フレーム画像とは異なるウインドウに含まれる。
状態モデル147は、上記被写体の次の状態を推定するためのモデルである。状態モデル147は、予めユーザによって生成されたものであってもよいし、学習データを用いて学習した結果であってもよい。例えば、フレーム画像を所定の大きさのグリッドに分割し、学習データを用いて、あるグリッドの位置に存在する被写体が、該被写体が含まれるフレーム画像よりも時間的に後のフレーム画像において、どの位置のグリッドに存在するかを計数し、グリッドごとに確率を算出することにより、状態モデル147を生成してもよい。また、状態モデル147はどのような形式で表現されてもよく、数式であってもよいし、表形式であってもよい。また、状態モデル147は、確率分布を用いたものであってもよい。つまり、状態モデル147は、推定部143によって推定される次の状態が確率分布に応じた状態になるようなモデルであってもよい。
本実施の形態では、状態モデル147は、次の状態として次の位置および次の大きさを算出するための数式であるとする。
例えば、フレーム画像の左上端を原点とし、フレーム画像の横軸をX軸、縦軸をY軸とした場合において、映像配信装置200が、被写体の移動方向がY軸正方向となるような場所を撮像していると仮定する。この場合において映像配信装置200がY軸正方向側に設置されているとした場合、Y軸正方向側に移動する(映像配信装置200に近づく)と、映像配信装置200が撮像するフレーム画像上に含まれる被写体の大きさが大きくなる。
このような場合において、例えば、図5に示すような状態モデル147が記憶部145に格納されているとする。図5において、Ycurは現在の被写体の位置のY座標であり、入力された被写体データに含まれる被写体の位置のY座標を示す。また、Ynextは、推定部143によって推定される被写体の位置であり、第2フレーム画像上において、被写体が存在すると推定される位置(例えば、推定される被写体領域の中心座標)のY座標を示す。Scurは、現在の被写体の大きさであり、入力された被写体データに含まれる被写体領域の大きさを示す。また、Snextは、推定部143によって推定される被写体の大きさであり、第2フレーム画像上において、推定される被写体領域の大きさを示す。
推定部143は、このような状態モデル147と第1決定部142から供給された被写体データと、を用いて、第2フレーム画像における被写体の状態(位置(Ynext)および大きさ(Snext))を推定する。
なお、推定部143が推定する被写体の位置は、一カ所に限定されず、所定の幅を有した範囲内であってもよい。例えば、図5に示す状態モデル147を用いて推定されるYnextは、Ycur+150からYcur+250までの位置であればよい。
そして、推定部143は、品質モデルを用いて、推定した被写体の状態と被写体データに含まれる品質スコアとから、推定した被写体の状態に関連する第2フレーム画像上における該被写体に関する第2品質を推定する。
品質モデル148は、上記被写体の次の品質(第2品質)を推定するためのモデルである。品質モデル148は状態モデル147と同様に、予めユーザによって生成されたものであってもよいし、学習データを用いて学習した結果であってもよい。また、品質モデル148はどのような形式で表現されてもよく、数式であってもよいし、表形式であってもよい。また、品質モデル148は、確率分布を用いたものであってもよい。本実施の形態では、品質モデル148は、第2品質を算出するための数式であるとする。
図6は、品質モデル148の一例を説明するための図である。図6に示すような品質モデル148が記憶部145に格納されているとする。図6において、Ymaxは、フレーム画像のY座標の最大値であり、例えば、1080である。また、Smaxは検出される被写体画像の最大の大きさであり、例えば、400×400(つまり、160000)であるとする。なお、Smaxは、Ymaxやフレーム画像が撮像される位置に応じて変更される値であってもよい。Qcurは、現在の被写体に関する品質スコア(第1品質)であり、入力された被写体データに含まれる品質スコアを示す。また、Qnextは、推定部143によって推定される被写体に関する品質スコア(第2品質)であり、第2フレーム画像上における被写体に関する品質スコアを示す。
被写体の大きさと、被写体の品質とは、比例関係になる可能性が多い。よって、推定部143は、品質モデル148を用いて、推定された被写体の大きさに応じて、品質スコアQnextを推定する。なお、例えば、フレーム画像のサイズが1920×1080であり、被写体領域の中心座標のY座標が0に近い値およびY座標が1080に近い値の場合、該被写体領域には被写体の顔全体が含まれない可能性が高い。このような被写体画像から抽出された特徴量は、解析を行う対象として、有効ではない可能性が高い。よって、このような被写体画像に関連する品質スコアが低くなるように、推定部143は、品質スコアQnextを推定してもよい。
図7は、本実施の形態における推定部143の推定処理の結果の一例を示す図である。図7では、説明の便宜上、同じ被写体番号74が含まれる被写体データのうち、被写体の位置71、大きさ72および品質スコア(第1品質)73を併せて記載している。推定結果70は、被写体番号74、位置75、大きさ76および品質スコア77を含む。
例えば、推定部143は、被写体番号74が「1」の大きさ(Scur)72である100×100から、図5に示す状態モデル147の「Snext=Scur×2」を用いて、Snext=20000≒141×141を算出することにより、被写体の次のフレーム画像における大きさである大きさ76を推定する。このように、推定部143は、Snextを、近似値を用いて「X軸方向の大きさ×Y軸方向の大きさ」で表現される値で推定してもよいし、状態モデル147を用いて得られる値(上述の場合、20000)で推定してもよい。
なお、上述した通り、推定される位置(Ynext)が図7に示す通り、所定の幅を有した範囲内である場合、位置によって複数の品質スコアが算出される可能性がある。図7に示す被写体番号74が「3」の被写体に関する品質スコア77は、「0.1」および「1.0」であり、夫々、70%および30%の割合で算出される。このような場合、推定部143は、算出される割合が高い方の品質スコア77を推定結果70に含めてもよいし、割合と共に両方の品質スコア77を推定結果70に含めてもよいし、品質スコア77が低い方を推定結果70に含めてもよい。
また、推定部143は、品質スコアQcurと品質スコアQnextとを用いて、推定される品質スコアQnextによって示される第2品質が第1品質よりも向上する(品質スコアQnextが品質スコアQcurよりも高くなる)可能性を示す尤度を算出してもよい。例えば、図7に示す被写体番号74が「3」の被写体に関する品質スコア77は、「0.1」および「1.0」であり、夫々、70%および30%の割合であるため、推定部143は上記尤度を0.3と算出してもよい。
推定部143は、このような推定結果70を、被写体番号74に関連する被写体データと共に、第2決定部144に供給する。なお、推定部143は、推定結果70のうち、推定した品質スコア77と被写体番号74とを、該被写体番号74に関連する被写体データと共に、第2決定部144に供給してもよい。
なお、状態モデル147および品質モデル148は、映像配信装置200が映像データを取得する場所や時間帯に応じて変化するものであってもよい。例えば、被写体の移動方向がY軸の所定の位置(例えば、Y=800)までは、Y軸正方向であり、Y軸の所定の位置からはX軸正方向になるような場所を、映像配信装置200が撮像していると仮定する。この場合において映像配信装置200がY軸正方向側に設置されているとした場合、所定の位置までは、被写体がY軸正方向側に移動する(映像配信装置200に近づく)と、映像配信装置200が撮像するフレーム画像上に含まれる被写体の大きさが大きくなり、所定の位置からは被写体の向きがX軸正方向側を向く。
このような場合において、例えば、図8に示すような状態モデル147が記憶部145に格納されているとする。図8における、Ycur、Ynext、ScurおよびSnextは、図5と同様の値を示す。Fは、被写体の正面度合いを表す。被写体の向きは、例えば、被写体が映像を撮像する映像配信装置200に正対している場合を基準としたときの、被写体の、水平方向の回転の度合いを表す。例えば、被写体を人物の顔とした場合、人物の顔が映像配信装置200に正対している場合を0度とし、人物の顔の垂直方向(例えば、額の中央部分から鼻の中央を通過し顎に至るまでの線分)を軸にしたときの、人物の顔の左回りの回転角を、被写体の向きとする。人物の顔の左半分を捉える角度が−90度、人物の顔の右半分を捉える角度が90度となる。なお、向きは、被写体が映像配信装置200に正対している場合を基準したときの、被写体の、垂直方向の回転の度合い、撮影装置の光軸に対する回転方向の回転の度合い、あるいはそれらの回転の度合いの組合せであってもよい。なお、本実施の形態では、被写体の向きから得られる正面度合いFは、向きが0度の場合1.0とし、向きが−90度および90度を0.5として算出される値であるとする。
推定部143は、図8に示すような状態モデル147と第1決定部142から供給された被写体データとを用いて、第2フレーム画像における被写体の状態(位置(Ynext)、大きさ(Snext)および正面度合い(F))を推定してもよい。なお、以降の説明において、推定部143が推定する被写体の向きとは、正面度合いFを示すとする。
そして、推定部143は、図9に示すような品質モデル148を用いて、推定した被写体の状態と被写体データに含まれる品質スコアとから、推定した被写体の状態に関連する第2フレーム画像上における該被写体に関する第2品質を推定する。図9における、Smax、Qcur、およびQnextは、図6と同様の値を示す。
例えば、二次解析装置300が顔画像から得られる特徴量を用いて顔認証を行う場合、正面を向いた顔画像の方が、左右を向いた顔画像よりも認証精度が高くなる。また、左右を向いた顔画像からは顔認証に用いる特徴量が十分に抽出できない可能性がある。よって、図9に示す品質モデル148は、正面度合いFが所定の閾値(図9の場合は0.7)以下の場合、低い品質スコアが推定されるように、設定されている。
なお、図9では、品質モデル148は、推定した被写体の状態のうち、推定した向きのみを用いて品質スコアを推定するためのモデルであるが、品質モデル148は、推定した位置および大きさを用いて品質スコアを推定するためのモデルであってもよい。
図10は、本実施の形態における推定部143の推定処理の結果の他の一例を示す図である。図10は、図7と同様に、同じ被写体番号74が含まれる被写体データのうち、被写体の位置71、大きさ72および品質スコア(第1品質)73を併せて記載している。推定結果70は、被写体番号74、位置75、大きさ76および品質スコア77を含む。このように、推定部143は、図8に示す状態モデル147を用いて、被写体の次の状態として向きも推定し、図9に示す品質モデル148を用いて、推定した次の状態と被写体データの品質スコアとから図10に示す推定結果70を出力してもよい。このように、被写体の向きを考慮して、被写体の状態を推定することにより、推定された被写体の状態の精度を上げることができる。また、推定部143は、向きを考慮した品質スコアを推定することができる。
第2決定部144は、推定部143から、推定結果70を、被写体番号74に関連する被写体データと共に受け取る。第2決定部144は、推定結果70に含まれる品質スコア77に基づいて、推定結果70に含まれる被写体番号74と同じ被写体番号を含む被写体データを解析に用いるか否かを決定する。そして、第2決定部144は決定した被写体データに含まれる被写体番号と同じ番号の被写体番号41の最高品質スコア42を更新する。
第2決定部144は、記憶部145に格納された出力ポリシー149に基づいて、被写体データを解析に用いるか否かを決定する。
出力ポリシー149は、被写体データを解析に用いるか否かを決定するための方針を表すものである。出力ポリシー149は、例えば、「Qnext<=Qcurの場合、被写体データを出力する」である。
図11は、第1の実施の形態における被写体データ決定部140の第2決定部144における決定処理の結果を説明するための図である。決定処理の結果は、決定結果115として出力される。決定結果115は、被写体番号111毎且つウインドウ番号112毎に出力される。被写体番号111は、被写体データに含まれる被写体番号と同様の番号である。図11は、被写体番号111が「1」の被写体データに対するウインドウごとの決定結果115の履歴を表す図である。
品質スコア113は、被写体データ決定部140に入力された被写体データに含まれる品質スコアであり、上述した第1品質(Qcur)である。推定品質スコア114は、上述した第2品質(Qnext)であり、推定部143によって推定された品質スコアである。
図11に示す通り、ウインドウ番号112が「1」の品質スコア113は、推定品質スコア114よりも小さい値である。第2決定部144は、「Qnext<=Qcurの場合、被写体データを出力する」という出力ポリシー149に基づいて、被写体データを解析に用いないと決定する。つまり、第2決定部144は、二次解析装置300に被写体データを出力しないと決定する。よって、ウインドウ番号112が「1」に関連する決定結果115は、決定した結果を表す「出力しない」となる。
同様に、ウインドウ番号112が「2」〜「4」の夫々に関連する被写体データに対しても、第2決定部144は出力しないと決定する。
ウインドウ番号112が「5」の品質スコア113は、推定品質スコア114よりも大きい値である。よって、第2決定部144は、「Qnext<=Qcurの場合、被写体データを出力する」という出力ポリシー149に基づいて、被写体データを出力すると決定する。
被写体データに関連する第1フレーム画像よりも時間的に後に撮像される第2フレーム画像上における被写体に関する品質(第2品質)が第1品質よりも高いと推定される場合、第2フレーム画像上から抽出された被写体領域(第2被写体データ)に関連するデータ(例えば、特徴量)は、第1フレーム画像上から抽出された被写体領域に関連するデータ(第1被写体データ)よりも有効なデータである可能性が高い。したがって、第1被写体データを解析に用い、第2被写体データを解析に用いなかった場合、第2被写体データを解析に用いた場合に比べ解析の精度が低下してしまう可能性がある。また、第1被写体データと第2被写体データとの両方を解析に用いる場合、被写体データ決定部140が出力する被写体データの量が増えるため、抽出部150における抽出処理の処理量が増え、遅延が大きくなってしまう可能性がある。
しかしながら、上述した通り、第1被写体データに関連する第1品質よりも第2被写体データに関連する第2品質の方が高いと推定される場合、第2決定部144は、第1被写体データを出力しない。よって、第2決定部144は、第1品質よりも高い品質である第2品質を有する第2被写体データを出力することができる。これにより、被写体データ決定部140は、解析処理の精度の維持したまま出力するデータ量を削減することができる。また、出力するデータ量を削減することにより、被写体データ決定部140は、処理における遅延量を少なくすることができる。
なお、例えば、図7の被写体番号74が「3」の被写体に関する品質スコア77のように、推定された品質スコア77が割合と共に第2決定部144に供給された場合、第2決定部144は、値が小さい方の推定品質スコア114を用いて、被写体データを解析に用いるか否かを決定してもよいし、割合が大きい方の推定品質スコア114を用いて、被写体データを解析に用いるか否かを決定してもよい。また、推定部143から出力される推定結果70に尤度が含まれる場合、第2決定部144は、尤度と所定の閾値とを比較し、比較結果と、出力ポリシー149とに基づいて、被写体データを解析に用いるか否かを決定してもよい。
なお出力ポリシー149は上述したものに限定されない。例えば、出力ポリシー149は、『「Qnext<=Qcurの場合」または「Qcur>Qpmax×1.1の場合」、被写体データを出力する』であってもよい。ここで、Qpmaxは、過去に出力した被写体データの最高品質スコアであり、図4に示した最高品質スコア42である。
この出力ポリシー149に基づいて第2決定部144が被写体データに対して決定した決定結果を図12に示す。図12は、本実施の形態における被写体データ決定部140の第2決定部144における決定処理の他の結果を説明するための図である。図12と図11との異なる点は、決定結果の欄である。図12に示す決定結果125は、『「Qnext<=Qcurの場合」または「Qcur>Qpmax×1.1の場合」、被写体データを出力する』という出力ポリシー149に基づいて決定された結果である。これにより、図12に示す通り、第2決定部144は、ウインドウ番号112が「1」に関連する被写体データ、ウインドウ番号112が「4」に関連する被写体データおよびウインドウ番号112が「5」に関連する被写体データを出力すると決定する。
これにより、第2決定部144は、過去に出力した被写体データの品質よりも、所定以上品質が向上している被写体データを、出力すると決定することができる。これにより、例えば、二次解析装置300における解析に用いる有効なデータを一次解析装置100が出力することができるため、解析処理の精度の低下を防ぐことができる。
図13は、本実施の形態における一次解析装置100の処理の流れの一例を示すフローチャートである。図13に示す通り、取得部110が、映像データを取得する(ステップS131)。そして、検出部120が、映像データに含まれる複数のフレーム画像の夫々から被写体を検出する(ステップS132)。
その後、追跡部130が各フレーム画像に含まれる被写体同士が、同一の被写体か否かを判定することにより、被写体を追跡する(ステップS133)。そして、被写体データ決定部140が被写体データ決定処理を行う(ステップS134)。その後、抽出部150が、被写体データ決定処理において決定された被写体データに含まれる被写体画像から特徴量を抽出する(ステップS135)。そして、送信部160が、ステップS135において抽出された特徴量を二次解析装置300に送信する(ステップS136)。
図14は、図13に示したステップS134の被写体データ決定処理の流れの一例を示すフローチャートである。図14に示す通り、選択部141が、ウインドウ内に含まれる複数のフレーム画像の夫々に関連する被写体データのうち、最も品質スコアが高い被写体データを、被写体番号ごとに選択する(ステップS141)。
そして、第1決定部142が、選択された被写体データの品質スコアが、該被写体データの被写体番号と同じ番号の被写体番号41に関連付けられた過去の品質スコアである最高品質スコア42よりも大きいか否かを判定する(ステップS142)。そして、被写体データに含まれる品質スコアが、最高品質スコア42以下の場合(ステップS142にてNO)、処理を終了する。これにより、被写体データ決定部140から被写体データが出力されないため、上述したステップS135およびステップS136は行われない。
被写体データに含まれる品質スコアが、最高品質スコア42よりも大きい場合(ステップS142にてYES)、推定部143は、状態モデル147を用いて、被写体データから第2フレーム画像における被写体の状態を推定する(ステップS143)。
そして、推定部143は、品質モデル148を用いて、推定した被写体の状態と、被写体データに含まれる第1品質とから、第2品質を推定する(ステップS144)。
そして、第2決定部144は、第2品質に基づいて、出力ポリシー149を参照し、入力された被写体データを解析に用いるか否かを決定する(ステップS145)。第2決定部144が入力された被写体データを解析に用いないと決定した場合(ステップS145にてNO)、処理を終了する。第2決定部144が入力された被写体データを解析に用いると決定した場合(ステップS145にてYES)、第2決定部144は、決定した被写体データを抽出部150に出力する(ステップS146)。そして、第2決定部144は、決定履歴情報146の最高品質スコア42を更新する(ステップS147)。
以上により、被写体データ決定部140は、ステップS134の処理を終了する。
図15は、本実施の形態における被写体データ決定部140が出力する出力データ151の一例を示す図である。図15に示す通り、出力データ151は、被写体データに含まれる、被写体番号152、フレーム番号153、被写体の位置155、被写体の大きさ156、被写体の向き157、被写体画像158および品質スコア159を含む。なお、出力データ151は、ウインドウ番号154を含んでもよい。被写体データ決定部140は、図15に示すような被写体画像158を含む出力データ151を出力する。これにより、抽出部150は、出力データ151に含まれる被写体画像158から特徴量を抽出することができる。
以上のように、本実施の形態における一次解析装置100の被写体データ決定部140は、推定部143が入力された被写体データから状態モデル147を用いて得られる第2画像上における被写体の状態および被写体データに含まれる第1品質から、品質モデル148を用いて、第2画像上における被写体に関する第2品質を推定する。そして、第2決定部144が推定された第2品質に基づいて、解析に用いる被写体データを決定する。これにより、被写体データ決定部140は、例えば、第1品質が推定された第2品質と同じまたは第2品質よりも高い品質を有する場合に、該第1品質に関連する被写体データを解析に用いると決定し、第1品質が推定された第2品質よりも低い品質を有する場合に、該第1品質に関連する被写体データを解析に用いないと決定する。つまり、被写体データ決定部140は、第1品質よりも、入力された被写体データに関連する第1画像よりも時間的に後に撮像された第2画像から抽出された被写体データに関連する品質の方が高いと推定される場合、入力された被写体データを解析に用いないと決定する。これにより、被写体データ決定部140は、後から入力される被写体データよりも品質が低い被写体データを出力しないため、出力するデータ量を削減することができる。よって、一次解析装置100によるデータ処理による遅延量を少なくすることができる。また、被写体データの第1品質が第2画像から抽出された被写体データに関連する品質以上の場合に、第2決定部144は、被写体データを入力された被写体データを解析に用いると決定する。これにより、解析処理の精度を維持することができる。
例えば、画像処理システム1が、店舗に侵入した不審者を特定するシステムであるとする。この場合、映像配信装置200が映像データを撮像してから表示装置400に特定された不審者に関する情報を表示するまでにかかる時間が少ない方が好ましい。本実施の形態に係る一次解析装置100によれば、二次解析装置300による解析処理の精度を維持したままで、被写体データ決定部140が出力するデータ量を削減することができるため、表示装置400は、映像配信装置200が取得した映像データから特定された不審者に関する情報をほぼリアルタイムで表示することができる。また、二次解析装置300による解析処理の精度が維持されているため、画像処理システム1は、不審者の侵入を好適に検知することができる。
なお、本実施の形態では、図1に示す通り、画像処理システム1に含まれる各装置が夫々別の装置であることについて説明したが、画像処理システム1の各装置の構成はこれに限定されない。画像処理システム1に含まれる一次解析装置100、映像配信装置200、二次解析装置300および表示装置400は、全てが一体となっていてもよいし、組み合わせられてもよい。
図16は、本実施の形態における画像処理システム1の構成の他の一例を示す図である。図16に示す通り、画像処理システム1に含まれる一次解析装置100、映像配信装置200および二次解析装置300は、撮像装置500として実装されてもよい。撮像装置500は、例えば、インテリジェントカメラやネットワークカメラと呼ばれる撮像装置である。なお、撮像装置500は、一次解析装置100と映像配信装置200とを含む構成であってもよい。この場合、二次解析装置300と表示装置400とは一体形成された装置であってもよいし、別々の装置であってもよい。
撮像装置500に含まれる映像配信装置200は、例えば、CCD(Charge Coupled Device)センサ、CMOS(Complementary Metal Oxide Semiconductor)センサを用いて、撮像処理を行い、複数のフレームを含む映像データを生成する撮像部である。そして、映像配信装置200は、生成した映像データを一次解析装置100に供給する。これにより、一次解析装置100は、映像データから有効データを抽出することができる。なお、この場合、取得部110は、映像配信装置200と一体形成されてもよい。このように、一次解析装置100と、映像配信装置200とは、一体となって実装されている場合、撮像した映像データを、該映像データに対する処理を撮像した撮像装置500自身で行うことができる。このような構成であっても、画像処理システム1は、上述した効果を得ることができる。
<第2の実施の形態>
本開示の第2の実施の形態について、図面を参照して説明する。本実施の形態は、本開示の課題を解決する最小の構成について説明する。
図17は、本実施の形態に係る映像解析装置2の機能構成の一例を示す機能ブロック図である。映像解析装置2は、第1の実施の形態における被写体データ決定部140に相当する機能を有する。
映像解析装置2は、図17に示す通り、推定部3と、決定部4とを備える。推定部3は、上述した第1の実施の形態における推定部143の機能を有する。推定部3は、状態モデルを用いて入力される被写体データから得られる被写体の状態と、第1品質とから、品質モデルを用いて、第2品質を推定する。被写体データは、映像解析装置2に入力される、被写体に関連するデータであり、例えば、第1画像における被写体の位置および大きさ、第1画像における被写体に関する第1品質が含まれる。第1品質および第2品質は、解析処理に対して有効なデータであることを表す指標であり、例えば、被写体の位置、大きさ、向き、該被写体に対する撮影時の条件などに応じて求められる指標である。
状態モデルは第2画像上における被写体の位置および大きさを推定するためのモデルである。第1画像と第2画像とは異なる画像である。例えば、第2画像は第1画像よりも時間的に後に撮像された画像である。品質モデルは、第2画像における被写体に関する第2品質を推定するためのモデルである。
決定部4は、上述した第1の実施の形態における第2決定部144の機能を有する。決定部4は、推定された第2品質に基づいて、被写体データを解析に用いるか否かを決定する。例えば、決定部4は、第2品質が第1品質と同じまたは第1品質よりも低い品質を示す場合、被写体データを解析に用いると決定し、第2品質が第1品質よりも高い品質を示す場合、第1画像データを解析に用いないと決定する。
図18は、本実施の形態に係る映像解析装置2の処理の流れの一例を示すフローチャートである。図18に示す通り、映像解析装置2の推定部3が、第2画像における被写体の状態および第1品質から、品質モデルを用いて第2画像における被写体に関する第2品質を推定する(ステップS1)。上述した通り、第2画像は、第1画像とは異なる画像である。第2画像は、例えば、第1画像よりも後に取得される。また、第2画像における被写体の状態は、第2画像における、被写体の位置および大きさであり、状態モデルを用いて推定される。品質モデルは、第2画像における被写体に関する第2品質を推定するためのモデルである。
その後、決定部4が、ステップS1において推定された第2品質に基づいて、被写体データを解析に用いるか否かを決定する。
以上により、本実施の形態に係る映像解析装置2は、少ない遅延量で、解析処理の精度の維持したまま出力するデータ量を削減することができる。なぜならば、決定部が、推定部3によって推定された第2品質に基づいて、解析に用いる被写体データを決定するからである。これにより、映像解析装置2は、例えば、第1品質が推定された第2品質と同じまたは第2品質よりも高い品質を有する場合に、該第1品質に関連する被写体データを解析に用いると決定し、第1品質が推定された第2品質よりも低い品質を有する場合に、該第1品質に関連する被写体データを解析に用いないと決定することができる。これにより、第1品質よりも、入力された被写体データに関連する第1画像よりも時間的に後に撮像された第2画像から抽出された被写体データに関連する品質の方が高いと推定される場合、入力された被写体データを解析に用いないと決定する。よって、後から入力される被写体データよりも品質が低い被写体データを出力しないため、出力するデータ量を削減することができる。よって、映像解析装置2によるデータ処理による遅延量を少なくすることができる。また、被写体データの第1品質が第2画像から抽出された被写体データに関連する品質以上の場合に、決定部4は、被写体データを入力された被写体データを解析に用いると決定する。これにより、解析処理の精度を維持することができる。
(ハードウェア構成について)
本開示の各実施形態において、一次解析装置100および映像解析装置2の各構成要素、並びに、一次解析装置100の被写体データ決定部140の各構成要素は、機能単位のブロックを示している。上記各構成要素の一部又は全部は、例えば図19に示すような情報処理装置900とプログラムとの任意の組み合わせにより実現される。図19は、各装置の各構成要素を実現する情報処理装置900のハードウェア構成の一例を示すブロック図である。情報処理装置900は、一例として、以下のような構成を含む。
・CPU(Central Processing Unit)901
・ROM(Read Only Memory)902
・RAM(Random Access Memory)903
・RAM903にロードされるプログラム904
・プログラム904を格納する記憶装置905
・記録媒体906の読み書きを行うドライブ装置907
・通信ネットワーク909と接続する通信インタフェース908
・データの入出力を行う入出力インタフェース910
・各構成要素を接続するバス911
一次解析装置100および映像解析装置2の各構成要素、並びに、一次解析装置100の被写体データ決定部140の各構成要素は、これらの機能を実現するプログラム904をCPU901が取得して実行することで実現される。各構成要素の機能を実現するプログラム904は、例えば、予め記憶装置905やROM902に格納されており、必要に応じてCPU901がRAM903にロードして実行される。なお、プログラム904は、通信ネットワーク909を介してCPU901に供給されてもよいし、予め記録媒体906に格納されており、ドライブ装置907が当該プログラムを読み出してCPU901に供給してもよい。
一次解析装置100および映像解析装置2の実現方法には、様々な変形例がある。例えば、各装置は、構成要素毎にそれぞれ別個の情報処理装置900とプログラムとの任意の組み合わせにより実現されてもよい。また、各装置が備える複数の構成要素が、一つの情報処理装置900とプログラムとの任意の組み合わせにより実現されてもよい。
また、各装置の各構成要素の一部又は全部は、その他の汎用または専用の回路、プロセッサ等やこれらの組み合わせによって実現される。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。
各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。
各装置の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
なお、上述した各実施の形態は、本開示の好適な実施の形態であり、上記各実施の形態にのみ本開示の範囲を限定するものではなく、本開示の要旨を逸脱しない範囲において当業者が上記各実施の形態の修正や代用を行い、種々の変更を施した形態を構築することが可能である。