JP6798609B2

JP6798609B2 - 映像解析装置、映像解析方法およびプログラム

Info

Publication number: JP6798609B2
Application number: JP2019508411A
Authority: JP
Inventors: 洋介岩松
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2017-03-29
Filing date: 2017-03-29
Publication date: 2020-12-09
Anticipated expiration: 2037-03-29
Also published as: US11132778B2; JPWO2018179119A1; US20200074612A1; WO2018179119A1

Description

本開示は、映像解析装置、映像解析方法および記録媒体に関する。

映像解析では、フレーム画像に含まれる被写体ごとに特徴量の抽出の処理が行われることがある。撮像装置の高解像度化により、検出される被写体の数が増えたため、特徴量の抽出処理の量が増大する傾向にある。したがって、処理溢れなく全てのフレーム画像における被写体に対して、解析処理を行うには、高性能な装置等が必要になってしまい、コストがかかってしまう。また、処理量が増えることにより遅延量が増える可能性がある。

特許文献１には、ストリームデータに対し、処理する或いは処理しない構成要素を示すクエリ情報に基づいて、処理しない構成要素を間引いたストリームデータを生成する方法が記載されている。

また、非特許文献１には、間引くデータ量を最適化することが記載されている。

特許第４９９２９４５号公報

ＮｅｓｉｍｅＴａｔｂｕｌ他、「ＬｏａｄＳｈｅｄｄｉｎｇｉｎａＤａｔａＳｔｒｅａｍＭａｎａｇｅｒ」、Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２９ｔｈｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎＶＬＤＢ、ＶＬＤＢＥｎｄｏｗｍｅｎｔ、２００３年９月、ｖｏｌ．２９、ｐ．３０９−３２０

しかしながら、特許文献１に記載の技術では、処理する構成要素が増えると、間引く量が減ってしまい、ストリームデータのデータ量の削減が十分に行えない可能性がある。

また、撮影品質が刻々と変化する映像データでは、フレーム画像の間引きによって、解析処理に使用される画像の品質の低下の度合いが一定ではない可能性が高くなる。よって、非特許文献１に記載の技術を適用して得られたデータを用いて解析処理を行った場合、解析結果の精度が低くなる可能性がある。

本開示は、上記課題に鑑みてなされたものであり、その目的は、少ない遅延量で、解析処理の精度を維持したまま出力するデータ量を削減する技術を提供することにある。

本開示の一態様に係る映像解析装置は、入力される被写体に関連する被写体データから前記被写体の位置および大きさを推定するための状態モデルを用いて得られる、前記被写体データに関連する第１画像とは異なる第２画像における前記被写体の状態、および、前記被写体データに関連する前記被写体に関する第１品質から、前記被写体に関する第２品質を推定するための品質モデルを用いて、前記第２画像における前記被写体に関する第２品質を推定する推定手段と、前記推定された第２品質に基づいて、前記被写体データを解析に用いるか否かを決定する決定手段と、を備える。

また、本開示の一態様に係る映像解析方法は、入力される被写体に関連する被写体データから前記被写体の位置および大きさを推定するための状態モデルを用いて得られる、前記被写体データに関連する第１画像とは異なる第２画像における前記被写体の状態、および、前記被写体データに関連する前記被写体に関する第１品質から、前記被写体に関する第２品質を推定するための品質モデルを用いて、前記第２画像における前記被写体に関する第２品質を推定し、前記推定された第２品質に基づいて、前記被写体データを解析に用いるか否かを決定する。

なお、上記各装置または方法を、コンピュータによって実現するコンピュータプログラム、およびそのコンピュータプログラムが格納されている、コンピュータ読み取り可能な非一時的記録媒体も、本開示の範疇に含まれる。

本開示によれば、少ない遅延量で、解析処理の精度を維持したまま出力するデータ量を削減することができる。

本開示の第１の実施の形態に係る画像処理システムの全体構成の一例を示す図である。第１の実施の形態に係る画像処理システムの一次解析装置の機能構成の一例を示す機能ブロック図である。第１の実施の形態における一次解析装置の被写体データ決定部の機能構成の一例を示す機能ブロック図である。第１の実施の形態における被写体データ決定部の記憶部に格納される決定履歴情報の一例を示す図である。第１の実施の形態における被写体データ決定部の記憶部に格納される状態モデルの一例を説明するための図である。第１の実施の形態における被写体データ決定部の記憶部に格納される品質モデルの一例を説明するための図である。第１の実施の形態における被写体データ決定部の推定部における推定処理の結果の一例を示す図である。第１の実施の形態における被写体データ決定部の記憶部に格納される状態モデルの他の一例を説明するための図である。第１の実施の形態における被写体データ決定部の記憶部に格納される品質モデルの他の一例を説明するための図である。第１の実施の形態における被写体データ決定部の推定部における推定処理の結果の他の一例を示す図である。第１の実施の形態における被写体データ決定部の決定部における決定処理の結果の一例を示す図である。第１の実施の形態における被写体データ決定部の決定部における決定処理の結果の他の一例を示す図である。第１の実施の形態における一次解析装置の処理の流れの一例を示すフローチャートである。第１の実施の形態における一次解析装置の被写体データ決定部の処理の流れの一例を示すフローチャートである。第１の実施の形態における被写体データ決定部が出力する出力データの一例を示す図である。第１の実施の形態における画像処理システムの構成の他の一例を示す図である。本開示の第２の実施の形態に係る映像解析装置の機能構成の一例を示す機能ブロック図である。第２の実施の形態に係る映像解析装置の処理の流れの一例を示すフローチャートである。本開示の各実施の形態を実現可能なコンピュータ（情報処理装置）のハードウェア構成を例示的に説明する図である。

＜第１の実施の形態＞
本開示の第１の実施の形態について図面を参照して詳細に説明する。図１は、本実施の形態に係る画像処理システム１の全体構成の一例を示す図である。図１に示す通り、本実施の形態に係る画像処理システム１は、一次解析装置１００と、映像配信装置２００と、二次解析装置３００と、表示装置４００とを含む。なお、画像処理システム１の構成は一例であり、図１に示す構成に限定されない。例えば、画像処理システム１は、図１に示す構成以外の装置を含んでもよい。

映像配信装置２００は、映像データを一次解析装置１００に配信する。映像配信装置２００は、被写体を撮像する、例えば、ビデオカメラや監視カメラ、ネットワークカメラ、インテリジェントカメラ等の撮像装置（撮像部）で実現される。映像配信装置２００は、撮像した映像データを、一次解析装置１００に配信する。

一次解析装置１００は、映像配信装置２００から受信した映像データから、二次解析装置３００が行う解析に対して有効なデータである有効データを決定するための処理を行う。一次解析装置１００については、図面を変えて後述する。一次解析装置１００は、決定した有効データに含まれる被写体の特徴量を抽出し、抽出した被写体の特徴量を二次解析装置３００に供給する。

二次解析装置３００は、一次解析装置１００から出力された、被写体の特徴量を用いて、解析を行う。二次解析装置３００が行う解析の種類は、特に限定されず、例えば、顔認証、車体認証等、が挙げられる。二次解析装置３００は、解析結果を表示装置４００に送信する。

表示装置４００は、二次解析装置３００における解析結果を表示部に表示する。表示装置４００は、例えば、液晶ディスプレイ等によって実現される。

図２は、本実施の形態に係る画像処理システム１の一次解析装置１００の機能構成の一例を示す機能ブロック図である。図２に示す通り、一次解析装置１００は、取得部１１０と、検出部１２０と、追跡部１３０と、被写体データ決定部１４０と、抽出部１５０と、送信部１６０とを備える。

取得部１１０は、一次解析装置１００に入力される映像データを取得する。なお、本実施の形態において、映像データは、複数のフレーム画像を含む動画像データであるとして説明を行うが、映像データは、複数のフレーム画像の夫々を表してもよい。

取得部１１０は、映像データを、映像配信装置２００から取得してもよいし、映像配信装置２００によって配信された映像データが記録された記録部から取得してもよい。取得部１１０は、取得した映像データを複数のフレーム画像に分割し、該フレーム画像を検出部１２０に供給する。

検出部１２０は、複数のフレーム画像の夫々から被写体を検出する。検出部１２０は、取得部１１０から供給されたフレーム画像を受け取る。検出部１２０は、受け取ったフレーム画像から、１つまたは複数の被写体を検出する。検出部１２０は、フレーム画像に被写体が含まれる場合、検出した被写体の該フレーム画像上における領域を被写体領域として該フレーム画像から抽出する。本実施の形態では、検出部１２０は、被写体領域の中心座標を、被写体領域の位置を表す位置情報とするが、位置情報は中心座標ではなく、例えば、被写体領域の左上の座標であってもよいし、その他の位置を表す座標であってもよい。なお、被写体領域の座標で表現される位置情報は、フレーム画像における被写体の位置を表しているため、被写体の位置を表す位置情報であると言える。また本実施の形態では、被写体領域の大きさを被写体の大きさであるとして説明を行う。

本実施の形態では、被写体は人物であり、検出部１２０が検出する被写体領域は人物の顔の領域であるとして説明を行う。なお、被写体領域は、人物全体の領域であってもよい。また、被写体は、人物以外の物体であってもよい。

検出部１２０は、更に、被写体の向きを検出してもよい。なお、被写体の検出方法および被写体の向きの検出方法は特に限定されず、任意の方法を採用してもよい。また、被写体領域の抽出方法は特に限定されず、任意の方法を採用してもよい。また、検出部１２０がフレーム画像から抽出する被写体領域の形状は、矩形であってもよいし、円形であってもよいし、その他の形状であってもよい。

このように、検出部１２０は、被写体の位置、該被写体の大きさ、および向きを、検出対象のフレーム画像における被写体の状態として検出する。

また、検出部１２０は、検出した被写体に関する品質（第１品質とも呼ぶ）を表す品質スコアを、抽出した被写体領域毎に算出する。被写体に関する品質とは、二次解析装置３００が行う解析の種類に応じて定められるものである。例えば、二次解析装置３００が顔認証を行う装置の場合、検出部１２０は、被写体領域の画像（被写体画像と呼ぶ）が顔認証に用いる特徴量がより多く抽出できるような画像であるほど、該被写体領域の品質がより高くなるように、品質スコアを算出する。また、二次解析装置３００が被写体全体の特徴点を用いて解析を行う装置の場合、検出部１２０は、被写体領域に被写体全体が含まれる場合に、該被写体領域の品質が被写体の一部が含まれる場合よりも高くなるように、品質スコアを算出する。また、検出部１２０は、フレーム画像に含まれる被写体の撮影時の条件やカメラパラメータに基づいて、品質スコアを算出してもよい。撮影時の条件とは、例えば、撮影時の明るさ、被写体との距離、時刻等、品質に関連する条件であればどのような条件であってもよい。つまり、検出部１２０は、フレーム画像における被写体の画質などを考慮した品質スコアを算出してもよい。なお、品質スコアの算出方法は特に限定されず、どのような方法を採用してもよい。

検出部１２０は、被写体を検出したフレーム画像を表すフレーム番号、被写体の状態（被写体の位置、被写体の大きさ、および被写体の向き）、被写体画像および品質スコアを関連付け、検出結果として出力する。検出結果は、図示されないメモリ等に被写体ごとに記憶されることが望ましい。なお、検出部１２０は、被写体画像の代わりにまたは被写体画像に加えて、該被写体画像の抽出元であるフレーム画像を出力してもよい。

追跡部１３０は、検出部１２０が出力した検出結果を受け取り、受け取った検出結果に含まれる被写体の状態を用いて、該被写体の追跡を行う。追跡部１３０は、検出結果に含まれるフレーム番号が表すフレーム画像よりも、メモリに記憶された過去のフレーム画像に含まれる被写体の位置、大きさおよび向きと、受け取った検出結果に含まれる被写体の位置、大きさおよび向きとを用いて、各フレーム画像に含まれる被写体同士が、同一の被写体か否かを判定することにより、被写体を追跡する。追跡部１３０は、同一の被写体であると判定した場合、被写体同士を対応付ける。追跡部１３０は、検出結果に含まれるフレーム番号が表すフレーム画像よりも過去のフレーム画像に含まれる被写体（過去の被写体と呼ぶ）と対応付けが行われた被写体に関連する検出結果に、過去の被写体と同様の被写体番号を付し、追跡結果として出力する。被写体番号は、被写体を識別するための番号である。なお、追跡部１３０は、過去の被写体と対応付けが行われなかった被写体に関連する検出結果には、新たな被写体番号を付し、追跡結果として出力する。なお、追跡部１３０が行う被写体の追跡方法は、特に限定されず、任意の方法を採用してもよい。

被写体データ決定部１４０は、追跡部１３０から追跡結果を受け取る。追跡結果は、上述した通り、互いに関連付けられた、被写体番号、フレーム番号、被写体の状態、被写体画像および品質スコアを含むため、被写体に関連する被写体データとも呼ぶ。被写体データ決定部１４０は、被写体番号ごとに、所定の時間幅（ウインドウと呼ぶ）に含まれる複数のフレーム画像の夫々に関連付けられた被写体の状態および品質スコアを参照し、解析に用いる被写体データを決定する。被写体データ決定部１４０の具体的な処理については図面を変えて説明する。被写体データ決定部１４０は、決定した被写体データを抽出部１５０に出力する。なお、被写体データ決定部１４０は、決定した被写体データのうち、被写体画像を抽出部１５０に出力してもよい。

被写体データ決定部１４０が決定する被写体データは、二次解析装置３００が行う解析に対して有効な有効データである。したがって、被写体データ決定部１４０は有効データを決定する処理を行うとも言える。

抽出部１５０は、被写体データ決定部１４０から出力された被写体データを受け取り、被写体データに含まれる該被写体画像から特徴量を抽出する。抽出部１５０が抽出する特徴量は、二次解析装置３００が行う解析に応じたものであればよく、特徴量の種類は特に限定されない。また、抽出部１５０が特徴量を抽出する方法は特に限定されず、任意の方法を採用してもよい。抽出部１５０は抽出した特徴量を送信部１６０に出力する。なお、抽出部１５０は、抽出した特徴量を、特徴量の抽出元である被写体画像を含む被写体データと共に送信部１６０に出力してもよい。

送信部１６０は、抽出部１５０から受け取った特徴量を二次解析装置３００に送信する。送信部１６０が送信する特徴量には、被写体データとして、被写体画像、該被写体画像に関連付けられた被写体番号、フレーム番号、被写体の状態および品質スコアの少なくとも何れかが関連付けられていてもよい。

図３は、本実施の形態における一次解析装置１００の被写体データ決定部１４０の機能構成の一例を示す機能ブロック図である。図３に示す通り、被写体データ決定部１４０は、選択部１４１と、第１決定部（出力候補決定部）１４２と、推定部１４３と、第２決定部１４４と、記憶部１４５とを備える。なお、記憶部１４５は、被写体データ決定部１４０とは別個の部材で構成されてもよい。

選択部１４１は、被写体データ決定部１４０に入力される被写体データ（追跡結果）を受け取る。選択部１４１は、ウインドウ内において同じ被写体番号を含む被写体データを互いに比較する。具体的には、選択部１４１は、ウインドウに含まれる複数のフレーム画像の夫々に含まれる被写体のうち、同じ被写体番号に関連付けられた品質スコアを比較し、最も高い品質スコアを含む被写体データを選択する。選択部１４１は、例えば、１秒ごとに、１秒間に含まれる複数のフレーム画像の夫々に含まれる被写体画像のうち、最も品質スコアが高い被写体画像を、被写体番号ごとに選択する。

例えば、ウインドウサイズが１秒であり、１秒間には１０枚のフレーム画像が含まれるとする。そして、フレーム画像の夫々には一人の被写体が含まれ、この夫々の被写体は同じ被写体番号を有しているとする。この場合、選択部１４１は、１０枚のフレーム画像の夫々に含まれる被写体画像の夫々に関連付けられた品質スコアを比較し、最も高い品質スコアを含む被写体データを選択する。そして、選択部１４１は、選択した被写体データを選択結果として、第１決定部１４２に供給する。

選択部１４１は、ウインドウごとに被写体の被写体データを選択する選択処理を、被写体番号ごとに行う。これにより、あるウインドウに含まれる被写体が複数の場合、選択部１４１は、複数の被写体の夫々に関連する選択結果を出力する。なお、選択部１４１は、ウインドウを識別するウインドウ番号を選択結果に関連付けて出力してもよい。

なお、ウインドウサイズは、映像配信装置２００によって撮像された映像データを、表示装置４００が画面に出力するまでにかかる遅延量に応じて設定されるものであり、１秒に限定されない。

記憶部１４５は、決定履歴情報１４６、状態モデル１４７、品質モデル１４８および出力ポリシー１４９を記憶する。記憶部１４５は、この他に、被写体データ決定部１４０に含まれる各部が出力する出力データを記憶してもよい。決定履歴情報１４６、状態モデル１４７、品質モデル１４８および出力ポリシー１４９の夫々については、後述する。

第１決定部１４２は、選択結果に含まれる品質スコアに基づいて、該選択結果が、出力候補の被写体データか否かを決定する。第１決定部１４２は、選択結果を受け取る。選択結果は、あるウインドウに含まれる複数のフレーム画像の夫々に関連する被写体データ（追跡結果）のうち、最も高い品質スコアを含む被写体データである。

第１決定部１４２は、決定履歴情報１４６を参照して、選択結果である被写体データが出力候補の被写体データか否かを決定する。ここで、図４を参照して、決定履歴情報１４６について説明する。図４は、本実施の形態における被写体データ決定部１４０の記憶部１４５に格納される決定履歴情報１４６の一例を示す図である。決定履歴情報１４６は、図４に示す通り、被写体番号４１と、最高品質スコア４２とを含む。被写体番号４１は、被写体データに含まれる被写体番号と同様の番号であり、被写体を識別するための番号である。最高品質スコア４２は、後述する第２決定部１４４が過去に決定した、被写体番号４１を含む被写体データに含まれる品質スコアのうち、最も高い品質スコアを示す。決定履歴情報１４６は、後述する第２決定部１４４によって更新される。

第１決定部１４２は、決定履歴情報１４６を参照し、被写体データに含まれる品質スコアが、該被写体データに含まれる被写体番号と同じ番号の被写体番号４１に関連付けられた最高品質スコア４２よりも大きいか否かを判定する。第１決定部１４２は、被写体データに含まれる品質スコアが、最高品質スコア４２よりも大きい場合、該被写体データを出力候補として決定する。

一方、第１決定部１４２は、被写体データに含まれる品質スコアが、最高品質スコア４２以下の場合、該被写体データを出力しないと決定する。被写体データに含まれる品質スコアが、最高品質スコア４２以下の場合、該被写体データは過去に出力した被写体データ（過去の被写体データと呼ぶ）よりも品質が低いまたは同じ品質であることがわかる。過去の被写体データと同じ品質または過去の被写体データよりも低い品質の被写体データは、過去の被写体データよりも有効なデータとなる可能性が低い。第１決定部１４２は、このような過去の被写体データと同じ品質または過去の被写体データよりも低い品質の被写体データを出力しないと決定することにより、被写体データ決定部１４０が抽出部１５０に出力するデータ量を削減することができる。また、品質が良い過去の被写体データが出力されているため、入力された被写体データを出力しなくとも、被写体データに関連する被写体に対する解析の精度は高い状態で維持される。また、第１決定部１４２は、過去の被写体データの最高品質スコア４２と、入力された被写体データの品質スコアとの比較という少ない計算量で、出力候補の被写体データを決定するため、処理にかかる負荷を小さくすることができる。そのため、画像処理システム１は、映像配信装置２００が映像データを取得してから、表示装置４００に該映像データに関連する情報が表示されるまでの遅延量を少なくすることができる。

第１決定部１４２は、出力候補として決定した被写体データを推定部１４３に供給する。

推定部１４３は、第１決定部１４２から供給された出力候補である被写体データから、状態モデル１４７を用いて、被写体の次の状態を推定する。被写体の次の状態とは、入力される被写体データに関連する被写体の、被写体データの抽出元のフレーム画像（第１フレーム画像と呼ぶ）とは異なるフレーム画像（第２フレーム画像と呼ぶ）における被写体の位置および大きさである。第２フレーム画像は、第１フレーム画像よりも時間的に後に映像配信装置２００によって撮像される。なお、次の状態は、被写体の向きを含んでもよい。上述した通り、選択部１４１によって、あるウインドウ内からは１つのフレーム画像が選択されるため、第１フレーム画像と第２フレーム画像とは異なるウインドウに含まれる。

状態モデル１４７は、上記被写体の次の状態を推定するためのモデルである。状態モデル１４７は、予めユーザによって生成されたものであってもよいし、学習データを用いて学習した結果であってもよい。例えば、フレーム画像を所定の大きさのグリッドに分割し、学習データを用いて、あるグリッドの位置に存在する被写体が、該被写体が含まれるフレーム画像よりも時間的に後のフレーム画像において、どの位置のグリッドに存在するかを計数し、グリッドごとに確率を算出することにより、状態モデル１４７を生成してもよい。また、状態モデル１４７はどのような形式で表現されてもよく、数式であってもよいし、表形式であってもよい。また、状態モデル１４７は、確率分布を用いたものであってもよい。つまり、状態モデル１４７は、推定部１４３によって推定される次の状態が確率分布に応じた状態になるようなモデルであってもよい。

本実施の形態では、状態モデル１４７は、次の状態として次の位置および次の大きさを算出するための数式であるとする。

例えば、フレーム画像の左上端を原点とし、フレーム画像の横軸をＸ軸、縦軸をＹ軸とした場合において、映像配信装置２００が、被写体の移動方向がＹ軸正方向となるような場所を撮像していると仮定する。この場合において映像配信装置２００がＹ軸正方向側に設置されているとした場合、Ｙ軸正方向側に移動する（映像配信装置２００に近づく）と、映像配信装置２００が撮像するフレーム画像上に含まれる被写体の大きさが大きくなる。

このような場合において、例えば、図５に示すような状態モデル１４７が記憶部１４５に格納されているとする。図５において、Ｙｃｕｒは現在の被写体の位置のＹ座標であり、入力された被写体データに含まれる被写体の位置のＹ座標を示す。また、Ｙｎｅｘｔは、推定部１４３によって推定される被写体の位置であり、第２フレーム画像上において、被写体が存在すると推定される位置（例えば、推定される被写体領域の中心座標）のＹ座標を示す。Ｓｃｕｒは、現在の被写体の大きさであり、入力された被写体データに含まれる被写体領域の大きさを示す。また、Ｓｎｅｘｔは、推定部１４３によって推定される被写体の大きさであり、第２フレーム画像上において、推定される被写体領域の大きさを示す。

推定部１４３は、このような状態モデル１４７と第１決定部１４２から供給された被写体データと、を用いて、第２フレーム画像における被写体の状態（位置（Ｙｎｅｘｔ）および大きさ（Ｓｎｅｘｔ））を推定する。

なお、推定部１４３が推定する被写体の位置は、一カ所に限定されず、所定の幅を有した範囲内であってもよい。例えば、図５に示す状態モデル１４７を用いて推定されるＹｎｅｘｔは、Ｙｃｕｒ＋１５０からＹｃｕｒ＋２５０までの位置であればよい。

そして、推定部１４３は、品質モデルを用いて、推定した被写体の状態と被写体データに含まれる品質スコアとから、推定した被写体の状態に関連する第２フレーム画像上における該被写体に関する第２品質を推定する。

品質モデル１４８は、上記被写体の次の品質(第２品質)を推定するためのモデルである。品質モデル１４８は状態モデル１４７と同様に、予めユーザによって生成されたものであってもよいし、学習データを用いて学習した結果であってもよい。また、品質モデル１４８はどのような形式で表現されてもよく、数式であってもよいし、表形式であってもよい。また、品質モデル１４８は、確率分布を用いたものであってもよい。本実施の形態では、品質モデル１４８は、第２品質を算出するための数式であるとする。

図６は、品質モデル１４８の一例を説明するための図である。図６に示すような品質モデル１４８が記憶部１４５に格納されているとする。図６において、Ｙｍａｘは、フレーム画像のＹ座標の最大値であり、例えば、１０８０である。また、Ｓｍａｘは検出される被写体画像の最大の大きさであり、例えば、４００×４００（つまり、１６００００）であるとする。なお、Ｓｍａｘは、Ｙｍａｘやフレーム画像が撮像される位置に応じて変更される値であってもよい。Ｑｃｕｒは、現在の被写体に関する品質スコア（第１品質）であり、入力された被写体データに含まれる品質スコアを示す。また、Ｑｎｅｘｔは、推定部１４３によって推定される被写体に関する品質スコア（第２品質）であり、第２フレーム画像上における被写体に関する品質スコアを示す。

被写体の大きさと、被写体の品質とは、比例関係になる可能性が多い。よって、推定部１４３は、品質モデル１４８を用いて、推定された被写体の大きさに応じて、品質スコアＱｎｅｘｔを推定する。なお、例えば、フレーム画像のサイズが１９２０×１０８０であり、被写体領域の中心座標のＹ座標が０に近い値およびＹ座標が１０８０に近い値の場合、該被写体領域には被写体の顔全体が含まれない可能性が高い。このような被写体画像から抽出された特徴量は、解析を行う対象として、有効ではない可能性が高い。よって、このような被写体画像に関連する品質スコアが低くなるように、推定部１４３は、品質スコアＱｎｅｘｔを推定してもよい。

図７は、本実施の形態における推定部１４３の推定処理の結果の一例を示す図である。図７では、説明の便宜上、同じ被写体番号７４が含まれる被写体データのうち、被写体の位置７１、大きさ７２および品質スコア（第１品質）７３を併せて記載している。推定結果７０は、被写体番号７４、位置７５、大きさ７６および品質スコア７７を含む。

例えば、推定部１４３は、被写体番号７４が「１」の大きさ（Ｓｃｕｒ）７２である１００×１００から、図５に示す状態モデル１４７の「Ｓｎｅｘｔ＝Ｓｃｕｒ×２」を用いて、Ｓｎｅｘｔ＝２００００≒１４１×１４１を算出することにより、被写体の次のフレーム画像における大きさである大きさ７６を推定する。このように、推定部１４３は、Ｓｎｅｘｔを、近似値を用いて「Ｘ軸方向の大きさ×Ｙ軸方向の大きさ」で表現される値で推定してもよいし、状態モデル１４７を用いて得られる値（上述の場合、２００００）で推定してもよい。

なお、上述した通り、推定される位置（Ｙｎｅｘｔ）が図７に示す通り、所定の幅を有した範囲内である場合、位置によって複数の品質スコアが算出される可能性がある。図７に示す被写体番号７４が「３」の被写体に関する品質スコア７７は、「０．１」および「１．０」であり、夫々、７０％および３０％の割合で算出される。このような場合、推定部１４３は、算出される割合が高い方の品質スコア７７を推定結果７０に含めてもよいし、割合と共に両方の品質スコア７７を推定結果７０に含めてもよいし、品質スコア７７が低い方を推定結果７０に含めてもよい。

また、推定部１４３は、品質スコアＱｃｕｒと品質スコアＱｎｅｘｔとを用いて、推定される品質スコアＱｎｅｘｔによって示される第２品質が第１品質よりも向上する（品質スコアＱｎｅｘｔが品質スコアＱｃｕｒよりも高くなる）可能性を示す尤度を算出してもよい。例えば、図７に示す被写体番号７４が「３」の被写体に関する品質スコア７７は、「０．１」および「１．０」であり、夫々、７０％および３０％の割合であるため、推定部１４３は上記尤度を０．３と算出してもよい。

推定部１４３は、このような推定結果７０を、被写体番号７４に関連する被写体データと共に、第２決定部１４４に供給する。なお、推定部１４３は、推定結果７０のうち、推定した品質スコア７７と被写体番号７４とを、該被写体番号７４に関連する被写体データと共に、第２決定部１４４に供給してもよい。

なお、状態モデル１４７および品質モデル１４８は、映像配信装置２００が映像データを取得する場所や時間帯に応じて変化するものであってもよい。例えば、被写体の移動方向がＹ軸の所定の位置（例えば、Ｙ＝８００）までは、Ｙ軸正方向であり、Ｙ軸の所定の位置からはＸ軸正方向になるような場所を、映像配信装置２００が撮像していると仮定する。この場合において映像配信装置２００がＹ軸正方向側に設置されているとした場合、所定の位置までは、被写体がＹ軸正方向側に移動する（映像配信装置２００に近づく）と、映像配信装置２００が撮像するフレーム画像上に含まれる被写体の大きさが大きくなり、所定の位置からは被写体の向きがＸ軸正方向側を向く。

このような場合において、例えば、図８に示すような状態モデル１４７が記憶部１４５に格納されているとする。図８における、Ｙｃｕｒ、Ｙｎｅｘｔ、ＳｃｕｒおよびＳｎｅｘｔは、図５と同様の値を示す。Ｆは、被写体の正面度合いを表す。被写体の向きは、例えば、被写体が映像を撮像する映像配信装置２００に正対している場合を基準としたときの、被写体の、水平方向の回転の度合いを表す。例えば、被写体を人物の顔とした場合、人物の顔が映像配信装置２００に正対している場合を０度とし、人物の顔の垂直方向（例えば、額の中央部分から鼻の中央を通過し顎に至るまでの線分）を軸にしたときの、人物の顔の左回りの回転角を、被写体の向きとする。人物の顔の左半分を捉える角度が−９０度、人物の顔の右半分を捉える角度が９０度となる。なお、向きは、被写体が映像配信装置２００に正対している場合を基準したときの、被写体の、垂直方向の回転の度合い、撮影装置の光軸に対する回転方向の回転の度合い、あるいはそれらの回転の度合いの組合せであってもよい。なお、本実施の形態では、被写体の向きから得られる正面度合いＦは、向きが０度の場合１．０とし、向きが−９０度および９０度を０．５として算出される値であるとする。

推定部１４３は、図８に示すような状態モデル１４７と第１決定部１４２から供給された被写体データとを用いて、第２フレーム画像における被写体の状態（位置（Ｙｎｅｘｔ）、大きさ（Ｓｎｅｘｔ）および正面度合い（Ｆ））を推定してもよい。なお、以降の説明において、推定部１４３が推定する被写体の向きとは、正面度合いＦを示すとする。

そして、推定部１４３は、図９に示すような品質モデル１４８を用いて、推定した被写体の状態と被写体データに含まれる品質スコアとから、推定した被写体の状態に関連する第２フレーム画像上における該被写体に関する第２品質を推定する。図９における、Ｓｍａｘ、Ｑｃｕｒ、およびＱｎｅｘｔは、図６と同様の値を示す。

例えば、二次解析装置３００が顔画像から得られる特徴量を用いて顔認証を行う場合、正面を向いた顔画像の方が、左右を向いた顔画像よりも認証精度が高くなる。また、左右を向いた顔画像からは顔認証に用いる特徴量が十分に抽出できない可能性がある。よって、図９に示す品質モデル１４８は、正面度合いＦが所定の閾値（図９の場合は０．７）以下の場合、低い品質スコアが推定されるように、設定されている。

なお、図９では、品質モデル１４８は、推定した被写体の状態のうち、推定した向きのみを用いて品質スコアを推定するためのモデルであるが、品質モデル１４８は、推定した位置および大きさを用いて品質スコアを推定するためのモデルであってもよい。

図１０は、本実施の形態における推定部１４３の推定処理の結果の他の一例を示す図である。図１０は、図７と同様に、同じ被写体番号７４が含まれる被写体データのうち、被写体の位置７１、大きさ７２および品質スコア（第１品質）７３を併せて記載している。推定結果７０は、被写体番号７４、位置７５、大きさ７６および品質スコア７７を含む。このように、推定部１４３は、図８に示す状態モデル１４７を用いて、被写体の次の状態として向きも推定し、図９に示す品質モデル１４８を用いて、推定した次の状態と被写体データの品質スコアとから図１０に示す推定結果７０を出力してもよい。このように、被写体の向きを考慮して、被写体の状態を推定することにより、推定された被写体の状態の精度を上げることができる。また、推定部１４３は、向きを考慮した品質スコアを推定することができる。

第２決定部１４４は、推定部１４３から、推定結果７０を、被写体番号７４に関連する被写体データと共に受け取る。第２決定部１４４は、推定結果７０に含まれる品質スコア７７に基づいて、推定結果７０に含まれる被写体番号７４と同じ被写体番号を含む被写体データを解析に用いるか否かを決定する。そして、第２決定部１４４は決定した被写体データに含まれる被写体番号と同じ番号の被写体番号４１の最高品質スコア４２を更新する。

第２決定部１４４は、記憶部１４５に格納された出力ポリシー１４９に基づいて、被写体データを解析に用いるか否かを決定する。

出力ポリシー１４９は、被写体データを解析に用いるか否かを決定するための方針を表すものである。出力ポリシー１４９は、例えば、「Ｑｎｅｘｔ＜＝Ｑｃｕｒの場合、被写体データを出力する」である。

図１１は、第１の実施の形態における被写体データ決定部１４０の第２決定部１４４における決定処理の結果を説明するための図である。決定処理の結果は、決定結果１１５として出力される。決定結果１１５は、被写体番号１１１毎且つウインドウ番号１１２毎に出力される。被写体番号１１１は、被写体データに含まれる被写体番号と同様の番号である。図１１は、被写体番号１１１が「１」の被写体データに対するウインドウごとの決定結果１１５の履歴を表す図である。

品質スコア１１３は、被写体データ決定部１４０に入力された被写体データに含まれる品質スコアであり、上述した第１品質（Ｑｃｕｒ）である。推定品質スコア１１４は、上述した第２品質（Ｑｎｅｘｔ）であり、推定部１４３によって推定された品質スコアである。

図１１に示す通り、ウインドウ番号１１２が「１」の品質スコア１１３は、推定品質スコア１１４よりも小さい値である。第２決定部１４４は、「Ｑｎｅｘｔ＜＝Ｑｃｕｒの場合、被写体データを出力する」という出力ポリシー１４９に基づいて、被写体データを解析に用いないと決定する。つまり、第２決定部１４４は、二次解析装置３００に被写体データを出力しないと決定する。よって、ウインドウ番号１１２が「１」に関連する決定結果１１５は、決定した結果を表す「出力しない」となる。

同様に、ウインドウ番号１１２が「２」〜「４」の夫々に関連する被写体データに対しても、第２決定部１４４は出力しないと決定する。

ウインドウ番号１１２が「５」の品質スコア１１３は、推定品質スコア１１４よりも大きい値である。よって、第２決定部１４４は、「Ｑｎｅｘｔ＜＝Ｑｃｕｒの場合、被写体データを出力する」という出力ポリシー１４９に基づいて、被写体データを出力すると決定する。

被写体データに関連する第１フレーム画像よりも時間的に後に撮像される第２フレーム画像上における被写体に関する品質（第２品質）が第１品質よりも高いと推定される場合、第２フレーム画像上から抽出された被写体領域（第２被写体データ）に関連するデータ（例えば、特徴量）は、第１フレーム画像上から抽出された被写体領域に関連するデータ（第１被写体データ）よりも有効なデータである可能性が高い。したがって、第１被写体データを解析に用い、第２被写体データを解析に用いなかった場合、第２被写体データを解析に用いた場合に比べ解析の精度が低下してしまう可能性がある。また、第１被写体データと第２被写体データとの両方を解析に用いる場合、被写体データ決定部１４０が出力する被写体データの量が増えるため、抽出部１５０における抽出処理の処理量が増え、遅延が大きくなってしまう可能性がある。

しかしながら、上述した通り、第１被写体データに関連する第１品質よりも第２被写体データに関連する第２品質の方が高いと推定される場合、第２決定部１４４は、第１被写体データを出力しない。よって、第２決定部１４４は、第１品質よりも高い品質である第２品質を有する第２被写体データを出力することができる。これにより、被写体データ決定部１４０は、解析処理の精度の維持したまま出力するデータ量を削減することができる。また、出力するデータ量を削減することにより、被写体データ決定部１４０は、処理における遅延量を少なくすることができる。

なお、例えば、図７の被写体番号７４が「３」の被写体に関する品質スコア７７のように、推定された品質スコア７７が割合と共に第２決定部１４４に供給された場合、第２決定部１４４は、値が小さい方の推定品質スコア１１４を用いて、被写体データを解析に用いるか否かを決定してもよいし、割合が大きい方の推定品質スコア１１４を用いて、被写体データを解析に用いるか否かを決定してもよい。また、推定部１４３から出力される推定結果７０に尤度が含まれる場合、第２決定部１４４は、尤度と所定の閾値とを比較し、比較結果と、出力ポリシー１４９とに基づいて、被写体データを解析に用いるか否かを決定してもよい。

なお出力ポリシー１４９は上述したものに限定されない。例えば、出力ポリシー１４９は、『「Ｑｎｅｘｔ＜＝Ｑｃｕｒの場合」または「Ｑｃｕｒ＞Ｑｐｍａｘ×１．１の場合」、被写体データを出力する』であってもよい。ここで、Ｑｐｍａｘは、過去に出力した被写体データの最高品質スコアであり、図４に示した最高品質スコア４２である。

この出力ポリシー１４９に基づいて第２決定部１４４が被写体データに対して決定した決定結果を図１２に示す。図１２は、本実施の形態における被写体データ決定部１４０の第２決定部１４４における決定処理の他の結果を説明するための図である。図１２と図１１との異なる点は、決定結果の欄である。図１２に示す決定結果１２５は、『「Ｑｎｅｘｔ＜＝Ｑｃｕｒの場合」または「Ｑｃｕｒ＞Ｑｐｍａｘ×１．１の場合」、被写体データを出力する』という出力ポリシー１４９に基づいて決定された結果である。これにより、図１２に示す通り、第２決定部１４４は、ウインドウ番号１１２が「１」に関連する被写体データ、ウインドウ番号１１２が「４」に関連する被写体データおよびウインドウ番号１１２が「５」に関連する被写体データを出力すると決定する。

これにより、第２決定部１４４は、過去に出力した被写体データの品質よりも、所定以上品質が向上している被写体データを、出力すると決定することができる。これにより、例えば、二次解析装置３００における解析に用いる有効なデータを一次解析装置１００が出力することができるため、解析処理の精度の低下を防ぐことができる。

図１３は、本実施の形態における一次解析装置１００の処理の流れの一例を示すフローチャートである。図１３に示す通り、取得部１１０が、映像データを取得する（ステップＳ１３１）。そして、検出部１２０が、映像データに含まれる複数のフレーム画像の夫々から被写体を検出する（ステップＳ１３２）。

その後、追跡部１３０が各フレーム画像に含まれる被写体同士が、同一の被写体か否かを判定することにより、被写体を追跡する（ステップＳ１３３）。そして、被写体データ決定部１４０が被写体データ決定処理を行う（ステップＳ１３４）。その後、抽出部１５０が、被写体データ決定処理において決定された被写体データに含まれる被写体画像から特徴量を抽出する（ステップＳ１３５）。そして、送信部１６０が、ステップＳ１３５において抽出された特徴量を二次解析装置３００に送信する（ステップＳ１３６）。

図１４は、図１３に示したステップＳ１３４の被写体データ決定処理の流れの一例を示すフローチャートである。図１４に示す通り、選択部１４１が、ウインドウ内に含まれる複数のフレーム画像の夫々に関連する被写体データのうち、最も品質スコアが高い被写体データを、被写体番号ごとに選択する（ステップＳ１４１）。

そして、第１決定部１４２が、選択された被写体データの品質スコアが、該被写体データの被写体番号と同じ番号の被写体番号４１に関連付けられた過去の品質スコアである最高品質スコア４２よりも大きいか否かを判定する（ステップＳ１４２）。そして、被写体データに含まれる品質スコアが、最高品質スコア４２以下の場合（ステップＳ１４２にてＮＯ）、処理を終了する。これにより、被写体データ決定部１４０から被写体データが出力されないため、上述したステップＳ１３５およびステップＳ１３６は行われない。

被写体データに含まれる品質スコアが、最高品質スコア４２よりも大きい場合（ステップＳ１４２にてＹＥＳ）、推定部１４３は、状態モデル１４７を用いて、被写体データから第２フレーム画像における被写体の状態を推定する（ステップＳ１４３）。

そして、推定部１４３は、品質モデル１４８を用いて、推定した被写体の状態と、被写体データに含まれる第１品質とから、第２品質を推定する（ステップＳ１４４）。

そして、第２決定部１４４は、第２品質に基づいて、出力ポリシー１４９を参照し、入力された被写体データを解析に用いるか否かを決定する（ステップＳ１４５）。第２決定部１４４が入力された被写体データを解析に用いないと決定した場合（ステップＳ１４５にてＮＯ）、処理を終了する。第２決定部１４４が入力された被写体データを解析に用いると決定した場合（ステップＳ１４５にてＹＥＳ）、第２決定部１４４は、決定した被写体データを抽出部１５０に出力する（ステップＳ１４６）。そして、第２決定部１４４は、決定履歴情報１４６の最高品質スコア４２を更新する（ステップＳ１４７）。

以上により、被写体データ決定部１４０は、ステップＳ１３４の処理を終了する。

図１５は、本実施の形態における被写体データ決定部１４０が出力する出力データ１５１の一例を示す図である。図１５に示す通り、出力データ１５１は、被写体データに含まれる、被写体番号１５２、フレーム番号１５３、被写体の位置１５５、被写体の大きさ１５６、被写体の向き１５７、被写体画像１５８および品質スコア１５９を含む。なお、出力データ１５１は、ウインドウ番号１５４を含んでもよい。被写体データ決定部１４０は、図１５に示すような被写体画像１５８を含む出力データ１５１を出力する。これにより、抽出部１５０は、出力データ１５１に含まれる被写体画像１５８から特徴量を抽出することができる。

以上のように、本実施の形態における一次解析装置１００の被写体データ決定部１４０は、推定部１４３が入力された被写体データから状態モデル１４７を用いて得られる第２画像上における被写体の状態および被写体データに含まれる第１品質から、品質モデル１４８を用いて、第２画像上における被写体に関する第２品質を推定する。そして、第２決定部１４４が推定された第２品質に基づいて、解析に用いる被写体データを決定する。これにより、被写体データ決定部１４０は、例えば、第１品質が推定された第２品質と同じまたは第２品質よりも高い品質を有する場合に、該第１品質に関連する被写体データを解析に用いると決定し、第１品質が推定された第２品質よりも低い品質を有する場合に、該第１品質に関連する被写体データを解析に用いないと決定する。つまり、被写体データ決定部１４０は、第１品質よりも、入力された被写体データに関連する第１画像よりも時間的に後に撮像された第２画像から抽出された被写体データに関連する品質の方が高いと推定される場合、入力された被写体データを解析に用いないと決定する。これにより、被写体データ決定部１４０は、後から入力される被写体データよりも品質が低い被写体データを出力しないため、出力するデータ量を削減することができる。よって、一次解析装置１００によるデータ処理による遅延量を少なくすることができる。また、被写体データの第１品質が第２画像から抽出された被写体データに関連する品質以上の場合に、第２決定部１４４は、被写体データを入力された被写体データを解析に用いると決定する。これにより、解析処理の精度を維持することができる。

例えば、画像処理システム１が、店舗に侵入した不審者を特定するシステムであるとする。この場合、映像配信装置２００が映像データを撮像してから表示装置４００に特定された不審者に関する情報を表示するまでにかかる時間が少ない方が好ましい。本実施の形態に係る一次解析装置１００によれば、二次解析装置３００による解析処理の精度を維持したままで、被写体データ決定部１４０が出力するデータ量を削減することができるため、表示装置４００は、映像配信装置２００が取得した映像データから特定された不審者に関する情報をほぼリアルタイムで表示することができる。また、二次解析装置３００による解析処理の精度が維持されているため、画像処理システム１は、不審者の侵入を好適に検知することができる。

なお、本実施の形態では、図１に示す通り、画像処理システム１に含まれる各装置が夫々別の装置であることについて説明したが、画像処理システム１の各装置の構成はこれに限定されない。画像処理システム１に含まれる一次解析装置１００、映像配信装置２００、二次解析装置３００および表示装置４００は、全てが一体となっていてもよいし、組み合わせられてもよい。

図１６は、本実施の形態における画像処理システム１の構成の他の一例を示す図である。図１６に示す通り、画像処理システム１に含まれる一次解析装置１００、映像配信装置２００および二次解析装置３００は、撮像装置５００として実装されてもよい。撮像装置５００は、例えば、インテリジェントカメラやネットワークカメラと呼ばれる撮像装置である。なお、撮像装置５００は、一次解析装置１００と映像配信装置２００とを含む構成であってもよい。この場合、二次解析装置３００と表示装置４００とは一体形成された装置であってもよいし、別々の装置であってもよい。

撮像装置５００に含まれる映像配信装置２００は、例えば、ＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）センサ、ＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）センサを用いて、撮像処理を行い、複数のフレームを含む映像データを生成する撮像部である。そして、映像配信装置２００は、生成した映像データを一次解析装置１００に供給する。これにより、一次解析装置１００は、映像データから有効データを抽出することができる。なお、この場合、取得部１１０は、映像配信装置２００と一体形成されてもよい。このように、一次解析装置１００と、映像配信装置２００とは、一体となって実装されている場合、撮像した映像データを、該映像データに対する処理を撮像した撮像装置５００自身で行うことができる。このような構成であっても、画像処理システム１は、上述した効果を得ることができる。

＜第２の実施の形態＞
本開示の第２の実施の形態について、図面を参照して説明する。本実施の形態は、本開示の課題を解決する最小の構成について説明する。

図１７は、本実施の形態に係る映像解析装置２の機能構成の一例を示す機能ブロック図である。映像解析装置２は、第１の実施の形態における被写体データ決定部１４０に相当する機能を有する。

映像解析装置２は、図１７に示す通り、推定部３と、決定部４とを備える。推定部３は、上述した第１の実施の形態における推定部１４３の機能を有する。推定部３は、状態モデルを用いて入力される被写体データから得られる被写体の状態と、第１品質とから、品質モデルを用いて、第２品質を推定する。被写体データは、映像解析装置２に入力される、被写体に関連するデータであり、例えば、第１画像における被写体の位置および大きさ、第１画像における被写体に関する第１品質が含まれる。第１品質および第２品質は、解析処理に対して有効なデータであることを表す指標であり、例えば、被写体の位置、大きさ、向き、該被写体に対する撮影時の条件などに応じて求められる指標である。

状態モデルは第２画像上における被写体の位置および大きさを推定するためのモデルである。第１画像と第２画像とは異なる画像である。例えば、第２画像は第１画像よりも時間的に後に撮像された画像である。品質モデルは、第２画像における被写体に関する第２品質を推定するためのモデルである。

決定部４は、上述した第１の実施の形態における第２決定部１４４の機能を有する。決定部４は、推定された第２品質に基づいて、被写体データを解析に用いるか否かを決定する。例えば、決定部４は、第２品質が第１品質と同じまたは第１品質よりも低い品質を示す場合、被写体データを解析に用いると決定し、第２品質が第１品質よりも高い品質を示す場合、第１画像データを解析に用いないと決定する。

図１８は、本実施の形態に係る映像解析装置２の処理の流れの一例を示すフローチャートである。図１８に示す通り、映像解析装置２の推定部３が、第２画像における被写体の状態および第１品質から、品質モデルを用いて第２画像における被写体に関する第２品質を推定する（ステップＳ１）。上述した通り、第２画像は、第１画像とは異なる画像である。第２画像は、例えば、第１画像よりも後に取得される。また、第２画像における被写体の状態は、第２画像における、被写体の位置および大きさであり、状態モデルを用いて推定される。品質モデルは、第２画像における被写体に関する第２品質を推定するためのモデルである。

その後、決定部４が、ステップＳ１において推定された第２品質に基づいて、被写体データを解析に用いるか否かを決定する。

以上により、本実施の形態に係る映像解析装置２は、少ない遅延量で、解析処理の精度の維持したまま出力するデータ量を削減することができる。なぜならば、決定部が、推定部３によって推定された第２品質に基づいて、解析に用いる被写体データを決定するからである。これにより、映像解析装置２は、例えば、第１品質が推定された第２品質と同じまたは第２品質よりも高い品質を有する場合に、該第１品質に関連する被写体データを解析に用いると決定し、第１品質が推定された第２品質よりも低い品質を有する場合に、該第１品質に関連する被写体データを解析に用いないと決定することができる。これにより、第１品質よりも、入力された被写体データに関連する第１画像よりも時間的に後に撮像された第２画像から抽出された被写体データに関連する品質の方が高いと推定される場合、入力された被写体データを解析に用いないと決定する。よって、後から入力される被写体データよりも品質が低い被写体データを出力しないため、出力するデータ量を削減することができる。よって、映像解析装置２によるデータ処理による遅延量を少なくすることができる。また、被写体データの第１品質が第２画像から抽出された被写体データに関連する品質以上の場合に、決定部４は、被写体データを入力された被写体データを解析に用いると決定する。これにより、解析処理の精度を維持することができる。

（ハードウェア構成について）
本開示の各実施形態において、一次解析装置１００および映像解析装置２の各構成要素、並びに、一次解析装置１００の被写体データ決定部１４０の各構成要素は、機能単位のブロックを示している。上記各構成要素の一部又は全部は、例えば図１９に示すような情報処理装置９００とプログラムとの任意の組み合わせにより実現される。図１９は、各装置の各構成要素を実現する情報処理装置９００のハードウェア構成の一例を示すブロック図である。情報処理装置９００は、一例として、以下のような構成を含む。

・ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１
・ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２
・ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３
・ＲＡＭ９０３にロードされるプログラム９０４
・プログラム９０４を格納する記憶装置９０５
・記録媒体９０６の読み書きを行うドライブ装置９０７
・通信ネットワーク９０９と接続する通信インタフェース９０８
・データの入出力を行う入出力インタフェース９１０
・各構成要素を接続するバス９１１
一次解析装置１００および映像解析装置２の各構成要素、並びに、一次解析装置１００の被写体データ決定部１４０の各構成要素は、これらの機能を実現するプログラム９０４をＣＰＵ９０１が取得して実行することで実現される。各構成要素の機能を実現するプログラム９０４は、例えば、予め記憶装置９０５やＲＯＭ９０２に格納されており、必要に応じてＣＰＵ９０１がＲＡＭ９０３にロードして実行される。なお、プログラム９０４は、通信ネットワーク９０９を介してＣＰＵ９０１に供給されてもよいし、予め記録媒体９０６に格納されており、ドライブ装置９０７が当該プログラムを読み出してＣＰＵ９０１に供給してもよい。

一次解析装置１００および映像解析装置２の実現方法には、様々な変形例がある。例えば、各装置は、構成要素毎にそれぞれ別個の情報処理装置９００とプログラムとの任意の組み合わせにより実現されてもよい。また、各装置が備える複数の構成要素が、一つの情報処理装置９００とプログラムとの任意の組み合わせにより実現されてもよい。

また、各装置の各構成要素の一部又は全部は、その他の汎用または専用の回路、プロセッサ等やこれらの組み合わせによって実現される。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。

各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。

各装置の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

なお、上述した各実施の形態は、本開示の好適な実施の形態であり、上記各実施の形態にのみ本開示の範囲を限定するものではなく、本開示の要旨を逸脱しない範囲において当業者が上記各実施の形態の修正や代用を行い、種々の変更を施した形態を構築することが可能である。

１画像処理システム
２映像解析装置
３推定部
４決定部
１００一次解析装置
１１０取得部
１２０検出部
１３０追跡部
１４０被写体データ決定部
１４１選択部
１４２第１決定部
１４３推定部
１４４第２決定部
１４５記憶部
１４６決定履歴情報
１４７状態モデル
１４８品質モデル
１４９出力ポリシー
１５０抽出部
１６０送信部
２００映像配信装置
３００二次解析装置
４００表示装置
５００撮像装置

Claims

入力される被写体に関連する被写体データから前記被写体の位置および大きさを推定するための状態モデルを用いて得られる、前記被写体データに関連する第１画像とは異なる第２画像における前記被写体の状態、および、前記被写体データに関連する前記被写体に関する第１品質から、前記被写体に関する第２品質を推定するための品質モデルを用いて、前記第２画像における前記被写体に関する第２品質を推定する推定手段と、
前記推定された第２品質に基づいて、前記被写体データを解析に用いるか否かを決定する決定手段と、
を備える映像解析装置。
前記状態モデルは、前記被写体の位置、大きさおよび向きを推定するためのモデルであり、
前記推定手段は、前記第２画像における前記被写体の位置、大きさおよび向きの少なくとも何れかに基づいて、前記第２品質を推定する、
請求項１に記載の映像解析装置。
前記決定手段は、前記第１品質が前記推定された第２品質がよりも高い品質である場合、前記被写体データを解析に用いると決定する、
請求項１または２に記載の映像解析装置。
前記決定手段は、更に、前記第１品質が、前記入力された被写体データを解析に用いるか否かを決定するより前に該決定手段が解析に用いると決定した被写体データに関連する品質よりも所定の値以上高い品質である場合に、前記入力された被写体データを解析に用いると決定する、
請求項３に記載の映像解析装置。
前記第１品質が、前記入力された被写体データを解析に用いるか否かを決定するより前に前記決定手段が解析に用いると決定した被写体データに関連する品質よりも高い品質の場合、前記入力された被写体データを、解析に用いる出力候補の被写体データとして決定する出力候補決定手段を更に備え、
前記推定手段は、前記出力候補の被写体データから得られる前記被写体の状態および前記第１品質から、前記品質モデルを用いて、前記第２品質を推定し、
前記決定手段は、前記第２品質に基づいて、前記出力候補の被写体データを解析に用いる被写体データとして決定する、
請求項１から４の何れか１項に記載の映像解析装置。
入力される被写体に関連する被写体データから前記被写体の位置および大きさを推定するための状態モデルを用いて得られる、前記被写体データに関連する第１画像とは異なる第２画像における前記被写体の状態、および、前記被写体データに関連する前記被写体に関する第１品質から、前記被写体に関する第２品質を推定するための品質モデルを用いて、前記第２画像における前記被写体に関する第２品質を推定し、
前記推定された第２品質に基づいて、前記被写体データを解析に用いるか否かを決定する、映像解析方法。
前記状態モデルは、前記被写体の位置、大きさおよび向きを推定するためのモデルであり、
前記第２画像における前記被写体の位置、大きさおよび向きの少なくとも何れかに基づいて、前記第２品質を推定する、
請求項６に記載の映像解析方法。
入力される被写体に関連する被写体データから前記被写体の位置および大きさを推定するための状態モデルを用いて得られる、前記被写体データに関連する第１画像とは異なる第２画像における前記被写体の状態、および、前記被写体データに関連する前記被写体に関する第１品質から、前記被写体に関する第２品質を推定するための品質モデルを用いて、前記第２画像における前記被写体に関する第２品質を推定する処理と、
前記推定された第２品質に基づいて、前記被写体データを解析に用いるか否かを決定する処理と、
をコンピュータに実行させるプログラム。
前記状態モデルは、前記被写体の位置、大きさおよび向きを推定するためのモデルであり、
前記推定する処理は、前記第２画像における前記被写体の位置、大きさおよび向きの少なくとも何れかに基づいて、前記第２品質を推定する、
請求項８に記載のプログラム。