WO2020213570A1

WO2020213570A1 - 対象物画像抽出装置、方法、およびソフトウェアプログラム

Info

Publication number: WO2020213570A1
Application number: PCT/JP2020/016321
Authority: WO
Inventors: 秋山　靖浩; 英春服部
Original assignee: 株式会社日立産業制御ソリューションズ
Priority date: 2019-04-16
Filing date: 2020-04-13
Publication date: 2020-10-22
Also published as: JP7240940B2; JP2020177364A

Abstract

映像から深層学習に好適な対象物の画像を抽出する。　映像に含まれる画像のフレームから対象物の画像を抽出する対象物画像抽出装置は、映像の一部のフレームをキーフレームとし、キーフレームにおける対象物が表示された部分を含む矩形で指定された対象物領域の画像を取得するキーフレーム対象物指定部と、映像においてキーフレームで指定された対象物を追跡し、映像におけるキーフレームでないフレームである中間フレームの対象物が表示された部分を含む矩形の対象物領域の画像を抽出する中間フレーム画像抽出部と、を有する。

Description

対象物画像抽出装置、方法、およびソフトウェアプログラム

　本発明は、深層学習に用いることを目的とする人物画像を映像から抽出する技術に関する。

　コンピュータビジョンの分野で深層学習を用いて画像から物体を認識する手法が注目されている。

　深層学習とは、人間が自然に行っている学習能力と同様の機能をコンピュータで実現しようとする手法のことである。深層学習には、従来のパタンマッチングなどの手法に比べて、特徴解析および特徴表現の柔軟性が高いことに加えて、検出の目標とする物体の特徴を人が定義しなくても良いこと等の優位性がある。

　一方、深層学習によって得られる識別モデルの識別精度は、学習時に使用する教師画像の量および品質から大きく影響を受ける。教師画像の数が少なければ、識別モデルは、学習で参照した教師画像に含まれる検出対象に酷似した物体のみにしか反応しないような検知率の低い識別モデルとなる傾向がある。教師画像の背景などに検出対象以外のノイズが多数映りこんでいた場合も、識別モデルの識別精度が低くなる傾向がある。

　このため、検出対象以外のノイズが少ない教師画像を効率良く自動抽出して効果的に識別モデルの深層学習に活用することを可能にする技術の開発が求められている。

　特許文献１には、ユーザが任意に指定したオブジェクト分類（人物など）に基づき、保有画像データベースから、指定したオブジェクト分類に該当するオブジェクトが含まれる画像群を抽出し、保存する技術が開示されている。

特開２００８－２９９６８１号公報

　特許文献１に開示された技術は、一般の映像群の中からユーザが任意に指定したオブジェクトを抽出し、その抽出結果をフレーム単位で返す画像抽出技術である。返されたフレームは、指定された種類のオブジェクト以外のノイズが背景として映りこんでいる可能性が高く、深層学習の教師データとして活用するには適さない可能性がある。

　本開示のひとつの目的は、深層学習に好適な対象物の画像を抽出することを可能にする技術を提供することである。

　ひとつの態様に係る対象物画像抽出装置は、映像に含まれる画像のフレームから対象物の画像を抽出する対象物画像抽出装置であって、前記映像の一部のフレームをキーフレームとし、前記キーフレームにおける対象物が表示された部分を含む矩形で指定された対象物領域の画像を取得するキーフレーム対象物指定部と、前記映像において前記キーフレームで指定された対象物を追跡し、前記映像における前記キーフレームでないフレームである中間フレームの前記対象物が表示された部分を含む矩形の対象物領域の画像を抽出する中間フレーム画像抽出部と、を有する。

　本開示によれば、深層学習に好適な対象物の画像を抽出できる。

本実施形態に係る教師画像抽出装置の構成例を示す図である。教師画像抽出装置の動作例を示す図である。キーフレームと中間フレームとの関係を説明するための図である。キーフレーム及び中間フレームから人物画像を抽出する例を示す図である。キーフレーム及び中間フレームから複数の人物画像を抽出する第１の例を示す図である。入力映像から抽出した人物画像と抽出画像セットとの関係を説明するための図である。キーフレーム及び中間フレームから複数の人物画像を抽出する第２の例を示す図である。中間フレーム画像抽出部及び人物領域特定部の詳細を示すブロック図である。歩行者処理部に含まれる領域ベクトルグルーピング部の動作例を説明するための図である。歩行者に対する人物領域の設定において見切れが生じる例を説明するための図であ。左足の先端位置を基準に人物領域を補正する例を示す図である。右足の先端位置を基準に人物領域を補正する例を示す図である。両足の先端位置を基準に人物領域を補正する例を示す図である。静止者処理部に含まれる微動ベクトルグルーピング部の動作例を示す図である。採用画像判定部の動作例を説明するための示す図である。採用画像判定部が参照する学習エラー率曲線の例を示す図である。教師画像抽出装置を含む教師画像抽出システムの第１例を示す図である。教師画像抽出装置を含む教師画像抽出システムの第２例を示す図である。

　以下、図面を参照して実施形態を説明する。

　図１は、本実施形態に係る教師画像抽出装置１０の構成例を示す図である。なお、教師画像抽出装置１０は、対象物の画像を抽出する対象物画像抽出装置の一例である。

　教師画像抽出装置１０は、キーフレーム人物指定部１０１、中間フレーム画像抽出部１０２、人物領域特定部１０３、採用画像判定部１０４、及び、教師画像保存部１０５を備える。

　キーフレーム人物指定部１０１は、入力された映像（動画）１００を構成する複数のフレームのうちのキーフレームにおける、抽出対象の人物の指定を受け付ける。キーフレームは、複数のフレームのうち、所定間隔毎に位置するフレームである。例えば、ユーザは、キーフレームに対して、抽出対象の人物が含まれるように、手動で矩形の領域を指定する。

　キーフレームの間隔は、任意に設定されてよい。キーフレームの間隔は、５秒または１０秒など、一定の間隔に設定されてよい。例えば、３０ｆｐｓの映像に対してキーフレームの間隔を５秒に設定した場合、５秒間のフレーム数は１５０枚（＝３０フレーム×５秒）である。そのうち、先頭の１枚をキーフレームと呼び、当該キーフレームに後続する１４９枚を中間フレームと呼ぶ。以下、キーフレームとそれに後続する中間フレームのセットを、キーフレームセットと呼んでもよい。

　キーフレームの間隔は、一定の間隔でなくてもよく、例えば、異なるキーフレームの間隔を組み合わせてもよい。また、映像全体における先頭のフレームのみをキーフレームとし、後続する残りのフレームを中間フレームとしてもよい。

　中間フレーム画像抽出部１０２は、キーフレームに後続する各中間フレームにおいて、当該キーフレームに対して指定された人物と同一人物を追跡する。そして、中間フレーム画像抽出部１０２は、各中間フレームから、当該同一人物を含む領域を特定し、その特定した領域の画像を抽出する。以下、人物を含む領域を「人物領域」と呼び、人物領域を抽出した（切り出した）画像を「人物画像」という。

　人物領域特定部１０３は、中間フレーム人部画像抽出部１０２と連携し、中間フレームにおける人物領域を特定する。例えば、人物領域特定部１０３は、抽出対象の人物の身体全体が含まれるように、人物領域を特定する。別言すると、人物領域特定部１０３は、抽出対象の人物の身体の一部がはみ出ないように、人物領域を特定する。

　採用画像判定部１０４は、中間フレーム画像抽出部１０２によって抽出された人物画像を、人物識別モデルの深層学習用の教師画像として採用するか否かを判定する。例えば、採用画像判定部１０４は、抽出された人物画像を、仮に人物識別モデルの深層学習の教師画像として用いた場合に当該人物識別モデルの精度向上が見込めるか否かについて、学習エラー率（テストエラー率）に基づいて判定する。そして、採用画像判定部１０４は、精度向上が見込めると判定した人物画像を、人物識別モデルの学習用の教師画像として採用する。

　教師画像保存部１０５は、採用画像判定部１０４において採用された人物画像を、人物識別モデルの学習ための教師画像１０６として保存する。教師画像保存部１０５は、中間フレームから抽出された人物画像に限らず、キーフレームに対して指定された領域から抽出された人物画像も教師画像として保存してよい。

　図２は、教師画像抽出装置１０の動作例を示す図である。

　ユーザは、教師画像抽出装置１０に対して、人物画像の抽出に用いる映像（動画）１００を入力する。入力される映像１００は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）などの記録媒体に格納されたファイルであってよい。又は、入力される映像１００は、カメラで撮影中の映像、或いは、ネットワークを経由してストリーミング受信した映像であってもよい。又は、入力される映像１００は、１つの動画を構成する全てのフレームを展開した、複数の連続した画像ファイルの集合であってもよい。

　ユーザは、キーフレーム人物指定部１０１を通じて、入力された映像１００におけるキーフレームに対して抽出対象の人物を指定する。

　中間フレーム画像抽出部１０２は、人物領域特定部１０３と連携して、キーフレーム人物指定部１０１によって指定された人物と同一人物の画像（人物画像）を抽出し、抽出画像セット２０２として出力する。

　採用画像判定部１０４は、学習エラー率に基づいて、抽出画像セット２０２を、人物識別モデルの学習用の教師画像として採用するか否かを判定する。採用画像判定部１０４は、教師画像として採用すると判定した抽出画像セットを、教師画像セット２０３として出力する。

　教師画像セット２０３は、人物識別モデルの学習用の教師画像として用いられる。なお、人物識別モデルの学習は、人物識別モデルを新たに生成するための学習と、生成済みの人物識別モデルの精度を向上させるための再学習と、の何れであってもよい。

　図３は、キーフレームと中間フレームとの関係を説明するための図である。なお、図３は、キーフレーム間隔３１２が６フレームの場合の例である。

　ユーザは、マウス等を操作して、キーフレーム３００内の人物３０８を囲む人物領域３１０を指定する。

　このように、ユーザが、キーフレーム３００に対して人物３０８を囲む人物領域３１０を指定することにより、キーフレームに後続する中間フレームにおける、同一人物の追跡精度及び画像抽出精度が向上する。すなわち、教師画像抽出装置１０は、ユーザからのキーフレームに対する人物領域の指定を受け付けるキーフレーム人物指定部１０１と、各中間フレームから自動的に人物画像を抽出する中間フレーム画像抽出部１０２との連携により、入力された映像１００から、高品質な人物の教師画像を大量に取得できる。

　なお、キーフレーム間隔が広い場合には、キーフレームに存在しない人物が途中の中間フレームから新たに出現する場合がある。このように、途中の中間フレームから新たに出現する人物は、中間フレーム画像抽出部１０２に含まれる動き推定人物検出部６０１（図８参照）によって検出されてよい。

　また、キーフレームに対する人物領域の指定は、上述した手動の場合に限られない。例えば、キーフレーム内の人物を、動き推定人物検出部６０１と同様の処理によって自動的に検出してもよい。なお、動き推定人物抽出部６０１の詳細については後述する。

　図４は、キーフレーム及び中間フレームから人物画像を抽出する例を示す図である。

　ユーザは、キーフレーム３１３に対して、人物３１５を囲む人物領域３１６を指定する。この場合、中間フレーム画像抽出部１０２は、キーフレームに対して指定された人物領域３１６を基点に、後続する中間フレーム３１４から、人物３１５と同一人物３１７を自動的に追跡し、同一人物３１７を囲む人物領域３１８を特定する。そして、中間フレーム画像抽出部１０２は、特定した人物領域３１８から人物画像を抽出する。

　図５は、キーフレーム及び中間フレームから複数の人物画像を抽出する第１の例を示す図である。

　ユーザは、キーフレーム３１９に対して、各人物３２１～３２３を指定する。中間フレーム画像抽出部１０２は、キーフレームに対して指定された各人物３２１～３２３を基点に、後続の中間フレーム３２０の各同一人物を自動的に追跡し、各同一人物を囲む人物領域３２４～３２６を特定する。そして、中間フレーム画像抽出部１０２は、特定した各人物領域３２４～３２６から人物画像を抽出する。

　図６は、入力映像から抽出した人物画像と抽出画像セットとの関係を説明するための図である。

　図６に示すように、中間フレーム画像抽出部１０２は、中間フレーム４０１～４０５、４０７から複数の人物画像４０９～４１３、４１５を自動的に抽出し、記録媒体に、教師画像セット２０２として保存する。

　また、中間フレーム画像抽出部１０２は、キーフレーム４００、４０６に対して指定された人物画像４０８、４１４も、中間フレーム４０１～４０５、４０７から抽出した人物画像４０９～４１３、４１５と共に保存する。

　図７は、キーフレーム及び中間フレームから複数の人物画像を抽出する第２の例を示す図である。

　図５を参照して説明した第１の例は、キーフレーム及び中間フレームから、フレーム毎に、複数の人物を抽出する例であった。これに対して、図７を参照して説明する第２の例は、キーフレームに対して指定された人物毎に、後続する中間フレームから同一人物を追跡及び抽出する例である。これにより、同一人物をより高い精度で抽出でき得る。

　図７に示すように、キーフレーム５００内の３人の人物５０３、５０６、５０９の各々を基点に、後続の中間フレーム５０１、５０２から、同一人物の人物画像を追跡及び抽出する。

　例えば、キーフレーム５００の人物５０３を基準に同一人物の追跡を行い、１番目の中間フレーム５０１から同一人物５０４の人物画像を抽出し、２番目の中間フレーム５０２から同一人物５０５の人物画像を抽出する。

　次に、キーフレーム５００の人物画像５０６を基準に同一人物の追跡を行い、１番目の中間フレーム５０１から同一人物５０７の人物画像を抽出し、２番目の中間フレーム５０２から同一人物５０８の人物画像を抽出する。

　次に、キーフレーム５００の人物画像５０９を基準に同一人物の追跡を行い、１番目の中間フレーム５０１から同一人物５１０の人物画像を抽出し、２番目の中間フレーム５０２から同一人物５１１の人物画像を抽出する。

　図８は、中間フレーム画像抽出部１０２及び人物領域特定部１０３の詳細を示すブロック図である。

　中間フレーム画像抽出部１０２は、動き推定人物検出部６０１、ベクトル安定化フィルタ６０２、領域補正部６０９、フレーム間領域差判定部６１０、及び、人物画像切り出し部６１１を含む。

　人物領域特定部１０３は、領域ベクトルグルーピング部６０３、全身マップ生成部６０４、前後フレーム検証部６０５、微動ベクトルグルーピング部６０６、微動エッジ抽出部６０７、及び、時系列エッジ強度検証部６０８を含む。

　動き推定人物検出部６０１は、入力映像１００に対して、オプティカルフロー（Ｏｐｔｉｃａｌ　Ｆｌｏｗ）に基づく動きベクトル演算を行い、人物の動きベクトルを検出する。動きベクトルは、フレームを所定単位で区切った各ブロックのフレーム間でのシフトの移動方向と移動量を示すベクトルである。ブロックの大きさ（ブロック間の距離）は、システムの運用に合わせて適切に設定される。また、オプティカルフローは、２つの画像間でエッジなどの複数の特徴点がどう動いたのかを計算して、対象物体の動きを推定したり、対象物体を認識したりする画像処理技術の１つである。

　ベクトル安定化フィルタ６０２は、動き推定人物検出部６０１によって検出された人物の動きベクトルについてフレーム間のバラツキを抑制するためにカルマンフィルタ（Ｋａｌｍａｎ　ｆｉｌｔｅｒ）を用い、動きベクトルを安定化させる。カルマンフィルタは、誤差を含む複数個の観測データを用いて、未来の状態を予測する状態推定手法の１つである。カルマンフィルタは、予測誤差を一定範囲に収束させる性質を有するため、ベクトル安定化フィルタ６０２は、この性質を利用して、動きベクトルの出力を安定化させることができる。

　ベクトル安定化フィルタ６０２は、安定化後のベクトルを、予測誤差が比較的大きい（例えば所定の閾値以上）場合、歩行者処理部６１３へ出力し、予測誤差が比較的小さい（例えば所定の閾値未満）場合、静止者処理部６１４へ出力する。

　歩行者処理部６１３は、領域ベクトルグルーピング部６０３、及び、全身マップ生成部６０４を有する。

　領域ベクトルグルーピング部６０３は、ベクトル安定化フィルタ６０２によって安定化された複数の動きベクトルのうち、近接する同等の傾向の動きベクトルを束ね（グルーピングし）、ベクトルグループを生成する。

　全身マップ生成部６０４は、領域ベクトルグルーピング部６０３によって生成されたベクトルグループから、人物の全身を示すマップ（以下「全身マップ」という）を生成する。

　静止者処理部６１４は、微動ベクトルグルーピング部６０６、微動エッジ抽出部６０７、及び、時系列エッジ強度検証部６０８を有する。

　微動ベクトルグルーピング部６０６は、ベクトル安定化フィルタ６０２によって安定化された複数の動きベクトルのうち、近接する同じ傾向の動き量の小さい微動ベクトルを束ねた領域をマーカとする。そして、微動ベクトルグルーピング部６０６は、隣接する複数フレーム間で領域が重なるマーカ郡を束ね、ベクトルグループを生成する。

　微動エッジ抽出部６０７は、時間方向の連続するフレームの各々からエッジ画像を抽出し、その抽出した複数のエッジ画像を平均化し、１つの平均エッジ画像を得る。

　時系列エッジ強度検証部６０８は、微動エッジ抽出部６０７によって得られた平均エッジ画像について、ベクトルグループ枠内に、所定基準以上のエッジ成分（強度）が存在するか否かを判定する。これにより、静止人物の有無が判定される。

　前後フレーム検証部６０５は、上記の歩行者処理部６１３から出力される全身マップ、又は、上記の静止者処理部６１４から出力されるエッジ画像について、所定範囲の前後フレームによる平準化を行い、注目フレームにおける人物領域を決定する。

　領域補正部６０９は、歩行者処理６１３が行われた場合、人物の足先端位置を検出し、全身マップの領域を補正する。全身のうちの足先端の動きベクトル量は、相対的に大きく観測されるため、この補正により、一部が欠けた人物画像が抽出されることを抑制できる。

　フレーム間領域差判定部６１０は、フレーム毎に検出した人物の重心から、フレーム間の平均重心移動量を決定する。そして、フレーム間領域差判定部６１０は、この平均重心移動量と、注目フレームの人物重心移動量との差分を算出し、その差分が所定の閾値未満の場合、注目フレームの人物領域を選択する。一方、フレーム間領域差判定部６１０は、その差分が所定の閾値以上の場合、注目フレームの人物領域を選択しなくてよい。

　人物画像切り出し部６１１は、フレーム間領域差判定部６１０において選択された人物領域から人物画像を切り出し、教師画像として出力６１２する。

　図９は、歩行者処理部６１３に含まれる領域ベクトルグルーピング部６０３の動作例を説明するための図である。

　領域ベクトルグルーピング部６０３は、移動人物（例えば歩行者）を特定するために、近接する同等の移動方向及び移動量の動きベクトルを束ねて、移動人物の人物領域を予測する。なお、近接する動きベクトルは、２つの動きベクトルのブロックの位置が隣り合っていてよい。また、移動方向が同等の動きベクトルは、２つの動きベクトルのなす角が所定角度以下であってよい。ここで、所定角度は、システムの運用に合わせて適切に設定される。例えば、所定角度は、動きベクトルのなす角が当該所定角度以下であれば、人物の各部位の動きとして実質的に同一と見なせる角度に設定されてよい。また、移動量が同等の動きベクトルは、２つの動きベクトルの大きさの差が所定値以下であってよい。ここで、所定値は、システムの運用に合わせて適切に設定される。例えば、所定値は、動きベクトルの大きさの差がその所定値以下であれば人物の各部位の動きとして実質的に同一と見なせる値に設定されてよい。

　例えば図９において（ａ）に示すように、人物７０１が方向７００に移動している場合、領域ベクトルグルーピング部６０３は、次の処理を行う。すなわち、領域ベクトルグルーピング部６０３は、オプティカルフローによって、各特徴点の方向７００とほぼ同じ向き及び移動量の動きベクトル群７０２を観測する。

　このとき、領域ベクトルグルーピング部６０３は、特徴点毎に、所定範囲内で近接する類似の動きベクトルを束ねる（７０４）。そして、領域ベクトルグルーピング部６０３は、図９において（ｂ）に示すように、束ねた動きベクトルを包含する仮想円７０５を設定する。

　領域ベクトルグルーピング部６０３は、人物７０１に含まれる全ての特徴点について、図９において（ｂ）の処理を実行する。そして、領域ベクトルグルーピング部６０３は、図９において（ｃ）に示すように設定した仮想円を重ねて、全身を表現した全身マップ７０６を得る。

　領域ベクトルグルーピング部６０３は、図９において（ｄ）に示すように、全身マップ７０６を囲む矩形の人物領域７０７を設定する。そして、領域ベクトルグルーピング部６０３は、人物領域７０７から人物画像７０１を抽出し、教師画像として出力する。

　図１０～図１３は、中間フレーム画像抽出部１０２に含まれる領域補正部６０９の動作例を説明するための図である。

　歩行者の場合、全身のうち、足の先端の動きベクトル量が相対的に大きく観測される。そこで、領域補正部６０９は、足の先端位置を検出し、全身マップの人物領域を補正する。

　図１０に例示するように、領域ベクトルグルーピング部６０３は、有効な特徴点を観測できない場合がある。この場合、全身マップ生成用の仮想円を設定できない箇所８０２が生じ、全身マップ生成部８０４は、一部が欠落した全身マップを生成する。すなわち、人物８００の一部の箇所８０２が見切れた、矩形の人物領域８０１が設定される。

　ここで、歩行中の上半身は、足の先端よりも内側に存在する確率が高い。そこで、領域補正部６０９は、足の先端位置８０４を検出し、その検出した足の先端位置８０４を人物８００の端と想定して、矩形の人物領域８０１を補正する。これにより、矩形の人物領域８０１の内側に、人物８００の全身が含まれる確率が高くなる。

　図１１は、領域補正部６０９が、検出した左足の先端位置８０４を基準にして、人物８０３の人物領域８０５の左側部分を拡張する補正を行った例を示す。

　図１２は、領域補正部６０９が、検出した右足の先端位置８０７を基準にして、人物８０６の人物領域８０８の右側部分を拡張する補正を行った例を示す。

　図１３は、領域補正部６０９が、検出した左足の先端位置８１０および右足の先端位置８１１を基準にして、人物８０９の人物領域８１２の左側部分および右側部分の両方を拡張する補正を行った例を示す。

　例えば、領域補正部６０９は、補正前の人身マップの垂直方向の中心軸を基準として、足の先端位置が中心軸よりも左寄りであれば、人物領域の中心軸の左側部分を拡張する補正を行う。領域補正部６０９は、補正前の人身マップの垂直方向の中心軸を基準として、足の先端位置が中心軸よりも右寄りであれば、人物領域の中心軸の右側部分を拡張する補正を行う。

　前かがみになりながら歩く歩行者などでは、上半身の一定領域が足の先端位置よりも外側にはみ出す場合がある。この場合、領域補正部６０９は、歩行者が直立して歩行していないと判断し、上述した足の先端位置に基づく人物領域の補正を実行しなくてもよい。

　図１４は、静止者処理部６１４に含まれる微動ベクトルグルーピング部６０６の動作例を示す図である。

　人物は、一般的に、睡眠中を除き、完全な静止状態になることはほとんどなく、僅かに動いている。経っている人物では、特にこの傾向が強い。微動ベクトルグルーピング部６０６は、この僅かな動きを時系列に観測して統合することにより、静止状態の人物を検出する。

　図１４において（ａ）は、静止中の人物９００を示す。微動ベクトルグルーピング部６０６は、図９に示した、歩行者向けの処理と同様の処理を、静止中の人物に対しても実行する。所定の条件が満たされる場合、静止中の人物であっても、人物の全体を包含する人物領域を得られる場合がある。しかし、注目フレーム単独の場合、たいてい、全身の一部が動いた状態のみが観測される。そこで、微動ベクトルグルーピング部６０６は、図１４において（ｂ）に示すように、所定のフレーム区間（Ｔｎ～Ｔｎ＋４）において、連続してベクトルグループを観測する。例えば、微動ベクトルグルーピング部６０６は、同一人物に対して、５個のベクトルグループ９０６～９１０を観測する。

　この場合、微動ベクトルグルーピング部６０６は、図１４において（ｃ）に示すように、観測された５個のベクトルグループを包含する矩形の仮領域を設定する。そして、微動ベクトルグルーピング部６０６は、図１４において（ｄ）に示すように、この設定した仮領域を、人物９００の候補領域９１２とする。

　次に、微動エッジ抽出部６０７は、図１４において（ｅ）に示すように、所定フレーム区間Ｔｍ～Ｔｍ＋２において連続してエッジ抽出処理を行い、所定フレーム毎にエッジ画像９１６～９１８を得る。

　次に、微動エッジ抽出部６０７は、所定フレーム区間Ｔｍ～Ｔｍ＋２のエッジ画像９１６～９１８から、図１４において（ｆ）に示すように、１個の平均エッジ画像９１９を得る。

　次に、時系列エッジ強度検証部６０８は、図１４において（ｇ）に示すように、平均エッジ画像９１９の候補領域９１２内に、所定基準以上のエッジ成分強度が存在するか否かを判定する。例えば、時系列エッジ強度検証部６０８は、所定の輝度値の画素が所定の面積以上存在するか否かを判断する。そして、時系列エッジ強度検証部６０８は、所定基準以上のエッジ成分が存在する場合、図１４（ｇ）に示す候補領域９１２を、図１４において（ｈ）に示すように、人物領域９２０と確定する。時系列エッジ強度検証部６０８は、エッジ成分が所定の基準未満の場合、図１４において（ｇ）に示す候補領域９１２を破棄する。

　図１５は、採用画像判定部１０４の動作例を説明するための図である。

　採用画像判定部１０４は、学習エラー率に基づいて、人物識別モデルの精度向上が見込めるか否かを判定する。そして、採用画像判定部１０４は、人物識別モデルの精度向上が見込めると判定した人物領域の人物画像を、教師画像として選択する。

　採用画像判定部１０４は、画像読出部１００１、人物識別試験モデル学習部１００２、採用判定部１００３、及び、画像保存部１００７を含む。

　画像読出部１００１は、抽出画像セット２０２から、所定枚数の人物画像を読み出す。画像読出部１００１は、抽出画像セット２０２から、任意の数の人物画像を読み出してよい。例えば、画像読出部１００１は、抽出画像セット２０２に含まれる１００００枚の人物画像のうち、２０００枚の人物画像を読み出してもよい。

　人物識別試験モデル学習部１００２は、人物識別試験モデルの深層学習を実行する。人物識別試験モデル学習部１００２は、画像読出部１００１によって読み出された２０００枚の人物画像のうち、或る１０００枚を人物識別モデルのｅｐｏｃｈ毎のフィルタ係数更新学習に用い、残りの１０００枚をｅｐｏｃｈ毎のテストエラー率評価のために用いてもよい。なお、ｅｐｏｃｈは、識別モデルのフィルタ係数の最小演算単位の集合であり、学習用の入力画像を全て参照し終える単位である。ｅｐｏｃｈは、学習訓練回数とも呼ばれる。

　採用判定部１００３は、所定のｅｐｏｃｈ数の学習が進行した時点で、テストエラー率が最も低いｅｐｏｃｈ時点における、学習フィルタ係数と基準モデルエラー率１００４とを比較する。基準モデルエラー率１００４は、既存の人物識別モデルが有する学習エラー率である。

　採用判定部１００３が、試験モデルエラー率が基準モデルエラー率１００４よりも低いと判定した場合（採用判定１００５：ＹＥＳ）、画像保存部１００７は、画像読出部１００１が読み出した人物画像を、教師画像として教師画像セット２０３へ格納する。教師画像セット２０３は、正式な人物識別モデルの学習に用いられる。

　一方、採用判定部１００３は、試験モデルエラー率が基準モデルエラー率１００４よりも高いと判定した場合（採用判定１００５：ＮＯ）、画像読出部１００１が読み出した人物画像を破棄する。

　図１６は、採用画像判定部１０４が参照する学習エラー率曲線の例を示す図である。

　図１６において、縦軸はテストエラー率（単位は％）、横軸は学習訓練回数（単位はｅｐｏｃｈ）を示す。

　テストエラー率は、１ｅｐｏｃｈ毎に出力された学習モデルに対して、テストエラー率を評価するための未知の画像を入力した場合に、その未知の画像の識別に失敗した割合（エラーの割合）のことである。未知の画像は、学習に用いた画像とは異なる画像である。テストエラー率は、０％から１００％の範囲で表現され、一般的に、０％に近いほど、識別モデルの認識性能が高いと解釈される。

　図１６において、ＥＲ１は、基準モデルテストエラー率１００４のベスト値を示す。ＥＲ２は、人物識別試験モデル学習部１００２によって学習された人物識別試験モデルにおけるテストエラー率のベスト値を示す。

　図１６の例では、ＥＲ２はＥＲ１よりも小さい。これは、人物識別試験モデルの識別性能が向上していることを示す。よって、人物識別試験モデルの学習に用いた人物画像は、教師画像セットに格納される。

　一方、ＥＲ２がＥＲ１よりも大きい場合は、人物識別試験モデルの識別性能が低下していることを示す。よって、人物識別試験モデルの学習に用いた人物画像は、教師画像セットに格納されずに破棄される。

　図１７は、教師画像抽出装置１０を含む教師画像抽出システムの第１例を示す。第１例は、教師画像抽出システムが、ローカルにおいて構成される例を示す。

　例えば、図１７に示すように、教師画像抽出システムは、カメラ１２００、映像格納装置１２０１、教師画像抽出装置１０、モニタ１２０３、及び、教師画像格納装置１２０４を有する。

　カメラ１２００は、人物を含む映像を撮影する。

　映像格納装置１２０１は、カメラ１２００が撮影した映像（動画）を格納する。なお、カメラ１２００が撮影した映像は、映像格納装置１２０１に格納されずに、直接、教師画像抽出装置１０へ入力されてもよい。

　教師画像抽出装置１０は、映像格納装置１２０１から入力された映像から、上述したように、教師画像を抽出する。なお、教師画像抽出装置１０に入力される映像は、任意に選択されてよい。上述した教師画像抽出装置１０は、メモリとＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）を有し、メモリに格納されたソフトウェアプログラムをＣＰＵが実行することにより、各部の処理を実現するものであってよい。この場合、教師画像抽出装置１０は、当該ソフトウェアプログラムを実行するパーソナルコンピュータ（ＰＣ）であってもよい。

　教師画像抽出装置１０は、抽出した教師画像を、モニタ１２０３に表示してよい。また、教師画像抽出装置１０は、抽出した教師画像を、教師画像格納装置１２０４に格納してよい。

　図１８は、教師画像抽出装置１０を含む教師画像抽出システムの第２例を示す。

　第２例は、教師画像抽出システムが、ネットワークのクラウドとして提供される例を示す。教師画像抽出システムは、制御ＰＣ１２０８、教師画像抽出装置１０、映像格納装置１２０９、及び、教師画像格納装置１２１２を含む。

　クラウドは、インターネット１２０７を介して、コンピューティング、データベース、ストレージ、及び／又は、アプリケーションなどの様々なＩＴリソースを、オンデマンドで提供する。

　例えば、図１８に示すように、カメラ１２０６、ホストＰＣ１２１３及びモニタ１２１４をローカルに設け、教師画像抽出システムを、ネットワーク１２０７を介して、クラウドとして提供する。

　カメラ１２０６は、人物を含む映像を撮影する。

　ホストＰＣ１２１３は、カメラ１２０６が撮影した映像を、ネットワーク１２０７及び制御ＰＣ１２０８を介して、映像格納装置１２０９に格納する。

　教師画像抽出装置１０は、映像格納装置１２０１から入力された映像から、上述したように、教師画像を抽出する

　図１８に示すように、教師画像抽出装置１０は、複数設けられてよい。この場合、複数の教師画像抽出装置１０は、並列処理によって教師画像を抽出してよい。また、上述した教師画像抽出装置１０の機能及び処理は、各装置１０のメモリに格納されたコンピュータプログラム１２１１がＣＰＵによって実行されることにより、実現されてもよい。この場合、教師画像装置１０は、当該コンピュータプログラムを実行するサブＰＣであってよい。

　教師画像抽出装置１０によって抽出された教師画像は、ネットワーク１２０７及びホストＰＣ１２１３を介して、ローカルのモニタ１２１４に表示されてよい。また、教師画像抽出装置１０は、抽出した教師画像を、教師画像格納装置１２０４に格納してよい。

　なお、上述では、抽出対象が人物の場合の例を説明したが、抽出対象は人物に限られない。例えば、抽出対象は、建物、車両、家電製品、海、山、空、草花、樹木といった人物以外であってもよい。

　抽出対象が人物以外の場合、上述した、キーフレーム人物指定部、並びに、領域補正部を含む中間フレーム画像抽出部における、人物の存在を判断するための制約条件は、抽出対象に合わせて、適切に変更されてよい。

　上述した内容は、次のように表現できる。

　映像に含まれる画像のフレームから、対象物の一例である人物の画像を抽出する教師画像抽出装置１０は、キーフレーム人物指定部１０１及び中間フレーム画像抽出部１０２を有する。キーフレーム人物指定部１０１は、映像の一部のフレームをキーフレームとし、キーフレームにおける対象物が表示された部分を含む矩形で指定された人物領域の画像を取得する。中間フレーム画像抽出部１０２は、映像においてキーフレームで指定された人物を追跡し、映像におけるキーフレームでないフレームである中間フレームの人物が表示された部分を含む矩形の人物領域の画像を抽出する。

　この構成によれば、映像に含まれるフレームから人物が表示された矩形の部分画像を抽出するので、背景のノイズを低減した教師画像を抽出できる。

　教師画像抽出装置１０は、人物が移動している場合と人物が静止している場合とで異なる動きベクトルに対する処理により、中間フレームにおける人物が表示された部分である人物領域を特定する人物領域特定部１０３を更に有してよい。

　人物が移動している場合と静止している場合とでは、人物の領域の動きベクトルは異なる性質を示す。そのため、この構成によれば、それぞれの場合に好適な動きベクトルに対する処理を用いて人物領域を特定できるので、人物が移動している場合にも静止している場合にも人物領域を良好に特定できる。

　人物領域特定部１０３は、人物が移動している場合、位置が近接し移動方向および移動量が同等である動きベクトルをグルーピングして得られる領域を合成することにより、人物領域を特定してよい。

　人物が移動している場合には人物の部位は同等の動きとなる。そのため、この構成によれば、近接する同等の動きベクトルをグルーピングし、それを合成することで、人物領域を良好に特定できる。

　人物領域特定部１０３は、人物が静止している場合、対象としている中間フレームを含んで連続する複数のフレームのそれぞれにおける近接する同等の移動方向および移動量を示す動きベクトルをグルーピングして得られる部分領域を複数のフレームにわたり合成した領域に基づいて、人物領域を特定してよい。

　人物が静止していても部位毎に動きは見られるのが一般的である。そのため、この構成によれば、動きベクトルをグルーピングした部分領域を複数のフレームにわたり合成することで人物領域を良好に特定できる。

　人物領域特定部１０３は、人物が静止している場合、複数のフレームにわたり部分領域を合成した領域と、中間フレームを含む１つ以上のフレームの画像から抽出されるエッジ画像とに基づいて、人物領域を特定してよい。

　この構成によれば、動きの見られた部分領域を合成した領域に加え、エッジ抽出の結果も用いることにより、更に良好に静止している人物の領域を特定できる。

　中間フレーム画像抽出部１０２は、中間フレームの前または後の１つ以上のフレームの動きベクトルに基づいて、中間フレームの人物領域を補正してよい。

　この構成によれば、対象とする中間フレームの前後のフレームを利用した処理で人物領域を補正するので、人物の見切れを低減できる。

　中間フレーム画像抽出部１０２は、中間フレームの前または後の１つ以上のフレームにおける動きベクトルの移動量が相対的に大きい領域を人物が歩行している足先端位置と推定し、足先端位置が含まれるように人物領域を補正してよい。

　この構成によれば、対象とする中間フレームの前後のフレームの動きベクトルを利用した処理で足先端と推定される領域を含むように人物領域を補正するので、人物の足先端の見切れを低減できる。

　教師画像抽出装置１０は、キーフレームの人物画像と中間フレームの人物画像とを含む人物画像群を深層学習に用いて試験モデルを構築し、試験モデルによる人物識別の精度を評価し、評価結果に基づいて前記人物画像群を採用するか否か判定する採用画像判定部１０４を更に有してよい。

　この構成によれば、抽出した人物画像群により試験モデルを構築して人物の識別の精度を評価し、人物画像群の採否を判定するので、深層学習で良好な精度を得られる人物画像を採用できる。

　中間フレーム画像抽出部１０２は、キーフレームに複数の人物が指定された場合、複数の人物をそれぞれ追跡し、それぞれの人物についての人物領域の人物画像を抽出してよい。

　この構成によれば、複数の人物をそれぞれ追跡し、それぞれに人物領域の人物画像を抽出するので、多数の人物画像の抽出が可能となる。

１０…教師画像抽出装置、１００…入力映像入力、１０１…キーフレーム人物指定部、１０２…中間フレーム画像抽出部、１０３…人物領域特定部、１０４…採用画像判定部、１０５…教師画像保存部

Claims

　映像に含まれる画像のフレームから対象物の画像を抽出する対象物画像抽出装置であって、
　前記映像の一部のフレームをキーフレームとし、前記キーフレームにおける対象物が表示された部分を含む矩形で指定された対象物領域の画像を取得するキーフレーム対象物指定部と、
　前記映像において前記キーフレームで指定された対象物を追跡し、前記映像における前記キーフレームでないフレームである中間フレームの前記対象物が表示された部分を含む矩形の対象物領域の画像を抽出する中間フレーム画像抽出部と、
を有する対象物画像抽出装置。
　前記対象物が人物であり、
　前記人物が移動している場合と前記人物が静止している場合とで異なる動きベクトルに対する処理により前記中間フレームにおける前記人物が表示された部分である人物領域を特定する人物領域特定部を更に有する、
請求項１に記載の対象物画像抽出装置。
　前記人物領域特定部は、前記人物が移動している場合、位置が近接し移動方向および移動量が同等である動きベクトルをグルーピングして得られる領域を合成することにより、前記人物領域を特定する、
請求項２に記載の対象物画像抽出装置。
　前記人物領域特定部は、前記人物が静止している場合、対象としている前記中間フレームを含んで連続する複数のフレームのそれぞれにおける近接する同等の移動方向および移動量を示す動きベクトルをグルーピングして得られる部分領域を前記複数のフレームにわたり合成した領域に基づいて、前記人物領域を特定する、
請求項２に記載の対象物画像抽出装置。
　前記人物領域特定部は、前記人物が静止している場合、前記複数のフレームにわたり前記部分領域を合成した領域と、前記中間フレームを含む１つ以上のフレームの画像から抽出されるエッジ画像とに基づいて、前記人物領域を特定する、
請求項４に記載の対象物画像抽出装置。
　前記中間フレーム画像抽出部は、前記中間フレームの前または後の１つ以上のフレームの動きベクトルに基づいて、前記中間フレームの前記対象物領域を補正する、
請求項１に記載の対象物画像抽出装置。
　前記対象物が人物であり、
　前記人物が移動している場合と前記人物が静止している場合とで異なる動きベクトルに対する処理により前記中間フレームにおける前記人物が表示された部分である人物領域を特定する人物領域特定部を更に有し、
　前記中間フレーム画像抽出部は、前記中間フレームの前または後の１つ以上のフレームにおける動きベクトルの移動量が相対的に大きい領域を前記人物が歩行している足先端位置と推定し、前記足先端位置が含まれるように前記人物領域を補正する、
請求項６に記載の対象物画像抽出装置。
　前記キーフレームの対象物領域の画像と前記中間フレームの対象物領域の画像とを含む対象物画像群を深層学習に用いて試験モデルを構築し、前記試験モデルによる対象物識別の精度を評価し、評価結果に基づいて前記対象物画像群を採用するか否か判定する採用画像判定部を更に有する、
請求項１に記載の対象物画像抽出装置。
　前記中間フレーム画像抽出部は、前記キーフレームに複数の対象物が指定された場合、前記複数の対象物をそれぞれ追跡し、それぞれの対象物について前記対象物領域の画像を抽出する、
請求項１に記載の対象物画像抽出装置。
　映像に含まれる画像のフレームから対象物の画像を抽出する対象物画像抽出方法であって、
　コンピュータが、
　前記映像の一部のフレームをキーフレームとし、前記キーフレームにおける対象物が表示された部分を含む矩形で指定された対象物領域の画像を取得し、
　前記映像において前記キーフレームで指定された対象物を追跡し、前記映像における前記キーフレームでないフレームである中間フレームの前記対象物が表示された部分を含む矩形の対象物領域の画像を抽出する、
対象物画像抽出方法。
　映像に含まれる画像のフレームから対象物の画像を抽出することをコンピュータに実行させるためのソフトウェアプログラムであって、
　前記映像の一部のフレームをキーフレームとし、前記キーフレームにおける対象物が表示された部分を含む矩形で指定された対象物領域の画像を取得し、
　前記映像において前記キーフレームで指定された対象物を追跡し、前記映像における前記キーフレームでないフレームである中間フレームの前記対象物が表示された部分を含む矩形の対象物領域の画像を抽出する、
ことをコンピュータに実行させるためのソフトウェアプログラム。