JP6427650B1

JP6427650B1 - 追跡装置及び追跡プログラム

Info

Publication number: JP6427650B1
Application number: JP2017223641A
Authority: JP
Inventors: 孝之瀬光; 尭理中尾; 領菊池
Original assignee: Mitsubishi Electric Corp; Mitsubishi Electric Information Systems Corp
Current assignee: Mitsubishi Electric Corp; Mitsubishi Electric Information Systems Corp
Priority date: 2017-11-21
Filing date: 2017-11-21
Publication date: 2018-11-21
Anticipated expiration: 2037-11-21
Also published as: US11295457B2; US20200226767A1; GB202006426D0; WO2019102674A1; GB2581692B; GB2581692A; JP2019095974A

Abstract

【課題】映像データ中の対象物を追跡する追跡技術における、逐次対応付け方式の課題を解決しつつ、全体最適化方式と比べてメモリの消費量を減らすことを可能にする。
【解決手段】抽出部２１は、映像データを構成する複数のフレームの連続する一部のフレームを時間窓フレームとして、隣り合う時間窓フレームに１つ以上のフレームが重複して含まれるように、映像データから複数の時間窓フレームを抽出する。追跡部２２は、各時間窓フレームを対象として、対象の時間窓フレームに対して対象物の追跡を行い、追跡結果を生成する。統合部２３は、各時間窓フレームを対象として生成された各追跡結果を、他の時間窓フレームと重複して含まれるフレームに基づき統合して、統合結果を生成する。
【選択図】図１

Description

この発明は、映像データに映っている対象物を追跡する技術に関する。

監視カメラといった撮影装置によって取得された映像データに映っている人等の対象物を追跡する追跡技術がある。追跡技術では、映像データを構成する複数のフレームから検出された対象物について、フレーム間での対応関係が特定され、対象物が追跡される。

追跡技術には、逐次対応付け方式と全体最適化方式とがある。
逐次対応付け方式は、最新の追跡結果だけを保持しておき、新らたにフレームから検出された対象物についての入力データが得られると、最新の追跡結果に対応付けを行い追跡結果を更新する方式である。非特許文献１には、逐次対応付け方式について記載されている。
全体最適化方式は、全ての入力データを保持しておき、新たにフレームから検出された対象物についての入力データが得られると、全体を最適化して追跡結果を更新する方式である。非特許文献２には、全体最適化方式について記載されている。

Ｂａｂｅｎｋｏ，Ｂｏｒｉｓ，Ｍｉｎｇ−ＨｓｕａｎＹａｎｇ，ａｎｄＳｅｒｇｅＢｅｌｏｎｇｉｅ． "Ｖｉｓｕａｌｔｒａｃｋｉｎｇｗｉｔｈｏｎｌｉｎｅｍｕｌｔｉｐｌｅｉｎｓｔａｎｃｅｌｅａｒｎｉｎｇ．" ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００９．ＣＶＰＲ２００９．ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎ．ＩＥＥＥ，２００９．Ｐｉｒｓｉａｖａｓｈ，Ｈａｍｅｄ，ＤｅｖａＲａｍａｎａｎ，ａｎｄＣｈａｒｌｅｓｓＣ．Ｆｏｗｌｋｅｓ． "Ｇｌｏｂａｌｌｙ−ｏｐｔｉｍａｌｇｒｅｅｄｙａｌｇｏｒｉｔｈｍｓｆｏｒｔｒａｃｋｉｎｇａｖａｒｉａｂｌｅｎｕｍｂｅｒｏｆｏｂｊｅｃｔｓ．" ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），２０１１ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎ．ＩＥＥＥ，２０１１．

逐次対応付け方式は、オクルージョン又は未検出が発生した場合に、追跡が途切れてしまうという課題がある。また、逐次対応付け方式は、ある時に間違って対応付けをしてしまうと、その間違いが修正されることがないという課題がある。一方、全体最適化方式は、逐次対応付け方式の課題は解決されているものの、メモリの消費量が多いという課題がある。
この発明は、逐次対応付け方式の課題を解決しつつ、全体最適化方式と比べてメモリの消費量を減らすことを可能にすることを目的とする。

この発明に係る追跡装置は、
映像データを構成する複数のフレームの連続する一部のフレームを時間窓フレームとして、隣り合う時間窓フレームに１つ以上のフレームが重複して含まれるように、前記映像データから複数の時間窓フレームを抽出する抽出部と、
前記抽出部によって抽出された各時間窓フレームを対象として、対象の時間窓フレームに対して対象物の追跡を行い、追跡結果を生成する追跡部と、
前記追跡部によって前記各時間窓フレームを対象として生成された各追跡結果を、他の時間窓フレームと重複して含まれるフレームに基づき統合して、統合結果を生成する統合部と
を備える。

前記抽出部は、２つ以上の連続する時間窓フレームに２つ以上の連続するフレームが重複して含まれるように、前記複数の時間窓フレームを抽出し、
前記追跡部は、前記対象の時間窓フレームを構成する各フレームで検出された対象物の、前記対象の時間窓フレームを構成するフレーム間における対応関係を示す追跡結果を生成し、
前記統合部は、複数のフレームに含まれる各フレーム間について前記各追跡結果が示す同一の対応関係の数をカウントして、カウントされた数に基づき、前記各フレーム間における前記対象物の対応関係を特定することにより、前記各追跡結果を統合する。

前記統合部は、前記各追跡結果が示す同一の対応関係の数を投票数として、前記投票数が多い対応関係を優先的に採用することにより、前記複数のフレームに含まれる各フレーム間における前記対象物の対応関係を特定する。

前記統合部は、前記各追跡結果が示す同一の対応関係の数を投票数として、その対応関係が選択される可能性がある回数で前記投票数を除した得票率が高い対応関係を優先して採用することにより、前記複数のフレームに含まれる各フレーム間における前記対象物の対応関係を特定する。

前記追跡部は、前記対象の時間窓フレームを構成する各フレームで検出された対象物の、前記対象の時間窓フレームを構成するフレーム間における対応関係を示す追跡結果を生成し、
前記統合部は、前記他の時間窓フレームと重複して含まれるフレームのうち基準フレームで検出された対象物を基準として、前記各追跡結果が示す対応関係のうち少なくとも一部分を接続することにより、前記各追跡結果を統合する。

前記統合部は、前記他の時間窓フレームと重複して含まれるフレームのうち、中央のフレームを前記基準フレームとする。

前記抽出部は、１フレームずつずらしながら、連続する基準数のフレームを含む前記時間窓フレームを抽出する。

この発明に係る追跡プログラムは、
映像データを構成する複数のフレームの連続する一部のフレームを時間窓フレームとして、隣り合う時間窓フレームに１つ以上のフレームが重複して含まれるように、前記映像データから複数の時間窓フレームを抽出する抽出処理と、
前記抽出処理によって抽出された各時間窓フレームを対象として、対象の時間窓フレームに対して対象物の追跡を行い、追跡結果を生成する物体追跡処理と、
前記物体追跡処理によって前記各時間窓フレームを対象として生成された各追跡結果を、他の時間窓フレームと重複して含まれるフレームに基づき統合して、統合結果を生成する結果統合処理と
をコンピュータに実行させる。

この発明では、時間窓フレーム毎に追跡結果を生成し、各追跡結果を統合して統合結果を生成する。これにより、逐次対応付け方式の課題を解決しつつ、全体最適化方式と比べてメモリの消費量を減らすことが可能である。

実施の形態１に係る追跡装置１０の構成図。実施の形態１に係る追跡装置１０の全体的な処理のフローチャート。実施の形態１に係る時間窓フレーム３２の説明図。実施の形態１に係る追跡処理の説明図。実施の形態１に係る統合処理の説明図。実施の形態１に係る統合処理のフローチャート。実施の形態１に係る遷移先の説明図。変形例１に係る統合処理の説明図。変形例４に係る追跡装置１０の構成図。実施の形態２に係る統合処理の説明図。実施の形態２に係る統合処理のフローチャート。変形例６に係る時間窓フレーム３２の説明図。変形例６に係る時間窓フレーム３２の説明図。変形例６に係る追跡精度が悪くなるケースの説明図。

実施の形態１．
＊＊＊構成の説明＊＊＊
図１を参照して、実施の形態１に係る追跡装置１０の構成を説明する。
追跡装置１０は、プロセッサ１１と、メモリ１２と、ストレージ１３と、通信インタフェース１４とのハードウェアを備える。プロセッサ１１は、信号線を介して他のハードウェアと接続され、これら他のハードウェアを制御する。

プロセッサ１１は、プロセッシングを行うＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）である。プロセッサ１１は、具体例としては、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）である。

メモリ１２は、データを一時的に記憶する記憶装置である。メモリ１２は、具体例としては、ＳＲＡＭ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）である。

ストレージ１３は、データを保管する記憶装置である。ストレージ１３は、具体例としては、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）である。また、ストレージ１３は、ＳＤ（登録商標，ＳｅｃｕｒｅＤｉｇｉｔａｌ）メモリカード、ＣＦ（ＣｏｍｐａｃｔＦｌａｓｈ，登録商標）、ＮＡＮＤフラッシュ、フレキシブルディスク、光ディスク、コンパクトディスク、ブルーレイ（登録商標）ディスク、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）といった可搬記録媒体であってもよい。

通信インタフェース１４は、外部の装置と通信するためのインタフェースである。通信インタフェース１４は、具体例としては、Ｅｔｈｅｒｎｅｔ（登録商標）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）、ＨＤＭＩ（登録商標，Ｈｉｇｈ−ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）のポートである。
追跡装置１０は、通信インタフェース１４を介して、撮影装置１４１と、表示装置１４２とに接続されている。

追跡装置１０は、機能構成要素として、抽出部２１と、追跡部２２と、統合部２３とを備える。追跡装置１０の各機能構成要素の機能はソフトウェアにより実現される。
ストレージ１３には、追跡装置１０の各機能構成要素の機能を実現するプログラムが格納されている。このプログラムは、プロセッサ１１によりメモリ１２に読み込まれ、プロセッサ１１によって実行される。これにより、追跡装置１０の各機能構成要素の機能が実現される。

図１では、プロセッサ１１は、１つだけ示されていた。しかし、プロセッサ１１は、複数であってもよく、複数のプロセッサ１１が、各機能を実現するプログラムを連携して実行してもよい。

＊＊＊動作の説明＊＊＊
図２から図７を参照して、実施の形態１に係る追跡装置１０の動作を説明する。
実施の形態１に係る追跡装置１０の動作は、実施の形態１に係る追跡方法に相当する。また、実施の形態１に係る追跡装置１０の動作は、実施の形態１に係る追跡プログラムの処理に相当する。

図２を参照して、実施の形態１に係る追跡装置１０の全体的な処理を説明する。
（図２のステップＳ１：抽出処理）
抽出部２１は、通信インタフェース１４を介して、撮影装置１４１から映像データ３０を取得する。抽出部２１は、映像データ３０を構成する複数のフレーム３１の連続する一部のフレーム３１を時間窓フレーム３２として、映像データ３０から複数の時間窓フレーム３２を抽出する。この際、抽出部２１は、隣り合う時間窓フレーム３２に１つ以上のフレーム３１が重複して含まれるように、映像データ３０から複数の時間窓フレーム３２を抽出する。そして、抽出部２１は、抽出された各時間窓フレーム３２をメモリ１２に書き込む。
実施の形態１では、抽出部２１は、２つ以上の連続する時間窓フレーム３２に、追跡対象とする２つ以上の連続する全てのフレーム３１の組が重複して含まれるように、複数の時間窓フレーム３２を抽出する。

図３を参照して具体的に説明する。
図３では、抽出部２１は、連続する４つのフレーム３１を１つの時間窓フレーム３２としている。そして、抽出部２１は、１つのフレーム３１ずつずらしながら、複数の時間窓フレーム３２を抽出している。これにより、隣り合う時間窓フレーム３２に３つのフレーム３１が重複して含まれる。

（図２のステップＳ２：追跡処理）
追跡部２２は、ステップＳ１で抽出された各時間窓フレーム３２を対象として、対象の時間窓フレーム３２に対して人等の対象物３３の追跡を行い、追跡結果３４を生成する。対象物３３は、人に限らず、鞄等の物体であってもよい。
具体的には、追跡部２２は、対象の時間窓フレーム３２をメモリ１２から読み出す。追跡部２２は、対象の時間窓フレーム３２を構成する各フレーム３１で検出された対象物３３の、対象の時間窓フレーム３２を構成するフレーム３１間における対応関係を示す追跡結果３４を生成する。例えば、追跡部２２は、対象の時間窓フレーム３２を構成する各フレーム３１から検出された対象物３３の情報を入力として、既存の全体最適化方式のアルゴリズムを用いて、追跡結果３４を生成する。既存の全体最適化方式のアルゴリズムとしては、非特許文献２に記載されたアルゴリズムを用いることができる。追跡部２２は、生成された追跡結果３４をメモリ１２に書き込む。

図４を参照して具体的に説明する。図４では、横軸が時間を表し、縦軸が空間を表している。図４では、横軸に沿って各フレーム３１で検出された対象物３３が並べられており、縦軸方向の位置が対象物３３の位置を表している。
追跡部２２は、時間窓フレーム３２Ａと、時間窓フレーム３２Ｂと、時間窓フレーム３２Ｃといった各時間窓フレーム３２を対象として、対象物３３の追跡を行う。この際、追跡部２２は、対象の時間窓フレーム３２を構成する各フレーム３１から検出された対象物３３の情報を入力とする。例えば、時間窓フレーム３２Ａが対象の時間窓フレーム３２である場合には、フレーム３１（１）から検出された対象物３３と、フレーム３１（２）から検出された対象物３３と、フレーム３１（３）から検出された対象物３３と、フレーム３１（４）から検出された対象物３３とが入力とされる。
そして、追跡部２２は、既存の全体最適化方式のアルゴリズムを用いて、対象の時間窓フレーム３２を構成する各フレーム３１で検出された対象物３３の、対象の時間窓フレーム３２を構成するフレーム３１間における対応関係を特定する。図４では、時間窓フレーム３２Ａで追跡て特定された、対応する対象物３３を表すノード間にエッジが描かれている。これにより、時間窓フレーム３２毎に追跡結果３４が得られる。

（図２のステップＳ３：統合処理）
統合部２３は、ステップＳ２で各時間窓フレーム３２を対象として生成された各追跡結果３４をメモリ１２から読み出す。統合部２３は、読み出された各追跡結果３４を統合して、統合結果３５を生成する。この際、統合部２３は、他の時間窓フレーム３２と重複して含まれるフレーム３１に基づき、追跡結果３４を統合する。そして、統合部２３は、生成された統合結果３５を通信インタフェース１４を介して表示装置１４２に出力する。
具体的には、統合部２３は、映像データ３０を構成する複数のフレーム３１に含まれる各フレーム３１間について、各追跡結果３４が示す同一の対応関係の数をカウントする。統合部２３は、カウントされた数に基づき、各フレーム３１間における対象物３３の対応関係を特定する。これにより、結果的に、各追跡結果３４が統合される。

図５を参照して具体的に説明する。
統合部２３は、各追跡結果３４が示す同一の対応関係の数を投票数として、投票数が多い対応関係を優先的に採用する。これにより、統合部２３は、映像データ３０を構成する複数のフレーム３１に含まれる各フレーム３１間における対象物３３の対応関係を特定する。
例えば、フレーム３１（３）における対象物３３と、フレーム３１（４）における対象物３３との対応関係は、時間窓フレーム３２Ａを対象として生成された追跡結果３４Ａと、時間窓フレーム３２Ｂを対象として生成された追跡結果３４Ｂと、時間窓フレーム３２Ｃを対象として生成された追跡結果３４Ｃとで示されている。そこで、統合部２３は、追跡結果３４Ａと追跡結果３４Ｂと追跡結果３４Ｃとを参照して、投票数が最も多い対応関係を優先的に採用する。
具体例としては、フレーム３１（３）における対象物３３ｓ及び対象物３３ｔと、フレーム３１（４）における対象物３３ｕ及び対象物３３ｖとについては、対象物３３ｓと対象物３３ｕとが２度対応付けされ、対象物３３ｓと対象物３３ｖとが１度対応付けされ、対象物３３ｔと対象物３３ｕとが１度対応付けされ、対象物３３ｔと対象物３３ｖとが２度対応付けされている。そこで、統合部２３は、投票数が最も多い対応関係である、対象物３３ｓと対象物３３ｕとの対応付けと、対象物３３ｔと対象物３３ｖとの対応付けとを採用する。これにより、フレーム３１（３）における対象物３３ｓ及び対象物３３ｔと、フレーム３１（４）における対象物３３ｕ及び対象物３３ｖとの対応付けが決定される。

図６を参照して、実施の形態１に係る統合処理（図２のステップＳ３）を説明する。
（図６のステップＳ１１：対象選択処理）
統合部２３は、遷移先が決定されておらず、かつ、遷移先の候補がある対象物３３を選択する。
遷移先が決定されていないとは、時間的に後のフレーム３１で検出された対象物３３と対応付けがされていないという意味である。例えば、図７に示すように、フレーム３１（２）における対象物３３ｘは、フレーム３１（２）よりも時間的に前のフレーム３１（１）の対象物３３ｙとは対応付けされている。しかし、対象物３３ｘは、フレーム３１（２）よりも時間的に後のフレーム３１（３）又はフレーム３１（４）の対象物３３とは対応付けされていない。したがって、対象物３３ｘは、遷移先が決定されていない対象物３３である。
遷移先の候補があるとは、図２のステップＳ２で生成されたいずれかの追跡結果３４で、時間的に後のフレーム３１で検出された対象物３３と対応付けがされているという意味である。例えば、フレーム３１（２）における対象物３３ｘは、時間窓フレーム３２Ａについての追跡結果３４でフレーム３１（２）よりも時間的に後のフレーム３１（３）の対象物３３ｚと接続されているとする。この場合、対象物３３ｘは、遷移先の候補がある対象物３３である。

（図６のステップＳ１２：決定処理）
統合部２３は、ステップＳ１１で選択された対象物３３についての遷移先を決定する。
具体的には、統合部２３は、図２のステップＳ２で生成された各追跡結果３４における、選択された対象物３３についての遷移先の候補を特定する。統合部２３は、特定された遷移先の候補毎に、いくつの追跡結果３４で遷移先になっているかをカウントする。ここでカウントされた数が投票数である。統合部２３は、投票数が最も多かった遷移先の候補を、選択された対象物３３についての遷移先に決定する。
なお、投票数が同じ遷移先の候補が複数ある場合には、何らかのルールに従い、いずれかの遷移先の候補が選択されるようにしておけばよい。

（図６のステップＳ１３：終了判定処理）
統合部２３は、遷移先が決定されておらず、かつ、遷移先の候補がある対象物３３が残っているか否かを判定する。
統合部２３は、残っている場合には処理をステップＳ１１に戻す。一方、統合部２３は、残っていない場合には処理を終了する。

なお、以上に説明した方法では、例えば、映像データ３０の先頭のフレーム３１については、１つの時間窓フレーム３２にだけ含まれる。このような例外的に１つの時間窓フレーム３２にだけしか含まれないフレーム３１については、１つの時間窓フレーム３２における対応関係を採用すればよい。

＊＊＊実施の形態１の効果＊＊＊
以上のように、実施の形態１に係る追跡装置１０は、時間窓フレーム３２毎に追跡結果３４を生成し、各追跡結果３４を統合して統合結果３５を生成する。
これにより、各時間窓フレーム３２についての追跡結果３４では、逐次対応付け方式の課題が解決されている。そして、時間窓フレーム３２毎に処理を行うことで、映像データ３０全体について処理を行う場合に比べてメモリ１２の消費量を減らすことができる。

また、実施の形態１に係る追跡装置１０は、各時間窓フレーム３２についての追跡結果３４から得られる投票数によって対応関係を特定する。これにより、映像データ３０全体として適切な統合結果３５を得ることが可能である。

＊＊＊他の構成＊＊＊
＜変形例１＞
実施の形態１では、図２のステップＳ３で統合部２３は、投票数が最も多い対応関係を優先的に採用した。しかし、図２のステップＳ３で統合部２３は、投票数が最も多い対応関係ではなく、得票率が最も高い対応関係を優先的に採用してもよい。得票率は、投票数を投票機会の数で除した値である。投票機会の数とは、対応関係が選択される可能性がある回数である。

図８に示すように、追跡結果３４において、対象物３３がフレーム３１を飛び越して対応付けされる場合がある。図８では、フレーム３１（２）の対象物３３と、フレーム３１（４）の対象物３３とが対応付けされている。つまり、あるフレーム３１で検出された対象物３３が、次のフレーム３１で検出された対象物３３ではなく、２つ以上後のフレーム３１で検出された対象物３３と対応付けされる場合がある。
連続する２つのフレーム３１が重複して含まれる時間窓フレーム３２の数よりも、連続する３つ以上のフレーム３１が重複して含まれる時間窓フレーム３２の数の方が少ない。例えば、図３に示すように、連続する４つのフレーム３１を１つの時間窓フレーム３２とし、１つのフレーム３１ずつずらしながら時間窓フレーム３２が抽出されるとする。この場合、連続する２つのフレーム３１が重複して含まれる時間窓フレーム３２は３つであるが、連続する３つ以上のフレーム３１が重複して含まれる時間窓フレーム３２は２つである。
そのため、対象物３３がフレーム３１を飛び越して対応付けされる場合の投票数を、対象物３３がフレーム３１を飛び越さずに対応付けされる場合の投票数と比べてしまうと、適切な結果が得られない可能性がある。そこで、投票数に代えて得票数を用いて、対応関係を特定する。

図３に示す例であれば、対象物３３がフレーム３１を飛び越さずに対応付けされる場合の得票率は、投票数を３で除した値である。この“３”は、投票機会の数であり、連続する２つのフレーム３１が重複して含まれる時間窓フレーム３２の数である。同様に、対象物３３がフレーム３１を１つ飛び越して対応付けされる場合の得票率は、投票数を２で除した値である。この“２”は、投票機会の数であり、連続する３つのフレーム３１が重複して含まれる時間窓フレーム３２の数である。

＜変形例２＞
実施の形態１では、図２のステップＳ１で抽出部２１は、映像データ３０から一度に複数の時間窓フレーム３２を抽出した。しかし、抽出部２１は、基準数の新たなフレーム３１が得られる度に、新たな時間窓フレーム３２を抽出してもよい。そして、新たな時間窓フレーム３２が抽出されると、抽出された時間窓フレーム３２を用いて図２のステップＳ２以降の処理が実行されてもよい。
図３に示す例であれば、新たに１つのフレーム３１が得られると、新たに１つの時間窓フレーム３２を抽出できる。そこで、抽出部２１は、新たに１つのフレーム３１が得られる度に、新たに１つの時間窓フレーム３２を抽出してもよい。もちろん、抽出部２１は、１つのフレーム３１が得られる度に時間窓フレーム３２を抽出するのではなく、２つ以上のある数のフレーム３１が得られる度に、新たな時間窓フレーム３２を抽出してもよい。
この場合、既に追跡結果３４の生成に使用された時間窓フレーム３２のみに関するフレーム３１はメモリ１２から削除してもよい。例えば、図４に示す例であれば、時間窓フレーム３２Ａについての追跡結果３４が生成されてしまえば、フレーム３１（１）はメモリ１２から削除されてもよい。
また、統合結果３５の生成に利用されない追跡結果３４についてもメモリ１２から削除してもよい。例えば、図４に示す例であれば、フレーム３１（３）とフレーム３１（４）との対応関係が特定されてしまえば、時間窓フレーム３２Ａについての追跡結果３４は使用されない。したがって、時間窓フレーム３２Ａについての追跡結果３４はメモリ１２から削除されてもよい。
これにより、メモリ１２の消費量を減らすことができる。

＜変形例３＞
実施の形態１では、２つ以上の時間窓フレーム３２に全てのフレーム３１の組が重複して含まれるように複数の時間窓フレーム３２を抽出するとした。しかし、多数決で決定することを考慮すると、３つ以上の時間窓フレーム３２に全てのフレーム３１の組が重複して含まれるように複数の時間窓フレーム３２を抽出する方が望ましい。
できるだけ多くの時間窓フレーム３２に全てのフレーム３１の組が重複して含まれるようにした方が、追跡の精度を高くすることができる。但し、多くの時間窓フレーム３２に全てのフレーム３１の組が重複して含まれるようにするほど、メモリ１２の消費量は多くなる。

また、変形例２で説明したように新たなフレーム３１が得られる度に新たな時間窓フレーム３２を抽出する場合、１つの時間窓フレーム３２に含まれるフレーム３１の数を多くすると、結果が得られるのが遅くなる。

＜変形例４＞
実施の形態１では、各機能構成要素がソフトウェアで実現された。しかし、変形例４として、各機能構成要素はハードウェアで実現されてもよい。この変形例４について、実施の形態１と異なる点を説明する。

図９を参照して、変形例４に係る追跡装置１０の構成を説明する。
各機能構成要素がハードウェアで実現される場合には、追跡装置１０は、プロセッサ１１とメモリ１２とストレージ１３とに代えて、電子回路１５を備える。電子回路１５は、各機能構成要素と、メモリ１２と、ストレージ１３との機能とを実現する専用の回路である。

電子回路１５としては、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ロジックＩＣ、ＧＡ（ＧａｔｅＡｒｒａｙ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）が想定される。
各機能構成要素を１つの電子回路１５で実現してもよいし、各機能構成要素を複数の電子回路１５に分散させて実現してもよい。

＜変形例５＞
変形例５として、一部の各機能構成要素がハードウェアで実現され、他の各機能構成要素がソフトウェアで実現されてもよい。

プロセッサ１１とメモリ１２とストレージ１３と電子回路１５とを処理回路という。つまり、各機能構成要素の機能は、処理回路により実現される。

実施の形態２．
実施の形態２は、追跡結果３４の統合方法が実施の形態１と異なる。実施の形態２では、この異なる点を説明し、同一の点については説明を省略する。

＊＊＊動作の説明＊＊＊
図２と、図１０から図１１とを参照して、実施の形態２に係る追跡装置１０の動作を説明する。
実施の形態２に係る追跡装置１０の動作は、実施の形態２に係る追跡方法に相当する。また、実施の形態２に係る追跡装置１０の動作は、実施の形態２に係る追跡プログラムの処理に相当する。

図２を参照して、実施の形態２に係る追跡装置１０の全体的な処理を説明する。
ステップＳ１からステップＳ２の処理は、実施の形態１と同じである。

（図２のステップＳ３：統合処理）
統合部２３は、他の時間窓フレーム３２と重複して含まれるフレーム３１のうち基準フレーム３６で検出された対象物を基準として、各追跡結果３４が示す対応関係のうち少なくとも一部分を接続することにより、各追跡結果３４を統合する。

図１０を参照して具体的に説明する。
図１０では、図３に示す例のように、連続する４つのフレーム３１を１つの時間窓フレーム３２とし、１つのフレーム３１ずつずらしながら、複数の時間窓フレーム３２が抽出された場合を想定している。
統合部２３は、対象の時間窓フレーム３２と、対象の時間窓フレーム３２の１つ前の時間窓フレーム３２とで重複して含まれる特定の位置のフレーム３１を基準フレーム３６とする。また、統合部２３は、対象の時間窓フレーム３２における基準フレーム３６の１つ後のフレーム３１を特定フレーム３７とする。統合部２３は、対象の時間窓フレーム３２における基準フレーム３６と特定フレーム３７との間の対応関係を、統合結果３５における基準フレーム３６と特定フレーム３７との間の対応関係として採用する。
例えば、図１０の（Ａ）に示すように、時間窓フレーム３２Ａが対象の時間窓フレーム３２であるとする。また、時間窓フレーム３２の前から２番目のフレーム３１が基準フレーム３６であるとする。この場合、フレーム３１（２）が基準フレーム３６である。そのため、フレーム３１（２）の１つ後ろのフレーム３１（３）が特定フレーム３７である。したがって、時間窓フレーム３２Ａにおけるフレーム３１（２）とフレーム３１（３）との対応関係が、統合結果３５におけるフレーム３１（２）とフレーム３１（３）との対応関係になる。
次に、図１０の（Ｂ）に示すように、時間窓フレーム３２Ｂが対象の時間窓フレーム３２になったとする。この場合、フレーム３１（３）が基準フレーム３６である。そのため、フレーム３１（３）の１つ後ろのフレーム３１（４）が特定フレーム３７である。したがって、時間窓フレーム３２Ｂにおけるフレーム３１（３）とフレーム３１（４）との対応関係が、統合結果３５におけるフレーム３１（３）とフレーム３１（４）との対応関係になる。
その結果、図１０の（Ｃ）に示すように、統合結果３５におけるフレーム３１（２）からフレーム３１（４）までの対応関係が得られる。つまり、基準フレーム３６で検出された対象物を基準として、対象の時間窓フレーム３２についての追跡結果３４と、１つ前の時間窓フレーム３２についての追跡結果３４とが接続される。

図１１を参照して、実施の形態２に係る統合処理（図２のステップＳ３）を説明する。
（図１１のステップＳ２１：時間窓フレーム選択処理）
統合部２３は、過去に対象として選択されていない時間窓フレーム３２を、対象の時間窓フレーム３２として選択する。例えば、統合部２３は、時系列に前の時間窓フレーム３２から順に対象の時間窓フレーム３２として選択すればよい。

（図１１のステップＳ２２：対象フレーム特定処理）
統合部２３は、ステップＳ２１で選択された対象の時間窓フレーム３２から基準フレーム３６を特定する。基準フレーム３６の位置は、予め決められているものとする。基準フレーム３６は、例えば、時間窓フレーム３２の中央のフレーム３１である。時間窓フレーム３２に含まれるフレーム３１が偶数個である場合には、中央のフレーム３１は２つあるので、基準フレーム３６は、その２つのフレーム３１のいずれかである。
統合部２３は、基準フレーム３６の後のフレーム３１を特定フレーム３７として特定する。

（図１１のステップＳ２３：対応特定処理）
統合部２３は、ステップＳ２１で選択された対象の時間窓フレーム３２における基準フレーム３６と特定フレーム３７との対応関係を、統合結果３５における基準フレーム３６と特定フレーム３７として特定する。

（図１１のステップＳ２４：終了判定処理）
統合部２３は、過去に対象として選択されていない時間窓フレーム３２が残っているか否かを判定する。
統合部２３は、残っている場合には処理をステップＳ２１に戻す。一方、統合部２３は、残っていない場合には処理を終了する。

＊＊＊実施の形態２の効果＊＊＊
以上のように、実施の形態２に係る追跡装置１０は、時間窓フレーム３２と重複して含まれるフレーム３１のうち基準フレーム３６で検出された対象物を基準として、各追跡結果３４が示す対応関係のうち少なくとも一部分を接続することにより、各追跡結果３４を統合する。
これにより、実施の形態１よりも少ない計算量で追跡結果３４を統合することが可能である。

＊＊＊他の構成＊＊＊
＜変形例６＞
実施の形態２では、図３に示す例のように、１つのフレーム３１ずつずらしながら、複数の時間窓フレーム３２が抽出された場合を想定した。しかし、複数のフレーム３１ずつずらしながら、複数の時間窓フレーム３２が抽出されてもよい。より正確には、隣り合う時間窓フレーム３２で、少なくとも１つのフレーム３１が重複していればよい。
図１２に示すように、Ｎ個のフレーム３１ずつずらしながら、複数の時間窓フレーム３２が抽出されているとする。Ｎは２以上の整数である。この場合には、統合部２３は、対象の時間窓フレーム３２における基準フレーム３６のＮ個後のフレーム３１を特定フレーム３７とする。統合部２３は、対象の時間窓フレーム３２における基準フレーム３６から特定フレーム３７までの対応関係を、統合結果３５における基準フレーム３６から特定フレーム３７までの対応関係として採用する。

図１３に示すように、隣り合う時間窓フレーム３２で１つのフレーム３１だけが重複しているとする。この場合には、統合部２３は、前の時間窓フレーム３２と重複している対象の時間窓フレーム３２における最前のフレーム３１を基準フレーム３６とし、対象の時間窓フレーム３２における最後のフレーム３１を特定フレーム３７とする。統合部２３は、対象の時間窓フレーム３２における基準フレーム３６から特定フレーム３７までの対応関係を、統合結果３５における基準フレーム３６から特定フレーム３７までの対応関係として採用する。

以上のように、隣り合う時間窓フレーム３２で重複するフレーム３１の数を減らすことにより、少ない計算量で追跡結果３４を統合することが可能である。
しかし、隣り合う時間窓フレーム３２で重複するフレーム３１の数を減らすと、追跡の精度が低くなる可能性がある。例えば、図１４に示すように、ある時間窓フレーム３２に含まれるフレーム３１で、映像データ３０に入ってきたばかりの対象物３３と、映像データ３０からすぐに出ていく対象物３３とについては、精度よく追跡できない可能性がある。これは、時間窓フレーム３２においてその対象物３３が検出されたフレーム３１の数が少ないため、図２のステップＳ２の処理でその対象物３３が正しく対応付けされない可能性が高くなるためである。

１０追跡装置、１１プロセッサ、１２メモリ、１３ストレージ、１４通信インタフェース、１５電子回路、２１抽出部、２２追跡部、２３統合部、３０映像データ、３１フレーム、３２時間窓フレーム、３３対象物、３４追跡結果、３５統合結果、３６基準フレーム、３７特定フレーム、１４１撮影装置、１４２表示装置。

Claims

映像データを構成する複数のフレームの連続する一部のフレームを時間窓フレームとして、隣り合う時間窓フレームに１つ以上のフレームが重複して含まれるように、前記映像データから複数の時間窓フレームを抽出する抽出部と、
前記抽出部によって抽出された各時間窓フレームを対象として、対象の時間窓フレームに対して対象物の追跡を行い、追跡結果を生成する追跡部と、
前記追跡部によって前記各時間窓フレームを対象として生成された各追跡結果を、他の時間窓フレームと重複して含まれるフレームに基づき統合して、統合結果を生成する統合部と
を備える追跡装置。
前記抽出部は、２つ以上の連続する時間窓フレームに２つ以上の連続するフレームが重複して含まれるように、前記複数の時間窓フレームを抽出し、
前記追跡部は、前記対象の時間窓フレームを構成する各フレームで検出された対象物の、前記対象の時間窓フレームを構成するフレーム間における対応関係を示す追跡結果を生成し、
前記統合部は、複数のフレームに含まれる各フレーム間について前記各追跡結果が示す同一の対応関係の数をカウントして、カウントされた数に基づき、前記各フレーム間における前記対象物の対応関係を特定することにより、前記各追跡結果を統合する
請求項１に記載の追跡装置。
前記統合部は、前記各追跡結果が示す同一の対応関係の数を投票数として、前記投票数が多い対応関係を優先的に採用することにより、前記複数のフレームに含まれる各フレーム間における前記対象物の対応関係を特定する
請求項２に記載の追跡装置。
前記統合部は、前記各追跡結果が示す同一の対応関係の数を投票数として、その対応関係が選択される可能性がある回数で前記投票数を除した得票率が高い対応関係を優先して採用することにより、前記複数のフレームに含まれる各フレーム間における前記対象物の対応関係を特定する
請求項２に記載の追跡装置。
前記追跡部は、前記対象の時間窓フレームを構成する各フレームで検出された対象物の、前記対象の時間窓フレームを構成するフレーム間における対応関係を示す追跡結果を生成し、
前記統合部は、前記他の時間窓フレームと重複して含まれるフレームのうち基準フレームで検出された対象物を基準として、前記各追跡結果が示す対応関係のうち少なくとも一部分を接続することにより、前記各追跡結果を統合する
請求項１に記載の追跡装置。
前記統合部は、前記他の時間窓フレームと重複して含まれるフレームのうち、中央のフレームを前記基準フレームとする
請求項５に記載の追跡装置。
前記抽出部は、１フレームずつずらしながら、連続する基準数のフレームを含む前記時間窓フレームを抽出する
請求項１から６までのいずれか１項に記載の追跡装置。
映像データを構成する複数のフレームの連続する一部のフレームを時間窓フレームとして、隣り合う時間窓フレームに１つ以上のフレームが重複して含まれるように、前記映像データから複数の時間窓フレームを抽出する抽出処理と、
前記抽出処理によって抽出された各時間窓フレームを対象として、対象の時間窓フレームに対して対象物の追跡を行い、追跡結果を生成する物体追跡処理と、
前記物体追跡処理によって前記各時間窓フレームを対象として生成された各追跡結果を、他の時間窓フレームと重複して含まれるフレームに基づき統合して、統合結果を生成する結果統合処理と
をコンピュータに実行させる追跡プログラム。