JP2022534337A

JP2022534337A - ビデオターゲット追跡方法と装置、コンピュータ装置、プログラム

Info

Publication number: JP2022534337A
Application number: JP2021537733A
Authority: JP
Inventors: ツォイ，ジェン; ジエ，ゼチュン; ウエイ，リ; シュイ，チュンイェン; ジャン，トォン
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2019-05-27
Filing date: 2020-04-30
Publication date: 2022-07-29
Anticipated expiration: 2040-04-30
Also published as: EP3979200A4; US20210398294A1; JP7236545B2; EP3979200A1; CN110176027A; CN110176027B; WO2020238560A1

Abstract

ビデオターゲット追跡方法、装置、コンピュータ装置及び記憶媒体である。前記方法は、検出対象ビデオにおけるターゲット画像フレームに対応する局所検出マップを取得するステップ（２０１）と、ターゲット画像フレームに対応する相対動き顕著性マップを取得するステップ（２０２）と、局所検出マップと相対動き顕著性マップとに基づいて、ターゲット画像フレームに対応する制約情報を決定するステップ（２０３）と、制約情報により画像分割モデルのパラメータを調整し、調整された画像分割モデルを取得するステップ（２０４）と、調整された画像分割モデルにより、ターゲット画像フレームにおけるターゲットオブジェクトを抽出するステップ（２０５）と、を含む。【選択図】図２

Description

本願は、２０１９年０５月２７日に中国国家知識産権局に提出された、出願番号が２０１９１０４４７３７９３で、発明の名称が「ビデオターゲット追跡方法、装置、コンピュータ装置及び記憶媒体」である中国特許出願の優先権を主張するものであり、その全ての内容は参照により本願に組み込まれるものとする。

本願の実施態様は、画像識別の技術分野に関し、特にビデオターゲット追跡方法、装置、コンピュータ装置及び記憶媒体に関する。

ビデオターゲット追跡技術とは、ビデオに興味のあるターゲットオブジェクトを追跡し、ビデオの各画像フレームから該ターゲットオブジェクトを識別することを指す。

関連技術において、半教師あり学習に基づくビデオターゲット追跡方法を提供する。まず、複数のトレーニングサンプルにより画像分割モデルをトレーニングする。次に、検出対象ビデオの一番目の画像フレームを用いて、該画像分割モデルのパラメータを調整することにより、該画像分割モデルを該検出対象ビデオにおけるターゲットオブジェクトの抽出に適応させる。ここで、ターゲットオブジェクトの一番目の画像フレームにおける位置は手動でラベル付けされてもよい。その後、調整された画像分割モデルを利用し、該検出対象ビデオの後続の画像フレームからターゲットオブジェクトを識別する。

検出対象ビデオの一番目の画像フレームと後続の画像フレームとの間の見かけの差異が大きい場合、調整された画像分割モデルにより、後続の画像フレームからターゲットオブジェクトを正確に識別することができない。多くの場合、見かけ情報の変化に伴い、モデルの予測結果が不正確になる。

本願のさまざまな実施態様は、ビデオターゲット追跡方法、装置、コンピュータ装置及び記憶媒体を提供する。

コンピュータ装置が実行するビデオターゲット追跡方法は、
検出対象ビデオにおけるターゲット画像フレームに対応する局所検出マップを取得するステップであって、前記局所検出マップは、前記検出対象ビデオにおける、画像分割モデルにより追跡することが必要となるターゲットオブジェクトの見かけ情報に基づいて生成されるものである、ステップと、
前記ターゲット画像フレームに対応する相対動き顕著性マップを取得するステップであって、前記相対動き顕著性マップは、前記ターゲットオブジェクトの動き情報に基づいて生成されるものである、ステップと、
前記局所検出マップと前記相対動き顕著性マップとに基づいて、前記ターゲット画像フレームに対応する制約情報を決定するステップであって、前記制約情報に、前記ターゲット画像フレームにおける絶対正のサンプル画素、絶対負のサンプル画素及び不確定のサンプル画素が含まれる、ステップと、
前記制約情報により前記画像分割モデルのパラメータを調整し、調整された画像分割モデルを取得するステップと、
前記調整された画像分割モデルにより、前記ターゲット画像フレームにおける前記ターゲットオブジェクトを抽出するステップと、を含む。

ビデオターゲット追跡装置は、
検出対象ビデオにおけるターゲット画像フレームに対応する局所検出マップを取得する検出マップ取得モジュールであって、前記局所検出マップは、前記検出対象ビデオにおける、画像分割モデルにより追跡することが必要となるターゲットオブジェクトの見かけ情報に基づいて生成されるものである、検出マップ取得モジュールと、
前記ターゲット画像フレームに対応する相対動き顕著性マップを取得する動きマップ取得モジュールであって、前記相対動き顕著性マップは、前記ターゲットオブジェクトの動き情報に基づいて生成されるものである、動きマップ取得モジュールと、
前記局所検出マップと前記相対動き顕著性マップとに基づいて、前記ターゲット画像フレームに対応する制約情報を決定する制約情報取得モジュールであって、前記制約情報に、前記ターゲット画像フレームにおける絶対正のサンプル画素、絶対負のサンプル画素及び不確定のサンプル画素が含まれる、制約情報取得モジュールと、
前記制約情報により前記画像分割モデルのパラメータを調整し、調整された画像分割モデルを取得するモデル調整モジュールと、
前記調整された画像分割モデルにより、前記ターゲット画像フレームにおける前記ターゲットオブジェクトを抽出するターゲット分割モジュールと、を含む。

コンピュータ装置は、プロセッサと、前記プロセッサによりロードされて実行されると、上記ビデオターゲット追跡方法を実現する少なくとも１つの命令、少なくとも１つのプログラム、コードセット又は命令セットが記憶されているメモリとを含む。

コンピュータ可読記憶媒体は、プロセッサによりロードされて実行されると、上記ビデオターゲット追跡方法を実現する少なくとも１つの命令、少なくとも１つのプログラム、コードセット又は命令セットが記憶されている。

コンピュータプログラム製品は、実行されると、上記ビデオターゲット追跡方法が実行される。

本願の１つ以上の実施態様の詳細は、以下の図面及び説明において提供される。本願の他の特徴及び利点は、明細書、図面及び特許請求の範囲から明らかになる。

本願の実施態様における技術手段をより明確に説明するために、以下、実施態様の説明に必要な図面を簡単に説明するが、明らかに、以下の説明における図面は、本願のいくつかの実施態様に過ぎず、当業者であれば、創造的な労働をしない前提で、これらの図面に基づいて他の図面を得ることができる。
ビデオターゲット追跡の応用環境を例示的に示す概略図である。ビデオターゲット追跡を例示的に示す概略図である。本願の一実施態様に係るビデオターゲット追跡方法のフローチャートである。本願の技術解決策の全体的なフローを例示的に示す概略図である。ターゲット検出モデルのパラメータ調整プロセスを例示的に示す概略図である。画像分割モデルを例示的に示すアーキテクチャ図である。従来の方法及び本願の方法で抽出されたサンプルを例示的に示す概略図である。本願の一実施態様に係るビデオターゲット追跡装置のブロック図である。本願の別の実施態様に係るビデオターゲット追跡装置のブロック図である。本願の一実施態様に係るコンピュータ装置の構成ブロック図である。

本願の目的、技術手段及び利点をより明確にするために、以下、図面を参照しながら本願の実施形態をさらに詳細に説明する。理解すべきこととして、本明細書に説明された具体的な実施態様は、本願を説明するためのものに過ぎず、本願を限定するものではない。

本願に係るビデオターゲット追跡方法は、図１ａに示す応用環境に応用することができる。図１ａに示すように、コンピュータ装置１０２とビデオ収集装置１０４との間でネットワークを介して通信する。

コンピュータ装置１０２は、ビデオ収集装置１０４から検出対象ビデオを取得し、検出対象ビデオにおけるターゲット画像フレームに対応する局所検出マップを取得することであって、局所検出マップは、検出対象ビデオにおける、画像分割モデルにより追跡することが必要となるターゲットオブジェクトの見かけ情報に基づいて生成され、画像分割モデルは、検出対象ビデオの画像フレームからターゲットオブジェクトを分割して抽出するニューラルネットワークモデルであることと、ターゲット画像フレームに対応する相対動き顕著性マップを取得することであって、相対動き顕著性マップは、ターゲットオブジェクトの動き情報に基づいて生成されるものであることと、局所検出マップと相対動き顕著性マップとに基づいて、ターゲット画像フレームに対応する制約情報を決定することであって、制約情報に、ターゲット画像フレームにおける絶対正のサンプル画素、絶対負のサンプル画素及び不確定のサンプル画素が含まれることと、制約情報により画像分割モデルのパラメータを調整し、調整された画像分割モデルを取得することと、調整された画像分割モデルにより、ターゲット画像フレームにおけるターゲットオブジェクトを抽出することと、を実行することができる。

ここで、コンピュータ装置１０２は、独立したサーバ又は複数のサーバで構成されるサーバクラスタで実現されてよい。ビデオ収集装置１０４は、監視カメラ又はカメラを有する端末を含んでよい。

ビデオターゲット追跡技術は、様々な異なる応用シーンで運用することができる。例えば、セキュリティシーンで、監視ビデオ中の容疑者に対して追跡識別を行うことができる。また、例えば、ビデオ分析処理の応用シーンで、映画又はドラマから特定の人物を含む画像フレームを抽出することにより、該特定の人物のビデオフラグメントを統合することができる。

図１ｂに示すように、ビデオターゲット追跡の概略図を例示的に示す。図１ｂにビデオの複数の画像フレームが含まれており、それぞれ１１、１２、１３及び１４の符号を付す。該ビデオの各画像フレーム内の人物及び車両を追跡しようとすれば、画像分割モデルをトレーニングし、各画像フレームをそれぞれ該画像分割モデルに入力し、該画像分割モデルによりその中から人物及び車両を分割して抽出することができる。例えば、それぞれ人物と車両にマスクラベルを付けることにより、画像フレームに人物と車両をラベル付けすることができる。

本願の実施態様に係る方法において、各ステップの実行主体はコンピュータ装置である。コンピュータ装置は、計算、処理及び記憶能力を備える任意の電子機器であってもよい。例えば、コンピュータ装置は、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ、パーソナルコンピュータ）又はサーバであってもよいし、例えば、携帯電話、タブレットコンピュータ、マルチメディア再生装置、ウェアラブル装置、スマートテレビなどの端末装置であってもよいし、無人航空機、車載端末などの他の装置であってもよく、本願の実施態様はこれを限定しない。

説明を容易にするために、下記の方法の実施態様において、各ステップの実行主体をコンピュータ装置として説明するが、これは限定されない。

図２は、本願の一実施態様に係るビデオターゲット追跡方法のフローチャートを示す。該方法は、以下のようなステップ（２０１～２０５）を含むことができる。

ステップ２０１では、検出対象ビデオにおけるターゲット画像フレームに対応する局所検出マップを取得する。

検出対象ビデオにおけるターゲットオブジェクトを追跡することが必要となる場合、１つの画像フレームを与え、該画像フレームにターゲットオブジェクトのマスクをラベル付けし、その後、画像分割モデルにより該検出対象ビデオの他の画像フレームから該ターゲットオブジェクトを分割して抽出することができる。ターゲットオブジェクトは、人であってもよいし、物であってもよく、本願の実施態様はこれを限定しない。任意選択で、検出対象ビデオの一番目の画像フレームにターゲットオブジェクトのマスクをラベル付けし、そして、画像分割モデルにより該検出対象ビデオの後続の画像フレームから該ターゲットオブジェクトを分割して抽出する。また、上記所定の画像フレーム（例えば、一番目の画像フレーム）にターゲットオブジェクトのマスクをラベル付けすることは、手動でラベリングするによって行われることができる。

ターゲット画像フレームは、検出対象ビデオにおける、ターゲットオブジェクトがラベル付けされていない任意の１つの画像フレームであってもよく、即ち、画像分割モデルによりターゲットオブジェクトを抽出することが必要となる画像フレームであってもよい。

局所検出マップは、追跡の必要があるターゲットオブジェクトの見かけ情報に基づいて生成されるものである。ここで、見かけ情報とは、視認可能な情報、例えば色、形状、テクスチャなどの情報を指す。例示的な実施態様において、ターゲット検出モデルによりターゲット画像フレームを処理して、該ターゲット画像フレームに対応する局所検出マップを取得する。ターゲット検出モデルは、畳み込みニューラルネットワークをトレーニングして得られたモデルであってもよい。局所検出マップのサイズは、ターゲット画像フレームのサイズと同じである。例えば、ターゲット画像フレームのサイズが８００＊６００画素であれば、局所検出マップのサイズも８００＊６００画素である。任意選択で、局所検出マップにおけるターゲット画素の値は、ターゲット画像フレームにおける該同じ位置でのターゲット画素がターゲットオブジェクトに属する確率を反映し、該確率はターゲット画素の表現情報に基づいて決定されるものである。

本願の実施態様において、画像分割モデルにより検出対象ビデオにおけるターゲットオブジェクトに対して追跡識別を行う。画像分割モデルは、検出対象ビデオの画像フレームからターゲットオブジェクトを分割して抽出するためのニューラルネットワークモデルであり、畳み込みニューラルネットワークに基づいて構築された深層学習モデルであってもよい。本願の実施態様において、画像分割モデルのターゲットオブジェクト追跡時の分割正確度を確保するために、該画像分割モデルに対してオンライン自己適応トレーニングを行い、該モデルのパラメータ（例えば、ニューラルネットワークの重み）を調整して、調整された画像分割モデルによりターゲットオブジェクトを分割する必要がある。
例示的な実施態様において、本ステップは、以下のようなサブステップ１～３を含んでもよい。

１．検出対象ビデオの既にラベル付けされた画像フレームから、少なくとも１つのトレーニングサンプルを選択する。

トレーニングサンプルは、ターゲット検出モデルをトレーニングすることにより、該ターゲット検出モデルのパラメータを調整して最適化する。トレーニングサンプルは、既にラベル付けされた画像フレーム及び該既にラベル付けされた画像フレームに対応する検出ターゲット枠を含む。既にラベル付けされた画像フレームとは、ターゲットオブジェクトのマスクが既にラベル付けされた画像フレームを指す。既にラベル付けされた画像フレームは、上記で説明したターゲットオブジェクトのマスクが手動でラベリングされた画像フレームを含んでもよいし、画像分割モデルによりターゲットオブジェクトのマスクがラベル付けされた画像フレームを含んでもよい。

既にラベル付けされた任意の１つの画像フレームは、複数の検出ターゲット枠に対応することができる。１つのトレーニングサンプルは、１つの既にラベル付けされた画像フレーム及びこの既にラベル付けされた画像フレームに対応する１つの検出ターゲット枠を含む。したがって、１つの既にラベル付けされた画像フレームから、複数のトレーニングサンプルを選択して取得することができる。検出ターゲット枠とは、ターゲットオブジェクトの割合（占有率）が所定の閾値よりも大きい画像領域を指す。ある既にラベル付けされた画像フレームに枠を追加すると仮定し、この枠内の画像領域において、一部がターゲットオブジェクトに属し、一部がターゲットオブジェクトに属しない可能性があり、ターゲットオブジェクトに属する部分のこの枠における画素の割合（占有率）を計算し、画素の割合が所定の閾値より大きければ、この枠を検出ターゲット枠として決定し、そうでなければ、この枠を検出ターゲット枠として決定しない。該所定の閾値は、実際の需要に応じて予め設定することができ、例示的に、該所定の閾値は０．５である。また、上記枠は、矩形であってもよいし、他の形状であってもよく、本願の実施態様はこれを限定しない。

例示的な実施態様において、以下のようにトレーニングサンプルを選択する。既にラベル付けされた画像フレームに枠をランダムに散布し、枠に占めるターゲットオブジェクトの割合を計算し、枠に占めるターゲットオブジェクトの割合が所定の閾値より大きければ、該枠を既にラベル付けされた画像フレームに対応する検出ターゲット枠として決定するとともに、該既にラベル付けされた画像フレームと該検出ターゲット枠とをトレーニングサンプルとして選択する。

２．トレーニングサンプルによりターゲット検出モデルのパラメータを調整して、調整されたターゲット検出モデルを取得する。

任意選択で、Ｆａｓｔｅｒ－ＲＣＮＮネットワークをターゲット検出モデルのフレームワークとして選択する。上記選択されたトレーニングサンプルにより該ターゲット検出モデルのパラメータ（例えば、ネットワーク重み）を微調整して、調整されたターゲット検出モデルを取得する。例示的に、トレーニングサンプルによりターゲット検出モデルのパラメータを調整するプロセスにおいて、バッチサイズ（ｂａｔｃｈｓｉｚｅ）は１であってもよく、６００回り微調整し、また、枠のサイズ、アスペクト比などもトレーニングプロセスにおいて調整することができ、精度の高いターゲット検出モデルを最終的にトレーニングして得るようにする。

３．調整されたターゲット検出モデルによりターゲット画像フレームを処理して、局所検出マップを取得する。

ターゲット画像フレームを調整されたターゲット検出モデルに入力すると、該ターゲット画像フレームに対応する局所検出マップを取得することができる。

例示的な実施態様において、検出対象ビデオにおける１番目の画像フレーム内のターゲットオブジェクトのマスクは、手動でラベル付けされ、２番目の画像フレームから順にターゲットオブジェクトを分割して抽出する。検出対象ビデオにおけるｉ（ｉは１より大きい整数）番目の画像フレームに対応する局所検出マップを取得することが必要となる場合、１番目の画像フレーム及びｉ－１番目の画像フレームから少なくとも１つのトレーニングサンプルを選択し、該トレーニングサンプルにより現在のターゲット検出モデルのパラメータを調整して、調整されたターゲット検出モデルを取得し、次に該調整されたターゲット検出モデルによりｉ番目の画像フレームを処理して、該ｉ番目の画像フレームに対応する局所検出マップを取得することができる。

ステップ２０２では、ターゲット画像フレームに対応する相対動き顕著性マップを取得する。

相対動き顕著性マップは、ターゲットオブジェクトの動き情報に基づいて生成されるものである。ターゲットオブジェクトの検出対象ビデオの各画像フレームにおける位置は、静止したままではなく、動く可能性がある。例えば、ターゲットオブジェクトは、人、動物、車両などの移動可能なオブジェクトである場合、検出対象ビデオの各画像フレームにおける位置が変化する。動き情報は、該ターゲットオブジェクトの動き状況、すなわち異なる画像フレームにおける位置変化状況を反映する。例示的な実施態様において、近接画像フレーム間のオプティカルフローを検出することにより、相対動き顕著性マップを決定し、該オプティカルフローはターゲットオブジェクトの動き情報を反映する。コンピュータビジョンの分野において、オプティカルフローとは、ビデオ画像における各画素点の経時的な動き状況を指す。オプティカルフローは、豊富な動き情報を有するため、動き推定、自動運転及び行動識別の面で広く応用される。相対動き顕著性マップは、ターゲット画像フレームとはサイズが同じである。例えば、ターゲット画像フレームのサイズが８００＊６００画素であれば、相対動き顕著性マップのサイズも８００＊６００画素である。任意選択で、相対動き顕著性マップにおけるターゲット画素の値は、ターゲット画像フレームにおける該同じ位置でのターゲット画素がターゲットオブジェクトに属する確率を反映し、該確率はターゲット画素の動き情報に基づいて決定されるものである。

例示的な実施態様において、本ステップは、以下のようなサブステップ１及び２を含んでもよい。

１．ターゲット画像フレームと近接画像フレームとの間のオプティカルフローを算出する。

近接画像フレームとは、検出対象ビデオにおける、ターゲット画像フレームと位置が近接する画像フレームを指す。近接画像フレームの数は１つであってもよいし、複数であってもよく、本願の実施態様はこれを限定しない。近接画像フレームは、先行画像フレームを含んでもよいし、後続画像フレームを含んでもよいし、先行画像フレームと後続画像フレームとの両方を含んでもよい。ここで、先行画像フレームとは、検出対象ビデオにおける、ターゲット画像フレームよりも前の画像フレームを指し、後続画像フレームとは、検出対象ビデオにおける、ターゲット画像フレームよりも後の画像フレームを指す。任意選択で、先行画像フレームは、ターゲット画像フレームの直前の画像フレームであり、後続画像フレームは、ターゲット画像フレームの直後の画像フレームである。例えば、ターゲット画像フレームがｉ番目の画像フレームであれば、先行画像フレームはｉ－１番目の画像フレームであり、後続画像フレームはｉ＋１番目の画像フレームであり、ｉは１よりも大きい整数である。ターゲット画像フレームに対応するオプティカルフローを算出する場合、ターゲット画像フレームとその直前の画像フレームとの間のオプティカルフロー及び直後の画像フレームとの間のオプティカルフローを総合的に考慮すれば、効果はより高い。
任意選択で、ターゲット画像フレームと近接画像フレームとの間のオプティカルフローを算出するベースモデルとしてＦｌｏｗＮｅｔ２を用いる。ＦｌｏｗＮｅｔ２は、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、畳み込みニューラルネットワーク）を利用してオプティカルフローを抽出するモデルであり、速度が速く、精度が高いなどの利点を有する。

２．オプティカルフローに基づいて相対動き顕著性マップを生成する。

上記ステップによりターゲット画像フレームに対応するオプティカルフローを取得した後、該オプティカルフローに基づいてターゲット画像フレームに対応する相対動き顕著性マップを生成する。

例示的な実施態様において、以下のような方式２．１及び２．２で相対動き顕著性マップを生成する。

２．１、局所検出マップにおける背景領域のオプティカルフローに基づいて、背景オプティカルフローを決定する。

ここで、局所検出マップにおける背景領域とは、局所検出マップにおいて検出されたターゲットオブジェクトの所在する領域以外の残りの領域を指す。ターゲット検出モデルから出力されたターゲット画像フレームに対応する局所検出マップに基づいて、ターゲットオブジェクトの所在する領域及び背景領域を決定することができる。任意選択で、背景領域における各画素のオプティカルフローの平均値を背景オプティカルフローとする。

２．２、背景オプティカルフロー及びターゲット画像フレームに対応するオプティカルフローに基づいて、ターゲット画像フレームに対応する相対動き顕著性マップを生成する。

例示的な実施態様において、ＲＭＳ（ＲｏｏｔＭｅａｎＳｑｕａｒｅ、二乗平均平方根）により各画素のオプティカルフローと背景オプティカルフローとの間の差分を算出して、ターゲット画像フレームに対応する相対動き顕著性マップを取得する。任意選択で、二乗平均平方根値をより安定させるために、絶対オプティカルフローの２－ノルムを増加させ、２つの部分の割合を１：１にさせ、すなわち以下の式で相対動き顕著性マップにおける画素（ｍ，ｎ）の値ＲＭＳ_ｍ，ｎを算出することができる。

ただし、Ｏ_ｍ，ｎは画素（ｍ，ｎ）のオプティカルフローであり、ψは背景オプティカルフローである。

ステップ２０３では、局所検出マップと相対動き顕著性マップとに基づいて、ターゲット画像フレームに対応する制約情報を決定する。

制約情報は、ターゲット画像フレームにおける絶対正のサンプル画素、絶対負のサンプル画素及び不確定のサンプル画素を含む。ここで、絶対正のサンプル画素とは、ターゲット画像フレームにおいて、上記見かけ情報及び動き情報に基づいて決定された、ターゲットオブジェクトに属する画素を指す。絶対負のサンプル画素とは、ターゲット画像フレームにおいて、上記見かけ情報及び動き情報に基づいて決定された、ターゲットオブジェクトに属さない画素を指す。不確定のサンプル画素とは、ターゲット画像フレームにおいて、上記見かけ情報及び動き情報に基づいて、ターゲットオブジェクトに属するか否かを決定できない画素を指す。本願の実施態様において、制約情報は制約フローとも呼ばれる。

任意選択で、ターゲット画像フレームにおけるターゲット画素について、ターゲット画素の局所検出マップにおける値が第１の所定の条件を満たし、かつターゲット画素の相対動き顕著性マップにおける値が第２の所定の条件を満たせば、ターゲット画素が絶対正のサンプル画素であると決定し、ターゲット画素の局所検出マップにおける値が第１の所定の条件を満たさず、かつターゲット画素の相対動き顕著性マップにおける値が第２の所定の条件を満たさなければ、ターゲット画素が絶対負のサンプル画素であると決定し、ターゲット画素の局所検出マップにおける値が第１の所定の条件を満たし、かつターゲット画素の相対動き顕著性マップにおける値が第２の所定の条件を満たさないか、又は、ターゲット画素の局所検出マップにおける値が第１の所定の条件を満たさず、かつターゲット画素の相対動き顕著性マップにおける値が第２の所定の条件を満たせば、ターゲット画素が不確定のサンプル画素であると決定する。ここで、第１の所定の条件及び第２の所定の条件は、実際の状況に応じて予め設定されてもよい。

一例において、第１の所定の条件は、第１の閾値よりも大きいことであり、第２の所定の条件は、第２の閾値よりも大きいことである。例示的に、第１の閾値は０．７であり、第２の閾値は０．５である。該第１の閾値及び第２の閾値は実際の状況に応じて予め設定されてもよく、上記は例示的なものに過ぎない。

ステップ２０４では、制約情報により画像分割モデルのパラメータを調整し、調整された画像分割モデルを取得する。

ターゲット画像フレームに対応する制約情報を取得した後、該制約情報を利用して画像分割モデルに対して適応学習を行い、そのパラメータを微調整して、ターゲット画像フレームからターゲットオブジェクトを分割して抽出する時の正確度を向上させることができる。

例示的な実施態様において、画像分割モデルの正確度をさらに向上させるために、絶対正のサンプル画素及び絶対負のサンプル画素を採用して、画像分割モデルのパラメータを調整し、調整された画像分割モデルを取得する。すなわち、画像分割モデルのパラメータを調整する際に、絶対正のサンプル画素及び絶対負のサンプル画素のみを採用し、不確定のサンプル画素を考慮しない。

任意選択で、画像分割モデルの損失関数はクロスエントロピー損失関数とすることができ、その表現式は以下のとおりである。

ただし、Ｌは損失関数の値を示し、ｘはターゲット画像フレームであり、Ｙはターゲット画像フレームｘの画素レベルの制約情報であり、Ｙ_＋及びＹ_－はそれぞれ絶対正のサンプル画素及び絶対負のサンプル画素であり、Ｐ（□）は画像分割モデルのターゲット画像フレームｘに対する予測結果である。該損失関数の表現式は、不確定のサンプル画素の損失を算出しない点で従来の損失関数の表現式と異なる。このようにして、信頼できない領域を無視し、信頼領域をよりよく学習することができる。

ステップ２０５では、調整された画像分割モデルにより、ターゲット画像フレームにおけるターゲットオブジェクトを抽出する。

調整された画像分割モデルを取得した後、該ターゲット画像フレームを調整された画像分割モデルに入力し、該ターゲット画像フレームにおけるターゲットオブジェクトを分割して抽出する。

なお、画像分割モデルは、１画像フレームごとに適応調整トレーニングを１回行ってもよいし、複数の画像フレーム（例えば、５つの画像フレーム）ごとに適応調整トレーニングを１回行ってもよい。近接画像フレームにおけるターゲットオブジェクトの位置変化が小さいことを考慮するため、画像分割モデルは、複数の画像フレームごとに適応調整トレーニングを１回行い、モデル精度が損なわれることをできるだけ回避する前提で、計算量を減少させ、ビデオ全体に対する処理効率を向上させることができる。また、１回の適応調整トレーニングについては、１回り（ラウンド）トレーニングしてもよいし、複数の回り（例えば、３回り）トレーニングしてもよく、本願の実施態様はこれを限定しない。

本願の実施態様において、制約情報により画像分割モデルのパラメータを調整し、制約情報がターゲットオブジェクトの見かけ情報及び動き情報を統合するため、一方では検出対象ビデオ内のターゲットオブジェクトの異なる画像フレームにおける見かけ差異が大きいという問題を解消することができ、他方では適応学習プロセスにおける誤差伝播を減少させることができ、また、この２つの部分の相補により、毎回のモデルパラメータの更新のためのより正確な指導を生成し、モデルパラメータの調整プロセスをよりよく制約することができる。

図３は、本願の技術解決策の全体的なフローの概略図を例示的に示す。検出対象ビデオにおけるターゲット画像フレームを分割することを例として、ターゲット検出モデルによりターゲット画像フレームに対応する検出ターゲット枠を抽出し、さらに局所検出マップを取得し、オプティカルフローモデルによりターゲット画像フレームに対応するオプティカルフローを抽出するとともに、ターゲット画像フレームに対応する相対動き顕著性マップをさらに算出し、局所検出マップと相対動き顕著性マップとを融合して、制約情報を取得する。該制約情報及び損失関数により、画像分割モデルのパラメータを調整し、調整された画像分割モデルを取得する。最後に、該調整された画像分割モデルにより、ターゲット画像フレームにおけるターゲットオブジェクトを抽出する。画像分割モデルは、特徴抽出器、空間膨張畳み込みモジュール、逆畳み込みアップサンプリングモジュールなどの構成部分を含んでよい。画像分割モデルの具体的な構造については、以下の実施態様の説明を参照することができる。

また、図４に示すように、ターゲット検出モデルのパラメータ調整プロセスの概略図を例示的に示している。既にラベル付けされた画像フレームにおいて枠をランダムに選択し、枠に占めるターゲットオブジェクトの割合を算出し、該割合に基づいてターゲット検出モデルのトレーニングサンプルを選択する。トレーニングサンプルによりターゲット検出モデルのパラメータを微調整して、調整されたターゲット検出モデルを取得する。その後、ターゲット画像フレームを調整されたターゲット検出モデルに入力して、該ターゲット画像フレームに対応する局所検出マップを取得する。

以上説明したように、本願の実施態様に係る技術解決策において、制約情報により画像分割モデルのパラメータを調整し、制約情報がターゲットオブジェクトの見かけ情報及び動き情報の２つの要因を統合して得られたものであるため、一方では検出対象ビデオ内のターゲットオブジェクトの異なる画像フレームにおける見かけ差異が大きいという問題を解消することができ、他方では適応学習プロセスにおける誤差伝播を減少させることができ、また、この２つの部分の相補により、毎回のモデルパラメータの更新のためのより正確な指導を生成することで、モデルパラメータの調整プロセスをよりよく制約することができ、パラメータ調整された画像分割モデルの性能にさらに優れ、最終的にターゲット画像フレームから分割して抽出されたターゲットオブジェクトの正確度がより高いようにする。

また、前後の画像フレーム間のオプティカルフローを算出して、ターゲットオブジェクトの前後の画像フレームにおける動き情報を体現することにより、動き情報をより正確に特徴付けることができる。

また、制約情報により画像分割モデルのパラメータを調整する場合、絶対正のサンプル画素及び絶対負のサンプル画素の損失のみを考慮し、不確定のサンプル画素の損失を排除し、画像分割モデルの正確度をさらに向上させることに役立つ。

例示的な実施態様において、画像分割モデルのプリトレーニングプロセスは以下のとおりである。
１．初期の画像分割モデルを構築する。
２．第１のサンプルセットを用いて初期の画像分割モデルに初期トレーニングを行って、初期トレーニングされた画像分割モデルを取得する。
３．第２のサンプルセットを用いて、初期トレーニングされた画像分割モデルに再トレーニングを行って、プリトレーニング済みの画像分割モデルを取得する。

初期の画像分割モデルは、エンドツーエンドのトレーニング可能な畳み込みニューラルネットワークであってもよく、その入力は１つの画像であり、その出力は該画像内のターゲットのマスクである。一例において、ＤｅｅｐｌａｂＶ３＋をエンドツーエンドのトレーニング可能な畳み込みニューラルネットワークとして選択し、ネットワークは、入力された３チャネルのピクチャ情報を取得した後、同等の大きさの予測マスクパターンを返すことができる。図５に示すように、画像分割モデルのアーキテクチャ図を例示的に示す。最初に、ＲｅｓＮｅｔ畳み込みニューラルネットワークを基礎特徴抽出器として使用し、第五層のＲｅｓＮｅｔモデルの後にＡＳＰＰ（ＡｔｒｏｕｓＳｐａｔｉａｌＰｙｒａｍｉｄＰｏｏｌｉｎｇ、Ａｔｒｏｕｓ空間ピラミッドプール化）モジュールを追加し、異なるスケールの膨張畳み込み（ＡｔｒｏｕｓＣｏｎｖｏｌｕｔｉｏｎ）を運用して処理し、特徴を出力し、第三層のＲｅｓＮｅｔモデルにより抽出された特徴を融合し、これにより、各スケールでの分割予測結果をよりよく回復し、さらに逆畳み込み又はアップサンプリングにより、ネットワークで学習した特徴を高解像度に返すことにより、画像分割モデルの正確率を効果的に向上させることができる。ビデオの各フレームに対し、ネットワークは対応するスケールの応答マップを１枚出力し、この応答マップは分割の確率予測結果である。ＲｅｓＮｅｔネットワークの深さの増加に伴い、対応する特徴抽出能力も増加し、ネットワークモデルのパラメータも同様に増加し、トレーニング時間も増加する。本願の実施態様は、ＲｅｓＮｅｔ１０１ネットワークをＤｅｅｐｌａｂＶ３＋特徴抽出器の基礎ネットワークとして選択する。基礎畳み込みニューラルネットワークの後に、ＡＳＰＰモジュールを接続するとともに、第三層のＲｅｓＮｅｔモデルにより抽出された特徴を導入して、逆畳み込みプロセス及び２つの逆畳み込みのアップサンプリングモジュールに入れることにより、高解像度の分割結果予測マップを取得する。

第１のサンプルセットに少なくとも１つのラベル付きのピクチャが含まれ、第２のサンプルセットに少なくとも１つのラベル付きのビデオが含まれる。例示的に、ＰａｓｃａｌＶＯＣデータベースを第１のサンプルセットとして選択し、ＰａｓｃａｌＶＯＣデータベースは、２９１３個の画素レベルでラベル付けされた画像分割データを有する。画像のセマンティックセグメンテーションを学習することにより、画像分割モデルをよりよくトレーニングすることができる。初期トレーニングは、バッチサイズが４で、８０００回りトレーニングすることができる。例示的に、ＤＡＶＩＳ１６データベースを第２のサンプルセットとして選択し、画像分割モデルをターゲット分割タスクに適応させる。ＤＡＶＩＳ１６データベースは、５０個の画素レベルでラベル付けされたビデオ、合計３４５５フレームを有し、そのうちの３０個がトレーニングに用いられ、２０個がテストに用いられる。任意選択で、画像分割モデルをトレーニングするプロセスにおいて、サンプルにデータ拡張を行い、例えば元画像を複数の異なるスケールに拡張し、例えば元画像のサイズを０．８倍、１．２倍及び１．６倍スケーリングすることにより、画像分割モデルを異なるスケールの画像に対応させることができる。任意選択で、初期学習率を０．００１とし、各バッチで４個のサンプルを学習し、２４００回りごとに元の学習率の１／１０に低下させ、合計で６０００回りトレーニングして、最終的にプリトレーニング済みの画像分割モデルを取得する。

なお、上記画像分割モデルのプリトレーニングプロセスは、上記説明したビデオターゲット追跡方法を実行するコンピュータ装置において実行されてもよいし、該コンピュータ装置以外の他の装置において実行されてもよく、その後に他の装置はプリトレーニング済みの画像分割モデルをコンピュータ装置に提供し、該コンピュータ装置は該プリトレーニング済みの画像分割モデルにより上記ビデオターゲット追跡方法を実行する。画像分割モデルのプリトレーニングプロセスがコンピュータ装置又は他の装置で実行されるかに関わらず、コンピュータ装置は、検出対象ビデオにビデオターゲット追跡を行う時、該検出対象ビデオを用いてプリトレーニング済みの画像分割モデルのパラメータに適応学習及び調整を行う必要があり、これにより、該画像分割モデルは、各フレームに対して正確な分割結果を出力することができる。

従来のオンライン自己適応のビデオターゲット追跡方法では、フレームごとに画像分割モデルに適応トレーニングプロセスを１回行い、モデルパラメータの調整を学習し、調整の根拠は直前のフレームの予測結果である。例えば、直前のフレームの予測結果に対してエロージョンアルゴリズムを用いて絶対正のサンプル画素を生成し、さらに絶対正のサンプルから一定のユークリッド距離以外の画素を絶対負のサンプル画素として設定し、このような制約条件によりモデルパラメータの調整を指導し、最後に調整された画像分割モデルにより検出対象のターゲット画像フレームの分割結果を予測する。

本願の実施態様に係る方法に比べて、従来の方法は前のフレームの正確性により多く依存し、より粗くなり、詳細情報を取得しにくいのに対して、本願の実施態様に係る方法は、動き情報及び見かけ情報をよりよく考慮することにより、適応学習プロセスを監督し、さらに局所詳細をよりよく保持することができる。本願の実施態様に係る方法を採用すれば、適応学習プロセスにおいてラベル付けされた絶対正のサンプル画素及び絶対負のサンプル画素はより正確で確実であり、不確定のサンプル画素の数はより少ない。図６に示すように、本願の実施態様に係る方法で、適応学習プロセスにおいてラベル付けされた絶対正のサンプル画素、絶対負のサンプル画素及び不確定のサンプル画素の概略図を例示的に示し、図６の白色領域６１における画素は、絶対正のサンプル画素であり、黒色領域６２における画素は、絶対負のサンプル画素であり、灰色領域６３における画素は、不確定のサンプル画素である。図６から分かるように、不確定のサンプル画素は割合が少なく、より正確で確実なエッジを有する。

実験により、本願の実施態様に係る方法を用いた制約情報の正確度を以下の表－１に示す。

上記表－１から分かるように、本願の実施態様に係る方法で得られた制約情報を採用する場合、正と負のサンプルの正確率が高いだけでなく、不確定サンプルの割合が少ないため、本願の実施態様に係る方法の有効性を証明することができる。特にマスク伝播に適しないビデオシーケンスの場合、すなわち追跡しようとするターゲットオブジェクトが動いているオブジェクトである場合、本願の実施態様に係る方法で得られた結果はより目立つ。また、ターゲットオブジェクトの見かけがはっきりし、特徴が明らかである分割問題について、本願の実施態様に係る方法は、非常に正確な結果が得られる。

本願の実施態様に係る方法は、ビデオターゲット分割の精度を顕著に向上させ、ターゲットオブジェクトの動き情報と見かけ情報との融合をよりよく考慮し、ビデオターゲット分割における遮蔽、外観変化が大きく、背景が乱雑であるなどの特殊な状況に対して、モデルの適応学習プロセスに効果的な制約を行い、かつ導入された最適化後の損失関数によりモデルの学習プロセスを制約し、ビデオにおけるターゲット分割の正確率の向上を実現することができる。

なお、図２のフローチャートの各ステップは、矢印の指した順序で示されているが、これらのステップは、必ずしも矢印の指した順序で実行されるものではない。本明細書で明確に説明しない限り、これらのステップの実行は、厳密な順序に限定されず、他の順序で実行されてもよい。さらに、図２における少なくとも一部のステップは、複数のサブステップ又は複数の段階を含んでもよく、これらのサブステップ又は段階は、必ずしも同じ時刻で実行されるものではなく、異なる時刻で実行されてもよいものであり、これらのサブステップ又は段階の実行順序も、必ずしも順次行われるものではなく、その他のステップ又はその他のステップのサブステップ或いは段階の少なくとも一部と順番に又は交互に実行されてもよいものである。

以下、本願の方法の実施態様を実行することができる本願の装置の実施態様である。本願の装置の実施態様に開示されない詳細について、本願の方法の実施態様を参照する。

図７は、本願の一実施態様に係るビデオターゲット追跡装置のブロック図を示す。該装置は、上記方法の例を実現する機能を有し、上記機能は、ハードウェアによって実現されてもよいし、ハードウェアによって対応するソフトウェアを実行することにより実現されてもよい。該装置は、コンピュータ装置であってもよいし、コンピュータ装置に設けられたものであってもよい。該装置７００は、検出マップ取得モジュール７１０、動きマップ取得モジュール７２０、制約情報取得モジュール７３０、モデル調整モジュール７４０及びターゲット分割モジュール７５０を含むことができる。

検出マップ取得モジュール７１０は、検出対象ビデオにおけるターゲット画像フレームに対応する局所検出マップを取得し、上記局所検出マップは、上記検出対象ビデオにおける、画像分割モデルにより追跡することが必要となるターゲットオブジェクトの見かけ情報に基づいて生成されるものであり、上記画像分割モデルは、上記検出対象ビデオの画像フレームから上記ターゲットオブジェクトを分割して抽出するためのニューラルネットワークモデルである。

動きマップ取得モジュール７２０は、上記ターゲット画像フレームに対応する相対動き顕著性マップを取得し、上記相対動き顕著性マップは、上記ターゲットオブジェクトの動き情報に基づいて生成されるものである。

制約情報取得モジュール７３０は、上記局所検出マップと上記相対動き顕著性マップとに基づいて、上記ターゲット画像フレームに対応する制約情報を決定し、上記制約情報に、上記ターゲット画像フレームにおける絶対正のサンプル画素、絶対負のサンプル画素及び不確定のサンプル画素が含まれる。

モデル調整モジュール７４０は、上記制約情報により画像分割モデルのパラメータを調整し、調整された画像分割モデルを取得する。

ターゲット分割モジュール７５０は、上記調整された画像分割モデルにより、上記ターゲット画像フレームにおける上記ターゲットオブジェクトを抽出する。

以上説明したように、本願の実施態様に係る技術解決策において、制約情報により画像分割モデルのパラメータを調整し、制約情報がターゲットオブジェクトの見かけ情報及び動き情報の２つの要因を統合して得られたものであるため、一方では検出対象ビデオ内のターゲットオブジェクトの異なる画像フレームにおける見かけ差異が大きいという問題を解消することができ、他方では適応学習プロセスにおける誤差伝播を減少させることができ、同時に、この２つの部分の相補により、毎回のモデルパラメータの更新のためのより正確な指導を生成することで、モデルパラメータの調整プロセスをよりよく制約することができ、パラメータ調整された画像分割モデルの性能にさらに優れ、最終的にターゲット画像フレームから分割して抽出されたターゲットオブジェクトの正確度がより高いようにする。

例示的な実施態様において、図８に示すように、上記検出マップ取得モジュール７１０は、サンプル選択サブモジュール７１１、モデル調整サブモジュール７１２及び検出マップ取得サブモジュール７１３を含む。

サンプル選択サブモジュール７１１は、上記検出対象ビデオの既にラベル付けされた画像フレームから、少なくとも１つのトレーニングサンプルを選択し、上記トレーニングサンプルには、上記既にラベル付けされた画像フレームと、上記既にラベル付けされた画像フレームに対応する検出ターゲット枠とが含まれ、上記検出ターゲット枠とは、上記ターゲットオブジェクトの割合が所定の閾値よりも大きい画像領域を指す。

モデル調整サブモジュール７１２は、上記トレーニングサンプルによりターゲット検出モデルのパラメータを調整し、調整されたターゲット検出モデルを取得する。

検出マップ取得サブモジュール７１３は、上記調整されたターゲット検出モデルにより上記ターゲット画像フレームを処理して、上記局所検出マップを取得する。
例示的な実施態様において、上記サンプル選択サブモジュール７１１は、
上記既にラベル付けされた画像フレームに枠をランダムに散布し、
上記枠に占める上記ターゲットオブジェクトの割合を算出し、
上記枠に占める上記ターゲットオブジェクトの割合が上記所定の閾値よりも大きければ、上記枠を上記既にラベル付けされた画像フレームに対応する検出ターゲット枠として決定するとともに、上記既にラベル付けされた画像フレームと上記検出ターゲット枠とを上記トレーニングサンプルとして選択する。

例示的な実施態様において、図８に示すように、上記動きマップ取得モジュール７２０は、オプティカルフロー算出サブモジュール７２１及び動きマップ取得サブモジュール７２２を含む。

オプティカルフロー算出サブモジュール７２１は、上記ターゲット画像フレームと近接画像フレームとの間のオプティカルフローを算出する。

動きマップ取得サブモジュール７２２は、上記オプティカルフローに基づいて上記相対動き顕著性マップを生成する。
例示的な実施態様において、上記動きマップ取得サブモジュール７２２は、
上記局所検出マップにおける背景領域のオプティカルフローに基づいて、背景オプティカルフローを決定し、上記局所検出マップにおける背景領域とは、上記局所検出マップにおいて検出された上記ターゲットオブジェクトの所在する領域以外の残りの領域であり、
上記背景オプティカルフロー及び上記ターゲット画像フレームに対応する上記オプティカルフローに基づいて、上記相対動き顕著性マップを生成する。

例示的な実施態様において、上記制約情報取得モジュール７３０は、
上記ターゲット画像フレームにおけるターゲット画素について、
上記ターゲット画素の上記局所検出マップにおける値が第１の所定の条件を満たし、かつ上記ターゲット画素の上記相対動き顕著性マップにおける値が第２の所定の条件を満たす場合、上記ターゲット画素が上記絶対正のサンプル画素であると決定し、
上記ターゲット画素の上記局所検出マップにおける値が上記第１の所定の条件を満たさず、かつ上記ターゲット画素の上記相対動き顕著性マップにおける値が上記第２の所定の条件を満たさない場合、上記ターゲット画素が上記絶対負のサンプル画素であると決定し、
上記ターゲット画素の上記局所検出マップにおける値が上記第１の所定の条件を満たし、かつ上記ターゲット画素の上記相対動き顕著性マップにおける値が上記第２の所定の条件を満たさないか、又は、上記ターゲット画素の上記局所検出マップにおける値が上記第１の所定の条件を満たさず、かつ上記ターゲット画素の上記相対動き顕著性マップにおける値が上記第２の所定の条件を満たす場合、上記ターゲット画素が上記不確定のサンプル画素であると決定する。

例示的な実施態様において、上記モデル調整モジュール７４０は、上記絶対正のサンプル画素と上記絶対負のサンプル画素とを用いて上記画像分割モデルを再トレーニングし、上記調整された画像分割モデルを取得する。

例示的な実施態様において、上記画像分割モデルのプリトレーニングプロセスは以下のとおりである。

初期の画像分割モデルを構築し、
少なくとも１つのラベル付きのピクチャが含まれる第１のサンプルセットを用いて上記初期の画像分割モデルに初期トレーニングを行い、初期トレーニングされた画像分割モデルを取得し、
少なくとも１つのラベル付きのビデオが含まれる第２のサンプルセットを用いて上記初期トレーニングされた画像分割モデルに再トレーニングを行い、プリトレーニング済みの画像分割モデルを取得する。

なお、上記実施態様に係る装置は、その機能を実現する場合に、上記各機能モジュールの区分のみを例として説明し、実際の応用において、必要に応じて上記機能を割り当てて異なる機能モジュールにより完了し、つまり、装置の内部構成を異なる機能モジュールに分割して、以上に説明した全て又は一部の機能を完了することができる。また、上記実施態様に係る装置と方法は、同じ構想に属し、それらの具体的な実現プロセスの詳細について、方法の実施態様を参照すればよいため、ここでは説明を省略する。

図９は、本願の一実施態様に係るコンピュータ装置９００の構成ブロック図を示す。該コンピュータ装置９００は、携帯電話、タブレットコンピュータ、電子ブックリーダ装置、ウェアラブル装置、スマートテレビ、マルチメディア再生装置、ＰＣ、サーバなどであってもよい。

一般的に、端末９００は、プロセッサ９０１及びメモリ９０２を含む。

プロセッサ９０１は、例えば、４コアプロセッサ、８コアプロセッサなどの１つ以上の処理コアを含んでよい。プロセッサ９０１は、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ、デジタル信号処理）、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、フィールドプログラマブルゲートアレイ）、ＰＬＡ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＡｒｒａｙ、プログラマブルロジックアレイ）のうちの少なくとも１つのハードウェアの形態で実現されてよい。プロセッサ９０１は、アウェイク状態でのデータを処理するためのプロセッサであり、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、中央処理装置）とも呼ばれるホストプロセッサと、スタンバイ状態でのデータを処理するための低消費電力プロセッサであるコプロセッサとを含んでもよい。一部の実施態様において、プロセッサ９０１には、ディスプレイに表示されるコンテンツのレンダリング及びプロットを担当するためのＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、画像処理装置）が集積されてよい。一部の実施態様において、プロセッサ９０１は、機械学習に関する運算操作を処理するためのＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、人工知能）プロセッサをさらに含んでもよい。

メモリ９０２は、非一時的であってもよい１つ以上のコンピュータ可読記憶媒体を含んでもよい。メモリ９０２は、高速ランダムアクセスメモリ及び１つ以上の磁気ディスク記憶装置、フラッシュメモリ記憶装置のような不揮発性メモリをさらに含んでよい。一部の実施態様において、メモリ９０２の非一時的コンピュータ可読記憶媒体は、プロセッサ９０１によって実行されると、本願における方法の実施態様に係るビデオターゲット追跡方法が実現されるコンピュータプログラムを記憶する。

一部の実施態様において、端末９００は、周辺機器インタフェース９０３及び少なくとも１つの周辺機器をさらに含んでもよい。プロセッサ９０１と、メモリ９０２と、周辺機器インタフェース９０３とは、バス又は信号線を介して接続することができる。各周辺機器は、バス、信号線又は回路基板を介して周辺機器インタフェース９０３に接続することができる。具体的には、周辺機器は、無線周波数回路９０４、ディスプレイ９０５、カメラコンポーネント９０６、オーディオ回路９０７、測位コンポーネント９０８及び電源９０９のうちの少なくとも１つを含んでよい。

当業者であれば理解できるように、上記方法の実施態様の全部又は一部の流れは、コンピュータプログラムから関連のハードウェアへ指示することにより実現されてもよく、上記プログラムは不揮発性コンピュータ可読記憶媒体に記憶されることができ、このプログラムが実行されると、上記のような各方法の実施態様の手順を実行させることができる。ここで、本願で提供された各実施態様に用いられる、メモリ、ストレージ、データベース、又は他の媒体へのいかなる引用でも、不揮発性及び／又は揮発性メモリを含んでもよい。不揮発性メモリは、読み出し専用メモリ（ＲＯＭ）、プログラマブルＲＯＭ（ＰＲＯＭ）、電気的プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）、又はフラッシュメモリを含んでもよい。揮発性メモリは、ランダムアクセスメモリ（ＲＡＭ）、又は外部キャッシュを含んでもよい。限定ではなく例示として、ＲＡＭは、例えば、スタティックＲＡＭ（ＳＲＡＭ）、ダイナミックＲＡＭ（ＤＲＡＭ）、シンクロナスＤＲＡＭ（ＳＤＲＡＭ）、ダブルデータレートＳＤＲＡＭ（ＤＤＲＳＤＲＡＭ）、エンハンスドＳＤＲＡＭ（ＥＳＤＲＡＭ）、シンクリンク（Ｓｙｎｃｈｌｉｎｋ）ＤＲＡＭ（ＳＬＤＲＡＭ）、ダイレクト・ラムバス（Ｒａｍｂｕｓ）ＲＡＭ（ＲＤＲＡＭ）、ダイレクト・ラムバス・ダイナミックＲＡＭ（ＤＲＤＲＡＭ）、及びラムバス・ダイナミックＲＡＭ（ＲＤＲＡＭ）などの多くの形態で利用可能である。

当業者が理解できるように、図９に示す構成は、端末９００を限定するものではなく、図示より多い又は少ないコンポーネントを含んでもよいし、一部のコンポーネントを組み合わせてもよいし、異なるコンポーネントの配置を用いてもよい。

例示的な実施態様において、プロセッサと、少なくとも１つの命令、少なくとも１つのプログラム、コードセット又は命令セットが記憶されているメモリとを含むコンピュータ装置を提供する。上記少なくとも１つの命令、少なくとも１つのプログラム、コードセット又は命令セットは、１つ以上のプロセッサによって実行されると、上記ビデオターゲット追跡方法が実現されるように構成される。

例示的な実施態様において、コンピュータ装置のプロセッサによって実行されると、上記ビデオターゲット追跡方法が実現される少なくとも１つの命令、少なくとも１つのプログラム、コードセット又は命令セットが記憶されているコンピュータ可読記憶媒体をさらに提供する。

任意選択で、上記コンピュータ可読記憶媒体は、ＲＯＭ、ランダムアクセスメモリ（ＲＡＭ）、ＣＤ－ＲＯＭ、磁気テープ、フロッピーディスク及び光データ記憶装置などであってもよい。

例示的な実施態様において、実行されると、上記ビデオターゲット追跡方法が実現されるコンピュータプログラム製品をさらに提供する。

理解すべきこととして、本明細書に説明されたステップ番号は、単にステップ間の一つの可能な実行順序を例示的に示し、他の実施態様において、上記ステップを番号順序に応じて実行しなくてもよく、例えば、２つの異なる番号のステップを同時に実行するか、又は２つの異なる番号のステップを図示と逆の順序に応じて実行し、本願の実施態様はこれを限定しない。

当業者であれば理解できるように、上記実施態様の全部又は一部のステップの実現はハードウェアにより完了してもよいし、プログラムから関連するハードウェアへ命令することにより完了してもよく、上記プログラムはコンピュータ可読記憶媒体に記憶されることができ、上述した記憶媒体はリードオンリーメモリ、磁気ディスク、又は光ディスクなどであってもよい。

以上の実施態様の各技術的特徴を任意に組み合わせることができ、説明の便宜上、上記実施態様における各技術的特徴の全ての可能な組み合わせを説明していないが、これらの技術的特徴の組み合わせに矛盾がない限り、本明細書に記載されている範囲に属すると考えられるべきである。以上の実施態様は、本願のいくつかの実施形態を説明したものに過ぎず、その説明が具体的かつ詳細であるが、これにより本願の特許範囲への限定と理解されるわけにはいかない。なお、当業者であれば、本願の構想から逸脱しない前提で、変形及び改良を行うことができ、これらも本発明の保護範囲に属する。それゆえ、本願の特許保護範囲は、添付の特許請求の範囲に従うべきである。

Claims

コンピュータ装置が実行するビデオターゲット追跡方法であって、
検出対象ビデオにおけるターゲット画像フレームに対応する局所検出マップを取得するステップであって、前記局所検出マップは、前記検出対象ビデオにおける、画像分割モデルにより追跡することが必要となるターゲットオブジェクトの見かけ情報に基づいて生成されるものである、ステップと、
前記ターゲット画像フレームに対応する相対動き顕著性マップを取得するステップであって、前記相対動き顕著性マップは、前記ターゲットオブジェクトの動き情報に基づいて生成されるものである、ステップと、
前記局所検出マップと前記相対動き顕著性マップとに基づいて、前記ターゲット画像フレームに対応する制約情報を決定するステップであって、前記制約情報に、前記ターゲット画像フレームにおける絶対正のサンプル画素、絶対負のサンプル画素及び不確定のサンプル画素が含まれる、ステップと、
前記制約情報により前記画像分割モデルのパラメータを調整し、調整された画像分割モデルを取得するステップと、
前記調整された画像分割モデルにより、前記ターゲット画像フレームにおける前記ターゲットオブジェクトを抽出するステップと、を含むことを特徴とする方法。
検出対象ビデオにおけるターゲット画像フレームに対応する局所検出マップを取得する前記ステップは、
前記検出対象ビデオの既にラベル付けされた画像フレームから、少なくとも１つのトレーニングサンプルを選択するステップであって、前記トレーニングサンプルには、前記既にラベル付けされた画像フレームと、前記既にラベル付けされた画像フレームに対応する検出ターゲット枠とが含まれ、前記検出ターゲット枠とは、前記検出ターゲット枠に占める前記ターゲットオブジェクトの割合が所定の閾値よりも大きい画像領域を指す、ステップと、
前記トレーニングサンプルによりターゲット検出モデルのパラメータを調整し、調整されたターゲット検出モデルを取得するステップと、
前記調整されたターゲット検出モデルにより前記ターゲット画像フレームを処理し、前記局所検出マップを取得するステップと、を含むことを特徴とする請求項１に記載の方法。
前記検出対象ビデオの既にラベル付けされた画像フレームから、少なくとも１つのトレーニングサンプルを選択する前記ステップは、
前記既にラベル付けされた画像フレームに枠をランダムに散布するステップと、
ランダムに散布された前記枠に占める前記ターゲットオブジェクトの割合を算出するステップと、
前記枠に占める前記ターゲットオブジェクトの割合が前記所定の閾値よりも大きければ、前記枠を前記既にラベル付けされた画像フレームに対応する検出ターゲット枠として決定するとともに、前記既にラベル付けされた画像フレームと前記検出ターゲット枠とを前記トレーニングサンプルとして選択するステップと、を含むことを特徴とする請求項２に記載の方法。
前記ターゲット画像フレームに対応する相対動き顕著性マップを取得する前記ステップは、
前記ターゲット画像フレームと近接画像フレームとの間のオプティカルフローを算出するステップと、
前記オプティカルフローに基づいて、前記相対動き顕著性マップを生成するステップと、を含むことを特徴とする請求項１に記載の方法。
前記オプティカルフローに基づいて、前記相対動き顕著性マップを生成する前記ステップは、
前記局所検出マップにおける背景領域のオプティカルフローに基づいて、背景オプティカルフローを決定するステップであって、前記局所検出マップにおける背景領域とは、前記局所検出マップにおいて検出された前記ターゲットオブジェクトの所在する領域以外の残りの領域を指す、ステップと、
前記背景オプティカルフロー及び前記ターゲット画像フレームに対応する前記オプティカルフローに基づいて、前記相対動き顕著性マップを生成するステップと、を含むことを特徴とする請求項４に記載の方法。
前記局所検出マップと前記相対動き顕著性マップとに基づいて、前記ターゲット画像フレームに対応する制約情報を決定する前記ステップは、
前記ターゲット画像フレームにおけるターゲット画素について、
前記ターゲット画素の前記局所検出マップにおける値が第１の所定の条件を満たし、かつ前記ターゲット画素の前記相対動き顕著性マップにおける値が第２の所定の条件を満たせば、前記ターゲット画素が前記絶対正のサンプル画素であると決定するステップ、
前記ターゲット画素の前記局所検出マップにおける値が前記第１の所定の条件を満たさず、かつ前記ターゲット画素の前記相対動き顕著性マップにおける値が前記第２の所定の条件を満たさなければ、前記ターゲット画素が前記絶対負のサンプル画素であると決定するステップ、
前記ターゲット画素の前記局所検出マップにおける値が前記第１の所定の条件を満たし、かつ前記ターゲット画素の前記相対動き顕著性マップにおける値が前記第２の所定の条件を満たさなければ、前記ターゲット画素が前記不確定のサンプル画素であると決定するステップ、又は、
前記ターゲット画素の前記局所検出マップにおける値が前記第１の所定の条件を満たさず、かつ前記ターゲット画素の前記相対動き顕著性マップにおける値が前記第２の所定の条件を満たせば、前記ターゲット画素が前記不確定のサンプル画素であると決定するステップを含むことを特徴とする請求項１～５のいずれか一項に記載の方法。
前記制約情報により画像分割モデルのパラメータを調整し、調整された画像分割モデルを取得する前記ステップは、
前記絶対正のサンプル画素と前記絶対負のサンプル画素とを用いて、前記画像分割モデルのパラメータを調整し、前記調整された画像分割モデルを取得するステップを含むことを特徴とする請求項１～５のいずれか一項に記載の方法。
前記画像分割モデルのプリトレーニングプロセスは、
初期の画像分割モデルを構築するステップと、
第１のサンプルセットを用いて前記初期の画像分割モデルに初期トレーニングを行い、初期トレーニングされた画像分割モデルを取得するステップであって、前記第１のサンプルセットに少なくとも１つのラベル付きのピクチャが含まれる、ステップと、
第２のサンプルセットを用いて前記初期トレーニングされた画像分割モデルに再トレーニングを行い、プリトレーニング済みの画像分割モデルを取得するステップであって、前記第２のサンプルセットに少なくとも１つのラベル付きのビデオが含まれる、ステップと、を含むことを特徴とする請求項１～５のいずれか一項に記載の方法。
ビデオターゲット追跡装置であって、
検出対象ビデオにおけるターゲット画像フレームに対応する局所検出マップを取得する検出マップ取得モジュールであって、前記局所検出マップは、前記検出対象ビデオにおける、画像分割モデルにより追跡することが必要となるターゲットオブジェクトの見かけ情報に基づいて生成されるものであり、前記画像分割モデルは、前記検出対象ビデオの画像フレームから前記ターゲットオブジェクトを分割して抽出するためのニューラルネットワークモデルである、検出マップ取得モジュールと、
前記ターゲット画像フレームに対応する相対動き顕著性マップを取得する動きマップ取得モジュールであって、前記相対動き顕著性マップは、前記ターゲットオブジェクトの動き情報に基づいて生成されるものである、動きマップ取得モジュールと、
前記局所検出マップと前記相対動き顕著性マップとに基づいて、前記ターゲット画像フレームに対応する制約情報を決定する制約情報取得モジュールであって、前記制約情報に、前記ターゲット画像フレームにおける絶対正のサンプル画素、絶対負のサンプル画素及び不確定のサンプル画素が含まれる、制約情報取得モジュールと、
前記制約情報により前記画像分割モデルのパラメータを調整し、調整された画像分割モデルを取得するモデル調整モジュールと、
前記調整された画像分割モデルにより、前記ターゲット画像フレームにおける前記ターゲットオブジェクトを抽出するターゲット分割モジュールと、を含むことを特徴とする装置。
前記検出マップ取得モジュールは、
前記検出対象ビデオの既にラベル付けされた画像フレームから、少なくとも１つのトレーニングサンプルを選択するサンプル選択サブモジュールであって、前記トレーニングサンプルには、前記既にラベル付けされた画像フレームと、前記既にラベル付けされた画像フレームに対応する検出ターゲット枠とが含まれ、前記検出ターゲット枠とは、前記ターゲットオブジェクトの割合が所定の閾値よりも大きい画像領域を指す、サンプル選択サブモジュールと、
前記トレーニングサンプルによりターゲット検出モデルのパラメータを調整し、調整されたターゲット検出モデルを取得するモデル調整サブモジュールと、
前記調整されたターゲット検出モデルにより前記ターゲット画像フレームを処理し、前記局所検出マップを取得する検出マップ取得サブモジュールと、を含むことを特徴とする請求項９に記載の装置。
前記動きマップ取得モジュールは、
前記ターゲット画像フレームと近接画像フレームとの間のオプティカルフローを算出するオプティカルフロー算出サブモジュールと、
前記オプティカルフローに基づいて、前記相対動き顕著性マップを生成する動きマップ取得サブモジュールと、を含むことを特徴とする請求項９に記載の装置。
前記制約情報取得モジュールは、
前記ターゲット画像フレームにおけるターゲット画素について、
前記ターゲット画素の前記局所検出マップにおける値が第１の所定の条件を満たし、かつ前記ターゲット画素の前記相対動き顕著性マップにおける値が第２の所定の条件を満たす場合、前記ターゲット画素が前記絶対正のサンプル画素であると決定し、
前記ターゲット画素の前記局所検出マップにおける値が前記第１の所定の条件を満たさず、かつ前記ターゲット画素の前記相対動き顕著性マップにおける値が前記第２の所定の条件を満たさない場合、前記ターゲット画素が前記絶対負のサンプル画素であると決定し、
前記ターゲット画素の前記局所検出マップにおける値が前記第１の所定の条件を満たし、かつ前記ターゲット画素の前記相対動き顕著性マップにおける値が前記第２の所定の条件を満たさないか、或いは、前記ターゲット画素の前記局所検出マップにおける値が前記第１の所定の条件を満たさず、かつ前記ターゲット画素の前記相対動き顕著性マップにおける値が前記第２の所定の条件を満たす場合、前記ターゲット画素が前記不確定のサンプル画素であると決定することを特徴とする請求項９～１１のいずれか一項に記載の装置。
前記モデル調整モジュールは、
前記絶対正のサンプル画素と前記絶対負のサンプル画素とを用いて前記画像分割モデルを再トレーニングし、前記調整された画像分割モデルを取得することを特徴とする請求項９～１１のいずれか一項に記載の装置。
プロセッサと、
少なくとも１つの命令、少なくとも１つのプログラム、コードセット又は命令セットが記憶されているメモリと、を含むコンピュータ装置であって、
前記少なくとも１つの命令、前記少なくとも１つのプログラム、前記コードセット又は命令セットは、前記プロセッサによりロードされて実行されると、前記プロセッサに、
請求項１～８のいずれか一項に記載の方法を実行させることを特徴とする、コンピュータ装置。
コンピュータに、請求項１～８のいずれか一項に記載の方法を実行させるためのプログラム。