JP7154678B2

JP7154678B2 - 目標の位置取得方法、装置、コンピュータ機器及びコンピュータプログラム

Info

Publication number: JP7154678B2
Application number: JP2021542180A
Authority: JP
Inventors: ▲寧▼ 王; 奕兵宋; 威 ▲劉▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-05-06
Filing date: 2020-04-28
Publication date: 2022-10-18
Anticipated expiration: 2040-04-28
Also published as: WO2020224479A1; CN110110787A; US20210343041A1; EP3968223A1; EP3968223A4; JP2022518745A; KR20210111833A

Description

本願は、２０１９年５月６日に中国特許庁に提出された、出願番号が第２０１９１０３７１２５０．９号であり、出願名が「目標の位置取得方法、装置、コンピュータ機器及び記憶媒体」である中国特許出願の優先権を主張し、その全ての内容を引用により本願に組み込む。

本発明は、コンピュータの技術分野、特に目標の位置取得技術に関する。

コンピュータ技術の発展につれて、通常、画像を処理して様々の分析結果を得ることができるようになった。例えば、複数フレームの画像を処理し、１フレームの画像内に特定された目標によりこれらの複数フレームの画像を処理し、当該目標の他の画像における位置を取得することにより、当該目標の追跡を実現することができる。

現在の目標の位置取得方法は、通常、１フレームの画像内に目標を指定され、目標追跡アルゴリズムに基づいて複数フレームの画像を処理し、当該目標の複数フレームの画像における位置を取得するものである。サンプル画像を使用して目標追跡アルゴリズムをトレーニングする場合、サンプル画像の各フレーム内に目標の実際の位置をマークし、目標追跡アルゴリズムによりサンプル画像の各フレームを計算し、目標の予測位置を特定してから、当該目標の予測位置及びマークされた目標の実際の位置に基づいて、目標追跡アルゴリズムをトレーニングしなければならない。

上記の目標の位置取得方法では、サンプル画像の各フレームはすべて目標の実際の位置を手動でマークする必要があり、人件費が高く、画像処理過程が繁雑であるため、上記の目標の位置取得方法は効率が低い。

本発明の実施例は、関連技術において人件費が高く、処理過程が繁雑で効率が低いという問題を解決できる、目標の位置取得方法、装置、コンピュータ機器及び記憶媒体を提供する。上記の技術方案を以下に示す。

一態様では、
複数フレームの画像を取得する工程であって、前記複数フレームの画像のうちのいずれか１フレームの画像である第１画像が被検目標を含む、工程と、
位置取得モデルを呼び出す工程であって、前記位置取得モデルのモデルパラメータが選択目標の複数フレームのサンプル画像のうちの第１サンプル画像における第１位置及び前記選択目標の前記第１サンプル画像における第２位置に基づいてトレーニングして得られるものであり、前記第２位置が前記選択目標の前記複数フレームのサンプル画像のうちの第２サンプル画像における第３位置に基づいて予測して得られるものであり、前記第３位置が前記第１位置に基づいて予測して得られるものであり、前記選択目標が前記第１サンプル画像内でランダムに選択して得られるものであり、前記第２サンプル画像が前記複数フレームのサンプル画像のうち前記第１サンプル画像とは別のサンプル画像である、工程と、
前記位置取得モデルにより、前記モデルパラメータ及び前記被検目標の前記第１画像における位置に基づいて、前記被検目標の第２画像における位置を特定する工程であって、前記第２画像が前記複数フレームの画像のうち前記第１画像とは別の画像である、工程と、を含む目標の位置取得方法を提供する。

一態様では、
複数フレームのサンプル画像を取得する工程と、
初期モデルを呼び出し、前記初期モデルに従って選択目標の前記複数フレームのサンプル画像のうちの第１サンプル画像における第１位置に基づいて、前記選択目標の第２サンプル画像における第３位置を取得し、前記選択目標の第２サンプル画像における第３位置に基づいて、前記選択目標の前記第１サンプル画像における第２位置を取得し、前記第１位置及び前記第２位置に基づいて、前記初期モデルのモデルパラメータを調整し、位置取得モデルを得る工程と、
複数フレームの画像を取得した場合、前記位置取得モデルを呼び出し、前記位置取得モデルに従って被検目標の前記複数フレームの画像における位置を特定する工程と、を含む目標の位置取得方法を提供する。

一態様では、
複数フレームの画像を取得するための画像取得モジュールであって、前記複数フレームの画像のうちの第１画像が被検目標を含み、前記第１画像が前記複数フレームの画像のいずれか１フレームの画像である、画像取得モジュールと、
位置取得モデルを呼び出すためのモデル呼び出しモジュールであって、前記位置取得モデルのモデルパラメータが、選択目標の複数フレームのサンプル画像のうちの第１サンプル画像における第１位置及び前記選択目標の前記第１サンプル画像における第２位置に基づいてトレーニングして得られるものであり、前記第２位置が、前記選択目標の前記複数フレームのサンプル画像のうちの第２サンプル画像における第３位置に基づいて予測して得られるものであり、前記第３位置が、前記第１位置に基づいて予測して得られるものであり、前記選択目標が、前記第１サンプル画像内でランダムに選択して得られるものであり、前記第２サンプル画像が、前記複数フレームのサンプル画像のうち前記第１サンプル画像とは別のサンプル画像である、モデル呼び出しモジュールと、
前記位置取得モデルにより、前記モデルパラメータ及び前記被検目標の前記第１画像における位置に基づいて、前記被検目標の第２画像における位置を特定するための位置取得モジュールであって、前記第２画像が、前記複数フレームの画像のうち前記第１画像とは別の画像である、位置取得モジュールと、を含む目標の位置取得装置を提供する。

一態様では、
複数フレームのサンプル画像を取得するための画像取得モジュールと、
初期モデルを呼び出し、前記初期モデルに従って選択目標の前記複数フレームのサンプル画像のうちの第１サンプル画像における第１位置に基づいて、前記選択目標の第２サンプル画像における第３位置を取得し、前記選択目標の第２サンプル画像における第３位置に基づいて、前記選択目標の前記第１サンプル画像における第２位置を取得し、前記第１位置及び前記第２位置に基づいて、前記初期モデルのモデルパラメータを調整し、位置取得モデルを得るためのモデルトレーニングモジュールと、
複数フレームの画像を取得した場合、前記位置取得モデルを呼び出し、前記位置取得モデルに従って被検目標の前記複数フレームの画像における位置を特定するための位置取得モジュールと、を含む目標の位置取得装置を提供する。

一態様では、１つ又は複数のプロセッサ及び１つ又は複数のメモリを含み、前記１つ又は複数のメモリに少なくとも一つの指令が記憶されており、前記指令が前記１つ又は複数のプロセッサによりローディングされて実行されることで前記目標の位置取得方法で行われる操作が実現される、コンピュータ機器を提供する。

一態様では、少なくとも一つの指令が記憶されており、前記指令がプロセッサによりローディングされて実行されることで前記目標の位置取得方法で行われる操作が実現される、コンピュータ読み取り可能な記憶媒体を提供する。

本発明の実施例では、トレーニングして得られた位置取得モデルによって複数フレームの画像を処理することで、目標の複数フレームの画像における位置を取得し、当該位置取得モデルは、フォワード及びバックワードプロセスでトレーニングすることで得ることができ、フォワードプロセスを介して、選択目標の第１サンプル画像における第１位置により選択目標の第２サンプル画像における第３位置を予測することができ、バックワードプロセスを介して、第３位置により選択目標の第１サンプル画像における第２位置を予測することができる。選択目標は、第１サンプル画像内でランダムに選択して得られるものであり、選択した位置が決まっているため、第１位置は、選択目標の実際の位置である。選択目標の第１サンプル画像における第１位置及び第２位置を利用することで、第１位置と第２位置との間の誤差値により初期モデルのモデルパラメータの正確性を反映することができる。よって、関連技術者が手動でマークすることなく、第１位置及び第２位置により初期モデルをトレーニングすることができ、人件費を効果的に低減させ、モデルのトレーニング効率を向上させることができ、画像の処理過程が簡単になり、目標の位置取得プロセス全体の効率を効果的に向上させた。

本発明の実施例における技術方案をより明確に説明するために、以下では、実施例の説明に必要な図面を簡単に紹介する。以下に述べる図面は本発明の幾つかの実施例に関するものに過ぎず、当業者にとって、創造的労働を経ずにこれらの図に基づいて他の図を得ることもできることは自明である。

本発明の実施例で提供される目標の位置取得方法の実施環境の模式図である。本発明の実施例で提供される位置取得モデルのトレーニング方法のフローチャートである。本発明の実施例で提供される複数フレームのサンプル画像の取得過程の模式図である。本発明の実施例で提供されるトレーニングデータの模式図である。本発明の実施例で提供される位置取得モデルのトレーニングフローチャートである。本発明の実施例で提供される、取得された異なるサンプル画像セットの比較図である。本発明の実施例で提供される目標の位置取得方法のフローチャートである。本発明の実施例で提供される目標の位置取得方法のフローチャートである。本発明の実施例で提供される目標の位置取得装置の構造模式図である。本発明の実施例で提供される目標の位置取得装置の構造模式図である。本発明の実施例で提供される端末の構造模式図である。本発明の実施例で提供されるサーバの構造模式図である。

本発明の目的、技術方案及び利点をより明確にするために、以下では、図面を参照しながら本発明の実施方式をさらに詳しく説明する。

図１は、本発明の実施例で提供される目標の位置取得方法の実施環境を示す。図１に示すように、この実施環境は、少なくとも１つのコンピュータ機器を含んでもよい。これらの複数のコンピュータ機器は、有線接続によりデータインタラクションを実現してもよく、ネットワーク接続によりデータインタラクションを実現してもよく、本発明の実施例では、これを限定しない。

１つの可能な実施形態では、当該少なくとも１つのコンピュータ機器は、コンピュータ機器１０１及びコンピュータ機器１０２を含んでもよい。コンピュータ機器１０１は、複数フレームの画像を処理し、目標の当該複数フレームの画像における位置を取得するために用いることができる。コンピュータ機器１０２は、複数フレームの画像を収集したり、ビデオを撮影したりして、収集した画像やビデオをコンピュータ機器１０１に送信し、コンピュータ機器１０１により画像やビデオを処理し、目標の追跡を行うために用いることができる。

別の可能な実施形態では、当該少なくとも１つのコンピュータ機器は、コンピュータ機器１０１のみを含んでもよい。当該コンピュータ機器は、複数フレームの画像を収集したり、ビデオを撮影したりなどして、収集した複数フレームの画像、又は撮影したビデオに対して画像抽出などの処理をした複数フレームの画像、又はダウンロードした複数フレームの画像、又はダウンロードしたビデオに対して画像抽出などの処理をした複数フレームの画像をさらに処理し、目標の当該複数フレームの画像における位置を特定し、目標の追跡を実現することができる。本発明の実施例では、目標の位置取得方法の応用場面を限定しない。

なお、当該目標の位置取得方法は、様々な目標追跡の場面に応用できる。例えば、画像やビデオにおける場面の分析に応用でき、また、監視装置による目標の追跡に応用でき、さらに、マンマシンインタラクションの場面に応用できる。当然、本発明の実施例で提供される目標の位置取得方法の応用場面は、これらに限定されず、他の場面にも応用でき、ここでは一つ一つ列挙しない。目標は、人間でもよいし、物でもよく、応用場面によっては、目標が異なる可能性があり、例えば、室内監視の場面には、目標は、人間でもよく、道路監視の場面には、目標は、車等でもよい。当該コンピュータ機器１０１及びコンピュータ機器１０２は、いずれも端末として提供されてもよく、サーバとして提供されてもよく、本発明の実施例では、これを限定しない。

本願の実施例で提供される目標の位置取得方法は、人工知能に基づいて実現するものであることを強調しなければならない。人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）は、デジタルコンピュータ又はデジタルコンピュータによって制御されるマシンを使用して人間の知能のシミュレーション、延長及び拡張を行い、環境を感知し、知識を獲得して使用し、最適結果を得る理論、方法、技術及び応用システムである。換言ずれば、人工知能は、コンピュータサイエンスの包括的な技術の１種であり、知能の本質を理解し、人間の知能と同様に反応できる新しいインテリジェントマシンを製造しようとする。つまり、人工知能は、各種のインテリジェントマシンが感知、推論及び意思決定の機能を有するようにその設計原理と実現方法を研究するものである。

人工知能技術は、ハードウェアレベルの技術だけでなくソフトウェアレベルの技術も含む幅広い分野をカバーする包括的な学問である。人工知能の基礎技術は、一般的に、センサ、専用の人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理技術、オペレーティング／インタラクションシステム、メカトロニクスなどのような技術を含む。人工知能ソフトウェア技術は、主にコンピュータビジョン技術、音声技術、自然言語処理技術及び機械学習／深層学習などの幾つかの分野を含む。

本願実施例で提供される方案は、人工知能の機械学習／深層学習、コンピュータビジョンなどの技術に関する。本願の実施例では、例えば機械学習により位置取得モデルをトレーニングし、さらにトレーニングして得られた位置取得モデルを利用して被検目標の複数フレームの画像における位置を特定する。

機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ、ＭＬ）は、概率論、統計学、近似理論、凸解析、アルゴリズム複雑性理論などの多種類の学問に関わる学際的な学問である。新しい知識や技術を獲得し、既存の知識構造を再編成して自身の性能を継続的に改善するために、コンピュータが如何に人間の学習行為をシミュレートまたは実現するかを専門に研究している。機械学習は、人工知能の中核であり、コンピュータをインテリジェントにするための基本的な方法であり、人工知能の各分野に応用できる。機械学習及び深層学習は、通常、人工ニューラルネットワーク、信念ネットワーク、強化学習、転移学習、帰納学習、教育学習などの技術を含む。

位置取得モデルのトレーニング又は目標の位置取得プロセスにおいて、コンピュータビジョン技術にも関与する場合がある。コンピュータビジョン技術（ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，ＣＶ）は、如何にマシンを「見させる」かを研究する学問であり、具体的には、人の目に代わりにカメラ及びコンピュータを使用して目標の識別、追跡及び測定等を行うマシンビジョンであり、さらに、画像が人の目の観察や計器へ伝送と検出により適するようにコンピュータによる図形処理を行う。１つの学問としてのコンピュータビジョン研究に関連する理論と技術は、画像や多次元データから情報を取得できる人工知能システムを構築しようとする。

本願の実施例は、例えばコンピュータビジョン技術における画像処理、画像意味理解などの技術に関する。例えば識別される画像又はトレーニングサンプルなどのような画像を取得した後、例えば目標選択、及び画像意味理解技術による画像の特徴抽出などの画像処理を行う。

図２は本発明の実施例で提供される位置取得モデルのトレーニング方法のフローチャートである。当該位置取得モデルのトレーニング方法は、コンピュータ機器に応用でき、当該コンピュータ機器は、端末として提供されてもよく、サーバとして提供されてもよく、本発明の実施例では、これを限定しない。図２に示すように、この方法は、以下のステップを含むことができる。

ステップ２０１：コンピュータ機器は、複数フレームのサンプル画像を取得する。

本発明の実施例では、コンピュータ機器は、複数フレームのサンプル画像を取得し、複数フレームのサンプル画像に基づいて初期モデルをトレーニングし、位置取得モデルを得ることができる。当該位置取得モデルは、そのうちの１フレームの画像内に特定された被検目標に基づいて、当該複数フレームの画像を処理し、当該被検目標の当該複数フレームの画像のうちの各フレームの画像における位置を取得することができる。

コンピュータ機器は、複数フレームのサンプル画像を取得し、当該複数フレームのサンプル画像をトレーニングサンプルとして使用し、初期モデルをトレーニングすることができる。本発明の実施例では、当該複数フレームのサンプル画像に対して、関連技術者が手動で目標をマークする必要がない。コンピュータ機器により当該複数フレームのサンプル画像を直接処理し、初期モデルをトレーニングすることで、教師なし学習プロセスを実現し、人件費を低減させ、モデルのトレーニング効率を向上させることができる。

１つの可能な実施形態では、当該複数フレームのサンプル画像は、複数のサンプル画像セットを含み、各サンプル画像セットは、１フレームの第１サンプル画像及び少なくとも１フレームの第２サンプル画像を含み、当該第２サンプル画像は、当該第１サンプル画像とは別のサンプル画像である。

例えば、当該第１サンプル画像は、テンプレート画像として使用してもよい。当該テンプレート画像とは、一つの選択目標を取得するためのサンプル画像である。第２サンプル画像は、検索画像として使用してもよい。当該検索画像とは、当該選択目標の位置を検索できるサンプル画像であり、即ち、テンプレート画像内で選択された選択目標に基づいて当該選択目標の当該検索画像における位置を取得することができる。この実施形態では、各サンプル画像セットは、一つのトレーニングサンプルセットであり、各サンプル画像セットにおける複数フレームのサンプル画像（１フレームの第１サンプル画像及び少なくとも１フレームの第２サンプル画像）には、同じ選択目標が含まれる。コンピュータ機器は、当該選択目標を追跡し、当該選択目標の各フレームのサンプル画像における位置を取得することができる。

例えば、各サンプル画像セットは、１フレームの第１サンプル画像及び２フレームの第２サンプル画像を含むことができる。例えば、一つのビデオファイルにおける隣接する１０フレームから３フレームを選択でき、そのうちの１フレームを当該第１サンプル画像として使用し、その他の２フレームを第２サンプル画像として使用する。つまり、選択された選択目標が当該１０フレームという短い期間内で特定のエリア外に移動しないとする。複数フレームの第２サンプル画像を取得することにより、１フレームの第１サンプル画像及び１フレームの第２サンプル画像に基づく処理の際に、偶然得られた結果の誤差値が高いことを回避できるが、実際には、その処理プロセスにおける中間データが間違っているので、トレーニングサンプルを増やすことにより、このような偶発的な状況を減らすことができ、エラーの累積を拡大して修正することもでき、よって、位置取得モデルの安定性および誤差値を高めることができる。

当該コンピュータ機器が当該複数フレームのサンプル画像を取得するプロセスは、複数の方法を採用することができる。一態様では、当該複数フレームのサンプル画像は、当該コンピュータ機器に記憶されてもよく、他のコンピュータ機器に記憶されてもよい。当該コンピュータ機器は、ローカルストレージファイルから当該複数フレームのサンプル画像を取得してもよく、他のコンピュータ機器へ画像取得要求を送信してもよく、この場合、当該他のコンピュータ機器が当該画像取得要求に従って当該コンピュータ機器へ当該複数フレームのサンプル画像を送信することにより、当該コンピュータ機器が当該複数フレームのサンプル画像を取得する。本発明の実施例では、これを限定しない。

別の態様では、コンピュータ機器は、複数フレームのサンプル画像を直接取得してもよく、ビデオファイルから当該複数フレームのサンプル画像を抽出してもよい。当該複数フレームのサンプル画像は、画像データベースに記憶されてもよく、この場合、当該コンピュータ機器は、画像データベースから当該複数フレームのサンプル画像を取得することができる。当該複数フレームのサンプル画像の位置するビデオファイルは、ビデオデータベースに記憶されてもよく、この場合、コンピュータ機器は、ビデオデータベースから少なくとも１つのビデオファイルを取得し、少なくとも１つのビデオファイルから当該複数フレームのサンプル画像を抽出することができる。本発明の実施例では、これを限定しない。例えば、一例では、当該複数フレームのサンプル画像は、ビジョン識別用のデータセットであるＩＬＳＶＲＣ２０１５に由来してもよい。当該コンピュータ機器は、ネットワークからビデオファイルをダウンロードし、画像抽出を行うこともできる。本発明のサンプル画像は、タグ付きデータを必要としなく、手動でマークする必要がないため、当該複数フレームのサンプル画像を非常に容易に取得できる。本発明の実施例では、採用する方法を限定しない。

一つの可能な実施例では、当該複数フレームのサンプル画像は、抽出又は取得された画像の切り抜き画像であってもよい。コンピュータ機器は、上記のように複数フレームの画像を抽出又は取得した後、当該複数フレームの画像を切り抜き、当該複数フレームのサンプル画像を得ることができる。コンピュータ機器による切り抜きの際に、複数フレームの画像の中心を基準にして、当該複数フレームの画像から当該中心を中心点とする目標エリアを切り抜き、当該複数フレームのサンプル画像を得ることができる。

例えば、図３に示すように、当該複数フレームのサンプル画像が複数のサンプル画像セットを含み、各サンプル画像セットが３フレームのサンプル画像を含む場合を例にとると、コンピュータ機器は、マークされていないビデオの画像シーケンスから３フレームの画像を抽出し、当該３フレームの画像の中心エリア（例えば図３に長方形のボックスで示されるエリア）を切り抜き、３フレームのサンプル画像を得ることができる。当該３フレームのサンプル画像には、テンプレート画像及び検索画像ブロックが含まれてもよい。当該テンプレート画像は、第１サンプル画像であり、検索画像ブロックは、検索画像であり、即ち第２サンプル画像である。当該図３には、１つのサンプル画像セットを取得するプロセスのみが示されており、コンピュータ機器は、同様な方式で大量のサンプル画像を取得し、初期モデルをトレーニングすることができる。上記のサンプル画像取得プロセスは、選択目標が短い期間（１０フレーム）内で特定のエリア（画像の中心エリア）外に移動しないという基本的な仮説に基づいて実現するものである。理想的には、画像の中心エリアには、完全な選択目標が存在してもよいが、多くの場合は、中心エリアには、局所的な選択目標、さらに目標の輪郭、背景オブジェクト等が含まれる可能性がある。図４には、ランダムに収集された幾つかのトレーニングデータが示されており、図４には、計２８個の画像が含まれ、各画像は、それぞれある目標について収集された１フレームの画像の例であり、トレーニングデータとしてのこれらの画像は、選択目標を含み、当該選択目標は、人間でもよいし、物でもよい。各画像は、１つのトレーニングデータであり、例えば図４に破線ボックスで示される画像は１つのトレーニングデータであり、当該画像内では、選択目標はヒツジであってもよい。ここでは、各画像について一々繰り返して述べない。これらの選択目標は、画像の中心エリアに比較的に近く、できるだけ選択目標が短い期間内で特定のエリア外に移動しないようにする。このような状況については、後続の画像処理プロセスでも関連するデザインがあるため、ここでは、繰り返して述べない。

ステップ２０２：コンピュータ機器は、初期モデルを呼び出し、初期モデルに従って当該複数フレームのサンプル画像のうちの第１サンプル画像における目標エリアを選択目標としてランダムに選択する。

コンピュータ機器が複数フレームのサンプル画像を取得した後に、初期モデルを呼び出し、当該複数フレームのサンプル画像に基づいて、初期モデルをトレーニングすることができる。なお、当該初期モデルのモデルパラメータは、初期値であり、当該初期モデルは、モデルパラメータに基づいて当該複数フレームのサンプル画像を処理し、ある目標の当該複数フレームのサンプル画像における位置を予測することができる。得られた予測結果が正確ではない可能性があるため、コンピュータ機器は、当該トレーニングプロセスにおいて当該初期モデルのモデルパラメータを調整し、初期モデルによる画像処理の誤差値を高めることができる。これによって、最終的にトレーニングして得られた位置取得モデルは、画像に対して誤差値の高い処理を行うことができる。

したがって、コンピュータ機器は、当該ステップ２０２を実行し、複数フレームのサンプル画像を初期モデルに入力することができる。当該複数フレームのサンプル画像が手動でマークされておらず、当該複数フレームのサンプル画像には、決められた目標が含まれていないため、初期モデルは、第１サンプル画像から目標エリアを選択目標としてランダムに選択し、さらに当該選択目標に対して、予測によりその第２サンプル画像における位置を引き続き取得し、後続のトレーニングプロセスを行うことができる。

なお、当該コンピュータ機器が目標エリアをランダムに選択するプロセスは、乱択アルゴリズムにより実現することができる。当該乱択アルゴリズムは、関連技術者が必要に応じて設定することができ、本発明の実施例では、これを限定しない。

ステップ２０３：コンピュータ機器における初期モデルは、当該選択目標の当該第１サンプル画像における第１位置、当該第１サンプル画像及び第２サンプル画像に基づいて、当該選択目標の当該第２サンプル画像における第３位置を取得する。

コンピュータ機器が第１サンプル画像内で選択目標を特定した後、当該選択目標に基づいてその第２サンプル画像における位置、例えば第３位置を引き続き取得することができる。コンピュータ機器が第１サンプル画像内で当該選択目標を特定し、当該選択目標の第１サンプル画像における第１位置が実際の位置であるため、コンピュータ機器は、それを実際のデータとして後続の予測データの誤差値を判定することができると理解できる。詳しくは下記のステップ２０３～ステップ２０５を参照されたい。本発明の実施例においては、ここで繰り返して述べない。

コンピュータ機器における初期モデルは、当該選択目標の第１サンプル画像における第１位置に基づいて、当該第１サンプル画像及び第２サンプル画像を処理し、当該選択目標の当該第２サンプル画像における第３位置、即ち予測位置を取得することができる。例えば、当該予測プロセスは、フォワードプロセスでもよく、この場合に、コンピュータ機器は、当該目標の第１サンプル画像における第１位置に基づいて、目標の第２サンプル画像における第３位置を予測し、目標追跡プロセスを実現することができる。１つの可能な実施形態では、当該予測プロセスは、下記のステップ１及びステップ２により実現できる。

ステップ１：コンピュータ機器における初期モデルは、当該目標の当該第１サンプル画像における第１位置及び当該第１サンプル画像に基づいて、第１画像処理パラメータを取得する。

このステップ１において、コンピュータ機器における初期モデルは、処理前のデータ及び処理結果が既知の場合に、第１画像処理パラメータを決定する。当該第１画像処理パラメータは、当該選択目標の当該第１サンプル画像における第１位置を取得するために第１サンプル画像を処理する方法を示すためのものである。このように得られた当該第１画像処理パラメータは、第２サンプル画像に対して同様な処理を行い、選択目標の第２サンプル画像における第３位置を取得するために用いることができる。

１つの可能な実施形態では、コンピュータ機器における初期モデルは、第１サンプル画像の画像特徴を抽出してから、画像特徴を処理することができる。当該ステップ１において、コンピュータ機器における初期モデルは、当該初期モデルのモデルパラメータに基づいて、当該第１サンプル画像に対して特徴抽出を行い、当該第１サンプル画像の画像特徴を取得することができる。コンピュータ機器における初期モデルは、当該第１サンプル画像の画像特徴及び当該選択目標の当該第１サンプル画像における第１位置に基づいて、第１画像処理パラメータを取得する。コンピュータ機器における初期モデルは、第１画像処理パラメータに基づいて第１サンプル画像の画像特徴を処理した結果、当該選択目標の第１サンプル画像における第１位置を取得する必要がある。

ステップ２：コンピュータ機器における初期モデルは、当該第１画像処理パラメータに基づいて、第２サンプル画像を処理し、当該選択目標の当該第２サンプル画像における第３位置を取得する。

当該ステップ２において、コンピュータ機器における初期モデルが第１画像処理パラメータを決定した後、サンプル画像を処理する方法を知っているため、第２サンプル画像に対して同様な処理を行い、選択目標の第２サンプル画像における第３位置を予測することができる。

ステップ１においてコンピュータ機器における初期モデルが第１サンプル画像の画像特徴を抽出してから画像特徴を処理することができる実施形態では、コンピュータ機器における初期モデルは、当該初期モデルのモデルパラメータに基づいて、当該第２サンプル画像に対して特徴抽出を行い、当該第２サンプル画像の画像特徴を取得することができる。コンピュータ機器は、当該第１画像処理パラメータに基づいて、当該第２サンプル画像の画像特徴を処理し、当該選択目標の当該第２サンプル画像における第３位置を取得する。

一つの可能な実施例では、当該選択目標の当該第１サンプル画像における第１位置は、位置指示情報として表され得るため、当該ステップ２０３において、コンピュータ機器における初期モデルは、当該選択目標の当該第１サンプル画像における第１位置に基づいて、当該選択目標の当該第１サンプル画像における第１位置を指示するための当該第１サンプル画像に対応する第１位置指示情報を生成することができる。その後、コンピュータ機器における初期モデルは、当該第１位置指示情報、当該第１サンプル画像及び第２サンプル画像に基づいて、当該選択目標の当該第２サンプル画像における第３位置を示すための当該第２サンプル画像に対応する位置指示情報を取得することができる。

それに応じて、上記のステップ２において、コンピュータ機器における初期モデルは、当該第１画像処理パラメータに基づいて、当該第２サンプル画像の画像特徴を処理する際に、当該第２サンプル画像に対応する位置指示情報を取得することができる。一つの可能な実施例では、当該初期モデルは、第１画像処理パラメータ及び第２サンプル画像の画像特徴を畳み込み、当該第２サンプル画像に対応する位置指示情報を取得することができる。

１つの可能な実施形態では、第１位置指示情報及び第２サンプル画像に対応する位置指示情報は、応答グラフであり得る。当該応答グラフのピークの存在する位置は、当該選択目標の存在する位置である。例えば、当該応答グラフは、マトリックスでもよく、当該マトリックスにおける各数値は、１つ又は複数のピクセルを表すためのものであってもよい。実際には、上記のプロセスは、以下のように行ってもよい。コンピュータ機器における初期モデルが選択目標を取得した後に、第１サンプル画像及び当該選択目標の当該第１サンプル画像における第１位置に基づいて、第１位置指示情報を生成することができ、当該第１位置指示情報は当該第１サンプル画像の実際のタグであり、コンピュータ機器における初期モデルは、モデルパラメータに基づいて、第１サンプル画像に対して特徴抽出を行い、第１サンプル画像の画像特徴を取得する。元々、当該コンピュータ機器は、第１画像処理パラメータに基づいて、当該第１サンプル画像の画像特徴を処理し、当該第１位置指示情報（応答グラフ、実際のタグ）を取得する必要があるが、現在、第１サンプル画像の画像特徴を処理し、また、当該第１位置指示情報が既知であるため、第１画像処理パラメータを求めてから、第２サンプル画像に対して特徴抽出を行い、第２サンプル画像の画像特徴を取得し、求めた第１画像処理パラメータに基づいて、第２サンプル画像の画像特徴を処理し、当該第２サンプル画像に対応する位置指示情報、即ち応答グラフを取得することができる。

一つの可能な実施例では、当該第１位置指示情報は、ガウス型の応答グラフでもよい。当該第２サンプル画像に対応する位置指示情報は、不規則であるためガウス型の応答グラフではない可能性がある。

例えば、当該初期モデルは、一方のパスが第１サンプル画像を処理するために使用され、他方のパスが第２サンプル画像を処理するために使用されるデュアルパスネットワークを含んでもよい。上記の第１画像処理パラメータは、関連フィルタにおける係数であってもよい。これを例にとると、当該ステップ２０３におけるプロセスは、図５（ａ）及び（ｂ）に示すように、第１サンプル画像がテンプレート画像、テンプレート画像ブロックであり、第２サンプル画像が検索画像、検索画像ブロックであり、初期タグが第１位置指示情報であり、応答グラフが第２サンプル画像に対応する位置指示情報である場合に、初期モデルは、テンプレート画像内で選択目標を特定してから、当該初期タグを生成し、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＮＮ）に基づいて、テンプレート画像に対して特徴抽出及び特徴表現を行うことで、初期タグ及びテンプレート画像の画像特徴に基づいて、関連フィルタにおける係数を求めることができる。初期モデルは、検索画像に対して特徴抽出を行い、その後、当該関連フィルタの係数及び検索画像の画像特徴を畳み込み、応答グラフを得ることができる。当該応答グラフのピークの存在する位置は、当該選択目標の第２サンプル画像における第３位置である。

なお、本発明の実施例では、初期モデルによるテンプレート画像及び検索画像の特徴抽出ステップのタイミングと順序を制限せず、同時に実行してもよく、順次に実行してもよい。当該初期モデル及び最終的に得られる位置取得モデルは、極めて軽量レベルのものである。例えば、２つの畳み込み層のみを含んでもよい。ＣＮＮフィルタのサイズは、３×３×３２×３２と３×３×３２×３２にすることができる。当然、最後のレイヤには、局所的な応答正規化を実行してもよい。この軽量レベルのネットワーク構造は、目標の追跡効率を非常に高くすることができる。１つの可能な実施形態では、フォワード及びバックワードの教師なしモデルに基づいて、汎用の特徴表現を学習し、トレーニングの完了後に良好な目標追跡を実現することもできる。

１つの可能な実施形態では、当該初期モデルが第１画像処理パラメータを取得するプロセスは、下記の式１により実現できる。

ただし、

はＣＮＮの特徴抽出操作を表し、ただし、θはネットワークが学習する必要のあるモデルパラメータであり、Ｙ_Ｔは第１サンプル画像の第１位置指示情報、即ち初期タグである。Ｗ_Ｔは第１画像処理パラメータ、即ち例における関連フィルタの係数であり、λは正則化パラメータであり、

は要素間のドット積操作であり、

は離散フーリエ変換であり、

は離散フーリエ逆変換であり、

は複素共役を表す。当該演算プロセスは、フーリエ領域で実行されるものである。Ｔは第１サンプル画像を識別するためのものである。

初期モデルが第１画像処理パラメータＷ_Ｔを得た後に、第２サンプル画像を処理することができる。当該処理プロセスは、下記の式２により実現できる。

ただし、Ｒ_Ｓは第２サンプル画像に対応する位置指示情報であり、即ち上記の例における第２サンプル画像に対応する応答グラフであり、Ｗ_Ｔは第１画像処理パラメータ、即ち例における関連フィルタの係数であり、

は離散フーリエ変換であり、

は離散フーリエ逆変換であり、

は複素共役を表し、

は要素間のドット積操作である。Ｔは、第１サンプル画像を識別するためのものであり、Ｓは、第２サンプル画像を識別するためのものである。

はＣＮＮの特徴抽出操作を表す。

ステップ２０４：コンピュータ機器における初期モデルは、当該選択目標の当該第２サンプル画像における第３位置、当該第１サンプル画像、及び当該複数フレームのサンプル画像のうち当該第１サンプル画像とは別のサンプル画像である第２サンプル画像に基づいて、当該選択目標の当該第１サンプル画像における第２位置を取得する。

上記のステップでは、コンピュータ機器は、選択目標の第１サンプル画像における第１位置に基づいて、フォワードプロセスにより、選択目標の第２サンプル画像における第３位置を取得した後に、当該選択目標の第２サンプル画像における第３位置を第２サンプル画像の擬似タグとすることができる。つまり、当該選択目標の第２サンプル画像における第３位置が実際のデータではないが、それを実際のデータとして、バックワードプロセスを行うことで、当該選択目標の当該第１サンプル画像における第２位置を取得することができる。当該バックワードプロセスは、第１サンプル画像と第２サンプル画像を互いに入れ替え、第２サンプル画像をテンプレート画像とし、第１サンプル画像を検索画像としてバックワード予測を行うことを除いて、上記のフォワード画像処理プロセスと同様に実行される。

上記のステップ２０３の記載と同様に、当該ステップ２０４も下記のステップ１及びステップ２により実現できる。

ステップ１：コンピュータ機器における初期モデルは、当該選択目標の当該第２サンプル画像における第３位置及び当該第２サンプル画像に基づいて、当該第２画像処理パラメータを取得する。

当該ステップ１は、第１サンプル画像と第２サンプル画像を入れ替え、第２サンプル画像をテンプレート画像とし、第１サンプル画像を検索画像とすることを除いて、上記のステップ２０３におけるステップ１と同様に処理プロセスを行う。当該第２画像処理パラメータは、選択目標の当該第２サンプル画像における第２位置を取得するために第２サンプル画像を処理する方法を示すためのものである。

上記のステップ２０３におけるステップ１と同様に、コンピュータ機器における初期モデルは、画像特徴を抽出してから、さらに画像特徴を処理することもできる。具体的には、コンピュータ機器における初期モデルは、当該初期モデルのモデルパラメータに基づいて、当該第２サンプル画像に対して特徴抽出を行い、当該第２サンプル画像の画像特徴を取得することができる。コンピュータ機器における初期モデルは、当該第２サンプル画像の画像特徴及び当該選択目標の当該第２サンプル画像における第３位置に基づいて、第２画像処理パラメータを取得する。

ステップ２：コンピュータ機器における初期モデルは、当該第２画像処理パラメータに基づいて、当該第１サンプル画像を処理し、当該目標の当該第１サンプル画像における第２位置を取得する。

当該ステップ２は、第１サンプル画像と第２サンプル画像を入れ替え、第２サンプル画像をテンプレート画像とし、第１サンプル画像を検索画像とすることを除いて、上記のステップ２０３におけるステップ２と同様に処理プロセスを行う。

上記のステップ２０３におけるステップ１と同様に、コンピュータ機器における初期モデルは、当該初期モデルのモデルパラメータに基づいて、当該第１サンプル画像に対して特徴抽出を行い、当該第１サンプル画像の画像特徴を取得することもできる。コンピュータ機器は、当該第２画像処理パラメータに基づいて、当該第１サンプル画像の画像特徴を処理し、当該選択目標の当該第１サンプル画像における第２位置を取得する。

上記のステップ２０３に示す一実施形態では、選択目標の画像における位置は、位置指示情報で表され得る。当該ステップ２０４では、コンピュータ機器における初期モデルは、当該第２サンプル画像に対応する位置指示情報、当該第１サンプル画像及び当該第２サンプル画像に基づいて、当該選択目標の当該第１サンプル画像における第２位置を示すための当該第１サンプル画像に対応する第２位置指示情報を取得することもできる。

例えば、上記の画像特徴を抽出してから処理する方法及び位置指示情報による方法を同時に採用する際に、当該ステップ２０４は、以下のように実行してもよい。コンピュータ機器における初期モデルは、モデルパラメータに基づいて、第２サンプル画像に対して特徴抽出を行い、第２サンプル画像の画像特徴を取得し、当該画像特徴及び当該第２サンプル画像に対応する位置指示情報（当該選択目標の第２サンプル画像における第３位置）に基づいて、第２画像処理パラメータを取得し、その後、第１サンプル画像に対して特徴抽出を行い、第１サンプル画像の画像特徴を取得し、第２画像処理パラメータに基づいて、第１サンプル画像の画像特徴を処理し、当該第１サンプル画像に対応する第２位置指示情報（当該選択目標の第１サンプル画像における第２位置）を取得する。

なお、ステップ２０３はフォワードプロセスであり、ステップ２０４はバックワードプロセスである。フォワード及びバックワードプロセスにより、当該選択目標の第１サンプル画像における第１位置（実際の位置）に基づいて、第２サンプル画像による遷移によって、当該選択目標の第１サンプル画像における第２位置（予測位置）を得て、当該第１位置及び第２位置に基づいて、当該初期モデルによる画像処理の誤差値を知ることができる。例えば、図５（ｂ）に示すように、ステップ２０３は、フォワード追跡プロセスに対応し、ステップ２０４は、バックワード追跡プロセスに対応する。バックワード追跡プロセスでは、テンプレート画像と検索画像が入れ替えられ、つまり、テンプレート画像が第２サンプル画像となり、検索画像が第１サンプル画像となるが、テンプレート画像及び検索画像に対する処理プロセスは、フォワード追跡プロセスと同様であり、バックワード追跡プロセスにより得られた応答グラフは、第１サンプル画像に対応する第２位置指示情報である。図５（ａ）に示すように、当該図５における＃１は、第１サンプル画像を識別するためのものであり、＃２は、第２サンプル画像を識別するためのものである。図５から分かるように、＃１内に特定された選択目標（図５（ａ）におけるテンプレート画像ブロックである＃１に白い長方形のボックスで示される位置）について、＃２内に当該選択目標の予測位置、即ち第３位置（図５（ａ）における検索画像ブロックである＃２に白い長方形のボックスで示される位置）を特定した後、＃２における選択目標の第３位置に基づいて、＃１における選択目標の第２位置（図５（ａ）における検索画像ブロックである＃１に灰色の長方形のボックスで示される位置）をバックワード追跡し、そして、＃１における目標の第１位置（白い長方形のボックスで示される位置）及び第２位置（灰色の長方形のボックスで示される位置）に基づいて、当該初期モデルの誤差値の良否を判断することができる。つまり、＃１内に特定された選択目標の第１位置と、＃２によりバックワード計算して得られた第２位置との整合性計算を行う。

１つの可能な実施形態では、コンピュータ機器における初期モデルは、当該ステップ２０４を実行する際に上記の式１及び式２と同様な式により実現できる。つまり、式１におけるＴをＳに取り替え、Ｙ_ＴをＹ_Ｓに取り替え、Ｙ_Ｓが即ちＲ_Ｓ、又はＲ_Ｓにより生成されたガウス型の応答グラフである。式２におけるＳをＴに取り替え、Ｗ_ＴをＷ_Ｓに取り替え、ただし、Ｙ_Ｓは第２サンプル画像に対応する位置指示情報又は当該Ｒ_Ｓにより得られたガウス型の位置指示情報である。なお、フォワード及びバックワード追跡プロセスでは、ＣＮＮのモデルパラメータは一定である。

ステップ２０５：コンピュータ機器は、当該選択目標の当該第１サンプル画像における第１位置及び第２位置に基づいて、第１位置に対する当該第２位置の誤差値を取得する。

コンピュータ機器が選択目標の第１サンプル画像における第１位置及び第２位置を取得した後に、当該初期モデルにより予測された誤差値を評価することで、当該目標の第１サンプル画像における第１位置に対する第２位置の誤差値に基づいて、初期モデルのモデルパラメータを調整する必要があるか否かを判断する。１つの可能な実施形態では、当該誤差値が小さいほど、当該初期モデルのモデルパラメータが適切になる。別の可能な実施形態では、当該プロセスは、報酬メカニズムにより実現することもでき、当該誤差値が大きいほど、当該初期モデルのモデルパラメータが適切になる。以下では、当該誤差値が小さいほどモデルパラメータが適切になる例のみを挙げて説明する。このような原理に基づいて、下記のステップ２０６を実行し、初期モデルをトレーニングし、予測誤差値の小さい位置取得モデルを得ることができる。

１つの可能な実施形態では、当該複数フレームのサンプル画像は、複数のサンプル画像セットを含んでもよい。各サンプル画像セットは、１つの当該予測位置の誤差値に対応する。コンピュータ機器は、サンプル画像セットに含まれる第１サンプル画像及び少なくとも１フレームの第２サンプル画像に基づいて、少なくとも１つの誤差値を得ることができ、つまり、各フレームの第２サンプル画像は、１つの誤差値に対応でき、当該サンプル画像セットに対応する誤差値は、当該少なくとも１つの誤差値に基づいて決定することできる。

１つの可能な実施形態では、当該コンピュータ機器は、当該少なくとも１つの誤差値の平均値を取得し、当該平均値を当該サンプル画像セットに対応する誤差値とすることができる。別の可能な実施形態では、当該コンピュータ機器は、当該少なくとも１つの誤差値の加重和を求めることで、当該サンプル画像セットに対応する誤差値を得ることができる。本発明の実施例では、どのような実施形態を採用してもよい。

ステップ２０６：コンピュータ機器は、当該誤差値に基づいて、目標条件に合致するまで当該初期モデルのモデルパラメータを調整し、位置取得モデルを得る。

コンピュータ機器が初期モデルにより予測された誤差値を取得した後に、当該誤差値に基づいて、小さい誤差値になるまでモデルパラメータを調整し、位置取得モデルを得ることができる。これによって、当該位置取得モデルの予測精度が高い。当該目標条件としては、当該誤差値が収束するか、又は反復回数が目標回数に達する条件としてもよい。当該目標条件により得られる位置取得モデルは、良好な画像処理能力を備え、誤差値の小さい目標追跡プロセスを実現できる。

１つの可能な実施形態では、当該複数フレームのサンプル画像は、複数のサンプル画像セットを含んでもよい。各サンプル画像セットは、一つの当該予測位置の誤差値に対応する。コンピュータ機器は、各サンプル画像セットに対応する誤差値に基づいて、初期モデルのモデルパラメータを調整することができる。

別の可能な実施形態では、コンピュータ機器は、トレーニングサンプルを複数のバッチに分けることもできる。各バッチは、目標数のサンプル画像セットを含む。コンピュータ機器は、各バッチに対応する誤差値に基づいて、初期モデルのモデルパラメータを調整することができる。例えば、当該複数のサンプル画像セットにおける目標数ごとのサンプル画像セットについて、コンピュータ機器は、当該目標数のサンプル画像セットに対応する複数の誤差値に基づいて、当該初期モデルのモデルパラメータを調整することができる。当該目標数は、関連技術者が必要に応じて設定することができ、本発明の実施例では、これを限定しない。

１つの可能な実施例では、コンピュータ機器が初期モデルのモデルパラメータを調整する際に、当該複数のサンプル画像セットには、好ましくないサンプル画像が含まれる可能性もある。例えば、サンプル画像セットにおける複数フレームのサンプル画像では、選択目標は、その移動変位が大きく、さらに画像に含まれる範囲外に移動する可能性があるので、当該サンプル画像セットに対応する誤差値が初期モデルのトレーニングの際に果たす役割は弱く、この部分のサンプルの影響を弱めるべきである。この部分のサンプルは、ハードサンプルと呼ぶことができる。このような場合には、コンピュータ機器は、以下のいずれかの方法を実行してもよい。

方法１：コンピュータ機器は、当該目標数のサンプル画像セットに対応する複数の誤差値に基づいて、当該複数の誤差値のうち誤差値条件を満たす誤差値を削除し、コンピュータ機器は、残りの複数の誤差値に基づいて、当該初期モデルのモデルパラメータを調整する。

方法２：コンピュータ機器は、当該目標数のサンプル画像セットに対応する複数の誤差値に基づいて、当該複数の誤差値の第１重みを決定し、コンピュータ機器は、当該複数の誤差値の第１重み及び当該複数の誤差値に基づいて、当該複数の誤差値のうち誤差値条件を満たす誤差値の第１重みがゼロになるように当該初期モデルのモデルパラメータを調整する。

前記方法１と方法２は、いずれも複数の誤差値のうち誤差値条件を満たす誤差値がモデルパラメータ調整時に果たす役割をゼロに低減するプロセスである。方法１では、その一部の誤差値を直接削除する。方法２では、その第１重みをゼロに設定する。当該誤差値条件は、誤差値の最も大きい目標割合に属する誤差値でもよい。当該誤差値条件及び目標割合はいずれも関連技術者が必要に応じて設定することができ、本発明の実施例では、これを限定しない。例えば、当該目標割合は、１０％でもよい。この場合、コンピュータ機器は、１つのバッチにおけるトレーニングサンプルの１０％を削除し、誤差値の最も大きい１０％を削除し、或いは誤差値の最も大きい１０％の誤差値の重みをゼロに設定する。例えば、方法２において、二値重みＡ_ｄｒｏｐ（第１重み）が導入され、誤差値条件を満たす誤差値の重みＡ_ｄｒｏｐが０であり、残りが１である。これにより、ノイズサンプル、さらに汚染されたサンプル（遮蔽の問題がある）の影響を減らし、これらのトレーニングサンプルに起因してモデルトレーニングの収束に影響を与えることはない。

１つの可能な実施例では、各サンプル画像セットは、１つの第２重みに対応できる。当該第２重みは、当該サンプル画像セットの複数フレームのサンプル画像における選択目標の変位状況を示すためのものである。サンプル画像セットの複数フレームのサンプル画像における選択目標の移動変位が非常に小さく、さらにゼロである際に、当該選択目標を追跡して得られた誤差値は初期モデルの予測能力を反映できないため、この部分の誤差値がモデルパラメータ調整時に果たす役割を弱めるべきであることを理解できる。

この実施例では、当該ステップ２０６において、コンピュータ機器は、各サンプル画像セットの誤差値の第２重みを取得することができる。当該第２重みは、当該各サンプル画像セットにおける目標の複数フレームのサンプル画像における変位と正の相関関係がある。コンピュータ機器が第２重みを取得した後に、当該目標数のサンプル画像セットに対応する複数の誤差値及び複数の第２重みに基づいて、当該初期モデルのモデルパラメータを調整することができる。例えば、コンピュータ機器は、当該目標数のサンプル画像セットに対応する複数の誤差値及び複数の第２重みに基づいて、当該目標数のサンプル画像セットに対応する総誤差値を取得し、当該総誤差値に基づいて、当該初期モデルのモデルパラメータを調整することができる。

例えば、一つの具体的な例では、第２重みＡ_{ｍｏｔｉｏｎ}を導入することができる。コンピュータ機器は、下記の式３により第２重みを得ることができる。

ただし、Ａ_{ｍｏｔｉｏｎ}は第２重みであり、ｉはサンプル画像セットの識別子であり、Ｒ_Ｓは第２サンプル画像に対応する位置指示情報であり、Ｙ_Ｔは第１サンプル画像に対応する第１位置指示情報であり、Ｙ_Ｓは第２サンプル画像に対応する位置指示情報又は当該Ｒ_Ｓにより得られたガウス型の位置指示情報である。当該式では、サンプル画像セットが１フレームの第１サンプル画像及び２フレームの第２サンプル画像を含む場合のみを例にとると、Ｔは、第１サンプル画像を示すためのものであり、Ｓは、第２サンプル画像を示すためのものであり、Ｓ１は、そのうちの１フレームの第２サンプル画像を示すためのものであり、Ｓ２は、別の１フレームの第２サンプル画像を示すためのものである。例えば、図６に示すように、１フレームの第１サンプル画像（テンプレート画像ブロック）及び１フレームの第２サンプル画像（検索画像ブロック）を採用する状況は、左の図における＃１及び＃２に示すように、偶然による成功であり得る。１フレームの第１サンプル画像及び２フレームの第２サンプル画像を採用する状況は、右の図における＃１、＃２及び＃３に示されており、右の図における＃２は、検索画像ブロック＃１とも呼ばれ、右の図における＃３は、検索画像ブロック＃２とも呼ばれる。第２サンプル画像を増やすことにより、偶然による成功を回避でき、エラーを蓄積し、位置取得モデルの精度及び安定性を向上させることができる。

１つの可能な実施形態では、コンピュータ機器は、上記の第１重みと第２重みとを統合し、モデルパラメータを調整することができ、つまり、サンプルの誤差値が過大の場合だけでなく、変位の状況も考慮に入れることができる。具体的には、当該目標数のサンプル画像セットに対応する複数の誤差値について、コンピュータ機器は、第１重み及び第２重みに基づいて、各誤差値の総重みを取得し、当該複数の誤差値の総重みに基づいて、当該複数の誤差値の加重和を求め、当該複数の誤差値の総誤差値を得て、当該総誤差値に基づいて、当該初期モデルのモデルパラメータを調整することができる。

例えば、当該総誤差値の取得プロセスは、下記の式４により実現できる。

ただし、Ａ_ｄｒｏｐは第１重みであり、Ａ_{ｍｏｔｉｏｎ}は第２重みであり、ｎは目標数であり、ｎは１より大きい正の整数であり、ｉはサンプル画像セットの識別子である。

は総重みである。

当該総誤差値は、最小化再構成誤差で表すことができる。例えば、当該総誤差値の取得プロセスは、下記の式５により実現できる。

ただし、

は、選択目標の第１サンプル画像における第２位置（第１サンプル画像に対応する第２位置指示情報）であり、Ｙ_Ｔは、選択目標の１つのサンプル画像における第１位置（第１サンプル画像に対応する第１位置指示情報）であり、ｎは目標数であり、ｎは１より大きい正の整数であり、ｉはサンプル画像セットの識別子である。

は目標数のサンプル画像セットに対応する総誤差値である。当然、ここでは、これは単なる例示的な説明であり、当該総誤差値は、他の誤差又は報酬値で示されてもよく、本発明の実施例では、これを限定しない。

総重みを取得することにより、目標の複数フレームの画像における変位が非常に小さい状況を最適化し、選択目標の複数フレームのサンプル画像における変位がかなり大きい状況も最適化したため、小さい総誤差値を得ることができ、これに基づいてモデルパラメータを調整することで、得られた位置取得モデルによる画像処理の精度も向上した。

なお、当該サンプル画像セットに、１フレームの第１サンプル画像及び１フレームの第２サンプル画像のみが含まれる場合には、当該総誤差値の取得プロセスは、下記の式６により実現できる。

ただし、

は、選択目標の第１サンプル画像における第２位置（第１サンプル画像に対応する第２位置指示情報）であり、Ｙ_Ｔは、選択目標の１つのサンプル画像における第１位置（第１サンプル画像に対応する第１位置指示情報）であり、

は、目標数のサンプル画像セットに対応する総誤差値である。

１つの可能な実施形態では、当該モデルパラメータ調整プロセスは、グラジエントリターンにより実現でき、具体的には、下記の式７を参照できる。ここでは、これは単なる例示的な説明であり、調整プロセスを限定しない。

ただし、

は偏微分記号である。

は目標数のサンプル画像セットに対応する総誤差値である。

は離散フーリエ変換であり、

は離散フーリエ逆変換であり、

は複素共役を表す。Ｔは、第１サンプル画像を識別するためのものであり、Ｓは、第２サンプル画像を識別するためのものである。

はＣＮＮの特徴抽出操作を表す。

一例では、当該位置取得モデルを追跡装置と呼ぶことができる。当該追跡装置は、フォワード及びバックワード追跡を行うことができる。即ち、１つの初期追跡目標が決められると、追跡装置は、目標を前方に追跡できるとともに、追跡が終了する最後の位置を開始点として、最初に指定された位置まで遡ることができるはずである。追跡装置の自己校正により、教師なしトレーニングを実行できる。サンプル画像にタグが付けられることなく、堅牢な追跡装置をトレーニングでき、完全に監視されるようにトレーニングされた追跡装置に近い性能を有することができる。

本発明の実施例では、トレーニングして得られた位置取得モデルは、複数フレームの画像を処理し、目標の複数フレームの画像における位置を取得するものであり、当該位置取得モデルは、フォワード及びバックワードプロセスでトレーニングすることで得ることができ、フォワードプロセスを介して、選択目標の第１サンプル画像における第１位置により選択目標の第２サンプル画像における第３位置を予測することができ、バックワードプロセスを介して、第３位置により選択目標の第１サンプル画像における第２位置を予測することができる。選択目標は、第１サンプル画像内でランダムに選択して得られるものであり、選択した位置は決まっているため、第１位置は、選択目標の実際の位置である。選択目標の第１サンプル画像における第１位置及び第２位置を利用することで、第１位置と第２位置との間の誤差値により初期モデルのモデルパラメータの正確性を反映できる。よって、関連技術者が手動でマークすることなく、第１位置及び第２位置により初期モデルをトレーニングすることができ、人件費を効果的に低減させ、モデルのトレーニング効率を向上させることができ、画像の処理過程が簡単になり、目標の位置取得プロセス全体の効率を効果的に向上させた。

上記の図２に示す実施例では、位置取得モデルのトレーニングプロセスを詳しく説明した。以下では、図７に示す実施例により、当該位置取得モデルによる目標の位置取得プロセスを説明する。図７は、本発明の実施例で提供される目標の位置取得方法のフローチャートである。当該目標の位置取得方法は、コンピュータ機器に応用でき、当該コンピュータ機器は、端末として提供されてもよく、サーバとして提供されてもよく、本発明の実施例では、これを限定しない。図７に示すように、この方法は、以下のステップを含むことができる。

ステップ７０１：コンピュータ機器は、複数フレームの画像を取得する。当該複数フレームの画像のうちの第１画像は、被検目標を含み、当該第１画像は、当該複数フレームの画像のいずれか１フレームの画像である。

コンピュータ機器は、複数フレームの画像を取得し、当該複数フレームの画像を処理し、被検目標の当該複数フレームの画像における第１位置を特定することができる。

当該ステップ７０１では、コンピュータ機器は、様々な方法で当該複数フレームの画像を取得することができる。応用場面によっては、当該コンピュータ機器が当該複数フレームの画像を取得する方法が異なってもよい。例えば、当該コンピュータ機器は、画像取得機能を有することができる。この場合、当該コンピュータ機器は、画像を撮影し、撮影した複数フレームの画像に対して下記の画像処理プロセスを行い、当該複数フレームの画像における被検目標を追跡することができる。当該コンピュータ機器は、画像収集デバイスが送信した複数フレームの画像を受信し、下記の画像処理プロセスを実行し、当該複数フレームの画像における被検目標を追跡することもできる。さらに、コンピュータ機器は、リアルタイムに撮影したビデオ、又は目標アドレスに格納されたビデオを取得し、ビデオから複数フレームの画像を抽出し、下記の画像処理プロセスを実行し、当該複数フレームの画像における被検目標を追跡することもできる。本発明の実施例では、応用場面、及びコンピュータ機器が複数フレームの画像を取得する方法を限定しない。

１つの可能な実施形態では、上記のステップ２０１と同様に、コンピュータ機器は、取得又は抽出された複数フレームの画像を切り抜き、処理対象となる複数フレームの画像を取得することもできる。具体的には、コンピュータ機器は、取得又は抽出された複数フレームの画像から、当該複数フレームの画像の中心を中心点とする目標エリアを切り抜き、処理対象となる複数フレームの画像を取得することができる。本発明の実施例においては、ここで繰り返して述べない。

ステップ７０２：コンピュータ機器は、位置取得モデルを呼び出す。

当該ステップ７０２において、当該位置取得モデルのモデルパラメータは、被検目標の複数フレームのサンプル画像のうちの第１サンプル画像における位置（実際の位置）及び当該被検目標の当該第１サンプル画像における位置（予測位置）に基づいてトレーニングして得られるものであり、当該被検目標の当該第１サンプル画像における位置は、当該被検目標の当該複数フレームのサンプル画像のうちの第２サンプル画像における位置に基づいて取得したものである。当該位置取得モデルは、上記の図２に示すモデルトレーニングプロセスによりトレーニングして得ることができる。

なお、当該図７に示すコンピュータ機器は、上記の図２に示すコンピュータ機器であってもよい。つまり、これによって、コンピュータ機器は、ローカルストレージデータから当該位置取得モデルを呼び出すことができる。当該図７に示すコンピュータ機器と上記の図２に示すコンピュータ機器は、異なるコンピュータ機器であってもよい。上記の図２に示すコンピュータ機器は、トレーニングして得られた位置取得モデルをカプセル化してから当該図７に示すコンピュータ機器に送信することができる。当該コンピュータ機器は、位置取得モデルに対して解凍等の処理を行い、画像処理する必要がある際に、当該位置取得モデルを呼び出すことができる。当然、当該図７に示すコンピュータ機器は、画像処理する必要がある際に、図２に示すコンピュータ機器内に既にトレーニングされた位置取得モデルをリアルタイムに呼び出すこともできる。本発明の実施例では、これを限定しない。

ステップ７０３：コンピュータ機器は、当該位置取得モデルにより、当該位置取得モデルのモデルパラメータ及び当該被検目標の当該第１画像における位置に基づいて、当該複数フレームの画像のうち当該第１画像とは別の画像である第２画像を処理し、当該被検目標の当該第２画像における位置を出力する。

当該ステップ７０３において、当該被検目標の当該第１画像における位置は、関連技術者が手動でマークすることで得ることができ、コンピュータ機器が走査設定に従って第１画像を走査することで得ることもできる。例えば、技術者が必要に応じて、第１画像内で１つの目標エリアを被検目標としてマークすることができる。また、例えば、コンピュータ機器において人の追跡を設定することができる。そのため、コンピュータ機器は、第１画像を走査及び顔認識して、人の位置を特定し、それを被検目標とすることができる。当然、ここでは、２つの例のみが示され、当該被検目標の位置取得方法は、他の応用場面にも応用でき、コンピュータ機器は、他の方法で被検目標の第１画像における位置を特定することもでき、本発明の実施例では、これを限定しない。

当該ステップ７０３では、上記のステップ２０３と同様に、コンピュータ機器は、下記のステップ１及びステップ２により、被検目標の第２画像における位置を取得することができる。

ステップ１：コンピュータ機器における位置取得モデルは、当該被検目標の当該第１画像における位置、当該第１画像及び当該モデルパラメータに基づいて、画像処理パラメータを取得する。

上記のステップ２０３におけるステップ１と同様に、コンピュータ機器における位置取得モデルは、当該被検目標の当該第１画像における位置に基づいて、当該目標の当該第１画像における位置を示すための当該第１画像に対応する位置指示情報を生成することができる。コンピュータ機器における位置取得モデルは、当該第１画像に対応する位置指示情報、当該第１画像及び当該モデルパラメータに基づいて、画像処理パラメータを取得することができる。

１つの可能な実施形態では、当該位置指示情報は応答グラフであり、当該応答グラフのピークの存在する位置は、当該被検目標の存在する位置である。

同様に、１つの可能な実施例では、コンピュータ機器における位置取得モデルは、当該モデルパラメータに基づいて、当該第１画像に対して特徴抽出を行い、当該第１画像の画像特徴を得てから、当該第１画像の画像特徴及び当該第１画像に対応する位置指示情報に基づいて、画像処理パラメータを取得することができる。

ステップ２：コンピュータ機器における位置取得モデルは、当該画像処理パラメータに基づいて、第２画像を処理し、当該被検目標の当該第２画像における位置を出力する。

上記のステップ２０３におけるステップ２と同様に、コンピュータ機器における位置取得モデルは、当該画像処理パラメータに基づいて、第２画像を処理し、当該被検目標の当該第２画像における位置を示すための当該第２画像に対応する位置指示情報を出力することができる。

上記のステップ２０３におけるステップ２と同様に、コンピュータ機器における位置取得モデルは、当該モデルパラメータに基づいて、当該第２画像に対して特徴抽出を行い、当該第２画像の画像特徴を得てから、当該画像処理パラメータに基づいて、当該第２画像の画像特徴を処理し、当該第２画像に対応する位置指示情報を出力することができる。

当該ステップ７０３は、上記のステップ２０３と同様に実行される。ここでは、繰り返して述べない。

本発明の実施例では、トレーニングして得られた位置取得モデルは、複数フレームの画像を処理し、被検目標の複数フレームの画像における位置を取得するものであり、当該位置取得モデルは、フォワード及びバックワードプロセスを介して、当該被検目標の第１サンプル画像における実際の位置及び予測位置を利用し、初期モデルをトレーニングすることができ、関連技術者が手動でマークする必要がないため、人件費を効果的に低減させ、モデルのトレーニング効率を向上させることができ、画像の処理過程が簡単になり、被検目標の位置取得プロセス全体の効率を効果的に向上させた。

以下では、図８に示す実施例によりモデルトレーニングプロセス及びモデル使用プロセスを説明する。図８は、本発明の実施例で提供される目標の位置取得方法のフローチャートである。図８に示すように、当該方法は、以下のステップを含むことができる。

ステップ８０１：コンピュータ機器は、複数フレームのサンプル画像を取得する。

ステップ８０２：コンピュータ機器は、初期モデルを呼び出し、前記初期モデルに従って選択目標の前記複数フレームのサンプル画像のうちの第１サンプル画像における第１位置に基づいて、前記選択目標の第２サンプル画像における第３位置を取得し、前記選択目標の第２サンプル画像における第３位置に基づいて、前記選択目標の前記第１サンプル画像における第２位置を取得し、前記第１位置及び前記第２位置に基づいて、前記初期モデルのモデルパラメータを調整し、位置取得モデルを得る。前記選択目標は、前記初期モデルが前記第１サンプル画像内で目標エリアをランダムに選択して得られるものであり、前記第２サンプル画像は、前記複数フレームのサンプル画像のうち前記第１サンプル画像とは別のサンプル画像である。

当該ステップ８０１及びステップ８０２は、上記の図２に示す実施例の記載と同様に実行される。本発明の実施例においては、ここで繰り返して述べない。

ステップ８０３：複数フレームの画像を取得した場合、コンピュータ機器は、当該位置取得モデルを呼び出し、前記位置取得モデルに従って被検目標の前記複数フレームの画像における位置を特定する。

当該ステップ８０３は、上記の図７に示す実施例の記載と同様に実行される。本発明の実施例においては、ここで繰り返して述べない。

本発明の実施例では、初期モデルにより第１サンプル画像における選択目標をランダムに選択し、第２サンプル画像に基づいて遷移し、フォワード及びバックワードプロセスにより、目標の第１サンプル画像における予測位置を取得し、当該選択目標の第１サンプル画像における実際の位置及び予測位置により、初期モデルをトレーニングする。関連技術者が手動でマークする必要がないため、人件費を効果的に低減させ、モデルのトレーニング効率を向上させることができ、このようにトレーニングして得られた位置取得モデルにより画像を処理することで、被検目標の位置を取得することができ、画像の処理過程が簡単になり、被検目標の位置取得プロセス全体の効率を効果的に向上させた。

前述した全ての任意の技術方案を任意の方法で組み合わせて本発明の任意の実施例を形成することができる。ここでは、一々繰り返して述べない。

図９は、本発明の実施例で提供される目標の位置取得装置の構造模式図である。図９に示すように、当該装置は、
複数フレームの画像を取得するための画像取得モジュール９０１であって、前記複数フレームの画像のうちの第１画像は、被検目標を含み、前記第１画像は前記複数フレームの画像のいずれか１フレームの画像である、画像取得モジュール９０１と、
位置取得モデルを呼び出すためのモデル呼び出しモジュール９０２であって、前記位置取得モデルのモデルパラメータは、選択目標の複数フレームのサンプル画像のうちの第１サンプル画像における第１位置及び前記選択目標の前記第１サンプル画像における第２位置に基づいてトレーニングして得られるものであり、前記第２位置は、前記選択目標の前記複数フレームのサンプル画像のうちの第２サンプル画像における第３位置に基づいて予測して得られるものであり、前記第３位置は、前記第１位置に基づいて予測して得られるものであり、前記選択目標は、前記第１サンプル画像内でランダムに選択して得られるものであり、前記第２サンプル画像は、前記複数フレームのサンプル画像のうち前記第１サンプル画像とは別のサンプル画像である、モデル呼び出しモジュール９０２と、
前記位置取得モデルにより、前記モデルパラメータ及び前記被検目標の前記第１画像における位置に基づいて、前記被検目標の第２画像における位置を特定するための位置取得モジュール９０３であって、前記第２画像は、前記複数フレームの画像のうち前記第１画像とは別の画像である、位置取得モジュール９０３と、を含むことができる。

１つの可能な実施形態では、当該位置取得モジュール９０３は、
前記被検目標の前記第１画像における位置、前記第１画像及び前記モデルパラメータに基づいて、画像処理パラメータを取得し、
前記画像処理パラメータに基づいて、前記第２画像を処理し、前記被検目標の前記第２画像における位置を出力するためのものである。

１つの可能な実施形態では、当該位置取得モジュール９０３は、
前記被検目標の前記第１画像における位置に基づいて、前記被検目標の前記第１画像内の選択位置を示すための前記第１画像に対応する位置指示情報を生成し、
前記第１画像に対応する位置指示情報、前記第１画像及び前記モデルパラメータに基づいて、前記画像処理パラメータを取得するためのものである。

当該位置取得モジュール９０３は、
前記画像処理パラメータに基づいて、前記第２画像を処理し、前記被検目標の前記第２画像内の予測位置を示すための前記第２画像に対応する位置指示情報を出力するためのものである。

１つの可能な実施形態では、当該位置取得モジュール９０３は、
前記モデルパラメータに基づいて、前記第１画像に対して特徴抽出を行い、前記第１画像の画像特徴を取得し、
前記第１画像の画像特徴及び前記第１画像に対応する位置指示情報に基づいて、前記画像処理パラメータを取得するためのものである。

当該位置取得モジュール９０３は、
前記モデルパラメータに基づいて、前記第２画像に対して特徴抽出を行い、前記第２画像の画像特徴を取得し、
前記画像処理パラメータに基づいて、前記第２画像の画像特徴を処理し、前記第２画像に対応する位置指示情報を出力するためのものである。

１つの可能な実施形態では、当該装置は、モデルトレーニングモジュールをさらに含む。当該モデルトレーニングモジュールは、
複数フレームのサンプル画像を取得し、
初期モデルを呼び出し、前記初期モデルにより前記複数フレームのサンプル画像のうちの第１サンプル画像における目標エリアを前記選択目標としてランダムに選択し、前記選択目標の前記第１サンプル画像における第１位置、前記第１サンプル画像及び第２サンプル画像に基づいて、前記選択目標の前記第２サンプル画像における第３位置を取得し、前記選択目標の前記第２サンプル画像における第３位置、前記第１サンプル画像及び第２サンプル画像に基づいて、前記選択目標の前記第１サンプル画像における第２位置を取得し、
前記選択目標の前記第１サンプル画像における第１位置及び第２位置に基づいて、前記第１位置に対する前記第２位置の誤差値を取得し、
前記誤差値に基づいて、目標条件に合致するまで前記初期モデルのモデルパラメータを調整し、前記位置取得モデルを得るためのものである。

１つの可能な実施形態では、当該モデルトレーニングモジュールは、
前記第１位置及び前記第１サンプル画像に基づいて、第１画像処理パラメータを取得し、
前記第１画像処理パラメータに基づいて、前記第２サンプル画像を処理し、前記第３位置を得るためのものである。

当該モデルトレーニングモジュールは、
前記第３位置及び前記第２サンプル画像に基づいて、第２画像処理パラメータを取得し、
前記第２画像処理パラメータに基づいて、前記第１サンプル画像を処理し、前記第２位置を得るためのものである。

当該モデルトレーニングモジュールは、
前記初期モデルのモデルパラメータに基づいて、前記第１サンプル画像に対して特徴抽出を行い、前記第１サンプル画像の画像特徴を取得し、
前記第１サンプル画像の画像特徴及び前記第１位置に基づいて、前記第１画像処理パラメータを取得するためのものである。

当該モデルトレーニングモジュールは、
前記初期モデルのモデルパラメータに基づいて、前記第２サンプル画像に対して特徴抽出を行い、前記第２サンプル画像の画像特徴を取得し、
前記第１画像処理パラメータに基づいて、前記第２サンプル画像の画像特徴を処理し、前記第３位置を得るためのものである。

１つの可能な実施形態では、当該モデルトレーニングモジュールは、
前記第１位置に基づいて、前記選択目標の前記第１サンプル画像内の選択位置を指示するための前記第１サンプル画像に対応する第１位置指示情報を生成し、
前記第１位置指示情報、前記第１サンプル画像及び第２サンプル画像に基づいて、前記選択目標の前記第２サンプル画像内の予測位置を示すための前記第２サンプル画像に対応する位置指示情報を取得するためのものである。

当該モデルトレーニングモジュールは、
前記第２サンプル画像に対応する位置指示情報、前記第１サンプル画像及び前記第２サンプル画像に基づいて、前記目標の前記第１サンプル画像内の予測位置を示すための前記第１サンプル画像に対応する第２位置指示情報を取得するためのものである。

１つの可能な実施形態では、当該複数フレームのサンプル画像は、複数のサンプル画像セットを含み、各サンプル画像セットは、１フレームの第１サンプル画像及び少なくとも１フレームの第２サンプル画像を含み、各サンプル画像セットは、１つの当該予測位置の誤差値に対応する。

当該モデルトレーニングモジュールは、
当該複数のサンプル画像セットにおける目標数ごとのサンプル画像セットに対して、当該目標数のサンプル画像セットに対応する複数の誤差値に基づいて、当該初期モデルのモデルパラメータを調整するためのものである。

１つの可能な実施形態では、当該モデルトレーニングモジュールは、
当該目標数のサンプル画像セットに対応する複数の誤差値に基づいて、当該複数の誤差値のうち誤差値条件を満たす誤差値を削除し、残りの誤差値に基づいて、当該初期モデルのモデルパラメータを調整する工程、及び
当該目標数のサンプル画像セットに対応する複数の誤差値に基づいて、当該複数の誤差値の第１重みを決定し、当該複数の誤差値の第１重み及び当該複数の誤差値に基づいて、当該複数の誤差値のうち誤差値条件を満たす誤差値の第１重みがゼロになるように、当該初期モデルのモデルパラメータを調整する工程のいずれか１つを実行するためのものである。

１つの可能な実施形態では、各サンプル画像セットは、１つの第２重みに対応する。

当該目標数のサンプル画像セットに対応する複数の誤差値に基づいて、当該初期モデルのモデルパラメータを調整する当該工程は、
各サンプル画像セットの誤差値の第２重みを取得する工程であって、当該第２重みは、当該各サンプル画像セット内の選択目標の複数フレームのサンプル画像における変位と正の相関関係がある、工程と、
当該目標数のサンプル画像セットに対応する複数の誤差値及び複数の第２重みに基づいて、当該初期モデルのモデルパラメータを調整する工程と、を含む。

本発明の実施例で提供される装置では、トレーニングして得られた位置取得モデルは、複数フレームの画像を処理し、目標の複数フレームの画像における位置を取得するものであり、当該位置取得モデルは、フォワード及びバックワードプロセスでトレーニングすることで得ることができ、フォワードプロセスを介して、選択目標の第１サンプル画像における第１位置により選択目標の第２サンプル画像における第３位置を予測することができ、バックワードプロセスを介して、第３位置により選択目標の第１サンプル画像における第２位置を予測することができる。選択目標は、第１サンプル画像内でランダムに選択して得られるものであり、選択した位置は決まっているため、第１位置は、選択目標の実際の位置である。選択目標の第１サンプル画像における第１位置及び第２位置を利用することで、第１位置と第２位置との間の誤差値により初期モデルのモデルパラメータの正確性を反映できる。よって、関連技術者が手動でマークすることなく、第１位置及び第２位置により初期モデルをトレーニングすることができ、人件費を効果的に低減させ、モデルのトレーニング効率を向上させることができ、画像の処理過程が簡単になり、目標の位置取得プロセス全体の効率を効果的に向上させた。

なお、上記の実施例で提供される目標の位置取得装置が目標の位置を取得する際に、上記の各機能モジュールの分類のみを例示して説明したが、実際の応用では、上記の機能は、必要に応じて、それぞれ異なる機能モジュールによって実現することができ、即ち、コンピュータ機器の内部構造を異なる機能モジュールに分け、前述した全て又は一部の機能を実現することができる。また、上記の実施例で提供される目標の位置取得装置と目標の位置取得方法の実施例は、同じ構想に属し、その具体的な実現プロセスは、位置取得方法の実施例に詳しく記載されているが、ここでは、繰り返して述べない。

図１０は、本発明の実施例で提供される目標の位置取得装置の構造模式図である。図１０に示すように、当該装置は、
複数フレームのサンプル画像を取得するための画像取得モジュール１００１と、
初期モデルを呼び出し、前記初期モデルに従って選択目標の前記複数フレームのサンプル画像のうちの第１サンプル画像における第１位置に基づいて、前記選択目標の第２サンプル画像における第３位置を取得し、前記選択目標の第２サンプル画像における第３位置に基づいて、前記選択目標の前記第１サンプル画像における第２位置を取得し、前記第１位置及び前記第２位置に基づいて、前記初期モデルのモデルパラメータを調整し、位置取得モデルを得るためのモデルトレーニングモジュール１００２と、
複数フレームの画像を取得した場合、当該位置取得モデルを呼び出し、前記位置取得モデルに従って被検目標の前記複数フレームの画像における位置を特定するための位置取得モジュール１００３と、を含むことができる。

本発明の実施例で提供される装置では、初期モデルにより第１サンプル画像における選択目標をランダムに選択し、第２サンプル画像に基づいて遷移し、フォワード及びバックワードプロセスにより初期モデルをトレーニングする。フォワードプロセスを介して、選択目標の第１サンプル画像における第１位置により選択目標の第２サンプル画像における第３位置を予測することができ、バックワードプロセスを介して、第３位置により選択目標の第１サンプル画像における第２位置を予測することができる。選択目標は、第１サンプル画像内でランダムに選択して得られるものであり、選択した位置は決まっているため、第１位置は、選択目標の実際の位置である。選択目標の第１サンプル画像における第１位置及び第２位置を利用することで、第１位置と第２位置との間の誤差値により初期モデルのモデルパラメータの正確性を反映できる。よって、関連技術者が手動でマークすることなく、第１位置及び第２位置により初期モデルをトレーニングすることができ、人件費を効果的に低減させ、モデルのトレーニング効率を向上させることができ、画像の処理過程が簡単になり、目標の位置取得プロセス全体の効率を効果的に向上させた。

上記のコンピュータ機器は、下記の図１１に示す端末として提供されてもよく、下記の図１２に示すサーバとして提供されてもよく、本発明の実施例では、これを限定しない。

図１１は、本発明の実施例で提供される端末の構造模式図である。当該端末１１００は、スマートフォン、タブレットコンピュータ、ＭＰ３（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＩＩ、ムービングピクチャーエクスパーツグループオーディオレイヤー３）プレイヤー、ＭＰ４（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＶ、ムービングピクチャーエクスパーツグループオーディオレイヤー４）プレイヤー、ノートパソコン又はデスクトップパソコンであってもよい。端末１１００は、ユーザ機器、携帯端末、ラップトップ端末、デスクトップ端末等とも呼ばれ得る。

一般的には、端末１１００は、１つ又は複数のプロセッサ１１０１及び１つ又は複数のメモリ１１０２を含む。

プロセッサ１１０１は、４コアプロセッサ、８コアプロセッサなどのような１つ又は複数の処理コアを含んでもよい。プロセッサ１１０１は、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ、デジタル信号処理）、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、フィールドプログラマブルゲートアレイ）、ＰＬＡ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＡｒｒａｙ、プログラマブルロジックアレイ）のうちの少なくとも１つのハードウェアの形態で実現できる。プロセッサ１１０１は、メインプロセッサ及びコプロセッサを含んでもよい。メインプロセッサは、アウェイク状態のデータを処理するためのプロセッサであり、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、中央処理ユニット）とも呼ばれる。コプロセッサは、スタンバイ状態のデータを処理するための低消費電力プロセッサである。幾つかの実施例では、プロセッサ１１０１には、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、グラフィックスプロセッシングユニット）が組み込まれてもよく、ＧＰＵは、ディスプレイに表示する必要があるコンテンツをレンダリング及び描画するためのものである。幾つかの実施例では、プロセッサ１１０１は、さらに、機械学習に関連する計算操作を処理するためのＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、人工知能）プロセッサを含んでもよい。

メモリ１１０２は、１つ又は複数のコンピュータ読み取り可能な記憶媒体を含んでもよい。当該コンピュータ読み取り可能な記憶媒体は、非一過性のものであってもよい。メモリ１１０２は、さらに、高速ランダムアクセスメモリ、及び不揮発性メモリ、例えば１つ又は複数の磁気ディスク記憶装置、フラッシュメモリ記憶装置を含んでもよい。幾つかの実施例では、メモリ１１０２における非一過性コンピュータ読み取り可能な記憶媒体は、少なくとも１つの指令を記憶するためのものである。当該少なくとも１つの指令は、プロセッサ１１０１により実行されることで本発明における方法の実施例で提供される目標の位置取得方法を実現するためのものである。

幾つかの実施例では、端末１１００は、さらに、周辺装置インタフェース１１０３及び少なくとも１つの周辺装置を任意に含んでもよい。プロセッサ１１０１、メモリ１１０２及び周辺装置インタフェース１１０３は、バスまたは信号線によって接続され得る。各周辺装置は、バス、信号線又は回路板を介して周辺装置インタフェース１１０３に接続することができる。具体的には、周辺装置は、無線周波数回路１１０４、ディスプレイ１１０５、カメラ１１０６、オーディオ回路１１０７、位置決めユニット１１０８及び電源１１０９のうちの少なくとも１つを含む。

周辺装置インタフェース１１０３は、Ｉ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ、入力／出力）に関連する少なくとも１つの周辺装置をプロセッサ１１０１及びメモリ１１０２に接続するために使用され得る。幾つかの実施例では、プロセッサ１１０１、メモリ１１０２及び周辺装置インタフェース１１０３は、同じチップ又は回路板上に組み込まれる。幾つかの別の実施例では、プロセッサ１１０１、メモリ１１０２及び周辺装置インタフェース１１０３のうちのいずれか１つ又は２つは、個別のチップ又は回路板上に組み込むことができる。本実施例では、これを限定しない。

無線周波数回路１１０４は、電磁信号とも呼ばれるＲＦ（ＲａｄｉｏＦｒｅｑｕｅｎｃｙ、無線周波数）信号を送受信するためのものである。無線周波数回路１１０４は、電磁信号を介して通信ネットワーク及び他の通信デバイスと通信する。無線周波数回路１１０４は、電気信号を電磁信号に変換して送信するか、又は、受信した電磁信号を電気信号に変換する。任意には、無線周波数回路１１０４は、アンテナシステム、ＲＦトランシーバ、１つ又は複数の増幅器、チューナ、発振器、デジタル信号プロセッサ、コーデックチップセット、ユーザＩＤモジュールカード等を含む。無線周波数回路１１０４は、少なくとも１つの無線通信プロトコルを介して他の端末と通信することができる。当該無線通信プロトコルは、メトロポリタンエリアネットワーク、各世代のモバイル通信ネットワーク（２Ｇ、３Ｇ、４Ｇ及び５Ｇ）、無線ローカルエリアネットワーク及び／又はＷｉ－Ｆｉ（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ、ワイヤレスフィデリティ）ネットワークを含むが、これらに限定されない。幾つかの実施例では、無線周波数回路１１０４は、さらにＮＦＣ（ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎ、近距離無線通信）に関連する回路を含んでもよい。本発明では、これを限定しない。

ディスプレイ１１０５は、ＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ、ユーザインタフェース）を表示するためのものである。当該ＵＩは、グラフィック、テキスト、アイコン、ビデオ及びそれらの任意の組合せを含んでもよい。ディスプレイ１１０５がタッチディスプレイである場合、ディスプレイ１１０５は、さらに、ディスプレイ１１０５の表面又はその上のタッチ信号を収集する能力を有する。当該タッチ信号は、制御信号としてプロセッサ１１０１に入力して処理することができる。この場合、ディスプレイ１１０５は、さらに、ソフトボタン及び／又はソフトキーボードとも呼ばれる仮想ボタン及び／又は仮想キーボードを提供するために使用することもできる。幾つかの実施例では、端末１１００のフロントパネルに設けられた１つのディスプレイ１１０５を有してもよい。幾つかの別の実施例では、それぞれ端末１１００の異なる表面に設けられ、又は折り畳まれるように設計される少なくとも２つのディスプレイ１１０５を有してもよい。また別の実施例では、ディスプレイ１１０５は、端末１１００の曲面または折り畳み面に設けられたフレキシブルディスプレイであってもよい。さらに、ディスプレイ１１０５は、長方形ではない不規則な形状にしてもよく、即ち、異形のディスプレイであってもよい。ディスプレイ１１０５は、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、液晶ディスプレイ）、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔ－ＥｍｉｔｔｉｎｇＤｉｏｄｅ、有機発光ダイオード）などの材料で製造することができる。

カメラユニット１１０６は、画像又はビデオを収集するためのものである。任意には、カメラユニット１１０６は、フロントカメラ及びリアカメラを含む。一般的には、フロントカメラは、端末のフロントパネルに設けられ、リアカメラは、端末の裏面に設けられる。幾つかの実施例では、少なくとも２つのリアカメラを有する。これらのリアカメラは、それぞれメインカメラ、被写界深度カメラ、広角カメラ、望遠カメラのうちのいずれか１種であり、メインカメラと被写界深度カメラとの組合せによる背景ぼかし機能、メインカメラと広角カメラとの組合せによるパノラマ撮影及びＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ、バーチャルリアリティ）撮影機能、又はその他の組合せによる撮影機能を実現する。幾つかの実施例では、カメラユニット１１０６は、さらにフラッシュを含んでもよい。フラッシュは、単色温度フラッシュでもよいし、デュアル色温度フラッシュでもよい。デュアル色温度フラッシュとは、ウォームライトフラッシュ及びコールドライトフラッシュの組合せであり、異なる色温度での光補正に用いることができる。

オーディオ回路１１０７は、マイクロホン及びスピーカーを含むことができる。マイクロホンは、ユーザ及び環境の音波を収集し、音波を電気信号に変換して、プロセッサ１１０１に入力して処理し、又は、無線周波数回路１１０４に入力して音声通信を行うためのものである。ステレオ収集又はノイズ低減の目的で、端末１１００の異なる箇所にそれぞれ設けられた複数のマイクロホンを有してもよい。マイクロホンは、アレイマイクロホン又は全方向集音型マイクロホンであってもよい。スピーカーは、プロセッサ１１０１又は無線周波数回路１１０４からの電気信号を音波に変換するためのものである。スピーカーは、伝統的な薄膜スピーカーでもよいし、圧電セラミックスピーカーでもよい。スピーカーが圧電セラミックスピーカーである場合、電気信号を人間に聞こえる音波に変換できるだけでなく、距離測定などの目的で電気信号を人間に聞こえない音波に変換することもできる。幾つかの実施例では、オーディオ回路１１０７は、さらにヘッドホンジャックを含んでもよい。

位置決めユニット１１０８は、端末１１００の現在の地理的位置を位置決めし、ナビゲーション又はＬＢＳ（ＬｏｃａｔｉｏｎＢａｓｅｄＳｅｒｖｉｃｅ、ロケーションベースサービス）を実現するためのものである。位置決めユニット１１０８は、米国のＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ、グローバルポジショニングシステム）、中国の北斗システム、ロシアのグレナスシステム又は欧州連合のガリレオシステムに基づく位置決めユニットであってもよい。

電源１１０９は、端末１１００における各ユニットに供電するためのものである。電源１１０９は、交流電源、直流電源、一次電池又は充電式電池であってもよい。電源１１０９が充電式電池を含む場合、当該充電式電池は、有線充電又は無線充電をサポートすることができる。当該充電式電池は、さらに急速充電技術をサポートするために使用できる。

幾つかの実施例では、端末１１００は、さらに１つ又は複数のセンサ１１１０を含む。当該１つ又は複数のセンサ１１１０は、加速度センサ１１１１、ジャイロセンサ１１１２、圧力センサ１１１３、指紋センサ１１１４、光学センサ１１１５及び近接センサ１１１６を含むが、これらに限定されない。

加速度センサ１１１１は、端末１１００で作成された座標系の３つの座標軸上の加速度の大きさを検出することができる。例えば、加速度センサ１１１１は、３つの座標軸上の重力加速度の成分を検出するために使用できる。プロセッサ１１０１は、加速度センサ１１１１が収集した重力加速度信号に従って、水平ビューまたは垂直ビューでユーザインタフェースを表示するようにディスプレイ１１０５を制御することができる。加速度センサ１１１１は、さらに、ゲーム又はユーザの運動データの収集に使用できる。

ジャイロセンサ１１１２は、端末１１００のボディー方向及び回転角度を検出することができ、加速度センサ１１１１と協調して端末１１００に対するユーザの３Ｄ動作を収集することができる。プロセッサ１１０１は、ジャイロセンサ１１１２が収集したデータにより、モーションセンシング（例えば、ユーザの傾斜操作に応じるＵＩの変更）、撮影中の画像安定化、ゲームコントロール及び慣性航法という機能を実現できる。

圧力センサ１１１３は、端末１１００のサイドフレーム及び／又はディスプレイ１１０５の下層に配置することができる。圧力センサ１１１３が端末１１００のサイドフレームに配置されると、端末１１００に対するユーザの把持信号を検出し、プロセッサ１１０１によって、圧力センサ１１１３が収集した把持信号に従って、左／右手の認識又は迅速な操作を実行することができる。圧力センサ１１１３がディスプレイ１１０５の下層に配置されると、プロセッサ１１０１によって、ユーザのディスプレイ１１０５に対する圧力操作に従って、ＵＩインタフェース上の操作性コントロールへの制御を実現する。操作性コントロールは、ボタンコントロール、スクロールバーコントロール、アイコンコントロール、メニューコントロールの少なくとも一種を含む。

指紋センサ１１１４は、ユーザの指紋を収集するためのものである。プロセッサ１１０１によって、指紋センサ１１１４が収集した指紋によりユーザのアイデンティティを識別し、又は、指紋センサ１１１４によって、収集された指紋によりユーザのアイデンティティを識別する。ユーザのアイデンティティが信頼できるものとして認識されると、プロセッサ１１０１は、画面のロック解除、暗号化された情報の表示、ソフトウェアのダウンロード、支払い及び設定の変更等を含む関連する機密操作を実行することを当該ユーザに許可する。指紋センサ１１１４は、端末１１００の表面、裏面又は側面に設けられ得る。端末１１００に物理ボタン又はメーカーのロゴが設けられる場合、指紋センサ１１１４は、物理ボタン又はメーカーのロゴと統合され得る。

光学センサ１１１５は、環境光の強度を収集するためのものである。一実施例では、プロセッサ１１０１は、光学センサ１１１５が収集した環境光の強度に応じて、ディスプレイ１１０５の表示輝度を制御することができる。具体的には、環境光の強度が高い場合に、ディスプレイ１１０５の表示輝度を高くし、環境光の強度が低い場合に、ディスプレイ１１０５の表示輝度を低くする。別の実施例では、プロセッサ１１０１は、光学センサ１１１５が収集した環境光の強度に応じて、カメラユニット１１０６の撮影パラメータを動的に調整することもできる。

距離センサとも呼ばれる近接センサ１１１６は、通常、端末１１００のフロントパネルに配置されている。近接センサ１１１６は、ユーザと端末１１００の表面との間の距離を収集するためのものである。一実施例では、近接センサ１１１６が、ユーザと端末１１００の表面との間の距離が徐々に小さくなることを検出すると、プロセッサ１１０１は、ディスプレイ１１０５を、画面点灯状態から画面消灯状態に切り替えるように制御する。近接センサ１１１６が、ユーザと端末１１００の表面との間の距離が徐々に大きくなることを検出すると、プロセッサ１１０１は、ディスプレイ１１０５を、画面消灯状態から画面点灯状態に切り替えるように制御する。

本分野の技術者は、端末１１００は、図１１に示される構造によって限定されず、図示されるよりも多いまたは少ない構成要素を含み得るか、特定の構成要素を組み合わせるか、または異なる構成要素配置を採用し得ることを理解できる。

図１２は、本発明の実施例で提供されるサーバの構造模式図である。当該サーバ１２００は、配置又は性能の違いによって、大きな差異を生じる場合があり、１つ又は複数のプロセッサ（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔｓ、ＣＰＵ）１２０１及び１つ又は複数のメモリ１２０２を含むことができる。当該１つ又は複数のメモリ１２０２には、少なくとも一つの指令が記憶されており、当該少なくとも一つの指令は、当該１つ又は複数のプロセッサ１２０１によりローディングされて実行されることで、上記の各方法の実施例で提供される目標の位置取得方法を実現する。当然、当該サーバ１２００は、さらに、入出力のために、有線又は無線ネットワークインタフェース、キーボード及び入出力インタフェース等の部材を有してもよい。当該サーバ１２００は、さらに、デバイスの機能を実現するための他の部材を含んでもよい。ここでは、繰り返して述べない。

例示的な実施例では、例えば指令メモリを含むコンピュータ読み取り可能な記憶媒体をさらに提供する。前記指令は、プロセッサにより実行されることで上記の実施例における目標の位置取得方法を達成することができる。例えば、当該コンピュータ読み取り可能な記憶媒体は、リードオンリメモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）、コンパクトディスクリードオンリメモリ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＣＤ－ＲＯＭ）、磁気テープ、フレキシブルディスク及び光学データ記憶装置等であってもよい。

本分野における通常の技術者は、上記の実施例における全て又は一部のステップが、ハードウェアにより実現してもよく、プログラムからの指令で関連ハードウェアにより実現してもよいことを理解できる。当該プログラムは、コンピュータ読み取り可能な記憶媒体に記憶されてもよい。上記に述べた記憶媒体は、リードオンリメモリ、磁気ディスク又は光学ディスク等であってもよい。

上記の内容は、本発明の好ましい実施例に過ぎず、本発明を制限するためのものではない。本発明の精神及び原則の範囲内で行われる修正、同等の置換、改良などは、全て本発明の保護範囲内に含まれるものとする。

１０１，１０２コンピュータ機器
９０１画像取得モジュール
９０２モデル呼び出しモジュール
９０３位置取得モジュール
１００１画像取得モジュール
１００２モデルトレーニングモジュール
１００３位置取得モジュール
１１００端末
１１０１プロセッサ
１１０２メモリ
１１０３周辺装置インタフェース
１１０４無線周波数回路
１１０５ディスプレイ
１１０６カメラユニット
１１０７オーディオ回路
１１０８位置決めユニット
１１０９電源
１１１０センサ
１１１１加速度センサ
１１１２ジャイロセンサ
１１１３圧力センサ
１１１４指紋センサ
１１１５光学センサ
１１１６近接センサ
１２００サーバ
１２０１プロセッサ
１２０２メモリ

Claims

コンピュータ機器が実行する目標の位置取得方法において、
複数フレームの画像を取得する工程であって、前記複数フレームの画像のうちのいずれか１フレームの画像である第１画像が被検目標を含む、工程と、
位置取得モデルを呼び出す工程であって、前記位置取得モデルのモデルパラメータが選択目標の複数フレームのサンプル画像のうちの第１サンプル画像における第１位置及び前記選択目標の前記第１サンプル画像における第２位置に基づいてトレーニングして得られるものであり、前記第２位置が前記選択目標の前記複数フレームのサンプル画像のうちの第２サンプル画像における第３位置に基づいて予測して得られるものであり、前記第３位置が前記第１位置に基づいて予測して得られるものであり、前記選択目標が前記第１サンプル画像内でランダムに選択して得られるものであり、前記第２サンプル画像が前記複数フレームのサンプル画像のうち前記第１サンプル画像とは別のサンプル画像である、工程と、
前記位置取得モデルにより、前記モデルパラメータ及び前記被検目標の前記第１画像における位置に基づいて、前記被検目標の第２画像における位置を特定する工程であって、前記第２画像が前記複数フレームの画像のうち前記第１画像とは別の画像である、工程と、を含む方法。
前記位置取得モデルにより、前記モデルパラメータ及び前記被検目標の前記第１画像における位置に基づいて、前記被検目標の第２画像における位置を特定する前記工程は、
前記被検目標の前記第１画像における位置、前記第１画像及び前記モデルパラメータに基づいて、画像処理パラメータを取得する工程と、
前記画像処理パラメータに基づいて、前記第２画像を処理し、前記被検目標の前記第２画像における位置を出力する工程と、を含む、請求項１に記載の方法。
前記被検目標の前記第１画像における位置、前記第１画像及び前記モデルパラメータに基づいて、画像処理パラメータを取得する前記工程は、
前記被検目標の前記第１画像における位置に基づいて、前記被検目標の前記第１画像内の選択位置を示すための前記第１画像に対応する位置指示情報を生成する工程と、
前記第１画像に対応する位置指示情報、前記第１画像及び前記モデルパラメータに基づいて、前記画像処理パラメータを取得する工程と、を含み、
前記画像処理パラメータに基づいて、前記第２画像を処理し、前記被検目標の前記第２画像における位置を出力する前記工程は、
前記画像処理パラメータに基づいて、前記第２画像を処理し、前記被検目標の前記第２画像内の予測位置を示すための前記第２画像に対応する位置指示情報を出力する工程を含む、請求項２に記載の方法。
前記第１画像に対応する位置指示情報、前記第１画像及び前記モデルパラメータに基づいて、前記画像処理パラメータを取得する前記工程は、
前記モデルパラメータに基づいて、前記第１画像に対して特徴抽出を行い、前記第１画像の画像特徴を得る工程と、
前記第１画像の画像特徴及び前記第１画像に対応する位置指示情報に基づいて、前記画像処理パラメータを取得する工程と、を含み、
前記画像処理パラメータに基づいて、前記第２画像を処理し、前記第２画像に対応する位置指示情報を出力する前記工程は、
前記モデルパラメータに基づいて、前記第２画像に対して特徴抽出を行い、前記第２画像の画像特徴を得る工程と、
前記画像処理パラメータに基づいて、前記第２画像の画像特徴を処理し、前記第２画像に対応する位置指示情報を出力する工程と、を含む、請求項３に記載の方法。
前記位置取得モデルのトレーニングプロセスは、
複数フレームのサンプル画像を取得する工程と、
初期モデルを呼び出し、前記初期モデルにより、前記選択目標として前記複数フレームのサンプル画像のうちの第１サンプル画像における目標エリアをランダムに選択し、前記選択目標の前記第１サンプル画像における第１位置、前記第１サンプル画像及び第２サンプル画像に基づいて、前記選択目標の前記第２サンプル画像における第３位置を取得し、前記選択目標の前記第２サンプル画像における第３位置、前記第１サンプル画像及び第２サンプル画像に基づいて、前記選択目標の前記第１サンプル画像における第２位置を取得する工程と、
前記選択目標の前記第１サンプル画像における第１位置及び第２位置に基づいて、前記第１位置に対する前記第２位置の誤差値を取得する工程と、
前記誤差値に基づいて、前記初期モデルのモデルパラメータを目標条件に合致するまで調整し、前記位置取得モデルを得る工程と、を含む、請求項１に記載の方法。
前記選択目標の前記第１サンプル画像における第１位置、前記第１サンプル画像及び第２サンプル画像に基づいて、前記選択目標の前記第２サンプル画像における第３位置を取得する前記工程は、
前記第１位置及び前記第１サンプル画像に基づいて、第１画像処理パラメータを取得する工程と、
前記第１画像処理パラメータに基づいて、前記第２サンプル画像を処理し、前記第３位置を得る工程と、を含み、
前記選択目標の前記第２サンプル画像における第３位置、前記第１サンプル画像及び第２サンプル画像に基づいて、前記選択目標の前記第１サンプル画像における第２位置を取得する前記工程は、
前記第３位置及び前記第２サンプル画像に基づいて、第２画像処理パラメータを取得する工程と、
前記第２画像処理パラメータに基づいて、前記第１サンプル画像を処理し、前記第２位置を得る工程と、を含む、請求項５に記載の方法。
前記第１位置及び前記第１サンプル画像に基づいて、第１画像処理パラメータを取得する前記工程は、
前記初期モデルのモデルパラメータに基づいて、前記第１サンプル画像に対して特徴抽出を行い、前記第１サンプル画像の画像特徴を得る工程と、
前記第１サンプル画像の画像特徴及び前記第１位置に基づいて、前記第１画像処理パラメータを取得する工程と、を含み、
前記第１画像処理パラメータに基づいて、前記第２サンプル画像を処理し、前記第３位置を得る前記工程は、
前記初期モデルのモデルパラメータに基づいて、前記第２サンプル画像に対して特徴抽出を行い、前記第２サンプル画像の画像特徴を得る工程と、
前記第１画像処理パラメータに基づいて、前記第２サンプル画像の画像特徴を処理し、前記第３位置を得る工程と、を含む、請求項６に記載の方法。
前記選択目標の前記第１サンプル画像における第１位置、前記第１サンプル画像及び第２サンプル画像に基づいて、前記選択目標の前記第２サンプル画像における第３位置を取得する前記工程は、
前記第１位置に基づいて、前記選択目標の前記第１サンプル画像内の選択位置を指示するための前記第１サンプル画像に対応する第１位置指示情報を生成する工程と、
前記第１位置指示情報、前記第１サンプル画像及び第２サンプル画像に基づいて、前記選択目標の前記第２サンプル画像内の予測位置を示すための前記第２サンプル画像に対応する位置指示情報を取得する工程と、を含み、
前記選択目標の前記第２サンプル画像における第３位置、前記第１サンプル画像及び第２サンプル画像に基づいて、前記選択目標の前記第１サンプル画像における第２位置を取得する前記工程は、
前記第２サンプル画像に対応する位置指示情報、前記第１サンプル画像及び前記第２サンプル画像に基づいて、前記目標の前記第１サンプル画像内の予測位置を示すための前記第１サンプル画像に対応する第２位置指示情報を取得する工程を含む、請求項５から７のいずれか一項に記載の方法。
前記複数フレームのサンプル画像は、複数のサンプル画像セットを含み、各サンプル画像セットは、１フレームの第１サンプル画像及び少なくとも１フレームの第２サンプル画像を含み、サンプル画像セットごとに、１つの前記誤差値が対応し、
前記誤差値に基づいて、前記初期モデルのモデルパラメータを調整する前記工程は、
前記複数のサンプル画像セットのうちの目標数ごとのサンプル画像セットに対して、前記目標数のサンプル画像セットに対応する複数の誤差値に基づいて、前記初期モデルのモデルパラメータを調整する工程を含む、請求項５に記載の方法。
前記目標数のサンプル画像セットに対応する複数の誤差値に基づいて、前記初期モデルのモデルパラメータを調整する前記工程は、
前記目標数のサンプル画像セットに対応する複数の誤差値に基づいて、前記複数の誤差値のうち誤差値条件を満たす誤差値を削除し、残りの誤差値に基づいて、前記初期モデルのモデルパラメータを調整する工程、及び
前記目標数のサンプル画像セットに対応する複数の誤差値に基づいて、前記複数の誤差値の第１重みを決定し、前記複数の誤差値の第１重み及び前記複数の誤差値に基づいて、前記複数の誤差値のうち誤差値条件を満たす誤差値の第１重みがゼロになるように、前記初期モデルのモデルパラメータを調整する工程
のいずれか１つを含む、請求項９に記載の方法。
サンプル画像セットごとに、１つの第２重みが対応し、
前記目標数のサンプル画像セットに対応する複数の誤差値に基づいて、前記初期モデルのモデルパラメータを調整する前記工程は、
各サンプル画像セットの誤差値の第２重みを取得する工程であって、前記第２重みが前記各サンプル画像セット内の前記選択目標の複数フレームのサンプル画像における変位と正の相関関係がある、工程と、
前記目標数のサンプル画像セットに対応する複数の誤差値及び複数の第２重みに基づいて、前記初期モデルのモデルパラメータを調整する工程と、を含む、請求項９又は１０に記載の方法。
コンピュータ機器に応用される目標の位置取得方法において、
複数フレームのサンプル画像を取得する工程と、
初期モデルを呼び出し、前記初期モデルに従って選択目標の前記複数フレームのサンプル画像のうちの第１サンプル画像における第１位置に基づいて、前記選択目標の第２サンプル画像における第３位置を取得し、前記選択目標の第２サンプル画像における第３位置に基づいて、前記選択目標の前記第１サンプル画像における第２位置を取得し、前記第１位置及び前記第２位置に基づいて、前記初期モデルのモデルパラメータを調整し、位置取得モデルを得る工程であって、前記選択目標が前記初期モデルが前記第１サンプル画像内で目標エリアをランダムに選択して得られるものであり、前記第２サンプル画像が前記複数フレームのサンプル画像のうち前記第１サンプル画像とは別のサンプル画像である、工程と、
複数フレームの画像を取得した場合、前記位置取得モデルを呼び出し、前記位置取得モデルに従って被検目標の前記複数フレームの画像における位置を特定する工程と、を含む方法。
複数フレームの画像を取得するための画像取得モジュールであって、前記複数フレームの画像のうちの第１画像が被検目標を含み、前記第１画像が前記複数フレームの画像のいずれか１フレームの画像である、画像取得モジュールと、
位置取得モデルを呼び出すためのモデル呼び出しモジュールであって、前記位置取得モデルのモデルパラメータが、選択目標の複数フレームのサンプル画像のうちの第１サンプル画像における第１位置及び前記選択目標の前記第１サンプル画像における第２位置に基づいてトレーニングして得られるものであり、前記第２位置が、前記選択目標の前記複数フレームのサンプル画像のうちの第２サンプル画像における第３位置に基づいて予測して得られるものであり、前記第３位置が、前記第１位置に基づいて予測して得られるものであり、前記選択目標が、前記第１サンプル画像内でランダムに選択して得られるものであり、前記第２サンプル画像が、前記複数フレームのサンプル画像のうち前記第１サンプル画像とは別のサンプル画像である、モデル呼び出しモジュールと、
前記位置取得モデルにより、前記モデルパラメータ及び前記被検目標の前記第１画像における位置に基づいて、前記被検目標の第２画像における位置を特定するための位置取得モジュールであって、前記第２画像が、前記複数フレームの画像のうち前記第１画像とは別の画像である、位置取得モジュールと、
を含む、目標の位置取得装置。
複数フレームのサンプル画像を取得するための画像取得モジュールと、
初期モデルを呼び出し、前記初期モデルに従って選択目標の前記複数フレームのサンプル画像のうちの第１サンプル画像における第１位置に基づいて、前記選択目標の第２サンプル画像における第３位置を取得し、前記選択目標の第２サンプル画像における第３位置に基づいて、前記選択目標の前記第１サンプル画像における第２位置を取得し、前記第１位置及び前記第２位置に基づいて、前記初期モデルのモデルパラメータを調整し、位置取得モデルを得るためのモデルトレーニングモジュールと、
複数フレームの画像を取得した場合、前記位置取得モデルを呼び出し、前記位置取得モデルに従って被検目標の前記複数フレームの画像における位置を特定するための位置取得モジュールと、
を含む、目標の位置取得装置。
１つ又は複数のプロセッサ及び１つ又は複数のメモリを含み、前記１つ又は複数のメモリに少なくとも１つの指令が記憶されており、前記指令が前記１つ又は複数のプロセッサによりローディングされて実行されることで請求項１から１２のいずれか一項に記載の方法で行われる操作が実現される、コンピュータ機器。
請求項１から１２のいずれか一項に記載の方法をコンピュータに実行させる、コンピュータプログラム。