JP2023131117A

JP2023131117A - 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体

Info

Publication number: JP2023131117A
Application number: JP2023018251A
Authority: JP
Inventors: 健王; Jian Wang; 翔博蘇; Xiangbo Su; 其蔓呉; Qiman Wu; 之港王; Zhigang Wang; 昊孫; Hao Sun; 二鋭丁; Er Rui Ding; 井東王; Jingdong Wang; 甜呉; Tian Wu; 海峰王; Haifeng Wang
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-03-08
Filing date: 2023-02-09
Publication date: 2023-09-21
Also published as: CN114332590A; CN114912629A; CN114332590B; KR20230132350A; US20230289402A1

Abstract

【課題】本開示は、結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体を提供し、人工知能の技術分野に関し、特に、コンピュータ視覚、画像認識および深層学習の技術に関する。【解決手段】具体的な実現形態として、サンプル画像およびサンプル画像の感知ラベルを取得し、特徴抽出ネットワークおよび結合感知ネットワークを備える所定の結合感知モデルを取得し、特徴抽出ネットワークを介してサンプル画像に対して特徴抽出を行い、ターゲットサンプル特徴を取得し、結合感知ネットワークを介してターゲットサンプル特徴に基づいて結合感知を行い、感知予測結果を取得し、感知予測結果および感知ラベルに基づき、所定の結合感知モデルをトレーニングし、結合感知は、少なくとも２種の感知タスクの実行を含む。本開示の技術によれば、結合感知過程のデータ演算量を減少し、計算効率を向上させる。【選択図】図１

Description

本開示は、人工知能の技術分野に関し、特に、コンピュータ視覚、画像認識および深層学習の技術に関し、具体的には、結合感知（ＪｏｉｎｔＰｅｒｃｅｐｔｉｏｎ）モデルのトレーニング、結合感知方法、装置、機器および媒体に関する。

コンピュータ科学の発展に伴い、人工知能技術は現れる。人工知能は、人間の知能をシミュレーション、延伸および拡張するための理論、方法、技術およびアプリケーションシステムを研究や開発する新しい技術科学とする。

人工知能技術に基づいて画像を処理し、スマート交通、スマートセキュリティおよびスマートシティ等の構築に対して重要な意義を持っている。

本開示は、結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体を提供する。

本開示の一態様によれば、
サンプル画像およびサンプル画像の感知ラベルを取得することと、
特徴抽出ネットワークおよび結合感知ネットワークを備える所定の結合感知モデルを取得することと、
特徴抽出ネットワークを介してサンプル画像に対して特徴抽出を行い、ターゲットサンプル特徴を取得することと、
結合感知ネットワークを介してターゲットサンプル特徴に基づいて結合感知を行い、感知予測結果を取得することと、
感知予測結果および感知ラベルに基づき、所定の結合感知モデルをトレーニングすることと、を含み、
結合感知は、少なくとも２種の感知タスクの実行を含む、
結合感知モデルのトレーニング方法を提供する。

本開示の別の態様によれば、
予測画像を取得することと、
予測画像をターゲット結合感知モデルに入力し、感知予測結果を取得することと、を含み、
ターゲット結合感知モデルは、本開示の実施例に係るいずれかの結合感知モデルのトレーニング方法でトレーニングされた初期結合感知モデルに基づいて得られる、
結合感知方法を更に提供する。

本開示の別の態様によれば、
少なくとも１つのプロセッサと、
少なくとも１つのプロセッサに通信接続されたメモリと、を備える電子機器であって、
メモリに、少なくとも１つのプロセッサによって実行可能な命令が記憶され、
命令は、少なくとも１つのプロセッサが本開示の実施例に係るいずれかの結合感知モデルのトレーニング方法および／または本開示の実施例に係るいずれかの結合感知方法を実行可能であるように、少なくとも１つのプロセッサにより実行される、
電子機器を更に提供する。

本開示の別の態様によれば、
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
コンピュータ命令は、本開示の実施例に係るいずれかの結合感知モデルのトレーニング方法および／または本開示の実施例に係るいずれかの結合感知方法をコンピュータに実行させることに用いられる、
非一時的なコンピュータ可読記憶媒体を更に提供する。

本開示の技術によれば、結合感知過程のデータ演算量を減少し、計算効率を向上させる。

本開示に記載された内容は、本開示の実施例のキーとなるまたは重要な特徴を標識するためのものではなく、本開示の範囲を限定するものでもないことが理解されるべきである。本開示の他の特徴は、以下の明細書により容易に理解することができる。

図面は本形態をより良く理解するためのものであり、本開示を限定するものではない。

本開示の実施例に係る結合感知モデルのトレーニング方法のフローチャートである。本開示の実施例に係る結合感知モデルの構造模式図である。本開示の実施例に係る特徴抽出ネットワークの構造模式図である。本開示の実施例に係る第１マルチパスモジュールの構造模式図である。本開示の実施例に係る第１特徴抽出サブネットワークの構造模式図である。本開示の実施例に係る第１特徴抽出サブネットワークの構造模式図である。本開示の実施例に係る結合感知ネットワークの構造模式図である。本開示の実施例に係る検出ヘッドモジュールの構造模式図である。本開示の実施例に係る第２マルチパスモジュールの構造模式図である。本開示の実施例に係る第２特徴抽出サブネットワークの構造模式図である。本開示の実施例に係る第２特徴抽出サブネットワークの構造模式図である。本開示の実施例に係る結合感知方法のフローチャートである。本開示の実施例に係る再パラメータ化後の第１特徴抽出サブネットワークの構造図である。本開示の実施例に係る再パラメータ化後の第２特徴抽出サブネットワークの構造図である。本開示の実施例に係る結合感知モデルのトレーニング装置の構造図である。本開示の実施例に係る結合感知装置の構造図である。本開示の実施例の結合感知モデルのトレーニング方法および／または結合感知方法を実現するための電子機器のブロック図である。

以下、図面を参照しながら本開示の例示的な実施例について説明し、ここで、理解の便宜上、本開示の実施例に係る様々な細かい内容まで含まれているが、例示的なものに過ぎないと理解すべきである。同様に、以下の説明において、公知されている機能および構造の説明は、明確且つ簡潔にするために省略している。同様に、以下の説明において、公知されている機能および構造の説明は、明確且つ簡潔にするために省略している。

本開示の実施例は、少なくとも１つのカテゴリのターゲットで画像に対してマルチタスクの結合感知を行う場合に適用され、スマートシティ、スマート交通およびスマートセキュリティ等の構築に技術支持を提供する。いわゆるマルチタスク結合感知は、ターゲットに対する検出タスク、ターゲットに対する属性認識タスク、およびターゲットに対する探索特徴抽出タスク等の少なくとも２種の実行を含んでもよい。ここで、ターゲットは画像内のマーク待ち対象であり、該マーク待ち対象に対してターゲットの検出、属性認識または探索特徴抽出等を行う。

なお、画像に対する結合感知過程は、結合感知モデルに基づいて実現する必要があるため、理解しやすいために、まず、結合感知モデルのトレーニング過程について詳細に説明する。

図１は、本開示の実施例に係る結合感知モデルのトレーニング方法のフローチャートであり、マルチタスク結合感知機能を持っている結合感知モデルをトレーニングする適用シーンに適用される。本開示の実施例に係る結合感知モデルのトレーニング方法は、結合感知モデルのトレーニング装置で実行することができ、該装置は、ソフトウェアおよび／またはハードウェアで実現でき、具体的には、電子機器に構成される。

図１に示す結合感知モデルのトレーニング方法は、以下のステップを含む。

Ｓ１０１において、サンプル画像およびサンプル画像の感知ラベルを取得する。

ここで、サンプル画像は、モデルのトレーニング過程で使用する画像である。サンプル画像の感知ラベルは、サンプル画像を結合感知した後の理論結果を表すことに用いられ、異なる感知タスクに対応する標準的な感知結果を含んでもよい。ここで、結合感知は、ターゲットの検出、ターゲットの属性認識およびターゲットの探索特徴抽出のうちの少なくとも２種の感知タスクを含んでもよい。

例示的には、ターゲットの検出タスクに対応する標準的な感知結果は、マーク待ち対象のマーク枠の位置を含んでもよく、例えば、マーク枠の座標、サイズ、基準および信頼度等のうちの少なくとも１つを含んでもよい。属性認識タスクに対応する標準的な感知結果は、マーク待ち対象の少なくとも１つの属性カテゴリを含んでもよく、例えば、車両は、車両の色、車両のタイプ等を含んでもよく、顔は性別等を含んでもよく、人体は服飾の色等を含んでもよい。探索特徴抽出タスクに対応する標準的な感知結果は、画像検索用の特徴ベクトル等を含んでもよい。

１つの好ましい実施例において、サンプル画像は、ビデオストリームデータをフレーム抽出処理した後のピクチャフレームであってもよい。

モデルのトレーニング過程へのサンプルの違いの影響を低減するために、１つの好ましい実施例において、異なるサンプル画像を統一的に前処理することもできる。

例示的には、サンプル画像をスケーリング処理し、異なるサンプル画像の画像サイズを統一することができる。例示的には、サンプル画像を正規化処理することができ、例えば、トレーニングするモデルのロバスト性を強化するように、各サンプル画像からＲＧＢ（ｒｅｄｇｒｅｅｎｂｌｕｅ、赤・緑・青）の３原色の平均値を統一的に差し引く。

Ｓ１０２において、特徴抽出ネットワークおよび結合感知ネットワークを備える所定の結合感知モデルを取得する。

Ｓ１０３において、特徴抽出ネットワークを介してサンプル画像に対して特徴抽出を行い、ターゲットサンプル特徴を取得する。

Ｓ１０４において、結合感知ネットワークを介してターゲットサンプル特徴に基づいて結合感知を行い、感知予測結果を取得し、結合感知は、少なくとも２種の感知タスクの実行を含む。

Ｓ１０５において、感知予測結果および感知ラベルに基づき、所定の結合感知モデルをトレーニングする。

ここで、結合感知モデルは、機械学習モデルまたは深層学習モデルで構築することにより得られる。

ここで、感知予測結果は、異なる感知タスクに対応する予測結果であってもよい。例えば、感知予測結果は、ターゲットの検出タスクで予測されたマーク待ち対象のマーク枠位置、属性認識タスクで予測されたマーク待ち対象の少なくとも１つの属性カテゴリ、および探索特徴抽出タスクで予測された画像探索用の特徴ベクトル等のうちの少なくとも１つを含んでもよい。

図２に示す結合感知モデルの構造模式図を参照する。ここで、結合感知モデルは、特徴抽出ネットワークおよび結合感知ネットワークを備え、特徴抽出ネットワークは、サンプル画像に対して特徴抽出を行い、ターゲットサンプル特徴を取得し、結合感知ネットワークは、ターゲットサンプル特徴に基づいて結合感知を行い、感知予測結果を取得し、感知予測結果と感知ラベルとの間の差分状況に基づき、結合感知モデルのモデル性能が安定するまたはトレーニングサンプルの数が所定の数閾値に達するまで結合感知モデルにおけるネットワークパラメータを最適化し、トレーニング済みの結合感知モデルを取得し、後で入力される画像に対して結合感知予測を行うことに用いる。

なお、結合感知ネットワークで異なる感知タスク毎に特徴抽出ネットワークによって抽出されたターゲットサンプル特徴を共有することにより、モデルのトレーニング過程において、結合感知モデルにおける特徴抽出ネットワークは、異なる感知タスクに対応する視覚特徴の抽出能力を学習し、異なる感知タスク毎に独立した特徴抽出ネットワークをそれぞれ設ける必要がなく、大量の計算リソースを節約し、計算効率を向上させる。それと同時に、異なる感知タスク間の特徴は互いに強調され、単一の感知タスクの特徴表現を向上させる。

ここで、ターゲットサンプル特徴には、異なる感知タスクに対応する視覚特徴が含まれ、結合感知ネットワークが後で結合感知を行うデータサポートとして用いられる。

１つの好ましい実施例において、特徴抽出ネットワークは、特徴ピラミッドネットワークに基づいて実現することができることで、マルチ基準の特徴抽出を行い、ターゲットサンプル特徴の特徴豊富さを高める。

特徴抽出ネットワークが異なる感知タスクに対応する視覚特徴の抽出能力を学習したが、部分的な感知タスクに対応する特徴情報が失われ、抽出特徴の豊富さおよび全面性が低下する状況が存在する可能性があるため、更に、結合感知モデルの感知結果精度に影響を及ぼす。

モデルの結合感知能力を更に向上させるために、別の好ましい実施例において、特徴抽出ネットワークを改良し、特徴抽出ネットワークにおける異なる感知タスクでのマルチ基準の特徴の結合抽出能力を更に強化することができる。

図３Ａに示す特徴抽出ネットワークの模式図を参照し、特徴抽出ネットワークを、ベースモジュールおよび少なくとも２つの第１マルチパスモジュールを備えるように更に細分化することができる。ここで、ベースモジュールは、サンプル画像をダウンサンプリングし、異なる基準の初期サンプル特徴を取得し、第１マルチパスモジュールは、初期サンプル特徴に対して異なる感知タスクの特徴抽出を行い、初期サンプル特徴に対応する基準でのターゲットサンプル特徴を取得する。

即ち、ベースモジュールにより、サンプル画像をダウンサンプリングし、異なる基準の初期サンプル特徴を取得し、任意の基準の初期サンプル特徴に対し、該基準に対応する第１マルチパスモジュールにより、該基準の初期サンプル特徴に対して異なる感知タスクの特徴抽出を行い、該基準でのターゲットサンプル特徴を取得する。

ここで、図３Ａは、ベースモジュールを用いてサンプル画像を段階的にダウンサンプリングしてＣ_１～Ｃ_５という５つの異なる基準の初期サンプル特徴を取得し、Ｃ_３～Ｃ_５をそれぞれ対応する第１マルチパスモジュールにより処理し、ターゲットサンプル特徴Ｐ_３～Ｐ_５を取得することを例示的に示す。なお、上記は、初期サンプル特徴の数およびターゲットサンプル特徴の数を例示的に示すものに過ぎず、両者を具体的に限定するものと理解されるべきではなく、当業者は、実際の必要に応じて対応する数の調整を行うことができる。

特徴抽出ネットワークに第１マルチパスモジュールを導入して単一の基準での初期サンプル特徴のそれぞれに対して異なる感知タスクの特徴抽出を行うことにより、特徴抽出ネットワークは、異なる感知タスクでのマルチ基準特徴抽出能力を持ち、更に抽出したターゲットサンプル特徴の豊富さおよび全面性を高め、結合感知モデルのモデル精度の向上に対して基礎を築き上げることが理解できる。

１つの好ましい実施例において、更に、単一の基準の初期サンプル特徴と他の基準のターゲットサンプル特徴とを融合し、該単一の基準の初期サンプル特徴を更新することで、該単一の基準を対応する第１マルチパスモジュールで処理した後に最終的に得たターゲットサンプル特徴の豊富さを高めることもできる。

１つの具体的な実現形態において、隣接基準の第１マルチパスモジュールの処理過程については、隣接基準のうちの小さい基準のターゲットサンプル特徴と隣接基準のうちの大きい基準の初期サンプル特徴とを融合し、該隣接基準のうちの大きい基準の初期サンプル特徴を更新することで、該大きい基準の初期サンプル特徴の豊富さを増加し、更に、該大きい基準のターゲットサンプル特徴出力結果の精度を高める。

なお、単一の基準のターゲットサンプル特徴にそれぞれ基づいて結合感知を行い、異なる基準の感知予測結果を融合し、最終的な感知予測結果を取得することができ、または、好ましくは、異なる基準のターゲットサンプル特徴を融合し、融合結果を結合感知し、最終的な感知予測結果を取得することもできる。

以下、特徴抽出ネットワークにおける第１マルチパスモジュールの具体的な構造について詳細に説明する。

図３Ｂに示す第１マルチパスモジュールの構造模式図を参照し、単一の基準の初期サンプル特徴に対し、該第１マルチパスモジュールは、第１分割サブネットワーク、第１特徴抽出サブネットワークおよび第１融合サブネットワークを備えるように更に細分化することができる。第１分割サブネットワークは、チャネル次元毎に初期サンプル特徴を分割し、第１融合待ちサンプル特徴および第１処理待ちサンプル特徴を取得し、第１特徴抽出サブネットワークは、第１処理待ちサンプル特徴に対して特徴抽出を行い、第１ターゲット中間サンプル特徴を取得し、第１融合サブネットワークは、第１融合待ちサンプル特徴と第１ターゲット中間サンプル特徴とを特徴融合し、該基準でのターゲットサンプル特徴を取得する。

例示的には、チャネル次元毎に初期サンプル特徴を分割し、少なくとも２グループの分割結果を取得することができる。分割時に、チャネル次元毎にランダムに分割してもよいし、順番に分割してもよく、本開示は、具体的な分割メカニズムを何ら限定するものではなく、チャネル次元毎に分割することを確保すれば良い。なお、本開示は、異なる分割結果における特徴のチャネル数を何ら限定するものではない。

後で処理しやすいために、分割結果の数を２つに限定してもよく、即ち、初期サンプル特徴を分割して第１融合待ちサンプル特徴および第１処理待ちサンプル特徴を取得する。分割操作を行いやすいために、順番に分割する方式で初期サンプル特徴を第１融合待ちサンプル特徴と第１処理待ちサンプル特徴に分割することができる。好ましくは、第１融合待ちサンプル特徴と第１処理待ちサンプル特徴のチャネル数は同じであってもよい。

全量の初期サンプル特徴に対して特徴抽出を行う方式の代わりに、初期サンプル特徴のうちの第１処理待ちサンプル特徴に対して特徴抽出を行う方式を採用し、特徴抽出過程におけるチャネル数（第１融合待ちサンプル特徴と第１処理待ちサンプル特徴のチャネル数が同じである場合、チャネル数を半減させる）を減少するため、特徴抽出過程の計算量およびメモリ占有量を低減する。それと同時に、初期サンプル特徴のうちの第１融合待ちサンプル特徴と、第１処理待ちサンプル特徴に対して特徴抽出を行って得た第１ターゲット中間サンプル特徴とを特徴融合することにより、勾配パス数（第１融合待ちサンプル特徴と第１処理待ちサンプル特徴のチャネル数が同じである場合、勾配パス数を２倍に増加する）を増加し、トレーニングするモデルの学習能力を向上させることが理解できる。

形状が（ｎ，ｃ，ｈ，ｗ）である初期サンプル特徴を例として、第１マルチパスモジュールの処理過程について説明する。ここで、ｎはサンプル画像数であり、ｃはチャネル数であり、ｈはサンプル画像の高さであり、ｗはサンプル画像の幅である。初期サンプル特徴をチャネル次元に沿って均一に分割し、形状がいずれも（ｎ，ｃ／２，ｈ，ｗ）である第１融合待ちサンプル特徴および第１処理待ちサンプル特徴を取得する。第１特徴抽出サブネットワークを介して形状が（ｎ，ｃ／２，ｈ，ｗ）である第１処理待ちサンプル特徴に対して特徴抽出を行い、形状が（ｎ，ｃ／２，ｈ，ｗ）である第１ターゲット中間サンプル特徴を取得する。特徴抽出過程におけるチャネル数が半減したため、特徴抽出過程の計算量およびメモリ占有量を減少する。形状が（ｎ，ｃ／２，ｈ，ｗ）である第１融合待ちサンプル特徴と、形状が（ｎ，ｃ／２，ｈ，ｗ）である第１ターゲット中間サンプル特徴とを特徴融合し、形状が（ｎ，ｃ，ｈ，ｗ）であるターゲットサンプル特徴を取得し、勾配パス数を２倍に増加することにより、トレーニングするモデルの学習能力を向上させる。

第１特徴抽出サブネットワークによって抽出された特徴の全面性および豊富さを更に高めるために、１つの好ましい実施例において、第１特徴抽出サブネットワークで異なる次元の特徴抽出を行うことができる。

更に、図３Ｃに示す第１特徴抽出サブネットワークの模式図を参照し、該第１特徴抽出サブネットワークは、第１全体感知モジュール、第１局所感知モジュールおよび第１感知融合モジュールを備えるように構成でき、第１全体感知モジュールは、第１処理待ちサンプル特徴に対して全体特徴抽出を行い、第１全体中間サンプル特徴を取得し、第１局所感知モジュールは、第１処理待ちサンプル特徴に対して局所特徴抽出を行い、第１局所中間サンプル特徴を取得し、第１感知融合モジュールは、第１全体中間サンプル特徴と第１局所中間サンプル特徴とを特徴融合し、第１ターゲット中間サンプル特徴を取得する。

全体次元および局所次元から第１処理待ちサンプル特徴に対して特徴抽出をそれぞれ行い、得た第１全体中間サンプル特徴と第１局所中間サンプル特徴とを融合することにより、融合後に得た第１ターゲット中間サンプル特徴は、全体的なテキスト情報を担持するとともに、局所的な詳細も担持し、第１ターゲット中間サンプル特徴の豊富さおよび全面性を向上させることが理解できる。

１つの好ましい実施例において、図３Ｄに示す第１特徴抽出サブネットワークの模式図を参照し、該第１特徴抽出サブネットワークにおける第１全体感知モジュールは、プール化層およびアクティブ化層を備えてもよく、ここで、プール化層は、第１処理待ちサンプル特徴に対して全体特徴抽出を行うことに用いられ、アクティブ化層は、全体特徴抽出結果を非線形計算することにより、第１全体感知モジュールの非線形特徴抽出能力を向上させることに用いられる。

なお、本開示の実施例は、プール化層に用いられる具体的なプール化方式、およびアクティブ化層に用いられる具体的なアクティブ化関数を何ら限定するものではなく、実際の必要およびモデルのトレーニング状況に応じて設定または調整することができる。例えば、プール化層は、平均プール化を採用してもよく、アクティブ化層は、ＲｅＬＵアクティブ化関数を採用してもよい。

１つの好ましい実施例において、第１局所感知モジュールには、実際の必要に応じて少なくとも１つの第１局所感知分岐を設けて局所特徴抽出を行うことができる。

例示的には、図３Ｄを参照し続け、該第１特徴抽出サブネットワークの第１局所感知モジュールには、少なくとも２つの第１局所感知分岐が設けられてもよく、異なる第１局所感知分岐により、異なるレセプティブフィールドで第１処理待ちサンプル特徴に対して局所特徴抽出を行い、対応するレセプティブフィールドでの第１局所中間サンプル特徴を取得する。それに対応し、第１感知融合モジュールは、まず、異なるレセプティブフィールドでの第１局所中間サンプル特徴を融合し（例えば、画素を重ね合せてもよい）、第１局所中間サンプル特徴融合結果を取得し、第１局所中間サンプル特徴融合結果と第１全体中間サンプル特徴とを融合し（例えば、チャネルの乗算であってもよい）、第１ターゲット中間サンプル特徴を取得することができる。

少なくとも２つの第１局所感知分岐を設けて異なるレセプティブフィールドでの局所特徴抽出を行うことにより、第１局所中間サンプル特徴の豊富さを高め、後での異なる基準のマーク待ち対象のマーク能力の向上に寄与し、複数カテゴリのターゲットのマークに対して基礎を築き上げる。それと同時に、異なるレセプティブフィールドでの局所特徴抽出により、抽出された特徴は、異なる感知タスクをサポートすることができ、結合感知モデルの感知精度の向上に寄与することが理解できる。

１つの具体的な実現形態において、第１局所感知分岐に畳み込み層およびバッチ処理層を設けることができる。ここで、畳み込み層は、畳み込みカーネルに基づいて対応するレセプティブフィールドでの局所特徴抽出を行うことに用いられ、バッチ処理層は、抽出された特徴を正規化処理し、異なる第１局所感知分岐によって抽出された第１局所中間サンプル特徴の分布状況を同化し、モデル収束を加速するとともに、トレーニング過程の安定性を向上させることに用いられる。

なお、異なる第１局所感知分岐に用いられる畳み込みカーネルの基準が異なることで、異なる第１局所感知分岐は、異なるレセプティブフィールドでの局所特徴抽出を行うことができる。ここで、畳み込みカーネルの数は、当業者が必要または経験値に応じて設定または調整することができ、畳み込みカーネルの種類は、結合感知の感知タスクに応じて具体的に設定することができる。例示的には、ターゲット探索特徴抽出タスクに対し、探索過程が通常多粒度特徴を必要とするため、大きい基準の畳み込みカーネルと小さい基準の畳み込みカーネルの両方を設ける必要がある。例示的には、属性認識タスクおよびターゲットの検出タスクに対し、異なるターゲットカテゴリ毎に横方向または縦方向の畳み込みカーネル等を設ける必要がある。具体的には、１＊３の畳み込みカーネルおよび３＊５の畳み込みカーネルを用いて人体に対して局所的にブロック分けてモデリングを行い、より良い人体検索特徴を取得することができる。１つの具体例において、マルチ基準の多方向の特徴抽出を行うように、各第１局所感知分岐で１＊１、１＊３、３＊１、３＊３、３＊５、５＊３および５＊５の畳み込みカーネルをそれぞれ採用することができる。

図３Ｄを参照し続け、１つの好ましい実施例において、第１局所感知モジュールに第１バイパス分岐を更に追加してもよく、モデル収束を更に加速する。好ましくは、第１バイパス分岐は直接接続構造であってもよく、第１処理待ちサンプル特徴を直接対応する第１局所中間サンプル特徴とし、勾配消失を減少し、モデル収束を加速する。または、好ましくは、第１バイパス分岐に第１バッチ処理モジュールが設けられてもよく、バッチ処理層に対応し、第１処理待ちサンプル特徴を正規化処理し、対応する第１局所中間サンプル特徴を取得し、異なる分岐における第１局所中間サンプル特徴の分布状況を同化し、モデル収束を加速する。

上記内容は、結合感知モデルにおける特徴抽出ネットワークの具体的な構造について例示的に説明する。以下、結合感知モデルにおける結合感知ネットワークについて詳細に説明する。

図４Ａに示す結合感知ネットワークの模式図を参照し、結合感知ネットワークは検出ヘッドモジュールを備えてもよく、検出ヘッドモジュールには、異なるタスク感知分岐により、ターゲットサンプル特徴を結合感知し、対応する感知タスクの感知予測結果を取得するための異なるタスク感知分岐が設けられる。

例示的には、タスク感知分岐は、ターゲット検出分岐、属性認識分岐および探索特徴抽出分岐等のうちの少なくとも１つを含んでもよい。ここで、ターゲット検出分岐はターゲットの検出タスクに対応し、画像内のマーク待ち対象（即ち、あるカテゴリのターゲット）を検出することに用いられ、属性認識分岐は属性認識タスクに対応し、画像内のマーク待ち対象の少なくとも１つの属性カテゴリを認識することに用いられ、探索特徴抽出分岐は探索特徴抽出タスクに対応し、画像探索を容易にする特徴ベクトルの抽出を行うことに用いられる。

なお、上記異なるタスク感知分岐は、検出ヘッドモジュールにおける異なるタスク感知分岐を例示的に説明するものに過ぎず、タスク感知分岐を具体的に限定するものと理解されるべきではなく、実際の必要に応じてタスク感知分岐の追加、削除または修正等を行うことができる。

結合感知ネットワークに異なるタスク感知分岐を備える検出ヘッドモジュールを設けることにより、結合感知ネットワークは、異なる感知タスクに対する結合感知能力を持ち、ある感知タスクにそれぞれ対して単一の感知モデルの確立およびトレーニングを行う必要がなく、マルチ感知タスクの場合における利便性を向上させ、結合感知モデルの汎用性を向上させることが理解できる。

結合感知モデルが異なるカテゴリのターゲットにおける異なる感知タスクに対する結合感知能力を学習できるようにするために、１つの好ましい実施例において、結合感知ネットワークにおける検出ヘッドモジュールの数を少なくとも２つに設定することもでき、異なる検出ヘッドモジュールは、異なるカテゴリのターゲットを結合感知する。このような設定の利点は、異なるカテゴリのターゲット毎に対応する結合感知モデルのトレーニングをそれぞれ行う必要がないとともに、結合感知モデルの汎用性を向上させることである。また、異なるカテゴリのターゲットで異なる感知タスクが同じ特徴抽出ネットワークを共有することにより、大量の計算を節約するとともに、モデルのトレーニング過程において、特徴抽出ネットワークは異なるカテゴリのターゲットでの異なる感知タスクの視覚特徴を学習することもでき、抽出された特徴の豊富さを更に高め、結合感知モデルのモデル精度の向上に寄与する。

１つの具体例において、結合感知ネットワークに顔検出ヘッドモジュール、人体検出ヘッドモジュール、自動車検出ヘッドモジュール、および非自動車検出ヘッドモジュールをそれぞれ設けることができる。ここで、顔検出ヘッドモジュールは、顔ターゲットに対して異なる感知タスクの結合感知を行うことに用いられ、人体検出ヘッドモジュールは、人体ターゲットに対して異なる感知タスクの結合感知を行うことに用いられ、自動車検出ヘッドモジュールは、自動車ターゲットに対して異なる感知タスクの結合感知を行うことに用いられ、非自動車検出ヘッドモジュールは、非自動車ターゲットに対して異なる感知タスクの結合感知を行うことに用いられる。

サンプル画像内に少なくとも２種のターゲットが存在する場合、１つの好ましい実施例において、他のネットワーク構造を導入することにより、検出ヘッドモジュールが結合感知を行う過程における異なるカテゴリのターゲットへの目的性を強化することもできる。

更に、図４Ｂに示す検出ヘッドモジュールの模式図を参照する。ここで、結合感知ネットワークにおける検出ヘッドモジュールは、第２マルチパスモジュールおよび少なくとも２つのタスク感知分岐（例えば、図示のターゲット検出分岐、属性認識分岐、および探索特徴抽出分岐）を備えてもよい。

ここで、検出ヘッドモジュールにおける第２マルチパスモジュールは、ターゲットサンプル特徴に対して同じカテゴリのターゲットの異なる感知タスクでの特徴抽出を行い、感知サンプル特徴を取得し、各タスク感知分岐は、感知サンプル特徴にそれぞれ基づき、対応する感知タスクでの感知予測結果を確定する。

即ち、第２マルチパスモジュールにより、ターゲットサンプル特徴に対して同じカテゴリのターゲットの異なる感知タスクでの特徴抽出を行い、感知サンプル特徴を取得し、各タスク感知分岐は、該感知サンプル特徴を共有し、該感知サンプル特徴にそれぞれ基づいて結合感知を行い、対応する感知タスクでの感知予測結果を取得する。

結合感知ネットワークの検出ヘッドモジュールに第２マルチパスモジュールを導入して特徴抽出ネットワークから出力されたターゲットサンプル特徴に対して同じカテゴリのターゲットでの異なる感知タスクに対応する視覚特徴の抽出を行うことにより、抽出された特徴は、検出ヘッドモジュールに対応するカテゴリのターゲットとマッチングすることができ、抽出された視覚特徴はターゲット目的性を更に持ち、異なるカテゴリのターゲットに対応する異なる感知タスクの感知予測結果の精度の向上に寄与することが理解できる。

なお、単一の基準のターゲットサンプル特徴をそれぞれ同じカテゴリのターゲットに対応する各検出ヘッドモジュールの入力データとし、検出ヘッドモジュールに対応するカテゴリのターゲットの結合感知を行い、異なる基準での同じカテゴリのターゲットの検出ヘッドモジュールの結合感知結果を感知タスク次元毎に融合することにより、対応するカテゴリのターゲットの最終的な感知予測結果を取得することができる。または、好ましくは、異なる基準のターゲットサンプル特徴を融合し、融合結果を検出ヘッドモジュールの入力データとして検出ヘッドモジュールに対応するカテゴリのターゲットの結合感知を行い、対応するカテゴリのターゲットの最終的な感知予測結果を取得することもできる。

以下、結合感知ネットワークの検出ヘッドモジュールにおける第２マルチパスモジュールの具体的な構造について詳細に説明する。なお、検出ヘッドモジュールにおける第２マルチパスモジュールは、前述した特徴抽出ネットワークにおける第１マルチパスモジュールと構造が同じであり、ネットワークパラメータが同じであってもよいし、異なってもよく、具体的には、実際のトレーニング状況に応じて確定される。

図４Ｃに示す第２マルチパスモジュールの構造模式図を参照し、該第２マルチパスモジュールは、第２分割サブネットワーク、第２特徴抽出サブネットワークおよび第２融合サブネットワークを備えるように更に細分化することができる。第２分割サブネットワークは、チャネル次元毎にターゲットサンプル特徴を分割し、第２融合待ちサンプル特徴および第２処理待ちサンプル特徴を取得し、第２特徴抽出サブネットワークは、第２処理待ちサンプル特徴に対して特徴抽出を行い、第２ターゲット中間サンプル特徴を取得し、第２融合サブネットワークは、第２融合待ちサンプル特徴と第２ターゲット中間サンプル特徴とを特徴融合し、感知サンプル特徴を取得する。

例示的には、チャネル次元毎にターゲットサンプル特徴を分割し、少なくとも２グループの分割結果を得ることができる。分割時に、チャネル次元毎にランダムに分割してもよいし、順番に分割してもよく、本開示は、具体的な分割メカニズムを何ら限定するものではなく、チャネル次元毎に分割することを確保すれば良い。なお、本開示は、異なる分割結果における特徴のチャネル数を何ら限定するものではない。

後で処理しやすいために、分割結果の数を２つに限定してもよく、即ち、ターゲットサンプル特徴を分割して第２融合待ちサンプル特徴および第２処理待ちサンプル特徴を取得する。分割操作を行いやすいために、順番に分割する方式でターゲットサンプル特徴を第２融合待ちサンプル特徴と第２処理待ちサンプル特徴に分割することができる。好ましくは、第２融合待ちサンプル特徴と第２処理待ちサンプル特徴のチャネル数は同じであってもよい。

全量のターゲットサンプル特徴に対して特徴抽出を行う方式の代わりに、ターゲットサンプル特徴のうちの第２処理待ちサンプル特徴に対して特徴抽出を行う方式を採用し、特徴抽出過程におけるチャネル数（第２融合待ちサンプル特徴と第２処理待ちサンプル特徴のチャネル数が同じである場合、チャネル数を半減させる）を減少するため、特徴抽出過程の計算量およびメモリ占有量を低減する。それと同時に、ターゲットサンプル特徴のうちの第２融合待ちサンプル特徴と、第２処理待ちサンプル特徴に対して特徴抽出を行って得た第２ターゲット中間サンプル特徴とを特徴融合することにより、勾配パス数（第２融合待ちサンプル特徴と第２処理待ちサンプル特徴のチャネル数が同じである場合、勾配パス数を２倍に増加する）を増加し、トレーニングするモデルの学習能力を向上させることが理解できる。

形状が（ｎ，ｃ，ｈ，ｗ）であるターゲットサンプル特徴を例として、第２マルチパスモジュールの処理過程について説明する。ここで、ｎはサンプル画像数であり、ｃはチャネル数であり、ｈはサンプル画像の高さであり、ｗはサンプル画像の幅である。ターゲットサンプル特徴をチャネル次元に沿って均一に分割し、形状がいずれも（ｎ，ｃ／２，ｈ，ｗ）である第２融合待ちサンプル特徴および第２処理待ちサンプル特徴を取得する。第２特徴抽出サブネットワークを介して形状が（ｎ，ｃ／２，ｈ，ｗ）である第２処理待ちサンプル特徴に対して特徴抽出を行い、形状が（ｎ，ｃ／２，ｈ，ｗ）である第２ターゲット中間サンプル特徴を取得する。特徴抽出過程におけるチャネル数が半減したため、特徴抽出過程の計算量およびメモリ占有量を減少する。形状が（ｎ，ｃ／２，ｈ，ｗ）である第２融合待ちサンプル特徴と、形状が（ｎ，ｃ／２，ｈ，ｗ）である第２ターゲット中間サンプル特徴とを特徴融合し、形状が（ｎ，ｃ，ｈ，ｗ）であるターゲットサンプル特徴を取得し、勾配パス数を２倍に増加することにより、トレーニングするモデルの学習能力を向上させる。

第２特徴抽出サブネットワークによって抽出された特徴の全面性および豊富さを更に高めるために、１つの好ましい実施例において、第２特徴抽出サブネットワークで異なる次元の特徴抽出を行うことができる。

更に、図４Ｄに示す第２特徴抽出サブネットワークの模式図を参照し、該第２特徴抽出サブネットワークは、第２全体感知モジュール、第２局所感知モジュールおよび第２感知融合モジュールを備えるように構成でき、第２全体感知モジュールは、第２処理待ちサンプル特徴に対して全体特徴抽出を行い、第２全体中間サンプル特徴を取得し、第２局所感知モジュールは、第２処理待ちサンプル特徴に対して局所特徴抽出を行い、第２局所中間サンプル特徴を取得し、第２感知融合モジュールは、第２全体中間サンプル特徴と第２局所中間サンプル特徴とを特徴融合し、第２ターゲット中間サンプル特徴を取得する。

全体次元および局所次元から第２処理待ちサンプル特徴に対して特徴抽出をそれぞれ行い、得た第２全体中間サンプル特徴と第２局所中間サンプル特徴とを融合することにより、融合後に得た第２ターゲット中間サンプル特徴は、全体的なテキスト情報を担持するとともに、局所的な詳細も担持し、第２ターゲット中間サンプル特徴の豊富さおよび全面性を向上させることが理解できる。

１つの好ましい実施例において、図４Ｅに示す第２特徴抽出サブネットワークの模式図を参照し、該第２特徴抽出サブネットワークの第２全体感知モジュールは、プール化層およびアクティブ化層を備えてもよく、ここで、プール化層は、第２処理待ちサンプル特徴に対して全体特徴抽出を行うことに用いられ、アクティブ化層は、全体特徴抽出結果を非線形計算することにより、第２全体感知モジュールの非線形特徴抽出能力を向上させることに用いられる。

１つの好ましい実施例において、第２局所感知モジュールには、実際の必要に応じて少なくとも１つの第２局所感知分岐を設けて局所特徴抽出を行うことができる。

例示的には、図４Ｅに示す第２特徴抽出サブネットワークの模式図を参照し、該第２特徴抽出サブネットワークの第２局所感知モジュールには、少なくとも２つの第２局所感知分岐が設けられてもよく、異なる第２局所感知分岐により、異なるレセプティブフィールドで第２処理待ちサンプル特徴に対して局所特徴抽出を行い、対応するレセプティブフィールドでの第２局所中間サンプル特徴を取得する。それに対応し、第２感知融合モジュールは、まず、異なるレセプティブフィールドでの第２局所中間サンプル特徴を融合し（例えば、画素を重ね合せてもよい）、第２局所中間サンプル特徴融合結果を取得し、第２局所中間サンプル特徴融合結果と第２全体中間サンプル特徴とを融合し（例えば、チャネルの乗算であってもよい）、第２ターゲット中間サンプル特徴を取得することができる。

少なくとも２つの第２局所感知分岐を設けて異なるレセプティブフィールドでの局所特徴抽出を行うことにより、第２局所中間サンプル特徴の豊富さを高め、異なる基準のマーク待ち対象のマーク能力の向上に寄与し、複数カテゴリのターゲットのマークに対して基礎を築き上げる。それと同時に、異なるレセプティブフィールドでの局所特徴抽出により、抽出された特徴は、異なる感知タスクをサポートすることができ、結合感知モデルの感知精度の向上に寄与することが理解できる。

１つの具体的な実現形態において、第２局所感知分岐に畳み込み層およびバッチ処理層を設けることができる。ここで、畳み込み層は、畳み込みカーネルに基づいて対応するレセプティブフィールドでの局所特徴抽出を行うことに用いられ、バッチ処理層は、抽出された特徴を正規化処理し、異なる第２局所感知分岐によって抽出された第２局所中間サンプル特徴の分布状況を同化し、モデル収束を加速するとともに、トレーニング過程の安定性を向上させることに用いられる。

なお、異なる第２局所感知分岐に用いられる畳み込みカーネルの基準が異なることで、異なる第２局所感知分岐は、異なるレセプティブフィールドでの局所特徴抽出を行うことができる。ここで、畳み込みカーネルの数は、当業者が必要または経験値に応じて設定または調整することができ、畳み込みカーネルの種類は、結合感知の感知タスクに応じて具体的に設定することができる。例示的には、ターゲット探索特徴抽出タスクに対し、探索過程が通常多粒度特徴を必要とするため、大きい基準の畳み込みカーネルと小さい基準の畳み込みカーネルの両方を設ける必要がある。例示的には、属性認識タスクおよびターゲットの検出タスクに対し、異なるターゲットカテゴリ毎に横方向または縦方向の畳み込みカーネル等を設ける必要がある。具体的には、１＊３の畳み込みカーネルおよび３＊５の畳み込みカーネルを用いて人体に対して局所的にブロック分けてモデリングを行い、より良い人体検索特徴を取得することができる。１つの具体例において、マルチ基準の多方向の特徴抽出を行うように、各局所感知分岐で１＊１、１＊３、３＊１、３＊３、３＊５、５＊３および５＊５の畳み込みカーネルをそれぞれ採用することができる。

図４Ｅを参照し続け、１つの好ましい実施例において、第２局所感知モジュールに第２バイパス分岐を更に追加してもよく、モデル収束を更に加速する。好ましくは、第２バイパス分岐は直接接続構造であってもよく、第２処理待ちサンプル特徴を直接対応する第２局所中間サンプル特徴とし、勾配消失を減少し、モデル収束を加速する。または、好ましくは、第２バイパス分岐に第２バッチ処理モジュールが設けられてもよく、バッチ処理層に対応し、第２処理待ちサンプル特徴を正規化処理し、対応する第２局所中間サンプル特徴を取得し、異なる分岐における第２局所中間サンプル特徴の分布状況を同化し、モデル収束を加速する。

上記内容は、結合感知モデルのトレーニング過程について詳細に説明し、以下、結合感知モデルの使用過程により、結合感知方法について詳細に説明する。

図５は、本開示の実施例に係る結合感知方法のフローチャートであり、マルチタスク結合感知機能を持っている結合感知モデルを用いて異なる感知タスクの結合感知を行う適用シーンに適用される。本開示の実施例に係る結合感知方法は、結合感知装置で実行することができ、該装置は、ソフトウェアおよび／またはハードウェアで実現でき、具体的には、電子機器に構成される。なお、結合感知方法を実行する電子機器と結合感知モデルのトレーニング方法を実行する電子機器との両者は、同じ機器であってもよいし、異なる機器であってもよく、本開示はこれを何ら限定するものではない。

図５に示す結合感知方法を参照し、以下のステップを含む。

Ｓ５０１において、予測画像を取得する。

ここで、予測画像は、結合感知待ち画像である。例示的には、予測画像は、ビデオストリームデータをフレーム抽出処理した後のピクチャフレームであってもよい。

１つの好ましい実施例において、後での予測画像に対する感知予測結果の精度を向上させるために、１つの好ましい実施例において、予測画像を前処理することもできる。ここで、前処理方式は、結合感知モデルをトレーニングする時にサンプル画像の前処理方式と一致すれば良い。

例示的には、予測画像をスケーリング処理し、予測画像と前処理後のサンプル画像のサイズを一致にすることができる。例示的には、予測画像を正規化処理し、例えば、予測画像からＲＧＢの３原色の平均値を差し引くことができる。

Ｓ５０２において、予測画像をターゲット結合感知モデルに入力し、感知予測結果を取得する。

ここで、ターゲット結合感知モデルは、本開示の実施例に係るいずれかの結合感知モデルのトレーニング方法で得られた初期結合感知モデルに基づいて得られる。ここで、感知予測結果は、異なる感知タスクに対応する予測結果であってもよい。例えば、感知予測結果は、ターゲットの検出タスクで予測されたマーク待ち対象のマーク枠位置、属性認識タスクで予測されたマーク待ち対象の少なくとも１つの属性カテゴリ、および探索特徴抽出タスクで予測された画像探索用の特徴ベクトル等のうちの少なくとも１つを含んでもよい。

好ましくは、前述したトレーニング済みの結合感知モデル、即ち、初期結合感知モデルを直接ターゲット結合感知モデルとすることができる。または、好ましくは、初期結合感知モデルを後処理し、推理性能を向上させ、後処理結果をターゲット結合感知モデルとすることができる。

なお、本開示で使用されるターゲット結合感知モデルは、前述したトレーニング済みの初期結合感知モデルに基づいて確定され、初期結合感知モデルにおける結合感知ネットワークにおいて、異なる感知タスク毎に特徴抽出ネットワークによって抽出されたターゲット予測特徴を共有し、異なる感知タスク毎に独立した特徴抽出ネットワークをそれぞれ設ける必要がなく、大量の計算リソースを節約し、計算効率を向上させる。

初期結合感知モデルの特徴抽出ネットワークが第１マルチパスモジュールを備え、且つ第１マルチパスモジュールが第１特徴抽出サブネットワークを備え、第１特徴抽出サブネットワークにおける第１局所感知モジュールが、少なくとも２つの第１局所感知分岐を備えるように構成される場合、マルチ局所感知分岐の方式により、推理段階では、即ち、トレーニングされた初期結合感知モデルを直接用いて予測画像の感知予測結果を確定する時、大量の計算リソースが投入され、推理効率も比較的低い。

推理段階の演算量を減少するとともに推理効率を向上させるために、初期結合感知モデルにおける第１局所感知モジュールを、少ない時間がかかり、演算量が少ない等価モジュールに置き換え、ターゲット結合感知モデルを取得することができる。

１つの好ましい実施例において、ターゲット結合感知モデルは、少なくとも２つの第１局所感知分岐を再パラメータ化することに基づいて得ることができる。即ち、初期結合感知モデルにおける特徴抽出ネットワーク内の第１マルチパスモジュールにおける第１特徴抽出サブネットワークの第１局所感知モジュールにおける少なくとも２つの第１局所感知分岐を再パラメータ化し、再パラメータ化後に得たシングルパス構造で既存の少なくとも２つの第１局所感知分岐を代替することができる。または、第１マルチパスモジュールの第１局所感知モジュールに少なくとも２つの第１局所感知分岐および第１バイパス分岐が備えられる場合、初期結合感知モデルにおける特徴抽出ネットワーク内の第１マルチパスモジュールの第１局所感知モジュールにおける少なくとも２つの第１局所感知分岐と第１バイパス分岐を共同で再パラメータ化し、再パラメータ化後に得たシングルパス構造で既存の少なくとも２つの第１局所感知分岐と第１バイパス分岐を代替することができる。

なお、再パラメータ化の実行に用いられる計算機器は、結合感知モデルのトレーニング方法を実行する電子機器、結合感知方法を実行する電子機器、または他の機器であってもよく、本開示はこれを何ら限定するものではない。また、本開示は、再パラメータ化の具体的な実行オケージョンについても何ら限定するものではなく、トレーニングで初期結合感知モデルを得た後、ターゲット結合感知モデルを使用する前に確保すれば良い。

初期結合感知モデルにおける特徴抽出ネットワークの第１マルチパスモジュールを再パラメータ化する方式により、特徴の豊富な抽出を確保するとともに、使用される結合感知モデルにおける特徴抽出ネットワークの複雑さを低減することができ、第１特徴抽出サブネットワークが入力データを処理して対応する出力結果を取得する推理過程のデータ演算量を減少し、推理効率を向上させることが理解できる。

１つの具体的な実現形態において、まず、特徴抽出ネットワークにおける第１局所感知分岐における畳み込み層とバッチ処理層とをパラメータ統合し、異なる第１局所感知分岐のパラメータ統合結果を取得し、また、異なる第１局所感知分岐および／または第１バイパス分岐のネットワークパラメータを統合し、最終的な再パラメータ化結果を取得し、最終的なパラメータ化結果を用いて特徴抽出ネットワークにおける第１マルチパスモジュールにおける第１特徴抽出サブネットワーク内の第１局所感知モジュールの等価代替構造の設定を最適化することができる。

具体的には、以下の式により、第１局所感知モジュールを再パラメータ化することができる。

（ただし、Ｆ_ｉはｉ個目の分岐畳み込み層の畳み込みカーネルであり、μ_ｉおよびσ_ｉは、ｉ個目の分岐バッチ処理層の平均値および分散であり、γ_ｉおよびβ_ｉは、バッチ処理層の基準係数およびシフト係数である。Ｆ’およびｂ’は、再パラメータ化後の畳み込みカーネルおよびバイアス項パラメータである。）

図６Ａに示す再パラメータ化前後の第１特徴抽出サブネットワークの模式図を参照し、該第１特徴抽出サブネットワークにおける第１局所感知モジュールは、初期結合感知モデルにおける多分岐の第１局所感知モジュール（図３Ｄを参照できる）をシングルパス構造に置き換え、且つ、再パラメータ化後の結果のみに基づいて畳み込み層を設定すれば良く、モデル結果は大幅に簡略化され、推理効率の向上に寄与する。１つの具体例において、モデルのトレーニング段階において第１局所感知モジュールの各第１局所感知分岐で１＊１、１＊３、３＊１、３＊３、３＊５、５＊３および５＊５の畳み込みカーネルを採用すると、再パラメータ化後の畳み込み層の畳み込みカーネルのサイズは５＊５である。

初期結合感知モデルの結合感知ネットワークが検出ヘッドモジュールを備え、且つ検出ヘッドモジュールに第２マルチパスモジュールが設けられ、第２マルチパスモジュールが第２特徴抽出サブネットワークを備え、第２特徴抽出サブネットワークにおける第２局所感知モジュールが、少なくとも２つの第２局所感知分岐を備えるように構成される場合、マルチ局所感知分岐の方式により、推理段階では、即ち、トレーニングされた初期結合感知モデルを直接用いて予測画像の感知予測結果を確定する時、大量の計算リソースが投入され、推理効率も比較的低い。

推理段階の演算量を減少するとともに推理効率を向上させるために、初期結合感知モデルにおける第２マルチパスモジュールの第２局所感知モジュールを、少ない時間がかかり、演算量が少ない等価モジュールに置き換え、ターゲット結合感知モデルを取得することができる。

１つの好ましい実施例において、ターゲット結合感知モデルは、少なくとも２つの第２局所感知分岐を再パラメータ化することに基づいて得ることができる。即ち、初期結合感知モデルにおける検出ヘッドモジュール内の第２マルチパスモジュールの第２局所感知モジュールにおける少なくとも２つの第２局所感知分岐を再パラメータ化し、再パラメータ化後に得たシングルパス構造で検出ヘッドモジュールの第２マルチパスモジュールにおける第２局所感知モジュールの既存の少なくとも２つの第２局所感知分岐を代替することができる。または、第２マルチパスモジュールの第２局所感知モジュールに第２局所感知分岐および第２バイパス分岐が備えられる場合、初期結合感知モデルにおける検出ヘッドモジュール内の第２マルチパスモジュールの第２局所感知モジュールにおける少なくとも２つの第２局所感知分岐と第２バイパス分岐を共同で再パラメータ化し、再パラメータ化後に得たシングルパス構造で既存の少なくとも２つの第２局所感知分岐と第２バイパス分岐を代替することができる。

初期結合感知モデルにおける結合感知ネットワークの第２マルチパスモジュールを再パラメータ化する方式により、特徴の豊富な抽出を確保するとともに、使用される結合感知モデルにおける結合感知ネットワークの複雑さを低減することができ、第２特徴抽出サブネットワークが入力データを処理して対応する出力結果を取得する推理過程のデータ演算量を減少し、推理効率を向上させることが理解できる。

１つの具体的な実現形態において、まず、結合感知ネットワークの検出ヘッドモジュールにおける第２局所感知分岐における畳み込み層とバッチ処理層とをパラメータ統合し、異なる第２局所感知分岐のパラメータ統合結果を取得し、また、異なる第２局所感知分岐および／または第２バイパス分岐のネットワークパラメータを統合し、最終的な再パラメータ化結果を取得し、最終的な再パラメータ化結果を用いて結合感知ネットワークにおける第２マルチパスモジュールにおける第２特徴抽出サブネットワーク内の第２局所感知モジュールの等価代替構造の設定を行うことができる。

具体的には、以下の式により、第２局所感知モジュールを再パラメータ化することができる。

図６Ｂに示す再パラメータ化前後の第２特徴抽出サブネットワークの模式図を参照し、該第２特徴抽出サブネットワークにおける第２局所感知モジュールは、初期結合感知モデルにおける多分岐の第２局所感知モジュール（図４Ｅを参照できる）をシングルパス構造に置き換え、且つ、再パラメータ化後の結果のみに基づいて畳み込み層を設定すれば良く、モデル結果は大幅に簡略化され、推理効率の向上に寄与する。１つの具体例において、モデルのトレーニング段階において第２局所感知モジュールの各第２局所感知分岐で１＊１、１＊３、３＊１、３＊３、３＊５、５＊３および５＊５の畳み込みカーネルを採用すると、再パラメータ化後の畳み込み層の畳み込みカーネルのサイズは５＊５である。

１つの好ましい実施例において、整形量子化（例えば、ｉｎｔ８）推理をサポートする機器で、更に、初期結合感知モデルまたは再パラメータ化後の初期結合感知モデルを整形量子化し、推理速度を更に向上させることができる。

第１マルチパスモジュールにおける第１局所感知モジュールの第１バイパス分岐が第１バッチ処理モジュールを備える場合、第１バッチ処理モジュール内の基準分散が大きくなると、再パラメータ化後の等価代替構造における畳み込み層の重み分布が不均一になり、整形量子化を行う効果が悪くなり、推理結果の精度に影響を及ぼす。上記状況の発生を回避するために、１つの好ましい実施例において、第１マルチパスモジュールの第１局所感知モジュールを再パラメータ化する前に、第１バッチ処理モジュールを備える第１バイパス分岐を直接接続構造に置き換えてもよく、これにより、全体的なモデル効果に影響を及ぼさないとともに、再パラメータ化後の畳み込み層の重み分布にも寄与する。

第２マルチパスモジュールのうちの第２局所感知モジュールの第２バイパス分岐が第２バッチ処理モジュールを備える場合、第２バッチ処理モジュール内の基準分散が大きくなると、再パラメータ化後の等価代替構造における畳み込み層の重み分布が不均一になり、整形量子化を行う効果が悪くなり、推理結果の精度に影響を及ぼす。上記状況の発生を回避するために、１つの好ましい実施例において、第２マルチパスモジュールの第２局所感知モジュールを再パラメータ化する前に、第２バッチ処理モジュールを備える第２バイパス分岐を直接接続構造に置き換えてもよく、これにより、全体的なモデル効果に影響を及ぼさないとともに、再パラメータ化後の畳み込み層の重み分布にも寄与する。

上記各結合感知モデルのトレーニング方法の実現として、本開示は、上記各結合感知モデルのトレーニング方法を実行する実行装置の好ましい実施例を更に提供する。更に図７に示す結合感知モデルのトレーニング装置７００を参照し、サンプルデータ取得モジュール７０１、所定のモデル取得モジュール７０２、特徴抽出ネットワーク７０３、結合感知ネットワーク７０４、およびモデルトレーニングモジュール７０５を備える。ここで、サンプルデータ取得モジュール７０１は、サンプル画像およびサンプル画像の感知ラベルを取得することに用いられ、
所定のモデル取得モジュール７０２は、特徴抽出ネットワークおよび結合感知ネットワークを備える所定の結合感知モデルを取得することに用いられ、
特徴抽出ネットワーク７０３は、サンプル画像に対して特徴抽出を行い、ターゲットサンプル特徴を取得することに用いられ、
結合感知ネットワーク７０４は、ターゲットサンプル特徴に基づいて結合感知を行い、感知予測結果を取得することに用いられ、
モデルトレーニングモジュール７０５は、感知予測結果および感知ラベルに基づき、予め構築された結合感知モデルをトレーニングすることに用いられ、結合感知は、少なくとも２種の感知タスクの実行を含む。

１つの好ましい実施例において、特徴抽出ネットワーク７０３は、ベースモジュールおよび少なくとも２つの第１マルチパスモジュールを備え、
ベースモジュールは、サンプル画像をダウンサンプリングし、異なる基準の初期サンプル特徴を取得することに用いられ、
第１マルチパスモジュールは、初期サンプル特徴に対して異なる感知タスクの特徴抽出を行い、初期サンプル特徴に対応する基準でのターゲットサンプル特徴を取得することに用いられる。

１つの好ましい実施例において、第１マルチパスモジュールは、第１分割サブネットワーク、第１特徴抽出サブネットワークおよび第１融合サブネットワークを備え、
第１分割サブネットワークは、チャネル次元毎に初期サンプル特徴を分割し、第１融合待ちサンプル特徴および第１処理待ちサンプル特徴を取得することに用いられ、
第１特徴抽出サブネットワークは、第１処理待ちサンプル特徴に対して特徴抽出を行い、第１ターゲット中間サンプル特徴を取得することに用いられ、
第１融合サブネットワークは、第１融合待ちサンプル特徴と第１ターゲット中間サンプル特徴とを特徴融合し、初期サンプル特徴に対応する基準でのターゲットサンプル特徴を取得することに用いられる。

１つの好ましい実施例において、第１特徴抽出サブネットワークは、第１全体感知モジュール、第１局所感知モジュールおよび第１感知融合モジュールを備え、
第１全体感知モジュールは、第１処理待ちサンプル特徴に対して全体特徴抽出を行い、第１全体中間サンプル特徴を取得することに用いられ、
第１局所感知モジュールは、第１処理待ちサンプル特徴に対して局所特徴抽出を行い、第１局所中間サンプル特徴を取得することに用いられ、
第１感知融合モジュールは、第１全体中間サンプル特徴と第１局所中間サンプル特徴とを特徴融合し、第１ターゲット中間サンプル特徴を取得することに用いられる。

１つの好ましい実施例において、第１局所感知モジュールは、少なくとも２つの第１局所感知分岐を備え、
各第１局所感知分岐は、異なるレセプティブフィールドで第１処理待ちサンプル特徴に対して局所特徴抽出を行い、対応するレセプティブフィールドでの第１局所中間サンプル特徴を取得することに用いられる。

１つの好ましい実施例において、第１局所感知モジュールは第１バイパス分岐を更に備え、
第１バイパス分岐が直接接続構造である場合、第１バイパス分岐は、第１処理待ちサンプル特徴を直接対応する第１局所中間サンプル特徴とすることに用いられ、または、
第１バイパス分岐に第１バッチ処理モジュールが備えられる場合、第１バイパス分岐は、第１バッチ処理モジュールにより、第１処理待ちサンプル特徴を正規化処理し、対応する第１局所中間サンプル特徴を取得することに用いられる。

１つの好ましい実施例において、結合感知ネットワーク７０４は検出ヘッドモジュールを備え、
検出ヘッドモジュールは、異なるタスク感知分岐により、ターゲットサンプル特徴を結合感知し、対応する感知タスクの感知予測結果を取得することに用いられる。

１つの好ましい実施例において、検出ヘッドモジュールは、第２マルチパスモジュールおよび少なくとも２つのタスク感知分岐を備え、
第２マルチパスモジュールは、ターゲットサンプル特徴に対して同じカテゴリのターゲットの異なる感知タスクでの特徴抽出を行い、感知サンプル特徴を取得することに用いられ、
各タスク感知分岐は、感知サンプル特徴にそれぞれ基づき、対応する感知タスクでの感知予測結果を確定することに用いられる。

１つの好ましい実施例において、第２マルチパスモジュールは、第２分割サブネットワーク、第２特徴抽出サブネットワークおよび第２融合サブネットワークを備え、
第２分割サブネットワークは、チャネル次元毎にターゲットサンプル特徴を分割し、第２融合待ちサンプル特徴および第２処理待ちサンプル特徴を取得することに用いられ、
第２特徴抽出サブネットワークは、第２処理待ちサンプル特徴に対して特徴抽出を行い、第２ターゲット中間サンプル特徴を取得することに用いられ、
第２融合サブネットワークは、第２融合待ちサンプル特徴と第２ターゲット中間サンプル特徴とを特徴融合し、感知サンプル特徴を取得することに用いられる。

１つの好ましい実施例において、第２特徴抽出サブネットワークは、第２全体感知モジュール、第２局所感知モジュールおよび第２感知融合モジュールを備え、
第２全体感知モジュールは、第２処理待ちサンプル特徴に対して全体特徴抽出を行い、第２全体中間サンプル特徴を取得することに用いられ、
第２局所感知モジュールは、第２処理待ちサンプル特徴に対して局所特徴抽出を行い、第２局所中間サンプル特徴を取得することに用いられ、
第２感知融合モジュールは、第２全体中間サンプル特徴と第２局所中間サンプル特徴とを特徴融合し、第２ターゲット中間サンプル特徴を取得することに用いられる。

１つの好ましい実施例において、第２局所感知モジュールは少なくとも２つの第２局所感知分岐を備え、
各第２局所感知分岐は、異なるレセプティブフィールドで第２処理待ちサンプル特徴に対して局所特徴抽出を行い、対応するレセプティブフィールドでの第２局所中間サンプル特徴を取得することに用いられる。

１つの好ましい実施例において、第２局所感知モジュールは第２バイパス分岐を更に備え、
第２バイパス分岐が直接接続構造である場合、第２バイパス分岐は、第２処理待ちサンプル特徴を直接対応する第２局所中間サンプル特徴とすることに用いられ、または、
第２バイパス分岐に第２バッチ処理モジュールが備えられる場合、第２バイパス分岐は、第２バッチ処理モジュールにより、第２処理待ちサンプル特徴を正規化処理し、対応する第２局所中間サンプル特徴を取得することに用いられる。

１つの好ましい実施例において、検出ヘッドモジュールの数は少なくとも２つであり、異なる検出ヘッドモジュールは、異なるカテゴリのターゲットを結合感知する。

上記結合感知モデルのトレーニング装置は、本開示のいずれかの実施例に係る結合感知モデルのトレーニング方法を実行することができ、各結合感知モデルのトレーニング方法の実行に対応する機能モジュールおよび有益な効果を備える。

上記各結合感知方法の実現として、本開示は、上記各結合感知方法を実施する実行装置の好ましい実施例を更に提供する。更に、図８に示す結合感知装置８００を参照し、予測画像取得モジュール８０１および感知予測モジュール８０２を備える。ここで、
予測画像取得モジュール８０１は、予測画像を取得することに用いられ、
感知予測モジュール８０２は、予測画像をターゲット結合感知モデルに入力し、感知予測結果を取得することに用いられ、ここで、ターゲット結合感知モデルは、本開示の実施例に係るいずれかの結合感知モデルのトレーニング装置でトレーニングされた初期結合感知モデルに基づいて得られる。

１つの好ましい実施例において、ターゲット結合感知モデルは、初期結合感知モデルのネットワークパラメータを整形量子化処理することに基づいて得られる。

１つの好ましい実施例において、初期結合感知モデルは第１マルチパスモジュールを備え、第１マルチパスモジュールは少なくとも２つの第１局所感知分岐を備え、ターゲット結合感知モデルは、少なくとも２つの第１局所感知分岐を再パラメータ化することに基づいて得られ、および／または、
初期結合感知モデルは第２マルチパスモジュールを備え、第２マルチパスモジュールは少なくとも２つの第２局所感知分岐を備え、ターゲット結合感知モデルは、少なくとも２つの第２局所感知分岐を再パラメータ化することに基づいて得られる。

上記結合感知装置は、本開示のいずれかの実施例に係る結合感知方法を実行することができ、各結合感知方法の実行に対応する機能モジュールおよび有益な効果を備える。

本開示の技術案に係るサンプル画像、感知ラベルおよび予測画像等の収集、記憶、使用、加工、伝達、提供、および公開等の処理は、いずれも関連法律法規の規定に該当し、公序良俗に反していない。

本開示の実施例によれば、本開示は、電子機器、可読記憶媒体およびコンピュータプログラムを更に提供する。

図９は、本開示の実施例を実施するために使用可能な例示的な電子機器９００の模式的なブロック図を示す。電子機器は、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータのような様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、携帯端末、携帯電話、スマートフォン、ウェアラブル機器および他の類似する計算装置のような様々な形式の移動装置を表すこともできる。本開示に示されたコンポーネント、それらの接続、関係、およびそれらの機能は例示的なものに過ぎず、本開示に記載および／または要求される本開示の実現を限定するものではない。

図９に示すように、機器９００は、計算ユニット９０１を備え、読み出し専用メモリ（ＲＯＭ）９０２に記憶されたコンピュータプログラム、または記憶ユニット９０８からランダムアクセスメモリ（ＲＡＭ）９０３にロードされたコンピュータプログラムに基づき、様々な適当な動作および処理を実行することができる。ＲＡＭ９０３には、機器９００の操作に必要な様々なプログラムおよびデータが記憶されてもよい。計算ユニット９０１、ＲＯＭ９０２およびＲＡＭ９０３は、バス９０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インタフェース９０５もバス９０４に接続されている。

機器９００における複数のコンポーネントはＩ／Ｏインタフェース９０５に接続され、キーボード、マウス等のような入力ユニット９０６と、各種のディスプレイ、スピーカ等のような出力ユニット９０７と、磁気ディスク、光ディスク等のような記憶ユニット９０８と、ネットワークカード、モデム、無線通信送受信機等のような通信ユニット９０９とを備える。通信ユニット９０９は、機器９００がインターネットのようなコンピュータネットワークおよび／または様々な電気通信ネットワークを介して他のデバイスと情報／データを交換することを許容する。

計算ユニット９０１は、処理および計算能力を有する汎用および／または専用の処理アセンブリであってもよい。計算ユニット９０１のいくつかの例は、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、各種の専用の人工知能（ＡＩ）コンピューティングチップ、各種の機械学習モデルアルゴリズムを実行する計算ユニット、デジタルシグナルプロセッサ（ＤＳＰ）、および任意の適当なプロセッサ、コントローラ、マイクロコントローラ等を含んでもよいが、これらに限定されない。計算ユニット９０１は、上記各方法および処理、例えば、結合感知モデルのトレーニング方法および／または結合感知方法を実行する。例えば、いくつかの実施例において、結合感知モデルのトレーニング方法および／または結合感知方法は、コンピュータソフトウェアプログラムとして実現でき、有形的に記憶ユニット９０８のような機器可読媒体に含まれている。いくつかの実施例において、コンピュータプログラムの一部または全ては、ＲＯＭ９０２および／または通信ユニット９０９を介して機器９００にロードおよび／またはインストールされ得る。コンピュータプログラムがＲＡＭ９０３にロードされて計算ユニット９０１により実行されると、上記結合感知モデルのトレーニング方法および／または結合感知方法の１つまたは複数のステップを実行することができる。あるいは、他の実施例において、計算ユニット９０１は、他の任意の適当な方式（例えば、ファームウェアを介して）により、結合感知モデルのトレーニング方法および／または結合感知方法を実行するように構成され得る。

本開示に記載されたシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準パーツ（ＡＳＳＰ）、システムオンチップのシステム（ＳＯＣ）、複合プログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実現できる。これらの様々な実施形態は以下を含んでもよい。１つまたは複数のコンピュータプログラムに実施され、該１つまたは複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行および／または解釈することができ、該プログラマブルプロセッサは、ストレージシステム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信し、且つデータおよび命令を、該ストレージシステム、該少なくとも１つの入力装置、および該少なくとも１つの出力装置に伝送することができる専用または汎用のプログラマブルプロセッサであってもよい。

本開示の方法を実施するためのプログラムコードは、１つまたは複数のプログラミング言語の任意の組み合わせでコードできる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサまたはコントローラに提供でき、これにより、プログラムコードがプロセッサまたはコントローラにより実行されると、フローチャートおよび／またはブロック図で規定された機能／操作が実施される。プログラムコードは、完全に機器で実行されてもよいし、一部が機器で実行されてもよいし、独立したソフトウェアパッケージとして一部が機器で実行されて一部がリモート機器で実行されてもよいし、完全にリモート機器またはサーバで実行されてもよい。

本開示の明細書において、機器可読媒体は、命令実行システム、装置またはデバイスに使用される、または命令実行システム、装置またはデバイスと合わせて使用されるプログラムを含有または記憶できる有形的な媒体であってもよい。機器可読媒体は、機器可読信号媒体または機器可読記憶媒体であってもよい。機器可読媒体は、電子の、磁気の、光の、電磁気の、赤外線の、または半導体のシステム、装置またはデバイス、または上記内容の任意の適当な組み合わせを含んでもよいが、これらに限定されない。機器可読記憶媒体の更なる具体的な例は、１つまたは複数の線による電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み出し専用ディスク（ＣＤ－ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、または上記内容の任意の適当な組み合わせを含む。

ユーザとのインタラクションを提供するために、ここで説明するシステムおよび技術をコンピュータで実施することができ、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザがそれにより入力をコンピュータに提供することができるキーボードおよび指向装置（例えば、マウスまたはトラックボール）とを有する。他の種類の装置は、更にユーザとのインタラクションを提供するために使用できる。例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、且つ、任意の形式（音入力、音声入力または、触覚入力を含む）でユーザからの入力を受信することができる。

ここで説明するシステムおよび技術を、バックグラウンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、または中間コンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、またはフロントエンドコンポーネントを含むコンピューティングシステム（例えば、ユーザがそれによりここで説明するシステムおよび技術の実施形態とインタラクションできるグラフィカルユーザインタフェースまたはネットワークブラウザを有するユーザコンピュータ）、またはこのようなバックグラウンドコンポーネント、中間コンポーネント、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムに実施することができる。任意の形式または媒体のデジタルデータ通信（例えば、通信ネットワーク）により、システムのコンポーネントを互に接続することができる。通信ネットワークの例は、局所エリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、およびインターネットを含む。

コンピューティングシステムはクライアントおよびサーバを含んでもよい。クライアントとサーバとは、一般的に互いに離れ、且つ、通常、通信ネットワークを介してインタラクションを行う。対応するコンピュータで実行されて互いにクライアント－サーバ関係を持つコンピュータプログラムにより、クライアントとサーバとの関係を生成する。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービス体系における１つのホスト製品であり、従来の物理ホストおよびＶＰＳサービスに存在する管理しにくく、トラフィックの拡張性が弱いという欠陥を解決するために使用される。サーバは、分散型システムのサーバであってもよいし、ブロックチェーンを組み合わせたサーバであってもよい。

人工知能は、研究でコンピュータに人間のある思考過程および知能行動（例えば、学習、推理、思考、計画等）をシミュレートさせる学科であり、ハードウェアの面の技術があるとともに、ソフトウェアの面の技術もある。人工知能のハードウェア技術は、一般的に、センサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理等のような技術を含み、人工知能のソフトウェア技術は、主にコンピュータ視覚技術、音声識別技術、自然言語処理技術と機械学習／深層学習技術、ビッグデータ処理技術、ナレッジグラフ技術等のいくつかの方向を含む。

上記に示す様々な形式のフローを用い、ステップを並べ替え、追加または削除することができることを理解すべきである。例えば、本開示に記載された各ステップは、並列に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本開示に係る技術案の所望する結果を達成できる限り、本開示はここで限定しない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者は、設計要求および他の要因に基づき、様々な修正、組み合わせ、サブ組み合わせおよび代替が可能であることを理解すべできる。本開示の精神および原則内で行われる任意の修正、均等置換および改良等は、いずれも本開示の保護範囲内に含まれているべきである。

Claims

サンプル画像および前記サンプル画像の感知ラベルを取得することと、
特徴抽出ネットワークおよび結合感知ネットワークを備える所定の結合感知モデルを取得することと、
前記特徴抽出ネットワークを介して前記サンプル画像に対して特徴抽出を行い、ターゲットサンプル特徴を取得することと、
前記結合感知ネットワークを介して前記ターゲットサンプル特徴に基づいて結合感知を行い、感知予測結果を取得することと、
前記感知予測結果および前記感知ラベルに基づき、所定の結合感知モデルをトレーニングすることと、を含み、
前記結合感知は、少なくとも２種の感知タスクの実行を含む、
結合感知モデルのトレーニング方法。
前記特徴抽出ネットワークは、ベースモジュールおよび少なくとも２つの第１マルチパスモジュールを備え、
前記特徴抽出ネットワークを介して前記サンプル画像に対して特徴抽出を行い、ターゲットサンプル特徴を取得することは、
前記ベースモジュールにより、前記サンプル画像をダウンサンプリングし、異なる基準の初期サンプル特徴を取得することと、
前記第１マルチパスモジュールにより、前記初期サンプル特徴に対して異なる感知タスクの特徴抽出を行い、前記初期サンプル特徴に対応する基準でのターゲットサンプル特徴を取得することと、を含む、
請求項１に記載の方法。
前記第１マルチパスモジュールは、第１分割サブネットワーク、第１特徴抽出サブネットワークおよび第１融合サブネットワークを備え、
前記第１マルチパスモジュールにより、前記初期サンプル特徴に対して異なる感知タスクの特徴抽出を行い、前記初期サンプル特徴に対応する基準でのターゲットサンプル特徴を取得することは、
前記第１分割サブネットワークを介してチャネル次元毎に前記初期サンプル特徴を分割し、第１融合待ちサンプル特徴および第１処理待ちサンプル特徴を取得することと、
前記第１特徴抽出サブネットワークを介して前記第１処理待ちサンプル特徴に対して特徴抽出を行い、第１ターゲット中間サンプル特徴を取得することと、
前記第１融合サブネットワークを介して前記第１融合待ちサンプル特徴と前記第１ターゲット中間サンプル特徴とを特徴融合し、前記初期サンプル特徴に対応する基準でのターゲットサンプル特徴を取得することと、を含む、
請求項２に記載の方法。
前記第１特徴抽出サブネットワークは、第１全体感知モジュール、第１局所感知モジュールおよび第１感知融合モジュールを備え、
前記第１特徴抽出サブネットワークを介して前記第１処理待ちサンプル特徴に対して特徴抽出を行い、第１ターゲット中間サンプル特徴を取得することは、
前記第１全体感知モジュールにより、前記第１処理待ちサンプル特徴に対して全体特徴抽出を行い、第１全体中間サンプル特徴を取得することと、
前記第１局所感知モジュールにより、前記第１処理待ちサンプル特徴に対して局所特徴抽出を行い、第１局所中間サンプル特徴を取得することと、
前記第１感知融合モジュールにより、前記第１全体中間サンプル特徴と前記第１局所中間サンプル特徴とを特徴融合し、前記第１ターゲット中間サンプル特徴を取得することと、を含む、
請求項３に記載の方法。
前記第１局所感知モジュールは、少なくとも２つの第１局所感知分岐を備え、
前記第１局所感知モジュールにより、前記第１処理待ちサンプル特徴に対して局所特徴抽出を行い、第１局所中間サンプル特徴を取得することは、
異なる第１局所感知分岐により、異なるレセプティブフィールドで前記第１処理待ちサンプル特徴に対して局所特徴抽出を行い、対応するレセプティブフィールドでの第１局所中間サンプル特徴を取得することを含む、
請求項４に記載の方法。
前記第１局所感知モジュールは、第１バイパス分岐を更に備え、
前記第１局所感知モジュールにより、前記第１処理待ちサンプル特徴に対して局所特徴抽出を行い、第１局所中間サンプル特徴を取得することは、
前記第１バイパス分岐が直接接続構造である場合、前記第１処理待ちサンプル特徴を直接対応する第１局所中間サンプル特徴とすること、または、
前記第１バイパス分岐に第１バッチ処理モジュールが備えられる場合、前記第１バッチ処理モジュールにより、前記第１処理待ちサンプル特徴を正規化処理し、対応する第１局所中間サンプル特徴を取得すること、を更に含む、
請求項５に記載の方法。
前記結合感知ネットワークは、検出ヘッドモジュールを備え、
前記結合感知ネットワークを介して前記ターゲットサンプル特徴に基づいて結合感知を行い、感知予測結果を取得することは、
前記検出ヘッドモジュールにおける異なるタスク感知分岐により、前記ターゲットサンプル特徴を結合感知し、対応する感知タスクの感知予測結果を取得することを含む、
請求項１に記載の方法。
前記検出ヘッドモジュールは、第２マルチパスモジュールおよび少なくとも２つのタスク感知分岐を備え、
前記検出ヘッドモジュールにおける異なるタスク感知分岐により、前記ターゲットサンプル特徴を結合感知し、対応する感知タスクの感知予測結果を取得することは、
前記第２マルチパスモジュールにより、前記ターゲットサンプル特徴に対して同じカテゴリのターゲットの異なる感知タスクでの特徴抽出を行い、感知サンプル特徴を取得することと、
各タスク感知分岐により、前記感知サンプル特徴にそれぞれ基づき、対応する感知タスクでの感知予測結果を確定することと、を含む、
請求項７に記載の方法。
前記第２マルチパスモジュールは、第２分割サブネットワーク、第２特徴抽出サブネットワークおよび第２融合サブネットワークを備え、
前記第２マルチパスモジュールにより、前記ターゲットサンプル特徴に対して同じカテゴリのターゲットの異なる感知タスクでの特徴抽出を行い、感知サンプル特徴を取得することは、
前記第２分割サブネットワークを介してチャネル次元毎に前記ターゲットサンプル特徴を分割し、第２融合待ちサンプル特徴および第２処理待ちサンプル特徴を取得することと、
前記第２特徴抽出サブネットワークを介して前記第２処理待ちサンプル特徴に対して特徴抽出を行い、第２ターゲット中間サンプル特徴を取得することと、
前記第２融合サブネットワークを介して前記第２融合待ちサンプル特徴と前記第２ターゲット中間サンプル特徴とを特徴融合し、前記感知サンプル特徴を取得することと、を含む、
請求項８に記載の方法。
前記第２特徴抽出サブネットワークは、第２全体感知モジュール、第２局所感知モジュールおよび第２感知融合モジュールを備え、
前記第２特徴抽出サブネットワークを介して前記第２処理待ちサンプル特徴に対して特徴抽出を行い、第２ターゲット中間サンプル特徴を取得することは、
前記第２全体感知モジュールにより、前記第２処理待ちサンプル特徴に対して全体特徴抽出を行い、第２全体中間サンプル特徴を取得することと、
前記第２局所感知モジュールにより、前記第２処理待ちサンプル特徴に対して局所特徴抽出を行い、第２局所中間サンプル特徴を取得することと、
前記第２感知融合モジュールにより、前記第２全体中間サンプル特徴と前記第２局所中間サンプル特徴とを特徴融合し、前記第２ターゲット中間サンプル特徴を取得することと、を含む、
請求項９に記載の方法。
前記第２局所感知モジュールは、少なくとも２つの第２局所感知分岐を備え、
前記第２局所感知モジュールにより、前記第２処理待ちサンプル特徴に対して局所特徴抽出を行い、第２局所中間サンプル特徴を取得することは、
異なる第２局所感知分岐により、異なるレセプティブフィールドで前記第２処理待ちサンプル特徴に対して局所特徴抽出を行い、対応するレセプティブフィールドでの第２局所中間サンプル特徴を取得することを含む、
請求項１０に記載の方法。
前記第２局所感知モジュールは、第２バイパス分岐を更に備え、
前記第２局所感知モジュールにより、前記第２処理待ちサンプル特徴に対して局所特徴抽出を行い、第２局所中間サンプル特徴を取得することは、
前記第２バイパス分岐が直接接続構造である場合、前記第２処理待ちサンプル特徴を直接対応する第２局所中間サンプル特徴とすること、または、
前記第２バイパス分岐に第２バッチ処理モジュールが備えられる場合、前記第２バッチ処理モジュールにより、前記第２処理待ちサンプル特徴を正規化処理し、対応する第２局所中間サンプル特徴を取得すること、を更に含む、
請求項１１に記載の方法。
前記検出ヘッドモジュールの数は、少なくとも２つであり、
異なる検出ヘッドモジュールは、異なるカテゴリのターゲットを結合感知する、
請求項７に記載の方法。
予測画像を取得することと、
前記予測画像をターゲット結合感知モデルに入力し、感知予測結果を取得することと、を含み、
前記ターゲット結合感知モデルは、請求項１に記載の結合感知モデルのトレーニング方法でトレーニングされた初期結合感知モデルに基づいて得られる、
結合感知方法。
前記ターゲット結合感知モデルは、前記初期結合感知モデルのネットワークパラメータを整形量子化処理することに基づいて得られる、
請求項１４に記載の方法。
前記初期結合感知モデルは第１マルチパスモジュールを備え、前記第１マルチパスモジュールは少なくとも２つの第１局所感知分岐を備え、前記ターゲット結合感知モデルは、少なくとも２つの前記第１局所感知分岐を再パラメータ化することに基づいて得られ、および／または、
前記初期結合感知モデルは第２マルチパスモジュールを備え、前記第２マルチパスモジュールは少なくとも２つの第２局所感知分岐を備え、前記ターゲット結合感知モデルは、少なくとも２つの前記第２局所感知分岐を再パラメータ化することに基づいて得られる、
請求項１４に記載の方法。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されたメモリと、を備える電子機器であって、
前記メモリに、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、
前記命令は、前記少なくとも１つのプロセッサが請求項１から１３のいずれか１項に記載の結合感知モデルのトレーニング方法および／または請求項１４から１６のいずれか１項に記載の結合感知方法を実行可能であるように、前記少なくとも１つのプロセッサにより実行される、
電子機器。
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、請求項１から１３のいずれか１項に記載の結合感知モデルのトレーニング方法および／または請求項１４から１６のいずれか１項に記載の結合感知方法をコンピュータに実行させることに用いられる、
非一時的なコンピュータ可読記憶媒体。
プロセッサにより実行されると、請求項１から１３のいずれか１項に記載の結合感知モデルのトレーニング方法のステップおよび／または請求項１４から１６のいずれか１項に記載の結合感知方法のステップを実現する、
コンピュータプログラム。