JP2023131117A - 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体 - Google Patents

結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体 Download PDF

Info

Publication number
JP2023131117A
JP2023131117A JP2023018251A JP2023018251A JP2023131117A JP 2023131117 A JP2023131117 A JP 2023131117A JP 2023018251 A JP2023018251 A JP 2023018251A JP 2023018251 A JP2023018251 A JP 2023018251A JP 2023131117 A JP2023131117 A JP 2023131117A
Authority
JP
Japan
Prior art keywords
sensing
feature
local
sample
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023018251A
Other languages
English (en)
Inventor
健 王
Jian Wang
翔博 蘇
Xiangbo Su
其蔓 呉
Qiman Wu
之港 王
Zhigang Wang
昊 孫
Hao Sun
二鋭 丁
Er Rui Ding
井東 王
Jingdong Wang
甜 呉
Tian Wu
海峰 王
Haifeng Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023131117A publication Critical patent/JP2023131117A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/098Distributed learning, e.g. federated learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

【課題】本開示は、結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体を提供し、人工知能の技術分野に関し、特に、コンピュータ視覚、画像認識および深層学習の技術に関する。【解決手段】具体的な実現形態として、サンプル画像およびサンプル画像の感知ラベルを取得し、特徴抽出ネットワークおよび結合感知ネットワークを備える所定の結合感知モデルを取得し、特徴抽出ネットワークを介してサンプル画像に対して特徴抽出を行い、ターゲットサンプル特徴を取得し、結合感知ネットワークを介してターゲットサンプル特徴に基づいて結合感知を行い、感知予測結果を取得し、感知予測結果および感知ラベルに基づき、所定の結合感知モデルをトレーニングし、結合感知は、少なくとも2種の感知タスクの実行を含む。本開示の技術によれば、結合感知過程のデータ演算量を減少し、計算効率を向上させる。【選択図】図1

Description

本開示は、人工知能の技術分野に関し、特に、コンピュータ視覚、画像認識および深層学習の技術に関し、具体的には、結合感知(Joint Perception)モデルのトレーニング、結合感知方法、装置、機器および媒体に関する。
コンピュータ科学の発展に伴い、人工知能技術は現れる。人工知能は、人間の知能をシミュレーション、延伸および拡張するための理論、方法、技術およびアプリケーションシステムを研究や開発する新しい技術科学とする。
人工知能技術に基づいて画像を処理し、スマート交通、スマートセキュリティおよびスマートシティ等の構築に対して重要な意義を持っている。
本開示は、結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体を提供する。
本開示の一態様によれば、
サンプル画像およびサンプル画像の感知ラベルを取得することと、
特徴抽出ネットワークおよび結合感知ネットワークを備える所定の結合感知モデルを取得することと、
特徴抽出ネットワークを介してサンプル画像に対して特徴抽出を行い、ターゲットサンプル特徴を取得することと、
結合感知ネットワークを介してターゲットサンプル特徴に基づいて結合感知を行い、感知予測結果を取得することと、
感知予測結果および感知ラベルに基づき、所定の結合感知モデルをトレーニングすることと、を含み、
結合感知は、少なくとも2種の感知タスクの実行を含む、
結合感知モデルのトレーニング方法を提供する。
本開示の別の態様によれば、
予測画像を取得することと、
予測画像をターゲット結合感知モデルに入力し、感知予測結果を取得することと、を含み、
ターゲット結合感知モデルは、本開示の実施例に係るいずれかの結合感知モデルのトレーニング方法でトレーニングされた初期結合感知モデルに基づいて得られる、
結合感知方法を更に提供する。
本開示の別の態様によれば、
少なくとも1つのプロセッサと、
少なくとも1つのプロセッサに通信接続されたメモリと、を備える電子機器であって、
メモリに、少なくとも1つのプロセッサによって実行可能な命令が記憶され、
命令は、少なくとも1つのプロセッサが本開示の実施例に係るいずれかの結合感知モデルのトレーニング方法および/または本開示の実施例に係るいずれかの結合感知方法を実行可能であるように、少なくとも1つのプロセッサにより実行される、
電子機器を更に提供する。
本開示の別の態様によれば、
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
コンピュータ命令は、本開示の実施例に係るいずれかの結合感知モデルのトレーニング方法および/または本開示の実施例に係るいずれかの結合感知方法をコンピュータに実行させることに用いられる、
非一時的なコンピュータ可読記憶媒体を更に提供する。
本開示の技術によれば、結合感知過程のデータ演算量を減少し、計算効率を向上させる。
本開示に記載された内容は、本開示の実施例のキーとなるまたは重要な特徴を標識するためのものではなく、本開示の範囲を限定するものでもないことが理解されるべきである。本開示の他の特徴は、以下の明細書により容易に理解することができる。
図面は本形態をより良く理解するためのものであり、本開示を限定するものではない。
本開示の実施例に係る結合感知モデルのトレーニング方法のフローチャートである。 本開示の実施例に係る結合感知モデルの構造模式図である。 本開示の実施例に係る特徴抽出ネットワークの構造模式図である。 本開示の実施例に係る第1マルチパスモジュールの構造模式図である。 本開示の実施例に係る第1特徴抽出サブネットワークの構造模式図である。 本開示の実施例に係る第1特徴抽出サブネットワークの構造模式図である。 本開示の実施例に係る結合感知ネットワークの構造模式図である。 本開示の実施例に係る検出ヘッドモジュールの構造模式図である。 本開示の実施例に係る第2マルチパスモジュールの構造模式図である。 本開示の実施例に係る第2特徴抽出サブネットワークの構造模式図である。 本開示の実施例に係る第2特徴抽出サブネットワークの構造模式図である。 本開示の実施例に係る結合感知方法のフローチャートである。 本開示の実施例に係る再パラメータ化後の第1特徴抽出サブネットワークの構造図である。 本開示の実施例に係る再パラメータ化後の第2特徴抽出サブネットワークの構造図である。 本開示の実施例に係る結合感知モデルのトレーニング装置の構造図である。 本開示の実施例に係る結合感知装置の構造図である。 本開示の実施例の結合感知モデルのトレーニング方法および/または結合感知方法を実現するための電子機器のブロック図である。
以下、図面を参照しながら本開示の例示的な実施例について説明し、ここで、理解の便宜上、本開示の実施例に係る様々な細かい内容まで含まれているが、例示的なものに過ぎないと理解すべきである。同様に、以下の説明において、公知されている機能および構造の説明は、明確且つ簡潔にするために省略している。同様に、以下の説明において、公知されている機能および構造の説明は、明確且つ簡潔にするために省略している。
本開示の実施例は、少なくとも1つのカテゴリのターゲットで画像に対してマルチタスクの結合感知を行う場合に適用され、スマートシティ、スマート交通およびスマートセキュリティ等の構築に技術支持を提供する。いわゆるマルチタスク結合感知は、ターゲットに対する検出タスク、ターゲットに対する属性認識タスク、およびターゲットに対する探索特徴抽出タスク等の少なくとも2種の実行を含んでもよい。ここで、ターゲットは画像内のマーク待ち対象であり、該マーク待ち対象に対してターゲットの検出、属性認識または探索特徴抽出等を行う。
なお、画像に対する結合感知過程は、結合感知モデルに基づいて実現する必要があるため、理解しやすいために、まず、結合感知モデルのトレーニング過程について詳細に説明する。
図1は、本開示の実施例に係る結合感知モデルのトレーニング方法のフローチャートであり、マルチタスク結合感知機能を持っている結合感知モデルをトレーニングする適用シーンに適用される。本開示の実施例に係る結合感知モデルのトレーニング方法は、結合感知モデルのトレーニング装置で実行することができ、該装置は、ソフトウェアおよび/またはハードウェアで実現でき、具体的には、電子機器に構成される。
図1に示す結合感知モデルのトレーニング方法は、以下のステップを含む。
S101において、サンプル画像およびサンプル画像の感知ラベルを取得する。
ここで、サンプル画像は、モデルのトレーニング過程で使用する画像である。サンプル画像の感知ラベルは、サンプル画像を結合感知した後の理論結果を表すことに用いられ、異なる感知タスクに対応する標準的な感知結果を含んでもよい。ここで、結合感知は、ターゲットの検出、ターゲットの属性認識およびターゲットの探索特徴抽出のうちの少なくとも2種の感知タスクを含んでもよい。
例示的には、ターゲットの検出タスクに対応する標準的な感知結果は、マーク待ち対象のマーク枠の位置を含んでもよく、例えば、マーク枠の座標、サイズ、基準および信頼度等のうちの少なくとも1つを含んでもよい。属性認識タスクに対応する標準的な感知結果は、マーク待ち対象の少なくとも1つの属性カテゴリを含んでもよく、例えば、車両は、車両の色、車両のタイプ等を含んでもよく、顔は性別等を含んでもよく、人体は服飾の色等を含んでもよい。探索特徴抽出タスクに対応する標準的な感知結果は、画像検索用の特徴ベクトル等を含んでもよい。
1つの好ましい実施例において、サンプル画像は、ビデオストリームデータをフレーム抽出処理した後のピクチャフレームであってもよい。
モデルのトレーニング過程へのサンプルの違いの影響を低減するために、1つの好ましい実施例において、異なるサンプル画像を統一的に前処理することもできる。
例示的には、サンプル画像をスケーリング処理し、異なるサンプル画像の画像サイズを統一することができる。例示的には、サンプル画像を正規化処理することができ、例えば、トレーニングするモデルのロバスト性を強化するように、各サンプル画像からRGB(red green blue、赤・緑・青)の3原色の平均値を統一的に差し引く。
S102において、特徴抽出ネットワークおよび結合感知ネットワークを備える所定の結合感知モデルを取得する。
S103において、特徴抽出ネットワークを介してサンプル画像に対して特徴抽出を行い、ターゲットサンプル特徴を取得する。
S104において、結合感知ネットワークを介してターゲットサンプル特徴に基づいて結合感知を行い、感知予測結果を取得し、結合感知は、少なくとも2種の感知タスクの実行を含む。
S105において、感知予測結果および感知ラベルに基づき、所定の結合感知モデルをトレーニングする。
ここで、結合感知モデルは、機械学習モデルまたは深層学習モデルで構築することにより得られる。
ここで、感知予測結果は、異なる感知タスクに対応する予測結果であってもよい。例えば、感知予測結果は、ターゲットの検出タスクで予測されたマーク待ち対象のマーク枠位置、属性認識タスクで予測されたマーク待ち対象の少なくとも1つの属性カテゴリ、および探索特徴抽出タスクで予測された画像探索用の特徴ベクトル等のうちの少なくとも1つを含んでもよい。
図2に示す結合感知モデルの構造模式図を参照する。ここで、結合感知モデルは、特徴抽出ネットワークおよび結合感知ネットワークを備え、特徴抽出ネットワークは、サンプル画像に対して特徴抽出を行い、ターゲットサンプル特徴を取得し、結合感知ネットワークは、ターゲットサンプル特徴に基づいて結合感知を行い、感知予測結果を取得し、感知予測結果と感知ラベルとの間の差分状況に基づき、結合感知モデルのモデル性能が安定するまたはトレーニングサンプルの数が所定の数閾値に達するまで結合感知モデルにおけるネットワークパラメータを最適化し、トレーニング済みの結合感知モデルを取得し、後で入力される画像に対して結合感知予測を行うことに用いる。
なお、結合感知ネットワークで異なる感知タスク毎に特徴抽出ネットワークによって抽出されたターゲットサンプル特徴を共有することにより、モデルのトレーニング過程において、結合感知モデルにおける特徴抽出ネットワークは、異なる感知タスクに対応する視覚特徴の抽出能力を学習し、異なる感知タスク毎に独立した特徴抽出ネットワークをそれぞれ設ける必要がなく、大量の計算リソースを節約し、計算効率を向上させる。それと同時に、異なる感知タスク間の特徴は互いに強調され、単一の感知タスクの特徴表現を向上させる。
ここで、ターゲットサンプル特徴には、異なる感知タスクに対応する視覚特徴が含まれ、結合感知ネットワークが後で結合感知を行うデータサポートとして用いられる。
1つの好ましい実施例において、特徴抽出ネットワークは、特徴ピラミッドネットワークに基づいて実現することができることで、マルチ基準の特徴抽出を行い、ターゲットサンプル特徴の特徴豊富さを高める。
特徴抽出ネットワークが異なる感知タスクに対応する視覚特徴の抽出能力を学習したが、部分的な感知タスクに対応する特徴情報が失われ、抽出特徴の豊富さおよび全面性が低下する状況が存在する可能性があるため、更に、結合感知モデルの感知結果精度に影響を及ぼす。
モデルの結合感知能力を更に向上させるために、別の好ましい実施例において、特徴抽出ネットワークを改良し、特徴抽出ネットワークにおける異なる感知タスクでのマルチ基準の特徴の結合抽出能力を更に強化することができる。
図3Aに示す特徴抽出ネットワークの模式図を参照し、特徴抽出ネットワークを、ベースモジュールおよび少なくとも2つの第1マルチパスモジュールを備えるように更に細分化することができる。ここで、ベースモジュールは、サンプル画像をダウンサンプリングし、異なる基準の初期サンプル特徴を取得し、第1マルチパスモジュールは、初期サンプル特徴に対して異なる感知タスクの特徴抽出を行い、初期サンプル特徴に対応する基準でのターゲットサンプル特徴を取得する。
即ち、ベースモジュールにより、サンプル画像をダウンサンプリングし、異なる基準の初期サンプル特徴を取得し、任意の基準の初期サンプル特徴に対し、該基準に対応する第1マルチパスモジュールにより、該基準の初期サンプル特徴に対して異なる感知タスクの特徴抽出を行い、該基準でのターゲットサンプル特徴を取得する。
ここで、図3Aは、ベースモジュールを用いてサンプル画像を段階的にダウンサンプリングしてC~Cという5つの異なる基準の初期サンプル特徴を取得し、C~Cをそれぞれ対応する第1マルチパスモジュールにより処理し、ターゲットサンプル特徴P~Pを取得することを例示的に示す。なお、上記は、初期サンプル特徴の数およびターゲットサンプル特徴の数を例示的に示すものに過ぎず、両者を具体的に限定するものと理解されるべきではなく、当業者は、実際の必要に応じて対応する数の調整を行うことができる。
特徴抽出ネットワークに第1マルチパスモジュールを導入して単一の基準での初期サンプル特徴のそれぞれに対して異なる感知タスクの特徴抽出を行うことにより、特徴抽出ネットワークは、異なる感知タスクでのマルチ基準特徴抽出能力を持ち、更に抽出したターゲットサンプル特徴の豊富さおよび全面性を高め、結合感知モデルのモデル精度の向上に対して基礎を築き上げることが理解できる。
1つの好ましい実施例において、更に、単一の基準の初期サンプル特徴と他の基準のターゲットサンプル特徴とを融合し、該単一の基準の初期サンプル特徴を更新することで、該単一の基準を対応する第1マルチパスモジュールで処理した後に最終的に得たターゲットサンプル特徴の豊富さを高めることもできる。
1つの具体的な実現形態において、隣接基準の第1マルチパスモジュールの処理過程については、隣接基準のうちの小さい基準のターゲットサンプル特徴と隣接基準のうちの大きい基準の初期サンプル特徴とを融合し、該隣接基準のうちの大きい基準の初期サンプル特徴を更新することで、該大きい基準の初期サンプル特徴の豊富さを増加し、更に、該大きい基準のターゲットサンプル特徴出力結果の精度を高める。
なお、単一の基準のターゲットサンプル特徴にそれぞれ基づいて結合感知を行い、異なる基準の感知予測結果を融合し、最終的な感知予測結果を取得することができ、または、好ましくは、異なる基準のターゲットサンプル特徴を融合し、融合結果を結合感知し、最終的な感知予測結果を取得することもできる。
以下、特徴抽出ネットワークにおける第1マルチパスモジュールの具体的な構造について詳細に説明する。
図3Bに示す第1マルチパスモジュールの構造模式図を参照し、単一の基準の初期サンプル特徴に対し、該第1マルチパスモジュールは、第1分割サブネットワーク、第1特徴抽出サブネットワークおよび第1融合サブネットワークを備えるように更に細分化することができる。第1分割サブネットワークは、チャネル次元毎に初期サンプル特徴を分割し、第1融合待ちサンプル特徴および第1処理待ちサンプル特徴を取得し、第1特徴抽出サブネットワークは、第1処理待ちサンプル特徴に対して特徴抽出を行い、第1ターゲット中間サンプル特徴を取得し、第1融合サブネットワークは、第1融合待ちサンプル特徴と第1ターゲット中間サンプル特徴とを特徴融合し、該基準でのターゲットサンプル特徴を取得する。
例示的には、チャネル次元毎に初期サンプル特徴を分割し、少なくとも2グループの分割結果を取得することができる。分割時に、チャネル次元毎にランダムに分割してもよいし、順番に分割してもよく、本開示は、具体的な分割メカニズムを何ら限定するものではなく、チャネル次元毎に分割することを確保すれば良い。なお、本開示は、異なる分割結果における特徴のチャネル数を何ら限定するものではない。
後で処理しやすいために、分割結果の数を2つに限定してもよく、即ち、初期サンプル特徴を分割して第1融合待ちサンプル特徴および第1処理待ちサンプル特徴を取得する。分割操作を行いやすいために、順番に分割する方式で初期サンプル特徴を第1融合待ちサンプル特徴と第1処理待ちサンプル特徴に分割することができる。好ましくは、第1融合待ちサンプル特徴と第1処理待ちサンプル特徴のチャネル数は同じであってもよい。
全量の初期サンプル特徴に対して特徴抽出を行う方式の代わりに、初期サンプル特徴のうちの第1処理待ちサンプル特徴に対して特徴抽出を行う方式を採用し、特徴抽出過程におけるチャネル数(第1融合待ちサンプル特徴と第1処理待ちサンプル特徴のチャネル数が同じである場合、チャネル数を半減させる)を減少するため、特徴抽出過程の計算量およびメモリ占有量を低減する。それと同時に、初期サンプル特徴のうちの第1融合待ちサンプル特徴と、第1処理待ちサンプル特徴に対して特徴抽出を行って得た第1ターゲット中間サンプル特徴とを特徴融合することにより、勾配パス数(第1融合待ちサンプル特徴と第1処理待ちサンプル特徴のチャネル数が同じである場合、勾配パス数を2倍に増加する)を増加し、トレーニングするモデルの学習能力を向上させることが理解できる。
形状が(n,c,h,w)である初期サンプル特徴を例として、第1マルチパスモジュールの処理過程について説明する。ここで、nはサンプル画像数であり、cはチャネル数であり、hはサンプル画像の高さであり、wはサンプル画像の幅である。初期サンプル特徴をチャネル次元に沿って均一に分割し、形状がいずれも(n,c/2,h,w)である第1融合待ちサンプル特徴および第1処理待ちサンプル特徴を取得する。第1特徴抽出サブネットワークを介して形状が(n,c/2,h,w)である第1処理待ちサンプル特徴に対して特徴抽出を行い、形状が(n,c/2,h,w)である第1ターゲット中間サンプル特徴を取得する。特徴抽出過程におけるチャネル数が半減したため、特徴抽出過程の計算量およびメモリ占有量を減少する。形状が(n,c/2,h,w)である第1融合待ちサンプル特徴と、形状が(n,c/2,h,w)である第1ターゲット中間サンプル特徴とを特徴融合し、形状が(n,c,h,w)であるターゲットサンプル特徴を取得し、勾配パス数を2倍に増加することにより、トレーニングするモデルの学習能力を向上させる。
第1特徴抽出サブネットワークによって抽出された特徴の全面性および豊富さを更に高めるために、1つの好ましい実施例において、第1特徴抽出サブネットワークで異なる次元の特徴抽出を行うことができる。
更に、図3Cに示す第1特徴抽出サブネットワークの模式図を参照し、該第1特徴抽出サブネットワークは、第1全体感知モジュール、第1局所感知モジュールおよび第1感知融合モジュールを備えるように構成でき、第1全体感知モジュールは、第1処理待ちサンプル特徴に対して全体特徴抽出を行い、第1全体中間サンプル特徴を取得し、第1局所感知モジュールは、第1処理待ちサンプル特徴に対して局所特徴抽出を行い、第1局所中間サンプル特徴を取得し、第1感知融合モジュールは、第1全体中間サンプル特徴と第1局所中間サンプル特徴とを特徴融合し、第1ターゲット中間サンプル特徴を取得する。
全体次元および局所次元から第1処理待ちサンプル特徴に対して特徴抽出をそれぞれ行い、得た第1全体中間サンプル特徴と第1局所中間サンプル特徴とを融合することにより、融合後に得た第1ターゲット中間サンプル特徴は、全体的なテキスト情報を担持するとともに、局所的な詳細も担持し、第1ターゲット中間サンプル特徴の豊富さおよび全面性を向上させることが理解できる。
1つの好ましい実施例において、図3Dに示す第1特徴抽出サブネットワークの模式図を参照し、該第1特徴抽出サブネットワークにおける第1全体感知モジュールは、プール化層およびアクティブ化層を備えてもよく、ここで、プール化層は、第1処理待ちサンプル特徴に対して全体特徴抽出を行うことに用いられ、アクティブ化層は、全体特徴抽出結果を非線形計算することにより、第1全体感知モジュールの非線形特徴抽出能力を向上させることに用いられる。
なお、本開示の実施例は、プール化層に用いられる具体的なプール化方式、およびアクティブ化層に用いられる具体的なアクティブ化関数を何ら限定するものではなく、実際の必要およびモデルのトレーニング状況に応じて設定または調整することができる。例えば、プール化層は、平均プール化を採用してもよく、アクティブ化層は、ReLUアクティブ化関数を採用してもよい。
1つの好ましい実施例において、第1局所感知モジュールには、実際の必要に応じて少なくとも1つの第1局所感知分岐を設けて局所特徴抽出を行うことができる。
例示的には、図3Dを参照し続け、該第1特徴抽出サブネットワークの第1局所感知モジュールには、少なくとも2つの第1局所感知分岐が設けられてもよく、異なる第1局所感知分岐により、異なるレセプティブフィールドで第1処理待ちサンプル特徴に対して局所特徴抽出を行い、対応するレセプティブフィールドでの第1局所中間サンプル特徴を取得する。それに対応し、第1感知融合モジュールは、まず、異なるレセプティブフィールドでの第1局所中間サンプル特徴を融合し(例えば、画素を重ね合せてもよい)、第1局所中間サンプル特徴融合結果を取得し、第1局所中間サンプル特徴融合結果と第1全体中間サンプル特徴とを融合し(例えば、チャネルの乗算であってもよい)、第1ターゲット中間サンプル特徴を取得することができる。
少なくとも2つの第1局所感知分岐を設けて異なるレセプティブフィールドでの局所特徴抽出を行うことにより、第1局所中間サンプル特徴の豊富さを高め、後での異なる基準のマーク待ち対象のマーク能力の向上に寄与し、複数カテゴリのターゲットのマークに対して基礎を築き上げる。それと同時に、異なるレセプティブフィールドでの局所特徴抽出により、抽出された特徴は、異なる感知タスクをサポートすることができ、結合感知モデルの感知精度の向上に寄与することが理解できる。
1つの具体的な実現形態において、第1局所感知分岐に畳み込み層およびバッチ処理層を設けることができる。ここで、畳み込み層は、畳み込みカーネルに基づいて対応するレセプティブフィールドでの局所特徴抽出を行うことに用いられ、バッチ処理層は、抽出された特徴を正規化処理し、異なる第1局所感知分岐によって抽出された第1局所中間サンプル特徴の分布状況を同化し、モデル収束を加速するとともに、トレーニング過程の安定性を向上させることに用いられる。
なお、異なる第1局所感知分岐に用いられる畳み込みカーネルの基準が異なることで、異なる第1局所感知分岐は、異なるレセプティブフィールドでの局所特徴抽出を行うことができる。ここで、畳み込みカーネルの数は、当業者が必要または経験値に応じて設定または調整することができ、畳み込みカーネルの種類は、結合感知の感知タスクに応じて具体的に設定することができる。例示的には、ターゲット探索特徴抽出タスクに対し、探索過程が通常多粒度特徴を必要とするため、大きい基準の畳み込みカーネルと小さい基準の畳み込みカーネルの両方を設ける必要がある。例示的には、属性認識タスクおよびターゲットの検出タスクに対し、異なるターゲットカテゴリ毎に横方向または縦方向の畳み込みカーネル等を設ける必要がある。具体的には、1*3の畳み込みカーネルおよび3*5の畳み込みカーネルを用いて人体に対して局所的にブロック分けてモデリングを行い、より良い人体検索特徴を取得することができる。1つの具体例において、マルチ基準の多方向の特徴抽出を行うように、各第1局所感知分岐で1*1、1*3、3*1、3*3、3*5、5*3および5*5の畳み込みカーネルをそれぞれ採用することができる。
図3Dを参照し続け、1つの好ましい実施例において、第1局所感知モジュールに第1バイパス分岐を更に追加してもよく、モデル収束を更に加速する。好ましくは、第1バイパス分岐は直接接続構造であってもよく、第1処理待ちサンプル特徴を直接対応する第1局所中間サンプル特徴とし、勾配消失を減少し、モデル収束を加速する。または、好ましくは、第1バイパス分岐に第1バッチ処理モジュールが設けられてもよく、バッチ処理層に対応し、第1処理待ちサンプル特徴を正規化処理し、対応する第1局所中間サンプル特徴を取得し、異なる分岐における第1局所中間サンプル特徴の分布状況を同化し、モデル収束を加速する。
上記内容は、結合感知モデルにおける特徴抽出ネットワークの具体的な構造について例示的に説明する。以下、結合感知モデルにおける結合感知ネットワークについて詳細に説明する。
図4Aに示す結合感知ネットワークの模式図を参照し、結合感知ネットワークは検出ヘッドモジュールを備えてもよく、検出ヘッドモジュールには、異なるタスク感知分岐により、ターゲットサンプル特徴を結合感知し、対応する感知タスクの感知予測結果を取得するための異なるタスク感知分岐が設けられる。
例示的には、タスク感知分岐は、ターゲット検出分岐、属性認識分岐および探索特徴抽出分岐等のうちの少なくとも1つを含んでもよい。ここで、ターゲット検出分岐はターゲットの検出タスクに対応し、画像内のマーク待ち対象(即ち、あるカテゴリのターゲット)を検出することに用いられ、属性認識分岐は属性認識タスクに対応し、画像内のマーク待ち対象の少なくとも1つの属性カテゴリを認識することに用いられ、探索特徴抽出分岐は探索特徴抽出タスクに対応し、画像探索を容易にする特徴ベクトルの抽出を行うことに用いられる。
なお、上記異なるタスク感知分岐は、検出ヘッドモジュールにおける異なるタスク感知分岐を例示的に説明するものに過ぎず、タスク感知分岐を具体的に限定するものと理解されるべきではなく、実際の必要に応じてタスク感知分岐の追加、削除または修正等を行うことができる。
結合感知ネットワークに異なるタスク感知分岐を備える検出ヘッドモジュールを設けることにより、結合感知ネットワークは、異なる感知タスクに対する結合感知能力を持ち、ある感知タスクにそれぞれ対して単一の感知モデルの確立およびトレーニングを行う必要がなく、マルチ感知タスクの場合における利便性を向上させ、結合感知モデルの汎用性を向上させることが理解できる。
結合感知モデルが異なるカテゴリのターゲットにおける異なる感知タスクに対する結合感知能力を学習できるようにするために、1つの好ましい実施例において、結合感知ネットワークにおける検出ヘッドモジュールの数を少なくとも2つに設定することもでき、異なる検出ヘッドモジュールは、異なるカテゴリのターゲットを結合感知する。このような設定の利点は、異なるカテゴリのターゲット毎に対応する結合感知モデルのトレーニングをそれぞれ行う必要がないとともに、結合感知モデルの汎用性を向上させることである。また、異なるカテゴリのターゲットで異なる感知タスクが同じ特徴抽出ネットワークを共有することにより、大量の計算を節約するとともに、モデルのトレーニング過程において、特徴抽出ネットワークは異なるカテゴリのターゲットでの異なる感知タスクの視覚特徴を学習することもでき、抽出された特徴の豊富さを更に高め、結合感知モデルのモデル精度の向上に寄与する。
1つの具体例において、結合感知ネットワークに顔検出ヘッドモジュール、人体検出ヘッドモジュール、自動車検出ヘッドモジュール、および非自動車検出ヘッドモジュールをそれぞれ設けることができる。ここで、顔検出ヘッドモジュールは、顔ターゲットに対して異なる感知タスクの結合感知を行うことに用いられ、人体検出ヘッドモジュールは、人体ターゲットに対して異なる感知タスクの結合感知を行うことに用いられ、自動車検出ヘッドモジュールは、自動車ターゲットに対して異なる感知タスクの結合感知を行うことに用いられ、非自動車検出ヘッドモジュールは、非自動車ターゲットに対して異なる感知タスクの結合感知を行うことに用いられる。
サンプル画像内に少なくとも2種のターゲットが存在する場合、1つの好ましい実施例において、他のネットワーク構造を導入することにより、検出ヘッドモジュールが結合感知を行う過程における異なるカテゴリのターゲットへの目的性を強化することもできる。
更に、図4Bに示す検出ヘッドモジュールの模式図を参照する。ここで、結合感知ネットワークにおける検出ヘッドモジュールは、第2マルチパスモジュールおよび少なくとも2つのタスク感知分岐(例えば、図示のターゲット検出分岐、属性認識分岐、および探索特徴抽出分岐)を備えてもよい。
ここで、検出ヘッドモジュールにおける第2マルチパスモジュールは、ターゲットサンプル特徴に対して同じカテゴリのターゲットの異なる感知タスクでの特徴抽出を行い、感知サンプル特徴を取得し、各タスク感知分岐は、感知サンプル特徴にそれぞれ基づき、対応する感知タスクでの感知予測結果を確定する。
即ち、第2マルチパスモジュールにより、ターゲットサンプル特徴に対して同じカテゴリのターゲットの異なる感知タスクでの特徴抽出を行い、感知サンプル特徴を取得し、各タスク感知分岐は、該感知サンプル特徴を共有し、該感知サンプル特徴にそれぞれ基づいて結合感知を行い、対応する感知タスクでの感知予測結果を取得する。
結合感知ネットワークの検出ヘッドモジュールに第2マルチパスモジュールを導入して特徴抽出ネットワークから出力されたターゲットサンプル特徴に対して同じカテゴリのターゲットでの異なる感知タスクに対応する視覚特徴の抽出を行うことにより、抽出された特徴は、検出ヘッドモジュールに対応するカテゴリのターゲットとマッチングすることができ、抽出された視覚特徴はターゲット目的性を更に持ち、異なるカテゴリのターゲットに対応する異なる感知タスクの感知予測結果の精度の向上に寄与することが理解できる。
なお、単一の基準のターゲットサンプル特徴をそれぞれ同じカテゴリのターゲットに対応する各検出ヘッドモジュールの入力データとし、検出ヘッドモジュールに対応するカテゴリのターゲットの結合感知を行い、異なる基準での同じカテゴリのターゲットの検出ヘッドモジュールの結合感知結果を感知タスク次元毎に融合することにより、対応するカテゴリのターゲットの最終的な感知予測結果を取得することができる。または、好ましくは、異なる基準のターゲットサンプル特徴を融合し、融合結果を検出ヘッドモジュールの入力データとして検出ヘッドモジュールに対応するカテゴリのターゲットの結合感知を行い、対応するカテゴリのターゲットの最終的な感知予測結果を取得することもできる。
以下、結合感知ネットワークの検出ヘッドモジュールにおける第2マルチパスモジュールの具体的な構造について詳細に説明する。なお、検出ヘッドモジュールにおける第2マルチパスモジュールは、前述した特徴抽出ネットワークにおける第1マルチパスモジュールと構造が同じであり、ネットワークパラメータが同じであってもよいし、異なってもよく、具体的には、実際のトレーニング状況に応じて確定される。
図4Cに示す第2マルチパスモジュールの構造模式図を参照し、該第2マルチパスモジュールは、第2分割サブネットワーク、第2特徴抽出サブネットワークおよび第2融合サブネットワークを備えるように更に細分化することができる。第2分割サブネットワークは、チャネル次元毎にターゲットサンプル特徴を分割し、第2融合待ちサンプル特徴および第2処理待ちサンプル特徴を取得し、第2特徴抽出サブネットワークは、第2処理待ちサンプル特徴に対して特徴抽出を行い、第2ターゲット中間サンプル特徴を取得し、第2融合サブネットワークは、第2融合待ちサンプル特徴と第2ターゲット中間サンプル特徴とを特徴融合し、感知サンプル特徴を取得する。
例示的には、チャネル次元毎にターゲットサンプル特徴を分割し、少なくとも2グループの分割結果を得ることができる。分割時に、チャネル次元毎にランダムに分割してもよいし、順番に分割してもよく、本開示は、具体的な分割メカニズムを何ら限定するものではなく、チャネル次元毎に分割することを確保すれば良い。なお、本開示は、異なる分割結果における特徴のチャネル数を何ら限定するものではない。
後で処理しやすいために、分割結果の数を2つに限定してもよく、即ち、ターゲットサンプル特徴を分割して第2融合待ちサンプル特徴および第2処理待ちサンプル特徴を取得する。分割操作を行いやすいために、順番に分割する方式でターゲットサンプル特徴を第2融合待ちサンプル特徴と第2処理待ちサンプル特徴に分割することができる。好ましくは、第2融合待ちサンプル特徴と第2処理待ちサンプル特徴のチャネル数は同じであってもよい。
全量のターゲットサンプル特徴に対して特徴抽出を行う方式の代わりに、ターゲットサンプル特徴のうちの第2処理待ちサンプル特徴に対して特徴抽出を行う方式を採用し、特徴抽出過程におけるチャネル数(第2融合待ちサンプル特徴と第2処理待ちサンプル特徴のチャネル数が同じである場合、チャネル数を半減させる)を減少するため、特徴抽出過程の計算量およびメモリ占有量を低減する。それと同時に、ターゲットサンプル特徴のうちの第2融合待ちサンプル特徴と、第2処理待ちサンプル特徴に対して特徴抽出を行って得た第2ターゲット中間サンプル特徴とを特徴融合することにより、勾配パス数(第2融合待ちサンプル特徴と第2処理待ちサンプル特徴のチャネル数が同じである場合、勾配パス数を2倍に増加する)を増加し、トレーニングするモデルの学習能力を向上させることが理解できる。
形状が(n,c,h,w)であるターゲットサンプル特徴を例として、第2マルチパスモジュールの処理過程について説明する。ここで、nはサンプル画像数であり、cはチャネル数であり、hはサンプル画像の高さであり、wはサンプル画像の幅である。ターゲットサンプル特徴をチャネル次元に沿って均一に分割し、形状がいずれも(n,c/2,h,w)である第2融合待ちサンプル特徴および第2処理待ちサンプル特徴を取得する。第2特徴抽出サブネットワークを介して形状が(n,c/2,h,w)である第2処理待ちサンプル特徴に対して特徴抽出を行い、形状が(n,c/2,h,w)である第2ターゲット中間サンプル特徴を取得する。特徴抽出過程におけるチャネル数が半減したため、特徴抽出過程の計算量およびメモリ占有量を減少する。形状が(n,c/2,h,w)である第2融合待ちサンプル特徴と、形状が(n,c/2,h,w)である第2ターゲット中間サンプル特徴とを特徴融合し、形状が(n,c,h,w)であるターゲットサンプル特徴を取得し、勾配パス数を2倍に増加することにより、トレーニングするモデルの学習能力を向上させる。
第2特徴抽出サブネットワークによって抽出された特徴の全面性および豊富さを更に高めるために、1つの好ましい実施例において、第2特徴抽出サブネットワークで異なる次元の特徴抽出を行うことができる。
更に、図4Dに示す第2特徴抽出サブネットワークの模式図を参照し、該第2特徴抽出サブネットワークは、第2全体感知モジュール、第2局所感知モジュールおよび第2感知融合モジュールを備えるように構成でき、第2全体感知モジュールは、第2処理待ちサンプル特徴に対して全体特徴抽出を行い、第2全体中間サンプル特徴を取得し、第2局所感知モジュールは、第2処理待ちサンプル特徴に対して局所特徴抽出を行い、第2局所中間サンプル特徴を取得し、第2感知融合モジュールは、第2全体中間サンプル特徴と第2局所中間サンプル特徴とを特徴融合し、第2ターゲット中間サンプル特徴を取得する。
全体次元および局所次元から第2処理待ちサンプル特徴に対して特徴抽出をそれぞれ行い、得た第2全体中間サンプル特徴と第2局所中間サンプル特徴とを融合することにより、融合後に得た第2ターゲット中間サンプル特徴は、全体的なテキスト情報を担持するとともに、局所的な詳細も担持し、第2ターゲット中間サンプル特徴の豊富さおよび全面性を向上させることが理解できる。
1つの好ましい実施例において、図4Eに示す第2特徴抽出サブネットワークの模式図を参照し、該第2特徴抽出サブネットワークの第2全体感知モジュールは、プール化層およびアクティブ化層を備えてもよく、ここで、プール化層は、第2処理待ちサンプル特徴に対して全体特徴抽出を行うことに用いられ、アクティブ化層は、全体特徴抽出結果を非線形計算することにより、第2全体感知モジュールの非線形特徴抽出能力を向上させることに用いられる。
なお、本開示の実施例は、プール化層に用いられる具体的なプール化方式、およびアクティブ化層に用いられる具体的なアクティブ化関数を何ら限定するものではなく、実際の必要およびモデルのトレーニング状況に応じて設定または調整することができる。例えば、プール化層は、平均プール化を採用してもよく、アクティブ化層は、ReLUアクティブ化関数を採用してもよい。
1つの好ましい実施例において、第2局所感知モジュールには、実際の必要に応じて少なくとも1つの第2局所感知分岐を設けて局所特徴抽出を行うことができる。
例示的には、図4Eに示す第2特徴抽出サブネットワークの模式図を参照し、該第2特徴抽出サブネットワークの第2局所感知モジュールには、少なくとも2つの第2局所感知分岐が設けられてもよく、異なる第2局所感知分岐により、異なるレセプティブフィールドで第2処理待ちサンプル特徴に対して局所特徴抽出を行い、対応するレセプティブフィールドでの第2局所中間サンプル特徴を取得する。それに対応し、第2感知融合モジュールは、まず、異なるレセプティブフィールドでの第2局所中間サンプル特徴を融合し(例えば、画素を重ね合せてもよい)、第2局所中間サンプル特徴融合結果を取得し、第2局所中間サンプル特徴融合結果と第2全体中間サンプル特徴とを融合し(例えば、チャネルの乗算であってもよい)、第2ターゲット中間サンプル特徴を取得することができる。
少なくとも2つの第2局所感知分岐を設けて異なるレセプティブフィールドでの局所特徴抽出を行うことにより、第2局所中間サンプル特徴の豊富さを高め、異なる基準のマーク待ち対象のマーク能力の向上に寄与し、複数カテゴリのターゲットのマークに対して基礎を築き上げる。それと同時に、異なるレセプティブフィールドでの局所特徴抽出により、抽出された特徴は、異なる感知タスクをサポートすることができ、結合感知モデルの感知精度の向上に寄与することが理解できる。
1つの具体的な実現形態において、第2局所感知分岐に畳み込み層およびバッチ処理層を設けることができる。ここで、畳み込み層は、畳み込みカーネルに基づいて対応するレセプティブフィールドでの局所特徴抽出を行うことに用いられ、バッチ処理層は、抽出された特徴を正規化処理し、異なる第2局所感知分岐によって抽出された第2局所中間サンプル特徴の分布状況を同化し、モデル収束を加速するとともに、トレーニング過程の安定性を向上させることに用いられる。
なお、異なる第2局所感知分岐に用いられる畳み込みカーネルの基準が異なることで、異なる第2局所感知分岐は、異なるレセプティブフィールドでの局所特徴抽出を行うことができる。ここで、畳み込みカーネルの数は、当業者が必要または経験値に応じて設定または調整することができ、畳み込みカーネルの種類は、結合感知の感知タスクに応じて具体的に設定することができる。例示的には、ターゲット探索特徴抽出タスクに対し、探索過程が通常多粒度特徴を必要とするため、大きい基準の畳み込みカーネルと小さい基準の畳み込みカーネルの両方を設ける必要がある。例示的には、属性認識タスクおよびターゲットの検出タスクに対し、異なるターゲットカテゴリ毎に横方向または縦方向の畳み込みカーネル等を設ける必要がある。具体的には、1*3の畳み込みカーネルおよび3*5の畳み込みカーネルを用いて人体に対して局所的にブロック分けてモデリングを行い、より良い人体検索特徴を取得することができる。1つの具体例において、マルチ基準の多方向の特徴抽出を行うように、各局所感知分岐で1*1、1*3、3*1、3*3、3*5、5*3および5*5の畳み込みカーネルをそれぞれ採用することができる。
図4Eを参照し続け、1つの好ましい実施例において、第2局所感知モジュールに第2バイパス分岐を更に追加してもよく、モデル収束を更に加速する。好ましくは、第2バイパス分岐は直接接続構造であってもよく、第2処理待ちサンプル特徴を直接対応する第2局所中間サンプル特徴とし、勾配消失を減少し、モデル収束を加速する。または、好ましくは、第2バイパス分岐に第2バッチ処理モジュールが設けられてもよく、バッチ処理層に対応し、第2処理待ちサンプル特徴を正規化処理し、対応する第2局所中間サンプル特徴を取得し、異なる分岐における第2局所中間サンプル特徴の分布状況を同化し、モデル収束を加速する。
上記内容は、結合感知モデルのトレーニング過程について詳細に説明し、以下、結合感知モデルの使用過程により、結合感知方法について詳細に説明する。
図5は、本開示の実施例に係る結合感知方法のフローチャートであり、マルチタスク結合感知機能を持っている結合感知モデルを用いて異なる感知タスクの結合感知を行う適用シーンに適用される。本開示の実施例に係る結合感知方法は、結合感知装置で実行することができ、該装置は、ソフトウェアおよび/またはハードウェアで実現でき、具体的には、電子機器に構成される。なお、結合感知方法を実行する電子機器と結合感知モデルのトレーニング方法を実行する電子機器との両者は、同じ機器であってもよいし、異なる機器であってもよく、本開示はこれを何ら限定するものではない。
図5に示す結合感知方法を参照し、以下のステップを含む。
S501において、予測画像を取得する。
ここで、予測画像は、結合感知待ち画像である。例示的には、予測画像は、ビデオストリームデータをフレーム抽出処理した後のピクチャフレームであってもよい。
1つの好ましい実施例において、後での予測画像に対する感知予測結果の精度を向上させるために、1つの好ましい実施例において、予測画像を前処理することもできる。ここで、前処理方式は、結合感知モデルをトレーニングする時にサンプル画像の前処理方式と一致すれば良い。
例示的には、予測画像をスケーリング処理し、予測画像と前処理後のサンプル画像のサイズを一致にすることができる。例示的には、予測画像を正規化処理し、例えば、予測画像からRGBの3原色の平均値を差し引くことができる。
S502において、予測画像をターゲット結合感知モデルに入力し、感知予測結果を取得する。
ここで、ターゲット結合感知モデルは、本開示の実施例に係るいずれかの結合感知モデルのトレーニング方法で得られた初期結合感知モデルに基づいて得られる。ここで、感知予測結果は、異なる感知タスクに対応する予測結果であってもよい。例えば、感知予測結果は、ターゲットの検出タスクで予測されたマーク待ち対象のマーク枠位置、属性認識タスクで予測されたマーク待ち対象の少なくとも1つの属性カテゴリ、および探索特徴抽出タスクで予測された画像探索用の特徴ベクトル等のうちの少なくとも1つを含んでもよい。
好ましくは、前述したトレーニング済みの結合感知モデル、即ち、初期結合感知モデルを直接ターゲット結合感知モデルとすることができる。または、好ましくは、初期結合感知モデルを後処理し、推理性能を向上させ、後処理結果をターゲット結合感知モデルとすることができる。
なお、本開示で使用されるターゲット結合感知モデルは、前述したトレーニング済みの初期結合感知モデルに基づいて確定され、初期結合感知モデルにおける結合感知ネットワークにおいて、異なる感知タスク毎に特徴抽出ネットワークによって抽出されたターゲット予測特徴を共有し、異なる感知タスク毎に独立した特徴抽出ネットワークをそれぞれ設ける必要がなく、大量の計算リソースを節約し、計算効率を向上させる。
初期結合感知モデルの特徴抽出ネットワークが第1マルチパスモジュールを備え、且つ第1マルチパスモジュールが第1特徴抽出サブネットワークを備え、第1特徴抽出サブネットワークにおける第1局所感知モジュールが、少なくとも2つの第1局所感知分岐を備えるように構成される場合、マルチ局所感知分岐の方式により、推理段階では、即ち、トレーニングされた初期結合感知モデルを直接用いて予測画像の感知予測結果を確定する時、大量の計算リソースが投入され、推理効率も比較的低い。
推理段階の演算量を減少するとともに推理効率を向上させるために、初期結合感知モデルにおける第1局所感知モジュールを、少ない時間がかかり、演算量が少ない等価モジュールに置き換え、ターゲット結合感知モデルを取得することができる。
1つの好ましい実施例において、ターゲット結合感知モデルは、少なくとも2つの第1局所感知分岐を再パラメータ化することに基づいて得ることができる。即ち、初期結合感知モデルにおける特徴抽出ネットワーク内の第1マルチパスモジュールにおける第1特徴抽出サブネットワークの第1局所感知モジュールにおける少なくとも2つの第1局所感知分岐を再パラメータ化し、再パラメータ化後に得たシングルパス構造で既存の少なくとも2つの第1局所感知分岐を代替することができる。または、第1マルチパスモジュールの第1局所感知モジュールに少なくとも2つの第1局所感知分岐および第1バイパス分岐が備えられる場合、初期結合感知モデルにおける特徴抽出ネットワーク内の第1マルチパスモジュールの第1局所感知モジュールにおける少なくとも2つの第1局所感知分岐と第1バイパス分岐を共同で再パラメータ化し、再パラメータ化後に得たシングルパス構造で既存の少なくとも2つの第1局所感知分岐と第1バイパス分岐を代替することができる。
なお、再パラメータ化の実行に用いられる計算機器は、結合感知モデルのトレーニング方法を実行する電子機器、結合感知方法を実行する電子機器、または他の機器であってもよく、本開示はこれを何ら限定するものではない。また、本開示は、再パラメータ化の具体的な実行オケージョンについても何ら限定するものではなく、トレーニングで初期結合感知モデルを得た後、ターゲット結合感知モデルを使用する前に確保すれば良い。
初期結合感知モデルにおける特徴抽出ネットワークの第1マルチパスモジュールを再パラメータ化する方式により、特徴の豊富な抽出を確保するとともに、使用される結合感知モデルにおける特徴抽出ネットワークの複雑さを低減することができ、第1特徴抽出サブネットワークが入力データを処理して対応する出力結果を取得する推理過程のデータ演算量を減少し、推理効率を向上させることが理解できる。
1つの具体的な実現形態において、まず、特徴抽出ネットワークにおける第1局所感知分岐における畳み込み層とバッチ処理層とをパラメータ統合し、異なる第1局所感知分岐のパラメータ統合結果を取得し、また、異なる第1局所感知分岐および/または第1バイパス分岐のネットワークパラメータを統合し、最終的な再パラメータ化結果を取得し、最終的なパラメータ化結果を用いて特徴抽出ネットワークにおける第1マルチパスモジュールにおける第1特徴抽出サブネットワーク内の第1局所感知モジュールの等価代替構造の設定を最適化することができる。
具体的には、以下の式により、第1局所感知モジュールを再パラメータ化することができる。
Figure 2023131117000002
(ただし、Fはi個目の分岐畳み込み層の畳み込みカーネルであり、μおよびσは、i個目の分岐バッチ処理層の平均値および分散であり、γおよびβは、バッチ処理層の基準係数およびシフト係数である。F’およびb’は、再パラメータ化後の畳み込みカーネルおよびバイアス項パラメータである。)
図6Aに示す再パラメータ化前後の第1特徴抽出サブネットワークの模式図を参照し、該第1特徴抽出サブネットワークにおける第1局所感知モジュールは、初期結合感知モデルにおける多分岐の第1局所感知モジュール(図3Dを参照できる)をシングルパス構造に置き換え、且つ、再パラメータ化後の結果のみに基づいて畳み込み層を設定すれば良く、モデル結果は大幅に簡略化され、推理効率の向上に寄与する。1つの具体例において、モデルのトレーニング段階において第1局所感知モジュールの各第1局所感知分岐で1*1、1*3、3*1、3*3、3*5、5*3および5*5の畳み込みカーネルを採用すると、再パラメータ化後の畳み込み層の畳み込みカーネルのサイズは5*5である。
初期結合感知モデルの結合感知ネットワークが検出ヘッドモジュールを備え、且つ検出ヘッドモジュールに第2マルチパスモジュールが設けられ、第2マルチパスモジュールが第2特徴抽出サブネットワークを備え、第2特徴抽出サブネットワークにおける第2局所感知モジュールが、少なくとも2つの第2局所感知分岐を備えるように構成される場合、マルチ局所感知分岐の方式により、推理段階では、即ち、トレーニングされた初期結合感知モデルを直接用いて予測画像の感知予測結果を確定する時、大量の計算リソースが投入され、推理効率も比較的低い。
推理段階の演算量を減少するとともに推理効率を向上させるために、初期結合感知モデルにおける第2マルチパスモジュールの第2局所感知モジュールを、少ない時間がかかり、演算量が少ない等価モジュールに置き換え、ターゲット結合感知モデルを取得することができる。
1つの好ましい実施例において、ターゲット結合感知モデルは、少なくとも2つの第2局所感知分岐を再パラメータ化することに基づいて得ることができる。即ち、初期結合感知モデルにおける検出ヘッドモジュール内の第2マルチパスモジュールの第2局所感知モジュールにおける少なくとも2つの第2局所感知分岐を再パラメータ化し、再パラメータ化後に得たシングルパス構造で検出ヘッドモジュールの第2マルチパスモジュールにおける第2局所感知モジュールの既存の少なくとも2つの第2局所感知分岐を代替することができる。または、第2マルチパスモジュールの第2局所感知モジュールに第2局所感知分岐および第2バイパス分岐が備えられる場合、初期結合感知モデルにおける検出ヘッドモジュール内の第2マルチパスモジュールの第2局所感知モジュールにおける少なくとも2つの第2局所感知分岐と第2バイパス分岐を共同で再パラメータ化し、再パラメータ化後に得たシングルパス構造で既存の少なくとも2つの第2局所感知分岐と第2バイパス分岐を代替することができる。
なお、再パラメータ化の実行に用いられる計算機器は、結合感知モデルのトレーニング方法を実行する電子機器、結合感知方法を実行する電子機器、または他の機器であってもよく、本開示はこれを何ら限定するものではない。また、本開示は、再パラメータ化の具体的な実行オケージョンについても何ら限定するものではなく、トレーニングで初期結合感知モデルを得た後、ターゲット結合感知モデルを使用する前に確保すれば良い。
初期結合感知モデルにおける結合感知ネットワークの第2マルチパスモジュールを再パラメータ化する方式により、特徴の豊富な抽出を確保するとともに、使用される結合感知モデルにおける結合感知ネットワークの複雑さを低減することができ、第2特徴抽出サブネットワークが入力データを処理して対応する出力結果を取得する推理過程のデータ演算量を減少し、推理効率を向上させることが理解できる。
1つの具体的な実現形態において、まず、結合感知ネットワークの検出ヘッドモジュールにおける第2局所感知分岐における畳み込み層とバッチ処理層とをパラメータ統合し、異なる第2局所感知分岐のパラメータ統合結果を取得し、また、異なる第2局所感知分岐および/または第2バイパス分岐のネットワークパラメータを統合し、最終的な再パラメータ化結果を取得し、最終的な再パラメータ化結果を用いて結合感知ネットワークにおける第2マルチパスモジュールにおける第2特徴抽出サブネットワーク内の第2局所感知モジュールの等価代替構造の設定を行うことができる。
具体的には、以下の式により、第2局所感知モジュールを再パラメータ化することができる。
Figure 2023131117000003
(ただし、Fはi個目の分岐畳み込み層の畳み込みカーネルであり、μおよびσは、i個目の分岐バッチ処理層の平均値および分散であり、γおよびβは、バッチ処理層の基準係数およびシフト係数である。F’およびb’は、再パラメータ化後の畳み込みカーネルおよびバイアス項パラメータである。)
図6Bに示す再パラメータ化前後の第2特徴抽出サブネットワークの模式図を参照し、該第2特徴抽出サブネットワークにおける第2局所感知モジュールは、初期結合感知モデルにおける多分岐の第2局所感知モジュール(図4Eを参照できる)をシングルパス構造に置き換え、且つ、再パラメータ化後の結果のみに基づいて畳み込み層を設定すれば良く、モデル結果は大幅に簡略化され、推理効率の向上に寄与する。1つの具体例において、モデルのトレーニング段階において第2局所感知モジュールの各第2局所感知分岐で1*1、1*3、3*1、3*3、3*5、5*3および5*5の畳み込みカーネルを採用すると、再パラメータ化後の畳み込み層の畳み込みカーネルのサイズは5*5である。
1つの好ましい実施例において、整形量子化(例えば、int8)推理をサポートする機器で、更に、初期結合感知モデルまたは再パラメータ化後の初期結合感知モデルを整形量子化し、推理速度を更に向上させることができる。
第1マルチパスモジュールにおける第1局所感知モジュールの第1バイパス分岐が第1バッチ処理モジュールを備える場合、第1バッチ処理モジュール内の基準分散が大きくなると、再パラメータ化後の等価代替構造における畳み込み層の重み分布が不均一になり、整形量子化を行う効果が悪くなり、推理結果の精度に影響を及ぼす。上記状況の発生を回避するために、1つの好ましい実施例において、第1マルチパスモジュールの第1局所感知モジュールを再パラメータ化する前に、第1バッチ処理モジュールを備える第1バイパス分岐を直接接続構造に置き換えてもよく、これにより、全体的なモデル効果に影響を及ぼさないとともに、再パラメータ化後の畳み込み層の重み分布にも寄与する。
第2マルチパスモジュールのうちの第2局所感知モジュールの第2バイパス分岐が第2バッチ処理モジュールを備える場合、第2バッチ処理モジュール内の基準分散が大きくなると、再パラメータ化後の等価代替構造における畳み込み層の重み分布が不均一になり、整形量子化を行う効果が悪くなり、推理結果の精度に影響を及ぼす。上記状況の発生を回避するために、1つの好ましい実施例において、第2マルチパスモジュールの第2局所感知モジュールを再パラメータ化する前に、第2バッチ処理モジュールを備える第2バイパス分岐を直接接続構造に置き換えてもよく、これにより、全体的なモデル効果に影響を及ぼさないとともに、再パラメータ化後の畳み込み層の重み分布にも寄与する。
上記各結合感知モデルのトレーニング方法の実現として、本開示は、上記各結合感知モデルのトレーニング方法を実行する実行装置の好ましい実施例を更に提供する。更に図7に示す結合感知モデルのトレーニング装置700を参照し、サンプルデータ取得モジュール701、所定のモデル取得モジュール702、特徴抽出ネットワーク703、結合感知ネットワーク704、およびモデルトレーニングモジュール705を備える。ここで、サンプルデータ取得モジュール701は、サンプル画像およびサンプル画像の感知ラベルを取得することに用いられ、
所定のモデル取得モジュール702は、特徴抽出ネットワークおよび結合感知ネットワークを備える所定の結合感知モデルを取得することに用いられ、
特徴抽出ネットワーク703は、サンプル画像に対して特徴抽出を行い、ターゲットサンプル特徴を取得することに用いられ、
結合感知ネットワーク704は、ターゲットサンプル特徴に基づいて結合感知を行い、感知予測結果を取得することに用いられ、
モデルトレーニングモジュール705は、感知予測結果および感知ラベルに基づき、予め構築された結合感知モデルをトレーニングすることに用いられ、結合感知は、少なくとも2種の感知タスクの実行を含む。
1つの好ましい実施例において、特徴抽出ネットワーク703は、ベースモジュールおよび少なくとも2つの第1マルチパスモジュールを備え、
ベースモジュールは、サンプル画像をダウンサンプリングし、異なる基準の初期サンプル特徴を取得することに用いられ、
第1マルチパスモジュールは、初期サンプル特徴に対して異なる感知タスクの特徴抽出を行い、初期サンプル特徴に対応する基準でのターゲットサンプル特徴を取得することに用いられる。
1つの好ましい実施例において、第1マルチパスモジュールは、第1分割サブネットワーク、第1特徴抽出サブネットワークおよび第1融合サブネットワークを備え、
第1分割サブネットワークは、チャネル次元毎に初期サンプル特徴を分割し、第1融合待ちサンプル特徴および第1処理待ちサンプル特徴を取得することに用いられ、
第1特徴抽出サブネットワークは、第1処理待ちサンプル特徴に対して特徴抽出を行い、第1ターゲット中間サンプル特徴を取得することに用いられ、
第1融合サブネットワークは、第1融合待ちサンプル特徴と第1ターゲット中間サンプル特徴とを特徴融合し、初期サンプル特徴に対応する基準でのターゲットサンプル特徴を取得することに用いられる。
1つの好ましい実施例において、第1特徴抽出サブネットワークは、第1全体感知モジュール、第1局所感知モジュールおよび第1感知融合モジュールを備え、
第1全体感知モジュールは、第1処理待ちサンプル特徴に対して全体特徴抽出を行い、第1全体中間サンプル特徴を取得することに用いられ、
第1局所感知モジュールは、第1処理待ちサンプル特徴に対して局所特徴抽出を行い、第1局所中間サンプル特徴を取得することに用いられ、
第1感知融合モジュールは、第1全体中間サンプル特徴と第1局所中間サンプル特徴とを特徴融合し、第1ターゲット中間サンプル特徴を取得することに用いられる。
1つの好ましい実施例において、第1局所感知モジュールは、少なくとも2つの第1局所感知分岐を備え、
各第1局所感知分岐は、異なるレセプティブフィールドで第1処理待ちサンプル特徴に対して局所特徴抽出を行い、対応するレセプティブフィールドでの第1局所中間サンプル特徴を取得することに用いられる。
1つの好ましい実施例において、第1局所感知モジュールは第1バイパス分岐を更に備え、
第1バイパス分岐が直接接続構造である場合、第1バイパス分岐は、第1処理待ちサンプル特徴を直接対応する第1局所中間サンプル特徴とすることに用いられ、または、
第1バイパス分岐に第1バッチ処理モジュールが備えられる場合、第1バイパス分岐は、第1バッチ処理モジュールにより、第1処理待ちサンプル特徴を正規化処理し、対応する第1局所中間サンプル特徴を取得することに用いられる。
1つの好ましい実施例において、結合感知ネットワーク704は検出ヘッドモジュールを備え、
検出ヘッドモジュールは、異なるタスク感知分岐により、ターゲットサンプル特徴を結合感知し、対応する感知タスクの感知予測結果を取得することに用いられる。
1つの好ましい実施例において、検出ヘッドモジュールは、第2マルチパスモジュールおよび少なくとも2つのタスク感知分岐を備え、
第2マルチパスモジュールは、ターゲットサンプル特徴に対して同じカテゴリのターゲットの異なる感知タスクでの特徴抽出を行い、感知サンプル特徴を取得することに用いられ、
各タスク感知分岐は、感知サンプル特徴にそれぞれ基づき、対応する感知タスクでの感知予測結果を確定することに用いられる。
1つの好ましい実施例において、第2マルチパスモジュールは、第2分割サブネットワーク、第2特徴抽出サブネットワークおよび第2融合サブネットワークを備え、
第2分割サブネットワークは、チャネル次元毎にターゲットサンプル特徴を分割し、第2融合待ちサンプル特徴および第2処理待ちサンプル特徴を取得することに用いられ、
第2特徴抽出サブネットワークは、第2処理待ちサンプル特徴に対して特徴抽出を行い、第2ターゲット中間サンプル特徴を取得することに用いられ、
第2融合サブネットワークは、第2融合待ちサンプル特徴と第2ターゲット中間サンプル特徴とを特徴融合し、感知サンプル特徴を取得することに用いられる。
1つの好ましい実施例において、第2特徴抽出サブネットワークは、第2全体感知モジュール、第2局所感知モジュールおよび第2感知融合モジュールを備え、
第2全体感知モジュールは、第2処理待ちサンプル特徴に対して全体特徴抽出を行い、第2全体中間サンプル特徴を取得することに用いられ、
第2局所感知モジュールは、第2処理待ちサンプル特徴に対して局所特徴抽出を行い、第2局所中間サンプル特徴を取得することに用いられ、
第2感知融合モジュールは、第2全体中間サンプル特徴と第2局所中間サンプル特徴とを特徴融合し、第2ターゲット中間サンプル特徴を取得することに用いられる。
1つの好ましい実施例において、第2局所感知モジュールは少なくとも2つの第2局所感知分岐を備え、
各第2局所感知分岐は、異なるレセプティブフィールドで第2処理待ちサンプル特徴に対して局所特徴抽出を行い、対応するレセプティブフィールドでの第2局所中間サンプル特徴を取得することに用いられる。
1つの好ましい実施例において、第2局所感知モジュールは第2バイパス分岐を更に備え、
第2バイパス分岐が直接接続構造である場合、第2バイパス分岐は、第2処理待ちサンプル特徴を直接対応する第2局所中間サンプル特徴とすることに用いられ、または、
第2バイパス分岐に第2バッチ処理モジュールが備えられる場合、第2バイパス分岐は、第2バッチ処理モジュールにより、第2処理待ちサンプル特徴を正規化処理し、対応する第2局所中間サンプル特徴を取得することに用いられる。
1つの好ましい実施例において、検出ヘッドモジュールの数は少なくとも2つであり、異なる検出ヘッドモジュールは、異なるカテゴリのターゲットを結合感知する。
上記結合感知モデルのトレーニング装置は、本開示のいずれかの実施例に係る結合感知モデルのトレーニング方法を実行することができ、各結合感知モデルのトレーニング方法の実行に対応する機能モジュールおよび有益な効果を備える。
上記各結合感知方法の実現として、本開示は、上記各結合感知方法を実施する実行装置の好ましい実施例を更に提供する。更に、図8に示す結合感知装置800を参照し、予測画像取得モジュール801および感知予測モジュール802を備える。ここで、
予測画像取得モジュール801は、予測画像を取得することに用いられ、
感知予測モジュール802は、予測画像をターゲット結合感知モデルに入力し、感知予測結果を取得することに用いられ、ここで、ターゲット結合感知モデルは、本開示の実施例に係るいずれかの結合感知モデルのトレーニング装置でトレーニングされた初期結合感知モデルに基づいて得られる。
1つの好ましい実施例において、ターゲット結合感知モデルは、初期結合感知モデルのネットワークパラメータを整形量子化処理することに基づいて得られる。
1つの好ましい実施例において、初期結合感知モデルは第1マルチパスモジュールを備え、第1マルチパスモジュールは少なくとも2つの第1局所感知分岐を備え、ターゲット結合感知モデルは、少なくとも2つの第1局所感知分岐を再パラメータ化することに基づいて得られ、および/または、
初期結合感知モデルは第2マルチパスモジュールを備え、第2マルチパスモジュールは少なくとも2つの第2局所感知分岐を備え、ターゲット結合感知モデルは、少なくとも2つの第2局所感知分岐を再パラメータ化することに基づいて得られる。
上記結合感知装置は、本開示のいずれかの実施例に係る結合感知方法を実行することができ、各結合感知方法の実行に対応する機能モジュールおよび有益な効果を備える。
本開示の技術案に係るサンプル画像、感知ラベルおよび予測画像等の収集、記憶、使用、加工、伝達、提供、および公開等の処理は、いずれも関連法律法規の規定に該当し、公序良俗に反していない。
本開示の実施例によれば、本開示は、電子機器、可読記憶媒体およびコンピュータプログラムを更に提供する。
図9は、本開示の実施例を実施するために使用可能な例示的な電子機器900の模式的なブロック図を示す。電子機器は、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータのような様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、携帯端末、携帯電話、スマートフォン、ウェアラブル機器および他の類似する計算装置のような様々な形式の移動装置を表すこともできる。本開示に示されたコンポーネント、それらの接続、関係、およびそれらの機能は例示的なものに過ぎず、本開示に記載および/または要求される本開示の実現を限定するものではない。
図9に示すように、機器900は、計算ユニット901を備え、読み出し専用メモリ(ROM)902に記憶されたコンピュータプログラム、または記憶ユニット908からランダムアクセスメモリ(RAM)903にロードされたコンピュータプログラムに基づき、様々な適当な動作および処理を実行することができる。RAM 903には、機器900の操作に必要な様々なプログラムおよびデータが記憶されてもよい。計算ユニット901、ROM 902およびRAM 903は、バス904を介して互いに接続されている。入力/出力(I/O)インタフェース905もバス904に接続されている。
機器900における複数のコンポーネントはI/Oインタフェース905に接続され、キーボード、マウス等のような入力ユニット906と、各種のディスプレイ、スピーカ等のような出力ユニット907と、磁気ディスク、光ディスク等のような記憶ユニット908と、ネットワークカード、モデム、無線通信送受信機等のような通信ユニット909とを備える。通信ユニット909は、機器900がインターネットのようなコンピュータネットワークおよび/または様々な電気通信ネットワークを介して他のデバイスと情報/データを交換することを許容する。
計算ユニット901は、処理および計算能力を有する汎用および/または専用の処理アセンブリであってもよい。計算ユニット901のいくつかの例は、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、各種の専用の人工知能(AI)コンピューティングチップ、各種の機械学習モデルアルゴリズムを実行する計算ユニット、デジタルシグナルプロセッサ(DSP)、および任意の適当なプロセッサ、コントローラ、マイクロコントローラ等を含んでもよいが、これらに限定されない。計算ユニット901は、上記各方法および処理、例えば、結合感知モデルのトレーニング方法および/または結合感知方法を実行する。例えば、いくつかの実施例において、結合感知モデルのトレーニング方法および/または結合感知方法は、コンピュータソフトウェアプログラムとして実現でき、有形的に記憶ユニット908のような機器可読媒体に含まれている。いくつかの実施例において、コンピュータプログラムの一部または全ては、ROM 902および/または通信ユニット909を介して機器900にロードおよび/またはインストールされ得る。コンピュータプログラムがRAM 903にロードされて計算ユニット901により実行されると、上記結合感知モデルのトレーニング方法および/または結合感知方法の1つまたは複数のステップを実行することができる。あるいは、他の実施例において、計算ユニット901は、他の任意の適当な方式(例えば、ファームウェアを介して)により、結合感知モデルのトレーニング方法および/または結合感知方法を実行するように構成され得る。
本開示に記載されたシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準パーツ(ASSP)、システムオンチップのシステム(SOC)、複合プログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現できる。これらの様々な実施形態は以下を含んでもよい。1つまたは複数のコンピュータプログラムに実施され、該1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行および/または解釈することができ、該プログラマブルプロセッサは、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、且つデータおよび命令を、該ストレージシステム、該少なくとも1つの入力装置、および該少なくとも1つの出力装置に伝送することができる専用または汎用のプログラマブルプロセッサであってもよい。
本開示の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語の任意の組み合わせでコードできる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサまたはコントローラに提供でき、これにより、プログラムコードがプロセッサまたはコントローラにより実行されると、フローチャートおよび/またはブロック図で規定された機能/操作が実施される。プログラムコードは、完全に機器で実行されてもよいし、一部が機器で実行されてもよいし、独立したソフトウェアパッケージとして一部が機器で実行されて一部がリモート機器で実行されてもよいし、完全にリモート機器またはサーバで実行されてもよい。
本開示の明細書において、機器可読媒体は、命令実行システム、装置またはデバイスに使用される、または命令実行システム、装置またはデバイスと合わせて使用されるプログラムを含有または記憶できる有形的な媒体であってもよい。機器可読媒体は、機器可読信号媒体または機器可読記憶媒体であってもよい。機器可読媒体は、電子の、磁気の、光の、電磁気の、赤外線の、または半導体のシステム、装置またはデバイス、または上記内容の任意の適当な組み合わせを含んでもよいが、これらに限定されない。機器可読記憶媒体の更なる具体的な例は、1つまたは複数の線による電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み出し専用ディスク(CD-ROM)、光記憶デバイス、磁気記憶デバイス、または上記内容の任意の適当な組み合わせを含む。
ユーザとのインタラクションを提供するために、ここで説明するシステムおよび技術をコンピュータで実施することができ、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、ユーザがそれにより入力をコンピュータに提供することができるキーボードおよび指向装置(例えば、マウスまたはトラックボール)とを有する。他の種類の装置は、更にユーザとのインタラクションを提供するために使用できる。例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、且つ、任意の形式(音入力、音声入力または、触覚入力を含む)でユーザからの入力を受信することができる。
ここで説明するシステムおよび技術を、バックグラウンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、または中間コンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、またはフロントエンドコンポーネントを含むコンピューティングシステム(例えば、ユーザがそれによりここで説明するシステムおよび技術の実施形態とインタラクションできるグラフィカルユーザインタフェースまたはネットワークブラウザを有するユーザコンピュータ)、またはこのようなバックグラウンドコンポーネント、中間コンポーネント、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムに実施することができる。任意の形式または媒体のデジタルデータ通信(例えば、通信ネットワーク)により、システムのコンポーネントを互に接続することができる。通信ネットワークの例は、局所エリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、およびインターネットを含む。
コンピューティングシステムはクライアントおよびサーバを含んでもよい。クライアントとサーバとは、一般的に互いに離れ、且つ、通常、通信ネットワークを介してインタラクションを行う。対応するコンピュータで実行されて互いにクライアント-サーバ関係を持つコンピュータプログラムにより、クライアントとサーバとの関係を生成する。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービス体系における1つのホスト製品であり、従来の物理ホストおよびVPSサービスに存在する管理しにくく、トラフィックの拡張性が弱いという欠陥を解決するために使用される。サーバは、分散型システムのサーバであってもよいし、ブロックチェーンを組み合わせたサーバであってもよい。
人工知能は、研究でコンピュータに人間のある思考過程および知能行動(例えば、学習、推理、思考、計画等)をシミュレートさせる学科であり、ハードウェアの面の技術があるとともに、ソフトウェアの面の技術もある。人工知能のハードウェア技術は、一般的に、センサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理等のような技術を含み、人工知能のソフトウェア技術は、主にコンピュータ視覚技術、音声識別技術、自然言語処理技術と機械学習/深層学習技術、ビッグデータ処理技術、ナレッジグラフ技術等のいくつかの方向を含む。
上記に示す様々な形式のフローを用い、ステップを並べ替え、追加または削除することができることを理解すべきである。例えば、本開示に記載された各ステップは、並列に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本開示に係る技術案の所望する結果を達成できる限り、本開示はここで限定しない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者は、設計要求および他の要因に基づき、様々な修正、組み合わせ、サブ組み合わせおよび代替が可能であることを理解すべできる。本開示の精神および原則内で行われる任意の修正、均等置換および改良等は、いずれも本開示の保護範囲内に含まれているべきである。

Claims (19)

  1. サンプル画像および前記サンプル画像の感知ラベルを取得することと、
    特徴抽出ネットワークおよび結合感知ネットワークを備える所定の結合感知モデルを取得することと、
    前記特徴抽出ネットワークを介して前記サンプル画像に対して特徴抽出を行い、ターゲットサンプル特徴を取得することと、
    前記結合感知ネットワークを介して前記ターゲットサンプル特徴に基づいて結合感知を行い、感知予測結果を取得することと、
    前記感知予測結果および前記感知ラベルに基づき、所定の結合感知モデルをトレーニングすることと、を含み、
    前記結合感知は、少なくとも2種の感知タスクの実行を含む、
    結合感知モデルのトレーニング方法。
  2. 前記特徴抽出ネットワークは、ベースモジュールおよび少なくとも2つの第1マルチパスモジュールを備え、
    前記特徴抽出ネットワークを介して前記サンプル画像に対して特徴抽出を行い、ターゲットサンプル特徴を取得することは、
    前記ベースモジュールにより、前記サンプル画像をダウンサンプリングし、異なる基準の初期サンプル特徴を取得することと、
    前記第1マルチパスモジュールにより、前記初期サンプル特徴に対して異なる感知タスクの特徴抽出を行い、前記初期サンプル特徴に対応する基準でのターゲットサンプル特徴を取得することと、を含む、
    請求項1に記載の方法。
  3. 前記第1マルチパスモジュールは、第1分割サブネットワーク、第1特徴抽出サブネットワークおよび第1融合サブネットワークを備え、
    前記第1マルチパスモジュールにより、前記初期サンプル特徴に対して異なる感知タスクの特徴抽出を行い、前記初期サンプル特徴に対応する基準でのターゲットサンプル特徴を取得することは、
    前記第1分割サブネットワークを介してチャネル次元毎に前記初期サンプル特徴を分割し、第1融合待ちサンプル特徴および第1処理待ちサンプル特徴を取得することと、
    前記第1特徴抽出サブネットワークを介して前記第1処理待ちサンプル特徴に対して特徴抽出を行い、第1ターゲット中間サンプル特徴を取得することと、
    前記第1融合サブネットワークを介して前記第1融合待ちサンプル特徴と前記第1ターゲット中間サンプル特徴とを特徴融合し、前記初期サンプル特徴に対応する基準でのターゲットサンプル特徴を取得することと、を含む、
    請求項2に記載の方法。
  4. 前記第1特徴抽出サブネットワークは、第1全体感知モジュール、第1局所感知モジュールおよび第1感知融合モジュールを備え、
    前記第1特徴抽出サブネットワークを介して前記第1処理待ちサンプル特徴に対して特徴抽出を行い、第1ターゲット中間サンプル特徴を取得することは、
    前記第1全体感知モジュールにより、前記第1処理待ちサンプル特徴に対して全体特徴抽出を行い、第1全体中間サンプル特徴を取得することと、
    前記第1局所感知モジュールにより、前記第1処理待ちサンプル特徴に対して局所特徴抽出を行い、第1局所中間サンプル特徴を取得することと、
    前記第1感知融合モジュールにより、前記第1全体中間サンプル特徴と前記第1局所中間サンプル特徴とを特徴融合し、前記第1ターゲット中間サンプル特徴を取得することと、を含む、
    請求項3に記載の方法。
  5. 前記第1局所感知モジュールは、少なくとも2つの第1局所感知分岐を備え、
    前記第1局所感知モジュールにより、前記第1処理待ちサンプル特徴に対して局所特徴抽出を行い、第1局所中間サンプル特徴を取得することは、
    異なる第1局所感知分岐により、異なるレセプティブフィールドで前記第1処理待ちサンプル特徴に対して局所特徴抽出を行い、対応するレセプティブフィールドでの第1局所中間サンプル特徴を取得することを含む、
    請求項4に記載の方法。
  6. 前記第1局所感知モジュールは、第1バイパス分岐を更に備え、
    前記第1局所感知モジュールにより、前記第1処理待ちサンプル特徴に対して局所特徴抽出を行い、第1局所中間サンプル特徴を取得することは、
    前記第1バイパス分岐が直接接続構造である場合、前記第1処理待ちサンプル特徴を直接対応する第1局所中間サンプル特徴とすること、または、
    前記第1バイパス分岐に第1バッチ処理モジュールが備えられる場合、前記第1バッチ処理モジュールにより、前記第1処理待ちサンプル特徴を正規化処理し、対応する第1局所中間サンプル特徴を取得すること、を更に含む、
    請求項5に記載の方法。
  7. 前記結合感知ネットワークは、検出ヘッドモジュールを備え、
    前記結合感知ネットワークを介して前記ターゲットサンプル特徴に基づいて結合感知を行い、感知予測結果を取得することは、
    前記検出ヘッドモジュールにおける異なるタスク感知分岐により、前記ターゲットサンプル特徴を結合感知し、対応する感知タスクの感知予測結果を取得することを含む、
    請求項1に記載の方法。
  8. 前記検出ヘッドモジュールは、第2マルチパスモジュールおよび少なくとも2つのタスク感知分岐を備え、
    前記検出ヘッドモジュールにおける異なるタスク感知分岐により、前記ターゲットサンプル特徴を結合感知し、対応する感知タスクの感知予測結果を取得することは、
    前記第2マルチパスモジュールにより、前記ターゲットサンプル特徴に対して同じカテゴリのターゲットの異なる感知タスクでの特徴抽出を行い、感知サンプル特徴を取得することと、
    各タスク感知分岐により、前記感知サンプル特徴にそれぞれ基づき、対応する感知タスクでの感知予測結果を確定することと、を含む、
    請求項7に記載の方法。
  9. 前記第2マルチパスモジュールは、第2分割サブネットワーク、第2特徴抽出サブネットワークおよび第2融合サブネットワークを備え、
    前記第2マルチパスモジュールにより、前記ターゲットサンプル特徴に対して同じカテゴリのターゲットの異なる感知タスクでの特徴抽出を行い、感知サンプル特徴を取得することは、
    前記第2分割サブネットワークを介してチャネル次元毎に前記ターゲットサンプル特徴を分割し、第2融合待ちサンプル特徴および第2処理待ちサンプル特徴を取得することと、
    前記第2特徴抽出サブネットワークを介して前記第2処理待ちサンプル特徴に対して特徴抽出を行い、第2ターゲット中間サンプル特徴を取得することと、
    前記第2融合サブネットワークを介して前記第2融合待ちサンプル特徴と前記第2ターゲット中間サンプル特徴とを特徴融合し、前記感知サンプル特徴を取得することと、を含む、
    請求項8に記載の方法。
  10. 前記第2特徴抽出サブネットワークは、第2全体感知モジュール、第2局所感知モジュールおよび第2感知融合モジュールを備え、
    前記第2特徴抽出サブネットワークを介して前記第2処理待ちサンプル特徴に対して特徴抽出を行い、第2ターゲット中間サンプル特徴を取得することは、
    前記第2全体感知モジュールにより、前記第2処理待ちサンプル特徴に対して全体特徴抽出を行い、第2全体中間サンプル特徴を取得することと、
    前記第2局所感知モジュールにより、前記第2処理待ちサンプル特徴に対して局所特徴抽出を行い、第2局所中間サンプル特徴を取得することと、
    前記第2感知融合モジュールにより、前記第2全体中間サンプル特徴と前記第2局所中間サンプル特徴とを特徴融合し、前記第2ターゲット中間サンプル特徴を取得することと、を含む、
    請求項9に記載の方法。
  11. 前記第2局所感知モジュールは、少なくとも2つの第2局所感知分岐を備え、
    前記第2局所感知モジュールにより、前記第2処理待ちサンプル特徴に対して局所特徴抽出を行い、第2局所中間サンプル特徴を取得することは、
    異なる第2局所感知分岐により、異なるレセプティブフィールドで前記第2処理待ちサンプル特徴に対して局所特徴抽出を行い、対応するレセプティブフィールドでの第2局所中間サンプル特徴を取得することを含む、
    請求項10に記載の方法。
  12. 前記第2局所感知モジュールは、第2バイパス分岐を更に備え、
    前記第2局所感知モジュールにより、前記第2処理待ちサンプル特徴に対して局所特徴抽出を行い、第2局所中間サンプル特徴を取得することは、
    前記第2バイパス分岐が直接接続構造である場合、前記第2処理待ちサンプル特徴を直接対応する第2局所中間サンプル特徴とすること、または、
    前記第2バイパス分岐に第2バッチ処理モジュールが備えられる場合、前記第2バッチ処理モジュールにより、前記第2処理待ちサンプル特徴を正規化処理し、対応する第2局所中間サンプル特徴を取得すること、を更に含む、
    請求項11に記載の方法。
  13. 前記検出ヘッドモジュールの数は、少なくとも2つであり、
    異なる検出ヘッドモジュールは、異なるカテゴリのターゲットを結合感知する、
    請求項7に記載の方法。
  14. 予測画像を取得することと、
    前記予測画像をターゲット結合感知モデルに入力し、感知予測結果を取得することと、を含み、
    前記ターゲット結合感知モデルは、請求項1に記載の結合感知モデルのトレーニング方法でトレーニングされた初期結合感知モデルに基づいて得られる、
    結合感知方法。
  15. 前記ターゲット結合感知モデルは、前記初期結合感知モデルのネットワークパラメータを整形量子化処理することに基づいて得られる、
    請求項14に記載の方法。
  16. 前記初期結合感知モデルは第1マルチパスモジュールを備え、前記第1マルチパスモジュールは少なくとも2つの第1局所感知分岐を備え、前記ターゲット結合感知モデルは、少なくとも2つの前記第1局所感知分岐を再パラメータ化することに基づいて得られ、および/または、
    前記初期結合感知モデルは第2マルチパスモジュールを備え、前記第2マルチパスモジュールは少なくとも2つの第2局所感知分岐を備え、前記ターゲット結合感知モデルは、少なくとも2つの前記第2局所感知分岐を再パラメータ化することに基づいて得られる、
    請求項14に記載の方法。
  17. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信接続されたメモリと、を備える電子機器であって、
    前記メモリに、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、
    前記命令は、前記少なくとも1つのプロセッサが請求項1から13のいずれか1項に記載の結合感知モデルのトレーニング方法および/または請求項14から16のいずれか1項に記載の結合感知方法を実行可能であるように、前記少なくとも1つのプロセッサにより実行される、
    電子機器。
  18. コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
    前記コンピュータ命令は、請求項1から13のいずれか1項に記載の結合感知モデルのトレーニング方法および/または請求項14から16のいずれか1項に記載の結合感知方法をコンピュータに実行させることに用いられる、
    非一時的なコンピュータ可読記憶媒体。
  19. プロセッサにより実行されると、請求項1から13のいずれか1項に記載の結合感知モデルのトレーニング方法のステップおよび/または請求項14から16のいずれか1項に記載の結合感知方法のステップを実現する、
    コンピュータプログラム。
JP2023018251A 2022-03-08 2023-02-09 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体 Pending JP2023131117A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210218587.8 2022-03-08
CN202210218587.8A CN114332590B (zh) 2022-03-08 2022-03-08 联合感知模型训练、联合感知方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
JP2023131117A true JP2023131117A (ja) 2023-09-21

Family

ID=81033009

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023018251A Pending JP2023131117A (ja) 2022-03-08 2023-02-09 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体

Country Status (4)

Country Link
US (1) US20230289402A1 (ja)
JP (1) JP2023131117A (ja)
KR (1) KR20230132350A (ja)
CN (2) CN114912629A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115170819A (zh) * 2022-07-21 2022-10-11 北京百度网讯科技有限公司 目标识别方法及装置、电子设备和介质
CN115907009B (zh) * 2023-02-10 2023-05-26 北京百度网讯科技有限公司 一种自动驾驶感知模型的迁移方法、装置、设备和介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108657B (zh) * 2017-11-16 2020-10-30 浙江工业大学 基于多任务深度学习的修正局部敏感哈希车辆检索方法
CN108985269B (zh) * 2018-08-16 2022-06-10 东南大学 基于卷积和空洞卷积结构的融合网络驾驶环境感知模型
US11462112B2 (en) * 2019-03-07 2022-10-04 Nec Corporation Multi-task perception network with applications to scene understanding and advanced driver-assistance system
CN110427827A (zh) * 2019-07-08 2019-11-08 辽宁工程技术大学 一种多尺度感知及全局规划下的自主驾驶网络
CN111242176B (zh) * 2019-12-31 2023-10-13 北京迈格威科技有限公司 计算机视觉任务的处理方法、装置及电子***
US20210276587A1 (en) * 2020-03-05 2021-09-09 Uber Technologies, Inc. Systems and Methods for Autonomous Vehicle Systems Simulation

Also Published As

Publication number Publication date
CN114332590A (zh) 2022-04-12
CN114912629A (zh) 2022-08-16
CN114332590B (zh) 2022-06-17
KR20230132350A (ko) 2023-09-15
US20230289402A1 (en) 2023-09-14

Similar Documents

Publication Publication Date Title
US11551333B2 (en) Image reconstruction method and device
CN107945204B (zh) 一种基于生成对抗网络的像素级人像抠图方法
CN111275784B (zh) 生成图像的方法和装置
JP2023131117A (ja) 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体
CN114049381A (zh) 一种融合多层语义信息的孪生交叉目标跟踪方法
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN113411550B (zh) 视频上色方法、装置、设备及存储介质
CN111652181A (zh) 目标跟踪方法、装置及电子设备
CN110807379A (zh) 一种语义识别方法、装置、以及计算机存储介质
CN112668638A (zh) 一种图像美学质量评估和语义识别联合分类方法及***
WO2023184817A1 (zh) 图像处理方法、装置、计算机设备、计算机可读存储介质及计算机程序产品
CN116310318A (zh) 交互式的图像分割方法、装置、计算机设备和存储介质
CN111914809B (zh) 目标对象定位方法、图像处理方法、装置和计算机设备
CN114764870A (zh) 对象定位模型处理、对象定位方法、装置及计算机设备
CN113886510A (zh) 一种终端交互方法、装置、设备及存储介质
CN113569855A (zh) 一种舌象分割方法、设备及存储介质
CN117094362A (zh) 一种任务处理方法及相关装置
CN115439726B (zh) 一种图像检测方法、装置、设备及存储介质
CN116977265A (zh) 缺陷检测模型的训练方法、装置、计算机设备和存储介质
CN116958033A (zh) 异常检测方法、模型训练方法、装置、设备和介质
CN112862840B (zh) 图像分割方法、装置、设备及介质
CN115457365A (zh) 一种模型的解释方法、装置、电子设备及存储介质
CN115222578A (zh) 图像风格迁移方法、程序产品、存储介质及电子设备
CN111179283A (zh) 图像语义分割方法及装置、存储介质
CN114064973B (zh) 视频新闻分类模型建立方法、分类方法、装置及设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240206