JP2016045943A - シーンの取得画像を意味的にラベル付けする方法 - Google Patents

シーンの取得画像を意味的にラベル付けする方法 Download PDF

Info

Publication number
JP2016045943A
JP2016045943A JP2015149661A JP2015149661A JP2016045943A JP 2016045943 A JP2016045943 A JP 2016045943A JP 2015149661 A JP2015149661 A JP 2015149661A JP 2015149661 A JP2015149661 A JP 2015149661A JP 2016045943 A JP2016045943 A JP 2016045943A
Authority
JP
Japan
Prior art keywords
features
local
image
semantic
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015149661A
Other languages
English (en)
Other versions
JP6395158B2 (ja
JP2016045943A5 (ja
Inventor
オンセル・チュゼル
Oncel Tuzel
ミン−ユ・リウ
Ming-Yu Liu
アビシェク・シャーマ
Sharma Abhishek
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2016045943A publication Critical patent/JP2016045943A/ja
Publication of JP2016045943A5 publication Critical patent/JP2016045943A5/ja
Application granted granted Critical
Publication of JP6395158B2 publication Critical patent/JP6395158B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/759Region-based matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

【課題】画像内の各ローカル領域のローカル意味特徴を得ることによってシーンの取得画像を意味的にラベル付けする。【解決手段】全体画像220の意味特徴が得られるまで、ローカル意味特徴201、202、203を再帰的に結合して、中間セグメント210を形成する。次に、各ローカル領域241、242、243の強化された意味特徴が得られるまで、全体画像の意味特徴を中間セグメント230に再帰的に結合解除する。次に、強化された意味特徴に従って各ローカル領域をラベル付けする。【選択図】図2

Description

本発明は、包括的には画像処理に関し、より詳細には、画像を意味的にラベル付けすることに関する。
意味的ラベル付け(semantic labeling)は、木、道路、空、水及び前景物体等の意味概念の観点から取得画像のピクセルごとのラベルを生成するタスクである。意味的ラベル付け問題は、取得画像を表す2Dピクセル格子上に配列された1組の複数のノード(a set of nodes)を、それらの対応する意味概念にマッピングする問題として系統立てることができる。
意味的ラベル付けは、2ステッププロセス、すなわち、1)特徴抽出、及び2)推測により達成することができる。特徴抽出は、様々な照明及び視点の下で意味的ラベル付けに有用な記述的情報を索出する。通常、特徴は、色、テクスチャ又は勾配である。特徴は、各ピクセルの周囲のローカルパッチから抽出することができる。推測は、抽出された特徴を用いてピクセルのラベルを予測する。空、水、木又は草等の単純な意味概念であっても、それらの外観が多様性に富んでいることから、自動的な意味的ラベル付けが困難になる。
意味的ラベル付けは、推測のために、モデルベースの方法又はノンパラメトリック法を用いることができる。モデルベースの方法は、パラメトリックモデルを用いて意味カテゴリの外観及びカテゴリ間の関係を学習する。条件付き確率場(CRF:conditional random fields)を用いて、スーパーピクセルから抽出された視覚特徴を通じて策定される1変数ポテンシャルを、近傍の制約と結合することができる。様々なCRFモデル間の差は主に、視覚特徴、1変数ポテンシャル及びCRFの構造に関するものである。
ノンパラメトリック法は、予めラベル付けされた画像データベースから、取得画像に類似した画像を見つける。次に、見つかった画像のピクセルラベルを、ピクセルの類似度に従って取得画像にコピーする。自然のシーンの画像では変動が大きいため、妥当なサイズのデータベースを用いて概念変動空間全体をカバーすることは困難であり、これにより正確度が制限される。その一方で、大きなデータベースは長い索出時間を必要とし、これによってこれらの方法の拡張性が制限される。
特許文献1では、ラベル付けされた空中画像内のピクセルのラベルがピクセルの真のラベルと異なる予測事後確率項を含む目的関数を最小化することによってピクセルが物体クラスに属する確率を予測するようにニューラルネットワークがトレーニングされる。そのネットワークは、情報を一切伝播することなくピクセルごとの分類を実行するのみである。
特許文献2は、エッジ重み及びピクセルベースのカラーポテンシャルを用いて画像をラベル付けするマルチラベル画像のセグメンテーション方法を記載している。その方法は、最適化問題を解き、ポテンシャル関数の最大値を選択することによってラベル付けを行うが、これによってその方法は低速になる。
特許文献3は、組織画像を処理するための学習に基づくセグメンテーション及びラベル付けの枠組みを記載している。画像内の全てのピクセルについて、ラベルごとの分類関数が評価される。関数は、様々なピクセルから生じる特徴に対し別個に演算を行い、コンテキスト情報を用いない。
米国特許出願公開第2013/0343641号 米国特許第7,460,709号 米国特許第8,170,330号
本発明の実施形態は、シーンの取得された入力画像を意味的にラベル付けする方法を提供する。本方法は、再帰的コンテキスト伝播を用いる。ローカル領域、例えば入力画像内の1つ又は複数のピクセル又はスーパーピクセルが、画像から抽出したローカル特徴に従って分類される。ローカル特徴はローカル意味特徴にマッピングされる。この後、全体画像の単一の意味特徴が得られるまで、ローカル意味特徴に関する情報を再帰的に結合して中間セグメントを形成する。次に、全てのローカル領域の強化された意味特徴が得られるまで、結合の逆の順序で全体画像の意味特徴を再帰的に結合解除して、中間セグメントの強化された意味特徴を得る。強化された意味特徴は、ローカル情報に加えて、全体画像からのコンテキスト情報を含む。したがって、強化された意味特徴はより記述的である。次に、これらの強化された意味特徴に従ってローカル領域を分類及びラベル付けすることができる。
意味的ラベル付けは、入力画像I内のピクセルからラベルYへのマッピングとしてモデル化される。マッピングは以下の利点を有する。マッピングは高速に評価される。マッピングは、全ての領域が画像内の全ての他の領域のラベルに影響を与えるように画像全体の意味コンテキストを捕捉する。マッピングは様々な画像サイズに容易にスケーリングされ、マッピングパラメーターはトレーニング画像から学習することができる。
マッピングは、ノードのネットワークを用いて行われる。ここで、ネットワークの容量はパラメーター共有を通じて制御される。全てのネットワークパラメーターはトレーニングデータから学習され、ネットワーク構造は非常に高速な推測を可能にする。ネットワークは、ローカル特徴抽出及び再帰的なコンテキスト伝播のために用いることができる。
本発明の実施形態に従ってラベル付けされる例示的な入力画像である。 本発明の実施形態によるネットワークの概略図である。 本発明の実施形態による、ローカル特徴を得るためのローカル特徴抽出の概略図である。 本発明の実施形態による、再帰的なコンテキスト伝播ネットワークの概略図である。 本発明の実施形態による、画像をラベル付けする方法の流れ図である。
本発明の実施形態は、画像から抽出されたピクセル特徴に基づいて、シーンの取得された入力画像を意味的にラベル付けする方法を提供する。本方法は、再帰的コンテキスト伝播を用いる。
図1に示すように、取得画像100の全てのピクセルは意味概念の観点からラベル付けされる。空101、水102、ドック103、船104及び木105を含む幾つかの例示的なピクセル及びそれらの意味ラベルが示されている。
図2は、本発明の実施形態の概念を説明している。再帰的コンテキスト伝播のために取得画像100のパースツリー(parse tree)200が用いられる。パースツリー内のノードは、取得画像のセグメントの意味特徴を表す。このため、セグメントの結合250及び結合解除260は、セグメントの意味特徴に関する情報の結合及び結合解除に対応する。全体画像220について意味特徴が得られるまで、ローカル意味特徴201、202、203を再帰的に結合して中間セグメント210を形成する。全てのローカル領域241、242、243について強化された意味特徴が得られるまで、全体画像220の意味特徴を結合解除して、中間セグメント230の強化された意味特徴を形成する。次に、ローカルセグメントは、それらの強化された意味特徴を用いてラベル付けすることができる。強化された意味特徴は、画像全体からのローカル情報及びコンテキスト情報の双方を含む。
Socher他,「Parsing natural scenes and natural language with recursive neural」, ICML, 129-136, 2011は、意味的マッピングと呼ばれる、特徴空間から意味空間への非線形マッピングを学習する再帰構造について記載している。再帰構造は、トレーニング画像のグランドトゥルース・パース・ツリー(ground-truth parse trees)における予測コストを最適化することによって学習される。分類器は、トレーニング画像からの個々のローカル特徴の意味的マッピングにおいて学習される。試験時に、個々のローカル特徴が、学習された意味的マッピングを用いて意味空間に投影され、その後分類される。したがって、個々の特徴に含まれるローカル情報のみがラベル付けに用いられる。
対照的に、本発明では、ローカル領域からのコンテキスト情報を全体画像についてのグローバル情報に再帰的に伝播し、次に、グローバル情報をローカル領域に戻して拡散する(disseminate)。これによって、ローカル領域はラベル付けに用いるためにローカル情報及びコンテキスト情報の双方を有する。
ネットワーク及び関数
以下において、用語「ネットワーク」及び「関数」は交換可能に用いられる。すなわち、ネットワークは関数Fとして実装することができ、関数は、図に示すようにネットワークとして図式的に表すことができる。
図3Aは、本発明の実施形態による、ローカル特徴を得るための、ローカル領域内のピクセルからの特徴抽出を示している。ローカル領域は、1つ又は複数のピクセル又はスーパーピクセルとすることができる。入力画像I100はマルチスケール畳み込みニューラルネットワーク(FCNN)310に供給され、FCNN310はピクセルごとにローカル特徴Vを抽出する。本発明では、スーパーピクセルモザイク細工(superpixel tessellation)を用いて、同じスーパーピクセル、例えばv、v及びv内でピクセルごとのローカル特徴を合算及び平均化する(320)。
ローカル特徴抽出
ローカル特徴抽出のためにマルチスケール畳み込みニューラルネットワーク(Multi−CNN:multi scale convolutional neural network)を用いる。Farabet他によって「Learning hierarchical features for scene labeling」IEEE TPAMI, August 2013において記載されているように、Multi−CNNは、以下のように編成される畳み込み段階を有する。
Figure 2016045943
各畳込み後に、ReLU(ReLU:Rectified Linear Unit(修正された線形ユニット))のアクティブ化関数を適用する。Farabetと異なり、0と1との間で画像をスケーリングし、0.5を減算することによってセンタリングすること以外に入力画像を事前処理しない。
ガウスピラミッドの3つのスケールで入力画像にフィルターを適用する。より低いスケールにおける特徴マップは、最も高いスケールにおける特徴マップのサイズまで空間的にスケールアップされ、ピクセルごとに256×3=768個の次元特徴を得るために連結される。これらの特徴は、分類のためにSoftmax関数に供給される。Softmax関数は、実数値の長さDのベクトルを0.0と1.0との間の実数値の長さDのベクトルにマッピングするロジスティック関数の一般化である。これについては、Bridle「Training Stochastic Model Recognition Algorithms as Networks can lead to Maximum Mutual Information Estimation of Parameters」Advances in Neural Information Processing, pp. 211-217, 1990を参照されたい。トレーニング後に、最終的なSoftmax層を破棄し、768個の次元特徴をローカル特徴として保持する。768個の次元連結出力特徴マップは、最大値プーリング演算に起因して、依然として入力画像の高さ及び幅の1/4であることに留意されたい。入力画像の大きさのピクセルごとの特徴マップを得るために、4×4のグリッドにおいて1つのピクセル分入力画像をシフトして16個の出力特徴マップを得て、これらを組み合わせて最大解像度画像を得るか、又は各特徴マップの高さ及び幅を4倍にスケールアップする。
スーパーピクセル表現
図3Aに示す本方法の複雑度を低減するために、スーパーピクセルセグメンテーション手順を用いる。この手順は、画像あたり所望数(K個)のスーパーピクセルを提供する。例えば、K=100である。この手順は、ペアワイズの色類似度及びスーパーピクセルサイズ制約を用いて、概ね同様なサイズの一様なスーパーピクセルを生成する。各スーパーピクセル内のローカル特徴を平均化し、スーパーピクセルごとに1つずつ、i=1,...,Kについて{v}個のローカル特徴を得る。
再帰的コンテキスト伝播
図3Bに示すように、再帰的なコンテキスト伝播ネットワーク(rCPN:recursive context propagation network)350は以下を含む。
semがローカル領域(ピクセル又はスーパーピクセル)特徴をローカル意味特徴にマッピングする。
全体画像の意味特徴が得られるまで、Fcomがローカル意味特徴を再帰的に結合し、中間セグメントを形成する。
全てのローカル領域について強化された意味特徴が得られるまで、Fdecが全体画像の意味特徴を再帰的に結合解除(拡散)し、中間セグメントの強化した意味特徴にする。
labが、強化した意味特徴を用いてローカル領域を分類し、ラベル付けする。
例えば図3Bにおいて、x及びxはそれぞれ、ピクセル特徴v及びvから取り出した1つの意味特徴を表し、x12は、x及びxから取り出した、結合された中間意味特徴を表し、
Figure 2016045943
は強化された意味特徴を表す。再帰的な結合250及び結合解除260に起因して、
Figure 2016045943
はx、x12、x123及び
Figure 2016045943
から導出されることに留意されたい。
パースツリー(parse tree)合成
トレーニング及び推測のために、ネットワークを通じて情報を伝播するのに用いられるバイナリパースツリーは、画像から合成される。単一ノードから開始して、サブツリーを結合することによってツリーを合成する凝縮クラスタリング手順を用いる。ここで、結合は画像近傍情報に基づいて行われる。複雑度を低減しかつ解の劣化を回避するために、合成手順は平衡パースツリーを優先する。これは、ランダム化を用いて、より低い高さを有するサブツリーを貪欲に選択することによって達成することができる。パースツリーは、画像全体にわたってコンテキスト情報を伝播するためのツールでしかなく、すなわち、パースツリーは従来技術のように画像の正確な階層的セグメンテーションを表す必要がないことに留意されたい。
1つの実施形態では、取得画像の一部分の意味的ラベル付けが行われる。ここで、そのような部分は、ユーザーによって画像編集ツールを介して指定することもできるし、他のセンサーモダリティーを用いて計算することもできる。このシナリオの下で、パースツリーは取得画像の一部分を表すのみでよい。
意味的マッピングネットワーク
意味的ネットワークFsemは、次式に示すように、ローカル特徴をdsem次元ローカル意味特徴にマッピングする。
Figure 2016045943
ここで、θsemは意味パラメーターである。意味特徴の目的は、ローカル特徴及び意味コンテキストの共同表現を取得し、この情報を他のスーパーピクセルに伝播することである。
結合器ネットワーク
結合器ネットワークFcomは、次式に示すように、2つの子ノード(スーパーピクセル)の意味特徴を再帰的に結合し、親ノードの意味特徴を得る。
Figure 2016045943
ここで、θcomは、ルートノード(root node)の意味特徴が画像全体の意味特徴に対応するまでの結合パラメーターである。
結合解除器ネットワーク
結合解除器ネットワークFdecは、次式に示すように、子ノード及びその親ノードの意味特徴を子ノードのコンテキストが強化された特徴にマッピングすることによって、全体画像の意味特徴を再帰的に拡散する。
Figure 2016045943
ここで、θdecは結合解除パラメーターである。
本発明では、全体画像の意味特徴から開始し、ローカル領域に達するまで結合解除器ネットワークをトップダウンで再帰的に適用するので、全ての強化されたローカル特徴が全体画像から集約されたコンテキスト情報を含むことが予期される。したがって、ローカル領域は画像内の全ての他のローカル領域によって影響される。
ラベラーネットワーク
ラベラーネットワークFlabは、次式に示すように、各ローカル領域の強化された意味特徴
Figure 2016045943
を意味ラベルにマッピングする。
Figure 2016045943
ここで、θlabはラベル付けパラメーターである。強化された意味特徴は、ローカル情報及びコンテキスト情報の双方を含む。
ラベル付け方法
図4は、シーンの取得画像401を意味的にラベル付けする方法を示している。画像内のローカル領域内のピクセルからピクセル特徴を抽出する(410)ことによってローカル特徴411が得られる。ローカル特徴を意味空間に意味的にマッピングする(415)ことによってローカル意味特徴416が得られる。全体画像の意味特徴421が得られるまで、ローカル意味特徴を再帰的に結合して(420)、中間セグメントを形成する。全体画像の意味特徴を結合解除して(430)中間セグメントにし、ローカル意味特徴及びコンテキストに基づく各領域の強化された意味特徴431を得る。次に、強化された意味特徴に従って、各ローカル領域を、ラベル441を用いてラベル付けする(440)。
1つの実施形態では、rCPNにおける全ての個々のネットワーク、すなわちFsem、Fcom、Fdec及びFlabが、ReLU非線形性を用いて1層ニューラルネットワークを用いて実施される。
全てのネットワーク及び関数、並びに本明細書において記載される方法ステップは、当該技術分野において既知の、バスによってメモリ及び入/出力インターフェースに接続されたプロセッサにおいて実施することができる。
サイド情報
サイド情報は、ネットワーク内の任意のノードに追加することができる。サイド情報を用いて、ノードに関する静的(非再帰的)知識を符号化することができる。サイド情報は伝播されない。1つの実施形態において、サイド情報は、ノードのロケーション及びノードのサイズの平均である。
トレーニング
rCPN350及びFCNN310は、トレーニング画像を用いて共同でトレーニングすることができる。しかしながら、再帰により、ネットワークの深さが、共同トレーニングを効果的に行うには深すぎるようになる。したがって、まず入力画像及びグランドトゥルースセグメンテーションラベル(ground truth segmentation labels)を用いて、FCNN310のパラメーターθCNNを学習する。FCNNがトレーニングされた後、ローカル特徴を得て、パラメーター
Figure 2016045943
をトレーニングし、ローカル領域のグランドラベルを推測する。
特徴抽出器FCNNを、グラフィック処理ユニット(GPU:graphics processing unit)を用いてトレーニングすることができる。過剰適合を回避するために、本発明ではデータ拡張及びドロップアウトを用いた。全てのトレーニング画像はミラーリングされ、トレーニング画像数の2倍の画像が得られる。また、トレーニング画像を1ピクセル分シフトし、トレーニング画像数を更に2倍に増大させる。最後の層において、0.5のドロップアウト率のドロップアウトを用いる。重み減衰(λ=5×10−5)及び運動量(マイクロ=0.9)を用いて、6つの画像のバッチに従来の後方伝播及び確率的勾配降下更新を適用する。単にRGB(Red, Green, Blue)画像をReLUユニット及びドロップアウトとともに用いることによって、Farabet他と比較して僅かに良好なピクセルごとの正確度が得られた。
rCPNのパラメーターは、誤りをFlabからパースツリーを通じてFsemに後方伝播する構造による後方伝播を用いてトレーニングされる。基本的な着想は、各ノードにおける誤りを分割し、誤りを子ノードに伝播することである。線探索を用いたメモリ制限付きブロイデンフレッチャーゴルトファルプ(BFGS:Broyden-Fletcher-Goldfarb)手順がパラメーター更新のために用いられる。
本発明では、スーパーピクセル内の5つのピクセルをランダムにサンプリングし、それらのピクセルの値を平均化して、スーパーピクセルごとに5つの異なる特徴を得た。また、ランダム特徴の集合ごとに異なるランダムパースツリーを用いる。これによって、トレーニング画像が5倍に増大した。
本質的に、学習により、トレーニングデータ内のピクセルの真のラベルと予測ラベルとの差が最小になる。
シーン分類
説明したように、ルートノード(全体画像に対応する)の意味特徴は、シーンの全体表現である。この意味特徴をシーン分類(シーンカテゴリ、例えば自然の写真、顔の写真、都市のシーン等による画像の分類)に用いることもできるし、画像の集合(collections of images)のクラスタリングに用いることもできる。分類は、ルートノードの意味特徴を取得し、シーンカテゴリのうちの1つに割り当てる分類モデルをトレーニングすることによって達成される。クラスタリング用途は、写真収集における画像のルートノードの意味特徴を用いて、これらの画像を意味特徴の類似度に従ってグループ化する。
発明の効果
本発明の実施形態は、シーンの取得画像を意味的にラベル付けする方法を提供する。本発明者らは、ピクセルごとの意味的ラベル付けのために、畳み込みニューラルネットワークと再帰的ニューラルネットワークとの結合である新規のネットワークを考案する。主要な特徴は、本発明による再帰的コンテキスト伝播であり、再帰的コンテキスト伝播は、画像の1つの領域から画像内の全ての他の領域までコンテキスト情報をフィードフォワード方式で効果的に伝播する。ネットワークはスケーリング可能であり、人間が設計する特徴を一切用いずにトレーニングすることができる。本方法は、正確度の観点から従来技術の方法よりも優れている。また、本方法は従来技術の方法よりも数桁高速である。

Claims (19)

  1. シーンの取得画像を意味的にラベル付けする方法であって、
    前記画像内の各ローカル領域からローカル特徴を得るステップと、
    前記ローカル特徴を意味的にマッピングしてローカル意味特徴を得るステップと、
    全体画像の意味特徴が得られるまで、前記ローカル意味特徴を再帰的に結合して、中間セグメントを形成するステップと、
    各ローカル領域の強化された意味特徴が得られるまで、前記全体画像の前記意味特徴を中間セグメントに再帰的に結合解除するステップと、
    前記強化された意味特徴に従って各ローカル領域をラベル付けするステップと、
    を含み、前記ステップはプロセッサが実行する、シーンの取得画像を意味的にラベル付けする方法。
  2. 前記ローカル領域はスーパーピクセルである、請求項1に記載の方法。
  3. 前記ローカル領域は1つ又は複数のピクセルを含む、請求項1に記載の方法。
  4. 前記ローカル特徴はマルチスケール畳み込みニューラルネットワークに従ってローカル領域から抽出される、請求項1に記載の方法。
  5. 前記結合及び前記結合解除は前記画像のパースツリーに従って行われる、請求項1に記載の方法。
  6. 前記結合及び前記結合解除のためにノードの平衡バイナリパースツリーをランダムに合成することを更に含む、請求項1に記載の方法。
  7. 前記マッピングは、抽出関数x=Fsem(v;θsem)に従って行われ、ここでxは前記意味特徴であり、vは前記ローカル特徴であり、θsemは意味的マッピングパラメーターであり、
    前記結合は、結合関数xi,j=Fsem([x,x];θcom)に従って行われ、ここで、xi,jは、バイナリパースツリーにおいて子ノードx,xから得られた親ノードの意味特徴であり、θcomは結合パラメーターであり、
    前記結合解除は、結合解除関数
    Figure 2016045943
    に従って行われ、ここで、
    Figure 2016045943
    は親ノード
    Figure 2016045943
    及びxから得られた子ノードの強化された意味特徴であり、θsemは結合解除パラメーターであり、
    前記ラベル付けは、ラベル付け関数
    Figure 2016045943
    に従って行われ、ここで、yはラベルであり、θsemはラベル付けパラメーターである、請求項1に記載の方法。
  8. 前記ノードにサイド情報を付加することを更に含む、請求項6に記載の方法。
  9. 前記サイド情報は、前記ノードに関する静的知識を符号化する、請求項8に記載の方法。
  10. 前記サイド情報は、前記ノードのロケーション及び前記ノードのサイズの平均値である、請求項8に記載の方法。
  11. 前記抽出関数、前記結合関数、前記結合解除関数及び前記ラベル付け関数はニューラルネットワークを用いる、請求項7に記載の方法。
  12. 前記ローカル意味特徴は、ピクセルの色特徴、勾配特徴、及び、テクスチャ特徴である、請求項1に記載の方法。
  13. トレーニングデータを用いて、前記抽出、前記結合、前記結合解除及び前記ラベル付けの前記パラメーターを学習することを更に含む、請求項7に記載の方法。
  14. 前記学習は、前記トレーニングデータにおける前記ピクセルの真のラベルと予測ラベルとの間の差を最小にする、請求項13に記載の方法。
  15. 前記結合関数及び前記結合解除関数は再帰的である、請求項7に記載の方法。
  16. 前記パースツリーは、前記シーンの前記画像の階層的分割表現である、請求項5に記載の方法。
  17. 前記パースツリーは、前記シーンの前記画像の一部分の階層的分割表現である、請求項5に記載の方法。
  18. 前記全体画像の前記意味特徴を用いて、シーンカテゴリに従って前記画像を分類する、請求項1に記載の方法。
  19. 前記全体画像の前記意味特徴は、画像の集合をクラスター化するために用いられる、請求項1に記載の方法。
JP2015149661A 2014-08-20 2015-07-29 シーンの取得画像を意味的にラベル付けする方法 Active JP6395158B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/463,806 2014-08-20
US14/463,806 US9558268B2 (en) 2014-08-20 2014-08-20 Method for semantically labeling an image of a scene using recursive context propagation

Publications (3)

Publication Number Publication Date
JP2016045943A true JP2016045943A (ja) 2016-04-04
JP2016045943A5 JP2016045943A5 (ja) 2018-06-21
JP6395158B2 JP6395158B2 (ja) 2018-09-26

Family

ID=55348492

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015149661A Active JP6395158B2 (ja) 2014-08-20 2015-07-29 シーンの取得画像を意味的にラベル付けする方法

Country Status (2)

Country Link
US (1) US9558268B2 (ja)
JP (1) JP6395158B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018005638A (ja) * 2016-07-04 2018-01-11 日本電信電話株式会社 映像認識モデル学習装置、映像認識装置、方法、及びプログラム
JP2018101317A (ja) * 2016-12-21 2018-06-28 ホーチキ株式会社 異常監視システム
KR20200087808A (ko) * 2018-02-09 2020-07-21 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 인스턴스 분할 방법 및 장치, 전자 기기, 프로그램 및 매체
JP2021047841A (ja) * 2019-09-19 2021-03-25 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 関心点をラベル付けする方法、装置、コンピュータ機器及び記憶媒体

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10042048B1 (en) 2014-02-20 2018-08-07 National Technology & Engineering Solutions Of Sandia, Llc Superpixels for improved structure and terrain classification using multiple synthetic aperture radar image products
US9659384B2 (en) * 2014-10-03 2017-05-23 EyeEm Mobile GmbH. Systems, methods, and computer program products for searching and sorting images by aesthetic quality
US9389311B1 (en) * 2015-02-19 2016-07-12 Sandia Corporation Superpixel edges for boundary detection
WO2016197303A1 (en) * 2015-06-08 2016-12-15 Microsoft Technology Licensing, Llc. Image semantic segmentation
CN107851174B (zh) * 2015-07-08 2021-06-01 北京市商汤科技开发有限公司 图像语义标注的设备和方法及其模型的生成方法和***
US10389804B2 (en) 2015-11-11 2019-08-20 Adobe Inc. Integration of content creation and sharing
US10783431B2 (en) 2015-11-11 2020-09-22 Adobe Inc. Image search using emotions
US10198590B2 (en) * 2015-11-11 2019-02-05 Adobe Inc. Content sharing collections and navigation
US10249061B2 (en) 2015-11-11 2019-04-02 Adobe Inc. Integration of content creation and sharing
KR102592076B1 (ko) * 2015-12-14 2023-10-19 삼성전자주식회사 딥러닝 기반 영상 처리 장치 및 방법, 학습 장치
US9760807B2 (en) * 2016-01-08 2017-09-12 Siemens Healthcare Gmbh Deep image-to-image network learning for medical image analysis
US10169647B2 (en) * 2016-07-27 2019-01-01 International Business Machines Corporation Inferring body position in a scan
US12020174B2 (en) 2016-08-16 2024-06-25 Ebay Inc. Selecting next user prompt types in an intelligent online personal assistant multi-turn dialog
US9947102B2 (en) 2016-08-26 2018-04-17 Elekta, Inc. Image segmentation using neural network method
US9965863B2 (en) 2016-08-26 2018-05-08 Elekta, Inc. System and methods for image segmentation using convolutional neural network
US10860898B2 (en) 2016-10-16 2020-12-08 Ebay Inc. Image analysis and prediction based visual search
US11748978B2 (en) 2016-10-16 2023-09-05 Ebay Inc. Intelligent online personal assistant with offline visual search database
US11004131B2 (en) 2016-10-16 2021-05-11 Ebay Inc. Intelligent online personal assistant with multi-turn dialog based on visual search
US11200273B2 (en) 2016-10-16 2021-12-14 Ebay Inc. Parallel prediction of multiple image aspects
US10402690B2 (en) * 2016-11-07 2019-09-03 Nec Corporation System and method for learning random-walk label propagation for weakly-supervised semantic segmentation
US10970768B2 (en) 2016-11-11 2021-04-06 Ebay Inc. Method, medium, and system for image text localization and comparison
CN106683081B (zh) * 2016-12-17 2020-10-30 复旦大学 基于影像组学的脑胶质瘤分子标记物无损预测方法和预测***
CN106527455A (zh) * 2017-01-03 2017-03-22 北京博瑞空间科技发展有限公司 无人机降落控制方法及装置
US10148872B2 (en) * 2017-02-07 2018-12-04 Intel Corporation Image difference based segmentation using recursive neural networks
GB2559566B (en) * 2017-02-08 2022-01-12 Ordnance Survey Ltd Topographic data machine learning method and system
US10546242B2 (en) 2017-03-03 2020-01-28 General Electric Company Image analysis neural network systems
US9953236B1 (en) * 2017-03-10 2018-04-24 TuSimple System and method for semantic segmentation using dense upsampling convolution (DUC)
US10540784B2 (en) * 2017-04-28 2020-01-21 Intel Corporation Calibrating texture cameras using features extracted from depth images
CN107220657B (zh) * 2017-05-10 2018-05-18 中国地质大学(武汉) 一种面向小数据集的高分辨率遥感影像场景分类的方法
US10657415B2 (en) * 2017-06-02 2020-05-19 Htc Corporation Image correspondence determining method and apparatus
US10762635B2 (en) * 2017-06-14 2020-09-01 Tusimple, Inc. System and method for actively selecting and labeling images for semantic segmentation
US10783393B2 (en) * 2017-06-20 2020-09-22 Nvidia Corporation Semi-supervised learning for landmark localization
CN108229479B (zh) * 2017-08-01 2019-12-31 北京市商汤科技开发有限公司 语义分割模型的训练方法和装置、电子设备、存储介质
US10671083B2 (en) 2017-09-13 2020-06-02 Tusimple, Inc. Neural network architecture system for deep odometry assisted by static scene optical flow
US10552979B2 (en) 2017-09-13 2020-02-04 TuSimple Output of a neural network method for deep odometry assisted by static scene optical flow
US10706503B2 (en) * 2018-03-13 2020-07-07 Disney Enterprises, Inc. Image processing using a convolutional neural network
CN108846405A (zh) * 2018-04-11 2018-11-20 东莞迪赛软件技术有限公司 基于ssgan的不平衡医保数据分类方法
CN108629747B (zh) * 2018-04-25 2019-12-10 腾讯科技(深圳)有限公司 图像增强方法、装置、电子设备及存储介质
CN112272832A (zh) * 2018-05-28 2021-01-26 三星电子株式会社 用于基于dnn的成像的方法和***
CN110648299A (zh) * 2018-06-26 2020-01-03 株式会社理光 图像处理方法、图像处理装置和计算机可读存储介质
KR102192899B1 (ko) * 2018-08-16 2020-12-18 주식회사 날비컴퍼니 이미지에 보케 효과를 적용하는 방법 및 기록매체
US10832084B2 (en) * 2018-08-17 2020-11-10 Nec Corporation Dense three-dimensional correspondence estimation with multi-level metric learning and hierarchical matching
US11475248B2 (en) * 2018-10-30 2022-10-18 Toyota Research Institute, Inc. Auto-labeling of driving logs using analysis-by-synthesis and unsupervised domain adaptation
US10755128B2 (en) 2018-12-18 2020-08-25 Slyce Acquisition Inc. Scene and user-input context aided visual search
US11995854B2 (en) * 2018-12-19 2024-05-28 Nvidia Corporation Mesh reconstruction using data-driven priors
US10325179B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Learning method and learning device for pooling ROI by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same
US10311578B1 (en) * 2019-01-23 2019-06-04 StradVision, Inc. Learning method and learning device for segmenting an image having one or more lanes by using embedding loss to support collaboration with HD maps required to satisfy level 4 of autonomous vehicles and softmax loss, and testing method and testing device using the same
CN110111239B (zh) * 2019-04-28 2022-12-20 叠境数字科技(上海)有限公司 一种基于tof相机软分割的人像头部背景虚化方法
CN110070091B (zh) * 2019-04-30 2022-05-24 福州大学 用于街景理解的基于动态插值重建的语义分割方法及***
CN110070512B (zh) * 2019-04-30 2021-06-01 秒针信息技术有限公司 图片修饰的方法及装置
US11080861B2 (en) 2019-05-14 2021-08-03 Matterport, Inc. Scene segmentation using model subtraction
CN110634142B (zh) * 2019-08-20 2024-02-02 长安大学 一种复杂车路图像边界优化方法
CN111046732B (zh) * 2019-11-11 2023-11-28 华中师范大学 一种基于多粒度语义解析的行人重识别方法及存储介质
CN111145277A (zh) * 2019-12-31 2020-05-12 山东浪潮人工智能研究院有限公司 一种深度语义感知与bpg压缩工具的图像压缩方法
US11645505B2 (en) * 2020-01-17 2023-05-09 Servicenow Canada Inc. Method and system for generating a vector representation of an image
CN111611879A (zh) * 2020-04-30 2020-09-01 杭州电子科技大学 一种基于空间逐点注意力机制的场景解析方法
CN112348972A (zh) * 2020-09-22 2021-02-09 陕西土豆数据科技有限公司 一种基于大规模场景三维模型精细语义标注方法
CN112101371B (zh) * 2020-11-18 2021-09-10 北京京东尚科信息技术有限公司 数据处理方法、装置、电子设备和计算机存储介质
CN112819832A (zh) * 2021-02-02 2021-05-18 华北水利水电大学 基于激光点云的城市场景语义分割细粒度边界提取方法
TW202232437A (zh) * 2021-02-09 2022-08-16 阿物科技股份有限公司 圖像分類與標示方法及系統
WO2023102224A1 (en) * 2021-12-03 2023-06-08 Innopeak Technology, Inc. Data augmentation for multi-task learning for depth mapping and semantic segmentation
US11915474B2 (en) 2022-05-31 2024-02-27 International Business Machines Corporation Regional-to-local attention for vision transformers
CN117132600B (zh) * 2023-10-26 2024-04-16 广东岚瑞新材料科技集团有限公司 基于图像的注塑制品质量检测***及其方法
CN117764995B (zh) * 2024-02-22 2024-05-07 浙江首鼎视介科技有限公司 基于深度神经网络算法的胆胰成像***及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06124366A (ja) * 1992-10-14 1994-05-06 Toshiba Corp 住所読取装置
JPH0830734A (ja) * 1994-07-19 1996-02-02 Mitsubishi Heavy Ind Ltd 文字列認識装置
JP2008217706A (ja) * 2007-03-07 2008-09-18 Tokyo Institute Of Technology ラベリング装置、ラベリング方法及びプログラム
JP2010067223A (ja) * 2008-09-12 2010-03-25 Canon Inc 画像処理装置、画像処理方法、及び、画像処理プログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7127087B2 (en) * 2000-03-27 2006-10-24 Microsoft Corporation Pose-invariant face recognition system and process
CA2532530A1 (en) * 2003-07-28 2005-02-10 Fluidigm Corporation Image processing method and system for microfluidic devices
US7460709B2 (en) 2004-01-23 2008-12-02 Siemens Medical Solutions Usa, Inc. System and method for multi-label image segmentation
EP1603076A1 (en) * 2004-05-13 2005-12-07 Aalborg Universitet Computerized cortex boundary extraction from MR images
EP2765533A1 (en) * 2004-07-26 2014-08-13 Automotive Systems Laboratory, Inc. Vulnerable road user protection system
WO2006042142A2 (en) * 2004-10-07 2006-04-20 Bernard Widrow Cognitive memory and auto-associative neural network based pattern recognition and searching
JP4676373B2 (ja) * 2006-04-27 2011-04-27 株式会社デンソー 周辺認識装置、周辺認識方法、プログラム
TW200842733A (en) * 2007-04-17 2008-11-01 Univ Nat Chiao Tung Object image detection method
US8170330B2 (en) 2007-10-30 2012-05-01 Siemens Aktiengesellschaft Machine learning for tissue labeling segmentation
US9704068B2 (en) 2012-06-22 2017-07-11 Google Inc. System and method for labelling aerial images

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06124366A (ja) * 1992-10-14 1994-05-06 Toshiba Corp 住所読取装置
JPH0830734A (ja) * 1994-07-19 1996-02-02 Mitsubishi Heavy Ind Ltd 文字列認識装置
JP2008217706A (ja) * 2007-03-07 2008-09-18 Tokyo Institute Of Technology ラベリング装置、ラベリング方法及びプログラム
JP2010067223A (ja) * 2008-09-12 2010-03-25 Canon Inc 画像処理装置、画像処理方法、及び、画像処理プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018005638A (ja) * 2016-07-04 2018-01-11 日本電信電話株式会社 映像認識モデル学習装置、映像認識装置、方法、及びプログラム
JP2018101317A (ja) * 2016-12-21 2018-06-28 ホーチキ株式会社 異常監視システム
KR20200087808A (ko) * 2018-02-09 2020-07-21 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 인스턴스 분할 방법 및 장치, 전자 기기, 프로그램 및 매체
KR102438095B1 (ko) 2018-02-09 2022-08-30 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 인스턴스 분할 방법 및 장치, 전자 기기, 프로그램 및 매체
JP2021047841A (ja) * 2019-09-19 2021-03-25 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 関心点をラベル付けする方法、装置、コンピュータ機器及び記憶媒体
US11403766B2 (en) 2019-09-19 2022-08-02 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for labeling point of interest

Also Published As

Publication number Publication date
JP6395158B2 (ja) 2018-09-26
US20160055237A1 (en) 2016-02-25
US9558268B2 (en) 2017-01-31

Similar Documents

Publication Publication Date Title
JP6395158B2 (ja) シーンの取得画像を意味的にラベル付けする方法
Yang et al. Lego: Learning edge with geometry all at once by watching videos
Garcia-Garcia et al. A survey on deep learning techniques for image and video semantic segmentation
CN111368896B (zh) 基于密集残差三维卷积神经网络的高光谱遥感图像分类方法
Lateef et al. Survey on semantic segmentation using deep learning techniques
Yang et al. Unsupervised learning of geometry from videos with edge-aware depth-normal consistency
Garcia-Garcia et al. A review on deep learning techniques applied to semantic segmentation
CN111291212B (zh) 基于图卷积神经网络的零样本草图图像检索方法和***
Remez et al. Learning to segment via cut-and-paste
Sharma et al. Deep hierarchical parsing for semantic segmentation
Zhang et al. Deep hierarchical guidance and regularization learning for end-to-end depth estimation
WO2020077940A1 (en) Method and device for automatic identification of labels of image
CN108985298B (zh) 一种基于语义一致性的人体衣物分割方法
Singh et al. Semantic segmentation of satellite images using deep-unet
CN116797787B (zh) 基于跨模态融合与图神经网络的遥感影像语义分割方法
Chatterjee et al. On building classification from remote sensor imagery using deep neural networks and the relation between classification and reconstruction accuracy using border localization as proxy
CN114005085A (zh) 一种视频中密集人群分布检测与计数方法
Song et al. Contextualized CNN for scene-aware depth estimation from single RGB image
Guo et al. Using multi-scale and hierarchical deep convolutional features for 3D semantic classification of TLS point clouds
CN104463962B (zh) 基于gps信息视频的三维场景重建方法
CN112767277B (zh) 一种基于参考图像的深度特征排序去模糊方法
Zhang et al. Deep joint neural model for single image haze removal and color correction
Sahu et al. Vector map generation from aerial imagery using deep learning
Lu et al. Closing the loop for edge detection and object proposals
Petrovai et al. Semi-automatic image annotation of street scenes

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180509

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180509

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20180509

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180713

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180717

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180724

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180821

R150 Certificate of patent or registration of utility model

Ref document number: 6395158

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250