JP6867054B2 - マルチカメラシステム内のダブルエンベディング構成を利用して、道路利用者イベントを検出するために用いられるセグメンテーション性能向上のための学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置。{learning method and learning device for improving segmentation performance to be used for detecting road user events using double embedding configuration in multi−camera system and testing method and testing device using the same} - Google Patents

マルチカメラシステム内のダブルエンベディング構成を利用して、道路利用者イベントを検出するために用いられるセグメンテーション性能向上のための学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置。{learning method and learning device for improving segmentation performance to be used for detecting road user events using double embedding configuration in multi−camera system and testing method and testing device using the same} Download PDF

Info

Publication number
JP6867054B2
JP6867054B2 JP2019212162A JP2019212162A JP6867054B2 JP 6867054 B2 JP6867054 B2 JP 6867054B2 JP 2019212162 A JP2019212162 A JP 2019212162A JP 2019212162 A JP2019212162 A JP 2019212162A JP 6867054 B2 JP6867054 B2 JP 6867054B2
Authority
JP
Japan
Prior art keywords
similarity
learning
distance
loss
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019212162A
Other languages
English (en)
Other versions
JP2020119505A (ja
Inventor
金桂賢
金鎔重
金寅洙
金鶴京
南雲鉉
夫碩▲くん▼
成明哲
呂東勳
柳宇宙
張泰雄
鄭景中
諸泓模
趙浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of JP2020119505A publication Critical patent/JP2020119505A/ja
Application granted granted Critical
Publication of JP6867054B2 publication Critical patent/JP6867054B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/582Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of traffic signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30261Obstacle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Electromagnetism (AREA)
  • Image Analysis (AREA)
  • Editing Of Facsimile Originals (AREA)

Description

本発明は、マルチカメラシステム内のダブルエンベディング構成を利用した歩行者イベント及び自動車イベントを含む道路利用者イベントを検出するために用いられるセグメンテーション性能向上のための学習方法に関し;より詳しくは、インスタンスセグメンテーション(Instance Segmentation)のための前記学習方法において、(a)少なくとも一つのトレーニングイメージ内の一つ以上の物体を検出し得るニューラルネットワーク(Neural Network)から少なくとも一つのネットワーク出力特徴を取得するプロセスを遂行する段階;(b)少なくとも一つの類似度コンボリューション(Similarity Convolution)レイヤをもって、前記ネットワーク出力特徴に一つ以上の類似度コンボリューション演算を適用するようにすることで、少なくとも一つの類似度エンベディング(Embedding)の特徴を生成し、前記類似度コンボリューション演算は、前記ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上のエンベディングベクトルを生成するプロセスを遂行する段階;(c)少なくとも一つの類似度ロスレイヤをもって、前記類似度エンベディング特徴からサンプリングされた2点間で少なくとも一つの類似度を算出するようにし、前記類似度及びこれに対応する少なくとも一つのGT(Ground Truth)ラベルイメージを参考にして少なくとも一つの類似度ロスを生成するようにする類似度エンベディングプロセスを遂行する段階;(d)少なくとも一つの距離コンボリューション(Distance Convolution)レイヤをもって、前記類似度エンベディング特徴に一つ以上の距離コンボリューション演算を適用するようにすることで、少なくとも一つの距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記類似度エンベディング特徴を少なくとも一つの特徴空間に変更するプロセスを遂行する段階;(e)少なくとも一つの距離ロスレイヤをもって、前記距離エンベディング特徴を利用して、一つ以上のインスタンスクラスのそれぞれの平均値と分散値とを算出し、前記インスタンスクラスのそれぞれの前記平均値間の相互クラス間の差異それぞれを増加させ、それぞれの前記インスタンスクラスの各クラス内の分散値を減少させるために利用される、少なくとも一つの距離ロスを生成するようにする距離エンベディングプロセスを遂行する段階;及び(f)前記類似度ロス及び前記距離ロスの中の少なくとも一つをバックプロパゲーション(Backpropagation)して、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つのパラメータを学習するプロセスを遂行する段階;を含むことを特徴とする学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置に関する。
ディープラーニング(Deep Learning)は、物やデータを群集化・分類するのに用いられる技術である。例えば、コンピュータは写真だけで犬と猫を区別することができない。しかし、人はとても簡単に区別することができる。このため「機械学習(Machine Learning)」という方法が考案された。これはコンピュータをもって入力された多くのデータから類似した物を分類するようにさせる技術である。格納されている犬の写真と似たような写真が入力されれば、これを犬の写真だとコンピュータが分類するようにしたのである。
データをいかに分類するかをめぐり、すでに多くの機械学習アルゴリズムが登場した。「決定木」や「ベイジアンネットワーク」「サポートベクターマシン(SVM)」「人工神経網」などが代表的だ。このうち、ディープラーニングは人工神経網の後裔だ。
ディープ・コンボリューション・ニューラル・ネットワーク(Deep Convolution Neural Networks;DeepCNN)は、ディープラーニング分野で起きた驚くべき発展の核心である。CNNは、文字の認識問題を解くために90年代にすでに使われたが、現在のように広く使われるようになったのは最近の研究結果のおかげだ。このようなディープCNNは2012年ImageNetイメージ分類コンテストで他の競争相手に勝って優勝を収めた。そして、コンボリューションニューラルネットワークは、機械学習分野で非常に有用なツールとなった。
イメージセグメンテーション(Image segmentation)は、少なくとも一つの入力イメージを利用して、少なくとも一つのラベルイメージを生成する方法である。最近、ディープランニング(Deep Learning)技術が脚光を浴びて、セグメンテーションでもディープラーニングが多く利用される傾向にある。前記セグメンテーションは、一つ以上のコンボリューション演算を用いて前記ラベルイメージを生成する方法など、初期にはエンコーダ(Encoder)のみを利用する方法で行われた。その後、前記エンコーダにより前記イメージの特徴を抽出し、デコーダ(Decoder)によってこれらの特徴を前記ラベルイメージで復元するエンコーダ・デコーダ(Encoder−Decoder)構成を用いた方法で前記セグメンテーションが行われた。
図1は従来のニューラルネットワークを利用してイメージセグメンテーションを遂行するプロセスを簡略に示した図面である。
図1を参照すれば、従来の車線検出方法では、学習装置が入力イメージを受けて多数のコンボリューションレイヤをもって、前記入力イメージに多数のコンボリューション演算及びReLUのような非線形演算を適用するようにして、一つ以上のデコンボリューションレイヤをもって特徴マップに一つ以上のデコンボリューション演算及びソフトマックス演算を適用するようにしてセグメンテーション結果を生成する。
しかし、図1に示されたニューラルネットワークのみを利用しては、個々のクラスを明確に識別することは難しく、特に各前記クラスの少なくとも一つのエッジ部分の情報を正確に識別することが難しいという問題点が存在する。
併せて、車線のような物体を検出するためのインスタンスセグメンテーションを遂行する他の従来の方法は、セグメンテーションプロセスの後にクラスタリング(Clustering)プロセスによって遂行される。しかし、これらの二つのプロセスは異質的であるため、この二つのプロセスがともに学習されると性能が落ちるという問題点が存在する。
本発明は、前述した問題点を全て解決することを目的とする。
本発明は、クラスタリングプロセスなしでインスタンスセグメンテーションの結果を生成し、前記インスタンスセグメンテーションの結果を利用して、少なくとも一つの物体を検出するための方法を提供することを他の目的とする。
本発明は、追加エンベディングプロセスによってそれぞれのクラスをより明確に識別し、それぞれの前記クラスの少なくとも一つのエッジをより正確に抽出して、物体を正確に識別する方法を提供することをまた他の目的とする。
前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成は次の通りである。
本発明の一態様によれば、インスタンスセグメンテーション(Instance Segmentation)のための学習方法において、(a)学習装置が、少なくとも一つのトレーニングイメージ内の一つ以上の物体を検出し得るニューラルネットワーク(Neural Network)から少なくとも一つのネットワーク出力特徴(Network Output Feature)を取得するプロセスを遂行する段階;(b)前記学習装置が、少なくとも一つの類似度コンボリューション(Similarity Convolution)レイヤをもって、前記ネットワーク出力特徴に一つ以上の類似度コンボリューション演算を適用するようにすることで、少なくとも一つの類似度エンベディング(Embedding)の特徴を生成し、前記類似度コンボリューション演算は、前記ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上のエンベディングベクトルを生成するプロセスを遂行する段階;(c)前記学習装置が、少なくとも一つの類似度ロスレイヤをもって、前記類似度エンベディング特徴からサンプリングされた2点間の少なくとも一つの類似度を算出するようにし、前記類似度及びこれに対応する少なくとも一つのGT(Ground Truth)ラベルイメージを参考にし、少なくとも一つの類似度ロスを生成するようにする類似度エンベディングプロセスを遂行する段階;(d)前記学習装置が、少なくとも一つの距離コンボリューション(Distance Convolution)レイヤをもって、前記類似度エンベディング特徴に一つ以上の距離コンボリューション演算を適用するようにすることで、少なくとも一つの距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記類似度エンベディング特徴を少なくとも一つの特徴空間に変更するプロセスを遂行する段階;(e)前記学習装置が、少なくとも一つの距離ロスレイヤをもって、前記距離エンベディング特徴を利用して、一つ以上のインスタンスクラスのそれぞれの平均値と分散値とを算出し、前記インスタンスクラスのそれぞれの前記平均値間の相互クラス間の差異それぞれを増加させ、それぞれの前記インスタンスクラスの各クラス内の分散値を減少させるために利用される、少なくとも一つの距離ロスを生成するようにする距離エンベディングプロセスを遂行する段階;及び(f)前記学習装置が、前記類似度ロス及び前記距離ロスの中の少なくとも一つをバックプロパゲーション(Backpropagation)して、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つのパラメータを学習するプロセスを遂行する段階;を含むことを特徴とする学習方法が提供される。
一例として、(g)前記学習装置が、少なくとも一つのサンプリングレイヤ及び少なくとも一つの検出レイヤをもって、前記距離エンベディング特徴をサンプリングし、リグレッション(Regression)により前記物体の位置を検出して個別的に前記物体を識別するようにすることで、少なくとも一つのインスタンスセグメンテーションを生成するプロセスを遂行する段階;をさらに含む。
一例として、(h)前記学習装置が、少なくとも一つのセグメンテーションロスレイヤをもって、前記インスタンスセグメンテーション及びこれに対応する少なくとも一つのGTラベルイメージを参考して少なくとも一つのセグメンテーションロスを算出するようにし、前記セグメンテーションロスをバックプロパゲーションして、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つの前記パラメータを学習するプロセスを遂行する段階;をさらに含む。
一例として、前記類似度コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲よりさらに大きくなるように決定され、前記距離コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲または前記類似度コンボリューションレイヤの前記パラメータの調整範囲より大きくなるように決定される前記GTラベルイメージは、前記インスタンスセグメンテーションに対応するGTラベルイメージである。
一例として、前記類似度コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲よりさらに大きくなるように決定され、前記距離コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲または前記類似度コンボリューションレイヤの前記パラメータの調整範囲より大きくなるように決定される。
一例として、前記類似度は次の数式
Figure 0006867054

(ここで、前記fp及び前記fqは、前記類似度エンベディング特徴から任意にサンプリングされた前記2点である)で表され、
前記類似度ロス(Similarity Loss)は次の数式
Figure 0006867054

(ここで前記Aは、前記類似度エンベディング特徴から任意で前記2点をサンプリングする組み合わせ(Combination)の数を示し、前記yは、前記2点が同じクラスにあれば1、互いに異なるクラスにあれば0を有する数であり、前記sは、前記類似度を示す)で表されるクロスエントロピーロス(Cross Entropy Loss)である。
一例として、前記物体は、一つ以上の車線を示す。
一例として、前記距離ロスは、次の数式
Figure 0006867054

(ここで前記L及び前記Lは、前記車線の中から任意に選択された2つの車線を表し、前記mean(L)は、前記Lの平均値を表し、前記mean(L)は、前記Lの平均値を表し、前記var(L)は、前記車線の中の各車線の分散値であり、前記n_combination(L、L)は、前記車線の中で2つの車線を選択する組み合わせのすべての場合の数であり、前記threshは閾値を表す)で表されるクラスタリングロス(Clustering Loss)である。
一例として、前記threshは、1に設定される。
本発明のまた態様によれば、インスタンスセグメンテーション(Instance Segmentation)のためのテスティング方法において、(a)学習装置が、(i)少なくとも一つの類似度コンボリューションレイヤをもって、少なくとも一つのトレーニングイメージ内の一つ以上の学習用物体を検出し得るニューラルネットワーク(Neural Network)から取得された少なくとも一つの学習用ネットワーク出力特徴に一つ以上の類似度コンボリューション演算を適用することで少なくとも一つの学習用類似度エンベディング特徴を生成し、前記類似度コンボリューション演算は、前記学習用ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上の学習用エンベディングベクトルを生成するプロセスを遂行し、(ii)少なくとも一つの類似度ロスレイヤをもって、前記学習用類似度エンベディング特徴からサンプリングされた2点間で少なくとも一つの類似度を算出するようにし、前記類似度及びこれに対応する少なくとも一つのGTラベルイメージを参考にし、少なくとも一つの類似度ロスを生成するようにする類似度エンベディングプロセスを遂行し、(iii)少なくとも一つの距離コンボリューションレイヤをもって、前記学習用類似度エンベディング特徴に一つ以上の距離コンボリューション演算を適用するようにすることで少なくとも一つの学習用距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記学習用類似度エンベディング特徴を少なくとも一つの学習用特徴空間に変更するプロセスを遂行し、(iv)少なくとも一つの距離ロスレイヤをもって、前記学習用距離エンベディング特徴を利用して、一つ以上のインスタンスクラスのそれぞれの平均値と分散値とを算出し、前記インスタンスクラスのそれぞれの前記平均値間の相互クラス間の差異それぞれを増加させ、それぞれの前記インスタンスクラスの各クラス内の分散値を減少させるために利用される、少なくとも一つの距離ロスを生成するようにする距離エンベディングプロセスを遂行し、(v)前記類似度ロス及び前記距離ロスの中から少なくとも一つをバックプロパゲーションして、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中から少なくとも一つのパラメータを学習するプロセスを遂行した状態で、テスティング装置が、少なくとも一つのテストイメージ内の一つ以上のテスト用物体を検出し得る前記ニューラルネットワークから少なくとも一つのテスト用ネットワーク出力特徴を取得する段階;(b)前記テスティング装置が、前記類似度コンボリューションレイヤをもって、前記テスト用ネットワーク出力特徴に前記類似度コンボリューション演算を適用することにより、少なくとも一つのテスト用類似度エンベディング特徴を生成し、前記類似度コンボリューション演算は、前記テスト用ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上のテスト用エンベディングベクトルを生成するプロセスを遂行する段階;(c)前記テスティング装置が、前記距離コンボリューションレイヤをもって、前記テスト用類似度エンベディング特徴に前記距離コンボリューション演算を適用するようにすることで少なくとも一つのテスト用距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記テスト用類似度エンベディング特徴を少なくとも一つのテスト用特徴空間に変更するプロセスを遂行する段階;及び(d)前記テスティング装置が、少なくとも一つのサンプリングレイヤ及び少なくとも一つの検出レイヤをもって、前記テスト用距離エンベディング特徴をサンプリングし、リグレッション(Regression)により前記テスト用物体の位置を検出して個別的に前記テスト用物体を識別するようにすることで、少なくとも一つのテスト用インスタンスセグメンテーションを生成するプロセスを遂行する段階;を含むことを特徴とするテスティング方法が提供される。
一例として、前記(a)段階で、前記学習装置が、(vi)前記サンプリングレイヤ及び前記検出レイヤをもって、前記学習用距離エンベディング特徴をサンプリングし、前記リグレッション(Regression)により前記学習用物体の位置を検出して個別的に前記学習用物体を識別するようにすることで、少なくとも一つの学習用インスタンスセグメンテーションを生成するプロセス及び(vii)少なくとも一つのセグメンテーションロスレイヤをもって、前記学習用インスタンスセグメンテーション及びこれに対応する少なくとも一つのGTラベルイメージを参考して少なくとも一つのセグメンテーションロスを算出するようにし、前記セグメンテーションロスをバックプロパゲーションして、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つの前記パラメータを学習するプロセスをさらに遂行する。
一例として、前記GTラベルイメージは、前記学習用インスタンスセグメンテーションに対応するGTラベルイメージである。
一例として、前記類似度コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲よりさらに大きくなるように決定され、前記距離コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲または前記類似度コンボリューションレイヤの前記パラメータの調整範囲より大きくなるように決定される。
一例として、前記類似度は次の数式
Figure 0006867054

(ここで、前記fp及び前記fqは、前記学習用類似度エンベディング特徴から任意にサンプリングされた前記2点である)で表され、
前記類似度ロス(Similarity Loss)は次の数式
Figure 0006867054

(ここで前記Aは、前記学習用類似度エンベディング特徴から任意で前記2点をサンプリングする組み合わせ(Combination)の数を示し、前記yは、前記2点が同じクラスにあれば1、互いに異なるクラスにあれば0を有する数であり、前記sは、前記類似度を示す)で表されるクロスエントロピーロス(Cross Entropy Loss)である。
一例として、前記学習用物体は、一つ以上の車線を表し、
前記距離ロスは、次の数式
Figure 0006867054

(ここで前記L及び前記Lは、前記車線の中から任意に選択された2つの車線を示し、前記mean(L)は、前記Lの平均値を表し、前記mean(L)は、前記Lの平均値を表し、前記var(L)は、前記車線の中の各車線の分散値であり、前記n_combination(L,L)は、前記車線の中で2つの車線を選択する組み合わせのすべての場合の数であり、前記threshは閾値を表す)で表されるクラスタリングロス(Clustering Loss)であることを特徴とする。
本発明のまた他の態様によれば、インスタンスセグメンテーションのための学習装置において、インストラクションを格納する少なくとも一つのメモリ;及び(I)少なくとも一つの類似度コンボリューションレイヤをもって、少なくとも一つのトレーニングイメージ内の一つ以上の物体を検出し得るニューラルネットワーク(Neural Network)から取得された少なくとも一つのネットワーク出力特徴に一つ以上の類似度コンボリューション演算を適用することで少なくとも一つの類似度エンベディング特徴を生成し、前記類似度コンボリューション演算は、前記ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上のエンベディングベクトルを生成するプロセスを遂行し、(II)少なくとも一つの類似度ロスレイヤをもって、前記類似度エンベディング特徴からサンプリングされた2点間で少なくとも一つの類似度を算出するようにし、前記類似度及びこれに対応する少なくとも一つのGTラベルイメージを参考にし、少なくとも一つの類似度ロスを生成するようにする類似度エンベディングプロセスを遂行し、(III)少なくとも一つの距離コンボリューションレイヤをもって、前記類似度エンベディング特徴に一つ以上の距離コンボリューション演算を適用するようにすることで少なくとも一つの距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記類似度エンベディング特徴を少なくとも一つの特徴空間に変更するプロセスを遂行し、(IV)少なくとも一つの距離ロスレイヤをもって、前記距離エンベディング特徴を利用して、一つ以上のインスタンスクラスのそれぞれの平均値と分散値とを算出し、前記インスタンスクラスのそれぞれの前記平均値間の相互クラス間の差異それぞれを増加させ、それぞれの前記インスタンスクラスの各クラス内の分散値を減少させるために利用される、少なくとも一つの距離ロスを生成するようにする距離エンベディングプロセスを遂行し、(V)前記類似度ロス及び前記距離ロスの中の少なくとも一つをバックプロパゲーション(Backpropagation)して、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つのパラメータを学習するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;を含むことを特徴とする学習装置が提供される。
一例として、前記プロセッサが、(VI)少なくとも一つのサンプリングレイヤ及び少なくとも一つの検出レイヤをもって、前記距離エンベディング特徴をサンプリングし、リグレッション(Regression)により前記物体の位置を検出して個別的に前記物体を識別するようにすることで、少なくとも一つのインスタンスセグメンテーションを生成するプロセスをさらに遂行する。
一例として、前記プロセッサが、(VII)少なくとも一つのセグメンテーションロスレイヤをもって、前記インスタンスセグメンテーション及びこれに対応する少なくとも一つのGTラベルイメージを参考して少なくとも一つのセグメンテーションロスを算出するようにし、前記セグメンテーションロスをバックプロパゲーションして、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つの前記パラメータを学習するプロセスをさらに遂行する。
一例として、前記GTラベルイメージは、前記インスタンスセグメンテーションに対応するGTラベルイメージである。
一例として、前記類似度コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲よりさらに大きくなるように決定され、前記距離コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲または前記類似度コンボリューションレイヤの前記パラメータの調整範囲より大きくなるように決定される。
一例として、前記類似度は次の数式
Figure 0006867054

(ここで、前記fp及び前記fqは、前記類似度エンベディング特徴から任意にサンプリングされた前記2点である)で表され、
前記類似度ロス(Similarity Loss)は次の数式
Figure 0006867054

(ここで前記Aは、前記類似度エンベディング特徴から任意で前記2点をサンプリングする組み合わせ(Combination)の数を示し、前記yは、前記2点が同じクラスにあれば1、互いに異なるクラスにあれば0を有する数であり、前記sは、前記類似度を示す)で表されるクロスエントロピーロス(Cross Entropy Loss)である。
一例として、前記物体は、一つ以上の車線を示す。
一例として、前記距離ロスは、次の数式
Figure 0006867054

(ここで前記L及び前記Lは、前記車線の中から任意に選択された2つの車線を示し、前記mean(L)は、前記の平均値を表し、前記mean(L)は、前記Lの平均値を表して、前記var(L)は、前記車線の中の各車線の分散値であり、前記n_combination(L,L)は、前記車線の中で2つの車線を選択する組み合わせのすべての場合の数であり、前記threshは閾値を表す)で表されるクラスタリングロス(Clustering Loss)であることを特徴とする。
一例として、前記threshは、1に設定される。
本発明のまた他の態様によれば、インスタンスセグメンテーションのためのテスティング装置において、インストラクションを格納する少なくとも一つのメモリ;及び学習装置が、(i)少なくとも一つの類似度コンボリューションレイヤをもって、少なくとも一つのトレーニングイメージ内の一つ以上の学習用物体を検出し得るニューラルネットワーク(Neural Network)から取得された少なくとも一つの学習用ネットワーク出力特徴に一つ以上の類似度コンボリューション演算を適用することで少なくとも一つの学習用類似度エンベディング特徴を生成し、前記類似度コンボリューション演算は、前記学習用ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上の学習用エンベディングベクトルを生成するプロセスを遂行し、(ii)少なくとも一つの類似度ロスレイヤをもって、前記学習用類似度エンベディング特徴からサンプリングされた2点間で少なくとも一つの類似度を算出するようにし、前記類似度及びこれに対応する少なくとも一つのGTラベルイメージを参考にし、少なくとも一つの類似度ロスを生成するようにする類似度エンベディングプロセスを遂行し、(iii)少なくとも一つの距離コンボリューションレイヤをもって、前記学習用類似度エンベディング特徴に一つ以上の距離コンボリューション演算を適用するようにすることで少なくとも一つの学習用距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記学習用類似度エンベディング特徴を少なくとも一つの学習用特徴空間に変更するプロセスを遂行し、(iv)少なくとも一つの距離ロスレイヤをもって、前記学習用距離エンベディング特徴を利用して、一つ以上のインスタンスクラスのそれぞれの平均値と分散値とを算出し、前記インスタンスクラスのそれぞれの前記平均値間の相互クラス間の差異それぞれを増加させ、それぞれの前記インスタンスクラスの各クラス内の分散値を減少させるために利用される、少なくとも一つの距離ロスを生成するようにする距離エンベディングプロセスを遂行し、(v)前記類似度ロス及び前記距離ロスの中の少なくとも一つをバックプロパゲーションして、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つのパラメータを学習するプロセスを遂行した状態で、(I)前記類似度コンボリューションレイヤをもって、少なくとも一つのテストイメージ内の一つ以上のテスト用物体を検出し得る前記ニューラルネットワーク(Neural Network)から取得された少なくとも一つのテスト用ネットワーク出力特徴に、前記類似度コンボリューション演算を適用することで少なくとも一つのテスト用類似度エンベディング特徴を生成し、前記類似度コンボリューション演算は、前記テスト用ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上のテスト用エンベディングベクトルを生成するプロセス、(II)前記距離コンボリューションレイヤをもって、前記テスト用類似度エンベディング特徴に前記距離コンボリューション演算を適用するようにすることで少なくとも一つのテスト用距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記テスト用類似度エンベディング特徴を少なくとも一つのテスト用特徴空間に変更するプロセス、及び(III)少なくとも一つのサンプリングレイヤ及び少なくとも一つの検出レイヤをもって、前記テスト用距離エンベディング特徴をサンプリングし、リグレッション(Regression)により前記テスト用物体の位置を検出して個別的に前記テスト用物体を識別するようにすることで、少なくとも一つのテスト用インスタンスセグメンテーションを生成するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;を含むことを特徴とするテスティング装置が提供される。
一例として、前記学習装置が、(vi)前記サンプリングレイヤ及び前記検出レイヤをもって、前記学習用距離エンベディング特徴をサンプリングし、前記リグレッション(Regression)により前記学習用物体の位置を検出して個別的に前記学習用物体を識別するようにすることで、少なくとも一つの学習用インスタンスセグメンテーションを生成するプロセス及び(vii)少なくとも一つのセグメンテーションロスレイヤをもって、前記学習用インスタンスセグメンテーション及びこれに対応する少なくとも一つのGTラベルイメージを参考して少なくとも一つのセグメンテーションロスを算出するようにし、前記セグメンテーションロスをバックプロパゲーションして、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つの前記パラメータを学習するプロセスをさらに遂行する。
一例として、前記GTラベルイメージは、前記学習用インスタンスセグメンテーションに対応するGTラベルイメージである。
一例として、前記類似度コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲よりさらに大きくなるように決定され、前記距離コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲または前記類似度コンボリューションレイヤの前記パラメータの調整範囲より大きくなるように決定される。
一例として、前記類似度は次の数式
Figure 0006867054

(ここで、前記fp及び前記fqは、前記学習用類似度エンベディング特徴から任意にサンプリングされた前記2点である)で表され、
前記類似度ロス(Similarity Loss)は次の数式
Figure 0006867054

(ここで前記Aは、前記学習用類似度エンベディング特徴から任意で前記2点をサンプリングする組み合わせ(Combination)の数を示し、前記yは、前記2点が同じクラスにあれば1、互いに異なるクラスにあれば0を有する数であり、前記sは、前記類似度を示す)で表されるクロスエントロピーロス(Cross Entropy Loss)である。
一例として、前記学習用物体は、一つ以上の車線を表し、
前記距離ロスは、次の数式
Figure 0006867054


(ここで前記L及び前記Lは、前記車線の中から任意に選択された2つの車線を示し、前記mean(L)は、前記Lの平均値を表し、前記mean(L)は、前記Lの平均値を表し、前記var(L)は、前記車線の中の各車線の分散値であり、前記n_combination(L,L)は、前記車線の中で2つの車線を選択する組み合わせのすべての場合の数であり、前記threshは閾値を表す)で表されるクラスタリングロス(Clustering Loss)である。
本発明によれば、ニューラルネットワークから出力された少なくとも一つ特徴マップの類似度エンベディングプロセス及び距離インベストメントプロセスによってインスタンスセグメンテーション結果を生成して物体を検出し得る効果がある。
また、本発明によれば、追加エンベディングプロセスによってそれぞれのクラスをより明確に識別し、各クラスの少なくとも一つエッジ部分をより正確に抽出することにより、正確に物体を識別し得る効果がある。
本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうちの一部に過ぎず、本発明が属する技術分野でおいて、通常の知識を有する者(以下「通常の技術者」)は、発明的作業が行われることなくこの図面に基づいて他の図面が得られ得る。
は従来のニューラルネットワークを利用してイメージセグメンテーションを遂行するプロセスを簡略に示した図面である。 は、本発明の一例に係るいわゆるダブルエンベディング構成を追加的に利用して一つ以上の物体を検出する方法を示した図面である。 は、本発明の一例に係る前記ダブルエンベディング構成を利用して、前記イメージセグメンテーションの性能向上のための学習プロセスを示したフローチャートである。
後述する本発明に対する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は当業者が本発明を実施することができるように充分詳細に説明される。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一例と関連して、本発明の精神及び範囲を逸脱せず、かつ他の実施例で実装され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を逸脱せずに分類され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されれば、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号はいくつかの側面にかけて同一か類似する機能を指称する。
また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。
本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ(例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ)でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではない。
以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面に基づいて詳細に説明する。
メトリック学習(Metric Learning)を利用した特徴エンベディング方法は、機械学習時代以来、広範囲に研究されてきた。最近、ディープラーニング(Deep Learning)を利用して多様なエンベディング方法に関する論文がたくさん出されている。ワードエンベディング(Word Embedding)方法は、少なくとも一つの単語をr次元の少なくとも一つのベクトルでマッピング(Mapping)させることを意味する。例えば、「cat」という言葉は、少なくとも一つのベクトルでマッピングされ、文字は意味を有する少なくとも一つの数字に変換されるのである。ビジョン(Vision)分野での他のエンベディング方法は、少なくとも一つのイメージを少なくとも一つの特定の特徴空間に変換することを意味する。そして、前記メトリック学習は、類似度や距離などの少なくとも一つの測定(Measure)を通して行われる学習を意味する。
図2は、本発明の一例に係るいわゆるダブルエンベディング構成を追加的に利用して一つ以上の物体を検出する学習方法を概略的に示した図面である。
図2を参照すれば、本発明に係る前記物体を検出する前記学習方法は、学習済みDNN(Deep Neural Network)を利用し、追加的にいわゆるダブルエンベディング構成を利用してインスタンスセグメンテーション(Instance Segmentation)の結果を生成する。つまり、図2に示した前記ニューラルネットワーク100は、図1に示した前記DNNのエンコーダ・デコーダの構成を含む。少なくとも一つのネットワーク出力特徴は、前記ニューラルネットワーク100から取得され、ダブルエンベディングプロセスが前記ネットワーク出力特徴に適用される。
図2を再び参照すれば、類似度エンベディングブロック300及び距離エンベディングブロック400は、本発明の前記学習済みニューラルネットワーク100の出力側に連結される。また、少なくとも一つのサンプリングレイヤ500及び少なくとも一つの検出レイヤ600が車線のような前記物体を検出するために前記距離エンベディングブロック400の出力側に追加的に連結される。前記類似度エンベディングブロック300及び前記距離エンベディングブロック400は、微細調整(Fine Tuning)によって追加的に学習される。
図3は、本発明の一例に係る前記ダブルエンベディング構成を利用して、前記イメージセグメンテーションの性能を向上させるための学習プロセスを示したフローチャートである。
図2及び図3を参照れば、本発明に係る前記インスタンスセグメンテーションのための前記学習過程において、前記ネットワーク出力特徴200は、少なくとも一つのトレーニングのイメージ10に前記ニューラルネットワーク100の少なくとも一つの演算を適用して生成される(S01)。この際、前記ニューラルネットワーク100の前記演算は、図1に示した前記DNNの前記エンコーダ・デコーダ構成の少なくとも一つの演算が利用され得る。
その後、少なくとも一つの類似度コンボリューションレイヤ310をもって、前記ネットワーク出力特徴200に一つ以上の類似度コンボリューション演算を適用するようにすることで、少なくとも一つの類似度エンベディング特徴320を生成し(S02)、前記類似度コンボリューション演算は、前記ネットワーク出力特徴200のピクセルの少なくとも一部分に対応する一つ以上のエンベディングベクトルを出力する。
パラメータが学習された前記ニューラルネットワーク100から出力された前記ネットワーク出力特徴200を利用して、図2の前記類似度コンボリューションレイヤ310及び前記距離コンボリューションレイヤ410を微細調整する場合、前記インスタンスセグメンテーションの適切な結果を取得することは容易ではない。これは、前記ニューラルネットワーク100が前述した微細調整によって僅かな再学習が行われるものの、前記ネットワーク出力特徴200は、前記学習済みパラメータを再利用して生成されたからである。従って、本発明では、前記類似度コンボリューションレイヤ310が、前記類似度コンボリューション演算を前記ネットワーク出力特徴200に適用するために追加される。そして、前記類似度コンボリューションレイヤ310は初期化されている状態であるため、エンベディングプロセスを遂行する。従って、前記類似度コンボリューションレイヤ310は、前記ネットワーク出力特徴200の特徴空間を少なくとも一つの類似度エンベディング特徴320に変更する。
一方、図2及び図3を参照すれば、前記類似度コンボリューションレイヤ310の一つ以上のパラメータの学習、つまり微細調整は、少なくとも一つの類似度ロスレイヤ330によって行われ、前記類似度エンベディング特徴320を利用して遂行される。前記類似度ロスレイヤ330は、前記類似度エンベディング特徴320からサンプリングされた2点間で少なくとも一つの類似度を算出するようにし、前記類似度及びこれに対応する少なくとも一つのGT(Ground Truth)ラベルイメージを参考にして、少なくとも一つの類似度ロスを出力する(S03)。ここで、前記GTラベルイメージは、前記インスタンスセグメンテーションに対応する少なくとも一つのGTイメージである。
前記類似度は、特徴マップ、つまり、前記類似度エンベディング特徴320から任意に2点をサンプリングして、以下の数式に従って算出される。
Figure 0006867054

前記fp及び前記fqは、前記類似度エンベディング特徴320から任意にサンプリングされた前記2点である。
前記インスタンスセグメンテーションに対応する前記GTラベルイメージ内の各々の前記物体のそれぞれのインスタンスクラスは既に分かっているため、それぞれの前記インスタンスクラスごとに適当な個数の点をサンプリングして計算され得る。前記数式1において、前記exp(||f−f||)は、前記2点間のユークリッド距離(Euclidian Distance)を示す。前記2点が互いに近ければ、距離が0に近接してexp(0)は1に近接し、前記類似度(s)は、1に近接する。前記2点が互いに遠く離れているのであれば、exp(∞)は∞となり、前記類似度(s)は0に近接する。このように前記2点間の前記類似度を測定することがメトリック方法であり、本発明は、前記メトリック方法を利用して、前記学習を遂行するのである。この際、前記2点間の前記距離を測定する代わりに、他の要素が前記学習のために利用されるように測定され得る。
そして、前記類似度ロスレイヤ330から出力された前記類似度ロス(Similarity Loss)は、以下の数式に従って計算される。
Figure 0006867054


前記Aは、前記類似度エンベディング特徴320から任意で前記2点をサンプリングする組み合わせ(Combination)の数を示し、前記yは、前記2点が同じクラスにあれば1、互いに異なるクラスにあれば0を有する数であり、前記sは、前記類似度を示す。
前記数式2の前記類似度ロスは、前記数式1の前記類似度を利用して計算されたクロスエントロピーロス(Cross Entropy Loss)である。このように計算された前記類似度ロスは、バックプロパゲーションによって前記類似度コンボリューションレイヤの前記パラメータを学習する。前記バックプロパゲーションによって、前記類似度エンベディング特徴320に含まれる類似したクラスは、互いにクラスタリングされる。
この際、前記類似度ロスが前記バックプロパゲーションに利用される際、前記類似度コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワーク100の前記パラメータの調整範囲よりさらに大きくなるように決定され、前記類似度コンボリューションレイヤ310の前記パラメータは、前記類似度ロスを利用して微細調整される。
一方、前記類似度エンベディング特徴320は、類似したクラス同士を好ましくまとまらせることで生成され得るが、前記類似度エンベディング特徴320内のエッジ部分は、依然として不明確に表れ得る。すなわち、第1エンベディングプロセス(前記類似度エンベディングプロセス)から生成された特徴は、互いに異なるクラスを区別するのに十分だが、前記エッジ部分は正確に区別されないという短所が存在する。このような短所を克服するため、第2エンベディングプロセスが必要になる。これによって、図2で示されたように、本発明によって前記距離エンベディングブロック400が追加的に提供される。つまり、前記通りコンボリューションレイヤ410が、前記類似度コンボリューションレイヤ310の出力側にさらに連結される。
図2及び3を参照すれば、前記学習装置は、前記距離コンボリューションレイヤ410をもって、前記類似度エンベディング特徴320に一つ以上の距離コンボリューション演算を適用することで少なくとも一つの距離エンベディング特徴420を生成し(S04)、前記距離コンボリューション演算は、前記類似度エンベディング特徴320を少なくとも一つの特徴空間に変更する。
その後、少なくとも一つの距離ロスレイヤ430をもって、前記距離エンベディング特徴420を利用して、一つ以上のインスタンスクラスのそれぞれの平均値と分散値とを算出して、前記インスタンスクラスのそれぞれの前記平均値間の相互クラス間の差異それぞれを増加させ、それぞれの前記インスタンスクラスの各クラス内の分散値を減少させるために利用される、少なくとも一つの距離ロスを生成する(S05)。
次の数式は、前記距離エンベディングプロセスを遂行するための前記距離ロスの数式である。
Figure 0006867054


ここで前記L及び前記Lは、前記車線の中から任意に選択された2つの車線を示し、前記mean(L)は、前記Lの平均値を表し、前記mean(L)は、前記Lの平均値を表し、前記var(L)は、前記車線の中の各車線の分散値であり、前記n_combination(L,L)は、前記車線の中で2つの車線を選択する組み合わせのすべての場合の数であり、前記threshは閾値を表す。
前述した第2エンベディングプロセス(つまり、前記距離エンベディングプロセス)は、前記第1エンベディングプロセス(つまり、前記類似度エンベディングプロセス)において、前記類似度のみ考慮されたため、依然として不明な前記エッジ部分を有する前記類似度エンベディング特徴320に適用される。前記距離エンベディングプロセスは、それぞれの分散値は減少し、それぞれの前記平均値間の前記差異は増加するように遂行される。つまり、前記距離エンベディングプロセスが遂行されれば、大きな分散値を有する前記エッジ部分の少なくとも一つのエラーが学習され、これによって、前記類似したクラスは互いにまとまるようになり、前記クラス間の差異は増加する、前記距離エンベディング特徴420が生成される。
前記距離ロスは次のように説明される。前記トレーニングイメージ10内に6つの車線が存在するとすれば、前記6つの車線の中から第1車線(L)及び第2車線(L)のそれぞれの平均値が計算され、前記平均値間の差異が計算される。前記差異の二乗が、前記閾値の二乗(前記thresh)より大きければ、前記maxは0になり、前記差異の二乗が前記閾値の二乗より小さいか、等しければ、前記maxはthresh−(mean(L)−mean(L))になる。前記n_combination(L,L)は、前記車線6つの車線の中の2つの車線を選択する組み合わせのすべての場合の数である。前記閾値は、1であり得る。そして、前記数式で全ての車線のそれぞれの分散値が計算され利用される。このような方式で、前記学習プロセスにおける前記平均値間の差は増加し、各車線のそれぞれの分散値は減少する。
前記距離エンベディングプロセスを遂行して、前記トレーニングイメージ内のそれぞれの前記物体の平均値、つまり前記物体に対応するクラスそれぞれの平均値は、それぞれ互いにさらに遠くなり、前記物体は、前記距離エンベディング特徴420内でさらに区別が容易になり、前記クラスそれぞれの分散値はそれぞれさらに小さくなって、前記距離エンベディング特徴420内の前記物体に対応する前記類似したクラスは、互いにまとまるようになる。
前記距離エンベディング特徴420が不明確なエッジ部分を有するなら、それぞれの前記不明確なエッジ部分における個々の分散値は大きくなる。そのため、それぞれの前記エッジ部分にそれぞれの分散値は減少するよう学習され、それぞれの前記エッジ部分は、対応するクラスにそれぞれ属することになる。そして、それぞれの前記互いに異なるクラスの平均値それぞれは、前記距離エンベディング特徴420内で互いに遠くなろうとするため、それぞれの前記クラスは、それぞれ異なる色、つまり互いに異なるラベル値を有するように学習される。
この際、前記距離ロスをバックプロパゲーションする間、前記距離コンボリューションレイヤ410の一つ以上のパラメータの調整範囲が、前記ニューラルネットワーク100の前記パラメータの調整範囲または前記類似度コンボリューションレイヤ310の前記パラメータの調整範囲より大きくなるように決定されて、前記距離コンボリューションレイヤ410の前記パラメータが微細調整される。また、前記類似度コンボリューションレイヤ310の前記パラメータの調整範囲及び距離コンボリューションレイヤ410の前記パラメータの調整範囲が、前記ニューラルネットワーク100の前記パラメータの調整範囲より大きくなるように決定され、前記類似度コンボリューションレイヤ310の前記パラメータ及び前記距離コンボリューションレイヤ410の前記パラメータが微細調整される。
例えば、前記ニューラルネットワーク100が学習された状態で、前記類似度コンボリューションレイヤ310の前記パラメータは、前記類似度コンボリューションレイヤ310の前記パラメータに1である値に割り当てられた重み付け値と、前記ニューラルネットワーク100の前記パラメータに1/10である値に割り当てられた重み付け値を利用して、前記類似度ロスをバックプロパゲーションして学習される。また、前記距離コンボリューションレイヤ410の前記パラメータに1である値に割り当てられた重み付け値、前記ニューラルネットワーク100の前記パラメータに1/10である値に割り当てられた重み付け値及び前記類似度コンボリューションレイヤ310の前記パラメータに1/10である値に割り当てられた重み付け値を利用して、前記距離ロスをバックプロパゲーションして、前記距離コンボリューションレイヤ410の前記パラメータが学習される。
図2に示された前記サンプリングレイヤ500及び前記検出レイヤ600は、前記ダブルエンベディングの構成から出力された前記距離エンベディング特徴420をサンプリングし、リグレッションによって前記物体、つまり前記車線の位置を検出して、個別的に前記物体を識別するように構成される。図3を参照すれば、前記距離エンベディング特徴420をサンプリングし、前記リグレッションによって前記物体の位置を検出して前記物体が個別に識別される(S06)。例えば、前記車線それぞれは、前記ダブルエンベディングプロセスを用いた前記インスタンスセグメンテーションの後に道路から分離されるが、前記車線の前記インスタンスセグメンテーションは正確ではないことがあるため、前記サンプリングは、フォールスポジティブ(False Positive)の数を減らすために用いられ、前記リグレッションによって前記車線の正確なピクセルが検出される。その結果、前記物体が互いに分離され、前記エッジ部分が明確になった前記インスタンスセグメンテーションが生成される。
一方、図2には示していないが、前記学習装置は、少なくとも一つのセグメンテーションロスレイヤをもって、前記インスタンスセグメンテーション及びこれに対応するGTラベルイメージを参考して少なくとも一つのセグメンテーションロスを算出するようにし、前記セグメンテーションロスをバックプロパゲーションして、前記距離コンボリューションレイヤ410と、前記類似度コンボリューションレイヤと310と、前記ニューラルネットワーク100との中の少なくとも一つの前記パラメータを学習するプロセスをさらに遂行する。
そして、図2及び図3に示された前記学習方法は、前記ニューラルネットワーク100のテスティング方法においても適用され得る。
参考までに、以下の説明において混乱を避けるために、前記学習プロセスに関連する用語に「学習用」という単語が追加され、テスティングプロセスに関連する用語に「テスト用」という単語が追加された。
つまり、前記インスタンスセグメンテーションのための前記テスティング方法において、(a)前記学習装置が、(i)前記トレーニングイメージ10内の少なくとも一つの学習用物体を検出し得る前記ニューラルネットワーク100から少なくとも一つの学習用ネットワーク出力特徴を取得するプロセスを遂行し、(ii)前記類似度コンボリューションレイヤ310をもって、前記学習用ネットワーク出力特徴に前記類似度コンボリューション演算を適用することにより、少なくとも一つの学習用類似度エンベディング特徴を生成し、前記類似度コンボリューション演算は、前記学習用ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上の学習用エンベディングベクトルを生成するプロセスを遂行し、(iii)前記類似度ロスレイヤ330をもって、前記学習用類似度エンベディング特徴からサンプリングされた2点間で少なくとも一つの類似度を算出するようにし、前記類似度及びこれに対応する少なくとも一つのGTラベルイメージを参考にして前記類似度ロスを生成するようにする類似度エンベディングプロセスを遂行し、(iv)前記距離コンボリューションレイヤ410をもって、前記学習用類似度エンベディング特徴に一つ以上の距離コンボリューション演算を適用するようにすることで少なくとも一つの学習用距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記学習用類似度エンベディング特徴を少なくとも一つの学習用特徴空間に変更するプロセスを遂行し、(v)前記距離ロスレイヤ430をもって、前記学習用距離エンベディング特徴を利用して、一つ以上のインスタンスクラスのそれぞれの平均値と分散値とを算出し、前記インスタンスクラスのそれぞれの前記平均値間の相互クラス間の差異それぞれを増加させ、それぞれの前記インスタンスクラスの各クラス内の分散値を減少させるために利用される、少なくとも一つの距離ロスを生成するようにする前記距離エンベディングプロセスを遂行し、(vi)前記類似度ロス及び前記距離ロスの中から少なくとも一つをバックプロパゲーションして、前記距離コンボリューションレイヤ410と、前記類似度コンボリューションレイヤ310と、前記ニューラルネットワーク100との中から少なくとも一つのパラメータを学習するプロセスを遂行した状態で、テスティング装置が、少なくとも一つのテストイメージ内の一つ以上のテスト用物体を検出し得る前記ニューラルネットワーク100から少なくとも一つのテスト用ネットワーク出力特徴を取得する段階;(b)前記テスティング装置が、前記類似度コンボリューションレイヤ310をもって、前記テスト用ネットワーク出力特徴に前記類似度コンボリューション演算を適用することにより、少なくとも一つのテスト用類似度エンベディング特徴を生成し、前記類似度コンボリューション演算は、前記テスト用ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上のテスト用エンベディングベクトルを生成するプロセスを遂行する段階;(c)前記テスティング装置が、前記距離コンボリューションレイヤ410をもって、前記テスト用類似度エンベディング特徴に前記距離コンボリューション演算を適用するようにすることで少なくとも一つのテスト用距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記テスト用類似度エンベディング特徴を少なくとも一つのテスト用特徴空間に変更するプロセスを遂行する段階;及び(d)前記テスティング装置が、前記サンプリングレイヤ500及び前記検出レイヤ600をもって、前記テスト用距離エンベディング特徴をサンプリングし、リグレッションによって前記テスト用物体の位置を検出して個別的に前記テスト用物体を識別するようにすることで、少なくとも一つのテスト用インスタンスセグメンテーションを生成するプロセスを遂行する段階;を含む。
前記学習方法及び前記テスティング方法は、マルチカメラシステム内のセンサ融合(Sensor Fusion)を利用して、歩行者イベント及び自動車イベントを含む道路利用者イベントを検出するために提供される。
本発明技術分野の通常の技術者に理解され、前記で説明されたイメージ、例えば前記トレーニングイメージ及び前記テストイメージといったイメージデータの送受信が学習装置及びテスト装置の各通信部によって行われ得、特徴マップと演算を遂行するためのデータが学習装置及びテスト装置のプロセッサ(及び/またはメモリ)によって保有/維持され得、コンボリューション演算、デコンボリューション演算、ロス値の演算過程が主に学習装置及びテスト装置のプロセッサにより遂行され得るが、本発明はこれに限定されるものではない。
また、以上で説明された本発明に係る実施例は、多様なコンピュータ構成要素を通じて遂行できるプログラム命令語の形態で実装されてコンピュータ読み取り可能な記録媒体に記録され得る。前記コンピュータで読み取り可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含まれ得る。前記コンピュータ判読可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピィディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスク(Floptical Disk)のような磁気−光媒体(Magneto−Optical Media)、及びROM、RAM、フラッシュメモリなどといったプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明に係る処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その逆も同様である。
以上、本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば係る記載から多様な修正及び変形が行われ得る。
従って、本発明の思想は前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims (30)

  1. インスタンスセグメンテーション(Instance Segmentation)のための学習方法において、
    (a)学習装置が、少なくとも一つのトレーニングイメージ内の一つ以上の物体を検出し得るニューラルネットワーク(Neural Network)から少なくとも一つのネットワーク出力特徴(Network Output Feature)を取得するプロセスを遂行する段階;
    (b)前記学習装置が、少なくとも一つの類似度コンボリューション(Similarity Convolution)レイヤをもって、前記ネットワーク出力特徴に一つ以上の類似度コンボリューション演算を適用するようにすることで、少なくとも一つの類似度エンベディング(Embedding)の特徴を生成し、前記類似度コンボリューション演算は、前記ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上のエンベディングベクトルを生成するプロセスを遂行する段階;
    (c)前記学習装置が、少なくとも一つの類似度ロスレイヤをもって、前記類似度エンベディング特徴からサンプリングされた2点間の少なくとも一つの類似度を算出するようにし、前記類似度及びこれに対応する少なくとも一つのGT(Ground Truth)ラベルイメージを参考にし、少なくとも一つの類似度ロスを生成するようにする類似度エンベディングプロセスを遂行する段階;
    (d)前記学習装置が、少なくとも一つの距離コンボリューション(Distance Convolution)レイヤをもって、前記類似度エンベディング特徴に一つ以上の距離コンボリューション演算を適用するようにすることで、少なくとも一つの距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記類似度エンベディング特徴を少なくとも一つの特徴空間に変更するプロセスを遂行する段階;
    (e)前記学習装置が、少なくとも一つの距離ロスレイヤをもって、前記距離エンベディング特徴を利用して、一つ以上のインスタンスクラスのそれぞれの平均値と分散値とを算出し、前記インスタンスクラスのそれぞれの前記平均値間の相互クラス間の差異それぞれを増加させ、それぞれの前記インスタンスクラスの各クラス内の分散値を減少させるために利用される、少なくとも一つの距離ロスを生成するようにする距離エンベディングプロセスを遂行する段階;及び
    (f)前記学習装置が、前記類似度ロス及び前記距離ロスの中の少なくとも一つをバックプロパゲーション(Backpropagation)して、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つのパラメータを学習するプロセスを遂行する段階;
    を含むことを特徴とする学習方法。
  2. (g)前記学習装置が、少なくとも一つのサンプリングレイヤ及び少なくとも一つの検出レイヤをもって、前記距離エンベディング特徴をサンプリングし、リグレッション(Regression)により前記物体の位置を検出して個別的に前記物体を識別するようにすることで、少なくとも一つのインスタンスセグメンテーションを生成するプロセスを遂行する段階;
    をさらに含むことを特徴とする請求項1に記載の学習方法。
  3. (h)前記学習装置が、少なくとも一つのセグメンテーションロスレイヤをもって、前記インスタンスセグメンテーション及びこれに対応する少なくとも一つのGTラベルイメージを参考して少なくとも一つのセグメンテーションロスを算出するようにし、前記セグメンテーションロスをバックプロパゲーションして、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つの前記パラメータを学習するプロセスを遂行する段階;
    をさらに含むことを特徴とする請求項2に記載の学習方法。
  4. 前記GTラベルイメージは、前記インスタンスセグメンテーションに対応するGTラベルイメージであることを特徴とする請求項1に記載の学習方法。
  5. 前記類似度コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲よりさらに大きくなるように決定され、前記距離コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲または前記類似度コンボリューションレイヤの前記パラメータの調整範囲より大きくなるように決定されることを特徴とする請求項1に記載の学習方法。
  6. 前記類似度は次の数式
    Figure 0006867054

    (ここで、前記fp及び前記fqは、前記類似度エンベディング特徴から任意にサンプリングされた前記2点である)で表され、
    前記類似度ロス(Similarity Loss)は次の数式
    Figure 0006867054


    (ここで前記Aは、前記類似度エンベディング特徴から任意で前記2点をサンプリングする組み合わせ(Combination)の数を示し、前記yは、前記2点が同じクラスにあれば1、互いに異なるクラスにあれば0を有する数であり、前記sは、前記類似度を示す)で表されるクロスエントロピーロス(Cross Entropy Loss)であることを特徴とする請求項1に記載の学習方法。
  7. 前記物体は、一つ以上の車線を示すことを特徴とする請求項1に記載の学習方法。
  8. 前記距離ロスは、次の数式
    Figure 0006867054

    (ここで前記L及び前記Lは、前記車線の中から任意に選択された2つの車線を表し、前記mean(L)は、前記Lの平均値を表し、前記mean(L)は、前記Lの平均値を表し、前記var(L)は、前記車線の中の各車線の分散値であり、前記n_combination(L,L)は、前記車線の中で2つの車線を選択する組み合わせのすべての場合の数であり、前記threshは閾値を表す)で表されるクラスタリングロス(Clustering Loss)であることを特徴とする請求項7に記載の学習方法。
  9. 前記threshは、1に設定されることを特徴とする請求項8に記載の学習方法。
  10. インスタンスセグメンテーション(Instance Segmentation)のためのテスティング方法において、
    (a)学習装置が、(i)少なくとも一つの類似度コンボリューションレイヤをもって、少なくとも一つのトレーニングイメージ内の一つ以上の学習用物体を検出し得るニューラルネットワーク(Neural Network)から取得された少なくとも一つの学習用ネットワーク出力特徴に一つ以上の類似度コンボリューション演算を適用することで少なくとも一つの学習用類似度エンベディング特徴を生成し、前記類似度コンボリューション演算は、前記学習用ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上の学習用エンベディングベクトルを生成するプロセスを遂行し、(ii)少なくとも一つの類似度ロスレイヤをもって、前記学習用類似度エンベディング特徴からサンプリングされた2点間で少なくとも一つの類似度を算出するようにし、前記類似度及びこれに対応する少なくとも一つのGTラベルイメージを参考にし、少なくとも一つの類似度ロスを生成するようにする類似度エンベディングプロセスを遂行し、(iii)少なくとも一つの距離コンボリューションレイヤをもって、前記学習用類似度エンベディング特徴に一つ以上の距離コンボリューション演算を適用するようにすることで少なくとも一つの学習用距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記学習用類似度エンベディング特徴を少なくとも一つの学習用特徴空間に変更するプロセスを遂行し、(iv)少なくとも一つの距離ロスレイヤをもって、前記学習用距離エンベディング特徴を利用して、一つ以上のインスタンスクラスのそれぞれの平均値と分散値とを算出し、前記インスタンスクラスのそれぞれの前記平均値間の相互クラス間の差異それぞれを増加させ、それぞれの前記インスタンスクラスの各クラス内の分散値を減少させるために利用される、少なくとも一つの距離ロスを生成するようにする距離エンベディングプロセスを遂行し、(v)前記類似度ロス及び前記距離ロスの中から少なくとも一つをバックプロパゲーションして、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中から少なくとも一つのパラメータを学習するプロセスを遂行した状態で、テスティング装置が、少なくとも一つのテストイメージ内の一つ以上のテスト用物体を検出し得る前記ニューラルネットワークから少なくとも一つのテスト用ネットワーク出力特徴を取得する段階;
    (b)前記テスティング装置が、前記類似度コンボリューションレイヤをもって、前記テスト用ネットワーク出力特徴に前記類似度コンボリューション演算を適用することにより、少なくとも一つのテスト用類似度エンベディング特徴を生成し、前記類似度コンボリューション演算は、前記テスト用ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上のテスト用エンベディングベクトルを生成するプロセスを遂行する段階;
    (c)前記テスティング装置が、前記距離コンボリューションレイヤをもって、前記テスト用類似度エンベディング特徴に前記距離コンボリューション演算を適用するようにすることで少なくとも一つのテスト用距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記テスト用類似度エンベディング特徴を少なくとも一つのテスト用特徴空間に変更するプロセスを遂行する段階;及び
    (d)前記テスティング装置が、少なくとも一つのサンプリングレイヤ及び少なくとも一つの検出レイヤをもって、前記テスト用距離エンベディング特徴をサンプリングし、リグレッション(Regression)により前記テスト用物体の位置を検出して個別的に前記テスト用物体を識別するようにすることで、少なくとも一つのテスト用インスタンスセグメンテーションを生成するプロセスを遂行する段階;
    を含むことを特徴とするテスティング方法。
  11. 前記(a)段階で、
    前記学習装置が、(vi)前記サンプリングレイヤ及び前記検出レイヤをもって、前記学習用距離エンベディング特徴をサンプリングし、前記リグレッション(Regression)により前記学習用物体の位置を検出して個別的に前記学習用物体を識別するようにすることで、少なくとも一つの学習用インスタンスセグメンテーションを生成するプロセス及び(vii)少なくとも一つのセグメンテーションロスレイヤをもって、前記学習用インスタンスセグメンテーション及びこれに対応する少なくとも一つのGTラベルイメージを参考して少なくとも一つのセグメンテーションロスを算出するようにし、前記セグメンテーションロスをバックプロパゲーションして、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つの前記パラメータを学習するプロセスをさらに遂行することを特徴とする請求項10に記載のテスティング方法。
  12. 前記GTラベルイメージは、前記学習用インスタンスセグメンテーションに対応するGTラベルイメージであることを特徴とする請求項11に記載のテスティング方法。
  13. 前記類似度コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲よりさらに大きくなるように決定され、前記距離コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲または前記類似度コンボリューションレイヤの前記パラメータの調整範囲より大きくなるように決定されることを特徴とする請求項10に記載のテスティング方法。
  14. 前記類似度は次の数式
    Figure 0006867054

    (ここで、前記fp及び前記fqは、前記学習用類似度エンベディング特徴から任意にサンプリングされた前記2点である)で表され、
    前記類似度ロス(Similarity Loss)は次の数式
    Figure 0006867054


    (ここで前記Aは、前記学習用類似度エンベディング特徴から任意で前記2点をサンプリングする組み合わせ(Combination)の数を示し、前記yは、前記2点が同じクラスにあれば1、互いに異なるクラスにあれば0を有する数であり、前記sは、前記類似度を示す)で表されるクロスエントロピーロス(Cross Entropy Loss)であることを特徴とする請求項10に記載のテスティング方法。
  15. 前記学習用物体は、一つ以上の車線を表し、
    前記距離ロスは、次の数式
    Figure 0006867054

    (ここで前記L及び前記Lは、前記車線の中から任意に選択された2つの車線を示し、前記mean(L)は、前記Lの平均値を表し、前記mean(L)は、前記Lの平均値を表し、前記var(L)は、前記車線の中の各車線の分散値であり、前記n_combination(L,L)は、前記車線の中で2つの車線を選択する組み合わせのすべての場合の数であり、前記threshは閾値を表す)で表されるクラスタリングロス(Clustering Loss)であることを特徴とする請求項10に記載のテスティング方法。
  16. インスタンスセグメンテーションのための学習装置において、
    インストラクションを格納する少なくとも一つのメモリ;及び
    (I)少なくとも一つの類似度コンボリューションレイヤをもって、少なくとも一つのトレーニングイメージ内の一つ以上の物体を検出し得るニューラルネットワーク(Neural Network)から取得された少なくとも一つのネットワーク出力特徴に一つ以上の類似度コンボリューション演算を適用することで少なくとも一つの類似度エンベディング特徴を生成し、前記類似度コンボリューション演算は、前記ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上のエンベディングベクトルを生成するプロセスを遂行し、(II)少なくとも一つの類似度ロスレイヤをもって、前記類似度エンベディング特徴からサンプリングされた2点間で少なくとも一つの類似度を算出するようにし、前記類似度及びこれに対応する少なくとも一つのGTラベルイメージを参考にし、少なくとも一つの類似度ロスを生成するようにする類似度エンベディングプロセスを遂行し、(III)少なくとも一つの距離コンボリューションレイヤをもって、前記類似度エンベディング特徴に一つ以上の距離コンボリューション演算を適用するようにすることで少なくとも一つの距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記類似度エンベディング特徴を少なくとも一つの特徴空間に変更するプロセスを遂行し、(IV)少なくとも一つの距離ロスレイヤをもって、前記距離エンベディング特徴を利用して、一つ以上のインスタンスクラスのそれぞれの平均値と分散値とを算出し、前記インスタンスクラスのそれぞれの前記平均値間の相互クラス間の差異それぞれを増加させ、それぞれの前記インスタンスクラスの各クラス内の分散値を減少させるために利用される、少なくとも一つの距離ロスを生成するようにする距離エンベディングプロセスを遂行し、(V)前記類似度ロス及び前記距離ロスの中の少なくとも一つをバックプロパゲーション(Backpropagation)して、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つのパラメータを学習するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;
    を含むことを特徴とする学習装置。
  17. 前記プロセッサが、(VI)少なくとも一つのサンプリングレイヤ及び少なくとも一つの検出レイヤをもって、前記距離エンベディング特徴をサンプリングし、リグレッション(Regression)により前記物体の位置を検出して個別的に前記物体を識別するようにすることで、少なくとも一つのインスタンスセグメンテーションを生成するプロセスをさらに遂行すること特徴とする請求項16に記載の学習装置。
  18. 前記プロセッサが、(VII)少なくとも一つのセグメンテーションロスレイヤをもって、前記インスタンスセグメンテーション及びこれに対応する少なくとも一つのGTラベルイメージを参考して少なくとも一つのセグメンテーションロスを算出するようにし、前記セグメンテーションロスをバックプロパゲーションして、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つの前記パラメータを学習するプロセスをさらに遂行することを特徴とする請求項17に記載の学習装置。
  19. 前記GTラベルイメージは、前記インスタンスセグメンテーションに対応するGTラベルイメージであることを特徴とする請求項16に記載の学習装置。
  20. 前記類似度コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲よりさらに大きくなるように決定され、前記距離コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲または前記類似度コンボリューションレイヤの前記パラメータの調整範囲より大きくなるように決定されることを特徴とする請求項16に記載の学習装置。
  21. 前記類似度は次の数式
    Figure 0006867054

    (ここで、前記fp及び前記fqは、前記類似度エンベディング特徴から任意にサンプリングされた前記2点である)で表され、
    前記類似度ロス(Similarity Loss)は次の数式
    Figure 0006867054


    (ここで前記Aは、前記類似度エンベディング特徴から任意で前記2点をサンプリングする組み合わせ(Combination)の数を示し、前記yは、前記2点が同じクラスにあれば1、互いに異なるクラスにあれば0を有する数であり、前記sは、前記類似度を示す)で表されるクロスエントロピーロス(Cross Entropy Loss)であることを特徴とする請求項16に記載の学習装置。
  22. 前記物体は、一つ以上の車線を示すことを特徴とする請求項16に記載の学習装置。
  23. 前記距離ロスは、次の数式
    Figure 0006867054

    (ここで前記L及び前記Lは、前記車線の中から任意に選択された2つの車線を示し、前記mean(L)は、前記Lの平均値を表し、前記mean(L)は、前記Lの平均値を表して、前記var(L)は、前記車線の中の各車線の分散値であり、前記n_combination(L,L)は、前記車線の中で2つの車線を選択する組み合わせのすべての場合の数であり、前記threshは閾値を表す)で表されるクラスタリングロス(Clustering Loss)であることを特徴とする請求項22に記載の学習装置。
  24. 前記threshは、1に設定されることを特徴とする請求項23に記載の学習装置。
  25. インスタンスセグメンテーションのためのテスティング装置において、
    インストラクションを格納する少なくとも一つのメモリ;及び
    学習装置が、(i)少なくとも一つの類似度コンボリューションレイヤをもって、少なくとも一つのトレーニングイメージ内の一つ以上の学習用物体を検出し得るニューラルネットワーク(Neural Network)から取得された少なくとも一つの学習用ネットワーク出力特徴に一つ以上の類似度コンボリューション演算を適用することで少なくとも一つの学習用類似度エンベディング特徴を生成し、前記類似度コンボリューション演算は、前記学習用ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上の学習用エンベディングベクトルを生成するプロセスを遂行し、(ii)少なくとも一つの類似度ロスレイヤをもって、前記学習用類似度エンベディング特徴からサンプリングされた2点間で少なくとも一つの類似度を算出するようにし、前記類似度及びこれに対応する少なくとも一つのGTラベルイメージを参考にし、少なくとも一つの類似度ロスを生成するようにする類似度エンベディングプロセスを遂行し、(iii)少なくとも一つの距離コンボリューションレイヤをもって、前記学習用類似度エンベディング特徴に一つ以上の距離コンボリューション演算を適用するようにすることで少なくとも一つの学習用距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記学習用類似度エンベディング特徴を少なくとも一つの学習用特徴空間に変更するプロセスを遂行し、(iv)少なくとも一つの距離ロスレイヤをもって、前記学習用距離エンベディング特徴を利用して、一つ以上のインスタンスクラスのそれぞれの平均値と分散値とを算出し、前記インスタンスクラスのそれぞれの前記平均値間の相互クラス間の差異それぞれを増加させ、それぞれの前記インスタンスクラスの各クラス内の分散値を減少させるために利用される、少なくとも一つの距離ロスを生成するようにする距離エンベディングプロセスを遂行し、(v)前記類似度ロス及び前記距離ロスの中の少なくとも一つをバックプロパゲーションして、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つのパラメータを学習するプロセスを遂行した状態で、(I)前記類似度コンボリューションレイヤをもって、少なくとも一つのテストイメージ内の一つ以上のテスト用物体を検出し得る前記ニューラルネットワーク(Neural Network)から取得された少なくとも一つのテスト用ネットワーク出力特徴に、前記類似度コンボリューション演算を適用することで少なくとも一つのテスト用類似度エンベディング特徴を生成し、前記類似度コンボリューション演算は、前記テスト用ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上のテスト用エンベディングベクトルを生成するプロセス、(II)前記距離コンボリューションレイヤをもって、前記テスト用類似度エンベディング特徴に前記距離コンボリューション演算を適用するようにすることで少なくとも一つのテスト用距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記テスト用類似度エンベディング特徴を少なくとも一つのテスト用特徴空間に変更するプロセス、及び(III)少なくとも一つのサンプリングレイヤ及び少なくとも一つの検出レイヤをもって、前記テスト用距離エンベディング特徴をサンプリングし、リグレッション(Regression)により前記テスト用物体の位置を検出して個別的に前記テスト用物体を識別するようにすることで、少なくとも一つのテスト用インスタンスセグメンテーションを生成するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;
    を含むことを特徴とするテスティング装置。
  26. 前記学習装置が、(vi)前記サンプリングレイヤ及び前記検出レイヤをもって、前記学習用距離エンベディング特徴をサンプリングし、前記リグレッション(Regression)により前記学習用物体の位置を検出して個別的に前記学習用物体を識別するようにすることで、少なくとも一つの学習用インスタンスセグメンテーションを生成するプロセス及び(vii)少なくとも一つのセグメンテーションロスレイヤをもって、前記学習用インスタンスセグメンテーション及びこれに対応する少なくとも一つのGTラベルイメージを参考して少なくとも一つのセグメンテーションロスを算出するようにし、前記セグメンテーションロスをバックプロパゲーションして、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つの前記パラメータを学習するプロセスをさらに遂行することを特徴とする請求項25に記載のテスティング装置。
  27. 前記GTラベルイメージは、前記学習用インスタンスセグメンテーションに対応するGTラベルイメージであることを特徴とする請求項26に記載のテスティング装置。
  28. 前記類似度コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲よりさらに大きくなるように決定され、前記距離コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲または前記類似度コンボリューションレイヤの前記パラメータの調整範囲より大きくなるように決定されることを特徴とする請求項25に記載のテスティング装置。
  29. 前記類似度は次の数式
    Figure 0006867054

    (ここで、前記fp及び前記fqは、前記学習用類似度エンベディング特徴から任意にサンプリングされた前記2点である)で表され、
    前記類似度ロス(Similarity Loss)は次の数式
    Figure 0006867054

    (ここで前記Aは、前記学習用類似度エンベディング特徴から任意で前記2点をサンプリングする組み合わせ(Combination)の数を示し、前記yは、前記2点が同じクラスにあれば1、互いに異なるクラスにあれば0を有する数であり、前記sは、前記類似度を示す)で表されるクロスエントロピーロス(Cross Entropy Loss)であることを特徴とする請求項25に記載のテスティング装置。
  30. 前記学習用物体は、一つ以上の車線を表し、
    前記距離ロスは、次の数式
    Figure 0006867054

    (ここで前記L及び前記Lは、前記車線の中から任意に選択された2つの車線を示し、前記mean(L)は、前記Lの平均値を表し、前記mean(L)は、前記Lの平均値を表し、前記var(L)は、前記車線の中の各車線の分散値であり、前記n_combination(L,L)は、前記車線の中で2つの車線を選択する組み合わせのすべての場合の数であり、前記threshは閾値を表す)で表されるクラスタリングロス(Clustering Loss)であることを特徴とする請求項25に記載のテスティング装置。

JP2019212162A 2019-01-25 2019-11-25 マルチカメラシステム内のダブルエンベディング構成を利用して、道路利用者イベントを検出するために用いられるセグメンテーション性能向上のための学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置。{learning method and learning device for improving segmentation performance to be used for detecting road user events using double embedding configuration in multi−camera system and testing method and testing device using the same} Active JP6867054B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/257,993 US10551846B1 (en) 2019-01-25 2019-01-25 Learning method and learning device for improving segmentation performance to be used for detecting road user events using double embedding configuration in multi-camera system and testing method and testing device using the same
US16/257,993 2019-01-25

Publications (2)

Publication Number Publication Date
JP2020119505A JP2020119505A (ja) 2020-08-06
JP6867054B2 true JP6867054B2 (ja) 2021-04-28

Family

ID=68502920

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019212162A Active JP6867054B2 (ja) 2019-01-25 2019-11-25 マルチカメラシステム内のダブルエンベディング構成を利用して、道路利用者イベントを検出するために用いられるセグメンテーション性能向上のための学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置。{learning method and learning device for improving segmentation performance to be used for detecting road user events using double embedding configuration in multi−camera system and testing method and testing device using the same}

Country Status (5)

Country Link
US (1) US10551846B1 (ja)
EP (1) EP3686778B1 (ja)
JP (1) JP6867054B2 (ja)
KR (1) KR102320985B1 (ja)
CN (1) CN111488879B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11003920B2 (en) * 2018-11-13 2021-05-11 GM Global Technology Operations LLC Detection and planar representation of three dimensional lanes in a road scene
KR20210061839A (ko) * 2019-11-20 2021-05-28 삼성전자주식회사 전자 장치 및 그 제어 방법
CN111507985A (zh) * 2020-03-19 2020-08-07 北京市威富安防科技有限公司 图像实例分割优化处理方法、装置和计算机设备
CN111553916B (zh) * 2020-05-09 2023-11-14 中科计算技术创新研究院 基于多种特征和卷积神经网络的图像篡改区域检测方法
CN112561053B (zh) * 2020-11-10 2023-09-08 北京百度网讯科技有限公司 图像处理方法、预训练模型的训练方法、装置和电子设备
CN112819008B (zh) * 2021-01-11 2022-10-28 腾讯科技(深圳)有限公司 实例检测网络的优化方法、装置、介质及电子设备
KR102372988B1 (ko) * 2021-10-08 2022-03-14 주식회사 멀티플아이 시계열 이벤트를 이용하여 카메라의 자세 변화 결과를 추정하기 위한 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8879796B2 (en) * 2012-08-23 2014-11-04 Xerox Corporation Region refocusing for data-driven object localization
US10902243B2 (en) * 2016-10-25 2021-01-26 Deep North, Inc. Vision based target tracking that distinguishes facial feature targets
US11449985B2 (en) * 2016-12-02 2022-09-20 Regents Of The University Of Minnesota Computer vision for cancerous tissue recognition
US10497382B2 (en) * 2016-12-16 2019-12-03 Google Llc Associating faces with voices for speaker diarization within videos
US10540590B2 (en) * 2016-12-29 2020-01-21 Zhejiang Gongshang University Method for generating spatial-temporally consistent depth map sequences based on convolution neural networks
US10565434B2 (en) * 2017-06-30 2020-02-18 Google Llc Compact language-free facial expression embedding and novel triplet training scheme
GB201710877D0 (en) * 2017-07-06 2017-08-23 Nokia Technologies Oy A method and an apparatus for evaluating generative machine learning model
CN108595409A (zh) * 2018-03-16 2018-09-28 上海大学 一种基于神经网络的需求文档和服务文档匹配方法

Also Published As

Publication number Publication date
CN111488879A (zh) 2020-08-04
CN111488879B (zh) 2023-10-10
JP2020119505A (ja) 2020-08-06
KR20200092842A (ko) 2020-08-04
US10551846B1 (en) 2020-02-04
EP3686778A1 (en) 2020-07-29
EP3686778B1 (en) 2024-06-19
KR102320985B1 (ko) 2021-11-03

Similar Documents

Publication Publication Date Title
JP6867054B2 (ja) マルチカメラシステム内のダブルエンベディング構成を利用して、道路利用者イベントを検出するために用いられるセグメンテーション性能向上のための学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置。{learning method and learning device for improving segmentation performance to be used for detecting road user events using double embedding configuration in multi−camera system and testing method and testing device using the same}
JP6847464B2 (ja) 車線候補ピクセルを分類して車線を検出する学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting lane through classifying lane candidate pixels and test method, test device using the same}
KR102373456B1 (ko) 자동 주차 시스템을 제공하기 위해 결정 지점 간의 관계 및 결정 지점에 대한 리그레션 결과를 이용하여 주차 공간을 검출하는 학습 방법 및 학습 장치, 그리고 이를 이용한 테스팅 방법 및 테스팅 장치
JP6875021B2 (ja) 有用な学習データを取捨選別するためのcnn基盤の学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置
JP6847463B2 (ja) CNN(Convolutional Neural Network)を利用して車線を検出するための学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{LEARNING METHOD, LEARNING DEVICE FOR DETECTING LANE USING CNN AND TEST METHOD, TEST DEVICE USING THE SAME}
JP6855091B2 (ja) ニューラルネットワーク学習に利用されるオートラベリングされたイメージのうちでラベル検収のためのサンプルイメージを取得する方法、及びそれを利用したサンプルイメージ取得装置
JP6849932B2 (ja) 高精密度のイメージを分析するためのディープラーニングネットワークを使用するためにトレーニングイメージをオートラベリングするオートラベルリング装置のハイパーパラメータを最適化する方法、及びこれを利用した最適化装置
JP6932395B2 (ja) イメージを分析するために、ディープラーニングネットワークに利用するためのトレーニングイメージに対するラベルリング信頼度を自動的に評価するための方法、及びこれを利用した信頼度評価装置
JP6980289B2 (ja) 車線モデルを利用して車線を検出し得る学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting lane using lane model and test method, test device using the same}
JP6397379B2 (ja) 変化領域検出装置、方法、及びプログラム
CN111491131B (zh) 由每个对象检测器检测的对象检测信息的集成方法及装置
JP6910081B2 (ja) 協調走行を遂行する各車両から取得された各走行イメージを統合する方法及びこれを利用した走行イメージ統合装置
CN111508252B (zh) 利用v2x信息集成技术更新高清地图的方法和装置
CN112101114A (zh) 一种视频目标检测方法、装置、设备以及存储介质
KR102313129B1 (ko) 자율 주행에 대한 논리적 근거를 제시하기 위하여, 관리자가 객체 검출기의 객체 검출 프로세스를 평가할 수 있도록 지원하는 방법 및 장치
CN113095351A (zh) 借助于初始标记的改善生成经标记的数据的方法
CN113826114A (zh) 用于评估神经网络的特定于功能的鲁棒性的方法
CN117274740A (zh) 一种红外目标检测方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191125

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20200706

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20200709

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20201022

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210305

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210401

R150 Certificate of patent or registration of utility model

Ref document number: 6867054

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250