JP6867054B2

JP6867054B2 - マルチカメラシステム内のダブルエンベディング構成を利用して、道路利用者イベントを検出するために用いられるセグメンテーション性能向上のための学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置。｛ｌｅａｒｎｉｎｇｍｅｔｈｏｄａｎｄｌｅａｒｎｉｎｇｄｅｖｉｃｅｆｏｒｉｍｐｒｏｖｉｎｇｓｅｇｍｅｎｔａｔｉｏｎｐｅｒｆｏｒｍａｎｃｅｔｏｂｅｕｓｅｄｆｏｒｄｅｔｅｃｔｉｎｇｒｏａｄｕｓｅｒｅｖｅｎｔｓｕｓｉｎｇｄｏｕｂｌｅｅｍｂｅｄｄｉｎｇｃｏｎｆｉｇｕｒａｔｉｏｎｉｎｍｕｌｔｉ−ｃａｍｅｒａｓｙｓｔｅｍａｎｄｔｅｓｔｉｎｇｍｅｔｈｏｄａｎｄｔｅｓｔｉｎｇｄｅｖｉｃｅｕｓｉｎｇｔｈｅｓａｍｅ｝

Info

Publication number: JP6867054B2
Application number: JP2019212162A
Authority: JP
Inventors: 金桂賢; 金鎔重; 金寅洙; 金鶴京; 南雲鉉; 夫碩▲くん▼; 成明哲; 呂東勳; 柳宇宙; 張泰雄; 鄭景中; 諸泓模; 趙浩辰
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2019-01-25
Filing date: 2019-11-25
Publication date: 2021-04-28
Anticipated expiration: 2039-11-25
Also published as: CN111488879A; CN111488879B; JP2020119505A; KR20200092842A; US10551846B1; EP3686778A1; EP3686778B1; KR102320985B1

Description

本発明は、マルチカメラシステム内のダブルエンベディング構成を利用した歩行者イベント及び自動車イベントを含む道路利用者イベントを検出するために用いられるセグメンテーション性能向上のための学習方法に関し；より詳しくは、インスタンスセグメンテーション（ＩｎｓｔａｎｃｅＳｅｇｍｅｎｔａｔｉｏｎ）のための前記学習方法において、（ａ）少なくとも一つのトレーニングイメージ内の一つ以上の物体を検出し得るニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）から少なくとも一つのネットワーク出力特徴を取得するプロセスを遂行する段階；（ｂ）少なくとも一つの類似度コンボリューション（ＳｉｍｉｌａｒｉｔｙＣｏｎｖｏｌｕｔｉｏｎ）レイヤをもって、前記ネットワーク出力特徴に一つ以上の類似度コンボリューション演算を適用するようにすることで、少なくとも一つの類似度エンベディング（Ｅｍｂｅｄｄｉｎｇ）の特徴を生成し、前記類似度コンボリューション演算は、前記ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上のエンベディングベクトルを生成するプロセスを遂行する段階；（ｃ）少なくとも一つの類似度ロスレイヤをもって、前記類似度エンベディング特徴からサンプリングされた２点間で少なくとも一つの類似度を算出するようにし、前記類似度及びこれに対応する少なくとも一つのＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）ラベルイメージを参考にして少なくとも一つの類似度ロスを生成するようにする類似度エンベディングプロセスを遂行する段階；（ｄ）少なくとも一つの距離コンボリューション（ＤｉｓｔａｎｃｅＣｏｎｖｏｌｕｔｉｏｎ）レイヤをもって、前記類似度エンベディング特徴に一つ以上の距離コンボリューション演算を適用するようにすることで、少なくとも一つの距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記類似度エンベディング特徴を少なくとも一つの特徴空間に変更するプロセスを遂行する段階；（ｅ）少なくとも一つの距離ロスレイヤをもって、前記距離エンベディング特徴を利用して、一つ以上のインスタンスクラスのそれぞれの平均値と分散値とを算出し、前記インスタンスクラスのそれぞれの前記平均値間の相互クラス間の差異それぞれを増加させ、それぞれの前記インスタンスクラスの各クラス内の分散値を減少させるために利用される、少なくとも一つの距離ロスを生成するようにする距離エンベディングプロセスを遂行する段階；及び（ｆ）前記類似度ロス及び前記距離ロスの中の少なくとも一つをバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）して、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つのパラメータを学習するプロセスを遂行する段階；を含むことを特徴とする学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置に関する。

ディープラーニング（ＤｅｅｐＬｅａｒｎｉｎｇ）は、物やデータを群集化・分類するのに用いられる技術である。例えば、コンピュータは写真だけで犬と猫を区別することができない。しかし、人はとても簡単に区別することができる。このため「機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）」という方法が考案された。これはコンピュータをもって入力された多くのデータから類似した物を分類するようにさせる技術である。格納されている犬の写真と似たような写真が入力されれば、これを犬の写真だとコンピュータが分類するようにしたのである。

データをいかに分類するかをめぐり、すでに多くの機械学習アルゴリズムが登場した。「決定木」や「ベイジアンネットワーク」「サポートベクターマシン（ＳＶＭ）」「人工神経網」などが代表的だ。このうち、ディープラーニングは人工神経網の後裔だ。

ディープ・コンボリューション・ニューラル・ネットワーク（ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ；ＤｅｅｐＣＮＮ）は、ディープラーニング分野で起きた驚くべき発展の核心である。ＣＮＮは、文字の認識問題を解くために９０年代にすでに使われたが、現在のように広く使われるようになったのは最近の研究結果のおかげだ。このようなディープＣＮＮは２０１２年ＩｍａｇｅＮｅｔイメージ分類コンテストで他の競争相手に勝って優勝を収めた。そして、コンボリューションニューラルネットワークは、機械学習分野で非常に有用なツールとなった。

イメージセグメンテーション（Ｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎ）は、少なくとも一つの入力イメージを利用して、少なくとも一つのラベルイメージを生成する方法である。最近、ディープランニング（ＤｅｅｐＬｅａｒｎｉｎｇ）技術が脚光を浴びて、セグメンテーションでもディープラーニングが多く利用される傾向にある。前記セグメンテーションは、一つ以上のコンボリューション演算を用いて前記ラベルイメージを生成する方法など、初期にはエンコーダ（Ｅｎｃｏｄｅｒ）のみを利用する方法で行われた。その後、前記エンコーダにより前記イメージの特徴を抽出し、デコーダ（Ｄｅｃｏｄｅｒ）によってこれらの特徴を前記ラベルイメージで復元するエンコーダ・デコーダ（Ｅｎｃｏｄｅｒ−Ｄｅｃｏｄｅｒ）構成を用いた方法で前記セグメンテーションが行われた。

図１は従来のニューラルネットワークを利用してイメージセグメンテーションを遂行するプロセスを簡略に示した図面である。

図１を参照すれば、従来の車線検出方法では、学習装置が入力イメージを受けて多数のコンボリューションレイヤをもって、前記入力イメージに多数のコンボリューション演算及びＲｅＬＵのような非線形演算を適用するようにして、一つ以上のデコンボリューションレイヤをもって特徴マップに一つ以上のデコンボリューション演算及びソフトマックス演算を適用するようにしてセグメンテーション結果を生成する。

しかし、図１に示されたニューラルネットワークのみを利用しては、個々のクラスを明確に識別することは難しく、特に各前記クラスの少なくとも一つのエッジ部分の情報を正確に識別することが難しいという問題点が存在する。

併せて、車線のような物体を検出するためのインスタンスセグメンテーションを遂行する他の従来の方法は、セグメンテーションプロセスの後にクラスタリング（Ｃｌｕｓｔｅｒｉｎｇ）プロセスによって遂行される。しかし、これらの二つのプロセスは異質的であるため、この二つのプロセスがともに学習されると性能が落ちるという問題点が存在する。

本発明は、前述した問題点を全て解決することを目的とする。

本発明は、クラスタリングプロセスなしでインスタンスセグメンテーションの結果を生成し、前記インスタンスセグメンテーションの結果を利用して、少なくとも一つの物体を検出するための方法を提供することを他の目的とする。

本発明は、追加エンベディングプロセスによってそれぞれのクラスをより明確に識別し、それぞれの前記クラスの少なくとも一つのエッジをより正確に抽出して、物体を正確に識別する方法を提供することをまた他の目的とする。

前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成は次の通りである。

本発明の一態様によれば、インスタンスセグメンテーション（ＩｎｓｔａｎｃｅＳｅｇｍｅｎｔａｔｉｏｎ）のための学習方法において、（ａ）学習装置が、少なくとも一つのトレーニングイメージ内の一つ以上の物体を検出し得るニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）から少なくとも一つのネットワーク出力特徴（ＮｅｔｗｏｒｋＯｕｔｐｕｔＦｅａｔｕｒｅ）を取得するプロセスを遂行する段階；（ｂ）前記学習装置が、少なくとも一つの類似度コンボリューション（ＳｉｍｉｌａｒｉｔｙＣｏｎｖｏｌｕｔｉｏｎ）レイヤをもって、前記ネットワーク出力特徴に一つ以上の類似度コンボリューション演算を適用するようにすることで、少なくとも一つの類似度エンベディング（Ｅｍｂｅｄｄｉｎｇ）の特徴を生成し、前記類似度コンボリューション演算は、前記ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上のエンベディングベクトルを生成するプロセスを遂行する段階；（ｃ）前記学習装置が、少なくとも一つの類似度ロスレイヤをもって、前記類似度エンベディング特徴からサンプリングされた２点間の少なくとも一つの類似度を算出するようにし、前記類似度及びこれに対応する少なくとも一つのＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）ラベルイメージを参考にし、少なくとも一つの類似度ロスを生成するようにする類似度エンベディングプロセスを遂行する段階；（ｄ）前記学習装置が、少なくとも一つの距離コンボリューション（ＤｉｓｔａｎｃｅＣｏｎｖｏｌｕｔｉｏｎ）レイヤをもって、前記類似度エンベディング特徴に一つ以上の距離コンボリューション演算を適用するようにすることで、少なくとも一つの距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記類似度エンベディング特徴を少なくとも一つの特徴空間に変更するプロセスを遂行する段階；（ｅ）前記学習装置が、少なくとも一つの距離ロスレイヤをもって、前記距離エンベディング特徴を利用して、一つ以上のインスタンスクラスのそれぞれの平均値と分散値とを算出し、前記インスタンスクラスのそれぞれの前記平均値間の相互クラス間の差異それぞれを増加させ、それぞれの前記インスタンスクラスの各クラス内の分散値を減少させるために利用される、少なくとも一つの距離ロスを生成するようにする距離エンベディングプロセスを遂行する段階；及び（ｆ）前記学習装置が、前記類似度ロス及び前記距離ロスの中の少なくとも一つをバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）して、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つのパラメータを学習するプロセスを遂行する段階；を含むことを特徴とする学習方法が提供される。

一例として、（ｇ）前記学習装置が、少なくとも一つのサンプリングレイヤ及び少なくとも一つの検出レイヤをもって、前記距離エンベディング特徴をサンプリングし、リグレッション（Ｒｅｇｒｅｓｓｉｏｎ）により前記物体の位置を検出して個別的に前記物体を識別するようにすることで、少なくとも一つのインスタンスセグメンテーションを生成するプロセスを遂行する段階；をさらに含む。

一例として、（ｈ）前記学習装置が、少なくとも一つのセグメンテーションロスレイヤをもって、前記インスタンスセグメンテーション及びこれに対応する少なくとも一つのＧＴラベルイメージを参考して少なくとも一つのセグメンテーションロスを算出するようにし、前記セグメンテーションロスをバックプロパゲーションして、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つの前記パラメータを学習するプロセスを遂行する段階；をさらに含む。

一例として、前記類似度コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲よりさらに大きくなるように決定され、前記距離コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲または前記類似度コンボリューションレイヤの前記パラメータの調整範囲より大きくなるように決定される前記ＧＴラベルイメージは、前記インスタンスセグメンテーションに対応するＧＴラベルイメージである。

一例として、前記類似度コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲よりさらに大きくなるように決定され、前記距離コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲または前記類似度コンボリューションレイヤの前記パラメータの調整範囲より大きくなるように決定される。

一例として、前記類似度は次の数式

（ここで、前記ｆｐ及び前記ｆｑは、前記類似度エンベディング特徴から任意にサンプリングされた前記２点である）で表され、

前記類似度ロス（ＳｉｍｉｌａｒｉｔｙＬｏｓｓ）は次の数式

（ここで前記Ａは、前記類似度エンベディング特徴から任意で前記２点をサンプリングする組み合わせ（Ｃｏｍｂｉｎａｔｉｏｎ）の数を示し、前記ｙは、前記２点が同じクラスにあれば１、互いに異なるクラスにあれば０を有する数であり、前記ｓは、前記類似度を示す）で表されるクロスエントロピーロス（ＣｒｏｓｓＥｎｔｒｏｐｙＬｏｓｓ）である。

一例として、前記物体は、一つ以上の車線を示す。

一例として、前記距離ロスは、次の数式

（ここで前記Ｌ_１及び前記Ｌ_２は、前記車線の中から任意に選択された２つの車線を表し、前記ｍｅａｎ（Ｌ_１）は、前記Ｌ_１の平均値を表し、前記ｍｅａｎ（Ｌ_２）は、前記Ｌ_２の平均値を表し、前記ｖａｒ（Ｌ_ｉ）は、前記車線の中の各車線の分散値であり、前記ｎ＿ｃｏｍｂｉｎａｔｉｏｎ（Ｌ_ｉ、Ｌ_２）は、前記車線の中で２つの車線を選択する組み合わせのすべての場合の数であり、前記ｔｈｒｅｓｈは閾値を表す）で表されるクラスタリングロス（ＣｌｕｓｔｅｒｉｎｇＬｏｓｓ）である。

一例として、前記ｔｈｒｅｓｈは、１に設定される。

本発明のまた態様によれば、インスタンスセグメンテーション（ＩｎｓｔａｎｃｅＳｅｇｍｅｎｔａｔｉｏｎ）のためのテスティング方法において、（ａ）学習装置が、（ｉ）少なくとも一つの類似度コンボリューションレイヤをもって、少なくとも一つのトレーニングイメージ内の一つ以上の学習用物体を検出し得るニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）から取得された少なくとも一つの学習用ネットワーク出力特徴に一つ以上の類似度コンボリューション演算を適用することで少なくとも一つの学習用類似度エンベディング特徴を生成し、前記類似度コンボリューション演算は、前記学習用ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上の学習用エンベディングベクトルを生成するプロセスを遂行し、（ｉｉ）少なくとも一つの類似度ロスレイヤをもって、前記学習用類似度エンベディング特徴からサンプリングされた２点間で少なくとも一つの類似度を算出するようにし、前記類似度及びこれに対応する少なくとも一つのＧＴラベルイメージを参考にし、少なくとも一つの類似度ロスを生成するようにする類似度エンベディングプロセスを遂行し、（ｉｉｉ）少なくとも一つの距離コンボリューションレイヤをもって、前記学習用類似度エンベディング特徴に一つ以上の距離コンボリューション演算を適用するようにすることで少なくとも一つの学習用距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記学習用類似度エンベディング特徴を少なくとも一つの学習用特徴空間に変更するプロセスを遂行し、（ｉｖ）少なくとも一つの距離ロスレイヤをもって、前記学習用距離エンベディング特徴を利用して、一つ以上のインスタンスクラスのそれぞれの平均値と分散値とを算出し、前記インスタンスクラスのそれぞれの前記平均値間の相互クラス間の差異それぞれを増加させ、それぞれの前記インスタンスクラスの各クラス内の分散値を減少させるために利用される、少なくとも一つの距離ロスを生成するようにする距離エンベディングプロセスを遂行し、（ｖ）前記類似度ロス及び前記距離ロスの中から少なくとも一つをバックプロパゲーションして、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中から少なくとも一つのパラメータを学習するプロセスを遂行した状態で、テスティング装置が、少なくとも一つのテストイメージ内の一つ以上のテスト用物体を検出し得る前記ニューラルネットワークから少なくとも一つのテスト用ネットワーク出力特徴を取得する段階；（ｂ）前記テスティング装置が、前記類似度コンボリューションレイヤをもって、前記テスト用ネットワーク出力特徴に前記類似度コンボリューション演算を適用することにより、少なくとも一つのテスト用類似度エンベディング特徴を生成し、前記類似度コンボリューション演算は、前記テスト用ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上のテスト用エンベディングベクトルを生成するプロセスを遂行する段階；（ｃ）前記テスティング装置が、前記距離コンボリューションレイヤをもって、前記テスト用類似度エンベディング特徴に前記距離コンボリューション演算を適用するようにすることで少なくとも一つのテスト用距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記テスト用類似度エンベディング特徴を少なくとも一つのテスト用特徴空間に変更するプロセスを遂行する段階；及び（ｄ）前記テスティング装置が、少なくとも一つのサンプリングレイヤ及び少なくとも一つの検出レイヤをもって、前記テスト用距離エンベディング特徴をサンプリングし、リグレッション（Ｒｅｇｒｅｓｓｉｏｎ）により前記テスト用物体の位置を検出して個別的に前記テスト用物体を識別するようにすることで、少なくとも一つのテスト用インスタンスセグメンテーションを生成するプロセスを遂行する段階；を含むことを特徴とするテスティング方法が提供される。

一例として、前記（ａ）段階で、前記学習装置が、（ｖｉ）前記サンプリングレイヤ及び前記検出レイヤをもって、前記学習用距離エンベディング特徴をサンプリングし、前記リグレッション（Ｒｅｇｒｅｓｓｉｏｎ）により前記学習用物体の位置を検出して個別的に前記学習用物体を識別するようにすることで、少なくとも一つの学習用インスタンスセグメンテーションを生成するプロセス及び（ｖｉｉ）少なくとも一つのセグメンテーションロスレイヤをもって、前記学習用インスタンスセグメンテーション及びこれに対応する少なくとも一つのＧＴラベルイメージを参考して少なくとも一つのセグメンテーションロスを算出するようにし、前記セグメンテーションロスをバックプロパゲーションして、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つの前記パラメータを学習するプロセスをさらに遂行する。

一例として、前記ＧＴラベルイメージは、前記学習用インスタンスセグメンテーションに対応するＧＴラベルイメージである。

一例として、前記類似度は次の数式

（ここで、前記ｆｐ及び前記ｆｑは、前記学習用類似度エンベディング特徴から任意にサンプリングされた前記２点である）で表され、

（ここで前記Ａは、前記学習用類似度エンベディング特徴から任意で前記２点をサンプリングする組み合わせ（Ｃｏｍｂｉｎａｔｉｏｎ）の数を示し、前記ｙは、前記２点が同じクラスにあれば１、互いに異なるクラスにあれば０を有する数であり、前記ｓは、前記類似度を示す）で表されるクロスエントロピーロス（ＣｒｏｓｓＥｎｔｒｏｐｙＬｏｓｓ）である。

一例として、前記学習用物体は、一つ以上の車線を表し、

前記距離ロスは、次の数式

（ここで前記Ｌ_１及び前記Ｌ_２は、前記車線の中から任意に選択された２つの車線を示し、前記ｍｅａｎ（Ｌ_１）は、前記Ｌ_１の平均値を表し、前記ｍｅａｎ（Ｌ_２）は、前記Ｌ_２の平均値を表し、前記ｖａｒ（Ｌ_ｉ）は、前記車線の中の各車線の分散値であり、前記ｎ＿ｃｏｍｂｉｎａｔｉｏｎ（Ｌ_ｉ，Ｌ_２）は、前記車線の中で２つの車線を選択する組み合わせのすべての場合の数であり、前記ｔｈｒｅｓｈは閾値を表す）で表されるクラスタリングロス（ＣｌｕｓｔｅｒｉｎｇＬｏｓｓ）であることを特徴とする。

本発明のまた他の態様によれば、インスタンスセグメンテーションのための学習装置において、インストラクションを格納する少なくとも一つのメモリ；及び（Ｉ）少なくとも一つの類似度コンボリューションレイヤをもって、少なくとも一つのトレーニングイメージ内の一つ以上の物体を検出し得るニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）から取得された少なくとも一つのネットワーク出力特徴に一つ以上の類似度コンボリューション演算を適用することで少なくとも一つの類似度エンベディング特徴を生成し、前記類似度コンボリューション演算は、前記ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上のエンベディングベクトルを生成するプロセスを遂行し、（ＩＩ）少なくとも一つの類似度ロスレイヤをもって、前記類似度エンベディング特徴からサンプリングされた２点間で少なくとも一つの類似度を算出するようにし、前記類似度及びこれに対応する少なくとも一つのＧＴラベルイメージを参考にし、少なくとも一つの類似度ロスを生成するようにする類似度エンベディングプロセスを遂行し、（ＩＩＩ）少なくとも一つの距離コンボリューションレイヤをもって、前記類似度エンベディング特徴に一つ以上の距離コンボリューション演算を適用するようにすることで少なくとも一つの距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記類似度エンベディング特徴を少なくとも一つの特徴空間に変更するプロセスを遂行し、（ＩＶ）少なくとも一つの距離ロスレイヤをもって、前記距離エンベディング特徴を利用して、一つ以上のインスタンスクラスのそれぞれの平均値と分散値とを算出し、前記インスタンスクラスのそれぞれの前記平均値間の相互クラス間の差異それぞれを増加させ、それぞれの前記インスタンスクラスの各クラス内の分散値を減少させるために利用される、少なくとも一つの距離ロスを生成するようにする距離エンベディングプロセスを遂行し、（Ｖ）前記類似度ロス及び前記距離ロスの中の少なくとも一つをバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）して、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つのパラメータを学習するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ；を含むことを特徴とする学習装置が提供される。

一例として、前記プロセッサが、（ＶＩ）少なくとも一つのサンプリングレイヤ及び少なくとも一つの検出レイヤをもって、前記距離エンベディング特徴をサンプリングし、リグレッション（Ｒｅｇｒｅｓｓｉｏｎ）により前記物体の位置を検出して個別的に前記物体を識別するようにすることで、少なくとも一つのインスタンスセグメンテーションを生成するプロセスをさらに遂行する。

一例として、前記プロセッサが、（ＶＩＩ）少なくとも一つのセグメンテーションロスレイヤをもって、前記インスタンスセグメンテーション及びこれに対応する少なくとも一つのＧＴラベルイメージを参考して少なくとも一つのセグメンテーションロスを算出するようにし、前記セグメンテーションロスをバックプロパゲーションして、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つの前記パラメータを学習するプロセスをさらに遂行する。

一例として、前記ＧＴラベルイメージは、前記インスタンスセグメンテーションに対応するＧＴラベルイメージである。

一例として、前記類似度は次の数式

(ここで前記Ａは、前記類似度エンベディング特徴から任意で前記２点をサンプリングする組み合わせ（Ｃｏｍｂｉｎａｔｉｏｎ）の数を示し、前記ｙは、前記２点が同じクラスにあれば１、互いに異なるクラスにあれば０を有する数であり、前記ｓは、前記類似度を示す）で表されるクロスエントロピーロス（ＣｒｏｓｓＥｎｔｒｏｐｙＬｏｓｓ）である。

一例として、前記物体は、一つ以上の車線を示す。

一例として、前記距離ロスは、次の数式

（ここで前記Ｌ_１及び前記Ｌ_２は、前記車線の中から任意に選択された２つの車線を示し、前記ｍｅａｎ（Ｌ_１）は、前記の平均値を表し、前記ｍｅａｎ（Ｌ_２）は、前記Ｌ_２の平均値を表して、前記ｖａｒ（Ｌ_ｉ）は、前記車線の中の各車線の分散値であり、前記ｎ＿ｃｏｍｂｉｎａｔｉｏｎ（Ｌ_ｉ，Ｌ_２）は、前記車線の中で２つの車線を選択する組み合わせのすべての場合の数であり、前記ｔｈｒｅｓｈは閾値を表す）で表されるクラスタリングロス（ＣｌｕｓｔｅｒｉｎｇＬｏｓｓ）であることを特徴とする。

一例として、前記ｔｈｒｅｓｈは、１に設定される。

本発明のまた他の態様によれば、インスタンスセグメンテーションのためのテスティング装置において、インストラクションを格納する少なくとも一つのメモリ；及び学習装置が、（ｉ）少なくとも一つの類似度コンボリューションレイヤをもって、少なくとも一つのトレーニングイメージ内の一つ以上の学習用物体を検出し得るニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）から取得された少なくとも一つの学習用ネットワーク出力特徴に一つ以上の類似度コンボリューション演算を適用することで少なくとも一つの学習用類似度エンベディング特徴を生成し、前記類似度コンボリューション演算は、前記学習用ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上の学習用エンベディングベクトルを生成するプロセスを遂行し、（ｉｉ）少なくとも一つの類似度ロスレイヤをもって、前記学習用類似度エンベディング特徴からサンプリングされた２点間で少なくとも一つの類似度を算出するようにし、前記類似度及びこれに対応する少なくとも一つのＧＴラベルイメージを参考にし、少なくとも一つの類似度ロスを生成するようにする類似度エンベディングプロセスを遂行し、（ｉｉｉ）少なくとも一つの距離コンボリューションレイヤをもって、前記学習用類似度エンベディング特徴に一つ以上の距離コンボリューション演算を適用するようにすることで少なくとも一つの学習用距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記学習用類似度エンベディング特徴を少なくとも一つの学習用特徴空間に変更するプロセスを遂行し、（ｉｖ）少なくとも一つの距離ロスレイヤをもって、前記学習用距離エンベディング特徴を利用して、一つ以上のインスタンスクラスのそれぞれの平均値と分散値とを算出し、前記インスタンスクラスのそれぞれの前記平均値間の相互クラス間の差異それぞれを増加させ、それぞれの前記インスタンスクラスの各クラス内の分散値を減少させるために利用される、少なくとも一つの距離ロスを生成するようにする距離エンベディングプロセスを遂行し、（ｖ）前記類似度ロス及び前記距離ロスの中の少なくとも一つをバックプロパゲーションして、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つのパラメータを学習するプロセスを遂行した状態で、（Ｉ）前記類似度コンボリューションレイヤをもって、少なくとも一つのテストイメージ内の一つ以上のテスト用物体を検出し得る前記ニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）から取得された少なくとも一つのテスト用ネットワーク出力特徴に、前記類似度コンボリューション演算を適用することで少なくとも一つのテスト用類似度エンベディング特徴を生成し、前記類似度コンボリューション演算は、前記テスト用ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上のテスト用エンベディングベクトルを生成するプロセス、（ＩＩ）前記距離コンボリューションレイヤをもって、前記テスト用類似度エンベディング特徴に前記距離コンボリューション演算を適用するようにすることで少なくとも一つのテスト用距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記テスト用類似度エンベディング特徴を少なくとも一つのテスト用特徴空間に変更するプロセス、及び（ＩＩＩ）少なくとも一つのサンプリングレイヤ及び少なくとも一つの検出レイヤをもって、前記テスト用距離エンベディング特徴をサンプリングし、リグレッション（Ｒｅｇｒｅｓｓｉｏｎ）により前記テスト用物体の位置を検出して個別的に前記テスト用物体を識別するようにすることで、少なくとも一つのテスト用インスタンスセグメンテーションを生成するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ；を含むことを特徴とするテスティング装置が提供される。

一例として、前記学習装置が、（ｖｉ）前記サンプリングレイヤ及び前記検出レイヤをもって、前記学習用距離エンベディング特徴をサンプリングし、前記リグレッション（Ｒｅｇｒｅｓｓｉｏｎ）により前記学習用物体の位置を検出して個別的に前記学習用物体を識別するようにすることで、少なくとも一つの学習用インスタンスセグメンテーションを生成するプロセス及び（ｖｉｉ）少なくとも一つのセグメンテーションロスレイヤをもって、前記学習用インスタンスセグメンテーション及びこれに対応する少なくとも一つのＧＴラベルイメージを参考して少なくとも一つのセグメンテーションロスを算出するようにし、前記セグメンテーションロスをバックプロパゲーションして、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つの前記パラメータを学習するプロセスをさらに遂行する。

一例として、前記類似度は次の数式

一例として、前記学習用物体は、一つ以上の車線を表し、

前記距離ロスは、次の数式

（ここで前記Ｌ_１及び前記Ｌ_２は、前記車線の中から任意に選択された２つの車線を示し、前記ｍｅａｎ（Ｌ_１）は、前記Ｌ_１の平均値を表し、前記ｍｅａｎ（Ｌ_２）は、前記Ｌ_２の平均値を表し、前記ｖａｒ（Ｌ_ｉ）は、前記車線の中の各車線の分散値であり、前記ｎ＿ｃｏｍｂｉｎａｔｉｏｎ（Ｌ_ｉ，Ｌ_２）は、前記車線の中で２つの車線を選択する組み合わせのすべての場合の数であり、前記ｔｈｒｅｓｈは閾値を表す）で表されるクラスタリングロス（ＣｌｕｓｔｅｒｉｎｇＬｏｓｓ）である。

本発明によれば、ニューラルネットワークから出力された少なくとも一つ特徴マップの類似度エンベディングプロセス及び距離インベストメントプロセスによってインスタンスセグメンテーション結果を生成して物体を検出し得る効果がある。

また、本発明によれば、追加エンベディングプロセスによってそれぞれのクラスをより明確に識別し、各クラスの少なくとも一つエッジ部分をより正確に抽出することにより、正確に物体を識別し得る効果がある。

本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうちの一部に過ぎず、本発明が属する技術分野でおいて、通常の知識を有する者（以下「通常の技術者」）は、発明的作業が行われることなくこの図面に基づいて他の図面が得られ得る。

は従来のニューラルネットワークを利用してイメージセグメンテーションを遂行するプロセスを簡略に示した図面である。は、本発明の一例に係るいわゆるダブルエンベディング構成を追加的に利用して一つ以上の物体を検出する方法を示した図面である。は、本発明の一例に係る前記ダブルエンベディング構成を利用して、前記イメージセグメンテーションの性能向上のための学習プロセスを示したフローチャートである。

後述する本発明に対する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は当業者が本発明を実施することができるように充分詳細に説明される。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一例と関連して、本発明の精神及び範囲を逸脱せず、かつ他の実施例で実装され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を逸脱せずに分類され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されれば、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号はいくつかの側面にかけて同一か類似する機能を指称する。

また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。

本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ（例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ）でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではない。

以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面に基づいて詳細に説明する。

メトリック学習（ＭｅｔｒｉｃＬｅａｒｎｉｎｇ）を利用した特徴エンベディング方法は、機械学習時代以来、広範囲に研究されてきた。最近、ディープラーニング（ＤｅｅｐＬｅａｒｎｉｎｇ）を利用して多様なエンベディング方法に関する論文がたくさん出されている。ワードエンベディング（ＷｏｒｄＥｍｂｅｄｄｉｎｇ）方法は、少なくとも一つの単語をｒ次元の少なくとも一つのベクトルでマッピング（Ｍａｐｐｉｎｇ）させることを意味する。例えば、「ｃａｔ」という言葉は、少なくとも一つのベクトルでマッピングされ、文字は意味を有する少なくとも一つの数字に変換されるのである。ビジョン（Ｖｉｓｉｏｎ）分野での他のエンベディング方法は、少なくとも一つのイメージを少なくとも一つの特定の特徴空間に変換することを意味する。そして、前記メトリック学習は、類似度や距離などの少なくとも一つの測定（Ｍｅａｓｕｒｅ）を通して行われる学習を意味する。

図２は、本発明の一例に係るいわゆるダブルエンベディング構成を追加的に利用して一つ以上の物体を検出する学習方法を概略的に示した図面である。

図２を参照すれば、本発明に係る前記物体を検出する前記学習方法は、学習済みＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）を利用し、追加的にいわゆるダブルエンベディング構成を利用してインスタンスセグメンテーション（ＩｎｓｔａｎｃｅＳｅｇｍｅｎｔａｔｉｏｎ）の結果を生成する。つまり、図２に示した前記ニューラルネットワーク１００は、図１に示した前記ＤＮＮのエンコーダ・デコーダの構成を含む。少なくとも一つのネットワーク出力特徴は、前記ニューラルネットワーク１００から取得され、ダブルエンベディングプロセスが前記ネットワーク出力特徴に適用される。

図２を再び参照すれば、類似度エンベディングブロック３００及び距離エンベディングブロック４００は、本発明の前記学習済みニューラルネットワーク１００の出力側に連結される。また、少なくとも一つのサンプリングレイヤ５００及び少なくとも一つの検出レイヤ６００が車線のような前記物体を検出するために前記距離エンベディングブロック４００の出力側に追加的に連結される。前記類似度エンベディングブロック３００及び前記距離エンベディングブロック４００は、微細調整（ＦｉｎｅＴｕｎｉｎｇ）によって追加的に学習される。

図３は、本発明の一例に係る前記ダブルエンベディング構成を利用して、前記イメージセグメンテーションの性能を向上させるための学習プロセスを示したフローチャートである。

図２及び図３を参照れば、本発明に係る前記インスタンスセグメンテーションのための前記学習過程において、前記ネットワーク出力特徴２００は、少なくとも一つのトレーニングのイメージ１０に前記ニューラルネットワーク１００の少なくとも一つの演算を適用して生成される（Ｓ０１）。この際、前記ニューラルネットワーク１００の前記演算は、図１に示した前記ＤＮＮの前記エンコーダ・デコーダ構成の少なくとも一つの演算が利用され得る。

その後、少なくとも一つの類似度コンボリューションレイヤ３１０をもって、前記ネットワーク出力特徴２００に一つ以上の類似度コンボリューション演算を適用するようにすることで、少なくとも一つの類似度エンベディング特徴３２０を生成し（Ｓ０２）、前記類似度コンボリューション演算は、前記ネットワーク出力特徴２００のピクセルの少なくとも一部分に対応する一つ以上のエンベディングベクトルを出力する。

パラメータが学習された前記ニューラルネットワーク１００から出力された前記ネットワーク出力特徴２００を利用して、図２の前記類似度コンボリューションレイヤ３１０及び前記距離コンボリューションレイヤ４１０を微細調整する場合、前記インスタンスセグメンテーションの適切な結果を取得することは容易ではない。これは、前記ニューラルネットワーク１００が前述した微細調整によって僅かな再学習が行われるものの、前記ネットワーク出力特徴２００は、前記学習済みパラメータを再利用して生成されたからである。従って、本発明では、前記類似度コンボリューションレイヤ３１０が、前記類似度コンボリューション演算を前記ネットワーク出力特徴２００に適用するために追加される。そして、前記類似度コンボリューションレイヤ３１０は初期化されている状態であるため、エンベディングプロセスを遂行する。従って、前記類似度コンボリューションレイヤ３１０は、前記ネットワーク出力特徴２００の特徴空間を少なくとも一つの類似度エンベディング特徴３２０に変更する。

一方、図２及び図３を参照すれば、前記類似度コンボリューションレイヤ３１０の一つ以上のパラメータの学習、つまり微細調整は、少なくとも一つの類似度ロスレイヤ３３０によって行われ、前記類似度エンベディング特徴３２０を利用して遂行される。前記類似度ロスレイヤ３３０は、前記類似度エンベディング特徴３２０からサンプリングされた２点間で少なくとも一つの類似度を算出するようにし、前記類似度及びこれに対応する少なくとも一つのＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）ラベルイメージを参考にして、少なくとも一つの類似度ロスを出力する（Ｓ０３）。ここで、前記ＧＴラベルイメージは、前記インスタンスセグメンテーションに対応する少なくとも一つのＧＴイメージである。

前記類似度は、特徴マップ、つまり、前記類似度エンベディング特徴３２０から任意に２点をサンプリングして、以下の数式に従って算出される。

前記ｆｐ及び前記ｆｑは、前記類似度エンベディング特徴３２０から任意にサンプリングされた前記２点である。

前記インスタンスセグメンテーションに対応する前記ＧＴラベルイメージ内の各々の前記物体のそれぞれのインスタンスクラスは既に分かっているため、それぞれの前記インスタンスクラスごとに適当な個数の点をサンプリングして計算され得る。前記数式１において、前記ｅｘｐ（｜｜ｆ_ｐ−ｆ_ｑ｜｜_２）は、前記２点間のユークリッド距離（ＥｕｃｌｉｄｉａｎＤｉｓｔａｎｃｅ）を示す。前記２点が互いに近ければ、距離が０に近接してｅｘｐ（０）は１に近接し、前記類似度（ｓ）は、１に近接する。前記２点が互いに遠く離れているのであれば、ｅｘｐ（∞）は∞となり、前記類似度（ｓ）は０に近接する。このように前記２点間の前記類似度を測定することがメトリック方法であり、本発明は、前記メトリック方法を利用して、前記学習を遂行するのである。この際、前記２点間の前記距離を測定する代わりに、他の要素が前記学習のために利用されるように測定され得る。

そして、前記類似度ロスレイヤ３３０から出力された前記類似度ロス（ＳｉｍｉｌａｒｉｔｙＬｏｓｓ）は、以下の数式に従って計算される。

前記Ａは、前記類似度エンベディング特徴３２０から任意で前記２点をサンプリングする組み合わせ（Ｃｏｍｂｉｎａｔｉｏｎ）の数を示し、前記ｙは、前記２点が同じクラスにあれば１、互いに異なるクラスにあれば０を有する数であり、前記ｓは、前記類似度を示す。

前記数式２の前記類似度ロスは、前記数式１の前記類似度を利用して計算されたクロスエントロピーロス（ＣｒｏｓｓＥｎｔｒｏｐｙＬｏｓｓ）である。このように計算された前記類似度ロスは、バックプロパゲーションによって前記類似度コンボリューションレイヤの前記パラメータを学習する。前記バックプロパゲーションによって、前記類似度エンベディング特徴３２０に含まれる類似したクラスは、互いにクラスタリングされる。
この際、前記類似度ロスが前記バックプロパゲーションに利用される際、前記類似度コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワーク１００の前記パラメータの調整範囲よりさらに大きくなるように決定され、前記類似度コンボリューションレイヤ３１０の前記パラメータは、前記類似度ロスを利用して微細調整される。

一方、前記類似度エンベディング特徴３２０は、類似したクラス同士を好ましくまとまらせることで生成され得るが、前記類似度エンベディング特徴３２０内のエッジ部分は、依然として不明確に表れ得る。すなわち、第１エンベディングプロセス（前記類似度エンベディングプロセス）から生成された特徴は、互いに異なるクラスを区別するのに十分だが、前記エッジ部分は正確に区別されないという短所が存在する。このような短所を克服するため、第２エンベディングプロセスが必要になる。これによって、図２で示されたように、本発明によって前記距離エンベディングブロック４００が追加的に提供される。つまり、前記通りコンボリューションレイヤ４１０が、前記類似度コンボリューションレイヤ３１０の出力側にさらに連結される。

図２及び３を参照すれば、前記学習装置は、前記距離コンボリューションレイヤ４１０をもって、前記類似度エンベディング特徴３２０に一つ以上の距離コンボリューション演算を適用することで少なくとも一つの距離エンベディング特徴４２０を生成し（Ｓ０４）、前記距離コンボリューション演算は、前記類似度エンベディング特徴３２０を少なくとも一つの特徴空間に変更する。

その後、少なくとも一つの距離ロスレイヤ４３０をもって、前記距離エンベディング特徴４２０を利用して、一つ以上のインスタンスクラスのそれぞれの平均値と分散値とを算出して、前記インスタンスクラスのそれぞれの前記平均値間の相互クラス間の差異それぞれを増加させ、それぞれの前記インスタンスクラスの各クラス内の分散値を減少させるために利用される、少なくとも一つの距離ロスを生成する（Ｓ０５）。

次の数式は、前記距離エンベディングプロセスを遂行するための前記距離ロスの数式である。

ここで前記Ｌ_１及び前記Ｌ_２は、前記車線の中から任意に選択された２つの車線を示し、前記ｍｅａｎ（Ｌ_１）は、前記Ｌ_１の平均値を表し、前記ｍｅａｎ（Ｌ_２）は、前記Ｌ_２の平均値を表し、前記ｖａｒ（Ｌ_ｉ）は、前記車線の中の各車線の分散値であり、前記ｎ＿ｃｏｍｂｉｎａｔｉｏｎ（Ｌ_ｉ，Ｌ_２）は、前記車線の中で２つの車線を選択する組み合わせのすべての場合の数であり、前記ｔｈｒｅｓｈは閾値を表す。

前述した第２エンベディングプロセス（つまり、前記距離エンベディングプロセス）は、前記第１エンベディングプロセス（つまり、前記類似度エンベディングプロセス）において、前記類似度のみ考慮されたため、依然として不明な前記エッジ部分を有する前記類似度エンベディング特徴３２０に適用される。前記距離エンベディングプロセスは、それぞれの分散値は減少し、それぞれの前記平均値間の前記差異は増加するように遂行される。つまり、前記距離エンベディングプロセスが遂行されれば、大きな分散値を有する前記エッジ部分の少なくとも一つのエラーが学習され、これによって、前記類似したクラスは互いにまとまるようになり、前記クラス間の差異は増加する、前記距離エンベディング特徴４２０が生成される。

前記距離ロスは次のように説明される。前記トレーニングイメージ１０内に６つの車線が存在するとすれば、前記６つの車線の中から第１車線（Ｌ_１）及び第２車線（Ｌ_２）のそれぞれの平均値が計算され、前記平均値間の差異が計算される。前記差異の二乗が、前記閾値の二乗（前記ｔｈｒｅｓｈ^２）より大きければ、前記ｍａｘは０になり、前記差異の二乗が前記閾値の二乗より小さいか、等しければ、前記ｍａｘはｔｈｒｅｓｈ^２−（ｍｅａｎ（Ｌ_１）−ｍｅａｎ（Ｌ_２））^２になる。前記ｎ＿ｃｏｍｂｉｎａｔｉｏｎ（Ｌ_ｉ，Ｌ_２）は、前記車線６つの車線の中の２つの車線を選択する組み合わせのすべての場合の数である。前記閾値は、１であり得る。そして、前記数式で全ての車線のそれぞれの分散値が計算され利用される。このような方式で、前記学習プロセスにおける前記平均値間の差は増加し、各車線のそれぞれの分散値は減少する。

前記距離エンベディングプロセスを遂行して、前記トレーニングイメージ内のそれぞれの前記物体の平均値、つまり前記物体に対応するクラスそれぞれの平均値は、それぞれ互いにさらに遠くなり、前記物体は、前記距離エンベディング特徴４２０内でさらに区別が容易になり、前記クラスそれぞれの分散値はそれぞれさらに小さくなって、前記距離エンベディング特徴４２０内の前記物体に対応する前記類似したクラスは、互いにまとまるようになる。

前記距離エンベディング特徴４２０が不明確なエッジ部分を有するなら、それぞれの前記不明確なエッジ部分における個々の分散値は大きくなる。そのため、それぞれの前記エッジ部分にそれぞれの分散値は減少するよう学習され、それぞれの前記エッジ部分は、対応するクラスにそれぞれ属することになる。そして、それぞれの前記互いに異なるクラスの平均値それぞれは、前記距離エンベディング特徴４２０内で互いに遠くなろうとするため、それぞれの前記クラスは、それぞれ異なる色、つまり互いに異なるラベル値を有するように学習される。

この際、前記距離ロスをバックプロパゲーションする間、前記距離コンボリューションレイヤ４１０の一つ以上のパラメータの調整範囲が、前記ニューラルネットワーク１００の前記パラメータの調整範囲または前記類似度コンボリューションレイヤ３１０の前記パラメータの調整範囲より大きくなるように決定されて、前記距離コンボリューションレイヤ４１０の前記パラメータが微細調整される。また、前記類似度コンボリューションレイヤ３１０の前記パラメータの調整範囲及び距離コンボリューションレイヤ４１０の前記パラメータの調整範囲が、前記ニューラルネットワーク１００の前記パラメータの調整範囲より大きくなるように決定され、前記類似度コンボリューションレイヤ３１０の前記パラメータ及び前記距離コンボリューションレイヤ４１０の前記パラメータが微細調整される。

例えば、前記ニューラルネットワーク１００が学習された状態で、前記類似度コンボリューションレイヤ３１０の前記パラメータは、前記類似度コンボリューションレイヤ３１０の前記パラメータに１である値に割り当てられた重み付け値と、前記ニューラルネットワーク１００の前記パラメータに１／１０である値に割り当てられた重み付け値を利用して、前記類似度ロスをバックプロパゲーションして学習される。また、前記距離コンボリューションレイヤ４１０の前記パラメータに１である値に割り当てられた重み付け値、前記ニューラルネットワーク１００の前記パラメータに１／１０である値に割り当てられた重み付け値及び前記類似度コンボリューションレイヤ３１０の前記パラメータに１／１０である値に割り当てられた重み付け値を利用して、前記距離ロスをバックプロパゲーションして、前記距離コンボリューションレイヤ４１０の前記パラメータが学習される。

図２に示された前記サンプリングレイヤ５００及び前記検出レイヤ６００は、前記ダブルエンベディングの構成から出力された前記距離エンベディング特徴４２０をサンプリングし、リグレッションによって前記物体、つまり前記車線の位置を検出して、個別的に前記物体を識別するように構成される。図３を参照すれば、前記距離エンベディング特徴４２０をサンプリングし、前記リグレッションによって前記物体の位置を検出して前記物体が個別に識別される（Ｓ０６）。例えば、前記車線それぞれは、前記ダブルエンベディングプロセスを用いた前記インスタンスセグメンテーションの後に道路から分離されるが、前記車線の前記インスタンスセグメンテーションは正確ではないことがあるため、前記サンプリングは、フォールスポジティブ（ＦａｌｓｅＰｏｓｉｔｉｖｅ）の数を減らすために用いられ、前記リグレッションによって前記車線の正確なピクセルが検出される。その結果、前記物体が互いに分離され、前記エッジ部分が明確になった前記インスタンスセグメンテーションが生成される。

一方、図２には示していないが、前記学習装置は、少なくとも一つのセグメンテーションロスレイヤをもって、前記インスタンスセグメンテーション及びこれに対応するＧＴラベルイメージを参考して少なくとも一つのセグメンテーションロスを算出するようにし、前記セグメンテーションロスをバックプロパゲーションして、前記距離コンボリューションレイヤ４１０と、前記類似度コンボリューションレイヤと３１０と、前記ニューラルネットワーク１００との中の少なくとも一つの前記パラメータを学習するプロセスをさらに遂行する。

そして、図２及び図３に示された前記学習方法は、前記ニューラルネットワーク１００のテスティング方法においても適用され得る。

参考までに、以下の説明において混乱を避けるために、前記学習プロセスに関連する用語に「学習用」という単語が追加され、テスティングプロセスに関連する用語に「テスト用」という単語が追加された。

つまり、前記インスタンスセグメンテーションのための前記テスティング方法において、（ａ）前記学習装置が、（ｉ）前記トレーニングイメージ１０内の少なくとも一つの学習用物体を検出し得る前記ニューラルネットワーク１００から少なくとも一つの学習用ネットワーク出力特徴を取得するプロセスを遂行し、（ｉｉ）前記類似度コンボリューションレイヤ３１０をもって、前記学習用ネットワーク出力特徴に前記類似度コンボリューション演算を適用することにより、少なくとも一つの学習用類似度エンベディング特徴を生成し、前記類似度コンボリューション演算は、前記学習用ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上の学習用エンベディングベクトルを生成するプロセスを遂行し、（ｉｉｉ）前記類似度ロスレイヤ３３０をもって、前記学習用類似度エンベディング特徴からサンプリングされた２点間で少なくとも一つの類似度を算出するようにし、前記類似度及びこれに対応する少なくとも一つのＧＴラベルイメージを参考にして前記類似度ロスを生成するようにする類似度エンベディングプロセスを遂行し、（ｉｖ）前記距離コンボリューションレイヤ４１０をもって、前記学習用類似度エンベディング特徴に一つ以上の距離コンボリューション演算を適用するようにすることで少なくとも一つの学習用距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記学習用類似度エンベディング特徴を少なくとも一つの学習用特徴空間に変更するプロセスを遂行し、（ｖ）前記距離ロスレイヤ４３０をもって、前記学習用距離エンベディング特徴を利用して、一つ以上のインスタンスクラスのそれぞれの平均値と分散値とを算出し、前記インスタンスクラスのそれぞれの前記平均値間の相互クラス間の差異それぞれを増加させ、それぞれの前記インスタンスクラスの各クラス内の分散値を減少させるために利用される、少なくとも一つの距離ロスを生成するようにする前記距離エンベディングプロセスを遂行し、（ｖｉ）前記類似度ロス及び前記距離ロスの中から少なくとも一つをバックプロパゲーションして、前記距離コンボリューションレイヤ４１０と、前記類似度コンボリューションレイヤ３１０と、前記ニューラルネットワーク１００との中から少なくとも一つのパラメータを学習するプロセスを遂行した状態で、テスティング装置が、少なくとも一つのテストイメージ内の一つ以上のテスト用物体を検出し得る前記ニューラルネットワーク１００から少なくとも一つのテスト用ネットワーク出力特徴を取得する段階；（ｂ）前記テスティング装置が、前記類似度コンボリューションレイヤ３１０をもって、前記テスト用ネットワーク出力特徴に前記類似度コンボリューション演算を適用することにより、少なくとも一つのテスト用類似度エンベディング特徴を生成し、前記類似度コンボリューション演算は、前記テスト用ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上のテスト用エンベディングベクトルを生成するプロセスを遂行する段階；（ｃ）前記テスティング装置が、前記距離コンボリューションレイヤ４１０をもって、前記テスト用類似度エンベディング特徴に前記距離コンボリューション演算を適用するようにすることで少なくとも一つのテスト用距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記テスト用類似度エンベディング特徴を少なくとも一つのテスト用特徴空間に変更するプロセスを遂行する段階；及び（ｄ）前記テスティング装置が、前記サンプリングレイヤ５００及び前記検出レイヤ６００をもって、前記テスト用距離エンベディング特徴をサンプリングし、リグレッションによって前記テスト用物体の位置を検出して個別的に前記テスト用物体を識別するようにすることで、少なくとも一つのテスト用インスタンスセグメンテーションを生成するプロセスを遂行する段階；を含む。

前記学習方法及び前記テスティング方法は、マルチカメラシステム内のセンサ融合（ＳｅｎｓｏｒＦｕｓｉｏｎ）を利用して、歩行者イベント及び自動車イベントを含む道路利用者イベントを検出するために提供される。

本発明技術分野の通常の技術者に理解され、前記で説明されたイメージ、例えば前記トレーニングイメージ及び前記テストイメージといったイメージデータの送受信が学習装置及びテスト装置の各通信部によって行われ得、特徴マップと演算を遂行するためのデータが学習装置及びテスト装置のプロセッサ（及び／またはメモリ）によって保有／維持され得、コンボリューション演算、デコンボリューション演算、ロス値の演算過程が主に学習装置及びテスト装置のプロセッサにより遂行され得るが、本発明はこれに限定されるものではない。

また、以上で説明された本発明に係る実施例は、多様なコンピュータ構成要素を通じて遂行できるプログラム命令語の形態で実装されてコンピュータ読み取り可能な記録媒体に記録され得る。前記コンピュータで読み取り可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含まれ得る。前記コンピュータ判読可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピィディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスク（ＦｌｏｐｔｉｃａｌＤｉｓｋ）のような磁気−光媒体（Ｍａｇｎｅｔｏ−ＯｐｔｉｃａｌＭｅｄｉａ）、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどといったプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明に係る処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その逆も同様である。

以上、本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば係る記載から多様な修正及び変形が行われ得る。

従って、本発明の思想は前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims

インスタンスセグメンテーション（ＩｎｓｔａｎｃｅＳｅｇｍｅｎｔａｔｉｏｎ）のための学習方法において、
（ａ）学習装置が、少なくとも一つのトレーニングイメージ内の一つ以上の物体を検出し得るニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）から少なくとも一つのネットワーク出力特徴（ＮｅｔｗｏｒｋＯｕｔｐｕｔＦｅａｔｕｒｅ）を取得するプロセスを遂行する段階；
（ｂ）前記学習装置が、少なくとも一つの類似度コンボリューション（ＳｉｍｉｌａｒｉｔｙＣｏｎｖｏｌｕｔｉｏｎ）レイヤをもって、前記ネットワーク出力特徴に一つ以上の類似度コンボリューション演算を適用するようにすることで、少なくとも一つの類似度エンベディング（Ｅｍｂｅｄｄｉｎｇ）の特徴を生成し、前記類似度コンボリューション演算は、前記ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上のエンベディングベクトルを生成するプロセスを遂行する段階；
（ｃ）前記学習装置が、少なくとも一つの類似度ロスレイヤをもって、前記類似度エンベディング特徴からサンプリングされた２点間の少なくとも一つの類似度を算出するようにし、前記類似度及びこれに対応する少なくとも一つのＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）ラベルイメージを参考にし、少なくとも一つの類似度ロスを生成するようにする類似度エンベディングプロセスを遂行する段階；
（ｄ）前記学習装置が、少なくとも一つの距離コンボリューション（ＤｉｓｔａｎｃｅＣｏｎｖｏｌｕｔｉｏｎ）レイヤをもって、前記類似度エンベディング特徴に一つ以上の距離コンボリューション演算を適用するようにすることで、少なくとも一つの距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記類似度エンベディング特徴を少なくとも一つの特徴空間に変更するプロセスを遂行する段階；
（ｅ）前記学習装置が、少なくとも一つの距離ロスレイヤをもって、前記距離エンベディング特徴を利用して、一つ以上のインスタンスクラスのそれぞれの平均値と分散値とを算出し、前記インスタンスクラスのそれぞれの前記平均値間の相互クラス間の差異それぞれを増加させ、それぞれの前記インスタンスクラスの各クラス内の分散値を減少させるために利用される、少なくとも一つの距離ロスを生成するようにする距離エンベディングプロセスを遂行する段階；及び
（ｆ）前記学習装置が、前記類似度ロス及び前記距離ロスの中の少なくとも一つをバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）して、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つのパラメータを学習するプロセスを遂行する段階；
を含むことを特徴とする学習方法。
（ｇ）前記学習装置が、少なくとも一つのサンプリングレイヤ及び少なくとも一つの検出レイヤをもって、前記距離エンベディング特徴をサンプリングし、リグレッション（Ｒｅｇｒｅｓｓｉｏｎ）により前記物体の位置を検出して個別的に前記物体を識別するようにすることで、少なくとも一つのインスタンスセグメンテーションを生成するプロセスを遂行する段階；
をさらに含むことを特徴とする請求項１に記載の学習方法。
（ｈ）前記学習装置が、少なくとも一つのセグメンテーションロスレイヤをもって、前記インスタンスセグメンテーション及びこれに対応する少なくとも一つのＧＴラベルイメージを参考して少なくとも一つのセグメンテーションロスを算出するようにし、前記セグメンテーションロスをバックプロパゲーションして、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つの前記パラメータを学習するプロセスを遂行する段階；
をさらに含むことを特徴とする請求項２に記載の学習方法。
前記ＧＴラベルイメージは、前記インスタンスセグメンテーションに対応するＧＴラベルイメージであることを特徴とする請求項１に記載の学習方法。
前記類似度コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲よりさらに大きくなるように決定され、前記距離コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲または前記類似度コンボリューションレイヤの前記パラメータの調整範囲より大きくなるように決定されることを特徴とする請求項１に記載の学習方法。
前記類似度は次の数式

（ここで、前記ｆｐ及び前記ｆｑは、前記類似度エンベディング特徴から任意にサンプリングされた前記２点である）で表され、
前記類似度ロス（ＳｉｍｉｌａｒｉｔｙＬｏｓｓ）は次の数式

（ここで前記Ａは、前記類似度エンベディング特徴から任意で前記２点をサンプリングする組み合わせ（Ｃｏｍｂｉｎａｔｉｏｎ）の数を示し、前記ｙは、前記２点が同じクラスにあれば１、互いに異なるクラスにあれば０を有する数であり、前記ｓは、前記類似度を示す）で表されるクロスエントロピーロス（ＣｒｏｓｓＥｎｔｒｏｐｙＬｏｓｓ）であることを特徴とする請求項１に記載の学習方法。
前記物体は、一つ以上の車線を示すことを特徴とする請求項１に記載の学習方法。
前記距離ロスは、次の数式

（ここで前記Ｌ_１及び前記Ｌ_２は、前記車線の中から任意に選択された２つの車線を表し、前記ｍｅａｎ（Ｌ_１）は、前記Ｌ_１の平均値を表し、前記ｍｅａｎ（Ｌ_２）は、前記Ｌ_２の平均値を表し、前記ｖａｒ（Ｌ_ｉ）は、前記車線の中の各車線の分散値であり、前記ｎ＿ｃｏｍｂｉｎａｔｉｏｎ（Ｌ_ｉ，Ｌ_２）は、前記車線の中で２つの車線を選択する組み合わせのすべての場合の数であり、前記ｔｈｒｅｓｈは閾値を表す）で表されるクラスタリングロス（ＣｌｕｓｔｅｒｉｎｇＬｏｓｓ）であることを特徴とする請求項７に記載の学習方法。
前記ｔｈｒｅｓｈは、１に設定されることを特徴とする請求項８に記載の学習方法。
インスタンスセグメンテーション（ＩｎｓｔａｎｃｅＳｅｇｍｅｎｔａｔｉｏｎ）のためのテスティング方法において、
（ａ）学習装置が、（ｉ）少なくとも一つの類似度コンボリューションレイヤをもって、少なくとも一つのトレーニングイメージ内の一つ以上の学習用物体を検出し得るニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）から取得された少なくとも一つの学習用ネットワーク出力特徴に一つ以上の類似度コンボリューション演算を適用することで少なくとも一つの学習用類似度エンベディング特徴を生成し、前記類似度コンボリューション演算は、前記学習用ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上の学習用エンベディングベクトルを生成するプロセスを遂行し、（ｉｉ）少なくとも一つの類似度ロスレイヤをもって、前記学習用類似度エンベディング特徴からサンプリングされた２点間で少なくとも一つの類似度を算出するようにし、前記類似度及びこれに対応する少なくとも一つのＧＴラベルイメージを参考にし、少なくとも一つの類似度ロスを生成するようにする類似度エンベディングプロセスを遂行し、（ｉｉｉ）少なくとも一つの距離コンボリューションレイヤをもって、前記学習用類似度エンベディング特徴に一つ以上の距離コンボリューション演算を適用するようにすることで少なくとも一つの学習用距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記学習用類似度エンベディング特徴を少なくとも一つの学習用特徴空間に変更するプロセスを遂行し、（ｉｖ）少なくとも一つの距離ロスレイヤをもって、前記学習用距離エンベディング特徴を利用して、一つ以上のインスタンスクラスのそれぞれの平均値と分散値とを算出し、前記インスタンスクラスのそれぞれの前記平均値間の相互クラス間の差異それぞれを増加させ、それぞれの前記インスタンスクラスの各クラス内の分散値を減少させるために利用される、少なくとも一つの距離ロスを生成するようにする距離エンベディングプロセスを遂行し、（ｖ）前記類似度ロス及び前記距離ロスの中から少なくとも一つをバックプロパゲーションして、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中から少なくとも一つのパラメータを学習するプロセスを遂行した状態で、テスティング装置が、少なくとも一つのテストイメージ内の一つ以上のテスト用物体を検出し得る前記ニューラルネットワークから少なくとも一つのテスト用ネットワーク出力特徴を取得する段階；
（ｂ）前記テスティング装置が、前記類似度コンボリューションレイヤをもって、前記テスト用ネットワーク出力特徴に前記類似度コンボリューション演算を適用することにより、少なくとも一つのテスト用類似度エンベディング特徴を生成し、前記類似度コンボリューション演算は、前記テスト用ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上のテスト用エンベディングベクトルを生成するプロセスを遂行する段階；
（ｃ）前記テスティング装置が、前記距離コンボリューションレイヤをもって、前記テスト用類似度エンベディング特徴に前記距離コンボリューション演算を適用するようにすることで少なくとも一つのテスト用距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記テスト用類似度エンベディング特徴を少なくとも一つのテスト用特徴空間に変更するプロセスを遂行する段階；及び
（ｄ）前記テスティング装置が、少なくとも一つのサンプリングレイヤ及び少なくとも一つの検出レイヤをもって、前記テスト用距離エンベディング特徴をサンプリングし、リグレッション（Ｒｅｇｒｅｓｓｉｏｎ）により前記テスト用物体の位置を検出して個別的に前記テスト用物体を識別するようにすることで、少なくとも一つのテスト用インスタンスセグメンテーションを生成するプロセスを遂行する段階；
を含むことを特徴とするテスティング方法。
前記（ａ）段階で、
前記学習装置が、（ｖｉ）前記サンプリングレイヤ及び前記検出レイヤをもって、前記学習用距離エンベディング特徴をサンプリングし、前記リグレッション（Ｒｅｇｒｅｓｓｉｏｎ）により前記学習用物体の位置を検出して個別的に前記学習用物体を識別するようにすることで、少なくとも一つの学習用インスタンスセグメンテーションを生成するプロセス及び（ｖｉｉ）少なくとも一つのセグメンテーションロスレイヤをもって、前記学習用インスタンスセグメンテーション及びこれに対応する少なくとも一つのＧＴラベルイメージを参考して少なくとも一つのセグメンテーションロスを算出するようにし、前記セグメンテーションロスをバックプロパゲーションして、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つの前記パラメータを学習するプロセスをさらに遂行することを特徴とする請求項１０に記載のテスティング方法。
前記ＧＴラベルイメージは、前記学習用インスタンスセグメンテーションに対応するＧＴラベルイメージであることを特徴とする請求項１１に記載のテスティング方法。
前記類似度コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲よりさらに大きくなるように決定され、前記距離コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲または前記類似度コンボリューションレイヤの前記パラメータの調整範囲より大きくなるように決定されることを特徴とする請求項１０に記載のテスティング方法。
前記類似度は次の数式

（ここで、前記ｆｐ及び前記ｆｑは、前記学習用類似度エンベディング特徴から任意にサンプリングされた前記２点である）で表され、
前記類似度ロス（ＳｉｍｉｌａｒｉｔｙＬｏｓｓ）は次の数式

（ここで前記Ａは、前記学習用類似度エンベディング特徴から任意で前記２点をサンプリングする組み合わせ（Ｃｏｍｂｉｎａｔｉｏｎ）の数を示し、前記ｙは、前記２点が同じクラスにあれば１、互いに異なるクラスにあれば０を有する数であり、前記ｓは、前記類似度を示す）で表されるクロスエントロピーロス（ＣｒｏｓｓＥｎｔｒｏｐｙＬｏｓｓ）であることを特徴とする請求項１０に記載のテスティング方法。
前記学習用物体は、一つ以上の車線を表し、
前記距離ロスは、次の数式

（ここで前記Ｌ_１及び前記Ｌ_２は、前記車線の中から任意に選択された２つの車線を示し、前記ｍｅａｎ（Ｌ_１）は、前記Ｌ_１の平均値を表し、前記ｍｅａｎ（Ｌ_２）は、前記Ｌ_２の平均値を表し、前記ｖａｒ（Ｌ_ｉ）は、前記車線の中の各車線の分散値であり、前記ｎ＿ｃｏｍｂｉｎａｔｉｏｎ（Ｌ_ｉ，Ｌ_２）は、前記車線の中で２つの車線を選択する組み合わせのすべての場合の数であり、前記ｔｈｒｅｓｈは閾値を表す）で表されるクラスタリングロス（ＣｌｕｓｔｅｒｉｎｇＬｏｓｓ）であることを特徴とする請求項１０に記載のテスティング方法。
インスタンスセグメンテーションのための学習装置において、
インストラクションを格納する少なくとも一つのメモリ；及び
（Ｉ）少なくとも一つの類似度コンボリューションレイヤをもって、少なくとも一つのトレーニングイメージ内の一つ以上の物体を検出し得るニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）から取得された少なくとも一つのネットワーク出力特徴に一つ以上の類似度コンボリューション演算を適用することで少なくとも一つの類似度エンベディング特徴を生成し、前記類似度コンボリューション演算は、前記ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上のエンベディングベクトルを生成するプロセスを遂行し、（ＩＩ）少なくとも一つの類似度ロスレイヤをもって、前記類似度エンベディング特徴からサンプリングされた２点間で少なくとも一つの類似度を算出するようにし、前記類似度及びこれに対応する少なくとも一つのＧＴラベルイメージを参考にし、少なくとも一つの類似度ロスを生成するようにする類似度エンベディングプロセスを遂行し、（ＩＩＩ）少なくとも一つの距離コンボリューションレイヤをもって、前記類似度エンベディング特徴に一つ以上の距離コンボリューション演算を適用するようにすることで少なくとも一つの距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記類似度エンベディング特徴を少なくとも一つの特徴空間に変更するプロセスを遂行し、（ＩＶ）少なくとも一つの距離ロスレイヤをもって、前記距離エンベディング特徴を利用して、一つ以上のインスタンスクラスのそれぞれの平均値と分散値とを算出し、前記インスタンスクラスのそれぞれの前記平均値間の相互クラス間の差異それぞれを増加させ、それぞれの前記インスタンスクラスの各クラス内の分散値を減少させるために利用される、少なくとも一つの距離ロスを生成するようにする距離エンベディングプロセスを遂行し、（Ｖ）前記類似度ロス及び前記距離ロスの中の少なくとも一つをバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）して、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つのパラメータを学習するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ；
を含むことを特徴とする学習装置。
前記プロセッサが、（ＶＩ）少なくとも一つのサンプリングレイヤ及び少なくとも一つの検出レイヤをもって、前記距離エンベディング特徴をサンプリングし、リグレッション（Ｒｅｇｒｅｓｓｉｏｎ）により前記物体の位置を検出して個別的に前記物体を識別するようにすることで、少なくとも一つのインスタンスセグメンテーションを生成するプロセスをさらに遂行すること特徴とする請求項１６に記載の学習装置。
前記プロセッサが、（ＶＩＩ）少なくとも一つのセグメンテーションロスレイヤをもって、前記インスタンスセグメンテーション及びこれに対応する少なくとも一つのＧＴラベルイメージを参考して少なくとも一つのセグメンテーションロスを算出するようにし、前記セグメンテーションロスをバックプロパゲーションして、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つの前記パラメータを学習するプロセスをさらに遂行することを特徴とする請求項１７に記載の学習装置。
前記ＧＴラベルイメージは、前記インスタンスセグメンテーションに対応するＧＴラベルイメージであることを特徴とする請求項１６に記載の学習装置。
前記類似度コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲よりさらに大きくなるように決定され、前記距離コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲または前記類似度コンボリューションレイヤの前記パラメータの調整範囲より大きくなるように決定されることを特徴とする請求項１６に記載の学習装置。
前記類似度は次の数式

（ここで、前記ｆｐ及び前記ｆｑは、前記類似度エンベディング特徴から任意にサンプリングされた前記２点である）で表され、
前記類似度ロス（ＳｉｍｉｌａｒｉｔｙＬｏｓｓ）は次の数式

（ここで前記Ａは、前記類似度エンベディング特徴から任意で前記２点をサンプリングする組み合わせ（Ｃｏｍｂｉｎａｔｉｏｎ）の数を示し、前記ｙは、前記２点が同じクラスにあれば１、互いに異なるクラスにあれば０を有する数であり、前記ｓは、前記類似度を示す）で表されるクロスエントロピーロス（ＣｒｏｓｓＥｎｔｒｏｐｙＬｏｓｓ）であることを特徴とする請求項１６に記載の学習装置。
前記物体は、一つ以上の車線を示すことを特徴とする請求項１６に記載の学習装置。
前記距離ロスは、次の数式

（ここで前記Ｌ_１及び前記Ｌ_２は、前記車線の中から任意に選択された２つの車線を示し、前記ｍｅａｎ（Ｌ_１）は、前記Ｌ_１の平均値を表し、前記ｍｅａｎ（Ｌ_２）は、前記Ｌ_２の平均値を表して、前記ｖａｒ（Ｌ_ｉ）は、前記車線の中の各車線の分散値であり、前記ｎ＿ｃｏｍｂｉｎａｔｉｏｎ（Ｌ_ｉ，Ｌ_２）は、前記車線の中で２つの車線を選択する組み合わせのすべての場合の数であり、前記ｔｈｒｅｓｈは閾値を表す）で表されるクラスタリングロス（ＣｌｕｓｔｅｒｉｎｇＬｏｓｓ）であることを特徴とする請求項２２に記載の学習装置。
前記ｔｈｒｅｓｈは、１に設定されることを特徴とする請求項２３に記載の学習装置。
インスタンスセグメンテーションのためのテスティング装置において、
インストラクションを格納する少なくとも一つのメモリ；及び
学習装置が、（ｉ）少なくとも一つの類似度コンボリューションレイヤをもって、少なくとも一つのトレーニングイメージ内の一つ以上の学習用物体を検出し得るニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）から取得された少なくとも一つの学習用ネットワーク出力特徴に一つ以上の類似度コンボリューション演算を適用することで少なくとも一つの学習用類似度エンベディング特徴を生成し、前記類似度コンボリューション演算は、前記学習用ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上の学習用エンベディングベクトルを生成するプロセスを遂行し、（ｉｉ）少なくとも一つの類似度ロスレイヤをもって、前記学習用類似度エンベディング特徴からサンプリングされた２点間で少なくとも一つの類似度を算出するようにし、前記類似度及びこれに対応する少なくとも一つのＧＴラベルイメージを参考にし、少なくとも一つの類似度ロスを生成するようにする類似度エンベディングプロセスを遂行し、（ｉｉｉ）少なくとも一つの距離コンボリューションレイヤをもって、前記学習用類似度エンベディング特徴に一つ以上の距離コンボリューション演算を適用するようにすることで少なくとも一つの学習用距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記学習用類似度エンベディング特徴を少なくとも一つの学習用特徴空間に変更するプロセスを遂行し、（ｉｖ）少なくとも一つの距離ロスレイヤをもって、前記学習用距離エンベディング特徴を利用して、一つ以上のインスタンスクラスのそれぞれの平均値と分散値とを算出し、前記インスタンスクラスのそれぞれの前記平均値間の相互クラス間の差異それぞれを増加させ、それぞれの前記インスタンスクラスの各クラス内の分散値を減少させるために利用される、少なくとも一つの距離ロスを生成するようにする距離エンベディングプロセスを遂行し、（ｖ）前記類似度ロス及び前記距離ロスの中の少なくとも一つをバックプロパゲーションして、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つのパラメータを学習するプロセスを遂行した状態で、（Ｉ）前記類似度コンボリューションレイヤをもって、少なくとも一つのテストイメージ内の一つ以上のテスト用物体を検出し得る前記ニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）から取得された少なくとも一つのテスト用ネットワーク出力特徴に、前記類似度コンボリューション演算を適用することで少なくとも一つのテスト用類似度エンベディング特徴を生成し、前記類似度コンボリューション演算は、前記テスト用ネットワーク出力特徴のピクセルの少なくとも一部分に対応する一つ以上のテスト用エンベディングベクトルを生成するプロセス、（ＩＩ）前記距離コンボリューションレイヤをもって、前記テスト用類似度エンベディング特徴に前記距離コンボリューション演算を適用するようにすることで少なくとも一つのテスト用距離エンベディング特徴を生成し、前記距離コンボリューション演算は、前記テスト用類似度エンベディング特徴を少なくとも一つのテスト用特徴空間に変更するプロセス、及び（ＩＩＩ）少なくとも一つのサンプリングレイヤ及び少なくとも一つの検出レイヤをもって、前記テスト用距離エンベディング特徴をサンプリングし、リグレッション（Ｒｅｇｒｅｓｓｉｏｎ）により前記テスト用物体の位置を検出して個別的に前記テスト用物体を識別するようにすることで、少なくとも一つのテスト用インスタンスセグメンテーションを生成するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ；
を含むことを特徴とするテスティング装置。
前記学習装置が、（ｖｉ）前記サンプリングレイヤ及び前記検出レイヤをもって、前記学習用距離エンベディング特徴をサンプリングし、前記リグレッション（Ｒｅｇｒｅｓｓｉｏｎ）により前記学習用物体の位置を検出して個別的に前記学習用物体を識別するようにすることで、少なくとも一つの学習用インスタンスセグメンテーションを生成するプロセス及び（ｖｉｉ）少なくとも一つのセグメンテーションロスレイヤをもって、前記学習用インスタンスセグメンテーション及びこれに対応する少なくとも一つのＧＴラベルイメージを参考して少なくとも一つのセグメンテーションロスを算出するようにし、前記セグメンテーションロスをバックプロパゲーションして、前記距離コンボリューションレイヤと、前記類似度コンボリューションレイヤと、前記ニューラルネットワークとの中の少なくとも一つの前記パラメータを学習するプロセスをさらに遂行することを特徴とする請求項２５に記載のテスティング装置。
前記ＧＴラベルイメージは、前記学習用インスタンスセグメンテーションに対応するＧＴラベルイメージであることを特徴とする請求項２６に記載のテスティング装置。
前記類似度コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲よりさらに大きくなるように決定され、前記距離コンボリューションレイヤの前記パラメータの調整範囲が、前記ニューラルネットワークの前記パラメータの調整範囲または前記類似度コンボリューションレイヤの前記パラメータの調整範囲より大きくなるように決定されることを特徴とする請求項２５に記載のテスティング装置。
前記類似度は次の数式

（ここで、前記ｆｐ及び前記ｆｑは、前記学習用類似度エンベディング特徴から任意にサンプリングされた前記２点である）で表され、
前記類似度ロス（ＳｉｍｉｌａｒｉｔｙＬｏｓｓ）は次の数式

（ここで前記Ａは、前記学習用類似度エンベディング特徴から任意で前記２点をサンプリングする組み合わせ（Ｃｏｍｂｉｎａｔｉｏｎ）の数を示し、前記ｙは、前記２点が同じクラスにあれば１、互いに異なるクラスにあれば０を有する数であり、前記ｓは、前記類似度を示す）で表されるクロスエントロピーロス（ＣｒｏｓｓＥｎｔｒｏｐｙＬｏｓｓ）であることを特徴とする請求項２５に記載のテスティング装置。
前記学習用物体は、一つ以上の車線を表し、
前記距離ロスは、次の数式

（ここで前記Ｌ_１及び前記Ｌ_２は、前記車線の中から任意に選択された２つの車線を示し、前記ｍｅａｎ（Ｌ_１）は、前記Ｌ_１の平均値を表し、前記ｍｅａｎ（Ｌ_２）は、前記Ｌ_２の平均値を表し、前記ｖａｒ（Ｌ_ｉ）は、前記車線の中の各車線の分散値であり、前記ｎ＿ｃｏｍｂｉｎａｔｉｏｎ（Ｌ_ｉ，Ｌ_２）は、前記車線の中で２つの車線を選択する組み合わせのすべての場合の数であり、前記ｔｈｒｅｓｈは閾値を表す）で表されるクラスタリングロス（ＣｌｕｓｔｅｒｉｎｇＬｏｓｓ）であることを特徴とする請求項２５に記載のテスティング装置。