JP7317717B2

JP7317717B2 - ネットワーク計算エッジにわたってアプリケーションを連続して操作する、人工知能および深層学習においてメモリで境界された継続学習を可能にするシステムおよび方法

Info

Publication number: JP7317717B2
Application number: JP2019561829A
Authority: JP
Inventors: ルシウ，マシュー; オリヴェラ，サンティアゴ; ゴルシェチニコフ，アナトリー; ワーブズ，ジェレミー; ヴェルサーチ，ヘザー・エイムズ; ヴェルサーチ，マッシミリアーノ
Original assignee: ニューララインコーポレイテッド
Priority date: 2017-05-09
Filing date: 2018-05-09
Publication date: 2023-07-31
Anticipated expiration: 2038-05-09
Also published as: WO2018208939A1; US20180330238A1; US11928602B2; JP2020520007A; CA3061767A1; JP2023156308A; EP3622438A1; KR20200028330A; EP3622438A4; CN110914836A

Description

関連出願への相互参照
本出願は、米国特許法１１９条（ｅ）の下で、２０１７年１２月３１日出願の米国特許出願第６２／６１２，５２９号、および２０１７年５月９日出願の米国特許出願第６２／５０３，６３９号の優先権を主張する。これらの各出願は、その全体を参照することにより本明細書に組み込まれる。

入力層と出力層との間に配置されるニューロンの多くの層を含むディープニューラルネットワーク（ＤＮＮ）を含め、従来のニューラルネットワークは、特定のデータセットに対してトレーニングのために数千回または数百万回の繰り返しサイクルを必要とする。これらのサイクルは、高性能コンピューティングサーバで頻繁に行われる。実際に、入力データセットのサイズによって、従来のＤＮＮの中には、トレーニングに数日または数週間もかかる場合がある。

ＤＮＮをトレーニングする一技法には、逆伝播アルゴリズムが関与する。逆伝播アルゴリズムは、誤差勾配を逆伝播させるためにチェーンルールを適用することによって、ラベル付きデータセットからの誤差勾配に比例するＤＮＮの全重みの変化を計算する。逆伝播は、各データの重みを少し変更し、多くのエポックに対してセット中の全データに広がる。

繰り返しサイクルごとの学習率が大きいほど、損失関数の勾配が、最小の代わりに極小に落ち着く可能性がより高くなり、それによって、パフォーマンスが低下しうる。損失関数が最小に落ち着く可能性を増大するために、ＤＮＮは学習率を減少させ、それによって、すべてのトレーニングエポックで重みが少し変更される。これによって、トレーニングサイクルの回数、および総学習時間が増加する。

グラフィックスプロセッシングユニット（ＧＰＵ）技術の進歩によって、かつては数週間または数か月かかったトレーニングジョブを達成するのに使用される、高度な並列動作のための計算能力に大きな改善がもたらされた。これらのジョブは今、ＧＰＵで数時間または数日で完了できるが、これでもまだ、リアルタイムに知識を更新するには十分速くはない。さらに、ＤＮＮを更新するために高性能計算サーバを利用すると、サーバ価格およびエネルギー消費の点からコストについて指摘される。これによって、リアルタイム動作の多くの場合に望ましい、オンザフライのＤＮＮに基づくシステムの知識を更新するのが、非常に困難になる。

さらに、いかなる単一のトレーニングサンプルに対して計算される損失関数の勾配も、ネットワーク中の重みすべてに影響を与えうる（通常の分散表現により）ため、標準的なＤＮＮは、新しい物体を学習すると、以前の知識を忘れやすい。複数のエポックによる同じ入力の反復表現によって、この問題は軽減されるが、新しい知識をシステムへ迅速に追加することが非常に困難であるという欠点がある。これは、学習が、計算を限定されるエッジデバイス（例えば、携帯電話、タブレット、または小型フォームファクタプロセッサ）上で実現困難、または完全に不可能であることが一つの理由である。忘れるという問題が解決されたとしても、エッジデバイス上での学習は、トレーニングの高い計算負荷、小さなトレーニングステップ、および全入力の反復表現から、依然として実現困難であろう。

これらの制限は、配備寿命にわたって、エッジが知識を更新する必要がありうる、単一の計算エッジだけでなく、配備のライフサイクルにわたって、新たに取得した知識を迅速に共有することが、知的エージェントの望ましい特性である、分散型多エッジシステム（例えば、ネットワークの中で接続されるスマートフォン、ネットワーク化されたスマートカメラ、ドローンまたは自動運転車両の一団、および類似のもの）にも当てはまる。

逆伝播アルゴリズムを動かすプロセッサは、出力時の各ニューロンの誤差への寄与を算出し、ネットワーク層を通って誤差を戻し分散させる。全ニューロンの重みは、損失関数の勾配を算出することによって調整される。したがって、ネットワークが古い例を正しく分類する能力を失わないように、新しいトレーニング例は、古い例を再トレーニングせずに、事前にトレーニングされたネットワークには追加できない。古い例を正しく分類する能力を失うことを、「致命的忘却」と呼ぶ。この忘れるという問題は、動作している間にオンザフライで新しい情報を迅速に学習し組み込む必要がしばしばある、リアルタイムに動作する機械と接続しているとみなされるとき、特に関連がある。

知識を学習するために、従来のＤＮＮを使用する、リアルタイムに動作する機械は、ＤＮＮを再トレーニングするために、大量のデータを蓄積する必要がありうる。蓄積されたデータは、オペレータからラベルを手に入れ、その後、エッジ上で実行されるＤＮＮを再トレーニングするために、リアルタイムに動作する機械である「エッジ」（すなわち、例えば、自動運転自動車、ドローン、ロボットなどのデバイス自体）から、中央サーバ（例えば、クラウドベースのサーバ）へ転送される。蓄積されるデータが多くなるほど、時間およびネットワーク帯域の点から、転送プロセスがより高額になる。加えて、中央サーバ上におけるインターリーブのトレーニングによって、新しいデータを、システムのライフサイクル全体用に記憶される元データと組み合わせる必要がある。これによって、厳しい伝送帯域およびデータ記憶制限が作り出される。

要約すると、従来の逆伝播に基づくＤＮＮトレーニングを、リアルタイムオペレーティングシステムに適用すると、次の欠点に悩まされる。
ａ．システムを新しい知識でオンザフライにより更新することは不可能である。
ｂ．サーバとの通常通信、おおび知識の更新のための著しい待機時間なしでは、エッジの配備サイクルの間中の学習は不可能である。
ｃ．新しい情報の学習には、さらなるトレーニングのため、全入力データを無期限に記憶する、サーバ空間、エネルギー消費、およびディスク空間の消費が必要となる。
ｄ．小型フォームファクタのコンピューティングエッジデバイス上では学習できない。
ｅ．低速で高価なサーバ側の再トレーニングおよび再配備を行わなければ、複数のエッジにわたって知識をマージできない。

生涯ディープニューラルネットワーク（Ｌ－ＤＮＮ）によって、時間を消費する、計算による集中学習を必要とすることなく、軽量の計算デバイス（エッジ）における、人工ニューラルネットワーク（ＡＮＮ）およびディープニューラルネットワーク（ＤＮＮ）での連続したオンライン生涯学習が可能になる。Ｌ－ＤＮＮによって、連続データストリームからのリアルタイム学習が可能になり、逆伝播学習の複数回の繰り返しのために、入力データを記憶する必要を回避する。

Ｌ－ＤＮＮ技術では、関心のある実体または事象を表す特徴の、高速だが安定的な学習を実現するように、表現豊富なＤＮＮに基づくサブシステム（モジュールＡ）を高速学習サブシステム（モジュールＢ）と組み合わせる。これらの特徴セットは、逆伝播など、低速学習の方法論によって事前にトレーニングできる。本開示で詳細に記載する（他の特徴に関する記載は、モジュールＡに非ＤＮＮ方法論を採用することにより可能である）ＤＮＮに基づく事例の場合、ＤＮＮの高水準特徴抽出層は、知っている実体および事象を分類し、知らない実体および事象の知識をオンザフライで追加するように、モジュールＢの高速学習システムへの入力として機能する。モジュールＢは、低速学習の欠点を伴わずに、重要な情報を学習し、記述的で予測確率の高い環境の特徴を捕捉できる。

Ｌ－ＤＮＮ技法は、他の様式の中でも、視覚データ、構造化光データ、ライダー（ＬＩＤＡＲ）データ、ソナー（ＳＯＮＡＲ）データ、レーダー（ＲＡＤＡＲ）データ、または音声データに適用できる。視覚データまたは類似のデータに対して、Ｌ－ＤＮＮ技法は、全体像分類（例えば、場面検出）、境界ボックスベースの物体認識、ピクセル単位のセグメンテーション、および他の視覚認識タスクが可能になるなど、視覚処理に適用できる。Ｌ－ＤＮＮ技法はまた、非視覚信号の分類などの非視覚認識タスク、およびロボット、自動運転自動車、ドローン、または他のデバイスが環境を進んでいくにつれて、徐々に知識を追加することによって、自己位置推定と環境地図作成を同時に行うこと（ＳＬＡＭ）で生成される地図を更新するなど、他のタスクも行うことができる。

Ｌ－ＤＮＮがより多くの実体または事象（視覚的な用語では、「物体」または「カテゴリ」）を学習するとき、Ｌ－ＤＮＮの中でメモリを集約することによって、メモリ要件をモジュールＢの制御下に保持する。加えて、Ｌ－ＤＮＮ方法論によって、複数のエッジコンピューティングデバイスが、エッジを横断してそれらの知識（または入力データを分類する能力）をマージすることが可能になる。マージは、二つのモジュールＢ間でのニューラルネットワーク表現の直接交換によって、またはいくつかのエッジからの複数のモジュールＢの表現をマージする、中間サーバを介して、ピアツーピアごとに発生しうる。最後に、Ｌ－ＤＤＮは逆伝播に依存せず、それによって、トレーニング時間、電力要件、および計算資源を劇的に減少させて、新しい入力データを使用して、Ｌ－ＤＮＮ知識を更新する。

当然のことながら、前述の概念および以下でより詳細に考察する追加的概念のすべての組み合わせは（このような概念は相互に矛盾していないという前提で）、本明細書に開示する本発明の主題の一部であると考えられる。特に、本開示の最後に現れる、特許請求の範囲に記載する主題のすべての組み合わせは、本明細書に開示する発明主題の一部であると考えられる。また当然のことながら、参照により組み込まれるあらゆる開示において明示的に用いられる用語には、本明細書に開示する特定の概念と最も一致する意味を与える必要がある。

以下の図表および詳細な記載を検討すると、他のシステム、プロセス、および特徴が当業者に明らかとなるであろう。このようなさらなるシステム、プロセス、および特徴すべてが、本記載内に含まれ、本発明の範囲内であり、添付の特許請求の範囲によって保護されることが意図される。

当業者であれば、図面が主として例示的な目的であること、そして本明細書に記載する本発明の主題の範囲を制限することを意図していないことを理解するだろう。図面は必ずしも一定の比率ではなく、一部の例では、本明細書に開示する本発明の主題の様々な態様は、異なる特徴の理解を容易にするために図面内で誇張または拡大されて示されうる。図面では、同様の参照文字は概して、同様の特徴（例えば、機能的に類似した、および／または構造的に類似した要素）を意味する。

図１は、個々にデータストリームに作用するか、またはピアツーピアで、もしくは中間計算サーバを介して接続するかどちらかの、複数の計算エッジに関連するときの、生涯ディープニューラルネットワーク（Ｌ－ＤＮＮ）の概要を示す。図２は、Ｌ－ＤＮＮアーキテクチャ例を示す。図３は、ニューラルネットワークにおける未知という概念の実装を示す。図４は、一例示的実装としてＶＧＧ－１６ベースのＬ－ＤＮＮ分類器を示す。図５は、不均一なマルチスケール物体検出を示す。図６は、物体セグメンテーションのためのマスクＲ－ＣＮＮに基づくＬ－ＤＮＮを示す。図７Ａは、適応共鳴理論（ＡＲＴ）ニューラルネットワークを使用する、集約および混合を示す。図７Ｂは、局所的に曖昧な情報、例えば、ラクダ（第一場面の砂漠）または犬（第二場面の郊外）のピクセル化した画像を、場面に関する大局情報、および物体間から学習した過去の関連付けによって、どのように見出すことができるかを示す。図８は、ドローンベースの産業調査での使用事例へのＬ－ＤＮＮの適用を示す。図９では、図８のドローンベースの産業調査での使用事例を、Ｌ－ＤＮＮを持つ複数のドローンがコンサートで動作する状況に拡張する。図１０は、Ｌ－ＤＮＮの倉庫在庫の使用事例への適用を示す。図１１は、まとめて知識を取得および共有するようにＬ－ＤＮＮを使用する、多数のスマートデバイスを示す。図１２は、データセンターをベースとした適用において、Ｌ－ＤＮＮが従来のＤＮＮに代わる事例を示す。

リアルタイムに動作する機械の継続学習
生涯学習ディープニューラルネットワークまたは生涯ディープニューラルネットワーク（Ｌ－ＤＮＮ）によって、リアルタイムに動作する機械が、中央サーバまたはクラウド上で学習する必要なく、エッジにてオンザフライで学習することが可能になる。これによって、ネットワークの遅延を排除し、リアルタイムの性能を増大させ、必要に応じてプライバシーが確保される。一部の例では、リアルタイムに動作する機械は、Ｌ－ＤＮＮを使用して、現場で特定のタスクに対して更新できる。例えば、Ｌ－ＤＮＮを用いて、調査ドローンが、基地局鉄塔もしくは太陽電池パネルの最上部で問題を特定する方法を学習でき、データをローカルデバイスの外部で共有しないため、プライバシーの問題を心配することなく、ユーザの嗜好に基づいてスマートトイを自分用に設定でき、スマートフォンが、非常に長くかかる学習のために情報を中央サーバへ発送することなく、エッジで学習した知識を共有でき（全デバイスとピアツーピアでまたは大局的に）、または自動運転自動車が動作すると、知識を学習し共有できる。

またＬ－ＤＮＮで、古い知識を忘れることなく、新しい知識を学習することも可能になり、それによって、致命的忘却を軽減または排除する。言い換えると、本技術によって、リアルタイムに動作する機械が、ａ）入力画像を送信も記憶もする必要なく、ｂ）トレーニングに時間を消費することもなく、ｃ）大きなコンピューティング資源もなしに、ユーザ入力に基づいて、エッジで継続的かつ最適に挙動を調整することが可能になる。配備後のＬ－ＤＮＮを用いた学習によって、リアルタイムに動作する機械が、その環境およびユーザの相互作用の変化に適応し、元のデータセットの欠陥に対処し、カスタマイズされた体験をユーザに提供することが可能になる。

開示する技術はまた、複数のエッジデバイスからの知識をマージできる。このマージには、「クラウドコレクション」、ならびに知識のラベル付け、およびこの収集した知識のエッジデバイス間における共有を含み、単調で退屈な集中的ラベル付けの時間を排除する。言い換えると、エッジデバイスのうちの一つ以上からの頭脳を、一つが別のものに（ピアツーピア）マージ、またはエッジにあるデバイスの一部もしくはすべてにプッシュバックされて共有される頭脳の中へマージのいずれか一方を行える。Ｌ－ＤＮＮによって、知識のマージ／混合／共有／組み合わせが、物体数の線形的増大と変わらない速さで、メモリフットプリントの増大をもたらし、リアルタイムで生じ、結果、デバイス間で交換されるのが少量の情報となることが保証される。これらの特徴によって、Ｌ－ＤＮＮは実世界での適用に対して実用的となる。

Ｌ－ＤＮＮは、次の二つのモジュールにより特徴付けられる、異種ニューラルネットワークアーキテクチャを実装する。
１）工場で事前にトレーニングされ固定されるか、または逆伝播、もしくはデータ入力の数列に基づく他の学習アルゴリズムによって学習するように構成されるかの、いずれかのニューラルネットワーク（例えば、ディープニューラルネットワーク）を含む、低速学習のモジュールＡ。
２）トレーニングサンプルをほとんど持たずに、シナプスの重みおよび表現を瞬時に変更できる、漸進的な分類器を提供する、モジュールＢ。この漸進的な分類器のインスタンス化の例には、例えば、適応共鳴理論（ＡＲＴ）ネットワーク、またはコントラスティブダイバージェンスでニューラルネットワークをトレーニングする、制限ボルツマンマシン（ＲＢＭ）、およびサポートベクターマシン（ＳＶＭ）または他の高速学習の教師付き分類プロセスなど、非ニューラルの方法を含む。

Ｌ－ＤＮＮの通常の適用例は、限定するものではないが、ユーザの習慣に基づいて使用法のパターンを学習する、モノのインターネット（ＩｏＴ）デバイスと、運転「スタイル」をユーザのものに順応できるか、オンザフライで新しい技能を迅速に学習できるか、または新しい私道に駐車できる、自動運転車両と、オンザフライでインフラへの損傷の新しいクラスを学習でき、動作中、短時間の学習後にこの損傷を見分けられる、ドローンと、所有者の識別のためにクラウドにｐｉｎｇを送ることなく、（ほぼ）瞬時に学習できる、おもちゃまたはコンパニオンロボットなどの、家庭ロボットと、前に一度も見たことがない物体を認識して反応し、新しい障害物を避け、世界地図の中に新しい物体を見つけることを学習できる、ロボットと、新しい部品、およびそれをオンザフライで操作する方法を学習できる、産業ロボットと、新しい個人または物体を学習し、ネットワークへ接続する他のカメラにより提供される画像の中にそれを迅速に発見できる、セキュリティカメラとによって例証される。上の適用は、本明細書に記載する技術革新により解除され可能になる問題のクラスの例でしかなく、学習は、費用が高く非常に長い反復学習をサーバ上で始めることが必要とされることなく、特定の適用において埋め込まれるコンピューティングデバイスに直接発生しうる。

本明細書に開示する技術は、ビデオストリーム、能動的センサからのデータ（例えば、赤外線（ＩＲ）画像、ライダーデータ、ソナーデータ、および類似のもの）、音響データ、他の時系列データ（例えば、センサデータ、工場で生成されるデータを含むリアルタイムデータストリーム、ＩｏＴデバイスデータ、金融データ、および類似のもの）、およびこのようなデータストリームのいかなる多様式の線形／非線形の組み合わせを含むが、それらに限定するものではない、いくつかの入力様式に適用できる。

Ｌ－ＤＮＮの概要
上に開示したように、Ｌ－ＤＮＮは、高速学習モードおよび低速学習モードを組み合わせるように、異種ニューラルネットワークアーキテクチャを実装する。高速学習モードでは、Ｌ－ＤＮＮを実装する、リアルタイムに動作する機械が、ほぼ即座に新しい知識に応答できるように、新しい知識および新しい体験を学習する。このモードでは、高速学習サブシステムの学習率は、新しい知識および対応する新しい体験に有利に働くほど高く、一方、低速学習サブシステムの学習率は、古い知識および対応する古い体験を保存するように、低い値またはゼロに設定される。

図１は、マスターエッジ／中央サーバおよびいくつかの計算エッジ（例えば、ドローン、ロボット、スマートフォン、または他のＩｏＴデバイス）を含む、Ｌ－ＤＮＮを動かす複数デバイスがコンサートで動作する、Ｌ－ＤＮＮアーキテクチャの概要を提供する。各デバイスは感覚入力１００を受信し、それを、低速学習モジュールＡ１０２および高速学習モジュールＢ１０４を備える、対応するＬ－ＤＮＮ１０６へ供給する。各モジュールＡ１０２は、事前に学習した（固定の重み）ＤＮＮに基づき、特徴抽出器として機能する。モジュールＡ１０２は、入力１００を受信し、関連する特徴を物体の圧縮表現の中へ抽出し、これらの表現を対応するモジュールＢ１０４へ供給する。モジュールＢ１０４は、これらの物体表現を高速で学習できる。ユーザとのやり取りを通して、モジュールＢ１０４は、知らない物体に対する正しいラベルを受信し、各特徴ベクトルと対応するラベルとの間の関連付けを迅速に学習し、結果として、これらの新しい物体を即座に認識できる。複数のＬ－ＤＮＮ１０６は、異なる入力を学習するとき、新しく取得した知識を混合し（融合し、マージし、または組み合わせ）、以下に開示するように、それを他のＬ－ＤＮＮ１０６と共有するために、ピアツーピアで（破線）または中央サーバへ（点線）接続できる。

以下に提示する物体検出のＬ－ＤＮＮ実装例は、従来の物体検出のＤＮＮ「Ｙｏｕｏｎｌｙｌｏｏｋｏｎｃｅ（見るのは一度のみ）」（ＹＯＬＯ）と比較する、次の試験結果を生み出した。一つの物体を持つ、小さな（６００画像）同じカスタムデータセットを使用して、両ネットワークをトレーニングし検証した。これらのうちの２００画像を検証セットとして使用した。異なるサイズの四つのトレーニングセット（１００、２００、３００、および４００画像）が、残りの４００画像から作り出された。Ｌ－ＤＮＮトレーニングでは、トレーニングセットの各画像が一度提示された。従来のＤＮＮＹＯＬＯでは、無作為にトレーニングセットをシャッフルすることによってバッチを作り出し、トレーニングはこれらのバッチを複数回繰り返して進められた。トレーニング後、両ネットワーク上で検証を行い、次の平均適合率の平均（ｍＡＰ：ｍｅａｎａｖｅｒａｇｅｐｒｅｃｉｓｉｏｎ）の結果を生み出した。

さらに、４００画像のトレーニングセットを使用したＬ－ＤＮＮに対するトレーニング時間は１．１秒であり、ＹＯＬＯに対するトレーニング時間は２１．５時間であった。これは驚くほど大きな性能の改善である。Ｌ－ＤＮＮのメモリフットプリントは３２０ＭＢであり、一方、ＹＯＬＯのフットプリントは５００ＭＢであった。これらの結果は、Ｌ－ＤＮＮが、従来のＤＮＮＹＯＬＯよりも良い精度を実現でき、より小さいデータセット、さらにより高速のトレーニング時間、およびより少ないメモリ要件でこれを行えることを明らかに示している。

Ｌ－ＤＮＮアーキテクチャの例
図２は、ロボット、ドローン、スマートフォン、またはＩｏＴデバイスなど、リアルタイムに動作する機械によって使用される、Ｌ－ＤＮＮアーキテクチャの例を示す。Ｌ－ＤＮＮ１０６は、二つのサブシステム、低速学習モジュールＡ１０２および高速学習モジュールＢ１０４を使用する。一実装では、モジュールＡは事前にトレーニングされたＤＮＮを含み、モジュールＢは高速学習の適応共鳴理論（ＡＲＴ）パラダイムに基づき、ＤＮＮはＡＲＴへ、後者の特徴層のうちの一つ（通常、ＤＮＮ自体が完全に接続した層を分類する直前の層、または直前から二番目の層）の出力を供給する。複数のＤＮＮ層が、一つ以上のモジュールＢへ入力を提供できる（例えば、マルチスケール、投票、または階層形式で）、他の構成も可能である。

デジタルカメラ、検出器配列、またはマイクロホンなど、入力源１００は環境から情報／データ（例えば、ビデオデータ、構造化光データ、音声データ、それらの組み合わせ、および／または類似のもの）を取得する。入力源１００は、カメラシステムを含む場合、リアルタイムに動作する機械を囲む環境のビデオストリームを取得できる。入力源１００からの入力データは、リアルタイムでモジュールＡ１０２によって処理され、モジュールＡ１０２は、モジュールＢ１０４への入力として、圧縮された特徴信号を提供する。この例では、ビデオストリームは、モジュールＡおよびＢによってリアルタイムで一連の画像フレームとして処理できる。モジュールＡおよびモジュールＢは、適切な揮発性および不揮発性メモリ、ならびに適切な入力／出力インターフェースを伴い、グラフィックプロセッサユニット、フィールドプログラマブルゲートアレイ、または特定用途向け集積回路などの適切なコンピュータプロセッサに実装できる。

一実装では、入力データが、モジュールＡの事前にトレーニングされたディープニューラルネットワーク（ＤＮＮ）２００に供給される。ＤＮＮ２００は、例示的実装セクションで詳細に示すように、入力情報／データを表すのに用いることができる特徴を、抽出するように使用される畳み込み層２０４のスタック２０２を含む。ＤＮＮ２００は、望ましいレベルのデータ表現を実現するように、配備前に工場で事前にトレーニングできる。ＤＮＮ２００は、そのアーキテクチャを判定する構成ファイルと、トレーニング中に取得される知識を表す、対応する重みのセットとによって、完全に定義できる。

Ｌ－ＤＮＮシステム１０６は、ＤＮＮの重みが優れた特徴抽出器であるという事実を活用する。一つ以上の高速学習ニューラルネットワーク分類器を含むモジュールＢ１０４を、モジュールＡ１０２のＤＮＮ２００へ接続するために、最初のＤＮＮにより分類時に作動するＤＮＮの上位層の一部のみ（例えば、図２の層２０６および２０８）を無視するか、またはさらにまとめてシステムから取り去る。高水準特徴抽出層２０４の望ましい未加工の畳み込み出力にアクセスして、モジュールＢ１０４への入力として機能させる。例えば、元のＤＮＮ２００は大抵、勾配降下技法でトレーニング中に重みを最適化することが可能になるように使用される、コスト層２０８に加えて、多数の完全に接続された平均化を行うプーリング層２０６を含む。これらの層は、ＤＮＮトレーニング中、またはＤＮＮ２００から直接予測を得るために使用されるが、モジュールＢ１０４用の入力を生成するためには必要ない（図２の陰影は、層２０６および２０８が不必要であることを示す）。代わりに、モジュールＢ１０４のニューラルネットワーク分類器に対する入力は、ＤＮＮ２０４の畳み込み層のサブセットから取られる。異なる層または複数の層を使用して、モジュールＢ１０４への入力を提供できる。

ＤＮＮ２００上の各畳み込み層は、局所受容フィールドを使用して、前層の小領域から情報を集めるフィルタを包含する。これらのフィルタは、ＤＮＮの畳み込み層を通して空間情報を維持する。特徴抽出器の一つ以上の後期畳み込み層２０４からの出力（絵によってテンソル２１０として表す）は、モジュールＢ１０４の中のニューラルネットワーク分類器（例えば、ＡＲＴ分類器）の入力ニューロン層２１２へ供給される。例示的実装セクションで詳細に記載するように、Ｌ－ＤＮＮ１０６が全体画像分類または物体検出のために設計されたかによって、モジュールＡ１０２の各後期畳み込み層２０４と、モジュールＢ１０４のそれぞれの高速学習ニューラルネットワーク分類器との間に、１対１または１対多の対応がありうる。

ＤＮＮ２００からモジュールＢシステム１０４へ伝送されるテンソル２１０は、元の入力データ（例えば、センサ１００からの元画像）からのｎ層スタックの表現として見ることができる。この例では、スタックの各要素は、カメラからの入力画像と同じ空間地形を持つグリッドとして表される。ｎ個のスタックにわたる各グリッド要素が、モジュールＢのニューラルネットワークへの実際の入力である。

初期モジュールＢのニューラルネットワーク分類器は、配備後のオンザフライによる学習を促進するように、任意の初期知識で、またはモジュールＡ１０２のトレーニングされた分類で事前にトレーニングされうる。入力源１００が環境に関連するデータをＬ－ＤＮＮ１０６へ提供すると、ニューラルネットワーク分類器は、ＤＮＮ２００からのデータ（例えば、テンソル２１０）を連続して処理する。モジュールＢのニューラルネットワーク分類器は、高速の、好ましくは、ワンショット学習を使用する。ＡＲＴ分類器は、一致に基づくパターン学習を実装するように、ニューロンのような要素間のボトムアップ（入力）およびトップダウン（フィードバック）の連想型投影、ならびにカテゴリ間で競争を実施するように水平投影を使用する。

高速学習モードでは、新規の特徴セットが、モジュールＡ１０２からの入力として提示されるとき、ＡＲＴベースのモジュールＢ１０４は、特徴をＦ１層２１２に入力ベクトルとして置き、この入力ベクトルと既存の重みベクトル２１４との間の距離操作を計算して、Ｆ２層２１６で全カテゴリノードの活性化を判定する。距離は、ファジーＡＮＤ（ＡＲＴのデフォルトバージョン）、ドット積、またはベクトル末端間のユークリッド距離のいずれかとして計算される。その後、カテゴリノードは、最も活性化が高いものから最も低いものへと並び替えられ、カテゴリノード間で競争を実施し、この順序で勝者候補とみなされる。勝者候補のラベルが、ユーザにより提供されるラベルと一致する場合、対応する重みベクトルを更新して、最も簡単純な実装では、勝者ノードに対して新しい入力と既存の重みベクトルとの重み付き平均を取る学習プロセスを通して、新しい入力を普遍化して含める。正しいラベルを有する勝者がいない場合、新しいカテゴリノードは、入力のコピーである重みベクトルを伴い、カテゴリ層Ｆ２の２１６に導入される。どちらの場合も、モジュールＢ１０４はこのときにはこの入力を知っており、次の提示では認識できる。

モジュールＢ１０４の結果は、Ｌ－ＤＮＮ１０６が解決しているタスク次第で、結果自体でＬ－ＤＮＮ１０６の出力として、またはモジュールＡ１０２からの特定のＤＮＮ層からの出力との組み合わせとして、いずれかで機能する。場面全体の物体認識に対して、全体画像を分類するとき、モジュールＢの出力は十分でありうる。物体検出のために、モジュールＢ１０４によって、モジュールＡの活動から判定される境界ボックス上に重ね合わせるクラスラベルが提供され、そのため、各物体は、モジュールＡ１０２によって正しく見つけられ、モジュールＢ１０４によって正しくラベル付けされる。物体セグメンテーションのために、モジュールＡ１０２からの境界ボックスが、ピクセル単位のマスクに置き換えられ、モジュールＢ１０４がこれらのマスク用のラベルを提供してもよい。モジュールＡ１０２およびモジュールＢ１０４のさらなる詳細を、以下に提供する。

ニューラルネットワークにおけるリアルタイム動作および未知という概念
通常のＬ－ＤＮＮおよび特定のモジュールＢは、連続する感覚入力にリアルタイムで動作するように設計されるため、モジュールＢのニューラルネットワークは、知っている物体が全く提示されないときも、混乱しないように実装されるべきである。従来のニューラルネットワークは、入力にラベル付きの物体を通常包含するデータセットを標的としているため、結果として、知っている物体が存在しない場合、入力に対処する必要がない。したがって、このようなネットワークをＬ－ＤＮＮのモジュールＢで使用するには、「何も知らない（ＮｏｔｈｉｎｇＩｋｎｏｗ）」というさらなる特別カテゴリをネットワークへ追加して、知らない物体を知っていると間違って分類するモジュールＢの試み（偽陽性）を軽減するべきである。

この「何も知らない」という概念は、もっぱら以前は見えずラベルのない物体を包含しうる、実況の感覚ストリームを処理するときに有用である。これによって、モジュールＢおよびＬ－ＤＮＮは、潜在的に、知らない物体を誤って知っている物体と識別する代わりに、知らない物体を「何も知らない」または「以前に見ていない（ｎｏｔｐｒｅｖｉｏｕｓｌｙｓｅｅｎ）」と識別することが可能になる。「何も知らない」という概念の実装で従来の設計を拡張することは、バイアスノードをネットワークへ追加することと同じくらい単純でありうる。「何も知らない」の概念はまた、既知の物体クラスの数およびそれらが対応する活性化に従って、自動的に影響を増減させるバージョンで実装できる。

「何も知らない」の概念の一つの可能な実装は、いくつかのカテゴリへ例外なく分散するのとは対照的に、内部への知識分散が明確に共通カテゴリに集中している予測に有利に働く、内在する動的閾値として働く。言い換えると、モジュールＢのニューラルネットワーク分類器は、ある物体に対して、既知の物体クラスの中に明確な勝者がいると示すとき、物体が勝者クラスに属すると認識する。しかし、複数の異なる物体が類似の活性化を有する（すなわち、明確な勝者はいない）とき、システムは物体が未知であると報告する。学習プロセスで明示的にラベルを使用するため、「何も知らない」の実装によって、認識モードに影響を与えるのみであってもよく、学習モードに干渉しない場合がある。

ＡＲＴネットワークを使用する「何も知らない」の概念の例示的実装を、図３に提示する。入力の提示中、カテゴリ層Ｆ２の２１６は、そのノードにわたって活性化パターンで応答する。知っている物体を包含する入力には、図３の上の事例のように、卓越した勝者３００がいる可能性が高い。知っている物体を包含しない入力では、図３の下の事例に示すように、Ｆ２層の活動がより一律に分散する可能性が高い。第二事例にさえ、閾値（図３の点線）より高い活動を伴うノード３０２がありうるため、全活性化の平均を算出し、閾値として使用することは、これら二つの事例を区別するには不十分である。図３の上の事例でのように、明確な勝者３００のみが閾値（図３の破線）の上方に留まるように、平均に１以上のパラメータを乗じることによって、閾値を大きくする。

このパラメータの正確な値は、複数の因子に依存し、ネットワークが学習してきたカテゴリ数、およびネットワークの中のカテゴリノードの総数に基づいて自動的に算出できる。算出の例は、次のとおりである。

式中、θは閾値であり、Ｃは既知のカテゴリ数であり、Ｎはカテゴリノード数であり、倍率ｓは、モジュールＡで使用されるＤＮＮタイプに基づいて設定され、Ｌ－ＤＮＮ準備中に微調整される。ｓを高く設定しすぎると、ニューラルネットワークの偽陰性率が増大する場合があり、低く設定しすぎると偽陽性率が増大しうる。

「何も知らない」の概念を利用して独立型モジュールＢをトレーニングすると、次の結果が生み出された。ＣｏｌｕｍｂｉａＯｂｊｅｃｔＩｍａｇｅＬｉｂｒａｒｙ１００（ＣＯＩＬ－１００）データセットの中の１００個の物体から５０個の物体を、トレーニングセットとして使用した。５０個の新規物体が、独立型モジュールＢによって「何も知らない」と認識されるように、ＣＯＩＬ－１００データセットから全１００個の物体を、テストセットとして使用した。トレーニング中、リアルタイム動作をシミュレートするようにシャッフルすることは全く行わず、独立型モジュールＢのＡＲＴ分類器に１個ずつ物体を供給した。トレーニング後、ＡＲＴ分類器は９５．５％という認識率（物体と「ない」との組み合わせ）を実証した。比較のために、ＣＯＩＬ－１００データセットの中の全１００個の物体のシャッフルしていないデータセットを、従来のＡＲＴへ供給すると、認識率は５５％のみであった。これは、以下で考察するＡＲＴの順序依存性が原因でありうる。

入力が、モジュールＢのＡＲＴ分類器によって認識されない場合、補正を導入し、望ましい入力をラベル付けするのは、ユーザ次第である。認識されない入力が重要でない場合、ユーザはその入力を無視でき、ＡＲＴ分類器は「何も知らない」として識別し続けるであろう。物体がユーザにとって重要である場合、ユーザはそれをラベル付けでき、高速学習モジュールＢのネットワークによって、物体の特徴および対応するラベルが、知識へ追加されるであろう。モジュールＢは、この新しい物体と関連する特徴セットを強化するように、この物体を見守り続け、より多くの視点を追加する、トラッカーシステムを作動できる。

モジュールＡの例示的実装
動作中、モジュールＡは特徴を抽出し、物体の圧縮表現を作り出す。畳み込みディープニューラルネットワークは、以下に概説するように、このタスクに非常に適している。

畳み込みニューラルネットワーク（ＣＮＮ）は、畳み込みユニットを使用するＤＮＮであり、ユニットのフィルタ（重みベクトル）の受容フィールドが、入力の高さおよび幅寸法にわたって段階的に変わる。視覚入力に適用されるとき、ＣＮＮの初期層への入力は高さ（ｈ）、幅（ｗ）、および一つから三つのチャネル（ｃ）の寸法（例えば、赤、緑、および青色ピクセルの構成要素）を伴う画像であり、一方、ＣＮＮのその後の層への入力は、高さ（ｈ）、幅（ｗ）、および前の層からのフィルタの数（ｃ）という寸法を有する。各フィルタが小さいため、完全に接続する層と比較して、パラメータの数は大幅に減少し、（ｈ，ｗ，ｃ）の各々から次の層上の各ユニットへ投影する一意の重みがある。畳み込み層については、各ユニットは、（ｆ，ｆ，ｃ）と等しい重みの数を有し、ｆは、ｈまたはｗのいずれよりも非常に小さい、空間フィルタサイズ（通常、３）である。各フィルタを入力中の異なる空間位置で適用することで、物体が一つの空間位置にあるときに分類できる場合、物体を含む特徴は、物体の空間位置から独立しているため、物体はすべての空間位置において分類できるという点で、並進不変という好ましい特性が提供される。

畳み込み層の後に、大抵、サブサンプリング（ダウンサンプリング）層が続く。これらは、入力の小さい空間ウィンドウ（例えば、２×２）を単一値に減少させることによって、入力の高さ（ｈ）および幅（ｗ）を減少させる。減少には、平均化（平均プーリング）または最大値の採用（最大プーリング）が使用されている。サブサンプリング層の応答は、画像の小さな変化に対して不変であり、この効果は、通常のＣＮＮの複数層の上に蓄積される。推論では、いくつかの畳み込み層およびサブサンプリング層を画像に適用すると、出力は、並進、回転、拡大縮小、および反りなどまで、入力の様々な変形に対して素晴らしい安定性を呈し、例えば、続きの（ペンを持ち上げることなく書かれた）手書き数字についてトレーニングされたネットワークは、トレーニングセットの数字「３」と、小さい円をつなげ合わせて書かれた数字「３」とに同様の応答をする。

これらの不変性によって、入力のコード化で、視覚の変動に対する安定度が向上した特徴空間が提供され、つまり、入力が変化する（例えば、物体が、画像フレームにおいてわずかに並進して、回転する）とき、出力値の変化は入力値よりも非常に小さくなる。これによって学習は可能になるが、例えば、数ピクセル分並進した物体を伴う二つのフレームのコード化に、ほとんどまたは全く類似性がない、別の方法の上に学習するのは困難でありうる。

さらに、大規模なデータセットからフィルタを学習するために、近年ＧＰＵを加速する勾配降下技法を使用することで、ＣＮＮは、よくトレーニングされた物体クラスに対して、普遍化された素晴らしい性能に到達できる。普遍化とは、トレーニングされたクラス内で、トレーニングされた画像と同一ではないテスト画像に対して、ネットワークが類似の出力を生み出せることを意味する。クラスを定義する主要な規則性を学習するには、大量のデータが必要である。ネットワークが多くのクラスについてトレーニングされている場合、フィルタが全クラス間で共有される下位層は、すべての自然入力に良好な規則性のセットを提供する。したがって、一つのタスクについてトレーニングされたＤＮＮは、他のタスクの初期化として使用される場合、または下位層を、新しい高水準表現に対してプリプロセッサとして使用する場合、優れた結果を提供できる。自然な画像は統計的特性の共通セットを共有する。よくトレーニングされたニューラルネットワーク内部の視覚化における、最近の研究が示すように、下層で学習される特徴は、ほとんどクラスに依存しない一方、上の層になればなるほど、よりクラスに依存するようになる。

Ｌ－ＤＮＮでは、モジュールＢが、分類のため、高品質で圧縮され普遍化された物体特徴の表現を得るように、モジュールＡのこれらＣＮＮの能力を活かす。この利点を増大または最大化するために、Ｌ－ＤＮＮに使用されるＤＮＮは、可能な限り多くの異なる物体に対して事前トレーニングされてもよく、そのため、高水準特徴層の物体特異性は、Ｌ－ＤＮＮの高速学習能力に干渉しない。

モジュールＢの例示的実装
動作中、モジュールＢは、新しい物体を迅速に致命的忘却なしに学習する。

適応共鳴理論（ＡＲＴ）
モジュールＢの一例示的実装は、ＡＲＴニューラルネットワークである。ＡＲＴでは、各物体提示に対して勝者ノードを判定するように、カテゴリノード間の競争を利用することによって致命的忘却を避ける。この勝者ノードが、物体の正しいラベルと関連付けられる場合、およびその場合にのみ、学習アルゴリズムがそのノードの重みを更新する。各ノードは一つの物体のみと関連付けられ、学習アルゴリズムは、勝者ノードに対してのみ重みを更新するため、ＡＲＴのいかなる学習エピソードも、たった一つの物体にのみ影響を与える。したがって、新しい物体がシステムに追加されるとき、前の知識の干渉はなく、むしろＡＲＴは、新しいカテゴリノードを作り出し、対応する重みを更新するのみである。

残念ながら、文献に記載されているＡＲＴには、Ｌ－ＤＮＮのモジュールＢとして成功裏に使用するのを阻止する、いくつかの不利点がある。これらの不利点のうちの一つ、特に「何も知らない」の概念の欠如は、ＡＲＴに特有なわけではなく、上で考察している。ＡＲＴ特有の問題およびこれらの問題に対するソリューションのリストを、以下に開示する。

古典的なファジーＡＲＴは、その設計の不可欠な部分である補数コーディングのため、スパース入力に上手く対処しない。スパース入力が補数コーディングされるとき、スパース入力に豊富に存在する０の補数が１であるため、補数部分は、構成要素の大部分で高い活性を有する。これらの１すべてが入力の補数部分にあることから、距離計算中に異なる入力を互いから分離することが非常に難しくなるため、システムは混乱する。他方で、ＤＮＮのような強力な特徴抽出器は、高水準の特徴抽出時に、もっぱらスパース信号を提供する傾向がある。ＡＲＴパラダイムを保持するが、古典的なファジー設計および補数コーディングからは離れることは、Ｌ－ＤＮＮのモジュールＢでＡＲＴを使用するには有用となる。ソリューションの一つは、補数コーディングを除去し、ファジーＡＲＴにより使用されるファジーＡＮＤの距離計量を、ドット積に基づく計量と取り替えることである。このドット積に基づく計量には、結果は正規化されたままであり、ファジーＡＲＴへの他の変更は必要ないという利点がある。

ニューラルネットワークのＡＲＴファミリは、入力の提示順に非常に敏感である。言い換えると、ＡＲＴは一貫性の特性を欠き、異なる入力順が、ＡＲＴネットワークの中の対応する物体の異なる表現につながる。残念ながら、Ｌ－ＤＮＮのようなリアルタイムオペレーティングシステムは、センサからトレーニングデータを受信するときにそれを消費するため、一貫性を提供するように、トレーニングデータをシャッフルすることができない。センサは、リアルタイム動作中頻繁に、第一物体の大部分またはすべてのサンプル、それから後続の物体の全サンプルを提供するため、システムは一度に一つずつ物体表現を学習する。これによって、他の物体と競争せずに、システムが間違わず、それゆえ物体表現を適切に精緻化しうるため、いくつかのノードのみが第一物体を提示する状況につながってもよい。他方で、後続の物体は、システムが、第一物体の表現により既に大部分が占有されている超空間の中へ、その表現を押し込むであろうため、誇大に表現されうる。上に記載した「何も知らない」のメカニズムによって、早い段階で競争を導入し、第一物体のきめ細かい表現を保証する。上に記載した集約は、後続の物体の誇大表現になり、それを減少させ、またはそれを排除する。

また集約によって、物体表現のメモリフットプリントも減少し、メモリが限定されるエッジデバイスにとって特に有益である。システムが他の方法では分類できない物体のすべての視点に対して、新しいカテゴリノードを作り出すことは、新しい物体が入力として追加されるとき、ＡＲＴシステムのメモリフットプリントが一定の割合で増加することにつながる。上に記載したリアルタイム動作および続いて起こる物体の提示の間、システムは、次に続く各物体に対して、超線形的に増加する数のノードを作り出す。一部の事例では、システムは、物体の数に伴い、ノードの数の指数関数的増大を経験する。したがって、従来のＡＲＴを使用する、モジュールＢのメモリフットプリントは、物体の数による線形増加よりも速く増大しうる。最悪の場合、この増大は指数的でありうる。集約によって、メモリの増大を、物体の数と線形と変わらない速さに抑制し、Ｌ－ＤＮＮが学習する各物体に対する、固定サイズのほぼ最適表現を作り出すことが可能になる。

完全なＬ－ＤＮＮ実装の例

Ｌ－ＤＮＮ分類器
図４は、モジュールＡのコアとして修正されたＶＧＧ－１６のＤＮＮを使用する、全体画像分類のための例示的なＬ－ＤＮＮ実装を表す。ソフトマックスおよび完全に接続した最後の２層が、元のＶＧＧ－１６のＤＮＮから除去され、ＡＲＴベースのモジュールＢが、ＶＧＧ－１６のＤＮＮの完全に接続した第一層に接続する。類似だがより一層単純なＬ－ＤＮＮは、ＶＧＧ－１６の代わりにＡｌｅｘｎｅｔを使用して作り出すことができる。これは非常に単純で計算コストが低いシステムであり、現代のいかなるスマートフォン上でも動き、ＧＰＵもいかなる他の専用プロセッサも必要とせず、スマートフォンのカメラにより提供される数個の入力フレームから、いかなる物体のセットも学習できる。

Ｌ－ＤＮＮグリッドベースの検出器
画像の中で関心のある物体を検出する一つの手段は、画像をグリッドに分け、各グリッドセル上で分類を行うことである。Ｌ－ＤＮＮのこの実装では、ＣＮＮの以下の特徴が特に有用である。

上に記載した層にわたる縦の階層組織に加えて、各層は、地形組織を維持するデータを処理する。これは、ネットワークもしくはカーネル、ストライド、またはパッドサイズのどのくらいの深さかにかかわらず、画像上の関心のある特定のエリアに対応する特徴を、層の類似エリアに、様々な解像度のすべての層上に見つけられることを意味する。例えば、物体が画像の左上隅にあるとき、対応する特徴は、層の階層に沿って各層の左上隅に見つかるだろう。したがって、モジュールＢを層の場所の各々に取り付けることによって、モジュールＢが、画像の特定の場所上で分類を行い、いずれか知っている物体がこの場所に存在するかを判定することを可能にする。

さらに、同じ特徴ベクトルは、画像中の位置にかかわらず、同じ物体を提示するため、入力として使用される各ＤＮＮ層（またはスケール）につき、モジュールＢを一つのみ作り出さなくてはならない。それゆえ、右上隅にある一つの物体を学習することによって、モジュールＢが画像中のどこででも、その物体を認識することが可能になる。別個のモジュールＢへの入力として、異なるサイズ（スケール）の複数のＤＮＮ層を使用することによって、複数のスケールでの検出が可能になる。これは、次のプロセスにおいて、より細かいスケールで全体画像を処理することなく、画像の中で物体の位置を微調整するのに使用できる。

このプロセスでは、モジュールＡは分類用に、最も粗いスケール（例えば、公的に入手可能なＥｘｔｒａｃｔｉｏｎＮｅｔの７×７）の画像をモジュールＢへ提供する。モジュールＢが、物体を左端から２番目、上端から４番目にあるセルに発見したと示す場合、より細かいＤＮＮ入力（例えば、同じＥｘｔｒａｃｔｉｏｎＮｅｔの１４×１４）の対応する一部のみを分析して、物体の場所をさらに精緻化すべきである。

マルチスケール検出の別の適用では、層のサイズが互いの倍数ではない、ＤＮＮ設計を使用できる。例えば、ＤＮＮは、３０×３０の層を有する場合、２×２（圧縮因子１５）、３×３（圧縮因子１０）、および５×５（圧縮因子６）の層にまで減少されうる。図５に示すように、モジュールＢをこれらの圧縮したＤＮＮの各々へ取り付けると、物体の大雑把な場所（５０２、５０４、５０６として示す）が得られる。しかし、これらモジュールＢの出力が組み合わされている場合（５０８として示す）、空間解像度は、中心の解像度がより高く、端に向かって解像度がより低くなる、不均一な８×８グリッドとなる。

この解像度を実現するには、システムは、モジュールＢの計算を（２×２）＋（３×３）＋（５×５）＝３８回のみ行う一方、均一な８×８グリッドを計算するには、６４回モジュールＢの計算を行うことに留意されたい。より少ない計算で算出されることに加えて、中央の３６個の場所に対する、図５のマルチスケールグリッドの解像度は、均一な８×８グリッドの解像度と等しいか、またはそれよりも細かい。したがって、マルチスケール検出によって、システムは、同等の均一グリッドの計算資源の６０％のみを使用して、より正確に物体の場所（５１０）を示すことができる。この性能差は、合計の２乗（均一グリッドに対する計算回数を表す）が、２乗の合計（不均一グリッドに対する計算回数を表す）よりも早く大きくなるため、より大きな層に対して増加する。

不均一（マルチスケール）検出は、視野の中心にある物体が、ロボットの経路にいる可能性が最も高く、危険な衝突の兆候を提示しない周辺の物体よりも、正確に検出されることから恩恵を受けるため、動くロボットに対して特に有益でありうる。

画像セグメンテーション用のＬ－ＤＮＮ
画像に対して、物体検出は通例、物体の回りに境界ボックスを置き、関連するクラス（例えば、「犬」）とラベル付けするタスクとして定義される。前セクションのグリッドに基づく方法に加えて、物体検出技法は通例、境界ボックスを伴う画像の一つ以上の領域を選択し、その後、そのボックス内の特徴を特定のクラスとして分類しながら、同時に境界ボックスの場所のオフセットを回帰推定することによって実装される。この物体検出の方法を実施するアルゴリズムは、Ｒｅｇｉｏｎ－ｂａｓｅｄＣＮＮ（Ｒ－ＣＮＮ）、ＦａｓｔＲ－ＣＮＮ、およびＦａｓｔｅｒＲ－ＣＮＮを含むものの、位置確認を行わないいずれの方法も、検出モジュールとして置き換えられてもよい、分類情報に直接依存する。

画像セグメンテーションは、画像の中のピクセルのすべてまたはサブセットに対して、クラスラベルを判定するタスクである。セグメンテーションは、同じクラスの二つの別個の物体からの個々のピクセルの曖昧さを解消する、セマンティックセグメンテーションと、同じクラスの二つの別個の物体からの個々のピクセルを、一意に識別またはインスタンス化する、インスタンスセグメンテーションとに分かれてもよい。画像セグメンテーションは通例、物体検出方法（Ｒ－ＣＮＮ、ＦａｓｔＲ－ＣＮＮ、またはＦａｓｔｅｒＲ－ＣＮＮなど）の境界ボックス出力を取り出し、そのボックスで最も目立つ物体をセグメント化することによって実施される。境界ボックスと関連付けられるクラスラベルが、その後、セグメント化された物体と関連付けられる。境界ボックスに起因しうるクラスラベルがない場合、セグメンテーション結果は破棄される。結果として得られるセグメント化された物体は、インスタンス情報を有していてもいなくてもよい。このセグメンテーションの方法を実施する一つのアルゴリズムが、ＭａｓｋＲ－ＣＮＮである。

ネットワークのＲ－ＣＮＮファミリに基づく、画像検出またはセグメンテーション用のＬ－ＤＮＮ設計を、図６に提示する。ＭａｓｋＲ－ＣＮＮなど、静的分類モジュールを使用する画像セグメンテーションプロセスについて考える。このシナリオでは、静的分類モジュール６００は、Ｌ－ＤＮＮのモジュールＢ１０４と取り替えられてもよい。すなわち、ネットワークのセグメンテーション経路は変わらないままであり、領域は通常どおりに提案され、続けてセグメント化される。静的分類モジュールを伴う場合のように、Ｌ－ＤＮＮのモジュールＢ１０４が、閾値を渡す肯定的なクラス予測を全く返信しない（例えば、ネットワークがトレーニングされていない、またはセグメント化されたエリアを、上に記載したような「何も知らない」と認識する場合に生じるような）とき、セグメンテーション結果は破棄される。同様に、Ｌ－ＤＮＮのモジュールＢ１０４が許容可能なクラス予測を返信するとき、静的分類モジュールと同じように、セグメンテーション結果は保持される。静的分類モジュール６００とは異なり、Ｌ－ＤＮＮのモジュールＢ１０４は、ユーザフィードバックによって前者から後者へ状態を変更するように、継続適応を用意する。

ユーザフィードバックは、ユーザがソーシャルメディアプロフィール上で物体を選択してタグ付けする場合など、直接的に境界ボックスおよびクラスラベルを通して、またはユーザがビデオの中で物体を選択し、その後、物体がビデオ中を通して追跡され、新しい物体クラスに関する連続フィードバックを提供する場合など、間接フィードバックを通して提供されてもよい。このフィードバックは、新規のクラスネットワークを経時的に分類する方法を、Ｌ－ＤＮＮにトレーニングするために使用される。このプロセスは、ネットワークのセグメンテーション構成要素には影響を与えない。

また、このパラダイムでのモジュールＢ１０４の配置にも、ある程度柔軟性がある。モジュールＢ１０４への入力は、クラスラベルが、セグメンテーション出力と組み合わせられ、セグメント化されラベル付けされた出力６０２を生み出してもよいように、モジュールＡの畳み込み層２０２の出力へ直接リンクされるべきである。この制約は、両モジュールＡおよびＢに、領域提案段階の出力を取らせることによって満たされうる。モジュールＡは、モジュールＢのいかなる動的部分にも依存すべきではない。すなわち、モジュールＢはネットワークの重みに適応しているが、モジュールＡが静的であるため、モジュールＢが重みを変更し、その後、その出力をモジュールＡへ渡すべき場合、モジュールＡは、ほとんどの静的ニューラルネットワークが、ネットワークの入力表現の急な変更に対処できないため、性能の低下を見る可能性が高いであろう。

頭脳の集約および頭脳の混合
Ｌ－ＤＮＮを実装する複数のリアルタイムに動作する機械は、Ｌ－ＤＮＮを通して新しい情報をオンザフライで個々に学習できる。一部の状況では、次のセクションに記載する、いくつかの使用事例で概説するように、リアルタイムに動作する機械間で知識を共有することは有利でありうる。リアルタイムに動作する機械がエッジで新しい知識を学習するので、新しい知識を共有するために、各リアルタイムに動作する機械は、エッジから中央サーバへまたは他のリアルタイムに動作する機械へ、新しい情報の、圧縮され普遍化された表現（モジュールＢのシナプスの重み行列という観点から、ネットワークに表される）を送信する。次のステップを実施することによって、各リアルタイムに動作する機械により取得される知識を、中央サーバでまたは直接エッジデバイス上のいずれかで、抽出し、加えて、集約し、集中型通信またはピアツーピア通信によって、他のリアルタイムに動作する機械と共有できる。

・配備された現場で新しい情報を学習 ― 上で考察したように、リアルタイムに動作する機械は、新しい情報をＬ－ＤＮＮによってオンザフライで学習できる。ユーザは、リアルタイムに動作する機械が新しい物体および／または新しい知識に遭遇していると分かると、リアルタイムに動作する機械が、新しい物体および／または新しい知識をオンザフライで学習できるように、新しい物体にラベルを提供し、高速学習モードをトリガできる。このように、リアルタイムに動作する機械は、その挙動を修正し、迅速に新しい物体および／または新しい知識に適応できる。

・新しい知識の集約 ― 一つ以上の物体をオンザフライで学習した後、システムは、高速学習モジュールＢで集約プロセスを動かす。このプロセスによって、新しい物体の表現を圧縮し、以前から既知である物体の表現と統合し、ネットワークの普遍化能力を向上させ、モジュールＢのメモリフットプリントを削減する。ＡＲＴネットワークに基づく例示的実装について、以下で詳細に示す。

・集約された個々の頭脳を他のデバイスへ伝達 ― 動作中のいずれの時点でも、またはミッション完了後に、リアルタイムに動作する機械は、その高速学習モジュール（モジュールＢ）の集約された重み行列を、有線または無線通信チャネルを通して中央サーバ（例えば、クラウドベースのサーバ）へ伝送できる。一部の例では、各リアルタイムに動作する機械の高速学習モジュールの重み行列を、外部記憶デバイスへダウンロードでき、中央サーバへ物理的に連結できる。中央サーバが利用可能でない、または望ましくないとき、通信はリアルタイムに動作する機械（エッジデバイス）間にピアツーピア形式で生じうる。

・頭脳混合（または融合、マージ、組み合わせ） ― いくつかのリアルタイムに動作する機械からの重み行列が、中央サーバまたはエッジデバイスのうちの一つで収集された後、中央サーバまたはエッジデバイスは、各リアルタイムに動作する機械から新しく取得される知識を組み合わせ、単一の重み行列へ圧縮し、集約する混合ユーティリティを動かすことができる。混合ユーティリティによって、システム全体の精度を保ちながら、結果として得られる行列のメモリフットプリントを削減し、冗長性を除去する。ＡＲＴネットワークに基づく例示的実装について、以下で詳細に示す。

・混合後の個々の頭脳の更新 ― 頭脳混合中に作り出される、結果として生じる重み行列は、その後、有線もしくは無線通信チャネルを通して、または物理的外部記憶／メモリデバイスへダウンロードし、記憶／メモリデバイスをリアルタイムに動作する機械へ物理的に輸送することによって、一つ以上のリアルタイムに動作する機械へダウンロードされる。

このように、複数のリアルタイムに動作する機械からの知識を集約することができ、これらの機械の各々により学習される新しい知識を、他のリアルタイムに動作する機械と共有できる。

ＡＲＴを使用する頭脳集約および混合プロセスの例示的実装
図７Ａは、ＡＲＴを使用する例示的な頭脳集約および混合プロセスを示す。図では、次のように既定のＡＲＴプロセスを拡張する。層Ｆ２の２１６にあるＡＲＴのカテゴリノードの各々は、ある物体を表し、各物体は、それを表す一つ以上のカテゴリノードを有する。図７Ａの左側は、層Ｆ１の２１２により活性化される、層Ｆ２の２１６にあるカテゴリノードに対する重みパターン７０２を示す。各重みパターンは、層Ｆ１の２１２へ提供される、複数の現実の特徴入力２１０から学習された、普遍化された入力パターンを表す。ＡＲＴでの学習は、カテゴリノードおよび対応する物体が、競争に勝利していて、問題の物体を正しく識別しているときにのみ生じることに留意されたい。

図７Ａの中央は、異なる物体に対する複数の入力２１０が、ＡＲＴネットワークへ提示された後の、層Ｆ２の２１６にある異なるカテゴリノードの重みパターン７０２を示す。各重みパターン７０２は、対応するノードが、対応する物体ラベルと同一であるとするように学習した入力の普遍化バージョンを表す。図７Ａの中央にある重みパターン７０２は、図７Ａの右に示す集約入力７０４になる。

最初の入力２１０は、概して、集約時または混合時にシステムには利用できない。他方で、重みパターン７０２の収集は、ＡＲＴネットワークがトレーニング中に触れた、入力２１０すべての普遍化である。このように、重みパターン７０２は、入力２１０の重要な特徴も、または元の入力２１０よりも良好な重要な特徴を表し、トレーニングプロセス中、現実の入力の代用として機能できる。

集約には、現実の入力の代用として、重みパターンを使用する。集約の間、次のステップが生じる。

・既存の重み行列の重みベクトル７０２（例えば、図２の重みベクトル２１４の行列）を、集約入力セット（図７Ａの右側）ａ_ｉ＝ｗ_ｉに加え、式中、ａは入力ベクトルであり、ｗは重みベクトルであり、ｉは１からネットワークの中にある既存のカテゴリノードの数までである。ＡＲＴネットワークが補数コーディングを使用する場合、重みベクトルの半分の補数を解除（ｄｅｃｏｍｐｌｅｍｅｎｔｅｄ）し、ベクトルの最初の半分で平均する（ａ_ｉ＝（ｗ_ｉ＋（１－ｗ_ｉｃ））／２）。集約入力セットの各ベクトルは、それぞれのカテゴリノードから抽出された対応するラベルを受け取る。

・既存のＦ２ノードおよび対応する重みはすべて、ＡＲＴネットワークから除去され、そのため、ＡＲＴネットワークは空白の初期状態になる。

・集約入力セットは無作為にシャッフルされ、ＡＲＴネットワークが、元の入力を学習したのと同じようにこのセットを学習する。無作為にシャッフルすることによって、従来のＡＲＴネットワークにおける順序依存性の影響を低減し、ＡＲＴネットワークが、よりコンパクト（作り出されるカテゴリノードがより少ない）でより最適な（より優れた普遍化）表現を構築することが可能になる。

集約入力セットに重みを使用することには、単一のベクトルが多くの元の入力ベクトルと置き換わるというさらなる利点があり、そのため、集約プロセスによって複雑さが減少し、元の学習プロセスよりも計算時間が速くなる。

集約プロセスは、Ｌ－ＤＮＮに基づくシステムの動作中はいつでも生じうる。集約プロセスによって、モジュールＢのＡＲＴベースの実装のメモリフットプリントを削減し、ＡＲＴに基づくシステムの順序依存性を低減する。このような動作中に、システムが動作するにつれてシステムの中へ入ってくる感覚入力の順序を変更する手段がないため、順序依存性の低減は、Ｌ－ＤＮＮに基づく、いかなるリアルタイムに動作する機械にも有益である。集約は、ユーザ作用によって、もしくはメモリフットプリントが大きくなりすぎるとき（例えば、閾値サイズに到達するか、またはそれを超過する）に自動で、または動作期間に基づいて定期的にトリガできる。

例示的な集約は、リアルタイムで動作しており、次々に物体を見たかのように、ＡＲＴネットワークへ意図的に提示される、ＣＯＩＬデータセットに対して行われた。最初のトレーニングには、集約トレーニングよりも４．５倍長くかかった。集約によって、メモリフットプリントを２５％削減し、物体認識性能は５０％の正解から７５％の正解へと向上した。トレーニングデータセットが最初にシャッフルされて、順序のアーチファクトを減少させた事例では、集約は依然として性能の向上を示した。初期トレーニング後に、システムが既に十分圧縮されていたため、著しいメモリフットプリントの削減はなかったが、物体認識に対する正解率は平均で８７％から９８％へと上昇した。これらの実験結果は、予想外に大きな性能改善を表している。

融合は、二つ以上のＡＲＴネットワークの重み行列から、集約トレーニングセットが組み合わされる集約の延長である。融合は、集約のすべての利点を継承し、ＡＲＴネットワークの普遍化特性から利益を得る。結果として、複数の融合されたＡＲＴネットワークが、同じ物体の知識を有するとき、複数のＡＲＴネットワークにわたるこの物体の類似表現すべてが、ＡＲＴ学習プロセスによって自然に共に組み合わされ、一方ですべての特徴的な表現は保存される。これは、物体表現の賢い圧縮、および融合されたシステムのメモリフットプリントのさらなる削減につながる。

例えば、一つのＡＲＴインスタンスでＣＯＩＬデータセットからの５０個の物体を学習し、別のＡＲＴインスタンスで３３個の物体（２セットで１７個の物体が同じ）を学習する場合、第一インスタンスに対して９２．９％の正解、および第二インスタンスに対して９０．５％の正解となる。それらを共に融合することで、両ＡＲＴインスタンスによって学習される、全６６個の一意の物体に関して、９７％正解のネットワークを作り出す。加えて、融合バージョンは、二つのネットワークの総当たりの組み合わせが有するであろううちの、８３％のメモリフットプリントを有する。さらに、融合バージョンのメモリフットプリントは、第一ネットワークと、第二ネットワークの新しい物体のみとの組み合わせ（重複する１７個の物体を除く）よりも３％小さい。したがって、混合によって実際に、精度を向上するように、賢く圧縮し、物体表現を精緻化する。入力を無作為にシャッフルしない場合、混合の結果は、正確性の点でより一層卓越し、８５．３％および７７．６％正解のネットワークを混合すると、組み合わせた二つのネットワークのメモリフットプリントの８４．６％を有する、９６．６％正解のネットワークとなる。これらの混合実験結果は、予想外に大きな性能改善を表している。

性能向上のためのコンテキスト情報の使用
Ｌ－ＤＮＮに基づくシステムはさらに、コンテキスト情報を現在の物体情報と組み合わせることによって、性能精度を向上できる。コンテキストＬ－ＤＮＮは、ある物体が入力ストリームで共起する可能性が高いことを学習しうる。例えば、ラクダ、ヤシの木、砂丘、およびオフロード車は、砂漠の場面に典型的な物体であり（図７Ｂを参照）、一方、家、スポーツカー、オークの木、および犬は、郊外の場面にコンテキスト典型的な物体である。ドローンの入力として取得された、ピクセルレベルで局所的に曖昧な情報は、コンテキストに応じて、二つの物体クラス（例えば、ラクダまたは犬）にマッピングできる。両方の事例で、物体の焦点には、低解像度画像によくある、曖昧な表現がある。砂漠の場面では、ラクダのピクセル化画像は、「ラクダ」がＬ－ＤＮＮによって推察される可能性の高いクラスの４番目であり、最もありうるのは、局所ピクセル情報のみに基づくと「馬」であるものの、場面に関する大局情報、および物体間で学習された過去の関連付けによって見出すことができる。コンテキストの物体（砂丘、オフロード車、ヤシの木）が、「ラクダ」と関連付けられる過去にあったことがあり、そのため、コンテキスト分類器は「馬」クラスを覆して、「ラクダ」クラスを選ぶことができる。同様に、「家」、「スポーツカー」、および「オークの木」を包含する都会の場面では、同じピクセルセットが「犬」にマッピングされうる。

補足として、上の例のラクダのように、物体が曖昧または異常と識別されるとき、Ｌ－ＤＮＮシステムは、人間の分析者／ユーザに、物体をより詳しく見るように促してもよい。この異常検出および警告サブシステムによって、コンテキストを使用して、正常な物体の識別の曖昧さを解消することによって、場面に属さない、関心のある識別物体間のバランスを取ることができる。

無限後退問題、すなわち、コンテキストモジュールが物体クラスを生み出しうる前に、物体分類が必要であることは、最大確率を持つラベルを、コンテキスト分類器への入力として与えることで避けられる。このように、物体の各固定時に、コンテキスト分類器は、物体ラベルの推量を繰り返し精緻化できる。

Ｌ－ＤＮＮはラベルのない莫大な量のデータを活用可能
莫大な量の非構造化コンテンツによって、ラベルなしでも、価値のあるレーニングデータがＬ－ＤＮＮのモジュールＡに提供される。貪欲な層単位の事前トレーニング（ｇｒｅｅｄｙｌａｙｅｒ－ｗｉｓｅｐｒｅ－ｔｒａｉｎｉｎｇ）として知られる技法によって、ＤＮＮが、各層を順にトレーニングすることによって、ボトムアップからの教師なし学習を行うことが可能になる。層単位のトレーニングメカニズムは、コントラスティブダイバージェンス、すなわち、ノイズ除去オートエンコーダおよび畳み込みオートエンコーダを含む。オートエンコーダは、入力を取り込み、重みおよび転送機能によってコード化し、入力再構成誤差の点から出力を評価する。層をトレーニングした後に、その出力は次の層の入力になる。事前トレーニングされたネットワークは、いかなるディープネットワークの恩恵をも享受し、すなわち、例えば、層１上の学習エッジ、層２上のコーナーおよび他のエッジグループ、ならびに後の層における高次データに固有の特徴といった、有用な階層特徴の関係をしばしば捕捉する。さらに、畳み込みの変形は、畳み込みネットワークの生来の並進不変を享受する。

このプロセスは、後で教師あり学習（「微調整」）に先行する傾向があるため、事前トレーニングと呼ばれる。多くの場合、事前トレーニングされるネットワークの性能は、事前トレーニングなしのネットワークより優れている。大量のラベル付きデータがある場合、ラベルが分析者に何らかの負荷をかけるため、事前トレーニングされるネットワークは、事前トレーニングなしのネットワークにかなわない。事前トレーニングされる「環境固有の」ネットワークは、ラベル付けの負荷を低く抑えながら、Ｌ－ＤＮＮシステムの認識性能を、他の事前トレーニングされるネットワークよりも向上させるだろう。言い換えると、分析者の報告に起因する限定的ラベルに加えて、ラベルのないデータに関してトレーニングされるＤＮＮは、比較的少数の分析者の報告だけでなく、別の大量にラベルの付いたデータセットからもトレーニングされるＤＮＮを上回る性能の向上につながる。

最後に、モジュールＢの実装としてのＡＲＴは、教師なし学習も行うことができるため、別のメリットがある。ＡＲＴは、学習用のラベルを必要としないが、利用可能なときには、ラベルを活用できることを意味する、「半教師付き」とみなされうる。ＡＲＴは、各ノードに対して、最も一致した観察のフレームおよび画像領域用の検索情報を記憶しながら、教師なし学習モードで操作することによって、ラベルのないデータの組織化を支援する。各ＡＲＴノードによって、分析者が多くの類似する観察にアクセスし調査することが可能になりうる。

Ｌ－ＤＮＮの例示的な使用事例
次の使用事例は、Ｌ－ＤＮＮが、様々な現場で技術上の問題にどのように取り組みうるかの非限定的な例である。

Ｌ－ＤＮＮを使用して調査を自動化：単一または複数の画像資源
例えば、送電線、基地局鉄塔、または風力タービンといった産業インフラの調査プロセスを自動化したい、ドローンサービスプロバイダについて考える。既存のソリューションでは、調査が必要な主要構成要素を含むフレームを見つけるために、調査官がドローンのビデオを何時間も見る必要がある。調査官は、フレームの各々で、これらの主要構成要素を手動で識別しなくてはならない。

対照的に、Ｌ－ＤＮＮベースのアシスタントは識別ツールに導入できる。関心のある物体または異常のラベルを含むデータを、従来の低速ＤＮＮ工場トレーニング中に、事前トレーニング済みセットとして、Ｌ－ＤＮＮベースのアシスタントへ提供できる。以下に記載するように、高速学習モード中に、ユーザがこのセットへ追加することができる。

図８は、「スマートな」ドローン上、または「データ処理能力のない」ドローンにより取得されるビデオを再検討するのに使用されるコンピュータ上に含むことができる、Ｌ－ＤＮＮベースのアシスタントの動作を示す。ドローン８００は、通信塔８２０、太陽電池パネル８３０、風力タービンファーム８４０、または送電線分配８５０などの構造（これらは例示的な構造にすぎず、他の構造も想定されうる）を調査する。ドローンオペレータ８１０は、ドローンの手動制御を使用していてもよく、または自動で機能するドローンを監視していてもよい。制御室にいる分析者などの人間の分析者８０５は、ドローン８００からの感覚入力（例えば、ビデオ、ライダーなど）１００を所有する、Ｌ－ＤＮＮシステム１０６のモジュールＢ１０４へ、ドローンが飛行しているときにラベルを提供、または飛行を掲載できる。

最初に、ドローン８００は、Ｌ－ＤＮＮ１０６のコピーを個別の局所分類器として受信する。ドローン８００が、これらの送電線８５０、基地局鉄塔８２０、および風力タービン８４０を調査している間に、ビデオフレーム１００を取得すると、Ｌ－ＤＮＮ１０６のモジュールＡ１０２は、事前トレーニングされたデータに基づいて、ビデオフレーム１００から画像の特徴を抽出する。モジュールＢ１０４はその後、これらの特徴に基づいて、各物体に可能性の高いラベルを提供する。この情報はユーザ８０５へ渡される。ユーザ８０５は、ラベルが意に満たない場合、高速学習モードを作動させて、モジュールＢのネットワークを正しいラベルで更新できる。このように、ユーザが提供する情報によって現在のラベルを補正してもよい。したがって、高速学習サブシステムは、更新後の第一フレームと同じくらい早く、送電線、基地局鉄塔、および風力タービンなど、既に学習した物体の位置および特徴を判定するように、一試行の学習を利用できる。前に撮ったビデオを分析する場合、それはユーザが補正を導入した直後を意味する。したがって、システム１０６は、時間と共により知識が豊富になり、ユーザの助けで経時的により良い識別を提供する。

図９は、本明細書に記載するＬ－ＤＮＮ技術を、複数のドローン（例えば、データ処理能力のないドローン８００および９００、ならびにスマートなドローン９１０）が、同期的または非同期的にデータを収集する、図８の普遍化された事例としてどのように適用できるかを示す。各ドローンと関連付けられたＬ－ＤＮＮにより学習される情報は、マージされ（組み合わされ、または混合され）他のドローンへプッシュバックされるか、ドローン間のピアツーピアで共有するか、またはモジュールＢ１０４を包含する中央サーバと共有するかできる。中央サーバは、個々のＬ－ＤＮＮが学習した情報をマージし、ドローン９１０を含む全ドローンへマージした情報をプッシュバックし、ドローン９１０は、ドローン８００および９００により取得されたデータに由来する、通信塔８２０、太陽電池パネル８３０、風力タービンファーム８４０、または送電線分配８５０に関する情報に触れていなかったが、マージプロセスのおかげで、これらの項目をここで理解し分類できる。

Ｌ－ＤＮＮを使用して倉庫業務を自動化：複数資源からの知識を集約および混合
上に記載したシステムは、コンサートで動作する、複数の機械またはカメラ（固定された、ドローンに取り付けられた、など）に対して拡張できる。複数の異なる地理的場所に、大きな倉庫を持つ会社について考える。手作業で大きな倉庫の棚卸しをすると、多くの人時がかかる可能性があり、大抵その時間中、倉庫を閉める必要がある。既存の自動化ソリューションでは、隠れている場合がある、積み重なった物体を識別するのが困難である。加えて、既存の自動化ソリューションでは、一つの地理的場所で学習される情報は、他の場所へ転送されない。一部の例では、異なる地理的場所で収集される莫大な量のデータのため、これらの自動化ソリューションは、新しいデータを学習し、新しいデータに作用するのに何週間もかかりうる。

対照的に、本明細書に記載するＬ－ＤＮＮ技術は、センサ（例えば、固定カメラ１０１０ａ～１０１０ｃ、またはロボットもしくはドローン上に載置された移動カメラ）が、センサへ接続する様々なＬ－ＤＮＮモジュールを介して、在庫の中の新しい項目をオンザフライで学習できる、図１０に示すような、倉庫、産業施設、または流通センターの環境へ適用可能である。加えて、８０５および１００５にいるオペレータは、分散的なやり方で新しい情報を様々なＬ－ＤＮＮモジュールへ教えうる。この新しい知識は、中央に統合されるか、またはピアツーピアで伝達されるかして、混合の後に各個々のデバイス（例えば、カメラ１０１０）へプッシュバックされうる。

例えば、図１０の固定カメラ１０１０ａ～１０１０ｃ（まとめて、カメラ１０１０）について考える。これらのカメラ１０１０の各々は、コンベアベルト上の物体の対応するビデオ画像１００を取得し、その画像１００を対応するＬ－ＤＮＮ１０６ａ～１０６ｃ（まとめて、Ｌ－ＤＮＮ１０６）へ提供する。Ｌ－ＤＮＮ１０６は、例えば、調査、仕分け、または他の流通センター機能のために、画像１００の中の既知の物体を認識する。

各Ｌ－ＤＮＮ１０６は、人間のオペレータ８０５および１００５による評価のために、または「何も知らない」として、未知の物体をタグ付けする。例えば、未知の物体１０４０により提示されるとき、Ｌ－ＤＮＮ１０６ａは、人間のオペレータ８０５による分類のために、未知の物体１０４０にフラグを立てる。同様に、Ｌ－ＤＮＮ１０６ｃは、人間のオペレータ８０５による分類のために、未知の物体１０６０にフラグを立てる。Ｌ－ＤＮＮ１０６ｂは、未知の物体１０５０が提示されると、単純に未知の物体１０５０を「何も知らない」とタグ付けする。Ｌ－ＤＮＮ１０６へ連結する独立型モジュールＢ１０４ｄは、Ｌ－ＤＮＮ１０６ａおよび１０６ｃにより人間のオペレータ８０５および１００５から取得される知識をマージし、モジュールＢ１０４ｂが、物体１０４０および１０６０の今後のインスタンスを認識できるように、Ｌ－ＤＮＮ１０６ｂのモジュールＢ１０４ｂへ知識をプッシュする。

各デバイス用のＬ－ＤＮＮ１０６は、柱の印、出口表示のような特徴、それらの組み合わせ、および／または類似のものなど、倉庫の中の既存の目印を認識するように、事前にトレーニングできる。これによって、システムが、センサを装備する、またはセンサ（例えば、カメラ１０１０）により取得される画像に現れる無人車両の位置を、三角測量することが可能になる。各車両のＬ－ＤＮＮは、上に記載した使用事例と全く同じように動作する。このように、複数の無人車両からの知識は、集約され、混合され、各無人車両へ戻して再分配できる。すべての場所からの知識の集約および混合は、上の集約および混合セクションに記載したように、中央サーバにより行うことができ、加えて、ピアツーピアでの混合も適用できる。したがって、倉庫業務への最小限の混乱で、複数の倉庫において、在庫を取り出し、知識を集約できる。

モバイルデバイスの一団でＬ－ＤＮＮを使用
消費者のスマートフォンおよびタブレットなどの消費者のモバイルデバイス、またはモバイルカメラ、装着式カメラ、ならびに公共の安全のために第一対応者および公共安全担当者により使用される、手持ち式ＬＴＥデバイスなどの専門デバイスの分散型ネットワークについて考える。消費者のデバイスは、写真を撮る時など、消費者の周囲を理解するために使用できる。これらの場合、本明細書に記載するＬ－ＤＮＮ技術が、図１１に示すスマートフォンまたはタブレットデバイス１１１０、１１２０、および１１３０に適用できる。個人（例えば、ユーザ１１０５および１１０６）は、デバイス１１１０および１１３０のＬ－ＤＮＮモジュール１０６にそれぞれ知識を教え、この情報をピアツーピアで、またはモジュールＢ１０４を包含するサーバ１１９０上でマージしうる。サーバ１１９０は、マージした知識を、元のトレーニング１０２０に参加しなかったデバイスを場合により含む、一部またはすべての接続デバイスにプッシュバックする。

Ｌ－ＤＮＮモジュールは、例えば、ユーザが撮った写真に、画像処理法を適用することを学習でき、ユーザは、各Ｌ－ＤＮＮに、写真の態様と関連付けられた一部のカスタマイズされた作用（例えば、これら物体のクラスまたはエリアに、フィルタまたは画像の歪みを適用する）を教えることができる。組み合わせて学習された作用は、デバイスにわたりピアツーピアでもしくはまとめて、共有、マージ、または組み合わされうる。加えて、Ｌ－ＤＮＮ技術は、入力変数が感覚的または非感覚的でありうる（スマートフォンのすべての使用パターン）、スマートフォン使用を普遍化した使用事例に適用できる。入力変数および出力変数の任意の組み合わせでありうる、これらの使用パターンは、スマートフォンレベルで学習され、中央のＬ－ＤＮＮモジュール１０４へプッシュされ、マージされ、個々のデバイスへプッシュバックできる。

別の例では、警察官が、Ｌ－ＤＮＮを動かす専門デバイスを使用して、迷子、容疑者、または疑わしい物体を探すことができる。このような状況では、警官および／または第一対応者には、時間を無駄にする余裕はない。警官および／または第一対応者に提供される既存のソリューションでは、カメラからのビデオフィードを、手動で分析し整理する必要がある。このようなソリューションは、中央サーバを使用して物体を分析および識別するため、時間がかかりすぎる。すなわち、このようなソリューションには、ビデオデータをクラウド／中央サーバで分析する必要があるため、大きな遅延問題がある。これは、データを受信すると即座に行動する必要がしばしばある、第一対応者／警官には深刻な障害となりうる。加えて、ビデオデータを連続して中央サーバへ送信することで、通信チャネルに負担がかかりうる。

代わりに、携帯電話、装着式カメラ、および手持ち式ＬＴＥデバイスのＬ－ＤＮＮを使用することによって、データをエッジ自体で学習し分析できる。消費者は、その場で自身のデバイスをカスタマイズすることを学習でき、警官／第一対応者は、人／物体の場所を探して提供するだけでなく、警官が能動的に見ていないかもしれない、関心対象の人／物体を所々で探して識別もできる。Ｌ－ＤＮＮは、リモートサーバ上でオペレータから学習する代わりに、現場のデバイス上で警官から学習するように高速学習モードを利用して、集中型学習と関連付けられる遅延問題を低減または排除できる。

図１は、消費者が、電話を場面に向け、全体の場面または場面の部分（物体、例えば、空、水といった場面の一部分など）をラベル付けするとき、画像の中の構成要素をラベル付けするための、携帯電話のＬ－ＤＮＮの動作を示しうる。加えて、警察官は、ビデオフレームにアクセスして、疑わしい人／物体を識別できる。携帯電話がビデオフレーム１００を取得すると、モジュールＡ１０２は、事前にトレーニングされたデータに基づいて、これらのフレームから画像の特徴を抽出できる。モジュールＢ１０４はその後、これらの特徴を使用して、各物体に可能性の高いラベルを提供できる。例えば、人物Ａが近所Ｂに住み、過去に近所Ｂで観察されていた場合、人物Ａは、近所Ｂの「住民」としてラベル付けされてもよい。したがって、高速学習サブシステムは、早ければ学習の第一フレーム後即座に、家、木など、既に学習した物体の相対位置および特徴を判定するように、一試行の学習を利用できる。より重要なことは、中央サーバ１１０上のディスパッチャによって、サーバ側のＬ－ＤＮＮに見出すべき新しい物体を導入することができ、新しい物体は、必要に応じて混合され、現地の第一対応者へ分配されるだろう。

この使用事例は、前の使用事例に非常に類似しているが、古い物体を忘れることなく、新しい物体を迅速に学習する、Ｌ－ＤＮＮの能力をより活用している。調査および在庫収集中は、大抵ほとんど時間的制約がなく、メモリを低速学習モードで集約できる一方、第一対応者の場合、エリア中の全デバイスが、容疑者または行方不明の子供を探し始めることができるように、できるだけ速く複数のデバイスからの知識を集約し混合することが重要でありうる。したがって、一人の第一対応者により導かれる新しい物体を、迅速に学習し、ほぼ瞬時にサーバ上で集約し、エリア中のすべての第一対応者へ分配するＬ－ＤＮＮの能力は、この使用事例にとってとてつもなく大きな利点となる。

従来のＤＮＮとデータセンターのＬ－ＤＮＮとの取り替え
本明細書に記載するＬ－ＤＮＮ技術は、図１２に示すように、個々の計算ノードまたは大きなデータセンターのサーバ１２００において、ＤＮＮプロセスの計算時間を低減する道具として適用できる。Ｌ－ＤＮＮ技術によって、ＤＮＮにおける学習が桁違いに速くなる。この特徴を使用して、劇的にサーバ上での計算資源の必要性を減少させるか、または計算資源の消費を削減でき、情報は、大抵数時間／数日／数週間のトレーニング時間を必要とする、大規模なデータセット１００に対して、ほとんど数秒もかからずに学習できる。Ｌ－ＤＮＮの使用はまた、電力消費を削減し、データセンターのサーバ資源１２００を全体的により上手く利用することにもなる。

結論
上に記載したように、Ｌ－ＤＮＮによって、オンザフライ（ワンショット）学習をニューラルネットワークシステムに提供できる。逆に、従来のＤＮＮはしばしば、新しい物体を学習するのに、数千回または数百万回の繰り返しサイクルを必要とする。繰り返しサイクル当たりのステップサイズが大きくなるほど、損失関数の勾配が、実際の性能向上につながりうる可能性が低くなる。故に、これら従来のＤＮＮは、トレーニングサンプルごとに、重みに小さな変更をもたらす。これによって、新しい知識をオンザフライで追加するのが非常に困難になる。対照的に、高速学習ニューラルネットワークを伴うＬ－ＤＮＮでは、ほとんどトレーニング例がなくても、安定した物体表現を学習できる。一部の例では、たった一つのトレーニング例でも、Ｌ－ＤＮＮに十分でありうる。

Ｌ－ＤＮＮは、従来のＤＮＮに加えて、高速トレーニングニューラルネットワークを使用するため、従来のＤＮＮを悩ます「致命的忘却」に耐性がある。致命的忘却では、新しい入力がＤＮＮへ提供されると、ＤＮＮのすべての重みがサンプル提示ごとに調整されて、新しい入力を学習すると、ＤＮＮに古い入力の分類方法を「忘れ」させる。致命的忘却は、新しい入力を含め、入力の完全なセットを単純に再学習することによって避けることができるが、再学習は時間がかかりすぎて実践的ではない。一部の既存のアプローチは、重みの重要性に基づいて選択的に重みを制限するか、ＤＮＮのサブネットワークをトレーニングするか、または致命的忘却を避けるようにモジュール式のアプローチを使用するかのいずれかである。しかしながら、このようなアプローチは、低速であるだけでなく、ＤＮＮをトレーニングする複数回の繰り返しサイクルも必要とする。対照的に、Ｌ－ＤＮＮによって、再トレーニングなしで、高速で安定的な学習能力を実現する手段を提供する。またＬ－ＤＮＮによって、単一の例でおよび／または単一回の繰り返しサイクルで物体表現の安定的学習も促進する。

本明細書において様々な発明の実施形態を記載し、例示してきたが、当業者は、本明細書に記載の機能を実施し、ならびに／または結果および一つ以上の利点を得るための、様々な他の手段および／または構造を容易に想定し、かかる変形および／または変更の各々は、本明細書に記載の発明に関する実施形態の範囲内であるとみなされる。より一般的には、当業者は、本明細書に記載するすべてのパラメータ、寸法、材料、および構成が例示を意味し、実際のパラメータ、寸法、材料、および／または構成が、本発明の教示が使用される特定の一つまたは複数の用途に依存することを容易に理解するだろう。当業者は、本明細書に記載する特定の発明に関する実施形態の多くの同等物を認識し、またはただ通常の実験を用いて確認することができる。したがって、前述の実施形態は、例としてのみ提示され、添付した特許請求の範囲およびその同等物の範囲内であり、発明の実施形態が、具体的に記載し請求する以外の形でも実践されうることを理解されたい。本開示の発明に関する実施形態は、本明細書に記載する個々の特徴、システム、物品、材料、キット、および／または方法を対象とする。加えて、二つ以上のこのような特徴、システム、物品、材料、キット、および／または方法の任意の組み合わせは、このような特徴、システム、物品、材料、キット、および／または方法が相互に矛盾しない場合、本開示の本発明の範囲内に含まれる。

上に記載した実施形態は、多数の手段のいずれかで実施できる。例えば、実施形態は、ハードウェア、ソフトウェア、またはそれらの組み合わせを使用して実施されてもよい。ソフトウェアに実装される場合、ソフトウェアコードは、単一のコンピュータに提供されるか、複数のコンピュータ間に分散するかにかかわらず、任意の適切なプロセッサまたはプロセッサの集合で実行され得る。

さらに、コンピュータが、ラック搭載型コンピュータ、デスクトップ型コンピュータ、ラップトップ型コンピュータ、またはタブレット型コンピュータなど、多数の形態のいずれかで具現化されうることは理解されるべきである。加えて、コンピュータは、概してコンピュータとみなされるデバイスではなく、パーソナルデジタルアシスタント（ＰＤＡ）、スマートフォン、またはいかなる他の適切な携帯型もしくは固定電子デバイスを含む、適切な処理能力を持つデバイスの中に埋め込まれてもよい。

また、コンピュータは一つ以上の入力および出力デバイスを有しうる。これらのデバイスは、とりわけ、ユーザインターフェースを提示するために使用できる。ユーザインターフェースを提供するために使用できる出力デバイスの例には、プリンタまたは出力の視覚的表現のためのディスプレイ画面、およびスピーカーまたは出力の可聴表現のための他の音声発生デバイスが挙げられる。ユーザインターフェースに使用できる入力デバイスの例には、キーボード、ならびにマウス、タッチパッド、およびデジタイザタブレットなどのポインティングデバイスが含まれる。別の例として、コンピュータは、音声認識によってまたは他の可聴フォーマットで、入力情報を受信してもよい。

このようなコンピュータは、ローカルエリアネットワーク、またはエンタープライズネットワークなどの広域ネットワーク、およびインテリジェントネットワーク（ＩＮ）またはインターネットを含む、任意の適切な形態の一つ以上のネットワークによって相互接続されてもよい。このようなネットワークは、任意の適切な技術に基づいてもよく、任意の適切なプロトコルに従って動作してもよく、無線ネットワーク、有線ネットワーク、または光ファイバーネットワークを含んでもよい。

本明細書に概説する様々な方法またはプロセスは、様々なオペレーティングシステムまたはプラットフォームのうちのいずれか一つを用いる、一つ以上のプロセッサ上で実行可能なソフトウェアとしてコード化されてもよい。加えて、このようなソフトウェアは、多数の適切なプログラミング言語および／またはプログラミングもしくはスクリプトツールのいずれかを使用して記述されてもよく、またフレームワークもしくは仮想マシン上で実行される、実行可能なマシン語コードまたは中間コードとしてコンパイルされてもよい。

また、様々な発明の概念が、一つ以上の方法として具現化されてもよく、その例を提供してきた。方法の一部として行われる行為は、任意の適切な手段で順序付けられうる。したがって、行為が例示するものとは異なる順序で行われる実施形態を構築してもよく、それは、例示的実施形態に連続する行為として示す場合であっても、一部の行為を同時に行うことを含みうる。

本明細書で言及するすべての出版物、特許出願、特許、および他の参考文献は、参照によりそれらの全体が組み込まれる。

本明細書で定義および使用するすべての定義は、辞書定義、参照により組み込まれる文書の定義、および／または定義された用語の通常の意味を統制するものと理解されるべきである。

本明細書および特許請求の範囲で使用する場合、不定冠詞「ａ」および「ａｎ」は、明確にそうでないと示されない限り、「少なくとも一つ」を意味すると理解されるべきである。

本明細書および特許請求の範囲で使用する場合、「および／または」という語句は、結合された要素の「いずれかまたは両方」を意味し、すなわち、一部の場合には接続的に存在し、他の場合には離接的に存在する要素を意味すると理解されるべきである。「および／または」で挙げられる複数の要素は、同じ形式、すなわち、等位接続される要素のうちの「一つ以上」と解釈されるべきである。他の要素は、具体的に識別される要素に関連するかまたは関連しないかにかかわらず、「および／または」節によって具体的に識別される要素以外に、随意に存在してもよい。したがって、非限定的な例として、「Ａおよび／またはＢ」への言及は、「備える」などの制限のない語法と連動して使われるときに、一実施形態においては、Ａのみ（任意選択的にＢ以外の要素を含む）、別の実施形態では、Ｂのみ（任意選択的にＡ以外の要素を含む）、さらに別の実施形態では、ＡとＢと両方（任意選択的に他の要素を含む）などを指すことができる。

本明細書および特許請求の範囲において使用する場合、「または」は、上で定義した「および／または」と同じ意味を有すると理解されるべきである。例えば、リスト内の項目を分離するとき、「または」または「および／または」は包括的なもの、すなわち、多数の要素のまたは要素のリスト、および随意にリストに無い追加の項目のうちの少なくとも一つを含むが、二つ以上も含むと解釈されるものとする。それとは反対であると明確に指示した用語のみ、例えば、「のうちの一つのみ」もしくは「のうちの正確に一つ」、または特許請求の範囲において使用するときの「から成る」は、多数の要素またはリストの要素のうちの正確に一つの要素の包含を指す。概して、本明細書で使用する場合、「または」という用語は、「いずれか」、「のうちの一つ」、「のうちの一つのみ」、または「のうちの正確に一つ」など、排他性の用語が先行するときには、排他的な選択肢（すなわち「両方ともでなくどちらか一方」）を示すとのみ解釈されるものとする。「から基本的に成る」は、特許請求の範囲で使用する場合、特許法の分野において使用される通常の意味を有するものとする。

本明細書および特許請求の範囲で使用される場合、一つ以上の要素のリストに関連する「少なくとも一つ」という語句は、要素のリストの中の要素のいずれか一つ以上から選択される、少なくとも一つの要素を意味するが、要素のリスト内で具体的に列挙したありとあらゆる要素の少なくとも一つを必ずしも含むわけではなく、要素のリストのいかなる要素の組み合せも除外するものではない、と理解されるべきである。この定義はまた、「少なくとも一つ」という語句が指す、要素のリスト内で具体的に識別される以外の要素が、具体的に識別される要素に関連があるか関連が無いかにかかわらず、任意に存在しうることを許容する。したがって、非限定的な例として、「ＡおよびＢのうち少なくとも一つ」（または、等価的に、「ＡまたはＢのうちの少なくとも一つ」、もしくは、等価的に「Ａおよび／またはＢのうちの少なくとも一つ」）は、一実施形態においては、Ｂは存在せず、少なくとも一つの、任意選択的には二つ以上を含むＡ（任意選択的にＢ以外の要素を含む）、別の実施形態においては、Ａは存在せず、少なくとも一つの、任意選択的には二つ以上を含むＢ（任意選択的にＡ以外の要素を含む）、また別の実施形態においては、少なくとも一つの、任意選択的には二つ以上を含むＡ、および少なくとも一つの、任意選択的には二つ以上を含むＢ（任意選択的に他の要素を含む）などを指すことができる。

特許請求の範囲、ならびに上記の明細書で、すべての移行句、例えば、「備える（ｃｏｍｐｒｉｓｉｎｇ）」、「含む（ｉｎｃｌｕｄｉｎｇ）」、「持つ（ｃａｒｒｙｉｎｇ）」、「有する（ｈａｖｉｎｇ）」、「包含する（ｃｏｎｔａｉｎｉｎｇ）」、「伴う（ｉｎｖｏｌｖｉｎｇ）」、「保つ（ｈｏｌｄｉｎｇ）」、「から構成される（ｃｏｍｐｏｓｅｄｏｆ）」、および類似のものは制限がないと理解され、すなわち、含むがそれに限定はされないということを意味する。「から成る（ｃｏｎｓｉｓｔｉｎｇｏｆ）」および「から基本的に成る（ｃｏｎｓｉｓｔｉｎｇｅｓｓｅｎｔｉａｌｌｙｏｆ）」という移行句のみが、米国特許局の特許審査手続便覧、セクション２１１１．０３に記載されている、それぞれ閉鎖的または半閉鎖的な移行句であるものとする。
なお、出願当初の特許請求の範囲の記載は以下の通りである。
請求項１：
環境の中の物体を分析する方法であって、
センサによって、前記環境の中の前記物体を表すデータストリームを収集することと、
前記センサへ動作可能に連結するプロセッサ上で動くニューラルネットワークによって、前記データストリームから畳み込み出力を抽出することであって、前記畳み込み出力は、前記物体の特徴を表す、ことと、
前記ニューラルネットワークへ動作可能に連結する分類器によって、前記畳み込み出力に基づいて前記物体を分類することと、を含む、方法。
請求項２：
前記センサは画像センサであり、前記データストリームは画像を含む、請求項１に記載の方法。
請求項３：
前記特徴のセットを抽出することは、
前記第一画像の複数のセグメント化サブエリアを生成することと、
前記ニューラルネットワークによって、前記複数のセグメント化サブエリアの各々をコード化することと、を含む、請求項２に記載の方法。
請求項４：
前記特徴セットを抽出することは、
ユーザが、前記データストリームの中で関心のある部分を選択することが可能になることと、
前記ユーザが、前記関心のある部分を複数のセグメントに分割することが可能になることと、
前記ニューラルネットワークによって、前記複数のセグメントの各々をコード化することと、を含む、請求項１に記載の方法。
請求項５：
前記センサは、ライダー、レーダー、または音響センサのうちの少なくとも一つであり、前記データストリームは、ライダーデータ、レーダーデータ、または音響データのうちの対応する一つを含む、請求項１に記載の方法。
請求項６：
環境のデータストリームを収集するセンサであって、前記データストリームは、前記環境の中の物体を表す、センサと、
前記画像センサへ動作可能に連結する少なくとも一つのプロセッサであって、（ｉ）前記物体の前記特徴を表す畳み込み出力を、前記データストリームから抽出するように、ニューラルネットワークを、および（ｉｉ）前記畳み込み出力に基づいて前記物体を分類する分類器を実行する、少なくとも一つのプロセッサと、を備える、装置。
請求項７：
前記センサは、画像センサ、ライダー、レーダー、または音響センサのうちの少なくとも一つを備える、請求項６に記載の装置。
請求項８：
前記ニューラルネットワークは、ディープニューラルネットワーク（ＤＮＮ）を含む、請求項６に記載の装置。
請求項９：
前記ニューラルネットワークは、適応共鳴理論（ＡＲＴ）ネットワークを含む、請求項６に記載の装置。
請求項１０：
リアルタイムに動作する機械に、生涯学習ディープニューラルネットワーク（Ｌ－ＤＮＮ）を実装する方法であって、
前記Ｌ－ＤＮＮによって、（ｉ）センサによる、前記リアルタイムに動作する機械の環境の観察、および（ｉｉ）前記Ｌ－ＤＮＮの予め判定された重みに基づいて、前記リアルタイムに動作する機械に対する第一作用を予測することと、
前記Ｌ－ＤＮＮによって、前記観察に基づいて、前記リアルタイムに動作する機械に関する予想と認知との間の不一致を判定することと、
前記不一致に応じて、前記Ｌ－ＤＮＮによって高速学習モードをトリガすることであって、前記高速学習モードは、前記Ｌ－ＤＮＮの前記予め判定された重みを変更することなく、前記観察に基づいて修正される予想を生成する、ことと、を含む、方法。
請求項１１：
前記リアルタイムに動作する機械がオフラインであると判定することと、
前記リアルタイムに動作する機械がオフラインであるとの判定に応じて、低速学習モードをトリガすることであって、前記低速学習モードは、前記観察に基づいて前記Ｌ－ＤＮＮの前記予め判定された重みを修正する、ことと、をさらに含む、請求項１０に記載の方法。
請求項１２：
複数のリアルタイムに動作する機械の間で知識を抽出し、集約し、共有する方法であって、前記複数のリアルタイムに動作する機械の中の各リアルタイムに動作する機械は、重み行列のそれぞれのコピーと共にニューラルネットワークを実装し、
前記複数のリアルタイムに動作する機械の中の第一のリアルタイムに動作する機械の高速学習サブシステムで、少なくとも一つの新しい物体を学習することと、
通信チャネルを介して、前記第一のリアルタイムに動作する機械からサーバへ、前記少なくとも一つの新しい物体の表現を伝送することと、
前記中央サーバにて、前記第一のリアルタイムに動作する機械からの前記少なくとも一つの新しい物体の前記表現に少なくとも一部基づいて、更新された重み行列を形成することと、
前記サーバから、前記複数のリアルタイムに動作する機械の中の少なくとも一つの第二のリアルタイムに動作する機械へ、前記更新された重み行列のコピーを伝送することと、
を含む、方法。
請求項１３：
前記新しい物体を学習することは、
前記第一のリアルタイムに動作する機械の前記高速学習サブシステムへ動作可能に連結する画像センサで、前記少なくとも一つの新しい物体の画像を取得することと、
前記第一のリアルタイムに動作する機械の前記高速学習サブシステムで、前記少なくとも一つの新しい物体の前記画像を処理することと、を含む、請求項１２に記載の方法。
請求項１４：
前記ニューラルネットワークは、適応共鳴理論（ＡＲＴ）ニューラルネットワークを含み、
前記ＡＲＴニューラルネットワークで、前記少なくとも一つの新しい物体の前記表現を生成することをさらに含む、請求項１２に記載の方法。
請求項１５：
前記少なくとも一つの新しい物体の前記表現は、重みベクトルを含み、
前記少なくとも一つの新しい物体の前記表現のメモリフットプリントを減少させるように、前記第一のリアルタイムに動作する機械によって使用される前記重み行列の前記コピーと、前記重みベクトルを集約することをさらに含む、請求項１４に記載の方法。
請求項１６：
前記新しい物体の前記表現を、少なくとも一つの予め知っている物体の表現と集約することをさらに含む、請求項１２に記載の方法。
請求項１７：
前記少なくとも一つの新しい物体の前記表現を伝送することは、
前記少なくとも一つの新しい物体の前記表現を、前記複数のリアルタイムに動作する機械の中の第二のリアルタイムに動作する機械によって、前記サーバへ伝送することを含む、請求項１２に記載の方法。
請求項１８：
前記更新された重み行列を形成することは、
前記少なくとも一つの新しい物体の前記表現を、前記複数のリアルタイムに動作する機械の中の、少なくとも一つの他のリアルタイムに動作する機械からの、少なくとも一つの他の新しい物体の表現と混合することを含む、請求項１２に記載の方法。
請求項１９：
複数のカテゴリの中で物体を認識するようにトレーニングされたニューラルネットワークで、物体を分類する方法であって、
前記ニューラルネットワークに物体を提示することと、
前記ニューラルネットワークによって、複数の信頼水準を判定することであって、前記複数の信頼水準の中の各信頼水準は、前記物体が前記複数のカテゴリの中の対応するカテゴリに該当する可能性を表す、ことと、
前記複数の信頼水準と閾値との比較を行うことと、
前記比較に基づいて、前記物体が前記複数のカテゴリのいずれにも該当しないと判定することと、を含む、方法。
請求項２０：
前記比較を行うことは、
前記複数の信頼水準の中の信頼水準には、前記閾値を超えるものがないと判定することを含む、請求項１９に記載の方法。
請求項２１：
前記閾値を、前記複数の信頼水準の平均よりも大きく設定することをさらに含む、請求項１９に記載の方法。

Claims

環境の中の物体を分析する方法であって、
センサによって、前記環境の中の前記物体を表すデータストリームを収集することと、
前記センサへ動作可能に連結するプロセッサ上で動くニューラルネットワークによって、前記データストリームから畳み込み出力を抽出することであって、前記畳み込み出力は、前記物体の特徴を表す、ことと、
前記ニューラルネットワークへ動作可能に連結する分類器によって、前記畳み込み出力に基づいて既知の物体のカテゴリの活性化を判定することと、
前記分類器によって、活性化の分散と、前記活性化の平均から生成されると共に前記活性化の平均より大きい動的閾値との比較に基づいて、前記物体を既知の物体のカテゴリのうちの一つに属するものである知っている物体、または前記既知の物体のカテゴリのいずれにも属さないものである以前に見ていない物体のいずれかとして分類することと
を含む、方法。
前記センサは画像センサであり、前記データストリームは画像を含む、請求項１に記載の方法。
前記特徴を抽出することは、
前記画像の第一画像の複数のセグメント化サブエリアを生成することと、
前記ニューラルネットワークによって、前記複数のセグメント化サブエリアの各々をコード化することと、を含む、請求項２に記載の方法。
前記特徴を抽出することは、
ユーザが、前記データストリームの中で関心のある部分を選択することが可能になることと、
前記ユーザが、前記関心のある部分を複数のセグメントに分割することが可能になることと、
前記ニューラルネットワークによって、前記複数のセグメントの各々をコード化することと、を含む、請求項１に記載の方法。
前記センサは、ライダー、レーダー、および音響センサのうちの少なくとも一つであり、前記データストリームは、ライダーデータ、レーダーデータ、および音響データのうちの対応する一つを含む、請求項１に記載の方法。
環境のデータストリームを収集するセンサであって、前記データストリームは、前記環境の中の物体を表す、センサと、
前記センサへ動作可能に連結する少なくとも一つのプロセッサであって、（ｉ）前記物体の特徴を表す畳み込み出力を、前記データストリームから抽出するように、ニューラルネットワークを、および（ｉｉ）前記畳み込み出力に基づいて既知の物体のカテゴリの活性化を判定し、活性化の分散と、前記活性化の平均から生成されると共に前記活性化の平均より大きい動的閾値との比較に基づいて、前記物体を既知の物体のカテゴリのうちの一つに属するものである知っている物体、または前記既知の物体のカテゴリのいずれにも属さないものである以前に見ていない物体のいずれかとして分類する分類器を実行する、少なくとも一つのプロセッサと
を備える、装置。
前記センサは、画像センサ、ライダー、レーダー、および音響センサのうちの少なくとも一つを備える、請求項６に記載の装置。
前記ニューラルネットワークは、ディープニューラルネットワーク（ＤＮＮ）を含む、請求項６に記載の装置。
前記ニューラルネットワークは、適応共鳴理論（ＡＲＴ）ネットワークを含む、請求項６に記載の装置。