JP2022164640A - マルチモーダル自動ラベル付けと能動的学習のためのデータセットとモデル管理のためのシステムと方法 - Google Patents

マルチモーダル自動ラベル付けと能動的学習のためのデータセットとモデル管理のためのシステムと方法 Download PDF

Info

Publication number
JP2022164640A
JP2022164640A JP2022067684A JP2022067684A JP2022164640A JP 2022164640 A JP2022164640 A JP 2022164640A JP 2022067684 A JP2022067684 A JP 2022067684A JP 2022067684 A JP2022067684 A JP 2022067684A JP 2022164640 A JP2022164640 A JP 2022164640A
Authority
JP
Japan
Prior art keywords
dataset
data
model
labeled
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022067684A
Other languages
English (en)
Inventor
ラヴェントス アラン
Raventos Allan
バルガヴァ アルジュン
Bhargava Arjun
チェン クン-シン
Kun-Hsin Chen
ピライ スディープ
Pillai Sudeep
デイビッド ガイドン エイドリアン
David Gaidon Adrien
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of JP2022164640A publication Critical patent/JP2022164640A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

Figure 2022164640000001
【課題】データセットを管理する方法及びシステムを提供すること。
【解決手段】自律運転システム及びマルチモーダル場面のためのデータセットに、従来の手動データラベル付けの制限を緩和するために、以前に訓練されたモデルを使用して自動的にラベル付けしてもよい。モデルの重みと、モデルを以前に訓練したデータセットの知識とを含む、適切にバージョン管理されたモデルを使用して、ラベルのないデータに対して推論操作を実施し、データセットに自動的にラベル付けしてもよい。次に、新たにラベル付けされたデータセットを使用して、半教師あり又は弱教師ありの方式で、疎データセットを含む新たなモデルを訓練してもよい。
【選択図】図5

Description

本開示は、機械学習の改善、さらに具体的には、自律運転モデル及びネットワークのためのデータセットに自動的にラベルを付けることに関する。
機械学習では、自律走行車両の設計、プログラミング及び操作の基礎が提供される。自律走行車両と半自律走行車両を、環境データと状況データに従って訓練して、車両が既知の軌道及び未知の軌道を動作し、航行することができるようにする場合がある。自我車両、即ち、自律走行車両又は半自律走行車両に設置され構成されたセンサが、機械学習システムに環境データを提供する。単眼カメラが、LiDAR、ステレオカメラなどをはじめとする、さらに複雑な画像化システムと比較した場合、費用効果の高い手法であるが、単眼カメラからのセンサデータには奥行き情報が明示的に含まれていない。代わりに、車両は、単眼画像から奥行き情報を抽出する処理ルーチンを実施する。
機械学習の課題の1つには、データセットのラベル付けが挙げられる。能動的学習に依存するシステムが、収集された膨大な量のデータを処理するには、データの特徴にラベルを付ける必要がある。収集されたデータの特徴にラベルを付けることで、システムは、後に取得されるデータの同一又は類似の特徴を識別することができる。従来、コンピュータビジョンと自律運転モデリングでは、データセットには、動画フレームなどのデータを表示し、目標の特徴にラベルを付与する従業員、請負業者又はクラウドソーシングによるリソースによって手動でラベルが付けられている。データセットのラベル付けは、多くのセンサ及び搭載システムによって生データが収集される速度に比例しない、時間とコストのかかるプロセスである。
本開示の態様では、能動的学習パイプラインでのマルチモーダルデータセットを管理するためのシステム及び方法が提供される。データセットで訓練され、既にラベル付けされているモデルが、マルチモーダル場面に対する実際のラベルに適切な事前情報を提供する場合がある。本開示の追加の態様では、特定のタスクのために、いくつかの高性能モデル又は集合体の推論結果の組み合わせが提供され、このような疑似ラベルの品質がさらに改善される。本開示の態様では、(モデルの重み及びその重みが訓練されたデータセットを含む)適切にバージョン管理されたモデルが活用されて、ラベルのないデータに対して推論を実施し、これにより自動ラベル付けされたデータセットを生成する場合がある。次に、このような自動ラベル付けされたデータセットは、新たなモデルを訓練するために使用される場合がある。システムは、新たなモデルが自動ラベルを使用して取得されたことのほか、どのモデルとラベルのないデータが自動ラベルに導かれたかを記録する場合がある。システムはこのほか、まばらにラベル付けされたデータセットを活用する能力を支持する場合がある。この場合、自動ラベルを使用してギャップを埋めることができるため、半教師あり及び弱教師あり(semi and weakly supervised)の方式で訓練を実施する場合がある。
一態様によれば、データセットを管理するための方法が開示されている。第1のデータセットを受信する場合がある。第1のデータセットは、ラベルのないデータを含む場合がある。第1のデータセットは、訓練されたネットワークに入力される場合がある。訓練されたネットワークは、既存のモデルで訓練される場合がある。第1のデータセットのラベルのないデータは、訓練されたネットワークからの推論を使用してラベル付けされて、ラベル付きデータセットを生成する場合がある。訓練されていないネットワークを、ラベル付きデータセットを使用して訓練して、新たなモデルを生成する場合がある。
別の態様によれば、データセットを管理するためのシステムが開示されている。システムは、1つ又は複数のプロセッサ、1つ又は複数のプロセッサに通信可能に結合されたメモリを備える場合がある。メモリは、1つ又は複数のプロセッサによって実行されると、1つ又は複数のプロセッサにラベル付きデータセットを生成させる命令を含む推論モジュールを保存する場合がある。データセットは、ラベルのないデータを含む第1のデータセットを受信し、訓練されたネットワークに第1のデータセットを入力することによって生成される場合がある。訓練されたネットワークは、既存のモデルで訓練される場合がある。第1のデータセットのラベルのないデータは、訓練されたネットワークからの推論を使用してラベル付けされて、ラベル付きデータセットを生成する場合がある。訓練されていないネットワークを、ラベル付きデータセットを使用して訓練する場合がある。
別の態様によれば、データセットを管理するための非一時的なコンピュータ可読媒体が開示されている。媒体は、1つ又は複数のプロセッサによって実行されると、1つ又は複数のプロセッサに第1のデータセットを受信させる命令であって、第1のデータセットはラベルのないデータを含み、第1のデータセットを訓練されたネットワークに入力する命令を含む場合がある。訓練されたネットワークは、既存のモデルで訓練される場合がある。第1のデータセットのラベルのないデータは、訓練されたネットワークからの推論を使用してラベル付けされて、ラベル付きデータセットを生成する場合がある。訓練されていないネットワークを、ラベル付きデータセットを使用して訓練する場合がある。
これまで、以下の詳細な説明がさらによく理解されるように、本開示の特徴及び技術的利点をかなり広く概説してきた。本開示の追加の特徴及び利点を以下に説明する。この本開示は、本開示の同じ目的を遂行するための他の構造を修正するか設計するための基礎として容易に利用され得ることを当業者は理解されたい。このほか、そのような同等の構成が、添付の特許請求の範囲に記載されている本開示の教示から逸脱しないことを当業者は理解されたい。本開示の特徴であると考えられる新規の特徴は、その機構及び操作方法の両方に関して、追加の目的及び利点とともに、添付の図と併せて検討すると、以下の説明からいっそうよく理解されるであろう。しかし、図のそれぞれは、例示及び説明のみを目的として提供されており、本開示の範囲の規定を意図するものではないことを明確に理解されたい。
本開示の特徴、性質及び利点は、類似の参照文字が全体を通して対応して識別する図面と併せて解釈される場合、以下に記載される詳細な説明からさらに明らかになるであろう。
本開示の態様による自律型動作主体の一例を示す図である。 本開示の態様によるラベル付けされたフレームの例を示す図である。 本開示の態様による推論によってフレームにラベルを付ける一例を示す図である。 本開示の態様によるモデルを訓練するための流れ図である。 本開示の態様によるデータセットに自動的にラベルを付けるための流れ図である。 本開示の態様によるデータセットにラベルを付ける方法を示す図である。
添付の図面に関連して以下に記載する詳細な説明は、さまざまな構成を説明することを意図するものであり、本明細書で説明する概念が実施され得る唯一の構成を表すことを意図するものではない。詳細な説明には、さまざまな概念を全体的に理解するための具体的な詳細が含まれている。しかし、このような概念は、このような特定の詳細なしで実践され得ることが当業者には明らかであろう。場合によっては、そのような概念を曖昧にすることを避けるために、周知の構造と構成要素がブロック図の形態で示される。
自律型動作主体及び半自律型動作主体の行動を、動作主体の近傍で検出されたオブジェクトに基づいて制御しても調整してもよい。例えば、道路上の他のオブジェクトの位置に基づいて、自律型動作主体のルートを計画してもよい。別の例として、検出されたオブジェクトが動作主体の経路にある場合、衝突を回避するようにルートを調整してもよい。本開示では、動作主体とは、自律型動作主体又は半自律型動作主体を指す。
動作主体は、さまざまなセンサの出力からオブジェクトを検出してもよい。例えば、2Dカメラが2D赤-緑-青(RGB)画像を生成し、光検出及び測距(LIDAR)センサが高さと奥行きの情報を提供する3D点群を生成してもよい。センサ出力は、一連のフレームが動画を生成するマルチモーダルフレームに組み合わされてもよい。畳み込みニューラルネットワーク(CNN)などのオブジェクト検出モデルを、各フレームにて対象のオブジェクトを識別するように訓練する。識別された各オブジェクトには、境界ボックスを用いてラベルを付けても、注釈を付けてもよい。一連のフレームのフレームごとに、モデルは、識別された各オブジェクトに対応する分類ラベルと、各オブジェクトの位置に対応する境界ボックスとを出力してもよい。オブジェクト検出モデルは、モデルと呼ばれる場合がある。注釈付きフレームが、生成された境界ボックスを含むフレームを指す場合がある。注釈付きフレームはこのほか、分類ラベル又は分類ラベルへの参照を含む場合がある。
モデルを改善するために、特定のモデルには未知である可能性のある対象のオブジェクトにラベルを付けて、モデルを再度実行したときに、そのようなオブジェクトと、類似の属性を有すると考えられるオブジェクトをさらに容易に識別することができるようにすることが望ましい。対象のオブジェクトに自動的にラベルを付けると、後続のシステム及びネットワークを訓練し得る信頼性の高いデータセットを生成する際に必要なコストと時間が削減される。
機械学習モデルによって生成された動画が、高解像度(例えば、高品質)の動画である場合がある。このため、動画ファイルのサイズが大きくなる場合がある。例えば、動画ファイルのサイズは、オブジェクト検出モデルの出力の2倍を超える場合がある。当業者に知られているように、従来の無線ネットワークの帯域幅は、限られたものであった。さらに、従来の無線ネットワークのサービスエリアが均一ではないため、サービスの品質に一貫性がない。このため、自律型動作主体が自宅のガレージなどの場所に高帯域幅のデータ接続で駐車されている場合、データをサーバなどの遠隔装置にアップロードする場合がある。即ち、データは、動作主体が遠隔装置との高帯域幅接続を確立したときに送信される場合がある。データには、動画とオブジェクト検出モデルの出力とが含まれる場合がある。さらに、場合によっては、動作主体はこのほか、センサデータをアップロードする。
高帯域幅接続を介して送信されたデータは、モデルの分析とモデルの更新に使用されてもよい。未確認のオブジェクト又は誤って分類されたオブジェクトには、データセットを更新してモデルを再訓練するために、オフラインで適切にラベル付けしてもよい。従来のシステムでは、注釈のないデータにラベルを付けるには、人間の分析者による手動のラベル付けが必要であった。時間の経過とともにさらに多くのデータが収集され、ラベル付けされると、モデルが再訓練される可能性がある。再訓練されたモデルが以前のモデルの改良である場合、再訓練されたモデルが展開される。初期のモデルを訓練してからモデルを再訓練するまでの時間は、数日又は数カ月程度になる場合がある。
本開示の態様によれば、従来の手動データラベル付けの制限を緩和するために、自律運転システム及びマルチモーダル場面のためのデータセットには、以前に訓練されたモデルを使用して自動的にラベル付けしてもよい。モデルの重みと、モデルを以前に訓練したデータセットの知識とを含む、適切にバージョン管理されたモデルを使用して、ラベルのないデータに対して推論操作を実施し、データセットに自動的にラベルを付けることができる。次に、新たにラベル付けされたデータセットを使用して、半教師あり又は弱教師ありの方式で、疎データセットを含む新たなモデルを訓練してもよい。
図1Aは、本開示の態様による、センサ106、108を使用してオブジェクト104、116、118を検出する動作主体100の一例を示している。図1Aに示すように、動作主体100は、道路110上を移動している可能性がある。第1の車両104が、動作主体100の前にある場合があり、第2の車両116が、動作主体100に隣接する場合がある。さらに、サイクリスト118が、動作主体100に隣接する自転車レーン102にいる場合がある。この例では、動作主体100のオブジェクト検出システムが、2DのRGBカメラなどの2Dカメラ108及びLIDARセンサ106と通信している。2Dカメラ108及びLIDARセンサ106は、動作主体100と一体であってもよい。このほか、無線検出及び測距(RADAR)及び/又は超音波などの他のセンサが検討される。これに加えて、あるいはこれとは別に、動作主体100は、1つ又は複数の追加の2Dカメラ及び/又はLIDARセンサを備えてもよい。例えば、追加のセンサは、側面向き及び/又は背面向きのセンサであってもよい。
1つの構成では、2Dカメラ108は、2Dカメラ108の視野114内のオブジェクトを含む2D画像を取り込む。LIDARセンサ106は、1つ又は複数の出力ストリームを生成してもよい。第1の出力ストリームは、360°の視野112(例えば、鳥瞰図)などの第1の視野内のオブジェクトの3Dクラウド点を含んでもよい。第2の出力ストリームは、前向きの視野126などの第2の視野内のオブジェクトの3Dクラウド点を含んでもよい。オブジェクト検出システムは、LIDARセンサ106のデータストリームを使用して、環境内のオブジェクトを検出してもよい。
2Dカメラによって取り込まれた2D画像は、第1の車両104及びサイクリスト118が2Dカメラ108の視野114内にあるため、第1の車両104及びサイクリスト118の2D画像を含んでもよい。動作主体100のオブジェクト検出システムは、2D画像内の対象のオブジェクトから特徴を抽出してもよい。例えば、オブジェクト検出システムの畳み込みニューラルネットワークなどの人工ニューラルネットワークが、第1の車両104及びサイクリスト118の特徴を抽出してもよい。抽出された特徴に基づいて、オブジェクト検出システムは、第1の車両104を自動車として分類し、サイクリスト118を自転車に乗る人として分類してもよい。さらに、オブジェクト検出システムは、図1Bに示すように、第1の車両104及びサイクリスト118を第1のフレーム150内に位置づけてもよい。
図1Bは、本開示の態様による、オブジェクト検出システムによって生成されたフレーム150の一例を示している。この例では、フレーム150は、2Dカメラ108の視野114内のオブジェクトを含む。具体的には、フレームは、第1の車両104及びサイクリスト118の両方が2Dカメラ108の視野114内にあるため、第1の車両104及びサイクリスト118を含む。
オブジェクト検出モデルによって抽出された特徴に基づいて、第1の車両104及びサイクリスト118にラベル(例えば、「自動車」及び「自転車に乗る人」)を付けてもよい。本明細書で説明するように、ラベルは、以前に訓練されたモデルからの遺物であっても、オブジェクトをそのように自動的にラベル付けするための推論モジュールのオフライン分析の結果であってもよい。
オブジェクト検出システムはこのほか、オブジェクト検出モデルによって生成された境界ボックス152、154を用いて各オブジェクトの位置に注釈を付けることによって、第1の車両104及びサイクリスト118を位置特定してもよい。図1Bに示すように、第1の境界ボックス152を、第1の車両104に対応するエリア周りに描いてもよく、第2の境界ボックス154を、サイクリスト118に対応するエリア周りに描いてもよい。当業者は、図1Bのラベルが例示を目的とするものであり、本開示の態様が、図1Bに示すラベルに従ってオブジェクトにラベルを付けることに限定されないことを理解するであろう。
図1Bの第1のフレーム150は、一連のフレーム(例えば、動画)のうちの1つのフレームを表してもよい。自律運転システムが、各フレームで検出されたオブジェクトに基づいて、動作主体100の行動を制御してもよい。一連のフレームから生成された動画は、後に分析するために動作主体100に保存されてもよい。さらに、センサデータ及び/又はモデル出力はこのほか、後に分析するために動作主体100に保存されてもよい。例えば、動画、センサデータ及びモデル出力を、動作主体のメモリ装置に保存してもよい。保存された動画、センサデータ及び/又はモデル出力は、データセット及びマルチモーダル場面情報を使用して、以前にラベル付けされていないオブジェクトのラベル及び境界に関して追加の推論を生成することを含む、本明細書で説明する追加の分析のために、遠隔装置に送信されてもよい。
例えば、訓練システム又はパイプラインが、図1Bのフレーム150を受信して、モデルにラベルのないオブジェクトが含まれていたかどうかを判定してもよい。オフライン分析では、現在のデータセット内のラベルのないオブジェクトに類似したオブジェクトを有する他のデータセットを活用して、ラベルのないオブジェクトのラベルを推論してもよい。分析では、ラベル(「自動車」及び「自転車に乗る人」)が第1の車両104及びサイクリスト118に対応すると判定し、そのようなラベルを場面内のオブジェクトに自動的に提供してもよい。
図2は、本開示の態様による、フレーム200の自動ラベル付けの一例を示している。図2に示すように、初期フレーム200は、動作主体の推論モジュール212によって処理されてもよい。自律運転システム又は他の情報源から取得されたフレーム200は、道路206上の車両204及び道路206に隣接する自転車レーン202上のサイクリスト218など、これまで知られていなかった対象のオブジェクトを含む場合がある。フレーム200はこのほか、ガードレール208及び樹木210を含む場合がある。オブジェクト検出モデルでは、第1の車両204及びサイクリスト218、あるいは類似のオブジェクトを、事前の訓練にて対象のオブジェクトとして以前に識別した可能性がある。推論モデル212は、モデル出力214からそのようなオブジェクトに関連するデータを受信してもよい。モデル出力214からのデータは、フレーム200内のオブジェクトを識別する際に推論モジュール212を支援するために活用されてもよい。このため、推論モジュール212は、車両204及びサイクリスト218にそれぞれ対応する分類ラベル(「自動車」及び「自転車に乗る人」)及び境界ボックス252、254を出力してもよい。
別の態様によれば、車両204及びサイクリスト218は、以前の訓練操作中に、モデルによって以前にラベル付けされていた可能性がある。しかし、ガードレール208又は樹木210などの他のオブジェクトに、以前にラベル付けしていない可能性がある。推論モジュール212は、モデル出力214から入力データ情報を取り入れて、人的交流なしに、推論モジュールの識別及びガードレール210及び樹木210の自動ラベル付けを支援してもよい。
一態様によれば、オブジェクト及び推論モデルの一意の識別子を使用するハッシュ関数を使用して、ユニバーサル一意識別子(UUID)を判定してもよい。推論モジュール212は、タスク固有のものであると考えられる可能性がある。そのため、推論モジュール212は、1つ又は複数の関連するオントロジー(ontologies)を有してもよく、推論モジュール212が生成しようとしているラベル/注釈タイプが事前にわかってもよい。
一態様によれば、推論モジュールは、1つ又は複数のオントロジーに従ってフレーム200を処理して、自動ラベル付け機能を広範囲の用途に適用可能にしてもよい。例えば、推論モジュールは、車両204が「自動車」252としてラベル付けされ、サイクリスト218が「自転車に乗る人」254としてラベル付けされている第1のオントロジー220に従ってラベル付きデータセットを出力してもよい。別の適用モデルによれば、推論モジュール212は、同じフレーム200を分析して、第2のオントロジー230に従って、車両204を「自動」252’として、サイクリスト218を「手動」254’として識別し、ラベル付けしてもよい。第3のオントロジー240を使用して、推論モジュール212は、車両204を「オブジェクト」252’’として、サイクリスト218を「人間」254’’として識別してもよい。当業者は、他のオントロジー及び潜在的なラベルが、本開示の範囲内及び本開示の精神の範囲内で検討され得ることを認識するであろう。
本開示の推論モジュール212は、深層学習アーキテクチャを使用してもよい。深層学習アーキテクチャは、深層畳み込みニューラルネットワーク(CNN)で具体化されてもよい。訓練中、CNNにはさまざまなオブジェクトカテゴリのさまざまな視点が提示されてもよい。ネットワーク設計者は、CNNに未確認のオブジェクト及び対応するポーズの推定値を高い信頼度で出力させたい場合がある。訓練前は、CNNによって生成された出力が正しいものではない可能性が高いため、実際の出力と目標出力との間で誤差が計算される可能性がある。次に、CNNの重みを調整して、CNNの出力が目標(例えば、地上検証データ)といっそう密接に位置合わせされるようにしてもよい。
重みを調整するために、学習機能を用いて重みの勾配ベクトルを計算してもよい。勾配は、重みをわずかに調整した場合に誤差が増大するか減少するであろう量を示してもよい。最上層では、勾配は、最後から2番目の層の活性化されたニューロンと出力層のニューロンとを接続する重みの値に直接対応する場合がある。下位層では、勾配は、重みの値と上位層の計算された誤差勾配とに依存する場合がある。次に、重みを調整して誤差を低減してもよい。重みを調整するこの方法は、ニューラルネットワークを介した「復路」を伴うため、「誤差逆伝搬」と呼ばれる場合がある。
実際には、重みの誤差勾配は少数の例に関して計算することができるため、計算された勾配は真の誤差勾配に近似する。この近似法は、確率的勾配降下法と呼ばれる場合がある。確率的勾配降下法は、システム全体の達成可能な誤差率の低下が止まるまで、あるいは誤差率が目標レベルに達するまで繰り返されてもよい。
図3は、本開示の一態様による、1つ又は複数の機械学習モデル300を訓練するための流れ図を示している。一構成では、画像(x)を、訓練サーバなどのデータソース302に保存してもよい。データソースは、画像(x)内の1つ又は複数のオブジェクトに対応する地上検証データサンプル(y*)を保存してもよい。
機械学習モデル300は、一組のパラメータ(w)によって初期化されてもよい。パラメータ(w)は、機械学習モデル300の層1、層2及び層3などの機械学習モデル300の層によって使用されて、重み及びバイアスを設定してもよい。層3は完全に接続された層であってもよい。訓練中、機械学習モデル300は画像(x)を受信して、検出されたオブジェクトにラベルを付ける。
機械学習モデル300は、各画像(x)内の1つ又は複数のオブジェクトに対する推定ラベル(y)を出力してもよい。推定ラベル(y)は、損失関数308にて受信されてもよい。損失関数308は、予測されたラベル(y)を地上検証データアクション(y*)と比較してもよい。予測誤差は、予測されたラベル(y)と地上検証データアクション(y*)との間の差(例えば、損失)である。予測誤差は、損失関数308から機械学習モデル300に出力される。誤差は、パラメータを更新するために機械学習モデル500を介して逆伝搬される場合がある。訓練は、機械学習モデル300のオフライン段階中に実施されてもよい。
別の態様によれば、追加の画像(z)を、既知のデータ画像(x)を有する1つ又は複数の機械学習モデル300に入力して、以前の画像からモデル300へのデータを使用して画像(z)からオブジェクトに自動的にラベルを付ける場合、機械学習モデル300を許可する。次に、そのような新たにラベル付けされた画像とデータは、新たなデータセットに対する将来及びその後の訓練操作で使用される可能性がある。システムは、既知の画像(x)から立てた推論に基づいて、新たな画像(z)にラベルを付与してもよい。このようにして、機械学習モデル300は、自己教師あり(self-supervised)又は弱教師ありの方式でモデル300自体を訓練してもよい。このほか、そのような実施により、人間の注釈者がこのようなオフラインデータセットに手動でラベルを付ける必要がなくなる場合がある。
図4は、本開示の態様による、自律運転システム400のハードウェア実装の一例を示す図である。自律運転システム400は、車両、ロボット装置又は他の装置の構成要素であってもよい。例えば、図4に示すように、自律運転システム400は、自動車428の構成要素である。もちろん、このほか、バス、ボート、ドローン又はロボットなどの他の装置が自律運転システム400を使用する対象に検討されるため、本開示の態様が、自動車428の構成要素である自律運転システム400に限定されることはない。
一態様によれば、自律運転システム400は、局所及び遠隔の複数の構成要素に分散されてもよい。例えば、本明細書に記載の構成要素は、自動車428の構成要素であってもよく、さらに具体的には、特定の構成要素が、自動車428から離れていてもよい。本明細書で説明するように、特定の機能、データ分析、機械学習、モデルの作成及び変更などを、遠隔サーバ上で完了してもよい。次に、そのような分析及び処理の結果は、そのさまざまな通信構成要素を使用して自動車428に読み込まれてもよい。説明を簡潔にするために、特定のモジュール及び構成要素を自動車428の一部として示しているが、当業者は、モジュール及び構成要素が自動車428の遠隔又は外部であり得ることを認識するであろう。
自律運転システム400は、バス430によって概ね表されるバスアーキテクチャを用いて実装されてもよい。バス430は、自律運転システム400の特定の用途及び全体的な設計上の制約に応じて、任意の数の相互接続バス及びブリッジを含んでもよい。バス430は、プロセッサ420、通信モジュール422、位置モジュール418、センサモジュール402、移動モジュール426、計画モジュール424及びコンピュータ可読媒体414によって表される1つ又は複数のプロセッサ及び/又はハードウェアモジュールを含むさまざまな回路を互いに結び付ける。バス430はこのほか、タイミングソース、周辺機器、電圧調整器及び電力管理回路などのさまざまな他の回路を結び付けてもよい。このような回路は当技術分野で周知であるため、これ以上説明することはしない。
自律運転システム400は、プロセッサ420に結合されたトランシーバ416と、センサモジュール402と、人工ニューラルネットワークモジュール408と、通信モジュール422と、位置モジュール418と、移動モジュール426と、計画モジュール424と、コンピュータ可読媒体414と、を備える。トランシーバ416は、アンテナ434に結合されている。トランシーバ416は、伝送媒体を介して他のさまざまな装置と通信する。例えば、トランシーバ416は、ユーザ又は遠隔装置からの送信を介してコマンドを受信してもよい。別の例として、トランシーバ416は、運転統計データ及び情報を人工ニューラルネットワークモジュール408から(図示しない)サーバに送信してもよい。一態様によれば、人工ニューラルネットワーク408は、本明細書で説明するように、無線ネットワークを介して入力装置及び他の車両システムと通信するオフラインシステムであってもよい。そのような構成では、人工ニューラルネットワーク408は、その後の展開又は再展開のために、自律運転モデルをオフラインで発展させ、訓練してもよい。
自律運転システム400は、コンピュータ可読媒体414に結合されたプロセッサ420を備える。プロセッサ420は、本開示による機能を提供するコンピュータ可読媒体414に保存されたソフトウェアの実行を含む処理を実施する。ソフトウェアは、プロセッサ420によって実行されると、自律運転システム400に、自動車428又はモジュール402、408、414、416、418、420、422、424、426のいずれかなどの特定の装置について説明されたさまざまな機能を実行させる。コンピュータ可読媒体414はこのほか、ソフトウェアを実行するときにプロセッサ420によって操作されるデータを保存するために使用されてもよい。
センサモジュール402は、第1のセンサ406及び第2のセンサ404などの異なるセンサを介して測定値を取得するために使用されてもよい。第1のセンサ406は、2D画像を取り込むためのステレオカメラ又は赤-緑-青(RGB)カメラなどの視覚センサであってもよい。第2のセンサ404は、光検出及び測距(LIDAR)センサ又は無線検出及び測距(RADAR)センサなどの測距センサであってもよい。もちろん、本開示の態様は、例えば、熱、ソナー及び/又はレーザなどの他のタイプのセンサがこのほか、センサ404、406のいずれかについて検討されるため、前述のセンサに限定されない。第1のセンサ406及び第2のセンサ404の測定値は、プロセッサ420、センサモジュール402、人工ニューラルネットワークモジュール408、通信モジュール422、位置モジュール418、移動モジュール426、計画モジュール424のうちの1つ又は複数によって、本明細書で説明する機能を実装するためのコンピュータ可読媒体414と組み合わせて、処理されてもよい。一構成では、第1のセンサ406及び第2のセンサ404によって取り込まれたデータは、トランシーバ416を介して外部装置に送信されてもよい。第1のセンサ406及び第2のセンサ404は、自動車428に結合されても、自動車428と通信してもよい。
位置モジュール418は、自動車428の位置を判定するために使用されてもよい。例えば、位置モジュール418は、全地球測位システム(GPS)を使用して、自動車428の位置を判定してもよい。通信モジュール422は、トランシーバ416を介した通信を容易にするために使用されてもよい。例えば、通信モジュール422は、WiFi、ロングタームエボリューション(LTE)、3Gなどのような異なる無線プロトコルを介して通信能力を提供するように構成されてもよい。通信モジュール422はこのほか、自律運転システム400のモジュールではない、自動車428の他の構成要素と通信するために使用されてもよい。
移動モジュール426は、自動車428の移動を容易にするために使用されてもよい。一例として、移動モジュール426は、車輪の動きを制御してもよい。別の例として、移動モジュール426は、エンジン又はバッテリなどの自動車428の電源と連通してもよい。もちろん、本開示の態様は、車輪を介して移動を提供することに限定されず、プロペラ、踏み板、フィン及び/又はジェットエンジンなど、移動を提供するための他のタイプの構成要素について検討される。
自律運転システム400はこのほか、人工ニューラルネットワーク408によって実施される分析に基づいて、移動モジュール426を介して、ルートを計画するか、自動車428の移動を制御するための計画モジュール424を備える。一構成では、計画モジュール424は、ユーザ入力が衝突を引き起こすことが予想される(例えば、予測される)ときに、ユーザ入力を無効にする。モジュールは、プロセッサ420で実行されるソフトウェアモジュール、コンピュータ可読媒体414に常駐/保存されるソフトウェアモジュール、プロセッサ420に結合された1つ又は複数のハードウェアモジュール、あるいはそのいくつかの組み合わせであってもよい。
人工ニューラルネットワーク408は、センサモジュール402、トランシーバ416、プロセッサ420、通信モジュール422、位置モジュール418、移動モジュール426、計画モジュール424及びコンピュータ可読媒体414と通信してもよい。一構成では、人工ニューラルネットワーク408は、センサモジュール402からセンサデータを受信する。センサモジュール402は、第1のセンサ406及び第2のセンサ404からセンサデータを受信してもよい。本開示の態様によれば、センサモジュール402は、データをフィルタリングしても、ノイズを除去しも、データを符号化しても、データを復号しても、データをマージしても、フレームを抽出しても、他の機能を実行してもよい。代替構成では、人工ニューラルネットワーク408は、第1のセンサ406及び第2のセンサ404から直接センサデータを受信してもよい。
マルチモーダルかつマルチラベルのデータセットを適切に管理するシステムを設計するのは特に難しい場合がある。このため、データセット管理システムがデータセットを保持し、バージョン管理するように、本開示の態様を設計し、構成する。1つ又は複数の態様によれば、マルチモーダルデータセットを自動ラベル付けすると、いくつかの可能性が有効になる。例えば、LiDARとカメラを同期して、画像に対して2D検出を実施し、そのような検出を3Dレンダリング又は検出に引き上げてもよい。本システムの態様ではこのほか、例えば、単眼カメラからの奥行きの推定、あるいは訓練時間中のLiDAR入力からの奥行きの推定などの追加のシステム全体の機能が可能になる。
図4に示すように、人工ニューラルネットワーク408は、特徴抽出器410、分類器412及び推論モジュール432を含んでもよい。特徴抽出器410、分類器412及び推論モジュール432は、深部畳み込みニューラルネットワーク(CNN)など、同じ人工ニューラルネットワーク又は異なる人工ニューラルネットワークの構成要素であってもよい。人工ニューラルネットワーク408は、CNNに限定されず、サポートベクターマシン(SVM)などの別のタイプの人工ニューラルネットワークであってもよい。特徴抽出器410は、第1のセンサ406及び第2のセンサ404からデータストリームを受信する。データストリームは、第1のセンサ406からの2DのRGB画像及び第2のセンサ404からのLIDARデータ点を含んでもよい。異なる空間環境を各データストリームにて取り込んでもよい。さらに、LIDARデータ点は複数のストリームに分離されてもよい。例えば、1つのLIDARデータストリームが鳥瞰図の空間表現を提供し、別のLIDARデータストリームが前方視の空間表現を提供してもよい。データストリームには、画像フレームなどの複数のフレームが含まれてもよい。
特徴抽出器410は、データストリームの各フレームから対象のエリアを抽出する(例えば、識別する)。例えば、特徴抽出器410は、対象のオブジェクトの特徴を抽出するように訓練されてもよい。別の例として、特徴抽出器410は、道路、歩道、建物及び背景などの異なる地形の特徴を抽出するように訓練されてもよい。即ち、特徴抽出器410は、訓練に基づいて注意すべきエリアを識別する。人工ニューラルネットワーク408は、1つ又は複数の特徴抽出器440を含んでもよい。例えば、1つの特徴抽出器410を、オブジェクトを検出するように構成し、別の特徴抽出器410を、道路、歩道、建物及び背景などのデータの異なる要素を分割するように構成してもよい。別の例では、センサ402、404から出力された各データストリームは、別個の特徴抽出器410で受信されてもよい。
特徴抽出器410は、多次元テンソル内の特徴の各組を符号化してもよい。分類器412は、特徴抽出器410から受信した特徴の各組を分類する。推論モジュール432は、本明細書で説明するように、1つ又は複数の対象のオブジェクトを分類(例えば、ラベル付け)し、対象の各オブジェクトを境界ボックスを用いて特定の地域に限定してもよい。特徴抽出器410、分類器412及び推論モジュール432は、オブジェクト検出モデルと呼ばれる場合がある。
分類器412/推論モジュール432は、ラベル及び境界ボックスを、センサモジュール402、トランシーバ416、プロセッサ420、通信モジュール422、位置モジュール418、移動モジュール426、計画モジュール424及びコンピュータ可読媒体414のうちの1つ又は複数に出力されてもよい。例えば、分類された特徴は、プロセッサ420に出力されて、検出されたオブジェクトと、自動車428との関係のなかでのオブジェクトそれぞれの位置に基づいて実施され得る一連の行動を判定してもよい。行動は、コンピュータ可読媒体414又は計画モジュール424から検索されてもよい。さらに、分類された特徴に基づいて、モジュール402、408、414、416、418、420、422、424、426のうちの1つ又は複数が、自動車428の行動を判定しても更新してもよい。計画モジュール424は、分類された特徴に基づいて、ルート計画、衝突回避又は他の計画機能を実施してもよい。
また、さらに具体的には、本開示の態様では、人工ニューラルネットワーク408は、オフラインで使用されて1つ又は複数のモデルを訓練するか更新し、未知のオブジェクトを有するデータセットに自動的にラベルを付ける遠隔のシステム又は構成要素であってもよい。オフライン処理は、オンライン実行のために自動車428にダウンロードされ得るオブジェクト検出モデルを更新するために、本明細書で説明するように実施されてもよい。本明細書で説明するように、人工ニューラルネットワーク408はこのほか、以前に適切に訓練されたモデルに依存して、新たなデータセット内のオブジェクトを識別し、自動的にラベル付けしてもよい。システムは、自動ラベルを使用して新たなモデルが取得されたことを追跡してもよいほか、どのモデルとラベルのないデータが自動ラベルに導かれたかを追跡してもよい。
図5は、本開示の1つ又は複数の態様に従ってデータセットにラベルを付ける方法500を示している。システムは、本明細書で説明するように、モデルの重みと、モデルが訓練されたデータセットの識別とを含む適切にバージョン管理されたモデルを活用することによって、以前にラベル付けされていないデータを自動的に推論し、同データにラベルを付与するように構成された人工ニューラルネットワークなどの構成要素として推論モジュールを備えてもよい。一態様によれば、ブロック502に示すように、システムはデータセットを受信してもよい。本明細書で説明するように、システム、あるいはシステムの特定の構成要素は、オフライン構成要素であってもよい。データセットは、車両上の稼働中のセンサから収集されたオンラインシステムから取得されても、別の情報源から取得されてもよい。データセットは、一態様によれば、限定はしないが、LiDAR、RADAR、RGBカメラなどのオンボードセンサから取得されたマルチモーダルデータを含んでもよい。
ブロック504に示すように、システムは、データセット内のラベルのないデータを識別してもよい。一態様によれば、データセットは、ラベル付きデータとラベルのないデータの両方を含んでもよい。ラベル付きデータは、一態様によれば、ラベルのないデータに対するラベルを推論するために使用される文脈情報を提供してもよい。ブロック506に示すように、データセットは、訓練されたニューラルネットワークに入力されてもよい。訓練されたニューラルネットワークは、ラベル付きデータを含む第2のデータセットを含むモデル508で以前に訓練された可能性がある。一態様によれば、以前に訓練されたモデルは、堅固であり、適切にバージョン管理され、重み付けされたモデルであってもよい。
ブロック510に示すように、システムは、以前に訓練されたモデルを使用して、ラベルのないデータに対する自動ラベルを推論してもよい。以前に適切に訓練されたモデルを活用することにより、現在のデータセットとラベルのないデータに対して推論を実施して、そのようなデータに適用ラベルを自動的に生成してもよい。本明細書で説明するように、複数のセンサからのデータを同期させて、マルチモーダル場面に対するラベルを推論してもよい。ブロック512に示すように、新たにラベル付けされたデータセットを使用して、追加のネットワークを訓練してもよい。システムは、新たなモデルが自動ラベルを使用して取得されたことを追跡してもよいほか、どのモデルとラベルのないデータが自動ラベルに導かれたかを追跡してもよい。システムはこのほか、まばらにラベル付けされたデータセットを活用するように構成されてもよい。この場合、自動ラベルを使用してギャップを埋めることができるため、半教師あり及び弱教師ありの方式で訓練することができる。
教示に基づいて、当業者は、本開示の範囲が、本開示の任意の他の態様とは独立して、あるいは他の態様と組み合わせて実施されるかどうかにかかわらず、本開示の任意の態様を網羅することを意図していることを理解する必要がある。例えば、装置を実装しても、方法を、記載した任意の数の態様を使用して実施してもよい。さらに、本開示の範囲は、記載した本開示のさまざまな態様に加えて、あるいはさまざまな態様以外の他の構造、機能、あるいは構造及び機能を使用して実施されるそのような装置又は方法を網羅することを意図している。本開示の任意の態様は、特許請求の範囲の1つ又は複数の要素によって具体化され得ることを理解されたい。
「例示的」という用語は、本明細書では、「例、実例又は例示として機能する」ことを意味するために使用される。本明細書で「例示的」と記載されている任意の態様が、必ずしも他の態様よりも好ましい、あるいは有利であると解釈されるべきではない。
特定の態様を本明細書で説明しているが、このような態様の多くの変形及び並べ替えが、本開示の範囲内にある。好ましい態様のいくつかの利益及び利点に言及しているが、本開示の範囲は、特定の利益、用途又は目的に限定されることを意図するものではない。むしろ、本開示の態様が、異なる技術、システム構成、ネットワーク及びプロトコルに広く適用可能であることを意図するものであり、態様のうちのいくつかを、好ましい態様の図及び以下の説明に例として示している。詳細な説明及び図面は、限定するものではなく、本開示の単なる例示であり、本開示の範囲は、添付の特許請求の範囲及びその同等物によって規定される。
本明細書で使用する場合、「判定する」という用語は、多種多様な行動を包含する。例えば、「判定する」は、計算、演算、処理、導出、調査、検索(例えば、表、データベース又は別のデータ構造での検索)、確認などを含む場合がある。さらに、「判定する」は、受信(例えば、情報の受信)、アクセス(例えば、メモリ内のデータへのアクセス)などを含む場合がある。さらに、「判定する」には、解決、選択、選定、確立などが含まれる場合がある。
本明細書で使用する場合、項目の列挙のうちの「少なくとも1つ」を指す句は、単一の部材を含む、そのような項目の任意の組み合わせを指す。例として、「a、b又はcの少なくとも1つ」は、a、b、c、a-b、a-c、b-c及びa-b-cを網羅することを目的とするものである。
本開示に関連して説明するさまざまな例示的な論理ブロック、モジュール及び回路は、本開示で考察する機能を実行するように特別に構成されたプロセッサを用いて実装されても、実施されてもよい。プロセッサは、本明細書に記載の機能を実行するように設計されたニューラルネットワークプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ信号(FPGA)又は他のプログラマブルロジック装置(PLD)、ディスクリートゲート又はトランジスタロジック、個別のハードウェア構成要素又はその任意の組み合わせであってもよい。これとは別に、処理システムは、ニューロンモデル及び本明細書に記載のニューラルシステムのモデルを実装するための1つ又は複数のニューロモーフィックプロセッサを備えてもよい。プロセッサは、本明細書で説明するように特別に構成されたマイクロプロセッサ、コントローラ、マイクロコントローラ又は状態機械であってもよい。このほか、プロセッサを、計算装置の組み合わせ、例えば、DSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、DSPコアと組み合わせた1つ又は複数のマイクロプロセッサ、あるいは本明細書で説明するような他の特別な構成として実装してもよい。
本開示に関連して説明した方法又はアルゴリズムのステップは、ハードウェア、プロセッサによって実施されるソフトウェアモジュール、あるいはこの2つの組み合わせで直接具体化されてもよい。ソフトウェアモジュールが、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、フラッシュメモリ、消去可能プログラマブル読み取り専用メモリ(EPROM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、レジスタ、ハードディスク、リムーバブルディスク、CD-ROM又は他の光ディスク記憶装置、磁気ディスク記憶装置又は他の磁気記憶装置などの記憶装置又は機械可読媒体、あるいは命令の形式又はデータ構造で所望のプログラムコードを伝送するか保存するために使用することができ、コンピュータからアクセスすることができる任意の他の媒体に常駐してもよい。ソフトウェアモジュールが、単一の命令又は多くの命令を含んでもよく、いくつかの異なるコードセグメントにわたって、異なるプログラム間に分散され、複数の記憶媒体にわたって分散されてもよい。記憶媒体をプロセッサに結合して、その結果、プロセッサは記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるようになる。これとは別に、記憶媒体はプロセッサと一体であってもよい。
本明細書に開示した方法は、記載の方法を達成するための1つ又は複数のステップ又は行動を含む。方法のステップ及び/又は行動は、特許請求の範囲から逸脱することなく、互いに交換されてもよい。言い換えれば、ステップ又は行動の特定の順序が指定されていない限り、特定のステップ及び/又は行動の順序及び/又は使用は、特許請求の範囲から逸脱することなく変更されてもよい。
説明した機能は、ハードウェア、ソフトウェア、ファームウェア、あるいはその任意の組み合わせに実装されてもよい。ハードウェアに実装されている場合、ハードウェア構成の例には、装置内の処理システムが含まれてもよい。処理システムは、バスアーキテクチャを用いて実装されてもよい。バスには、処理システムの特定の用途と全体的な設計上の制約に応じて、任意の数の相互接続するバスとブリッジが含まれてもよい。バスは、プロセッサ、機械可読媒体及びバスインターフェースを含むさまざまな回路を相互に結び付けてもよい。バスインターフェースは、とりわけ、バスを介してネットワークアダプタを処理システムに接続するために使用されてもよい。ネットワークアダプタは、信号処理機能を実装するために使用されてもよい。特定の態様では、ユーザインターフェース(例えば、キーパッド、ディスプレイ、マウス、ジョイスティックなど)もバスに接続されてもよい。バスはこのほか、タイミングソース、周辺機器、電圧調整器、電力管理回路など、当技術分野で周知であるため、これ以上説明しない他のさまざまな回路を結び付けてもよい。
プロセッサは、バスの管理と、機械可読媒体に保存されたソフトウェアの実行を含む処理とを担当してもよい。ソフトウェアとは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語などと呼ばれるかどうかにかかわらず、命令、データ、あるいはその任意の組み合わせを意味すると解釈されるものとする。
ハードウェア実装では、機械可読媒体は、プロセッサとは別の処理システムの一部であってもよい。しかし、当業者が容易に理解するであろうように、機械可読媒体又はその任意の部分は、処理システムの外部にあってもよい。例として、機械可読媒体は、伝送線路、データによって変調された搬送波及び/又は装置とは別のコンピュータ製品を含んでもよく、ここに挙げたものはいずれも、バスインターフェースを介してプロセッサによってアクセスされてもよい。これとは別に、あるいはこれに加えて、機械可読媒体又はその任意の部分は、キャッシュ及び/又は特殊なレジスタファイルを伴う可能性のある場合など、プロセッサに統合されてもよい。考察したさまざまな構成要素は、局所的構成要素などの特定の場所にあるものとして説明する場合があるが、このほか、分散計算システムの一部として構成されている特定の構成要素など、さまざまな方法で構成されてもよい。
機械可読媒体は、いくつかのソフトウェアモジュールを含んでもよい。ソフトウェアモジュールは、送信モジュール及び受信モジュールを含んでもよい。各ソフトウェアモジュールは、単一の記憶装置に常駐する場合もあれば、複数の記憶装置に分散する場合もある。例として、引き金となる事象が発生したときにソフトウェアモジュールをハードドライブからRAMに読み込んでもよい。ソフトウェアモジュールの実行中に、プロセッサはアクセス速度を上げるためにいくつかの命令をキャッシュに読み込んでもよい。次に、1つ又は複数のキャッシュラインを、プロセッサによる実行のために特別な目的のレジスタファイルに読み込んでもよい。以下のソフトウェアモジュールの機能を参照する場合、そのような機能は、そのソフトウェアモジュールからの命令を実行するときにプロセッサによって実行されることが理解されよう。さらに、本開示の態様が、そのような態様を実施するプロセッサ、コンピュータ、機械又は他のシステムの機能の改善をもたらすことを理解されたい。
機能は、ソフトウェアに実装されている場合、1つ又は複数の命令又はコードとして、コンピュータ可読媒体上に保存されても、同媒体を経由して伝送されてもよい。コンピュータ可読媒体には、コンピュータ記憶媒体も、ある場所から別の場所へのコンピュータプログラムの転送を容易にする任意の記憶媒体を含む通信媒体も含まれる。
さらに、本明細書に記載の方法及び技術を実施するためのモジュール及び/又は他の適切な手段を、必要に応じて、ユーザ端末及び/又は基地局によってダウンロードしたり、及び/又は他の方法で取得したりすることができることを理解されたい。例えば、そのような装置は、本明細書に記載の方法を実施するための手段の転送を容易にするためにサーバに結合することができる。これとは別に、本明細書に記載のさまざまな方法を、記憶手段を介して提供することができ、その結果、ユーザ端末及び/又は基地局が、記憶手段を装置に結合するか提供するときにさまざまな方法を取得することができる。さらに、本明細書に記載の方法及び技術を装置に提供するための他の任意の適切な技術を利用することができる。
特許請求の範囲は、上記の詳細な構成及び構成要素に限定されないことを理解されたい。特許請求の範囲から逸脱することなく、上記の方法及び装置の配置、操作及び詳細に、さまざまな修正、変更及び変形を施す場合がある。

Claims (20)

  1. データセットを管理する方法であって、
    ラベルのないデータを含む第1のデータセットを受信することと、
    既存のモデルで訓練されたネットワークに前記第1のデータセットを入力することと、
    前記訓練されたネットワークからの推論を使用して前記第1のデータセットの前記ラベルのないデータにラベルを付けて、ラベル付きデータセットを生成することと、
    前記ラベル付きデータセットを使用して、訓練されていないネットワークを訓練して、新たなモデルを生成することと、
    を含む、方法。
  2. 前記第1のデータセットは、2つ以上のセンサからのデータを含む、請求項1に記載の方法。
  3. 前記2つ以上のセンサは、LiDARセンサ、RADARセンサ、RGBカメラ、単眼カメラ、ステレオカメラのうちの少なくとも2つを含む、請求項2に記載の方法。
  4. 前記既存のモデルは、バージョン管理されたモデルを含む、請求項1に記載の方法。
  5. 前記バージョン管理されたモデルは、重み付けされたモデルを含む、請求項4に記載の方法。
  6. 前記バージョン管理されたモデルは、訓練データセットの識別を含む、請求項4に記載の方法。
  7. 前記新たなモデルを、自動ラベル付けされたものとして追跡することをさらに含む、請求項1に記載の方法。
  8. 前記既存のモデル及び第1のデータセットを追跡することをさらに含む、請求項1に記載の方法。
  9. 前記訓練されていないネットワークを訓練することは、半教師あり訓練を含む、請求項1に記載の方法。
  10. 前記ラベルのないデータセットにラベル付けすることは、第1のオントロジーに従って、前記ラベルのないデータセットにラベル付けすることを含む、請求項1に記載の方法。
  11. 前記ラベルのないデータセットは、第2のオントロジーに従ってラベル付けされる、請求項10に記載の方法。
  12. データセットを管理するシステムであって、
    1つ又は複数のプロセッサと、
    前記1つ又は複数のプロセッサに通信可能に結合されるメモリであって、該メモリは、
    命令を含む推論モジュールであって、前記命令は、前記1つ又は複数のプロセッサによって実行されるときに、前記1つ又は複数のプロセッサに、
    ラベルのないデータを含む第1のデータセットを受信することと、
    既存のモデルで訓練されたネットワークに前記第1のデータセットを入力することと、
    前記訓練されたネットワークからの推論を使用して前記第1のデータセットの前記ラベルのないデータにラベル付けして、ラベル付きデータセットを生成することと、
    前記ラベル付きデータセットを使用して、訓練されていないネットワークを訓練することと、によってラベル付きデータセットを生成させる、推論モジュールを保存するメモリと、
    を具備する、システム。
  13. 前記第1のデータセットは、2つ以上のセンサからのデータを含む、請求項12に記載のシステム。
  14. 前記2つ以上のセンサは、LiDARセンサ、RADARセンサ、RGBカメラ、単眼カメラ、ステレオカメラのうちの少なくとも2つを含む、請求項13に記載のシステム。
  15. 前記既存のモデルは、バージョン管理されたモデルを含む、請求項12に記載のシステム。
  16. 前記バージョン管理されたモデルは、重み付けされたモデルを含む、請求項15に記載のシステム。
  17. 前記バージョン管理されたモデルは、訓練データセットの識別を含む、請求項15に記載のシステム。
  18. 前記新たなモデルは、自動ラベル付けされたものとして追跡される、請求項12に記載のシステム。
  19. 前記訓練されていないネットワークは、半教師あり訓練を含む、請求項12に記載の方法。
  20. データセットを管理し、命令を含む非一時的なコンピュータ可読媒体であって、
    前記命令は、1つ又は複数のプロセッサによって実行されたときに、前記1つ又は複数のプロセッサに、
    ラベルのないデータを含む第1のデータセットを受信させ、
    既存のモデルで訓練されたネットワークに前記第1のデータセットを入力させ、
    前記訓練されたネットワークからの推論を使用して前記第1のデータセットの前記ラベルのないデータにラベル付けして、ラベル付きデータセットを生成させ、
    前記ラベル付きデータセットを使用して、訓練されていないネットワークを訓練させる、非一時的なコンピュータ可読媒体。
JP2022067684A 2021-04-16 2022-04-15 マルチモーダル自動ラベル付けと能動的学習のためのデータセットとモデル管理のためのシステムと方法 Pending JP2022164640A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/233,064 2021-04-16
US17/233,064 US20220335258A1 (en) 2021-04-16 2021-04-16 Systems and methods for dataset and model management for multi-modal auto-labeling and active learning

Publications (1)

Publication Number Publication Date
JP2022164640A true JP2022164640A (ja) 2022-10-27

Family

ID=83602439

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022067684A Pending JP2022164640A (ja) 2021-04-16 2022-04-15 マルチモーダル自動ラベル付けと能動的学習のためのデータセットとモデル管理のためのシステムと方法

Country Status (2)

Country Link
US (1) US20220335258A1 (ja)
JP (1) JP2022164640A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11714802B2 (en) * 2021-04-02 2023-08-01 Palo Alto Research Center Incorporated Using multiple trained models to reduce data labeling efforts
CN117763348A (zh) * 2023-12-07 2024-03-26 成都市汇众天智科技有限责任公司 一种自动驾驶数据标注***及方法
CN117437366B (zh) * 2023-12-20 2024-04-12 中山大学 一种多模态大规模场景数据集的构建方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010075408A1 (en) * 2008-12-22 2010-07-01 The Trustees Of Columbia University In The City Of New York System and method for annotating and searching media
US10460600B2 (en) * 2016-01-11 2019-10-29 NetraDyne, Inc. Driver behavior monitoring
US20190371426A1 (en) * 2016-12-28 2019-12-05 Ascus Biosciences, Inc. Methods, apparatuses, and systems for analyzing microorganism strains in complex heterogeneous communities, determining functional relationships and interactions thereof, and diagnostics and biostate management and biostate temporal forecasting based thereon
US11321364B2 (en) * 2017-10-13 2022-05-03 Kpmg Llp System and method for analysis and determination of relationships from a variety of data sources
US20190140994A1 (en) * 2017-11-03 2019-05-09 Notion Ai, Inc. Systems and method classifying online communication nodes based on electronic communication data using machine learning
US10430690B1 (en) * 2018-04-20 2019-10-01 Sas Institute Inc. Machine learning predictive labeling system
US11610115B2 (en) * 2018-11-16 2023-03-21 Nvidia Corporation Learning to generate synthetic datasets for training neural networks
US11443232B1 (en) * 2018-11-23 2022-09-13 Amazon Technologies, Inc. Active learning-based data labeling service using an augmented manifest
US11165954B1 (en) * 2019-06-19 2021-11-02 Objectvideo Labs, Llc Scene-aware custom tuned video surveillance detection system
US11120311B2 (en) * 2019-10-18 2021-09-14 Midea Group Co., Ltd. Adjusting machine settings through multi-pass training of object detection models
US11983243B2 (en) * 2020-11-27 2024-05-14 Amazon Technologies, Inc. Anomaly detection using feedback training

Also Published As

Publication number Publication date
US20220335258A1 (en) 2022-10-20

Similar Documents

Publication Publication Date Title
US11494937B2 (en) Multi-task multi-sensor fusion for three-dimensional object detection
US10817752B2 (en) Virtually boosted training
US10810792B2 (en) Inferring locations of 3D objects in a spatial environment
US11482014B2 (en) 3D auto-labeling with structural and physical constraints
CN108496127B (zh) 集中于对象的有效三维重构
Mancini et al. Toward domain independence for learning-based monocular depth estimation
US20210276587A1 (en) Systems and Methods for Autonomous Vehicle Systems Simulation
US11442464B2 (en) Bird's eye view map based recognition and motion prediction for autonomous systems
US11164051B2 (en) Image and LiDAR segmentation for LiDAR-camera calibration
EP3822852B1 (en) Method, apparatus, computer storage medium and program for training a trajectory planning model
US11900626B2 (en) Self-supervised 3D keypoint learning for ego-motion estimation
JP2022164640A (ja) マルチモーダル自動ラベル付けと能動的学習のためのデータセットとモデル管理のためのシステムと方法
US11074438B2 (en) Disentangling human dynamics for pedestrian locomotion forecasting with noisy supervision
US20210287387A1 (en) Lidar point selection using image segmentation
US11257231B2 (en) Camera agnostic depth network
WO2023125628A1 (zh) 神经网络模型优化方法、装置及计算设备
Mekala et al. Deep learning inspired object consolidation approaches using lidar data for autonomous driving: a review
US20220309794A1 (en) Methods and electronic devices for detecting objects in surroundings of a self-driving car
Rojas-Perez et al. DeepPilot4Pose: a fast pose localisation for MAV indoor flight using the OAK-D camera
Nguyen et al. Smart solution to detect images in limited visibility conditions based convolutional neural networks
CN117928530A (zh) 用于路径分布估计的方法和装置
CN116259043A (zh) 一种自动驾驶3d目标检测方法及相关装置
WO2022243337A2 (en) System for detection and management of uncertainty in perception systems, for new object detection and for situation anticipation
US11544899B2 (en) System and method for generating terrain maps
Liu et al. World model based sim2real transfer for visual navigation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240612