TWI764542B

TWI764542B - 智慧型載具之實時視覺定位與不確定性估測系統

Info

Publication number: TWI764542B
Application number: TW110103077A
Authority: TW
Inventors: 李綱; 陳俊翰; 陳俊儒
Original assignee: 國立臺灣大學
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2022-05-11
Also published as: TW202230202A

Abstract

一種智慧型載具之實時視覺定位與不確定性估測系統，包含：一圖像輸入裝置、一特徵擷取裝置、及一定位估測裝置，而以不依靠一智慧型載具的一前時刻位置資訊的方式定位得出該智慧型載具的一初始定位位置資訊，從而解決迷路、綁架及初始定位問題。

Description

智慧型載具之實時視覺定位與不確定性估測系統

本發明相關於一種智慧型載具之定位系統，特別是相關於一種智慧型載具之實時視覺定位與不確定性估測系統。

智慧型載具可包括自動駕駛汽車（self-driving cars）及自主移動機器人（autonomous mobile robots；AMR）的二個主要類別，兩者在實現上都需要實時、準確且高強健性（robust）的定位系統。一般而言，自主移動機器人之定位通常依賴二維光學雷達，但是在許多情況下，例如走廊之類的無特徵（或稱特徵稀疏；featureless）環境下，二維光學雷達無法獲得足夠的特徵或地標進行定位。自動駕駛汽車則通常是利用三維光學雷達或全球定位系統（Global Positioning System；GPS）／衛星導航系統（Global Navigation Satellite System；GNSS）來定位，雖然此種基於三維光學雷達的定位算法可提供準確的定位結果，但在實際應用中會遇到初始定位（initial pose）問題、綁架（kidnapped）問題、高計算成本及高成本。

因此，本發明的目的即在提供一種智慧型載具之實時視覺定位與不確定性估測系統，以在達到低成本、可靠、實時且準確的定位的同時，解決初始定位及綁架等的習知技術之問題。

本發明為解決習知技術之問題所採用之技術手段係提供一種智慧型載具之實時視覺定位與不確定性估測系統，係以不依靠一智慧型載具的一前時刻位置資訊的方式定位得出該智慧型載具的一初始定位位置資訊，該實時視覺定位與不確定性估測系統包含：一圖像輸入裝置，設置於該智慧型載具，且係經配置而取得在預定的一定位環境中的關於該智慧型載具之一當前視覺圖像資訊；一特徵擷取裝置，連接於該圖像輸入裝置，該特徵擷取裝置係經配置而以一MobileNetV2電腦視覺神經網路模型對於該當前視覺圖像資訊進行一圖像特徵擷取運算；以及一定位估測裝置，連接於該特徵擷取裝置，該定位估測裝置係經配置而以包含有全域平均池化層、丟棄層、及全連接層的一深度學習迴歸演算模組對於經過該圖像特徵擷取運算的該當前視覺圖像資訊予以執行一迴歸分析，而運算輸出關於該智慧型載具的一當前定位位置資訊作為該初始定位位置資訊，並且估測輸出關於該當前定位位置資訊的信賴程度的一定位不確定性估測資訊。

在本發明的一實施例中係提供一種智慧型載具之實時視覺定位與不確定性估測系統，其中該圖像輸入裝置係為一相機。

在本發明的一實施例中係提供一種智慧型載具之實時視覺定位與不確定性估測系統，其中該圖像輸入裝置係為一單眼相機。

在本發明的一實施例中係提供一種智慧型載具之實時視覺定位與不確定性估測系統，其中該定位環境係對於二維光學雷達為一無特徵環境。

在本發明的一實施例中係提供一種智慧型載具之實時視覺定位與不確定性估測系統，其中該當前視覺圖像資訊係為單一RGB圖像。

在本發明的一實施例中係提供一種智慧型載具之實時視覺定位與不確定性估測系統，其中該智慧型載具係為一自主移動機器人。

經由本發明所採用之技術手段，本發明的智慧型載具之實時視覺定位與不確定性估測系統能夠在達到低成本、可靠、實時且準確的定位的同時，解決初始定位及綁架等問題。

相較於以二維光學雷達所進行的定位在無特徵環境中無法獲得足夠的特徵或地標，本發明的智慧型載具之實時視覺定位與不確定性估測系統能夠利用圖像輸入裝置獲取多種特徵，例如：告示板、水管、燈，甚至是遠方的消失點（vanishing point），這些特徵是建築物與生俱來的，並且是有用的定位特徵，故能夠使定位性能提高。

相較於以三維光學雷達所進行的定位會遇到的初始定位問題、綁架問題、高計算成本及高成本，本發明的智慧型載具之實時視覺定位與不確定性估測系統能夠從圖像估測出智慧型載具的當前定位位置資訊及定位不確定性估測資訊，而無須進行額外的特徵工程或圖形最佳化。並且，本發明的智慧型載具之實時視覺定位與不確定性估測系統能夠在預定的定位環境中全局重新定位，即，在不依靠智慧型載具的前時刻位置資訊的前提下實現對於該智慧型載具的初始定位，從而解決迷路、綁架及初始定位問題。

以下根據第1圖至第5圖，而說明本發明的實施方式。該說明並非為限制本發明的實施方式，而為本發明之實施例的一種。

如第1圖至第5圖所示，依據本發明的一實施例的一智慧型載具之實時視覺定位與不確定性估測系統100包含：一圖像輸入裝置1、一特徵擷取裝置2、及一定位估測裝置3。

具體而言，在本發明中，該智慧型載具之實時視覺定位與不確定性估測系統100係以不依靠一智慧型載具（圖未示）的一前時刻位置資訊的方式定位得出該智慧型載具的一初始定位位置資訊。該智慧型載具在本實施例中為一自主移動機器人，但亦可為一自動駕駛汽車或其它智慧型載具。

如第1圖至第3圖所示，在本實施例的該智慧型載具之實時視覺定位與不確定性估測系統100中，該圖像輸入裝置1係設置於該智慧型載具，且係經配置而取得在預定的一定位環境E中的關於該智慧型載具之一當前視覺圖像資訊I0。

具體而言，如第1圖所示，在本實施例中，該圖像輸入裝置1係為一相機，特別是一單眼相機（monocular camera）。該圖像輸入裝置1設置於該智慧型載具，故無論該智慧型載具被初始放置或是被綁架到預定的該定位環境E中的任何位置，該圖像輸入裝置1都能夠取得該智慧型載具在當前所在位置處的視覺圖像，即，該當前視覺圖像資訊I0。較佳地，該當前視覺圖像資訊I0係為單一RGB圖像，即，單張的RGB點陣圖。

如第2圖及第3圖所示，在本實施例中，該定位環境E為一走廊，其對於二維光學雷達為一無特徵環境，即，二維光學雷達無法獲得足夠的特徵或地標以進行定位的環境。對於本發明的該智慧型載具之實時視覺定位與不確定性估測系統100而言，即使在這樣的定位環境中，該圖像輸入裝置1仍然能夠獲得具有各種有用的定位特徵的該當前視覺圖像資訊I0。如第3圖所示，在該定位環境E為一走廊時，定位特徵可以例如是消防栓、監視器、天花板燈、消失線（vanishing line）。

如第1圖及第4圖所示，在本實施例的該智慧型載具之實時視覺定位與不確定性估測系統100中，該特徵擷取裝置2係連接於該圖像輸入裝置1，該特徵擷取裝置2係經配置而以一MobileNetV2電腦視覺神經網路模型20對於該當前視覺圖像資訊I0進行一圖像特徵擷取運算。

具體而言，該MobileNetV2電腦視覺神經網路模型20是由「Google」所推出的第二代行動裝置版電腦視覺神經網路模型，其架構如第4圖及下面的表1所示，其透過深度可分離卷積（depthwise separable convolution）的方式來達到壓縮模型的目的，以減少參數並提升運算速度，除此之外更具備層間的線性轉換方式（linear bottleneck）以及瓶頸（bottleneck）之間的捷徑連接（shortcut connections）的二項特性。另外，第4圖中的「ReLU6」是指限制最大輸出值為「6」的線性整流函數（Rectified Linear Unit；ReLU）。「卷積1×1」及「卷積3×3」則分別代表以1×1卷積核進行卷積運算，以及以3×3卷積核進行卷積運算，其中卷積核（Convolution Kernels）的功用主要是將圖像切割成許多小塊，以擷取出圖像的特徵資訊。關於該MobileNetV2電腦視覺神經網路模型20的細節技術為本發明所屬技術領域中具有通常知識者依據本領域通常知識並配合參照第4圖及表1所能瞭解，故僅簡要說明如上，不再作進一步贅述。

〔表1〕MobileNetV2電腦視覺神經網路模型結構

輸入	層（類型）	膨脹係數	輸出通道數	重覆次數	步長
224 ²×3	二維卷積 3×3	-	32	1	2
112 ²×32	瓶頸	1	16	1	1
112 ²×16	瓶頸	6	24	2	2
56 ²×24	瓶頸	6	32	3	2
28 ²×32	瓶頸	6	64	4	2
14 ²×64	瓶頸	6	96	3	1
14 ²×96	瓶頸	6	160	3	2
7 ²×160	瓶頸	6	320	1	1
7 ²×320	二維卷積 1×1	-	120	1	1
7 ²×1280	-	-	-	-	-

如第1圖及第5圖所示，在本實施例的該智慧型載具之實時視覺定位與不確定性估測系統100中，該定位估測裝置3係連接於該特徵擷取裝置2，該定位估測裝置3係經配置而以包含有全域平均池化（global average pooling）層、丟棄（dropout）層、及全連接（fully connected）層的一深度學習迴歸演算模組30對於經過該圖像特徵擷取運算的該當前視覺圖像資訊I0予以執行一迴歸分析，而運算輸出關於該智慧型載具的一當前定位位置資訊I1作為該初始定位位置資訊，並且估測輸出關於該當前定位位置資訊I1的信賴程度的一定位不確定性估測資訊I2。

具體而言，該定位估測裝置3的示意架構如第5圖所示，模型結構則如下面的表2所示。其中，全域平均池化層用於總和空間資訊並使輸入的空間資訊更為壯健（robust）。丟棄層不僅用於避免過適（overfitting），更用於估測深度學習視覺定位的不確定性（uncertainty），即，輸出該定位不確定性估測資訊I2。全連接層用於學習如何將特徵向量投射至姿態座標。該定位估測裝置3的最終輸出則為所估測出的姿態，即，該當前定位位置資訊I1。關於全域平均池化層、丟棄層、及全連接層的細節技術為本發明所屬技術領域中具有通常知識者依據本領域通常知識所能瞭解，故僅針對彼等在該定位估測裝置3中的作用簡要說明如上，不再作細節內容的贅述。

〔表2〕定位估測裝置的模型結構

輸入	層（類型）	輸出
7 ²＊1280	全域平均池化	1×1×1280
1×1×1280	丟棄	1×1×1280
1×1×1280	全連接 1280×2048	1×1×2048
1×1×2048	全連接 2048×3	1×1×3
1×1×2048	全連接 2048×4	1×1×4

藉由上述結構，本發明的該智慧型載具之實時視覺定位與不確定性估測系統100能夠在達到低成本、可靠、實時且準確的定位的同時，解決初始定位及綁架等問題。

具體而言，相較於以二維光學雷達所進行的定位在無特徵環境中無法獲得足夠的特徵或地標，本發明的該智慧型載具之實時視覺定位與不確定性估測系統100能夠利用該圖像輸入裝置1獲取多種特徵，例如：告示板、水管、燈，甚至是遠方的消失點（vanishing point），這些特徵是建築物與生俱來的，並且是有用的定位特徵，故能夠使定位性能提高。

再者，相較於以三維光學雷達所進行的定位會遇到的初始定位問題、綁架問題、高計算成本及高成本，本發明的該智慧型載具之實時視覺定位與不確定性估測系統100能夠從圖像（即，該當前視覺圖像資訊I0）估測出該智慧型載具的當前定位位置資訊I1及定位不確定性估測資訊I2，而無須進行額外的特徵工程或圖形最佳化。並且，本發明的該智慧型載具之實時視覺定位與不確定性估測系統100能夠在預定的定位環境E中全局重新定位，即，在不依靠該智慧型載具的前時刻位置資訊的前提下實現對於該智慧型載具的初始定位，從而解決迷路、綁架及初始定位問題。

以上之敘述以及說明僅為本發明之較佳實施例之說明，對於此項技術具有通常知識者當可依據以下所界定申請專利範圍以及上述之說明而作其他之修改，惟此些修改仍應是為本發明之發明精神而在本發明之權利範圍中。

100:智慧型載具之實時視覺定位與不確定性估測系統 1:圖像輸入裝置 2:特徵擷取裝置 20:MobileNetV2電腦視覺神經網路模型 3:定位估測裝置 30:深度學習迴歸演算模組 E:定位環境 I0:當前視覺圖像資訊 I1:當前定位位置資訊 I2:定位不確定性估測資訊

［第1圖］為顯示根據本發明的一實施例的智慧型載具之實時視覺定位與不確定性估測系統的示意圖；［第2圖］為顯示根據本發明的實施例的智慧型載具之實時視覺定位與不確定性估測系統的定位環境的示意圖；［第3圖］為顯示根據本發明的實施例的智慧型載具之實時視覺定位與不確定性估測系統的圖像輸入裝置所取得的當前視覺圖像資訊的示意圖；［第4圖］為顯示根據本發明的實施例的智慧型載具之實時視覺定位與不確定性估測系統的特徵擷取裝置的MobileNetV2電腦視覺神經網路模型的架構示意圖；［第5圖］為顯示根據本發明的實施例的智慧型載具之實時視覺定位與不確定性估測系統的定位估測裝置的架構示意圖。

100:智慧型載具之實時視覺定位與不確定性估測系統

1:圖像輸入裝置

2:特徵擷取裝置

20:MobileNetV2電腦視覺神經網路模型

3:定位估測裝置

30:深度學習迴歸演算模組

I0:當前視覺圖像資訊

I1:當前定位位置資訊

I2:定位不確定性估測資訊

Claims

一種智慧型載具之實時視覺定位與不確定性估測系統，係以不依靠一智慧型載具的一前時刻位置資訊的方式定位得出該智慧型載具的一初始定位位置資訊，該實時視覺定位與不確定性估測系統包含：一圖像輸入裝置，設置於該智慧型載具，且係經配置而取得在預定的一定位環境中的關於該智慧型載具之一當前視覺圖像資訊；一特徵擷取裝置，連接於該圖像輸入裝置，該特徵擷取裝置係經配置而以一MobileNetV2電腦視覺神經網路模型對於該當前視覺圖像資訊進行一圖像特徵擷取運算；以及一定位估測裝置，連接於該特徵擷取裝置，該定位估測裝置係經配置而以包含有全域平均池化層、丟棄層、及全連接層的一深度學習迴歸演算模組對於經過該圖像特徵擷取運算的該當前視覺圖像資訊予以執行一迴歸分析，而運算輸出關於該智慧型載具的一當前定位位置資訊作為該初始定位位置資訊，並且估測輸出關於該當前定位位置資訊的信賴程度的一定位不確定性估測資訊。
如請求項1所述之智慧型載具之實時視覺定位與不確定性估測系統，其中該圖像輸入裝置係為一相機。
如請求項2所述之智慧型載具之實時視覺定位與不確定性估測系統，其中該圖像輸入裝置係為一單眼相機。
如請求項1所述之智慧型載具之實時視覺定位與不確定性估測系統，其中該定位環境係對於二維光學雷達為一無特徵環境。
如請求項1或4所述之智慧型載具之實時視覺定位與不確定性估測系統，其中該當前視覺圖像資訊係為單一RGB圖像。
如請求項1所述之智慧型載具之實時視覺定位與不確定性估測系統，其中該智慧型載具係為一自主移動機器人。