TWI745204B

TWI745204B - 基於深度學習之高效率光達物件偵測方法

Info

Publication number: TWI745204B
Application number: TW109146375A
Authority: TW
Inventors: 花凱龍; 簡士哲; 張峰嘉; 蕭有崧; 莊定為
Original assignee: 國家中山科學研究院
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-11-01
Also published as: TW202225730A

Abstract

本發明係提供一種基於深度學習之高效率光達物件偵測方法，步驟包括：(A)由一光達取得一三維點雲數據，該三維點雲數據為Nx4維的資訊，N為光達點數目，每個光達點具有x軸值、y軸值、z軸值之空間資訊及反射強度資訊；(B)藉由空間轉換矩陣旋轉位移該三維點雲數據之該空間資訊；(C)將該三維點雲數據做多次的一維卷積擴充特徵維度，並經池化得出高維度的特徵；(D)將該三維點雲數據映射出二維影像提取出點雲二維特徵；以及(E)將該高維度的特徵及該點雲二維特徵輸入調節模型做特徵調節。

Description

基於深度學習之高效率光達物件偵測方法

本發明係關於一種基於深度學習之高效率光達物件偵測方法，特別是關於一種在於物件特徵提取的加速改善之一種基於深度學習之高效率光達物件偵測方法。

現存的物件偵測方法中，基於圖像的方法已經行之有年，不論透過傳統影像辨識或者深度學習的方法都已經有非常多了，但為了能更真實了解周遭的全貌及感知距離，在未來自動駕駛車中使用光學雷達(Lidar)獲取的點雲來辨識為更可靠的方式，雖然探測距離不及毫米波雷達(millimeter wave radar)，但光學雷達有更高的空間分辨率足以針對物件樣貌辨別物件，目前光學雷達已經成為重要的sensor並廣泛運用於自動駕駛上。

習知技術中，已有提出使用提取光學雷達的人工特徵來得到一個特徵向量，並對其分類出辦公室內的行人，另外，在三維的深度學習方法中，已有將點雲圖轉換成立體像素(Voxel)，利用三維的卷積網路(3D Convolutional Neural Network)算出的特徵將三維的點雲資料做標籤的分類，再者，亦有透過卷積及池化保持點雲序不變性萃取出強健的特徵，其特徵可用來做分類或是語義分割。

上述技術中，大多數都是以基於視覺影像的方法取得不錯的成果，可是這些方法其實是在清晰的圖像條件獲得好結果的，其實實際狀況卻是更加惡劣，包括天候或是環境明亮度的情形都將導致影像變得不清晰，因此辨識的效果會變差，而我們將使用的光學雷達對於在些外在條件來說是有高度的強健性的，但儘管光學雷達擁有50公尺的範圍偵測，但由於角度發散的關係，隨著偵測距離越長，點雲資料也會越稀疏，使得障礙物較難辨識，這也是使用光學雷達偵測的難處之一。

另一點在於光達資料的處理結構非常繁瑣，相對於影像具有像素化的結構性來說，光達所蒐集到的物件只是點雲，是不具有結構性的點集合而已，在針對特定物件的狀況下，可以建立對於特定物件相關的特徵來做判別，但在此特徵在其他的物件卻又不太精準，而現在興起的深度學習的方法會解決人工特徵的問題，近來也人有導入到此類三維資料中，通常會透過體素化點雲結構來完成，但體素化的過程又過於耗時，此類方法並不適合用做需要兼顧實時運作與精準性的自駕車領域。

綜上所述，目前體素化的網路模型，既複雜又耗時，因此本案之申請人經苦心研究發展出了一種基於深度學習之高效率光達物件偵測方法的網路架構，透過直接對三維點資料的處理，獲得一簡潔快速的三維特徵，我們將其稱為快速光達網路架構(Fast LiDar Net)。

鑒於上述悉知技術之缺點，本發明之主要目的在於提供一種基於深度學習之高效率光達物件偵測方法，藉由提出一網路架構，透過直接對三維點資料的處理，獲得一簡潔快速的三維特徵，解決目前體素化的網路模型，既複雜又耗時之缺點。

為了達到上述目的，根據本發明所提出之一方案，提供一種基於深度學習之高效率光達物件偵測方法，步驟包括：(A)由一光達取得三維點雲數據，該三維點雲數據為Nx4維的資訊，N為光達點數目，每個光達點具有x軸值、y軸值、z軸值之空間資訊及反射強度資訊；(B)藉由空間轉換矩陣旋轉位移三維點雲數據之空間資訊；(C)將三維點雲數據做多次的一維卷積擴充特徵維度，並經池化得出一高維度的特徵；(D)將三維點雲數據映射出二維影像提取出點雲二維特徵；以及(E)將該高維度的特徵及該點雲二維特徵輸入一調節模型做特徵調節。

較佳地，於步驟(D)中，可根據距離擴張對二維影像使用不同的膨脹係數。

較佳地，於該步驟(D)中，可對二維影像之一影像三通道賦予反射強度資訊及反射點距離有意義的值。

較佳地，影像三通道可包括：一藍色通道、一綠色通道及一紅色通道，該藍色通道為光達點的反射強度，並根據值域調整為0~255，若為光達投影影像輪廓內則在該綠色通道填上值255，以及該紅色通道為光達點與二維影像之中心距離，並根據值域調整為0~255。

較佳地，該方法係可採用機器人作業系統整合並架設於嵌入式系統。

較佳地，於步驟(A)中，可進一步執行地面去除步驟，利用隨機樣本共識(Random Sample Consensus，簡稱RANSAC)來去除光達之地面，而在使用該隨機樣本共識前，透過點雲體素化(Voxel Filter)下採樣使地面有相同的y軸值。

較佳地，可進一步執行一物件分群步驟，根據光達點之間的距離作分群，透過K-D Tree做搜尋方式，當光達點彼此間距離小於0.2m時，兩光達點標記為同一群。

以上之概述與接下來的詳細說明及附圖，皆是為了能進一步說明本發明達到預定目的所採取的方式、手段及功效。而有關本發明的其他目的及優點，將在後續的說明及圖式中加以闡述。

S1-S5、S11-S15:步驟

第一圖係為本發明之一種基於深度學習之高效率光達物件偵測方法之物件特徵提取流程圖。

第二圖係為本發明之一種基於深度學習之高效率光達物件偵測方法流程圖。

第三圖係為本發明之加入光達點的反射強度資訊及反射點距離後之比較示意圖。

第四圖係為本發明之快速光達網路架構(Fast LiDar Net)示意圖。

以下係藉由特定的具體實例說明本發明之實施方式，熟悉此技藝之人士可由本說明書所揭示之內容輕易地了解本創作之優點及功效。

請參閱第一圖係為本發明之一種基於深度學習之高效率光達物件偵測方法之物件特徵提取流程圖，以及第二圖係為本發明之一種基於深度學習之高效率光達物件偵測方法流程圖。本發明在於提供一種基於深度學習之高效率光達物件偵測方法，包括：步驟S1，由一光達取得三維點雲數據(亦就是步驟S11之數據採集)，三維點雲數據為Nx4維的資訊，N為光達點數目，每個光達點具有x軸值、y軸值、z軸值之空間資訊及反射強度資訊。在步驟S14之物件特徵提取的詳細步驟包括：步驟S2，藉由空間轉換矩陣旋轉位移三維點雲數據之空間資訊，更詳言之，為了加速整體模型，我們首先在三維深度學習特徵的方面做改變，相較以往體素化的網路模型，既複雜又耗時，我們提出一網路架構，透過直接對三維點資料的處理，獲得一簡潔快速的三維特徵，首先只針對光達的空間資訊xyz軸透過Transform Net推估一空間轉換矩陣，透過此空間轉換矩陣將三維點雲數據預處理後，所有同類的點雲物件在空間應較有一致性。步驟S3，將三維點雲數據做多次的一維卷積擴充特徵維度，並經池化得出一高維度的特徵，此特徵有利於快速獲取三維資訊，而由步驟S2至步驟S3之架構如第四圖所示，我們將其稱為快速光達網路架構(Fast LiDar Net)，我們使用改良後的Fast lidar net深度學習網路去進行特徵提取，取代先前運算量非常高的深度學習特徵與人工特徵，有效提升運算效能。步驟S4，將三維點雲數據映射出二維影像提取出點雲二維特徵，雖然快速光達網路架構雖有助於了解三維空間資訊，但準確率並沒有那麼高，會降低辨識率，因此融合了步驟S4的二維影像來提升我們的準確率，此舉比起純三維資訊在準度方面多有助益，速度也不會因此降低太多，算是速度與準度兼容的做法，以及步驟S5，將高維度的特徵及點雲二維特徵輸入調節模型做特徵調節，詳言之，此步驟將各特徵的運算時間與特徵的獨特及有效性輸入此模型做特徵調節，透過此模型挑選出效率好的特徵值融合，可以得到又快又準確的結果，為達到實時的光學雷達物件檢測，本方法的特徵融合法，對於單一點雲分離出20個最有可能為檢測物之物件並分類可以達到約80毫秒的處理速度，換算為14FPS，並有著94.3%的準確率。

以上，在步驟S14之物件特徵提取中，除了將光達的三維點資訊提取出特徵之外，我們在這步驟S14也對三維點雲映射出一個二維影像提取出點雲二維特徵。

在本實施方式中，於步驟S4中，可根據距離擴張對二維影像使用不同的膨脹係數，以及可對二維影像之一影像三通道賦予反射強度資訊及反射點距離有意義的值。更詳言之，特別在光達轉換二維影像的處理過程中，由於光達的機構特性，讓點雲在不同距離下的稀疏程度不同，為了讓光達影像適應於深度學習影像辨識，因此在物件距離不同的位置，我們使用不同的膨脹係數，來解決二維影像空洞的問題，具體來說，以每五公尺增加一倍膨脹係數，最後找出物件輪廓並填滿，而我們也分別對於影像三通道賦予有意義的值，將原先單通道影像加入光學雷達中反射強度資訊及反射點距離有物理意義的資訊，使其變成三通道影像；這邊可以想像成原本單通道影像是灰階影像，現在改為三通道彩色影像(RGB)，只是三個通道中不是放入RGB色彩資訊，而是光學雷達之反射強度資訊及反射點距離有物理意義的資訊，藍色通道為光達點的反射強度，並根據值域調整為0~255；若為光達投影影像輪廓內則在綠色通道填上值255；紅色通道為光達點與中心距離，並根據值域調整為0~255，此三通道的值可以幫助我們深度學習的模型更有效的辨識物件(如第三圖所示)。

在本實施方式中，本發明之方法係可採用機器人作業系統整合並架設於嵌入式系統，此方法不必耗用大量電腦運算資源，便可執行於簡易的嵌入式設備達到良好的執行效率。

在本實施方式中，可進一步執行地面去除步驟S12，利用隨機樣本共識(Random Sample Consensus，簡稱RANSAC)來去除光達之地面，而在使用該隨機樣本共識前，透過點雲體素化(Voxel Filter)下採樣使地面有相同的y軸值。更詳言之，步驟S12之地面去除是為了下一步驟S13中的有效分群，需要先把光達的地面環分割出來，並將非地面環部分傳入下一步驟進行分群，這邊利用隨機樣本共識(Random Sample Consensus，簡稱RANSAC)來去除地面，而在使用RANSAC前，透過Voxel Filter下採樣使地面盡量有相同的y軸值，也可以加速並使RANSAC更精準分割出地面。

在本實施方式中，可進一步執行一物件分群步驟S13，根據光達點之間的距離作分群，透過K-D Tree做搜尋方式，當光達點彼此間距離小於0.2m時，兩光達點標記為同一群，最後對各群長寬高再進行最後篩選以符合正確的物件大小。

在本實施方式中，可進一步執行一物件分類步驟S15，最後透過全連接層把擷取並整合好的特徵，進一步做 one-hot vector的分類。利用分離各物件後萃取出的特徵進行深度學習的分類，可以確立車體周遭物件之分類及位置。

綜上所述，本發明利用快速的三維深度模型，獲取在三維空間上的特徵優點，而光達投影影像則利用以往在二維影像在深度學習上的基礎，保留二維影像物件判別方面的優勢，還有結合二三維人工設定特徵，透過一個調節準確度及執行效率的模型調節出適合的執行效率，該調節模型將所有特徵整理過後來根據速度以及準確率的影響程度提取在這些特徵中較具有優勢的特徵，讓整個分類器在調整後擁有快速且準確的成果。另外，光學雷達發射時具有較高的指向性且不用考慮光線環境影響，發射高精準的雷射光束掃描道路環境周圍，近年來在自動駕駛，都被廣泛探討。倚靠著光學雷達的發展和硬體設備的進步，我們能有更優於純影像辨識的環境抵抗力，靠著我們的演算法，能更增強環境周遭物件的檢測速度與準度。再者，在未來的自駕車系統上，配備光學雷達將使得電腦系統在不論白天或夜晚都擁有準確的判斷周遭物件的能力，而且光學雷達有著至少50公尺的且環繞360度範圍偵測能力，比起影像辨識更有著良好的動態判別能力，非常適合自駕車的使用，本發明提出基於深度學習之光學雷達點雲物件偵測就是為了在將來自駕車的應用上，提供自駕車更周全的視野感知能力。

上述之實施例僅為例示性說明本創作之特點及功效，非用以限制本發明之實質技術內容的範圍。任何熟悉此技藝之人士均可在不違背創作之精神及範疇下，對上述實施例進行修飾與變化。因此，本發明之權利保護範圍，應如後述之申請專利範圍所列。

S1-S5:步驟

Claims

一種基於深度學習之高效率光達物件偵測方法，步驟包括：(A)由一光達取得一三維點雲數據，該三維點雲數據為Nx4維的資訊，N為一光達點數目，每個光達點具有x軸值、y軸值、z軸值之一空間資訊及一反射強度資訊；(B)藉由一快速光達網路架構處理該三維點雲數據，以獲得一高維度的特徵；(C)將該三維點雲數據映射出一二維影像提取出一點雲二維特徵；以及(D)將該高維度的特徵及該點雲二維特徵輸入一調節模型做特徵調節，其中該快速光達網路架構之步驟包含：(B1)藉由一空間轉換矩陣旋轉位移該三維點雲數據之該空間資訊；及(B2)將該三維點雲數據做多次的一維卷積擴充特徵維度，並經池化得出該高維度的特徵。
如申請專利範圍第1項所述之一種基於深度學習之高效率光達物件偵測方法，其中於該步驟(C)中，根據距離擴張對該二維影像使用不同的膨脹係數。
如申請專利範圍第1項所述之一種基於深度學習之高效率光達物件偵測方法，其中於該步驟(C)中，對該二維影像之一影像三通道賦予該反射強度資訊及一反射點距離有意義的值。
如申請專利範圍第3項所述之一種基於深度學習之高效率光達物件偵測方法，其中該影像三通道包括：一藍色通道、一綠色通道及一紅色通道，該藍色通道為該光達點的反射強度，並根據值域調整為0~255，若為光達投影影像輪廓內則在該綠色通道填上值255，以及該紅色通道為該光達點與該二維影像之中心距離，並根據值域調整為0~255。
如申請專利範圍第1項所述之一種基於深度學習之高效率光達物件偵測方法，其中該方法係採用一機器人作業系統整合並架設於一嵌入式系統。
如申請專利範圍第1項所述之一種基於深度學習之高效率光達物件偵測方法，其中於該步驟(A)中，進一步執行一地面去除步驟，利用一隨機樣本共識(Random Sample Consensus，簡稱RANSAC)來去除該光達之地面，而在使用該隨機樣本共識前，透過點雲體素化(Voxel Filter)下採樣使地面有相同的y軸值。
如申請專利範圍第6項所述之一種基於深度學習之高效率光達物件偵測方法，進一步執行一物件分群步驟，根據該光達點之間的距離作分群，透過K-D Tree做搜尋方式，當該光達點彼此間距離小於0.2m時，該兩光達點標記為同一群。