TWI500320B

TWI500320B - 在多視角環境中尋找最佳觀測視角的方法與其電腦程式產品

Info

Publication number: TWI500320B
Application number: TW101149280A
Authority: TW
Inventors: Chusing Yang; Meihsuan Chao
Original assignee: Univ Nat Cheng Kung
Priority date: 2012-12-22
Filing date: 2012-12-22
Publication date: 2015-09-11
Also published as: TW201427413A

Description

在多視角環境中尋找最佳觀測視角的方法與其電腦程式產品

本發明是有關於一種影像辨識技術，且特別是有關於一種在多視角環境中尋找最佳觀測視角的方法與其電腦程式產品。

在目前影像辨識的應用中，大多需要搭配多台攝影機或一深度感測器來建構一多視角觀測環境。在使用深度感測器的多視角觀測環境中，使用者(目標物)係站在深度感測器的前方，習知影像辨識系統可由深度感測器獲得虛擬立體(Virtual 3D)資訊，再將虛擬立體(Virtual 3D)資訊轉換成分別由xy、yz、xz平面之三個視角觀之的三組影像資料。在使用多台攝影機的多視角觀測(監控)環境中，多台攝影機係係分別設置於目標物周圍之不同方向的位置上，習知影像辨識系統可由各攝影機獲得由各種視角觀之的多組影像資料。針對分別由各種視角觀之的多組影像資料，無論是搭配使用多台攝影機或一深度感測器，習知影像辨識系統大多是採用平均考量多個視角之影像資料的方式，來直接進行後續運算。

然而，在多視角的觀測環境中，部分觀測視角可能較適合用來觀測目標物的行為。由於採用之平均考量多個視角之影像資料的方式，習知影像辨識系統所無法找出適合用來觀測目標物行為的視角。在影像辨識與影像監控的應用日趨普及時，若系統能夠自動判斷最佳觀測視角，則可更有效率地達成各種應用。

因此，需要一種在多視角環境中尋找最佳觀測視角的方法與其電腦程式產品，以自動判斷出最佳觀測視角，來有效率地達成各種應用。

因此，本發明之一目的就是在提供一種在多視角環境中尋找最佳觀測視角的方法與其電腦程式產品，藉以自動判斷出最佳觀測視角，而有效率地達成各種應用。

根據本發明之一態樣，提供一種在多視角環境中尋找最佳觀測視角的方法。在此方法中，首先進行一資料擷取步驟，以分別由複數個視角觀測一目標物在一時段內之運動，而獲得由每一個視角所觀測得到之複數個影像資料，其中此些影像資料分別對應至複數個時間戳記。接著，擷取每一個視角之每一個影像資料中之一前景目標物，以獲得每一個視角之複數個前景影像資料，其中每一個前景影像資料之前景目標物標示有其所屬之影像資料的時間戳記。然後，進行一時間切割步驟，以將每一個視角之前景影像資料集合並轉換成一運動軌跡影像資料，其中運動軌跡影像資料具有複數個像素，此些像素之灰階值係由每一個前景影像資料之前景目標物所標示的時間戳記轉換而成。接著，對每一個視角所觀測得之運動軌跡影像資料計算出其每兩相鄰像素之灰階值的梯度值，以獲得每一個視角所觀測得之運動軌跡影像資料之一平均梯度值。然後，比較每一個視角所觀測得之運動軌跡影像資料的平均梯度值，其中視角中具有最大平均梯度值之一者為一最佳觀測視角。

根據本發明之一實施例，前述之影像資料係藉由複數個攝影機以不同角度對目標物拍攝而得。

根據本發明之一實施例，前述之影像資料係藉由一深度感測器對目標物拍攝而得。

根據本發明之一實施例，在前述之在多視角環境中尋找最佳觀測視角的方法中，對每一個視角所觀測得之運動軌跡影像資料中每兩相鄰像素之灰階值的梯度值進行加總，而獲得每一個視角之權重值。

根據本發明之一實施例，前述之運動軌跡影像資料之平均梯度值的計算係透過索貝爾運算子(Sobel Operator)。

根據本發明之一實施例，在一相互正交的xyz座標系統中，前述之視角分別對應至一xy平面、一yz平面和一xz平面。

根據本發明之一實施例，在前述之時間切割步驟中，對每一個前景影像資料之每兩相鄰者進行分析，以獲得一運動能量和一運動角度，再利用此運動能量和此運動角度來決定前述之前景目標物的運動狀態，以調整前述之運動軌跡影像資料。

根據本發明之一實施例，前述之運動能量係藉由前述之前景目標物的相鄰體積差值加總而得。

根據本發明之一實施例，前述之運動角度係藉由將該前景目標物分為一靜止區塊與一運動區塊，再找到運動區塊之一重心來獲得。

根據本發明之又一態樣，提供一種電腦程式產品，當電腦載入此電腦程式產品並執行後，可完成上述之在多視角環境中尋找最佳觀測視角之方法。

因此，應用本發明之實施例，可自動判斷出最佳觀測視角，而有效率地達成各種應用。

在此詳細參照本發明之實施例，其例子係與圖式一起說明。儘可能地，圖式中所使用的相同元件符號係指相同或相似組件。

本發明係運用多視角觀測資訊來得到在多視角環境中目標物的運動歷史軌跡，再由不同視角的運動軌跡影像描述目標物動作，並分析其運動軌跡影像中每兩相鄰像素之灰階值的梯度值，進而找出最能夠充分描述目標動作的視角，而給予較高權重值。

請參照第1圖，其繪示依照本發明之一實施例在多視角環境中尋找最佳觀測視角的方法的流程圖。在本實施例中，首先進行一資料擷取步驟110，以分別由複數個視角觀測一目標物在一時段內之運動，而獲得由每一個視角所觀測得到之複數個影像資料，其中此些影像資料分別對應至複數個時間戳記。請參照第2A和2B圖，其繪示依照本發明之一實施例之獲得影像資料的設備示意圖。如第2A圖所示，本實施例之影像資料可藉由複數個攝影機cam 1、cam 2和cam 3以不同角度對目標物20拍攝而得。如第2B圖所示，本實施例之影像資料亦可藉由深度感測器10拍攝站在深度感測器10前方的目標物20，而獲得影像深度資訊，再將目標物20的2D影像資料與深度資訊轉換成例如：對應至相互正交的xyz座標系統中xy、yz、xz平面(視角)的影像資料。在本實施例中，深度感測器為Xbox 360所使用的Kinect感應器，其為外型類似網路攝影機的裝置，其上裝有三個鏡頭，在中間的鏡頭是RGB彩色攝影機，而在左右兩邊的鏡頭則分別是由紅外線發射器和紅外線CMOS攝影機所構成的三維深度感應器。由於將目標物20的2D影像資料與深度資訊轉換成xy、yz、xz(視角)的影像資料係一習知技術，故不在此贅述。

接著，如第1圖所示，進行步驟120，以擷取每一個影像資料中之一前景目標物，來獲得複數個前景影像資料。請參照第3A圖，其繪示依照本發明之一實施例之前景目標物的擷取結果，其中前景目標物為人體輪廓區域，前景影像資料中白色區域為前景目標物，黑色區域為背景。由於擷取前景目標物係一習知技術，故不在此贅述。請參照第3B圖，其繪示依照本發明之一實施例之集合一視角之前景影像資料的示意圖，其中每一個前景影像資料(未標示)之前景目標物標示有其所屬之影像資料的時間戳記“1”、“2”、“3”和“4”，前景目標物運動係由時間戳記“1”至時間戳記“4”依序進行。

如第1圖和第3B圖所示，然後，進行一時間切割步驟130，以將每一個視角之前景影像資料集合成一組合前景影像資料(未標示)，再將此組合前景影像資料轉換成一運動軌跡影像資料。

運動軌跡影像資料的每一個欄位都紀錄了運動軌跡的時間戳記，為了避免運動速度不同所造成的誤判，須將運動歷史矩陣正規化成灰階值從0到255的運動歷史影像，計算公式(1)如下。

其中t _min 和t _max 分別代表運動行為的開始及結束時間，為運動軌跡影像資料，是在結束時間點t _max 時此一運動行為所對應的多視角(例如：三視角)運動軌跡影像資料。經過時間的正規化，一個簡單運動行為的運動軌跡，就能由原本以浮點數紀錄的時間戳記，改為以灰階值來表示。因此，即使在不同時間或不同速度狀況下所做的相同運動行為，都可以用相似的運動軌跡影像資料來表示。

請參照第4A圖和第4B圖，其繪示依照本發明之一實施例之將一視角之組合前景影像資料轉換成運動軌跡影像資料的示意圖，其中第4A圖繪示組合前景影像資料內紀錄(440,300)、(459,300)、(440,319)及(459,319)四點所圍成的矩形中，每一個像素點所對應的時間戳記，而第4B圖為經時間正規化後所產生的灰階影像以及第4A圖之矩形所對應到的放大影像。由4B圖可觀察出灰階值可充分表現出時間戳記的變化。換言之，運動軌跡影像資料具有複數個像素，此些像素之灰階值係由每一個前景影像資料之前景目標物所標示的時間戳記轉換而成。以下說明運動行為的開始及結束時間的決定方法。

在一段連續的影像中，需要先把一連串的動作影像序列切割成數個簡單動作，才能進行後續的分類。在監督式方法(Supervised Method)中，通常都會將動作的起始時間及結束時間手動標記出來。本實施例之時間切割步驟130不需要額外人為的處理，就可以自動將動作片段切割出來。透過計算運動能量和估測運動角度的變化，來判斷每一個簡單動作片段的開始t _min 和結束時間點t _max ，其中運動能量係藉由前述之前景目標物的相鄰體積差值加總而得，運動角度係藉由將前景目標物分為一靜止區塊與一運動區塊，再找到運動區塊之一重心來獲得。在本實施例之時間切割步驟130中，首先輸入每一個視角之組合前景影像資料，透過個別相鄰體積目標物的計算，可得到相鄰差值、人體靜止區塊跟運動區塊。由差值體積計算出目標物的運動能量，用來判別目標物目前處於靜止或運動狀態；而人體靜止區塊和運動區塊影像，則用來判別運動角度的變化。然後，藉由計算出來的運動能量及運動角度變化，判斷目標物的不同狀態，也就是開始運動、持續運動和結束運動三種狀態。

接著，如第1圖所示，進行步驟140，以對每一個視角所觀測得之運動軌跡影像資料計算出其每兩相鄰像素之灰階值的梯度值，以獲得每一個視角所觀測得之運動軌跡影像資料之一平均梯度值。在計算出不同視角的運動軌跡影像資料後(步驟130)，在一張二維影像中，x方向與y方向的梯度值可藉由例如索貝爾運算子(Sobel Operator)來計算(步驟140)，如下列公式(2)至(4)所示。

G _x 和G _y 分別是x方向、y方向的的梯度影像。每一張影像(運動軌跡影像資料)的x方向、y方向梯度可以G ^3-view 來表示，如公式(4)。

然後，如第1圖所示，進行步驟150，以比較各視角所觀測得之運動軌跡影像資料的平均梯度值，其中各視角中具有最大平均梯度值之一者為一最佳觀測視角。步驟150的目的是要給予不同視角適當的權重值，以判斷目標動作較趨近於平面動作或深度動作。由於運動軌跡影像資料有以灰階值來描述運動軌跡的特徵，若單一平面的影像有詳細的灰階變化，表示此一視角適合描述此運動行為。因此，本實施例可使用影像中每兩相鄰像素之灰階值的梯度值來描述平面影像中的灰階變化，其中若有詳細的灰階變化，則影像的梯度值高；若無紀錄太多軌跡資訊，則影像的梯度值低。舉例而言，將運動軌跡影像中每兩相鄰像素之灰階值取梯度之後，若目標物行為較趨近於xy平面動作，則xy平面中每兩相鄰像素之灰階值的平均梯度值較高，另外兩個平面的梯度影像較低；而對於深度動作來說，yz和xz平面則會出現較高的平均梯度值。根據以上特性，本實施例以軌跡影像資料中的梯度值，來判斷目標動作屬於平面或深度動作，並給予三視角不同的權重值。例如：進行步驟160，以對每一個軌跡影像資料中每兩相鄰像素之灰階值的梯度值進行加總，而獲得每一個視角之權重值。然而，本發明實施例亦可使用其他方式來獲得每一個視角之權重值，故本發明實施例並不在此限。

上述實施例可利用電腦程式產品來實現，其可包含儲存有多個指令之機器可讀取媒體，這些指令可程式化(programming)電腦來進行上述實施例中的步驟。機器可讀取媒體可為但不限定於軟碟、光碟、唯讀光碟、磁光碟、唯讀記憶體、隨機存取記憶體、可抹除可程式唯讀記憶體(EPROM)、電子可抹除可程式唯讀記憶體(EEPROM)、光卡(optical card)或磁卡、快閃記憶體、或任何適於儲存電子指令的機器可讀取媒體。再者，本發明之實施例也可做為電腦程式產品來下載，其可藉由使用通訊連接(例如網路連線之類的連接)之資料訊號來從遠端電腦轉移本發明之電腦程式產品至請求電腦。

由以上說明可知，應用本發明之實施例，可有效地幫助管理員或系統選擇最佳觀測視角：可應用於影像辨識及影像監控；不需其他先備知識，即可自動判斷出最佳觀測視角；可讓每一個視角的觀測影像達到有效運用。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何在此技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可作各種之更動與潤飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。

10‧‧‧深度感測器

20‧‧‧目標物

110‧‧‧資料擷取步驟

120‧‧‧擷取影像資料中之前景目標物

130‧‧‧時間切割步驟

140‧‧‧獲得每一個視角之運動軌跡影像資料的平均梯度值

150‧‧‧比較各視角之運動軌跡影像資料的平均梯度值

160‧‧‧獲得每一個視角之權重值

cam 1、cam 2、cam 3‧‧‧攝影機

為讓本發明之上述和其他目的、特徵、優點與實施例能更明顯易懂，所附圖式之說明如下：

第1圖係繪示依照本發明之一實施例在多視角環境中尋找最佳觀測視角的方法的流程圖。

第2A和2B圖係繪示依照本發明之一實施例之獲得影像資料的設備示意圖。

第3A圖係繪示依照本發明之一實施例之前景目標物的擷取結果。

第3B圖係繪示依照本發明之一實施例之集合一視角之前景影像資料的示意圖。

第4A圖和第4B圖係繪示依照本發明之一實施例之將一視角之組合前景影像資料轉換成運動軌跡影像資料的示意圖。