TWI395145B

TWI395145B - 手勢辨識系統及其方法

Info

Publication number: TWI395145B
Application number: TW098103294A
Authority: TW
Inventors: Jun Mein Wu; Wen Shiou Luo; Wei Yih Ho; Chia Chen Chen; Cheng Yuan Tang
Original assignee: Ind Tech Res Inst
Priority date: 2009-02-02
Filing date: 2009-02-02
Publication date: 2013-05-01
Also published as: US20100194679A1; TW201030630A; US8269722B2

Description

手勢辨識系統及其方法

本發明是有關一種手勢辨識系統及其辨識方法，特別是一種利用平行化手勢模板的比對方式辨識自然手勢，並且實現無標記(marker less)以及即時辨識手勢的手勢辨識系統及其辨識方法。

手勢偵測的應用範圍極廣，但是對於無標記(marker less)的手勢偵測，尤其是採用模板比對(Template Matching)技術，必須解析出手的位置與姿態，通常是需要大量的運算效能，因此很難達到即時(real time)辨識的應用要求。

在已公開的美國專利第6,128,003號所提出的技術，是先於影像中找出移動影像物體，並假設手勢為影像中唯一的移動物體。首先他們先建立好所有角度的手勢模板，並解析出所有模板的主軸(rotational vector)。再從取得的即時影像中解析出移動物體的形態及移動物體之主軸，並與已建立好的模板中的主軸一一做比對，用此方法找出最像的模板。此外，為了加速影像物體的分辨速度，他們分析每個不同模板的主軸，並依照其特性分類成階層式架構(hierarchical structure)的資料結構，以避免每次都要將模板資料庫的資料全部比對，並藉此方式達到即時辨識的功效。

已公開的美國專利第6,256,033號強調其中的姿勢辨識(gesture recognition)方法可達到即時辨識的功效，其方法為測量動態(motion)物體，並將此動態物體取出並與先前已建立的的模板資料庫的模板資料加以比對，藉以達到姿勢辨別的效果。

上述兩件已知技術均假設影像中的移動物體即為手部位置，原因是：對模板比對的技術而言，背景的複雜度往往會影響模板比對的結果。因此他們的專利為了快速分離出背景與前景，在去除背景的干擾下可以更正確的得到手部的模板比對。在這個條件下，他們必須假設，手必須是運動物體。

除了利用模板進行比對的方法之外，還有利用顏色輔助手勢追蹤的方法，例如已公開的美國專利第6,788,809號利用顏色區塊(color segmentation)和姿勢辨識(gesture recognition)來定義影像中的物體，利用影像中物體本身對應的顏色先挑選出於影像中所對應顏色。並利用立體攝影機(stereo camera)建立影像中所有影像網格的深度並將不需要的深度值所對應的影像網格消除，藉此達到背景相減(background subtraction)的功效。再利用已建立好的手勢模板資料庫，將此資料庫與影像做比對藉以了解姿勢的訊息。在這個已知技術中使用兩個攝影機算出影像中所有網格的距離深度，並利用手部已知的距離深度挑選出手部的範圍，藉以將背景去除然後進行模板比對。這種方式必須控制欲解析的深度臨界點，當超出此臨界點，手部將被視為背景而無法解析。

在已公開的美國專利第7,050,606號中使用顏色去偵測物體例如手或者身體並配合動態追蹤(motion tracking)輔助偵測，以達到更準確且更快速的效果。此一專利技術用利用動態追蹤來輔助偵測，藉此加速對影像的運算速度。

本發明所揭示的手勢辨識系統的較佳實施例包括：一攝影裝置，用於取得可能含有手勢的影像；一處理器，可以從攝影裝置取得的影像中找出膚色部份的膚色輪廓(edge)，再依據角度將膚色輪廓分類為多個不同角度的輪廓碎片(edge part)；一運算引擎，運算引擎具有多個平行運算單元和一手勢資料庫，手勢資料庫中儲存有多個用以代表不同手勢的手勢模板(template)，這些手勢模板依據角度被分類並且分別儲存於多個不同角度類別的手勢模板庫，分別供不同的平行運算單元運用於模板比對，前述多個不同角度的輪廓碎片分別被發送至不同的平行運算單元用以在不同角度類別的手勢模板庫中分別找出和輪廓碎片最近似的手勢模板；一最佳模板選取手段，從前述被多個平行運算單元找出的多個近似的手勢模板中再選出一個最佳的手勢模板；以及一顯示終端，用以顯示最佳的手勢模板所代表的手勢影像。本發明還提供一種手勢辨識方法。

本發明所揭示的手勢辨識方法的較佳實施例步驟包括：建立手勢資料庫，產生多個代表不同手勢的手勢模板，並且定義每一個手勢模板所代表的手勢資訊，再依據角度將這些手勢模板進行分類然後儲存於多個不同角度類別的手勢模板庫；取得影像的步驟，用以取得可能包含手勢的影像；取得膚色輪廓的步驟，從影像中找出膚色部份，並對膚色部份進行邊緣偵測，取得膚色部份的膚色輪廓；膚色輪廓的分類步驟，依據角度將膚色輪廓分類為多個不同角度的輪廓碎片；模板比對的步驟，分別在多個不同角度的手勢模板庫中找出和輪廓碎片最近似的手勢模板；在前述步驟中找出的多個近似的手勢模板中找出一最佳的手勢模板；以及顯示前述步驟找出之最佳的手勢模板所代表的手勢影像。

有關本發明的技術內容及其較實施例，茲配合圖示詳細說明如下。

「第1圖」揭示了手勢辨識系統的一種較佳實施例，包括：一攝影裝置10，可以是一般的攝影機(camera)，用以取得包含手部影像的影像資料，而且可以是連續的彩色數位影像；一手勢資料庫20(template database)，其中記錄了多個代表不同手勢的手勢模板(template)，這些手勢模板依角度進行分類，並且分別儲存在不同角度類別的手勢模板庫201；一處理器30，與攝影裝置10通訊並取得彩色數位影像，處理器30內具有一影像處理程序，用以從彩色數位影像之中尋找膚色部份，再利用邊緣偵測技術產生膚色輪廓(edge)，再依據膚色輪廓的角度把膚色輪廓分類為多個不同角度類別的輪廓碎片；一運算引擎40，具有多個平行運算單元401，這些平行運算單元401可分別調用不同角度類別的手勢模板庫201分別執行不同角度的模板比對工作，前述多個不同角度類別的輪廓碎片分別被發送至不同的平行運算單元401進行模板比對，用以在不同角度類別的手勢模板庫201中找出一個最近似的手勢模板；一最佳模板選取手段50，從前述被多個平行運算單元401找出的多個近似手勢模板中再選出一個最佳的手勢模板；以及一顯示終端60，用以顯示最佳的手勢模板所代表的手勢影像。

「第2圖」揭示了手勢辨識方法的較佳實施例步驟，包括：

A.建立手勢資料庫，對不同手勢的手部影像進行邊緣處理以取得代表不同手勢的手勢輪廓，將手勢輪廓儲存為一手勢模板並且定義每一個手勢模板所代表的手勢資訊(例如：手勢所代表的指令或意義)，再依據角度對這些手勢模板進行分類然後儲存至多個不同角度類別的手勢模板庫201，具體的作法是依據手勢輪廓之中每一個輪廓像素(pixel)的角度將構成手勢輪廓的輪廓像素進行分類，將相同之角度範圍內的輪廓像素集合成為單一個手勢模板，每一個手勢模板都可以代表某一種手勢，再將不同角度的手勢模板分別儲存於不同角度類別的手勢資料庫中；

B.取得影像的步驟，用以取得可能包含手部影像的影像資料；

C.取得膚色輪廓的步驟，影像中找出膚色部份，並對膚色部份進行邊緣偵測以取得膚色部份的膚色輪廓(edge)；

D.膚色輪廓的分類步驟，利用影像處理技術將前述找到的膚色輪廓依角度分類為多個不同角度類別的輪廓碎片；

E.模板比對的步驟，將多個不同角度類別的輪廓碎片與多個不同角度類別的手勢模板庫201中的手勢模板進行比對，在不同角度類別的手勢模板庫201中分別找出和輪廓碎片最近似的手勢模板；

F.在前述步驟中找出的多個不同角度的近似的手勢模板中找出一最佳的手勢模板；以及

G.顯示前述步驟找出之最佳的手勢模板所代表的手勢影像。

其中包含手勢影像的影像資料可以是彩色影像。

其中手勢模板庫201的建立方法，基本上是先取得不同手勢的手部影像(可以藉由攝影術或是建立電腦3D模型的方式產生)，再對不同手勢的手部影像進行邊緣偵測(edge detiction)，取得代表不同手勢的手勢輪廓，依據手勢輪廓之中每一個輪廓像素(edge pixel)的角度將構成手勢輪廓的輪廓像素進行分類，將相同之角度範圍內的輪廓像素集合成為一手勢模板21(見「第3圖」)，每一個手勢模板21都代表某一種手勢，再將不同角度的手勢模板21分別儲存於不同角度類別的手勢模板庫201中，以便在進行模板比對時，可以和不同角度類別的輪廓碎片(edge part)進行比對；因此，單一種手勢的手勢輪廓可能會產生多個不同角度的手勢模板21而被儲存於不同角度類別的手勢模板庫201之中。

如「第3圖」揭示了本發明之手勢辨識系統的一種具體實施例，其中的處理器30可以是一部個人電腦(personal computer,PC)，而運算引擎40主要是用來執行繁重的模板比對工作，其中的平行運算單元401的較佳實施例是選用多核心處理器(multi-core processor)，換言之，這種運算引擎40可以是由一個或多個多核心處理器所組成的平行運算架構，這裡所稱的多核心處理器可以使用伺服器以提供優異的運算處理效能；如「第3圖」所示本發明的一種較佳實施例中，運算引擎40採用了8個多核心處理器分別負責不同角度的模板比對工作，基本上這8個多核心處理器被分配了不同角度類別的手勢模板庫201，用以和不同角度類別的輪廓碎片進行模板比對。最佳模板選取手段50，可以是另一部電腦或是多核心處理器，用以在前述被多個平行運算單元401找出的多個近似手勢模板中再選出一個最佳的手勢模板，為了達到即時辨識的功效，這個最佳模板選取手段50仍然是採用多核心處理器為佳，在「第3圖」的較佳實施例中，本發明使用了9部伺服器，其中8部伺服器構成平行運算單元401分別負責不同角度的模板比對工作，另一部伺服器則是作為最佳模板選取手段50，負責整合收集8部伺服器傳回的模板比對結果，再從這些比對結果中找出一個最佳的手勢模板，然後再將這個最佳的手勢模板傳送至顯示終端60，顯示終端60可以是一部具有繪圖能力或是影像處理能力的電腦，主要的功能就是顯示最佳的手勢模板所代表的手勢影像。前述的處理器30和攝影裝置10間可以利用i1394介面和傳輸線來傳送資料，至於多部電腦或是伺服器之間的資料傳遞較佳的通訊方式是透過區域網路(local area network)來實現，其中的處理器30是透過使用者資料元協定廣播(User Datagram Protocol broadcast,UDP broadcast)的方式將輪廓碎片同時向多部多核心處理器發送，多核心處理器只對其中符合預先分配之角度範圍的輪廓碎片進行模板比對工作，利用UDP broadcast的方式傳送輪廓碎片至多部多核心處理器可以在有限的頻寬中達到高效率的資料傳輸效果；而運算引擎40中的多部多核心處理器和最佳模板選取手段50(另一部多核心處理器)之間的通訊方式，以及最佳模板選取手段50和顯示終端60之間的通訊方式，則是透過傳輸控制/網際網路(TCP/IP)通訊協定進行資料的傳遞。

「第3圖」所揭示的手勢辨識系統的實施例，是由多部電腦或伺服器以及通訊網路實現的一種實施例，除此之外當然也可以藉由專用的裝置例如高運算能力的遊戲主機結合小型的攝影裝置加以實現，這些變化就熟悉此項技術領域具有通常知識者在瞭解本發明的技術手段之後，將可以理解並加以實現。

前述處理器30內建有膚色處理程序及邊緣偵測(edge detection)程序，利用膚色處理程序去除彩色數位影像所包含的背景雜訊，便於找出可能被包含在彩色數位影像中的手部影像，首先從彩色數位影像中濾出膚色部分(見「第4圖(a)」)，再將膚色部份轉成灰階影像(例如8灰階度)，(見「第4圖(b)」)，再找出膚色部份的膚色輪廓(見「第4圖(c)」)(edge)，並且依據角度將膚色輪廓分類為多個不同角度的輪廓碎片70a(見「第4圖(d)」)；一般而言對於一個二值化處理後的影像，要尋找這種影像的輪廓最常見的方法就是使用邊緣偵測器(edge detector,例如：Sobel Filter)；攝影裝置10所取得的彩色數位影像基本上可以是一種RGB影像，首先經由膚色處理程序過濾出RGB影像中的膚色資訊用以找出膚色區域，再利用邊緣偵測程序找出膚色區域的膚色輪廓(見「第4圖(c)」)；為了加快模板的比對速度，本發明還利用處理器30進一步將膚色輪廓分類為多個不同方同的輪廓碎片70a，具體而言就是從構成膚色輪廓的輪廓像素(edge pixel)中找出位在相同之角度範圍內的輪廓像素集合然後儲存成為一輪廓碎片70a(edge part)，再依據輪廓碎片70a中所包含的輪廓像素(edge pixel)的角度分類為多個不同角度類別的輪廓碎片70a，這些被分類之後的輪廓碎片如70a(見「第4圖(d)」)所示，每一個角度範圍內的輪廓碎片70a基本上是就是完整的膚色輪廓的一部份，本發明的較佳實施例是將膚色輪廓分類為8個角度範圍的輪廓碎片，這8個不同角度範圍就是等分360度圓角的8個角度範圍，分別為[1°~45°]、[46°~90°]、[91°~135°]、[136°~180°]、[181°~225°]、[226°~270°]、[271°~315°]、[316°~360°]，利用邊緣偵測器(edge detector，例如：Sobel Filter)計算膚色輪廓的輪廓像素(edge pixel)在水平和垂直方向的梯度(Gradient)進而取得角度，再依據角度將輪廓像素分類為8個不同角度的輪廓碎片，至此完成的輪廓碎片基本上已為一種由多個輪廓像素所組成的點陣影像，僅以”1”及”0”表示，”1”表示亮點”0”則表示這個位置的點沒有出現膚色輪廓(edge)。

前述膚色處理和邊緣偵測的完整步驟如「第5圖」所示，包括：

1.進行膚色處理，找出彩色數位影像中的膚色部份；

2.將找出的膚色部份轉成灰階影像；

3.進行邊緣偵測找出膚色部份的膚色輪廓；

4.將膚色輪廓依角度分類為多個不同角度的輪廓碎片70a。

在進行模板比對時，本發明的較佳實施例是採用距離轉換(distance transform,DT)技術來比對手勢模板21和輪廓碎片70a的近似程度，用以在不同角度的手勢模板21中找出和輪廓碎片70a最近似的手勢模板21；前述的平行運算單元401在收到來自處理器30的輪廓碎片70a之後，會依據其中輪廓像素的位置座標進行DT運算產生一DT影像，DT影像為一灰階影像(見「第6圖」)，DT影像中每一個像素的強度並非表示亮度值，而是表示DT影像中的每一個像素與輪廓像素之間的距離，依據本發明的方法，在DT影像中以”0”表示輪廓碎片70a中的輪廓像素的所在位置，DT影像中其餘各點的數值則是表示與輪廓像素的距離，距離輪廓像素最近的點以”1”表示，次近者以”2”表示，以此類推，如「第7圖」左側所示為原本輪廓碎片70a中各點的值，其中”1”表示輪廓像素所在的位置，沒有輪廓像素的位置以”0”表示，「第7圖」右側則是DT運算之後的結果，其中的值”0”表示原本輪廓碎片70a中的輪廓像素的所在位置，其餘的數值表示DT影像中的每一個點與輪廓像素的距離。

在進行模板比對時，每一個平行運算單元401負責一個角度範圍之輪廓碎片70a和手勢模板21的比對，例如第一個平行運算單元401負責[1°~45°]範圍內的輪廓碎片70a和手勢模板21的比對，第二個平行運算單元401負責[46°~90°]範圍內的輪廓碎片70a和手勢模板21的比對，以此類推；比對的方法是先對輪廓碎片70a進行DT運算產生一DT影像，再利用手勢模板21從DT影像中的左上角開始搜尋至DT影像的右下角為止，搜尋的方法是在每一個搜尋位置將手勢模板21和DT影像作摺積(Convolution)運算，就可以得到一個代表手勢模板21與DT影像近似程度的近似值，再以此方法將每一個手勢模板21和DT影像比對，找出近似值最小的手勢模板21，再將最小的近似值及相應的手勢模板21發送給前述的最佳模板選取手段50。由於這個比對工作非常耗時與繁重，本發明可利用多個多核心處理器所組成的平行運算架構來進行模板的比對，將不同角度範圍的手勢模板庫201分配給不同的多核心處理器，因此可以提高模板比對的速度，而且具有即時辨識手勢的功效。

本發明所提出的較佳實施例中還包括一個提高模板比對速度的方法，手勢模板21在DT影像中的移動過程並不是每次都移動一個網格點，本發明先將手勢模板21在DT影像中的數個預設的等分位置進行搜尋，先找出一個最可能有手部會出現的範圍，再對此範圍作精細的模板比對，進而提昇模板比對的速度；如「第8圖」所示的一個較佳實施例中，手勢模板21的尺寸為96*96(pixels)，輪廓碎片70a的尺寸為800*600(pixels)，本發明將每次搜尋的網格G的尺寸設為16*16(pixels)，並在輪廓碎片70a的等分位置總共設置16個網格G(見「第9圖」)，為了提高模板比對的速度，本發明的先在輪廓碎片70a中的16個網格的位置找出最可能有手部出現的範圍，而較佳的實施例之一則是以每個網格G中膚色像素的出現數目作為判斷是否最可能有手部出現的條件，若是膚色像素出現的數目大於一門檻值(例如50個像素)，再對這個網格G的所在位置附近進行精細的模板比對。

而另一個提高模板比對速度的方法是將手勢模板21以一個預設的偏移量在DT影像中移動以進行模板比對，例如將手勢模板21每次偏移的像素數目設為5個像素，如「第10圖」所示，手勢模板21的原點在DT影像中進行比對的位置(假設為P0)和下一個進行比對的位置(假設為P1)之間相差了5個像素，所以可以減少手勢模板21在DT影像中的比對次數，以提高比對的速度，當然這個偏移量不能大於手勢模板21的尺寸，以免產生遺漏比對的問題，進而影像比對的準確率。

如「第3圖」所示，以cell blade這種內含特殊的多核心處理器cell processor的伺服器為例，其中包含了一個處理核心(Power Processor Element,PPE)、16個協同處理器(Synergistic Processor Elements,SPE)，進行模板比對時處理核心PPE會先啟動，並且將已分配到的某一角度範圍的手勢模板庫201再重新分配給所需的協同處理器SPE，然後處理核心PPE會將收到的輪廓碎片70a分配給協同處理器SPE進行DT運算產生DT影像，並且由協同處理器SPE進行模板比對，在每一個協同處理器SPE都完成比對之後，會將比對結果傳回處理核心PPE，再由處理核心PPE整合每個協同處理器SPE傳回的比對結果再從中找出最佳結果(即摺積運算的最小值)的手勢模板21及其相關的資訊，而這個手勢模板21就是在這個角度範圍中和輪廓碎片70a最近似的手勢模板21。

當每一個多核心處理器都將比對結果所找出的最近似的手勢模板21及其相關資訊發送至最佳模板選取手段50，這個最佳模板選取手段50就會再從多個最近似的手勢模板21中找出一個最佳的手勢模板21，同理這個最佳的手勢模板21就是多個最近似的手勢模板21中摺積運算值最小者。

本發明的較佳實施例提供一種無標記(marker less)以及能夠即時辨識手勢的手勢辨識系統。

本發明所揭露的手勢辨識方法中，還包括了提高模板比對速度的手段，先在輪廓碎片中數個預設的等分位置尋找最可能存在手部的範圍，再對此範圍作精細的模板比對，就可以達到提高模板比對速度的功效。

依據本發明所揭露的技術方案可以獲致的功效包括：攝影裝置取得的彩色數位影像，先由影像處理器的影像處理程序進行膚色處理，可以去除非手部的影像並降低背景的干擾，也不需要利用動態偵測來尋找可能的手部影像。

本發明實施例的手勢辨識方法中，會先將手勢資料庫中的手勢模板依角度進行分類，也對彩色數位影像中的膚色輪廓依角度分類為多個不同角度的輪廓碎片，再將輪廓碎片交由多個平行運算單元分別負責不同角度範圍的模板比對，可以提高模板比對的速度，而具有即時辨識手勢的功效。

本發明實施例不需要假設運動物為手，並且不論手部在影像中是運動或靜止的狀態，均可以在即時的情況下正確的解析出手勢。

雖然本發明的技術特徵及較佳實施例已揭露如上，然其並非用以限定本發明，任何熟習相像技藝者，在不脫離本發明之精神和範圍內，當可作些許之更動與潤飾，因此本發明之專利保護範圍須視本說明書所附之申請專利範圍所界定者為準。

10．．．攝影裝置

20．．．手勢資料庫(template database)

201．．．不同角度類別的手勢模板庫

21．．．手勢模板

30．．．處理器

40．．．運算引擎

401．．．平行運算單元

50．．．最佳模板選取手段

60．．．顯示終端

70a．．．輪廓碎片

G．．．網格

PPE．．．處理核心(Power Processor Element)

SPE．．．協同處理器(Synergistic Processor Elements)

第1圖顯示本發明之手勢辨識系統的一種較佳實施例。

第2圖顯示本發明之手勢辨識方法的一種較佳實施例步驟。

第3圖顯示本發明之手勢辨識系統的另一種較佳實施例。

第4圖顯示本發明之影像處理程序中產生輪廓碎片的圖形範例。

第5圖顯示本發明之影像處理程序中產生輪廓碎片的一種較佳實施例步驟。

第6圖顯示了輪廓碎片經過DT運算之後生成DT影像的圖形範例。

第7圖顯示了輪廓碎片和經過DT運算之後生成DT影像的數值。

第8圖顯示了利用手勢模板在DT影像中進行模板比對的較佳實施例之一。

第9圖顯示了在DT影像中進行快速模板比對的一種較佳實施例。

第10圖顯示了在DT影像中進行快速模板比對的另一種較佳實施例。