TWI525475B - 使用膚色檢測的視訊串流的姿勢預處理 - Google Patents

使用膚色檢測的視訊串流的姿勢預處理 Download PDF

Info

Publication number
TWI525475B
TWI525475B TW103106061A TW103106061A TWI525475B TW I525475 B TWI525475 B TW I525475B TW 103106061 A TW103106061 A TW 103106061A TW 103106061 A TW103106061 A TW 103106061A TW I525475 B TWI525475 B TW I525475B
Authority
TW
Taiwan
Prior art keywords
processing
level
pixels
area
critical event
Prior art date
Application number
TW103106061A
Other languages
English (en)
Other versions
TW201506684A (zh
Inventor
傑瑞米 布爾
Original Assignee
英特爾股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 英特爾股份有限公司 filed Critical 英特爾股份有限公司
Publication of TW201506684A publication Critical patent/TW201506684A/zh
Application granted granted Critical
Publication of TWI525475B publication Critical patent/TWI525475B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/016Input arrangements with force or tactile feedback as computer generated output to the user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Description

使用膚色檢測的視訊串流的姿勢預處理
本發明關於使用膚色檢測的視訊串流的姿勢預處理。
對於終端使用者而言,電腦主要的用途是將終端使用者連接到網際網路,且是通過瀏覽介面發生。常見的用途與活動例如包括以搜尋引擎為基礎的瀏覽、電子郵件、網路社交、信息消費(例如,新文章及視訊收視)、信息分享(例如,照片、音樂等)、線上購物與採購、及地圖與方向、等等。這些常見的網際網路使用通常必須有以使用者為基礎之某些形式的導覽,諸如,典型上是以滑鼠、觸控板與關鍵字來完成。
在增進使用者導覽經驗方面的努力,已出現以姿勢為基礎的導覽技術。特別是,藉由所謂的網路攝像機來記錄使用者手之移動,並轉譯成指示器的移動。典型上,以姿勢為基礎的導覽應用程式與網路攝像機結合操作,可以模擬以正規滑鼠或觸控板通常所實施的動作:點擊、雙點擊、拖曳、捲動。使用者也可使用頭部的移動來控制電腦 或以其它方式影響導覽。現有兩種基本方法使用攝像機來實施人體姿勢:使用具有所謂標記(標記部署在視野內,與攝像機感測器互動)之物件的姿勢,及無標記姿勢(諸如無標記的手勢)。無標記姿勢技術可使用三維或3D攝像機(具有Z深度)來實施,其典型的觀察距離大約3至5公尺的範圍,或二維或2D攝像機(從2D資訊來解譯3D移動),其典型的觀察距離大約0.5公尺的範圍。
在諸如桌上型電腦或工作站、膝上型或平板電腦、遊戲機等計算環境中,圖形處理通常需要有若干複雜的操作。例如,這些操作包括關於確保影像被正確且及時渲染的那些操作,以及關於姿勢辨識的那些操作。在這些操作的背景下會有若干並非不重要的議題。
1300‧‧‧信息服務裝置
1302‧‧‧平台
1305‧‧‧晶片組
1310‧‧‧處理器
1312‧‧‧記憶體
1314‧‧‧儲存器
1315‧‧‧圖形子系統
1316‧‧‧應用軟體
1318‧‧‧無線電
1320‧‧‧顯示器
1322‧‧‧使用者介面
1330‧‧‧信息服務裝置
1340‧‧‧信息遞送裝置
1350‧‧‧導覽控制器
1360‧‧‧網路
1400‧‧‧裝置
1402‧‧‧外殼
1404‧‧‧顯示器
1406‧‧‧輸入/輸出裝置
1412‧‧‧導覽特徵
圖1a以圖式說明按照本文所揭示之技術的實施例,以步進分散的處理來實行視訊串流的姿勢預處理以降低平台的功率消耗。
圖1b說明按照實施例之圖1a以步進分散的處理的流程圖。
圖2a說明按照本文所揭示之技術之實施例,被組構成實行視訊串流的步進分散的姿勢預處理以降低平台功率消耗之系統的方塊圖。
圖2b說明按照實施例,來自圖2a所示系統之不同級的控制與資料流。
圖2c顯示按照本文所揭示之技術的實施例,典型的CPU用於某特定計算系統設置的每一項處理,且因此驗證藉由使用視訊串流處理之步進分散的姿勢預處理所能得到之潛在的增進。
圖2d顯示按照本文所揭示之技術的實施例,用於膚色臨界檢測以降低平台功率的例示方法。
圖2e顯示按照本文所揭示之技術的另一實施例,用於膚色臨界檢測以降低平台功率的例示方法。
圖3a說明按照本文所揭示之技術的實施例,被組構成實行視訊串流之步進分散的姿勢預處理以降低平台功率消耗之計算系統的例示使用情況。
圖3b-e每一圖說明按照本文所揭示之技術的實施例,攝像機與GP-電路的例示配置。
圖4說明按照本文所揭示之技術的實施例之計算系統的方塊圖,被組構成實行視訊串流之步進分散的姿勢預處理以降低平台功率消耗。
圖5說明按照本文所揭示之技術的另一實施例之計算系統的方塊圖,被組構成實行視訊串流之步進分散的姿勢預處理以降低平台功率消耗。
圖6說明按照本文所揭示之技術的另一實施例之計算系統的方塊圖,被組構成實行視訊串流之步進分散的姿勢預處理以降低平台功率消耗。
圖7說明按照本文所揭示之技術的實施例,平台功率消耗能降低多少的實例。
圖8說明按照本文所揭示之技術的實施例之應用程式介面(API)的方塊圖,被組構成實行視訊串流之步進分散的姿勢預處理以降低平台功率消耗。
圖9a-b每一圖說明按照本文所揭示之技術的實施例,可用來控制電腦系統之手勢視訊處理系統之視野內的例示標記區。
圖9c說明按照本文所揭示之技術的實施例,標記目標出現之臨界的方法。
圖10a-f說明按照本文所揭示之技術的實施例,可用來控制電腦系統之手勢的例子。
圖11a-f說明按照本文所揭示之技術的實施例,手勢視訊處理系統如何分析在視野中特定之手勢在六軸動作中的移動。
圖12說明按照本文所揭示之技術的實施例,分析手勢視訊之方法。
圖13說明按照本文所揭示之技術的實施例所組構的媒體系統。
圖14說明按照本文所揭示之技術的實施例所組構的行動計算系統。
【發明內容及實施方式】
所揭示的技術係藉由使用步進與分散的管線處理來處理視訊串流以降低平台功率,其中,CPU密集的處理是被選擇性地實施。按照某些實施例,該等技術特別適用於視 訊串流之以手為基礎之有效率的導覽姿勢處理。處理之步進與分散的性質,允許減少在影像處理前之從特定攝像機將影像資料轉移到記憶體所需的電力。在一例示的情況中,例如,該技術係在使用者的電腦系統中實施,其中,初始的臨界檢測(影像擾動)與選用的使用者出現(手影像)處理組件係在系統的攝像機內或附近,且攝像機係位於系統的主顯示器內或附近。在某些實施例中,為進一步有助於降低功率消耗,位於標記區外側的影像處理與至少某些不同處理級之間像素資訊的傳遞被排除,或以其它方式加以抑制。標記區可以是給定之視野的子集,且在某些例示情況中,標記區與滑鼠墊、指定的桌面區域、或諸如鍵盤之使用者輸入裝置對齊,其中,該標記區係由滑鼠墊、桌面、或輸入裝置的周界來定界。為進一步節省處理電力,系統可評估限於標記區之子集內的一些像素。在另些例示的情況中,標記區是給定之視野之使用者可組構的子集。可使用簡化的膚色檢測處理。例如,電腦系統可以是具有顯示器及攝像機的行動或靜態計算系統,該兩者可在系統的內部及/或外部。
概述
如先前之解釋,在圖形處理的背景中會有若干並非不重要的議題,特別是關於姿勢辨識。例如,為姿勢辨識所實施的典型2D與3D視訊影像處理的工作負載會消耗較大量的輸入/輸出(I/O)電力,且中央處理單元(CPU) 之利用率與平台熱設計功率(有時稱為TDP)預算都到達最大。這類問題在攝像機一直開啟並提供影像進行處理的應用軟體中會惡化,且因此即使當在視覺影像中沒有相關事件發生時,電力仍被消耗。例如,捕捉影像資訊並將其送入CPU進行處理,即使是簡單的姿勢或其它計算的簡單工作,很容易就消耗掉超過10瓦。典型上,大部分的影像處理工作負荷涉及更複雜的計算工作,且是在或接近於可獲得之最大的視訊處理能力下操作,且先天地受CPU利用率及功率預算的限制。就此而論,影像處理應用程式會消耗掉所有可用的CPU周期,沒有留下或留下不夠的CPU處理能力給其它的應用程式。攝像機電力本身,在視訊捕捉電力(在影像處理之前,將影像資料從攝像機轉移到記憶體所需之電力,其包括平台控制器集線器、CPU、及記憶體電力)中只佔較小的部分。影像處理演算法被這些因素有效地自限,且如果它能獲得,其會消耗更多電力。例如,典型上,演算法將圖框率自限於15圖框/秒(FPS),當FPS較高時,會有更佳的辨識。因此,即使當沒有有興趣的影像要被分析時,視訊影像處理仍有可能消耗最大的平台功率。
因此,按照本文所揭示之技術的實施例,揭示用於處理視訊串流以降低平台功率的技術。雖然該等技術可用來處理任何類型的視訊內容,但按照某些實施例,它們特別適合用於高效率以手為基礎之視訊串流的導覽姿勢處理。本文也提供例示的手勢。該等技術可用步進與分散的方式 實施,以致於在影像處理之前,將影像資料從特定攝像機轉移到記憶體所需的電力大幅降低。在一例示情況中,例如,該等技術係在使用者的電腦系統中實施,其中,預處理組件在系統之攝像機內或附近,且攝像機係位於系統的主顯示器內或附近。電腦系統可以是例如膝上型或連網型小筆電(其中,顯示器為翻蓋式顯示器)、或桌上型或工作站電腦或遊戲機(其中,顯示器為外部顯示器)、或平板電腦或智慧型手機(其中,顯示器係使用者介面的主要部分,且是計算系統的外殼)。例如,顯示器可以是LCD或CRT、或觸控螢幕顯示器,且可與計算裝置整合(例如,平板電腦、膝上型電腦、或行動電話),或在計算裝置之外部(例如,桌機、膝上型或平板電腦)。雖然任何適合的攝像機技術都可使用,但攝像機例如是單台的2D攝像機或網路攝像機,包括3D攝像機或所謂的立體攝像機組,且可與計算裝置及/或顯示器整合,或在外部。
按照一例示實施例,預處理組件包括臨界檢測級、目標出現級、分割級、手剖析級、姿勢辨識級。臨界檢測級通常被組構成用來決定視訊圖框是否為有效的空圖框。如果該圖框不是空圖框,或從最後一個圖框開始以有義意的方式改變,則處理轉移到目標出現級,其被組構成尋找目標的像素顏色,特別是顏色與膚色之特性相匹配的像素。如果發現的帶膚色像素足以暗示可能有1手指出現,則處理轉移到分割級,其被組構成將有興趣的像素與無興趣之像素分開,且因此操作如同自適應膚色檢測級(膚色/非 膚色邊緣檢測)。在一例示架構中,此級將彩色視訊圖框轉換成被編碼成單色或灰階影像的斑點影像。斑點被用來代表帶膚色之像素的區域。按照某些例示實施例,此級也可被組構成校正攝像機雜訊與照明差異,並使用侵蝕與膨脹漸變法來使斑點平滑。
手剖析級被組構成對分割級所產生的斑點資料實施空間解譯,並試圖將斑點資料映射到人的解剖幾何。按照實施例,相關性選擇主要視使用情況而定,並假設攝像機具有大約實行導覽姿勢之人的視角。視情境而定,有時僅需要邊緣資料,有時需要填滿的斑點資料,及有時需要有關節之手的模型。如所理解,特定的解剖剖析很難概括而論,且因此很難置入固定功能的解決方案,得視被成像之本體部分的複雜度而定。不過,在本使用情況,例如,在手剖析級藉由分析手斑點的邊緣可檢測到手指。例如,手剖析級可被組構成比較該等邊緣的斜率以辨識頂點的位置(指尖)。按照某些例示的實施例,姆指與食指可從手斑點內被定位,且可使用這些做為姿勢辨識工作的標的。按照例示實施例,可被手剖析級檢測的一例示性特定手勢是以卵形為基礎的姿勢,諸如當使用者之手的姆指與食指相碰接觸在一起時,或類似姿勢但指尖打開,以使姆指與食指不接觸。姿勢辨識級被組構成實施手剖析級所產生之解剖/手資料的時間解譯。例如,如果姿勢辨識級被用於檢測與滑鼠等同的操作,其尋找使用者之指尖及/或手的位置改變。在此例示的一情況中,以卵形為基礎的手勢用來 模擬滑鼠的移動以及點擊-與-釋放動作(單點擊、雙點擊等)。此等姿勢可在標記區內被分析。
須注意,並非此五項預處理級都必須在計算系統之攝像機內部或附近。也不必全部都在計算系統之顯示器內或附近來達成節省電力。根據本揭示將可理解,例如,如果僅臨界檢測級與目標出現級在顯示器附近的攝像機感測器中實施,而其餘各級在CPU中實施(例如,如姿勢API的一部分,將會依次討論),此實施例仍可節省相當多的電力。此外,使用不同的模型可顯示出不同的實施策略。 例如,有兩種操作模式適合需要:2D模式用於網際網路導覽(較漫不經心的使用,其涉及複雜度相對較低的姿勢),及3D模式用於較精細的應用程式(例如,CAD操作、Photoshop,其涉及複雜度相對高的姿勢)。在此等實施例中,2D模式可全部在攝像機感測器中實施(如提高攝像機的成本),而3D模式可在攝像機感測器中實施頭兩到三個級,接著,將原始影像資料傳遞給姿勢API,供計算系統的CPU實施姿勢處理步驟(或將原始影像資料傳遞給特殊的軟體應用程式)。在2D與3D模式中都可實現節電,特別是當攝像機的視野(FOV)中沒有出現有興趣的事時。
在某些實施例中,各步進與分散的預處理組件與電腦系統的邏輯連接,係以姿勢應用程式介面(在後文中為“姿勢API”)來實施。按照某些實施例,例如,姿勢API以延伸的通用串列匯流排人機介面(USB HID)類的裝置 出現。一般來說,姿勢API有效地揭露來自各不同預處理級的資訊(臨界檢測、目標出現、分割、手剖析、及姿勢辨識),以便此資訊可被計算系統其它有需要的部分使用。例如,在某些實施例中,API可進一步被編程或以其它方式被組構成包括安全/隱私政策,以便防止計算系統的CPU或其它資源被來自視訊串流之不安全的資訊存取。
根據本揭示將可理解,本文所提供的姿勢預處理視訊串流技術可用於任何應用軟體,包括改善以手勢為基礎之網際網路導覽以及以手勢為基礎的電腦導覽。可應用本技術之這類特定應用軟體係為在大約0.5公尺之距離使用2D攝像機的無標記手勢辨識。不過,如有需要,該等技術可應用到諸多其它的應用軟體,包括3D式的應用軟體。根據本揭示將可理解諸多的使用模型,諸如放置在桌上或使用者膝上或公園長椅上的筆記型電腦或連網小筆電,在家或辦公室具有一或多平台外接顯示器的桌上型電腦或筆記型電腦或連網小筆電,在家或辦公室之工作/小隔間環境中的桌上型電腦或筆記型電腦或連網小筆電,咖啡館桌上的筆記型電腦或連網小筆電,會議室桌上的筆記型電腦或連網小筆電,飛機托盤頂部上的筆記型電腦或連網小筆電,及網際網路咖啡屋(例如,具有一或多平台外接顯示器的桌上型電腦)等等。
根據本揭示將可進一步理解,在計算系統內用於視訊處理工作之功率消耗,理想上應與提取得自計算系統之攝 像機感測器之原始影像資料的位準相當。換言之,原始影像資料消耗最少的電力,消耗在篩選影像的電力遞增,而更多的電力用在檢測出現等。為達此目的,按照實施例,預處理組件有效地具體化步進或分級的操作程序,以漸進的方式在每一級遞增更多的電力消耗,以產生視訊串流之影像內較高階的相關資訊或意義。不過,須注意,某些實施例會有一些中間級所使用之電力比以後各級更多,且本揭示並無意限制電力消耗出現任何特定的進程。例如,在某些實施例中,分割級的計算強度高於其它四個級的總合。總的來說,預處理組件共同地與有效地分析原始(未經壓縮的)影像資料或視訊串流的子集,以決定視訊串流之影像內的意義或關聯。例如,預處理組件可在硬體(例如,暫存器轉移語言,諸如Verilog或VHDL、或其它閘級邏輯(gate-level logic)、或為特定目的而製造的半導體)、或軟體/韌體(例如,在微控制器中執行的微碼)中實施。
系統架構
圖1a以圖式說明按照本文所揭示之技術的實施例,以步進分散的處理來實行視訊串流之姿勢預處理以降低平台的功率消耗。如所見,資料提取分五個不同的階段,其可在分散效能基元(performance primitive)與計算系統的CPU之間做有效的劃分。這些階段包括原始資料、臨界(Thresholding)、出現、命令、與辨識。如進一步所 見,與資料提取之每一階段相關的處理,都可在攝像機內(或附近)、圖形處理單元(GPU)硬體加速內,或是在CPU上執行的應用軟體中實行。
例如,原始資料可以是經編碼的視訊串流或原始影像串流。原始資料通常指的是尚未被壓縮的影像資料,然而,經編碼的視訊串流典型上是已被壓縮過的。壓縮演算法典型上是用來使大量的資料適合通過窄頻寬的傳遞通道,且此處理典型上是在攝像機感測器矽晶片內完成。典型上,資料壓縮降低了影像的傳真度,且使得影像處理更加困難。在臨界階段,可進行臨界以檢測影像中的擾動,以便粗略地識別使用者活動的出現。例如,此粗略識別可檢測從沒有使用者出現之資料框的串流到有使用者出現之資料框的串流的轉變,如藉由使用者動作(視訊信息)及/或使用者語音(聲音信息)來指示。如在本例示實施例中所見,原始資料與臨界階段都可在攝像機內或以其它方式在其附近處理。
一旦在臨界階段完成此粗略識別,接著在出現階段識別信息中之特定使用者特徵的出現。例如,特定的使用者特徵可包括使用者的臉及/或手。如進一步參考圖1a所描繪的例示實施例可看出,視所涉及之影像分析的複雜度而定(例如,臉部分析可能比手分析更複雜),在某些情況中,此特定的處理階段可在攝像機內或以其它方式在其附近實行,在其它情況中或藉由GPU做加速處理。
一旦完成對於出現在信息串流中之特定使用者特徵的 精確識別,接著,在命令階段這些使用者特徵通常可評估為姿勢。例如,臉部及/或手之動作通常可評估為命令類的姿勢,如移動手或轉動頭。進一步參考圖1a所描繪之例示實施例可看出,此特定的處理階段可藉由GPU來實行,如加速處理。例如,在某些情況中,GPU可與CPU共置,或可經由匯流排結構操作性地耦接於CPU。在稍後的情況中,GPU可與CPU在相同的主機板上,或可在主機板之外部(例如,位在操作性地耦接於主機板的專用圖形處理卡上,或是經由通訊埠操作性地耦接於計算系統的外接圖形處理裝置上)。
一旦命令類的姿勢被識別,接著,在辨識階段將該姿勢評估為特定的命令。例如,該命令可以是用於導引使用者正在執行之線上購物處理的使用者導覽命令。例如,關於視訊信息,以臉為基礎的姿勢可接受臉部辨識,及/或分析以手為基礎的姿勢以識別符合美式手語(American Sign Language;ASL)的手勢,以便識別特定的命令。進一步參考圖1a所描繪之例示實施例可看出,此特定的處理階段可藉由在CPU上執行的應用軟體來實行。
圖1b說明按照實施例,圖1a之步進分散的處理的流程圖。如在此例示實施例中所見,在給定的電腦設置中,使用視訊攝像機來產生使用者之手動作的原始影像資料。在其它實施例中,要被處理的視訊信息可包括使用者的臉部動作。根據本揭示將可理解,無論信息的類型為何,本文所提供用於預處理媒體信息之步進與分散的技術,都可 按類似的方式等同地施加。
流程從感測器接收原始影像資料串流開始,該感測器可包括一或多部攝像機。如果使用一部以上的攝像機,則每一個視訊串流都可照著本文之討論相應地處理。在臨界階段,分析視訊串流以檢測視訊串流中的擾動。在一例示實施例中,如果現在的視訊圖框與前一視訊圖框的差異超過10%,則發送檢測信號。各實施例之臨界值不同(例如,5%或以上、或50%或以上等),且可按所想要的特定因素設定,諸如給定之計算系統設置所觀察的特定環境(使用情況),以及對該環境/系統之改變所要的敏感程度。如果沒有超過預先建立的粗略臨界值,則該處理持續接收與監視原始影像資料。不過,如果超過了粗略臨界,則該處理繼續在出現階段檢測影像中之使用者的手。如前文之解釋,在某些實施例中,在臨界與出現階段的預處理可在攝像機的電路中實行,或在被組構成部署在攝像機附近之相對短距離(例如,小於0.1公尺,諸如0.05公尺或更短,或經由匯流排結構或其它適合的通訊埠直接耦接到攝像機之外殼)處的專用電路中實行,如此可使IO電力相對於將來自攝像機之影像信息全部提供給在CPU上執行之應用軟體所使用的IO電力為低。如所理解,本揭示並無意將專用電路與特定攝像機感測器之間的距離限制在任何特定的範圍;而本文所提供之使用步進分散的預處理方案概念可在許多組構中實施。如果影像中不包括任何可辨識之物,如使用者的手,則該處理繼續接收與監視原始 影像資料。
不過,如果該影像包括如使用者之手的可辨識信息,則該處理繼續在或以其它方式朝向命令階段,將所成像的手映射到與已知手勢相關之有關節的手模型。在某些此例示實施例中,所成像的手與複數個這樣的模型比較,並為每一個模型決定相似度的得分。該處理繼續在命令階段決定該影像是否包括做出已知姿勢的手。例如,在某些情況中,得到最高相似度得分的模型被識別為匹配。在其它情況中,將所遇到之第一個相似度得分超過預建立之臨界的模型識別為匹配(如此以致於不需要測試所有的模型)。如前文之解釋,在某些實施例中,此命令階段的預處理可按GPU加速處理來實行。在命令階段如果決定影像不包括做出已知姿勢的手,則該處理返回出現階段,以便繼續分析視訊串流關於使用者之手是否在影像中。根據本揭示將可理解,命令階段可通知出現階段它的判定(例如,沒有斑點資料),以便出現階段的處理以受指導的方式繼續進行。
不過,如果在命令階段決定該影像包括做出已知姿勢的手,則該處理接著將姿勢資料傳遞給應用軟體供在辨識階段處理。如前文的解釋,此處理階段傾向CPU密集。須進一步指出,在此例示的情況中,姿勢資料經由USBHID API(姿勢API)被傳遞往上堆疊。此API將參考圖8依次討論。如進一步之理解,須指出,命令階段的決定足以確切地識別已知的手勢,且在以CPU為基礎的辨識 階段不需要實施後續的處理,藉以進一步節省以CPU為基礎的功率消耗。
因此,藉由在攝像機內或以其它方式在其附近進行至少某些程度之視訊串流的姿勢預處理,可實質地降低功率消耗,此在行動計算裝置(例如,膝上型電腦、連網小筆電、平板電腦、或智慧型手機等)中特別有助益。這是因為通常大部分的視訊處理涉及複雜度較低的處理,其可在被組構成及位於分散的電路中實行,以減少IO活動及CPU工作負載,而涉及處理複雜度較高之所剩部分的處理,則當成原始資料送往GPU進行加速處理及/或送往CPU內的驅動程式(應用軟體)供處理。就此意義上來說,本文所提供的技術藉由使用專用的分散式效能基元或硬體功能在攝像機與GPU中(或附近)運行,而減少了在通用CPU核心中執行以軟體為基礎之演算法的需要。
圖2a說明按照本文所揭示之技術的實施例,被組構成實行視訊串流之步進分散的姿勢預處理以降低平台功率消耗之系統的方塊圖。如所見,系統係姿勢處理管線,其係以若干分散的組件(在本例示情況中為五個)組構而成。在本例示實施例中,有兩個組件-臨界檢測級與目標出現級係以姿勢預處理(GP)電路來實施,其位在攝像機內或以其它方式在其附近。根據本揭示將可理解,如果GP電路實際直接整合在攝像機電路內,或以其它方式足夠靠近攝像機,只要GP電路足夠接近攝像機感測器或以其它方式比靠近CPU更靠近攝像機以便減少IO功率與 CPU的處理時間,即可視為與攝像機“共置”。另一組件是由GPU加速的分割級。另兩個組件是在計算系統之CPU內執行的手剖析級與姿勢辨識級。在本例示實施例中,此兩級可用於以卵形為基礎的姿勢處理,如依次關於圖9a至12的討論。根據本揭示將可理解此步進與分散架構的衍生型式,其中,任何此種步進與分散的架構允許關於動作與閒置電力情境的最佳化。特別是,與攝像機及GPU共置的視訊處理組件使更多的固定功能有效,藉以比傳統CPU解決相同計算問題所需的電力少。
如本文所使用的“GP電路”係積體電路,其被組構成實行圖2a所示之五個級中的一或多個級,如前文之解釋,GP電路是在提供要被分析之視訊串流的攝像機內實施,或實施為被組構成藉由較短之連接與該攝像機直接耦接的專用電路(例如,與將所有之視訊從攝像機傳遞到以CPU為基礎之驅動器的傳統技術相較,可降低IO電力與CPU周期)。共置的GP電路和攝像機兩者都可整合到顯示器內,或在顯示器外部,或某些適當的組合。例如,在某些特定的例示實施例中,GP電路可實施於行動計算裝置之以鉸鏈結合的掀蓋式顯示器(例如,膝上型電腦、連網小筆電等)內,且貼近也是內嵌在蓋內的攝像機電路。在其它這類例示的蓋式顯示器情況中,GP電路可直接在內嵌式攝像機本身內實施。在其它例示的情況中,GP電路可直接在外部的攝像機內實施,例如,可組構成夾於或以其它方式操作性地耦接於計算系統(例如,桌上型電 腦、膝上型電腦等)之蓋式顯示器或外部顯示器。在仍是另些例示的實施例中,GP電路可實施成獨立的包裝,且被組構成與這類外部攝像機操作性地耦接。在仍是另些例示的實施例中,內嵌於外部顯示器的外殼內,且貼近也是內嵌在該顯示器內的攝像機電路。在其它這類例示的外部顯示器情況中,GP電路可直接實施在內嵌式攝像機本身的內部。根據本揭示將可理解,GP電路與攝像機電路整合或貼近之程度愈高,攝像機與GP電路影像處理子系統之間的IO電力降的愈多。
臨界檢測級是管線中的第一級,且被組構成粗略地決定視訊圖框是否為有效的空圖框。如果現有的視訊圖框與前一圖框足夠相似,則可將該圖框考慮為空圖框。按照此實施例,例如,此可使用低功率的矽晶片為每一個圖框實施加總並比較亮度通道的簡單演算法來達成。如果視訊使用RGB彩色空間,則綠色分量的位置被取代,因為YUV像素之大部分的亮度分量係包含在RGB像素的綠色分量中。如果現有與先前之間的差量超過給定的臨界,此將觸發往下一級的移動。否則,空的圖框不會被送往下一級,當使用者沒有實施姿勢時,此有助於管理電力。在某些實施例中,臨界檢測級僅檢驗標記區內的像素,其為成像系統之整體視野(FOV)的子集,且此標記區外部的像素被關閉或以其它方式忽略。例如,標記區可藉由使用者之鍵盤、滑鼠墊、或視野內可供使用者提供手勢之合理位置的某些其它可檢測區域的周邊來界定。在某些這樣的實施例 中,使用者區域可由使用者來組構(例如,藉由以特定系統的視野界定一特定區域,並將攝像機電路校正/組構成在特定的處理階段期間,藉由關閉該區域外部的像素而僅成像該被定界的區段)。在又另些實施例中,臨界檢測級僅分析臨界事件區(其為標記區之子集)內的像素。根據本揭示將可理解,臨界檢測級僅分析較小的檢測區域,特別是以鍵盤為基礎的標記區,或是在有意做出姿勢的周期期間被使用者之手直覺侵入的其它這類區域,允許節省處理電力且又是使用者出現的可靠預測者。如進一步理解,使用臨界事件區橫過使用者之以鍵盤為基礎的標記區,可用來進一步降低處理電力,且可進一步消除偽陽性的臨界事件(例如,使用者可能侵入以鍵盤為基礎之標記區的手掌靠放區,但無意做出姿勢之時,除非是在想做出姿勢的時段,否則該使用者較不太可能會侵入橫跨A-GH-L鍵的臨界事件區,或是以鍵盤為基礎的標記區)。
按照實施例,目標出現級被組構成實施複雜度較低的方法以尋找被標定的像素顏色。在某些情況中,此級尋找顏色與膚色特性相匹配的像素。例如,膚色之匹配可在被組構成將RGB(或YUV)資料串流轉換成HSV像素的矽晶片中實行。人的膚色在色相中佔據相對有限的範圍,因此,允許快速、低電力之固定功能的轉換與比較。須注意,目標出現級不需要任何的資料儲存或前一個圖框的資訊。如果在掃描線中找到足夠之帶膚色的像素,則暗示可能出現手指,接著,將處理轉移到下一級。否則,沒有目 標出現的圖框或帶膚色之像素的數量不夠的圖框則不送往下一級,此有助於當使用者不做出姿勢時管理電力。正如前文關於臨界檢測級的解釋,臨界檢測級可被組構成僅分析指定之標記區(例如,以鍵盤為基礎的標記區)或該標記區之臨界事件區(例如,A-GH-L鍵或以鍵盤為基礎的標記區)內的像素,且該討論亦一體適用於此處。在其它實施例中,可使用簡化的膚色檢測處理,如依次的討論。
按照實施例,分割級被組構成接收來自目標出現級之出現目標的圖框,並將有興趣與無興趣的像素分離。在一例示情況中,此級實施自適應膚色偵測演算法,其將彩色視訊圖框轉換成被編碼成單色或灰階影像的斑點影像。例如,在灰階影像的情況中,可使用非零的像素來代表斑點的像素,及黑色像素指示非斑點的像素。基本上,斑點用來代表帶膚色之像素的區域。自適應膚色偵測根據圖框資料來調適皮膚色相低於與高於界限。使用侵蝕與膨脹漸變法除了使物件平滑,也消除了由於攝像機雜訊及照明所產生的色散像素。如所知,漸變法是根據形狀來處理數位影像的數學方法。膨脹漸變法通常意指操作是擴張或填滿目標物件。侵蝕漸變法的方法類似,差別是在影像的背景上而非物件上操作。根據本揭示將可理解,有很多GPU具有可用來槓桿分割級之最佳化實施的指令。
按照實施例,手剖析級被組構成實施斑點資料的空間解譯。在一特定的例示情況中,該級嘗試將斑點資料映射 到人的解剖幾何,諸如人手模型或人體模型,視所要評估的目標姿勢而定。根據本揭示將可理解,手剖析級試圖對照人體部位/姿勢來校正斑點資料的方法,基本上視使用情況而定,且假設攝像機具有大約人之視角。解譯斑點的方法也可不同。在某些例示情況中,僅使用邊緣即足以決定人的幾何。在其它情境中,填滿斑點更為適恰當。在某些情況中,來自分割級的斑點資料可能需要額外的處理以去除斑點上之可見的假影,其有害於對斑點之正確的剖析,而手剖析級可被組構成去除這些假影。在攝像機被組構成觀看使用者之手的情況中,藉由分析手斑點的邊緣可偵測到手指。比較位於邊緣上之不同取樣點的斜率可暗示尖端(例如,指尖)的位置。進一步分析那些尖端狀斑點(依據各不同像素之間的距離與斜率)可顯露出指尖附接於指幹。如有必要,此級可嘗試解剖整隻人手,包括所有5個指尖的位置。在某些情況中,其足以偵測單隻手指。就此義意上來說,使用模型來決定需要分析的量。如前文所指出,特定的解剖剖析(例如,手剖析)很難概括而論,且因此很難置入固定功能的矽晶片。因此,在某些實施例中,手剖析級係由CPU執行。按照例示實施例,可被手剖析級檢測到的一特定例示手勢係以卵形為基礎的姿勢,諸如,當使用者之手的姆指與食指靠攏(形如OK之符號,但食指後方的另三指更向內折),或類似的姿勢但在指端分開,使得姆指與食指不接觸。圖10a-f與11a-f顯示此種封閉與部分封閉之以卵形為基礎的姿勢例,且將 依次討論。
按照實施例,姿勢辨識級被組構成實施解剖/手資料(接收自手剖析級的斑點資料)的時間解譯。例如,如果該級被用來分析滑鼠或觸控板之操作,其可尋找一或多隻指尖之位置的改變。在一這樣的例示情況中,以卵形為基礎的手勢可用來模擬滑鼠之移動及點擊-與-釋放動作(單點擊、雙點擊等),將參考圖10a-f與11a-f依次討論。此等姿勢可在標記區內分析,諸如圖9a或9b所示。在某些情況中,原始攝像機影像之動作模糊會造成手剖析級肢接人之解剖的困難。在此情況,姿勢辨識級可利用關於使用情況的假設來提高姿勢解譯的可靠度。例如,如果手剖析級在一圖框中成功地檢測到完整的手指,但在下一個圖框中僅能決定指尖的位置(例如,無法確認該指尖附接於“正確”的手指),則姿勢辨識級可假設在次一個圖框中其為相同的手指。
一般來說,分割級、手剖析級、及姿勢辨識級可被組構成發送反饋給臨界檢測級或目標出現級。例如,如在圖2a之例示實施例中所見,如果手剖析級確實找到可能為手的大量斑點,其可發信號給臨界檢測級將前一圖框的亮度/綠色計數器歸零,藉以強迫次一圖框指示其為非空白圖框。在一特定的例示實施例中,例如,此類型的發信號可經由GP電路之臨界檢測級之矽晶片上的單接腳/接線來實施,其可由驅動器來控制。按照另一實施例,或者,此也可透過USB來完成。此有助於防止不移動的手導致臨 界檢測級將該手考慮成靜態背景之一部分的情境。另一例示的反饋環路情境是當檢測到夠大的斑點時,強迫系統將資料從攝像機直接發送給分割級,而不發送給臨界檢測級與目標出現級(如圖2a中所描繪且標示為目標出現一資料流)。此類型的行為可藉由移除與臨界不必然相關的處理而改善電力消耗。不過,須注意,雖然此等反饋機制可提供更進一步的最佳化程度,但並非在所有實施例中都為必然如此。例如,如果實施這些技術的成本過高,則退而求其次的替代方案是目標出現級每1或2秒檢查目標是否持續出現。在此情況,為此付出的代價是損失一個圖框之有價值的姿勢命令資料。
圖2b描述按照實施例來自圖2a之系統之不同級的控制與資料。按照一例示實施例所提出的劃分,GP電路係以臨界檢測級與目標出現級組構而成,且可被進一步組構成控制一資料多工器,並決定是否發送資料上行串流(供分割)以喚醒或不喚醒系統。按照某些這樣的實施例,以此種應需發送資料(send-data-on-demand)之方法,可達到大幅節省平台電力之目的,且計算系統僅在其需要被喚醒之才被喚醒。
如所見,來自開始圖框的原始資料被提供給臨界狀態,其被組構成比較特定圖框與前一圖框,以檢測有興趣之區域中的改變。如果未達改變臨界,則圖框率可降低,且處理繼續監視圖框的原始資料。如果達到臨界,按照某些實施例,原始資料被向前傳遞到目標出現狀態,其被組 構成尋找出現於有興趣之色相範圍內的目標。例如,色相範圍可使用藉由各不同樣本所收集來的經驗資料。在其它實施例中,決定色相範圍是初始設置或校正程序的一部分,其測量特定使用者的膚色。根據本揭示將可理解其它諸多例示的膚色檢測處理(例如,圖2d與2e)。無論如何,如果沒有發現適當的目標,可提供回到臨界狀態的控制。在某些實施例中,臨界狀態與目標出現狀態可有效地結合成一個狀態。另一方面,如果在指定的圖框率之下發現適當的目標(例如,原設的圖框率或在此控制環路中精細的圖框率),則控制被傳遞到分割處理狀態,在此狀態實行如前文所解釋的自適應膚色檢測。亦須注意,在某些實施例中,如前文之解釋,在某些情況,諸如在當檢測到的斑點夠大時,系統可將原始資料從攝像機直接發送到分割處理狀態,而不將其送到臨界與目標出現狀態,如圖2b中之描繪,且標示為“處理狀態期間的資料/控制流”。
在任何這樣的情況中,分割處理狀態被組構成實行自適應膚色檢測以將影像分割。在某些實施例中,使用漸變法可消除雜訊且使影像變平滑。自適應的皮膚影像資訊被提供給手剖析狀態,其被組構成將斑點資料映射到人解剖幾何,在本例示的情況中,諸如人手模型。如果手剖析狀態無法確認給定的斑點與手相關,則控制被傳遞回到目標出現狀態(未檢測到斑點)。不過,如果手剖析狀態確認給定的斑點與手相關,則控制被傳遞到姿勢辨識狀態(發現斑點)。接著,姿勢辨識狀態為特定的命令分析手資 料,諸如使用者所提供的導覽命令。當此分析終結時,該圖框的處理流程結束,且在計算系統上執行的特定應用軟體可接著被相應地控制。
圖2c顯示典型的CPU用於可在GP電路中實施之五項處理之每一項,給定的特定設置包括2-2.66GHz CPU及提供640×480像素圖框之視訊資料的USB攝像機。如所見,分割佔用了最大的利用率,且具有較少的迭代改變,其為可被加速之良好的候選者。按照本文所揭示之技術的實施例,以GPU加速的自適應膚色檢測演算法有助於增進系統整體的效能及功率效率。由於工作負荷可於CPU/GPU之間分攤,此也確保資料框被處理而沒有任何框被丟棄。典型上,所見到手剖析之利用率最差的情況是當較大的斑點被發現且具有較長周界長度時。按照某些例示實施例,在按本文之描述將處理分割之後(例如,臨界檢測與目標出現分散到USB攝像機內或以其它方式貼近攝像機),整體的CPU利用率可少於10%。
簡化的膚色臨界檢測
根據本揭示將可理解,若干改進可用來進一步降低功率消耗。例如,在目標出現級之預處理期間,一例示實施例允許簡化膚色臨界檢測以降低平台功率。一般來說,膚色檢測通常是在非RGB的色彩空間中實施,諸如HSV、YUV、或YCbCr,且因此需要在這些色彩空間之間做色彩空間轉換。人的膚色檢測在色相中所佔的範圍有限,按照 實施例,允許做快速、低功率、固定功能的轉換與比較。一般來說,如果在掃描線中找到足以暗示手指或手可能出現的帶膚色像素,則處理可轉移到下一級,分割。不過,須注意,在初始臨界階段的膚色檢測(在臨界檢測級檢測到擾動之後)完全不需要色彩空間轉換或任何的像素資料增強。更確切地說及按照實施例,攝像機感測器的原始RGB資料可運行通過ADD功能,藉以獨立地加總標記區內所要之區域/像素掃描線/等之像素串流的R、G、B值,且系統可進一步被組構成檢測經加總之顏色值(積分)隨著時間的總差異。例如,當這些經加總的值中發生某個百分比的改變時,指示膚色對背景-鍵盤顏色之比率有改變,於是發生臨界事件,且處理可轉移到下一級(分割級)。如同前文所討論之使用色相的膚色檢測技術,使用RGB膚色檢測的此項技術不需要資料儲存或來自前一視訊影像圖框的資訊,視訊串流資料在處理後即可丟棄。可使用單個暫存器來儲存臨界值(例如,掃描線中的膚色百分比或比率,其必須被超過以觸發臨界事件)。因此,藉由對照比較膚色的色彩值與背景的色彩值(諸如鍵盤的顏色),即可簡單且省電地完成此臨界評估。就意義簡單來說,其涉及比較膚色與非膚色,代替比較非膚色與顏色中一些任意的差異。
圖2d顯示按照實施例之用於膚色臨界檢測以降低平台功率的例示方法。根據本揭示將可理解,當演算法可以很容易地在例如RTL或攝像機(或GP電路)中的軟體內 實施以便不涉及CPU的處理周期時,即可實現降低功率。如所見,在此例示實施例中,目標出現的臨界可在單像素掃描線(例如,橫跨鍵盤之A-GH-L鍵)內實施膚色檢測,而目標的評估可對整個標記區(例如,鍵盤)來實施。該方法包括加總臨界事件區(例如,掃描線、或部分掃描線或沿著A-GH-L鍵或以其它方式位於其上之像素)內之像素串流的R、G、B值。
該方法接著藉由比較加總的R-G-B值與給定的臨界值來決定在臨界事件區內是否檢測到膚色擾動。如果比較後指出沒有檢測到膚色擾動,則該處理繼續為每一個後續圖框在臨界事件區之有限的像素區域中尋找膚色擾動。不過,如果檢測到特定圖框之臨界事件區內有膚色擾動,則該方法發送中斷以指示目標出現,並實施姿勢預處理(在某些實施例中,其可包括藉由分割級、手剖析級、及姿勢辨識級來處理)及/或任何其它的姿勢處理工作。對於每一個下一個圖框,該方法包括使用前文所討論之以色相為基礎的技術來決定標記區中是否出現膚色像素,且如果有,則繼續處理該等圖框。該方法回應在特定圖框中沒有檢測到膚色,接著發送指示目標已不再出現的中斷,並停止任何進一步的姿勢預處理及/或姿勢處理工作。此時,有效地重複並藉由加總臨界事件區中之R-G-B值來監看膚色對背景鍵盤顏色之比率是否發生改變,以持續監視後續圖框之臨界事件區的膚色擾動。
圖2e顯示按照另一實施例之用於膚色臨界檢測以降 低平台功率的例示方法。參考圖2d所討論之以RGB為基礎之膚色檢測演算法所實現的節電可做進一步改進。特別是,膚色的色相(及亮度)是受綠色的控制。就此而論,測試來自掃描線(或其它適合的臨界事件區)的綠色像素可更快速且更佳用電效率地提供相同的資訊。不需要色彩空間轉換或膚色映射/比較,且僅對綠色像素操作。因此,色彩空間的資訊減少了2/3(例如,可切斷攝像機之紅與藍色像素的電源)。如前所指出,鍵盤的顏色可經過選擇,以突顯膚色對鍵盤的顏色差異。因此,藉由加總來自單色(綠色)視訊串流內的原始像素資料,可實現簡化的膚色臨界檢測,以降低姿勢辨識預處理期間的平台功率。須注意,在某些情況中,色彩空間資訊可減少75%,因為每個像素之感測器的典型設計是1個紅、2個綠、及1個藍,因此,攝像機供應商可以只留下個綠色感測器操作,而將像素中其它的1個紅、1個綠、及1個藍色感測器的電源切斷。因此,在某些實施例中,臨界檢測與膚色檢測(臨界檢測級與目標出現級)可縮減到作用於來自臨界事件區(例如,單/部分掃描線或單個像素)內之有限像素組之綠色像素資料之頻寬非常窄的視訊串流的單次加總/檢測功能。此替代的實施例顯示於圖2e中之虛線方塊所表示。當膚色顏色被檢測到時,攝像機可恢復供電給未使用的像素及像素-顏色-感測器,以便系統可轉移到下一個級或處理(例如,分割級)。按照某些實施例,此基本的膚色檢測功能可加以延伸,例如,使用者使用手 勢提供低電力喚醒事件。在此實施例中,當在懸置/待機或其它低電力模式中時,在整個電腦系統中之所有其它的系統都可斷電,而極低功率的膚色臨界演算法被組構成等待來自使用者之手勢的喚醒事件。給予使用者之從待機中喚醒之時間的期待,攝像機(或GP電路的)可用極低圖框率(FPS)的影像(與攝像機感測器典型可獲得30+FPS相比,例如,1-4FPS)做到臨界決定,此可更進一步降低功率。
如前文參考圖2d之例示方法的解釋,圖2d之方法也可用例如在RTL或攝像機(或GP電路)中之軟體內實施的演算法來實現。如所見,在此例示的實施例中,目標出現的臨界係在單像素掃描線(例如,橫過鍵盤之A-GH-L鍵)內實施膚色檢測,而目標的評估可對整個標記區(例如,鍵盤)實施。該方法包括僅加總臨界事件區(例如,掃描線或部分掃描線或沿著A-GH-L鍵或以其它方式位於其上方的像素)內之像素串流的綠色像素值。該方法接著決定是否已檢測到臨界事件區內的膚色擾動(藉由比較經加總之綠色像素值與給定的臨界值)。如果該比較指示沒有檢測到膚色擾動,則該處理繼續為每一個接續的圖框在臨界事件區之有限的像素區域內尋找膚色擾動。不過,如果在特定圖框的臨界事件區內檢測到膚色擾動,則該方法接著發送指示目標出現的中斷,並實施姿勢預處理(在某些實施例中,其包括分割級、手剖析級、及姿勢辨識級)及/或任何其它的姿勢處理工作。對於每一個下一個圖 框,該方法包括使用前文所討論之以色相為基礎的技術來決定標記區中是否出現膚色像素,且如果有,則繼續處理該等圖框。該方法回應在特定圖框中沒有檢測到膚色,接著發送指示目標已不再出現的中斷,並停止任何進一步的姿勢預處理及/或姿勢處理工作。此時,有效地重複並藉由僅加總臨界事件區中之綠色像素值來監看膚色對背景鍵盤顏色之比率是否發生改變,以持續監視後續圖框之臨界事件區的膚色擾動。
例示的使用情況及系統組構
圖3a說明按照實施例之被組構成實行視訊串流之步進分散的姿勢預處理以降低平台功率消耗之計算系統的例示使用情況。如所見,使用者以一般或其它典型方式坐在計算系統前方。本例的計算系統係出現具有外接式顯示器的桌上型配置,但可理解,其可以是任何適合的計算系統,諸如膝上型電腦、連網小筆電、或使用翻蓋式顯示器的其它行動計算裝置、或使用外接式顯示器的行動計算裝置、或觸控螢幕裝置,諸如平板電腦或智慧型手機。
在任何這樣的情況中,本例示實施例的系統進一步組構有攝像機與GP電路。例如,攝像機可用來捕捉使用者的姿勢,諸如手勢。在圖3a所描繪的本例示情況中,攝像機與GP電路可內嵌於顯示器的頂部內,以便所提供的視野包括使用者之手將動作以使用例如電腦系統之鍵盤、滑鼠、觸控螢幕、或其它這類輸入裝置的區域。不過,須 注意,如本文所描述之系統的特定姿勢解譯能力,使用者不需要實際動到這些輸入裝置。更確切地說,使用者可簡單地在指定的使用者輸入區域(即在該視野中)移動他或她的手,以便使用以手為基礎的姿勢與電腦系統有效地通訊,如本文之討論。圖3b-e說明用於攝像機與GP電路的各種例示性配置。
圖3b說明GP電路被整合或以其它方式而納入到攝像機的成像積體電路(矽晶片或以其它方式)內,藉由消除攝像機感測器與至少某些成像處理功能之間的IO電力,以進一步降低平台功率。在本例示的情況中(及圖3c-3e中所示的例示情況),GP電路至少包括臨界檢測與目標出現電路,如果想要,還可包括本文所提供之可能的其它姿勢預處理電路。圖3c說明另一例示情況,其中,攝像機與GP電路彼此分開實施,但仍然彼此貼近,且藉由較短的通訊匯流排操作性地耦接,在本例示實施例中為USB匯流排。可理解,許多其它適用的通訊埠與匯流排結構都可使用。圖3d說明另一例示情況,其中,GP電路被整合或以其它方式而納入到攝像機的成像積體電路內,且攝像機被嵌在顯示器內。圖3e說明另一例示情況,其中,攝像機被嵌在顯示器內,且GP電路被組構成獨立裝置,其被組構成與裝置的USB埠操作性地耦接,以便提供與內嵌於其中之攝像機的進接。在圖3a-e所指出的任何這類例示情況中,例如,顯示器可能是外接式顯示器、觸控螢幕顯示器、或翻蓋式顯示器。
圖4說明按照實施例之膝上型計算系統的方塊圖,被組構成實行視訊串流之步進分散的姿勢預處理以降低平台功率消耗。如所見,此例具有典型膝上型電腦的形狀因數,且包括藉由鉸鏈與顯示器部分操作性地耦接的基板部分。例如,此顯示器具有觸控螢幕之能力,但也可以是LED顯示器。一般來說,圖中所顯示的很多架構與功能性可按需要以習用或慣用的技術來實施,但與分級和分散視訊信息之姿勢預處理相關的架構與功能性,則按照本文所揭示之技術的實施例來實施,將將依次討論。
在本例示實施例中,GP電路係包括在顯示器電路的感測器資料處理方塊中,其經由對應的行動產業處理器介面-攝像機串列介面(mobile industry processor interface-camera serial interface;MIPI-CSI)操作性地耦接至兩台整合式攝像機。一台攝像機聚焦在第一使用者輸入區域,以便捕捉使用者的手勢,及另一台攝像機聚焦在第二使用者輸入區域,以便捕捉使用者的頭與臉姿勢。如所理解,手GP電路以臨界檢測級與目標出現級來組構,用於處理使用者的手勢,及頭-臉GP電路以臨界檢測級與目標出現級來組構,用於處理使用者頭及/或臉的姿勢。因此,在此例示的情況中,GP電路有效地分支成兩個特定姿勢的區塊。在其它例示的實施例中,如果想要,可使用一台攝像機連同機械式透鏡總成,其能有效地允許單台攝像機捕捉兩個標定的使用輸入區域。在此情況,GP電路可實施為單個區塊,其有能力處理所涉及之每一個不同的姿勢類 型。
如所理解,GP電路可為手與頭-臉以類似的方式實施。如前文之解釋,無論解剖的目標為何,GP電路的臨界檢測級可用閘級邏輯或其它為特定目的而製造的半導體來實施,例如,被組構成為每一個圖框加總與比較亮度通道,且如果現有圖框與前一圖框之間的差量大於給定的臨界(例如,>3%之改變、或>5%之改變、或>10%之改變),則會產生使用者檢測信號,藉以觸發原始資料往目標出現級的通道。另一方面,無改變或空圖框則有效地抑制此檢測信號,藉以節省無姿勢時間期間的電力。以類似的方式,且無論解剖的目標為何,目標出現級GP電路可用閘級邏輯或其它為特定目的而製造的半導體來實施,例如,被組構成將RGB(或YUV)資料串流掃描線轉換成HSV像素,並比較其中所表現的像素色相值與範圍相對有限的膚色色相。在其它實施例中,目標出現級GP電路可用閘級邏輯或其它為特定目的而製造的半導體來實施,被組構成加總像素值,如前文參考圖2d-e之描述。如果在掃描線中發現帶膚色之像素暗示手指或臉可能出現,則處理轉移到分割級。另一方面,沒有目標出現或帶膚色之像素的數量不夠的圖框則不發送到次一級或以其它方式加以抑制,以便節省無姿勢時間期間的電力。在其它實施例中,考慮其功能的平行本質(例如,為特定掃描線內的每一個像素平行分析色相),目標出現級可在GPU中實施。不過,如所理解,在這樣的情況中,為從攝像機傳送 影像資料到GPU,通常會有較高的IO電力代價。儘管如此,使用GPU仍可避免與在驅動器層級處理該等影像資料必然相關的CPU周期。
在本例示實施例中的分割級有時是與CPU共置,但其它實施例可利用與CPU通訊的獨立GPU,如前文之解釋。按照一例示實施例,分割級將其所接收之彩色視訊的每一個圖框轉換成斑點的影像,其中,非零的像素代表斑點像素,而黑像素指示非斑點像素。在此情況,斑點例如可用來代表帶膚色之像素的區域。就此意義上來說,分割級調適或以其它方式更明確地界定特定圖框內以皮膚色相為基礎之斑點的邊界,藉以有效地將特定影像之複雜度降低至二進制配置(斑點與無斑點)。此種以掃描線為基礎之處理工作對於平行處理的可行性使得分割級成為用GPU來實施的理想候選者。
在其它實施例中,分割級可在具有閘級邏輯或其它為特定目的而製造之半導體的GP電路中以與目標出現級類似的方式來實施。不過,界定斑點資料之邊界通常需要處理較大量的掃描線,其會增加目標出現級的複雜度。不過,此複雜度例如可藉由使用適合目標解剖特徵之假設及合理程度的內插加以補償。例如,假設手做出一和平符號為目標解剖特徵,且要處理3或4條手影像的掃描線。例如,第一條掃描線顯示三組非膚色像素與兩組膚色像素交替的群組,取的是橫跨和平符號之“V”部分的上方部分。第二條掃描線也類似,顯示三組非膚色像素與兩組膚色像 素交替的群組,但兩膚色像素部分之間非膚色像素部分的長度較短,取的是橫跨和平符號之“V”部分的較低部分。第三掃描線可顯示兩組非膚色像素與一組膚色像素交替的群組,取的是橫跨手的本體部分,及第四條掃描線顯示兩組非膚色像素與一組膚色像素交替的群組,取的是取橫跨手腕的部分,其中,手之本體部分中之膚色像素的群組長於手腕區域中之膚色像素的群組。因此,例如,如果此3或4條掃描線的這些特徵能使用以邏輯為基礎的比較加以確認,則與干擾中之掃描線相關的手資料可被解譯或以其它方式估計,且整個膚色斑點的邊界可被相應地指定。如所理解,類似的處理可用來檢測完全封閉的卵形或部分封閉的卵形,諸如圖10a-c及11a-f(完全封閉)與10d-f(部分封閉)的例示手勢。在某些這樣的實施例中及如關於對圖9a-b之討論,影像處理可被限制在諸如使用者之鍵盤(圖9a)或滑鼠墊(圖9b)等標記區,在電腦/網際網路導覽的情境中,此等手勢有可能發生在這些區域的上方,其中,被目標出現級處理以界定斑點資料之邊界的一或多條掃描線,可設定在橫向通過鍵盤中間的臨界事件區。
手剖析級與姿勢辨識級可由位在基板內的CPU執行,做為應用軟體驅動器的一部分,但只在被本文所描述之先前的級激活時才被執行。再次,按照某些實施例,此處理也可以在GPU或甚至GP電路中實施。為達此目的,將預處理功能整合到GPU及/或GP電路中的程度,例如 可根據此項整合之費用/成本(一方面)與節省的功率消耗與CPU周期(另一方面)平衡的成本效益分析。根據本揭示將可理解,藉由在GP電路中實施臨界檢測級與目標出現級,在GPU中實施分割級,及允許手剖析級與姿勢辨識級在CPU中執行,即可用較低的成本實現重大的省電。進一步整合到GP電路內的成本可能並不合算或令入滿意,但本揭示並無意做此限制。
進一步參考圖4,SRAM快取記憶體可用來儲存與視訊之有效處理相關的參數,且可用任何其它適合類型的記憶體技術來實施。例如,在某些實施例中,記憶體可用來儲存典型上包括有使用者所提供之手勢之圖框內的座標。這些座標可根據例如經驗分析或使用者之組構而隨時建立及/或改進。這些座標也可根據例如攝像機之視野內之標記區之相對位置改變而周期性地改進或以其它方式更新。無論如何,此座標可被GP電路(如果想要,也包括及其它組件)所用,以有效地進一步降低影像處理的負載。就此意義上來說,視訊串流的子集可被分析。記憶體也可包括與特定使用者設置相關的膚色範圍。此資料可根據例如經驗分析或使用者之組構而隨時建立。如所理解,很多其它類型的資訊與資料都可儲存在記憶體內。
性能基元係選用的組件,可提供其以支援GP電路的功能,且可在硬體及/或軟體內實施。適合處理手勢視訊的例示性能基元例如是矩陣乘法或加法模組。另一例示的功能是傅利葉轉換模組,用來將影像從空間域轉換到頻率 域以有利於處理。就更一般的意義來說,可被以CPU為基礎之驅動器來處理的任何影像處理工具都可在性能基元中實施,以輔助分散的預處理功能。選用的隱私與安全政策模組(Privacy & Security Policy module)可被組構成提供面對惡意行為的保護,且可實施以執行一或多個安全政策,諸如與可信賴裝置處理環境相關的那些安全政策。例如,隱私與安全政策模組可執行的政策諸如以使用者為基礎的政策(例如,某些使用者可能不希望攝像機打開)及以平台為基礎的政策(例如,僅有可信賴平台模組(trusted platform module;TPM)裝置可經由USB埠連接到平台控制器集線器(platform controller hub;PCH))。
圖4中所顯示之顯示器與基板的其它組件可按照典型的做法或按照想要的其它方式實施。圖5說明按照另一實施例之連網小筆電計算系統的方塊圖,被組構成實行視訊串流之步進分散的姿勢預處理以降低平台功率消耗。如所見,系統的顯示器部分與圖4中所示膝上型電腦系統的顯示器部分類似,且先前相關的討論在此等同地適用。基板段也類似,但考慮到它是連網小筆電,因此組構多少有些不同。因此,CPU例如是Intel®AtomTM CPU或適合連網小筆電、易網機及其它低功率小型化之計算裝置使用的其它處理器。如所示,GPU可以與CPU共置,或以其它方式與CPU操作性地耦接,如前文之解釋。
圖6說明按照實施例之具有外部顯示器之計算系統的 方塊圖,被組構成實行視訊串流之步進分散的姿勢預處理以降低平台功率消耗。例如,該計算系統可以是桌上型或膝上型電腦(連接擴充基座,或未連接擴充基座而以電池電力運行)。如所見,系統的顯示器和基板部分與圖4及5中所示之系統的顯示器/基板部分類似,且先前相關的討論在此等同地適用。還有很多其它的計算系統架構與組構可以使用,且本揭示並無意受限於任何特定的型式。
圖7說明按照實施例,藉由將視訊預處理移出核心/非核心並置入攝像機模組所能達成的電力節省。總△功率係高於平台之待機功率以上的功率消耗。根據本揭示將可理解,當影像中沒有事件出現時,視訊操作的CPU C0%-佔用率可實質地降低。如進一步所見,雖然將影像處理從核心移向非核心節省了大約1.4瓦的電力(來自於CPU 周期的減少),但當在攝像機感測器本身內實施預處理(諸如臨界檢測級與目標出現級)時,藉由消除了I/O電力,因此又額外節省了大約3.6瓦的電力。
可用於網際網路導覽之例示的手勢,例如,通常依靠粗質姿勢(例如,上/下捲動、次/前頁、雙點擊等)與單次典型上用於滑鼠移動的細質姿勢。當輸入特定的本文資訊時才需要在鍵盤上打字。文字的典型種類包括URL、使用者名稱、密碼、蒐尋關鍵字(包括街道名等)。在很多情境中,很少或不需要移動滑鼠。因此,姿勢的簡化進一步允許姿勢辨識可如同擾動處理在攝像機本身內實施。
姿勢API
圖8說明按照本文所揭示之技術之另一實施例的方塊圖,顯示應用程式介面(API)被組構用來實行視訊串流之步進分散的姿勢預處理以降低平台功率消耗。在此例示的情況中,姿勢API是在此特定系統上可用的一個或很多個API(感測器API、上下文API)。無論計算是在攝像機感測器內/附近實施,或在運行於CPU/主記憶體上之軟體驅動器內實施,原始感測器資料通過感測器API被處理,且姿勢API預處理原始感測器資料,並揭露來自臨界檢測級與目標出現級(出現與臨界資料),以及分割級、手剖析級、及/或姿勢識別級(姿勢資料)的資訊。如進一步所見,姿勢API可包括隱私與安全政策,諸如以使用者為基礎的政策(某些使用者不希望攝像機打開)及以平台為基礎的政策(例如,僅可信賴平台模組(TPM)裝置可經由USB埠連接到平台控制器集線器(PCH))。如先前之解釋,姿勢API預處理原始視訊資料,並以延伸的USB HID類別的裝置出現。在這樣的情況中,原始資料不受影響,並以標準USB視訊類別的裝置出現。
姿勢API可被編程或以其它方式被組構成傳遞狀態訊息給攝像機中姿勢裝置的端點,諸如包含使用者輸入區(例如,鍵盤/滑鼠區,如圖3a中所示)的像素。用於外部顯示器之攝像機的程序,與用於筆記型電腦之整合式顯示器的攝像機相同。在一例示的情況中,該序包括:在視訊串流之視野中定位鍵盤;以有興趣之像素的形式(虛擬 標記)將鍵盤資訊傳遞給攝像機/GP電路;在攝像機感測器/GP電路中開始手姿勢預處理工作;視需要更新鍵盤位置;經由姿勢API出現姿勢處理資訊給平台。在多顯示器或多鍵盤系統中,使用者可指示以哪一個顯示器或鍵盤為主。許多適合的選項在此都可使用。
亦如先前之解釋,藉由姿勢API解譯手勢可用於加強其它互補的輸入模態,諸如藉由鍵盤及/或滑鼠所接收的使用者輸入。現有的各種蒐尋引擎結合了很多滑鼠及/或觸控姿勢,使用者可使用這些做為捷徑,以改進他們的瀏覽體驗。使用者可致能/去能特定的捷徑,並按需要加入新的自訂捷徑。此種系統的一缺點(除了缺乏標準化以外)是所有的捷徑全體加在一起,有可能會用到數量難以想像的姿勢,無可避免地導致記憶錯亂而有礙了廣泛的採用。按照一實施例,提供以姿勢為基礎之命令的清單,相對地簡單且簡潔,且可隨意修改變/擴充。某些可編程性可能是使用者所想要的,例如,如大多數靈光的使用者可能希望延伸姿勢的清單,及大多數使用者可能想為他們表列於“我的最愛”中的網站增加個人化的姿勢。大部分的使用者典型上會一次又一次地經常使用相同的網頁(例如,Google,Gmail,Facebook等)。將此一連串的鍵盤/滑鼠命令縮減成單個姿勢(或短串的姿勢),可增進易用性及加速使用者的網頁切換時間。
此外,考慮有幾個手勢需要“返回中性”。“中性位置”係當不實施手勢時,手所在的統計平均位置。例如,手掌 放置在手掌靠放區上,而手指放在Q-E-R-G-spacebar-spacebar-H-U-I-P等鍵上。返回中性是手回到中性位置(例如,在實施完一個手勢之後及在開始下一個姿勢之前手所回到的位置)。在大多數的計算系統使用模型中,手都是保持在中性位置。在手勢期間,將手掌留在相同之身體的位置是將總手勢減至最少所必要的。此能簡化影像處理是因為影像處理演算法將忽略攝像機之視野以外的所有視覺活動。
根據本揭示將可理解,圖8中所示的其它組件與特徵已於先前關於圖4-6討論過,或可按其它方式以典型的做法實施。
在2D中用於細質姿勢辨識的標記區
如前文之解釋,姿勢辨識級可被組構成實施藉由手剖析級所產生之解剖/手資料的時間解譯。例如,如果姿勢辨識級被用來檢測與滑鼠等效的操作,其會尋找使用者之指尖及/或手之位置的改變。在某些實施例中,在姿勢的預處理期間,使用在視訊串流之視野內產生虛擬標記的技術來實行手勢辨識,以降低平台的功率。在一這樣的實施例中,標記區包括或以其它方式對齊視訊串流之影像內之使用者的鍵盤。位於標記區外部之像素資訊的影像處理及其在電腦系統內部之通訊可予以排除,以便減輕處理負荷。在另些實施例中,被評估之像素的數量可以縮減到此標記區的子集,例如,可以小至像素掃描線、部分像素掃 描線、或單個像素。
為達此目的及如前文之解釋,並參考臨界檢測級與目標出現級,圖9a說明按照實施例,位在可用來控制電腦系統之手勢視訊處理系統之視野內,以鍵盤為基礎的標記區例。如所見,位在攝像機之視訊影像內的標記區以實線指示,其通常對應於使用者之鍵盤的周圍,而臨界事件區(接連水平通過鍵盤中央區域的虛線,通常對應於A-GH-L鍵)位於此標記區內。在藉由臨界檢測級與目標出現級所做的初始評估中,可在此臨界事件區內形成一或多個通道(例如,掃描線或部分掃描線或甚至像素)。目標標記區以外的像素可予忽略,且在某些實施例中,在這些初始級的期間,臨界事件區以外的像素可予忽略。如所理解,臨界事件區可以位在標記區內的其它區域,諸如鍵盤之空白鍵的附近,因為使用者的手極不可能從最上方的像素(例如,功能鍵)穿過標記區的平面。雖然所顯示的是外部鍵盤單元,但其它實施例也可使用整合式鍵盤,諸如與膝上型電腦或筆記型電腦相關的鍵盤,或被組構成靠接於或以其它方式使用實體外接鍵盤的平板電腦。如前文之解釋,使用者之手相對於計算系統之鍵盤的位置,是電腦使用活動之良好的指示,且對於使用者而言,來自此區域的姿勢係直覺的處理。
一旦被致能(例如,在臨界檢測級決定視訊串流的現有圖框與視訊串流之前一圖框是否有足夠之差異,且目標出現級決定現有圖框包括帶膚色之像素之後),後續的影 像處理級可以很容易地識別鍵盤的標記區,並在此區域內蒐尋使用者的手。臨界事件可藉由手出現於攝像機所觀察之影像內的標記區內來決定,且此事件可藉由例如標記區內(或在臨界事件區內)發生夠大的視覺擾動來定義。反映在影像中位在標記區外部的活動(包括假的指示標記,其可能被誤解譯成在做姿勢)被忽略。例如,按照某些實施例,顯示器與鍵盤傾向彼此位在固定之相對位置一段長的時間周期(此對於膝上型電腦或筆記型電腦配置特別真確,但也可應用於具有外接鍵盤的桌上型設置),因此,在攝像機感測器之視覺影像中,鍵盤標記的相對位置也傾向較固定。因此,按照某些實施例,影像處理可將有興趣的特定像素(諸如對應於標記區或標記區之子集的那些像素,諸如對應於臨界事件區的那些像素)下載到攝像機感測器內(或GP電路內,如本文以各種其它方式所做的描述)的影像預處理子系統,且攝像機感測器可將此目標標記區以外之其它像素斷電以節省電力。同樣地,當為姿勢辨識工作(手剖析級與姿勢辨識級)而將像素傳送到CPU時,此標記區外部的像素資訊係為無關,且不需要轉移到CPU,以進一步節省電力。須注意,在鍵盤上並無必要使用實體的“標記”,因為橫跨所有供應商、文化、年齡群,典型上都是以非常一致的工業設計來製造鍵盤,且可容易地與人手加以區分。例如,鍵盤典型上是單色而簡化了膚色檢測的工作,它們(或用其他方式)被製造成與皮膚顏色有極大的差異。
在使用以鍵盤為基礎之標記區的某些實施例中,由於顯示器-鍵盤的相對位置可能改變(根據使用者活動、膝上型電腦上蓋角度的移動、外接式鍵盤的移動等),其必然改變了攝像機之視野影像中所想要的像素區,從而改變了影像內的鍵盤標記區位置,因此,被標記的鍵盤區域需要周期性地將更新傳送給GP電路(例如,攝像機感測器)。對於用於姿勢辨識之大多數形式的影像處理,視訊圖形陣列(Video graphics array;VGA)技術提供了足夠的像素解析度。雖然高清攝像機愈來愈成為平台的標準,但根據本揭示將可理解,額外的影像解析度對於監視手勢來說並無必要。更正確地說,按照本文所揭示之技術的實施例,藉由開窗口框住有興趣的目標標記區,姿勢影像處理系統可被組構成只供電給最少數量的像素,以精確地捕捉手勢,而高清影像解析度所需的任何額外像素都可予以斷電,以節省IO與計算工作的功率消耗。
因此,藉由做出關於使用者之手與標記區將如何互動的判斷,可大幅降低功率消耗。為達此目的,按照一實施例的目標是將每一級預處理要被評估之像素的數量減至最少,以保存電池壽命。所要做的另一判斷是關於哪些像素適宜評估,例如,當評估例如包括對齊空白鍵之單條掃描線之像素之臨界事件區的時候。例如,在某些這樣的情況中,由於使用者的人體測量學是將兩手放置在空白鍵的兩側,因此,使用者的手不可能突穿空白鍵本身上方的平面。就更一般的義意來說,做出關於使用者與標記區及臨 界事件區互動的判斷,可使被評估之像素的數量減少到標記區的子集,其可小如像素-掃描線、部分-像素-掃描線、或單個像素。當發生臨界事件時,臨界檢測級會將該事件報告給系統,及/或將控制傳遞到影像處理級的下一級(藉由目標出現級的膚色檢測)。以類似的方式,當發生膚色檢測,目標出現級會將事件報告給系統,及/或將控制傳遞給影像處理級的下一級(藉由分割級的自適應膚色檢測)。
須注意,按照某些實施例,在操作期間,系統會使用多個標記定義。例如,用於臨界及/或目標出現檢測的標記區,可小於用於斑點辨識或用於手勢辨識的標記區。在某些例示情況中,標記區可包括鍵盤與鍵盤的手掌靠放區。不過,為啟始一手勢(即,發生臨界事件),手必須穿過對齊A-GH-L鍵之軸上方的水平平面,如圖9a所示。
在另一例示實施例中,標記區可以是滑鼠墊或指定的桌面,如圖9b所示。根據本揭示將可理解其它這樣的標記區,諸如其它輸入裝置(例如,觸控板、觸控螢幕)或指定的區域。仍是在其它實施例中,標記區可由內部指定,其中,系統被組構成自動排除視野的周圍區域。在某些這樣的實施例中,排除厚度之視野周界係使用者可組構的。按此方式,使用者可有效地將他/她的系統校正到所想要的使用者設置。根據本揭示將可進一步理解,按照實施例,使用這樣的標記與臨界事件區,在使用單台2D攝 像機及膚色檢測演算法的電腦或網際網路導覽中,有助於實行低成本、低功率、細質姿勢辨識的技術。在某些實施例中,該技術可延伸到致能3D物件調處。
用於目標出現之標記臨界(Thresholding)的方法
圖9c說明按照本文所揭示之技術的實施例,目標出現之標記臨界的方法。此方法可在硬體或軟體或它們的組合中實施,且在一例示實施例中,係藉由五個預處理級來實行,其可按本文所描述之步進與分散的方式執行。例如,標記區可以是使用者的鍵盤,及臨界事件區可以是橫過該鍵盤的一部分。在一特定的例示實施例中,目標出現的臨界係使用橫過A-GH-L鍵(臨界事件區)的像素掃描線來實施,而目標的後續評估係對整個標記區來實施。不過,根據本揭示將可理解諸多的衍生與實施例,且本文所提供的標記分析技術,可用任何適合的方式來實施。
該方法包括決定是否已在臨界事件區中檢測到擾動。若否,則處理繼續在每一個後續圖框之臨界事件區之有限的像素區域內尋找擾動。不過,如果在特定的圖框中檢測到臨界事件區內的擾動,則該方法接著發送用來指示目標出現的中斷,以使處理可以傳遞到下一級,在本例示的情況中,下一級包括膚色檢測。特別是,視處理的級而定,該方法接著決定是否在標記區或臨界事件區內檢測到膚色。例如,在一例示的情況中,如果處理只是從臨界檢測級轉入目標出現級,則僅分析臨界事件區內之像素的膚 色,及如果在目標出現級發出使用者出現的信號之後還處理後續的圖框,則掃描整個標記區的膚色像素。
在任一這樣的情況中,如果決定標定的標記區中沒有出現膚色像素,則該方法接著發送用以指示目標沒有出現的中斷,並停止任何進一步的姿勢預處理及/或姿勢處理工作。此時,該方法有效地重置,且按先前所解釋繼續監視後續圖框之臨界事件區的擾動。不過,如果決定標記區的子集中出現膚色像素,則該方法接著實施姿勢預處理,在某些實施例中,其可包括藉由分割級、手剖析級、及姿勢辨識級的處理,及/或任何其它的姿勢處理工作。
對於每一個後續的圖框,為膚色像素評估整個標記區,並繼續為每一個圖框進行姿勢預處理/處理,直到其決定標記區中沒有膚色像素出現。在此點,該方法接著發送用以指示目標不再出現的中斷,並停止任何進一步的姿勢預處理及/或姿勢處理工作,並接著繼續為擾動監視後續圖框的臨界事件區,如先前的解釋。該處理可視需要重複。
細質以卵形為基礎的手勢
如先前的解釋,電腦或網際網路導覽所用的手勢相對簡單,且僅需要單一的細質姿勢,其用來模擬滑鼠的移動與動作。有許多適合的姿勢都可用來模擬滑鼠按鍵的按下與釋放,其通常用於導覽。例如,且按照實施例,可用來指示滑鼠按鍵按下的一種手勢包括以姆指與食指形成卵 形,如圖10a所示。如所見,在使用者之姆指與食指之間可辨識出鍵盤顏色的卵形。該卵形可被具有以鍵盤為基礎之標記視野的視訊姿勢處理系統檢測到,且可用來指示滑鼠按鍵正保持被壓下。按照實施例,當卵形有缺口(姆指與食指分開)時,其指示滑鼠按鍵被釋放,如圖10b所示。
以這兩種簡單的手勢,當對照非膚色鍵盤-背景顏色評估時,影像處理演算法(諸如在姿勢辨識級的那些)可被編程或以其它方式組構成偵測膚色形狀。例如,對於滑鼠按鍵保持被壓下的期間(卵形出現),藉由姿勢辨識級所執行的姿勢處理可被組構成追蹤卵形的X-Y移動,使用卵形的質心來決定游標的X-Y移動,藉以模擬滑鼠的游標移動。在這樣的例示情況中,該X-Y軸可藉由鍵盤之X-Y軸而定義在視覺影像中。在一特定的例示實施例中,使用+/- 1.5個像素的膚色/非膚色邊緣檢測,且發現足以精確地沿著X-Y軸追蹤卵形的質心,如本文之描述。根據本揭示將可理解,視所想要的精確度,可有不同組構的其它實施例。
另一可用的滑鼠功能係滑鼠的雙點擊,當姆指與其它4指之間隙快速增加,伸展稍超過姆指+手指之中性位置時可被辨識出,特別是,此滑鼠雙點擊姿勢可按圖10d-f中所示來實行,圖10d顯示初始的中性位置,接著如圖10e所示,姆指與其它4指之間隙快速加大,接著如圖10f所示,回到中性位置,從初始中性位置過渡到分開位 置大約1至2秒的延遲,接著,從分開位置回到初始中性位置大約另1至2秒的延遲。這些特定的例子允許保持幾近完整的卵形(在本文中有時稱為部分封閉的卵形)相對於手斑點中心的位置。根據本揭示將可理解其它適合的手勢也可接受。
延伸到3D物件調處
現在有很多可用的姿勢辨識技術聚焦於3D Z-深度攝像機,這是因為相信這樣的解決方案可提供置於攝像機視野內之物件更佳的空間解析度。不過,此需要大量的計算能力,且此耗費電池電力。此外,現有若干可用的解決方案嘗試將2D攝像機的影像映射到有關節的手模型,並接著藉由解譯手模型之關節結合的相對移動來理解姿勢。但這些解決方案非常複雜。
因此,並按照實施例,本文所提供之以卵形為基礎的技術對於使用2D攝像機之網際網路與電腦導覽的細質姿勢控制,可以很容易地延伸到在3D空間中之物件的調處。如先前參考圖10a-f的解釋,使用者的手在攝像機的影像中建立卵形非膚色元件,其可被時間地分析以用於X-Y游標移動。根據本揭示將可理解,當使用者移動他/她的手完成六軸動作(X-Y-Z與仰俯-滾動-擺動)時,卵形的百分比以可預測的方式改變。按照實施例,當使用者移動完成六軸動作時,藉由評估膚色所圍繞之卵形的百分比可得到額外的資訊。
例如並參考圖11a-f,滾動(圖11d)與仰俯(圖11e)之手移動的影像顯示,在這些特定的手移動期間可見到更少或更多的第三/第四/第五手指,而在X(圖11a)、Y(圖11b)、Z(圖11c)、及擺動(圖11f)期間,它們的比例非常類似。另一個不明顯但仍可檢測到且因此可動作區別的是Z移動姿勢,在姿勢的向上部分傾向比姿勢的向下部分顯示較多的指甲。同樣地,在擺動動作姿勢中,姿勢的某一部分與姿勢的其它部分相較,傾向顯示手指正面透視。如本文之討論,2D的X-Y游標移動可利用質心追蹤,手之3D追蹤不同之處必須考慮手與手腕之更複雜的關節。例如,簡單的橫向X移動,可能實際上還包括了垂直的Y移動與滾動移動分量。在典型的3D處理之下,這些必須加以修正,以便只給予使用者所要的X分量。
以卵形為基礎之手勢的方法
圖12說明按照本文所揭示之技術的實施例用於分析手勢視訊之方法。此方法可在硬體、軟體、或它們的組合中實施,且在一例示實施例中如先前之描述,係藉由手剖析級與姿勢辨識級來實行,按照某些實施例,其可在主計算系統的CPU上執行。例如,在某些這樣的實施例中,手剖析級被組構成使用藉由分割級所產生之斑點資料的空間解譯,做出關於是否出現膚色區域內之非膚色類卵形區域的初始決定。如果出現,則處理被轉入姿勢辨識級,該 級被組構成實施斑點資料的時間解譯,以觀察視訊從這一圖框到下一圖框的改變。不過,根據本揭示將可理解許多的衍生與實施例,且本文所提供的姿勢分析技術可在任何適合的模組或一組模組中實施。
如所見,該方法包括決定在膚色區域內是否檢測到完全封閉的非膚色區域(卵形)。回憶手剖析級被組構成實施斑點資料的空間解譯,且斑點像素(例如,非零或“灰色”像素)可以容易地與非斑點像素(例如,黑色像素)區分開。如果在膚色區域內沒有檢測到非膚色區域的卵形,則處理繼續尋找卵形。如圖2a所示,處理可能在此點被轉回目標出現級。
在藉由手剖析級(或其它模組/級)檢測到特定圖框之膚色區域內的非膚色卵形時,該方法接著關於X-Y對齊的鍵盤標記區參考來定義卵形的質心與其它相關的標記。例示的相關標記例如包括皮膚的皺紋、關節泛紅、關節數、血管、毛髪、及人手其它這類典型的識別特徵。如所理解,得知卵形質心之位置即允許做其它的測量,以評估姿勢進一步的細節(包括在任何六軸動作中的移動)。
該方法接著測量圍繞於捕捉自此初始圖框中之卵形的膚色厚度。如所理解,須注意,圖12中參考第一圖框並不必然意指視訊串流的第一個圖框,反而是代表在視訊串流中檢測到膚色區域內之非膚色卵形的第一個圖框。無論如何,當在視訊串流之一或多個後續圖框中捕捉時,可用這些厚度測量進一步評估姿勢的原始狀態。例如,在此特 定的實施例中,該方法接著藉由估計卵形之質心、標記、及周圍膚色厚度之大小與角度關於X-Y平面之變化來分析次一個圖框。例如,如先前之解釋,可藉由評估圖11a-f中所描述的特徵來測量這些變化,這些特徵有效地將手在六軸中的移動特性化。除了追蹤卵形質心在X-Y平面中的移動,還測量膚色關於非膚色卵形的厚度,許多特徵識別技術都可用來進一步提高評估的強固性(例如,關節之辨識及在與擺動移動相關之橫向中的追蹤、手指甲之辨識及在與Z移動相關之垂直方向中的追蹤)。須注意,例如,關於測量膚色厚度,在滾動或仰俯移動中,卵形之向左的膚色厚度會與滾動開始時有重大的改變。
關於圖12可進一步看出,該方法可用來提供所估計(根據在X-Y移動中所做的變化估計)之X-Y位移的2D分析,或提供所估計(根據在X-Y-Z與滾動-仰俯-擺動移動中所做的變化估計)之六軸位移的3D分析。該方法接著將所計算的位移估計傳送給主處理器(例如,圖形處理系統的CPU)。在此例示的情況中,鍵盤的標記區提供了給定的密閉度,此等位移的計算可用較有效率的方式完成。
該方法接著前進到下一個圖框,並決定膚色區域中之完全封閉的非膚色卵形是否仍完整。如果是,則為該次一個圖框重複處理,以進一步評估該姿勢從最後一個圖框之姿勢進展多少,並可根據關於兩軸(對於2D處理)或六軸(對於3D處理)之移動來計算任何相關的位移,並傳 遞給主處理器,接著,其可作用於所接收的導覽命令(例如,點擊瀏覽器的返回鍵或我的最愛連結;選擇超連結;打開下拉式選單、視窗最小化、啟動瀏覽器應用軟體等)。
不過,如果其決定膚色區域中之完全封閉的非膚色卵形不再完整(由於使用者藉由分開姆指與食指而打開卵形,諸如釋放滑鼠按鍵),於是,該方法接著停止將位移估計送往CPU,並繼續為膚色區域中新的非膚色卵形的出現而監視後續的圖框,並相應地重複處理。
根據本揭示將可理解許多的衍生。例如,該方法可同等地應用於檢測膚色區域中之部分非膚色卵形(諸如圖10d-10f中所示)用於處理滑鼠的雙點擊。須進一步指出,假設使用者具有兩隻手,其也可以解譯攝像機影像中之兩對應分開之卵形非膚色單元(左手、右手)的互動。此等雙手的處理例如可用在取得應用軟體及其它較高階應用軟體,然而基本的電腦與網際網路導覽姿勢只使用單手實行即可。
例示系統
圖13說明按照一些實施例,可實施如本文所描述之視訊信息的步進與分散的姿勢預處理的例示系統1300。在某些實施例中,系統1300可以是媒體系統,雖然系統1300不限於此上下文。例如,系統1300可結合到個人電腦(PC)、膝上型電腦、超薄膝上型電腦、平板電腦、觸 控板、可攜式電腦、手持式電腦、掌上型電腦、個人數位助理(PDA)、行動電話、行動電話/PDA組合、電視、智慧型裝置(例如,智慧型手機、智慧型平板或智慧型電視)、行動上網裝置(MID)、訊息裝置、資料通訊裝置、機上盒、遊戲機、或其它此類有能力實施圖形渲染操作的計算環境。
在某些實施例中,系統1300包含耦接至顯示器1320的平台1302。平台1302可接收來自信息裝置的信息,諸如信息服務裝置1330或信息遞送裝置1340或其它類似的信息源。例如,導覽控制器1350包含一或多個導覽特徵可與平台1302及/或顯示器1320互動,以便由使用者補充導覽姿勢(諸如本文所描述完全與部分以卵形為基礎的姿勢)。以下更詳細描述每一個這些例示組件。
在某些實施例中,平台1302可包含晶片組1305、處理器1310、記憶體1312、儲存器1314、圖形子系統1315、應用軟體1316、及/或無線電1318之任何的組合。例如,晶片組1305可提供處理器1310、記憶體1312、儲存器1314、圖形子系統1315、應用軟體1316、及/或無線電1318之間的互通。例如,晶片組1305可包括儲存器配接器(未顯示),提供與儲存器1314互通的能力。
例如,處理器1310可實施為複雜指令集電腦(CISC)或精簡指令集電腦(RISC)處理器、x86指令集相容處理器、多核心、或任何其它微處理器或中央處理單 元(CPU)。在某些實施例中,處理器1310可包含雙核心處理器、雙核心行動處理器、諸如此類。記憶體1312例如可實施例為揮發性記憶體裝置,諸如但不限於隨機存取記憶體(RAM)、動態隨機存取記憶體(DRAM)、或靜態RAM(SRAM)。儲存器1314例如可實施為非揮發性裝置,諸如但不限於磁碟機、光碟機、磁帶機、網際網路儲存裝置、及附接式儲存裝置、快閃記憶體、電池供電的SDRAM(同步DRAM)、及/或網路可存取儲存裝置。在某些實施例中,當包括有多個硬式磁碟機時,儲存器1314例如可包含用來增加儲存效能提高對於有價值之數位媒體之保護的技術。
圖形子系統1315可實施影像處理,諸如靜止影像或視訊供顯示。例如,圖形子系統1315可以是圖形處理單元(GPU)或視覺處理單元(VPU)。可使用類比或數位介面來通訊地耦接圖形子系統1315與顯示器1320。例如,介面可以是高解析多媒體介面、DisplayPort、無線HDMI、及/或無線HD相容技術。圖形子系統1315可以整合到處理器1310或晶片組1305之內。圖形子系統1315可以是獨立的卡,與晶片組1305通訊地耦接。本文所描述的步進與分散的圖形及/或視訊處理技術可在各種硬體架構中實施(例如,貼近於攝像機之攝像機矽晶片內的GP電路)。仍是在另一實施例中,圖形及/或視訊功能包括有某些分散的預處理級(例如,手剖析與姿勢辨識),可藉由包括多核心處理器的通用處理器來實施。在 另些情況中,可使用共置或分離的GPU處理器(例如,分割級)。
無線電1318可包括一或多個有能力使用各種適合之無線通訊技術發射與接收信號的無線電。此等技術可涉及橫跨一或多個無線網路通訊。例示性的無線網路包括但不限於無線區域網路(WLAN)、無線個人區域網路(WPAN)、無線都會區域網路(WMAN)、細胞式網路、及衛星網路。在橫跨此等網路的通訊中,無線電1318可按照一或多個適用標準中的任何版本操作。
在某些實施例中,顯示器1320可包含任何電視機或電腦類型的監視器或顯示器。例如,顯示器1320可包含液晶顯示器(LCD)螢幕、電泳顯示器(EPD或液態紙顯示器、平板顯示器、觸控螢幕顯示器、電視類裝置、及/或電視機)。顯示器1320可以是數位式及/或類比式。在某些實施例中,顯示器1320可以是全像式或三維顯示器。此外,顯示器1320可以是可接收視覺投影的透明表面。此投影可以傳達各種形式的資訊、影像、及/或物件。例如,這類投影可以是視覺疊覆,用於行動式擴增實境(mobile augmented reality;MAR)應用。在一或多個軟體應用程式1316控制之下,平台1302可以在顯示器1320上顯示使用者介面1322。
在某些實施例中,例如,信息服務裝置1330可由任何國家、國際的及/或獨立的服務主控,且因此可經由網際網路或其它網路接取到平台1302。信息服務裝置1330 可耦接到平台1302及/或顯示器1320。平台1302及/或信息服務裝置1330可耦接到網路1360,以與網路1360來往傳遞(例如,發送及/或接收)媒體資訊。信息遞送裝置1340也可耦接至平台1302及/或顯示器1320。在某些實施例中,信息服務裝置1330可包含有線電視接收盒、個人電腦、網路、電話、網際網路致能裝置或有能力遞送數位資訊及/或信息的設備、及有能力在信息提供者與平台1302及/或顯示器1320之間經由網路1360或直接雙向或單向傳遞信息的任何其它類似裝置。如所理解,信息可經由網路1360往來於系統1300中任何一個組件與信息提供者單向及/或雙向傳遞。信息的例子包括任何媒體資訊,例如,包括視訊、音樂、圖形、文字、醫藥與遊戲信息,諸如此類。
信息服務裝置1330接收信息,諸如包括媒體資訊、數位資訊、及/或其它信息的有線電視節目。信息提供者的例子包括任何有線或衛星電視或無線電或網際網路信息提供者。所提供的例子並不表示限制本揭示。在某些實施例中,平台1302可接收來自具有一或多個導覽特徵之導覽控制器1350的信號。例如,控制器1350的導覽特徵可用來與使用者介面1322互動。在某些實施例中,導覽控制器1350可以是指示裝置,其可以是電腦硬體組件(特別是人性化介面裝置),其允許使用者將空間(例如,連續的或多維的)資料輸入電腦。如所理解,本文所描述的導覽姿勢可用來替代這類導覽控制器1350,或增強這些 使用者輸入模態。因此,根據本揭示將可理解,本文關於導覽控制器1350的各種揭示,可等同地應用於這些導覽姿勢(相對於手勢輸入,除了控制器1350輸入的處理路徑不同)。很多系統,諸如圖形使用者介面(GUI)、及電視與監視器,允許使用者使用身體姿勢控制與提供資料給電腦或電視。
控制器1350之導覽特徵的移動,可藉由移動指示器、游標、聚焦環、或其它顯示在顯示器上之視覺指示器的移動而回應在顯示器(例如,顯示器1320)上。例如,在軟體應用程式1316的控制之下,位於導覽控制器1350上的導覽特徵例如可被映射到顯示於使用者介面1322上的虛擬導覽特徵。在某些實施例中,控制器1350不是一獨立的組件,而是整合於平台1302及/或顯示器1320。不過,如所理解,實施例並不限於本文所顯示或描述的元件或上下文中。
在某些實施例中,驅動器(未顯示)可包含當致能時可令使用者能夠瞬間打開或關掉平台1302的技術,例如,類似在初始的開機之後接觸電視的按鈕。當平台關機時,程式邏輯允許平台1302將信息串流給媒體轉接器或其它信息服務裝置1330或信息遞送裝置1340。此外,晶片組1305例如可包含支援5.1聲道環繞音響及/或高解析的7.1聲道環繞音響硬體及/或軟體。驅動器可包括用於整合式圖形平台的圖形驅動器。在某些實施例中,圖形驅動器可包含周邊組件互連(PCI)快速圖形卡。
在各種實施例中,系統1300中所示的任何一或多個組件都可整合在一起。例如,平台1302與信息服務裝置1330可整合在一起,或平台1302與信息遞送裝置1340可整合在一起,或平台1302、信息服務裝置1330、與信息遞送裝置1340可整合在一起。在各不同的實施例中,平台1302與顯示器1320可以是一整合的單元。例如,顯示器1320與信息服務裝置1330可整合在一起,或顯示器1320與信息遞送裝置1340可整合在一起。這些例子並不表示限制本揭示。
在各種實施例中,系統1300可實施為無線系統、有線系統、或兩者的組合。當實施為無線系統時,系統1300包括的組件與介面適合在無線共享媒體上通訊,諸如一或多個天線、發射器、接收器、收發器、放大器、濾波器、控制邏輯、諸如此類。無線共享媒體的例子可包括部分的無線頻譜,諸如RF頻譜等。當實施為有線系統時,系統1300包括的組件與介面適合在有線通訊媒體上通訊,諸如輸入/輸出(I/O)配接器、用以連接I/O配接器與對應之有線通訊媒體的實體連接器、網路介面卡(NIC)、碟片控制器、視訊控制器、音頻控制器、諸如此類。有線通訊媒體的例子可包括電線、纜線、金屬導線、印刷電路板(PCB)、背板、交換結構、半導體材料、雙鉸線對、同軸電纜、光纖、諸如此類。
平台1302可建立一或多個邏輯或實體通道來傳遞資訊。資訊可包括媒體資訊與控制資訊。媒體資訊指的是代 表對使用者有意義之信息的任何資料。信息的例子例如可包括來自語音對話、視訊會議、串流視訊、電子郵件或文字訊息、語音郵件訊息、文數字符號、圖形、影像、視訊、文字諸如此類的資料。控制資訊指的是代表對自動化之系統有意義的命令、指令、或控制字元的任何資料。例如,控制資訊可用來路由媒體資訊通過系統,或指令一節點以預定之方式(例如,如本文之描述,使用硬體輔助特權存取違規檢查)來處理媒體資訊。不過,實施例並不限於圖13中所顯示或描述的元件或上下文。
如前所述,系統1300可具體化成各種不同之實體式樣或形狀因數。圖14說明小形狀因數裝置1400的實施例,系統1300可具體化於其中。例如,在某些實施例中,裝置1400可實施為具有無線通訊能力的行動計算裝置。行動計算裝置可意指具有處理系統及行動電源或電源供應器(例如,諸如一或多個電池)的任何裝置。
如前文描述,行動計算裝置的例子可包括個人電腦(PC)、膝上型電腦、超薄膝上型電腦、平板電腦、觸控板、可攜式電腦、手持式電腦、掌上型電腦、個人數位助理(PDA)、行動電話、行動電話/PDA組合、電視、智慧型裝置(例如,智慧型手機、智慧型平板或智慧型電視)、行動上網裝置(MID)、訊息裝置、資料通訊裝置、諸如此類。
行動計算裝置的例子也包括可由人穿戴的電腦,諸如腕式電腦、手指電腦、戒形電腦、眼鏡電腦、皮帶夾電 腦、臂帶電腦、鞋子電腦、衣服電腦、及其它可穿的電腦。在某些實施例中,例如,行動計算裝置可實施為有能力執行電腦應用軟體以及語音通訊及/或資料通訊的智慧型手機。雖然某些實施例是以實施為智慧型手機的行動計算裝置做為例子來描述,但如所理解,也可使用其它無線行動計算裝置來實施其它的實施例。該等實施例並不限於此上下文中。
如圖14所示,裝置1400可包含外殼1402、顯示器1404、輸入/輸出(I/O)裝置1406、及天線1408。裝置1400也包含導覽特徵1412。顯示器1404可包含任何適合的顯示單元用於顯示適合行動計算裝置的資訊。I/O裝置1406可包括任何適合的I/O裝置,用於將資訊輸入行動計算裝置。I/O裝置1406的例子可包括文數字鍵盤、數字小鍵盤、觸控板、輸入鍵、按鈕、攝像機、開關、搖桿開關、麥克風、喇叭、語音辨識裝置及軟體、諸如此類。資訊也可藉由麥克風輸入裝置1400。此資訊可藉由語音辨識裝置數位化。該等實施例並不限於此上下文中。
各不同的實施例可使用硬體元件、軟體元件、或它們兩者的組合來實施。硬體元件的例子可包括處理器、微處理器、電路、電路元件、(例如,電晶體、電阻器、電容器、電感器、諸如此類)、積體電路、特殊用途積體電路(ASIC)、可程式邏輯裝置(PLD)、數位信號處理器(DSP)、現場可程式閘陣列(FPGA)、邏輯閘、暫存器、半導體裝置、晶片、微晶片、晶片組、諸如此類。軟 體的例子可包括軟體組件、程式、應用軟體、電腦程式、應用軟體程式、系統程式、機器程式、作業系統軟體、中間體、韌體、軟體模組、常式、子常式、函數、方法、程序、軟體介面、應用程式介面(API)、指令集、計算碼、電腦碼、碼段、電腦碼段、字元、值、符號、或它們的任何組合。無論是使用硬體元件及/或軟體元件,各實施例之間會按照許多因素而有所不同,諸如所想要的計算速率、功率位準、熱耐受力、處理周期預算、輸入資料率、輸出資料率、記憶體資源、資料匯流排速度及其它設計或性能限制。
例如,某些實施例可使用儲存有指令或一組指令的機器可讀取媒體或物品來實施,如果藉由機器執行,可致使機器實施按照實施例的方法及/或操作。例如,此機器可包括任何適合的處理平台、計算平台、計算裝置、處理裝置、計算系統、處理系統、電腦、處理器、或類似物,且可使用任何適合之硬體與軟體組合來實施。機器可讀取媒體或物品例如可包括任何適合類型的非暫時性記憶體單元、記憶體裝置、記憶體物件、記憶體媒體、儲存裝置、儲存物件、儲存媒體及/或儲存單元,例如,記憶體、可拆卸或不可拆卸媒體、可抹除或不可抹除媒體、可寫入或可覆寫媒體、數位式類比式媒體、硬式磁碟機、軟式磁碟機、光碟唯讀記憶體(CD-ROM)、光碟可記錄(CD-R)、光碟可覆寫(CD-RW)、光碟、磁性媒體、磁光媒體、可移式記憶卡或碟片、各種類型的數位多功能光碟 (DVD)、磁帶、卡匣、或類似物。指令可包括任何適合類型的可執行碼,使用任何適合的高階、低階、物件導向、可視、編譯及/或解譯程式語言來實施。
另外的例示實施例
以下的例子屬於更多的實施例,從這些例子將可理解許多置換與組構。
例1係用於處理原始視訊串流的系統,包含:目標出現級,被組構成藉由僅評估包括在標記區內之臨界事件區中的像素來決定該視訊串流的現有圖框是否包括帶膚色之像素,而標記區係特定成像視野之子集,並回應現有圖框不包括有帶膚色之像素,該目標出現級進一步被組構成停止後續級對現有圖框的進一步處理;以及姿勢處理級,被組構成為被該目標出現級指示為包括有膚色之圖框的標記區內的影像資料執行空間與時間解譯至少其中之一;其中,目標出現級或姿勢處理級不處理標記區外部的像素。
例2包括例1之主題,其中,該臨界事件區係單像素掃描線、部分像素掃描線、或像素。
例3包括例1或例2之主題,其中,該目標出現級被組構成藉由加總該臨界事件區內之視訊串流的R、G、B像素值,來僅評估包括在臨界事件區中的像素。
例4包括例1-3之任一例之主題,其中,臨界事件區係單掃描線或部分掃描線或像素。
例5包括例1-4之任一例之主題,其中,該標記區係 與鍵盤對齊且是由鍵盤的周界來定界,而臨界事件區係沿著或以其它方式位在鍵盤的A-GH-L鍵上之單掃描線或部分掃描線或像素。
例6包括例3-5之任一例之主題,其中,目標出現級進一步被組構成比較該加總的R-G-B像素值與特定之臨界值來決定該現有圖框是否包括帶膚色之像素。
例7包括例3-6之任一例之主題,其中,加總臨界事件區中的R-G-B像素值係用來決定標記區之膚色相對於背景色的比率是否發生改變。
例8包括例1或例2之主題,其中,目標出現級被組構成藉由僅加總臨界事件區內之視訊串流的綠色像素值來僅評估包括在臨界事件區中的像素。
例9包括例8之主題,其中,臨界事件區係單掃描線或部分掃描線或像素。
例10包括例8或例9之主題,其中,標記區係與鍵盤對齊且是由鍵盤的周界來定界,而臨界事件區係沿著或以其它方式位在鍵盤之A-GH-L鍵上的單掃描線或部分掃描線或像素。
例11包括例8-10之任一例之主題,其中,目標出現級進一步被組構成比較該經加總的綠色像素值與給定的臨界值以決定現有圖框是否包括帶膚色之像素。
例12包括例8-11之任一例之主題,其中,僅加總臨界事件區中之綠色像素係用來決定標記區之膚色相對於背景色的比率是否發生改變。
例13包括例1-12之任一例之主題,可選擇性地包括臨界檢測級,被組構成決定視訊串流之現有圖框與視訊串流之前一圖框是否有足夠之差異,並回應前一圖框與現有圖框無足夠差異,該臨界檢測級進一步被組構成停止現有圖框之進一步的處理。此臨界檢測級例如被組構成將處理傳遞到目標出現級或可與目標出現級整合。在後者的情況,在某些實施例中,圖框之檢測包括可使用帶膚色之像素來宣告現有圖框與前一圖框有足夠之差異。
例14包括例1-4、6-9、及11-13之任一例之主題,其中,標記區與使用者輸入裝置、滑鼠墊、或桌面上之區域對齊。
例15包括例14之主題,其中,標記區與鍵盤對齊,且是由鍵盤的周界來定義。
例16包括例14之主題,其中,標記區與滑鼠墊對齊,且是由滑鼠墊的周界來定義。
例17包括例1-16之任一例之主題,其中,姿勢資料級包括分割級,其被組構成將有興趣的像素與無興趣之像素分開,其中,以斑點代表有興趣的像素,及以非斑點代表無興趣的像素。
例18包括例17之主題,其中,分割級係在圖形處理單元(GPU)中實施。
例19包括例17或18之主題,其中,姿勢處理級進一步包括剖析級,被組構成實施接收自分割級之斑點資料的空間解譯。
例20包括例19之主題,其中,剖析級被組構成實施斑點資料的空間解譯,以識別膚色區內之非膚色的類卵形區域的出現,且其中,膚色區內之非膚色的類卵形區域係完全封閉或部分封閉其中之一。
例21包括例19或20之主題,其中,姿勢處理級進一步包括姿勢辨識級,其被組構成實施接收自剖析級之斑點資料的時間解譯。
例22包括例21之主題,其中,目標出現級係在可部署於第一位置之攝像機內或附近實施,且具有包括使用者輸入區域的成像視野,並且,分割級、剖析級、與姿勢辨識級位在不同於第一位置的一或多個位置。
例23包括例21或22之主題,其中,分割級係在圖形處理單元中實施,以及,剖析級與姿勢辨識級係藉由應用軟體來實施。
例24包括例1-23之任一例之主題,目標出現級係在可部署於第一位置之攝像機內或附近實施,且具有包括使用者輸入區域的成像視野,並且,姿勢處理級係在不同於第一位置的一或多個位置實施。
在例25中,例1-24之任一例之主題可選擇性地包括應用程式介面(API),用以將一或多個級操作性地耦接至計算平台,系統被組構成在該計算平台中操作。
例26包括例1-25之任一例之主題,其中,目標出現級進一步被組構成回應在臨界事件區中檢測到膚色而發信號給計算平台(諸如在例25中所提及之計算平台)以將 其從低耗電模式中喚醒。
例27包括例26之主題,其中,目標出現級進一步被組構成至少在低耗電模式期間,以相對於計算平台在正常模式之圖框率低的圖框率操作。
例28包括的成像裝置包含申請專利範圍1至27項中任一項之系統,並且,攝像機操作性地耦接至系統,其中,目標出現級係在攝像機的感測器電路中實施。
例29包括的顯示器包含申請專利範圍1至27項中任一項之系統,其中,目標出現級係在整合於顯示器內之攝像機的感測器電路中實施。
例30包括使用原始視訊串流之電腦導覽的方法,包含:在第一處理級處,藉由僅評估包括在標記區內之臨界事件區中的像素來決定視訊串流之現有圖框是否包括帶膚色之像素,而標記區係為特定成像視野的子集,並且回應於現有圖框不包括有帶膚色之像素,停止後續級對現有圖框的進一步處理;以及,在一或多個後續處理級處,對被第一處理級指示為包括膚色之圖框,實施標記區內之影像資料之空間與時間解譯的至少其中之一;其中,該等處理級不處理標記區外部的像素。
在例31中,例30的主題可選擇性地包括在第一級之前的處理級處決定視訊串流之現有圖框與視訊串流之前一圖框是否有足夠之差異,並回應於該現有圖框與該前一圖框沒有足夠之差異,停止對現有圖框的進一步處理。
例32包括例30或31之主題,其中,該一或多個後 續處理級可包括一或多個第二、第三、第四、第五、及第六處理級。在這樣的例子中,該主題可選擇性地包括:在第二處理級處,接收來自現有圖框的資料,並將有興趣的像素與無興趣的像素分離,其中,有興趣的像素以斑點表示,而無興趣的像素以非斑點表示;在第三處理級處,藉由將斑點資料映射到人手幾何以對接收自第二處理級的斑點資料實施空間解譯;在第四處理級處,對接收自第三處理級的斑點資料實施時間解譯,以識別使用者導覽姿勢;以及,根據使用者導覽姿勢指揮計算系統。
例33包括例32之主題,其中,該等處理級(或至少某些處理級)被組構成步進與分散的配置,並且排除位於標記區外部之像素資訊的影像處理與傳遞。
例34包括例30-33之任一例之主題,其中,臨界事件區係單像素掃描線或部分像素掃描線。
例35包括例30-33之任一例之主題,其中,臨界事件區係單像素。
例36包括例30-35之任一例之主題,其中,第一處理級被組構成藉由加總臨界事件區內之視訊串流的R、G、B像素值來評估僅包括在臨界事件區中的像素。
例37包括例36之主題,其中,臨界事件區係單像描線或部分掃描線或像素。
例38包括例30-37之任一例之主題,其中,該標記區係與鍵盤對齊且是由鍵盤的周界來定界,而臨界事件區係沿著或以其它方式位在鍵盤之A-GH-L鍵上的單掃描線 或部分掃描線或像素。在其它的例示情況中,標記區及/或臨界事件區係給定之影像視野之使用者可組態的子集。
例39包括例36-38之任一例之主題,其中,第一處理級進一步被組構成比較R-G-B像素值與給定的臨界值,以決定現有圖框是否包括帶膚色之像素。
例40包括例36-39之任一例之主題,其中,加總臨界事件區中的R-G-B像素值以用來決定標記區之膚色相對於背景色的比率是否發生改變。
例41包括例30-35之任一例之主題,其中,該第一處理級被組構成藉由僅加總臨界事件區中視訊串流的綠色像素值以僅評估包括在臨界事件區中之像素。
例42包括例41之主題,其中,臨界事件區係單掃描線或部分掃描線或像素。
例43包括例41或42之主題,其中,標記區係與鍵盤對齊且是由鍵盤的周界來定界,而臨界事件區係沿著或以其它方式位在鍵盤之A-GH-L鍵上的單掃描線或部分掃描線或像素。
例44包括例41-43之任一例之主題,其中,第一處理級進一步被組構成比較該經加總的綠色像素值與給定的臨界值以決定現有圖框是否包括帶膚色之像素。
例45係以指令編碼之非暫時性電腦可讀取媒體或電腦程式產品,當藉由一或多個處理器執行指令時,導致使用原始視訊串流實行導覽方法。該方法例如可包括例30-44任一例之主題,或如例1-30所描述之任何電腦可實施 的各項功能。
基於說明與描述之目的,已於前文提出對例示實施例的描述。其無意鉅細無遺地包羅或將本揭示限制在與揭露絲毫不差之形式。根據本揭示可有很多的修改與衍生。本揭示之範圍並無意受所描述之細節的限制,反而是受所附申請專利範圍的限制。未來提出申請的申請案對本申請案主張優先權,可以不同方式申請所揭示的主題,且可一般地包括任何一或多組各方面的限制,或以其它方式顯示本文的揭示。

Claims (25)

  1. 一種處理原始視訊串流之系統,包含:目標出現級,包含被組構成用以藉由僅評估包括在標記區內之臨界事件區中的像素來決定該視訊串流的現有圖框是否包括帶膚色之像素的積體電路,而該標記區係特定成像視野之子集,並且,回應於該現有圖框不包括帶膚色之像素,該目標出現級進一步被組構成用以停止後續級對該現有圖框的進一步處理;以及姿勢處理級,被組構成用以對於被該目標出現級指示為包括有膚色之圖框,執行該標記區內之影像資料空間與時間解譯的至少其中之一;其中,該目標出現級或姿勢處理級不處理該標記區外部的像素。
  2. 如申請專利範圍第1項之系統,其中,該臨界事件區係單像素掃描線、部分像素掃描線、或像素。
  3. 如申請專利範圍第1項之系統,其中,該目標出現級被組構成用以藉由加總該臨界事件區內之該視訊串流的紅(R)、綠(G)、及藍(B)像素值,來僅評估包括在該臨界事件區中的像素。
  4. 如申請專利範圍第3項之系統,其中,該臨界事件區係單掃描線或部分掃描線或像素。
  5. 如申請專利範圍第3項之系統,其中,該目標出現級進一步被組構成用以比較該加總的紅-綠-藍像素值與特定之臨界值來決定該現有圖框是否包括帶膚色之像素。
  6. 如申請專利範圍第3項之系統,其中,加總該臨界事件區中的該紅-綠-藍像素值係用來決定該標記區之膚色相對於背景色的比率是否發生改變。
  7. 如申請專利範圍第1項之系統,其中,該目標出現級被組構成用以藉由僅加總該臨界事件區內之該視訊串流的綠色像素值來僅評估包括在該臨界事件區中的像素。
  8. 如申請專利範圍第7項之系統,其中,該臨界事件區係單掃描線或部分掃描線或像素。
  9. 如申請專利範圍第7項之系統,其中,該目標出現級進一步被組構成用以比較該經加總的綠色像素值與給定的臨界值以決定該現有圖框是否包括帶膚色之像素。
  10. 如申請專利範圍第7項之系統,其中,僅加總該臨界事件區中之綠色像素係用來決定該標記區之膚色相對於背景色的比率是否發生改變。
  11. 如申請專利範圍第1至10項中任一項之系統,進一步包含臨界檢測級,被組構成用以決定該視訊串流之該現有圖框與該視訊串流之前一圖框是否有足夠之差異,並回應該前一圖框與該現有圖框無足夠差異,該臨界檢測級進一步被組構成停止該現有圖框之進一步的處理。
  12. 如申請專利範圍第1至10項中任一項之系統,其中,該標記區係與鍵盤對齊,且是藉由該鍵盤之周界來定界。
  13. 如申請專利範圍第1至10項中任一項之系統,其中,該目標出現級係在配置於第一位置,且具有包括使 用者輸入區之成像視野的攝像機內或附近實施,而該姿勢處理級係在與該第一位置不同的一或多個位置實施。
  14. 如申請專利範圍第1至10項中任一項之系統,進一步包含應用程式介面(application programming interface;API),操作性地將一或多個所述該級耦接到該系統被組構於其中操作的計算平台。
  15. 如申請專利範圍第1至10項中任一項之系統,其中,該目標出現級進一步被組構成用以回應檢測到該臨界事件區中之膚色而發信號給計算平台,以從低耗電模式中喚醒。
  16. 一種包含申請專利範圍第1至10項中任一項之系統的顯示器,其中,該目標出現級係在整合於該顯示器內之攝像機的感測電路內實施。
  17. 一種使用原始視訊串流之電腦導覽方法,包含:在第一處理級處,藉由僅評估包括在標記區內之臨界事件區中的像素來決定該視訊串流之現有圖框是否包括帶膚色之像素,而該標記區係為特定成像視野的子集,並且,回應於該現有圖框不包括帶膚色之像素,停止後續級對該現有圖框的進一步處理;以及在一或多個後續處理級處,對被該第一處理級指示為包括膚色之圖框,執行該標記區內之影像資料之空間與時間解譯的至少其中之一;其中,該等處理級不處理該標記區外部的像素。
  18. 如申請專利範圍第17項之方法,其中,該一或 多個後續處理級包括第二、第三、第四、第五、及第六處理級,該方法進一步包含:在該第一級之前的處理級處決定該視訊串流之該現有圖框與該視訊串流之前一圖框是否有足夠之差異,並回應於該現有圖框與該前一圖框沒有足夠之差異,停止對該現有圖框的進一步處理;在該第二處理級處,接收來自該現有圖框的資料,並將有興趣的像素與無興趣的像素分離,其中,有興趣的像素以斑點表示,而無興趣的像素不以斑點表示;在該第三處理級處,藉由將該斑點資料映射到人手幾何以對接收自該第二處理級的斑點資料實施空間解譯;在該第四處理級處,對接收自該第三處理級的斑點資料實施時間解譯,以識別使用者導覽姿勢;以及根據該使用者導覽姿勢指揮計算系統。
  19. 如申請專利範圍第17項之方法,其中,該第一處理級被組構成藉由加總該臨界事件區內之該視訊串流的紅、綠、及藍像素值來僅評估包括在該臨界事件區內之像素,以決定該標記區之膚色相對於背景色的比是否發生改變。
  20. 如申請專利範圍第17項之方法,其中,該第一處理級被組構成藉由僅加總該臨界事件區內之該視訊串流之綠色像素值來僅評估包括在該臨界事件區內之像素。
  21. 一種以指令編碼之非暫時性電腦可讀取媒體,當藉由一或多個處理器執行指令時,導致使用原始視訊串流 執行導覽方法,該方法包含:在第一處理級處,藉由僅評估包括在標記區內之臨界事件區中的像素來決定該視訊串流之現有圖框是否包括帶膚色之像素,而該標記區為特定成像視野的子集,並回應於該現有圖框不包括帶膚色之像素,停止後續級對該現有圖框的進一步處理;以及在一或多個後續處理級處,對被該第一處理級指示為包括膚色之圖框,執行該標記區內之影像資料的空間與時間解譯的至少其中之一;其中,該等處理級不處理該標記區外部的像素。
  22. 如申請專利範圍第21項之電腦可讀取媒體,其中,該標記區係該特定成像視野之使用者可組構的子集。
  23. 如申請專利範圍第21項之電腦可讀取媒體,其中,該第一處理級被組構成用以藉由加總該臨界事件區內之該視訊串流的紅、綠、與藍像素值來僅評估包括在該臨界事件區內的像素。
  24. 如申請專利範圍第21項之電腦可讀取媒體,其中,該標記區係與鍵盤對齊,且是藉由該鍵盤之周界來定界。
  25. 如申請專利範圍第21項之電腦可讀取媒體,其中,該第一處理級被組構成用以藉由僅加總該臨界事件區內之該視訊串流的綠色像素值來僅評估包括在該臨界事件區中的像素。
TW103106061A 2013-03-13 2014-02-24 使用膚色檢測的視訊串流的姿勢預處理 TWI525475B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US13/801,111 US9292103B2 (en) 2013-03-13 2013-03-13 Gesture pre-processing of video stream using skintone detection

Publications (2)

Publication Number Publication Date
TW201506684A TW201506684A (zh) 2015-02-16
TWI525475B true TWI525475B (zh) 2016-03-11

Family

ID=51503256

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103106061A TWI525475B (zh) 2013-03-13 2014-02-24 使用膚色檢測的視訊串流的姿勢預處理

Country Status (3)

Country Link
US (1) US9292103B2 (zh)
CN (2) CN104050443B (zh)
TW (1) TWI525475B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8761448B1 (en) 2012-12-13 2014-06-24 Intel Corporation Gesture pre-processing of video stream using a markered region
US9104240B2 (en) 2013-01-09 2015-08-11 Intel Corporation Gesture pre-processing of video stream with hold-off period to reduce platform power
US20140267598A1 (en) * 2013-03-14 2014-09-18 360Brandvision, Inc. Apparatus and method for holographic poster display
US20140365272A1 (en) * 2013-06-07 2014-12-11 Bby Solutions, Inc. Product display with emotion prediction analytics
US9857971B2 (en) * 2013-12-02 2018-01-02 Industrial Technology Research Institute System and method for receiving user input and program storage medium thereof
KR20160014915A (ko) * 2014-07-30 2016-02-12 삼성전자주식회사 디스플레이장치 및 그 제어방법
US9778750B2 (en) * 2014-09-30 2017-10-03 Xerox Corporation Hand-gesture-based region of interest localization
CN107527051B (zh) * 2016-06-21 2020-05-15 四川大学 一种感知图像内容的oled低功耗显示方法
US20190258325A1 (en) * 2016-11-01 2019-08-22 The Hong Kong University Of Science And Technology Mid-air finger pointing detection for device interaction
CN108230328B (zh) * 2016-12-22 2021-10-22 新沂阿凡达智能科技有限公司 获取目标对象的方法、装置和机器人
CN106875399B (zh) * 2017-01-04 2020-02-18 努比亚技术有限公司 一种实现交互式图像分割的方法、装置及终端
US10496879B2 (en) 2017-08-25 2019-12-03 Qualcomm Incorporated Multiple-detection gesture recognition
US10776102B1 (en) 2019-05-10 2020-09-15 Microsoft Technology Licensing, Llc Securing firmware installation on USB input device
CN110532993B (zh) * 2019-09-04 2022-03-08 深圳市捷顺科技实业股份有限公司 一种人脸防伪方法、装置、电子设备及介质
CN110825524B (zh) * 2019-10-31 2022-04-15 Oppo广东移动通信有限公司 应用运行优化控制方法及相关产品
CN111062136B (zh) * 2019-12-20 2024-02-09 南京大学 一种实时的衣物形态确定方法及***
CN113220114B (zh) * 2021-01-22 2023-06-20 华南理工大学 一种融合人脸识别的可嵌入非接触式电梯按键交互方法

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002091302A2 (en) 2001-05-04 2002-11-14 Legend Films, Llc Image sequence enhancement system and method
GB9019538D0 (en) 1990-09-07 1990-10-24 Philips Electronic Associated Tracking a moving object
EP0560979A1 (en) 1991-10-07 1993-09-22 Eastman Kodak Company A compositer interface for arranging the components of special effects for a motion picture production
US6067125A (en) 1997-05-15 2000-05-23 Minerva Systems Structure and method for film grain noise reduction
US6301370B1 (en) 1998-04-13 2001-10-09 Eyematic Interfaces, Inc. Face recognition from video images
US7027054B1 (en) * 2002-08-14 2006-04-11 Avaworks, Incorporated Do-it-yourself photo realistic talking head creation system and method
US7665041B2 (en) * 2003-03-25 2010-02-16 Microsoft Corporation Architecture for controlling a computer using hand gestures
JP4401727B2 (ja) * 2003-09-30 2010-01-20 キヤノン株式会社 画像表示装置及び方法
JP4227561B2 (ja) * 2004-06-03 2009-02-18 キヤノン株式会社 画像処理方法、画像処理装置
US7436981B2 (en) 2005-01-28 2008-10-14 Euclid Discoveries, Llc Apparatus and method for processing video data
US7796827B2 (en) 2004-11-30 2010-09-14 Hewlett-Packard Development Company, L.P. Face enhancement in a digital video
CN101341494B (zh) * 2005-10-05 2013-03-06 高通股份有限公司 基于视频帧运动的自动关注区检测
US8019170B2 (en) 2005-10-05 2011-09-13 Qualcomm, Incorporated Video frame motion-based automatic region-of-interest detection
KR101006668B1 (ko) 2005-12-28 2011-01-10 후지쯔 가부시끼가이샤 Tv 전화 기능의 촬영 화상 처리 절환 장치
US7634108B2 (en) 2006-02-14 2009-12-15 Microsoft Corp. Automated face enhancement
KR100776801B1 (ko) * 2006-07-19 2007-11-19 한국전자통신연구원 화상 처리 시스템에서의 제스처 인식 장치 및 방법
TWI377055B (en) 2007-08-10 2012-11-21 Ind Tech Res Inst Interactive rehabilitation method and system for upper and lower extremities
WO2009131539A1 (en) 2008-04-22 2009-10-29 Agency For Science, Technology And Research A method and system for detecting and tracking hands in an image
CN101359367B (zh) * 2008-09-11 2010-09-29 西安理工大学 一种基于四边形骨架结构的静态手势特征描述方法
DE102008052928A1 (de) * 2008-10-23 2010-05-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, Verfahren und Computerprogramm zur Erkennung einer Geste in einem Bild, sowie Vorrichtung, Verfahren und Computerprogramm zur Steuerung eines Geräts
WO2010099035A1 (en) 2009-02-25 2010-09-02 Honda Motor Co., Ltd. Body feature detection and human pose estimation using inner distance shape contexts
CN101551732A (zh) 2009-03-24 2009-10-07 上海水晶石信息技术有限公司 带有交互功能的增强现实的方法及其***
US8428368B2 (en) 2009-07-31 2013-04-23 Echostar Technologies L.L.C. Systems and methods for hand gesture control of an electronic device
WO2011066343A2 (en) * 2009-11-24 2011-06-03 Next Holdings Limited Methods and apparatus for gesture recognition mode control
US8405736B2 (en) * 2010-04-07 2013-03-26 Apple Inc. Face detection using orientation sensor data
KR101167784B1 (ko) 2010-07-09 2012-07-25 성균관대학교산학협력단 단말기의 후면부 손가락 움직임에 따른 포인터 인식 방법 및 제어 명령어 인식 방법
HK1149884A2 (en) * 2010-08-26 2011-10-14 Shining Union Ltd An optical keypad based on gesture control
US9213890B2 (en) 2010-09-17 2015-12-15 Sony Corporation Gesture recognition system for TV control
CN102081918B (zh) * 2010-09-28 2013-02-20 北京大学深圳研究生院 一种视频图像显示控制方法及视频图像显示器
US8768006B2 (en) * 2010-10-19 2014-07-01 Hewlett-Packard Development Company, L.P. Hand gesture recognition
US8817087B2 (en) * 2010-11-01 2014-08-26 Robert Bosch Gmbh Robust video-based handwriting and gesture recognition for in-car applications
US20140310271A1 (en) 2011-04-11 2014-10-16 Jiqiang Song Personalized program selection system and method
EP2512141B1 (en) 2011-04-15 2019-07-17 Sony Interactive Entertainment Europe Limited System and method of user interaction in augmented reality
CN102169391A (zh) * 2011-05-13 2011-08-31 汉王科技股份有限公司 触摸设备输入装置和输入方法
CN102184021B (zh) 2011-05-27 2013-06-12 华南理工大学 一种基于手写输入和指尖鼠标的电视人机交互方法
CN102509088B (zh) * 2011-11-28 2014-01-08 Tcl集团股份有限公司 一种手部运动检测的方法、装置及人机交互***
CN102592113B (zh) * 2011-12-23 2014-07-30 哈尔滨工业大学深圳研究生院 一种基于表观特征的静态手势快速识别法
CN102629314A (zh) * 2012-02-17 2012-08-08 华南理工大学 一种基于红外图像的手势识别***及方法
CN102801924B (zh) * 2012-07-20 2014-12-03 合肥工业大学 一种基于Kinect的电视节目主持互动***
US8805017B2 (en) * 2012-12-13 2014-08-12 Intel Corporation Gesture pre-processing of video stream to reduce platform power
US8761448B1 (en) * 2012-12-13 2014-06-24 Intel Corporation Gesture pre-processing of video stream using a markered region
US9104240B2 (en) 2013-01-09 2015-08-11 Intel Corporation Gesture pre-processing of video stream with hold-off period to reduce platform power
US9129155B2 (en) * 2013-01-30 2015-09-08 Aquifi, Inc. Systems and methods for initializing motion tracking of human hands using template matching within bounded regions determined using a depth map
CN103440035A (zh) * 2013-08-20 2013-12-11 华南理工大学 一种三维空间中的手势识别***及其识别方法
CN103616954A (zh) * 2013-12-06 2014-03-05 Tcl通讯(宁波)有限公司 一种虚拟键盘***、实现方法及移动终端

Also Published As

Publication number Publication date
CN104050443A (zh) 2014-09-17
CN104050443B (zh) 2018-10-12
US20140267042A1 (en) 2014-09-18
CN109086747A (zh) 2018-12-25
CN109086747B (zh) 2023-01-24
US9292103B2 (en) 2016-03-22
TW201506684A (zh) 2015-02-16

Similar Documents

Publication Publication Date Title
TWI525475B (zh) 使用膚色檢測的視訊串流的姿勢預處理
US10261596B2 (en) Gesture pre-processing of video stream using a markered region
US8805017B2 (en) Gesture pre-processing of video stream to reduce platform power
TWI516099B (zh) 用以降低平台電力之帶有延遲期間的視訊串流之手勢前置處理技術
TWI618409B (zh) 視頻中之局部變化偵測技術
TWI605433B (zh) 基於眼睛追蹤選擇性背光照明一顯示器的技術
US10671841B2 (en) Attribute state classification
US11854310B2 (en) Face liveness detection method and related apparatus
Yin et al. CamK: Camera-based keystroke detection and localization for small mobile devices
Roy et al. Real time hand gesture based user friendly human computer interaction system
CN108521545B (zh) 基于增强现实的图像调整方法、装置、存储介质和电子设备
US20240193773A1 (en) Method and apparatus for determining article acting on face, and device and medium
Pawar et al. Mouse Control using a Web Camera and Hand Gestures with Colour Tapes
CN113706371A (zh) 一种特效效果校验方法、装置和电子设备
CN113849142A (zh) 图像展示方法、装置、电子设备及计算机可读存储介质
Mohammad CSE434 & ETE434: Project