TWI757871B

TWI757871B - 基於影像的手勢控制方法與使用此方法的電子裝置

Info

Publication number: TWI757871B
Application number: TW109131889A
Authority: TW
Inventors: 吳政澤; 李安正; 洪英士
Original assignee: 宏碁股份有限公司
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2022-03-11
Also published as: TW202213040A

Abstract

一種基於影像的手勢控制方法與使用此方法的電子裝置。透過顯示螢幕顯示影像。透過影像擷取裝置對使用者手部擷取手部影像。利用手部影像偵測使用者手部於三維空間中進行的一手勢，利用手部影像判斷手勢是否符合預定控制手勢。若是，對手部影像進行關鍵點偵測，以獲取使用者手部的至少一關鍵點座標。將至少一關鍵點座標映射至顯示螢幕上的至少一二維螢幕座標。依據至少一二維螢幕座標對該影像中的影像物件執行一操作。

Description

基於影像的手勢控制方法與使用此方法的電子裝置

本發明是有關於一種電子裝置，且特別是有關於一種基於影像的手勢控制方法與使用此方法的電子裝置。

在傳統的使用者輸入介面中，通常是利用按鍵、鍵盤或滑鼠來操控電子裝置。隨著科技的進步，新一代的使用者介面作得越來越人性化且越來越方便，其中觸控介面即是一個成功的例子，其讓使用者可直覺式地點選螢幕上的物件而達到操控的效果。對於現今的觸控式電子產品而言，使用者可以透過觸控筆或手指來操控電子產品，使得電子產品可反應於觸控操作執行各種功能。然而，隨著電子產品的功能越來越多，直接碰觸螢幕的觸控操作方式已漸漸不能滿足使用者操作上的需求。像是，觸控技術需使用者觸控或接近觸控螢幕才能發生效用，此將直接限制使用者與電子產品之間的實際距離。另一方面，當電子產品的螢幕不具備觸控功能時，使用者必須使用額外的輸入裝置來操控電子裝置，此種操控方式通常較不直覺且不便利。此外，對應於不同的使用者操作情境，都有其較為適合的使用者輸入方式。

有鑑於此，本發明提出一種基於影像的手勢控制方法與使用此方法的電子裝置，可提高電子裝置使用上的直覺性與便利性。

本發明實施例提供一種基於影像的手勢控制方法，適用於包括影像擷取裝置與顯示螢幕的電子裝置，並包括下列步驟。透過顯示螢幕顯示影像。透過影像擷取裝置對使用者手部擷取手部影像。利用手部影像偵測使用者手部於三維空間中進行的一手勢，利用手部影像判斷手勢是否符合預定控制手勢。若是，對手部影像進行關鍵點偵測，以獲取使用者手部的至少一關鍵點座標。將至少一關鍵點座標映射至顯示螢幕上的至少一二維螢幕座標。依據至少一二維螢幕座標對該影像中的影像物件執行一操作。

本發明實施例提供一種電子裝置，其包括影像擷取裝置、儲存裝置，以及處理器。處理器耦接影像擷取裝置與儲存裝置，並經配置以執行下列步驟。透過顯示螢幕顯示影像。透過影像擷取裝置對使用者手部擷取手部影像。利用手部影像偵測使用者手部於三維空間中進行的一手勢，利用手部影像判斷手勢是否符合預定控制手勢。若是，對手部影像進行關鍵點偵測，以獲取使用者手部的至少一關鍵點座標。將至少一關鍵點座標映射至顯示螢幕上的至少一二維螢幕座標。依據至少一二維螢幕座標對該影像中的影像物件執行一操作。

基於上述，於本發明的實施例中，使用者可透過浮空手勢對顯示螢幕所顯示的影像中的一影像物件執行一操作，讓使用者在使用圖像設計軟體時能體驗更為直覺且便利的操作效果。

本發明的部份實施例接下來將會配合附圖來詳細描述，以下的描述所引用的元件符號，當不同附圖出現相同的元件符號將視為相同或相似的元件。

圖1是依照本發明一實施例的電子裝置的功能方塊圖。請參照圖1，電子裝置10包括顯示螢幕110、儲存裝置120、影像擷取裝置130，以及處理器140。電子裝置10可以是筆記型電腦、桌上型電腦、智慧型手機、平板電腦、遊戲機或其他具有顯示功能的電子裝置，在此並不對電子裝置10的種類加以限制。

顯示螢幕110可以是液晶顯示螢幕（Liquid Crystal Display，LCD）、發光二極體（Light Emitting Diode，LED）顯示螢幕、有機發光二極體（Organic Light Emitting Diode，OLED）等各類型的顯示螢幕，本發明對此不限制。

儲存裝置120用以儲存檔案、影像、指令、程式碼、軟體元件等等資料，其可以例如是任意型式的固定式或可移動式隨機存取記憶體（random access memory，RAM）、唯讀記憶體（read-only memory，ROM）、快閃記憶體（flash memory）、硬碟或其他類似裝置、積體電路及其組合。

影像擷取裝置130可包括具有電荷耦合元件（Charge Coupled Device，CCD）或互補式金氧半導體（Complementary Metal-Oxide Semiconductor，CMOS）元件的影像感測器，用以擷取顯示螢幕110前方的影像，以偵測顯示螢幕110前方的使用者在三維空間中進行手勢操作的位置及種類。舉例而言，影像擷取裝置130可以是RGB彩色照相裝置，但本發明對此不限制。

處理器140耦接儲存裝置120、影像擷取裝置130以及顯示螢幕110，用以控制電子裝置10的整體作動，其例如是中央處理單元（Central Processing Unit，CPU），或是其他可程式化之一般用途或特殊用途的微處理器（Microprocessor）、數位訊號處理器（Digital Signal Processor，DSP）、可程式化控制器、特殊應用積體電路（Application Specific Integrated Circuits，ASIC）、可程式化邏輯裝置（Programmable Logic Device，PLD）、或其他類似裝置或這些裝置的組合。處理器140可執行記錄於儲存裝置120中的程式碼、軟體模組、指令等等，以實現本發明實施例的手勢控制方法。

圖2是依照本發明一實施例的手勢控制方法的流程圖。請參照圖2，本實施例的方式適用於上述實施例中的電子裝置10，以下即搭配電子裝置10中的各項元件說明本實施例的詳細步驟。

於步驟S201，透過顯示螢幕110顯示影像。於一實施例中，電子裝置10可在使用者操作圖像設計軟體或影像播放軟體時，透過顯示螢幕110顯示照片或其他影像圖檔。本發明對於影像的圖檔格式並不加以限制。於步驟S202，處理器140透過影像擷取裝置130對使用者手部擷取手部影像。

於步驟S203，處理器140利用手部影像偵測使用者手部於三維空間中進行的手勢，並獲取使用者手部的至少一關鍵點座標。使用者透過運動手指頭可比出各種不同的手勢。於一實施例中，利用膚色偵測、邊緣偵測、機器學習模型或其他相關電腦視覺技術，處理器140可透過手部影像來辨識使用者手部的手勢的種類。於一實施例中，處理器140可依據手部影像判斷使用者的手勢為握拳手勢、單指手勢、雙指手勢或其他多指手勢。舉例而言，處理器140可依據手部影像判斷使用者的手勢是否為食指伸出的單指手勢。或者，處理器140可依據手部影像判斷使用者的手勢是否為食指伸出與大拇指伸出的雙指手勢。於本實施例中，處理器140可先判斷手勢是否符合預定控制手勢，若是，處理器140對手部影像進行關鍵點偵測，以獲取使用者手部的至少一關鍵點座標。

此外，於一實施例中，處理器140可透過機器學習模型來對使用者手部影像進行關鍵點偵測（Keypoint Triangulation），以偵測出使用者手部的多個手部關鍵點，並獲取這些手部關鍵點的三維關鍵點座標。如圖3所示，圖3是依照本發明一實施例的使用者手部的關鍵點座標的示意圖。處理器140可以透過機器學習模型從單一手部影像Img_f推算出21個使用者手部的3D關鍵點座標。如圖3所示，處理器140可獲取多個關鍵點座標（例如2食指指尖的的關鍵點座標KP1與大拇指指尖的關鍵點座標KP2）。

於步驟S204，處理器140將至少一關鍵點座標映射至顯示螢幕110上的至少一二維螢幕座標。為了達成操控顯示螢幕110上的影像物件的目的，處理器140將使用者手部的關鍵點座標映射為二維螢幕座標，從而依據二維螢幕座標執行後續操作。具體而言，處理器140可先將三維關鍵點座標投影轉換為二維平面上的二維虛擬座標後，再將此二維虛擬座標正規化為符合螢幕座標系統的二維螢幕座標。於一實施例中，處理器140將至少一關鍵點座標投影至使用者手部與影像擷取裝置130之間的虛擬平面上，以獲取虛擬平面上的至少一二維虛擬座標。接著，依據顯示螢幕的解析度與螢幕選定範圍，處理器140正規化至少一二維虛擬座標，以獲取顯示螢幕110上的至少一二維螢幕座標。

詳細而言，圖4是依照本發明一實施例的產生二維螢幕座標的示意圖。請參照圖4，食指指尖的三維關鍵點座標KP1為(X,Y,Z)。處理器140可將關鍵點座標KP1投影至使用者手部與影像擷取裝置130的相機位置C1之間的虛擬平面41上，而獲取虛擬平面41上的二維虛擬座標PV1，其表示為(x,y)。接著，處理器140可依據螢幕解析度對二維虛擬座標PV1進行正規化處理而產生螢幕座標系上的二維螢幕座標PS1，其表示為(x _cur,y _cur)。

於一實施例中，基於相似三角形原理，處理器140可依據一深度比例而將三維關鍵點座標KP1轉換為二維虛擬座標PV1。處理器140將至少一關鍵點座標KP1的第一座標分量乘上一深度比例f/Z，而獲取至少一二維虛擬座標PV1的第一座標分量，即x=X*f/Z。處理器140將至少一關鍵點座標KP1的第二座標分量乘上一深度比例f/Z，而獲取至少一二維虛擬座標PV1的第二座標分量，即y=Y*f/Z。深度比例f/Z為虛擬平面41與影像擷取裝置130之間的預設距深度f比上至少一關鍵點座標KP1的第三座標分量Z。

然後，繼續參照圖4，處理器140可依據下列式(1)～式(4)與二維虛擬座標PV1決定二維螢幕座標PS1。於此，螢幕選定範圍的左上角座標為(x _min,y _min)，而螢幕選定範圍的右下角座標為(x _max,y _max)。螢幕選定範圍的尺寸與位置可依據實際需求而設置，本發明對此不限制。於一實施例中，當螢幕選定範圍為全螢幕時，(x _min,y _min)可表徵為(0,0)，則(x _max,y _max)可表徵為(S _width-1,S _height-1)，且顯示螢幕110的解析度為S _width*S _height。

式(1)

式(2)

式(3)

式(4) 藉此，處理器140可將使用者手部的一或多個關鍵點座標轉換為顯示螢幕110上螢幕選定範圍內的一或多個二維螢幕座標。

最後，於步驟S205，處理器140依據至少一二維螢幕座標對影像中的影像物件執行一操作。具體而言，處理器140可透過各種影像分析技術而從影像中萃取出影像物件，此影像物件例如為影像中的人物、動植物、交通工具、日常用品或其他可辨識影像物件等等。此外，上述操作可包括選取操作、拖曳操作、縮放操作或施於影像物件的其他影像編輯操作，本發明對此不限制。於一實施例中，處理器140可依據關聯於使用者手部的二維螢幕座標識別使用者選取的影像物件。於一實施例中，處理器140可依據關聯於使用者手部的二維螢幕座標將影像物件自第一位置拖曳至第二位置。於一實施例中，處理器140可依據關聯於使用者手部的二維螢幕座標放大或縮小影像物件。於一實施例中，處理器140可依據關聯於使用者手部的二維螢幕座標對影像物件進行顏色處理或其他修圖處理。藉此，使用者可透過非常直覺的操作方式而對影像物件進行各式操作，大幅提昇圖像設計軟體的操作流暢性與方便性。使用者也不會受限於執行觸控操作的距離限制，而可從相距於電子裝置10較遠的位置進行相關操作。

圖5是依照本發明一實施例的手勢控制方法的應用情境示意圖。請參照圖5，使用者U1可透過手勢G1而選取影像Img_1中的影像物件obj_1。具體而言，透過將使用者手部的關鍵點座標KP1映射至顯示螢幕110上的二維螢幕座標PS1，電子裝置10可判斷使用者U1選取影像物件obj_1。在電子裝置10確定使用者選取影像物件obj_1之後，使用者U1可透過手勢G2而將影像Img_1中的影像物件obj_1拖曳至一資料夾，以將影像物件obj_1儲存至使用者選取的資料夾。或者，於其他實施例中，使用者可透過手勢G2而將影像Img_1中的影像物件obj_1拖曳至另一張影像上，使另一張影像上合成有影像物件obj_1。

為了更清楚說明本發明，以下將以對影像物件進行選取操作與拖曳操作為範例進行說明。圖6是依照本發明一實施例的手勢控制方法的流程圖。請參照圖6，本實施例的方式適用於上述實施例中的電子裝置10，以下即搭配電子裝置10中的各項元件說明本實施例的詳細步驟。

於步驟S601，透過顯示螢幕110顯示影像。於步驟S602，處理器140對影像進行語義分割（Semantic Segmentation）操作，以獲取影像中的影像物件的物件邊界。詳細而言，處理器140可透過語義分割操作，對影像中的每一像素分類為一或多個影像物件或影像背景。圖7是依照本發明一實施例的對影像進行語義分割操作的示意圖。請參照圖7，於一實施例中，處理器140可先對影像Img_2進行物件偵測而偵測出影像Img_2中的影像物件。舉例而言，處理器140可透過機器學習模型（例如CNN模型等等）來對影像Img_2進行物件偵測，以辨識出影像Img_2中的影像物件與其對應物件種類。在進行物件偵測之後，處理器140可獲取對應於各個影像物件的物件框（Bounding box）與物件種類，例如圖7所示的物件框B1～B5。然後，處理器140可對這些物件框B1～B5所框選的影像區塊進行語義分割處理，而將影像Img_2中每一個像素分類為背景與多個影像物件，從而獲取這些影像物件各自對應的物件邊界M1～M5。

於步驟S603，處理器140透過影像擷取裝置130對使用者手部擷取手部影像。於步驟S604，處理器140利用手部影像判斷手勢是否符合預定控制手勢。於本實施例中，預定控制手勢包括特定單指手勢與特定雙指手勢。於本實施例中，當手勢不符合特定單指手勢或特定雙指手勢時，處理器140將不會對影像物件進行任何操作。反之，若步驟S604判斷為是，於步驟S605，處理器140對手部影像進行關鍵點偵測，以獲取使用者手部的至少一關鍵點座標。於步驟S606，處理器140將至少一關鍵點座標映射至顯示螢幕110上的至少一二維螢幕座標。步驟S604～步驟S605的操作可參考前述實施例說明。

當手勢符合特定單指手勢，於步驟S607，處理器140判斷對應於至少一關鍵點座標的至少一二維螢幕座標是否位於物件邊界之內。若步驟S607判斷為是，於步驟S608，處理器140對影像物件執行一選取操作。反之，若關鍵點座標的二維螢幕座標未位於物件邊界之內，處理器140可依據關鍵點座標的二維螢幕座標於顯示螢幕110上標示用以提示使用者的一游標。

舉例而言，圖8是依照本發明一實施例的對影像物件執行選取操作的示意圖。請參照圖8，假設顯示螢幕110顯示有影像Img_3，且影像Img_3經語義分割操作可獲取影像物件Obj_1～Obj_4。當食指指尖的關鍵點座標KP1_1為(X _i,Y _i,Z _i)，處理器140可將關鍵點座標KP1_1映射為二維螢幕座標PS1_1。處理器140可判斷二維螢幕座標PS1_1並未位於影像物件Obj_1～Obj_4的物件邊界之內，因此處理器140可控制顯示螢幕110於二維螢幕座標PS1_1顯示一游標。之後，當使用者手部項右移動後，食指指尖的關鍵點座標KP1_2為(X _f,Y _f,Z _f)，處理器140可將關鍵點座標KP1_2映射為二維螢幕座標PS1_2。處理器140可判斷二維螢幕座標PS1_2並位於影像物件Obj_3的物件邊界之內，因此處理器140可對影像物件Obj_3執行一選取操作，以依據後續的其他手勢對影像物件Obj_3執行其他操作。或者，於一實施例中，當使用者已經選定執行特定影像編輯功能時，處理器140可依據上述選取操作而直接實施前述影像編輯功能於影像物件Obj_3上。一實施例中，處理器140可控制顯示螢幕110於影像物件Obj_3的周圍顯示粗邊效果、放大影像物件Obj_3或其他視覺效果，來提示使用者已經選取影像物件Obj_3。

另一方面，當手勢符合特定雙指手勢，於步驟S609，處理器140判斷第一關鍵點座標與第二關鍵點座標之間的距離是否小於門檻值。若步驟S609判斷為是，於步驟S610，處理器140對影像物件開始執行拖曳操作。於步驟S611，反應於第一關鍵點座標與第二關鍵點座標之間的距離大於另一門檻值，處理器140對影像物件結束執行拖曳操作。

圖9是依照本發明一實施例的計算第一關鍵點與第二關鍵點之間的距離的示意圖。請參照圖9，當手勢符合特定雙指手勢，處理器140可依據食指指尖的關鍵點座標KP1（即第一關鍵點座標）與大拇指指尖的關鍵點座標KP2（即第二關鍵點座標），來判斷使用者是否企圖對影像物件執行拖曳操作以及拖曳操作對應的拖曳路徑。如圖9所示，處理器140可透過計算座標(X ₁,Y ₁,Z ₁)與座標(X ₂,Y ₂,Z ₂)之間的歐式距離來獲取關鍵點座標KP1與關鍵點座標KP2之間的距離d，如下列式(5)所示。

式(5)

圖10是依照本發明一實施例的對影像物件執行拖曳操作的示意圖。假設使用者已經對影像物件obj_10進行選取操作。請參照圖10，當使用者的食指與大拇指靠攏到足夠程度時，關鍵點座標KP1_1與關鍵點座標KP2_1之間的距離將小於門檻值。與此同時，反應於關鍵點座標KP1_1與關鍵點座標KP2_1之間的距離小於門檻值，處理器140可對位於資料夾F1內的影像物件obj_10開始執行一拖曳操作。接著，使用者可在不改變手勢的情況下移動使用者手部位置。在將影像物件obj_10拖曳至目標位置（例如資料夾F2的螢幕顯示位置）之後，使用者可將食指與大拇指拉開釋放。當使用者的食指與大拇指拉開釋放到足夠程度時，關鍵點座標KP1_2與關鍵點座標KP2_2之間的距離將大於另一門檻值。反應於關鍵點座標KP1_2與關鍵點座標KP2_2之間的距離大於另一門檻值，處理器140可對影像物件obj_10結束執行一拖曳操作。於一實施例中，反應於關鍵點座標KP1_2與關鍵點座標KP2_2之間的距離大於另一門檻值，處理器140可依據關鍵點座標KP1_2或關鍵點座標KP2_2對應的二維幕座標而決定拖曳操作的拖曳終點。藉此，影像物件obj_10可複製或移動至資料夾F2。

綜上所述，於本發明實施例中，使用者可透過浮空手勢對顯示螢幕所顯示的影像中的一影像物件執行一操作。使用者可透過非常直覺的操作方式而對影像物件進行各式操作，大幅提昇圖像設計軟體的操作流暢性與方便性。使用者也不會受限於執行觸控操作的距離限制，而可從相距於電子裝置較遠的位置進行相關操作。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

10:電子裝置 110:顯示螢幕 120:儲存裝置 130:視線偵測裝置 140:處理器 Img_f:手部影像 KP1、KP2、KP1_1、KP1_2、KP2_1、KP2_2:關鍵點座標 41:虛擬平面 PV1:二維虛擬座標 PS1、PS1_1、PS1_2:二維螢幕座標 C1:相機位置 G1~G2:手勢 Img_1、Img_2、Img_3:影像 B1～B5:物件框 M1～M5:物件邊界 F1、F2:資料夾 obj_1～obj_4、obj_10:影像物件 S201～S205、S601～S611:步驟

圖1是依照本發明一實施例的電子裝置的功能方塊圖。圖2是依照本發明一實施例的手勢控制方法的流程圖。圖3是依照本發明一實施例的使用者手部的關鍵點座標的示意圖。圖4是依照本發明一實施例的產生二維螢幕座標的示意圖。圖5是依照本發明一實施例的手勢控制方法的應用情境示意圖。圖6是依照本發明一實施例的手勢控制方法的流程圖。圖7是依照本發明一實施例的對影像進行語義分割操作的示意圖。圖8是依照本發明一實施例的對影像物件執行選取操作的示意圖。圖9是依照本發明一實施例的計算第一關鍵點與第二關鍵點之間的距離的示意圖。圖10是依照本發明一實施例的對影像物件執行拖曳操作的示意圖。

S201~S205:步驟

Claims

一種基於影像的手勢控制方法，適用於包括影像擷取裝置與顯示螢幕的電子裝置，所述方法包括：透過該顯示螢幕顯示一影像；透過該影像擷取裝置對使用者手部擷取手部影像；利用該手部影像偵測該使用者手部於三維空間中進行的一手勢，利用該手部影像判斷該手勢是否符合預定控制手勢，若是，對該手部影像進行關鍵點偵測，以獲取該使用者手部的至少一關鍵點座標；將該至少一關鍵點座標投影至該使用者手部與該影像擷取裝置之間的一虛擬平面上，以獲取該虛擬平面上的至少一二維虛擬座標；依據該顯示螢幕的解析度與一螢幕選定範圍，正規化該至少一二維虛擬座標，以獲取該顯示螢幕上的至少一二維螢幕座標；以及依據該至少一二維螢幕座標對該影像中的影像物件執行一操作。
如請求項1所述的基於影像的手勢控制方法，其中將該至少一關鍵點座標投影至該使用者手部與該影像擷取裝置之間的該虛擬平面上，以獲取該虛擬平面上的該至少一二維虛擬座標的步驟包括：將該至少一關鍵點座標的第一座標分量乘上一深度比例，而獲取該至少一二維虛擬座標的第一座標分量；以及將該至少一關鍵點座標的第二座標分量乘上該深度比例，而獲取該至少一二維虛擬座標的第二座標分量，其中該深度比例為該虛擬平面與該影像擷取裝置之間的預設距深度比上該至少一關鍵點座標的第三座標分量。
如請求項1所述的基於影像的手勢控制方法，其中依據該至少一二維螢幕座標對該影像中的該影像物件執行該操作的步驟包括：對該影像進行語義分割(semantic segmentation)操作，以獲取該影像中的該影像物件的物件邊界；當該手勢符合特定單指手勢，判斷對應於該至少一關鍵點座標的該至少一二維螢幕座標是否位於該物件邊界之內；以及若是，對該影像物件執行一選取操作。
如請求項1所述的基於影像的手勢控制方法，其中該至少一關鍵點座標包括第一關鍵點座標與第二關鍵點座標，依據該至少一二維螢幕座標對該影像中的該影像物件執行該操作的步驟包括：對該影像進行語義分割操作，以獲取該影像中的該影像物件的物件邊界；當該手勢符合特定雙指手勢，判斷該第一關鍵點座標與該第二關鍵點座標之間的距離是否小於門檻值；若是，對該影像物件開始執行一拖曳操作；以及反應於該第一關鍵點座標與該第二關鍵點座標之間的距離大於另一門檻值，結束執行該拖曳操作。
一種電子裝置，包括：一影像擷取裝置；一顯示螢幕；一儲存裝置，記錄有多個指令；以及一處理器，耦接該顯示螢幕、該影像擷取裝置與該儲存裝置，經配置以：透過該顯示螢幕一影像；透過該影像擷取裝置對使用者手部擷取一手部影像；利用該手部影像偵測該使用者手部於三維空間中進行的一手勢，利用該手部影像判斷該手勢是否符合預定控制手勢，若是，對該手部影像進行關鍵點偵測，以獲取該使用者手部的至少一關鍵點座標；將該至少一關鍵點座標投影至該使用者手部與該影像擷取裝置之間的一虛擬平面上，以獲取該虛擬平面上的至少一二維虛擬座標；依據該顯示螢幕的解析度與一螢幕選定範圍，正規化該至少一二維虛擬座標，以獲取該顯示螢幕上的至少一二維螢幕座標；以及依據該至少一二維螢幕座標對該影像中的一影像物件執行一操作。
如請求項5所述的電子裝置，其中該處理器更經配置以：將該至少一關鍵點座標的第一座標分量乘上一深度比例，而獲取該至少一二維虛擬座標的第一座標分量；以及將該至少一關鍵點座標的第二座標分量乘上該深度比例，而獲取該至少一二維虛擬座標的第二座標分量，其中該深度比例為該虛擬平面與該影像擷取裝置之間的預設距深度比上該至少一關鍵點座標的第三座標分量。
如請求項5所述的電子裝置，其中該處理器更經配置以：對該影像進行語義分割操作，以獲取該影像中的該影像物件的物件邊界；當該手勢符合單指手勢，判斷對應於該至少一關鍵點座標的該至少一二維螢幕座標是否位於該物件邊界之內；以及若是，對該影像物件執行一選取操作。
如請求項5所述的電子裝置，其中該至少一關鍵點座標包括第一關鍵點座標與第二關鍵點座標，該處理器更經配置以：對該影像進行語義分割操作，以獲取該影像中的該影像物件的物件邊界；當該手勢符合雙指手勢，判斷該第一關鍵點座標與該第二關鍵點座標之間的距離是否小於門檻值；若是，對該影像物件執行一拖曳操作；以及反應於該第一關鍵點座標與該第二關鍵點座標之間的距離大於另一門檻值，結束執行該拖曳操作。
一種基於影像的手勢控制方法，適用於包括影像擷取裝置與顯示螢幕的電子裝置，所述方法包括：透過該顯示螢幕顯示一影像；透過該影像擷取裝置對使用者手部擷取手部影像；利用該手部影像偵測該使用者手部於三維空間中進行的一手勢，利用該手部影像判斷該手勢是否符合預定控制手勢，若是，對該手部影像進行關鍵點偵測，以獲取該使用者手部的至少一關鍵點座標；將該至少一關鍵點座標映射至該顯示螢幕上的至少一二維螢幕座標；對該影像進行語義分割(semantic segmentation)操作，以獲取該影像中的該影像物件的物件邊界；當該手勢符合特定單指手勢，判斷對應於該至少一關鍵點座標的該至少一二維螢幕座標是否位於該物件邊界之內；以及若是，對該影像物件執行一選取操作。
一種基於影像的手勢控制方法，適用於包括影像擷取裝置與顯示螢幕的電子裝置，所述方法包括：透過該顯示螢幕顯示一影像；透過該影像擷取裝置對使用者手部擷取手部影像；利用該手部影像偵測該使用者手部於三維空間中進行的一手勢，利用該手部影像判斷該手勢是否符合預定控制手勢，若是，對該手部影像進行關鍵點偵測，以獲取該使用者手部的至少一關鍵點座標；將該至少一關鍵點座標映射至該顯示螢幕上的至少一二維螢幕座標，其中該至少一關鍵點座標包括第一關鍵點座標與第二關鍵點座標；對該影像進行語義分割操作，以獲取該影像中的該影像物件的物件邊界；當該手勢符合特定雙指手勢，判斷該第一關鍵點座標與該第二關鍵點座標之間的距離是否小於門檻值；若是，對該影像物件開始執行一拖曳操作；以及反應於該第一關鍵點座標與該第二關鍵點座標之間的距離大於另一門檻值，結束執行該拖曳操作。
一種電子裝置，包括：一影像擷取裝置；一顯示螢幕；一儲存裝置，記錄有多個指令；以及一處理器，耦接該顯示螢幕、該影像擷取裝置與該儲存裝置，經配置以：透過該顯示螢幕一影像；透過該影像擷取裝置對使用者手部擷取一手部影像；利用該手部影像偵測該使用者手部於三維空間中進行的一手勢，利用該手部影像判斷該手勢是否符合預定控制手勢，若是，對該手部影像進行關鍵點偵測，以獲取該使用者手部的至少一關鍵點座標；將該至少一關鍵點座標映射至該顯示螢幕上的至少一二維螢幕座標；對該影像進行語義分割操作，以獲取該影像中的該影像物件的物件邊界；當該手勢符合單指手勢，判斷對應於該至少一關鍵點座標的該至少一二維螢幕座標是否位於該物件邊界之內；以及若是，對該影像物件執行一選取操作。
一種電子裝置，包括：一影像擷取裝置；一顯示螢幕；一儲存裝置，記錄有多個指令；以及一處理器，耦接該顯示螢幕、該影像擷取裝置與該儲存裝置，經配置以：透過該顯示螢幕一影像；透過該影像擷取裝置對使用者手部擷取一手部影像；利用該手部影像偵測該使用者手部於三維空間中進行的一手勢，利用該手部影像判斷該手勢是否符合預定控制手勢，若是，對該手部影像進行關鍵點偵測，以獲取該使用者手部的至少一關鍵點座標；將該至少一關鍵點座標映射至該顯示螢幕上的至少一二維螢幕座標，其中該至少一關鍵點座標包括第一關鍵點座標與第二關鍵點座標；以及對該影像進行語義分割操作，以獲取該影像中的該影像物件的物件邊界；當該手勢符合雙指手勢，判斷該第一關鍵點座標與該第二關鍵點座標之間的距離是否小於門檻值；若是，對該影像物件執行一拖曳操作；以及反應於該第一關鍵點座標與該第二關鍵點座標之間的距離大於另一門檻值，結束執行該拖曳操作。