JP6716650B2 - 一人称視点でのディープラーニングベースのハンドジェスチャー認識のためのシステムおよび方法 - Google Patents
一人称視点でのディープラーニングベースのハンドジェスチャー認識のためのシステムおよび方法 Download PDFInfo
- Publication number
- JP6716650B2 JP6716650B2 JP2018167317A JP2018167317A JP6716650B2 JP 6716650 B2 JP6716650 B2 JP 6716650B2 JP 2018167317 A JP2018167317 A JP 2018167317A JP 2018167317 A JP2018167317 A JP 2018167317A JP 6716650 B2 JP6716650 B2 JP 6716650B2
- Authority
- JP
- Japan
- Prior art keywords
- hand
- gesture
- user
- keypoints
- lstm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 50
- 238000013135 deep learning Methods 0.000 title description 16
- 238000012549 training Methods 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 13
- 238000013136 deep learning model Methods 0.000 claims description 10
- 230000033001 locomotion Effects 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 230000003190 augmentative effect Effects 0.000 claims description 6
- 230000007774 longterm Effects 0.000 claims description 6
- 238000009499 grossing Methods 0.000 claims description 5
- 210000000707 wrist Anatomy 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 11
- 230000003993 interaction Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 230000002123 temporal effect Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 239000011111 cardboard Substances 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 210000004247 hand Anatomy 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 229920001690 polydopamine Polymers 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 241000010972 Ballerus ballerus Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000035899 viability Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Description
ここで、Kはクラスの数を示し、sはsoftmax機能への入力、スコアのKx1ベクトルであり、jは0からK−1の間で変化するインデックスであり、σ(s)は各ジェスチャーに関連付けられた事後確率を示すKx1出力ベクトルである。
Li=−hj*log(σ(s)j)
ここで、hは、入力のワンホットラベル(one-hot label)を示す1xKベクトルであり、さらに、Liの平均は、バッチのトレーニング例全体から算出され、トレーニング中においてLSTMモデルを微調整するために、LSTMネットワークに送り返される。
本明細書における実施形態は、自己中心の視点(egocentric view)で取得されたブルーム、クリック、ズームイン、ズームアウトの動的なハンドジェスチャーのデータセットを利用する。データセットは、トレーニングセットにおいて1つのジェスチャー当たり100個のビデオと、テストセットにおいて1つのジェスチャー当たり20個のビデオと、を含む480個のビデオを含む。データセット内のデータビデオは、320x240の解像度および30FPSで取得された高品質のビデオである。異なる肌の色を有し、年齢が21〜55歳の範囲にある6人のユーザーがデータ集合に含まれている。色の組み合わせ、照明の状態、および動的な背景シーンにおける最大変動を収集するために、ビデオは、複数の異なる場所(屋外、屋内、リビングルーム、オフィス環境、カフェテリア)で記録される。各ジェスチャーは、平均で4.1秒間続き、最も複雑なブルームは、平均5秒を要し、最も単純なズームジェスチャーは、平均で3.5秒を要する。
ここで、σ(s)iは、i番目のクラス用の予測確率である。認識された動的なハンドジェスチャーは、スマートフォンに送信される。ジェスチャーが検出されなかった場合、ジェスチャー検出が為されなかったことが報告される。以下の表1は、80個のうち、9件の分類ミスがあった精度87.5%を得たジェスチャー認識システム用の混合マトリクスを示している。
Claims (13)
- ハンドジェスチャー認識のためのプロセッサー実施方法であって、
1つ以上のハードウェアプロセッサーによって、ウェアラブル拡張現実(AR)デバイスに通信可能に接続された少なくとも1つのRGBセンサーを用いて、ユーザーの一人称視点(FPV)から取得されたシーンのメディアストリームの複数のフレームを受信する工程であって、
前記メディアストリームは、前記シーンの前記複数のフレームに関連付けられたRGB画像データを含み、前記シーンは、前記ユーザーによって実行された動的なハンドジェスチャーを含む、前記メディアストリームの前記複数のフレームを受信する前記工程と、
前記1つ以上のハードウェアプロセッサーによって、ディープラーニングモデルを用いることにより、前記RGB画像データから、前記動的なハンドジェスチャーに関連付けられた時間情報を推定する工程であって、
前記推定された時間情報は、前記ユーザーのハンドポーズに関連付けられ、さらに、前記複数のフレーム内の前記ユーザーの手の上において特定される複数のキーポイントを含み、
前記複数のキーポイントは、21個の手のキーポイントを含み、
前記21個のキーポイントの各キーポイントは、指1つ当たり4個のキーポイントと、前記ユーザーの前記手の手首付近の1個のキーポイントを含み、さらに、
前記動的なハンドジェスチャーに関連付けられた前記時間情報を推定する前記工程は、
前記ディープラーニングモデルを用いて、複数の潜在的ネットワーク3Dアーティキュレーション履歴を推定する工程であって、
前記複数の潜在的ネットワーク3Dアーティキュレーション履歴は、前記ユーザーの前記手の複数のトレーニングサンプルRGB画像から判別された前記複数のキーポイントを含む、前記複数の潜在的ネットワーク3Dアーティキュレーション履歴を推定する前記工程と、
前記複数の潜在的ネットワーク3Dアーティキュレーション履歴に基づいて、前記複数のフレーム内の前記ユーザーの前記手の前記複数のキーポイントを検出する工程と、を含む、前記動的なハンドジェスチャーに関連付けられた前記時間情報を推定する前記工程と、
前記1つ以上のハードウェアプロセッサーによって、多層ロングショートタームメモリー(LSTM)分類ネットワークを用いて、前記複数のキーポイントに関連付けられた前記時間情報に基づいて、前記動的なハンドジェスチャーを少なくとも1つの事前定義されたジェスチャークラスに分類する工程と、を含むことを特徴とするプロセッサー実施方法。 - 前記メディアストリームを取得した際に、前記複数のフレームをダウンスケールする工程をさらに含む請求項1に記載のプロセッサー実施方法。
- 前記多層LSTM分類ネットワークは、
前記ユーザーの前記手の上において検出された前記複数のキーポイントの3D座標シーケンスにおける長期の依存性およびパターンを学習するための複数のLSTMセルから構成されるLSTM層を含む第1の層と、
前記時間情報を1次元にする平滑化層を含む第2の層と、
前記動的なハンドジェスチャーのそれぞれに対応する出力スコアを用いる完全接続層を含む第3の層であって、
前記出力スコアは、前記少なくとも1つの事前定義されたジェスチャークラスへの分類用の前記動的なハンドジェスチャーのそれぞれに対応する事後確率を示している、前記第3の層と、を含む請求項1に記載のプロセッサー実施方法。 - 複数の前記動的なハンドジェスチャーのうちの前記動的なハンドジェスチャーを分類するための前記LSTM分類ネットワークをテストする工程をさらに含み、
前記LSTM分類ネットワークをテストする前記工程は、
softmaxアクティベーション機能を用いることにより、前記出力スコアを、非正規化ログ確率として解釈し、さらに、以下の式を用いて、前記出力スコアを0から1の範囲に圧縮する工程を含み、
ここで、Kはクラスの数であり、sはsoftmax機能への入力、スコアのKx1ベクトルであり、jは0からK−1の間で変化するインデックスあり、σ(s)は前記複数の動的なハンドジェスチャーのそれぞれに関連付けられた前記事後確率を示すKx1出力ベクトルである請求項3に記載のプロセッサー実施方法。 - 前記LSTM分類ネットワークをトレーニングする工程をさらに含み、
前記LSTM分類ネットワークをトレーニングする前記工程は、
以下の式を用いて、前記複数のトレーニングサンプルRGB画像のi番目のトレーニングサンプルのクロスエントロピー損失Liを算出する工程であって、
Li=−hj*log(σ(s)j)
ここで、hは前記複数のトレーニングサンプルRGB画像を含む入力のワンホットラベルを示す1xKベクトルである、前記i番目のトレーニングサンプルの前記クロスエントロピー損失Liを算出する前記工程と、
前記複数のトレーニングサンプルRGB画像のLiの平均を算出し、さらに、前記トレーニングにおいて、前記LSTM分類ネットワークを微調整するために、前記LSTM分類ネットワークへ送り返す工程と、を含む請求項3に記載のプロセッサー実施方法。 - 3Dの前記動的なハンドジェスチャーを前記少なくとも1つの事前定義されたジェスチャークラスへ分類した際に、分類された前記少なくとも1つの事前定義されたジェスチャークラスを、前記少なくとも1つのRGBセンサーを実装しているデバイスおよび前記ウェアラブルARデバイスの少なくとも一方に送信する工程と、
前記デバイスに事前定義されたタスクを実行させる工程と、を含む請求項1に記載のプロセッサー実施方法。 - ハンドジェスチャー認識のためのシステムであって、
1つ以上のメモリーと、
前記1つ以上のメモリーに接続された1つ以上のハードウェアプロセッサーと、を含み、
前記1つ以上のハードウェアプロセッサーは、前記1つ以上のメモリー内に保存されているプログラム命令を実行することにより、
ウェアラブルARデバイスに通信可能に接続された少なくとも1つのRGBセンサーを用いて、ユーザーの一人称視点(FPV)から取得されたシーンのメディアストリームの複数のフレームを受信することができ、
前記メディアストリームは、前記シーンの前記複数のフレームに関連付けられたRGB画像データを含み、前記シーンは、前記ユーザーによって実行された動的なハンドジェスチャーを含み、
さらに、前記1つ以上のハードウェアプロセッサーは、前記命令を実行することにより、
ディープラーニングモデルを用いることにより、前記RGB画像データから、前記動的なハンドジェスチャーに関連付けられた時間情報を推定することができ、
前記推定された時間情報は、前記ユーザーのハンドポーズに関連付けられ、さらに、前記複数のフレーム内の前記ユーザーの手の上において特定される複数のキーポイントを含み、
前記複数のキーポイントは、21個の手のキーポイントを含み、
前記21個のキーポイントの各キーポイントは、指1つ当たり4個のキーポイントと、前記ユーザーの前記手の手首付近の1個のキーポイントを含み、さらに、
前記動的なハンドジェスチャーに関連付けられた前記時間情報の推定は、
前記ディープラーニングモデルを用いて、複数の潜在的ネットワーク3Dアーティキュレーション履歴を推定することであって、
前記複数の潜在的ネットワーク3Dアーティキュレーション履歴は、前記ユーザーの前記手の複数のトレーニングサンプルRGB画像から判別された前記複数のキーポイントを含む、前記複数の潜在的ネットワーク3Dアーティキュレーション履歴を推定することと、
前記複数の潜在的ネットワーク3Dアーティキュレーション履歴に基づいて、前記複数のフレーム内の前記ユーザーの前記手の前記複数のキーポイントを検出することと、を含み、
さらに、前記1つ以上のハードウェアプロセッサーは、前記命令を実行することにより、
多層LSTM分類ネットワークを用いて、前記複数のキーポイントに関連付けられた前記時間情報に基づいて、前記動的なハンドジェスチャーを少なくとも1つの事前定義されたジェスチャークラスに分類することができることを特徴とするシステム。 - 前記1つ以上のハードウェアプロセッサーは、前記命令によって、前記メディアストリームを取得した際に、前記複数のフレームをダウンスケールするよう、さらに構成されている請求項7に記載のシステム。
- 前記多層LSTM分類ネットワークは、
前記ユーザーの前記手の上において検出された前記複数のキーポイントの3D座標シーケンスにおける長期の依存性およびパターンを学習するための複数のLSTMセルから構成されるLSTM層を含む第1の層と、
前記時間情報を1次元にする平滑化層を含む第2の層と、
前記動的なハンドジェスチャーのそれぞれに対応する出力スコアを用いる完全接続層を含む第3の層であって、
前記出力スコアは、前記少なくとも1つの事前定義されたジェスチャークラスへの分類用の前記動的なハンドジェスチャーのそれぞれに対応する事後確率を示している、前記第3の層と、を含む請求項7に記載のシステム。 - 前記1つ以上のハードウェアプロセッサーは、前記命令によって、複数の前記動的なハンドジェスチャーのうちの前記動的なハンドジェスチャーを分類するための前記LSTM分類ネットワークをテストするよう、さらに構成されており、
前記LSTM分類ネットワークをテストするために、前記1つ以上のハードウェアプロセッサーは、前記命令によって、
softmaxアクティベーション機能を用いることにより、前記出力スコアを、非正規化ログ確率として解釈し、さらに、以下の式を用いて、前記出力スコアを0から1の範囲に圧縮するよう、さらに構成されており、
ここで、Kはクラスの数であり、sはsoftmax機能への入力、スコアのKx1ベクトルであり、jは0からK−1の間で変化するインデックスあり、σ(s)は前記複数の動的なハンドジェスチャーのそれぞれに関連付けられた前記事後確率を示すKx1出力ベクトルである請求項9に記載のシステム。 - 前記1つ以上のハードウェアプロセッサーは、前記命令によって、前記LSTM分類ネットワークをトレーニングするよう、さらに構成されており、
さらに、前記LSTM分類ネットワークをトレーニングするために、前記1つ以上のハードウェアプロセッサーは、前記命令によって、
以下の式を用いて、前記複数のトレーニングサンプルRGB画像のi番目のトレーニングサンプルのクロスエントロピー損失Liを算出するよう、構成されており、
Li=−hj*log(σ(s)j)
ここで、hは前記複数のトレーニングサンプルRGB画像を含む入力のワンホットラベルを示す1xKベクトルであり、
さらに、前記1つ以上のハードウェアプロセッサーは、前記命令によって、前記複数のトレーニングサンプルRGB画像のLiの平均を算出し、さらに、前記トレーニングにおいて、前記LSTM分類ネットワークを微調整するために、前記LSTM分類ネットワークへ伝達するよう、構成されている請求項9に記載のシステム。 - 3Dの前記動的なハンドジェスチャーを前記少なくとも1つの事前定義されたジェスチャークラスへ分類した際に、前記1つ以上のハードウェアプロセッサーは、前記命令によって、分類された前記少なくとも1つの事前定義されたジェスチャークラスを、前記少なくとも1つのRGBセンサーを実装しているデバイスおよび前記ウェアラブルARデバイスの少なくとも一方に送信し、前記デバイスが事前定義されたタスクを実行することを可能にする請求項7に記載のシステム。
- コンピューターに、ジェスチャー認識のための方法を実行させるためのコンピュータープログラムを記録したコンピューター読み取り可能な記録媒体であって、
前記方法は、
1つ以上のハードウェアプロセッサーによって、ウェアラブル拡張現実(AR)デバイスに通信可能に接続された少なくとも1つのRGBセンサーを用いて、ユーザーの一人称視点(FPV)から取得されたシーンのメディアストリームの複数のフレームを受信する工程であって、
前記メディアストリームは、前記シーンの前記複数のフレームに関連付けられたRGB画像データを含み、前記シーンは、前記ユーザーによって実行された動的なハンドジェスチャーを含む、前記メディアストリームの前記複数のフレームを受信する前記工程と、
前記1つ以上のハードウェアプロセッサーによって、ディープラーニングモデルを用いることにより、前記RGB画像データから、前記動的なハンドジェスチャーに関連付けられた時間情報を推定する工程であって、
前記推定された時間情報は、前記ユーザーのハンドポーズに関連付けられ、さらに、前記複数のフレーム内の前記ユーザーの手の上において特定される複数のキーポイントを含み、
前記複数のキーポイントは、21個の手のキーポイントを含み、
前記21個のキーポイントの各キーポイントは、指1つ当たり4個のキーポイントと、前記ユーザーの前記手の手首付近の1個のキーポイントを含み、さらに、
前記動的なハンドジェスチャーに関連付けられた前記時間情報を推定する前記工程は、
前記ディープラーニングモデルを用いて、複数の潜在的ネットワーク3Dアーティキュレーション履歴を推定する工程であって、
前記複数の潜在的ネットワーク3Dアーティキュレーション履歴は、前記ユーザーの前記手の複数のトレーニングサンプルRGB画像から判別された前記複数のキーポイントを含む、前記複数の潜在的ネットワーク3Dアーティキュレーション履歴を推定する前記工程と、
前記複数の潜在的ネットワーク3Dアーティキュレーション履歴に基づいて、前記複数のフレーム内の前記ユーザーの前記手の前記複数のキーポイントを検出する工程と、を含む、前記動的なハンドジェスチャーに関連付けられた前記時間情報を推定する前記工程と、
前記1つ以上のハードウェアプロセッサーによって、多層ロングショートタームメモリー(LSTM)分類ネットワークを用いて、前記複数のキーポイントに関連付けられた前記時間情報に基づいて、前記動的なハンドジェスチャーを少なくとも1つの事前定義されたジェスチャークラスに分類する工程と、を含むことを特徴とするコンピューター読み取り可能な記録媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN201721035650 | 2017-10-07 | ||
IN201721035650 | 2017-10-07 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019071048A JP2019071048A (ja) | 2019-05-09 |
JP6716650B2 true JP6716650B2 (ja) | 2020-07-01 |
Family
ID=62904241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018167317A Active JP6716650B2 (ja) | 2017-10-07 | 2018-09-06 | 一人称視点でのディープラーニングベースのハンドジェスチャー認識のためのシステムおよび方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10429944B2 (ja) |
EP (1) | EP3467707B1 (ja) |
JP (1) | JP6716650B2 (ja) |
CN (1) | CN109635621B (ja) |
CA (1) | CA3016921C (ja) |
IL (1) | IL261580B (ja) |
Families Citing this family (69)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018033137A1 (zh) * | 2016-08-19 | 2018-02-22 | 北京市商汤科技开发有限公司 | 在视频图像中展示业务对象的方法、装置和电子设备 |
CN108229391B (zh) * | 2018-01-02 | 2021-12-24 | 京东方科技集团股份有限公司 | 手势识别装置及其服务器、手势识别***、手势识别方法 |
US10635895B2 (en) | 2018-06-27 | 2020-04-28 | Facebook Technologies, Llc | Gesture-based casting and manipulation of virtual content in artificial-reality environments |
US10783712B2 (en) * | 2018-06-27 | 2020-09-22 | Facebook Technologies, Llc | Visual flairs for emphasizing gestures in artificial-reality environments |
US10712901B2 (en) | 2018-06-27 | 2020-07-14 | Facebook Technologies, Llc | Gesture-based content sharing in artificial reality environments |
CN108921101A (zh) * | 2018-07-04 | 2018-11-30 | 百度在线网络技术(北京)有限公司 | 基于手势识别控制指令的处理方法、设备及可读存储介质 |
KR102664705B1 (ko) * | 2019-02-19 | 2024-05-09 | 삼성전자주식회사 | 복수의 카메라들을 이용하여 이미지의 배율을 변경하기 위한 전자 장치 및 방법 |
CN110070063B (zh) * | 2019-04-29 | 2020-06-30 | 北京字节跳动网络技术有限公司 | 目标对象的动作识别方法、装置和电子设备 |
CN110109547A (zh) * | 2019-05-05 | 2019-08-09 | 芋头科技(杭州)有限公司 | 基于手势识别的命令激活方法和*** |
CN110222580B (zh) * | 2019-05-09 | 2021-10-22 | 中国科学院软件研究所 | 一种基于三维点云的人手三维姿态估计方法和装置 |
US11176699B2 (en) * | 2019-05-24 | 2021-11-16 | Tencent America LLC | Augmenting reliable training data with CycleGAN for hand pose estimation |
CN110286749B (zh) * | 2019-05-27 | 2022-11-15 | 华中师范大学 | 基于深度数据的手部姿势估计和追踪方法 |
US11543888B2 (en) * | 2019-06-27 | 2023-01-03 | Google Llc | Intent detection with a computing device |
CN110321566B (zh) * | 2019-07-10 | 2020-11-13 | 北京邮电大学 | 中文命名实体识别方法、装置、计算机设备和存储介质 |
US11488320B2 (en) | 2019-07-31 | 2022-11-01 | Samsung Electronics Co., Ltd. | Pose estimation method, pose estimation apparatus, and training method for pose estimation |
CN110543916B (zh) * | 2019-09-06 | 2022-02-01 | 天津大学 | 一种缺失多视图数据的分类方法及*** |
US11176745B2 (en) | 2019-09-20 | 2021-11-16 | Facebook Technologies, Llc | Projection casting in virtual environments |
US10991163B2 (en) | 2019-09-20 | 2021-04-27 | Facebook Technologies, Llc | Projection casting in virtual environments |
US11189099B2 (en) | 2019-09-20 | 2021-11-30 | Facebook Technologies, Llc | Global and local mode virtual object interactions |
US11170576B2 (en) | 2019-09-20 | 2021-11-09 | Facebook Technologies, Llc | Progressive display of virtual objects |
US11086406B1 (en) * | 2019-09-20 | 2021-08-10 | Facebook Technologies, Llc | Three-state gesture virtual controls |
CN112767300B (zh) * | 2019-10-18 | 2024-07-09 | 宏达国际电子股份有限公司 | 自动生成手部的标注数据的方法和计算骨骼长度的方法 |
CN112686084A (zh) * | 2019-10-18 | 2021-04-20 | 宏达国际电子股份有限公司 | 图像标注*** |
CN110865704B (zh) * | 2019-10-21 | 2021-04-27 | 浙江大学 | 一种用于360°悬浮光场三维显示***的手势交互装置和方法 |
US11086476B2 (en) * | 2019-10-23 | 2021-08-10 | Facebook Technologies, Llc | 3D interactions with web content |
CN114556268B (zh) * | 2019-11-20 | 2023-10-27 | Oppo广东移动通信有限公司 | 一种姿势识别方法及装置、存储介质 |
US11175730B2 (en) | 2019-12-06 | 2021-11-16 | Facebook Technologies, Llc | Posture-based virtual space configurations |
US11475639B2 (en) | 2020-01-03 | 2022-10-18 | Meta Platforms Technologies, Llc | Self presence in artificial reality |
CN111273778B (zh) * | 2020-02-14 | 2023-11-07 | 北京百度网讯科技有限公司 | 基于手势控制电子设备的方法和装置 |
CN111444771B (zh) * | 2020-02-27 | 2022-06-21 | 浙江大学 | 一种基于循环神经网络的手势前置实时识别方法 |
US11227151B2 (en) * | 2020-03-05 | 2022-01-18 | King Fahd University Of Petroleum And Minerals | Methods and systems for computerized recognition of hand gestures |
CN111523380B (zh) * | 2020-03-11 | 2023-06-30 | 浙江工业大学 | 一种基于人脸和姿态识别的口罩佩戴情况监测方法 |
CN111444820B (zh) * | 2020-03-24 | 2021-06-04 | 清华大学 | 一种基于成像雷达的手势识别方法 |
US11257280B1 (en) | 2020-05-28 | 2022-02-22 | Facebook Technologies, Llc | Element-based switching of ray casting rules |
US11256336B2 (en) | 2020-06-29 | 2022-02-22 | Facebook Technologies, Llc | Integration of artificial reality interaction modes |
US11176755B1 (en) | 2020-08-31 | 2021-11-16 | Facebook Technologies, Llc | Artificial reality augments and surfaces |
US11227445B1 (en) | 2020-08-31 | 2022-01-18 | Facebook Technologies, Llc | Artificial reality augments and surfaces |
CN112199994B (zh) * | 2020-09-03 | 2023-05-12 | 中国科学院信息工程研究所 | 一种实时检测rgb视频中的3d手与未知物体交互的方法和装置 |
US11178376B1 (en) | 2020-09-04 | 2021-11-16 | Facebook Technologies, Llc | Metering for display modes in artificial reality |
US11514605B2 (en) * | 2020-09-29 | 2022-11-29 | International Business Machines Corporation | Computer automated interactive activity recognition based on keypoint detection |
CN114510142B (zh) * | 2020-10-29 | 2023-11-10 | 舜宇光学(浙江)研究院有限公司 | 基于二维图像的手势识别方法及其***和电子设备 |
CN114515146B (zh) * | 2020-11-17 | 2024-03-22 | 北京机械设备研究所 | 基于电学测量的智能手势识别方法及*** |
US11113893B1 (en) | 2020-11-17 | 2021-09-07 | Facebook Technologies, Llc | Artificial reality environment with glints displayed by an extra reality device |
US11409405B1 (en) | 2020-12-22 | 2022-08-09 | Facebook Technologies, Llc | Augment orchestration in an artificial reality environment |
US11461973B2 (en) | 2020-12-22 | 2022-10-04 | Meta Platforms Technologies, Llc | Virtual reality locomotion via hand gesture |
US11294475B1 (en) | 2021-02-08 | 2022-04-05 | Facebook Technologies, Llc | Artificial reality multi-modal input switching model |
US11804040B2 (en) | 2021-03-17 | 2023-10-31 | Qualcomm Incorporated | Keypoint-based sampling for pose estimation |
WO2022197367A1 (en) * | 2021-03-17 | 2022-09-22 | Qualcomm Technologies, Inc. | Keypoint-based sampling for pose estimation |
CN113010018B (zh) * | 2021-04-20 | 2022-09-20 | 歌尔股份有限公司 | 交互控制方法、终端设备及存储介质 |
CN113378641B (zh) * | 2021-05-12 | 2024-04-09 | 北京工业大学 | 基于深度神经网络和注意力机制的手势识别方法 |
CN113239824B (zh) * | 2021-05-19 | 2024-04-05 | 北京工业大学 | 一种基于3D-Ghost模块的多模态训练单模态测试的动态手势识别方法 |
CN113296604B (zh) * | 2021-05-24 | 2022-07-08 | 北京航空航天大学 | 一种基于卷积神经网络的真3d手势交互方法 |
US11757951B2 (en) | 2021-05-28 | 2023-09-12 | Vizio, Inc. | System and method for configuring video watch parties with gesture-specific telemojis |
US11762952B2 (en) | 2021-06-28 | 2023-09-19 | Meta Platforms Technologies, Llc | Artificial reality application lifecycle |
US11295503B1 (en) | 2021-06-28 | 2022-04-05 | Facebook Technologies, Llc | Interactive avatars in artificial reality |
US12008717B2 (en) | 2021-07-07 | 2024-06-11 | Meta Platforms Technologies, Llc | Artificial reality environment control through an artificial reality environment schema |
US11798247B2 (en) | 2021-10-27 | 2023-10-24 | Meta Platforms Technologies, Llc | Virtual object structures and interrelationships |
US11748944B2 (en) | 2021-10-27 | 2023-09-05 | Meta Platforms Technologies, Llc | Virtual object structures and interrelationships |
CN114185429B (zh) * | 2021-11-11 | 2024-03-26 | 杭州易现先进科技有限公司 | 手势关键点定位或姿态估计的方法、电子装置和存储介质 |
WO2023122543A1 (en) * | 2021-12-20 | 2023-06-29 | Canon U.S.A., Inc. | Apparatus and method for gesture recognition stabilization |
JP2023139535A (ja) | 2022-03-22 | 2023-10-04 | キヤノン株式会社 | ジェスチャ認識装置、頭部装着型表示装置、ジェスチャ認識方法、プログラム、および記憶媒体 |
CN114979302B (zh) * | 2022-04-22 | 2024-07-05 | 长江大学 | 一种自适应的基于熵的快速工人动作图像传输方法及*** |
US12026527B2 (en) | 2022-05-10 | 2024-07-02 | Meta Platforms Technologies, Llc | World-controlled and application-controlled augments in an artificial-reality environment |
CN114882443A (zh) * | 2022-05-31 | 2022-08-09 | 江苏濠汉信息技术有限公司 | 应用于电缆附件施工的边缘计算*** |
US11947862B1 (en) | 2022-12-30 | 2024-04-02 | Meta Platforms Technologies, Llc | Streaming native application content to artificial reality devices |
US11991222B1 (en) | 2023-05-02 | 2024-05-21 | Meta Platforms Technologies, Llc | Persistent call control user interface element in an artificial reality environment |
CN117687517A (zh) * | 2024-02-02 | 2024-03-12 | 北京思路智园科技有限公司 | 一种用于化工教培的增强现实教学改进方法及*** |
CN118131915B (zh) * | 2024-05-07 | 2024-07-12 | 中国人民解放军国防科技大学 | 基于手势识别的人机交互方法、装置、设备和存储介质 |
CN118170258A (zh) * | 2024-05-13 | 2024-06-11 | 湖北星纪魅族集团有限公司 | 点击操作方法及装置、电子设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150177842A1 (en) * | 2013-12-23 | 2015-06-25 | Yuliya Rudenko | 3D Gesture Based User Authorization and Device Control Methods |
US9720515B2 (en) * | 2015-01-02 | 2017-08-01 | Wearable Devices Ltd. | Method and apparatus for a gesture controlled interface for wearable devices |
US9953216B2 (en) * | 2015-01-13 | 2018-04-24 | Google Llc | Systems and methods for performing actions in response to user gestures in captured images |
KR101745406B1 (ko) * | 2015-09-03 | 2017-06-12 | 한국과학기술연구원 | 깊이 영상 기반의 손 제스처 인식 장치 및 방법 |
CN106325509A (zh) * | 2016-08-19 | 2017-01-11 | 北京暴风魔镜科技有限公司 | 三维手势识别方法及*** |
-
2018
- 2018-06-25 EP EP18179440.5A patent/EP3467707B1/en active Active
- 2018-06-27 US US16/020,245 patent/US10429944B2/en active Active
- 2018-09-04 IL IL261580A patent/IL261580B/en active IP Right Grant
- 2018-09-06 JP JP2018167317A patent/JP6716650B2/ja active Active
- 2018-09-07 CA CA3016921A patent/CA3016921C/en active Active
- 2018-09-20 CN CN201811098719.8A patent/CN109635621B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
IL261580B (en) | 2021-06-30 |
CN109635621A (zh) | 2019-04-16 |
US10429944B2 (en) | 2019-10-01 |
US20190107894A1 (en) | 2019-04-11 |
EP3467707A1 (en) | 2019-04-10 |
EP3467707B1 (en) | 2024-03-13 |
JP2019071048A (ja) | 2019-05-09 |
CN109635621B (zh) | 2023-04-14 |
CA3016921C (en) | 2023-06-27 |
CA3016921A1 (en) | 2019-04-07 |
EP3467707C0 (en) | 2024-03-13 |
IL261580A (en) | 2019-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6716650B2 (ja) | 一人称視点でのディープラーニングベースのハンドジェスチャー認識のためのシステムおよび方法 | |
US11750767B2 (en) | Selective identification and order of image modifiers | |
US11729252B2 (en) | Content collection navigation and autoforwarding | |
WO2020253663A1 (zh) | 基于人工智能的图像区域识别方法、模型训练方法及装置 | |
US11789582B2 (en) | Content collection navigation queue | |
EP3090424A1 (en) | Assigning virtual user interface to physical object | |
US9536161B1 (en) | Visual and audio recognition for scene change events | |
CN113806036A (zh) | 虚拟内容的输出 | |
CN109154862B (zh) | 用于处理虚拟现实内容的装置、方法和计算机可读介质 | |
US10748000B2 (en) | Method, electronic device, and recording medium for notifying of surrounding situation information | |
CN108712641A (zh) | 用于基于多面体提供vr图像的电子设备及其图像提供方法 | |
US9727778B2 (en) | System and method for guided continuous body tracking for complex interaction | |
CN109923540A (zh) | 实时记录用于修改动画的手势和/或声音 | |
US20200065604A1 (en) | User interface framework for multi-selection and operation of non-consecutive segmented information | |
US20230410441A1 (en) | Generating user interfaces displaying augmented reality graphics | |
US20240073402A1 (en) | Multi-perspective augmented reality experience |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191224 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200602 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200610 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6716650 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |