JP6104227B2 - 画像識別方法および画像識別装置 - Google Patents

画像識別方法および画像識別装置 Download PDF

Info

Publication number
JP6104227B2
JP6104227B2 JP2014252231A JP2014252231A JP6104227B2 JP 6104227 B2 JP6104227 B2 JP 6104227B2 JP 2014252231 A JP2014252231 A JP 2014252231A JP 2014252231 A JP2014252231 A JP 2014252231A JP 6104227 B2 JP6104227 B2 JP 6104227B2
Authority
JP
Japan
Prior art keywords
image identification
fingertip
delimiter
hand
feature region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014252231A
Other languages
English (en)
Other versions
JP2016091527A (ja
Inventor
クー、ジアウェイ
ユー、イーナン
ワン、ルイ
ユー、カイ
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド, バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Publication of JP2016091527A publication Critical patent/JP2016091527A/ja
Application granted granted Critical
Publication of JP6104227B2 publication Critical patent/JP6104227B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/11Hand-related biometrics; Hand pose recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/142Image acquisition using hand-held instruments; Constructional details of the instruments
    • G06V30/1423Image acquisition using hand-held instruments; Constructional details of the instruments the instrument generating sequences of position coordinates corresponding to handwriting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20036Morphological image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)
  • Position Input By Displaying (AREA)

Description

本開示はインターネット分野に関し、より詳細には、画像識別方法および画像識別装置に関する。
従来技術において、画像識別および機械視覚認識のための入力は、まず写真を撮影し、ついで対象物を決定することによって行われる。具体的には、まず写真が撮影され、対象物の前景環境画像および背景環境画像が保存され、ついで画面上の対象物を指で区切ることにより対象物が選択されて分割され、画像識別が行われる。このように、撮影された写真は人間の介入を必要とし、たとえば、写真は手動で区切られる必要があるので、操作ステップは複雑であり、ユーザ体験はスムーズではない。加えて、上記の処理はタッチスクリーンを備えたスマート端末にのみ適用可能であるので、適用性に乏しい。
本開示の実施形態は、従来技術における問題の少なくとも一つを少なくともある程度解決することを目的とする。
本開示の第1の態様によると、画像識別方法が提供される。画像識別方法は、第1の視点からの視界内の手特徴領域を肌色検出により取得し、手特徴領域をリアルタイムで捕捉し追跡することと、伸ばした手の形態学的特徴に対するパターン認識を行うことにより手特徴領域から指先の特徴と位置を取得し、指先の特徴および位置をリアルタイムで捕捉し追跡することと、指先が対象物の外周を区切る際に指先の特徴点のフレーム間変位を記録してフレーム間変位から区切り軌跡を取得し、区切り軌跡を閉じて全周形状を形成することと、視線方向が対象物の位置する平面に垂直であるところの平面に全周形状を投影して投影領域を取得し、投影領域を対象物の識別領域として用いて画像識別を行うこととから構成される。
本開示の実施形態に係る画像識別方法では、第1の視点からのユーザの視界内の手特徴領域が肌色検出により取得され、伸ばした手の形態学的特徴に対するパターン認識を行うことにより手特徴領域から指先の特徴と位置が取得される。指先が対象物の外周を区切る際に指先の特徴点のフレーム間変位が記録されてフレーム間変位から区切り軌跡が取得され、区切り軌跡は閉じられて全周形状を形成する。ついで、ユーザの視線方向が対象物の位置する平面に垂直であるところの平面に全周形状が投影されて投影領域が取得され、投影領域を対象物の識別領域として用いて画像識別が行われる。したがって、ユーザが対象物の画像識別を行う際、対象物の区切りと画像分割を素早く行うために、ユーザは指を伸ばして対象物の外周を対象物の外周に向けた指先で区切るだけでよく、これは対象物の画像識別のための識別入力として用いることができるので、操作はシンプルであり、ユーザ体験はより良く、適用性は高い。
本開示の第2の態様によると、画像識別装置が提供される。画像識別装置は、第1の視点からの視界内の手特徴領域を肌色検出により取得するよう構成された第1の取得モジュールと、手特徴領域をリアルタイムで捕捉し追跡するよう構成された第1の追跡モジュールと、伸ばした手の形態学的特徴に対するパターン認識を行うことにより手特徴領域から指先の特徴と位置を取得するよう構成された第2の取得モジュールと、指先の特徴と位置をリアルタイムで捕捉し追跡するよう構成された第2の追跡モジュールと、指先が対象物の外周を区切る際に指先の特徴点のフレーム間変位を記録してフレーム間変位から区切り軌跡を取得し、区切り軌跡を閉じて全周形状を形成するよう構成された記録モジュールと、視線方向が対象物の位置する平面に垂直であるところの平面に全周形状を投影して投影領域を取得し、投影領域を対象物の識別領域として用いて画像識別を行うよう構成された投影モジュールとから構成される。
本開示の実施形態に係る画像識別装置では、第1の取得モジュールが第1の視点からのユーザの視界内の手特徴領域を肌色検出により取得し、第2の取得モジュールが、伸ばした手の形態学的特徴に対するパターン認識を行うことにより、第1の追跡モジュールにより捕捉され追跡された手特徴領域から指先の特徴と位置を取得する。記録モジュールが、指先が対象物の外周を区切る際に指先の特徴点のフレーム間変位を記録してフレーム間変位から区切り軌跡を取得し、区切り軌跡を閉じて全周形状を形成する。ついで、投影モジュールが、視線方向が対象物の位置する平面に対して垂直であるところの平面に全周形状を投影して投影領域を取得し、投影領域を対象物の識別領域として用いて画像識別を行う。したがって、ユーザが対象物の画像識別を行う際、対象物の区切りと画像分割を素早く行うために、ユーザは指を伸ばして対象物の外周を対象物の外周に向けた指先で区切るだけでよく、これは対象物の画像識別のための識別入力として用いることができるので、操作はシンプルであり、ユーザ体験はより良く、適用性は高い。
本開示の第3の態様によると、コンピュータ読み取り可能な記憶媒体が提供される。コンピュータ読み取り可能な記憶媒体は、コンピュータ上で実行された際に本開示の第1の態様に係る画像分割方法を実行するコンピュータプログラムから構成される。
本開示の実施形態のさらなる態様や利点が、以下の説明において部分的に述べられ、以下の説明から部分的に明らかとなり、あるいは本開示の実施形態の実践により理解される。
本開示の実施形態のこれらまたは他の態様および利点が、図面を参照してなされる以下の説明により明らかとなり、より容易に理解されるであろう。
本開示の実施形態に係る画像識別方法のフローチャートである。 本開示の他の実施形態に係る画像識別方法の概略図である。 本開示の実施形態に係る画像識別装置のブロック図である。 本開示の他の実施形態に係る画像識別装置のブロック図である。
本開示の実施形態について詳細に述べる。図面を参照して本明細書に記載される実施形態は、説明的かつ一例であり、本開示を一般的に理解するために用いられる。実施形態は、本開示を限定するものと解釈されてはならない。同一または同様の要素および同一または同様の機能を有する要素は、説明の全体にわたって同等の参照番号で示される。
図1は、本開示の実施形態に係る画像識別方法のフローチャートである。
図1に示されるように、画像識別方法は以下のステップから構成される。
ステップ101において、第1の視点からの視界内の手特徴領域が肌色検出により取得され、手特徴領域がリアルタイムで捕捉され追跡される。
さらに、第1の視点からの視界内の手特徴領域が肌色検出によって取得される前に、発話、タッチスクリーン、または動的センサを介して入力される画像識別要求が受信されて第1の視点からの視界内の手特徴領域を肌色検出により取得する操作が始動される。
ステップ102において、伸ばした手の形態学的特徴に対するパターン認識を行うことによって手特徴領域から指先の特徴と位置が取得され、指先の特徴と位置はリアルタイムで捕捉され追跡される。
ステップ103において、指先が対象物の外周を区切る際に指先の特徴点のフレーム間変位が記録されてフレーム間変位から区切り軌跡が取得され、区切り軌跡は閉じられて全周形状を形成する。
具体的には、区切り軌跡を閉じて全周形状を形成することは、区切り軌跡を閉じて閉曲線最適化アルゴリズムによって全周形状を形成することから構成される。
ステップ104において、視線方向が対象物の位置する面に対して垂直である面に全周形状が投影されて投影領域が取得され、投影領域を対象物の識別領域として用いて画像識別が行われる。
本開示の実施形態に係る画像識別方法では、第1の視点からのユーザの視界内の手特徴領域が肌色検出により取得され、伸ばした手の形態学的特徴に対するパターン認識を行うことにより手特徴領域から指先の特徴と位置が取得される。指先が対象物の外周を区切る際に指先の特徴点のフレーム間変位が記録されてフレーム間変位から区切り軌跡が取得され、区切り軌跡は閉じられて全周形状を形成する。ついで、ユーザの視線方向が対象物の位置する平面に垂直であるところの平面に全周形状が投影されて投影領域が取得され、投影領域を対象物の識別領域として用いて画像識別が行われる。したがって、ユーザが対象物の画像識別を行う際、対象物の区切りと画像分割を素早く行うために、ユーザは指を伸ばして対象物の外周を対象物の外周に向けた指先で区切るだけでよく、これは対象物の画像識別のための識別入力として用いることができるので、操作はシンプルであり、ユーザ体験はより良く、適用性は高い。
図2は、本開示の他の実施形態に係る画像識別方法の概略図である。
図2に示されるように、本実施形態においては、カメラ付きのスマートデバイスが、発話、タッチスクリーン、または動的センサを介してユーザにより入力される画像識別要求を受信した後、スマートデバイスのカメラが起動する。第1の視点からのユーザの視界内の手特徴領域が肌色検出により取得され、手特徴領域がリアルタイムで捕捉され追跡される。ユーザは、発話などの対話型手段により指先の特徴点を識別して捕捉するよう導かれ、ついで対象物の外周を区切るジェスチャを完了するよう導かれる。指先が対象物の外周を区切ると、指先の区切り経路が追跡され、指先の特徴点のフレーム間変位が記録されてフレーム間変位から区切り軌跡が取得され、区切り軌跡は閉じられて全周形状を形成する。ユーザの視線方向が対象物の位置する平面に対して垂直である平面に全周形状が投影されて投影領域が取得され、対象物の識別領域として投影領域を用いて画像識別が行われる。したがって、画像分割および識別が自然な区切り動作で行われ、ついで識別結果がスマートデバイスの音声出力チャネルまたはスクリーン画像出力チャネルを介してユーザに出力されて、対象物の識別が完了される。
いくつかの実施形態においては、対象物はユーザから遠い物体であり、ユーザが触ることのできない物体であり、大きな物体であり、または動かすことのできない固定の物体である。しかし、本開示はそれらに限定されず、対象物の特定の形態は本開示において限定されない。
いくつかの実施形態においては、カメラ付きのスマートデバイスは、カメラ付きのスマート携帯端末であり、カメラ付きのヘッドセットウェアラブルデバイス(たとえば、グーグル・グラスまたはバイドゥアイ)、カメラ付きのスマートウォッチ、またはカメラ視覚入力付きのロボットであってよい。しかし、本開示はそれらに限定されない。
図3は、本開示の実施形態に係る画像識別装置のブロック図である。本実施形態における画像識別装置は、図1に示される画像識別方法を実現するために用いられてよい。
図3に示されるように、画像識別装置は第1の取得モジュール31と、第1の追跡モジュール32と、第2の取得モジュール33と、第2の追跡モジュール34と、記録モジュール35と、投影モジュール36とから構成される。
第1の取得モジュール31は、第1の視点からの視界内の手特徴領域を肌色検出によって取得するよう構成される。
第1の追跡モジュール32は、第1の取得モジュール31によって取得された手特徴領域をリアルタイムで捕捉して追跡するよう構成される。
第2の取得モジュール33は、伸ばした手の形態学的特徴に対するパターン認識を行うことによって、第1の追跡モジュール32によって捕捉され追跡された手特徴領域から指先の特徴と位置を取得するよう構成される。
第2の追跡モジュール34は、指先の特徴と位置をリアルタイムで捕捉し追跡するよう構成される。
記録モジュール35は、指先が対象物の外周を区切る際に指先の特徴点のフレーム間変位を記録してフレーム間変位から区切り軌跡を取得し、区切り軌跡を閉じて全周形状を形成するよう構成される。いくつかの実施形態においては、記録モジュール35は区切り軌跡を閉じて、閉曲線最適化アルゴリズムによって全周形状を形成する。
投影モジュール36は、視線方向が対象物の位置する平面に対して垂直であるところの平面に全周形状を投影して投影領域を取得し、投影領域を対象物の識別領域として用いて画像識別を行うよう構成される。
いくつかの実施形態においては、画像識別装置はカメラ付きスマートデバイス、またはカメラ付きスマートデバイスの一部であってよく、第1の取得モジュール31、第1の追跡モジュール32,第2の取得モジュール33、第2の追跡モジュール34、および/または記録モジュール35の機能の一部または全体が、スマートデバイスのカメラによって行われてもよい。
いくつかの実施形態においては、カメラ付きのスマートデバイスは、カメラ付きのスマート携帯端末、カメラ付きのヘッドセットウェアラブルデバイス(たとえば、グーグル・グラスまたはバイドゥアイ)、カメラ付きのスマートウォッチ、またはカメラ視覚入力付きのロボットであってよい。しかし、本開示はそれらに限定されない。
本開示の実施形態に係る画像識別装置では、第1の取得モジュール31は、第1の視点からのユーザの視界内の手特徴領域を肌色検出により取得し、第2の取得モジュール33は、伸ばした手の形態学的特徴に対するパターン認識を行うことにより、第1の追跡モジュール32によって捕捉され追跡された手特徴領域から指先の特徴と位置を取得する。記録モジュール35は、指先が対象物の外周を区切る際に指先の特徴点のフレーム間変位を記録してフレーム間変位から区切り軌跡を取得し、区切り軌跡を閉じて全周形状を形成する。ついで、投影モジュール36は、視線方向が対象物の位置する平面に対して垂直であるところの平面に全周形状を投影して投影領域を取得し、投影領域を対象物の識別領域として用いて画像識別を行う。したがって、ユーザが対象物の画像識別を行う際、対象物の区切りと画像分割を素早く行うために、ユーザは指を伸ばして対象物の外周を対象物の外周に向けた指先で区切るだけでよく、これは対象物の画像識別のための識別入力として用いることができるので、操作はシンプルであり、ユーザ体験はより良く、適用性は高い。
図4は、本開示の他の実施形態に係る画像識別装置のブロック図である。
本実施形態の画像識別装置は、図4に示す画像識別装置が受信モジュール37からさらに構成される点で、図3に示すものと異なる。
受信モジュール37は、発話、タッチスクリーン、または動的センサを介して入力される画像識別要求を受信して第1の視点からの視界内の手特徴領域を肌色検出によって取得する操作を始動するよう構成される。
つまり、本実施形態において、受信モジュール37が発話、タッチスクリーン、または動的センサを介してユーザにより入力される画像識別要求を受信した後、カメラが起動する。第1の取得モジュール31は、第1の視点からのユーザの視界内の手特徴領域を肌色検出によって取得し、第1の追跡モジュール32は、手特徴領域をリアルタイムで捕捉し追跡する。ユーザは、発話などの対話型手段により指先の特徴点を識別して捕捉するよう導かれ、ついで対象物の外周を区切るジェスチャを完了するよう導かれる。指先が対象物の外周を区切ると、第2の追跡モジュール34は指先の区切り経路を追跡し、記録モジュール35は指先の特徴点のフレーム間変位を記録してフレーム間変位から区切り軌跡を取得し、区切り軌跡を閉じて全周形状を形成する。投影モジュール36は、ユーザの視線方向が対象物の位置する平面に対して垂直方向である平面に全周形状を投影して投影領域を取得し、対象物の識別領域として投影領域を用いて画像識別を行う。したがって、画像分割および識別が自然な区切り動作で行われ、ついで識別結果がスマートデバイスの音声出力チャネルまたはスクリーン画像出力チャネルを介してユーザに出力されて対象物の識別が完了される。
本開示の実施形態に係る画像識別装置では、ユーザが対象物の画像識別を行う際、対象物の区切りと画像分割を素早く行うために、ユーザは指を伸ばして対象物の外周に向けた指先で対象物の外周を区切るだけでよく、これは対象物の画像識別のための識別入力として用いられてもよいので、操作はシンプルであり、ユーザ体験はより良く、適用性は高い。
画像識別は、人工知能における最も重要な飛躍的前進であり、役立つ利用シーンの範囲は非常に広く、今後の検索分野において再優先されるものである。本開示は新しい人間とコンピュータ間の対話および自然なユーザインターフェイスを用いており、これは、まず写真を撮影しついで対象物を区切る従来の画像識別と比較してより自然で便利である。スマートウェアラブル装置の画像識別機能において自然な対話はとりわけ重要であり、本開示において、ユーザはユーザの前の離れた物体を直接区切って検索結果を得ることができ、より自然な対話とより良いユーザ体験を実現することができる。
本開示の実施形態に係る画像識別方法は、視覚画像情報取り込みおよび第1の視点からの処理を行う多様なスマートデバイスに適用することができ、スマートウェアラブル視覚製品のジェスチャ認識についての基本的な技術支援を提供することができる。
本開示の実施形態に係るコンピュータ読み取り可能な記憶媒体もまた提供される。コンピュータ読み取り可能な記憶媒体は、コンピュータ上で実行された際に本開示の上記の実施形態に係る画像識別方法を実行するコンピュータプログラムから構成される。
「第1の」、「第2の」の用語は、本明細書では説明の目的で用いられ、相対的な重要性や意義を示したり暗示したりするものではなく、示された技術的特徴の数を暗示するものでもないことに留意するべきである。したがって、「第1」および「第2」で定義された特徴は、1または2以上の特徴から構成されてよい。本開示の説明において、「複数の」は特に断りのない限り、2または3以上を意味する。
フローチャート、またはその他の方法で本明細書に説明される任意の処理または方法が、特定の論理関数を実行する1または2以上の実行可能な命令から構成され、または進行ステップの1または2以上の実行可能な命令から構成される、モジュール、セグメント、またはコードの一部分を表すであろうことが理解されるであろう。フローチャートは具体的な実行の順番を示すが、実行の順番は描写されているものと異なってもよいことが理解される。たとえば、2または3以上のボックスの実行の順序は、示された順序に対して乱れていてもよい。
本明細書に他の方法で記載され、またはフローチャートに示される論理および/またはステップ、たとえば、論理機能を実現するための実行可能な命令の特定のシーケンステーブルは、任意のコンピュータ読み取り可能な媒体で具体的に実現され、命令実行システム、装置、または設備(コンピュータに基づくシステム、命令実行システム、装置、および設備からの命令を取得し命令を実行することができるプロセッサまたは他のシステムから構成されるシステムなど)によって用いられてもよく、命令実行システム、装置、および設備と組み合わせて用いられてもよい。明細書に関して、「コンピュータ読み取り可能な媒体」は、命令実行システム、装置、または設備によって、またはそれらと組み合わせて用いられる、プログラムを含み、記憶し、通信し、伝搬し、または転送することができる任意の装置であってよい。コンピュータ読み取り可能な媒体のより具体的な例は、1または複数のワイヤによる電子接続(電子デバイス)、携帯可能なコンピュータ筐体(磁気装置)、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラム可能読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ装置および携帯コンパクトディスク読み取り専用メモリ(CDROM)から構成されるがこれに限定されない。加えて、コンピュータ読み取り可能媒体は、プログラムを印刷することのできる紙またはその他の適切な媒体であってもよい、なぜなら、たとえば、紙またはその他の適切な媒体は、プログラムを電気的に取得する必要がある時に、その他の適切な方法によって光学的に走査されて編集され、復号され、または処理されることができ、プログラムはコンピュータメモリに格納されることができるからである。
本開示の上記に例示される方法のステップの全体または部分が、プログラムを含む関連するハードウェアに命令することで実現できることを、当業者は理解するであろう。プログラムはコンピュータ読み取り可能な記憶媒体に格納されてよく、プログラムは、コンピュータ上で実行された際の本開示の方法実施形態の1ステップまたはステップの組み合わせから構成される。
加えて、本開示の実施形態の各機能セルは、処理モジュールに組み込まれてもよく、またはこれらのセルは単独の物理的存在であってもよく、または2または3以上のセルが処理モジュールに組み込まれている。統合モジュールは、ハードウェアの形で実現されてもよく、ソフトウェア機能モジュールの形で実現されてもよい。統合モジュールがソフトウェア機能モジュールの形で実現され、スタンドアロン型の製品として販売されたり用いられたりした場合、統合モジュールはコンピュータ読み取り可能な記憶媒体に格納されてもよい。
上記の記憶媒体は、読み取り専用メモリ、磁気ディスク、CDなどであってよい。
本明細書の全体にわたって、「実施形態」、「いくつかの実施形態」、「一実施形態」、「他の例」、「例」、「具体例」、「いくつかの例」への言及は、実施形態または実施例に関連して説明された特定の特徴、構造、物質、または特性が、本開示の少なくとも一実施形態または一実施例に含まれていることを意味する。したがって、明細書の全体にわたって様々な箇所に出現する「いくつかの実施形態において」、「一実施形態において」、「実施形態において」、「他の実施例において」、「実施例において」、「具体例において」、または「いくつかの実施例において」などの表現は、必ずしも本開示の同じ実施形態または実施例について言及するものではない。さらに、特定の特徴、構造、材料、特性は任意の好適な方法で1または2以上の実施形態または実施例で組み合わされてもよい。
説明的な実施形態が示され説明されたが、上記の実施形態が本開示を制限すると解釈されるものではなく、本開示の精神、原理、および範囲から逸脱することなく実施形態の変更、代替、修正が可能であることを当業者は理解するであろう。

Claims (7)

  1. 第1の視点からの視界内の手特徴領域を肌色検出により取得し、前記手特徴領域をリアルタイムで捕捉し追跡することと、
    伸ばした手の形態学的特徴に対するパターン認識を行うことにより前記手特徴領域から指先の特徴と位置を取得し、前記指先の前記特徴と前記位置をリアルタイムで捕捉し追跡することと、
    前記指先が対象物の外周を区切る際に前記指先の特徴点のフレーム間変位を記録して前記フレーム間変位から区切り軌跡を取得し、前記区切り軌跡を閉じて全周形状を形成することと、
    視線方向が前記対象物の位置する平面に垂直であるところの平面に前記全周形状を投影して投影領域を取得し、前記投影領域を前記対象物の識別領域として用いて画像識別を行うこととから構成される、
    画像識別方法。
  2. 前記区切り軌跡を閉じて前記全周形状を形成することは、
    前記区切り軌跡を閉じて閉曲線最適化アルゴリズムによって前記全周形状を形成することから構成される、
    請求項1に記載の画像識別方法。
  3. 発話、タッチスクリーン、または動的センサを介して入力される画像識別要求を受信して、前記第1の視点からの前記視界内の前記手特徴領域を前記肌色検出により取得する操作を始動することからさらに構成される、
    請求項1または2に記載の画像識別方法。
  4. 第1の視点からの視界内の手特徴領域を肌色検出により取得するよう構成される第1の取得モジュールと、
    前記手特徴領域をリアルタイムで捕捉し追跡するよう構成される第1の追跡モジュールと、
    伸ばした手の形態学的特徴に対するパターン認識を行うことにより、前記手特徴領域から指先の特徴と位置を取得するよう構成された第2の取得モジュールと、
    前記指先の前記特徴と前記位置をリアルタイムで捕捉し追跡するよう構成された第2の追跡モジュールと、
    前記指先が対象物の外周を区切る際に前記指先の特徴点のフレーム間変位を記録して前記フレーム間変位から区切り軌跡を取得し、前記区切り軌跡を閉じて全周形状を形成するよう構成された記録モジュールと、
    視線方向が前記対象物の位置する平面に垂直であるところの平面に前記全周形状を投影して投影領域を取得し、前記投影領域を前記対象物の識別領域として用いて画像識別を行うよう構成された投影モジュールとから構成される、
    画像識別装置。
  5. 前記記録モジュールが、前記区切り軌跡を閉じて閉曲線最適化アルゴリズムによって前記全周形状を形成する、請求項4に記載の画像識別装置。
  6. 発話、タッチスクリーン、または動的センサを介して入力された画像識別要求を受信して、前記第1の視点からの前記視界内の前記手特徴領域を前記肌色検出により取得する操作を始動するよう構成された受信モジュールからさらに構成される、
    請求項4または5に記載の画像識別装置。
  7. コンピュータ上で実行された際に請求項1から3のうちのいずれか1項に記載の画像識別方法を実行するコンピュータプログラムから構成される、コンピュータ読み取り可能な記憶媒体。
JP2014252231A 2014-10-29 2014-12-12 画像識別方法および画像識別装置 Active JP6104227B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201410594523.3 2014-10-29
CN201410594523.3A CN104318218A (zh) 2014-10-29 2014-10-29 图像识别方法和装置

Publications (2)

Publication Number Publication Date
JP2016091527A JP2016091527A (ja) 2016-05-23
JP6104227B2 true JP6104227B2 (ja) 2017-03-29

Family

ID=52231838

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014252231A Active JP6104227B2 (ja) 2014-10-29 2014-12-12 画像識別方法および画像識別装置

Country Status (5)

Country Link
US (1) US9396387B2 (ja)
EP (1) EP3016024A3 (ja)
JP (1) JP6104227B2 (ja)
KR (1) KR101929077B1 (ja)
CN (1) CN104318218A (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005441B (zh) * 2015-06-18 2018-11-06 美国掌赢信息科技有限公司 一种即时视频的显示方法和电子设备
US10186086B2 (en) * 2015-09-02 2019-01-22 Microsoft Technology Licensing, Llc Augmented reality control of computing device
CN106204423B (zh) * 2016-06-28 2019-09-27 Oppo广东移动通信有限公司 一种基于增强现实的图片调整方法、装置及终端
TWI734867B (zh) * 2017-11-20 2021-08-01 達明機器人股份有限公司 機器手臂作業軌跡的教導系統及方法
CN110443664B (zh) * 2018-05-04 2022-07-05 阿里巴巴集团控股有限公司 信息推送***、投影***、方法、装置及电子设备
CN111062235B (zh) * 2018-10-17 2023-05-02 阿里巴巴集团控股有限公司 人脸识别方法和装置、人脸检测库的建立方法
CN109840504B (zh) * 2019-02-01 2022-11-25 腾讯科技(深圳)有限公司 物品取放行为识别方法、装置、存储介质及设备
CN110555833B (zh) * 2019-08-30 2023-03-21 联想(北京)有限公司 图像处理方法、装置、电子设备以及介质
CN111583134B (zh) * 2020-04-20 2022-08-12 清华大学 带标注的手与物体复杂交互真实彩色数据生成方法及装置
CN111639545B (zh) * 2020-05-08 2023-08-08 浙江大华技术股份有限公司 一种人脸识别方法、装置、设备及介质
CN113676654B (zh) * 2020-05-14 2023-06-06 武汉Tcl集团工业研究院有限公司 一种图像截取方法、装置、设备及计算机可读存储介质
CN115793862B (zh) * 2023-01-05 2023-04-28 东云睿连(武汉)计算技术有限公司 一种图像目标隐式标注方法、***、电子设备及存储介质

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3255740B2 (ja) * 1992-11-20 2002-02-12 武藤工業株式会社 曲線の接続処理方法および装置
US7148913B2 (en) * 2001-10-12 2006-12-12 Hrl Laboratories, Llc Vision-based pointer tracking and object classification method and apparatus
US7308112B2 (en) * 2004-05-14 2007-12-11 Honda Motor Co., Ltd. Sign based human-machine interaction
US8775452B2 (en) * 2006-09-17 2014-07-08 Nokia Corporation Method, apparatus and computer program product for providing standard real world to virtual world links
US8005263B2 (en) * 2007-10-26 2011-08-23 Honda Motor Co., Ltd. Hand sign recognition using label assignment
US8199106B2 (en) * 2007-12-20 2012-06-12 University Of Central Florida Research Foundation, Inc. Systems and methods of camera-based fingertip tracking
CN101499177A (zh) * 2008-01-28 2009-08-05 上海西门子医疗器械有限公司 一种三维模型的建立方法和***
TWI398818B (zh) * 2009-06-30 2013-06-11 Univ Nat Taiwan Science Tech 手勢辨識方法與系統
US8334842B2 (en) * 2010-01-15 2012-12-18 Microsoft Corporation Recognizing user intent in motion capture system
US8499257B2 (en) * 2010-02-09 2013-07-30 Microsoft Corporation Handles interactions for human—computer interface
JP2011198270A (ja) * 2010-03-23 2011-10-06 Denso It Laboratory Inc 対象認識装置及びそれを用いた制御装置、並びに対象認識方法
US8600123B2 (en) * 2010-09-24 2013-12-03 General Electric Company System and method for contactless multi-fingerprint collection
US9135503B2 (en) * 2010-11-09 2015-09-15 Qualcomm Incorporated Fingertip tracking for touchless user interface
JP5648443B2 (ja) * 2010-11-26 2015-01-07 ソニー株式会社 画像処理装置および方法、並びにプログラム
US8782566B2 (en) * 2011-02-22 2014-07-15 Cisco Technology, Inc. Using gestures to schedule and manage meetings
US8971572B1 (en) * 2011-08-12 2015-03-03 The Research Foundation For The State University Of New York Hand pointing estimation for human computer interaction
CN103376890B (zh) * 2012-04-16 2016-08-31 富士通株式会社 基于视觉的手势遥控***
TWI454968B (zh) * 2012-12-24 2014-10-01 Ind Tech Res Inst 三維互動裝置及其操控方法
KR101511297B1 (ko) * 2012-12-26 2015-04-10 주식회사 케이티 객체에 대한 부가정보를 생성하는 장치 및 방법 그리고, 부가정보를 공유하는 서버
US9076257B2 (en) * 2013-01-03 2015-07-07 Qualcomm Incorporated Rendering augmented reality based on foreground object
US10025486B2 (en) * 2013-03-15 2018-07-17 Elwha Llc Cross-reality select, drag, and drop for augmented reality systems

Also Published As

Publication number Publication date
EP3016024A2 (en) 2016-05-04
EP3016024A3 (en) 2016-06-01
JP2016091527A (ja) 2016-05-23
US20160125236A1 (en) 2016-05-05
CN104318218A (zh) 2015-01-28
KR101929077B1 (ko) 2018-12-13
US9396387B2 (en) 2016-07-19
KR20160051496A (ko) 2016-05-11

Similar Documents

Publication Publication Date Title
JP6104227B2 (ja) 画像識別方法および画像識別装置
JP6339489B2 (ja) 画像分割方法および画像分割装置
JP7262659B2 (ja) 目標対象物マッチング方法及び装置、電子機器並びに記憶媒体
KR101679290B1 (ko) 영상 처리 방법 및 장치
US11562471B2 (en) Arrangement for generating head related transfer function filters
US20130021490A1 (en) Facial Image Processing in an Image Capture Device
JP2006287749A (ja) 撮像装置、及びその制御方法
CN107395957B (zh) 拍照方法、装置、存储介质及电子设备
CN109002796B (zh) 一种图像采集方法、装置和***以及电子设备
US10163009B2 (en) Apparatus and method for recognizing iris
JP2022531055A (ja) インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体
JP2008033718A (ja) 撮像装置及び部位拡大表示方法
WO2021130548A1 (en) Gesture recognition method and apparatus, electronic device, and storage medium
JP5882929B2 (ja) 画像処理装置、画像処理方法、及び画像処理プログラム
CN104205031A (zh) 图片缩放方法及设备
CN105338241A (zh) 一种拍摄方法和装置
TWI519840B (zh) 能夠即時對特定可移動物件進行自動對焦的方法、具有自動對焦功能的攝影裝置、以及儲存用來執行即時對特定可移動物件進行自動對焦之電腦程式的電腦可讀式儲存媒體
US9066010B2 (en) Photographing apparatus, photographing method and medium recording photographing control program
JP2017204280A (ja) ビデオフレームを選択する方法、システム及び装置
JP2017041857A (ja) 画像処理装置、その制御方法、プログラム及び撮像装置
JPWO2019078310A1 (ja) 顔三次元形状推定装置、顔三次元形状推定方法、及び、顔三次元形状推定プログラム
KR20140134844A (ko) 객체 기반 사진 촬영 방법 및 장치
KR20180069312A (ko) 라이트 필드 동영상을 이용한 물체 추적 방법 및 장치
KR20130104483A (ko) 객체를 분할하여 사진을 촬영하는 방법 및 장치
CN116820251B (zh) 一种手势轨迹交互方法、智能眼镜及存储介质

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170228

R150 Certificate of patent or registration of utility model

Ref document number: 6104227

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250