JP5782459B2 - 音声−体識別の相関 - Google Patents

音声−体識別の相関 Download PDF

Info

Publication number
JP5782459B2
JP5782459B2 JP2012551183A JP2012551183A JP5782459B2 JP 5782459 B2 JP5782459 B2 JP 5782459B2 JP 2012551183 A JP2012551183 A JP 2012551183A JP 2012551183 A JP2012551183 A JP 2012551183A JP 5782459 B2 JP5782459 B2 JP 5782459B2
Authority
JP
Japan
Prior art keywords
user
users
voice
speech
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012551183A
Other languages
English (en)
Other versions
JP2013519135A (ja
Inventor
デルニス,ミッチェル
レイヴァンド,トマー
クライン,クリスチャン
リー,ジンユー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2013519135A publication Critical patent/JP2013519135A/ja
Application granted granted Critical
Publication of JP5782459B2 publication Critical patent/JP5782459B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/10Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/213Input arrangements for video game devices characterised by their sensors, purposes or types comprising photodetecting means, e.g. cameras, photodiodes or infrared cells
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/215Input arrangements for video game devices characterised by their sensors, purposes or types comprising means for detecting acoustic signals, e.g. using a microphone
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/70Game security or game management aspects
    • A63F13/79Game security or game management aspects involving player-related data, e.g. identities, accounts, preferences or play histories
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Acoustics & Sound (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Business, Economics & Management (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Description

従来技術
[0001] コンピューター・ゲームおよびマルチメディア・アプリケーションというようなシステムは、当該システムがユーザーの動きや口頭伝達をシステムへの入力として利用できるところまで発展している。このような自然システムは、複数のユーザーに適合させることもでき、その場合、個々の人を互いに区別しなければならない。種々のメカニズムによって視野内にいるユーザーを識別することをゲームまたはアプリケーションに可能にする技法が存在し、サイズ、顔の表情、衣服の色等というような、ユーザーの特徴を検知することができる三次元深度カメラが含まれる。また、マイクロフォン・アレイを含む種々の技法によって、知覚されたユーザーの音声を識別する音声認識技法も存在する。
これら2つの技法は、従来組み合わせて使用されることはなかった。ユーザーの側では入念な設定を必要とすることなく、ユーザーの音声を体と自動的に一致させることができれば、興味が尽きないであろう。例えば、ある人の識別が、撮像技法のみまたはオーディオ技法のみを使用したのでは曖昧となるということが起こる場合もある。これは、特に、低価格の消費者用システムにおいて言えることである。このような音および視覚識別の相関は、ユーザーを明確に区別するのに役立つことに加えて、ゲームまたはアプリケーションにおけるユーザー体験を増すために使用することができる。
[0002] 本明細書において記載するのは、マルチユーザー・アプリケーションにおいて音声をユーザーに相関付けるシステムおよび方法である。このシステムは、撮像カメラ・コンポーネントを含み、撮像カメラ・コンポーネントの視野内にいる1人以上のユーザーの深度画像を与えることができる。更に、このシステムは、マイクロフォン・アレイを含み、このマイクロフォン・アレイのレンジ内において音を受けることができる。このマイクロフォン・アレイは、更に、第1許容範囲内で音声の発生源を突き止めることもできる。実施形態は、更に、計算環境も含む。この計算環境は、画像取り込みコンポーネントおよびマイクロフォン・アレイの双方と通信することができ、視野内にいる異なるユーザー間で、第2許容範囲までで区別することができる。実施形態では、第1および第2許容範囲が、撮像カメラからのデーターおよびマイクロフォン・アレイからのデーターの初期サンプリングの後、時々音声のユーザーに対する相関を妨げることもできる。しかしながら、この計算環境は、更に、撮像カメラからのデーターおよびマイクロフォン・アレイからのデーターの追加のサンプリングも実行する。これら追加のサンプリングによって、音声とユーザーとの相関が可能になり、あるいはこの追加のサンプリングは、音声がユーザーに相関付けられる可能性を低下させる。
図1Aは、ターゲット認識、分析、および追跡システムの一実施形態例を、ゲームをプレイするユーザーと共に示す。 図1Bは、ターゲット認識、分析、および追跡システムの一実施形態例を、ゲームをプレイするユーザーと共に示す。 図2は、ターゲット認識、分析、および追跡システムにおいて使用することができるキャプチャー・デバイスの一実施形態例を示す。 図3Aは、ターゲット認識、分析、および追跡システムにおいて1つ以上のジェスチャーを解釈するために使用することができる計算環境の一実施形態例を示す。 図3Bは、ターゲット認識、分析、および追跡システムにおいて1つ以上のジェスチャーを解釈するために使用することができる計算環境の他の一実施形態例を示す。 図4は、音声を体に相関付ける方法例の上位流れ図を示す。 図5は、視野内において1つ以上の体を識別する流れ図を示す。 図6は、本システムのマイクロフォン・アレイによって拾われた音声を識別する流れ図を示す。 図7は、音声を体に明確に相関付ける一実施形態の流れ図を示す。 図8Aは、図8Bと共に、音声の複数のサンプリングおよび***置識別によって、音声を体に相関付ける一実施形態の流れ図を示す。 図8Bは、図8Aと共に、音声の複数のサンプリングおよび***置識別によって、音声を体に相関付ける一実施形態の流れ図を示す。
[0012] 本技術の実施形態について、これより、図1Aから図8Bまでを参照しながら説明する。これらの図は、概略的に、マルチユーザー・ゲームまたはマルチメディア設定において、ユーザーの音声のユーザーの体との相関に基づいて、人を自動的に識別するために、画像および音データーを経時的に追跡するシステムに関する。大まかに言うと、本システムは、視野において人のような物体を検知する1つ以上のカメラを含むキャプチャー・デバイスと、人の声のような音を検知するマイクロフォン・アレイとを含む。これらのカメラは、視野内にある物体が人であるか否か判断することができ、更に、例えば、骨格関節位置というような、識別された人の身体的特徴を判断することもできる。また、このカメラは、視野内にいる人々の互いに対する相対的位置、およびキャプチャー・デバイスに対する相対的位置を判定することができる。マイクロフォン・アレイは、聞こえたサウンドが音声か否か判断することができ、異なる音声間で区別することができる場合もある。また、これらのマイクロフォンは、検出された音声の、他の検出された音声に対する相対的位置、およびマイクロフォンに対する相対的位置も判定することもできるとよい。
[0013] 本撮像および音響システムが、所与の音声が視野内にいる所与のユーザーの体に属することを明確に判断することができるとき、その音声−体相関を格納する。しかしながら、本システムが、画像および音サンプリングの後、1つの明確な相関を確定できないということも起こる可能性がある。逆に、本システムが、サンプリングされた1つの音声が一人以上の候補ユーザーに属するかもしれないことを識別することもある。この場合、本システムは、種々のファクターを使用して、所定のしきい値信頼レベル(「TCL」)よりも高く、音声が体と関連付けられているか否か判断することができる。関連付けられているが明確でない場合、音声−体の関連付けを返し、今後のサンプリングにおいて使用するために格納することができる。今後のサンプリングは、この関連付けを補強するか、またはこの関連付けが曖昧なままであることを示す。後者の場合、この関連付けを除去してもよい。
[0014] 最初に図1Aから図2を参照すると、本技術を実現するハードウェアは、ターゲット認識、分析、および追跡システム10を含む。このシステム10は、ユーザーAからDまでのような、一人以上の人間ターゲットを認識、分析、および/または追跡するために使用することができる。ターゲット認識、分析、および追跡システム10の実施形態は、ゲーミングまたは他のアプリケーションを実行する計算環境12と、このゲーミングまたは他のアプリケーションから音および視覚表現を与えるオーディオビジュアル・デバイス16を含む。更に、システム10は、1つ以上の深度知覚カメラを含むキャプチャー・デバイス20と、2つ以上のマイクロフォンを含むマイクロフォン・アレイとを含む。キャプチャー・デバイス20は、計算環境12が、少なくとも部分的に、キャプチャー・デバイス20から受け取った情報に基づいて、オーディオビジュアル・デバイス16への出力を制御することができるように、計算環境12と通信する。これらのコンポーネントの各々については、以下で更に詳しく説明する。
[0015] 図1Aおよび図1Bに示すように、一実施形態例では、計算環境12において実行するアプリケーション・プログラムは、マルチプレーヤ・ゲームとすることができる。キャプチャー・デバイス20から受け取った情報に基づいて、計算環境12は、オーディオビジュアル・デバイス16を使用してプレーヤー・アバターA’〜D’のような、各ユーザーA〜Dの視覚表現を与えることができる。ユーザーは、視野に入ったり出たりすることができる。例えば、図1AはユーザーA〜Dを示し、図1BはユーザーA〜Cを示す。アバターA’〜D’の各々は、画面上において、それぞれのユーザーA〜Dの動きを写像するように動くことができる。つまり、ユーザーは、図1Bにおいて、図1Aにおける彼らの位置に対して動き回っており、ユーザーDが視野から離れているので、ユーザーDのアバターは図1Bでは見ることができない。
[0016] 本技術にとって重大なことではないが、ユーザーA〜Dはジェスチャーを行うことができ、計算環境12において実行しているソフトウェア・エンジンがそのジェスチャーを認識して、そのユーザーのアバターが、ユーザーのジェスチャーを認識したときに、何らかの動作を実行するようにしている。4人のユーザーが図1Aおよび図1Bの例には示されているが、本技術は実施形態において4人よりも多いユーザーでも少ないユーザーでも動作できることは言うまでもない。更に、本技術は、ゲーミングのコンテキストにおいて音声を話者に相関付けることにも限定されず、逆に、人を彼らの音声の彼らの体との相関に基づいて識別することが望ましい広範囲の他の場合にも使用することができる。
[0017] 図2は、ターゲット認識、分析、および追跡システム10において使用することができるキャプチャー・デバイス20の一実施形態例を示す。一実施形態例では、キャプチャー・デバイス20は撮像カメラ・コンポーネント22を含むことができる。コンポーネント22は、例えば、飛行時間、構造化照明、立体画像等を含む任意の適した技法によって、視野内における三次元ビデオ画像を取り込むように構成されている。一実施形態によれば、撮像カメラ・コンポーネント22は、計算された深度情報を「Zレイヤー」、または見通し線に沿って深度カメラから延びるZ軸に垂直とするとよいレイヤーに編成することができる。
[0018] キャプチャー・デバイス20の一部をなすことができるカメラに関する追加の詳細が、「ジェスチャー・ツール」(GESTURE TOOL)と題する同時係属中の米国特許出願第12/474655号、および「標準的ジェスチャー」(STANDARD GESTURES)と題する同時係属中の米国特許出願第12/391150号に明記されている。これらの出願の各々は、ここで引用したことにより、その内容全体が本願にも含まれるものとする。しかしながら、一般には、図2に示すように、撮像カメラ・コンポーネント22は、取り込まれた場面の二次元(2−D)画素エリアを有する深度画像を取り込むことができる。この2−D画素エリアにおける各画素は、カメラからの取り込まれた場面における物体の、例えば、センチメートル、ミリメートル等を単位とする長さを表すことができる。撮像カメラ・コンポーネント22は、図1Aおよび図1Bにおいて光線R1およびR2によって表されている視野内にある物体を撮像することができる。
[0019] 図2に示すように、一実施形態によれば、撮像カメラ・コンポーネント22は、IR発光コンポーネント24、三次元(3−D)カメラ26、およびRGBカメラ28を含むことができ、これらは、場面の深度画像を取り込むために使用することができる。例えば、飛行時間分析では、キャプチャー・デバイス20のIR発光コンポーネント24は赤外線光を場面に放出することができ、次いでセンサ(図示せず)を使用して、場面にある1つ以上のターゲットおよび物体の表面からの後方散乱光を、例えば、3−Dカメラ26および/またはRGBカメラ28を使用して、検出することができる。
[0020] 他の実施形態によれば、キャプチャー・デバイス20は、2つ以上の物理的に分離されたカメラを含むこともでき、これらが1つの場面を異なる角度から見て視覚的立体データーを得て、このデーターを分解して深度情報を生成することができる。いずれの実施形態においても、撮像カメラ・コンポーネント22は視野内における人々の互いに対する方位を判定することができ、視野における各人のキャプチャー・デバイス20に対する角度を計算することができる。
[0021] キャプチャー・デバイス20は、例えば、3Dカメラ26および/またはRGBカメラ28によって取り込まれた深度情報および画像、ならびにキャプチャー・デバイス20によって生成することができる骨格モデルを、計算環境12に、通信リンク36を介して供給することができる。キャプチャー・デバイス20によって検出されたターゲットまたは物体が人間のターゲットに対応するか否か判断するために、種々の既知の技法が存在する。例えば、キャプチャー・デバイス20は、人間のターゲットを含むかもしれないキャプチャー・エリアの深度情報を取り込むことができる。次に、この深度画像は分析されて、深度画像が人間のターゲットおよび/または人間以外のターゲットを含むか否か判断することができる。この深度画像の一部を塗りつぶし(flood filled)、ターゲットが人間のターゲットであるか否か判断することができる。深度画像におけるターゲットの1つ以上が人間のターゲットを含む場合、この人間のターゲットを走査することができる。
[0022] 次いで、骨格マッピング技法を使用して、ユーザーの骨格、手の関節、手首、肘、膝、鼻、踝、肩、および骨盤が脊椎と交わるところを判定することができる。他の技法には、画像をその人の体モデル表現に変換し、この画像をその人のメッシュ・モデル表現に変換することが含まれる。次いで、骨格モデルを計算環境12に供給して、この計算環境がこの骨格モデルを追跡し、この骨格モデルと関連付けられているアバターをレンダリングできるようにする。
[0023] 更に、キャプチャー・デバイス20は、2つ以上のマイクロフォン30を含むマイクロフォン・アレイ32も含むことができる。このマイクロフォンのアレイは、少なくとも2つの機能を実行する。マイクロフォン30は、ユーザーA〜Dの一人以上によって供給することができる音信号を受け取り、彼らのアバターA’〜D’を制御し、他のゲームまたはシステム・メトリックに影響を及ぼし、あるいは計算環境12によって実行することができる他のアプリケーションを制御することができる。マイクロフォン・アレイ32の第2の機能は、以下で説明するように、ユーザーの識別を容易にすることである。
[0024] 以上で示した実施形態では、2つのマイクロフォン30があるが、他の実施形態では、マイクロフォン・アレイは2つよりも多いマイクロフォンを有してもよいことは言うまでもない。垂直軸に沿った相対的位置を解明することが重要でなくてもよい実施形態では、これらのマイクロフォンを共通の垂直面に(即ち、同じ高さで)並べればよい。しかしながら、本技術は、異なる垂直線および水平線に沿って位置する2つから4つまたはそれ以上のカメラを使用してもよいことも言うまでもない。このような実施形態では、マイクロフォン・アレイは、垂直面および水平面双方に沿って音定位技法(acoustic localization technique)を採用して、三次元空間における1つ以上の音声の位置を特定することができる。
[0025] アレイの中にあるマイクロフォン30は、図に示すように、例えば、1フィート離して位置付けるというように、互いに近づけて位置付けてもよい。尚、他の実施形態では、マイクロフォンを互いに近接させて、または、更に離して、例えば、キャプチャー・デバイス20が隣接する壁の角に置いてもよいことは言うまでもない。
[0026] アレイの中にあるマイクロフォン30は、互いに同期させることができ、各々が変換器またはセンサを含むことができ、信号を受け取って電気信号に変換することができる。マイクロフォンによって拾い上げられたサウンドを区別して、これらのサウンドの1つ以上が人間の音声であるか否か判断する技法が知られている。マイクロフォン30は、ハイ・パス・フィルタのような種々の既知のフィルタを含み、マイクロフォン30によって検出することができる低周波ノイズを減衰させることもできる。
[0027] 所与の許容範囲内で、アレイ32は知覚された音声の互いに対する方位も判定することができ、そして音定位技法を使用して、マイクロフォン・アレイに対する各音声源の角度を計算することができる。種々の音定位技法が知られている。一実施形態では、到達時間差(TDOA)技法を採用することができる。この技法は、異なるマイクロフォン対間における1組のTDOAを判定するステップを有する。即ち、1組のマイクロフォン対における対毎に、その対の中にあるマイクロフォンの各々における音源信号の到達間の相対的時間差を判定する。例えば、音源の位置sを測定する2つのマイクロフォンiおよびjに対するTDOAは、次のように求めることができる。
ここで、mは、i番目のマイクロフォンの位置であり、mは、j番目のマイクロフォンの位置であり、cは光速である。
[0028] TDOA技法は、更に、判定されたTDOAデーターおよびマイクロフォン・アレイの幾何学的形状を使用して、音源の位置を推定する第2ステップを含む。この第2ステップは、種々の既知の方法によって実行することができ、例えば、最大尤度法、三角測量法、球交差法(spherical intersection method)、および球補間法が含まれる。
[0029] TDOA方法は、知覚された音声の発生源を突き止めるために採用することができる複数の既知の方法の中の1つである。他の方法には、操舵ビーム形成に基づく技法、および高分解能スペクトル推定に基づく技法が含まれる。音定位のためのマイクロフォン・システムに関する更なる詳細は、例えば、「ビデオ・カメラ操舵用途用受動型音源定位方法および装置」(Method and Apparatus for Passive Acoustic Source Localization for Video Camera Steering Applications)と題する米国特許第6,826,284号、およびH.Wang and P. Chuによる公開論文「テレビ会議における自動カメラ定点システムのための音声源定位」("Voice Source Localization for Automatic Camera Pointing System In Videoconferencing," in Proc. IEEE int. Conf. Acoustics, Speech, and Signal Processing (ICASSP), Munich, Germany, Apr. 1997, pp. 187--190)において見いだすことができる。以上の特許および論文は、ここで引用したことにより、その内容全てが本願にも含まれるものとする。1つのマイクロフォンを使用して所与の許容範囲で音源定位を可能にする技法があるのであれば、マイクロフォン・アレイ32は1つ以上のマイクロフォンを含めばよい。
[0030] 一実施形態例では、キャプチャー・デバイス20は、更に、撮像カメラ・コンポーネント22およびマイクロフォン・アレイ32と動作的に通信することができるプロセッサー33も含むことができる。プロセッサー33は、命令を実行することができる標準的なプロセッサー、特殊プロセッサー、マイクロプロセッサー等を含むことができる。これらの命令には、深度画像を受け取り、この深度画像に適したターゲットが含まれ得るか否か判定を行い、適したターゲットをそのターゲットの骨格表現またはモデルに変換する命令、または任意の他の適した命令を含むことができる。また、プロセッサー33は、音定位に関して先に説明した動作も実行することができる。
[0031] キャプチャー・デバイス20は、更に、メモリー・コンポーネント34も含むことができる。メモリー・コンポーネント34は、プロセッサー33によって実行することができる命令、3DカメラまたはRGBカメラによって取り込まれた画像または画像のフレーム、マイクロフォン30からのオーディオ・データー、あるいは任意の他の適した情報等を格納することができる。一実施形態例によれば、メモリー・コンポーネント34は、ランダム・アクセス・メモリー(RAM)、リード・オンリー・メモリー(ROM)、キャッシュ、フラッシュ・メモリー、ハード・ディスク、または任意の他の適した記憶コンポーネントを含むことができる。図2に示すように、一実施形態では、メモリー・コンポーネント34は、画像キャプチャー・コンポーネント22、マイクロフォン・アレイ32、およびプロセッサー33と通信することができる別個のコンポーネントであってもよい。他の実施形態によれば、メモリー・コンポーネント34は、プロセッサー33および/またはマイクロフォン・アレイ32に統合されてもよい。
[0032] 図2に示すように、キャプチャー・デバイス20は、通信リンク36を介して、計算環境12と通信することができる。通信リンク36は、例えば、USB接続、Firewire接続、イーサネット・ケーブル接続などを含む有線接続、および/またはワイヤレス802.11b、g、a、またはn接続のようなワイヤレス接続とすることができる。一実施形態によれば、計算環境12は、クロックをキャプチャー・デバイス202に供給することができる。このクロックは、例えば、通信リンク36を介して場面をいつ取り込むべきか判定するために使用することができる。キャプチャー・デバイス20からの画像およびオーディオ・データーも、通信リンク36を介して計算環境12に伝達することができる。
[0033] 図3Aは、ターゲット認識、分析、および追跡システムにおいて1つ以上のジェスチャーを解釈するために使用することができる計算環境の一実施形態例を示す。図1A〜図2に関して先に説明した計算環境12のような計算環境は、ゲーミング・コンソールのような、マルチメディア・コンソール100とすることができる。図3Aに示すように、マルチメディア・コンソール100は、レベル1キャッシュ102、レベル2キャッシュ104、およびフラッシュROM106を有する中央処理ユニット(CPU)101を有する。レベル1キャッシュ102およびレベル2キャッシュ104は、一時的にデーターを格納し、こうしてメモリー・アクセス・サイクルの回数を減らすことによって、処理速度およびスループットを向上させる。CPU101は、1つよりも多いコア、つまり、追加のレベル1およびレベル2キャッシュ102および104を有するように装備することもできる。フラッシュROM106は、実行可能コードを格納することができる。実行可能コードは、マルチメディア・コンソール100の電源をオンにしたときに、ブート・プロセスの初期段階中にロードされる。
[0034] グラフィクス処理ユニット(GPU)108およびビデオ・エンコーダー/ビデオ・コデック(コーダー/デコーダー)114が、高速および高分解能グラフィクス処理のためにビデオ処理パイプラインを形成する。データーは、バスを通じて、グラフィクス処理ユニット108からビデオ・エンコーダー/ビデオ・コデック114に伝達される。ビデオ処理パイプラインは、テレビジョンまたは他のディスプレイに送信するために、データーをA/V(オーディオ/ビデオ)ポート140に出力する。メモリー・コントローラー110がGPU108に接続されており、限定ではなく、RAM(ランダム・アクセス・メモリー)のような、種々のタイプのメモリー112にプロセッサーがアクセスし易くなっている。
[0035] マルチメディア・コンソール100は、I/Oコントローラー120、システム管理コントローラー122、オーディオ処理ユニット123、ネットワーク・インターフェース・コントローラー124、第1USBホスト・コントローラー126、第2USBコントローラー128、およびフロント・パネルI/Oサブアセンブリ130を含む。好ましくは、これらをモジュール118に実装する。USBコントローラー126および128は、周辺コントローラー142(1)〜142(2)、ワイヤレス・アダプター148、および外部メモリー・デバイス146(例えば、フラッシュ・メモリー、外部CD/DVD ROMドライブ、リムーバブル媒体等)のためのホストとしての役割を果たす。ネットワーク・インターフェース124および/またはワイヤレス・アダプター148は、ネットワーク(例えば、インターネット、ホーム・ネットワーク等)へのアクセスを与え、イーサネット・カード、モデム、Bluetoothモジュール、ケーブル・モデム等を含む広範囲の種々の有線またはワイヤレス・アダプター・コンポーネントの内任意のものとすることができる。
[0036] システム・メモリー143は、ブート・プロセスの間にロードされるアプリケーション・データーを格納するために設けられている。メディア・ドライブ144が設けられており、DVD/CDドライブ、ハード・ドライブ、またはその他のリムーバブル・メディア・ドライブ等を含むことができる。メディア・ドライブ144は、マルチメディア・コンソール100の内部にあっても外部にあってもよい。アプリケーション・データーは、実行、再生等のためにマルチメディア・コンソール100によってメディア・ドライブ144を通じてアクセスすることができる。メディア・ドライブ144は、シリアルATAバスまたはその他の高速接続(例えば、IEEE1394)のようなバスを通じて、I/Oコントローラー120に接続されている。
[0037] システム管理コントローラー122は、マルチメディア・コンソール100の利用可能性を確保することに関する種々のサービス機能を提供する。オーディオ処理ユニット123およびオーディオ・コデック132は、高忠実度およびステレオ処理を行う、対応のオーディオ処理パイプラインを形成する。オーディオ・データーは、通信リンクを通じて、オーディオ処理ユニット123とオーディオ・コデック132との間で伝達される。オーディオ処理パイプラインは、外部オーディオ・プレーヤーまたはオーディオ処理能力を有するデバイスによる再生のために、データーをA/Vポート140に出力する。
[0038] フロント・パネルI/Oサブアセンブリ130は、電力ボタン150およびイジェクト・ボタン152の機能をサポートするだけでなく、マルチメディア・コンソール100の外面上に露出する任意のLED(発光ダイオード)またはその他のインディケーターもサポートする。システム電源モジュール136が、マルチメディア・コンソール100のコンポーネントに電力を供給する。ファン138は、マルチメディア・コンソール100の内部にある回路を冷却する。
[0039] CPU101、GPU108、メモリー・コントローラー110、およびマルチメディア・コンソール100の内部にある種々のその他のコンポーネントは、1系統以上のバスを通じて相互接続されている。これらのバスには、シリアル・バスおよびパラレル・バス、メモリー・バス、周辺バス、ならびに種々のバス・アーキテクチャーの内任意のものを使用するプロセッサー・バスまたはローカル・バスが含まれる。一例として、このようなアーキテクチャーは、ペリフェラル・コンポーネント相互接続(PCI)バス、PCI−Expressバス等を含むことができる。
[0040] マルチメディア・コンソール100の電源をオンにすると、システム・メモリー143からメモリー112および/またはキャッシュ102、104にアプリケーション・データーをロードし、CPU101において実行することができる。アプリケーションは、グラフィカル・ユーザー・インターフェースを提示することができる。このグラフィカル・ユーザー・インターフェースは、マルチメディア・コンソール100において利用可能な異なるタイプのメディアにナビゲートするときに、一貫性のあるユーザー体験を提供する。動作において、アプリケーションおよび/またはメディア・ドライブ144に含まれている他のメディアをメディア・ドライブ144から起動または再生して、マルチメディア・コンソール100に追加の機能を設けることもできる。
[0041] マルチメディア・コンソール100は、単にシステムをテレビジョンまたはその他のディスプレイに接続することによって、スタンドアロン・システムとして動作させることができる。このスタンドアロン・モードでは、マルチメディア・コンソール100は、一人以上のユーザーがシステムと相互作用を行い、ムービーを見ること、または音楽を聞くことを可能にする。しかしながら、ネットワーク・インターフェース124またはワイヤレス・アダプター148によって利用可能となるブロードバンド接続機能を統合することにより、更に大きなネットワーク・コミュニティにおける一関係要素(participant)としてマルチメディア・コンソール100を動作させることもできる。
[0042] マルチメディア・コンソール100の電源をオンにすると、マルチメディア・コンソールのオペレーティング・システムによって、設定されている量のハードウェア・リソースがシステムの使用のために確保される。これらのリソースは、メモリー(例えば、16MB)、CPUおよびGPUサイクル(例えば、5%)、ネットワーキング帯域幅(例えば、8kbs)等の確保を含むことができる。これらのリソースは、システムのブート時に確保されるので、確保されたリソースは、アプリケーションの視点からは存在しない。
[0043] 特に、メモリーの確保は、起動カーネル、コンカレント・システム・アプリケーション、およびドライバーを含めるのに十分大きいことが好ましい。サーブされたCPUの使用がそのシステム・アプリケーションによって使用されない場合、アイドル状態にあるスレッドが未使用サイクルの内任意のものを消費するように、CPUの確保を一定レベルに維持することが好ましい。
[0044] GPUの確保に関して、GPU割り込みを使用することによって、システム・アプリケーション(例えば、ポップアップ)によって生成される軽量メッセージを表示して、ポップアップをオーバーレイにレンダリングするコードをスケジューリングする。オーバーレイに使用されるメモリー量は、オーバーレイのエリア・サイズに依存し、オーバーレイは画面の解像度と共にスケーリングする(scale)ことが好ましい。コンカレント・システム・アプリケーションによって全ユーザー・インターフェースが使用される場合、アプリケーションの解像度とは独立した解像度を使用することが好ましい。周波数を変更しTVの同期を取り直す必要性をなくすように、スケーラーを使用してこの解像度を設定するとよい。
[0045] マルチメディア・コンソール100がブートして、システム・リソースが確保された後、コンカレント・システム・アプリケーションが実行してシステム機能が設けられる。これらのシステム機能は、前述の確保したシステム・リソースの内部で実行する1組のシステム・アプリケーションの中にカプセル化されている。オペレーティング・システム・カーネルは、システム・アプリケーション・スレッドと、ゲーミング・アプリケーション・スレッドとの間でスレッドを識別する。一貫したシステム・リソース・ビューをアプリケーションに提供するために、システム・アプリケーションは、所定の時点および間隔でCPU101において実行するようにスケジューリングされていることが好ましい。このスケジューリングは、コンソールにおいて実行しているゲーミング・アプリケーションに対するキャッシュの***(disruption)を最少に抑えるためにある。
[0046] コンカレント・システム・アプリケーションがオーディオを必要とする場合、時間に敏感であるため、オーディオ処理を非同期にゲーミング・アプリケーションにスケジューリングする。マルチメディア・コンソール・アプリケーション管理部(以下で説明する)は、システム・アプリケーションがアクティブのとき、ゲーミング・アプリケーションのオーディオ・レベル(例えば、無音化、減衰)を制御する。
[0047] 入力デバイス(例えば、コントローラー142(1)および142(2))は、ゲーミング・アプリケーションおよびシステム・アプリケーションによって共有される。入力デバイスは、確保されたリソースではないが、システム・アプリケーションとゲーミング・アプリケーションとの間で切り換えられて、各々がそのデバイスの重点(a focus of the device)を有するようにする。アプリケーション管理部は、好ましくは、ゲーミング・アプリケーションの知識を使用せずに入力ストリームの切換を制御し、ドライバーは重点スイッチ(focus switches)に関する状態情報を維持する。カメラ26、28およびキャプチャー・デバイス20は、コンソール100のための追加の入力デバイスを定めることができる。
[0048] 図3Bは、ターゲット認識、分析、および追跡システムにおいて1つ以上のジェスチャーを解釈するために使用される、計算環境220の他の実施形態例を示すこの計算環境は、図1A〜図2に示した計算環境12とすることができる。計算システム環境220は、適した計算環境の一例に過ぎず、本明細書において開示される主題の使用範囲または機能に関して、いかなる限定を示唆する意図もない。また、計算環境220が、当該動作環境例220において例示される任意の1つのコンポーネントまたはコンポーネントの組み合わせに関して、何らかの依存性または要件を有するように解釈すべきではない。実施形態によっては、図示する種々の計算エレメントが、本開示の特定の態様をインスタンス化するように構成されている回路を含むこともあり得る。例えば、本開示において使用される回路という用語は、ファームウェアまたはスイッチによって機能(1つまたは複数)を実行するように構成されている特殊ハードウェア・コンポーネントを含むことができる。別の実施形態例では、回路という用語は、機能(1つまたは複数)を実行するために動作可能なロジックを具現化するソフトウェア命令によって構成される汎用処理ユニット、メモリー等を含むことができる。回路がハードウェアおよびソフトウェアの組み合わせを含む実施形態例では、実装者(implementer)は、ロジックを具現化するソース・コードを書くことができ、ソース・コードを機械読み取り可能コードにコンパイルすることができ、この機械読み取り可能コードを汎用処理ユニットによって処理することができる。技術的現状では、ハードウェア、ソフトウェア、またはハードウェア/ソフトウェアの組み合わせの間には殆ど差がないというところまで発展していることを当業者は認めることができるので、特定の機能を実行するためにハードウェアまたはソフトウェアのどちらを選択するかということは、実装者に委ねられた設計選択事項である。更に具体的には、ソフトウェア・プロセスを等価のハードウェア構造に変換することができ、更にハードウェア構造自体を等価のソフトウェア・プロセスに変換することができることを、当業者は認めることができる。つまり、ハードウェアの実施態様およびソフトウェアの実施態様のどちらを選択するかということは、実装者に委ねられた設計選択事項の1つである。
[0049] 図3Bにおいて、計算環境220は、コンピューター241を含む。コンピューター241は、通例、種々のコンピューター読み取り可能媒体を含む。コンピューター読み取り可能媒体は、コンピューター241がアクセス可能な入手可能な媒体であればいずれでも可能であり、揮発性および不揮発性の双方、リムーバブル、および非リムーバブル媒体を含む。システム・メモリー222は、リード・オンリー・メモリー(ROM)223およびランダム・アクセス・メモリー(RAM)260のような揮発性および/または不揮発性メモリーの形態で、コンピューター記憶媒体を含む。基本入出力システム224(BIOS)は、起動中のように、コンピューター241内のエレメント間におけるデーター転送を補助する基本的なルーチンを含み、通例ROM223内に格納されている。RAM260は、通例、処理ユニット259が直ちにアクセス可能であるデーターおよび/またはプログラム・モジュール、または現在これによって処理されているデーターおよび/またはプログラム・モジュールを含む。一例として、そして限定ではなく、図3Bは、オペレーティング・システム225、アプリケーション・プログラム226、その他のプログラム・モジュール227、およびプログラム・データー228を示す。
[0050] また、コンピューター241は、その他のリムーバブル/非リムーバブル揮発性/不揮発性コンピューター記憶媒体も含むことができる。一例にすぎないが、図3Bは、非リムーバブル不揮発性磁気媒体からの読み取りおよびこれへの書き込みを行なうハード・ディスク・ドライブ238、リムーバブル不揮発性磁気ディスク254からの読み取りおよびこれへの書き込みを行なう磁気ディスク・ドライブ239、ならびにCD ROMまたはその他の光媒体のようなリムーバブル不揮発性光ディスク253からの読み取りおよびこれへの書き込みを行なう光ディスク・ドライブ240を示す。動作環境の一例において使用可能なその他のリムーバブル/非リムーバブル、揮発性/不揮発性コンピューター記憶媒体には、限定する訳ではないが、磁気テープ・カセット、フラッシュ・メモリー・カード、ディジタル・バーサタイル・ディスク、ディジタル・ビデオ・テープ、ソリッド・ステートRAM、ソリッド・ステートROM等が含まれる。ハード・ディスク・ドライブ238は、通例、インターフェース234のような非リムーバブル・メモリー・インターフェースを介してシステム・バス221に接続され、磁気ディスク・ドライブ239および光ディスク・ドライブ240は、通例、インターフェース235のようなリムーバブル・メモリー・インターフェースによって、システム・バス221に接続する。
[0051] 先に論じそして図3Bに示すドライブおよびそれらと関連のあるコンピューター記憶媒体は、コンピューター読み取り可能命令、データー構造、プログラム・モジュール、およびコンピューター241のその他のデーターを格納する。図3Bでは、例えば、ハード・ディスク・ドライブ238は、オペレーティング・システム258、アプリケーション・プログラム257、他のプログラム・モジュール256、およびプログラム・データー255を格納するように示されている。尚、これらの構成要素は、オペレーティング・システム225、アプリケーション・プログラム226、他のプログラム・モジュール227、およびプログラム・データー228と同じでも異なっていても可能であることを注記しておく。オペレーティング・システム258、アプリケーション・プログラム257、他のプログラム・モジュール256、およびプログラム・データー255は、ここで、少なくともこれらが異なるコピーであることを示すために、異なる番号が付けられている。ユーザーは、キーボード251、および一般にマウス、トラックボールまたはタッチ・パッドと呼ばれているポインティング・デバイス252のような入力デバイスによって、コマンドおよび情報をコンピューター241に入力することができる。他の入力デバイス(図示せず)には、マイクロフォン、ジョイスティック、ゲーム・パッド、衛星ディッシュ、スキャナー等を含むことができる。これらおよびその他の入力デバイスは、多くの場合、ユーザー入力インターフェース236を介して、処理ユニット259に接続されている。ユーザー入力インターフェース236は、システム・バスに結合されているが、パラレル・ポート、ゲーム・ポート、またはユニバーサル・シリアル・バス(USB)によって接続することも可能である。カメラ26、28およびキャプチャー・デバイス20は、コンソール100の追加入力デバイスを定めることができる。モニター242またはその他のタイプの表示装置も、ビデオ・インターフェース232のようなインターフェースを介して、システム・バス221に接続されている。モニターに加えて、コンピューターは、スピーカー244およびプリンター243のような、その他の周辺出力装置も含むことができ、これらは出力周辺インターフェース233を通じて接続することができる。
[0052] コンピューター241は、リモート・コンピューター246のような1つ以上のリモート・コンピューターへの論理接続を使用して、ネットワーク環境において動作することも可能である。リモート・コンピューター246は、パーソナル・コンピューター、サーバー、ルータ、ネットワークPC、ピア・デバイス、またはその他の共通ネットワーク・ノードとすることができ、通例、コンピューター241に関して先に説明したエレメントの多くまたは全てを含むが、3Bにはメモリー記憶装置247のみを示す。図3Bに示す論理接続は、ローカル・エリア・ネットワーク(LAN)245およびワイド・エリア・ネットワーク(WAN)249を含むが、他のネットワークも含むことができる。このようなネットワーク環境は、事務所、企業規模のコンピューター・ネットワーク、イントラネットおよびインターネットにおいては一般的である。
[0053] LANネットワーク環境で使用する場合、コンピューター241は、ネットワーク・インターフェースまたはアダプター237を介してLAN245に接続する。WANネットワーク環境で使用する場合、コンピューター241は、通例、モデム250、またはインターネットのようなWAN249を通じて通信を設定するその他の手段を含む。モデム250は、内蔵でも外付けでもよく、ユーザー入力インターフェース236またはその他の適切な機構を介してシステム・バス221に接続することができる。ネットワーク環境では、コンピューター241に関係付けて図示したプログラム・モジュール、またはその一部は、リモート・メモリー記憶装置に格納することもできる。一例として、そして限定ではなく、図3Bは、リモート・アプリケーション・プログラム248がメモリー・デバイス247に存在するものとして示している。尚、図示のネットワーク接続は一例であり、コンピューター間で通信リンクを設定する他の手段も使用可能であることは認められよう。
[0054] ユーザーに関する知覚画像データーと知覚音声データーとの相関に基づいてユーザーを識別する方法について、これより図4から図8Bのフローチャートを参照しながら説明する。図4は、本技術の動作全体の上位フローチャートである。尚、本技術の動作は、キャプチャー・デバイス20の中にあるプロセッサー33、計算環境12の中にあるプロセッサー101、259、または一緒に動作するこれら2つの組み合わせによって実行できることは言うまでもない。ステップ300において、本システムは、撮像カメラ・コンポーネント22の視野内にある(例えば、ユーザーA〜Dの内一人以上というような)体を識別、または登録する。この動作は、フレーム毎に実行されるが、背景情報というような以前のフレームからの情報をキャッシュして、処理を速めることもできる。ステップ300の体登録に関する更なる詳細については、図5のフローチャートを参照して以下で説明する。
[0055] ステップ302において、本システムは、マイクロフォン・アレイ32のレンジ内で検出された音声を登録する。本システムが音声を特定の体と明確に関連付けることができる場合がある。例えば、マイクロフォン・アレイ32は、画像キャプチャー・デバイス20に関して特定の角度または角度範囲を含む許容範囲で、音声の発生源を定位することができるとよく、撮像カメラ・コンポーネント22は、その角度または角度範囲において一人のユーザーしかいないことを判定する。このような場合、本システムは、検出された人を検出された音声と明確に相関付けることができる。ステップ302および306に関する更なる詳細については、図6のフローチャートに関して、以下で明記する。
[0056] 一方、画像およびオーディオ・サンプリングの後、システムが1つの明確な相関を確定することができず、音声が属する可能性がある一人以上の候補ユーザーを識別するということも起こり得る。例えば、2人のユーザーの体の外観が非常に似ているため、本システムの画像認識技法を使用して区別することができないという場合がある。あるいはまたは代わりに、マイクロフォン・アレイが、一人よりも多い人がいる視野におけるあるエリアから音声が来ることしか判定できない場合もある。これは、例えば、消費者等級のハードウェアを使用して画像およびオーディオ・データーを取り組む場合に言えることである。
[0057] この場合、本システムは種々のファクターを採用して、音声が所与のユーザーと関連があることの信頼レベルを示す信頼レベル・スコアーを決めることができる。明確ではないが、これらのファクターから、しきい値信頼レベルよりも高いスコアーを得ることができる。得られた場合、このしきい値信頼レベルよりも高い音声−体の関連付けは、今後のサンプリングのために格納される。今後のサンプリングは、この関連付けを補強することができ、例えば、今後のサンプリングは、音声が属するかもしれない他のユーザーを排除する。あるいは、今後のサンプルが、この関連付けが曖昧なままであることを示すこともあり、その場合、この関連付けを除去してもよい。
[0058] 音声が体に相関付けられた後でも、本技術の実施形態は、音声−体相関の信頼レベルを繰り返し再評価し、再確認することができる(ステップ312)。信頼レベルを評価し、明確にし、再確認するプロセスについては、以下で図8Aおよび図8Bのフローチャートに関して説明する。
[0059] 図5のフローチャートは、本システムがユーザーを他のユーザーから区別することを可能にすると思われる画像データーを得ることに基づいて、ユーザーを登録するステップを示す。本システムは、ユーザーを登録するための種々の規準を使用することができる。これらの規準は、異なるユーザーの複数の骨格基準点を分析することを含む。一旦ユーザーが識別されたなら、その情報は、例えば、メモリー34および/または計算環境12におけるメモリーに格納することができる。しかしながら、二人以上のユーザーの体の外観が互いに非常に似ているために、本システムが画像データーのみを使用したのでは区別できないということも起こり得る。以下で説明するように、このようなユーザーは、ある時間期間に亘る画像および音声データーのサンプリングを使用して、区別することができる。
[0060] したがって、ステップ320において、本システムはビデオ・フレームを走査して、例えば、一人以上のユーザーA〜Dのような、視野内にいる人間のユーザーを捜す。先に示したように、現行の技術は、人間の体を、視野内にあり得る他の物体から区別することを可能にする。ステップ322において、本システムは、視野内において体が発見されたか否か判定を行う。発見されていない場合、本システムは、ステップ326において、視野内に他に走査すべき物体があるか否か調べる。物体があると仮定すると、本システムはステップ320に戻り、走査して他の体を捜す。一方、ステップ322において体が発見された場合、本システムは、ステップ330において、その体が以前のフレームにもあったか否かチェックする。本システムは、この判定を行うときに、種々のファクターを見ることができ、骨格基準点または現フレームと直前のフレームとの間における体の他の身体的特徴の一致、および現フレームにおける体の位置が、所与のフレーム・レートで、直前のフレームにおいて検出された位置から動いた可能性があるか否かが含まれる。一旦、ステップ330において、発見された体が直前のフレームにもあったと判定されたなら、本システムはステップ320に戻って、走査して他の体を捜す。
[0061] 一方、ステップ330において、発見された体が直前のフレームでは発見されなかったと判定された場合、本システムは、ステップ334において、この発見された体が、既に登録されている体と一致するか否かチェックする。即ち、本システムは、現フレームにおける体を記述する情報を、以前に識別および登録された体に関する、メモリーからの情報と比較する。現フレームからの体が以前に登録されていない場合、本システムは、ステップ338において、体シグネチャー(即ち、骨格的特徴および/または他の身体的特徴)をメモリーに格納する。この体シグネチャーを格納した後、本システムは、ステップ344において、一致する体が識別されたという印を付け、次いでステップ320に戻り、走査して他の体を捜す。
[0062] 一方、ステップ334において、発見された体が既知の体と一致すると判定された場合、本システムは、ステップ340において、その発見された体が、1つのみの既知の体と一致するのか否かチェックする。即ち、発見された体は、以前に識別され格納されている体の骨格的特徴に十分近い骨格的特徴を有する場合がある。ステップ340において、本システムが、発見された体が1つの既知の体のみと一致すると判定した場合、ステップ344において、この発見された体に、既知の体と一致したという印を付け、本システムはステップ320に戻り、走査して他の体を捜す。そうではなく、ステップ340において、発見された体が1つよりも多い既知の体と一致すると判定された場合、ステップ346において、発見された体に、曖昧さが伴うという印を付け、次いで本システムはステップ320に戻り、フレームを走査して他の体を捜す。
[0063] ステップ326において、フレームには他に走査すべき物体がないと本システムが判断した後、本システムは、ステップ350において、現フレームに対する***置を更新し、ステップ354において全ての体一致を登録および格納する。また、ステップ354において、発見された体識別における曖昧さも格納する。
[0064] 先に示したように、音技術は、マイクロフォン・アレイによって拾い上げることができる種々のサウンドおよび背景ノイズから、人間の声を選別し識別することができる。図5のフローチャートに関して先に説明した体のサーチおよび登録と同時に、これから図6に関して説明するように、本システムは、音声もサーチし登録する。音声を登録するために、本システムは、ある音声を他の音声と区別して識別するのに十分な種々の音素を含む、音素的に豊富なデーターを収集する。
[0065] 音声を登録するプロセスは、ステップ360から開始して、識別された音声を、見える体と相関付けることができるか否か判定を行う。ステップ360については、図7のフローチャートを参照して、以下で更に詳しく説明する。ステップ362において、本システムは、登録する音声の発生源位置を推定する。先に説明したように、種々の音発生源定位技法の内任意のものを、この目的のために使用することができる。実施形態は、低コストの消費者向けシステムでは、発生源位置±何らかの許容範囲レベルを返す音定位技法を採用してもよい。ステップ363において、本システムは、撮像カメラ・コンポーネント22の視野内にある発生源から、即ち、図1Aおよび図1Bに示した光線AおよびBの間から、音声が必ず来なければならないか否か判定を行う。そうでない場合、本システムは、ステップ364において、音声は見える体と相関付けられていないと判定する。
[0066] 一方、音声が視野内から来る場合、本システムは、ステップ366において、推定された音声の発生源において体があるか否か判定を行う。ない場合、本システムは、ステップ364において、音声が見える体と相関付けられていないと判断する。一方、推定された音声の発生源において体が検出された場合、本システムは、次にステップ368において、可能な音声の発生源の範囲内に1つよりも多い体があるか否かチェックする。ある場合、本システムは、ステップ364において、音声を1つの見える体と相関付けることができない。一方、本システムがステップ363、366、および368におけるチェック全てに通った場合、本システムはステップ370において音声を1つの見える体と明確に相関付けることができる。
[0067] 図6のフローチャートに戻って、本システムがステップ360において音声を見える体と相関付けることができない場合、ステップ372において、発声は登録の適格性がなく、実施形態では、本システムはこの発声を登録のために使用せず、それを特定の人と関連付けない。実施形態では、口頭命令またはコマンドの音声認識のために、この発声を本システムによってなおも使用することもできる。
[0068] 実施形態では、ステップ372において発声に登録の適格性がない場合、本システムは、ステップ373において、視野の中にいる一人以上のユーザーに、発話することおよび何らかの物理的行為を行うことを促すことができる。この物理的行為とは、例えば、視野内で、他のユーザーとは離れて立つことであってもよい。このように、音声データーを受け取ることに加えて、本システムは、話者を能動的に特定し、要求された行為を行った者として登録することができる。これらの物理的行為は、ゲームまたはアプリケーション・メトリックの一部であっても、あるいはゲームまたはアプリケーション・メトリックの外部であってもよい。他の実施形態では、ステップ373を省略することもできる。省略する場合、ユーザーは、登録による押し付けを殆ど体験しなくて済むが、登録の完了はユーザーの偶然の行為に委ねられることもある。
[0069] 一方、ステップ360において、音声が見える体と相関付けられていると判定された場合、本システムは、次にステップ374において、識別された見える体が、直前の登録発声から連続しているか否かチェックする。言い換えると、本システムがステップ360において音声を見える体と相関付けた場合、本システムは、ステップ374において、直前のフレームからのその体が、現フレームにおいてステップ360で識別された体の位置に連続的に移動した可能性があるか否かチェックする。ステップ374において、直前のフレームにおいて音声が関連付けられた体が、現フレームにおいて音声が関連付けられた体である可能性がないと判定された場合、本システムは以前の相関を正しくないものとして扱う。このような場合、本システムは、ステップ376において、この音声に対して、ステップ360において識別された体との新たな登録プロセスを開始する。次に、ステップ378において発声が登録に追加される。
[0070] ステップ380において、本システムは登録が完了したか否かチェックする。即ち、本システムが所与の音声を他の音声から区別して、明確に識別することを可能にする程十分な音素データーが既に収集されたか否か、本システムがチェックする。収集されていない場合、発声は登録に十分ではないが、実施形態では、一旦必要となる多様な音素データーが収集されたなら今後の発声と共に使用して登録を確定するために、ステップ381においてこれを格納することができる。一方、本システムがステップ380において登録が完了したと判断した場合、本システムはステップ382において、登録した音声を保存し、ステップ384において、登録した音声を既知の体と関連付けて格納する。次いで、本システムは、既知の体と相関付けられた既知の音声を返す。
[0071] 実施形態では、ステップ380において登録が完了していない場合、本システムは、ステップ383において、視野の中にいる一人以上のユーザーに、発話するように促すことができる。本システムによるこの動作は、ゲームまたはアプリケーション・メトリックの一部としてマスクすることができ、あるいはゲームまたはアプリケーション・メトリックの外側にあってもよい。ステップ383が実行される場合、特定の登録されているユーザーに、ある種の音素が豊富な単語および/またはサウンドを発話するように促して、一旦発話されたならば、本システムが、後の発声のために、このユーザーの音声をこのユーザーの既知の体と共に登録できるようにしてもよい。ステップ383を省略してもよく、その場合、ステップ380において登録することができなかった場合、前述のように、未知の音声が返されることもある。
[0072] 図6に関して以上で説明したように、本技術の動作は、新たな音声を登録および格納し、更に、この音声を明確に既知の体と関連付けることができるか否か判定する。前述のように、本システムがある音声を聞いても、その音声を1つの体と明確に相関付けることができない場合も多いと考えられる。したがって、本技術は、音声−体相関を評価し、明確にし、そして再確認するステップを含む。これより、図8Aおよび図8Bのフローチャートに関して、このプロセスについて更に詳細に説明する。
[0073] 一般に、マイクロフォン・アレイ32は、発声された音声を聞き取り、音声の発声を検出したときに、図8Aおよび図8Bに関して以下で説明するステップ386〜432を実行する。1つよりも多い音声が同じ時間期間において検出される可能性もある。本システムは、マイクロフォン・アレイ32が別々にそして個々に知覚することができる発声された音声毎に、図8Aおよび図8Bのステップを実行することができる。本システムは、フレーム毎に1回、所定数のフレーム毎に1回、図8Aおよび図8Bのステップ全てを実行して、音声−体相関を連続的に、ときの経過と共に評価し、明確にし、そして再確認することができる。
[0074] ステップ386において、本システムは、発声が、登録されている音声であるか否かチェックする。そうでない場合、本システムは、図6に関して先に説明したように、ステップ360に進み、その音声を登録することを試み、それが視野内にある体と明確に関連付けられているか否か調べる。
[0075] ステップ386において、音声が登録されていると判断された場合、本システムは、ステップ388において、その音声が既知の体と以前にも一致しているか否かチェックする。していない場合、本システムは、図8Bのステップ416に関して以下で説明するように、その音声と視野の中にある体との間に空間的一致があるか否か判定を行う。しかしながら、ステップ388において、その音声の既知の体との一致が以前にあったと判断された場合、本システムは、ステップ390において、その既知の体が視野の中で見ることができるか否かチェックする。見えない場合、本システムは、ステップ394において、発声された音声と、視野の中で見ることができる体との間に空間的一致があるか否かチェックする。本システムは、ステップ394を実行して、ステップ388において引き出された音声−体の関連付けが正しいか否かチェックする。即ち、ステップ394において、音声と見える体との間に一致があるが、ステップ390において、以前に識別された体が見えないと判定された場合、本システムは、以前の音声−体相関が正しくないかもしれず、曖昧さが存在するかもしれないと判断する。本システムは、この曖昧さを書き留め、以下で説明するステップ404に進む。例えば、図7において先に説明したように、音声の近似発生源を判定し、その近似発生源に体があるか否か確認することによって、ステップ394を実行することができる。
[0076] ステップ390において、以前に音声と一致した体が見ることができないと判断され、ステップ394において、そのときに見ることができた体に対する音声の一致がないことが確認された場合、ステップ398における直前の関連付けが維持され、本システムは、既知の音声を既知の体と共に返す。一方、ステップ390において、その音声と以前に一致した体が見えると判定された場合、本システムは、次にステップ400において、その音声と既知の体との空間的一致が満足のいく一致であるか否か、即ち、空間的一致が明確であるか否かチェックする。ステップ400は、例えば、図7において先に説明したように、実行することができる。
[0077] 本システムは、所与の音声−体の関連付けが、複数の異なるサンプリングにおいて曖昧のままであるか否か追跡する。複数の異なるサンプリングにおいて音声−体の関連付けを検査した後、本システムが、排除のプロセスによって、その音声が実際にその体と関連付けられていることを明確に判定できない場合、本システムは、この関連付けを、維持するには曖昧過ぎるものとして扱うことができ、その関連付けを除去する。したがって、ステップ404において、本システムは、所与の音声−体の関連付けが何回曖昧であると見なされたのか記録する。ステップ406において、本システムは、ステップ404における記録が何らかの曖昧さしきい値を超えたか否か判定を行う。超えた場合、ステップ410において、以前に識別された関連付けが除去され、本システムは、既知の音声を、既知の体と関連付けずに、返す。ステップ406における記録が曖昧さしきい値を超えていない場合、本システムは、ステップ408において、この関連付けを維持し、既知の音声−体の関連付けを返す。実施形態では、曖昧さしきい値は、例えば、3および6の間にすることができる。このように、例えば、しきい値を5に設定し、本システムが、5回のサンプリングの後、所与の音声と体との間の関連付けの曖昧さを打ち消すことができない場合、本システムはこの関連付けを除去する。他の実施形態では、曖昧さしきい値は3よりも小さくても、そして6よりも大きくてもよい。
[0078] 以上で説明したのは、ステップ400において空間一致が曖昧であった場合に、システムが行うことである。しかしながら、ステップ400において、空間位置が明確であると判定された場合、本システムは、ステップ414において、音声と一致した体が、以前に曖昧であると見なされたことがあるか否か判定を行う。ある場合、本システムは、図8Bのステップ430を参照して以下で説明するように、関連付けを更新して曖昧さを除去する。一方、ステップ414において、格納されている音声−体の関連付けが曖昧ではなかったと判定された場合、本システムはステップ408においてこの関連付けを維持し、本システムは既知の音声を既知の体と共に返す。
[0079] 前述のように、ステップ390以降が実行されるのは、ステップ388において、音声が既知の体と以前から関連付けられていると判定された場合である。しかしながら、ステップ388において、登録されている音声が以前に既知の体と一致していないと判定された場合、本システムは図8Bのステップ416を実行する。ステップ416では、音声と視野の中にいる一人以上のユーザーとの間に関連付けが存在するか否か判定することを試みる。ステップ416において、音声が属するはずである一人のユーザーを明確に特定できるということも起こり得る。例えば、図7に関して先に説明したように、本システムは、音声が視野内から来ており、視野の中には一人の人しかいないと判定する場合もある。
[0080] あるいは、明確ではないが、ステップ416において、音声と関連付けることができる一人以上のユーザーを識別することもある。この判定を行うために、本システムは、種々のファクターを採用し、採点された信頼レベルに達するように、これらを適用することができる。一般に、ファクターを考慮したときに、しきい値よりも高く音声を体と関連付けることができれば、その音声−体の関連付けは格納され、そして返される。実施形態では、スコアーに寄与することができるファクターは、以下の内1つ以上を含むことができる。
[0081] 1つのファクターは、音声発生源の推定位置がどれくらい既知の体に近いかとすることができる。体が、音定位技法によって推定された正確な位置にある場合、このファクターは、体が音声の推定位置から離れている場合よりも高いスコアーを出すことになる。スコアーの一部をなす他のファクターは、視野の中にいくつの体があるかとすることができる。体が多い程、音声のこれらの体の内任意のものに対する相関において、信頼度が低くなる。逆に、視野の中にいる一人の人が、音声が以前に関連付けられた人である場合、その結果得られるスコアーは、この相関付けられた音声および体間における高い空間一致を示すことが多くなる。
[0082] スコアーに寄与する他のファクターは、聞かれている音声の数である。このファクターはスコアーから減算するか、またはスコアーに加算することができる。例えば、ノイズが多くあり過ぎて、考慮しようとしている音声の発生源を精度高く決定することができない程に多くの音声がある場合、これは、その音声の識別された体への関連付けのスコアーを下げることにつながる。一方、考慮対象の音声に加えて聴取された音声が、以前に他のユーザーと関連付けられており、これらのユーザーが視野の中にいる場合、このファクターは、考慮対象の音声と以前に識別された体との間における関連付けを測定するスコアーに追加することができる。
[0083] 視野の中にいる人数に加えて、これらの人々の推定音声発生源までの近さも、スコアーに影響を及ぼす他のファクターとなる。二人以上の人が推定発生源の近くいる場合、これはスコアーを下げることにつながり、一方視野の中に複数の人がいるが、以前に一致した人だけが推定発生源の近くいる場合、これはスコアーを上げることにつながる。
[0084] スコアーに寄与する他のファクターは、音声の発生源が視野内のエッジ付近ではなく、中心に来るように推定されているか否かである。音声が視野のエッジ付近にあると推定されたときには、この音声は、視野の中にいて以前に一致した人からである可能性や、視野の外側にいる人からである可能性がある。つまり、人と音声との間における空間一致が、視野の中心にあると推定されると、視野のエッジにある場合よりも高いスコアーが得られる。尚、音声と体との間に相関があるか否かを指示するスコアーに達するためには、追加のファクターも使用してよいことは、当業者には認められよう。
[0085] 異なる実施形態では、採点された信頼レベルに達するときに、前述のファクターの内1つ以上を使用することができる。前述のファクターの内1つ以上に加えて、またはその代わりに、他のファクターを使用することもできる。実施形態では、使用されるファクターに重み付けし、量子化して、特定の音声−体対に関して使用されるファクターを考慮するときに、数値スコアーが得られるようにすることができる。しきい値信頼レベルを任意に選択することができ、これよりも高いスコアーは、有意であり、音声と体との間の関連付けを格納するのに十分であると言われる。
[0086] ステップ416において、明確な識別または信頼レベルのスコアーに達した後、本システムは、ステップ420において、作られた任意の関連付けに対する証拠(スコアー)を更新する。ステップ424において、本システムは、明確な一致、またはしきい値信頼レベルを超えるスコアーが得られる一致が発見されたか否かチェックする。発見されていない場合、本システムは、既知の音声に一致する既知の体は発見されなかったことを返す。一方、ステップ424において、1つ以上の体が、しきい値信頼レベルよりも高く音声に一致することが発見された場合、ステップ428において、これらの関連付けを記録し、本システムは、既知の音声が少なくとも1つの既知の体と関連付けられたことを返す。先に示したように、図8Aおよび図8Bのステップを次に複数のサンプリングにおいて繰り返して、どの体に音声が属する可能性があるかについて、排除のプロセスによって、関連付けが明確となるようにすることができ、あるいは複数回のサンプリングの後でも曖昧なままである場合、関連付けを除去することもできる。
[0087] 図8Aに関して先に説明したように、ステップ414において、格納されている体識別が曖昧でないと判定された場合、ステップ414に続いてステップ408を実行する。しかしながら、ステップ414において、格納されている体識別が曖昧であると判定された場合、本システムは、図8Bに示すように、ステップ430を実行する。即ち、ステップ388、390、および400において、音声が1つ以上の既知の体との関連付けを有すること、これら既知の体の内1つが見えること、そしてその既知の体との空間一致が明確であることを判定する。次いで、ステップ414において、メモリーを調べて、1つよりも多い体が、ストレージにおいて、その音声と関連付けられているか否か判定を行う。1つよりも多い体がある場合、証拠を更新して音声と体との間における明確な相関を示すことによって、ステップ430において、現行のサンプリングがその関連を明確にする。
[0088] 本システムが、音声がユーザーと明確に関連付けられたと判断した後であっても、本システムは、その関連付けにおいてエラーの可能性があれば、そのエラーにも対処する。即ち、同じ音声がメモリーにおける他のユーザーと明確に関連付けられていること、またはそのユーザーがメモリーにおける他の音声と明確に関連付けられていることも可能な場合がある。このため、ステップ432において、曖昧さが解消されたか否か判定を行う。解消されている場合、本システムは既知の音声を既知の体と共に返す。解消されていない場合、本システムは、既知の音声を返すが、関連のある既知の体を付けない。次いで、複数のサンプリングにおいて図8Aおよび図8Bのステップを繰り返して、再度、どの体に音声が属する可能性があるかについて、排除のプロセスによって、関連付けが明確となるようにすることができ、あるいは複数回のサンプリングの後でも曖昧なままである場合、関連付けを除去することもできる。
[0089] 以上で説明したシステムを使用すると、ゲーミング、マルチメディア、または他のマルチユーザー・アプリケーションにおいて、音声を体と相関付けることができる。1回のサンプリングで音声を体に明確に関連付けることができるシステムも存在するかもしれないが、これらのシステムは、殆どのゲーミング、マルチメディア、または他の消費者ベース・システムでは実用可能でない高価な精密システムを必要とする。しかしながら、従来のシステムとは異なり、本システムは、使用される機器が1回のサンプリングでこのような相関を判定することができなくても、信頼性のある音声−体相関を行うことができる。更に、登録されているユーザーを使用して開始するシステムも知られている。即ち、1組のユーザーが、既知の登録されている体シグネチャーおよび/または既知の登録済み音声を有する。従来のシステムは、未知の体シグネチャーおよび未知の音声を有するユーザーを使用して開始して、音声−体相関を行うことができない。本技術は、このような相関を行うことを可能にする。
[0090] 以上、種々の図において示したような、好ましい態様と関連付けて本開示について説明したが、他の同様の態様も使用することができ、あるいは、本開示から逸脱することなく、その同じ機能を実行するために、変更や追加を、記載した態様に対して行うことができることも言うまでもない。したがって、本開示は、いずれの一態様にも限定されることはなく、逆に、添付した特許請求の範囲にしたがって、その広さおよび範囲が解釈されてしかるべきである。例えば、本明細書において記載した種々の手順は、ハードウェアまたはソフトウェア、あるいは双方の組み合わせで実現することができる。つまり、開示した実施形態の方法および装置、あるいはある種の態様またはその一部は、フロッピー・ディスケット、CD−ROM、ハード・ドライブ、または任意の他の装置読み取り可能記憶媒体というような、有形媒体に具体化されたプログラム・コード(即ち、命令)の形態をなすことができる。このプログラム・コードが、コンピューターのような装置にロードされこれによって実行されると、この装置が、開示された実施形態を実施するように構成された装置となる。本明細書において具体的に明示された特定の実施態様に加えて、ここに開示した明細書から、他の態様や実施態様も当業者には明白であろう。本明細書および例示した実施態様は、例としてのみ解釈されることを意図している。

Claims (12)

  1. 未知の1組のユーザ(A〜D)から開始するマルチユーザ・アプリケーションにおいて、ユーザとユーザ音声との間における相関を識別する方法であって、
    (a)複数の時間期間にわたって、ビデオ・キャプチャー・コンポーネントの視野内において撮影された複数の物体の画像(A’〜D’)を受け取るステップと、
    (b)前記ステップ(a)において受け取った前記画像が一人以上のユーザを含むか否か判定を行うステップと、
    (c)複数の時間期間において、マイクロフォン・アレイのレンジ内で音を受け取るステップと、
    (d)前記ステップ(c)において受け取った音が1つ以上の人間の音声を含むか否か判定を行うステップと、
    (e)異なる画像において判定されたユーザの位置の複数のサンプリング、および異なる時点における前記音声の決定された発生源位置に基づいて、前記ステップ(d)において識別した音声を、前記視野内にいる前記一人以上のユーザ(A〜D)の内一人のユーザに相関付けるステップと、
    を含み
    前記ステップ(e)が、前記音声と前記ユーザとの間における関連付けの信頼レベルを得るために、前記複数のサンプリングの内第1サンプリングを実行するステップを含み、予め定められたしきい値よりも高い信頼レベルが、前記音声および前記ユーザがメモリーにおいて互いに関連付けをもたらし、
    前記ステップ(e)が、前記複数のサンプリングの内後続のサンプリングにおいて、前記音声が属する可能性があるユーザ数が減少した場合、前記後続のサンプリングにおいて前記信頼レベルを高くするステップを含む、
    方法。
  2. 請求項1記載の方法において、前記ステップ(e)が、前記複数のサンプリングの内1つのサンプリングを、前記複数の画像の内の1つの画像の検査から前記一人以上のユーザの位置を判定することによって形成し、音発生源定位技法を使用して前記音声の位置を判定することによって形成するステップを含む、方法。
  3. 請求項記載の方法であって、更に、前記複数のサンプリングにおいて前記音声が属する可能性がある他の全てのユーザを排除したときに、前記音声を1人のユーザに明確に相関付けるステップを含む、方法。
  4. 請求項記載の方法であって、更に、前記音声と前記ユーザとの間における相関が、明確に互いに関連付けられた後に、前記複数のサンプリングにおいて追加のサンプリングを実行するステップを含む、方法。
  5. 請求項記載の方法であって、更に、前記追加のサンプリングにおいて、前記音声がどのユーザに属するのかに関する曖昧さを除去することができない場合、または前記追加のサンプリングにおいて、前記音声が前記一人以上のユーザの内第2ユーザに属することを示す場合、前記相関を除去するステップを含む、方法。
  6. 未知の1組のユーザ(A〜D)から開始するマルチユーザ・アプリケーションにおいて、ユーザとユーザ音声との間における相関を識別する方法であって、
    (a)複数の時間期間にわたって、ビデオ・キャプチャー・コンポーネントの視野内において撮影された複数の物体の画像(A’〜D’)を受け取るステップと、
    (b)前記ステップ(a)において受け取った前記画像が一人以上のユーザを含むか否か判定を行うステップと、
    (c)複数の時間期間において、マイクロフォン・アレイのレンジ内で音を受け取るステップと、
    (d)前記ステップ(c)において受け取った音が1つ以上の人間の音声を含むか否か判定を行うステップと、
    (e)異なる画像において判定されたユーザの位置の複数のサンプリング、および異なる時点における前記音声の決定された発生源位置に基づいて、前記ステップ(d)において識別した音声を、前記視野内にいる前記一人以上のユーザ(A〜D)の内一人のユーザに相関付けるステップと、
    を含み、
    前記ステップ(e)が、前記音声とユーザとの間における関連付けの採点された信頼レベルを導くために、前記複数のサンプリングの内第1サンプリングを実行するステップを含み、前記採点された信頼レベルが、
    i.前記音声発生源の推定位置が前記一人以上のユーザにどれだけ近いか、
    ii.聞かれた音声の数、
    iii.前記一人以上のユーザの、前記音声の推定発生源までの近接度、
    iv.前記音声の発生源が、前記画像の視野内の中心に位置すると推定されるか、または前記視野のエッジの方に近いと推定されるか、
    のファクターの内1つ以上を検査することによって得られる、方法。
  7. 請求項1又は6に記載の方法において、前記ステップ(a)において受け取った画像が一人以上のユーザを含むか否か判定を行う前記ステップ(b)が、前記ユーザの骨格関節の少なくとも一部の位置を測定するステップを含む、方法。
  8. 請求項記載の方法において、前記音声の決定された発生源位置に少なくとも部分的に基づいて、前記ステップ(d)において識別した音声をユーザに相関付けるステップ(e)が、到達時間差によって、音声の発生源位置を判定するステップを含む、方法。
  9. マルチユーザ・アプリケーションにおいて音声をユーザ(A〜D)に相関付けるシステムであって、
    撮像カメラ・コンポーネントであって、該撮像カメラ・コンポーネントの視野内にいる一人以上のユーザ(A〜D)の深度画像を供給することができる、撮像カメラ・コンポーネントと、
    マイクロフォン・アレイであって、該マイクロフォン・アレイのレンジ内において音を受け取ることができ、第1許容範囲内で音声の発生源を定位することができる、マイクロフォン・アレイと、
    前記画像キャプチャー・コンポーネントおよびマイクロフォン・アレイ双方と通信可能な計算環境であって、前記計算環境が、前記視野内にいる異なるユーザ間で、第2許容範囲までで区別することができ、
    前記計算環境が、
    (a)音声のソースが、前記第1許容範囲内にあるものと定位すること、及び、
    (b)前記第2許容範囲内で、前記視野内の異なったユーザ同士を区別すること、
    に基づいて、前記撮像カメラからのデーターおよび前記マイクロフォン・アレイからのデーターの初期サンプリングの後、前記音声前記一人以上のユーザの内一人のユーザの相関を防止することができ、
    前記計算環境が、更に、前記撮像カメラからのデーターおよび前記マイクロフォン・アレイからのデーターの追加サンプリングを実行し、前記追加サンプリングによって、前記音声の前記ユーザとの相関を可能とし、または前記追加サンプリングが、前記音声が前記ユーザに相関付けられる尤度を低下させる、計算環境と、
    を含み、更に、
    前記音声と前記ユーザとの間における関連付けの信頼レベルを得るために、前記複数のサンプリングの内第1サンプリングを実行するステップであって、予め定められたしきい値よりも高い信頼レベルが、前記音声および前記ユーザがメモリーにおいて互いに関連付けをもたらすものと、
    前記複数のサンプリングの内後続のサンプリングにおいて、前記音声が属する可能性があるユーザ数が減少した場合、前記後続のサンプリングにおいて前記信頼レベルを高くするステップを含む、
    システム。
  10. 請求項記載のシステムにおいて、前記計算環境が、前記初期および追加サンプリングを実行しながら、前記一人以上のユーザが関与するゲーミング・アプリケーションを実行する、システム。
  11. 請求項記載のシステムにおいて、前記計算環境が、前記一人以上のユーザの関節位置を検出することによって、前記視野内において異なるユーザ間で区別する、方法。
  12. 請求項11記載のシステムにおいて、前記マイクロフォン・アレイが、2つのマイクロフォンを使用して、これら2つのマイクロフォンまでの前記音声の到達時間差によって、前記音声の発生源を定位する、システム。
JP2012551183A 2010-01-25 2011-01-06 音声−体識別の相関 Active JP5782459B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/692,797 2010-01-25
US12/692,797 US8265341B2 (en) 2010-01-25 2010-01-25 Voice-body identity correlation
PCT/US2011/020396 WO2011090829A2 (en) 2010-01-25 2011-01-06 Voice-body identity correlation

Publications (2)

Publication Number Publication Date
JP2013519135A JP2013519135A (ja) 2013-05-23
JP5782459B2 true JP5782459B2 (ja) 2015-09-24

Family

ID=44295676

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012551183A Active JP5782459B2 (ja) 2010-01-25 2011-01-06 音声−体識別の相関

Country Status (8)

Country Link
US (2) US8265341B2 (ja)
EP (1) EP2529355B1 (ja)
JP (1) JP5782459B2 (ja)
KR (1) KR101765970B1 (ja)
CN (1) CN102135882B (ja)
CA (1) CA2786681C (ja)
HK (1) HK1177041A1 (ja)
WO (1) WO2011090829A2 (ja)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006031580A1 (de) 2006-07-03 2008-01-17 Faro Technologies, Inc., Lake Mary Verfahren und Vorrichtung zum dreidimensionalen Erfassen eines Raumbereichs
DE102009015920B4 (de) 2009-03-25 2014-11-20 Faro Technologies, Inc. Vorrichtung zum optischen Abtasten und Vermessen einer Umgebung
US9551575B2 (en) 2009-03-25 2017-01-24 Faro Technologies, Inc. Laser scanner having a multi-color light source and real-time color receiver
DE102009057101A1 (de) 2009-11-20 2011-05-26 Faro Technologies, Inc., Lake Mary Vorrichtung zum optischen Abtasten und Vermessen einer Umgebung
US9529083B2 (en) 2009-11-20 2016-12-27 Faro Technologies, Inc. Three-dimensional scanner with enhanced spectroscopic energy detector
US9113023B2 (en) 2009-11-20 2015-08-18 Faro Technologies, Inc. Three-dimensional scanner with spectroscopic energy detector
US9628775B2 (en) 2010-01-20 2017-04-18 Faro Technologies, Inc. Articulated arm coordinate measurement machine having a 2D camera and method of obtaining 3D representations
US9879976B2 (en) 2010-01-20 2018-01-30 Faro Technologies, Inc. Articulated arm coordinate measurement machine that uses a 2D camera to determine 3D coordinates of smoothly continuous edge features
US9607239B2 (en) 2010-01-20 2017-03-28 Faro Technologies, Inc. Articulated arm coordinate measurement machine having a 2D camera and method of obtaining 3D representations
US9163922B2 (en) 2010-01-20 2015-10-20 Faro Technologies, Inc. Coordinate measurement machine with distance meter and camera to determine dimensions within camera images
US8676581B2 (en) * 2010-01-22 2014-03-18 Microsoft Corporation Speech recognition analysis via identification information
DE102010020925B4 (de) 2010-05-10 2014-02-27 Faro Technologies, Inc. Verfahren zum optischen Abtasten und Vermessen einer Umgebung
US10726861B2 (en) * 2010-11-15 2020-07-28 Microsoft Technology Licensing, Llc Semi-private communication in open environments
US9168654B2 (en) 2010-11-16 2015-10-27 Faro Technologies, Inc. Coordinate measuring machines with dual layer arm
US20120136658A1 (en) * 2010-11-30 2012-05-31 Cox Communications, Inc. Systems and methods for customizing broadband content based upon passive presence detection of users
US8849199B2 (en) 2010-11-30 2014-09-30 Cox Communications, Inc. Systems and methods for customizing broadband content based upon passive presence detection of users
US8595015B2 (en) * 2011-08-08 2013-11-26 Verizon New Jersey Inc. Audio communication assessment
US20130120243A1 (en) * 2011-11-16 2013-05-16 Samsung Electronics Co., Ltd. Display apparatus and control method thereof
DE102012100609A1 (de) 2012-01-25 2013-07-25 Faro Technologies, Inc. Vorrichtung zum optischen Abtasten und Vermessen einer Umgebung
US8894484B2 (en) * 2012-01-30 2014-11-25 Microsoft Corporation Multiplayer game invitation system
WO2013175484A2 (en) * 2012-03-26 2013-11-28 Tata Consultancy Services Limited A multimodal system and method facilitating gesture creation through scalar and vector data
KR20130137379A (ko) * 2012-06-07 2013-12-17 삼성전자주식회사 홈 네트워크에서 사용자 정보를 저장하는 장치 및 방법
US8997362B2 (en) 2012-07-17 2015-04-07 Faro Technologies, Inc. Portable articulated arm coordinate measuring machine with optical communications bus
US9513107B2 (en) 2012-10-05 2016-12-06 Faro Technologies, Inc. Registration calculation between three-dimensional (3D) scans based on two-dimensional (2D) scan data from a 3D scanner
US10067231B2 (en) 2012-10-05 2018-09-04 Faro Technologies, Inc. Registration calculation of three-dimensional scanner data performed between scans based on measurements by two-dimensional scanner
DE102012109481A1 (de) 2012-10-05 2014-04-10 Faro Technologies, Inc. Vorrichtung zum optischen Abtasten und Vermessen einer Umgebung
CN103777796A (zh) * 2012-10-22 2014-05-07 联想(北京)有限公司 一种信息处理方法及电子设备
WO2014112635A1 (ja) * 2013-01-18 2014-07-24 株式会社東芝 動作情報処理装置
US9721587B2 (en) * 2013-01-24 2017-08-01 Microsoft Technology Licensing, Llc Visual feedback for speech recognition system
US8924735B2 (en) 2013-02-15 2014-12-30 Microsoft Corporation Managed biometric identity
US9754154B2 (en) 2013-02-15 2017-09-05 Microsoft Technology Licensing, Llc Identification using depth-based head-detection data
JP6289936B2 (ja) * 2014-02-26 2018-03-07 株式会社東芝 音源方向推定装置、音源方向推定方法およびプログラム
US8812320B1 (en) 2014-04-01 2014-08-19 Google Inc. Segment-based speaker verification using dynamically generated phrases
CN104410892A (zh) * 2014-11-26 2015-03-11 中国科学院半导体研究所 一种应用于显示设备中的手势控制装置
GB2525464B (en) * 2015-01-13 2016-03-16 Validsoft Uk Ltd Authentication method
WO2016159938A1 (en) 2015-03-27 2016-10-06 Hewlett-Packard Development Company, L.P. Locating individuals using microphone arrays and voice pattern matching
US9875081B2 (en) 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
DE102015122844A1 (de) 2015-12-27 2017-06-29 Faro Technologies, Inc. 3D-Messvorrichtung mit Batteriepack
US9948479B2 (en) * 2016-04-05 2018-04-17 Vivint, Inc. Identification graph theory
CN109155130A (zh) * 2016-05-13 2019-01-04 伯斯有限公司 处理来自分布式麦克风的语音
CN106440192B (zh) 2016-09-19 2019-04-09 珠海格力电器股份有限公司 一种家电控制方法、装置、***及智能空调
JP6907493B2 (ja) * 2016-09-28 2021-07-21 ブラザー工業株式会社 アクチュエータ装置、配線部材の接続構造、液体吐出装置、及び、アクチュエータ装置の製造方法
US10181333B2 (en) * 2017-04-04 2019-01-15 International Business Machines Corporation Intelligent truthfulness indicator association
US10482904B1 (en) 2017-08-15 2019-11-19 Amazon Technologies, Inc. Context driven device arbitration
US10490195B1 (en) * 2017-09-26 2019-11-26 Amazon Technologies, Inc. Using system command utterances to generate a speaker profile
CN108305615B (zh) * 2017-10-23 2020-06-16 腾讯科技(深圳)有限公司 一种对象识别方法及其设备、存储介质、终端
CN109031961B (zh) * 2018-06-29 2021-04-06 百度在线网络技术(北京)有限公司 用于控制操作对象的方法和装置
CN109584871B (zh) * 2018-12-04 2021-09-03 北京蓦然认知科技有限公司 一种车辆中语音指令的用户身份识别方法、装置
CN110475093A (zh) * 2019-08-16 2019-11-19 北京云中融信网络科技有限公司 一种活动调度方法、装置及存储介质
US11990152B2 (en) * 2020-11-13 2024-05-21 Arris Enterprises Llc Classification of audio as originating from a human source or a non-human to avoid false wake-word detection

Family Cites Families (191)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4288078A (en) * 1979-11-20 1981-09-08 Lugo Julio I Game apparatus
US4695953A (en) * 1983-08-25 1987-09-22 Blair Preston E TV animation interactively controlled by the viewer
US4630910A (en) * 1984-02-16 1986-12-23 Robotic Vision Systems, Inc. Method of measuring in three-dimensions at high speed
US4627620A (en) * 1984-12-26 1986-12-09 Yang John P Electronic athlete trainer for improving skills in reflex, speed and accuracy
US4645458A (en) * 1985-04-15 1987-02-24 Harald Phillip Athletic evaluation and training apparatus
US4702475A (en) * 1985-08-16 1987-10-27 Innovating Training Products, Inc. Sports technique and reaction training system
US4843568A (en) * 1986-04-11 1989-06-27 Krueger Myron W Real time perception of and response to the actions of an unencumbered participant/user
US4711543A (en) * 1986-04-14 1987-12-08 Blair Preston E TV animation interactively controlled by the viewer
US4796997A (en) * 1986-05-27 1989-01-10 Synthetic Vision Systems, Inc. Method and system for high-speed, 3-D imaging of an object at a vision station
US5184295A (en) * 1986-05-30 1993-02-02 Mann Ralph V System and method for teaching physical skills
US4751642A (en) * 1986-08-29 1988-06-14 Silva John M Interactive sports simulation system with physiological sensing and psychological conditioning
US4809065A (en) * 1986-12-01 1989-02-28 Kabushiki Kaisha Toshiba Interactive system and related method for displaying data to produce a three-dimensional image of an object
US4817950A (en) * 1987-05-08 1989-04-04 Goo Paul E Video game control unit and attitude sensor
US5239463A (en) * 1988-08-04 1993-08-24 Blair Preston E Method and apparatus for player interaction with animated characters and objects
US5239464A (en) * 1988-08-04 1993-08-24 Blair Preston E Interactive video system providing repeated switching of multiple tracks of actions sequences
US4901362A (en) * 1988-08-08 1990-02-13 Raytheon Company Method of recognizing patterns
US4893183A (en) * 1988-08-11 1990-01-09 Carnegie-Mellon University Robotic vision system
JPH02199526A (ja) * 1988-10-14 1990-08-07 David G Capper 制御インターフェース装置
US4925189A (en) * 1989-01-13 1990-05-15 Braeunig Thomas F Body-mounted video game exercise device
US5229756A (en) * 1989-02-07 1993-07-20 Yamaha Corporation Image control apparatus
US5469740A (en) * 1989-07-14 1995-11-28 Impulse Technology, Inc. Interactive video testing and training system
JPH03103822U (ja) * 1990-02-13 1991-10-29
US5101444A (en) * 1990-05-18 1992-03-31 Panacea, Inc. Method and apparatus for high speed object location
US5148154A (en) * 1990-12-04 1992-09-15 Sony Corporation Of America Multi-dimensional user interface
US5534917A (en) * 1991-05-09 1996-07-09 Very Vivid, Inc. Video image based control system
US5417210A (en) * 1992-05-27 1995-05-23 International Business Machines Corporation System and method for augmentation of endoscopic surgery
US5295491A (en) * 1991-09-26 1994-03-22 Sam Technology, Inc. Non-invasive human neurocognitive performance capability testing method and system
US6054991A (en) * 1991-12-02 2000-04-25 Texas Instruments Incorporated Method of modeling player position and movement in a virtual reality system
WO1993010708A1 (en) 1991-12-03 1993-06-10 French Sportech Corporation Interactive video testing and training system
US5875108A (en) * 1991-12-23 1999-02-23 Hoffberg; Steven M. Ergonomic man-machine interface incorporating adaptive pattern recognition based control system
JPH07325934A (ja) 1992-07-10 1995-12-12 Walt Disney Co:The 仮想世界に向上したグラフィックスを提供する方法および装置
US5999908A (en) 1992-08-06 1999-12-07 Abelow; Daniel H. Customer-based product design module
US5320538A (en) * 1992-09-23 1994-06-14 Hughes Training, Inc. Interactive aircraft training system and method
IT1257294B (it) * 1992-11-20 1996-01-12 Dispositivo atto a rilevare la configurazione di un'unita' fisiologicadistale,da utilizzarsi in particolare come interfaccia avanzata per macchine e calcolatori.
US5495576A (en) * 1993-01-11 1996-02-27 Ritchey; Kurtis J. Panoramic image based virtual reality/telepresence audio-visual system and method
US5690582A (en) * 1993-02-02 1997-11-25 Tectrix Fitness Equipment, Inc. Interactive exercise apparatus
JP2799126B2 (ja) * 1993-03-26 1998-09-17 株式会社ナムコ ビデオゲーム装置及びゲーム用入力装置
US5405152A (en) * 1993-06-08 1995-04-11 The Walt Disney Company Method and apparatus for an interactive video game with physical feedback
US5454043A (en) * 1993-07-30 1995-09-26 Mitsubishi Electric Research Laboratories, Inc. Dynamic and static hand gesture recognition through low-level image analysis
US5764779A (en) * 1993-08-25 1998-06-09 Canon Kabushiki Kaisha Method and apparatus for determining the direction of a sound source
US5423554A (en) * 1993-09-24 1995-06-13 Metamedia Ventures, Inc. Virtual reality game method and apparatus
US5980256A (en) * 1993-10-29 1999-11-09 Carmein; David E. E. Virtual reality system with enhanced sensory apparatus
JP3419050B2 (ja) * 1993-11-19 2003-06-23 株式会社日立製作所 入力装置
US5347306A (en) * 1993-12-17 1994-09-13 Mitsubishi Electric Research Laboratories, Inc. Animated electronic meeting place
JP2552427B2 (ja) * 1993-12-28 1996-11-13 コナミ株式会社 テレビ遊戯システム
US5577981A (en) * 1994-01-19 1996-11-26 Jarvik; Robert Virtual reality exercise machine and computer controlled video system
US5580249A (en) * 1994-02-14 1996-12-03 Sarcos Group Apparatus for simulating mobility of a human
US5597309A (en) * 1994-03-28 1997-01-28 Riess; Thomas Method and apparatus for treatment of gait problems associated with parkinson's disease
US5385519A (en) * 1994-04-19 1995-01-31 Hsu; Chi-Hsueh Running machine
US5524637A (en) * 1994-06-29 1996-06-11 Erickson; Jon W. Interactive system for measuring physiological exertion
US5563988A (en) * 1994-08-01 1996-10-08 Massachusetts Institute Of Technology Method and system for facilitating wireless, full-body, real-time user interaction with a digitally represented visual environment
US6714665B1 (en) 1994-09-02 2004-03-30 Sarnoff Corporation Fully automated iris recognition system utilizing wide and narrow fields of view
US5516105A (en) * 1994-10-06 1996-05-14 Exergame, Inc. Acceleration activated joystick
US5638300A (en) * 1994-12-05 1997-06-10 Johnson; Lee E. Golf swing analysis system
JPH08161292A (ja) * 1994-12-09 1996-06-21 Matsushita Electric Ind Co Ltd 混雑度検知方法およびそのシステム
US5594469A (en) * 1995-02-21 1997-01-14 Mitsubishi Electric Information Technology Center America Inc. Hand gesture machine control system
US5682229A (en) * 1995-04-14 1997-10-28 Schwartz Electro-Optics, Inc. Laser range camera
US5913727A (en) * 1995-06-02 1999-06-22 Ahdoot; Ned Interactive movement and contact simulation game
JP3481631B2 (ja) * 1995-06-07 2003-12-22 ザ トラスティース オブ コロンビア ユニヴァーシティー イン ザ シティー オブ ニューヨーク 能動型照明及びデフォーカスに起因する画像中の相対的なぼけを用いる物体の3次元形状を決定する装置及び方法
US5682196A (en) * 1995-06-22 1997-10-28 Actv, Inc. Three-dimensional (3D) video presentation system providing interactive 3D presentation with personalized audio responses for multiple viewers
US5702323A (en) * 1995-07-26 1997-12-30 Poulton; Craig K. Electronic exercise enhancer
US6430997B1 (en) 1995-11-06 2002-08-13 Trazer Technologies, Inc. System and method for tracking and assessing movement skills in multidimensional space
US6098458A (en) 1995-11-06 2000-08-08 Impulse Technology, Ltd. Testing and training system for assessing movement and agility skills without a confining field
US6308565B1 (en) * 1995-11-06 2001-10-30 Impulse Technology Ltd. System and method for tracking and assessing movement skills in multidimensional space
US6073489A (en) * 1995-11-06 2000-06-13 French; Barry J. Testing and training system for assessing the ability of a player to complete a task
US6176782B1 (en) * 1997-12-22 2001-01-23 Philips Electronics North America Corp. Motion-based command generation technology
US5933125A (en) * 1995-11-27 1999-08-03 Cae Electronics, Ltd. Method and apparatus for reducing instability in the display of a virtual environment
US5761329A (en) * 1995-12-15 1998-06-02 Chen; Tsuhan Method and apparatus employing audio and video data from an individual for authentication purposes
US5641288A (en) * 1996-01-11 1997-06-24 Zaenglein, Jr.; William G. Shooting simulating process and training device using a virtual reality display screen
CA2253626A1 (en) * 1996-05-08 1997-11-13 Real Vision Corporation Real time simulation using position sensing
US6173066B1 (en) * 1996-05-21 2001-01-09 Cybernet Systems Corporation Pose determination and tracking by matching 3D objects to a 2D sensor
US5989157A (en) * 1996-08-06 1999-11-23 Walton; Charles A. Exercising system with electronic inertial game playing
AU3954997A (en) * 1996-08-14 1998-03-06 Nurakhmed Nurislamovich Latypov Method for following and imaging a subject's three-dimensional position and orientation, method for presenting a virtual space to a subject, and systems for implementing said methods
JP3064928B2 (ja) * 1996-09-20 2000-07-12 日本電気株式会社 被写体抽出方式
ATE232621T1 (de) * 1996-12-20 2003-02-15 Hitachi Europ Ltd Verfahren und system zur erkennung von handgesten
US6009210A (en) * 1997-03-05 1999-12-28 Digital Equipment Corporation Hands-free interface to a virtual reality environment using head tracking
US6100896A (en) * 1997-03-24 2000-08-08 Mitsubishi Electric Information Technology Center America, Inc. System for designing graphical multi-participant environments
US5877803A (en) * 1997-04-07 1999-03-02 Tritech Mircoelectronics International, Ltd. 3-D image detector
US6215898B1 (en) * 1997-04-15 2001-04-10 Interval Research Corporation Data processing system and method
JP3077745B2 (ja) * 1997-07-31 2000-08-14 日本電気株式会社 データ処理方法および装置、情報記憶媒体
US6188777B1 (en) * 1997-08-01 2001-02-13 Interval Research Corporation Method and apparatus for personnel detection and tracking
US6289112B1 (en) * 1997-08-22 2001-09-11 International Business Machines Corporation System and method for determining block direction in fingerprint images
US6720949B1 (en) 1997-08-22 2004-04-13 Timothy R. Pryor Man machine interfaces and applications
AUPO894497A0 (en) 1997-09-02 1997-09-25 Xenotech Research Pty Ltd Image processing method and apparatus
EP0905644A3 (en) * 1997-09-26 2004-02-25 Matsushita Electric Industrial Co., Ltd. Hand gesture recognizing device
US6141463A (en) * 1997-10-10 2000-10-31 Electric Planet Interactive Method and system for estimating jointed-figure configurations
US6072494A (en) * 1997-10-15 2000-06-06 Electric Planet, Inc. Method and apparatus for real-time gesture recognition
AU1099899A (en) 1997-10-15 1999-05-03 Electric Planet, Inc. Method and apparatus for performing a clean background subtraction
WO1999019840A1 (en) 1997-10-15 1999-04-22 Electric Planet, Inc. A system and method for generating an animatable character
US6101289A (en) * 1997-10-15 2000-08-08 Electric Planet, Inc. Method and apparatus for unencumbered capture of an object
US6130677A (en) * 1997-10-15 2000-10-10 Electric Planet, Inc. Interactive computer vision system
US6941274B1 (en) 1997-11-28 2005-09-06 Diebold, Incorporated Automated transaction machine
US6181343B1 (en) * 1997-12-23 2001-01-30 Philips Electronics North America Corp. System and method for permitting three-dimensional navigation through a virtual reality environment using camera-based gesture inputs
US6159100A (en) * 1998-04-23 2000-12-12 Smith; Michael D. Virtual reality game
US6593956B1 (en) * 1998-05-15 2003-07-15 Polycom, Inc. Locating an audio source
US6077201A (en) * 1998-06-12 2000-06-20 Cheng; Chau-Yang Exercise bicycle
US6950534B2 (en) 1998-08-10 2005-09-27 Cybernet Systems Corporation Gesture-controlled interfaces for self-service machines and other applications
US6681031B2 (en) 1998-08-10 2004-01-20 Cybernet Systems Corporation Gesture-controlled interfaces for self-service machines and other applications
US6801637B2 (en) 1999-08-10 2004-10-05 Cybernet Systems Corporation Optical body tracker
US7121946B2 (en) 1998-08-10 2006-10-17 Cybernet Systems Corporation Real-time head tracking system for computer games and other applications
US7036094B1 (en) 1998-08-10 2006-04-25 Cybernet Systems Corporation Behavior recognition system
US20010008561A1 (en) 1999-08-10 2001-07-19 Paul George V. Real-time object tracking system
IL126284A (en) * 1998-09-17 2002-12-01 Netmor Ltd System and method for three dimensional positioning and tracking
DE69936620T2 (de) * 1998-09-28 2008-05-21 Matsushita Electric Industrial Co., Ltd., Kadoma Verfahren und Vorrichtung zum Segmentieren von Handgebärden
AU1930700A (en) 1998-12-04 2000-06-26 Interval Research Corporation Background estimation and segmentation based on range and color
US6147678A (en) * 1998-12-09 2000-11-14 Lucent Technologies Inc. Video hand image-three-dimensional computer interface with multiple degrees of freedom
EP2026035A2 (en) 1998-12-16 2009-02-18 3DV Systems Ltd. 3D camera for distance measurements
US6570555B1 (en) 1998-12-30 2003-05-27 Fuji Xerox Co., Ltd. Method and apparatus for embodied conversational characters with multimodal input/output in an interface device
US6363160B1 (en) * 1999-01-22 2002-03-26 Intel Corporation Interface using pattern recognition and tracking
US7003134B1 (en) 1999-03-08 2006-02-21 Vulcan Patents Llc Three dimensional object pose estimation which employs dense depth information
US6299308B1 (en) * 1999-04-02 2001-10-09 Cybernet Systems Corporation Low-cost non-imaging eye tracker system for computer control
GB9908545D0 (en) * 1999-04-14 1999-06-09 Canon Kk Image processing apparatus
US6503195B1 (en) 1999-05-24 2003-01-07 University Of North Carolina At Chapel Hill Methods and systems for real-time structured light depth extraction and endoscope using real-time structured light depth extraction
US6476834B1 (en) 1999-05-28 2002-11-05 International Business Machines Corporation Dynamic creation of selectable items on surfaces
US6873723B1 (en) 1999-06-30 2005-03-29 Intel Corporation Segmenting three-dimensional video images using stereo
US6738066B1 (en) 1999-07-30 2004-05-18 Electric Plant, Inc. System, method and article of manufacture for detecting collisions between video images generated by a camera and an object depicted on a display
US7113918B1 (en) 1999-08-01 2006-09-26 Electric Planet, Inc. Method for video enabled electronic commerce
US7050606B2 (en) 1999-08-10 2006-05-23 Cybernet Systems Corporation Tracking and gesture recognition system particularly suited to vehicular control applications
US6674877B1 (en) 2000-02-03 2004-01-06 Microsoft Corporation System and method for visually tracking occluded objects in real time
US6663491B2 (en) 2000-02-18 2003-12-16 Namco Ltd. Game apparatus, storage medium and computer program that adjust tempo of sound
US6633294B1 (en) 2000-03-09 2003-10-14 Seth Rosenthal Method and apparatus for using captured high density motion for animation
EP1152261A1 (en) 2000-04-28 2001-11-07 CSEM Centre Suisse d'Electronique et de Microtechnique SA Device and method for spatially resolved photodetection and demodulation of modulated electromagnetic waves
US6640202B1 (en) 2000-05-25 2003-10-28 International Business Machines Corporation Elastic sensor mesh system for 3-dimensional measurement, mapping and kinematics applications
US6731799B1 (en) 2000-06-01 2004-05-04 University Of Washington Object segmentation with background extraction and moving boundary techniques
US6788809B1 (en) 2000-06-30 2004-09-07 Intel Corporation System and method for gesture recognition in three dimensions using stereo imaging and color vision
US7227526B2 (en) 2000-07-24 2007-06-05 Gesturetek, Inc. Video-based image control system
US7058204B2 (en) 2000-10-03 2006-06-06 Gesturetek, Inc. Multiple camera control system
US6721706B1 (en) * 2000-10-30 2004-04-13 Koninklijke Philips Electronics N.V. Environment-responsive user interface/entertainment device that simulates personal interaction
US7039676B1 (en) 2000-10-31 2006-05-02 International Business Machines Corporation Using video image analysis to automatically transmit gestures over a network in a chat or instant messaging session
WO2002072317A1 (fr) * 2001-03-09 2002-09-19 Japan Science And Technology Corporation Systeme de robot audiovisuel
US6539931B2 (en) 2001-04-16 2003-04-01 Koninklijke Philips Electronics N.V. Ball throwing assistant
US7259747B2 (en) 2001-06-05 2007-08-21 Reactrix Systems, Inc. Interactive video display system
US8035612B2 (en) 2002-05-28 2011-10-11 Intellectual Ventures Holding 67 Llc Self-contained interactive video display system
JP3420221B2 (ja) 2001-06-29 2003-06-23 株式会社コナミコンピュータエンタテインメント東京 ゲーム装置及びプログラム
US6937742B2 (en) 2001-09-28 2005-08-30 Bellsouth Intellectual Property Corporation Gesture activated home appliance
US7130446B2 (en) * 2001-12-03 2006-10-31 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues
JP3960045B2 (ja) * 2002-01-07 2007-08-15 富士ゼロックス株式会社 個人識別装置
US7162475B2 (en) 2002-04-17 2007-01-09 Ackerman David M Method for user verification and authentication and multimedia processing for interactive database management and method for viewing the multimedia
ATE321689T1 (de) 2002-04-19 2006-04-15 Iee Sarl Sicherheitsvorrichtung für ein fahrzeug
US7710391B2 (en) 2002-05-28 2010-05-04 Matthew Bell Processing an image utilizing a spatially varying pattern
US7170492B2 (en) 2002-05-28 2007-01-30 Reactrix Systems, Inc. Interactive video display system
US7348963B2 (en) 2002-05-28 2008-03-25 Reactrix Systems, Inc. Interactive video display system
US7489812B2 (en) 2002-06-07 2009-02-10 Dynamic Digital Depth Research Pty Ltd. Conversion and encoding techniques
US7627139B2 (en) 2002-07-27 2009-12-01 Sony Computer Entertainment Inc. Computer image and audio processing of intensity and input devices for interfacing with a computer program
US7576727B2 (en) 2002-12-13 2009-08-18 Matthew Bell Interactive directed light/sound system
JP4235729B2 (ja) 2003-02-03 2009-03-11 国立大学法人静岡大学 距離画像センサ
EP1477924B1 (en) 2003-03-31 2007-05-02 HONDA MOTOR CO., Ltd. Gesture recognition apparatus, method and program
US8072470B2 (en) 2003-05-29 2011-12-06 Sony Computer Entertainment Inc. System and method for providing a real-time three-dimensional interactive environment
US7372977B2 (en) 2003-05-29 2008-05-13 Honda Motor Co., Ltd. Visual tracking using depth data
JP4546956B2 (ja) 2003-06-12 2010-09-22 本田技研工業株式会社 奥行き検出を用いた対象の向きの推定
US20040261097A1 (en) 2003-06-18 2004-12-23 Hanks Darwin Mitchel System and method for regulating device use among multiple users
US7428000B2 (en) * 2003-06-26 2008-09-23 Microsoft Corp. System and method for distributed meetings
US8323106B2 (en) * 2008-05-30 2012-12-04 Sony Computer Entertainment America Llc Determination of controller three-dimensional location using image analysis and ultrasonic communication
WO2005041579A2 (en) 2003-10-24 2005-05-06 Reactrix Systems, Inc. Method and system for processing captured image information in an interactive video display system
JP4595364B2 (ja) * 2004-03-23 2010-12-08 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
WO2005104010A2 (en) 2004-04-15 2005-11-03 Gesture Tek, Inc. Tracking bimanual movements
US7308112B2 (en) 2004-05-14 2007-12-11 Honda Motor Co., Ltd. Sign based human-machine interaction
US7704135B2 (en) 2004-08-23 2010-04-27 Harrison Jr Shelton E Integrated game system, method, and device
KR100754385B1 (ko) * 2004-09-30 2007-08-31 삼성전자주식회사 오디오/비디오 센서를 이용한 위치 파악, 추적 및 분리장치와 그 방법
KR20060070280A (ko) 2004-12-20 2006-06-23 한국전자통신연구원 손 제스처 인식을 이용한 사용자 인터페이스 장치 및 그방법
JP2008537190A (ja) 2005-01-07 2008-09-11 ジェスチャー テック,インコーポレイテッド 赤外線パターンを照射することによる対象物の三次元像の生成
US7379566B2 (en) 2005-01-07 2008-05-27 Gesturetek, Inc. Optical flow based tilt sensor
ES2791718T3 (es) 2005-01-07 2020-11-05 Qualcomm Inc Detección y seguimiento de objetos en imágenes
WO2006086508A2 (en) 2005-02-08 2006-08-17 Oblong Industries, Inc. System and method for genture based control system
US7492367B2 (en) 2005-03-10 2009-02-17 Motus Corporation Apparatus, system and method for interpreting and reproducing physical motion
US7317836B2 (en) 2005-03-17 2008-01-08 Honda Motor Co., Ltd. Pose estimation based on critical point analysis
US7982795B2 (en) * 2005-04-11 2011-07-19 Panayotis B. SPATHARIS Image acquisition and exploitation camera system and methods therefore
EP1886509B1 (en) 2005-05-17 2017-01-18 Qualcomm Incorporated Orientation-sensitive signal output
ATE412882T1 (de) 2005-08-12 2008-11-15 Mesa Imaging Ag Hochempfindliches, schnelles pixel für anwendung in einem bildsensor
US20080026838A1 (en) * 2005-08-22 2008-01-31 Dunstan James E Multi-player non-role-playing virtual world games: method for two-way interaction between participants and multi-player virtual world games
US7450736B2 (en) 2005-10-28 2008-11-11 Honda Motor Co., Ltd. Monocular tracking of 3D human motion with a coordinated mixture of factor analyzers
JP4557919B2 (ja) * 2006-03-29 2010-10-06 株式会社東芝 音声処理装置、音声処理方法および音声処理プログラム
US7701439B2 (en) 2006-07-13 2010-04-20 Northrop Grumman Corporation Gesture recognition simulation system and method
JP5395323B2 (ja) 2006-09-29 2014-01-22 ブレインビジョン株式会社 固体撮像素子
US8351646B2 (en) 2006-12-21 2013-01-08 Honda Motor Co., Ltd. Human pose estimation and tracking using label assignment
US7412077B2 (en) 2006-12-29 2008-08-12 Motorola, Inc. Apparatus and methods for head pose estimation and head gesture detection
JP4449987B2 (ja) * 2007-02-15 2010-04-14 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
US7729530B2 (en) 2007-03-03 2010-06-01 Sergey Antonov Method and apparatus for 3-D data input to a personal computer with a multimedia oriented operating system
JP4886575B2 (ja) * 2007-04-05 2012-02-29 株式会社ソニー・コンピュータエンタテインメント 姿勢検出装置、姿勢検出方法、プログラム及び情報記憶媒体
US20080252596A1 (en) 2007-04-10 2008-10-16 Matthew Bell Display Using a Three-Dimensional vision System
US7852262B2 (en) 2007-08-16 2010-12-14 Cybernet Systems Corporation Wireless mobile indoor/outdoor tracking system
JP5430572B2 (ja) 2007-09-14 2014-03-05 インテレクチュアル ベンチャーズ ホールディング 67 エルエルシー ジェスチャベースのユーザインタラクションの処理
EP2203893A4 (en) 2007-10-30 2014-05-07 Hewlett Packard Development Co INTERACTIVE DISPLAY SYSTEM WITH GROUP GESTURE DETECTION
US20090221368A1 (en) 2007-11-28 2009-09-03 Ailive Inc., Method and system for creating a shared game space for a networked game
GB2455316B (en) 2007-12-04 2012-08-15 Sony Corp Image processing apparatus and method
JP2009141560A (ja) * 2007-12-05 2009-06-25 Sony Corp 音声信号処理装置、音声信号処理方法
JP4462339B2 (ja) * 2007-12-07 2010-05-12 ソニー株式会社 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
CN102016877B (zh) 2008-02-27 2014-12-10 索尼计算机娱乐美国有限责任公司 用于捕获场景的深度数据并且应用计算机动作的方法
CN101254344B (zh) 2008-04-18 2010-06-16 李刚 场地方位与显示屏点阵按比例相对应的游戏装置和方法
US9399167B2 (en) 2008-10-14 2016-07-26 Microsoft Technology Licensing, Llc Virtual space mapping of a variable activity region
US8155394B2 (en) * 2010-07-13 2012-04-10 Polaris Wireless, Inc. Wireless location and facial/speaker recognition system

Also Published As

Publication number Publication date
EP2529355B1 (en) 2015-11-04
EP2529355A2 (en) 2012-12-05
US20120327193A1 (en) 2012-12-27
CN102135882B (zh) 2014-06-04
WO2011090829A3 (en) 2011-11-10
HK1177041A1 (en) 2013-08-09
US8781156B2 (en) 2014-07-15
KR20120116446A (ko) 2012-10-22
JP2013519135A (ja) 2013-05-23
CA2786681C (en) 2016-11-29
US20110182481A1 (en) 2011-07-28
CN102135882A (zh) 2011-07-27
CA2786681A1 (en) 2011-07-28
KR101765970B1 (ko) 2017-08-07
WO2011090829A2 (en) 2011-07-28
EP2529355A4 (en) 2014-03-12
US8265341B2 (en) 2012-09-11

Similar Documents

Publication Publication Date Title
JP5782459B2 (ja) 音声−体識別の相関
US8660847B2 (en) Integrated local and cloud based speech recognition
CN103019373B (zh) 用于设备激活的音频模式匹配
US8675981B2 (en) Multi-modal gender recognition including depth data
JP6795387B2 (ja) 音声対話装置、音声対話方法、音声対話プログラム及びロボット
US20130177296A1 (en) Generating metadata for user experiences
CN112088403A (zh) 使用神经网络的说话人识别/定位
JP5944384B2 (ja) インタラクティブ・ストーリーを駆動するための自然ユーザー入力
US9349218B2 (en) Method and apparatus for controlling augmented reality
JP5456832B2 (ja) 入力された発話の関連性を判定するための装置および方法
US20150325240A1 (en) Method and system for speech input
CN112088315A (zh) 多模式语音定位
CN110875060A (zh) 语音信号处理方法、装置、***、设备和存储介质
US20110311144A1 (en) Rgb/depth camera for improving speech recognition
CN113658254B (zh) 一种处理多模态数据的方法及装置、机器人
US20140085625A1 (en) Skin and other surface classification using albedo
Korchagin et al. Just-in-time multimodal association and fusion from home entertainment
US11468354B1 (en) Adaptive target presence probability estimation
JP6997733B2 (ja) 情報処理装置、情報処理方法、及びプログラム
Duncan et al. A Survey of Multimodal Perception Methods for Human-Robot Interaction in Social Environments
Minotto Audiovisual voice activity detection and localization of simultaneous speech sources

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150311

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20150514

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150618

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150717

R150 Certificate of patent or registration of utility model

Ref document number: 5782459

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250