JP2010511958A - ジェスチャー/音声統合認識システム及び方法 - Google Patents
ジェスチャー/音声統合認識システム及び方法 Download PDFInfo
- Publication number
- JP2010511958A JP2010511958A JP2009540141A JP2009540141A JP2010511958A JP 2010511958 A JP2010511958 A JP 2010511958A JP 2009540141 A JP2009540141 A JP 2009540141A JP 2009540141 A JP2009540141 A JP 2009540141A JP 2010511958 A JP2010511958 A JP 2010511958A
- Authority
- JP
- Japan
- Prior art keywords
- gesture
- integrated
- voice
- feature information
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
本発明はジェスチャー/音声統合認識システム及び方法に関し、雑音環境下における音声とジェスチャーの統合を通じて命令語の認識の性能を高めるために入力された音声の中から命令語の始点と終点を検出し音声特徴情報を抽出する音声特徴抽出部と、前記検出した始点と終点に関する情報を用いて撮影映像のジェスチャーから命令区間を検出し、ジェスチャー特徴情報を抽出するジェスチャー特徴抽出部と、前記抽出された音声特徴情報とジェスチャー特徴情報を既設定の学習パラメーターを用いて統合認識データとして出力する統合認識部を含んで構成され、簡単に、且つ正確にユーザーの命令を認識することができる。
Description
本発明は、統合認識技術に関し、特に、実際の雑音環境下でユーザーの命令を高性能で認識するために、音声のEPD値を利用しジェスチャーの特徴情報を抽出して音声の特徴情報と統合し、ユーザーの命令を認識することができるジェスチャー/音声統合認識システム及び方法に関する。
本発明は、情報通信部及び情報通信研究振興院のIT新成長動力核心技術開発事業の一環として行った研究から導出されたものである[課題管理番号:2006−S−031−01、課題名:ネットワークに基づく実感型サービスのための五感情報処理技術の開発]。
最近、マルチメディア技術とインターフェイス技術の発達に伴い、人と機械のインターフェイスを容易く、且つ簡単に実現するために、顔の表情や方向、唇の形、凝視追跡、手のジェスチャ、音声等を利用しマルチモーダル(Multi−modal)形態の認識研究が活発に行われている。
特に、現在のMan−Machineインターフェイス技術のうち、音声認識技術とジェスチャー認識技術が最も便利なインターフェイス技術として使用されている。但し、音声認識技術とジェスチャー認識技術は、制限された環境では高い認識率を示すが、実際の雑音環境下ではその性能を十分に発揮できないという問題がある。それは、音声認識は環境の雑音が性能に最も大きな影響を与えるからであり、カメラに基づくジェスチャー認識技術は照明の変化とジェスチャーの種類によって性能の差が多く発生する。従って、音声認識技術は、雑音に強いアルゴリズムを利用して認識することができる技術の開発が必要であり、ジェスチャー認識技術は認識情報を含むジェスチャーの特定区間を抽出することができる技術開発が必要となった。また、一般的なジェスチャーを使用する場合にはジェスチャーの特定区間が簡単に区分できないため、認識することに困難があった。
また、音声とジェスチャーを統合し認識する場合においては、音声フレームの処理速度は約10ms/frameであり、映像フレームの処理速度は約66.7ms/frameであるため、各フレームを処理する処理速度に差がある上、一般的にジェスチャー区間が音声区間と比べて、より多くの時間がかかるため、発生する音声区間の長さとジェスチャー区間の長さに差が発生し、音声とジェスチャーを同期化するのに問題が生じる。
従って、上記のような問題を解決するために、環境雑音に強いアルゴリズムを用い、ユーザーの音声から命令語区間を探索して特徴情報を抽出し、また音声の命令語の始点に関する情報を用いてジェスチャーの特徴区間を検出し、明確に区分されないジェスチャーも簡単に命令を認識することができる手段が必要となった。
また、音声とジェスチャーの統合認識において発生する同期の差に関する問題を、音声EPD値により検出されたジェスチャーの命令区間で予め設定された最適フレームを適用し、同期を一致させる手段が必要となった。
上記のような問題を解決するための本発明のジェスチャー/音声統合認識システムは、入力された音声の中から命令語の始点と終点を検出し音声特徴情報を抽出する音声特徴抽出部と、前記検出した始点と終点に関する情報を利用して撮影映像のジェスチャーから命令区間を検出しジェスチャー特徴情報を抽出するジェスチャー特徴抽出部と、前記抽出した音声特徴情報とジェスチャー特徴情報を既設定の学習パラメーターを用いて統合認識データとして出力する統合認識部を含んで成ることを特徴とする。
一方、前記ジェスチャー/音声統合認識システムは、前記検出した始点を利用し前記撮影映像からジェスチャーの始点を検出するジェスチャー始点検出モジュールと、前記ジェスチャーの始点から予め設定された最適フレーム数を適用し最適の映像フレームを計算して抽出する最適フレーム適用モジュールを含む同期化モジュールをさらに含むことを特徴とする。このとき、前記ジェスチャー始点検出モジュールは、前記検出した音声の始点(EPD:End Point Detection)プラグを前記撮影映像でチェックしジェスチャーの始点を検出することを特徴とする。
また、前記音声特徴抽出部は、前記入力された音声の中から命令語の始点と終点を検出するイーピーディー(EPD:End Point Detection)検出モジュールと、聴覚モデルに基づくアルゴリズムを利用し、前記検出した命令語から前記命令語に含まれた音声特徴情報を抽出する聴覚モデルに基づく音声特徴抽出モジュールを含んで成り、さらに、前記抽出した音声特徴情報から雑音を除去することを特徴とする。
また、前記ジェスチャー特徴抽出モジュールは、カメラで撮影された映像から手の動きを追跡し前記同期化モジュールに伝送する手追跡モジュールと、前記同期化モジュールで抽出した最適の映像フレームを利用し、ジェスチャー特徴情報を抽出するジェスチャー特徴抽出モジュールを含んで成ることを特徴とする。
また、前記統合認識部は、予め設定された統合学習モデルと統合学習データベースに基づき学習パラメーターを生成する統合学習DB制御モジュールと、前記抽出した音声特徴情報とジェスチャー特徴情報を前記生成された学習パラメーターを利用し制御する統合特徴制御モジュールと、前記統合特徴制御モジュールにより制御される結果を認識結果として生成する統合認識モジュールを含んで成ることを特徴とし、このとき、前記統合特徴制御モジュールは、入力されるベクトルのノード数の拡張と縮小を通じて前記抽出した音声特徴情報とジェスチャー特徴情報の特徴ベクトルを制御することを特徴とする。
上記のような目的を達成するため、本発明のジェスチャー/音声統合認識方法は、入力された音声の中から命令語の始点(EPD値)と終点を検出し音声特徴情報を抽出する1段階と、前記検出した命令語の始点を利用し、カメラにより入力された映像のジェスチャーから命令区間を検出し、ジェスチャー特徴情報を抽出する2段階及び前記抽出した音声特徴情報とジェスチャー特徴情報を既設定の学習パラメーターを利用し統合認識データとして出力する3段階を含んで成ることを特徴とする。
このとき、前記1段階は、前記命令語の始点と終点による命令語区間から聴覚モデルに基づき音声特徴情報を抽出することを特徴とする。
また、前記2段階は、前記カメラの入力映像から手のジェスチャーを追跡するA段階と、前記伝送されたEPD値を利用して前記手のジェスチャーによる命令区間を検出するB段階と、予め設定された最適のフレームを適用し前記ジェスチャーによる命令区間から最適のフレームを決めるC段階と、前記決められた最適のフレームからジェスチャー特徴情報を抽出するD段階を含んで成ることを特徴とする。
前述のように本発明によるジェスチャー/音声統合認識システム及び方法は、音声の命令語区間の始点であるEPD値を利用してジェスチャーの命令語区間を検出し、明確に区分できないジェスチャーの場合にも認識率を高めることができ、また、ジェスチャーの命令語区間に対して最適のフレームを適用し音声とジェスチャーの同期化を通じ、音声とジェスチャーによる統合認識を実現することができる効果がある。
以下、添付の図面を参照し本発明が属する技術分野において通常の知識を有する者が本発明を容易に実施することができる好ましい実施例を詳細に説明する。但し、本発明の好ましい実施例に対する動作原理を詳細に説明することにおいて、関る公知の機能または構成に対する具体的な説明が本発明の要旨を不必要に不明確にすることがあると判断される場合はその詳細な説明を省略する。
図1は本発明によるジェスチャー/音声統合認識システムの概念を示す図面である。
図1を参照すると、ジェスチャー/音声統合認識技術は、人の音声とジェスチャーによる命令を統合して認識し、その認識結果によって発生する制御命令を利用し五感を表現するデバイスを制御する。
具体的に、人100は、音声110とジェスチャー120により命令をする。ここで、人のする命令に対して、例を挙げ説明すると、人がサイバー空間で物を購買する場合にディスプレイされている物から、特定のパンを選ぶという命令として“とうもろこし食パン”といいながらとうもろこし食パンを指差す行為をすることができる。
人100が音声110とジェスチャー120により命令をすると、人の音声命令に関する特徴情報は音声認識111を通じて認識し、人のジェスチャーによる特徴情報はジェスチャー認識121を通じて認識する。このように認識された音声とジェスチャーの認識情報は、環境雑音に弱い音声と明確に区分できないジェスチャーに対する認識率を高めるために音声とジェスチャーによる特徴情報を統合認識130により、1つのユーザー命令として認識する。
本発明はこのように人の音声とジェスチャーに対する統合認識に関する技術である。このように認識された命令は制御部により個別的な感覚に対する出力装置であるスピーカー170、ディスプレイ装置171、発香器172、触覚装置173、味覚装置174に伝達され、夫々の装置を制御する。また、認識結果をネットワークに伝送し、その結果に対する五感データを伝達し、夫々の出力装置を制御することもできる。但し、本願発明は統合認識に関するもので、認識以後の構成は多様に適用できるため、それに対する説明は省略する。
図2は本発明によるジェスチャー/音声統合認識システムの構成を示す図面である。
図2を参照すると、ジェスチャー/音声統合認識システムは、マイク211により入力された音声の中から命令語の始点と終点を検出し音声特徴情報を抽出する音声特徴抽出部210と、音声特徴抽出部210により検出した始点と終点に関する情報を利用し、カメラにより撮影された映像のジェスチャーから命令区間を検出し、ジェスチャー特徴情報を抽出するジェスチャー特徴抽出部220と、音声特徴抽出部210により検出した始点を利用し撮影映像からジェスチャーの始点を検出し、このように検出したジェスチャーの始点から予め設定された最適フレーム数を適用し、最適の映像フレームを計算する同期化モジュール230と、このように抽出した音声特徴情報とジェスチャー特徴情報を既設定の学習パラメーターを利用し統合認識データとして出力する統合認識部240を含んで成ることを特徴とする。以下、夫々の構成要素に対して具体的に説明する。
音声特徴抽出部210は、ユーザーが音声を入力するマイク211と、ユーザーの音声の中から命令語区間の始点と終点を検出するEPD(End Point Detection)検出モジュール212、EPD検出モジュール212により検出した音声の命令語区間に対して聴覚モデルに基づき音声特徴情報を抽出する聴覚モデルに基づく音声特徴抽出モジュール213から成る。また、抽出した音声特徴情報に含まれた雑音を除去するチャンネル雑音除去モジュールを含むことができる(不図示)。
EPD検出モジュール212は、有無線マイクにより入力された音声を分析し命令語の始点と終点を検出する。
具体的に、EPD検出モジュール212は、音声信号を獲得し、音声信号の終点の検出に必要なエネルギー値を計算し、入力された音声信号の中から命令語として計算すべき区間を判別し命令語の始点と終点を検出する。
EPD検出モジュール212は、先ずマイクから音声信号を獲得し、獲得した音声をフレーム計算のための形態に変換する。この過程で無線により音声が入力される場合は、データの損失や信号干渉による信号の歪みのような問題が発生し得るため、信号獲得時にこれに対する処理過程が必要である。
EPD検出モジュール212において、音声信号の終点の検出に必要なエネルギー値の計算は、例えば、下記のように求める。音声信号を分析するためのフレームのサイズは160sampleを基準とし、フレームエネルギーは下記の式により計算される。
S(n):声帯信号サンプル、N:1フレームのサンプル数
こうして求められたフレームエネルギーは、以後行われる終点の検出のためのパラメーターとして用いられる。
EPD検出モジュール212は、フレームエネルギー値を計算してからは命令語として実際計算すべき区間を判別する。例えば、音声信号の始点と終点を計算する過程は、フレームエネルギーを利用した4個のエネルギー臨界値(threshold)と10個の条件により決まる。ここで、4つのエネルギー臨界値と10個の条件は多様に設定が可能であり、好ましくは、実験により命令語区間を求めるための最も適当なものを選択する。4つの臨界値は終点検出アルゴリズムによりフレーム毎に始点と終点を判別する。
EPD検出モジュール212は、こうして検出した命令語の始点(以下、“EPD値”とする。)に対する情報を同期化モジュール230のジェスチャー始点検出モジュール231に伝達する。
また、EPD検出モジュール212は、入力された音声の中から命令語区間に対する情報を聴覚モデルに基づく音声特徴抽出モジュール213に伝送し音声特徴情報を抽出する。
音声の命令語区間に対する情報を受信した聴覚モデルに基づく音声特徴抽出モジュール213は、EPD検出モジュール212により検出した命令語区間から聴覚モデルに基づき特徴情報を抽出する。聴覚モデルに基づき音声特徴情報を抽出するために用いられるアルゴリズムには、EIHアルゴリズムとZCPAアルゴリズム等がある。
聴覚モデルに基づく音声特徴抽出モジュール213により抽出された音声特徴情報は、チャンネル雑音除去モジュール(不図示)により雑音を除去し統合認識部240に伝達される。
ジェスチャー特徴抽出部220は、カメラ221により撮影された映像から顔と手を検出する顔及び手検出モジュール222と、検出した手の動きを追跡して同期化モジュール230に伝達し、同期化モジュール230により計算された最適のフレームを利用しジェスチャーの特徴情報を抽出するジェスチャー特徴抽出モジュール224から成る。
顔及び手検出モジュール222は、映像からジェスチャーの対象となる顔及び手を検出し、手追跡モジュール223は映像における手の動きを続けて追跡する。但し、手追跡モジュール223は手に限定し説明したが、当業者によりジェスチャーとして認識され得る様々な体の一部を追跡することが出来る。
手追跡モジュール223により時間が進むに従って手の動きを続けて保存し、手の動きからジェスチャー命令として認識できる部分は、同期化モジュール230により音声特徴抽出部210から伝達されたEPD値を利用して検出される。以下、EPD値を利用して手の動きの中からジェスチャー命令として認識される区間を検出し、音声とジェスチャーの同期化のために、最適フレームを適用する同期化モジュール230に対して説明する。
同期化モジュール230は、EPD値と手の動きに対する映像を利用しジェスチャーの始点を検出するジェスチャー始点検出モジュール231と、検出したジェスチャー始点により計算されたジェスチャーの始点フレームを利用し統合認識に必要な最適の映像フレームを計算する最適フレーム適用モジュール232を含んで成る。
ジェスチャー始点検出モジュール231は、リアルタイムで音声信号と映像信号が入力される中、EPD検出モジュール212により音声のEPD値が検出されると、同期化モジュール230は映像信号から音声EPDプラグをチェックする。このような方法によりジェスチャー始点検出モジュール231はジェスチャーの始点フレームを計算する。また、計算されたジェスチャーの始点フレームを利用し、最適フレーム適用モジュール232は統合認識に必要な最適の映像フレームを計算してジェスチャー特徴抽出モジュール224に伝達する。最適フレーム適用モジュール232により適用される統合認識に必要な最適の映像フレームは、ジェスチャーの認識率が最も高いと判断されるフレーム数を予め設定し、ジェスチャー始点検出モジュール231によりジェスチャーの始点フレームが計算されると、最適の映像フレームを決める。
統合認識部240は、学習モデルに基づき音声特徴情報とジェスチャー特徴情報を効率的に統合するための統合モデルを生成する統合モデル生成モジュール242と、統計的モデルに基づく統合認識アルゴリズムの開発に適合した形態で構築された統合学習DB244と、統合モデル生成モジュール242と統合学習DB244による学習及び学習パラメーターを制御する統合学習DB制御モジュール243と、学習パラメーターと入力された音声特徴情報とジェスチャー特徴情報の特徴ベクトルを制御する統合特徴制御モジュール241と、認識結果を生成し様々な機能を提供する統合認識モデル245から成る。
統合モデル生成モジュール242は、音声特徴情報とジェスチャー特徴情報を効率的に統合するために、高性能の統合モデルを生成する。高性能の統合モデルを決めるため、既存に用いられた多様な学習アルゴリズム(Hidden Markov Model(HMM)、Neural Network(NN)、Dynamic Time Wapping(DTW)等)を具現し実験により決めることができる。特に、本願発明は、NNに基づき統合モデルを決め、統合認識に高性能を発揮することができるNNパラメーターを最適化する方法を用いることができる。但し、高性能の統合モデルを生成するにおいて最も大きな問題の1つは、フレーム数が異なる2つのモダリティを学習モデル内でどう同期化するのかという問題である。
学習モデル内における同期化の問題は、学習モデルの最適化の問題と同一である。本発明は統合レイヤーを備え、前記統合レイヤー内で音声とジェスチャーの連結方法を最適化する。最適化するために、時間軸を基準に音声とジェスチャーが重畳長さを計算してから、これに基づき同期化する。このような重畳長さは認識率の実験を通じて最も高い認識率を示す連結方法を探す。
統合学習DB244は、統計的モデルに基づく統合認識アルゴリズムの開発に適合する形態で統合認識データベースを構築する。
例えば、10個の単語を対象にステレオカメラと無線マイクを利用し様々な年齢層のデータを同期化させて収集する。表1はジェスチャーと音声の統合のために定義された命令語群である。定義された命令語群は、一般的に人が多くの学習をしなくても理解できる自然なジェスチャーを対象とした。
このとき、音声のサンプリングの割合は、16kHzに16bitsを使用し、チャンネル数1(mono)のPulse Coded Modulation(PCM)方式のWaveformを利用して録音する。映像は、STH−DCSG−Cステレオカメラを利用し、1秒当り15frame、320x240サイズの24bits BITMAPイメージをブルースクリーン背景と4つの蛍光灯ボックスが設けられた照明下で録画した。ステレオカメラでは音声インターフェイスが存在しないため、音声収集モジュールと映像収集モジュールを独立して作成し、音声録音プログラムでIPC(Inter−Process Communications)を通じて映像収集プロセスを制御する方法により映像と音声の同期化プログラムを作成しデータを収集した。映像収集モジュールは、Open CV(Computer Vison)ライブラリーとSVS(Small Vision System)を利用して構成した。
ステレオカメラの映像は、別途のキャリブレーション過程を経て実際の録音環境に適用させなければならず、最適の映像を獲得するために、関わるgain、exposure、brightness、red、blueパラメーター値を修正して色感、露出及びWB値を調整した。キャリブレーション情報及びパラメーター情報は別途のiniファイルで保存し映像保存モジュールで呼び出し参照するようにした。
統合学習DB制御モジュール243は、統合モデル生成モジュール242と連携し予め生成され保存された統合学習DB244に基づき学習パラメーターを生成する。
統合特徴制御モジュール241は、統合学習DB制御モジュール243により生成された学習パラメーターと、音声特徴抽出部210と、ジェスチャー特徴抽出部220により抽出された音声と、ジェスチャーの特徴情報の特徴ベクトルを制御する。このような制御は入力ベクトルのノード数の拡張及び縮小に関わる。統合特徴制御モジュール241は、統合レイヤーを有することを特徴とし、このような統合レイヤーは夫々異なるサイズの音声とジェスチャーの長さを効率的に統合し単一認識率を提示するよう開発される。
統合認識モジュール245は、統合特徴制御モジュール241による制御結果を用いて認識結果を生成する。また、統合表現器、或いはネットワーク等と相互作用するための様々な機能を提供する。
図3は、本発明によるジェスチャー/音声統合認識方法を示す流れ図である。
図3を参照すると、ジェスチャー/音声統合認識方法は、3つのスレッドで構成され動作する。3つのスレッドは、音声の特徴を抽出する音声特徴抽出スレッド10と、ジェスチャーの特徴を抽出するジェスチャー特徴抽出スレッド20と、音声とジェスチャーの統合認識を行う統合認識スレッド30から成る。3つのスレッド10、20、30は、学習パラメーターをロードする時点に生成し、スレッドプラグを利用して有機的に動作する。以下、3つのスレッド10、20、30の有機的な動作を通じたジェスチャー/音声統合認識方法を説明する。
ユーザーが音声とジェスチャーを利用して命令をする場合、音声特徴抽出スレッド10は有無線マイクを利用し音声を受信し続けるS311。また、ジェスチャー特徴抽出スレッド20はカメラを利用してジェスチャーを含む映像を続けて受信するS320。マイクを利用し続けて入力される音声の音声フレームを計算しながらS312、EPD検出モジュール212は音声に含まれた命令語の始点と終点(音声EPD値)を検出するS313。音声EPD値が検出されると、音声EPD値をジェスチャー特徴抽出スレッドの同期化段階40に伝達する。また、音声に含まれた命令語の始点と終点により音声の命令語区間が決まると、聴覚モデルに基づく音声特徴抽出モジュール213は聴覚モデルに基づき命令語区間から音声特徴を抽出しS314、統合認識スレッド30に伝達する。
ジェスチャー特徴抽出スレッド20は、カメラを通じて続けて入力される映像から手及び顔を検出するS321。こうして手と顔が検出されると、ユーザーのジェスチャーを追跡するS322。ユーザーのジェスチャーは変わり続けるため、一定の長さのジェスチャーをバッファに保存するS323。
ジェスチャーをバッファに保存する過程で、音声EPD値が検出され伝達されると、バッファに保存されているジェスチャー映像における音声EPDプラグをチェックするS324。音声EPDプラグにより映像の特徴情報を含むジェスチャーの始点と終点を検索しS325、このように検索されたジェスチャー特徴を保存するS326。こうして保存されたジェスチャー特徴は音声と同期が異なるため、予め設定された最適フレームを適用しジェスチャーの始点フレームから最適フレームを計算する。また、計算された最適フレームはジェスチャー特徴抽出モジュール224を利用しジェスチャー特徴情報を抽出し統合認識スレッドに伝達する。
音声特徴抽出スレッド10とジェスチャー特徴抽出スレッド20で成功的に音声とジェスチャーの特徴情報が抽出されると、統合認識スレッド30で認識結果を確認する間、音声/ジェスチャー特徴抽出スレッド10、20は停止(Sleep)状態となるS328、S315。
統合認識スレッド30は、音声特徴情報とジェスチャー特徴情報の伝達を受ける前に、予め統合モデル生成モジュール242により高性能の統合モデルを生成し、こうして生成された統合モデルと統合学習DB244を制御し、統合学習DB制御モジュール243は学習パラメーターを生成してロードするS331。こうして学習パラメーターがロードされると、統合認識スレッド30は音声/ジェスチャー特徴情報が伝達される前まで停止状態で維持されるS332。
このように停止状態にある統合認識スレッド30は、音声とジェスチャーの特徴情報の抽出が完了しS333、特徴情報に関する信号を受信すると、夫々の特徴をメモリにロードするS334。音声とジェスチャーの特徴情報がロードされると、予め設定された最適化した統合学習モデルと学習パラメーターを用いて認識結果を計算するS335。
統合認識部240により認識結果が計算されると、停止状態にある音声特徴抽出スレッド10とジェスチャー特徴抽出スレッド20は再び入力される音声と映像から特徴情報を抽出する作業をする。
以上で説明した本発明は、前述の実施例及び添付の図面により限定されるものではなく、本発明の技術的思想から外れない範囲内で様々な置換、変形及び変更が可能であるということは本発明が属する技術分野において通常の知識を有する当業者には自明である。
Claims (15)
- 入力された音声の中から命令語の始点と終点を検出し音声特徴情報を抽出する音声特徴抽出部と、
前記検出した始点と終点に関する情報を利用して撮影映像のジェスチャーから命令区間を検出し、ジェスチャー特徴情報を抽出するジェスチャー特徴抽出部と、
前記抽出した音声特徴情報とジェスチャー特徴情報を既設定の学習パラメーターを用いて統合認識データとして出力する統合認識部を含むことを特徴とするジェスチャー/音声統合認識システム。 - 前記検出した始点を利用し前記撮影映像からジェスチャーの始点を検出するジェスチャー始点検出モジュールと、
前記ジェスチャーの始点から予め設定された最適フレーム数を適用し、最適の映像フレームを計算して抽出する最適フレーム適用モジュールを含む同期化モジュールをさらに含むことを特徴とする請求項1に記載のジェスチャー/音声統合認識システム。 - 前記ジェスチャー始点検出モジュールは、
前記検出した音声の始点(EPD:End Point Detection)プラグを前記撮影映像でチェックしジェスチャーの始点を検出することを特徴とする請求項2に記載のジェスチャー/音声統合認識システム。 - 前記音声特徴抽出部は、
前記入力された音声の中から命令語の始点と終点を検出するイーピーディー(EPD:End Point Detection)検出モジュールと、
聴覚モデルに基づくアルゴリズムを利用し、前記検出した命令語から前記命令語に含まれた音声特徴情報を抽出する聴覚モデルに基づく音声特徴抽出モジュールを含んで成ることを特徴とする請求項第1項乃至第3項の何れか1項に記載のジェスチャー/音声統合認識システム。 - 前記音声特徴抽出部は、
前記抽出した音声特徴情報から雑音を除去することを特徴とする請求項4に記載のジェスチャー/音声統合認識システム。 - 前記ジェスチャー特徴抽出部は、
カメラで撮影された映像から手の動きを追跡し前記同期化モジュールに伝送する手追跡モジュールと、
前記同期化モジュールで抽出した最適の映像フレームを利用し、ジェスチャー特徴情報を抽出するジェスチャー特徴抽出モジュールを含んで成ることを特徴とする請求項3に記載のジェスチャー/音声統合認識システム。 - 前記統合認識部は、
予め設定された統合学習モデルと統合学習データベースに基づき学習パラメーターを生成する統合学習DB制御モジュールと、
前記抽出した音声特徴情報とジェスチャー特徴情報を前記生成された学習パラメーターを用いて制御する統合特徴制御モジュールと、
前記統合特徴制御モジュールにより制御される結果を認識結果として生成する統合認識モジュールを含んで成ることを特徴とする請求項1に記載のジェスチャー/音声統合認識システム。 - 前記統合学習モデルは、
Neural Network(NN)学習アルゴリズムに基づき生成されることを特徴とする請求項7に記載のジェスチャー/音声統合認識システム。 - 前記統合学習データベースは、
ステレオカメラと無線マイクを利用し様々な年齢層の音声とジェスチャーに対する特徴情報を統合し、統計的モデルに基づく統合認識アルゴリズムに適用可能な形態で構築されることを特徴とする請求項7に記載のジェスチャー/音声統合認識システム。 - 前記統合認識モジュールは
前記抽出した音声特徴情報とジェスチャー特徴情報を統合する統合レイヤーを含むことを特徴とする請求項7に記載のジェスチャー/音声統合認識システム。 - 前記統合特徴制御モジュールは、
入力されるベクトルのノード数の拡張及び縮小を通じて前記抽出された音声特徴情報とジェスチャー特徴情報の特徴ベクトルを制御することを特徴とする請求項7に記載のジェスチャー/音声統合認識システム。 - 入力された音声の中から命令語の始点(EPD値)と終点を検出し音声特徴情報を抽出する1段階と、
前記検出した命令語の始点を利用し、カメラにより入力された映像のジェスチャーから命令区間を検出し、ジェスチャー特徴情報を抽出する2段階と、
前記抽出した音声特徴情報とジェスチャー特徴情報を既設定の学習パラメーターを用いて統合認識データとして出力する3段階を含むことを特徴とするジェスチャー/音声統合認識方法。 - 前記1段階は、
前記命令語の始点と終点による命令語区間から聴覚モデルに基づき音声特徴情報を抽出することを特徴とする請求項12に記載のジェスチャー/音声統合認識方法。 - 前記2段階は、
前記カメラの入力映像から手のジェスチャーを追跡するA段階と、
前記伝送されたEPD値を利用して前記手のジェスチャーによる命令区間を検出するB段階と、
予め設定された最適フレームを適用し前記ジェスチャーによる命令区間から最適のフレームを決めるC段階と、
前記決められた最適のフレームからジェスチャー特徴情報を抽出するD段階を含んで成ることを特徴とする請求項12に記載のジェスチャー/音声統合認識方法。 - 前記1段階は
前記抽出した音声特徴情報から雑音を除去する段階をさらに含むことを特徴とする請求項12に記載のジェスチャー/音声統合認識方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20060121836 | 2006-12-04 | ||
KR1020070086575A KR100948600B1 (ko) | 2006-12-04 | 2007-08-28 | 제스처/음성 융합 인식 시스템 및 방법 |
PCT/KR2007/006189 WO2008069519A1 (en) | 2006-12-04 | 2007-12-03 | Gesture/speech integrated recognition system and method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010511958A true JP2010511958A (ja) | 2010-04-15 |
Family
ID=39806143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009540141A Pending JP2010511958A (ja) | 2006-12-04 | 2007-12-03 | ジェスチャー/音声統合認識システム及び方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2010511958A (ja) |
KR (1) | KR100948600B1 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011081541A (ja) * | 2009-10-06 | 2011-04-21 | Canon Inc | 入力装置及びその制御方法 |
WO2018061743A1 (ja) * | 2016-09-28 | 2018-04-05 | コニカミノルタ株式会社 | ウェアラブル端末 |
CN108248413A (zh) * | 2016-12-28 | 2018-07-06 | 广州市移电科技有限公司 | 设有充电桩的路灯 |
JP2018163400A (ja) * | 2017-03-24 | 2018-10-18 | 日本電信電話株式会社 | モデル学習装置、発話単語推定装置、モデル学習方法、発話単語推定方法、プログラム |
US11521038B2 (en) | 2018-07-19 | 2022-12-06 | Samsung Electronics Co., Ltd. | Electronic apparatus and control method thereof |
KR20230129964A (ko) * | 2016-11-03 | 2023-09-11 | 삼성전자주식회사 | 전자 장치, 그의 제어 방법 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101329100B1 (ko) * | 2008-12-08 | 2013-11-14 | 한국전자통신연구원 | 상황 인지 장치 및 이를 이용한 상황 인지 방법 |
US8600166B2 (en) * | 2009-11-06 | 2013-12-03 | Sony Corporation | Real time hand tracking, pose classification and interface control |
US20130033644A1 (en) * | 2011-08-05 | 2013-02-07 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for controlling thereof |
EP2555536A1 (en) | 2011-08-05 | 2013-02-06 | Samsung Electronics Co., Ltd. | Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same |
KR101971697B1 (ko) * | 2012-02-24 | 2019-04-23 | 삼성전자주식회사 | 사용자 디바이스에서 복합 생체인식 정보를 이용한 사용자 인증 방법 및 장치 |
KR102254484B1 (ko) * | 2014-05-08 | 2021-05-21 | 현대모비스 주식회사 | 제스처 하이브리드 인식 장치 및 방법 |
KR102265143B1 (ko) | 2014-05-16 | 2021-06-15 | 삼성전자주식회사 | 입력 처리 장치 및 방법 |
KR101650769B1 (ko) | 2015-05-28 | 2016-08-25 | 미디어젠(주) | 제스처 인식을 이용한 차량용 음성 인식시스템 |
US10986287B2 (en) | 2019-02-19 | 2021-04-20 | Samsung Electronics Co., Ltd. | Capturing a photo using a signature motion of a mobile device |
CN110287363A (zh) * | 2019-05-22 | 2019-09-27 | 深圳壹账通智能科技有限公司 | 基于深度学习的资源推送方法、装置、设备及存储介质 |
KR102322817B1 (ko) * | 2020-09-10 | 2021-11-08 | 한국항공대학교산학협력단 | 도플러 레이다 및 음성 센서를 이용한 cnn 기반의 hmi 시스템, hmi 시스템의 센서 데이터 처리 장치 및 그 동작 방법 |
KR102539047B1 (ko) * | 2021-06-04 | 2023-06-02 | 주식회사 피앤씨솔루션 | 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법 및 장치 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1173297A (ja) * | 1997-08-29 | 1999-03-16 | Hitachi Ltd | 音声とジェスチャによるマルチモーダル表現の時間的関係を用いた認識方法 |
JPH11288342A (ja) * | 1998-02-09 | 1999-10-19 | Toshiba Corp | マルチモーダル入出力装置のインタフェース装置及びその方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05108302A (ja) * | 1991-10-14 | 1993-04-30 | Nippon Telegr & Teleph Corp <Ntt> | 音声と指示動作を用いた情報入力方法 |
-
2007
- 2007-08-28 KR KR1020070086575A patent/KR100948600B1/ko active IP Right Grant
- 2007-12-03 JP JP2009540141A patent/JP2010511958A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1173297A (ja) * | 1997-08-29 | 1999-03-16 | Hitachi Ltd | 音声とジェスチャによるマルチモーダル表現の時間的関係を用いた認識方法 |
JPH11288342A (ja) * | 1998-02-09 | 1999-10-19 | Toshiba Corp | マルチモーダル入出力装置のインタフェース装置及びその方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011081541A (ja) * | 2009-10-06 | 2011-04-21 | Canon Inc | 入力装置及びその制御方法 |
WO2018061743A1 (ja) * | 2016-09-28 | 2018-04-05 | コニカミノルタ株式会社 | ウェアラブル端末 |
KR20230129964A (ko) * | 2016-11-03 | 2023-09-11 | 삼성전자주식회사 | 전자 장치, 그의 제어 방법 |
US11908465B2 (en) | 2016-11-03 | 2024-02-20 | Samsung Electronics Co., Ltd. | Electronic device and controlling method thereof |
KR102643027B1 (ko) | 2016-11-03 | 2024-03-05 | 삼성전자주식회사 | 전자 장치, 그의 제어 방법 |
CN108248413A (zh) * | 2016-12-28 | 2018-07-06 | 广州市移电科技有限公司 | 设有充电桩的路灯 |
JP2018163400A (ja) * | 2017-03-24 | 2018-10-18 | 日本電信電話株式会社 | モデル学習装置、発話単語推定装置、モデル学習方法、発話単語推定方法、プログラム |
US11521038B2 (en) | 2018-07-19 | 2022-12-06 | Samsung Electronics Co., Ltd. | Electronic apparatus and control method thereof |
Also Published As
Publication number | Publication date |
---|---|
KR20080050994A (ko) | 2008-06-10 |
KR100948600B1 (ko) | 2010-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2010511958A (ja) | ジェスチャー/音声統合認識システム及び方法 | |
WO2008069519A1 (en) | Gesture/speech integrated recognition system and method | |
WO2021036644A1 (zh) | 一种基于人工智能的语音驱动动画方法和装置 | |
CN107799126B (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
WO2021082941A1 (zh) | 视频人物识别方法、装置、存储介质与电子设备 | |
CN105843381B (zh) | 用于实现多模态交互的数据处理方法及多模态交互*** | |
US8793134B2 (en) | System and method for integrating gesture and sound for controlling device | |
KR101604593B1 (ko) | 이용자 명령에 기초하여 리프리젠테이션을 수정하기 위한 방법 | |
US20150325240A1 (en) | Method and system for speech input | |
WO2018113650A1 (zh) | 一种虚拟现实语言交互***与方法 | |
CN110310623A (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
Madhuri et al. | Vision-based sign language translation device | |
JP2012014394A (ja) | ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機 | |
KR20100062207A (ko) | 화상통화 중 애니메이션 효과 제공 방법 및 장치 | |
CN110309254A (zh) | 智能机器人与人机交互方法 | |
CN113129867B (zh) | 语音识别模型的训练方法、语音识别方法、装置和设备 | |
CN109241924A (zh) | 基于互联网的多平台信息交互*** | |
CN111326152A (zh) | 语音控制方法及装置 | |
CN106502382A (zh) | 用于智能机器人的主动交互方法和*** | |
Su et al. | Liplearner: Customizable silent speech interactions on mobile devices | |
CN115206306A (zh) | 语音交互方法、装置、设备及*** | |
Song et al. | A review of audio-visual fusion with machine learning | |
CN107452381B (zh) | 一种多媒体语音识别装置及方法 | |
CN111462732B (zh) | 语音识别方法和装置 | |
CN108388399B (zh) | 虚拟偶像的状态管理方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120313 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120831 |