JP2010511958A

JP2010511958A - ジェスチャー／音声統合認識システム及び方法

Info

Publication number: JP2010511958A
Application number: JP2009540141A
Authority: JP
Inventors: ヨンジユジョン; ムンソンハン; ジェソンイ; ジュンソクパク
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2006-12-04
Filing date: 2007-12-03
Publication date: 2010-04-15
Also published as: KR20080050994A; KR100948600B1

Abstract

本発明はジェスチャー／音声統合認識システム及び方法に関し、雑音環境下における音声とジェスチャーの統合を通じて命令語の認識の性能を高めるために入力された音声の中から命令語の始点と終点を検出し音声特徴情報を抽出する音声特徴抽出部と、前記検出した始点と終点に関する情報を用いて撮影映像のジェスチャーから命令区間を検出し、ジェスチャー特徴情報を抽出するジェスチャー特徴抽出部と、前記抽出された音声特徴情報とジェスチャー特徴情報を既設定の学習パラメーターを用いて統合認識データとして出力する統合認識部を含んで構成され、簡単に、且つ正確にユーザーの命令を認識することができる。

Description

本発明は、統合認識技術に関し、特に、実際の雑音環境下でユーザーの命令を高性能で認識するために、音声のＥＰＤ値を利用しジェスチャーの特徴情報を抽出して音声の特徴情報と統合し、ユーザーの命令を認識することができるジェスチャー／音声統合認識システム及び方法に関する。

本発明は、情報通信部及び情報通信研究振興院のＩＴ新成長動力核心技術開発事業の一環として行った研究から導出されたものである［課題管理番号：２００６−Ｓ−０３１−０１、課題名：ネットワークに基づく実感型サービスのための五感情報処理技術の開発］。

最近、マルチメディア技術とインターフェイス技術の発達に伴い、人と機械のインターフェイスを容易く、且つ簡単に実現するために、顔の表情や方向、唇の形、凝視追跡、手のジェスチャ、音声等を利用しマルチモーダル（Ｍｕｌｔｉ−ｍｏｄａｌ）形態の認識研究が活発に行われている。

特に、現在のＭａｎ−Ｍａｃｈｉｎｅインターフェイス技術のうち、音声認識技術とジェスチャー認識技術が最も便利なインターフェイス技術として使用されている。但し、音声認識技術とジェスチャー認識技術は、制限された環境では高い認識率を示すが、実際の雑音環境下ではその性能を十分に発揮できないという問題がある。それは、音声認識は環境の雑音が性能に最も大きな影響を与えるからであり、カメラに基づくジェスチャー認識技術は照明の変化とジェスチャーの種類によって性能の差が多く発生する。従って、音声認識技術は、雑音に強いアルゴリズムを利用して認識することができる技術の開発が必要であり、ジェスチャー認識技術は認識情報を含むジェスチャーの特定区間を抽出することができる技術開発が必要となった。また、一般的なジェスチャーを使用する場合にはジェスチャーの特定区間が簡単に区分できないため、認識することに困難があった。

また、音声とジェスチャーを統合し認識する場合においては、音声フレームの処理速度は約１０ｍｓ／ｆｒａｍｅであり、映像フレームの処理速度は約６６.７ｍｓ／ｆｒａｍｅであるため、各フレームを処理する処理速度に差がある上、一般的にジェスチャー区間が音声区間と比べて、より多くの時間がかかるため、発生する音声区間の長さとジェスチャー区間の長さに差が発生し、音声とジェスチャーを同期化するのに問題が生じる。

従って、上記のような問題を解決するために、環境雑音に強いアルゴリズムを用い、ユーザーの音声から命令語区間を探索して特徴情報を抽出し、また音声の命令語の始点に関する情報を用いてジェスチャーの特徴区間を検出し、明確に区分されないジェスチャーも簡単に命令を認識することができる手段が必要となった。

また、音声とジェスチャーの統合認識において発生する同期の差に関する問題を、音声ＥＰＤ値により検出されたジェスチャーの命令区間で予め設定された最適フレームを適用し、同期を一致させる手段が必要となった。

上記のような問題を解決するための本発明のジェスチャー／音声統合認識システムは、入力された音声の中から命令語の始点と終点を検出し音声特徴情報を抽出する音声特徴抽出部と、前記検出した始点と終点に関する情報を利用して撮影映像のジェスチャーから命令区間を検出しジェスチャー特徴情報を抽出するジェスチャー特徴抽出部と、前記抽出した音声特徴情報とジェスチャー特徴情報を既設定の学習パラメーターを用いて統合認識データとして出力する統合認識部を含んで成ることを特徴とする。

一方、前記ジェスチャー／音声統合認識システムは、前記検出した始点を利用し前記撮影映像からジェスチャーの始点を検出するジェスチャー始点検出モジュールと、前記ジェスチャーの始点から予め設定された最適フレーム数を適用し最適の映像フレームを計算して抽出する最適フレーム適用モジュールを含む同期化モジュールをさらに含むことを特徴とする。このとき、前記ジェスチャー始点検出モジュールは、前記検出した音声の始点（ＥＰＤ：ＥｎｄＰｏｉｎｔＤｅｔｅｃｔｉｏｎ）プラグを前記撮影映像でチェックしジェスチャーの始点を検出することを特徴とする。

また、前記音声特徴抽出部は、前記入力された音声の中から命令語の始点と終点を検出するイーピーディー（ＥＰＤ：ＥｎｄＰｏｉｎｔＤｅｔｅｃｔｉｏｎ）検出モジュールと、聴覚モデルに基づくアルゴリズムを利用し、前記検出した命令語から前記命令語に含まれた音声特徴情報を抽出する聴覚モデルに基づく音声特徴抽出モジュールを含んで成り、さらに、前記抽出した音声特徴情報から雑音を除去することを特徴とする。

また、前記ジェスチャー特徴抽出モジュールは、カメラで撮影された映像から手の動きを追跡し前記同期化モジュールに伝送する手追跡モジュールと、前記同期化モジュールで抽出した最適の映像フレームを利用し、ジェスチャー特徴情報を抽出するジェスチャー特徴抽出モジュールを含んで成ることを特徴とする。

また、前記統合認識部は、予め設定された統合学習モデルと統合学習データベースに基づき学習パラメーターを生成する統合学習ＤＢ制御モジュールと、前記抽出した音声特徴情報とジェスチャー特徴情報を前記生成された学習パラメーターを利用し制御する統合特徴制御モジュールと、前記統合特徴制御モジュールにより制御される結果を認識結果として生成する統合認識モジュールを含んで成ることを特徴とし、このとき、前記統合特徴制御モジュールは、入力されるベクトルのノード数の拡張と縮小を通じて前記抽出した音声特徴情報とジェスチャー特徴情報の特徴ベクトルを制御することを特徴とする。

上記のような目的を達成するため、本発明のジェスチャー／音声統合認識方法は、入力された音声の中から命令語の始点（ＥＰＤ値）と終点を検出し音声特徴情報を抽出する１段階と、前記検出した命令語の始点を利用し、カメラにより入力された映像のジェスチャーから命令区間を検出し、ジェスチャー特徴情報を抽出する２段階及び前記抽出した音声特徴情報とジェスチャー特徴情報を既設定の学習パラメーターを利用し統合認識データとして出力する３段階を含んで成ることを特徴とする。

このとき、前記１段階は、前記命令語の始点と終点による命令語区間から聴覚モデルに基づき音声特徴情報を抽出することを特徴とする。

また、前記２段階は、前記カメラの入力映像から手のジェスチャーを追跡するＡ段階と、前記伝送されたＥＰＤ値を利用して前記手のジェスチャーによる命令区間を検出するＢ段階と、予め設定された最適のフレームを適用し前記ジェスチャーによる命令区間から最適のフレームを決めるＣ段階と、前記決められた最適のフレームからジェスチャー特徴情報を抽出するＤ段階を含んで成ることを特徴とする。

前述のように本発明によるジェスチャー／音声統合認識システム及び方法は、音声の命令語区間の始点であるＥＰＤ値を利用してジェスチャーの命令語区間を検出し、明確に区分できないジェスチャーの場合にも認識率を高めることができ、また、ジェスチャーの命令語区間に対して最適のフレームを適用し音声とジェスチャーの同期化を通じ、音声とジェスチャーによる統合認識を実現することができる効果がある。

本発明によるジェスチャー／音声統合認識システムの概念を示す図面である。本発明によるジェスチャー／音声統合認識システムの構成を示す図面である。本発明によるジェスチャー／音声統合認識方法を示す流れ図である。

以下、添付の図面を参照し本発明が属する技術分野において通常の知識を有する者が本発明を容易に実施することができる好ましい実施例を詳細に説明する。但し、本発明の好ましい実施例に対する動作原理を詳細に説明することにおいて、関る公知の機能または構成に対する具体的な説明が本発明の要旨を不必要に不明確にすることがあると判断される場合はその詳細な説明を省略する。

図１は本発明によるジェスチャー／音声統合認識システムの概念を示す図面である。

図１を参照すると、ジェスチャー／音声統合認識技術は、人の音声とジェスチャーによる命令を統合して認識し、その認識結果によって発生する制御命令を利用し五感を表現するデバイスを制御する。

具体的に、人１００は、音声１１０とジェスチャー１２０により命令をする。ここで、人のする命令に対して、例を挙げ説明すると、人がサイバー空間で物を購買する場合にディスプレイされている物から、特定のパンを選ぶという命令として“とうもろこし食パン”といいながらとうもろこし食パンを指差す行為をすることができる。

人１００が音声１１０とジェスチャー１２０により命令をすると、人の音声命令に関する特徴情報は音声認識１１１を通じて認識し、人のジェスチャーによる特徴情報はジェスチャー認識１２１を通じて認識する。このように認識された音声とジェスチャーの認識情報は、環境雑音に弱い音声と明確に区分できないジェスチャーに対する認識率を高めるために音声とジェスチャーによる特徴情報を統合認識１３０により、１つのユーザー命令として認識する。

本発明はこのように人の音声とジェスチャーに対する統合認識に関する技術である。このように認識された命令は制御部により個別的な感覚に対する出力装置であるスピーカー１７０、ディスプレイ装置１７１、発香器１７２、触覚装置１７３、味覚装置１７４に伝達され、夫々の装置を制御する。また、認識結果をネットワークに伝送し、その結果に対する五感データを伝達し、夫々の出力装置を制御することもできる。但し、本願発明は統合認識に関するもので、認識以後の構成は多様に適用できるため、それに対する説明は省略する。

図２は本発明によるジェスチャー／音声統合認識システムの構成を示す図面である。

図２を参照すると、ジェスチャー／音声統合認識システムは、マイク２１１により入力された音声の中から命令語の始点と終点を検出し音声特徴情報を抽出する音声特徴抽出部２１０と、音声特徴抽出部２１０により検出した始点と終点に関する情報を利用し、カメラにより撮影された映像のジェスチャーから命令区間を検出し、ジェスチャー特徴情報を抽出するジェスチャー特徴抽出部２２０と、音声特徴抽出部２１０により検出した始点を利用し撮影映像からジェスチャーの始点を検出し、このように検出したジェスチャーの始点から予め設定された最適フレーム数を適用し、最適の映像フレームを計算する同期化モジュール２３０と、このように抽出した音声特徴情報とジェスチャー特徴情報を既設定の学習パラメーターを利用し統合認識データとして出力する統合認識部２４０を含んで成ることを特徴とする。以下、夫々の構成要素に対して具体的に説明する。

音声特徴抽出部２１０は、ユーザーが音声を入力するマイク２１１と、ユーザーの音声の中から命令語区間の始点と終点を検出するＥＰＤ（ＥｎｄＰｏｉｎｔＤｅｔｅｃｔｉｏｎ）検出モジュール２１２、ＥＰＤ検出モジュール２１２により検出した音声の命令語区間に対して聴覚モデルに基づき音声特徴情報を抽出する聴覚モデルに基づく音声特徴抽出モジュール２１３から成る。また、抽出した音声特徴情報に含まれた雑音を除去するチャンネル雑音除去モジュールを含むことができる（不図示）。

ＥＰＤ検出モジュール２１２は、有無線マイクにより入力された音声を分析し命令語の始点と終点を検出する。

具体的に、ＥＰＤ検出モジュール２１２は、音声信号を獲得し、音声信号の終点の検出に必要なエネルギー値を計算し、入力された音声信号の中から命令語として計算すべき区間を判別し命令語の始点と終点を検出する。

ＥＰＤ検出モジュール２１２は、先ずマイクから音声信号を獲得し、獲得した音声をフレーム計算のための形態に変換する。この過程で無線により音声が入力される場合は、データの損失や信号干渉による信号の歪みのような問題が発生し得るため、信号獲得時にこれに対する処理過程が必要である。

ＥＰＤ検出モジュール２１２において、音声信号の終点の検出に必要なエネルギー値の計算は、例えば、下記のように求める。音声信号を分析するためのフレームのサイズは１６０ｓａｍｐｌｅを基準とし、フレームエネルギーは下記の式により計算される。

Ｓ（ｎ）：声帯信号サンプル、Ｎ：１フレームのサンプル数

こうして求められたフレームエネルギーは、以後行われる終点の検出のためのパラメーターとして用いられる。

ＥＰＤ検出モジュール２１２は、フレームエネルギー値を計算してからは命令語として実際計算すべき区間を判別する。例えば、音声信号の始点と終点を計算する過程は、フレームエネルギーを利用した４個のエネルギー臨界値（ｔｈｒｅｓｈｏｌｄ）と１０個の条件により決まる。ここで、４つのエネルギー臨界値と１０個の条件は多様に設定が可能であり、好ましくは、実験により命令語区間を求めるための最も適当なものを選択する。４つの臨界値は終点検出アルゴリズムによりフレーム毎に始点と終点を判別する。

ＥＰＤ検出モジュール２１２は、こうして検出した命令語の始点（以下、“ＥＰＤ値”とする。）に対する情報を同期化モジュール２３０のジェスチャー始点検出モジュール２３１に伝達する。

また、ＥＰＤ検出モジュール２１２は、入力された音声の中から命令語区間に対する情報を聴覚モデルに基づく音声特徴抽出モジュール２１３に伝送し音声特徴情報を抽出する。

音声の命令語区間に対する情報を受信した聴覚モデルに基づく音声特徴抽出モジュール２１３は、ＥＰＤ検出モジュール２１２により検出した命令語区間から聴覚モデルに基づき特徴情報を抽出する。聴覚モデルに基づき音声特徴情報を抽出するために用いられるアルゴリズムには、ＥＩＨアルゴリズムとＺＣＰＡアルゴリズム等がある。

聴覚モデルに基づく音声特徴抽出モジュール２１３により抽出された音声特徴情報は、チャンネル雑音除去モジュール（不図示）により雑音を除去し統合認識部２４０に伝達される。

ジェスチャー特徴抽出部２２０は、カメラ２２１により撮影された映像から顔と手を検出する顔及び手検出モジュール２２２と、検出した手の動きを追跡して同期化モジュール２３０に伝達し、同期化モジュール２３０により計算された最適のフレームを利用しジェスチャーの特徴情報を抽出するジェスチャー特徴抽出モジュール２２４から成る。

顔及び手検出モジュール２２２は、映像からジェスチャーの対象となる顔及び手を検出し、手追跡モジュール２２３は映像における手の動きを続けて追跡する。但し、手追跡モジュール２２３は手に限定し説明したが、当業者によりジェスチャーとして認識され得る様々な体の一部を追跡することが出来る。

手追跡モジュール２２３により時間が進むに従って手の動きを続けて保存し、手の動きからジェスチャー命令として認識できる部分は、同期化モジュール２３０により音声特徴抽出部２１０から伝達されたＥＰＤ値を利用して検出される。以下、ＥＰＤ値を利用して手の動きの中からジェスチャー命令として認識される区間を検出し、音声とジェスチャーの同期化のために、最適フレームを適用する同期化モジュール２３０に対して説明する。

同期化モジュール２３０は、ＥＰＤ値と手の動きに対する映像を利用しジェスチャーの始点を検出するジェスチャー始点検出モジュール２３１と、検出したジェスチャー始点により計算されたジェスチャーの始点フレームを利用し統合認識に必要な最適の映像フレームを計算する最適フレーム適用モジュール２３２を含んで成る。

ジェスチャー始点検出モジュール２３１は、リアルタイムで音声信号と映像信号が入力される中、ＥＰＤ検出モジュール２１２により音声のＥＰＤ値が検出されると、同期化モジュール２３０は映像信号から音声ＥＰＤプラグをチェックする。このような方法によりジェスチャー始点検出モジュール２３１はジェスチャーの始点フレームを計算する。また、計算されたジェスチャーの始点フレームを利用し、最適フレーム適用モジュール２３２は統合認識に必要な最適の映像フレームを計算してジェスチャー特徴抽出モジュール２２４に伝達する。最適フレーム適用モジュール２３２により適用される統合認識に必要な最適の映像フレームは、ジェスチャーの認識率が最も高いと判断されるフレーム数を予め設定し、ジェスチャー始点検出モジュール２３１によりジェスチャーの始点フレームが計算されると、最適の映像フレームを決める。

統合認識部２４０は、学習モデルに基づき音声特徴情報とジェスチャー特徴情報を効率的に統合するための統合モデルを生成する統合モデル生成モジュール２４２と、統計的モデルに基づく統合認識アルゴリズムの開発に適合した形態で構築された統合学習ＤＢ２４４と、統合モデル生成モジュール２４２と統合学習ＤＢ２４４による学習及び学習パラメーターを制御する統合学習ＤＢ制御モジュール２４３と、学習パラメーターと入力された音声特徴情報とジェスチャー特徴情報の特徴ベクトルを制御する統合特徴制御モジュール２４１と、認識結果を生成し様々な機能を提供する統合認識モデル２４５から成る。

統合モデル生成モジュール２４２は、音声特徴情報とジェスチャー特徴情報を効率的に統合するために、高性能の統合モデルを生成する。高性能の統合モデルを決めるため、既存に用いられた多様な学習アルゴリズム（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ（ＨＭＭ）、ＮｅｕｒａｌＮｅｔｗｏｒｋ（ＮＮ）、ＤｙｎａｍｉｃＴｉｍｅＷａｐｐｉｎｇ（ＤＴＷ）等）を具現し実験により決めることができる。特に、本願発明は、ＮＮに基づき統合モデルを決め、統合認識に高性能を発揮することができるＮＮパラメーターを最適化する方法を用いることができる。但し、高性能の統合モデルを生成するにおいて最も大きな問題の１つは、フレーム数が異なる２つのモダリティを学習モデル内でどう同期化するのかという問題である。

学習モデル内における同期化の問題は、学習モデルの最適化の問題と同一である。本発明は統合レイヤーを備え、前記統合レイヤー内で音声とジェスチャーの連結方法を最適化する。最適化するために、時間軸を基準に音声とジェスチャーが重畳長さを計算してから、これに基づき同期化する。このような重畳長さは認識率の実験を通じて最も高い認識率を示す連結方法を探す。

統合学習ＤＢ２４４は、統計的モデルに基づく統合認識アルゴリズムの開発に適合する形態で統合認識データベースを構築する。

例えば、１０個の単語を対象にステレオカメラと無線マイクを利用し様々な年齢層のデータを同期化させて収集する。表１はジェスチャーと音声の統合のために定義された命令語群である。定義された命令語群は、一般的に人が多くの学習をしなくても理解できる自然なジェスチャーを対象とした。

このとき、音声のサンプリングの割合は、１６ｋＨｚに１６ｂｉｔｓを使用し、チャンネル数１（ｍｏｎｏ）のＰｕｌｓｅＣｏｄｅｄＭｏｄｕｌａｔｉｏｎ（ＰＣＭ）方式のＷａｖｅｆｏｒｍを利用して録音する。映像は、ＳＴＨ−ＤＣＳＧ−Ｃステレオカメラを利用し、１秒当り１５ｆｒａｍｅ、３２０ｘ２４０サイズの２４ｂｉｔｓＢＩＴＭＡＰイメージをブルースクリーン背景と４つの蛍光灯ボックスが設けられた照明下で録画した。ステレオカメラでは音声インターフェイスが存在しないため、音声収集モジュールと映像収集モジュールを独立して作成し、音声録音プログラムでＩＰＣ（Ｉｎｔｅｒ−ＰｒｏｃｅｓｓＣｏｍｍｕｎｉｃａｔｉｏｎｓ）を通じて映像収集プロセスを制御する方法により映像と音声の同期化プログラムを作成しデータを収集した。映像収集モジュールは、ＯｐｅｎＣＶ（ＣｏｍｐｕｔｅｒＶｉｓｏｎ）ライブラリーとＳＶＳ（ＳｍａｌｌＶｉｓｉｏｎＳｙｓｔｅｍ）を利用して構成した。

ステレオカメラの映像は、別途のキャリブレーション過程を経て実際の録音環境に適用させなければならず、最適の映像を獲得するために、関わるｇａｉｎ、ｅｘｐｏｓｕｒｅ、ｂｒｉｇｈｔｎｅｓｓ、ｒｅｄ、ｂｌｕｅパラメーター値を修正して色感、露出及びＷＢ値を調整した。キャリブレーション情報及びパラメーター情報は別途のｉｎｉファイルで保存し映像保存モジュールで呼び出し参照するようにした。

統合学習ＤＢ制御モジュール２４３は、統合モデル生成モジュール２４２と連携し予め生成され保存された統合学習ＤＢ２４４に基づき学習パラメーターを生成する。

統合特徴制御モジュール２４１は、統合学習ＤＢ制御モジュール２４３により生成された学習パラメーターと、音声特徴抽出部２１０と、ジェスチャー特徴抽出部２２０により抽出された音声と、ジェスチャーの特徴情報の特徴ベクトルを制御する。このような制御は入力ベクトルのノード数の拡張及び縮小に関わる。統合特徴制御モジュール２４１は、統合レイヤーを有することを特徴とし、このような統合レイヤーは夫々異なるサイズの音声とジェスチャーの長さを効率的に統合し単一認識率を提示するよう開発される。

統合認識モジュール２４５は、統合特徴制御モジュール２４１による制御結果を用いて認識結果を生成する。また、統合表現器、或いはネットワーク等と相互作用するための様々な機能を提供する。

図３は、本発明によるジェスチャー／音声統合認識方法を示す流れ図である。

図３を参照すると、ジェスチャー／音声統合認識方法は、３つのスレッドで構成され動作する。３つのスレッドは、音声の特徴を抽出する音声特徴抽出スレッド１０と、ジェスチャーの特徴を抽出するジェスチャー特徴抽出スレッド２０と、音声とジェスチャーの統合認識を行う統合認識スレッド３０から成る。３つのスレッド１０、２０、３０は、学習パラメーターをロードする時点に生成し、スレッドプラグを利用して有機的に動作する。以下、３つのスレッド１０、２０、３０の有機的な動作を通じたジェスチャー／音声統合認識方法を説明する。

ユーザーが音声とジェスチャーを利用して命令をする場合、音声特徴抽出スレッド１０は有無線マイクを利用し音声を受信し続けるＳ３１１。また、ジェスチャー特徴抽出スレッド２０はカメラを利用してジェスチャーを含む映像を続けて受信するＳ３２０。マイクを利用し続けて入力される音声の音声フレームを計算しながらＳ３１２、ＥＰＤ検出モジュール２１２は音声に含まれた命令語の始点と終点（音声ＥＰＤ値）を検出するＳ３１３。音声ＥＰＤ値が検出されると、音声ＥＰＤ値をジェスチャー特徴抽出スレッドの同期化段階４０に伝達する。また、音声に含まれた命令語の始点と終点により音声の命令語区間が決まると、聴覚モデルに基づく音声特徴抽出モジュール２１３は聴覚モデルに基づき命令語区間から音声特徴を抽出しＳ３１４、統合認識スレッド３０に伝達する。

ジェスチャー特徴抽出スレッド２０は、カメラを通じて続けて入力される映像から手及び顔を検出するＳ３２１。こうして手と顔が検出されると、ユーザーのジェスチャーを追跡するＳ３２２。ユーザーのジェスチャーは変わり続けるため、一定の長さのジェスチャーをバッファに保存するＳ３２３。

ジェスチャーをバッファに保存する過程で、音声ＥＰＤ値が検出され伝達されると、バッファに保存されているジェスチャー映像における音声ＥＰＤプラグをチェックするＳ３２４。音声ＥＰＤプラグにより映像の特徴情報を含むジェスチャーの始点と終点を検索しＳ３２５、このように検索されたジェスチャー特徴を保存するＳ３２６。こうして保存されたジェスチャー特徴は音声と同期が異なるため、予め設定された最適フレームを適用しジェスチャーの始点フレームから最適フレームを計算する。また、計算された最適フレームはジェスチャー特徴抽出モジュール２２４を利用しジェスチャー特徴情報を抽出し統合認識スレッドに伝達する。

音声特徴抽出スレッド１０とジェスチャー特徴抽出スレッド２０で成功的に音声とジェスチャーの特徴情報が抽出されると、統合認識スレッド３０で認識結果を確認する間、音声／ジェスチャー特徴抽出スレッド１０、２０は停止（Ｓｌｅｅｐ）状態となるＳ３２８、Ｓ３１５。

統合認識スレッド３０は、音声特徴情報とジェスチャー特徴情報の伝達を受ける前に、予め統合モデル生成モジュール２４２により高性能の統合モデルを生成し、こうして生成された統合モデルと統合学習ＤＢ２４４を制御し、統合学習ＤＢ制御モジュール２４３は学習パラメーターを生成してロードするＳ３３１。こうして学習パラメーターがロードされると、統合認識スレッド３０は音声／ジェスチャー特徴情報が伝達される前まで停止状態で維持されるＳ３３２。

このように停止状態にある統合認識スレッド３０は、音声とジェスチャーの特徴情報の抽出が完了しＳ３３３、特徴情報に関する信号を受信すると、夫々の特徴をメモリにロードするＳ３３４。音声とジェスチャーの特徴情報がロードされると、予め設定された最適化した統合学習モデルと学習パラメーターを用いて認識結果を計算するＳ３３５。

統合認識部２４０により認識結果が計算されると、停止状態にある音声特徴抽出スレッド１０とジェスチャー特徴抽出スレッド２０は再び入力される音声と映像から特徴情報を抽出する作業をする。

以上で説明した本発明は、前述の実施例及び添付の図面により限定されるものではなく、本発明の技術的思想から外れない範囲内で様々な置換、変形及び変更が可能であるということは本発明が属する技術分野において通常の知識を有する当業者には自明である。

Claims

入力された音声の中から命令語の始点と終点を検出し音声特徴情報を抽出する音声特徴抽出部と、
前記検出した始点と終点に関する情報を利用して撮影映像のジェスチャーから命令区間を検出し、ジェスチャー特徴情報を抽出するジェスチャー特徴抽出部と、
前記抽出した音声特徴情報とジェスチャー特徴情報を既設定の学習パラメーターを用いて統合認識データとして出力する統合認識部を含むことを特徴とするジェスチャー／音声統合認識システム。
前記検出した始点を利用し前記撮影映像からジェスチャーの始点を検出するジェスチャー始点検出モジュールと、
前記ジェスチャーの始点から予め設定された最適フレーム数を適用し、最適の映像フレームを計算して抽出する最適フレーム適用モジュールを含む同期化モジュールをさらに含むことを特徴とする請求項１に記載のジェスチャー／音声統合認識システム。
前記ジェスチャー始点検出モジュールは、
前記検出した音声の始点（ＥＰＤ：ＥｎｄＰｏｉｎｔＤｅｔｅｃｔｉｏｎ）プラグを前記撮影映像でチェックしジェスチャーの始点を検出することを特徴とする請求項２に記載のジェスチャー／音声統合認識システム。
前記音声特徴抽出部は、
前記入力された音声の中から命令語の始点と終点を検出するイーピーディー（ＥＰＤ：ＥｎｄＰｏｉｎｔＤｅｔｅｃｔｉｏｎ）検出モジュールと、
聴覚モデルに基づくアルゴリズムを利用し、前記検出した命令語から前記命令語に含まれた音声特徴情報を抽出する聴覚モデルに基づく音声特徴抽出モジュールを含んで成ることを特徴とする請求項第１項乃至第３項の何れか１項に記載のジェスチャー／音声統合認識システム。
前記音声特徴抽出部は、
前記抽出した音声特徴情報から雑音を除去することを特徴とする請求項４に記載のジェスチャー／音声統合認識システム。
前記ジェスチャー特徴抽出部は、
カメラで撮影された映像から手の動きを追跡し前記同期化モジュールに伝送する手追跡モジュールと、
前記同期化モジュールで抽出した最適の映像フレームを利用し、ジェスチャー特徴情報を抽出するジェスチャー特徴抽出モジュールを含んで成ることを特徴とする請求項３に記載のジェスチャー／音声統合認識システム。
前記統合認識部は、
予め設定された統合学習モデルと統合学習データベースに基づき学習パラメーターを生成する統合学習ＤＢ制御モジュールと、
前記抽出した音声特徴情報とジェスチャー特徴情報を前記生成された学習パラメーターを用いて制御する統合特徴制御モジュールと、
前記統合特徴制御モジュールにより制御される結果を認識結果として生成する統合認識モジュールを含んで成ることを特徴とする請求項１に記載のジェスチャー／音声統合認識システム。
前記統合学習モデルは、
ＮｅｕｒａｌＮｅｔｗｏｒｋ（ＮＮ）学習アルゴリズムに基づき生成されることを特徴とする請求項７に記載のジェスチャー／音声統合認識システム。
前記統合学習データベースは、
ステレオカメラと無線マイクを利用し様々な年齢層の音声とジェスチャーに対する特徴情報を統合し、統計的モデルに基づく統合認識アルゴリズムに適用可能な形態で構築されることを特徴とする請求項７に記載のジェスチャー／音声統合認識システム。
前記統合認識モジュールは
前記抽出した音声特徴情報とジェスチャー特徴情報を統合する統合レイヤーを含むことを特徴とする請求項７に記載のジェスチャー／音声統合認識システム。
前記統合特徴制御モジュールは、
入力されるベクトルのノード数の拡張及び縮小を通じて前記抽出された音声特徴情報とジェスチャー特徴情報の特徴ベクトルを制御することを特徴とする請求項７に記載のジェスチャー／音声統合認識システム。
入力された音声の中から命令語の始点（ＥＰＤ値）と終点を検出し音声特徴情報を抽出する１段階と、
前記検出した命令語の始点を利用し、カメラにより入力された映像のジェスチャーから命令区間を検出し、ジェスチャー特徴情報を抽出する２段階と、
前記抽出した音声特徴情報とジェスチャー特徴情報を既設定の学習パラメーターを用いて統合認識データとして出力する３段階を含むことを特徴とするジェスチャー／音声統合認識方法。
前記１段階は、
前記命令語の始点と終点による命令語区間から聴覚モデルに基づき音声特徴情報を抽出することを特徴とする請求項１２に記載のジェスチャー／音声統合認識方法。
前記２段階は、
前記カメラの入力映像から手のジェスチャーを追跡するＡ段階と、
前記伝送されたＥＰＤ値を利用して前記手のジェスチャーによる命令区間を検出するＢ段階と、
予め設定された最適フレームを適用し前記ジェスチャーによる命令区間から最適のフレームを決めるＣ段階と、
前記決められた最適のフレームからジェスチャー特徴情報を抽出するＤ段階を含んで成ることを特徴とする請求項１２に記載のジェスチャー／音声統合認識方法。
前記１段階は
前記抽出した音声特徴情報から雑音を除去する段階をさらに含むことを特徴とする請求項１２に記載のジェスチャー／音声統合認識方法。