JP5622744B2

JP5622744B2 - 音声認識装置

Info

Publication number: JP5622744B2
Application number: JP2011539182A
Authority: JP
Inventors: 一成大内; 敏之古賀; 山本　大介; 大介山本; 土井　美和子; 美和子土井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-11-06
Filing date: 2009-11-06
Publication date: 2014-11-12
Anticipated expiration: 2029-11-06
Also published as: US20120245932A1; JPWO2011055410A1; WO2011055410A1; CN102483918A; US8762145B2; CN102483918B

Description

本発明は、音声認識装置に関する。

話者が発した音声を検知し、その音声がした方向にマイクロフォンアレイの指向方向を設定する音声認識装置がある（特許文献１を参照）。

この音声認識装置は、入力音声の音圧と時間とが、所定の閾値を超えたか否かを判定することによって、音声の音源方向を推定し、マイクロフォンアレイの指向方向を設定する。そして、指向方向からの音声を強調し、音声認識を行う。

特開２００２―３６６１９１号公報

しかしながら、特許文献１の音声認識装置は、話者が発する音声以外の音（例えば、ドアの閉まる音等の雑音）を認識することがある。その結果、このような音の音源方向にマイクロフォンアレイの指向方向が設定されてしまい、音声認識を精度よく行えない場合がある。

本発明は、上記の課題に鑑みてなされたものであり、音声認識を精度よく行うことができる音声認識装置を提供することを目的とする。

本発明の一側面に係る音声認識装置は、複数のマイクロフォンを含む音声入力部に入力された音に、１０００Ｈｚ以上の周波数が所定の強度以上含まれるか否かを判定する判定部と、前記判定部による判定が真の場合に、１０００Ｈｚ以上の周波数を含む前記音の音源方向を推定する音源方向推定部と、推定された前記音源方向から到来した音が、あらかじめ登録された音声モデルと一致するか否かを判定する音声認識部とを備える。

本発明によれば、音声認識を精度よく行うことができる音声認識装置を提供することができる。

本発明の第１の実施の形態に係る音声認識装置のブロック図音声認識装置におけるマイクロフォンアレイの配置例を表す模式図音声認識装置の処理フローの一例を表すフローチャートを示す図入力される雑音、人の声、手を打ち鳴らす音の周波数分布の一例を示す模式図手のひらを打ち鳴らす音の、時間変化を表す図操作命令のデータベースの一例を表す図操作命令のデータベースの他の一例を表す図本発明の第１の実施の形態に係る音声認識装置の変形例１のブロック図本発明の第２の実施の形態に係る音声認識装置のブロック図音声認識装置の処理フローの一例を表すフローチャートを示す図手のひらを２度打ち鳴らす音の、時間変化の一例を表す図

以下、本発明の実施の形態について図面を参照して詳細に説明する。

本明細書において、同様の要素には同一の符号を付して詳細な説明は適宜省略する。

（第１の実施の形態）
第１の実施の形態に係る音声認識装置１０は、話者の動作により発生する音（以下「合図音」という）を検知することにより、音声入力部に含まれるマイクロフォンアレイの指向方向を合図音の音源方向に設定し、話者からの音声を認識し、テレビ受像機等の電子機器を制御する。合図音には、例えば、手のひらなどの複数の体の部位を打ち鳴らす音、指を弾く音、指や手などの体の部位で物を叩く音などが含まれる。本実施の形態では、手のひらを打ち鳴らす音を合図音として用いる。

図１は、第１の実施の形態に係る音声認識装置のブロック図である。本実施の形態に係る音声認識装置１０は、音声入力部５０と、記憶部１２と、判定部１３と、音源方向推定部１４と、指向性制御部１５と、音声認識部１６と、機器制御部１７と、表示部１８とを備える。

音声入力部５０は、１つ又は複数セットのマイクロフォンアレイを含む。

本実施の形態では、音声入力部５０は１つのマイクロフォンアレイ１１を含む。

音声入力部５０は、音声認識装置の外部の音や人の音声（ｖｏｉｃｅ）を入力し、音データとして記憶部１２に保存する。

記憶部１２は、音データの他に、後述する音声認識部１６が音声を認識するために必要な音声モデルを格納する。

判定部１３は、記憶部１２に保存されている音データの中に、後述する所定の条件を満たす音データが含まれているか否かを判定する。

音源方向推定部１４は、判定部１３による判定結果に応じて、その音データの音源方向（合図音のした方向）を推定する。

指向性制御部１５は、音源方向推定部１４が推定した音源方向に、マイクロフォンアレイ１１の指向方向を設定する。

指向性制御部１５は、マイクロフォンアレイ１１の指向方向の設定が完了した後、音声認識部１６へ認識開始命令を出力する。

音声認識部１６は、指向性制御部１５からの認識開始命令を受け付ける。

音声認識部１６は、指向性制御部１５により指向方向が設定されたマイクロフォンアレイ１１を用いて得た音データから、話者の音声を認識し、電子機器への操作命令を決定する。

機器制御部１７は、音声認識部１６が認識した音声に対応する命令を操作対象となる電子機器（図示せず）に与える。

表示部１８は、音声認識部１６が音声を受け付けている状態であることを話者に通知する。

音声認識装置１０は、例えば、操作対象となる電子機器に内蔵されるか、電子機器の外部に接続されうる。本実施の形態では、操作対象となる電子機器をテレビ受像機２０としているが、これに限られない。例えば、パーソナルコンピュータ、ビデオレコーダ、エアコン、車載機器等、使用中に話者からの操作を受け付けることにより性能を発揮する電子機器にも適用されうる。

判定部１３と、音源方向推定部１４と、指向性制御部１５と、音声認識部１６と、機器制御部１７とは、コンピュータ読み取り可能なメモリに格納されたプログラムを中央演算処理装置（ＣＰＵ）が実行することによって実現されうる。

記憶部１２は、音声認識装置１０の内部に備えられてもよいし、音声認識装置１０の外部に備えられていてもよい。

以下に、本実施の形態に係る音声認識装置１０の詳細を述べる。

図２は、音声認識装置１０におけるマイクロフォンアレイ１１の配置例を表す模式図である。

本実施の形態において、マイクロフォンアレイ１１は２つのマイクロフォン２１、２２を含んでいるが、３つ以上含んでいてもよい。

マイクロフォンアレイ１１は、例えば、テレビ受像機２０の筐体２９の上部に、筐体２９の上辺と平行に備えられ得る。

マイクロフォン２１、２２は、入力した音を電気信号に変換することができる。

マイクロフォン２１、２２は、話者がテレビ受像機２０を通常視聴する位置に指向方向を設定することができる。

図４は、マイクロフォン２１、２２に入力される雑音、人の音声、手を打ち鳴らす音の周波数分布の一例を示す模式図である。

図４における横軸は周波数（０Ｈｚから８０００Ｈｚまで）を表し、縦軸は音の強度を表している。図４より、雑音の強度は、０Ｈｚから８０００Ｈｚまでの周波数で、ほぼ一様な分布を示している。人の音声の強度は、０Ｈｚから１０００Ｈｚまでの周波数で、雑音よりも大きい値を示すが、２０００Ｈｚ以上の周波数では雑音と同様の分布を示している。

手を打ち鳴らす音の強度は、雑音と人の音声に比べ、周波数が１０００Ｈｚから８０００Ｈｚにかけて、大きい値を示している。

図５は、手のひらを打ち鳴らす音の、周波数が４０００Ｈｚの成分の時間変化を表す一例図である。横軸は時間を秒数単位で表し、縦軸は音の強度を表している。

本実施の形態において、音声認識装置１０は、このような、話者が手のひらを打ち鳴らす音を合図音として検出して、マイクロフォンアレイ１１の指向方向を設定する。

図３は、音声認識装置１０の処理フローの一例を表すフローチャートである。

処理フローは、マイクロフォンアレイ１１の指向方向の設定が解除されている状態から開始する。

音声認識装置１０は、マイクロフォン２１、２２を用いて、話者からの音や音声を受け付ける（Ｓ１０１）。

マイクロフォン２１、２２で電気信号に変換された音は、周波数ごとに整理された音データとして、それぞれ記憶部１２に一定時間保存される（Ｓ１０２）。

音データが保存される時間は、あらかじめ設定されてもよいし、話者が任意に設定してもよい。

記憶部１２には、図５における時間０（ｓ）からＴ（ｓ）までの音が保存される。図５では、時間０（ｓ）からＴ（ｓ）までの間に、強度が所定の閾値を超えるピークが存在している。

判定部１３は、マイクロフォンアレイ１１の指向方向が設定されているか否かを判定する（Ｓ１０３）。

ステップＳ１０３における判定部１３の判定がｎｏの場合、判定部１３は、記憶部１２に保存されている音データの中から、所定の周波数の音データを検索し、音データの強度が所定の閾値（以下、所定強度閾値）以上であるか否かを判定する。これによって、合図音が検知されたか否かを判定する（Ｓ１０４）。

所定強度閾値は、合図音に応じて、あらかじめ設定してもよいし、話者が任意に設定してもよい。

例えば、判定部１３は、図５に示したように、０（ｓ）からＴ（ｓ）までという一定時間の間に、周波数４０００Ｈｚの音データが、１度、所定強度閾値以上となったか否かを判定することができる。

図４から明らかなように、例えば、所定強度閾値を、雑音や人の音声の強度よりも大きく、手を打ち鳴らす音の強度よりも小さい値とすることにより、判定部１３は、合図音、たとえば雑音と手を打ち鳴らす音、あるいは、人の音声と手のひらを打ち鳴らす音を区別することができる。

判定部１３が合図音か否かの判定を行うために用いる周波数は、１つでもよいし、複数でもよい。

例えば、判定部１３は、４０００Ｈｚの周波数を用いて判定してもよいし、３０００Ｈｚと５０００Ｈｚ等、複数の周波数を用いて判定してもよい。複数の周波数を用いる場合は、判定に用いた全ての周波数の強度が、所定強度閾値以上であるか否かを判定する。

ステップＳ１０４における判定部１３の判定がｎｏの場合、判定部１３は、記憶部１２に新たな音データの保存開始信号を出力する。

ステップＳ１０１に戻り、記憶部１２は新たに音データを一時保存する。

ステップＳ１０４における判定部１３の判定がｙｅｓの場合、音源方向推定部１４は、記憶部１２に保存されている音データから、所定強度閾値を超えた音の音源方向を推定する（Ｓ１０５）。

音源方向の推定には、マイクロフォンアレイ１１（マイクロフォン２１、２２）に入力された音の到来時間差を計算する方法や、ビームフォーマー法等の周知の手法を用いることができる。

指向性制御部１５は、マイクロフォンアレイ１１に制御信号を出力し、音源方向推定部１４が推定した音源方向（合図音の方向）に、マイクロフォンアレイ１１の指向方向を設定する（Ｓ１０６）。

指向方向の設定により、マイクロフォンアレイ１１は、設定した方向からの音を強調して受け付ける。

マイクロフォンアレイ１１の指向性の設定には、遅延和アレイに代表される固定型や、Ｇｒｉｆｆｉｔｈ−Ｊｉｍ型アレイに代表される適応型等の方法を用いることができる。

指向性制御部１５は、マイクロフォンアレイ１１の指向方向の設定が完了した後、表示部１８に通知開始信号を出力する。

表示部１８は、指向性制御部１５からの通知開始信号を受け付け、音声認識部１６が音声の受け付けている状態であることを、話者に通知する。例えば、表示部１８をＬＥＤとして、ＬＥＤの点灯により、話者に通知してもよい。あるいは、ディスプレイに表示し、話者に通知してもよい。

指向性制御部１５は、マイクロフォンアレイ１１の指向方向を合図音の方向に設定が完了した後、記憶部１２に新たな音データの保存開始信号を出力する。

ステップＳ１０１に戻り、記憶部１２は、指向性制御部１５からの保存開始信号を受け付け、マイクロフォンアレイ１１に入力される音の保存を再度開始する。

Ｓ１０３における判定部１３の判定がｙｅｓの場合、判定部１３は、ステップＳ１０４と同様にして、合図音が検知されたか否かをさらに判定する（Ｓ１０７）。

Ｓ１０７における判定部１３の判定がｙｅｓの場合、ステップＳ１０５に遷移する。

Ｓ１０７における判定部１３の判定がｎｏの場合、音声認識部１６は、記憶部１２に保存されている音データを用いて、音声認識を行う（Ｓ１０８）。

音声認識部１６は、記憶部１２に保存されている音データと一致する音声モデルを抽出し、音声モデルに対応する操作命令を決定する（Ｓ１０９）。

図６は、記憶部１２が格納する操作命令のデータベースの一例図である。図７は、記憶部１２が格納する操作命令のデータベースの他の一例図である。データベースは、入力音声の音声モデルと、それに対応する操作命令とを含む。音声モデルは、日本語のみでなく、英語等、日本語以外の言語であってもよい。

例えば、「えぬえいちけー」という音声が入力された場合、音声認識部１６は、「えぬえいちけー」という音声に一致する音声モデルを記憶部１２から検索し、音声モデルに対応する「チャンネルを１にする」という電子機器本体への操作命令を決定する（図６）。例えば、「ｗｅａｔｈｅｒｒｅｐｏｒｔ」という、音声が入力された場合、音声認識部１６は、「ｗｅａｔｈｅｒｒｅｐｏｒｔ」という音声に一致する音声モデルを記憶部１２から検索し、音声モデルに対応する「今日の天気予報を表示」という、情報を提示させる操作命令を決定する（図７）。

図６、図７に示した音声モデルは、発音記号ではなく、単語で表記してある。

記憶部１２が格納する操作命令のデータベースにおいて、一つの操作命令には、複数の音声モデルを対応させてもよい。例えば、図６に示すように、「チャンネルを１にする」という操作命令に、「いっちゃん（ｃｈａｎｎｅｌｏｎｅ）」と「えぬえいちけい（ｎｈｋ）」とを対応させてもよい。

電子機器がテレビ受像機２０の場合、音声認識部１６が音声を受け付けている間、テレビ受像機２０のスピーカーからの出力音声をオフとする機能や、エコーキャンセル機能をテレビ受像機２０に設けることにより、音声認識部１６の認識の精度をより高めることができる。

音声認識部１６は、操作命令を決定したか否かを判定する（Ｓ１１０）。

Ｓ１１０における音声認識部１６の判定がｙｅｓの場合、音声認識部１６は、操作信号を機器制御部１７に出力する。

機器制御部１７は、音声認識部１６からの操作信号を受け付け、音声認識部１６が決定した操作命令を電子機器に与え、電子機器の制御を行う（Ｓ１１１）。

指向性制御部１５は、マイクロフォンアレイ１１に制御信号を出力し、マイクロフォンアレイ１１の指向方向の設定を解除する（Ｓ１１２）。

Ｓ１１０における音声認識部１６の判定がｎｏの場合、音声認識部１６は、記憶部１２に、新たな音データの保存開始信号を出力する。

ステップＳ１０１に戻り、記憶部１２は、マイクロフォンアレイ１１に入力される音の保存を再度開始する。

以上の処理により、音声認識を精度よく行うことができる音声認識装置を提供することができる。

本実施の形態では、音源方向の推定と、音声の認識とに、同じマイクロフォンアレイ１１を用いているが、これに限定されない。例えば、音源方向の推定にはマイクロフォンアレイ１１と独立した、２つ以上のマイクロフォンを用い、音声の認識にはマイクロフォンアレイ１１を用いてもよい。

本実施の形態では、合図音を判定部１３が判定した後、マイクロフォンアレイ１１の指向方向を設定し、話者からの音声を認識する音声認識装置について述べたが、本発明はこれに限定されない。

（変形例１）
例えば、話者が、合図音を発し、その後、一定時間内に音声を入力する例もあり得る。

図８は、本発明の第１の実施の形態に係る音声認識装置の変形例１のブロック図である。

指向性制御部１５は、抽出部１５０に置換される。抽出部１５０は、記憶部１２から音源方向推定部１４が推定した音源方向からの音データを強調して抽出する。

このような処理フロー（不図示）は以下のようになる。

合図音の音データと、電子機器を操作するために話者が発した音声（以下、操作音声）の音データとが、記憶部１２には一度に保存される。判定部１３は、合図音を判定する。音源方向推定部１４は、合図音の音源方向を推定する。抽出部１５０は、記憶部１２に保存されている音データから、音源方向推定部１４が推定した合図音の音源方向からの音データを強調して抽出する。例えば、抽出部１５０は、記憶部１２に保存されているマイクロフォン２１、２２の音データを、合図音の音源方向から計算される時間分だけ補正し、同相化することにより、合図音の音源方向からの音データを強調してもよい。音声認識部１６は音声の認識を行う。音声認識部１６は操作命令を決定する。機器制御部１７は、操作命令を電子機器に与え、電子機器の制御を行う。

これにより、マイクロフォンアレイ１１の指向方向を設定せずとも、実質的には指向方向を設定した場合とほぼ同等の音データを音声認識部１６に提供することができるので、音声認識部１６は、話者からの音声を精度よく認識することができる。したがって、この場合、マイクロフォン２１、２２は、無指向性のマイクロフォンであることが望ましい。

（変形例２）
変形例１の音声認識装置１０は、以下の形態とすることもできる。

例えば、先に話者からの操作音声を受け付け、その後、一定時間内に話者からの合図音を受け付ける例もあり得る。この場合、操作音声の音データと、合図音の音データとが、記憶部１２には一度に保存される。判定部１３は、合図音を判定する。音源方向推定部１４は、合図音の音源方向を推定する。抽出部１５０は、記憶部１２に保存されている音データから、合図音の音データの前に記憶された音データを検索し、音源方向推定部１４が推定した音源方向からの音データを強調して抽出する。音声認識部１６は音声の認識を行う。音声認識部１６は操作命令を決定する。機器制御部１７は、操作命令を電子機器に与え、電子機器の制御を行う。

これにより、話者が合図音を発した後に操作音声を発した場合だけでなく、操作音声を発した後に合図音を発した場合にも、音声認識装置は音声を認識することができ、操作性を向上させることができる。

（第２の実施の形態）
図９は、本発明の第２の実施の形態に係る音声認識装置のブロック図である。

図９に示したように、本実施の形態に係る音声認識装置１００は、第１の実施の形態に係る音声認識装置１０における判定部１３に代えて判定部１１３を備える点で、第１の実施形態と異なる。判定部１１３の説明については後述する。

音声認識装置１００は、人間が他者の注目を自らに向ける際に行う、「手のひらを２度打ち鳴らす」という慣習による音を合図音（以下、合図音１）として利用することにより、話者の存在する方向を推定し、該方向からの音声を強調させて認識する音声認識装置である。音声認識装置１００は、例えば、手のひらを３度打ち鳴らす音を合図２として利用することにより、一度設定したマイクロフォンアレイ１１の指向方向の設定を解除し、新たに音の受け付けを開始することができる。

音声認識装置１００では、判定部１１３の判定内容が音声認識装置１０と異なる。

図１０は、音声認識装置１００の処理フローの一例を表すフローチャートである。

以下に説明する処理フローにおいて、音声装置１０の処理フローと同様のステップについての説明は省略する。

図１０に示したように、音声認識装置１００の処理フローは、ステップＳ１０７とステップＳ１０８の間にステップＳ８００があること、および、ステップＳ１０４、ステップＳ１０７の処理内容が、音声認識装置１０の処理フローと異なる。

図１１は、手のひらを２度打ち鳴らす音の、時間変化の一例を表す図である。

図１１では、時間０（ｓ）からＴ（ｓ）までの間に、強度が所定の閾値を超えるピークが２つ存在している。

判定部１１３は、記憶部１２に保存されている音データの中から、１０００Ｈｚ以上の周波数の音データを検索し、音データの強度が、一定時間内に２度、所定強度閾値以上となったか否かを判定する（Ｓ１０４）。

例えば、判定部１１３は、図１１に示したように、０（ｓ）からＴ（ｓ）までという一定時間の間に、周波数４０００Ｈｚの音データが、２度、所定強度閾値以上となったか否かを判定する。

１０００Ｈｚ以上の周波数の音データの強度が、一定時間内に２度、所定強度閾値を超えたか否かを判定部１１３が判定することにより、判定部１１３は、合図音１があったと判定することができる。

ステップＳ１０７における処理も同様である。

以上の処理により、人間が他者の注目を自らに向ける際に行う、「手のひらを２度打ち鳴らす」という慣習による音を合図音として利用することによって、音声認識を精度よく行うことができる。ドアが閉まる音等の突発的に発生する雑音と、さらに精度よく区別することができる。

ステップＳ１０７における判定部１１３の判定がｎｏの場合、判定部１１３は、記憶部１２に保存されている音データの中から、１０００Ｈｚ以上の周波数の音データを検索し、音データの強度が、３度所定強度閾値以上となったか否かを判定する（Ｓ８００）。

１０００Ｈｚ以上の周波数の音データの強度が、一定時間内に３度、所定強度閾値を超えたか否かを判定部１１３が判定することにより、判定部１１３は、合図音２があったと判定することができる。

ステップＳ８００における判定部１１３の判定がｙｅｓの場合、ステップＳ１１２に遷移し、指向性制御部１５は、マイクロフォンアレイ１１に制御信号を出力し、マイクロフォンアレイ１１の指向方向の設定を解除する。

判定部１１３は、記憶部１２に新たな音データの保存開始信号を出力する。

ステップＳ８００における判定部１１３の判定がｎｏの場合はステップＳ１０８に遷移する。

以上の処理において、話者が手を打ち鳴らす回数を変えることにより、音声認識装置１００は、マイクロフォンアレイの指向方向を設定したり、設定を解除することができる。

合図音２とする手のひらを打ち鳴らす音は、２度以外であれば、３度でなくてもよい。

１０、１００音声認識装置
１１マイクロフォンアレイ
１２記憶部
１３、１１３判定部
１４音源方向推定部
１５指向性制御部
１６音声認識部
１７機器制御部
１８表示部
２０テレビ受像機
２１、２２マイクロフォン
２９筐体
５０音声入力部
１５０抽出部

Claims

複数のマイクロフォンを含む音声入力部に入力された音に、周波数が１０００Ｈｚ以上であり、強度が所定の閾値以上の合図音が含まれるか否かを判定する判定部と、
前記判定部による判定が真の場合に、強度が所定の閾値以上の周波数を含む前記音の音源方向を推定する音源方向推定部と、
推定された前記音源方向から到来した音が、あらかじめ登録された音声モデルと一致するか否かを判定する音声認識部と
を備え、
前記複数のマイクロフォンを含む音声入力部に入力された音は、話者の動作により発生した合図音が含まれることを特徴とする音声認識装置。
複数のマイクロフォンを含む音声入力部に入力された音に、周波数が１０００Ｈｚ以上であり、強度が所定の閾値以上の合図音が含まれるか否かを判定する判定部と、
前記判定部による判定が真の場合に、強度が所定の閾値以上の周波数を含む前記音の音源方向を推定する音源方向推定部と、
推定された前記音源方向に前記マイクロフォンの指向方向を設定する指向性制御部と、
設定された前記指向方向から到来した音声を認識する音声認識部と
を備え、
前記複数のマイクロフォンを含む音声入力部に入力された音は、話者の動作により派生した合図音が含まれることを特徴とする音声認識装置。
前記判定部は、
強度が所定の閾値以上の周波数を含む前記音が、所定の時間内に２度検出されたか否かをさらに判定することを特徴とする、請求項１または請求項２に記載の音声認識装置。
前記判定部は、前記周波数とは異なる周波数であり、かつ、強度が所定の閾値以上の合図音が含まれているか否かをさらに判定することを特徴とする請求項１または請求項２に記載の音声認識装置。