JP2006337659A

JP2006337659A - 音声入力装置および音声認識装置

Info

Publication number: JP2006337659A
Application number: JP2005161439A
Authority: JP
Inventors: Masaru Yamazaki; 勝山崎
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2005-06-01
Filing date: 2005-06-01
Publication date: 2006-12-14

Abstract

【課題】発話者が意図した音声のみを入力して正しく認識する。
【解決手段】人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイクロフォン１の接触または非接触の状態を接触検出センサー２により検出し、接触状態が検出されたときに、接触型マイク１からの音声信号の入力を開始する。
【選択図】図１

Description

本発明は、発話音声を入力する音声入力装置と、入力した発話内容を認識する音声認識装置に関する。

カメラによる撮像画像を処理して、左手人差し指などの発話者の所定の部位が、ナビゲーション装置などの予め設定した基準部位に移動したことを検出し、音声入力などの音声認識に関する動作を開始するようにした音声入力装置および音声認識装置が知られている（例えば、特許文献１参照）。この装置では、発話者の所定の動きを検出して発話音声の入力と認識を行うことによって、特別なボタンスイッチを設けて発話のたびに操作する必要がなく、発話者が意図した音声のみを入力し、認識することができるとしている。

この出願の発明に関連する先行技術文献としては次のものがある。
特開２０００−３３８９９５号公報

しかしながら、上述した従来の装置では、カメラによる撮像画像を処理して発話者の所定の動きを検出しているので、カメラを含む画像処理装置のような高価な設備が必要となり、またそれらの装置により複雑な処理を行わなければならないという問題がある。

（１）請求項１の発明は、人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイクの接触または非接触の状態を検出し、接触状態が検出されたときに、接触型マイクからの音声信号の入力を開始する。
（２）請求項７の発明は、人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイクの接触または非接触の状態を検出し、接触状態が検出されている間、接触型マイクで集音した音声信号を録音するとともに、接触型マイクから出力される音声信号のレベルを検出し、レベル検出結果に基づいて発話中か否かを判定する。そして、接触型マイクの状態が接触状態から非接触状態へ変化する前に発話が終了していると判定された場合は、録音した音声信号を出力する。
（３）請求項９の発明は、人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイクの接触または非接触の状態を検出し、接触状態が検出されている間、接触型マイクで集音した音声信号を録音する。そして、録音されている音声信号の中に音声操作対象機器の名称が含まれているか否かを認識し、音声信号の中に音声操作対象機器の名称が含まれていると認識された場合に、録音されている音声信号に基づいて音声操作対象機器の操作内容を認識し、音声操作対象機器へ操作内容を出力する。
（４）請求項１０の発明は、人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイクで集音した音声信号に基づいて操作内容を認識し、認識した操作内容を音声操作対象機器へ出力する音声認識装置において、接触型マイクを音声操作対象機器ごとに設けるとともに、それぞれの接触型マイクの接触または非接触の状態を検出し、認識された操作内容が、接触状態が検出された接触型マイクに対応する音声操作対象機器の操作内容である場合に、その音声操作対象機器へ操作内容を出力する。

本発明によれば、ＰＴＴ（Push To Talk）スイッチのような特別なボタンスイッチを設けて発話のたびに操作する必要がなく、かつまた発話者の音声入力意志を検出するためのカメラを含む画像処理装置のような高価な設備とそれらの複雑な処理を必要とせずに、発話者が意図した音声のみを入力して正しく認識することができる。

本発明の音声入力装置および音声認識装置を車載機器の音声操作に用いた一実施の形態を説明する。なお、本発明の音声入力装置および音声認識装置は車両用に限定されず、あらゆる装置の音声入力用および音声認識用として用いることができる。

《発明の第１の一実施の形態》
図１は第１の実施の形態の音声入力装置の構成を示す。接触型マイクロフォン（以下、単に接触型マイクという）１は運転者の皮膚に直接、あるいは衣服を介して接触させ、運転者の発話による体内伝導音を集音して電気信号に変換するマイクである。この接触型マイク１には骨伝導型マイクやＮＡＭ（Non-Audible Murmur）マイクなどを用いることができるが、この一実施の形態ではＮＡＭマイクを用いた例を示す。

なお、骨伝導型マイクは、発話による頭蓋骨の振動を集音するとともに、頭蓋骨に振動を与えて聴覚神経に直接、音声を伝えるマイクである。近年、携帯型電話機などに送受話用として実用化されている。

ＮＡＭマイクは、人体の皮膚に直接、接触させるか、または比較的薄い衣服を介して皮膚に接触させ、人の発話音声の体内伝導音を集音するマイクであり、日本音響学会講演論文集、２００４年３月、pp４５２〜４５３などに紹介されている。ＮＡＭマイクは、人間の皮膚と音響インピーダンスがよく似たシリコーンなどの柔らかい樹脂材料でエレクトレット膜をコーティングして形成され、特に１０００Ｈｚ以下の周波数領域におけるＳ／Ｎ特性が一般的な非接触型マイクよりも優れ、人間の非可聴な“つぶやき”や“独り言”を集音することができるという特徴を有している。

接触型マイク１の設置場所は、運転者の指、手、頭部、肩、胸部などが接触可能な場所であればどこでもよい。例えば、ステアリングホイール（不図示）のスポーク部に設置し、運転者が指を接触させながら発話するようにしてもよいし、あるいは運転席シート（不図示）のシートバック表面上部の運転者の背中上部が接触する位置に設置し、運転者がシートバック表面上部に背中を押しつけながら発話するようにしてもよい。

接触型マイク１は、対向して配置される一対のエレクトレット膜１ａと増幅器１ｂとを備え、エレクトレット膜１ａの回りに充填された柔らかい樹脂材料を介して、発話者の発話による振動をエレクトレット膜１ａの静電容量の変化として検出し、増幅器１ｂにより増幅して出力する。

接触検出センサー２は接触型マイク１の周辺に設けられ、接触型マイク１の接触状態と非接触状態を検出する。この接触検出センサー２には、図２(ａ)に示すように接触圧力に応じて電極間の抵抗値が下がり、電極間が導通する感圧導電ゴムなどを用いたセンサーや、図２(ｂ)に示すようにある大きさの接触圧力がかかると導電体が電極に接触して電極間が導通する圧力スイッチなど、種々の方式のものを用いることができる。

接触型マイク１の信号出力端子１ｃは、抵抗器３を介して直流電源４へ接続されるとともに、コンデンサー５を介して接触検出センサー２へ接続される。一方、接触型マイク１のコモン端子１ｄは音声入力装置のコモンラインへ接続される。

次に、一実施の形態の音声入力装置の動作を説明する。運転者が接触型マイク１に接触すると、接触検出センサー２の電極間が導通状態になる。この状態で運転者が発話すると、接触型マイク１は端子１ｃから音声信号を出力する。コンデンサー５は音声信号に含まれる電源４の直流成分をカットし、接触検出センサー２は導通状態の電極間を介して音声信号を出力端子６ａへ出力する。一実施の形態の音声入力装置の出力端子６ａ、６ｂには音声認識装置（不図示）が接続されており、音声認識装置は音声信号を処理して運転者の発話音声を認識する。

このように、第１の実施の形態によれば、人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイク１と、この接触型マイク１の接触または非接触の状態を検出する接触検出センサー２とを備え、接触検出センサー２により接触状態が検出されたときに、接触型マイク１からの音声信号の入力を開始するようにしたので、ＰＴＴ（Push To Talk）スイッチのような特別なボタンスイッチを設けて発話のたびに操作する必要がなく、かつまた発話者の音声入力意志を検出するためのカメラを含む画像処理装置のような高価な設備とそれらの複雑な処理を必要とせずに、発話者が意図した音声のみを入力することができる。

《発明の第２の実施の形態》
図３は第２の実施の形態の音声入力装置の構成を示す図である。なお、図１に示す第１の実施の形態の機器と同様な機器に対しては同一の符号を付して相違点を中心に説明する。

コントローラー７はＣＰＵ７ａや駆動回路７ｂを備え、リレー８を駆動する。この第２の実施の形態では、接触検出センサー２の電極（接点）で音声信号の入り切りを行う代わりに、リレー８の接点で音声信号の入り切りを行う。すなわち、リレー８の接点を開閉して接触マイク１で集音した音声信号の出力と遮断を行う。なお、リレー８には接触信頼性の高い無接点リレーを用いるのが望ましい。イグニッションスイッチ９は車両のイグニッションキースイッチがＯＮ位置に設定されるとオン（閉路）する。

図４は第２の実施の形態の音声入力処理を示すフローチャートである。コントローラー７はイグニッションスイッチ９がオンすると、図４に示す音声入力処理を繰り返し実行する。ステップ１において接触検出センサー２により接触型マイク１への運転者の接触が検出されたか否かを確認し、接触が検出されたらステップ２へ進む。ステップ２では駆動回路７ｂによりリレー８の接点を閉路し、接触型マイク１で集音した運転者の発話音声信号を端子６ａ、６ｂへ出力する。つまり、発話音声の入力を開始する。

ステップ３において接触検出センサー２により接触型マイク１から運転者が離れて非接触状態が検出されたか否かを確認し、非接触状態が検出されたらステップ４へ進む。ステップ４では運転者の接触型マイク１への非接触状態が所定時間、継続したか否かを確認する。ここで、所定時間には、運転者の発話終了と判断できる時間、例えば２秒を設定する。接触型マイク１への非接触状態が所定時間継続した場合はステップ５へ進み、駆動回路７ｂによりリレー８の接点を開路し、接触型マイク１で集音した運転者の発話音声信号の出力を停止する。つまり、発話音声の入力を終了する。

このように、第２の実施の形態によれば、発話終了と判断できる時間の間、接触検出センサー２により非接触状態が検出されたときに、接触型マイク１からの音声信号の入力を終了するようにしたので、ＰＴＴ（Push To Talk）スイッチのような特別なボタンスイッチを設けて発話のたびに操作する必要がなく、かつまた発話者の音声入力意志を検出するためのカメラを含む画像処理装置のような高価な設備とそれらの複雑な処理を必要とせずに、発話者が意図した音声のみを入力することができる。

《発明の第３の実施の形態》
何らかの理由により接触型マイク１への運転者の接触状態と非接触状態とが短時間の間に繰り返し検出された場合に、発話音声の入力を終了するようにした第３の実施の形態を説明する。なお、この第３の実施の形態の構成は図３に示す第２の実施の形態の構成と同様であり、説明を省略する。

図５は第３の実施の形態の音声入力処理を示すフローチャートである。なお、図４に示す処理と同様な処理を行うステップに対しては同一のステップ番号を付して相違点を中心に説明する。ステップ３〜４において接触型マイク１への運転者の非接触状態が検出されたが、非接触状態が所定時間継続しない場合はステップ６へ進む。

ステップ６において、接触検出センサー２で非接触状態が所定時間継続せずにふたたび接触状態が検出され、短時間の間に接触状態と非接触状態とが繰り返し検出された場合はステップ５へ進み、運転者の発話意志なしとみなして駆動回路７ｂによりリレー８の接点を開路し、接触型マイク１で集音した運転者の発話音声信号の出力を停止する。つまり、発話音声の入力を終了する。

このように、第３の実施の形態によれば、発話終了と判断できる時間の経過前に接触検出センサー２によりふたたび接触状態が検出された場合は、接触型マイク１からの音声信号の入力を終了するようにしたので、発話者の誤操作または不確かな操作による音声入力を防止することができる。

《発明の第４の実施の形態》
上述した第２および第３の実施の形態では１台の接触型マイクに対する音声入力を入り切りする例を示したが、複数の接触型マイクの音声入力を入り切りする第４の実施の形態を説明する。

図６は第４の実施の形態の音声入力装置の構成を示す図である。なお、図３に示す機器と同様な機器に対しては同一の符号を付して相違点を中心に説明する。この第４の実施の形態では２台の接触型マイク１、１０に対して共通のリレー８を用いて音声入力の入り切りを行う。接触型マイク１０は上述した接触型マイク１と同様なマイクであり、接触型マイク１はステアリングホイールのスポーク部に設けられ、接触型マイク１０は運転席シートのシートバック表面上部に設けられる。

接触型マイク１０の信号出力端子１０ｃは、接触型マイク１の信号出力端子１ｃと接続され、さらに抵抗器３を介して直流電源４へ接続されるとともに、コンデンサー５を介してリレー８の接点へ接続される。接触検出センサー１１は接触型マイク１０の周辺に設けられ、接触型マイク１０の接触状態と非接触状態を検出する。

第４の実施の形態の音声入力処理を図５のフローチャートを用いて説明する。イグニッションスイッチ９がオンすると、コントローラー７は音声入力処理を開始する。ステップ１において接触検出センサー２により接触型マイク１への運転者の接触が検出されたか、または接触検出センサー１１により接触型マイク１０への運転者の接触が検出されたか否かを確認する。２台の接触型マイク１と１０の内のいずれかへ運転者の接触が検出された場合はステップ２へ進み、駆動回路７ｂによりリレー８の接点を閉路し、接触型マイク１または１０で集音した運転者の発話音声信号を端子６ａ、６ｂへ出力する。つまり、発話音声の入力を開始する。

ステップ３において接触検出センサー２と１１により接触型マイク１と１０から運転者が離れてともに非接触状態が検出されたか否かを確認し、接触型マイク１と１０でともに非接触状態が検出されたらステップ４へ進む。ステップ４では運転者の接触型マイク１と１０への非接触状態が所定時間、継続したか否かを確認する。ここで、所定時間には、運転者の発話終了と判断できる時間、例えば２秒を設定する。接触型マイク１および１０への非接触状態が所定時間継続した場合はステップ５へ進み、駆動回路７ｂによりリレー８の接点を開路し、接触型マイク１および１０で集音した運転者の発話音声信号の出力を停止する。つまり、発話音声の入力を終了する。

ステップ３〜４において接触型マイク１と１０への運転者の非接触状態が検出されたが、非接触状態が所定時間継続しない場合はステップ６へ進む。ステップ６において、接触検出センサー２で非接触状態が所定時間継続せずにふたたび接触状態が検出され、短時間の間に接触状態と非接触状態とが繰り返し検出された場合はステップ５へ進み、運転者の発話意志なしとみなして駆動回路７ｂによりリレー８の接点を開路し、接触型マイク１で集音した運転者の発話音声信号の出力を停止する。つまり、発話音声の入力を終了する。

なお、この第４の実施の形態では、共通のリレー８の接点により２台の接触型マイク１と１０の音声入力の入り切りを行う例を示したが、３台以上の接触型マイクの音声入力の入り切りを行う場合も同様である。

このように第４の実施の形態によれば、接触型マイクと接触検出センサーとを複数組備え、複数の接触検出センサー２、１１の内のいずれかにより接触状態が検出されたときに、複数の接触型マイク１、１０からの音声信号の入力を開始するようにしたので、複数の接触型マイク１、１０を用いて音声操作を行う場合でも、ＰＴＴ（Push To Talk）スイッチのような特別なボタンスイッチを設けて発話のたびに操作する必要がなく、かつまた発話者の音声入力意志を検出するためのカメラを含む画像処理装置のような高価な設備とそれらの複雑な処理を必要とせずに、発話者が意図した音声のみを入力することができる。

また、第４の実施の形態によれば、発話終了と判断できる時間の間、すべての接触検出センサー２、１１により非接触状態が検出されたときに、接触型マイク１、１０からの音声信号の入力を終了するようにしたので、複数の接触型マイク１、１０を用いて音声操作を行う場合でも、ＰＴＴ（Push To Talk）スイッチのような特別なボタンスイッチを設けて発話のたびに操作する必要がなく、かつまた発話者の音声入力意志を検出するためのカメラを含む画像処理装置のような高価な設備とそれらの複雑な処理を必要とせずに、発話者が意図した音声のみを入力することができる。

さらに、第４の実施の形態によれば、発話終了と判断できる時間の経過前に複数の接触検出センサー２、１１の内のいずれかによりふたたび接触状態が検出された場合は、接触型マイク１、１０からの音声信号の入力を終了するようにしたので、複数の接触型マイク１、１０を用いて音声操作を行う場合でも、発話者の誤操作または不確かな操作による音声入力を防止することができる。

《発明の第５の実施の形態》
入力音声をいったん録音装置に録音した後、音声認識装置へ出力する第５の実施の形態を説明する。

図７は第５の実施の形態の音声入力装置の構成を示す図である。なお、図１および図３に示す機器と同様な機器に対しては同一の符号を付して相違点を中心に説明する。録音装置１２は接触型マイク１で集音した運転者の発話音声を一時的に記録するための音声記録装置であり、半導体メモリやハードディスク装置を用いることができる。

コントローラー７のレベル検出回路７ｃは接触型マイク１の音声信号レベルを検出する。接触型マイク１から出力される音声信号のレベルが、予め設定した発話中と判断できるレベル以上の場合は運転者が発話中であるとする。

図８は第５の実施の形態の音声入力処理を示すフローチャートである。コントローラー７はイグニッションスイッチ９がオンすると、図８に示す音声入力処理を繰り返し実行する。ステップ１１において接触検出センサー２により接触型マイク１への運転者の接触が検出されたか否かを確認し、接触が検出されたらステップ１２へ進む。ステップ１２では録音装置１２に接触型マイク１で集音した運転者の発話音声の録音を開始する。

ステップ１３において接触検出センサー２により接触型マイク１から運転者が離れて非接触状態が検出されたか否かを確認し、非接触状態が検出されたらステップ１４へ進む。ステップ１４では運転者の発話音声の録音を終了する。ステップ１５で接触型マイク１への接触状態が検出されてから非接触状態が検出されるまでの間に、運転者の発話後の無音声期間があるか否かを確認する。

図９は、接触検出センサー２による接触と非接触の検出結果(ａ)と接触型マイク１の音声信号レベル(ｂ)とを示すタイミングチャートである。通常、運転者は、接触型マイク１へ接触してから発話を開始し、発話を終了した後に接触型マイク１から離れるから、少なくとも発話終了後、接触状態から非接触状態になるまでの間に無音声期間、すなわち接触型マイク１の音声信号レベルが予め設定した運転者が発話中と判断できるレベル以下の期間が存在する。しかし、発話中に何らかの理由で運転者が接触型マイク１から離れると、上述した無音声期間がなくなり、接触状態から非接触状態になった時点でも運転者の発話が続いている。

接触状態から非接触状態へ変化した時点で運転者が発話中の場合は、発話途中で運転者が接触型マイク１から離れたと判断し、運転者の発話音声を最後まで録音できていないからステップ２０へ進んで録音装置１２に録音した運転者の発話音声信号を消去してステップ１へ戻る。

一方、接触状態から非接触状態へ変化する前に運転者の発話が終了した場合、つまり発話後の無音声期間がある場合はステップ１６へ進み、駆動回路７ｂによりリレー８の接点を閉路し、続くステップ１７で録音装置１２に録音されている運転者の発話音声信号を端子６ａ、６ｂへ出力する。つまり、音声入力装置への発話音声を入力を開始する。ステップ１８で録音装置１２に録音されている発話音声信号の出力が完了したか否かを確認し、完了したらステップ１９へ進んで駆動回路７ｂによりリレー８の接点を開路し、発話音声信号の出力を終了する。つまり、音声認識装置への発話音声の入力を終了する。

このように、第５の実施の形態によれば、人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイク１と、接触型マイク１の接触または非接触の状態を検出する接触検出センサー２と、接触検出センサー２により接触状態が検出されている間、接触型マイク１で集音した音声信号を録音する録音装置１２と、接触型マイク１から出力される音声信号のレベルを検出するレベル検出回路７ｃとを備え、接触検出センサー２の検出結果が接触状態から非接触状態へ変化する前に、レベル検出回路７ｃによる検出結果に基づいて発話が終了していると判定された場合は、録音装置１２に録音した音声信号を出力するようにしたので、ＰＴＴ（Push To Talk）スイッチのような特別なボタンスイッチを設けて発話のたびに操作する必要がなく、かつまた発話者の音声入力意志を検出するためのカメラを含む画像処理装置のような高価な設備とそれらの複雑な処理を必要とせずに、発話者が意図した音声のみを入力して認識することができる。

また、第５の実施の形態によれば、接触検出センサー２の検出結果が接触状態から非接触状態へ変化したときに発話中であると判定された場合は、録音装置１２に録音した音声信号を出力せずに消去するようにしたので、不完全な発話音声に基づく音声操作内容の誤認識を防止することができる。

《発明の第６の実施の形態》
本願発明を車両用音声認識装置に適用し、車載機器の音声操作を行う第６の実施の形態を説明する。図１０は第６の実施の形態の構成を示す図である。なお、図３および図７に示す機器と同様な機器に対しては同一の符号を付して相違点を中心に説明する。

認識装置２１、２２は図示しないＣＰＵやメモリなどを備え、後述する音声認識プログラムを実行して運転者の発話音声の入力と認識を行う。言語辞書２３は音声操作用のキーワードの音響モデルと辞書を記憶する記憶装置であり、認識装置２１による音声操作用キーワードの認識に用いられる。この一実施の形態では音声操作対象の車載機器の名称を音声操作用キーワードとした例を示すが、音声操作用キーワードはこの例に限定されるものではない。

言語辞書２４は音声操作内容の音響モデルと辞書を記憶する記憶装置であり、認識装置２２による音声操作内容の認識に用いられる。ここで、音声操作内容とは、音声操作対象の車載機器をどのように操作するかを表す言葉である。言語辞書２４は、音声操作内容を音声操作対象機器ごとにグループ分けし、各グループごとに認識可または不可を設定することができる。すなわち、認識装置２１で音声操作用キーワードとして「エアコン」が認識された場合は、言語辞書２４に記憶されている音声操作内容の中の「エアコン」グループのみを音声認識に使用可とし、他の車載機器グループを使用不可とする。

なお、図１０においてリレー８を便宜的に接点を用いて図示するが、この第６の実施の形態ではリレー８をマイクロコンピューターのソフトウエア形態で実現した例を示す。また、この一実施の形態では運転者が接触型マイク１へ接触して「エアコンを入れる」と発話した例を示す。

図１１は音声認識プログラムを示すフローチャートである。このフローチャートにより、第６の実施の形態の動作を説明する。認識装置２１、２２のＣＰＵは、車両のイグニッションスイッチ（不図示）がオンするとこの音声認識プログラムを繰り返し実行する。

ステップ２１において接触検出センサー２により接触型マイク１への運転者の接触が検出されたか否かを確認し、接触が検出されたらステップ２２へ進む。ステップ２２では録音装置１２に接触型マイク１で集音した運転者の発話音声の録音を開始する。ステップ２３において接触検出センサー２により接触型マイク１から運転者が離れて非接触状態が検出されたか否かを確認し、非接触状態が検出されたらステップ２４へ進む。ステップ２４では運転者の発話音声の録音を終了する。

ステップ２５において、言語辞書２３を参照して録音装置１２に録音した運転者の発話音声の中に音声操作用のキーワードが含まれているか否かの認識処理を行う。続くステップ２６で運転者の発話音声の中に言語辞書２３に予め登録した音声操作用キーワードが含まれているか否かを確認し、キーワードが含まれていない場合はステップ２８へ進み、録音装置１２に録音された運転者の発話音声を消去してステップ１へ戻る。

一方、運転者の発話音声の中に音声操作用キーワードが含まれている場合はステップ２７へ進み、言語辞書２４を参照して録音装置１２に録音した運転者の発話音声から音声操作内容の認識処理を行う。ここでは、言語辞書２４に予め登録した音声操作内容の内、音声操作対象機器として認識された「エアコン」グループに含まれる音声操作内容のみを用いて運転者の発話音声の認識を行う。これにより、運転者の発話音声の誤認識を防止することができる。

ステップ２９で運転者の発話音声の中に言語辞書２４に予め登録した音声操作内容が含まれているか否かを確認し、音声操作内容が含まれている場合はステップ３０へ進み、音声操作対象機器、この例では車両用空調装置（エアコン）へ音声操作内容「入れる」を送信する。一方、音声操作内容が言語辞書２４に含まれていなかった場合はステップ２８へ進み、録音装置１２に録音されている運転者の発話音声を消去してステップ１へ戻る。

なお、図１１の音声認識処理の内、ステップ２６〜２７の処理がリレー８の動作に相当する。

このように、第６の実施の形態によれば、人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイク１と、接触型マイク１の接触または非接触の状態を検出する接触検出センサー２と、接触検出センサー２より接触状態が検出されている間、接触型マイク１で集音した音声信号を録音する録音装置１２とを備え、録音装置１２に録音されている音声信号の中に音声操作対象機器の名称が含まれているか否かを認識し、音声信号の中に音声操作対象機器の名称が含まれていると認識された場合に、録音装置１２に録音されている音声信号に基づいて音声操作対象機器の操作内容を認識し、音声操作対象機器へ操作内容を出力するようにしたので、ＰＴＴ（Push To Talk）スイッチのような特別なボタンスイッチを設けて発話のたびに操作する必要がなく、かつまた発話者の音声入力意志を検出するためのカメラを含む画像処理装置のような高価な設備とそれらの複雑な処理を必要とせずに、発話者が意図した音声のみを入力して正しく認識することができる。

《発明の第７の実施の形態》
本願発明を車両用音声認識装置に適用し、車載機器の音声操作を行う第７の実施の形態を説明する。図１２は第７の実施の形態の構成を示す図である。なお、図６および図７に示す機器と同様な機器に対しては同一の符号を付して相違点を中心に説明する。

この第７の実施の形態では２台の接触型マイク１、１０を用い、接触型マイク１をエアコンの音声操作用として用い、接触型マイク１０を運転席パワーシートの音声操作用として用いた例を示す。なお、接触型マイクの台数と各マイクの操作対象機器はこの一実施の形態に限定されない。

認識装置２５は図示しないＣＰＵやメモリなどを備え、後述する音声認識プログラムを実行して運転者の発話音声の入力と認識を行う。言語辞書２６は音声操作用言語の音響モデルと辞書を記憶する記憶装置であり、認識装置２５による音声操作用言語の認識に用いられる。

図１３は音声認識プログラムを示すフローチャートである。このフローチャートにより、第７の実施の形態の動作を説明する。認識装置２５のＣＰＵは、車両のイグニッションスイッチ（不図示）がオンするとこの音声認識プログラムを繰り返し実行する。なお、この一実施の形態では「エアコン」音声操作用の接触型マイク１に運転者が接触して「エアコンを入れる」と発話した例を示す。

ステップ３１において接触検出センサー２または１１により接触型マイク１または１０への運転者の接触が検出されたか否かを確認し、接触が検出されたらステップ３２へ進む。ステップ３２では録音装置１２に接触型マイク１または１０で集音した運転者の発話音声の録音を開始するとともに、接触を検出したセンサー２または１１により音声操作対象機器を特定してメモリに記憶する。

ステップ３３において接触検出センサー２および１１により接触型マイク１および１０から運転者が離れて非接触状態が検出されたか否かを確認し、非接触状態が検出されたらステップ３４へ進む。ステップ３４では運転者の発話音声の録音を終了する。

ステップ３５において言語辞書２６を参照して録音装置１２に録音されている運転者の音声操作内容の認識処理を行う。続くステップ３６で認識結果の音声操作内容がメモリに記憶した操作対象機器の操作内容であるか否かを確認する。エアコン音声操作用の接触型マイク１で集音した運転者の発話内容がエアコンの音声操作内容であった場合はステップ３７へ進み、車両用空調装置（エアコン）へ音声操作内容「入れる」を送信する。

一方、エアコン音声操作用の接触型マイク１で集音した運転者の発話内容がエアコン以外の音声操作内容であった場合はステップ３８へ進み、録音装置１２の録音音声を消去してステップ１へ戻る。

このように、第７の実施の形態によれば、人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイクを備え、接触型マイクで集音した音声信号に基づいて操作内容を認識し、認識した操作内容を音声操作対象機器へ出力する音声認識装置において、接触型マイクを音声操作対象機器ごとに設けるとともに、それぞれの接触型マイクの接触または非接触の状態を検出する接触検出センサーを設け、認識された操作内容が、接触検出センサーにより接触状態が検出された接触型マイクに対応する音声操作対象機器の操作内容である場合に、その音声操作対象機器へ操作内容を出力するようにしたので、複数の接触型マイクを用いて音声操作を行う場合でも、ＰＴＴ（Push To Talk）スイッチのような特別なボタンスイッチを設けて発話のたびに操作する必要がなく、かつまた発話者の音声入力意志を検出するためのカメラを含む画像処理装置のような高価な設備とそれらの複雑な処理を必要とせずに、発話者が意図した音声のみを入力して正しく認識することができる。

特許請求の範囲の構成要素と一実施の形態の構成要素との対応関係は次の通りである。すなわち、接触検出センサー２が接触検出手段および音声入力手段を、接触検出センサー１１が接触検出手段を、リレー８が音声入力手段を、録音装置１２が録音手段を、レベル検出回路７ｃがレベル検出手段を、コントローラー７が発話判定手段および音声出力手段を、認識装置２１が機器名認識手段を、認識装置２２が操作内容認識手段を、認識装置２５が操作内容認識手段および認識結果出力手段をそれぞれ構成する。なお、以上の説明はあくまで一例であり、発明を解釈する際、上記の実施の形態の記載事項と特許請求の範囲の記載事項との対応関係になんら限定も拘束もされない。

第１の実施の形態の構成を示す図である。接触検出センサーの構造を示す図である。第２の実施の形態の構成を示す図である。第２の実施の形態の音声入力処理を示すフローチャートである。第３の実施の形態の音声入力装置を示すフローチャートである。第４の実施の形態の構成を示す図である。第５の実施の形態の構成を示す図である。第５の実施の形態の音声入力処理を示すフローチャートである。接触型マイクへの接触検出結果と音声信号レベルとを示すタイミングチャートである。第６の実施の形態の構成を示す図である。第６の実施の形態の音声認識プログラムを示すフローチャートである。第７の実施の形態の構成を示す図である。第７の実施の形態の音声認識プログラムを示すフローチャートである。

符号の説明

１、１０接触型マイク
１ａ、１０ａエレクトレット膜
１ｂ、１０ｂ増幅器
２、１１接触検出センサー
７コントローラー
８リレー
１２録音装置
２１、２２、２５認識装置
２３、２４、２６言語辞書

Claims

人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイクロフォン（以下、接触型マイクという）と、
前記接触型マイクの接触または非接触の状態を検出する接触検出手段と、
前記接触検出手段により接触状態が検出されたときに、前記接触型マイクからの音声信号の入力を開始する音声入力手段とを備えることを特徴とする音声入力装置。
請求項１に記載の音声入力装置において、
前記音声入力手段は、発話終了と判断できる時間の間、前記接触検出手段により非接触状態が検出されたときに、前記接触型マイクからの音声信号の入力を終了することを特徴とする音声入力装置。
請求項２に記載の音声入力装置において、
前記音声入力手段は、前記発話終了と判断できる時間の経過前に前記接触検出手段によりふたたび接触状態が検出された場合は、前記接触型マイクからの音声信号の入力を終了することを特徴とする音声入力装置。
請求項１に記載の音声入力装置において、
前記接触型マイクと前記接触検出手段とを複数組備え、
前記音声入力手段は、前記複数の接触検出手段の内のいずれかにより接触状態が検出されたときに、前記複数の接触型マイクからの音声信号の入力を開始することを特徴とする音声入力装置。
請求項４に記載の音声入力装置において、
前記音声入力手段は、発話終了と判断できる時間の間、すべての前記接触検出手段により非接触状態が検出されたときに、前記接触型マイクからの音声信号の入力を終了することを特徴とする音声入力装置。
請求項５に記載の音声入力装置において、
前記音声入力手段は、前記発話終了と判断できる時間の経過前に前記複数の接触検出手段の内のいずれかによりふたたび接触状態が検出された場合は、前記接触型マイクからの音声信号の入力を終了することを特徴とする音声入力装置。
人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイクロフォン（以下、接触型マイクという）と、
前記接触型マイクの接触または非接触の状態を検出する接触検出手段と、
前記接触検出手段により接触状態が検出されている間、前記接触型マイクで集音した音声信号を録音する録音手段と、
前記接触型マイクから出力される音声信号のレベルを検出するレベル検出手段と、
前記レベル検出手段による検出結果に基づいて発話中か否かを判定する発話判定手段と、
前記接触検出手段の検出結果が接触状態から非接触状態へ変化する前に、前記発話判定手段により発話が終了していると判定された場合は、前記録音手段に録音した音声信号を出力する音声出力手段とを備えることを特徴とする音声入力装置。
請求項７に記載の音声入力装置において、
前記音声出力手段は、前記接触検出手段の検出結果が接触状態から非接触状態へ変化したときに、前記発話判定手段により発話中であると判定された場合は、前記録音手段に録音した音声信号を出力せずに消去することを特徴とする音声入力装置。
人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイクロフォン（以下、接触型マイクという）と、
前記接触型マイクの接触または非接触の状態を検出する接触検出手段と、
前記接触検出手段により接触状態が検出されている間、前記接触型マイクで集音した音声信号を録音する録音手段と、
前記録音手段に録音されている音声信号の中に音声操作対象機器の名称が含まれているか否かを認識する機器名認識手段と、
前記機器名認識手段で音声信号の中に音声操作対象機器の名称が含まれていると認識された場合に、前記録音手段に録音されている音声信号に基づいて音声操作対象機器の操作内容を認識する操作内容認識手段とを備え、
音声操作対象機器へ操作内容を出力することを特徴とする音声認識装置。
人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイクロフォン（以下、接触型マイクという）と、
前記接触型マイクで集音した音声信号に基づいて操作内容を認識する操作内容認識手段と、
前記操作内容認識手段で認識した操作内容を音声操作対象機器へ出力する認識結果出力手段とを備えた音声認識装置であって、
前記接触型マイクを音声操作対象機器ごとに設けるとともに、それぞれの前記接触型マイクの接触または非接触の状態を検出する接触検出手段を設け、
前記認識結果出力手段は、前記操作内容認識手段により認識された操作内容が、前記接触検出手段により接触状態が検出された前記接触型マイクに対応する音声操作対象機器の操作内容である場合に、その音声操作対象機器へ操作内容を出力することを特徴とする音声認識装置。