JP2006337659A - 音声入力装置および音声認識装置 - Google Patents
音声入力装置および音声認識装置 Download PDFInfo
- Publication number
- JP2006337659A JP2006337659A JP2005161439A JP2005161439A JP2006337659A JP 2006337659 A JP2006337659 A JP 2006337659A JP 2005161439 A JP2005161439 A JP 2005161439A JP 2005161439 A JP2005161439 A JP 2005161439A JP 2006337659 A JP2006337659 A JP 2006337659A
- Authority
- JP
- Japan
- Prior art keywords
- contact
- voice
- microphone
- speech
- detection means
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
【課題】 発話者が意図した音声のみを入力して正しく認識する。
【解決手段】 人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイクロフォン1の接触または非接触の状態を接触検出センサー2により検出し、接触状態が検出されたときに、接触型マイク1からの音声信号の入力を開始する。
【選択図】 図1
【解決手段】 人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイクロフォン1の接触または非接触の状態を接触検出センサー2により検出し、接触状態が検出されたときに、接触型マイク1からの音声信号の入力を開始する。
【選択図】 図1
Description
本発明は、発話音声を入力する音声入力装置と、入力した発話内容を認識する音声認識装置に関する。
カメラによる撮像画像を処理して、左手人差し指などの発話者の所定の部位が、ナビゲーション装置などの予め設定した基準部位に移動したことを検出し、音声入力などの音声認識に関する動作を開始するようにした音声入力装置および音声認識装置が知られている(例えば、特許文献1参照)。この装置では、発話者の所定の動きを検出して発話音声の入力と認識を行うことによって、特別なボタンスイッチを設けて発話のたびに操作する必要がなく、発話者が意図した音声のみを入力し、認識することができるとしている。
この出願の発明に関連する先行技術文献としては次のものがある。
特開2000−338995号公報
しかしながら、上述した従来の装置では、カメラによる撮像画像を処理して発話者の所定の動きを検出しているので、カメラを含む画像処理装置のような高価な設備が必要となり、またそれらの装置により複雑な処理を行わなければならないという問題がある。
(1) 請求項1の発明は、人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイクの接触または非接触の状態を検出し、接触状態が検出されたときに、接触型マイクからの音声信号の入力を開始する。
(2) 請求項7の発明は、人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイクの接触または非接触の状態を検出し、接触状態が検出されている間、接触型マイクで集音した音声信号を録音するとともに、接触型マイクから出力される音声信号のレベルを検出し、レベル検出結果に基づいて発話中か否かを判定する。そして、接触型マイクの状態が接触状態から非接触状態へ変化する前に発話が終了していると判定された場合は、録音した音声信号を出力する。
(3) 請求項9の発明は、人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイクの接触または非接触の状態を検出し、接触状態が検出されている間、接触型マイクで集音した音声信号を録音する。そして、録音されている音声信号の中に音声操作対象機器の名称が含まれているか否かを認識し、音声信号の中に音声操作対象機器の名称が含まれていると認識された場合に、録音されている音声信号に基づいて音声操作対象機器の操作内容を認識し、音声操作対象機器へ操作内容を出力する。
(4) 請求項10の発明は、人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイクで集音した音声信号に基づいて操作内容を認識し、認識した操作内容を音声操作対象機器へ出力する音声認識装置において、接触型マイクを音声操作対象機器ごとに設けるとともに、それぞれの接触型マイクの接触または非接触の状態を検出し、認識された操作内容が、接触状態が検出された接触型マイクに対応する音声操作対象機器の操作内容である場合に、その音声操作対象機器へ操作内容を出力する。
(2) 請求項7の発明は、人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイクの接触または非接触の状態を検出し、接触状態が検出されている間、接触型マイクで集音した音声信号を録音するとともに、接触型マイクから出力される音声信号のレベルを検出し、レベル検出結果に基づいて発話中か否かを判定する。そして、接触型マイクの状態が接触状態から非接触状態へ変化する前に発話が終了していると判定された場合は、録音した音声信号を出力する。
(3) 請求項9の発明は、人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイクの接触または非接触の状態を検出し、接触状態が検出されている間、接触型マイクで集音した音声信号を録音する。そして、録音されている音声信号の中に音声操作対象機器の名称が含まれているか否かを認識し、音声信号の中に音声操作対象機器の名称が含まれていると認識された場合に、録音されている音声信号に基づいて音声操作対象機器の操作内容を認識し、音声操作対象機器へ操作内容を出力する。
(4) 請求項10の発明は、人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイクで集音した音声信号に基づいて操作内容を認識し、認識した操作内容を音声操作対象機器へ出力する音声認識装置において、接触型マイクを音声操作対象機器ごとに設けるとともに、それぞれの接触型マイクの接触または非接触の状態を検出し、認識された操作内容が、接触状態が検出された接触型マイクに対応する音声操作対象機器の操作内容である場合に、その音声操作対象機器へ操作内容を出力する。
本発明によれば、PTT(Push To Talk)スイッチのような特別なボタンスイッチを設けて発話のたびに操作する必要がなく、かつまた発話者の音声入力意志を検出するためのカメラを含む画像処理装置のような高価な設備とそれらの複雑な処理を必要とせずに、発話者が意図した音声のみを入力して正しく認識することができる。
本発明の音声入力装置および音声認識装置を車載機器の音声操作に用いた一実施の形態を説明する。なお、本発明の音声入力装置および音声認識装置は車両用に限定されず、あらゆる装置の音声入力用および音声認識用として用いることができる。
《発明の第1の一実施の形態》
図1は第1の実施の形態の音声入力装置の構成を示す。接触型マイクロフォン(以下、単に接触型マイクという)1は運転者の皮膚に直接、あるいは衣服を介して接触させ、運転者の発話による体内伝導音を集音して電気信号に変換するマイクである。この接触型マイク1には骨伝導型マイクやNAM(Non-Audible Murmur)マイクなどを用いることができるが、この一実施の形態ではNAMマイクを用いた例を示す。
図1は第1の実施の形態の音声入力装置の構成を示す。接触型マイクロフォン(以下、単に接触型マイクという)1は運転者の皮膚に直接、あるいは衣服を介して接触させ、運転者の発話による体内伝導音を集音して電気信号に変換するマイクである。この接触型マイク1には骨伝導型マイクやNAM(Non-Audible Murmur)マイクなどを用いることができるが、この一実施の形態ではNAMマイクを用いた例を示す。
なお、骨伝導型マイクは、発話による頭蓋骨の振動を集音するとともに、頭蓋骨に振動を与えて聴覚神経に直接、音声を伝えるマイクである。近年、携帯型電話機などに送受話用として実用化されている。
NAMマイクは、人体の皮膚に直接、接触させるか、または比較的薄い衣服を介して皮膚に接触させ、人の発話音声の体内伝導音を集音するマイクであり、日本音響学会講演論文集、2004年3月、pp452〜453などに紹介されている。NAMマイクは、人間の皮膚と音響インピーダンスがよく似たシリコーンなどの柔らかい樹脂材料でエレクトレット膜をコーティングして形成され、特に1000Hz以下の周波数領域におけるS/N特性が一般的な非接触型マイクよりも優れ、人間の非可聴な“つぶやき”や“独り言”を集音することができるという特徴を有している。
接触型マイク1の設置場所は、運転者の指、手、頭部、肩、胸部などが接触可能な場所であればどこでもよい。例えば、ステアリングホイール(不図示)のスポーク部に設置し、運転者が指を接触させながら発話するようにしてもよいし、あるいは運転席シート(不図示)のシートバック表面上部の運転者の背中上部が接触する位置に設置し、運転者がシートバック表面上部に背中を押しつけながら発話するようにしてもよい。
接触型マイク1は、対向して配置される一対のエレクトレット膜1aと増幅器1bとを備え、エレクトレット膜1aの回りに充填された柔らかい樹脂材料を介して、発話者の発話による振動をエレクトレット膜1aの静電容量の変化として検出し、増幅器1bにより増幅して出力する。
接触検出センサー2は接触型マイク1の周辺に設けられ、接触型マイク1の接触状態と非接触状態を検出する。この接触検出センサー2には、図2(a)に示すように接触圧力に応じて電極間の抵抗値が下がり、電極間が導通する感圧導電ゴムなどを用いたセンサーや、図2(b)に示すようにある大きさの接触圧力がかかると導電体が電極に接触して電極間が導通する圧力スイッチなど、種々の方式のものを用いることができる。
接触型マイク1の信号出力端子1cは、抵抗器3を介して直流電源4へ接続されるとともに、コンデンサー5を介して接触検出センサー2へ接続される。一方、接触型マイク1のコモン端子1dは音声入力装置のコモンラインへ接続される。
次に、一実施の形態の音声入力装置の動作を説明する。運転者が接触型マイク1に接触すると、接触検出センサー2の電極間が導通状態になる。この状態で運転者が発話すると、接触型マイク1は端子1cから音声信号を出力する。コンデンサー5は音声信号に含まれる電源4の直流成分をカットし、接触検出センサー2は導通状態の電極間を介して音声信号を出力端子6aへ出力する。一実施の形態の音声入力装置の出力端子6a、6bには音声認識装置(不図示)が接続されており、音声認識装置は音声信号を処理して運転者の発話音声を認識する。
このように、第1の実施の形態によれば、人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイク1と、この接触型マイク1の接触または非接触の状態を検出する接触検出センサー2とを備え、接触検出センサー2により接触状態が検出されたときに、接触型マイク1からの音声信号の入力を開始するようにしたので、PTT(Push To Talk)スイッチのような特別なボタンスイッチを設けて発話のたびに操作する必要がなく、かつまた発話者の音声入力意志を検出するためのカメラを含む画像処理装置のような高価な設備とそれらの複雑な処理を必要とせずに、発話者が意図した音声のみを入力することができる。
《発明の第2の実施の形態》
図3は第2の実施の形態の音声入力装置の構成を示す図である。なお、図1に示す第1の実施の形態の機器と同様な機器に対しては同一の符号を付して相違点を中心に説明する。
図3は第2の実施の形態の音声入力装置の構成を示す図である。なお、図1に示す第1の実施の形態の機器と同様な機器に対しては同一の符号を付して相違点を中心に説明する。
コントローラー7はCPU7aや駆動回路7bを備え、リレー8を駆動する。この第2の実施の形態では、接触検出センサー2の電極(接点)で音声信号の入り切りを行う代わりに、リレー8の接点で音声信号の入り切りを行う。すなわち、リレー8の接点を開閉して接触マイク1で集音した音声信号の出力と遮断を行う。なお、リレー8には接触信頼性の高い無接点リレーを用いるのが望ましい。イグニッションスイッチ9は車両のイグニッションキースイッチがON位置に設定されるとオン(閉路)する。
図4は第2の実施の形態の音声入力処理を示すフローチャートである。コントローラー7はイグニッションスイッチ9がオンすると、図4に示す音声入力処理を繰り返し実行する。ステップ1において接触検出センサー2により接触型マイク1への運転者の接触が検出されたか否かを確認し、接触が検出されたらステップ2へ進む。ステップ2では駆動回路7bによりリレー8の接点を閉路し、接触型マイク1で集音した運転者の発話音声信号を端子6a、6bへ出力する。つまり、発話音声の入力を開始する。
ステップ3において接触検出センサー2により接触型マイク1から運転者が離れて非接触状態が検出されたか否かを確認し、非接触状態が検出されたらステップ4へ進む。ステップ4では運転者の接触型マイク1への非接触状態が所定時間、継続したか否かを確認する。ここで、所定時間には、運転者の発話終了と判断できる時間、例えば2秒を設定する。接触型マイク1への非接触状態が所定時間継続した場合はステップ5へ進み、駆動回路7bによりリレー8の接点を開路し、接触型マイク1で集音した運転者の発話音声信号の出力を停止する。つまり、発話音声の入力を終了する。
このように、第2の実施の形態によれば、発話終了と判断できる時間の間、接触検出センサー2により非接触状態が検出されたときに、接触型マイク1からの音声信号の入力を終了するようにしたので、PTT(Push To Talk)スイッチのような特別なボタンスイッチを設けて発話のたびに操作する必要がなく、かつまた発話者の音声入力意志を検出するためのカメラを含む画像処理装置のような高価な設備とそれらの複雑な処理を必要とせずに、発話者が意図した音声のみを入力することができる。
《発明の第3の実施の形態》
何らかの理由により接触型マイク1への運転者の接触状態と非接触状態とが短時間の間に繰り返し検出された場合に、発話音声の入力を終了するようにした第3の実施の形態を説明する。なお、この第3の実施の形態の構成は図3に示す第2の実施の形態の構成と同様であり、説明を省略する。
何らかの理由により接触型マイク1への運転者の接触状態と非接触状態とが短時間の間に繰り返し検出された場合に、発話音声の入力を終了するようにした第3の実施の形態を説明する。なお、この第3の実施の形態の構成は図3に示す第2の実施の形態の構成と同様であり、説明を省略する。
図5は第3の実施の形態の音声入力処理を示すフローチャートである。なお、図4に示す処理と同様な処理を行うステップに対しては同一のステップ番号を付して相違点を中心に説明する。ステップ3〜4において接触型マイク1への運転者の非接触状態が検出されたが、非接触状態が所定時間継続しない場合はステップ6へ進む。
ステップ6において、接触検出センサー2で非接触状態が所定時間継続せずにふたたび接触状態が検出され、短時間の間に接触状態と非接触状態とが繰り返し検出された場合はステップ5へ進み、運転者の発話意志なしとみなして駆動回路7bによりリレー8の接点を開路し、接触型マイク1で集音した運転者の発話音声信号の出力を停止する。つまり、発話音声の入力を終了する。
このように、第3の実施の形態によれば、発話終了と判断できる時間の経過前に接触検出センサー2によりふたたび接触状態が検出された場合は、接触型マイク1からの音声信号の入力を終了するようにしたので、発話者の誤操作または不確かな操作による音声入力を防止することができる。
《発明の第4の実施の形態》
上述した第2および第3の実施の形態では1台の接触型マイクに対する音声入力を入り切りする例を示したが、複数の接触型マイクの音声入力を入り切りする第4の実施の形態を説明する。
上述した第2および第3の実施の形態では1台の接触型マイクに対する音声入力を入り切りする例を示したが、複数の接触型マイクの音声入力を入り切りする第4の実施の形態を説明する。
図6は第4の実施の形態の音声入力装置の構成を示す図である。なお、図3に示す機器と同様な機器に対しては同一の符号を付して相違点を中心に説明する。この第4の実施の形態では2台の接触型マイク1、10に対して共通のリレー8を用いて音声入力の入り切りを行う。接触型マイク10は上述した接触型マイク1と同様なマイクであり、接触型マイク1はステアリングホイールのスポーク部に設けられ、接触型マイク10は運転席シートのシートバック表面上部に設けられる。
接触型マイク10の信号出力端子10cは、接触型マイク1の信号出力端子1cと接続され、さらに抵抗器3を介して直流電源4へ接続されるとともに、コンデンサー5を介してリレー8の接点へ接続される。接触検出センサー11は接触型マイク10の周辺に設けられ、接触型マイク10の接触状態と非接触状態を検出する。
第4の実施の形態の音声入力処理を図5のフローチャートを用いて説明する。イグニッションスイッチ9がオンすると、コントローラー7は音声入力処理を開始する。ステップ1において接触検出センサー2により接触型マイク1への運転者の接触が検出されたか、または接触検出センサー11により接触型マイク10への運転者の接触が検出されたか否かを確認する。2台の接触型マイク1と10の内のいずれかへ運転者の接触が検出された場合はステップ2へ進み、駆動回路7bによりリレー8の接点を閉路し、接触型マイク1または10で集音した運転者の発話音声信号を端子6a、6bへ出力する。つまり、発話音声の入力を開始する。
ステップ3において接触検出センサー2と11により接触型マイク1と10から運転者が離れてともに非接触状態が検出されたか否かを確認し、接触型マイク1と10でともに非接触状態が検出されたらステップ4へ進む。ステップ4では運転者の接触型マイク1と10への非接触状態が所定時間、継続したか否かを確認する。ここで、所定時間には、運転者の発話終了と判断できる時間、例えば2秒を設定する。接触型マイク1および10への非接触状態が所定時間継続した場合はステップ5へ進み、駆動回路7bによりリレー8の接点を開路し、接触型マイク1および10で集音した運転者の発話音声信号の出力を停止する。つまり、発話音声の入力を終了する。
ステップ3〜4において接触型マイク1と10への運転者の非接触状態が検出されたが、非接触状態が所定時間継続しない場合はステップ6へ進む。ステップ6において、接触検出センサー2で非接触状態が所定時間継続せずにふたたび接触状態が検出され、短時間の間に接触状態と非接触状態とが繰り返し検出された場合はステップ5へ進み、運転者の発話意志なしとみなして駆動回路7bによりリレー8の接点を開路し、接触型マイク1で集音した運転者の発話音声信号の出力を停止する。つまり、発話音声の入力を終了する。
なお、この第4の実施の形態では、共通のリレー8の接点により2台の接触型マイク1と10の音声入力の入り切りを行う例を示したが、3台以上の接触型マイクの音声入力の入り切りを行う場合も同様である。
このように第4の実施の形態によれば、接触型マイクと接触検出センサーとを複数組備え、複数の接触検出センサー2、11の内のいずれかにより接触状態が検出されたときに、複数の接触型マイク1、10からの音声信号の入力を開始するようにしたので、複数の接触型マイク1、10を用いて音声操作を行う場合でも、PTT(Push To Talk)スイッチのような特別なボタンスイッチを設けて発話のたびに操作する必要がなく、かつまた発話者の音声入力意志を検出するためのカメラを含む画像処理装置のような高価な設備とそれらの複雑な処理を必要とせずに、発話者が意図した音声のみを入力することができる。
また、第4の実施の形態によれば、発話終了と判断できる時間の間、すべての接触検出センサー2、11により非接触状態が検出されたときに、接触型マイク1、10からの音声信号の入力を終了するようにしたので、複数の接触型マイク1、10を用いて音声操作を行う場合でも、PTT(Push To Talk)スイッチのような特別なボタンスイッチを設けて発話のたびに操作する必要がなく、かつまた発話者の音声入力意志を検出するためのカメラを含む画像処理装置のような高価な設備とそれらの複雑な処理を必要とせずに、発話者が意図した音声のみを入力することができる。
さらに、第4の実施の形態によれば、発話終了と判断できる時間の経過前に複数の接触検出センサー2、11の内のいずれかによりふたたび接触状態が検出された場合は、接触型マイク1、10からの音声信号の入力を終了するようにしたので、複数の接触型マイク1、10を用いて音声操作を行う場合でも、発話者の誤操作または不確かな操作による音声入力を防止することができる。
《発明の第5の実施の形態》
入力音声をいったん録音装置に録音した後、音声認識装置へ出力する第5の実施の形態を説明する。
入力音声をいったん録音装置に録音した後、音声認識装置へ出力する第5の実施の形態を説明する。
図7は第5の実施の形態の音声入力装置の構成を示す図である。なお、図1および図3に示す機器と同様な機器に対しては同一の符号を付して相違点を中心に説明する。録音装置12は接触型マイク1で集音した運転者の発話音声を一時的に記録するための音声記録装置であり、半導体メモリやハードディスク装置を用いることができる。
コントローラー7のレベル検出回路7cは接触型マイク1の音声信号レベルを検出する。接触型マイク1から出力される音声信号のレベルが、予め設定した発話中と判断できるレベル以上の場合は運転者が発話中であるとする。
図8は第5の実施の形態の音声入力処理を示すフローチャートである。コントローラー7はイグニッションスイッチ9がオンすると、図8に示す音声入力処理を繰り返し実行する。ステップ11において接触検出センサー2により接触型マイク1への運転者の接触が検出されたか否かを確認し、接触が検出されたらステップ12へ進む。ステップ12では録音装置12に接触型マイク1で集音した運転者の発話音声の録音を開始する。
ステップ13において接触検出センサー2により接触型マイク1から運転者が離れて非接触状態が検出されたか否かを確認し、非接触状態が検出されたらステップ14へ進む。ステップ14では運転者の発話音声の録音を終了する。ステップ15で接触型マイク1への接触状態が検出されてから非接触状態が検出されるまでの間に、運転者の発話後の無音声期間があるか否かを確認する。
図9は、接触検出センサー2による接触と非接触の検出結果(a)と接触型マイク1の音声信号レベル(b)とを示すタイミングチャートである。通常、運転者は、接触型マイク1へ接触してから発話を開始し、発話を終了した後に接触型マイク1から離れるから、少なくとも発話終了後、接触状態から非接触状態になるまでの間に無音声期間、すなわち接触型マイク1の音声信号レベルが予め設定した運転者が発話中と判断できるレベル以下の期間が存在する。しかし、発話中に何らかの理由で運転者が接触型マイク1から離れると、上述した無音声期間がなくなり、接触状態から非接触状態になった時点でも運転者の発話が続いている。
接触状態から非接触状態へ変化した時点で運転者が発話中の場合は、発話途中で運転者が接触型マイク1から離れたと判断し、運転者の発話音声を最後まで録音できていないからステップ20へ進んで録音装置12に録音した運転者の発話音声信号を消去してステップ1へ戻る。
一方、接触状態から非接触状態へ変化する前に運転者の発話が終了した場合、つまり発話後の無音声期間がある場合はステップ16へ進み、駆動回路7bによりリレー8の接点を閉路し、続くステップ17で録音装置12に録音されている運転者の発話音声信号を端子6a、6bへ出力する。つまり、音声入力装置への発話音声を入力を開始する。ステップ18で録音装置12に録音されている発話音声信号の出力が完了したか否かを確認し、完了したらステップ19へ進んで駆動回路7bによりリレー8の接点を開路し、発話音声信号の出力を終了する。つまり、音声認識装置への発話音声の入力を終了する。
このように、第5の実施の形態によれば、人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイク1と、接触型マイク1の接触または非接触の状態を検出する接触検出センサー2と、接触検出センサー2により接触状態が検出されている間、接触型マイク1で集音した音声信号を録音する録音装置12と、接触型マイク1から出力される音声信号のレベルを検出するレベル検出回路7cとを備え、接触検出センサー2の検出結果が接触状態から非接触状態へ変化する前に、レベル検出回路7cによる検出結果に基づいて発話が終了していると判定された場合は、録音装置12に録音した音声信号を出力するようにしたので、PTT(Push To Talk)スイッチのような特別なボタンスイッチを設けて発話のたびに操作する必要がなく、かつまた発話者の音声入力意志を検出するためのカメラを含む画像処理装置のような高価な設備とそれらの複雑な処理を必要とせずに、発話者が意図した音声のみを入力して認識することができる。
また、第5の実施の形態によれば、接触検出センサー2の検出結果が接触状態から非接触状態へ変化したときに発話中であると判定された場合は、録音装置12に録音した音声信号を出力せずに消去するようにしたので、不完全な発話音声に基づく音声操作内容の誤認識を防止することができる。
《発明の第6の実施の形態》
本願発明を車両用音声認識装置に適用し、車載機器の音声操作を行う第6の実施の形態を説明する。図10は第6の実施の形態の構成を示す図である。なお、図3および図7に示す機器と同様な機器に対しては同一の符号を付して相違点を中心に説明する。
本願発明を車両用音声認識装置に適用し、車載機器の音声操作を行う第6の実施の形態を説明する。図10は第6の実施の形態の構成を示す図である。なお、図3および図7に示す機器と同様な機器に対しては同一の符号を付して相違点を中心に説明する。
認識装置21、22は図示しないCPUやメモリなどを備え、後述する音声認識プログラムを実行して運転者の発話音声の入力と認識を行う。言語辞書23は音声操作用のキーワードの音響モデルと辞書を記憶する記憶装置であり、認識装置21による音声操作用キーワードの認識に用いられる。この一実施の形態では音声操作対象の車載機器の名称を音声操作用キーワードとした例を示すが、音声操作用キーワードはこの例に限定されるものではない。
言語辞書24は音声操作内容の音響モデルと辞書を記憶する記憶装置であり、認識装置22による音声操作内容の認識に用いられる。ここで、音声操作内容とは、音声操作対象の車載機器をどのように操作するかを表す言葉である。言語辞書24は、音声操作内容を音声操作対象機器ごとにグループ分けし、各グループごとに認識可または不可を設定することができる。すなわち、認識装置21で音声操作用キーワードとして「エアコン」が認識された場合は、言語辞書24に記憶されている音声操作内容の中の「エアコン」グループのみを音声認識に使用可とし、他の車載機器グループを使用不可とする。
なお、図10においてリレー8を便宜的に接点を用いて図示するが、この第6の実施の形態ではリレー8をマイクロコンピューターのソフトウエア形態で実現した例を示す。また、この一実施の形態では運転者が接触型マイク1へ接触して「エアコンを入れる」と発話した例を示す。
図11は音声認識プログラムを示すフローチャートである。このフローチャートにより、第6の実施の形態の動作を説明する。認識装置21、22のCPUは、車両のイグニッションスイッチ(不図示)がオンするとこの音声認識プログラムを繰り返し実行する。
ステップ21において接触検出センサー2により接触型マイク1への運転者の接触が検出されたか否かを確認し、接触が検出されたらステップ22へ進む。ステップ22では録音装置12に接触型マイク1で集音した運転者の発話音声の録音を開始する。ステップ23において接触検出センサー2により接触型マイク1から運転者が離れて非接触状態が検出されたか否かを確認し、非接触状態が検出されたらステップ24へ進む。ステップ24では運転者の発話音声の録音を終了する。
ステップ25において、言語辞書23を参照して録音装置12に録音した運転者の発話音声の中に音声操作用のキーワードが含まれているか否かの認識処理を行う。続くステップ26で運転者の発話音声の中に言語辞書23に予め登録した音声操作用キーワードが含まれているか否かを確認し、キーワードが含まれていない場合はステップ28へ進み、録音装置12に録音された運転者の発話音声を消去してステップ1へ戻る。
一方、運転者の発話音声の中に音声操作用キーワードが含まれている場合はステップ27へ進み、言語辞書24を参照して録音装置12に録音した運転者の発話音声から音声操作内容の認識処理を行う。ここでは、言語辞書24に予め登録した音声操作内容の内、音声操作対象機器として認識された「エアコン」グループに含まれる音声操作内容のみを用いて運転者の発話音声の認識を行う。これにより、運転者の発話音声の誤認識を防止することができる。
ステップ29で運転者の発話音声の中に言語辞書24に予め登録した音声操作内容が含まれているか否かを確認し、音声操作内容が含まれている場合はステップ30へ進み、音声操作対象機器、この例では車両用空調装置(エアコン)へ音声操作内容「入れる」を送信する。一方、音声操作内容が言語辞書24に含まれていなかった場合はステップ28へ進み、録音装置12に録音されている運転者の発話音声を消去してステップ1へ戻る。
なお、図11の音声認識処理の内、ステップ26〜27の処理がリレー8の動作に相当する。
このように、第6の実施の形態によれば、人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイク1と、接触型マイク1の接触または非接触の状態を検出する接触検出センサー2と、接触検出センサー2より接触状態が検出されている間、接触型マイク1で集音した音声信号を録音する録音装置12とを備え、録音装置12に録音されている音声信号の中に音声操作対象機器の名称が含まれているか否かを認識し、音声信号の中に音声操作対象機器の名称が含まれていると認識された場合に、録音装置12に録音されている音声信号に基づいて音声操作対象機器の操作内容を認識し、音声操作対象機器へ操作内容を出力するようにしたので、PTT(Push To Talk)スイッチのような特別なボタンスイッチを設けて発話のたびに操作する必要がなく、かつまた発話者の音声入力意志を検出するためのカメラを含む画像処理装置のような高価な設備とそれらの複雑な処理を必要とせずに、発話者が意図した音声のみを入力して正しく認識することができる。
《発明の第7の実施の形態》
本願発明を車両用音声認識装置に適用し、車載機器の音声操作を行う第7の実施の形態を説明する。図12は第7の実施の形態の構成を示す図である。なお、図6および図7に示す機器と同様な機器に対しては同一の符号を付して相違点を中心に説明する。
本願発明を車両用音声認識装置に適用し、車載機器の音声操作を行う第7の実施の形態を説明する。図12は第7の実施の形態の構成を示す図である。なお、図6および図7に示す機器と同様な機器に対しては同一の符号を付して相違点を中心に説明する。
この第7の実施の形態では2台の接触型マイク1、10を用い、接触型マイク1をエアコンの音声操作用として用い、接触型マイク10を運転席パワーシートの音声操作用として用いた例を示す。なお、接触型マイクの台数と各マイクの操作対象機器はこの一実施の形態に限定されない。
認識装置25は図示しないCPUやメモリなどを備え、後述する音声認識プログラムを実行して運転者の発話音声の入力と認識を行う。言語辞書26は音声操作用言語の音響モデルと辞書を記憶する記憶装置であり、認識装置25による音声操作用言語の認識に用いられる。
図13は音声認識プログラムを示すフローチャートである。このフローチャートにより、第7の実施の形態の動作を説明する。認識装置25のCPUは、車両のイグニッションスイッチ(不図示)がオンするとこの音声認識プログラムを繰り返し実行する。なお、この一実施の形態では「エアコン」音声操作用の接触型マイク1に運転者が接触して「エアコンを入れる」と発話した例を示す。
ステップ31において接触検出センサー2または11により接触型マイク1または10への運転者の接触が検出されたか否かを確認し、接触が検出されたらステップ32へ進む。ステップ32では録音装置12に接触型マイク1または10で集音した運転者の発話音声の録音を開始するとともに、接触を検出したセンサー2または11により音声操作対象機器を特定してメモリに記憶する。
ステップ33において接触検出センサー2および11により接触型マイク1および10から運転者が離れて非接触状態が検出されたか否かを確認し、非接触状態が検出されたらステップ34へ進む。ステップ34では運転者の発話音声の録音を終了する。
ステップ35において言語辞書26を参照して録音装置12に録音されている運転者の音声操作内容の認識処理を行う。続くステップ36で認識結果の音声操作内容がメモリに記憶した操作対象機器の操作内容であるか否かを確認する。エアコン音声操作用の接触型マイク1で集音した運転者の発話内容がエアコンの音声操作内容であった場合はステップ37へ進み、車両用空調装置(エアコン)へ音声操作内容「入れる」を送信する。
一方、エアコン音声操作用の接触型マイク1で集音した運転者の発話内容がエアコン以外の音声操作内容であった場合はステップ38へ進み、録音装置12の録音音声を消去してステップ1へ戻る。
このように、第7の実施の形態によれば、人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイクを備え、接触型マイクで集音した音声信号に基づいて操作内容を認識し、認識した操作内容を音声操作対象機器へ出力する音声認識装置において、接触型マイクを音声操作対象機器ごとに設けるとともに、それぞれの接触型マイクの接触または非接触の状態を検出する接触検出センサーを設け、認識された操作内容が、接触検出センサーにより接触状態が検出された接触型マイクに対応する音声操作対象機器の操作内容である場合に、その音声操作対象機器へ操作内容を出力するようにしたので、複数の接触型マイクを用いて音声操作を行う場合でも、PTT(Push To Talk)スイッチのような特別なボタンスイッチを設けて発話のたびに操作する必要がなく、かつまた発話者の音声入力意志を検出するためのカメラを含む画像処理装置のような高価な設備とそれらの複雑な処理を必要とせずに、発話者が意図した音声のみを入力して正しく認識することができる。
特許請求の範囲の構成要素と一実施の形態の構成要素との対応関係は次の通りである。すなわち、接触検出センサー2が接触検出手段および音声入力手段を、接触検出センサー11が接触検出手段を、リレー8が音声入力手段を、録音装置12が録音手段を、レベル検出回路7cがレベル検出手段を、コントローラー7が発話判定手段および音声出力手段を、認識装置21が機器名認識手段を、認識装置22が操作内容認識手段を、認識装置25が操作内容認識手段および認識結果出力手段をそれぞれ構成する。なお、以上の説明はあくまで一例であり、発明を解釈する際、上記の実施の形態の記載事項と特許請求の範囲の記載事項との対応関係になんら限定も拘束もされない。
1、10 接触型マイク
1a、10a エレクトレット膜
1b、10b 増幅器
2、11 接触検出センサー
7 コントローラー
8 リレー
12 録音装置
21、22、25 認識装置
23、24、26 言語辞書
1a、10a エレクトレット膜
1b、10b 増幅器
2、11 接触検出センサー
7 コントローラー
8 リレー
12 録音装置
21、22、25 認識装置
23、24、26 言語辞書
Claims (10)
- 人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイクロフォン(以下、接触型マイクという)と、
前記接触型マイクの接触または非接触の状態を検出する接触検出手段と、
前記接触検出手段により接触状態が検出されたときに、前記接触型マイクからの音声信号の入力を開始する音声入力手段とを備えることを特徴とする音声入力装置。 - 請求項1に記載の音声入力装置において、
前記音声入力手段は、発話終了と判断できる時間の間、前記接触検出手段により非接触状態が検出されたときに、前記接触型マイクからの音声信号の入力を終了することを特徴とする音声入力装置。 - 請求項2に記載の音声入力装置において、
前記音声入力手段は、前記発話終了と判断できる時間の経過前に前記接触検出手段によりふたたび接触状態が検出された場合は、前記接触型マイクからの音声信号の入力を終了することを特徴とする音声入力装置。 - 請求項1に記載の音声入力装置において、
前記接触型マイクと前記接触検出手段とを複数組備え、
前記音声入力手段は、前記複数の接触検出手段の内のいずれかにより接触状態が検出されたときに、前記複数の接触型マイクからの音声信号の入力を開始することを特徴とする音声入力装置。 - 請求項4に記載の音声入力装置において、
前記音声入力手段は、発話終了と判断できる時間の間、すべての前記接触検出手段により非接触状態が検出されたときに、前記接触型マイクからの音声信号の入力を終了することを特徴とする音声入力装置。 - 請求項5に記載の音声入力装置において、
前記音声入力手段は、前記発話終了と判断できる時間の経過前に前記複数の接触検出手段の内のいずれかによりふたたび接触状態が検出された場合は、前記接触型マイクからの音声信号の入力を終了することを特徴とする音声入力装置。 - 人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイクロフォン(以下、接触型マイクという)と、
前記接触型マイクの接触または非接触の状態を検出する接触検出手段と、
前記接触検出手段により接触状態が検出されている間、前記接触型マイクで集音した音声信号を録音する録音手段と、
前記接触型マイクから出力される音声信号のレベルを検出するレベル検出手段と、
前記レベル検出手段による検出結果に基づいて発話中か否かを判定する発話判定手段と、
前記接触検出手段の検出結果が接触状態から非接触状態へ変化する前に、前記発話判定手段により発話が終了していると判定された場合は、前記録音手段に録音した音声信号を出力する音声出力手段とを備えることを特徴とする音声入力装置。 - 請求項7に記載の音声入力装置において、
前記音声出力手段は、前記接触検出手段の検出結果が接触状態から非接触状態へ変化したときに、前記発話判定手段により発話中であると判定された場合は、前記録音手段に録音した音声信号を出力せずに消去することを特徴とする音声入力装置。 - 人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイクロフォン(以下、接触型マイクという)と、
前記接触型マイクの接触または非接触の状態を検出する接触検出手段と、
前記接触検出手段により接触状態が検出されている間、前記接触型マイクで集音した音声信号を録音する録音手段と、
前記録音手段に録音されている音声信号の中に音声操作対象機器の名称が含まれているか否かを認識する機器名認識手段と、
前記機器名認識手段で音声信号の中に音声操作対象機器の名称が含まれていると認識された場合に、前記録音手段に録音されている音声信号に基づいて音声操作対象機器の操作内容を認識する操作内容認識手段とを備え、
音声操作対象機器へ操作内容を出力することを特徴とする音声認識装置。 - 人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイクロフォン(以下、接触型マイクという)と、
前記接触型マイクで集音した音声信号に基づいて操作内容を認識する操作内容認識手段と、
前記操作内容認識手段で認識した操作内容を音声操作対象機器へ出力する認識結果出力手段とを備えた音声認識装置であって、
前記接触型マイクを音声操作対象機器ごとに設けるとともに、それぞれの前記接触型マイクの接触または非接触の状態を検出する接触検出手段を設け、
前記認識結果出力手段は、前記操作内容認識手段により認識された操作内容が、前記接触検出手段により接触状態が検出された前記接触型マイクに対応する音声操作対象機器の操作内容である場合に、その音声操作対象機器へ操作内容を出力することを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005161439A JP2006337659A (ja) | 2005-06-01 | 2005-06-01 | 音声入力装置および音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005161439A JP2006337659A (ja) | 2005-06-01 | 2005-06-01 | 音声入力装置および音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006337659A true JP2006337659A (ja) | 2006-12-14 |
Family
ID=37558275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005161439A Pending JP2006337659A (ja) | 2005-06-01 | 2005-06-01 | 音声入力装置および音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006337659A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010196376A (ja) * | 2009-02-25 | 2010-09-09 | Aisin Seiki Co Ltd | ドア制御装置 |
JP2013080015A (ja) * | 2011-09-30 | 2013-05-02 | Toshiba Corp | 音声認識装置および音声認識方法 |
-
2005
- 2005-06-01 JP JP2005161439A patent/JP2006337659A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010196376A (ja) * | 2009-02-25 | 2010-09-09 | Aisin Seiki Co Ltd | ドア制御装置 |
JP2013080015A (ja) * | 2011-09-30 | 2013-05-02 | Toshiba Corp | 音声認識装置および音声認識方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2014112226A1 (ja) | 電子機器及び掃除機 | |
CN107949880A (zh) | 车载用语音识别装置以及车载设备 | |
JP7330066B2 (ja) | 音声認識装置、音声認識方法及びそのプログラム | |
US10861447B2 (en) | Device for recognizing speeches and method for speech recognition | |
JP6459330B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP2000322078A (ja) | 車載型音声認識装置 | |
JP2006337659A (ja) | 音声入力装置および音声認識装置 | |
JP3916861B2 (ja) | 音声認識装置 | |
CN108352167B (zh) | 包括可佩戴设备的车辆语音识别 | |
JP2807241B2 (ja) | 音声認識装置 | |
JP2004521392A (ja) | 発話制御手段と、発話制御手段の機能をテストするためのテスト手段とを有する装置 | |
JP5173895B2 (ja) | 音声認識装置 | |
JP4635683B2 (ja) | 音声認識装置および方法 | |
JPS62150295A (ja) | 音声認識方法 | |
JP3764302B2 (ja) | 音声認識装置 | |
JP4873607B2 (ja) | 皮膚センサを有する電子機器 | |
JP7172120B2 (ja) | 音声認識装置及び音声認識方法 | |
JP2004318026A (ja) | セキュリティペットロボット及びその装置に関する信号処理方法 | |
JP2007267331A (ja) | 発話音声収集用コンビネーション・マイクロフォンシステム | |
WO2019175960A1 (ja) | 音声処理装置および音声処理方法 | |
JP7449070B2 (ja) | 音声入力装置、音声入力方法及びそのプログラム | |
JP7242873B2 (ja) | 音声認識補助装置および音声認識補助方法 | |
JP4581789B2 (ja) | 音声認識装置および方法 | |
JP2015118307A (ja) | 音声認識装置及び音声認識プログラム | |
JP7429107B2 (ja) | 音声翻訳装置、音声翻訳方法及びそのプログラム |