JP2004206063A

JP2004206063A - 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物

Info

Publication number: JP2004206063A
Application number: JP2003198707A
Authority: JP
Inventors: Yasunaga Miyazawa; 康永宮澤
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2002-10-31
Filing date: 2003-07-17
Publication date: 2004-07-22
Anticipated expiration: 2023-07-17
Also published as: US20040138882A1; JP4352790B2

Abstract

【課題】自動車内など多種多様な雑音環境下で高い認識性能を得る。
【解決手段】自動車の走行状況、周囲の環境、搭載機器の動作状態を表すデータを入力し、それによって、現在の雑音が予め分類されたｎ種類の雑音データのどの雑音データに属するかを判別する雑音データ判定部１４と、ｎ種類の雑音データをそれぞれ標準的な音声データに重畳させてｎ種類の雑音重畳音声データを作成したのち、それぞれ雑音除去処理されたｎ種類の雑音除去音声データに基づいて作成されたｎ種類の音響モデルＭ１〜Ｍｎと、マイクロホン１１から雑音の重畳された雑音重畳音声を入力するとともに、前記雑音種類判定結果を入力し、雑音重畳音声に対して雑音除去を行う雑音除去処理部１６と、その雑音除去音声に対し、ｎ種類の音響モデルのうち雑音データ判定部１４で判定された雑音種類に対応した音響モデルを用いて音声認識を行う音声認識処理部１８を有する。
【選択図】図７

Description

【０００１】
【発明の属する技術分野】
本発明は、雑音を有する空間内で音声認識を行うための音声認識用の音響モデル作成方法および音声認識装置に関する。また、本発明の音声認識装置を有する乗り物に関する。
【０００２】
【従来の技術】
最近、音声認識技術は様々な分野で利用され、各種機器を音声によって操作可能とすることが一般的に行われるようになっている。このように、音声によってある特定の機器の操作を可能とすることで、両手で何らかの操作を行っているときに、他の機器操作を行う必要のある場合などにおいてきわめて便利なものとなる。
【０００３】
たとえば、自動車に搭載されているカーナビゲーション、カーオーディオ、カーエアコンディショナ（以下ではエアコンという）などの様々な機器は、通常は、必要なときに運転者が自らの手を使って操作するのが一般的であるが、最近では、これらの機器を音声で操作可能とする技術が種々提案され実用化されつつある。
これによって、運転中であっても、ステアリングから手を離すことなく、これらの機器のスイッチをオン・オフさせたり、それらの機器の機能設定が可能となるので、安全動作にもつながり、今後、ますます普及して行くものと考えられる。
【０００４】
しかし、自動車などに搭載される上述のような機器の操作を音声によって行うには、様々な雑音の存在する環境下で高い認識性能が得られるようにすることが重要であり、この点が従来からの大きな課題ともなっている。
【０００５】
このように、自動車の車内など様々な雑音の存在する環境下で音声認識を行う方法として、図１５に示すような方法で音響モデルを作成し、その音響モデルを用いて図１６に示すように音声認識を行う方法が従来から用いられている。
【０００６】
この従来の音声認識方法で用いられる音響モデル作成処理について図１５を参照しながら説明する。まず、無響室などの雑音のない環境で収集された標準的な音声データ（たとえば、多数の話者が多種類単語について発話して得られた大量の音声データ）Ｖと、ある特定種類の雑音データＮを雑音重畳データ作成部５１に入力して、その標準的な音声データにある特定種類の雑音をあるＳ／Ｎ比で重畳させた雑音重畳音声データＶＮを作成する。
【０００７】
この雑音重畳音声データＶＮに対し、雑音除去処理部５２がスペクトラム・サブトラクション（ＳＳ）やケプストラム平均化処理（ＣＭＮ）など、その雑音の種類に最適な雑音除去処理を施し、雑音除去音声データＶ’（雑音除去処理を行っても除去されない雑音成分が残る）を作成する。そして、音響モデル学習処理部５３がこの雑音除去音声データＶ’を用いて音素ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）や音節ＨＭＭなどの音響モデルＭを作成する。
【０００８】
一方、この従来の音声認識処理は図１６に示すように、マイクロホン６１から入力された話者の音声データ（機器操作用の音声コマンド）に対し、入力信号処理部６２が増幅やＡ／Ｄ変換（アナログ／ディジタル変換）などを行い、そのあと、雑音除去処理部６３が入力音声データに対して雑音除去処理（図１５の雑音除去処理部５２で行ったと同じ手法による雑音除去処理）を行う。
【０００９】
そして、その雑音除去された音声データ（雑音除去音声データという）に対して、音声認識処理部６４が言語モデル６５と図８の音響モデル学習処理部５３で作成された音響モデルＭを用いて音声認識処理する。
【００１０】
しかし、上述した従来の音声認識手法では、ある特定の雑音のみに対応して作成された音響モデルＭのみを使って音声認識するようにしているので、上述したような刻々と変化する多種多様な雑音には対応できず、状況によって発生する雑音が音声認識性能に大きく影響を与え、高い認識率を得ることは難しいという問題がある。
【００１１】
これに対して、特開２００２−１３２２８９号公報に記載の技術のように、様々な雑音の種類に応じた複数種類の音響モデルを作成し、実際の音声認識時には、音声に重畳された雑音に応じて、複数種類の音響モデルの中から最適な音響モデルを選択して音声認識を行うものがある。
【００１２】
【特許文献１】
特開２００２−１３２２８９号公報
【００１３】
【発明が解決しようとする課題】
上述した特許文献１によれば、いくつかの雑音に対応した音響モデルを有し、そのときの雑音に最適な音響モデルを選択して音声認識することによって、確かに、高精度な音声認識が可能となる。
【００１４】
しかし、自動車の車内で音声認識を行う場合、自動車の走行状況に起因する音（速度などに応じたタイヤのパターンノイズや窓の開度に応じた風切り音、回転数や変速ギヤ位置などによるエンジン音）、周囲の環境に起因する音（トンネルなどを通過する際の反響音など）、自動車に搭載されている機器の動作状態に起因する音（カーオーディオの動作音やエアコンの動作音、ワイパーや方向指示器の動作音など）、降雨時における雨音など自動車特有の雑音がマイクロホンから入り、これらの雑音が音声コマンドに重畳した状態で以降の音声認識処理部に渡されることになる。
【００１５】
一般に、自動車の場合、マイクロホンから入力される雑音の種類は上述したように、自動車特有の雑音であり、その種類はある程度限定されるが、走行状況に起因する雑音としてエンジン音だけに注目して考えても、アイドリング時、低速走行時、高速走行時では雑音の大きさや雑音の種類が異なる場合が多い。また。同じ速度で走行していても、変速ギヤ比の関係でエンジンの回転数が高いときと低いときで雑音の大きさや種類が異なるなど、エンジン音だけを考えても、雑音の大きさと種類は様々異なってくる。
【００１６】
さらに、このような走行状況に起因するものだけではなく、上述したように、たとえば、窓の開閉度合いによる風切り音、トンネルや橋など周囲の建造物などの反響音、降雨時（降雨量によっても異なる）による雨音、エアコン、ワイパー、カーオーディオ、方向指示器など各種機器の動作音も雑音としてマイクロホンに入力されてくる。
【００１７】
このように、自動車で発生する雑音は、雑音種類はある程度は限定されるものの、状況によっては同じ種類の雑音であっても様々異なってくることも大きな特徴であり、このような雑音環境下にあっては、前述の特許文献１の技術では対応できない場合がある。
【００１８】
また、これは自動車だけではなく、他の乗り物などでも同じである。さらに、乗り物だけではなく、たとえば、工場や流通センタなどの作業場で音声認識を行う場合も、雑音の種類は自動車とは異なるものの、自動車での音声認識を行う場合と同様のことが言える。
【００１９】
そこで本発明は、たとえば、雑音を有する空間内で音声認識する際、その空間内の雑音環境に適した音声認識を可能とするための音響モデルを作成する音響モデル作成方法および多種多様な雑音環境下で高い認識性能を得ることのできる音声認識装置、さらに、この音声認識装置を備えることによって、多種多様な雑音環境下においても音声による機器操作などを確実に行うことのできる音声認識装置を有する乗り物を提供することを目的としている。
【００２０】
【課題を解決するための手段】
（１）本発明の音響モデル作成方法は、雑音を有する空間内で音声認識を行うための音響モデル作成方法であって、前記雑音を有する空間内で収集可能な各種雑音を収集する雑音収集ステップと、この雑音収集ステップにより収集された雑音を分類して複数種類の雑音データを作成する雑音データ作成ステップと、この雑音データ作成ステップによって作成された複数種類の雑音データを標準的な音声データに重畳させて複数種類の雑音重畳音声データを作成する雑音重畳音声データ作成ステップと、この雑音重畳音声データ作成ステップによって作成された複数種類の雑音重畳音声データに対して雑音除去処理を行って複数種類の雑音除去音声データを作成する雑音除去音声データ作成ステップと、この雑音除去音声データ作成ステップによって作成された複数種類の雑音除去音声データから複数種類の音響モデルを作成する音響モデル作成ステップとを有することを特徴としている。
【００２１】
このように、ある空間内で収集された雑音を分類して複数種類の雑音データを作成し、その複数種類の雑音データを予め用意された標準的な音声データに重畳させて複数種類の雑音重畳音声データを作成し、その複数種類の雑音重畳音声データに対して雑音除去処理を行って、その複数種類の雑音除去音声データから複数種類の音響モデルを作成するようにしているので、その空間内での様々な雑音の種類に対応した最適な音響モデルを作成することができる。
【００２２】
（２）前記（１）の音響モデル作成方法において、複数種類の雑音重畳音声データに対して行われる雑音除去処理は、個々の雑音データに適した雑音除去手法を用いて行うようにしている。
これによって、それぞれの雑音データに対して適正かつ効率的な雑音除去が可能となる。
【００２３】
（３）前記（１）または（２）の音響モデル作成方法において、雑音を有するある空間内は、乗り物内であることが１つの例として考えられる。
これによって、乗り物（たとえば、自動車）特有の様々な雑音の種類に対応した最適な音響モデルを作成することができる。
【００２４】
（４）前記（３）の音響モデル作成方法において、乗り物内で収集可能な各種雑音は、天候、前記乗り物の走行状況、前記乗り物の走行位置、前記乗り物に搭載されている機器の動作状態の少なくとも１つに起因する複数種類の雑音としている。
【００２５】
この雑音は、乗り物が自動車である場合、その一例を挙げれば、走行速度などに応じたエンジン音やタイヤのパターンノイズ、降雨時における雨音、エアコンやカーオーディオ機器などの車載機器の動作音などである。そして、これらの音が雑音として収集され、これらの雑音を分類して、それぞれの雑音グループに対応した雑音データを生成し、それぞれの雑音データごとの音響モデルを作成することによって、乗り物、特に自動車特有の様々な雑音に対応可能な音響モデルを作成することができる。
【００２６】
（５）前記（１）から（４）のいずれかの音響モデル作成方法において、前記雑音収集ステップは、前記収集すべき複数種類の雑音に対応するそれぞれの雑音パラメータを記録する雑音パラメータ記録工程を含み、前記雑音データ作成ステップは、前記収集すべき複数種類の雑音とこの収集すべき雑音に対応するそれぞれの雑音パラメータとを用いて分類することによって前記複数種類の雑音データを作成するようにしている。
【００２７】
この雑音パラメータは、たとえば、その一例を挙げると、自動車の速度を示す情報、エンジン回転数を示す情報、エアコンの動作状態を示す情報などである。これらの雑音パラメータを雑音とともに記録することで、たとえば、どのような速度のときはどのような雑音が発生するかの対応付けが行え、適切な分類が可能となり、実際の雑音環境に適した雑音データ得ることができる。
【００２８】
（６）本発明の音声認識装置は、雑音を有する空間内で音声認識を行う音声認識装置であって、認識すべき音声およびそれ以外の雑音の入力が可能な音入力手段と、前記雑音を有する空間内で収集可能な各種雑音を収集する雑音収集ステップと、その収集された雑音を分類して複数種類の雑音データを作成する雑音データ作成する雑音データ作成ステップと、その作成された複数種類の雑音データを予め用意された標準的な音声データに重畳させて複数種類の雑音重畳音声データを作成する雑音重畳音声データ作成ステップと、その作成された複数種類の雑音重畳音声データに対して雑音除去処理を行って複数種類の雑音除去音声データを作成する雑音除去音声データ作成ステップと、その作成された複数種類の雑音除去音声データから複数種類の音響モデルを作成する音響モデル作成ステップとを有する音響モデル作成方法により作成された複数種類の音響モデルと、前記音入力手段に入力された雑音が、前記複数種類の雑音データのどの雑音データに属する雑音であるかを判別する雑音データ判別手段と、前記音入力手段から雑音の重畳された雑音重畳音声データに対して前記雑音データ判別手段での判別結果に基づいて雑音除去を行う雑音除去処理手段と、この雑音除去処理手段によって雑音除去された雑音除去音声に対し、前記複数種類の音響モデルのうち前記雑音データ判別手段で判別された雑音データに対応した音響モデルを用いて音声認識を行う音声認識手段とを有したことを特徴としている。
【００２９】
このように、本発明の音声認識装置は、現在の雑音が複数種類の雑音データのどの雑音データに属する雑音であるかを判別する雑音データ判別を行い、雑音重畳音声に対して、その雑音データ判定結果に基づいた雑音除去を行う。そして、その雑音除去音声に対し、当該雑音データに対応した音響モデルを用いて音声認識を行うようにしている。また、この音声認識装置が用いる複数種類の音響モデルは、上述した音響モデル作成方法によって作成された音響モデルである。
【００３０】
これによって、ある空間内に存在する雑音に対し最適な雑音除去処理が行えるとともに、その時点の雑音に対して最適な音響モデルを用いた音声認識が可能となるので、たとえば、自動車や作業場など特有の雑音環境下で高い認識性能を得ることができる。
【００３１】
（７）前記（６）の音声認識装置において、音入力手段に入力された雑音に対応する雑音パラメータを取得する雑音パラメータ取得手段を有するようにしている。
この雑音パラメータ取得手段を設けることによって、収集すべき雑音とその雑音の発生源との関連付けを確実に行うことができる。
【００３２】
（８）前記（６）または（７）の音声認識装置において、前記分類によって得られた複数種類の雑音データに対して行われる雑音除去処理は、個々の雑音データに適した雑音除去手法を用いて行うようにしている。
これによって、それぞれの雑音データに対して適正かつ効率的な雑音除去が可能となる。
【００３３】
（９）前記（６）から（８）のいずれかの音声認識装置において、雑音を有するある空間内は、乗り物内であることが１つの例として考えられる。
これによって、乗り物（たとえば、自動車）特有の様々な雑音の影響を考慮した音声認識を行うことができる。たとえば、運転者が乗り物自体または乗り物に搭載された機器などの操作や動作設定を行うような場合、高い認識精度で認識されることによって確実な操作や動作設定が可能となる。
【００３４】
（１０）前記（９）の音声認識装置において、乗り物内で収集可能な各種雑音は、天候、前記乗り物の走行状況、前記乗り物の走行位置、前記乗り物に搭載されている機器の動作状態の少なくとも１つに起因する複数種類の雑音でとしている。
これによって、乗り物（たとえば、自動車）特有の様々な雑音に対応可能な音響モデルを作成することができ、その音響モデルを用いることによって、その乗り物特有の様々な雑音の影響を考慮した音声認識が可能となり、高い認識精度を得ることができる。
【００３５】
（１１）前記（６）から（１０）のいずれかの音声認識装置において、音響モデルを作成するための前記雑音収集ステップは、前記収集すべき複数種類の雑音に対応するそれぞれの雑音パラメータを記録する工程を含み、前記雑音データ作成ステップは、前記収集すべき複数種類の雑音とこの収集すべき雑音に対応するそれぞれの雑音パラメータとを用いて分類することによって前記複数種類の雑音データを作成するようにしている。
【００３６】
これによって、乗り物特有の雑音を適切に分類することができ、その分類によって得られた雑音データに対応した音響モデルを作成することができ、その音響モデルを用いることによって、その乗り物特有の様々な雑音の影響を考慮した音声認識が可能となり、高い認識精度を得ることができる。
【００３７】
（１２）前記（６）から（１１）のいずれかの音声認識装置において、前記複数種類の音響モデルを作成する際の雑音除去処理と前記認識すべき音声に対する音声認識を行う際の雑音除去処理は同じ雑音除去手法を用いるようにしている。
これによって、様々な雑音環境下において、高い認識精度を得ることができる。
【００３８】
（１３）本発明の音声認識装置は、雑音を有するある空間内で音声認識を、前記（１）から（５）の音響モデル作成方法によって作成された複数種類の音響モデルを用いて行う音声認識装置であって、認識すべき音声およびそれ以外の雑音の入力が可能な音入力手段と、前記音入力手段から入力された現在の雑音が、予め分類された複数種類の雑音データのどの雑音データに属する雑音であるかを判別する雑音データ判別手段と、前記音入力手段から雑音の重畳された雑音重畳音声データに対して前記雑音データ判別手段での判別結果に基づいて雑音除去を行う雑音除去処理手段と、この雑音除去処理手段によって雑音除去された雑音除去音声に対し、前記複数種類の音響モデルのうち前記雑音データ判別手段で判別された雑音種類に対応した音響モデルを用いて音声認識を行う音声認識手段とを有したことを特徴としている。
本発明の音声認識装置をこのような構成とすることによっても前記（６）の音声認識装置と同じ効果を得ることができる。
【００３９】
（１４）本発明の音声認識装置を有する乗り物は、音声によって機器操作の可能な音声認識装置を有する乗り物であって、前記音声認識装置として、前記（６）から（１３）のいずれかに記載の音声認識装置を有することを特徴としている。
これによって、たとえば、運転者が乗り物自体または乗り物に搭載された機器などの操作や動作設定を行うような場合、その乗り物特有の様々な雑音に適合した音響モデルを用いた音声認識が行えるので、高い認識精度を得ることができ、運転者などが音声で行う操作や動作設定が確実なものとなる。
【００４０】
【発明の実施の形態】
以下、本発明の実施の形態について説明する。なお、この実施の形態で説明する内容は、本発明の音響モデル作成方法、音声認識装置、音声認識装置を備えた乗り物の説明を含むものである。
【００４１】
また、本発明の実施の形態では、雑音を有する空間としては乗り物と工場を例にとって説明し、乗り物についての実施の形態を実施の形態１、工場についての実施の形態を実施の形態２として説明する。また、乗り物は自動車や２輪車などの車両の他、電車、飛行機、船舶など種々考えられるが、ここでは、自動車を例にとって説明する。
【００４２】
〔実施の形態１〕
まず、音声認識用の音響モデル作成方法の大まかな処理手順について図１のフローチャートを参照しながら簡単に説明する。これは、ここで説明する実施の形態１と後述する実施の形態２で共通である。
【００４３】
まず、前記雑音を有する空間内で収集可能な各種雑音を収集する（ステップＳ１）。そして、これによって収集された雑音を分類して複数の雑音グループに対応した複数種類の雑音データを作成し（ステップＳ２）、この複数種類の雑音データを予め用意された標準的な音声データに重畳させて複数種類の雑音重畳音声データを作成する（ステップＳ３）。続いて、この複数種類の雑音重畳音声データに対して雑音除去処理を行って複数種類の雑音除去音声データを作成し（ステップＳ４）、これによって作成された複数種類の雑音除去音声データから複数種類の音響モデルを作成する（ステップＳ５）。
【００４４】
以下、自動車を例にとって、本発明を詳細に説明する。まず、図１で説明した処理手順を図２を用いてより詳細に説明する。
自動車の場合、音声コマンド入力用のマイクロホンに入力される雑音の種類は自動車特有のものが多く、しかも、その雑音をあらかじめ収集しておくこともできる。
【００４５】
そこで、自動車の室内で音声認識を行う際、音声認識性能に影響を与えそうな自動車特有の多種多様な雑音を収集し、収集された多種多様な雑音を統計的手法によって分類して、ｎ個の雑音グループを作成し、それぞれの雑音グループごとの雑音データＮ１，Ｎ２，・・・，Ｎｎを作成する（これについて後に詳細に説明する）。
【００４６】
なお、このｎ個の雑音グループごとの雑音データＮ１，Ｎ２，・・・，Ｎｎ（ｎ種類の雑音データＮ１，Ｎ２，・・・，Ｎｎ）には、Ｓ／Ｎ比の違いも考慮されている。たとえば、同じ雑音でもＳ／Ｎ比が０デシベルから２０デシベル程度に広がっている場合、Ｓ／Ｎ比の違いで雑音を分類して、ｎ個の雑音グループに分けて、ｎ種類の雑音データＮ１，Ｎ２，・・・，Ｎｎを作成する。
【００４７】
そして、無響室などで収集された標準的な音声データＶ（たとえば、多数の話者が多種類の単語について発話して得られた大量の音声データ）と上述のｎ種類の雑音データＮ１，Ｎ２，・・・，Ｎｎとを雑音重畳音声データ作成部１に与え、標準的な音声データＶと上述のｎ種類の雑音データＮ１，Ｎ２，・・・，Ｎｎとをそれぞれ重畳させてｎ種類の雑音重畳音声データＶＮ１，ＶＮ２，・・・，ＶＮｎを作成する。
【００４８】
そして、雑音除去処理部２がｎ種類の雑音重畳音声データＶＮ１，ＶＮ２，・・・，ＶＮｎに対して最適な雑音除去処理手法を用いて雑音除去処理を行い、ｎ種類の雑音除去音声データＶ１’，Ｖ２’，・・・，Ｖｎ’を作成する。その後、音響モデル学習処理部３がこのｎ種類の雑音除去音声データＶ１’，Ｖ２’，・・・，Ｖｎ’を用いて音響モデルの学習を行い、ｎ種類の音響モデルＭ１，Ｍ２，・・・，Ｍｎを作成する。
【００４９】
なお、ｎ種類の雑音重畳音声データＶＮ１，ＶＮ２，・・・，ＶＮｎに対するそれぞれ最適な雑音除去処理手法としては、ｎ種類の雑音重畳音声データＶＮ１，ＶＮ２，・・・，ＶＮｎごとに用意されたｎ種類の雑音除去処理を用いて行うようにしてもよいが、数種類の代表的な雑音除去処理手法を用意して、その中からそれぞれの雑音重畳音声データにとって最適と思われる雑音除去処理手法を選択して用いるようにしてもよい。
【００５０】
数種類の代表的な雑音除去処理手法としては、たとえば、前述したようなスペクトラム・サブストラクション（ＳＳ）やケプストラム平均化処理（ＣＭＮ）、さらには、音源を推定したエコーキャンセルなどがあり、これら雑音除去処理手法のうち、それぞれの雑音に最適な１つの雑音除去手法を選んで雑音除去を行うようにしてもよく、また、これらの雑音除去手法のうち２種類以上を組み合わせて、組み合わせたそれぞれの雑音除去手法に重み付けを行って雑音除去するようにしてもよい。
【００５１】
次に、収集された多種多様な雑音を、ある統計的手法によって幾つか（ｎ個）に分類し、その分類によって得られたそれぞれの雑音グループごとのｎ種類の雑音データＮ１，Ｎ２，・・・，Ｎｎを生成する具体的な例について図３を参照しながら詳細に説明する。
【００５２】
この実施の形態１では、自動車に搭載された機器を操作するための音声コマンドを認識する際に本発明を適用する例であるので、雑音収集用の自動車を様々な条件で様々な状況のもとに長期間走行させて、自動車内の所定の場所に設置されたマイクロホン１１から自動車特有の多種多様な雑音を時系列で収集する。
【００５３】
なお、このマイクロホン１１は、雑音収集用の自動車内において、運転者が音声によって機器操作を行う際、話者の音声コマンドを適正に入力できるような位置に設置することが望ましい。
【００５４】
このマイクロホン１１は、本発明の音声認識装置を実際に搭載するユーザ向け販売用の車種において、その設置位置がたとえばステアリング部分というように決められている場合にはその位置にマイクロホン１１を設置して、そのマイクロホン１１から雑音を収集する。そして、この収集された雑音は入力信号処理部１２で増幅やＡ／Ｄ変換などの入力信号処理が施されたのちに雑音記録部２２に記録される。
【００５５】
また、設計・開発段階などでマイクロホン１１の設置位置が決定されていない場合は、設置候補となり得る複数の位置に設置して、それぞれのマイクロホン１１から雑音を収集するようにしてもよい。この実施の形態では、設置位置はすでに決められているものとし、その設置位置に設置された１つのマイクロホン１１から雑音を収集する例について説明する。
【００５６】
また、マイクロホン１１からの雑音収集と同時に、自動車の走行状況、現在位置、天候（ここでは雨量としている）、自動車に搭載されている各種機器の動作状態などを表す情報（雑音パラメータと呼ぶことにする）を時系列で収集する。
【００５７】
この雑音パラメータは、自動車の速度を示す情報、エンジン回転数を示す情報、変速ギヤの位置を示す情報、窓の開閉状況（開度）を示す情報、エアコンの動作状態（風量の設定状態など）を示す情報、ワイパーの動作状態を示す情報、方向指示器の動作状態を示す情報、雨量計からの雨量を示す情報、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）による走行位置情報、カーオーディオの音信号を示す情報などであり、これら各雑音パラメータは、これらの雑音パラメータの取得が可能な雑音パラメータ取得部１３から時系列に取得されて雑音パラメータ記録部２１に記録される。
【００５８】
なお、これら雑音パラメータ取得部１３は自動車に設置されている。そして、たとえば、走行速度を示す情報を取得する速度情報取得部１３１、エンジン回転数を示す情報を取得する回転数情報取得部１３２、変速ギヤ位置を示す情報を取得する変速ギヤ位置情報取得部１３３、窓の開度をたとえば開度０％、開度５０％、開度１００％などというような情報として取得する窓開度情報取得部１３４、エアコンの動作状態をたとえば動作停止・風量（弱風・強風）などの情報として取得するエアコン動作情報取得部１３５、ワイパーのオン・オフ情報を取得するワイパー情報取得部１３６、方向指示器のオン・オフ情報を取得する方向指示器情報取得部１３７、ＧＰＳからの現在位置情報を取得する現在位置情報取得部１３８、雨量センサからの雨量情報（雨量なし、少量・多量など）を示す情報を取得する雨量情報取得部１３９、カーオーディオからの音量などの情報を取得するカーオーディオ情報取得部１４０などからなる。
【００５９】
なお、上述したような実際に自動車を走行させてマイクロホン１１から時系列に収集される雑音データと、雑音パラメータ取得部１３の各情報取得部１３１〜１４０から時系列に取得される各雑音パラメータは、実際に自動車を走行（停止状態も含む）させることによって得られるものである。
【００６０】
すなわち、その自動車をたとえば１ヶ月あるいは数ヶ月といった長期間、色々な場所、色々な天候のもとで走行させ、かつ、各雑音パラメータを色々変化させる。
たとえば、走行速度を色々変化させたり、エンジン回転数を色々変化させたり、変速ギヤを色々変化させたり、窓の開度を色々変化させたり、エアコンを色々な設定状態としたり、カーオーディオから色々な音信号を出力させたり、ワイパーや方向指示器などを適宜操作させるというように、自動車の走行時にあり得る様々な状態を作り出す。
【００６１】
これによって、マイクロホン１１からは多種多様な雑音が時系列で入力され、入力信号処理部１２で増幅処理やディジタル信号への変換処理（Ａ／Ｄ変換）がなされて、収集された雑音として雑音記録部２２に記録されるとともに、その時々の各雑音パラメータが雑音パラメータ取得部１３で時系列に取得されて雑音パラメータ記録部２１に記録される。
【００６２】
そして、雑音分類処理部２３が、マイクロホン１１で収集された時系列の雑音（雑音記録部２２に記録された時系列の雑音）と雑音パラメータ記録部２１に記録された雑音パラメータとを用いて、ある統計的手法によってその収集された雑音を分類してｎ個の雑音グループを作成し、それぞれの雑音グループごとの雑音データＮ１，Ｎ２，・・・，Ｎｎを生成する。
【００６３】
この雑音分類処理部２３が行う雑音分類には幾つかの手法が考えられるが、たとえば、収集された時系列の雑音データの特徴ベクトルをベクトル量子化して、そのベクトル量子化結果を用いてｎ個の雑音グループに分類する方法、あらかじめ用意された幾つかの音声認識用データに実際に重畳させてそれを実際に音声認識させて、その認識結果に基づいてｎ個の雑音グループに分類する方法などがある。
【００６４】
なお、ｎ種類の雑音データＮ１，Ｎ２，・・・，Ｎｎは、それぞれの雑音データＮ１，Ｎ２，・・・，Ｎｎごとに、走行速度を示す情報、回転数を示す情報、変速ギヤを示す情報、窓の開度を示す情報、エアコンの動作状態を示す情報など上述した様々な雑音パラメータの値に依存したものであるため、これらそれぞれの雑音パラメータとｎ種類の雑音データＮ１，Ｎ２，・・・，Ｎｎは互いに対応付けられたものとなっている。
【００６５】
たとえば、雑音データＮ１は、走行速度が時速４０ｋｍから時速８０ｋｍの範囲内、回転数が１５００ｒｐｍから３０００ｒｐｍの範囲内、変速ギヤがトップギヤ、窓の開度は０（閉状態）、エアコンは弱風動作、ワイパーはオフ、・・・（そのほかの雑音パラメータは省略）に対応した雑音データであって、雑音データＮ２は、走行速度が時速８０ｋｍから１００ｋｍの範囲内、回転数が３０００ｒｐｍから４０００ｒｐｍの範囲内、変速ギヤがトップギヤ、窓の開度は５０％（半開き状態）、エアコンは強動作、ワイパーはオフ、・・・（そのほかの雑音パラメータは省略）に対応した雑音データであるといった具合である。
【００６６】
これによって、現時点におけるそれぞれの雑音パラメータがそれぞれどのような値であるときは、そのときの雑音はｎ種類の雑音データＮ１，Ｎ２，・・・，Ｎｎのどの雑音データに属する雑音であるかを知ることができる。なお、ｎ種類の雑音データＮ１，Ｎ２，・・・，Ｎｎの具体例については後に説明する。
【００６７】
このようにして、ｎ種類の雑音データＮ１〜Ｎｎが作成されると、図２に示すように、これら雑音データＮ１〜Ｎｎを標準的な音声データＶ（無響室などで収集された多数の話者が多種類単語について発話して得られた大量の音声データ）に重畳させ、ｎ種類の雑音重畳音声データＶＮ１，ＶＮ２，・・・，ＶＮｎを作成する。
【００６８】
そして、このｎ種類の雑音重畳音声データに対し、それぞれの雑音データＮ１〜Ｎｎを除去するに最適な雑音除去処理手法（前述したようにこの実施の形態１では、３種類の雑音除去処理のどれか、またはそれらの組み合わせ）を用いて、雑音除去処理を行い、ｎ個の雑音除去音声データＶ１’，Ｖ２’，・・・，Ｖｎ’を作成し、このｎ個の雑音除去音声データＶ１’，Ｖ２’，・・・，Ｖｎ’を用いて音響モデルの学習を行い、ｎ個の音響モデルＭ１，Ｍ２，・・・，Ｍｎを作成する。
このｎ個の音響モデルＭ１，Ｍ２，・・・，Ｍｎは、ｎ種類の雑音データＮ１〜Ｎｎに対応するものである。
【００６９】
つまり、音響モデルＭ１は雑音データＮ１の重畳した音声データ（雑音重畳音声データＶＮ１）から雑音データＮ１を除去した後（雑音データＮ１は完全には除去されないでその成分が残っている）の音声データＶ１’から作られた音響モデルであり、音響モデルＭ２は雑音データＮ２の重畳した音声データから雑音データＮ２を除去した後（雑音データＮ２は完全には除去されないでその成分が残っている）の音声データから作られた音響モデルである。
【００７０】
また、音響モデルＭｎは雑音データＮｎの重畳した音声データ（雑音重畳音声データＶＮｎ）から雑音データＮｎを除去した後（雑音データＮｎは完全には除去されないでその成分が残っている）の音声データＶｎ’から作られた音響モデルである。
以上のようにして、本発明の実施の形態１である自動車の機器操作を音声によって行う際の音声認識に用いられる音響モデルＭ１，Ｍ２，・・・，Ｍｎが作成される。
【００７１】
次に、このような音響モデルＭ１，Ｍ２，・・・，Ｍｎを作成する際の雑音データ（マイクロホン１１から収集された雑音）の分類処理について具体的に説明する。
【００７２】
雑音収集を行うために長期間自動車を走行させることによって収集された雑音には様々な雑音が含まれる。たとえば、タイヤのパターンノイズ（主に速度に関係する）やエンジン音（主に速度、エンジンの回転数、ギヤ位置に関係する）、窓が開いている場合の風切り音、エアコンの動作音、雨が降っていれば雨そのものの音やワイパーの動作音、方向変換時には方向指示器の動作音、トンネル通過時は反響音、カーオーディオの動作中には音楽などの音信号などが収集される。
【００７３】
そして、ある時刻においては、これらがすべて雑音として収集される場合もあり、また、ある時刻においては、これらのうち、たとえば、タイヤのパターンノイズやエンジン音だけが収集される場合もある。また、このような雑音とともに、それぞれの時刻対応にその自動車に設置された各種の雑音パラメータ取得部１３で取得された雑音パラメータが記録されている。
【００７４】
本来、雑音は前述したように多種存在し、マイクロホン１１からは個々の雑音パラメータに対応した雑音、また、複数の雑音パラメータの組み合わせに対応した数多くの種類の雑音が収集され、このマイクロホン１１から収集された雑音を統計的手法によって実用的な数の雑音グループ数とするための分類処理がなされる。しかし、ここでは、説明をより簡素化するために、３種類の雑音パラメータ（走行速度、エアコンの動作状態、雨量）のみで考え、これら走行速度、エアコンの動作状態、雨量の３つの雑音パラメータを３次元座標における３つの直交軸上の値（ここではそれぞれ３段階の状態を示す値）で表して分類する例について説明する。
【００７５】
この場合、速度は「停車時（速度０）」、「低速」、「高速」の３段階で表し、エアコンの動作状態は、「停止」、「弱風」、「強風」の３段階で表し、雨量は「無」、「少量」、「多量」の３段階で表すものとする。
【００７６】
なお、速度の「低速」および「高速」は、たとえば、６０ｋｍ／ｈまでを低速、それ以上を高速というように予め範囲を決めておく。また、雨量も同様に、雨量計から得られる１時間雨量が０ｍｍを「無」、同じく、雨量計から得られる１時間雨量が５ｍｍまでを「少量」、それ以上を「多量」というように予め範囲を決めておく。
【００７７】
また、この雨量を示す雑音パラメータ（「無」、「少量」、「多量」）は、雨量計からではなく、ワイパーの動作状態を用いることもできる。たとえば、ワイパーがオフしていれば、雨量は「無」、ワイパーが低速動作であれば雨量は「少量」、ワイパーが高速動作であれば雨量は「多量」というように判定できる。
【００７８】
図４は上述の３種類の雑音パラメータによる雑音を収集対象とし、これら３種類の雑音パラメータに対応して発生する雑音を１つのマイクロホン１１を用いて長期間かけて収集した雑音データ（これをＮで表す）を１つの大きな球体で表している。この図４は速度を「停車時」、「低速」、「高速」の３段階、エアコンの動作状態を「停止」、「弱風」、「強風」の３段階、雨量を「無」、「少量」、「多量」の３段階として、それらを３次元座標上で表したものである。
【００７９】
この雑音データＮに対し、ベクトル量子化などを用いた統計的手法を用いることなく単純に、個々の雑音パラメータごとに分類すると、図５のようになる。この場合、３の３乗個（２７個）の雑音グループが得られ、それぞれの雑音グループに対応した２７個の雑音データＮ１〜Ｎ２７が得られる。この２７個の雑音データＮ１〜Ｎ２７をそれぞれ小さな球体で表している。
【００８０】
この図５において、幾つかの雑音データについて説明すると、たとえば、雑音データＮ１は速度が「停車時（速度０）」、エアコンは「停止」、雨量は「無」に対応する雑音データであり、雑音データＮ５は速度が「低速」、エアコンは「弱風」、雨量は「無」に対応する雑音データであり、雑音データＮ２７は速度が「高速」、エアコンは「強風」、雨量は「多量」に対応する雑音データである。
【００８１】
なお、この図５では、個々の雑音データＮ１〜Ｎ２７を雨量が「無」、「少量」、「多量」で色の濃さを分けして表しており、雨量が「無」における３×３個の雑音データＮ１〜Ｎ９を最も薄い色で表し、雨量が「少量」における３×３個の雑音データＮ１０〜Ｎ１８を中程度の濃さで表し、雨量の「多量」における３×３個の雑音データＮ１９〜Ｎ２７を最も濃い色で表している。
【００８２】
この図５によれば、確かに、自動車の現時点における雑音パラメータによって、マイクロホン１１にはどのような種類の雑音データが入力されるかを知ることができ、それによって、最適な音響モデルを用いて音声認識することが可能となる。たとえば、現在の自動車の速度が「低速」でエアコンが「弱風」で雨量「無」であれば、そのときの雑音データはＮ５であり、その雑音データＮ５に対応した音響モデルを用いて音声認識を行う。
【００８３】
この図５の場合は、マイクロホン１１から得られた時系列の雑音データを単純に個々の雑音パラメータのとり得る状況の数（この例では２７種類）ごとに分類した例であるが、これをある統計的手法によって分類した例について図６により説明する。
【００８４】
なお、このようなある統計的手法を用いて分類する例として、前述したように、雑音データの各時刻対応の特徴ベクトルをベクトル量子化して、そのベクトル量子化結果を用いて、複数個の雑音グループに分類する方法、あらかじめ用意された幾つかの音声認識用データに実際に重畳させてそれを実際に音声認識させて、その認識結果に基づいて複数個の雑音グループに分類する方法などがある。
【００８５】
このような手法によって分類された結果、図６に示すように９個の雑音グループが作成され、それぞれの雑音グループに対応した９種類の雑音データＮ１〜Ｎ９が作成されたとする。
この図６の場合、雨の音（雨量）が音声認識する上での雑音データとして最も影響が大きく、その次に自動車の走行速度の影響が大きく、エアコンの影響は雨や走行速度に比べて影響が小さいことを示している。
【００８６】
この図６では、雨量が「無」の場合、自動車の走行速度が０（「停車時」）では、エアコンの動作状態に対応した雑音データＮ１，Ｎ２，Ｎ３が作成されている。また、自動車の走行速度が「低速」においては、エアコンの動作状態が「停止」に対応した雑音データＮ４とエアコンの動作状態が「弱風」・「強風」で１つの雑音データＮ５が作成される。すなわち、自動車がある速度で走行している場合には、エアコンの動作状態が「弱風」であっても「強風」であってもその動作音は、自動車の走行による雑音に比べるとその影響は殆どないと判断された結果である。また、自動車の速度が「高速」においては、エアコンの動作状態に関係なく、１つの雑音データＮ６が作成されている。
【００８７】
また、雨が降っていると、たとえ、雨量が「少量」であっても、エアコンがどのような動作状態にあるかは関係なく、自動車の走行速度に依存した雑音データが作成される。すなわち、雨量が「少量」である場合には、走行速度が「低速」まで（停車時を含む）に対応した雑音データＮ７と、「高速」に対応した雑音デ−タＮ８の２種類の雑音グループが作成されている。
また、雨が「多量」である場合には、エアコンの動作状態や自動車の走行速度の影響は殆どなく、１つの雑音デ−タＮ９が作成されている。
【００８８】
以上のように、３種類の雑音パラメータ（走行速度、エアコンの動作状態、雨量）に対応する雑音を収集対象とし、これら３種類の雑音パラメータに依存する雑音を１つのマイクロホン１１を用いて長期間かけて収集した雑音データＮを、ある統計的手法で分類した結果、図６のような雑音データＮ１〜Ｎ９が作成されたとする。
【００８９】
なお、この図６により得られた雑音データＮ１〜Ｎ９は、説明をわかり易くするため、雑音パラメータを３つ（走行速度、エアコンの動作状態、雨量）とした例であるが、実際には、雑音パラメータは、前述したように、多種類存在し、これら多種類の雑音パラメータに依存した各種雑音を長期間収集して、時系列の雑音データを得て、その時系列の雑音データを統計的手法によって分類し、ｎ個の雑音グループを得て、これらそれぞれの雑音グループに対応するｎ種類の雑音データＮ１〜Ｎｎを作成する。
【００９０】
また、実用的な雑音グループ数としては、音響モデル作成処理や音声認識処理の効率化などの点から数個から１０数個程度が好ましいが、これは、任意に設定することができる。
【００９１】
このようにして、ｎ個の雑音グループに対応するｎ種類の雑音データＮ１〜Ｎｎが作成されると、前述したように（図１参照）、このｎ種類の雑音データＮ１〜Ｎｎを標準的な音声データに重畳させてｎ個の雑音重畳音声データＶＮ１，ＶＮ２，・・・，ＶＮｎを作成し、このｎ種類の雑音重畳音声データＶＮ１，ＶＮ２，・・・，ＶＮｎに対し、それぞれの雑音を除去するに最適な雑音除去処理手法を用いて、雑音除去処理を行い、ｎ種類の雑音除去音声データＶ１’，Ｖ２’，・・・，Ｖｎ’を作成する。
【００９２】
そして、このＮ種類の雑音除去音声データＶ１’，Ｖ２’，・・・，Ｖｎ’を用いて音響モデルの学習を行い、ｎ種類の音響モデルＭ１，Ｍ２，・・・，Ｍｎを作成する。これによって、ｎ種類の雑音データＮ１，Ｎ２，・・・、Ｎｎに対応したｎ種類の音響モデルＭ１，Ｍ２，・・・，Ｍｎを作成することができる。
【００９３】
次に上述のようにして作成されたｎ種類の音響モデルＭ１，Ｍ２，・・・，Ｍｎを用いた音声認識について説明する。
【００９４】
図７は本発明の音声認識装置の構成図であり、機器操作用の音声コマンドや様々な雑音を入力する音入力手段としてのマイクロホン１１、このマイクロホン１１から入力された音声コマンドを増幅するとともにディジタル信号に変換（Ａ／Ｄ変換）する入力信号処理部１２、前述した各種雑音パラメータを取得する雑音パラメータ取得部１３、この雑音パラメータ取得部１３から取得された各種の雑音パラメータに基づいて、現在の雑音の種類が前述したｎ個に分類されることによって作成されたｎ種類の雑音データＮ１〜Ｎｎのどれに相当するかを判別する雑音データ判定部１４、雑音データＮ１〜Ｎｎそれぞれに最適な雑音除去方法が保存された雑音除去方法保存部１５、雑音データ判定部１４で判別された雑音データに最適な雑音除去方法を、雑音除去方法保存部１５に保存された各種の雑音除去方法の中から選択し、マイクロホン１１から入力された音声データ（ディジタル変換後の雑音重畳音声データ）に対して雑音除去処理を行う雑音除去処理部１６、この雑音除去処理部１６によって雑音除去された雑音除去音声データに対し、前述の手法によって作成された音響モデルＭ１〜Ｍｎ（ｎ種類の雑音データＮ１〜Ｎｎに対応）のうちのいずれかの音響モデルと言語モデル１７を用いて音声認識を行う音声認識処理部１８を有した構成となっている。
【００９５】
この図７で示される音声認識装置は、乗り物（この実施の形態では自動車）内の適当な場所に設置される。
図８は図７で示される音声認識装置（図８においては、３０の符号が付されている）が設置された乗り物（この図８の例では自動車）の一例を示すもので、音声認識装置３０は、自動車室内の適当なスペースに取り付けられる。なお、音声認識装置３０の設置位置はこの図８の例に限られるものではなく、たとえば、座席と床の間のスペースや荷物室など適当な場所を選ぶことができることは勿論である。また、音声認識装置３０のマイクロホン１１は、運転者が音声を入力しやすい位置として、たとえば、ステアリング３１部分に設けられるが、これもステアリング３１部分に限られるものではない。
【００９６】
ところで、図７に示す雑音データ判定部１４は、雑音パラメータ取得部１３から各種雑音パラメータを受け取って、マイクロホン１１から入力された現在の雑音が、複数種類の雑音データＮ１〜Ｎ９のどの雑音データに属するかを判定するものである。
【００９７】
すなわち、この雑音データ判定部１４は、雑音パラメータ取得部１３からの雑音パラメータとして、たとえば、前述したように、速度情報取得部１３１からの速度を示す情報、エアコン動作情報取得部１３５からのエアコン動作状態を示す情報、雨量情報取得部１３９からの雨量を示す情報など基づいて、現在の雑音状況が雑音データＮ１〜Ｎ９のどの雑音データに属するかを判定する。
【００９８】
たとえば、現在の走行速度が７０ｋｍ、エアコンの動作状態が「弱風」、雨量が「無」といった情報を雑音パラメータとして雑音データ判定部１４が受け取ると、これらの雑音パラメータから、現在の雑音が雑音データＮ１〜Ｎ９のどの雑音データに属するかを判定する。仮に、現在の雑音が雑音データＮ６に属すると判定されたとすると、その判定結果を雑音除去処理部１６と音声認識処理部１８に送る。
【００９９】
雑音除去処理部１６は、雑音データ判定部１４からの現在の雑音種類を示す情報を受け取ると、入力信号処理部１２からの雑音重畳音声データに対して最適な雑音除去方法を用いた雑音除去処理を行う。たとえば、雑音データ判定部１４から現在の雑音が雑音データＮ６に属する雑音であることを示す情報が雑音除去処理部１６に与えられると、この雑音除去処理部１６は、雑音データＮ６に最適な雑音除去手法を雑音除去方法保存部１５から選択し、選択した雑音除去方法によって雑音重畳音声データに対する雑音除去処理を行う。
【０１００】
なお、この雑音除去処理は、この実施の形態の場合、前述したように、たとえば、スペクトラム・サブトラクション（ＳＳ）やケプストラム平均化処理（ＣＭＮ）などのいずれかあるいはそれらの組み合わせのどれかによって行う。
【０１０１】
また、現在の雑音の中にカーオーディオからの音信号やワイパーの動作音、方向指示器の動作音が含まれる場合は、これらの雑音を直接除去するような処理も可能とする。
【０１０２】
たとえば、マイクロホン１１に入力された雑音重畳音声データに含まれるカーオーディオからの音信号に対しては、カーオーディオから直接得られる音信号、すなわち、カーオーディオ情報取得部１４０から得られるカーオーディオ信号を雑音除去処理部１６に与え（図７において一点鎖線で示す）、そのカーオーディオ信号をマイクロホンに入力された雑音重畳音声データから差し引くことで、マイクロホン１１に入力された雑音重畳データに含まれるカーオーディオの音信号成分を除去することができる。このとき、雑音除去処理部１６では、マイクロホン１１からの雑音重畳音声データに含まれるカーオーディオ信号は、カーオーディオから直接得られる信号に比べて一定の時間遅れが生じるので、その時間遅れ分を考慮した除去処理を行う。
【０１０３】
また、ワイパーや方向指示器の動作音は、周期的な動作音であり、それぞれの周期や雑音成分（動作音）は車種によって決められているので、その周期に対応したタイミング信号（図７において一点鎖線で示す）をワイパー情報取得部１３６や方向指示器情報取得部１３７から雑音除去処理部１６に送ることで、雑音除去処理部１６では、そのタイミングでワイパーの動作音や方向指示器の動作音を除去することができる。この場合も、マイクロホン１１からの雑音重畳音声データに含まれるワイパーの動作音や方向指示器の動作音は、ワイパーや方向指示器から直接得られる動作信号に比べて一定の時間遅れが生じるので、その時間遅れ分を考慮したタイミングで雑音除去処理を行う。
【０１０４】
以上のようにして、マイクロホン１１から入力されたある時刻の雑音重畳音声データ（音声コマンドとその時点でマイクロホンに入力される雑音からなる）に対する雑音除去処理がなされると、その雑音の除去された雑音除去音声データは音声認識処理部１８に送られる。
【０１０５】
この音声認識処理部１８にも、雑音データ判定部１４から雑音データ判定結果として、雑音データＮ１〜Ｎ９のいずれかを示す情報が与えられており、その雑音データ判定結果に対応する音響モデルを選択し、選択した音響モデルと言語モデル１７を用いて音声認識処理を行う。たとえば、マイクロホン１１に入力された話者からの音声コマンドに重畳された雑音が雑音データＮ１に属する雑音であることを示す情報を雑音データ判定部１４から受け取ったとすると、音声認識処理部１８では、音響モデルとしては、雑音データＮ１に対応する音響モデルＭ１を選択する。
【０１０６】
この音響モデルＭ１は、前述の音響モデル作成方法で説明したように、雑音データＮ１を音声データに重畳させ、その雑音重畳音声データから雑音除去して雑音除去音声データを作成し、その雑音除去音声データから作成された音響モデルであるため、話者の発した音声コマンドに重畳された雑音が雑音データＮ１に属する場合には、その音声コマンドにとって最適な音響モデルとなり、認識性能を高めることができる。
【０１０７】
１つの具体例として、図６に示すような９個の雑音グループに対応する９種類の雑音データＮ１〜Ｎ９が作成され、これら９種類の雑音データＮ１〜Ｎ９に対応した音響モデルＭ１〜Ｍ９が作成されている場合の音声認識動作について説明する。
【０１０８】
今、運転者が動作中に音声コマンドを与えると、音声認識装置３０側ではその音声コマンドを認識して、その認識結果に基づいた機器操作を行う場合を考える。なお、このとき自動車の走行速度が時速４０ｋｍ（低速走行であるとする）、エアコンの動作状態は「弱風」、雨量は「無」とする。
【０１０９】
この場合、自動車内のある位置（ステアリングなど）に設置されたマイクロホン１１には、そのときの状況に応じた雑音が入力され、その状態で運転者が何らかの音声コマンドを発すると、その音声コマンドにはそのときの状況に応じた雑音が重畳され、その雑音重畳音声データは入力信号処理部１２で増幅やＡ／Ｄ変換されたのちに雑音除去処理部１６に送られる。
【０１１０】
一方、雑音データ判定部１４には、この場合、現在の雑音パラメータとして、雑音パラメータ取得部１３の速度情報取得部１３１から現時点の走行速度を示す情報、エアコン動作情報取得部１３５からエアコンの動作状態を示す情報、雨量情報取得部１３９からの雨量を示す情報が雑音パラメータとして与えられており、それらの雑音パラメータに基づいて、現在の雑音がどの雑音データＮ１〜Ｎ９のうちのどの雑音データに属する雑音であるかを判定する。
【０１１１】
この場合、走行速度を示す情報は時速４０ｋｍ（ここでは「低速」としている）、エアコンの動作状態を示す情報は「弱風」、雨量を示す情報は「無」であるので、雑音データ判定部１４は、図６から現在の雑音は雑音データＮ５であると判定し、その判定結果を雑音除去処理部１６と音声認識処理部１８に送る。
【０１１２】
これによって、雑音除去処理部１６では、その雑音データＮ５に最適な雑音除去処理手法を用いて雑音除去処理を行い、その雑音除去音声データを音声認識処理部１８に送る。
【０１１３】
音声認識処理部１８では、雑音データ判定部１４から送られてきた雑音データＮ５に対応した音響モデルＭ５（図７では図示されていない）を選択し、その音響モデルＭ５と言語モデル１７を用いて、雑音除去処理部１６で雑音除去された雑音除去音声データに対して音声認識処理を行う。そして、この音声認識結果に基づいて機器操作を行う。この機器操作の例としては、たとえば、ナビゲーションシステムに対する目的地の設定などである。
【０１１４】
以上のように、この実施の形態１における音声認識装置では、音声コマンドに重畳された雑音が雑音データＮ１〜Ｎ９のいずれかに属するかを判定し、それに対応した雑音除去処理手法（音響モデル作成時と同じ雑音除去処理手法）を用いて雑音除去を行い、その雑音除去のなされた音声データ（雑音除去音声データ）に対し、最適な音響モデルを用いて音声認識を行うようにしている。
【０１１５】
すなわち、自動車のその時々の走行状況、走行位置、車載機器の動作状態などに対応した様々な種類の雑音が音声コマンドに重畳されても、それに対応した最適な雑音除去が行え、その雑音除去後の音声データに対し、最適な音響モデルを用いて音声認識することができるので、様々な雑音環境下において高い認識性能を得ることができる。
【０１１６】
特に、自動車において、車種が限定されているような場合に特に有効なものとなる。すなわち、雑音収集を行って音響モデルを作成するための雑音収集用車種と実際に本発明の音声認識装置を搭載するユーザ向け販売用車種が同じであれば、雑音収集用車種における雑音収集のためのマイクロホン取り付け位置とユーザ向け販売用車種における音声コマンド入力用のマイクロホン取り付け位置を同じとすることで、雑音がほぼ同じ条件でマイクロホンから入力されるので、適正な音響モデルを選択することができ、高い認識性能を得ることができる。
【０１１７】
なお、音響モデルを作成するための雑音収集用自動車は専用に用意することも可能であるが、ユーザ向け販売用自動車に、音響モデル作成（図３で示した雑音データＮ１〜Ｎｎの作成を含む）を行うための機能を音声認識装置３０とともに搭載して、１台の自動車で音響モデル作成機能と音声認識機能の両方を可能とすることも可能である。その場合、マイクロホン１１、入力信号処理部１２、雑音パラメータ取得部１３、雑音除去処理部１６などは音響モデル作成時と音声認識時で共用することができる。
【０１１８】
このように、ユーザ向け販売用自動車に音響モデル作成機能と音声認識機能の両方を持たせることで、雑音環境の変化などにより雑音の分類の変更が容易に行え、それに伴って、音響モデルを新たに生成したり、更新したりすることが可能となり、雑音環境の変化への対応がし易くなる。
【０１１９】
〔実施の形態２〕
この実施の形態２では、雑音を有する空間としては工場の作業場を例にとって説明する。たとえば、ベルトコンベアによって搬送されてくる物品などの検査結果の記録など音声として入力し、それを音声認識してその認識結果を検査記録として保存するような状況を考える。
【０１２０】
図９は工場内のある作業場を示すもので、作業場４１内には、製品を加工する加工装置４２、この加工装置４２によって加工された製品を搬送するベルトコンベア４３、ベルトコンベア４３によって搬送された製品を検査する検査装置４４、作業場４１内の温度や湿度などを調整するエアーコンディショナ（エアコン）４５、作業者（図示せず）の発話する音声を認識する本発明の音声認識装置３０などが図９のように設置されているとする。
【０１２１】
また、図示のＰ１，Ｐ２，Ｐ３は作業者（図示されていない）が何らかの作業を行って、その位置で音声入力を行う位置とする。すなわち、作業者は位置Ｐ１で何らかの作業を行い、そのあと、位置Ｐ２に移動して何らかの作業を行い、さらに、位置Ｐ３に移動して検査装置４４で検査を行うといった行動をとるものとし、図示の太線Ａはその動作線（以下では動作線Ａという）を示している。
【０１２２】
そして、加工装置４２から送出される製品について、作業者は位置Ｐ１，Ｐ２において、それぞれの位置Ｐ１，Ｐ２における確認項目に対する確認結果などを音声によって入力し、位置Ｐ３では検査装置４４を用いた検査を行って、その検査結果を音声で入力するといった作業を行うものとする。
【０１２３】
なお、作業者はヘッドセット型のマイクロホンを装着し、そのマイクロホンから入力された音声は音声認識装置３０に送信されるようになっている。そして、音声認識装置３０で音声認識されたそれぞれの位置Ｐ１，Ｐ２，Ｐ３における確認結果や検査結果は、図９では図示されない記録手段に記録されるようになっている。
【０１２４】
ところで、このような作業場４１での音声認識を行うには、作業場４１特有の雑音を考慮する必要があるが、前述の実施の形態１で説明した自動車と同様、その雑音をあらかじめ収集しておくことができる。
【０１２５】
そこで、このような作業場４１で音声認識を行う際、音声認識性能に影響を与えそうな作業場４１特有の多種多様な雑音を収集し、前述の実施の形態１で図２を用いて説明したと同様に、収集された多種多様な雑音を分類して、ｎ個の雑音グループを作成し、それぞれの雑音グループごとの雑音データＮ１，Ｎ２，・・・，Ｎｎ（ｎ種類の雑音データＮ１，Ｎ２，・・・，Ｎｎ）を作成する。
【０１２６】
そして、無響室などで収集された標準的な音声データＶ（たとえば、多数の話者が多種類の単語について発話して得られた大量の音声データ）と上述のｎ種類の雑音データＮ１，Ｎ２，・・・，Ｎｎとを雑音重畳音声データ作成部１に与え、標準的な音声データＶと上述のｎ種類の雑音データＮ１，Ｎ２，・・・，Ｎｎとをそれぞれ重畳させてｎ種類の雑音重畳音声データＶＮ１，ＶＮ２，・・・，ＶＮｎを作成する。
【０１２７】
そして、雑音除去処理部２がｎ種類の雑音重畳音声データＶＮ１，ＶＮ２，・・・，ＶＮｎに対して最適な雑音除去処理手法を用いて雑音除去処理を行い、ｎ種類の雑音除去音声データＶ１’，Ｖ２’，・・・，Ｖｎ’を作成する。その後、音響モデル学習処理部３がこのｎ種類の雑音除去音声データＶ１’，Ｖ２’，・・・，Ｖｎ’を用いて音響モデルの学習を行い、ｎ種類の音響モデルＭ１，Ｍ２，・・・，Ｍｎを作成する。
【０１２８】
なお、ｎ種類の雑音重畳音声データＶＮ１，ＶＮ２，・・・，ＶＮｎに対するそれぞれ最適な雑音除去処理手法については、前述の実施の形態１で説明したと同様に考えることができる。
【０１２９】
次に、収集された多種多様な雑音を、ｎ個に分類し、分類されたそれぞれの雑音グループごとの雑音データＮ１，Ｎ２，・・・，Ｎｎを生成する具体的な例について図１０を参照しながら詳細に説明する。
【０１３０】
この実施の形態２では、その作業場４１で通常用いる加工装置４２、ベルトコンベア４３、検査装置４４、エアコン４５などを通常の作業時と同様の動作状態として、所定の期間、雑音収集を行う。この雑音収集は、作業者がたとえばヘッドセットなどを装着し、そのヘッドセットに設けられたマイクロホン１１から、その作業場特有の多種多様な雑音データをある期間、時系列で収集する。
なお、このとき、作業者は自分が行う実際の作業を行いながらヘッドセットに設けられたマイクロホン１１から様々な雑音を入力する。
【０１３１】
この実施の形態２では、作業者は図９に示すような作業場４１において、動作線Ａに沿って移動しながら作業を行うとしているので、作業者の移動に伴い、その動作線Ａ上の作業者の位置を入力しながら雑音収集を行う。なお、作業者が、予め決められた位置のみで作業を行う場合には、その位置にマイクロホン１１を設置して雑音収集を行うことができる。
【０１３２】
また、マイクロホン１１からの雑音収集と同時に、作業場４１での雑音の発生源となる機器の動作状態などを表す情報としての雑音パラメータを雑音パラメータ取得部１３で時系列に取得する。
【０１３３】
この実施の形態２の場合、取得する雑音パラメータは、加工装置４２の動作状態を示す情報（動作速度とする）、エアコン４５の動作状態を示す情報（風量とする）、ベルトコンベア４３の動作状態を示す情報（動作速度とする）、検査装置４４の動作状態を示す情報（たとえば、この検査装置４４による検査方式が複数種類あって、その種類によって検査装置４４の発生する音が異なる場合、その検査方式の種類を表す情報とする）、作業者の位置（たとえば、作業者の図９で示した動作線Ａ上の１次元座標、または、作業場４１の床上の２次元座標、または、図９で示したような位置Ｐ１，Ｐ２，Ｐ３というような離散値）、作業場に設けられている窓や扉の開閉状況（窓や扉の開度とする）、作業場内に流れる放送などの有無やその内容、周囲の荷物の状況など様々である。
【０１３４】
なお、雑音パラメータ取得部１３は作業場４１に設置され、上述したような様々な雑音パラメータを取得するために、たとえば、加工装置４２がどのような速度で動作しているかを示す情報を取得する加工装置動作情報取得部１５１、エアコン４５がどのような動作状態となっているかを示す動作情報を取得するエアコン動作情報取得部１５２、ベルトコンベア４３がどのような速度で動作しているかを示すベルトコンベア動作情報取得部１５３、検査装置４４の動作情報を取得する検査装置動作情報取得部１５４、作業者が現在どの位置にいるかの位置情報を取得する作業者位置情報取得部１５５、窓の開度を示す情報を取得する窓開度情報取得部１５６などからなる。なお、取得すべき雑音パラメータはこれ以外に種々考えられるがそれらの図示は省略する。
【０１３５】
なお、マイクロホン１１から時系列に収集される雑音と、雑音パラメータ取得部１３の各情報取得部１５１〜１５６から時系列に取得される各雑音パラメータは、作業者が実際に作業場４１で作業を行うことによって得ることができるものである。
【０１３６】
すなわち、作業場４１でたとえば１ヶ月といった期間、その作業場で発生し得る雑音を得るために、加工装置４２、ベルトコンベア４３、検査装置４４、エアコン４５などの機器の動作状態を変えたり、窓の開度を色々変化させたりというように、作業場であり得る様々な雑音環境を作り出す。
【０１３７】
これによって、マイクロホン１１からは多種多様な雑音が時系列で入力され、入力信号処理部１２で増幅処理やディジタル信号への変換処理（Ａ／Ｄ変換）がなされて、収集された雑音として雑音記録部２２に記録されるとともに、その時々の各種雑音パラメータが雑音パラメータ取得部１３で時系列に取得されて雑音パラメータ記録部２１に記録される。
【０１３８】
そして、雑音分類処理部２３が、マイクロホン１１で収集された時系列の雑音（雑音記録部２２に記録された時系列の雑音）と雑音パラメータ記録部２１に記録された雑音パラメータとを用いて、ある統計的手法によってその収集された雑音を分類してｎ個の雑音グループを作成し、それぞれの雑音グループごとの雑音データＮ１，Ｎ２，・・・，Ｎｎを生成する。
【０１３９】
本来、雑音は前述したように多種存在し、マイクロホン１１からは個々の雑音パラメータに対応した雑音、また、複数の雑音パラメータの組み合わせに対応した数多くの種類の雑音が収集され、このマイクロホン１１から収集された雑音を統計的手法によって実用的な数の雑音グループ数とするための分類処理がなされる。しかし、ここでは、説明を簡素化するために、雑音パラメータを３種類の雑音パラメータ（作業者の位置、加工装置４２の動作状態、エアコン４５の動作状態）のみで考え、これら作業者の位置、加工装置の動作状態、エアコン４５の動作状態の３つの雑音パラメータを、３次元座標における３つの直交軸上の値（ここではそれぞれ３段階の状態を示す値）で表して分類する例について説明する。
【０１４０】
すなわち、作業者の位置を図９における位置Ｐ１，Ｐ２，Ｐ３の３つの位置で表し、加工装置４２の動作状態は、この場合、「停止」、「低速」、「高速」の３段階で表し、エアコンの動作状態は、「停止」、「弱風」、「強風」の３段階で表すものとする。
【０１４１】
図１１は上述の３種類の雑音パラメータに対応した雑音を前述の実施の形態１で説明したと同様の分類処理（実施の形態１の説明で用いた図４の状態から図５の状態となるような分類処理）を行い、それをさらに、ある統計的手法による分類処理（実施の形態１の説明で用いた図５の状態から図６の状態となるような分類と同様の分類処理）を行うことによって得られた分類結果の一例である。
この図１１では、それぞれの雑音グループに対応した１２種類の雑音データＮ１〜Ｎ１２が３次元座標上に示されている。この３次元座標上の１２種類の雑音データＮ１〜Ｎ１２を、加工装置の３つの動作状態「停止」、「低速」、「高速」それぞれにおける２次元断面で表したものが図１２（ａ）〜（ｃ）である。
【０１４２】
図１２（ａ）は加工装置４２が「停止」の場合であり、この場合は、作業者の位置Ｐ１，Ｐ２，Ｐ３に応じて、エアコン４５の影響を受けた雑音データＮ１，Ｎ２，Ｎ３，Ｎ４，Ｎ５，Ｎ６が作成される。
【０１４３】
すなわち、作業者の位置がエアコン４５から遠い位置Ｐ１では、エアコン４５の動作状態（「停止」、「弱風」、「強風」）に関係しない１つの雑音データＮ１が作成され、作業者の位置がＰ２では、エアコン４５の動作状態が「停止」か否かによって、それぞれに対応した雑音データＮ２，Ｎ３が作成される。なお、「停止」の場合は雑音データＮ２、「弱風」および「強風」のいずれの場合も１つの雑音データＮ３が作成される。
【０１４４】
また、作業者の位置がＰ３では、エアコン４５の動作状態が「停止」の場合は雑音データＮ４が作成され、エアコン４５の動作状態が「弱風」の場合は雑音データＮ５が作成され、エアコン４５の動作状態が「強風」の場合は雑音データＮ６が作成されるというように、エアコン４５の動作状態それぞれに対応する雑音データが作成される。
【０１４５】
これは、加工装置４２の動作が停止しているときは、作業者の位置Ｐ１，Ｐ２，Ｐ３における雑音は、エアコン４５の動作状態の影響を大きく受け、かつ、位置Ｐ１，Ｐ２，Ｐ３によってその影響の受け方が異なっていることを示している。
【０１４６】
また、図１２（ｂ）は加工装置４２が「低速」の場合であり、この場合は、作業者の位置Ｐ１，Ｐ２，Ｐ３に応じて、加工装置４２の影響が反映された雑音データＮ７，Ｎ８，Ｎ９，Ｎ１０が作成される。
【０１４７】
すなわち、作業者が位置Ｐ１では、エアコン４５の動作状態（「停止」、「弱風」、「強風」）に関係しない雑音データＮ７が作成され、作業者が位置Ｐ２では、同じくエアコン４５の動作状態（「停止」、「弱風」、「強風」）に関係しない雑音データＮ８が作成される。また、作業者の位置がＰ３では、エアコン４５の動作状態が「停止」の場合は雑音データＮ９が作成され、エアコンの動作状態が「弱風」と「強風」で１つの雑音データＮ１０が作成される。
【０１４８】
また、図１２（ｃ）は加工装置４２の動作状態が「高速」の場合であり、この場合は、加工装置４２の影響を大きく受けた雑音データＮ１１，Ｎ１２が作成される。
【０１４９】
すなわち、作業者の位置がＰ１，Ｐ２のいずれであっても、エアコン４５の動作状態（「停止」、「弱風」、「強風」）に関係しない１つの雑音データＮ１１が作成される。また、作業者の位置がエアコン４５に近い位置Ｐ３では、エアコン４５の影響も多少は反映されるが、エアコン４５の動作状態（「停止」、「弱風」、「強風」）に関係しない１つの雑音データＮ１２が作成される。
【０１５０】
この図１２からもわかるように、加工装置４２の動作が停止しているときは、作業者の位置Ｐ１，Ｐ２，Ｐ３における雑音は、位置Ｐ１，Ｐ２，Ｐ３それぞれによってエアコン４５の動作音の影響を大きく受け、加工装置４２の動作中は、位置によってはエアコン４５の影響も多少反映されるが、加工装置４２の動作音が全体の雑音を支配する傾向にあることを示している。
【０１５１】
以上のように、３種類の雑音パラメータ（作業者の位置、加工装置４２の動作状態、エアコン４５の動作状態）に依存する雑音を、マイクロホン１１を用いて長期間かけて収集し、その収集した雑音を、ある統計的手法で分類した結果、図１１のような雑音デ−タＮ１〜Ｎ１２が作成されたとする。
【０１５２】
このように、ｎ個（この例では１２個）の雑音グループに対応する１２種類の雑音データＮ１〜Ｎ１２が作成されると、図１で説明したように、この１２種類の雑音データＮ１〜Ｎ１２を標準的な音声データに重畳させて１２個の雑音重畳音声データＶＮ１，ＶＮ２，・・・，ＶＮ１２を作成する。そして、この１２種類の雑音重畳音声データＶＮ１，ＶＮ２，・・・，ＶＮ１２に対し、それぞれの雑音を除去するに最適な雑音除去処理手法を用いて、雑音除去処理を行い、１２種類の雑音除去音声データＶ１’、Ｖ２’、・・・、Ｖ１２’を作成する。
【０１５３】
そして、この１２種類の雑音除去音声データＶ１’、Ｖ２’、・・・、Ｖ１２’を用いて音響モデルの学習を行い、１２種類の音響モデルＭ１，Ｍ２，・・・，Ｍ１２を作成する。
これによって、１２種類の雑音データＮ１，Ｎ２，・・・、Ｎ１２に対応した１２種類の音響モデルＭ１，Ｍ２，・・・，Ｍ１２を作成することができる。
【０１５４】
次に上述のようにして作成されたｎ種類の音響モデルＭ１，Ｍ２，・・・，Ｍｎを用いた音声認識について説明する。
図１３は実施の形態２で用いられる音声認識装置の構成図であり、実施の形態１で用いられる音声認識装置（図７参照）と異なる点は、雑音パラメータ取得部１３で取得する雑音パラメータの内容である。
【０１５５】
この実施の形態２では、この雑音パラメータ取得部１３は、図１０で説明したように、加工装置動作情報取得部１５１、エアコン動作情報取得部１５２、ベルトコンベア動作情報取得部１５３、検査装置動作情報取得部１５４、作業者位置情報取得部１５５、窓開度情報取得部１５６などを有している。
【０１５６】
また、この図１３の音声認識装置における雑音データ判定部１４は、これら各情報取得部１５１〜１５６などからの情報に基づいて、現在の雑音が雑音データＮ１〜Ｎ１２のうちのどの雑音データに属するかを判定する。
【０１５７】
たとえば、現在の作業者の位置がＰ１であって、そのときの加工装置４２の動作状態が「高速」、エアコン４５の動作状態が「強風」といった情報を雑音パラメータとして雑音データ判定部１４が受け取ると、これらの雑音パラメータから、現在の雑音が雑音データＮ１〜Ｎ１２のどの雑音データに属するかを判定する。この場合、図１１から現在の雑音が雑音データＮ１１に属すると判定される。
【０１５８】
このように、現在の雑音が雑音データＮ１１に属すると判定されたとすると、雑音データ判定部１４は、その判定結果を雑音除去処理部１６と音声認識処理部１８に送る。
【０１５９】
雑音除去処理部１６は、雑音データ判定部１４から、現在の雑音が雑音データＮ１１に属するとの情報を受け取ると、入力信号処理部１２からの雑音重畳音声データに対して最適な雑音除去方法を用いた雑音除去処理を行う。この雑音除去処理は実施の形態１で説明したと同様の手法で実現でき、それによって、雑音重畳音声データに対する雑音除去処理がなされる。
【０１６０】
以上のようにして、マイクロホン１１から入力されたある時刻の雑音重畳音声データ（作業者の音声とその時点でマイクロホン１１に入力される雑音からなる）に対する雑音除去処理がなされると、その雑音の除去された雑音除去音声データは音声認識処理部１８に送られる。
【０１６１】
音声認識処理部１８には、雑音データ判定部１４から現在の雑音がどの雑音データに属するかの情報が与えられており、その雑音データに対応する音響モデルを選択し、その選択された音響モデルと言語モデル１７を用いて音声認識処理を行う。
【０１６２】
たとえば、マイクロホン１１に入力された雑音データは雑音デ−タＮ１１に属する雑音であると判定されたとすれば、音声認識処理部１８では、音響モデルとしては、雑音デ−タＮ１に対応する音響モデルＭ１１を用いる。
【０１６３】
この音響モデルＭ１１は、前述の音響モデル作成方法で説明したように、雑音データＮ１１を音声データに重畳させ、その雑音重畳音声データから雑音除去して雑音除去音声データを作成し、その雑音除去音声データから作成された音響モデルであるため、作業者の発した音声に重畳された雑音が雑音データＮ１１に属する場合には、その音声にとって最適な音響モデルとなり、認識性能を高めることができる。
【０１６４】
また、たとえば、現在の作業者の位置がＰ３であって、そのときの加工装置４２の動作状態が「停止」、エアコン４５の動作状態が「強風」といった情報を雑音パラメータとして雑音データ判定部１４が受け取ると、この雑音データ判定部１４は、これらの雑音パラメータから、現在の雑音が雑音データＮ１〜Ｎ１２のどの雑音データに属するかを判定する。この場合、図１２から現在の雑音が雑音データＮ６に属すると判定される。
【０１６５】
このように、マイクロホン１１に入力された雑音データは雑音デ−タＮ６に属する雑音であると判定されると、音声認識処理部１８では、音響モデルとしては、雑音グループＮ６に対応する音響モデルＭ６を選択し、その選択された音響モデルと言語モデル１７を用いて音声認識を行う。
【０１６６】
以上のように、この実施の形態２における音声認識装置では、音声コマンドに重畳された雑音が雑音データＮ１〜Ｎ１２のいずれかに属するかを判定し、それに対応した雑音除去処理手法（音響モデル作成時と同じ雑音除去処理手法）を用いて雑音除去を行い、その雑音除去のなされた音声データ（雑音除去音声データ）に対し、最適な音響モデルを用いて音声認識を行うようにしている。
【０１６７】
これにより、作業場における作業者の位置やその時々の騒音状況に対応した様々な種類の雑音が作業者の音声に重畳されても、その雑音環境下において最適な音響モデルを用いて音声認識することができるので、そのときの作業者の位置や雑音環境下において高い認識性能を得ることができる。
【０１６８】
なお、本発明は上述の実施の形態に限られるものではなく、本発明の要旨を逸脱しない範囲で種々変形実施可能となるものである。
たとえば、前述の図７および図１３で示した音声認識装置において、雑音データ判定部１４は、自動車や作業場の現時点における雑音パラメータを入力することによって現在の雑音がｎ種類の雑音データＮ１〜Ｎｎのうちのどの雑音データに属するかを判定するようにしているが、この雑音データ判定を行う際、図１４に示すように、雑音データ判定部１４には雑音パラメータの他に、音データの重畳された雑音重畳音声データ（ディジタル変換後の雑音重畳音声データ）を入力して、この雑音重畳音声データと各種雑音パラメータとによって、現在の雑音が雑音データＮ１〜Ｎｎのうちのどの雑音データに属する雑音であるかを判定するようにしてもよい。
なお、この図１４は実施の形態１の図７に対応するものであるが、実施の形態２の図１３でも同様ことがいえる。
【０１６９】
このように、マイクロホン１１から入力される雑音重畳音声データを雑音データ判定部１４に入力させることによって、現在のＳ／Ｎ比をより正確に判別し易くなり、各音響モデルＭ１〜ＭｎがＳ／Ｎ比の大きさも考慮した音響モデルが作成されている場合、現在のＳ／Ｎ比に応じた最適な音響モデルを選択することができ、より、適正な音声認識を行うことができる。
【０１７０】
また、雑音パラメータの種類は、前述の各実施の形態で説明した種類に限られるものではなく、その他にも種々用いることができる。なお、音響モデル作成を行うために、実際に自動車を長期間走行させたり、作業場で雑音収集を試みて、統計的手法により分類することによって複数個の雑音データＮ１〜Ｎｎを作成したとき、ある雑音パラメータが分類に影響を与えるものでないと判断される場合もあるが、その場合は、音声認識時において、その雑音パラメータは、雑音種類判定部が雑音種類を判定する際の雑音パラメータから除外することができる。
【０１７１】
また、前述の実施の形態１では、乗り物として自動車を例にとって説明したが、自動車に限られるものではなく、たとえば、オートバイなどの二輪車やその他の乗り物にも適用できることは言うまでもない。
【０１７２】
同様に、実施の形態２では、工場の作業場を例にとって説明したが、これも工場に限られるものではなく、たとえば、物品の流通センタなど広く適用することができる。
【０１７３】
また、本発明は以上説明した本発明を実現するための処理手順が記述された処理プログラムを作成し、その処理プログラムをフロッピィディスク、光ディスク、ハードディスクなどの記録媒体に記録させておくこともでき、本発明は、その処理プログラムの記録された記録媒体をも含むものである。また、ネットワークから当該処理プログラムを得るようにしてもよい。
【０１７４】
【発明の効果】
以上説明したように、本発明の音響モデル作成方法によれば、ある空間内で収集された雑音を分類して複数種類の雑音データを作成し、その複数種類の雑音データを予め用意された標準的な音声データに重畳させて複数種類の雑音重畳音声データを作成し、その複数種類の雑音重畳音声データに対して雑音除去処理を行って、その複数種類の雑音除去音声データから複数種類の音響モデルを作成するようにしているので、その空間内での様々な雑音の種類に対応した最適な音響モデルを作成することができる。
【０１７５】
また、本発明の音声認識装置は、現在の雑音が複数種類の雑音データのどの雑音データに属する雑音であるかを判別する雑音データ判別を行い、雑音重畳音声に対して、その雑音データ判定結果に基づいた雑音除去を行う。そして、その雑音除去音声に対し、当該雑音データに対応した音響モデルを用いて音声認識を行うようにしている。また、この音声認識装置が用いる複数種類の音響モデルは、上述した音響モデル作成方法によって作成された音響モデルである。これによって、ある空間内に存在する雑音に対し最適な雑音除去処理が行えるとともに、その時点の雑音に対して最適な音響モデルを用いた音声認識が可能となるので、たとえば、自動車や作業場など特有の雑音環境下で高い認識性能を得ることができる。
【０１７６】
本また、発明の音声認識装置を有する乗り物は、たとえば、運転者が乗り物自体または乗り物に搭載された機器などの操作や動作設定を行うような場合、その乗り物特有の様々な雑音に適合した音響モデルを用いた音声認識が行えるので、高い認識精度を得ることができ、運転者などが音声で行う操作や動作設定が確実なものとなる。
【図面の簡単な説明】
【図１】本発明の音響モデル作成方法の大まかな処理手順を説明する図である。
【図２】本発明の音響モデル作成方法をより詳細に説明する図である。
【図３】本発明の実施の形態１における雑音データＮ１〜Ｎｎの生成処理を説明する図である。
【図４】ある３種類の雑音パラメータに対応して発生する雑音を長期間かけて収集した雑音データＮを３次元座標上で１つのデータで表した図である。
【図５】図４の雑音データＮに対し、単純に個々の雑音パラメータごとに分類して得られたそれぞれの雑音グループごとに作成された雑音データを示す図である。
【図６】図５で示した雑音データに対しある統計的手法によって分類して得られた雑音データを示す図である。
【図７】本発明の実施の形態１おける音声認識装置の構成図である。
【図８】本発明の音声認識装置を有した乗り物の一例を示す図である。
【図９】本発明の実施の形態２である工場の作業場の配置を説明する図である。
【図１０】本発明の実施の形態２における雑音データＮ１〜Ｎｎの生成処理を説明する図である。
【図１１】本発明の実施の形態２において収集された雑音をある統計的手法によって分類して得られたた雑音データを示す図である。
【図１２】図１１を加工装置の３つの動作状態のそれぞれに対応する２次元的断面として表す図である。
【図１３】本発明の実施の形態２における音声認識装置の構成図である。
【図１４】図７の音声認識装置の変形例を説明する構成図である。
【図１５】従来の音響モデル作成を概略的に説明する図である。
【図１６】図１５で作成された音響モデルを用いた従来の音声認識装置の概略的な構成図である。
【符号の説明】
１雑音重畳音声データ作成部、２雑音除去処理部、３音響モデル学習処理部、１１マイクロホン、１２入力信号処理部、１３雑音パラメータ取得部、１４雑音データ判定部、１５雑音除去方法保存部、１６雑音除去処理部、１８音声認識処理部、２１雑音パラメータ記録部、２２雑音記録部、２３雑音分類処理部、Ｎ１，Ｎ２，・・・，Ｎｎ各雑音グループ対応の雑音データ、ＶＮ１，ＶＮ２，・・・，ＶＮｎ雑音重畳音声データ、Ｖ１’，Ｖ２’，・・・，Ｖｎ’ 雑音除去音声データ、Ｍ１，Ｍ２，・・・，Ｍｎ音響モデル

Claims

雑音を有する空間内で音声認識を行うための音響モデル作成方法であって、
前記雑音を有する空間内で収集可能な各種雑音を収集する雑音収集ステップと、
この雑音収集ステップにより収集された雑音を分類して複数種類の雑音データを作成する雑音データ作成ステップと、
この雑音データ作成ステップによって作成された複数種類の雑音データを標準的な音声データに重畳させて複数種類の雑音重畳音声データを作成する雑音重畳音声データ作成ステップと、
この雑音重畳音声データ作成ステップによって作成された複数種類の雑音重畳音声データに対して雑音除去処理を行って複数種類の雑音除去音声データを作成する雑音除去音声データ作成ステップと、
この雑音除去音声データ作成ステップによって作成された複数種類の雑音除去音声データから複数種類の音響モデルを作成する音響モデル作成ステップと、
を有することを特徴とする音響モデル作成方法。
前記複数種類の雑音重畳音声データに対して行われる雑音除去処理は、個々の雑音データに適した雑音除去手法を用いて行うことを特徴とする請求項１記載の音響モデル作成方法。
前記雑音を有するある空間内は、乗り物内であることを特徴とする請求項１または２記載の音響モデル作成方法。
前記乗り物内で収集可能な各種雑音は、天候、前記乗り物の走行状況、前記乗り物の走行位置、前記乗り物に搭載されている機器の動作状態の少なくとも１つに起因する複数種類の雑音であることを特徴とする請求項３記載の音声認識用の音響モデル作成方法。
前記雑音収集ステップは、前記収集すべき複数種類の雑音に対応するそれぞれの雑音パラメータを記録する雑音パラメータ記録工程を含み、前記雑音データ作成ステップは、前記収集すべき複数種類の雑音とこの収集すべき雑音に対応するそれぞれの雑音パラメータとを用いて分類することによって前記複数種類の雑音データを作成することを特徴とする請求項１から４のいずれかに記載の音響モデル作成方法。
雑音を有する空間内で音声認識を行う音声認識装置であって、
認識すべき音声およびそれ以外の雑音の入力が可能な音入力手段と、
前記雑音を有する空間内で収集可能な各種雑音を収集する雑音収集ステップと、その収集された雑音を分類して複数種類の雑音データを作成する雑音データ作成する雑音データ作成ステップと、その作成された複数種類の雑音データを予め用意された標準的な音声データに重畳させて複数種類の雑音重畳音声データを作成する雑音重畳音声データ作成ステップと、その作成された複数種類の雑音重畳音声データに対して雑音除去処理を行って複数種類の雑音除去音声データを作成する雑音除去音声データ作成ステップと、その作成された複数種類の雑音除去音声データから複数種類の音響モデルを作成する音響モデル作成ステップとを有する音響モデル作成方法により作成された複数種類の音響モデルと、
前記音入力手段に入力された雑音が、前記複数種類の雑音データのどの雑音データに属する雑音であるかを判別する雑音データ判別手段と、
前記音入力手段から雑音の重畳された雑音重畳音声データに対して前記雑音データ判別手段での判別結果に基づいて雑音除去を行う雑音除去処理手段と、
この雑音除去処理手段によって雑音除去された雑音除去音声に対し、前記複数種類の音響モデルのうち前記雑音データ判別手段で判別された雑音データに対応した音響モデルを用いて音声認識を行う音声認識手段と、
を有したことを特徴とする音声認識装置。
前記音入力手段に入力された雑音に対応する雑音パラメータを取得する雑音パラメータ取得手段を有したことを特徴とする請求項６記載の音声認識装置。
前記分類によって得られた複数種類の雑音データに対して行われる雑音除去処理は、個々の雑音データに適した雑音除去手法を用いて行うことを特徴とする請求項６または７記載の音声認識装置。
前記雑音を有するある空間内は、乗り物内であることを特徴とする請求項６から８のいずれかに記載の音声認識装置。
前記乗り物内で収集可能な各種雑音は、天候、前記乗り物の走行状況、前記乗り物の走行位置、前記乗り物に搭載されている機器の動作状態の少なくとも１つに起因する複数種類の雑音であることを特徴とする請求項９記載の音声認識装置。
前記音響モデルを作成するための前記雑音収集ステップは、前記収集すべき複数種類の雑音に対応するそれぞれの雑音パラメータを記録する工程を含み、前記雑音データ作成ステップは、前記収集すべき複数種類の雑音とこの収集すべき雑音に対応するそれぞれの雑音パラメータとを用いて分類することによって前記複数種類の雑音データを作成することを特徴とする請求項６から１０のいずれかに記載の音声認識装置。
前記複数種類の音響モデルを作成する際の雑音除去処理と前記認識すべき音声に対する音声認識を行う際の雑音除去処理は同じ雑音除去手法を用いることを特徴とする請求項６から１１のいずれかに記載の音声認識装置。
雑音を有するある空間内で音声認識を、前記請求項１から５に記載の音響モデル作成方法によって作成された複数種類の音響モデルを用いて行う音声認識装置であって、
認識すべき音声およびそれ以外の雑音の入力が可能な音入力手段と、
前記音入力手段から入力された現在の雑音が、予め分類された複数種類の雑音データのどの雑音データに属する雑音であるかを判別する雑音データ判別手段と、
前記音入力手段から雑音の重畳された雑音重畳音声データに対して前記雑音データ判別手段での判別結果に基づいて雑音除去を行う雑音除去処理手段と、
この雑音除去処理手段によって雑音除去された雑音除去音声に対し、前記複数種類の音響モデルのうち前記雑音データ判別手段で判別された雑音種類に対応した音響モデルを用いて音声認識を行う音声認識手段と、
を有したことを特徴とする音声認識装置。
音声によって機器操作の可能な音声認識装置を有する乗り物であって、
前記音声認識装置として、請求項６から１３のいずれかに記載の音声認識装置を有することを特徴とする音声認識装置を有する乗り物。