JP2004206063A - 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物 - Google Patents
音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物 Download PDFInfo
- Publication number
- JP2004206063A JP2004206063A JP2003198707A JP2003198707A JP2004206063A JP 2004206063 A JP2004206063 A JP 2004206063A JP 2003198707 A JP2003198707 A JP 2003198707A JP 2003198707 A JP2003198707 A JP 2003198707A JP 2004206063 A JP2004206063 A JP 2004206063A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- data
- types
- speech recognition
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 93
- 238000012545 processing Methods 0.000 claims abstract description 142
- 230000008569 process Effects 0.000 claims description 23
- 238000003379 elimination reaction Methods 0.000 description 26
- 230000008030 elimination Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 18
- 238000007689 inspection Methods 0.000 description 18
- 238000007619 statistical method Methods 0.000 description 15
- 238000003672 processing method Methods 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 9
- 238000009434 installation Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000010485 coping Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
【解決手段】自動車の走行状況、周囲の環境、搭載機器の動作状態を表すデータを入力し、それによって、現在の雑音が予め分類されたn種類の雑音データのどの雑音データに属するかを判別する雑音データ判定部14と、n種類の雑音データをそれぞれ標準的な音声データに重畳させてn種類の雑音重畳音声データを作成したのち、それぞれ雑音除去処理されたn種類の雑音除去音声データに基づいて作成されたn種類の音響モデルM1〜Mnと、マイクロホン11から雑音の重畳された雑音重畳音声を入力するとともに、前記雑音種類判定結果を入力し、雑音重畳音声に対して雑音除去を行う雑音除去処理部16と、その雑音除去音声に対し、n種類の音響モデルのうち雑音データ判定部14で判定された雑音種類に対応した音響モデルを用いて音声認識を行う音声認識処理部18を有する。
【選択図】 図7
Description
【発明の属する技術分野】
本発明は、雑音を有する空間内で音声認識を行うための音声認識用の音響モデル作成方法および音声認識装置に関する。また、本発明の音声認識装置を有する乗り物に関する。
【0002】
【従来の技術】
最近、音声認識技術は様々な分野で利用され、各種機器を音声によって操作可能とすることが一般的に行われるようになっている。このように、音声によってある特定の機器の操作を可能とすることで、両手で何らかの操作を行っているときに、他の機器操作を行う必要のある場合などにおいてきわめて便利なものとなる。
【0003】
たとえば、自動車に搭載されているカーナビゲーション、カーオーディオ、カーエアコンディショナ(以下ではエアコンという)などの様々な機器は、通常は、必要なときに運転者が自らの手を使って操作するのが一般的であるが、最近では、これらの機器を音声で操作可能とする技術が種々提案され実用化されつつある。
これによって、運転中であっても、ステアリングから手を離すことなく、これらの機器のスイッチをオン・オフさせたり、それらの機器の機能設定が可能となるので、安全動作にもつながり、今後、ますます普及して行くものと考えられる。
【0004】
しかし、自動車などに搭載される上述のような機器の操作を音声によって行うには、様々な雑音の存在する環境下で高い認識性能が得られるようにすることが重要であり、この点が従来からの大きな課題ともなっている。
【0005】
このように、自動車の車内など様々な雑音の存在する環境下で音声認識を行う方法として、図15に示すような方法で音響モデルを作成し、その音響モデルを用いて図16に示すように音声認識を行う方法が従来から用いられている。
【0006】
この従来の音声認識方法で用いられる音響モデル作成処理について図15を参照しながら説明する。まず、無響室などの雑音のない環境で収集された標準的な音声データ(たとえば、多数の話者が多種類単語について発話して得られた大量の音声データ)Vと、ある特定種類の雑音データNを雑音重畳データ作成部51に入力して、その標準的な音声データにある特定種類の雑音をあるS/N比で重畳させた雑音重畳音声データVNを作成する。
【0007】
この雑音重畳音声データVNに対し、雑音除去処理部52がスペクトラム・サブトラクション(SS)やケプストラム平均化処理(CMN)など、その雑音の種類に最適な雑音除去処理を施し、雑音除去音声データV’(雑音除去処理を行っても除去されない雑音成分が残る)を作成する。そして、音響モデル学習処理部53がこの雑音除去音声データV’を用いて音素HMM(Hidden Markov Model)や音節HMMなどの音響モデルMを作成する。
【0008】
一方、この従来の音声認識処理は図16に示すように、マイクロホン61から入力された話者の音声データ(機器操作用の音声コマンド)に対し、入力信号処理部62が増幅やA/D変換(アナログ/ディジタル変換)などを行い、そのあと、雑音除去処理部63が入力音声データに対して雑音除去処理(図15の雑音除去処理部52で行ったと同じ手法による雑音除去処理)を行う。
【0009】
そして、その雑音除去された音声データ(雑音除去音声データという)に対して、音声認識処理部64が言語モデル65と図8の音響モデル学習処理部53で作成された音響モデルMを用いて音声認識処理する。
【0010】
しかし、上述した従来の音声認識手法では、ある特定の雑音のみに対応して作成された音響モデルMのみを使って音声認識するようにしているので、上述したような刻々と変化する多種多様な雑音には対応できず、状況によって発生する雑音が音声認識性能に大きく影響を与え、高い認識率を得ることは難しいという問題がある。
【0011】
これに対して、特開2002−132289号公報に記載の技術のように、様々な雑音の種類に応じた複数種類の音響モデルを作成し、実際の音声認識時には、音声に重畳された雑音に応じて、複数種類の音響モデルの中から最適な音響モデルを選択して音声認識を行うものがある。
【0012】
【特許文献1】
特開2002−132289号公報
【0013】
【発明が解決しようとする課題】
上述した特許文献1によれば、いくつかの雑音に対応した音響モデルを有し、そのときの雑音に最適な音響モデルを選択して音声認識することによって、確かに、高精度な音声認識が可能となる。
【0014】
しかし、自動車の車内で音声認識を行う場合、自動車の走行状況に起因する音(速度などに応じたタイヤのパターンノイズや窓の開度に応じた風切り音、回転数や変速ギヤ位置などによるエンジン音)、周囲の環境に起因する音(トンネルなどを通過する際の反響音など)、自動車に搭載されている機器の動作状態に起因する音(カーオーディオの動作音やエアコンの動作音、ワイパーや方向指示器の動作音など)、降雨時における雨音など自動車特有の雑音がマイクロホンから入り、これらの雑音が音声コマンドに重畳した状態で以降の音声認識処理部に渡されることになる。
【0015】
一般に、自動車の場合、マイクロホンから入力される雑音の種類は上述したように、自動車特有の雑音であり、その種類はある程度限定されるが、走行状況に起因する雑音としてエンジン音だけに注目して考えても、アイドリング時、低速走行時、高速走行時では雑音の大きさや雑音の種類が異なる場合が多い。また。同じ速度で走行していても、変速ギヤ比の関係でエンジンの回転数が高いときと低いときで雑音の大きさや種類が異なるなど、エンジン音だけを考えても、雑音の大きさと種類は様々異なってくる。
【0016】
さらに、このような走行状況に起因するものだけではなく、上述したように、たとえば、窓の開閉度合いによる風切り音、トンネルや橋など周囲の建造物などの反響音、降雨時(降雨量によっても異なる)による雨音、エアコン、ワイパー、カーオーディオ、方向指示器など各種機器の動作音も雑音としてマイクロホンに入力されてくる。
【0017】
このように、自動車で発生する雑音は、雑音種類はある程度は限定されるものの、状況によっては同じ種類の雑音であっても様々異なってくることも大きな特徴であり、このような雑音環境下にあっては、前述の特許文献1の技術では対応できない場合がある。
【0018】
また、これは自動車だけではなく、他の乗り物などでも同じである。さらに、乗り物だけではなく、たとえば、工場や流通センタなどの作業場で音声認識を行う場合も、雑音の種類は自動車とは異なるものの、自動車での音声認識を行う場合と同様のことが言える。
【0019】
そこで本発明は、たとえば、雑音を有する空間内で音声認識する際、その空間内の雑音環境に適した音声認識を可能とするための音響モデルを作成する音響モデル作成方法および多種多様な雑音環境下で高い認識性能を得ることのできる音声認識装置、さらに、この音声認識装置を備えることによって、多種多様な雑音環境下においても音声による機器操作などを確実に行うことのできる音声認識装置を有する乗り物を提供することを目的としている。
【0020】
【課題を解決するための手段】
(1)本発明の音響モデル作成方法は、雑音を有する空間内で音声認識を行うための音響モデル作成方法であって、前記雑音を有する空間内で収集可能な各種雑音を収集する雑音収集ステップと、この雑音収集ステップにより収集された雑音を分類して複数種類の雑音データを作成する雑音データ作成ステップと、この雑音データ作成ステップによって作成された複数種類の雑音データを標準的な音声データに重畳させて複数種類の雑音重畳音声データを作成する雑音重畳音声データ作成ステップと、この雑音重畳音声データ作成ステップによって作成された複数種類の雑音重畳音声データに対して雑音除去処理を行って複数種類の雑音除去音声データを作成する雑音除去音声データ作成ステップと、この雑音除去音声データ作成ステップによって作成された複数種類の雑音除去音声データから複数種類の音響モデルを作成する音響モデル作成ステップとを有することを特徴としている。
【0021】
このように、ある空間内で収集された雑音を分類して複数種類の雑音データを作成し、その複数種類の雑音データを予め用意された標準的な音声データに重畳させて複数種類の雑音重畳音声データを作成し、その複数種類の雑音重畳音声データに対して雑音除去処理を行って、その複数種類の雑音除去音声データから複数種類の音響モデルを作成するようにしているので、その空間内での様々な雑音の種類に対応した最適な音響モデルを作成することができる。
【0022】
(2)前記(1)の音響モデル作成方法において、複数種類の雑音重畳音声データに対して行われる雑音除去処理は、個々の雑音データに適した雑音除去手法を用いて行うようにしている。
これによって、それぞれの雑音データに対して適正かつ効率的な雑音除去が可能となる。
【0023】
(3)前記(1)または(2)の音響モデル作成方法において、雑音を有するある空間内は、乗り物内であることが1つの例として考えられる。
これによって、乗り物(たとえば、自動車)特有の様々な雑音の種類に対応した最適な音響モデルを作成することができる。
【0024】
(4)前記(3)の音響モデル作成方法において、乗り物内で収集可能な各種雑音は、天候、前記乗り物の走行状況、前記乗り物の走行位置、前記乗り物に搭載されている機器の動作状態の少なくとも1つに起因する複数種類の雑音としている。
【0025】
この雑音は、乗り物が自動車である場合、その一例を挙げれば、走行速度などに応じたエンジン音やタイヤのパターンノイズ、降雨時における雨音、エアコンやカーオーディオ機器などの車載機器の動作音などである。そして、これらの音が雑音として収集され、これらの雑音を分類して、それぞれの雑音グループに対応した雑音データを生成し、それぞれの雑音データごとの音響モデルを作成することによって、乗り物、特に自動車特有の様々な雑音に対応可能な音響モデルを作成することができる。
【0026】
(5)前記(1)から(4)のいずれかの音響モデル作成方法において、前記雑音収集ステップは、前記収集すべき複数種類の雑音に対応するそれぞれの雑音パラメータを記録する雑音パラメータ記録工程を含み、前記雑音データ作成ステップは、前記収集すべき複数種類の雑音とこの収集すべき雑音に対応するそれぞれの雑音パラメータとを用いて分類することによって前記複数種類の雑音データを作成するようにしている。
【0027】
この雑音パラメータは、たとえば、その一例を挙げると、自動車の速度を示す情報、エンジン回転数を示す情報、エアコンの動作状態を示す情報などである。これらの雑音パラメータを雑音とともに記録することで、たとえば、どのような速度のときはどのような雑音が発生するかの対応付けが行え、適切な分類が可能となり、実際の雑音環境に適した雑音データ得ることができる。
【0028】
(6)本発明の音声認識装置は、雑音を有する空間内で音声認識を行う音声認識装置であって、認識すべき音声およびそれ以外の雑音の入力が可能な音入力手段と、前記雑音を有する空間内で収集可能な各種雑音を収集する雑音収集ステップと、その収集された雑音を分類して複数種類の雑音データを作成する雑音データ作成する雑音データ作成ステップと、その作成された複数種類の雑音データを予め用意された標準的な音声データに重畳させて複数種類の雑音重畳音声データを作成する雑音重畳音声データ作成ステップと、その作成された複数種類の雑音重畳音声データに対して雑音除去処理を行って複数種類の雑音除去音声データを作成する雑音除去音声データ作成ステップと、その作成された複数種類の雑音除去音声データから複数種類の音響モデルを作成する音響モデル作成ステップとを有する音響モデル作成方法により作成された複数種類の音響モデルと、前記音入力手段に入力された雑音が、前記複数種類の雑音データのどの雑音データに属する雑音であるかを判別する雑音データ判別手段と、前記音入力手段から雑音の重畳された雑音重畳音声データに対して前記雑音データ判別手段での判別結果に基づいて雑音除去を行う雑音除去処理手段と、この雑音除去処理手段によって雑音除去された雑音除去音声に対し、前記複数種類の音響モデルのうち前記雑音データ判別手段で判別された雑音データに対応した音響モデルを用いて音声認識を行う音声認識手段とを有したことを特徴としている。
【0029】
このように、本発明の音声認識装置は、現在の雑音が複数種類の雑音データのどの雑音データに属する雑音であるかを判別する雑音データ判別を行い、雑音重畳音声に対して、その雑音データ判定結果に基づいた雑音除去を行う。そして、その雑音除去音声に対し、当該雑音データに対応した音響モデルを用いて音声認識を行うようにしている。また、この音声認識装置が用いる複数種類の音響モデルは、上述した音響モデル作成方法によって作成された音響モデルである。
【0030】
これによって、ある空間内に存在する雑音に対し最適な雑音除去処理が行えるとともに、その時点の雑音に対して最適な音響モデルを用いた音声認識が可能となるので、たとえば、自動車や作業場など特有の雑音環境下で高い認識性能を得ることができる。
【0031】
(7)前記(6)の音声認識装置において、音入力手段に入力された雑音に対応する雑音パラメータを取得する雑音パラメータ取得手段を有するようにしている。
この雑音パラメータ取得手段を設けることによって、収集すべき雑音とその雑音の発生源との関連付けを確実に行うことができる。
【0032】
(8)前記(6)または(7)の音声認識装置において、前記分類によって得られた複数種類の雑音データに対して行われる雑音除去処理は、個々の雑音データに適した雑音除去手法を用いて行うようにしている。
これによって、それぞれの雑音データに対して適正かつ効率的な雑音除去が可能となる。
【0033】
(9)前記(6)から(8)のいずれかの音声認識装置において、雑音を有するある空間内は、乗り物内であることが1つの例として考えられる。
これによって、乗り物(たとえば、自動車)特有の様々な雑音の影響を考慮した音声認識を行うことができる。たとえば、運転者が乗り物自体または乗り物に搭載された機器などの操作や動作設定を行うような場合、高い認識精度で認識されることによって確実な操作や動作設定が可能となる。
【0034】
(10)前記(9)の音声認識装置において、乗り物内で収集可能な各種雑音は、天候、前記乗り物の走行状況、前記乗り物の走行位置、前記乗り物に搭載されている機器の動作状態の少なくとも1つに起因する複数種類の雑音でとしている。
これによって、乗り物(たとえば、自動車)特有の様々な雑音に対応可能な音響モデルを作成することができ、その音響モデルを用いることによって、その乗り物特有の様々な雑音の影響を考慮した音声認識が可能となり、高い認識精度を得ることができる。
【0035】
(11)前記(6)から(10)のいずれかの音声認識装置において、音響モデルを作成するための前記雑音収集ステップは、前記収集すべき複数種類の雑音に対応するそれぞれの雑音パラメータを記録する工程を含み、前記雑音データ作成ステップは、前記収集すべき複数種類の雑音とこの収集すべき雑音に対応するそれぞれの雑音パラメータとを用いて分類することによって前記複数種類の雑音データを作成するようにしている。
【0036】
これによって、乗り物特有の雑音を適切に分類することができ、その分類によって得られた雑音データに対応した音響モデルを作成することができ、その音響モデルを用いることによって、その乗り物特有の様々な雑音の影響を考慮した音声認識が可能となり、高い認識精度を得ることができる。
【0037】
(12)前記(6)から(11)のいずれかの音声認識装置において、前記複数種類の音響モデルを作成する際の雑音除去処理と前記認識すべき音声に対する音声認識を行う際の雑音除去処理は同じ雑音除去手法を用いるようにしている。
これによって、様々な雑音環境下において、高い認識精度を得ることができる。
【0038】
(13)本発明の音声認識装置は、雑音を有するある空間内で音声認識を、前記(1)から(5)の音響モデル作成方法によって作成された複数種類の音響モデルを用いて行う音声認識装置であって、認識すべき音声およびそれ以外の雑音の入力が可能な音入力手段と、前記音入力手段から入力された現在の雑音が、予め分類された複数種類の雑音データのどの雑音データに属する雑音であるかを判別する雑音データ判別手段と、前記音入力手段から雑音の重畳された雑音重畳音声データに対して前記雑音データ判別手段での判別結果に基づいて雑音除去を行う雑音除去処理手段と、この雑音除去処理手段によって雑音除去された雑音除去音声に対し、前記複数種類の音響モデルのうち前記雑音データ判別手段で判別された雑音種類に対応した音響モデルを用いて音声認識を行う音声認識手段とを有したことを特徴としている。
本発明の音声認識装置をこのような構成とすることによっても前記(6)の音声認識装置と同じ効果を得ることができる。
【0039】
(14)本発明の音声認識装置を有する乗り物は、音声によって機器操作の可能な音声認識装置を有する乗り物であって、前記音声認識装置として、前記(6)から(13)のいずれかに記載の音声認識装置を有することを特徴としている。
これによって、たとえば、運転者が乗り物自体または乗り物に搭載された機器などの操作や動作設定を行うような場合、その乗り物特有の様々な雑音に適合した音響モデルを用いた音声認識が行えるので、高い認識精度を得ることができ、運転者などが音声で行う操作や動作設定が確実なものとなる。
【0040】
【発明の実施の形態】
以下、本発明の実施の形態について説明する。なお、この実施の形態で説明する内容は、本発明の音響モデル作成方法、音声認識装置、音声認識装置を備えた乗り物の説明を含むものである。
【0041】
また、本発明の実施の形態では、雑音を有する空間としては乗り物と工場を例にとって説明し、乗り物についての実施の形態を実施の形態1、工場についての実施の形態を実施の形態2として説明する。また、乗り物は自動車や2輪車などの車両の他、電車、飛行機、船舶など種々考えられるが、ここでは、自動車を例にとって説明する。
【0042】
〔実施の形態1〕
まず、音声認識用の音響モデル作成方法の大まかな処理手順について図1のフローチャートを参照しながら簡単に説明する。これは、ここで説明する実施の形態1と後述する実施の形態2で共通である。
【0043】
まず、前記雑音を有する空間内で収集可能な各種雑音を収集する(ステップS1)。そして、これによって収集された雑音を分類して複数の雑音グループに対応した複数種類の雑音データを作成し(ステップS2)、この複数種類の雑音データを予め用意された標準的な音声データに重畳させて複数種類の雑音重畳音声データを作成する(ステップS3)。続いて、この複数種類の雑音重畳音声データに対して雑音除去処理を行って複数種類の雑音除去音声データを作成し(ステップS4)、これによって作成された複数種類の雑音除去音声データから複数種類の音響モデルを作成する(ステップS5)。
【0044】
以下、自動車を例にとって、本発明を詳細に説明する。まず、図1で説明した処理手順を図2を用いてより詳細に説明する。
自動車の場合、音声コマンド入力用のマイクロホンに入力される雑音の種類は自動車特有のものが多く、しかも、その雑音をあらかじめ収集しておくこともできる。
【0045】
そこで、自動車の室内で音声認識を行う際、音声認識性能に影響を与えそうな自動車特有の多種多様な雑音を収集し、収集された多種多様な雑音を統計的手法によって分類して、n個の雑音グループを作成し、それぞれの雑音グループごとの雑音データN1,N2,・・・,Nnを作成する(これについて後に詳細に説明する)。
【0046】
なお、このn個の雑音グループごとの雑音データN1,N2,・・・,Nn(n種類の雑音データN1,N2,・・・,Nn)には、S/N比の違いも考慮されている。たとえば、同じ雑音でもS/N比が0デシベルから20デシベル程度に広がっている場合、S/N比の違いで雑音を分類して、n個の雑音グループに分けて、n種類の雑音データN1,N2,・・・,Nnを作成する。
【0047】
そして、無響室などで収集された標準的な音声データV(たとえば、多数の話者が多種類の単語について発話して得られた大量の音声データ)と上述のn種類の雑音データN1,N2,・・・,Nnとを雑音重畳音声データ作成部1に与え、標準的な音声データVと上述のn種類の雑音データN1,N2,・・・,Nnとをそれぞれ重畳させてn種類の雑音重畳音声データVN1,VN2,・・・,VNnを作成する。
【0048】
そして、雑音除去処理部2がn種類の雑音重畳音声データVN1,VN2,・・・,VNnに対して最適な雑音除去処理手法を用いて雑音除去処理を行い、n種類の雑音除去音声データV1’,V2’,・・・,Vn’を作成する。その後、音響モデル学習処理部3がこのn種類の雑音除去音声データV1’,V2’,・・・,Vn’を用いて音響モデルの学習を行い、n種類の音響モデルM1,M2,・・・,Mnを作成する。
【0049】
なお、n種類の雑音重畳音声データVN1,VN2,・・・,VNnに対するそれぞれ最適な雑音除去処理手法としては、n種類の雑音重畳音声データVN1,VN2,・・・,VNnごとに用意されたn種類の雑音除去処理を用いて行うようにしてもよいが、数種類の代表的な雑音除去処理手法を用意して、その中からそれぞれの雑音重畳音声データにとって最適と思われる雑音除去処理手法を選択して用いるようにしてもよい。
【0050】
数種類の代表的な雑音除去処理手法としては、たとえば、前述したようなスペクトラム・サブストラクション(SS)やケプストラム平均化処理(CMN)、さらには、音源を推定したエコーキャンセルなどがあり、これら雑音除去処理手法のうち、それぞれの雑音に最適な1つの雑音除去手法を選んで雑音除去を行うようにしてもよく、また、これらの雑音除去手法のうち2種類以上を組み合わせて、組み合わせたそれぞれの雑音除去手法に重み付けを行って雑音除去するようにしてもよい。
【0051】
次に、収集された多種多様な雑音を、ある統計的手法によって幾つか(n個)に分類し、その分類によって得られたそれぞれの雑音グループごとのn種類の雑音データN1,N2,・・・,Nnを生成する具体的な例について図3を参照しながら詳細に説明する。
【0052】
この実施の形態1では、自動車に搭載された機器を操作するための音声コマンドを認識する際に本発明を適用する例であるので、雑音収集用の自動車を様々な条件で様々な状況のもとに長期間走行させて、自動車内の所定の場所に設置されたマイクロホン11から自動車特有の多種多様な雑音を時系列で収集する。
【0053】
なお、このマイクロホン11は、雑音収集用の自動車内において、運転者が音声によって機器操作を行う際、話者の音声コマンドを適正に入力できるような位置に設置することが望ましい。
【0054】
このマイクロホン11は、本発明の音声認識装置を実際に搭載するユーザ向け販売用の車種において、その設置位置がたとえばステアリング部分というように決められている場合にはその位置にマイクロホン11を設置して、そのマイクロホン11から雑音を収集する。そして、この収集された雑音は入力信号処理部12で増幅やA/D変換などの入力信号処理が施されたのちに雑音記録部22に記録される。
【0055】
また、設計・開発段階などでマイクロホン11の設置位置が決定されていない場合は、設置候補となり得る複数の位置に設置して、それぞれのマイクロホン11から雑音を収集するようにしてもよい。この実施の形態では、設置位置はすでに決められているものとし、その設置位置に設置された1つのマイクロホン11から雑音を収集する例について説明する。
【0056】
また、マイクロホン11からの雑音収集と同時に、自動車の走行状況、現在位置、天候(ここでは雨量としている)、自動車に搭載されている各種機器の動作状態などを表す情報(雑音パラメータと呼ぶことにする)を時系列で収集する。
【0057】
この雑音パラメータは、自動車の速度を示す情報、エンジン回転数を示す情報、変速ギヤの位置を示す情報、窓の開閉状況(開度)を示す情報、エアコンの動作状態(風量の設定状態など)を示す情報、ワイパーの動作状態を示す情報、方向指示器の動作状態を示す情報、雨量計からの雨量を示す情報、GPS(GlobalPositioning System)による走行位置情報、カーオーディオの音信号を示す情報などであり、これら各雑音パラメータは、これらの雑音パラメータの取得が可能な雑音パラメータ取得部13から時系列に取得されて雑音パラメータ記録部21に記録される。
【0058】
なお、これら雑音パラメータ取得部13は自動車に設置されている。そして、たとえば、走行速度を示す情報を取得する速度情報取得部131、エンジン回転数を示す情報を取得する回転数情報取得部132、変速ギヤ位置を示す情報を取得する変速ギヤ位置情報取得部133、窓の開度をたとえば開度0%、開度50%、開度100%などというような情報として取得する窓開度情報取得部134、エアコンの動作状態をたとえば動作停止・風量(弱風・強風)などの情報として取得するエアコン動作情報取得部135、ワイパーのオン・オフ情報を取得するワイパー情報取得部136、方向指示器のオン・オフ情報を取得する方向指示器情報取得部137、GPSからの現在位置情報を取得する現在位置情報取得部138、雨量センサからの雨量情報(雨量なし、少量・多量など)を示す情報を取得する雨量情報取得部139、カーオーディオからの音量などの情報を取得するカーオーディオ情報取得部140などからなる。
【0059】
なお、上述したような実際に自動車を走行させてマイクロホン11から時系列に収集される雑音データと、雑音パラメータ取得部13の各情報取得部131〜140から時系列に取得される各雑音パラメータは、実際に自動車を走行(停止状態も含む)させることによって得られるものである。
【0060】
すなわち、その自動車をたとえば1ヶ月あるいは数ヶ月といった長期間、色々な場所、色々な天候のもとで走行させ、かつ、各雑音パラメータを色々変化させる。
たとえば、走行速度を色々変化させたり、エンジン回転数を色々変化させたり、変速ギヤを色々変化させたり、窓の開度を色々変化させたり、エアコンを色々な設定状態としたり、カーオーディオから色々な音信号を出力させたり、ワイパーや方向指示器などを適宜操作させるというように、自動車の走行時にあり得る様々な状態を作り出す。
【0061】
これによって、マイクロホン11からは多種多様な雑音が時系列で入力され、入力信号処理部12で増幅処理やディジタル信号への変換処理(A/D変換)がなされて、収集された雑音として雑音記録部22に記録されるとともに、その時々の各雑音パラメータが雑音パラメータ取得部13で時系列に取得されて雑音パラメータ記録部21に記録される。
【0062】
そして、雑音分類処理部23が、マイクロホン11で収集された時系列の雑音(雑音記録部22に記録された時系列の雑音)と雑音パラメータ記録部21に記録された雑音パラメータとを用いて、ある統計的手法によってその収集された雑音を分類してn個の雑音グループを作成し、それぞれの雑音グループごとの雑音データN1,N2,・・・,Nnを生成する。
【0063】
この雑音分類処理部23が行う雑音分類には幾つかの手法が考えられるが、たとえば、収集された時系列の雑音データの特徴ベクトルをベクトル量子化して、そのベクトル量子化結果を用いてn個の雑音グループに分類する方法、あらかじめ用意された幾つかの音声認識用データに実際に重畳させてそれを実際に音声認識させて、その認識結果に基づいてn個の雑音グループに分類する方法などがある。
【0064】
なお、n種類の雑音データN1,N2,・・・,Nnは、それぞれの雑音データN1,N2,・・・,Nnごとに、走行速度を示す情報、回転数を示す情報、変速ギヤを示す情報、窓の開度を示す情報、エアコンの動作状態を示す情報など上述した様々な雑音パラメータの値に依存したものであるため、これらそれぞれの雑音パラメータとn種類の雑音データN1,N2,・・・,Nnは互いに対応付けられたものとなっている。
【0065】
たとえば、雑音データN1は、走行速度が時速40kmから時速80kmの範囲内、回転数が1500rpmから3000rpmの範囲内、変速ギヤがトップギヤ、窓の開度は0(閉状態)、エアコンは弱風動作、ワイパーはオフ、・・・(そのほかの雑音パラメータは省略)に対応した雑音データであって、雑音データN2は、走行速度が時速80kmから100kmの範囲内、回転数が3000rpmから4000rpmの範囲内、変速ギヤがトップギヤ、窓の開度は50%(半開き状態)、エアコンは強動作、ワイパーはオフ、・・・(そのほかの雑音パラメータは省略)に対応した雑音データであるといった具合である。
【0066】
これによって、現時点におけるそれぞれの雑音パラメータがそれぞれどのような値であるときは、そのときの雑音はn種類の雑音データN1,N2,・・・,Nnのどの雑音データに属する雑音であるかを知ることができる。なお、n種類の雑音データN1,N2,・・・,Nnの具体例については後に説明する。
【0067】
このようにして、n種類の雑音データN1〜Nnが作成されると、図2に示すように、これら雑音データN1〜Nnを標準的な音声データV(無響室などで収集された多数の話者が多種類単語について発話して得られた大量の音声データ)に重畳させ、n種類の雑音重畳音声データVN1,VN2,・・・,VNnを作成する。
【0068】
そして、このn種類の雑音重畳音声データに対し、それぞれの雑音データN1〜Nnを除去するに最適な雑音除去処理手法(前述したようにこの実施の形態1では、3種類の雑音除去処理のどれか、またはそれらの組み合わせ)を用いて、雑音除去処理を行い、n個の雑音除去音声データV1’,V2’,・・・,Vn’を作成し、このn個の雑音除去音声データV1’,V2’,・・・,Vn’を用いて音響モデルの学習を行い、n個の音響モデルM1,M2,・・・,Mnを作成する。
このn個の音響モデルM1,M2,・・・,Mnは、n種類の雑音データN1〜Nnに対応するものである。
【0069】
つまり、音響モデルM1は雑音データN1の重畳した音声データ(雑音重畳音声データVN1)から雑音データN1を除去した後(雑音データN1は完全には除去されないでその成分が残っている)の音声データV1’から作られた音響モデルであり、音響モデルM2は雑音データN2の重畳した音声データから雑音データN2を除去した後(雑音データN2は完全には除去されないでその成分が残っている)の音声データから作られた音響モデルである。
【0070】
また、音響モデルMnは雑音データNnの重畳した音声データ(雑音重畳音声データVNn)から雑音データNnを除去した後(雑音データNnは完全には除去されないでその成分が残っている)の音声データVn’から作られた音響モデルである。
以上のようにして、本発明の実施の形態1である自動車の機器操作を音声によって行う際の音声認識に用いられる音響モデルM1,M2,・・・,Mnが作成される。
【0071】
次に、このような音響モデルM1,M2,・・・,Mnを作成する際の雑音データ(マイクロホン11から収集された雑音)の分類処理について具体的に説明する。
【0072】
雑音収集を行うために長期間自動車を走行させることによって収集された雑音には様々な雑音が含まれる。たとえば、タイヤのパターンノイズ(主に速度に関係する)やエンジン音(主に速度、エンジンの回転数、ギヤ位置に関係する)、窓が開いている場合の風切り音、エアコンの動作音、雨が降っていれば雨そのものの音やワイパーの動作音、方向変換時には方向指示器の動作音、トンネル通過時は反響音、カーオーディオの動作中には音楽などの音信号などが収集される。
【0073】
そして、ある時刻においては、これらがすべて雑音として収集される場合もあり、また、ある時刻においては、これらのうち、たとえば、タイヤのパターンノイズやエンジン音だけが収集される場合もある。また、このような雑音とともに、それぞれの時刻対応にその自動車に設置された各種の雑音パラメータ取得部13で取得された雑音パラメータが記録されている。
【0074】
本来、雑音は前述したように多種存在し、マイクロホン11からは個々の雑音パラメータに対応した雑音、また、複数の雑音パラメータの組み合わせに対応した数多くの種類の雑音が収集され、このマイクロホン11から収集された雑音を統計的手法によって実用的な数の雑音グループ数とするための分類処理がなされる。しかし、ここでは、説明をより簡素化するために、3種類の雑音パラメータ(走行速度、エアコンの動作状態、雨量)のみで考え、これら走行速度、エアコンの動作状態、雨量の3つの雑音パラメータを3次元座標における3つの直交軸上の値(ここではそれぞれ3段階の状態を示す値)で表して分類する例について説明する。
【0075】
この場合、速度は「停車時(速度0)」、「低速」、「高速」の3段階で表し、エアコンの動作状態は、「停止」、「弱風」、「強風」の3段階で表し、雨量は「無」、「少量」、「多量」の3段階で表すものとする。
【0076】
なお、速度の「低速」および「高速」は、たとえば、60km/hまでを低速、それ以上を高速というように予め範囲を決めておく。また、雨量も同様に、雨量計から得られる1時間雨量が0mmを「無」、同じく、雨量計から得られる1時間雨量が5mmまでを「少量」、それ以上を「多量」というように予め範囲を決めておく。
【0077】
また、この雨量を示す雑音パラメータ(「無」、「少量」、「多量」)は、雨量計からではなく、ワイパーの動作状態を用いることもできる。たとえば、ワイパーがオフしていれば、雨量は「無」、ワイパーが低速動作であれば雨量は「少量」、ワイパーが高速動作であれば雨量は「多量」というように判定できる。
【0078】
図4は上述の3種類の雑音パラメータによる雑音を収集対象とし、これら3種類の雑音パラメータに対応して発生する雑音を1つのマイクロホン11を用いて長期間かけて収集した雑音データ(これをNで表す)を1つの大きな球体で表している。この図4は速度を「停車時」、「低速」、「高速」の3段階、エアコンの動作状態を「停止」、「弱風」、「強風」の3段階、雨量を「無」、「少量」、「多量」の3段階として、それらを3次元座標上で表したものである。
【0079】
この雑音データNに対し、ベクトル量子化などを用いた統計的手法を用いることなく単純に、個々の雑音パラメータごとに分類すると、図5のようになる。この場合、3の3乗個(27個)の雑音グループが得られ、それぞれの雑音グループに対応した27個の雑音データN1〜N27が得られる。この27個の雑音データN1〜N27をそれぞれ小さな球体で表している。
【0080】
この図5において、幾つかの雑音データについて説明すると、たとえば、雑音データN1は速度が「停車時(速度0)」、エアコンは「停止」、雨量は「無」に対応する雑音データであり、雑音データN5は速度が「低速」、エアコンは「弱風」、雨量は「無」に対応する雑音データであり、雑音データN27は速度が「高速」、エアコンは「強風」、雨量は「多量」に対応する雑音データである。
【0081】
なお、この図5では、個々の雑音データN1〜N27を雨量が「無」、「少量」、「多量」で色の濃さを分けして表しており、雨量が「無」における3×3個の雑音データN1〜N9を最も薄い色で表し、雨量が「少量」における3×3個の雑音データN10〜N18を中程度の濃さで表し、雨量の「多量」における3×3個の雑音データN19〜N27を最も濃い色で表している。
【0082】
この図5によれば、確かに、自動車の現時点における雑音パラメータによって、マイクロホン11にはどのような種類の雑音データが入力されるかを知ることができ、それによって、最適な音響モデルを用いて音声認識することが可能となる。たとえば、現在の自動車の速度が「低速」でエアコンが「弱風」で雨量「無」であれば、そのときの雑音データはN5であり、その雑音データN5に対応した音響モデルを用いて音声認識を行う。
【0083】
この図5の場合は、マイクロホン11から得られた時系列の雑音データを単純に個々の雑音パラメータのとり得る状況の数(この例では27種類)ごとに分類した例であるが、これをある統計的手法によって分類した例について図6により説明する。
【0084】
なお、このようなある統計的手法を用いて分類する例として、前述したように、雑音データの各時刻対応の特徴ベクトルをベクトル量子化して、そのベクトル量子化結果を用いて、複数個の雑音グループに分類する方法、あらかじめ用意された幾つかの音声認識用データに実際に重畳させてそれを実際に音声認識させて、その認識結果に基づいて複数個の雑音グループに分類する方法などがある。
【0085】
このような手法によって分類された結果、図6に示すように9個の雑音グループが作成され、それぞれの雑音グループに対応した9種類の雑音データN1〜N9が作成されたとする。
この図6の場合、雨の音(雨量)が音声認識する上での雑音データとして最も影響が大きく、その次に自動車の走行速度の影響が大きく、エアコンの影響は雨や走行速度に比べて影響が小さいことを示している。
【0086】
この図6では、雨量が「無」の場合、自動車の走行速度が0(「停車時」)では、エアコンの動作状態に対応した雑音データN1,N2,N3が作成されている。また、自動車の走行速度が「低速」においては、エアコンの動作状態が「停止」に対応した雑音データN4とエアコンの動作状態が「弱風」・「強風」で1つの雑音データN5が作成される。すなわち、自動車がある速度で走行している場合には、エアコンの動作状態が「弱風」であっても「強風」であってもその動作音は、自動車の走行による雑音に比べるとその影響は殆どないと判断された結果である。また、自動車の速度が「高速」においては、エアコンの動作状態に関係なく、1つの雑音データN6が作成されている。
【0087】
また、雨が降っていると、たとえ、雨量が「少量」であっても、エアコンがどのような動作状態にあるかは関係なく、自動車の走行速度に依存した雑音データが作成される。すなわち、雨量が「少量」である場合には、走行速度が「低速」まで(停車時を含む)に対応した雑音データN7と、「高速」に対応した雑音デ−タN8の2種類の雑音グループが作成されている。
また、雨が「多量」である場合には、エアコンの動作状態や自動車の走行速度の影響は殆どなく、1つの雑音デ−タN9が作成されている。
【0088】
以上のように、3種類の雑音パラメータ(走行速度、エアコンの動作状態、雨量)に対応する雑音を収集対象とし、これら3種類の雑音パラメータに依存する雑音を1つのマイクロホン11を用いて長期間かけて収集した雑音データNを、ある統計的手法で分類した結果、図6のような雑音データN1〜N9が作成されたとする。
【0089】
なお、この図6により得られた雑音データN1〜N9は、説明をわかり易くするため、雑音パラメータを3つ(走行速度、エアコンの動作状態、雨量)とした例であるが、実際には、雑音パラメータは、前述したように、多種類存在し、これら多種類の雑音パラメータに依存した各種雑音を長期間収集して、時系列の雑音データを得て、その時系列の雑音データを統計的手法によって分類し、n個の雑音グループを得て、これらそれぞれの雑音グループに対応するn種類の雑音データN1〜Nnを作成する。
【0090】
また、実用的な雑音グループ数としては、音響モデル作成処理や音声認識処理の効率化などの点から数個から10数個程度が好ましいが、これは、任意に設定することができる。
【0091】
このようにして、n個の雑音グループに対応するn種類の雑音データN1〜Nnが作成されると、前述したように(図1参照)、このn種類の雑音データN1〜Nnを標準的な音声データに重畳させてn個の雑音重畳音声データVN1,VN2,・・・,VNnを作成し、このn種類の雑音重畳音声データVN1,VN2,・・・,VNnに対し、それぞれの雑音を除去するに最適な雑音除去処理手法を用いて、雑音除去処理を行い、n種類の雑音除去音声データV1’,V2’,・・・,Vn’を作成する。
【0092】
そして、このN種類の雑音除去音声データV1’,V2’,・・・,Vn’を用いて音響モデルの学習を行い、n種類の音響モデルM1,M2,・・・,Mnを作成する。これによって、n種類の雑音データN1,N2,・・・、Nnに対応したn種類の音響モデルM1,M2,・・・,Mnを作成することができる。
【0093】
次に上述のようにして作成されたn種類の音響モデルM1,M2,・・・,Mnを用いた音声認識について説明する。
【0094】
図7は本発明の音声認識装置の構成図であり、機器操作用の音声コマンドや様々な雑音を入力する音入力手段としてのマイクロホン11、このマイクロホン11から入力された音声コマンドを増幅するとともにディジタル信号に変換(A/D変換)する入力信号処理部12、前述した各種雑音パラメータを取得する雑音パラメータ取得部13、この雑音パラメータ取得部13から取得された各種の雑音パラメータに基づいて、現在の雑音の種類が前述したn個に分類されることによって作成されたn種類の雑音データN1〜Nnのどれに相当するかを判別する雑音データ判定部14、雑音データN1〜Nnそれぞれに最適な雑音除去方法が保存された雑音除去方法保存部15、雑音データ判定部14で判別された雑音データに最適な雑音除去方法を、雑音除去方法保存部15に保存された各種の雑音除去方法の中から選択し、マイクロホン11から入力された音声データ(ディジタル変換後の雑音重畳音声データ)に対して雑音除去処理を行う雑音除去処理部16、この雑音除去処理部16によって雑音除去された雑音除去音声データに対し、前述の手法によって作成された音響モデルM1〜Mn(n種類の雑音データN1〜Nnに対応)のうちのいずれかの音響モデルと言語モデル17を用いて音声認識を行う音声認識処理部18を有した構成となっている。
【0095】
この図7で示される音声認識装置は、乗り物(この実施の形態では自動車)内の適当な場所に設置される。
図8は図7で示される音声認識装置(図8においては、30の符号が付されている)が設置された乗り物(この図8の例では自動車)の一例を示すもので、音声認識装置30は、自動車室内の適当なスペースに取り付けられる。なお、音声認識装置30の設置位置はこの図8の例に限られるものではなく、たとえば、座席と床の間のスペースや荷物室など適当な場所を選ぶことができることは勿論である。また、音声認識装置30のマイクロホン11は、運転者が音声を入力しやすい位置として、たとえば、ステアリング31部分に設けられるが、これもステアリング31部分に限られるものではない。
【0096】
ところで、図7に示す雑音データ判定部14は、雑音パラメータ取得部13から各種雑音パラメータを受け取って、マイクロホン11から入力された現在の雑音が、複数種類の雑音データN1〜N9のどの雑音データに属するかを判定するものである。
【0097】
すなわち、この雑音データ判定部14は、雑音パラメータ取得部13からの雑音パラメータとして、たとえば、前述したように、速度情報取得部131からの速度を示す情報、エアコン動作情報取得部135からのエアコン動作状態を示す情報、雨量情報取得部139からの雨量を示す情報など基づいて、現在の雑音状況が雑音データN1〜N9のどの雑音データに属するかを判定する。
【0098】
たとえば、現在の走行速度が70km、エアコンの動作状態が「弱風」、雨量が「無」といった情報を雑音パラメータとして雑音データ判定部14が受け取ると、これらの雑音パラメータから、現在の雑音が雑音データN1〜N9のどの雑音データに属するかを判定する。仮に、現在の雑音が雑音データN6に属すると判定されたとすると、その判定結果を雑音除去処理部16と音声認識処理部18に送る。
【0099】
雑音除去処理部16は、雑音データ判定部14からの現在の雑音種類を示す情報を受け取ると、入力信号処理部12からの雑音重畳音声データに対して最適な雑音除去方法を用いた雑音除去処理を行う。たとえば、雑音データ判定部14から現在の雑音が雑音データN6に属する雑音であることを示す情報が雑音除去処理部16に与えられると、この雑音除去処理部16は、雑音データN6に最適な雑音除去手法を雑音除去方法保存部15から選択し、選択した雑音除去方法によって雑音重畳音声データに対する雑音除去処理を行う。
【0100】
なお、この雑音除去処理は、この実施の形態の場合、前述したように、たとえば、スペクトラム・サブトラクション(SS)やケプストラム平均化処理(CMN)などのいずれかあるいはそれらの組み合わせのどれかによって行う。
【0101】
また、現在の雑音の中にカーオーディオからの音信号やワイパーの動作音、方向指示器の動作音が含まれる場合は、これらの雑音を直接除去するような処理も可能とする。
【0102】
たとえば、マイクロホン11に入力された雑音重畳音声データに含まれるカーオーディオからの音信号に対しては、カーオーディオから直接得られる音信号、すなわち、カーオーディオ情報取得部140から得られるカーオーディオ信号を雑音除去処理部16に与え(図7において一点鎖線で示す)、そのカーオーディオ信号をマイクロホンに入力された雑音重畳音声データから差し引くことで、マイクロホン11に入力された雑音重畳データに含まれるカーオーディオの音信号成分を除去することができる。このとき、雑音除去処理部16では、マイクロホン11からの雑音重畳音声データに含まれるカーオーディオ信号は、カーオーディオから直接得られる信号に比べて一定の時間遅れが生じるので、その時間遅れ分を考慮した除去処理を行う。
【0103】
また、ワイパーや方向指示器の動作音は、周期的な動作音であり、それぞれの周期や雑音成分(動作音)は車種によって決められているので、その周期に対応したタイミング信号(図7において一点鎖線で示す)をワイパー情報取得部136や方向指示器情報取得部137から雑音除去処理部16に送ることで、雑音除去処理部16では、そのタイミングでワイパーの動作音や方向指示器の動作音を除去することができる。この場合も、マイクロホン11からの雑音重畳音声データに含まれるワイパーの動作音や方向指示器の動作音は、ワイパーや方向指示器から直接得られる動作信号に比べて一定の時間遅れが生じるので、その時間遅れ分を考慮したタイミングで雑音除去処理を行う。
【0104】
以上のようにして、マイクロホン11から入力されたある時刻の雑音重畳音声データ(音声コマンドとその時点でマイクロホンに入力される雑音からなる)に対する雑音除去処理がなされると、その雑音の除去された雑音除去音声データは音声認識処理部18に送られる。
【0105】
この音声認識処理部18にも、雑音データ判定部14から雑音データ判定結果として、雑音データN1〜N9のいずれかを示す情報が与えられており、その雑音データ判定結果に対応する音響モデルを選択し、選択した音響モデルと言語モデル17を用いて音声認識処理を行う。たとえば、マイクロホン11に入力された話者からの音声コマンドに重畳された雑音が雑音データN1に属する雑音であることを示す情報を雑音データ判定部14から受け取ったとすると、音声認識処理部18では、音響モデルとしては、雑音データN1に対応する音響モデルM1を選択する。
【0106】
この音響モデルM1は、前述の音響モデル作成方法で説明したように、雑音データN1を音声データに重畳させ、その雑音重畳音声データから雑音除去して雑音除去音声データを作成し、その雑音除去音声データから作成された音響モデルであるため、話者の発した音声コマンドに重畳された雑音が雑音データN1に属する場合には、その音声コマンドにとって最適な音響モデルとなり、認識性能を高めることができる。
【0107】
1つの具体例として、図6に示すような9個の雑音グループに対応する9種類の雑音データN1〜N9が作成され、これら9種類の雑音データN1〜N9に対応した音響モデルM1〜M9が作成されている場合の音声認識動作について説明する。
【0108】
今、運転者が動作中に音声コマンドを与えると、音声認識装置30側ではその音声コマンドを認識して、その認識結果に基づいた機器操作を行う場合を考える。なお、このとき自動車の走行速度が時速40km(低速走行であるとする)、エアコンの動作状態は「弱風」、雨量は「無」とする。
【0109】
この場合、自動車内のある位置(ステアリングなど)に設置されたマイクロホン11には、そのときの状況に応じた雑音が入力され、その状態で運転者が何らかの音声コマンドを発すると、その音声コマンドにはそのときの状況に応じた雑音が重畳され、その雑音重畳音声データは入力信号処理部12で増幅やA/D変換されたのちに雑音除去処理部16に送られる。
【0110】
一方、雑音データ判定部14には、この場合、現在の雑音パラメータとして、雑音パラメータ取得部13の速度情報取得部131から現時点の走行速度を示す情報、エアコン動作情報取得部135からエアコンの動作状態を示す情報、雨量情報取得部139からの雨量を示す情報が雑音パラメータとして与えられており、それらの雑音パラメータに基づいて、現在の雑音がどの雑音データN1〜N9のうちのどの雑音データに属する雑音であるかを判定する。
【0111】
この場合、走行速度を示す情報は時速40km(ここでは「低速」としている)、エアコンの動作状態を示す情報は「弱風」、雨量を示す情報は「無」であるので、雑音データ判定部14は、図6から現在の雑音は雑音データN5であると判定し、その判定結果を雑音除去処理部16と音声認識処理部18に送る。
【0112】
これによって、雑音除去処理部16では、その雑音データN5に最適な雑音除去処理手法を用いて雑音除去処理を行い、その雑音除去音声データを音声認識処理部18に送る。
【0113】
音声認識処理部18では、雑音データ判定部14から送られてきた雑音データN5に対応した音響モデルM5(図7では図示されていない)を選択し、その音響モデルM5と言語モデル17を用いて、雑音除去処理部16で雑音除去された雑音除去音声データに対して音声認識処理を行う。そして、この音声認識結果に基づいて機器操作を行う。この機器操作の例としては、たとえば、ナビゲーションシステムに対する目的地の設定などである。
【0114】
以上のように、この実施の形態1における音声認識装置では、音声コマンドに重畳された雑音が雑音データN1〜N9のいずれかに属するかを判定し、それに対応した雑音除去処理手法(音響モデル作成時と同じ雑音除去処理手法)を用いて雑音除去を行い、その雑音除去のなされた音声データ(雑音除去音声データ)に対し、最適な音響モデルを用いて音声認識を行うようにしている。
【0115】
すなわち、自動車のその時々の走行状況、走行位置、車載機器の動作状態などに対応した様々な種類の雑音が音声コマンドに重畳されても、それに対応した最適な雑音除去が行え、その雑音除去後の音声データに対し、最適な音響モデルを用いて音声認識することができるので、様々な雑音環境下において高い認識性能を得ることができる。
【0116】
特に、自動車において、車種が限定されているような場合に特に有効なものとなる。すなわち、雑音収集を行って音響モデルを作成するための雑音収集用車種と実際に本発明の音声認識装置を搭載するユーザ向け販売用車種が同じであれば、雑音収集用車種における雑音収集のためのマイクロホン取り付け位置とユーザ向け販売用車種における音声コマンド入力用のマイクロホン取り付け位置を同じとすることで、雑音がほぼ同じ条件でマイクロホンから入力されるので、適正な音響モデルを選択することができ、高い認識性能を得ることができる。
【0117】
なお、音響モデルを作成するための雑音収集用自動車は専用に用意することも可能であるが、ユーザ向け販売用自動車に、音響モデル作成(図3で示した雑音データN1〜Nnの作成を含む)を行うための機能を音声認識装置30とともに搭載して、1台の自動車で音響モデル作成機能と音声認識機能の両方を可能とすることも可能である。その場合、マイクロホン11、入力信号処理部12、雑音パラメータ取得部13、雑音除去処理部16などは音響モデル作成時と音声認識時で共用することができる。
【0118】
このように、ユーザ向け販売用自動車に音響モデル作成機能と音声認識機能の両方を持たせることで、雑音環境の変化などにより雑音の分類の変更が容易に行え、それに伴って、音響モデルを新たに生成したり、更新したりすることが可能となり、雑音環境の変化への対応がし易くなる。
【0119】
〔実施の形態2〕
この実施の形態2では、雑音を有する空間としては工場の作業場を例にとって説明する。たとえば、ベルトコンベアによって搬送されてくる物品などの検査結果の記録など音声として入力し、それを音声認識してその認識結果を検査記録として保存するような状況を考える。
【0120】
図9は工場内のある作業場を示すもので、作業場41内には、製品を加工する加工装置42、この加工装置42によって加工された製品を搬送するベルトコンベア43、ベルトコンベア43によって搬送された製品を検査する検査装置44、作業場41内の温度や湿度などを調整するエアーコンディショナ(エアコン)45、作業者(図示せず)の発話する音声を認識する本発明の音声認識装置30などが図9のように設置されているとする。
【0121】
また、図示のP1,P2,P3は作業者(図示されていない)が何らかの作業を行って、その位置で音声入力を行う位置とする。すなわち、作業者は位置P1で何らかの作業を行い、そのあと、位置P2に移動して何らかの作業を行い、さらに、位置P3に移動して検査装置44で検査を行うといった行動をとるものとし、図示の太線Aはその動作線(以下では動作線Aという)を示している。
【0122】
そして、加工装置42から送出される製品について、作業者は位置P1,P2において、それぞれの位置P1,P2における確認項目に対する確認結果などを音声によって入力し、位置P3では検査装置44を用いた検査を行って、その検査結果を音声で入力するといった作業を行うものとする。
【0123】
なお、作業者はヘッドセット型のマイクロホンを装着し、そのマイクロホンから入力された音声は音声認識装置30に送信されるようになっている。そして、音声認識装置30で音声認識されたそれぞれの位置P1,P2,P3における確認結果や検査結果は、図9では図示されない記録手段に記録されるようになっている。
【0124】
ところで、このような作業場41での音声認識を行うには、作業場41特有の雑音を考慮する必要があるが、前述の実施の形態1で説明した自動車と同様、その雑音をあらかじめ収集しておくことができる。
【0125】
そこで、このような作業場41で音声認識を行う際、音声認識性能に影響を与えそうな作業場41特有の多種多様な雑音を収集し、前述の実施の形態1で図2を用いて説明したと同様に、収集された多種多様な雑音を分類して、n個の雑音グループを作成し、それぞれの雑音グループごとの雑音データN1,N2,・・・,Nn(n種類の雑音データN1,N2,・・・,Nn)を作成する。
【0126】
そして、無響室などで収集された標準的な音声データV(たとえば、多数の話者が多種類の単語について発話して得られた大量の音声データ)と上述のn種類の雑音データN1,N2,・・・,Nnとを雑音重畳音声データ作成部1に与え、標準的な音声データVと上述のn種類の雑音データN1,N2,・・・,Nnとをそれぞれ重畳させてn種類の雑音重畳音声データVN1,VN2,・・・,VNnを作成する。
【0127】
そして、雑音除去処理部2がn種類の雑音重畳音声データVN1,VN2,・・・,VNnに対して最適な雑音除去処理手法を用いて雑音除去処理を行い、n種類の雑音除去音声データV1’,V2’,・・・,Vn’を作成する。その後、音響モデル学習処理部3がこのn種類の雑音除去音声データV1’,V2’,・・・,Vn’を用いて音響モデルの学習を行い、n種類の音響モデルM1,M2,・・・,Mnを作成する。
【0128】
なお、n種類の雑音重畳音声データVN1,VN2,・・・,VNnに対するそれぞれ最適な雑音除去処理手法については、前述の実施の形態1で説明したと同様に考えることができる。
【0129】
次に、収集された多種多様な雑音を、n個に分類し、分類されたそれぞれの雑音グループごとの雑音データN1,N2,・・・,Nnを生成する具体的な例について図10を参照しながら詳細に説明する。
【0130】
この実施の形態2では、その作業場41で通常用いる加工装置42、ベルトコンベア43、検査装置44、エアコン45などを通常の作業時と同様の動作状態として、所定の期間、雑音収集を行う。この雑音収集は、作業者がたとえばヘッドセットなどを装着し、そのヘッドセットに設けられたマイクロホン11から、その作業場特有の多種多様な雑音データをある期間、時系列で収集する。
なお、このとき、作業者は自分が行う実際の作業を行いながらヘッドセットに設けられたマイクロホン11から様々な雑音を入力する。
【0131】
この実施の形態2では、作業者は図9に示すような作業場41において、動作線Aに沿って移動しながら作業を行うとしているので、作業者の移動に伴い、その動作線A上の作業者の位置を入力しながら雑音収集を行う。なお、作業者が、予め決められた位置のみで作業を行う場合には、その位置にマイクロホン11を設置して雑音収集を行うことができる。
【0132】
また、マイクロホン11からの雑音収集と同時に、作業場41での雑音の発生源となる機器の動作状態などを表す情報としての雑音パラメータを雑音パラメータ取得部13で時系列に取得する。
【0133】
この実施の形態2の場合、取得する雑音パラメータは、加工装置42の動作状態を示す情報(動作速度とする)、エアコン45の動作状態を示す情報(風量とする)、ベルトコンベア43の動作状態を示す情報(動作速度とする)、検査装置44の動作状態を示す情報(たとえば、この検査装置44による検査方式が複数種類あって、その種類によって検査装置44の発生する音が異なる場合、その検査方式の種類を表す情報とする)、作業者の位置(たとえば、作業者の図9で示した動作線A上の1次元座標、または、作業場41の床上の2次元座標、または、図9で示したような位置P1,P2,P3というような離散値)、作業場に設けられている窓や扉の開閉状況(窓や扉の開度とする)、作業場内に流れる放送などの有無やその内容、周囲の荷物の状況など様々である。
【0134】
なお、雑音パラメータ取得部13は作業場41に設置され、上述したような様々な雑音パラメータを取得するために、たとえば、加工装置42がどのような速度で動作しているかを示す情報を取得する加工装置動作情報取得部151、エアコン45がどのような動作状態となっているかを示す動作情報を取得するエアコン動作情報取得部152、ベルトコンベア43がどのような速度で動作しているかを示すベルトコンベア動作情報取得部153、検査装置44の動作情報を取得する検査装置動作情報取得部154、作業者が現在どの位置にいるかの位置情報を取得する作業者位置情報取得部155、窓の開度を示す情報を取得する窓開度情報取得部156などからなる。なお、取得すべき雑音パラメータはこれ以外に種々考えられるがそれらの図示は省略する。
【0135】
なお、マイクロホン11から時系列に収集される雑音と、雑音パラメータ取得部13の各情報取得部151〜156から時系列に取得される各雑音パラメータは、作業者が実際に作業場41で作業を行うことによって得ることができるものである。
【0136】
すなわち、作業場41でたとえば1ヶ月といった期間、その作業場で発生し得る雑音を得るために、加工装置42、ベルトコンベア43、検査装置44、エアコン45などの機器の動作状態を変えたり、窓の開度を色々変化させたりというように、作業場であり得る様々な雑音環境を作り出す。
【0137】
これによって、マイクロホン11からは多種多様な雑音が時系列で入力され、入力信号処理部12で増幅処理やディジタル信号への変換処理(A/D変換)がなされて、収集された雑音として雑音記録部22に記録されるとともに、その時々の各種雑音パラメータが雑音パラメータ取得部13で時系列に取得されて雑音パラメータ記録部21に記録される。
【0138】
そして、雑音分類処理部23が、マイクロホン11で収集された時系列の雑音(雑音記録部22に記録された時系列の雑音)と雑音パラメータ記録部21に記録された雑音パラメータとを用いて、ある統計的手法によってその収集された雑音を分類してn個の雑音グループを作成し、それぞれの雑音グループごとの雑音データN1,N2,・・・,Nnを生成する。
【0139】
本来、雑音は前述したように多種存在し、マイクロホン11からは個々の雑音パラメータに対応した雑音、また、複数の雑音パラメータの組み合わせに対応した数多くの種類の雑音が収集され、このマイクロホン11から収集された雑音を統計的手法によって実用的な数の雑音グループ数とするための分類処理がなされる。しかし、ここでは、説明を簡素化するために、雑音パラメータを3種類の雑音パラメータ(作業者の位置、加工装置42の動作状態、エアコン45の動作状態)のみで考え、これら作業者の位置、加工装置の動作状態、エアコン45の動作状態の3つの雑音パラメータを、3次元座標における3つの直交軸上の値(ここではそれぞれ3段階の状態を示す値)で表して分類する例について説明する。
【0140】
すなわち、作業者の位置を図9における位置P1,P2,P3の3つの位置で表し、加工装置42の動作状態は、この場合、「停止」、「低速」、「高速」の3段階で表し、エアコンの動作状態は、「停止」、「弱風」、「強風」の3段階で表すものとする。
【0141】
図11は上述の3種類の雑音パラメータに対応した雑音を前述の実施の形態1で説明したと同様の分類処理(実施の形態1の説明で用いた図4の状態から図5の状態となるような分類処理)を行い、それをさらに、ある統計的手法による分類処理(実施の形態1の説明で用いた図5の状態から図6の状態となるような分類と同様の分類処理)を行うことによって得られた分類結果の一例である。
この図11では、それぞれの雑音グループに対応した12種類の雑音データN1〜N12が3次元座標上に示されている。この3次元座標上の12種類の雑音データN1〜N12を、加工装置の3つの動作状態「停止」、「低速」、「高速」それぞれにおける2次元断面で表したものが図12(a)〜(c)である。
【0142】
図12(a)は加工装置42が「停止」の場合であり、この場合は、作業者の位置P1,P2,P3に応じて、エアコン45の影響を受けた雑音データN1,N2,N3,N4,N5,N6が作成される。
【0143】
すなわち、作業者の位置がエアコン45から遠い位置P1では、エアコン45の動作状態(「停止」、「弱風」、「強風」)に関係しない1つの雑音データN1が作成され、作業者の位置がP2では、エアコン45の動作状態が「停止」か否かによって、それぞれに対応した雑音データN2,N3が作成される。なお、「停止」の場合は雑音データN2、「弱風」および「強風」のいずれの場合も1つの雑音データN3が作成される。
【0144】
また、作業者の位置がP3では、エアコン45の動作状態が「停止」の場合は雑音データN4が作成され、エアコン45の動作状態が「弱風」の場合は雑音データN5が作成され、エアコン45の動作状態が「強風」の場合は雑音データN6が作成されるというように、エアコン45の動作状態それぞれに対応する雑音データが作成される。
【0145】
これは、加工装置42の動作が停止しているときは、作業者の位置P1,P2,P3における雑音は、エアコン45の動作状態の影響を大きく受け、かつ、位置P1,P2,P3によってその影響の受け方が異なっていることを示している。
【0146】
また、図12(b)は加工装置42が「低速」の場合であり、この場合は、作業者の位置P1,P2,P3に応じて、加工装置42の影響が反映された雑音データN7,N8,N9,N10が作成される。
【0147】
すなわち、作業者が位置P1では、エアコン45の動作状態(「停止」、「弱風」、「強風」)に関係しない雑音データN7が作成され、作業者が位置P2では、同じくエアコン45の動作状態(「停止」、「弱風」、「強風」)に関係しない雑音データN8が作成される。また、作業者の位置がP3では、エアコン45の動作状態が「停止」の場合は雑音データN9が作成され、エアコンの動作状態が「弱風」と「強風」で1つの雑音データN10が作成される。
【0148】
また、図12(c)は加工装置42の動作状態が「高速」の場合であり、この場合は、加工装置42の影響を大きく受けた雑音データN11,N12が作成される。
【0149】
すなわち、作業者の位置がP1,P2のいずれであっても、エアコン45の動作状態(「停止」、「弱風」、「強風」)に関係しない1つの雑音データN11が作成される。また、作業者の位置がエアコン45に近い位置P3では、エアコン45の影響も多少は反映されるが、エアコン45の動作状態(「停止」、「弱風」、「強風」)に関係しない1つの雑音データN12が作成される。
【0150】
この図12からもわかるように、加工装置42の動作が停止しているときは、作業者の位置P1,P2,P3における雑音は、位置P1,P2,P3それぞれによってエアコン45の動作音の影響を大きく受け、加工装置42の動作中は、位置によってはエアコン45の影響も多少反映されるが、加工装置42の動作音が全体の雑音を支配する傾向にあることを示している。
【0151】
以上のように、3種類の雑音パラメータ(作業者の位置、加工装置42の動作状態、エアコン45の動作状態)に依存する雑音を、マイクロホン11を用いて長期間かけて収集し、その収集した雑音を、ある統計的手法で分類した結果、図11のような雑音デ−タN1〜N12が作成されたとする。
【0152】
このように、n個(この例では12個)の雑音グループに対応する12種類の雑音データN1〜N12が作成されると、図1で説明したように、この12種類の雑音データN1〜N12を標準的な音声データに重畳させて12個の雑音重畳音声データVN1,VN2,・・・,VN12を作成する。そして、この12種類の雑音重畳音声データVN1,VN2,・・・,VN12に対し、それぞれの雑音を除去するに最適な雑音除去処理手法を用いて、雑音除去処理を行い、12種類の雑音除去音声データV1’、V2’、・・・、V12’を作成する。
【0153】
そして、この12種類の雑音除去音声データV1’、V2’、・・・、V12’を用いて音響モデルの学習を行い、12種類の音響モデルM1,M2,・・・,M12を作成する。
これによって、12種類の雑音データN1,N2,・・・、N12に対応した12種類の音響モデルM1,M2,・・・,M12を作成することができる。
【0154】
次に上述のようにして作成されたn種類の音響モデルM1,M2,・・・,Mnを用いた音声認識について説明する。
図13は実施の形態2で用いられる音声認識装置の構成図であり、実施の形態1で用いられる音声認識装置(図7参照)と異なる点は、雑音パラメータ取得部13で取得する雑音パラメータの内容である。
【0155】
この実施の形態2では、この雑音パラメータ取得部13は、図10で説明したように、加工装置動作情報取得部151、エアコン動作情報取得部152、ベルトコンベア動作情報取得部153、検査装置動作情報取得部154、作業者位置情報取得部155、窓開度情報取得部156などを有している。
【0156】
また、この図13の音声認識装置における雑音データ判定部14は、これら各情報取得部151〜156などからの情報に基づいて、現在の雑音が雑音データN1〜N12のうちのどの雑音データに属するかを判定する。
【0157】
たとえば、現在の作業者の位置がP1であって、そのときの加工装置42の動作状態が「高速」、エアコン45の動作状態が「強風」といった情報を雑音パラメータとして雑音データ判定部14が受け取ると、これらの雑音パラメータから、現在の雑音が雑音データN1〜N12のどの雑音データに属するかを判定する。この場合、図11から現在の雑音が雑音データN11に属すると判定される。
【0158】
このように、現在の雑音が雑音データN11に属すると判定されたとすると、雑音データ判定部14は、その判定結果を雑音除去処理部16と音声認識処理部18に送る。
【0159】
雑音除去処理部16は、雑音データ判定部14から、現在の雑音が雑音データN11に属するとの情報を受け取ると、入力信号処理部12からの雑音重畳音声データに対して最適な雑音除去方法を用いた雑音除去処理を行う。この雑音除去処理は実施の形態1で説明したと同様の手法で実現でき、それによって、雑音重畳音声データに対する雑音除去処理がなされる。
【0160】
以上のようにして、マイクロホン11から入力されたある時刻の雑音重畳音声データ(作業者の音声とその時点でマイクロホン11に入力される雑音からなる)に対する雑音除去処理がなされると、その雑音の除去された雑音除去音声データは音声認識処理部18に送られる。
【0161】
音声認識処理部18には、雑音データ判定部14から現在の雑音がどの雑音データに属するかの情報が与えられており、その雑音データに対応する音響モデルを選択し、その選択された音響モデルと言語モデル17を用いて音声認識処理を行う。
【0162】
たとえば、マイクロホン11に入力された雑音データは雑音デ−タN11に属する雑音であると判定されたとすれば、音声認識処理部18では、音響モデルとしては、雑音デ−タN1に対応する音響モデルM11を用いる。
【0163】
この音響モデルM11は、前述の音響モデル作成方法で説明したように、雑音データN11を音声データに重畳させ、その雑音重畳音声データから雑音除去して雑音除去音声データを作成し、その雑音除去音声データから作成された音響モデルであるため、作業者の発した音声に重畳された雑音が雑音データN11に属する場合には、その音声にとって最適な音響モデルとなり、認識性能を高めることができる。
【0164】
また、たとえば、現在の作業者の位置がP3であって、そのときの加工装置42の動作状態が「停止」、エアコン45の動作状態が「強風」といった情報を雑音パラメータとして雑音データ判定部14が受け取ると、この雑音データ判定部14は、これらの雑音パラメータから、現在の雑音が雑音データN1〜N12のどの雑音データに属するかを判定する。この場合、図12から現在の雑音が雑音データN6に属すると判定される。
【0165】
このように、マイクロホン11に入力された雑音データは雑音デ−タN6に属する雑音であると判定されると、音声認識処理部18では、音響モデルとしては、雑音グループN6に対応する音響モデルM6を選択し、その選択された音響モデルと言語モデル17を用いて音声認識を行う。
【0166】
以上のように、この実施の形態2における音声認識装置では、音声コマンドに重畳された雑音が雑音データN1〜N12のいずれかに属するかを判定し、それに対応した雑音除去処理手法(音響モデル作成時と同じ雑音除去処理手法)を用いて雑音除去を行い、その雑音除去のなされた音声データ(雑音除去音声データ)に対し、最適な音響モデルを用いて音声認識を行うようにしている。
【0167】
これにより、作業場における作業者の位置やその時々の騒音状況に対応した様々な種類の雑音が作業者の音声に重畳されても、その雑音環境下において最適な音響モデルを用いて音声認識することができるので、そのときの作業者の位置や雑音環境下において高い認識性能を得ることができる。
【0168】
なお、本発明は上述の実施の形態に限られるものではなく、本発明の要旨を逸脱しない範囲で種々変形実施可能となるものである。
たとえば、前述の図7および図13で示した音声認識装置において、雑音データ判定部14は、自動車や作業場の現時点における雑音パラメータを入力することによって現在の雑音がn種類の雑音データN1〜Nnのうちのどの雑音データに属するかを判定するようにしているが、この雑音データ判定を行う際、図14に示すように、雑音データ判定部14には雑音パラメータの他に、音データの重畳された雑音重畳音声データ(ディジタル変換後の雑音重畳音声データ)を入力して、この雑音重畳音声データと各種雑音パラメータとによって、現在の雑音が雑音データN1〜Nnのうちのどの雑音データに属する雑音であるかを判定するようにしてもよい。
なお、この図14は実施の形態1の図7に対応するものであるが、実施の形態2の図13でも同様ことがいえる。
【0169】
このように、マイクロホン11から入力される雑音重畳音声データを雑音データ判定部14に入力させることによって、現在のS/N比をより正確に判別し易くなり、各音響モデルM1〜MnがS/N比の大きさも考慮した音響モデルが作成されている場合、現在のS/N比に応じた最適な音響モデルを選択することができ、より、適正な音声認識を行うことができる。
【0170】
また、雑音パラメータの種類は、前述の各実施の形態で説明した種類に限られるものではなく、その他にも種々用いることができる。なお、音響モデル作成を行うために、実際に自動車を長期間走行させたり、作業場で雑音収集を試みて、統計的手法により分類することによって複数個の雑音データN1〜Nnを作成したとき、ある雑音パラメータが分類に影響を与えるものでないと判断される場合もあるが、その場合は、音声認識時において、その雑音パラメータは、雑音種類判定部が雑音種類を判定する際の雑音パラメータから除外することができる。
【0171】
また、前述の実施の形態1では、乗り物として自動車を例にとって説明したが、自動車に限られるものではなく、たとえば、オートバイなどの二輪車やその他の乗り物にも適用できることは言うまでもない。
【0172】
同様に、実施の形態2では、工場の作業場を例にとって説明したが、これも工場に限られるものではなく、たとえば、物品の流通センタなど広く適用することができる。
【0173】
また、本発明は以上説明した本発明を実現するための処理手順が記述された処理プログラムを作成し、その処理プログラムをフロッピィディスク、光ディスク、ハードディスクなどの記録媒体に記録させておくこともでき、本発明は、その処理プログラムの記録された記録媒体をも含むものである。また、ネットワークから当該処理プログラムを得るようにしてもよい。
【0174】
【発明の効果】
以上説明したように、本発明の音響モデル作成方法によれば、ある空間内で収集された雑音を分類して複数種類の雑音データを作成し、その複数種類の雑音データを予め用意された標準的な音声データに重畳させて複数種類の雑音重畳音声データを作成し、その複数種類の雑音重畳音声データに対して雑音除去処理を行って、その複数種類の雑音除去音声データから複数種類の音響モデルを作成するようにしているので、その空間内での様々な雑音の種類に対応した最適な音響モデルを作成することができる。
【0175】
また、本発明の音声認識装置は、現在の雑音が複数種類の雑音データのどの雑音データに属する雑音であるかを判別する雑音データ判別を行い、雑音重畳音声に対して、その雑音データ判定結果に基づいた雑音除去を行う。そして、その雑音除去音声に対し、当該雑音データに対応した音響モデルを用いて音声認識を行うようにしている。また、この音声認識装置が用いる複数種類の音響モデルは、上述した音響モデル作成方法によって作成された音響モデルである。これによって、ある空間内に存在する雑音に対し最適な雑音除去処理が行えるとともに、その時点の雑音に対して最適な音響モデルを用いた音声認識が可能となるので、たとえば、自動車や作業場など特有の雑音環境下で高い認識性能を得ることができる。
【0176】
本また、発明の音声認識装置を有する乗り物は、たとえば、運転者が乗り物自体または乗り物に搭載された機器などの操作や動作設定を行うような場合、その乗り物特有の様々な雑音に適合した音響モデルを用いた音声認識が行えるので、高い認識精度を得ることができ、運転者などが音声で行う操作や動作設定が確実なものとなる。
【図面の簡単な説明】
【図1】本発明の音響モデル作成方法の大まかな処理手順を説明する図である。
【図2】本発明の音響モデル作成方法をより詳細に説明する図である。
【図3】本発明の実施の形態1における雑音データN1〜Nnの生成処理を説明する図である。
【図4】ある3種類の雑音パラメータに対応して発生する雑音を長期間かけて収集した雑音データNを3次元座標上で1つのデータで表した図である。
【図5】図4の雑音データNに対し、単純に個々の雑音パラメータごとに分類して得られたそれぞれの雑音グループごとに作成された雑音データを示す図である。
【図6】図5で示した雑音データに対しある統計的手法によって分類して得られた雑音データを示す図である。
【図7】本発明の実施の形態1おける音声認識装置の構成図である。
【図8】本発明の音声認識装置を有した乗り物の一例を示す図である。
【図9】本発明の実施の形態2である工場の作業場の配置を説明する図である。
【図10】本発明の実施の形態2における雑音データN1〜Nnの生成処理を説明する図である。
【図11】本発明の実施の形態2において収集された雑音をある統計的手法によって分類して得られたた雑音データを示す図である。
【図12】図11を加工装置の3つの動作状態のそれぞれに対応する2次元的断面として表す図である。
【図13】本発明の実施の形態2における音声認識装置の構成図である。
【図14】図7の音声認識装置の変形例を説明する構成図である。
【図15】従来の音響モデル作成を概略的に説明する図である。
【図16】図15で作成された音響モデルを用いた従来の音声認識装置の概略的な構成図である。
【符号の説明】
1 雑音重畳音声データ作成部、2 雑音除去処理部、3 音響モデル学習処理部、11 マイクロホン、12 入力信号処理部、13 雑音パラメータ取得部、14 雑音データ判定部、15 雑音除去方法保存部、16 雑音除去処理部、18 音声認識処理部、21 雑音パラメータ記録部、22 雑音記録部、23 雑音分類処理部、N1,N2,・・・,Nn 各雑音グループ対応の雑音データ、VN1,VN2,・・・,VNn 雑音重畳音声データ、V1’,V2’,・・・,Vn’ 雑音除去音声データ、M1,M2,・・・,Mn 音響モデル
Claims (14)
- 雑音を有する空間内で音声認識を行うための音響モデル作成方法であって、
前記雑音を有する空間内で収集可能な各種雑音を収集する雑音収集ステップと、
この雑音収集ステップにより収集された雑音を分類して複数種類の雑音データを作成する雑音データ作成ステップと、
この雑音データ作成ステップによって作成された複数種類の雑音データを標準的な音声データに重畳させて複数種類の雑音重畳音声データを作成する雑音重畳音声データ作成ステップと、
この雑音重畳音声データ作成ステップによって作成された複数種類の雑音重畳音声データに対して雑音除去処理を行って複数種類の雑音除去音声データを作成する雑音除去音声データ作成ステップと、
この雑音除去音声データ作成ステップによって作成された複数種類の雑音除去音声データから複数種類の音響モデルを作成する音響モデル作成ステップと、
を有することを特徴とする音響モデル作成方法。 - 前記複数種類の雑音重畳音声データに対して行われる雑音除去処理は、個々の雑音データに適した雑音除去手法を用いて行うことを特徴とする請求項1記載の音響モデル作成方法。
- 前記雑音を有するある空間内は、乗り物内であることを特徴とする請求項1または2記載の音響モデル作成方法。
- 前記乗り物内で収集可能な各種雑音は、天候、前記乗り物の走行状況、前記乗り物の走行位置、前記乗り物に搭載されている機器の動作状態の少なくとも1つに起因する複数種類の雑音であることを特徴とする請求項3記載の音声認識用の音響モデル作成方法。
- 前記雑音収集ステップは、前記収集すべき複数種類の雑音に対応するそれぞれの雑音パラメータを記録する雑音パラメータ記録工程を含み、前記雑音データ作成ステップは、前記収集すべき複数種類の雑音とこの収集すべき雑音に対応するそれぞれの雑音パラメータとを用いて分類することによって前記複数種類の雑音データを作成することを特徴とする請求項1から4のいずれかに記載の音響モデル作成方法。
- 雑音を有する空間内で音声認識を行う音声認識装置であって、
認識すべき音声およびそれ以外の雑音の入力が可能な音入力手段と、
前記雑音を有する空間内で収集可能な各種雑音を収集する雑音収集ステップと、その収集された雑音を分類して複数種類の雑音データを作成する雑音データ作成する雑音データ作成ステップと、その作成された複数種類の雑音データを予め用意された標準的な音声データに重畳させて複数種類の雑音重畳音声データを作成する雑音重畳音声データ作成ステップと、その作成された複数種類の雑音重畳音声データに対して雑音除去処理を行って複数種類の雑音除去音声データを作成する雑音除去音声データ作成ステップと、その作成された複数種類の雑音除去音声データから複数種類の音響モデルを作成する音響モデル作成ステップとを有する音響モデル作成方法により作成された複数種類の音響モデルと、
前記音入力手段に入力された雑音が、前記複数種類の雑音データのどの雑音データに属する雑音であるかを判別する雑音データ判別手段と、
前記音入力手段から雑音の重畳された雑音重畳音声データに対して前記雑音データ判別手段での判別結果に基づいて雑音除去を行う雑音除去処理手段と、
この雑音除去処理手段によって雑音除去された雑音除去音声に対し、前記複数種類の音響モデルのうち前記雑音データ判別手段で判別された雑音データに対応した音響モデルを用いて音声認識を行う音声認識手段と、
を有したことを特徴とする音声認識装置。 - 前記音入力手段に入力された雑音に対応する雑音パラメータを取得する雑音パラメータ取得手段を有したことを特徴とする請求項6記載の音声認識装置。
- 前記分類によって得られた複数種類の雑音データに対して行われる雑音除去処理は、個々の雑音データに適した雑音除去手法を用いて行うことを特徴とする請求項6または7記載の音声認識装置。
- 前記雑音を有するある空間内は、乗り物内であることを特徴とする請求項6から8のいずれかに記載の音声認識装置。
- 前記乗り物内で収集可能な各種雑音は、天候、前記乗り物の走行状況、前記乗り物の走行位置、前記乗り物に搭載されている機器の動作状態の少なくとも1つに起因する複数種類の雑音であることを特徴とする請求項9記載の音声認識装置。
- 前記音響モデルを作成するための前記雑音収集ステップは、前記収集すべき複数種類の雑音に対応するそれぞれの雑音パラメータを記録する工程を含み、前記雑音データ作成ステップは、前記収集すべき複数種類の雑音とこの収集すべき雑音に対応するそれぞれの雑音パラメータとを用いて分類することによって前記複数種類の雑音データを作成することを特徴とする請求項6から10のいずれかに記載の音声認識装置。
- 前記複数種類の音響モデルを作成する際の雑音除去処理と前記認識すべき音声に対する音声認識を行う際の雑音除去処理は同じ雑音除去手法を用いることを特徴とする請求項6から11のいずれかに記載の音声認識装置。
- 雑音を有するある空間内で音声認識を、前記請求項1から5に記載の音響モデル作成方法によって作成された複数種類の音響モデルを用いて行う音声認識装置であって、
認識すべき音声およびそれ以外の雑音の入力が可能な音入力手段と、
前記音入力手段から入力された現在の雑音が、予め分類された複数種類の雑音データのどの雑音データに属する雑音であるかを判別する雑音データ判別手段と、
前記音入力手段から雑音の重畳された雑音重畳音声データに対して前記雑音データ判別手段での判別結果に基づいて雑音除去を行う雑音除去処理手段と、
この雑音除去処理手段によって雑音除去された雑音除去音声に対し、前記複数種類の音響モデルのうち前記雑音データ判別手段で判別された雑音種類に対応した音響モデルを用いて音声認識を行う音声認識手段と、
を有したことを特徴とする音声認識装置。 - 音声によって機器操作の可能な音声認識装置を有する乗り物であって、
前記音声認識装置として、請求項6から13のいずれかに記載の音声認識装置を有することを特徴とする音声認識装置を有する乗り物。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003198707A JP4352790B2 (ja) | 2002-10-31 | 2003-07-17 | 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物 |
US10/697,105 US20040138882A1 (en) | 2002-10-31 | 2003-10-31 | Acoustic model creating method, speech recognition apparatus, and vehicle having the speech recognition apparatus |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002318627 | 2002-10-31 | ||
JP2003198707A JP4352790B2 (ja) | 2002-10-31 | 2003-07-17 | 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004206063A true JP2004206063A (ja) | 2004-07-22 |
JP4352790B2 JP4352790B2 (ja) | 2009-10-28 |
Family
ID=32715887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003198707A Expired - Fee Related JP4352790B2 (ja) | 2002-10-31 | 2003-07-17 | 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20040138882A1 (ja) |
JP (1) | JP4352790B2 (ja) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006106300A (ja) * | 2004-10-05 | 2006-04-20 | Mitsubishi Electric Corp | 音声認識装置及びそのプログラム |
JP2006276283A (ja) * | 2005-03-28 | 2006-10-12 | Matsushita Electric Works Ltd | 宅内システム |
KR100655489B1 (ko) | 2004-12-06 | 2006-12-08 | 한국전자통신연구원 | 잡음환경하의 음성인식엔진 평가 시스템 및 자동화 방법 |
JP2007114774A (ja) * | 2005-10-17 | 2007-05-10 | Qnx Software Systems (Wavemakers) Inc | 音声信号における一過性ノイズの最小化 |
JP2007264327A (ja) * | 2006-03-28 | 2007-10-11 | Matsushita Electric Works Ltd | 浴室装置及びそれに用いる音声操作装置 |
JP2007264328A (ja) * | 2006-03-28 | 2007-10-11 | Matsushita Electric Works Ltd | 浴室装置及びそれに用いる音声操作装置 |
JP2009020352A (ja) * | 2007-07-12 | 2009-01-29 | Yamaha Corp | 音声処理装置およびプログラム |
US7693712B2 (en) | 2005-03-25 | 2010-04-06 | Aisin Seiki Kabushiki Kaisha | Continuous speech processing using heterogeneous and adapted transfer function |
JP2011502884A (ja) * | 2007-11-13 | 2011-01-27 | ティーケー ホールディングス,インコーポレーテッド | 車両内で可聴入力を受信するシステムおよび方法 |
US9302630B2 (en) | 2007-11-13 | 2016-04-05 | Tk Holdings Inc. | System and method for receiving audible input in a vehicle |
KR20160063148A (ko) * | 2014-11-26 | 2016-06-03 | 현대자동차주식회사 | 차량 음성인식시스템을 위한 상황 분석 장치 및 방법 |
KR20160063149A (ko) * | 2014-11-26 | 2016-06-03 | 현대자동차주식회사 | 차량 음성인식시스템을 위한 잡음 제거장치 및 방법 |
JP2016537679A (ja) * | 2013-11-14 | 2016-12-01 | 華為技術有限公司Huawei Technologies Co.,Ltd. | 音声認識方法、音声認識装置、及び電子装置 |
US9520061B2 (en) | 2008-06-20 | 2016-12-13 | Tk Holdings Inc. | Vehicle driver messaging system and method |
JP2017054122A (ja) * | 2015-09-10 | 2017-03-16 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音響モデル生成装置及び方法、音声認識装置及び方法 |
US9626962B2 (en) | 2014-05-02 | 2017-04-18 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing speech, and method and apparatus for generating noise-speech recognition model |
JP2018032262A (ja) * | 2016-08-25 | 2018-03-01 | ファナック株式会社 | セルコントロールシステム |
KR20180063341A (ko) * | 2015-12-01 | 2018-06-11 | 미쓰비시덴키 가부시키가이샤 | 음성 인식 장치, 음성 강조 장치, 음성 인식 방법, 음성 강조 방법 및 네비게이션 시스템 |
JP2020095091A (ja) * | 2018-12-10 | 2020-06-18 | コニカミノルタ株式会社 | 音声認識装置、画像形成装置、音声認識方法よび音声認識プログラム |
JP2021501912A (ja) * | 2017-11-02 | 2021-01-21 | 華為技術有限公司Huawei Technologies Co.,Ltd. | フィルタリングモデル訓練方法および音声認識方法 |
Families Citing this family (100)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7117149B1 (en) * | 1999-08-30 | 2006-10-03 | Harman Becker Automotive Systems-Wavemakers, Inc. | Sound source classification |
US8271279B2 (en) | 2003-02-21 | 2012-09-18 | Qnx Software Systems Limited | Signature noise removal |
US8326621B2 (en) | 2003-02-21 | 2012-12-04 | Qnx Software Systems Limited | Repetitive transient noise removal |
US8073689B2 (en) * | 2003-02-21 | 2011-12-06 | Qnx Software Systems Co. | Repetitive transient noise removal |
US7885420B2 (en) * | 2003-02-21 | 2011-02-08 | Qnx Software Systems Co. | Wind noise suppression system |
US7949522B2 (en) * | 2003-02-21 | 2011-05-24 | Qnx Software Systems Co. | System for suppressing rain noise |
US7895036B2 (en) * | 2003-02-21 | 2011-02-22 | Qnx Software Systems Co. | System for suppressing wind noise |
US8306821B2 (en) * | 2004-10-26 | 2012-11-06 | Qnx Software Systems Limited | Sub-band periodic signal enhancement system |
US8543390B2 (en) * | 2004-10-26 | 2013-09-24 | Qnx Software Systems Limited | Multi-channel periodic signal enhancement system |
US7949520B2 (en) | 2004-10-26 | 2011-05-24 | QNX Software Sytems Co. | Adaptive filter pitch extraction |
US7610196B2 (en) * | 2004-10-26 | 2009-10-27 | Qnx Software Systems (Wavemakers), Inc. | Periodic signal enhancement system |
US7716046B2 (en) * | 2004-10-26 | 2010-05-11 | Qnx Software Systems (Wavemakers), Inc. | Advanced periodic signal enhancement |
US8170879B2 (en) * | 2004-10-26 | 2012-05-01 | Qnx Software Systems Limited | Periodic signal enhancement system |
US7680652B2 (en) | 2004-10-26 | 2010-03-16 | Qnx Software Systems (Wavemakers), Inc. | Periodic signal enhancement system |
US8284947B2 (en) * | 2004-12-01 | 2012-10-09 | Qnx Software Systems Limited | Reverberation estimation and suppression system |
EP1703471B1 (en) * | 2005-03-14 | 2011-05-11 | Harman Becker Automotive Systems GmbH | Automatic recognition of vehicle operation noises |
US8027833B2 (en) * | 2005-05-09 | 2011-09-27 | Qnx Software Systems Co. | System for suppressing passing tire hiss |
US8311819B2 (en) | 2005-06-15 | 2012-11-13 | Qnx Software Systems Limited | System for detecting speech with background voice estimates and noise estimates |
US8170875B2 (en) | 2005-06-15 | 2012-05-01 | Qnx Software Systems Limited | Speech end-pointer |
US20070136063A1 (en) * | 2005-12-12 | 2007-06-14 | General Motors Corporation | Adaptive nametag training with exogenous inputs |
US7844453B2 (en) | 2006-05-12 | 2010-11-30 | Qnx Software Systems Co. | Robust noise estimation |
EP1860647B1 (en) * | 2006-05-24 | 2009-12-23 | Voice.Trust Ag | Robust speaker recognition |
US20080059019A1 (en) * | 2006-08-29 | 2008-03-06 | International Business Machines Coporation | Method and system for on-board automotive audio recorder |
US20080071540A1 (en) * | 2006-09-13 | 2008-03-20 | Honda Motor Co., Ltd. | Speech recognition method for robot under motor noise thereof |
US8214219B2 (en) * | 2006-09-15 | 2012-07-03 | Volkswagen Of America, Inc. | Speech communications system for a vehicle and method of operating a speech communications system for a vehicle |
US20080147411A1 (en) * | 2006-12-19 | 2008-06-19 | International Business Machines Corporation | Adaptation of a speech processing system from external input that is not directly related to sounds in an operational acoustic environment |
US8326620B2 (en) | 2008-04-30 | 2012-12-04 | Qnx Software Systems Limited | Robust downlink speech and noise detector |
US8335685B2 (en) | 2006-12-22 | 2012-12-18 | Qnx Software Systems Limited | Ambient noise compensation system robust to high excitation noise |
US20080231557A1 (en) * | 2007-03-20 | 2008-09-25 | Leadis Technology, Inc. | Emission control in aged active matrix oled display using voltage ratio or current ratio |
EP1978490A1 (en) * | 2007-04-02 | 2008-10-08 | MAGNETI MARELLI SISTEMI ELETTRONICI S.p.A. | System and method for automatic recognition of the operating state of a vehicle engine |
US7983916B2 (en) * | 2007-07-03 | 2011-07-19 | General Motors Llc | Sampling rate independent speech recognition |
US7881929B2 (en) | 2007-07-25 | 2011-02-01 | General Motors Llc | Ambient noise injection for use in speech recognition |
US8904400B2 (en) * | 2007-09-11 | 2014-12-02 | 2236008 Ontario Inc. | Processing system having a partitioning component for resource partitioning |
US8850154B2 (en) | 2007-09-11 | 2014-09-30 | 2236008 Ontario Inc. | Processing system having memory partitioning |
US8694310B2 (en) | 2007-09-17 | 2014-04-08 | Qnx Software Systems Limited | Remote control server protocol system |
US8296012B2 (en) * | 2007-11-13 | 2012-10-23 | Tk Holdings Inc. | Vehicle communication system and method |
WO2009090702A1 (ja) * | 2008-01-17 | 2009-07-23 | Mitsubishi Electric Corporation | 車載用ガイダンス装置 |
US8209514B2 (en) * | 2008-02-04 | 2012-06-26 | Qnx Software Systems Limited | Media processing system having resource partitioning |
KR101239318B1 (ko) * | 2008-12-22 | 2013-03-05 | 한국전자통신연구원 | 음질 향상 장치와 음성 인식 시스템 및 방법 |
FR2948484B1 (fr) * | 2009-07-23 | 2011-07-29 | Parrot | Procede de filtrage des bruits lateraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile |
US8515763B2 (en) * | 2009-11-24 | 2013-08-20 | Honeywell International Inc. | Methods and systems for utilizing voice commands onboard an aircraft |
EP2339576B1 (en) | 2009-12-23 | 2019-08-07 | Google LLC | Multi-modal input on an electronic device |
US11416214B2 (en) | 2009-12-23 | 2022-08-16 | Google Llc | Multi-modal input on an electronic device |
US8660842B2 (en) * | 2010-03-09 | 2014-02-25 | Honda Motor Co., Ltd. | Enhancing speech recognition using visual information |
US8265928B2 (en) | 2010-04-14 | 2012-09-11 | Google Inc. | Geotagged environmental audio for enhanced speech recognition accuracy |
US8468012B2 (en) | 2010-05-26 | 2013-06-18 | Google Inc. | Acoustic model adaptation using geographic information |
US8393201B2 (en) * | 2010-09-21 | 2013-03-12 | Webtech Wireless Inc. | Sensing ignition by voltage monitoring |
US8352245B1 (en) | 2010-12-30 | 2013-01-08 | Google Inc. | Adjusting language models |
KR101791907B1 (ko) * | 2011-01-04 | 2017-11-02 | 삼성전자주식회사 | 위치 기반의 음향 처리 장치 및 방법 |
US8296142B2 (en) | 2011-01-21 | 2012-10-23 | Google Inc. | Speech recognition using dock context |
JP5917270B2 (ja) * | 2011-05-27 | 2016-05-11 | キヤノン株式会社 | 音検出装置及びその制御方法、プログラム |
US8666748B2 (en) | 2011-12-20 | 2014-03-04 | Honeywell International Inc. | Methods and systems for communicating audio captured onboard an aircraft |
US9263040B2 (en) | 2012-01-17 | 2016-02-16 | GM Global Technology Operations LLC | Method and system for using sound related vehicle information to enhance speech recognition |
US9502029B1 (en) * | 2012-06-25 | 2016-11-22 | Amazon Technologies, Inc. | Context-aware speech processing |
US9779731B1 (en) * | 2012-08-20 | 2017-10-03 | Amazon Technologies, Inc. | Echo cancellation based on shared reference signals |
US8484017B1 (en) | 2012-09-10 | 2013-07-09 | Google Inc. | Identifying media content |
US20140074466A1 (en) | 2012-09-10 | 2014-03-13 | Google Inc. | Answering questions using environmental context |
KR101428245B1 (ko) * | 2012-12-05 | 2014-08-07 | 현대자동차주식회사 | 음성 인식 장치 및 방법 |
US9098467B1 (en) * | 2012-12-19 | 2015-08-04 | Rawles Llc | Accepting voice commands based on user identity |
US9495955B1 (en) * | 2013-01-02 | 2016-11-15 | Amazon Technologies, Inc. | Acoustic model training |
US9847091B2 (en) * | 2013-02-12 | 2017-12-19 | Nec Corporation | Speech processing apparatus, speech processing method, speech processing program, method of attaching speech processing apparatus, ceiling member, and vehicle |
US9734819B2 (en) | 2013-02-21 | 2017-08-15 | Google Technology Holdings LLC | Recognizing accented speech |
US9237225B2 (en) | 2013-03-12 | 2016-01-12 | Google Technology Holdings LLC | Apparatus with dynamic audio signal pre-conditioning and methods therefor |
US20140278393A1 (en) | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System |
US20140278392A1 (en) * | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Method and Apparatus for Pre-Processing Audio Signals |
US20140270249A1 (en) | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Method and Apparatus for Estimating Variability of Background Noise for Noise Suppression |
US20140278415A1 (en) * | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Voice Recognition Configuration Selector and Method of Operation Therefor |
US9570087B2 (en) * | 2013-03-15 | 2017-02-14 | Broadcom Corporation | Single channel suppression of interfering sources |
US9208781B2 (en) | 2013-04-05 | 2015-12-08 | International Business Machines Corporation | Adapting speech recognition acoustic models with environmental and social cues |
CN103310789B (zh) * | 2013-05-08 | 2016-04-06 | 北京大学深圳研究生院 | 一种基于改进的并行模型组合的声音事件识别方法 |
US9058820B1 (en) * | 2013-05-21 | 2015-06-16 | The Intellisis Corporation | Identifying speech portions of a sound model using various statistics thereof |
JP6376132B2 (ja) * | 2013-09-17 | 2018-08-22 | 日本電気株式会社 | 音声処理システム、車両、音声処理ユニット、ステアリングホイールユニット、音声処理方法、ならびに音声処理プログラム |
US10147441B1 (en) | 2013-12-19 | 2018-12-04 | Amazon Technologies, Inc. | Voice controlled system |
US9466310B2 (en) * | 2013-12-20 | 2016-10-11 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Compensating for identifiable background content in a speech recognition device |
US9311930B2 (en) * | 2014-01-28 | 2016-04-12 | Qualcomm Technologies International, Ltd. | Audio based system and method for in-vehicle context classification |
US9550578B2 (en) * | 2014-02-04 | 2017-01-24 | Honeywell International Inc. | Systems and methods for utilizing voice commands onboard an aircraft |
US9842592B2 (en) | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
US9412365B2 (en) | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
US9858922B2 (en) | 2014-06-23 | 2018-01-02 | Google Inc. | Caching speech recognition scores |
US9299347B1 (en) | 2014-10-22 | 2016-03-29 | Google Inc. | Speech recognition using associative mapping |
US10134394B2 (en) | 2015-03-20 | 2018-11-20 | Google Llc | Speech recognition using log-linear model |
EP3317878B1 (de) * | 2015-06-30 | 2020-03-25 | Fraunhofer Gesellschaft zur Förderung der Angewand | Verfahren und vorrichtung zum erzeugen einer datenbank |
US9786270B2 (en) | 2015-07-09 | 2017-10-10 | Google Inc. | Generating acoustic models |
KR101696595B1 (ko) * | 2015-07-22 | 2017-01-16 | 현대자동차주식회사 | 차량, 및 그 제어방법 |
JP6594721B2 (ja) * | 2015-09-28 | 2019-10-23 | アルパイン株式会社 | 音声認識システム、ゲイン設定システム及びコンピュータプログラム |
US10229672B1 (en) | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
US10902043B2 (en) | 2016-01-03 | 2021-01-26 | Gracenote, Inc. | Responding to remote media classification queries using classifier models and context parameters |
US10475447B2 (en) * | 2016-01-25 | 2019-11-12 | Ford Global Technologies, Llc | Acoustic and domain based speech recognition for vehicles |
US9978367B2 (en) | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
CN105976827B (zh) * | 2016-05-26 | 2019-09-13 | 南京邮电大学 | 一种基于集成学习的室内声源定位方法 |
US20180018973A1 (en) | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
US10832664B2 (en) | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
US10311860B2 (en) | 2017-02-14 | 2019-06-04 | Google Llc | Language model biasing system |
DE102017203469A1 (de) * | 2017-03-03 | 2018-09-06 | Robert Bosch Gmbh | Verfahren und eine Einrichtung zur Störbefreiung von Audio-Signalen sowie eine Sprachsteuerung von Geräten mit dieser Störbefreiung |
US10706840B2 (en) | 2017-08-18 | 2020-07-07 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
US11282493B2 (en) * | 2018-10-05 | 2022-03-22 | Westinghouse Air Brake Technologies Corporation | Adaptive noise filtering system |
EP3686889A1 (de) * | 2019-01-25 | 2020-07-29 | Siemens Aktiengesellschaft | Verfahren zur spracherkennung und spracherkennungssystem |
WO2021081418A1 (en) * | 2019-10-25 | 2021-04-29 | Ellipsis Health, Inc. | Acoustic and natural language processing models for speech-based screening and monitoring of behavioral health conditions |
DE102021115652A1 (de) | 2021-06-17 | 2022-12-22 | Audi Aktiengesellschaft | Verfahren zum Ausblenden von mindestens einem Geräusch |
CN113973254B (zh) * | 2021-09-07 | 2024-03-12 | 杭州新资源电子有限公司 | 一种汽车音频功率放大器的降噪*** |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4501012A (en) * | 1980-11-17 | 1985-02-19 | Nissan Motor Company, Limited | Speech recognition system for an automotive vehicle |
US4628529A (en) * | 1985-07-01 | 1986-12-09 | Motorola, Inc. | Noise suppression system |
JP3452443B2 (ja) * | 1996-03-25 | 2003-09-29 | 三菱電機株式会社 | 騒音下音声認識装置及び騒音下音声認識方法 |
US5960397A (en) * | 1997-05-27 | 1999-09-28 | At&T Corp | System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition |
US6510408B1 (en) * | 1997-07-01 | 2003-01-21 | Patran Aps | Method of noise reduction in speech signals and an apparatus for performing the method |
US5970446A (en) * | 1997-11-25 | 1999-10-19 | At&T Corp | Selective noise/channel/coding models and recognizers for automatic speech recognition |
JP4590692B2 (ja) * | 2000-06-28 | 2010-12-01 | パナソニック株式会社 | 音響モデル作成装置及びその方法 |
US6876966B1 (en) * | 2000-10-16 | 2005-04-05 | Microsoft Corporation | Pattern recognition training method and apparatus using inserted noise followed by noise reduction |
JP4244514B2 (ja) * | 2000-10-23 | 2009-03-25 | セイコーエプソン株式会社 | 音声認識方法および音声認識装置 |
US20020087306A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented noise normalization method and system |
US7209881B2 (en) * | 2001-12-20 | 2007-04-24 | Matsushita Electric Industrial Co., Ltd. | Preparing acoustic models by sufficient statistics and noise-superimposed speech data |
TWI245259B (en) * | 2002-12-20 | 2005-12-11 | Ibm | Sensor based speech recognizer selection, adaptation and combination |
-
2003
- 2003-07-17 JP JP2003198707A patent/JP4352790B2/ja not_active Expired - Fee Related
- 2003-10-31 US US10/697,105 patent/US20040138882A1/en not_active Abandoned
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006106300A (ja) * | 2004-10-05 | 2006-04-20 | Mitsubishi Electric Corp | 音声認識装置及びそのプログラム |
KR100655489B1 (ko) | 2004-12-06 | 2006-12-08 | 한국전자통신연구원 | 잡음환경하의 음성인식엔진 평가 시스템 및 자동화 방법 |
US7693712B2 (en) | 2005-03-25 | 2010-04-06 | Aisin Seiki Kabushiki Kaisha | Continuous speech processing using heterogeneous and adapted transfer function |
JP2006276283A (ja) * | 2005-03-28 | 2006-10-12 | Matsushita Electric Works Ltd | 宅内システム |
JP4631501B2 (ja) * | 2005-03-28 | 2011-02-16 | パナソニック電工株式会社 | 宅内システム |
JP2007114774A (ja) * | 2005-10-17 | 2007-05-10 | Qnx Software Systems (Wavemakers) Inc | 音声信号における一過性ノイズの最小化 |
JP2007264327A (ja) * | 2006-03-28 | 2007-10-11 | Matsushita Electric Works Ltd | 浴室装置及びそれに用いる音声操作装置 |
JP2007264328A (ja) * | 2006-03-28 | 2007-10-11 | Matsushita Electric Works Ltd | 浴室装置及びそれに用いる音声操作装置 |
JP2009020352A (ja) * | 2007-07-12 | 2009-01-29 | Yamaha Corp | 音声処理装置およびプログラム |
JP2011502884A (ja) * | 2007-11-13 | 2011-01-27 | ティーケー ホールディングス,インコーポレーテッド | 車両内で可聴入力を受信するシステムおよび方法 |
US9302630B2 (en) | 2007-11-13 | 2016-04-05 | Tk Holdings Inc. | System and method for receiving audible input in a vehicle |
US9520061B2 (en) | 2008-06-20 | 2016-12-13 | Tk Holdings Inc. | Vehicle driver messaging system and method |
US9870771B2 (en) | 2013-11-14 | 2018-01-16 | Huawei Technologies Co., Ltd. | Environment adaptive speech recognition method and device |
JP2016537679A (ja) * | 2013-11-14 | 2016-12-01 | 華為技術有限公司Huawei Technologies Co.,Ltd. | 音声認識方法、音声認識装置、及び電子装置 |
US9626962B2 (en) | 2014-05-02 | 2017-04-18 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing speech, and method and apparatus for generating noise-speech recognition model |
KR20160063148A (ko) * | 2014-11-26 | 2016-06-03 | 현대자동차주식회사 | 차량 음성인식시스템을 위한 상황 분석 장치 및 방법 |
KR101628109B1 (ko) * | 2014-11-26 | 2016-06-08 | 현대자동차 주식회사 | 차량 음성인식시스템을 위한 상황 분석 장치 및 방법 |
KR101628110B1 (ko) * | 2014-11-26 | 2016-06-08 | 현대자동차 주식회사 | 차량 음성인식시스템을 위한 잡음 제거장치 및 방법 |
KR20160063149A (ko) * | 2014-11-26 | 2016-06-03 | 현대자동차주식회사 | 차량 음성인식시스템을 위한 잡음 제거장치 및 방법 |
CN106531155A (zh) * | 2015-09-10 | 2017-03-22 | 三星电子株式会社 | 生成声学模型的设备和方法和用于语音识别的设备和方法 |
JP2017054122A (ja) * | 2015-09-10 | 2017-03-16 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音響モデル生成装置及び方法、音声認識装置及び方法 |
KR20170030923A (ko) * | 2015-09-10 | 2017-03-20 | 삼성전자주식회사 | 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법 |
KR102209689B1 (ko) | 2015-09-10 | 2021-01-28 | 삼성전자주식회사 | 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법 |
CN106531155B (zh) * | 2015-09-10 | 2022-03-15 | 三星电子株式会社 | 生成声学模型的设备和方法和用于语音识别的设备和方法 |
KR20180063341A (ko) * | 2015-12-01 | 2018-06-11 | 미쓰비시덴키 가부시키가이샤 | 음성 인식 장치, 음성 강조 장치, 음성 인식 방법, 음성 강조 방법 및 네비게이션 시스템 |
KR102015742B1 (ko) * | 2015-12-01 | 2019-08-28 | 미쓰비시덴키 가부시키가이샤 | 음성 인식 장치, 음성 강조 장치, 음성 인식 방법, 음성 강조 방법 및 네비게이션 시스템 |
DE112015007163B4 (de) * | 2015-12-01 | 2019-09-05 | Mitsubishi Electric Corporation | Spracherkennungsvorrichtung, Sprachhervorhebungsvorrichtung, Spracherkennungsverfahren, Sprachhervorhebungsverfahren und Navigationssystem |
JP2018032262A (ja) * | 2016-08-25 | 2018-03-01 | ファナック株式会社 | セルコントロールシステム |
US10642247B2 (en) | 2016-08-25 | 2020-05-05 | Fanuc Corporation | Cell control system |
JP2021501912A (ja) * | 2017-11-02 | 2021-01-21 | 華為技術有限公司Huawei Technologies Co.,Ltd. | フィルタリングモデル訓練方法および音声認識方法 |
US11211052B2 (en) | 2017-11-02 | 2021-12-28 | Huawei Technologies Co., Ltd. | Filtering model training method and speech recognition method |
JP7034279B2 (ja) | 2017-11-02 | 2022-03-11 | 華為技術有限公司 | フィルタリングモデル訓練方法および音声認識方法 |
JP2020095091A (ja) * | 2018-12-10 | 2020-06-18 | コニカミノルタ株式会社 | 音声認識装置、画像形成装置、音声認識方法よび音声認識プログラム |
JP7119967B2 (ja) | 2018-12-10 | 2022-08-17 | コニカミノルタ株式会社 | 音声認識装置、画像形成装置、音声認識方法よび音声認識プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20040138882A1 (en) | 2004-07-15 |
JP4352790B2 (ja) | 2009-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4352790B2 (ja) | 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物 | |
US20180350366A1 (en) | Situation-based conversation initiating apparatus, system, vehicle and method | |
US6889189B2 (en) | Speech recognizer performance in car and home applications utilizing novel multiple microphone configurations | |
US9311930B2 (en) | Audio based system and method for in-vehicle context classification | |
CN109545219A (zh) | 车载语音交互方法、***、设备及计算机可读存储介质 | |
JP4357867B2 (ja) | 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体 | |
US20180277135A1 (en) | Audio signal quality enhancement based on quantitative snr analysis and adaptive wiener filtering | |
JP7186375B2 (ja) | 音声処理装置、音声処理方法および音声処理システム | |
Akbacak et al. | Environmental sniffing: noise knowledge estimation for robust speech systems | |
JP2017090612A (ja) | 音声認識制御システム | |
JP4061094B2 (ja) | 音声認識装置、その音声認識方法及びプログラム | |
US20170125038A1 (en) | Transfer function to generate lombard speech from neutral speech | |
CN110767215A (zh) | 一种训练语音识别模型、识别语音的方法及装置 | |
JP4561222B2 (ja) | 音声入力装置 | |
CN112154490A (zh) | 用于估计车辆座舱内部的场景的车内*** | |
Krishnamurthy et al. | Car noise verification and applications | |
Jang et al. | The development of the vehicle sound source localization system | |
JP4016529B2 (ja) | 雑音抑圧装置,音声認識装置及び車両用ナビゲーション装置 | |
JP4649905B2 (ja) | 音声入力装置 | |
Mięsikowska | Automatic recognition of voice commands in a car cabin | |
JP7156741B1 (ja) | 傷検知システム、傷検知方法およびプログラム | |
Mięsikowska | Discriminant analysis of voice commands in a car cabin | |
CN117746879A (zh) | 一种车内外声音交流方法、***及车辆 | |
CN118136003A (zh) | 基于个性化语音唤醒的车辆人机交互方法、装置、电子设备和存储介质 | |
JP2022118999A (ja) | 音声認識応答装置及び方法並びに車載装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051031 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20070403 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080507 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080527 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080724 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090707 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090720 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120807 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130807 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |