JP2006171077A - 音声認識装置および音声認識方法 - Google Patents
音声認識装置および音声認識方法 Download PDFInfo
- Publication number
- JP2006171077A JP2006171077A JP2004359697A JP2004359697A JP2006171077A JP 2006171077 A JP2006171077 A JP 2006171077A JP 2004359697 A JP2004359697 A JP 2004359697A JP 2004359697 A JP2004359697 A JP 2004359697A JP 2006171077 A JP2006171077 A JP 2006171077A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- recognition
- voice
- input
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】先ず、ガイダンス音声信号のみを音声認識装置により分析した結果を記憶装置に登録しておく。使用者の発話と背景音としてガイダンス音声が混在した入力音声信号から、前記記憶装置に登録しているガイダンス音声信号を抽出し、減算して背景音声信号を除去する方法とした。また、エコーキャンセラを併用してさらに除去精度を向上した。
【選択図】図1
Description
最近多く用いられている音声認識システムでに、非線形伸縮マッチングアルゴリズムの一種がある。これは、音響的な信号を音素あるいは単語毎に確率分布に関する情報を用意し、非定常信号源である音声信号を、定常信号である単語や定常信号に近い情報である音素の連結で表わすHMM(Hidden Markov Model)を用いた音響モデルと、この音響モデルによって送出された音素を、単語や文に変換する言語モデルとを用いるものである。すなわち、入力された音声信号についてそれぞれのモデルで分析することにより、入力された音声信号をテキスト記述した語彙(または連接語彙)を尤度が高い順に出力することができる。このとき、一般には出力された語彙の中で最も尤度が高い語彙を出力させるが、「背景技術」の項で述べた音響的なクロストークが存在する環境では、最大尤度の語彙が使用者の意図した語彙とならない場合が多い。
このため、本発明においては、上記問題点を解決し、最大尤度の語彙が使用者の意図に近い語彙となるような音声認識装置を実現することを目的とした。
このため、前記目的を達成するために、本発明においては、出力されるガイダンス音声を単独で音声認識装置によって分析した結果を、使用者により入力された音声とガイダンス音声信号とが混在した信号の分析結果から除去する構成とした。
以下では、図1および図2を用いてガイダンス音声の内容が未知の場合について基本的な発明の構成を説明する。ここで、ガイダンス音声が未知とは、使用者の発話以外の背景音が、カーナビのガイダンス音声のように予め登録されている音声ではない場合を言う。図1は本発明の基本構成を示すブロック図、図2はこの基本構成による装置構成の一実施の形態例である。
図1の140で示す音声認識手段2は、図1の120で示す音出力手段から送出された離散的な信号(外部信号R110に相当)の内容を分析し、例えばテキストデータのような認識信号2に変換する。このとき認識信号2は複数の認識結果候補を有している。図1の140で示す音声認識手段2は図2の240で示す演算装置と250で示す記憶装置とを用いることで実現できる。すなわち、図示していないが音声認識手段1(110)と音声認識手段2(140)とは共通の記憶装置250を有している。
システムが動作を開始すると、始めにステップS100において初期化処理を行う。このときすべての音声認識処理に関する初期化が行われる。また、図1における音声認識手段1(110)および音声認識手段2(140)については音声認識処理の入力信号待ち受け状態にしてもよいし、使用者が入力の意思を示したタイミングで起動して入力信号待ち受け状態にしてもよい。
ステップS110では、使用者による音声入力の有無を判定する。ステップS110では、使用者がスイッチ手段を用いて入力の意思をシステムに伝えた後に音声入力した場合か、あるいは音声認識処理が常に入力待ち状態となっており、音声入力の有無をシステムが自動的に検知する場合か、の何れかが存在する。いずれの場合においても、音入力が検知された場合(S110;Yes)はステップS120へ進む。音入力が検知されない場合(S110;No)はステップS110を繰り返す。
ステップS125では、音声認識手段1(110)を用いて、使用者によって入力された音声の認識処理を行うことで、認識信号1を獲得しステップS170に進む。
ステップS140では、音声認識手段1(110)を用いて、入力された音声信号を認識してテキストデータなどの形式に変換する。図1において入力音声信号が認識された結果である認識信号1は図1の150で示す除去手段に送出され、ステップ150に進む。
以下では図4および図2を用いてガイダンス音声信号が既知である場合の発明の構成について説明する。ガイダンス音声信号が既知であるとは、カーナビの案内音声や警報音を事前に記憶手段160に登録しておき、カーナビがガイダンス音声を出力する時はその登録されているガイダンス音声情報を利用する場合を対象としている。なお、未登録の新しい語彙等が入力された場合は実施の形態1で述べたように、音出力手段120から音声認識手段2(140)を経由して当該情報を記憶手段160に新たに登録しておけば良い。図4にこの場合に対応するブロック図を示す。
図4の110で示す音声認識装置1は、入力された音声信号の内容を分析し、例えばテキストデータのような認識信号1に変換する。認識信号1は複数の認識結果候補を有している。
以下、実施の形態1におけるガイダンス音声信号が未知の場合、図1に示した除去手段150において語彙の除去処理を行う過程を図6を用いて説明する。
図6では、ガイダンス音声として「行き先をどうぞ」と出力されている環境下において、使用者はガイダンス音声が終了するのを待たずに「神奈川県」と入力(すなわち発話)してしまった場合を想定している。
1.岩手県
2.神奈川県
3.香川県
であるとする。上記場合のようにクロストークが存在する環境下では、使用者が意図した内容と異なる音響的特徴をもつ「岩手県」のような認識結果が認識語彙候補の中に含まれることがある。
1.岩手県
2.三重県
3.埼玉県
となったとする。このとき、認識語彙候補1(640)と認識語彙候補2(650)の内容を比較すると、いずれも最大尤度で認識された岩手県が共通していることがわかる。そこで、図1における除去手段150は認識語彙候補1(640)の内容から岩手県を除く。このとき更新された認識語彙候補1(640)の内容は、
1.神奈川県
2.香川県
となることがわかる。更に、認識語彙候補1(640)に残った2つの語彙候補の中から、例えば尤度が高い語彙を選択して認識信号R100とする。2つの語彙候補の中では「神奈川県」のほうが高い尤度を持つとして、認識信号R100は「神奈川県」となる。
このように、音声認識手段1(110)と音声認識手段2(140)とで共通の辞書を用いることにより、ガイダンス音声信号の認識結果を一致させることが出来、クロストークによる影響の除去精度を向上することが出来る。
以下では、図7を用いて、連接された語彙を図1に示す除去手段150で除去する過程を説明する。
図7では、ガイダンス音声として「行き先をどうぞ」と出力されている環境下において、使用者はガイダンス音声が終了するのを待たずに「神奈川県横須賀市」と連接語彙を入力してしまった場合を想定している。この場合も、ガイダンス音声が未知の場合である。
1.岩手県盛岡市
2.神奈川県横須賀市
3.香川県高松市
であるとする。
一方、音声認識手段2(140)によって得られたガイダンス音声信号の認識結果(750で示される連接語彙候補2)は、認識された尤度が高い順に、
1.岩手県水沢市
2.岩手県盛岡市
3.岩手県花巻市
となったとする。このとき、連接語彙候補1(740)と連接語彙候補2(750)の内容を比較すると、連接語彙候補1(740)で最大尤度の認識された「岩手県盛岡市」と、連接語彙候補2(750)で2番目に高い尤度として認識された「岩手県盛岡市」とが共通している。そこで、図1の除去手段150は連接語彙候補1(740)の内容から岩手県盛岡市を除去する。このとき更新された連接語彙候補1(740)の内容は
1.神奈川県横須賀市
2.香川県高松市
となることがわかる。更に、連接語彙候補1(740)に残った2つの連接語彙候補の中から、例えば尤度が高い語彙を選択して認識信号R100とする。2つの連接語彙候補の中では「神奈川県横須賀市」のほうが高い尤度を持つとして、認識信号R100は「神奈川県横須賀市」となる。
本実施の形態4においても、音声認識手段1(110)および音声認識手段2(140)に対して辞書を共通とすることにより、ガイダンス音声信号の認識結果を一致させることが出来、クロストークの除去精度を向上することが出来る。
以下では、図8を用いて、図1に示す除去手段150が語彙を除去する過程を説明する。
図8では、ガイダンス音声信号として「行き先をどうぞ」と出力されている環境下において、使用者はガイダンス音声信号が終了するのを待たずに「横浜市港南区」と入力してしまった場合を想定している。
1.横浜市青葉区
2.横浜市港南区
3.横須賀市
であるとする。
1.仙台市泉区
4.仙台市青葉区
5.仙台市大田区
となったとする。このとき、連接語彙候補1(840)と連接語彙候補2(850)の内容を比較すると、連接語彙候補1(840)で最大尤度として認識された「横浜市青葉区」の「青葉区」の部分と、連接語彙候補2(850)で2番目に高い尤度として認識された「仙台市青葉区」の「青葉区」の部分とが共通している。そこで、図1の除去手段150においては連接語彙候補1(840)の内容から「横浜市青葉区」を除く。このとき更新された連接語彙候補1(840)の内容は
2.横浜市港南区
3.横須賀市
となることがわかる。更に残った2つの連接語彙候補の中から、例えば尤度が高い語彙を選択して認識信号R100(860)とする。2つの連接語彙候補の中では「横浜市港南区」のほうが高い尤度を持つとすると、認識信号R100(860)は「横浜市港南区」となる。
以下では、図9により音声認識手段1(110)および音声認識手段2(140)で抽出された音素列で共通するものを除去する過程を説明する。
図9は本実施の形態6の基本構成を示すブロック図であり、本実施の形態6においてもその基本的装置構成の一例は図2で示したものと同じ構成で実現することが出来る。
図9の140で示す音声認識手段2は、図9の120で示す音出力手段から送出された離散的な信号の内容を分析し、音素列を含む認識信号2に変換する。このとき認識信号2は複数の音素列候補を有している。
図10では、ガイダンス音声として「行き先をどうぞ」と出力されている環境下において、使用者はガイダンス音声が終了するのを待たずに「神奈川県」と入力してしまった場合を想定している。
1.tottoriken
2.kanagawaken
3.kagawaken
である。
1.ichinoseki
2.toride
3.sakite
となったとする。このとき、音素列候補1と音素列候補2の内容を比較すると、音素列候補1で最大尤度をもつ「tottori」と、音素列候補2で2番目に尤度の高い「toride」の「tori」の部分が共通音素であることがわかる。なお、ここで、入力された音声用およびガイダンス音声信号用それぞれの音素辞書を共通としておけば比較の精度を向上するのに有用である。この音素辞書は音声信号に含まれる音響的な音素(音響素片)情報と音素の接続に関する情報とが記録されている。そこで、図1の除去手段150は音素列候補1の内容から「tori」を含む列である「tottori」を除く。音声認識手段1(110)では「tori」を除いた結果である認識信号3である、
1.kanagawaken
2.kagawaken
を更に言語辞書1040による分析を用いて、
1.神奈川県
2.香川県
に変換し、最後に残った2つの語彙候補の中から、例えば尤度が高い語彙を選択して認識信号R100とする。2つの語彙候補の中では「神奈川県」のほうが高い尤度をもつとすれば、認識信号R100は「神奈川県」となる。
以上述べた、(実施の形態3)から(実施の形態6)までの動作では、音声認識手段1(110)で候補となった音素、語彙、連接語彙がすべて消えてしまう場合がある。このようなときは音声認識手段2(140)および除去手段150の動作をさせないことで、認識結果が得られなくなることを避けることができる。
また、図11の評価手段170はガイダンス音声信号を検出する検出手段としての機能を有しており、外部信号R110に含まれるガイダンス音声信号が出力されていないことが評価手段170において検出された場合には、音声認識手段2(140)および除去手段150の動作を停止し、音声認識手段1(110)のみで音声認識処理が実行される。
マイク121から入力された音声がガイダンス音声信号より著しく大きいときは音声認識手段2(140)および除去手段150を動作させる必要はない。この動作の可否は、簡易的にガイダンス音声信号の音圧と入力された音声信号との音圧比を代用特性として図11における評価手段170で求め、この出力が予め定められた閾値を越えたところで入力された音声が十分に大きいとして除去手段150および音声認識手段2(140)に送出し、これら回路の動作を停止させることができる。
本実施の形態10においては、図12および図2を用いて、前記本発明と音響エコーキャンセラとを組み合わせた時の構成について説明する。図12は本実施の形態10に対応するブロック図である。
図12の190で示すエコーキャンセラ手段は、例えば、図13に示すような構成にすればよい。すなわち、マイクロホン200にはガイダンス音声信号{y(t)}と、使用者の発話信号{x(t)}とが混在した信号が入力される。ここで、ガイダンス音声信号はスピーカ121から空間を経由してマイクロホン200で集音される。この伝達系をh^(t)とすれば(ここで^は図13に記載の通りhの上に記載されたものと同一の内容を示す)、結局、マイクロホン200への入力信号は
x(t)+y(t)*h^(t) (1)
で与えられる。一方、ガイダンス音声信号y(t)は上記伝達系に近い特性、h(t)≒h^(t)、を有する適応フィルタ1301を経由して
y(t)×h(t) (2)
となり、減算器1302に供給される。減算器1302では(1)式−(2)式の減算処理が行われ、所望の出力信号x^(t)を得る。適応フィルタ1301はこの出力信号x^(t)に応じて特性が変化する。
ここで、図13におけるガイダンス音声信号y(t)は図12では音出力手段120の出力がパス1を経て信号SIGとなる信号に相当するものであり、出力信号x^(t)は音声認識手段1に入力される。
前記特許文献2で示された音場制御の手法を本発明の構成に組み合わせることにより、ガイダンス音声信号の除去効果を向上することが出来る。図14にこの場合の構成を示す。
図14において、195で示す抑圧手段は、マイクロホン200周辺の空間に存在する背景音(ガイダンス音声)を打ち消すように、スピーカ手段121で出力してガイダンス音声を制御する。これは、図8の240で示す演算装置と250で示す記憶装置を用いることで実現できる。
上記のようにエコーキャンセラと組み合わせて使用した場合は、音声認識手段1(110)に音声信号が入力された時点で、すでにクロストークが十分除去されている場合もある。このため、図15で示すように「実施の形態9;図11」で述べた評価手段170を挿入して、クロストークが十分除去されている場合には音声認識手段2(140)および除去手段150を動作させないことも必要となる。評価手段170によるクロストークの除去量に関する評価手法としては、例えば、ガイダンス音声信号と、当該エコーキャンセラ手段190によってクロストークが除去され入力された音声との相関値を計算することで評価は可能である。
図16に、使用者が音声入力タイミングを指定するためのPTT(Push To Talk)スイッチを用いた構成を示す。
図16の105で示すスイッチ手段は図2の260で示す入力装置に相当し、具体的にはタッチパネル、キーボード、ジョグダイアル、その他、各種スイッチを単独、或いは組み合わせて用い、使用者が音声入力を意図したときに入力操作を行うことで、音声認識に関連する機能、例えば、音声認識手段1(110)および音声認識手段2(140)を動作させる。
本実施の形態13のようにスイッチ手段105を導入することで、音声認識手段1(110)と音声認識手段2(140)におけるガイダンス音声信号に関する信号の同期が可能となる。
110:音声認識手段1 120:音出力手段
121:スピーカ手段 140:音声認識手段2
150:除去手段 160:記憶装置
170:評価手段 180:変換手段
190:エコーキャンセラ手段 195:抑圧手段
200:マイクロホン 210:増幅装置
220:AD変換装置 230:音出力装置
231:スピーカ 240:演算装置
250:記憶装置 260:入力装置
630:県名辞書 640:認識語彙候補1
650:認識語彙候補2
660、760、860、1050:認識信号R100
730:県名・市区町村名辞書 740、840:連接語彙候補1
750、850:連接語彙候補2 1030:音素辞書
1040:言語辞書 1301:適応フィルタ
1302:減算器
Claims (36)
- 使用者の音声を入力し、電気信号である音声信号に変換する音入力手段と、
前記入力された音声信号を認識し、且つ第1の認識信号として送出する第1の音声認識手段と、
前記使用者に対し音楽、音声情報、警報音を含むガイダンス音声信号を出力する音出力手段と、
前記音出力手段のガイダンス音声信号を音声に変換するスピーカ手段と、
前記ガイダンス音声信号を認識し、且つ第2の認識信号として送出する第2の音声認識手段と、
該第2の音声認識手段によって認識された前記第2の認識信号に関する内容を前記第1の音声認識手段によって認識された前記第1の認識信号の内容から除去する除去手段と、
を有してなることを特徴とする音声認識装置。 - 使用者の音声を入力し、電気信号である音声信号に変換する音声入力手段と、
前記入力された音声信号を認識し、該認識結果を第1の認識信号として送出する第1の音声認識手段と、
前記使用者に対し音楽、音声情報、警報音を含む既知のガイダンス音声信号を出力する音出力手段と、
前記音出力手段のガイダンス音声信号を音声に変換するスピーカ手段と、
前記既知のガイダンス音声信号を第2の認識信号として予め記憶しておく記憶手段と、
外部信号として入力されるガイダンス音声信号を前記音出力手段に出力するか、あるいは該ガイダンス音声信号から前記記憶手段に予め記憶されている第2の認識信号を読み出すための予め定められた情報を発生させる制御手段と、
前記記憶手段に記憶されているガイダンス音声信号である前記第2の認識信号に関する内容を、前記第1の音声認識手段によって認識された前記第1の認識信号の内容から除去する除去手段と、
を有してなることを特徴とする音声認識装置。 - 請求項1に記載の音声認識装置において、
前記第1の音声認識手段および第2の音声認識手段は、
前記使用者により入力された音声信号における認識対象語彙および語彙の接続に関する情報を記録した共通の辞書を有すること、
を特徴とする音声認識装置。 - 請求項1に記載の音声認識装置において、
前記第1の音声認識手段および前記第2の音声認識手段は、
音響的な音素情報と音素の接続に関する情報とを記録した共通の辞書を有すること、
を特徴とする音声認識装置。 - 請求項1または請求項2に記載の音声認識装置において、
前記除去手段は、前記使用者により入力された音声信号における複数の認識語彙候補から成る前記第1の認識信号を含む第1の語彙群から、前記ガイダンス音声信号における一つ以上の認識語彙候補から成る前記第2の認識信号の一つ以上の第2の語彙群と一致する語彙群を除去し、第3の認識信号として送出すること、
を特徴とする音声認識装置。 - 請求項1または請求項2に記載の音声認識装置において、
前記除去手段は、前記使用者により入力された音声信号における複数の連接語彙候補からなる前記第1の認識信号に含まれる前記第1の連接語彙候補から、前記ガイダンス音声信号に対する一つ以上の連接語彙候補からなる前記第2の認識信号に含まれる第2の連接語彙候補と一致する連接語彙候補群を除去した結果を第3の認識信号として送出すること、
を特徴とする音声認識装置。 - 請求項1または請求項2に記載の音声認識装置において、
前記除去手段は、前記使用者の音声入力信号における複数の認識語彙候補または連接語彙候補からなる前記第1の認識信号に含まれる第1の認識候補から、前記ガイダンス音声信号に対する一つ以上の認識語彙候補または連接語彙候補からなる前記第2の認識信号の一部の語彙または形態素を含む認識語彙候補または連接語彙候補を除去した結果を第3の認識信号として送出すること、
を特徴とする音声認識装置。 - 請求項1または請求項2に記載の音声認識装置において、
前記除去手段は、
前記使用者の音声入力信号における複数の認識された音素列候補からなる前記第1の認識信号の第1の認識候補から、前記ガイダンス音声信号における一つ以上の音素列候補からなる前記第2の認識信号の音素列候補を除去し、処理後の前記第1の認識信号から認識語彙または連接語彙を求めた結果を第3の認識信号として送出すること、
を特徴とする音声認識装置。 - 請求項5乃至請求項8の何れかに記載の音声認識装置において、
前記第3の認識信号が一つ以上の有効な語彙群または連接語彙候補を含まなくなる場合は、請求項5乃至請求項8の何れかに記載の音声認識装置に係る処理の実行を停止すること
を特徴とする音声認識装置。 - 請求項1または請求項2に記載の音声認識装置において、
前記音出力手段から音声信号出力の有無を検出する検出手段を有し、
前記音出力手段から音声信号が出力されていないことが前記検出手段によって検出されたときは、前記第2の音声認識手段または前記記憶手段および前記除去手段の動作を停止すること
を特徴とする音声認識装置。 - 請求項1または請求項2に記載の音声認識装置において、
前記ガイダンス音声信号と前記使用者の音声入力信号との信号レベルの比を評価する評価手段を有し、
前記使用者により入力された音声信号がガイダンス音声信号に対し十分大きいときには前記第2の音声認識手段または前記記憶手段および前記除去手段の動作を停止させること、
を特徴とする音声認識装置。 - 請求項1に記載の音声認識装置において、
前記第1の音声認識手段と第2の音声認識手段とは、前記第1の音声認識手段におけるガイダンス音声信号の認識処理と、該ガイダンス音声信号が認識される前記第2の音声認識手段における同じ内容のガイダンス音声信号の認識処理とは、認識される区間がそれぞれ同じタイミングで動作すること
を特徴とする音声認識装置。 - 使用者の音声を入力し、電気信号である音声信号に変換する音声入力手段と、
該入力された音声信号を認識し、且つ第1の認識信号として送出する第1の音声認識手段と、
前記使用者に対し音楽、音声情報、警報音を含むガイダンス音声信号を出力する音出力手段と、
前記音出力手段のガイダンス音声信号を音声に変換するスピーカ手段と、
電気信号である音声信号を音に変換するスピーカ手段と、
音響的な回り込み信号を除去するエコーキャンセラ手段と、
該ガイダンス音声信号を認識した第2の認識信号を送出する第2の音声認識手段と、
前記音出力手段から得られる前記ガイダンス音声信号を、前記音響エコーキャンセラ手段によって除去し、該除去された信号から除去誤り信号に変換して前記第2の音声認識手段に送出する変換手段と、
前記第2の音声認識手段によって認識された第2の認識信号の内容を前記第1の音声認識手段によって認識された前記第1の認識信号の内容から除去する除去手段と、
を有してなることを特徴とする音声認識装置。 - 使用者の音声を入力し、電気信号である音声信号に変換する音声入力手段と、
該音声信号を認識した第1の認識信号として送出する第1の音声認識手段と、
前記使用者に対し音楽、音声情報、警報音を含む既知のガイダンス音声信号を出力する音出力手段と、
前記音出力手段のガイダンス音声信号を音声に変換するスピーカ手段と、
音響的な回り込み信号を前記音声入力手段のマイクロホン位置で抑圧する抑圧手段と、
前記ガイダンス音声信号を認識し、且つ第2の認識信号として送出する第2の音声認識手段と、
前記抑圧手段によって抑圧された信号の抑圧誤り信号を予測し、前記第2の音声認識手段に送出する変換手段と、
前記第2の音声認識手段によって認識された第2の認識信号に関する内容を前記第1の音声認識手段によって認識された前記第1の認識信号の内容から除去する除去手段と
を有してなることを特徴とする音声認識装置。 - 請求項3乃至請求項12の何れかに記載の音声認識装置において、
音響的な回り込み信号を除去する音響的なエコーキャンセラを備え、
該エコーキャンセラの一方の入力は前記音声入力手段の出力に、また他方の入力は前記音出力手段の出力に接続され、
該エコーキャンセラの出力の一方は前記第1の音声認識手段に接続され、該エコーキャンセラの他方の出力は変換手段の入力に接続されており、該変換手段においては前記エコーキャンセラ手段によって前記ガイダンス音声信号が除去された信号をと前記音出力手段の出力とから除去誤り信号に変換し、さらに前記第2の音声認識手段に送出すること
を特徴とする音声認識装置。 - 請求項3乃至請求項12の何れかに記載の音声認識装置において、
音響的な回り込み信号を前記音入力手段のマイクロホン位置で抑圧する抑圧手段と、
前記音入力手段を介して入力される音響空間的な回り込み信号が抑圧された信号から抑圧誤り信号に変換する変換手段と、
該抑圧手段の入力は前記音出力手段の出力に接続され、
該抑圧手段の一方の出力は前記スピーカ手段に、他の一方の出力は前記変換手段の一方の入力に接続され、
前記音入力手段の出力は前記第1の音声認識手段の入力と、前記変換手段の他方の入力とにそれぞれ接続されていること
を特徴とする音声認識装置。 - 請求項1乃至請求項16の何れかに記載の音声認識装置において、
前記使用者が発話タイミングを入力するスイッチ手段を有すること、
を特徴とする音声認識装置。 - 請求項17に記載の音声認識装置において、
前記使用者が発話タイミングを前記スイッチ手段により入力した後、同時に、前記第1の音声認識手段および前記第2の音声認識手段における認識処理を開始すること
を特徴とする音声認識装置。 - 使用者の音声入力を、電気信号である音声信号に音声入力手段により変換し、
前記入力された音声信号を第1の音声認識手段により認識し、且つ第1の認識信号として送出し、
前記使用者に対し音楽、音声情報、警報音を含むガイダンス音声信号を音出力手段により出力し、
前記音出力手段のガイダンス音声信号をスピーカ手段により音声に変換し、
前記ガイダンス音声信号を第2の音声認識手段により認識し、且つ第2の認識信号として送出し、
該第2の音声認識手段によって認識された前記第2の認識信号に関する内容を前記第1の音声認識手段によって認識された前記第1の認識信号の内容から除去手段により除去すること
を特徴とする音声認識方法。 - 使用者の音声入力を音声入力手段により、電気信号である音声信号に変換し、
前記入力された音声信号を第1の音声認識手段により認識し、該認識結果を第1の認識信号として送出し、
前記使用者に対し音楽、音声情報、警報音を含む既知のガイダンス音声信号を音出力手段により出力し、
前記音出力手段のガイダンス音声信号をスピーカ手段により音声に変換し、
前記既知のガイダンス音声信号を第2の認識信号として記憶手段により予め記憶しておき、
外部信号として入力されるガイダンス音声信号を前記音出力手段に出力するか、あるいは該ガイダンス音声信号から前記記憶手段に予め記憶されている第2の認識信号を読み出すための予め定められた情報を発生させる制御手段を有し、
前記記憶手段に記憶されているガイダンス音声信号である前記第2の認識信号に関する内容を前記第1の音声認識手段によって認識された前記第1の認識信号の内容から除去手段により除去すること
を特徴とする音声認識方法。 - 請求項19に記載の音声認識方法において、
前記第1の音声認識手段および第2の音声認識手段による処理は、
前記使用者により入力された音声信号における認識対象語彙および語彙の接続に関する情報を記録した共通の辞書を使用すること、
を特徴とする音声認識方法。 - 請求項19に記載の音声認識装置において、
前記第1の音声認識手段および前記第2の音声認識手段による処理は、
音響的な音素情報と音素の接続に関する情報とを記録した共通の辞書を使用すること、
を特徴とする音声認識方法。 - 請求項19または請求項20に記載の音声認識方法において、
前記除去手段により、前記使用者により入力された音声信号における複数の認識語彙候補から成る前記第1の認識信号を含む第1の語彙群から、前記ガイダンス音声信号における一つ以上の認識語彙候補から成る前記第2の認識信号の一つ以上の第2の語彙群と一致する語彙群を除去し、第3の認識信号として送出すること
を特徴とする音声認識方法。 - 請求項19または請求項20に記載の音声認識方法において、
前記除去手段により、前記使用者により入力された音声信号における複数の連接語彙候補からなる前記第1の認識信号に含まれる前記第1の連接語彙候補から、前記ガイダンス音声信号に対する一つ以上の連接語彙候補からなる前記第2の認識信号に含まれる第2の連接語彙候補と一致する連接語彙候補群を除去した結果を第3の認識信号として送出すること、
を特徴とする音声認識方法。 - 請求項19または請求項20に記載の音声認識方法において、
前記除去手段により、前記使用者の音声入力信号における複数の認識語彙候補または連接語彙候補からなる前記第1の認識信号に含まれる第1の認識候補から、前記ガイダンス音声信号に対する一つ以上の認識語彙候補または連接語彙候補からなる前記第2の認識信号の一部の語彙または形態素を含む認識語彙候補または連接語彙候補を除去した結果を第3の認識信号として送出すること、
を特徴とする音声認識方法。 - 請求項19または請求項20に記載の音声認識方法において、
前記除去手段により、前記使用者の音声入力信号における複数の認識された音素列候補からなる前記第1の認識信号の第1の認識候補から、前記ガイダンス音声信号における一つ以上の音素列候補からなる前記第2の認識信号の音素列候補を除去し、処理後の前記第1の認識信号から認識語彙または連接語彙を求めた結果を第3の認識信号として送出すること、
を特徴とする音声認識方法。 - 請求項23乃至請求項26の何れかに記載の音声認識装置において、
前記第3の認識信号が一つ以上の有効な語彙群または連接語彙候補を含まなくなる場合は、請求項23乃至請求項26の何れかに記載の音声認識方法に係る処理の実行を停止すること
を特徴とする音声認識方法。 - 請求項19または請求項20に記載の音声認識装置において、
前記音出力手段から音声信号出力の有無を検出手段により検出し、
前記音出力手段から音声信号が出力されていないことが前記検出手段によって検出されたときは、前記第2の音声認識手段または前記記憶手段および前記除去手段の動作を停止すること
を特徴とする音声認識方法。 - 請求項19または請求項20に記載の音声認識方法において、
前記ガイダンス音声信号と前記使用者の音声入力信号との信号レベルの比を評価手段により評価し、
前記使用者により入力された音声信号がガイダンス音声信号に対し十分大きいときには前記第2の音声認識手段または前記記憶手段および前記除去手段の動作を停止させること、
を特徴とする音声認識方法。 - 請求項19に記載の音声認識装置において、
前記第1の音声認識手段と第2の音声認識手段は、前記第1の音声認識手段で認識されるガイダンス音声信号の音響的な回り込み信号と、前記第2の音声認識手段で認識される前記ガイダンス音声信号とについて、認識される区間がそれぞれ同じタイミングで動作すること
を特徴とする音声認識方法。 - 使用者の音声を入力し、電気信号である音声信号に音声入力手段により変換し、
該入力された音声信号を第1の音声認識手段により認識し、且つ第1の認識信号として送出し、
前記使用者に対し音楽、音声情報、警報音を含むガイダンス音声信号を音出力手段により出力し、
前記音出力手段のガイダンス音声信号をスピーカ手段により音声に変換し、
音響的な回り込み信号をエコーキャンセラ手段により除去し、
該ガイダンス音声信号を第2の音声認識手段により認識して第2の認識信号を送出し、
前記音出力手段から得られる前記ガイダンス音声信号を、前記音響エコーキャンセラ手段によって除去し、変換手段により該除去された信号から除去誤り信号に変換して前記第2の音声認識手段に送出し、
前記第2の音声認識手段によって認識された第2の認識信号に関する内容を前記第1の音声認識手段によって認識された前記第1の認識信号の内容から除去手段により除去すること、
を特徴とする音声認識装置。 - 使用者の音声を入力し、音声入力手段により電気信号である音声信号に変換し、
該音声信号を第1の音声認識手段により認識し、第1の認識信号として送出し、
前記使用者に対し音楽、音声情報、警報音を含む既知のガイダンス音声信号を音出力手段により出力し、
前記音出力手段のガイダンス音声信号をスピーカ手段により音声に変換し、
音響的な回り込み信号を抑圧手段により前記音声入力手段のマイクロホン位置で抑圧し
前記ガイダンス音声信号を第2の音声認識手段により認識し、且つ第2の認識信号として送出し、
前記抑圧手段によって抑圧された信号を変換手段により抑圧誤り信号を予測し、前記第2の音声認識手段に送出し、
前記第2の音声認識手段によって認識された第2の認識信号に関する内容を前記第1の音声認識手段によって認識された前記第1の認識信号の内容から除去手段により除去すること
を特徴とする音声認識装置。 - 請求項21乃至請求項30の何れかに記載の音声認識方法において、
音響的な回り込み信号をエコーキャンセラにより除去し、
該エコーキャンセラの一方の入力には前記音声入力手段からの信号を入力し、また他方の入力には前記音出力手段からの信号を入力し、
該エコーキャンセラの出力の一方は前記第1の音声認識手段に入力され、該エコーキャンセラの他方の出力は変換手段に入力されており、該変換手段においては前記エコーキャンセラ手段によって前記ガイダンス音声信号が除去された信号と、前記音出力手段の出力とから除去誤り信号に変換され、この変換結果を前記第2の音声認識手段に送出すること
を特徴とする音声認識方法。 - 請求項21乃至請求項30の何れかに記載の音声認識方法において、
音響的な回り込み信号を抑圧手段により前記音入力手段のマイクロホン位置で抑圧し、
前記音入力手段を介して入力される音響的な回り込み信号を変換手段により抑圧誤り信号に変換し、
前記音出力手段の出力を該抑圧手段に入力し、
該抑圧手段の一方の出力は前記スピーカ手段に入力し、他の一方の出力は前記変換手段の一方の入力に入力し、
前記音入力手段の出力は前記第1の音声認識手段の入力と、前記変換手段の他方の入力とにそれぞれ入力すること
を特徴とする音声認識方法。 - 請求項19乃至請求項33の何れかに記載の音声認識方法において、
前記使用者が発話タイミングを入力するスイッチ手段により発生させること、
を特徴とする音声認識方法。 - 請求項19乃至請求項34の何れかに記載の音声認識装置において、
前記使用者が発話タイミングを前記スイッチ手段により入力したとき前記第1の音声認識手段および前記第2の音声認識手段における認識処理を開始すること
を特徴とする音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004359697A JP4608670B2 (ja) | 2004-12-13 | 2004-12-13 | 音声認識装置および音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004359697A JP4608670B2 (ja) | 2004-12-13 | 2004-12-13 | 音声認識装置および音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006171077A true JP2006171077A (ja) | 2006-06-29 |
JP4608670B2 JP4608670B2 (ja) | 2011-01-12 |
Family
ID=36671946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004359697A Expired - Fee Related JP4608670B2 (ja) | 2004-12-13 | 2004-12-13 | 音声認識装置および音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4608670B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011129421A1 (ja) * | 2010-04-13 | 2011-10-20 | 日本電気株式会社 | 背景雑音キャンセリング装置および方法 |
JP2013531273A (ja) * | 2010-06-03 | 2013-08-01 | ジョンソン コントロールズ テクノロジー カンパニー | スピーカ及びマイクロホンを備える音声認識システムを調整する方法、及び音声認識システム |
WO2014103099A1 (ja) * | 2012-12-28 | 2014-07-03 | パナソニック株式会社 | 音声認識付き機器及び音声認識方法 |
JP2019045532A (ja) * | 2017-08-29 | 2019-03-22 | アルパイン株式会社 | 音声認識装置、車載システム及びコンピュータプログラム |
WO2020009378A1 (ko) * | 2018-07-03 | 2020-01-09 | 삼성전자 주식회사 | 소리를 출력하는 디바이스 및 그 방법 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0250198A (ja) * | 1988-05-27 | 1990-02-20 | Toshiba Corp | 音声認識システム |
JPH03160499A (ja) * | 1989-11-20 | 1991-07-10 | Sanyo Electric Co Ltd | 音声認識装置 |
JPH04318900A (ja) * | 1991-04-18 | 1992-11-10 | Oki Electric Ind Co Ltd | 多方向同時収音式音声認識方法 |
JPH08211892A (ja) * | 1995-02-01 | 1996-08-20 | Toyota Motor Corp | 音声認識装置 |
JP2004294803A (ja) * | 2003-03-27 | 2004-10-21 | Clarion Co Ltd | 音声認識装置 |
JP2005049436A (ja) * | 2003-07-30 | 2005-02-24 | Toshiba Corp | 音声認識方法、装置及びプログラム |
-
2004
- 2004-12-13 JP JP2004359697A patent/JP4608670B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0250198A (ja) * | 1988-05-27 | 1990-02-20 | Toshiba Corp | 音声認識システム |
JPH03160499A (ja) * | 1989-11-20 | 1991-07-10 | Sanyo Electric Co Ltd | 音声認識装置 |
JPH04318900A (ja) * | 1991-04-18 | 1992-11-10 | Oki Electric Ind Co Ltd | 多方向同時収音式音声認識方法 |
JPH08211892A (ja) * | 1995-02-01 | 1996-08-20 | Toyota Motor Corp | 音声認識装置 |
JP2004294803A (ja) * | 2003-03-27 | 2004-10-21 | Clarion Co Ltd | 音声認識装置 |
JP2005049436A (ja) * | 2003-07-30 | 2005-02-24 | Toshiba Corp | 音声認識方法、装置及びプログラム |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011129421A1 (ja) * | 2010-04-13 | 2011-10-20 | 日本電気株式会社 | 背景雑音キャンセリング装置および方法 |
US20130144617A1 (en) * | 2010-04-13 | 2013-06-06 | Nec Corporation | Background noise cancelling device and method |
JP5288148B2 (ja) * | 2010-04-13 | 2013-09-11 | 日本電気株式会社 | 背景雑音キャンセリング装置および方法 |
JP2013531273A (ja) * | 2010-06-03 | 2013-08-01 | ジョンソン コントロールズ テクノロジー カンパニー | スピーカ及びマイクロホンを備える音声認識システムを調整する方法、及び音声認識システム |
US10115392B2 (en) | 2010-06-03 | 2018-10-30 | Visteon Global Technologies, Inc. | Method for adjusting a voice recognition system comprising a speaker and a microphone, and voice recognition system |
JPWO2014103099A1 (ja) * | 2012-12-28 | 2017-01-12 | 株式会社ソシオネクスト | 音声認識付き機器及び音声認識方法 |
CN104956436A (zh) * | 2012-12-28 | 2015-09-30 | 株式会社索思未来 | 带有语音识别功能的设备以及语音识别方法 |
US9792902B2 (en) | 2012-12-28 | 2017-10-17 | Socionext Inc. | Device including speech recognition function and method of recognizing speech |
WO2014103099A1 (ja) * | 2012-12-28 | 2014-07-03 | パナソニック株式会社 | 音声認識付き機器及び音声認識方法 |
US10262653B2 (en) | 2012-12-28 | 2019-04-16 | Socionext Inc. | Device including speech recognition function and method of recognizing speech |
JP2019045532A (ja) * | 2017-08-29 | 2019-03-22 | アルパイン株式会社 | 音声認識装置、車載システム及びコンピュータプログラム |
WO2020009378A1 (ko) * | 2018-07-03 | 2020-01-09 | 삼성전자 주식회사 | 소리를 출력하는 디바이스 및 그 방법 |
US11710495B2 (en) | 2018-07-03 | 2023-07-25 | Samsung Electronics Co., Ltd. | Device for outputting sound and method therefor |
Also Published As
Publication number | Publication date |
---|---|
JP4608670B2 (ja) | 2011-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3479691B2 (ja) | 実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法及びこの方法を実施する装置 | |
US20080189106A1 (en) | Multi-Stage Speech Recognition System | |
JP5174937B2 (ja) | 音声認識装置及び方法 | |
JP5200712B2 (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
JP2007500367A (ja) | 音声認識方法およびコミュニケーション機器 | |
JP2005195895A (ja) | 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置 | |
JP6459330B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP2004333543A (ja) | 音声対話システム及び音声対話方法 | |
JP2018072599A (ja) | 音声認識装置および音声認識方法 | |
JP4608670B2 (ja) | 音声認識装置および音声認識方法 | |
JP2006208486A (ja) | 音声入力装置 | |
US20070129945A1 (en) | Voice quality control for high quality speech reconstruction | |
JP2000194392A (ja) | 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体 | |
KR101945190B1 (ko) | 음성인식 작동 시스템 및 방법 | |
JP2017216525A (ja) | 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム | |
JP5037018B2 (ja) | 音声認識装置および音声認識方法 | |
JP6183147B2 (ja) | 情報処理装置、プログラム、及び方法 | |
JP2009031809A (ja) | 音声認識装置 | |
KR101066472B1 (ko) | 초성 기반 음성인식장치 및 음성인식방법 | |
JP4749990B2 (ja) | 音声認識装置 | |
JP3846500B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
JP2002372988A (ja) | 認識辞書作成装置及び棄却辞書及び棄却辞書の生成方法 | |
JP2006010739A (ja) | 音声認識装置 | |
JP2006184371A (ja) | 音声認識装置および音声認識方法 | |
JP2010041188A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071029 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100512 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100518 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100616 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100907 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20101001 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100920 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131022 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20101111 |
|
A072 | Dismissal of procedure [no reply to invitation to correct request for examination] |
Free format text: JAPANESE INTERMEDIATE CODE: A072 Effective date: 20110301 |
|
LAPS | Cancellation because of no payment of annual fees |