JP3825526B2 - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP3825526B2 JP3825526B2 JP08170097A JP8170097A JP3825526B2 JP 3825526 B2 JP3825526 B2 JP 3825526B2 JP 08170097 A JP08170097 A JP 08170097A JP 8170097 A JP8170097 A JP 8170097A JP 3825526 B2 JP3825526 B2 JP 3825526B2
- Authority
- JP
- Japan
- Prior art keywords
- reading
- vocabulary
- speech
- recognition
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Description
【発明の属する技術分野】
本発明は、入力音声を音響分析して求めた特徴パラメータ系列を予め作成しておいた各認識語彙を構成するキーワードの音声モデルと照合して、入力音声を認識する音声認識装置に係り、特に認識語彙の読みの登録間違いや、装置使用時の読みの記憶違いによる誤認識を削減するのに好適な音声認識装置に関する。
【0002】
【従来の技術】
一般に、入力音声を認識する音声認識装置では、当該装置での認識対象となる語彙(認識語彙)の読みを入力することで、その読みから、対応する認識語彙を構成するキーワードの音声モデルを予め作成し、入力音声の認識のため記憶しておくようになっている。この種の音声認識装置での入力音声の認識は、次のように行われる。
【0003】
まず入力音声を音響分析して特徴パラメータ系列を求める。次に、求めた入力音声の特徴パラメータ系列を予め作成しておいた各認識語彙を構成するキーワードの音声モデルと照合して、入力音声を認識する。
【0004】
このような音声認識装置においては、従来は、認識語彙の読みを誤って登録した場合には、使用時に正しい読みを発声しても正しく認識できないという問題があった。また、認識語彙の登録時には正しい読みを登録しておいても、使用時に誤った読みを発声すると正しく認識されないという問題もあった。
【0005】
【発明が解決しようとする課題】
上記したように従来の音声認識装置では、認識語彙の読みを誤って登録すると、使用時に正しい読みを発声しても正しく認識できず、逆に認識語彙の登録時に正しい読みを登録しておいても、使用時に誤った読みを発声すると正しく認識されないという問題があった。
【0006】
本発明は上記事情を考慮してなされたものでその目的は、認識語彙の読みの登録間違いや、装置使用時の読みの記憶違い、誤った読みでの発声等に起因する認識性能の低下を防ぐことができる音声認識装置を提供することにある。
【0012】
【課題を解決するための手段】
本発明の1つの観点によれば、認識語彙の別称の音声モデルを含む各認識語彙の音声モデルと照合して、入力音声を認識する音声認識装置が提供される。この音声認識装置は、登録する認識語彙の第1の読みに加えて、異なる第2の読みを別称として登録する別称登録手段と、別称として登録される第2の読みが登録済みの認識語彙の第1の読みと類似しているか否かを判定する登録語彙類似性判定手段と、この登録語彙類似性判定手段により類似していると判定された場合に、その旨の警告を出力する警告出力手段と、上記別称登録手段により別称として登録された第2の読みの音声モデルとの照合で入力音声が認識された場合、その第2の読みを別称とする語彙を認識する認識結果出力手段とを備えたことを特徴とする。ここで、上記認識結果出力手段が、別称として登録されている第2の読みを認識したときに、その第2の読みを別称とする語彙の第1の読みが当該認識結果出力手段によって利用者に提示される構成とすると良い。
【0013】
このような構成においては、認識語彙入力手段から入力して登録される認識語彙の読み(第1の読み)とは異なる読み(第2の読み)を別称として別称登録手段により登録する際に、この別称として登録される第2の読みが他の語彙の第1の読みと類似しているかを登録語彙類似性判定手段にて判定し、類似しているならば、その旨を警告出力手段から利用者に知らせることにより、別称登録による認識性能の低下を未然に防ぐことができる。このとき、該当する別称登録を中止させるとよい。また、別称として登録されている第2の読みの音声モデルとの照合で入力音声が認識された場合、その第2の読みを別称とする語彙を認識することにより、例えば「神戸(かんべ)」の別称として「神戸(こうべ)」が登録されている状態で、話者が一般的な読みである「神戸(こうべ)」と発声しても、認識結果として正しい「神戸(かんべ)」を得ることができる。この際、「神戸(こうべ)」(第2の読み)を別称とする語彙「神戸」の読み(第1の読み)「神戸(かんべ)」を話者に提示することにより、当該話者が別称で覚えていた言葉の正しい読みを当該話者に覚えさせることができ、以後正しい読みで入力できるようになる。
【0020】
【発明の実施の形態】
以下、本発明の実施の形態につき図面を参照して説明する。
[第1の実施形態]
図1は本発明の第1の実施形態に係る音声認識装置の概略構成を示すブロック図である。
【0021】
図1の音声認識装置において、音声入力部101から入力された音声は、音響分析部102で特徴パラメータに変換される。音声認識に使用される代表的な特徴パラメータとしては、バンドパスフィルタやフーリエ変換によって求めることができるパワースペクトルや、LPC(線形予測)分析によって求めたケプストラム係数などがよく用いられるが、ここではその特徴パラメータの種類は問わない。
【0022】
音響分析部102は求めた入力音声の特徴パラメータ系列をモデル照合部103に出力する。モデル照合部103は、認識語彙入力部105から入力された認識語彙に従って予め作成して音声モデル作成・記憶部104に記憶しておいた認識対象とするキーワード(認識語彙を構成するキーワード)の各音声モデルと上記入力音声の特徴パラメータ系列との類似度あるいは距離を求める演算を行う。
【0023】
モデル照合部103の照合方法としては、音声モデルも特徴パラメータ系列で表現しておき、DP(動的計画)法で音声モデルの特徴パラメータ系列と入力音声の特徴パラメータ系列の距離を求める手法や、HMM(隠れマルコフモデル)を用いて音声モデルを表現しておき、入力音声の特徴パラメータ系列が入力されたときの各音声モデルの確率を計算する手法などが広く使用されているが、特に手法は問わない。
【0024】
認識語彙入力部105は、認識語彙と、認識語彙を構成する各キーワードの音声モデルを作成するために必要な、認識語彙の各キーワードへの分割情報(キーワード分割情報)と、各キーワードの読み情報とを入力するためのものであり、キーボードやファイルなどで実現することができる。認識語彙入力部105から入力された認識語彙は認識語彙記憶部109に登録される。
【0025】
キーワード変換部106は、認識語彙入力部105から入力されたキーワード分割情報から各キーワードを抽出し、キーワード間の音の類似性と品詞などの属性に基づいて選択される、例えば音の類似性があって且つ品詞が同じキーワードの変換テーブル(キーワード変換テーブル)106aを作成し、記憶しておくためのものである。
【0026】
キーワード拡張部107は、モデル照合部103で得られた(類似度あるいは距離付きの)キーワードを、キーワード変換部106によりキーワード変換テーブル106aに従って音の類似性のある他のキーワードに変換させ、キーワードの拡張を行う。
【0027】
認識結果出力部108は、モデル照合部103で求めた各音声モデルとキーワード拡張部107で拡張して得られたキーワードが組み合わされたキーワード列に対する類似度(あるいは距離)をある条件(例えば類似度の大きさ)のもとでソーティングして、認識語彙記憶部109に記憶されている認識語彙の中で、類似度が最大(あるいは距離が最小)となる認識対象のカテゴリを認識結果として出力する。なお、上記ソーティングの制約として、例えば人の氏名は、会社名より優先させるなどを適用してもよい。
【0028】
以上に述べた図1の構成の音声認識装置の具体的動作を、当該音声認識装置で認識対象とする語彙、即ち認識語彙が、「佐藤商店」、「加籐食堂」、「田中書店」の3種類である場合を例にとり説明する。
【0029】
この場合、認識語彙入力部105から上記3種類の認識語彙が入力されることになるが、本実施形態では、その認識語彙を構成する各キーワードの音声モデルが(音声モデル作成・記憶部104にて)作成可能なように、「佐藤‐商店」、「加籐‐食堂」、「田中‐書店」のように、認識語彙中にキーワード分割記号(キーワード分割情報)「‐」が挿入されて入力される。
【0030】
音声モデル作成・記憶部104は、認識語彙入力部105からキーワード分割記号「‐」が挿入された認識語彙「佐藤‐商店」、「加籐‐食堂」、「田中‐書店」が入力されると、各認識語彙について、その語彙中に挿入されたキーワード分割記号「‐」に従って、その語彙を構成するキーワードに分割する。ここでは、上記3種類の認識語彙が、「佐藤」、「加籐」、「田中」、「商店」、「食堂」、「書店」の6つのキーワードに分割される。音声モデル作成・記憶部104は、この6つのキーワード「佐藤」、「加籐」、「田中」、「商店」、「食堂」、「書店」について、それぞれ音声モデルを作成し、記憶する。
【0031】
これと同時に、キーワード変換部106は、認識語彙入力部105から入力されたキーワード分割記号付きの認識語彙「佐藤‐商店」、「加籐‐食堂」、「田中‐書店」から得られる上記6つのキーワード「佐藤」、「加籐」、「田中」、「商店」、「食堂」、「書店」について音声の類似性を調べて、類似性のあるキーワードを抽出し、キーワード変換テーブル106aを作成する。ここでは、キーワード変換テーブル106aの作成規則を、キーワードの読みが異なる音節数が所定数以下、例えば1音節以下のキーワード同士を音声の類似性ありとして、当該テーブル106aに登録するものとする。この場合、「佐藤」と「加藤」、「商店」と「書店」が類似性ありと抽出され、図2に示すようなキーワード変換テーブル106aが作成される。
【0032】
すると、音声認識時に、例えば「佐藤商店」と入力された場合に、モデル照合部103での照合結果が「佐藤」と「書店」であったとすると、キーワード拡張部107では、「佐藤」と「書店」について、キーワード変換部106によりキーワード変換テーブル106aに従う「佐藤→加籐」、「書店→商店」のキーワード変換を行わせ、モデル照合部103での照合結果として「佐藤」と「書店」の他に、「加籐」と「商店」もあるかのように、キーワードの拡張を行う。
【0033】
キーワード拡張部107により拡張されたキーワードの組み合わせの中には、認識語彙記憶部109に記憶されている認識語彙と一致するものとして、「佐藤商店」がある。したがって、モデル照合部103での照合結果が「佐藤」と「書店」であったにも拘らず、認識結果出力部108では、「佐藤商店」を正しく認識して出力することができる。
【0034】
これに対し、キーワード変換部106とキーワード拡張部107がなく、キーワードの拡張が行われない場合には、モデル照合部103での照合結果である「佐藤」と「書店」で構成される「佐藤書店」は認識語彙記憶部109には存在しないので、「佐藤商店」を正しく認識することはできない。
【0035】
なお、キーワード変換により得られたキーワードの音声モデルとの照合では、類似度を一定値あるいは一定割合低くするとよい。
以上は、話者が「佐藤商店」と発声したのに対して、モデル照合部103で「佐藤」「書店」と誤った照合結果が得られた場合でも、音の類似性に着目したキーワードの拡張により「佐藤商店」を正しく認識できる例について述べた。本実施形態では、同様にして、話者が「佐藤商店」を「佐藤書店」と言い間違った場合にも、音の類似性に着目したキーワードの拡張により「佐藤商店」を正しく認識することができる。
【0036】
このように本実施形態においては、キーワードを音としての類似性に着目して拡張することにより、キーワードの認識誤りや話者の言い間違いによる認識性能の低下を効果的に防ぐことができる。
[第2の実施形態]
図3は本発明の第2の実施形態に係る音声認識装置の概略構成を示すブロック図である。
【0037】
図3の音声認識装置において、音声入力部201から入力された音声は、音響分析部202で特徴パラメータに変換される。音声認識に使用される代表的な特徴パラメータとしては、バンドパスフィルタやフーリエ変換によって求めることができるパワースペクトルや、LPC(線形予測)分析によって求めたケプストラム係数などがよく用いられるが、ここではその特徴パラメータの種類は問わない。
【0038】
音響分析部202は求めた入力音声の特徴パラメータ系列をモデル照合部203に出力する。モデル照合部203は、音声モデル記憶部204に記憶されている全ての音節の任意の長さの音節列の音声モデルと特徴パラメータ系列の類似度あるいは距離を求める演算を行う。
【0039】
モデル照合部203の照合方法としては、音声モデルも特徴パラメータ系列で表現しておき、DP(動的計画)法で音声モデルの特徴パラメータ系列と入力音声の特徴パラメータ系列の距離を求める手法や、HMM(隠れマルコフモデル)を用いて音声モデルを表現しておき、入力音声の特徴パラメータ系列が入力されたときの各音声モデルの確率を計算する手法などが広く使用されているが、特に手法は問わない。
【0040】
認識結果出力部205は、モデル照合部203での照合結果をもとに、制約条件記憶部206に記憶されている制約条件に従って、例えば先頭の音節と最後の音節が一致する音節列について、類似度(あるいは距離)をある条件のもとでソーティングして、類似度が最大(あるいは距離が最小)となる音節列の先頭の音節を認識結果として出力する。
【0041】
以上に述べた図3の構成の音声認識装置の具体的動作を、例えば、「あさひ(朝日)のあ」と発声した場合を例にとり説明する。
まず、話者が「あさひ(朝日)のあ」と発声した結果、モデル照合部203にて図4に示すような音節列と類似度、即ち類似度が86の音節列「あ」「さ」「ひ」「の」「あ」と、類似度が92の音節列「う」「さ」「ひ」「の」「あ」とが得られたとする。
【0042】
この場合、入力音声の先頭の音節と最後の音節が一致するという制約を設けないで、認識結果出力部205から類似度が最大となる音節列の先頭の音節を認識結果として出力するならば、入力音声の先頭の音節とは異なる誤った音節「う」が出力されることになる。
【0043】
これに対して本実施形態では、制約条件記憶部206に記憶されている制約条件により、先頭と最後の音節が一致するという制約を設けてあるため、認識結果出力部205での認識結果は音節「あ」となり、入力音声の先頭の音節を正しく認識することができる。しかも、先頭と最後の音節が一致するという制約のもとで、入力音声の最初の音節を認識することから、この例のように音節「あ」を入力するときに発声する音声は、「朝日のあ」だけではなく、「あひるのあ」、更には「あじあ(アジア)」など、単に先頭の音節と最後の音節が同じであればよい。
【0044】
このように本実施形態においては、入力音声の先頭の音節と最後の音節が一致するという制約のもとで入力音声の先頭の音節を認識することにより、非常に精度の高い音節認識を実現できる。また、各音節を入力するときに発声する言葉を覚える必要がないので、誰でもすぐに使用することができる。
[第3の実施形態]
図5は本発明の第3の実施形態に係る音声認識装置の概略構成を示すブロック図である。
【0045】
図5の音声認識装置において、音声入力部301から入力された音声は、音響分析部302で特徴パラメータに変換される。音声認識に使用される代表的な特徴パラメータとしては、バンドパスフィルタやフーリエ変換によって求めることができるパワースペクトルや、LPC(線形予測)分析によって求めたケプストラム係数などがよく用いられるが、ここではその特徴パラメータの種類は問わない。
【0046】
音響分析部302は求めた入力音声の特徴パラメータ系列をモデル照合部203に出力する。モデル照合部303は、認識語彙入力部305から入力された認識語彙に従って予め作成して音声モデル作成・記憶部304に記憶しておいた認識対象とするキーワードの各音声モデルと上記入力音声の特徴パラメータ系列との類似度あるいは距離を求める演算を行う。
【0047】
モデル照合部303の照合方法としては、音声モデルも特徴パラメータ系列で表現しておき、DP(動的計画)法で音声モデルの特徴パラメータ系列と入力音声の特徴パラメータ系列の距離を求める手法や、HMM(隠れマルコフモデル)を用いて音声モデルを表現しておき、入力音声の特徴パラメータ系列が入力されたときの各音声モデルの確率を計算する手法などが広く使用されているが、特に手法は問わない。
【0048】
認識結果出力部308は、モデル照合部303で求めた各認識語彙に対する類似度が最大(あるいは距離が最小)となる語彙を認識結果として出力する。
認識語彙入力部305は、認識したい語彙とその読みを登録するためのものであり、キーボードやファイルなどで実現することができる。
【0049】
一方、例えば登録したい地名として、認識語彙入力部305から「神戸(かんべ)」を登録する際に、「神戸」の読みとしては「こうべ」の方が一般的であり、「こうべ」と誤読される可能性が高いと判断した場合には、「神戸(かんべ)」の誤読されやすい読み、即ち別称として「こうべ」を別称登録部306から登録する。この別称登録部306を、例えばキーボードで構成して、利用者からの当該キーボードの操作により別称を登録(入力)するようにするしてもよいし、語彙からその読みを検索することができるテーブルを予め作成して別称登録部306に設けておき、複数の読みが存在する場合には、別称をそのテーブルから別称登録部306内部で自動生成(入力)する構成としてもよい。
【0050】
登録語彙類似性判定部307は、認識語彙入力部305から登録された全ての語彙の読みと別称登録部306での別称登録により登録される読みとの類似性を判断する。もし、別称登録される読みとの類似性のある(読みが登録された)語彙が存在する場合には、登録語彙類似性判定部307は警告出力部309により利用者に警告したり、別称の登録の中止を行う。この登録語彙類似性判定部307での読みの類似性の判定には、例えば読みの音節の相違が1音節以下などの条件が適用可能である。
【0051】
このように本実施形態においては、認識語彙入力部305から入力して登録される認識語彙の別称を別称登録部306により登録する際に、別称が他の語彙と類似していないかを登録語彙類似性判定部307にて判断し、警告出力部309から利用者に知らせることにより、別称登録による認識性能の低下を未然に防ぐことができる。例えば、上記した「神戸(かんべ)」ではなくて、一般的な神戸(こうべ)」が認識語彙として登録されているにも拘らず、「神戸」の別称として「こうべ」を登録した場合には、「神戸(かんべ)」と「神戸(こうべ)」の識別はできなくなるが、図5の音声認識装置では、このような問題を回避することができる。
【0052】
なお、別称登録部306により登録される別称に類似の認識語彙がない場合、例えば認識語彙「神戸(かんべ)」の別称として「こうべ」を登録する場合には、登録語彙類似性判定部307にて類似語彙がないものと判断されて別称登録が許可され、音声モデル作成・記憶部304には、認識語彙「神戸(かんべ)」の音声モデルとは別に、認識語彙「神戸(かんべ)」の別称「こうべ」の音声モデルが記憶される。この場合、「神戸(かんべ)」を誤って「こうべ」と発声しても、モデル照合部303で(音声モデル作成・記憶部304内の)「神戸(かんべ)」の別称の「こうべ」(の音声モデル)と照合されることで、「神戸(かんべ)」が認識される。
[第4の実施形態]
図6は本発明の第4の実施形態に係る音声認識装置の概略構成を示すブロック図である。
【0053】
図6の音声認識装置において、音声入力部401から入力された音声は、音響分析部402で特徴パラメータに変換される。音声認識に使用される代表的な特徴パラメータとしては、バンドパスフィルタやフーリエ変換によって求めることができるパワースペクトルや、LPC(線形予測)分析によって求めたケプストラム係数などがよく用いられるが、ここではその特徴パラメータの種類は問わない。
【0054】
音響分析部402は求めた入力音声の特徴パラメータ系列をモデル照合部403に出力する。モデル照合部403は、認識語彙入力部405から入力された認識語彙に従って予め作成して音声モデル作成・記憶部404に記憶しておいた認識対象とするキーワード(認識語彙を構成するキーワード)の各音声モデルと上記入力音声の特徴パラメータ系列との類似度あるいは距離を求める演算を行う。
【0055】
モデル照合部403の照合方法としては、音声モデルも特徴パラメータ系列で表現しておき、DP(動的計画)法で音声モデルの特徴パラメータ系列と入力音声の特徴パラメータ系列の距離を求める手法や、HMM(隠れマルコフモデル)を用いて音声モデルを表現しておき、入力音声の特徴パラメータ系列が入力されたときの各音声モデルの確率を計算する手法などが広く使用されているが、特に手法は問わない。
【0056】
キーワード別認識結果出力部406は、モデル照合部403で求めた各キーワードに対する類似度(あるいは距離)に従い、認識語彙入力部405から入力されて認識語彙記憶部407に記憶されている語彙を意味的に同じキーワード別にソーテイングし、類似度が最大(あるいは距離が最小)となる複数の語彙を認識結果として出力する。
【0057】
例えば、認識語彙記憶部407内に、認識語彙として「田中ホテル」、「佐藤ホテル」、「加籐ホテル」、「田中酒店」、「佐藤酒店」、「田中ガソリンスタンド」の6種類が登録されている場合に、音声認識するキーワードとして、「田中」「佐藤」「加籐」「ホテル」「酒店」、「ガソリンスタンド」の6つキーワードを考える。
【0058】
ここで、もし「田中ホテル」と発声された場合に、モデル照合部403にて得られる認識結果と類似度が図7に示すようになったものとする。この場合、キーワード別認識結果出力部406が、図8(b)に示すように、単純にキーワードが組み合わされた(認識語彙記憶部407に記憶されている語彙に一致する)キーワード列に対する類似度の和の大きい順に複数の候補を出力したのでは(従来の出力方式)、「ホテル」や「酒店」が混在しているため候補選択時にわかりにくいという問題がある。
【0059】
これに対して本実施形態では、キーワード別認識結果出力部406は、例えば業種を表すキーワードの類似度が予め定められた閾値以上となるキーワード列を、当該業種を表すキーワード別に出力する。例えば、類似度が100以上の業種を表すキーワード別(ここでは「ホテル」と「酒店」の各キーワード別)に表示すると、図8(a)のように表示することができ、視認性良く候補を表示することができる。
【0060】
このように本実施形態においては、キーワード別に複数の認識結果を類似度の大きい順(あるいは距離の小さい順)に出力することにより、候補選択を効率よく行うことができる。
[第5の実施形態]
図9は本発明の第5の実施形態に係る音声認識装置の概略構成を示すブロック図である。
【0061】
図9の音声認識装置において、音声入力部501から入力された音声は、音響分析部502で特徴パラメータに変換される。音声認識に使用される代表的な特徴パラメータとしては、バンドパスフィルタやフーリエ変換によって求めることができるパワースペクトルや、LPC(線形予測)分析によって求めたケプストラム係数などがよく用いられるが、ここではその特徴パラメータの種類は問わない。
【0062】
音響分析部502は求めた入力音声の特徴パラメータ系列をモデル照合部503に出力する。モデル照合部503は、認識語彙入力部505から入力された認識語彙に従って予め作成して音声モデル作成・記憶部504に記憶しておいた認識対象とするキーワードの各音声モデル(ここでは、認識語彙の別称の音声モデルを含む各認識語彙の音声モデル)と上記入力音声の特徴パラメータ系列の類似度あるいは距離を求める演算を行う。
【0063】
モデル照合部503の照合方法としては、音声モデルも特徴パラメータ系列で表現しておき、DP(動的計画)法で音声モデルの特徴パラメータ系列と入力音声の特徴パラメータ系列の距離を求める手法や、HMM(隠れマルコフモデル)を用いて音声モデルを表現しておき、入力音声の特徴パラメータ系列が入力されたときの各音声モデルの確率を計算する手法などが広く使用されているが、特に手法は問わない。
【0064】
認識語彙入力部505は、認識したい語彙とその読みを登録するためのものであり、キーボードやファイルなどで実現することができる。
一方、例えば登録したい地名として、認識語彙入力部505から「神戸(かんべ)」を登録する際に、「神戸」の読みとしては「こうべ」の方が一般的であり、「こうべ」と誤読される可能性が高いと判断した場合には、「神戸(かんべ)」の誤読されやすい読み、即ち別称として「こうべ」を別称登録部506から登録する。この別称登録部506を、例えばキーボードで構成して、利用者からの当該キーボードの操作により別称を登録(入力)するようにするしてもよいし、語彙からその読みを検索することができるテーブルを予め作成して別称登録部506に設けておき、複数の読みが存在する場合には、別称をそのテーブルから別称登録部506内部で自動生成(入力)する構成としてもよい。
【0065】
別称登録部506から認識語彙「神戸(かんべ)」の別称として「こうべ」を登録すると、音声モデル作成・記憶部504には、認識語彙「神戸(かんべ)」の音声モデルとは別に、認識語彙「神戸(かんべ)」の別称「こうべ」の音声モデルが記憶される。ここで、「こうべ」の音声モデルには、「神戸(かんべ)」の別称であることを示すフラグ情報が付される。
【0066】
そこで、「神戸(かんべ)」を誤って「こうべ」と発声しても、モデル照合部503で(音声モデル作成・記憶部504内の)「神戸(かんべ)」の別称の「こうべ」の音声モデルと照合されることで、「神戸(かんべ)」が認識される。ここで、「こうべ」の音声モデルには、上記したように「神戸(かんべ)」の別称であることを示すフラグ情報が付加されており、モデル照合部503で「こうべ」の音声モデルとの照合が行われた場合、その照合結果には当該フラグ情報が付されて認識結果出力部507に渡される。これにより認識結果出力部507は、モデル照合部503で認識されたキーワードは正しい読みでなくて別称であることを識別し、認識結果「神戸」に正しい読み「かんべ」を付加して、表示または音声で出力する。
【0067】
このように本実施形態においては、認識結果出力時に、正しい読みを出力することにより、話者が別称で覚えていた言葉の正しい読みを当該話者に覚えさせることができ、以後正しい読みで入力できるようになる。
[第6の実施形態]
図10は本発明の第6の実施形態に係る音声認識装置の概略構成を示すブロック図である。
【0068】
図10の音声認識装置において、音声入力部601から入力された音声は、音響分析部602で特徴パラメータに変換される。音声認識に使用される代表的な特徴パラメータとしては、バンドパスフィルタやフーリエ変換によって求めることができるパワースペクトルや、LPC(線形予測)分析によって求めたケプストラム係数などがよく用いられるが、ここではその特徴パラメータの種類は問わない。
【0069】
音響分析部602は求めた入力音声の特徴パラメータ系列をモデル照合部603に出力する。モデル照合部603は、認識語彙入力部605から入力された認識語彙の読み(仮名、カタカナ、あるいはローマ字などの表記で入力される認識語彙の読み)に従って予め作成して音声モデル作成・記憶部604に記憶しておいた認識対象とするキーワード(認識語彙を構成するキーワード)の各音声モデルと上記入力音声の特徴パラメータ系列との類似度あるいは距離を求める演算を行う。
【0070】
モデル照合部603の照合方法としては、音声モデルも特徴パラメータ系列で表現しておき、DP(動的計画)法で音声モデルの特徴パラメータ系列と入力音声の特徴パラメータ系列の距離を求める手法や、HMM(隠れマルコフモデル)を用いて音声モデルを表現しておき、入力音声の特徴パラメータ系列が入力されたときの各音声モデルの確率を計算する手法などが広く使用されているが、特に手法は問わない。
【0071】
音声出力部607は、認識語彙入力部605から認識語彙の読みが入力された際に、その読みを音声に変換して出力する。音声出力部607による音声出力は、例えば日本語の全ての音節について音声を記憶しておき、上記入力された読みに従って、記憶された音声を接続することにより実現することができる。
【0072】
例えば、認識語彙「竹芝」の読みとして認識語彙入力部605から誤って「たけしぱ」と入力したとすると、その誤った読み「たけしぱ」の音声モデルが音声モデル作成・記憶部604で作成・記憶されるため、認識時に「たけしば」と発声しても正しく認識できなくなる。
【0073】
これに対して本実施形態によれば、認識語彙入力部605から認識語彙「竹芝」の読みを登録するときに、誤って「たけしぱ」と入力すると、音声出力部607により「たけしぱ」と音声で出力してくれるので、話者(認識語彙登録者)は読みの入力間違いに容易に気づくことができ、読みの入力誤りによる認識性能の低下を未然に防ぐことができる。
【0074】
以上に述べた図1、図3、図5、図6、図9、図10の構成の音声認識装置の各部の機能は、コンピュータ、例えば内蔵型マイクロホンが組み込まれた、あるいはマイクロホン入力端子が設けられた音声入力機能を持つパーソナルコンピュータを、上記音声認識装置が持つ各処理部として機能させるためのプログラムを記録した、CD‐ROM、フロッピーディスク、メモリカード等の記録媒体を用い、当該記録媒体をパーソナルコンピュータに装着して、当該記録媒体に記録されているプログラムをパーソナルコンピュータで読み取り実行させることにより実現される。また、上記プログラムは、記録媒体に限らず、例えば通信回線からダウンロードされるものであっても構わない。
【0075】
以上詳述したように本発明によれば、認識語彙の読みの登録間違いや、装置使用時の読みの記憶違い、誤った読みでの発声等に起因する認識性能の低下を防ぐことができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る音声認識装置の概略構成を示すブロック図。
【図2】図1中のキーワード変換テーブル106aの内容例を示す図。
【図3】本発明の第2の実施形態に係る音声認識装置の概略構成を示すブロック図。
【図4】「あさひのあ」と発声された場合に図3中のモデル照合部203で得られる音節列と類似度の一例を示す図。
【図5】本発明の第3の実施形態に係る音声認識装置の概略構成を示すブロック図。
【図6】本発明の第4の実施形態に係る音声認識装置の概略構成を示すブロック図。
【図7】「田中ホテル」と発声された場合に図6中のモデル照合部403にて得られる各キーワードと類似度の一例を示す図。
【図8】図7の認識結果と類似度とに基づく認識結果表示例を従来方式の認識結果表示例と対比させて示す図。
【図9】本発明の第5の実施形態に係る音声認識装置の概略構成を示すブロック図。
【図10】本発明の第6の実施形態に係る音声認識装置の概略構成を示すブロック図。
【符号の説明】
101,201,301,401,501,601…音声入力部
102,202,302,402,502,602…音響分析部
103,203,303,403,503,603…モデル照合部
104,304,404,504,604…音声モデル作成・記憶部
105,305,405,505,605…認識語彙入力部
106…キーワード変換部
107…キーワード拡張部
108,205,308,507,606…認識結果出力部
109,407…認識語彙記憶部
204…音声モデル記憶部
206…制約条件記憶部
306,506…別称登録部
307…登録語彙類似性判定部
309…警告出力部
406…キーワード別認識結果出力部
607…音声出力部
Claims (3)
- 認識語彙の別称の音声モデルを含む各認識語彙の音声モデルと照合して、入力音声を認識する音声認識装置であって、
登録する認識語彙の本来の読みである第1の読みに加えて、当該認識語彙の前記本来の読みとは異なる別の読みである第2の読みを別称として登録する別称登録手段と、
前記別称登録手段により別称として登録される第2の読みが登録済みの認識語彙の第1の読みと類似しているか否かを判定する登録語彙類似性判定手段と、
前記登録語彙類似性判定手段により類似していると判定された場合に、その旨の警告を出力する警告出力手段と、
前記別称登録手段により別称として登録された第2の読みの音声モデルとの照合で入力音声が認識された場合、その第2の読みを別称とする語彙を認識する認識結果出力手段とを具備することを特徴とする音声認識装置。 - 前記認識結果出力手段は、別称として登録されている第2の読みを認識したときに、その第2の読みを別称とする語彙の第1の読みを利用者に提示することを特徴とする請求項1記載の音声認識装置。
- 入力音声を音響分析して求めた特徴パラメータ系列を予め作成しておいた、認識語彙の別称の音声モデルを含む各認識語彙の音声モデルと照合して、入力音声を認識する音声認識装置に適用される音声認識方法であって、
前記認識語彙の音声モデルを予め作成する際に、当該認識語彙の本来の読みである第1の読みに加えて、当該認識語彙の前記本来の読みとは異なる別の読みである第2の読みを別称として登録し、
前記別称としての第2の読みの登録時には、当該第2の読みが登録済みの認識語彙の第1の読みと類似しているか否かを判定し、
類似していると判定された場合、別称登録誤りを示す警告を出力し、
別称として登録された第2の読みの音声モデルとの照合で入力音声が認識された場合、
その第2の読みを別称とする語彙を認識することを特徴とする音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP08170097A JP3825526B2 (ja) | 1997-03-31 | 1997-03-31 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP08170097A JP3825526B2 (ja) | 1997-03-31 | 1997-03-31 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10274996A JPH10274996A (ja) | 1998-10-13 |
JP3825526B2 true JP3825526B2 (ja) | 2006-09-27 |
Family
ID=13753665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP08170097A Expired - Lifetime JP3825526B2 (ja) | 1997-03-31 | 1997-03-31 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3825526B2 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4550207B2 (ja) * | 2000-02-29 | 2010-09-22 | クラリオン株式会社 | 音声認識装置および音声認識ナビゲーション装置 |
JP4790956B2 (ja) * | 1999-09-29 | 2011-10-12 | ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー | 音声認識器における綴りモード |
US7031923B1 (en) | 2000-03-06 | 2006-04-18 | International Business Machines Corporation | Verbal utterance rejection using a labeller with grammatical constraints |
JP4363076B2 (ja) * | 2002-06-28 | 2009-11-11 | 株式会社デンソー | 音声制御装置 |
JP2007535692A (ja) * | 2004-03-09 | 2007-12-06 | ラオ、アシュウィン | 任意に話されたキャラクタのコンピュータによる認識及び解釈のためのシステム及び方法 |
US8279171B2 (en) | 2006-07-06 | 2012-10-02 | Panasonic Corporation | Voice input device |
JP2009116075A (ja) * | 2007-11-07 | 2009-05-28 | Xanavi Informatics Corp | 音声認識装置 |
JP5068225B2 (ja) * | 2008-06-30 | 2012-11-07 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声ファイルの検索システム、方法及びプログラム |
JP2011007862A (ja) * | 2009-06-23 | 2011-01-13 | Fujitsu Ltd | 音声認識装置、音声認識プログラム、および音声認識方法 |
JP6486789B2 (ja) * | 2015-07-22 | 2019-03-20 | 日本電信電話株式会社 | 音声認識装置、音声認識方法、プログラム |
JP6985967B2 (ja) * | 2018-03-27 | 2021-12-22 | フォルシアクラリオン・エレクトロニクス株式会社 | サーバ装置およびpoi読み方通知方法 |
JP2021097386A (ja) * | 2019-12-19 | 2021-06-24 | Necプラットフォームズ株式会社 | 発信制御システム、発信制御方法及び発信制御プログラム |
-
1997
- 1997-03-31 JP JP08170097A patent/JP3825526B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH10274996A (ja) | 1998-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7027985B2 (en) | Speech recognition method with a replace command | |
EP1936606B1 (en) | Multi-stage speech recognition | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
JP4816409B2 (ja) | 認識辞書システムおよびその更新方法 | |
JP5377430B2 (ja) | 質問応答データベース拡張装置および質問応答データベース拡張方法 | |
US6839667B2 (en) | Method of speech recognition by presenting N-best word candidates | |
JP4812029B2 (ja) | 音声認識システム、および、音声認識プログラム | |
US6618702B1 (en) | Method of and device for phone-based speaker recognition | |
US20020052742A1 (en) | Method and apparatus for generating and displaying N-best alternatives in a speech recognition system | |
JP5200712B2 (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
JP5824829B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP3803029B2 (ja) | 音声認識装置 | |
US20080154591A1 (en) | Audio Recognition System For Generating Response Audio by Using Audio Data Extracted | |
JP3825526B2 (ja) | 音声認識装置 | |
US8566091B2 (en) | Speech recognition system | |
US6963834B2 (en) | Method of speech recognition using empirically determined word candidates | |
JP4950024B2 (ja) | 会話システムおよび会話ソフトウェア | |
Hirschberg et al. | Generalizing prosodic prediction of speech recognition errors | |
JP3444108B2 (ja) | 音声認識装置 | |
JP3911178B2 (ja) | 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体 | |
JP2005275348A (ja) | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 | |
CN111078937B (zh) | 语音信息检索方法、装置、设备和计算机可读存储介质 | |
JP4236502B2 (ja) | 音声認識装置 | |
EP1055228A1 (en) | Speech operated automatic inquiry system | |
JP2003345384A (ja) | 音声認識装置、音声認識方法および音声認識プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20041029 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050628 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050824 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060627 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060630 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090707 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100707 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110707 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120707 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130707 Year of fee payment: 7 |
|
EXPY | Cancellation because of completion of term |