JP3825526B2

JP3825526B2 - 音声認識装置

Info

Publication number: JP3825526B2
Application number: JP08170097A
Authority: JP
Inventors: 康之正井; 信一田中
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1997-03-31
Filing date: 1997-03-31
Publication date: 2006-09-27
Anticipated expiration: 2017-03-31
Also published as: JPH10274996A

Description

【０００１】
【発明の属する技術分野】
本発明は、入力音声を音響分析して求めた特徴パラメータ系列を予め作成しておいた各認識語彙を構成するキーワードの音声モデルと照合して、入力音声を認識する音声認識装置に係り、特に認識語彙の読みの登録間違いや、装置使用時の読みの記憶違いによる誤認識を削減するのに好適な音声認識装置に関する。
【０００２】
【従来の技術】
一般に、入力音声を認識する音声認識装置では、当該装置での認識対象となる語彙（認識語彙）の読みを入力することで、その読みから、対応する認識語彙を構成するキーワードの音声モデルを予め作成し、入力音声の認識のため記憶しておくようになっている。この種の音声認識装置での入力音声の認識は、次のように行われる。
【０００３】
まず入力音声を音響分析して特徴パラメータ系列を求める。次に、求めた入力音声の特徴パラメータ系列を予め作成しておいた各認識語彙を構成するキーワードの音声モデルと照合して、入力音声を認識する。
【０００４】
このような音声認識装置においては、従来は、認識語彙の読みを誤って登録した場合には、使用時に正しい読みを発声しても正しく認識できないという問題があった。また、認識語彙の登録時には正しい読みを登録しておいても、使用時に誤った読みを発声すると正しく認識されないという問題もあった。
【０００５】
【発明が解決しようとする課題】
上記したように従来の音声認識装置では、認識語彙の読みを誤って登録すると、使用時に正しい読みを発声しても正しく認識できず、逆に認識語彙の登録時に正しい読みを登録しておいても、使用時に誤った読みを発声すると正しく認識されないという問題があった。
【０００６】
本発明は上記事情を考慮してなされたものでその目的は、認識語彙の読みの登録間違いや、装置使用時の読みの記憶違い、誤った読みでの発声等に起因する認識性能の低下を防ぐことができる音声認識装置を提供することにある。
【００１２】
【課題を解決するための手段】
本発明の１つの観点によれば、認識語彙の別称の音声モデルを含む各認識語彙の音声モデルと照合して、入力音声を認識する音声認識装置が提供される。この音声認識装置は、登録する認識語彙の第１の読みに加えて、異なる第２の読みを別称として登録する別称登録手段と、別称として登録される第２の読みが登録済みの認識語彙の第１の読みと類似しているか否かを判定する登録語彙類似性判定手段と、この登録語彙類似性判定手段により類似していると判定された場合に、その旨の警告を出力する警告出力手段と、上記別称登録手段により別称として登録された第２の読みの音声モデルとの照合で入力音声が認識された場合、その第２の読みを別称とする語彙を認識する認識結果出力手段とを備えたことを特徴とする。ここで、上記認識結果出力手段が、別称として登録されている第２の読みを認識したときに、その第２の読みを別称とする語彙の第１の読みが当該認識結果出力手段によって利用者に提示される構成とすると良い。
【００１３】
このような構成においては、認識語彙入力手段から入力して登録される認識語彙の読み（第１の読み）とは異なる読み（第２の読み）を別称として別称登録手段により登録する際に、この別称として登録される第２の読みが他の語彙の第１の読みと類似しているかを登録語彙類似性判定手段にて判定し、類似しているならば、その旨を警告出力手段から利用者に知らせることにより、別称登録による認識性能の低下を未然に防ぐことができる。このとき、該当する別称登録を中止させるとよい。また、別称として登録されている第２の読みの音声モデルとの照合で入力音声が認識された場合、その第２の読みを別称とする語彙を認識することにより、例えば「神戸（かんべ）」の別称として「神戸（こうべ）」が登録されている状態で、話者が一般的な読みである「神戸（こうべ）」と発声しても、認識結果として正しい「神戸（かんべ）」を得ることができる。この際、「神戸（こうべ）」（第２の読み）を別称とする語彙「神戸」の読み（第１の読み）「神戸（かんべ）」を話者に提示することにより、当該話者が別称で覚えていた言葉の正しい読みを当該話者に覚えさせることができ、以後正しい読みで入力できるようになる。
【００２０】
【発明の実施の形態】
以下、本発明の実施の形態につき図面を参照して説明する。
［第１の実施形態］
図１は本発明の第１の実施形態に係る音声認識装置の概略構成を示すブロック図である。
【００２１】
図１の音声認識装置において、音声入力部１０１から入力された音声は、音響分析部１０２で特徴パラメータに変換される。音声認識に使用される代表的な特徴パラメータとしては、バンドパスフィルタやフーリエ変換によって求めることができるパワースペクトルや、ＬＰＣ（線形予測）分析によって求めたケプストラム係数などがよく用いられるが、ここではその特徴パラメータの種類は問わない。
【００２２】
音響分析部１０２は求めた入力音声の特徴パラメータ系列をモデル照合部１０３に出力する。モデル照合部１０３は、認識語彙入力部１０５から入力された認識語彙に従って予め作成して音声モデル作成・記憶部１０４に記憶しておいた認識対象とするキーワード（認識語彙を構成するキーワード）の各音声モデルと上記入力音声の特徴パラメータ系列との類似度あるいは距離を求める演算を行う。
【００２３】
モデル照合部１０３の照合方法としては、音声モデルも特徴パラメータ系列で表現しておき、ＤＰ（動的計画）法で音声モデルの特徴パラメータ系列と入力音声の特徴パラメータ系列の距離を求める手法や、ＨＭＭ（隠れマルコフモデル）を用いて音声モデルを表現しておき、入力音声の特徴パラメータ系列が入力されたときの各音声モデルの確率を計算する手法などが広く使用されているが、特に手法は問わない。
【００２４】
認識語彙入力部１０５は、認識語彙と、認識語彙を構成する各キーワードの音声モデルを作成するために必要な、認識語彙の各キーワードへの分割情報（キーワード分割情報）と、各キーワードの読み情報とを入力するためのものであり、キーボードやファイルなどで実現することができる。認識語彙入力部１０５から入力された認識語彙は認識語彙記憶部１０９に登録される。
【００２５】
キーワード変換部１０６は、認識語彙入力部１０５から入力されたキーワード分割情報から各キーワードを抽出し、キーワード間の音の類似性と品詞などの属性に基づいて選択される、例えば音の類似性があって且つ品詞が同じキーワードの変換テーブル（キーワード変換テーブル）１０６ａを作成し、記憶しておくためのものである。
【００２６】
キーワード拡張部１０７は、モデル照合部１０３で得られた（類似度あるいは距離付きの）キーワードを、キーワード変換部１０６によりキーワード変換テーブル１０６ａに従って音の類似性のある他のキーワードに変換させ、キーワードの拡張を行う。
【００２７】
認識結果出力部１０８は、モデル照合部１０３で求めた各音声モデルとキーワード拡張部１０７で拡張して得られたキーワードが組み合わされたキーワード列に対する類似度（あるいは距離）をある条件（例えば類似度の大きさ）のもとでソーティングして、認識語彙記憶部１０９に記憶されている認識語彙の中で、類似度が最大（あるいは距離が最小）となる認識対象のカテゴリを認識結果として出力する。なお、上記ソーティングの制約として、例えば人の氏名は、会社名より優先させるなどを適用してもよい。
【００２８】
以上に述べた図１の構成の音声認識装置の具体的動作を、当該音声認識装置で認識対象とする語彙、即ち認識語彙が、「佐藤商店」、「加籐食堂」、「田中書店」の３種類である場合を例にとり説明する。
【００２９】
この場合、認識語彙入力部１０５から上記３種類の認識語彙が入力されることになるが、本実施形態では、その認識語彙を構成する各キーワードの音声モデルが（音声モデル作成・記憶部１０４にて）作成可能なように、「佐藤‐商店」、「加籐‐食堂」、「田中‐書店」のように、認識語彙中にキーワード分割記号（キーワード分割情報）「‐」が挿入されて入力される。
【００３０】
音声モデル作成・記憶部１０４は、認識語彙入力部１０５からキーワード分割記号「‐」が挿入された認識語彙「佐藤‐商店」、「加籐‐食堂」、「田中‐書店」が入力されると、各認識語彙について、その語彙中に挿入されたキーワード分割記号「‐」に従って、その語彙を構成するキーワードに分割する。ここでは、上記３種類の認識語彙が、「佐藤」、「加籐」、「田中」、「商店」、「食堂」、「書店」の６つのキーワードに分割される。音声モデル作成・記憶部１０４は、この６つのキーワード「佐藤」、「加籐」、「田中」、「商店」、「食堂」、「書店」について、それぞれ音声モデルを作成し、記憶する。
【００３１】
これと同時に、キーワード変換部１０６は、認識語彙入力部１０５から入力されたキーワード分割記号付きの認識語彙「佐藤‐商店」、「加籐‐食堂」、「田中‐書店」から得られる上記６つのキーワード「佐藤」、「加籐」、「田中」、「商店」、「食堂」、「書店」について音声の類似性を調べて、類似性のあるキーワードを抽出し、キーワード変換テーブル１０６ａを作成する。ここでは、キーワード変換テーブル１０６ａの作成規則を、キーワードの読みが異なる音節数が所定数以下、例えば１音節以下のキーワード同士を音声の類似性ありとして、当該テーブル１０６ａに登録するものとする。この場合、「佐藤」と「加藤」、「商店」と「書店」が類似性ありと抽出され、図２に示すようなキーワード変換テーブル１０６ａが作成される。
【００３２】
すると、音声認識時に、例えば「佐藤商店」と入力された場合に、モデル照合部１０３での照合結果が「佐藤」と「書店」であったとすると、キーワード拡張部１０７では、「佐藤」と「書店」について、キーワード変換部１０６によりキーワード変換テーブル１０６ａに従う「佐藤→加籐」、「書店→商店」のキーワード変換を行わせ、モデル照合部１０３での照合結果として「佐藤」と「書店」の他に、「加籐」と「商店」もあるかのように、キーワードの拡張を行う。
【００３３】
キーワード拡張部１０７により拡張されたキーワードの組み合わせの中には、認識語彙記憶部１０９に記憶されている認識語彙と一致するものとして、「佐藤商店」がある。したがって、モデル照合部１０３での照合結果が「佐藤」と「書店」であったにも拘らず、認識結果出力部１０８では、「佐藤商店」を正しく認識して出力することができる。
【００３４】
これに対し、キーワード変換部１０６とキーワード拡張部１０７がなく、キーワードの拡張が行われない場合には、モデル照合部１０３での照合結果である「佐藤」と「書店」で構成される「佐藤書店」は認識語彙記憶部１０９には存在しないので、「佐藤商店」を正しく認識することはできない。
【００３５】
なお、キーワード変換により得られたキーワードの音声モデルとの照合では、類似度を一定値あるいは一定割合低くするとよい。
以上は、話者が「佐藤商店」と発声したのに対して、モデル照合部１０３で「佐藤」「書店」と誤った照合結果が得られた場合でも、音の類似性に着目したキーワードの拡張により「佐藤商店」を正しく認識できる例について述べた。本実施形態では、同様にして、話者が「佐藤商店」を「佐藤書店」と言い間違った場合にも、音の類似性に着目したキーワードの拡張により「佐藤商店」を正しく認識することができる。
【００３６】
このように本実施形態においては、キーワードを音としての類似性に着目して拡張することにより、キーワードの認識誤りや話者の言い間違いによる認識性能の低下を効果的に防ぐことができる。
［第２の実施形態］
図３は本発明の第２の実施形態に係る音声認識装置の概略構成を示すブロック図である。
【００３７】
図３の音声認識装置において、音声入力部２０１から入力された音声は、音響分析部２０２で特徴パラメータに変換される。音声認識に使用される代表的な特徴パラメータとしては、バンドパスフィルタやフーリエ変換によって求めることができるパワースペクトルや、ＬＰＣ（線形予測）分析によって求めたケプストラム係数などがよく用いられるが、ここではその特徴パラメータの種類は問わない。
【００３８】
音響分析部２０２は求めた入力音声の特徴パラメータ系列をモデル照合部２０３に出力する。モデル照合部２０３は、音声モデル記憶部２０４に記憶されている全ての音節の任意の長さの音節列の音声モデルと特徴パラメータ系列の類似度あるいは距離を求める演算を行う。
【００３９】
モデル照合部２０３の照合方法としては、音声モデルも特徴パラメータ系列で表現しておき、ＤＰ（動的計画）法で音声モデルの特徴パラメータ系列と入力音声の特徴パラメータ系列の距離を求める手法や、ＨＭＭ（隠れマルコフモデル）を用いて音声モデルを表現しておき、入力音声の特徴パラメータ系列が入力されたときの各音声モデルの確率を計算する手法などが広く使用されているが、特に手法は問わない。
【００４０】
認識結果出力部２０５は、モデル照合部２０３での照合結果をもとに、制約条件記憶部２０６に記憶されている制約条件に従って、例えば先頭の音節と最後の音節が一致する音節列について、類似度（あるいは距離）をある条件のもとでソーティングして、類似度が最大（あるいは距離が最小）となる音節列の先頭の音節を認識結果として出力する。
【００４１】
以上に述べた図３の構成の音声認識装置の具体的動作を、例えば、「あさひ（朝日）のあ」と発声した場合を例にとり説明する。
まず、話者が「あさひ（朝日）のあ」と発声した結果、モデル照合部２０３にて図４に示すような音節列と類似度、即ち類似度が８６の音節列「あ」「さ」「ひ」「の」「あ」と、類似度が９２の音節列「う」「さ」「ひ」「の」「あ」とが得られたとする。
【００４２】
この場合、入力音声の先頭の音節と最後の音節が一致するという制約を設けないで、認識結果出力部２０５から類似度が最大となる音節列の先頭の音節を認識結果として出力するならば、入力音声の先頭の音節とは異なる誤った音節「う」が出力されることになる。
【００４３】
これに対して本実施形態では、制約条件記憶部２０６に記憶されている制約条件により、先頭と最後の音節が一致するという制約を設けてあるため、認識結果出力部２０５での認識結果は音節「あ」となり、入力音声の先頭の音節を正しく認識することができる。しかも、先頭と最後の音節が一致するという制約のもとで、入力音声の最初の音節を認識することから、この例のように音節「あ」を入力するときに発声する音声は、「朝日のあ」だけではなく、「あひるのあ」、更には「あじあ（アジア）」など、単に先頭の音節と最後の音節が同じであればよい。
【００４４】
このように本実施形態においては、入力音声の先頭の音節と最後の音節が一致するという制約のもとで入力音声の先頭の音節を認識することにより、非常に精度の高い音節認識を実現できる。また、各音節を入力するときに発声する言葉を覚える必要がないので、誰でもすぐに使用することができる。
［第３の実施形態］
図５は本発明の第３の実施形態に係る音声認識装置の概略構成を示すブロック図である。
【００４５】
図５の音声認識装置において、音声入力部３０１から入力された音声は、音響分析部３０２で特徴パラメータに変換される。音声認識に使用される代表的な特徴パラメータとしては、バンドパスフィルタやフーリエ変換によって求めることができるパワースペクトルや、ＬＰＣ（線形予測）分析によって求めたケプストラム係数などがよく用いられるが、ここではその特徴パラメータの種類は問わない。
【００４６】
音響分析部３０２は求めた入力音声の特徴パラメータ系列をモデル照合部２０３に出力する。モデル照合部３０３は、認識語彙入力部３０５から入力された認識語彙に従って予め作成して音声モデル作成・記憶部３０４に記憶しておいた認識対象とするキーワードの各音声モデルと上記入力音声の特徴パラメータ系列との類似度あるいは距離を求める演算を行う。
【００４７】
モデル照合部３０３の照合方法としては、音声モデルも特徴パラメータ系列で表現しておき、ＤＰ（動的計画）法で音声モデルの特徴パラメータ系列と入力音声の特徴パラメータ系列の距離を求める手法や、ＨＭＭ（隠れマルコフモデル）を用いて音声モデルを表現しておき、入力音声の特徴パラメータ系列が入力されたときの各音声モデルの確率を計算する手法などが広く使用されているが、特に手法は問わない。
【００４８】
認識結果出力部３０８は、モデル照合部３０３で求めた各認識語彙に対する類似度が最大（あるいは距離が最小）となる語彙を認識結果として出力する。
認識語彙入力部３０５は、認識したい語彙とその読みを登録するためのものであり、キーボードやファイルなどで実現することができる。
【００４９】
一方、例えば登録したい地名として、認識語彙入力部３０５から「神戸（かんべ）」を登録する際に、「神戸」の読みとしては「こうべ」の方が一般的であり、「こうべ」と誤読される可能性が高いと判断した場合には、「神戸（かんべ）」の誤読されやすい読み、即ち別称として「こうべ」を別称登録部３０６から登録する。この別称登録部３０６を、例えばキーボードで構成して、利用者からの当該キーボードの操作により別称を登録（入力）するようにするしてもよいし、語彙からその読みを検索することができるテーブルを予め作成して別称登録部３０６に設けておき、複数の読みが存在する場合には、別称をそのテーブルから別称登録部３０６内部で自動生成（入力）する構成としてもよい。
【００５０】
登録語彙類似性判定部３０７は、認識語彙入力部３０５から登録された全ての語彙の読みと別称登録部３０６での別称登録により登録される読みとの類似性を判断する。もし、別称登録される読みとの類似性のある（読みが登録された）語彙が存在する場合には、登録語彙類似性判定部３０７は警告出力部３０９により利用者に警告したり、別称の登録の中止を行う。この登録語彙類似性判定部３０７での読みの類似性の判定には、例えば読みの音節の相違が１音節以下などの条件が適用可能である。
【００５１】
このように本実施形態においては、認識語彙入力部３０５から入力して登録される認識語彙の別称を別称登録部３０６により登録する際に、別称が他の語彙と類似していないかを登録語彙類似性判定部３０７にて判断し、警告出力部３０９から利用者に知らせることにより、別称登録による認識性能の低下を未然に防ぐことができる。例えば、上記した「神戸（かんべ）」ではなくて、一般的な神戸（こうべ）」が認識語彙として登録されているにも拘らず、「神戸」の別称として「こうべ」を登録した場合には、「神戸（かんべ）」と「神戸（こうべ）」の識別はできなくなるが、図５の音声認識装置では、このような問題を回避することができる。
【００５２】
なお、別称登録部３０６により登録される別称に類似の認識語彙がない場合、例えば認識語彙「神戸（かんべ）」の別称として「こうべ」を登録する場合には、登録語彙類似性判定部３０７にて類似語彙がないものと判断されて別称登録が許可され、音声モデル作成・記憶部３０４には、認識語彙「神戸（かんべ）」の音声モデルとは別に、認識語彙「神戸（かんべ）」の別称「こうべ」の音声モデルが記憶される。この場合、「神戸（かんべ）」を誤って「こうべ」と発声しても、モデル照合部３０３で（音声モデル作成・記憶部３０４内の）「神戸（かんべ）」の別称の「こうべ」（の音声モデル）と照合されることで、「神戸（かんべ）」が認識される。
［第４の実施形態］
図６は本発明の第４の実施形態に係る音声認識装置の概略構成を示すブロック図である。
【００５３】
図６の音声認識装置において、音声入力部４０１から入力された音声は、音響分析部４０２で特徴パラメータに変換される。音声認識に使用される代表的な特徴パラメータとしては、バンドパスフィルタやフーリエ変換によって求めることができるパワースペクトルや、ＬＰＣ（線形予測）分析によって求めたケプストラム係数などがよく用いられるが、ここではその特徴パラメータの種類は問わない。
【００５４】
音響分析部４０２は求めた入力音声の特徴パラメータ系列をモデル照合部４０３に出力する。モデル照合部４０３は、認識語彙入力部４０５から入力された認識語彙に従って予め作成して音声モデル作成・記憶部４０４に記憶しておいた認識対象とするキーワード（認識語彙を構成するキーワード）の各音声モデルと上記入力音声の特徴パラメータ系列との類似度あるいは距離を求める演算を行う。
【００５５】
モデル照合部４０３の照合方法としては、音声モデルも特徴パラメータ系列で表現しておき、ＤＰ（動的計画）法で音声モデルの特徴パラメータ系列と入力音声の特徴パラメータ系列の距離を求める手法や、ＨＭＭ（隠れマルコフモデル）を用いて音声モデルを表現しておき、入力音声の特徴パラメータ系列が入力されたときの各音声モデルの確率を計算する手法などが広く使用されているが、特に手法は問わない。
【００５６】
キーワード別認識結果出力部４０６は、モデル照合部４０３で求めた各キーワードに対する類似度（あるいは距離）に従い、認識語彙入力部４０５から入力されて認識語彙記憶部４０７に記憶されている語彙を意味的に同じキーワード別にソーテイングし、類似度が最大（あるいは距離が最小）となる複数の語彙を認識結果として出力する。
【００５７】
例えば、認識語彙記憶部４０７内に、認識語彙として「田中ホテル」、「佐藤ホテル」、「加籐ホテル」、「田中酒店」、「佐藤酒店」、「田中ガソリンスタンド」の６種類が登録されている場合に、音声認識するキーワードとして、「田中」「佐藤」「加籐」「ホテル」「酒店」、「ガソリンスタンド」の６つキーワードを考える。
【００５８】
ここで、もし「田中ホテル」と発声された場合に、モデル照合部４０３にて得られる認識結果と類似度が図７に示すようになったものとする。この場合、キーワード別認識結果出力部４０６が、図８（ｂ）に示すように、単純にキーワードが組み合わされた（認識語彙記憶部４０７に記憶されている語彙に一致する）キーワード列に対する類似度の和の大きい順に複数の候補を出力したのでは（従来の出力方式）、「ホテル」や「酒店」が混在しているため候補選択時にわかりにくいという問題がある。
【００５９】
これに対して本実施形態では、キーワード別認識結果出力部４０６は、例えば業種を表すキーワードの類似度が予め定められた閾値以上となるキーワード列を、当該業種を表すキーワード別に出力する。例えば、類似度が１００以上の業種を表すキーワード別（ここでは「ホテル」と「酒店」の各キーワード別）に表示すると、図８（ａ）のように表示することができ、視認性良く候補を表示することができる。
【００６０】
このように本実施形態においては、キーワード別に複数の認識結果を類似度の大きい順（あるいは距離の小さい順）に出力することにより、候補選択を効率よく行うことができる。
［第５の実施形態］
図９は本発明の第５の実施形態に係る音声認識装置の概略構成を示すブロック図である。
【００６１】
図９の音声認識装置において、音声入力部５０１から入力された音声は、音響分析部５０２で特徴パラメータに変換される。音声認識に使用される代表的な特徴パラメータとしては、バンドパスフィルタやフーリエ変換によって求めることができるパワースペクトルや、ＬＰＣ（線形予測）分析によって求めたケプストラム係数などがよく用いられるが、ここではその特徴パラメータの種類は問わない。
【００６２】
音響分析部５０２は求めた入力音声の特徴パラメータ系列をモデル照合部５０３に出力する。モデル照合部５０３は、認識語彙入力部５０５から入力された認識語彙に従って予め作成して音声モデル作成・記憶部５０４に記憶しておいた認識対象とするキーワードの各音声モデル（ここでは、認識語彙の別称の音声モデルを含む各認識語彙の音声モデル）と上記入力音声の特徴パラメータ系列の類似度あるいは距離を求める演算を行う。
【００６３】
モデル照合部５０３の照合方法としては、音声モデルも特徴パラメータ系列で表現しておき、ＤＰ（動的計画）法で音声モデルの特徴パラメータ系列と入力音声の特徴パラメータ系列の距離を求める手法や、ＨＭＭ（隠れマルコフモデル）を用いて音声モデルを表現しておき、入力音声の特徴パラメータ系列が入力されたときの各音声モデルの確率を計算する手法などが広く使用されているが、特に手法は問わない。
【００６４】
認識語彙入力部５０５は、認識したい語彙とその読みを登録するためのものであり、キーボードやファイルなどで実現することができる。
一方、例えば登録したい地名として、認識語彙入力部５０５から「神戸（かんべ）」を登録する際に、「神戸」の読みとしては「こうべ」の方が一般的であり、「こうべ」と誤読される可能性が高いと判断した場合には、「神戸（かんべ）」の誤読されやすい読み、即ち別称として「こうべ」を別称登録部５０６から登録する。この別称登録部５０６を、例えばキーボードで構成して、利用者からの当該キーボードの操作により別称を登録（入力）するようにするしてもよいし、語彙からその読みを検索することができるテーブルを予め作成して別称登録部５０６に設けておき、複数の読みが存在する場合には、別称をそのテーブルから別称登録部５０６内部で自動生成（入力）する構成としてもよい。
【００６５】
別称登録部５０６から認識語彙「神戸（かんべ）」の別称として「こうべ」を登録すると、音声モデル作成・記憶部５０４には、認識語彙「神戸（かんべ）」の音声モデルとは別に、認識語彙「神戸（かんべ）」の別称「こうべ」の音声モデルが記憶される。ここで、「こうべ」の音声モデルには、「神戸（かんべ）」の別称であることを示すフラグ情報が付される。
【００６６】
そこで、「神戸（かんべ）」を誤って「こうべ」と発声しても、モデル照合部５０３で（音声モデル作成・記憶部５０４内の）「神戸（かんべ）」の別称の「こうべ」の音声モデルと照合されることで、「神戸（かんべ）」が認識される。ここで、「こうべ」の音声モデルには、上記したように「神戸（かんべ）」の別称であることを示すフラグ情報が付加されており、モデル照合部５０３で「こうべ」の音声モデルとの照合が行われた場合、その照合結果には当該フラグ情報が付されて認識結果出力部５０７に渡される。これにより認識結果出力部５０７は、モデル照合部５０３で認識されたキーワードは正しい読みでなくて別称であることを識別し、認識結果「神戸」に正しい読み「かんべ」を付加して、表示または音声で出力する。
【００６７】
このように本実施形態においては、認識結果出力時に、正しい読みを出力することにより、話者が別称で覚えていた言葉の正しい読みを当該話者に覚えさせることができ、以後正しい読みで入力できるようになる。
［第６の実施形態］
図１０は本発明の第６の実施形態に係る音声認識装置の概略構成を示すブロック図である。
【００６８】
図１０の音声認識装置において、音声入力部６０１から入力された音声は、音響分析部６０２で特徴パラメータに変換される。音声認識に使用される代表的な特徴パラメータとしては、バンドパスフィルタやフーリエ変換によって求めることができるパワースペクトルや、ＬＰＣ（線形予測）分析によって求めたケプストラム係数などがよく用いられるが、ここではその特徴パラメータの種類は問わない。
【００６９】
音響分析部６０２は求めた入力音声の特徴パラメータ系列をモデル照合部６０３に出力する。モデル照合部６０３は、認識語彙入力部６０５から入力された認識語彙の読み（仮名、カタカナ、あるいはローマ字などの表記で入力される認識語彙の読み）に従って予め作成して音声モデル作成・記憶部６０４に記憶しておいた認識対象とするキーワード（認識語彙を構成するキーワード）の各音声モデルと上記入力音声の特徴パラメータ系列との類似度あるいは距離を求める演算を行う。
【００７０】
モデル照合部６０３の照合方法としては、音声モデルも特徴パラメータ系列で表現しておき、ＤＰ（動的計画）法で音声モデルの特徴パラメータ系列と入力音声の特徴パラメータ系列の距離を求める手法や、ＨＭＭ（隠れマルコフモデル）を用いて音声モデルを表現しておき、入力音声の特徴パラメータ系列が入力されたときの各音声モデルの確率を計算する手法などが広く使用されているが、特に手法は問わない。
【００７１】
音声出力部６０７は、認識語彙入力部６０５から認識語彙の読みが入力された際に、その読みを音声に変換して出力する。音声出力部６０７による音声出力は、例えば日本語の全ての音節について音声を記憶しておき、上記入力された読みに従って、記憶された音声を接続することにより実現することができる。
【００７２】
例えば、認識語彙「竹芝」の読みとして認識語彙入力部６０５から誤って「たけしぱ」と入力したとすると、その誤った読み「たけしぱ」の音声モデルが音声モデル作成・記憶部６０４で作成・記憶されるため、認識時に「たけしば」と発声しても正しく認識できなくなる。
【００７３】
これに対して本実施形態によれば、認識語彙入力部６０５から認識語彙「竹芝」の読みを登録するときに、誤って「たけしぱ」と入力すると、音声出力部６０７により「たけしぱ」と音声で出力してくれるので、話者（認識語彙登録者）は読みの入力間違いに容易に気づくことができ、読みの入力誤りによる認識性能の低下を未然に防ぐことができる。
【００７４】
以上に述べた図１、図３、図５、図６、図９、図１０の構成の音声認識装置の各部の機能は、コンピュータ、例えば内蔵型マイクロホンが組み込まれた、あるいはマイクロホン入力端子が設けられた音声入力機能を持つパーソナルコンピュータを、上記音声認識装置が持つ各処理部として機能させるためのプログラムを記録した、ＣＤ‐ＲＯＭ、フロッピーディスク、メモリカード等の記録媒体を用い、当該記録媒体をパーソナルコンピュータに装着して、当該記録媒体に記録されているプログラムをパーソナルコンピュータで読み取り実行させることにより実現される。また、上記プログラムは、記録媒体に限らず、例えば通信回線からダウンロードされるものであっても構わない。
【００７５】
以上詳述したように本発明によれば、認識語彙の読みの登録間違いや、装置使用時の読みの記憶違い、誤った読みでの発声等に起因する認識性能の低下を防ぐことができる。
【図面の簡単な説明】
【図１】本発明の第１の実施形態に係る音声認識装置の概略構成を示すブロック図。
【図２】図１中のキーワード変換テーブル１０６ａの内容例を示す図。
【図３】本発明の第２の実施形態に係る音声認識装置の概略構成を示すブロック図。
【図４】「あさひのあ」と発声された場合に図３中のモデル照合部２０３で得られる音節列と類似度の一例を示す図。
【図５】本発明の第３の実施形態に係る音声認識装置の概略構成を示すブロック図。
【図６】本発明の第４の実施形態に係る音声認識装置の概略構成を示すブロック図。
【図７】「田中ホテル」と発声された場合に図６中のモデル照合部４０３にて得られる各キーワードと類似度の一例を示す図。
【図８】図７の認識結果と類似度とに基づく認識結果表示例を従来方式の認識結果表示例と対比させて示す図。
【図９】本発明の第５の実施形態に係る音声認識装置の概略構成を示すブロック図。
【図１０】本発明の第６の実施形態に係る音声認識装置の概略構成を示すブロック図。
【符号の説明】
１０１，２０１，３０１，４０１，５０１，６０１…音声入力部
１０２，２０２，３０２，４０２，５０２，６０２…音響分析部
１０３，２０３，３０３，４０３，５０３，６０３…モデル照合部
１０４，３０４，４０４，５０４，６０４…音声モデル作成・記憶部
１０５，３０５，４０５，５０５，６０５…認識語彙入力部
１０６…キーワード変換部
１０７…キーワード拡張部
１０８，２０５，３０８，５０７，６０６…認識結果出力部
１０９，４０７…認識語彙記憶部
２０４…音声モデル記憶部
２０６…制約条件記憶部
３０６，５０６…別称登録部
３０７…登録語彙類似性判定部
３０９…警告出力部
４０６…キーワード別認識結果出力部
６０７…音声出力部

Claims

認識語彙の別称の音声モデルを含む各認識語彙の音声モデルと照合して、入力音声を認識する音声認識装置であって、
登録する認識語彙の本来の読みである第１の読みに加えて、当該認識語彙の前記本来の読みとは異なる別の読みである第２の読みを別称として登録する別称登録手段と、
前記別称登録手段により別称として登録される第２の読みが登録済みの認識語彙の第１の読みと類似しているか否かを判定する登録語彙類似性判定手段と、
前記登録語彙類似性判定手段により類似していると判定された場合に、その旨の警告を出力する警告出力手段と、
前記別称登録手段により別称として登録された第２の読みの音声モデルとの照合で入力音声が認識された場合、その第２の読みを別称とする語彙を認識する認識結果出力手段とを具備することを特徴とする音声認識装置。
前記認識結果出力手段は、別称として登録されている第２の読みを認識したときに、その第２の読みを別称とする語彙の第１の読みを利用者に提示することを特徴とする請求項１記載の音声認識装置。
入力音声を音響分析して求めた特徴パラメータ系列を予め作成しておいた、認識語彙の別称の音声モデルを含む各認識語彙の音声モデルと照合して、入力音声を認識する音声認識装置に適用される音声認識方法であって、
前記認識語彙の音声モデルを予め作成する際に、当該認識語彙の本来の読みである第１の読みに加えて、当該認識語彙の前記本来の読みとは異なる別の読みである第２の読みを別称として登録し、
前記別称としての第２の読みの登録時には、当該第２の読みが登録済みの認識語彙の第１の読みと類似しているか否かを判定し、
類似していると判定された場合、別称登録誤りを示す警告を出力し、
別称として登録された第２の読みの音声モデルとの照合で入力音声が認識された場合、
その第２の読みを別称とする語彙を認識することを特徴とする音声認識方法。