JP3542026B2

JP3542026B2 - 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体

Info

Publication number: JP3542026B2
Application number: JP2000133973A
Authority: JP
Inventors: 和郎根本
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2000-05-02
Filing date: 2000-05-02
Publication date: 2004-07-14
Anticipated expiration: 2020-05-02
Also published as: US20010039492A1; US6968310B2; JP2001312296A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識システムまたは音声認識方法に関する。特に、複数の読みがある文字、単語等の認識精度の向上に適用して有効なものである。
【０００２】
【従来の技術】
たとえば、「ＶｉａＶｏｉｃｅ（商標）」等の音声認識システムにおいては、マイクロフォン、ヘッドセット等の入力デバイスにより入力された音声を音素に分解し、この解析された音素とデータベースに蓄積された音素とを対比して入力音声に対応する文字、単語等を抽出して音声認識を行っている。ここで、データベースに蓄積されている音素は個別独立的に記録されるのではなく、一定の規則に則った文法に関連付けて記録される。すなわち、たとえば図９（ａ）に示すように、４桁の数字を認識する場合には、＜ｄｉｇｉｔｓ＞として４桁の＜ｎｕｍ１＞を定義し、＜ｎｕｍ１＞には０〜９のアラビア数字が入り得ることを規定する。このような文法定義の下に、図９（ｂ）に示すように、音素表記表を定義する。つまり、「０」には「ｒｅｅ」（れえ）、「ｒｅｅ：」（れー）、「ｒｅｉ」（れい）、「ｚｅｒｏ」（ぜろ）の４つの音素が対応し、「１」には「ｉｃｈｉ」（いち）の１つの音素を対応させる。その他同様に数字「２」には３音素が、「３」には１音素が、「４」には４音素が対応し、「５」以下の各数字も同様である。図９（ａ）の文法に図９（ｂ）の音素表記を適用した例を図９（ｃ）に示す。図９（ｃ）の文法および音素表記が実用的なベースフォームとして用いられる。
【０００３】
＜ｄｉｇｉｔｓ＞に対応した入力音声がたとえば「ぜろいちにーさん」であれば、この音声を音素列に分けて「ぜろ」（ｚｅｒｏ）、「いち」（ｉｃｈｉ）、「にー」（ｎｉｉ：）、「さん」（ｓａ＿ｎ）が得られ、各音素列に対応する数字「０」、「１」、「２」、「３」が音素対応表から得られる。各数字は文法定義に当てはめられ、認識結果の＜ｄｉｇｉｔｓ＞として「０１２３」の４文字が得られる。
【０００４】
なお、「ＶｉａＶｏｉｃｅ（商標）」等の音声認識システムでは、エンロールメントと称される処理で入力音声の個人的相違を検出し、その個人に適合した音響特性を学習して認識精度を向上する手法が適用されている。
【０００５】
【発明が解決しようとする課題】
ところが、たとえば日本語数字の読み上げを考えた場合、数字音声認識の認識精度は必ずしも高いとはいえない。その原因として、以下のような事項が考えられる。
【０００６】
まず、「いち」「に」「さん」等、日本語数字は概して単語長が短く、音の冗長性が少ないことが挙げられる。短い音の音素間にはその相違が少なく、認識における音素の取り違えが発生しやすい。日本語数字では「に」「し」「ご」「く」等の一音節のものもあり、音の冗長性の少なさは特に顕著である。
【０００７】
次に、ひとつの数字に複数の読みが与えられていることが挙げられる。たとえば、「０」という数字には「ぜろ」「れい」「まる」等の読みが与えられ、「４」という数字には「し」「よん」等、「７」という数字には「なな」「しち」等、「９」という数字には「きゅう」「く」という読みが与えられる。複数の読みが与えられると認識すべき音素の候補が多くなり、誤認識を誘発する確率が高くなる。
【０００８】
また、異なる数字との間に類似する音素のものが多い点が挙げられる。たとえば「しち」（７）という音素と「いち」（１）という音素と「はち」（８）という音素は互いに類似しており、「し」（４）という音素と「しち」（７）という音素が類似する。また、「に」（２）、「し」（４）とうい音素間も類似し、「さん」（３）、「よん」（４）間も類似する。これら互いに類似する音素間では、その音の類似性により音素の識別が難しくなり、音の取り違えによる誤認識を生ずる確率が高くなる。特に電話等を介した音声識別では、入力音の低周波成分が少なくなり、低周波成分での識別が必要となるイ段の音の聞き分けが困難になる状況が生じ、この問題が顕著になる。
【０００９】
さらに、必ずしも長母音が付くとは限らない長母音付き一音節の発音では、繰り返しが識別し難くなる問題がある。たとえば「に」「にー」「にーにー」あるいは「ご」「ごー」「ごーごー」等である。特に通常は「ごー」と発音される「５」の文字が、「７５３」の場合には「しちごさん」と発音されたり、「３５８」の場合には「さんごっぱ」と発音されたりして「ごー」が「ご」あるいは「ごっ」と短母音化することがあり、かえって問題を複雑にしている。
【００１０】
ところで、数字の音声認識は、たとえば電話による取引等のビジネスの場面を考えた場合、会員番号や商品選択等の入力に多用されることが想定され、ビジネスへの展開を考慮した場合には、特に数字の音声認識精度の向上が強く求められている。
【００１１】
なお、前記エンロールメントでは、音響特性を個人に適合させて認識精度を向上することがある程度可能であるが、入力される音素自体が類似する場合や音素に冗長性がない前記のような場合には認識精度の更なる向上には自ずと限界がある。
【００１２】
本発明の目的は、音声認識における認識精度をさらに向上することにある。特に複数の読みが与えられてる文字、単語等の認識精度を向上することにある。
【００１３】
また、本発明の他の目的は、冗長性の少ない音たとえば日本語における数字や、異なる文字あるいは単語に類似の音が与えられている文字等の認識精度を向上することにある。
【００１４】
本発明のさらに他の目的は、長母音付き一音節文字が短母音化されて繰り返される場合の認識精度を向上することにある。
【００１５】
【課題を解決するための手段】
本願発明は、同一人物は一回の同一会話内で一定して同じ読みを維持するという本発明者らによる知見を活用するものである。つまり、たとえば「７」を「しち」と発音した人物は、その会話内で一貫して「しち」と発音し続ける傾向がある。この傾向を活用して、会話における１回目の応答においてその人物が使わない読みに対応する音素列を認識候補からはずす、またはその認識確率を下げ、２回目以降の認識を実行するものである。
【００１６】
すなわち、本願発明の音声認識システムは、認識単語とそれを発音表記する音素列との対応が記録された対応情報を有し、入力された音声から生成される音素列と前記対応情報内の音素列との対比によって、前記音声から一以上の認識単語を認識する音声認識システムであって、同一人物の一定期間内の会話において、既に行われた認識処理で認識された音素列に対する認識単語に複数の音素列が対応付けられて記録されている場合、前記複数の音素列のうち前記認識された音素列と異なる少なくとも１つの音素列の発声予想確率を低下させるものである。また、本願発明の音声認識方法は、同一人物の一定期間内の会話において、第１音声を入力し、前記第１音声から音素列を生成するステップと、認識単語とそれを発音表記する音素列との対応が記録された対応情報を検索し、前記第１音声で生成された音素列と前記対応情報内の音素列との対比から一以上の認識単語を生成するステップと、認識された音素列に対応する認識単語に複数の音素列が対応付けられて記録されている場合、前記複数の音素列のうち前記認識された音素列と異なる少なくとも１つの音素列の発声予想確率を低下させるステップと、第２音声を入力し、前記第２音声から音素列を生成するステップと、前記音素列の発声予想確率を低下させた対応情報を検索し、前記第２音声で生成された音素列と前記対応情報内の音素列との対比から一以上の認識単語を生成するステップとを含む。これにより２回目以降の誤認識の確率を低下して認識精度を向上できる。
【００１７】
なお、前記認識単語には字、詞または単語を含めることができ、前記対応情報には、前記認識単語が所定の規則で配列される文法情報を含めることができる。また、前記認識単語は、日本語または英語の数字、数詞または数を表す単語とすることができる。このような数字の認識において本願発明の効果は特に著しい。
【００１８】
なお、認識された音素列に対応する認識単語に複数の音素列が対応付けられて記録されている場合、前記複数の音素列のうち前記認識された音素列と異なる少なくとも１つの音素列の発声予想確率を低下させる態様については、前記認識された音素列と異なる音素列を前記対応情報から除外し、発声予想確率をゼロにする態様も含まれる。
【００１９】
また、同一の前記認識単語を発音表記する異なる音素列について、予め測定された発声予想確率に適合する数の前記音素列とそれに対応する前記認識単語とを前記対応情報に含めることができる。これによりさらに認識精度を高めることができる。
【００２０】
また、前記一定期間は、連続した会話内の期間または当日内の複数の会話を含む期間とすることができる。発音者の発音傾向は１日単位等の短時間特に同一会話内では維持される傾向が強い。しかし、逆に時間が経過した後には発音者の発音傾向が変化することもある。このような場合本願発明では長時間の同一発音者の発音傾向を維持することなく、前記一定期間が経過した後には認識に用いる前記情報を初期状態に戻すことができる。このような操作が可能なのは、本願発明がたとえば１会話内のその場限りの学習という手法を採用する効果に基づくものである。
【００２１】
なお、前記一定期間内の会話が連続した会話でない場合には、パスワード、会員番号、発呼側電話番号、音声を解析して話者を特定する手法、またはこれらの組み合わせで、話者を特定する手法を用いることができる。
【００２２】
また、認識された一以上の認識単語のうちの少なくとも一部を話者に照会して前記一以上の認識単語の認識に誤りがあるか否かを判断し、前記誤りが認められたときには、前記一以上の認識単語をそれが誤認識されやすい一以上の認識単語に置換することができる。このような手段または方法をとることによりたとえばチェックディジットつきの長い数字の連続発声の認識精度を向上できる。
【００２３】
また、認識された前記一以上の認識単語の数が前記認識システムにおいて予め登録された数に一致しなかったときには、前記認識された一以上の認識単語のうち長母音一音節を有する音素に対応する認識単語を、前記長母音に対応する短母音音素に対応する認識単語の繰り返しに置換する、または、前記認識された一以上の単語のうち短母音一音節を有する音素に対応する認識単語の繰り返しを、前記短母音に対応する長母音音素に対応する認識単語に置換することができる。このような手段または方法を備えることにより長母音一音節で与えられる文字等が短母音化されて繰り返される場合、あるいは短母音の繰り返しで与えられる文字等が長母音一音節の文字等と誤認される場合の認識精度を向上できる。
【００２４】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づいて詳細に説明する。ただし、本発明は多くの異なる態様で実施することが可能であり、本実施の形態の記載内容に限定して解釈すべきではない。なお、実施の形態の全体を通して同じ要素には同じ番号を付するものとする。
【００２５】
以下の実施の形態では、主に方法またはシステムについて説明するが、当業者であれば明らかなとおり、本発明は方法、システムの他、コンピュータで使用可能なプログラムコードが記録された媒体としても実施できる。したがって、本発明は、ハードウェアとしての実施形態、ソフトウェアとしての実施形態またはソフトウェアとハードウェアとの組合せの実施形態をとることができる。プログラムコードが記録された媒体としては、ハードディスク、ＣＤ−ＲＯＭ、光記憶装置または磁気記憶装置を含む任意のコンピュータ可読媒体を例示できる。
【００２６】
本実施の形態で利用できるコンピュータシステムには、中央演算処理装置（ＣＰＵ）、主記憶装置（メインメモリ：ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ））、不揮発性記憶装置（ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ））等を有し、これらがバスで相互に接続される。バスには、その他コプロセッサ、画像アクセラレータ、キャッシュメモリ、入出力制御装置（Ｉ／Ｏ）等が接続される。バスには、適当なインターフェイスを介して外部記憶装置、データ入力デバイス、表示デバイス、通信制御装置等が接続されてもよい。その他、一般的にコンピュータシステムに備えられるハードウェア資源を備えることが可能なことは言うまでもない。外部記憶装置は代表的にはハードディスク装置が例示できるが、これに限られず、光磁気記憶装置、光記憶装置、フラッシュメモリ等半導体記憶装置も含まれる。なお、データの読み出しのみに利用できるＣＤ−ＲＯＭ等の読み出し専用記憶装置もデータあるいはプログラムの読み出しにのみ適用する場合には外部記憶装置に含まれる。データ入力デバイスには、キーボード等の入力装置、マウス等ポインティングデバイスを備えることができる。データ入力デバイスには音声入力装置も含む。表示装置としては、ＣＲＴ、液晶表示装置、プラズマ表示装置が例示できる。本実施の形態のコンピュータシステムには、パーソナルコンピュータ、ワークステーション、メインフレームコンピュータ等各種のコンピュータが含まれる。
【００２７】
各コンピュータシステムで利用されるプログラムは、他のコンピュータシステムに記録されていても良い。つまり、コンピュータシステムで利用する一部のプログラムをリモートコンピュータで分散的に処理または実行できる。なお、他のコンピュータシステムに記録されたプログラムをアドレスで参照する場合には、ＤＮＳ、ＵＲＬ等を用ることができる。
【００２８】
（実施の形態１）
図１は、本発明の一実施の形態である音声認識システムの概要を示したブロック図である。本実施の形態の音声認識システムは、ユーザ１の音声が入力される音声認識エンジン２と、音声認識エンジン２に適用される文法データ（グラマー）３と、文法データ３に適用される音素表記表４とを有する。
【００２９】
ユーザ１からの音声信号は、たとえばマイクロフォン、ヘッドセット等の入力装置で電気信号に変換され、さらにＡ／Ｄ（アナログデジタル）変換等が行われて、ディジタルデータで表された波形データに変換される。この波形データは、音声認識エンジン２で音素に分解され、文法データ３と比較されて音声認識が行われる。
【００３０】
音声認識エンジン２では、入力された音素に最も適合する文法データ３が選択される。文法データ３には音素表記表４が適用されており、入力される音声が則る可能性のある文法、あるいは発声される可能性がある音素を含む形態で多数の文法データ３（音素表記表４に基づいた音素が配置されている）が用意され、この文法データ３のデータベースを参照して入力音素に適合する文法データ３が選択される。
【００３１】
本実施の形態で用いる文法は図９（ａ）に示すものと同等のものである。しかし、本実施の形態で用いる音素表記表は図９（ｂ）のものとは相違する。
【００３２】
図２は、本実施の形態で用いる音素表記表の一例を示す表図である。従来、たとえば「０」の場合、文字「０」と４つの音素（「ｒｅｅ」「ｒｅｅ：」「ｒｅｉ」「ｚｅｒｏ」）を対応させていたのみであるが、本実施の形態では、文字「０」の読みとして「レイ」と「ゼロ」の２種類を考え、各音素に読み（「０」の場合「レイ」と「ゼロ」）の情報を付加している。なお、「０」にはほかに「マル」という読みも考えられるが、ここでは２種類の読みがあるとして例示している。
【００３３】
また、「４」については「シ」と「ヨン」の読みを、「７」については「シチ」と「ナナ」の読みを、「９」については「ク」と「キュウ」の読みを考える。本実施の形態では、「０」「４」「７」「９」について上記のような複数の読みを考えているがあくまでも例示であり、その他の読みが考えられるときには音素表記表に加えても良いことは勿論である。また、上記以外の数字に複数の読みが考えられるときにはその複数の読みを加えても良いことは勿論である。さらに、本実施の形態では数字を例示するが、数字に限らず、その他漢字、英字等を適用できるし、その読みに複数の候補があるときには、前記同様にそれらを含めて音素表記表を作成しても良い。
【００３４】
このような文法と音素表記を用いて音声認識する場合の手順を以下に説明する。図３は、本実施の形態の音声認識方法の一例を示したフローチャートである。ここでは、たとえば電話を介して取引データを音声により入力する場合を考える。
【００３５】
まず、本実施の形態の音声認識システムにベースとなるベース文法データを導入する（ステップ１０）。導入されるベース文法データは、図２に示すように、読みの情報が付加されている以外は図９（ｃ）と同様である。
【００３６】
次に、システム側の音声発声手段から「電話番号をどうぞ」というメッセージをユーザ側に流す（ステップ１１）。仮に、ユーザ側の発声が「シチヨンゼロ」であるとすると、この音声入力に応答してベース文法データにより認識を行う（ステップ１２）。ここで、システムが「７４０」を認識すれば、システム側から「７４０で正しいですか」というメッセージを発する（ステップ１３）。ユーザが「はい」と応答すれば認識結果は「７４０」で確定する。仮に、認識結果が誤りであれば、ステップ１１に戻って再度音声入力を行う。
【００３７】
この１回目の音声認識の結果、「７４０」が確定すれば、ユーザは、「７」については「シチ」と読み、「４」については「ヨン」と読み、「０」については「ゼロ」と読むことがわかる。ここで、このユーザについては、少なくとも同一会話内あるいは短時間（たとえば１日内）の会話では、同一の読みをすると仮定することが可能になる。これは、同一人物は、同一会話内で同じ読み方を維持する傾向があるという本発明者らの知見に基づく。この傾向を利用し、このユーザが「７」について「ナナ」と発音する確率は少ないと考えることができる。同様に、「４」については「シ」と、「０」について「レイ」と発音する確率は小さいと考えることができる。よって、次ステップでは、減縮した文法データを挿入する（ステップ１４）。
【００３８】
図４は、減縮した文法データを示すリスト図面である。この文法データはＢＮＦ表記によるグラマーに相当する。すなわち、文字「７」については、「ナナ」に対応する音素「ｎａｎａ」を削除し、「シチ」に対応する音素「ｈｉｃｈｉ」「ｓｈｉｃｈｉ」に限定する（２０）。同様に、「４」については、「シ」に対応する音素「ｓｈｉ」「ｓｈｉｉ」「ｓｈｉｉ：」を削除し、「ヨン」に対応する音素「ｙｏ＿ｎ」に限定する（２１）。「０」については、「レイ」に対応する音素「ｒｅｅ」「ｒｅｅ：」「ｒｅｉ」を削除し、「ゼロ」に対応する音素「ｚｅｒｏ」に限定する（２２）。このように、発声される確率の少ない音素を削除し、この削除した音素が適用された文法データを用いて認識を行えば、より認識率を向上することができる。
【００３９】
その後、この減縮した文法データを適用して次ステップに進み、２回目の音声入力を促すメッセージを発し（ステップ１５）、音声入力に応答して認識を行う（ステップ１６）。音声入力が「ゼロサンのイチシチキュウ」とすれば、本来識別が困難な「イチ」と「シチ」のような発声でも、「シチ」が「７」に限定されているので、ベース文法データを用いる場合よりも認識の精度を向上することができる。
【００４０】
さらに、２回目の認識でこのユーザは「９」を「キュウ」と発声してるので、音素「ｋｕ」を削除してさらに減縮した文法データを適用できる（ステップ１８）。図５はさらに減縮した文法データを示すリスト図である。「９」について音素「ｋｕ」を削除している（２３）。
【００４１】
なお、音素対応表に関連付けた文法データは、１回目の認識の前に各読みの組み合わせの数だけ予め作成しておき、２回目の認識以降で不要な文法データを削除する方法をとることができる。
【００４２】
本実施の形態によれば、同一人物による発声では、数字等の読み方が一貫しており、同一会話内では同じ読みが維持されるという傾向を利用し、２回目以降の認識では、読まれる可能性の低い音素を削除して認識を行える。これにより、２回目以降の認識率を向上することができる。なお、本発明は、発声者に固有な音響特性を学習するようなものではなく、その場限りの学習に止まり、他の発声者の場合や、同じ発声者でも日が異なるような場合では、再度ベース文法データを用いて最初のステップから認識が開始される。このため、発声者ごとのデータベースを作成する必要がなく、どのような発声者にも同じ構成のシステムを適用できる。このため、発声者ごとにカスタマイズする必要がなく、簡単に本発明を実施適用できる。
【００４３】
（実施の形態２）
クレジットカードのように入力される数字の特定の桁にチェックディジットが含まれるような場合には、このチェックディジットを用いて、推定される誤りを入れ替えて誤り訂正を行い、訂正後の認識結果で次ステップに進めることができる。図６は実施の形態２の認識方法の一例を示したフローチャートである。
【００４４】
まず、ベース文法データを導入し（ステップ３０）、カード番号の入力を促すメッセージ（ステップ３１）の後、ベース文法データを適用した認識を行う（ステップ３２）。仮に入力音声が「イチニサンシコ゛ウロクシチハチクセ゛ロイチニサンシコ゛ロク」であったとき、「１２３４５６７８９０１２３４５６」と認識しない誤認識の確率は１回目の認識ゆえ低くはない。通常クレジットカードの場合は、チェックディジットは下２桁の「５６」なので、このチェックディジットが合っているかどうかの照合を行う（ステップ３３）。照合の結果が合わないときには誤認識の可能性のある数字を交換して（ステップ３４）、再度照合を行う（ステップ３３）。この結果、照合にパスすれば次ステップに進め、誤り訂正後の認識結果（数字）で確認を行う（ステップ３５）。
【００４５】
誤認識の可能性のある数字は、たとえば１「イチ」と７「シチ」と８「ハチ」（「７」が「シチ」と発声されているときあるいは「７」が認識されていないとき）、１「イチ」と８「ハチ」（「７」が「ナナ」と発声されているとき）、４「シ」と７「シチ」（「４」が「シ」と発声され、「７」が「シチ」と発声されているとき）、あるいは６「ロク」と９「ク」（「９」が「ク」と発声されているとき）、が挙げられる。これらを相互に置換することによりステップ３４の交換が行える。
【００４６】
最後に、１回目の認識結果と前記誤り訂正処理で確定した認識結果から、不要な音素を削除し、減縮した文法データを作成し、２回目以降の認識のためにこれを導入する（ステップ３６）。
【００４７】
本実施の形態の音声認識方法によれば、チェックディジットを用いて誤り訂正を行い、ユーザの入力回数を少なくしてユーザに対する利便性を向上し、トータルの処理時間も短くできる。
【００４８】
（実施の形態３）
文法で５桁の数字が要求されているにもかかわらず、４桁の数字しか認識できない場合には、長母音一音節の音声（たとえば２「ｎｉｉ：」）が短母音化して２「ｎｉ」が繰り返されていた可能性がある。この場合の誤り訂正の方法が図７に示されている。図７（ａ）は、本実施の形態の音声認識方法の一例を示したフローチャートであり、図７（ｂ）は適用される文法データである。図７（ｂ）に示すように、ここでは５桁の数字が文法として要求されている（４０）。
【００４９】
図７（ａ）に示すように、まず、ベース文法データを導入し（ステップ４１）、番号の入力を促すメッセージ（ステップ４２）の後、ベース文法データを適用した認識を行う（ステップ４３）。ここで、音声入力として「イチニニサンシ」が入力されたとすると、「１２３４」と誤認識する可能性がある。ステップ４４で５文字認識できたかどうかを判断し（ステップ４４）、４文字しか認識できていないときには、長母音１音節の文字「２」が誤認識されたと推定する。よって、「２」を「２２」に置換し（ステップ４５）、確認ステップ（ステップ４６）に進む。５桁の文字が正常に認識されていたときにはそのままステップ４６に進む。その後、１回目の認識結果と前記誤り訂正処理で確定した認識結果から、不要な音素を削除し、減縮下文法データを作成し、２回目以降の認識のためにこれを導入する（ステップ４７）。
【００５０】
本実施の形態の音声認識方法によれば、長母音一音節の音に誤認識されやすい短母音の繰り返しを誤り訂正することができる。これにより、ユーザの入力回数を少なくしてユーザに対する利便性を向上し、トータルの処理時間も短くできる。なお、上記実施の形態では、短母音の繰り返しが長母音の一文字に誤認された例を示したが、長母音の一文字が短母音の繰り返しに誤認されて、本来の文字数より多く誤認識された場合についても、上記と同様に誤りの訂正ができることは勿論である。
【００５１】
以上、本発明者によってなされた発明を発明の実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。
【００５２】
たとえば、図８に示すように、文法に非一様な確率分布を適用できる。すなわち、「０」についていえば、「ゼロ」と発音される確率が「レイ」と発音される確率より経験的に大きいことが判明している。このようなとき、図８に示すように＜０＞に「ｚｅｒｏ」の音素を３つ割り当て、＜ｒｅｉ＞を１つ割り当てる。この場合、「セロ」と発声される確率が７５％、「レイ」と発声される確率が２５％と仮定している。なお、「レイ」の発声には「ｒｅｅ」［ｒｅｅ：」「ｒｅｉ」の音素が均等に割り当てられている。このような非一様確率分布を適用することにより、より認識精度を向上することができる。
【００５３】
また、本発明は、英語に対しても適用が可能である。たとえば「１−８００−１１２２」の読み方は、（１）「ｏｎｅｅｉｇｈｔｈｕｎｄｒｅｄｄｏｕｂｌｅｏｎｅｄｏｕｂｌｅｔｗｏ」、（２）「ｏｎｅｅｉｇｈｔｏｈｏｈｅｌｅｖｅｎｔｗｅｌｖｅ」、（３）「ｏｎｅｅｉｇｈｔｈｕｎｄｒｅｄｏｎｅｏｎｅｔｗｏｔｗｏ」という各種の読み方がある。このような読み方についても同様に一会話内で維持されることが考えられる。このような１つの表記に対して複数の読みがある場合には、日本語に限られず、英語に対しても本発明を適用して２回目以降の認識精度を高めることができる。また、英語での文字についても同様である。たとえば「０」について、「ｚｅｒｏ」あるいは「ｏｈ」の複数の読みがある。このような場合も同様に本発明を適用できる。
【００５４】
また、英語では、数字の並びに対して、（１）２桁づつ区切って桁読みする読み方、（２）続けて数字を読む読み方（べた読み）、（３）正式な桁読み、（４）同じ数字の連続をｄｏｕｂｌｅ−ｘｘｔｒｉｐｌｅ−ｘｘと表現する読み方等がある。たとえば「１９９９」について、「ｎｉｎｅｔｅｅｎｎｉｎｅｔｙｎｉｎｅ」、「ｏｎｅｎｉｎｅｎｉｎｅｎｉｎｅ」、「ｏｎｅｔｈｏｕｓａｎｄｎｉｎｅｈｕｎｄｒｅｄｎｉｎｅｔｙｎｉｎｅ」、「ｏｎｅｔｒｉｐｌｅｎｉｎｅ」、「ｎｉｎｅｔｅｅｎｄｏｕｂｌｅｎｉｎｅ」、等の読み方がある。このような複数の読み方に対してはそれに対応した文法データが各々必要になる。１回目の認識の際には全ての読み方を含む文法を用意する必要があるが、２回目以降の認識では、本発明を適用して、不要と思われる文法データを削除できる。これにより、英語においても２回目以降の認識率を高めることができる。
【００５５】
また、数字に限らず、通常の単語に対しても本発明を適用できる。たとえば、「青／ブルー」、「空飛ぶ円盤／ユーフォー／ユーエフオー」、「いりぐち／はいりくち」など、同じ意味を持っていても複数の表現が可能な単語がある。このような単語に対しても本発明を提供して、２回目以降の認識では１回目で表現されなかった単語を削除して２回目以降の認識率を高めることができる。
【００５６】
また、たとえば助動詞に対しても本発明を適用できる。たとえば「＊＊だ。」「＊＊です。」のように通常何れかの表現が安定して用いられる。このような場合にも、１回目で用いられなかった表現を削除して、２回目以降の認識率を向上できる。
【００５７】
さらに、本発明は、動詞、形容詞その他の品詞に対しても複数の読み、表現がある場合にこれを適用することができ、認識精度を向上できる。
【００５８】
【発明の効果】
本願で開示される発明のうち、代表的なものによって得られる効果は、以下の通りである。
【００５９】
すなわち、音声認識における認識精度、特に複数の読みが与えられている文字、単語等の認識精度を向上できる。また、冗長性の少ない音たとえば日本語における数字や、異なる文字あるいは単語に類似の音が与えられている文字等の認識精度を向上できる。また、長母音付き一音節文字が短母音化されて繰り返される場合の認識精度を向上できる。
【図面の簡単な説明】
【図１】本発明の一実施の形態である音声認識システムの概要を示したブロック図である。
【図２】実施の形態１で用いる音素表記表の一例を示す表図である。
【図３】実施の形態の音声認識方法の一例を示したフローチャートである。
【図４】減縮した文法データを示すリスト図面である。
【図５】さらに減縮した文法データを示すリスト図である。
【図６】実施の形態２の認識方法の一例を示したフローチャートである。
【図７】（ａ）は、実施の形態３の音声認識方法の一例を示したフローチャートであり、（ｂ）は適用される文法データである。
【図８】非一様な確率分布を適用した文法データの一例を示すリスト図である。
【図９】（ａ）は、４桁の数字を認識する場合の文法を示すリスト図であり、（ｂ）は、実用的な音素表記を示す表図であり、（ｃ）は、（ｂ）の音素表記を適用した文法データの例を示すリスト図である。
【符号の説明】
１…ユーザ、２…音声認識エンジン、３…文法データ、４…音素表記表。

Claims

認識単語とそれを発音表記する音素列との対応が記録された対応情報を有し、入力された音声から生成される音素列と前記対応情報内の音素列との対比によって、前記音声から一以上の認識単語を認識する音声認識システムであって、
同一人物の一定期間内の会話において、既に行われた認識処理で認識された音素列に対する認識単語に複数の音素列が対応付けられて記録されている場合、前記複数の音素列のうち前記認識された音素列と異なる少なくとも１つの音素列の発声予想確率を低下させることを特徴とする音声認識システム。
同一の前記認識単語を発音表記する異なる音素列について、予め測定された発声予想確率に適合する数の前記音素列とそれに対応する前記認識単語とを前記対応情報に含める請求項１記載の音声認識システム。
前記一定期間は、連続した会話内の期間または当日内の複数の会話を含む期間である請求項１または２記載の音声認識システム。
認識された一以上の認識単語のうちの少なくとも一部を話者に照会して前記一以上の認識単語の認識に誤りがあるか否かを判断する手段と、前記誤りが認められたときには、前記一以上の認識単語をそれが誤認識されやすい一以上の認識単語に置換する手段と、
をさらに備えた請求項１〜３の何れか一項に記載の音声認識システム。
認識された前記一以上の認識単語の数が前記認識システムにおいて予め登録された数に一致しなかったときには、前記認識された一以上の単語のうち長母音一音節を有する音素に対応する認識単語を、前記長母音に対応する短母音音素に対応する認識単語の繰り返しに置換する手段、または、前記認識された一以上の単語のうち短母音一音節を有する音素に対応する認識単語の繰り返しを、前記短母音に対応する長母音音素に対応する認識単語に置換する手段をさらに備えた請求項１〜４の何れか一項に記載の音声認識システム。
同一人物の一定期間内の会話において、
第１音声を入力し、前記第１音声から音素列を生成するステップと、
認識単語とそれを発音表記する音素列との対応が記録された対応情報を検索し、前記第１音声で生成された音素列と前記対応情報内の音素列との対比から一以上の認識単語を生成するステップと、
認識された音素列に対応する認識単語に複数の音素列が対応付けられて記録されている場合、前記複数の音素列のうち前記認識された音素列と異なる少なくとも１つの音素列の発声予想確率を低下させるステップと、
第２音声を入力し、前記第２音声から音素列を生成するステップと、
前記音素列の発声予想確率を低下させた対応情報を検索し、前記第２音声で生成された音素列と前記対応情報内の音素列との対比から一以上の認識単語を生成するステップと、
を含む音声認識方法。
同一の前記認識単語を発音表記する異なる音素列について、予め測定された発声予想確率に適合する数の前記音素列とそれに対応する前記認識単語とを前記対応情報に含める請求項６記載の音声認識方法。
前記一定期間は、連続した会話内の期間または当日内の複数の会話を含む期間である請求項６または７記載の音声認識方法。
認識された一以上の認識単語のうち少なくとも一部を話者に照会して前記一以上の認識単語の認識に誤りがあるか否かを判断するステップと、
前記誤りが認められたときには、前記一以上の認識単語をそれが誤認識されやすい一以上の認識単語に置換するステップと、
をさらに含む請求項６〜８の何れか一項に記載の音声認識方法。
認識された前記一以上の認識単語の数が前記認識システムにおいて予め登録された数に一致しなかったときには、前記認識された一以上の認識単語のうち長母音一音節を有する音素に対応する認識単語を、前記長母音に対応する短母音音素に対応する認識単語の繰り返しに置換するステップ、または、前記認識された一以上の単語のうち短母音一音節を有する音素に対応する認識単語の繰り返しを、前記短母音に対応する長母音音素に対応する認識単語に置換するステップ、をさらに含む請求項６〜９の何れか一項に記載の音声認識方法。
音声を認識するプログラムコードが記録されたコンピュータ可読な記録媒体であって、前記プログラムコードには、
音声を入力し、前記音声から音素列を生成するプログラムコードと、
認識単語とそれを発音表記する音素列との対応が記録された対応情報を検索し、前記音声で生成された音素列と前記対応情報内の音素列との対比から一以上の認識単語を生成するプログラムコードと、
認識された音素列に対応する認識単語に複数の音素列が対応付けられて記録されている場合、前記複数の音素列のうち前記認識された音素列と異なる少なくとも１つの音素列の発声予想確率を低下させるプログラムコードと、
を含むコンピュータ可読な記録媒体。