JP3865149B2

JP3865149B2 - 音声認識装置および方法、辞書作成装置および情報記憶媒体

Info

Publication number: JP3865149B2
Application number: JP16544796A
Authority: JP
Inventors: 雅子広瀬
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1995-08-22
Filing date: 1996-06-26
Publication date: 2007-01-10
Anticipated expiration: 2016-06-26
Also published as: JPH09120296A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声を認識する音声認識装置および方法と、音声認識装置の語表記対応辞書に言語と読みとを格納する辞書作成装置と、コンピュータのプログラムが予め書き込まれた情報記憶媒体に関する。
【０００２】
【従来の技術】
現在、音声を認識する音声認識装置の実用化が要望されている。一般的な音声認識装置は、認識候補の言語毎に読みが格納された辞書を有しており、音声が入力されると辞書の読みを検索し、これが一致した言語として音声を認識する。
【０００３】
【発明が解決しようとする課題】
上述のような音声認識装置は、音声に一致する読みを辞書から検索することにより、音声を言語として認識することができる。
【０００４】
しかし、認識する言語の個数は膨大であるため、その読みを個々に検索していると処理が遅滞し、連続的に入力される音声をリアルタイムに認識するようなことが困難となる。
【０００５】
このような課題を解決する手法の一つが、「自由発声音声認識における意味を考慮した２段ＬＲパーザ」（南等、日本音響学会講演論文集、3-4-10，1993.3）に開示されている。これは電話番号案内の問い合わせタスクを想定しており、このような問い合わせは、項目に意味が有り文体には意味が無いことに着目し、意味を考慮することで認識候補の言語を減少させている。より具体的には、ＬＲテーブルを意味のレベルで分類して作成し、意味が同等の複数の言語を一つにまとめるなどしている。
【０００６】
しかし、タスクを極度に限定すれば、上述のようにして認識候補の言語を削減することができるが、一般的なタスクの場合、意味が同等の言語が多数の場合もあり、このような場合には認識候補の言語を有効に削減することができない。
【０００７】
また、認識候補の言語を減少させる他の手法が、「メニューに基づく音声自然言語入力システム」（山本等、情報処理学会第47回全国大会、7M-2，1993.19)に開示されている。これは音声の入力単位を文節とし、システムが高い確率で処理を実行できる範囲に入力を制限して認識対象の言語を削減している。
【０００８】
しかし、人間の発声は文頭に比較して文末が曖昧になる傾向があるため、上述のように入力単位を音節とすると誤認識が発生しやすい。また、連続した数詞などの発声では、“さんじゅう，さんじゅうに，さんびゃく”のように、最初は同一で最後が相違することが多いが、このような音声を上述した手法で認識すると、認識率が低いまま処理に時間を要する。
【０００９】
このような場合、長時間の処理で一つの間違った認識結果が出力されるよりは、正解が含まれる複数の認識候補が短時間の処理で出力されるほうが望ましい。つまり、結果として出力される認識候補が複数でも、それに正解が含まれるならば、これを他の手法により一つの正解に絞り込むことが可能であり、このような場合には最初の処理が迅速であることが要求される。しかし、このようなことは、上述した手法に考慮されていない。
【００１０】
【課題を解決するための手段】
請求項１記載の発明の音声認識装置は、各種の言語が読みと共に予め格納された一般言語辞書と、言語の分類毎に読みの先頭部の長さが予め設定された長さ設定辞書と、前記一般言語辞書から取り出した言語の読みの先頭部からの長さを、前記分類毎に可変にして前記一般言語辞書から読み出し、前記言語に対応づけて語表記対応辞書に格納する読み生成手段と、を有する辞書作成装置と、認識対象の音声が入力される音声入力手段と、前記音声入力手段により入力された音声の先頭部の読みが一致する言語を前記辞書作成装置により作成された前記語表記対応辞書から検出する音声認識手段と、前記音声認識手段の認識結果を出力する結果出力手段と、前記結果出力手段の出力結果が複数の場合に、これをユーザの手動操作に対応して一つに選定する結果選択手段と、を有することを特徴とする。
音声入力手段に認識対象の音声が入力されると、音声認識手段は、音声の先頭部に先頭部の読みが一致する言語を語表記対応辞書から検出する。このとき、音声認識の処理対象となる読みが先頭部に制限されており、その個数が削減されているので、この処理動作は高速に実行される。人間の発声は音声の先頭部で明瞭な傾向にあるので、誤認識の発生率も低下する。認識結果が複数となる場合は発生するが、これには高確率で正解が含まれるので、長時間の処理で一つの間違った認識結果が出力されるものより実用的である。なお、ここで言う先頭部は、先頭から一定の部分であるので、例えば、短い言語では、読みの全体が読みの先頭部となることもある。
また、言語の分類毎に読みの先頭部の長さが長さ設定辞書に予め設定されており、読み生成手段は、生成する言語の読みの先頭部の長さを分類毎に可変する。例えば、特定の言語のみ読みの長さを延長すれば、音声認識装置の処理全体の所要時間は増加させることなく、特定の音声の認識精度が向上する。
【００１１】
請求項２記載の発明の音声認識装置では、数詞の各桁の読みが桁数毎に桁対応辞書に予め格納されており、読み生成手段は、複数桁の数詞を言語として先頭部の読みを生成する場合、先頭部の所定桁の数詞の読みを一般言語辞書から検出すると共に、先頭部の所定桁の読みを桁対応辞書から検出して組み合わせる。一般言語辞書が一般的なデータベースなどからなる場合、一桁の数詞は格納されていても複数桁の数詞は格納されていない可能性が高いが、このような場合でも複数桁の数詞の読みが簡易な処理で生成される。
【００１２】
請求項３記載の発明の音声認識装置では、組み合わされる数詞により変化する各桁の読みが読み変化辞書に予め格納されており、読み生成手段は、複数桁の数詞を言語として読みを生成する場合に、読み変化辞書を参照して対応する数詞の読みを修正する。単純な組み合わせでは不自然な形態となる読みが、自然な形態に修正される。
【００１３】
請求項４記載の発明の音声認識装置では、言語の分類が言語分類辞書に予め設定されており、読み生成手段は、生成する読みに対応する言語を言語分類辞書の設定に従って分類し、この分類された言語の個数が予め設定された基準値を超過しなければ、読みを先頭部に制限しない。例えば、音声認識の出現頻度が高い言語の読みを先頭部に制限し、出現頻度が低い言語の読みを先頭部に制限しないようにすれば、音声認識装置の処理時間が短縮されると共に認識精度が向上する。
【００１４】
請求項５記載の発明の音声認識装置では、言語の分類が言語分類辞書に予め設定されており、読み生成手段は、生成する読みに対応する言語を言語分類辞書の設定に従って分類し、この分類における読みの個数が予め設定された基準値を超過しないように、生成する言語の読みの先頭部の長さを可変する。一つの分類の言語が多数でも読みの個数は一定となり、一つの分類の言語が少数の場合は読みが先頭部に制限されない。
【００１５】
請求項６記載の発明の音声認識装置では、複数の言語の連続する条件が条件設定辞書に予め設定されており、読み生成手段は、条件設定辞書を参照して複数の連続する言語の読みを生成し、末尾に位置する言語のみ読みを先頭部に制限する。連続が予想される複数の言語が予め組み合わされ、一つの言語と同様に取り扱かわれる。
【００１６】
請求項７記載の発明の音声認識装置では、読み生成手段は、複数の連続する言語の全体の読みが予め設定された基準値を超過しないように、末尾に位置する言語の読みの先頭部の長さを制限するので、組み合わされる複数の言語の先頭の言語が長くとも全体の長さは一定となる。
【００１７】
請求項８記載の発明の音声認識装置では、条件設定辞書は、複数の言語の連続する条件と共に、末尾に位置する言語の読みの長さが予め設定されており、読み生成手段は、末尾に位置する言語の読みを設定された長さに制限する。末尾の言語の読みの長さが分類に従って可変されるので、先頭の言語が長いほど末尾の言語を短くするようなことができる。
【００１８】
請求項９記載の発明の音声認識方法は、認識候補の言語を先頭部の読み毎に語表記対応辞書に予め格納しておき、認識対象の音声の先頭部に先頭部の読みが一致する言語を前記語表記対応辞書から検出するようにした。認識対象の音声が入力されると、これに先頭部の読みが一致する言語が語表記対応辞書から検出される。このとき、音声認識の処理対象となる読みが先頭部に制限されており、その個数が削減されているので、この処理動作は高速に実行される。人間の発声は音声の先頭部で明瞭な傾向にあるので、誤認識の発生率も低下する。認識結果が複数となる場合は発生するが、これには高確率で正解が含まれるので、長時間の処理で一つの間違った認識結果が出力されるものより実用的である。
また、言語の分類毎に読みの先頭部の長さが長さ設定辞書に予め設定されており、読み生成手段は、生成する言語の読みの先頭部の長さを分類毎に可変する。例えば、特定の言語のみ読みの長さを延長すれば、音声認識装置の処理全体の所要時間は増加させることなく、特定の音声の認識精度が向上する。
【００１９】
請求項９記載の発明の音声認識方法は、各種の言語が読みと共に予め格納された一般言語辞書から言語を取り出し、この取り出した言語を読みの先頭部毎に語表記対応辞書に格納するようにした。一般言語辞書から取り出された言語が読みの先頭部毎に語表記対応辞書に格納されるので、先頭が同一でも末尾が相違する複数の言語が一つの読みに集約される。このような語表記対応辞書を利用して音声認識装置が音声を認識する場合、この音声認識装置の処理対象となる読みの個数が削減される。
【００２６】
【発明の実施の形態】
本発明の実施の第一の形態を図１ないし図６に基づいて以下に説明する。まず、図１に示すように、ここで例示する音声認識装置１と辞書作成装置２とは、一体に形成されており、図２および図３に示すように、そのハードウェアとしてデータ処理装置であるコンピュータシステム１００を有している。このコンピュータシステム１００は、コンピュータの主体としてＣＰＵ(Central Processing Unit）１０１を有しており、このＣＰＵ１０１には、バスライン１０２により、ＲＯＭ(Read Only Memory)１０３、ＲＡＭ(Random Access Memory)１０４、ＨＤ(Hard Disk…図示せず）を内蔵したＨＤＤ(HD Drive)１０５、ＦＤ(Floppy Disk）１０６が装填されるＦＤＤ(FD Drive)１０７、ＣＤ(Compact Disk)−ＲＯＭ１０８が装填されるＣＤ−ＲＯＭドライブ１０９、マウス１１０が接続されたキーボード１１１、ディスプレイ１１２、マイクロフォン１１３、通信Ｉ／Ｆ(Interface）１１４、等が接続されている。
【００２７】
このコンピュータシステム１００は、前記ＣＰＵ１０１に各種の処理動作を実行させるプログラム等が予め設定されており、このプログラム等のソフトウェアは、例えば、情報記憶媒体である前記ＲＡＭ１０４や前記ＨＤＤ１０５のＨＤ（図示せず）に予め書き込まれている。上述のようなコンピュータシステム１００において、前記ＣＰＵ１０１が前記ＲＡＭ１０４等に格納されたプログラムに従って各種の処理動作を実行することにより、本実施の形態の音声認識装置１と辞書作成装置２とが実現されている。
【００２８】
本実施の形態の音声認識装置１は、図１に示すように、音声入力手段である音声入力部３、音声認識手段である音声認識部４、語表記対応辞書である語表記対応表５、結果出力手段である結果出力部６、結果選択手段である結果選択部７、を有しており、前記音声認識部４に前記音声入力部３と前記語表記対応表５と前記結果出力部６と前記結果選択部７とが接続されている。本実施の形態の辞書作成装置２は、一般言語辞書である単語辞書８と読み生成手段である読み生成部９とを有しており、この読み生成部９には、前記単語辞書８と前記語表記対応表５とが接続されている。
【００２９】
前記音声入力部３は、ハードウェアとして前記マイクロフォン１１３などを有しており、人間が発声した音声を電気信号に変換する。前記語表記対応表５と前記単語辞書８とは、前記ＲＡＭ１０４等の情報記憶媒体を有しており、ここでは認識候補の言語として数詞が予め格納されている。前記単語辞書８は、例えば、音声認識のタスクに対応した数詞の既存のデータベースなどからなり、図４に示すように、認識候補となる各種の数詞が読みと共に予め格納されている。
【００３０】
前記語表記対応表５には、図５に示すように、認識候補の数詞が先頭部の読み毎に予め格納されている。この数詞の先頭部の読みは、ここでは数詞の読みの先頭から一定の表記単位の部分として生成されており、具体的には、数詞の表記単位である文字の個数が三個以下となるように制限されている。このため、数詞である“１１５”の読みである“ひゃくじゅうご”などは先頭部の“ひゃく”に短縮されているが、“１００”の“ひゃく”は“ひゃく”のままである。
【００３１】
前記音声認識部４は、前記ＣＰＵ１０１などを有しており、前記音声入力部３が認識対象の音声が入力されると、この音声の先頭部に先頭部の読みが一致する数詞を語表記対応表５から検出する。この場合、上述のように語表記対応表５に格納されている読みの先頭部は三文字なので、入力された音声も先頭の三文字のみが処理対象となる。
【００３２】
前記結果出力部６は、前記ディスプレイ１１２などを有しており、前記音声認識部４の認識結果を出力する。前記結果選択部７は、前記キーボード１１１などを有しており、前記結果出力部６の出力結果が複数の場合に、これをユーザの手動操作に対応して一つに選定する。
【００３３】
前記読み生成部９は、前記ＣＰＵ１０１などを有しており、単語辞書８から取り出した数詞を、読みの先頭部毎に音声認識装置１の語表記対応表５に格納する。前述のように語表記対応表５には数詞の読みが先頭部の三文字毎に格納されるので、前記読み生成部９は、前記単語辞書８から取り出した数詞の読みの先頭から一定の表記単位である三文字の部分を先頭部として生成する。
【００３４】
上述した音声認識装置１と辞書作成装置２との各部は、必要により前記キーボード１１１や前記ディスプレイ１１２や前記マイクロフォン１１３等のハードウェアを利用して実現されるが、その主体は前記ＲＡＭ１０４等に書き込まれたソフトウェアに対応して前記ＣＰＵ１０１が動作することにより実現されている。
【００３５】
このように前記ＲＡＭ１０４に書き込まれたソフトウェアは、前記ＣＰＵ１０１が読取自在なソフトウェアからなる前記単語辞書８、この単語辞書８から言語を取り出させて読みの先頭部毎に前記語表記対応表５に格納させる前記ＣＰＵ１０１の制御プログラム、前記ＣＰＵ１０１が読取自在なソフトウェアからなる前記語表記対応表５、前記音声入力部３に認識対象の音声が入力されると、その先頭部に先頭部の読みが一致する言語を前記語表記対応表５から検出させる前記ＣＰＵ１０１の制御プログラム、等からなる。
【００３６】
このような構成において、音声認識装置１は、人間が発声する音声を認識する。より詳細には、図６に示すように、人間が発声した音声が音声入力部３に入力されると、音声認識部４は、この音声の先頭部の三文字を抽出し、始点を先頭に固定したスポッティングにより、音声の先頭部と語表記対応表５に格納された複数の読みとを照合させてスコアを算出し、このスコアが最高の読みを検出する。このように検出された数詞は結果出力部６から出力されるので、検出された数詞が複数の場合は結果選択部７の手動操作により一つに選定される。
【００３７】
例えば、音声として“ひゃくじゅう”が入力されると、読みが“ひゃく”の数詞である“１００，１１０，１１５”の三つが出力されるので、ユーザは所望により“１１０”を選択することになる。
【００３８】
上述した音声認識装置１は、語表記対応表５に三文字の読み毎に数詞が格納されているので、処理対象となる読みの個数が削減されており、処理負担が軽減されて所要時間が短縮されている。しかも、このように読みの検索処理を三文字だけで実行するので、このことでも処理負担が軽減されて所要時間が短縮されている。
【００３９】
人間の発声は文頭に比較して文末が曖昧になる傾向があるが、上述した音声認識装置１は、音声の先頭部のみを処理対象とするので、誤認識が発生しにくい。この場合、上述のように認識結果が複数となることが多発するが、この複数の認識候補には高確率で正解が含まれており、短時間の処理で出力されるので、これを一つに選定する第二の処理を実行しても全体の所要時間は短く、長時間の処理で一つの間違った認識結果が出力されるものより実用的である。
【００４０】
音声認識装置１の語表記対応表５は、上述のように数詞が特殊な読み毎に格納されているが、これは辞書作成装置２により機械的に作成される。つまり、単語辞書８には、図４に示すように、認識候補となる各種の数詞が読みと共に予め格納されているので、読み生成部９が、単語辞書８から取り出した数詞を、読みの先頭部毎に音声認識装置１の語表記対応表５に格納する。
【００４１】
より具体的には、最初に単語辞書８から数詞“１００”が取り出された場合、その読みは“ひゃく”なので、この“ひゃく”が読みの先頭部として“１００”が語表記対応表５に格納される。つぎに、数詞“１１０”が取り出された場合、その読みは“ひゃくじゅう”なので先頭部は“ひゃく”であり、この数詞“１１０”は上述した“１００”と共に語表記対応表５の“ひゃく”の読みの位置に格納される。
【００４２】
このため、語表記対応表５には、多数の数詞が少数の読みに割り当てられて格納され、先頭が同一でも末尾が相違して誤認識が発生しやすい複数の数詞が一つの読みに集約される。このような音声認識装置１の語表記対応表５が、辞書作成装置２により既存の単語辞書８から機械的に作成されるので、この作業を人間が実行する必要がない。このように数詞の読みを表記単位である文字の個数により先頭部に制限するので、簡易な処理で読みの先頭部の長さを一定に共通化することができる。
【００４３】
なお、本発明は上記した実施の形態に限定されるものではなく、各種の変形を許容する。例えば、ここでは音声認識装置１と辞書作成装置２とが一体であることを例示したが、これを別体の装置とし、音声認識装置１の開発時に辞書作成装置２を使用し、製品として出荷される音声認識装置１には辞書作成装置２を搭載しないことも可能である。
【００４４】
また、本実施の形態では、ＲＡＭ１０４等にソフトウェアとして格納されているプログラムに従ってＣＰＵ１０１が動作することにより、音声認識装置１や辞書作成装置２の各部が実現されることを例示した。しかし、このような各部の各々を固有のハードウェアとして製作することも可能であり、一部をソフトウェアとしてＲＡＭ１０４等に格納するとともに一部をハードウェアとして製作することも可能である。また、所定のソフトウェアが格納されたＲＡＭ１０４等や各部のハードウェアを、例えば、ファームウェアとして製作することも可能である。
【００４５】
また、本実施の形態では、コンピュータシステム１００の起動時に、ＨＤＤ１０５に格納されているソフトウェアがＲＡＭ１０４に複写され、このようにＲＡＭ１０４に格納されたソフトウェアをＣＰＵ１０１が読み取ることを想定したが、このようなソフトウェアをＨＤＤ１０５に格納したままＣＰＵ１０１に利用させることや、ＲＯＭ１０３やＲＡＭ１０４に予め書き込んでおくことも可能である。
【００４６】
さらに、単体で取り扱える情報記憶媒体であるＦＤ１０６やＣＤ−ＲＯＭ１０９にソフトウェアを書き込んでおき、このＦＤ１０６等からＲＡＭ１０４等にソフトウェアをインストールすることも可能であり、このようなインストールを実行することなくＦＤ１０６等に書き込まれたソフトウェアをＣＰＵ１０１が適宜読み取ってデータ処理を実行することも可能である。
【００４７】
また、このような音声認識装置１や辞書作成装置２の各部を実現するプログラムを、複数のソフトウェアの組み合わせにより実現することも可能であり、その場合、単体の製品となる情報記憶媒体には必要最小限のソフトウェアのみを格納しておけば良い。例えば、オペレーティングシステムが実装されているコンピュータシステム１００に、ＣＤ−ＲＯＭ１０８等の情報記憶媒体によりアプリケーションソフトを提供するような場合、音声認識装置１や辞書作成装置２の各部を実現するソフトウェアは、アプリケーションソフトとオペレーティングシステムとの組み合わせで実現されるので、オペレーティングシステムに依存する部分のソフトウェアはアプリケーションソフトの情報記憶媒体から省略することができる。
【００４８】
また、このように情報記憶媒体に書き込んだソフトウェアをコンピュータに供給する手法は、その情報記憶媒体をコンピュータに直接に装填することに限定されない。例えば、上述のようなソフトウェアをホストコンピュータの情報記憶媒体に書き込み、このホストコンピュータを通信ネットワークにより端末コンピュータに接続し、ホストコンピュータからデータ通信により端末コンピュータにソフトウェアを供給することも可能である。
【００４９】
この場合、端末コンピュータが自身の情報記憶媒体にソフトウェアをダウンロードした状態でスタンドアロンのデータ処理を実行することも可能であるが、ソフトウェアをダウンロードすることなくホストコンピュータとのリアルタイムのデータ通信によりデータ処理を実行することも可能である。この場合、ホストコンピュータと端末コンピュータとを通信ネットワークにより接続したシステム全体が、本発明の音声認識装置１や辞書作成装置２に相当することになる。
【００５０】
つぎに、本発明の実施の第二の形態を図７ないし図９に基づいて以下に説明する。なお、この実施の第二の形態に関し、上述した第一の形態と同一の部分は、同一の名称および符号を用いて詳細な説明は省略する。
【００５１】
まず、図７に示すように、ここで例示する音声認識装置１１と辞書作成装置１２も一体に形成されており、この辞書作成装置１２には、表音単位辞書である音節表１３が付加されている。この音節表１３は、ＲＡＭなどの記憶デバイスを有しており、図８に示すように、数詞の読みの表音単位である音節が予め格納されている。読み生成部９は、単語辞書８から取り出した数詞を読みの先頭部毎に語表記対応表５に格納する際、前記音節表１３を参照して数詞の読みの先頭から二つの音節の部分を先頭部として生成する。
【００５２】
このような構成において、本実施の形態の音声認識装置１１も、人間が発声する音声を認識する。この時、音声認識部４は、この音声の先頭部と語表記対応表５に格納された複数の読みとを照合させてスコアを算出し、このスコアが最高の読みを検出する。この音声認識装置１１は、音声を照合する単位を表音単位である音節とするので、音声認識の処理動作に人間の発声の特徴を良好に反映させることができる。
【００５３】
そして、辞書作成装置１２も、上述のような音声認識装置１１の語表記対応表５を作成する。その読み生成部９は、単語辞書８から取り出した数詞を読みの先頭部毎に語表記対応表５に格納する際、音節表１３を参照して読みを二音節に制限する。このように数詞の読みを表音単位である音節の個数により先頭部に制限するので、簡易な処理で読みの先頭部の長さを一定に共通化することができる。
【００５４】
つぎに、本発明の実施の第三の形態を図１０ないし図１３に基づいて以下に説明する。なお、この実施の第三の形態に関し、上述した第二の形態と同一の部分は、同一の名称および符号を用いて詳細な説明は省略する。
【００５５】
まず、図１０に示すように、ここで例示する音声認識装置２１と辞書作成装置２２も一体に形成されており、この辞書作成装置２２には、言語分類辞書である認識単語表２３が付加されている。
【００５６】
この認識単語表２３は、ＲＡＭなどの記憶デバイスを有しており、図１１に示すように、言語である数詞の分類が“商品Ａ，商品Ｂ”として設定され、これらの分類毎に読みの先頭部の長さが“２，３”として設定されている。ここでは商品Ａがコピーマシンで商品Ｂがファクシミリなどと想定しており、これに対応する数詞は商品の型式番号を想定している。
【００５７】
そして、読み生成部９は、単語辞書８から取り出した数詞を語表記対応表５に設定する場合に読みを先頭部に制限する際、生成する読みの先頭部の長さを前記認識単語表２３の設定内容に対応して分類毎に可変する。このため、図１２に示すように、前記単語辞書８に格納された数詞の各々にも“商品Ａ，商品Ｂ”の分類が設定されており、図１３に示すように、商品Ａの数詞の読みは二音節からなるが、商品Ｂの数詞の読みは三音節からなる。
【００５８】
このような構成において、本実施の形態の音声認識装置２１も、人間が発声する音声を認識する。この時、音声認識部４は、この音声の先頭部と語表記対応表５に格納された複数の読みとを照合させてスコアを算出し、このスコアが最高の読みを検出する。このため、商品Ａに分類される数詞“ひゃく”は二音節目で認識されるが、商品Ｂに分類される数詞“にひゃく”は三音節目で認識される。
【００５９】
音声認識装置２１は、認識する音声の読みの長さが言語の分類に従って可変されるので、例えば、特定の言語のみ読みの長さを延長して処理全体の所要時間は増加させることなく特定の音声の認識精度を向上させるようなことができ、音声認識の精度や速度を言語の分類に従って調節することができる。
【００６０】
そして、辞書作成装置２２は、上述のような音声認識装置２１の語表記対応表５を作成する。その読み生成部９は、単語辞書８から取り出した数詞を読みの先頭部毎に語表記対応表５に格納する際、認識単語表２３を参照して読みの長さを分類毎に可変する。このように数詞の読みの長さを分類毎に可変するので、上述のように音声認識の精度や速度が言語の分類に従って調節された音声認識装置２１の語表記対応表５を、簡易な処理で作成することができる。
【００６１】
つぎに、本発明の実施の第四の形態を図１４ないし図１８に基づいて以下に説明する。なお、この実施の第四の形態に関し、前述した第一の形態と同一の部分は、同一の名称および符号を用いて詳細な説明は省略する。
【００６２】
まず、図１４に示すように、ここで例示する音声認識装置３１と辞書作成装置３２も一体に形成されている。この辞書作成装置３２には、認識単語辞書である認識単語表３３と桁対応辞書である桁対応表３４とが付加されている。
【００６３】
前記認識単語表３３は、ＲＡＭなどの記憶デバイスを有しており、図１５に示すように、認識する言語として桁数が複数の数詞が“４００，４１０，…”などと設定されているが、これらの数詞には読みは設定されていない。一方、単語辞書８には、数詞が読みと共に格納されているが、これは記憶内容が簡素化されており、図１６に示すように、一桁の数詞“４，５，…”などは格納されているが、複数桁の数詞は格納されていない。前記桁対応表３４も、ＲＡＭなどの記憶デバイスを有しており、図１７に示すように、数詞の各桁の読みが桁数毎に予め格納されている。
【００６４】
そして、読み生成部９は、前記認識単語表３３から取り出した複数桁の数詞を言語として読みを生成する場合、言語の先頭から一定の表音単位の部分を読みの先頭部として生成するため、ここでは複数桁の数詞の読みを先頭の一桁の読みから生成する。数詞の先頭部の一桁の数詞と桁数とを判断し、この数詞の読みを単語辞書８から検出すると共に、桁数の読みを前記桁対応表３４から検出し、これらを組み合わせて語表記対応表５に格納する。このため、音声認識装置１の語表記対応表５は、先頭部の一桁のみに対応した読みで数詞が格納されており、音声認識部４は、数詞の音声を先頭部の一桁のみで認識する。
【００６５】
このような構成において、本実施の形態の音声認識装置３１も、人間が発声する音声を語表記対応表５に格納された数詞として認識する。この語表記対応表５には、数詞が先頭部の一桁のみに対応した読みで格納されているので、音声認識部４は、数詞の音声を先頭部の一桁のみで認識する。
【００６６】
辞書作成装置３２は、上述のような音声認識装置３１の語表記対応表５を作成する。その読み生成部９は、語表記対応表５に格納する複数桁の数詞を認識単語表３３から取り出し、この複数桁の数詞の先頭部の一桁の数詞と桁数とを判断し、この数詞の読みを単語辞書８から検出すると共に桁数の読みを桁対応表３４から検出して組み合わせる。例えば、複数桁の数詞として“４００”が取り出されると、先頭部の一桁は数詞が“４”で桁数が“３”なので、この数詞の読み“よん”と桁数の読み“ひゃく”とが組み合わされ、先頭部の読みは“よんひゃく”となる。
【００６７】
前述のように商品の型式番号などを認識対象の言語とする場合、このような数詞は桁数が多数である場合が一般的である。しかし、単語辞書８が一般的なデータベースなどからなる場合、一桁の数詞は格納されていても複数桁の数詞は格納されていない可能性が高い。このような場合でも、上述した辞書作成装置３２は複数桁の数詞の読みを簡易な処理で生成することができ、音声認識装置３１は、複数桁の数詞を的確な読みと共に語表記対応表５に獲得することができる。
【００６８】
しかも、上述のように辞書作成装置３２は、複数桁の数詞の先頭の一桁から読みを生成するので、簡易な処理で読みの長さを一定にすることができ、この処理が言語の表音単位で実行されているので、音声認識装置３１の処理動作に人間の発声の特徴を良好に反映させることができる。つまり、数字や漢字などの表意文字は、一文字に複数の音節が設定されるが、その発声は表意文字の表記単位で区切られることが一般的なので、これを読みに反映させれば認識精度を向上させることができる。
【００６９】
つぎに、本発明の実施の第五の形態を図１９ないし図２４に基づいて以下に説明する。なお、この実施の第五の形態に関し、上述した第四の形態と同一の部分は、同一の名称および符号を用いて詳細な説明は省略する。
【００７０】
まず、図１９に示すように、ここで例示する音声認識装置４１と辞書作成装置４２も一体に形成されており、この辞書作成装置４２には、読み変化辞書である読み変化表４３が付加されている。
【００７１】
この読み変化表４３は、ＲＡＭなどの記憶デバイスを有しており、図２３に示すように、組み合わされる数詞により変化する桁の読みが予め格納されている。そして、読み生成部９は、認識単語表３３から取り出した複数桁の数詞を言語として読みを生成する場合、その数詞の先頭部の一桁の数詞の読みを単語辞書８から検出すると共に桁数の読みを前記桁対応表３４から検出して組み合わせるが、この場合に前記読み変化表４３を参照して対応する数詞の読みを修正する。
【００７２】
このような構成において、辞書作成装置４２は音声認識装置４１の語表記対応表５を作成する。その読み生成部９は、複数桁の数詞の読みを先頭部の一桁の数詞と桁数との読みの組み合わせで生成する場合に、読み変化表４３を参照して対応する数詞の読みは修正する。例えば、複数桁の数詞として“３００”が取り出されると、先頭部の一桁は数詞が“４”で桁数が“３”なので、この数詞の読み“さん”と桁数の読み“ひゃく”とが単純に組み合わされると“さんひゃく”となるが、これは自然な読みである“さんびゃく”に修正される。
【００７３】
上述した辞書作成装置４２は、複数桁の数詞の読みを簡易な処理で生成することができ、単純な組み合わせでは不自然な形態となる読みは自然な形態に修正することができ、音声認識装置４１は、複数桁の数詞を的確な読みと共に語表記対応表５に獲得することができる。
【００７４】
つぎに、本発明の実施の第六の形態を図２５ないし図２７に基づいて以下に説明する。なお、この実施の第六の形態に関し、前述した第三の形態と同一の部分は、同一の名称および符号を用いて詳細な説明は省略する。
【００７５】
図２５に示すように、言語分類辞書となる認識単語表２３には、言語である数詞の分類が“商品Ａ，商品Ｂ”として設定されているが、ここでは読みの先頭部の長さは設定されていない。そして、読み生成部９は、前述のように単語辞書８から取り出した数詞を語表記対応表５に設定する場合に、その読みを音節数などにより先頭部に制限する際、生成する読みに対応する言語を前記認識単語表２３の設定に従って分類し、この分類された言語の個数が、予め設定された“５”などの基準値を超過しなければ、その読みは先頭部に制限しない。このため、図２６に示すように、前記単語辞書８に格納された数詞の各々にも“商品Ａ，商品Ｂ”の分類が設定されており、図２７に示すように、語表記対応表５に設定された商品Ａの数詞の読みは先頭部の二音節に制限されているが、商品Ｂの数詞の読みは制限されていない。
【００７６】
このような構成において、音声認識装置の語表記対応表５を辞書作成装置が作成するため、その読み生成部９は、単語辞書８から取り出した数詞を読みの先頭部毎に語表記対応表５に格納する。この時、生成する読みに対応する言語を認識単語表２３の設定に従って分類し、この分類された言語の個数が予め設定された基準値を超過しなければ、その読みは先頭部に制限しない。
【００７７】
例えば、数詞として“１００”が取り出されると、この数詞の分類が認識単語表２３から“商品Ａ”として検出され、この分類の数詞は七個であることも検出される。これは基準値である五個より多数なので、“商品Ａ”の分類の数詞は読みが先頭部の二音節に制限されることになり、ここでは全部が“ひゃく”として設定される。一方、数詞として“２００”が取り出されて分類が“商品Ｂ”として検出されると、この分類の個数である二個は基準値である五個より少数なので、“商品Ｂ”の分類の数詞は読みが先頭部に制限されない。
【００７８】
上述のように数詞が設定された音声認識装置は、同一の分類が多数の言語は読みが先頭部に制限されているので、出現頻度が高い言語は読みの先頭部で認識されることになり、処理時間を短縮することができる。一方、同一の分類が少数の数詞は読みが先頭部に制限されないので、出現頻度が低い言語は読みの全体で認識されることになり、認識精度を向上させることができる。そして、本実施の形態の辞書作成装置は、上述のような言語を簡易な処理で語表記対応表５に設定することができるので、高性能な音声認識装置を作成することができる。
【００７９】
つぎに、本発明の実施の第七の形態を図２８ないし図３０に基づいて以下に説明する。なお、この実施の第七の形態に関し、上述した第六の形態と同一の部分は、同一の名称および符号を用いて詳細な説明は省略する。
【００８０】
図２８に示すように、言語分類辞書となる認識単語表２３には、言語である数詞の分類が“商品Ａ，商品Ｂ”として設定されており、図２９に示すように、前記単語辞書８に格納された数詞の各々にも“商品Ａ，商品Ｂ”の分類が設定されている。読み生成部９は、単語辞書８から取り出して語表記対応表５に設定する数詞の読みを先頭部に制限する際、生成する読みに対応する言語を認識単語表２３の設定に従って分類し、この分類における読みの個数が、予め設定された“２”などの基準値を超過しないように、生成する言語の読みの先頭部の長さを可変する。
【００８１】
より詳細には、最初に認識単語表２３に従って単語辞書８から一つの分類の全部の言語が取り出され、その読みが先頭から一文字ずつ増加される。この読みの個数が基準値を超過すると、その直前の読みを採用する。このため、図３０に示すように、語表記対応表５は、商品Ａの数詞の読みは先頭部の二音節に制限されているが、商品Ｂの数詞の読みは制限されていない。
【００８２】
このような構成において、音声認識装置の語表記対応表５を辞書作成装置が作成するため、その読み生成部９は、単語辞書８から取り出した数詞を読みの先頭部毎に語表記対応表５に格納する。この時、生成する読みに対応する言語を認識単語表２３の設定に従って分類し、この分類された言語の読みの個数が基準値を超過しないように、読みの長さを可変する。
【００８３】
例えば、“商品Ａ”の分類の数詞として“１００，１１０，１２０，１２５，１２７，１３０，１７０”が取り出されると、これらの読みは一文字では“ひ”の一個なので、これは基準値である二個より少数である。この読みの文字数を一つずつ増加させても、“ひゃく”までは個数は一個で基準値より少数である。しかし、読みの文字数を四つまで増加させると、読みは“ひゃく”“ひゃくじ”“ひゃくに”“ひゃくさ”“ひゃくな”の五個となり、これは基準値である二個を超過している。そこで、この場合は読みの個数が基準値を超過する直前の状態で採用され、“商品Ａ”の分類の数詞の読みは“ひゃく”の一個となる。
【００８４】
一方、“商品Ｂ”の分類の数詞として“２００，２２０”が取り出された場合、これは個数が二個で基準値と同数なので、読みの文字数を一つずつ増加させても、その個数が基準値を超過することはない。このため、これらの読みは先頭部に制限されず、“にひゃく”“にひゃくにじゅう”が各々に設定される。
【００８５】
上述のように数詞が設定された音声認識装置は、一つの分類に対して読みの個数が制限されているので、一つの分類の言語が多数でも読みの個数は一定となり、処理時間を短縮することができる。一方、一つの分類の言語が少数の場合は、その読みは先頭部に制限されないので、出現頻度が低い言語は読みの全体で認識されることになり、認識精度を向上させることができる。そして、本実施の形態の辞書作成装置は、上述のような言語を簡易な処理で語表記対応表５に設定することができるので、高性能な音声認識装置を作成することができる。
【００８６】
つぎに、本発明の実施の第八の形態を図３１ないし図３３に基づいて以下に説明する。なお、この実施の第八の形態に関し、前述した第三の形態と同一の部分は、同一の名称および符号を用いて詳細な説明は省略する。
【００８７】
図３１に示すように、条件設定辞書となる認識単語表２３には、複数の言語の連続する条件が設定されている。この条件は、言語である商品の型式名称“Ａタイプ，Ｂタイプ”と、言語である商品の型式番号の分類“商品Ａ，商品Ｂ”とが、言語の連続を示す“＋”により個々に連結されており、“Ａタイプ＋商品Ａ，…”などと設定されている。図３２に示すように、単語辞書８は、数詞の各々に“商品Ａ，商品Ｂ”の分類と読みとが設定されているが、名称の言語“Ａタイプ，Ｂタイプ”の各々にも読みが設定されている。
【００８８】
読み生成部９は、単語辞書８から取り出して語表記対応表５に設定する数詞の読みを先頭部に制限する際、前記認識単語表２３を参照して複数の連続する言語の読みを生成し、その末尾に位置する言語のみ読みを先頭部に制限する。より詳細には、前記認識単語表２３には“Ａタイプ＋商品Ａ，…”なる条件が設定されているので、これに整合する複数の連続する言語の読みは“えーたいぷひゃく”などとなり、その末尾に位置する数詞“ひゃく”のみ読みが音節数などにより先頭部に制限される。このため、図３３に示すように、語表記対応表５は、“Ａタイプ１００”などのように連続する言語が設定されているが、その読みは後部の数詞の読みが二音節に制限されている。
【００８９】
このような構成において、音声認識装置の語表記対応表５を辞書作成装置が作成するため、その読み生成部９は、単語辞書８から取り出した数詞を読みの先頭部毎に語表記対応表５に格納する。この時、読み生成部９は、認識単語表２３を参照して複数の言語の連続する条件を認識し、この条件に従って複数の言語の連続する読みを生成する。
【００９０】
例えば、“Ａタイプ＋商品Ａ，…”なる条件に整合する複数の連続する言語の読みは、“えーたいぷひゃく”“えーたいぷひゃくじゅう”“えーたいぷひゃくにじゅう”の三つが生成される。しかし、その末尾に位置する数詞“ひゃく，ひゃくじゅう，ひゃくにじゅう”の読みが先頭部の二音節に制限されるので、これらの数詞の読みは何れも“ひゃく”となり、“Ａタイプ”の連続する言語の読みは“えーたいぷひゃく”の一つとなる。
【００９１】
上述した“Ａタイプ１００”や“Ｂタイプ２００”などの連続する言語は、“商品型式＋型式番号”を想定しており、このような言語は特定の組み合わせで連続的に一息で発声されることが多い。そこで、本実施の形態の音声認識装置では、上述のような複数の言語を予め組み合わせて一つの言語として処理することにより認識精度を向上させ、その末尾の言語のみ読みを先頭部に制限することにより処理速度を向上させている。そして、本実施の形態の辞書作成装置は、上述のような言語を簡易な処理で語表記対応表５に設定することができるので、高性能な音声認識装置を作成することができる。
【００９２】
つぎに、本発明の実施の第九の形態を図３４ないし図３６に基づいて以下に説明する。なお、この実施の第九の形態に関し、上述した第八の形態と同一の部分は、同一の名称および符号を用いて詳細な説明は省略する。
【００９３】
図３４に示すように、条件設定辞書となる認識単語表２３には、複数の言語の連続する条件が設定されており、この条件は、言語である商品の型式名称の分類“商品名Ａ，商品名Ｂ”と、言語である商品の型式番号の分類“商品Ａ，商品Ｂ”とが、言語の連続を示す“＋”により個々に連結されている。図３５に示すように、単語辞書８には、型式名称の言語である“コピー，ファクシミリ”の各々に“商品名Ａ，商品名Ｂ”の分類と読みとが設定されており、型式番号の数詞“１００，…”の各々に“商品Ａ，商品Ｂ”の分類と読みとが設定されている。
【００９４】
読み生成部９は、単語辞書８から取り出して語表記対応表５に設定する数詞の読みを先頭部に制限する際、前記認識単語表２３を参照して複数の連続する言語の読みを生成し、その全体の読みが予め八文字などと設定された基準値を超過しないように、末尾に位置する言語の読みの先頭部の長さを制限する。より詳細には、前記認識単語表２３には“商品名Ａ＋商品Ａ，…”なる条件が設定されているので、これに整合する複数の連続する言語の読みは“こぴーひゃく”などとなり、この全体の読みが八文字を超過しないように、その末尾に位置する数詞“ひゃく”の読みが先頭部に制限される。このため、図３６に示すように、語表記対応表５は、“コピー１００”の読みは“こぴーひゃく”のままであるが、“ファクシミリ１００”の読みは八文字の“ふぁくしみりひゃ”として制限されている。
【００９５】
このような構成において、音声認識装置の語表記対応表５を辞書作成装置が作成するため、その読み生成部９は、単語辞書８から取り出した数詞を読みの先頭部毎に語表記対応表５に格納する。この時、読み生成部９は、認識単語表２３を参照して複数の言語の連続する条件を認識し、この条件に従って複数の言語の連続する読みを生成する。
【００９６】
例えば、“商品名Ａ＋商品Ａ”なる条件に整合する複数の連続する言語の読みは、“こぴーひゃく”“こぴーさんびゃく”“こぴーさんびゃくにじゅう”の三つが生成される。しかし、その全体が八文字を超過しないように末尾の数詞の読みが先頭部に制限されるので、上述した複数の連続する言語の全体の読みは“こぴーひゃく”“こぴーさんびゃく”の二つとなる。
【００９７】
本実施の形態の音声認識装置では、連続的に発声される複数の言語を予め組み合わせて処理することにより認識精度を向上させ、その末尾の言語のみ読みを先頭部に制限することにより処理速度を向上させている。このとき、言語の読みが基準値を超過しないので、先頭の言語が長くとも全体の長さは一定となり、処理速度が安定して向上している。そして、本実施の形態の辞書作成装置は、上述のような言語を簡易な処理で語表記対応表５に設定することができるので、高性能な音声認識装置を作成することができる。
【００９８】
つぎに、本発明の実施の第十の形態を図３７ないし図３９に基づいて以下に説明する。なお、この実施の第十の形態に関し、上述した第九の形態と同一の部分は、同一の名称および符号を用いて詳細な説明は省略する。
【００９９】
図３７に示すように、条件設定辞書となる認識単語表２３には、複数の言語の連続する条件が“商品名Ａ＋商品Ａ，…”などと設定されており、さらに、この末尾の分類に読みの先頭部の長さが“２，…”などとして設定されている。図３８に示すように、単語辞書８には、型式名称の言語である“コピー，…”の各々に“商品名Ａ，…”の分類と読みとが設定されており、型式番号の数詞“１００，…”の各々に“商品Ａ，…”の分類と読みとが設定されている。
【０１００】
読み生成部９は、単語辞書８から取り出して語表記対応表５に設定する数詞の読みを先頭部に制限する際、前記認識単語表２３を参照して複数の連続する言語の読みを生成し、その末尾に位置する言語の読みの先頭部の長さを前記認識単語表２３に設定された長さに制限する。より詳細には、前記認識単語表２３には“商品名Ａ＋商品Ａ”なる条件が設定されているので、これに整合する複数の連続する言語の読みは“こぴーにひゃく”などとなるが、その末尾の数詞の読みの長さは三文字に設定されているので、この読みは“こぴーにひゃ”に制限される。一方、“商品名Ｂ＋商品Ｂ”なる条件では、末尾の数詞の読みの長さは一文字に設定されているので、“ふぁくしみりにひゃく”なる読みは“ふぁくしみりに”に制限される。
【０１０１】
このため、図３９に示すように、語表記対応表５は、“コピー１００”の読みは“こぴーひゃく”のままであるが、“コピー２００”の読みは“こぴーにひゃ”として制限され、“ファクシミリ２００”の読みは“ふぁくしみりに”に制限されている。
【０１０２】
このような構成において、音声認識装置の語表記対応表５を辞書作成装置が作成するため、その読み生成部９は、単語辞書８から取り出した数詞を読みの先頭部毎に語表記対応表５に格納する。この時、読み生成部９は、認識単語表２３を参照して複数の言語の連続する条件を認識し、この条件に従って複数の言語の連続する読みを生成する。
【０１０３】
例えば、“商品名Ａ＋商品Ａ”なる条件に整合する複数の連続する言語の読みは、“こぴーひゃく”“こぴーにひゃく”“こぴーにひゃくにじゅう”の三つが生成される。しかし、その末尾の数詞は三文字を超過しないように先頭部に制限されるので、上述した複数の言語の全体の読みは“こぴーひゃく”“こぴーにひゃ”の二つとなる。同様に、“商品名Ｂ＋商品Ｂ”なる条件に整合する複数の連続する言語の読みは、“ふぁくしみりにひゃくじゅう”“ふぁくしみりにひゃくにじゅう”“ふぁくしみりごひゃくごじゅう”などの五つが生成されるが、その末尾の数詞が先頭部の一文字に制限されるので、上述した複数の言語の全体の読みは“ふぁくしみりに”“ふぁくしみりご”の二つとなる。
【０１０４】
本実施の形態の音声認識装置では、連続的に発声される複数の言語を予め組み合わせて処理することにより認識精度を向上させ、その末尾の言語のみ読みを先頭部に制限することにより処理速度を向上させている。このとき、末尾の言語の読みの長さが分類に従って可変されるので、先頭の言語が長いほど末尾の言語を短くするようなことができ、処理速度が安定して向上している。そして、本実施の形態の辞書作成装置は、上述のような言語を簡易な処理で語表記対応表５に設定することができるので、高性能な音声認識装置を作成することができる。
【０１０５】
【発明の効果】
請求項１記載の発明の音声認識装置は、各種の言語が読みと共に予め格納された一般言語辞書と、言語の分類毎に読みの先頭部の長さが予め設定された長さ設定辞書と、前記一般言語辞書から取り出した言語の読みの先頭部からの長さを、前記分類毎に可変にして前記一般言語辞書から読み出し、前記言語に対応づけて語表記対応辞書に格納する読み生成手段と、を有する辞書作成装置と、を有し、音声入力手段に認識対象の音声が入力されると、音声認識手段は、音声の先頭部に先頭部の読みが一致する言語を語表記対応辞書から検出することで、音声認識の処理対象となる読みが先頭部に制限されており、その個数が削減されているので、この処理動作は高速に実行される。人間の発声は音声の先頭部で明瞭な傾向にあるので、誤認識の発生率も低下する。認識結果が複数となる場合は発生するが、これには高確率で正解が含まれるので、長時間の処理で一つの間違った認識結果が出力されるものより実用的である。なお、ここで言う先頭部は、先頭から一定の部分であるので、例えば、短い言語では、読みの全体が読みの先頭部となることもある。
また、言語の分類毎に読みの先頭部の長さが長さ設定辞書に予め設定されているので、読み生成手段は、生成する言語の読みの先頭部の長さを分類毎に可変する。例えば、特定の言語のみ読みの長さを延長すれば、音声認識装置の処理全体の所要時間は増加させることなく、特定の音声の認識精度が向上する。
【０１０６】
請求項２記載の発明の音声認識装置では、数詞の各桁の読みが桁数毎に桁対応辞書に予め格納されており、読み生成手段は、複数桁の数詞を言語として先頭部の読みを生成する場合、先頭部の所定桁の数詞の読みを一般言語辞書から検出すると共に、先頭部の所定桁の読みを桁対応辞書から検出して組み合わせることで、一般言語辞書が一般的なデータベースなどからなる場合、一桁の数詞は格納されていても複数桁の数詞は格納されていない可能性が高いが、このような場合でも複数桁の数詞の読みが簡易な処理で生成される。
【０１０７】
請求項３記載の発明の音声認識装置では、組み合わされる数詞により変化する各桁の読みが読み変化辞書に予め格納されており、読み生成手段は、複数桁の数詞を言語として読みを生成する場合に、読み変化辞書を参照して対応する数詞の読みを修正することで、単純な組み合わせでは不自然な形態となる読みが、自然な形態に修正される。
【０１０８】
請求項４記載の発明の音声認識装置では、言語の分類が言語分類辞書に予め設定されており、読み生成手段は、生成する読みに対応する言語を言語分類辞書の設定に従って分類し、この分類された言語の個数が予め設定された基準値を超過しなければ、読みを先頭部に制限しないことで、例えば、音声認識の出現頻度が高い言語の読みを先頭部に制限し、出現頻度が低い言語の読みを先頭部に制限しないようにすれば、音声認識装置の処理時間が短縮されると共に認識精度が向上する。
【０１０９】
請求項５記載の発明の音声認識装置では、言語の分類が言語分類辞書に予め設定されており、読み生成手段は、生成する読みに対応する言語を言語分類辞書の設定に従って分類し、この分類における読みの個数が予め設定された基準値を超過しないように、生成する言語の読みの先頭部の長さを可変することで、一つの分類の言語が多数でも読みの個数は一定となり、一つの分類の言語が少数の場合は読みが先頭部に制限されない。
【０１１０】
請求項６記載の発明の音声認識装置では、複数の言語の連続する条件が条件設定辞書に予め設定されており、読み生成手段は、条件設定辞書を参照して複数の連続する言語の読みを生成し、末尾に位置する言語のみ読みを先頭部に制限することで、連続が予想される複数の言語が予め組み合わされ、一つの言語と同様に取り扱かわれる。
【０１１１】
請求項７記載の発明の音声認識装置では、読み生成手段は、複数の連続する言語の全体の読みが予め設定された基準値を超過しないように、末尾に位置する言語の読みの先頭部の長さを制限するので、組み合わされる複数の言語の先頭の言語が長くとも全体の長さは一定となる。
【０１１２】
請求項８記載の発明の音声認識装置では、条件設定辞書は、複数の言語の連続する条件と共に、末尾に位置する言語の読みの長さが予め設定されており、読み生成手段は、末尾に位置する言語の読みを設定された長さに制限することで、末尾の言語の読みの長さが分類に従って可変されるので、先頭の言語が長いほど末尾の言語を短くするようなことができる。
【０１１３】
請求項９記載の発明の音声認識方法は、認識候補の言語を先頭部の読み毎に語表記対応辞書に予め格納しておき、認識対象の音声の先頭部に先頭部の読みが一致する言語を前記語表記対応辞書から検出するようにしたことで、認識対象の音声が入力されると、これに先頭部の読みが一致する言語が語表記対応辞書から検出される。このとき、音声認識の処理対象となる読みが先頭部に制限されており、その個数が削減されているので、この処理動作は高速に実行される。人間の発声は音声の先頭部で明瞭な傾向にあるので、誤認識の発生率も低下する。認識結果が複数となる場合は発生するが、これには高確率で正解が含まれるので、長時間の処理で一つの間違った認識結果が出力されるものより実用的である。
また、言語の分類毎に読みの先頭部の長さが長さ設定辞書に予め設定されており、読み生成手段は、生成する言語の読みの先頭部の長さを分類毎に可変する。例えば、特定の言語のみ読みの長さを延長すれば、音声認識装置の処理全体の所要時間は増加させることなく、特定の音声の認識精度が向上する。
【図面の簡単な説明】
【図１】本発明の実施の第一の形態の音声認識装置と辞書作成装置とを示す模式的なブロック図である。
【図２】音声認識装置と辞書作成装置とを実現したコンピュータシステムのハードウェアを示すブロック図である。
【図３】コンピュータシステムの外観を示す斜視図である。
【図４】一般言語辞書である単語辞書の記憶内容を示す模式図である。
【図５】語表記対応辞書である語表記対応表の記憶内容を示す模式図である。
【図６】音声認識装置による音声認識方法を示すフローチャートである。
【図７】本発明の実施の第二の形態の音声認識装置と辞書作成装置とを示すブロック図である。
【図８】表音単位辞書である音節表の記憶内容を示す模式図である。
【図９】語表記対応表の記憶内容を示す模式図である。
【図１０】本発明の実施の第三の形態の音声認識装置と辞書作成装置とを示すブロック図である。
【図１１】長さ設定辞書である認識単語表の記憶内容を示す模式図である。
【図１２】単語辞書の記憶内容を示す模式図である。
【図１３】語表記対応表の記憶内容を示す模式図である。
【図１４】本発明の実施の第四の形態の音声認識装置と辞書作成装置とを示すブロック図である。
【図１５】認識単語表の記憶内容を示す模式図である。
【図１６】単語辞書の記憶内容を示す模式図である。
【図１７】桁対応辞書である桁対応表の記憶内容を示す模式図である。
【図１８】語表記対応表の記憶内容を示す模式図である。
【図１９】本発明の実施の第五の形態の音声認識装置と辞書作成装置とを示すブロック図である。
【図２０】認識単語表の記憶内容を示す模式図である。
【図２１】単語辞書の記憶内容を示す模式図である。
【図２２】桁対応表の記憶内容を示す模式図である。
【図２３】読み変化辞書である読み変化表の記憶内容を示す模式図である。
【図２４】語表記対応表の記憶内容を示す模式図である。
【図２５】本発明の実施の第六の形態の辞書作成装置の言語分類辞書である認識単語表の記憶内容を示す模式図である。
【図２６】単語辞書の記憶内容を示す模式図である。
【図２７】語表記対応表の記憶内容を示す模式図である。
【図２８】本発明の実施の第七の形態の辞書作成装置の認識単語表の記憶内容を示す模式図である。
【図２９】単語辞書の記憶内容を示す模式図である。
【図３０】語表記対応表の記憶内容を示す模式図である。
【図３１】本発明の実施の第八の形態の辞書作成装置の条件設定辞書である認識単語表の記憶内容を示す模式図である。
【図３２】単語辞書の記憶内容を示す模式図である。
【図３３】語表記対応表の記憶内容を示す模式図である。
【図３４】本発明の実施の第九の形態の辞書作成装置の認識単語表の記憶内容の記憶内容を示す模式図である。
【図３５】単語辞書の記憶内容を示す模式図である。
【図３６】語表記対応表の記憶内容を示す模式図である。
【図３７】本発明の実施の第十の形態の辞書作成装置の認識単語表の記憶内容の記憶内容を示す模式図である。
【図３８】単語辞書の記憶内容を示す模式図である。
【図３９】語表記対応表の記憶内容を示す模式図である。
【符号の説明】
１，１１，２１，３１，４１音声認識装置
２，１２，２２，３２，４２辞書作成装置
３音声入力手段
４音声認識手段
５語表記対応辞書
８一般言語辞書
９読み生成手段
１３表音単位辞書
２３長さ設定辞書、言語分類辞書、条件設定辞書
３４桁対応辞書
４３読み変化辞書
１０１コンピュータ
１０３〜１０６，１０８情報記憶媒体

Claims

各種の言語が読みと共に予め格納された一般言語辞書と、
言語の分類毎に読みの先頭部の長さが予め設定された長さ設定辞書と、
前記一般言語辞書から取り出した言語の読みの先頭部からの長さを、前記分類毎に可変にして前記一般言語辞書から読み出し、前記言語に対応づけて語表記対応辞書に格納する読み生成手段と、を有する辞書作成装置と、
認識対象の音声が入力される音声入力手段と、
前記音声入力手段により入力された音声の先頭部の読みが一致する言語を前記辞書作成装置により作成された前記語表記対応辞書から検出する音声認識手段と、
前記音声認識手段の認識結果を出力する結果出力手段と、
前記結果出力手段の出力結果が複数の場合に、これをユーザの手動操作に対応して一つに選定する結果選択手段と、を有する
ことを特徴とする音声認識装置。
前記辞書作成装置は、数詞の各桁の読みが桁数毎に予め格納された桁対応辞書、を有し、
前記読み生成手段が複数桁ある数詞の言語の先頭部の読みを生成する場合、先頭部の所定桁の数詞の読みを、一般言語辞書から検出すると共に先頭部の所定桁の読みを前記桁対応辞書から検出して組み合わせ前記語表示対応辞書を生成する、
ことを特徴とする請求項１記載の音声認識装置。
前記辞書作成装置は、組み合わされる数詞により変化する各桁の読みが予め格納された読み変化辞書を有し、前記読み生成手段が複数桁の数詞を言語として先頭部の読みを生成する場合、前記読み変化辞書を参照して対応する数詞の読みを修正する、
ことを特徴とする請求項２記載の音声認識装置。
各種の言語が読みと共に予め格納された一般言語辞書と、
この一般言語辞書から取り出した言語を読みの先頭部毎に語表記対応辞書に格納する読み生成手段と、言語の分類が予め設定された言語分類辞書と、を設け、
前記読み生成手段は、生成する読みに対応する言語を前記言語分類辞書の設定に従って分類し、この分類された言語の個数が予め設定された基準値を超過しなければ、読みを先頭部に制限せずに前記語表記対応辞書に格納する辞書作成装置と組み合わされたことを特徴とする音声認識装置。
各種の言語が読みと共に予め格納された一般言語辞書と、
この一般言語辞書から取り出した言語を読みの先頭部毎に語表記対応辞書に格納する読み生成手段と、言語の分類が予め設定された言語分類辞書と、を設け、
前記読み生成手段は、生成する読みに対応する言語を前記言語分類辞書の設定に従って分類し、この分類における読みの個数が予め設定された基準値を超過しないように、生成する言語の読みの先頭部の長さを可変する辞書作成装置と組み合わされたことを特徴とする音声認識装置。
各種の言語が読みと共に予め格納された一般言語辞書と、
この一般言語辞書から取り出した言語を読みの先頭部毎に語表記対応辞書に格納する読み生成手段と、複数の言語の連続する条件が予め設定された条件設定辞書と、を設け、
前記読み生成手段は、前記条件設定辞書を参照して複数の連続する言語の読みを生成し、末尾に位置する言語のみ読みを先頭部に制限する辞書作成装置と組み合わされたことを特徴とする音声認識装置。
前記読み生成手段は、複数の連続する言語の全体の読みの長さが予め設定された基準値を超過しないように、末尾に位置する言語の読みの先頭部の長さを制限することを特徴とする請求項６記載の音声認識装置。
前記条件設定辞書は、複数の言語の連続する条件と共に、末尾に位置する言語の読みの長さが予め設定されており、前記読み生成手段は、末尾に位置する言語の読みを設定された長さに制限することを特徴とする請求項７記載の音声認識装置。
各種の言語が読みと共に予め格納された一般言語辞書から言語を取得し、取り出した言語の分類に基づき言語の分類毎に読みの先頭部の長さが予め設定された長さ設定辞書から読みの長さを取得し、取得した長さの前記言語の読みを語表記対応辞書に格納する辞書作成方法により作成された前記語表記対応辞書を用いた音声認識方法であって、
音声入力手段により入力された認識対象の音声の先頭部の読みが一致する前記言語を前記語表記対応辞書から検出し、
検出された結果を出力し、該結果が複数の場合にこれをユーザの手動操作に対応して一つに選定するようにした、
ことを特徴とする音声認識方法。