JP3865149B2 - 音声認識装置および方法、辞書作成装置および情報記憶媒体 - Google Patents
音声認識装置および方法、辞書作成装置および情報記憶媒体 Download PDFInfo
- Publication number
- JP3865149B2 JP3865149B2 JP16544796A JP16544796A JP3865149B2 JP 3865149 B2 JP3865149 B2 JP 3865149B2 JP 16544796 A JP16544796 A JP 16544796A JP 16544796 A JP16544796 A JP 16544796A JP 3865149 B2 JP3865149 B2 JP 3865149B2
- Authority
- JP
- Japan
- Prior art keywords
- reading
- dictionary
- language
- word
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、音声を認識する音声認識装置および方法と、音声認識装置の語表記対応辞書に言語と読みとを格納する辞書作成装置と、コンピュータのプログラムが予め書き込まれた情報記憶媒体に関する。
【0002】
【従来の技術】
現在、音声を認識する音声認識装置の実用化が要望されている。一般的な音声認識装置は、認識候補の言語毎に読みが格納された辞書を有しており、音声が入力されると辞書の読みを検索し、これが一致した言語として音声を認識する。
【0003】
【発明が解決しようとする課題】
上述のような音声認識装置は、音声に一致する読みを辞書から検索することにより、音声を言語として認識することができる。
【0004】
しかし、認識する言語の個数は膨大であるため、その読みを個々に検索していると処理が遅滞し、連続的に入力される音声をリアルタイムに認識するようなことが困難となる。
【0005】
このような課題を解決する手法の一つが、「自由発声音声認識における意味を考慮した2段LRパーザ」(南等、日本音響学会講演論文集、3-4-10,1993.3)に開示されている。これは電話番号案内の問い合わせタスクを想定しており、このような問い合わせは、項目に意味が有り文体には意味が無いことに着目し、意味を考慮することで認識候補の言語を減少させている。より具体的には、LRテーブルを意味のレベルで分類して作成し、意味が同等の複数の言語を一つにまとめるなどしている。
【0006】
しかし、タスクを極度に限定すれば、上述のようにして認識候補の言語を削減することができるが、一般的なタスクの場合、意味が同等の言語が多数の場合もあり、このような場合には認識候補の言語を有効に削減することができない。
【0007】
また、認識候補の言語を減少させる他の手法が、「メニューに基づく音声自然言語入力システム」(山本等、情報処理学会第47回全国大会、7M-2,1993.19)に開示されている。これは音声の入力単位を文節とし、システムが高い確率で処理を実行できる範囲に入力を制限して認識対象の言語を削減している。
【0008】
しかし、人間の発声は文頭に比較して文末が曖昧になる傾向があるため、上述のように入力単位を音節とすると誤認識が発生しやすい。また、連続した数詞などの発声では、“さんじゅう,さんじゅうに,さんびゃく”のように、最初は同一で最後が相違することが多いが、このような音声を上述した手法で認識すると、認識率が低いまま処理に時間を要する。
【0009】
このような場合、長時間の処理で一つの間違った認識結果が出力されるよりは、正解が含まれる複数の認識候補が短時間の処理で出力されるほうが望ましい。つまり、結果として出力される認識候補が複数でも、それに正解が含まれるならば、これを他の手法により一つの正解に絞り込むことが可能であり、このような場合には最初の処理が迅速であることが要求される。しかし、このようなことは、上述した手法に考慮されていない。
【0010】
【課題を解決するための手段】
請求項1記載の発明の音声認識装置は、各種の言語が読みと共に予め格納された一般言語辞書と、言語の分類毎に読みの先頭部の長さが予め設定された長さ設定辞書と、前記一般言語辞書から取り出した言語の読みの先頭部からの長さを、前記分類毎に可変にして前記一般言語辞書から読み出し、前記言語に対応づけて語表記対応辞書に格納する読み生成手段と、を有する辞書作成装置と、認識対象の音声が入力される音声入力手段と、前記音声入力手段により入力された音声の先頭部の読みが一致する言語を前記辞書作成装置により作成された前記語表記対応辞書から検出する音声認識手段と、 前記音声認識手段の認識結果を出力する結果出力手段と、前記結果出力手段の出力結果が複数の場合に、これをユーザの手動操作に対応して一つに選定する結果選択手段と、を有することを特徴とする。
音声入力手段に認識対象の音声が入力されると、音声認識手段は、音声の先頭部に先頭部の読みが一致する言語を語表記対応辞書から検出する。このとき、音声認識の処理対象となる読みが先頭部に制限されており、その個数が削減されているので、この処理動作は高速に実行される。人間の発声は音声の先頭部で明瞭な傾向にあるので、誤認識の発生率も低下する。認識結果が複数となる場合は発生するが、これには高確率で正解が含まれるので、長時間の処理で一つの間違った認識結果が出力されるものより実用的である。なお、ここで言う先頭部は、先頭から一定の部分であるので、例えば、短い言語では、読みの全体が読みの先頭部となることもある。
また、言語の分類毎に読みの先頭部の長さが長さ設定辞書に予め設定されており、読み生成手段は、生成する言語の読みの先頭部の長さを分類毎に可変する。例えば、特定の言語のみ読みの長さを延長すれば、音声認識装置の処理全体の所要時間は増加させることなく、特定の音声の認識精度が向上する。
【0011】
請求項2記載の発明の音声認識装置では、数詞の各桁の読みが桁数毎に桁対応辞書に予め格納されており、読み生成手段は、複数桁の数詞を言語として先頭部の読みを生成する場合、先頭部の所定桁の数詞の読みを一般言語辞書から検出すると共に、先頭部の所定桁の読みを桁対応辞書から検出して組み合わせる。一般言語辞書が一般的なデータベースなどからなる場合、一桁の数詞は格納されていても複数桁の数詞は格納されていない可能性が高いが、このような場合でも複数桁の数詞の読みが簡易な処理で生成される。
【0012】
請求項3記載の発明の音声認識装置では、組み合わされる数詞により変化する各桁の読みが読み変化辞書に予め格納されており、読み生成手段は、複数桁の数詞を言語として読みを生成する場合に、読み変化辞書を参照して対応する数詞の読みを修正する。単純な組み合わせでは不自然な形態となる読みが、自然な形態に修正される。
【0013】
請求項4記載の発明の音声認識装置では、言語の分類が言語分類辞書に予め設定されており、読み生成手段は、生成する読みに対応する言語を言語分類辞書の設定に従って分類し、この分類された言語の個数が予め設定された基準値を超過しなければ、読みを先頭部に制限しない。例えば、音声認識の出現頻度が高い言語の読みを先頭部に制限し、出現頻度が低い言語の読みを先頭部に制限しないようにすれば、音声認識装置の処理時間が短縮されると共に認識精度が向上する。
【0014】
請求項5記載の発明の音声認識装置では、言語の分類が言語分類辞書に予め設定されており、読み生成手段は、生成する読みに対応する言語を言語分類辞書の設定に従って分類し、この分類における読みの個数が予め設定された基準値を超過しないように、生成する言語の読みの先頭部の長さを可変する。一つの分類の言語が多数でも読みの個数は一定となり、一つの分類の言語が少数の場合は読みが先頭部に制限されない。
【0015】
請求項6記載の発明の音声認識装置では、複数の言語の連続する条件が条件設定辞書に予め設定されており、読み生成手段は、条件設定辞書を参照して複数の連続する言語の読みを生成し、末尾に位置する言語のみ読みを先頭部に制限する。連続が予想される複数の言語が予め組み合わされ、一つの言語と同様に取り扱かわれる。
【0016】
請求項7記載の発明の音声認識装置では、読み生成手段は、複数の連続する言語の全体の読みが予め設定された基準値を超過しないように、末尾に位置する言語の読みの先頭部の長さを制限するので、組み合わされる複数の言語の先頭の言語が長くとも全体の長さは一定となる。
【0017】
請求項8記載の発明の音声認識装置では、条件設定辞書は、複数の言語の連続する条件と共に、末尾に位置する言語の読みの長さが予め設定されており、読み生成手段は、末尾に位置する言語の読みを設定された長さに制限する。末尾の言語の読みの長さが分類に従って可変されるので、先頭の言語が長いほど末尾の言語を短くするようなことができる。
【0018】
請求項9記載の発明の音声認識方法は、認識候補の言語を先頭部の読み毎に語表記対応辞書に予め格納しておき、認識対象の音声の先頭部に先頭部の読みが一致する言語を前記語表記対応辞書から検出するようにした。認識対象の音声が入力されると、これに先頭部の読みが一致する言語が語表記対応辞書から検出される。このとき、音声認識の処理対象となる読みが先頭部に制限されており、その個数が削減されているので、この処理動作は高速に実行される。人間の発声は音声の先頭部で明瞭な傾向にあるので、誤認識の発生率も低下する。認識結果が複数となる場合は発生するが、これには高確率で正解が含まれるので、長時間の処理で一つの間違った認識結果が出力されるものより実用的である。
また、言語の分類毎に読みの先頭部の長さが長さ設定辞書に予め設定されており、読み生成手段は、生成する言語の読みの先頭部の長さを分類毎に可変する。例えば、特定の言語のみ読みの長さを延長すれば、音声認識装置の処理全体の所要時間は増加させることなく、特定の音声の認識精度が向上する。
【0019】
請求項9記載の発明の音声認識方法は、各種の言語が読みと共に予め格納された一般言語辞書から言語を取り出し、この取り出した言語を読みの先頭部毎に語表記対応辞書に格納するようにした。一般言語辞書から取り出された言語が読みの先頭部毎に語表記対応辞書に格納されるので、先頭が同一でも末尾が相違する複数の言語が一つの読みに集約される。このような語表記対応辞書を利用して音声認識装置が音声を認識する場合、この音声認識装置の処理対象となる読みの個数が削減される。
【0026】
【発明の実施の形態】
本発明の実施の第一の形態を図1ないし図6に基づいて以下に説明する。まず、図1に示すように、ここで例示する音声認識装置1と辞書作成装置2とは、一体に形成されており、図2および図3に示すように、そのハードウェアとしてデータ処理装置であるコンピュータシステム100を有している。このコンピュータシステム100は、コンピュータの主体としてCPU(Central Processing Unit)101を有しており、このCPU101には、バスライン102により、ROM(Read Only Memory)103、RAM(Random Access Memory)104、HD(Hard Disk…図示せず)を内蔵したHDD(HD Drive)105、FD(Floppy Disk)106が装填されるFDD(FD Drive)107、CD(Compact Disk)−ROM108が装填されるCD−ROMドライブ109、マウス110が接続されたキーボード111、ディスプレイ112、マイクロフォン113、通信I/F(Interface)114、等が接続されている。
【0027】
このコンピュータシステム100は、前記CPU101に各種の処理動作を実行させるプログラム等が予め設定されており、このプログラム等のソフトウェアは、例えば、情報記憶媒体である前記RAM104や前記HDD105のHD(図示せず)に予め書き込まれている。上述のようなコンピュータシステム100において、前記CPU101が前記RAM104等に格納されたプログラムに従って各種の処理動作を実行することにより、本実施の形態の音声認識装置1と辞書作成装置2とが実現されている。
【0028】
本実施の形態の音声認識装置1は、図1に示すように、音声入力手段である音声入力部3、音声認識手段である音声認識部4、語表記対応辞書である語表記対応表5、結果出力手段である結果出力部6、結果選択手段である結果選択部7、を有しており、前記音声認識部4に前記音声入力部3と前記語表記対応表5と前記結果出力部6と前記結果選択部7とが接続されている。本実施の形態の辞書作成装置2は、一般言語辞書である単語辞書8と読み生成手段である読み生成部9とを有しており、この読み生成部9には、前記単語辞書8と前記語表記対応表5とが接続されている。
【0029】
前記音声入力部3は、ハードウェアとして前記マイクロフォン113などを有しており、人間が発声した音声を電気信号に変換する。前記語表記対応表5と前記単語辞書8とは、前記RAM104等の情報記憶媒体を有しており、ここでは認識候補の言語として数詞が予め格納されている。前記単語辞書8は、例えば、音声認識のタスクに対応した数詞の既存のデータベースなどからなり、図4に示すように、認識候補となる各種の数詞が読みと共に予め格納されている。
【0030】
前記語表記対応表5には、図5に示すように、認識候補の数詞が先頭部の読み毎に予め格納されている。この数詞の先頭部の読みは、ここでは数詞の読みの先頭から一定の表記単位の部分として生成されており、具体的には、数詞の表記単位である文字の個数が三個以下となるように制限されている。このため、数詞である“115”の読みである“ひゃくじゅうご”などは先頭部の“ひゃく”に短縮されているが、“100”の“ひゃく”は“ひゃく”のままである。
【0031】
前記音声認識部4は、前記CPU101などを有しており、前記音声入力部3が認識対象の音声が入力されると、この音声の先頭部に先頭部の読みが一致する数詞を語表記対応表5から検出する。この場合、上述のように語表記対応表5に格納されている読みの先頭部は三文字なので、入力された音声も先頭の三文字のみが処理対象となる。
【0032】
前記結果出力部6は、前記ディスプレイ112などを有しており、前記音声認識部4の認識結果を出力する。前記結果選択部7は、前記キーボード111などを有しており、前記結果出力部6の出力結果が複数の場合に、これをユーザの手動操作に対応して一つに選定する。
【0033】
前記読み生成部9は、前記CPU101などを有しており、単語辞書8から取り出した数詞を、読みの先頭部毎に音声認識装置1の語表記対応表5に格納する。前述のように語表記対応表5には数詞の読みが先頭部の三文字毎に格納されるので、前記読み生成部9は、前記単語辞書8から取り出した数詞の読みの先頭から一定の表記単位である三文字の部分を先頭部として生成する。
【0034】
上述した音声認識装置1と辞書作成装置2との各部は、必要により前記キーボード111や前記ディスプレイ112や前記マイクロフォン113等のハードウェアを利用して実現されるが、その主体は前記RAM104等に書き込まれたソフトウェアに対応して前記CPU101が動作することにより実現されている。
【0035】
このように前記RAM104に書き込まれたソフトウェアは、前記CPU101が読取自在なソフトウェアからなる前記単語辞書8、この単語辞書8から言語を取り出させて読みの先頭部毎に前記語表記対応表5に格納させる前記CPU101の制御プログラム、前記CPU101が読取自在なソフトウェアからなる前記語表記対応表5、前記音声入力部3に認識対象の音声が入力されると、その先頭部に先頭部の読みが一致する言語を前記語表記対応表5から検出させる前記CPU101の制御プログラム、等からなる。
【0036】
このような構成において、音声認識装置1は、人間が発声する音声を認識する。より詳細には、図6に示すように、人間が発声した音声が音声入力部3に入力されると、音声認識部4は、この音声の先頭部の三文字を抽出し、始点を先頭に固定したスポッティングにより、音声の先頭部と語表記対応表5に格納された複数の読みとを照合させてスコアを算出し、このスコアが最高の読みを検出する。このように検出された数詞は結果出力部6から出力されるので、検出された数詞が複数の場合は結果選択部7の手動操作により一つに選定される。
【0037】
例えば、音声として“ひゃくじゅう”が入力されると、読みが“ひゃく”の数詞である“100,110,115”の三つが出力されるので、ユーザは所望により“110”を選択することになる。
【0038】
上述した音声認識装置1は、語表記対応表5に三文字の読み毎に数詞が格納されているので、処理対象となる読みの個数が削減されており、処理負担が軽減されて所要時間が短縮されている。しかも、このように読みの検索処理を三文字だけで実行するので、このことでも処理負担が軽減されて所要時間が短縮されている。
【0039】
人間の発声は文頭に比較して文末が曖昧になる傾向があるが、上述した音声認識装置1は、音声の先頭部のみを処理対象とするので、誤認識が発生しにくい。この場合、上述のように認識結果が複数となることが多発するが、この複数の認識候補には高確率で正解が含まれており、短時間の処理で出力されるので、これを一つに選定する第二の処理を実行しても全体の所要時間は短く、長時間の処理で一つの間違った認識結果が出力されるものより実用的である。
【0040】
音声認識装置1の語表記対応表5は、上述のように数詞が特殊な読み毎に格納されているが、これは辞書作成装置2により機械的に作成される。つまり、単語辞書8には、図4に示すように、認識候補となる各種の数詞が読みと共に予め格納されているので、読み生成部9が、単語辞書8から取り出した数詞を、読みの先頭部毎に音声認識装置1の語表記対応表5に格納する。
【0041】
より具体的には、最初に単語辞書8から数詞“100”が取り出された場合、その読みは“ひゃく”なので、この“ひゃく”が読みの先頭部として“100”が語表記対応表5に格納される。つぎに、数詞“110”が取り出された場合、その読みは“ひゃくじゅう”なので先頭部は“ひゃく”であり、この数詞“110”は上述した“100”と共に語表記対応表5の“ひゃく”の読みの位置に格納される。
【0042】
このため、語表記対応表5には、多数の数詞が少数の読みに割り当てられて格納され、先頭が同一でも末尾が相違して誤認識が発生しやすい複数の数詞が一つの読みに集約される。このような音声認識装置1の語表記対応表5が、辞書作成装置2により既存の単語辞書8から機械的に作成されるので、この作業を人間が実行する必要がない。このように数詞の読みを表記単位である文字の個数により先頭部に制限するので、簡易な処理で読みの先頭部の長さを一定に共通化することができる。
【0043】
なお、本発明は上記した実施の形態に限定されるものではなく、各種の変形を許容する。例えば、ここでは音声認識装置1と辞書作成装置2とが一体であることを例示したが、これを別体の装置とし、音声認識装置1の開発時に辞書作成装置2を使用し、製品として出荷される音声認識装置1には辞書作成装置2を搭載しないことも可能である。
【0044】
また、本実施の形態では、RAM104等にソフトウェアとして格納されているプログラムに従ってCPU101が動作することにより、音声認識装置1や辞書作成装置2の各部が実現されることを例示した。しかし、このような各部の各々を固有のハードウェアとして製作することも可能であり、一部をソフトウェアとしてRAM104等に格納するとともに一部をハードウェアとして製作することも可能である。また、所定のソフトウェアが格納されたRAM104等や各部のハードウェアを、例えば、ファームウェアとして製作することも可能である。
【0045】
また、本実施の形態では、コンピュータシステム100の起動時に、HDD105に格納されているソフトウェアがRAM104に複写され、このようにRAM104に格納されたソフトウェアをCPU101が読み取ることを想定したが、このようなソフトウェアをHDD105に格納したままCPU101に利用させることや、ROM103やRAM104に予め書き込んでおくことも可能である。
【0046】
さらに、単体で取り扱える情報記憶媒体であるFD106やCD−ROM109にソフトウェアを書き込んでおき、このFD106等からRAM104等にソフトウェアをインストールすることも可能であり、このようなインストールを実行することなくFD106等に書き込まれたソフトウェアをCPU101が適宜読み取ってデータ処理を実行することも可能である。
【0047】
また、このような音声認識装置1や辞書作成装置2の各部を実現するプログラムを、複数のソフトウェアの組み合わせにより実現することも可能であり、その場合、単体の製品となる情報記憶媒体には必要最小限のソフトウェアのみを格納しておけば良い。例えば、オペレーティングシステムが実装されているコンピュータシステム100に、CD−ROM108等の情報記憶媒体によりアプリケーションソフトを提供するような場合、音声認識装置1や辞書作成装置2の各部を実現するソフトウェアは、アプリケーションソフトとオペレーティングシステムとの組み合わせで実現されるので、オペレーティングシステムに依存する部分のソフトウェアはアプリケーションソフトの情報記憶媒体から省略することができる。
【0048】
また、このように情報記憶媒体に書き込んだソフトウェアをコンピュータに供給する手法は、その情報記憶媒体をコンピュータに直接に装填することに限定されない。例えば、上述のようなソフトウェアをホストコンピュータの情報記憶媒体に書き込み、このホストコンピュータを通信ネットワークにより端末コンピュータに接続し、ホストコンピュータからデータ通信により端末コンピュータにソフトウェアを供給することも可能である。
【0049】
この場合、端末コンピュータが自身の情報記憶媒体にソフトウェアをダウンロードした状態でスタンドアロンのデータ処理を実行することも可能であるが、ソフトウェアをダウンロードすることなくホストコンピュータとのリアルタイムのデータ通信によりデータ処理を実行することも可能である。この場合、ホストコンピュータと端末コンピュータとを通信ネットワークにより接続したシステム全体が、本発明の音声認識装置1や辞書作成装置2に相当することになる。
【0050】
つぎに、本発明の実施の第二の形態を図7ないし図9に基づいて以下に説明する。なお、この実施の第二の形態に関し、上述した第一の形態と同一の部分は、同一の名称および符号を用いて詳細な説明は省略する。
【0051】
まず、図7に示すように、ここで例示する音声認識装置11と辞書作成装置12も一体に形成されており、この辞書作成装置12には、表音単位辞書である音節表13が付加されている。この音節表13は、RAMなどの記憶デバイスを有しており、図8に示すように、数詞の読みの表音単位である音節が予め格納されている。読み生成部9は、単語辞書8から取り出した数詞を読みの先頭部毎に語表記対応表5に格納する際、前記音節表13を参照して数詞の読みの先頭から二つの音節の部分を先頭部として生成する。
【0052】
このような構成において、本実施の形態の音声認識装置11も、人間が発声する音声を認識する。この時、音声認識部4は、この音声の先頭部と語表記対応表5に格納された複数の読みとを照合させてスコアを算出し、このスコアが最高の読みを検出する。この音声認識装置11は、音声を照合する単位を表音単位である音節とするので、音声認識の処理動作に人間の発声の特徴を良好に反映させることができる。
【0053】
そして、辞書作成装置12も、上述のような音声認識装置11の語表記対応表5を作成する。その読み生成部9は、単語辞書8から取り出した数詞を読みの先頭部毎に語表記対応表5に格納する際、音節表13を参照して読みを二音節に制限する。このように数詞の読みを表音単位である音節の個数により先頭部に制限するので、簡易な処理で読みの先頭部の長さを一定に共通化することができる。
【0054】
つぎに、本発明の実施の第三の形態を図10ないし図13に基づいて以下に説明する。なお、この実施の第三の形態に関し、上述した第二の形態と同一の部分は、同一の名称および符号を用いて詳細な説明は省略する。
【0055】
まず、図10に示すように、ここで例示する音声認識装置21と辞書作成装置22も一体に形成されており、この辞書作成装置22には、言語分類辞書である認識単語表23が付加されている。
【0056】
この認識単語表23は、RAMなどの記憶デバイスを有しており、図11に示すように、言語である数詞の分類が“商品A,商品B”として設定され、これらの分類毎に読みの先頭部の長さが“2,3”として設定されている。ここでは商品Aがコピーマシンで商品Bがファクシミリなどと想定しており、これに対応する数詞は商品の型式番号を想定している。
【0057】
そして、読み生成部9は、単語辞書8から取り出した数詞を語表記対応表5に設定する場合に読みを先頭部に制限する際、生成する読みの先頭部の長さを前記認識単語表23の設定内容に対応して分類毎に可変する。このため、図12に示すように、前記単語辞書8に格納された数詞の各々にも“商品A,商品B”の分類が設定されており、図13に示すように、商品Aの数詞の読みは二音節からなるが、商品Bの数詞の読みは三音節からなる。
【0058】
このような構成において、本実施の形態の音声認識装置21も、人間が発声する音声を認識する。この時、音声認識部4は、この音声の先頭部と語表記対応表5に格納された複数の読みとを照合させてスコアを算出し、このスコアが最高の読みを検出する。このため、商品Aに分類される数詞“ひゃく”は二音節目で認識されるが、商品Bに分類される数詞“にひゃく”は三音節目で認識される。
【0059】
音声認識装置21は、認識する音声の読みの長さが言語の分類に従って可変されるので、例えば、特定の言語のみ読みの長さを延長して処理全体の所要時間は増加させることなく特定の音声の認識精度を向上させるようなことができ、音声認識の精度や速度を言語の分類に従って調節することができる。
【0060】
そして、辞書作成装置22は、上述のような音声認識装置21の語表記対応表5を作成する。その読み生成部9は、単語辞書8から取り出した数詞を読みの先頭部毎に語表記対応表5に格納する際、認識単語表23を参照して読みの長さを分類毎に可変する。このように数詞の読みの長さを分類毎に可変するので、上述のように音声認識の精度や速度が言語の分類に従って調節された音声認識装置21の語表記対応表5を、簡易な処理で作成することができる。
【0061】
つぎに、本発明の実施の第四の形態を図14ないし図18に基づいて以下に説明する。なお、この実施の第四の形態に関し、前述した第一の形態と同一の部分は、同一の名称および符号を用いて詳細な説明は省略する。
【0062】
まず、図14に示すように、ここで例示する音声認識装置31と辞書作成装置32も一体に形成されている。この辞書作成装置32には、認識単語辞書である認識単語表33と桁対応辞書である桁対応表34とが付加されている。
【0063】
前記認識単語表33は、RAMなどの記憶デバイスを有しており、図15に示すように、認識する言語として桁数が複数の数詞が“400,410,…”などと設定されているが、これらの数詞には読みは設定されていない。一方、単語辞書8には、数詞が読みと共に格納されているが、これは記憶内容が簡素化されており、図16に示すように、一桁の数詞“4,5,…”などは格納されているが、複数桁の数詞は格納されていない。前記桁対応表34も、RAMなどの記憶デバイスを有しており、図17に示すように、数詞の各桁の読みが桁数毎に予め格納されている。
【0064】
そして、読み生成部9は、前記認識単語表33から取り出した複数桁の数詞を言語として読みを生成する場合、言語の先頭から一定の表音単位の部分を読みの先頭部として生成するため、ここでは複数桁の数詞の読みを先頭の一桁の読みから生成する。数詞の先頭部の一桁の数詞と桁数とを判断し、この数詞の読みを単語辞書8から検出すると共に、桁数の読みを前記桁対応表34から検出し、これらを組み合わせて語表記対応表5に格納する。このため、音声認識装置1の語表記対応表5は、先頭部の一桁のみに対応した読みで数詞が格納されており、音声認識部4は、数詞の音声を先頭部の一桁のみで認識する。
【0065】
このような構成において、本実施の形態の音声認識装置31も、人間が発声する音声を語表記対応表5に格納された数詞として認識する。この語表記対応表5には、数詞が先頭部の一桁のみに対応した読みで格納されているので、音声認識部4は、数詞の音声を先頭部の一桁のみで認識する。
【0066】
辞書作成装置32は、上述のような音声認識装置31の語表記対応表5を作成する。その読み生成部9は、語表記対応表5に格納する複数桁の数詞を認識単語表33から取り出し、この複数桁の数詞の先頭部の一桁の数詞と桁数とを判断し、この数詞の読みを単語辞書8から検出すると共に桁数の読みを桁対応表34から検出して組み合わせる。例えば、複数桁の数詞として“400”が取り出されると、先頭部の一桁は数詞が“4”で桁数が“3”なので、この数詞の読み“よん”と桁数の読み“ひゃく”とが組み合わされ、先頭部の読みは“よんひゃく”となる。
【0067】
前述のように商品の型式番号などを認識対象の言語とする場合、このような数詞は桁数が多数である場合が一般的である。しかし、単語辞書8が一般的なデータベースなどからなる場合、一桁の数詞は格納されていても複数桁の数詞は格納されていない可能性が高い。このような場合でも、上述した辞書作成装置32は複数桁の数詞の読みを簡易な処理で生成することができ、音声認識装置31は、複数桁の数詞を的確な読みと共に語表記対応表5に獲得することができる。
【0068】
しかも、上述のように辞書作成装置32は、複数桁の数詞の先頭の一桁から読みを生成するので、簡易な処理で読みの長さを一定にすることができ、この処理が言語の表音単位で実行されているので、音声認識装置31の処理動作に人間の発声の特徴を良好に反映させることができる。つまり、数字や漢字などの表意文字は、一文字に複数の音節が設定されるが、その発声は表意文字の表記単位で区切られることが一般的なので、これを読みに反映させれば認識精度を向上させることができる。
【0069】
つぎに、本発明の実施の第五の形態を図19ないし図24に基づいて以下に説明する。なお、この実施の第五の形態に関し、上述した第四の形態と同一の部分は、同一の名称および符号を用いて詳細な説明は省略する。
【0070】
まず、図19に示すように、ここで例示する音声認識装置41と辞書作成装置42も一体に形成されており、この辞書作成装置42には、読み変化辞書である読み変化表43が付加されている。
【0071】
この読み変化表43は、RAMなどの記憶デバイスを有しており、図23に示すように、組み合わされる数詞により変化する桁の読みが予め格納されている。そして、読み生成部9は、認識単語表33から取り出した複数桁の数詞を言語として読みを生成する場合、その数詞の先頭部の一桁の数詞の読みを単語辞書8から検出すると共に桁数の読みを前記桁対応表34から検出して組み合わせるが、この場合に前記読み変化表43を参照して対応する数詞の読みを修正する。
【0072】
このような構成において、辞書作成装置42は音声認識装置41の語表記対応表5を作成する。その読み生成部9は、複数桁の数詞の読みを先頭部の一桁の数詞と桁数との読みの組み合わせで生成する場合に、読み変化表43を参照して対応する数詞の読みは修正する。例えば、複数桁の数詞として“300”が取り出されると、先頭部の一桁は数詞が“4”で桁数が“3”なので、この数詞の読み“さん”と桁数の読み“ひゃく”とが単純に組み合わされると“さんひゃく”となるが、これは自然な読みである“さんびゃく”に修正される。
【0073】
上述した辞書作成装置42は、複数桁の数詞の読みを簡易な処理で生成することができ、単純な組み合わせでは不自然な形態となる読みは自然な形態に修正することができ、音声認識装置41は、複数桁の数詞を的確な読みと共に語表記対応表5に獲得することができる。
【0074】
つぎに、本発明の実施の第六の形態を図25ないし図27に基づいて以下に説明する。なお、この実施の第六の形態に関し、前述した第三の形態と同一の部分は、同一の名称および符号を用いて詳細な説明は省略する。
【0075】
図25に示すように、言語分類辞書となる認識単語表23には、言語である数詞の分類が“商品A,商品B”として設定されているが、ここでは読みの先頭部の長さは設定されていない。そして、読み生成部9は、前述のように単語辞書8から取り出した数詞を語表記対応表5に設定する場合に、その読みを音節数などにより先頭部に制限する際、生成する読みに対応する言語を前記認識単語表23の設定に従って分類し、この分類された言語の個数が、予め設定された“5”などの基準値を超過しなければ、その読みは先頭部に制限しない。このため、図26に示すように、前記単語辞書8に格納された数詞の各々にも“商品A,商品B”の分類が設定されており、図27に示すように、語表記対応表5に設定された商品Aの数詞の読みは先頭部の二音節に制限されているが、商品Bの数詞の読みは制限されていない。
【0076】
このような構成において、音声認識装置の語表記対応表5を辞書作成装置が作成するため、その読み生成部9は、単語辞書8から取り出した数詞を読みの先頭部毎に語表記対応表5に格納する。この時、生成する読みに対応する言語を認識単語表23の設定に従って分類し、この分類された言語の個数が予め設定された基準値を超過しなければ、その読みは先頭部に制限しない。
【0077】
例えば、数詞として“100”が取り出されると、この数詞の分類が認識単語表23から“商品A”として検出され、この分類の数詞は七個であることも検出される。これは基準値である五個より多数なので、“商品A”の分類の数詞は読みが先頭部の二音節に制限されることになり、ここでは全部が“ひゃく”として設定される。一方、数詞として“200”が取り出されて分類が“商品B”として検出されると、この分類の個数である二個は基準値である五個より少数なので、“商品B”の分類の数詞は読みが先頭部に制限されない。
【0078】
上述のように数詞が設定された音声認識装置は、同一の分類が多数の言語は読みが先頭部に制限されているので、出現頻度が高い言語は読みの先頭部で認識されることになり、処理時間を短縮することができる。一方、同一の分類が少数の数詞は読みが先頭部に制限されないので、出現頻度が低い言語は読みの全体で認識されることになり、認識精度を向上させることができる。そして、本実施の形態の辞書作成装置は、上述のような言語を簡易な処理で語表記対応表5に設定することができるので、高性能な音声認識装置を作成することができる。
【0079】
つぎに、本発明の実施の第七の形態を図28ないし図30に基づいて以下に説明する。なお、この実施の第七の形態に関し、上述した第六の形態と同一の部分は、同一の名称および符号を用いて詳細な説明は省略する。
【0080】
図28に示すように、言語分類辞書となる認識単語表23には、言語である数詞の分類が“商品A,商品B”として設定されており、図29に示すように、前記単語辞書8に格納された数詞の各々にも“商品A,商品B”の分類が設定されている。読み生成部9は、単語辞書8から取り出して語表記対応表5に設定する数詞の読みを先頭部に制限する際、生成する読みに対応する言語を認識単語表23の設定に従って分類し、この分類における読みの個数が、予め設定された“2”などの基準値を超過しないように、生成する言語の読みの先頭部の長さを可変する。
【0081】
より詳細には、最初に認識単語表23に従って単語辞書8から一つの分類の全部の言語が取り出され、その読みが先頭から一文字ずつ増加される。この読みの個数が基準値を超過すると、その直前の読みを採用する。このため、図30に示すように、語表記対応表5は、商品Aの数詞の読みは先頭部の二音節に制限されているが、商品Bの数詞の読みは制限されていない。
【0082】
このような構成において、音声認識装置の語表記対応表5を辞書作成装置が作成するため、その読み生成部9は、単語辞書8から取り出した数詞を読みの先頭部毎に語表記対応表5に格納する。この時、生成する読みに対応する言語を認識単語表23の設定に従って分類し、この分類された言語の読みの個数が基準値を超過しないように、読みの長さを可変する。
【0083】
例えば、“商品A”の分類の数詞として“100,110,120,125,127,130,170”が取り出されると、これらの読みは一文字では“ひ”の一個なので、これは基準値である二個より少数である。この読みの文字数を一つずつ増加させても、“ひゃく”までは個数は一個で基準値より少数である。しかし、読みの文字数を四つまで増加させると、読みは“ひゃく”“ひゃくじ”“ひゃくに”“ひゃくさ”“ひゃくな”の五個となり、これは基準値である二個を超過している。そこで、この場合は読みの個数が基準値を超過する直前の状態で採用され、“商品A”の分類の数詞の読みは“ひゃく”の一個となる。
【0084】
一方、“商品B”の分類の数詞として“200,220”が取り出された場合、これは個数が二個で基準値と同数なので、読みの文字数を一つずつ増加させても、その個数が基準値を超過することはない。このため、これらの読みは先頭部に制限されず、“にひゃく”“にひゃくにじゅう”が各々に設定される。
【0085】
上述のように数詞が設定された音声認識装置は、一つの分類に対して読みの個数が制限されているので、一つの分類の言語が多数でも読みの個数は一定となり、処理時間を短縮することができる。一方、一つの分類の言語が少数の場合は、その読みは先頭部に制限されないので、出現頻度が低い言語は読みの全体で認識されることになり、認識精度を向上させることができる。そして、本実施の形態の辞書作成装置は、上述のような言語を簡易な処理で語表記対応表5に設定することができるので、高性能な音声認識装置を作成することができる。
【0086】
つぎに、本発明の実施の第八の形態を図31ないし図33に基づいて以下に説明する。なお、この実施の第八の形態に関し、前述した第三の形態と同一の部分は、同一の名称および符号を用いて詳細な説明は省略する。
【0087】
図31に示すように、条件設定辞書となる認識単語表23には、複数の言語の連続する条件が設定されている。この条件は、言語である商品の型式名称“Aタイプ,Bタイプ”と、言語である商品の型式番号の分類“商品A,商品B”とが、言語の連続を示す“+”により個々に連結されており、“Aタイプ+商品A,…”などと設定されている。図32に示すように、単語辞書8は、数詞の各々に“商品A,商品B”の分類と読みとが設定されているが、名称の言語“Aタイプ,Bタイプ”の各々にも読みが設定されている。
【0088】
読み生成部9は、単語辞書8から取り出して語表記対応表5に設定する数詞の読みを先頭部に制限する際、前記認識単語表23を参照して複数の連続する言語の読みを生成し、その末尾に位置する言語のみ読みを先頭部に制限する。より詳細には、前記認識単語表23には“Aタイプ+商品A,…”なる条件が設定されているので、これに整合する複数の連続する言語の読みは“えーたいぷひゃく”などとなり、その末尾に位置する数詞“ひゃく”のみ読みが音節数などにより先頭部に制限される。このため、図33に示すように、語表記対応表5は、“Aタイプ100”などのように連続する言語が設定されているが、その読みは後部の数詞の読みが二音節に制限されている。
【0089】
このような構成において、音声認識装置の語表記対応表5を辞書作成装置が作成するため、その読み生成部9は、単語辞書8から取り出した数詞を読みの先頭部毎に語表記対応表5に格納する。この時、読み生成部9は、認識単語表23を参照して複数の言語の連続する条件を認識し、この条件に従って複数の言語の連続する読みを生成する。
【0090】
例えば、“Aタイプ+商品A,…”なる条件に整合する複数の連続する言語の読みは、“えーたいぷひゃく”“えーたいぷひゃくじゅう”“えーたいぷひゃくにじゅう”の三つが生成される。しかし、その末尾に位置する数詞“ひゃく,ひゃくじゅう,ひゃくにじゅう”の読みが先頭部の二音節に制限されるので、これらの数詞の読みは何れも“ひゃく”となり、“Aタイプ”の連続する言語の読みは“えーたいぷひゃく”の一つとなる。
【0091】
上述した“Aタイプ100”や“Bタイプ200”などの連続する言語は、“商品型式+型式番号”を想定しており、このような言語は特定の組み合わせで連続的に一息で発声されることが多い。そこで、本実施の形態の音声認識装置では、上述のような複数の言語を予め組み合わせて一つの言語として処理することにより認識精度を向上させ、その末尾の言語のみ読みを先頭部に制限することにより処理速度を向上させている。そして、本実施の形態の辞書作成装置は、上述のような言語を簡易な処理で語表記対応表5に設定することができるので、高性能な音声認識装置を作成することができる。
【0092】
つぎに、本発明の実施の第九の形態を図34ないし図36に基づいて以下に説明する。なお、この実施の第九の形態に関し、上述した第八の形態と同一の部分は、同一の名称および符号を用いて詳細な説明は省略する。
【0093】
図34に示すように、条件設定辞書となる認識単語表23には、複数の言語の連続する条件が設定されており、この条件は、言語である商品の型式名称の分類“商品名A,商品名B”と、言語である商品の型式番号の分類“商品A,商品B”とが、言語の連続を示す“+”により個々に連結されている。図35に示すように、単語辞書8には、型式名称の言語である“コピー,ファクシミリ”の各々に“商品名A,商品名B”の分類と読みとが設定されており、型式番号の数詞“100,…”の各々に“商品A,商品B”の分類と読みとが設定されている。
【0094】
読み生成部9は、単語辞書8から取り出して語表記対応表5に設定する数詞の読みを先頭部に制限する際、前記認識単語表23を参照して複数の連続する言語の読みを生成し、その全体の読みが予め八文字などと設定された基準値を超過しないように、末尾に位置する言語の読みの先頭部の長さを制限する。より詳細には、前記認識単語表23には“商品名A+商品A,…”なる条件が設定されているので、これに整合する複数の連続する言語の読みは“こぴーひゃく”などとなり、この全体の読みが八文字を超過しないように、その末尾に位置する数詞“ひゃく”の読みが先頭部に制限される。このため、図36に示すように、語表記対応表5は、“コピー100”の読みは“こぴーひゃく”のままであるが、“ファクシミリ100”の読みは八文字の“ふぁくしみりひゃ”として制限されている。
【0095】
このような構成において、音声認識装置の語表記対応表5を辞書作成装置が作成するため、その読み生成部9は、単語辞書8から取り出した数詞を読みの先頭部毎に語表記対応表5に格納する。この時、読み生成部9は、認識単語表23を参照して複数の言語の連続する条件を認識し、この条件に従って複数の言語の連続する読みを生成する。
【0096】
例えば、“商品名A+商品A”なる条件に整合する複数の連続する言語の読みは、“こぴーひゃく”“こぴーさんびゃく”“こぴーさんびゃくにじゅう”の三つが生成される。しかし、その全体が八文字を超過しないように末尾の数詞の読みが先頭部に制限されるので、上述した複数の連続する言語の全体の読みは“こぴーひゃく”“こぴーさんびゃく”の二つとなる。
【0097】
本実施の形態の音声認識装置では、連続的に発声される複数の言語を予め組み合わせて処理することにより認識精度を向上させ、その末尾の言語のみ読みを先頭部に制限することにより処理速度を向上させている。このとき、言語の読みが基準値を超過しないので、先頭の言語が長くとも全体の長さは一定となり、処理速度が安定して向上している。そして、本実施の形態の辞書作成装置は、上述のような言語を簡易な処理で語表記対応表5に設定することができるので、高性能な音声認識装置を作成することができる。
【0098】
つぎに、本発明の実施の第十の形態を図37ないし図39に基づいて以下に説明する。なお、この実施の第十の形態に関し、上述した第九の形態と同一の部分は、同一の名称および符号を用いて詳細な説明は省略する。
【0099】
図37に示すように、条件設定辞書となる認識単語表23には、複数の言語の連続する条件が“商品名A+商品A,…”などと設定されており、さらに、この末尾の分類に読みの先頭部の長さが“2,…”などとして設定されている。図38に示すように、単語辞書8には、型式名称の言語である“コピー,…”の各々に“商品名A,…”の分類と読みとが設定されており、型式番号の数詞“100,…”の各々に“商品A,…”の分類と読みとが設定されている。
【0100】
読み生成部9は、単語辞書8から取り出して語表記対応表5に設定する数詞の読みを先頭部に制限する際、前記認識単語表23を参照して複数の連続する言語の読みを生成し、その末尾に位置する言語の読みの先頭部の長さを前記認識単語表23に設定された長さに制限する。より詳細には、前記認識単語表23には“商品名A+商品A”なる条件が設定されているので、これに整合する複数の連続する言語の読みは“こぴーにひゃく”などとなるが、その末尾の数詞の読みの長さは三文字に設定されているので、この読みは“こぴーにひゃ”に制限される。一方、“商品名B+商品B”なる条件では、末尾の数詞の読みの長さは一文字に設定されているので、“ふぁくしみりにひゃく”なる読みは“ふぁくしみりに”に制限される。
【0101】
このため、図39に示すように、語表記対応表5は、“コピー100”の読みは“こぴーひゃく”のままであるが、“コピー200”の読みは“こぴーにひゃ”として制限され、“ファクシミリ200”の読みは“ふぁくしみりに”に制限されている。
【0102】
このような構成において、音声認識装置の語表記対応表5を辞書作成装置が作成するため、その読み生成部9は、単語辞書8から取り出した数詞を読みの先頭部毎に語表記対応表5に格納する。この時、読み生成部9は、認識単語表23を参照して複数の言語の連続する条件を認識し、この条件に従って複数の言語の連続する読みを生成する。
【0103】
例えば、“商品名A+商品A”なる条件に整合する複数の連続する言語の読みは、“こぴーひゃく”“こぴーにひゃく”“こぴーにひゃくにじゅう”の三つが生成される。しかし、その末尾の数詞は三文字を超過しないように先頭部に制限されるので、上述した複数の言語の全体の読みは“こぴーひゃく”“こぴーにひゃ”の二つとなる。同様に、“商品名B+商品B”なる条件に整合する複数の連続する言語の読みは、“ふぁくしみりにひゃくじゅう”“ふぁくしみりにひゃくにじゅう”“ふぁくしみりごひゃくごじゅう”などの五つが生成されるが、その末尾の数詞が先頭部の一文字に制限されるので、上述した複数の言語の全体の読みは“ふぁくしみりに”“ふぁくしみりご”の二つとなる。
【0104】
本実施の形態の音声認識装置では、連続的に発声される複数の言語を予め組み合わせて処理することにより認識精度を向上させ、その末尾の言語のみ読みを先頭部に制限することにより処理速度を向上させている。このとき、末尾の言語の読みの長さが分類に従って可変されるので、先頭の言語が長いほど末尾の言語を短くするようなことができ、処理速度が安定して向上している。そして、本実施の形態の辞書作成装置は、上述のような言語を簡易な処理で語表記対応表5に設定することができるので、高性能な音声認識装置を作成することができる。
【0105】
【発明の効果】
請求項1記載の発明の音声認識装置は、各種の言語が読みと共に予め格納された一般言語辞書と、言語の分類毎に読みの先頭部の長さが予め設定された長さ設定辞書と、前記一般言語辞書から取り出した言語の読みの先頭部からの長さを、前記分類毎に可変にして前記一般言語辞書から読み出し、前記言語に対応づけて語表記対応辞書に格納する読み生成手段と、を有する辞書作成装置と、を有し、音声入力手段に認識対象の音声が入力されると、音声認識手段は、音声の先頭部に先頭部の読みが一致する言語を語表記対応辞書から検出することで、音声認識の処理対象となる読みが先頭部に制限されており、その個数が削減されているので、この処理動作は高速に実行される。人間の発声は音声の先頭部で明瞭な傾向にあるので、誤認識の発生率も低下する。認識結果が複数となる場合は発生するが、これには高確率で正解が含まれるので、長時間の処理で一つの間違った認識結果が出力されるものより実用的である。なお、ここで言う先頭部は、先頭から一定の部分であるので、例えば、短い言語では、読みの全体が読みの先頭部となることもある。
また、言語の分類毎に読みの先頭部の長さが長さ設定辞書に予め設定されているので、読み生成手段は、生成する言語の読みの先頭部の長さを分類毎に可変する。例えば、特定の言語のみ読みの長さを延長すれば、音声認識装置の処理全体の所要時間は増加させることなく、特定の音声の認識精度が向上する。
【0106】
請求項2記載の発明の音声認識装置では、数詞の各桁の読みが桁数毎に桁対応辞書に予め格納されており、読み生成手段は、複数桁の数詞を言語として先頭部の読みを生成する場合、先頭部の所定桁の数詞の読みを一般言語辞書から検出すると共に、先頭部の所定桁の読みを桁対応辞書から検出して組み合わせることで、一般言語辞書が一般的なデータベースなどからなる場合、一桁の数詞は格納されていても複数桁の数詞は格納されていない可能性が高いが、このような場合でも複数桁の数詞の読みが簡易な処理で生成される。
【0107】
請求項3記載の発明の音声認識装置では、組み合わされる数詞により変化する各桁の読みが読み変化辞書に予め格納されており、読み生成手段は、複数桁の数詞を言語として読みを生成する場合に、読み変化辞書を参照して対応する数詞の読みを修正することで、単純な組み合わせでは不自然な形態となる読みが、自然な形態に修正される。
【0108】
請求項4記載の発明の音声認識装置では、言語の分類が言語分類辞書に予め設定されており、読み生成手段は、生成する読みに対応する言語を言語分類辞書の設定に従って分類し、この分類された言語の個数が予め設定された基準値を超過しなければ、読みを先頭部に制限しないことで、例えば、音声認識の出現頻度が高い言語の読みを先頭部に制限し、出現頻度が低い言語の読みを先頭部に制限しないようにすれば、音声認識装置の処理時間が短縮されると共に認識精度が向上する。
【0109】
請求項5記載の発明の音声認識装置では、言語の分類が言語分類辞書に予め設定されており、読み生成手段は、生成する読みに対応する言語を言語分類辞書の設定に従って分類し、この分類における読みの個数が予め設定された基準値を超過しないように、生成する言語の読みの先頭部の長さを可変することで、一つの分類の言語が多数でも読みの個数は一定となり、一つの分類の言語が少数の場合は読みが先頭部に制限されない。
【0110】
請求項6記載の発明の音声認識装置では、複数の言語の連続する条件が条件設定辞書に予め設定されており、読み生成手段は、条件設定辞書を参照して複数の連続する言語の読みを生成し、末尾に位置する言語のみ読みを先頭部に制限することで、連続が予想される複数の言語が予め組み合わされ、一つの言語と同様に取り扱かわれる。
【0111】
請求項7記載の発明の音声認識装置では、読み生成手段は、複数の連続する言語の全体の読みが予め設定された基準値を超過しないように、末尾に位置する言語の読みの先頭部の長さを制限するので、組み合わされる複数の言語の先頭の言語が長くとも全体の長さは一定となる。
【0112】
請求項8記載の発明の音声認識装置では、条件設定辞書は、複数の言語の連続する条件と共に、末尾に位置する言語の読みの長さが予め設定されており、読み生成手段は、末尾に位置する言語の読みを設定された長さに制限することで、末尾の言語の読みの長さが分類に従って可変されるので、先頭の言語が長いほど末尾の言語を短くするようなことができる。
【0113】
請求項9記載の発明の音声認識方法は、認識候補の言語を先頭部の読み毎に語表記対応辞書に予め格納しておき、認識対象の音声の先頭部に先頭部の読みが一致する言語を前記語表記対応辞書から検出するようにしたことで、認識対象の音声が入力されると、これに先頭部の読みが一致する言語が語表記対応辞書から検出される。このとき、音声認識の処理対象となる読みが先頭部に制限されており、その個数が削減されているので、この処理動作は高速に実行される。人間の発声は音声の先頭部で明瞭な傾向にあるので、誤認識の発生率も低下する。認識結果が複数となる場合は発生するが、これには高確率で正解が含まれるので、長時間の処理で一つの間違った認識結果が出力されるものより実用的である。
また、言語の分類毎に読みの先頭部の長さが長さ設定辞書に予め設定されており、読み生成手段は、生成する言語の読みの先頭部の長さを分類毎に可変する。例えば、特定の言語のみ読みの長さを延長すれば、音声認識装置の処理全体の所要時間は増加させることなく、特定の音声の認識精度が向上する。
【図面の簡単な説明】
【図1】本発明の実施の第一の形態の音声認識装置と辞書作成装置とを示す模式的なブロック図である。
【図2】音声認識装置と辞書作成装置とを実現したコンピュータシステムのハードウェアを示すブロック図である。
【図3】コンピュータシステムの外観を示す斜視図である。
【図4】一般言語辞書である単語辞書の記憶内容を示す模式図である。
【図5】語表記対応辞書である語表記対応表の記憶内容を示す模式図である。
【図6】音声認識装置による音声認識方法を示すフローチャートである。
【図7】本発明の実施の第二の形態の音声認識装置と辞書作成装置とを示すブロック図である。
【図8】表音単位辞書である音節表の記憶内容を示す模式図である。
【図9】語表記対応表の記憶内容を示す模式図である。
【図10】本発明の実施の第三の形態の音声認識装置と辞書作成装置とを示すブロック図である。
【図11】長さ設定辞書である認識単語表の記憶内容を示す模式図である。
【図12】単語辞書の記憶内容を示す模式図である。
【図13】語表記対応表の記憶内容を示す模式図である。
【図14】本発明の実施の第四の形態の音声認識装置と辞書作成装置とを示すブロック図である。
【図15】認識単語表の記憶内容を示す模式図である。
【図16】単語辞書の記憶内容を示す模式図である。
【図17】桁対応辞書である桁対応表の記憶内容を示す模式図である。
【図18】語表記対応表の記憶内容を示す模式図である。
【図19】本発明の実施の第五の形態の音声認識装置と辞書作成装置とを示すブロック図である。
【図20】認識単語表の記憶内容を示す模式図である。
【図21】単語辞書の記憶内容を示す模式図である。
【図22】桁対応表の記憶内容を示す模式図である。
【図23】読み変化辞書である読み変化表の記憶内容を示す模式図である。
【図24】語表記対応表の記憶内容を示す模式図である。
【図25】本発明の実施の第六の形態の辞書作成装置の言語分類辞書である認識単語表の記憶内容を示す模式図である。
【図26】単語辞書の記憶内容を示す模式図である。
【図27】語表記対応表の記憶内容を示す模式図である。
【図28】本発明の実施の第七の形態の辞書作成装置の認識単語表の記憶内容を示す模式図である。
【図29】単語辞書の記憶内容を示す模式図である。
【図30】語表記対応表の記憶内容を示す模式図である。
【図31】本発明の実施の第八の形態の辞書作成装置の条件設定辞書である認識単語表の記憶内容を示す模式図である。
【図32】単語辞書の記憶内容を示す模式図である。
【図33】語表記対応表の記憶内容を示す模式図である。
【図34】本発明の実施の第九の形態の辞書作成装置の認識単語表の記憶内容の記憶内容を示す模式図である。
【図35】単語辞書の記憶内容を示す模式図である。
【図36】語表記対応表の記憶内容を示す模式図である。
【図37】本発明の実施の第十の形態の辞書作成装置の認識単語表の記憶内容の記憶内容を示す模式図である。
【図38】単語辞書の記憶内容を示す模式図である。
【図39】語表記対応表の記憶内容を示す模式図である。
【符号の説明】
1,11,21,31,41 音声認識装置
2,12,22,32,42 辞書作成装置
3 音声入力手段
4 音声認識手段
5 語表記対応辞書
8 一般言語辞書
9 読み生成手段
13 表音単位辞書
23 長さ設定辞書、言語分類辞書、条件設定辞書
34 桁対応辞書
43 読み変化辞書
101 コンピュータ
103〜106,108 情報記憶媒体
Claims (9)
- 各種の言語が読みと共に予め格納された一般言語辞書と、
言語の分類毎に読みの先頭部の長さが予め設定された長さ設定辞書と、
前記一般言語辞書から取り出した言語の読みの先頭部からの長さを、前記分類毎に可変にして前記一般言語辞書から読み出し、前記言語に対応づけて語表記対応辞書に格納する読み生成手段と、を有する辞書作成装置と、
認識対象の音声が入力される音声入力手段と、
前記音声入力手段により入力された音声の先頭部の読みが一致する言語を前記辞書作成装置により作成された前記語表記対応辞書から検出する音声認識手段と、
前記音声認識手段の認識結果を出力する結果出力手段と、
前記結果出力手段の出力結果が複数の場合に、これをユーザの手動操作に対応して一つに選定する結果選択手段と、を有する
ことを特徴とする音声認識装置。 - 前記辞書作成装置は、数詞の各桁の読みが桁数毎に予め格納された桁対応辞書、を有し、
前記読み生成手段が複数桁ある数詞の言語の先頭部の読みを生成する場合、先頭部の所定桁の数詞の読みを、一般言語辞書から検出すると共に先頭部の所定桁の読みを前記桁対応辞書から検出して組み合わせ前記語表示対応辞書を生成する、
ことを特徴とする請求項1記載の音声認識装置。 - 前記辞書作成装置は、組み合わされる数詞により変化する各桁の読みが予め格納された読み変化辞書を有し、前記読み生成手段が複数桁の数詞を言語として先頭部の読みを生成する場合、前記読み変化辞書を参照して対応する数詞の読みを修正する、
ことを特徴とする請求項2記載の音声認識装置。 - 各種の言語が読みと共に予め格納された一般言語辞書と、
この一般言語辞書から取り出した言語を読みの先頭部毎に語表記対応辞書に格納する読み生成手段と、言語の分類が予め設定された言語分類辞書と、を設け、
前記読み生成手段は、生成する読みに対応する言語を前記言語分類辞書の設定に従って分類し、この分類された言語の個数が予め設定された基準値を超過しなければ、読みを先頭部に制限せずに前記語表記対応辞書に格納する辞書作成装置と組み合わされたことを特徴とする音声認識装置。 - 各種の言語が読みと共に予め格納された一般言語辞書と、
この一般言語辞書から取り出した言語を読みの先頭部毎に語表記対応辞書に格納する読み生成手段と、言語の分類が予め設定された言語分類辞書と、を設け、
前記読み生成手段は、生成する読みに対応する言語を前記言語分類辞書の設定に従って分類し、この分類における読みの個数が予め設定された基準値を超過しないように、生成する言語の読みの先頭部の長さを可変する辞書作成装置と組み合わされたことを特徴とする音声認識装置。 - 各種の言語が読みと共に予め格納された一般言語辞書と、
この一般言語辞書から取り出した言語を読みの先頭部毎に語表記対応辞書に格納する読み生成手段と、複数の言語の連続する条件が予め設定された条件設定辞書と、を設け、
前記読み生成手段は、前記条件設定辞書を参照して複数の連続する言語の読みを生成し、末尾に位置する言語のみ読みを先頭部に制限する辞書作成装置と組み合わされたことを特徴とする音声認識装置。 - 前記読み生成手段は、複数の連続する言語の全体の読みの長さが予め設定された基準値を超過しないように、末尾に位置する言語の読みの先頭部の長さを制限することを特徴とする請求項6記載の音声認識装置。
- 前記条件設定辞書は、複数の言語の連続する条件と共に、末尾に位置する言語の読みの長さが予め設定されており、前記読み生成手段は、末尾に位置する言語の読みを設定された長さに制限することを特徴とする請求項7記載の音声認識装置。
- 各種の言語が読みと共に予め格納された一般言語辞書から言語を取得し、取り出した言語の分類に基づき言語の分類毎に読みの先頭部の長さが予め設定された長さ設定辞書から読みの長さを取得し、取得した長さの前記言語の読みを語表記対応辞書に格納する辞書作成方法により作成された前記語表記対応辞書を用いた音声認識方法であって、
音声入力手段により入力された認識対象の音声の先頭部の読みが一致する前記言語を前記語表記対応辞書から検出し、
検出された結果を出力し、該結果が複数の場合にこれをユーザの手動操作に対応して一つに選定するようにした、
ことを特徴とする音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP16544796A JP3865149B2 (ja) | 1995-08-22 | 1996-06-26 | 音声認識装置および方法、辞書作成装置および情報記憶媒体 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP21310195 | 1995-08-22 | ||
JP7-213101 | 1995-08-22 | ||
JP16544796A JP3865149B2 (ja) | 1995-08-22 | 1996-06-26 | 音声認識装置および方法、辞書作成装置および情報記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09120296A JPH09120296A (ja) | 1997-05-06 |
JP3865149B2 true JP3865149B2 (ja) | 2007-01-10 |
Family
ID=26490183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP16544796A Expired - Fee Related JP3865149B2 (ja) | 1995-08-22 | 1996-06-26 | 音声認識装置および方法、辞書作成装置および情報記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3865149B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4459267B2 (ja) * | 2005-02-28 | 2010-04-28 | パイオニア株式会社 | 辞書データ生成装置及び電子機器 |
JP4645708B2 (ja) * | 2008-09-10 | 2011-03-09 | 株式会社デンソー | コード認識装置および経路探索装置 |
JP6127422B2 (ja) * | 2012-09-25 | 2017-05-17 | セイコーエプソン株式会社 | 音声認識装置及び方法、並びに、半導体集積回路装置 |
-
1996
- 1996-06-26 JP JP16544796A patent/JP3865149B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH09120296A (ja) | 1997-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4791984B2 (ja) | 入力された音声を処理する装置、方法およびプログラム | |
US6490563B2 (en) | Proofreading with text to speech feedback | |
JP5207642B2 (ja) | 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム | |
JP5040909B2 (ja) | 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム | |
JP3481497B2 (ja) | 綴り言葉に対する複数発音を生成し評価する判断ツリーを利用する方法及び装置 | |
JP2001188777A (ja) | 音声をテキストに関連付ける方法、音声をテキストに関連付けるコンピュータ、コンピュータで文書を生成し読み上げる方法、文書を生成し読み上げるコンピュータ、コンピュータでテキスト文書の音声再生を行う方法、テキスト文書の音声再生を行うコンピュータ、及び、文書内のテキストを編集し評価する方法 | |
JP2008134475A (ja) | 入力された音声のアクセントを認識する技術 | |
WO1994016437A1 (en) | Speech recognition system | |
US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
JP3476007B2 (ja) | 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体 | |
JPH06175679A (ja) | 音声認識用コンピュータ・システム | |
US20020049590A1 (en) | Speech data recording apparatus and method for speech recognition learning | |
JP4738847B2 (ja) | データ検索装置および方法 | |
JPH08263478A (ja) | 中国語簡繁体字文書変換装置 | |
JP3865149B2 (ja) | 音声認識装置および方法、辞書作成装置および情報記憶媒体 | |
JP2000259645A (ja) | 音声処理装置及び音声データ検索装置 | |
JP2011007862A (ja) | 音声認識装置、音声認識プログラム、および音声認識方法 | |
JPH1055196A (ja) | 音声認識装置および方法、情報記憶媒体 | |
JP2011175046A (ja) | 音声検索装置および音声検索方法 | |
JP2000056795A (ja) | 音声認識装置 | |
JP2007086404A (ja) | 音声合成装置 | |
US11900072B1 (en) | Quick lookup for speech translation | |
JP3758241B2 (ja) | 音声情報検索装置 | |
KR20210020294A (ko) | 단어 또는 문장 단위 음성 인식 방법 및 장치 | |
JP3958908B2 (ja) | 書き起こしテキスト自動生成装置、音声認識装置および記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040106 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040315 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040908 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041104 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050705 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20050620 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050905 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060605 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060808 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060825 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060926 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060928 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101013 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111013 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121013 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |