JP3535292B2

JP3535292B2 - 音声認識システム

Info

Publication number: JP3535292B2
Application number: JP34016395A
Authority: JP
Inventors: 誠中村; 直己井ノ上; 文廣谷戸; 誠一山本
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 1995-12-27
Filing date: 1995-12-27
Publication date: 2004-06-07
Anticipated expiration: 2015-12-27
Also published as: DE19654549C2; US5875425A; DE19654549A1; JPH09179581A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識システム
に関するものである。詳しくは音声認識の認識率を劣化
させることなく、認識のために必要な計算量を削減し、
認識時間を短縮することを可能とするシステムに関す
る。

【０００２】

【従来の技術】音声認識とは、人が発声した音声を知識
処理することを言い、狭義には、発声者が意図した意味
内容の認識を行うことである。音声認識については、１
９５０年代から各種の研究が進んでおり、隠れマルコフ
モデル（Hidden Markov Model:ＨＭＭ）、ケプストラ
ム、Δケプストラム等の技術開発により、認識性能が大
幅に向上している。

【０００３】ここで、従来の音声認識方法としては、音
響系列の最初から最後までについて尤度計算を行い、最
後の音響モデルについて最も尤度の高い文を求め、その
文を認識結果として出力していた。即ち、従来は、入力
音声のパワー等を基にして音声区間を検出し、音声区間
全体に対して尤度計算を行い、累積尤度が最も高い文を
求め、その文を認識結果として出力していた。

【０００４】そのため、文末に不要語や未知語が含まれ
ている場合、音声レベルが小さい場合に認識率の低下が
生ずる。また、認識対象の単語又は文が発声された後で
も終話が検出されないかぎり認識を終了しないため、認
識に時間を要していた。

【０００５】

【発明が解決しようとする課題】要するに、前述した従
来の音声認識方式では、音響系列の最初から最後までに
ついて、音響モデル系列の尤度（確率）計算を行い、最
後の音響モデルについて最も尤度の高い文を求め、その
文を認識結果として出力していため、認識率が低く、ま
た、尤度の計算量が多いため、認識に時間を要した。

【０００６】本発明は、音声認識の認識率を劣化させる
ことなく、認識のために必要な計算量を削減し、認識時
間を短縮することを目的とする。

【０００７】

【課題を解決するための手段】斯かる目的を達成する本
発明の請求項１に係る音声認識システムは、隠れマルコ
フモデルによる音響モデルを用いた音声認識システムに
おいて、音響モデルの系列が出現する尤度計算を行う段
階で、言語的制約により言語モデルが唯一の文を表現す
ることが数フレーム継続した時点で認識結果を決定する
ことを特徴とする。上記目的を達成する本発明の請求項
２に係る音声認識システムは、請求項１の発明における
前記言語的制約として、辞書に取り扱われていない単語
を排除することを特徴とする。

【０００８】上記目的を達成する本発明の請求項３に係
る音声認識システムは、請求項１の発明における前記言
語的制約として、文法的な誤りのある単語列を排除する
ことを特徴とする。上記目的を達成する本発明の請求項
４に係る音声認識システムは、請求項１，２又は３の発
明における前記言語モデルとして、予め言葉の意味、文
法などに応じて、ユーザが発声する文として表現してお
くことを特徴とする。

【０００９】上記目的を達成する本発明の請求項５に係
る音声認識システムは、請求項１，２，３又は４記載の
音声認識システムにおける前記音響モデルとして、予め
音響パラメータの時系列などから学習処理により作成し
ておくことを特徴とする。

【００１０】

【発明の実施の形態】本発明の音声認識システムは、図
１に示すように、音響分析部１及び認識処理部２により
構成される。音響分析部１は、入力音声Ａを音響分析、
即ち、ケプストラム、Δケプストラムなどの音響パラメ
ータの時系列等に変換し、変換した音響パラメータの時
系列等を認識処理部２へ出力する。

【００１１】ここで、ケプストラムとは対数スペクトル
を逆フーリエ変換したもので、人間の聴覚の特性に近い
対数スペクトルと線形変換の関係にあるので、人間の聴
覚に合った判定ができ、高次の係数はスペクトルの微細
構造を、低次の係数はスペクトルの包絡を表すので、適
当な次数で打ち切ることにより、比較的少ない数のパラ
メータで効率良く、滑らかなスペクトル包絡を表現する
ことができるという特徴を有する。

【００１２】また、Δケプストラムとは、スペクトルの
動的性質を表す特徴量であり、通常、５０〜１００ｍｓ
程度の区間のケプストラムの時系列を、多項式で展開し
たときの１次の係数（１次微係数に相当）を、Δケプス
トラムとして用いる。

【００１３】一方、認識処理部２は、入力音声Ａの音響
パラメータ時系列等から、音響モデルＢの系列の出現す
る尤度（確率）を計算し、最も尤度の高い音響モデルＢ
の系列が、言語的制約Ｄ（辞書、文法）により規定され
ている言語モデルＣにおいて唯一の文であるか否か判断
し、唯一の文であり、且つ、数フレーム継続した時点で
最も尤度が高い場合、言語モデルＣを認識結果Ｅとして
出力する

【００１４】ここで、音響モデルＢの系列には、予め、
言葉の意味、文法などに応じて、ユーザが発声する文と
して表現しておく。また、複数の文で音響モデルＢの系
列が共通する場合は共有化を行う。また、音響モデルＢ
は、音響パラメータの時系列などから学習処理により作
成しておく。各音響モデルＢは、例えば、ＨＭＭ（隠れ
マルコフモデル）で表現される。

【００１５】隠れマルコフモデルとは、音素や単語の音
声のスペクトル時系列を、確率状態遷移モデルからの出
力として表現する方法で、通常は１つの音素を３状態程
度の接続で表現し、状態間の遷移確率と、各状態あるい
は遷移における種々のスペクトルの出現確率で、各音素
や単語を特徴づける。従って、隠れマルコフモデルによ
れば、音声スペクトルの変動を統計的に効率良く表現で
きる。

【００１６】更に、言語的制約Ｄは、音響モデルＢの系
列の中から、言語的には有り得ないものもを排除するも
のである。この言語的制約Ｄは、認識対象となる単語ま
たは文により言語モデルＣとして規定されている。ここ
で、言語的制約Ｄとしては、二つの形態がある。

【００１７】その一つの形態は、辞書に取り扱われてい
ない単語を排除することをいう。ここで、辞書とは、語
彙として扱う単語からなり、例えば、“海”、“空”の
ような名詞、“青い”、“楽しい”のような形容詞、
“です”、“ます”のような動詞等に分けられる。辞書
には、単語がどのような音響モデルＢによって表現され
るかが記述される。

【００１８】もう一つの態様は、音響モデルＢに後続可
能な音響モデルＢが文法により制約を受けることを言
い、文法的な誤りのある単語列を排除することをいう。
例えば、辞書に取り扱われる単語の組み合わせであって
も、“青い海である”のように形容詞＋名詞＋動詞の組
み合わせは文法的に正しいが、“青いである”のような
形容詞＋動詞の組み合わせは文法的に正しくない。

【００１９】本発明の音声認識システムは、図３に示す
フローチャートに従い、次のように実施される。先ず、
音響分析部１に音声が入力されると（ステップＳ₁）、
入力音声Ａは音響分析部１でディジタル信号に変換され
た後、音響分析により、ケプストラム、Δケプストラム
などの音響パラメータの時系列等に変換される（ステッ
プＳ₂）。

【００２０】次いで、認識処理部２は、入力音声Ａの音
響パラメータ時系列等から、音響モデルＢ系列の出現す
る尤度（確率）を計算する（ステップＳ₃）。引き続
き、認識処理部２は、最も尤度の高い音響モデルＢの系
列が、言語的制約Ｄ（辞書、文法）により規定されてい
る言語モデルＣにおいて唯一の文であるか否か判断する
（ステップＳ₄）。

【００２１】ここで、その言語モデルが唯一の文でない
と判断されるときには、入力音声Ａの音響パラメータの
時系列等について次々と、音響モデルＢの系列の出現す
る尤度を繰り返して計算する（ステップＳ₃）。そし
て、その計算の結果、その言語モデルが唯一の文を表現
する時点で言語モデルＣが最も尤度が高く、且つ、数フ
レーム連続した場合、認識結果Ｅとして出力する（ステ
ップＳ₅）。

【００２２】

【実施例】本発明の一実施例について説明する。本実施
例は、図１に示す構成を有し、次の（１）〜（５）の手
順により実施される。（１）音響分析部１にて入力された音声信号を一定の時
間間隔毎に特徴ベクトルに変換する。この時間間隔をフ
レームと呼び、通常数ｍｓから十数ｍｓ程度である。特
徴ベクトルとは、前述した音響パラメータと同じ意味で
ある。

【００２３】（２）特徴ベクトルの系列に対して音響モ
デルＢとの尤度を計算する。音響モデルＢは単語やさら
に小さい音素などの単位（サブワードユニット）で事前
に多くの学習音声を用いて学習されている。音響モデル
の尤度計算にはＨＭＭ（隠れマルコフモデル）などが用
いられる（「確率モデルによる音声認識」中川聖一著電
子情報通信学会参照）。

【００２４】（３）音響モデルＢに後続可能な音響モデ
ルＢは文法により言語的に制約されており、この文法Ｄ
は認識対象となる単語または文により言語モデルＣとし
て規定されている。言語モデルＣは図２に示すようにト
ゥリー（木）状に表現される。（４）認識処理部２は毎フレーム、言語モデルＣにより
規定される後続可能な音響モデルＢに対して尤度を計算
する。最初の１フレーム目はすべての音響モデルＢに対
する尤度を計算し、上位Ｎ候補に対して言語モデルＣに
より規定される後続可能な音響モデルＢの尤度計算を行
う。

【００２５】（５）最も累積尤度が大きい音響モデルＢ
の系列が言語モデルＣの中で唯一の文を表現することが
数フレーム継続したならば、当該音響モデル系列を含む
認識対象文を認識結果Ｅとする。本実施例により、「国名または都市名」＋「述語」を認
識するアプリケーションで、認識率を劣化させることな
く、平均認識所要時間が１．７４秒から１．２０秒へ約
３０％改善された。

【００２６】［具体例］一例として、「国名＋述語」を
認識するタスクを考える。述語としては、以下のような
様々な述語（ｉ）〜（iv）を受付可能とする。（ｉ）です（ii) でございますね（iii) ですね（iv）でよろしいでしょうか

【００２７】今、入力音声Ａとして、「オーストラリア
でございますね。」が入力されたとすると、連続音声認
識をした場合、次のような文章〜が尤度が高い候補
にあがると予想される。オーストラリアでございますね。オーストラリアですね。オーストリアですね。

【００２８】図２にこれらの候補の言語モデルＣを示
す。国名としては、実際に発声された「オーストラリ
ア」の他に、似た言語として「オーストリア」も候補に
あがることが想定される。ここで、言語モデルＣが唯一
と判断される時点は、必ずしも単語の最後ではなく、そ
の中間段階において判断されるのが一般的である。

【００２９】そこで、本発明では、音響モデルＢから出
力される尤度（確率）を計算する際に、「オーストラリ
アの」の”ラ”の後の尤度が「オーストリア」の”リ”
の後の尤度よりも高く、”オーストラ”の後には「オー
ストラリア」以外に辞書に取り扱われないので、認識結
果Ｅは「オーストラリア」となり、以降の尤度計算は省
略可能となる。

【００３０】

【発明の効果】以上、実施例に基づいて具体的に説明し
たように、本発明では、隠れマルコフモデルによる音響
モデルを用いた音声認識システムにおいて、音響モデル
の系列が出現する尤度計算を行う段階で、言語的制約に
より言語モデルが唯一の文を表現することが数フレーム
継続した時点で認識結果を決定するので、以後の尤度計
算は省略可能となる。そのため、音声認識の認識率を劣
化させることなく、認識のために必要とする計算量を削
減し、認識時間を短縮することが可能となる。特に本発
明を音声認識装置に採用することにより、マン・マシン
インタフェースの向上が期待できる。

【図面の簡単な説明】

【図１】本発明の音声認識システムを示す構成図であ
る。

【図２】言語モデルＣを示す説明図である。

【図３】本発明の一実施例に係るフローチャートであ
る。

【符号の説明】

１音響分析部２認識処理部Ａ入力音声Ｂ音響モデルＣ言語モデルＤ言語的制約Ｅ認識結果

───────────────────────────────────────────────────── フロントページの続き (72)発明者山本誠一東京都新宿区西新宿二丁目３番２号国際電信電話株式会社内 (56)参考文献特開平６−266387（ＪＰ，Ａ) 特開平８−263092（ＪＰ，Ａ) 特開平２−300798（ＪＰ，Ａ) 特開平７−261782（ＪＰ，Ａ) 特公平５−77080（ＪＰ，Ｂ２) 井ノ上，中村，酒寄，山本，谷戸，単語固有セルでのゆう度判定を用いた音声認識処理の高速化手法，電子情報通信学会論文誌Ｄ−ＩＩ，日本, 1996年12月25日，Ｖｏｌ．Ｊ79−Ｄ−ＩＩ，Ｎｏ．12，Ｐａｇｅｓ 2110− 2116 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/00 - 15/28 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】隠れマルコフモデルによる音響モデルを
用いた音声認識システムにおいて、音響モデルの系列が
出現する尤度計算を行う段階で、言語的制約により言語
モデルが唯一の文を表現することが数フレーム継続した
時点で認識結果を決定することを特徴とする音声認識シ
ステム。
【請求項２】前記言語的制約として、辞書に取り扱わ
れていない単語を排除することを特徴とする請求項１記
載の音声認識システム。
【請求項３】前記言語的制約として、文法的な誤りの
ある単語列を排除することを特徴とする請求項１記載の
音声認識システム。
【請求項４】前記言語モデルは、予め言葉の意味、文
法などに応じて、ユーザが発声する文として表現してお
くことを特徴とする請求項１，２又は３記載の音声認識
システム。
【請求項５】前記音響モデルは、予め音響パラメータ
の時系列などから学習処理により作成しておくことを特
徴とする請求項１，２，３又は４記載の音声認識システ
ム。