JPH117292A

JPH117292A - 音声認識装置

Info

Publication number: JPH117292A
Application number: JP9158804A
Authority: JP
Inventors: 優 ▲高▼野; Masaru Takano
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1997-06-16
Filing date: 1997-06-16
Publication date: 1999-01-12
Anticipated expiration: 2017-06-16
Also published as: JP3039634B2

Abstract

(57)【要約】【課題】種々の付加語のある発声に対応し、認識率の
高い音声認識装置を提供する。【解決手段】認識対象となる連続文法の前後に付加語
を認識するモデルを接続したモデルを用いて認識する。
付加語を認識するモデルは、事前に想定した付加語を受
理するモデル、任意の連続音節を受理するモデル、背景
雑音及び任意の音声を受理するモデルの３者の組合せに
より生成される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、単語を認識し、付
加語に対応できる音声認識装置に関するものである。

【０００２】

【従来の技術】不特定話者の利用を考慮した音声認識装
置を提供しようとする場合、付加語の問題が生じる。例
えば、「東京駅」という発声が求められている局面で
「えーと、東京駅まで」というような付加語のある入力
が与えられるような問題である。音声認識装置に不慣れ
な話者の存在が想定される限り、このような付加語の問
題は常につきまとう。

【０００３】従来、付加語に対応できる単語認識法とし
てＯｎｅＰａｓｓＤＰ等の連続単語認識により、認
識対象語の前後に付加語を吸収するガーベージモデルを
付加する方法が行なわれ、一定の成果を上げている。

【０００４】

【発明が解決しようとする課題】しかしながら、この方
法は連続認識を利用するため大きい計算量を必要とす
る。

【０００５】また、性能的にも誤認識が多いという点で
まだ不十分である。

【０００６】それ故に本発明の課題は、付加語のある発
声に対しても高い認識性能を有し、かつ計算量の小さ
い、あるいはより高性能な音声認識装置を提供すること
にある。

【０００７】

【課題を解決するための手段】本発明は、入力音声と標
準パタンのパタンマッチングを行ない単語系列を出力す
る連続単語音声認識装置を元にした付加語のある入力音
声を認識する装置である。

【０００８】本発明の一態様によれば、入力された音声
の一定時間（以下、フレームという）ごとの特徴量を抽
出する音声分析部と、認識対象となる単語または単語列
の前または後または前後に付加語モデルを接続した標準
パタンと、前記標準パタンと前記特徴量とのパタンマッ
チングを前記フレームごとに行ない、前記単語または単
語列中で最適な単語系列（以下、最適列という）を選択
し、その尤度を算出する尤度計算部と、前記最適列と前
記尤度より最適認識結果を決定し出力する出力部とを備
え、前記付加語モデルが背景雑音と任意音声の両者を受
理するモデルであることを特徴とする音声認識装置が得
られる。

【０００９】また本発明の他の態様によれば、入力され
た音声の一定時間（以下、フレームという）ごとの特徴
量を抽出する音声分析部と、認識対象となる単語または
単語列の前または後または前後に付加語モデルを接続し
た標準パタンと、前記標準パタンと前記特徴量とのパタ
ンマッチングを前記フレームごとに行ない、前記単語ま
たは単語列中で最適な単語系列（以下、最適列という）
を選択し、その尤度を算出する尤度計算部と、前記最適
列と前記尤度より最適認識結果を決定し出力する出力部
とを備え、前記付加語モデルの尤度に一定値のペナルテ
ィを課すことを特徴とする音声認識装置が得られる。

【００１０】

【発明の実施の形態】

（発明の実施の第１の形態）図１を参照して、本発明の
実施の第１の形態による音声認識装置の構成を説明す
る。

【００１１】第１の形態による音声認識装置は入力音声
より一定時間（以後、フレームという）ごとの特徴量を
抽出する音声分析部１０１と、入力として想定している
候補文法を記憶している文法辞書１０２と、文法辞書中
の候補文法より標準パタンを生成するモデル生成部１０
３と、各フレームにおいて前記標準パタンに当てはまる
最適な単語系列（以後、最適列とする）及びその尤度を
求める尤度計算部１０４と、入力音声のパワー情報等を
利用して入力音声の終端を検知する音声終端検出部１０
５と、尤度計算部１０４からの出力及び音声終端検出部
１０５からの出力を入力として前記最適列より入力中の
候補文法に対応する部分の出力を行なう出力部１０６よ
りなる。

【００１２】音声分析部１０１では、入力音声のフレー
ムごとの周波数分析を行ない、フレームごとの特徴量ベ
クトル（以後、特徴量とする）を生成する。特徴量の要
素としては、パワー、パワー変化量、メルケプストラ
ム、メルケプストラム変化量、メルケプストラム２次変
化量等を用いる。特徴量は毎フレーム、尤度計算部１０
４へ出力される。

【００１３】また、フレームごとに入力音声のパワー情
報を音声終端検出部１０５へ出力する。文法辞書１０２
は、認識対象となる単語を単位音響モデルのネットワー
クの形、例えば、許される文法を表す単語ネットワーク
及びその各単語を、該当単語を構成する単位音響モデル
の連鎖（「大阪」（おおさか）の場合には「お」−
「お」−「さ」−「か」）で表した形で記憶している。

【００１４】モデル生成部１０３では、単語辞書１０２
内の各単語モデルの前後に背景雑音と任意音声の両者を
受理する付加語モデルを接続した認識モデルを作成し、
尤度計算部１０４へ出力する。尤度計算部１０４では、
モデル生成部１０３で生成された標準パタンと音声分析
部１０１の出力である各フレームにおける特徴量より各
フレームの最適列及びその尤度を算出し、出力部１０６
へ出力する。音声終端検出部１０５では、音声分析部１
０１から出力されたパワー情報より各フレームにおいて
音声終端の判定を行なう。出力部１０６では、尤度計算
部１０４から各フレームの最適列及びその尤度を受けと
り、また、音声終端検出部１０５から各フレームの音声
終端判定の結果を受けとる。この両者の情報から最適な
認識結果を作成し、必要ならば出力する。

【００１５】この第１の形態による音声認識装置は請求
項１、１８、２０に対応する音声認識装置である。

【００１６】（第１の形態の動作の説明）図２は、第１
の形態の音声認識装置の動作を表す図である。

【００１７】この音声認識装置は各フレームにおいて、
以下の動作を行なう。

【００１８】音声分析部１０１においては、入力音声の
フレームごとの周波数分析を行ない、特徴量を生成し、
毎フレーム、尤度計算部１０４へ出力する（ステップ
１）。

【００１９】尤度計算部１０４では、文献１に示されて
いるオートマトン制御ＯｎｅＰａｓｓＤＰ法の手法
を用いて、モデル生成部１０３で生成された標準パタン
と音声分析部１０１の出力である各フレームにおける特
徴量のパタンマッチングを行なうことにより、各フレー
ムの最適列及び、その尤度を算出し、最適列及びその尤
度を出力部１０６へ出力する（ステップ２）。

【００２０】音声終端検出部１０５では、各フレームご
とに音声終端判定を行ない、その結果を出力部１０６へ
出力する（ステップ３）。

【００２１】出力部１０６では、各フレームごとに音声
終端検出部１０５の音声終端判定結果を受けとり、終端
であれば、尤度計算部１０４の出力である前記最適列及
びモデル生成部１０３での標準パタン生成情報から、付
加語を除いた認識結果を出力する（ステップ４）。

【００２２】終端でなければ、該当フレームは何もしな
い。

【００２３】上述した第１の形態の音声認識装置による
と、言語音声による任意の付加語の影響を取り除くこと
ができる。

【００２４】（第１の形態の実施例）次に第１の形態の
一実施例の動作を詳細に説明する。本実施例では、認識
される候補文法として図３に示すモデルを用いる。文法
辞書１０２の内容は図３のように、「上野」（うえの）
「上野原」（うえのはら）「高尾」（たかお）とナル単
語または「駅」よりなる。

【００２５】図４のモデルは、前方付加語モデル、候補
文法、後方付加語モデルの３個のモデルの連接の形で構
成され、各モデルをこの順で経由した発声すなわち候補
文法の前後に無音または任意の日本語を付加した発声を
すべて受理する。前方及び後方の付加語モデル部は、無
音モデル及び日本語の音節を表すモデルのあらゆる途中
状態を混合したモデルである。例えば図中の「あ
（１）」は音節「あ」のモデルの第１状態である。各モ
デルはそれぞれ対応する日本語音声によって学習したも
のをそのまま用いる。この付加語モデルは混合ガウス分
布等の形式を用いることにより、形式的に１状態で表す
ことができる。すなわちこの付加語モデルを無音モデル
の代わりに使用することにより、本形態による認識は認
識文法のみの認識と同一のアルゴリズムで実現できる。
モデル生成部１０３は文法辞書１０２の各候補文法より
図４のモデルを予め作成し、記憶しているものとする。
尤度計算部１０４では、文献１に示されている方法によ
り毎フレーム、先頭フレームより該当フレームまでの特
徴量列と図４のモデルのパタンマッチングを行ない、該
当パタン上での最適列及び尤度を計算する。ただし、尤
度は該当標準パタンの最終状態における確率値の自然対
数値を用いる。

【００２６】図５のように、「上野駅から」（うえのえ
きから）という発声がなされたとする。音声終端検出部
１０５による終端は図５のａ点であるとすると、出力部
１０６は、第０フレームから第ａ−１フレームまでは音
声終端検出部１０５からの出力が「非終端」であるた
め、出力を行なわない。第ａフレームで初めて音声終端
検出部１０５の出力が「終端」となり、第ａフレームに
おける尤度計算部１０４の出力である「上野」「駅」
「（付加語モデル）」より、候補文法である「上野」
「駅」を認識結果として出力する。

【００２７】同一の「上野駅から」発声を候補文法（図
３）だけで認識すると、語の類似性から、「上野原」−
ナル単語という認識結果になることが考えられる。本例
は、発声中の「から」の部分を付加語部で吸収すること
により、このような付加語のある発声にも対応できる。
また、前述のように、形式的には無音モデルの置き換え
によってこの効果が得られるため、認識方法自体は候補
文法のみの認識と同じ方法で実現でき、図６に示したガ
ーベージ付加文法を使用する従来の方法に比して、文法
ネットワークを拡張する操作の必要がないという利点が
ある。これが、本実施例における効果である。

【００２８】（第１の形態の変形例）実施の第１の形態
の第１の変形例として、実施例における付加語モデル
を、既存のモデルの混合モデルでなく、無音及び任意の
音声で学習した単一のモデルに置き換える方法が考えら
れる。実際の付加語にはうなりや咳等の非言語音声も多
く見られ、これらに対応するために、付加語モデルを実
際の付加音声で学習する手法は有効である。この方法を
用いることで、請求項１、１８、１９に対応する音声認
識装置を実現できる。

【００２９】また、実施の第１の形態の第２の変形例と
して、第１の実施例における１状態の付加語モデルを、
図７に示すような複数状態のエルゴディックモデルに置
き換える方法が考えられる。このモデルを用いること
で、日本語の音節のような、時間的構造を持った音響を
表現することができる。また、これも連続ネットワーク
の拡張を伴わず、１単語として扱うことができ、第１の
実施例の持つ、候補文法のみによる認識と同一のアルゴ
リズムで付加語対応ができる利点を保持している。この
ような付加語モデルを用いることで、請求項１、１７に
対応する音声認識装置を実現できる。

【００３０】（発明の実施の第２の形態）再び図１を参
照して、本発明の実施の第２の形態による音声認識装置
の構成を説明する。

【００３１】第２の形態による音声認識装置は入力音声
より一定時間（以後、フレームという）ごとの特徴量を
抽出する音声分析部１０１と、入力として想定している
候補文法を記憶している文法辞書１０２と、文法辞書中
の候補文法より標準パタンを生成するモデル生成部１０
３と、各フレームにおいて前記標準パタンに当てはまる
最適な単語系列（以後、最適列とする）及びその尤度を
求める尤度計算部１０４と、入力音声のパワー情報等を
利用して入力音声の終端を検知する音声終端検出部１０
５と、尤度計算部１０４からの出力及び音声終端検出部
１０５からの出力を入力として前記最適列より入力中の
候補文法に対応する部分の出力を行なう出力部１０６よ
りなる。

【００３２】音声分析部１０１では、入力音声のフレー
ムごとの周波数分析を行ない、フレームごとの特徴量ベ
クトル（以後、特徴量という）を生成する。特徴量の要
素としては、パワー、パワー変化量、メルケプストラ
ム、メルケプストラム変化量、メルケプストラム２次変
化量等を用いる。特徴量は毎フレーム、尤度計算部１０
４へ出力される。

【００３３】また、フレームごとに入力音声のパワー情
報を音声終端検出部１０５へ出力する。文法辞書１０２
は、認識対象となる単語を単位音響モデルのネットワー
クの形、例えば、許される文法を表す単語ネットワーク
及びその各単語を、該当単語を構成する単位音響モデル
の連鎖（「大阪」（おおさか）の場合には「お」−
「お」−「さ」−「か」）で表した形で記憶している。

【００３４】モデル生成部１０３では、単語辞書１０２
内の各単語モデルの前後に付加語モデルとして任意の音
節列を受理するモデルを付加した認識モデルを作成し、
尤度計算部１０４へ出力する。ただし、付加語モデル中
のすべての音節モデルは、単語モデルとして作成する。

【００３５】尤度計算部１０４では、モデル生成部１０
３で生成された標準パタンと音声分析部１０１の出力で
ある各フレームにおける特徴量より各フレームの最適列
及びその尤度を算出し、出力部１０６へ出力する。

【００３６】音声終端検出部１０５では、音声分析部１
０１から出力されたパワー情報より各フレームにおいて
音声終端の判定を行なう。

【００３７】出力部１０６では、尤度計算部１０４から
各フレームの最適列及びその尤度を受けとり、また、音
声終端検出部１０５から各フレームの音声終端判定の結
果を受けとる。

【００３８】この両者の情報から最適な認識結果を作成
し、必要ならば出力する。

【００３９】第２の形態による音声認識装置は請求項
２、３に対応する音声認識装置である。

【００４０】（第２の形態の動作の説明）第２の形態の
音声認識装置の動作は、第１の形態の音声認識装置の動
作と同一である。

【００４１】第２の形態の音声認識装置によると、言語
音声による任意の付加語の影響を取り除くことができ、
かついわゆる部分マッチングの問題に対応可能である。

【００４２】（第２の形態の実施例）次に、第２の形態
の一実施例の動作を詳細に説明する。

【００４３】本実施例では、認識される候補文法として
図３に示すモデルを用いる。文法辞書１０２の内容は図
３のように、「上野」（うえの）「上野原」（うえのは
ら）「高尾」（たかお）とナル単語または「駅」よりな
る。図６のモデルは、前方付加語モデル、候補文法、後
方付加語モデルの３個のモデルの連接の形で構成され、
各モデルをこの順で経由した発声すなわち候補文法の前
後に任意の音節列を付加した発声をすべて受理する。た
だし、前方及び後方の付加語モデルに一定値のペナルテ
ィを付与する。本実施例ではペナルティ値を１．０とす
る。ペナルティ付与によって、同一音声に対する同一モ
デルの尤度が付加語と認識文法で異なるようになる。

【００４４】モデル生成部１０３は文法辞書１０２の各
候補文法より図６のモデルを予め作成し、記憶している
ものとする。尤度計算部１０４では、文献１に示されて
いる方法により毎フレーム、先頭フレームより該当フレ
ームまでの特徴量列と第３の標準パタンのパタンマッチ
ングを行ない、該当パタン上での最適列及び尤度を計算
する。ただし、尤度は該当標準パタンの最終状態におけ
る確率値の自然対数値を用いる。

【００４５】図９のように、「上野原」（うえのはら）
という発声がなされたとする。音声終端検出部１０５に
よる終端は図９のａ点であるとすると、出力部１０６
は、第０フレームから第ａ−１フレームまでは音声終端
検出部１０５からの出力が「非終端」であるため、出力
を行なわない。第ａフレームで初めて音声終端検出部１
０５の出力が「終端」となり、第ａフレームにおける尤
度計算部１０４の出力である「上野原」より、候補文法
である「上野原」を認識結果として出力する。

【００４６】次にペナルティ付与の効果について説明す
る。

【００４７】図８は、発声「うえのはら」の一部に対す
るマッチング例である。例えば、図８において、「上野
原」発声をペナルティ値０すなわちペナルティなしで認
識した場合、「上野原」及び「上野」−「は」「ら」は
同一の音節列であるため、上記発声の両モデルに対する
尤度が同一になってしまうという不都合（部分マッチン
グ）が生ずる。候補文法のみの認識に比べ、付加語モデ
ルの存在により部分マッチングのおそれが生ずるが、ペ
ナルティを付与することによってこれを防ぐ効果が得ら
れる。例えば図８の丸で囲んだ部分において、両モデル
とも入力音声の一部「はら」に対しモデル「はら」が対
応しているが、付加語モデルの「はら」の尤度は、同一
フレームにおける候補文法「はら」の尤度より１．０低
くなっている。このように、付加語モデルの尤度が低い
ことから、例えば図８において発声「うえのはら」の一
部「うえの」が認識文法全体に対応するというような部
分マッチングが回避される。

【００４８】（第２の形態の変形例）第２の形態の第１
の変形例として、実施例における付加語モデルを、事前
に想定した付加語あるいは事前に想定した付加語列を受
理するモデルに置き換える方法が考えられる。例えば図
１０に示すように、前方の付加語を「えーと」等既知の
付加語モデルに置き換える、後方の付加語を「まで」等
既知の付加語に置き換える方法である。連続音節認識は
特に、不特定話者を対象とする場合に認識性能が低いと
いう欠点があり、連続音節を付加語モデルとして用いる
場合には誤認識のおそれが多分にある。しかしながら本
変形例のような付加語モデルを用いた場合、語彙を限定
することによる制約から、誤認識の大幅な削減が見込め
る。

【００４９】本変形例は、請求項２、４に対応する音声
認識装置を実現する。

【００５０】第２の形態の第２の変形例として、第１の
形態の実施例で用いた背景雑音と任意音声の両者を受理
する付加語モデルを用いる方法が考えられる。第１の形
態における、非言語音声へ対応できる利点や同一アルゴ
リズムが利用できるという利点は継承され、なおかつ第
２の形態の実施例で述べたように部分マッチングが回避
できるという特性がある。

【００５１】本変形例は、請求項１、２に対応する音声
認識装置を実現する。

【００５２】第２の形態の第３の変形例として、連続音
節モデル及び事前に想定した付加語モデルの２種類の付
加語モデルを組み合わせて、図１１に示すように、新た
な付加語モデルを構築する方法が考えられる。事前に想
定した付加語モデルは想定外の付加語に対応できず、連
続音節モデルは精度に難があるという弱点を持つが、例
えば図１１に示したような組み合わせモデルを用いるこ
とで、いかなる付加語にも対応でき、なおかつ想定の範
囲の付加語には高精度な認識が可能な認識装置を構成す
ることができる。ただしこの場合、付加語部分に部分マ
ッチングが生ずるおそれがある。例えば、事前に想定し
た付加語「あのー」と連続音節「あ」「「の」「お」の
尤度が同一になってしまうことである。この場合、事前
に想定した付加語が利用されなくなるため、両付加語モ
デルのペナルティ値に格差をつける方法が必要である。
例えば、連続音節には一律２．０、事前に想定した付加
語には一律１．０のペナルティをそれぞれ課すという方
法である。これにより、付加語部の部分マッチングを除
き、付加語認識の精度が高く想定外付加語にも対応でき
る音声認識装置を実現できる。

【００５３】本変形例は、請求項２、５、６、７、１
０、１２、１６に対応する音声認識装置を実現する。

【００５４】第２の形態の第４の変形例として、第３の
変形例における連続音節モデルを、第１の形態の実施例
で用いた付加語モデルで代用する方法が考えられる。第
３の変形例で挙げた利点はそのままで、言語外音声にも
対応できる利点がある。これに関しても両付加語モデル
のペナルティ値に格差をつける方法が有効である。

【００５５】本変形例は、請求項２、５、６、７、１
０、１１に対応する音声認識装置を実現する。

【００５６】第２の形態の第５の変形例として、第４の
変形例における事前に想定した付加語モデルを連続音節
モデルに変更する方法も考えられる。

【００５７】本変形例は、請求項２、５、６、７、１
１、１４に対応する音声認識装置を実現する。

【００５８】第２の形態の第６の変形例として、連続音
節モデル、事前に想定した付加語モデル及び第１の形態
の実施例で用いた付加語モデルの３者を組み合わせる方
法が考えられる。例えば図１２に示したような付加語モ
デルを用いる。これは、想定済み付加語、想定外付加
語、言語外付加音声のすべてに対応するための方法であ
る。これも第３の変形例のように、ペナルティ値に格差
をつける方法が考えられる。例えば、第１の形態の実施
例で用いた付加語モデルには一律３．０、連続音節には
一律２．０、事前に想定した付加語には一律１．０のペ
ナルティをそれぞれ課すというようになる。

【００５９】本変形例は、請求項２、５、８、９、１
３、１５に対応する音声認識装置を実現する。

【００６０】

【発明の効果】以上のように、本発明を用いれば、種々
の形態の付加語に対し高い認識性能を保持する音声認識
装置を実現できる。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態の音声認識装置の構
成図である。

【図２】本発明の第１の実施の形態の音声認識装置の動
作を表す流れ図である。

【図３】本発明の第１の実施の形態の音声認識装置で用
いる候補文法を表すネットワークである。

【図４】本発明の第１の実施の形態の音声認識装置の実
施例においてモデル生成部が作成し、記憶している標準
パタンを表すネットワークである。

【図５】本発明の第１の実施の形態の音声認識装置の実
施例における発声内容と音声終端検出点を表す図であ
る。

【図６】候補文法の前後に任意の音節列を受理するモデ
ルを付加したモデルを表すネットワークである。

【図７】本発明の第１の実施の形態の第２の変形例にお
いてモデル生成部が作成し、記憶している標準パタンを
表すネットワークである。

【図８】本発明の第２の実施の形態の音声認識装置の実
施例における発声内容の一部とそれに対応するモデルの
一部の間の尤度を表す図である。

【図９】本発明の第１の実施の形態の音声認識装置の実
施例における発声内容と音声終端検出点を表す図であ
る。

【図１０】本発明の第２の実施の形態の第１の変形例に
おいてモデル生成部が作成し、記憶している標準パタン
を表すネットワークである。

【図１１】本発明の第２の実施の形態の第３の変形例に
おいてモデル生成部が作成し、記憶している標準パタン
を表すネットワークである。

【図１２】本発明の第２の実施の形態の第６の変形例に
おいてモデル生成部が作成し、記憶している標準パタン
を表すネットワークである。

【符号の説明】

１０１音声分析部１０２文法辞書１０３モデル生成部１０４尤度計算部１０５音声終端検出部１０６出力部

Claims

【特許請求の範囲】

【請求項１】入力された音声の一定時間（以下、フレ
ームという）ごとの特徴量を抽出する音声分析部と、認
識対象となる単語または単語列の前または後または前後
に付加語モデルを接続した標準パタンと、前記標準パタ
ンと前記特徴量とのパタンマッチングを前記フレームご
とに行ない、前記単語または単語列中で最適な単語系列
（以下、最適列という）を選択し、その尤度を算出する
尤度計算部と、前記最適列と前記尤度より最適認識結果
を決定し出力する出力部とを備え、前記付加語モデルが
背景雑音と任意音声の両者を受理するモデルであること
を特徴とする音声認識装置。
【請求項２】入力された音声の一定時間（以下、フレ
ームという）ごとの特徴量を抽出する音声分析部と、認
識対象となる単語または単語列の前または後または前後
に付加語モデルを接続した標準パタンと、前記標準パタ
ンと前記特徴量とのパタンマッチングを前記フレームご
とに行ない、前記単語または単語列中で最適な単語系列
（以下、最適列という）を選択し、その尤度を算出する
尤度計算部と、前記最適列と前記尤度より最適認識結果
を決定し出力する出力部とを備え、前記付加語モデルの
尤度に一定値のペナルティを課すことを特徴とする音声
認識装置。
【請求項３】前記付加語モデルが、任意の音節列を受
理するモデルであることを特徴とする請求項２記載の音
声認識装置。
【請求項４】前記付加語モデルが、事前に定めた付加
語及び付加語列の集合の任意の要素を受理するモデルで
あることを特徴とする請求項２記載の音声認識装置。
【請求項５】前記付加語モデルが、複数の部分付加語
モデルより構成されることを特徴とする請求項４記載の
音声認識装置。
【請求項６】前記複数の部分付加語モデルが、第１の
部分付加語モデルと、第１の部分付加語モデルで受理さ
れる音声をすべて受理する第２の部分付加語モデルの２
種のモデルであることを特徴とする請求項５記載の音声
認識装置。
【請求項７】同一の前記特徴量に対して、前記第１の
部分付加語モデルの前記ペナルティは前記第２の部分付
加語モデルの前記ペナルティより低いことを特徴とする
請求項６記載の音声認識装置。
【請求項８】前記複数の部分付加語モデルが、第１の
部分付加語モデルと、第１の部分付加語モデルとで受理
される音声をすべて受理する第２の部分付加語モデル
と、第２の部分付加語モデルで受理される音声をすべて
受理する第３の部分付加語モデルの３種のモデルである
ことを特徴とする請求項５記載の音声認識装置。
【請求項９】同一の前記フレームにおける前記特徴量
に対して、前記第１の部分付加語モデルのペナルティが
前記第２の部分付加語モデルの前記ペナルティより低
く、かつ前記第２の部分付加語モデルの前記ペナルティ
が前記第３の部分付加語モデルの前記ペナルティより低
いことを特徴とする請求項８記載の音声認識装置。
【請求項１０】前記第１の部分付加語モデルが、事前
に定めた付加語及び付加語列の集合の任意の要求を受理
するモデルであることを特徴とする請求項６〜９のいず
れかに記載の音声認識装置。
【請求項１１】前記第２の部分付加語モデルが、背景
雑音と任意音声の両者を表現するモデルであることを特
徴とする請求項６〜９のいずれかに記載の音声認識装
置。
【請求項１２】前記第２の部分付加語モデルが、任意
の音節列を受理するモデルであることを特徴とする請求
項１０記載の音声認識装置。
【請求項１３】前記第２の部分付加語モデルが、背景
雑音と任意音声の両者を表現するモデルと、任意の音節
列を受理するモデルを並列にしたモデルであることを特
徴とする請求項６又は７記載の音声認識装置。
【請求項１４】前記第１の部分付加語モデルが、任意
の音節列を受理するモデルであることを特徴とする請求
項１１記載の音声認識装置。
【請求項１５】前記第１の部分付加語モデルが、事前
に定めた付加語及び付加語列の集合の任意の要求を受理
するモデルであり、かつ前記第２の部分付加語モデル
が、任意の音節列を受理するモデルであり、かつ前記第
３の部分付加語モデルが、背景雑音と任意音声の両者を
表現するモデルであることを特徴とする請求項８又は９
記載の音声認識装置。
【請求項１６】前記付加語モデルが、第２の部分付加
語モデル−第１の部分付加語モデル−第２の部分付加語
モデルの順番による各部分付加語モデルの連接であるこ
とを特徴とする請求項６又は７記載の音声認識装置。
【請求項１７】前記背景雑音と任意音声の両者を表現
するモデルが、有限個の状態からなるエルゴディックモ
デルであることを特徴とする請求項１又は１１又は１３
又は１５記載の音声認識装置。
【請求項１８】前記背景雑音と任意音声の両者を表現
するモデルが、単一の状態からなるエルゴディックモデ
ルであることを特徴とする請求項１７記載の音声認識装
置。
【請求項１９】前記背景雑音と任意音声の両者を表現
するモデルが、背景雑音と学習音声の両者によって学習
されたものであることを特徴とする請求項１又は１１又
は１３又は１５又は１７又は１８記載の音声認識装置。
【請求項２０】前記背景雑音と任意音声の両者を表現
するモデルが、背景雑音によって学習されたモデルと学
習音声によって学習されたモデルの混合によって生成さ
れていることを特徴とする請求項１又は１１又は１３又
は１５又は１７又は１８記載の音声認識装置。