JPH04305699A

JPH04305699A - 音声認識方法および装置

Info

Publication number: JPH04305699A
Application number: JP3071187A
Authority: JP
Inventors: Toshiyuki Morii; 森　井　利　幸; Masakatsu Hoshimi; 星　見　昌　克; Katsuyuki Futayada; 二矢田　勝　行
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1991-04-03
Filing date: 1991-04-03
Publication date: 1992-10-28
Anticipated expiration: 2015-12-04
Also published as: JP3115016B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、不特定話者が発声した
単語音声を認識するための方法および装置に関する。

【０００２】

【従来の技術】不特定話者を対象とした従来の音声認識
技術については、たとえば、「ワードスポッティング手
法を用いた不特定話者・少数語向け音声認識装置」（電
子通信情報学会　　ＳＰ８８−１８）に記載された方法
が一般的である。

【０００３】この方法では、入力された音声をまず音響
分析し、音声の特徴パラメータの時系列に変換する。一
方、あらかじめ認識装置側には、認識する単語毎にその
単語の音声の特徴を示す単語標準パターンが用意されて
いる。そして、話者の発声スピードを考慮して入力の特
徴パラメータ列を時間的に伸縮しながら、ベイズ判定に
基づく統計的距離尺度で単語標準パターンとのマッチン
グを行ない、最も距離が近いとされる単語を認識結果と
する。この単語標準パターンは、その単語の平均的な特
徴パラメータの時系列と、その分散行列によって構成さ
れている。この分散行列によって話者の声の違いを吸収
し、どんな話者の声でも認識することが可能となる。

【０００４】上記の単語標準パターンの作成は以下の手
順で行なう。（１）認識する単語集合（上記文献では１０数字）につ
いて、３３０名が発声した単語音声データを収録し、音
声データベースを作成する。（２）１つ１つの単語音声データに対して、スペクトル
波形などのディスプレイ表示により、人間が目視で音声
区間を検出し、単語の部分のみを切り出す。（３）切り出された区間を音響分析し、特徴パラメータ
（ＬＰＣケプストラム係数）の時系列を求め、さらに時
間的間引きを行ない同じ時間長にする。これを単語パタ
ーンと呼ぶ。（４）得られた単語パターンを各単語毎に集め、各パラ
メータ列の平均と共分散行列とを求める。

【０００５】このベイズ判定に基づく距離計算を行なう
ための標準パターンを作成するためには、上記のような
多次元正規分布を仮定した統計分析が必要である。した
がって、この構成の標準パターンは、数百名程度の多く
の話者の音声を統計処理しなくては得られない。上記文
献の例では、単語標準パターンを作成するために、３３
０名の話者が発声した単語音声データを使用している。したがって、そのデータ作成には多大な労力が必要とな
る。

【０００６】また、上記以外の不特定話者用音声認識の
既存の方法としては、マルチ標準パターンを用いる方法
が挙げられる。これは、１つの単語の標準パターンを代
表的な単語パターン複数個により構成し、認識時には、
この複数の単語パターンと入力パターンとの照合を行な
うというものである。この方法は、複数のパターンを用
いることによって不特定話者の音声を認識しようとする
ものであるが、この複数のパターンを選択するためには
、上記統計的距離尺度に基づく標準パターン作成時と同
様に、多くの音声データと膨大な作業量とを必要とする
。

【０００７】

【発明が解決しようとする課題】このように、既存の認
識方法では、認識対象の音声の標準パターン作成に、音
声データ収集や音声区間切り出し等のために多大な作業
量を必要とする。したがって、認識対象の単語や文章を
変更するのは大変困難であり、これは、語彙数が大きく
なればなるほど深刻な問題となる。

【０００８】本発明は、このような従来の問題を解決す
るものであり、１名から数名の少数話者が発声した認識
対象音声を用いて不特定話者の音声認識を可能にすると
ともに、認識対象音声を容易に変更できる音声認識方法
および装置を提供することを目的とする。

【０００９】

【課題を解決するための手段】本発明は、上記目的を達
成するために、入力声を分析して得られる特徴パラメー
タの時系列である特徴ベクトルに対して、あらかじめ多
数の話者で作成したパラメータ符号帳を用いて符号化を
行ない、同様に符号列に変換された少数話者の音声パタ
ーンと符号間確率テーブルを用いてマッチングを行なう
ようにしたものである。

【００１０】

【作用】本発明は、上記構成により、まず入力音声を分
析して得られる特徴ベクトルに対して、多数の話者で作
成したパラメータ符号帳を用いて符号化を行ない、分析
単位時間（以下、フレームと呼ぶ。）毎に求めた符号を
並べて符号列を作成する。そして、１名から数名の少数
話者が発声した音声を同様に符号列に変換したものを基
に作成した標準パターンとのマッチングを行ない、類似
度を計算する。その際に用いられる符号間確率テーブル
に格納された確率値は、多数の話者で作成した汎用性の
ある値であるので、個人性の影響を受けにくい。したが
って、この確率値を基に単語の類似度を求めることによ
って、不特定話者の音声を認識することができる。

【００１１】また、どのような言葉も音素や音節の組合
せで記述できるので、上記のパラメータ符号帳と符号間
確率テーブルは１度作成しておけば十分であり、認識対
象音声を変更しても常に同じものが使用できる。従って
、不特定話者用の音声認識を行なうのに必要なものは、
少数話者が発声した認識対象単語の音声データのみであ
る。

【００１２】以上により、簡単な手続で不特定話者用の
音声認識が可能であり、かつ、語彙の変更に対して柔軟
性のある認識装置の実現が可能になる。

【００１３】

【実施例】以下、本発明の実施例について説明するが、
その前に本発明の基本的な考え方の背景について説明す
る。

【００１４】人の声は有声音と無声音の２つに分類され
る。有声音は、声帯の振動として発せられた振動音が、
調音器官と呼ばれる喉頭、咽頭、舌、あご、唇などで形
成される声道を通る間に様々な変調を受けて、口から音
声として出力されるという過程で発声される。すなわち
、「あ」、「い」、「う」等の音韻性は声道の形状によ
り与えられるのである。また、無声音は、音源が声帯で
ない場合もあるが、音韻性は有声音と同様に声道の形状
によって決定される。しかし、声道を形成する喉、舌、
歯、あご、唇等の形状や寸法は人毎に異なっているし、
声帯の大きさも性別や年齢で異なる。このために、人毎
に声の違いが生じることになる。つまり、人の違いによ
る声の差異は調音器官の違いによるところが大きい。

【００１５】一方、声が「あ」、「い」、「う」等の音
韻としてでなく、単語や文として発せられるときは、声
道の形は時間的に変化し、その変化によって言葉が形成
される。たとえば、「赤い」（ａｋａｉ）と発声する場
合、声道は、あごが開き舌の後方に狭めのある／ａ／の
発声から、喉頭部の閉鎖と急激な開放を伴う／ｋ／に移
り、更に再び／ａ／の形状に戻ってから徐々に舌を唇側
に移動し、口を閉じた／ｉ／に移る。このような声道の
変化パターンは発声しようとしている言葉によって決る
ものであり、人の違いによる差異は少ないと考えられる
。このように言葉としての音声を静的な声道の形状の違
いとその時間的な変化に分離して考えると、前者は話者
によってかなり異なるが、後者は比較的小さいと見るこ
とが出来る。したがって、静的な声道の違いに基づく差
異を何等かの方法で正規化できれば、不特定話者の音声
認識が可能になる。

【００１６】ところで、声道の形状の違いは、発せられ
た音声信号中では、周波数スペクトルの違いとして表現
される。周波数スペクトルを話者間で正規化する最も単
純な方法は、音素や音節などの短時間の音声標準パター
ンとのマッチングを行なって、発声された音声を音素や
音節などの記号列にしてしまうことである。つまり、不
特定話者用として作成された汎用の音素や音節の標準パ
ターンを用いれば、話者の違いに大きく左右されずに、
各音素や音節のどれに近いかという類似度情報を得るこ
とができるのである。言換えると、周波数スペクトルを
パターンマッチングによって音素や音節の類似度に変換
することによって、話者の静的な声道の違いに基づく差
異を正規化することができるということである。そして
、この正規化ができれば、声道の時間的変化は話者によ
る差異が少ないのであるから、声道の変化パターンは、
１人ないし数人分の音声データを上記正規化して得られ
る類似度の時間パターンにより作成することができる。したがって、少数話者の単語や文節の発声により、不特
定話者用の音声標準パターンが得られる。

【００１７】このような考え方に基づき、本発明は次の
ように構成される。すなわち、予め多くの話者が発声し
た音声を分析して、話者が発声する音全体の特徴パラメ
ータの時系列である特徴ベクトルのセントロイド（重心
）の集合を作成し、各セントロイドに番号を付けてパラ
メータ符号帳とする。また、その音声データに付加され
た音素位置のデータ（ラベルデータ）を利用して、上記
パラメータ符号帳内の各セントロイドが各音素である確
率を求めて、さらにその音素数の次元を持つ確率列から
各々のセントロイドがお互いに同じ音素である確率を求
めて、符号間確率テーブルを作成する。このテーブルに
書かれた確率値は、話者の静的な声道の違いに基づく差
異を受けにくい値である。標準パターンは、１名から数
名の話者が発声した認識対象音声を分析して得られる特
徴ベクトルを上記パラメータ符号帳を用いて符号化し、
セントロイドの番号の時系列（符号列）に変換すること
により得られる。認識時には、入力音声に対して音響分
析を行ない特徴ベクトルに変換した後、上記パラメータ
符号帳によって符号化し符号列を求める。そして、標準
パターンとしての符号列と照合を行なう。この際、符号
間の距離は、上記符号間確率テーブルを参照することに
より求められる。

【００１８】以下、本発明の一実施例について図面を参
照して説明する。図１は本発明の一実施例の構成を示す
ものである。図１において、１は音響分析部、２はベク
トル探索部、３はパラメータ符号帳、４は符号列作成部
、５は辞書格納部、６はマッチング部、７は符号間確率
テーブルである。

【００１９】次に本実施例の動作について、最初に１名
の話者の音声を辞書に登録する場合について説明する。図１において、まず入力音声に対して音響分析部１で１
フレーム（本実施例では１フレーム＝１０ｍｓｅｃ）毎
に線形予測分析（ＬＰＣ分析）を行ない、特徴パラメー
タとしてＬＰＣケプストラム係数（Ｃ０〜Ｃ８　まで９
個、Ｃ０　は正規化残差パワー項で対数変換しておく。）を求める。

【００２０】次に、ベクトル探索部２において、各フレ
ームを中心とした特徴パラメータの時系列すなわち特徴
ベクトルとパラメータ符号帳３に格納されている各セン
トロイド（重心）とのユークリッド距離の計算を以下の
（数１）を用いて行ない、最も距離の近いセントロイド
の番号を求める。特徴ベクトルは、本実施例では中心フ
レームから前４、後４フレームの計９フレーム分のＬＰ
Ｃケプストラム係数（Ｃ０　〜Ｃ８　）を１次元に並べ
たＶｅｃｔｏｒ　　ｘ＝（Ｃｏ（１）　，Ｃ１　（１）
　，・・・，Ｃ８　（１）　，Ｃ０　（２）　，Ｃ１　
（２）　，・・・，Ｃ８　（２）　，・・・Ｃ８　（９
）　）を意味する。

【００２１】

【数１】

【００２２】図２はこのベクトル探索部２における探索
の様子を示したものである。この図２の場合は、入力音
声の特徴ベクトルに距離ｄが一番近い符号「１」に符号
化される。そして、符号列作成部４において、各フレー
ム毎の番号を並べて符号列を作成する。

【００２３】ここで、ベクトル探索部２において使用さ
れるパラメータ符号帳３の作成方法について説明する。まず、多くの話者について、音韻バランスのとれた音声
データを収録する。本実施例では多数の単語の音声デー
タを使用している。次に、その音声の音声区間全てにつ
いて上記と同様の音響分析を行ない、各フレームの特徴
ベクトルを求める。そして、それら全ての特徴ベクトル
を集めて特徴ベクトルの母集団を作成し、さらに、この
母集団に対してユークリッド距離に基づくクラスタリン
グを行ない、セントロイドを求めてパラメータ符号帳３
を作成する。このクラスタリングは、母集団に対してサ
ンプルとセントロイド（重心）間のユークリッド距離が
最小になるようなグループ分けを行ない、作成しようと
する符号帳サイズの数のグループにわけて、そのグルー
プのセントロイド（重心）で符号帳を作成する。

【００２４】クラスタリングには幾つかの方法があり、
本実施例に用いたクラスタリング・アルゴリズムは細胞
***型のアルゴリズムである。このアルゴリズムを以下
に順に示す。（１）　　Ｋ＝１（２）　　Ｋ個のグループのセントロイドを単純平均に
より求める。そして、それぞれのグループに属する全て
のサンプルとセントロイドとのユークリッド距離を求め
、その最大値をそのグループの歪とする。（３）　　Ｋ個のグループの中で最も歪の大きいグルー
プのセントロイドの附近に２つのセントロイドを作る（
細胞***の核になる。）。（４）　　Ｋ＋１個のセントロイドを基にグループ分け
を行ない、セントロイドを求め直す。（５）　　空のグループがあればそのセントロイドを抹
消して（３）へ戻る。（６）　　Ｋ＋１個のグループの歪を（２）と同様に求
め、その総和の変化量があらかじめ設定した微小なしき
い値以下であれば（７）へ進み、しきい値より大きい場
合は（４）へ戻る。（７）　　Ｋ＋１が目標のグループ数に達していなけれ
ばＫ＝Ｋ＋１として（２）へ戻り、達していれば（８）
へ進む。（８）　　すべてのグループのセントロイドを求め、符
号帳を作成する。

【００２５】なお、上記アルゴリズムにおいて、本実施
例におけるパラメータ符号帳３に格納されたセントロイ
ドの数は全部で９２０個であり、収束検知に用いたしき
い値は０．０００１である。

【００２６】ここで再び図１の実施例の説明に戻る。符
号列作成部４において、各フレーム毎のセントロイドの
番号を並べて符号列を作成した後、マッチング部６にお
いて、辞書格納部５に格納されている音声パターンとし
ての符号列とのマッチングを、符号間確率テーブル７と
ＤＰマッチングを用いて行ない、各音声の類似度を求め
る。そして、各類似度を比較し、最も高いものを認識結
果として出力する。この辞書格納部５、マッチング部６
、符号間確率テーブル７について、以下に説明する。

【００２７】まず、辞書格納部５に格納される音声パタ
ーンの作成手順を述べる。最初に認識対象音声について
１人の話者の音声を収録する。次に、認識時と同様に音
響分析を行ない、特徴ベクトルを求める。さらに、認識
時と同様にパラメータ符号帳を用いて符号化を行ない、
各音声の符号列を求める。そして、この符号列を音声の
パターンとして辞書格納部５に格納する。

【００２８】次に、マッチング部６について述べる。入
力音声１から得られる符号列と辞書格納部５に格納され
ている音声パターンは、一般にその長さが異なっている
。そこで、このマッチングをＤＰマッチングを用いて行
なう。本実施例で用いた漸化式の例を（数２）に示す。

【００２９】

【数２】

【００３０】ここで、辞書側のフレーム番号がｊ、入力
のフレーム番号がｉ、第ｉフレームと第ｊフレームの類
似度がｌ（ｉ，ｊ）、累積類似度がｇ（ｉ，ｊ）である
。類似度ｌ（ｉ，ｊ）は、辞書側のｊ番目にある符号と
、入力のｉ番目の符号（セントロイドの番号）を基に、
符号間確率テーブル７を参照して求める。

【００３１】符号間確率テーブル７は、図３に示すよう
に、各符号間の類似度（同じである確率で、図３には生
の値を記しているが、実際には対数をとってある。）が
入っており、マッチングの際には、比較する符号を縦横
に見てその間の確率値を類似度として用いる。この値は
、２つのフレームが同じである確率であり、このＤＰマ
ッチングの結果得られる累積類似度は、マッチングパス
において対応する全てのフレームが同じである確率にな
ることに注意すべきである。この「２つのフレームが同
じである確率」については、以下の符号間確率テーブル
７についての説明の中でその意味を述べる。

【００３２】次に、符号間確率テーブル７について、そ
の考え方と作成法について説明する。ベクトル探索部２
において求められる符号は、特徴ベクトルのベクトル空
間（ユークリッド空間）上における大まかな位置を示す
ものである。また、上記課題を解決するための手段の項
で述べたように、少数の話者の音声データを不特定話者
用の標準パターンに変換するためには、多数話者の音声
データから作成した音素や音節の標準パターンとマッチ
ングを行なう必要がある。そこで、本実施例では音素を
基本単位とした統計分析により、その符号に符号化され
る特徴ベクトルが各音素に属する確率を求める。

【００３３】まず、音素の位置（始端と終端）がラベル
付けされている音声データを上記認識時と同様に音響分
析して、各フレームの特徴ベクトルを求めた後、上記パ
ラメータ符号帳３によって符号化し（最も近いセントロ
イドの番号を求める。）、各フレームの符号（セントロ
イドの番号）を求める。次に、ラベルを参照することに
より、そのフレームが何の音素に属しているかがわかる
ので、各セントロイド毎にその音素数分のエリアを用意
し、そのセントロイド番号になった特徴ベクトルの音素
番号のエリアに加算していく。その結果、図４のように
、各セントロイド番号のエリアには、その符号になった
特徴ベクトルが各音素であった個数が入っている。たと
えば、図４の符号「３」を例としてみると、多数話者の
全ての音声から得られた多くの特徴ベクトルのうち、「
３」に符号化されたものは全部で１２００個あり、この
うち３１個が／ａ／の音素であり、また、４０個が／ｏ
／、９３５個が／ｕ／であったことを示している。そこ
で、この個数を全体で割れば、その番号に符号化された
特徴ベクトルが各音素になる確率が得られる。これを確
率列と呼ぶ。例えば、この例では、「３」に符号化され
た特徴ベクトルが／ａ／である確率は０．０２５８であ
り、／ｕ／である確率は０．７７９である。この値はい
づれも多数話者から求めた汎用性のある確率であるから
、音声をこの確率列に変換することによって、話者の声
道の違いに基づく差異を正規化できる。したがって、入
力音声の特徴パラメータとしてこの確率列を用いること
は、個人性に影響されにくいという点で大変有効である
。

【００３４】そして、さらにこの確率列を用いて２つの
符号の類似度を求める。符号ｉが音素ｊに属する確率を
Ｐｉｊとすると、符号ｍと符号ｎが同じ音素である確率
Ｄｍｎは次の（数３）によって求めることができる。

【００３５】

【数３】

【００３６】最後に、このＤｍｎをマトリックスに表現
して図３のような符号間確率テーブルを作成する。この
Ｄｍｎは、人の違いによらず、その符号と符号が音素と
してどれだけ似ているかという程度をあらわす値である
。したがって、上記した辞書格納部５の説明文中におけ
る「同じである確率」とは、この「同じ音素である確率
」に相当する。

【００３７】なお、本実施例における音素とは、／ａ／
，／ｏ／，／ｕ／，／ｉ／，／ｅ／，／ｊ／，／ｗ／，
／ｍ／，／ｎ／，／

【００３８】

【外１】

【００３９】／（語中），／ｂ／，／ｄ／，／ｇ／（語
頭），／ｒ／，／ｚ／，／ｈ／，／ｓ／，／ｃ／，／ｐ
／，／ｔ／，／ｋ／，Ｑ（促音），／＝／（撥音）の２
３音素とした。

【００４０】以上が、本実施例における１人の話者の音
声パターンを標準パターンとする音声認識方法である。次に、複数の話者で標準パターンをつくる方法は２つあ
る。１つは、一人一人の音声パターンをそのままマルチ
パターンとしてマッチングに用いる方法で、この場合は
認識時の計算量はモデルとする話者数に比例して増加す
るが、より話者に適応した認識を行なうことができ、認
識性能を向上させることができる。２つ目は、それぞれ
の音声パターンの長さをＤＰマッチングを用いて正規化
してから平均化する方法である。この場合、平均化する
段階は、特徴ベクトルの段階と確率列の段階の２種類が
あり、どちらにしても、より安定した標準パターンを得
ることができ、認識性能を向上させることができる。

【００４１】ここで、本発明の有効性を検証するために
、本実施例を用いて単語認識実験を行なった。単語数は
２１２個である。音素位置のラベル付けがなされた２０
人（男女各１０人）の話者の音声データを用いて、パラ
メータ符号帳と符号間確率テーブルを作成し、この内の
１人（男性話者）の２１２単語の単語音声を用いて音声
の標準パターンを作成した。認識対象は上記話者以外の
話者２０人（男女各１０人）の２１２単語音声である。実験の結果、平均９０．１％（男性８９．３９％、女性
９０．８１％）という高い単語認識率が得られた。男性の音声パターンを用いているが、男女の認識率の差
はほとんど無い。したがって、ベクトル探索と符号間確
率による距離計算により、声の個人性が吸収されており
、１人の話者でも不特定用の標準パターンが得られるこ
とが検証できた。

【００４２】このように、本実施例では、入力音声を音
響分析することによって得られる特徴パラメータの時系
列である特徴ベクトルを用い、そのままその空間上でマ
ッチングするのでなく、その特徴ベクトルを多数話者で
作成したパラメータ符号帳で符号化し、マッチングの際
に符号間確率テーブルを参照して符号間類似度を求める
ことにより、少数話者が発声した音声を登録するだけで
不特定話者の音声を精度良く認識することができるよう
になる。

【００４３】

【発明の効果】以上のように、本発明は、入力声を分析
して得られる特徴パラメータの時系列である特徴ベクト
ルに対して、あらかじめ多数の話者で作成したパラメー
タ符号帳を用いて符号化を行ない、同様に符号列に変換
された少数話者の音声パターンと符号間確率テーブルを
用いてマッチングを行なうことによって、１人から数名
の少数話者が発声した認識対象単語を辞書として登録す
るだけで辞書が更新でき、また、高い音声認識率を得る
ことができる。

【００４４】このように、本発明は、不特定話者用音声
認識装置の性能向上および様々な用途に適用するために
、標準パターンを作成するための労力削減に対して極め
て大きく貢献することができる。

【図面の簡単な説明】

【図１】本発明の一実施例における音声認識装置の構成
を示すブロック図

【図２】同実施例におけるベクトル探索部の機能を説明
するための模式図

【図３】同実施例における符号間確率テーブルの一例を
示す説明図

【図４】同実施例における各セントロイドが各音素であ
った個数を示す説明図

【符号の説明】

１　　音響分析部２　　ベクトル探索部３　　パラメータ符号帳４　　符号列作成部５　　辞書格納部６　　マッチング部７　　符号間確率テーブル

Claims

【特許請求の範囲】

【請求項１】　　入力音声に対して音響分析を行ない、
分析単位時間毎に得られる特徴パラメータの時系列であ
る特徴ベクトルを求める音声分析手段と、多数の話者の
音声を上記音声分析手段により分析することによって得
られる特徴ベクトルの空間の代表ベクトルを格納するパ
ラメータ符号帳と、入力音声から上記音声分析手段によ
り得られる特徴ベクトルと上記パラメータ符号帳に格納
された代表ベクトルとの距離を求め、最も近い代表ベク
トルの符号を求めるベクトル探索手段とを備え、あらか
じめ音素または音節位置のラベリングがなされている多
数の話者の音声を上記音声分析手段とパラメータ符号帳
とベクトル探索手段によって分析単位時間毎に符号化し
、その符号とその符号を求めた分析単位時間に記された
音素または音節のラベルとを用いて、各符号に符号化さ
れる特徴ベクトルが各音素または音節に属する確率を求
めることにより確率列を作成しておき、入力音声の分析
単位時間毎の特徴パラメータとして、入力音声から上記
ベクトル探索手段によって得られた分析単位時間毎の符
号に基づく上記確率列を用いて音声のマッチングを行な
うことにより、不特定話者の音声の持つ個人性に影響さ
れずに認識を行なう音声認識方法。
【請求項２】　　入力音声に対して音響分析を行ない、
分析単位時間毎に得られる特徴パラメータの時系列であ
る特徴ベクトルを求める音声分析手段と、多数の話者の
音声を上記音声分析手段により分析することによって得
られる特徴ベクトルの空間の代表ベクトルを格納するパ
ラメータ符号帳と、入力音声から上記音声分析手段によ
り得られる特徴ベクトルと上記パラメータ符号帳に格納
された代表ベクトルとの距離を求め、最も近い代表ベク
トルの付号を求めるベクトル探索手段と、上記ベクトル
探索手段により得られた符号を時間的に並べて符号列を
作成する符号列作成手段と、１名から数名の話者が発声
した認識対象音声を上記音声分析手段とパラメータ符号
帳とベクトル探索手段と符号列作成手段により符号列に
変換したものを基に作成された標準パターンを格納する
辞書格納部と、上記パラメータ符号帳の符号間の類似度
を格納する符号間確率テーブルと、上記入力音声を上記
符号列作成手段により符号列に変換したものと上記辞書
格納部に格納されている認識対象音声の標準パターンと
しての符号列とを上記符号間確率テーブルに格納されて
いる類似度を用いてマッチングして最も類似度の高い認
識対象単語を認識結果とする音声マッチング手段とを有
する音声認識装置。
【請求項３】　　符号間確率テーブルが、あらかじめ音
素または音節位置のラベリングがなされている多数の話
者の音声を音声分析手段とパラメータ符号帳とベクトル
探索手段によって分析単位時間毎に符号化し、その符号
とその符号を求めた分析単位時間に記された音素または
音節のラベルとを用いて、各符号に符号化される特徴ベ
クトルが各音素または音節に属する確率を求め、さらに
その確率の列を用いて符号化された２つの特徴ベクトル
が同じ音素または音節に属する確率を求め、それらを格
納することによって作成される請求項２記載の音声認識
装置。