JP3003136B2

JP3003136B2 - 音声認識方法および音声応答システム

Info

Publication number: JP3003136B2
Application number: JP1195267A
Authority: JP
Inventors: 明雄天野
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1989-07-27
Filing date: 1989-07-27
Publication date: 2000-01-24
Anticipated expiration: 2015-01-24
Also published as: JPH0358098A

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、各音声カテゴリの特徴空間内の分布と位置
の情報を付加して認識することにより、高精度で音声を
認識することが可能な音声認識方法および音声応答シス
テムに関するものである。

〔従来の技術〕

音声発声の基本は、音源の発生と共鳴系の形成であ
り、それらを特徴付ける物理的な量がピッチとホルマン
トである。ピッチは、音声の高さを表わす用語である
が、声帯の振動数もピッチと呼ばれている。また、共鳴
系の特性は、共振周波数と共振のＱで表わされるが、共
鳴の周波数は複数存在し、200Hz〜5kHzの間に４〜５個
の共鳴周波数が観測される。これらを低い方から第１ホ
ルマント、第２ホルマント、・・・と呼んでいる。例え
ば、母音の『ア』では、第１ホルマント周波数が600〜8
00Hz、第２ホルマント周波数が1100〜1400Hzであり、ま
た『イ』では、第１ホルマント周波数は200〜300Hz、第
２ホルマント周波数は2000〜2200Hzである。

ある単語を表わす音声は音の連続で発生され、例え
ば、『認識』は『ニ，ン，シ，キ』の４つの音節のつな
がりである。このように、４つの音節に分かれて聞こえ
るが、実際に物理的に音声波形を観測してその特徴を分
析すると、明確に音節の境界が存在するわけではなく、
ほぼ連続的にゆっくりと特性が変化している。

ところで、従来の音声認識方法は、大きく２つの方法
に分類することができる。その第１の方法は、分析部か
ら得られる特徴ベクトルの時系列に対して、各ベクトル
毎に記号に変換した後、記号列に対する処理により認識
結果を求めようとするものである。また、第２の方法
は、分析部から得られる特徴ベクトルの時系列に対し
て、各ベクトル単位では処理を行わずに、もっと大きな
音節ないし単語としてのある長さを持った特徴ベクトル
系列に対し処理を行うものである。ここで、特徴ベクト
ルとは、音声の周波数スペクトルを瞬間的にとらえて、
それを12次元で表わしたカラー値の組を言う。前述のよ
うに、周波数スペクトルで表わされた単語や音節は第４
図（ａ）に示すように各々の間に明確な区切りがなく、
ほぼ連続的なつながりで示される。しかし、各音声を境
界線と思われる点で切断してみると、例えば、『ア』，
『イ』，『ウ』という各音声の周波数スペクトルは、第
４図（ｂ）に示すように、それぞれ異なる特徴の波形を
有しており、低周波数位置の第１ホルマントと高周波数
位置の第２ホルマントを有している。この波形やスペク
トル包絡パラメータの複数のサンプル値を組（ベクト
ル）にまとめて、１つの記号で表現し、量子化する方法
をベクトル量子化と呼んでいる。例えば、各フレーム毎
に分析される複数個（例えば、12個）のスペクトルパラ
メータをセットして１組のベクトル（パターン）とし、
コードブックに記載されている複数個のベクトルコード
の中からコードを番号を選択し、それをそのベクトルの
記号とする。前述の第１の方法では、特徴ベクトルの時
系列の各ベクトル毎に記号に変換して、それら記号列を
処理することにより認識結果を得ている。また、第２の
方法では、ベクトル毎に記号に変換せずに、もっと大き
な音節や単語として処理している。すなわち、第１の方
法では、断面毎に記号化するのに対して、第２の方法で
は、さらに大きなものを形として扱う。例えば、第４図
（ｂ）のスペクトル図のように音声毎に切断せずに、第
４図（ｃ）に示すように、20〜50個の音声スペクトル分
が含まれる音節ないし単語を取り出し、特徴ベクトル系
列に対して２次元ないし３次元的に処理する。

上記第１の方法に分類される音声認識方法は、さらに
Ａの方法とＢの方法の２つに分類することができる。

Ａの方法では、各特徴ベクトルから変換された記号
が、直接音韻記号に対応付けられるようなものである。
Ｂの方法では、各特徴ベクトルから変換された記号が直
接音韻記号には対応せず、単に計算機の処理量を削減す
るために、一旦記号列に変換し、それ以降の処理を記号
列に対する処理のみで済ませようとするものである。す
なわち、Ａの方法で１つの特徴ベクトル毎に記号化する
と、12次元であるため12の要素を有しており、計算機で
演算する場合には12ワードの計算をする必要がある。こ
れに対して、Ｂの方法では、200〜300程度の形（テンプ
レート）を予め用意しておき、特徴ベクトルを用意され
た１つの形に置き換えてしまう。これにより、12ワード
の計算は不要となり、１ワードで表現できることにな
る。Ａの方法としては、例えば、日本音響学会音声研究
会資料S84−25（June 26,1984）『発音速度を考慮した
セグメンテーション』に記載されている。この方法で
は、分析部から得られた特徴ベクトル系列を音素テンプ
レートと照合して、各特徴ベクトルを唯一の音素に対応
付け音素記号列に変換してしまう。また、Ｂの方法とし
ては、例えば、AT＆Ｔ Technical Journal Vol.64,N
o.5May−June 1985“On the Use of Vector Quan
tization for Connected−Digit Recognition"に記
載されている。この方法では、分析部から得られた特徴
ベクトル系列を基準ベクトル群と照合して記号列に変換
し、記号列で表記された単語標準パターンとさらに照合
することにより、認識する。

〔発明が解決しようとする課題〕

第５図（ａ）に示すように、12次元の特徴ベクトルを
表わす特徴空間を考えた場合（ここでは、12次元でな
く、F₁,F₂の２次元で記載した特徴空間）、各音声カテ
ゴリ（例えば、『ア』，『イ』，『ウ』，・・等の各音
声の種類）毎に重複した領域を専有している。『ア』は
『あ』で示される領域で、その中心が黒丸で示され、
『え』の領域および『い』の領域と一部重複している。
『い』『う』『え』『お』の各領域についても全く同じ
関係にある。

前述の従来の認識方法では、いずれの場合にも、分析
部から得られる特徴ベクトル系列の記号化を行う際に、
第５図（ａ）に示したような各音声カテゴリの特徴空間
内の分布を考慮していなかった。すなわち、『あ』の領
域に少なくとも含まれていれば『ア』と無条件で認識
し、『い』の領域に含まれていれば『イ』と無条件で認
識し、それらの領域の中心か、端縁か等の領域内の位置
の識別は行っていなかった。

また、特徴空間内の分布を考慮している例としては、
例えば、‘ベル・システム・テクニカルジャーナル’
（Bell System Technical Journal Vol.62,No.4,Ap
ril 1983“On the Application and Hidden Mark
ov Models to Speaker−Independent,Isoland Word
Recognition"がある。しかし、この方法においても、
隣接する時刻の間の特徴ベクトルのカテゴリとしての連
続性を扱う手立てが用意されていなかった。すなわち、
特徴空間内の各カテゴリの分布は確認しているにもかか
わらず、第５図（ａ）の『ア』の領域から順次『い』の
領域に移り、『い』の領域から順次『う』の領域に移る
等の連続性を扱う方法は、全く用いられていなかった。

その結果として、音声現象を十分に反映させて音声認
識していないため、高精度な認識は不可能であった。

本発明の目的は、このような従来の課題を解決し、各
音声カテゴリの特徴空間内の分布を十分に考慮し、かつ
隣接する時刻の間の特徴ベクトルのカテゴリとしての連
続性を扱うことにより、高精度に音声を認識できるよう
にした音声認識方法および音声応答システムを提供する
ことにある。

〔課題を解決するための手段〕

上記目的を達成するため、本発明の音声認識方法は、
（イ）入力された音声を分析して、特徴ベクトルの時系
列を出力するとともに、予め参照の基準となる基準ベク
トルを格納しておき、上記特徴ベクトルと基準ベクトル
の一部ないし全部とを照合することにより、類似した基
準ベクトルを指示する記号を１ないし複数個出力し、出
力された記号の中から判定して認識する音声認識方法に
おいて、上記基準ベクトルを格納するメモリは、認識の
対象になる音声の各カテゴリ毎に複数個の基準ベクトル
を格納し、該基準ベクトルはそれぞれ各カテゴリ内での
分布に関する情報を保持しており、上記特徴ベクトルと
基準ベクトルとを照合する場合には、各カテゴリ毎に照
合して、類似した基準ベクトルを指示する記号および該
記号に付随した各カテゴリ内での分布に関する情報を各
カテゴリ毎に出力し、これに基づいて判定し認識結果を
出力することに特徴がある。また、（ロ）上記基準ベク
トルを各カテゴリ毎に複数個格納する場合、特徴ベクト
ルが認識対象の各音声カテゴリとしてどの程度尤もらし
いかの値を算出し、算出された各音声カテゴリとしての
尤もらしさの程度を示す値の時系列に対して、判定処理
を行うことにより認識結果を求めることにも特徴があ
る。また、本発明の基準ベクトル群作成方法は、（ハ）
各音声カテゴリ毎に音声サンプルを用意し、該音声サン
プルをクラスタリングして複数のクラスタを得、かつ該
クラスタを代表する代表ベクトルを求め、上記クラスタ
の代表ベクトルをもって基準ベクトルとする基準ベクト
ル群作成方法において、該基準ベクトルと各カテゴリ毎
の音声サンプルおよび各カテゴリ毎の各クラスタの情報
に基づいて、各基準ベクトルのカテゴリ内での分布に関
する情報を、該基準ベクトルに付加することに特徴があ
る。さらに、本発明の音声応答システムは、（ニ）入力
された音声を分析して、特徴ベクトルの時系列を出力す
るとともに、予め参照の基準となる基準ベクトルを格納
しておき、上記特徴ベクトルと基準ベクトルの一部ない
し全部とを照合することにより、類似した基準ベクトル
を指示する記号を１ないし複数個出力し、出力された記
号の中から判定して音声を認識する場合、上記基準ベク
トルを格納するメモリは、認識の対象になる音声の各カ
テゴリ毎に複数個の基準ベクトルを格納し、該基準ベク
トルはそれぞれ各カテゴリ内での分布に関する情報を保
持しており、上記特徴ベクトルと基準ベクトルとを照合
する場合には、各カテゴリ毎に照合して、類似した基準
ベクトルを指示する記号および該記号に付随した各カテ
ゴリ内での分布に関する情報を各カテゴリ毎に出力し、
これに基づいて判定し認識結果を出力する音声認識装置
と、該音声認識装置で認識した音声情報は受け取って、
サービスを行うサービス制御手段と、該サービス制御手
段により作成された回答を音声合成して応答する音声応
答手段とを備えたセンタ、および該センタに電話回線を
介して接続された複数の電話端末からなることに特徴が
ある。

〔作用〕

本発明においては、各音声カテゴリ毎に基準ベクトル
群を用意しておき、この各基準ベクトルの各音声カテゴ
リの中での分布に関する情報を、上記各基準ベクトルに
付随させて持たせ、この基準ベクトル群を特徴ベクトル
系列の記号化に用いる。

これにより、各音声カテゴリの特徴空間内の分布を十
分に考慮した上で特徴ベクトル系列の記号化を行うこと
ができ、かつ記号化された特徴ベクトル系列の隣接する
時刻の間のカテゴリとしての連続性を考慮できるので、
音声現象を十分に反映でき、その結果高精度な認識が可
能となる。

〔実施例〕

以下、本発明の実施例を、図面により詳説に説明す
る。

第１図（ａ）は、本発明の一実施例を示す音声認識装
置のブロック図であり、第１図（ｂ）は第１図（ａ）の
判定部における動作説明図である。

第１図（ａ）において、本発明で従来と異なっている
ハードウェアは、基準ベクトル格納部105を複数個（ｎ
個）設けている点である。また、基準ベクトル格納部10
5に格納されている情報内容も従来と異なり、特徴ベク
トルとそれに付随した特徴空間内の位置情報であり、ま
た照合部103から判定部104に出力される情報も比較して
最も類似した特徴ベクトルとそれに付随する位置情報で
ある。このように、本発明では、各カテゴリとしての連
続性を考慮した特徴空間内の位置情報が出力されるの
で、高精度認識が可能である。

第１図（ａ）において、装置に入力された音声は、先
ず音声入力部101で電気信号に変換される。電気信号に
変換された音声は、さらに音声分析部102に送られ、こ
こで分析されることにより特徴ベクトルの時系列が出力
される。音声分析部102から出力された特徴ベクトル時
系列は、照合部103において予め基準ベクトル格納部105
に格納されている基準ベクトルと照合される。照合の結
果、照合部103は類似している基準ベクトルを選択し
て、（ｉ）その基準ベクトルを指示する記号、および
（ii）その基準ベクトルに付随した情報を判定部104に
出力する。判定部104は、照合部103から送られてきた基
準ベクトルを指示する記号とそれに付随した情報に対し
て判定処理を施こし、認識結果を出力する。付随した情
報は、各カテゴリの中心に近いほど大きい値を持つの
で、判定部104では第１図（ｂ）に示すような出力が得
られ、時間的には‘ア’‘オ’‘イ’‘エ’の順に出力
される。従って、出力を予め定めた閾値A₀で切断するこ
とにより、A₀以上の出力が一定時間以上あれば、該当す
る音声であると判定する。

第２図は、本発明で使用される基準ベトル群作成装置
の一実施例を示すブロック図である。

第１図に示す複数個の基準ベクトル格納部105の内容
を作成するために、第２図に示す装置が配置される。

基準ベクトル格納部105は、認識対象となる音声のカ
テゴリ毎に用意される。認識対象となる音声のカテゴリ
の数をｎとすると、基準ベクトル格納部105はｎ個用意
され、それぞれ105−１〜105−ｎの符号が付けられる。
すなわち、‘ア’から‘ン’まで50種類のカテゴリを用
意するときには、ｎ＝50となる。いま、１〜ｎのうちの
ｉ番目の音声カテゴリに対応する基準ベクトル格納部10
5−ｉに含まれる基準ベクトルの数をNiとし、各基準ベ
クトルをPij（ｊ＝１〜Ni）とする。すなわち、１つの
カテゴリ内にも複数の基準ベクトルが用意され、例えば
１つのカテゴリについて200個が用意されるとすると、5
0種類のカテゴリでは200×50＝10000個の基準ベクトル
が用意されることになる。

例えば、第５図（ｃ）に示すように、１つのカテゴリ
内には多数個の基準ベクトルが用意され、各基準ベクト
ルは例えば12個のスカラーの組から成る。（ただし、こ
こでは12次元では表わせないため、２次元で表わしてい
る）、ここでは、130番と50番の基準ベクトルが示され
ている。

また、音声分析部102から得られる特徴ベクトルをＸ
とする。すなわち、音声分析部102は、入力した音声を
分析した結果、その音声の特徴ベクトルＸを出力する。

照合部103では、音声分析部102から受け取った特徴ベ
クトルＸに最も近い基準ベクトルを、各音声カテゴリ毎
にPij（ｊ＝１〜Ni）の中から求める。各基準ベクトルP
ijには、予めその基準ベクトルがその音声カテゴリｉの
中でどのような位置に属しているかを示す情報が保持さ
れている。照合部103からは、選択された基準ベクトル
を指示する記号とともに、この記号に付随してこの音声
カテゴリ中の位置情報が出力される。

この位置情報は、例えばカテゴリの中心に近い位置に
存在する基準ベクトルほど大きな値を持ち、周辺に位置
する基準ベクトルほど小さな値を持つような情報であ
り、第１図（ｂ）に示すような形式で出力が得られる。
‘ア’に対する出力をみてみると時刻t₁〜t₃の間に大き
な値をとっており、この間の特徴ベクトルが‘ア’の分
布の中心付近にあることがわかる。一方、時刻t₄〜t₆の
間では‘ア’に対する出力は小さく、‘イ’に対する出
力が大きくなっている。すなわち特徴ベクトルは、
‘ア’の分布の中心からは遠く‘イ’の中心に近い位置
にあることがわかる。このような出力に対して、判定部
104では、例えばあるカテゴリに関してこの値がある一
定以上（第１図（ｂ）では閾値A₀以上）の値をある時間
以上継続したときに、そのカテゴリであると判断するよ
うにして認識結果を求める。

なお、前述の各基準ベクトルに付随する情報の値を設
定する方法としては、基準ベクトルPijを用いて、カテ
ゴリｉ内の全サンプルをコード化したときの歪をDijと
したとき、1/Dijなる値を設定する方法が考えられる。
ここで歪Dijとは，各カテゴリｉの中心から基準ベクト
ルPijまでの距離に比例すると考えてよく、正確には基
準ベクトルPijからカテゴリｉ内の全ベクトルまでの距
離の平均値である。例えば、第５図（ｄ）に示すよう
に、全サンプルのカテゴリ内の位置がｅ〜ｋであるとき
には、そのカテゴリ内の基準ベクトルPijをｃとすると
き，距離ｃ−e,c−f,c−g,c−h,c−i,c−j,c−ｋを平均
化した値をDijとする。従って、Dijの逆数の1/Dijなる
値を基準ベクトル記号に付属する位置情報とする。この
位置定法は、カテゴリの中心に近いほど大きな値とな
る。

第２図に示すように、基準ベクトル群作成装置は、複
数個の音声サンプル格納部201と１個のクラスタリング
部202と音声サンプル格納部201に対応した数の基準ベク
トル格納部105から構成される。音声サンプル格納部201
は、各音声カテゴリ毎に音声サンプル（201−i,i＝１〜
ｎ）を格納する。

基準ベクトル群を作成する場合には、各音声カテゴリ
毎に、音声サンプル格納部201−ｉから音声サンプルを
取り出し、クラスタリング部202において各音声カテゴ
リ毎にクラスタリングを行った後、一定個数（ｍとす
る）のクラスタ、およびそのクラスタを代表する代表ベ
クトルを求める。クラスタリングの手法としては公知の
一般的なクラスタリング法を用いればよい。

代表ベクトルをPijとすると、各Pij（ｊ＝１〜ｍ）を
用いてｉ番目の音声カテゴリ内の全音声サンプルのコー
ド化を試みた後、その時に生じる歪の累積値を求める。
すなわち、第５図（ａ）に示すように、‘あ’‘い’
‘う’‘え’‘お’の各カテゴリ毎にそれぞれｍ個の代
表ベクトルを用いてカテゴリ内の全サンプルのコード化
を行い、それぞれの距離を求めて、歪の累積値を求め
る。そして、この累積値をDijとするのである。次に、
各基準ベクトルとこれに付随した分布に関する情報とし
て1/Dijの値を基準ベクトル群格納部105に格納する。こ
の処理を、全ての音声カテゴリについて繰り返すと、基
準ベクトル群格納部105にはｎ個の音声カテゴリに関し
てｍ個ずつの基準ベクトルが得られ、基準ベクトル群の
作成が完了する。なお、前記クラスタリングの手法とし
ては、例えば、『IEEE Trans.Commun.,COM−28,No.1
（January 1980）pp.84〜85“An Algorithm for Ve
ctor Quantizer Design."に記載されている。

本発明においては、第５図（ｂ）に示すように、例え
ば『あい』という音声を入力した場合には、その周波数
スペクトルの位置に対応した情報が出力され、各音声カ
テゴリの特徴空間内の分布が基準ベクトルに付随する情
報として判定部に入力されるので、第５図（ａ）に示す
ように、各カテゴリ内での特徴ベクトルの位置が明確と
なる。すなわち、同じ‘あ’の音声であっても、その位
置から判断して‘い’に近い位置か、あるいは‘え’に
近い位置かが明確となり、音声現象を十分に反映できる
ので高精度の認識が可能となる。

第３図は、本発明の応用例を示す音声応答システムの
構成図である。

第３図に示すように、センタ内に本発明による音声認
識装置１と、音声応答装部３、およびサービス制御部４
を配置する。また、これに対して電話回線５を介して電
話端末６を接続し、これらの電話端末６からセンタをア
クセスできるようにすれば、電話応答システムが実現で
きる。この電話応答システムの用途としては、航空機，
列車，旅館等の予約サービス、銀行オンラインサービ
ス、あるいはデータベースへの問合せサービス等があ
る。例えば、銀行サービスで預金通帳の残高を問合わせ
る場合、電話端末６からセンタにアクセスした後、口座
番号と残高問合せ依頼を電話の音声で入力することによ
り、センタ側の音声認識装置１が音声を認識して、サー
ビス制御部４に用件を伝達する。サービス制御部４にお
いて、その口座番号の残高を調査した後、音声合成によ
り回答を作成し、これを音声応答部３に送ることによ
り、音声応答部３から電話回線５を介して前記電話端末
６に音声で応答する。センタ内の音声認識装置１には、
本発明により記号化された特徴ベクトル系列の隣接する
時刻の間のカテゴリとしての連続性も考慮して認識する
機能が組込まれているため、高精度の認識が期待でき
る。

〔発明の効果〕

以上説明したように、本発明によれば、各音声カテゴ
リの特徴空間内の分布を十分に考慮して特徴ベクトルの
記号を行うことができ、かつ記号化された特徴ベクトル
系列の隣接する時刻の間のカテゴリの連続性も考慮して
認識するので、認識処理に音声現象を十分に反映させる
ことができ、高精度で認識することが可能となる。

【図面の簡単な説明】

第１図は本発明の一実施例を示す音声認識装置のブロッ
ク図、第２図は本発明の一実施例を示す基準ベクトル群
作成装置のブロック図、第３図は本発明の応用例を示す
音声応答システムの構成図、第４図は従来の音声認識処
理の説明図、第５図は本発明の認識処理の原理説明図で
ある。 101:音声入力部、102:音声分析部、103:照合部、104:判
定部、105,105−１〜105−n:基準ベクトル格納部、201,
201−０〜201−n:音声サンプル格納部、202:クラスタリ
ング部、1:音声認識装置、3:音声応答部、4:サービス制
御部、5:電話回線、6:電話端末。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩＧ１０Ｌ 19/00 Ｇ１０Ｌ 9/18 ＥＨ０３Ｍ 7/30 Ｈ０３Ｍ 7/30 Ｂ (56)参考文献特開昭63−309996（ＪＰ，Ａ) 特開昭63−109500（ＪＰ，Ａ) 特開昭62−245294（ＪＰ，Ａ) 特開昭61−7891（ＪＰ，Ａ) 特開昭60−237496（ＪＰ，Ａ) 特開昭62−293298（ＪＰ，Ａ) 特開平３−75700（ＪＰ，Ａ) 特開昭62−80790（ＪＰ，Ａ) 特開昭57−188098（ＪＰ，Ａ) 特開昭61−7892（ＪＰ，Ａ) 特開平２−238499（ＪＰ，Ａ) 特公昭61−55680（ＪＰ，Ｂ２) 特公平４−14359（ＪＰ，Ｂ２) 特公平４−1916（ＪＰ，Ｂ２) 特公平３−73880（ＪＰ，Ｂ２) 特公平４−1916（ＪＰ，Ｂ２) 特公平２−1318（ＪＰ，Ｂ２) 特公平５−54959（ＪＰ，Ｂ２) 特公昭63−36678（ＪＰ，Ｂ２) 特公平４−14359（ＪＰ，Ｂ２) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 3/00 - 9/20 H03M 7/30 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】入力された音声を分析して、特徴ベクトル
の時系列を出力するとともに、予め参照の基準となる基
準ベクトルを格納しておき、上記特徴ベクトルと基準ベ
クトルの一部ないし全部とを照合することにより、類似
した基準ベクトルを指示する記号を１ないし複数個出力
し、出力された記号の中から判定して認識する音声認識
方法において、上記基準ベクトルを格納する場合には、認識の対象にな
る音声の各カテゴリ毎に複数個の基準ベクトルを格納
し、かつ該基準ベクトルには、それぞれ各カテゴリ内での分
布に関する情報を保持させ、上記特徴ベクトルと基準ベクトルとを照合する場合に
は、各カテゴリ毎に照合して、類似した基準ベクトルを
指示する記号および該記号に付随した各カテゴリ内での
分布に関する情報を各カテゴリ毎に出力し、上記記号および各カテゴリ内での分布情報に基づいて判
定し、認識結果を出力することを特徴とする音声認識方
法。
【請求項２】請求項１に記載の音声認識方法において、
上記基準ベクトルを各カテゴリ毎に複数個格納する場
合、特徴ベクトルが認識対象の各音声カテゴリとしてど
の程度尤もらしいかの値を算出し、算出された各音声カ
テゴリとしての尤もらしさの程度を示す値の時系列に対
して、判定処理を行うことにより認識結果を求めること
を特徴とする音声認識方法。
【請求項３】各音声カテゴリ毎に音声サンプルを用意
し、該音声サンプルをクラスタリングして複数のクラス
タを得、かつ該クラスタを代表する代表ベクトルを求
め、上記クラスタの代表ベクトルをもって基準ベクトル
とする基準ベクトル群作成方法において、該基準ベクトルと各カテゴリ毎の音声サンプルおよび各
カテゴリ毎の各クラスタの情報に基づいて、各基準ベク
トルのカテゴリ内での分布に関する情報を、該基準ベク
トルに付加することを特徴とする基準ベクトル群作成方
法。
【請求項４】入力された音声を分析して、特徴ベクトル
の時系列を出力するとともに、予め参照の基準となる基
準ベクトルを格納しておき、上記特徴ベクトルと基準ベ
クトルの一部ないし全部とを照合することにより、類似
した基準ベクトルを指示する記号を１ないし複数個出力
し、出力された記号の中から判定して音声を認識する場
合、上記基準ベクトルを格納するメモリは、認識の対象
になる音声の各カテゴリ毎に複数個の基準ベクトルを格
納し、該基準ベクトルはそれぞれ各カテゴリ内での分布
に関する情報を保持しており、上記特徴ベクトルと基準
ベクトルとを照合する場合には、各カテゴリ毎に照合し
て、類似した基準ベクトルを指示する記号および該記号
に付随した各カテゴリ内での分布に関する情報を各カテ
ゴリ毎に出力し、上記記号および各カテゴリ内での分布
情報に基づいて判定し、認識結果を出力する音声認識装
置と、該音声認識装置で認識した音声情報を受け取って、サー
ビスを行うサービス制御手段と、該サービス制御手段により作成された回答を音声合成し
て応答する音声応答手段とを備えたセンタ、および該センタに電話回線を介して接続された複数の電
話端末からなることを特徴とする電話音声応答システ
ム。