JP3003136B2 - 音声認識方法および音声応答システム - Google Patents

音声認識方法および音声応答システム

Info

Publication number
JP3003136B2
JP3003136B2 JP1195267A JP19526789A JP3003136B2 JP 3003136 B2 JP3003136 B2 JP 3003136B2 JP 1195267 A JP1195267 A JP 1195267A JP 19526789 A JP19526789 A JP 19526789A JP 3003136 B2 JP3003136 B2 JP 3003136B2
Authority
JP
Japan
Prior art keywords
category
vector
voice
speech
reference vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1195267A
Other languages
English (en)
Other versions
JPH0358098A (ja
Inventor
明雄 天野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP1195267A priority Critical patent/JP3003136B2/ja
Publication of JPH0358098A publication Critical patent/JPH0358098A/ja
Application granted granted Critical
Publication of JP3003136B2 publication Critical patent/JP3003136B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、各音声カテゴリの特徴空間内の分布と位置
の情報を付加して認識することにより、高精度で音声を
認識することが可能な音声認識方法および音声応答シス
テムに関するものである。
〔従来の技術〕
音声発声の基本は、音源の発生と共鳴系の形成であ
り、それらを特徴付ける物理的な量がピッチとホルマン
トである。ピッチは、音声の高さを表わす用語である
が、声帯の振動数もピッチと呼ばれている。また、共鳴
系の特性は、共振周波数と共振のQで表わされるが、共
鳴の周波数は複数存在し、200Hz〜5kHzの間に4〜5個
の共鳴周波数が観測される。これらを低い方から第1ホ
ルマント、第2ホルマント、・・・と呼んでいる。例え
ば、母音の『ア』では、第1ホルマント周波数が600〜8
00Hz、第2ホルマント周波数が1100〜1400Hzであり、ま
た『イ』では、第1ホルマント周波数は200〜300Hz、第
2ホルマント周波数は2000〜2200Hzである。
ある単語を表わす音声は音の連続で発生され、例え
ば、『認識』は『ニ,ン,シ,キ』の4つの音節のつな
がりである。このように、4つの音節に分かれて聞こえ
るが、実際に物理的に音声波形を観測してその特徴を分
析すると、明確に音節の境界が存在するわけではなく、
ほぼ連続的にゆっくりと特性が変化している。
ところで、従来の音声認識方法は、大きく2つの方法
に分類することができる。その第1の方法は、分析部か
ら得られる特徴ベクトルの時系列に対して、各ベクトル
毎に記号に変換した後、記号列に対する処理により認識
結果を求めようとするものである。また、第2の方法
は、分析部から得られる特徴ベクトルの時系列に対し
て、各ベクトル単位では処理を行わずに、もっと大きな
音節ないし単語としてのある長さを持った特徴ベクトル
系列に対し処理を行うものである。ここで、特徴ベクト
ルとは、音声の周波数スペクトルを瞬間的にとらえて、
それを12次元で表わしたカラー値の組を言う。前述のよ
うに、周波数スペクトルで表わされた単語や音節は第4
図(a)に示すように各々の間に明確な区切りがなく、
ほぼ連続的なつながりで示される。しかし、各音声を境
界線と思われる点で切断してみると、例えば、『ア』,
『イ』,『ウ』という各音声の周波数スペクトルは、第
4図(b)に示すように、それぞれ異なる特徴の波形を
有しており、低周波数位置の第1ホルマントと高周波数
位置の第2ホルマントを有している。この波形やスペク
トル包絡パラメータの複数のサンプル値を組(ベクト
ル)にまとめて、1つの記号で表現し、量子化する方法
をベクトル量子化と呼んでいる。例えば、各フレーム毎
に分析される複数個(例えば、12個)のスペクトルパラ
メータをセットして1組のベクトル(パターン)とし、
コードブックに記載されている複数個のベクトルコード
の中からコードを番号を選択し、それをそのベクトルの
記号とする。前述の第1の方法では、特徴ベクトルの時
系列の各ベクトル毎に記号に変換して、それら記号列を
処理することにより認識結果を得ている。また、第2の
方法では、ベクトル毎に記号に変換せずに、もっと大き
な音節や単語として処理している。すなわち、第1の方
法では、断面毎に記号化するのに対して、第2の方法で
は、さらに大きなものを形として扱う。例えば、第4図
(b)のスペクトル図のように音声毎に切断せずに、第
4図(c)に示すように、20〜50個の音声スペクトル分
が含まれる音節ないし単語を取り出し、特徴ベクトル系
列に対して2次元ないし3次元的に処理する。
上記第1の方法に分類される音声認識方法は、さらに
Aの方法とBの方法の2つに分類することができる。
Aの方法では、各特徴ベクトルから変換された記号
が、直接音韻記号に対応付けられるようなものである。
Bの方法では、各特徴ベクトルから変換された記号が直
接音韻記号には対応せず、単に計算機の処理量を削減す
るために、一旦記号列に変換し、それ以降の処理を記号
列に対する処理のみで済ませようとするものである。す
なわち、Aの方法で1つの特徴ベクトル毎に記号化する
と、12次元であるため12の要素を有しており、計算機で
演算する場合には12ワードの計算をする必要がある。こ
れに対して、Bの方法では、200〜300程度の形(テンプ
レート)を予め用意しておき、特徴ベクトルを用意され
た1つの形に置き換えてしまう。これにより、12ワード
の計算は不要となり、1ワードで表現できることにな
る。Aの方法としては、例えば、日本音響学会音声研究
会資料S84−25(June 26,1984)『発音速度を考慮した
セグメンテーション』に記載されている。この方法で
は、分析部から得られた特徴ベクトル系列を音素テンプ
レートと照合して、各特徴ベクトルを唯一の音素に対応
付け音素記号列に変換してしまう。また、Bの方法とし
ては、例えば、AT&T Technical Journal Vol.64,N
o.5May−June 1985“On the Use of Vector Quan
tization for Connected−Digit Recognition"に記
載されている。この方法では、分析部から得られた特徴
ベクトル系列を基準ベクトル群と照合して記号列に変換
し、記号列で表記された単語標準パターンとさらに照合
することにより、認識する。
〔発明が解決しようとする課題〕
第5図(a)に示すように、12次元の特徴ベクトルを
表わす特徴空間を考えた場合(ここでは、12次元でな
く、F1,F2の2次元で記載した特徴空間)、各音声カテ
ゴリ(例えば、『ア』,『イ』,『ウ』,・・等の各音
声の種類)毎に重複した領域を専有している。『ア』は
『あ』で示される領域で、その中心が黒丸で示され、
『え』の領域および『い』の領域と一部重複している。
『い』『う』『え』『お』の各領域についても全く同じ
関係にある。
前述の従来の認識方法では、いずれの場合にも、分析
部から得られる特徴ベクトル系列の記号化を行う際に、
第5図(a)に示したような各音声カテゴリの特徴空間
内の分布を考慮していなかった。すなわち、『あ』の領
域に少なくとも含まれていれば『ア』と無条件で認識
し、『い』の領域に含まれていれば『イ』と無条件で認
識し、それらの領域の中心か、端縁か等の領域内の位置
の識別は行っていなかった。
また、特徴空間内の分布を考慮している例としては、
例えば、‘ベル・システム・テクニカルジャーナル’
(Bell System Technical Journal Vol.62,No.4,Ap
ril 1983“On the Application and Hidden Mark
ov Models to Speaker−Independent,Isoland Word
Recognition"がある。しかし、この方法においても、
隣接する時刻の間の特徴ベクトルのカテゴリとしての連
続性を扱う手立てが用意されていなかった。すなわち、
特徴空間内の各カテゴリの分布は確認しているにもかか
わらず、第5図(a)の『ア』の領域から順次『い』の
領域に移り、『い』の領域から順次『う』の領域に移る
等の連続性を扱う方法は、全く用いられていなかった。
その結果として、音声現象を十分に反映させて音声認
識していないため、高精度な認識は不可能であった。
本発明の目的は、このような従来の課題を解決し、各
音声カテゴリの特徴空間内の分布を十分に考慮し、かつ
隣接する時刻の間の特徴ベクトルのカテゴリとしての連
続性を扱うことにより、高精度に音声を認識できるよう
にした音声認識方法および音声応答システムを提供する
ことにある。
〔課題を解決するための手段〕
上記目的を達成するため、本発明の音声認識方法は、
(イ)入力された音声を分析して、特徴ベクトルの時系
列を出力するとともに、予め参照の基準となる基準ベク
トルを格納しておき、上記特徴ベクトルと基準ベクトル
の一部ないし全部とを照合することにより、類似した基
準ベクトルを指示する記号を1ないし複数個出力し、出
力された記号の中から判定して認識する音声認識方法に
おいて、上記基準ベクトルを格納するメモリは、認識の
対象になる音声の各カテゴリ毎に複数個の基準ベクトル
を格納し、該基準ベクトルはそれぞれ各カテゴリ内での
分布に関する情報を保持しており、上記特徴ベクトルと
基準ベクトルとを照合する場合には、各カテゴリ毎に照
合して、類似した基準ベクトルを指示する記号および該
記号に付随した各カテゴリ内での分布に関する情報を各
カテゴリ毎に出力し、これに基づいて判定し認識結果を
出力することに特徴がある。また、(ロ)上記基準ベク
トルを各カテゴリ毎に複数個格納する場合、特徴ベクト
ルが認識対象の各音声カテゴリとしてどの程度尤もらし
いかの値を算出し、算出された各音声カテゴリとしての
尤もらしさの程度を示す値の時系列に対して、判定処理
を行うことにより認識結果を求めることにも特徴があ
る。また、本発明の基準ベクトル群作成方法は、(ハ)
各音声カテゴリ毎に音声サンプルを用意し、該音声サン
プルをクラスタリングして複数のクラスタを得、かつ該
クラスタを代表する代表ベクトルを求め、上記クラスタ
の代表ベクトルをもって基準ベクトルとする基準ベクト
ル群作成方法において、該基準ベクトルと各カテゴリ毎
の音声サンプルおよび各カテゴリ毎の各クラスタの情報
に基づいて、各基準ベクトルのカテゴリ内での分布に関
する情報を、該基準ベクトルに付加することに特徴があ
る。さらに、本発明の音声応答システムは、(ニ)入力
された音声を分析して、特徴ベクトルの時系列を出力す
るとともに、予め参照の基準となる基準ベクトルを格納
しておき、上記特徴ベクトルと基準ベクトルの一部ない
し全部とを照合することにより、類似した基準ベクトル
を指示する記号を1ないし複数個出力し、出力された記
号の中から判定して音声を認識する場合、上記基準ベク
トルを格納するメモリは、認識の対象になる音声の各カ
テゴリ毎に複数個の基準ベクトルを格納し、該基準ベク
トルはそれぞれ各カテゴリ内での分布に関する情報を保
持しており、上記特徴ベクトルと基準ベクトルとを照合
する場合には、各カテゴリ毎に照合して、類似した基準
ベクトルを指示する記号および該記号に付随した各カテ
ゴリ内での分布に関する情報を各カテゴリ毎に出力し、
これに基づいて判定し認識結果を出力する音声認識装置
と、該音声認識装置で認識した音声情報は受け取って、
サービスを行うサービス制御手段と、該サービス制御手
段により作成された回答を音声合成して応答する音声応
答手段とを備えたセンタ、および該センタに電話回線を
介して接続された複数の電話端末からなることに特徴が
ある。
〔作用〕
本発明においては、各音声カテゴリ毎に基準ベクトル
群を用意しておき、この各基準ベクトルの各音声カテゴ
リの中での分布に関する情報を、上記各基準ベクトルに
付随させて持たせ、この基準ベクトル群を特徴ベクトル
系列の記号化に用いる。
これにより、各音声カテゴリの特徴空間内の分布を十
分に考慮した上で特徴ベクトル系列の記号化を行うこと
ができ、かつ記号化された特徴ベクトル系列の隣接する
時刻の間のカテゴリとしての連続性を考慮できるので、
音声現象を十分に反映でき、その結果高精度な認識が可
能となる。
〔実施例〕
以下、本発明の実施例を、図面により詳説に説明す
る。
第1図(a)は、本発明の一実施例を示す音声認識装
置のブロック図であり、第1図(b)は第1図(a)の
判定部における動作説明図である。
第1図(a)において、本発明で従来と異なっている
ハードウェアは、基準ベクトル格納部105を複数個(n
個)設けている点である。また、基準ベクトル格納部10
5に格納されている情報内容も従来と異なり、特徴ベク
トルとそれに付随した特徴空間内の位置情報であり、ま
た照合部103から判定部104に出力される情報も比較して
最も類似した特徴ベクトルとそれに付随する位置情報で
ある。このように、本発明では、各カテゴリとしての連
続性を考慮した特徴空間内の位置情報が出力されるの
で、高精度認識が可能である。
第1図(a)において、装置に入力された音声は、先
ず音声入力部101で電気信号に変換される。電気信号に
変換された音声は、さらに音声分析部102に送られ、こ
こで分析されることにより特徴ベクトルの時系列が出力
される。音声分析部102から出力された特徴ベクトル時
系列は、照合部103において予め基準ベクトル格納部105
に格納されている基準ベクトルと照合される。照合の結
果、照合部103は類似している基準ベクトルを選択し
て、(i)その基準ベクトルを指示する記号、および
(ii)その基準ベクトルに付随した情報を判定部104に
出力する。判定部104は、照合部103から送られてきた基
準ベクトルを指示する記号とそれに付随した情報に対し
て判定処理を施こし、認識結果を出力する。付随した情
報は、各カテゴリの中心に近いほど大きい値を持つの
で、判定部104では第1図(b)に示すような出力が得
られ、時間的には‘ア’‘オ’‘イ’‘エ’の順に出力
される。従って、出力を予め定めた閾値A0で切断するこ
とにより、A0以上の出力が一定時間以上あれば、該当す
る音声であると判定する。
第2図は、本発明で使用される基準ベトル群作成装置
の一実施例を示すブロック図である。
第1図に示す複数個の基準ベクトル格納部105の内容
を作成するために、第2図に示す装置が配置される。
基準ベクトル格納部105は、認識対象となる音声のカ
テゴリ毎に用意される。認識対象となる音声のカテゴリ
の数をnとすると、基準ベクトル格納部105はn個用意
され、それぞれ105−1〜105−nの符号が付けられる。
すなわち、‘ア’から‘ン’まで50種類のカテゴリを用
意するときには、n=50となる。いま、1〜nのうちの
i番目の音声カテゴリに対応する基準ベクトル格納部10
5−iに含まれる基準ベクトルの数をNiとし、各基準ベ
クトルをPij(j=1〜Ni)とする。すなわち、1つの
カテゴリ内にも複数の基準ベクトルが用意され、例えば
1つのカテゴリについて200個が用意されるとすると、5
0種類のカテゴリでは200×50=10000個の基準ベクトル
が用意されることになる。
例えば、第5図(c)に示すように、1つのカテゴリ
内には多数個の基準ベクトルが用意され、各基準ベクト
ルは例えば12個のスカラーの組から成る。(ただし、こ
こでは12次元では表わせないため、2次元で表わしてい
る)、ここでは、130番と50番の基準ベクトルが示され
ている。
また、音声分析部102から得られる特徴ベクトルをX
とする。すなわち、音声分析部102は、入力した音声を
分析した結果、その音声の特徴ベクトルXを出力する。
照合部103では、音声分析部102から受け取った特徴ベ
クトルXに最も近い基準ベクトルを、各音声カテゴリ毎
にPij(j=1〜Ni)の中から求める。各基準ベクトルP
ijには、予めその基準ベクトルがその音声カテゴリiの
中でどのような位置に属しているかを示す情報が保持さ
れている。照合部103からは、選択された基準ベクトル
を指示する記号とともに、この記号に付随してこの音声
カテゴリ中の位置情報が出力される。
この位置情報は、例えばカテゴリの中心に近い位置に
存在する基準ベクトルほど大きな値を持ち、周辺に位置
する基準ベクトルほど小さな値を持つような情報であ
り、第1図(b)に示すような形式で出力が得られる。
‘ア’に対する出力をみてみると時刻t1〜t3の間に大き
な値をとっており、この間の特徴ベクトルが‘ア’の分
布の中心付近にあることがわかる。一方、時刻t4〜t6
間では‘ア’に対する出力は小さく、‘イ’に対する出
力が大きくなっている。すなわち特徴ベクトルは、
‘ア’の分布の中心からは遠く‘イ’の中心に近い位置
にあることがわかる。このような出力に対して、判定部
104では、例えばあるカテゴリに関してこの値がある一
定以上(第1図(b)では閾値A0以上)の値をある時間
以上継続したときに、そのカテゴリであると判断するよ
うにして認識結果を求める。
なお、前述の各基準ベクトルに付随する情報の値を設
定する方法としては、基準ベクトルPijを用いて、カテ
ゴリi内の全サンプルをコード化したときの歪をDijと
したとき、1/Dijなる値を設定する方法が考えられる。
ここで歪Dijとは,各カテゴリiの中心から基準ベクト
ルPijまでの距離に比例すると考えてよく、正確には基
準ベクトルPijからカテゴリi内の全ベクトルまでの距
離の平均値である。例えば、第5図(d)に示すよう
に、全サンプルのカテゴリ内の位置がe〜kであるとき
には、そのカテゴリ内の基準ベクトルPijをcとすると
き,距離c−e,c−f,c−g,c−h,c−i,c−j,c−kを平均
化した値をDijとする。従って、Dijの逆数の1/Dijなる
値を基準ベクトル記号に付属する位置情報とする。この
位置定法は、カテゴリの中心に近いほど大きな値とな
る。
第2図に示すように、基準ベクトル群作成装置は、複
数個の音声サンプル格納部201と1個のクラスタリング
部202と音声サンプル格納部201に対応した数の基準ベク
トル格納部105から構成される。音声サンプル格納部201
は、各音声カテゴリ毎に音声サンプル(201−i,i=1〜
n)を格納する。
基準ベクトル群を作成する場合には、各音声カテゴリ
毎に、音声サンプル格納部201−iから音声サンプルを
取り出し、クラスタリング部202において各音声カテゴ
リ毎にクラスタリングを行った後、一定個数(mとす
る)のクラスタ、およびそのクラスタを代表する代表ベ
クトルを求める。クラスタリングの手法としては公知の
一般的なクラスタリング法を用いればよい。
代表ベクトルをPijとすると、各Pij(j=1〜m)を
用いてi番目の音声カテゴリ内の全音声サンプルのコー
ド化を試みた後、その時に生じる歪の累積値を求める。
すなわち、第5図(a)に示すように、‘あ’‘い’
‘う’‘え’‘お’の各カテゴリ毎にそれぞれm個の代
表ベクトルを用いてカテゴリ内の全サンプルのコード化
を行い、それぞれの距離を求めて、歪の累積値を求め
る。そして、この累積値をDijとするのである。次に、
各基準ベクトルとこれに付随した分布に関する情報とし
て1/Dijの値を基準ベクトル群格納部105に格納する。こ
の処理を、全ての音声カテゴリについて繰り返すと、基
準ベクトル群格納部105にはn個の音声カテゴリに関し
てm個ずつの基準ベクトルが得られ、基準ベクトル群の
作成が完了する。なお、前記クラスタリングの手法とし
ては、例えば、『IEEE Trans.Commun.,COM−28,No.1
(January 1980)pp.84〜85“An Algorithm for Ve
ctor Quantizer Design."に記載されている。
本発明においては、第5図(b)に示すように、例え
ば『あい』という音声を入力した場合には、その周波数
スペクトルの位置に対応した情報が出力され、各音声カ
テゴリの特徴空間内の分布が基準ベクトルに付随する情
報として判定部に入力されるので、第5図(a)に示す
ように、各カテゴリ内での特徴ベクトルの位置が明確と
なる。すなわち、同じ‘あ’の音声であっても、その位
置から判断して‘い’に近い位置か、あるいは‘え’に
近い位置かが明確となり、音声現象を十分に反映できる
ので高精度の認識が可能となる。
第3図は、本発明の応用例を示す音声応答システムの
構成図である。
第3図に示すように、センタ内に本発明による音声認
識装置1と、音声応答装部3、およびサービス制御部4
を配置する。また、これに対して電話回線5を介して電
話端末6を接続し、これらの電話端末6からセンタをア
クセスできるようにすれば、電話応答システムが実現で
きる。この電話応答システムの用途としては、航空機,
列車,旅館等の予約サービス、銀行オンラインサービ
ス、あるいはデータベースへの問合せサービス等があ
る。例えば、銀行サービスで預金通帳の残高を問合わせ
る場合、電話端末6からセンタにアクセスした後、口座
番号と残高問合せ依頼を電話の音声で入力することによ
り、センタ側の音声認識装置1が音声を認識して、サー
ビス制御部4に用件を伝達する。サービス制御部4にお
いて、その口座番号の残高を調査した後、音声合成によ
り回答を作成し、これを音声応答部3に送ることによ
り、音声応答部3から電話回線5を介して前記電話端末
6に音声で応答する。センタ内の音声認識装置1には、
本発明により記号化された特徴ベクトル系列の隣接する
時刻の間のカテゴリとしての連続性も考慮して認識する
機能が組込まれているため、高精度の認識が期待でき
る。
〔発明の効果〕
以上説明したように、本発明によれば、各音声カテゴ
リの特徴空間内の分布を十分に考慮して特徴ベクトルの
記号を行うことができ、かつ記号化された特徴ベクトル
系列の隣接する時刻の間のカテゴリの連続性も考慮して
認識するので、認識処理に音声現象を十分に反映させる
ことができ、高精度で認識することが可能となる。
【図面の簡単な説明】
第1図は本発明の一実施例を示す音声認識装置のブロッ
ク図、第2図は本発明の一実施例を示す基準ベクトル群
作成装置のブロック図、第3図は本発明の応用例を示す
音声応答システムの構成図、第4図は従来の音声認識処
理の説明図、第5図は本発明の認識処理の原理説明図で
ある。 101:音声入力部、102:音声分析部、103:照合部、104:判
定部、105,105−1〜105−n:基準ベクトル格納部、201,
201−0〜201−n:音声サンプル格納部、202:クラスタリ
ング部、1:音声認識装置、3:音声応答部、4:サービス制
御部、5:電話回線、6:電話端末。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI G10L 19/00 G10L 9/18 E H03M 7/30 H03M 7/30 B (56)参考文献 特開 昭63−309996(JP,A) 特開 昭63−109500(JP,A) 特開 昭62−245294(JP,A) 特開 昭61−7891(JP,A) 特開 昭60−237496(JP,A) 特開 昭62−293298(JP,A) 特開 平3−75700(JP,A) 特開 昭62−80790(JP,A) 特開 昭57−188098(JP,A) 特開 昭61−7892(JP,A) 特開 平2−238499(JP,A) 特公 昭61−55680(JP,B2) 特公 平4−14359(JP,B2) 特公 平4−1916(JP,B2) 特公 平3−73880(JP,B2) 特公 平4−1916(JP,B2) 特公 平2−1318(JP,B2) 特公 平5−54959(JP,B2) 特公 昭63−36678(JP,B2) 特公 平4−14359(JP,B2) (58)調査した分野(Int.Cl.7,DB名) G10L 3/00 - 9/20 H03M 7/30 JICSTファイル(JOIS)

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】入力された音声を分析して、特徴ベクトル
    の時系列を出力するとともに、予め参照の基準となる基
    準ベクトルを格納しておき、上記特徴ベクトルと基準ベ
    クトルの一部ないし全部とを照合することにより、類似
    した基準ベクトルを指示する記号を1ないし複数個出力
    し、出力された記号の中から判定して認識する音声認識
    方法において、 上記基準ベクトルを格納する場合には、認識の対象にな
    る音声の各カテゴリ毎に複数個の基準ベクトルを格納
    し、 かつ該基準ベクトルには、それぞれ各カテゴリ内での分
    布に関する情報を保持させ、 上記特徴ベクトルと基準ベクトルとを照合する場合に
    は、各カテゴリ毎に照合して、類似した基準ベクトルを
    指示する記号および該記号に付随した各カテゴリ内での
    分布に関する情報を各カテゴリ毎に出力し、 上記記号および各カテゴリ内での分布情報に基づいて判
    定し、認識結果を出力することを特徴とする音声認識方
    法。
  2. 【請求項2】請求項1に記載の音声認識方法において、
    上記基準ベクトルを各カテゴリ毎に複数個格納する場
    合、特徴ベクトルが認識対象の各音声カテゴリとしてど
    の程度尤もらしいかの値を算出し、算出された各音声カ
    テゴリとしての尤もらしさの程度を示す値の時系列に対
    して、判定処理を行うことにより認識結果を求めること
    を特徴とする音声認識方法。
  3. 【請求項3】各音声カテゴリ毎に音声サンプルを用意
    し、該音声サンプルをクラスタリングして複数のクラス
    タを得、かつ該クラスタを代表する代表ベクトルを求
    め、上記クラスタの代表ベクトルをもって基準ベクトル
    とする基準ベクトル群作成方法において、 該基準ベクトルと各カテゴリ毎の音声サンプルおよび各
    カテゴリ毎の各クラスタの情報に基づいて、各基準ベク
    トルのカテゴリ内での分布に関する情報を、該基準ベク
    トルに付加することを特徴とする基準ベクトル群作成方
    法。
  4. 【請求項4】入力された音声を分析して、特徴ベクトル
    の時系列を出力するとともに、予め参照の基準となる基
    準ベクトルを格納しておき、上記特徴ベクトルと基準ベ
    クトルの一部ないし全部とを照合することにより、類似
    した基準ベクトルを指示する記号を1ないし複数個出力
    し、出力された記号の中から判定して音声を認識する場
    合、上記基準ベクトルを格納するメモリは、認識の対象
    になる音声の各カテゴリ毎に複数個の基準ベクトルを格
    納し、該基準ベクトルはそれぞれ各カテゴリ内での分布
    に関する情報を保持しており、上記特徴ベクトルと基準
    ベクトルとを照合する場合には、各カテゴリ毎に照合し
    て、類似した基準ベクトルを指示する記号および該記号
    に付随した各カテゴリ内での分布に関する情報を各カテ
    ゴリ毎に出力し、上記記号および各カテゴリ内での分布
    情報に基づいて判定し、認識結果を出力する音声認識装
    置と、 該音声認識装置で認識した音声情報を受け取って、サー
    ビスを行うサービス制御手段と、 該サービス制御手段により作成された回答を音声合成し
    て応答する音声応答手段とを備えたセンタ、 および該センタに電話回線を介して接続された複数の電
    話端末からなることを特徴とする電話音声応答システ
    ム。
JP1195267A 1989-07-27 1989-07-27 音声認識方法および音声応答システム Expired - Lifetime JP3003136B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1195267A JP3003136B2 (ja) 1989-07-27 1989-07-27 音声認識方法および音声応答システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1195267A JP3003136B2 (ja) 1989-07-27 1989-07-27 音声認識方法および音声応答システム

Publications (2)

Publication Number Publication Date
JPH0358098A JPH0358098A (ja) 1991-03-13
JP3003136B2 true JP3003136B2 (ja) 2000-01-24

Family

ID=16338311

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1195267A Expired - Lifetime JP3003136B2 (ja) 1989-07-27 1989-07-27 音声認識方法および音声応答システム

Country Status (1)

Country Link
JP (1) JP3003136B2 (ja)

Also Published As

Publication number Publication date
JPH0358098A (ja) 1991-03-13

Similar Documents

Publication Publication Date Title
US8401861B2 (en) Generating a frequency warping function based on phoneme and context
CN107767869A (zh) 用于提供语音服务的方法和装置
JPS61262799A (ja) ヒドン形式マルコフモデル音声認識方法
US4910782A (en) Speaker verification system
JPH07110695A (ja) 音声符号化装置および方法
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
Nahar et al. A holy quran reader/reciter identification system using support vector machine
JP2898568B2 (ja) 声質変換音声合成装置
Deiv et al. Automatic gender identification for hindi speech recognition
JP3003136B2 (ja) 音声認識方法および音声応答システム
JPH10254473A (ja) 音声変換方法及び音声変換装置
JPH08263520A (ja) 音声ファイル構成方式及び方法
JP2862306B2 (ja) 音声認識装置
JP3199338B2 (ja) フォルマント抽出方法
JPH05508242A (ja) 話者認識方法
JPH04271397A (ja) 音声認識装置
JP2886879B2 (ja) 音声認識方法
JP2000242292A (ja) 音声認識方法、この方法を実施する装置およびこの方法を実行するプログラムを記憶した記憶媒体
JP3357752B2 (ja) パターンマッチング装置
JPH06337700A (ja) 音声合成装置
Holmes Towards a unified model for low bit-rate speech coding using a recognition-synthesis approach.
CN114203159A (zh) 语音情感识别方法、终端设备及计算机可读存储介质
CN118230766A (zh) 提示音检测方法、装置、设备及可读存储介质
JPH0556514B2 (ja)
WO2005055199A1 (en) Speech processing apparatus and method

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071119

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081119

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081119

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091119

Year of fee payment: 10

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091119

Year of fee payment: 10