JPS63259687A - 音声信号認識方法およびその方法を実施する装置 - Google Patents

音声信号認識方法およびその方法を実施する装置

Info

Publication number
JPS63259687A
JPS63259687A JP63082850A JP8285088A JPS63259687A JP S63259687 A JPS63259687 A JP S63259687A JP 63082850 A JP63082850 A JP 63082850A JP 8285088 A JP8285088 A JP 8285088A JP S63259687 A JPS63259687 A JP S63259687A
Authority
JP
Japan
Prior art keywords
value
reference value
sum
phoneme
prototype
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63082850A
Other languages
English (en)
Other versions
JP3130524B2 (ja
Inventor
ヘルマン・ネイ
アンドレアス・ノル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Gloeilampenfabrieken NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Gloeilampenfabrieken NV filed Critical Philips Gloeilampenfabrieken NV
Publication of JPS63259687A publication Critical patent/JPS63259687A/ja
Application granted granted Critical
Publication of JP3130524B2 publication Critical patent/JP3130524B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 この発明は、緊密な関係にある(コヒーレントな)発声
ワードから取り出され、それぞれが音声信号の1セクシ
ョンを示し、音声値の任意のシーケンスよりなる音声信
号を認識するに際し、音声値を基準値で順次比較し、そ
の都度一群の基準値によって所定の経堂のワードを表し
、基準値を音素から得る一方で、各比較結果を、所定の
区域に存在し、かつこの区域に依存する時間ひずみ値に
より増加され、かつ新たな距離の和としての基準値に対
する前段の音声値によって達成される最小の距離の和に
、加える音声認識方法に関するものである。
緊密な関係にある(コヒーレントな)発声ワードを認識
する方法は、主にドイツ公開公報第3215868号か
ら既知である。この場合において、個別のワードは連続
な基準値が集まって構成されている。これはまた音素を
考慮に入れることが、例えばベル・システム・テクニカ
ル・ジャーナルの1983年4月号、第62巻、第4号
から既知である。音素は1個の基準値により単純な形態
で表される。通常の発声される句(phrase)に右
いて、数個の連続な音声値はかかる音素の基準値に調和
する。この理由は、音声値により表される、音声信号の
セクションの時間間隔は、一般に音素より短いからであ
る。したがって、音素の基準値に対応する多数回の音声
値は考慮されないが、むしろ距離の合計が増加し、この
結果、実際の音声信号は最適に評価されない。
この発明の目的は、最も考え得る音素の時間間隔も最適
に評価されるように、音声信号を学習することにより、
音素の認識中に自然に発声された音声における音素の時
間間隔を考慮することにある。
本発明によれば、各音素は少なくとも区間的には相互に
等しい多数の基準値から形成され、この基準値の数は、
音声値学習のために予め決定されており、さらに、音素
内の基準値に応じて前段の基準値の距離の和のみと、音
素またはセクションの最後の基準値にのみ応じて比較的
大きな時間ひずみ値の使用による同一の基準値の距離の
和と、1ワード内の音素またはセクションの第1の基準
値にのみ応じて距灘が増加された時間ひずみ値の使用に
よる前段の音素の各基準値の距離の和とを考慮するよう
にしたことを特徴とするものである。
本発明の方法によれば、音素に適切に伴う音声値の1シ
ーケンスは距離の和を小さくするのみならず、音素に最
適に対応する音声信号の数をこの音素の基準値の数に等
しくすることができる。しかし、発声された音素が基準
の音素より長い場合には、音声信号および音素の間の比
較が音素の最後の基準値にほぼ維持され、使用された長
い時間ひずみ値のため距離の和を増加する。この逆の場
合であって発声された音素が基準値より短い場合には、
音声信号との比較は音素内の点から始点、即ち次の音素
の第1基準値に飛び越し、高い時間ひずみ値が考慮され
る。したがって、発声された音素と基準の音素との差は
、等しいが異なる長さで発声される音素を有するワード
がお互いに明確に識別され得るように、認識されること
になる。
さらに、このことは、音素が少なくとも区間的には一定
である、即ち一定の基準値の1シーケンスにより記述さ
れるという事実に基づいている。実際ところ、自然に発
声された音声信号には正確に適用することができないが
、学習段階中の基準値を連続的に変化させて音素の変動
を正確にシミュレートしようとするが、学習音声値の数
が限られたものであるため、一般に完全に行うことはで
きなく、このため音素が固定モデルにより仮想的にであ
るが、学習段階中に極めて正確にシミュレートされる場
合に、認識誤差が小さくなるようにする。極めて良い近
似にするため、音素を例えば3個の固定セクションから
形成し、この音素の第1および最後のセクションは隣の
音素への遷移に近付けることができる。一定に平均化さ
れたセクションの間の連続な遷移のシミ二レートも考え
られる。
多くの場合、音声信号は次のように形成される。
すなわち音声信号の各区域に対して、例えばスペクトル
成分または線形予測分析(LPG)係数が適宜形成され
て、各音声値が多数の成分より成るようにする。この場
合において、各比較結果は、音声値の成分値および基準
値の差から形成されるのが有効である。事実、個別の成
分値の間の差を技術的に単純な手法によって計算するこ
とができる。成分値の間の個別の差はさらに異なる方法
で処理することができる。各々の異なる音声値が多次元
スペースのベクトルとして考えられる場合に、比較結果
をユークリッド距離として定める。すなわち、比較結果
を成分の差の2乗の和から形成する。より単純な可能性
は、比較結果を成分の差の合計の和から形成することよ
りなる。対応する手法で比較結果を定めるために、基準
値の成分を学習音声信号の成分の平均値の形成により発
生することが有効である。成分差の合計の和からの比較
結果の形成中に、数学的に厳密な手法で、基準値の成分
が各基準値と関連する学習音声信号の音声値の成分の中
央値の形成により発生されると良好である。
この種の比較結果の形成は、僅かに不完全な手法で音声
値および基準値の間の差の実際の影響を考慮する。この
発明による他の実施例に基づく可能性は、学習段階中に
プロトタイプ基準値を、発生された音声信号から選定し
、プロトタイプ基準値および音素の各組み合わせに対す
る距離測定値を決め、さらに、認識中において、各音声
値を総てのプロトタイプ基準値と比較し、その都度最小
の距離を有するプロトタイプ基準値を音声値に割り当て
、さらにまた、比較結果としての距離測定値を各基準値
および音素に割り当てられたプロトタイプ基準値のため
に使用することよりなる。このため、各音声値はまず、
次のプロトタイプ基準値に戻され、維持されたプロトタ
イプ基準値からの距離はこの後に考慮することはない。
しかし、これは本質的に可能であるが、これには追加の
労力を必要とする。プロトタイプ基準値は、各々の次の
プロトタイプ基準値からの総ての学習音声値′の距離の
和を最小にするように、有効に選定される。このことは
、いわゆる複数のクラスタ(clusters)を学習
音声値から形成することを意味する。これらクラスタは
相互に明確に分離されており、各クラスタにおけるプロ
トタイプ基準値は、各クラスタ内の学習音声値からの総
ての距離にわたる最小の距離の和を有し、このクラスタ
を適宜選定して、合計の距離の和が最小の値を有するよ
うにする。
プロトタイプ基準値および音素の各組み合わせに対する
距離測定値は、音素内のプロトタイプ基準値が発生する
可能性と有効に連結している。距離測定値を決めるため
、音素のプロトタイプ基準値とこの音素の総てのプロト
タイプ基準値の周波数との比の対数を決めることが有効
である。これら周波数は速やかに決定される。
厳格に言えば、この段階は、学習音声値が非常に多い状
態を仮想している。しかし、学習音声値または学習句が
限定された状態では、個別のプロトタイプ基準鍍金てが
まれにしか発生されないが、これらプロトタイプ基準値
が発生されると、これらが音素を極めて正確にその特徴
を描写する。別のプロトタイプ基準値は、その総てが極
めて頻繁に発生するが、この基準値は同一音素の総合周
波数が大きいため、比較的周波数も高く、実際にこの音
素の特徴を描写することはできない。この影響を克服す
るには、距離測定値を決めるため、プロトタイプ基準値
および音素のつながりの確率は、学習段階中にプロトタ
イプ基準値が発生され、異なる音素が発生される周波数
の差が、標準化により少なくとも減少されるように近づ
けられることが有効である。周波数の標準化のため、総
てのプロトタイプ基準値および総ての音素を、総ての学
習音声値にわたってのこれら全体の周波数が等しいもの
であるかのように考える。
この発明を実施するため、 (イ)基準値のための第1メモリ (16)と、(ロ)
音響的に供給された音声信号からデジタル音声値を発生
するための入力回路(10,12)と、(ハ)音声値を
基準値と比較するため、かつ距離の和を発生するための
処理回路(14)とを具える回路配置において、 第1メモIJ(16)はその都度数個の等しい基準値の
シーケンスを含有し、新しい距離の和を決めるため、新
しい音声値が基準値と比較される場合に、1シーケンス
内の各基準値に応じて発生された比較結果が、前記シー
ケンスの前段の基準値の不変の距離の和に加えられ、1
シーケンスの各第1基準値に応じて発生された比較結果
が前段のシーケンスの、該シーケンスの前記基準値の位
置に依存する第1の時間ひずみ値だけ増加された基準値
の距離の和に加えられ、1シーケンスの各最後の基準値
に応じて発生された比較結果が、第2の一定の時間ひず
み値だけ増加された同一基準値の距離の和に加えられ、
この新たな距離の和を第2メモリ(18)に記録するこ
とを特徴とするものである。
この発明の実施例を図面に基づき詳細に説明する。
発声された句の認識中に、音声信号は長さの等しいく例
えばlQmsの長さ)セクションに区切られる。その一
方で例えば各セクションに対してスペクトル値、ホルマ
ントまたはLPG係数が決定される。これら値または係
数は対応する基準値と比較され、これら基準値は学習段
階において音声サンプルの学習のために発生される。し
たがって、認識は、はぼワード状の連続な基準値よりな
る各ワードで行われる。学習段階において各ワードに対
する連続な基準値を決めるためには、各ワードを対応す
る多数の回数だけ話す必要もある。
しかし、各ワードは多数の音素よりなり、音素の総数は
、総てのワードに対して定められている。
学習段階を短くするため、音素に基づいて学習段階を実
施すると有効である。認識すべきワードは一定に発音さ
れた経常の音素に基づいて構成され、このため学習段階
において、総てのワードではないが、少なくとも総ての
音素が十分に流暢に発声される必要がある。
今、1つの音素内において、音声信号はほぼ変動しない
、即ち音素は連続な等しい基準値より構成すると想定す
る。音素変化を考慮に入れるため、各音素は3セクショ
ンより構成され得、各セクションはそれ自体変動せず、
中間セクションは実際の音素を記述し、この一方で音素
の第1および第3のセクションがワード内の隣接する音
素への変化をシミュレート (simulate)する
音声信号の認識中に、例えば上述したドイツ公開特許第
3215868号により、認識すべき信号を個別のワー
ドの連続な基準値に時間適合(a timeadapt
ation)することが行われる。この時間適合は動的
計画法により実施され、距離の合計値を以下の方法によ
り定める。
D(i、 j)=d(x(i>、 j)+min (D
(i−j、 j’)”T(j、 j’))・・・(1) ここでiはある瞬時を意味し、x(i)は所定の瞬時で
の音声値を意味し、この一方でjは基準値を表す。した
がって、各音声値x (i)は多数の基準値と比較され
、差あるいは距離d(x(i)、j)が定められ、最小
の距離の和に加えられる。瞬時i−1での前段の音声値
での最小の距離の和は基準値J゛で達成され、それは瞬
時的に考慮された基準値の所定の隣接区域に存在する。
さらに時間ひずみ値T(i、j)を加え、この時間ひず
み値は上記所定の隣接区域に依存し、この時間ひずみ値
は、例えばその都度の1ワードの基準値のシーケンスう
ちの基準値J゛が、瞬時の基準値jから離れているため
、大きくなる。
したがって対角線が好ましい。この理由は、対角線が最
も起こり得る形態に対応するためである。
今、1つの音素において、区域的に一定である基準値を
、この基準値を一度のみ供給すると想定する。しかし、
音素の時間間隔を正確にシミュレートするため、音素内
の基準値が、音素あるいは音素セクションの実際の時間
間隔に対応するように、頻繁に出現する。図面において
、マルコフモデルに対応する状態の1シーケンスは左手
側に現れ、個別の状態間の可能な遷移を示す。2本の水
平のストライブの間の状態は音素pあるいは音素セクシ
ョンを表している。音素pの第1の状態は前段の音素p
−1の任意の点から伸ばされる。次いで適切な時間に起
こる状態はその上にあり、この第2の状態は第1の状態
から到ることができるが、直接に第1の音素から次段の
音素p+1の第1状態へ飛び越すこともできる。しかし
、この遷移はあまり起こりそうにない。したがって、第
2の状態から第3の状態への遷移は、第2の状態から次
段の音素の第1の状態への遷移などより起こり得る。
最後の状態は第2の状態から数回ジグザクに昇って至る
が、次段の音素への遷移より起こる可能性が少ない。
図の右手側において、非線形の時間適合の時間中におけ
るシーケンスが動的計画法によって可能であることが示
′されている。瞬時lでの新たな音声値は基準値j=1
 と比較され、局所的な距離が、距離依存性時間ひずみ
値と相俟って最小の距離の和を得るように、前段の音素
p−1の基準値の距離の和に加えられる。
さらにまた、瞬時の音声値は第2の基準値j=2と比較
されるが、第2の基準値は基準値j=1と同一の値であ
り、このため同一の局所的な距離を得る。しかし、第2
の基準値は第1の基準値に応じた前段の瞬時i−1で得
られた距離の和に加えられる。したがって、局所的な距
離が、次段の基準値に応じた第2の基準値などから離れ
た距離の和に加えられる。最後の基準値で瞬時i−1で
の同一の基準値の同一の距離の和は考慮され、これは発
声された音声信号における該当する音素が学習段階中に
定められたものより長い場合に対応する。この場合に再
度大きな時間ひずみ値を考慮する。次段の音素p+1の
第1の基準値には音素pの他のどの基準値からでも行く
ことができ、各時間は対応する時間ひずみ値を考慮し、
マルコフモデルの遷移確率を考慮する。
局所的な距離d<x<i)、 j)の形成に対し、異な
る可能性があり、この異なる可能性の形もまた基準値の
形成に影響を与える。
まず1つの可能性は、以下の手法で得られるユークリッ
ド距離としての距離の値を決定することより成る。
d+(X(1)、」)=Σ (xk(i)−rk(j)
)’   ・(2)ここで、ri=c+)は基準値の構
成成分を表し、この基準値の各構成成分には学習段階の
音声値の構成成分の平均値に等しい。
上記距離の値に対する他の可能性は、距離の絶対量であ
り、 d2(x (+)、 J)=Σl  (xh(i) −
rh(j) l =(3)で表される。
基準値の個々の構成成分子k(J)は、学習段階で、関
連する音声値の構成成分の中央値に等しくなるように選
択される。しかし、この場合の近似値として平均値を使
用する。この理由としては、この平均値が音声認識にほ
とんど影響を与えないためである。
これら距離の値は、総ての基準値に対して、または限定
された探索の場合には総ての実際の基準値に対して、各
折たな音声値X (i)を求めるために計算される。さ
らに局所的な値を決定する他の可能性は以下の手法、即
ち d+(x(i)、j)=−1og(p(1/j))  
+++  (4)で与えられる。
この場合に、lはプロトタイプ基準値ZI+ Z2+・
・・Zhの有限量からのベクトル2.を示し、このベク
トルZ1は音声値x(i)からの最小の距離を示す。
この距離は前述した可能性と同様な手法で決定され得る
したがって、局所的な距離は、条件付の可能性の負の対
数であり、瞬時の音声値×(1)に一番近いプロトタイ
プ基準値zlが音素jに、または学習段階中の音素セク
ションに発生する。1つの音素は単一のプロトタイプ基
準値に直接対応せず、このプロトタイプ基準値の数は、
音素の数より、例えば3倍分だけ、大きい数のものを別
に選択する。
プロトタイプ基準値は、総ての音声値x (i)から学
習段階中に決定され、そして総ての音声値から細分量C
5を形成するように発生される。各細分量の総ての音声
値および関連するプロトタイプ基準値の間の距離は合計
され、これらの和は、n個のプロトタイプ基準値の総て
にわたって加算されて、以下の合計値を得る。
lεC8 細分量C1およびこの細分量に含まれるプロトタイプ基
準値を、合計値りが可能な限り小さくなるように、変化
させる。このプロトタイプ基準値の変化は学習段階中に
行うのが効果的であるため、リアルタイム処理を必要と
せず、ここで行われる一回の計算処理は相当な時間量を
必要とする。
プロトタイプ基準値C4が音素」にて発生するという条
件付の可能性p(]/j)は、周波数比から決定され得
、この周波数比でこのプロトタイプ基準値は学習段階中
に該当する音素に発生し、この音素の総てのプロトタイ
プ基準値は以下の方法で得られる。
p(1/j)=H(1,j)/H(j)   ・・・ 
(6)しかし、学習音声値の十分な数または分布が要求
される。
実際に、学習音声値が限定された量とする場合には、プ
ロトタイプ基準値の全体は他のプロトタイプ基準値に関
して発生周波数は小さい。この場合に、所定の音素の上
記プロトタイプ基準値の発生周波数とこの音素の総ての
プロトタイプ基準値の発生周波数との比は必然的に小さ
くなり、この特別のプロトタイプ基準値はこの音素内に
ほぼ限り発生する。さらに異なる音素の発生周波数は異
なり、これが小さな距離測定値に導き、即ち認識中のこ
れら音素の優先順位をつける。この理由のため、距離測
定は、個別のプロトタイプ基準値が学習段階中に発生す
る異なる周波数と、異なる音素が発生する周波数との差
が、少なくとも標準化により減ぜられることを目的とし
ている。
かかる標準化は以下に示す等式によりある範囲に発生す
る。
N=min(m、) QIJ = (1,J) ・N7m。
n、=min QIJ          ・=   
(7)Nj=maxQI J 5J=8/(NJ−n J) まず各プロトタイプベクトルZ1の発生周波数、この場
合には音素のプロトタイプ基準値の平均の発生周波数が
決定され、次いで最低値Nがそれから決定され、そして
この最低値Nに基づいて総ての周波数が標準化される。
この結果、標準化された周波数ローが得られる。基本的
には標準化は他のどの値についても行うことができ、標
準化された周波数の和は、各プロトタイプ基準値で等し
い。
続いて、総てのプロトタイプ基準値の最大および最小の
標準化された周波数がその都度の1音素に対して決定さ
れ、そして換算係数Sjが決定される。この換算係数は
、総ての条件付の可能性p。
(1/j)または対数の値が一定の範囲の値を有するこ
とを確保する。
したがって、これら条件付の可能性の負の対数は認識の
ために使用される距離測定値である。ブラケット間で、
条件付の可能性を音素のプロトタイプ基準値の最低周波
数について標準化するため、この最低の標準化された周
波数に対する距離の値を零に等しくし、この一方で最大
の周波数に対する距離の値は、換算係数S」に対する等
式からの値已により決定される。この値Bは、計算を技
術的に実施するための距離測定の値の有効な範囲をもた
らすように、効果的に選定される。これ故に、学習音声
値および音素の間の該当する情報内容はど条件付可能性
の発生がないことを考慮する必要がある。認識中におい
て、このことがさらに良好な結果を導き出す。
上述した方法を実施するための装置において、第2図の
ブロック図に示すように、マイクロホン10を経て記録
された音声信号を割算回路12にて増幅し、この音声信
号をデジタル音声値のシーケンスに変換する。このデジ
タル音声値のシーケンスは処理回路14に供給される。
この処理回路は割算回路12からの各々の新規の音声値
に応じて、基準値に対する第1メモリ16の連続な総て
の記録位置をアドレス指定し、各基準値を音声信号と比
較する。さらに、処理回路14は、個別の基準値に対し
てその時点まで定められた距離の値を含む第2のメモリ
18をアドレス指定し、第1メモリ16から読み出され
た各基準値に対して第2メモリ18からの所定の基準値
の距離の値を読み取る。等しい基準値のシーケンス内に
存在する第1メモリ16の基準値に応じて、ただ一つの
距離の和、即ち前の基準値の距離の和を第2メモリ18
から読み出し、これを変わることのない比較結果に加え
られ、第1メモリ16の特定の瞬間の基準値7に応じて
第2メモリ18に再び記録される。
■シーケンスの端縁での基準値と、これとは逆に同一の
基準値の距離の和に応じて、同一の基準値の距離の和と
を第2メモリ18から読み出すが、この距離の和はその
時点では時間ひずみ値だけ増加される。次いで、比較結
果は2個の距離の和の小さいほう、即ち増加された距離
の和に夫々加えられ、この値が第2メモリ18に特定の
瞬間の基準値、即ち上記シーケンスの最後の基準値に応
じて、記録される。
1シーケンスの第1の基準値に応シて、前段ノシーケン
スの最後の基準値の距離の値のみならず、前段のシーケ
ンスの前段の基準値の距離の和もまた第2メモリ18か
ら読み取られるが、これら距離の和は上記シーケンス内
の関連する基準値の位置に依存して、時間ひずみ値だけ
増加される。これら増加された距離の和または増加され
ない距離の和の最小値を、処理回路14内で、比較結果
に夫々加える。この距離の和はシーケンスの該当する第
1の基準値に応じて第2メモリ18に記録される。した
がって、第2メモリ18に含まれる総ての距離の和は割
算回路12により供給される各々の新たな音声値で更新
される。
さらに、第2メモリ18の距離の和は、既知の方法の一
つにおける別の処理回路20により処理される。これは
、音素が距離の和の中の最小のものを有する、既知の認
識されたワードのシーケンスをそこから決定し、これら
シーケンスを出力端22に供給するためである。
第1メモリ16は、個別の音素に対する基準値の代わり
に、プロトタイプ基準値のみならず関連する距離測定を
も有させることができ、次いで、処理回路14は、各々
の新たに供給された音声値に応じて、次に続いて供給さ
れたプロトタイプ基準値を決定する。したがって、この
プロトタイプ基準値と関連する距離測定値は、比較結果
として使用される。
【図面の簡単な説明】
第1図はマルコフモデルによる遷移および連続な音声値
でのこの遷移の結果を示す説明図、第2図は本発明によ
る方法を実施する回路配置を示すブロック回路図である

Claims (1)

  1. 【特許請求の範囲】 1、緊密な関係にある(コヒーレントな)発声ワードか
    ら取出され、それぞれが音声信号の1セクションを示し
    、音声値の任意のシーケンスよりなる音声信号を認識す
    るに際し、音声値を基準値で順次比較し、その都度一群
    の基準値によって所定の語彙のワードを表し、基準値を
    音素から得る一方で、各比較結果を、所定の区域に存在
    し、かつこの区域に依存する時間ひずみ値により増加さ
    れ、かつ新たな距離の和としての基準値に対する前段の
    音声値によって達成される最小の距離の和に、加える音
    声認識方法であって、 各音素は少なくとも区間的には相互に等しい多数の基準
    値から形成され、この基準値の数は、音声値学習のため
    に予め決定されており、さらに、音素内の基準値に応じ
    て前段の基準値の距離の和のみと、音素またはセクショ
    ンの最後の基準値にのみ応じて比較的大きな時間ひずみ
    値の使用による同一の基準値の距離の和と、1ワード内
    の音素またはセクションの第1の基準値にのみ応じて距
    離が増加された時間ひずみ値の使用による前段の音素の
    各基準値の距離の和とを考慮するようにしたことを特徴
    とする音声信号認識方法。 2、前記音声値が多数の成分よりなる音声信号を認識す
    る方法であって、各比較結果を音声値の成分値と基準値
    との差から形成するようにしたことを特徴とする請求項
    1記載の音声信号認識方法。 3、前記比較結果を成分の差の2乗の和から形成するよ
    うにしたことを特徴とする請求項2記載の音声信号認識
    方法。 4、前記比較結果を成分の差の合計の和から形成するよ
    うにしたことを特徴とする請求項2記載の音声信号認識
    方法。 5、前記基準値の成分が、各基準値と関連する学習音声
    信号の音声値の成分の平均値の形成により発生されるよ
    うにしたことを特徴とする請求項2乃至4記載の音声信
    号認識方法。 6、前記基準値の成分が、各基準値と関連する学習音声
    信号の音声値の成分の中央値の形成により発生されるよ
    うにしたことを特徴とする音声信号認識方法。 7、学習段階中にプロトタイプ基準値を、発生された音
    声信号から選定し、プロトタイプ基準値および音素の各
    組み合わせに対する距離測定値を決め、さらに、認識中
    において、各音声値を総てのプロトタイプ基準値と比較
    し、その都度最小の距離を有するプロトタイプ基準値を
    音声値に割り当て、さらにまた、比較結果としての距離
    測定値を各基準値および音素に割り当てられたプロトタ
    イプ基準値のために使用するようにしたことを特徴とす
    る請求項1記載の音声信号認識方法。 8、プロトタイプ基準値を、各々の次のプロトタイプ基
    準値からの総ての学習音声値の距離の和が最小となるよ
    うに、選定することを特徴とする請求項7記載の音声信
    号認識方法。 9、距離測定値を決めるため、音素のプロトタイプ基準
    値の周波数と前記音素の総てのプロトタイプ基準値の周
    波数との比の対数を決めるようにしたことを特徴とする
    請求項7または8記載の音声信号認識方法。 10、距離測定値を決めるため、プロトタイプ基準値お
    よび音素のつながりの確率(the pro−babi
    lity of connection)は、学習段階
    中にプロトタイプ基準値が発生され、異なる音素が発生
    される周波数の差が、標準化により少なくとも減少され
    るように近づけられることを特徴とする請求項7または
    8記載の音声信号認識方法。 11、請求項1乃至10の何れか記載の方法を実施する
    ための回路配置であって、 (イ)基準値のための第1メモリ(16)と、(ロ)音
    響的に供給された音声信号からデジタル音声値を発生す
    るための入力回路(10、12)と、 (ハ)音声値を基準値と比較するため、かつ距離の和を
    発生するための処理回路(14)とを具える回路配置に
    おいて、 第1メモリ(16)はその都度数個の等しい基準値のシ
    ーケンスを含有し、新しい距離の和を決めるため、新し
    い音声値が基準値と比較される場合に、1シーケンス内
    の各基準値に応じて発生された比較結果が、前記シーケ
    ンスの前段の基準値の不変の距離の和に加えられ、1シ
    ーケンスの各第1基準値に応じて発生された比較結果が
    前段のシーケンスの、該シーケンスの前記基準値の位置
    に依存する第1の時間ひずみ値だけ増加された基準値の
    距離の和に加えられ、1シーケンスの各最後の基準値に
    応じて発生された比較結果が、第2の一定の時間ひずみ
    値だけ増加された同一基準値の距離の和に加えられ、こ
    の新しい距離の和を第2メモリ(18)に記録すること
    を特徴とする回路配置。 12、第1のメモリ(16)はプロトタイプ基準値およ
    び緊密に関連した距離測定値を有し、さらに、処理回路
    (14)は各新しい音声値を総てのプロトタイプ基準値
    と比較し、比較結果としての関連する距離測定値を次に
    続くプロトタイプ基準値に利用することを特徴とする請
    求項11記載の回路配置。 13、前記処理回路(14)をプロセッサ、特にマイク
    ロプロセッサにより構成することを特徴とする請求項1
    1または12記載の回路配置。
JP63082850A 1987-04-03 1988-04-04 音声信号認識方法およびその方法を実施する装置 Expired - Fee Related JP3130524B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE3711342.9 1987-04-03
DE19873711342 DE3711342A1 (de) 1987-04-03 1987-04-03 Verfahren zum erkennen zusammenhaengend gesprochener woerter

Publications (2)

Publication Number Publication Date
JPS63259687A true JPS63259687A (ja) 1988-10-26
JP3130524B2 JP3130524B2 (ja) 2001-01-31

Family

ID=6324845

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63082850A Expired - Fee Related JP3130524B2 (ja) 1987-04-03 1988-04-04 音声信号認識方法およびその方法を実施する装置

Country Status (4)

Country Link
US (1) US5058166A (ja)
EP (1) EP0285222B1 (ja)
JP (1) JP3130524B2 (ja)
DE (2) DE3711342A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004038163A (ja) * 2002-06-28 2004-02-05 Samsung Electronics Co Ltd 隠れマルコフモデルアルゴリズムの観測確率の演算装置

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3711342A1 (de) 1987-04-03 1988-10-20 Philips Patentverwaltung Verfahren zum erkennen zusammenhaengend gesprochener woerter
DE4111781A1 (de) * 1991-04-11 1992-10-22 Ibm Computersystem zur spracherkennung
DE4130631A1 (de) * 1991-09-14 1993-03-18 Philips Patentverwaltung Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal
JP4203122B2 (ja) * 1991-12-31 2008-12-24 ユニシス・パルスポイント・コミュニケーションズ 音声制御通信装置および処理方法
JP2795058B2 (ja) * 1992-06-03 1998-09-10 松下電器産業株式会社 時系列信号処理装置
US5758021A (en) * 1992-06-12 1998-05-26 Alcatel N.V. Speech recognition combining dynamic programming and neural network techniques
DE4412745A1 (de) * 1994-04-14 1996-11-07 Philips Patentverwaltung Verfahren zum Ermitteln einer Folge von Wörtern und Anordnung zur Durchführung des Verfahrens
WO1995034884A1 (fr) * 1994-06-13 1995-12-21 Matsushita Electric Industrial Co., Ltd. Analyseur de signaux
ATE190167T1 (de) * 1994-09-20 2000-03-15 Philips Corp Intellectual Pty System zum ermitteln von wörtern aus einem sprachsignal
US6321226B1 (en) * 1998-06-30 2001-11-20 Microsoft Corporation Flexible keyboard searching
US6336089B1 (en) * 1998-09-22 2002-01-01 Michael Everding Interactive digital phonetic captioning program
US7089184B2 (en) * 2001-03-22 2006-08-08 Nurv Center Technologies, Inc. Speech recognition for recognizing speaker-independent, continuous speech
DE10306022B3 (de) * 2003-02-13 2004-02-19 Siemens Ag Dreistufige Einzelworterkennung
KR100682909B1 (ko) * 2004-12-23 2007-02-15 삼성전자주식회사 음성 인식 방법 및 장치
US10235993B1 (en) * 2016-06-14 2019-03-19 Friday Harbor Llc Classifying signals using correlations of segments

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5926960A (ja) * 1982-08-02 1984-02-13 藤井 実 被覆方法
JPS61292697A (ja) * 1985-06-21 1986-12-23 三菱電機株式会社 パタン類似度計算装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4513436A (en) * 1980-09-16 1985-04-23 Oki Electric Industry, Co., Ltd. Speech recognition system
US4394538A (en) * 1981-03-04 1983-07-19 Threshold Technology, Inc. Speech recognition system and method
JPS57147781A (en) * 1981-03-06 1982-09-11 Nec Corp Pattern matching device
US4400788A (en) * 1981-03-27 1983-08-23 Bell Telephone Laboratories, Incorporated Continuous speech pattern recognizer
US4489434A (en) * 1981-10-05 1984-12-18 Exxon Corporation Speech recognition method and apparatus
JPS5879300A (ja) * 1981-11-06 1983-05-13 日本電気株式会社 パタ−ン距離計算方式
US4624008A (en) * 1983-03-09 1986-11-18 International Telephone And Telegraph Corporation Apparatus for automatic speech recognition
US4713777A (en) * 1984-05-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method having noise immunity
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
DE3711342A1 (de) 1987-04-03 1988-10-20 Philips Patentverwaltung Verfahren zum erkennen zusammenhaengend gesprochener woerter

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5926960A (ja) * 1982-08-02 1984-02-13 藤井 実 被覆方法
JPS61292697A (ja) * 1985-06-21 1986-12-23 三菱電機株式会社 パタン類似度計算装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004038163A (ja) * 2002-06-28 2004-02-05 Samsung Electronics Co Ltd 隠れマルコフモデルアルゴリズムの観測確率の演算装置

Also Published As

Publication number Publication date
US5058166A (en) 1991-10-15
EP0285222A2 (de) 1988-10-05
EP0285222A3 (en) 1990-07-11
DE3711342A1 (de) 1988-10-20
JP3130524B2 (ja) 2001-01-31
EP0285222B1 (de) 1993-08-25
DE3883411D1 (de) 1993-09-30

Similar Documents

Publication Publication Date Title
US6278970B1 (en) Speech transformation using log energy and orthogonal matrix
US4363102A (en) Speaker identification system using word recognition templates
US6078884A (en) Pattern recognition
EP0686965B1 (en) Speech recognition apparatus with speaker adaptation using acoustic category mean value calculus
JPS63259687A (ja) 音声信号認識方法およびその方法を実施する装置
EP0301199A1 (en) Normalization of speech by adaptive labelling
JP2001503154A (ja) 音声認識システムにおける隠れマルコフ音声モデルの適合方法
US6922668B1 (en) Speaker recognition
WO2002101719A1 (en) Voice recognition apparatus and voice recognition method
US5734793A (en) System for recognizing spoken sounds from continuous speech and method of using same
US5129001A (en) Method and apparatus for modeling words with multi-arc markov models
EP1511007B1 (en) Vocal tract resonance tracking using a target-guided constraint
Paliwal Lexicon-building methods for an acoustic sub-word based speech recognizer
JPS58192100A (ja) 第1の音声パタ−ンを第2の音声パタ−ンと時間的に整列させる方法とその装置
Furui Vector-quantization-based speech recognition and speaker recognition techniques
US5828998A (en) Identification-function calculator, identification-function calculating method, identification unit, identification method, and speech recognition system
JPH06289891A (ja) 音声認識装置
JPH10254473A (ja) 音声変換方法及び音声変換装置
KR101890303B1 (ko) 가창 음성 생성 방법 및 그에 따른 장치
JP3868798B2 (ja) 音声認識装置
JP2577891B2 (ja) 単語音声予備選択装置
JP3698511B2 (ja) 音声認識方法
JP3589508B2 (ja) 話者適応音声認識方法および話者適応音声認識装置
Dai Robust estimation of HMM parameters using fuzzy vector quantization and Parzen's window
Ney et al. Acoustic-phonetic modeling in the SPICOS system

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees