JPS62194292A - Formation of prospective voice input word sequence - Google Patents

Formation of prospective voice input word sequence

Info

Publication number
JPS62194292A
JPS62194292A JP61032049A JP3204986A JPS62194292A JP S62194292 A JPS62194292 A JP S62194292A JP 61032049 A JP61032049 A JP 61032049A JP 3204986 A JP3204986 A JP 3204986A JP S62194292 A JPS62194292 A JP S62194292A
Authority
JP
Japan
Prior art keywords
word
label
matching
phoneme
likelihood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61032049A
Other languages
Japanese (ja)
Other versions
JPH0372993B2 (en
Inventor
ラリツト・ライ・バール
フレデリツク・ジエレニツク
ロバート・レロイ・マーサー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP61032049A priority Critical patent/JPS62194292A/en
Publication of JPS62194292A publication Critical patent/JPS62194292A/en
Publication of JPH0372993B2 publication Critical patent/JPH0372993B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 以下の順序で本発明を説明する。[Detailed description of the invention] The present invention will be explained in the following order.

A、産業上の利用分野 B、開示の概要 C1従来の技術 り0発明が解決しようとする問題点 E]  問題点を解決するための手段 F、実施例 Fl、音声認識システムの環境 Fla、  全般的説明(第2図〜第5図)Flb、 
 聴覚モデルおよび音声認識システムの音響プロセッサ
におけるその実現(第 6図〜第12図) Flc、  精密マツチング(第4図、第15図)Fl
d、  基本高速マツチング(第14図〜第16図) F1e0代替高速マツチング(第17図、第18図) Flf、  最初のJレベルに基づいたマツチング(第
18図) Fig、  音素木構造および高速マツチング実施例(
第19図) Flh、言語モデル(第2図) Flj、  整形されたワード基本形態の形成(第20
図) Flに、  音標型基本形態の構築 F2.スタック復号装置および方法 F2a、  定義 F2b、  見込みのあるワードの選択(第5図)F2
 c、  境界ラベル位置の探査 F2d、  ワード・パスに沿った各ラベル間隔での尤
度の評価 F1a、延長すべきワード・ノ(スの決定F2f、  
スタック・デコーダ実施例(第1図)F2g、  代替
実施例 Fろ1表 G8発明の効果 A、産業上の利用分野 本発明は一般に音声認識の分野、詳細に述べれば、音声
入力に応じて見込みのあるワードのシーケンスを決定す
る分野に係る。
A. Industrial field of application B. Overview of the disclosure C1. Prior art Problems to be solved by the invention E] Means for solving the problems F. Example Fl. Environment of the speech recognition system Fla. General Description (Figures 2 to 5) Flb,
Auditory model and its realization in the acoustic processor of the speech recognition system (Figures 6 to 12) Flc, precision matching (Figures 4 and 15) Fl
d, Basic high-speed matching (Figures 14 to 16) F1e0 alternative high-speed matching (Figures 17 and 18) Flf, Matching based on the first J level (Figure 18) Fig, Phoneme tree structure and high-speed matching Example(
Fig. 19) Flh, language model (Fig. 2) Flj, formation of formatted word basic form (Fig. 20)
Figure) In Fl, Construction of phonetic type basic form F2. Stack decoding device and method F2a, definition F2b, selection of promising words (Figure 5) F2
c, Exploration of boundary label positions F2d, Evaluation of the likelihood at each label interval along the word path F1a, Determination of the word no(s) to be extended F2f,
Stack Decoder Embodiment (FIG. 1) F2g, Alternative Embodiment F1 Table G8 Effects of the Invention A, Industrial Field of Application The present invention is generally in the field of speech recognition, and more specifically, the field of speech recognition. It concerns the field of determining a certain sequence of words.

B6  開示の概要 本発明は、ラベルのストリングが連続的に生成される場
合の音声認識で、複数のワード・パスか。
B6 SUMMARY OF THE DISCLOSURE The present invention relates to speech recognition where strings of labels are generated sequentially, using multiple word passes.

ら見込みのあるワードのシーケンスすなわちパスを決定
する問題に取組むものである。本発明は、複数スタック
復号化、ならびにワード・パスの長さに過度に依存せず
に1ワード・パスを1度に延長する独特の方式を特色と
する。複数スタック復号化により、スタックはラベル−
ストリングの各ラベルに関連づけられる。所与のラベル
で終了する見込みが最もあるワード・パスは、その所与
のラベルに対応するスタックに割当てられ、所与のラベ
ルでの尤度に従って順序づけられる。どのワード・パス
を延長すべきかを決定する方式は、尤度包絡線の形成を
含み、この包絡線に対しワード・パスを比較して、ワー
ド・パスが延長される見込みが十分にあるかどうかを決
定する。延長可能であることが分ったワード・パスの中
から、最初のスタックで最高の尤度のワ゛−ド・パス、
すなわち最も短かい最尤ワード・パスを選択して延長す
る。ワード・パスは延長された後、そのスタックから削
除され、延長されたワード・パスは適切なスタックに入
れられる。
It addresses the problem of determining a likely sequence or path of words. The present invention features multiple stack decoding and a unique scheme for extending one word pass at a time without being overly dependent on word pass length. With multiple stack decoding, the stacks are labeled −
Associated with each label in the string. The word paths that are most likely to end at a given label are assigned to the stack corresponding to that given label and ordered according to their likelihood at the given label. The method for determining which word paths should be extended involves forming a likelihood envelope and comparing the word paths against this envelope to determine whether there is a reasonable likelihood that the word path will be extended. Determine. Among the word paths found to be extendable, select the one with the highest likelihood in the first stack,
That is, the shortest most likely word path is selected and extended. After a word pass is extended, it is removed from its stack and the extended word pass is placed in the appropriate stack.

C1従来の技術 本発明の詳細な説明に関するものとして、米国特許出願
第06/665401号(i984年10月26日出願
)、および同第06/672974号(i984年11
月19日出願)がある。
C1 Prior Art For a detailed description of the present invention, see U.S. Patent Application Serial No. 06/665,401, filed Oct. 26, 1984;
(Applications filed on March 19th) are available.

一般に、音声認識システムすなわち音声認識計算機の目
的は、自動的に、自然の音声を他の形式、例えば文書形
式に変換することである。この目的を達成するために、
種々雑多な方法が考察されている。ある方法では、人間
の音声解釈プロセスのシミュレーションを目指し、別の
方法では、統計的な前後関係で音声を考察している。
Generally, the purpose of a speech recognition system or computer is to automatically convert natural speech into another format, such as a document format. to this end,
Various miscellaneous methods have been considered. Some methods aim to simulate the human speech interpretation process, while others consider speech in a statistical context.

統計的方法自体では、I EEE会報:パターン分析お
よび計算機情報(PAMI)第5巻第2号(i983年
)179〜190頁記載のエル・アール・バール外の論
文“連続音声を認識する最尤法” (L、 RoBah
l et alS”A MaximumLikelih
ood Approach  to Continuo
usSpeech  Recognition”、IE
EETransactions  on  Patte
rn  Analysisand  Machine 
 IntelligencelVol。
Regarding the statistical methods themselves, there is a paper by L. R. Barr et al., “Maximum Likelihood Recognition for Continuous Speech Recognition” in IEEE Bulletin: Pattern Analysis and Computer Information (PAMI), Vol. 5, No. 2 (i983), pp. 179-190. Law” (L, RoBah
l et alS”A Maximum Likelih
ood Approach to Continue
usSpeech Recognition”, IE
EETransactions on Patte
rn Analysis Machine
Intelligencel Vol.

PAMr−5、No、2、1983、 pp179−1
90)に、いくつかの方法が考察されている。
PAMr-5, No. 2, 1983, pp179-1
Several methods are discussed in 90).

この論文では、代表的な音声認識システムのモデルは話
者に追随するテキスト生成プログラムを含んでいる。テ
キスト生成プログラムは何を話すべきかを決め、話者は
自然の音、声涙形を生成する。
In this paper, a typical speech recognition system model includes a text generator that follows the speaker. The text generator decides what to say and the speaker generates natural sounds, voice teardrops.

自然の音声波形は音響プロセッサに入り、音響プロセッ
サからの出力は言語デコーダに入る。利用する手法に応
じて、前述の要素は幾通りにも関連づけることができる
。前記論文では、話者と音響プロセッサは音響チャンネ
ルとして作用するように組合され、話者はテキストを音
声波形として供給し、音響プロセッサは、データ圧縮装
置として作用し、ラベル(記号またはフエネヌともいう
)のス) IJソング言語デコーダに供給する。ラベル
は幾通りかの中の任意の方法で生成することができ、一
般に、順次ラベルy1y2y6・・・から成るストリン
グYとして集合的に識別される。
The natural speech waveform enters the acoustic processor and the output from the acoustic processor enters the language decoder. Depending on the approach utilized, the aforementioned elements can be related in any number of ways. In said article, a speaker and an acoustic processor are combined to act as an acoustic channel, the speaker provides text as an audio waveform, the acoustic processor acts as a data compressor, and the audio processor acts as a data compressor and generates labels (also called symbols or fennenu). ) to the IJ song language decoder. The labels can be generated in any of several ways and are generally collectively identified as a string Y consisting of the sequential labels y1y2y6...

前記論文では、1つの音響プロセンサー113Mのセン
チ秒音響プロセッサ(c8AP)−は、音声波形をパラ
メータ・ベクトルのストリングに変換する。パラメータ
・ベクトルの各々は、記憶されている原型(すなわち標
準ベクトル)と比較され、そのパラメータφベクトルか
らの距離ならびに各々の原型が決定される。そして、最
も接近している原型のラベルは波形パラメータ・ベクト
ルに指定される。このラベルは、種々の形式の中の任意
の波形を有することができ、従来の技術に従って種々の
既知の方法のどれかで決定することができる。
In that paper, the centisecond acoustic processor (c8AP) of one acoustic prosensor 113M converts the audio waveform into a string of parameter vectors. Each of the parameter vectors is compared to a stored prototype (ie, a standard vector) to determine its distance from the parameter φ vector as well as the prototype of each. The label of the closest prototype is then specified in the waveform parameter vector. This label can have any waveform among a variety of formats and can be determined in any of a variety of known ways according to the art.

言語デコーダの目的は、到来するラベルと、システム語
集に備えられているワードの間のマツチング・プロセス
を実行することである。前述のバール外の論文に示され
た確率的な方法では、言語デコーダは、ラベルy1 y
2y6・・・のストリングを与える最高の確率を有する
ワード・ス) IJングWの決定を目指している。すな
わち、所望の最終結果は、音響プロセッサにより生成さ
れたラベルのストリングに対応するワードの最も見込み
のあるシーケンス(または複数のシーケンス)を決定す
ることである。これは数学的には下記の式で示される。
The purpose of the language decoder is to perform a matching process between the incoming labels and the words provided in the system lexicon. In the probabilistic method presented in the above-mentioned paper by Barr et al.
We aim to determine the word (S) IJngW that has the highest probability of giving a string of 2y6.... That is, the desired end result is to determine the most likely sequence (or sequences) of words that correspond to the string of labels produced by the acoustic processor. This is expressed mathematically by the following formula.

Max  P7 (WI Y )          
   (i)これは全ワード・ストリングWにわたって
Yを与えるWの最大確率である。周知のように、確率P
γ(way)は次のように書くことができる。
Max P7 (WI Y)
(i) This is the maximum probability of W giving Y over the entire word string W. As is well known, the probability P
γ(way) can be written as follows.

Pγ(Wly)=pγ(W)・Pγ(YIW)/Pγ(
Y)(2)ここで、Pγ(Y)はWとは無関係である。
Pγ(Wly)=pγ(W)・Pγ(YIW)/Pγ(
Y) (2) Here, Pγ(Y) is unrelated to W.

言語復号化の要点は、(ワードの語粟にある)どのワー
ドのシーケンスが、音響プロセッサにより生成されたラ
ベルを与える最高の尤度を有するかを、どのように決定
するかである。
The crux of language decoding is how to determine which sequence of words (in a lexicon of words) has the highest likelihood of giving the label produced by the acoustic processor.

連続するW の最も見込みのあるバス(すなわちシーケ
ンス)を決定する1つの方法は、それぞれの可能なパス
を調べ、復号中のラベル・スl−IJソング与えるバス
の各々の確率を決定することである。そして、関連する
最高の確率を有するバスを選択する。5000ワードの
語粟の場合、この方法は、特にワードのシーケンスが長
い場合、扱いにくくなり、非実際的である。
One way to determine the most likely bus (i.e., sequence) of consecutive be. Then select the bus with the highest associated probability. For a word millet of 5000 words, this method becomes unwieldy and impractical, especially if the sequence of words is long.

最も見込みのあるワード・シーケンスW*を見つける公
知の他の2つの方法は、ビタービ(Viterbi)復
号化およびスタック復号化である。これらの手法の各々
は、前記論文6連続音声を認識する最尤法”の第7項お
よび第■項にそれぞれ記載されている。
Two other known methods of finding the most likely word sequence W* are Viterbi decoding and stack decoding. Each of these methods is described in Sections 7 and 2 of the aforementioned paper 6, ``Maximum Likelihood Method for Recognizing Continuous Speech'', respectively.

この論文のスタック復号手法は、単一のスタック復号化
に関連する。すなわち、長さの異なるパスは尤度に応じ
て単一スタックにリストされ、復号はこの単一スタック
に基づいて行なわれる。単一スタック復号は、尤度がい
くらかパスの長さに左右され、従って一般に正規化が行
なわれるという事実によるものである。しかしながら、
正規化は、もし正規化ファクタが正しく推定されなけれ
ば、不適切な探索により過度の探索および探索エラーを
生じることがある。
The stack decoding approach in this paper is related to single stack decoding. That is, paths of different lengths are listed in a single stack according to their likelihood, and decoding is performed based on this single stack. Single stack decoding is due to the fact that the likelihood depends somewhat on the path length and therefore normalization is commonly performed. however,
Normalization can result in excessive searching and search errors due to improper searching if the normalization factor is not estimated correctly.

ビタービ手法は、正規化は必要としないが、一般に小さ
なタスクの場合にしか実際的ではない。
The Viterbi method does not require normalization, but is generally only practical for small tasks.

大規模な語粟を使用すると、基本的に時間に同期するビ
タービ・アルゴリズムは、非同期の音響突合せ成分とイ
ンタフェースしなければならないことがある。この場合
、インタフェースは適切ではないという結果になる。
Using large scales, the essentially time-synchronous Viterbi algorithm may have to interface with an asynchronous acoustic matching component. In this case, the result is that the interface is not suitable.

D1発明が解決しようとする問題点 従って、本発明の目的は、所与のラベル・ストリングY
の最大の事後確率Pγ(WIY)を有するワード・シー
ケンスW を決定し、従来の手法を改良することである
D1 Problem to be Solved by the Invention It is therefore an object of the present invention to
The purpose of the present invention is to determine the word sequence W with the maximum posterior probability Pγ(WIY) of , improving the conventional method.

詳細に言えば、本発明は、正規化を必要とせずに、ラベ
ル・ストリングの最も起こりうるワード・シーケンスを
復号する方法を提供する。
Specifically, the present invention provides a method for decoding the most likely word sequence of a label string without the need for normalization.

更に、本発明は、時間に同期する構成要素と非同期の構
成要素のインタフェースを備えなくてもよい方法を提供
する。
Additionally, the present invention provides a method that does not require an interface between time-synchronized and asynchronous components.

更に、本発明は、他の手法に比し必要な計算が少なく、
しかも高い精度で、最も起こりうるワード・シーケンス
W*を復号することができる方法に関する。
Furthermore, the present invention requires less calculation than other methods;
Moreover, it concerns a method that makes it possible to decode the most likely word sequences W* with high accuracy.

E1問題点を解決するための手段 前記およびその他の目的を達成する装置および方法は、
複数スタック復号化、ならびに所与の時刻にどのワード
−シーケンスを延長すべきかを決定する独特の判定方式
を特徴とする。この判定方式に従って、長さが比較的短
かいバスは、その短かさの故に不利になることはなく、
むしろ、それに代って、その尤度で判定される。
Means for solving the E1 problem Devices and methods for achieving the above and other objects include:
It features multiple stack decoding and a unique decision scheme to determine which word-sequences to extend at a given time. According to this decision method, a bus that is relatively short in length will not be at a disadvantage due to its short length;
Rather, it is determined by its likelihood instead.

複数スタックに関して、本発明は各ラベル間隔ごとにス
タック要素を設ける。対象ワード・バスについて、その
対象ワード・バスが最高の終了尤度を有する境界ラベル
間隔がある。また、その境界ラベルまで延長するi番目
のラベル間隔ごとに、i番目のラベル間隔までのラベル
を生成する、対象ワード・バスの尤度がある。これらの
尤度の決定は、前述のバール他の論文で論議されている
For multiple stacks, the present invention provides a stack element for each label interval. For a target word bus, there is a boundary label interval for which the target word bus has the highest likelihood of termination. Also, for every ith label interval extending to its boundary label, there is a likelihood of the subject word bus generating a label up to the ith label interval. The determination of these likelihoods is discussed in the Barr et al. paper cited above.

各々のi番目のラベル間隔に、そこに境界ラベルを有す
るすべてのワード・バスを入れるそれぞれのスタックが
ある。所与のスタックにおけるワード・バスは、それぞ
れのi査目のラベル間隔での尤度に従って順序づけられ
る。
Each i-th label interval has its own stack that contains all the word buses that have boundary labels on it. The word buses in a given stack are ordered according to their likelihood at each i-th label interval.

本発明の判定方式は、尤度包絡線を形成し、選択された
任意のワード・バス番号について尤度包絡線での最高の
尤度をそれぞれのラベル間隔に割当てる動作を含む。次
いで、この包絡線に沿った尤度は所定量だけ減少される
6次に、下記ステップが実行される。
The decision scheme of the present invention includes forming a likelihood envelope and assigning to each label interval the highest likelihood in the likelihood envelope for any selected word bus number. The likelihood along this envelope is then reduced by a predetermined amount.6 Next, the following steps are performed.

(a)  すべてのラベル会スタックで最も長い最初の
ワード・バス拳エントリを検査し、ラベル・スタックが
2工ントリ以上有する場合は、尤度の減少に基づいてワ
ード・バスを検査する。この場合、前記検査は、(i)
対象ワード・バスの境界ラベルに対応するラベルでの尤
度がその境界ラベルでの減少した尤度を越える場合のワ
ード・バスを”良い”ワード・バスと分類するステップ
と、 (ii)対象ワード・バスとしてワード−バスご
とにステップ(i)を反復するステップを含む。
(a) Examine the longest first word bus entry in all label stacks, and if the label stack has more than one entry, examine word buses based on decreasing likelihood. In this case, said test includes (i)
(ii) classifying a word bus as a "good" word bus if the likelihood at a label corresponding to a boundary label of the target word bus exceeds the reduced likelihood at that boundary label; - repeating step (i) for each word-bus as a bus;

(b)  ワ−1−”・バスを0良い”ワード・バスと
分類した後、包絡線内のラベルごとの尤度値を、(i)
包路線内の現在の尤度値、または(i1)”良いパと分
類されたワード・バスにおける尤度値のどちらか大きい
方に更新する。
(b) After classifying the word bus as a 0 good word bus, the likelihood value for each label in the envelope is calculated as (i)
Update to the current likelihood value in the envelope, or (i1) the likelihood value in the word bus classified as "good", whichever is greater.

(c)  すべてのワード・バスが分類された後、最も
短かい良いワード・バスを、延長すべきワード・バスと
して選択し、または長さが最も短かい良いワード・バス
が2以上ある場合は、その境界ラベルで最高の尤度値を
有する少なくとも1つの最も短かいワード・バスを選択
する。選択されたバスごとに、(語粟中の他のワードに
関して)選択された良いワード・バスに後続する高い尤
度を有する、起こりうる後続ワードのリストが形成され
る。このリストは、米国特許出願第06/672974
号(i974年11月19日出願)に開示された方法に
従って形成することが望ましい。
(c) After all word buses have been sorted, select the shortest good word bus as the word bus to be extended, or if there is more than one good word bus with the shortest length. , select at least one shortest word bus with the highest likelihood value at its boundary label. For each selected bus, a list is formed of possible successor words that have a high likelihood (with respect to other words in the word bus) of following the selected good word bus. This list is based on U.S. Patent Application No. 06/672,974
It is preferable to form it according to the method disclosed in No.

リスト中の各ワードは、選択された良いワード・バスに
個別に付加され、複数の延長されたワード・バスを形成
する。選択された良いワード・バスはそのスタックから
除去され、延長された各ワ−ド・パスはそれぞれのスタ
ックに入れられる。
Each word in the list is individually appended to the selected good word bus to form multiple extended word buses. The selected good word bus is removed from its stack and each extended word path is placed in its own stack.

スタックが再形成されると、どのワード・パス(複数の
場合もある)を次に延長すべきかを決定する手順が反復
される。選択された最も短かい良いパスを毎回延長する
ことにより、短かいワード・パスは、長い方のワード長
に追いつくことができる。本発明により、長い方のワー
ドが、単に長いという理由で、短かいワードよりも有利
になるということはない。本発明により、最初長さの短
かいワード・パスが、時期尚早に無視されることはなく
、延長される機会を与えられる。
Once the stack is re-formed, the procedure is repeated to determine which word path(s) should be extended next. By extending the shortest good path selected each time, the short word path can catch up with the longer word length. With the invention, longer words are not favored over shorter words simply because they are longer. With the present invention, word paths that are initially short in length are not prematurely ignored, but are given the opportunity to be extended.

本発明に従って、文に相当するワード・ノ(スを識別す
る場合、連続する間隔で生成されたラベル・ストリング
を仮定して、複数のワード・)(スから見込みのあるワ
ード・パスを決定する装置は、(a)各ラベル間隔にラ
ベル・スタックを割当てる手段、(b)対象ワード・パ
スについて(i)対象ワード・パスの終了する見込みが
最も大きい境界ラベル間隔、および(ii)その境界ラ
ベル間隔を含むそれ以前の各ラベル間隔での尤度を決定
する手段、(c)対象ワード・パスを、その境界ラベル
に対応するラベル・スタックに、そのエントリとして割
当てる手段、(d)各々のワード・パスで作用する前記
決定手段ならびに割当て手段、(、)文に対応する最も
見込みのあるワード・パスを含む完全なパス・スタック
を、もしあげれば、維持する手段、(f)尤度包絡線を
、(i)完全なパス・スタックに含まれたワード・パス
のそれぞれの尤度、または(i1)完全なパス・スタッ
クにワード・パスが含まれていない場合、各ラベル間隔
での最小基準尤度として形成する手段、(g)尤度包絡
線で尤度を減少する手段、(h)すべてのラベル・スタ
ックで最も長い最初のワード・パス・エントリを検査し
、ラベル・スタックが2工ントリ以上有する場合、尤度
の減少に基づいてワード・パスを検査する手段(この場
合、前記検査手段は(i)対象ワード・パスの境界ラベ
ルに対応するラベルでの尤度がその境界ラベルに対応す
るラベルでの減少された尤度を越える場合にワード・パ
スを良好として分類する手段、および(ii)対象ワー
ド・パスとして各ワード・パスに作用する前記分類手段
を含む。)、(j)ワード・パスを良いワード・パスと
分類した後、包絡線におけるラベルごとの尤度値を、(
i)包絡線での現在の尤度、または(ii)良いワード
・パスと分類されたワード・パスでの尤度値のどちらか
大きい方に更新する手段、(k)すべてのワード・パス
が分類された後、最も短かい良いワード・パスを、延長
すヘキワード・パスとして選択し、長さが最も短かい良
いワード・パスが2以上ある場合、その境界レベルで最
高の尤度値を有する最も短かいワード・パスを選択する
手段を含む。
In accordance with the present invention, when identifying a word path corresponding to a sentence, a likely word path is determined from a plurality of word paths, assuming a label string generated at consecutive intervals. The apparatus includes: (a) means for allocating a label stack for each label interval; (b) for a subject word path, (i) a boundary label interval in which the subject word pass is most likely to terminate; and (ii) that boundary label. (c) means for assigning the target word path as its entry in the label stack corresponding to its boundary label; (d) means for determining the likelihood at each previous label interval including the interval; said determining means operating on the path as well as allocating means, (,) means for maintaining a complete path stack, if any, containing the most likely word path corresponding to the sentence; (f) a likelihood envelope; be (i) the likelihood of each word path included in the complete path stack, or (i1) the minimum criterion at each label interval if no word path is included in the complete path stack. (g) reducing the likelihood with a likelihood envelope; (h) examining the longest first word path entry in all label stacks, means for checking the word path on the basis of decreasing likelihood if the target word path has a likelihood at a label corresponding to a boundary label of the target word path (j) means for classifying a word path as good if it exceeds a reduced likelihood at the corresponding label; and (ii) said classification means acting on each word path as a target word path. ) After classifying word paths as good word paths, the likelihood value for each label in the envelope is expressed as (
means to update to the greater of i) the current likelihood at the envelope, or (ii) the likelihood value at the word passes that are classified as good; (k) if all word passes are After being classified, the shortest good word path is selected as the next word path to be extended, and if there are two or more good word paths with the shortest length, it has the highest likelihood value at that boundary level. Includes means for selecting the shortest word pass.

F、実施例 Fl、音声認識システムの環境 F1a、全般的説明(第2図〜第5図)第2図は音声認
識システム1000の概要ブロック図を示す。このシス
テムは、スタック・デコーダ1002、およびそれに接
続された音響プロセッサ(AP)1004、高速概算音
響突合せを実行するアレイ・プロセッサ1006、精密
音響マツチングを実行するアレイ・プロセッサ1008
、言語モデル1010、ならびにワークステーション1
012を含む。
F. Embodiment Fl. Environment F1a of Speech Recognition System, General Description (FIGS. 2-5) FIG. 2 shows a schematic block diagram of a speech recognition system 1000. The system includes a stack decoder 1002 and an acoustic processor (AP) 1004 connected thereto, an array processor 1006 that performs fast approximate acoustic matching, and an array processor 1008 that performs precision acoustic matching.
, language model 1010, and workstation 1
012 included.

音響プロセッサ1004は、音声波形入力を2その各々
が対応する単音符号を大まかに識別するラベルのストリ
ング、すなわちフィーニーム(feneme  :フロ
ント・エンドで得た微小音素、ただし、本質的には、フ
ロント・エンドで得たかどうかは問題でない)に変換す
るように設計されている。本システムでは、音響プロセ
ッサ1004は、人間の聴覚の独特なモデルに基づくも
ので、米国特許出願第06/665401号(i984
年10月26日出願)に記載されている。
The acoustic processor 1004 converts the audio waveform input into two strings of labels, each of which roughly identifies the corresponding phonetic symbol, i.e., feneme: microphonemes obtained at the front end, but essentially It doesn't matter whether you got it or not). In the present system, the acoustic processor 1004 is based on a unique model of human hearing and is
(filed on October 26, 2013).

音響プロセッサ1004からのラベル、すなわちフィー
ニームはスタック・デコーダ1002に送られる。第3
図は、スタックのデコーダ1002の論理素子を示す。
Labels, or feeneems, from acoustic processor 1004 are sent to stack decoder 1002. Third
The figure shows the logic elements of a stack of decoders 1002.

すなわち、スタック・デコーダ1002は探索装置10
20、およびそれに接続されたワークステーション10
12、インクフェース1022.1o24.1o26な
らびに1028を含む。これらのインタフェースの各々
は、音響プロセッサ10o4、アレイ・プロセッサ10
06.1008ならびに言語モデル1010にそれぞれ
接続される。ワークステーション1012はユーザが編
集し、コマンドを入力することを可能にする。これらの
コマンドにより、ユーザは句読点、段落、大文字使用等
を伴なう出力をフォーマット化することができる。ワー
クステーション1012は米国特許出願第067666
212号(i984年10月30日出願)に開示されて
いる。
That is, the stack decoder 1002
20, and the workstation 10 connected thereto.
12, including ink faces 1022.1o24.1o26 and 1028. Each of these interfaces includes an acoustic processor 10o4, an array processor 10
06.1008 and language model 1010, respectively. Workstation 1012 allows users to edit and enter commands. These commands allow the user to format output with punctuation, paragraphs, capitalization, etc. Workstation 1012 is published in U.S. Patent Application No. 067666.
No. 212 (filed October 30, 1984).

動作中、音響プロセッサ1004からのフィーニームは
探索装置1020によりアレイ・プロセッサ1006(
高速突合せ)に送られる。下記に説明する高速マツチン
グ手順は前記米国特許第06/672974号(i98
4年11月19日出願)にも記載されている。マツチン
グの目的は、簡単にいえば、音響確率に基づいて所与の
2ベル・ストリングの最も見込みのあるワード(複数ワ
ードの場合もある)を決定することである。
In operation, feeneem from acoustic processor 1004 is sent to array processor 1006 (
high-speed matching). The fast matching procedure described below is described in the aforementioned U.S. Pat. No. 06/672,974 (i98
(filed on November 19, 2013). The purpose of matching is, simply, to determine the most likely word (or words) of a given two-bell string based on acoustic probabilities.

高速マツチングはワードの語粟中のワードを検査すると
ともに、所与の到来ラベルのストリングの候補ワードの
数を少なくするように設計されている。高速マツチング
は確率的に限定された状態マシン(本明細書ではマルコ
フ・モデルともいう)に基づくものである。
Fast matching is designed to examine words in a lexicon of words and to reduce the number of candidate words for a given incoming label string. Fast matching is based on stochastically bounded state machines (also referred to herein as Markov models).

高速マツチングが候補ワード数を減少した後、スタック
・デコーダ1002は、言語モデル1゜10と対話し、
できれば、現に存在する三重字に基づき、高速突合せ候
補リスト中の各候補ワードの文脈上の尤度を確定する。
After fast matching reduces the number of candidate words, stack decoder 1002 interacts with language model 1.
Determine the contextual likelihood of each candidate word in the fast match candidate list, preferably based on the currently existing triples.

精密マツチングは、これらのワードを、話されたワード
として適度の尤度を有する高速マツチング候補リストか
ら、言語モデル計算に基づいて検査することが望ましい
。精密マツチングも前記米国特許出願筒06/6729
74号(i984年11月19日出願)に記載されてい
る。精密マツチングは、第4図に示すようなマルコフ・
モデルの音素マシンにより実行する。
Precision matching is preferably based on language model calculations that examine these words from a list of fast matching candidates that have a reasonable likelihood of being spoken words. Precision matching is also based on the above-mentioned US patent application No. 06/6729.
No. 74 (filed November 19, 1984). Precision matching is a Markov matching as shown in Figure 4.
Executed by model phoneme machine.

精密マツチングの後、再び言語モデルを呼出し、ワード
の尤度を決定することが望ましい。本発明のスタック・
デコーダ1002は、□高速マツチング、精密マツチン
グ、および言語モデルの使用から得られた情報を用いて
一生成されたラベル・ス) IJングのワードの最も見
込みのあるバスすなわちシーケンスを確定するように設
計されている。
After precision matching, it is desirable to invoke the language model again to determine the word likelihood. The stack of the present invention
The decoder 1002 is designed to determine the most likely bus or sequence of words for a generated label using fast matching, precision matching, and the use of a language model. has been done.

本発明は、どのワード・バスまたは複数のワード・バス
が最も見込みがあるかを決定し、次いで、このようなバ
スの各々を、高速マツチング、精密マツチング、および
言語モデル′の手順により見込みのある後続ワードであ
ることが分った各ワードにより延長することに関する。
The present invention determines which word bus or word buses are most likely, and then classifies each such bus as likely by fast matching, precision matching, and language model procedures. Concerning extending by each word found to be a successor word.

第5図に示す例では、本発明による複数のスタック配列
が、連続する6つ処理時刻に示されている。最初の処理
時刻(処理時刻1)で、3つのワード”to”、”tw
o’“、およびtoo”が、高速マツチング、精密マツ
チング、および言語モデル処理の結果、見込みがあるも
のとされている。これらの3つのワードの各々はラベル
Wで終了する見込みが最も犬である。すなわち、到来す
るラベルにより表わされる最初のワードは、減少する尤
度の順にリストされた”to”、”two″、 または
”too”のいずれかである見込みがあり、がっ、これ
らのワードの各々はラベル間隔(すなわちラベル位置)
Wで終了する見込みが最も大であることが確定される。
In the example shown in FIG. 5, multiple stack arrangements according to the present invention are shown at six consecutive processing times. At the first processing time (processing time 1), three words "to", "tw"
o'", and too" are found to be promising as a result of fast matching, precise matching, and language model processing. Each of these three words is most likely to end with the label W. That is, the first word represented by an incoming label is likely to be one of "to,""two," or "too," listed in order of decreasing likelihood; each is the label spacing (i.e. label position)
It is determined that the probability of finishing with a W is the highest.

処理時刻2で次のラベルが検査されると、to  be
”が見込みのあるバスであることが分る。すなわち、ラ
ベル・ストリングが与えられ、先行ワードにto”が与
えられると、高速マツチング、精密マツチング、および
言語モデルは協力して、”be”が見込みのある後続ワ
ードであることを確定する。同様に、処理時刻6で、ワ
ード”two”にb”またはd”が後続することができ
る。バス”to  be”、two  b”、および”
two  d”の各々は、ラベル間隔Xで終了する見込
みが最も犬であるので、ラベル間隔Xに対応するスタッ
クに入れられる。処理時刻3で、エントリを含むスタッ
クが2つあるが、ラベル間隔Wのスタックにおけるエン
トリの中の2つは、延長された後に削除されている。次
の処理時刻4で、ワード・パス”to be”は延長さ
れて、パス”t。
When the next label is inspected at processing time 2, to be
It turns out that " is a probable bus. That is, given a label string and given a leading word of to, the fast matching, precise matching, and language model work together to find that "be" is a promising bus. Determine that it is a likely successor word. Similarly, at processing time 6, the word "two" can be followed by a b" or a d". bus “to be”, two b”, and “
each of the two d'' is placed in the stack corresponding to label interval X because it has the best chance of ending at label interval Two of the entries in the stack of are deleted after being extended. At the next processing time 4, the word path "to be" is extended and the path "t.

be  or’“を形成し、ラベル間隔Yに対応するス
タックに入れられる。更に追加のラベルの検査を続ける
ことにより、最も見込みのあるパスすなわちスタックを
表わす”to  be or not to be=”
が見つかる。
be or'" and placed in the stack corresponding to the label spacing Y. By continuing to examine additional labels, a "to be or not to be="
is found.

前述の例から、スタック・デコーダ1002が複数のス
タックをそれぞれがラベル間隔に対応するように順序づ
けることが分る。ワード・パスの終了がi番目のラベル
間隔で最も起こりうる場合、そのワード・パスはi番目
のラベル間隔に対応するスタックに入れられる。実際に
は、スタック・デコーダ1002は、他の要素を制御す
るように作用するが、実行する計算は多(はない。それ
故、スタック・デコーダ1002は、VM(仮想計算機
)/システム・プロダクト・イントロダクション・リリ
ース3(i983)のような出版物に記載されているよ
うに、IBM  vM/37o、+ペレーテイング・シ
ステムの制御の下にランする4ろ41プロセツサを含む
ことが望ましい。相当な量の計算を実行するアレイ・プ
ロセッサは、フローティング−ポイント・システム(F
PS )社製の市販の19OLにより実現されている。
From the above example, it can be seen that stack decoder 1002 orders multiple stacks, each corresponding to a label interval. If the end of a word path is most likely to occur in the i-th label interval, then that word-path is placed in the stack corresponding to the i-th label interval. In reality, the stack decoder 1002 acts to control other elements, but performs many calculations. It is desirable to include a 4 to 41 processor running under the control of an IBM vM/37o, + operating system, as described in publications such as Introduction Release 3 (i983). The array processor that performs the calculations is based on a floating-point system (F
This is realized by commercially available 19OL manufactured by PS.

−スタック・デコーダ1002の詳細は下記に説明する
- Details of the stack decoder 1002 are explained below.

Flb、聴覚モデルおよび音声認識システムの音響プロ
セッサにおけるその実現(第6図〜第12図) 第6図は、前述のような音響プロセッサ1100の特定
の実施例を示す。音響波入力(例えば、自然の音声)が
、所定の速度でサンプリングするA/D変換器1102
に入る。代表的なサンプリング速度は毎50マイクロ秒
当り1サンプルである。ディジタル信号の端を整形する
ために、時間窓発生器1104が設けられている。時間
窓発生器1104の出力は、時間窓ごとに周波数スペク
トル出力を与えるFFT (高速フーリエ変換)装置1
106に入る。
Flb, Auditory Model and Its Implementation in an Acoustic Processor of a Speech Recognition System (FIGS. 6-12) FIG. 6 shows a particular embodiment of an acoustic processor 1100 as described above. An A/D converter 1102 in which an acoustic wave input (e.g., natural speech) is sampled at a predetermined rate.
to go into. A typical sampling rate is one sample every 50 microseconds. A time window generator 1104 is provided to shape the edges of the digital signal. The output of the time window generator 1104 is converted to an FFT (fast Fourier transform) device 1 that provides a frequency spectrum output for each time window.
Enter 106.

そして、FFT装置1106の出力は、ラベルy1 y
2・・・y、を生成するように処理される。特徴選択装
置110B、クラスタ装置1110、原型装置1112
および記号化装置1114は共同してラベルを生成する
。ラベルを生成する際、原型は、選択された特徴に基づ
き空間に点(またはベクトル)として形成される。・音
響入力は、選択された同じ特徴により、原型に比較しう
る対応する点(またはベクトル)を空間に供給するよう
に特徴づけられている。
Then, the output of the FFT device 1106 is labeled y1 y
2...y, is processed. Feature selection device 110B, cluster device 1110, prototype device 1112
and encoder 1114 jointly generate the label. When generating labels, prototypes are formed as points (or vectors) in space based on selected features. - The acoustic input is characterized by the same selected features to provide corresponding points (or vectors) in space that can be compared to the prototype.

詳細に言えば、原型を定義する際、クラスタ装置111
0により点のセットをそれぞれのクラスタとして群化す
る。クラスタを形成する方法は、音声に適用される(ガ
ウス分布のような)確率分布に基づいている。各クラス
タの原型は、(クラスタの中心軌跡または他の特徴に関
連して)原型装置1112により生成される。生成され
た原型および音響入力(どちらも同じ特徴が選択されて
いる)は記号化装置1114に入る。記号化装置111
4は比較手順を実行し、その結果、特定の音響入力にラ
ベルを割当てる。
Specifically, when defining the prototype, the cluster device 111
0 groups the sets of points into their respective clusters. The method of forming clusters is based on probability distributions (such as Gaussian distributions) applied to speech. A prototype for each cluster is generated by a prototype device 1112 (in relation to the center locus or other characteristics of the cluster). The generated prototype and the acoustic input (both with the same features selected) enter the encoder 1114. Symbolization device 111
4 performs a comparison procedure, resulting in assigning a label to a particular acoustic input.

適切な特徴の選択は、音響(音声)波入力を表わすラベ
ルを取出す際の重要な要素である。ここに説明する音響
プロセッサは改良された特徴選択装置110日を含む。
Selection of appropriate features is an important factor in retrieving labels representing acoustic (speech) wave inputs. The acoustic processor described herein includes an improved feature selection device 110.

この音響プロセッサに従って、聴覚モデルが取出され、
音声認識システムの音響プロセッサで使用される。聴覚
モデルを、第7図により説明する。
According to this acoustic processor, an auditory model is retrieved,
Used in acoustic processors of speech recognition systems. The auditory model will be explained with reference to FIG.

第7図は人間の内耳の部分を示す。詳細に述べれば、白
毛細胞1200と、液体を含有する溝1204に広がる
末端部1202が詳細に示されている。また、白毛細胞
1200から上流には、外系細胞1206と、溝120
4に広がる末端部1208が示されている。白毛細胞1
200と外系細胞1206には、脳に情報を伝達する神
経が結合している。特に、ニューロンが電気化学的変化
を受け、電気パルスが神経に沿って脳に運ばれ、処理さ
れることになる。電気化学的変化は、基底膜1210の
機械的運動により刺激される。
FIG. 7 shows a portion of the human inner ear. In particular, a white hair cell 1200 and a distal end 1202 extending into a fluid-containing groove 1204 are shown in detail. In addition, upstream from the white hair cell 1200, there are extrinsic cells 1206 and grooves 120.
A four-way distal end 1208 is shown. white hair cell 1
Nerves that transmit information to the brain are connected to the extracellular cells 200 and 1206. Specifically, neurons undergo electrochemical changes, causing electrical pulses to be carried along nerves to the brain for processing. Electrochemical changes are stimulated by mechanical movement of basement membrane 1210.

基底膜1210が音響波入力の周波数分析器として作用
し、基底膜1210に沿った部分がそれぞれの臨界周波
数バンドに応答することは従来から知られている。対応
する周波数バンドに応答する基底膜1210のそれぞれ
の部分は、音響波形入力を知覚する音量に影響を与える
。すなわち、トーンの音量は、類似のパワーの強度の2
つのトーンが同じ周波数バンドを占有する場合よりも、
2つのトーンが別個の臨界周波数バンドにある場合の方
が大きく知覚される。基底膜1210により規定された
22の等級の臨界周波数バンドがあることが分っている
It is known in the art that basilar membrane 1210 acts as a frequency analyzer of acoustic wave input, with sections along basilar membrane 1210 responding to respective critical frequency bands. Each portion of basilar membrane 1210 that responds to a corresponding frequency band influences the perceived loudness of the acoustic waveform input. That is, the volume of a tone is equal to 2 of similar power intensity.
than if two tones occupy the same frequency band.
It is perceived as louder when the two tones are in separate critical frequency bands. It has been found that there are 22 orders of critical frequency bands defined by the basement membrane 1210.

基底膜1210の周波数レスポンスに合わせて、本発明
は良好な形式で、臨界周波数バンドの一部または全部に
入力された音響波形を物理的に定め、次いで、規定され
た臨界周波数バンドごとに別個に信号成分を検査する。
In accordance with the frequency response of the basilar membrane 1210, the present invention advantageously physically defines the input acoustic waveform in some or all of the critical frequency bands and then separately for each defined critical frequency band. Examine signal components.

この機能は、FFT装置1106(第6図)からの信号
を適切に濾波し、検査された臨界周波数バンドごとに特
徴選択装置1108に別個の信号を供給することによシ
行なわれる。
This function is accomplished by suitably filtering the signal from FFT unit 1106 (FIG. 6) and providing a separate signal to feature selection unit 1108 for each critical frequency band examined.

別個の入力も、時間窓発生器1104により(できれば
25.6ミリ秒の)時間フレームにブロックされる。そ
れゆえ、特徴選択装置1108は22の信号を含むこと
が望ましい。これらの信号の各々は、時間フレームごと
に所与の周波数バンドの音の強さを表わす。
The separate inputs are also blocked into time frames (preferably 25.6 milliseconds) by the time window generator 1104. Therefore, feature selector 1108 preferably includes 22 signals. Each of these signals represents the sound intensity of a given frequency band for each time frame.

信号は、第8図の通常の臨界バンド・フィルタ1600
によシ濾波することが望ましい。次いで、信号は別個に
、音量の変化を周波数の関数として知覚する音量等化変
換器1302により処理する。
The signal is passed through a conventional critical band filter 1600 in FIG.
It is desirable to perform filtering. The signal is then processed separately by a volume equalization transformer 1302 that perceives changes in volume as a function of frequency.

ちなみに、1つの周波数で所与のdBレベルの第1のト
ーンの知覚された音量は、もう1つの周波数で同じdB
レベルの第2のトーンの音量と異なることがある。音量
等化変換器1302は、経験的なデータに基づき、それ
ぞれの周波数バンドの信号を変換して各々が同じ音量尺
度で測定されるようにする。例えば、音量等化変換器1
602は、1936年のフレクチャおよびムンソン(F
letcherand  Munson )の研究に多
少変更を加えることにより、音響エネルギを同等の音量
に写像することができる。第9図は前記研究に変更を加
えた結果を示す。第9図により、40dBで1KHzの
トーンは60dBで100 Hzのトーンの音量レベル
に対応することが分る。
Incidentally, the perceived loudness of the first tone of a given dB level at one frequency is the same dB level at another frequency.
The level may be different from the volume of the second tone. A volume equalization converter 1302 transforms the signals of each frequency band so that each is measured on the same loudness scale based on empirical data. For example, volume equalization converter 1
602 is the 1936 Flexure and Munson (F
With some modifications to the work of Letcherand Munson), acoustic energy can be mapped to equivalent loudness. Figure 9 shows the results of a modification to the previous study. From FIG. 9, it can be seen that a 1 KHz tone at 40 dB corresponds to the volume level of a 100 Hz tone at 60 dB.

音量等化変換器1302は、第9図に示す曲線に従って
音量を調整し、周波数と無関係に同等の音量を生じさせ
る。
The volume equalization converter 1302 adjusts the volume according to the curve shown in FIG. 9, producing the same volume regardless of frequency.

周波数への依存性のほか、第9図で特定の周波数を調べ
れば明らかなように、パワーの変化は音量の変化に対応
しない。すなわち、音の強度、すなわち振幅の変動は、
すべての点で、知覚された音量の同様の変化に反映され
ない。例えば、1゜OHzの周波数では、110dB付
近における10dBの知覚された音量変化は、20dB
付近における10dBの知覚された音量変化よシもずっ
と大きい。この差は、所定の方法で音量を圧縮する音量
圧縮装置1304により処理する。音量圧縮装置160
4は、ホン単位の音量振幅測定値をソーン単位に置換え
ることにより、パワーPをその立方根P115に圧縮す
ることができる。
In addition to the dependence on frequency, changes in power do not correspond to changes in volume, as can be seen by examining specific frequencies in Figure 9. In other words, the variation in sound intensity, or amplitude, is
At all points not reflected in similar changes in perceived loudness. For example, at a frequency of 1° OHZ, a 10 dB perceived volume change near 110 dB is a 20 dB
Even a 10 dB perceived volume change in the vicinity is much larger. This difference is processed by a volume compression device 1304, which compresses the volume in a predetermined manner. Volume compression device 160
4 can compress the power P to its cube root P115 by replacing the volume amplitude measurement value in units of phons with units of sones.

第10図は、経験的に決められた既知のホン対ソーンの
関係を示す。ソーン単位の使用により、本発明のモデル
は大きな音声信号振幅でもほぼ正確な状態を保持する。
FIG. 10 shows the known empirically determined Hong-to-Thorn relationship. Through the use of sone units, our model remains nearly accurate even at large audio signal amplitudes.

1ソーンは、IKHzのトーンで40dBの音量と規定
されている。
One sone is defined as an IKHz tone with a volume of 40 dB.

第8図には、新規の時変レスポンス装置1606が示さ
れている。この装置は、各臨界周波数バンドに関連した
音量等化および音量圧縮信号により動作する。詳細に述
べれば、検査された周波数バンドごとに、神経発火率f
が各時間フレームで決められる。発火率fは本発明の音
響プロセッサに従って次のように定義される。
In FIG. 8, a novel time-varying response device 1606 is shown. The device operates with volume equalization and volume compression signals associated with each critical frequency band. Specifically, for each frequency band examined, the neural firing rate f
is determined for each time frame. The firing rate f is defined according to the acoustic processor of the present invention as follows.

f=(So+DL)n           (i)た
だし、nは神経伝達物質の量;Soは音響波形入力と無
関係に神経発火にかかわる自発的な発火定数;Lは音量
測定値;Dは変位定数である。
f=(So+DL)n (i) where n is the amount of neurotransmitter; So is the spontaneous firing constant involved in nerve firing independent of acoustic waveform input; L is the measured sound volume; D is the displacement constant.

SO・nは音響波入力の有無に無関係に起きる自発的な
神経発火率に相当し、DLnは音響波入力による発火率
に相当する。
SO·n corresponds to the spontaneous neural firing rate that occurs regardless of the presence or absence of acoustic wave input, and DLn corresponds to the firing rate due to acoustic wave input.

重要な点は、本発明では、nの値は次式により時間とと
もに変化するという特徴を有することである。
An important point is that the present invention has the characteristic that the value of n changes with time according to the following equation.

dn/dt=Ao−(So+Sh+DL)n   (2
)ただし、Aoは補充定数;Shは自発的な神経伝達物
質減衰定数である。式(2)に示す新しい関係は、神経
伝達物質が一定の割合Aoで生成されながら、(、)減
衰(Sh−n)、(b)自発的な発火(Soon)、お
よび(c)音響波入力による神経発火(DL−n)によ
り失われることを考慮している。これらのモデル化され
た現象は第7図に示された場所で起きるものと仮定する
dn/dt=Ao-(So+Sh+DL)n (2
) where Ao is the recruitment constant; Sh is the spontaneous neurotransmitter decay constant. The new relationship shown in equation (2) shows that while neurotransmitters are generated at a constant rate Ao, (,) decay (Sh-n), (b) spontaneous firing (Soon), and (c) acoustic waves It takes into consideration that it is lost due to neural firing (DL-n) due to input. It is assumed that these modeled phenomena occur at the locations shown in FIG.

式(2)で明らかなように、神経伝達物質の欠食および
次発火車が少なくとも神経伝達物質の現量の自乗に比例
しており、本発明の音響プロセッサが非線形であるとい
う事実を示している。すなわち、状、態(t+Δt)で
の神経伝達物質の量は、状態(t+dn/dt・Δt)
での神経伝達物質の量に等しい。よって、 n (t+Δt ) =n (t)+(a n/d t
 )−Δt(3)が成立する。
As is clear from equation (2), the deprivation and subsequent firing of neurotransmitters are at least proportional to the square of the current amount of neurotransmitters, indicating the fact that the acoustic processor of the present invention is nonlinear. . In other words, the amount of neurotransmitter in the state (t+Δt) is the state (t+dn/dt・Δt)
equal to the amount of neurotransmitters in Therefore, n (t+Δt) = n (t)+(a n/d t
)−Δt(3) holds true.

式(i)、(2)および(6)は、時変信号分析器の動
作を表わす。時変信号分析器は、聴覚器官系が時間に適
応性を有し、聴神経の信号が音響波入力と非直線的に関
連させられるという事実を示している。ちなみに、本発
明の音響プロセッサは、神経系統の明白な時間的変化に
よりよく追随するように、音声認識システムで非線形信
号処理を実施する最初のモデルを提供するものである。
Equations (i), (2) and (6) represent the operation of the time-varying signal analyzer. Time-varying signal analyzers point to the fact that the auditory system is time-adaptive, and the signals of the auditory nerve are non-linearly related to the acoustic wave input. Incidentally, the acoustic processor of the present invention provides the first model for implementing nonlinear signal processing in a speech recognition system to better track the apparent temporal changes in the neural system.

式(i)および(2)において未知の項数を少なくする
ため、本発明では、一定の音量りに適用される次式を用
いる。
In order to reduce the number of unknown terms in equations (i) and (2), the present invention uses the following equation, which is applied to a constant volume level.

s o +s h+DL= 1/T         
(4)ただし、Tはオーディオ波入力が生成された後、
聴覚レスポンスがその最大値の37%に低下するまでの
時間の測定値である。Tは、音量の関数であり、本発明
の音響プロセッサによシ、種々の音量レベルのレスポン
スの減衰を表示する既知のグラフから取出す。すなわち
、一定の音量のトーンが生成されると、最初、高いレベ
ルのレスポンスが生じ、その後、レスポンスは時定数T
により、安定した状態のレベルに向って減衰する。音響
波入力がない場合、T=Toである。これは50ミリ秒
程度である。音量がLmaxの場合、T=Tmaxであ
る。これは30ミリ秒程度である。Ao=1に設定する
ことにより、1 / (S o + S h )は、L
=0の場合、5センチ秒と決定される。Lが”maxで
、Lmax=20ソーンの場合、次式が成立つ。
s o +s h+DL= 1/T
(4) However, T is after the audio wave input is generated.
It is a measurement of the time until the auditory response drops to 37% of its maximum value. T is a function of loudness and is taken from a known graph that displays the attenuation of response for various loudness levels by the sound processor of the present invention. That is, when a tone of constant volume is generated, there will be an initial high level response, and then the response will vary with the time constant T.
, it decays towards a steady-state level. When there is no acoustic wave input, T=To. This is about 50 milliseconds. When the volume is Lmax, T=Tmax. This is about 30 milliseconds. By setting Ao=1, 1/(S o + S h ) becomes L
= 0, it is determined to be 5 centiseconds. When L is "max" and Lmax=20 sones, the following equation holds true.

S o + S h + D (20) ” 1 / 
30      (5)前記データおよび式により、S
oおよびshは下記に示す式(6)および(7)により
決まる。
S o + S h + D (20) ” 1 /
30 (5) Based on the above data and formula, S
o and sh are determined by formulas (6) and (7) shown below.

S o =DL   /CR+ (DLmaxTOR)
  1) (6)max sh=1/To−8o            (7)
ただし、 f安定状態は、d n / d tがOの場合、所与の
音量での発火率を表わす。
S o =DL/CR+ (DLmaxTOR)
1) (6) max sh=1/To-8o (7)
where f steady state represents the firing rate at a given volume when d n /d t is O.

Rは、音響プロセッサに残っている唯一の変数である。R is the only variable left in the sound processor.

それゆえ、このプロセッサの性能はRを変えるだけで変
更される。すなわち、Rは、性能を変更するのに調整す
ることができる1つのパラメータで、通常は、過渡状態
の効果に対し安定状態の効果を最小限にすることを意味
する。類似の音声入力の場合に出カバターンが一貫性に
欠けることは一般に、周波数レスポンスの相違、話者の
差異、背景雑音ならびに、(音声信号の安定状態部分に
は影響するが過渡部分には影響しない)歪みにより生ず
るから、安定状態の効果を最小限にすることが望ましい
。Rの値は、完全な音声認識システムのエラー率を最適
化するように設定することが望ましい。このようにして
見つかった最適値はR=i、sである。その場合、So
およびshの値はそれぞれ0.0888およびo、 i
 i i 1iであり、Dの値は0.00666が得ら
れる。
Therefore, the performance of this processor is changed simply by changing R. That is, R is one parameter that can be adjusted to change performance, usually meant to minimize steady-state effects versus transient-state effects. Inconsistent output patterns for similar audio inputs are generally caused by differences in frequency response, speaker differences, background noise, and other factors (affecting the steady-state portion of the audio signal but not the transient portion). ) It is desirable to minimize steady-state effects since they are caused by distortion. The value of R is preferably set to optimize the error rate of the complete speech recognition system. The optimal value thus found is R=i,s. In that case, So
and sh values are 0.0888 and o, i, respectively
i i 1i, and the value of D is 0.00666.

第11図は本発明による音響プロセッサの動作の流れ図
である。できれば、20KHでサンプリングされた、2
5.6ミリ秒の時間フレーム中のディジタル化音声は、
ハニング窓1620を通過し、その出力は10ミリ秒間
隔で、DFT1322において2重フーリエ変換される
ことが望ましい。変換出力はブロック1624で濾波さ
れ、少なくとも1つの周波数バンド(できればすべての
臨界周波数バンドか、または少なくとも20のバンド)
の各々にパワー密度出力を供給する。次いで、パワー密
度はブロック1526で、記録された大きさから音量レ
ベルに変換される。この動作は、第9図のグラフの変更
により容易に実行される。その後のプロセスの概要(ブ
ロック1560の限界値更新を含む)は第12図に示さ
れている。
FIG. 11 is a flow diagram of the operation of the acoustic processor according to the present invention. Preferably sampled at 20KH, 2
Digitized audio during a 5.6 ms time frame is
It is passed through a Hanning window 1620, the output of which is preferably double Fourier transformed in a DFT 1322 at 10 millisecond intervals. The transform output is filtered at block 1624 to filter at least one frequency band (preferably all critical frequency bands, or at least 20 bands).
provides a power density output to each of the . The power density is then converted from the recorded loudness to a volume level at block 1526. This operation is easily performed by modifying the graph of FIG. A summary of the subsequent process (including the limit update at block 1560) is shown in FIG.

第12図において、最初に、濾波された周波数バンドm
の各々の感覚限界T、および可聴限界Thがそれぞれ、
120dBおよびOdBになるように設定される(ブロ
ック1340)。その後、音声カウンタ、合計フレーム
・レジスタおよびヒストグラム・レジスタをリセットす
る(ブロック1342)。
In FIG. 12, first, the filtered frequency band m
The sensory limit T and audible limit Th of each of
120 dB and O dB (block 1340). Thereafter, the audio counter, total frame register, and histogram register are reset (block 1342).

ヒストグラムの各々はビン(bln)を含み、ビンの各
々は、(所与の周波数バンドで)パワーまたは類似の測
定値がそれぞれのレンジ内にある間のサンプル数すなわ
ちカウントを表わす。本発明では、ヒストグラムは、(
所与の周波数バンドごとに)音量が複数の音量レンジの
各々の中にある期間のセンチ秒数を表わすことが望まし
い。例えば、第6の周波数バンドでは、10dBと20
dBのパワーの間が20センチ秒の場合がある。同様に
、第20の周波数バンドでは、50dBと60dBの間
に、合計1000’センチ秒のうちの150センチ秒が
ある場合がある。合計サンプル数(すなわちセンナ秒)
およびビンに含まれたカウントから百分位数が取出され
る。
Each of the histograms includes bins (bln), each of which represents the number of samples or counts during which the power or similar measurement (for a given frequency band) is within a respective range. In the present invention, the histogram is (
It is desirable to represent the number of centiseconds during which the volume (for a given frequency band) is within each of a plurality of volume ranges. For example, in the sixth frequency band, 10 dB and 20 dB
There may be 20 centiseconds between dB of power. Similarly, in the 20th frequency band, there may be 150 centiseconds of a total of 1000' centiseconds between 50 dB and 60 dB. Total number of samples (i.e. senna seconds)
and percentiles are taken from the counts contained in the bins.

ブロック1644で、それぞれの周波数バンドのフィル
タ出力のフレームが検査され、ブロック1346で、適
切なヒストグラム(フィルタ当り1つ)中のビンが増分
される。ブロック1648で、振幅が55dBを越える
ビンの合計数がフィルタ(すなわち周波数バンド)ごと
に集計され、音声の存在を示すフィルタ数を決定する、
。 ブロック1650で、音声の存在を示す最小限(例
えば20のうちの6)のフィルタがない場合、ブロック
1644で次のフレームを検査する。音声の存在を示す
十分なフィルタがある場合、ブロック1652で、音声
カウンタを増分する。音声カウンタは、ブロック165
4で音声が10秒間現われ、ブロック1356で新しい
T、およびThの値がフィルタごとに決定されるまで増
分される。
At block 1644, the frame of filter output for each frequency band is examined, and at block 1346, the bins in the appropriate histogram (one per filter) are incremented. At block 1648, the total number of bins whose amplitude exceeds 55 dB is aggregated for each filter (i.e., frequency band) to determine the number of filters that indicate the presence of speech.
. If at block 1650 there are no minimum (eg, 6 out of 20) filters indicating the presence of audio, then at block 1644 the next frame is examined. If there are sufficient filters to indicate the presence of voice, then at block 1652, a voice counter is incremented. The voice counter is block 165
At 4, the audio appears for 10 seconds and is incremented at block 1356 until new T, and Th values are determined for each filter.

所与のフィルタの新しいT、およびThの値は次のよう
に決定される。T、の場合、1oooビンの最上位から
35番目のサンプルを保持するビンのdB値(すなわち
、音量の96.5番目の百分位数)はBIN  と定義
され、T、はT’、=BINH+40dBに設定される
。Thの場合、最下位のビンから(0,01)(ビン総
数−音声カウント)番目の値を保持するビンのdB値が
BINLと定義される。すなわち、BINLは、ヒスト
グラム中の、音声として分類されたものを除いたサンプ
ル数の1%のビンである。ThはTh=BINL−30
dBと定義される。
The new T and Th values for a given filter are determined as follows. For T, the dB value of the bin holding the 35th sample from the top of the 1ooo bin (i.e., the 96.5th percentile of loudness) is defined as BIN, and T, is T', = It is set to BINH+40dB. In the case of Th, the dB value of the bin holding the (0, 01) (total number of bins - voice count) value from the lowest bin is defined as BINL. That is, BINL is a bin of 1% of the number of samples in the histogram excluding those classified as audio. Th is Th=BINL-30
Defined as dB.

第11図のブロック1660および1332で、音の振
幅は、前述のように、限界値を更新し、更新された限界
値に基づいてソー/単位に変換され、圧縮される。ソー
/単位を導入し圧縮する代替方法は、(ビンが増分され
た後)フィルタ振幅” nを取出し、次式によpdBに
変換する。
At blocks 1660 and 1332 of FIG. 11, the amplitude of the sound is updated to the limits, converted to so/units based on the updated limits, and compressed, as described above. An alternative method to introduce and compress so/units is to take the filter amplitude "n" (after the bins have been incremented) and convert it to pdB by:

adB=201og  (a)  10      (
9)次に、フィルタ振幅の各々は、次式により同等の音
量を与えるようにOdBと120dBの間のレンジに圧
縮される。
adB=201og (a) 10 (
9) Each of the filter amplitudes is then compressed to a range between OdB and 120dB to give equivalent loudness by:

ae9’=120(adB−T )/(T −T ) 
 (i0)h、fh 次に 、eq は次式により、音量レベル(ホン単位)
からソー/単位の音量の近似値に変換(40dBでIK
f(zの信号を1に写像)することが望ましい。
ae9'=120(adB-T)/(T-T)
(i0) h, fh Next, eq is the volume level (phone unit) using the following formula.
to an approximation of the volume in so/unit (IK at 40 dB)
It is desirable to map the signal of z to 1.

B L =01q’−30)/4      (i1)次に
、ソー/単位の音量の近似値L は次式で与えられる。
B L =01q'-30)/4 (i1) Next, the approximate value L of the volume in so/unit is given by the following equation.

L  =10(LdB)/20       (i2)
ステップ1334で、L は式(i)および(2)の入
力として使用され、ブロック1335で、周波数バンド
ごとの出力発火率fを決定する。22周波数バンドの場
合、22次元のベクトルが、連続する時間フレームにわ
たる音響波入力を特徴づける。しかしながら、一般に、
20周波数バンドは、メルでスケーリングされた通常の
フィルタ・バンクを用いて検査する。
L = 10 (LdB)/20 (i2)
At step 1334, L is used as an input to equations (i) and (2) to determine the output firing rate f for each frequency band at block 1335. For 22 frequency bands, a 22-dimensional vector characterizes the acoustic wave input over consecutive time frames. However, in general,
The 20 frequency bands are tested using a conventional filter bank scaled by Mel.

ブロック1356で次の時間フレームを処理する前に、
ブロック1667で、nの”次状態”を式(6)に従っ
て決定する。
Before processing the next time frame at block 1356,
At block 1667, the "next state" of n is determined according to equation (6).

前述の音響プロセッサは、発火率fおよび神経伝達物質
量nが大きいDCペデスタルを有する場合の使用につい
ての改善を必要とする。すなわち、fおよびnの式の項
のダイナミックレンジが重要な場合、下記の式を導いて
ペデスタルの高さを下げる。
The acoustic processors described above require improvement for use with DC pedestals where the firing rate f and neurotransmitter content n are large. That is, if the dynamic range of the f and n equation terms is important, the following equation is derived to lower the pedestal height.

安定状態で、かつ音響波入力信号が存在しない(L=0
)場合、式(2)は次のように安定状態の内部状態nl
 について解くことができる。
In a stable state and with no acoustic wave input signal (L=0
), Equation (2) becomes stable-state internal state nl as follows:
can be solved for.

n’  =A/ (S o +S h )      
   (i3)神経伝達物質の量、(i)の内部状態は
、次のように安定状態部分および変動部分として示され
る。
n' = A/ (S o +S h )
(i3) The amount of neurotransmitter, the internal state of (i) is shown as a steady state part and a fluctuating part as follows.

n(t)=n’+n”(t)          (i
4)式(i)および(i4)を結合すると、次のように
発火率が得られる。
n(t)=n'+n''(t) (i
4) Combining equations (i) and (i4) yields the firing rate as follows.

r(t)=(so+n−t、)(n’+n”(t))(
i5)Soon’の項は定数であるが、他のすべての項
は、nの変動部分か、または(D−L)により表わわさ
れた入力信号を含む。爾後の処理は出力ベクトル間の差
の二乗のみに関連するので、定数項は無視される。式(
i5)および(i3)から次式が得られる。
r(t)=(so+nt-t,)(n'+n"(t))(
i5) The term Soon' is constant, but all other terms include a varying part of n or the input signal denoted by (DL). Since further processing concerns only the square of the difference between the output vectors, the constant term is ignored. formula(
The following formula is obtained from i5) and (i3).

fll(t)=(So+DIIL)・〔(nl(t)+
DIILLIA)/(s o+s h )]     
   (i6)式(6)を考慮すると、”次状態”は次
のようになる。
fll(t)=(So+DIIL)・[(nl(t)+
DIILLIA)/(s o+s h )]
(i6) Considering equation (6), the "next state" is as follows.

n(t+Δt )=n ’ (を十Δt)+n’(t+
Δt)  (i7)n(t+Δt)=n”(t)+A 
−(So+Sh+D・L)・(n’十n”(t))  
       (i8)n(t+Δt)=:n”(t)
−(Sh*n”(t)−(So+Ao *LA) @ 
nl1(t) −(Ao −LA@D)/(So+Sh
 )+A。
n(t+Δt)=n'(tenΔt)+n'(t+
Δt) (i7)n(t+Δt)=n”(t)+A
-(So+Sh+D・L)・(n'tenn"(t))
(i8)n(t+Δt)=:n”(t)
-(Sh*n”(t)-(So+Ao*LA) @
nl1(t) −(Ao −LA@D)/(So+Sh
)+A.

−(SoIIAo)+(Sh@Ao))/(So+Sh
)           (i9)式(i9)はすべて
の常数項を無視すれば次のようになる。
−(SoIIAo)+(Sh@Ao))/(So+Sh
) (i9) Equation (i9) becomes as follows if all constant terms are ignored.

n I I (t+△t)= n”(t)(i−8o・
△t)−f”(t)式(i5)および(20)は、それ
ぞれの10ミリ秒時間フレーム中に各フィルタに適用さ
れる出力式および状態更新式を構成する。これらの式の
使用結果は10ミリ秒ごとの20要素のベクトルであり
、このベクトルの各要素は、メルでスケーリングされた
フィルタ・バンクにおけるそれぞれの周波数バンドの発
火率に対応する。
n I I (t+△t)=n”(t)(i-8o・
Δt)-f”(t) Equations (i5) and (20) constitute the output and state update equations applied to each filter during each 10 ms time frame. The results of using these equations is a vector of 20 elements every 10 ms, each element of this vector corresponding to the firing rate of a respective frequency band in the filter bank scaled by Mel.

前述の実施例に関し、第12図の流れ図は、発火率fお
よび”次状態″n(t+Δt)の特別の場合の式をそれ
ぞれ定義する式(i1)および(i6)によシ、f%d
n/dtおよびn(t+Δt)の式を置換える以外は当
てはまる。
With respect to the embodiments described above, the flowchart of FIG.
This applies except that the expressions n/dt and n(t+Δt) are replaced.

それぞれの式の項に特肩の値(すなわち、t。Assign a special value to each equation term (i.e., t.

==5 csec、t L:3csec%Ao= 1、
R=1.5およびL   =20)は他の値に設定する
ことがaX でき、So%shおよびDの項は、他の項が異なった値
に設定されると、それぞれの望ましい値0゜0888.
0.11111、および0.00666とは異なる値に
なる。
==5 csec,t L:3csec%Ao=1,
R = 1.5 and L = 20) can be set to other values, and the So%sh and D terms are set to their respective desired values of 0° when the other terms are set to different values. 0888.
The value is different from 0.11111 and 0.00666.

本発明は種々のソフトウェアまたはハードウェアにより
実施することができる。
The invention can be implemented with a variety of software or hardware.

Flc、  精密マツチング(第4図、第13図)第4
図は一例として精密マツチング音素マシン(Phone
  machine)2000を示す。精密マツチング
音素マシンの各々は、確率的に限定された状態マシンで
あシ、 (a)  複数の状態S、; (b)  複数の遷移tr(Sj 1si):ある遷移
は異なった状態間で、他の遷移は同じ状態間で遷移し、
各遷移は対応する確率を有する;(c)  特定の遷移
で生成しうるラベルごとに対応する実際のラベル確率 を有することを特徴とする。
Flc, Precision matching (Fig. 4, Fig. 13) No. 4
The figure shows a precision matching phoneme machine (Phone) as an example.
machine) 2000. Each precision matching phoneme machine is a stochastically limited state machine, with (a) a plurality of states S; (b) a plurality of transitions tr(Sj 1si): a transition is between different states; Other transitions transition between the same states,
Each transition has a corresponding probability; (c) each transition has a corresponding actual label probability for each label that can be generated at a particular transition.

第4図では、7つの状態81〜S7ならびに13の遷移
tr1〜tr13が精密突合せ音素マシン2000に設
けられ、その中の3つの遷移tr11、tr12および
tr13のパスは破線で示されている。これらの6つの
遷移tr11、tr12およびtr13の各々で、音素
はラベルを生成せずに1つの状態から別の状態に変るこ
とがある。従って、このような遷移はナル遷移と呼ばれ
る。遷移tr1〜tr10に沿って、ラベルを生成する
ことができる。詳細に述べれば、遷移tr1〜tr10
の各々に沿って少なくとも1つのラベルは、そこに生成
される独特の確率を有することがある。遷移ごとに、シ
ステムで生成することができる各ラベルに関連した確率
がある。すなわち、もし選択的に音響チャンネルによシ
生成することができるラベルが200あれば、(ナルで
はない)各遷移はそれに関連した“実際のラベル確率”
を200有し、その各々は、対応するラベルが特定の遷
移で音素により生成される確率に対応する。遷移tr1
の実際のラベル確率は、図示のように、記号Pと、それ
に続くブラケットに囲まれた1〜200の列で表わされ
る。これらの数字の各々は所与のラベルを表わす。ラベ
ル1の場合は、精密マツチング音素マシン2000が遷
移tr1でラベル1を生成する確率P〔1〕がある。種
々の実際のラベル確率は、ラベルおよび対応する遷移に
関連して記憶されている。
In FIG. 4, seven states 81 to S7 and 13 transitions tr1 to tr13 are provided in the precision matching phoneme machine 2000, and the paths of three transitions tr11, tr12 and tr13 are shown by broken lines. In each of these six transitions tr11, tr12 and tr13, a phoneme may change from one state to another without generating a label. Therefore, such a transition is called a null transition. Labels can be generated along transitions tr1 to tr10. In detail, transitions tr1 to tr10
At least one label along each of the labels may have a unique probability of being generated therein. For each transition, there is a probability associated with each label that can be generated by the system. That is, if there are 200 labels that can be selectively generated for acoustic channels, each (non-null) transition has an associated "actual label probability".
200, each of which corresponds to the probability that the corresponding label is produced by a phoneme at a particular transition. transition tr1
The actual label probabilities for are represented by the symbol P followed by a column from 1 to 200 in brackets, as shown. Each of these numbers represents a given label. In the case of label 1, there is a probability P[1] that the precision matching phoneme machine 2000 generates label 1 at transition tr1. Various actual label probabilities are stored in association with labels and corresponding transitions.

ラベルyyy  ・・・のストリングが、所与の音素に
対応する精密マツチング音素マシン2000に提示され
ると、マツチング手順が実行される。精密マツチング音
素マシンに関連した手順について第13図により説明す
る。
When a string with label yyy... is presented to precision matching phoneme machine 2000 corresponding to a given phoneme, the matching procedure is performed. The procedure related to the precision matching phoneme machine will be explained with reference to FIG.

第13図は第4図の音素マシンのトレIJ 2図である
。前記音素マシンの場合のように、このトレリス図も状
態S から状態S7へのナル遷移、状態S から状態S
2への遷移、および状態S1から状態S4への遷移を示
す。他の状態間の遷移も示されている。また、トレリス
図は水平方向に、測定された時刻を示す。開始時確率q
。、およびqlは、音素がその音素の時刻t=toまた
はt=t1のそれぞれにおいて開始時刻を有する確率を
表わす。各開始時刻におけるそれぞれの遷移も示されて
いる。ちなみに、連続する開始(および終了)時刻の間
隔は、ラベルの時間間隔に等しい長さであることが望ま
しい。
FIG. 13 is a diagram of the tray IJ 2 of the phoneme machine shown in FIG. 4. As in the case of the phoneme machine, this trellis diagram also has a null transition from state S to state S7, and from state S to state S.
2 and the transition from state S1 to state S4. Transitions between other states are also shown. Additionally, the trellis diagram shows the measured times in the horizontal direction. Starting probability q
. , and ql represent the probability that a phoneme has a start time at time t=to or t=t1, respectively, for that phoneme. The respective transitions at each start time are also shown. Incidentally, it is desirable that the interval between successive start (and end) times be equal to the time interval between labels.

精密マツチング音素マシン2000を用いて所与の音素
が到来ストリングのラベルにとれ(らいぴったりとマツ
チングされるかを決定する際、その音素の終了時刻分布
を探索して、その音素のマツチング値を決めるのに使用
する。終了時刻分布に依存して精密マツチングを実行す
る方法は、マツチング手順に関して本明細で説明するす
べての音素マシンの実施例に共通である。精密なマツチ
ングを実行するため終了時刻分布を生成する際、精密マ
ツチング音素マシン2000は、正確で複雑な計算を必
要とする。
When determining whether a given phoneme is exactly matched to the label of an incoming string using the precision matching phoneme machine 2000, the ending time distribution of that phoneme is searched to determine the matching value of that phoneme. The method of relying on the end time distribution to perform precision matching is common to all phoneme machine embodiments described herein with respect to the matching procedure. In generating , precision matching phoneme machine 2000 requires precise and complex calculations.

最初に、第16図のトレリス図により、時刻t=toで
開始時刻および終了時刻を得るのに必要な計算について
調べる。第4図に示された音素マシン構造の例の場合は
、下記の確率式が当てはまる。
First, using the trellis diagram of FIG. 16, we will examine the calculations required to obtain the start and end times at time t=to. In the case of the example phoneme machine structure shown in FIG. 4, the following probability equation applies.

P r (S 7、t=to)=qo−T(i→7)+
P r (S 2、t ””” t o )・T(2→
7)+Pr(S3、t=to)・T(3→7)ただし、
Prは確率を表わし、Tは括弧内の2つの状態の間の遷
移確率を表わす。この式は、t=toで終了時刻になる
ことがある3つの状態のそれぞれの確率を示す。更に、
1=1  の終了時刻は、状態S7における現在の生起
例に限定される。
P r (S 7, t=to)=qo−T(i→7)+
P r (S 2, t ””” t o )・T(2→
7) +Pr(S3, t=to)・T(3→7) However,
Pr represents the probability and T represents the transition probability between the two states in parentheses. This equation shows the probability of each of the three states that can result in an end time at t=to. Furthermore,
The end time of 1=1 is limited to the current occurrence in state S7.

次に、終了時刻1=11を調べると、状態s1以外のあ
らゆる状態に関する計算を行なわなければならない。状
態S1は前の音素の終了時刻で開始する。説明の都合上
、状態S4に関する計算だけを示す。
Next, when we check the end time 1=11, we have to perform calculations for every state other than state s1. State S1 starts at the end time of the previous phoneme. For convenience of explanation, only calculations related to state S4 are shown.

S4の場合、計算は次のようになる。For S4, the calculation is as follows.

P r (S 、s、t=t1)=Pr(Sl、t=t
o)・T(i→4)・Pr(yl、1→4゛)十 P r (S 4、t=to)・T(4→4)・Pr(
y   4−)4)     (22)式(22)は、
時刻L=t1で音素マシンが状態s4である確率は下記
の2つの項: (a)  時刻t=toで状態S1である確率K、状態
S1から状態S4への遷移確率を乗じ、更に、生成中の
ストリング中の所与のラベルy が状態S から状態S
4へ遷移する確率を乗じて得た値と、(b)  時刻t
ニt で状態S4である確率に、状態S4からそれ自身
への遷移確率を乗じ、更に、状態S4からそれ自身に遷
移するものとして所毎のラベルy1を生成する確率を乗
じて得た値との和によって決まることを示す。
P r (S, s, t=t1)=Pr(Sl, t=t
o)・T(i→4)・Pr(yl, 1→4゛) 10P r (S 4, t=to)・T(4→4)・Pr(
y 4-)4) (22) Formula (22) is
The probability that the phoneme machine is in state s4 at time L = t1 is determined by the following two terms: (a) The probability K of being in state S1 at time t = to is multiplied by the transition probability from state S1 to state S4, and then the generation For a given label y in the string in state S to state S
The value obtained by multiplying the probability of transition to 4 and (b) time t
The value obtained by multiplying the probability of being in state S4 at nit by the probability of transitioning from state S4 to itself, and further multiplying by the probability of generating a label y1 for each location as transitioning from state S4 to itself. Show that it is determined by the sum of

同様に、(状態S を除く)他の状態に関する計算も実
行され、その音素が時刻1=1  で特定の状態である
対応する確率を生成する。一般に、所与の時刻に対象状
態である確率を決定する際、精密なマツチングは1 (、)  対象状態に導く遷移を生じる前の各状態およ
び前記前の各状態のそれぞれの確率を認識し、(b) 
 前記前の状態ごとに、そのラベル・ストリングに適合
するように、前記前の各状態と現在の状態の間の遷移で
生成しなければならないラベルの確率を表わす値を認識
し、 (c)前の各状態の確率とラベル確率を表わすそれぞれ
の値を組合せて、対応する遷移による対象状態の確率を
与える。
Similarly, calculations for other states (except state S 2 ) are also performed to generate the corresponding probabilities that the phoneme is in the particular state at time 1=1 . In general, in determining the probability of being in a target state at a given time, precise matching is 1 (,) recognizing the respective probability of each state and each previous state before the transition that leads to the target state; (b)
(c) recognizing, for each said previous state, a value representing the probability of a label that must be generated on a transition between each said previous state and the current state to match its label string; The respective values representing the probability of each state and the label probability are combined to give the probability of the target state due to the corresponding transition.

対象状態である全体的な確率は、それに導(すべての遷
移による対象状態確率から決定される。
The overall probability of being in the target state is determined from the target state probabilities due to all transitions derived from it.

状態S7に関する計算は、3つのナル遷移に関する項を
含み、その音素が状態S7で終了する音素により時刻1
=11で開始・終了することを可能にする。
The calculation for state S7 includes terms for three null transitions, and the phoneme ends at time 1 due to the phoneme ending in state S7.
=11 to start and end.

時刻1=1  およびt二t1に関する確率を決定する
場合のように、他の終了時刻の組の確率の決定は、終了
時刻分布を形成するように行なうことが望ましい。所与
の音素の終了時刻分布の値は、所与の音素かどれ位良好
に到来ラベルにマツチングされるかを表示する。
As in the case of determining the probabilities for times 1=1 and t2t1, the determination of probabilities for other sets of end times is preferably performed to form an end time distribution. The value of the end time distribution for a given phoneme indicates how well the given phoneme is matched to the incoming label.

ワードがどれ位良好に到来ラベルにマツチングされるか
を決定する際、そのワードを表わす音素は順次に処理さ
れる。各音素は確率値の終了時刻分布を生成する。音素
のマツチング値は、終了時刻確率を合計し、その合計の
対数をとることにより得られる。次の音素の開始時刻分
布は終了時刻分布を正規化することにより引出される。
In determining how well a word matches an incoming label, the phonemes representing the word are processed sequentially. Each phoneme generates an end time distribution of probability values. The matching value of a phoneme is obtained by summing the end time probabilities and taking the logarithm of the sum. The start time distribution of the next phoneme is derived by normalizing the end time distribution.

この正規化では、例えば、それらの値の各々を、それら
の合計で割ることによりスケーリングし、スケーリング
された値の合計が1になるようにする。
This normalization involves, for example, scaling each of the values by dividing them by their sum, such that the scaled values sum to one.

所与のワードまたはワード・ストリングの検査すべき音
素数りを決定する方法が少なくとも2つある。深さ優先
方法では、計算は基本形式に沿って行なう(連続する音
素の各々により連続して小計を計算する)。この小計が
それに沿った所与の音素位置の所定の限界値以下である
と分った場合、計算は終了する。もう1つの方法、幅優
先方法では、各ワードにおける類似の音素位置の計算を
行なう。計算は、各ワードの第1の音素の計算、続いて
各ワードの第2の音素の計算というように、順次に行な
う。幅優先方法では、それぞれのワードの同数の音素に
沿った計算値は、相対的に同じ音素位置で比較する。い
ずれの方法でも、マツチング値の最大の和を有するワー
ドが、求めていた目的ワードである。
There are at least two ways to determine the number of phonemes to test for a given word or string of words. In depth-first methods, calculations follow a basic format (calculating subtotals for each successive phoneme in succession). If this subtotal is found to be less than or equal to a predetermined limit for a given phoneme position along it, the calculation ends. Another method, the breadth-first method, involves calculating similar phoneme positions in each word. The calculations are performed sequentially, starting with the first phoneme of each word, followed by the second phoneme of each word, and so on. In the breadth-first method, calculations along the same number of phonemes in each word are compared at the same relative phoneme position. In either method, the word with the largest sum of matching values is the desired target word.

精密なマツチングはAPAL(アレイ・プロセッサ・ア
センブリ言語)で実現されている。これは、フローティ
ング・ポイント・システムズ社(Floating  
Po1nt  Systems、Inc、)製のアセン
ブラ190Lである。
Precise matching is realized in APAL (Array Processor Assembly Language). This is from Floating Point Systems, Inc.
It is an assembler 190L manufactured by Polnt Systems, Inc.

精密マツチングは、実際のラベル確率(すなわち、所与
の音素が所与の遷移で所与のラベルyを生成する確率)
、音素マシンごとの遷移確率、および所与の音素が所定
の開始時刻後の所与の時刻で所与の状態である確率の各
々を記憶するためにかなりのメモリを必要とする。前述
の19OLは、終了時刻、できれば終了時刻確率の対数
和に基づいたマツチング値、前に生成された終了時刻確
率に基づいた開始時刻、およびワード中の順次音素のマ
ツチング値に基づいたワード・マツチング得点のそれぞ
れの計算をするようにセットアツプされる。更に、精密
なマツチングは、マツチング手順の末尾確率を計算する
ことが望ましい。末尾確率はワードとは無関係に連続す
るラベルの尤度を測定する。簡単な実施例では、所与の
末尾確率はもう1つのラベルに続くラベルの尤度に対応
する。
Precise matching calculates the actual label probability (i.e. the probability that a given phoneme produces a given label y at a given transition)
, the transition probabilities for each phoneme machine, and the probability that a given phoneme is in a given state at a given time after a given start time, each of which requires significant memory to store. The aforementioned 19OL performs word matching based on an end time, preferably a matching value based on the logarithmic sum of end time probabilities, a start time based on a previously generated end time probability, and a matching value of sequential phonemes in the word. It is set up to calculate each score. Furthermore, for precise matching, it is desirable to calculate the tail probabilities of the matching procedure. Tail probability measures the likelihood of consecutive labels independent of words. In a simple example, a given tail probability corresponds to the likelihood of a label following another label.

この尤度は、例えば、成るサンプル音声により生成され
たラベルのストリングから容易に決定される。
This likelihood is easily determined, for example, from a string of labels generated by a sample of speech.

それ故、精密なマツチングでは、基本形態、マルコフ・
モデルの統計値、および末尾確率を含むのに十分な記憶
装置を備える。各ワードが約10の音素を含む5000
ワードの語粟の場合、基本形態は5000X10の記憶
量を必要とする。(音Xごとにマルコフ・モデルを有す
る)70の別個の音素、200の別個のラベル、および
任意のラベルが生成される確率を有する10の遷移があ
る場合、統計値は70X10X200の記憶ロケーショ
ンを必要とすることになる。しかしながら、音素マシン
は5つの部分(開始部分、中間部分および終了部分)に
分割され、統計表はそれに対応することが望ましい。(
3つの自己ループの1つが連続する部分に含まれること
が望ましい。)従って、記憶要求は70X3X20OK
減少する。
Therefore, in precise matching, the basic form, Markov
Provide sufficient storage to contain model statistics and tail probabilities. 5000, each word containing about 10 phonemes
In the case of word millet, the basic form requires 5000x10 storage. If there are 70 distinct phonemes (with a Markov model for each sound This will be the case. However, it is desirable that the phoneme machine is divided into five parts (starting part, middle part and ending part) and the statistical table corresponds thereto. (
Preferably, one of the three self-loops is included in a continuous section. ) Therefore, the storage request is 70X3X20OK
Decrease.

末尾確率に関しては、200X200の記憶ロケーショ
ンが必要である。この配列では、50にの整数および8
2にの浮動小数点の記憶領域があれは満足に動作する。
For tail probabilities, 200×200 storage locations are required. In this array, the integers to 50 and 8
It works satisfactorily with 2 floating point storage areas.

精密マツチングは、フィニーム型ではなくフィーニーム
型の音素の使用により実現することができる。フィーニ
ーム型音素は、最初の状態からそれ自身に戻る非ナル遷
移、最初の状態から次の状態に移る非ナル遷移、ならび
に最初の状態から次の状態に移るナル遷移(ラベルを生
成しない遷移)を有する2状態マルコフ・モデルである
ことが望ましい。各音素マシンは、音標型の要素に対応
する代りに、フィーニーム・アルファベット(集合)の
200のフィーニームの中の1つに対応する。
Precise matching can be achieved through the use of fineme-type phonemes rather than fineme-type phonemes. A fee-neem phoneme has non-null transitions from its initial state back to itself, non-null transitions from its first state to its next state, and null transitions (transitions that do not produce a label) from its first state to its next state. Preferably, it is a two-state Markov model with Each phoneme machine, instead of corresponding to an element of a phonetic type, corresponds to one of the 200 feenemes of the feeneme alphabet (set).

所与のフィーニームに対応する音素マシンにおける各遷
移は、それに関連した確率を有し、各非ナル遷移には複
数のラベル確率がある。各ラベル確率は、対応する遷移
で特定のラベル(すなわちフィーニーム)を生成する所
与のフィーニームの確率に対応する。これらの統計値は
、既知のワードまたは音−既知のフィーニーム型音素の
シーケンスで表わす一全発声する整形期間中に取出され
る。
Each transition in the phoneme machine corresponding to a given feeneme has a probability associated with it, and each non-null transition has multiple label probabilities. Each label probability corresponds to the probability of a given fineme producing a particular label (i.e., fineme) at the corresponding transition. These statistics are taken during the shaping period of a complete utterance representing a known word or sound--a sequence of known feeneem-type phonemes.

整形中に生成されたラベルは、統計値とともにフィーニ
ーム型音素を記憶する際に使われる。
The labels generated during formatting are used to store fee-neem phonemes along with statistical values.

Fld、基本高速マツチング(第14図〜第16図)精
密マツチングの計算には高い費用がかかるから、精度を
あまり犠牲にしないで所要の計算を少なくする基本高速
マツチングおよび代替高速マツチングを行なう。高速マ
ツチングは精密マツチングに関連して使用することが望
ましい。高速マツチングは、語粟から見込みのある候補
ワードを取出してリストに載せ、精密マツチングは大抵
の場合、このリストの候補ワードで実行される。
Fld, Basic Fast Matching (FIGS. 14-16) Since precise matching calculations are expensive, we perform basic fast matching and alternative fast matching that reduce the required calculations without sacrificing too much accuracy. High speed matching is preferably used in conjunction with precision matching. Fast matching takes likely candidate words from a list of words and places them on a list, and precise matching is often performed on candidate words from this list.

高速概算音響マツチング手法は前記米国特許出願第06
7672974号(i984年11月19日出願)に記
載されている。高速概算音響マツチングでは、各音素マ
シンは、所与の音素マシンにおけるすべての遷移でラベ
ルごとの実際のラベル確率を特定の置換え値と取替える
ごとにより簡略化することが望ましい。特定の置換え値
は、その置換え値を使用する場合に所与の音素のマツチ
ング値が、その置換え値が実際のラベル確率を取替えな
い場合の精密マツチングにより得られるマツチング値を
過大評価するように選択することが望ましい。この条件
を保証する1つの方法は、所与の音素マシン中の所与の
ラベルに対応する確率がどれもその置換え値よりも太き
(ないように各々の置換え値を選択する方法である。音
素マシン中の実際のラベル確率を、対応する置換え値と
取替えることにより、ワードのマツチング得点を決定す
る際の所要計算量を大幅に減少することができる。更に
置換え値は過大評価することが望ましいので、その結果
得られたマツチング得点は、前に置換えずに決定された
場合よりも少な(なる。
A fast approximate acoustic matching method is described in the above-mentioned U.S. Patent Application No. 06
No. 7672974 (filed on November 19, 1984). In fast approximate acoustic matching, each phoneme machine is preferably simplified by replacing the actual label probability for each label with a particular replacement value at every transition in a given phoneme machine. A particular replacement value is chosen such that when using that replacement value, the matching value for a given phoneme overestimates the matching value obtained by precision matching if the replacement value does not replace the actual label probability. It is desirable to do so. One way to guarantee this condition is to choose each replacement value such that none of the probabilities corresponding to a given label in a given phoneme machine are greater than its replacement value. By replacing the actual label probabilities in the phoneme machine with the corresponding replacement values, the amount of computation required in determining the matching score for a word can be significantly reduced.Furthermore, the replacement values are preferably overestimated. Therefore, the resulting matching score will be less than if it were previously determined without substitution.

マルコフ・モデルを有する言語デコーダで音響マツチン
グを実行する特定の実施例において、各音素は、整形に
より、 (a)  複数の状態および状態間の遷移パス、(bl
  確率T(i→J)−その各々は、現在の状態S、が
与えられると状態S、に遷移する確率を1      
                 j表わす(ただし
、S、とS、は同じ状態の場合もI      J あれば異なった状態の場合もある)−を有する遷移tr
(S、Is、)、 」     1 (e)  実際のラベル確率(各々の実際のラベル確率
P(y、11−+j)は所与の音素マシンにより、1つ
の状態から次の状態への所与の遷移においてラベルy 
 (kはラベルを識別する記号)を生成に する確率を表わす)を生じることを特徴とする。
In a particular embodiment of performing acoustic matching in a language decoder with a Markov model, each phoneme is transformed by shaping into (a) multiple states and transition paths between states, (bl
probabilities T(i→J) - each of which has a probability of transitioning to state S, given the current state S, by 1
j (however, S and S may be in the same state or in different states if I J ) -
(S, Is,), 1 (e) Actual label probability (Each actual label probability P(y, 11−+j) is determined by a given phoneme machine from one state to the next At the transition of label y
(k represents the probability of generating a symbol for identifying a label).

各音素マシンは、 (a)前記各音素マシン中の各ykに1つの特定の値P
′(yk浚割当てる手段、 (bl  所与の音素マシン中の各遷移で各々の実際の
出力確率P (y w l i→j)を、対応するyk
に割当てられた1つの特定の値P′(yk)に取替える
手段 を含む。置換え値は、少なくとも、特定の音素マシン中
の任意の遷移で対応するykラベルの実際の最大ラベル
確率の大きさであることが望ましい。高速マツチングの
実施例は、到来ラベルに対応する語粟で最も起こりうる
ワードとして選択された10乃至100程度の候補ワー
ドのリスJJ−形成するように使用される。候補ワード
は言語モデルおよび精密なマツチングに従属することが
望ましい。精密なマツチングで考慮するワード数を、語
檗中のワードの約1%に切詰めることにより、計算費用
は、精度を維持しながら大幅に減少される。
Each phoneme machine has: (a) one particular value P for each yk in each phoneme machine;
′(yk) Assigning means, (bl) At each transition in a given phoneme machine, each actual output probability P (y w l i→j) is assigned to the corresponding yk
P′(yk) is assigned to P′(yk). Preferably, the replacement value is at least the magnitude of the actual maximum label probability of the corresponding yk label at any transition in the particular phoneme machine. A fast matching embodiment is used to form a list of on the order of 10 to 100 candidate words JJ- selected as the most likely words in the words corresponding to the incoming label. Preferably, candidate words are subject to a language model and precise matching. By cutting down the number of words considered in precise matching to about 1% of the words in the vocabulary, computational costs are significantly reduced while maintaining accuracy.

基本高速マツチングは、すべての遷移における所与のラ
ベルの実際のラベル確率を1つの値と置換えることによ
り簡略化し、所与のラベルを所与の音素マシンで生成す
ることができる。すなわち、ラベルが生じる確率金有す
る所与の音素マシンにおける遷移とは無関係に、その確
率を、1つの特定の値に置換える。この値は、少なくと
も、所与の音素マシン中の任意の遷移で生ずるラベルの
最大の確率の大きさの過大評価値であることが望ましい
The basic fast matching can be simplified by replacing the actual label probability of a given label at every transition with a single value, allowing the given label to be generated by a given phoneme machine. That is, regardless of the transition in a given phoneme machine that the label has a probability of occurring, we replace that probability with one particular value. Preferably, this value is at least an overestimate of the maximum probability magnitude of a label occurring at any transition in a given phoneme machine.

ラベル確率置換え値を、所与の音素マシン中の所与のラ
ベルの実際のラベル確率の最大値として設定することに
より、基本高速マツチングにより生成されたマツチング
値が少なくとも、精密なマツチングの使用から生じるよ
うなマツチング値と園じ大きさであることが保証される
。このように、基本高速マツチングは一般に各音素のマ
ツチング値を過大評価するので、より多くのワードが一
般に、候補ワードとして選択される。精密なマツチング
により候補とみなされるワードも、基本高速マツチング
に従って合格する。
By setting the label probability replacement value as the maximum value of the actual label probabilities for a given label in a given phoneme machine, it is possible to ensure that the matching values produced by basic fast matching result from the use of at least precise matching. It is guaranteed that the matching value and the matching size are as follows. Thus, more words are generally selected as candidate words because basic fast matching generally overestimates the matching value of each phoneme. Words that are considered candidates through precise matching also pass according to basic high-speed matching.

第14図は基本高速マツチング音素マシン3000を示
す。ラベル(記号およびフィーニームとも呼ばれる)は
開始時刻分布と一緒に基本高速マツチング音素マシン3
000に入る。開始時刻分布およびラベル・ストリング
の入力は、前述の精密マツチング音素マシンの人力に似
ている。開始時刻は、時には、複数の時刻にわたる分布
ではないことがあるが、その代り、例えば、沈黙間隔に
続く正確な(音素開始)時刻を表わすこともある。
FIG. 14 shows a basic high-speed matching phoneme machine 3000. Labels (also called symbols and fee-neems) along with start time distributions are used in the Basic Fast Matching Phoneme Machine 3.
Enters 000. The input of the start time distribution and label string is similar to the manual input of the precision matching phoneme machine described above. The start time is sometimes not distributed over multiple times, but instead represents a precise (phoneme onset) time following a silence interval, for example.

しかしながら、音声が連続している場合、終了時刻分布
は、(後に詳細に説明するように)開始時刻分布を形成
するのに用いられる。基本高速マツチング音素マシン3
000は、終了時刻分布を生成するとともに、生成され
た終了時刻分布からの特定の音素のマツチング値を生成
する。ワードのマツチング得点は、構成する音素(少な
くともそのワードの最初のh音素)のマツチング値の和
として定義される。
However, if the audio is continuous, the end time distribution is used to form the start time distribution (as explained in more detail below). Basic high-speed matching phoneme machine 3
000 generates an end time distribution and also generates a matching value for a specific phoneme from the generated end time distribution. The matching score of a word is defined as the sum of the matching values of the constituent phonemes (at least the first h phoneme of the word).

第15図は基本高速マツチング計算を示す。基本高速マ
ツチング計算は、開始時刻分布、音素により生成された
ラベルの数または長さ、および各々のラベルy に関連
した置換え値P ’ (y k)たけに関連する。所与
の音素マシン中の所与のラベルの実際のラベル確率をす
べて、対応する置換え値と取替えることにより、基本高
速マツチングは、遷移確率を長さ分布確率と取替えるの
で、(所与の音素マシンで遷移ごとに異なることがある
)実際のラベル確率、ならびに所与の時刻に所与の状態
にある確率を含むことが不要になる。
FIG. 15 shows the basic high-speed matching calculation. The basic fast matching calculation involves only the starting time distribution, the number or length of labels generated by the phoneme, and the replacement value P'(yk) associated with each label y. By replacing all the actual label probabilities for a given label in a given phoneme machine with the corresponding replacement values, the basic fast matching replaces transition probabilities with length distribution probabilities (for a given phoneme machine It becomes unnecessary to include the actual label probabilities (which may be different for each transition) as well as the probability of being in a given state at a given time.

ちなみに、長さ分布は精密なマツチング・モデルから決
定される。詳細に説明すれば、長さ分布の長さごとに、
この手順は、各状態を個々に検査し、状態ごとに、それ
ぞれの遷移パスを決定することが望ましい。それにより
、現に検査された状態は、 (a)  特定のラベルの長さを与えられると、(b)
  遷移に沿った出力と無関係に、生ずることがある。
Incidentally, the length distribution is determined from a precise matching model. To explain in detail, for each length of the length distribution,
This procedure preferably examines each state individually and determines the respective transition path for each state. Thereby, the actually examined state is (a) given a particular label length, (b)
This can occur regardless of the output along the transition.

各々の目的状態への特定の長さのすべての遷移パスの確
率は合計され、次いで、すべての目的状態の合計は加算
され、分布中の所与の長さの確率を表わす。以上の手順
は各々の長さについて反復、実行される。良好なマツチ
ング手順の形式に従って、これらの計算は、マルコフ・
モデリングの技術で知られているようにトレリス図に関
して行なわれる。トレリス構造に沿って分枝を共有する
遷移パスの場合、共通分枝ごとの計算は一度だけ行なえ
ばよく、その結果は共通分枝を含む各々のバスに加えら
れる。
The probabilities of all transition paths of a particular length to each destination state are summed, and then the sums of all destination states are summed to represent the probability of a given length in the distribution. The above procedure is repeated for each length. Following the form of a good matching procedure, these calculations are Markovian
This is done on trellis diagrams, as is known in the art of modeling. For transition paths that share branches along a trellis structure, the computations for each common branch need only be performed once, and the results are added to each bus containing the common branch.

第15図において、例として2つの制限が含まれている
。最初に、音素により生成されたラベルの長さは、それ
ぞれ確率1 1 1 および0゛   1ゝ   2 16を有する0、1.2、または6である場合がある。
In FIG. 15, two restrictions are included as an example. Initially, the length of labels generated by phonemes may be 0, 1.2, or 6 with probabilities 1 1 1 and 0゛ 1ゝ 2 16, respectively.

開始時刻も制限され、それぞれが確率q。、ql、q2
およびq3を有する4つの開始時刻だけが許される。す
なわち、L(io、11.12.1 )およびQ(qo
、ql、q2、q3)が仮定される。これらの制限によ
り、目的音素の終了分布は下記の式のように定義される
The start times are also limited, each with probability q. , ql, q2
Only four start times with and q3 are allowed. That is, L(io, 11.12.1 ) and Q(qo
, ql, q2, q3) are assumed. Due to these restrictions, the end distribution of the target phoneme is defined as shown in the following equation.

Φo=qo1゜ Φ1=q110+q011p1 Φ2=q210」−q111p2+q012p1p2Φ
3””q310+q211p3+Q112p2p3+9
016p1p2p3 Φ4=q311p4+q212p3p4+q113p2
p3p4Φ5=q312p4p5+q213p6p4p
5Φ6=9513p4p5pに れらの式を調べると、Φ3は4つの開始時刻の各々に対
応する項を含んでいることが分る。その第1項は音素が
時刻1=13で開始し、かつ長さ0のラベル(音素は開
始すると同時に終了する)を生成する確率を表わす。第
2項は音素が時刻t” t 2で開始し、かつラベルの
長さが1であり、かつラベル3がその音素により生成さ
れる確率を表わす。第6項は音素が時刻t=t1で開始
し、・かつラベルの長さが2(すなわちラベル2および
5)であり、かつラベル2および3がその音素により生
成される確率を表わす。同様に、第4項は音素が時刻t
=toで開始し、かつラベルの長さが3であり、かつ3
つのラベル1.2および3がその音素により生成される
確率を表わす。
Φo=qo1゜Φ1=q110+q011p1 Φ2=q210''-q111p2+q012p1p2Φ
3””q310+q211p3+Q112p2p3+9
016p1p2p3 Φ4=q311p4+q212p3p4+q113p2
p3p4Φ5=q312p4p5+q213p6p4p
5Φ6=9513p4p5p When these equations are examined, it is found that Φ3 includes terms corresponding to each of the four start times. The first term represents the probability that a phoneme starts at time 1=13 and generates a zero-length label (the phoneme ends at the same time as it starts). The second term represents the probability that the phoneme starts at time t'' t2, the label length is 1, and label 3 is generated by that phoneme.The sixth term represents the probability that the phoneme starts at time t=t1 starts, and the label length is 2 (i.e., labels 2 and 5), and represents the probability that labels 2 and 3 are generated by that phoneme.Similarly, the fourth term represents the probability that the phoneme starts at time t
= starts with to, and the label length is 3, and 3
represents the probability that two labels 1.2 and 3 are generated by that phoneme.

基本高速マツチングに要する計算と精密マツチングに要
する計算を比較すると、前者は後者よりも相対的に簡単
であることが分る。ちなみに、P′(y)の値は、すべ
ての式に出現するごとに、ラベルの長さの確率の場合の
ように同じ値のままである。更に、長さおよび開始時刻
の制限により、後の終了時刻計算がより簡単になる。例
えば、Φ6で、音素は時刻t=t3で開始し、3つのレ
ベル4.5および6はすべて、その終了時刻の音素によ
り生成して使用しなければならない。
Comparing the calculations required for basic high-speed matching and the calculations required for precise matching, it is found that the former is relatively simpler than the latter. Incidentally, the value of P'(y) remains the same value every time it appears in every equation, as in the case of label length probabilities. Furthermore, the length and start time limitations make later end time calculations easier. For example, in Φ6, the phoneme starts at time t=t3, and all three levels 4.5 and 6 must be generated and used by the phoneme at that end time.

対象音素のマツチング値を生成する際、形成された終了
時刻分布に沿った終了時刻確率が合計される。希望があ
れば、その対数をとって次式を得る。
When generating a matching value for a target phoneme, end time probabilities along the formed end time distribution are summed. If desired, take the logarithm to obtain the following equation.

マツチング値=log   (Φ +・・・+Φ6)前
述のように、ワードのマツチング得点は、特定のワード
中の連続する音素のマツチング値を合計することにより
容易に決定される。
Matching value=log (Φ +...+Φ6) As mentioned above, the matching score of a word is easily determined by summing the matching values of consecutive phonemes in a particular word.

次に、第16図により開始時刻分布の生成について説明
する。第16図(a)において、ワードTHE  がそ
の構成音素に分解され、反復される。
Next, generation of the start time distribution will be explained with reference to FIG. In FIG. 16(a), the word THE is broken down into its constituent phonemes and repeated.

第1.6図(b)では、ラベルのストリングが時間軸に
沿って示されている。第16図(e)は、最初の開始時
刻分布を示す。最初の開始時刻分布は、(沈黙ワードを
含むことがある先行ワードにおける)最新の先行音素の
終了時刻分布から引出されている。第16図(c)のラ
ベル入力および開始時刻分布に基づいて、音素DHの終
了時刻分布ΦDHが生成される(第16図(d))。次
の音素UH1の開始時刻分布は、前の音素終了分布が第
16図(d)の限界値Aを、越えた時刻を認識すること
により決定される。Aは終了時刻分布ごとに個々に決定
される。Aは、対象音素の終了時刻分布の値の和の関数
である。従って、時刻aと時刻すの間隔は、音素UH1
の開始時刻分布が設定される時間を表わす。第16図(
e)において、時刻Cと時刻dの間隔は、音素DHの終
了時刻分布が限界値Aを越え、かつ次の音素の開始時刻
分布が設定される時間に相当する。開始時刻分布の値は
、例えば、限界値Aを越える終了時刻の和で各終了時刻
値を割って終了時刻分布を正規化することにより得られ
る。
In Figure 1.6(b) a string of labels is shown along the time axis. FIG. 16(e) shows the initial start time distribution. The initial start time distribution is derived from the end time distribution of the most recent preceding phoneme (in the preceding word, which may include a silent word). Based on the label input and the start time distribution in FIG. 16(c), the end time distribution ΦDH of the phoneme DH is generated (FIG. 16(d)). The start time distribution of the next phoneme UH1 is determined by recognizing the time at which the previous phoneme end distribution exceeds the limit value A shown in FIG. 16(d). A is determined individually for each end time distribution. A is a function of the sum of the end time distribution values of the target phoneme. Therefore, the interval between time a and time S is the phoneme UH1
represents the time at which the start time distribution of is set. Figure 16 (
In e), the interval between time C and time d corresponds to the time when the end time distribution of the phoneme DH exceeds the limit value A and the start time distribution of the next phoneme is set. The value of the start time distribution is obtained, for example, by dividing each end time value by the sum of end times exceeding the limit value A to normalize the end time distribution.

基本高速マツチング音素マシン3000は、前記フロー
ティング拳ポイントーシステムズ社の、APALプログ
ラムによるアセンブラ190Lで実現されている。また
、本明細書の説明に従って、他のハードウェアおよびソ
フトウェアを用いて本発明の特定の形式を展開すること
もできる。
The basic high-speed matching phoneme machine 3000 is realized by the assembler 190L manufactured by Floating Fist Point Systems, Inc. using the APAL program. Additionally, certain forms of the invention may be deployed using other hardware and software in accordance with the description herein.

Fle、代替高速マツチング(第17図、第18図)単
独で、またはできれば精密なマツチングおよび言語モデ
ルと共に使用された基本高速マツチングは、計算所要量
を大幅に少な(する。計算所要量を更に少なくするため
、本発明は更に、2つの長さく最小長L 、および最大
炎L   )の間min              
    maXに均一なラベル長分布を形成することに
より精密なマツチングを簡略化する。基本高速マツチン
グでは、所与の長さのラベル(すなわち、1o、11.
12等)を生成する確率は一般に異なる値を得る。
Fle, Alternative Fast Matching (Figures 17, 18) Basic fast matching, used alone or preferably in conjunction with a precise matching and language model, requires significantly less computation. In order to
Precise matching is simplified by forming a uniform label length distribution in maX. Basic fast matching involves labels of a given length (i.e., 1o, 11 .
12 etc.) generally obtain different values.

代替高速マツチングにより、ラベルの各々の長さの確率
を1つの均一な値と取替える。
Alternative fast matching replaces each length probability of a label with one uniform value.

最小長は、最初の長さの分布で非ゼロの確率を有する最
小の長さに等しいことが望ましいが、希望により、他の
長さを選択することもできる。最大炎の選択は最小長の
選択よりも任意であるが、最小よりも小さく、最大より
も大きい長さの確率は0に設定される。長さの確率が最
小長と最大炎の間にだけ存在するように設定することに
より、均一の擬似分布を示すことができる。一つの方法
として、均一確率は、擬似分布による平均確率として設
定することができる。代替方法として、均一確率は、長
さ確率の最大値として設定し、均一値と取替えることが
できる。
The minimum length is preferably equal to the smallest length that has a non-zero probability in the initial distribution of lengths, but other lengths can be chosen if desired. The selection of the maximum flame is more arbitrary than the selection of the minimum length, but the probability of a length less than the minimum and greater than the maximum is set to zero. By setting the length probability to exist only between the minimum length and maximum flame, a uniform pseudo-distribution can be shown. As one method, the uniform probability can be set as the average probability due to a pseudo-distribution. As an alternative, the uniform probability can be set as the maximum value of the length probabilities and replaced by the uniform value.

ラベルの長さの確率をすべて等しくすることによる効果
は、前述の基本高速マツチングにおける終了時刻分布の
式から容易に認められる。詳細に述べれば、長さの確率
は定数として取出すことができる。
The effect of making all label length probabilities equal can be easily recognized from the above-mentioned formula for end time distribution in basic high-speed matching. Specifically, the length probability can be extracted as a constant.

L 、 を0にセットし、かつすべての長さのI n 確率を1つの定数の値と取替えることにより、終了時刻
分布は次のように表示される。
By setting L, to 0 and replacing the I n probabilities of all lengths with the value of one constant, the termination time distribution can be expressed as:

θ =Φ / 1 = q m+θm−1m  (23
)m      m ただし、1”は1つの均一の置換え値であり、p の値
は、所与の音素で時刻mに生成される所与のラベルの置
換え値に対応することが望ましい。
θ = Φ / 1 = q m + θm-1m (23
)m m where 1'' is one uniform replacement value, and the value of p preferably corresponds to the replacement value of a given label generated at time m for a given phoneme.

前述のθ の式の場合、突合せ値は次のように定義され
る。
For the above equation for θ, the matching value is defined as:

マツチング値=1og1o(θ0+01+・1十θm)
+ 1 o g 1o (i)     (24)基本
高速マツチングと代替高速マツチングを比較すると、所
要の加算および乗算数は、代替高速マツチング音素マシ
ンを使用することにより、大幅に少な(なる。L  、
  =0の場合、基本高速 1 n マツチングは、長さの確率を考慮しなければならないの
で、40回の乗算と20回の加算を必要としたが、代替
高速マツチングの場合は、θ が繰返し決定されるので
、連続するθ の各々について1回の乗算と1回の加算
で済むことが分る。
Matching value = 1og1o (θ0+01+・10θm)
+ 1 o g 1o (i) (24) Comparing basic fast matching and alternative fast matching, the number of additions and multiplications required is significantly less by using the alternative fast matching phoneme machine.
= 0, the basic fast 1 n matching required 40 multiplications and 20 additions because length probabilities had to be taken into account, whereas in the case of the alternative fast matching, θ was determined iteratively. It can be seen that one multiplication and one addition are required for each successive θ.

第17図および第18図は、代替高速マツチングによる
計算の簡略化を詳細に示す。第17図(a)は、最小長
L 、 二〇に相当する音素マシン3l n 100の実施例を示す。最大長は、長さ分布が均一にな
るように無限大に仮定する。第17図(b)は、音素マ
シン3100から生じるトレリス図を示す。q 以後の
開始時刻を開始時刻分布の外側と仮定すると、m (n
の場合、連続するθ の各々の決定はすべて、1回の加
算と1回の乗算で足りる。それ以後の終了時刻を決定す
る場合は、1回の乗算だけでよく、加算は不要である。
Figures 17 and 18 detail the computational simplification by alternative fast matching. FIG. 17(a) shows an embodiment of a phoneme machine 3l n 100 corresponding to a minimum length L of 20. The maximum length is assumed to be infinite so that the length distribution is uniform. FIG. 17(b) shows the trellis diagram resulting from the phoneme machine 3100. Assuming that the start times after q are outside the start time distribution, m (n
In the case of , the determination of each successive θ requires only one addition and one multiplication. When determining the end time after that, only one multiplication is required and no addition is necessary.

第18図(a)は、最小長L 、 =4の場合のl n 特定の音素マシン6200の実施例を示し、第18図(
b)は、それに対応するトレリス図を示す。
FIG. 18(a) shows an example of the l n specific phoneme machine 6200 when the minimum length L , =4, and FIG.
b) shows the corresponding trellis diagram.

L 、 =4であるから、第18図(b)のトレリ 1
 n ス図は、記号U、V、WおよびZのパスに沿って0確率
を生じる。θ4とθ。の間の終了時刻の場合、4回の乗
算と1回の加算が必要である。n+4よりも大きい終了
時刻の場合は、1回の乗算だけでよ(、加算は不要であ
る。この実施例は、前記F’PS社の190L上のAP
ALコードで実現されている。
Since L, = 4, the trellis 1 in Fig. 18(b)
The n diagram yields zero probabilities along the paths of symbols U, V, W, and Z. θ4 and θ. For end times between, four multiplications and one addition are required. If the end time is greater than n+4, only one multiplication is required (addition is not required.
This is realized using AL code.

所望の追加状態を第17図または第18図の実施例に付
加することができる。
Any additional states desired may be added to the embodiment of FIG. 17 or 18.

Flf、 i初のJレベルに基づいたマツチング(第1
8図) 基本高速マツチングおよび代替高速マツチングを更に改
良するため、音素マシンに入るストリングの最初のJラ
ベルの突合せだけを考慮するようにする。ラベルが音響
チャンネルの音響プロセッサにより、毎センチ秒ごとに
1ラベルの割合で生成されるものと仮定すると、J、の
妥当な値は1゜Oである。換言すれば、約1秒の音声に
対応するラベルが供給され、音素と音素マシンに入るラ
ベルとのマツチングを確定する。検査するラベル数を限
定することにより、2つの利点が得られる。
Flf, matching based on i's first J level (first
Figure 8) To further improve the basic fast matching and the alternative fast matching, we consider only the first J-label match of the string entering the phoneme machine. Assuming that labels are generated by the acoustic channel's acoustic processor at the rate of one label every centisecond, a reasonable value for J is 1°O. In other words, labels corresponding to approximately 1 second of speech are provided to establish a match between phonemes and labels entering the phoneme machine. By limiting the number of labels to be tested, two advantages are obtained.

第1は、復号遅延の減少であり、第2は、短かいワード
の得点と長いワードの得点を比較する問題を十分に回避
できることである。もちろん、Jの長さは希望により変
更することができる。
The first is a reduction in decoding delay, and the second is that the problem of comparing short and long word scores can be largely avoided. Of course, the length of J can be changed as desired.

検査するラベル数を限定することによる効果は、第18
図(b)のトレリス図により観察することができる。本
発明による改良を伴なわない場合、高速マツチング得点
は、この図面の最下部の行に沿ったθ の確率の和であ
る。すなわち、t=L。
The effect of limiting the number of labels to be inspected is
This can be observed from the trellis diagram in Figure (b). Without the improvements according to the invention, the fast matching score is the sum of the probabilities of θ along the bottom row of this figure. That is, t=L.

(L  、  =0の場合)またはt=t  (L  
(if L , =0) or t=t (L
.

mxn                      
4    mxn=4の場合)で開始する各時刻に状態
S4である確率は、θ として確定され、次いで、すべ
てのθ は合計される。L 、 =4の場合、t4以m
                     mxn前
の任意の時刻に状態S4である確率は0である。
mxn
The probability of being in state S4 at each time starting at 4 (for mxn=4) is determined as θ 2 and then all θ 2 are summed. If L, = 4, m after t4
The probability of being in state S4 at any time mxn ago is 0.

前記改良により、θ の和をとることは、時刻Jで終了
する。第18図(b)で、時刻Jは時刻tn+2に相当
する。
With the improvement, the summing of θ ends at time J. In FIG. 18(b), time J corresponds to time tn+2.

時刻Jまでの区間を越えたJラベルの検査を終了するこ
とにより、マツチング得点を決定する際に、下記の2つ
の確率の和が生じる。第1に、前述のように、このトレ
リス図の最下部の行に沿った行計算がある。しかし、こ
の計算は時刻J−1までである。時刻J−1までの各時
刻に状態s4である確率が合計され、行得点を得る。第
2に、その音素が時刻JKSo−84のそれぞれの状態
である確率の和に相当する列得点がある。この列得点は
下記のように計算される。
By completing the inspection of the J label that exceeds the interval up to time J, the sum of the following two probabilities occurs when determining the matching score. First, as mentioned above, there is a row computation along the bottom row of this trellis diagram. However, this calculation is performed up to time J-1. The probabilities of being in state s4 at each time up to time J-1 are summed to obtain a row score. Second, there is a sequence score corresponding to the sum of the probabilities that the phoneme is in each state at time JKSo-84. This column score is calculated as follows.

列得点=Σ Pr(S   J)      (25)
f=0      ” 音素のマツチング得点は、行得点と列得点を合計して、
その和の対数をとることにより得られる。
Column score = Σ Pr(S J) (25)
f=0” The phoneme matching score is the sum of the row score and column score,
It is obtained by taking the logarithm of the sum.

次の音素の高速マツチングを継続するには、最下部の行
(時刻Jを含むことが望ましい)に沿った値を用いて、
次の音素の開始時刻分布を取出す。
To continue the fast matching of the next phoneme, use the values along the bottom row (preferably including time J) to
Extract the start time distribution of the next phoneme.

5回の連続音素の各々の突合せ得点を確定した後、前述
のように、全音素の合計はその音素のすべてのマツチン
グ得点の和である。
After determining the matching score for each of the five consecutive phonemes, the total for all phonemes is the sum of all matching scores for that phoneme, as described above.

前述の基本高速マツチングおよび代替高速マツチングの
実施例で終了時刻の確率を生成する方法を調べると1利
得点の確定は、高速マツチング計算に容易に適合しない
ことが分る。検査するラベル数を限定するための改良を
前記高速マツチングおよび代替マツチングによりよ(適
応させるため、本発明は、列得点を追加付得点と置換え
ることを可能にする。すなわち、(第18図(b)で)
時刻JおよびJ+にの間で状態S4である音素の追加付
得点が確定される。ただし、Kは任意の音素マシンにお
ける最大状態数である。それゆえ、任意の音素マシンが
10の状態を有する場合、本発明の改良により、そのト
レリス図の最下部の行に沿って10の終了時刻が付加さ
れ、その各々について確率が決定される。時刻J+Kま
での最下位の行に沿ったすべての確率(時刻J+にでの
確率を含む)が加算され、所与の音素のマツチング得点
を生成する。前述のように、連続する音素のマツチング
値を合計し、ワードのマツチング得点ヲ得る。
Examining the method of generating end time probabilities in the basic fast matching and alternative fast matching embodiments described above shows that the determination of one profit point is not easily compatible with fast matching calculations. In order to adapt the improvement for limiting the number of labels to be examined by means of said fast matching and alternative matching, the present invention makes it possible to replace column scores with additional scores, i.e. (see FIG. 18). b) in)
The additional score for the phoneme in state S4 between times J and J+ is determined. However, K is the maximum number of states in any phoneme machine. Therefore, if any phoneme machine has 10 states, our refinement adds 10 end times along the bottom row of its trellis diagram and determines the probability for each of them. All probabilities along the lowest row up to time J+K (including the probability at time J+) are added to generate a matching score for a given phoneme. As mentioned above, the matching values of consecutive phonemes are summed to obtain the word matching score.

この実施例は前述のFPS社の190L上のAPALコ
ードで実現されているが、このシステムの他の部分の場
合のように、他のハードウェアで他のコードにより実現
することもできる。
Although this embodiment is implemented with APAL code on the FPS 190L mentioned above, it could also be implemented with other code on other hardware, as with other parts of this system.

F 1g、音素木構造および高速マツチング実施例(第
19図) 基本高速マツチングまたは代替高速マツチングを(最大
ラベル制限がある場合またはない場合に)使用すること
により、音素マツチング値を決定する際に必要な計算時
間が大幅に少なくなる。更に高速マツチングで得たリス
ト中のワードで精密マツチングを実行する場合でさえも
、計算量が大幅に節約される。
F 1g, Phoneme Tree Structure and Fast Matching Example (Figure 19) Necessary in determining phoneme matching values by using basic fast matching or alternative fast matching (with or without maximum label limit) The calculation time is significantly reduced. Furthermore, even when performing precise matching on the words in the list obtained by fast matching, the amount of calculation is significantly reduced.

音素マツチング値は、いったん確定されると、第19図
に示すように、木構造4100の分枝に沿って比較が行
なわれ、音素のどのパスが最も起こりうるかを判定する
。第19図において、(点4102から分枝4104に
出る)話されたワードthe″の音素DHおよびUHI
の音素マツチング値の和は、音素MXから分岐する音素
のそれぞれのシーケンスの場合よりもずっと高い値でな
ければならない。ちなみに、最初の音素MXの音素マツ
チング値は1回だけ計算され、それから広がる各基本形
式に使用される。(分枝4104および4106を参照
されたい。)更に、分枝の最初のシーケンスに沿って計
算された合計得点が、限界値よりもずっと低いか、また
は分枝の他つシーケンスの合計得点よりもずっと低いこ
とが分ると、最初のシーケンスから広がるすべての基本
形態は同時に候補ワードから削除されることがある。
Once the phoneme matching values are determined, comparisons are made along the branches of the tree structure 4100 to determine which path of phonemes is most likely, as shown in FIG. In FIG. 19, the phonemes DH and UHI of the spoken word the'' (from point 4102 to branch 4104)
The sum of the phoneme matching values of must be much higher than for each sequence of phonemes branching from phoneme MX. Incidentally, the phoneme matching value for the first phoneme MX is calculated only once and then used for each base form that extends. (See branches 4104 and 4106.) Additionally, the total score computed along the first sequence of the branch is much lower than the critical value or less than the total score of other sequences of the branch. If it is found to be much lower, all base forms extending from the initial sequence may be removed from the candidate words at the same time.

例えば、分枝4108〜4118に関連した基本形態は
、MXが見込みのあるバスではないと決定された場合、
同時に捨てられる。
For example, the basic configuration associated with branches 4108-4118 is that if it is determined that MX is not a prospective bus,
thrown away at the same time.

高速マツチング実施例および本構造により、τ定順序の
候補ワードのリストが作成され、それに伴なう計算は大
幅に節約される。高速マツチングは、フィーニーム型基
本形態ならびに音標(フオニーム)型基本形態に適用可
能である。両者の相違点は、フィーニーム型音素では、
推定ラベル確率が2つの遷移だけに割当てられることで
ある。
The fast matching embodiment and the present structure create a list of candidate words that is τ-constantly ordered, resulting in significant computational savings. Fast matching is applicable to feeneme-type basic forms as well as phoneme-type basic forms. The difference between the two is that in the fee-neem type phoneme,
Estimated label probabilities are assigned to only two transitions.

しかしながら、木構造をフィーニーム型基本形態で使用
することは予定されてはい°ない。
However, it is not planned to use the tree structure in the fee-neem basic form.

記憶要求については、音素の木構造、音素の統計値、お
よび末尾確率が記憶されることになっている。木構造に
ついては、25000の弧と各々の弧を特徴づける4つ
のデータワードがある。第1のデータワードは後続の弧
すなわち音素の指標を表わす。第2のデータワードは分
校に沿った後続の音素数を表わす。第3のデータワード
は木構造のどのノードに弧が置かれているかを表わす。
For storage requests, the phoneme tree structure, phoneme statistics, and tail probabilities are to be stored. For the tree structure, there are 25,000 arcs and four data words characterizing each arc. The first data word represents an index of a subsequent arc or phoneme. The second data word represents the number of subsequent phonemes along the branch. The third data word represents at which node of the tree structure the arc is located.

第4のデータワードは現在の音素を表わす。従って、こ
の木構造の場合、25000X4の記憶空間が必要であ
る。高速マツチングでは、100の異なった音素と20
0の異なったフィーニームがある。フィーニームは音素
中のどこかで生成される1つの確率を有するから、10
0X200の統計的確率の記憶空間が必要である。末尾
構造については、200X200の記憶空間が必要であ
る。
The fourth data word represents the current phoneme. Therefore, this tree structure requires 25000x4 storage space. Fast matching uses 100 different phonemes and 20
There are 0 different feeneems. Since feeneem has a probability of 1 to be produced anywhere in the phoneme, 10
A storage space of 0x200 statistical probabilities is required. For the tail structure, 200x200 storage space is required.

従って、高速突合せの場合、100にの整数を記憶する
空間と60にの浮動小数点を記憶する空間があれば十分
である。
Therefore, for fast matching, space to store 100 integers and space to store 60 floating point numbers is sufficient.

F 1h、言語モデル(第2図) 前述のように、文脈中のワードに関する(三重字のよう
な)情報を記憶する言語モデルを包含することにより、
ワードを正しく選択する確率を高めることができる。言
語モデルは前記論文に記載されている。
F 1h, Language Model (Figure 2) As mentioned above, by including a language model that stores information (such as triple letters) about the words in the context,
The probability of correctly selecting a word can be increased. The language model is described in the above paper.

言語モデル1010(第2図)は一意性の文字を有する
ことが望ましい。すなわち、修正三重字法が使用される
。本発明に従って、サンプル・テキストを検査し、語粱
中の一定順序の三重ワードおよびワード対ならびに単一
ワードの各々の尤度を確定する。そして、最も見込みの
ある三重ワードおよびワード対のリストが形成される。
Language model 1010 (Figure 2) preferably has unique characters. That is, a modified trigraph method is used. In accordance with the present invention, a sample text is examined to determine the likelihood of each of the ordered triple words and word pairs and single words in the vocabulary. A list of the most likely triple words and word pairs is then formed.

更に、三重ワードのリストにはない三重ワード、および
ワード対のリストにはないワード対の尤度がそれぞれ決
定される。
Additionally, the likelihoods of triple words not in the list of triple words and word pairs not in the list of word pairs are determined, respectively.

言語モデルに従って、対象ワードが2ワードに続(場合
、この対象ワードおよび先行2ワードが三重ワードのリ
ストにあるかどうかが判定される。
According to the language model, if the target word follows two words, it is determined whether this target word and the two preceding words are in the list of triple words.

三重ワードのリストにある場合、その三重ワードに割当
てられた、記憶されている確率が指定される。対象ワー
ドと先行2ワードが三重ワードのリストにない場合は、
その対象ワードとそれに隣接する先行ワードがワード対
のリストにあるかどうかくついて判定する。ワード対の
リストにあ福場合、そのワード対の確率と、前述の三重
ワードのリストに三重ワードがない確率を掛け、その積
を対象ワードに割当てる。対象ワードを含む前記三重ワ
ードおよびワード対がそれぞれ三重ワードのリストおよ
びワード対のリストにない場合には、対象ワードだけの
確率忙、前述の三重ワードが三重ワードのリストにない
確率、ならびにワード対がワード対のリストにない確率
を掛け、その積を対象ワードに割当てる。
If in a list of triple words, the stored probability assigned to that triple word is specified. If the target word and the preceding two words are not in the triple word list,
Determine whether the target word and its adjacent preceding word are in the list of word pairs. If the list of word pairs is a failure, multiply the probability of that word pair by the probability that there is no triple word in the list of triple words, and assign the product to the target word. If said triple word and word pair containing the target word are not in the list of triple words and word pairs, respectively, then the probability of the target word alone, the probability that said triple word is not in the list of triple words, and the word pair Multiply by the probability that is not in the list of word pairs and assign the product to the target word.

Flj、整形されたワード基本形態の形成(第20図) 第20図の流れ図5000は音響マツチングで使用する
音素マシンの整形を示す。ブロック5゜02で、ワード
の語粟(一般に50[)Oワードのオーダ)を定義する
。次に、各ワードは音素マシンのシーケンスにより表示
される。例えば、音素マシンは、音標型音素マシンとし
て表示されているが、代替的に、フィーニーム型音素の
シーケンスを含むことがある。音標型音素マシンのシー
ケンス、またはフィーニーム型音素マシンのシーケンス
によるワードの表示について下記に説明する。
Flj, Forming a Formatted Word Base Form (Figure 20) The flowchart 5000 of Figure 20 illustrates the formatting of a phoneme machine for use in acoustic matching. In block 502, a word count (generally on the order of 50[)O words) is defined. Each word is then displayed by a sequence of phoneme machines. For example, although the phoneme machine is depicted as a phoneme-type phoneme machine, it may alternatively include a sequence of fee-neem-type phonemes. The display of words by the sequence of the phonetic type phoneme machine or the sequence of the feeneem type phoneme machine will be described below.

ワードの音素マシン・シーケンスはワード基本形態とい
う。
The phoneme machine sequence of a word is called the word basic form.

ブロック5006で、ワード基本形態を前述の木構造に
配列する。各ワード基本形態の音素マシンごとの統計値
は、I EEE会報第64巻(i976年)記載のエフ
・ジエリネクの論文6統計的方法による連続音声認識″
(F、Jelinek、” Continuous  
5peech  Recognitionby  5t
atistical  Methoda”、Proce
edings  of  the  I EEE、Vo
l。
At block 5006, the word base forms are arranged into the tree structure described above. The statistical values for each phoneme machine of each basic word form are based on F. Zielinek's paper 6 "Continuous Speech Recognition Using Statistical Methods" in IEEE Bulletin Vol. 64 (1976).
(F. Jelinek, “Continuous
5peech Recognition by 5t
``atical Methoda'', Proce
edings of the I EEE, Vo
l.

64.1976)に示された周知のフォワード舎バック
ワード・アルゴリズムによる整形により決められる(ブ
ロック5008)。
64.1976) by the well-known forward-backward algorithm (block 5008).

ブロック5009で、精密マツチングで使用する実際の
パラメータ値すなわち統計値に代る値を決める。例えば
、実際のラベル出力確率に代る値を確定する。ブロック
5010で、確定された値が、記憶された実際の確率に
取って代り、各ワード基本形態中の音素が概算置換え値
を含むようにする。基本高速マツチングに関する概算は
すべてブロック5010で実行される。
At block 5009, the actual parameter values, or values to replace the statistical values, to be used in the precision matching are determined. For example, a value to replace the actual label output probability is determined. At block 5010, the determined value replaces the stored actual probability so that the phoneme in each word base form includes an approximate replacement value. All calculations for basic fast matching are performed at block 5010.

次にブロック5011で、音響マツチングが向上を要す
るかどうかを決定する。向上を要しない場合は、基本概
算マツチングのために確定された値を使用のために設定
し、他の概算に関する別の推定値は設定しない(ブロッ
ク5012)。向上を必要とする場合には、ブロック5
01Bに進む。
Next, at block 5011, it is determined whether the acoustic matching requires improvement. If no improvement is required, the determined value for the base approximation matching is set for use and no further estimates for other approximations are established (block 5012). If improvement is required, block 5
Proceed to 01B.

ブロック5018で、ストリングの長さの均一な分布を
形成し、ブロック5020で、更に向上が必要かどうか
を決定する。更に向上させる必要がない場合は、ラベル
出力確率値およびストリング長確率値を概算し、音響マ
ツチングで使用するように設定する。更に向上を必要と
する場合には、ブロック5022で、音響マツチングを
、生成されたストリングの最初のJラベルに限定する。
At block 5018, a uniform distribution of string lengths is created and at block 5020 it is determined whether further enhancement is needed. If there is no need for further improvement, the label output probability value and string length probability value are estimated and set for use in acoustic matching. If further improvement is required, block 5022 limits the acoustic matching to the first J labels of the generated string.

改良された実施例の1つを選択するかどうかにかかわら
ず、確定したパラメータ値はブロック5012で設定さ
れ、その結果、各ワード基本形態中の各音素マシンは、
所望の概算値により整形され、高速概算マツチングを可
能にする。
Regardless of whether one of the improved embodiments is selected, the determined parameter values are set at block 5012 so that each phoneme machine in each word base form:
It is shaped by the desired approximation value and enables fast approximation matching.

Flk、音標型基本形式の構築 基本形態を形成する際に使用しうるマルコフ・モデル音
素マシンの1つの型は音標に基づくものである。すなわ
ち、各音素マシンは、国際音標アルファベット(Int
ernational PhoneticAlphab
et )から選択された音標要素のような、所与の音標
の単音に対応する。
Flk, Construction of Phonetic-Type Basic Forms One type of Markov model phoneme machine that may be used in forming basic forms is one that is phonetic-based. That is, each phoneme machine uses the International Phonetic Alphabet (Int
ernational Phonetic Alphab
etc.) corresponds to a phonetic sound of a given phonetic symbol, such as a phonetic element selected from .

所与のワードについて、各々がそれに対応するそれぞれ
の音素マシンを有する音標の単音のシーケンスがある。
For a given word, there is a sequence of phonemes of phonemes, each having a respective phoneme machine corresponding to it.

各音素マシンはいくつかの状態およびそれらの間の遷移
を含み、それらの中には、フィーニーム出力を生成する
ことができるものもあり、できないもの(ナル遷移とい
う)もある。
Each phoneme machine contains a number of states and transitions between them, some of which can produce fineme outputs and some of which cannot (referred to as null transitions).

前述のように、各音素マシンに関する統計値は、(a)
  生起する所与の遷移の確率、および(b)  所与
の遷移で特定のフィーニームが生成される尤度を含む。
As mentioned above, the statistics for each phoneme machine are (a)
includes the probability of a given transition occurring, and (b) the likelihood that a given transition will produce a particular feeneem.

各々の非ナル遷移では、各フィーニームに関連した確率
があることが望ましい。
For each non-null transition, there is preferably a probability associated with each fineme.

第1表に示すフィーニーム・アルファベットには約20
0のフィーニームがある。
The feeneem alphabet shown in Table 1 contains approximately 20
There are 0 feeneem.

第4図に、音標型基本形態を形成する際に用いる音素マ
シンを示す。このような音素マシンのシーケンスが与え
られ、各ワードを基本形態として表わす。
FIG. 4 shows a phoneme machine used when forming the phonetic alphabet type basic form. Given a sequence of such phoneme machines, each word is represented as a basic form.

音素DI(とじて識別された1つの音素の統計値のサン
プルが第2表だ示されている。概算として、第4図の音
素マシンの遷移tr1、tr2およびtr8のラベル出
力確率分布、遷移tr3、tr4、tr5およびtr9
のラベル出力確率分布、ならびに遷移tr6、tr7お
よびtrloのラベル出力確率分布がそれぞれ、単一の
分布により表示されている。これは、第2表でそれぞれ
の列の弧(すなわち遷移)へのラベル4.5または6の
割当てにより示されている。第2表は、音素DHの最初
、中間または最後でそれぞれ生成される各遷移の確率な
らびにラベル(すなわちフエネメ)の確率を示す。DH
音素の場合、例えば、状態S1から状態S2へ遷移する
確率は0.07243と計算され、状態S から状態S
4へ遷移する確率は0.92757である。(なんとな
れば、最初の状態から起こりうる遷移は2つだけである
から、両者の確率の和は1に等しい。)ラベル出力確率
に関しては、D)I音素は、その音素の最後の部分、す
なわち第2表のラベル6の列でフィーニームAE13(
i1表参照)を生成する確率0.091を有する。また
、第2表には、各ノード(すなわち状態)に関連したカ
ウントが示されている。ノード・カウントは、整形中、
その音素が対応する状態であった回数を表わす。第2表
のような統計値はフオニーム・マシンごとに存在する。
Table 2 shows a sample of the statistical values of one phoneme identified using the phoneme DI.As a rough estimate, the label output probability distribution of transitions tr1, tr2, and tr8 of the phoneme machine in Figure 4, and the transition tr3 , tr4, tr5 and tr9
and the label output probability distributions of transitions tr6, tr7, and trlo are each represented by a single distribution. This is indicated in Table 2 by the assignment of labels 4.5 or 6 to arcs (ie transitions) in the respective columns. Table 2 shows the probability of each transition and the label (i.e. Hueneme) generated at the beginning, middle or end of the phoneme DH, respectively. D.H.
In the case of phonemes, for example, the probability of transitioning from state S1 to state S2 is calculated as 0.07243, and the probability of transitioning from state S to state S2 is calculated as 0.07243.
The probability of transitioning to 4 is 0.92757. (After all, there are only two possible transitions from the initial state, so the sum of their probabilities is equal to 1.) Regarding the label output probability, D) the I phoneme is the last part of the phoneme, In other words, in the column labeled 6 in Table 2, Fineem AE13 (
i1 table)) has a probability of 0.091. Table 2 also shows the counts associated with each node (or state). The node count is during shaping,
Represents the number of times the phoneme was in the corresponding state. Statistics such as those shown in Table 2 exist for each phoneme machine.

音標型音素マシンを音標型ワード基本形態のシーケンス
に配列するのは、一般に、音声学者により実行されるの
で、通常、自動的には行なわれない。
The arrangement of a phonetic phoneme machine into a sequence of phonetic word base forms is generally performed by a phonetician and is not usually done automatically.

音標型基本形態は精密マツチングおよび高速概算音響マ
ツチングで使用されている。
Phonetic base forms are used in precision matching and fast approximate acoustic matching.

本明細書では、音標型基本形態について説明しているが
、他の型の基本形態も本発明に従って使用することがで
きる。
Although phonetic base forms are described herein, other types of base forms may be used in accordance with the present invention.

F2.スタック復号装置および方法 F2a、定義 本発明の説明を容易にするため、第5図および第21図
に関連して下記の用語について定義する。
F2. Stack Decoding Apparatus and Method F2a, Definitions To facilitate explanation of the present invention, the following terms are defined in connection with FIGS. 5 and 21.

第5図および第21図で、連続する”ラベル間隔”(す
なわち“ラベル位置”)で生成される複数の連続するラ
ベルyy  ・・・、が示されている。
5 and 21, a plurality of consecutive labels yy, . . . , generated at consecutive “label intervals” (ie, “label positions”) are shown.

また、第21図には、複数のワード・パス、すなわち、
パスA、パスBおよびパスCが示されている。第5図の
文脈で、パスAはエンドlJ”t。
FIG. 21 also shows multiple word paths, namely:
Path A, path B and path C are shown. In the context of FIG. 5, path A ends at end lJ"t.

be  or”に、パスBはエントリ”twob”に、
パスCはエントリ″too”に対応することがある。対
象ワード・パスの場合、その対象ワードが最高の確率で
終了するラベル(すなわち等制約にラベル間隔)がある
。このようなラベルは”境界ラベル”という。
be or”, path B is in the entry “twob”,
Path C may correspond to entry "too". For a target word path, there is a label (i.e., label spacing in the equality constraint) where the target word ends with the highest probability. Such labels are called "boundary labels."

ワードのシーケンスを表わすワード・パスWの場合、そ
のラベル・ス) IJングは、各ワードが終了し、後続
のワードが開始する仕切りにより分割することができる
。例えば、ワード・パスWの第1のワードW はラベル
y からy(tl)まで、第2のワードW2はラベルy
 (t 1+ 1 )からy(t2)まで、第3のワー
ドW3はラベルy(t2+1)からy(t  )まで、
・・拳、そして最後ろ のワードW はy(t(k−1)+1)からy(tk)
まで延長するものとみなすことができる。
For a word path W representing a sequence of words, its label (S) IJ can be divided by a partition where each word ends and the following word begins. For example, the first word W of the word path W is labeled y to y(tl), the second word W2 is labeled y
(t 1+ 1 ) to y(t2), the third word W3 is labeled y(t2+1) to y(t ),
...Fist and last word W is y(t(k-1)+1) to y(tk)
It can be considered as extending up to

任意の所与のワード・パスの場合、ラベル・ストリング
の最初のラベルから境界ラベルまでを含む各々のラベル
すなわちラベル間隔に関連した1尤度値”がある。所与
のワード・パスの尤度値の全部は一括して、所与のワー
ド・パスの”尤度ベクトル”を表わす。従って、ワード
・パスごとに、対応する尤度ベクトルがある。尤度値L
 は第21図に示されている。
For any given word path, there is one likelihood value associated with each label or label interval in the label string, from the first label up to and including the border label.The likelihood of a given word path is All of the values collectively represent the "likelihood vector" for a given word path.Therefore, for each word path there is a corresponding likelihood vector.The likelihood value L
is shown in FIG.

、12 ワード・ハスW  、W  、  ・・―、W3の集ま
りのラベル間隔tでの”尤度包絡線″A、は数学的に次
のように定義される。
, 12 The "likelihood envelope" A of a collection of word hashes W , W , . . . , W3 at label interval t is mathematically defined as follows.

A  =max(L  (W  )、sea、L  (
W  ))すなわち、ラベル間隔ごとに、尤度包絡線は
前記集まりの中の任意のワード・パスに関連した最高の
尤度値を含む。第21図に尤度包絡線5040が示され
ている。
A = max(L (W), sea, L (
W )) That is, for each label interval, the likelihood envelope contains the highest likelihood value associated with any word path in the collection. A likelihood envelope 5040 is shown in FIG.

ワード・パスは、完全な文に対応する場合には”完全”
とみなされる。完全なパスは、入力している話者が、文
の終了に達したとき、例えばボタンを押すことにより識
別されることが望ましい。
A word pass is “complete” if it corresponds to a complete sentence.
It is considered that Preferably, the complete path is identified when the typing speaker reaches the end of the sentence, for example by pressing a button.

入力は、文終了をマークするラベル間隔と同期される。The input is synchronized with a label interval that marks the end of a sentence.

完全なワード・パスは、それにワードを付加して延長す
ることはできない。部分的なワード・パスは不完全な文
に対応し、延長することができる。
A complete word pass cannot be extended by appending words to it. Partial word paths accommodate incomplete sentences and can be extended.

部分的なパスは“生きている“または”死んでいる″バ
スに分類される。ワード・パスは、それが既に延長され
ているときは°死んでいる”が、まだ延長されていない
ときは”生きている”。この分類により、既に延長され
て少なくとも1つの、より長く延長されたワード・パス
を形成して辷−・るパスは、次の時刻で延長が再び考慮
されることはない。
Partial paths are classified as "alive" or "dead" buses. A word pass is "dead" when it has already been extended, and "alive" when it has not yet been extended. This classification makes it possible for a password to be extended longer if it has already been extended and at least one Passes that form a word pass that has been walked will not be considered for extension again at the next time.

各々のワード・パスは、尤度包絡線に対して”良い”、
または”悪い″ものとして特徴づけることが可能である
。ワード・パスは、その境界ラベルに対応するラベルで
、そのワード・パスが、最大尤度包絡線内にある尤度値
を有する場合は良いワード・パスである。その他の場合
は、ワード・パスは悪いワード・パスである。最大尤度
包絡線の各位を一定の値だけ減少して良い(悪い)限界
レベルとして作用させることは、望ましいことではある
が、必ずしも必要ではない。
Each word path is ``good'' with respect to the likelihood envelope,
or can be characterized as "bad". A word path is a good word path if it has a likelihood value that is within the maximum likelihood envelope with the label corresponding to its boundary label. Otherwise, the word pass is a bad word pass. Although it is desirable, it is not necessary to reduce each part of the maximum likelihood envelope by a certain value to act as a good (bad) limit level.

ラベル間隔の各々についてスタック要素がある。There is a stack element for each label interval.

生きているワード・パスの各々は、このような生きてい
るパスの境界ラベルに対応するラベル間隔に対応するス
タック要素に割当てられる。スタック要素は、(尤度値
の順序にリスト化されている)0.1またはより多くの
ワード・パス・エントリを有することがある。
Each live word path is assigned to a stack element corresponding to a label interval that corresponds to the boundary label of such live path. A stack element may have 0.1 or more word path entries (listed in order of likelihood value).

次に、第2図のスタック・デコーダ1o02により実行
されるステップについて説明する。
Next, steps performed by stack decoder 1o02 in FIG. 2 will be described.

F2b、見込みのあるワードの選択(第5図)第5図は
、音声入力に応じて音響プロセッサ1004によシ生成
されたラベルのストリングy1y2・・・を示す。スト
リングの最初に開始する複数の見込みのある最初のワー
ド(”to“、“two”および”too”)は、前述
のように、高速マツチング、精密マツチングおよび言語
モデルの使用により選択される。
F2b, Selection of Probable Words (FIG. 5) FIG. 5 shows a string of labels y1y2 . . . generated by the acoustic processor 1004 in response to audio input. Multiple possible initial words ("to,""two," and "too") starting at the beginning of the string are selected by fast matching, precision matching, and the use of a language model, as described above.

すなわち、高速マツチングは、語柔からワードを除去し
て、一定の限界値を満足する音響確率を有する候補ワー
ドのリストを供給する。この限界値として、所定の最小
確率値、またはリスト上の可能な最大ワード数に関する
値、もしくは両方の値をとることができる。言語モデル
に基づき、候補ワードごとの文脈上の確率を取出し、各
候補ワードに付与する。見込みの少ない候補は捨てるこ
とが望ましい。その後、精密マツチングを実行し。
That is, fast matching removes words from the vocabulary to provide a list of candidate words that have acoustic probabilities that satisfy a certain limit. This limit value can be either a predetermined minimum probability value or a value related to the maximum possible number of words on the list, or both. Based on the language model, a contextual probability for each candidate word is extracted and assigned to each candidate word. It is advisable to discard candidates with little promise. Then, perform precision matching.

続いて、この精密マツチング後に残っているワードに更
に言語モデルを使用して、見込みのある最初のワードの
リストを確定することが望ましい。
It may then be desirable to further use the language model on the words remaining after this fine matching to establish an initial list of likely words.

見込みのある最初の各ワードはそれぞれのワード・パス
を表示する。これらのワード・パスをそれぞれ検査し、
次に選択して延長すべきかどうかを決定する。
Each potential first word displays its respective word path. Check each of these word passes and
Then decide whether to make a selection and extend it.

本明細書で引用する”最初のワードは文の最初のワード
である。通常、前の文の先行するワードがあり、言語モ
デルを使用する際に考慮される。
The "first word" referred to herein is the first word of a sentence. There are usually preceding words from previous sentences that are taken into account when using the language model.

更に、ワード選択プロセスは、1組の先行ワードがある
場合に、ワード・パスで次のワードを決定するのにも適
用することができる。詳細に言えば、ワード・パスで最
後のワードの最後のラベルを見つけて、そのラベルを検
査ビ、見込みのある後続ワードのリストを決める。特に
、境界ラベルに続くラベルは、前述のように、高速マツ
チング、言語モデル、精密マツチング、再び言語モデル
で処理される。この場合、ワード・パスにおける先行ワ
ードも言語モデル手順で使用される。
Additionally, the word selection process can also be applied to determining the next word in a word pass given a set of previous words. Specifically, find the last label of the last word in the word path and examine that label to determine a list of likely successor words. In particular, the labels following the boundary label are processed by fast matching, language model, precision matching, and again by language model, as described above. In this case, the preceding words in the word path are also used in the language model procedure.

F2O,境界ラベル位置の探査 スタック・デコーダ1002は、各ワード・パス(例え
ば、見込みのある最初のワード、または、それから延長
するワード・パス)と、音響プロセッサ1004により
生成されたラベルのストリングとの相関を調べる。対象
ワード・パスの場合、それに相関するラベルのサブスト
リングがある。
The F2O, boundary label position search stack decoder 1002 connects each word path (e.g., a likely first word, or a word path extending from it) with the string of labels generated by the acoustic processor 1004. Examine correlations. For a target word path, there is a substring of labels associated with it.

詳細に述べれば、このサブストリングは、生成されたス
トリングの最初のラベルから、対象ワード・パスに対応
する境界ラベルを介して延びる。各サブストリングに関
連するのは尤度ベクトルである。特定のサブストリング
の場合、尤度ベクトルはラベル間隔ごとの構成部分を有
する。
Specifically, this substring extends from the first label of the generated string through the boundary label corresponding to the target word path. Associated with each substring is a likelihood vector. For a particular substring, the likelihood vector has a component for each label interval.

前述の音響マツチング手順で説明したように、ラベルの
ストリングにマツチングさせるワードに相関する終了時
刻分布がある。この分布が最大となるラベルは、次のワ
ードを、もしあれば、開始する境界ラベルとして特徴づ
けることができる。
As explained in the acoustic matching procedure above, there is an end time distribution that correlates to the words that are matched to the string of labels. The label for which this distribution is maximum can be characterized as the boundary label that starts the next word, if any.

(ちなみに、音声入力に対応しないラベル間隔を除去す
るフィルタを設けることができる。従って、ストリング
Yは、ワードを次々°に、間に沈黙空間を置かずに表示
することができる。このようなフィルタは公知であるの
でその説明は省略する。)2つのワードの間の最も見込
みのある境界を決定する代替方法は、IBM技術開示会
報第23巻第4号(i980年9月)記載の、エル・ア
ール・バール外の論文”音響マツチング計算の高速化”
(L、R,Bahl  et  al、”Faster
Acoustic  Match  Computat
ion”、 IBM   Technical  Di
sclosureBulletinl Vol、2 !
+、No、4、Septemberl 980 )に示
されている。簡単に言えば、この論文は、次の2つの類
似の関心事、すなわち、(a)  ワード(またはワー
ド・シーケンス)がどれだけ多(のラベル・ストリング
Yを生じるか、fb)  どのラベル間隔で、部分的な
文−ラベル・ストリングの部分に対応する−が終了する
かに取組む方法について論じている。
(Incidentally, a filter can be provided that removes label intervals that do not correspond to the audio input. Thus, the string Y can be displayed word after word, with no silent spaces in between. Such a filter is well known, so its explanation will be omitted.) An alternative method for determining the most likely boundary between two words is the El.・Paper by R. Barr “Speed up acoustic matching calculations”
(L.R.Bahl et al., “Faster
Acoustic Match Computat
ion”, IBM Technical Di
ClosureBulletin Vol.2!
+, No. 4, September 980). Briefly, this paper is concerned with two similar concerns: (a) how many words (or word sequences) give rise to a label string Y (fb); and at what label spacing. , discusses how to address the termination of partial sentences - corresponding to parts of label strings.

前記論文に示された方法を下記に説明する。確N 率Pr(Y  IW)は確率α(s、t)に等しく、Y
 は最初のラベル〜ラベルtのラベル・ストリングに対
応し、S はシーケンスWを表わすマルコフ・モデルの
最後の状態とすれば、γ(i)の項は下記のように定義
される。
The method presented in the paper is explained below. Probability N rate Pr(Y IW) is equal to probability α(s, t), Y
If corresponds to the label string from the first label to label t, and let S be the last state of the Markov model representing the sequence W, then the term γ(i) is defined as follows.

γ(t)=Σ α(s、t) E(Y  )はすべてのワード・シーケンスにわたって
平均されたγ(i)の期待値を表わす。値αは、tの値
の増加とともに連続的に計算される。
γ(t)=Σ α(s,t) E(Y ) represents the expected value of γ(i) averaged over all word sequences. The value α is calculated continuously with increasing value of t.

値αが特定の値tで計算された後、量γ(t)/r:(
y  )を検査する。この値が所定の限界値よりも低い
場合、値αのそれ以上の計算を中止する。
After the value α is calculated with a certain value t, the quantity γ(t)/r:(
y). If this value is lower than a predetermined limit value, further calculation of the value α is discontinued.

Wの最も見込みのある境界は、α(sN、t)/E(Y
  )が最大の場合の値りである。E(Y  )は、整
形中にγ(i)の値を計算し記憶することにより、整形
データから決定される。一般に、マルコフ型概算は次式
により用いられる。
The most likely bound for W is α(sN,t)/E(Y
) is the maximum value. E(Y) is determined from the shaping data by calculating and storing the value of γ(i) during shaping. Generally, Markov-type approximation is used by the following equation.

t                t−IE(Y  
)=II、    E(Y、/Y、      )!=
 1        s     l−に実際には、k
=1で十分である。
t t-IE(Y
)=II, E(Y, /Y, )! =
1 s l− in fact, k
=1 is sufficient.

見込みのある最初のワード(すなわちワード・パス)を
延長することになっている場合、境界ラベルは、見込み
のある後続ワードを決定する際に音響マツチングが行な
われる点として作用する。
If the first possible word (ie, word path) is to be extended, the boundary label acts as the point at which acoustic matching is performed in determining possible subsequent words.

F1a、ワード・パスに沿った各ラベル間隔での尤度の
評価 第21図で、所与のワード・パスごとに尤度値L が、
連続するラベル間隔で示されている。尤を 変位は下記により決定される。
F1a, evaluation of the likelihood at each label interval along the word path.In Figure 21, for each given word path, the likelihood value L is
Shown as consecutive label intervals. The actual displacement is determined by:

ワードにの場合、L o ”” 0 ;(W ・・・W
(i−1)の境界ラベル)くtく(W ・・・W、の境
界ラベル)の場合、L  =log(Pr(W  Φ・
IIW、 ))十t                
 1         ltog(Pr(y11111
11yt1wi’ II l1w、 )) ;1>(ワ
ード・パスWの境界ラベル)の場合、L  =−■ となる。
In the case of word, L o ”” 0; (W ... W
(boundary label of (i-1)) (boundary label of W...W), then L = log(Pr(W Φ・
IIW, )) 10t
1 ltog(Pr(y11111
11yt1wi' II l1w, )) ; If 1>(boundary label of word path W), then L = -■.

まん中の式の第1の対数確率は、ワードW、により延び
るワードWのシーケンスの言語モデル確率として認めら
れ、第2の対数確率は音響マツチング確率として認めら
れている。
The first log probability of the middle equation is taken as the language model probability of the sequence of words W extended by the word W, and the second log probability is taken as the acoustic matching probability.

F1a、延長すべきワード・パスの決定第21図は、い
くつかのワード・バス−パスA1パスB、およびパスC
−ならびに最大の尤度包絡線5040を示す。各ワード
・パスのグラフは、その尤度値のそれぞれにより決定さ
れる。
F1a, Determination of Word Paths to be Extended FIG.
- as well as the maximum likelihood envelope 5040. The graph of each word path is determined by each of its likelihood values.

尤度包絡線を形成し、どのワード・パスが良いかを決定
することは、第22図のスタック復号手法の流れ図に示
すように相互に関係する。
Forming the likelihood envelope and determining which word passes are good are interrelated as shown in the stack decoding technique flow diagram of FIG.

第22図の流れ図において、ブロック8050で、jl
に、ナル・パースが第1のスタック(0)に入る。ブロ
ック8052で、前に確定されている完全なパスを含む
(完全な)スタック要素が、もしあれば、供給される。
In the flowchart of FIG. 22, at block 8050, jl
, the null parse enters the first stack (0). At block 8052, the (complete) stack element containing the previously determined complete path, if any, is provided.

(完全な)スタック要素中の完全なパスの各々は、それ
に関連する尤度ベクトルを有する。その境界ラベルに最
高の尤度を有する完全なパスの尤度ベクトルは、最初に
最尤包絡線を決める。もしく完全な)スタック要素に完
全なパスがなければ、最尤包絡線は各ラベル間隔で−ω
に初期設定される。代替的に、完全なパスが指定されて
いない場合にも、最尤包絡線が一■に初期設定されるこ
とがある。包絡線の初期設定はブロック8054および
8056で行なわれる。
Each complete path in a (complete) stack element has a likelihood vector associated with it. The likelihood vector of the complete path with the highest likelihood at its boundary label first determines the maximum likelihood envelope. If there is no complete path in the stack element (or complete), the maximum likelihood envelope is −ω at each label interval.
is initialized to . Alternatively, the maximum likelihood envelope may be initialized to 1 even if the complete path is not specified. Envelope initialization occurs at blocks 8054 and 8056.

最尤包絡線は、初期設定された後、所定の量Δだけ減少
され、減少された尤度を超えるΔ規定の良い領域を形成
し、減少された尤度を下まわるΔ規定の悪い領域を形成
する。Δの値は探索の幅を制御する。△が大きければ大
きいほど、延長が可能とみなされるワード・パス数が大
きくなる。L。
After the maximum likelihood envelope is initialized, it is reduced by a predetermined amount Δ to form a Δ well-defined region above the reduced likelihood and a Δ poorly defined region below the reduced likelihood. Form. The value of Δ controls the width of the search. The larger Δ, the larger the number of word passes that are considered to be extendable. L.

を確定するのにlogloを用いる場合、△の値が2.
0であれば満足すべき結果が得られる。乙の値がラベル
間隔の長さに沿って均一であることは、望ましいけれど
も、必ずしも必要ではない。′ワード・パスが、△規定
の良い領域内にある境界ラベルに尤度を有する場合、そ
のワード・ノ(スは”良い゛とマークされる。その他の
場合には、ワード・パスは”悪いパとマークされる。
When using loglo to determine , the value of △ is 2.
If it is 0, a satisfactory result can be obtained. Although it is desirable, it is not necessary for the value of B to be uniform along the length of the label interval. ``If a word path has a likelihood of a boundary label falling within the specified good region, then the word path is marked as ``good.'' Otherwise, the word path is marked as ``bad.'' Marked as Pa.

第22図に示すように、尤度包路線を更新し、ワード・
パスを゛良い”(延長が可能な)・くス、または”悪い
゛°パスとしてマークするループは、マークされていな
い最長ワード・パスを探すブロック8058で始まる。
As shown in Figure 22, the likelihood hull line is updated and the word
The loop for marking paths as "good" (extensible) or "bad" paths begins at block 8058, which looks for the longest unmarked word path.

2以上のマークされていないワード・パスが、最長のワ
ード・バス長に対応するスタックにある場合、その境界
ラベルに最高の尤度を有するワード・パスが選択される
。ワード・パスが発見された場合、ブロック8060で
、その境界ラベルでの尤度がΔ規定の良い領域内にある
かどうかを調べる。もし良い領域内になければ、ブロッ
ク8062で、Δ規定の悪い領域内のパスとマークし、
ブロック8058で、次のマークされていない生きてい
るパスを探す。もし良い領域内にあれば、ブロック80
64で、△規定の良い領域内のパスとマークし、ブロッ
ク8066で、尤度包絡線を更新して、”良い°′とマ
ーりされたパスの尤度値を包含する。すなわち、ラベル
間隔ごとに、更新された尤度値は、(a)  その尤度
包絡線内の現在の尤度値と、(b)  ”良い°゛とマ
ークされたワード・パスに関連した尤度値 の間のより大きい尤度値として確定される。この動作は
ブロック8064および8066で行なわれる。包絡線
が更新された後、ブロック8058に戻り、マークされ
ていない最長、最良の生きているワード・パスを再び探
す。
If more than one unmarked word path is in the stack corresponding to the longest word bus length, the word path with the highest likelihood for its boundary label is selected. If a word path is found, block 8060 checks whether the likelihood at its boundary label is within the good region of the Δ definition. If it is not in the good region, at block 8062, mark the path as being in the bad region of the Δ prescription;
Block 8058 searches for the next unmarked live path. If in good area, block 80
At 64, we mark paths within the △prescribed good region, and at block 8066, we update the likelihood envelope to include the likelihood values of the paths marked as “good°”, i.e., label spacing. For each, the updated likelihood value is between (a) the current likelihood value within its likelihood envelope and (b) the likelihood value associated with the word path marked as "good". is determined as the larger likelihood value of . This operation occurs at blocks 8064 and 8066. After the envelope has been updated, we return to block 8058 and again look for the longest, best unmarked living word path.

このループは、マークされていないワード・パスがなく
なるまで反復される。マークされていないワード・パス
がなくなると、ブロック8070で、最短の”良い”と
マークされたワード・ノくスが選択される。もし、最短
の長さを有する2以上の6良い”ワード・パスがあれば
、ブロック8072で、その境界ラベルに最高の尤度を
有するワード・パスが選択され、選択された最短のノく
スは延長される。すなわち、少なくとも1つの、見込み
のある後続ワードが、前述のように、高速マツチング、
言語モデル、精密マツチング、および言語モデル手順を
良好に実行することにより確定される。見込みのある後
続ワードごとに、延長されたワード・パスが形成される
。詳細に述べれば、延長されたワード・パスは、選択さ
れた最短ワード・パスの終りに、見込みのある後続ワー
ドを付加することにより形成される。
This loop is repeated until there are no more unmarked word paths. Once there are no more unmarked word paths, the shortest "good" marked word path is selected at block 8070. If there are two or more "6 good" word paths with the shortest length, then at block 8072 the word path with the highest likelihood for its boundary label is selected and the selected shortest word path is is lengthened, i.e. at least one likely successor word is passed through fast matching, as described above.
Determined by successful execution of the language model, precision matching, and language model procedures. For each potential successor word, an extended word path is formed. Specifically, an extended word path is formed by appending a likely successor word to the end of the selected shortest word path.

選択された最短ワード・パスが、延長されたワード・パ
スを形成した後、該選択されたワード・パスは、それが
二ン) IJであったスタックから除去され、その代り
に、各々の延長されたワード・パスは適切なスタックに
挿入される。特に、延長されたワード・パスはその境界
ラベルに対応するスタックへのエントリになる(ブロッ
ク8072 )。
After the selected shortest word path forms an extended word path, the selected word path is removed from the stack where it was (2) IJ and is replaced by each extended word path. The word path created is inserted into the appropriate stack. In particular, the extended word path becomes an entry into the stack corresponding to its boundary label (block 8072).

ブロック8072における選択されたパスを延長する動
作を第23図の流れ図に関連して説明する。ブロック8
070でパスが見つかった後、次の手順を実行し、それ
により、ワード・パスまたはパスは適切な概算マツチン
グに基づいて延長される。
The act of extending the selected path at block 8072 is described in conjunction with the flowchart of FIG. Block 8
After the path is found at 070, the following steps are performed whereby the word path or paths are extended based on the appropriate approximate matching.

第23図のブロック6000で、(第2図の)音響プロ
セッサ1004は前述のようにラベルのストリングを生
成する。ラベルのストリングはブロック6002に入力
として供給され、ブロック6002で、基本の、または
改良された概算マツチング手順の1つが実行され、前述
のように一定順序の候補ワードのリストを得る。その後
、ブロック6004で、前記言語モデルを前述のように
使用する。言語モデルを使用した後、ブロック6006
で、残っている対象ワードは、生成されたラベルと一緒
に精密マツチング・プロセッサに送うレる。ブロック6
008で、精密なマツチングは、残っている候補ワード
のリストを生じ、言語モデルに良好に提示される。(概
算マツチング、精密マツチングおよび言語モデルにより
確定された)見込みのあるワードは、第22図のブロッ
ク8070で発見されたパスの延長に用いる。ブロック
6008(第25図)で確定された、見込みのあるワー
ドの各々は、発見されたワード・パスに別個に付加され
、複数の延長されたワード・バスを形成することができ
る(ブロック6010)。
At block 6000 of FIG. 23, acoustic processor 1004 (of FIG. 2) generates a string of labels as described above. The string of labels is provided as an input to block 6002, where one of the basic or improved approximate matching procedures is performed to obtain an ordered list of candidate words as described above. Thereafter, at block 6004, the language model is used as described above. After using the language model, block 6006
The remaining target words are then sent to the precision matching processor along with the generated labels. block 6
At 008, fine matching yields a list of remaining candidate words that are better presented to the language model. Probable words (as determined by approximate matching, precise matching, and language model) are used to extend the path found in block 8070 of FIG. 22. Each of the potential words determined at block 6008 (FIG. 25) may be separately appended to the discovered word path to form multiple extended word buses (block 6010). .

第22図で、延長バスが形成され、スタックが再形成さ
れた後、ブロック8052に戻ってプロセスを反復する
In FIG. 22, after the extension bus is formed and the stack is re-formed, the process returns to block 8052 and repeats.

従って、反復ごとに、最短、最良の”良いパワード・バ
スが選択され、延長される。ある反復で1悪い”バスと
マークされたワード・バスは後の反復で”良い”バスに
なることがある。よって、生きているワード・バスが”
良い”バスか、′悪い“バスかという特徴は、各々の反
復で独立して付与される。実際には、尤度包絡線は1つ
の反復と次の反復とで大幅には変化しないので、ワード
・バスが良いか悪いかを決定する計算は効率的に行なわ
れる。更に、正規化も不要になる。
Therefore, in each iteration, the shortest, best "good" powered bus is selected and lengthened. A word bus marked as one bad bus in one iteration can become a "good" bus in a later iteration. be. Therefore, the living word bus is
The characteristics of a 'good' or 'bad' bus are applied independently at each iteration. In practice, the likelihood envelope does not change significantly from one iteration to the next, so the computation to determine whether a word bus is good or bad is done efficiently. Furthermore, normalization becomes unnecessary.

完全な文を識別する場合、ブロック8074を包含する
ことが望ましい。すなわち、生きているワード・バスで
マークされずに残っているものはな(、延長すべき”良
いパワード・バスがない場合、復号は終了する。その境
界ラベルのそれぞれに最高の尤度を有する完全なワード
・バスが、入カラペル・ストリングの最も見込みのある
ワード・シーケンスとして識別される。
When identifying complete sentences, it is desirable to include block 8074. That is, the decoding terminates if there is no "good powered bus" to extend that remains unmarked in the live word bus (with the highest likelihood for each of its boundary labels). A complete word bus is identified as the most likely word sequence for the incoming carapel string.

文終了が識別されない連続音声の場合、バス延長は、継
続して行なわれるか、またはそのシステムのユーザが希
望する所定のワード数まで行なわれる。
In the case of continuous speech where end-of-sentence is not identified, bus extension occurs continuously or up to a predetermined number of words as desired by the user of the system.

F2f、スタック・デコーダ実施例(第1図)IBM4
341でランするとき、第1図に示すようなスタック−
デコーダ1002に含まれる手段として、 (a)  各ラベル間隔にラベル・スタックを割当てる
手段(スタック割当装置6102);(b)  対象ワ
ード・バスについて、(i)その対象ワード・バスが終
了する見込みが最も大き〜・境界ラベル間隔、および(
ii)その境界ラベル間隔まで(境界ラベル間隔を含む
)の各ラベル間隔での尤度 を決定する手段(対象ワード・バス決定装置6104)
; (e)  対象ワード・バスを、その境界ラベルに対応
するラベル・スタックに入力として割当てる手段(スタ
ック割当装置6102); (d)  各ワード・バスに作用する前記決定手段およ
び割当て手段; (、)  文に対応する最も見込みのあるワード・バス
を含む完全バス・スタックを、もしあれば、維持する手
段(スタック割当装置6IC!2)、(f)  尤度包
絡線を、 (i)完全バス・スタックに含まれたワード・バスのそ
れぞれの尤度、または(i1)完全バス・スタックにワ
ード・バスが含まれていない場合、各ラベル間隔での最
小基準尤度 として形成する手段(尤度包絡線形成装置6106); (g)  尤度包絡線で尤度を縮小する手段(包絡線縮
小装置610B); (h)  最も長い最初のすべてのラベル・スタックで
ワード・バスのエントリを検査し、ラベル′?スタック
が2以上のエンドIJを有する場合には尤度の縮少に基
づいたワード・バスを検査する手段(この場合、前記検
査手段は (i)対象ワード・バスの境界ラベルに対応するラベル
での尤度が、境界ラベルに対応するラベルで縮少された
尤度を越える場合、そのワード・バスを良いワード・バ
スとして分類する手段(ワード・バス分類装置6110
)を含み、(ii)前記分類手段は対象ワード・バスと
して各ワード・バスに作用する); (i)  ワード・バスを良いワード・バスとして分類
した後、包絡線内のラベルごとの尤度値を、(i)包絡
線内の現在の尤度値、または(i1)分類された良いワ
ード・バスにおける尤度値 のどちらか大きい方に更新する手段(包絡線更新装置6
112); (j)  すべてのワード・バスが分類された後、最短
の良いワード・バスを、延長すべきワード・バスとして
選択するか、または、長さが最短の良いワード・バスが
2以上ある場合、その境界ラベルで最高の尤度値を有す
る最短のワード・バスを、延長すべきワード・バスとし
て選択する手段(最短の良いワード・バス選択手段61
14)がある。
F2f, stack decoder embodiment (Figure 1) IBM4
341, the stack as shown in Figure 1 -
Decoder 1002 includes: (a) means for allocating a label stack for each label interval (stack allocation device 6102); (b) for a target word bus, (i) determining whether the target word bus is expected to terminate; The largest ~・boundary label interval, and (
ii) means for determining the likelihood at each label interval up to (including the boundary label interval) the boundary label interval (target word bus determination device 6104);
(e) means for allocating the target word bus as input to a label stack corresponding to its boundary label (stack allocator 6102); (d) said determining means and allocating means acting on each word bus; ) a means (stack allocator 6IC!2) for maintaining a complete bus stack, if any, containing the most likely word bus corresponding to the sentence; (f) a likelihood envelope; (i) a complete bus stack; - the likelihood of each word bus included in the stack, or (i1) if the complete bus stack does not contain any word buses, a means of forming it as the minimum reference likelihood at each label interval (likelihood an envelope former 6106); (g) means for reducing the likelihood with a likelihood envelope (envelope reducer 610B); (h) examining the entries of the word bus in the longest initial all label stacks; ,label'? Means for testing a word bus based on likelihood reduction if the stack has two or more end IJs, in which case the testing means comprises (i) a label corresponding to a boundary label of the target word bus; means for classifying the word bus as a good word bus (word bus classifier 6110
); (ii) the classification means acts on each word bus as a target word bus); (i) after classifying the word bus as a good word bus, the likelihood for each label in the envelope; Means for updating the value to the greater of (i) the current likelihood value in the envelope, or (i1) the likelihood value in the classified good word bus
112); (j) After all word buses have been sorted, select the shortest good word bus as the word bus to be extended, or if there are two or more good word buses with shortest length. If so, means for selecting the shortest word bus with the highest likelihood value at that boundary label as the word bus to be extended (shortest good word bus selection means 61
14).

対象ワード・バス決定装置6104は、高速マツチング
、言語モデル、および精密マツチングに基づいて最も見
込みのある後続ワードのリストを生成し、選択された最
短の良いワード・バスに見込みのある後続ワードの1つ
を付加することにより、少なくとも1つの延長されたワ
ード・バスを形成する。対象ワード・バス決定装置61
04は、(死んでいる)延長ワード・バスを、それから
取出された延長ワード・バスに置換える。この延長ワー
ド・バスは、その境界ラベルのラベル間隔に基づき、ス
タック割当装置6102により、適切なスタックに割当
てられる。
The target word bus determiner 6104 generates a list of most likely successor words based on fast matching, language models, and precision matching, and assigns one of the likely successor words to the selected shortest good word bus. by adding one to form at least one extended word bus. Target word/bus determining device 61
04 replaces the (dead) extension word bus with the extension word bus taken from it. The extended word bus is assigned to the appropriate stack by the stack allocator 6102 based on the label spacing of its boundary label.

F2g、代替実施例 更に計算所要量を減少し、かつ(または)精度を改善す
るために、下記の変更を行なう。
F2g, Alternative Embodiment To further reduce computational requirements and/or improve accuracy, the following changes are made.

第1に、特定のスタックから延長するパス数に限界を設
けることができるようにする。例えば、特定のスタック
から10以下の最も見込みのあるワード・バスについて
だけ延長を行なう。
First, it allows a limit to be placed on the number of passes extending from a particular stack. For example, extend only the 10 or fewer most likely word buses from a particular stack.

第2に、既に延長されたワード・バス長に基づいて延長
しうるワード・パス長の最小限の設定限界を設ける。例
えば、スタック(i)からワード・バスが延長されてい
る場合、スタック(t−a)、スタック(t−a−1)
、優・・、スタック(0)でのワード・バスの延長は行
なわない(a”は選択可能な値である)。
Second, there is a minimum set limit for the word path length that can be extended based on the already extended word bus length. For example, if a word bus is extended from stack (i), stack (t-a), stack (t-a-1)
, Excellent..., no extension of the word bus in stack (0) is performed (a'' is a selectable value).

第6に、バス選択プロセスで、包絡線を再計算する前に
、2以上の良いバスを選択して延長することができるよ
うにする。
Sixth, allow the bus selection process to select and extend two or more good buses before recalculating the envelope.

連続音声で、所与のワード・バスの境界ラベルの正確な
推定値を得ることが困難な場合が時々ある。多くの異な
った終了時刻が、妥当な境界ラベルとして現われること
がある。この場合、妥当な境界ラベルに対応する各スタ
ックにエントリを挿入することができる。
In continuous speech, it is sometimes difficult to obtain an accurate estimate of the boundary labels of a given word bus. Many different end times may appear as valid boundary labels. In this case, an entry can be inserted into each stack corresponding to a valid boundary label.

NベヘNωののののののの■の( W臂い哨のい−の〇唖りクM) ’O%へ 000口0
00 C) 00 CI OO0(聾 一曳一−FへヘヘINへへへへへ 。
NbeheNω's nononononononono■ ( W's kneeling guard's ini-no's 〇 M) '0% to 000 mouths 0
00 C) 00 CI OO0 (Hehehe IN hehehehe.

哨  C1−o  ロ [6\1へ訣   層1へ壇 謂lへ1ま   1へや
G0発明の効果 本発明により、ラベル・ストリングが連続的に生成され
る場合の音声認識で、複数のワード・パスの中から最も
見込みのあるワード・シーケンスを復号することができ
る。
C1-o B - Be able to decode the most likely word sequence among the paths.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明によるスタック・デコーダの実施例を示
す図、第2図は本発明を実施しうるシステム環境の概要
ブロック図、第6図は第2図のシステム環境の中のスタ
ック・デコーダを詳細に示したブロック図、第4図は整
形セツション中に得られた統計値により記憶装置で識別
され、表示される精密マツチング音素マシンを示す図、
第5図は連続するスタック復号のステップを示す図、第
6図は音響プロセッサの要素を示す図、第7図は音響モ
デルの構成要素を形成する場所を表わす代表的な人間の
耳の部分を示す図、第8図は音響プロセッサの部分を示
すブロック図、第9図は音響プロセッサの設計に用いる
、音の強度と周波数の関係を示す図、第10図はソーン
とホンとの関係を示す図、第11図は第6図の音響プロ
セッサにより音響を特徴づける方法を示す流れ図、第1
2図は第11図で限界値を更新する方法を示す流れ図、
第13図は精密マツチング手順のトレリスすなわち格子
を示す図、第14図はマツチングを実行するのに用いる
音素マシンを示す図、第15図は特定の条件を有するマ
ツチング手順で用いる時刻分布図、第16図(、)〜(
、)は音素、ラベル・ストリングおよび、マツチング手
順で決定された開始・終了時刻の間の相互関係を示す図
、第17図(a)および(b)は最小の長さが0の特定
の音素マシンおよびそれに対応する開始時刻分布を示す
図、第18図(a)および(b)は最小の長さ4の特定
の音素マシンおよびそれに対応するトレリスを示す図、
第19図は同時に複数ワードの処理を可能にする音素の
木構造を示す図、第20図は整形されたワード基本形式
を形成する際に実行するステップの概略の流れ図、第2
1図はそれぞれのワード・パスの尤度ベクトルおよび尤
度包絡線を示す図、゛第22図は本発明によるスタック
復号手法の流れ図、第23図は選択されたワード・パス
を延長する際に実行する流れ図である。 1000・・・・音声認識システム、1002・・・・
スタック・デコーダ、1004・・・・音響プロセッサ
、1006.10C18・・・・アレイ・プロセッサ、
1010・・・・言語モデル、1012・・・・ワーク
ステーション、1020・・・・探索装置、1022、
v24.1026.1028・・・・インタフェース。 出願人 インターナシタカいビジネス・マシ〒Xズ・コ
一幀ト→eン復代理人 弁理士  澤   1)  俊
   夫第5図 ”To BE ORNOT To BE″とスフ・ンク
イbスデ・・lプ礪贋ムY仝舌 o−’           >−−’>一\ 味も Δ = 第11図 4f@10ヤ、すの動作の沫れ @13図 ボ釘名マッテンク゛′未1子 9?間 竜虎マシン 第14図 闘111分斤日 第15図 第16図
FIG. 1 is a diagram showing an embodiment of a stack decoder according to the present invention, FIG. 2 is a schematic block diagram of a system environment in which the present invention can be implemented, and FIG. 6 is a stack decoder in the system environment of FIG. 2. FIG. 4 is a block diagram illustrating a precision matching phoneme machine identified and displayed in a storage device by statistical values obtained during a shaping session;
FIG. 5 shows the successive stack decoding steps, FIG. 6 shows the elements of the acoustic processor, and FIG. 7 shows the parts of a typical human ear showing the locations forming the components of the acoustic model. Figure 8 is a block diagram showing the part of the acoustic processor, Figure 9 is a diagram showing the relationship between sound intensity and frequency used in designing the acoustic processor, and Figure 10 is the relationship between the horn and the horn. FIG. 11 is a flowchart showing a method for characterizing sound by the sound processor of FIG.
Figure 2 is a flowchart showing how to update the limit value in Figure 11;
13 shows the trellis or lattice of the precision matching procedure; FIG. 14 shows the phoneme machine used to perform the matching; FIG. 15 shows the time distribution diagram used in the matching procedure with specific conditions; Figure 16(,)~(
, ) shows the interrelationship between phonemes, label strings, and start and end times determined by the matching procedure. 18(a) and (b) are diagrams showing a specific phoneme machine of minimum length 4 and its corresponding trellis;
FIG. 19 is a diagram showing a phoneme tree structure that allows processing of multiple words at the same time; FIG.
Figure 1 shows the likelihood vector and likelihood envelope of each word path, Figure 22 is a flowchart of the stack decoding method according to the present invention, and Figure 23 shows the process of extending the selected word path. It is a flowchart of execution. 1000...Voice recognition system, 1002...
Stack decoder, 1004...Acoustic processor, 1006.10C18...Array processor,
1010...language model, 1012...workstation, 1020...search device, 1022,
v24.1026.1028...Interface. Applicant: Internashitaka Ai Business Machine X's Co., Ltd. Sub-Agent: Patent Attorney Sawa 1) Toshio Figure 5 "To BE ORNOT To BE" and Sufu Nkui Sude...l The taste is also Δ = Fig. 11 4f @ 10 ya, Su's movement is dripping @ 13 Bo nail name Mattenku ゛' 1 child 9? Inter Dragon Tiger Machine Figure 14 Fight 111 Minute Day Figure 15 Figure 16

Claims (1)

【特許請求の範囲】 音声入力に応じて音響ラベルのストリングを生成する音
響プロセッサおよび生成されたストリング中のラベルに
対し語彙中のワードをマッチングさせるデコーダを有す
る音声認識システムにおいて、見込みのある少なくとも
1つの音声入力ワード・シーケンスの形成方法であつて
、 (a)音声入力に応じてラベルのストリングを生成し、 (b)該ストリングの先頭の部分でのラベルに対応する
可能な最初のワードとしてのワードを語彙から選択し、 (c)選択された対象ワードについて、 (i)該ストリングにおいて、該選択された対象ワード
が終了する最高の確率を有する最も見込みのある境界ラ
ベル間隔を見つけるとともに、(ii)該最も見込みの
ある境界ラベル間隔までの、かつ該最も見込みのある境
界ラベル間隔を含む該ストリングの各ラベル間隔で、該
選択された対象ワードのそれぞれの尤度を評価し、 (d)該選択された対象ワードとして選択されたワード
ごとにステップ(c)を反復し、 (e)所与の選択されたワードを、その最も見込みのあ
る境界ラベル間隔に対応する特定のラベル間隔での尤度
が、前記特定のラベル間隔で選択された任意のワードの
最高の尤度の所定の範囲内にある場合、延長可能として
分類する ステップを含むことを特徴とする見込みのある音声入力
ワード・シーケンスの形成方法。
Claims: A speech recognition system comprising an acoustic processor that generates a string of acoustic labels in response to an audio input and a decoder that matches words in a vocabulary to labels in the generated string. A method of forming an audio input word sequence comprising: (a) generating a string of labels in response to audio input; (c) for the selected target word, (i) find the most likely boundary label interval in the string that has the highest probability that the selected target word ends; ii) evaluating the likelihood of each of the selected target words at each label interval of the string up to and including the most likely boundary label interval; (d) repeating step (c) for each word selected as the selected target word; and (e) labeling a given selected word at a particular label interval corresponding to its most likely boundary label interval. a prospective speech input word, characterized in that the method comprises the step of: classifying as extendable if the likelihood is within a predetermined range of the highest likelihood of any word selected in said particular label interval; How sequences are formed.
JP61032049A 1986-02-18 1986-02-18 Formation of prospective voice input word sequence Granted JPS62194292A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61032049A JPS62194292A (en) 1986-02-18 1986-02-18 Formation of prospective voice input word sequence

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61032049A JPS62194292A (en) 1986-02-18 1986-02-18 Formation of prospective voice input word sequence

Publications (2)

Publication Number Publication Date
JPS62194292A true JPS62194292A (en) 1987-08-26
JPH0372993B2 JPH0372993B2 (en) 1991-11-20

Family

ID=12348008

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61032049A Granted JPS62194292A (en) 1986-02-18 1986-02-18 Formation of prospective voice input word sequence

Country Status (1)

Country Link
JP (1) JPS62194292A (en)

Also Published As

Publication number Publication date
JPH0372993B2 (en) 1991-11-20

Similar Documents

Publication Publication Date Title
US4759068A (en) Constructing Markov models of words from multiple utterances
US4748670A (en) Apparatus and method for determining a likely word sequence from labels generated by an acoustic processor
US4977599A (en) Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence
US4980918A (en) Speech recognition system with efficient storage and rapid assembly of phonological graphs
US4718094A (en) Speech recognition system
US4833712A (en) Automatic generation of simple Markov model stunted baseforms for words in a vocabulary
WO2020024690A1 (en) Speech labeling method and apparatus, and device
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
JP3948747B2 (en) Pattern recognition method and system based on tree configuration probability density
JPH1063291A (en) Speech recognition method using continuous density hidden markov model and apparatus therefor
EP0535146A4 (en)
CN108877835A (en) Evaluate the method and system of voice signal
US20040172249A1 (en) Speech synthesis
JP4532862B2 (en) Speech synthesis method, speech synthesizer, and speech synthesis program
US20050246172A1 (en) Acoustic model training method and system
EP0238697B1 (en) Method of constructing baseform models of words from multiple utterances for speech recognition
JP2001312293A (en) Method and device for voice recognition, and computer- readable storage medium
JPS62194292A (en) Formation of prospective voice input word sequence
EP0238695B1 (en) Automatic generation of simple markov model stunted baseforms for words in a vocabulary
EP0238691B1 (en) Method and apparatus for determining a likely word sequence from labels generated by an acoustic processor
JPS62194291A (en) Word basic pattern building method
Chen et al. Utterance verification using prosodic information for mandarin telephone speech keyword spotting
JPS62194295A (en) Multiple pronunciation processing for each word
JPH0372996B2 (en)
EP0238698B1 (en) Method and apparatus for generating word model baseforms for speech recognition