JPH0372998B2

JPH0372998B2 -

Info

Publication number: JPH0372998B2
Application number: JP62043234A
Authority: JP
Inventors: Rai Baaru Raritsuto; Fuitsutsuhyuu Buraun Piitaa; Uinsento Desooza Piitaa; Reroi Maasaa Robaato
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1986-03-27
Filing date: 1987-02-27
Publication date: 1991-11-20
Also published as: US4827521A; EP0240679B1; CA1262188A; JPS62231995A; EP0240679A1; DE3778579D1

Description

【発明の詳細な説明】以下の順序で本発明を説明する。Ａ産業上の利用分野Ｂ従来の技術Ｃ発明が解決しようとする問題点Ｄ問題点を解決するための手段Ｅ実施例（）音声認識システムの全体的説明（）単語表現マルコフ・モデルの学習の改
善 (A) 概観 (B) カウントに基づく、遷移確率及びラベル
出力確率の決定 (C) カウント値の決定 (D) Baum−Welchアルゴリズム (E) 詳細マツチング (F) 近似的高速マツチング (G) 音声学的ベースフオームの構築Ｆ発明の効果Ａ産業上の利用分野本発明は、音声認識システムに於て単語を特徴
付けるために用いることができる確率的音響モデ
ルのための学習、即ち確率及び統計の決定の分野
に係る。Ｂ従来技術マルコフ・モデリングは、音声認識を含む種々
の分野で用いられている確率的手法である。一般
的には、マルコフ・モデルは、複数の状態、状態
間に延びる遷移、並びに各遷移の発生及びそれら
の遷移の少なくとも幾つかの各々に於ける出力
（予め定義された一組の出力からの）の発生に関
する確率として表わされる。マルコフ・モデルの一般的概念は知られている
が、その概念を音声認識に於て用いられるように
適合させる、マルコフ・モデリングの特定の方法
論及び実施は、未だ研究課題である。多くの論文
が、実験的な音声認識の情況に於けるマルコフ・
モデルの使用について論じている。それらの論文
には、例えば、F.Jelinekによる“Continuous
Speech Recognition by Statistical Methods、”
Proceedings of the IEEE、第64巻第４号（1976
年）並びにL.R.Bahl、F.Jelinek、及びR.L.
Mercerによる“Ａ Maximum Likelihood
Approach to Continuous Speech
Recognition、”IEEE Transactions on Pattern
Analysis and Machine Intelligence、第PAMI
−５巻、第２号（1983年３月）等がある。マルコフ（又は同様な）・モデルを用いた音声
認識に対する１つの実験的な確率的方法に於て
は、音響波形が初めにラベル系列に変換される。
各々１つの音のタイプを識別するそれらの等は、
別個のラベルから成るアルフアベツト（集合）か
ら選択される。各単語に１つのマルコフ・モデル
が割当てられる。他のマルコフ・モデルの場合と
同様に、それらの“単語モデル”は、(a)複数の状
態（初期状態から開始して、最終状態で終了す
る）、及び(b)状態間に延びる遷移を含む。各単語
モデル、即ち“ベースフオーム”について、(a)遷
移に関連する確率と、(b)ラベル出力確率とを反映
する値を記憶する手段が存在する。各ラベル出力
確率は、所与のラベルが所与の遷移に於て生じる
尤度に対応するように意図されている。マルコフ・モデルに関して統計を発生させて確
率を決定するプロセスは、“学習”と呼ばれる。
単語モデルの学習を行う場合、典型的には、既知
の発声（以下に於ては、或る語彙中の単語の発声
と考える）の学習スクリプトが、システムのユー
ザにより音響プロセツサ中に発声される。音響プ
ロセツサは、ユーザにより既知単語の発声に応答
してラベル系列を発声する。学習スクリプトの発
声に応答して発生されたラベルから、統計が発生
され、それらから確率が決定される。 “最大尤度学習”と呼ばれる、学習に対する１
つの方法が、マルコフ・モデリングに於て一般的
に用いられている。この方法によれば、学習デー
タが発生される尤度を最大にする統計が見出され
る。即ち、ラベルa₁a₂……の系列Ａ及びマルコ
フ・モデルＭが与えられたとき、式Pr（Ａ｜Ｍ）
を最大にする統計が求められる。その最大尤度方
法に於ては、モデルＭが与えられたときの系列Ａ
の確率が最大になるように、モデルＭの統計が定
義される。この方法は、妥当に正確な結果を与え
る。しかし、その最大尤度方法は、単語のデコーデ
イングの精度を最大にするために特に敵したもの
ではない。単語モデルは近似的なものであるの
で、Ｍを与えられたときのＡの確率を最大にする
統計の定義と、発声入力に対して正しい単語を与
える精度を最大にする統計の定義との間には相違
がある。その相違の結果、最大尤度方法のみを頼
りに学習された単語モデルは、不精確さの問題を
或る程度有している。確率的音声認識システムの精度が、確率値を含む
単語モデルの精度に大きく依存するという点で、
単語モデルの精度は、達成できる妥当な高さであ
ることが極めて重要である。Ｃ発明が解決しようとする問題点本発明の目的は、好ましくは音声認識の環境に
於て、単語のデコーデイングの精度を最大にする
方法で、マルコフ・モデル及び同様なモデルの学
習を行うことである。具体的に云えば、本発明
は、正しい単語の確率を、他の単語に関連する確
率に関して大きくする方法で、各モデルに関する
統計を決定することに係る。その原理は、他の方
法の場合の如く、スクリプトを与えられたときの
ラベルの確率を最大にするよりも、ラベル出力を
与えられたときの発声された単語の正しいスクリ
プトの確率と、任意の他の（正しくない）スクリ
プトの確率との相違を最大にすることである。Ｄ問題点を解決するための手段上記目的を達成するために、本発明は、コミユ
ニケートされた単語入力に応答して発生された、
出力のアルフアベツトから選択された出力から語
彙中の単語がデコードされ、上記語彙中の各単語
が少なくとも１つの確率的有限状態モデルのベー
スフオームにより表わされ、各確率的モデルが遷
移確率項目と出力確率項目とを有し、そして少な
くとも幾つかの確率項目の各々について確率値が
記憶されるシステムに於て、或る既知単語入力の
コミユニケーシヨンに応答して発生された出力が
該既知単語のためのベースフオームにより生じる
尤度を、上記の発生された出力が他の少なくとも
１つの単語のためのベースフオームにより生じる
各々の尤度に関して、大きくするために、記憶さ
れた確率値の少なくとも幾つかにバイアスを加え
ることを含む、確率値の決定方法を提供する。各単語モデルは、１つ又はそれ以上の連続する
確率的有限状態マシーンにより表わされることが
好ましい。各マシーンは、一組の単音からの１つ
の“単音（phone）”に対応する。各単音は、マ
ルコフ・モデル又は同種のものを指定することが
できる、音声学的要素、ラベル即ちフイーニーム
（feneme−フロント・エンド・プロセツサ等から
得られる音素）、又は何らかの他の予め定義され
た音声の特徴付けと相互関係を有している。学習スクリプトは、典型的には、一連の既知単
語より成り、各単語は一連の単音を構成し、従つ
て各単語は一連の単音マシーンにより表わすこと
ができる。本発明の方法によれば、確率項目に関連する確
率値は次の如く評価される。各確率項目に関し
て、定義された予測値θ′が存在する。予測値θ′及び学習中に発生されたラベルが与え
られたとき、“単一カウント”と呼ばれる値が決
定される。一般的には、“単一カウント”は、或
る事象が学習データに基づいて生じた（予測され
た）回数に関連する。“単一カウント”の１つの
特定の定義は、(a)或る一定のラベル系列Ｙ、(b)定
義された予測値θ′、及び(c)或る特定の時間ｔを与
えられたときの、或る特定の遷移τ_i及び状態S_jの
確率である。上記単一カウントは、周知のフオワード・バツク
ワード・アルゴリズム、又はBaum−Welchアル
ゴリズムを適用することによつて決定される。上記定義によれば、単一カウントは次式で表わ
すことができる。 Pr（S_j、τ_i｜Ｙ、θ′、ｔ）各時間ｔの特定のS_j、τ_i、Ｙ、及びθ′のための
単一カウントを合計することにより、“遷移累計
カウント”が対応する遷移確率項目について決定
される。遷移累計カウントは確率の合計であるた
め、その値は１を越えることがある。各遷移確率
項目について、各々の累計カウントが記憶される
ことが好ましい。所与の遷移のためのその累計カ
ウントを、状態S_jから取出すことができるすべて
の遷移のための累計カウントの合計で割ることに
より、各々の遷移確率項目のための現在の確率値
が決定される。その現在の確率値は、好ましく
は、その各々の遷移確率項目に関連して記憶され
ることが好ましい。ラベル出力確率項目についても、単一カウント
が合計される。それらの確率項目の各々に関し
て、或る特定のS_j、τ_i、Ｙ、及びθ′のための単一
カウントの合計が、ラベル系列に於ける対応する
発生されたラベルがそのラベル出力確率項目に対
応するラベルである、すべてのラベル時間につい
て得られる。この場合の合計は、“ラベル出力累
計カウント”であり、それに対応するラベル出力
確率項目に関連して記憶されることが好ましい。
この累計カウントを、特定のS_j、τ_i、Ｙ、及び
θ′のためのすべてのラベル時間に亘る単一カウン
トの合計で割ることにより、各々のラベル出力確
率項目のための現在の確率値が決定される。本発明の方法は、確率的単語、より具体的には
音声の認識システムに於ける単語のデコーデイン
グの精度を高めるために、上記の確率項目の現在
の確率値を改善することに係る。本発明の方法によれば、発声された既知単語の
学習スクリプト、各確率項目のための初期確率
値、及び学習中に発声された各単語のための候補
単語のリストが規定される。候補単語リストは、
本出願人による特願昭60−255205号明細書に記載
されているマツチング手順の如き手順によつて定
義される。すべての既知の発声された単語に対し
て、“正しい”既知の単語及び“正しくない”単
語（好ましくは、既知単語として誤つてデコード
される最大尤度を有している正しくない単語）が
存在する。確率項目の現在の確率値は、正しい単
語のベースフオーム又は正しくない単語のベース
フオームに於ける各確率項目のための“プラス・
カウント値”及び“マイナス・カウント値”を初
めに計算することによつて決定される。プラス・カウント値は対応する確率項目（各確
率項目）のための累計カウントに加えられ、マイ
ナス・カウント値は上記累計カウントから差引か
れる。それらの調整された累計カウントに基づ
き、確率項目のための確率値が再び計算されて記
憶される。“プラス・カウント値”は、周知のフ
オワード・バツクワード・アルゴリズムを適用
し、好ましくはその結果生じる統計を基準化する
ことにより、正しい（即ち、既知の）単語のベー
スフオームに於ける各確率項目について計算され
る。その加算は、カウント値（及びそれらから引
出された確率項目）を系列Ｙの方へ近づくように
バイアスさせて、系列Ｙが正しい単語モデルのよ
り高い尤度の出力に思われるようにする。所与の確率項目のためのマイナス・カウント値
は、あたかも正しくない単語が発声されて、その
ラベル系列が生じたかのようにフオワード・バツ
クワード・アルゴリズムを適用することにより計
算される。その既知単語の単一の発声から引出さ
れたマイナス・カウント値は、（“プラス・カウン
ト値”との加算の前又は後に）対応する累計カウ
ントの最も最近の値から差引かれる。その減算
は、正しくない単語のベースフオームに於ける確
率項目の計算に用いられた累計カウントを系列Ｙ
から離れるようにバイアスさせる。語彙中の各単語に上記ステツプを行うことによ
り、記憶されたカウント値及び確率値がデコーデ
イングの精度を高めるように調整される。従つて、本発明の目的は、デコーデイング・エ
ラーをゼロにするように確率及び統計を決定する
ことであり、又音声から語彙中の単語へのデコー
デイングを改善するために他の技術により決定さ
れるカウント値を改善することである。Ｅ実施例次に、本出願人による特願昭60−255205号明細
書を参照して、本発明の方法に係る背景及び環境
について説明する。（）音声認識システムの全体的説明第１図に於て、音声認識システム１０００の全
体的ブロツク図が示されている。システム１００
０は、音響プロセツサ１００４が接続されている
スタツク・デコーダ１００２、近似的な高速音響
マツチングを行うために用いられるアレイ・プロ
セツサ１００６、詳細な音響マツチングを行うた
めに用いられるアレイ・プロセツサ１００８、言
語モデル１０１０、及びワーク・ステーシヨン１
０１２を含む。音響プロセツサ１００４は、音声波形入力を、
一般的には各々が対応する音の種類を識別するラ
ベル系列に変形させるように設計されている。こ
のシステムに於て、音響プロセツサ１００４は、
人間の耳のユニークなモデルに基づいており、本
出願人による特願昭60−211229号明細書に記載さ
れている。上記明細書は、音声入力に応答してラ
ベルを発生させる特に有効な方法を開示してい
る。音響プロセツサ１００４からのラベル（本明細
書に於ては、“フイーニーム”とも呼ばれる）は、
スタツク・デコーダ１００２に入る。論理的に
は、スタツク・デコーダ１００２は、第２図に示
されている素子により表わすことができる。即
ち、スタツク・デコーダ１００２はサーチ素子１
０２０を含み、サーチ素子１０２０は、ワーク・
ステーシヨン１０１２とコミユニケートし、又
各々インタフエース１０２２，１０２４，１０２
６、及び１０２８を経て、音響プロセツサのプロ
セス、高速マツチング・プロセツサのプロセス、
詳細マツチング・プロセツサのプロセス、及び言
語モデルのプロセスとコミユニケートする。動作に於て、音響プロセツサ１００４により発
生されたフイーニームは、サーチ素子１０２０に
より高速マツチング・プロセツサ１００６にコミ
ユニケートされる。詳細マツチング及び高速マツ
チングの手順について以下に説明するが、前述の
特願昭60−255205号明細書にも記載されている。
簡単に云えば、音響マツチングの目的は、音響学
に基づき、所与のラベル系列に関して最も尤度の
高い１つ又は複数の単語を決定することである。
この目的の達成に於て、各単語は、少なくとも１
つの確率的有限状態マシーンにより表わされる。
典型的には、各単語は、一連のそのようなマシー
ンによつて表わされる。各確率的有限状態マシーンは、(a)複数の状態
S_i、(b)幾つかは或る状態から他の状態へ延びてお
り、他の幾つかは或る状態から延びてそれ自体へ
戻り、各々が各々に関連して対応する確率を有し
ている、複数の遷移tr（S_j｜S_i）、及び(c)或る特定
の遷移に於て発生することができる各ラベルに関
する、対応する実際のラベル出力確率によつて特
徴付けられる。便宜上、等価的に、多数の遷移
を、あたかも単一の遷移であるかのように、一群
にまとめて、単一の組のラベル出力確率をそれに
関連させてもよい。それらのマシーンをうめる確率は、学習スクリ
プトがユーザにより発声される学習セツシヨン中
に引出されるデータに基づいて決定される。その
引出されたデータは、ユーザの特定の発声特性に
対応する。語彙中の単語を調べそして入力ラベルの所与の
系列のための候補単語の数を減少させるために、
学習された単語モデル（即ち、単語のベースフオ
ーム）を用いて、高速の近似的音響マツチングが
行われる。その高速マツチングに従つて、確率値
の少なくとも幾つかについて近似値が求められ
る。それから、それらの近似された確率値に基づ
いて、マツチングが行われる。言語モデル１０１０は、高速マツチング用候補
リストに於ける候補単語の如き、種々の単語の
各々の前後関係から尤度を、好ましくは存在する
トリグラムに基づいて、決定する。この方法につ
いては、従来の文献に於て一般的に報告されてい
る。詳細マツチングは、単独でも又は高速マツチン
グと組合わせても行われる。単独で行われるとき
は、各単語モデルの対応する近似されていない確
率値が、対応する単語のマツチング・スコアの決
定に於て考察される。詳細マツチングは、語彙中
の各単語について、スコアを調べて供給する。高速マツチングと組合わせて用いられるとき
は、詳細マツチングは、発声された単語である妥
当な尤度を有し且つ好ましくは言語モデルの計算
に基づく妥当な尤度を有している、高速マツチン
グ用候補リストからの単語を調べる。音響マツチング及び言語モデルから引出された
１つ又は複数の単語が、スタツク・デコーダ１０
０２により用いられる。具体的には、スタツク・
デコーダ１００２は、高速マツチング、詳細マツ
チング、及び言語モデルの適用により引出された
情報を用いて、発生されたラベルの系列のための
最も尤度の高い単語の径路又はシーケンスを決定
するように設計されている。最も尤度の高い単語のシーケンスを見出すため
の従来の２つの技術は、ビタビ・デコーデイング
及び単一スタツク・デコーデイングである。それ
らの各技術は、Bahl、Jelinek、及びMercerによ
る論文“Ａ Maximum Likelihood Approach
to Continuous Speech Recognition、”IEEE
Transactions on Pattern Analysis and
Machine Intelligence、第PAMI−５巻、第２
号、第179頁乃至第190頁（1983年）に記載されて
いる。ビタビ・デコーデイングは、上記論文の第
５節に、単一スタツク・デコーデイングは第６節
に記載されている。単一スタツク・デコーデイング技術に於ては、
異なる長さの径路が尤度に従つて単一スタツクに
リストされ、デコーデイングはその単一スタツク
に基づいて行われる。単一スタツク・デコーデイ
ングは、尤度がある程度径路の長さに依存し、従
つて標準化が一般的に用いられることを考慮に入
れなければならない。ビタビ技術は、標準化を必要とせず、一般的に
は小さな仕事に実用的である。スタツク・デコーダ１００２は、他の素子を制
御するように働くが、多くの計算を行わない。従
つて、スタツク・デコーダ１００２は、好ましく
は、Virtual Machine／System Product
Introduction Release ３（1983）の如き出版物に
記載されている如き、IBM VM／370オペレーテ
イング・システムの下で動作する4341（商品名）
を含む。相当な計算を行うアレイ・プロセツサ
は、市販のFloating Point System、Inc.製
（FPS）190Lを用いて実現された。上記システムの概略的説明に於て、値を割当て
なければならない確率項目を有するマルコフ・モ
デルは、高速マツチング・プロセツサ１００６及
び詳細マツチング・プロセツサ１００８に於て用
いられる。本発明の方法は、単語認識の精度を高
めるために、音響マツチング・プロセツサに於て
用いられる確率項目の値を調整することを含む。（）単語表現マルコフ・モデルも学習の改善（Ａ）概観第３図は、本発明の１つの一般的実施例を示す
流れ図である。ステツプ1102に於て、語彙単語の
学習スクリプトの発声される。ステツプ1104に於
て、学習スクリプトの発声に応答して、ラベルが
発生される。このラベリングは、第１図に関連し
て既に述べた音響プロセツサ１００２により行わ
れる。好ましくは、200個の異なるラベルがあり、各
ラベルは或る時間間隔を占めることができる１つ
の音の種類を識別する。用いられるラベルのアル
フアベツトを定義する技術については、従来の文
献に於て論じられている。或る特定の技術が、前
述の特願昭60−211229号明細書に詳述されてい
る。そのプロセスは、大まかに云えば、音声の特
徴を選択するステツプ、複数のクラスタ又は領域
に区分された空間として音声を定義するステツ
プ、及び各領域にプロトタイプを割振るステツプ
を含む。予め定義されたパラメータの値に基づい
て、種々のプロトタイプの特性からの入力音声の
特性の距離が決定される。それから、“最も近い”
プロトタイプが、音声の或る特定の時間間隔に関
連付けられる。各プロトタイプは、１つのラベル
として識別される。従つて、音声の連続する時間
間隔には、連続するラベルが存在する。クラスタ
の形成、特徴の選択、及びプロトタイプの距離の
測定のための技術は周知である。第３図のステツプ1106に於て、語彙中の各単語
がマルコフ・モデルの単語のベースフオームとし
て表わされる。即ち、各単語は、一連の連結され
た確率的有限状態マシーンにより表わされる。
（連結されたシーケンスも１つの確率的有限状態
マシーンである。）構成している各マシーンは１
つの“単音”マシーンである。前述の如く、単音
は、音声学（即ち、音素）に基づいて特徴付けら
れてもよく、又はラベル（即ち、フイーニーム）
に基づいて特徴付けられてもよい。音声学的、フ
イーニーム的、又は他の特徴付けに関係なく、各
単音マシーンは、(a)複数の状態S_i、(b)S_jがS_iと同
じ状態であつてもなくてもよく、各々が各々に関
連して対応する確率を有している、複数の遷移tr
（S_j｜S_i）、及び(c)或る特定の遷移に於て発生する
ことができる各ラベルに関する、対応する実際の
ラベル出力確率を含む。音声学的単音マシーンの場合、各単音マシーン
は、国際音標文字に於ける１つの要素の如き或る
音声学的要素に対応する。音声学的単音マシーン
の一例が第４図に示されている。第４図に於て、単音マシーン１２００には、７
個の状態S₁乃至S₇及び13個の遷移tr₁乃至tr₁₃が設
けられている。第４図は又、単音マシーンが、点
線の径路を有する３つの遷移、即ち遷移tr₁₁，
tr₁₂、及びtr₁₃を有することを示している。それ
らの３つの遷移の各々に於ては、単音は、ラベル
を生じずに或る状態から他の状態へ変化すること
ができ、従つてそのような遷移はナル遷移と呼ば
れる。ラベルは、遷移tr₁乃至tr₁₀に沿つて生じる
ことができる。具体的に云えば、各遷移tr₁乃至
tr₁₀に沿つて、１つ又はそれ以上のラベルが、そ
の遷移で発生される別個の確率を有することがで
きる。好ましくは、音響プロセツサが発生するこ
とができる各ラベルに関連する確率が、各遷移に
ついて存在する。即ち、音響チヤネルが200個の
ラベルを選択的に発生することができる場合、各
遷移（ナルでない）は、該遷移に関連して200個
の“実際のラベル出力確率”を有し、各ラベル出
力確率は、その対応するラベルがその単音により
その特定の遷移に於て発生される尤度を示す確率
値を有する。遷移tr₁のための実際のラベル出力
確率は、角括弧で挿まれた数字１乃至200の列を
伴つた記号ｐにより表わされ、各数字は所与のラ
ベルを表わしていいる。ラベル１に関しては、単
音マシーン１２００が遷移tr₁に於てラベル１を
発生する確率ｐ〔１〕が存在する。種々の実際の
ラベル出力確率は、そのラベル、及び所与の単音
のための対応する遷移に関連して記憶される。 70個の異なる単音、例えば、各音声学的要素に
１つの単音が存在する場合、すべての単音マシー
ンを考慮に入れた、別個の確率の総数は、ラベル
出力確率と遷移確率との合計である。確率の総数
は以下の通りである。 200〔発生可能な別個のラベル〕 ×10〔１単音マシーン当りの非ナル遷移〕 ×70〔別個の単音〕 140000〔ラベル出力確率〕 13〔１単音当りの遷移〕 ×70〔別個の単音〕 910〔遷移確率〕従つて、知られていなければならない（又は予
測されねばならない）確率の総数は、140000×
910＝140910である。140910個のエントリーを有
するリストがメモリに記憶されることが好まし
い。後述する如く、エントリーの総数は、他の種
類の単音が用いられる場合、又は遷移が相互にマ
ージされる場合には、異なることがある。いずれ
の場合でも、各エントリーは、ラベル出力確率又
は遷移確率（又はマージされた或は結合された事
象を表わす何らかの確率）のいずれかに対応す
る、単一の“確率項目”のためのものである。各確率項目の値は、学習中に決定された“カウ
ント”から引出される。各“カウント”は、或る
既知入力に応答して或る特定のラベル出力の系列
が発生されるとき、所与の時間に於て所与の単音
マシーンに於ける状態から取出されている所与の
遷移の如き、各々の事象が生じる確率を表わす。
好ましくは、カウント値及び確率項目値は、初め
に最大尤度デコーデイング技術に従つて決定され
る。即ち、カウント統計及び確率項目値は、式
Pr（Y_tog｜Ｍ）を最大にするように計算される。
上記式に於て、Y_togは初期学習中に発生されたラ
ベルの系列であり、Ｍはマルコフ・モデルであ
る。以下に詳述する如く異なる種類のカウント
（例えば、単一カウント及び累計カウント）を、
対応する異なる事象を表わすように定義すること
ができる。本発明の方法によれば、各々の確率項目のため
の値が、デコーデイングの性能を改善するように
調整される。具体的に云えば、確率項目が引出さ
れるカウントの値が、正しい単語のデコーデイン
グの方へバイアス即ち調整される。第５図は、第４図の単音マシーン１２００のト
レリスを示す。このトレリスは、状態S₁から状態
S₇へのナル遷移並びに状態S₁から状態S₂へ及び状
態S₁から状態S₄への非ナル遷移を示している。他
の状態の間の遷移も示されている。このトレリス
は又、水平方向に測定された時間を示している。
或る単音が時間ｔ＝t₀に於て開始時間を有する確
率を表わすために、開始時間の確率q₀を決定する
ことができる。開始時間t₀に於て、種々の遷移が
示されている。この点に於て、連続する時間の間
の時間間隔は、ラベルの時間間隔と長さが等しい
ことが好ましい。第５図に於ては、単一の単音が
単一の時間間隔について示されている。音声学的単音マシーンの代りに、フイーニーム
的単音マシーンを単語のベースフオームの構築に
用いてもよい。音声学的単音（典型的には、200
個）でなく、フイーニーム的単音（典型的には、
70個）を用いた場合には、確率の総数が変化す
る。フイーニーム的単音を用いた場合には、１単
語中の単音の数は典型的にはより大きいが、遷移
の選択の総数は典型的にはより小さい。本発明の
方法は、単音の種類に関係なく、適用される。フ
イーニーム的単音より成るフイーニーム的単語の
ベースフオームを構築するための装置及び方法論
については、本出願人による特願昭61−16993号
明細書に開示されている。各フイーニーム的単音マシーンは、第６図に示
す如き構造を有する。一連のフイーニーム的単音
マシーンのトレリスを第７図に示す。第８ａ図及び第８ｂ図は、音声学的単語のベー
スフオームを表わしている。第８ａ図に於ては、
所与の単語に対応する一連の音声学的単音の一例
が、PP７及びPP１０を伴つたPP１であるよう
に示されている。“PP”は、音声学的単音を表わ
す。末尾の数字は各々、70個（又は、それ以上）
の単音の組に於ける或る特定の単音を識別する。
例えば、第８ａ図及び第８ｂ図のベースフオーム
は、単語“THE”のためのベースフオームであ
るものとする。“THE”の１つの音声学的スペリ
ングは、DH−UH1−XXである。この例によれ
ば、PP１は単音DHに対応し、PP７は単音UH
１に対応し、PP１０は単音XXに対応する。単音PP１は第８ｂ図に示す如き確率を有する。
即ち、第１遷移はｐ〔tr1_P1〕として表わされてい
る確率を有し、第２遷移はｐ〔tr2_P1〕として表わ
されている確率を有し、他の各遷移についても同
様である。遷移tr₁には、又ラベル出力確率の配
列体、即ちp_P1′〔１〕、p_P1′〔２〕、……及びp_P1′
〔200〕も存在する。添字P1はその組の音声学的
単音１として単音を識別し、単一のプライム符号
（′）は第１遷移を示す。従つて、p_P1′〔１〕は、
音声学的単音PP１が遷移１に於てラベル１を生
じる確率を表わしている。第８ｂ図には、説明を簡単にするために、代表
的な確率のみが示されている。例えば、音声学的
単音PP７について、１つだけ示されている遷移
の確率は第１遷移の確率であり、即ちｐ〔tr1_P7〕
である。又、遷移tr₁に於けるラベル出力確率の
配列体が、角括弧内に200個のラベルを有する
p_P7′として示されている。詳細に示せば、第８ｂ
図は各遷移について確率を含むことになる。各非
ナル遷移についても、各々の可能なラベル出力に
関する確率が存在する。各音声学的単音の各確率は、メモリ中に記憶さ
れた各々のための値を有している。所与の単語
（例えば、“THE”）は、その所与の単語に対応す
る音声学的単音（例えば、DH，UH１，及び
XX）に関連する、記憶された確率値により特徴
付けることができる。第９図に於ては、或る単語が、次に示す表１の
フイーニームに各々対応する、一連のフイーニー
ム的単音により表わされている。単語“THE”
は、３つの音声学的単音でなく、恐らく60個の連
結した、２状態のフイーニーム的単音により表わ
される。その場合、単語“THE”は、構成する
フイーニーム的単音に対応する遷移確率及びラベ
ル出力確率によつて特徴付けられる。【表】例えば、そのシーケンスに於ける第１のフイー
ニーム的単音は、FP２００である。FP２００
は、３つの遷移を有し、それらは各々の確率ｐ
〔tr1_F200〕、ｐ〔tr2_F200〕、及びｐ〔tr3_F200〕を有
し
ている。FP２００の２つの非ナル遷移１及び２
は、各々に関連するラベル出力確率を有してい
る。フイーニーム的単音FP２００に伴う、フイー
ニーム的単音FP１０及び後続のフイーニーム的
単音も、各々に関連する対応する確率を有してい
る。それらの一連のフイーニーム的単音は、それ
らの関連する確率とともに、“THE”の如き、単
語を定義する。各単音（音声学的又はフイーニーム的）は、多
数の遷移確率及びラベル出力確率を含み、それら
は集合的に“確率項目”と呼ばれる。各確率項目
に、メモリの一部が割当てられ、対応する値がそ
の部分に記憶される。精度を高めるために本発明
の方法に従つて要請されるのは、それらの値であ
る。確率項目のための値の記憶は、第３図のステツ
プ1108に示されている。初めに記憶されている値
の発生は、従来の種々の学習技術に於ける任意の
技術によつて行われる。例えば、前述の論文
“Continuous Speech Recognition by
Statistical Methods”は、その第７節に於て、
或る学習手順について記載している。具体的に云
えば、その学習は、以下に簡単に説明する周知の
フオワード・バツクワード・アルゴリズムに関連
して記載されている。フオワード・バツクワー
ド・アルゴリズムによつて、カウントのための値
が引出され、それらのカウント値から、各確率項
目のための確率値が計算される。本発明の方法
は、それらの確率値、及びそれらの確率値が引出
されるカウント値を改善する。前述の如く、各単語のベースフオームは一連の
単音として特徴付けられ、各単音はそれに関連す
る確率項目（及びそれらのための確率値）により
特徴付けられる。従つて、それらの確率値を記憶
し、割当てることにより、マルコフ単語モデル
（即ち、ベースフオーム）を特徴付けることがで
きる。一連の３つの音声学的単音DH，UH１，及び
XXにより表わされたときの単語“THE”につ
いて再び考察すると、各単音は、第４図の単音マ
シーン１２００の如き単音マシーンにより表わさ
れる。学習セツシヨン中に、単語“THE”を構
成している３つの音声学的単音が発声され、それ
らに応答してラベル（即ち、フイーニーム）の系
列が発生される。発生されたラベルに基づき、フ
オワード・バツクワード・アルゴリズムが第１０
図に示されている如きトレリスを経て進められ、
種々の遷移が調べられる。後述される如く、フオ
ワード・バツクワード・アルゴリズムを用いてカ
ウントのための値が決定され、そのような値が記
憶されそして本発明の方法に従つて調整される。
そのカウント・データから、種々の確率項目のた
めの改良された値が決定されて記憶される。後述される如く、記憶された確率項目の値は、
フオワード・バツクワード・アルゴリズムにより
発生されたカウントから初めに計算された値、又
は本発明の方法に従つて予め調整された値のいず
れかを表わす。一貫性を与えるために、ステツプ
1108に於て記憶された値は、いずれの場合も、以
下に於て“現在”の記憶された値と呼ばれる。再び第３図に於て、ステツプ1108中に記憶され
た値を強調するプロセスが、ステツプ1110に於て
開始される。ステツプ1110に於て、“新しい”単
語が語彙から選択される。その“新しい”単語
は、発声された単語のスクリプトに於ける次の単
語であることが好ましい。その選択された単語
が、“主題の”単語であり、そのための単語モデ
ルが後続のステツプに従つて調べられる。ステツプ1112に於て、主題の単語が一回発声さ
れる。ステツプ1114に於て、上記の単一の発声に
応答して、対応するラベル系列が発生される。発
生されたラベル系列に対して、マツチング手順が
行われ、候補単語の順序付けられたリストが形成
される。その順序付けられたリストを得るための
１つのマツチング手順は、以下に述べられ、又前
述の特願昭60−255205号明細書にも記載されてい
る、高速マツチングである。 “正しい”単語と呼ばれる、実際の発声された
単語は、既知である。更に、音響マツチング中に
形成された候補リストから、少なくとも１つの
“正しくない”単語が、ステツプ1116に於て、選
択される。主題の単語が発声されたとき、“正し
くない”単語が誤つて選択される見込みのない場
合には、ステツプ1118に於て、ステツプ1110に戻
る決定が成される。それから、新しい主題の単語
が選択される。主題の単語が発声されたとき、“正しくない”
単語が誤つて選択される尤度が、定義された妥当
な尤度であれば、“正しい”単語及び“正しくな
い”単語のための現在の確率項目値が調整され
る。より具体的に、主題の単語の１回の発声につい
て考察する。必ずしも必要ではないが、好ましく
は、その１回の発声は、初めの学習セツシヨンの
後に発声される。正しい単語にフオワード・バツ
クワード・アルゴリズムを適用することにより、
その１回の発声から、正しい単語のためのベース
フオームに於ける各確率項目について、多数の
“プラス”・カウントが計算される。それらの“プ
ラス”・カウントは、ステツプ1120に於て計算さ
れる。所望ならば、それらの“プラス”・カウン
トは、基準化され又は重み付けられる。“プラ
ス”・カウントは、各々の記憶されたカウントに
対応し、各々の記憶されたカウントの現在の値へ
の加数として働く。その増加は、“正しい”単語
のための確率項目の計算に用いられた各々の記憶
されたカウントについて、ステツプ1122に於て行
われる。即ち、正しい単語のためのベースフオー
ムに含まれる140910個の確率項目の各々につい
て、それに関するカウントが認識され、そのため
の記憶された“現在の”値が、対応する“プラ
ス”・カウント値、又はそれに関する基準化され
た又は重み付けられた値で増加される。 “正しい”単語の確率項目の計算に用いられた
カウントの“現在の”記憶された値を増加させる
ことに加えて、本発明の方法は又、“正しくない”
単語のためのベースフオームに含まれている確率
項目の計算に用いられたカウントの“現在の”値
を調整することも特徴とする。この点に於て、主
題の（“正しい”）単語は発声されるが、“正しく
ない”単語のための単語モデルは考察される。
“正しくない”単語のためのベースフオームに関
連するカウントは、それに関連する記憶された
“現在の”値を有している。主題の単語の１回の
発声に基づいて、ステツプ１１２４に於て“マイ
ナス”・カウント値が、“正しくない”単語のため
のベースフオームについて計算される。それか
ら、各々の“マイナス”・カウント値、又はそれ
に関する基準化された又は重み付けられた値が、
負のバイアス値として働く。正しい単語に関連する所与のカウントには、そ
の所与のカウントの記憶された値に加えられる
“プラス・カウント値”（又は、その関連する値）
が存在する。同様に、正しくない単語に関連する
所与のカウントには、その所与のカウントの記憶
された値から差引かれる“マイナス・カウント”
値（又は、関連する値）が存在する。正しい単語
及び正しくない単語に関連する所与のカウントに
ついては、その所与のカウントは、“プラス・カ
ウント値”（又は、関連する値）で増加され、そ
して“マイナス・カウント値”（又は、その関連
する値）で減少される。その結果、各々の所与の
カウントについて、調整された値が得られる。後
に、ステツプ１１２８に於て、それらの調整され
たカウントから確率項目が再計算され、それに応
じて“正しい”単語の方へ近づきそして“正しく
ない”単語から離れるようにバイアスされる。再び第１０図に於て、第４図に示されている如
き単音マシーンに基づくトレリスの一部が示され
ている。具体的に云えば、３つの連続するラベル
の時間間隔に亘る単音モデルが示されている。そ
の単音モデルは、特定の１つ又は複数の単音の発
声を表わすことができる極めて多数のトラツクを
定義している。例えば、所与の単音について、１
つの可能なトラツクは、時間t₀に於て、状態S₁か
ら開始し、それから状態S₂へ進むことができる。
そのトラツクは、時間t₁に於ける状態S₂から時間
t₂に於ける状態S₃へ、それから状態S₇（最終状態）
へと続くことができる。所与の単音はより短かい
長さを有してもよく、より多数の時間間隔に亘つ
て延びてもよい。そのトレリスは、或る発声をト
ラツキングすることができる体系を表わしてい
る。フオワード・バツクワード・アルゴリズム
は、後述される如く、上記トレリスに於ける遷移
及びそれらの遷移に於けるラベル出力確率に関連
する種々の確率を決定するステツプのアウトライ
ンをなす。第１０図のトレリスが、単語“THE”に於け
る如き単音DHに対応するものと仮定する。説明
のため、１つの確率項目について考察する。その
確率項目は、遷移τ_iに於てラベルf_hを生じる尤度
に関連する。この例に於ては、f_hは、ラベル・ア
ルフアベツト中の１つのラベルTH１に対応する
（表１参照）。初めの学習中に、遷移τ_iに於て生じ
ているラベルTH１に対応する確率項目のための
予備的な値が記憶される。そのラベルTH１の確
率項目のための予備値は、好ましくは単音DHの
多数の発声に基づいて、記憶されているカウント
値から計算される。遷移τ_iに於て生じているラベ
ルTH１に関する確率項目のための学習中に引出
された予備値は、0.07であると仮定する。又、
DHの単音マシーンに於ける特定の遷移τ_iに於け
るラベルTH１の発生は、140910個の確率項目の
リストに於ける確率項目9001として識別されるも
のと仮定する。従つて、確率項目9001は、記憶さ
れた現在の確率値0.07を有している。他の各確率
項目についても、予備値が同様に記憶される。更
に、確率項目の確率の計算に用いられる各カウン
トについても、予備値が記憶される。確率項目
9001の計算に用いられたカウントの１つ
COUNTXは、６の予備値を有するものと仮定す
る。後述する如く、COUNTXは、累計カウント
である。すべてのカウント及び確率項目について値が記
憶されて、本発明が進められる。説明のため、
“正しい”単語“THE”について、所与の語彙の
ための高速音響マツチングは、“THEN”が候補
単語であることを示すものと仮定する。その後、
詳細マツチングは、単語“THEN”が、既知の
単語“THE”の単一の発生に基づいて（第３図
のステツプ1114）誤つて選択される（ステツプ
1116）尤度が最も大きい“正しくない”単語であ
ることを示す。そのとき、単語“THEN”のた
めのマツチング・スコアは、音響マツチングに従
つて、単語“THE”のためのマツチング・スコ
アの何らかの予め定義された限界内にあることが
見出される。それから、正しい単語のためのベースフオーム
に於ける各カウントのための“プラス・カウント
値”（ある場合）が、フオワード・バツクワー
ド・アルゴリズムを適用することにより、単一の
発生に基づいて計算される。上記の例を続けて、
確率項目9001、即ち単音DHに於ける遷移τ_iに於
て生じているラベルTH１、のための値の計算に
用いられるCOUNTXは、正しい単語“THE”
の単一の発声に応答して生じた1.5の“プラス・
カウント値”を有するものと仮定する。その“プ
ラス・カウント値”1.5は、必ずしも必要ではな
いが好ましくは、何らかの係数、例えば1/2によ
り基準化される。（その係数を決定することがで
きる１つの方法を以下に述べる。）その基準化さ
れた値0.75が、カウントCOUNTXのための前に
記憶された値６に加えられる。その結果、
COUNTXの値が、6.75に調整される。又、“正しくない”単語“THEN”に対応する
“COUNTX”のための“マイナス・カウント値”
（ある場合）も、フオワード・バツクワード・ア
ルゴリズムを適用することにより決定される。そ
の“マイナス・カウント値”は、0.04であると仮
定する。その“マイナス・カウント値”も、必ず
しも必要ではないが好ましくは、例えば1/2によ
り基準化される。その場合、“マイナス・カウン
ト値”は0.02の値を有する。その“マイナス・カ
ウント値”は、COUNTXの値に適用される減数
として働く。従つて、COUNTXは、６＋0.75−
0.02＝6.73に調整される。カウントが正しい単語のベースフオームと正し
くない単語のベースフオームとの両方に於て用い
られる場合には、それに関連する現在の記憶され
た値は、“プラス・カウント値”で増加され、そ
の合計が“マイナス・カウント値”で減少され
る。加算及び減算の順序は重要ではない。更に、
カウントが正しい単語のベースフオーム又は正し
くない単語のベースフオームのいずれかだけに於
て用いられる場合には、各々のカウントのための
現在の記憶された値に対して、各々“プラス・カ
ウント値”が加えられ又は“マイナス・カウント
値”が差引かれる。カウントのための記憶された
値が調整されると、その調整された値は後に用い
られるためにメモリに入れられる。具体的に云え
ば、各々の調整された値は、後のカウントの調整
に於て、現在の記憶された値として働く。後述さ
れる如く、カウント値が連続的に適切に調整され
るように、単語を相次いで発声してもよい。第３図のステツプ1130に於て、発声されるべき
すべての単語が主題の単語であつたかについて、
決定が成される。そうでない場合には、新しい単
語が選択され、ステツプ1110から始まるプロセス
がその新しい単語について繰返される。発声され
るべきすべての単語が主題の単語であつたとき、
繰返しは終了し、本発明の方法に従つて、確率値
が、繰返しの終りに於けるそれらの値に基づいて
調整されたカウントから再計算される（ステツプ
1128）。それから、確率項目の現在の記憶された
確率値を用いて、次の繰返しに於ける音響マツチ
ング・スコア及びカウント値が決定される。次の
繰返しには、再定義された単語モデルをステツプ
1108に於ける出発点として、プロセス全体が反復
される（ステツプ1132参照）。本発明の方法によれば、所与の確率項目のため
のカウント値の増加及び減少は、連続する単語が
所与の１回の繰返しの間に発声されるとき、多数
回行うことができる。又、複数の繰返しの場合も
同様である。更に、所与の単語に於ける幾つかの
確率項目の計算に、同一のカウントが用いられる
場合には、そのカウントは１回の繰返しに於て数
回調整することができる。次に、第１１図は、本発明の方法の或る特定の
実施例を示す流れ図である。第１１図の実施例に
於て、各カウントは、記憶された“現在の”値を
有する。各カウントの記憶された“現在の”値
は、“プラス・カウント値”及び“マイナス・カ
ウント値”により適切に調整される。用語“カウ
ント”値の１つの定義が以下に提案されている
が、本発明の方法の実施に於て他の定義を用いる
こともできることを認識されたい。第１１図の実施例は、ステツプ1402から開始さ
れる。ステツプ1402に於て、多数の変数が導入さ
れて、セツトされる。それらの変数は、流れ図に
示されるに従つて、以下に定義される。それらの
変数は、所望ならば、変更可能である。ステツプ1404に於て、補助的な予備処理ステツ
プが設けられている。その予備処理ステツプに於
ては、すべての遷移確率分布が、最高の確率を次
に高い確率で置換えてから、その分布を再び標準
化することにより、“平滑化”される。上記予備
処理ステツプの間に、次の開始（start−up）事
象が行われる。 (1) ｎ＝１にセツトする； (2) Ｘ＝ｎ番目の出力分布に於ける２番目に高い
ラベル出力確率にセツトする； (3) ｎ番目の出力分布に於ける最高出力確率＝Ｘ
にセツトする； (4) ｎ番目の出力分布を再標準化する； (5) ｎ＝ｎ＋１にセツトする；そして、 (6) ｎ＞出力分布数であるかどうかを決定し、そ
うでなければ、予備処理ループは上記ステツプ
(2)に戻り、そうであれば、予備処理が終了し
て、ステツプ1406に進む。上記予備処理ステツプは、本発明の方法の重要
なステツプではないが、背景として示されてい
る。ステツプ1406に於て、発声された単語の数を表
わす、変数Ｉが１に於て開始される。ステツプ
1410に於て、Ｉ番目の単語のための“正しい”単
語のベースフオームのための対数（lng）確率、
即ちL_Cがセツトされる。そのＩ番目の単語は、
発声される既知の（又は、主題の）単語である。
lng確率L_Cの値は、音響マツチング中に決定され
る。ステツプ1412に於て、Ｉ番目の単語の単一の発
声に応答して発生されたラベルを生じている尤度
が最大である“正しくない”単語のlng確率がL_I
としてセツトされる。ステツプ1414に於て、L_C
がL_Iを値Ｒだけ超えたかを決定するために、２つ
のlng確率が比較される。Ｒは、典型的には略10
にセツトされる、負でない閾値である。L_CがL_Iを
係数Ｒだけ超えたならば、ステツプ1416に於て、
新しい単語を呼出すためにＩが増分される。すべ
ての単語が呼出されていなければ、プロセスはス
テツプ1410に戻り、新しい単語について処理が継
続される。発声されるべきすべての単語が呼出さ
れたならば、カウントの記憶された“現在の”値
として働く、カウントの前に調整された値を用い
て開始される、プロセス全体が反復される（ステ
ツプ1418及び1420）。そのプロセスは、変数
ITERがステツプ1422に於てインデツクスされ
て、NITERのためにセツトされた値を超える迄
（ステツプ1424）、繰返される。 L_CがL_IをＲよりも大きい値だけ超えていない場
合には、L_IがL_Cを超えたかについて決定が成され
る（ステツプ1430）。これは、音響マツチングが、
“正しい”単語よりも高いマツチングの値を有す
る“正しくない”単語をリストしたときに生じ
る。L_IがL_Cを超えた場合には、ステツプ1432に於
て、変数Ｋが値Ｍに等しくセツトされる。Ｍは、
プログラムにパラメータとして供給される負でな
い閾値である。典型的には、Ｍは、１乃至10の範
囲内である。それよりも大きな値は、より迅速な
収束を生じるが、より粗雑な調整を生じる。 L_IがL_Cよりも大きくなく且つL_CとＲよりも小
さい値だけ異なる場合には、ステツプ1434に於
て、ＫがＭ（Ｒ−L_C＋L_I）／Ｒにセツトされる。
ステツプ1432及び1434の後、変数Ｊが１にセツト
される。変数Ｊは、カウント識別子である。変数
T_Jが、識別されたＪ番目のカウントのための現
在の記憶された値に等しくセツトされる。初めの
繰返しの初めの調整に於ては、記憶された値は、
識別されたカウントのために入れられた初めの値
である。所与のカウントのための記憶された値
は、１つ又はそれ以上の前の繰返しの結果として
先に調整された、上記所与のカウントのための値
を表わすことができる（ステツプ1436）。ステツプ1438に於て、変数Z_CJが決定される。
変数Z_CJは、正しいベースフオームに対応する単
語の単一の発声が与えられたとき、正しい単語の
ベースフオームに基づいて、Ｊ番目のカウントに
対応する事象が生じる回数を示す、“プラス・カ
ウント値”を表わす。即ち、既知の単語の発声に
応答して発生されたラベルについて、各々のＪ番
目のカウントのための“プラス・カウント値”を
決定するために、“正しい”単語のベースフオー
ムにフオワード・バツクワード・アルゴリズムが
行われる。これは、ステツプ1438に於て、“正し
い”単語のベースフオームに於ける確率項目の計
算に用いられる各カウントについて行われる。ステツプ1440に於て、変数Z_IJは、正しいベー
スフオームに対応する単語の単一の発声が与えら
れたとき、正しくない単語のベースフオームに基
づいて、Ｊ番目のカウントに対応する事象が生じ
る回数を示す、“マイナス・カウント値”を表わ
す。即ち、既知の単語の発声に応答して発生され
たラベルについて、各々のＪ番目のカウントのた
めの“マイナス・カウント値”を決定するため
に、正しくない単語のベースフオームにフオワー
ド・バツクワード・アルゴリズムが行われる。各々のＪ番目のカウントのための記憶された値
が、“プラス・カウント値”Z_CJをＫで基準化し、
“マイナス・カウント値”をＫで基準化し、そし
て次の計算を行う（ステツプ1444）ことによつ
て、調整される。 T_J（調整された）＝KZ_CJ−KZ_IJ＋T_J “プラス・カウント値”及び“マイナス・カウ
ント値”は各々、同一の係数Ｋにより基準化され
て示されている。これらの条件の下では、正しい
カウント事象の発生は、正しくないカウント事象
の発生と均等な平衡状態になる。これは、好まし
いことであるが、本発明の方法は、“プラス・カ
ウント値”が“マイナス・カウント値”と異なる
ように、重み付けを行うことを意図している。更に、各々の調整されたカウントは、前の零で
ないカウントが零又は負の値に減少されないよう
にするために、最小閾値を有している。この最小
レベルは、例えば、0.1程度である。カウントT_Jが調整された後、ステツプ1446に
於て、変数Ｊが増分される。Ｊの増分された値
が、調整されるべきカウントの数を示す数と比較
される（ステツプ1448）。この点に於て、調整さ
れるべきカウントの数は、正しい単語のベースフ
オーム又は正しくない単語のベースフオーム又は
それらの両方に於ける確率項目の計算に用いられ
るカウントだけに等しいことが好ましいことが観
察される。又は、140910個の確率項目のための各
カウントが、各発声について、調整されてもよ
い。この後者の場合には、カウントの多くに零調
整が必要である。ステツプ1448に於て決定される如く、調整され
るべきすべてのカウントが未だ更新されていない
場合には、前に調べられていないカウントが選択
され、“プラス・カウント値”（ある場合）及び
“マイナス・カウント値”（ある場合）が決定さ
れ、そのための記憶されたカウントが、既に概略
的に述べた如く、調整される。すべての適当なカウントが調整された後、ステ
ツプ1416に於て、Ｉが増分される。ステツプ1418
及び後続のステツプが、既に述べた如く、続いて
行われる。具体的に云えば、カウントのための調
整された値を用いて、繰返しの終りに、確率項目
値が再計算される。それから、確率項目のための
再計算された値が記憶され、音響マツチングに用
いられているマルコフ・モデルに適切に適用され
る。例えば、第８ｂ図に示されている確率項目の
ための調整された値が、そのための前のすべての
値と置換えられて、高速音響マツチング及び詳細
マツチングに於て用いられる。Ｉが増分される度
に、異なる単語の発声が調べられることを認識さ
れたい。しかし、所望ならば、同一の単語を、異
なるＩの値に於て、一回よりも多く発声してもよ
い。 (B) カウントに基づく、遷移確率及びラベル出力
確率の決定遷移確率及びラベル出力確率は、“カウント”
により定義される。“カウント”は、典型的には、
或る特定の事象が生じる回数（予測される）を定
義する。本発明の方法に於ては、“単一カウント”
及び“累計カウント”が存在する。特に指定しな
い限り、単独で用いられた“カウント”は、“単
一カウント”を意味する。確率項目のための予測値θ′及び学習中に発生さ
れたラベル系列を与えられたとき、“単一カウン
ト”は、(a)或る一定のラベル系列Ｙ、(b)定義され
た予測値θ′、及び(c)或る特定の時間ｔを与えられ
たときの、或る特定の遷移τ_i及び状態S_jの確率と
して定義される。上記の各単一カウントは、周知
のフオワード・バツクワード・アルゴリズム、又
はBaum−Welchアルゴリズムを適用することに
より決定される。上記定義に従つて、単一カウントは、次式によ
り表わされる。 Pr（S_j、τ_i｜Ｙ、θ′、ｔ）上記単一カウントの計算に於て、θ′はPr′の特
徴付けに於て、暗に示されているものとして、除
くことができる。Bayesの定理を適用すると、上
記式は次のようになる。 Pr′（τ_i、S_j、Ｙ｜ｔ）／Pr′（Ｙ） Pr′（Ｙ）は、パラメータθ′を用いて計算された
フオワード・パス確率から引出された確率として
識別される。従つて、問題は、次の確率の計算に
変形される。すべてのｉ、ｔについて、Pr′（τ_i、S_j、Ｙ｜ｔ）上記式は、各々のｉ、ｔについて、マルコフ・
モデルがラベル系列Ｙを生じそして遷移τ_iが時間
ｔに於て取出された確率を表わす。各時間ｔに於ける特定のS_j、τ_i、Ｙ、及びθ′の
ための単一カウントを合計することにより、対応
する遷移確率項目のための“遷移累計カウント”
が決定される。遷移累計カウントは確率の合計で
あるため、その値は１を超えることがある。各遷
移確率項目について、各々の累計カウントが記憶
される。所与の遷移のためのその累計カウント
を、τ_iの初期状態と同じ初期状態から取出すこと
ができる、すべての遷移のための累計カウントの
合計で割ることにより、各々の遷移確率項目のた
めの現在の確率値が計算される。その現在の確率
値は、その各々の遷移確率項目に関連して記憶さ
れることが好ましい。各遷移確率項目は、好ましくは、予測されるよ
うに、次の如く定義される。上記式から、各遷移確率はカウントにより定義
されることが明らかである。分子は、累計カウン
ト、即ち任意の時間乃至時間Ｔ＋１に於ける所与
の遷移τ_iのための単一カウント値の合計であり、
分母は、時間Ｔ＋１迄のすべての時間に亘つて取
出されたτ_iと同じ初期状態を有する、すべての可
能な遷移τ_i乃至τ_Kに亘つて取出された単一カウン
ト値の合計を表わす。更に、すべての非ナル遷移に於ける各ラベル出
力確率もカウントにより定義されることが好まし
い。即ち、遷移τ_i及び状態S_jを与えられたときに
生じるラベルf_hのための予測されるラベル出力確
率Pr′は数学的に次の如く表わされる。上記式に於て、f_hはラベルのアルフアベツトか
ら選択された或る特定のラベルに対応し、y_tは時
間間隔ｔに於て発生されたラベルに対応する。分子に於ける各々の合計された項は、発生された
ラベル出力が系列Ｙであつたときに、系列Ｙに於
て発生されたラベルy_tがラベルf_hであり、ラベル
y_tが状態S_jからの遷移τ_i上に生じた確率を表わす。分子に於ける合計は、“ラベル出力累計カウン
ト”であり、好ましくは、それに対応するラベル
出力確率項目に関連して記憶される。この累計カ
ウントを、特定のS_j、τ_i、Ｙ、及びθ′のためのす
べてのラベル時間に亘る単一カウントの合計で割
ることにより、各々のラベル出力確率項目のため
の現在の確率値が決定される。従つて、遷移確率及びラベル出力確率は、カウ
ント調整を繰返した後、カウントから容易に計算
される。第１２図に示されている表から、更新された即
ち調整された確率項目のための値をカウントに基
いて計算することができる。その第４列には、合
計されると、その確率項目に関連する累計カウン
トになる値を有する単一カウントがリストされて
いる。第５列には、合計されると、分母になり、
その分母で上記累計カウントを割ると、その確率
項目の値になる値を有する単一カウントがリスト
されている。第１３図は、フオワード・バツクワ
ード・アルゴリズムにより計算された単一カウン
ト値を示している。第１２図及び第１３図に示さ
れている情報の入力及び記憶は従来の技術によつ
て容易に行われる。 (C) カウント値の決定カウントのための値の決定には、周知のフオワ
ード・バツクワード・アルゴリズムが用いられ
る。ｉ、ｊ、及びｔのすべての値、即ちPr、（S_j、
τ_i｜Ｙ、ｔ）の値が、各カウントのための値とし
て決定されて記憶される。フオワード・バツクワード・アルゴリズムの詳
細については、前述の論文“Continuous Speech
Recognition by Statistical Methods”の付録
に記載されている。次に、フオワード・バツクワード・アルゴリズ
ムの基本的概念を、第１４図を参照して非ナル遷
移について説明する。第１４図に於て、時間は横
方向に測定されている。各時間間隔は、ラベルが
発生することができる時間間隔に対応する。ラベ
ルy₁乃至y_Tは、時間間隔１乃至Ｔ＋１の間に発生
されているように示されている。縦方向に、連続
する状態が示されている。第１４図のトレリスに
於て、時間、状態、遷移、及びラベルの発生が示
されている。確率Pr′（S_j、τ_i｜Ｙ、ｔ）は、積の３つの成分
として表わすことができる。その第１成分は、ラ
ベルy₁乃至y_t-1を生じる確率と組合わされた、状
態S_jに存在する確率（時間ｔに於ける）である。
この成分は、α_t（ｊ）として表わされる。積の第
２成分は、状態S_jから遷移τ_iを取出しそしてラベ
ルy_tを生じる確率である。これは、次の如く、表
わすことができる。 Pr（τ_i｜S_j）Pr（y_t｜S_j、τ_i）この第２成分は、遷移確率項目（遷移τ_iに於け
る）又はラベル出力確率項目（ラベルf_hのため
の）のための、先に定義された、現在の記憶され
た値に基づいている。積の第３成分は、β_t+1（ｋ）として表わされる。
この第３成分は、状態S_k（時間ｔ＋１に於ける）
於て開始されるラベルy_t+1乃至y_Tを生じる確率を
表わす。 τ_iがナル遷移を表わすときは、或る特定のラベ
ルがその調べられた遷移中に生じる必要条件は存
在しないので、それらの成分は簡単になる。 α確率はフオワード・パス確率と呼ばれ、又
Pr（Ｓ、ｔ）として示される。連続するαが、次
式により、時間１に於て開始して再帰的に決定さ
れる。 α₁（１）＝1.0 α_t（Ｓ）＝Σ〓〓_n(S)α_t-1（σ） Pr（y_t、σ→Ｓ）＋Σ〓〓_o(S)α_t（σ） Pr（σ→Ｓ）……ｔ＞１の場合上記式に於て、ｎ（Ｓ）は、状態Ｓへのナル遷
移を有する状態のセツトを表わし、ｍ（Ｓ）は、
状態Ｓへの非ナル遷移を有する状態のセツトを表
わす。フオワード・パスに従つて、時間１、２、
……、Ｔ＋１について順次に、α_t（Ｓ）の値がＳ
＝１、２、……、S_Fについて順次に計算される。
上記S_Fは最終マルコフ・モデル状態である。これ
は、αに関する式を再帰的に解くことにより行わ
れる。計算は、時間及び状態に関して前方に進め
られる。バツクワード・パスは、確率β_t（Ｓ）、即ち時間
ｔに於て状態Ｓから開始する出力ラベル系列を完
了する確率を決定することを含む。βも、αの場
合と同様な計算を満足させる。主な相違は、フオ
ワード・パスが状態１に於て開始して、それから
時間的に前方に進むのに対し、バツクワード・パ
スは最終状態（S_F）に於て開始し、時間的に後方
にそして状態を経て後方に進むことである。Ｎ（Ｓ）はＳからナル遷移を経て達することが
できる状態のセツトを表わし、Ｍ（Ｓ）はＳから
非ナル遷移を経て達することができる状態のセツ
トを表わすものとすると、次の式が適用される。 β_T+1（S_F）＝1.0 β_t＝Σ〓〓_M(S)Pr（y_t、Ｓ→σ） β_t+1（σ）＋Σ〓〓_N(S)Pr（Ｓ→σ） β_t（σ）……ｔＴの場合バツクワード・パスに於ては、時間＝Ｔ＋１、
Ｔ、……、１について順次に、β_t（Ｓ）の値が、
上記漸化式を用いて、Ｓ＝S_F、S_F-1、……、１に
ついて順次に計算される。所与のｉ、ｊ、及びｔの各々について３つの成
分が決定されると、それらに対応するカウント値
が容易に計算される。フオワード・バツクワード・アルゴリズムは、
初めに、初期の又は現在の記憶されたカウント値
の決定に用いられ、それからプラス・カウント値
及びマイナス・カウント値について用いられる。 (D) Baum−Welchアルゴリズム Baum−Welchアルゴリズムに従つて、“最大
尤度”確率が求められる。具体的に云えば、Pr
（Ｙ｜Ｍ）の項が局所的な最大値に近づくように、
次の手順が用いられる。初めに、遷移確率項目及びラベル出力確率項目
のための確率値について初期値が選択される。次に、フオワード・バツクワード・アルゴリズ
ムを用いて、既に概略的に述べた如く、記憶され
たカウント値が計算される。カウント値が計算さ
れると、遷移確率項目及びラベル出力確率項目の
ための確率値が再計算される。フオワード・バツクワード・アルゴリズム及び
その後の遷移確率及びラベル出力確率の再計算
は、収束が得られる迄、反復される。収束が得ら
れた時点に於て、Baum−Welchアルゴリズムに
基づいて、最大化が達成される。最大化が達成された後に得られた確率項目のた
めの値が、本発明の方法による値の調整のための
開始点として働くことが好ましい。 Baum−Welchアルゴリズムについては、L.E.
Baum等による論文“Ａ Maximization
Technique Occurring in the Statistical
Analysis of Probabilistic Functions of
Markov Chains”、Annals of Mathematics
and Statistics、第41巻、第164頁乃至第171頁
（1970年）に記載されている。 (E) 詳細マツチング単音マシーン１２００を用いて、所与の単音が
入力系列のラベルにどのように近くマツチングす
るかを決定するとき、上記単音のための終了時間
分布が求められて、該単音のためのマツチング値
の決定に用いられる。このような終了時間分布へ
の依存は、マツチング手順に関して本明細書に述
べられている単音マシーンのすべての実施例につ
いて共通である。詳細マツチングを行うために終
了時間分布を生じるとき、単音マシーン１２００
は厳密且つ複雑な計算を含む。第１０図のトレリスに於て、時間ｔ＝t₀に於て
開始時間及び終了時間の両方を有する必要のある
計算について初めに考察する。これを第４図に示
されている単音マシーン構造の場合について述べ
ると、次の確率が適用される。 Pr（S₇、ｔ＝t₀）＝q₀Ｔ（１→７）＋Pr（S₂｜ｔ＝t₀）Ｔ（２→７）＋Pr（S₃｜ｔ＝t₀）Ｔ（３→７）上記式に於て、Prは“……の確率”を表わし、
Ｔは括弧内に示されている２つの状態の間の遷移
確率を表わし、q₀は時間ｔ＝t₀に於ける開始時間
分布である。上記式は、時間ｔ＝t₀に於て終了時
間が生じることのできる３つの条件のための各確
率を示す。更に、時間ｔ＝t₀に於ける終了時間は
この例では状態S₇に於ける発生に限定されること
が観察される。次に、時間ｔ＝t₁に於ける終了時間について
は、状態S₁以外のすべての状態に関する計算が行
われねばならない。状態S₁は前の単音の終了時間
に於て開始する。説明のため、状態S₄に関する計
算についてのみ示す。状態S₄について、計算は次のように行われる。 Pr（S₄｜ｔ＝t₁）＝Pr（S₁｜ｔ＝t₀）Ｔ（１→４）Pr（ｙ｜１→４）＋Pr（S₄｜ｔ＝t₀）Ｔ（４→４）Pr（ｙ｜４→４）上記式は、単音マシーンが時間ｔ＝t₁に於て状
態S₄にある確率が、次の２項の合計に依存するこ
とを示している。 (a) 時間ｔ＝t₀に於て状態S₁である確率に、状態
S₁から状態S₄への遷移の確率（Ｔ）を乗じ、そ
れに更に状態S₁から状態S₄への遷移を与えられ
たときに系列中の所与のラベル（ｙ）が発生さ
れる確率（Pr）を乗じたもの。 (b) 時間ｔ＝t₀に於て状態S₄である確率に、状態
S₄からそれ自体への遷移の確率を乗じ、それに
更に状態S₄からそれ自体への遷移を与えられた
ときに所与のラベル（ｙ）を生じる確率を乗じ
たもの。同様に、その単音が時間ｔ＝t₁に於て或る特定
の状態にある対応する確率を発生されるために、
他の状態（状態S₁を除く）に関する計算も行われ
る。一般的には、所与の時間に於て主題の状態に
ある確率の決定に於て、詳細マツチングは、(a)主
題の状態へ導く遷移を有する各々の前の状態及び
各々のそのような前の状態の各々の確率を認識
し、(b)ラベル系列に一致するためには各々のその
うような前の状態と現在の状態との間の遷移に於
て発生されている筈であるラベルの確率を表わす
値を、各々のそのような前の状態について認識
し、そして(c)各々の前の状態の確率と、ラベル出
力確率を表わす各々の値とを組合わせて、対応す
る遷移に亘る主題の状態の確率を得る。主題の状
態である全体的確率は、それへ導くすべての遷移
に亘る主題の状態の確率から決定される。状態S₇
に関する計算は、状態S₇に於て終了する単音が時
間ｔ＝t₁に於て開始しそして終了することを可能
にしている３つのナル遷移に関する項を含む。時間ｔ＝t₀及びｔ＝t₁に関する確率の決定と同
様に、一連の他の終了時間についての確率の決定
が、終了時間分布を形成するために発生されるこ
とが好ましい。所与の単音についての終了時間分
布の値は、その所与の単音がどのように良く入力
ラベルにマツチングしているかを示す。単語がどのように良く入力ラベルの系列にマツ
チングしているかの決定に於ては、その単語を表
わす単音が順次に処理される。各単音は確率値の
終了時間分布を発生する。単音のためのマツチン
グ値は、終了時間の確率を合計し、それからその
合計の対数をとることによつて得られる。次の単
音のための開始時間分布は終了時間分布を標準化
することにより引出される。その標準化は、例え
ば、その各々の基準化された値の合計が１になる
ように各々の値を合計で割ることにより各々の値
を基準化することによつて行われる。所与の単語又は単語系列について調べるべき単
音の数ｈを決定する方法は少なくとも２つあるこ
とを認識されたい。深さを第一とする方法に於て
は、計算がベースフオームに沿つて行われ、連続
する各単音について小計が繰返し計算される。そ
の小計が、上記ベースフオームに沿つた所与の単
音の位置について予め定義された閾値よりも小さ
いことが見出されたとき、その計算が停止され
る。又は、幅を第一とする方法に於ては、各単語
に於ける同様な単音位置について計算が行われ
る。各単語に於ける第１の単音、第２の単音、…
…というように計算が行われる。この幅を第一と
する方法に於ては、種々の単語のための同数の単
音に沿つて行われる計算が、それらに沿つた単音
の同一の相対的位置に於て比較される。いずれの
方法に於ても、マツチング値の最大の合計を有し
ている単語が、求められる対象である。詳細マツチングは、FPS190Lのための固有ア
センブラであるAPAL（アレイ・プロセツサ・ア
センブリ言語）に於て実現されている。この点に
於て、詳細マツチングは、実際のラベル出力確率
（即ち、所与の単音が所与の遷移に於て所与のラ
ベルｙを発生する確率）、各単音マシーンのため
の遷移確率、及び所与の単音が定義された開始時
間後の所与の時間に於て所与の状態にある確率の
各々を記憶するために、かなりのメモリを必要と
することを認識されたい。上記FPS190Lは、終
了時間、即ち例えば終了時間の確率の合計の対数
であることが好ましい合計に基づくマツチング値
を、前に発生された終了時間の確率に基づく開始
時間と、及び単語に於ける連続する単音のための
マツチング値に基づく単語マツチング・スコアと
の計算を行うために設けられている。更に、詳細
マツチングは、マツチング手順に於て“テイル
（tail）確率”を考慮に入れることが好ましい。
テイル確率は、単語に関係なく、連続するラベル
の尤度を測定する。或る簡単な実施例に於ては、
所与のテイル確率は、他のラベルに従うラベルの
尤度に対応する。その尤度は、例えば幾つかのサ
ンプル音声により発生されたラベル系列から容易
に決定される。従つて、詳細マツチングは、ベースフオーム、
マルコフ・モデルのための統計、及びテイル確率
を含むために充分な記憶装置を要する。各単語が
略10個の単音を含んでいる、5000個の単語の語彙
については、それらのベースフオームは、5000×
10個のメモリを必要とする。70個の別個の単音
（各単音についてマルコフ・モデルを有する）と、
200個の別個のラベルと、いずれかのラベルが生
じている確率を有する10個の遷移とが存在する場
合には、その統計は70×10×200個の位置を要す
ることになる。しかし、単音マシーンは、統計が
対応している、３つの部分、即ち、開始部分、中
間部分、及び終了部分に分割されることが好まし
い。（３つのセルフ・ループは連続部分に含まれ
ることが好ましい。）従つて、記憶装置の必要条
件は70×３×200個である。テイル確率に関して
は、200×200個の記憶装置が必要とされる。この
配置に於ては、50Kの整数及び82Kの浮動小数点
の記憶装置が満足な動作を行う。更に、初期のシ
ステムは70個の異なる単音を含んでいたが、本発
明の方法は、各々単音マシーンを有する96個程度
の単音を含むこともできる。 (F) 近似的高速マツチング詳細マツチングは計算に於て高価であるため、
精度を犠牲にせずに必要とされる計算を減少させ
る、基本的高速マツチング及び代替的高速マツチ
ングが用いられる。好ましくは、詳細マツチング
と組合わせて、高速マツチングが用いられる。高
速マツチングは語彙からの尤度の高い候補単語を
リストし、詳細マツチングは高速マツチング・リ
スト上の候補単語について行われる。近似的高速音響マツチング技術は、前述の本出
願人による特願昭60−255205号明細書の主題であ
る。その近似的高速音響マツチングに於ては、所
与の単音マシーンに於けるすべての遷移に於ける
各ラベルのための実際のラベル出力確率を特定の
置換えの値で置換えることにより、各単音マシー
ンが簡単化されることが好ましい。特定の置換え
の値は、その置換えの値が用いられた場合の所与
の単音のためのマツチング値が、その置換えの値
が実際のラベル出力確率の代りに用いられない場
合に詳構マツチングにより得られたマツチング値
よりも過大評価になるように選択されることが好
ましい。その条件を達成する１つの方法は、所与
の単音マシーンに於ける所与のラベルに対応する
いずれの確率も、その置換えの値より大きくない
ように、各々の置換えの値を選択することであ
る。単音マシーンに於ける実際のラベル出力確率
を対応する置換えの値で置換えることにより、単
語のためのマツチング・スコアの決定に必要な計
算の数が著しく減少する。更に、置換えの値は過
大評価されることが好ましいので、その結果得ら
れたマツチング・スコアは、置換えせずに前に決
定されたマツチング・スコアより小さくならな
い。マルコフ・モデルを用いた言語学的デコーダに
於て音響マツチングを行う特定の実施例に於て
は、各単音マシーンは、学習により、(a)複数の状
態及び状態間の遷移の径路、(b)状態S_j及び現在の
状態S_iは同一の状態であつても、異なる状態であ
つてもよいが、現在の状態S_iが与えられたとき
に、状態S_jへの遷移の確率を各々表わす確率Ｔ
（ｉ→ｊ）を有する遷移tr（S_j｜S_i）、及び(c)ｋはラ
ベルを識別する表示である各々の実際のラベル出
力確率ｐ（y_k｜ｉ→ｊ）が、所与の単音マシーン
により或る状態から後の状態への所与の遷移に於
てラベルy_kの生じる確率を示している、実際のラ
ベル出力確率を有するように特徴付けられ、各単
音マシーンは、(a)各単音マシーンに於ける各々の
y_kに単一の特定の値p′（y_k）を割当てるための手
段、及び(b)所与の単音マシーンに於ける各遷移に
於ける各々の実際のラベル出力確率ｐ（y_k｜ｉ→
ｊ）を、対応するy_kに割当てられた単一の特定の
値p′（y_k）で置換えるための手段を含んでいる。
その置換えの値は、特定の単音マシーンに於ける
任意の遷移に於ける対応するラベルy_kのための最
大の実際のラベル出力確率と少なくとも同程度の
大きさであることが好ましい。入力ラベルに対応
する尤度が最大である語彙中の単語として選択さ
れた10乃至100個程度の候補単語のリストを定義
するために、高速マツチングが用いられる。それ
らの候補単語は、言語モデル及び詳細マツチング
を施されることが好ましい。詳細マツチングによ
り考察される単語の数を、語彙中１％程度の単語
に減らすことにより、計算コストが著しく減少し
且つ精度も維持される。基本的高速マツチングは、所与の単音マシーン
に於て所与のラベルが発生することができるすべ
ての遷移に於ける所与のラベルのための実際のラ
ベル出力確率を単一の値で置換えることにより、
詳細マツチングを簡単化する。即ち、ラベルが発
生する確率を有する所与の単音マシーンに於ける
遷移に関係なく、その確率が単一の特定の値で置
換えられる。その値は大きく見積られ、そのラベ
ルが所与の単音マシーンに於ける任意の遷移に於
て生じる最大の確率と少なくとも同程度であるこ
とが好ましい。ラベル出力確率の置換えの値を、所与の単音マ
シーンに於ける所与のラベルのための実際のラベ
ル出力確率の最大として設定することにより、基
本的高速マツチングを用いて発生されたマツチン
グ値が、詳細マツチングを用いて得られるマツチ
ング値と少なくとも同程度の大きさになるように
することができる。このように、基本的高速マツ
チングは、典型的には、より多くの単語が一般的
に候補単語として選択されるように、各単音のマ
ツチング値を大きく見積る。詳細マツチングに従
つて候補と考えられた単語は、基本的高速マツチ
ングも通過する。第１５図に於て、基本的高速マツチングのため
の単音マシーン３０００が示されている。ラベル
（記号及びフイーニームとも呼ばれる）は、開始
時間分布とともに、基本的高速マツチングの単音
マシーン３０００に入る。それらの開始時間分布
及びラベル系列入力は、前述の単音マシーンに入
るものと同様である。その開始時間は、場合によ
つては、複数の時間に亘る分布でないこともあ
り、例えば沈黙の間隔に続いている、単音が開始
する精確な時間であることもあることを認識され
たい。しかし、音声が連続的である場合には、開
始時間分布を定義するために終了時間分布が用い
られる（以下に詳述する如く）。単音マシーン３
０００は、終了時間分布を発生し、発生された終
了時間分布から特定の単音のためのマツチング値
を発生する。或る単語のためのマツチング・スコ
アは、構成要素の単音、少なくとも単語に於ける
初めのｈ個の単音のためのマツチング値の合計と
して定義される。第１６図は、基本的高速マツチングの計算を行
うために有用な図を示している。基本的高速マツ
チングの計算は、開始時間分布（Ｑ）、単音によ
り生じたラベルの数又は長さ、及び各ラベルy_kに
関連する置換えの値p′_ykのみに関係する。所与の
単音マシーンに於ける所与のラベルのためのすべ
ての実際のラベル出力確率を、対応する置換えの
値で置換えることにより、基本的高速マツチング
は、遷移確率を長さ分布確率と置換え、そして実
際のラベル出力確率（所与の単音マシーンに於け
る各遷移について異なることがある）及び所与の
時間に於て所与の状態にある確率を含む必要性を
除く。この点に於て、長さ分布は詳細マツチング・モ
デルから決定される。具体的に云えば、その手順
は、長さ分布Ｌの各長さについて、各状態を個々
に調べ、そして(a)特定のラベルの長さが与えられ
たとき且つ(b)遷移に沿つた出力に関係なく、現在
調べられている状態が生じることができる種々の
遷移の径路を各状態について決定することが好ま
しい。各主題状態へ上記特定の長さを有するすべ
ての遷移の径路の確率が合計され、それから該分
布に於ける所与の長さの確率を示すために、すべ
ての主題状態の確率が合計される。上記手順が、
各長さについて反復される。マツチング手順のそ
の好ましい形に従つて、それらの計算は、マルコ
フ・モデリングの技術分野に於て知られている如
きトレリスに関して行われる。トレリス構造に沿
つて分岐を共有する遷移の径路については、各々
の共通の分岐のための計算は、一度だけ行えばよ
く、その計算がその共通の分岐を含む各径路に適
用される。第１６図に於ては、例として、２つの条件が含
まれている。第１の条件として、その単音により
発生されたラベルの長さは０、１、２、又は３で
あることができ、各々1₀、1₁、1₂、及び1₃の確率
を有するものと仮定されている。又、開始時間も
限定されており、各々q₀、q₁、q₂、及びq₃の確率
を有する、４つの開始時間だけが可能である。こ
れらの条件の下で、次式は、主題の単音の終了時
間分布を次の如く定義する。 Φ₀＝q₀1₀ Φ₁＝q₁1₀＋q₀1₁p₁ Φ₂＝q₂1₀＋q₁1₁p₂＋q₀1₂p₁p₂ Φ₃＝q₃1₀＋q₂1₁p₃＋q₁1₂p₂p₃＋q₀1₃p₁p₂p₃ Φ₄＝q₃1₁p₄＋q₂1₂p₃p₄＋q₁1₃p₂p₃p₄ Φ₅＝q₃1₂p₄p₅＋q₂1₃p₃p₄p₅ Φ₆＝q₃1₃p₄p₅p₆ 上記式に於て、Φ₃は４つの開始時間の各々に
対応する項を含んでいる。その第１項は、単音が
時間ｔ＝t₃に於て開始し、零ラベルの長さを生じ
る、即ち単音が同一時間に於て開始しそして終了
する、確率を表わしている。第２項は、単音が時
間ｔ＝t₂に於て開始し、ラベルの長さが１であ
り、そしてラベル３が該単音により生じる確率を
表わしている。第３項は、単音が時間ｔ＝t₁に於
て開始し、ラベルの長さが２（即ち、ラベル２及
び３）であり、そしてラベル２及び３が該単音に
より生じる確率を表わしている。同様に、第４項
は、単音が時間ｔ＝t₀に於て開始し、ラベルの長
さが３であり、そして３つのラベル１、２、及び
３が該単音により生じる確率を表わしている。基本的高速マツチングに於て必要とされる計算
と、詳細マツチングに於て必要とされる計算との
比較は、前者が後者よりも簡単であることを示唆
する。この点に於て、p′_ykの値は、ラベルの長さ
の確率の場合と同様に、すべての式における各出
現について同じであることに注目されたい。更
に、上記の長さ及び開始時間の条件を用いた場合
には、より後の終了時間のための計算がより簡単
になる。例えば、Φ₆に於ては、単音は時間ｔ＝t₃
に於て開始する筈であり、その終了時間が適合す
るには、すべての３つのラベル４、５、及び６が
該単音により生じる筈である。主題の単音のためのマツチング値の発生に於て
は、定義された終了時間分布に沿つた終了時間の
確率が合計される。所望ならば、次式を得るため
に合計の対数がとられる。マツチング値＝lng₁₀（Φ₀＋……＋Φ₆）前述の如く、或る単語のためのマツチング・ス
コアは、特定の単語に於ける連続する単音のため
のマツチング値を合計することにより容易に決定
される。次に、第１７ａ図乃至第１７ｅ図を参照して、開
始時間分布の発生について述べる。第１７ａ図に
於て、単語“THE”₁が反復され、構成要素の単
音に分解される。第１７ｂ図に於ては、ラベル系
列が時間に亘つて示されている。第１７ｃ図に於
ては、第１の開始時間分布が示されている。第１
の開始時間分布は、最も最近の前の単音（沈黙の
“単語”を含むこともある前の単語に於ける）の
終了時間分布から引出される。ラベル入力及び第
１７ｃ図の開始時間分布に基き、単音DHのため
の終了時間分布Φ_DHが発生される。次の単音UH
のための開始時間分布は、前の単音の終了時間分
布が第１７ｄ図に於ける閾値Ａを超えた時間を認
識することによつて決定される。閾値Ａは、各終
了時間分布について個々に決定される。好ましく
は、Ａは、主題の単音のための終了時間分布の値
の合計の関数である。従つて、時間ａ及びｂの間
の間隔は、単音UHのための開始時間分布が設定
される時間を表わす（第１７ｅ図参照）。第１７
ｅ図に於ける時間ｃ及びｄの間の間隔は、単音
DHのための終了時間分布が閾値Ａを超えそして
次の単音の開始時間分布が設定される時間に対応
する。開始時間分布の値は、終了時間分布を標準
化することにより得られ、この標準化は、例え
ば、各終了時間の値を、閾値Ａを超える終了時間
の値の合計で割ることにより行われる。基本的高速マツチングの単音マシーン３０００
は、APALプログラムを用いたFPS190Lに於て
実現されている。本明細書の開示に従つて、特定
の形のマツチング手順を行うために、他のハード
ウエア及びソフトウエアを用いてもよい。 (G) 音声学的ベースフオームの構築ベースフオームの形成に用いることができる、
１つの型のマルコフ・モデル単音マシーンは、音
声学に基いている。即ち、各単音マシーンは、所
与の音声学的音声に対応する。所与の単語について、各々に対応する単音マシ
ーンを各々有している、一連の音声学的音声が存
在する。各単音マシーンは、多数の状態及び状態
間の遷移を有し、それらの幾つかはフイーニーム
出力を生じることができ、他の幾つか（ナル遷移
と呼ばれる）はそれらを生じることができない。
前述の如く、各単音マシーンに関する統計は、(a)
所与の遷移が生じる確率、及び(b)特定のフイーニ
ームが所与の遷移に於て生じる尤度を含む。好ま
しくは、非ナル遷移には、各フイーニームに関連
する何らかの確率が存在する。表１に示されてい
るフイーニーム・アルフアベツトには、約200個
のフイーニームが存在する。音声学的ベースフオ
ームの形成に用いられた単音マシーンが第４図に
示されている。一連のそのような単音マシーンが
各単語について設けられている。確率項目の値が
本発明の方法に従つて決定される。種々の音声学
的単音マシーンに於ける遷移確率及びフイーニー
ム確率は、学習中に、既知の音声学的単音が少な
くとも一回発声されたときに生じたフイーニーム
系列を記録し、周知のフオワード・バツクワー
ド・アルゴリズムを適用することによつて決定さ
れる。次に示す表２は、単音DHとして識別された１
つの単音のための統計の１例を示している。【表】【表】【表】１つの近似として、第４図の単音マシーンの遷
移tr₁，tr₂、及びtr₈が単一の分布により表わさ
れ、遷移tr₃，tr₄，tr₅、及びtr₉が単一の分布によ
り表わされ、そして遷移tr₆，tr₇、及びtr₁₀が単一
の分布により表わされている。これは、表２に於
て、それらのアーク（即ち、遷移）を各々の列
４、５、又は６に割当てることにより示されてい
る。表２は、各遷移の確率、及びラベル（即ち、
フイーニーム）が単音DHの始め、中間、又は終
りの各々に於て生じる確率を示している。単音
DHについては、例えば、状態S₁から状態S₂への
遷移の確率は0.07243として記憶されている。状
態S₁から状態S₄への遷移の確率は0.92757である。
（これらは初期状態からの２つだけの可能な遷移
であるので、それらの合計は１に等しい。）ラベ
ル出力確率については、単音DHは、該単音の終
りの部分、即ち表２の列６に於てフイーニーム
AE13（表１を参照）を生じる確率0.091を有して
いる。又、表２には、各ノード（即ち、状態）に
関連するカウントが示されている。そのノード・
カウントは、該単音が対応する状態に存在した、
学習中の回数を示す。表２に示す如き統計は、各
単音マシーンについて見出される。音声学的単音マシーンを単語のベースフオーム
のシーケンスに配列することは、典型的には、音
声学者によつて行われ、通常は、自動的には行わ
れない。以上に於て、本発明の方法をその実施例につい
て説明したが、本発明の範囲を逸脱することな
く、他の種々の変更も可能であることを理解され
たい。Ｆ発明の効果本発明の方法によれば、好ましくは音声認識の
環境に於て、単語のデコーデイングの精度を最大
にする方法で、マルコフ・モデル及び同様なモデ
ルの学習が行われる。

【図面の簡単な説明】

第１図は本発明の方法が実施されている音声認
識システムを示すブロツク図、第２図は第１図の
システムを更に詳細に示すブロツク図、第３図は
本発明の方法の一実施例に於けるステツプを示す
流れ図、第４図は１つの音声学的単音マシーンを
示す図、第５図は１つの時間間隔に於ける第４図
の音声学的単音マシーンのトレリスを示す図、第
６図は１つのフイーニーム的単音マシーンを示す
図、第７図は３つの連結したフイーニーム的単音
マシーンのトレリスを示す図、第８ａ図及び第８
ｂ図は代表的確率を含む、連続する３つの音声学
的単音マシーンを示す図、第９図は代表的確率を
含む、連続する３つのフイーニーム的単音マシー
ンを示す図、第１０図は３つの時間間隔に亘る音
声学的単音マシーンのトレリスを示す図、第１１
図は本発明の方法の一実施例に於けるステツプを
示す流れ図、第１２図は確率項目及びカウントを
示す図表、第１３図は単一カウント情報を示す図
表、第１４図はトレリスに於ける遷移τ_iを示す
図、第１５図は単音マシーンを示す図、第１６図
は予め定義された条件を与えられたときの単音の
開始時間及び終了時間を示す図、第１７ａ図乃至
第１７ｅ図は連続する単音に於ける開始時間と終
了時間との間の関係を示す図である。１０００……音声認識システム、１００２……
スタツク・デコーダ、１００４……音響プロセツ
サ、１００６……アレイ・プロセツサ（近似的高
速マツチング・プロセツサ）、１００８……アレ
イ・プロセツサ（詳細マツチング・プロセツサ）、
１０１０……言語モデル、１０１２……ワーク・
ステーシヨン、１０２０……サーチ素子、１０２
２，１０２４，１０２６，１０２８……インタフ
エース、１２００，３０００……単音マシーン。

Claims

【特許請求の範囲】１語彙中の各単語が少なくとも１つの確率的有
限状態モデルからなる単語モデルにより表され、
各確率的有限状態モデルが遷移確率項目と、それ
ぞれ微小な時間間隔に割当て可能な音響タイプを
表すラベルの集合からラベルを出力する出力確率
項目とを有し、音声入力に応答して上記ラベルの
集合から選択されたラベルのストリームを上記語
彙中の単語の単語モデルにマツチングさせて単語
にデコードする音声認識方法において、所定の既知単語の音声入力に応じてそれ以外の
単語がデコードされたときに、当該それ以外の単
語の単語モデルの確率的有限状態モデルに関し
て、当該音声入力に応じて選択されたラベルのラ
ベル出力確率に、負のバイアスを加えることを特
徴とする音声認識方法。２所定の既知単語の音声入力に応じて当該既知
単語がデコードされたときに、当該既知単語の単
語モデルの確率的有限状態モデルに関して、当該
音声入力に応じて選択されたラベルのラベル出力
確率に、正のバイアスを加える特許請求の範囲第
１項記載の音声認識方法。