JPH0372998B2 - - Google Patents

Info

Publication number
JPH0372998B2
JPH0372998B2 JP62043234A JP4323487A JPH0372998B2 JP H0372998 B2 JPH0372998 B2 JP H0372998B2 JP 62043234 A JP62043234 A JP 62043234A JP 4323487 A JP4323487 A JP 4323487A JP H0372998 B2 JPH0372998 B2 JP H0372998B2
Authority
JP
Japan
Prior art keywords
word
probability
value
label
count
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP62043234A
Other languages
English (en)
Other versions
JPS62231995A (ja
Inventor
Rai Baaru Raritsuto
Fuitsutsuhyuu Buraun Piitaa
Uinsento Desooza Piitaa
Reroi Maasaa Robaato
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPS62231995A publication Critical patent/JPS62231995A/ja
Publication of JPH0372998B2 publication Critical patent/JPH0372998B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Description

【発明の詳細な説明】 以下の順序で本発明を説明する。 A 産業上の利用分野 B 従来の技術 C 発明が解決しようとする問題点 D 問題点を解決するための手段 E 実施例 () 音声認識システムの全体的説明 () 単語表現マルコフ・モデルの学習の改
善 (A) 概観 (B) カウントに基づく、遷移確率及びラベル
出力確率の決定 (C) カウント値の決定 (D) Baum−Welchアルゴリズム (E) 詳細マツチング (F) 近似的高速マツチング (G) 音声学的ベースフオームの構築 F 発明の効果 A 産業上の利用分野 本発明は、音声認識システムに於て単語を特徴
付けるために用いることができる確率的音響モデ
ルのための学習、即ち確率及び統計の決定の分野
に係る。 B 従来技術 マルコフ・モデリングは、音声認識を含む種々
の分野で用いられている確率的手法である。一般
的には、マルコフ・モデルは、複数の状態、状態
間に延びる遷移、並びに各遷移の発生及びそれら
の遷移の少なくとも幾つかの各々に於ける出力
(予め定義された一組の出力からの)の発生に関
する確率として表わされる。 マルコフ・モデルの一般的概念は知られている
が、その概念を音声認識に於て用いられるように
適合させる、マルコフ・モデリングの特定の方法
論及び実施は、未だ研究課題である。多くの論文
が、実験的な音声認識の情況に於けるマルコフ・
モデルの使用について論じている。それらの論文
には、例えば、F.Jelinekによる“Continuous
Speech Recognition by Statistical Methods、”
Proceedings of the IEEE、第64巻第4号(1976
年)並びにL.R.Bahl、F.Jelinek、及びR.L.
Mercerによる“A Maximum Likelihood
Approach to Continuous Speech
Recognition、”IEEE Transactions on Pattern
Analysis and Machine Intelligence、第PAMI
−5巻、第2号(1983年3月)等がある。 マルコフ(又は同様な)・モデルを用いた音声
認識に対する1つの実験的な確率的方法に於て
は、音響波形が初めにラベル系列に変換される。
各々1つの音のタイプを識別するそれらの等は、
別個のラベルから成るアルフアベツト(集合)か
ら選択される。各単語に1つのマルコフ・モデル
が割当てられる。他のマルコフ・モデルの場合と
同様に、それらの“単語モデル”は、(a)複数の状
態(初期状態から開始して、最終状態で終了す
る)、及び(b)状態間に延びる遷移を含む。各単語
モデル、即ち“ベースフオーム”について、(a)遷
移に関連する確率と、(b)ラベル出力確率とを反映
する値を記憶する手段が存在する。各ラベル出力
確率は、所与のラベルが所与の遷移に於て生じる
尤度に対応するように意図されている。 マルコフ・モデルに関して統計を発生させて確
率を決定するプロセスは、“学習”と呼ばれる。
単語モデルの学習を行う場合、典型的には、既知
の発声(以下に於ては、或る語彙中の単語の発声
と考える)の学習スクリプトが、システムのユー
ザにより音響プロセツサ中に発声される。音響プ
ロセツサは、ユーザにより既知単語の発声に応答
してラベル系列を発声する。学習スクリプトの発
声に応答して発生されたラベルから、統計が発生
され、それらから確率が決定される。 “最大尤度学習”と呼ばれる、学習に対する1
つの方法が、マルコフ・モデリングに於て一般的
に用いられている。この方法によれば、学習デー
タが発生される尤度を最大にする統計が見出され
る。即ち、ラベルa1a2……の系列A及びマルコ
フ・モデルMが与えられたとき、式Pr(A|M)
を最大にする統計が求められる。その最大尤度方
法に於ては、モデルMが与えられたときの系列A
の確率が最大になるように、モデルMの統計が定
義される。この方法は、妥当に正確な結果を与え
る。 しかし、その最大尤度方法は、単語のデコーデ
イングの精度を最大にするために特に敵したもの
ではない。単語モデルは近似的なものであるの
で、Mを与えられたときのAの確率を最大にする
統計の定義と、発声入力に対して正しい単語を与
える精度を最大にする統計の定義との間には相違
がある。その相違の結果、最大尤度方法のみを頼
りに学習された単語モデルは、不精確さの問題を
或る程度有している。 確率的音声認識システムの精度が、確率値を含む
単語モデルの精度に大きく依存するという点で、
単語モデルの精度は、達成できる妥当な高さであ
ることが極めて重要である。 C 発明が解決しようとする問題点 本発明の目的は、好ましくは音声認識の環境に
於て、単語のデコーデイングの精度を最大にする
方法で、マルコフ・モデル及び同様なモデルの学
習を行うことである。具体的に云えば、本発明
は、正しい単語の確率を、他の単語に関連する確
率に関して大きくする方法で、各モデルに関する
統計を決定することに係る。その原理は、他の方
法の場合の如く、スクリプトを与えられたときの
ラベルの確率を最大にするよりも、ラベル出力を
与えられたときの発声された単語の正しいスクリ
プトの確率と、任意の他の(正しくない)スクリ
プトの確率との相違を最大にすることである。 D 問題点を解決するための手段 上記目的を達成するために、本発明は、コミユ
ニケートされた単語入力に応答して発生された、
出力のアルフアベツトから選択された出力から語
彙中の単語がデコードされ、上記語彙中の各単語
が少なくとも1つの確率的有限状態モデルのベー
スフオームにより表わされ、各確率的モデルが遷
移確率項目と出力確率項目とを有し、そして少な
くとも幾つかの確率項目の各々について確率値が
記憶されるシステムに於て、或る既知単語入力の
コミユニケーシヨンに応答して発生された出力が
該既知単語のためのベースフオームにより生じる
尤度を、上記の発生された出力が他の少なくとも
1つの単語のためのベースフオームにより生じる
各々の尤度に関して、大きくするために、記憶さ
れた確率値の少なくとも幾つかにバイアスを加え
ることを含む、確率値の決定方法を提供する。 各単語モデルは、1つ又はそれ以上の連続する
確率的有限状態マシーンにより表わされることが
好ましい。各マシーンは、一組の単音からの1つ
の“単音(phone)”に対応する。各単音は、マ
ルコフ・モデル又は同種のものを指定することが
できる、音声学的要素、ラベル即ちフイーニーム
(feneme−フロント・エンド・プロセツサ等から
得られる音素)、又は何らかの他の予め定義され
た音声の特徴付けと相互関係を有している。 学習スクリプトは、典型的には、一連の既知単
語より成り、各単語は一連の単音を構成し、従つ
て各単語は一連の単音マシーンにより表わすこと
ができる。 本発明の方法によれば、確率項目に関連する確
率値は次の如く評価される。各確率項目に関し
て、定義された予測値θ′が存在する。 予測値θ′及び学習中に発生されたラベルが与え
られたとき、“単一カウント”と呼ばれる値が決
定される。一般的には、“単一カウント”は、或
る事象が学習データに基づいて生じた(予測され
た)回数に関連する。“単一カウント”の1つの
特定の定義は、(a)或る一定のラベル系列Y、(b)定
義された予測値θ′、及び(c)或る特定の時間tを与
えられたときの、或る特定の遷移τi及び状態Sj
確率である。 上記単一カウントは、周知のフオワード・バツク
ワード・アルゴリズム、又はBaum−Welchアル
ゴリズムを適用することによつて決定される。 上記定義によれば、単一カウントは次式で表わ
すことができる。 Pr(Sj、τi|Y、θ′、t) 各時間tの特定のSj、τi、Y、及びθ′のための
単一カウントを合計することにより、“遷移累計
カウント”が対応する遷移確率項目について決定
される。遷移累計カウントは確率の合計であるた
め、その値は1を越えることがある。各遷移確率
項目について、各々の累計カウントが記憶される
ことが好ましい。所与の遷移のためのその累計カ
ウントを、状態Sjから取出すことができるすべて
の遷移のための累計カウントの合計で割ることに
より、各々の遷移確率項目のための現在の確率値
が決定される。その現在の確率値は、好ましく
は、その各々の遷移確率項目に関連して記憶され
ることが好ましい。 ラベル出力確率項目についても、単一カウント
が合計される。それらの確率項目の各々に関し
て、或る特定のSj、τi、Y、及びθ′のための単一
カウントの合計が、ラベル系列に於ける対応する
発生されたラベルがそのラベル出力確率項目に対
応するラベルである、すべてのラベル時間につい
て得られる。この場合の合計は、“ラベル出力累
計カウント”であり、それに対応するラベル出力
確率項目に関連して記憶されることが好ましい。
この累計カウントを、特定のSj、τi、Y、及び
θ′のためのすべてのラベル時間に亘る単一カウン
トの合計で割ることにより、各々のラベル出力確
率項目のための現在の確率値が決定される。 本発明の方法は、確率的単語、より具体的には
音声の認識システムに於ける単語のデコーデイン
グの精度を高めるために、上記の確率項目の現在
の確率値を改善することに係る。 本発明の方法によれば、発声された既知単語の
学習スクリプト、各確率項目のための初期確率
値、及び学習中に発声された各単語のための候補
単語のリストが規定される。候補単語リストは、
本出願人による特願昭60−255205号明細書に記載
されているマツチング手順の如き手順によつて定
義される。すべての既知の発声された単語に対し
て、“正しい”既知の単語及び“正しくない”単
語(好ましくは、既知単語として誤つてデコード
される最大尤度を有している正しくない単語)が
存在する。確率項目の現在の確率値は、正しい単
語のベースフオーム又は正しくない単語のベース
フオームに於ける各確率項目のための“プラス・
カウント値”及び“マイナス・カウント値”を初
めに計算することによつて決定される。 プラス・カウント値は対応する確率項目(各確
率項目)のための累計カウントに加えられ、マイ
ナス・カウント値は上記累計カウントから差引か
れる。それらの調整された累計カウントに基づ
き、確率項目のための確率値が再び計算されて記
憶される。“プラス・カウント値”は、周知のフ
オワード・バツクワード・アルゴリズムを適用
し、好ましくはその結果生じる統計を基準化する
ことにより、正しい(即ち、既知の)単語のベー
スフオームに於ける各確率項目について計算され
る。その加算は、カウント値(及びそれらから引
出された確率項目)を系列Yの方へ近づくように
バイアスさせて、系列Yが正しい単語モデルのよ
り高い尤度の出力に思われるようにする。 所与の確率項目のためのマイナス・カウント値
は、あたかも正しくない単語が発声されて、その
ラベル系列が生じたかのようにフオワード・バツ
クワード・アルゴリズムを適用することにより計
算される。その既知単語の単一の発声から引出さ
れたマイナス・カウント値は、(“プラス・カウン
ト値”との加算の前又は後に)対応する累計カウ
ントの最も最近の値から差引かれる。その減算
は、正しくない単語のベースフオームに於ける確
率項目の計算に用いられた累計カウントを系列Y
から離れるようにバイアスさせる。 語彙中の各単語に上記ステツプを行うことによ
り、記憶されたカウント値及び確率値がデコーデ
イングの精度を高めるように調整される。 従つて、本発明の目的は、デコーデイング・エ
ラーをゼロにするように確率及び統計を決定する
ことであり、又音声から語彙中の単語へのデコー
デイングを改善するために他の技術により決定さ
れるカウント値を改善することである。 E 実施例 次に、本出願人による特願昭60−255205号明細
書を参照して、本発明の方法に係る背景及び環境
について説明する。 () 音声認識システムの全体的説明 第1図に於て、音声認識システム1000の全
体的ブロツク図が示されている。システム100
0は、音響プロセツサ1004が接続されている
スタツク・デコーダ1002、近似的な高速音響
マツチングを行うために用いられるアレイ・プロ
セツサ1006、詳細な音響マツチングを行うた
めに用いられるアレイ・プロセツサ1008、言
語モデル1010、及びワーク・ステーシヨン1
012を含む。 音響プロセツサ1004は、音声波形入力を、
一般的には各々が対応する音の種類を識別するラ
ベル系列に変形させるように設計されている。こ
のシステムに於て、音響プロセツサ1004は、
人間の耳のユニークなモデルに基づいており、本
出願人による特願昭60−211229号明細書に記載さ
れている。上記明細書は、音声入力に応答してラ
ベルを発生させる特に有効な方法を開示してい
る。 音響プロセツサ1004からのラベル(本明細
書に於ては、“フイーニーム”とも呼ばれる)は、
スタツク・デコーダ1002に入る。論理的に
は、スタツク・デコーダ1002は、第2図に示
されている素子により表わすことができる。即
ち、スタツク・デコーダ1002はサーチ素子1
020を含み、サーチ素子1020は、ワーク・
ステーシヨン1012とコミユニケートし、又
各々インタフエース1022,1024,102
6、及び1028を経て、音響プロセツサのプロ
セス、高速マツチング・プロセツサのプロセス、
詳細マツチング・プロセツサのプロセス、及び言
語モデルのプロセスとコミユニケートする。 動作に於て、音響プロセツサ1004により発
生されたフイーニームは、サーチ素子1020に
より高速マツチング・プロセツサ1006にコミ
ユニケートされる。詳細マツチング及び高速マツ
チングの手順について以下に説明するが、前述の
特願昭60−255205号明細書にも記載されている。
簡単に云えば、音響マツチングの目的は、音響学
に基づき、所与のラベル系列に関して最も尤度の
高い1つ又は複数の単語を決定することである。
この目的の達成に於て、各単語は、少なくとも1
つの確率的有限状態マシーンにより表わされる。
典型的には、各単語は、一連のそのようなマシー
ンによつて表わされる。 各確率的有限状態マシーンは、(a)複数の状態
Si、(b)幾つかは或る状態から他の状態へ延びてお
り、他の幾つかは或る状態から延びてそれ自体へ
戻り、各々が各々に関連して対応する確率を有し
ている、複数の遷移tr(Sj|Si)、及び(c)或る特定
の遷移に於て発生することができる各ラベルに関
する、対応する実際のラベル出力確率によつて特
徴付けられる。便宜上、等価的に、多数の遷移
を、あたかも単一の遷移であるかのように、一群
にまとめて、単一の組のラベル出力確率をそれに
関連させてもよい。 それらのマシーンをうめる確率は、学習スクリ
プトがユーザにより発声される学習セツシヨン中
に引出されるデータに基づいて決定される。その
引出されたデータは、ユーザの特定の発声特性に
対応する。 語彙中の単語を調べそして入力ラベルの所与の
系列のための候補単語の数を減少させるために、
学習された単語モデル(即ち、単語のベースフオ
ーム)を用いて、高速の近似的音響マツチングが
行われる。その高速マツチングに従つて、確率値
の少なくとも幾つかについて近似値が求められ
る。それから、それらの近似された確率値に基づ
いて、マツチングが行われる。 言語モデル1010は、高速マツチング用候補
リストに於ける候補単語の如き、種々の単語の
各々の前後関係から尤度を、好ましくは存在する
トリグラムに基づいて、決定する。この方法につ
いては、従来の文献に於て一般的に報告されてい
る。 詳細マツチングは、単独でも又は高速マツチン
グと組合わせても行われる。単独で行われるとき
は、各単語モデルの対応する近似されていない確
率値が、対応する単語のマツチング・スコアの決
定に於て考察される。詳細マツチングは、語彙中
の各単語について、スコアを調べて供給する。 高速マツチングと組合わせて用いられるとき
は、詳細マツチングは、発声された単語である妥
当な尤度を有し且つ好ましくは言語モデルの計算
に基づく妥当な尤度を有している、高速マツチン
グ用候補リストからの単語を調べる。 音響マツチング及び言語モデルから引出された
1つ又は複数の単語が、スタツク・デコーダ10
02により用いられる。具体的には、スタツク・
デコーダ1002は、高速マツチング、詳細マツ
チング、及び言語モデルの適用により引出された
情報を用いて、発生されたラベルの系列のための
最も尤度の高い単語の径路又はシーケンスを決定
するように設計されている。 最も尤度の高い単語のシーケンスを見出すため
の従来の2つの技術は、ビタビ・デコーデイング
及び単一スタツク・デコーデイングである。それ
らの各技術は、Bahl、Jelinek、及びMercerによ
る論文“A Maximum Likelihood Approach
to Continuous Speech Recognition、”IEEE
Transactions on Pattern Analysis and
Machine Intelligence、第PAMI−5巻、第2
号、第179頁乃至第190頁(1983年)に記載されて
いる。ビタビ・デコーデイングは、上記論文の第
5節に、単一スタツク・デコーデイングは第6節
に記載されている。 単一スタツク・デコーデイング技術に於ては、
異なる長さの径路が尤度に従つて単一スタツクに
リストされ、デコーデイングはその単一スタツク
に基づいて行われる。単一スタツク・デコーデイ
ングは、尤度がある程度径路の長さに依存し、従
つて標準化が一般的に用いられることを考慮に入
れなければならない。 ビタビ技術は、標準化を必要とせず、一般的に
は小さな仕事に実用的である。 スタツク・デコーダ1002は、他の素子を制
御するように働くが、多くの計算を行わない。従
つて、スタツク・デコーダ1002は、好ましく
は、Virtual Machine/System Product
Introduction Release 3(1983)の如き出版物に
記載されている如き、IBM VM/370オペレーテ
イング・システムの下で動作する4341(商品名)
を含む。相当な計算を行うアレイ・プロセツサ
は、市販のFloating Point System、Inc.製
(FPS)190Lを用いて実現された。 上記システムの概略的説明に於て、値を割当て
なければならない確率項目を有するマルコフ・モ
デルは、高速マツチング・プロセツサ1006及
び詳細マツチング・プロセツサ1008に於て用
いられる。本発明の方法は、単語認識の精度を高
めるために、音響マツチング・プロセツサに於て
用いられる確率項目の値を調整することを含む。 () 単語表現マルコフ・モデルも学習の改善 (A) 概観 第3図は、本発明の1つの一般的実施例を示す
流れ図である。ステツプ1102に於て、語彙単語の
学習スクリプトの発声される。ステツプ1104に於
て、学習スクリプトの発声に応答して、ラベルが
発生される。このラベリングは、第1図に関連し
て既に述べた音響プロセツサ1002により行わ
れる。 好ましくは、200個の異なるラベルがあり、各
ラベルは或る時間間隔を占めることができる1つ
の音の種類を識別する。用いられるラベルのアル
フアベツトを定義する技術については、従来の文
献に於て論じられている。或る特定の技術が、前
述の特願昭60−211229号明細書に詳述されてい
る。そのプロセスは、大まかに云えば、音声の特
徴を選択するステツプ、複数のクラスタ又は領域
に区分された空間として音声を定義するステツ
プ、及び各領域にプロトタイプを割振るステツプ
を含む。予め定義されたパラメータの値に基づい
て、種々のプロトタイプの特性からの入力音声の
特性の距離が決定される。それから、“最も近い”
プロトタイプが、音声の或る特定の時間間隔に関
連付けられる。各プロトタイプは、1つのラベル
として識別される。従つて、音声の連続する時間
間隔には、連続するラベルが存在する。クラスタ
の形成、特徴の選択、及びプロトタイプの距離の
測定のための技術は周知である。 第3図のステツプ1106に於て、語彙中の各単語
がマルコフ・モデルの単語のベースフオームとし
て表わされる。即ち、各単語は、一連の連結され
た確率的有限状態マシーンにより表わされる。
(連結されたシーケンスも1つの確率的有限状態
マシーンである。)構成している各マシーンは1
つの“単音”マシーンである。前述の如く、単音
は、音声学(即ち、音素)に基づいて特徴付けら
れてもよく、又はラベル(即ち、フイーニーム)
に基づいて特徴付けられてもよい。音声学的、フ
イーニーム的、又は他の特徴付けに関係なく、各
単音マシーンは、(a)複数の状態Si、(b)SjがSiと同
じ状態であつてもなくてもよく、各々が各々に関
連して対応する確率を有している、複数の遷移tr
(Sj|Si)、及び(c)或る特定の遷移に於て発生する
ことができる各ラベルに関する、対応する実際の
ラベル出力確率を含む。 音声学的単音マシーンの場合、各単音マシーン
は、国際音標文字に於ける1つの要素の如き或る
音声学的要素に対応する。音声学的単音マシーン
の一例が第4図に示されている。 第4図に於て、単音マシーン1200には、7
個の状態S1乃至S7及び13個の遷移tr1乃至tr13が設
けられている。第4図は又、単音マシーンが、点
線の径路を有する3つの遷移、即ち遷移tr11
tr12、及びtr13を有することを示している。それ
らの3つの遷移の各々に於ては、単音は、ラベル
を生じずに或る状態から他の状態へ変化すること
ができ、従つてそのような遷移はナル遷移と呼ば
れる。ラベルは、遷移tr1乃至tr10に沿つて生じる
ことができる。具体的に云えば、各遷移tr1乃至
tr10に沿つて、1つ又はそれ以上のラベルが、そ
の遷移で発生される別個の確率を有することがで
きる。好ましくは、音響プロセツサが発生するこ
とができる各ラベルに関連する確率が、各遷移に
ついて存在する。即ち、音響チヤネルが200個の
ラベルを選択的に発生することができる場合、各
遷移(ナルでない)は、該遷移に関連して200個
の“実際のラベル出力確率”を有し、各ラベル出
力確率は、その対応するラベルがその単音により
その特定の遷移に於て発生される尤度を示す確率
値を有する。遷移tr1のための実際のラベル出力
確率は、角括弧で挿まれた数字1乃至200の列を
伴つた記号pにより表わされ、各数字は所与のラ
ベルを表わしていいる。ラベル1に関しては、単
音マシーン1200が遷移tr1に於てラベル1を
発生する確率p〔1〕が存在する。種々の実際の
ラベル出力確率は、そのラベル、及び所与の単音
のための対応する遷移に関連して記憶される。 70個の異なる単音、例えば、各音声学的要素に
1つの単音が存在する場合、すべての単音マシー
ンを考慮に入れた、別個の確率の総数は、ラベル
出力確率と遷移確率との合計である。確率の総数
は以下の通りである。 200〔発生可能な別個のラベル〕 ×10〔1単音マシーン当りの非ナル遷移〕 ×70〔別個の単音〕 140000〔ラベル出力確率〕 13〔1単音当りの遷移〕 ×70〔別個の単音〕 910〔遷移確率〕 従つて、知られていなければならない(又は予
測されねばならない)確率の総数は、140000×
910=140910である。140910個のエントリーを有
するリストがメモリに記憶されることが好まし
い。後述する如く、エントリーの総数は、他の種
類の単音が用いられる場合、又は遷移が相互にマ
ージされる場合には、異なることがある。いずれ
の場合でも、各エントリーは、ラベル出力確率又
は遷移確率(又はマージされた或は結合された事
象を表わす何らかの確率)のいずれかに対応す
る、単一の“確率項目”のためのものである。 各確率項目の値は、学習中に決定された“カウ
ント”から引出される。各“カウント”は、或る
既知入力に応答して或る特定のラベル出力の系列
が発生されるとき、所与の時間に於て所与の単音
マシーンに於ける状態から取出されている所与の
遷移の如き、各々の事象が生じる確率を表わす。
好ましくは、カウント値及び確率項目値は、初め
に最大尤度デコーデイング技術に従つて決定され
る。即ち、カウント統計及び確率項目値は、式
Pr(Ytog|M)を最大にするように計算される。
上記式に於て、Ytogは初期学習中に発生されたラ
ベルの系列であり、Mはマルコフ・モデルであ
る。以下に詳述する如く異なる種類のカウント
(例えば、単一カウント及び累計カウント)を、
対応する異なる事象を表わすように定義すること
ができる。 本発明の方法によれば、各々の確率項目のため
の値が、デコーデイングの性能を改善するように
調整される。具体的に云えば、確率項目が引出さ
れるカウントの値が、正しい単語のデコーデイン
グの方へバイアス即ち調整される。 第5図は、第4図の単音マシーン1200のト
レリスを示す。このトレリスは、状態S1から状態
S7へのナル遷移並びに状態S1から状態S2へ及び状
態S1から状態S4への非ナル遷移を示している。他
の状態の間の遷移も示されている。このトレリス
は又、水平方向に測定された時間を示している。
或る単音が時間t=t0に於て開始時間を有する確
率を表わすために、開始時間の確率q0を決定する
ことができる。開始時間t0に於て、種々の遷移が
示されている。この点に於て、連続する時間の間
の時間間隔は、ラベルの時間間隔と長さが等しい
ことが好ましい。第5図に於ては、単一の単音が
単一の時間間隔について示されている。 音声学的単音マシーンの代りに、フイーニーム
的単音マシーンを単語のベースフオームの構築に
用いてもよい。音声学的単音(典型的には、200
個)でなく、フイーニーム的単音(典型的には、
70個)を用いた場合には、確率の総数が変化す
る。フイーニーム的単音を用いた場合には、1単
語中の単音の数は典型的にはより大きいが、遷移
の選択の総数は典型的にはより小さい。本発明の
方法は、単音の種類に関係なく、適用される。フ
イーニーム的単音より成るフイーニーム的単語の
ベースフオームを構築するための装置及び方法論
については、本出願人による特願昭61−16993号
明細書に開示されている。 各フイーニーム的単音マシーンは、第6図に示
す如き構造を有する。一連のフイーニーム的単音
マシーンのトレリスを第7図に示す。 第8a図及び第8b図は、音声学的単語のベー
スフオームを表わしている。第8a図に於ては、
所与の単語に対応する一連の音声学的単音の一例
が、PP7及びPP10を伴つたPP1であるよう
に示されている。“PP”は、音声学的単音を表わ
す。末尾の数字は各々、70個(又は、それ以上)
の単音の組に於ける或る特定の単音を識別する。
例えば、第8a図及び第8b図のベースフオーム
は、単語“THE”のためのベースフオームであ
るものとする。“THE”の1つの音声学的スペリ
ングは、DH−UH1−XXである。この例によれ
ば、PP1は単音DHに対応し、PP7は単音UH
1に対応し、PP10は単音XXに対応する。 単音PP1は第8b図に示す如き確率を有する。
即ち、第1遷移はp〔tr1P1〕として表わされてい
る確率を有し、第2遷移はp〔tr2P1〕として表わ
されている確率を有し、他の各遷移についても同
様である。遷移tr1には、又ラベル出力確率の配
列体、即ちpP1′〔1〕、pP1′〔2〕、……及びpP1
〔200〕も存在する。添字P1はその組の音声学的
単音1として単音を識別し、単一のプライム符号
(′)は第1遷移を示す。従つて、pP1′〔1〕は、
音声学的単音PP1が遷移1に於てラベル1を生
じる確率を表わしている。 第8b図には、説明を簡単にするために、代表
的な確率のみが示されている。例えば、音声学的
単音PP7について、1つだけ示されている遷移
の確率は第1遷移の確率であり、即ちp〔tr1P7
である。又、遷移tr1に於けるラベル出力確率の
配列体が、角括弧内に200個のラベルを有する
pP7′として示されている。詳細に示せば、第8b
図は各遷移について確率を含むことになる。各非
ナル遷移についても、各々の可能なラベル出力に
関する確率が存在する。 各音声学的単音の各確率は、メモリ中に記憶さ
れた各々のための値を有している。所与の単語
(例えば、“THE”)は、その所与の単語に対応す
る音声学的単音(例えば、DH,UH1,及び
XX)に関連する、記憶された確率値により特徴
付けることができる。 第9図に於ては、或る単語が、次に示す表1の
フイーニームに各々対応する、一連のフイーニー
ム的単音により表わされている。単語“THE”
は、3つの音声学的単音でなく、恐らく60個の連
結した、2状態のフイーニーム的単音により表わ
される。その場合、単語“THE”は、構成する
フイーニーム的単音に対応する遷移確率及びラベ
ル出力確率によつて特徴付けられる。 【表】 例えば、そのシーケンスに於ける第1のフイー
ニーム的単音は、FP200である。FP200
は、3つの遷移を有し、それらは各々の確率p
〔tr1F200〕、p〔tr2F200〕、及びp〔tr3F200〕を有

ている。FP200の2つの非ナル遷移1及び2
は、各々に関連するラベル出力確率を有してい
る。 フイーニーム的単音FP200に伴う、フイー
ニーム的単音FP10及び後続のフイーニーム的
単音も、各々に関連する対応する確率を有してい
る。それらの一連のフイーニーム的単音は、それ
らの関連する確率とともに、“THE”の如き、単
語を定義する。 各単音(音声学的又はフイーニーム的)は、多
数の遷移確率及びラベル出力確率を含み、それら
は集合的に“確率項目”と呼ばれる。各確率項目
に、メモリの一部が割当てられ、対応する値がそ
の部分に記憶される。精度を高めるために本発明
の方法に従つて要請されるのは、それらの値であ
る。 確率項目のための値の記憶は、第3図のステツ
プ1108に示されている。初めに記憶されている値
の発生は、従来の種々の学習技術に於ける任意の
技術によつて行われる。例えば、前述の論文
“Continuous Speech Recognition by
Statistical Methods”は、その第7節に於て、
或る学習手順について記載している。具体的に云
えば、その学習は、以下に簡単に説明する周知の
フオワード・バツクワード・アルゴリズムに関連
して記載されている。フオワード・バツクワー
ド・アルゴリズムによつて、カウントのための値
が引出され、それらのカウント値から、各確率項
目のための確率値が計算される。本発明の方法
は、それらの確率値、及びそれらの確率値が引出
されるカウント値を改善する。 前述の如く、各単語のベースフオームは一連の
単音として特徴付けられ、各単音はそれに関連す
る確率項目(及びそれらのための確率値)により
特徴付けられる。従つて、それらの確率値を記憶
し、割当てることにより、マルコフ単語モデル
(即ち、ベースフオーム)を特徴付けることがで
きる。 一連の3つの音声学的単音DH,UH1,及び
XXにより表わされたときの単語“THE”につ
いて再び考察すると、各単音は、第4図の単音マ
シーン1200の如き単音マシーンにより表わさ
れる。学習セツシヨン中に、単語“THE”を構
成している3つの音声学的単音が発声され、それ
らに応答してラベル(即ち、フイーニーム)の系
列が発生される。発生されたラベルに基づき、フ
オワード・バツクワード・アルゴリズムが第10
図に示されている如きトレリスを経て進められ、
種々の遷移が調べられる。後述される如く、フオ
ワード・バツクワード・アルゴリズムを用いてカ
ウントのための値が決定され、そのような値が記
憶されそして本発明の方法に従つて調整される。
そのカウント・データから、種々の確率項目のた
めの改良された値が決定されて記憶される。 後述される如く、記憶された確率項目の値は、
フオワード・バツクワード・アルゴリズムにより
発生されたカウントから初めに計算された値、又
は本発明の方法に従つて予め調整された値のいず
れかを表わす。一貫性を与えるために、ステツプ
1108に於て記憶された値は、いずれの場合も、以
下に於て“現在”の記憶された値と呼ばれる。 再び第3図に於て、ステツプ1108中に記憶され
た値を強調するプロセスが、ステツプ1110に於て
開始される。ステツプ1110に於て、“新しい”単
語が語彙から選択される。その“新しい”単語
は、発声された単語のスクリプトに於ける次の単
語であることが好ましい。その選択された単語
が、“主題の”単語であり、そのための単語モデ
ルが後続のステツプに従つて調べられる。 ステツプ1112に於て、主題の単語が一回発声さ
れる。ステツプ1114に於て、上記の単一の発声に
応答して、対応するラベル系列が発生される。発
生されたラベル系列に対して、マツチング手順が
行われ、候補単語の順序付けられたリストが形成
される。その順序付けられたリストを得るための
1つのマツチング手順は、以下に述べられ、又前
述の特願昭60−255205号明細書にも記載されてい
る、高速マツチングである。 “正しい”単語と呼ばれる、実際の発声された
単語は、既知である。更に、音響マツチング中に
形成された候補リストから、少なくとも1つの
“正しくない”単語が、ステツプ1116に於て、選
択される。主題の単語が発声されたとき、“正し
くない”単語が誤つて選択される見込みのない場
合には、ステツプ1118に於て、ステツプ1110に戻
る決定が成される。それから、新しい主題の単語
が選択される。 主題の単語が発声されたとき、“正しくない”
単語が誤つて選択される尤度が、定義された妥当
な尤度であれば、“正しい”単語及び“正しくな
い”単語のための現在の確率項目値が調整され
る。 より具体的に、主題の単語の1回の発声につい
て考察する。必ずしも必要ではないが、好ましく
は、その1回の発声は、初めの学習セツシヨンの
後に発声される。正しい単語にフオワード・バツ
クワード・アルゴリズムを適用することにより、
その1回の発声から、正しい単語のためのベース
フオームに於ける各確率項目について、多数の
“プラス”・カウントが計算される。それらの“プ
ラス”・カウントは、ステツプ1120に於て計算さ
れる。所望ならば、それらの“プラス”・カウン
トは、基準化され又は重み付けられる。“プラ
ス”・カウントは、各々の記憶されたカウントに
対応し、各々の記憶されたカウントの現在の値へ
の加数として働く。その増加は、“正しい”単語
のための確率項目の計算に用いられた各々の記憶
されたカウントについて、ステツプ1122に於て行
われる。即ち、正しい単語のためのベースフオー
ムに含まれる140910個の確率項目の各々につい
て、それに関するカウントが認識され、そのため
の記憶された“現在の”値が、対応する“プラ
ス”・カウント値、又はそれに関する基準化され
た又は重み付けられた値で増加される。 “正しい”単語の確率項目の計算に用いられた
カウントの“現在の”記憶された値を増加させる
ことに加えて、本発明の方法は又、“正しくない”
単語のためのベースフオームに含まれている確率
項目の計算に用いられたカウントの“現在の”値
を調整することも特徴とする。この点に於て、主
題の(“正しい”)単語は発声されるが、“正しく
ない”単語のための単語モデルは考察される。
“正しくない”単語のためのベースフオームに関
連するカウントは、それに関連する記憶された
“現在の”値を有している。主題の単語の1回の
発声に基づいて、ステツプ1124に於て“マイ
ナス”・カウント値が、“正しくない”単語のため
のベースフオームについて計算される。それか
ら、各々の“マイナス”・カウント値、又はそれ
に関する基準化された又は重み付けられた値が、
負のバイアス値として働く。 正しい単語に関連する所与のカウントには、そ
の所与のカウントの記憶された値に加えられる
“プラス・カウント値”(又は、その関連する値)
が存在する。同様に、正しくない単語に関連する
所与のカウントには、その所与のカウントの記憶
された値から差引かれる“マイナス・カウント”
値(又は、関連する値)が存在する。正しい単語
及び正しくない単語に関連する所与のカウントに
ついては、その所与のカウントは、“プラス・カ
ウント値”(又は、関連する値)で増加され、そ
して“マイナス・カウント値”(又は、その関連
する値)で減少される。その結果、各々の所与の
カウントについて、調整された値が得られる。後
に、ステツプ1128に於て、それらの調整され
たカウントから確率項目が再計算され、それに応
じて“正しい”単語の方へ近づきそして“正しく
ない”単語から離れるようにバイアスされる。 再び第10図に於て、第4図に示されている如
き単音マシーンに基づくトレリスの一部が示され
ている。具体的に云えば、3つの連続するラベル
の時間間隔に亘る単音モデルが示されている。そ
の単音モデルは、特定の1つ又は複数の単音の発
声を表わすことができる極めて多数のトラツクを
定義している。例えば、所与の単音について、1
つの可能なトラツクは、時間t0に於て、状態S1
ら開始し、それから状態S2へ進むことができる。
そのトラツクは、時間t1に於ける状態S2から時間
t2に於ける状態S3へ、それから状態S7(最終状態)
へと続くことができる。所与の単音はより短かい
長さを有してもよく、より多数の時間間隔に亘つ
て延びてもよい。そのトレリスは、或る発声をト
ラツキングすることができる体系を表わしてい
る。フオワード・バツクワード・アルゴリズム
は、後述される如く、上記トレリスに於ける遷移
及びそれらの遷移に於けるラベル出力確率に関連
する種々の確率を決定するステツプのアウトライ
ンをなす。 第10図のトレリスが、単語“THE”に於け
る如き単音DHに対応するものと仮定する。説明
のため、1つの確率項目について考察する。その
確率項目は、遷移τiに於てラベルfhを生じる尤度
に関連する。この例に於ては、fhは、ラベル・ア
ルフアベツト中の1つのラベルTH1に対応する
(表1参照)。初めの学習中に、遷移τiに於て生じ
ているラベルTH1に対応する確率項目のための
予備的な値が記憶される。そのラベルTH1の確
率項目のための予備値は、好ましくは単音DHの
多数の発声に基づいて、記憶されているカウント
値から計算される。遷移τiに於て生じているラベ
ルTH1に関する確率項目のための学習中に引出
された予備値は、0.07であると仮定する。又、
DHの単音マシーンに於ける特定の遷移τiに於け
るラベルTH1の発生は、140910個の確率項目の
リストに於ける確率項目9001として識別されるも
のと仮定する。従つて、確率項目9001は、記憶さ
れた現在の確率値0.07を有している。他の各確率
項目についても、予備値が同様に記憶される。更
に、確率項目の確率の計算に用いられる各カウン
トについても、予備値が記憶される。確率項目
9001の計算に用いられたカウントの1つ
COUNTXは、6の予備値を有するものと仮定す
る。後述する如く、COUNTXは、累計カウント
である。 すべてのカウント及び確率項目について値が記
憶されて、本発明が進められる。説明のため、
“正しい”単語“THE”について、所与の語彙の
ための高速音響マツチングは、“THEN”が候補
単語であることを示すものと仮定する。その後、
詳細マツチングは、単語“THEN”が、既知の
単語“THE”の単一の発生に基づいて(第3図
のステツプ1114)誤つて選択される(ステツプ
1116)尤度が最も大きい“正しくない”単語であ
ることを示す。そのとき、単語“THEN”のた
めのマツチング・スコアは、音響マツチングに従
つて、単語“THE”のためのマツチング・スコ
アの何らかの予め定義された限界内にあることが
見出される。 それから、正しい単語のためのベースフオーム
に於ける各カウントのための“プラス・カウント
値”(ある場合)が、フオワード・バツクワー
ド・アルゴリズムを適用することにより、単一の
発生に基づいて計算される。上記の例を続けて、
確率項目9001、即ち単音DHに於ける遷移τiに於
て生じているラベルTH1、のための値の計算に
用いられるCOUNTXは、正しい単語“THE”
の単一の発声に応答して生じた1.5の“プラス・
カウント値”を有するものと仮定する。その“プ
ラス・カウント値”1.5は、必ずしも必要ではな
いが好ましくは、何らかの係数、例えば1/2によ
り基準化される。(その係数を決定することがで
きる1つの方法を以下に述べる。)その基準化さ
れた値0.75が、カウントCOUNTXのための前に
記憶された値6に加えられる。その結果、
COUNTXの値が、6.75に調整される。 又、“正しくない”単語“THEN”に対応する
“COUNTX”のための“マイナス・カウント値”
(ある場合)も、フオワード・バツクワード・ア
ルゴリズムを適用することにより決定される。そ
の“マイナス・カウント値”は、0.04であると仮
定する。その“マイナス・カウント値”も、必ず
しも必要ではないが好ましくは、例えば1/2によ
り基準化される。その場合、“マイナス・カウン
ト値”は0.02の値を有する。その“マイナス・カ
ウント値”は、COUNTXの値に適用される減数
として働く。従つて、COUNTXは、6+0.75−
0.02=6.73に調整される。 カウントが正しい単語のベースフオームと正し
くない単語のベースフオームとの両方に於て用い
られる場合には、それに関連する現在の記憶され
た値は、“プラス・カウント値”で増加され、そ
の合計が“マイナス・カウント値”で減少され
る。加算及び減算の順序は重要ではない。更に、
カウントが正しい単語のベースフオーム又は正し
くない単語のベースフオームのいずれかだけに於
て用いられる場合には、各々のカウントのための
現在の記憶された値に対して、各々“プラス・カ
ウント値”が加えられ又は“マイナス・カウント
値”が差引かれる。カウントのための記憶された
値が調整されると、その調整された値は後に用い
られるためにメモリに入れられる。具体的に云え
ば、各々の調整された値は、後のカウントの調整
に於て、現在の記憶された値として働く。後述さ
れる如く、カウント値が連続的に適切に調整され
るように、単語を相次いで発声してもよい。 第3図のステツプ1130に於て、発声されるべき
すべての単語が主題の単語であつたかについて、
決定が成される。そうでない場合には、新しい単
語が選択され、ステツプ1110から始まるプロセス
がその新しい単語について繰返される。発声され
るべきすべての単語が主題の単語であつたとき、
繰返しは終了し、本発明の方法に従つて、確率値
が、繰返しの終りに於けるそれらの値に基づいて
調整されたカウントから再計算される(ステツプ
1128)。それから、確率項目の現在の記憶された
確率値を用いて、次の繰返しに於ける音響マツチ
ング・スコア及びカウント値が決定される。次の
繰返しには、再定義された単語モデルをステツプ
1108に於ける出発点として、プロセス全体が反復
される(ステツプ1132参照)。 本発明の方法によれば、所与の確率項目のため
のカウント値の増加及び減少は、連続する単語が
所与の1回の繰返しの間に発声されるとき、多数
回行うことができる。又、複数の繰返しの場合も
同様である。更に、所与の単語に於ける幾つかの
確率項目の計算に、同一のカウントが用いられる
場合には、そのカウントは1回の繰返しに於て数
回調整することができる。 次に、第11図は、本発明の方法の或る特定の
実施例を示す流れ図である。第11図の実施例に
於て、各カウントは、記憶された“現在の”値を
有する。各カウントの記憶された“現在の”値
は、“プラス・カウント値”及び“マイナス・カ
ウント値”により適切に調整される。用語“カウ
ント”値の1つの定義が以下に提案されている
が、本発明の方法の実施に於て他の定義を用いる
こともできることを認識されたい。 第11図の実施例は、ステツプ1402から開始さ
れる。ステツプ1402に於て、多数の変数が導入さ
れて、セツトされる。それらの変数は、流れ図に
示されるに従つて、以下に定義される。それらの
変数は、所望ならば、変更可能である。 ステツプ1404に於て、補助的な予備処理ステツ
プが設けられている。その予備処理ステツプに於
ては、すべての遷移確率分布が、最高の確率を次
に高い確率で置換えてから、その分布を再び標準
化することにより、“平滑化”される。上記予備
処理ステツプの間に、次の開始(start−up)事
象が行われる。 (1) n=1にセツトする; (2) X=n番目の出力分布に於ける2番目に高い
ラベル出力確率にセツトする; (3) n番目の出力分布に於ける最高出力確率=X
にセツトする; (4) n番目の出力分布を再標準化する; (5) n=n+1にセツトする;そして、 (6) n>出力分布数であるかどうかを決定し、そ
うでなければ、予備処理ループは上記ステツプ
(2)に戻り、そうであれば、予備処理が終了し
て、ステツプ1406に進む。 上記予備処理ステツプは、本発明の方法の重要
なステツプではないが、背景として示されてい
る。 ステツプ1406に於て、発声された単語の数を表
わす、変数Iが1に於て開始される。ステツプ
1410に於て、I番目の単語のための“正しい”単
語のベースフオームのための対数(lng)確率、
即ちLCがセツトされる。そのI番目の単語は、
発声される既知の(又は、主題の)単語である。
lng確率LCの値は、音響マツチング中に決定され
る。 ステツプ1412に於て、I番目の単語の単一の発
声に応答して発生されたラベルを生じている尤度
が最大である“正しくない”単語のlng確率がLI
としてセツトされる。ステツプ1414に於て、LC
がLIを値Rだけ超えたかを決定するために、2つ
のlng確率が比較される。Rは、典型的には略10
にセツトされる、負でない閾値である。LCがLI
係数Rだけ超えたならば、ステツプ1416に於て、
新しい単語を呼出すためにIが増分される。すべ
ての単語が呼出されていなければ、プロセスはス
テツプ1410に戻り、新しい単語について処理が継
続される。発声されるべきすべての単語が呼出さ
れたならば、カウントの記憶された“現在の”値
として働く、カウントの前に調整された値を用い
て開始される、プロセス全体が反復される(ステ
ツプ1418及び1420)。そのプロセスは、変数
ITERがステツプ1422に於てインデツクスされ
て、NITERのためにセツトされた値を超える迄
(ステツプ1424)、繰返される。 LCがLIをRよりも大きい値だけ超えていない場
合には、LIがLCを超えたかについて決定が成され
る(ステツプ1430)。これは、音響マツチングが、
“正しい”単語よりも高いマツチングの値を有す
る“正しくない”単語をリストしたときに生じ
る。LIがLCを超えた場合には、ステツプ1432に於
て、変数Kが値Mに等しくセツトされる。Mは、
プログラムにパラメータとして供給される負でな
い閾値である。典型的には、Mは、1乃至10の範
囲内である。それよりも大きな値は、より迅速な
収束を生じるが、より粗雑な調整を生じる。 LIがLCよりも大きくなく且つLCとRよりも小
さい値だけ異なる場合には、ステツプ1434に於
て、KがM(R−LC+LI)/Rにセツトされる。
ステツプ1432及び1434の後、変数Jが1にセツト
される。変数Jは、カウント識別子である。変数
TJが、識別されたJ番目のカウントのための現
在の記憶された値に等しくセツトされる。初めの
繰返しの初めの調整に於ては、記憶された値は、
識別されたカウントのために入れられた初めの値
である。所与のカウントのための記憶された値
は、1つ又はそれ以上の前の繰返しの結果として
先に調整された、上記所与のカウントのための値
を表わすことができる(ステツプ1436)。 ステツプ1438に於て、変数ZCJが決定される。
変数ZCJは、正しいベースフオームに対応する単
語の単一の発声が与えられたとき、正しい単語の
ベースフオームに基づいて、J番目のカウントに
対応する事象が生じる回数を示す、“プラス・カ
ウント値”を表わす。即ち、既知の単語の発声に
応答して発生されたラベルについて、各々のJ番
目のカウントのための“プラス・カウント値”を
決定するために、“正しい”単語のベースフオー
ムにフオワード・バツクワード・アルゴリズムが
行われる。これは、ステツプ1438に於て、“正し
い”単語のベースフオームに於ける確率項目の計
算に用いられる各カウントについて行われる。 ステツプ1440に於て、変数ZIJは、正しいベー
スフオームに対応する単語の単一の発声が与えら
れたとき、正しくない単語のベースフオームに基
づいて、J番目のカウントに対応する事象が生じ
る回数を示す、“マイナス・カウント値”を表わ
す。即ち、既知の単語の発声に応答して発生され
たラベルについて、各々のJ番目のカウントのた
めの“マイナス・カウント値”を決定するため
に、正しくない単語のベースフオームにフオワー
ド・バツクワード・アルゴリズムが行われる。 各々のJ番目のカウントのための記憶された値
が、“プラス・カウント値”ZCJをKで基準化し、
“マイナス・カウント値”をKで基準化し、そし
て次の計算を行う(ステツプ1444)ことによつ
て、調整される。 TJ(調整された)=KZCJ−KZIJ+TJ “プラス・カウント値”及び“マイナス・カウ
ント値”は各々、同一の係数Kにより基準化され
て示されている。これらの条件の下では、正しい
カウント事象の発生は、正しくないカウント事象
の発生と均等な平衡状態になる。これは、好まし
いことであるが、本発明の方法は、“プラス・カ
ウント値”が“マイナス・カウント値”と異なる
ように、重み付けを行うことを意図している。 更に、各々の調整されたカウントは、前の零で
ないカウントが零又は負の値に減少されないよう
にするために、最小閾値を有している。この最小
レベルは、例えば、0.1程度である。 カウントTJが調整された後、ステツプ1446に
於て、変数Jが増分される。Jの増分された値
が、調整されるべきカウントの数を示す数と比較
される(ステツプ1448)。この点に於て、調整さ
れるべきカウントの数は、正しい単語のベースフ
オーム又は正しくない単語のベースフオーム又は
それらの両方に於ける確率項目の計算に用いられ
るカウントだけに等しいことが好ましいことが観
察される。又は、140910個の確率項目のための各
カウントが、各発声について、調整されてもよ
い。この後者の場合には、カウントの多くに零調
整が必要である。 ステツプ1448に於て決定される如く、調整され
るべきすべてのカウントが未だ更新されていない
場合には、前に調べられていないカウントが選択
され、“プラス・カウント値”(ある場合)及び
“マイナス・カウント値”(ある場合)が決定さ
れ、そのための記憶されたカウントが、既に概略
的に述べた如く、調整される。 すべての適当なカウントが調整された後、ステ
ツプ1416に於て、Iが増分される。ステツプ1418
及び後続のステツプが、既に述べた如く、続いて
行われる。具体的に云えば、カウントのための調
整された値を用いて、繰返しの終りに、確率項目
値が再計算される。それから、確率項目のための
再計算された値が記憶され、音響マツチングに用
いられているマルコフ・モデルに適切に適用され
る。例えば、第8b図に示されている確率項目の
ための調整された値が、そのための前のすべての
値と置換えられて、高速音響マツチング及び詳細
マツチングに於て用いられる。Iが増分される度
に、異なる単語の発声が調べられることを認識さ
れたい。しかし、所望ならば、同一の単語を、異
なるIの値に於て、一回よりも多く発声してもよ
い。 (B) カウントに基づく、遷移確率及びラベル出力
確率の決定 遷移確率及びラベル出力確率は、“カウント”
により定義される。“カウント”は、典型的には、
或る特定の事象が生じる回数(予測される)を定
義する。本発明の方法に於ては、“単一カウント”
及び“累計カウント”が存在する。特に指定しな
い限り、単独で用いられた“カウント”は、“単
一カウント”を意味する。 確率項目のための予測値θ′及び学習中に発生さ
れたラベル系列を与えられたとき、“単一カウン
ト”は、(a)或る一定のラベル系列Y、(b)定義され
た予測値θ′、及び(c)或る特定の時間tを与えられ
たときの、或る特定の遷移τi及び状態Sjの確率と
して定義される。上記の各単一カウントは、周知
のフオワード・バツクワード・アルゴリズム、又
はBaum−Welchアルゴリズムを適用することに
より決定される。 上記定義に従つて、単一カウントは、次式によ
り表わされる。 Pr(Sj、τi|Y、θ′、t) 上記単一カウントの計算に於て、θ′はPr′の特
徴付けに於て、暗に示されているものとして、除
くことができる。Bayesの定理を適用すると、上
記式は次のようになる。 Pr′(τi、Sj、Y|t)/Pr′(Y) Pr′(Y)は、パラメータθ′を用いて計算された
フオワード・パス確率から引出された確率として
識別される。従つて、問題は、次の確率の計算に
変形される。 すべてのi、tについて、Pr′(τi、Sj、Y|t) 上記式は、各々のi、tについて、マルコフ・
モデルがラベル系列Yを生じそして遷移τiが時間
tに於て取出された確率を表わす。 各時間tに於ける特定のSj、τi、Y、及びθ′の
ための単一カウントを合計することにより、対応
する遷移確率項目のための“遷移累計カウント”
が決定される。遷移累計カウントは確率の合計で
あるため、その値は1を超えることがある。各遷
移確率項目について、各々の累計カウントが記憶
される。所与の遷移のためのその累計カウント
を、τiの初期状態と同じ初期状態から取出すこと
ができる、すべての遷移のための累計カウントの
合計で割ることにより、各々の遷移確率項目のた
めの現在の確率値が計算される。その現在の確率
値は、その各々の遷移確率項目に関連して記憶さ
れることが好ましい。 各遷移確率項目は、好ましくは、予測されるよ
うに、次の如く定義される。 上記式から、各遷移確率はカウントにより定義
されることが明らかである。分子は、累計カウン
ト、即ち任意の時間乃至時間T+1に於ける所与
の遷移τiのための単一カウント値の合計であり、
分母は、時間T+1迄のすべての時間に亘つて取
出されたτiと同じ初期状態を有する、すべての可
能な遷移τi乃至τKに亘つて取出された単一カウン
ト値の合計を表わす。 更に、すべての非ナル遷移に於ける各ラベル出
力確率もカウントにより定義されることが好まし
い。即ち、遷移τi及び状態Sjを与えられたときに
生じるラベルfhのための予測されるラベル出力確
率Pr′は数学的に次の如く表わされる。 上記式に於て、fhはラベルのアルフアベツトか
ら選択された或る特定のラベルに対応し、ytは時
間間隔tに於て発生されたラベルに対応する。 分子に於ける各々の合計された項は、発生された
ラベル出力が系列Yであつたときに、系列Yに於
て発生されたラベルytがラベルfhであり、ラベル
ytが状態Sjからの遷移τi上に生じた確率を表わす。 分子に於ける合計は、“ラベル出力累計カウン
ト”であり、好ましくは、それに対応するラベル
出力確率項目に関連して記憶される。この累計カ
ウントを、特定のSj、τi、Y、及びθ′のためのす
べてのラベル時間に亘る単一カウントの合計で割
ることにより、各々のラベル出力確率項目のため
の現在の確率値が決定される。 従つて、遷移確率及びラベル出力確率は、カウ
ント調整を繰返した後、カウントから容易に計算
される。 第12図に示されている表から、更新された即
ち調整された確率項目のための値をカウントに基
いて計算することができる。その第4列には、合
計されると、その確率項目に関連する累計カウン
トになる値を有する単一カウントがリストされて
いる。第5列には、合計されると、分母になり、
その分母で上記累計カウントを割ると、その確率
項目の値になる値を有する単一カウントがリスト
されている。第13図は、フオワード・バツクワ
ード・アルゴリズムにより計算された単一カウン
ト値を示している。第12図及び第13図に示さ
れている情報の入力及び記憶は従来の技術によつ
て容易に行われる。 (C) カウント値の決定 カウントのための値の決定には、周知のフオワ
ード・バツクワード・アルゴリズムが用いられ
る。i、j、及びtのすべての値、即ちPr、(Sj
τi|Y、t)の値が、各カウントのための値とし
て決定されて記憶される。 フオワード・バツクワード・アルゴリズムの詳
細については、前述の論文“Continuous Speech
Recognition by Statistical Methods”の付録
に記載されている。 次に、フオワード・バツクワード・アルゴリズ
ムの基本的概念を、第14図を参照して非ナル遷
移について説明する。第14図に於て、時間は横
方向に測定されている。各時間間隔は、ラベルが
発生することができる時間間隔に対応する。ラベ
ルy1乃至yTは、時間間隔1乃至T+1の間に発生
されているように示されている。縦方向に、連続
する状態が示されている。第14図のトレリスに
於て、時間、状態、遷移、及びラベルの発生が示
されている。 確率Pr′(Sj、τi|Y、t)は、積の3つの成分
として表わすことができる。その第1成分は、ラ
ベルy1乃至yt-1を生じる確率と組合わされた、状
態Sjに存在する確率(時間tに於ける)である。
この成分は、αt(j)として表わされる。積の第
2成分は、状態Sjから遷移τiを取出しそしてラベ
ルytを生じる確率である。これは、次の如く、表
わすことができる。 Pr(τi|Sj)Pr(yt|Sj、τi) この第2成分は、遷移確率項目(遷移τiに於け
る)又はラベル出力確率項目(ラベルfhのため
の)のための、先に定義された、現在の記憶され
た値に基づいている。 積の第3成分は、βt+1(k)として表わされる。
この第3成分は、状態Sk(時間t+1に於ける)
於て開始されるラベルyt+1乃至yTを生じる確率を
表わす。 τiがナル遷移を表わすときは、或る特定のラベ
ルがその調べられた遷移中に生じる必要条件は存
在しないので、それらの成分は簡単になる。 α確率はフオワード・パス確率と呼ばれ、又
Pr(S、t)として示される。連続するαが、次
式により、時間1に於て開始して再帰的に決定さ
れる。 α1(1)=1.0 αt(S)=Σ〓〓n(S)αt-1(σ) Pr(yt、σ→S)+Σ〓〓o(S)αt(σ) Pr(σ→S)……t>1の場合 上記式に於て、n(S)は、状態Sへのナル遷
移を有する状態のセツトを表わし、m(S)は、
状態Sへの非ナル遷移を有する状態のセツトを表
わす。フオワード・パスに従つて、時間1、2、
……、T+1について順次に、αt(S)の値がS
=1、2、……、SFについて順次に計算される。
上記SFは最終マルコフ・モデル状態である。これ
は、αに関する式を再帰的に解くことにより行わ
れる。計算は、時間及び状態に関して前方に進め
られる。 バツクワード・パスは、確率βt(S)、即ち時間
tに於て状態Sから開始する出力ラベル系列を完
了する確率を決定することを含む。βも、αの場
合と同様な計算を満足させる。主な相違は、フオ
ワード・パスが状態1に於て開始して、それから
時間的に前方に進むのに対し、バツクワード・パ
スは最終状態(SF)に於て開始し、時間的に後方
にそして状態を経て後方に進むことである。 N(S)はSからナル遷移を経て達することが
できる状態のセツトを表わし、M(S)はSから
非ナル遷移を経て達することができる状態のセツ
トを表わすものとすると、次の式が適用される。 βT+1(SF)=1.0 βt=Σ〓〓M(S)Pr(yt、S→σ) βt+1(σ)+Σ〓〓N(S)Pr(S→σ) βt(σ)……tTの場合 バツクワード・パスに於ては、時間=T+1、
T、……、1について順次に、βt(S)の値が、
上記漸化式を用いて、S=SF、SF-1、……、1に
ついて順次に計算される。 所与のi、j、及びtの各々について3つの成
分が決定されると、それらに対応するカウント値
が容易に計算される。 フオワード・バツクワード・アルゴリズムは、
初めに、初期の又は現在の記憶されたカウント値
の決定に用いられ、それからプラス・カウント値
及びマイナス・カウント値について用いられる。 (D) Baum−Welchアルゴリズム Baum−Welchアルゴリズムに従つて、“最大
尤度”確率が求められる。具体的に云えば、Pr
(Y|M)の項が局所的な最大値に近づくように、
次の手順が用いられる。 初めに、遷移確率項目及びラベル出力確率項目
のための確率値について初期値が選択される。 次に、フオワード・バツクワード・アルゴリズ
ムを用いて、既に概略的に述べた如く、記憶され
たカウント値が計算される。カウント値が計算さ
れると、遷移確率項目及びラベル出力確率項目の
ための確率値が再計算される。 フオワード・バツクワード・アルゴリズム及び
その後の遷移確率及びラベル出力確率の再計算
は、収束が得られる迄、反復される。収束が得ら
れた時点に於て、Baum−Welchアルゴリズムに
基づいて、最大化が達成される。 最大化が達成された後に得られた確率項目のた
めの値が、本発明の方法による値の調整のための
開始点として働くことが好ましい。 Baum−Welchアルゴリズムについては、L.E.
Baum等による論文“A Maximization
Technique Occurring in the Statistical
Analysis of Probabilistic Functions of
Markov Chains”、Annals of Mathematics
and Statistics、第41巻、第164頁乃至第171頁
(1970年)に記載されている。 (E) 詳細マツチング 単音マシーン1200を用いて、所与の単音が
入力系列のラベルにどのように近くマツチングす
るかを決定するとき、上記単音のための終了時間
分布が求められて、該単音のためのマツチング値
の決定に用いられる。このような終了時間分布へ
の依存は、マツチング手順に関して本明細書に述
べられている単音マシーンのすべての実施例につ
いて共通である。詳細マツチングを行うために終
了時間分布を生じるとき、単音マシーン1200
は厳密且つ複雑な計算を含む。 第10図のトレリスに於て、時間t=t0に於て
開始時間及び終了時間の両方を有する必要のある
計算について初めに考察する。これを第4図に示
されている単音マシーン構造の場合について述べ
ると、次の確率が適用される。 Pr(S7、t=t0)=q0T(1→7) +Pr(S2|t=t0)T(2→7) +Pr(S3|t=t0)T(3→7) 上記式に於て、Prは“……の確率”を表わし、
Tは括弧内に示されている2つの状態の間の遷移
確率を表わし、q0は時間t=t0に於ける開始時間
分布である。上記式は、時間t=t0に於て終了時
間が生じることのできる3つの条件のための各確
率を示す。更に、時間t=t0に於ける終了時間は
この例では状態S7に於ける発生に限定されること
が観察される。 次に、時間t=t1に於ける終了時間について
は、状態S1以外のすべての状態に関する計算が行
われねばならない。状態S1は前の単音の終了時間
に於て開始する。説明のため、状態S4に関する計
算についてのみ示す。 状態S4について、計算は次のように行われる。 Pr(S4|t=t1)=Pr(S1|t=t0) T(1→4)Pr(y|1→4)+Pr(S4|t =t0)T(4→4)Pr(y|4→4) 上記式は、単音マシーンが時間t=t1に於て状
態S4にある確率が、次の2項の合計に依存するこ
とを示している。 (a) 時間t=t0に於て状態S1である確率に、状態
S1から状態S4への遷移の確率(T)を乗じ、そ
れに更に状態S1から状態S4への遷移を与えられ
たときに系列中の所与のラベル(y)が発生さ
れる確率(Pr)を乗じたもの。 (b) 時間t=t0に於て状態S4である確率に、状態
S4からそれ自体への遷移の確率を乗じ、それに
更に状態S4からそれ自体への遷移を与えられた
ときに所与のラベル(y)を生じる確率を乗じ
たもの。 同様に、その単音が時間t=t1に於て或る特定
の状態にある対応する確率を発生されるために、
他の状態(状態S1を除く)に関する計算も行われ
る。一般的には、所与の時間に於て主題の状態に
ある確率の決定に於て、詳細マツチングは、(a)主
題の状態へ導く遷移を有する各々の前の状態及び
各々のそのような前の状態の各々の確率を認識
し、(b)ラベル系列に一致するためには各々のその
うような前の状態と現在の状態との間の遷移に於
て発生されている筈であるラベルの確率を表わす
値を、各々のそのような前の状態について認識
し、そして(c)各々の前の状態の確率と、ラベル出
力確率を表わす各々の値とを組合わせて、対応す
る遷移に亘る主題の状態の確率を得る。主題の状
態である全体的確率は、それへ導くすべての遷移
に亘る主題の状態の確率から決定される。状態S7
に関する計算は、状態S7に於て終了する単音が時
間t=t1に於て開始しそして終了することを可能
にしている3つのナル遷移に関する項を含む。 時間t=t0及びt=t1に関する確率の決定と同
様に、一連の他の終了時間についての確率の決定
が、終了時間分布を形成するために発生されるこ
とが好ましい。所与の単音についての終了時間分
布の値は、その所与の単音がどのように良く入力
ラベルにマツチングしているかを示す。 単語がどのように良く入力ラベルの系列にマツ
チングしているかの決定に於ては、その単語を表
わす単音が順次に処理される。各単音は確率値の
終了時間分布を発生する。単音のためのマツチン
グ値は、終了時間の確率を合計し、それからその
合計の対数をとることによつて得られる。次の単
音のための開始時間分布は終了時間分布を標準化
することにより引出される。その標準化は、例え
ば、その各々の基準化された値の合計が1になる
ように各々の値を合計で割ることにより各々の値
を基準化することによつて行われる。 所与の単語又は単語系列について調べるべき単
音の数hを決定する方法は少なくとも2つあるこ
とを認識されたい。深さを第一とする方法に於て
は、計算がベースフオームに沿つて行われ、連続
する各単音について小計が繰返し計算される。そ
の小計が、上記ベースフオームに沿つた所与の単
音の位置について予め定義された閾値よりも小さ
いことが見出されたとき、その計算が停止され
る。又は、幅を第一とする方法に於ては、各単語
に於ける同様な単音位置について計算が行われ
る。各単語に於ける第1の単音、第2の単音、…
…というように計算が行われる。この幅を第一と
する方法に於ては、種々の単語のための同数の単
音に沿つて行われる計算が、それらに沿つた単音
の同一の相対的位置に於て比較される。いずれの
方法に於ても、マツチング値の最大の合計を有し
ている単語が、求められる対象である。 詳細マツチングは、FPS190Lのための固有ア
センブラであるAPAL(アレイ・プロセツサ・ア
センブリ言語)に於て実現されている。この点に
於て、詳細マツチングは、実際のラベル出力確率
(即ち、所与の単音が所与の遷移に於て所与のラ
ベルyを発生する確率)、各単音マシーンのため
の遷移確率、及び所与の単音が定義された開始時
間後の所与の時間に於て所与の状態にある確率の
各々を記憶するために、かなりのメモリを必要と
することを認識されたい。上記FPS190Lは、終
了時間、即ち例えば終了時間の確率の合計の対数
であることが好ましい合計に基づくマツチング値
を、前に発生された終了時間の確率に基づく開始
時間と、及び単語に於ける連続する単音のための
マツチング値に基づく単語マツチング・スコアと
の計算を行うために設けられている。更に、詳細
マツチングは、マツチング手順に於て“テイル
(tail)確率”を考慮に入れることが好ましい。
テイル確率は、単語に関係なく、連続するラベル
の尤度を測定する。或る簡単な実施例に於ては、
所与のテイル確率は、他のラベルに従うラベルの
尤度に対応する。その尤度は、例えば幾つかのサ
ンプル音声により発生されたラベル系列から容易
に決定される。 従つて、詳細マツチングは、ベースフオーム、
マルコフ・モデルのための統計、及びテイル確率
を含むために充分な記憶装置を要する。各単語が
略10個の単音を含んでいる、5000個の単語の語彙
については、それらのベースフオームは、5000×
10個のメモリを必要とする。70個の別個の単音
(各単音についてマルコフ・モデルを有する)と、
200個の別個のラベルと、いずれかのラベルが生
じている確率を有する10個の遷移とが存在する場
合には、その統計は70×10×200個の位置を要す
ることになる。しかし、単音マシーンは、統計が
対応している、3つの部分、即ち、開始部分、中
間部分、及び終了部分に分割されることが好まし
い。(3つのセルフ・ループは連続部分に含まれ
ることが好ましい。)従つて、記憶装置の必要条
件は70×3×200個である。テイル確率に関して
は、200×200個の記憶装置が必要とされる。この
配置に於ては、50Kの整数及び82Kの浮動小数点
の記憶装置が満足な動作を行う。更に、初期のシ
ステムは70個の異なる単音を含んでいたが、本発
明の方法は、各々単音マシーンを有する96個程度
の単音を含むこともできる。 (F) 近似的高速マツチング 詳細マツチングは計算に於て高価であるため、
精度を犠牲にせずに必要とされる計算を減少させ
る、基本的高速マツチング及び代替的高速マツチ
ングが用いられる。好ましくは、詳細マツチング
と組合わせて、高速マツチングが用いられる。高
速マツチングは語彙からの尤度の高い候補単語を
リストし、詳細マツチングは高速マツチング・リ
スト上の候補単語について行われる。 近似的高速音響マツチング技術は、前述の本出
願人による特願昭60−255205号明細書の主題であ
る。その近似的高速音響マツチングに於ては、所
与の単音マシーンに於けるすべての遷移に於ける
各ラベルのための実際のラベル出力確率を特定の
置換えの値で置換えることにより、各単音マシー
ンが簡単化されることが好ましい。特定の置換え
の値は、その置換えの値が用いられた場合の所与
の単音のためのマツチング値が、その置換えの値
が実際のラベル出力確率の代りに用いられない場
合に詳構マツチングにより得られたマツチング値
よりも過大評価になるように選択されることが好
ましい。その条件を達成する1つの方法は、所与
の単音マシーンに於ける所与のラベルに対応する
いずれの確率も、その置換えの値より大きくない
ように、各々の置換えの値を選択することであ
る。単音マシーンに於ける実際のラベル出力確率
を対応する置換えの値で置換えることにより、単
語のためのマツチング・スコアの決定に必要な計
算の数が著しく減少する。更に、置換えの値は過
大評価されることが好ましいので、その結果得ら
れたマツチング・スコアは、置換えせずに前に決
定されたマツチング・スコアより小さくならな
い。 マルコフ・モデルを用いた言語学的デコーダに
於て音響マツチングを行う特定の実施例に於て
は、各単音マシーンは、学習により、(a)複数の状
態及び状態間の遷移の径路、(b)状態Sj及び現在の
状態Siは同一の状態であつても、異なる状態であ
つてもよいが、現在の状態Siが与えられたとき
に、状態Sjへの遷移の確率を各々表わす確率T
(i→j)を有する遷移tr(Sj|Si)、及び(c)kはラ
ベルを識別する表示である各々の実際のラベル出
力確率p(yk|i→j)が、所与の単音マシーン
により或る状態から後の状態への所与の遷移に於
てラベルykの生じる確率を示している、実際のラ
ベル出力確率を有するように特徴付けられ、各単
音マシーンは、(a)各単音マシーンに於ける各々の
ykに単一の特定の値p′(yk)を割当てるための手
段、及び(b)所与の単音マシーンに於ける各遷移に
於ける各々の実際のラベル出力確率p(yk|i→
j)を、対応するykに割当てられた単一の特定の
値p′(yk)で置換えるための手段を含んでいる。
その置換えの値は、特定の単音マシーンに於ける
任意の遷移に於ける対応するラベルykのための最
大の実際のラベル出力確率と少なくとも同程度の
大きさであることが好ましい。入力ラベルに対応
する尤度が最大である語彙中の単語として選択さ
れた10乃至100個程度の候補単語のリストを定義
するために、高速マツチングが用いられる。それ
らの候補単語は、言語モデル及び詳細マツチング
を施されることが好ましい。詳細マツチングによ
り考察される単語の数を、語彙中1%程度の単語
に減らすことにより、計算コストが著しく減少し
且つ精度も維持される。 基本的高速マツチングは、所与の単音マシーン
に於て所与のラベルが発生することができるすべ
ての遷移に於ける所与のラベルのための実際のラ
ベル出力確率を単一の値で置換えることにより、
詳細マツチングを簡単化する。即ち、ラベルが発
生する確率を有する所与の単音マシーンに於ける
遷移に関係なく、その確率が単一の特定の値で置
換えられる。その値は大きく見積られ、そのラベ
ルが所与の単音マシーンに於ける任意の遷移に於
て生じる最大の確率と少なくとも同程度であるこ
とが好ましい。 ラベル出力確率の置換えの値を、所与の単音マ
シーンに於ける所与のラベルのための実際のラベ
ル出力確率の最大として設定することにより、基
本的高速マツチングを用いて発生されたマツチン
グ値が、詳細マツチングを用いて得られるマツチ
ング値と少なくとも同程度の大きさになるように
することができる。このように、基本的高速マツ
チングは、典型的には、より多くの単語が一般的
に候補単語として選択されるように、各単音のマ
ツチング値を大きく見積る。詳細マツチングに従
つて候補と考えられた単語は、基本的高速マツチ
ングも通過する。 第15図に於て、基本的高速マツチングのため
の単音マシーン3000が示されている。ラベル
(記号及びフイーニームとも呼ばれる)は、開始
時間分布とともに、基本的高速マツチングの単音
マシーン3000に入る。それらの開始時間分布
及びラベル系列入力は、前述の単音マシーンに入
るものと同様である。その開始時間は、場合によ
つては、複数の時間に亘る分布でないこともあ
り、例えば沈黙の間隔に続いている、単音が開始
する精確な時間であることもあることを認識され
たい。しかし、音声が連続的である場合には、開
始時間分布を定義するために終了時間分布が用い
られる(以下に詳述する如く)。単音マシーン3
000は、終了時間分布を発生し、発生された終
了時間分布から特定の単音のためのマツチング値
を発生する。或る単語のためのマツチング・スコ
アは、構成要素の単音、少なくとも単語に於ける
初めのh個の単音のためのマツチング値の合計と
して定義される。 第16図は、基本的高速マツチングの計算を行
うために有用な図を示している。基本的高速マツ
チングの計算は、開始時間分布(Q)、単音によ
り生じたラベルの数又は長さ、及び各ラベルyk
関連する置換えの値p′ykのみに関係する。所与の
単音マシーンに於ける所与のラベルのためのすべ
ての実際のラベル出力確率を、対応する置換えの
値で置換えることにより、基本的高速マツチング
は、遷移確率を長さ分布確率と置換え、そして実
際のラベル出力確率(所与の単音マシーンに於け
る各遷移について異なることがある)及び所与の
時間に於て所与の状態にある確率を含む必要性を
除く。 この点に於て、長さ分布は詳細マツチング・モ
デルから決定される。具体的に云えば、その手順
は、長さ分布Lの各長さについて、各状態を個々
に調べ、そして(a)特定のラベルの長さが与えられ
たとき且つ(b)遷移に沿つた出力に関係なく、現在
調べられている状態が生じることができる種々の
遷移の径路を各状態について決定することが好ま
しい。各主題状態へ上記特定の長さを有するすべ
ての遷移の径路の確率が合計され、それから該分
布に於ける所与の長さの確率を示すために、すべ
ての主題状態の確率が合計される。上記手順が、
各長さについて反復される。マツチング手順のそ
の好ましい形に従つて、それらの計算は、マルコ
フ・モデリングの技術分野に於て知られている如
きトレリスに関して行われる。トレリス構造に沿
つて分岐を共有する遷移の径路については、各々
の共通の分岐のための計算は、一度だけ行えばよ
く、その計算がその共通の分岐を含む各径路に適
用される。 第16図に於ては、例として、2つの条件が含
まれている。第1の条件として、その単音により
発生されたラベルの長さは0、1、2、又は3で
あることができ、各々10、11、12、及び13の確率
を有するものと仮定されている。又、開始時間も
限定されており、各々q0、q1、q2、及びq3の確率
を有する、4つの開始時間だけが可能である。こ
れらの条件の下で、次式は、主題の単音の終了時
間分布を次の如く定義する。 Φ0=q010 Φ1=q110+q011p1 Φ2=q210+q111p2+q012p1p2 Φ3=q310+q211p3+q112p2p3+q013p1p2p3 Φ4=q311p4+q212p3p4+q113p2p3p4 Φ5=q312p4p5+q213p3p4p5 Φ6=q313p4p5p6 上記式に於て、Φ3は4つの開始時間の各々に
対応する項を含んでいる。その第1項は、単音が
時間t=t3に於て開始し、零ラベルの長さを生じ
る、即ち単音が同一時間に於て開始しそして終了
する、確率を表わしている。第2項は、単音が時
間t=t2に於て開始し、ラベルの長さが1であ
り、そしてラベル3が該単音により生じる確率を
表わしている。第3項は、単音が時間t=t1に於
て開始し、ラベルの長さが2(即ち、ラベル2及
び3)であり、そしてラベル2及び3が該単音に
より生じる確率を表わしている。同様に、第4項
は、単音が時間t=t0に於て開始し、ラベルの長
さが3であり、そして3つのラベル1、2、及び
3が該単音により生じる確率を表わしている。 基本的高速マツチングに於て必要とされる計算
と、詳細マツチングに於て必要とされる計算との
比較は、前者が後者よりも簡単であることを示唆
する。この点に於て、p′ykの値は、ラベルの長さ
の確率の場合と同様に、すべての式における各出
現について同じであることに注目されたい。更
に、上記の長さ及び開始時間の条件を用いた場合
には、より後の終了時間のための計算がより簡単
になる。例えば、Φ6に於ては、単音は時間t=t3
に於て開始する筈であり、その終了時間が適合す
るには、すべての3つのラベル4、5、及び6が
該単音により生じる筈である。 主題の単音のためのマツチング値の発生に於て
は、定義された終了時間分布に沿つた終了時間の
確率が合計される。所望ならば、次式を得るため
に合計の対数がとられる。 マツチング値=lng10(Φ0+……+Φ6) 前述の如く、或る単語のためのマツチング・ス
コアは、特定の単語に於ける連続する単音のため
のマツチング値を合計することにより容易に決定
される。 次に、第17a図乃至第17e図を参照して、開
始時間分布の発生について述べる。第17a図に
於て、単語“THE”1が反復され、構成要素の単
音に分解される。第17b図に於ては、ラベル系
列が時間に亘つて示されている。第17c図に於
ては、第1の開始時間分布が示されている。第1
の開始時間分布は、最も最近の前の単音(沈黙の
“単語”を含むこともある前の単語に於ける)の
終了時間分布から引出される。ラベル入力及び第
17c図の開始時間分布に基き、単音DHのため
の終了時間分布ΦDHが発生される。次の単音UH
のための開始時間分布は、前の単音の終了時間分
布が第17d図に於ける閾値Aを超えた時間を認
識することによつて決定される。閾値Aは、各終
了時間分布について個々に決定される。好ましく
は、Aは、主題の単音のための終了時間分布の値
の合計の関数である。従つて、時間a及びbの間
の間隔は、単音UHのための開始時間分布が設定
される時間を表わす(第17e図参照)。第17
e図に於ける時間c及びdの間の間隔は、単音
DHのための終了時間分布が閾値Aを超えそして
次の単音の開始時間分布が設定される時間に対応
する。開始時間分布の値は、終了時間分布を標準
化することにより得られ、この標準化は、例え
ば、各終了時間の値を、閾値Aを超える終了時間
の値の合計で割ることにより行われる。 基本的高速マツチングの単音マシーン3000
は、APALプログラムを用いたFPS190Lに於て
実現されている。本明細書の開示に従つて、特定
の形のマツチング手順を行うために、他のハード
ウエア及びソフトウエアを用いてもよい。 (G) 音声学的ベースフオームの構築 ベースフオームの形成に用いることができる、
1つの型のマルコフ・モデル単音マシーンは、音
声学に基いている。即ち、各単音マシーンは、所
与の音声学的音声に対応する。 所与の単語について、各々に対応する単音マシ
ーンを各々有している、一連の音声学的音声が存
在する。各単音マシーンは、多数の状態及び状態
間の遷移を有し、それらの幾つかはフイーニーム
出力を生じることができ、他の幾つか(ナル遷移
と呼ばれる)はそれらを生じることができない。
前述の如く、各単音マシーンに関する統計は、(a)
所与の遷移が生じる確率、及び(b)特定のフイーニ
ームが所与の遷移に於て生じる尤度を含む。好ま
しくは、非ナル遷移には、各フイーニームに関連
する何らかの確率が存在する。表1に示されてい
るフイーニーム・アルフアベツトには、約200個
のフイーニームが存在する。音声学的ベースフオ
ームの形成に用いられた単音マシーンが第4図に
示されている。一連のそのような単音マシーンが
各単語について設けられている。確率項目の値が
本発明の方法に従つて決定される。種々の音声学
的単音マシーンに於ける遷移確率及びフイーニー
ム確率は、学習中に、既知の音声学的単音が少な
くとも一回発声されたときに生じたフイーニーム
系列を記録し、周知のフオワード・バツクワー
ド・アルゴリズムを適用することによつて決定さ
れる。 次に示す表2は、単音DHとして識別された1
つの単音のための統計の1例を示している。 【表】 【表】 【表】 1つの近似として、第4図の単音マシーンの遷
移tr1,tr2、及びtr8が単一の分布により表わさ
れ、遷移tr3,tr4,tr5、及びtr9が単一の分布によ
り表わされ、そして遷移tr6,tr7、及びtr10が単一
の分布により表わされている。これは、表2に於
て、それらのアーク(即ち、遷移)を各々の列
4、5、又は6に割当てることにより示されてい
る。表2は、各遷移の確率、及びラベル(即ち、
フイーニーム)が単音DHの始め、中間、又は終
りの各々に於て生じる確率を示している。単音
DHについては、例えば、状態S1から状態S2への
遷移の確率は0.07243として記憶されている。状
態S1から状態S4への遷移の確率は0.92757である。
(これらは初期状態からの2つだけの可能な遷移
であるので、それらの合計は1に等しい。)ラベ
ル出力確率については、単音DHは、該単音の終
りの部分、即ち表2の列6に於てフイーニーム
AE13(表1を参照)を生じる確率0.091を有して
いる。又、表2には、各ノード(即ち、状態)に
関連するカウントが示されている。そのノード・
カウントは、該単音が対応する状態に存在した、
学習中の回数を示す。表2に示す如き統計は、各
単音マシーンについて見出される。 音声学的単音マシーンを単語のベースフオーム
のシーケンスに配列することは、典型的には、音
声学者によつて行われ、通常は、自動的には行わ
れない。 以上に於て、本発明の方法をその実施例につい
て説明したが、本発明の範囲を逸脱することな
く、他の種々の変更も可能であることを理解され
たい。 F 発明の効果 本発明の方法によれば、好ましくは音声認識の
環境に於て、単語のデコーデイングの精度を最大
にする方法で、マルコフ・モデル及び同様なモデ
ルの学習が行われる。
【図面の簡単な説明】
第1図は本発明の方法が実施されている音声認
識システムを示すブロツク図、第2図は第1図の
システムを更に詳細に示すブロツク図、第3図は
本発明の方法の一実施例に於けるステツプを示す
流れ図、第4図は1つの音声学的単音マシーンを
示す図、第5図は1つの時間間隔に於ける第4図
の音声学的単音マシーンのトレリスを示す図、第
6図は1つのフイーニーム的単音マシーンを示す
図、第7図は3つの連結したフイーニーム的単音
マシーンのトレリスを示す図、第8a図及び第8
b図は代表的確率を含む、連続する3つの音声学
的単音マシーンを示す図、第9図は代表的確率を
含む、連続する3つのフイーニーム的単音マシー
ンを示す図、第10図は3つの時間間隔に亘る音
声学的単音マシーンのトレリスを示す図、第11
図は本発明の方法の一実施例に於けるステツプを
示す流れ図、第12図は確率項目及びカウントを
示す図表、第13図は単一カウント情報を示す図
表、第14図はトレリスに於ける遷移τiを示す
図、第15図は単音マシーンを示す図、第16図
は予め定義された条件を与えられたときの単音の
開始時間及び終了時間を示す図、第17a図乃至
第17e図は連続する単音に於ける開始時間と終
了時間との間の関係を示す図である。 1000……音声認識システム、1002……
スタツク・デコーダ、1004……音響プロセツ
サ、1006……アレイ・プロセツサ(近似的高
速マツチング・プロセツサ)、1008……アレ
イ・プロセツサ(詳細マツチング・プロセツサ)、
1010……言語モデル、1012……ワーク・
ステーシヨン、1020……サーチ素子、102
2,1024,1026,1028……インタフ
エース、1200,3000……単音マシーン。

Claims (1)

  1. 【特許請求の範囲】 1 語彙中の各単語が少なくとも1つの確率的有
    限状態モデルからなる単語モデルにより表され、
    各確率的有限状態モデルが遷移確率項目と、それ
    ぞれ微小な時間間隔に割当て可能な音響タイプを
    表すラベルの集合からラベルを出力する出力確率
    項目とを有し、音声入力に応答して上記ラベルの
    集合から選択されたラベルのストリームを上記語
    彙中の単語の単語モデルにマツチングさせて単語
    にデコードする音声認識方法において、 所定の既知単語の音声入力に応じてそれ以外の
    単語がデコードされたときに、当該それ以外の単
    語の単語モデルの確率的有限状態モデルに関し
    て、当該音声入力に応じて選択されたラベルのラ
    ベル出力確率に、負のバイアスを加えることを特
    徴とする音声認識方法。 2 所定の既知単語の音声入力に応じて当該既知
    単語がデコードされたときに、当該既知単語の単
    語モデルの確率的有限状態モデルに関して、当該
    音声入力に応じて選択されたラベルのラベル出力
    確率に、正のバイアスを加える特許請求の範囲第
    1項記載の音声認識方法。
JP62043234A 1986-03-27 1987-02-27 音声認識方法 Granted JPS62231995A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US845201 1986-03-27
US06/845,201 US4827521A (en) 1986-03-27 1986-03-27 Training of markov models used in a speech recognition system

Publications (2)

Publication Number Publication Date
JPS62231995A JPS62231995A (ja) 1987-10-12
JPH0372998B2 true JPH0372998B2 (ja) 1991-11-20

Family

ID=25294636

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62043234A Granted JPS62231995A (ja) 1986-03-27 1987-02-27 音声認識方法

Country Status (5)

Country Link
US (1) US4827521A (ja)
EP (1) EP0240679B1 (ja)
JP (1) JPS62231995A (ja)
CA (1) CA1262188A (ja)
DE (1) DE3778579D1 (ja)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01102599A (ja) * 1987-10-12 1989-04-20 Internatl Business Mach Corp <Ibm> 音声認識方法
US5072452A (en) * 1987-10-30 1991-12-10 International Business Machines Corporation Automatic determination of labels and Markov word models in a speech recognition system
JPH0293597A (ja) * 1988-09-30 1990-04-04 Nippon I B M Kk 音声認識装置
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US5509104A (en) * 1989-05-17 1996-04-16 At&T Corp. Speech recognition employing key word modeling and non-key word modeling
CA2015410C (en) * 1989-05-17 1996-04-02 Chin H. Lee Speech recognition employing key word modeling and non-key word modeling
US5274739A (en) * 1990-05-22 1993-12-28 Rockwell International Corporation Product code memory Itakura-Saito (MIS) measure for sound recognition
GB9116255D0 (en) * 1991-07-27 1991-09-11 Dodd Nigel A Apparatus and method for monitoring
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
US5473728A (en) * 1993-02-24 1995-12-05 The United States Of America As Represented By The Secretary Of The Navy Training of homoscedastic hidden Markov models for automatic speech recognition
US5710864A (en) * 1994-12-29 1998-01-20 Lucent Technologies Inc. Systems, methods and articles of manufacture for improving recognition confidence in hypothesized keywords
US5832430A (en) * 1994-12-29 1998-11-03 Lucent Technologies, Inc. Devices and methods for speech recognition of vocabulary words with simultaneous detection and verification
US5615286A (en) * 1995-05-05 1997-03-25 Bell Communications Research, Inc. Method for determining a most likely sequence of states
US5761687A (en) * 1995-10-04 1998-06-02 Apple Computer, Inc. Character-based correction arrangement with correction propagation
JP3459712B2 (ja) * 1995-11-01 2003-10-27 キヤノン株式会社 音声認識方法及び装置及びコンピュータ制御装置
US6151575A (en) * 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
EP0849723A3 (en) * 1996-12-20 1998-12-30 ATR Interpreting Telecommunications Research Laboratories Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
US6212498B1 (en) 1997-03-28 2001-04-03 Dragon Systems, Inc. Enrollment in speech recognition
US6163768A (en) * 1998-06-15 2000-12-19 Dragon Systems, Inc. Non-interactive enrollment in speech recognition
US20030191625A1 (en) * 1999-11-05 2003-10-09 Gorin Allen Louis Method and system for creating a named entity language model
US8392188B1 (en) 1999-11-05 2013-03-05 At&T Intellectual Property Ii, L.P. Method and system for building a phonotactic model for domain independent speech recognition
US7286984B1 (en) * 1999-11-05 2007-10-23 At&T Corp. Method and system for automatically detecting morphemes in a task classification system using lattices
JP4465564B2 (ja) * 2000-02-28 2010-05-19 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
AU5205700A (en) * 2000-06-15 2002-01-08 Intel Corporation Speaker adaptation using weighted feedback
US6728674B1 (en) 2000-07-31 2004-04-27 Intel Corporation Method and system for training of a classifier
US6788243B2 (en) 2001-09-06 2004-09-07 Minister Of National Defence Of Her Majestry's Canadian Government The Secretary Of State For Defence Hidden Markov modeling for radar electronic warfare
DE10207895B4 (de) * 2002-02-23 2005-11-03 Harman Becker Automotive Systems Gmbh Verfahren zur Spracherkennung und Spracherkennungssystem
US7143073B2 (en) * 2002-04-04 2006-11-28 Broadcom Corporation Method of generating a test suite
JP4322934B2 (ja) * 2007-03-28 2009-09-02 株式会社東芝 音声認識装置、方法およびプログラム
US8060360B2 (en) * 2007-10-30 2011-11-15 Microsoft Corporation Word-dependent transition models in HMM based word alignment for statistical machine translation
US8543393B2 (en) * 2008-05-20 2013-09-24 Calabrio, Inc. Systems and methods of improving automated speech recognition accuracy using statistical analysis of search terms
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US11094316B2 (en) * 2018-05-04 2021-08-17 Qualcomm Incorporated Audio analytics for natural language processing
CN109473093B (zh) * 2018-12-13 2023-08-04 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
US11664044B2 (en) 2019-11-25 2023-05-30 Qualcomm Incorporated Sound event detection learning
US11410677B2 (en) 2020-11-24 2022-08-09 Qualcomm Incorporated Adaptive sound event classification

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4038503A (en) * 1975-12-29 1977-07-26 Dialog Systems, Inc. Speech recognition apparatus
US4383135A (en) * 1980-01-23 1983-05-10 Scott Instruments Corporation Method and apparatus for speech recognition
US4348553A (en) * 1980-07-02 1982-09-07 International Business Machines Corporation Parallel pattern verifier with dynamic time warping
AU7529981A (en) * 1980-09-19 1982-03-25 Hitachi Limited Language analysis by pattern recognition
JPS57147781A (en) * 1981-03-06 1982-09-11 Nec Corp Pattern matching device
US4400788A (en) * 1981-03-27 1983-08-23 Bell Telephone Laboratories, Incorporated Continuous speech pattern recognizer
US4520500A (en) * 1981-05-07 1985-05-28 Oki Electric Industry Co., Ltd. Speech recognition system
US4481593A (en) * 1981-10-05 1984-11-06 Exxon Corporation Continuous speech recognition
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US4593367A (en) * 1984-01-16 1986-06-03 Itt Corporation Probabilistic learning element
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
US4741036A (en) * 1985-01-31 1988-04-26 International Business Machines Corporation Determination of phone weights for markov models in a speech recognition system

Also Published As

Publication number Publication date
US4827521A (en) 1989-05-02
EP0240679B1 (en) 1992-04-29
CA1262188A (en) 1989-10-03
JPS62231995A (ja) 1987-10-12
EP0240679A1 (en) 1987-10-14
DE3778579D1 (de) 1992-06-04

Similar Documents

Publication Publication Date Title
JPH0372998B2 (ja)
US5621859A (en) Single tree method for grammar directed, very large vocabulary speech recognizer
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
EP0303022B1 (en) Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker
US5787396A (en) Speech recognition method
US5983180A (en) Recognition of sequential data using finite state sequence models organized in a tree structure
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
Jelinek et al. 25 Continuous speech recognition: Statistical methods
JP2002500779A (ja) 識別訓練されたモデルを用いる音声認識システム
WO2001022400A1 (en) Iterative speech recognition from multiple feature vectors
JPH0581918B2 (ja)
JP2007047818A (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
JPH0372999B2 (ja)
US6253178B1 (en) Search and rescoring method for a speech recognition system
US20040186819A1 (en) Telephone directory information retrieval system and method
JP2751856B2 (ja) 木構造を用いたパターン適応化方式
JPH1185186A (ja) 不特定話者音響モデル生成装置及び音声認識装置
Roucos et al. A stochastic segment model for phoneme-based continuous speech recognition
EP2875508A1 (en) Method and system for real-time keyword spotting for speech analytics
JP3589044B2 (ja) 話者適応化装置
Liu et al. A constrained line search optimization method for discriminative training of HMMs
JP3216565B2 (ja) 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体
JP2005091504A (ja) 音声認識装置
JPH09114482A (ja) 音声認識のための話者適応化方法
EP1369847B1 (en) Speech recognition method and system