JP2002207496A

JP2002207496A - 音声処理システム

Info

Publication number: JP2002207496A
Application number: JP2001344825A
Authority: JP
Inventors: Philip Neil Garner; ニールガーナーフィリップ; Jason Peter Andrew Charlesworth; ピーターアンドリューチャールズワースジェイソン
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2000-11-20
Filing date: 2001-11-09
Publication date: 2002-07-26
Anticipated expiration: 2021-11-09
Also published as: US6801891B2; EP1207518A2; EP1207518A3; JP3747171B2; GB0028277D0; US20020120448A1

Abstract

(57)【要約】（修正有）【課題】音声認識システムから出力された１つあるい
は複数のサブ単語ユニット系列を、１つあるいは複数の
対応単語にデコードするシステムを提供する。【解決手段】このシステムは、認識システムから出力さ
れた認識結果系列であるサブ単語ユニット系列と、辞書
単語を表す複数の辞書サブ単語ユニット系列とを受信
し、サブ単語ユニット系列と辞書サブ単語ユニット系列
とを動的計画法技術を用いて整合させ、発話入力に対し
て最も合致する単語を認識するシステムである。

Description

【発明の詳細な説明】

【０００１】本発明は、音声認識システムから出力され
るサブ単語ユニットの１つあるいは複数の系列を１つあ
るいは複数の対応する単語にデコードするための装置な
らびに方法に関するものである。

【０００２】音声認識システムは、認識処理に利用でき
る処理能力の増大に伴い、ますます広く使われようにな
っている。ほとんどの音声認識システムは、小語彙シス
テムと大語彙システムの２つに分けることができる。小
語彙システムでは、音声認識エンジンにおいて、認識対
象の入力音声とシステムの既得単語を表現する音響パタ
ーンとを比較している。大語彙システムでは、システム
の既得単語それぞれに対する単語モデルを蓄積しておく
のは現実的ではない。そこで、その代わりに、参照パタ
ーンを所与の言語の音素とすることが多い。この方法で
は、入力音声は音素パターンと比較され、入力音声を表
現する音素系列が生成される。次いで、単語デコーダを
用いて、音素系列に合致する単語候補が選ばれる。通
常、音素系列から単語へのデコード処理は、音素系列と
単語を表現する隠れマルコフモデルとを辞書を用いて比
較することでなされる。

【０００３】本発明の目的は、認識エンジンから出力さ
れる音素系列を一つあるいは複数の単語にデコードする
別の方法を提供することである。

【０００４】本発明は、１つあるいは複数の単語を入力
することによって認識システムから出力されるサブ単語
ユニット系列を、１つあるいは複数の単語として識別す
る装置であって、１つあるいは複数の認識対象単語を表
すサブ単語ユニットの認識結果系列を受信する受信手段
と、１つあるいは複数の対象単語を表す複数の辞書サブ
単語系列を受信する受信手段と、認識結果系列のサブ単
語ユニットと各辞書系列のサブ単語ユニットとを比較し
て比較結果セットを求める手段と、比較結果セットを用
いて１つあるいは複数の単語を識別する手段とを備える
装置を提示するものである。

【０００５】以下、本発明の実施形態を添付図面を参照
しながら詳細に説明する。

【０００６】本発明の実施形態は専用ハードウェア回路
を用いて実装され得るももの、以下の実施形態ではパー
ソナルコンピュータ上で動作するコンピュータソフトウ
ェアすなわちコードでもって実装されるものとしてい
る。なお、他の実施形態として、ワークステーション、
複写機、ファクシミリ、携帯情報端末(PDA)、ウェブブ
ラウザなどの上で動作するソフトウェアであっても良
い。

【０００７】図１は、本発明の実施形態を実行できるプ
ログラムを具備しているパーソナルコンピュータ（Ｐ
Ｃ）１を示している。キーボード３、ポインティングデ
バイス５、マイクロフォン７、電話線９などがインタフ
ェース１１を介してＰＣ１に接続されている。キーボー
ド３やポインティングデバイス５により、ユーザはシス
テムを制御することができる。マイクロフォン７は、ユ
ーザの音声信号波形を電気信号に変換し、ＰＣ１におい
て電気信号が処理される。なお、遠隔コンピュータや遠
隔ユーザとの通信を行うために、電話線９には内部モデ
ムや音声受信回路（不図示）が接続されることもある。

【０００８】本発明の実施形態を実行できるプログラム
は、磁気ディスク１３などの記憶デバイスといった形で
提供されることもあるし、内部モデムや電話線９を介し
たインターネットなどを用いて遠隔コンピュータからソ
フトウェアをダウンロードするといった形で提供される
こともある。

【０００９】ＰＣ１に実装される音声認識システム１４
の動作を、図２を用いて詳細に説明する。マイクロフォ
ン７からのユーザ入力音声を表現する電気信号は、プレ
プロセッサ１５において、パラメータフレーム系列に変
換される。ここで、パラメータフレームとは、入力音声
信号を一定時間で区切った時間フレームのことである。
プレプロセッサ１５から出力されたパラメータフレーム
系列は、音声認識エンジン１７において、音素モデル１
９と比較処理され、入力信号を表現する音素系列が生成
される。次いで、音素系列は単語デコーダ２１に入力さ
れ、単語辞書２３に記憶されている種々の単語の音素系
列との比較処理が行われ、単語の認識が行われる。

【００１０】すなわち、単語辞書２３には音声認識シス
テムの対象単語それぞれに対する音素系列が格納されて
いる。本実施形態では、単語デコーダ２１はまず単語辞
書に対して命令信号２９を送出し、単語辞書２３中の音
素系列のサブセットを単語デコーダ２１にダウンロード
３０をするよう要求する。ここで、音素系列のサブセッ
トは、単語辞書２３中のすべての単語が表現されるよう
に選択されている。次いで、単語デコーダ２１は、音声
認識エンジン１７を用いて、生成された音素系列出力の
先頭と選択された音素系列の先頭とを比較し、評価点を
求める。この評価点に基づいて、評価点の高い単語種別
と評価点の低い単語種別とが識別される。そこで、単語
デコーダ２１は、評価点の低い音素系列を削除するとと
もに、新たな命令信号２９を単語辞書２３に送信し、評
価点の高い音素系列に音響的に類似の単語を単語デコー
ダ２１にダウンロードするように要求する。そして、単
語デコーダ２１に新たに保持された関連音素系列のすべ
てと入力音素系列との比較が行われ、Ｎ個の評価点の高
い単語の出力２５がされる。出力された単語は、ＰＣ１
においてＰＣ１上で動作しているソフトウェアアプリケ
ーションを制御するために用いられたり、ＰＣ１上で動
作しているワードプロセッシングプログラムにテキスト
として挿入するために用いられる。

【００１１】単語デコーダ図３は、上述の単語デコーダ２１の構成要素を詳細に示
した図である。図示のように、音声認識エンジン１７か
ら出力される音素系列を受信するメモリ４１が含まれ
る。音素系列は整合ユニット４３に送られる。本実施形
態の整合ユニット４３では、動的計画法整合手法を用い
て、メモリ４７に保持されている単語辞書２３からの複
数の音素系列と入力音素系列との比較が行われる。本実
施形態の整合ユニット４３では、入力音素系列と辞書系
列との比較と整合とは独立かつ同時に行われる。この整
合処理では、各整合結果についての評価点は評価点分析
ユニット４５に入力され、評価点分析ユニット４５にお
いて評価点の分析が行われて評価点の高い辞書系列と評
価点の低い辞書系列とが決定される。それに応じて、分
析ユニット４５は単語辞書２３に対して第一の制御信号
２９を送信し、評価点の高い単語に類似の新たな単語の
音素系列をメモリ４７にダウンロードする。

【００１２】また、分析ユニットは第二の制御信号３１
をメモリ４７に送信し、評価点の低い辞書系列を削除す
る。このようにして、評価点分析ユニット４５は、動的
計画法整合ユニット４３でもって整合処理がなされた音
響系列の数を動的に制御することができる。これによ
り、単語辞書中の音素系列の初期サブセットがメモリ４
７にダウンロードされ、新たな入力音素系列との比較が
行われることになり、本実施形態では、辞書音素系列の
初期セットは、辞書２３における種々の単語音を代表す
るものとなる。ここで、初期セットは、例えば、辞書２
３中の単語をクラスタリングして、類似の単語音をクラ
スタ化することなどによって作成される。次いで、比較
処理において、各クラスタ中の単語の一つがメモリ４７
にダウンロードされ、入力音素系列と比較される。

【００１３】入力音素系列と選択されたすべての辞書系
列との比較がなされた後で、評価点分析ユニット４５は
選択された辞書系列との評価点を再度分析し、最も高い
評価点を有する辞書音素系列を決定する。最も高い評価
点を有する辞書系列に対応する単語は、入力音素系列を
表す単語として評価点分析ユニット４５から出力２５さ
れる。本実施形態では、評価点分析ユニット４５は、Ｎ
個の評価点の高い辞書系列をランク付けするとともに、
これらもあわせて出力する。

【００１４】ところで、辞書音素系列がマニュアルで作
成されたものであれば、これらを正しいと考えることが
できる。しかしながら、音声認識エンジン１７は発話を
完全にデコードすることはできないため、入力音素系列
には辞書系列に対して挿入や欠落が含まれることにな
る。また、入力音素系列には辞書系列に対してデコード
誤りも存在し得る。当業者には認識されているであろう
が、現在の多くの音声認識システムはマニュアルで生成
された単語辞書を用いている。しかしながら、辞書音素
系列が発話単語から生成されるような辞書が出てきつつ
ある。また、マニュアルで生成された音素系列とともに
音声認識システムで生成された音素系列をも用いる混合
辞書も出てきている。このような場合には、入力音素系
列と辞書系列の双方において、実際に発声されたテキス
トを表す未知の基準音素系列に対して挿入、欠落、デコ
ード誤りが発生し得ることとなる。

【００１５】図４は、辞書単語を表す辞書音素系列（ラ
ベルd¹ _i, d¹ _i+1, d¹ _i+2...）、入力音素系列（ラベルd²
_j, d² _j+1, d² _j+2...）、辞書系列や入力系列と最適にマ
ッチングされるテキストの基準音素系列を表す音素系列
（ラベルp_n, p_n+1, p_n+2...）間でのマッチングを示し
たものである。図４に示すように、動的計画法整合ユニ
ット４３は、入力音素系列と辞書音素系列における基準
音素系列に対する音素の挿入（d¹ _i+3, d² _j+1などで表さ
れる挿入音素）や、音素の欠落（d¹ _i+1, d² _j+2などの基
準音素系列中の２つの音素に対して整合される欠落音
素）に対処できなければならない。

【００１６】本実施形態においては、辞書単語がマニュ
アルで生成された場合と音声から生成された場合とで、
異なる評価点判定技術を用いる。ここで、辞書種類情報
は、動的計画法整合ユニット４３に送られる各辞書系列
のラベルに付与されている。

【００１７】（ＤＰ整合の概要）音声処理の当業者であ
れば既知であるように、動的計画法は、本実施形態では
音素系列となる特徴系列間で最適な整合を求めるために
用いられる技術である。本実施形態では、動的計画法整
合ユニット４３は入力系列と辞書系列との間の最適整合
を計算する。ここで、最適整合の計算は、入力系列から
の音素系列と辞書系列からの音素系列との間での整合可
能性を示す複数の動的計画法のパスを同時に伝搬させる
ことで行われる。すべてのパスは、整合する２つの音素
系列の始点に位置する始点空ノードから始まり、整合す
る２つの音素系列の終点に位置する終点空ノードまで伝
搬される。

【００１８】図５と図６は、実行される整合処理とパス
の伝搬とを模式的に示したものである。具体的には、図
５は、辞書音素系列を示す水平軸と入力音素系列を示す
垂直軸とからなる直交座標プロットを示している。始点
空ノードφ_sは左上角、終点空ノードφ_eは右下角に位置
する。また、図６において、辞書系列音素は水平軸に、
入力系列音素は垂直軸に示されている。図６の格子点
は、入力音素系列と辞書音素系列の音素間での整合可能
性を表したものである。例えば、格子点２１は辞書系列
音素d¹ ₃と入力系列音素d² ₁との間での整合を示す。ま
た、図６にはm₁,m₂, m₃といった３つの動的計画法のパ
スも示されている。これらは、入力音素系列と辞書音素
系列との間での３つの整合可能性を示しており、始点空
ノードφ_sから始まり、終点空ノードφ_eに向かって格子
点を伝搬している。

【００１９】入力音素系列と辞書音素系列との間での最
適な整合を求めるために、動的計画法整合ユニット４３
は伝搬している動的計画法のパスそれぞれの評価点を計
算している。ここで、評価点は、パスに沿って整合した
ときの全体的な類似性に基づいて計算される。また、整
合する系列中での音素の欠落や挿入の数に少なく抑える
ために、動的計画法プロセスは動的計画法のパスの伝搬
の仕方に制限を設けている。当業者であれば理解できる
ように、ここで用いる動的計画法の制限は辞書音素系列
の生成方法に依存するものとなる。

【００２０】ＤＰ制約（マニュアルで生成された辞書音素系列）マニュアルで
生成された辞書音素系列を用いる場合には、辞書音素系
列には音素の欠落や挿入はないものの、入力音素系列に
おいては辞書音素系列に対して音素の欠落や挿入が起こ
り得る。図７aは、このような場合に本実施形態で用い
る動的計画法の制限である。図示されているように、動
的計画法のパスが辞書音素d¹ _iと入力音素d² _jとの間での
整合を示す格子点(i,j)で終端している場合、動的計画
法のパスは格子点(i+1,j), (i+1,j+1), (i+1,j+2), (i+
1,j+3)のどれかに伝搬することになる。ここで、格子点
(i+1,j)への伝搬は、辞書系列に対して入力系列の音素
の欠落が生じたことを示す。格子点(i+1,j+1)への伝搬
は、次の入力音素と次の辞書音素とが単純デコードされ
たことを示す。格子点(i+1,j+2)への伝搬は、辞書系列
に対して入力系列の音素d² _j+1の挿入が生じ、辞書音素d
¹ _i+1と入力音素d² _j+1とがデコードなされたことを示
す。格子点(i+1,j+3)への伝搬は、辞書系列に対して入
力系列の２つの音素（d² _j+1とd² _j+2）の挿入が生じ、辞
書音素d¹ _i+1と入力音素d² _j+3とがデコードなされたこと
を示す。

【００２１】（音声から生成された辞書系列）音声から
生成された辞書系列を用いる場合には、辞書系列ならび
に音素系列双方において音素の挿入あるいは欠落が生じ
る。図７ｂは、このような場合に本実施形態で用いる動
的計画法の制限である。すなわち、動的計画法のパスが
辞書音素d¹ _iと入力音素d² _jとの間での整合を示す格子点
(i,j)で終端している場合、動的計画法のパスは格子点
(i+1,j), (i+2,j), (i+3,j), (i,j+1), (i+1,j+1), (i+
2,j+1), (i,j+2), (i+1,j+2), (i,j+3) のどれかに伝搬
することになる。このような伝搬制約を設けることで、
実際に発声されたテキストの未知の基準音素系列に対す
る入力音素系列ならびに辞書音素系列における音素の挿
入や欠落に対処することが可能となる。

【００２２】ＤＰ評価点伝搬上述のように、動的計画法整合ユニット４３は、動的計
画法のパスそれぞれについてパスに沿って整合したとき
の音素の類似性に基づいて計算される評価点を計算して
いる。すなわち、格子点(i,j)で終端されたパスを他の
点に伝搬させる場合、動的計画法プロセスはこの際の伝
搬「コスト」を、格子点(i,j)で終端されたパスの積算
評価点に追加する。ここで、積算評価点は、格子点(i,
j)において(SCORE(i,j))として保持されている。本実施
形態では、このコストは、音素が挿入される挿入確率
や、欠落が起こる欠落確率や、入力音素系列からの音素
と辞書音素系列からの音素との間での新しい整合が起こ
るデコード確率などに依存する。すなわち、挿入が生じ
た際には積算評価点にある音素の挿入確率を掛け合わ
せ、欠落が生じた際には積算評価点に音素の欠落確率を
掛け合わせ、デコードされた際には積算評価点に２つの
音素のデコード確率が掛け合わされる。

【００２３】これらの確率を計算するために、システム
はすべての可能性のある音素組み合わせに対する確率を
メモリ４７に保持しておく。本実施形態では、第一ある
いは第二の音素系列からの音素の欠落は、デコードと同
様に処理する。これは、欠落された音素を単に新たな音
素として処理することでなされる。すなわち、システム
が４３個の音素を対象としている場合には、可能性のあ
る音素のデコードならびに欠落に対して、１８３２（＝
４３×４４）個のデコード／欠落確率をシステムが保持
することになる。図８は、音素/ax/に対して保持されて
いる可能性のある音素デコードを示したもので、欠落音
素（φ）が一つの確率として示されている。当業者であ
れば理解できるように、ある音素に対するデコード確率
の和は、他の確率が存在し得ないため１とならなければ
ならない。これらのデコード／欠落確率に加えて、可能
性のある音素の挿入に対して４３個の挿入確率（PI
( )）がメモリ４７に保持される。後述するように、こ
れらの確率はトレーニングデータを用いてあらかじめ決
定される。

【００２４】上述のように、本実施形態では、整合ユニ
ット４３は辞書系列の作成方法に応じて異なる評価点計
算手法を用いる。すなわち、マニュアルで辞書系列を作
成した場合には、辞書音素は正しいと想定し、システム
は入力音素系列からの音素（d² _j）を第一音素系列から
の音素（d¹ _i）としてデコードする確率を

【００２５】

【数３】として求める。ここで、デコード確率は、メモリ４７に
保持されている適切な確率をルックアップすることで求
められる。一方、音声から辞書音素系列を生成した場合
には、整合ユニット４３は、入力音素系列からの音素
（d² _j）を辞書音素系列からの音素（d¹ _i）としてデコー
ドする確率を、音素pを辞書音素d¹ _iならびに入力音素d²
_jとしてデコードする確率を音素pの生起確率で重み付け
したものを、すべての可能性のある音素pに対して和を
とった

【００２６】

【数４】として求める。ここで、N_pはシステムが対象とする音素
の数、P(d¹ _i|p_r)は音素p _rを辞書音素d¹ _iとしてデコード
する確率、P(d² _j|p_r)は音素p_rを入力音素d² _jとしてデコ
ードする確率、P(p_r)は音素p_rの生起確率である。

【００２７】評価点の伝搬を説明するために、いくつか
の例を説明する。辞書系列がマニュアルで作成された場
合であって、パスが格子点(i,j)から(i+1,j+2)に伝搬し
た場合には、入力音素d² _j+1が辞書音素系列に対して挿
入されるとともに、入力音素d ² _j+2は辞書音素d¹ _i+1とし
てデコードされる。すなわち、格子点(i+1,j+2)に至る
伝搬の評価点は、

【００２８】

【数５】として与えられる。ここで、PI(d² _j+1)は入力音素d² _j+1
が挿入される確率、P(d² _j+2|d¹ _i+1)は辞書音素d¹ _i+1を
入力音素d² _j+2としてデコードする確率である。

【００２９】これに対し、辞書音素系列が音声から作成
された場合であって、パスが格子点(i,j)から(i+2,j+1)
に伝搬した場合には、辞書音素d¹ _i+1が入力音素系列に
対して挿入されるとともに、入力音素d² _j+1は辞書音素d
¹ _i+2としてデコードされる。すなわち、格子点(i+2,j+
1)に至る伝搬の評価点は、

【００３０】

【数６】として与えられる。

【００３１】当業者であれば理解できるように、このパ
ス伝搬においては、複数のパスが同一の格子点で合流す
ることがあり得る。ここで、最適なパスを選択するため
に、各格子点において評価点の比較を行って、最も評価
点の高いパスのみを残し、他のパスは削除する。このよ
うな処理を経てパスが終端ノードに達すると、終端ノー
ドにたどり着いたパスの評価点が入力音素系列と辞書音
素系列との間での類似度を表すこととなる。上述のよう
に、評価点分析ユニット４５は、ここで得られた評価点
と辞書音素系列それぞれとを比較し、入力音素系列に類
似のＮ個の辞書音素系列を決定する。これらの辞書音素
系列に対応した辞書単語が単語辞書から引き出されて出
力され、ＰＣ１で使用されることになる。

【００３２】（ＤＰ整合の詳細な説明）入力系列を整合
し、辞書単語の一つと比較するような動的計画法整合ユ
ニット４３の動作に関して、以下詳細に説明する。な
お、同様の整合ならびに比較処理は入力系列と他の辞書
系列との間でも行われることに注意されたい。まず、す
べてのノードにおける評価点を適切な初期値に設定す
る。次いで、整合ユニット４３は、始点空ノード
（φ_s）から上述の動的計画法の制限で指定されるすべ
ての可能な始点へパスを伝搬させる。ここで、このパス
の評価点は、始点空ノードから始点までの伝搬に伴う遷
移評価点となる。このようにして伝播を開始したパス
は、第一ならびに第二の音素系列で指定される格子点配
列中を終点空ノード（φ _e）に達するまで伝搬すること
になる。なお、整合ユニット４３は格子点配列の処理を
列ごとにラスター処理的に行う。

【００３３】ラスター処理動作で制御を行う制御アルゴ
リズムを図９に示す。図示のように、ステップs149にお
いて、システムは辞書音素系列ループポインタiと入力
音素ループポインタjとを０にセットする。続くステッ
プs151において、辞書音素系列ループポインタiと辞書
音素系列中の音素の数（Nseq1）とを比較する。開始時
点では辞書音素系列ループポインタiは０にセットされ
ているため、処理はステップs153に進み、入力音素系列
ループポインタjと入力音素系列のすべての音素数（Nse
q2）とを比較する。開始時点ではループポインタjは０
にセットされているため、処理はステップs155に進み、
格子点(i,j)で終端されるパスを上述の動的計画法の制
限を用いて伝搬させる。ステップs155における伝搬に関
する詳細は後述する。ステップs155に続いて、ステップ
s157でループポインタjを１増加（インクリメント）さ
せ、処理をステップs153に戻す。入力音素系列中のすべ
ての音素に対してこのようなループを繰り返すと、すな
わち格子点配列中の現在の列の処理を終えると、処理は
ステップs159に進み、ループポインタjを０にリセット
するとともにループポインタiを１増加させる。そし
て、処理はステップs151に戻り、格子点配列の次の列に
対して同様の処理を実行する。格子点配列の最後の列を
処理すると、ステップs161に進み、ループポインタiを
０にリセットして処理を終了する。

【００３４】（伝搬）図９のステップs155では、格子点
(i,j)で終端されるパスを上述の動的計画法の制限を用
いて伝搬させる。図１０は、この伝搬処理を実行する処
理ステップを示すフローチャートである。図示のよう
に、ステップs211において、システムは２つの変数mxi
とmxjの値をセットし、辞書音素系列ループポインタi2
と入力音素系列ループポインタj2とを初期化する。ここ
で、ループポインタi2とj2は、格子点(i,j)で終端され
るパスが伝搬するすべての格子点をループさせるために
用いられ、変数mxiとmxjは、i2とj2とが動的計画法の制
限にしたがう値のみとなるように制限するために用いら
れる。すなわち、iにmxhopsを加算した値が辞書音素系
列中の音素の数以下であれば、mxiはiにmxhopsを加算し
た値と設定される。ここで、mxhopsは動的計画法の制限
の中で最大の「ホップ」数よりも１大きい一定値であ
り、本実施形態では系列に沿って３つ先の音素までパス
がジャンプするためmxhopsの値は４となる。一方、iにm
xhopsを加算した値が辞書音素系列中の音素の数より大
きければ、mxiは辞書音素系列中の音素の数（Nseq1）に
設定される。同様に、jにmxhopsを加算した値が入力音
素系列中の音素の数以下であれば、mxjはjにmxhopsを加
算した値と設定され、そうでない場合にはmxjは入力音
素系列中の音素の数（Nseq2）に設定される。最後に、
ステップs211において、システムは辞書音素系列ループ
ポインタi2を辞書音素系列ループポインタiの現在の値
に設定するとともに、入力音素系列ループポインタj2を
入力音素系列ループポインタjの現在の値に設定する。

【００３５】整合ユニット４３において用いられる動的
計画法の制限は、辞書音素系列が音声から作成された場
合とマニュアルで作成された場合とでことなるが、この
判定をステップs213で行う。辞書単語が音声から作成さ
れた場合には、格子点(i,j)で終端された動的計画法の
パスは図７ｂに示した点のいずれかに伝搬することにな
るが、このような処理をステップs219からs235で行う。
すなわち、ステップs219では、辞書音素系列ループポイ
ンタi2と変数mxiとを比較する。ここで、ループポイン
タi2はiに、mxiはi+4に設定されているためステップs22
1に進む。ステップs221では入力音素系列ループポイン
タj2に対して同様の比較が行われる。そして、ステップ
s223において、パスが同一の格子点(i,j)に留まってい
るか否かの判定が、i2がiと等しいか否か、j2がjと等し
いか否かに基づいてなされる。同一の格子点に留まって
いた場合には、入力音素ループポインタj2を１増加させ
るステップs225に進む。

【００３６】ステップs221に戻ると、１増加された値j2
とmxjとが比較される。j2がmxjよりも小さいと、ステッ
プs223を経てステップs227に進む。ここで、ステップs2
27は、双方の音素系列に沿ってのホップ数が大きくなり
すぎないようにするためのものである。すなわち、i2+j
2がi+j+mxhops以下である場合にのみパスを伝搬させる
もので、図７ｂに示した三角形内の格子点のみを対象と
するものである。この条件が満たされると、ステップs2
29に進み、格子点(i,j)から格子点(i2,j2)への遷移評価
点（TRANSCORE）を計算する。なお、本実施形態では、
遷移評価点ならびに積算評価点は確率で表現され、双方
の確率を乗算することで新たな積算評価点が得られる。
この際、高精度浮動小数点演算を避けるために、本実施
形態では遷移評価点ならびに積算評価点はログ確率で表
現する。すなわち、ステップs231において、システムは
遷移評価点と格子点(i,j)における積算評価点とを加算
し、一時評価点TEMPSCOREにコピーする。

【００３７】上述のように、本実施形態では、２つ以上
の動的計画法のパスが同一格子点に達すると、それぞれ
のパスの積算評価点を比較し、最適なパス、すなわち大
きい評価点のパスのみを残す。すなわち、ステップs233
において、TEMPSCOREを既に格子点(i2,j2)における積算
評価点と比較し、大きい方の評価点をSCORE(i2,j2)に保
持する。そして、ステップs225に戻り、ループポインタ
j2を１加算してステップs221に戻る。第二音素系列ルー
プポインタj2がmxjの値に達すると、ステップs235に進
み、ループポインタj2を初期値jに再設定するととも
に、第一音素系列ループポインタi2を１加算する。そし
て、ステップs219に戻り、図７ｂに示す次の列の格子点
処理を開始する。格子点(i,j)から図７ｂに示したすべ
ての他の点までパスを伝搬させると、処理は終了する。

【００３８】判定ステップs213において、辞書単語がマ
ニュアルで作成されたと判定された場合には、処理をス
テップs241からs251に進め、格子点(i,j)で終端された
パスを図７aで示した格子点に伝搬させる。すなわち、
ステップs241において、辞書音素ループポインタiが辞
書音素系列中の最後の音素であるか否かを判定する。最
後の音素である場合には、辞書音素系列において他の音
素は存在しないため処理を終了する。辞書音素ループポ
インタiがNdic-1より小さければ、ステップs243に進
み、入力音素ループポインタj2をmxjと比較する。当初j
2はmxjよりも小さいため、ステップs245に進み、格子点
(i,j)から格子点(i+1,j2)への遷移評価点（TRANSCORE）
を計算する。次いで、ステップs247においてこの遷移評
価点に格子点(i,j)で終端されたパスの積算評価点を加
算し、加算結果を一時評価点TEMPSCOREにコピーする。
続くステップs249では、TEMPSCOREを既に格子点(i+1,j
2)における積算評価点と比較し、大きい方の評価点をSC
ORE(i+1,j2)に保持する。そして、ステップs251に進
み、ループポインタj2を１加算してステップs243に戻
る。格子点(i,j)で終端されたパスを図７aで示す他のす
べての点まで伝搬させると、j2はmxjと等しくなり、格
子点(i,j)で終端されたパスの伝搬が終了する。（遷
移評価点）ステップs229とs245においては、格子点(i,j)から他の
格子点(i2,j2)あるいは(i+1,j2)への遷移評価点が計算
される。この遷移評価点の計算は、遷移始点と遷移終点
とに関係する挿入確率、欠落確率、デコード確率に基づ
いて行われる。本実施形態での計算方法を図１１と図１
２に示す。

【００３９】図１１は、格子点(i,j)から格子点(i2,j2)
へのパス伝搬における遷移評価点を計算する一般的な処
理ステップを示したフローチャートである。ステップs2
91において、格子点(i,j)と格子点(i2,j2)との間で挿入
された辞書系列音素ごとに、音素が挿入される評価点
（上述のPI( )のログ確率）を求め、これをINSERTSTORE
に加算する。次いで、ステップs293において、格子点
(i,j)と格子点(i2,j2)との間に挿入される入力系列音素
ごとに同様の計算を行い、これをINSERTSCOREに加算す
る。上述のように、計算された評価点はログベースの確
率であるため、INSERTSCOREへの加算は挿入確率を乗算
することと等価となる。続くステップs295では、格子点
(i,j)から格子点(i2,j2)への伝搬における欠落やデコー
ドに対する評価点を上式(1)にしたがって計算し、これ
らを加算してDELSCOREに保持する。ステップs297におい
て、INSERTCOREとDELSCOREとを加算し、結果をTRANSCOR
Eにコピーする。

【００４０】図１２は、ステップs295において格子点
(i,j)から格子点(i2,j2)への伝搬における欠落やデコー
ドに対する評価点を計算する処理を詳細に示した図であ
る。欠落やデコードは、辞書系列が音声から作成された
ものであるのか否かによって異なるため、まず判定ステ
ップs301でこの判定を行う。辞書系列が音声から作成さ
れていた場合には、図１２ｂに示すステップs325に進
む。辞書系列がマニュアルで作成されていた場合には、
ステップs319において、入力音素ループポインタj2が入
力音素ループポインタjと等しいか否かの判定がなされ
る。等しい場合には、格子点(i,j)から格子点(i+1,j)へ
の遷移評価点を計算する。すなわち、辞書音素系列に比
して入力音素系列において辞書音素d¹ _i+1が欠落した場
合である。この場合には、ステップs321において、欠落
辞書音素d¹ _i+1のログ確率（logP(φ|d ¹ _i+1)を求め、DEL
SCOREにコピーし処理を終了する。ステップs319におい
て、入力音素ループポインタj2が入力音素ループポイン
タjと等しくないと判断された場合には、格子点(i,j)か
ら格子点(i+1,j+1), (i+1,j+2), (i+1,j+3)いずれかへ
の遷移評価点を計算する。すなわち、辞書音素d¹ _i+1と
入力音素d² _j2との間で欠落が発生せず、挿入とデコード
が生じた場合である。この場合には、ステップs323にお
いて、辞書音素d¹ _i+1を入力音素d² _j2としてデコードす
るログ確率（logP(d² _j2|d¹ _i+1)を求め、DELSCOREにコピ
ーし処理を終了する。

【００４１】ステップs301において、辞書音素系列が音
声から作成されたと判定された場合には、ステップs325
に進み、辞書音素系列ループポインタi2が辞書音素系列
ループポインタjと等しいかの判定がなされる。等しい
場合にはステップs327に進み、音素ループポインタrが
１に初期化される。ここで、音素ポインタrは、上式(2)
の計算においてシステムが対象とするすべての音素をル
ープさせるために用いられる。続くステップs329では、
音素ポインタrをシステムが対象とする音素の数Nphonem
es（本実施形態では４３）と比較する。rは当初ステッ
プs327で１に設定されるので、ステップs331に進み、音
素p_rのログ発生確率（logP(p_r)）を求め、一時評価点TE
MPDELSCOREにコピーする。辞書音素系列ループポインタ
i2が辞書音素ループポインタiと等しい場合には、格子
点(i,j)で終端されるパスを格子点(i,j+1), (i,j+2),
(i,j+3)のいずれかの点に伝搬させる。すなわち、入力
音素系列に辞書音素系列に存在しない音素が存在する場
合である。したがって、ステップs333では、辞書音素系
列から音素p_rが欠落するログ確率（logP(φ|p_r)）をTEM
PDELSCOREに加算する。また、ステップs335では、音素p
_rを入力系列音素d² _j2としてデコードするログ確率（log
P(d² _j2|p_r)）をTEMPDELSCOREに加算する。さらに、ステ
ップs337においてTEMPDELSCOREとDELSCOREとの「ログ加
算」がなされ、加算結果がDELSCOREに保持される。

【００４２】本実施形態では、上式(2)に基づくデコー
ド確率の計算において確率の加算や乗算が必要となる。
この際、本実施形態では、ログ確率を用いているため、
「ログ加算」処理を行うにあたってはTEMPDELSCOREとDE
LSCOREとをログ確率から通常の確率に一旦変換した後、
加算して、再度ログ確率に変換するという処理が必要と
なる。なお、この「ログ加算」は音声処理では良く知ら
れた手法であり、例えばLee, Kai-Fu, "Automatic Spee
ch Recognition: The Development of the (Sphinx) Sy
stem," Kluwer Academic Publishers, 1989 という本の
ページ２８と２９に記されている。ステップs337に続い
て、ステップs339において音素ループポインタrに１を
加算した後、ステップs329に戻り、システムが対象とす
る次の音素に対して同様の処理を実行する。システムが
対象とする４３個の音素に対しての処理を行うと、処理
が終了する。

【００４３】一方、ステップs325においてi2とiとが異
なると判定されると、ステップs341において入力音素系
列ループポインタj2が入力音素系列ループポインタjと
等しいかの判定が行われる。j2とjとが等しい場合に
は、ステップs343において音素ループポインタrが１に
初期化される。続くステップs345では、音素ループポイ
ンタrをシステムが対象とするすべての音素の数Nphonem
esと比較する。rは当初ステップs343で１に設定される
ので、ステップs347に進み、音素p_rのログ発生確率を求
め、一時評価点TEMPDELSCOREにコピーする。続くステッ
プs349では、音素p_rを辞書音素d¹ _i2としてデコードする
ログ確率を求め、TEMPDELSCOREに加算する。入力音素系
列ループポインタj2がループポインタjと等しい場合に
は、格子点(i,j)で終端されるパスを格子点(i+1,j), (i
+2,j), (i+3,j)のいずれかの点に伝搬させる。すなわ
ち、辞書音素系列に入力音素系列に存在しない音素が存
在する場合である。したがって、ステップs351では、入
力音素系列から音素p_rが欠落するログ確率を求め、TEMP
DELSCOREに加算する。続くステップs353では、TEMPDELS
COREとDELSCOREとのログ加算を行い、加算結果をDELSCO
REに保持する。そして、ステップs355において音素ルー
プポインタrを１増加させ、ステップs345に戻る。ステ
ップs347からs353をシステムが対象とするすべての音素
に対して実行すると、処理は終了する。

【００４４】ステップs341において入力音素系列ループ
ポインタj2が入力音素系列ループポインタjと異なると
判定されると、ステップs357において音素ループポイン
タrが１に初期化される。続くステップs359では、音素
カウンタrをシステムが対象とするすべての音素の数Nph
onemesと比較する。rは当初ステップs357で１に設定さ
れるので、ステップs361に進み、音素p_rのログ発生確率
を求め、一時評価点TEMPDELSCOREにコピーする。ループ
ポインタj2がループポインタjと異なる場合には、格子
点(i,j)で終端されるパスを格子点(i+1,j+1), (i+1,j+
2), (i+2,j+1)のいずれかの点に伝搬させる。すなわ
ち、欠落は発生せず、挿入とデコードが生じた場合であ
る。したがって、ステップs363では、音素p_rを辞書音素
d¹ _i2としてデコードするログ確率をTEMPDELSCOREに加算
する。また、ステップs365では、音素p_rを入力音素d² _j2
としてデコードするログ確率を求めTEMPDELSCOREに加算
する。続くステップs367では、TEMPDELSCOREとDELSCORE
とのログ加算を行い、加算結果をDELSCOREに保持する。
そして、ステップs369において音素カウンタrを１増加
させ、ステップs359に戻る。ステップs361からs367をシ
ステムが対象とするすべての音素に対して実行すると、
処理は終了する。

【００４５】トレーニング上記実施形態では、動的計画法整合ユニット７８は、音
素整合処理における動的計画法のパスの評価点を計算す
るために、１８９２個のデコード／欠落確率と４３個の
挿入確率を用いる。本実施形態では、これらの確率は、
あらかじめトレーニングセッションにおいて決定され、
メモリ４７に記憶しておく。すなわち、トレーニングセ
ッションにおいて、音声認識システムを用いて音声の音
素デコードを２種類の方法で実行する。第一の方法で
は、音声と発話された単語とを音声認識システムに入力
する。音声認識システムは、これらの情報を用いて発話
単語の基準音素系列を生成し、音声の理想的なデコード
を求める。次に、今度は発話された単語の知識を用いず
に、同一の音声を音声認識システムでデコードする（以
下、これを無条件デコードと呼ぶ）。この際、無条件デ
コードから生成された音素系列は、基準音素系列と以下
の点で異なることになる。 i）無条件デコードには誤りが生じえる。すなわち、基
準系列に存在しない音素がデコードに挿入されたり、基
準系列に存在する音素がデコードから欠落したりするこ
とがあり得る。 ii）ある音素が別の音素と取り違えられることがあり得
る。 iii）音声認識システムが音声を完全にデコードしたと
しても、会話発音と基準発音との差異から無条件デコー
ドが異なることがあり得る。例えば、単語"and"の基準
形式は/ae/ /n/ /d/ と/ax/ /n/ /d/ となるが、会話音
声では/ax/ /n/あるいは /n/ となることがしばしばあ
り得る。

【００４６】したがって、多数の発話を基準形式ならび
に無条件デコード形式にデコードするにあたっては、２
つの整合をとるために上記と同様な動的計画法手法を用
いることができる。これにより、基準音素がpであった
ときにdとデコードされた回数が得られ、このようなト
レーニング結果を用いて、上述のデコード確率、欠落確
率、挿入確率を下記のように近似することが可能とな
る。音素dが挿入される確率は、

【００４７】

【数７】となる。ここで、I_dは自動音声認識システムが音素dを
挿入した回数、n_o ^dは基準系列に対して挿入されたデコ
ード音素の全体数である。

【００４８】音素pを音素dとしてデコードする確率は、

【００４９】

【数８】となる。ここで、c_dpは自動音声認識システムがpとデコ
ードされるべき音素をdとデコードした回数、n_pは自動
音声認識システムがpとデコードされるべき音素を欠落
をも含めたいかなる音素のいずれかにデコードした回数
である。pとデコードされるべき音素がいずれかの音素
にもデコードされない確率、すなわち欠落確率は、

【００５０】

【数９】となる。ここで、O_pは自動音声認識システムがpとデコ
ードされるべき音素をいずれかの音素にもデコードしな
かった回数、n_pは上と同様である。

【００５１】他の実施形態今まで「音素」という言葉を用いてきたが、本発明はこ
の言語学的意味に限定されるものではなく、標準の音声
認識システムにおいて用いられる識別可能な別のサブ単
語ユニットにも適用できることが、当業者であれば理解
されよう。すなわち、「音素」という言葉は、音韻、音
節、片仮名（日本語のアルファベット）などのようなサ
ブ単語ユニットをも意味する。

【００５２】また、音素系列を動的計画法整合する上記
説明は例として示したものであり、種々の修正を施すこ
とが可能であることは当業者であれば理解されよう。例
えば、パスを格子点上で伝搬させるためにラスタースキ
ャン処理を用いたが、パスを格子点上で漸進的に伝搬さ
せるような手法を用いることも可能である。さらに、上
述の動的計画法の制限以外の制約を用いてマッチング処
理を制御することも可能であることは、当業者であれば
理解できよう。

【００５３】上記実施形態では、音声から辞書音素が作
成された場合、式(2)を用いて動的計画法整合ユニット
における遷移のデコード評価点計算を行っている。これ
に対して、式(2)のようにシステムが対象とするすべて
の音素を加算するのではなく、加算する確率項それぞれ
の最大値を求め、この最大値を入力系列中の音素のデコ
ード確率とすることで、未知の音素pを識別する動的計
画法整合ユニットを考えることもできる。

【００５４】また、上記実施形態では、音声認識システ
ムの統計量から確率を最尤推定して、挿入、欠落、デコ
ード確率を求めている。これに対して、最大エントロピ
ー法を用いてこれらの確率を推定することもできること
は当業者であれば理解できよう。なお、適切な最大エン
トロピー法の詳細は、John Skilling, "Maximum Entrop
y and Bayesian Methods", Kluwer Academic Publisher
s という本のページ４５から５２に記されており、参照
されたい。

【００５５】さらに、上記実施形態では、音声認識エン
ジンから出力された音素系列とそれぞれの辞書音素系列
とを動的計画法アルゴリズムを用いて整合している。こ
こで、他の整合手法を用いることが可能であることは、
当業者であれば理解できよう。例えば、すべての可能な
整合を試してみる素朴な方法を用いることもできる。し
かし、動的計画法は、標準的な処理プロセッサを用いて
容易に実装できるという点で優れている。また、上述の
実施形態における動的計画法では、音素の入力系列間で
の「最適な」整合を求めていたが、いくつかのアプリケ
ーションでは必ずしも最適な整合を求める必要はない。
すなわち、第二、第三、第四番目に最適な整合を用いる
ことができる場合がある。

【００５６】また、上述の実施形態における動的計画法
アルゴリズムでは、辞書系列が音声から作成された場
合、整合する音素ペアごとに式(2)を計算している。す
なわち、式(2)の計算では、辞書系列音素と入力系列音
素とをシステムが対象とする音素それぞれと比較してい
る。しかし、ある辞書系列音素と入力系列音素とのペア
に対しては、式(2)で与えられる確率の多くが等しい、
もしくは０に近くなることが、当業者であれば理解でき
よう。したがって、すべての対象音素中の一部に対して
のみ整合する音素との比較を行う別の実施形態を考える
こともできる。なお、対象音素のうちの一部は、トレー
ニングデータを用いてあらかじめ決定される。このよう
な実施形態においては、整合する入力音素を用いてルッ
クアップテーブルを参照し、式(2)を用いて比較対象の
音素を決定することになる。

【００５７】さらに、上述の実施形態では、認識する入
力音素系列と辞書音素系列の双方に対して、同一の音素
混同（取り違え）確率を適用している。ここで、音素混
同確率は、音素系列を生成するために用いる認識システ
ムに依存するため、異なる認識システムを用いる場合に
は、それぞれ異なる音素混同確率を用いなければならな
いことは、当業者であれば理解できよう。

【００５８】以上、種々の実施形態や修正を記したが、
当業者であれば明らかであるような他の実施形態や修正
もあり得ることは、当業者であれば理解できよう。

【図面の簡単な説明】

【図１】本発明の実施形態を処理するようにプログラム
されたコンピュータの模式図である。

【図２】本発明を実現する音声認識システムの概要を示
すブロック図である。

【図３】図２で示した音声認識システムの一部となるワ
ードデコーダの主要素を示すもブロック図である。

【図４】辞書単語を示す第一音素系列、図２の音声認識
エンジンから出力される発話単語を示す第二音素系列、
第一ならびに第二音素系列を最も良く表現する第三音素
系列を示し、第一ならびに第二音素系列において第三音
素系列に対して音素の挿入や欠落が生じ得ることを示し
ている。

【図５】辞書単語と発話単語の音素系列からなる探索空
間を、始点空ノードと終点空ノードとともに模式的に示
した図である。

【図６】水平軸が辞書単語音素、垂直軸が発話音素であ
る２次元座標プロットであり、辞書単語音素と発話音素
との間での可能なマッチングを示す複数の格子点を示し
ている。

【図７a】辞書音素系列がマニュアルで作成された場合
に、図３に示した単語デコーダの一部の動的計画法整合
ユニットで用いられる動的計画法の制限を模式的に示し
た図である。

【図７b】辞書音素系列が発話から作成された場合に、
図３に示した単語デコーダの一部の動的計画法整合ユニ
ットで用いられる動的計画法の制限を模式的に示した図
である。

【図８】音素列に対して格納されている欠落確率とデコ
ード確率とを示したもので、これらの確率は、図３に示
した整合ユニットで実行される動的計画法整合処理中の
適合性決定処理において用いられる。

【図９】図３の動的計画法整合ユニットにおいて実行さ
れる主処理ステップを示すフローチャートである。

【図１０】始点空ノードから終点空ノードまで動的計画
法のパスを伝搬させるために用いられる主処理ステップ
を示すフローチャートである。

【図１１】動的計画法整合処理におけるパス伝搬におい
て遷移評価点を計算する処理ステップを示すフローチャ
ートである。

【図１２a】第一ならびに第二音素系列において単語候
補に対して欠落やデコードが生じる評価点を計算する処
理ステップの第一の部分を示すフローチャートである。

【図１２b】第一ならびに第二音素系列において単語候
補に対して欠落やデコードが生じる評価点を計算する処
理ステップの第二の部分を示すフローチャートである。

フロントページの続き (72)発明者ジェイソンピーターアンドリューチャールズワースイギリス国アールジー12 ２エックスエイチ，バークシャー，ブラックネル, ロンドンロード，ザブラカンズキヤノンリサーチセンターヨーロッパリミテッド内Ｆターム(参考） 5D015 HH05 HH08

Claims

【特許請求の範囲】

【請求項１】１つあるいは複数の単語の音声入力に対
して認識システムから出力されるサブ単語ユニット系列
に対応する１つあるいは複数の単語を識別する装置であ
って、１つあるいは複数の認識対象単語を表す、認識結果系列
であるサブ単語ユニット系列を受信する第一の受信手段
と、１つあるいは複数の既得単語をそれぞれが表している複
数の辞書サブ単語系列を受信する第二の受信手段と、認識結果系列のサブ単語ユニットと各辞書系列のサブ単
語ユニットとを比較して、比較結果のセットを求める手
段と、認識結果系列のサブ単語ユニットと同一辞書単語のサブ
単語ユニットとの比較から得られた比較結果を集計し
て、辞書単語ごとに認識結果系列と辞書系列との間の類
似性を計算する手段と、すべての辞書系列に対する集計手段から得られる類似性
を用いて前記１つあるいは複数の単語を識別する手段と
を備えることを特徴とする装置。
【請求項２】前記比較手段は認識結果系列と複数の辞
書系列との比較を同時に行うことを特徴とする請求項第
１項記載の装置。
【請求項３】前記比較手段は、認識結果系列のサブ単語ユニットと現在の辞書系列のサ
ブ単語ユニットとを整合させ、サブ単語ユニット間での
複数の整合ペアを生成する手段と、各整合ペアのサブ単語ユニットを比較し、整合ペアのサ
ブ単語ユニット間での類似性を表す評価点を計算するサ
ブ単語比較器とを備え、前記集計手段は、現在の辞書系列に対して、サブ単語ユ
ニットのすべての整合ペアに対する評価点を集計し、認
識結果系列と現在の辞書系列との間の前記類似度を求め
ることを特徴とする請求項第１項あるいは第２項記載の
装置。
【請求項４】前記サブ単語ユニット比較器は、整合ペアの認識結果系列サブ単語ユニットと、所定サブ
単語ユニットのセット中の複数のサブ単語ユニットとの
比較を整合ペアごとに行い、認識結果系列サブ単語ユニ
ットと前記セット中のそれぞれのサブ単語ユニットとの
類似性を表す複数の評価点を求める第一比較手段と、整合ペアの辞書系列サブユニットと、前記セット中の複
数のサブ単語ユニットとの比較を整合ペアごとに行い、
前記辞書系列サブ単語ユニットと前記セット中の対応サ
ブ単語ユニットとの類似性を表す複数の評価点を求める
第二比較手段と、整合ペアの認識結果系列サブ単語ユニットならびに辞書
系列サブ単語ユニットを前記セット中の同一サブユニッ
トと比較して得られた評価点を集計して、整合ペアごと
に複数の集計評価点を求める手段と、サブ単語ユニットの整合ペア間での類似性を表す前記評
価点を、前記整合ペアの複数の中間評価点に基づいて決
定する手段とを備えることを特徴とする請求項第３項記
載の装置。
【請求項５】前記第一ならびに第二比較手段は、認識
結果系列サブ単語ユニットと辞書系列サブ単語ユニット
それぞれをサブ単語ユニットセット中のサブ単語ユニッ
トと比較することを特徴とする請求項第４項記載の装
置。
【請求項６】前記第一ならびに第二比較手段は、所定
サブ単語ユニットセット中のサブ単語を整合ペアのサブ
単語ユニットと取り違える確率を示す中間評価点を求め
ることを特徴とする請求項第４項あるいは第５項記載の
装置。
【請求項７】前記集計手段は、セット中のサブ単語ユ
ニットを整合ペアのサブ単語ユニットと取り違える確率
を乗算するために、評価点を集計することを特徴とする
請求項第６項記載の装置。
【請求項８】前記所定サブ単語ユニットセット中の前
記サブ単語ユニットは、サブ単語ユニット系列において
所定の生起確率を有し、前記集計手段は、集計評価点を
求めるために使われるセット中のサブ単語ユニットの生
起確率に基づいて前記集計評価点を重み付けすることを
特徴とする請求項第７項記載の装置。
【請求項９】前記集計手段は、d¹ _iとd² _jをそれぞれ辞
書系列サブ単語ユニットならびに認識結果系列サブ単語
ユニットの整合ペアとし、P(d² _j|p_r)を、セット中のサ
ブ単語ユニットp_rを認識結果系列サブ単語ユニットd² _j
と取り違える確率を示す、前記第一比較手段から出力さ
れる中間評価点とし、P(d¹ _i|p_r)を、セット中のサブ単
語ユニットp_rを辞書系列サブ単語ユニットd¹ _iと取り違
える確率を示す、前記第二比較手段から出力される評価
点とし、P(p_r)をセット中のサブ単語ユニットp_rがサブ
単語ユニット系列で発生する確率を示す重みとしたと
き、【数１】を計算することで前記中間評価点を集計することができ
ことを特徴とする請求項第８項記載の装置。
【請求項１０】認識結果系列サブ単語ユニットならび
に辞書系列サブ単語ユニットの判断確率は、あらかじめ
決められ、対応サブ単語ユニット系列を生成するために
用いられた認識システムに基づくものであることを特徴
とする請求項第９項記載の装置。
【請求項１１】前記中間評価点はログ確率であって、
前記集計手段は前記確率の乗算を中間評価点の加算で行
うことを特徴とする請求項第７項から第１０項のいずれ
かに記載の装置。
【請求項１２】前記比較手段は複数の異なる比較処理
モードを有し、現在の辞書系列サブ単語ユニットが音声入力から生成さ
れたものであるか、テキスト入力から生成されたもので
あるかを判断し、判断結果を出力する手段と、現在の辞書サブ単語系列に対して、前記判断結果に基づ
いて前記比較手段の処理モードを選択する手段とをさら
に備えることを特徴とする請求項第１項から第１１項の
いずれかに記載の装置。
【請求項１３】前記辞書ならびに認識結果系列サブ単
語ユニットにおけるサブ単語ユニットは前記所定サブ単
語ユニットセットに含まれ、前記第一ならびに第二比較
手段は、前記セット中のサブ単語ユニットをお互いに関
連づける所定データを用いて前記評価点を求めることを
特徴とする請求項第４項から第１２項のいずれかに記載
の装置。
【請求項１４】前記所定データは、サブ単語ユニット
セット中の各サブ単語ユニットについて、サブ単語ユニ
ットをサブ単語ユニットセット中のほかのサブ単語ユニ
ットと取り違える確率を含むことを特徴とする請求項第
１３項記載の装置。
【請求項１５】前記整合手段は、動的計画法技術を用
いて前記辞書系列サブ単語ユニットと認識結果系列サブ
単語ユニットとを整合する動的計画手段であることを特
徴とする請求項第１項から第１４項のいずれかに記載の
装置。
【請求項１６】前記サブ単語ユニットは音素であるこ
とを特徴とする請求項第１項から第１４項のいずれかに
記載の装置。
【請求項１７】認識対象の音声信号を受信する手段
と、サブ単語ユニットモデルを記憶する手段と、受信音声信号をサブ単語ユニットモデルと比較し、受信
音声信号を表す１つあるいは複数のサブ単語ユニット系
列を生成する手段と、サブ単語ユニット系列を単語に関連付ける単語辞書と、前記比較手段から出力された１つあるいは複数のサブ単
語ユニット系列を単語辞書を用いて処理し、受信音声信
号に対応する１つあるいは複数の単語を生成する単語デ
コーダとを備え、前記単語デコーダは請求項第１項から第１６項のいずれ
かに記載の装置からなることを特徴とする音声認識シス
テム。
【請求項１８】１つあるいは複数の単語の音声入力に
対して認識システムから出力されるサブ単語ユニット系
列に対応する１つあるいは複数の単語を識別する方法で
あって、１つあるいは複数の認識対象単語を表す、認識結果系列
であるサブ単語ユニット系列を受信する第一の受信ステ
ップと、１つあるいは複数の既得単語をそれぞれが表している複
数の辞書サブ単語系列を受信する第二の受信ステップ
と、認識結果系列のサブ単語ユニットと各辞書系列のサブ単
語ユニットとを比較して、比較結果セットを求めるステ
ップと、認識結果系列のサブ単語ユニットと同一辞書単語のサブ
単語ユニットとの比較から得られた比較結果を集計し
て、辞書単語ごとに認識結果系列と辞書系列との間の類
似性を計算するステップと、すべての辞書系列に対する集計手段から得られる類似性
を用いて前記１つあるいは複数の単語を識別するステッ
プとから構成されることを特徴とする方法。
【請求項１９】前記比較ステップは認識結果系列と複
数の辞書系列との比較を同時に行うことを特徴とする請
求項第１８項記載の方法。
【請求項２０】前記比較ステップは、認識結果系列のサブ単語ユニットと現在の辞書系列のサ
ブ単語ユニットとを整合させ、サブ単語ユニット間での
複数の整合ペアを生成するステップと、各整合ペアのサブ単語ユニットを比較し、整合ペアのサ
ブ単語ユニット間での類似性を表す評価点を計算するサ
ブ単語比較ステップとから構成され、前記集計手段は、現在の辞書系列に対して、サブ単語ユ
ニットのすべての整合ペアに対する評価点を集計し、認
識結果系列と現在の辞書系列との間の前記類似度を求め
ることを特徴とする請求項第１８項あるいは第１９項記
載の方法。
【請求項２１】前記サブ単語ユニット比較ステップ
は、整合ペアの認識結果系列サブ単語ユニットと、所定サブ
単語ユニットセット中の複数のサブ単語ユニットとの比
較を整合ペアごとに行い、認識結果系列サブ単語ユニッ
トと前記セット中のそれぞれのサブ単語ユニットとの類
似性を表す複数の評価点を求める第一比較ステップと、整合ペアの辞書系列サブユニットと、前記セット中の複
数のサブ単語ユニットとの比較を整合ペアごとに行い、
前記辞書系列サブ単語ユニットとセット中の対応サブ単
語ユニットとの類似性を表す複数の評価点を求める第二
比較ステップと、整合ペアの認識結果系列サブ単語ユニットならびに辞書
系列サブ単語ユニットをセット中の同一サブユニットと
比較して得られた評価点を集計して、整合ペアごとに複
数の集計評価点を求めるステップと、サブ単語ユニットの整合ペア間での類似性を表す前記評
価点を、前記整合ペアの複数の中間評価点に基づいて決
定するステップとから構成されることを特徴とする請求
項第２０項記載の方法。
【請求項２２】前記第一ならびに第二比較ステップ
は、認識結果系列サブ単語ユニットと辞書系列サブ単語
ユニットそれぞれをサブ単語ユニットセット中のサブ単
語ユニットと比較することを特徴とする請求項第２１項
記載の方法。
【請求項２３】前記第一ならびに第二比較ステップ
は、所定サブ単語ユニットセット中のサブ単語を整合ペ
アのサブ単語ユニットと取り違える確率を示す中間評価
点を求めることを特徴とする請求項第２１項あるいは第
２２項記載の方法。
【請求項２４】前記集計ステップは、セット中のサブ
単語ユニットを整合ペアのサブ単語ユニットと取り違え
る確率を乗算するために、評価点を集計することを特徴
とする請求項第２３項記載の方法。
【請求項２５】前記所定サブ単語ユニットセット中の
前記サブ単語ユニットは、サブ単語ユニット系列におい
て所定の発生確率を有し、前記集計ステップは、集計評
価点を求めるために使われるセット中のサブ単語ユニッ
トの発生確率に基づいて前記集計評価点を重み付けする
ことを特徴とする請求項第２４項記載の方法。
【請求項２６】前記集計ステップは、d¹ _iとd² _jをそれ
ぞれ辞書系列サブ単語ユニットならびに認識結果系列サ
ブ単語ユニットの整合ペアとし、P(d² _j|p_r)を、セット
中のサブ単語ユニットp_rを認識結果系列サブ単語ユニッ
トd² _jと取り違える確率を示す、前記第一比較ステップ
から出力される中間評価点とし、P(d¹ _i|p_r)を、セット
中のサブ単語ユニットp_rを辞書系列サブ単語ユニットd¹
_iと取り違える確率を示す、前記第二比較ステップから
出力される評価点とし、P(p_r)をセット中のサブ単語ユ
ニットp_rがサブ単語ユニット系列で生起する確率を示す
重みとしたとき、【数２】を計算することで前記中間評価点を集計することができ
ことを特徴とする請求項第２５項記載の方法。
【請求項２７】認識結果系列サブ単語ユニットならび
に辞書系列サブ単語ユニットの判断確率は、あらかじめ
決められ、対応サブ単語ユニット系列を生成するために
用いられた認識システムに基づくものであることを特徴
とする請求項第２６項記載の方法。
【請求項２８】前記中間評価点はログ確率であって、
前記集計ステップは前記確率の乗算を中間評価点の加算
で行うことを特徴とする請求項第２４項から第２７項の
いずれかに記載の方法。
【請求項２９】現在の辞書系列サブ単語ユニットが音
声入力から生成されたものであるか、テキスト入力から
生成されたものであるかを判断し、判断結果を出力する
決定ステップと、現在の辞書サブ単語系列に対して、前記判断結果に基づ
いて前記比較ステップの比較技術を選択するステップと
をさらに備えることを特徴とする請求項第１８項から第
２８項のいずれかに記載の方法。
【請求項３０】前記辞書ならびに認識結果系列サブ単
語ユニットにおけるサブ単語ユニットは前記所定サブ単
語ユニットセットに含まれ、前記第一ならびに第二比較
ステップは、前記セット中のサブ単語ユニットをお互い
に関連づける所定データを用いて前記評価点を求めるこ
とを特徴とする請求項第２１項から第２９項のいずれか
に記載の方法。
【請求項３１】前記所定データは、サブ単語ユニット
セット中のサブ単語ユニットごとに、サブ単語ユニット
をサブ単語ユニットセット中のほかのサブ単語ユニット
と取り違える確率を含むことを特徴とする請求項第３０
項記載の方法。
【請求項３２】前記整合ステップは、動的計画法技術
を用いて前記辞書系列サブ単語ユニットと認識結果系列
サブ単語ユニットとを整合する動的計画法ステップであ
ることを特徴とする請求項第１８項から第３１項のいず
れかに記載の方法。
【請求項３３】前記サブ単語ユニットは音素であるこ
とを特徴とする請求項第１８項から第３２項のいずれか
に記載の方法。
【請求項３４】認識対象の音声信号を受信するステッ
プと、受信音声信号を記憶されているサブ単語ユニットモデル
と比較し、受信音声信号を表す１つあるいは複数のサブ
単語ユニット系列を生成するステップと、前記比較ステップから出力された１つあるいは複数のサ
ブ単語ユニット系列を記憶されている単語辞書を用いて
処理し、受信音声信号に対応する１つあるいは複数の単
語を生成する処理ステップとから構成され、前記処理ステップは請求項第１８項から第３３項のいず
れかに記載の方法を用いることを特徴とする音声認識方
法。
【請求項３５】プロセッサを制御して請求項第１８項
から第３４項のいずれかに記載の方法を実現するための
プロセッサ実装可能命令を保持する記録媒体。
【請求項３６】プロセッサを制御して請求項第１８項
から第３４項のいずれかに記載の方法を実現するための
プロセッサ実装可能命令。