JP2002207496A - 音声処理システム - Google Patents

音声処理システム

Info

Publication number
JP2002207496A
JP2002207496A JP2001344825A JP2001344825A JP2002207496A JP 2002207496 A JP2002207496 A JP 2002207496A JP 2001344825 A JP2001344825 A JP 2001344825A JP 2001344825 A JP2001344825 A JP 2001344825A JP 2002207496 A JP2002207496 A JP 2002207496A
Authority
JP
Japan
Prior art keywords
sub
word
sequence
word unit
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001344825A
Other languages
English (en)
Other versions
JP3747171B2 (ja
Inventor
Philip Neil Garner
ニール ガーナー フィリップ
Jason Peter Andrew Charlesworth
ピーター アンドリュー チャールズワース ジェイソン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2002207496A publication Critical patent/JP2002207496A/ja
Application granted granted Critical
Publication of JP3747171B2 publication Critical patent/JP3747171B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 音声認識システムから出力された1つあるい
は複数のサブ単語ユニット系列を、1つあるいは複数の
対応単語にデコードするシステムを提供する。 【解決手段】このシステムは、認識システムから出力さ
れた認識結果系列であるサブ単語ユニット系列と、辞書
単語を表す複数の辞書サブ単語ユニット系列とを受信
し、サブ単語ユニット系列と辞書サブ単語ユニット系列
とを動的計画法技術を用いて整合させ、発話入力に対し
て最も合致する単語を認識するシステムである。

Description

【発明の詳細な説明】
【0001】本発明は、音声認識システムから出力され
るサブ単語ユニットの1つあるいは複数の系列を1つあ
るいは複数の対応する単語にデコードするための装置な
らびに方法に関するものである。
【0002】音声認識システムは、認識処理に利用でき
る処理能力の増大に伴い、ますます広く使われようにな
っている。ほとんどの音声認識システムは、小語彙シス
テムと大語彙システムの2つに分けることができる。小
語彙システムでは、音声認識エンジンにおいて、認識対
象の入力音声とシステムの既得単語を表現する音響パタ
ーンとを比較している。大語彙システムでは、システム
の既得単語それぞれに対する単語モデルを蓄積しておく
のは現実的ではない。そこで、その代わりに、参照パタ
ーンを所与の言語の音素とすることが多い。この方法で
は、入力音声は音素パターンと比較され、入力音声を表
現する音素系列が生成される。次いで、単語デコーダを
用いて、音素系列に合致する単語候補が選ばれる。通
常、音素系列から単語へのデコード処理は、音素系列と
単語を表現する隠れマルコフモデルとを辞書を用いて比
較することでなされる。
【0003】本発明の目的は、認識エンジンから出力さ
れる音素系列を一つあるいは複数の単語にデコードする
別の方法を提供することである。
【0004】本発明は、1つあるいは複数の単語を入力
することによって認識システムから出力されるサブ単語
ユニット系列を、1つあるいは複数の単語として識別す
る装置であって、1つあるいは複数の認識対象単語を表
すサブ単語ユニットの認識結果系列を受信する受信手段
と、1つあるいは複数の対象単語を表す複数の辞書サブ
単語系列を受信する受信手段と、認識結果系列のサブ単
語ユニットと各辞書系列のサブ単語ユニットとを比較し
て比較結果セットを求める手段と、比較結果セットを用
いて1つあるいは複数の単語を識別する手段とを備える
装置を提示するものである。
【0005】以下、本発明の実施形態を添付図面を参照
しながら詳細に説明する。
【0006】本発明の実施形態は専用ハードウェア回路
を用いて実装され得るももの、以下の実施形態ではパー
ソナルコンピュータ上で動作するコンピュータソフトウ
ェアすなわちコードでもって実装されるものとしてい
る。なお、他の実施形態として、ワークステーション、
複写機、ファクシミリ、携帯情報端末(PDA)、ウェブブ
ラウザなどの上で動作するソフトウェアであっても良
い。
【0007】図1は、本発明の実施形態を実行できるプ
ログラムを具備しているパーソナルコンピュータ(P
C)1を示している。キーボード3、ポインティングデ
バイス5、マイクロフォン7、電話線9などがインタフ
ェース11を介してPC1に接続されている。キーボー
ド3やポインティングデバイス5により、ユーザはシス
テムを制御することができる。マイクロフォン7は、ユ
ーザの音声信号波形を電気信号に変換し、PC1におい
て電気信号が処理される。なお、遠隔コンピュータや遠
隔ユーザとの通信を行うために、電話線9には内部モデ
ムや音声受信回路(不図示)が接続されることもある。
【0008】本発明の実施形態を実行できるプログラム
は、磁気ディスク13などの記憶デバイスといった形で
提供されることもあるし、内部モデムや電話線9を介し
たインターネットなどを用いて遠隔コンピュータからソ
フトウェアをダウンロードするといった形で提供される
こともある。
【0009】PC1に実装される音声認識システム14
の動作を、図2を用いて詳細に説明する。マイクロフォ
ン7からのユーザ入力音声を表現する電気信号は、プレ
プロセッサ15において、パラメータフレーム系列に変
換される。ここで、パラメータフレームとは、入力音声
信号を一定時間で区切った時間フレームのことである。
プレプロセッサ15から出力されたパラメータフレーム
系列は、音声認識エンジン17において、音素モデル1
9と比較処理され、入力信号を表現する音素系列が生成
される。次いで、音素系列は単語デコーダ21に入力さ
れ、単語辞書23に記憶されている種々の単語の音素系
列との比較処理が行われ、単語の認識が行われる。
【0010】すなわち、単語辞書23には音声認識シス
テムの対象単語それぞれに対する音素系列が格納されて
いる。本実施形態では、単語デコーダ21はまず単語辞
書に対して命令信号29を送出し、単語辞書23中の音
素系列のサブセットを単語デコーダ21にダウンロード
30をするよう要求する。ここで、音素系列のサブセッ
トは、単語辞書23中のすべての単語が表現されるよう
に選択されている。次いで、単語デコーダ21は、音声
認識エンジン17を用いて、生成された音素系列出力の
先頭と選択された音素系列の先頭とを比較し、評価点を
求める。この評価点に基づいて、評価点の高い単語種別
と評価点の低い単語種別とが識別される。そこで、単語
デコーダ21は、評価点の低い音素系列を削除するとと
もに、新たな命令信号29を単語辞書23に送信し、評
価点の高い音素系列に音響的に類似の単語を単語デコー
ダ21にダウンロードするように要求する。そして、単
語デコーダ21に新たに保持された関連音素系列のすべ
てと入力音素系列との比較が行われ、N個の評価点の高
い単語の出力25がされる。出力された単語は、PC1
においてPC1上で動作しているソフトウェアアプリケ
ーションを制御するために用いられたり、PC1上で動
作しているワードプロセッシングプログラムにテキスト
として挿入するために用いられる。
【0011】単語デコーダ 図3は、上述の単語デコーダ21の構成要素を詳細に示
した図である。図示のように、音声認識エンジン17か
ら出力される音素系列を受信するメモリ41が含まれ
る。音素系列は整合ユニット43に送られる。本実施形
態の整合ユニット43では、動的計画法整合手法を用い
て、メモリ47に保持されている単語辞書23からの複
数の音素系列と入力音素系列との比較が行われる。本実
施形態の整合ユニット43では、入力音素系列と辞書系
列との比較と整合とは独立かつ同時に行われる。この整
合処理では、各整合結果についての評価点は評価点分析
ユニット45に入力され、評価点分析ユニット45にお
いて評価点の分析が行われて評価点の高い辞書系列と評
価点の低い辞書系列とが決定される。それに応じて、分
析ユニット45は単語辞書23に対して第一の制御信号
29を送信し、評価点の高い単語に類似の新たな単語の
音素系列をメモリ47にダウンロードする。
【0012】また、分析ユニットは第二の制御信号31
をメモリ47に送信し、評価点の低い辞書系列を削除す
る。このようにして、評価点分析ユニット45は、動的
計画法整合ユニット43でもって整合処理がなされた音
響系列の数を動的に制御することができる。これによ
り、単語辞書中の音素系列の初期サブセットがメモリ4
7にダウンロードされ、新たな入力音素系列との比較が
行われることになり、本実施形態では、辞書音素系列の
初期セットは、辞書23における種々の単語音を代表す
るものとなる。ここで、初期セットは、例えば、辞書2
3中の単語をクラスタリングして、類似の単語音をクラ
スタ化することなどによって作成される。次いで、比較
処理において、各クラスタ中の単語の一つがメモリ47
にダウンロードされ、入力音素系列と比較される。
【0013】入力音素系列と選択されたすべての辞書系
列との比較がなされた後で、評価点分析ユニット45は
選択された辞書系列との評価点を再度分析し、最も高い
評価点を有する辞書音素系列を決定する。最も高い評価
点を有する辞書系列に対応する単語は、入力音素系列を
表す単語として評価点分析ユニット45から出力25さ
れる。本実施形態では、評価点分析ユニット45は、N
個の評価点の高い辞書系列をランク付けするとともに、
これらもあわせて出力する。
【0014】ところで、辞書音素系列がマニュアルで作
成されたものであれば、これらを正しいと考えることが
できる。しかしながら、音声認識エンジン17は発話を
完全にデコードすることはできないため、入力音素系列
には辞書系列に対して挿入や欠落が含まれることにな
る。また、入力音素系列には辞書系列に対してデコード
誤りも存在し得る。当業者には認識されているであろう
が、現在の多くの音声認識システムはマニュアルで生成
された単語辞書を用いている。しかしながら、辞書音素
系列が発話単語から生成されるような辞書が出てきつつ
ある。また、マニュアルで生成された音素系列とともに
音声認識システムで生成された音素系列をも用いる混合
辞書も出てきている。このような場合には、入力音素系
列と辞書系列の双方において、実際に発声されたテキス
トを表す未知の基準音素系列に対して挿入、欠落、デコ
ード誤りが発生し得ることとなる。
【0015】図4は、辞書単語を表す辞書音素系列(ラ
ベルd1 i, d1 i+1, d1 i+2...)、入力音素系列(ラベルd2
j, d2 j+1, d2 j+2...)、辞書系列や入力系列と最適にマ
ッチングされるテキストの基準音素系列を表す音素系列
(ラベルpn, pn+1, pn+2...)間でのマッチングを示し
たものである。図4に示すように、動的計画法整合ユニ
ット43は、入力音素系列と辞書音素系列における基準
音素系列に対する音素の挿入(d1 i+3, d2 j+1などで表さ
れる挿入音素)や、音素の欠落(d1 i+1, d2 j+2などの基
準音素系列中の2つの音素に対して整合される欠落音
素)に対処できなければならない。
【0016】本実施形態においては、辞書単語がマニュ
アルで生成された場合と音声から生成された場合とで、
異なる評価点判定技術を用いる。ここで、辞書種類情報
は、動的計画法整合ユニット43に送られる各辞書系列
のラベルに付与されている。
【0017】(DP整合の概要)音声処理の当業者であ
れば既知であるように、動的計画法は、本実施形態では
音素系列となる特徴系列間で最適な整合を求めるために
用いられる技術である。本実施形態では、動的計画法整
合ユニット43は入力系列と辞書系列との間の最適整合
を計算する。ここで、最適整合の計算は、入力系列から
の音素系列と辞書系列からの音素系列との間での整合可
能性を示す複数の動的計画法のパスを同時に伝搬させる
ことで行われる。すべてのパスは、整合する2つの音素
系列の始点に位置する始点空ノードから始まり、整合す
る2つの音素系列の終点に位置する終点空ノードまで伝
搬される。
【0018】図5と図6は、実行される整合処理とパス
の伝搬とを模式的に示したものである。具体的には、図
5は、辞書音素系列を示す水平軸と入力音素系列を示す
垂直軸とからなる直交座標プロットを示している。始点
空ノードφsは左上角、終点空ノードφeは右下角に位置
する。また、図6において、辞書系列音素は水平軸に、
入力系列音素は垂直軸に示されている。図6の格子点
は、入力音素系列と辞書音素系列の音素間での整合可能
性を表したものである。例えば、格子点21は辞書系列
音素d1 3と入力系列音素d2 1との間での整合を示す。ま
た、図6にはm1,m2, m3といった3つの動的計画法のパ
スも示されている。これらは、入力音素系列と辞書音素
系列との間での3つの整合可能性を示しており、始点空
ノードφsから始まり、終点空ノードφeに向かって格子
点を伝搬している。
【0019】入力音素系列と辞書音素系列との間での最
適な整合を求めるために、動的計画法整合ユニット43
は伝搬している動的計画法のパスそれぞれの評価点を計
算している。ここで、評価点は、パスに沿って整合した
ときの全体的な類似性に基づいて計算される。また、整
合する系列中での音素の欠落や挿入の数に少なく抑える
ために、動的計画法プロセスは動的計画法のパスの伝搬
の仕方に制限を設けている。当業者であれば理解できる
ように、ここで用いる動的計画法の制限は辞書音素系列
の生成方法に依存するものとなる。
【0020】DP制約 (マニュアルで生成された辞書音素系列)マニュアルで
生成された辞書音素系列を用いる場合には、辞書音素系
列には音素の欠落や挿入はないものの、入力音素系列に
おいては辞書音素系列に対して音素の欠落や挿入が起こ
り得る。図7aは、このような場合に本実施形態で用い
る動的計画法の制限である。図示されているように、動
的計画法のパスが辞書音素d1 iと入力音素d2 jとの間での
整合を示す格子点(i,j)で終端している場合、動的計画
法のパスは格子点(i+1,j), (i+1,j+1), (i+1,j+2), (i+
1,j+3)のどれかに伝搬することになる。ここで、格子点
(i+1,j)への伝搬は、辞書系列に対して入力系列の音素
の欠落が生じたことを示す。格子点(i+1,j+1)への伝搬
は、次の入力音素と次の辞書音素とが単純デコードされ
たことを示す。格子点(i+1,j+2)への伝搬は、辞書系列
に対して入力系列の音素d2 j+1の挿入が生じ、辞書音素d
1 i+1と入力音素d2 j+1とがデコードなされたことを示
す。格子点(i+1,j+3)への伝搬は、辞書系列に対して入
力系列の2つの音素(d2 j+1とd2 j+2)の挿入が生じ、辞
書音素d1 i+1と入力音素d2 j+3とがデコードなされたこと
を示す。
【0021】(音声から生成された辞書系列)音声から
生成された辞書系列を用いる場合には、辞書系列ならび
に音素系列双方において音素の挿入あるいは欠落が生じ
る。図7bは、このような場合に本実施形態で用いる動
的計画法の制限である。すなわち、動的計画法のパスが
辞書音素d1 iと入力音素d2 jとの間での整合を示す格子点
(i,j)で終端している場合、動的計画法のパスは格子点
(i+1,j), (i+2,j), (i+3,j), (i,j+1), (i+1,j+1), (i+
2,j+1), (i,j+2), (i+1,j+2), (i,j+3) のどれかに伝搬
することになる。このような伝搬制約を設けることで、
実際に発声されたテキストの未知の基準音素系列に対す
る入力音素系列ならびに辞書音素系列における音素の挿
入や欠落に対処することが可能となる。
【0022】DP評価点伝搬 上述のように、動的計画法整合ユニット43は、動的計
画法のパスそれぞれについてパスに沿って整合したとき
の音素の類似性に基づいて計算される評価点を計算して
いる。すなわち、格子点(i,j)で終端されたパスを他の
点に伝搬させる場合、動的計画法プロセスはこの際の伝
搬「コスト」を、格子点(i,j)で終端されたパスの積算
評価点に追加する。ここで、積算評価点は、格子点(i,
j)において(SCORE(i,j))として保持されている。本実施
形態では、このコストは、音素が挿入される挿入確率
や、欠落が起こる欠落確率や、入力音素系列からの音素
と辞書音素系列からの音素との間での新しい整合が起こ
るデコード確率などに依存する。すなわち、挿入が生じ
た際には積算評価点にある音素の挿入確率を掛け合わ
せ、欠落が生じた際には積算評価点に音素の欠落確率を
掛け合わせ、デコードされた際には積算評価点に2つの
音素のデコード確率が掛け合わされる。
【0023】これらの確率を計算するために、システム
はすべての可能性のある音素組み合わせに対する確率を
メモリ47に保持しておく。本実施形態では、第一ある
いは第二の音素系列からの音素の欠落は、デコードと同
様に処理する。これは、欠落された音素を単に新たな音
素として処理することでなされる。すなわち、システム
が43個の音素を対象としている場合には、可能性のあ
る音素のデコードならびに欠落に対して、1832(=
43×44)個のデコード/欠落確率をシステムが保持
することになる。図8は、音素/ax/に対して保持されて
いる可能性のある音素デコードを示したもので、欠落音
素(φ)が一つの確率として示されている。当業者であ
れば理解できるように、ある音素に対するデコード確率
の和は、他の確率が存在し得ないため1とならなければ
ならない。これらのデコード/欠落確率に加えて、可能
性のある音素の挿入に対して43個の挿入確率(PI
( ))がメモリ47に保持される。後述するように、こ
れらの確率はトレーニングデータを用いてあらかじめ決
定される。
【0024】上述のように、本実施形態では、整合ユニ
ット43は辞書系列の作成方法に応じて異なる評価点計
算手法を用いる。すなわち、マニュアルで辞書系列を作
成した場合には、辞書音素は正しいと想定し、システム
は入力音素系列からの音素(d2 j)を第一音素系列から
の音素(d1 i)としてデコードする確率を
【0025】
【数3】 として求める。ここで、デコード確率は、メモリ47に
保持されている適切な確率をルックアップすることで求
められる。一方、音声から辞書音素系列を生成した場合
には、整合ユニット43は、入力音素系列からの音素
(d2 j)を辞書音素系列からの音素(d1 i)としてデコー
ドする確率を、音素pを辞書音素d1 iならびに入力音素d2
jとしてデコードする確率を音素pの生起確率で重み付け
したものを、すべての可能性のある音素pに対して和を
とった
【0026】
【数4】 として求める。ここで、Npはシステムが対象とする音素
の数、P(d1 i|pr)は音素p rを辞書音素d1 iとしてデコード
する確率、P(d2 j|pr)は音素prを入力音素d2 jとしてデコ
ードする確率、P(pr)は音素prの生起確率である。
【0027】評価点の伝搬を説明するために、いくつか
の例を説明する。辞書系列がマニュアルで作成された場
合であって、パスが格子点(i,j)から(i+1,j+2)に伝搬し
た場合には、入力音素d2 j+1が辞書音素系列に対して挿
入されるとともに、入力音素d 2 j+2は辞書音素d1 i+1とし
てデコードされる。すなわち、格子点(i+1,j+2)に至る
伝搬の評価点は、
【0028】
【数5】 として与えられる。ここで、PI(d2 j+1)は入力音素d2 j+1
が挿入される確率、P(d2 j+2|d1 i+1)は辞書音素d1 i+1
入力音素d2 j+2としてデコードする確率である。
【0029】これに対し、辞書音素系列が音声から作成
された場合であって、パスが格子点(i,j)から(i+2,j+1)
に伝搬した場合には、辞書音素d1 i+1が入力音素系列に
対して挿入されるとともに、入力音素d2 j+1は辞書音素d
1 i+2としてデコードされる。すなわち、格子点(i+2,j+
1)に至る伝搬の評価点は、
【0030】
【数6】 として与えられる。
【0031】当業者であれば理解できるように、このパ
ス伝搬においては、複数のパスが同一の格子点で合流す
ることがあり得る。ここで、最適なパスを選択するため
に、各格子点において評価点の比較を行って、最も評価
点の高いパスのみを残し、他のパスは削除する。このよ
うな処理を経てパスが終端ノードに達すると、終端ノー
ドにたどり着いたパスの評価点が入力音素系列と辞書音
素系列との間での類似度を表すこととなる。上述のよう
に、評価点分析ユニット45は、ここで得られた評価点
と辞書音素系列それぞれとを比較し、入力音素系列に類
似のN個の辞書音素系列を決定する。これらの辞書音素
系列に対応した辞書単語が単語辞書から引き出されて出
力され、PC1で使用されることになる。
【0032】(DP整合の詳細な説明)入力系列を整合
し、辞書単語の一つと比較するような動的計画法整合ユ
ニット43の動作に関して、以下詳細に説明する。な
お、同様の整合ならびに比較処理は入力系列と他の辞書
系列との間でも行われることに注意されたい。まず、す
べてのノードにおける評価点を適切な初期値に設定す
る。次いで、整合ユニット43は、始点空ノード
(φs)から上述の動的計画法の制限で指定されるすべ
ての可能な始点へパスを伝搬させる。ここで、このパス
の評価点は、始点空ノードから始点までの伝搬に伴う遷
移評価点となる。このようにして伝播を開始したパス
は、第一ならびに第二の音素系列で指定される格子点配
列中を終点空ノード(φ e)に達するまで伝搬すること
になる。なお、整合ユニット43は格子点配列の処理を
列ごとにラスター処理的に行う。
【0033】ラスター処理動作で制御を行う制御アルゴ
リズムを図9に示す。図示のように、ステップs149にお
いて、システムは辞書音素系列ループポインタiと入力
音素ループポインタjとを0にセットする。続くステッ
プs151において、辞書音素系列ループポインタiと辞書
音素系列中の音素の数(Nseq1)とを比較する。開始時
点では辞書音素系列ループポインタiは0にセットされ
ているため、処理はステップs153に進み、入力音素系列
ループポインタjと入力音素系列のすべての音素数(Nse
q2)とを比較する。開始時点ではループポインタjは0
にセットされているため、処理はステップs155に進み、
格子点(i,j)で終端されるパスを上述の動的計画法の制
限を用いて伝搬させる。ステップs155における伝搬に関
する詳細は後述する。ステップs155に続いて、ステップ
s157でループポインタjを1増加(インクリメント)さ
せ、処理をステップs153に戻す。入力音素系列中のすべ
ての音素に対してこのようなループを繰り返すと、すな
わち格子点配列中の現在の列の処理を終えると、処理は
ステップs159に進み、ループポインタjを0にリセット
するとともにループポインタiを1増加させる。そし
て、処理はステップs151に戻り、格子点配列の次の列に
対して同様の処理を実行する。格子点配列の最後の列を
処理すると、ステップs161に進み、ループポインタiを
0にリセットして処理を終了する。
【0034】(伝搬)図9のステップs155では、格子点
(i,j)で終端されるパスを上述の動的計画法の制限を用
いて伝搬させる。図10は、この伝搬処理を実行する処
理ステップを示すフローチャートである。図示のよう
に、ステップs211において、システムは2つの変数mxi
とmxjの値をセットし、辞書音素系列ループポインタi2
と入力音素系列ループポインタj2とを初期化する。ここ
で、ループポインタi2とj2は、格子点(i,j)で終端され
るパスが伝搬するすべての格子点をループさせるために
用いられ、変数mxiとmxjは、i2とj2とが動的計画法の制
限にしたがう値のみとなるように制限するために用いら
れる。すなわち、iにmxhopsを加算した値が辞書音素系
列中の音素の数以下であれば、mxiはiにmxhopsを加算し
た値と設定される。ここで、mxhopsは動的計画法の制限
の中で最大の「ホップ」数よりも1大きい一定値であ
り、本実施形態では系列に沿って3つ先の音素までパス
がジャンプするためmxhopsの値は4となる。一方、iにm
xhopsを加算した値が辞書音素系列中の音素の数より大
きければ、mxiは辞書音素系列中の音素の数(Nseq1)に
設定される。同様に、jにmxhopsを加算した値が入力音
素系列中の音素の数以下であれば、mxjはjにmxhopsを加
算した値と設定され、そうでない場合にはmxjは入力音
素系列中の音素の数(Nseq2)に設定される。最後に、
ステップs211において、システムは辞書音素系列ループ
ポインタi2を辞書音素系列ループポインタiの現在の値
に設定するとともに、入力音素系列ループポインタj2を
入力音素系列ループポインタjの現在の値に設定する。
【0035】整合ユニット43において用いられる動的
計画法の制限は、辞書音素系列が音声から作成された場
合とマニュアルで作成された場合とでことなるが、この
判定をステップs213で行う。辞書単語が音声から作成さ
れた場合には、格子点(i,j)で終端された動的計画法の
パスは図7bに示した点のいずれかに伝搬することにな
るが、このような処理をステップs219からs235で行う。
すなわち、ステップs219では、辞書音素系列ループポイ
ンタi2と変数mxiとを比較する。ここで、ループポイン
タi2はiに、mxiはi+4に設定されているためステップs22
1に進む。ステップs221では入力音素系列ループポイン
タj2に対して同様の比較が行われる。そして、ステップ
s223において、パスが同一の格子点(i,j)に留まってい
るか否かの判定が、i2がiと等しいか否か、j2がjと等し
いか否かに基づいてなされる。同一の格子点に留まって
いた場合には、入力音素ループポインタj2を1増加させ
るステップs225に進む。
【0036】ステップs221に戻ると、1増加された値j2
とmxjとが比較される。j2がmxjよりも小さいと、ステッ
プs223を経てステップs227に進む。ここで、ステップs2
27は、双方の音素系列に沿ってのホップ数が大きくなり
すぎないようにするためのものである。すなわち、i2+j
2がi+j+mxhops以下である場合にのみパスを伝搬させる
もので、図7bに示した三角形内の格子点のみを対象と
するものである。この条件が満たされると、ステップs2
29に進み、格子点(i,j)から格子点(i2,j2)への遷移評価
点(TRANSCORE)を計算する。なお、本実施形態では、
遷移評価点ならびに積算評価点は確率で表現され、双方
の確率を乗算することで新たな積算評価点が得られる。
この際、高精度浮動小数点演算を避けるために、本実施
形態では遷移評価点ならびに積算評価点はログ確率で表
現する。すなわち、ステップs231において、システムは
遷移評価点と格子点(i,j)における積算評価点とを加算
し、一時評価点TEMPSCOREにコピーする。
【0037】上述のように、本実施形態では、2つ以上
の動的計画法のパスが同一格子点に達すると、それぞれ
のパスの積算評価点を比較し、最適なパス、すなわち大
きい評価点のパスのみを残す。すなわち、ステップs233
において、TEMPSCOREを既に格子点(i2,j2)における積算
評価点と比較し、大きい方の評価点をSCORE(i2,j2)に保
持する。そして、ステップs225に戻り、ループポインタ
j2を1加算してステップs221に戻る。第二音素系列ルー
プポインタj2がmxjの値に達すると、ステップs235に進
み、ループポインタj2を初期値jに再設定するととも
に、第一音素系列ループポインタi2を1加算する。そし
て、ステップs219に戻り、図7bに示す次の列の格子点
処理を開始する。格子点(i,j)から図7bに示したすべ
ての他の点までパスを伝搬させると、処理は終了する。
【0038】判定ステップs213において、辞書単語がマ
ニュアルで作成されたと判定された場合には、処理をス
テップs241からs251に進め、格子点(i,j)で終端された
パスを図7aで示した格子点に伝搬させる。すなわち、
ステップs241において、辞書音素ループポインタiが辞
書音素系列中の最後の音素であるか否かを判定する。最
後の音素である場合には、辞書音素系列において他の音
素は存在しないため処理を終了する。辞書音素ループポ
インタiがNdic-1より小さければ、ステップs243に進
み、入力音素ループポインタj2をmxjと比較する。当初j
2はmxjよりも小さいため、ステップs245に進み、格子点
(i,j)から格子点(i+1,j2)への遷移評価点(TRANSCORE)
を計算する。次いで、ステップs247においてこの遷移評
価点に格子点(i,j)で終端されたパスの積算評価点を加
算し、加算結果を一時評価点TEMPSCOREにコピーする。
続くステップs249では、TEMPSCOREを既に格子点(i+1,j
2)における積算評価点と比較し、大きい方の評価点をSC
ORE(i+1,j2)に保持する。そして、ステップs251に進
み、ループポインタj2を1加算してステップs243に戻
る。格子点(i,j)で終端されたパスを図7aで示す他のす
べての点まで伝搬させると、j2はmxjと等しくなり、格
子点(i,j)で終端されたパスの伝搬が終了する。 (遷
移評価点) ステップs229とs245においては、格子点(i,j)から他の
格子点(i2,j2)あるいは(i+1,j2)への遷移評価点が計算
される。この遷移評価点の計算は、遷移始点と遷移終点
とに関係する挿入確率、欠落確率、デコード確率に基づ
いて行われる。本実施形態での計算方法を図11と図1
2に示す。
【0039】図11は、格子点(i,j)から格子点(i2,j2)
へのパス伝搬における遷移評価点を計算する一般的な処
理ステップを示したフローチャートである。ステップs2
91において、格子点(i,j)と格子点(i2,j2)との間で挿入
された辞書系列音素ごとに、音素が挿入される評価点
(上述のPI( )のログ確率)を求め、これをINSERTSTORE
に加算する。次いで、ステップs293において、格子点
(i,j)と格子点(i2,j2)との間に挿入される入力系列音素
ごとに同様の計算を行い、これをINSERTSCOREに加算す
る。上述のように、計算された評価点はログベースの確
率であるため、INSERTSCOREへの加算は挿入確率を乗算
することと等価となる。続くステップs295では、格子点
(i,j)から格子点(i2,j2)への伝搬における欠落やデコー
ドに対する評価点を上式(1)にしたがって計算し、これ
らを加算してDELSCOREに保持する。ステップs297におい
て、INSERTCOREとDELSCOREとを加算し、結果をTRANSCOR
Eにコピーする。
【0040】図12は、ステップs295において格子点
(i,j)から格子点(i2,j2)への伝搬における欠落やデコー
ドに対する評価点を計算する処理を詳細に示した図であ
る。欠落やデコードは、辞書系列が音声から作成された
ものであるのか否かによって異なるため、まず判定ステ
ップs301でこの判定を行う。辞書系列が音声から作成さ
れていた場合には、図12bに示すステップs325に進
む。辞書系列がマニュアルで作成されていた場合には、
ステップs319において、入力音素ループポインタj2が入
力音素ループポインタjと等しいか否かの判定がなされ
る。等しい場合には、格子点(i,j)から格子点(i+1,j)へ
の遷移評価点を計算する。すなわち、辞書音素系列に比
して入力音素系列において辞書音素d1 i+1が欠落した場
合である。この場合には、ステップs321において、欠落
辞書音素d1 i+1のログ確率(logP(φ|d 1 i+1)を求め、DEL
SCOREにコピーし処理を終了する。ステップs319におい
て、入力音素ループポインタj2が入力音素ループポイン
タjと等しくないと判断された場合には、格子点(i,j)か
ら格子点(i+1,j+1), (i+1,j+2), (i+1,j+3)いずれかへ
の遷移評価点を計算する。すなわち、辞書音素d1 i+1
入力音素d2 j2との間で欠落が発生せず、挿入とデコード
が生じた場合である。この場合には、ステップs323にお
いて、辞書音素d1 i+1を入力音素d2 j2としてデコードす
るログ確率(logP(d2 j2|d1 i+1)を求め、DELSCOREにコピ
ーし処理を終了する。
【0041】ステップs301において、辞書音素系列が音
声から作成されたと判定された場合には、ステップs325
に進み、辞書音素系列ループポインタi2が辞書音素系列
ループポインタjと等しいかの判定がなされる。等しい
場合にはステップs327に進み、音素ループポインタrが
1に初期化される。ここで、音素ポインタrは、上式(2)
の計算においてシステムが対象とするすべての音素をル
ープさせるために用いられる。続くステップs329では、
音素ポインタrをシステムが対象とする音素の数Nphonem
es(本実施形態では43)と比較する。rは当初ステッ
プs327で1に設定されるので、ステップs331に進み、音
素prのログ発生確率(logP(pr))を求め、一時評価点TE
MPDELSCOREにコピーする。辞書音素系列ループポインタ
i2が辞書音素ループポインタiと等しい場合には、格子
点(i,j)で終端されるパスを格子点(i,j+1), (i,j+2),
(i,j+3)のいずれかの点に伝搬させる。すなわち、入力
音素系列に辞書音素系列に存在しない音素が存在する場
合である。したがって、ステップs333では、辞書音素系
列から音素prが欠落するログ確率(logP(φ|pr))をTEM
PDELSCOREに加算する。また、ステップs335では、音素p
rを入力系列音素d2 j2としてデコードするログ確率(log
P(d2 j2|pr))をTEMPDELSCOREに加算する。さらに、ステ
ップs337においてTEMPDELSCOREとDELSCOREとの「ログ加
算」がなされ、加算結果がDELSCOREに保持される。
【0042】本実施形態では、上式(2)に基づくデコー
ド確率の計算において確率の加算や乗算が必要となる。
この際、本実施形態では、ログ確率を用いているため、
「ログ加算」処理を行うにあたってはTEMPDELSCOREとDE
LSCOREとをログ確率から通常の確率に一旦変換した後、
加算して、再度ログ確率に変換するという処理が必要と
なる。なお、この「ログ加算」は音声処理では良く知ら
れた手法であり、例えばLee, Kai-Fu, "Automatic Spee
ch Recognition: The Development of the (Sphinx) Sy
stem," Kluwer Academic Publishers, 1989 という本の
ページ28と29に記されている。ステップs337に続い
て、ステップs339において音素ループポインタrに1を
加算した後、ステップs329に戻り、システムが対象とす
る次の音素に対して同様の処理を実行する。システムが
対象とする43個の音素に対しての処理を行うと、処理
が終了する。
【0043】一方、ステップs325においてi2とiとが異
なると判定されると、ステップs341において入力音素系
列ループポインタj2が入力音素系列ループポインタjと
等しいかの判定が行われる。j2とjとが等しい場合に
は、ステップs343において音素ループポインタrが1に
初期化される。続くステップs345では、音素ループポイ
ンタrをシステムが対象とするすべての音素の数Nphonem
esと比較する。rは当初ステップs343で1に設定される
ので、ステップs347に進み、音素prのログ発生確率を求
め、一時評価点TEMPDELSCOREにコピーする。続くステッ
プs349では、音素prを辞書音素d1 i2としてデコードする
ログ確率を求め、TEMPDELSCOREに加算する。入力音素系
列ループポインタj2がループポインタjと等しい場合に
は、格子点(i,j)で終端されるパスを格子点(i+1,j), (i
+2,j), (i+3,j)のいずれかの点に伝搬させる。すなわ
ち、辞書音素系列に入力音素系列に存在しない音素が存
在する場合である。したがって、ステップs351では、入
力音素系列から音素prが欠落するログ確率を求め、TEMP
DELSCOREに加算する。続くステップs353では、TEMPDELS
COREとDELSCOREとのログ加算を行い、加算結果をDELSCO
REに保持する。そして、ステップs355において音素ルー
プポインタrを1増加させ、ステップs345に戻る。ステ
ップs347からs353をシステムが対象とするすべての音素
に対して実行すると、処理は終了する。
【0044】ステップs341において入力音素系列ループ
ポインタj2が入力音素系列ループポインタjと異なると
判定されると、ステップs357において音素ループポイン
タrが1に初期化される。続くステップs359では、音素
カウンタrをシステムが対象とするすべての音素の数Nph
onemesと比較する。rは当初ステップs357で1に設定さ
れるので、ステップs361に進み、音素prのログ発生確率
を求め、一時評価点TEMPDELSCOREにコピーする。ループ
ポインタj2がループポインタjと異なる場合には、格子
点(i,j)で終端されるパスを格子点(i+1,j+1), (i+1,j+
2), (i+2,j+1)のいずれかの点に伝搬させる。すなわ
ち、欠落は発生せず、挿入とデコードが生じた場合であ
る。したがって、ステップs363では、音素prを辞書音素
d1 i2としてデコードするログ確率をTEMPDELSCOREに加算
する。また、ステップs365では、音素prを入力音素d2 j2
としてデコードするログ確率を求めTEMPDELSCOREに加算
する。続くステップs367では、TEMPDELSCOREとDELSCORE
とのログ加算を行い、加算結果をDELSCOREに保持する。
そして、ステップs369において音素カウンタrを1増加
させ、ステップs359に戻る。ステップs361からs367をシ
ステムが対象とするすべての音素に対して実行すると、
処理は終了する。
【0045】トレーニング 上記実施形態では、動的計画法整合ユニット78は、音
素整合処理における動的計画法のパスの評価点を計算す
るために、1892個のデコード/欠落確率と43個の
挿入確率を用いる。本実施形態では、これらの確率は、
あらかじめトレーニングセッションにおいて決定され、
メモリ47に記憶しておく。すなわち、トレーニングセ
ッションにおいて、音声認識システムを用いて音声の音
素デコードを2種類の方法で実行する。第一の方法で
は、音声と発話された単語とを音声認識システムに入力
する。音声認識システムは、これらの情報を用いて発話
単語の基準音素系列を生成し、音声の理想的なデコード
を求める。次に、今度は発話された単語の知識を用いず
に、同一の音声を音声認識システムでデコードする(以
下、これを無条件デコードと呼ぶ)。この際、無条件デ
コードから生成された音素系列は、基準音素系列と以下
の点で異なることになる。 i)無条件デコードには誤りが生じえる。すなわち、基
準系列に存在しない音素がデコードに挿入されたり、基
準系列に存在する音素がデコードから欠落したりするこ
とがあり得る。 ii)ある音素が別の音素と取り違えられることがあり得
る。 iii)音声認識システムが音声を完全にデコードしたと
しても、会話発音と基準発音との差異から無条件デコー
ドが異なることがあり得る。例えば、単語"and"の基準
形式は/ae/ /n/ /d/ と/ax/ /n/ /d/ となるが、会話音
声では/ax/ /n/あるいは /n/ となることがしばしばあ
り得る。
【0046】したがって、多数の発話を基準形式ならび
に無条件デコード形式にデコードするにあたっては、2
つの整合をとるために上記と同様な動的計画法手法を用
いることができる。これにより、基準音素がpであった
ときにdとデコードされた回数が得られ、このようなト
レーニング結果を用いて、上述のデコード確率、欠落確
率、挿入確率を下記のように近似することが可能とな
る。音素dが挿入される確率は、
【0047】
【数7】 となる。ここで、Idは自動音声認識システムが音素dを
挿入した回数、no dは基準系列に対して挿入されたデコ
ード音素の全体数である。
【0048】音素pを音素dとしてデコードする確率は、
【0049】
【数8】 となる。ここで、cdpは自動音声認識システムがpとデコ
ードされるべき音素をdとデコードした回数、npは自動
音声認識システムがpとデコードされるべき音素を欠落
をも含めたいかなる音素のいずれかにデコードした回数
である。pとデコードされるべき音素がいずれかの音素
にもデコードされない確率、すなわち欠落確率は、
【0050】
【数9】 となる。ここで、Opは自動音声認識システムがpとデコ
ードされるべき音素をいずれかの音素にもデコードしな
かった回数、npは上と同様である。
【0051】他の実施形態 今まで「音素」という言葉を用いてきたが、本発明はこ
の言語学的意味に限定されるものではなく、標準の音声
認識システムにおいて用いられる識別可能な別のサブ単
語ユニットにも適用できることが、当業者であれば理解
されよう。すなわち、「音素」という言葉は、音韻、音
節、片仮名(日本語のアルファベット)などのようなサ
ブ単語ユニットをも意味する。
【0052】また、音素系列を動的計画法整合する上記
説明は例として示したものであり、種々の修正を施すこ
とが可能であることは当業者であれば理解されよう。例
えば、パスを格子点上で伝搬させるためにラスタースキ
ャン処理を用いたが、パスを格子点上で漸進的に伝搬さ
せるような手法を用いることも可能である。さらに、上
述の動的計画法の制限以外の制約を用いてマッチング処
理を制御することも可能であることは、当業者であれば
理解できよう。
【0053】上記実施形態では、音声から辞書音素が作
成された場合、式(2)を用いて動的計画法整合ユニット
における遷移のデコード評価点計算を行っている。これ
に対して、式(2)のようにシステムが対象とするすべて
の音素を加算するのではなく、加算する確率項それぞれ
の最大値を求め、この最大値を入力系列中の音素のデコ
ード確率とすることで、未知の音素pを識別する動的計
画法整合ユニットを考えることもできる。
【0054】また、上記実施形態では、音声認識システ
ムの統計量から確率を最尤推定して、挿入、欠落、デコ
ード確率を求めている。これに対して、最大エントロピ
ー法を用いてこれらの確率を推定することもできること
は当業者であれば理解できよう。なお、適切な最大エン
トロピー法の詳細は、John Skilling, "Maximum Entrop
y and Bayesian Methods", Kluwer Academic Publisher
s という本のページ45から52に記されており、参照
されたい。
【0055】さらに、上記実施形態では、音声認識エン
ジンから出力された音素系列とそれぞれの辞書音素系列
とを動的計画法アルゴリズムを用いて整合している。こ
こで、他の整合手法を用いることが可能であることは、
当業者であれば理解できよう。例えば、すべての可能な
整合を試してみる素朴な方法を用いることもできる。し
かし、動的計画法は、標準的な処理プロセッサを用いて
容易に実装できるという点で優れている。また、上述の
実施形態における動的計画法では、音素の入力系列間で
の「最適な」整合を求めていたが、いくつかのアプリケ
ーションでは必ずしも最適な整合を求める必要はない。
すなわち、第二、第三、第四番目に最適な整合を用いる
ことができる場合がある。
【0056】また、上述の実施形態における動的計画法
アルゴリズムでは、辞書系列が音声から作成された場
合、整合する音素ペアごとに式(2)を計算している。す
なわち、式(2)の計算では、辞書系列音素と入力系列音
素とをシステムが対象とする音素それぞれと比較してい
る。しかし、ある辞書系列音素と入力系列音素とのペア
に対しては、式(2)で与えられる確率の多くが等しい、
もしくは0に近くなることが、当業者であれば理解でき
よう。したがって、すべての対象音素中の一部に対して
のみ整合する音素との比較を行う別の実施形態を考える
こともできる。なお、対象音素のうちの一部は、トレー
ニングデータを用いてあらかじめ決定される。このよう
な実施形態においては、整合する入力音素を用いてルッ
クアップテーブルを参照し、式(2)を用いて比較対象の
音素を決定することになる。
【0057】さらに、上述の実施形態では、認識する入
力音素系列と辞書音素系列の双方に対して、同一の音素
混同(取り違え)確率を適用している。ここで、音素混
同確率は、音素系列を生成するために用いる認識システ
ムに依存するため、異なる認識システムを用いる場合に
は、それぞれ異なる音素混同確率を用いなければならな
いことは、当業者であれば理解できよう。
【0058】以上、種々の実施形態や修正を記したが、
当業者であれば明らかであるような他の実施形態や修正
もあり得ることは、当業者であれば理解できよう。
【図面の簡単な説明】
【図1】本発明の実施形態を処理するようにプログラム
されたコンピュータの模式図である。
【図2】本発明を実現する音声認識システムの概要を示
すブロック図である。
【図3】図2で示した音声認識システムの一部となるワ
ードデコーダの主要素を示すもブロック図である。
【図4】辞書単語を示す第一音素系列、図2の音声認識
エンジンから出力される発話単語を示す第二音素系列、
第一ならびに第二音素系列を最も良く表現する第三音素
系列を示し、第一ならびに第二音素系列において第三音
素系列に対して音素の挿入や欠落が生じ得ることを示し
ている。
【図5】辞書単語と発話単語の音素系列からなる探索空
間を、始点空ノードと終点空ノードとともに模式的に示
した図である。
【図6】水平軸が辞書単語音素、垂直軸が発話音素であ
る2次元座標プロットであり、辞書単語音素と発話音素
との間での可能なマッチングを示す複数の格子点を示し
ている。
【図7a】辞書音素系列がマニュアルで作成された場合
に、図3に示した単語デコーダの一部の動的計画法整合
ユニットで用いられる動的計画法の制限を模式的に示し
た図である。
【図7b】辞書音素系列が発話から作成された場合に、
図3に示した単語デコーダの一部の動的計画法整合ユニ
ットで用いられる動的計画法の制限を模式的に示した図
である。
【図8】音素列に対して格納されている欠落確率とデコ
ード確率とを示したもので、これらの確率は、図3に示
した整合ユニットで実行される動的計画法整合処理中の
適合性決定処理において用いられる。
【図9】図3の動的計画法整合ユニットにおいて実行さ
れる主処理ステップを示すフローチャートである。
【図10】始点空ノードから終点空ノードまで動的計画
法のパスを伝搬させるために用いられる主処理ステップ
を示すフローチャートである。
【図11】動的計画法整合処理におけるパス伝搬におい
て遷移評価点を計算する処理ステップを示すフローチャ
ートである。
【図12a】第一ならびに第二音素系列において単語候
補に対して欠落やデコードが生じる評価点を計算する処
理ステップの第一の部分を示すフローチャートである。
【図12b】第一ならびに第二音素系列において単語候
補に対して欠落やデコードが生じる評価点を計算する処
理ステップの第二の部分を示すフローチャートである。
フロントページの続き (72)発明者 ジェイソン ピーター アンドリュー チ ャールズワース イギリス国 アールジー12 2エックスエ イチ, バークシャー, ブラックネル, ロンドン ロード, ザ ブラカンズ キヤノン リサーチ センター ヨーロッ パ リミテッド 内 Fターム(参考) 5D015 HH05 HH08

Claims (36)

    【特許請求の範囲】
  1. 【請求項1】 1つあるいは複数の単語の音声入力に対
    して認識システムから出力されるサブ単語ユニット系列
    に対応する1つあるいは複数の単語を識別する装置であ
    って、 1つあるいは複数の認識対象単語を表す、認識結果系列
    であるサブ単語ユニット系列を受信する第一の受信手段
    と、 1つあるいは複数の既得単語をそれぞれが表している複
    数の辞書サブ単語系列を受信する第二の受信手段と、 認識結果系列のサブ単語ユニットと各辞書系列のサブ単
    語ユニットとを比較して、比較結果のセットを求める手
    段と、 認識結果系列のサブ単語ユニットと同一辞書単語のサブ
    単語ユニットとの比較から得られた比較結果を集計し
    て、辞書単語ごとに認識結果系列と辞書系列との間の類
    似性を計算する手段と、 すべての辞書系列に対する集計手段から得られる類似性
    を用いて前記1つあるいは複数の単語を識別する手段と
    を備えることを特徴とする装置。
  2. 【請求項2】 前記比較手段は認識結果系列と複数の辞
    書系列との比較を同時に行うことを特徴とする請求項第
    1項記載の装置。
  3. 【請求項3】 前記比較手段は、 認識結果系列のサブ単語ユニットと現在の辞書系列のサ
    ブ単語ユニットとを整合させ、サブ単語ユニット間での
    複数の整合ペアを生成する手段と、 各整合ペアのサブ単語ユニットを比較し、整合ペアのサ
    ブ単語ユニット間での類似性を表す評価点を計算するサ
    ブ単語比較器とを備え、 前記集計手段は、現在の辞書系列に対して、サブ単語ユ
    ニットのすべての整合ペアに対する評価点を集計し、認
    識結果系列と現在の辞書系列との間の前記類似度を求め
    ることを特徴とする請求項第1項あるいは第2項記載の
    装置。
  4. 【請求項4】 前記サブ単語ユニット比較器は、 整合ペアの認識結果系列サブ単語ユニットと、所定サブ
    単語ユニットのセット中の複数のサブ単語ユニットとの
    比較を整合ペアごとに行い、認識結果系列サブ単語ユニ
    ットと前記セット中のそれぞれのサブ単語ユニットとの
    類似性を表す複数の評価点を求める第一比較手段と、 整合ペアの辞書系列サブユニットと、前記セット中の複
    数のサブ単語ユニットとの比較を整合ペアごとに行い、
    前記辞書系列サブ単語ユニットと前記セット中の対応サ
    ブ単語ユニットとの類似性を表す複数の評価点を求める
    第二比較手段と、 整合ペアの認識結果系列サブ単語ユニットならびに辞書
    系列サブ単語ユニットを前記セット中の同一サブユニッ
    トと比較して得られた評価点を集計して、整合ペアごと
    に複数の集計評価点を求める手段と、 サブ単語ユニットの整合ペア間での類似性を表す前記評
    価点を、前記整合ペアの複数の中間評価点に基づいて決
    定する手段とを備えることを特徴とする請求項第3項記
    載の装置。
  5. 【請求項5】 前記第一ならびに第二比較手段は、認識
    結果系列サブ単語ユニットと辞書系列サブ単語ユニット
    それぞれをサブ単語ユニットセット中のサブ単語ユニッ
    トと比較することを特徴とする請求項第4項記載の装
    置。
  6. 【請求項6】 前記第一ならびに第二比較手段は、所定
    サブ単語ユニットセット中のサブ単語を整合ペアのサブ
    単語ユニットと取り違える確率を示す中間評価点を求め
    ることを特徴とする請求項第4項あるいは第5項記載の
    装置。
  7. 【請求項7】 前記集計手段は、セット中のサブ単語ユ
    ニットを整合ペアのサブ単語ユニットと取り違える確率
    を乗算するために、評価点を集計することを特徴とする
    請求項第6項記載の装置。
  8. 【請求項8】 前記所定サブ単語ユニットセット中の前
    記サブ単語ユニットは、サブ単語ユニット系列において
    所定の生起確率を有し、前記集計手段は、集計評価点を
    求めるために使われるセット中のサブ単語ユニットの生
    起確率に基づいて前記集計評価点を重み付けすることを
    特徴とする請求項第7項記載の装置。
  9. 【請求項9】 前記集計手段は、d1 iとd2 jをそれぞれ辞
    書系列サブ単語ユニットならびに認識結果系列サブ単語
    ユニットの整合ペアとし、P(d2 j|pr)を、セット中のサ
    ブ単語ユニットprを認識結果系列サブ単語ユニットd2 j
    と取り違える確率を示す、前記第一比較手段から出力さ
    れる中間評価点とし、P(d1 i|pr)を、セット中のサブ単
    語ユニットprを辞書系列サブ単語ユニットd1 iと取り違
    える確率を示す、前記第二比較手段から出力される評価
    点とし、P(pr)をセット中のサブ単語ユニットprがサブ
    単語ユニット系列で発生する確率を示す重みとしたと
    き、 【数1】 を計算することで前記中間評価点を集計することができ
    ことを特徴とする請求項第8項記載の装置。
  10. 【請求項10】 認識結果系列サブ単語ユニットならび
    に辞書系列サブ単語ユニットの判断確率は、あらかじめ
    決められ、対応サブ単語ユニット系列を生成するために
    用いられた認識システムに基づくものであることを特徴
    とする請求項第9項記載の装置。
  11. 【請求項11】 前記中間評価点はログ確率であって、
    前記集計手段は前記確率の乗算を中間評価点の加算で行
    うことを特徴とする請求項第7項から第10項のいずれ
    かに記載の装置。
  12. 【請求項12】 前記比較手段は複数の異なる比較処理
    モードを有し、 現在の辞書系列サブ単語ユニットが音声入力から生成さ
    れたものであるか、テキスト入力から生成されたもので
    あるかを判断し、判断結果を出力する手段と、 現在の辞書サブ単語系列に対して、前記判断結果に基づ
    いて前記比較手段の処理モードを選択する手段とをさら
    に備えることを特徴とする請求項第1項から第11項の
    いずれかに記載の装置。
  13. 【請求項13】 前記辞書ならびに認識結果系列サブ単
    語ユニットにおけるサブ単語ユニットは前記所定サブ単
    語ユニットセットに含まれ、前記第一ならびに第二比較
    手段は、前記セット中のサブ単語ユニットをお互いに関
    連づける所定データを用いて前記評価点を求めることを
    特徴とする請求項第4項から第12項のいずれかに記載
    の装置。
  14. 【請求項14】 前記所定データは、サブ単語ユニット
    セット中の各サブ単語ユニットについて、サブ単語ユニ
    ットをサブ単語ユニットセット中のほかのサブ単語ユニ
    ットと取り違える確率を含むことを特徴とする請求項第
    13項記載の装置。
  15. 【請求項15】 前記整合手段は、動的計画法技術を用
    いて前記辞書系列サブ単語ユニットと認識結果系列サブ
    単語ユニットとを整合する動的計画手段であることを特
    徴とする請求項第1項から第14項のいずれかに記載の
    装置。
  16. 【請求項16】 前記サブ単語ユニットは音素であるこ
    とを特徴とする請求項第1項から第14項のいずれかに
    記載の装置。
  17. 【請求項17】 認識対象の音声信号を受信する手段
    と、 サブ単語ユニットモデルを記憶する手段と、 受信音声信号をサブ単語ユニットモデルと比較し、受信
    音声信号を表す1つあるいは複数のサブ単語ユニット系
    列を生成する手段と、 サブ単語ユニット系列を単語に関連付ける単語辞書と、 前記比較手段から出力された1つあるいは複数のサブ単
    語ユニット系列を単語辞書を用いて処理し、受信音声信
    号に対応する1つあるいは複数の単語を生成する単語デ
    コーダとを備え、 前記単語デコーダは請求項第1項から第16項のいずれ
    かに記載の装置からなることを特徴とする音声認識シス
    テム。
  18. 【請求項18】 1つあるいは複数の単語の音声入力に
    対して認識システムから出力されるサブ単語ユニット系
    列に対応する1つあるいは複数の単語を識別する方法で
    あって、 1つあるいは複数の認識対象単語を表す、認識結果系列
    であるサブ単語ユニット系列を受信する第一の受信ステ
    ップと、 1つあるいは複数の既得単語をそれぞれが表している複
    数の辞書サブ単語系列を受信する第二の受信ステップ
    と、 認識結果系列のサブ単語ユニットと各辞書系列のサブ単
    語ユニットとを比較して、比較結果セットを求めるステ
    ップと、 認識結果系列のサブ単語ユニットと同一辞書単語のサブ
    単語ユニットとの比較から得られた比較結果を集計し
    て、辞書単語ごとに認識結果系列と辞書系列との間の類
    似性を計算するステップと、 すべての辞書系列に対する集計手段から得られる類似性
    を用いて前記1つあるいは複数の単語を識別するステッ
    プとから構成されることを特徴とする方法。
  19. 【請求項19】 前記比較ステップは認識結果系列と複
    数の辞書系列との比較を同時に行うことを特徴とする請
    求項第18項記載の方法。
  20. 【請求項20】 前記比較ステップは、 認識結果系列のサブ単語ユニットと現在の辞書系列のサ
    ブ単語ユニットとを整合させ、サブ単語ユニット間での
    複数の整合ペアを生成するステップと、 各整合ペアのサブ単語ユニットを比較し、整合ペアのサ
    ブ単語ユニット間での類似性を表す評価点を計算するサ
    ブ単語比較ステップとから構成され、 前記集計手段は、現在の辞書系列に対して、サブ単語ユ
    ニットのすべての整合ペアに対する評価点を集計し、認
    識結果系列と現在の辞書系列との間の前記類似度を求め
    ることを特徴とする請求項第18項あるいは第19項記
    載の方法。
  21. 【請求項21】 前記サブ単語ユニット比較ステップ
    は、 整合ペアの認識結果系列サブ単語ユニットと、所定サブ
    単語ユニットセット中の複数のサブ単語ユニットとの比
    較を整合ペアごとに行い、認識結果系列サブ単語ユニッ
    トと前記セット中のそれぞれのサブ単語ユニットとの類
    似性を表す複数の評価点を求める第一比較ステップと、 整合ペアの辞書系列サブユニットと、前記セット中の複
    数のサブ単語ユニットとの比較を整合ペアごとに行い、
    前記辞書系列サブ単語ユニットとセット中の対応サブ単
    語ユニットとの類似性を表す複数の評価点を求める第二
    比較ステップと、 整合ペアの認識結果系列サブ単語ユニットならびに辞書
    系列サブ単語ユニットをセット中の同一サブユニットと
    比較して得られた評価点を集計して、整合ペアごとに複
    数の集計評価点を求めるステップと、 サブ単語ユニットの整合ペア間での類似性を表す前記評
    価点を、前記整合ペアの複数の中間評価点に基づいて決
    定するステップとから構成されることを特徴とする請求
    項第20項記載の方法。
  22. 【請求項22】 前記第一ならびに第二比較ステップ
    は、認識結果系列サブ単語ユニットと辞書系列サブ単語
    ユニットそれぞれをサブ単語ユニットセット中のサブ単
    語ユニットと比較することを特徴とする請求項第21項
    記載の方法。
  23. 【請求項23】 前記第一ならびに第二比較ステップ
    は、所定サブ単語ユニットセット中のサブ単語を整合ペ
    アのサブ単語ユニットと取り違える確率を示す中間評価
    点を求めることを特徴とする請求項第21項あるいは第
    22項記載の方法。
  24. 【請求項24】 前記集計ステップは、セット中のサブ
    単語ユニットを整合ペアのサブ単語ユニットと取り違え
    る確率を乗算するために、評価点を集計することを特徴
    とする請求項第23項記載の方法。
  25. 【請求項25】 前記所定サブ単語ユニットセット中の
    前記サブ単語ユニットは、サブ単語ユニット系列におい
    て所定の発生確率を有し、前記集計ステップは、集計評
    価点を求めるために使われるセット中のサブ単語ユニッ
    トの発生確率に基づいて前記集計評価点を重み付けする
    ことを特徴とする請求項第24項記載の方法。
  26. 【請求項26】 前記集計ステップは、d1 iとd2 jをそれ
    ぞれ辞書系列サブ単語ユニットならびに認識結果系列サ
    ブ単語ユニットの整合ペアとし、P(d2 j|pr)を、セット
    中のサブ単語ユニットprを認識結果系列サブ単語ユニッ
    トd2 jと取り違える確率を示す、前記第一比較ステップ
    から出力される中間評価点とし、P(d1 i|pr)を、セット
    中のサブ単語ユニットprを辞書系列サブ単語ユニットd1
    iと取り違える確率を示す、前記第二比較ステップから
    出力される評価点とし、P(pr)をセット中のサブ単語ユ
    ニットprがサブ単語ユニット系列で生起する確率を示す
    重みとしたとき、 【数2】 を計算することで前記中間評価点を集計することができ
    ことを特徴とする請求項第25項記載の方法。
  27. 【請求項27】 認識結果系列サブ単語ユニットならび
    に辞書系列サブ単語ユニットの判断確率は、あらかじめ
    決められ、対応サブ単語ユニット系列を生成するために
    用いられた認識システムに基づくものであることを特徴
    とする請求項第26項記載の方法。
  28. 【請求項28】 前記中間評価点はログ確率であって、
    前記集計ステップは前記確率の乗算を中間評価点の加算
    で行うことを特徴とする請求項第24項から第27項の
    いずれかに記載の方法。
  29. 【請求項29】 現在の辞書系列サブ単語ユニットが音
    声入力から生成されたものであるか、テキスト入力から
    生成されたものであるかを判断し、判断結果を出力する
    決定ステップと、 現在の辞書サブ単語系列に対して、前記判断結果に基づ
    いて前記比較ステップの比較技術を選択するステップと
    をさらに備えることを特徴とする請求項第18項から第
    28項のいずれかに記載の方法。
  30. 【請求項30】 前記辞書ならびに認識結果系列サブ単
    語ユニットにおけるサブ単語ユニットは前記所定サブ単
    語ユニットセットに含まれ、前記第一ならびに第二比較
    ステップは、前記セット中のサブ単語ユニットをお互い
    に関連づける所定データを用いて前記評価点を求めるこ
    とを特徴とする請求項第21項から第29項のいずれか
    に記載の方法。
  31. 【請求項31】 前記所定データは、サブ単語ユニット
    セット中のサブ単語ユニットごとに、サブ単語ユニット
    をサブ単語ユニットセット中のほかのサブ単語ユニット
    と取り違える確率を含むことを特徴とする請求項第30
    項記載の方法。
  32. 【請求項32】 前記整合ステップは、動的計画法技術
    を用いて前記辞書系列サブ単語ユニットと認識結果系列
    サブ単語ユニットとを整合する動的計画法ステップであ
    ることを特徴とする請求項第18項から第31項のいず
    れかに記載の方法。
  33. 【請求項33】 前記サブ単語ユニットは音素であるこ
    とを特徴とする請求項第18項から第32項のいずれか
    に記載の方法。
  34. 【請求項34】 認識対象の音声信号を受信するステッ
    プと、 受信音声信号を記憶されているサブ単語ユニットモデル
    と比較し、受信音声信号を表す1つあるいは複数のサブ
    単語ユニット系列を生成するステップと、 前記比較ステップから出力された1つあるいは複数のサ
    ブ単語ユニット系列を記憶されている単語辞書を用いて
    処理し、受信音声信号に対応する1つあるいは複数の単
    語を生成する処理ステップとから構成され、 前記処理ステップは請求項第18項から第33項のいず
    れかに記載の方法を用いることを特徴とする音声認識方
    法。
  35. 【請求項35】 プロセッサを制御して請求項第18項
    から第34項のいずれかに記載の方法を実現するための
    プロセッサ実装可能命令を保持する記録媒体。
  36. 【請求項36】 プロセッサを制御して請求項第18項
    から第34項のいずれかに記載の方法を実現するための
    プロセッサ実装可能命令。
JP2001344825A 2000-11-20 2001-11-09 音声処理システム Expired - Fee Related JP3747171B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GBGB0028277.2A GB0028277D0 (en) 2000-11-20 2000-11-20 Speech processing system
GB0028277.2 2000-11-20

Publications (2)

Publication Number Publication Date
JP2002207496A true JP2002207496A (ja) 2002-07-26
JP3747171B2 JP3747171B2 (ja) 2006-02-22

Family

ID=9903511

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001344825A Expired - Fee Related JP3747171B2 (ja) 2000-11-20 2001-11-09 音声処理システム

Country Status (4)

Country Link
US (1) US6801891B2 (ja)
EP (1) EP1207518A3 (ja)
JP (1) JP3747171B2 (ja)
GB (1) GB0028277D0 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017515147A (ja) * 2014-04-17 2017-06-08 クアルコム,インコーポレイテッド ユーザ定義のキーワードを検出するためのキーワードモデル生成

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7653545B1 (en) 1999-06-11 2010-01-26 Telstra Corporation Limited Method of developing an interactive system
US7310600B1 (en) * 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
GB2370401A (en) * 2000-12-19 2002-06-26 Nokia Mobile Phones Ltd Speech recognition
WO2003017252A1 (de) * 2001-08-13 2003-02-27 Knittel, Jochen Verfahren und vorrichtung zum erkennen einer phonetischen lautfolge oder zeichenfolge
EP1369847B1 (en) * 2002-06-04 2008-03-12 Intellectual Ventures Fund 21 LLC Speech recognition method and system
AU2002950336A0 (en) 2002-07-24 2002-09-12 Telstra New Wave Pty Ltd System and process for developing a voice application
AU2002951244A0 (en) 2002-09-06 2002-09-19 Telstra New Wave Pty Ltd A development system for a dialog system
AU2003900584A0 (en) 2003-02-11 2003-02-27 Telstra New Wave Pty Ltd System for predicting speech recognition accuracy and development for a dialog system
AU2003902020A0 (en) 2003-04-29 2003-05-15 Telstra New Wave Pty Ltd A process for grammatical inference
US20050144003A1 (en) * 2003-12-08 2005-06-30 Nokia Corporation Multi-lingual speech synthesis
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
ATE385024T1 (de) * 2005-02-21 2008-02-15 Harman Becker Automotive Sys Multilinguale spracherkennung
EP1886303B1 (en) * 2005-06-01 2009-12-23 Loquendo S.p.A. Method of adapting a neural network of an automatic speech recognition device
KR20080107376A (ko) * 2006-02-14 2008-12-10 인텔렉츄얼 벤처스 펀드 21 엘엘씨 화자 독립 음성 인식을 구비한 통신 장치
JP4671898B2 (ja) * 2006-03-30 2011-04-20 富士通株式会社 音声認識装置、音声認識方法、音声認識プログラム
US8255216B2 (en) * 2006-10-30 2012-08-28 Nuance Communications, Inc. Speech recognition of character sequences
US9418152B2 (en) * 2011-02-09 2016-08-16 Nice-Systems Ltd. System and method for flexible speech to text search mechanism
EP2851896A1 (en) * 2013-09-19 2015-03-25 Maluuba Inc. Speech recognition using phoneme matching
US10749989B2 (en) 2014-04-01 2020-08-18 Microsoft Technology Licensing Llc Hybrid client/server architecture for parallel processing
JP6580882B2 (ja) * 2015-06-24 2019-09-25 株式会社東芝 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
GB2544070B (en) * 2015-11-04 2021-12-29 The Chancellor Masters And Scholars Of The Univ Of Cambridge Speech processing system and method
JP6545633B2 (ja) * 2016-03-17 2019-07-17 株式会社東芝 単語スコア計算装置、単語スコア計算方法及びプログラム

Family Cites Families (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4227176A (en) 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
JPS59226400A (ja) * 1983-06-07 1984-12-19 松下電器産業株式会社 音声認識装置
US5131043A (en) * 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
FR2554623B1 (fr) * 1983-11-08 1986-08-14 Texas Instruments France Procede d'analyse de la parole independant du locuteur
US4980918A (en) 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US4903305A (en) * 1986-05-12 1990-02-20 Dragon Systems, Inc. Method for representing word models for use in speech recognition
JP2739945B2 (ja) * 1987-12-24 1998-04-15 株式会社東芝 音声認識方法
US5075896A (en) * 1989-10-25 1991-12-24 Xerox Corporation Character and phoneme recognition based on probability clustering
US6236964B1 (en) 1990-02-01 2001-05-22 Canon Kabushiki Kaisha Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data
US5136655A (en) 1990-03-26 1992-08-04 Hewlett-Pacard Company Method and apparatus for indexing and retrieving audio-video data
US5202952A (en) 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
US5333275A (en) * 1992-06-23 1994-07-26 Wheatley Barbara J System and method for time aligning speech
DE69333422T2 (de) 1992-07-31 2004-12-16 International Business Machines Corp. Auffindung von Zeichenketten in einer Datenbank von Zeichenketten
EP0597798A1 (en) 1992-11-13 1994-05-18 International Business Machines Corporation Method and system for utilizing audible search patterns within a multimedia presentation
WO1994014270A1 (en) 1992-12-17 1994-06-23 Bell Atlantic Network Services, Inc. Mechanized directory assistance
US5467425A (en) 1993-02-26 1995-11-14 International Business Machines Corporation Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models
US5787414A (en) 1993-06-03 1998-07-28 Kabushiki Kaisha Toshiba Data retrieval system using secondary information of primary data to be retrieved as retrieval key
EP0645757B1 (en) 1993-09-23 2000-04-05 Xerox Corporation Semantic co-occurrence filtering for speech recognition and signal transcription applications
JP2986345B2 (ja) 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
SE513456C2 (sv) * 1994-05-10 2000-09-18 Telia Ab Metod och anordning vid tal- till textomvandling
IT1272259B (it) 1994-05-30 1997-06-16 Texas Instruments Italia Spa Procedimento ed apparecchio per il riconoscimento dei caratteri
JP3260979B2 (ja) 1994-07-15 2002-02-25 株式会社リコー 文字認識方法
US5799267A (en) 1994-07-22 1998-08-25 Siegel; Steven H. Phonic engine
US5737723A (en) * 1994-08-29 1998-04-07 Lucent Technologies Inc. Confusable word detection in speech recognition
US5835667A (en) 1994-10-14 1998-11-10 Carnegie Mellon University Method and apparatus for creating a searchable digital video library and a system and method of using such a library
MX9703138A (es) 1994-11-01 1997-06-28 British Telecomm Reconocimiento de lenguaje.
US5680605A (en) 1995-02-07 1997-10-21 Torres; Robert J. Method and apparatus for searching a large volume of data with a pointer-based device in a data processing system
CN1150515C (zh) 1995-03-07 2004-05-19 英国电讯公司 语音识别方法和装置
CA2170669A1 (en) 1995-03-24 1996-09-25 Fernando Carlos Neves Pereira Grapheme-to phoneme conversion with weighted finite-state transducers
US5675706A (en) 1995-03-31 1997-10-07 Lucent Technologies Inc. Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition
US5729741A (en) 1995-04-10 1998-03-17 Golden Enterprises, Inc. System for storage and retrieval of diverse types of information obtained from different media sources which includes video, audio, and text transcriptions
JPH10503033A (ja) 1995-05-03 1998-03-17 フィリップス エレクトロニクス ネムローゼ フェン ノートシャップ 新ワードのモデル化に基づく音声認識方法及びその装置
JPH0916598A (ja) 1995-07-03 1997-01-17 Fujitsu Ltd エラー・パターンを用いた文字列修正システムおよび方法
US5721939A (en) 1995-08-03 1998-02-24 Xerox Corporation Method and apparatus for tokenizing text
US5684925A (en) * 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5737489A (en) 1995-09-15 1998-04-07 Lucent Technologies Inc. Discriminative utterance verification for connected digits recognition
JPH09128396A (ja) 1995-11-06 1997-05-16 Hitachi Ltd 対訳辞書作成方法
US6567778B1 (en) 1995-12-21 2003-05-20 Nuance Communications Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores
US5960395A (en) 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
GB2302199B (en) 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US5870740A (en) 1996-09-30 1999-02-09 Apple Computer, Inc. System and method for improving the ranking of information retrieval results for short queries
US5708759A (en) * 1996-11-19 1998-01-13 Kemeny; Emanuel S. Speech recognition using phoneme waveform parameters
US6172675B1 (en) 1996-12-05 2001-01-09 Interval Research Corporation Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
US5852822A (en) 1996-12-09 1998-12-22 Oracle Corporation Index-only tables with nested group keys
EP0849723A3 (en) 1996-12-20 1998-12-30 ATR Interpreting Telecommunications Research Laboratories Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
WO1998047084A1 (en) 1997-04-17 1998-10-22 Sharp Kabushiki Kaisha A method and system for object-based video description and linking
WO1999005681A1 (de) 1997-07-23 1999-02-04 Siemens Aktiengesellschaft Verfahren zum abspeichern von suchmerkmalen einer bildsequenz und zugriff auf eine bildfolge in der bildsequenz
US6487532B1 (en) 1997-09-24 2002-11-26 Scansoft, Inc. Apparatus and method for distinguishing similar-sounding utterances speech recognition
US6026398A (en) 1997-10-16 2000-02-15 Imarket, Incorporated System and methods for searching and matching databases
US6061679A (en) 1997-11-25 2000-05-09 International Business Machines Corporation Creating and searching a data structure ordered by ranges of key masks associated with the data structure
US5983177A (en) 1997-12-18 1999-11-09 Nortel Networks Corporation Method and apparatus for obtaining transcriptions from multiple training utterances
US6182039B1 (en) 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6243680B1 (en) 1998-06-15 2001-06-05 Nortel Networks Limited Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US6321226B1 (en) 1998-06-30 2001-11-20 Microsoft Corporation Flexible keyboard searching
US6192337B1 (en) 1998-08-14 2001-02-20 International Business Machines Corporation Apparatus and methods for rejecting confusible words during training associated with a speech recognition system
US6490563B2 (en) 1998-08-17 2002-12-03 Microsoft Corporation Proofreading with text to speech feedback
DE19842404A1 (de) 1998-09-16 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Schätzung von Auftrittswahrscheinlichkeiten für Sprachvokabularelemente
WO2000031723A1 (en) 1998-11-25 2000-06-02 Sony Electronics, Inc. Method and apparatus for very large vocabulary isolated word recognition in a parameter sharing speech recognition system
CN1343337B (zh) 1999-03-05 2013-03-20 佳能株式会社 用于产生包括音素数据和解码的字的注释数据的方法和设备
GB2349260B (en) 1999-04-23 2003-05-28 Canon Kk Training apparatus and method
US6662180B1 (en) 1999-05-12 2003-12-09 Matsushita Electric Industrial Co., Ltd. Method for searching in large databases of automatically recognized text
US6567816B1 (en) 2000-03-07 2003-05-20 Paramesh Sampatrai Desai Method, system, and program for extracting data from database records using dynamic code
US6535850B1 (en) 2000-03-09 2003-03-18 Conexant Systems, Inc. Smart training and smart scoring in SD speech recognition system with user defined vocabulary

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017515147A (ja) * 2014-04-17 2017-06-08 クアルコム,インコーポレイテッド ユーザ定義のキーワードを検出するためのキーワードモデル生成

Also Published As

Publication number Publication date
US6801891B2 (en) 2004-10-05
EP1207518A2 (en) 2002-05-22
EP1207518A3 (en) 2003-11-19
JP3747171B2 (ja) 2006-02-22
GB0028277D0 (en) 2001-01-03
US20020120448A1 (en) 2002-08-29

Similar Documents

Publication Publication Date Title
JP2002207496A (ja) 音声処理システム
EP1205908B1 (en) Pronunciation of new input words for speech processing
JP6686154B2 (ja) 発話認識方法及び装置
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
US9779730B2 (en) Method and apparatus for speech recognition and generation of speech recognition engine
Liu et al. Two efficient lattice rescoring methods using recurrent neural network language models
JP5480760B2 (ja) 端末装置、音声認識方法および音声認識プログラム
CN113168828A (zh) 基于合成数据训练的会话代理管线
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
JP2008293019A (ja) 言語理解装置
JP6051004B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP6095588B2 (ja) 音声認識用wfst作成装置、音声認識装置、音声認識用wfst作成方法、音声認識方法及びプログラム
US5706397A (en) Speech recognition system with multi-level pruning for acoustic matching
CN111400481A (zh) 针对多轮对话生成回复语句的方法和装置
JP2001092496A (ja) 連続音声認識装置および記録媒体
JP2020042257A (ja) 音声認識方法及び装置
US20230419964A1 (en) Resolving unique personal identifiers during corresponding conversations between a voice bot and a human
Kumar et al. Enabling the rapid development and adoption of speech-user interfaces
JP2006189730A (ja) 音声対話方法および音声対話装置
US11615787B2 (en) Dialogue system and method of controlling the same
US20230076073A1 (en) Method and apparatus for speech recognition
JP6235922B2 (ja) 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム
JP6086714B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP3440840B2 (ja) 音声認識方法及びその装置
US11804225B1 (en) Dialog management system

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040827

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050401

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050926

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051128

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091202

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091202

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101202

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111202

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121202

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131202

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees