JPH0394299A - 音声認識方法と音声認識装置訓練方法 - Google Patents

音声認識方法と音声認識装置訓練方法

Info

Publication number
JPH0394299A
JPH0394299A JP2125636A JP12563690A JPH0394299A JP H0394299 A JPH0394299 A JP H0394299A JP 2125636 A JP2125636 A JP 2125636A JP 12563690 A JP12563690 A JP 12563690A JP H0394299 A JPH0394299 A JP H0394299A
Authority
JP
Japan
Prior art keywords
model
acoustic
models
speech
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2125636A
Other languages
English (en)
Other versions
JP2963142B2 (ja
Inventor
Chinh H Le
チン エイチ.リー
Lawrence R Rabiner
ローレンス アール.ラビナー
Jay G Wilpon
ジェイ ジー.ウィルポン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
American Telephone and Telegraph Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by American Telephone and Telegraph Co Inc filed Critical American Telephone and Telegraph Co Inc
Publication of JPH0394299A publication Critical patent/JPH0394299A/ja
Application granted granted Critical
Publication of JP2963142B2 publication Critical patent/JP2963142B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、特定のキーワードを含む音声自動認識の技術
に関する。
(従来技術) 電話回線での通話でよく機能する頑強な不特定話者音声
認識システムは、ここ1o年以上関心の高い話題であっ
た。当初の音声認識システムは、単音として話された少
数の語句を認識しか認識できなかった。ごく最近、頻繁
に話される中程度の語量の組を認識できるシステムは、
公表され、これは、米国特許第4783804号明細書
(ビー・エイチ・ファン(B−H,Juang)らに譲
渡、1988年11月8日特許付与)に開示されている
。多くの音声認識システムの基本的な仮定は、認識され
るべき人力は、認識語量単語とバックグラウンド(背景
)の沈黙のみからなることである。しかし、“オペレー
タ補助コール”を作るための限定された離散コマンド句
(指令文句)の認識に関する最近の研究から、このサー
ビスに対して許可された人力語だけを話す加入者を現実
に求めることは、不可能ではないが、極端に困難である
ことがわかった。カリフォルニア州へイワードのAT&
T本社(サンフランシスコベイエリア内)で行われた、
不特定者離散単語音声認識技術の広範囲な試用において
、実際の電話利用者の通話が、新世代の電話交換機用に
開発された呼び処理手続きを評価するために、使用され
た。オペレータ補助コールを行う利用者は、利用したい
呼びのタイプ(すなわち、collect (料金受信
人払い(コレクトコール))、calling−car
d(カード支払通話) 、person−to−per
son(指名通話)、bill−to−third (
第三者支払) 、operator(オペレータ))を
口頭で確認するよう要求された。各利用者は、口頭で指
示された五つのコマンドの一つを離散形式で話すよう要
求された。実際には、82%の利用者がコマンド句の一
つを話したが、これら入力利用者の79%のみが、単音
として話した(すなわち、全利用者の65%が約束に従
った)。利用者が話した応答をモニターすると、全応答
の17%が、無関係の音声入力と共に、正しいコマンド
用語を含んでいたことが、示されt二。
例を以下に挙げると; ・く沈黙〉コレクトコールお願いしまずく沈黙〉・あれ
?おや、ああカード支払通話をしたい・トムからコレク
トコールですく沈黙〉 ・指名通話をしたい ・く沈黙〉オペレータを出してください多くの従来の離
散語認識アルゴリズムは、文章中の語量の項目を認識す
るよう設計されていなかった。そのような場合、無関係
音声中で、決められた語量の用語を認識できる(すなわ
ち、キーワードに注目する(キーワードスポッティング
))ように、アルゴリズムは修正されなければならない
一般のワードスポッティング問題に関しては、多くの研
究がなされてきたが、その大部分は公表されなかった。
公表されたワードスポッティング技術は、初期にはテン
プレートに基づく動的計画マッチング(DPマッチング
、DTW (dynaIllict1me warpi
ng) )法であった。例えば、論文「線形予測コード
化を使用する連続音声中のキーワードの検知と位置付け
(Detecting and Locating K
ey Words in Continuous Sp
eech Llsing Ltnear Predic
tive Coding) J  r音響、音声、信号
処理に関するIEEE論文集(!EEE Transa
ctions on Acoustlc , Spee
ch and Signal Processing 
)J ASSP25巻、第5号、362〜367頁(1
977年11月)において、クリスチャンセン(Chr
istlansen)とラッシュフォース(Rushf
’orth )が、タスクに関する構文や意味の情報を
全くなしで、音声信号のLPC表現を用いるキーワード
スポッティングシステムに熟達した話し手に関して記述
している。この方法を使用して、彼らは4種のキーワー
ドと10種の数字という語紮の組に対して非常に正確に
キーワードスボッティングすることができた。
ヒギンス(Hlggins )とウォルフォード( W
oh Iford)は、「テンプレート連結を用いるキ
ーワード認識(Keyword Recognitio
n Uslng Template Concaten
at ton)” 「音響、音声、信号処理に関するI
 EEE国際会議議事録(Conr.Rec.IEEE
 Int.Conl’.Acous.Speech .
.and Signal Processing)J1
233〜1236頁、タンバ、フロリダ(1985年)
において、キーワードスポッティングのために、動的計
画マッチングに基づくシステムを提案した。彼らのシス
テムでは、入力音声の語量と構文に関する知識が使われ
ていた。キーワードのテンプレートと非キーワードのテ
ンプレートの組が作られ、流暢な音声の中のキーワード
を検知するために、数種のプールされたフィラー((’
iller)テンプレートと比較された。このフィラー
テンプレートは、(1)6個の“機能”語からのデータ
を用いるか、(2)語量にない単語を、手動有標の(h
and−marked)データを使用して、音節にほぼ
等しいセグメントに分解すること、により生戊された。
彼らの結果は、語當の系統だてられた知識は重要ではな
いが、フィラーテンプレートの使用は重要であることを
示していた。しかし、彼らは、このフィラーテンプレー
トは、キーワードスポッティングシステムの性能に大き
く影響することを発見した。加えて、フィラーテンプレ
ートの持続時間がシステムの正確さを制御すると、彼ら
は結論付けた。テンプレートの数が増加し、また平均的
なフィラーテンプレートの持続時間を短くなるにつれ、
システムの正確さは改善された。
持続時間の制約が、動的計画マッチングに基づく、どの
テンプレートマッチング認識システムにおいても最大の
問題である。というのは、各テンプレート1ま物理的な
持続時間を持ち、アルゴリズムはある局所的な持続時間
の制約に従うことを余儀なくされるからである。
同様に、米国特許第4713777号(発明者:チンー
フィ’り−(Chin−Hut Lee) 、ジョン・
ダブリュー・クロフスタッド(John W.KIov
sta)。
カルヤン・ガネサン(Kalyan Ganesan)
 、1 9 87年12月15日発行)において、隠れ
マルコフモデル(HMM)が、沈黙をモデル化するため
に使われた。固定スコアしきい値は、誤り警告を除去す
るために使われた。
“自動音声終点検知への隠れマルコフモデルの利用(A
pplication orHidden Marko
v Mode’s toAutmatlc Speec
h Endpoint Detection ) ” 
 rコンピュータ音声と言語(Computer−Sp
eech and Language) J第2巻、3
/4、321〜341頁、(1987年12月)の論文
では、発明者の二人、ウィルポン(Wilpon)とラ
ビナー(Rabiner)が、静的方法に基づく認識ア
ルゴリズムを提出し、゜ここでは音声の明快な終点検知
は全く認識システムから除かれているものの、認識の高
い正確さを維持している。これを達或するために、認識
システムは入力信号をバックグラウンド信号と語量単語
との配列にモデル化した。しかし、この仕事は語堂単語
が単音として話される(すなわち、無関係音声言語人力
ではない)という状況に限定されていた。
(発明の概要) 本発明は、認識されなければならないキーワードに近接
して起こる音声言語音(無関係音声)を含むバックグラ
ウンド音を首尾よくモデル化することが可能であるとい
う発見に基づく。
このモデルを訓練するため十分なデータを与えた状況で
、このようなバックグラウンドモデルを一つだけ使用す
ると、複数のバックグラウンドモデルもほぼ同様に実行
可能であることをさらに発見した。この発見は前記従来
技術からは予測不可能であった。
本発明の一つの特徴に沿って、統計的方法に基づくモデ
ル(通例、隠れマルコフモデル(以後HMM)と呼ばれ
る)が、非制約音声の文脈内で、特定の語量単語(以後
キーワードと呼ぶ)を認識するために使われる。本発明
は、前記ウィルポンらの参考文献の文法ほ念に基づいて
いる。本発明が発展させた方法は、全バックグラウンド
環境(沈黙、部屋の環境、聞こえてくる騒音を含む)と
最も重要な無関係音声とをモデル化することである。本
発明では、与えられた音声入力を、無関係入力の非制約
配列+キーワード+無関係入力の別の非制約配列として
、表現するが、話されている文脈では必要となるこのよ
うなネクサス(nexus)は一つだけである。本発明
では、無関係音声を表わす少なくとも一つのHMMを生
戊することでこれを行う。文法誘導型連続単語認識シス
テムは、外部音声とキーワードとの最良の配列を決定す
るために使われる。
認識システムに対しこの構造が与えられると、外部音声
に対しいわゆるシンク(sink) (一般)モデルを
使用し、音声認識装置が、無関係信号を認識でき、同時
にキーワードが認識される。
(全体説明) 第1図の全体流れ図を参照すると、始点は音声信号から
の表現、s (n)の獲得である。一般に、音声はs 
(n)を作るために、従来技術と同様に、デジタル化、
フィルタリング、予強調、フレーム切り出し一がなされ
る。本発明では必要ないが、s (n)がLPGによる
セブストラル(ceps t ra I )ベクトルを
与えるように分析されると便利である。
信号s (n)の通常処理を用い得られた結果の特徴ベ
クトルーすなわち、LPGとセブストラム11−はモデ
ル整合ステップ13に送られるが、モデル整合ステップ
13は正しい文法規則を含み、s (n)の特徴ベクト
ルと、発明の概要で略述した二種の参照モデル単語との
比較がなされる。決定規則ボックス14から最終的に最
良と評価されたものが最良キーワード(すなわち文法に
よりS(n)の特徴ベクトルに最もよくマッチングして
いるキーワード)として転送される。
[実施例] 第1図に示されているように、s (n)を作るため゛
に、デジタル化が、6.67kHzで行われ、フィルタ
リング音声帯域幅は、100〜3200Hzである。他
の特別なサンプリング間隔やフィルタリング帯域幅もも
ちろん使用されうる。高城強調ファクターは、代表的な
実施例では、a−0.95で、フレームは一般的な長さ
45msec,フレーム周期が15msecである。
LPG,セブストラル分析ブロック11は以下に記述さ
れた技術に従い実行される。即ち、エル●アール・ラビ
ナー(L,R,Labiner)らによる或書「音声信
号のデジタル処理(DigitaI Processi
ng of Speech Signals) J 、
3 5 6 〜372頁、398〜401頁、プレンテ
ィスホール、エングレウッド、ニュージャージ(197
8)、また(あるいは)ビー・ボゲート(B.Boge
rt)らによる文献゛反響に関する時系列ケーフレンシ
ー分析(The Quefrency Analisi
s of TIIle Series for Ech
oes) ’   rシンポジウム ブロシーディング
ス オン タイムシリーズアナリシス(Proc.Sy
mp.on Time Series Analysi
s ) J、第15章、209〜243頁、エム・ロー
ゼンブラット編集、ジエイ・ウイリー、ニューヨーク(
1963年)に記載された技術である。音声の各フレー
ムは、エル・アール・ラビナーらによる前記の戊書の1
21頁に記述されているようにハミング窓で重み付けさ
れる。p次(この実施例では8次)のオーダーで線形予
測コード化(L P G)分析が各データに対して実行
される。各フレームに対して、8個のLPG係数の組が
生或される。
得られた信号は、当業者には既知のLPCフレームベク
トルの組に還元される。データに対して実行される自動
的な終点検知はない。
LPGによるセブストラルベクトルは、LPGフレーム
ベクトルから、Q次成分(ここで本明細書の方法ではQ
−12(実施例ではQ>p))まで計算される。
時間フレームlでのQ係数セプストラルベクトルC +
  ( m )は、以下の形の窓、Wo (m)により
重み付けされる; ε((”)= C((m)”c(m) (2) 詳細は以下の論文、ビー・ファン(B,Juang)ら
による゜音声認識におけるバンドパス・リフタリングの
使用(The Use of Bandpass Ll
rter1ng in Speech Recogni
tion) ”  r音響、音声、信号処理に関するI
EEE論文集(IEEE Transactlons 
on Acoustics.Speech and S
ignal Processing)J ASSP35
、第7号、947 〜954W(1987年7月)に開
示されている。
分析ベクトルがスペクトルの微分(時間による)情報を
含むように拡張することで、数種の標準音声認識装置の
性能が画期的に向上することが最近示された。本発明で
はこのスペクトル微分情報を次のように分析ベクトルに
含む。
重み付けされたセプトラルベクトル配列の時間微分は、
考慮するベクトルを中心にして(2K+1)フレームの
有限長窓に対する1次直交多項式により近似される(本
実施例では微分が57レーム(75msec)窓から計
算されるので、K一2)。微分セプストラル(すなわち
デルタセプストラルベクトル)は次のように計算される
測ベクトル、Olは重み付けされたセブストラルベクト
ルの連結であり、相当する重み付けされたデルタセプス
トラルベクトルは、以下である。
ここでGはゲイン定数であり、よってc +  ( m
 )とΔCt  (m)の変化は、ほぼ同じである(本
実施例のシステムではGの値は0.375)。一般計算
に対する詳細はエフ・ケイ・ソーン(P.K.Soon
g )らによる文献「話者認識における瞬間の、過渡的
なスペクトル情報の利用について(On theUse
 of Instantaneous and Tra
nsitional Spectral Inf’or
mation in Speaker Recogn1
tion)″′「音響、音声、信号処理に関するIEE
E紀要(IEEE Transactions on 
Acoustlcs.Speech andSigna
l Process1ng ) J A S S P 
3 6巻、第6号、871〜879頁(1988年6月
)に開示されている。
HMMのスコアづけするために使われる総合観ベクトル
あたり24の係数からなる。
この技術は、エル●アール◆ラビナー(L. R,Ra
biner)らによる文献「隠れマルコフモデルを利用
する数字認識に関する高性能(High Perfor
manee Connected Digit Rec
ognition UsingHidden Mark
ov Models )  r音響、音声、信号処理に
関するI EEE国際会議会議H (Conreren
ceRecord , IEEE Internati
onal Conf’erence on Acous
tics, Speech and Signal P
rocessing) J第1巻、119〜122頁、
ニューヨーク、(1958年4月)にさらに詳細に開示
されている。
未知の音声発声のスペクトラルベクトルの配列は、フレ
ーム同期レベル形或(F S L B)アルゴリズム1
3を用いて、一連の記憶単語に基く隠れマルコフモデル
12に対してマッチングさる。
(このアルゴリズムは(シイ・エイチ・リー(C−H,
Lee)らによる論文「単語認識に関するネットワーク
に基くフレーム同期レベル形成ムアルゴリズム(A N
etwork−Based Frame Synchr
onous Level Bu11dlng Algo
rithm for Connected Word 
Recognitlon )” 「音響、音声、信号処
理に関するI EEE国際会議議事録(Conl’.R
ec.IEEE Int.Conf.Acous.Sp
eech and Sig.process1ng) 
J第l巻、410〜413頁、ニューヨーク、NY(1
988年4月)に開示されている。)更に、レベル内で
ビテルビマッチングされる。第2図に記述されているよ
うに、単語と状態の持続確率は、HMM計算とモデル整
合手順13内のネットワークサーチに組込まれる。第3
図に参照として以後記述されている、正しい文章入力を
記述する有限状態文法は、認識処理を駆動するために使
われている。手順13内のFSLBアルゴリズムは、フ
レームごとに最大可能文章(string)デゴーディ
ングを実行する。この処環の出力は一連の正しい文字候
補となる。
ラベルづけされた音声の訓練データセットから単語モデ
ルを生戊するために、セグメンテーションk手段訓練ア
ルゴリズムは、エル.アール.ラビナー(L.R.Ra
biner’)らによる記事”全体単語参照パターンに
基づく認識に関するセグメンテーションK手段訓練手順
(ASeg巾ental K−means Train
ing Procedure I’or Connec
ted withRecognition Based
 on Whole Word Rererence 
Patterns) ”  rAT&T技術雑誌(AT
&T TechnicalJournal) J第65
巻、第3号、21〜31頁(1986年5月)より開示
されている。この単語形成アルゴリズム(すなわち、H
MMのパラメータを決定するための評価手順)は各モデ
ルに対して、収束するまで(すなわち、連続反復で可能
性スコアの差が十分に小さくなるまで)反復される。
単語に対して複数のモデルを生成するために、HMMに
基づくクラスタリング(分解)アルゴリズムが、既に定
義したクラスター(前記ソーンらの論文に開示されてい
る)を分割するために使われている。このアルゴリズム
あるいはその改良は、すべてHMMから得られる可能性
スコアに基づいており、一連の訓練トークンから、固定
しきい値あるいは相対的しきい値より下にある可能性ス
コアを持つトークンを分離する。すなわち、可能性スコ
アの低い全トークンを分離し、このいわゆる部外トーク
ンから新しいモデルを生或する。トークンがクラスター
リング(分解)されると、セグメンテーションk手段訓
練アルゴリズムが、各モデルに対してパラメータの最適
な組を与えるよう再び使用される。
第2図は、バックグラウンド環境一無関係音声を含む一
と同様に各々の単語を特徴づけるために使用されるHM
Mの構造を示している。モデルは、左から右にN個の状
態を持つ一次マルコフモデルである。各モデルは次のよ
うに完全に特徴づけられている: [1]状態遷移行列A−a,は、以下の制約下にある。
(すなわち、j状態からそれ自身への即ちj+l状態へ
の遷移のみ許す) [2]状態観ハj密度行列B−bj (X)はガウス関
数密度、Mの混合(和)からなり、次の形を取る、 ここで、Xは入力観測ベクトル、C .は状gjのmコ m番目の戊分に対する混合重み、μ。jは状態jでの混
合mに対する平均ベクトル、UOljは状態jでの混合
mに対する共変化でる(米国特許第4783804号を
参照のこと)。本明細書に記述されている全評価は、直
交共変化行列を使用した。本発明の評価では、モデルに
対する状態数は10に設定され、状態に対する混合成分
の数Mは9に設定されている。
[3]一連の対数エネルギー密度、pj  (ε)ここ
でεは動的正規化されたフレームエネルギーで、p.は
状態jで経験的に測定されたエネルギJ −値の離散密度。
[4]一連の状態持続確立、宣.(τ)、ここJ でτは状態jで使われるフレームの数、ク.は状J 態jで経験的に測定された持続値jの離散密度。
本発明の認識処理で使用される文法は、前記リーらの文
献に記述されている同じ方法での認識処理に組み入れら
れている。この方法は、キーワードが無い場合もありう
るいくつかのキーワードーゼロモ含めていくつかのシン
ク(無関係音声)モデルとバックグラウンド沈黙モデル
との中に点在するキーワードーを含む配列のキーワード
を認識することが可能である。文法は認識可能単位の正
しい配列を定義し限定する一連のルールである。
決定規則手順14では、異なる確立スコアの比較に基づ
き最終決定がなされうるかどうか、あるいは何か代わり
のシステム手順が呼び出されるかどうかが決定される。
この新しい手順を評価するために、一つのキーワードを
正確に発見するよう文法を限定しているので、どんな発
声音でもただ1つのキーワードのみが出現することが、
先験的にわかっている代表的な認識タスクを選んだ。こ
れは第3図に図示されているが、ここでノード0(31
)は始端ノードで、ノード1 (32)は終端ノードで
ある。
シンクモデルとバックグラウンドモデルは、前記の訓練
手順を用いて、無関係音声信号の大きなプールから自動
的に生成される。この信号はバックグラウンド信号と同
様に無関係音声を含む。このことは以下さらに議論する
ここに述べた認識アルゴリズムは、語當を含まないバッ
クグラウンド信号の頑強なモデルを作り出す能力に依存
している。本発明の目的は、利用者に全く関係なくシン
クモデルを自動的に生成可能にすることである。以下の
題材では、いくつかの(半自動的、自動的両方の)訓練
技術を説明する。シルクモデルは利用者と全く関係なく
生戊されることが可能で、かつ高い認識能力が維持され
ることを示す。
最も簡単な訓練手順は、無関係音声内に最頻出する特定
語からシンクモデルを生成することである。これは、ど
こにこの語量にない単語が出現するかを示唆するラベル
づけされたデータベースを持つことを必要とする。
例によると、先に述べたコールタイプ認識タスクに対し
て、三つの!&頻出の、語党にない単語はum   ’
Please    call”であった。語量にない
単語に対して先のモデル形戊の技術を利用するために、
完全にラベルづけしてあり、セグメンテーションされた
データベースが必要である。この柾のセグメンテーショ
ンとラベルづけのいくつかの例が第4図から第6図に(
タイプ1分析とラベルされている)示されている。この
セグメンテーションとラベルづけに基づき、隠れマルコ
フモデルは、バックグラウンドの沈黙に対する単一HM
Mと、nの最頻出の語常にない話された単語それぞれに
対して生成される。経験により、コールタイプ認識タス
クに関して、単音節入力に対する認識の正確さはシンク
モデルの数に完全に関係なく、また無関係音声のキーワ
ードに対する認識の正確さも、上位3から4の最頻の語
量にない単語が含まれる限り、シンクモデルの数に比較
的関係しない。というのはこの半自動的訓練という形は
少なくともある種のタスクでは、ワードスポッティング
のために非常に有効だからである。 より自動的にシン
クモデルを訓練するために、バックグラウンド、無関係
音声、キーワードという分類に必要なセグメンテーショ
ンとラベル付けを変更した。この種のラベル付けとセグ
メンテーションの例が第4図から第6図に示され、タイ
プ2分析とラベルされている。この種の訓練のため、全
無関係音声音は結合され、単一隠れマルコフモデルはシ
ンクモデルとして作られる。與なる沈黙モデルはまた沈
黙セグメントから生或される。沈黙モデルに必要な状態
数は1だけであることが発見されている。単一シンクモ
デルと単一1状態の沈黙モデルにより、コールタイプ認
識タスクに対する認識結果はタイプ1分析を使い得られ
た結果に匹敵するーすなわち、手動分折がより少なくな
るにもかかわらず、タイブ2訓練は、タイブ1訓練と同
程度有効であるーことが発見された。
提案された第3の完全自動訓練手順は、シンクモデルを
訓練するために使われるデータベースに対するラベルづ
けとセグメンテーションの全ての制約を取り除くことで
ある。唯一の必要性は、無関係音声とバックグラウンド
ノイズと同様にキーワードを含むデータベースを持つこ
とである。
このラベルづけの例は第4図から第6図にタイプ3分析
と記され示されている。これらの例でたとえキーワード
が存在するとしても、全体の発生は最初にシンクモデル
を訓練するために使われる。
第7図は最終キーワードとシンクモデルを得る為に使わ
れた訓練処理のブロック図を示す。訓練処理を初期化す
るため、HMMセット71は語堂の単音節単語と無関係
音声のプールから形成される。
このブートストラップモデルと語紮の単語を含む訓練デ
ータ74が与えられると、セグメンテーションk手段訓
練アルゴリズムは訓練文字を語量単語75〜7つ、沈黙
80、無関係音声に最適にセグメンテーションするため
に使われる。よって新しいモデルが作り出され、処理は
収束するまで反復するる。
単一シンクモデル81を生戊するこの完全自動訓練手順
を使うと、認識の正確さは先にタイプ1、2分析で得ら
れたコールタイプ認識タスクに対して同じままである。
要約すると、好ましい実施例である、単一シンクモデル
がここに述べた完全自動訓練手順を用い生戊される。標
準的な認識タスクに対する認識結果は、半自動的訓練手
順から得られる最良結果に匹敵した。これから、無関係
音声とバックグラウンド沈黙の両方の特徴を受け入れる
単一シンクモデルが生成され得ることが示唆される。
ここで示されたアルゴリズムは、流暢な非制約音声の文
脈で話された所定の語量の単語を認識可能であることが
示された隠れマルコフモデル技術に基いており、これに
より利用者がより自由な話し方ができ、また音声認識の
ヒューマン・ファクターの問題をより扱いやすくするこ
とだろう。
この基礎となる原理に基く技術のさまざまな変型は当業
者には明らかであろう。例えば文庄上の制約は隣接する
場合のみに限定されないが、その代わり、特定モデルや
一般モデルにマッチングされる音声言語事象間のわずか
な重なりのような特定の関係を必要とする。
【図面の簡単な説明】
第1図は、本発明が実施可能である認識システムを示す
一般的流れ図、 第2図は、本発明で使用される状態過渡モデルと関連パ
ラメータを示す図である。 第3図は、本発明の実施において発生する最も一般的な
文法配列を示す図、 第4、5、6図は本発明を説明する際に有効な曲線を示
す図、 第7図は本発明の実施のために示すより詳細な流れ図で
ある。 FIG. 1 出力 FIG. FIG. 7 手 続 補 正 書(方式) 平成2年 9月260

Claims (1)

  1. 【特許請求の範囲】 (1)認識されるべき音声言語単位の複数モデルを採用
    するステップ、 前記モデルと音声を含む音響事象の配列の部分との最良
    のマッチングを決定するステップ、とを有し、決定ステ
    ップは、 所定の基準を満足するために、前記最良のマッチングの
    オーダーを制約するステップを含む音声認識方法におい
    て、 前記採用ステップは、音響事象の次の2種の音のモデル
    を採用するステップを含み、 (1)音声言語単位に選ばれた音響事象に 対する特定モデル、 (2)沈黙を含む他の音響事象に対する少 なくとも1つの一般モデル、 制約ステップは、一般モデルと音響事象との間の最良の
    マッチングに続き起こる、特定モデルと音響事象との間
    の最良のマッチングを必要とすることを特徴とする音声
    認識方法。 (2)音声事象を含む音響事象の入力配列の部分と、認
    識されるべき音声言語単位の第1セットのモデルとの間
    でマッチングを使用する音声認識方法において、 前記部分と前記認識されるべき音声言語単位以外の少な
    くとも1つの音響事象を含む少なくとも第2セットの音
    響事象のモデルとのマッチングを行うステップと、 前記入力配列での特定の音響事象と認識されるべき音声
    言語単位のモデルとの所定の関係での最良のマッチング
    を検知するステップ を有し、 前記入力配列での音響事象は、前記特定の音響事象と前
    記第2の音響事象でのモデルと選択された関係を持つこ
    とを特徴とする音声認識方法。 (3)音声事象を含む音響事象の入力配列の部分と、認
    識されるべき音声言語単位の第1セットのモデルとの間
    でマッチングを使用する音声認識方法において、 前記部分と前記認識されるべき音声言語単位以外の少な
    くとも1つの音響事象を含む少なくとも第2セットの音
    響事象のモデルとのマッチングを行うステップと、 前記入力配列での特定の音響事象と認識されるべき音声
    言語単位のモデルとの、または、 前記特定の音響事象に隣接する前記入力配列での音響事
    象と前記第2セットの音響事象でのモデルとの、いずれ
    かのオーダーで、最良のマッチングを検知するステップ
    、 を有することを特徴とする音声認識方法。 (4)少なくとも1つの一般モデルは、各状態に対し、
    過渡確率に関連する複数の行列信号、観測確立密度、少
    なくともエネルギー密度信号、少なくとも一連の状態持
    続確率信号を有する状態過渡タイプである ことを特徴とする請求項1記載の方法。 (5)選ばれた音声言語単位モデルは、各状態に対し、
    過渡確率に関連する複数の行列信号、観測列確立密度、
    少なくともエネルギー密度信号、少なくとも一連の状態
    持続確率信号を有する状態過渡タイプであり、 決定ステップは、いずれのオーダーでも、一般モデルと
    特定モデルの最良全体配列の決定を含む決定ステップを
    有する ことを特徴とする請求項1記載の方法。 (6)決定ステップは、始端ステップと終端ステップと
    を含み、 制限ステップは、始端ステップと終端ステップとの間で
    複数の特定モデルを含む最良マッチングモデルの配列か
    ら、始端ステップと終端ステップとの間で少なくとも1
    つのキーワード特定モデルを含む最良マッチングモデル
    の配列を区別することを特徴とする請求項5の方法。 (7)決定ステップは、始端ステップと終端ステップと
    を含み、 制限ステップは、始端ステップと終端ステップとの間で
    複数の特定モデルを含む最良マッチングモデルの配列か
    ら、始端ステップと終端ステップとの間で1つのキーワ
    ード特定モデル以外を含まない最良マッチングモデルの
    配列を区別することを特徴とする請求項5の方法。 (8)2種の音響事象のモデル: (1)選ばれた音声言語単位である音声事象に対する特
    定のモデル (2)他の音声事象に対する少なくとも1つの一般モデ
    ル を使用するステップを含むことを特徴とする音声認識装
    置訓練方法。 (9)2種の音響事象のモデル: (1)選ばれた音声言語単位である音声事象に対する特
    定のモデル (2)沈黙を含む他の音声事象に対する少なくとも1つ
    の一般モデル を使用するステップ 前記認識装置の環境の少なくとも部分的に予想できる、
    音響事象の合成を形成するステップ、前記合成の最も共
    通な特徴を抽出するステップ、前記抽出された特徴から
    、状態過渡タイプの少なくとも1つの前記一般モデルを
    作るステップ、を有することを特徴とする音声認識装置
    訓練方法。 (10)他の音響事象に対する少なくとも1つの一般モ
    デルを採用するステップが、一般の環境で一般の利用者
    の会話から、そこから故意に連続して選ばずに、集めら
    れたものを訓練の基本に採用するステップからなること
    を特徴とする請求項8記載の方法。
JP2125636A 1989-05-17 1990-05-17 信号処理方法 Expired - Lifetime JP2963142B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US35328389A 1989-05-17 1989-05-17
US353283 1989-05-17

Publications (2)

Publication Number Publication Date
JPH0394299A true JPH0394299A (ja) 1991-04-19
JP2963142B2 JP2963142B2 (ja) 1999-10-12

Family

ID=23388462

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2125636A Expired - Lifetime JP2963142B2 (ja) 1989-05-17 1990-05-17 信号処理方法

Country Status (7)

Country Link
US (1) US5649057A (ja)
EP (1) EP0398574B1 (ja)
JP (1) JP2963142B2 (ja)
KR (1) KR970011022B1 (ja)
AU (2) AU5463390A (ja)
CA (1) CA2015410C (ja)
DE (1) DE69032777T2 (ja)

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
MY119374A (en) * 1995-09-12 2005-05-31 Texas Instruments Inc Method and system for enrolling addresses in a speech recognition database
EP1758351B1 (en) * 1995-09-12 2016-12-21 Texas Instruments Incorporated Method and system for enrolling addresses in a speech recognition database
JP3459712B2 (ja) * 1995-11-01 2003-10-27 キヤノン株式会社 音声認識方法及び装置及びコンピュータ制御装置
GB9602691D0 (en) * 1996-02-09 1996-04-10 Canon Kk Word model generation
US5895448A (en) * 1996-02-29 1999-04-20 Nynex Science And Technology, Inc. Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose
US6076054A (en) * 1996-02-29 2000-06-13 Nynex Science & Technology, Inc. Methods and apparatus for generating and using out of vocabulary word models for speaker dependent speech recognition
US5842165A (en) * 1996-02-29 1998-11-24 Nynex Science & Technology, Inc. Methods and apparatus for generating and using garbage models for speaker dependent speech recognition purposes
EP0800158B1 (en) * 1996-04-01 2001-06-27 Hewlett-Packard Company, A Delaware Corporation Word spotting
US5991720A (en) * 1996-05-06 1999-11-23 Matsushita Electric Industrial Co., Ltd. Speech recognition system employing multiple grammar networks
GB9619165D0 (en) * 1996-09-13 1996-10-23 British Telecomm Training apparatus and method
US5797123A (en) * 1996-10-01 1998-08-18 Lucent Technologies Inc. Method of key-phase detection and verification for flexible speech understanding
US6023676A (en) * 1996-12-12 2000-02-08 Dspc Israel, Ltd. Keyword recognition system and method
US6076057A (en) * 1997-05-21 2000-06-13 At&T Corp Unsupervised HMM adaptation based on speech-silence discrimination
FI973093A (fi) * 1997-07-23 1999-01-24 Nokia Mobile Phones Ltd Menetelmä telepalvelun ohjaamiseksi ja päätelaite
US6006181A (en) * 1997-09-12 1999-12-21 Lucent Technologies Inc. Method and apparatus for continuous speech recognition using a layered, self-adjusting decoder network
CA2304747C (en) * 1997-10-15 2007-08-14 British Telecommunications Public Limited Company Pattern recognition using multiple reference models
JPH11143485A (ja) * 1997-11-14 1999-05-28 Oki Electric Ind Co Ltd 音声認識方法及び音声認識装置
US6243677B1 (en) * 1997-11-19 2001-06-05 Texas Instruments Incorporated Method of out of vocabulary word rejection
US5970446A (en) 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
US6195634B1 (en) 1997-12-24 2001-02-27 Nortel Networks Corporation Selection of decoys for non-vocabulary utterances rejection
US6571210B2 (en) 1998-11-13 2003-05-27 Microsoft Corporation Confidence measure system using a near-miss pattern
US6577999B1 (en) * 1999-03-08 2003-06-10 International Business Machines Corporation Method and apparatus for intelligently managing multiple pronunciations for a speech recognition vocabulary
US7149690B2 (en) 1999-09-09 2006-12-12 Lucent Technologies Inc. Method and apparatus for interactive language instruction
US6442520B1 (en) 1999-11-08 2002-08-27 Agere Systems Guardian Corp. Method and apparatus for continuous speech recognition using a layered, self-adjusting decoded network
US7263484B1 (en) 2000-03-04 2007-08-28 Georgia Tech Research Corporation Phonetic searching
US6856956B2 (en) * 2000-07-20 2005-02-15 Microsoft Corporation Method and apparatus for generating and displaying N-best alternatives in a speech recognition system
JP4167057B2 (ja) * 2000-09-01 2008-10-15 エリザ コーポレーション 発信電話呼出しの状況を決定するスピーチ認識方法およびシステム
US20020059072A1 (en) * 2000-10-16 2002-05-16 Nasreen Quibria Method of and system for providing adaptive respondent training in a speech recognition application
DE10051794C2 (de) * 2000-10-18 2003-04-17 Saymore Speech Operated System Verfahren zur eindeutigen Zuweisung eines Befehls und Verfahren zur Sprachsteuerung
US7400712B2 (en) * 2001-01-18 2008-07-15 Lucent Technologies Inc. Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access
US6950796B2 (en) * 2001-11-05 2005-09-27 Motorola, Inc. Speech recognition by dynamical noise model adaptation
US7295982B1 (en) 2001-11-19 2007-11-13 At&T Corp. System and method for automatic verification of the understandability of speech
US6885744B2 (en) 2001-12-20 2005-04-26 Rockwell Electronic Commerce Technologies, Llc Method of providing background and video patterns
JP4061094B2 (ja) * 2002-03-15 2008-03-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
US7698136B1 (en) * 2003-01-28 2010-04-13 Voxify, Inc. Methods and apparatus for flexible speech recognition
US7359860B1 (en) 2003-02-27 2008-04-15 Lumen Vox, Llc Call flow object model in a speech recognition system
US7324940B1 (en) 2003-02-28 2008-01-29 Lumen Vox, Llc Speech recognition concept confidence measurement
JP4357867B2 (ja) * 2003-04-25 2009-11-04 パイオニア株式会社 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体
US7904296B2 (en) * 2003-07-23 2011-03-08 Nexidia Inc. Spoken word spotting queries
US7440895B1 (en) * 2003-12-01 2008-10-21 Lumenvox, Llc. System and method for tuning and testing in a speech recognition system
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
CN101154379B (zh) * 2006-09-27 2011-11-23 夏普株式会社 定位语音中的关键词的方法和设备以及语音识别***
JP5200712B2 (ja) * 2008-07-10 2013-06-05 富士通株式会社 音声認識装置、音声認識方法及びコンピュータプログラム
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8543395B2 (en) 2010-05-18 2013-09-24 Shazam Entertainment Ltd. Methods and systems for performing synchronization of audio with corresponding textual transcriptions and determining confidence values of the synchronization
US9118669B2 (en) 2010-09-30 2015-08-25 Alcatel Lucent Method and apparatus for voice signature authentication
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
WO2016164080A1 (en) 2015-04-08 2016-10-13 Fractal Antenna Systems, Inc. Fractal plasmonic surface reader antennas

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6312312A (ja) * 1986-07-04 1988-01-19 Yasuhiro Matsukuma 電界イオン交換クロマトグラフイ

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE32012E (en) * 1980-06-09 1985-10-22 At&T Bell Laboratories Spoken word controlled automatic dialer
US4481593A (en) * 1981-10-05 1984-11-06 Exxon Corporation Continuous speech recognition
US4713777A (en) * 1984-05-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method having noise immunity
US5218668A (en) * 1984-09-28 1993-06-08 Itt Corporation Keyword recognition system and method using template concantenation model
DE3574640D1 (de) * 1984-09-28 1990-01-11 Int Standard Electric Corp Schluesselworterkennungssystem unter anwendung eines sprachmusterverkettungsmodels.
US4811399A (en) * 1984-12-31 1989-03-07 Itt Defense Communications, A Division Of Itt Corporation Apparatus and method for automatic speech recognition
AU583871B2 (en) * 1984-12-31 1989-05-11 Itt Industries, Inc. Apparatus and method for automatic speech recognition
US4783804A (en) * 1985-03-21 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US4977599A (en) * 1985-05-29 1990-12-11 International Business Machines Corporation Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence
JPS62231993A (ja) * 1986-03-25 1987-10-12 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声認識方法
US4827521A (en) * 1986-03-27 1989-05-02 International Business Machines Corporation Training of markov models used in a speech recognition system
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
US4914703A (en) * 1986-12-05 1990-04-03 Dragon Systems, Inc. Method for deriving acoustic models for use in speech recognition
US4802231A (en) * 1987-11-24 1989-01-31 Elliot Davis Pattern recognition error reduction system
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
US5452397A (en) * 1992-12-11 1995-09-19 Texas Instruments Incorporated Method and system for preventing entry of confusingly similar phases in a voice recognition system vocabulary list
US5440662A (en) * 1992-12-11 1995-08-08 At&T Corp. Keyword/non-keyword classification in isolated word speech recognition

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6312312A (ja) * 1986-07-04 1988-01-19 Yasuhiro Matsukuma 電界イオン交換クロマトグラフイ

Also Published As

Publication number Publication date
EP0398574A3 (en) 1991-09-25
CA2015410A1 (en) 1990-11-17
KR970011022B1 (ko) 1997-07-05
AU5463390A (en) 1990-11-22
CA2015410C (en) 1996-04-02
EP0398574A2 (en) 1990-11-22
KR900018909A (ko) 1990-12-22
JP2963142B2 (ja) 1999-10-12
US5649057A (en) 1997-07-15
AU1804492A (en) 1992-07-30
AU643142B2 (en) 1993-11-04
DE69032777D1 (de) 1999-01-07
EP0398574B1 (en) 1998-11-25
DE69032777T2 (de) 1999-05-27

Similar Documents

Publication Publication Date Title
JPH0394299A (ja) 音声認識方法と音声認識装置訓練方法
US5509104A (en) Speech recognition employing key word modeling and non-key word modeling
Juang et al. Automatic recognition and understanding of spoken language-a first step toward natural human-machine communication
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
KR101120716B1 (ko) 음성 특성에 기초한 전화 호출자들의 자동 식별
Wilpon et al. Automatic recognition of keywords in unconstrained speech using hidden Markov models
US5033087A (en) Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US7630878B2 (en) Speech recognition with language-dependent model vectors
Rabiner et al. An overview of automatic speech recognition
Wilpon et al. Application of hidden Markov models for recognition of a limited set of words in unconstrained speech
JPH11272291A (ja) 音響判断ツリ―を用いたフォネティック・モデル化方法
JPH0422276B2 (ja)
JPH06214587A (ja) 事前指定ワードスポッティングサブシステム及び事前ワードスポッティング方法
KR19980070329A (ko) 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템
KR20010086402A (ko) 음성인식 장치
Knill et al. Hidden Markov models in speech and language processing
Boite et al. A new approach towards keyword spotting.
JP2004094257A (ja) 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
JP3535292B2 (ja) 音声認識システム
Kadambe et al. Language identification with phonological and lexical models
EP1213706B1 (en) Method for online adaptation of pronunciation dictionaries
JP2731133B2 (ja) 連続音声認識装置
Kuo et al. Advances in natural language call routing
Baker et al. Cost-effective speech processing

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080806

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080806

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090806

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090806

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100806

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100806

Year of fee payment: 11