JPS5991500A - 音声分析器 - Google Patents

音声分析器

Info

Publication number
JPS5991500A
JPS5991500A JP58191711A JP19171183A JPS5991500A JP S5991500 A JPS5991500 A JP S5991500A JP 58191711 A JP58191711 A JP 58191711A JP 19171183 A JP19171183 A JP 19171183A JP S5991500 A JPS5991500 A JP S5991500A
Authority
JP
Japan
Prior art keywords
signal
speech
pattern
signals
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP58191711A
Other languages
English (en)
Other versions
JPH0422276B2 (ja
Inventor
ステヘン・エリオツト・レヴインソン
ロ−レンス・リチヤ−ド・ラビナ−
マン・モ−ハン・ソンドヒ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
Western Electric Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Western Electric Co Inc filed Critical Western Electric Co Inc
Publication of JPS5991500A publication Critical patent/JPS5991500A/ja
Publication of JPH0422276B2 publication Critical patent/JPH0422276B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明はパターン認識、特に自動的に音声パターンを識
別するだめの装置に関する。
発明の背景 通信、データ処理およびそれと類似のシステムにおいて
は、音声インタフェース装置を使用することが期待され
ることが多い。音声入力および合成音声出力は、間合せ
、指令あるいはデータその他の情報交換などのため【利
用することができる。音声形態のインタフェースをとる
ことによt)、手で端末を操作する必要なしに遠隔地か
らデータ処理装置形態の機器との間の通信が可能と々す
、才だ利用者が他の機能を同時に行ない得るようにでき
る。しかし話者の間での音声パターンの複雑さと多様性
により、正確な認識を得るのは困難になっている。特定
話者および制約された語いに限った特別な応用例につい
ては良好な結果が得られているが、不特定話者の認識の
不正確さのために、利用範囲が限定されていた。
一般に、音声認識装置は、未知の音声パターンを定めら
れた音響特性信号の系列に変換するよう構成されている
。その後、これらの特性信号は、前もって記憶されてい
る識別さ力、た参照パターンを表わす音響特性信号と比
較される。比較の結果として、未知の音声信号は、定め
られた認識基単に従って最もよく適合する参照パターン
として識別される。このような認識システムの精度は、
選択された特徴と認識基準とに非常に依存する。入力音
声パターンの!特徴系列と参照パターンとの間の比較は
直接的である場合もある。しかし音声速度と分節は非常
にまちまちであることは周知である。
既存の技術の認識手法の中に、比較過程のパターン間の
最適列を決定するためて動的計画法を利用するものがあ
る。このようにして、音声速度と分節の差異の影響は緩
和される。
認識のために必要な時間は、参照語いの数と各語いに対
する参照特徴パターンの数との関数であるから、動的な
時間軸変更と比較のだめの信号処理装置は複雑で時間の
かがるものとなる。その結果、50語程度の語いに対す
る不特定話者の認識では、即時処理の実現が困難になる
音声認識のもう一つの手法は、統計的推定に基づく状態
と状態遷移との集合を利用する確率的なマルコフモデル
6で基づくものである。
特定話者の認識装置は、スペクトル特徴系列が生成され
、特徴、単語および言語の階層的マルコフモデルの系列
で評価するという形態で実現されている。特徴系列は音
素のマルコフモデルによって分析される。モデルはより
大きな音声要素、すなわち単語として連結される。その
次に、その結果はマルコフモデルの階層、すなわち、構
文的文脈に適用され、音声パターンの識別がなさ力2る
。しかし、連結音素モデルの使用と非限定的階層マルコ
フモデルシステムの複雑さとによって、マルコフモデル
が妥当性を持つよう十分な数のモデルパターンを得るた
め識別さハ、た話者によるシステムの実質的な訓練が必
要になる。本発明の目的は、話者に依存せずしかもより
高速に動作可能々確率モデルに基づく高機能自動音声認
識の手法を与えるものである。
発明の要約 本発明は複数個の記憶されている制約された隠れマルコ
フモデルの参照パターン信号に含む音声認識装置に関す
るものである。未知の発声はそれを表わす音響特性信号
の時間フレーム系列を構成するように解析される。未知
の発声の音声パターンに対応する選択された既定の特性
信号の系列が、例えば記憶されている既定の特性信号と
音声パターン特性信号系列とから発生される。音声パタ
ーンの選択された既定の特性信号系列と各参照パターン
に対する制約された隠れマルコフモデル信号との両方に
応答して、音声信号が参照パターンである確率を表わす
信号が発生する。未知の音声パターンは前記の確率表示
信号に対応する参照パターンの一つとして識別される。
一般的々説明 当業者には周知の隠れマルコフモデルは、観測系列01
.02 、・・・oTにおりて各観測が有限の数のシン
ボルの中の別個のシンボルであるような観測系列を評価
するのに用いられる。観測系列は、直接的には観測可能
でない状態遷移を持つ潜在的なマルコフ鎖の確率的関数
としてモデル化できる。第1図はこのようなモデルを説
明するものである。
第1図では、N1例えば5個の状態とMl例えば64個
の出力シンボルがある。状態間の遷移は遷移行列A −
(aij )として表現さり、る。aij項はそれぞり
、モデルが状態j[いる場合に状態jへ遷移を生ずる確
率である。
モデルの出力シンボルの確率は行倒B−〔bj(ot)
〕で表わされ、bj(Oj)はモデルが状態jの場合に
シンボル01  を出力する確率である。隠わ、マルコ
フモデルは、語い集合の各パターンに対して1つずつあ
る。参照パターンモデルの集合を導出し、各参照パター
ンモデルから未知の観測を発生する確率に基づいて参照
パターンの1つとして観測系列を分類するために用いる
ことができる。
音声認識では、入力音声パターンは音響特性の系列を生
成するよう解析される。各特徴は、当業者には周知の線
形予測係数ベクトルあるAはその他の音響特性である。
発生された特性ベクトル量ま既に記憶されているLPC
(線形予測係数)特性信号の有限集合と比較され、入力
音声パターンを表わすベクトル量子化LPG信号の系列
に変換さ力、る。量子化された特性信号のそれぞれは隠
れマルコフモデルで使われるM個のシンボルの有限集合
の1つである。認識モードでは、発声、例えば単語ある
いは句に対する量子化LPCベクトル特性系列は観測系
列Oを形成し、参照パターンモデルに1例えば語い集合
の単語あるい(1) によって与えられる。ここで、’1>12、・・青はマ
ルコフモデルの状態の最尤系列であり、01.02、・
・・OTは観測された系列である。
第1式は事後確率φ、(1)を φt(x)二P (0102・・・0.および時刻1.
に状態1で終る最尤系列/K)    (2) と定義すると書き換えられ、 φ(+、(j)は φt+、(j):=maX  (φt(i)ai jb
j(Ot+□))t=1、λ・・T−1と評価さハ、る
。但し、1.<j、<Nがっ。
may(1、J  2)zi、4jである。ここでであ
る。すると第1式は P(OIK)=P=φT(N)(4) となる。各参照パターンモデルに対する確率信号が発生
された後、最も高い確率信号に対応する参照パターンモ
デルとして入力音声パターンは識別される。
第2図は隠れマルコフモデル音声認識装陥の動作を説明
する概略フローチャートである。
認識装置が動作可(2050箱)の時、入力音声パター
ンは箱210に示されるようにディジタル信号の系列に
変換される。音声を表わすディジタル信号(箱210)
はその後絆形予測特性信号の時間フレーム系列に変換さ
れ、る(箱215)。箱215の操作によって発生する
信号は入力音声パターンの音響特性に対応しているが、
その信号は有限集合に限定されるわけではない。箱22
0の操作は、音声パターン音響特性と線形予測特性ベク
トルの有限集合とを比較し、各音声パターン特性信号に
対し最も良く対応する記憶きれているベクトルを選択す
るのに有効である。このようKして、既定の有限集合か
らのベクトル量子化特性信号は音声パターンのいづ、ね
、の連続するフレームtIL対しても得られる。ベクト
ル量子化特性信号はその後フレームLの隠れマルコフモ
デル処理への観測入力となる。
既定のモデルの集合が記憶さ力、ている。認識装置の語
いの各参照パターンに対し、一つのモデルが与えられて
いる。参照パターンモデルは、各モデル状態に対し状態
出力シンボル信号行列と、参照パターンモデルに対する
状態間のあらゆる可能な遷移に対応する遷移確率信号行
列とを含んでいる。参照パターンモデルは箱225に示
されるように順々に選択され、入力音声パターンのLP
Cベクトル量子化特徴系列が選択された参照単語モデル
から得られる確率が生成され記憶されるC箱230)。
最後の参照パターンモデルが選択され、その確率信号が
発生された後、確率信号の最大のものが選択され、最良
の参照パターンを識別する信号がデータ処理装置あるい
は制御システムのような応用装置に転送される。
ここでは、状態1は常に最初のフレームの初期状態であ
って、定められた形だけの左から右への状態遷移だけが
可能であり、既定の最終状態とは他の状態への遷移が発
生しえないものとして定義されるように、各参照パター
ンの隠れマルコフモデルに制約を加える。
このような制約は第1図の状態図で説明されている。第
1図ておいて、状態1は初期状態であり、状態5は最終
あるいは吸収状態であり、既定の左から右への遷移は状
態間の有向線によって表示さ九ている。
第1図の状態図によれば、状態1からは経路111によ
り状態1へ再入し、経路112をへて状態2へ進み、あ
るいは経路113をへて状態3へ進むことだけが可能で
ある。一般には、遷移は状態への再入かあるいは次の2
つの状態のうちの1つへの移動に限定されている。本発
明において、こわ−らの制約により音声パターンの迅速
かつ正確な認識が可能となった。認識装置のだめの識別
された発音参照パターンモデルの生成は一人の識別され
た話者の音声パターンのみならず多くの異なる話者の発
声からの導出も可能であるためこの音声認識は不特定話
者用である。
詳細な説明 第3図は本発明を説明するだめの音声認識装置の一般的
なブロック図を示すものである。
第3図の回路は電気音響変換器300に印加される音声
パターンを認識し、識別されたパターンに応答してそ、
l″lを利用する装置380に既定の制御信号を与える
ように構成されて因る。第3図において、フィルタおよ
び標本化器318は電気的なアナログ信号を変換器30
0から受け、不要な高周波数雑音を除去するため低域フ
ィルタとして動作する。フィルタの遮断周波数は3.2
 K Hz  に設定されている。フィルタを通過した
信号はその後当業者には周知なような形で6.7 K 
Hz で標本化さ力、る。
標本化信号はアナログ・ディジタル変換器320に供給
され、それぞれ連続して送られる標本は、対応する標本
の大きさを表わすディジタル符号の信号に変換される。
符号化信号の列はLPG特性信号発生器330に印加さ
力、る。当業者には周知のように、発生器330はディ
ジタル符号信号列を一時的に記憶し、それらを45m5
の継続時間からなる互いに連続的に重なり合うフレーム
にグループ化し、各フレームに対しP線形予測パラメー
タ信号の集合を生成する。これらのLPG信号の集合は
そり、ぞh、対応するフレームの音響特性を表わす。し
かし、スペクトルあるじは他の音響特性信号も利用でき
ることは当業に熟知の者は理解できよう。
特性発生器330はまた、特性信号列のエネルギー分析
π基いて変換器300に印加される入力音声パターンの
終了点を検出するよう動作する。終了点検出装置には、
1975年9月30日にエル、アール、ラビナー(L、
 R,Rabiner )等によって提出された米国特
許3,909,532に発表でれている例がある。ある
いは寸だ、他の周知の終了点検出技術を使用することも
可能である。
特性発生器330において音声信号の終了点を検出する
と、制御信号STが付勢さ力、認識処理装置340に送
られ動作を開始する。
認識処理装置は、Motorola 社によって198
0年に発行されたMC6800016ビツトマイクロプ
ロセッサ利用者マニュアル第2版に記載のMC6800
0マイクロプロセツサ・タイプのものから構成されてb
る。処理装置340の動作順序は、プログラム用ROM
355に格納された永久記憶命令列によって制御される
音響特性信号記憶370は発生器330からの入力音声
パターンを表わすLPG係数信号のフレーム系列を受け
、認識処理装置340が使用するためにアドレス可能な
フレーム系列の順序で特性信号を記憶する。原形信号記
憶365は、入力音声パターンに予想さ力5るLPC特
性゛信号の範囲をおおう既定のLPG原形特性信号の集
合を表わす信号を格納している。これらの原形信号は、
マルコフモデル処理のだめのシンボルの有限集合を与え
る0 マルコフモデル記憶360は、変換器300に印加さ力
、る未知の発声に対する可能々参照パターンの隠れマル
コフモデルに対応する符号化信号の集合を格納している
。各マルコフモデルは、モデルの状態間の遷移確率に対
応する信号、aijと各状態の出力シンボルの確率に対
応する信号bJ(Ot)  との集合から成っている。
音声パターンフレームtのそれそfLに対し一つづつの
出力シンボルOtは記憶365内の原形信号に対応する
。記憶360および365はそれぞれ処理装置340に
よってアドレス可能な読み出し専用メモリーから成る。
ROM360および365はモデルと原形信号とを永久
に記憶する。記憶370は処理装置340によってアド
レス可能々書込み可能メモリーである。RAM記憶35
0は認識処理装置の信号処理操作て対する中間的な記憶
として利用さ力1、インタフェース345は認識処理装
置と第3図の装置との間の通イ言インタフェースとなっ
ている。バス345は)iybrjcon 会社によっ
て製造され−たHBFA−8BC614型のハックプレ
ーンからなっている。さらに処理装置340、バス34
5、制御記憶350およびRAM355はイリノイ州つ
エストシカゴのオムニバイト(0mn1byte)会社
の製造するOB68KIAMC6sooo/Mtn、T
IBus壓のシングルホードコンピュータである。Qバ
ス構成もオリ用することができる。
第3図の回路は多くの形の相異なるパターンを認識する
のに利用することができる。説明のために数字、例えば
電話番号やクレジットカート番号を認識する装置を例に
とって述べる。[9]という数字の発声が変換器300
に印加されたと仮定する。第2図のフローチャート箱2
07および210に従って、入力音声パターンはフィル
タおよび標本化回路310でフィルタリングおよび標本
化され、A/D変換器329でディジタル信号の形に変
換される。ディジタル符号信号の系列は特性信号発生器
330の入力に与えられ、箱215によって音声パター
ン「9」の連続的フレームに対しLPG係数特性信号が
発生され7る。発生されたLPC特性信号はフレームイ
ンデクスtによってアドレス付けされ、線332を経て
音響特性信号記憶370に転送される。判定用の箱21
8にはパターンの終了点に到達したか否かを決定するだ
めに各フレーム毎に入る。終了点の検出によって信号S
Tが特性信号発生器で発生され、認識処理装置340に
送られる。
信号STに応答して、処理装置340はヘクトル量子化
モードに置かれ、その間に記憶370内のLPG特性信
号は操作を示す箱220に従ってROM365内の原形
信号に量子化される。量子化モートドま第4図のフロー
チャ、−トでさらに詳細に説明さ力、る。
第4図に関して、処理装置340のLPC特性信号フレ
ームインデクスtは箱401に従って最初は0にリセッ
トされる。その後ループ403に入って原形インデクス
mの設定を初期化する。ループ403ではフレームイン
デクスtが1だけ増加されC箱405)、増加されたフ
レームインデクスが入力音声パターンの最後のフレーム
Tと比較されるC箱410)。t>Tとなるまで、箱4
15に入って記憶370内の現在のフレーム入力音声パ
ターンLPG特性信号Ut が処理装置340によって
アドレスされそこからRAM350に転送される。原形
信号と特性信号との間の最小距離を表わす信号(Dmi
n)は最初無限犬に設定され(箱420)、原形インチ
フスmは処理装置340尾よってOに設定される(箱4
25)。その波相430に入り原形インチフスmが処理
装置340で増加され、る。
増加されプこインチフス+71−1−1はその波相43
5に従って最後のインチフスM−64と比較される。
この時点で、記憶365内の現在の原形信号がアドレス
され認識処理装置を経てRAM350に転送され5る(
箱446)。現在の音声パターン特性信号Ut に最も
よく対応する原形信号Rm  を決定する過程が引続い
て処理装置340で開始される。処理装置は周知のイタ
クラ距離評価信号を繰返し発生するような動作条件とな
り、この距離信号は、各原形信号に対し の形で表わさり、る。ここで、tは[J t /からの
LPCベクトルであり、aはRmからのLPCベクトル
であり、VはRmからの自己相関行列である。
最初は、距離評価信号d(Ut、R,m)および特性イ
ンチフス信号pは箱445および450に従って0に設
定されている。その後で距離信号を生成するループ45
2に入り、各特性インチフスに対し操作を示す箱455
に従って距離信号が、 d (U t’ Rm)=tn 2’ U t (p)
 ”’m (p)  (b)p=1 に従って増加される。インチフス信号pは処理装置34
0(箱460)で増加され、Pを最後の特性インチフス
信号とすればp>Pとなる1で判定用の箱465を経て
箱455へ戻っていく。距離信号は対数の形に変換され
(箱468)、その゛後判定用の箱470でDmin 
 と比較される。現在の原形距離信号がDmin  と
等しいかより大きい場合には、Dminを変更ぜずに橋
430に戻る。そうでなければ、原形インチフス信号m
がフレームtに対する音声パターン量子化信号を表わす
ものとして記憶され1、原形mに対する距離信号がRA
M350[Dmin として記憶される。その波相43
0に戻る。箱435でm > Mの場合は、引続いて0
1±m が最も良く対応する量子化信号として選択され
、箱405でループ403に入って次のフレームの量子
化が起動される。
音声パターンフレームインチフスtが箱410によって
最後の音声パターンフレームTよりも犬きくなると、量
子化信号インチフス01.02、・・・、Ot、・・・
OTという系列が処理装置340で音声パターンr対し
発生さ、h−1RAM350内に記憶される。例えば「
9」の発声に対応する音声パターンは36個のフレーム
を持チ、各フレームに対し64個の可能な原形信月のう
ちの1つが選択される。このようにして音声パターンは
有限集合の量子化信号の系列に変換される。各量子化信
号インチフス01は、音声パターンの1つのフレームの
量子化音響特性を表わすP線形予測係数の集合に対応す
る。未知の話者による数字「9」の発声に対し、吊゛子
化!ll、、性仏号の系列は表1に示され、たようにな
る。
表  1 量子化が完了すると、処理装置340は量子化モードか
ら抜け、第2図の箱225.230および235のマル
コフモデル評価モードに入る。
モデル評価モードでは、参照パターン、例えば数字0,
1.2、・・9の集合に対するマルコフモデルが次々と
選択される。各モデルは遷移確率信号の行列Aとシンボ
ル出力確率信号の行列Bとから成る。例として数字0.
5および9の行列A’&表2.3および4にそれぞカー
示す。アステリスクはモデルによって禁じられている遷
移を表わし、0と評価さ九る。
行列Aの表のそ力、それは、第1図のモデルの5つの状
態の間のすべての遷移の確率を表わす5×5の行列であ
る。表2.3および4に表わされ、ているように、モデ
ルの制約として黄あるいは0の値を持たない第1図にお
ける左から右への遷移のみが許されている。数字0.5
および9の行列Bは表5.6および70通りである。表
5の各列の数値は、数字「0」の発声に対応する状態の
原形信号の確率を表わしている。
表  2 数字0 行列A 状態i   1  2  3   4   51  .
821   +   −%   黄  ■−2,143
,801−X−芳  f 3  .036 .199 .800   黄  ■4
  ′■ 、000 .079 .880  −X−5
苦  +  、122 .120 1.000表  3 数字5 行列A 状態1  12345 1  .852  −%   4   %   黄2 
 .136 .932   矢  黄  ■3  .0
13 .067 .800   +   ff1−4 
  黄  、000 .054 .922   黄5 
  −X−4,146、,0781,000表  4 数字9 行列A 状態i    1   2   3   4   51
  .793  −%   −X−4%2  .1o6
 .939   +   −X−*3  .100 .
061 .690  −%   %4   ≠  、0
00 .142 .930  −X−5−%   % 
  、168 .070 1.000表  5 一伏態 状  態 34.040.001.014.021・00435.
001 、、OOl 、001.001・02136.
026.002.001.001.00337.006
.040.032.001.00138.110.01
1.060.00:3.00239.001.001.
001.001.00.440.005.001.00
1.022.06241 、ool、oot 、oot
 、001.03342.001.003.042゜0
17.00143.044.062.001.001.
00144.001.001.001.001.044
45.066.058.012.001.00146・
002・002.006.305.00147.001
.001.001.001.03448・022・02
7.001.001.00149.019.001.0
01.001.00150・016.005.001.
001.04751.017.006.132.223
.00952・035 、’006.003.001.
00153.015.010.022.004・004
54・001.001.001.003.09055.
001.141.001.001.00656・001
.001.001.001.04557.028.00
1.268.006.00158・001 ’、001
 ;QOI 、001.02059・001.001.
001.001.00660.011.069.001
.001・01661.001.001.001.00
3.00662.004.001.001.028.0
0563・004・001.001.001.0016
4・016・001.001.001.002表  6 状   態 う 〕 〕 681− 状  −態 、001  .001  .001  .001 .0
26.001  .032 .096 .441 .0
01.001  .001  .001 .001  
.017.001  .001 .001 .001 
.007.001  .001  .001 .001
 .068.001  .001  .066 .06
6 .001.003  .001  .360 .1
28 .013.001  .005   、’001
 .001 .001.00i   、001  .0
01 .001 .001.591  .001  .
001 .001 .136.001  .001  
.001  。001  .001.003  .00
1  .001 .001 .012.001  .0
01.001 .001 .004・003  .24
2 .001 .003  、OOL、001  .0
01  .001 .001  .025.001  
.001  .001 .001  、’008.03
6   .012  .149  .004  .04
7.001   .001   .001  .001
   .058.009 .001  .001 .0
01  .005.001   .001   .00
1  .001  .021.003   .028 
  .009  .001   .001.064  
 .001   .001  .001   .029
.003   .012   .133   .001
   .001.001   .001   .001
   .001   .021.001   .001
   .001   .001   .001.001
   .005   .003   .072   .
001.112   .001   .001   .
001   .053.001   .001   .
001   .001   .001.001   .
001   .001   .001   .009.
001   .001   .001   .001 
  .001.001   .001   .001 
  .001   .004表  7 状  態 32.001.001.001.001.0021状 
 態 34.052.001.019−001.0%935.
001、.184.001.039.00136.10
8.001.001.001.08537.010.0
01.001.001.0293B 、025.001
.048.001−0313g 、001.236.0
11.025.0014Q 、001.059−029
.054.0i341、.001..002.001.
001.00142.008.001’ 、001.0
01.01743 、’002.001.001.00
1.01444・001 、Ull 、001.020
.00145.004 、ool 、001.001.
01646 、tJ34.001.001.001.0
3247.001.001.001.180.0014
8.001.001.001.001.04149.0
50.001.001.001.01950.001 
、o83.033 、oOl 、01051.201.
001.001.001.13552.001.001
.001.001.00353.014.001.01
0.001.01154.030.001.001.0
18.00555.004.001.001.001.
01256.001.016.015.146.002
57.040.001.0(H,001,10158,
006,001,001,001,00159,001
,053,001,007,00160,001,00
2,062,001,00861,044,001,0
01,001,01662,04,8,003,001
,001,,00863,001,001,001,0
01,00164,010,001,001,001,
035各状態の列には64種の原形の確率があるので行
列の太きさは5×64となる。数字「5」および「9」
に対応する表6および7は同様な方法でまとめだもので
ある。
第2図のフローチャートで示しだように、ROM360
F記憶されるマルコフモデルは、パターンインデクスk
によってアドレス付けされ、そこから連続して検索され
る。各モデルに対し、音声パターン量子化特性係号列が
モデルに合致するような確率の信号が生成される。確率
信号を生成する装置は第5図および第6図でより詳細に
示される。一般にはマルコフモデルが第一に選択される
。認識さ力、る音声パターンに対し、モデルは1フレー
ム毎に入力の量子化信号系列01.02、・・・、Ot
、・・・OT  と比較・評価される。最後の音声パタ
ーンフレームに対する評価が完了すると、音声パターン
量子化信号系列がモデルから導出さ力2る最大確率に対
応する信号が発生される。
第3図の回路で用いられる左から右への隠わ、マルコフ
モデルの制約により、フレームt=1の初期状態は第1
図9状態1だはであり、丑だ初期状態の対数確率信号は
、 φ1 (1) =l’n (bl (O□))    
(7)と表わさり、るということが要求さり、る。
φ1(1)の値は、その数字の行列Bの状態10列のm
−14の場所から取り出さり、る。フレームt=1の対
数確率信号φ1(1)、但しi = 2.3.4、およ
び5は、モデルではこわ、らの状態が許され々いので、
負に設定される。その後、数字に対する行列への遷移確
率信号と表1の第2の音声パターンフレーム量子化信号
インデクスmに対応する行列Bのシンボル生起確率信号
とを用いて、An(φz(j))信号がt=2のフレー
ムに対し、 φ2 (j)=mix (φ1(i)+4n(aljb
j(02))  (8)に従って生成される。但しma
X(1、j−2)zi /−jである。音声パターンフ
レーム2の各行き光状態Jに対し、信号φ2(J)が記
憶され、ている。フレーム列の連続する状態に対する対
数確率信号はその後数字のモデルのAおよびB行列信号
と量子1ヒ音声パタ一ン信号インデクスtのフレーム列
とを用いて発生される。最後のフレームTの処理の後、
他の状態への遷移の許さ力、ない最終状態5からの数字
モデルに対する最大対数確率信号が得られる。状態5は
吸収状態である。数字の集合に対する信号処理は、連続
的に実行され、対応する数字識別信号と同様に最大対数
確率信号の最大のものが記憶に保持される。数字「9」
に対するモデル処理の完了によって、音声パターンは保
持されている最大対数確率信号に対する数字識別コード
として識別さり、る。
処理回路340で実行される第2図の箱225.230
.235および240のマルコフモデル処理は第5図の
フローチャートに示されている。最初に量子化モードの
終了とともに箱220から箱501に入る。対数最大確
率信号はその最小値−(3)に設定され、選択された参
照パターンインチフスに*は−1に設定される。参照パ
ターンインチフスには−1にリセットされ(箱505)
、0に増加される(箱507)。その後、現在の参照パ
ターンインチフスには箱510に従って最終のインチフ
ス値にと比較される。この時点でに=Qであるから、箱
515が選ば力、てに=0の数字、すなわち「O」に対
する行列AおよびBの信号がアドレスされて参照パター
ンマルコモデル信号の記憶360から処理回路340を
経てRAM350へ転送される(箱515)。その後、
数字「0」に対する対数確率信号1nPcが箱520に
よって発生きれる。前述のように1nPo 信号は量子
化入力音声パターンが数字rOJに対するマルコフモデ
ルから得られるという確軍ヲ表わす。第6図のフローチ
ャートはtnPk信号生成の詳細な装置を示している。
第6図では、表5の行列Bの第1列のm−14の信号に
対応して信号φ1(1)はtn (btjol))に設
定され、る(箱601)。現状態インデクスlは1に設
定さワ、(箱605)、増加される(箱607)。i>
Nの最終状態になるまで、1−2.3、=・Nに対する
tnφ1(i)は−■に設定される。φ1(1)、φ1
(2)、・・・φ1(5)信号の集合はRAM350に
記憶される。こわ、らのφ1(i)は、マルコフモデル
はその第1の音声パターンフレームの第1の状態から開
始すると−う制約Vこ対応している。第7図は、連続す
る入力音声時間フレーム1.2.3お」:び4に対する
マルコフモデルの状態系列を説明する格子状の図である
。列710は音声パターン量子化インデクス信号が01
=14である最初のフレームに対応している。列720
.730および740は第2、第3および第4のフレー
ムをそれぞれ表わしている。
マルコフ状態は各列において上から下への順序で並べら
れ、ている。第7図に示す通り、状態1だけが最初の時
間フレームとして可能である。
最初の時間フレームφ1(1)信号が生成された後、入
力音声時間フレームインチフスtが1に設定され増加さ
れるべく、箱615および620に順に入る。時間フレ
ームインチフスtは最終時間フレームTよりも大きくな
いから(判断用の箱625)、箱630によって行き光
状態インデクスJはOに設定される。
行き先インデクスjは箱635で1だけ増加され最終状
態N=5と比較される(判断用の箱640)。第1図の
隠れマルコフモデルの制約に従って、次の2つの隣接す
る状態への遷移だけが可能である。結果的に、現状態イ
ンデクスiは0に設定さ、l″1.(箱650)、マル
コフモデルの制約に従がい1だけ増加される(箱652
)。最大のφ2〔i)、βは最初は−OOK設定される
(箱650)。増加された現状態インデクスiは箱65
4に従って現在の行き先の状態インデクスj−4と比較
され、音声パターン時間フレームt−2、前フレームの
現状態インチフスi = 1および行き光状態インデク
ス3−1という形で信号を生成する箱660に入る。箱
660の信号αは列710の状態1(L=1)から列7
20の状態2(t=2)への経路に対応し、その値は以
前に発生された信号φ1(1)とin (al l b
+ (02) )との和によって得られる。信号インチ
フス02は表1のフレームt=2に対する量子化音声パ
ターン信号である。信号allは、表2の行列への信号
の列i = 1、行j=1から得られ、b(02)は表
5の数字「0」の行列Bの状態10列のm−14の場所
から得られ、る。この時α=−10,’2で、βは箱6
65および670によってこの値に設定される。そして
現状態のインチフスの増加(箱652)K移り、1は2
になる。
現状態インチフスiは行き光状態インデクスj=1より
も犬なのでφ2(1)はβに設定され(箱654および
656)、行き光状態インデクスJは2に増加される(
箱635)。現状態インチフスiは箱650および65
2において0にリセットされ1だけ増加される。
t=2、i = 1、j=2のインチフスに対する信号
αは箱660で生成される。このようにして、列710
の状!2!1から列720の状態2への経路は第7図の
ようにだどられ、る。
t=2.1=1、j=2の値のαはβ= −o。
の信号を置き換えるC箱665および670)。
t=2、i = 2、j=2に対して信号αが生成され
ると、φ1(2)=−■だからβより小となる。従って
箱6γ0ではβは変更さり、ない。現状態インチフスl
はその後増加される(箱652)。増加したインチフス
i −= 3はi = 2より犬だから、φ2(2)は
t=2、i=1およびj=2に対して得られたβの値に
々る(箱656)。同様にφ2(3)は第7図に示され
るようにt=2、i = 1およびj=3に対する信号
αに設定される。i > 1に対するφ1(i)信号は
−■に設定される。従ってj>3に対するφ2(j)信
号は一■に設定される。表8.9および10は各時間フ
レームtのマルコフモデル状態に対する対数確率信号φ
t (j)を示すものである。
50 −1.83.9   −184.2  −186
.9   −:lb、b    −190,ソ表8の第
2行は、第2の音声フ!ノームに対する第6図に示した
マルコフモデル信号処理で得られたφ2(1)、φ2 
(2) 、φ2 (3) 、φ2(4)およびφ2(5
)に対する値である。
行き光状態jが判断用の箱640で最終状態N=5より
大きくなると第2の音声フレームの処理は完了する。こ
の時点で、音声フレームインデクスtは3に増加されC
箱620)、信号φ3(j)の処理が箱630で開始さ
れる。
第7図に示すように、t=3の音声パターンフレームの
可能な遷移には、フレーム2(列720)の状態1から
フレーム3(列730)の状態1.2および3、フレー
ム2(列720)の状態2からフレーム3(列γ30)
の状態2.3および4そしてフレーム2(列720)の
状態3からフレーム3(列730)の状態3.4および
5への遷移が含まれる。信号φ3(j)の処理は、式(
8)に従って前の音声パターン時間フレームに関して述
べたように実行される。しかしフレームt=3およびそ
hに続くフレームには各行き光状態に対し5以上の元の
状態がある。例えば、第7図において列730の状態2
は列720の状態1および2から到達でき、列730の
状態3は列720の状態、1.2あるいは3から到達で
きる。各行き光状態に対し、発生される最大の信号αは
箱665および610の操作を通して信号φs (j)
として保持される。列730の状態2については、 t=3のフレームで得られるφ3(1)、φ3(2)、
φ3(3)、φ3(4〕 およびφ3(5)の信号は表
8の第3行に記載されており、t−4のフレーム処理の
結果であるφ4(j)信号は表8の第4行に記載されて
−る。
連続する音声フレームについて第6図に示した信号処理
は隠れマルコフモデルの制約に従って、各音声パターン
時間フレームの各状態に対し数字「0」のモデルAおよ
び8行列の信号から導出される。入力音声パターン「9
・」の最大確率を得るよって実行される。
インデクスt−36、i = 5、j二5に対しαが得
られ、た後、最後の時間フレーム(T=36)の処理が
箱665.670.652.654および656を経て
完了する。そして最終状態N’= 5 K対する信号φ
T(N)=−158,0が生成される(箱656)。こ
の信号は、音声パターンが数字rOJのマルコフモデル
から導出される最大の対数確率を表わし、表8の最終行
(t=36 )の最後の位置に記載さh、て論る。
フレームtが最後の音声パターンフレームT−36より
大になると、判断用の箱625から箱628に入り、「
o」に対する最大確率信号が記憶される。それから第5
図の箱507に戻り、数字「1」に対するマルコフ処理
が開始される。表9および1oは数字「5」および「9
」に対するマルコフモデル処理を説明している。
箱525および530に示されているように、各数字に
対する量大対数確率信号が生成された後、前の数字の確
率の値の最大のものと比較され最大の値とその識別コー
ドに*だけが記憶される。数字「o」に対する処理が終
了すると、箱530に従ってtnPmaxは−158,
0に設定され(表8)k*は0[設定される。入力音声
パターン「9」に対し第3図の装置で得られる数字の集
合に対するtnPk 信号はフレームt−36での最後
の吸収状態5に対するものである。
数字ktn(Pk)    数字ktn(Pk)0  
  −158.0      6     −175.
31    −160.4      7     −
160.42    −184.9      8  
   −168.93    −158.8     
 9     −156.94    −186.0 5     −174.5 従ってtnPmaXとに*は、数字「9」のモデルに対
する最大対数確率信号が判断用の箱525でtnPrn
axと比較されるまで数字「0」以来変更されな込。比
較の箱での操作の結果として、箱530に入る。tnP
max信号は−156,9に設定され、k*は9となる
。マルコフモデル評価モードの終りで記憶さカ、AZ最
大確率信号は−156,9で選ばれた数字はに*−9で
ある。
ここで述べられた数字認識装置は電話番号−やクレジッ
トカード番号などの文字、数字あるbは単語の一連の発
声を認識するのにオリ用することができる。第2図の箱
240による最大確率信号p (o/K )の参照モデ
ルの選択の後、参照インデクス信号が発生されC箱24
5 )、電話交換装置あるいはビジネス処理用データ処
理装置などの応用装置280に転送される。そして判断
用の箱205に入り、音声入力の次の音声パターンを処
理する。第3図の装置は適当なマルコフモデル参照パタ
ーンを選ぶことによって句や文章のようなその他の音声
パターンの認識に拡張できる。例えば音素のような小さ
な音声要素のモデルを使用する従来のマルコフモデル音
声認識装置と比較して、本発明は参照パターンとして発
声を識別するためて例えば単語や句のような全参照パタ
ーンの単一モデルを使用する。有利な点は認識て必要な
状態数が削減され、音素やその他の基本的な音声セグメ
ントを連結する困難さが解消され、利用可能々データベ
ースにより不特定話者の操作が実現できることである。
ROM360に記憶されたマルコフモデルパターンは、
馴へかなる音源やいかなる話者からの識別された音声パ
ターンの発声から生成されたものである。すでに利用可
能な録音された発声のデータバンクからのパターンを第
3図の不特定話者認識装置のだめの話者のマルコフモデ
ルを生成するのに利用することができる。
【図面の簡単な説明】
第1図は、本発明で使用さり、る制約された隠力、マル
コフモデルの一例を示す模式図、第2図は本発明の詳細
な説明する概略フローチャート、 第3図は本発明を実現する音声認識回路のブロック図、 第4.5および6図は第3図の音声認識回路の動作の一
部を説明するだめのより詳細なフローチャート、 第7図は第3図の回路の動作を説明する格子状の図であ
る。 出願人   ウェスターン エレクトリックカムパニー
  インコーポレーテツド 第1頁の続き e発 明 者 マン・モーハン・ソンドヒアメリカ合衆
国07922ニュージ ャーシイ・ユニオン・パーフレ イ・ハイツ・アップルツリー・ ロード75 689−

Claims (1)

  1. 【特許請求の範囲】 1 複数個の参照パターンの1つとして発声を認識する
    だめの音声分析器であって、そわぞれ制約された隠れマ
    ルコフモデルの参照パターンに対応する複数個の信号を
    記憶する手段と、 前記発声に応動して、発声の音声パターンを表わす音響
    特性信号の時間フレーム系列を構成する手段と、 前記の音声パターン特性信号に応動して、前記の音声パ
    ターンを表わす所定の選択された特性信号の系列を発生
    する手段とを含み、 選択された特性信号の前記の系列と各参照パターンの制
    約された隠れマルコフモデル信号とに応動して、音声パ
    ターンが参照パターンである確率を表わす信号を発生す
    るとともに、 前記の確率を表わす信号に応動して、音声パターンを前
    記の参照パターンの1つであることを識別する、音声分
    析器。 2、特許請求の範囲第1項に記載の音声分析器において
    、 各参照パターンの制約された隠h、マルコフモデル信号
    を記憶する前記の手段が、初期状態に対応する信号と、
    中間状態に対応する複数個の信号と、最終状態に対応す
    る信号とを含むマルコフモデルの状態に対応する信号の
    集合を記憶する手段と、所定の状態の対の間の遷移確率
    に各々対応する信号の集合を記憶する手段と、 定められた状態に生起する所定の特性信号の確率を各々
    表わす信号の集合を記憶する手段とを含むことを特徴と
    する音声分析器。 3 %許請求の範囲第2項に記載の音声分析器において
    、 各参照パターンモデルに対し前記の確率を表わす信号を
    発生する手段が、 音声パターンフレーム処理間隔信号を連続的に発生する
    よう動作し、 現在の音声パターンフレーム処理間隔において、現在の
    音声パターンフレームの選択された所定の特性を表わす
    信号と、参照パターンのマルコフモデル信号に応動して
    、参照パターンマルコフモデルが前記の音声フレーム間
    に定められた状態にある尤度2表わす信号の集合を生じ
    るよう動作し、最後の音声パターンフレーム処理間隔に
    おいて、最後の音声パターンフレーム間に参照パターン
    マルコフモデルに対応する信号が最終状態であることを
    表わす尤度に応動して、音声パターンが参照パターンマ
    ルコフモデルから得らhる確率を表わす信号を形成する
    ように動作することを特徴とする音声分析器。 4 特許請求の範囲第3項に記載の音声分析器において
    、 各音声パターンフレーム処理間隔ておいて、前記の尤度
    を表わす信号を作る前記の手段が、前記のマルコフモデ
    ル状態信号と前記の遷移確率信号と前記の特性信号生起
    確率信号とに応動して、現在のフレーム捷での音声パタ
    ーン部分に対応する参照パターンマルコフモデルが参照
    パターンマルコフモデルの状態のそれぞれにあるという
    確率を表わす信号の集合を発生することを特徴とする音
    声分析器。 5 特許請求の範囲第4項に記載の音声分析器において
    、 前記音声分析器が、前記の参照パターンの音響特性の範
    囲をおおう定められた数の音響特性信号を記憶する手段
    を含むような音響特性を表わす信号の定められた集合を
    記憶する手段を含むことを特徴とする音声分析器。 6 特許請求の範囲第5項に記載の音声分析器において
    、 定められた数の音響特性信号を記憶する前記の手段が、
    前記の参照パターンの音響。 特性の範囲をおおう定められた数の線形予測特性原形信
    号を記憶する手段を含み、音声パターンを表わす音響特
    性信号の系列を構成する前記の手段が、音声パターンを
    表わす線形予測パラメータ特性信号の系列を構成する手
    段を含むことを特徴とする音声分析器。 7 特許請求の範囲第4項に記載の音声分析器において
    、 第1の識別状態lから第2の識別状態Jへの遷移でj<
    1かつj > i + 2の場合に対応する遷移確率信
    号が0値の信号であることを特徴とする音声分析器。 8 特許請求の範囲第1項乃至第71項のいずれかに記
    載の音声分析器におじで、 前記の音声パターンが単語の発声であり、前記の参照パ
    ターンが識別された音声単語パターンであることを特徴
    とする音声分析器。
JP58191711A 1982-10-15 1983-10-15 音声分析器 Granted JPS5991500A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US06/434,516 US4587670A (en) 1982-10-15 1982-10-15 Hidden Markov model speech recognition arrangement
US434516 1982-10-15

Publications (2)

Publication Number Publication Date
JPS5991500A true JPS5991500A (ja) 1984-05-26
JPH0422276B2 JPH0422276B2 (ja) 1992-04-16

Family

ID=23724541

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58191711A Granted JPS5991500A (ja) 1982-10-15 1983-10-15 音声分析器

Country Status (5)

Country Link
US (1) US4587670A (ja)
JP (1) JPS5991500A (ja)
CA (1) CA1187995A (ja)
DE (1) DE3337353C2 (ja)
FR (1) FR2534719B1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61262799A (ja) * 1985-03-21 1986-11-20 アメリカン テレフオン アンド テレグラフ カムパニ− ヒドン形式マルコフモデル音声認識方法
JPS63259697A (ja) * 1987-04-03 1988-10-26 アメリカン テレフォン アンド テレグラフ カムパニー 音声認識方法

Families Citing this family (185)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4718092A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition activation and deactivation method
US4718088A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition training method
US4713778A (en) * 1984-03-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
US4713777A (en) * 1984-05-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method having noise immunity
US5218668A (en) * 1984-09-28 1993-06-08 Itt Corporation Keyword recognition system and method using template concantenation model
US4852171A (en) * 1984-11-09 1989-07-25 Alcatel Usa Corp. Apparatus and method for speech recognition
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
US4741036A (en) * 1985-01-31 1988-04-26 International Business Machines Corporation Determination of phone weights for markov models in a speech recognition system
US5165007A (en) * 1985-02-01 1992-11-17 International Business Machines Corporation Feneme-based Markov models for words
CA1243779A (en) * 1985-03-20 1988-10-25 Tetsu Taguchi Speech processing system
JPH0632012B2 (ja) * 1985-03-25 1994-04-27 株式会社東芝 音声認識装置
US4980918A (en) * 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US4833712A (en) * 1985-05-29 1989-05-23 International Business Machines Corporation Automatic generation of simple Markov model stunted baseforms for words in a vocabulary
US4819271A (en) * 1985-05-29 1989-04-04 International Business Machines Corporation Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments
US4977599A (en) * 1985-05-29 1990-12-11 International Business Machines Corporation Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence
US4759068A (en) * 1985-05-29 1988-07-19 International Business Machines Corporation Constructing Markov models of words from multiple utterances
GB2179483B (en) * 1985-08-20 1989-08-02 Nat Res Dev Apparatus and methods for analysing data arising from conditions which can be represented by finite state machines
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
GB8527913D0 (en) * 1985-11-12 1985-12-18 Pa Consulting Services Analysing transitions in finite state machines
CA1311059C (en) * 1986-03-25 1992-12-01 Bruce Allen Dautrich Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words
JPS62231993A (ja) * 1986-03-25 1987-10-12 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声認識方法
US4827521A (en) * 1986-03-27 1989-05-02 International Business Machines Corporation Training of markov models used in a speech recognition system
GB8608289D0 (en) * 1986-04-04 1986-05-08 Pa Consulting Services Noise compensation in speech recognition
US4882759A (en) * 1986-04-18 1989-11-21 International Business Machines Corporation Synthesizing word baseforms used in speech recognition
US4918733A (en) * 1986-07-30 1990-04-17 At&T Bell Laboratories Dynamic time warping using a digital signal processor
US4811199A (en) * 1987-05-08 1989-03-07 Kuechler William L System for storing and manipulating information in an information base
US4817156A (en) * 1987-08-10 1989-03-28 International Business Machines Corporation Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker
GB8908205D0 (en) * 1989-04-12 1989-05-24 Smiths Industries Plc Speech recognition apparatus and methods
US5278911A (en) * 1989-05-18 1994-01-11 Smiths Industries Public Limited Company Speech recognition using a neural net
DE3916478A1 (de) * 1989-05-20 1990-11-22 Standard Elektrik Lorenz Ag Neuronale netzwerkarchitektur
US5220639A (en) * 1989-12-01 1993-06-15 National Science Council Mandarin speech input method for Chinese computers and a mandarin speech recognition machine
US5119425A (en) * 1990-01-02 1992-06-02 Raytheon Company Sound synthesizer
US5148489A (en) * 1990-02-28 1992-09-15 Sri International Method for spectral estimation to improve noise robustness for speech recognition
DE4110300C2 (de) * 1991-03-28 1995-04-06 Telefonbau & Normalzeit Gmbh Verfahren zur Erweiterung des Wortschatzes für sprecherunabhängige Spracherkennung
JP2979711B2 (ja) * 1991-04-24 1999-11-15 日本電気株式会社 パターン認識方式および標準パターン学習方式
US5276766A (en) * 1991-07-16 1994-01-04 International Business Machines Corporation Fast algorithm for deriving acoustic prototypes for automatic speech recognition
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
US5222146A (en) * 1991-10-23 1993-06-22 International Business Machines Corporation Speech recognition apparatus having a speech coder outputting acoustic prototype ranks
US5371779A (en) * 1992-03-13 1994-12-06 Nec Corporation Call initiating system for mobile telephone units
JPH0782348B2 (ja) * 1992-03-21 1995-09-06 株式会社エイ・ティ・アール自動翻訳電話研究所 音声認識用サブワードモデル生成方法
US5297183A (en) 1992-04-13 1994-03-22 Vcs Industries, Inc. Speech recognition system for electronic switches in a cellular telephone or personal communication network
US5745873A (en) * 1992-05-01 1998-04-28 Massachusetts Institute Of Technology Speech recognition using final decision based on tentative decisions
US5535305A (en) * 1992-12-31 1996-07-09 Apple Computer, Inc. Sub-partitioned vector quantization of probability density functions
US5515475A (en) * 1993-06-24 1996-05-07 Northern Telecom Limited Speech recognition method using a two-pass search
GB2285700B (en) * 1994-01-12 1998-06-24 Drallim Ind Monitoring apparatus and method
CN1063554C (zh) * 1994-03-03 2001-03-21 李琳山 中文电脑的汉语语音输入***及其方法
US5825978A (en) * 1994-07-18 1998-10-20 Sri International Method and apparatus for speech recognition using optimized partial mixture tying of HMM state functions
DE19508711A1 (de) * 1995-03-10 1996-09-12 Siemens Ag Verfahren zur Erkennung einer Signalpause zwischen zwei Mustern, welche in einem zeitvarianten Meßsignal vorhanden sind
JP3703164B2 (ja) * 1995-05-10 2005-10-05 キヤノン株式会社 パターン認識方法及びその装置
US5752001A (en) * 1995-06-01 1998-05-12 Intel Corporation Method and apparatus employing Viterbi scoring using SIMD instructions for data recognition
CA2209948C (en) * 1995-11-17 2000-12-26 At&T Corp. Automatic vocabulary generation for telecommunications network-based voice-dialing
US5937384A (en) * 1996-05-01 1999-08-10 Microsoft Corporation Method and system for speech recognition using continuous density hidden Markov models
US5865626A (en) * 1996-08-30 1999-02-02 Gte Internetworking Incorporated Multi-dialect speech recognition method and apparatus
DE19640587A1 (de) * 1996-10-01 1998-04-02 Siemens Ag Verfahren zur Berechnung eines Schwellenwertes für die Spracherkennung eines Schlüsselwortes
DE19705471C2 (de) * 1997-02-13 1998-04-09 Sican F & E Gmbh Sibet Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen
US6253178B1 (en) 1997-09-22 2001-06-26 Nortel Networks Limited Search and rescoring method for a speech recognition system
US6157731A (en) * 1998-07-01 2000-12-05 Lucent Technologies Inc. Signature verification method using hidden markov models
US6633846B1 (en) 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US6615172B1 (en) 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US6665640B1 (en) 1999-11-12 2003-12-16 Phoenix Solutions, Inc. Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6671669B1 (en) * 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
US6850888B1 (en) * 2000-10-06 2005-02-01 International Business Machines Corporation Methods and apparatus for training a pattern recognition system using maximal rank likelihood as an optimization function
US6754626B2 (en) * 2001-03-01 2004-06-22 International Business Machines Corporation Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context
JP4048741B2 (ja) * 2001-07-24 2008-02-20 セイコーエプソン株式会社 Hmmの出力確率演算方法および音声認識装置
WO2004047076A1 (ja) * 2002-11-21 2004-06-03 Matsushita Electric Industrial Co., Ltd. 標準モデル作成装置及び標準モデル作成方法
DE102004017548B4 (de) * 2004-04-07 2007-12-27 Medav Gmbh Verfahren zur Erkennung und Analyse von Funksignalen
US7542949B2 (en) * 2004-05-12 2009-06-02 Mitsubishi Electric Research Laboratories, Inc. Determining temporal patterns in sensed data sequences by hierarchical decomposition of hidden Markov models
US8521529B2 (en) * 2004-10-18 2013-08-27 Creative Technology Ltd Method for segmenting audio signals
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9530412B2 (en) * 2014-08-29 2016-12-27 At&T Intellectual Property I, L.P. System and method for multi-agent architecture for interactive machines
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9741342B2 (en) 2014-11-26 2017-08-22 Panasonic Intellectual Property Corporation Of America Method and apparatus for recognizing speech by lip reading
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3909532A (en) * 1974-03-29 1975-09-30 Bell Telephone Labor Inc Apparatus and method for determining the beginning and the end of a speech utterance
US4156868A (en) * 1977-05-05 1979-05-29 Bell Telephone Laboratories, Incorporated Syntactic word recognizer
US4277644A (en) * 1979-07-16 1981-07-07 Bell Telephone Laboratories, Incorporated Syntactic continuous speech recognizer
US4348553A (en) * 1980-07-02 1982-09-07 International Business Machines Corporation Parallel pattern verifier with dynamic time warping
US4400788A (en) * 1981-03-27 1983-08-23 Bell Telephone Laboratories, Incorporated Continuous speech pattern recognizer
US4363102A (en) * 1981-03-27 1982-12-07 Bell Telephone Laboratories, Incorporated Speaker identification system using word recognition templates
US4481593A (en) * 1981-10-05 1984-11-06 Exxon Corporation Continuous speech recognition

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
IEEE TRANS COMMUN=1980 *
IEEE TRANSACTIONS ON ACOUSTICS SPEECH AND SIGNAL PROCESSING=1975 *
KIBERNETIKA=1968 *
PROC OF THE IEEE=1976 *
SPEECH RECOGNITION INVITED PAPERS PRESENTED AT THE 1974 IEEE SYMPOSIUM=1975 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61262799A (ja) * 1985-03-21 1986-11-20 アメリカン テレフオン アンド テレグラフ カムパニ− ヒドン形式マルコフモデル音声認識方法
JPH0555040B2 (ja) * 1985-03-21 1993-08-16 American Telephone & Telegraph
JPS63259697A (ja) * 1987-04-03 1988-10-26 アメリカン テレフォン アンド テレグラフ カムパニー 音声認識方法

Also Published As

Publication number Publication date
JPH0422276B2 (ja) 1992-04-16
US4587670A (en) 1986-05-06
FR2534719B1 (fr) 1986-09-19
DE3337353C2 (de) 1996-05-09
DE3337353A1 (de) 1984-04-19
CA1187995A (en) 1985-05-28
FR2534719A1 (fr) 1984-04-20

Similar Documents

Publication Publication Date Title
JPS5991500A (ja) 音声分析器
CA2351988C (en) Method and system for preselection of suitable units for concatenative speech
US5865626A (en) Multi-dialect speech recognition method and apparatus
Lee Context-independent phonetic hidden Markov models for speaker-independent continuous speech recognition
US6085160A (en) Language independent speech recognition
US5581655A (en) Method for recognizing speech using linguistically-motivated hidden Markov models
US5873061A (en) Method for constructing a model of a new word for addition to a word model database of a speech recognition system
JPS58102299A (ja) 部分単位音声パタン発生装置
CN112581963B (zh) 一种语音意图识别方法及***
Razak et al. Quranic verse recitation recognition module for support in j-QAF learning: A review
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
US5812974A (en) Speech recognition using middle-to-middle context hidden markov models
US20040006469A1 (en) Apparatus and method for updating lexicon
EP0042590B1 (en) Phoneme information extracting apparatus
GB2465383A (en) A speech recognition system using a plurality of acoustic models which share probability distributions
JPH1097293A (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
JPH0774960B2 (ja) テンプレ−ト連鎖モデルを使用するキ−ワ−ド認識方法およびシステム
JP2980382B2 (ja) 話者適応音声認識方法および装置
JP2002532763A (ja) 音声によって動作される自動問合せシステム
JP3231365B2 (ja) 音声認識装置
JP3357752B2 (ja) パターンマッチング装置
JPH04271397A (ja) 音声認識装置
KR100236962B1 (ko) 음소별 화자 종속 변이음 모델링 방법
Pagarkar et al. Language Independent Speech Compression using Devanagari Phonetics