JPH0642153B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH0642153B2
JPH0642153B2 JP1331727A JP33172789A JPH0642153B2 JP H0642153 B2 JPH0642153 B2 JP H0642153B2 JP 1331727 A JP1331727 A JP 1331727A JP 33172789 A JP33172789 A JP 33172789A JP H0642153 B2 JPH0642153 B2 JP H0642153B2
Authority
JP
Japan
Prior art keywords
time series
codebook
representative
probability
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1331727A
Other languages
English (en)
Other versions
JPH03191400A (ja
Inventor
均 岩見田
滋 片桐
エリックマクダーモット
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR AUDITORY VISUAL PERCEPTION
EI TEI AARU SHICHOKAKU KIKO KENKYUSHO KK
Original Assignee
ATR AUDITORY VISUAL PERCEPTION
EI TEI AARU SHICHOKAKU KIKO KENKYUSHO KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR AUDITORY VISUAL PERCEPTION, EI TEI AARU SHICHOKAKU KIKO KENKYUSHO KK filed Critical ATR AUDITORY VISUAL PERCEPTION
Priority to JP1331727A priority Critical patent/JPH0642153B2/ja
Publication of JPH03191400A publication Critical patent/JPH03191400A/ja
Publication of JPH0642153B2 publication Critical patent/JPH0642153B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 [産業上の利用分野] この発明は音声認識装置に関し、特に、離散型の穏れマ
ルコフモデル(以下、HMMと称する)を用いた音声認
識装置に関する。
[従来の技術] 第5図は従来のHMMを用いた音声認識装置の原理を示
す図である。第5図を参照して、符号帳作成手段1は多
数の音声特徴ベクトルからこれらを最もよく近似する複
数個の代表ベクトルの集合を求めるものであり、求めた
複数個の代表ベクトルを符号化手段3に与える。符号化
手段3は与えられた複数個の代表ベクトルの集合を符号
帳として音声特徴ベクトルを符号化し、HMM訓練手段
4とHMM認識手段5とに与える。HMM訓練手段4は
複数の音声特徴ベクトル時系列を符号化して得られた複
数の符号時系列を訓練用データとして離散型のHMMを
訓練する。一方、HMM認識手段5は音声特徴ベクトル
時系列を符号化して得られた符号時系列を認識用データ
としてHMM訓練手段で訓練されたHMMで認識を行な
い、認識結果を出力する。
[発明が解決しようとする課題] 上述の第5図に示した音声認識装置において、音声特徴
ベクトルに対して正しいカテゴリでの生成確率が大きく
なるように訓練されるが、誤ったカテゴリでの確率を小
さくするような訓練は行なわれない。このため、高い音
声認識性能を得ることができないという問題点があっ
た。
それゆえに、この発明の主たる目的は、高い音声認識性
能を得ることができるような離散型のHMMを用いた音
声認識装置を提供することである。
[課題を解決するための手段] 第1図はこの発明の原理を示す図であり、多数の音声特
徴ベクトルからこれらを最もよく近似する複数個の代表
ベクトルの集合を求める符号帳作成手段1と、符号帳を
構成している各代表ベクトルにカテゴリ名を付与し、複
数の音声特徴ベクトルを符号化する際に用いられる代表
ベクトルのカテゴリと音声特徴ベクトルのカテゴリとが
一致する個数が増加するように代表ベクトルを逐次的に
更新する符号帳学習手段2と、複数個の代表ベクトルの
集合を符号帳として、入力された音声特徴ベクトルとの
ユークリッド距離が最も近い代表ベクトルの符号番号を
符号時系列として出力する符号化手段3と、複数の音声
特徴ベクトル時系列を符号化して得られた複数の符号時
系列について、その生成確率が最大となるような遷移確
率と出力確率を求め、訓練用データとして離散型のHM
Mを訓練する訓練手段4と、音声特徴ベクトル時系列を
符号化して得られた符号時系列を入力とし、遷移確率と
出力確率とを組合わせて、入力された符号時系列を生成
する確率を計算し、最も生成確率の高い音声を求めて出
力する認識手段5とによって構成される。
[作用] この発明にかかる音声認識装置は、多数の音声特徴ベク
トルからこれらを最もよく近似する複数個の代表ベクト
ルの集合を求め、各代表ベクトルにカテゴリ名を付与
し、複数の音声特徴ベクトルを符号化する際に用いられ
る代表ベクトルのカテゴリと音声特徴ベクトルのカテゴ
リとが一致する個数が増加するように代表ベクトルを逐
次的に更新し、これらの複数個の代表ベクトルの集合を
符号帳として音声特徴ベクトルを符号化し、符号化して
得られた複数の符号時系列を訓練用データとして離散型
のHMMを訓練し、訓練されたHMMで認識を行なう。
[発明の実施例] 第2図はこの発明の一実施例の概略ブロツク図である。
この実施例においては、日本語23音韻の音韻認識を行
なう場合について説明する。音韻データ11は各音韻カ
テゴリあたり100個ずつの音韻サンプルからなり、1
つの音韻サンプルは音韻特徴ベクトルの時系列からな
る。音韻特徴ベクトルは、たとえば16次元のパワース
ペクトルである。K−平均クラスタリング手段12は、
学習用の音韻サンプルのすべての音韻特徴ベクトルを、
音韻カテゴリごとにK−平均クラスタリング法を用いて
クラスタリングし、1音韻カテゴリあたり10個ずつの
代表ベクトルを求める。そして、全音韻カテゴリについ
て求めた総計230個の代表ベクトルを符号帳13とす
る。
符号帳13の各代表ベクトルには、それぞれの音韻カテ
ゴリ名が付与される。LVQ学習手段14は、学習ベク
トル量子化法(以下、LVQと称する)を用いて、音韻
特徴ベクトルを符号化する際に用いられる各代表ベクト
ルのカテゴリと音韻特徴ベクトルのカテゴリとが一致す
る個数が増加するように代表ベクトルを逐次的に更新す
る。
第3図は第2図に示したLVQ学習手段14によるLV
Q2学習アルゴリズムを示すフロー図である。ステップ
(図示ではSPと略称する)SP1において、音韻特徴
ベクトルxとのユークリッド距離が最も小さい代表ベク
トルmと、その代表ベクトルのカテゴリ以外のカテゴ
リで最もユークリッド距離が小さい代表ベクトルm
求められる。ステップSP2において、代表ベクトルの
更新を行なうか否かの判定が行なわれる。その条件は、
の属するカテゴリと一致せず、かつmの属するカ
テゴリがxの属するカテゴリと一致することである。ス
テップSP3においては、ステップSP2での条件が成
立した場合のみ、代表ベクトルm,mの更新を行な
う。
更新は次の式で行なわれる。
′=m−a(t)(x−m) m′=m+a(t)(x−m) ここでm′,m′は更新後の代表ベクトルを示し、
a(t)は時間とともに単調減少する関数である(a
(t)>0>)。
第2図に示したLVQ学習手段14は上述の動作を学習
用の全音韻特徴ベクトルについて行ない、さらにそれを
適当な回数繰り返す。符号化手段15は、全音韻サンプ
ル(音韻特徴ベクトル時系列)について符号化を行な
い、音韻サンプル符号時系列を求める。この符号化は、
入力された特徴ベクトルとのユークリッド距離が最も近
い代表ベクトルの符号番号を出力することによって行な
われる。
HMM訓練手段16は、学習用の音韻サンプルの符号時
系列を入力とし、Baum−Welchアルゴリズムを
用いて各音韻モデル17を訓練する。
第4図は音韻モデルの構成を示す図である。第4図を参
照して、sは状態を示し、aは遷移確率を示し、bは出
力確率を示している。たとえば、状態sにおいて、こ
の状態sに留まる確率はa11であり、状態sに遷
移する確率はa12である。また、状態sに留まった
ときあるいは状態sから状態sに遷移したときコー
ドkを出力する確率はbであり、添字の1は状態
から出力された遷移であることを示している。HM
M訓練手段16は各音韻ごとに、入力された各音韻サン
プル符号時系列について、その生成確率が最大となるよ
うな遷移確率aと出力確率bを求め、それらを音韻モデ
ルとして出力する。
HMM認識手段18は認識したい音韻サンプルの符号時
系列を入力とし、前向きパスアルゴリズムを用い、遷移
確率aと出力確率bとを掛合わせて、入力された符号時
系列を生成する確率を全音韻モデルについて計算する。
そして、最も生成確率値が高くなる音韻モデルを求め、
音韻認識結果として出力する。
[発明の効果] 以上のように、この発明によれば、離散型のHMMを用
いた音声認識装置において、符号帳を構成している各代
表ベクトルにカテゴリ名を付与し、複数の音声特徴ベク
トルを符号化する際に用いられる代表ベクトルのカテゴ
リと音声特徴ベクトルのカテゴリとが一致する個数が増
加するように代表ベクトルを逐次的に更新するようにし
たので、カテゴリ境界をよりよく反映した符号帳を作成
でき、音声認識性能を向上できる。
【図面の簡単な説明】
第1図はこの発明の原理を説明するためのブロック図で
ある。第2図はこの発明の一実施例の概略ブロック図で
ある。第3図は第2図に示したLVQ2学習アルゴリズ
ムを示すフロー図である。第4図はHMM音韻モデルを
示す図である。第5図は従来のHMM音声認識装置の原
理を説明するための図である。 図において、1は符号帳作成手段、2は符号帳学習手
段、3は符号化手段、4はHMM訓練手段、5はHMM
認識手段、11は音韻データ、12はK−平均クラスタ
リング手段、13は符号帳、14はLVQ学習手段、1
5は符号化手段、16はHMM訓練手段、17は音韻モ
デル、18はHMM認識手段を示す。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 エリックマクダーモット 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール視聴覚 機構研究所内 (56)参考文献 日本音響学会講演論文集 平成元年10月 1−1−20 P.39−40

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】多数の音声特徴ベクトルからこれらを最も
    よく近似する複数個の代表ベクトルの集合を求める符号
    帳作成手段、 前記符号帳作成手段によって求められた複数個の代表ベ
    クトルの集合を符号帳として、入力された音声特徴ベク
    トルとのユークリッド距離が最も近い代表ベクトルの符
    号番号を符号時系列として出力する符号化手段、 前記符号化手段によって複数の音声特徴ベクトル時系列
    を符号化して得られた複数の符号時系列について、その
    生成確率が最大となるような遷移確率と出力確率を求
    め、訓練用データとして離散型の隠れマルコフモデルを
    訓練する訓練手段、 前記符号化手段によって音声特徴ベクトル時系列を符号
    化して得られた符号時系列を入力とし、前記遷移確率と
    出力確率とを組合わせて、入力された符号時系列を生成
    する確率を計算し、最も生成確率の高い音声を求めて出
    力する認識手段、および 前記符号帳作成手段によって作成された符号帳を構成し
    ている各代表ベクトルにカテゴリ名を付与し、複数の音
    声特徴ベクトルを符号化する際に用いられる代表ベクト
    ルのカテゴリと音声特徴ベクトルのカテゴリとが一致す
    る個数が増加するように代表ベクトルを逐次的に更新す
    る符号帳学習手段を備えた、音声認識装置。
JP1331727A 1989-12-20 1989-12-20 音声認識装置 Expired - Fee Related JPH0642153B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1331727A JPH0642153B2 (ja) 1989-12-20 1989-12-20 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1331727A JPH0642153B2 (ja) 1989-12-20 1989-12-20 音声認識装置

Publications (2)

Publication Number Publication Date
JPH03191400A JPH03191400A (ja) 1991-08-21
JPH0642153B2 true JPH0642153B2 (ja) 1994-06-01

Family

ID=18246921

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1331727A Expired - Fee Related JPH0642153B2 (ja) 1989-12-20 1989-12-20 音声認識装置

Country Status (1)

Country Link
JP (1) JPH0642153B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002536692A (ja) * 1999-02-08 2002-10-29 クゥアルコム・インコーポレイテッド 分散された音声認識システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
日本音響学会講演論文集平成元年10月1−1−20P.39−40

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002536692A (ja) * 1999-02-08 2002-10-29 クゥアルコム・インコーポレイテッド 分散された音声認識システム

Also Published As

Publication number Publication date
JPH03191400A (ja) 1991-08-21

Similar Documents

Publication Publication Date Title
Hwang et al. Character-level incremental speech recognition with recurrent neural networks
US5793891A (en) Adaptive training method for pattern recognition
US6260013B1 (en) Speech recognition system employing discriminatively trained models
US5241619A (en) Word dependent N-best search method
US6490555B1 (en) Discriminatively trained mixture models in continuous speech recognition
US8301445B2 (en) Speech recognition based on a multilingual acoustic model
US7366669B2 (en) Acoustic model creation method as well as acoustic model creation apparatus and speech recognition apparatus
EP0241768B1 (en) Synthesizing word baseforms used in speech recognition
JPH0581918B2 (ja)
JPH06175696A (ja) 音声コード化装置及びその方法並びに音声認識装置及びその方法
US20020087317A1 (en) Computer-implemented dynamic pronunciation method and system
US8185393B2 (en) Human speech recognition apparatus and method
US7454341B1 (en) Method, apparatus, and system for building a compact model for large vocabulary continuous speech recognition (LVCSR) system
Huang et al. Improved hidden Markov modeling for speaker-independent continuous speech recognition
JPH0642153B2 (ja) 音声認識装置
JPH01204099A (ja) 音声認識装置
US6928409B2 (en) Speech recognition using polynomial expansion and hidden markov models
JP3216565B2 (ja) 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体
JP2886118B2 (ja) 隠れマルコフモデルの学習装置及び音声認識装置
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
JP2005091504A (ja) 音声認識装置
EP0238693B1 (en) Speech recognition system and method using statistical models for words
JP3144341B2 (ja) 音声認識装置
JP2961797B2 (ja) 音声認識装置
Fissore et al. Strategies for lexical access to very large vocabularies

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees