JP3533696B2 - 音声認識の境界推定方法及び音声認識装置 - Google Patents

音声認識の境界推定方法及び音声認識装置

Info

Publication number
JP3533696B2
JP3533696B2 JP05060694A JP5060694A JP3533696B2 JP 3533696 B2 JP3533696 B2 JP 3533696B2 JP 05060694 A JP05060694 A JP 05060694A JP 5060694 A JP5060694 A JP 5060694A JP 3533696 B2 JP3533696 B2 JP 3533696B2
Authority
JP
Japan
Prior art keywords
boundary
phonological
phoneme
probability density
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP05060694A
Other languages
English (en)
Other versions
JPH07261789A (ja
Inventor
芳春 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP05060694A priority Critical patent/JP3533696B2/ja
Priority to US08/407,170 priority patent/US5710865A/en
Priority to TW084102772A priority patent/TW299435B/zh
Publication of JPH07261789A publication Critical patent/JPH07261789A/ja
Application granted granted Critical
Publication of JP3533696B2 publication Critical patent/JP3533696B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Complex Calculations (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は連続音声を認識し、音
韻系列に変換する音声認識装置の改良に関する。
【0002】
【従来の技術】連続音声を音韻の連結したものとみな
し、音韻モデルの連結である音韻モデル系列に従って入
力音声を分析し、入力音声に当てはまる最適な音韻モデ
ル系列をモデル演算手段によって求め、入力音声を、こ
うして得られる最適な音韻モデル系列の音韻の系列に変
換する音韻記述方式において、音韻モデル系列の当ては
めの演算とは別に、音韻の境界を直接入力音声中より検
出し、音韻モデル系列の当てはめ時に、音韻モデル間の
遷移を検出された音韻境界付近に限定することで、認識
精度の向上が達成される。この従来の音韻記述方式の詳
細は平成5年10月発行の日本音響学会講演論文集1−
8−5「状態間遷移束縛型HMMによる音韻記述」に記
載された通りである。この従来の音韻境界検出は、検出
を高精度で行うため音韻境界を前後の音韻によって分類
して、この分類に基づく音韻境界の種類毎に確率モデル
のパラメータを学習して用いている。
【0003】図8はこの種の従来の音声認識装置の構成
図である。本装置はモデル演算手段として、ビタビのア
ルゴリズムに基づくHMM演算部13を用いている。H
MM演算部13は1音韻に1状態を割り当てるHMMを
用いている。また、音韻モデル系列の境界の生成は、H
MMの状態間の遷移として現れる。更にモデル演算手段
で複数個用意された音韻モデル系列に対し、音韻系列変
換手段としての最適状態系列検出部15が最適状態系列
を検出して音韻モデル系列を選択する。以下、各部の動
作を説明する。
【0004】音声区間検出部11は、入力音声のパワー
計算により音声区間を検出し、この音声区間内の音声信
号R1を切り出して特徴抽出部1に送る。特徴抽出部1
は、音声区間内の音声信号R1中から長さ25.6ms
の時間窓を用いた15次線形予測メルケプストラム分析
によって10ms毎に0〜10次のメルケプストラム係
数からなる特徴パラメータ時系列R2を抽出し音韻モデ
ル演算手段としてのHMM演算部13及び境界検出部7
に送る。
【0005】境界検出部7は、図9のごとく構成され、
特徴パラメータ時系列R2から、音韻境界の分類に対応
して音声中の音韻境界あるいは音韻境界付近の領域を検
出する。音韻境界の分類は音韻境界をはさんで先行する
音韻名を基準にして、図10のごとく14分類してい
る。図9において、時間窓部2は、特徴パラメータ時系
列R2より時刻t=1,2,…,Tについて、時刻tを中心に時
間幅10フレームの範囲の0〜7次のメルケプストラム係数
合計80(=10フレーム×8次元)個を1つのベクトル(以
後、固定長セグメントと呼ぶ)として抽出し、これら固
定長セグメントの時系列R2を出力する。(以下、中心
時刻tの固定長セグメントをBtと記す。) 境界検出パラメータ記憶部8は、境界検出パラメータR
8が記憶されている。境界検出パラメータR8は、K
(=14)種類の音韻境界の分類番号k(k=1,2,
…,K)のクラスc(c=0,1)の固定長セグメント
の分布(これはM(=4)混合のガウス混合分布によっ
て表されている)を構成する第m番目(m=1,2,
…,M)の要素ガウス分布のパラメータとしての平均ベ
クトルμmck、共分散行列Σmck及び分岐確率λmckから
なる。境界尤度計算部9002、9004、……、90
28は、それぞれ、音韻境界のカテゴリに対応して、確
率密度R8001、R8002、……、R8028を参
照して、固定長セグメントR2の中心に音声中の音韻境
界が存在する尤度(境界尤度)を計算し、境界尤度時系
列C1(Bt)、C2(Bt)、…、CK(Bt)として出力
する。分類kの境界尤度Ck(Bt)は固定長セグメント
Btの中心に分類kの音韻境界が存在する確率Pr(Bt|
k,1)と、固定長セグメントBtの中心に分類kの音韻境
界が存在しない確率Pr(Bt|k,0)との対数尤度比として
式(1)に基づいて計算される。ここで、確率Pr(Bt|
k,1)は式(2)に基づいて、また、確率Pr(Bt|k,0)は
式(3)に基づいて計算される。なお、原理的に、変数
Ck(Bt)は、分類kの音韻境界あるいは音韻境界付近
の領域でCk(Bt)>0となることが期待される。
【0006】
【数1】
【0007】図11は音韻モデル系列としてのHMMの
構造を摸式的に示したものである。本HMMはn状態
(n=29)からなり、各状態は、1つの音韻に対応づ
けられている。状態iから状態jへの遷移確率は、aij
で、また、時刻tの特徴パラメータxtの状態jにおけ
る出力確率は、bj(xt)で示されている。出力確率bj
(xt)は、M(=8)混合の混合ガウス分布で表されて
おり、第m番目の要素ガウス分布についての平均ベクト
ルμmj及び共分散行列Σmj、分岐確率λmjをパラメータ
として、式(4)で計算される。ただし、式中、N(xt
|μmj,Σmj)は平均μmj、分散Σmjの正規確率密度関数
をあらわす。これら遷移確率aij及び出力確率計算用の
パラメータHMMパラメータ記憶部14に記憶されてい
る。
【0008】
【数2】
【0009】HMM演算部13は境界検出部7の境界検
出結果R7及びHMMパラメータR14を参照しビタビ
アルゴリズムに基づく漸化式である式(5)及び式
(6)を初期条件を表す式(7)の下で計算する。ここ
で、α(j,t)は、時刻tにおいて、状態jに留まる確率
(前向き確率)を表し、β(j,t)は時刻tに状態jに至る
一つ前の最適な状態番号を表すバックポインタである。
【0010】
【数3】
【0011】本HMMは、上記漸化式で示されたよう
に、従来のHMMとは異なり、時刻tで状態iから状態
jへの状態間遷移に際して、変数Cij(Bt)を参照し
て、Cij(Bt)>0である時だけ、状態間の遷移を許
すように音韻モデル系列の境界の生成としての状態間の
遷移を制限している。なお、同一状態内の遷移(i=j
のとき)は変数Cij(Bt)による制限はない。ここ
で、変数Cij(Bt)は、境界検出部7で計算された分
類kの音韻境界の境界尤度Ck(Bt)に対応する。分
類kは状態番号i及びjの関数k(i,j)で与えられ
る。
【0012】音韻系列変換手段としての最適状態系列検
出部15は、HMM演算結果R3として得られる前向確
率α(j,t)及びバックポインタβ(j,t)の値から、最適状
態系列R15(以後、β^(1),β^(2),…,β^(T)と記
す)を出力する。最適状態系列R15は漸化式を表す式
(8)を初期条件を表す式(9)の下で計算することで
得る。なお、最適状態系列R15は認識結果の音韻系列
を状態の番号の系列で表したものである。
【0013】
【数4】
【0014】
【発明が解決しようとする課題】従来の音韻境界検出の
方法では音韻境界の分類を予め決めた上で、この音韻境
界の分類に従って、この分類毎に境界特徴量の確率分布
モデルを構成している。このため、異なる音韻境界では
あっても、音韻境界の分類として同じに分類されること
があり、必ずしも特定の音韻境界にとって適当ではない
可能性があるという問題があった。また、従来の方法で
も、音韻境界の分類を工夫することで、各音韻境界に対
応した、個別の境界検出器を設計することは理論的には
可能であるが、実際には、滅多に現れない音韻境界に対
応する個別の境界検出器の設計は、学習データを学習に
十分な数だけ集めることは難しいため、学習データの不
足によって、十分な精度で設計ができないという問題が
あった。更に、従来の音韻モデル系列の演算において、
音韻境界の出現を、入力音声中から検出された音韻境界
あるいは音韻境界付近の領域に制限する際、音韻境界尤
度に対して設定する閾値として、音韻境界の分類によら
ず一定の値を用いていたため、音韻境界によって異なる
と考えられる音韻境界の尤度の値の分布の違い(信頼
度)が考慮されていないという問題があった。
【0015】
【課題を解決するための手段】本発明に係わる音声認識
の境界推定方法は、入力音声を分析して得られる時系列
で展開されるパラメータ群が、所定の時間幅の窓の中で
示す値をサンプルとして抽出し、前記窓の中心に音声の
境界が存在する度合いを算出する場合に、前記窓の中心
に前記音声の境界が存在する第1の確率密度と、前記窓
の中心に前記音声の境界が存在しない第2の確率密度と
を計算し、前記第1の確率密度及び前記第2の確率密度
を含む計算に基づいて前記窓の中心に音声の境界が存在
する度合いを算出する音声認識の境界推定方法におい
て、前記音声の境界の種類に依存しない共通の確率密度
の計算手段を備え、この計算手段の計算した確率密度と
第1の多項式係数を乗算し前記第1の確率密度を計算
し、またこの計算手段の計算した確率密度と第2の多項
式係数を乗算し前記第2の確率密度を計算するようにし
た。また、請求項2の発明は、入力音声を分析して時系
列の特徴パラメータに変換する特徴抽出手段と、前記時
系列の特徴パラメータから、前記入力音声中の音韻境界
または音韻境界付近の領域を検出する境界検出手段と、
前記特徴パラメータに対応する音韻モデル系列を用意
し、該モデル系列を用意する際、前記音韻モデル系列の
境界が生成される時刻を前記境界検出手段が検出した音
韻境界または音韻境界付近の領域内に限定したモデル演
算手段と、前記モデル演算手段の結果から、前記入力音
声に対応する適切な音韻モデル系列を選択する音韻系列
変換手段とを備えた音声認識装置において、前記境界検
出手段は、音韻境界の複数の種類ごとに閾値を算出し、
閾値との比較により音韻境界を検出するものである。
【0016】
【作用】この発明の音声認識の境界推定方法では、時系
列変化をするパラメータ群が所定の時間幅の窓の中で示
す値がサンプルとして抽出され、それが時間窓の中心に
境界が存在するサンプルである確率が高い1の確率密度
と、前記窓の中心に境界が存在しないサンプルである確
率が高い第2の確率密度とが計算されるにあたり、音声
の境界の種類に依存しない共通の確率密度が計算され、
この確率密度と第1の多項式係数を乗算し前記第1の確
率密度を計算し、またこの確率密度と第2の多項式係数
を乗算し前記第2の確率密度が計算される。またこの発
明の音声認識装置は、入力音声の音韻境界または音韻境
界付近の領域が推定されるにあたり、音韻境界の種類に
応じた閾値との比較により音韻境界が検出され、特徴パ
ラメータに対応する音韻モデル系列の遷移が生じる時刻
が前記音韻境界または音韻境界付近の領域に限定された
音韻モデル系列が準備され、その中から最適音韻モデル
系列が選ばれる。
【0017】
【実施例】
実施例1.以下この発明の実施例を説明する。この実施
例においては、音韻モデル系列として、1音韻に1状態
の音韻HMMを割り当てたHMM(以後、音韻系列HM
Mと呼ぶ)を用いている。従って、本実施例では、音韻
モデル系列中の音韻境界の生成は、音韻系列HMMの状
態間の遷移として現れる。なお、1音韻に複数状態を有
する音韻HMMを用いるときでも本発明は適用可能であ
ることは言うまでもなく、この場合、音韻モデル系列中
の音韻境界の生成は、音韻モデル間の遷移に対応する
(音韻系列HMM中の)状態間の遷移として現れる。ま
た、本実施例では、モデル演算手段として、通常のトレ
リスアルゴリズムに基づくHMM演算における和の演算
を最大化の演算に置き換えたビタビのアルゴリズムに基
づくHMM演算手段を用いている。なお、通常のトレリ
スアルゴリズムに基づくHMM演算においても本発明が
適用できることは言うまでもない。
【0018】従来及びこの実施例における境界検出の原
理は、境界特徴量Btが音韻境界の分布から生起する第
1の確率密度と、非音韻境界の分布から生起する第2の
確率密度を計算し、前者が後者より大きいときに音韻境
界が存在すると判定するものである。この原理の実用の
仕方として、従来は、音韻種類nの組み合わせ数(n×
n)に比べて小さな数K個に分類された音韻環境の分類
のそれぞれについて、境界特徴量の分布を混合連続分布
モデルで表現し、各カテゴリの確率密度の線形和として
第1と第2の確率密度を表現し、さらに、両者の比の対
数を取り境界尤度を表現していた。これに対して、本実
施例では、第1と第2の確率密度の表現に、セミ連続分
布モデルの考え方を取り入れて、式(10)のように境
界尤度を表現している。
【0019】
【数5】
【0020】ここで、Mは要素分布の数(コードブック
のサイズ)、fm(・)は第m番目の要素分布の確率密度
関数、Pmk及びQmkは後述する学習方法で求められる多
項式係数である。また、整数kは物理的に観測される全
ての種類の音韻境界に対して付けられた通し番号であ
り、音韻境界の種類を表す。即ち、状態iから状態jへ
の遷移に対応する音韻境界の番号は、状態iと状態jの
一意の関数k(i、j)を用いて、k=k(i,j)で
与えられる。なお、この関数kは、i≠jのときは真の
音韻境界、また、i=jのときは非音韻境界(即ち音韻
区間の中心部分)を指すものとする。上記の方法によれ
ば、境界検出器の設計の問題は、音韻境界の種類kとは
独立の要素分布の確率密度関数(fm)の設計(即ちコ
ードブックの設計)の問題と、音韻境界の種類k毎の分
子分母の多項式係数(Pmk及びQmk)の設計の問題に分
離できる。これら分母分子の多項式係数の設計に当たっ
ては、音韻境界の種類kの境界特徴量(固定長セグメン
トで表される)に対して境界尤度が高くなり、その他の
音韻境界の種類の境界特徴量に対して境界尤度が低くな
るようにすれば良い。
【0021】図1は、この発明の一実施例の構成図であ
り、基本的な構成は従来と同様である。以下図1の各部
を説明する。音声区間検出部11は、入力音声のパワー
計算により音声区間を検出し、この音声区間内の音声信
号R1を切り出して特徴抽出部1に送る。特徴抽出部1
は、音声区間内の音声信号R1中から長さ25.6ms
の時間窓を用いた15次線形予測メルケプストラム分析
によって10ms毎に0〜10次のメルケプストラム係
数からなる特徴パラメータ時系列R2を抽出し音韻モデ
ル演算手段としてのHMM演算部13及び境界検出部7
に送る。
【0022】境界検出部7は、図2のごとく構成され
る。図において、時間窓部2は、特徴パラメータ時系列
R2より時刻t=1,2,…,Tについて、時刻tを中
心に時間幅10フレームの範囲の0〜7次のメルケプス
トラム係数合計80(=10フレーム×8次元)個を1
つの80次元ベクトル(以後、固定長セグメントと呼
ぶ)として抽出し、これら固定長セグメントの時系列R
2を出力する。(以下、中心時刻tの固定長セグメント
をBtと記す。) 境界検出パラメータ記憶部8は、境界検出パラメータR
8が記憶されている。境界検出パラメータR8は、M
(=224)個の80次元ガウス分布の確率密度関数の
平均μm及び分散Σm、また、K(=309(29音韻体
系の時)、または、1071(217音韻体系の時))
組の分子多項式係数Pmk及び分母多項式係数Qmkからな
る。(ただし、m及びkは1≦m≦M、1≦k≦Kなる
範囲の整数とする。) 共通確率密度演算部18は、固定長セグメントBt(t
=1,2,…,T)について、M個の80次元ガウス分
布の確率密度を計算する。ここで、第m番目(m=1,
2,…,M)の確率密度をfm(Bt)と記せばこれは式
(11)に従って計算する。
【0023】
【数6】
【0024】境界尤度計算部19−1、19−2、…、
19−Kは、それぞれ、音韻境界の種類に対応してい
て、共通確率密度演算部の結果R18を参照して、固定
長セグメントR2の中心に音声中の音韻境界が存在する
尤度(境界尤度)を計算し、境界尤度時系列C1(B
t)、C2(Bt)、…、CK(Bt)として出力する。第
k番目(k=1,2,…,K)の境界尤度Ck(Bt)は
固定長セグメントBtの中心に種類kの音韻境界が存在
する確率Pr(Bt|k,1)と、固定長セグメントBtの中心
に種類kの音韻境界が存在しない確率Pr(Bt|k,0)との
対数尤度比として式(12)に基づいて計算される。こ
こで、確率Pr(Bt|k,1)は式(13)に基づいて、ま
た、確率Pr(Bt|k,0)は式(14)に基づいて計算され
る。なお、分子多項式係数及び分母多項式係数は、変数
Ck(Bt)が種類kの音韻境界あるいは音韻境界付近の
領域でCk(Bt)>0となるように設計する必要があ
る。
【0025】
【数7】
【0026】次に本実施例における前記分子及び分母多
項式係数の設計方法を説明する。まず、多項式係数に条
件をつける。即ち、Pmk及びQmkはmに関する総和が1
であるような非負の多項式係数とする。まず、コードブ
ックの設計をする。即ち音韻境界の種類kに依存しない
要素の確率密度関数(fm)のパラメータ(本実施例で
はパラメータはμm及びΣmからなる)を求める。これは
学習データをクラスタリングし各クラスタの分布から要
素分布のパラメータを推定することで実現される。本実
施例では学習データをM(=224)個のクラスタに分
割して、各クラスタ(m=1,2,…,M)の平均μm
及び分散Σmを推定した。次に、最尤推定法に基づい
て、音韻境界の種類kのデータから推定される多項式係
数をλmkとする。即ち多項式係数λmkは尤度(式(1
5))を最大化するように決める。
【0027】
【数8】
【0028】分子多項式の設計法1:最尤推定した多項
式係数をそのまま分子の多項式係数として用いる。即ち
本設計法ではPmk=λmkと置く。
【0029】分子多項式の設計法2:音韻境界の種類k
=k(i,j)の最尤推定多項式係数λmkと類似した最
尤推定多項式係数を持つ音韻境界の種類を近い方からN
(K)個取ってきて、これらをk(1),k(2),…,k(N
(k))とする(ただし、k(1)はk自身である)。これら
N(k)組の最尤推定多項式係数を荷重平均して分子の多
項式係数Pmkを式(16)に基づいて設定する。但し、
Wkは音韻境界の種類kの境界特徴量の学習データ数
(標本数)である。なお、音韻境界の種類kの最尤推定
多項式係数λmkと音韻境界の種類lの最尤推定多項式係
数λmlの非類似度(d(k,l)と記す)は多項式係数間
の距離を表す式(17)に基づいて推定する。本設計法
によって、音韻境界の類似度に基づくクラスタリングと
学習データの不足を補う平滑化の効果が期待される。
【0030】
【数9】
【0031】分母多項式の設計法:変数Ck(Bt)をサ
ンプルデータに対して大きく、非サンプルデータに対し
て小さく推定する手法(例えば誤り訂正学習や相互情報
量最大推定法など)も考えられるが、本実施例では、音
韻の定常部に対応する音韻境界の全種類(k(i,
i),i=1,2,…,n、ただし、nは音韻の種類)
の最尤推定多項式係数を荷重平均して分母多項式係数と
してある。即ち、分母多項式係数を式(18)に基づい
て設定する。このように、本設計法では、分母多項式係
数Qmkを音韻境界の種類kとは独立に(kに依存せず
に)設定する。
【0032】
【数10】
【0033】図3は本実施例の音韻系列HMMの構造を
摸式的に示したものである。本HMMはn状態(n=2
9)からなり、各状態は、1つの音韻に対応づけられて
いる。状態iから状態jへの遷移確率は、aijで、ま
た、時刻tの特徴パラメータxtの状態jにおける出力
確率は、bj(xt)で示されている。出力確率bj(xt)
は、M(=8)混合の混合ガウス分布で表されており、
第m番目の要素ガウス分布についての平均ベクトルμmj
及び共分散行列Σmj、分岐確率λmjをパラメータとし
て、式(19)で計算される。ただし、式中、N(xt|
μmj,Σmj)は平均μmj、分散Σmjの正規確率密度関数を
あらわす。これら遷移確率aij及び出力確率計算用のパ
ラメータHMMパラメータ記憶部14に記憶されてい
る。
【0034】
【数11】
【0035】HMM演算部13は境界検出部7の境界検
出結果R7及びHMMパラメータR14を参照しビタビ
アルゴリズムに基づく漸化式(式(20)と式(2
1))を初期条件(式(22))の下で計算する。ここ
で、α(j,t)は、時刻tにおいて、状態jに留まる確率
(前向き確率)を表し、β(j,t)は時刻tに状態jに至る
一つ前の最適な状態番号を表すバックポインタである。
【0036】
【数12】
【0037】本HMMは、上記漸化式で示されたよう
に、従来のHMMとは異なり、時刻tで状態iから状態
jへの状態間遷移に際して、変数Cij(Bt)を参照し
て、音韻境界の種類k=k(i,j)に依存した閾値θ
ijと比較し、Cij(Bt)>θijである時だけ、状態間
の遷移を許すように音韻モデル系列の境界の生成として
の状態間の遷移を制限している。なお、同一状態内の遷
移(i=jのとき)は変数Cij(Bt)による制限はな
い。ここで、変数Cij(Bt)は、境界検出部7で計算
された分類kの音韻境界の境界尤度Ck(Bt)に対応す
る。分類kは状態番号i及びjの関数k(i,j)で与
えられる。
【0038】音韻系列変換手段としての最適状態系列検
出部15は、HMM演算結果R3として得られる前向確
率α(j,t)及びバックポインタβ(j,t)の値から、最適状
態系列R15(以後、β^(1),β^(2),…,β^(T)と記
す)を出力する。最適状態系列R15は漸化式(式(2
3))を初期条件(式(24))の下で計算することで
得る。なお、最適状態系列R15は認識結果の音韻系列
を状態の番号の系列で表したものである。
【0039】
【数13】
【0040】次に上記実施例の評価結果について説明す
る。上記構成の実施例について、境界検出の閾値(θi
j)の設定法を不特定話者の音韻記述実験によって検討
する。ここでは、状態の出力確率についてもセミ連続分
布モデルを適用し、2種類の音韻体系を試みた。1つは
前後の音韻の環境に独立の29音韻からなる音韻体系、
もう1つは子音と閉鎖部について後続の音韻に依存する
異音を含む217音韻からなる音韻体系である。状態遷
移確率aijは1または0として、音韻配列情報だけを利
用した。共通の実験条件を図4に示す。図5に上記29
音韻からなる音韻体系の学習データ中の音韻数を、図6
に上記217音韻からなる音韻体系の学習データ中の音
韻数を示す。参考のため、状態間遷移の束縛のないHM
Mについても評価した。評価の結果を図7に示す。適切
に境界検出の閾値を選ぶことにより、誤りを少なくでき
ることが分かる。認識誤りを解析した結果、境界は正し
く検出できているが、音韻の尤度が低く置換誤りとなる
場合と、境界が正しく検出できず脱落誤りになる場合が
ある。前者に対しては、音韻当りの状態数増加等の音韻
モデルの精密化によって、また、後者に対しては、本実
施例では全てのしきい値θijを同じ値として変化させた
が、音韻境界の種類によって境界検出の難易度に差があ
ることから、検出の困難な音韻境界に対して閾値を小さ
くし、逆に検出の容易な音韻境界について閾値を高めに
設定するなど、音韻境界の種類毎に閾値θijを変えるこ
とにより、さらに、精度が向上すると期待される。
【0041】なお、以上の説明では、HMM演算にビタ
ビのアルゴリズムを用いた場合について説明したが、本
発明は、ビタビのアルゴリズムにおいて、最大化演算m
axを和Σで置き換えた例えば式(25)のごとき定式
化に基づくHMMに適用できることは言うまでもない
(但し、最適状態系列はビタビアルゴリズムに基づいて
検出する必要がある)。
【0042】
【数14】
【0043】さらに、以上の説明は、29種あるいはこ
れらを細分化した217種の音韻を音韻モデル系列とし
てのHMMの各1つの状態に対応させた場合について述
べたが、音韻の種類または体系はこれに限定されるもの
ではなく、また、各音韻に割り当てる状態数もこれに限
定されるものではない。またさらに、音韻モデルとし
て、HMMを用いる必要はなく、例えば、文献(平成2
年3月発行の日本音響学会講演論文集、2−P−27
「時間依存線形音素文脈モデルを用いた音声認識の検
討」)に示された線形音素文脈依存の音韻モデルを用い
ても構わない。
【0044】
【発明の効果】以上のようにこの発明の音声認識の境界
推定方法によれば、音声の境界に対応した音声の境界の
検出器を設定するようにしたため、音声の境界の種類毎
に音声の境界にとって適当な音韻境界に対応した、個別
の境界検出器を設計することが可能になり、学習データ
の不足に影響を受けにくく精度を改善した設計ができる
という効果がある。
【0045】また、この発明の音声認識装置によれば、
入力音声を分析して時系列の特徴パラメータに変換する
特徴抽出手段と、前記時系列の特徴パラメータから、前
記入力音声中の音韻境界または音韻境界付近の領域を検
出する境界検出手段と、前記特徴パラメータに対応する
複数の音韻モデル系列を用意し、該モデル系列を用意す
る際、前記音韻モデル系列の境界が生成される時刻を前
記境界検出手段が検出した音韻境界または音韻境界付近
の領域内に限定したモデル演算手段と、前記モデル演算
手段の結果から、前記入力音声に対応する適切な音韻モ
デル系列を選択する音韻系列変換手段とを備えた音声認
識装置において、前記境界検出手段として、音韻境界の
種類に応じた閾値との比較により音韻境界を検出する手
段としたため、音韻境界によって異なると考えられる音
韻境界の尤度の値の分布の違い(信頼度)が考慮され、
認識の精度の改善が得られるという効果がある。
【図面の簡単な説明】
【図1】この発明の実施例1を示す構成図。
【図2】実施例1における境界検出手段の構成図。
【図3】実施例1におけるHMMの構造を示す図。
【図4】実施例1を評価する際の条件を示す図。
【図5】実施例1の学習における標本数を示す図。
【図6】実施例1の学習における標本数を示す図。
【図7】実施例1の評価の結果を示す図。
【図8】従来の音声認識装置の構成図。
【図9】従来の境界検出手段の構成図。
【図10】従来の音声認識装置における音韻境界の分類
を示す図。
【図11】従来の音声認識装置におけるHMMの構造を
示す図。
【符号の説明】
1 特徴抽出手段 2 時間窓部 7 境界検出手段 8 境界検出パラメータ記憶手段 11 音声区間検出手段 13 HMM演算手段 14 HMMパラメータ記憶手段 15 最適状態系列検出手段 18 共通確率密度演算部 19−1、19−2、19−k、19−K 境界尤度計
算部 8001、8002、8028 確率密度計算部 9002、9004、9028 境界尤度計算部
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平4−251899(JP,A) 特開 平4−66999(JP,A) 特開 平5−333897(JP,A) 特開 昭60−75891(JP,A) 特開 平2−150899(JP,A) 特許2924555(JP,B2) 阿部, 中島,境界尤度の信頼度を考 慮した状態間遷移束縛型HMMによる音 韻記述,日本音響学会平成6年度春季研 究発表会講演論文集,日本,1994年 3 月,2−P−11,Pages 179−180 阿部, 中島,状態間遷移束縛型HM Mによる音韻記述,日本音響学会平成5 年度秋季研究発表会講演論文集,日本, 1993年10月,1−8−5,Pages 9−10 (58)調査した分野(Int.Cl.7,DB名) G10L 15/04 G10L 15/14 JICSTファイル(JOIS)

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力音声を分析して得られる時系列で展
    開されるパラメータ群が、所定の時間幅の窓の中で示す
    値をサンプルとして抽出し、前記窓の中心に音声の境界
    が存在する度合いを算出する場合に、 前記窓の中心に前記音声の境界が存在する第1の確率密
    度と、前記窓の中心に前記音声の境界が存在しない第2
    の確率密度とを計算し、前記第1の確率密度及び前記第
    2の確率密度を含む計算に基づいて前記窓の中心に音声
    の境界が存在する度合いを算出する音声認識の境界推定
    方法において、 前記音声の境界の種類に依存しない共通の確率密度の計
    算手段を備え、この計算手段の計算した確率密度と第1
    の多項式係数を乗算し前記第1の確率密度を計算し、ま
    たこの計算手段の計算した確率密度と第2の多項式係数
    を乗算し前記第2の確率密度を計算することを特徴とす
    る音声認識の境界推定方法。
  2. 【請求項2】 入力音声を分析して時系列の特徴パラメ
    ータに変換する特徴抽出手段と、 前記時系列の特徴パラメータから、前記入力音声中の音
    韻境界または音韻境界付近の領域を検出する境界検出手
    段と、 前記特徴パラメータに対応する音韻モデル系列を用意
    し、該モデル系列を用意する際、前記音韻モデル系列の
    境界が生成される時刻を前記境界検出手段が検出した音
    韻境界または音韻境界付近の領域内に限定したモデル演
    算手段と、 前記モデル演算手段の結果から、前記入力
    音声に対応する適切な音韻モデル系列を選択する音韻系
    列変換手段とを備えた音声認識装置において、 前記境界検出手段は、音韻境界の複数の種類ごとに閾値
    を算出し、該閾値との比較により音韻境界を検出するこ
    とを特徴とする音声認識装置。
JP05060694A 1994-03-22 1994-03-22 音声認識の境界推定方法及び音声認識装置 Expired - Fee Related JP3533696B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP05060694A JP3533696B2 (ja) 1994-03-22 1994-03-22 音声認識の境界推定方法及び音声認識装置
US08/407,170 US5710865A (en) 1994-03-22 1995-03-21 Method of boundary estimation for voice recognition and voice recognition device
TW084102772A TW299435B (ja) 1994-03-22 1995-03-22

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05060694A JP3533696B2 (ja) 1994-03-22 1994-03-22 音声認識の境界推定方法及び音声認識装置

Publications (2)

Publication Number Publication Date
JPH07261789A JPH07261789A (ja) 1995-10-13
JP3533696B2 true JP3533696B2 (ja) 2004-05-31

Family

ID=12863635

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05060694A Expired - Fee Related JP3533696B2 (ja) 1994-03-22 1994-03-22 音声認識の境界推定方法及び音声認識装置

Country Status (3)

Country Link
US (1) US5710865A (ja)
JP (1) JP3533696B2 (ja)
TW (1) TW299435B (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167374A (en) * 1997-02-13 2000-12-26 Siemens Information And Communication Networks, Inc. Signal processing method and system utilizing logical speech boundaries
EP1039446B1 (en) * 1998-10-09 2010-12-08 Sony Corporation Learning device and method, recognizing device and method, and recording medium
US6535851B1 (en) 2000-03-24 2003-03-18 Speechworks, International, Inc. Segmentation approach for speech recognition systems
WO2002029617A1 (en) * 2000-09-30 2002-04-11 Intel Corporation (A Corporation Of Delaware) Method, apparatus, and system for building a compact model for large vocabulary continuous speech recognition (lvcsr) system
JP3673507B2 (ja) * 2002-05-16 2005-07-20 独立行政法人科学技術振興機構 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
JP4075670B2 (ja) 2003-04-09 2008-04-16 トヨタ自動車株式会社 変化情報認識装置および変化情報認識方法
WO2008126627A1 (ja) * 2007-03-26 2008-10-23 Nec Corporation 音声分類装置、音声分類方法、および音声分類用プログラム
CN101689364B (zh) * 2007-07-09 2011-11-23 富士通株式会社 声音识别装置和声音识别方法
US8340430B2 (en) * 2007-07-10 2012-12-25 Sharp Laboratories Of America, Inc. Methods and systems for identifying digital image characteristics
TWI467568B (zh) * 2007-07-13 2015-01-01 Dolby Lab Licensing Corp 使用位準時變評估機率密度之時變音訊信號位準
US8160365B2 (en) * 2008-06-30 2012-04-17 Sharp Laboratories Of America, Inc. Methods and systems for identifying digital image characteristics
US9818407B1 (en) * 2013-02-07 2017-11-14 Amazon Technologies, Inc. Distributed endpointing for speech recognition
US9817881B2 (en) * 2013-10-16 2017-11-14 Cypress Semiconductor Corporation Hidden markov model processing engine
US9607613B2 (en) 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons
US20170294185A1 (en) * 2016-04-08 2017-10-12 Knuedge Incorporated Segmentation using prior distributions

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59139099A (ja) * 1983-01-31 1984-08-09 株式会社東芝 音声区間検出装置
JPH06105394B2 (ja) * 1986-03-19 1994-12-21 株式会社東芝 音声認識方式
JP2964507B2 (ja) * 1989-12-12 1999-10-18 松下電器産業株式会社 Hmm装置
US5293452A (en) * 1991-07-01 1994-03-08 Texas Instruments Incorporated Voice log-in using spoken name input

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
阿部, 中島,境界尤度の信頼度を考慮した状態間遷移束縛型HMMによる音韻記述,日本音響学会平成6年度春季研究発表会講演論文集,日本,1994年 3月,2−P−11,Pages 179−180
阿部, 中島,状態間遷移束縛型HMMによる音韻記述,日本音響学会平成5年度秋季研究発表会講演論文集,日本,1993年10月,1−8−5,Pages 9−10

Also Published As

Publication number Publication date
JPH07261789A (ja) 1995-10-13
US5710865A (en) 1998-01-20
TW299435B (ja) 1997-03-01

Similar Documents

Publication Publication Date Title
JP3533696B2 (ja) 音声認識の境界推定方法及び音声認識装置
US7689419B2 (en) Updating hidden conditional random field model parameters after processing individual training samples
US6188982B1 (en) On-line background noise adaptation of parallel model combination HMM with discriminative learning using weighted HMM for noisy speech recognition
US6493667B1 (en) Enhanced likelihood computation using regression in a speech recognition system
JP2965537B2 (ja) 話者クラスタリング処理装置及び音声認識装置
DE69931813T2 (de) Verfahren und vorrichtung zur grundfrequenzermittlung
JP2924555B2 (ja) 音声認識の境界推定方法及び音声認識装置
JP4531166B2 (ja) 信頼性尺度の評価を用いる音声認識方法
JPH05216490A (ja) 音声コード化装置及び方法並びに音声認識装置及び方法
EP0501631A2 (en) Temporal decorrelation method for robust speaker verification
US5193142A (en) Training module for estimating mixture gaussian densities for speech-unit models in speech recognition systems
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
US6526379B1 (en) Discriminative clustering methods for automatic speech recognition
JP3298858B2 (ja) 低複雑性スピーチ認識器の区分ベースの類似性方法
US20100217593A1 (en) Program for creating Hidden Markov Model, information storage medium, system for creating Hidden Markov Model, speech recognition system, and method of speech recognition
JP2751856B2 (ja) 木構造を用いたパターン適応化方式
CA2260685C (en) Linear trajectory models incorporating preprocessing parameters for speech recognition
US20050027530A1 (en) Audio-visual speaker identification using coupled hidden markov models
JP4659541B2 (ja) 音声認識装置及び音声認識プログラム
JP3039623B2 (ja) 音声認識装置
US6782362B1 (en) Speech recognition method and apparatus utilizing segment models
US6275799B1 (en) Reference pattern learning system
Ming et al. A Bayesian approach for building triphone models for continuous speech recognition
JP2996925B2 (ja) 音素境界検出装置及び音声認識装置
JP3034279B2 (ja) 有音検出装置および有音検出方法

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040301

LAPS Cancellation because of no payment of annual fees