JPH10254477A - 音素境界検出装置及び音声認識装置 - Google Patents

音素境界検出装置及び音声認識装置

Info

Publication number
JPH10254477A
JPH10254477A JP9054594A JP5459497A JPH10254477A JP H10254477 A JPH10254477 A JP H10254477A JP 9054594 A JP9054594 A JP 9054594A JP 5459497 A JP5459497 A JP 5459497A JP H10254477 A JPH10254477 A JP H10254477A
Authority
JP
Japan
Prior art keywords
phoneme boundary
parameters
output
neuron group
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9054594A
Other languages
English (en)
Other versions
JP2996925B2 (ja
Inventor
Yoshinori Kosaka
芳典 匂坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Original Assignee
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK, ATR Interpreting Telecommunications Research Laboratories filed Critical ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
Priority to JP9054594A priority Critical patent/JP2996925B2/ja
Publication of JPH10254477A publication Critical patent/JPH10254477A/ja
Application granted granted Critical
Publication of JP2996925B2 publication Critical patent/JP2996925B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 従来例に比較して高い精度でかつ高速で音素
境界を検出することができ音素境界検出装置及び音声認
識装置を提供する。 【解決手段】 入力層と、少なくとも1層の中間層と、
1個のユニットを有し音素境界検出値を出力する出力層
とを備えた双方向リカレント型ニューラルネットワーク
を用いて、音声特徴パラメータ系列の音素境界を検出す
る。入力層は、音声特徴パラメータを入力とする入力ニ
ューロングループと、前向きモジュールと、後向きモジ
ュールとを備える。前向きモジュールは、音声特徴パラ
メータに基づいて、時間的に前向きの帰還接続を有して
入力ニューロングループからのパラメータよりも単位時
間だけ遅延された時刻のパラメータを出力し、後向きモ
ジュールは、音声特徴パラメータに基づいて、時間的に
後向きの帰還接続を有して入力ニューロングループから
のパラメータよりも単位時間だけ逆向きに遅延された時
刻のパラメータを出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、双方向リカレント
型ニューラルネットワーク(Bi-directional Recurrent
Neural Network;以下、BRNNという。)を用いて
音声信号波形信号の音素境界を検出する音素境界検出装
置、及び、上記音素境界検出装置を用いて音声認識する
音声認識装置に関する。本明細書で、音素と音素との境
界を音素境界という。
【0002】
【従来の技術】従来、音声認識装置のための音響モデル
として音声信号の音声セグメントを用いて音声認識する
方法が、例えば、従来技術文献1「T.Svedsen et al.,
“On the automatic segmentaiton of speech signal
s",Proceedins of ICASSP-87,pp.77-80,1987年」、従来
技術文献2「A.Ljolje et al.,“Automatic segmentati
onand labelling of speech," Proceedings of ICASSP-
91,pp.473-476,1991年」、及び従来技術文献3「J.Glas
s et al.,“A probabilistic framework for feature-b
ased speech recognition",Proceedings of IGSLP-96,p
p.2277-2280,1996年」において開示されている。ここ
で、従来技術文献1及び2においては、音声認識におけ
る音響モデル作成や音声合成のための自動セグメンテー
ションの方法が開示され、従来技術文献3においては、
音声認識のための前処理について開示されている。
【0003】
【発明が解決しようとする課題】従来技術文献1におい
ては、隠れマルコフモデル(以下、HMMという。)
と、発声音声の書き下しテキストデータとを用いて、従
来技術文献2においてはさらに、継続時間長モデルを用
いて、音素ラベルの自動ラベリングを行っている。しか
しながら、HMMモデルは音素検出のために尤度が最大
となるように学習されているので、音素検出を行うとき
にその性能は比較的低く、処理時間が比較的長いという
問題点があった。また、従来技術文献2においては、継
続時間長モデルを用いて音素検出しているので、処理時
間が比較的長いという問題点があった。
【0004】本発明の第1の目的は以上の問題点を解決
し、従来例に比較して高い精度でかつ高速で音素境界を
検出することができ音素境界検出装置を提供することに
ある。
【0005】本発明の第2の目的は以上の問題点を解決
し、上記音素境界検出装置を用いて、従来例に比較して
高い音声認識率でかつ高速で音声認識することができる
音声認識装置を提供することにある。
【0006】
【課題を解決するための手段】本発明に係る請求項1記
載の音素境界検出装置は、入力層と、複数のユニットを
有し少なくとも1層の中間層と、1個のユニットを有し
音素境界検出確率を表す音素境界検出値を出力する出力
層とを備えた双方向リカレント型ニューラルネットワー
クを用いて、音声特徴パラメータ系列の音素境界を検出
する音素境界検出装置であって、上記入力層は、複数の
音声特徴パラメータを入力とし、複数のユニットを有す
る第1の入力ニューロングループと、前向きモジュール
と、後向きモジュールとを備え、上記前向きモジュール
は、複数の音声特徴パラメータに基づいて、時間的に前
向きの帰還接続を有して上記第1の入力ニューロングル
ープから出力される複数のパラメータよりも所定の単位
時間だけ遅延された時刻の複数のパラメータを生成して
上記中間層に出力する一方、上記後向きモジュールは、
複数の音声特徴パラメータに基づいて、時間的に後向き
の帰還接続を有して上記第1の入力ニューロングループ
から出力される複数のパラメータよりも所定の単位時間
だけ逆向きに遅延された時刻の複数のパラメータを生成
して上記中間層に出力することを特徴とする。
【0007】また、請求項2記載の音素境界検出装置
は、請求項1記載の音素境界検出装置において、上記前
向きモジュールは、複数の音声特徴パラメータを入力と
し、複数のユニットを有する第2の入力ニューロングル
ープと、第2の中間ニューロングループから所定の単位
時間だけ遅延されて出力される複数のパラメータを入力
とする、複数のユニットを有する第1の中間ニューロン
グループと、上記第2の入力ニューロングループから出
力される複数のパラメータと、上記第1の中間ニューロ
ングループから出力される複数のパラメータに対してそ
れぞれ各荷重係数を乗算してそれぞれ入力されるように
接続され、複数のユニットを有する第2の中間ニューロ
ングループとを備え、上記後向きモジュールは、複数の
音声特徴パラメータを入力とし、複数のユニットを有す
る第3の入力ニューロングループと、第4の中間ニュー
ロングループから所定の単位時間だけ逆向きに遅延され
て出力される複数のパラメータを入力とする、複数のユ
ニットを有する第3の中間ニューロングループと、上記
第3の入力ニューロングループから出力される複数のパ
ラメータと、上記第3の中間ニューロングループから出
力される複数のパラメータに対してそれぞれ各荷重係数
を乗算してそれぞれ入力されるように接続され、複数の
ユニットを有する第4の中間ニューロングループとを備
え、上記第2の中間ニューロングループから出力される
複数のパラメータに対してそれぞれ各荷重係数を乗算し
てそれぞれ上記中間層の複数のユニットに入力されるよ
うに接続され、上記第1の入力ニューロングループから
出力される複数のパラメータに対してそれぞれ各荷重係
数を乗算してそれぞれ上記中間層の複数のユニットに入
力されるように接続され、上記第4の中間ニューロング
ループから出力される複数のパラメータに対してそれぞ
れ各荷重係数を乗算してそれぞれ上記中間層の複数のユ
ニットに入力されるように接続され、上記中間層から出
力される複数のパラメータに対してそれぞれ各荷重係数
を乗算してそれぞれ上記出力層のユニットに入力される
ように接続されたことを特徴とする。
【0008】さらに、請求項3記載の音素境界検出装置
は、請求項1又は2記載の音素境界検出装置において、
上記出力層から出力される音素境界検出値が所定のしき
い値以上のときに音素境界として検出する第1の検出手
段をさらに備えたことを特徴とする。
【0009】さらに、請求項4記載の音素境界検出装置
は、請求項1又は2記載の音素境界検出装置において、
上記出力層から出力される音素境界検出値が所定のしき
い値以上であって、極大値となるときに音素境界として
検出する第2の検出手段をさらに備えたことを特徴とす
る。
【0010】さらに、請求項5記載の音素境界検出装置
は、請求項1又は2記載の音素境界検出装置において、
上記出力層から出力される音素境界検出値が、所定の第
1のしきい値以上であるときに第1の音素境界として検
出し、上記音素境界検出値が、上記第1のしきい値より
も小さい第2のしきい値以上であって上記第1のしきい
値未満でありかつ極大値となるときに第2の音素境界と
して検出する第3の検出手段をさらに備えたことを特徴
とする。
【0011】また、請求項6記載の音素境界検出装置
は、請求項5記載の音素境界検出装置において、上記第
3の検出手段は、上記第1の音素境界として検出したも
のを所定の複数個毎に1個の音素境界を選択して第1の
音素境界として選択することを特徴とする。
【0012】さらに、請求項7記載の音素境界検出装置
は、請求項5又は6記載の音素境界検出装置において、
上記第3の検出手段は、上記検出又は選択した第1の音
素境界と第2の音素境界との間で形成された経路のラテ
ィスに基づいて音素境界を検出することを特徴とする。
【0013】本発明に係る請求項8記載の音声認識装置
は、入力された文字列からなる発声音声文の音声信号か
ら音声特徴パラメータを抽出する特徴抽出手段と、上記
特徴抽出手段によって抽出された音声特徴パラメータに
基づいて、請求項1乃至7のうちの1つに記載された音
素境界検出装置によって検出された音素境界と、所定の
音響モデルとを用いて、入力された文字列からなる発声
音声文の音声信号を音声認識する音声認識手段とを備え
たことを特徴とする。
【0014】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。図1は、本発明に係る一
実施形態である音素境界検出ニューラルネットワーク1
0を用いた音声認識装置のブロック図である。この実施
形態は、学習用音声データの特徴パラメータファイル3
1と、学習用音声データの音素境界値ファイル32とに
基づいて、所定の学習アリゴリズムを用いて、音素境界
検出ニューラルネットワークの初期モデル33を学習す
ることにより、音素境界検出ニューラルネットワーク1
0を得るニューラルネットワーク学習部20を備え、単
語レベル照合部5は、得られた音素境界検出ニューラル
ネットワーク10を用いて音素境界を検出しかつ音素を
検出して単語レベルの音声認識を行うことを特徴として
いる。従って、単語レベル照合部5は、音素境界検出装
置を含む。
【0015】本実施形態においては、音素境界の検出の
ために、図2に示すBRNNで構成される音素境界検出
ニューラルネットワーク10を用いた。一般のリカレン
ト型ニューラルネットワークが時間的に過去の情報を再
帰的に利用するのに対し、BRNNは過去及び未来の入
力情報が利用できることを特徴とする。
【0016】図2において、入力はケプストラムなどの
音声特徴パラメータの情報を、出力は当該フレームの入
力が音素境界であるかどうかの情報(例えば、当該フレ
ームが音素境界である場合1,それ以外は0)を学習時
に教師信号として与える。すなわち、入力ニューロング
ループA(t)のユニット数は音声特徴パラメータの次
元数26個となり、出力のユニット数は1個となる。こ
こで、音声特徴パラメータは、12次元のメルケプスト
ラム係数(以下、MFCCという。)と、パワーと、そ
れぞれの1次回帰係数とを含む。以下、1つのファイル
の総フレーム数は複数L個とする。
【0017】図2において、前向きモジュールB(t−
1)は、26個の音声特徴パラメータに基づいて、時間
的に前向きの帰還接続を有して入力ニューロングループ
A(t)から出力される26個のパラメータよりも所定
の単位時間だけ遅延された時刻t−1の10個のパラメ
ータを生成して隠れニューロングループDに出力するモ
ジュールであり、(a)26個の音声特徴パラメータを
入力とする、26個のユニットa1乃至a26を有する入
力ニューロングループ51と、(b)中間ニューロング
ループ53から遅延素子54を介して出力される10個
のパラメータを入力とする、10個のユニットb1乃至
10を有する中間ニューロングループ52と、(c)入
力ニューロングループ51から出力される26個のパラ
メータと、中間ニューロングループ52から出力される
10個のパラメータに対してそれぞれ各荷重係数を乗算
してそれぞれ入力されるように接続される10個のユニ
ットb1乃至b10を有する中間ニューロングループ53
と、(d)中間ニューロングループ53から出力される
10個のパラメータを所定の単位時間だけ遅延させて中
間ニューロングループ52に出力する遅延素子54と、
(e)10個のユニットb1乃至b10を有する前向きモ
ジュールB(t−1)の状態ニューロングループとな
り、前向きモジュールB(t−1)の動作終了時の時刻
t−1における中間ニューロングループ53から出力さ
れる出力値を一時的に記憶して、すなわちラッチして、
音素境界検出のための右側のニューラルネットワークの
隠れニューロングループDに出力する出力ラッチ55と
を備える。
【0018】以上のように構成された前向きモジュール
B(t−1)においては、中間ニューロングループ52
から中間ニューロングループ53及び遅延素子54を介
して中間ニューロングループ52へと帰還ループを形成
しており、繰り返し計算した後の前向きモジュールB
(t−1)の動作終了時の時刻t−1における中間ニュ
ーロングループ53から出力される出力パラメータベク
トルBm(m=1,2,…,t−1)は次式で表され
る。
【0019】
【数1】Bm=WFA・Am+WFB・Bm-1
【0020】ここで、出力値ベクトルBmは10個のパ
ラメータ値からなり、その初期値ベクトルB0は次式で
表される。
【数2】
【0021】また、入力ニューロングループ51への入
力パラメータベクトルAmは次式で表される。
【数3】
【0022】ここで、Om(1)は時刻mにおけるMF
CCの1次の値であり、Om(2)は時刻mにおけるM
FCCの2次の値であり、以下同様にして、Om(2
6)は時刻mにおけるMFCCの26次の値である。さ
らに、数1の荷重係数行列WFA,WFBはそれぞれ、10
×26の行列、10×10の行列であり、次式で表され
る。
【数4】
【数5】
【0023】さらに、図2において、後向きモジュール
C(t+1)は、26個の音声特徴パラメータに基づい
て、時間的に後向きの帰還接続を有して入力ニューロン
グループA(t)から出力される26個のパラメータよ
りも所定の単位時間だけ逆向きに遅延された時刻t+1
の10個のパラメータを生成して隠れニューロングルー
プDに出力するモジュールであって、(a)26個の音
声特徴パラメータを入力とする、26個のユニットa1
乃至a26を有する入力ニューロングループ61と、
(b)中間ニューロングループ63から逆向き遅延素子
64を介して出力される10個のパラメータを入力とす
る、10個のユニットc1乃至c10を有する中間ニュー
ロングループ62と、(c)入力ニューロングループ6
1から出力される26個のパラメータと、中間ニューロ
ングループ62から出力される10個のパラメータに対
してそれぞれ各荷重係数を乗算してそれぞれ入力される
ように接続される10個のユニットc1乃至c10を有す
る中間ニューロングループ63と、(d)中間ニューロ
ングループ63から出力される10個のパラメータを所
定の単位時間だけ遅延させて中間ニューロングループ6
2に出力する逆向き遅延素子64と、(e)10個のユ
ニットc1乃至c10を有する後向きモジュールC(t+
1)の状態ニューロングループとなり、後向きモジュー
ルC(t+1)の動作終了時の時刻t+1における中間
ニューロングループ63から出力される出力値を一時的
に記憶して、すなわちラッチして、音素境界検出のため
の右側のニューラルネットワークの隠れニューロングル
ープDに出力する出力ラッチ65とを備える。
【0024】以上のように構成された後向きモジュール
C(t+1)においては、中間ニューロングループ62
から中間ニューロングループ63及び逆向き遅延素子6
4を介して中間ニューロングループ62へと帰還ループ
を形成しており、繰り返し計算した後の後向きモジュー
ルC(t+1)の動作終了時の時刻t+1における中間
ニューロングループ63から出力される出力パラメータ
ベクトルCm(m=L,L−1,…,t+1)は次式で
表される。
【0025】
【数6】Cm=WBA・Am+WBC・Cm+1
【0026】ここで、出力値ベクトルCmは10個のパ
ラメータ値からなり、その初期値ベクトルCL+1は次式
で表される。
【数7】
【0027】また、入力ニューロングループ61への入
力パラメータベクトルAmは数3と同様である。
【0028】さらに、数6の荷重係数行列WBA,WBC
それぞれ、10×26の行列、10×10の行列であ
り、次式で表される。
【数8】
【数9】
【0029】さらに、図2に示すように、30個の隠れ
ユニットd1乃至d30を有する隠れニューロングループ
Dと、1個の出力ユニットe1を有し、音素境界検出確
率を表す音素境界検出値y(j)(j=1,2,…,
L)を出力する出力ニューロングループEとを備える。
状態ニューロングループB(t−1)のユニットb1
至b10の各出力パラメータに対してそれぞれ、各荷重係
数を乗算して隠れニューロングループDのユニットd1
乃至d30に入力されるように接続され、状態ニューロン
グループC(t+1)のユニットc1乃至c10の各出力
パラメータに対してそれぞれ、各荷重係数で乗算して隠
れニューロングループDのユニットd1乃至d30に入力
されるように接続され、26個のユニットa1乃至a26
を有する入力ニューロングループA(t)の各出力パラ
メータに対してそれぞれ各荷重係数で乗算されて隠れニ
ューロングループDのユニットd1乃至d30に入力され
るように接続される。さらに、隠れニューロングループ
Dのユニットd1乃至d30の各出力パラメータに対して
それぞれ各荷重係数で乗算されて出力ニューロングルー
プEの出力ユニットe1に入力されるように接続され
る。
【0030】ここで、状態ニューロングループB(t−
1)及びC(t+1)並びに入力ニューロングループA
(t)から隠れニューロングループDを介して出力ニュ
ーロングループEまでの処理は、前向きモジュールB
(t−1)及び後向きモジュールC(t+1)の処理動
作の終了後に、学習処理又は演算処理が実行される。当
該ニューラルネットワークにおいては、入力層100
は、入力ニューロングループA(t)と、入力ニューロ
ングループA(t)の出力時刻tから単位時間だけ遅延
された時刻t−1における出力パラメータを計算する前
向きモジュールB(t−1)と、時刻tから単位時間だ
け逆向きに遅延されたt+1における出力パラメータを
計算する後向きモジュールC(t+1)を備え、中間層
200は隠れニューロングループDを備え、出力層30
0は出力ニューロングループEを備える。以上のように
構成された音素境界検出ニューラルネットワーク10
は、等価的には図3に示すように、前向きモジュールと
後向きモジュールが時間方向に接続され、入力層100
が入力ニューロングループA(t)と、前向きモジュー
ルB(t−1)と、後向きモジュールC(t+1)とか
らなるBRNNである。
【0031】詳細後述する図4のニューラルネットワー
ク学習処理による学習後の音素境界検出ニューラルネッ
トワーク10に対して、特徴パラメータ時系列を入力し
たときの出力例を図10に示す。この例は、詳細後述す
る条件で学習したニューラルネットワーク10を用い
て、オープンデータに対して得られたものである。ここ
で、点線は教師信号(真値)であり、実線はニューラル
ネットワーク10の出力値(検出値)を示す。
【0032】次いで、図10に示されるような出力結果
から、音素境界を検出するアルゴリズムとして、以下の
4通りの方法を考案した。 (a)方法1:しきい値hを越える出力値を音素境界候
補として判断する。すなわち、次式を満たす出力値を音
素境界候補として判断する。
【数10】y(j)≧h
【0033】(b)方法2:しきい値hを越える出力値
から、極大値となるものを音素境界候補として選択す
る。すなわち、次式を満たす出力値を音素境界候補とし
て判断する。
【数11】y(j)≧hかつy(j)>y(j−1)か
つy(j)>y(j+1)
【0034】(c)方法3:2種類のしきい値l,h
(>l)を用いて、第2のしきい値lから第1のしきい
値hまでの極大値となるもの及び、第1のしきい値hを
越えるもの全てを選択する。すなわち、
【数12】y(j)≧h であるときは第1の音素境界候補として選択し、
【数13】l≦y(j)<hかつy(j)>y(j−
1)かつy(j)>y(j+1) であるときは第2の音素境界候補として選択する。 (d)方法4:方法3において、連続する2つの第1の
音素境界をk個毎に1つのみ第1の音素境界として選択
する。
【0035】方法1及び2は、この処理のみを用いて、
音素の境界を一意に決定する方法である。方法3や方法
4は、まず、これらの処理で可能性のある候補をなるべ
く多く残し、次に、別処理により音素候補を決定するた
めの方法である。例えば、第1のしきい値hを越えて検
出された候補を第1の音素境界候補とし、第2のしきい
値lから第1のしきい値hの間で検出された候補を第2
の音素境界候補とすると、第1の音素境界間に存在する
全ての候補に対して、図11に示すようなラティスが作
成できる。このとき、HMMやセグメントモデルによる
音素モデルなどの音響モデルを用いて、ラティスを再評
価すれば最適音素経路が決定でき、これにより最終的な
音素境界を決定することができる。
【0036】なお、図1において、A/D変換器2と、
特徴抽出部3と、単語レベル照合部5と、文レベル照合
部6と、ニューラルネットワーク学習部20とは、例え
ば、デジタル計算機などの演算制御装置で構成され、バ
ッファメモリ4は例えばハードディスクメモリで構成さ
れ、学習用音声データの特徴パラメータファイル31
と、学習用音声データの音素境界値ファイル32と、音
素境界検出ニューラルネットワークの初期モデル33
と、音素境界検出ニューラルネットワーク10と、単語
モデル7、文法規則8及び意味的規則9とは例えばハー
ドディスクメモリに記憶される。
【0037】図4は、図1のニューラルネットワーク学
習部20によって実行されるニューラルネットワーク学
習処理を示すフローチャートである。図4において、ま
ず。ステップS1で特徴パラメータファイル31と、上
記特徴パラメータファイルに対応する音素境界値ファイ
ル32と、音素境界検出ニューラルネットワークの初期
モデル33とを読み込む。次いで、ステップS2で、音
素境界値ファイル32の総発声数に対応する特徴パラメ
ータファイル31のファイル数がパラメータNに設定さ
れ、学習の繰り返し数をパラメータIに設定する。そし
て、ステップS3でパラメータiを1に初期化し、ステ
ップS4でパラメータnを1に初期化する。ステップS
5でnファイル目の総フレーム数をパラメータLnに設
定する。次いで、ステップS6でLnフレームの特徴パ
ラメータを用いて、前向きモジュールの状態ニューロン
グループB(t−1)、後向きモジュールの状態ニュー
ロングループC(t+1)、及び出力ニューロングルー
プEの出力値(それぞれLnグループ)を計算し、ニュ
ーラルネットワークの荷重係数更新パラメータを演算す
る。
【0038】そして、ステップS7でパラメータnを1
だけインクリメントした後、ステップS8でn>Nか否
かが判断され、n≦NのときはステップS5に戻り、上
記の処理を繰り返す。ステップS8でn>Nのときは、
ステップS9でニューラルネットワークの荷重係数の更
新処理を実行して、ステップS10でパラメータiを1
だけインクリメントした後、ステップS11でi>Iか
否かが判断される。ここで、i≦Iのときは所定の繰り
返し数に達したと判断し、ステップS12で得られた音
素境界検出ニューラルネットワーク10をメモリに記憶
して、当該処理を終了する。
【0039】図5は、図1の単語照合部によって実行さ
れる単語照合処理を示すフローチャートである。図5に
おいて、まず、ステップS21でバッファメモリ4に記
憶された特徴パラメータと、音素境界検出ニューラルネ
ットワーク10を読み込む。次いで、ステップS22で
特徴パラメータに基づいて単語モデル7に対する対数尤
度Pwを計算する。さらに、ステップS23で特徴パラ
メータに基づいて、特徴パラメータの総フレーム数L個
の各フレームに対するニューラルネットワーク10の出
力値y(j),j=1,2,…,Lを計算する。そし
て、ステップS24で出力値y(j)の対数値を計算し
て、対数尤度
【数14】 を得る。そしてステップS25で音素境界検出処理を実
行した後、計算した対数尤度Pw,Psの重み付け和P
totalを次式を用いて計算し、
【数15】Ptotal=kPw+(1−k)Ps 単語レベルの照合処理を実行する。すなわち、計算され
た尤度Ptotalに基づいて最大の尤度を有する候補単語
を認識結果として文レベル照合部6に出力して、当該単
語レベル照合処理を終了する。
【0040】図6は、図5の単語照合処理におけるサブ
ルーチンである音素境界検出処理(方法1)(ステップ
S25)のフローチャートである。図6において、各フ
レームj毎にLまで、音素境界検出ニューラルネットワ
ーク10の出力値y(j)について、
【数16】y(j)≧h であるか否か判断され、YESのとき音素境界を判断す
る一方、NOのとき音素内と判断する。
【0041】図7は、図5の単語照合処理におけるサブ
ルーチンである音素境界検出処理(方法2)(ステップ
S25)のフローチャートである。図7においては、各
フレームj毎にLまで、音素境界検出ニューラルネット
ワーク10の出力値y(j)について、
【数17】y(j)≧hかつy(j)>y(j−1)か
つy(j)>y(j+1) であるか否か判断され、YESのとき音素境界を判断す
る一方、NOのとき音素内と判断する。
【0042】図8は、図5の単語照合処理におけるサブ
ルーチンである音素境界検出処理(方法3)(ステップ
S25)のフローチャートである。図8においては、各
フレームj毎にLまで、音素境界検出ニューラルネット
ワーク10の出力値y(j)について、
【数18】y(j)≧h であるときは第1の音素境界と判断し、
【数19】l≦y(j)<hかつy(j)>y(j−
1)かつy(j)>y(j+1) であるときは第2の音素境界と判断し、これら以外のと
きは、音素内と判断する。
【0043】図9は、図5の単語照合処理におけるサブ
ルーチンである音素境界検出処理(方法4)(ステップ
S25)のフローチャートである。図9において同様の
処理については同一のステップ番号を付している。図9
のフローチャートは、図8に比較して、ステップS57
の前段に、ステップS58が挿入され、ステップS58
では、連続する2つの第1の音素境界をk個毎に1つの
みを第1の音素境界として間引いて選択することを特徴
とする。
【0044】次いで、図1に示す自由発話音声認識装置
の構成及び動作について説明する。図1において、文字
列からなる発声音声文である話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、A/D変
換部2に入力される。A/D変換部2は、入力された音
声信号を所定のサンプリング周波数でA/D変換した
後、変換後のデジタルデータを特徴抽出部3に出力す
る。次いで、特徴抽出部3は、入力される音声信号のデ
ジタルデータに対して、例えばLPC分析を実行し、1
0次元のMFCCとパワーとを含む11次元の特徴パラ
メータを抽出する。抽出された特徴パラメータの時系列
はバッファメモリ4を介して単語レベル照合部5に入力
される。
【0045】単語モデルの生成においては、所定のモデ
ルパラメータに基づいて、尤度最大の単語モデル生成処
理を以下の如く実行して単語モデルを生成する。すなわ
ち、上記モデルパラメータにおける同一の単語である複
数N個の単語の音響的特徴量から最大尤度を有する当該
単語の代表の音素ラベルのサンプルを検出し、検出され
た代表の音素ラベルのサンプルと、複数N個の単語の音
素ラベルのサンプルとの時間的な対応付けを動的時間整
合法により行って時間的に正規化を行い、時間的に正規
化された代表の音素ラベルのサンプルと、上記複数N個
の音素ラベルのサンプルとを各単語毎に混合することに
より、単語毎に音響的特徴量を含む単語モデルを生成し
て、単語モデルメモリ7に格納する。要約すれば、生成
された混合分布の確率的音素モデルに基づいて、上記テ
キストの各単語毎の音声特徴パラメータを含む単語モデ
ルを生成する。
【0046】単語レベル照合部5に接続される単語モデ
ルメモリ7内の単語モデルは、前後の音素環境を連結す
る環境依存型音素モデルが縦続に連結されてなり、かつ
縦続に連結された複数の状態を含んで構成され、各状態
はそれぞれ以下の情報を有する。 (a)状態番号、(b)11次元の音響的特徴量の平均
値、(c)11次元の音響的特徴量の分散、(d)継続
時間、(e)各クラスタの重み、及び、(f)音素ラベ
ルに対応する音素コード。
【0047】単語レベル照合部5と文レベル照合部6と
は音声認識回路部を構成し、文レベル照合部6には、品
詞や単語の出力確率及び品詞間や単語間の遷移確率など
を含み文法規則メモリ8に記憶された文法規則と、シソ
ーラスの出力確率や対話管理規則を含み意味的規則メモ
リ9に記憶された意味的規則とが連結される。単語レベ
ル照合部5は、図5の単語レベル照合処理を実行するこ
とにより、単語レベルの音声認識を行う。すなわち、単
語レベル照合部5は、入力された音響的特徴量の時系列
に基づいて、上記メモリ7内の単語モデルと照合して少
なくとも1つの音声認識候補単語を検出し、検出された
候補単語に対して尤度を計算し、かつ、上述の音素境界
検出処理を実行して音素境界を検出して、最大の尤度を
有する候補単語を認識結果の単語として文レベル照合部
6に出力する。さらに、文レベル照合部6は入力された
認識結果の単語に基づいて、上記文法規則と意味的規則
とを含む言語モデルを参照して文レベルの照合処理を実
行することにより、最終的な音声認識結果の文を出力す
る。もし、言語モデルで適合受理されない単語があれ
ば、その情報を単語レベル照合部5に帰還して再度単語
レベルの照合を実行する。単語レベル照合部5と文レベ
ル照合部6は、複数の音素からなる単語を順次連接して
いくことにより、自由発話の連続音声の認識を行い、そ
の音声認識結果データを出力する。
【0048】
【実施例】本発明者は、本特許出願人が所有する音声デ
ータベースを用いて、(1)方法2とHMMに基づく音
素認識により得られる音素境界を音素検出結果とするも
のとの比較、(2)方法2乃至4の比較の2通りの性能
評価を行なった。ニューラルネットワーク10の入力と
して、フレーム長25.6msec、フレーム周期10
msecで分析した26次元のMFCC(12次元MF
CC、パワーとそれぞれの1次回帰係数)を用いた。出
力は、データベース中の音素ラベル情報を利用し、当該
フレームが音素境界である場合1,音素境界に隣接して
いる場合0.5、それ以外は0として与えた。ニューラ
ルネットワーク10における前向き及び後向きモジュー
ルのユニット数はそれぞれ10個とし、隠れモジュール
Dのユニット数は30個とし、学習の繰り返し回数Iは
1,000回とした。このときのニューラルネットワー
ク10の荷重係数の総数は2,181個である。学習デ
ータは462話者(3,696文章)、音素境界総数約
14万個(約110万フレーム)、評価データは学習デ
ータとは別の168話者(1,344文章)、音素境界
総数50,318個(約41万フレーム)である。ニュ
ーラルネットワーク10の真値と検出値との間の平均2
乗誤差は、学習データ及び評価データに対して、それぞ
れ、0.0604,0.0621であった。また、方法
2乃至4におけるしきい値の値は、実験的にh=0.
4,l=0.1とした。
【0049】次いで、評価方法について述べる。目視に
よりラベル付けされた音素境界に対して、所定の±Mフ
レーム以内のマージンの中に、音素境界の検出した結果
が含まれる場合は、正解(以下、正解数をHとする。)
とし、含まれていなかった場合は、脱落(以下、脱落数
をDとする。)とした。音素の湧き出しは、挿入(以
下、挿入数をIとする。)とした。また、所定の±Mフ
レームの中に複数の検出候補が含まれていた場合、1つ
を除いて挿入とした。このとき、正解率及びアキュラシ
ーは次式で定義される。
【0050】
【数20】正解率=H/N×100(%)
【数21】 アキュラシー=(N−D−I)/N×100(%)
【0051】本実施例においては、上記2つの尺度で音
素境界の検出性能を評価した。ここで、Nは、目視によ
りラベル付けされた音素の総数であり、
【数22】N=H+D である。
【0052】まず、方法2とHMMに基づく結果との比
較について述べる。M=0,1,2に対する方法2によ
る検出結果を表1に示す。本実施形態の音素境界検出ニ
ューラルネットワーク10の性能を比較するために、H
MMに基づく音素バイグラムを用いた音素認識を行な
い、この結果得られた音素境界を音素境界としたものと
比較した。ここで、音素境界(時間)情報のみに着目
し、認識結果は考慮してない。音素ラベル数61音素に
対して、3状態各5混合の環境非依存モデルを作成した
場合の結果を表2に、総状態数600各3混合の環境依
存モデル(例えば、従来技術文献4「鷹見淳一ほか,
“逐次状態分割法による隠れマルコフ網の自動生成”,
電子情報通信学会論文誌DーII,Vol.J76−D
−II,No.10,pp.2155−2164,19
93年10月」参照。)(無音モデルは3状態各10混
合のHMM)を作成した場合の結果を表3に示す。表1
と表2及び表3とを比較すると、ニューラルネットワー
ク10に基づく方法の方が高いアキュラシーが得られて
いる。これは、HMMが音素境界を検出するためにモデ
ルパラメータが学習されたものではなく、副次的に得ら
れた音素境界情報を用いて評価しているのに対して、ニ
ューラルネットワーク10は音素境界を検出するための
学習がなされているためと考えられる。
【0053】
【表1】 BRNNに基づく音素境界検出結果(方法2) しきい値h=0.4 ──────────────────────────── M 0 1 2 ──────────────────────────── 正解 23,175 38,248 40,056 挿入 18,983 4,066 2,293 脱落 27,143 12,070 10,262 ──────────────────────────── 正解率 46.06 76.01 79.61 アキュラシー 8.33 67.93 75.05 ────────────────────────────
【0054】
【表2】 HMMに基づく音素境界検出結果 (a)環境非依存モデル ────────────────────────────── M 0 1 2 ────────────────────────────── 正解 8,806 28,214 38,847 挿入 35,372 16,253 5,915 脱落 41,512 22,104 11,471 ────────────────────────────── 正解率 17.50 56.07 77.20 アキュラシー −52.80 23.77 65.45 ──────────────────────────────
【0055】
【表3】 HMMに基づく音素境界検出結果 (b)環境依存モデル ────────────────────────────── M 0 1 2 ────────────────────────────── 正解 14,198 35,967 42,611 挿入 32,970 11,521 5,110 脱落 36,120 14,351 7,707 ────────────────────────────── 正解率 28.22 71.47 84.68 アキュラシー −37.31 48.58 74.53 ──────────────────────────────
【0056】次に、方法2、3、4による性能の比較を
表4に示す。
【0057】
【表4】 ─────────────────────────────── 方法 2 3 4 ─────────────────────────────── 正解 40,056 48,856 48,856 挿入 2,293 67,570 30,629 脱落 10,262 1,462 1,461 ─────────────────────────────── 正解率 79.61 97.10 97.10 アキュラシー 75.05 −37.19 36.22 ───────────────────────────────
【0058】ここで、方法4の間引き間隔はk=2と
し、全ての評価はM=2で行なった。方法2は最もアキ
ュラシーは高いが、脱落数が多いことが分かる。上述の
ように、音素境界候補の再評価が可能な場合において
は、脱落数が多いこの方法はあまり適切ではないと考え
られる。方法3は脱落数が方法2に対して大幅に低減で
きているが、逆に挿入数が大幅に増えている。方法4で
は、方法3に対して脱落数を増加させることなく、挿入
数が半分以下となっている。また、方法4の検出結果を
ラティス表現した場合、97.10%もの多くの正解が
ラティス内に含まれることが分かる。
【0059】以上説明したように、本実施形態によれ
ば、音声特徴パラメータを用いてBRNNであるニュー
ラルネットワーク10を学習し、学習したニューラルネ
ットワーク10を用いて、音声特徴パラメータのみに基
づいて音素境界位置を高速にかつ正確に検出することが
できる。音素境界位置がより正確に得ることにより、 (a)音声認識の性能を向上させるとともに、音声認識
の計算量を大幅に低減させることができる。 (b)また、音素境界検出ニューラルネットワーク10
を併用して音響モデルであるHMMの初期モデルを作成
するときに、その精度を大幅に向上させることができ
る。 (c)さらに、音素境界検出ニューラルネットワーク1
0を音声合成のための音声波形信号の切り出しのために
用いることができ、この場合、波形切り出し誤差を大幅
に低減させることができる。
【0060】
【発明の効果】以上詳述したように本発明に係る請求項
1記載の音素境界検出装置によれば、入力層と、複数の
ユニットを有し少なくとも1層の中間層と、1個のユニ
ットを有し音素境界検出確率を表す音素境界検出値を出
力する出力層とを備えた双方向リカレント型ニューラル
ネットワークを用いて、音声特徴パラメータ系列の音素
境界を検出する音素境界検出装置であって、上記入力層
は、複数の音声特徴パラメータを入力とし、複数のユニ
ットを有する第1の入力ニューロングループと、前向き
モジュールと、後向きモジュールとを備え、上記前向き
モジュールは、複数の音声特徴パラメータに基づいて、
時間的に前向きの帰還接続を有して上記第1の入力ニュ
ーロングループから出力される複数のパラメータよりも
所定の単位時間だけ遅延された時刻の複数のパラメータ
を生成して上記中間層に出力する一方、上記後向きモジ
ュールは、複数の音声特徴パラメータに基づいて、時間
的に後向きの帰還接続を有して上記第1の入力ニューロ
ングループから出力される複数のパラメータよりも所定
の単位時間だけ逆向きに遅延された時刻の複数のパラメ
ータを生成して上記中間層に出力する。従って、音声特
徴パラメータのみに基づいて音素境界位置を高速にかつ
正確に検出することができる。また、音素境界位置がよ
り正確に得ることにより、音声認識の性能を向上させる
とともに、音声認識の計算量を大幅に低減させることが
できる。
【0061】また、請求項2記載の音素境界検出装置に
おいては、請求項1記載の音素境界検出装置において、
上記前向きモジュールは、複数の音声特徴パラメータを
入力とし、複数のユニットを有する第2の入力ニューロ
ングループと、第2の中間ニューロングループから所定
の単位時間だけ遅延されて出力される複数のパラメータ
を入力とする、複数のユニットを有する第1の中間ニュ
ーロングループと、上記第2の入力ニューロングループ
から出力される複数のパラメータと、上記第1の中間ニ
ューロングループから出力される複数のパラメータに対
してそれぞれ各荷重係数を乗算してそれぞれ入力される
ように接続され、複数のユニットを有する第2の中間ニ
ューロングループとを備え、上記後向きモジュールは、
複数の音声特徴パラメータを入力とし、複数のユニット
を有する第3の入力ニューロングループと、第4の中間
ニューロングループから所定の単位時間だけ逆向きに遅
延されて出力される複数のパラメータを入力とする、複
数のユニットを有する第3の中間ニューロングループ
と、上記第3の入力ニューロングループから出力される
複数のパラメータと、上記第3の中間ニューロングルー
プから出力される複数のパラメータに対してそれぞれ各
荷重係数を乗算してそれぞれ入力されるように接続さ
れ、複数のユニットを有する第4の中間ニューロングル
ープとを備え、上記第2の中間ニューロングループから
出力される複数のパラメータに対してそれぞれ各荷重係
数を乗算してそれぞれ上記中間層の複数のユニットに入
力されるように接続され、上記第1の入力ニューロング
ループから出力される複数のパラメータに対してそれぞ
れ各荷重係数を乗算してそれぞれ上記中間層の複数のユ
ニットに入力されるように接続され、上記第4の中間ニ
ューロングループから出力される複数のパラメータに対
してそれぞれ各荷重係数を乗算してそれぞれ上記中間層
の複数のユニットに入力されるように接続され、上記中
間層から出力される複数のパラメータに対してそれぞれ
各荷重係数を乗算してそれぞれ上記出力層のユニットに
入力されるように接続される。従って、音声特徴パラメ
ータのみに基づいて音素境界位置を高速にかつ正確に検
出することができる。また、音素境界位置がより正確に
得ることにより、音声認識の性能を向上させるととも
に、音声認識の計算量を大幅に低減させることができ
る。
【0062】さらに、請求項3記載の音素境界検出装置
においては、請求項1又は2記載の音素境界検出装置に
おいて、上記出力層から出力される音素境界検出値が所
定のしきい値以上のときに音素境界として検出する第1
の検出手段をさらに備える。従って、音声特徴パラメー
タのみに基づいて音素境界位置を高速にかつ正確に検出
することができる。また、音素境界位置がより正確に得
ることにより、音声認識の性能を向上させるとともに、
音声認識の計算量を大幅に低減させることができる。
【0063】さらに、請求項4記載の音素境界検出装置
においては、請求項1又は2記載の音素境界検出装置に
おいて、上記出力層から出力される音素境界検出値が所
定のしきい値以上であって、極大値となるときに音素境
界として検出する第2の検出手段をさらに備える。従っ
て、音声特徴パラメータのみに基づいて音素境界位置を
高速にかつ正確に検出することができる。また、音素境
界位置がより正確に得ることにより、音声認識の性能を
向上させるとともに、音声認識の計算量を大幅に低減さ
せることができる。
【0064】さらに、請求項5記載の音素境界検出装置
においては、請求項1又は2記載の音素境界検出装置に
おいて、上記出力層から出力される音素境界検出値が、
所定の第1のしきい値以上であるときに第1の音素境界
として検出し、上記音素境界検出値が、上記第1のしき
い値よりも小さい第2のしきい値以上であって上記第1
のしきい値未満でありかつ極大値となるときに第2の音
素境界として検出する第3の検出手段をさらに備える。
従って、音声特徴パラメータのみに基づいて音素境界位
置を高速にかつ正確に検出することができる。また、音
素境界位置がより正確に得ることにより、音声認識の性
能を向上させるとともに、音声認識の計算量を大幅に低
減させることができる。
【0065】また、請求項6記載の音素境界検出装置に
おいては、請求項5記載の音素境界検出装置において、
上記第3の検出手段は、上記第1の音素境界として検出
したものを所定の複数個毎に1個の音素境界を選択して
第1の音素境界として選択する。従って、音声特徴パラ
メータのみに基づいて音素境界位置を高速にかつ正確に
検出することができる。また、音素境界位置がより正確
に得ることにより、音声認識の性能を向上させるととも
に、音声認識の計算量を大幅に低減させることができ
る。
【0066】さらに、請求項7記載の音素境界検出装置
においては、請求項5又は6記載の音素境界検出装置に
おいて、上記第3の検出手段は、上記検出又は選択した
第1の音素境界と第2の音素境界との間で形成された経
路のラティスに基づいて音素境界を検出する。従って、
音声特徴パラメータのみに基づいて音素境界位置を高速
にかつ正確に検出することができる。また、音素境界位
置がより正確に得ることにより、音声認識の性能を向上
させるとともに、音声認識の計算量を大幅に低減させる
ことができる。
【0067】本発明に係る請求項8記載の音声認識装置
においては、入力された文字列からなる発声音声文の音
声信号から音声特徴パラメータを抽出する特徴抽出手段
と、上記特徴抽出手段によって抽出された音声特徴パラ
メータに基づいて、請求項1乃至7のうちの1つに記載
された音素境界検出装置によって検出された音素境界
と、所定の音響モデルとを用いて、入力された文字列か
らなる発声音声文の音声信号を音声認識する音声認識手
段とを備える。従って、音声特徴パラメータのみに基づ
いて音素境界位置を高速にかつ正確に検出することがで
きる。また、音素境界位置がより正確に得ることによ
り、音声認識の性能を向上させるとともに、音声認識の
計算量を大幅に低減させることができる。
【図面の簡単な説明】
【図1】 本発明に係る一実施形態である音素境界検出
ニューラルネットワークを用いた音声認識装置のブロッ
ク図である。
【図2】 図1の音素境界検出ニューラルネットワーク
の構成を示すブロック図である。
【図3】 図2の音素境界検出ニューラルネットワーク
の等価構造を示すブロック図である。
【図4】 図1のニューラルネットワーク学習部によっ
て実行されるニューラルネットワーク学習処理を示すフ
ローチャートである。
【図5】 図1の単語照合部によって実行される単語照
合処理を示すフローチャートである。
【図6】 図5の単語照合処理におけるサブルーチンで
ある音素境界検出処理(方法1)のフローチャートであ
る。
【図7】 図5の単語照合処理におけるサブルーチンで
ある音素境界検出処理(方法2)のフローチャートであ
る。
【図8】 図5の単語照合処理におけるサブルーチンで
ある音素境界検出処理(方法3)のフローチャートであ
る。
【図9】 図5の単語照合処理におけるサブルーチンで
ある音素境界検出処理(方法4)のフローチャートであ
る。
【図10】 図5の音素境界検出処理によって検出され
た一例を示すグラフである。
【図11】 図5の音素境界検出処理における音素境界
候補のラティス表現を示す図である。
【符号の説明】
1…マイクロホン、 2…A/D変換器、 3…特徴抽出部、 4…バッファメモリ、 5…単語レベル照合部、 6…文レベル照合部、 7…単語モデル、 8…文法規則、 9…意味的規則、 10…音素境界検出ニューラルネットワーク、 20…ニューラルネットワーク学習部、 31…学習用音声データの特徴パラメータファイル、 32…学習用音声データの音素境界値ファイル、 33…音素境界検出ニューラルネットワークの初期モデ
ル、 100…入力層、 200…中間層、 300…出力層、 A(t),51,61…入力ニューロングループ、 B(t−1)…前向きモジュール、 C(t+1)…後向きモジュール、 52,53,62,63…中間ニューロングループ、 54…遅延素子、 64…逆向き遅延素子、 D…隠れニューロングループ、 E…出力ニューロングループ。

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 入力層と、複数のユニットを有し少なく
    とも1層の中間層と、1個のユニットを有し音素境界検
    出確率を表す音素境界検出値を出力する出力層とを備え
    た双方向リカレント型ニューラルネットワークを用い
    て、音声特徴パラメータ系列の音素境界を検出する音素
    境界検出装置であって、 上記入力層は、 複数の音声特徴パラメータを入力とし、複数のユニット
    を有する第1の入力ニューロングループと、 前向きモジュールと、 後向きモジュールとを備え、 上記前向きモジュールは、複数の音声特徴パラメータに
    基づいて、時間的に前向きの帰還接続を有して上記第1
    の入力ニューロングループから出力される複数のパラメ
    ータよりも所定の単位時間だけ遅延された時刻の複数の
    パラメータを生成して上記中間層に出力する一方、 上記後向きモジュールは、複数の音声特徴パラメータに
    基づいて、時間的に後向きの帰還接続を有して上記第1
    の入力ニューロングループから出力される複数のパラメ
    ータよりも所定の単位時間だけ逆向きに遅延された時刻
    の複数のパラメータを生成して上記中間層に出力するこ
    とを特徴とする音素境界検出装置。
  2. 【請求項2】 上記前向きモジュールは、 複数の音声特徴パラメータを入力とし、複数のユニット
    を有する第2の入力ニューロングループと、 第2の中間ニューロングループから所定の単位時間だけ
    遅延されて出力される複数のパラメータを入力とする、
    複数のユニットを有する第1の中間ニューロングループ
    と、 上記第2の入力ニューロングループから出力される複数
    のパラメータと、上記第1の中間ニューロングループか
    ら出力される複数のパラメータに対してそれぞれ各荷重
    係数を乗算してそれぞれ入力されるように接続され、複
    数のユニットを有する第2の中間ニューロングループと
    を備え、 上記後向きモジュールは、 複数の音声特徴パラメータを入力とし、複数のユニット
    を有する第3の入力ニューロングループと、 第4の中間ニューロングループから所定の単位時間だけ
    逆向きに遅延されて出力される複数のパラメータを入力
    とする、複数のユニットを有する第3の中間ニューロン
    グループと、 上記第3の入力ニューロングループから出力される複数
    のパラメータと、上記第3の中間ニューロングループか
    ら出力される複数のパラメータに対してそれぞれ各荷重
    係数を乗算してそれぞれ入力されるように接続され、複
    数のユニットを有する第4の中間ニューロングループと
    を備え、 上記第2の中間ニューロングループから出力される複数
    のパラメータに対してそれぞれ各荷重係数を乗算してそ
    れぞれ上記中間層の複数のユニットに入力されるように
    接続され、 上記第1の入力ニューロングループから出力される複数
    のパラメータに対してそれぞれ各荷重係数を乗算してそ
    れぞれ上記中間層の複数のユニットに入力されるように
    接続され、 上記第4の中間ニューロングループから出力される複数
    のパラメータに対してそれぞれ各荷重係数を乗算してそ
    れぞれ上記中間層の複数のユニットに入力されるように
    接続され、 上記中間層から出力される複数のパラメータに対してそ
    れぞれ各荷重係数を乗算してそれぞれ上記出力層のユニ
    ットに入力されるように接続されたことを特徴とする請
    求項1記載の音素境界検出装置。
  3. 【請求項3】 上記出力層から出力される音素境界検出
    値が所定のしきい値以上のときに音素境界として検出す
    る第1の検出手段をさらに備えたことを特徴とする請求
    項1又は2記載の音素境界検出装置。
  4. 【請求項4】 上記出力層から出力される音素境界検出
    値が所定のしきい値以上であって、極大値となるときに
    音素境界として検出する第2の検出手段をさらに備えた
    ことを特徴とする請求項1又は2記載の音素境界検出装
    置。
  5. 【請求項5】 上記出力層から出力される音素境界検出
    値が、所定の第1のしきい値以上であるときに第1の音
    素境界として検出し、上記音素境界検出値が、上記第1
    のしきい値よりも小さい第2のしきい値以上であって上
    記第1のしきい値未満でありかつ極大値となるときに第
    2の音素境界として検出する第3の検出手段をさらに備
    えたことを特徴とする請求項1又は2記載の音素境界検
    出装置。
  6. 【請求項6】 上記第3の検出手段は、上記第1の音素
    境界として検出したものを所定の複数個毎に1個の音素
    境界を選択して第1の音素境界として選択することを特
    徴とする請求項5記載の音素境界検出装置。
  7. 【請求項7】 上記第3の検出手段は、上記検出又は選
    択した第1の音素境界と第2の音素境界との間で形成さ
    れた経路のラティスに基づいて音素境界を検出すること
    を特徴とする請求項5又は6記載の音素境界検出装置。
  8. 【請求項8】 入力された文字列からなる発声音声文の
    音声信号から音声特徴パラメータを抽出する特徴抽出手
    段と、 上記特徴抽出手段によって抽出された音声特徴パラメー
    タに基づいて、請求項1乃至7のうちの1つに記載され
    た音素境界検出装置によって検出された音素境界と、所
    定の音響モデルとを用いて、入力された文字列からなる
    発声音声文の音声信号を音声認識する音声認識手段とを
    備えたことを特徴とする音声認識装置。
JP9054594A 1997-03-10 1997-03-10 音素境界検出装置及び音声認識装置 Expired - Lifetime JP2996925B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9054594A JP2996925B2 (ja) 1997-03-10 1997-03-10 音素境界検出装置及び音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9054594A JP2996925B2 (ja) 1997-03-10 1997-03-10 音素境界検出装置及び音声認識装置

Publications (2)

Publication Number Publication Date
JPH10254477A true JPH10254477A (ja) 1998-09-25
JP2996925B2 JP2996925B2 (ja) 2000-01-11

Family

ID=12975066

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9054594A Expired - Lifetime JP2996925B2 (ja) 1997-03-10 1997-03-10 音素境界検出装置及び音声認識装置

Country Status (1)

Country Link
JP (1) JP2996925B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011053425A (ja) * 2009-09-01 2011-03-17 Nippon Telegr & Teleph Corp <Ntt> 音素分割装置、方法及びプログラム
JP2018097860A (ja) * 2016-12-14 2018-06-21 三星電子株式会社Samsung Electronics Co.,Ltd. 認識方法、認識装置及びトレーニング方法
CN108932943A (zh) * 2018-07-12 2018-12-04 广州视源电子科技股份有限公司 命令词语音检测方法、装置、设备和存储介质
WO2022113214A1 (ja) * 2020-11-25 2022-06-02 日本電信電話株式会社 ラベリング処理方法、ラベリング処理装置およびラベリング処理プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680584B (zh) * 2017-09-29 2020-08-25 百度在线网络技术(北京)有限公司 用于切分音频的方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011053425A (ja) * 2009-09-01 2011-03-17 Nippon Telegr & Teleph Corp <Ntt> 音素分割装置、方法及びプログラム
JP2018097860A (ja) * 2016-12-14 2018-06-21 三星電子株式会社Samsung Electronics Co.,Ltd. 認識方法、認識装置及びトレーニング方法
CN108932943A (zh) * 2018-07-12 2018-12-04 广州视源电子科技股份有限公司 命令词语音检测方法、装置、设备和存储介质
WO2022113214A1 (ja) * 2020-11-25 2022-06-02 日本電信電話株式会社 ラベリング処理方法、ラベリング処理装置およびラベリング処理プログラム

Also Published As

Publication number Publication date
JP2996925B2 (ja) 2000-01-11

Similar Documents

Publication Publication Date Title
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
Robinson An application of recurrent nets to phone probability estimation
US8478591B2 (en) Phonetic variation model building apparatus and method and phonetic recognition system and method thereof
US4741036A (en) Determination of phone weights for markov models in a speech recognition system
US7689419B2 (en) Updating hidden conditional random field model parameters after processing individual training samples
US8494847B2 (en) Weighting factor learning system and audio recognition system
JPH10254483A (ja) 音素シンボルの事後確率演算装置及び音声認識装置
Deshmukh Comparison of hidden markov model and recurrent neural network in automatic speech recognition
JP2000099080A (ja) 信頼性尺度の評価を用いる音声認識方法
WO1993013519A1 (en) Composite expert
US20220223066A1 (en) Method, device, and computer program product for english pronunciation assessment
US20100324897A1 (en) Audio recognition device and audio recognition method
US20050015251A1 (en) High-order entropy error functions for neural classifiers
JPH08211889A (ja) 木構造を用いたパターン適応化方式
JP2996925B2 (ja) 音素境界検出装置及び音声認識装置
JPH1185186A (ja) 不特定話者音響モデル生成装置及び音声認識装置
Huang et al. A fast algorithm for large vocabulary keyword spotting application
Saha Development of a bangla speech to text conversion system using deep learning
JP3589044B2 (ja) 話者適応化装置
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP2974621B2 (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
JPH01204099A (ja) 音声認識装置
KR100327486B1 (ko) 스테이트별 가중치를 적용한 음성 인식 장치 및 방법
JP2005156593A (ja) 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置
JP3216565B2 (ja) 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体