JPH10254477A

JPH10254477A - 音素境界検出装置及び音声認識装置

Info

Publication number: JPH10254477A
Application number: JP9054594A
Authority: JP
Inventors: Yoshinori Kosaka; 芳典匂坂
Original assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Current assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Priority date: 1997-03-10
Filing date: 1997-03-10
Publication date: 1998-09-25
Anticipated expiration: 2017-03-10
Also published as: JP2996925B2

Abstract

(57)【要約】【課題】従来例に比較して高い精度でかつ高速で音素
境界を検出することができ音素境界検出装置及び音声認
識装置を提供する。【解決手段】入力層と、少なくとも１層の中間層と、
１個のユニットを有し音素境界検出値を出力する出力層
とを備えた双方向リカレント型ニューラルネットワーク
を用いて、音声特徴パラメータ系列の音素境界を検出す
る。入力層は、音声特徴パラメータを入力とする入力ニ
ューロングループと、前向きモジュールと、後向きモジ
ュールとを備える。前向きモジュールは、音声特徴パラ
メータに基づいて、時間的に前向きの帰還接続を有して
入力ニューロングループからのパラメータよりも単位時
間だけ遅延された時刻のパラメータを出力し、後向きモ
ジュールは、音声特徴パラメータに基づいて、時間的に
後向きの帰還接続を有して入力ニューロングループから
のパラメータよりも単位時間だけ逆向きに遅延された時
刻のパラメータを出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、双方向リカレント
型ニューラルネットワーク（Bi-directional Recurrent
Neural Network；以下、ＢＲＮＮという。）を用いて
音声信号波形信号の音素境界を検出する音素境界検出装
置、及び、上記音素境界検出装置を用いて音声認識する
音声認識装置に関する。本明細書で、音素と音素との境
界を音素境界という。

【０００２】

【従来の技術】従来、音声認識装置のための音響モデル
として音声信号の音声セグメントを用いて音声認識する
方法が、例えば、従来技術文献１「T.Svedsen et al.,
“On the automatic segmentaiton of speech signal
s",Proceedins of ICASSP-87,pp.77-80,1987年」、従来
技術文献２「A.Ljolje et al.,“Automatic segmentati
onand labelling of speech," Proceedings of ICASSP-
91,pp.473-476,1991年」、及び従来技術文献３「J.Glas
s et al.,“A probabilistic framework for feature-b
ased speech recognition",Proceedings of IGSLP-96,p
p.2277-2280,1996年」において開示されている。ここ
で、従来技術文献１及び２においては、音声認識におけ
る音響モデル作成や音声合成のための自動セグメンテー
ションの方法が開示され、従来技術文献３においては、
音声認識のための前処理について開示されている。

【０００３】

【発明が解決しようとする課題】従来技術文献１におい
ては、隠れマルコフモデル（以下、ＨＭＭという。）
と、発声音声の書き下しテキストデータとを用いて、従
来技術文献２においてはさらに、継続時間長モデルを用
いて、音素ラベルの自動ラベリングを行っている。しか
しながら、ＨＭＭモデルは音素検出のために尤度が最大
となるように学習されているので、音素検出を行うとき
にその性能は比較的低く、処理時間が比較的長いという
問題点があった。また、従来技術文献２においては、継
続時間長モデルを用いて音素検出しているので、処理時
間が比較的長いという問題点があった。

【０００４】本発明の第１の目的は以上の問題点を解決
し、従来例に比較して高い精度でかつ高速で音素境界を
検出することができ音素境界検出装置を提供することに
ある。

【０００５】本発明の第２の目的は以上の問題点を解決
し、上記音素境界検出装置を用いて、従来例に比較して
高い音声認識率でかつ高速で音声認識することができる
音声認識装置を提供することにある。

【０００６】

【課題を解決するための手段】本発明に係る請求項１記
載の音素境界検出装置は、入力層と、複数のユニットを
有し少なくとも１層の中間層と、１個のユニットを有し
音素境界検出確率を表す音素境界検出値を出力する出力
層とを備えた双方向リカレント型ニューラルネットワー
クを用いて、音声特徴パラメータ系列の音素境界を検出
する音素境界検出装置であって、上記入力層は、複数の
音声特徴パラメータを入力とし、複数のユニットを有す
る第１の入力ニューロングループと、前向きモジュール
と、後向きモジュールとを備え、上記前向きモジュール
は、複数の音声特徴パラメータに基づいて、時間的に前
向きの帰還接続を有して上記第１の入力ニューロングル
ープから出力される複数のパラメータよりも所定の単位
時間だけ遅延された時刻の複数のパラメータを生成して
上記中間層に出力する一方、上記後向きモジュールは、
複数の音声特徴パラメータに基づいて、時間的に後向き
の帰還接続を有して上記第１の入力ニューロングループ
から出力される複数のパラメータよりも所定の単位時間
だけ逆向きに遅延された時刻の複数のパラメータを生成
して上記中間層に出力することを特徴とする。

【０００７】また、請求項２記載の音素境界検出装置
は、請求項１記載の音素境界検出装置において、上記前
向きモジュールは、複数の音声特徴パラメータを入力と
し、複数のユニットを有する第２の入力ニューロングル
ープと、第２の中間ニューロングループから所定の単位
時間だけ遅延されて出力される複数のパラメータを入力
とする、複数のユニットを有する第１の中間ニューロン
グループと、上記第２の入力ニューロングループから出
力される複数のパラメータと、上記第１の中間ニューロ
ングループから出力される複数のパラメータに対してそ
れぞれ各荷重係数を乗算してそれぞれ入力されるように
接続され、複数のユニットを有する第２の中間ニューロ
ングループとを備え、上記後向きモジュールは、複数の
音声特徴パラメータを入力とし、複数のユニットを有す
る第３の入力ニューロングループと、第４の中間ニュー
ロングループから所定の単位時間だけ逆向きに遅延され
て出力される複数のパラメータを入力とする、複数のユ
ニットを有する第３の中間ニューロングループと、上記
第３の入力ニューロングループから出力される複数のパ
ラメータと、上記第３の中間ニューロングループから出
力される複数のパラメータに対してそれぞれ各荷重係数
を乗算してそれぞれ入力されるように接続され、複数の
ユニットを有する第４の中間ニューロングループとを備
え、上記第２の中間ニューロングループから出力される
複数のパラメータに対してそれぞれ各荷重係数を乗算し
てそれぞれ上記中間層の複数のユニットに入力されるよ
うに接続され、上記第１の入力ニューロングループから
出力される複数のパラメータに対してそれぞれ各荷重係
数を乗算してそれぞれ上記中間層の複数のユニットに入
力されるように接続され、上記第４の中間ニューロング
ループから出力される複数のパラメータに対してそれぞ
れ各荷重係数を乗算してそれぞれ上記中間層の複数のユ
ニットに入力されるように接続され、上記中間層から出
力される複数のパラメータに対してそれぞれ各荷重係数
を乗算してそれぞれ上記出力層のユニットに入力される
ように接続されたことを特徴とする。

【０００８】さらに、請求項３記載の音素境界検出装置
は、請求項１又は２記載の音素境界検出装置において、
上記出力層から出力される音素境界検出値が所定のしき
い値以上のときに音素境界として検出する第１の検出手
段をさらに備えたことを特徴とする。

【０００９】さらに、請求項４記載の音素境界検出装置
は、請求項１又は２記載の音素境界検出装置において、
上記出力層から出力される音素境界検出値が所定のしき
い値以上であって、極大値となるときに音素境界として
検出する第２の検出手段をさらに備えたことを特徴とす
る。

【００１０】さらに、請求項５記載の音素境界検出装置
は、請求項１又は２記載の音素境界検出装置において、
上記出力層から出力される音素境界検出値が、所定の第
１のしきい値以上であるときに第１の音素境界として検
出し、上記音素境界検出値が、上記第１のしきい値より
も小さい第２のしきい値以上であって上記第１のしきい
値未満でありかつ極大値となるときに第２の音素境界と
して検出する第３の検出手段をさらに備えたことを特徴
とする。

【００１１】また、請求項６記載の音素境界検出装置
は、請求項５記載の音素境界検出装置において、上記第
３の検出手段は、上記第１の音素境界として検出したも
のを所定の複数個毎に１個の音素境界を選択して第１の
音素境界として選択することを特徴とする。

【００１２】さらに、請求項７記載の音素境界検出装置
は、請求項５又は６記載の音素境界検出装置において、
上記第３の検出手段は、上記検出又は選択した第１の音
素境界と第２の音素境界との間で形成された経路のラテ
ィスに基づいて音素境界を検出することを特徴とする。

【００１３】本発明に係る請求項８記載の音声認識装置
は、入力された文字列からなる発声音声文の音声信号か
ら音声特徴パラメータを抽出する特徴抽出手段と、上記
特徴抽出手段によって抽出された音声特徴パラメータに
基づいて、請求項１乃至７のうちの１つに記載された音
素境界検出装置によって検出された音素境界と、所定の
音響モデルとを用いて、入力された文字列からなる発声
音声文の音声信号を音声認識する音声認識手段とを備え
たことを特徴とする。

【００１４】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。図１は、本発明に係る一
実施形態である音素境界検出ニューラルネットワーク１
０を用いた音声認識装置のブロック図である。この実施
形態は、学習用音声データの特徴パラメータファイル３
１と、学習用音声データの音素境界値ファイル３２とに
基づいて、所定の学習アリゴリズムを用いて、音素境界
検出ニューラルネットワークの初期モデル３３を学習す
ることにより、音素境界検出ニューラルネットワーク１
０を得るニューラルネットワーク学習部２０を備え、単
語レベル照合部５は、得られた音素境界検出ニューラル
ネットワーク１０を用いて音素境界を検出しかつ音素を
検出して単語レベルの音声認識を行うことを特徴として
いる。従って、単語レベル照合部５は、音素境界検出装
置を含む。

【００１５】本実施形態においては、音素境界の検出の
ために、図２に示すＢＲＮＮで構成される音素境界検出
ニューラルネットワーク１０を用いた。一般のリカレン
ト型ニューラルネットワークが時間的に過去の情報を再
帰的に利用するのに対し、ＢＲＮＮは過去及び未来の入
力情報が利用できることを特徴とする。

【００１６】図２において、入力はケプストラムなどの
音声特徴パラメータの情報を、出力は当該フレームの入
力が音素境界であるかどうかの情報（例えば、当該フレ
ームが音素境界である場合１，それ以外は０）を学習時
に教師信号として与える。すなわち、入力ニューロング
ループＡ（ｔ）のユニット数は音声特徴パラメータの次
元数２６個となり、出力のユニット数は１個となる。こ
こで、音声特徴パラメータは、１２次元のメルケプスト
ラム係数（以下、ＭＦＣＣという。）と、パワーと、そ
れぞれの１次回帰係数とを含む。以下、１つのファイル
の総フレーム数は複数Ｌ個とする。

【００１７】図２において、前向きモジュールＢ（ｔ−
１）は、２６個の音声特徴パラメータに基づいて、時間
的に前向きの帰還接続を有して入力ニューロングループ
Ａ（ｔ）から出力される２６個のパラメータよりも所定
の単位時間だけ遅延された時刻ｔ−１の１０個のパラメ
ータを生成して隠れニューロングループＤに出力するモ
ジュールであり、（ａ）２６個の音声特徴パラメータを
入力とする、２６個のユニットａ₁乃至ａ₂₆を有する入
力ニューロングループ５１と、（ｂ）中間ニューロング
ループ５３から遅延素子５４を介して出力される１０個
のパラメータを入力とする、１０個のユニットｂ₁乃至
ｂ₁₀を有する中間ニューロングループ５２と、（ｃ）入
力ニューロングループ５１から出力される２６個のパラ
メータと、中間ニューロングループ５２から出力される
１０個のパラメータに対してそれぞれ各荷重係数を乗算
してそれぞれ入力されるように接続される１０個のユニ
ットｂ₁乃至ｂ₁₀を有する中間ニューロングループ５３
と、（ｄ）中間ニューロングループ５３から出力される
１０個のパラメータを所定の単位時間だけ遅延させて中
間ニューロングループ５２に出力する遅延素子５４と、
（ｅ）１０個のユニットｂ₁乃至ｂ₁₀を有する前向きモ
ジュールＢ（ｔ−１）の状態ニューロングループとな
り、前向きモジュールＢ（ｔ−１）の動作終了時の時刻
ｔ−１における中間ニューロングループ５３から出力さ
れる出力値を一時的に記憶して、すなわちラッチして、
音素境界検出のための右側のニューラルネットワークの
隠れニューロングループＤに出力する出力ラッチ５５と
を備える。

【００１８】以上のように構成された前向きモジュール
Ｂ（ｔ−１）においては、中間ニューロングループ５２
から中間ニューロングループ５３及び遅延素子５４を介
して中間ニューロングループ５２へと帰還ループを形成
しており、繰り返し計算した後の前向きモジュールＢ
（ｔ−１）の動作終了時の時刻ｔ−１における中間ニュ
ーロングループ５３から出力される出力パラメータベク
トルＢ_m（ｍ＝１，２，…，ｔ−１）は次式で表され
る。

【００１９】

【数１】Ｂ_m＝Ｗ_FA・Ａ_m＋Ｗ_FB・Ｂ_m-1

【００２０】ここで、出力値ベクトルＢ_mは１０個のパ
ラメータ値からなり、その初期値ベクトルＢ₀は次式で
表される。

【数２】

【００２１】また、入力ニューロングループ５１への入
力パラメータベクトルＡ_mは次式で表される。

【数３】

【００２２】ここで、Ｏ_m（１）は時刻ｍにおけるＭＦ
ＣＣの１次の値であり、Ｏ_m（２）は時刻ｍにおけるＭ
ＦＣＣの２次の値であり、以下同様にして、Ｏ_m（２
６）は時刻ｍにおけるＭＦＣＣの２６次の値である。さ
らに、数１の荷重係数行列Ｗ_FA，Ｗ_FBはそれぞれ、１０
×２６の行列、１０×１０の行列であり、次式で表され
る。

【数４】

【数５】

【００２３】さらに、図２において、後向きモジュール
Ｃ（ｔ＋１）は、２６個の音声特徴パラメータに基づい
て、時間的に後向きの帰還接続を有して入力ニューロン
グループＡ（ｔ）から出力される２６個のパラメータよ
りも所定の単位時間だけ逆向きに遅延された時刻ｔ＋１
の１０個のパラメータを生成して隠れニューロングルー
プＤに出力するモジュールであって、（ａ）２６個の音
声特徴パラメータを入力とする、２６個のユニットａ₁
乃至ａ₂₆を有する入力ニューロングループ６１と、
（ｂ）中間ニューロングループ６３から逆向き遅延素子
６４を介して出力される１０個のパラメータを入力とす
る、１０個のユニットｃ₁乃至ｃ₁₀を有する中間ニュー
ロングループ６２と、（ｃ）入力ニューロングループ６
１から出力される２６個のパラメータと、中間ニューロ
ングループ６２から出力される１０個のパラメータに対
してそれぞれ各荷重係数を乗算してそれぞれ入力される
ように接続される１０個のユニットｃ₁乃至ｃ₁₀を有す
る中間ニューロングループ６３と、（ｄ）中間ニューロ
ングループ６３から出力される１０個のパラメータを所
定の単位時間だけ遅延させて中間ニューロングループ６
２に出力する逆向き遅延素子６４と、（ｅ）１０個のユ
ニットｃ₁乃至ｃ₁₀を有する後向きモジュールＣ（ｔ＋
１）の状態ニューロングループとなり、後向きモジュー
ルＣ（ｔ＋１）の動作終了時の時刻ｔ＋１における中間
ニューロングループ６３から出力される出力値を一時的
に記憶して、すなわちラッチして、音素境界検出のため
の右側のニューラルネットワークの隠れニューロングル
ープＤに出力する出力ラッチ６５とを備える。

【００２４】以上のように構成された後向きモジュール
Ｃ（ｔ＋１）においては、中間ニューロングループ６２
から中間ニューロングループ６３及び逆向き遅延素子６
４を介して中間ニューロングループ６２へと帰還ループ
を形成しており、繰り返し計算した後の後向きモジュー
ルＣ（ｔ＋１）の動作終了時の時刻ｔ＋１における中間
ニューロングループ６３から出力される出力パラメータ
ベクトルＣ_m（ｍ＝Ｌ，Ｌ−１，…，ｔ＋１）は次式で
表される。

【００２５】

【数６】Ｃ_m＝Ｗ_BA・Ａ_m＋Ｗ_BC・Ｃ_m+1

【００２６】ここで、出力値ベクトルＣ_mは１０個のパ
ラメータ値からなり、その初期値ベクトルＣ_L+1は次式
で表される。

【数７】

【００２７】また、入力ニューロングループ６１への入
力パラメータベクトルＡ_mは数３と同様である。

【００２８】さらに、数６の荷重係数行列Ｗ_BA，Ｗ_BCは
それぞれ、１０×２６の行列、１０×１０の行列であ
り、次式で表される。

【数８】

【数９】

【００２９】さらに、図２に示すように、３０個の隠れ
ユニットｄ₁乃至ｄ₃₀を有する隠れニューロングループ
Ｄと、１個の出力ユニットｅ₁を有し、音素境界検出確
率を表す音素境界検出値ｙ（ｊ）（ｊ＝１，２，…，
Ｌ）を出力する出力ニューロングループＥとを備える。
状態ニューロングループＢ（ｔ−１）のユニットｂ₁乃
至ｂ₁₀の各出力パラメータに対してそれぞれ、各荷重係
数を乗算して隠れニューロングループＤのユニットｄ₁
乃至ｄ₃₀に入力されるように接続され、状態ニューロン
グループＣ（ｔ＋１）のユニットｃ₁乃至ｃ₁₀の各出力
パラメータに対してそれぞれ、各荷重係数で乗算して隠
れニューロングループＤのユニットｄ₁乃至ｄ₃₀に入力
されるように接続され、２６個のユニットａ₁乃至ａ₂₆
を有する入力ニューロングループＡ（ｔ）の各出力パラ
メータに対してそれぞれ各荷重係数で乗算されて隠れニ
ューロングループＤのユニットｄ₁乃至ｄ₃₀に入力され
るように接続される。さらに、隠れニューロングループ
Ｄのユニットｄ₁乃至ｄ₃₀の各出力パラメータに対して
それぞれ各荷重係数で乗算されて出力ニューロングルー
プＥの出力ユニットｅ₁に入力されるように接続され
る。

【００３０】ここで、状態ニューロングループＢ（ｔ−
１）及びＣ（ｔ＋１）並びに入力ニューロングループＡ
（ｔ）から隠れニューロングループＤを介して出力ニュ
ーロングループＥまでの処理は、前向きモジュールＢ
（ｔ−１）及び後向きモジュールＣ（ｔ＋１）の処理動
作の終了後に、学習処理又は演算処理が実行される。当
該ニューラルネットワークにおいては、入力層１００
は、入力ニューロングループＡ（ｔ）と、入力ニューロ
ングループＡ（ｔ）の出力時刻ｔから単位時間だけ遅延
された時刻ｔ−１における出力パラメータを計算する前
向きモジュールＢ（ｔ−１）と、時刻ｔから単位時間だ
け逆向きに遅延されたｔ＋１における出力パラメータを
計算する後向きモジュールＣ（ｔ＋１）を備え、中間層
２００は隠れニューロングループＤを備え、出力層３０
０は出力ニューロングループＥを備える。以上のように
構成された音素境界検出ニューラルネットワーク１０
は、等価的には図３に示すように、前向きモジュールと
後向きモジュールが時間方向に接続され、入力層１００
が入力ニューロングループＡ（ｔ）と、前向きモジュー
ルＢ（ｔ−１）と、後向きモジュールＣ（ｔ＋１）とか
らなるＢＲＮＮである。

【００３１】詳細後述する図４のニューラルネットワー
ク学習処理による学習後の音素境界検出ニューラルネッ
トワーク１０に対して、特徴パラメータ時系列を入力し
たときの出力例を図１０に示す。この例は、詳細後述す
る条件で学習したニューラルネットワーク１０を用い
て、オープンデータに対して得られたものである。ここ
で、点線は教師信号（真値）であり、実線はニューラル
ネットワーク１０の出力値（検出値）を示す。

【００３２】次いで、図１０に示されるような出力結果
から、音素境界を検出するアルゴリズムとして、以下の
４通りの方法を考案した。（ａ）方法１：しきい値ｈを越える出力値を音素境界候
補として判断する。すなわち、次式を満たす出力値を音
素境界候補として判断する。

【数１０】ｙ（ｊ）≧ｈ

【００３３】（ｂ）方法２：しきい値ｈを越える出力値
から、極大値となるものを音素境界候補として選択す
る。すなわち、次式を満たす出力値を音素境界候補とし
て判断する。

【数１１】ｙ（ｊ）≧ｈかつｙ（ｊ）＞ｙ（ｊ−１）か
つｙ（ｊ）＞ｙ（ｊ＋１）

【００３４】（ｃ）方法３：２種類のしきい値ｌ，ｈ
（＞ｌ）を用いて、第２のしきい値ｌから第１のしきい
値ｈまでの極大値となるもの及び、第１のしきい値ｈを
越えるもの全てを選択する。すなわち、

【数１２】ｙ（ｊ）≧ｈであるときは第１の音素境界候補として選択し、

【数１３】ｌ≦ｙ（ｊ）＜ｈかつｙ（ｊ）＞ｙ（ｊ−
１）かつｙ（ｊ）＞ｙ（ｊ＋１）であるときは第２の音素境界候補として選択する。（ｄ）方法４：方法３において、連続する２つの第１の
音素境界をｋ個毎に１つのみ第１の音素境界として選択
する。

【００３５】方法１及び２は、この処理のみを用いて、
音素の境界を一意に決定する方法である。方法３や方法
４は、まず、これらの処理で可能性のある候補をなるべ
く多く残し、次に、別処理により音素候補を決定するた
めの方法である。例えば、第１のしきい値ｈを越えて検
出された候補を第１の音素境界候補とし、第２のしきい
値ｌから第１のしきい値ｈの間で検出された候補を第２
の音素境界候補とすると、第１の音素境界間に存在する
全ての候補に対して、図１１に示すようなラティスが作
成できる。このとき、ＨＭＭやセグメントモデルによる
音素モデルなどの音響モデルを用いて、ラティスを再評
価すれば最適音素経路が決定でき、これにより最終的な
音素境界を決定することができる。

【００３６】なお、図１において、Ａ／Ｄ変換器２と、
特徴抽出部３と、単語レベル照合部５と、文レベル照合
部６と、ニューラルネットワーク学習部２０とは、例え
ば、デジタル計算機などの演算制御装置で構成され、バ
ッファメモリ４は例えばハードディスクメモリで構成さ
れ、学習用音声データの特徴パラメータファイル３１
と、学習用音声データの音素境界値ファイル３２と、音
素境界検出ニューラルネットワークの初期モデル３３
と、音素境界検出ニューラルネットワーク１０と、単語
モデル７、文法規則８及び意味的規則９とは例えばハー
ドディスクメモリに記憶される。

【００３７】図４は、図１のニューラルネットワーク学
習部２０によって実行されるニューラルネットワーク学
習処理を示すフローチャートである。図４において、ま
ず。ステップＳ１で特徴パラメータファイル３１と、上
記特徴パラメータファイルに対応する音素境界値ファイ
ル３２と、音素境界検出ニューラルネットワークの初期
モデル３３とを読み込む。次いで、ステップＳ２で、音
素境界値ファイル３２の総発声数に対応する特徴パラメ
ータファイル３１のファイル数がパラメータＮに設定さ
れ、学習の繰り返し数をパラメータＩに設定する。そし
て、ステップＳ３でパラメータｉを１に初期化し、ステ
ップＳ４でパラメータｎを１に初期化する。ステップＳ
５でｎファイル目の総フレーム数をパラメータＬｎに設
定する。次いで、ステップＳ６でＬｎフレームの特徴パ
ラメータを用いて、前向きモジュールの状態ニューロン
グループＢ（ｔ−１）、後向きモジュールの状態ニュー
ロングループＣ（ｔ＋１）、及び出力ニューロングルー
プＥの出力値（それぞれＬｎグループ）を計算し、ニュ
ーラルネットワークの荷重係数更新パラメータを演算す
る。

【００３８】そして、ステップＳ７でパラメータｎを１
だけインクリメントした後、ステップＳ８でｎ＞Ｎか否
かが判断され、ｎ≦ＮのときはステップＳ５に戻り、上
記の処理を繰り返す。ステップＳ８でｎ＞Ｎのときは、
ステップＳ９でニューラルネットワークの荷重係数の更
新処理を実行して、ステップＳ１０でパラメータｉを１
だけインクリメントした後、ステップＳ１１でｉ＞Ｉか
否かが判断される。ここで、ｉ≦Ｉのときは所定の繰り
返し数に達したと判断し、ステップＳ１２で得られた音
素境界検出ニューラルネットワーク１０をメモリに記憶
して、当該処理を終了する。

【００３９】図５は、図１の単語照合部によって実行さ
れる単語照合処理を示すフローチャートである。図５に
おいて、まず、ステップＳ２１でバッファメモリ４に記
憶された特徴パラメータと、音素境界検出ニューラルネ
ットワーク１０を読み込む。次いで、ステップＳ２２で
特徴パラメータに基づいて単語モデル７に対する対数尤
度Ｐｗを計算する。さらに、ステップＳ２３で特徴パラ
メータに基づいて、特徴パラメータの総フレーム数Ｌ個
の各フレームに対するニューラルネットワーク１０の出
力値ｙ（ｊ），ｊ＝１，２，…，Ｌを計算する。そし
て、ステップＳ２４で出力値ｙ（ｊ）の対数値を計算し
て、対数尤度

【数１４】を得る。そしてステップＳ２５で音素境界検出処理を実
行した後、計算した対数尤度Ｐｗ，Ｐｓの重み付け和Ｐ
_totalを次式を用いて計算し、

【数１５】Ｐ_total＝ｋＰｗ＋（１−ｋ）Ｐｓ単語レベルの照合処理を実行する。すなわち、計算され
た尤度Ｐ_totalに基づいて最大の尤度を有する候補単語
を認識結果として文レベル照合部６に出力して、当該単
語レベル照合処理を終了する。

【００４０】図６は、図５の単語照合処理におけるサブ
ルーチンである音素境界検出処理（方法１）（ステップ
Ｓ２５）のフローチャートである。図６において、各フ
レームｊ毎にＬまで、音素境界検出ニューラルネットワ
ーク１０の出力値ｙ（ｊ）について、

【数１６】ｙ（ｊ）≧ｈであるか否か判断され、ＹＥＳのとき音素境界を判断す
る一方、ＮＯのとき音素内と判断する。

【００４１】図７は、図５の単語照合処理におけるサブ
ルーチンである音素境界検出処理（方法２）（ステップ
Ｓ２５）のフローチャートである。図７においては、各
フレームｊ毎にＬまで、音素境界検出ニューラルネット
ワーク１０の出力値ｙ（ｊ）について、

【数１７】ｙ（ｊ）≧ｈかつｙ（ｊ）＞ｙ（ｊ−１）か
つｙ（ｊ）＞ｙ（ｊ＋１）であるか否か判断され、ＹＥＳのとき音素境界を判断す
る一方、ＮＯのとき音素内と判断する。

【００４２】図８は、図５の単語照合処理におけるサブ
ルーチンである音素境界検出処理（方法３）（ステップ
Ｓ２５）のフローチャートである。図８においては、各
フレームｊ毎にＬまで、音素境界検出ニューラルネット
ワーク１０の出力値ｙ（ｊ）について、

【数１８】ｙ（ｊ）≧ｈであるときは第１の音素境界と判断し、

【数１９】ｌ≦ｙ（ｊ）＜ｈかつｙ（ｊ）＞ｙ（ｊ−
１）かつｙ（ｊ）＞ｙ（ｊ＋１）であるときは第２の音素境界と判断し、これら以外のと
きは、音素内と判断する。

【００４３】図９は、図５の単語照合処理におけるサブ
ルーチンである音素境界検出処理（方法４）（ステップ
Ｓ２５）のフローチャートである。図９において同様の
処理については同一のステップ番号を付している。図９
のフローチャートは、図８に比較して、ステップＳ５７
の前段に、ステップＳ５８が挿入され、ステップＳ５８
では、連続する２つの第１の音素境界をｋ個毎に１つの
みを第１の音素境界として間引いて選択することを特徴
とする。

【００４４】次いで、図１に示す自由発話音声認識装置
の構成及び動作について説明する。図１において、文字
列からなる発声音声文である話者の発声音声はマイクロ
ホン１に入力されて音声信号に変換された後、Ａ／Ｄ変
換部２に入力される。Ａ／Ｄ変換部２は、入力された音
声信号を所定のサンプリング周波数でＡ／Ｄ変換した
後、変換後のデジタルデータを特徴抽出部３に出力す
る。次いで、特徴抽出部３は、入力される音声信号のデ
ジタルデータに対して、例えばＬＰＣ分析を実行し、１
０次元のＭＦＣＣとパワーとを含む１１次元の特徴パラ
メータを抽出する。抽出された特徴パラメータの時系列
はバッファメモリ４を介して単語レベル照合部５に入力
される。

【００４５】単語モデルの生成においては、所定のモデ
ルパラメータに基づいて、尤度最大の単語モデル生成処
理を以下の如く実行して単語モデルを生成する。すなわ
ち、上記モデルパラメータにおける同一の単語である複
数Ｎ個の単語の音響的特徴量から最大尤度を有する当該
単語の代表の音素ラベルのサンプルを検出し、検出され
た代表の音素ラベルのサンプルと、複数Ｎ個の単語の音
素ラベルのサンプルとの時間的な対応付けを動的時間整
合法により行って時間的に正規化を行い、時間的に正規
化された代表の音素ラベルのサンプルと、上記複数Ｎ個
の音素ラベルのサンプルとを各単語毎に混合することに
より、単語毎に音響的特徴量を含む単語モデルを生成し
て、単語モデルメモリ７に格納する。要約すれば、生成
された混合分布の確率的音素モデルに基づいて、上記テ
キストの各単語毎の音声特徴パラメータを含む単語モデ
ルを生成する。

【００４６】単語レベル照合部５に接続される単語モデ
ルメモリ７内の単語モデルは、前後の音素環境を連結す
る環境依存型音素モデルが縦続に連結されてなり、かつ
縦続に連結された複数の状態を含んで構成され、各状態
はそれぞれ以下の情報を有する。（ａ）状態番号、（ｂ）１１次元の音響的特徴量の平均
値、（ｃ）１１次元の音響的特徴量の分散、（ｄ）継続
時間、（ｅ）各クラスタの重み、及び、（ｆ）音素ラベ
ルに対応する音素コード。

【００４７】単語レベル照合部５と文レベル照合部６と
は音声認識回路部を構成し、文レベル照合部６には、品
詞や単語の出力確率及び品詞間や単語間の遷移確率など
を含み文法規則メモリ８に記憶された文法規則と、シソ
ーラスの出力確率や対話管理規則を含み意味的規則メモ
リ９に記憶された意味的規則とが連結される。単語レベ
ル照合部５は、図５の単語レベル照合処理を実行するこ
とにより、単語レベルの音声認識を行う。すなわち、単
語レベル照合部５は、入力された音響的特徴量の時系列
に基づいて、上記メモリ７内の単語モデルと照合して少
なくとも１つの音声認識候補単語を検出し、検出された
候補単語に対して尤度を計算し、かつ、上述の音素境界
検出処理を実行して音素境界を検出して、最大の尤度を
有する候補単語を認識結果の単語として文レベル照合部
６に出力する。さらに、文レベル照合部６は入力された
認識結果の単語に基づいて、上記文法規則と意味的規則
とを含む言語モデルを参照して文レベルの照合処理を実
行することにより、最終的な音声認識結果の文を出力す
る。もし、言語モデルで適合受理されない単語があれ
ば、その情報を単語レベル照合部５に帰還して再度単語
レベルの照合を実行する。単語レベル照合部５と文レベ
ル照合部６は、複数の音素からなる単語を順次連接して
いくことにより、自由発話の連続音声の認識を行い、そ
の音声認識結果データを出力する。

【００４８】

【実施例】本発明者は、本特許出願人が所有する音声デ
ータベースを用いて、（１）方法２とＨＭＭに基づく音
素認識により得られる音素境界を音素検出結果とするも
のとの比較、（２）方法２乃至４の比較の２通りの性能
評価を行なった。ニューラルネットワーク１０の入力と
して、フレーム長２５．６ｍｓｅｃ、フレーム周期１０
ｍｓｅｃで分析した２６次元のＭＦＣＣ（１２次元ＭＦ
ＣＣ、パワーとそれぞれの１次回帰係数）を用いた。出
力は、データベース中の音素ラベル情報を利用し、当該
フレームが音素境界である場合１，音素境界に隣接して
いる場合０．５、それ以外は０として与えた。ニューラ
ルネットワーク１０における前向き及び後向きモジュー
ルのユニット数はそれぞれ１０個とし、隠れモジュール
Ｄのユニット数は３０個とし、学習の繰り返し回数Ｉは
１，０００回とした。このときのニューラルネットワー
ク１０の荷重係数の総数は２，１８１個である。学習デ
ータは４６２話者（３，６９６文章）、音素境界総数約
１４万個（約１１０万フレーム）、評価データは学習デ
ータとは別の１６８話者（１，３４４文章）、音素境界
総数５０，３１８個（約４１万フレーム）である。ニュ
ーラルネットワーク１０の真値と検出値との間の平均２
乗誤差は、学習データ及び評価データに対して、それぞ
れ、０．０６０４，０．０６２１であった。また、方法
２乃至４におけるしきい値の値は、実験的にｈ＝０．
４，ｌ＝０．１とした。

【００４９】次いで、評価方法について述べる。目視に
よりラベル付けされた音素境界に対して、所定の±Ｍフ
レーム以内のマージンの中に、音素境界の検出した結果
が含まれる場合は、正解（以下、正解数をＨとする。）
とし、含まれていなかった場合は、脱落（以下、脱落数
をＤとする。）とした。音素の湧き出しは、挿入（以
下、挿入数をＩとする。）とした。また、所定の±Ｍフ
レームの中に複数の検出候補が含まれていた場合、１つ
を除いて挿入とした。このとき、正解率及びアキュラシ
ーは次式で定義される。

【００５０】

【数２０】正解率＝Ｈ／Ｎ×１００（％）

【数２１】アキュラシー＝（Ｎ−Ｄ−Ｉ）／Ｎ×１００（％）

【００５１】本実施例においては、上記２つの尺度で音
素境界の検出性能を評価した。ここで、Ｎは、目視によ
りラベル付けされた音素の総数であり、

【数２２】Ｎ＝Ｈ＋Ｄである。

【００５２】まず、方法２とＨＭＭに基づく結果との比
較について述べる。Ｍ＝０，１，２に対する方法２によ
る検出結果を表１に示す。本実施形態の音素境界検出ニ
ューラルネットワーク１０の性能を比較するために、Ｈ
ＭＭに基づく音素バイグラムを用いた音素認識を行な
い、この結果得られた音素境界を音素境界としたものと
比較した。ここで、音素境界（時間）情報のみに着目
し、認識結果は考慮してない。音素ラベル数６１音素に
対して、３状態各５混合の環境非依存モデルを作成した
場合の結果を表２に、総状態数６００各３混合の環境依
存モデル（例えば、従来技術文献４「鷹見淳一ほか，
“逐次状態分割法による隠れマルコフ網の自動生成”，
電子情報通信学会論文誌ＤーＩＩ，Ｖｏｌ．Ｊ７６−Ｄ
−ＩＩ，Ｎｏ．１０，ｐｐ．２１５５−２１６４，１９
９３年１０月」参照。）（無音モデルは３状態各１０混
合のＨＭＭ）を作成した場合の結果を表３に示す。表１
と表２及び表３とを比較すると、ニューラルネットワー
ク１０に基づく方法の方が高いアキュラシーが得られて
いる。これは、ＨＭＭが音素境界を検出するためにモデ
ルパラメータが学習されたものではなく、副次的に得ら
れた音素境界情報を用いて評価しているのに対して、ニ
ューラルネットワーク１０は音素境界を検出するための
学習がなされているためと考えられる。

【００５３】

【表１】ＢＲＮＮに基づく音素境界検出結果（方法２）しきい値ｈ＝０．４ ──────────────────────────── Ｍ０１２ ──────────────────────────── 正解２３，１７５３８，２４８４０，０５６挿入１８，９８３４，０６６２，２９３脱落２７，１４３１２，０７０１０，２６２ ──────────────────────────── 正解率４６．０６７６．０１７９．６１アキュラシー８．３３６７．９３７５．０５ ────────────────────────────

【００５４】

【表２】ＨＭＭに基づく音素境界検出結果（ａ）環境非依存モデル ────────────────────────────── Ｍ０１２ ────────────────────────────── 正解８，８０６２８，２１４３８，８４７挿入３５，３７２１６，２５３５，９１５脱落４１，５１２２２，１０４１１，４７１ ────────────────────────────── 正解率１７．５０５６．０７７７．２０アキュラシー −５２．８０２３．７７６５．４５ ──────────────────────────────

【００５５】

【表３】ＨＭＭに基づく音素境界検出結果（ｂ）環境依存モデル ────────────────────────────── Ｍ０１２ ────────────────────────────── 正解１４，１９８３５，９６７４２，６１１挿入３２，９７０１１，５２１５，１１０脱落３６，１２０１４，３５１７，７０７ ────────────────────────────── 正解率２８．２２７１．４７８４．６８アキュラシー −３７．３１４８．５８７４．５３ ──────────────────────────────

【００５６】次に、方法２、３、４による性能の比較を
表４に示す。

【００５７】

【表４】 ─────────────────────────────── 方法２３４ ─────────────────────────────── 正解４０，０５６４８，８５６４８，８５６挿入２，２９３６７，５７０３０，６２９脱落１０，２６２１，４６２１，４６１ ─────────────────────────────── 正解率７９．６１９７．１０９７．１０アキュラシー７５．０５ −３７．１９３６．２２ ───────────────────────────────

【００５８】ここで、方法４の間引き間隔はｋ＝２と
し、全ての評価はＭ＝２で行なった。方法２は最もアキ
ュラシーは高いが、脱落数が多いことが分かる。上述の
ように、音素境界候補の再評価が可能な場合において
は、脱落数が多いこの方法はあまり適切ではないと考え
られる。方法３は脱落数が方法２に対して大幅に低減で
きているが、逆に挿入数が大幅に増えている。方法４で
は、方法３に対して脱落数を増加させることなく、挿入
数が半分以下となっている。また、方法４の検出結果を
ラティス表現した場合、９７．１０％もの多くの正解が
ラティス内に含まれることが分かる。

【００５９】以上説明したように、本実施形態によれ
ば、音声特徴パラメータを用いてＢＲＮＮであるニュー
ラルネットワーク１０を学習し、学習したニューラルネ
ットワーク１０を用いて、音声特徴パラメータのみに基
づいて音素境界位置を高速にかつ正確に検出することが
できる。音素境界位置がより正確に得ることにより、（ａ）音声認識の性能を向上させるとともに、音声認識
の計算量を大幅に低減させることができる。（ｂ）また、音素境界検出ニューラルネットワーク１０
を併用して音響モデルであるＨＭＭの初期モデルを作成
するときに、その精度を大幅に向上させることができ
る。（ｃ）さらに、音素境界検出ニューラルネットワーク１
０を音声合成のための音声波形信号の切り出しのために
用いることができ、この場合、波形切り出し誤差を大幅
に低減させることができる。

【００６０】

【発明の効果】以上詳述したように本発明に係る請求項
１記載の音素境界検出装置によれば、入力層と、複数の
ユニットを有し少なくとも１層の中間層と、１個のユニ
ットを有し音素境界検出確率を表す音素境界検出値を出
力する出力層とを備えた双方向リカレント型ニューラル
ネットワークを用いて、音声特徴パラメータ系列の音素
境界を検出する音素境界検出装置であって、上記入力層
は、複数の音声特徴パラメータを入力とし、複数のユニ
ットを有する第１の入力ニューロングループと、前向き
モジュールと、後向きモジュールとを備え、上記前向き
モジュールは、複数の音声特徴パラメータに基づいて、
時間的に前向きの帰還接続を有して上記第１の入力ニュ
ーロングループから出力される複数のパラメータよりも
所定の単位時間だけ遅延された時刻の複数のパラメータ
を生成して上記中間層に出力する一方、上記後向きモジ
ュールは、複数の音声特徴パラメータに基づいて、時間
的に後向きの帰還接続を有して上記第１の入力ニューロ
ングループから出力される複数のパラメータよりも所定
の単位時間だけ逆向きに遅延された時刻の複数のパラメ
ータを生成して上記中間層に出力する。従って、音声特
徴パラメータのみに基づいて音素境界位置を高速にかつ
正確に検出することができる。また、音素境界位置がよ
り正確に得ることにより、音声認識の性能を向上させる
とともに、音声認識の計算量を大幅に低減させることが
できる。

【００６１】また、請求項２記載の音素境界検出装置に
おいては、請求項１記載の音素境界検出装置において、
上記前向きモジュールは、複数の音声特徴パラメータを
入力とし、複数のユニットを有する第２の入力ニューロ
ングループと、第２の中間ニューロングループから所定
の単位時間だけ遅延されて出力される複数のパラメータ
を入力とする、複数のユニットを有する第１の中間ニュ
ーロングループと、上記第２の入力ニューロングループ
から出力される複数のパラメータと、上記第１の中間ニ
ューロングループから出力される複数のパラメータに対
してそれぞれ各荷重係数を乗算してそれぞれ入力される
ように接続され、複数のユニットを有する第２の中間ニ
ューロングループとを備え、上記後向きモジュールは、
複数の音声特徴パラメータを入力とし、複数のユニット
を有する第３の入力ニューロングループと、第４の中間
ニューロングループから所定の単位時間だけ逆向きに遅
延されて出力される複数のパラメータを入力とする、複
数のユニットを有する第３の中間ニューロングループ
と、上記第３の入力ニューロングループから出力される
複数のパラメータと、上記第３の中間ニューロングルー
プから出力される複数のパラメータに対してそれぞれ各
荷重係数を乗算してそれぞれ入力されるように接続さ
れ、複数のユニットを有する第４の中間ニューロングル
ープとを備え、上記第２の中間ニューロングループから
出力される複数のパラメータに対してそれぞれ各荷重係
数を乗算してそれぞれ上記中間層の複数のユニットに入
力されるように接続され、上記第１の入力ニューロング
ループから出力される複数のパラメータに対してそれぞ
れ各荷重係数を乗算してそれぞれ上記中間層の複数のユ
ニットに入力されるように接続され、上記第４の中間ニ
ューロングループから出力される複数のパラメータに対
してそれぞれ各荷重係数を乗算してそれぞれ上記中間層
の複数のユニットに入力されるように接続され、上記中
間層から出力される複数のパラメータに対してそれぞれ
各荷重係数を乗算してそれぞれ上記出力層のユニットに
入力されるように接続される。従って、音声特徴パラメ
ータのみに基づいて音素境界位置を高速にかつ正確に検
出することができる。また、音素境界位置がより正確に
得ることにより、音声認識の性能を向上させるととも
に、音声認識の計算量を大幅に低減させることができ
る。

【００６２】さらに、請求項３記載の音素境界検出装置
においては、請求項１又は２記載の音素境界検出装置に
おいて、上記出力層から出力される音素境界検出値が所
定のしきい値以上のときに音素境界として検出する第１
の検出手段をさらに備える。従って、音声特徴パラメー
タのみに基づいて音素境界位置を高速にかつ正確に検出
することができる。また、音素境界位置がより正確に得
ることにより、音声認識の性能を向上させるとともに、
音声認識の計算量を大幅に低減させることができる。

【００６３】さらに、請求項４記載の音素境界検出装置
においては、請求項１又は２記載の音素境界検出装置に
おいて、上記出力層から出力される音素境界検出値が所
定のしきい値以上であって、極大値となるときに音素境
界として検出する第２の検出手段をさらに備える。従っ
て、音声特徴パラメータのみに基づいて音素境界位置を
高速にかつ正確に検出することができる。また、音素境
界位置がより正確に得ることにより、音声認識の性能を
向上させるとともに、音声認識の計算量を大幅に低減さ
せることができる。

【００６４】さらに、請求項５記載の音素境界検出装置
においては、請求項１又は２記載の音素境界検出装置に
おいて、上記出力層から出力される音素境界検出値が、
所定の第１のしきい値以上であるときに第１の音素境界
として検出し、上記音素境界検出値が、上記第１のしき
い値よりも小さい第２のしきい値以上であって上記第１
のしきい値未満でありかつ極大値となるときに第２の音
素境界として検出する第３の検出手段をさらに備える。
従って、音声特徴パラメータのみに基づいて音素境界位
置を高速にかつ正確に検出することができる。また、音
素境界位置がより正確に得ることにより、音声認識の性
能を向上させるとともに、音声認識の計算量を大幅に低
減させることができる。

【００６５】また、請求項６記載の音素境界検出装置に
おいては、請求項５記載の音素境界検出装置において、
上記第３の検出手段は、上記第１の音素境界として検出
したものを所定の複数個毎に１個の音素境界を選択して
第１の音素境界として選択する。従って、音声特徴パラ
メータのみに基づいて音素境界位置を高速にかつ正確に
検出することができる。また、音素境界位置がより正確
に得ることにより、音声認識の性能を向上させるととも
に、音声認識の計算量を大幅に低減させることができ
る。

【００６６】さらに、請求項７記載の音素境界検出装置
においては、請求項５又は６記載の音素境界検出装置に
おいて、上記第３の検出手段は、上記検出又は選択した
第１の音素境界と第２の音素境界との間で形成された経
路のラティスに基づいて音素境界を検出する。従って、
音声特徴パラメータのみに基づいて音素境界位置を高速
にかつ正確に検出することができる。また、音素境界位
置がより正確に得ることにより、音声認識の性能を向上
させるとともに、音声認識の計算量を大幅に低減させる
ことができる。

【００６７】本発明に係る請求項８記載の音声認識装置
においては、入力された文字列からなる発声音声文の音
声信号から音声特徴パラメータを抽出する特徴抽出手段
と、上記特徴抽出手段によって抽出された音声特徴パラ
メータに基づいて、請求項１乃至７のうちの１つに記載
された音素境界検出装置によって検出された音素境界
と、所定の音響モデルとを用いて、入力された文字列か
らなる発声音声文の音声信号を音声認識する音声認識手
段とを備える。従って、音声特徴パラメータのみに基づ
いて音素境界位置を高速にかつ正確に検出することがで
きる。また、音素境界位置がより正確に得ることによ
り、音声認識の性能を向上させるとともに、音声認識の
計算量を大幅に低減させることができる。

【図面の簡単な説明】

【図１】本発明に係る一実施形態である音素境界検出
ニューラルネットワークを用いた音声認識装置のブロッ
ク図である。

【図２】図１の音素境界検出ニューラルネットワーク
の構成を示すブロック図である。

【図３】図２の音素境界検出ニューラルネットワーク
の等価構造を示すブロック図である。

【図４】図１のニューラルネットワーク学習部によっ
て実行されるニューラルネットワーク学習処理を示すフ
ローチャートである。

【図５】図１の単語照合部によって実行される単語照
合処理を示すフローチャートである。

【図６】図５の単語照合処理におけるサブルーチンで
ある音素境界検出処理（方法１）のフローチャートであ
る。

【図７】図５の単語照合処理におけるサブルーチンで
ある音素境界検出処理（方法２）のフローチャートであ
る。

【図８】図５の単語照合処理におけるサブルーチンで
ある音素境界検出処理（方法３）のフローチャートであ
る。

【図９】図５の単語照合処理におけるサブルーチンで
ある音素境界検出処理（方法４）のフローチャートであ
る。

【図１０】図５の音素境界検出処理によって検出され
た一例を示すグラフである。

【図１１】図５の音素境界検出処理における音素境界
候補のラティス表現を示す図である。

【符号の説明】

１…マイクロホン、２…Ａ／Ｄ変換器、３…特徴抽出部、４…バッファメモリ、５…単語レベル照合部、６…文レベル照合部、７…単語モデル、８…文法規則、９…意味的規則、１０…音素境界検出ニューラルネットワーク、２０…ニューラルネットワーク学習部、３１…学習用音声データの特徴パラメータファイル、３２…学習用音声データの音素境界値ファイル、３３…音素境界検出ニューラルネットワークの初期モデ
ル、１００…入力層、２００…中間層、３００…出力層、Ａ（ｔ），５１，６１…入力ニューロングループ、Ｂ（ｔ−１）…前向きモジュール、Ｃ（ｔ＋１）…後向きモジュール、５２，５３，６２，６３…中間ニューロングループ、５４…遅延素子、６４…逆向き遅延素子、Ｄ…隠れニューロングループ、Ｅ…出力ニューロングループ。

Claims

【特許請求の範囲】

【請求項１】入力層と、複数のユニットを有し少なく
とも１層の中間層と、１個のユニットを有し音素境界検
出確率を表す音素境界検出値を出力する出力層とを備え
た双方向リカレント型ニューラルネットワークを用い
て、音声特徴パラメータ系列の音素境界を検出する音素
境界検出装置であって、上記入力層は、複数の音声特徴パラメータを入力とし、複数のユニット
を有する第１の入力ニューロングループと、前向きモジュールと、後向きモジュールとを備え、上記前向きモジュールは、複数の音声特徴パラメータに
基づいて、時間的に前向きの帰還接続を有して上記第１
の入力ニューロングループから出力される複数のパラメ
ータよりも所定の単位時間だけ遅延された時刻の複数の
パラメータを生成して上記中間層に出力する一方、上記後向きモジュールは、複数の音声特徴パラメータに
基づいて、時間的に後向きの帰還接続を有して上記第１
の入力ニューロングループから出力される複数のパラメ
ータよりも所定の単位時間だけ逆向きに遅延された時刻
の複数のパラメータを生成して上記中間層に出力するこ
とを特徴とする音素境界検出装置。
【請求項２】上記前向きモジュールは、複数の音声特徴パラメータを入力とし、複数のユニット
を有する第２の入力ニューロングループと、第２の中間ニューロングループから所定の単位時間だけ
遅延されて出力される複数のパラメータを入力とする、
複数のユニットを有する第１の中間ニューロングループ
と、上記第２の入力ニューロングループから出力される複数
のパラメータと、上記第１の中間ニューロングループか
ら出力される複数のパラメータに対してそれぞれ各荷重
係数を乗算してそれぞれ入力されるように接続され、複
数のユニットを有する第２の中間ニューロングループと
を備え、上記後向きモジュールは、複数の音声特徴パラメータを入力とし、複数のユニット
を有する第３の入力ニューロングループと、第４の中間ニューロングループから所定の単位時間だけ
逆向きに遅延されて出力される複数のパラメータを入力
とする、複数のユニットを有する第３の中間ニューロン
グループと、上記第３の入力ニューロングループから出力される複数
のパラメータと、上記第３の中間ニューロングループか
ら出力される複数のパラメータに対してそれぞれ各荷重
係数を乗算してそれぞれ入力されるように接続され、複
数のユニットを有する第４の中間ニューロングループと
を備え、上記第２の中間ニューロングループから出力される複数
のパラメータに対してそれぞれ各荷重係数を乗算してそ
れぞれ上記中間層の複数のユニットに入力されるように
接続され、上記第１の入力ニューロングループから出力される複数
のパラメータに対してそれぞれ各荷重係数を乗算してそ
れぞれ上記中間層の複数のユニットに入力されるように
接続され、上記第４の中間ニューロングループから出力される複数
のパラメータに対してそれぞれ各荷重係数を乗算してそ
れぞれ上記中間層の複数のユニットに入力されるように
接続され、上記中間層から出力される複数のパラメータに対してそ
れぞれ各荷重係数を乗算してそれぞれ上記出力層のユニ
ットに入力されるように接続されたことを特徴とする請
求項１記載の音素境界検出装置。
【請求項３】上記出力層から出力される音素境界検出
値が所定のしきい値以上のときに音素境界として検出す
る第１の検出手段をさらに備えたことを特徴とする請求
項１又は２記載の音素境界検出装置。
【請求項４】上記出力層から出力される音素境界検出
値が所定のしきい値以上であって、極大値となるときに
音素境界として検出する第２の検出手段をさらに備えた
ことを特徴とする請求項１又は２記載の音素境界検出装
置。
【請求項５】上記出力層から出力される音素境界検出
値が、所定の第１のしきい値以上であるときに第１の音
素境界として検出し、上記音素境界検出値が、上記第１
のしきい値よりも小さい第２のしきい値以上であって上
記第１のしきい値未満でありかつ極大値となるときに第
２の音素境界として検出する第３の検出手段をさらに備
えたことを特徴とする請求項１又は２記載の音素境界検
出装置。
【請求項６】上記第３の検出手段は、上記第１の音素
境界として検出したものを所定の複数個毎に１個の音素
境界を選択して第１の音素境界として選択することを特
徴とする請求項５記載の音素境界検出装置。
【請求項７】上記第３の検出手段は、上記検出又は選
択した第１の音素境界と第２の音素境界との間で形成さ
れた経路のラティスに基づいて音素境界を検出すること
を特徴とする請求項５又は６記載の音素境界検出装置。
【請求項８】入力された文字列からなる発声音声文の
音声信号から音声特徴パラメータを抽出する特徴抽出手
段と、上記特徴抽出手段によって抽出された音声特徴パラメー
タに基づいて、請求項１乃至７のうちの１つに記載され
た音素境界検出装置によって検出された音素境界と、所
定の音響モデルとを用いて、入力された文字列からなる
発声音声文の音声信号を音声認識する音声認識手段とを
備えたことを特徴とする音声認識装置。