JPH07104779A

JPH07104779A - 音声認識方法

Info

Publication number: JPH07104779A
Application number: JP5247186A
Authority: JP
Inventors: Yoshiaki Noda; 喜昭野田; Akihiro Imamura; 明弘今村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1993-10-01
Filing date: 1993-10-01
Publication date: 1995-04-21

Abstract

(57)【要約】【目的】学習不足を防止するとともに、音声認識時の
検索処理量を低減することができる音声認識方法を提供
する。【構成】「そうち」、「そーち」等のように、音響現
象のかな表記とサブワードとを一義的に対応させること
ができない音響現象を一義的に対応させるサブワードラ
ベルを定義し、このサブワードラベルに対応するＨＭＭ
（隠れマルコフモデル）に学習させ、このサブワードラ
ベルを用いて発声の曖昧性を吸収した音声認識を行う。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、隠れマルコフモデル
（以後、ＨＭＭと称す）を用いた音声認識方法に関す
る。

【０００２】

【従来の技術】従来より、ＨＭＭ（Hidden Markov Mode
l ）を用いた音声認識方法において、音声による音響現
象を表現するＨＭＭの単位として、例えば、音韻のよう
に、単語よりも小さな単位（以後、サブワードと称す）
を用いることにより、任意の語彙の音声認識を行うこと
ができる。

【０００３】しかしながら、サブワードに対応する音声
データは、そのサブワードを含む単語や文を発声して得
られる音声から切り出す（以後、この作業をラベリング
と称す）ことによってしか得ることができず、多くの音
声データを用いて統計的な学習を必要とするＨＭＭに基
づいた音声認識では、上記ラベリング作業に多大な時間
および労力を要するという問題があった。

【０００４】この問題を軽減する手法として連結学習が
ある。連結学習は、文や単語に対応するＨＭＭが、学習
用音声データに対応するサブワードのＨＭＭ（以後、サ
ブワードＨＭＭと称す）を連結してなることを利用し、
サブワードの名称であるサブワードラベルの正確な存在
区間に関する情報を与えなくても、複数のサブワードを
含む文や単語に対応するＨＭＭを一括して学習すること
により、各サブワードＨＭＭに関する学習を行うことが
できるというものである。

【０００５】このため、上記連結学習を用いた音声認識
方法では、サブワードラベルの存在区間を調べるための
ラベリング作業を省略でき、大量の音声データを用いる
学習を比較的容易に行うことができる。上記音声認識方
法では、学習される音声データは、所定のサブワード系
列を経て、当該データに対応するサブワードラベル列に
変換され、連結学習に用いられる。

【０００６】

【発明が解決しようとする課題】ところで、上述した従
来の音声認識方法においては、連結学習に与えるサブワ
ードラベル列をかな表記から生成する場合、かな表記と
実際の発声音である音響現象とが錯綜し、学習不足とな
る場合がある。例えば、図１に示すように、かな表記で
「そうち」と表されている部分は、”ｓ，ｏ，ｕ，ｃ
ｈ，ｉ”というサブワードラベル列に変換されるが、話
者の癖などにより、「そーち」あるいは「そおち」と発
声される可能性もある。

【０００７】また、氷（こおり）は”ｋ，ｏ，ｏ，ｒ，
ｉ”と変換されるが、実際には、「こうり」，「こー
り」と発声される可能性もある。このように、かな表記
からサブワードラベル列への変換を行う際に、かな表記
だけではサブワードを一義的に決定できないという曖昧
性が存在する。従来の音声認識方法では、図２（ａ）に
示すように、音響現象とサブワードラベルとを１対１に
対応付けるため、かな表記と音響現象との間に錯綜が生
じると、似かよった音響現象が、異なったサブワードＨ
ＭＭに割り当てられる。すなわち、発音の曖昧性によ
り、同一の音声データに対する学習が複数のＨＭＭに分
散してしまい、学習不足の原因となることがあるという
問題がある。

【０００８】また、上述したように、同一音声データに
対応するサブワードラベルが複数存在するという曖昧性
があると、この曖昧性を考慮した音声認識を行う場合に
は、音声認識時に、複数のサブワードラベル全てを検索
する必要があり、その検索処理が増大するという問題も
ある。本発明は、上述した事情に鑑みてなされたもので
あり、学習不足を防止するとともに、音声認識時の検索
処理量を低減することができる音声認識方法を提供する
ことを目的とする。

【０００９】

【課題を解決するための手段】本発明による音声認識方
法は、音響現象を隠れマルコフモデルで表現する単位と
して、単語より小なるサブワードが設定された音声認識
方法において、前記音響現象のかな表記と前記サブワー
ドとを一義的に対応させることができない音響現象を一
義的に対応させるサブワードモデルを構築することを特
徴としている。

【００１０】

【作用】上記方法によれば、音響現象のかな表記とサブ
ワードとを一義的に対応させることができない曖昧な音
響現象を一義的に対応させるサブワードモデルが構築さ
れる。したがって、曖昧な音響現象全てを一つのモデル
で学習することができ、学習の為の音声データが複数の
サブワードモデルに分散することはない。また、発音の
曖昧性を吸収した音声認識時において検索すべきサブワ
ードモデル数が低減される。すなわち、学習不足が防止
されるとともに、音声認識時の検索処理量が低減され
る。

【００１１】

【実施例】以下、図面を参照して、本発明の一実施例に
ついて説明する。図３は本発明の一実施例による音声認
識方法を適用した音声認識装置の機能構成を示す図であ
る。この図に示す音声認識装置において、１は、音声認
識処理を行う場合に必要となる各種定義を有する音声認
識環境定義、２は、サブワードを単位とするＨＭＭを用
いた音声認識を行う音声認識処理であり、本実施例によ
る音声認識装置は、上記音声認識環境定義１に基づいて
音声認識処理２が作動し、音声認識処理を行う構成とな
っている。

【００１２】音声認識環境定義１において、１１は、特
徴ベクトル定義であり、音声の言語的な特徴を含む特徴
ベクトルを求めるための分析手法（例えば、ＬＰＣ（Li
nearPredictive Coding）ケプストラム）を選択するた
めの情報、選択された分析手法により得られる各種パラ
メータの次元に関する情報を有する。また、１２はサブ
ワード体系定義であり、各サブワードラベル、サブワー
ドラベルと音響現象とを対応付けるための情報を有す
る。

【００１３】上記対応付けるための情報は、例えば、図
２（ｂ）に示すように、かな表記で「おう」、「おお」
に対応するサブワードラベルとして”ＬＯＵＬ”を対応
させるというものであり、以下に例を示す定義情報によ
り、かな表記において曖昧性が残る部分を、一つのサブ
ワードラベルで表現することが可能になる。

【００１４】ＬｇＬ：／ｇ／、その鼻音化、それ
らの中間的な発声音ＬｇｙＬ：／ｇｙ／、その鼻音化、それらの中間的な
発声音ＬｗｏＬ：／ｏ／、／ｗｏ／、それらの中間的な
発声音ＬＯＵＬ：／ｏ／／ｕ／、／ｏ／と／ｕ／の時間的な
融合、／ｏｏ／、それらの中間的な発声
音ＬＥＩＬ：／ｅ／／ｉ／、／ｅ／と／ｉ／の時間的な
融合、／ｅｅ／、それらの中間的な発声
音ＬＩＵＬ：／ｉ／／ｕ／、／ｉ／と／ｕ／の時間的な
融合、／ｙ／／ｕｕ／、それらの中間的な発声
音ＬＸＩＬ：／ｉ／、その無声化、それらの中間的な
発声音ＬＸＵＬ：／ｕ／、その無声化、それらの中間的な
発声音ＬＰＬ：無音区間の有無

【００１５】上記定義情報例において、例えば、サブワ
ードラベル”ＬＯＵＬ”は、発生音／ｏ／／ｕ／、／ｏ
ｕ／、／ｏｏ／等に対応することを意味する。また、図
３の音声認識環境定義１において、１３はＨＭＭ構造定
義であり、ＨＭＭの状態数や出力確率密度分布の表現方
法に関する情報を有する。

【００１６】次に、音声認識処理２において、１５は、
入力された音声（以後、入力音声と称す）を特徴パラメ
ータに変換する分析処理、１６は、特徴パラメータと当
該パラメータに相当する言語的なサブワードラベル情報
を与えることにより、ＨＭＭパラメータ（後述する）を
推定する学習処理である。１７は認識処理であり、学習
処理１６により推定されたＨＭＭパラメータと、分析処
理１５より供給される特徴パラメータにより、入力音声
の認識を行う。

【００１７】分析処理１５において、２１は、入力音声
を帯域制限してデジタルデータに変換するＡＤ（Analog
to Digital ）変換部、２２は、ＡＤ変換部２１から出
力されるデジタルデータから、入力音声に対応する特徴
パラメータを算出する特徴パラメータ計算部である。

【００１８】また、学習処理１６において、３３は、サ
ブワード体系定義１２で定義されたサブワードラベル
と、入力音声における当該ラベルの出現時間とを有する
ラベルデータである。２３は初期学習部であり、ラベル
データ３３と、特徴パラメータ計算部２２から供給され
る特徴パラメータとに基づいて初期学習を行い、当該学
習に応じたＨＭＭパラメータを出力する。

【００１９】２６は、入力音声のかな表記である学習用
かな表記文字列データ３２を学習用ラベル列データ３４
に変換するかな表記ラベル列変換部である。２４は連結
学習部であり、初期学習部２３から供給されるＨＭＭパ
ラメータ、特徴パラメータ計算部２２から供給される特
徴パラメータ、学習用ラベル列データ３４に応じて連結
学習を行い、対応するＨＭＭパラメータを出力する。こ
のＨＭＭパラメータは、学習処理１６により推定された
ＨＭＭの状態遷移確率、状態毎の出力密度分布等を表し
ており、ＨＭＭパラメータデータ３１に格納される。

【００２０】さらに、認識処理１７において、２７はか
な表記ラベル列変換部であり、サブワード体系定義１２
に基づいて、発声の曖昧性を考慮した音声認識を行う際
に使用される「許容される文法」を表す認識用かな表記
文字列データ３５を、認識用ラベル列データ３６に変換
する。また、２５は、認識用ラベル列データ３６、特徴
パラメータ計算部２２で算出された特徴パラメータ、Ｈ
ＭＭパラメータデータ３１に基づいて音声認識処理を行
う認識処理部であり、認識結果を出力する。

【００２１】このような構成において、まず、分析処理
１５について説明する。入力音声は、ＡＤ変換部２１に
おいて帯域制限され、デジタルデータに変換される。こ
のデジタルデータは、特徴パラメータ計算部２２に供給
され、ここで、特徴ベクトル定義１１で定義された分析
手法、パラメータの次元に基づいた分析処理を施され
る。そして、入力音声に対応する特徴パラメータが算出
される。この特徴パラメータは、学習処理１６および認
識処理１７へ供給される。

【００２２】学習処理１６において、特徴パラメータは
初期学習部２３および連結学習部２４に供給される。初
期学習部２３では、特徴パラメータと、ラベルデータ３
３とから、各サブワードラベル毎のＨＭＭの初期学習を
行う。この初期学習部２３では、学習アルゴリズムとし
て、Segmental k-means traininng procedure およびFo
rward-Backwardアルゴリズムが用いられる。これらの詳
細は、L.R.Rabiner, J.G.Wilpon, and B.H.Juang，”A
segumental k-means training procedure forconnected
word recognition”（AT&T Technical Journal:vol.65
pp.21-31, (1986)）、および、中川聖一、「確率モデ
ルによる音声認識」（電子情報通信学会，(1988)）に記
載されている。上述したように、初期学習部２３におい
て、初期学習が行われ、ＨＭＭパラメータが求められ
る。

【００２３】このＨＭＭパラメータは、連結学習部２４
に供給され、ここで、特徴パラメータ、学習用ラベル列
データ３４とともに、連結学習に用いられる。連結学習
の詳細は、例えば、南、松岡、鹿野、「不特定話者連続
音声データベースによる連結学習ＨＭＭの評価」（電子
情報通信学会技術研究報告，SP91-113，(1992)）に記載
されている。連結学習部２４では、初期学習によって求
められたＨＭＭパラメータが再推定され、ＨＭＭパラメ
ータデータ３１が得られる。

【００２４】一方、認識処理１７の認識処理部２５にお
いて、「許容される文法」が記述された認識用ラベル列
データ３６と、ＨＭＭパラメータデータ３１とに基づい
て、特徴パラメータ計算部２２から供給された特徴パラ
メータに対応するサブワードラベル列の認識処理が行わ
れる。この認識処理で用いられるViterbi アルゴリズム
の詳細は、例えば、中川聖一、「確率モデルによる音声
認識」（電子情報通信学会，(1988)）に記載されてい
る。

【００２５】以上説明したように、発声の曖昧性を吸収
したサブワードラベルをサブワード体系定義１２で定義
するため、かな表記からサブワードラベル列への変換を
容易に行うことができる。また、曖昧な音響現象全てを
一つのサブワードラベルで表すことができるため、学習
処理において、一つのサブワードラベルに対応した音声
データが複数のＨＭＭに分散してしまうことがなく、大
量の学習を行うことができる。

【００２６】さらに、曖昧な音響現象全てを一つのサブ
ワードラベルで表すことができるため、音声認識時にお
いて、発声の曖昧性を吸収した認識を行う場合には、従
来のように、例えば、発生音／ｏｕ／に対応するサブワ
ードラベルと、発声音／ｏｏ／に対応するサブワードラ
ベルとの両方を許容する必要がなく、検索処理に係る計
算量を低減することができる。

【００２７】

【発明の効果】以上説明したように、本発明によれば、
音響現象のかな表記とサブワードとを一義的に対応させ
ることができない曖昧な音響現象を一義的に対応させる
サブワードモデルが構築される。したがって、曖昧な音
響現象全てを一つのモデルで学習することができ、学習
の為の音声データが複数のサブワードモデルに分散する
ことはない。また、発音の曖昧性を吸収した音声認識時
において検索すべきサブワードモデル数が低減される。
したがって、学習不足を防止するとともに、音声認識時
の検索処理量を低減することができるという効果があ
る。

【図面の簡単な説明】

【図１】かな表記からサブワードラベル列への変換例を
示す図である。

【図２】かな表記と音響現象とサブワードラベルとの対
応関係を示す図である。

【図３】本発明の一実施例による音声認識方法を適用し
た音声認識装置の機能構成を示す図である。

【符号の説明】

１音声認識環境定義２音声認識処理１１特徴ベクトル定義１２サブワード体系定義１３ＨＭＭ構造定義１５分析処理１６学習処理１７認識処理２１ＡＤ変換部２２特徴パラメータ計算部２３初期学習部２４連結学習部２５認識処理部２６，２７かな表記ラベル列変換部３１ＨＭＭパラメータデータ３２学習用かな表記文字列データ３３ラベルデータ３４学習用ラベル列データ３５認識用かな表記文字列データ３６認識用ラベル列データ

Claims

【特許請求の範囲】

【請求項１】音響現象を隠れマルコフモデルで表現す
る単位として、単語より小なるサブワードが設定された
音声認識方法において、前記音響現象のかな表記と前記サブワードとを一義的に
対応させることができない音響現象を一義的に対応させ
るサブワードモデルを構築することを特徴とする音声認
識方法。