JPH071435B2

JPH071435B2 - 音響モデル適応方式

Info

Publication number: JPH071435B2
Application number: JP5055332A
Authority: JP
Inventors: 康永宮沢; 茂樹嵯峨山
Original assignee: 株式会社エイ・ティ・アール自動翻訳電話研究所
Priority date: 1993-03-16
Filing date: 1993-03-16
Publication date: 1995-01-11
Anticipated expiration: 2010-01-11
Also published as: JPH06266384A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は音響モデル適応方式に
関し、さらに詳しくは、話者、発話様式または発話環境
などに応じて音響モデルを入力音声の特徴空間に適応す
る教師なし適応方式に関する。

【０００２】

【従来の技術】従来、発声内容に関する教師データなし
の音響モデル適応方式として、ベクトル量子化コードブ
ックの写像を基本とする方法や、これらの原理を連続分
布型隠れマルコフモデル（ＨＭＭ；hidden Markov mode
l ）に適用した方法など、音声パターンの分布に基づい
て話者適応を行なう技術が、電子情報通信学会技術研究
報告ＳＰ８８−２１，ＳＰ８８−１２２，ＳＰ９０−６
７などに開示されている。

【０００３】

【発明が解決しようとする課題】しかしながら、教師な
し話者適応方式では、発声内容に関する言語情報を利用
していないため、的確な写像を行なうことが困難であっ
た。このため、教師なし話者適応方式は、一般に発声内
容が既知の音声データを用いる教師あり話者適応方式と
比較して、性能および効率の点で劣るという問題があっ
た。

【０００４】この発明は、これらの問題点を解決するも
のであり、発声内容が未知の入力音声を用いて音響モデ
ルとその入力音声の特徴空間に適応する教師なし話者適
応方式などにおいて、その性能および効率を向上させる
ことを目的とする。

【０００５】

【課題を解決するための手段】この発明に従った音響モ
デル適応方式の要旨とするところは、音声認識に用いる
ための音声の特徴を表現する複数の音響モデルであっ
て、１または２以上の標準話者の音声で学習されたもの
を、発声内容が未知の入力音声の特徴空間に適応する音
響モデル適応方式において、上記音響モデルのすべてが
所望の遷移確率によって互いに連結され、かつ上記音響
モデル自身も所望の遷移確率によって自己連結されてな
る確率モデルを作成し、上記確率モデルの全部または一
部のパラメータを上記入力音声で再学習することにあ
る。

【０００６】また、上記音響モデル適応方式おいて、上
記音響モデルとして、音素の離散分布型、連続分布型ま
たは半連続分布型ＨＭＭを用いることにある。

【０００７】また、上記音響モデル適応方式において、
上記遷移確率の初期値として、所望のテキストデータか
ら求めた音素バイグラム確率値を用いることにある。

【０００８】一方、上記音響モデル適応方式において、
上記音響モデルとして、コンテキスト依存音素モデルを
用い、かつ上記遷移確率の初期値として、所望のテキス
トデータから求めたコンテキスト依存音素バイグラム確
率値を用いることにある。

【０００９】また、上記音響モデル適応方式において、
上記確率モデルの全部または一部のパラメータを上記入
力音声で再学習するときに、移動ベクトル場平滑化方式
を用いることにある。

【００１０】

【作用】この発明に従った音響モデル適応方式によれ
ば、音響モデルがある遷移確率によって連結されてなる
確率モデルが作成され、その確率モデルの種々のパラメ
ータが発声内容が未知の入力音声を用いて再学習される
ことによって、音響モデルが入力音声の特徴空間に適応
される。したがって、音声認識率などの性能が向上す
る。

【００１１】

【実施例】次に、この発明に従った音響モデル適応方式
の実施例について図面を参照しながら説明する。

【００１２】図２は、この発明の一実施例である教師な
し話者適応方式における確率モデルを示す概念図であ
る。

【００１３】図２に示すように、まず標準話者の入力音
声を用いて学習された混合連続分布型の音素ＨＭＭ１
を、ある遷移確率ａ_ijによってエルゴディックに連結
し、１つの大規模な確率モデルを作成する。ここでは、
無音を含む４９個の音素ＨＭＭ１を用いる。ただし、図
１においては、図を簡単にするために、音素ＨＭＭ１が
４つだけの場合を示す。以下、この確率モデルを「全音
素エルゴディックＨＭＭ」という。

【００１４】すなわち、この全音素エルゴディックＨＭ
Ｍは、４９個の音素ＨＭＭ１のすべてがある遷移確率ａ
_ijによって互いに連結され、かつそれら音素ＨＭＭ１自
身もある遷移確率ａ_ijによって自己連結されて構成され
ている。音素ＨＭＭ１は、音声認識に用いるための音声
の特徴を表現する音響モデルの一種である。

【００１５】この全音素エルゴディックＨＭＭ内におけ
る各音素ＨＭＭ１間および各音素ＨＭＭ１内の遷移確率
ａ_ijは、音素バイグラム（bigram）確率値に相当するた
め、それらの遷移確率ａ_ijの初期値として、何らかのテ
キストデータによって求めた音素バイグラム確率値を用
いる。

【００１６】なお、図２において、遷移確率ａ_ijは１ヶ
所だけに示されているが、その他の音素ＨＭＭ１間およ
び音素ＨＭＭ１内についても同様である。また、ａ_ijは
第ｉ番目の音素ＨＭＭ１から第ｊ番目の音素ＨＭＭ１へ
の遷移確率を表す。したがって、ｉ＝ｊのときは同じ音
素ＨＭＭ１内での自己遷移を表す。

【００１７】したがって、この全音素エルゴディックＨ
ＭＭは、言語モデルと音響モデルとの融合した確率モデ
ルであり、あらゆる言語音声を表現するものである。こ
こで、話者により発声された音声は、音響情報と言語情
報とを備えた「言語音声」であるため、発声内容が未知
の入力話者の入力音声を用いて、この全音素エルゴディ
ックＨＭＭの各パラメータを最尤推定法により学習する
ことが可能となる。

【００１８】このように、学習を行なうことによって発
声内容に関する言語情報を確率的に用いることができる
ので、従来のようにまったく言語情報を利用しない方式
に比べて、話者適応の性能を高めることが可能となる。

【００１９】ところで、この教師なし話者適応方式にお
いて、大量の学習データが存在する場合には、全音素エ
ルゴディックＨＭＭ中のすべてのパラメータを発声内容
が未知の入力音声で再学習することによって、音響モデ
ルと言語モデルとを同時に適応することが可能である。
ここでいうパラメータには、音素ＨＭＭ間における遷移
確率ａ_ij、ならびに音素ＨＭＭ１内における遷移確率ａ
_ij、出力確率分布の平均値ベクトル、共分散行列、およ
び混合分布の重み係数などがある。

【００２０】したがって、音響モデルのパラメータであ
る音素ＨＭＭ１間の遷移確率などを学習した後、言語モ
デルのパラメータである音素ＨＭＭ１間の遷移確率を学
習するという２段階の学習方法も考えられるが、この場
合は、ある程度多くの学習データが必要となる。このた
め、以下の実施例においては、より少量の学習データに
よる適応を前提として、音素ＨＭＭ１間の遷移確率ａを
固定し、音素ＨＭＭ１のパラメータのうち最も適応効果
が高いと考えられる音素ＨＭＭ１内における出力確率分
布の平均値ベクトルμだけを再学習する場合について説
明する。

【００２１】図１は、このような場合の学習アルゴリズ
ムを示すフローチャートである。図１に示すように、ま
ずステップＳ１において、標準話者の音声によって音素
ＨＭＭをすべての音素について作成するとともに、ステ
ップＳ２において、テキストデータを用いて音素バイグ
ラム確率値を計算する。

【００２２】次いでステップＳ３において、これらの音
素ＨＭＭを各音素バイグラム確率値によってエルゴディ
ックに連結し、図２に示した全音素エルゴディックＨＭ
Ｍを作成する。

【００２３】次いでステップＳ４において、発声内容が
未知の入力音声を用いて、バウム−ウェルチ（Baum-Wel
ch）最尤推定法によって出力確率分布の平均値ベクトル
μを学習する。

【００２４】次いでステップＳ５において、移動ベクト
ル場平滑化方式によって出力確率分布の平均値ベクトル
μを補正する。なお、移動ベクトル場平滑化方式につい
ては電子情報通信学会技術研究報告ＳＰ９２−１６に詳
しく開示されているので、ここでは簡単に説明する。

【００２５】まず、最尤推定法により入力音声で再学習
された全音素エルゴディックＨＭＭの出力確率分布の平
均値ベクトルと、その適応前の平均値ベクトルとの差分
ベクトルを標準話者空間から入力話者空間への移動ベク
トルと考え、その集合を移動ベクトル場とする。教師な
し学習の場合、誤った音素データにより出力確率分布の
平均値ベクトルを再学習している可能性があるので、こ
れには推定誤差が含まれていると考えられる。また、こ
の推定誤差は学習サンプルが少量である場合にも生じ
る。したがって、このようにして得られた移動ベクトル
の方向は非連続的な動きをしていると考えられる。さら
に、学習サンプルが少量である場合は、再学習されない
出力確率分布の平均値ベクトルも存在する。

【００２６】そこで、移動ベクトル場に「連続性の拘束
条件」を導入することによって、移動ベクトルを平滑化
し、これにより出力確率分布の平均値ベクトルを補正す
る。さらに、未学習の平均値ベクトルに対する移動ベク
トルについては、他の移動ベクトルの内挿または外挿に
よって補間する。ここで、移動ベクトルの平滑化の強さ
はファジネス（fuzziness ）の値で制御し、この値が大
きいほど強い平滑化が行なわれる。したがって、ファジ
ネスの値が無限大の場合はすべての音素モデルは平行移
動する。

【００２７】そしてステップＳ６において、全音素エル
ゴディックＨＭＭの入力音声データに対する出力尤度の
値が収束しているか否かを判別し、収束していない場合
は上記ステップＳ４に戻る。すなわち、入力音声データ
に対する出力尤度の値が収束するまで、上記ステップＳ
４およびＳ５を繰返す。

【００２８】したがって、出力尤度の値が収束している
場合は、ステップＳ７へ移行し、上記ステップＳ４〜６
で再学習された全音素エルゴディックＨＭＭ内における
音素ＨＭＭ１間の連結を外して、各音素ＨＭＭに分解す
る。

【００２９】以上の方法により、標準話者の音素ＨＭＭ
は発声内容が未知の入力音声を用いてその入力音声の特
徴空間に適応される。

【００３０】次に、この教師なし話者適応方式によって
１名の標準話者モデルを他の１名の入力話者モデルへ適
応した場合の実験結果を以下に示す。

【００３１】標準話者の音素ＨＭＭとしては、状態数が
４で、ループ数が３で、かつ混合数が３の混合連続分布
型ＨＭＭを用いた。音素ＨＭＭの数は４９とした。音素
ＨＭＭの学習には標準話者の重要語を５２４０単語用
い、バランス単語を２１６単語用いた。音素バイグラム
確率値は、テキストデータから求めた。話者適応には入
力話者の単語発話音声を用い、評価は入力話者の適応学
習と異なる２５６０単語中の音素認識実験により行なっ
た。

【００３２】その結果、話者適応前の標準話者モデルで
７０．２％であった音素認識率が、この話者適応方式に
より、２５単語を用いて学習した場合は８０．４％、１
００単語を用いて学習した場合は８３．３％、２００単
語を用いて学習した場合は８７．６％となり、この発明
の話者適応方式が有効であることが実証された。

【００３３】以上、この発明の一実施例を説明したが、
この発明は上述した実施例に限定されることなく、その
他の態様でも実施し得るものである。

【００３４】たとえば、上記実施例では、音響モデルと
して混合連続分布型ＨＭＭを用いたが、単一連続分布型
ＨＭＭを用いてもよく、さらに離散分布型ＨＭＭを用い
てもよい。また、音響モデルとしてコンテキスト依存音
素モデルを用い、その遷移確率の初期値として何らかの
テキストデータから求めたコンテキスト依存音素バイグ
ラム確率値を用いてもよい。コンテキスト依存音素モデ
ルについては、電子情報通信学会技術研究報告ＳＰ９１
−１９の「単一ガウス分布ＨＭＭの音素環境木構造に基
づく平滑による頑健な音素認識」、および同Ｓ９１−８
８の「音素テキストと時間に関する逐次状態分割による
隠れマルコフ網の自動生成」に詳しく開示されているの
で、ここではこれを援用する。

【００３５】その他、上記実施例では、適応前の音素Ｈ
ＭＭとして１名の標準話者で学習したモデルを用いた
が、数名の話者の音声データが学習した不特定話者モデ
ルを用いてもよい。また、話者適応だけでなく、発話様
式適応、話者環境適応などにも応用することができる。

【００３６】

【発明の効果】以上のように、この発明に従った音響モ
デル適応方式によれば、発声内容が未知の入力音声を用
いて、既存の音響モデルをその入力音声の特徴空間に適
応することが可能となる。このため、教師あり話者適応
方式に匹敵するほどの音声認識率が得られるなど、認識
性能が向上する。さらに、話者適応だけでなく、発話様
式適応、発話環境適応などに応用した場合も同様に認識
性能は向上する。

【図面の簡単な説明】

【図１】この発明に従った音響モデル適応方式の一実施
例のアルゴリズムを示すフローチャートである。

【図２】図１に示した音響モデル適応方式における確率
モデルを示す概念図である。

【符号の説明】

１音素ＨＭＭａ_ij 音素バイグラム確率値

Claims

【特許請求の範囲】

【請求項１】音声認識に用いるための音声の特徴を表
現する複数の音響モデルであって、１または２以上の標
準話者の音声で学習されたものを、発声内容が未知の入
力音声の特徴空間に適応する音響モデル適応方式におい
て、前記音響モデルのすべてが所望の遷移確率によって互い
に連結され、かつ前記音響モデル自身も所望の遷移確率
によって自己連結されてなる確率モデルを作成し、前記確率モデルの全部または一部のパラメータを前記入
力音声で再学習することを特徴とする音響モデル適応方
式。
【請求項２】前記音響モデルとして、音素の離散分布
型、連続分布型または半連続分布型隠れマルコフモデル
を用いることを特徴とする請求項１に記載の音響モデル
適応方式。
【請求項３】前記遷移確率の初期値として、所望のテ
キストデータから求めた音素バイグラム確率値を用いる
ことを特徴とする請求項１または請求項２に記載の音響
モデル適応方式。
【請求項４】前記音響モデルとして、コンテキスト依
存音素モデルを用い、かつ前記遷移確率の初期値とし
て、所望のテキストデータから求めたコンテキスト依存
音素バイグラム確率値を用いることを特徴とする請求項
１に記載の音響モデル適応方式。
【請求項５】前記確率モデルの全部または一部のパラ
メータを前記入力音声で再学習するときに、移動ベクト
ル場平滑化方式を用いることを特徴とする請求項１ない
し請求項４のいずれかに記載の音響モデル適応方式。