JP2545960B2

JP2545960B2 - 適応型音声認識用学習方式

Info

Publication number: JP2545960B2
Application number: JP1001847A
Authority: JP
Inventors: 隆夫渡辺
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1989-01-06
Filing date: 1989-01-06
Publication date: 1996-10-23
Anticipated expiration: 2011-10-23
Also published as: JPH02181798A

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、音声を認識する音声認識装置において、異
なる話者や異なる発声雑音環境における発声に適応でき
る適応型認識装置の学習に関する。

（従来の技術）従来、入力された音声をあらかじめ保持されている標
準パタンを用いて認識を行う方法があった。（共立出版
株式会社「音声認識」（文献１）p.101-113参照）この
方法では、標準パタン作成に用いた話者以外の話者の音
声を認識すると、話者にる音声パタンの違いにより十分
な認識率が得られない。また、話者が同じでも周囲雑音
などの発声環境が標準パタン作成時と大きく異なると認
識率の低下が起こる。

通常、特定の話者の音声を認識する場合、認識対象語
をすべて発声し登録することが必要である。しかし、語
彙が多い場合には多くの労力を必要とするという欠点が
あった。これ対し、小量の音声により標準パタンを特定
話者に対応化する法が提案されている。例として、IEEE
ICASSP-86,49.5p.2643“Speaker Adaptation through V
ector Quantization"（文献２）にはベクトル量子化に
よる話者適応化法が述べられている。また、この方法に
おけるベクトル量子化による量子化誤差の影響による性
能の低下を改善するものとして、特願昭63-122559号に
は、ニューラルネットワークによる話者適応化法が述べ
られている。これらの方法では、話者１と話者２が同一
単語（文節や文でもよい）を発声したパタンをDPマッチ
ングにより最適に時間的に対応つけた上で、対応する特
徴ベクトルの対のセットから、適応化即ち変換器を求め
ている。

（発明が解決しようとする問題点）上記の方法では異なった話者の音声パタンをそのまま
マッチングしているが、DPマッチングによる時間軸対応
つけは必ずしも正確ではない。例えば、話者１のある要
素は話者２では別の音素に類似しているなどが起こる
と、正しくない対応付けが起こる可能性がある。このよ
うな誤りは、適応化の性能を低下させ、認識性能を低下
させる原因となる。本発明は、このような話者の違いに
よる時間軸対応つけの誤りを取り除き高精度の話者適応
や発声雑音適応を実現することを目的としている。

（問題を解決するための手段）本発明による適応型音声認識用学習方式は、環境１と
環境２の同一発声パタンから学習される環境適応化用の
ニューラルネットにより、環境１の標準パタンを環境２
用に変換したパタンを用いて認識を行う方式において、
環境１の学習パタンをニューラルネットにより変換した
パタンＡと環境２の学習パタンＢとの最適時間軸対応つ
けにより得られるパタン間ご誤差パタンを用いてニュー
ラルネットの荷重係数を修正する過程の反復によりニュ
ーラルネットを学習する手段を有することを特徴とす
る。

（作用）話者適応化を例として、本発明の作用を説明する。発
声内容の同じ２つの話者１のパタンＡ、話者２のパタン
Ｂがあり、パタンＡからパタンＢへの変換を行うニュー
ラルネットを学習するものとする。パタンA,Bをベクト
ルの時系列Ａ＝｛ａ（ｉ）,i＝1,I｝Ｂ＝｛ｂ（ｊ）,j＝1,J｝であらわし、学習の反復ステップをｋであらわす。ニュ
ーラルネットはパタンＡのベクトルとパタンＢのベクト
ル間の変換を実現するものであり、入力、出力ともにベ
クトルである。パタンＡの各時刻のベクトルをステップ
ｋのニューラルネットにより変換してパタンB^* _kを得
る。

B^* _k＝｛b^* _k(i),i＝1,…,I｝入力パタンの変換パタンB^* _kと教師パタンＢとの間でDP
マッチングを行う。DPマッチングでは、次の最小化問題
を解く。なお、DPマッチングの詳細は、文献１に述べら
れている。

このとき、最適なＪ（ｉ）も求めておく。パタンB^* _kの
時間軸に整合されたパタンＢをB_kとする。

B_k＝｛b_k(i),i＝1,…,I｝パタンB^* _kとのB_kとの間の誤差ベクトルの時系列パタン
をd_k誤差関数をD_kとする。

誤差ベクトル時系列パタンd_kを用いてバックプロパゲー
ション学習を行い、ニューラルネットの荷重を修正す
る。バックプロパゲーション学習の詳細は、電子情報通
信学会「確率モデルによる音声」、p.164-167に述べら
れている。

Ｉ個の誤差ベクトルを用いた修正を行うことになる
が、修正の方法として、単純に１個の誤差ベクトルに対
して求められた荷重修正量による修正を繰り返す方法、
あるいは、文献２に述べられているようなＩ個の誤差ベ
クトルについて荷重修正量を求めたのちこれらを平均し
て荷重を修正する方法を用いる。このようにしてステッ
プｋ＋１のニューラルネットが求められる。バックプロ
パゲーション学習の収束性から、教師パタンB_kに固定し
た条件では、ステップｋ＋１のニューラルネットの誤差
関数は、ステップｋのニューラルネットの誤差関数より
小さい。

すなわち、が成り立つ。一方、DPマッチングは、すべての可能な時
間軸対応つけの中で誤差関数の最小となる対応つけを実
行するから、ステップｋ＋１でのDPマッチングの結果得
られる誤差関数D_k+1についてが成り立つ。（１），（２）式より D_k+1≦D_k が成立つので、上記の反復処理は収束し、上記の反復処
理によりニューラルネットの学習を行うことができる。

学習におけるニューラルネットの荷重係数の初期値と
して、ランダムな値を与えることも可能であるが、特願
昭63-122559号に述べられている方法によりパタンA,Bを
直接DPマッチングにより時間軸対応つけした結果から、
ニューラルネットの学習を行い、得られた結果を、初期
値とすることもできる。

パタンA,Bとしては、単語、文、あるいは複数の単語
セット、文セットなど発声内容が同じ任意のものを用い
ることができる。

また、パタンA,Bとして、環境雑音の異なる同一話者
の発声パタンを用いることにより、発声環境雑音の適応
を行うこともできる。

（実施例）第１図は、本発明による実施例を示す図である。図に
おいて、記憶部1,2はそれぞれパタンA,Bを保持し、学習
制御部３は、学習ステップを表す制御信号ｋを発生す
る。まず、記憶部１に保持されたパタンＡはニューラル
ネット部４に入力され、パタンB^* _kに変換される。つい
で記憶部２に保持されたパタンＢと、前記パタンB^* _kがD
Pマッチング部５へ入力される。DPマッチング部５は、
入力された２つのパタンB,B^* _kの間でDPマッチングを実
行し、パタンＢをパタンB^* _kに整合されたパタンB_kを出
力する。誤差パタン算出部６は、DPマッチング部５から
出力されたパタンB_kと、ニューラルネット部４から出力
されたパタンB^* _kとの間の誤差パタンd_kを算出する。誤
差パタンd_kは、ニューラルネット修正部７へ送られると
ともに、誤差関数算出部８へ送られる。ニューラルネッ
ト修正部７は、バックプロパゲーション学習により、ニ
ューラルネット部４の内容（荷重係数）を修正する。学
習制御部３は、誤差関数算出部８により算出された誤差
関数D_kがある程度以下になるか、ステップｋがあらかじ
め定められた値以上になるまで、以上の一連の動作を反
復する制御を行う。

（発明の効果）本発明によれば、新しい話者や発声雑音環境に効果的
に適応できるニューラルネットを学習することができ、
高性能や適応型音声認識装置を実現できる。

【図面の簡単な説明】

第１図は、本発明による実施例を示す図であり、図にお
いて、1,2はパタン記憶部、３は学習制御部、４はニュ
ーラルネット部、５はDPマッチング部、６は誤差パタン
算出部、７はニューラルネット修正部、８は誤差関数算
出部である。

Claims

(57)【特許請求の範囲】

【請求項１】環境１と環境２の同一音声パタンから学習
される環境適応化用のニューラルネットにより、環境１
の標準パタンを環境２用に変換したパタンを用いて認識
を行う音声認識用学習方式において、環境１の学習パタ
ンをニューラルネットにより変換したパタンＡと環境２
の学習パタンＢとの最適時間軸対応つけにより得られる
パタン間の誤差パタンを用いてニューラルネットの荷重
係数を修正する過程の反復によりニューラルネットを学
習する手段を有することを特徴とする適応型音声認識用
学習方式。