JP2545960B2 - 適応型音声認識用学習方式 - Google Patents

適応型音声認識用学習方式

Info

Publication number
JP2545960B2
JP2545960B2 JP1001847A JP184789A JP2545960B2 JP 2545960 B2 JP2545960 B2 JP 2545960B2 JP 1001847 A JP1001847 A JP 1001847A JP 184789 A JP184789 A JP 184789A JP 2545960 B2 JP2545960 B2 JP 2545960B2
Authority
JP
Japan
Prior art keywords
pattern
neural network
environment
learning
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1001847A
Other languages
English (en)
Other versions
JPH02181798A (ja
Inventor
隆夫 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP1001847A priority Critical patent/JP2545960B2/ja
Publication of JPH02181798A publication Critical patent/JPH02181798A/ja
Application granted granted Critical
Publication of JP2545960B2 publication Critical patent/JP2545960B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、音声を認識する音声認識装置において、異
なる話者や異なる発声雑音環境における発声に適応でき
る適応型認識装置の学習に関する。
(従来の技術) 従来、入力された音声をあらかじめ保持されている標
準パタンを用いて認識を行う方法があった。(共立出版
株式会社「音声認識」(文献1)p.101-113参照)この
方法では、標準パタン作成に用いた話者以外の話者の音
声を認識すると、話者にる音声パタンの違いにより十分
な認識率が得られない。また、話者が同じでも周囲雑音
などの発声環境が標準パタン作成時と大きく異なると認
識率の低下が起こる。
通常、特定の話者の音声を認識する場合、認識対象語
をすべて発声し登録することが必要である。しかし、語
彙が多い場合には多くの労力を必要とするという欠点が
あった。これ対し、小量の音声により標準パタンを特定
話者に対応化する法が提案されている。例として、IEEE
ICASSP-86,49.5p.2643“Speaker Adaptation through V
ector Quantization"(文献2)にはベクトル量子化に
よる話者適応化法が述べられている。また、この方法に
おけるベクトル量子化による量子化誤差の影響による性
能の低下を改善するものとして、特願昭63-122559号に
は、ニューラルネットワークによる話者適応化法が述べ
られている。これらの方法では、話者1と話者2が同一
単語(文節や文でもよい)を発声したパタンをDPマッチ
ングにより最適に時間的に対応つけた上で、対応する特
徴ベクトルの対のセットから、適応化即ち変換器を求め
ている。
(発明が解決しようとする問題点) 上記の方法では異なった話者の音声パタンをそのまま
マッチングしているが、DPマッチングによる時間軸対応
つけは必ずしも正確ではない。例えば、話者1のある要
素は話者2では別の音素に類似しているなどが起こる
と、正しくない対応付けが起こる可能性がある。このよ
うな誤りは、適応化の性能を低下させ、認識性能を低下
させる原因となる。本発明は、このような話者の違いに
よる時間軸対応つけの誤りを取り除き高精度の話者適応
や発声雑音適応を実現することを目的としている。
(問題を解決するための手段) 本発明による適応型音声認識用学習方式は、環境1と
環境2の同一発声パタンから学習される環境適応化用の
ニューラルネットにより、環境1の標準パタンを環境2
用に変換したパタンを用いて認識を行う方式において、
環境1の学習パタンをニューラルネットにより変換した
パタンAと環境2の学習パタンBとの最適時間軸対応つ
けにより得られるパタン間ご誤差パタンを用いてニュー
ラルネットの荷重係数を修正する過程の反復によりニュ
ーラルネットを学習する手段を有することを特徴とす
る。
(作用) 話者適応化を例として、本発明の作用を説明する。発
声内容の同じ2つの話者1のパタンA、話者2のパタン
Bがあり、パタンAからパタンBへの変換を行うニュー
ラルネットを学習するものとする。パタンA,Bをベクト
ルの時系列 A={a(i),i=1,I} B={b(j),j=1,J} であらわし、学習の反復ステップをkであらわす。ニュ
ーラルネットはパタンAのベクトルとパタンBのベクト
ル間の変換を実現するものであり、入力、出力ともにベ
クトルである。パタンAの各時刻のベクトルをステップ
kのニューラルネットにより変換してパタンB* kを得
る。
B* k={b* k(i),i=1,…,I} 入力パタンの変換パタンB* kと教師パタンBとの間でDP
マッチングを行う。DPマッチングでは、次の最小化問題
を解く。なお、DPマッチングの詳細は、文献1に述べら
れている。
このとき、最適なJ(i)も求めておく。パタンB* k
時間軸に整合されたパタンBをBkとする。
Bk={bk(i),i=1,…,I} パタンB* kとのBkとの間の誤差ベクトルの時系列パタン
をdk誤差関数をDkとする。
誤差ベクトル時系列パタンdkを用いてバックプロパゲー
ション学習を行い、ニューラルネットの荷重を修正す
る。バックプロパゲーション学習の詳細は、電子情報通
信学会「確率モデルによる音声」、p.164-167に述べら
れている。
I個の誤差ベクトルを用いた修正を行うことになる
が、修正の方法として、単純に1個の誤差ベクトルに対
して求められた荷重修正量による修正を繰り返す方法、
あるいは、文献2に述べられているようなI個の誤差ベ
クトルについて荷重修正量を求めたのちこれらを平均し
て荷重を修正する方法を用いる。このようにしてステッ
プk+1のニューラルネットが求められる。バックプロ
パゲーション学習の収束性から、教師パタンBkに固定し
た条件では、ステップk+1のニューラルネットの誤差
関数は、ステップkのニューラルネットの誤差関数より
小さい。
すなわち、 が成り立つ。一方、DPマッチングは、すべての可能な時
間軸対応つけの中で誤差関数の最小となる対応つけを実
行するから、ステップk+1でのDPマッチングの結果得
られる誤差関数Dk+1について が成り立つ。(1),(2)式より Dk+1≦Dk が成立つので、上記の反復処理は収束し、上記の反復処
理によりニューラルネットの学習を行うことができる。
学習におけるニューラルネットの荷重係数の初期値と
して、ランダムな値を与えることも可能であるが、特願
昭63-122559号に述べられている方法によりパタンA,Bを
直接DPマッチングにより時間軸対応つけした結果から、
ニューラルネットの学習を行い、得られた結果を、初期
値とすることもできる。
パタンA,Bとしては、単語、文、あるいは複数の単語
セット、文セットなど発声内容が同じ任意のものを用い
ることができる。
また、パタンA,Bとして、環境雑音の異なる同一話者
の発声パタンを用いることにより、発声環境雑音の適応
を行うこともできる。
(実施例) 第1図は、本発明による実施例を示す図である。図に
おいて、記憶部1,2はそれぞれパタンA,Bを保持し、学習
制御部3は、学習ステップを表す制御信号kを発生す
る。まず、記憶部1に保持されたパタンAはニューラル
ネット部4に入力され、パタンB* kに変換される。つい
で記憶部2に保持されたパタンBと、前記パタンB* kがD
Pマッチング部5へ入力される。DPマッチング部5は、
入力された2つのパタンB,B* kの間でDPマッチングを実
行し、パタンBをパタンB* kに整合されたパタンBkを出
力する。誤差パタン算出部6は、DPマッチング部5から
出力されたパタンBkと、ニューラルネット部4から出力
されたパタンB* kとの間の誤差パタンdkを算出する。誤
差パタンdkは、ニューラルネット修正部7へ送られると
ともに、誤差関数算出部8へ送られる。ニューラルネッ
ト修正部7は、バックプロパゲーション学習により、ニ
ューラルネット部4の内容(荷重係数)を修正する。学
習制御部3は、誤差関数算出部8により算出された誤差
関数Dkがある程度以下になるか、ステップkがあらかじ
め定められた値以上になるまで、以上の一連の動作を反
復する制御を行う。
(発明の効果) 本発明によれば、新しい話者や発声雑音環境に効果的
に適応できるニューラルネットを学習することができ、
高性能や適応型音声認識装置を実現できる。
【図面の簡単な説明】
第1図は、本発明による実施例を示す図であり、図にお
いて、1,2はパタン記憶部、3は学習制御部、4はニュ
ーラルネット部、5はDPマッチング部、6は誤差パタン
算出部、7はニューラルネット修正部、8は誤差関数算
出部である。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】環境1と環境2の同一音声パタンから学習
    される環境適応化用のニューラルネットにより、環境1
    の標準パタンを環境2用に変換したパタンを用いて認識
    を行う音声認識用学習方式において、環境1の学習パタ
    ンをニューラルネットにより変換したパタンAと環境2
    の学習パタンBとの最適時間軸対応つけにより得られる
    パタン間の誤差パタンを用いてニューラルネットの荷重
    係数を修正する過程の反復によりニューラルネットを学
    習する手段を有することを特徴とする適応型音声認識用
    学習方式。
JP1001847A 1989-01-06 1989-01-06 適応型音声認識用学習方式 Expired - Lifetime JP2545960B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1001847A JP2545960B2 (ja) 1989-01-06 1989-01-06 適応型音声認識用学習方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1001847A JP2545960B2 (ja) 1989-01-06 1989-01-06 適応型音声認識用学習方式

Publications (2)

Publication Number Publication Date
JPH02181798A JPH02181798A (ja) 1990-07-16
JP2545960B2 true JP2545960B2 (ja) 1996-10-23

Family

ID=11512942

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1001847A Expired - Lifetime JP2545960B2 (ja) 1989-01-06 1989-01-06 適応型音声認識用学習方式

Country Status (1)

Country Link
JP (1) JP2545960B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754784B (zh) * 2017-11-02 2021-01-29 华为技术有限公司 训练滤波模型的方法和语音识别的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
日本音響学会講演論文集,平成元年3月,2−P−▲○27▼,P.283〜284
電子情報通信学会技術研究報告,昭和62年12月,SP87−101,P.25〜30

Also Published As

Publication number Publication date
JPH02181798A (ja) 1990-07-16

Similar Documents

Publication Publication Date Title
JP2733955B2 (ja) 適応型音声認識装置
US6421640B1 (en) Speech recognition method using confidence measure evaluation
EP0510632A2 (en) Speech recognition by neural network adapted to reference pattern learning
JPH10254483A (ja) 音素シンボルの事後確率演算装置及び音声認識装置
JPH08110793A (ja) 特性ベクトルの前端正規化による音声認識の改良方法及びシステム
JP2001517325A (ja) 認識システム
US5890113A (en) Speech adaptation system and speech recognizer
JPH08234788A (ja) 音声認識のバイアス等化方法および装置
US5734793A (en) System for recognizing spoken sounds from continuous speech and method of using same
US5461696A (en) Decision directed adaptive neural network
US7346497B2 (en) High-order entropy error functions for neural classifiers
US20230070000A1 (en) Speech recognition method and apparatus, device, storage medium, and program product
JPH0962291A (ja) 記述長最小基準を用いたパターン適応化方式
JP2797949B2 (ja) 音声認識装置
US8140333B2 (en) Probability density function compensation method for hidden markov model and speech recognition method and apparatus using the same
JP2545960B2 (ja) 適応型音声認識用学習方式
JP2852298B2 (ja) 標準パターン適応化方式
Moon et al. Noisy speech recognition using robust inversion of hidden Markov models
JP2013182261A (ja) 適応化装置、音声認識装置、およびそのプログラム
JP2000122689A (ja) 話者適応化装置及び音声認識装置
JP2561553B2 (ja) 標準話者選択装置
JP2545961B2 (ja) 音声認識用学習方式
KR100322730B1 (ko) 화자적응방법
JP3256979B2 (ja) 音響モデルの入力音声に対する尤度を求める方法
JPH04298797A (ja) 音声認識装置