JP2003330484A

JP2003330484A - 音声認識装置及び音声認識方法

Info

Publication number: JP2003330484A
Application number: JP2002142998A
Authority: JP
Inventors: Soichi Toyama; 聡一外山
Original assignee: Pioneer Electronic Corp
Current assignee: Pioneer Corp
Priority date: 2002-05-17
Filing date: 2002-05-17
Publication date: 2003-11-19
Anticipated expiration: 2022-05-17
Also published as: JP4275353B2

Abstract

(57)【要約】【課題】背景雑音の影響に対してロバストな話者適応
を可能にする。【解決手段】話者適応モデル記憶部２に初期音声モデ
ルＭcを記憶させておき、雑音適応部３が話者適応モデ
ル記憶部２に予め記憶されている初期音声モデルＭcに
対し雑音適応を施すことで雑音適応モデルＭc’を生成
する。そして、話者適応パラメータ算出部４がその雑音
適応モデルＭc’と話者音声の特徴ベクトル系列Ｖ(n)と
によって話者適応パラメータＰを生成し、音声モデル更
新部５が話者適応パラメータＰを用いて初期音声モデル
Ｍcに話者適応処理を施して話者適応モデルＭc”を生成
する。そして、初期音声モデルＭcを話者適応モデルＭ
c”で置き換えて話者適応モデル記憶部２に更新記憶さ
せる。音声認識の際は、雑音適応部３が、更新記憶され
た話者適応モデルＭc”を初期音声モデルＭcに代えて雑
音適応することで雑音適応した話者適応モデルＭregを
生成し、音声認識部９がその雑音話者適応モデルＭreg
から構成される系列と認識すべき発話音声の特徴ベクト
ル系列Ｖ(n)とを照合することで音声認識を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、例えば話者適応を
施した音声モデルを用いて音声認識を行う音声認識装置
及び音声認識方法に関するものである。

【０００２】

【従来の技術】音声認識技術の分野では、大量の音声デ
ータベースから学習した不特定話者音声モデルを使用し
て音声認識が行われている。

【０００３】しかし、この不特定話者音声モデルは、不
特定多数の発話音声データに基づいて学習されたもので
あるため、標準的な発話を行う話者の発話音声を音声認
識する場合には比較的高い認識性能が得られるものの、
発話に特徴のある話者の発話音声を認識する場合は、必
ずしも高い認識性能が得られるとは限らないという課題
があった。

【０００４】そのため、個々の話者の発話音声によって
不特定話者音声モデルを話者適応し、その話者適応した
音響モデルを用いることにより、話者個々人に対して適
切な音声認識を行おうとする話者適応法が開発された。

【０００５】従来の話者適応法では、大量の音声データ
ベースを用いて音素等サブワード単位の不特定話者音声
モデル（以下「初期音声モデル」という）を生成してお
き、実際の音声認識を開始する前の前処理段階で、初期
音声モデルに対して話者適応を施す。つまり、前処理段
階の際に話者に発話をしてもらい、発話音声の特徴ベク
トル系列に基づいて初期音声モデルを話者適応すること
により、話者の個人差を考慮した話者適応モデルを生成
する。

【０００６】そして、実際の音声認識に際して、その話
者が発した認識すべき発話音声の特徴ベクトル系列と既
述の話者適応モデルから構成される系列とを照合し、最
も高い尤度の得られる話者適応モデル系列を音声認識結
果としている。

【０００７】

【発明が解決しようとする課題】ところが、初期音声モ
デルに対して話者適応を行う際、話者の発話音声に発話
環境下での背景雑音が重畳することとなる。

【０００８】このため、従来の話者適応法では、発話音
声のみならず背景雑音の重畳した発話音声（すなわち、
背景雑音重畳発話音声）の特徴ベクトル系列によって話
者適応することとなり、精度の良い話者適応モデルを生
成することが困難となる場合があった。

【０００９】特に、雑音の多い環境下での発話音声を用
いて話者適応を行うことになると、背景雑音の影響を大
きく受けてしまい、話者の特徴を適切に反映した話者適
応モデルを生成することが困難となる場合があった。

【００１０】そして、実際に、従来の話者適応法で話者
適応を施した上記話者適応モデルで音声認識を行うと、
その認識時の環境下での背景雑音と、既述した話者適応
時の背景雑音とが異なるような場合に、話者適応を行っ
たことによる効果すなわち音声認識率向上の効果を必ず
しも十分に得られないという問題があった。

【００１１】本発明は、上記従来の問題点に鑑みてなさ
れたものであり、背景雑音の影響に対してロバストな話
者適応を行う音声認識装置及び音声認識方法を提供する
ことを目的とする。

【００１２】

【課題を解決するための手段】上記目的を達成するため
請求項１に係る音声認識装置の発明は、初期音声モデル
を有する記憶手段と、上記記憶手段の初期音声モデルに
話者適応時の背景雑音によって雑音適応を施すことで雑
音適応モデルを生成する雑音適応手段と、上記雑音適応
手段で生成された上記雑音適応モデルに対し、上記話者
適応時に発話された発話音声によって話者適応演算を行
い、上記雑音適応モデルを雑音重畳話者適応モデルに変
換するための話者適応パラメータを算出する話者適応パ
ラメータ算出手段と、上記記憶手段の初期音声モデル
に上記話者適応パラメータで話者適応を施すことにより
話者適応モデルを生成し、当該話者適応モデルを上記初
期音声モデルに代えて上記記憶手段に更新記憶させる音
声モデル更新手段とを備えることを特徴とする。

【００１３】請求項２に係る音声認識装置の発明は、請
求項１に係る音声認識装置の発明において、音声認識時
に音声認識処理を行う認識処理手段を備え、更に上記雑
音適応手段は、上記音声認識時の非発話期間における背
景雑音によって、上記記憶手段に更新記憶された上記話
者適応モデルに対し雑音適応を施すことで雑音適応を施
した話者適応モデルを生成し、当該雑音適応を施した話
者適応モデルを、発話音声を音声認識するための音響モ
デルとして上記音声認識手段に供給することを特徴とす
る。

【００１４】請求項３に係る音声認識装置の発明は、初
期音声モデルを有する記憶手段と、音声認識時の非発話
期間における背景雑音により上記記憶手段の初期音声モ
デルに雑音適応を施すことで雑音適応モデルを生成する
雑音適応手段と、上記音声認識時の発話期間に発話され
た音声認識すべき発話音声と、上記雑音適応手段で生成
された上記雑音適応モデルとを照合して音声認識を行う
認識処理手段と、上記雑音適応手段で生成された上記雑
音適応モデルに対し上記音声認識すべき発話音声によっ
て話者適応演算を行い、上記雑音適応モデルを雑音重畳
話者適応モデルに変換するための話者適応パラメータを
算出する話者適応パラメータ算出手段と、上記記憶手
段の初期音声モデルに上記話者適応パラメータで話者適
応を施すことにより話者適応モデルを生成し、当該話者
適応モデルを上記初期音声モデルに代えて上記記憶手段
に更新記憶させる音声モデル更新手段とを備えることを
特徴とする。

【００１５】請求項４に係る音声認識装置の発明は、請
求項３に係る音声認識装置の発明において、上記話者適
応パラメータ算出手段と音声モデル更新手段は、上記認
識処理手段の認識結果の信頼度が高い場合に、上記話者
適応モデルを生成して上記初期音声モデルに代えて上記
記憶手段に更新記憶させることを特徴とする。

【００１６】請求項５に係る音声認識方法の発明は、記
憶手段に記憶されている初期音声モデルに話者適応時の
背景雑音によって雑音適応を施すことで雑音適応モデル
を生成する雑音適応処理工程と、上記雑音適応処理工程
で生成された上記雑音適応モデルに対し、上記話者適応
時に発話された発話音声によって話者適応演算を行い、
上記雑音適応モデルを雑音重畳話者適応モデルに変換す
るための話者適応パラメータを算出する話者適応パラメ
ータ算出処理工程と、上記記憶手段の初期音声モデルに
上記話者適応パラメータで話者適応を施すことにより話
者適応モデルを生成し、当該話者適応モデルを上記初期
音声モデルに代えて上記記憶手段に更新記憶させる音声
モデル更新処理工程とを備えることを特徴とする。

【００１７】請求項６に係る音声認識方法の発明は、請
求項５に係る音声認識方法の発明において、更に上記雑
音適応処理工程では、音声認識時の非発話期間における
背景雑音によって、上記記憶手段に更新記憶された上記
話者適応モデルに対し雑音適応を施すことで雑音適応を
施した話者適応モデルを生成し、上記雑音適応を施した
話者適応モデルと、上記音声認識時の発話期間における
音声認識すべき発話音声とを照合することにより音声認
識を行う音声認識処理工程とを備えることを特徴とす
る。

【００１８】請求項７に係る音声認識方法の発明は、音
声認識時の非発話期間における背景雑音により、記憶手
段に記憶されている初期音声モデルに雑音適応を施すこ
とで雑音適応モデルを生成する雑音適応処理工程と、上
記音声認識時の発話期間に発話される音声認識すべき発
話音声と、上記雑音適応処理工程で生成された上記雑音
適応モデルとを照合して音声認識を行う認識処理工程
と、上記雑音適応処理工程で生成された上記雑音適応モ
デルに対し上記音声認識すべき発話音声によって話者適
応演算を行い、上記雑音適応モデルを雑音重畳話者適応
モデルに変換するための話者適応パラメータを算出する
話者適応パラメータ算出処理工程と、上記記憶手段の初
期音声モデルに上記話者適応パラメータで話者適応を施
すことにより話者適応モデルを生成し、当該話者適応モ
デルを上記初期音声モデルに代えて上記記憶手段に更新
記憶させる音声モデル更新処理工程とを備えることを特
徴とする。

【００１９】請求項８に係る音声認識方法の発明は、請
求項７に係る音声認識方法の発明において、上記話者適
応パラメータ算出処理工程と音声モデル更新処理工程
は、上記認識処理工程の認識結果の信頼度が高い場合
に、上記話者適応モデルを生成して上記初期音声モデル
に代えて上記記憶手段に更新記憶させることを特徴とす
る。

【００２０】請求項１に係る音声認識装置と請求項５に
係る音声認識方法の発明によれば、話者適応に際して、
初期音声モデルに対して雑音適応を施し、その雑音適応
で得られる雑音適応モデルに対して話者適応演算を行
い、更に雑音適応モデルを雑音重畳話者適応モデルに変
換するための話者適応パラメータを算出して、初期音声
モデルに対しその話者適応パラメータで話者適応を施す
ことにより、音声認識に際して利用する話者適応モデル
を生成し、初期音声モデルをその話者適応モデルで更新
する。

【００２１】これにより、話者適応時の背景雑音の悪影
響を低減し、話者適応の本来の目的である話者の個人性
への適応効果の高い話者適応モデルの生成を実現する。

【００２２】請求項２に係る音声認識装置と請求項６に
係る音声認識方法の発明によれば、話者適応が行われた
後の音声認識の際、その音声認識時の非発話期間におけ
る背景雑音によって、更新記憶された話者適応モデルに
対し雑音適応を施す。これにより、雑音適応を施した話
者適応モデルを生成する。そして、雑音適応を施した話
者適応モデルと音声認識時の発話期間における音声認識
すべき発話音声とを照合することにより音声認識を行
う。

【００２３】請求項３に係る音声認識装置と請求項７に
係る音声認識方法の発明によれば、音声認識時に話者適
応も行う。

【００２４】すなわち、音声認識時の非発話期間におけ
る背景雑音により初期音声モデルに雑音適応を施すこと
で雑音適応モデルを生成し、その音声認識時の発話期間
に発話される音声認識すべき発話音声と雑音適応モデル
とを照合して音声認識を行う。更に雑音適応モデルに対
して、音声認識すべき発話音声によって話者適応演算を
行い、雑音適応モデルを雑音重畳話者適応モデルに変換
するための話者適応パラメータを算出する。そして、初
期音声モデルに話者適応パラメータで話者適応を施すこ
とにより話者適応モデルを生成し、生成した話者適応モ
デルを初期音声モデルに代えて更新する。

【００２５】この結果、多くの発話音声を音声認識して
いくにしたがって、初期音声モデルを、話者の個人性へ
の適応の度合いの高い話者適応モデルへと更新していく
ことになり、音声認識性能の向上を実現する。

【００２６】請求項４に係る音声認識装置と請求項８に
係る音声認識方法の発明によれば、音声認識の結果が信
頼度の高い場合に、話者適応モデルを生成して初期音声
モデルを更新することにより、発話環境の状態等に応じ
て適切な話者適応を実現する。

【００２７】なお、初期音声モデルとは、話者適応を施
す前の上記記憶手段に記憶されている音声モデルを指
す。本発明では、話者適応によって生成された話者適応
モデルで、記憶手段に記憶されている初期音声モデルを
更新するが、この更新された話者適応音声モデルは、初
期音声モデルとして扱われる。つまり、記憶手段には最
初、初期音声モデルが記憶されているが、話者適応モデ
ルで更新された後は、その更新された話者適応モデルを
初期音声モデルとみなして扱うという処理が繰り返され
る。

【００２８】

【発明の実施の形態】以下、本発明の好適な実施の形態
を図面を参照して説明する。

【００２９】（第１の実施の形態）本発明の第１の実施
の形態を図１及び図２を参照して説明する。図１は、本
実施形態の音声認識装置の構成を示すブロック図であ
る。

【００３０】なお、好適な一実施形態として、初期設定
で話者適応を行い、認識時には初期設定された音声モデ
ルを用いて行う実施形態を説明する。

【００３１】図１において、本音声認識装置はＨＭＭ
（隠れマルコフモデル）を用いて音声認識を行う構成と
なっており、予め雑音のない環境で収録された音声デー
タベースを用いて学習された不特定話者音声モデルであ
る初期音声モデルＭcが記憶された初期音声モデル記憶
部１と、後述の話者適応演算処理で生成される話者適応
モデルＭc”を更新記憶するための話者適応モデル記憶
部２と、雑音適応部３と、話者適応パラメータ算出部４
及び音声モデル更新部５を有する話者適応部と、を備え
て構成されている。

【００３２】更に、マイクロフォン７で収音された収音
信号ｖ(t)を所定のフレーム期間毎にケプストラム係数
ベクトルに変換し、ケプストラム領域の特徴ベクトル系
列Ｖ(n)を生成する音響分析部６と、切替スイッチ８及
び認識処理部９が備えられている。

【００３３】尚、同図中、矢印付きの破線と矢印付きの
実線とによって、信号の通る経路を模式的に示している
が、矢印付きの破線は、話者適応時にのみ通る信号の流
れ、一方、矢印付きの実線は、音声認識時にのみ通る信
号の流れ、又は音声認識時及び話者適応時の際の信号の
流れを表している。

【００３４】ここで、音響分析部６は、マイクロフォン
７が収音することで生じる時間軸上の収音信号ｖ(t)を
所定のフレーム時間毎にケプストラム係数ベクトルに変
換することにより、ケプストラム領域の特徴ベクトル系
列Ｖ(n)を生成して出力する。なお、符号Ｖ(n)中の変数
ｎはフレーム番号を示している。

【００３５】切替スイッチ８は、後述する話者適応の処
理に際して、話者が未だ発話を開始していない非発話期
間内に雑音適応部３側に切り替わり、音声分析部６で生
成される特徴ベクトル系列Ｖ(n)を雑音適応部３へ送出
する。

【００３６】これは、発話者あるいは装置から処理開始
の指示がなされた直後の数十ミリ秒ないし数秒の間は音
声が発話されていない区間とみなして、切替スイッチ８
を雑音適応部３側へ切り替え、その後は、切替スイッチ
８を話者適応算出部４あるいは認識処理部９側へ切替え
制御することで実現可能となっている。

【００３７】あるいは、マイクロフォン７からの収音信
号ｖ(t)を所定の監視制御手段（図示省略）で逐次監視
し、収音信号ｖ(t)に発話者の音声がないと判断したと
きには、切替スイッチ８を雑音適応部３側へ切り替え、
発話者の音声が有ると判断すると、話者適応算出部４あ
るいは認識処理部９側へ切替え制御するようにしてもよ
い。要は、収音信号ｖ(t)に発話者の音声が含まれてい
る区間であるか否かに応じて、切替スイッチ８を上述の
如く切り替える。

【００３８】また、その話者適応処理の際、話者が発話
を開始すると、その発話期間内に話者適応パラメータ算
出部４側に切り替わり、音声分析部６で生成される特徴
ベクトル系列Ｖ(n)を話者適応パラメータ算出部４へ送
出する。

【００３９】また、話者適応処理が完了した後、音声認
識処理が開始された場合も切替スイッチ８は同様の動作
を行うが、前述のように、信号は矢印付きの破線で示す
経路を通らず、矢印付きの実線で示す経路を通ることと
なる。

【００４０】話者が発話を開始する前の背景雑音のみが
収音される期間では、切替スイッチ８は雑音適応部３側
に切り替わり、背景雑音の特徴ベクトルＮ(n)を雑音適
応部３へ送出する。

【００４１】マイクロフォン７が発話音声を収音する発
話期間になると、切替スイッチ８は、話者適応処理時に
は話者適応パラメータ算出部４側に、認識処理時には、
認識処理部９側に切り替わり、その発話期間における特
徴ベクトル系列Ｖ(n)を話者適応パラメータ算出部４あ
るいは認識処理部９へ送出する。

【００４２】初期音声モデル記憶部１は、読出し専用の
半導体メモリ（ＲＯＭ）や、着脱自在に設けられたスマ
ートメディアやコンパクトフラッシュ（登録商標）メモ
リ等で形成された所謂データベースであり、予め、標準
的な話者の音声を学習することによって生成された音素
等サブワード単位の初期音声モデルＭcが記憶されてい
る。

【００４３】話者適応モデル記憶部２は、再記憶が可能
な非破壊形の半導体メモリ等で形成されており、後述の
話者適応の処理に際して、まず、初期音声モデル記憶部
１に記憶されている初期音声モデルＭcを複写して記憶
する。

【００４４】そして後述する如く、話者適応パラメータ
算出部４と音声モデル更新部５によってＨＭＭは話者適
応され、話者適応モデルＭc”にて更新されることか
ら、初期音声モデルＭcを話者適応モデルＭc”に置き換
えて（更新して）記憶するようになっている。

【００４５】雑音適応部３は、話者適応の処理に際し
て、話者適応モデル記憶部２に記憶されている音素等サ
ブワード単位での全ての初期音声モデルＭcに雑音適応
を施すことにより、全ての初期音声モデルＭcに対応し
た雑音適応モデルＭc’を生成し、同図中の矢印付き点
線の経路を通じて、話者適応パラメータ算出部４へ送出
する。

【００４６】また雑音適応部３は、音声認識時におい
て、上記話者適応の処理により話者適応モデル記憶部２
に更新記憶されることとなった音声モデル（すなわち、
話者適応モデルＭc”）に対して雑音適応を施し、その
雑音適応した話者適応モデルＭregを、同図中の矢印付
き実線で示す経路を通じて認識処理部９へ送出する。

【００４７】すなわち、前者の話者適応処理の際には、
話者適応時に話者が未だ発話していない非発話期間に、
その発話環境で生じる背景雑音をマイクロフォン７が収
音すると、音響分析部６がその収音信号ｖ(t)より所定
フレーム期間毎の特徴ベクトル系列Ｖ(n)を生成し、更
に切替スイッチ８が雑音適応部３側に切り替わること
で、その特徴ベクトル系列Ｖ(n)を背景雑音の特徴ベク
トル系列Ｎ(n)として雑音適応部３へ送出する。

【００４８】そして、雑音適応部３は、その背景雑音特
徴ベクトル系列Ｎ(n)を用いて、全ての初期音声モデル
Ｍcから、ＨＭＭ合成手法やヤコビ適応手法等の雑音適
応処理により、雑音適応モデルＭc’を生成し、話者適
応パラメータ算出部４へ送出する。

【００４９】また、後者の音声認識処理の際には、音声
認識時に話者が未だ発話していない非発話期間に、その
発話環境で生じる背景雑音をマイクロフォン７が収音
し、音響分析部６がその収音信号ｖ(t)より所定フレー
ム期間毎の特徴ベクトル系列Ｖ(n)を生成し、更に切替
スイッチ８が雑音適応部３側に切り替わることで、その
特徴ベクトル系列Ｖ(n)を背景雑音の特徴ベクトル系列
Ｎ(n)として雑音適応部３へ送出する。

【００５０】そして、雑音適応部３は、その背景雑音特
徴ベクトル系列Ｎ(n)を用いて、更新記憶されることと
なった音声モデル（すなわち、話者適応モデルＭc”）
に対して雑音適応を施し、雑音適応した話者適応モデル
Ｍregを認識処理部９へ送出する。

【００５１】ここで、雑音適応部３が話者適応時にＨＭ
Ｍ合成法を用いて、音声認識率に大きく影響を与える話
者適応モデルＭc”の各分布の平均ベクトルμcを雑音適
応する場合を説明する。

【００５２】まず、雑音適応部３は、背景雑音の特徴ベ
クトル系列Ｎ(n)より、背景雑音モデルＮbを求める。

【００５３】ここで説明の便宜上、背景雑音は定常と仮
定し、背景雑音モデルＮbは１状態１混合モデルとし、
更に背景雑音モデルＮbの平均ベクトルをμNとして説明
すると、平均ベクトルμNは背景雑音の特徴ベクトル系
列Ｎ(n)をフレーム数で平均することで求める。

【００５４】更に、初期音声モデルＭcの分布ｍの平均
ベクトルμcmと背景雑音モデルＮbの平均ベクトルμNを
合成することで、次式（１）で表される、合成後の雑音
適応した分布ｍの平均ベクトルμcm’を求める。

【００５５】

【数１】

【００５６】ここで、ＩＤＣＴ〔〕は逆離散コサイン
変換、ｌｏｇ〔〕は対数変換、ｅｘｐ〔〕は指数変
換、ＤＣＴ〔〕は離散コサイン変換、ｋはＳＮ比より
求まる混合比である。

【００５７】これを初期音声モデルＭcの全ての分布に
対して求める。これにより、初期音声モデルＭcに話者
適応時の発話環境下での背景雑音を重畳させた形の雑音
適応モデルＭc’を求め、話者適応パラメータ算出部４
へ送出する。

【００５８】なお、ここでは、雑音モデルを１状態１混
合としたが、２状態以上あるいは２混合以上の場合は、
初期音声モデルＭcの１つの分布に対し、対応する雑音
適応モデルＭc’の分布が複数求まることになる。ま
た、共分散行列を考慮する場合も雑音適応モデルＭc’
を求めることが可能である。

【００５９】また、雑音適応手法としてＨＭＭ合成法を
用いる場合を説明したが、本発明では、ヤコビ適応手法
その他の、初期音声モデルＭcに発話時の背景雑音を重
畳した状態の雑音適応モデルＭc’を求める雑音適応手
法を用いることも可能である。

【００６０】話者適応パラメータ算出部４は、話者適応
処理に際して、雑音適応部３からの雑音適応モデルＭ
c’と、音響分析部６から切替スイッチ８を介して供給
される発話音声の特徴ベクトル系列Ｖ(n)とを入力し、
発話音声の特徴を有する話者適応パラメータＰを生成し
て出力する。

【００６１】より具体的に述べると、話者適応処理に際
して話者が発話を開始すると、その発話期間に切替スイ
ッチ８が話者適応パラメータ算出部４側に切り替わり、
背景雑音の重畳した発話音声の特徴ベクトル系列Ｖ(n)
が音声分析部６から切替スイッチ８を介して話者適応パ
ラメータ算出部４に供給される。

【００６２】こうして背景雑音の重畳した音声（背景雑
音重畳音声）の特徴ベクトル系列Ｖ(n)とそれと同じ背
景雑音で雑音適応された雑音適応モデルＭc’が供給さ
れると、話者適応パラメータ算出部４は、それらの特徴
ベクトル系列Ｖ(n)と雑音適応モデルＭc’を用いて話者
適応演算処理を行い、雑音適応モデルＭc’を話者適応
するための話者適応パラメータＰを生成する。

【００６３】ここでは話者適応演算処理としてＭＬＬＲ
（Maxmum Likelihood Linear Regression）を用いて、
認識率に大きく影響する話者適応モデルＭcの各分布の
平均ベクトルを更新する場合を説明する。

【００６４】発話内容が既知の発話音声の特徴ベクトル
系列Ｖ(n)と雑音適応モデルＭc’とを用いてＭＬＬＲ処
理を行い、雑音適応モデルＭc’の分布ｍの平均ベクト
ルμcm’を話者適応するための話者適応パラメータＰと
して、変換行列Ｗm’とオフセットベクトルｂm’を求め
る。

【００６５】ここで、変換行列Ｗm’とオフセットベク
トルｂm’は複数の分布で共有させるので、いくつかの
分布では同じ値の変換行列Ｗm’とオフセットベクトル
ｂm’を使用する。

【００６６】また、変換行列Ｗm’とオフセットベクト
ルｂm’を共有させる分布の選択は、全平均ベクトルを
クラスタリングすることにより、雑音適応前の分布を元
に予め計算しておく。

【００６７】また、全ての分布で変換行列Ｗm’とオフ
セットベクトルｂm’を共有する場合は、全分布に共通
の１種類の変換行列Ｗm’とオフセットベクトルｂm’を
求める。

【００６８】また、上述した雑音適応３で用いた雑音モ
デルが１状態１混合でない場合は、雑音適応モデルＭ
c’の複数分布が初期音声モデルＭcの１つの分布に対応
することになるが、この場合は初期音声モデルＭcの１
つの分布に対応する全ての雑音適応モデルＭc’で、変
換行列Ｗm’とオフセットベクトルｂm’を共有する。

【００６９】なお、ＭＬＬＲでは、一般に数発話分の発
話音声データを用いて計算を行うが、話者適応パラメー
タＰの分布間の共有情報を全発話で共通に用い、発話音
声データに対応する音響モデルは発話毎に雑音適応され
た雑音適応モデルＭc’を用いて計算する。

【００７０】このように、話者適応手法としてＭＬＬＲ
を用いる場合、話者適応パラメータ算出部４では、発話
内容が既知の発話音声の特徴ベクトル系列Ｖ(n)を用い
て、音響モデルＭc’の各分布の平均ベクトルを更新す
るための話者適応パラメータＰとして、変換行列Ｗm’
とオフセットベクトルｂm’を求める。

【００７１】なお、上述したように、ＭＬＬＲで変換行
列Ｗm’とオフセットベクトルｂm’を算出する場合を述
べたが、ＭＡＰ（Maxmum A Posteriori）推定法を適用
することも可能である。

【００７２】このＭＡＰ推定法を採用して、平均ベクト
ルμcm’を適応するためのパラメータＰを求めるには、
雑音適応モデルＭc’の平均ベクトルをＭＡＰ推定法に
より話者適応させ、そこから話者適応パラメータ算出部
４で、目的の話者適応パラメータＰに変換する。

【００７３】このＭＡＰ推定法では、発話内容既知の発
話音声の特徴ベクトル系列Ｖ(n)の各フレームの特徴ベ
クトルと、雑音適応モデルＭc’の各分布との対応関係
をビタビ整合等により算出する。

【００７４】そして、雑音適応モデルＭc’の分布ｍに
対応するフレームの特徴ベクトルを集め、それをフレー
ム数で平均することで平均特徴ベクトルＶm~を求める。

【００７５】このときの、分布ｍに対応するフレームの
特徴ベクトルのフレーム数（個数）をｎm、分布ｍの重
み係数をτm’、分布ｍの平均ベクトルμcm’を話者適
応した更新平均ベクトルをμcm’＾とすると、その更新
平均ベクトルμcm’＾を次式(2)で表される関係に従っ
て算出する

【００７６】

【数２】

【００７７】また、重み係数τm’も次式(3)で表される
関係に従って、発話毎に更新する。

【００７８】

【数３】

【００７９】そして、更新平均ベクトルμcm’＾で平均
ベクトルμcm’を置き換え、更に重み係数もτm’＾で
τm’を置き換えることで、発話がなされる度に平均ベ
クトルμcm’と重み係数τm’を夫々更新平均ベクトル
μcm’＾と重み係数τm’＾で順次に更新していく。

【００８０】ここで、話者適応パラメータＰを話者適応
後のモデルと話者適応前のモデルとの差ベクトルと考え
ると、分布ｍの話者適応パラメータＰである差ベクトル
ｄm’は、次式(4)で表される。

【００８１】

【数４】

【００８２】この式(4)によると、更新平均ベクトルμc
m’＾を算出することなく差ベクトルｄm’を求めること
ができる。

【００８３】そして、差ベクトルｄm’を後述の音声モ
デル更新部５に転送し、重み係数τm’は上記式(3)によ
り更新し、話者適応パラメータ算出部４に保持してお
く。なお、重み係数τm’の初期値は任意の値に選ぶこ
とができる。

【００８４】また、上述した雑音適応３で用いた雑音適
応モデルＭc’が１状態１混合でない場合は、雑音適応
モデルＭc’の複数分布が初期音声モデルＭcの１つの分
布に対応することになる。

【００８５】例えば初期音声モデルＭcの分布ｍが雑音
適応モデルＭc’の分布ｍ1，ｍ2，……，ｍkに対応した
とする。そして雑音適応モデルの分布ｍ1に対応する、
上記式(4)より求まる話者適応パラメータをｄm1’、重
み係数をτm1’とすると、初期音声モデルＭcの分布ｍ
を更新するための話者適応パラメータｄm’を、次式(5)
で表される加算平均処理にて求める。

【００８６】

【数５】

【００８７】また、上記式(5)に重み係数τm1’で重み
付けした次式(6)で表される演算によって、ｋ個のパラ
メータを統合して話者適応パラメータｄm’を算出して
もよい。

【００８８】

【数６】

【００８９】以上、話者適応手法としてＭＬＬＲとＭＡ
Ｐ推定法を用いる場合の話者適応パラメータ算出部４の
動作を説明した。

【００９０】なお、話者適応手法として、他の手法を講
じることもできる。

【００９１】ＭＬＬＲの変換行列Ｗm’とオフセットベ
クトルｂm’のように、話者適応処理により話者適応パ
ラメータＰが求まる話者適応手法を用いる場合は、それ
らの話者適応パラメータＰを用いることとし、また、Ｍ
ＡＰ推定法のように話者適応パラメータが直接使用でき
ないような場合には、雑音適応モデルＭc’に話者適応
を行った話者雑音適応モデルを考え、その雑音適応モデ
ルＭc’と雑音適応モデルＭc’の差を話者適応パラメー
タＰとして用いることで、様々な話者適応手法に対応す
ることが可能である。

【００９２】また、ここでは平均ベクトルを適応する場
合を例示したが、共分散行列を適応する場合にも応用可
能である。

【００９３】また、多くの話者適応手法では発話内容
（発話された単語や文が何であったのか）を知る必要が
ある。この場合は、音声認識処理を行う前に話者適応処
理のみを行い、その際、発話すべき内容は予め定めてお
き、定められた内容を話者に提示し、その提示に従って
発話してもらうようにすることで対処する。

【００９４】話者適応では、話者の個人性への適応と共
に発話環境への適応も行われる。

【００９５】背景雑音の無い環境でなされた発話を用い
て、背景雑音の無い環境で収録された音声データベース
を用いて学習された不特定話者モデルである初期音声モ
デルＭcを話者適応する場合は、背景雑音の影響を受け
ないので話者の個人性への適応のみを行う。

【００９６】しかし、話者適応に用いる発話が背景雑音
のある環境下でなされ、これを用いて上述の初期音声モ
デルＭcを話者適応すると、話者の個人性への適応と適
応発話時の背景雑音への適応が同時になされることにな
る。

【００９７】このため、一般には話者適応後の話者適応
モデルを用いて音声認識を行うと、音声認識時の発話環
境が適応発話時と同じ雑音環境であれば高い認識率を得
ることができるが、認識を行う発話環境が適応発話時と
異なる場合必ずしも高い認識率を得られない可能性があ
る。

【００９８】本発明では、かかる問題に対処すべく、話
者適応処理を行う前に上述のように雑音適応部３で雑音
適応を行うことにより、上述初期音声モデルＭcを適応
時の発話音声と同じ背景雑音環境に適応させた雑音適応
モデルＭc’を生成し、そして、話者適応パラメータ算
出部４において、その雑音適応モデルＭc’を用いて話
者適応処理を行い、話者適応パラメータＰを算出する。

【００９９】尚、雑音適応モデルＭc’は話者適応処理
を行う前に、既に適応用発話環境と同じ背景雑音に適応
しているため、話者適応処理により求まる話者適応パラ
メータＰからは背景雑音適応項の影響が軽減され、本来
の目的である話者の個人性への適応項を多く含むものと
なる。

【０１００】この話者適応パラメータＰを用いて、後述
する音声モデル更新部５が初期音声モデルを更新するこ
とで、適応発話時の背景雑音の影響の少ない話者適応モ
デルＭc”を生成する。

【０１０１】音声モデル更新部５は、話者適応モデル記
憶部２に記憶されている初期音声モデルＭcを、話者適
応パラメータ算出部４の出力する話者適応パラメータＰ
を用いて話者適応モデルＭc”に変換する。

【０１０２】なお、上述のＭＬＬＲとＭＡＰ推定法を採
用し、初期音声モデルＭcの分布ｍの平均ベクトルμcm
を更新する場合の音声モデル更新部５の機能を説明する
こととする。

【０１０３】上述のように、話者適応パラメータ算出部
４で話者適応処理としてＭＬＬＲを用い、話者適応パラ
メータＰとして変換行列Ｗm’とオフセットベクトルｂ
m’を用いる場合、話者適応更新後の話者適応モデルＭ
c”の分布ｍの平均ベクトルμcm”は、次式（7）の関係
から求められる。

【０１０４】

【数７】

【０１０５】また、話者適応パラメータ算出部４で話者
適応処理としてＭＡＰ推定法を用い、話者適応パラメー
タＰとして差分ベクトルｄm’を用いる場合、平均ベク
トルμcm”は、次式（8）の関係から求められる。

【０１０６】

【数８】

【０１０７】いずれの場合も、平均ベクトルμcm”は上
述のように、適応発話時の背景雑音の影響が少なく話者
の個人性への適応がなされた平均ベクトルとなる。

【０１０８】そして、上記のように音声モデル更新部５
が話者適応モデル記憶部２に記憶された音声モデルＭc
を、話者適応パラメータ生成部４の出力する話者適応パ
ラメータＰを用いて更新し、その更新した話者適応モデ
ルＭc”を話者適応モデル記憶部２に更新記憶させる。
すなわち、音声認識に際して、話者適応モデルＭc”を
音声モデルＭcとして使用すべく、更新記憶させる。

【０１０９】認識処理部９は、音声認識処理を行うため
に設けられている。すなわち、音声認識の際、雑音適応
部３が、話者適応音声記憶部２に更新記憶されることと
なった話者適応モデルＭc（すなわち、話者適応モデル
Ｍc”）に対して、認識発話雑音環境下での背景雑音の
特徴ベクトル系列Ｎ(n)で雑音適応を施すことにより、
雑音適応を施した話者適応モデルＭreg生成し、その話
者適応モデルＭregを認識処理部９に供給する。

【０１１０】そして、認識処理部９は、その雑音適応さ
れた話者適応モデルＭregを用いて構成した系列と、音
響分析部６側から供給される認識すべき発話音声の特徴
ベクトル系列Ｖ(n)とその認識候補単語や文のモデルと
を照合して、最も大きな尤度となる話者適応モデルＭre
gを用いて構成した系列を認識結果として出力する。

【０１１１】ここで、音声認識時に使用される上記の雑
音適応された話者適応モデルＭregは、上述のように話
者の個人性への適応がなされ、且つ認識発話時の背景雑
音への適応もなされたものとなる。

【０１１２】このため、音声認識時の背景雑音環境と適
応発話時の背景雑音環境が異なっていても、音声認識時
には高い認識性能を得ることが可能である。

【０１１３】次に、図２のフローチャートを参照して本
音声認識装置の動作を説明する。なお、図２は、話者適
応時の動作を示している。

【０１１４】図２において話者適応の処理を開始する
と、まずステップＳ１００において、初期音声モデル記
憶部１に記憶されている初期音声モデルＭcを話者適応
モデル記憶部２に複写した後、雑音適応部３がその初期
音声モデルＭcに雑音適応を施すことにより、雑音適応
モデルＭc’を生成する。

【０１１５】すなわち、話者適応時の非発話期間に収音
される背景雑音の特徴ベクトル系列Ｎ(n)が音響分析部
６から雑音適応部３に供給され、雑音適応部３がその特
徴ベクトル系列Ｎ(n)によって初期音声モデルＭcに雑音
適応を施すことにより、雑音適応モデルＭc’を生成
し、話者適応パラメータ算出部４へ送出する。

【０１１６】次に、ステップＳ１０２において、話者が
発話を開始すると切替スイッチ８が話者適応パラメータ
算出部４側に切り替わり、その発話期間内に、背景雑音
の重畳した発話音声（背景雑音重畳音声）の特徴ベクト
ル系列Ｖ(n)が音声分析部６から話者適応パラメータ算
出部４に供給される。

【０１１７】そして、話者適応パラメータ算出部４がこ
れらの特徴ベクトル系列Ｖ(n)と雑音適応モデルＭc’に
よって、話者適応パラメータＰを生成する。

【０１１８】つまり、既述したＭＬＬＲやＭＡＰ推定法
を適応して話者適応パラメータＰを求める場合には、変
換行列Ｗm’とオフセットベクトルｂm’を話者適応パラ
メータＰとして生成する。

【０１１９】次に、ステップＳ１０４において、音声モ
デル更新部５が、話者適応モデル記憶部２に記憶されて
いる初期音声モデルＭcと話者適応パラメータＰとを用
いて、モデル更新演算を行うことで、話者適応モデルＭ
c”を求める。

【０１２０】次に、ステップＳ１０６において、音声モ
デル更新部５が、話者適応モデル記憶部２に記憶されて
いる初期音声モデルＭcに代えて、話者適応モデルＭc”
を更新記憶させた後、話者適応の処理を終了する。

【０１２１】そして、この話者適応処理の後、認識処理
部９が音声認識の処理を行う際には、話者適応モデル記
憶部２に記憶された話者適応モデルＭc”を更新された
初期音声モデルＭcとして利用することとなり、その更
新された初期音声モデルＭc（別言うすれば、話者適応
モデルＭc”）を雑音適応部３が雑音適応することで、
雑音適応を施した話者適応モデルＭregを生成して音声
認識部９に供給し、更に、音声認識部９がその話者適応
モデルＭregより構成される系列と音響分析部６からの
話者音声の特徴ベクトル系列Ｖ(n)とを照合する。そし
て、最も高い尤度の得られる話者適応モデルＭregより
構成される話者適応系列を認識結果として出力する。

【０１２２】このように本実施形態の音声認識装置によ
れば、話者適応の処理を行う前に雑音適応の処理を行う
ので、その話者適応処理に際して求まる話者適応パラメ
ータに対して、話者適応時の背景雑音の悪影響を低減す
ることができる。

【０１２３】そして、この背景雑音の悪影響が低減され
た話者適応パラメータを用いて話者適応モデルＭc”を
生成するので、話者適応本来の目的すなわち話者適応効
果の高い話者適応モデルＭc”を生成することが可能で
ある。

【０１２４】さらに音声認識時には、更新記憶されてい
る話者適応モデルＭc”を、その認識発話時の背景雑音
で雑音適応して用いる。

【０１２５】このため、話者の個人性と発話時の背景雑
音の双方に適応したモデルを用いて認識を行うことが可
能であり、その結果高い認識性能が得られる。（第２の実施の形態）次に、本発明の第２の実施形態を
図３及び図４を参照して説明する。尚、図３は本実施形
態の音声認識装置の構成を示す図であり、図１と同一又
は相当する部分を同一符号で示している。また、本実施
形態は、音声認識の処理中に話者適応を行う。そこで、
図３中にし示す信号の通過経路を全て矢印付きの実線で
示している。

【０１２６】図３において、本音声認識装置と第１の実
施形態の音声認識装置との差異を述べると、第１の実施
形態の音声認識装置では、話者適応を行った後に音声認
識を行うのに対し、本実施形態の音声認識装置は、音声
認識中に話者適応の処理を同時に行うようになってい
る。

【０１２７】更に、雑音適応部３から出力される雑音適
応モデルＭc’は、話者適応を行うべく話者適応パラメ
ータ算出部４へ送出される他、話者適応モデル記憶部２
の内容が話者適応モデルＭc”で更新されると、その雑
音適応モデルＭc’は、図１に示した雑音適応された話
者適応モデルＭregとして認識処理部９へ送出される。

【０１２８】したがって、図３に示す雑音適応モデルＭ
c’は、雑音適応部３から話者適応パラメータ算出部４
及び認識処理部９へ出力されるが、話者適応パラメータ
算出部４へは話者適応の処理のための雑音適応モデルＭ
c’として、認識処理部９へは音声認識の処理のための
雑音適応された話者適応モデルＭregとして出力され
る。

【０１２９】認識処理部９は、既述した話者適応モデル
Ｍc”を初期音声モデルＭcとして雑音適応部３が雑音適
応モデルＭc’（すなわち、雑音適応された話者適応モ
デルＭreg）から構成される系列と、認識すべき発話音
声の特徴ベクトル系列Ｖ(n)とを照合して、最も大きな
尤度の得られる話者適応モデルＭregから構成される系
列を認識結果として出力する。更に、その尤度から認識
結果と発話音声との類似性を示すスコアデータＳＣＲを
生成して認識結果と共に出力する。

【０１３０】つまり、上記の照合を行った結果、高い尤
度が得られた場合には、音声認識結果の信頼度が高いこ
とを示すスコアデータＳＣＲと上述の認識結果とを出力
し、高い尤度が得られなかった場合には、音声認識結果
の信頼度が低いことを示すスコアデータＳＣＲと上述の
認識結果とを出力して、話者適応パラメータ算出部４に
供給する。

【０１３１】そして、話者適応パラメータ算出部４は、
音声認識結果の信頼度が高いことを示すスコアデータＳ
ＣＲと上述の認識結果とが供給されると、発話音声を正
しく認識したと判断して、その音声認識の対象となって
いる発話音声の特徴ベクトル系列Ｖ(n)と、雑音適応部
３からの雑音適応モデルＭc’とから話者適応用の話者
適応パラメータＰを生成する。

【０１３２】更に音声モデル更新部５が、その話者適応
パラメータＰと、話者適応モデル記憶部２に記憶されて
いる初期音声モデルＭcとを用いて話者適応モデルＭc”
を生成し、その話者適応モデルＭc”を話者適応モデル
記憶部２に供給することで、音声モデルＭcに代えて更
新記憶させる。

【０１３３】したがって、本音声認識装置は、音声認識
の処理をすればするほど、話者適応モデル記憶部２に記
憶されている初期音声モデルＭcの話者の個人性への適
応の度合いを次第に高めていくようになっている。

【０１３４】次に、本音声認識装置の動作を図４に示す
フローチャートを参照して説明する。

【０１３５】図４において音声認識処理を開始すると、
まずステップＳ２００において、雑音適応部３が、話者
適応モデル記憶部２に記憶されている初期音声モデルＭ
cに雑音適応を施すことにより、雑音適応モデルＭc’を
生成する。

【０１３６】すなわち、話者が未だ発話を開始する前の
非発話期間に収音される背景雑音の特徴ベクトル系列Ｎ
(n)が音響分析部６から雑音適応部３に供給され、雑音
適応部３がその背景雑音の特徴ベクトル系列Ｎ(n)によ
って初期音声モデルＭcを雑音適応することにより、雑
音適応モデルＭc’を生成する。

【０１３７】次に、ステップＳ２０２において、話者が
発話を開始すると、切替スイッチ８が認識処理部９側に
切替わり、その発話期間に発話される発話音声の特徴ベ
クトル系列Ｖ(n)が音響分析部６から認識処理部９に供
給されるようになる。

【０１３８】そして、認識処理部９が、雑音適応部３で
生成された雑音適応モデルＭc’を用いて認識候補単語
モデルや認識候補文モデルを生成する。

【０１３９】そして更に認識処理部９は、次のステップ
Ｓ２０４において、認識候補単語モデルや認識候補文モ
デルと特徴ベクトル系列Ｖ(n)とを照合することによ
り、音声認識を行い、認識結果とスコアデータＳＣＲを
出力する。

【０１４０】次にステップＳ２０６において、話者適応
パラメータ算出部４が、スコアデータＳＣＲが高スコア
ーとなっているか判断し、高スコアーでない場合（「Ｎ
Ｏ」の場合）には認識結果の信頼度が低いと判断して後
述のステップＳ２１４に移行し、高スコアーのとき
（「ＹＥＳ」の場合）には、ステップＳ２０８へ移行す
る。

【０１４１】ステップＳ２０８では、話者適応パラメー
タ算出部４は、現在認識対象となっている発話音声の特
徴ベクトル系列Ｖ(n)と雑音適応モデルＭc’と認識結果
によって、話者適応のための話者適応パラメータＰを生
成する。

【０１４２】次に、ステップＳ２１０において、音声モ
デル更新部５が、話者適応モデル記憶部２に記憶されて
いる初期音声モデルＭcと話者適応パラメータＰとを用
いて話者適応処理を行うことで、話者適応モデルＭc”
を求める。

【０１４３】更にステップＳ２１２において、音声モデ
ル更新部５が、生成した話者適応モデルＭc”を話者適
応モデル記憶部２に供給し、音声モデルＭcに置き換え
て更新記憶させた後、処理を終了する。

【０１４４】このように、本実施形態の音声認識装置に
よれば、音声認識と話者適応を同時進行的に行い、話者
の個人性への適応の度合いの高い話者適応モデルＭc”
を生成して、話者適応モデル記憶部２に更新記憶させ
る。

【０１４５】このため、異なった単語や文がたくさん発
話され、それらの発話音声を認識処理部９が累積的に音
声認識していくにしたがって、話者適応モデル記憶部２
に記憶されている初期音声モデルＭcは、話者の個人性
への適応の度合いの高い話者適応モデルＭc”へと更新
されていくことになり、音声認識性能の向上を図ること
が可能となっている。

【０１４６】また、高スコアーが得られた場合に、話者
適応モデルＭc”を生成して初期音声モデルＭcを更新す
るので、発話環境の状態等に応じて適切な話者適応を行
うことができ、音声認識性能を低下させるような不適切
な話者適応を未然に防止し、ひいては音声認識性能の向
上を実現することができる。

【０１４７】また、音声認識と話者適応を同時進行的に
行う本実施形態の音声認識装置においても、既述した第
１の実施形態と同様、話者適応部で話者適応の処理を行
う前に、雑音適応部３で雑音適応の処理が行われるの
で、その話者適応処理に際して求まる話者適応パラメー
タＰに対して、話者適応時の背景雑音の悪影響を低減す
ることができるという優れた効果が得られる。

【０１４８】

【発明の効果】以上説明したように本発明の音声認識装
置及び音声認識方法によれば、初期音声モデルに対し雑
音適応を施すことで雑音適応モデルを生成し、この雑音
適応モデルに対して話者適応演算を施すことで話者適応
パラメータを求め、雑音適応前の初期音声モデルに対し
この話者適応パラメータで話者適応施すことで話者適応
モデルを生成することとしたので、話者適応時の背景雑
音の悪影響を低減し話者適応本来の目的である話者の個
人性への適応効果の高い話者適応モデルを生成すること
ができる。

【０１４９】また、音声認識時に、上記の話者適応した
話者適応モデルに雑音適応を施して雑音適応した話者適
応モデルを生成し、その雑音適応話者適応モデルを用い
て音声認識の処理を行うので、認識発話時の背景雑音と
話者の個人性双方に適応した雑音話者適応モデルを用い
て音声認識を行うことができ、様々な発話雑音環境にお
いて高い認識性能を得ることができる。

【図面の簡単な説明】

【図１】第１の実施形態の音声認識装置の構成を示す図
である。

【図２】第１の実施形態の音声認識装置の動作を示すフ
ローチャートである。

【図３】第２の実施形態の音声認識装置の構成を示す図
である。

【図４】第２の実施形態の音声認識装置の動作を示すフ
ローチャートである。

【符号の説明】

１…初期音声モデル記憶部２…話者適応モデル記憶部３…雑音適応部４…話者適応パラメータ生成部５…音声モデル更新部６…音響分析部７…マイクロフォン８…切替スイッチ９…認識処理部

Claims

【特許請求の範囲】

【請求項１】初期音声モデルを有する記憶手段と、前記記憶手段の初期音声モデルに話者適応時の背景雑音
によって雑音適応を施すことで雑音適応モデルを生成す
る雑音適応手段と、前記雑音適応手段で生成された前記雑音適応モデルに対
し、前記話者適応時に発話された発話音声によって話者
適応演算を行い、前記雑音適応モデルを雑音重畳話者適
応モデルに変換するための話者適応パラメータを算出す
る話者適応パラメータ算出手段と、前記記憶手段の初期音声モデルに前記話者適応パラメー
タで話者適応を施すことにより話者適応モデルを生成
し、当該話者適応モデルを前記初期音声モデルに代えて
前記記憶手段に更新記憶させる音声モデル更新手段と、
を備えることを特徴とする音声認識装置。
【請求項２】音声認識時に音声認識処理を行う認識処
理手段を備え、更に前記雑音適応手段は、前記音声認識時の非発話期間
における背景雑音によって、前記記憶手段に更新記憶さ
れた前記話者適応モデルに対し雑音適応を施すことで雑
音適応を施した話者適応モデルを生成し、当該雑音適応
を施した話者適応モデルを、発話音声を音声認識するた
めの音響モデルとして前記音声認識手段に供給すること
を特徴とする請求項１に記載の音声認識装置。
【請求項３】初期音声モデルを有する記憶手段と、音声認識時の非発話期間における背景雑音により前記記
憶手段の初期音声モデルに雑音適応を施すことで雑音適
応モデルを生成する雑音適応手段と、前記音声認識時の発話期間に発話された音声認識すべき
発話音声と、前記雑音適応手段で生成された前記雑音適
応モデルとを照合して音声認識を行う認識処理手段と、前記雑音適応手段で生成された前記雑音適応モデルに対
し前記音声認識すべき発話音声によって話者適応演算を
行い、前記雑音適応モデルを雑音重畳話者適応モデルに
変換するための話者適応パラメータを算出する話者適応
パラメータ算出手段と、前記記憶手段の初期音声モデル
に前記話者適応パラメータで話者適応を施すことにより
話者適応モデルを生成し、当該話者適応モデルを前記初
期音声モデルに代えて前記記憶手段に更新記憶させる音
声モデル更新手段と、を備えることを特徴とする音声認
識装置。
【請求項４】前記話者適応パラメータ算出手段と音声
モデル更新手段は、前記認識処理手段の認識結果の信頼
度が高い場合に、前記話者適応モデルを生成して前記初
期音声モデルに代えて前記記憶手段に更新記憶させるこ
とを特徴とする請求項３に記載の音声認識装置。
【請求項５】記憶手段に記憶されている初期音声モデ
ルに話者適応時の背景雑音によって雑音適応を施すこと
で雑音適応モデルを生成する雑音適応処理工程と、前記
雑音適応処理工程で生成された前記雑音適応モデルに対
し、前記話者適応時に発話された発話音声によって話者
適応演算を行い、前記雑音適応モデルを雑音重畳話者適
応モデルに変換するための話者適応パラメータを算出す
る話者適応パラメータ算出処理工程と、前記記憶手段の
初期音声モデルに前記話者適応パラメータで話者適応を
施すことにより話者適応モデルを生成し、当該話者適応
モデルを前記初期音声モデルに代えて前記記憶手段に更
新記憶させる音声モデル更新処理工程と、を備えること
を特徴とする音声認識方法。
【請求項６】更に前記雑音適応処理工程では、音声認
識時の非発話期間における背景雑音によって、前記記憶
手段に更新記憶された前記話者適応モデルに対し雑音適
応を施すことで雑音適応を施した話者適応モデルを生成
し、前記雑音適応を施した話者適応モデルと、前記音声
認識時の発話期間における音声認識すべき発話音声とを
照合することにより音声認識を行う音声認識処理工程
と、を備えることを特徴とする請求項５に記載の音声認
識方法。
【請求項７】音声認識時の非発話期間における背景雑
音により、記憶手段に記憶されている初期音声モデルに
雑音適応を施すことで雑音適応モデルを生成する雑音適
応処理工程と、前記音声認識時の発話期間に発話される音声認識すべき
発話音声と、前記雑音適応処理工程で生成された前記雑
音適応モデルとを照合して音声認識を行う認識処理工程
と、前記雑音適応処理工程で生成された前記雑音適応モデル
に対し前記音声認識すべき発話音声によって話者適応演
算を行い、前記雑音適応モデルを雑音重畳話者適応モデ
ルに変換するための話者適応パラメータを算出する話者
適応パラメータ算出処理工程と、前記記憶手段の初期音声モデルに前記話者適応パラメー
タで話者適応を施すことにより話者適応モデルを生成
し、当該話者適応モデルを前記初期音声モデルに代えて
前記記憶手段に更新記憶させる音声モデル更新処理工程
と、を備えることを特徴とする音声認識装置。
【請求項８】前記話者適応パラメータ算出処理工程と
音声モデル更新処理工程は、前記認識処理工程の認識結
果の信頼度が高い場合に、前記話者適応モデルを生成し
て前記初期音声モデルに代えて前記記憶手段に更新記憶
させることを特徴とする請求項７に記載の音声認識方
法。