JP2003330484A - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法

Info

Publication number
JP2003330484A
JP2003330484A JP2002142998A JP2002142998A JP2003330484A JP 2003330484 A JP2003330484 A JP 2003330484A JP 2002142998 A JP2002142998 A JP 2002142998A JP 2002142998 A JP2002142998 A JP 2002142998A JP 2003330484 A JP2003330484 A JP 2003330484A
Authority
JP
Japan
Prior art keywords
model
adaptation
noise
speaker
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002142998A
Other languages
English (en)
Other versions
JP4275353B2 (ja
Inventor
Soichi Toyama
聡一 外山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Electronic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Electronic Corp filed Critical Pioneer Electronic Corp
Priority to JP2002142998A priority Critical patent/JP4275353B2/ja
Priority to CN03122309.5A priority patent/CN1453767A/zh
Priority to EP03009344A priority patent/EP1357541A3/en
Priority to US10/422,969 priority patent/US20030220791A1/en
Publication of JP2003330484A publication Critical patent/JP2003330484A/ja
Application granted granted Critical
Publication of JP4275353B2 publication Critical patent/JP4275353B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 背景雑音の影響に対してロバストな話者適応
を可能にする。 【解決手段】 話者適応モデル記憶部2に初期音声モデ
ルMcを記憶させておき、雑音適応部3が話者適応モデ
ル記憶部2に予め記憶されている初期音声モデルMcに
対し雑音適応を施すことで雑音適応モデルMc’を生成
する。そして、話者適応パラメータ算出部4がその雑音
適応モデルMc’と話者音声の特徴ベクトル系列V(n)と
によって話者適応パラメータPを生成し、音声モデル更
新部5が話者適応パラメータPを用いて初期音声モデル
Mcに話者適応処理を施して話者適応モデルMc”を生成
する。そして、初期音声モデルMcを話者適応モデルM
c”で置き換えて話者適応モデル記憶部2に更新記憶さ
せる。音声認識の際は、雑音適応部3が、更新記憶され
た話者適応モデルMc”を初期音声モデルMcに代えて雑
音適応することで雑音適応した話者適応モデルMregを
生成し、音声認識部9がその雑音話者適応モデルMreg
から構成される系列と認識すべき発話音声の特徴ベクト
ル系列V(n)とを照合することで音声認識を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えば話者適応を
施した音声モデルを用いて音声認識を行う音声認識装置
及び音声認識方法に関するものである。
【0002】
【従来の技術】音声認識技術の分野では、大量の音声デ
ータベースから学習した不特定話者音声モデルを使用し
て音声認識が行われている。
【0003】しかし、この不特定話者音声モデルは、不
特定多数の発話音声データに基づいて学習されたもので
あるため、標準的な発話を行う話者の発話音声を音声認
識する場合には比較的高い認識性能が得られるものの、
発話に特徴のある話者の発話音声を認識する場合は、必
ずしも高い認識性能が得られるとは限らないという課題
があった。
【0004】そのため、個々の話者の発話音声によって
不特定話者音声モデルを話者適応し、その話者適応した
音響モデルを用いることにより、話者個々人に対して適
切な音声認識を行おうとする話者適応法が開発された。
【0005】従来の話者適応法では、大量の音声データ
ベースを用いて音素等サブワード単位の不特定話者音声
モデル(以下「初期音声モデル」という)を生成してお
き、実際の音声認識を開始する前の前処理段階で、初期
音声モデルに対して話者適応を施す。つまり、前処理段
階の際に話者に発話をしてもらい、発話音声の特徴ベク
トル系列に基づいて初期音声モデルを話者適応すること
により、話者の個人差を考慮した話者適応モデルを生成
する。
【0006】そして、実際の音声認識に際して、その話
者が発した認識すべき発話音声の特徴ベクトル系列と既
述の話者適応モデルから構成される系列とを照合し、最
も高い尤度の得られる話者適応モデル系列を音声認識結
果としている。
【0007】
【発明が解決しようとする課題】ところが、初期音声モ
デルに対して話者適応を行う際、話者の発話音声に発話
環境下での背景雑音が重畳することとなる。
【0008】このため、従来の話者適応法では、発話音
声のみならず背景雑音の重畳した発話音声(すなわち、
背景雑音重畳発話音声)の特徴ベクトル系列によって話
者適応することとなり、精度の良い話者適応モデルを生
成することが困難となる場合があった。
【0009】特に、雑音の多い環境下での発話音声を用
いて話者適応を行うことになると、背景雑音の影響を大
きく受けてしまい、話者の特徴を適切に反映した話者適
応モデルを生成することが困難となる場合があった。
【0010】そして、実際に、従来の話者適応法で話者
適応を施した上記話者適応モデルで音声認識を行うと、
その認識時の環境下での背景雑音と、既述した話者適応
時の背景雑音とが異なるような場合に、話者適応を行っ
たことによる効果すなわち音声認識率向上の効果を必ず
しも十分に得られないという問題があった。
【0011】本発明は、上記従来の問題点に鑑みてなさ
れたものであり、背景雑音の影響に対してロバストな話
者適応を行う音声認識装置及び音声認識方法を提供する
ことを目的とする。
【0012】
【課題を解決するための手段】上記目的を達成するため
請求項1に係る音声認識装置の発明は、初期音声モデル
を有する記憶手段と、上記記憶手段の初期音声モデルに
話者適応時の背景雑音によって雑音適応を施すことで雑
音適応モデルを生成する雑音適応手段と、上記雑音適応
手段で生成された上記雑音適応モデルに対し、上記話者
適応時に発話された発話音声によって話者適応演算を行
い、上記雑音適応モデルを雑音重畳話者適応モデルに変
換するための話者適応パラメータを算出する話者適応パ
ラメータ算出手段と、 上記記憶手段の初期音声モデル
に上記話者適応パラメータで話者適応を施すことにより
話者適応モデルを生成し、当該話者適応モデルを上記初
期音声モデルに代えて上記記憶手段に更新記憶させる音
声モデル更新手段とを備えることを特徴とする。
【0013】請求項2に係る音声認識装置の発明は、請
求項1に係る音声認識装置の発明において、音声認識時
に音声認識処理を行う認識処理手段を備え、更に上記雑
音適応手段は、上記音声認識時の非発話期間における背
景雑音によって、上記記憶手段に更新記憶された上記話
者適応モデルに対し雑音適応を施すことで雑音適応を施
した話者適応モデルを生成し、当該雑音適応を施した話
者適応モデルを、発話音声を音声認識するための音響モ
デルとして上記音声認識手段に供給することを特徴とす
る。
【0014】請求項3に係る音声認識装置の発明は、初
期音声モデルを有する記憶手段と、音声認識時の非発話
期間における背景雑音により上記記憶手段の初期音声モ
デルに雑音適応を施すことで雑音適応モデルを生成する
雑音適応手段と、上記音声認識時の発話期間に発話され
た音声認識すべき発話音声と、上記雑音適応手段で生成
された上記雑音適応モデルとを照合して音声認識を行う
認識処理手段と、上記雑音適応手段で生成された上記雑
音適応モデルに対し上記音声認識すべき発話音声によっ
て話者適応演算を行い、上記雑音適応モデルを雑音重畳
話者適応モデルに変換するための話者適応パラメータを
算出する話者適応パラメータ算出手段と、 上記記憶手
段の初期音声モデルに上記話者適応パラメータで話者適
応を施すことにより話者適応モデルを生成し、当該話者
適応モデルを上記初期音声モデルに代えて上記記憶手段
に更新記憶させる音声モデル更新手段とを備えることを
特徴とする。
【0015】請求項4に係る音声認識装置の発明は、請
求項3に係る音声認識装置の発明において、上記話者適
応パラメータ算出手段と音声モデル更新手段は、上記認
識処理手段の認識結果の信頼度が高い場合に、上記話者
適応モデルを生成して上記初期音声モデルに代えて上記
記憶手段に更新記憶させることを特徴とする。
【0016】請求項5に係る音声認識方法の発明は、記
憶手段に記憶されている初期音声モデルに話者適応時の
背景雑音によって雑音適応を施すことで雑音適応モデル
を生成する雑音適応処理工程と、上記雑音適応処理工程
で生成された上記雑音適応モデルに対し、上記話者適応
時に発話された発話音声によって話者適応演算を行い、
上記雑音適応モデルを雑音重畳話者適応モデルに変換す
るための話者適応パラメータを算出する話者適応パラメ
ータ算出処理工程と、上記記憶手段の初期音声モデルに
上記話者適応パラメータで話者適応を施すことにより話
者適応モデルを生成し、当該話者適応モデルを上記初期
音声モデルに代えて上記記憶手段に更新記憶させる音声
モデル更新処理工程とを備えることを特徴とする。
【0017】請求項6に係る音声認識方法の発明は、請
求項5に係る音声認識方法の発明において、更に上記雑
音適応処理工程では、音声認識時の非発話期間における
背景雑音によって、上記記憶手段に更新記憶された上記
話者適応モデルに対し雑音適応を施すことで雑音適応を
施した話者適応モデルを生成し、上記雑音適応を施した
話者適応モデルと、上記音声認識時の発話期間における
音声認識すべき発話音声とを照合することにより音声認
識を行う音声認識処理工程とを備えることを特徴とす
る。
【0018】請求項7に係る音声認識方法の発明は、音
声認識時の非発話期間における背景雑音により、記憶手
段に記憶されている初期音声モデルに雑音適応を施すこ
とで雑音適応モデルを生成する雑音適応処理工程と、上
記音声認識時の発話期間に発話される音声認識すべき発
話音声と、上記雑音適応処理工程で生成された上記雑音
適応モデルとを照合して音声認識を行う認識処理工程
と、上記雑音適応処理工程で生成された上記雑音適応モ
デルに対し上記音声認識すべき発話音声によって話者適
応演算を行い、上記雑音適応モデルを雑音重畳話者適応
モデルに変換するための話者適応パラメータを算出する
話者適応パラメータ算出処理工程と、上記記憶手段の初
期音声モデルに上記話者適応パラメータで話者適応を施
すことにより話者適応モデルを生成し、当該話者適応モ
デルを上記初期音声モデルに代えて上記記憶手段に更新
記憶させる音声モデル更新処理工程とを備えることを特
徴とする。
【0019】請求項8に係る音声認識方法の発明は、請
求項7に係る音声認識方法の発明において、上記話者適
応パラメータ算出処理工程と音声モデル更新処理工程
は、上記認識処理工程の認識結果の信頼度が高い場合
に、上記話者適応モデルを生成して上記初期音声モデル
に代えて上記記憶手段に更新記憶させることを特徴とす
る。
【0020】請求項1に係る音声認識装置と請求項5に
係る音声認識方法の発明によれば、話者適応に際して、
初期音声モデルに対して雑音適応を施し、その雑音適応
で得られる雑音適応モデルに対して話者適応演算を行
い、更に雑音適応モデルを雑音重畳話者適応モデルに変
換するための話者適応パラメータを算出して、初期音声
モデルに対しその話者適応パラメータで話者適応を施す
ことにより、音声認識に際して利用する話者適応モデル
を生成し、初期音声モデルをその話者適応モデルで更新
する。
【0021】これにより、話者適応時の背景雑音の悪影
響を低減し、話者適応の本来の目的である話者の個人性
への適応効果の高い話者適応モデルの生成を実現する。
【0022】請求項2に係る音声認識装置と請求項6に
係る音声認識方法の発明によれば、話者適応が行われた
後の音声認識の際、その音声認識時の非発話期間におけ
る背景雑音によって、更新記憶された話者適応モデルに
対し雑音適応を施す。これにより、雑音適応を施した話
者適応モデルを生成する。そして、雑音適応を施した話
者適応モデルと音声認識時の発話期間における音声認識
すべき発話音声とを照合することにより音声認識を行
う。
【0023】請求項3に係る音声認識装置と請求項7に
係る音声認識方法の発明によれば、音声認識時に話者適
応も行う。
【0024】すなわち、音声認識時の非発話期間におけ
る背景雑音により初期音声モデルに雑音適応を施すこと
で雑音適応モデルを生成し、その音声認識時の発話期間
に発話される音声認識すべき発話音声と雑音適応モデル
とを照合して音声認識を行う。更に雑音適応モデルに対
して、音声認識すべき発話音声によって話者適応演算を
行い、雑音適応モデルを雑音重畳話者適応モデルに変換
するための話者適応パラメータを算出する。そして、初
期音声モデルに話者適応パラメータで話者適応を施すこ
とにより話者適応モデルを生成し、生成した話者適応モ
デルを初期音声モデルに代えて更新する。
【0025】この結果、多くの発話音声を音声認識して
いくにしたがって、初期音声モデルを、話者の個人性へ
の適応の度合いの高い話者適応モデルへと更新していく
ことになり、音声認識性能の向上を実現する。
【0026】請求項4に係る音声認識装置と請求項8に
係る音声認識方法の発明によれば、音声認識の結果が信
頼度の高い場合に、話者適応モデルを生成して初期音声
モデルを更新することにより、発話環境の状態等に応じ
て適切な話者適応を実現する。
【0027】なお、初期音声モデルとは、話者適応を施
す前の上記記憶手段に記憶されている音声モデルを指
す。本発明では、話者適応によって生成された話者適応
モデルで、記憶手段に記憶されている初期音声モデルを
更新するが、この更新された話者適応音声モデルは、初
期音声モデルとして扱われる。つまり、記憶手段には最
初、初期音声モデルが記憶されているが、話者適応モデ
ルで更新された後は、その更新された話者適応モデルを
初期音声モデルとみなして扱うという処理が繰り返され
る。
【0028】
【発明の実施の形態】以下、本発明の好適な実施の形態
を図面を参照して説明する。
【0029】(第1の実施の形態)本発明の第1の実施
の形態を図1及び図2を参照して説明する。図1は、本
実施形態の音声認識装置の構成を示すブロック図であ
る。
【0030】なお、好適な一実施形態として、初期設定
で話者適応を行い、認識時には初期設定された音声モデ
ルを用いて行う実施形態を説明する。
【0031】図1において、本音声認識装置はHMM
(隠れマルコフモデル)を用いて音声認識を行う構成と
なっており、予め雑音のない環境で収録された音声デー
タベースを用いて学習された不特定話者音声モデルであ
る初期音声モデルMcが記憶された初期音声モデル記憶
部1と、後述の話者適応演算処理で生成される話者適応
モデルMc”を更新記憶するための話者適応モデル記憶
部2と、雑音適応部3と、話者適応パラメータ算出部4
及び音声モデル更新部5を有する話者適応部と、を備え
て構成されている。
【0032】更に、マイクロフォン7で収音された収音
信号v(t)を所定のフレーム期間毎にケプストラム係数
ベクトルに変換し、ケプストラム領域の特徴ベクトル系
列V(n)を生成する音響分析部6と、切替スイッチ8及
び認識処理部9が備えられている。
【0033】尚、同図中、矢印付きの破線と矢印付きの
実線とによって、信号の通る経路を模式的に示している
が、矢印付きの破線は、話者適応時にのみ通る信号の流
れ、一方、矢印付きの実線は、音声認識時にのみ通る信
号の流れ、又は音声認識時及び話者適応時の際の信号の
流れを表している。
【0034】ここで、音響分析部6は、マイクロフォン
7が収音することで生じる時間軸上の収音信号v(t)を
所定のフレーム時間毎にケプストラム係数ベクトルに変
換することにより、ケプストラム領域の特徴ベクトル系
列V(n)を生成して出力する。なお、符号V(n)中の変数
nはフレーム番号を示している。
【0035】切替スイッチ8は、後述する話者適応の処
理に際して、話者が未だ発話を開始していない非発話期
間内に雑音適応部3側に切り替わり、音声分析部6で生
成される特徴ベクトル系列V(n)を雑音適応部3へ送出
する。
【0036】これは、発話者あるいは装置から処理開始
の指示がなされた直後の数十ミリ秒ないし数秒の間は音
声が発話されていない区間とみなして、切替スイッチ8
を雑音適応部3側へ切り替え、その後は、切替スイッチ
8を話者適応算出部4あるいは認識処理部9側へ切替え
制御することで実現可能となっている。
【0037】あるいは、マイクロフォン7からの収音信
号v(t)を所定の監視制御手段(図示省略)で逐次監視
し、収音信号v(t)に発話者の音声がないと判断したと
きには、切替スイッチ8を雑音適応部3側へ切り替え、
発話者の音声が有ると判断すると、話者適応算出部4あ
るいは認識処理部9側へ切替え制御するようにしてもよ
い。要は、収音信号v(t)に発話者の音声が含まれてい
る区間であるか否かに応じて、切替スイッチ8を上述の
如く切り替える。
【0038】また、その話者適応処理の際、話者が発話
を開始すると、その発話期間内に話者適応パラメータ算
出部4側に切り替わり、音声分析部6で生成される特徴
ベクトル系列V(n)を話者適応パラメータ算出部4へ送
出する。
【0039】また、話者適応処理が完了した後、音声認
識処理が開始された場合も切替スイッチ8は同様の動作
を行うが、前述のように、信号は矢印付きの破線で示す
経路を通らず、矢印付きの実線で示す経路を通ることと
なる。
【0040】話者が発話を開始する前の背景雑音のみが
収音される期間では、切替スイッチ8は雑音適応部3側
に切り替わり、背景雑音の特徴ベクトルN(n)を雑音適
応部3へ送出する。
【0041】マイクロフォン7が発話音声を収音する発
話期間になると、切替スイッチ8は、話者適応処理時に
は話者適応パラメータ算出部4側に、認識処理時には、
認識処理部9側に切り替わり、その発話期間における特
徴ベクトル系列V(n)を話者適応パラメータ算出部4あ
るいは認識処理部9へ送出する。
【0042】初期音声モデル記憶部1は、読出し専用の
半導体メモリ(ROM)や、着脱自在に設けられたスマ
ートメディアやコンパクトフラッシュ(登録商標)メモ
リ等で形成された所謂データベースであり、予め、標準
的な話者の音声を学習することによって生成された音素
等サブワード単位の初期音声モデルMcが記憶されてい
る。
【0043】話者適応モデル記憶部2は、再記憶が可能
な非破壊形の半導体メモリ等で形成されており、後述の
話者適応の処理に際して、まず、初期音声モデル記憶部
1に記憶されている初期音声モデルMcを複写して記憶
する。
【0044】そして後述する如く、話者適応パラメータ
算出部4と音声モデル更新部5によってHMMは話者適
応され、話者適応モデルMc”にて更新されることか
ら、初期音声モデルMcを話者適応モデルMc”に置き換
えて(更新して)記憶するようになっている。
【0045】雑音適応部3は、話者適応の処理に際し
て、話者適応モデル記憶部2に記憶されている音素等サ
ブワード単位での全ての初期音声モデルMcに雑音適応
を施すことにより、全ての初期音声モデルMcに対応し
た雑音適応モデルMc’を生成し、同図中の矢印付き点
線の経路を通じて、話者適応パラメータ算出部4へ送出
する。
【0046】また雑音適応部3は、音声認識時におい
て、上記話者適応の処理により話者適応モデル記憶部2
に更新記憶されることとなった音声モデル(すなわち、
話者適応モデルMc”)に対して雑音適応を施し、その
雑音適応した話者適応モデルMregを、同図中の矢印付
き実線で示す経路を通じて認識処理部9へ送出する。
【0047】すなわち、前者の話者適応処理の際には、
話者適応時に話者が未だ発話していない非発話期間に、
その発話環境で生じる背景雑音をマイクロフォン7が収
音すると、音響分析部6がその収音信号v(t)より所定
フレーム期間毎の特徴ベクトル系列V(n)を生成し、更
に切替スイッチ8が雑音適応部3側に切り替わること
で、その特徴ベクトル系列V(n)を背景雑音の特徴ベク
トル系列N(n)として雑音適応部3へ送出する。
【0048】そして、雑音適応部3は、その背景雑音特
徴ベクトル系列N(n)を用いて、全ての初期音声モデル
Mcから、HMM合成手法やヤコビ適応手法等の雑音適
応処理により、雑音適応モデルMc’を生成し、話者適
応パラメータ算出部4へ送出する。
【0049】また、後者の音声認識処理の際には、音声
認識時に話者が未だ発話していない非発話期間に、その
発話環境で生じる背景雑音をマイクロフォン7が収音
し、音響分析部6がその収音信号v(t)より所定フレー
ム期間毎の特徴ベクトル系列V(n)を生成し、更に切替
スイッチ8が雑音適応部3側に切り替わることで、その
特徴ベクトル系列V(n)を背景雑音の特徴ベクトル系列
N(n)として雑音適応部3へ送出する。
【0050】そして、雑音適応部3は、その背景雑音特
徴ベクトル系列N(n)を用いて、更新記憶されることと
なった音声モデル(すなわち、話者適応モデルMc”)
に対して雑音適応を施し、雑音適応した話者適応モデル
Mregを認識処理部9へ送出する。
【0051】ここで、雑音適応部3が話者適応時にHM
M合成法を用いて、音声認識率に大きく影響を与える話
者適応モデルMc”の各分布の平均ベクトルμcを雑音適
応する場合を説明する。
【0052】まず、雑音適応部3は、背景雑音の特徴ベ
クトル系列N(n)より、背景雑音モデルNbを求める。
【0053】ここで説明の便宜上、背景雑音は定常と仮
定し、背景雑音モデルNbは1状態1混合モデルとし、
更に背景雑音モデルNbの平均ベクトルをμNとして説明
すると、平均ベクトルμNは背景雑音の特徴ベクトル系
列N(n)をフレーム数で平均することで求める。
【0054】更に、初期音声モデルMcの分布mの平均
ベクトルμcmと背景雑音モデルNbの平均ベクトルμNを
合成することで、次式(1)で表される、合成後の雑音
適応した分布mの平均ベクトルμcm’を求める。
【0055】
【数1】
【0056】ここで、IDCT〔 〕は逆離散コサイン
変換、log〔 〕は対数変換、exp〔 〕は指数変
換、DCT〔 〕は離散コサイン変換、kはSN比より
求まる混合比である。
【0057】これを初期音声モデルMcの全ての分布に
対して求める。これにより、初期音声モデルMcに話者
適応時の発話環境下での背景雑音を重畳させた形の雑音
適応モデルMc’を求め、話者適応パラメータ算出部4
へ送出する。
【0058】なお、ここでは、雑音モデルを1状態1混
合としたが、2状態以上あるいは2混合以上の場合は、
初期音声モデルMcの1つの分布に対し、対応する雑音
適応モデルMc’の分布が複数求まることになる。ま
た、共分散行列を考慮する場合も雑音適応モデルMc’
を求めることが可能である。
【0059】また、雑音適応手法としてHMM合成法を
用いる場合を説明したが、本発明では、ヤコビ適応手法
その他の、初期音声モデルMcに発話時の背景雑音を重
畳した状態の雑音適応モデルMc’を求める雑音適応手
法を用いることも可能である。
【0060】話者適応パラメータ算出部4は、話者適応
処理に際して、雑音適応部3からの雑音適応モデルM
c’と、音響分析部6から切替スイッチ8を介して供給
される発話音声の特徴ベクトル系列V(n)とを入力し、
発話音声の特徴を有する話者適応パラメータPを生成し
て出力する。
【0061】より具体的に述べると、話者適応処理に際
して話者が発話を開始すると、その発話期間に切替スイ
ッチ8が話者適応パラメータ算出部4側に切り替わり、
背景雑音の重畳した発話音声の特徴ベクトル系列V(n)
が音声分析部6から切替スイッチ8を介して話者適応パ
ラメータ算出部4に供給される。
【0062】こうして背景雑音の重畳した音声(背景雑
音重畳音声)の特徴ベクトル系列V(n)とそれと同じ背
景雑音で雑音適応された雑音適応モデルMc’が供給さ
れると、話者適応パラメータ算出部4は、それらの特徴
ベクトル系列V(n)と雑音適応モデルMc’を用いて話者
適応演算処理を行い、雑音適応モデルMc’を話者適応
するための話者適応パラメータPを生成する。
【0063】ここでは話者適応演算処理としてMLLR
(Maxmum Likelihood Linear Regression)を用いて、
認識率に大きく影響する話者適応モデルMcの各分布の
平均ベクトルを更新する場合を説明する。
【0064】発話内容が既知の発話音声の特徴ベクトル
系列V(n)と雑音適応モデルMc’とを用いてMLLR処
理を行い、雑音適応モデルMc’の分布mの平均ベクト
ルμcm’を話者適応するための話者適応パラメータPと
して、変換行列Wm’とオフセットベクトルbm’を求め
る。
【0065】ここで、変換行列Wm’とオフセットベク
トルbm’は複数の分布で共有させるので、いくつかの
分布では同じ値の変換行列Wm’とオフセットベクトル
bm’を使用する。
【0066】また、変換行列Wm’とオフセットベクト
ルbm’を共有させる分布の選択は、全平均ベクトルを
クラスタリングすることにより、雑音適応前の分布を元
に予め計算しておく。
【0067】また、全ての分布で変換行列Wm’とオフ
セットベクトルbm’を共有する場合は、全分布に共通
の1種類の変換行列Wm’とオフセットベクトルbm’を
求める。
【0068】また、上述した雑音適応3で用いた雑音モ
デルが1状態1混合でない場合は、雑音適応モデルM
c’の複数分布が初期音声モデルMcの1つの分布に対応
することになるが、この場合は初期音声モデルMcの1
つの分布に対応する全ての雑音適応モデルMc’で、変
換行列Wm’とオフセットベクトルbm’を共有する。
【0069】なお、MLLRでは、一般に数発話分の発
話音声データを用いて計算を行うが、話者適応パラメー
タPの分布間の共有情報を全発話で共通に用い、発話音
声データに対応する音響モデルは発話毎に雑音適応され
た雑音適応モデルMc’を用いて計算する。
【0070】このように、話者適応手法としてMLLR
を用いる場合、話者適応パラメータ算出部4では、発話
内容が既知の発話音声の特徴ベクトル系列V(n)を用い
て、音響モデルMc’の各分布の平均ベクトルを更新す
るための話者適応パラメータPとして、変換行列Wm’
とオフセットベクトルbm’を求める。
【0071】なお、上述したように、MLLRで変換行
列Wm’とオフセットベクトルbm’を算出する場合を述
べたが、MAP(Maxmum A Posteriori)推定法を適用
することも可能である。
【0072】このMAP推定法を採用して、平均ベクト
ルμcm’を適応するためのパラメータPを求めるには、
雑音適応モデルMc’の平均ベクトルをMAP推定法に
より話者適応させ、そこから話者適応パラメータ算出部
4で、目的の話者適応パラメータPに変換する。
【0073】このMAP推定法では、発話内容既知の発
話音声の特徴ベクトル系列V(n)の各フレームの特徴ベ
クトルと、雑音適応モデルMc’の各分布との対応関係
をビタビ整合等により算出する。
【0074】そして、雑音適応モデルMc’の分布mに
対応するフレームの特徴ベクトルを集め、それをフレー
ム数で平均することで平均特徴ベクトルVm~を求める。
【0075】このときの、分布mに対応するフレームの
特徴ベクトルのフレーム数(個数)をnm、分布mの重
み係数をτm’、分布mの平均ベクトルμcm’を話者適
応した更新平均ベクトルをμcm’^とすると、その更新
平均ベクトルμcm’^を次式(2)で表される関係に従っ
て算出する
【0076】
【数2】
【0077】また、重み係数τm’も次式(3)で表される
関係に従って、発話毎に更新する。
【0078】
【数3】
【0079】そして、更新平均ベクトルμcm’^で平均
ベクトルμcm’を置き換え、更に重み係数もτm’^で
τm’を置き換えることで、発話がなされる度に平均ベ
クトルμcm’と重み係数τm’を夫々更新平均ベクトル
μcm’^と重み係数τm’^で順次に更新していく。
【0080】ここで、話者適応パラメータPを話者適応
後のモデルと話者適応前のモデルとの差ベクトルと考え
ると、分布mの話者適応パラメータPである差ベクトル
dm’は、次式(4)で表される。
【0081】
【数4】
【0082】この式(4)によると、更新平均ベクトルμc
m’^を算出することなく差ベクトルdm’を求めること
ができる。
【0083】そして、差ベクトルdm’を後述の音声モ
デル更新部5に転送し、重み係数τm’は上記式(3)によ
り更新し、話者適応パラメータ算出部4に保持してお
く。なお、重み係数τm’の初期値は任意の値に選ぶこ
とができる。
【0084】また、上述した雑音適応3で用いた雑音適
応モデルMc’が1状態1混合でない場合は、雑音適応
モデルMc’の複数分布が初期音声モデルMcの1つの分
布に対応することになる。
【0085】例えば初期音声モデルMcの分布mが雑音
適応モデルMc’の分布m1,m2,……,mkに対応した
とする。そして雑音適応モデルの分布m1に対応する、
上記式(4)より求まる話者適応パラメータをdm1’、重
み係数をτm1’とすると、初期音声モデルMcの分布m
を更新するための話者適応パラメータdm’を、次式(5)
で表される加算平均処理にて求める。
【0086】
【数5】
【0087】また、上記式(5)に重み係数τm1’で重み
付けした次式(6)で表される演算によって、k個のパラ
メータを統合して話者適応パラメータdm’を算出して
もよい。
【0088】
【数6】
【0089】以上、話者適応手法としてMLLRとMA
P推定法を用いる場合の話者適応パラメータ算出部4の
動作を説明した。
【0090】なお、話者適応手法として、他の手法を講
じることもできる。
【0091】MLLRの変換行列Wm’とオフセットベ
クトルbm’のように、話者適応処理により話者適応パ
ラメータPが求まる話者適応手法を用いる場合は、それ
らの話者適応パラメータPを用いることとし、また、M
AP推定法のように話者適応パラメータが直接使用でき
ないような場合には、雑音適応モデルMc’に話者適応
を行った話者雑音適応モデルを考え、その雑音適応モデ
ルMc’と雑音適応モデルMc’の差を話者適応パラメー
タPとして用いることで、様々な話者適応手法に対応す
ることが可能である。
【0092】また、ここでは平均ベクトルを適応する場
合を例示したが、共分散行列を適応する場合にも応用可
能である。
【0093】また、多くの話者適応手法では発話内容
(発話された単語や文が何であったのか)を知る必要が
ある。この場合は、音声認識処理を行う前に話者適応処
理のみを行い、その際、発話すべき内容は予め定めてお
き、定められた内容を話者に提示し、その提示に従って
発話してもらうようにすることで対処する。
【0094】話者適応では、話者の個人性への適応と共
に発話環境への適応も行われる。
【0095】背景雑音の無い環境でなされた発話を用い
て、背景雑音の無い環境で収録された音声データベース
を用いて学習された不特定話者モデルである初期音声モ
デルMcを話者適応する場合は、背景雑音の影響を受け
ないので話者の個人性への適応のみを行う。
【0096】しかし、話者適応に用いる発話が背景雑音
のある環境下でなされ、これを用いて上述の初期音声モ
デルMcを話者適応すると、話者の個人性への適応と適
応発話時の背景雑音への適応が同時になされることにな
る。
【0097】このため、一般には話者適応後の話者適応
モデルを用いて音声認識を行うと、音声認識時の発話環
境が適応発話時と同じ雑音環境であれば高い認識率を得
ることができるが、認識を行う発話環境が適応発話時と
異なる場合必ずしも高い認識率を得られない可能性があ
る。
【0098】本発明では、かかる問題に対処すべく、話
者適応処理を行う前に上述のように雑音適応部3で雑音
適応を行うことにより、上述初期音声モデルMcを適応
時の発話音声と同じ背景雑音環境に適応させた雑音適応
モデルMc’を生成し、そして、話者適応パラメータ算
出部4において、その雑音適応モデルMc’を用いて話
者適応処理を行い、話者適応パラメータPを算出する。
【0099】尚、雑音適応モデルMc’は話者適応処理
を行う前に、既に適応用発話環境と同じ背景雑音に適応
しているため、話者適応処理により求まる話者適応パラ
メータPからは背景雑音適応項の影響が軽減され、本来
の目的である話者の個人性への適応項を多く含むものと
なる。
【0100】この話者適応パラメータPを用いて、後述
する音声モデル更新部5が初期音声モデルを更新するこ
とで、適応発話時の背景雑音の影響の少ない話者適応モ
デルMc”を生成する。
【0101】音声モデル更新部5は、話者適応モデル記
憶部2に記憶されている初期音声モデルMcを、話者適
応パラメータ算出部4の出力する話者適応パラメータP
を用いて話者適応モデルMc”に変換する。
【0102】なお、上述のMLLRとMAP推定法を採
用し、初期音声モデルMcの分布mの平均ベクトルμcm
を更新する場合の音声モデル更新部5の機能を説明する
こととする。
【0103】上述のように、話者適応パラメータ算出部
4で話者適応処理としてMLLRを用い、話者適応パラ
メータPとして変換行列Wm’とオフセットベクトルb
m’を用いる場合、話者適応更新後の話者適応モデルM
c”の分布mの平均ベクトルμcm”は、次式(7)の関係
から求められる。
【0104】
【数7】
【0105】また、話者適応パラメータ算出部4で話者
適応処理としてMAP推定法を用い、話者適応パラメー
タPとして差分ベクトルdm’を用いる場合、平均ベク
トルμcm”は、次式(8)の関係から求められる。
【0106】
【数8】
【0107】いずれの場合も、平均ベクトルμcm”は上
述のように、適応発話時の背景雑音の影響が少なく話者
の個人性への適応がなされた平均ベクトルとなる。
【0108】そして、上記のように音声モデル更新部5
が話者適応モデル記憶部2に記憶された音声モデルMc
を、話者適応パラメータ生成部4の出力する話者適応パ
ラメータPを用いて更新し、その更新した話者適応モデ
ルMc”を話者適応モデル記憶部2に更新記憶させる。
すなわち、音声認識に際して、話者適応モデルMc”を
音声モデルMcとして使用すべく、更新記憶させる。
【0109】認識処理部9は、音声認識処理を行うため
に設けられている。すなわち、音声認識の際、雑音適応
部3が、話者適応音声記憶部2に更新記憶されることと
なった話者適応モデルMc(すなわち、話者適応モデル
Mc”)に対して、認識発話雑音環境下での背景雑音の
特徴ベクトル系列N(n)で雑音適応を施すことにより、
雑音適応を施した話者適応モデルMreg生成し、その話
者適応モデルMregを認識処理部9に供給する。
【0110】そして、認識処理部9は、その雑音適応さ
れた話者適応モデルMregを用いて構成した系列と、音
響分析部6側から供給される認識すべき発話音声の特徴
ベクトル系列V(n)とその認識候補単語や文のモデルと
を照合して、最も大きな尤度となる話者適応モデルMre
gを用いて構成した系列を認識結果として出力する。
【0111】ここで、音声認識時に使用される上記の雑
音適応された話者適応モデルMregは、上述のように話
者の個人性への適応がなされ、且つ認識発話時の背景雑
音への適応もなされたものとなる。
【0112】このため、音声認識時の背景雑音環境と適
応発話時の背景雑音環境が異なっていても、音声認識時
には高い認識性能を得ることが可能である。
【0113】次に、図2のフローチャートを参照して本
音声認識装置の動作を説明する。なお、図2は、話者適
応時の動作を示している。
【0114】図2において話者適応の処理を開始する
と、まずステップS100において、初期音声モデル記
憶部1に記憶されている初期音声モデルMcを話者適応
モデル記憶部2に複写した後、雑音適応部3がその初期
音声モデルMcに雑音適応を施すことにより、雑音適応
モデルMc’を生成する。
【0115】すなわち、話者適応時の非発話期間に収音
される背景雑音の特徴ベクトル系列N(n)が音響分析部
6から雑音適応部3に供給され、雑音適応部3がその特
徴ベクトル系列N(n)によって初期音声モデルMcに雑音
適応を施すことにより、雑音適応モデルMc’を生成
し、話者適応パラメータ算出部4へ送出する。
【0116】次に、ステップS102において、話者が
発話を開始すると切替スイッチ8が話者適応パラメータ
算出部4側に切り替わり、その発話期間内に、背景雑音
の重畳した発話音声(背景雑音重畳音声)の特徴ベクト
ル系列V(n)が音声分析部6から話者適応パラメータ算
出部4に供給される。
【0117】そして、話者適応パラメータ算出部4がこ
れらの特徴ベクトル系列V(n)と雑音適応モデルMc’に
よって、話者適応パラメータPを生成する。
【0118】つまり、既述したMLLRやMAP推定法
を適応して話者適応パラメータPを求める場合には、変
換行列Wm’とオフセットベクトルbm’を話者適応パラ
メータPとして生成する。
【0119】次に、ステップS104において、音声モ
デル更新部5が、話者適応モデル記憶部2に記憶されて
いる初期音声モデルMcと話者適応パラメータPとを用
いて、モデル更新演算を行うことで、話者適応モデルM
c”を求める。
【0120】次に、ステップS106において、音声モ
デル更新部5が、話者適応モデル記憶部2に記憶されて
いる初期音声モデルMcに代えて、話者適応モデルMc”
を更新記憶させた後、話者適応の処理を終了する。
【0121】そして、この話者適応処理の後、認識処理
部9が音声認識の処理を行う際には、話者適応モデル記
憶部2に記憶された話者適応モデルMc”を更新された
初期音声モデルMcとして利用することとなり、その更
新された初期音声モデルMc(別言うすれば、話者適応
モデルMc”)を雑音適応部3が雑音適応することで、
雑音適応を施した話者適応モデルMregを生成して音声
認識部9に供給し、更に、音声認識部9がその話者適応
モデルMregより構成される系列と音響分析部6からの
話者音声の特徴ベクトル系列V(n)とを照合する。そし
て、最も高い尤度の得られる話者適応モデルMregより
構成される話者適応系列を認識結果として出力する。
【0122】このように本実施形態の音声認識装置によ
れば、話者適応の処理を行う前に雑音適応の処理を行う
ので、その話者適応処理に際して求まる話者適応パラメ
ータに対して、話者適応時の背景雑音の悪影響を低減す
ることができる。
【0123】そして、この背景雑音の悪影響が低減され
た話者適応パラメータを用いて話者適応モデルMc”を
生成するので、話者適応本来の目的すなわち話者適応効
果の高い話者適応モデルMc”を生成することが可能で
ある。
【0124】さらに音声認識時には、更新記憶されてい
る話者適応モデルMc”を、その認識発話時の背景雑音
で雑音適応して用いる。
【0125】このため、話者の個人性と発話時の背景雑
音の双方に適応したモデルを用いて認識を行うことが可
能であり、その結果高い認識性能が得られる。 (第2の実施の形態)次に、本発明の第2の実施形態を
図3及び図4を参照して説明する。尚、図3は本実施形
態の音声認識装置の構成を示す図であり、図1と同一又
は相当する部分を同一符号で示している。また、本実施
形態は、音声認識の処理中に話者適応を行う。そこで、
図3中にし示す信号の通過経路を全て矢印付きの実線で
示している。
【0126】図3において、本音声認識装置と第1の実
施形態の音声認識装置との差異を述べると、第1の実施
形態の音声認識装置では、話者適応を行った後に音声認
識を行うのに対し、本実施形態の音声認識装置は、音声
認識中に話者適応の処理を同時に行うようになってい
る。
【0127】更に、雑音適応部3から出力される雑音適
応モデルMc’は、話者適応を行うべく話者適応パラメ
ータ算出部4へ送出される他、話者適応モデル記憶部2
の内容が話者適応モデルMc”で更新されると、その雑
音適応モデルMc’は、図1に示した雑音適応された話
者適応モデルMregとして認識処理部9へ送出される。
【0128】したがって、図3に示す雑音適応モデルM
c’は、雑音適応部3から話者適応パラメータ算出部4
及び認識処理部9へ出力されるが、話者適応パラメータ
算出部4へは話者適応の処理のための雑音適応モデルM
c’として、認識処理部9へは音声認識の処理のための
雑音適応された話者適応モデルMregとして出力され
る。
【0129】認識処理部9は、既述した話者適応モデル
Mc”を初期音声モデルMcとして雑音適応部3が雑音適
応モデルMc’(すなわち、雑音適応された話者適応モ
デルMreg)から構成される系列と、認識すべき発話音
声の特徴ベクトル系列V(n)とを照合して、最も大きな
尤度の得られる話者適応モデルMregから構成される系
列を認識結果として出力する。更に、その尤度から認識
結果と発話音声との類似性を示すスコアデータSCRを
生成して認識結果と共に出力する。
【0130】つまり、上記の照合を行った結果、高い尤
度が得られた場合には、音声認識結果の信頼度が高いこ
とを示すスコアデータSCRと上述の認識結果とを出力
し、高い尤度が得られなかった場合には、音声認識結果
の信頼度が低いことを示すスコアデータSCRと上述の
認識結果とを出力して、話者適応パラメータ算出部4に
供給する。
【0131】そして、話者適応パラメータ算出部4は、
音声認識結果の信頼度が高いことを示すスコアデータS
CRと上述の認識結果とが供給されると、発話音声を正
しく認識したと判断して、その音声認識の対象となって
いる発話音声の特徴ベクトル系列V(n)と、雑音適応部
3からの雑音適応モデルMc’とから話者適応用の話者
適応パラメータPを生成する。
【0132】更に音声モデル更新部5が、その話者適応
パラメータPと、話者適応モデル記憶部2に記憶されて
いる初期音声モデルMcとを用いて話者適応モデルMc”
を生成し、その話者適応モデルMc”を話者適応モデル
記憶部2に供給することで、音声モデルMcに代えて更
新記憶させる。
【0133】したがって、本音声認識装置は、音声認識
の処理をすればするほど、話者適応モデル記憶部2に記
憶されている初期音声モデルMcの話者の個人性への適
応の度合いを次第に高めていくようになっている。
【0134】次に、本音声認識装置の動作を図4に示す
フローチャートを参照して説明する。
【0135】図4において音声認識処理を開始すると、
まずステップS200において、雑音適応部3が、話者
適応モデル記憶部2に記憶されている初期音声モデルM
cに雑音適応を施すことにより、雑音適応モデルMc’を
生成する。
【0136】すなわち、話者が未だ発話を開始する前の
非発話期間に収音される背景雑音の特徴ベクトル系列N
(n)が音響分析部6から雑音適応部3に供給され、雑音
適応部3がその背景雑音の特徴ベクトル系列N(n)によ
って初期音声モデルMcを雑音適応することにより、雑
音適応モデルMc’を生成する。
【0137】次に、ステップS202において、話者が
発話を開始すると、切替スイッチ8が認識処理部9側に
切替わり、その発話期間に発話される発話音声の特徴ベ
クトル系列V(n)が音響分析部6から認識処理部9に供
給されるようになる。
【0138】そして、認識処理部9が、雑音適応部3で
生成された雑音適応モデルMc’を用いて認識候補単語
モデルや認識候補文モデルを生成する。
【0139】そして更に認識処理部9は、次のステップ
S204において、認識候補単語モデルや認識候補文モ
デルと特徴ベクトル系列V(n)とを照合することによ
り、音声認識を行い、認識結果とスコアデータSCRを
出力する。
【0140】次にステップS206において、話者適応
パラメータ算出部4が、スコアデータSCRが高スコア
ーとなっているか判断し、高スコアーでない場合(「N
O」の場合)には認識結果の信頼度が低いと判断して後
述のステップS214に移行し、高スコアーのとき
(「YES」の場合)には、ステップS208へ移行す
る。
【0141】ステップS208では、話者適応パラメー
タ算出部4は、現在認識対象となっている発話音声の特
徴ベクトル系列V(n)と雑音適応モデルMc’と認識結果
によって、話者適応のための話者適応パラメータPを生
成する。
【0142】次に、ステップS210において、音声モ
デル更新部5が、話者適応モデル記憶部2に記憶されて
いる初期音声モデルMcと話者適応パラメータPとを用
いて話者適応処理を行うことで、話者適応モデルMc”
を求める。
【0143】更にステップS212において、音声モデ
ル更新部5が、生成した話者適応モデルMc”を話者適
応モデル記憶部2に供給し、音声モデルMcに置き換え
て更新記憶させた後、処理を終了する。
【0144】このように、本実施形態の音声認識装置に
よれば、音声認識と話者適応を同時進行的に行い、話者
の個人性への適応の度合いの高い話者適応モデルMc”
を生成して、話者適応モデル記憶部2に更新記憶させ
る。
【0145】このため、異なった単語や文がたくさん発
話され、それらの発話音声を認識処理部9が累積的に音
声認識していくにしたがって、話者適応モデル記憶部2
に記憶されている初期音声モデルMcは、話者の個人性
への適応の度合いの高い話者適応モデルMc”へと更新
されていくことになり、音声認識性能の向上を図ること
が可能となっている。
【0146】また、高スコアーが得られた場合に、話者
適応モデルMc”を生成して初期音声モデルMcを更新す
るので、発話環境の状態等に応じて適切な話者適応を行
うことができ、音声認識性能を低下させるような不適切
な話者適応を未然に防止し、ひいては音声認識性能の向
上を実現することができる。
【0147】また、音声認識と話者適応を同時進行的に
行う本実施形態の音声認識装置においても、既述した第
1の実施形態と同様、話者適応部で話者適応の処理を行
う前に、雑音適応部3で雑音適応の処理が行われるの
で、その話者適応処理に際して求まる話者適応パラメー
タPに対して、話者適応時の背景雑音の悪影響を低減す
ることができるという優れた効果が得られる。
【0148】
【発明の効果】以上説明したように本発明の音声認識装
置及び音声認識方法によれば、初期音声モデルに対し雑
音適応を施すことで雑音適応モデルを生成し、この雑音
適応モデルに対して話者適応演算を施すことで話者適応
パラメータを求め、雑音適応前の初期音声モデルに対し
この話者適応パラメータで話者適応施すことで話者適応
モデルを生成することとしたので、話者適応時の背景雑
音の悪影響を低減し話者適応本来の目的である話者の個
人性への適応効果の高い話者適応モデルを生成すること
ができる。
【0149】また、音声認識時に、上記の話者適応した
話者適応モデルに雑音適応を施して雑音適応した話者適
応モデルを生成し、その雑音適応話者適応モデルを用い
て音声認識の処理を行うので、認識発話時の背景雑音と
話者の個人性双方に適応した雑音話者適応モデルを用い
て音声認識を行うことができ、様々な発話雑音環境にお
いて高い認識性能を得ることができる。
【図面の簡単な説明】
【図1】第1の実施形態の音声認識装置の構成を示す図
である。
【図2】第1の実施形態の音声認識装置の動作を示すフ
ローチャートである。
【図3】第2の実施形態の音声認識装置の構成を示す図
である。
【図4】第2の実施形態の音声認識装置の動作を示すフ
ローチャートである。
【符号の説明】
1…初期音声モデル記憶部 2…話者適応モデル記憶部 3…雑音適応部 4…話者適応パラメータ生成部 5…音声モデル更新部 6…音響分析部 7…マイクロフォン 8…切替スイッチ 9…認識処理部

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 初期音声モデルを有する記憶手段と、 前記記憶手段の初期音声モデルに話者適応時の背景雑音
    によって雑音適応を施すことで雑音適応モデルを生成す
    る雑音適応手段と、 前記雑音適応手段で生成された前記雑音適応モデルに対
    し、前記話者適応時に発話された発話音声によって話者
    適応演算を行い、前記雑音適応モデルを雑音重畳話者適
    応モデルに変換するための話者適応パラメータを算出す
    る話者適応パラメータ算出手段と、 前記記憶手段の初期音声モデルに前記話者適応パラメー
    タで話者適応を施すことにより話者適応モデルを生成
    し、当該話者適応モデルを前記初期音声モデルに代えて
    前記記憶手段に更新記憶させる音声モデル更新手段と、
    を備えることを特徴とする音声認識装置。
  2. 【請求項2】 音声認識時に音声認識処理を行う認識処
    理手段を備え、 更に前記雑音適応手段は、前記音声認識時の非発話期間
    における背景雑音によって、前記記憶手段に更新記憶さ
    れた前記話者適応モデルに対し雑音適応を施すことで雑
    音適応を施した話者適応モデルを生成し、当該雑音適応
    を施した話者適応モデルを、発話音声を音声認識するた
    めの音響モデルとして前記音声認識手段に供給すること
    を特徴とする請求項1に記載の音声認識装置。
  3. 【請求項3】 初期音声モデルを有する記憶手段と、 音声認識時の非発話期間における背景雑音により前記記
    憶手段の初期音声モデルに雑音適応を施すことで雑音適
    応モデルを生成する雑音適応手段と、 前記音声認識時の発話期間に発話された音声認識すべき
    発話音声と、前記雑音適応手段で生成された前記雑音適
    応モデルとを照合して音声認識を行う認識処理手段と、 前記雑音適応手段で生成された前記雑音適応モデルに対
    し前記音声認識すべき発話音声によって話者適応演算を
    行い、前記雑音適応モデルを雑音重畳話者適応モデルに
    変換するための話者適応パラメータを算出する話者適応
    パラメータ算出手段と、前記記憶手段の初期音声モデル
    に前記話者適応パラメータで話者適応を施すことにより
    話者適応モデルを生成し、当該話者適応モデルを前記初
    期音声モデルに代えて前記記憶手段に更新記憶させる音
    声モデル更新手段と、を備えることを特徴とする音声認
    識装置。
  4. 【請求項4】 前記話者適応パラメータ算出手段と音声
    モデル更新手段は、前記認識処理手段の認識結果の信頼
    度が高い場合に、前記話者適応モデルを生成して前記初
    期音声モデルに代えて前記記憶手段に更新記憶させるこ
    とを特徴とする請求項3に記載の音声認識装置。
  5. 【請求項5】 記憶手段に記憶されている初期音声モデ
    ルに話者適応時の背景雑音によって雑音適応を施すこと
    で雑音適応モデルを生成する雑音適応処理工程と、前記
    雑音適応処理工程で生成された前記雑音適応モデルに対
    し、前記話者適応時に発話された発話音声によって話者
    適応演算を行い、前記雑音適応モデルを雑音重畳話者適
    応モデルに変換するための話者適応パラメータを算出す
    る話者適応パラメータ算出処理工程と、前記記憶手段の
    初期音声モデルに前記話者適応パラメータで話者適応を
    施すことにより話者適応モデルを生成し、当該話者適応
    モデルを前記初期音声モデルに代えて前記記憶手段に更
    新記憶させる音声モデル更新処理工程と、を備えること
    を特徴とする音声認識方法。
  6. 【請求項6】 更に前記雑音適応処理工程では、音声認
    識時の非発話期間における背景雑音によって、前記記憶
    手段に更新記憶された前記話者適応モデルに対し雑音適
    応を施すことで雑音適応を施した話者適応モデルを生成
    し、前記雑音適応を施した話者適応モデルと、前記音声
    認識時の発話期間における音声認識すべき発話音声とを
    照合することにより音声認識を行う音声認識処理工程
    と、を備えることを特徴とする請求項5に記載の音声認
    識方法。
  7. 【請求項7】 音声認識時の非発話期間における背景雑
    音により、記憶手段に記憶されている初期音声モデルに
    雑音適応を施すことで雑音適応モデルを生成する雑音適
    応処理工程と、 前記音声認識時の発話期間に発話される音声認識すべき
    発話音声と、前記雑音適応処理工程で生成された前記雑
    音適応モデルとを照合して音声認識を行う認識処理工程
    と、 前記雑音適応処理工程で生成された前記雑音適応モデル
    に対し前記音声認識すべき発話音声によって話者適応演
    算を行い、前記雑音適応モデルを雑音重畳話者適応モデ
    ルに変換するための話者適応パラメータを算出する話者
    適応パラメータ算出処理工程と、 前記記憶手段の初期音声モデルに前記話者適応パラメー
    タで話者適応を施すことにより話者適応モデルを生成
    し、当該話者適応モデルを前記初期音声モデルに代えて
    前記記憶手段に更新記憶させる音声モデル更新処理工程
    と、を備えることを特徴とする音声認識装置。
  8. 【請求項8】 前記話者適応パラメータ算出処理工程と
    音声モデル更新処理工程は、前記認識処理工程の認識結
    果の信頼度が高い場合に、前記話者適応モデルを生成し
    て前記初期音声モデルに代えて前記記憶手段に更新記憶
    させることを特徴とする請求項7に記載の音声認識方
    法。
JP2002142998A 2002-04-26 2002-05-17 音声認識装置及び音声認識方法 Expired - Fee Related JP4275353B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2002142998A JP4275353B2 (ja) 2002-05-17 2002-05-17 音声認識装置及び音声認識方法
CN03122309.5A CN1453767A (zh) 2002-04-26 2003-04-23 语音识别装置以及语音识别方法
EP03009344A EP1357541A3 (en) 2002-04-26 2003-04-24 Speaker adaptation for speech recognition
US10/422,969 US20030220791A1 (en) 2002-04-26 2003-04-25 Apparatus and method for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002142998A JP4275353B2 (ja) 2002-05-17 2002-05-17 音声認識装置及び音声認識方法

Publications (2)

Publication Number Publication Date
JP2003330484A true JP2003330484A (ja) 2003-11-19
JP4275353B2 JP4275353B2 (ja) 2009-06-10

Family

ID=29703125

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002142998A Expired - Fee Related JP4275353B2 (ja) 2002-04-26 2002-05-17 音声認識装置及び音声認識方法

Country Status (1)

Country Link
JP (1) JP4275353B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005098820A1 (ja) * 2004-03-31 2005-10-20 Pioneer Corporation 音声認識装置及び音声認識方法
JP2008513825A (ja) * 2004-09-23 2008-05-01 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 話者に依存しない堅牢な音声認識システム
JP2008158328A (ja) * 2006-12-25 2008-07-10 Ntt Docomo Inc 端末装置及び判別方法
JP5088701B2 (ja) * 2006-05-31 2012-12-05 日本電気株式会社 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム
JP2013114151A (ja) * 2011-11-30 2013-06-10 Nippon Telegr & Teleph Corp <Ntt> 雑音抑圧装置、方法及びプログラム
JP2014029407A (ja) * 2012-07-31 2014-02-13 Nippon Telegr & Teleph Corp <Ntt> 雑音抑圧装置、方法、及びプログラム
WO2014049944A1 (ja) * 2012-09-27 2014-04-03 日本電気株式会社 音声処理装置、音声処理方法、音声処理プログラムおよび雑音抑圧装置
JP2015108654A (ja) * 2013-12-03 2015-06-11 三菱電機株式会社 音声認識装置
JP2020101610A (ja) * 2018-12-20 2020-07-02 トヨタ自動車株式会社 制御装置、音声対話装置、音声認識サーバ及びプログラム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005098820A1 (ja) * 2004-03-31 2005-10-20 Pioneer Corporation 音声認識装置及び音声認識方法
US7813921B2 (en) 2004-03-31 2010-10-12 Pioneer Corporation Speech recognition device and speech recognition method
JP2008513825A (ja) * 2004-09-23 2008-05-01 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 話者に依存しない堅牢な音声認識システム
JP4943335B2 (ja) * 2004-09-23 2012-05-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 話者に依存しない堅牢な音声認識システム
JP5088701B2 (ja) * 2006-05-31 2012-12-05 日本電気株式会社 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム
JP2008158328A (ja) * 2006-12-25 2008-07-10 Ntt Docomo Inc 端末装置及び判別方法
JP2013114151A (ja) * 2011-11-30 2013-06-10 Nippon Telegr & Teleph Corp <Ntt> 雑音抑圧装置、方法及びプログラム
JP2014029407A (ja) * 2012-07-31 2014-02-13 Nippon Telegr & Teleph Corp <Ntt> 雑音抑圧装置、方法、及びプログラム
WO2014049944A1 (ja) * 2012-09-27 2014-04-03 日本電気株式会社 音声処理装置、音声処理方法、音声処理プログラムおよび雑音抑圧装置
JP2015108654A (ja) * 2013-12-03 2015-06-11 三菱電機株式会社 音声認識装置
JP2020101610A (ja) * 2018-12-20 2020-07-02 トヨタ自動車株式会社 制御装置、音声対話装置、音声認識サーバ及びプログラム
JP7020390B2 (ja) 2018-12-20 2022-02-16 トヨタ自動車株式会社 制御装置、音声対話装置、音声認識サーバ及びプログラム

Also Published As

Publication number Publication date
JP4275353B2 (ja) 2009-06-10

Similar Documents

Publication Publication Date Title
US20030220791A1 (en) Apparatus and method for speech recognition
JP2733955B2 (ja) 適応型音声認識装置
US5930753A (en) Combining frequency warping and spectral shaping in HMM based speech recognition
US5960397A (en) System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition
JP2001503154A (ja) 音声認識システムにおける隠れマルコフ音声モデルの適合方法
JPH075892A (ja) 音声認識方法
JPH07334184A (ja) 音響カテゴリ平均値計算装置及び適応化装置
EP0685835B1 (en) Speech recognition based on HMMs
Herbig et al. Self-learning speaker identification for enhanced speech recognition
Zheng et al. Text-independent voice conversion using deep neural network based phonetic level features
JP2003504653A (ja) ノイズのある音声モデルからのロバスト音声処理
JP4275353B2 (ja) 音声認識装置及び音声認識方法
JP2003532162A (ja) 雑音に影響された音声の認識のためのロバストなパラメータ
JP3088357B2 (ja) 不特定話者音響モデル生成装置及び音声認識装置
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP4201471B2 (ja) 音声認識システム
Miguel et al. Augmented state space acoustic decoding for modeling local variability in speech.
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
Lévy et al. Reducing computational and memory cost for cellular phone embedded speech recognition system
Huang et al. An SNR-incremental stochastic matching algorithm for noisy speech recognition
Kuah et al. A neural network-based text independent voice recognition system
Takahashi et al. Interactive voice technology development for telecommunications applications
Lévy et al. Compact acoustic models for embedded speech recognition
JPH0822296A (ja) パターン認識方法
JP2000075890A (ja) ヒドン・マルコフ・モデルの学習方法及び音声認識システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090224

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090304

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120313

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130313

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140313

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees