JP2980382B2

JP2980382B2 - 話者適応音声認識方法および装置

Info

Publication number: JP2980382B2
Application number: JP2412080A
Authority: JP
Inventors: 徹真田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1990-12-19
Filing date: 1990-12-19
Publication date: 1999-11-22
Anticipated expiration: 2014-11-22
Also published as: JPH04219798A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は，新規話者音声の特徴量
を標準話者音声の特徴量に変換する変換関数を生成して
用いる話者適応音声認識方法および装置に関する。音声
認識装置では，あらかじめ登録された音声特徴量と，入
力音声から抽出した音声特徴量とを照合することによ
り，発声入力された音声の認識を行う。あらかじめ登録
された音声特徴量が，認識する入力音声と同一人の発声
により作成したものであれば，認識精度は高くなるが，
不特定話者用に標準的に作られたものであれば，特に個
性の強い発声に対して認識精度が落ちる。

【０００２】しかしながら，特定（新規）話者対応に音
声特徴量の辞書を作成するのは，非常に大きな労力を要
する。そこで，あらかじめ標準的な音声の特徴量を示す
辞書を一つ作成しておき，新規話者音声に対して，その
音声特徴量を標準話者音声の特徴量に変換する変換関数
を学習により生成し，その変換関数を用いて入力音声の
特徴量を標準話者音声の特徴量に近い形に変換し，その
うえで照合する方法が用いられている。このときに用い
る変換関数の生成を簡単に高速に行う技術が必要とされ
る。

【０００３】

【従来の技術】図７は従来技術の説明図である。変換関
数６０を生成する際には，新規話者の音声から，新規話
者音声特徴量抽出手段１で音声認識に用いる特徴量時系
列を抽出し，この新規話者の音声に対応する標準話者の
音声の特徴量時系列を，標準話者音声特徴量記憶手段４
から読み出し，変換関数生成手段３０によって，新規話
者音声の特徴量時系列を標準話者音声の特徴量時系列に
変換する単一の変換関数６０を生成する。

【０００４】新規話者の音声で音声認識を行う際には，
新規話者の音声から新規話者音声特徴量抽出手段１で音
声認識に用いる特徴量時系列を抽出し，この特徴量を変
換関数６０で標準話者音声の特徴量時系列に変換し，こ
の特徴量時系列と標準話者音声特徴量記憶手段４に記憶
されている特徴量時系列を，標準話者音声認識手段７で
照合して認識結果を得る。

【０００５】

【発明が解決しようとする課題】以上のような従来技術
によれば，すべての新規話者音声の特徴量を標準話者音
声の特徴量に単一の変換関数によって変換することにな
るため，変換関数がきわめて複雑になり，変換関数を生
成するのに長時間を要するので，新規話者の負担が大き
いという問題があった。また，変換精度のよい変換関数
を得るのが難しいという問題があった。

【０００６】本発明は上記問題点の解決を図り，精度の
よい変換関数を短時間で生成する手段を提供し，新規話
者の負担を軽減することを目的としている。

【０００７】

【課題を解決するための手段】図１は本発明の原理ブロ
ック図である。本発明では，新規話者音声の特徴量を変
換関数で標準話者音声の特徴量に変換する際に，複数の
変換関数の中から新規話者音声の各時刻における音響特
性に対応する変換関数を選択し，変換に用いる変換関数
を切り換えながら新規話者音声の特徴量を標準話者音声
の特徴量に変換する。

【０００８】Ｎ種の音響特性に対応するＮ個の変換関数
(1),(2),…(N) からなる変換関数群を生成する際には，
以下の処理を行う。入力された新規話者の音声から新規
話者音声特徴量抽出手段１で新規話者音声の特徴量時系
列を抽出する。特徴量時系列から音響特性抽出手段２で
Ｎ個の変換関数に対応する音響特性時系列を抽出する。

【０００９】変換関数生成手段３は，入力された新規話
者音声に対応する標準話者音声の特徴量時系列を標準話
者音声特徴量記憶手段４から読み出し，各時刻の音響特
性に対応して，新規話者音声の特徴量を標準話者音声の
特徴量に変換するＮ個の変換関数からなる変換関数群を
生成する。

【００１０】新規話者の音声で音声認識を行う際には，
以下の処理を行う。新規話者の音声から新規話者音声特
徴量抽出手段１で新規話者音声の特徴量時系列を抽出す
る。特徴量時系列から音響特性抽出手段２でＮ個の変換
関数に対応する音響特性時系列を抽出する。

【００１１】変換関数切り換え手段５は，各時刻の音響
特性に対応する変換関数を，Ｎ個の変換関数群から選択
する。音声特徴量変換手段６は，選択された変換関数を
用いて，入力された新規話者音声の特徴量を標準話者音
声の特徴量に変換する。すなわち，変換関数群によっ
て，新規話者音声の特徴量時系列が標準話者音声の特徴
量時系列に変換される。

【００１２】標準話者音声認識手段７は，標準話者音声
特徴量記憶手段４から読み出した標準話者音声の特徴量
時系列と，音声特徴量変換手段６によって新規話者音声
の特徴量時系列から変換されて得られた特徴量時系列と
を照合し，認識結果を出力する。

【００１３】音響特性抽出手段２が抽出する音響特性と
して，弁別素性（distinctive feature)を用いることが
できる。弁別素性とは，例えば母音性，子音性，単ホル
マント性，鼻音性，エネルギー性，…というような音響
的性質を示すものである。

【００１４】また，具体的には，音響特性として，有声
音，無声音および無音などの性質を選び，これらの各性
質ごとに変換関数を用意してもよい。

【００１５】変換関数生成手段３は，各音響特性ごと
に，変換関数を回帰分析で求めることができる。また，
変換関数生成手段３は，変換関数をニューラルネットで
求め，音声特徴量変換手段６は，音響特性に応じたニュ
ーラルネットで実現される変換関数により，新規話者音
声の特徴量を変換することもできる。

【００１６】

【作用】本発明では，入力音声の音響特性に対応する複
数の変換関数を生成して，認識の際には入力音声の各時
刻での音響特性により，これらの変換関数を切り換えて
用い，新規話者音声の特徴量を標準話者音声の特徴量に
変換するので，各々の変換関数が単純になり，例えば変
換関数の生成のために１００語の音声入力による学習が
必要であったのに対し，きわめて少ない語数の入力によ
る学習でも，精度のよい変換関数を実現することが可能
になる。

【００１７】

【実施例】図２は本発明の実施例を示す。図２におい
て，帯域スペクトル時系列計算部１１は，図１に示す新
規話者音声特徴量抽出手段１に対応する。有声音・無声
音・無音判定部２１は，図１に示す音響特性抽出手段２
に対応する。ＤＰマッチング部３１，帯域スペクトル対
記憶選択部３２，各音響特性ごとの帯域スペクトル対記
憶部群３３および線型回帰分析部３４は，図１に示す変
換関数生成手段３に対応する。標準話者単語音声帯域ス
ペクトル時系列テンプレート記憶部４１は，図１に示す
標準話者音声特徴量記憶手段４に対応する。変換関数選
択部５１は，図１に示す変換関数切り換え手段５に対応
する。音声特徴量変換部６１は，図１に示す音声特徴量
変換手段６に対応する。ＤＰマッチング音声認識部７１
は，図１に示す標準話者音声認識手段７に対応する。

【００１８】音声特徴量変換部６１は，有声用，無声
用，無音用の変換関数６１ａ，６１ｂ，６１ｃを持つ。
これらの変換関数群を生成する際には，以下の処理を行
う。

【００１９】帯域スペクトル時系列計算部１１は，新規
話者音声を帯域スペクトル時系列に変換する。有声音・
無声音・無音判定部２１は，帯域スペクトル時系列から
各時刻における音響特性が有声音であるか無声音である
か無音であるかを判定する。無音であるか否かは帯域ス
ペクトルの全パワーの大小で判定する。有声音であるか
無声音であるかは，帯域スペクトルの低域パワーと高域
パワーの相対的大小で判定する。

【００２０】ＤＰマッチング部３１は，入力された新規
話者の帯域スペクトル時系列と，標準話者単語音声帯域
スペクトル時系列テンプレート記憶部４１中の入力音声
に対応する帯域スペクトル時系列との時間整合をとり，
帯域スペクトル対を生成する。帯域スペクトル対は，時
間整合によって対応づけられた新規話者の帯域スペクト
ルと標準話者の帯域スペクトルの対である。

【００２１】帯域スペクトル対記憶選択部３２は，有声
音・無声音・無音判定部２１の判定に従って，帯域スペ
クトル対を帯域スペクトル対記憶部群３３中の有声音帯
域スペクトル対記憶部・無声音帯域スペクトル対記憶部
・無音帯域スペクトル対記憶部のいずれかに格納し蓄積
する。例えば，有声音・無声音・無音判定部２１の判定
が有声音であれば，帯域スペクトル対は有声音帯域スペ
クトル対記憶部に格納され蓄積される。

【００２２】線型回帰分析部３４は，帯域スペクトル対
記憶部群３３の中の各記憶部に蓄積された帯域スペクト
ル対に線型回帰分析を行って，各変換関数を求め，音声
特徴量変換部６１にそれを通知し格納する。例えば，有
声音帯域スペクトル対記憶部に蓄積された帯域スペクト
ル対に対して線型回帰分析を行うことにより，入力音声
が有声音である場合の変換関数が生成され，音声特徴量
変換部６１が管理する変換関数群中に有声用変換関数６
１ａとして格納される。

【００２３】新規話者の音声で音声認識を行う際には，
以下の処理を行う。帯域スペクトル時系列計算部１１
は，新規話者音声を帯域スペクトル時系列に変換する。
有声音・無声音・無音判定部２１は，帯域スペクトル時
系列から各時刻における音響特性が有声音であるか無声
音であるか無音であるかを判定する。この判定に従っ
て，変換関数選択部５１は，音声特徴量変換部６１で使
用する変換関数群中のいずれかの変換関数を選択する。

【００２４】ある時刻において，例えば有声音・無声音
・無音判定部２１が有声音と判定した場合には，変換関
数選択部５１は，その時刻の新規話者音声の帯域スペク
トルを標準話者音声の帯域スペクトルに変換する変換関
数として，有声用変換関数６１ａを選択する。

【００２５】音声特徴量変換部６１は，選択された変換
関数に従って新規話者音声の帯域スペクトル時系列を標
準話者音声の帯域スペクトル時系列に変換する。ＤＰマ
ッチング音声認識部７１は，変換された帯域スペクトル
時系列と標準話者単語音声帯域スペクトル時系列テンプ
レート記憶部４１中の単語ごとの帯域スペクトル時系列
とを照合して認識結果を出力する。

【００２６】図３は，図２に示す実施例による変換関数
生成時の処理フロー，すなわち学習時の処理フローを示
している。以下，図３に示す処理(a) 〜(l) に従って説
明する。

【００２７】(a) 学習のための新規話者の発声する単語
は，あらかじめ決められている。新規話者が発声する
と，帯域スペクトル時系列計算部１１により，音声の新
規話者波形を帯域スペクトル時系列に変換する。 (b) ＤＰマッチング部３１において，新規話者帯域スペ
クトル時系列と，同じ単語の標準話者帯域スペクトル時
系列とのＤＰ照合を行い，帯域スペクトル対を生成す
る。

【００２８】(c) 時系列が終了するまで，処理(d) 〜処
理(i) を繰り返す。終了したならば，処理(j) へ移る。 (d) 有声音・無声音・無音判定部２１により，帯域スペ
クトルが有声音・無声音・無音のいずれであるかを判定
する。 (e) 〜(f) 有声音であれば，帯域スペクトル対記憶部群
３３中の有声音帯域スペクトル対記憶部に帯域スペクト
ル対を格納する。 (g) 〜(h) 無声音であれば，帯域スペクトル対記憶部群
３３中の無声音帯域スペクトル対記憶部に帯域スペクト
ル対を格納する。 (i) 無音であれば，帯域スペクトル対記憶部群３３中の
無音帯域スペクトル対記憶部に帯域スペクトル対を格納
する。その後，処理(c) へ戻り，同様に処理を繰り返
す。

【００２９】(j) 時系列が終了したならば，線型回帰分
析で無音用変換関数６１ｃを生成し，格納する。なお，
線型回帰分析の手法については周知であるので，ここで
の詳しい説明は省略する。 (k) 同様に，線型回帰分析で無声音用変換関数６１ｂを
生成し，格納する。(l) 同様に，線型回帰分析で有声音
用変換関数６１ａを生成し，格納する。以上の処理によ
り，変換関数の生成処理を終了する。

【００３０】図４は，図２に示す実施例による認識時の
処理フローを示している。以下，図４に示す処理(a) 〜
(k) に従って説明する。

【００３１】(a) 新規話者が発声した音声を，帯域スペ
クトル時系列計算部１１により，帯域スペクトル時系列
に変換する。

【００３２】(b) 時系列が終了するまで，処理(c) 〜処
理(i) を繰り返す。終了したならば，処理(j) へ移る。 (c) 有声音・無声音・無音判定部２１により，帯域スペ
クトルが有声音・無声音・無音のいずれであるかを判定
する。 (d) 〜(e) 有声音であれば，変換関数として有声用変換
関数を選択する。 (f) 〜(g) 無声音であれば，変換関数として無声用変換
関数を選択する。 (h) 無音であれば，変換関数として無音用変換関数を選
択する。 (i) 音声特徴量変換部６１において，選択された変換関
数を用いることにより，帯域スペクトルを標準話者のも
のに変換する。その後，処理(b) へ戻り，同様に処理を
繰り返す。

【００３３】(j) 認識対象の時系列が終了したならば，
ＤＰマッチング音声認識部７１により，変換された帯域
スペクトル時系列と，標準話者の帯域スペクトル時系列
テンプレートとについて，ＤＰ（ダイナミックプログラ
ミング）マッチングを行う。 (k) ＤＰマッチングの結果，スコアの最も良かった語句
を認識結果とし，処理を終了する。

【００３４】変換関数群を複数のニューラルネットで構
成してニューラルネット群とし，線型回帰分析部３４
を，バックプロパゲーションによるニューラルネット学
習部として，同様の機能を実現することも可能である。
図５は，そのニューラルネットを用いた本発明の実施例
を示している。

【００３５】図５において，図２と同符号のものは図２
に示すものに対応する。３５はニューラルネットに対す
る学習のためのバックプロパゲーション部，５２は有声
音・無声音・無音の判定によって変換に使用するニュー
ラルネットを選択するニューラルネット選択部，６２は
ニューラルネットにより帯域スペクトルを変換する変換
部，６２ａは有声用ニューラルネット，６２ｂは無声用
ニューラルネット，６２ｃは無音用ニューラルネットを
表す。

【００３６】図５に示す実施例で，変換関数群，すなわ
ち有声用ニューラルネット６２ａ，無声用ニューラルネ
ット６２ｂ，無音用ニューラルネット６２ｃを生成する
場合，帯域スペクトル対記憶部群３３中の有声音・無声
音・無音別に設けられた記憶部に，帯域スペクトル対を
分けて格納するまでの処理は，図２の実施例と同様であ
る。

【００３７】本実施例では，変換関数をニューラルネッ
トで実現するため，バックプロパゲーション部３５によ
る学習を行う。ここでは，記憶種別ごとに帯域スペクト
ル対を帯域スペクトル対記憶部群３３から読み出し，例
えば新規話者音声の帯域スペクトルをニューラルネット
に与える入力信号とし，標準話者音声の帯域スペクトル
を教師信号とすることにより各ニューロンの内部状態を
決める学習を行う。

【００３８】ニューラルネットは，一般には入力層，中
間層，出力層に配置されたニューロンで構成されること
が多いが，本実施例の場合，変換関数が単純化されるの
で，実質的には線型変換でもかなりの変換精度を保つこ
とができる。そのため，図６に示すように中間層を省略
して，入力層と出力層だけからなるニューラルネットと
してもよい。無音用ニューラルネット６２ｃは，入力層
の入力信号をそのまま出力層に伝えるものでよい。

【００３９】学習によって各ニューラルネット６２ａ，
６２ｂ，６２ｃが作成されると，それを用いた音声認識
は，次のように行う。

【００４０】図５において，新規話者音声の帯域スペク
トル時系列について，有声音・無声音・無音判定部２１
により，各時刻における音響特性が，有声音・無声音・
無音のいずれであるかを判定するまでの処理は，図２に
示す実施例と同様である。

【００４１】ニューラルネット選択部５２は，有声音・
無声音・無音判定部２１の判定結果により，変換部６２
で使用するニューラルネットを選択する。すなわち，図
６に示すように，有声用ニューラルネット６２ａ，無声
用ニューラルネット６２ｂ，無音用ニューラルネット６
２ｃと３種あるニューラルネットの中から１つを選択
し，新規話者帯域スペクトル時系列を，その選択したニ
ューラルネットに対する入力信号とする。この入力によ
り，出力層から出力される信号が標準話者音声の帯域ス
ペクトル時系列に相当するものとなる。

【００４２】ニューラルネットにより変換した帯域スペ
クトル時系列を，ＤＰマッチング音声認識部７１に渡
す。その後の音声認識処理は，図２に示す実施例と同様
である。

【００４３】以上の実施例では，音響特性として有声音
・無声音・無音の例を取り上げたが，本発明はこれに限
らず，各種の弁別素性を用いて同様に実施することが可
能である。

【００４４】

【発明の効果】以上説明したように，本発明によれば，
音響特性に対応する複数の変換関数を用いるので，個々
の変換関数が単純になり，変換関数を短時間で生成でき
るようになる。したがって，新規話者の負担が小さくな
る。また，変換精度がよくなり，良好な認識結果を得る
ことができるようになる。

【図面の簡単な説明】

【図１】本発明の原理ブロック図である。

【図２】本発明の実施例説明図である。

【図３】本発明の実施例による変換関数生成時の処理フ
ローを示す図である。

【図４】本発明の実施例による認識時の処理フローを示
す図である。

【図５】本発明のニューラルネットを用いた実施例説明
図である。

【図６】本発明の実施例に係るニューラルネットの例を
示す図である。

【図７】従来技術の説明図である。

【符号の説明】

１新規話者音声特徴量抽出手段２音響特性抽出手段３変換関数生成手段４標準話者音声特徴量記憶手段５変換関数切り換え手段６音声特徴量変換手段７標準話者音声認識手段

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/02 301 G10L 3/00 521 G10L 3/00 531 G10L 3/00 539 G10L 9/10 301

Claims

(57)【特許請求の範囲】

【請求項１】新規話者音声の特徴量を標準話者音声の
特徴量に変換する変換関数を生成して用いる話者適応音
声認識方法において，入力音声の各時刻における音響特
性に対応する複数の変換関数を，学習により生成する過
程と，認識時に，入力音声の各時刻における音響特性に
より，複数の変換関数中で使用する変換関数を切り換え
て，新規話者音声の特徴量を標準話者音声の特徴量に変
換する過程とを備えたことを特徴とする話者適応音声認
識方法。
【請求項２】請求項１記載の話者適応音声認識方法に
おいて，複数の変換関数に各々対応する音響特性とし
て，弁別素性を用いることを特徴とする話者適応音声認
識方法。
【請求項３】請求項１記載の話者適応音声認識方法に
おいて，複数の変換関数に各々対応する音響特性とし
て，有声音，無声音および無音を用いることを特徴とす
る話者適応音声認識方法。
【請求項４】請求項１，請求項２または請求項３記載
の話者適応音声認識方法において，変換関数を回帰分析
で求めることを特徴とする話者適応音声認識方法。
【請求項５】請求項１，請求項２または請求項３記載
の話者適応音声認識方法において，変換関数をニューラ
ルネットで求め，音響特性に応じたニューラルネットで
実現される複数の変換関数により入力音声の特徴量を標
準話者音声の特徴量に変換することを特徴とする話者適
応音声認識方法。
【請求項６】新規話者音声の特徴量を標準話者音声の
特徴量に変換する変換関数を生成して用いることにより
音声認識を行う話者適応音声認識装置において，入力さ
れた新規話者の音声からその特徴量を抽出する新規話者
音声特徴量抽出手段(1) と，抽出した特徴量から，あら
かじめ定められた複数の音響特性に関する音響特性時系
列を抽出する音響特性抽出手段(2) と，認識時に参照す
る標準話者音声の特徴量時系列を記憶する標準話者音声
特徴量記憶手段(4) と，入力された新規話者の音声に対
応する標準話者音声の特徴量時系列を，前記標準話者音
声特徴量記憶手段(4) から読み出し，各時刻の音響特性
に対応して新規話者音声の特徴量を標準話者音声の特徴
量に変換する複数の変換関数を，前記音響特性抽出手段
(2) により抽出した音響特性に応じて生成する変換関数
生成手段(3) と，音声認識時に前記音響特性抽出手段
(2) により抽出した入力音声の各時刻における音響特性
により，使用する変換関数を切り換える変換関数切り換
え手段(5) と，この変換関数切り換え手段(5) によって
選択された変換関数により，新規話者音声の特徴量を標
準話者音声の特徴量に変換する音声特徴量変換手段(6)
と，変換された音声の特徴量と，前記標準話者音声特徴
量記憶手段(4) から読み出した標準音声の特徴量との照
合により音声認識を行う標準話者音声認識手段(7) とを
備えたことを特徴とする話者適応音声認識装置。