JP2733955B2

JP2733955B2 - 適応型音声認識装置

Info

Publication number: JP2733955B2
Application number: JP63122559A
Authority: JP
Inventors: 和永吉田; 隆夫渡辺
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1988-05-18
Filing date: 1988-05-18
Publication date: 1998-03-30
Anticipated expiration: 2013-03-30
Also published as: EP0342630B1; EP0342630A2; US5150449A; JPH01291298A; DE68912397T2; EP0342630A3; DE68912397D1

Description

【発明の詳細な説明】（産業上の利用分野）本発明は音声を認識する音声認識装置において、異な
る話者や異なる環境における発声に適応できる適応型音
声認識装置に関する。

（従来の技術）従来、入力された音声を、あらかじめ保持されている
標準的な発声の音声パターンである標準パターンをもと
に認識する方法は存在した。このような方法には、たと
えば、共立出版株式会社の「音声認識」（以下「文献
１」と称す）の101頁から113頁に述べられているような
DPマッチングによる方法や、Proceeding of The IEEE.V
ol.73,No.11の1625頁に“Structural Methodsin Automa
tic Speech Recognition"（1985年11月）と題されて発
表されている論文に述べられている隠れマルコフ・モデ
ル（HMM）による方法などがある。

これらの方法を用いた音声認識装置において、標準パ
ターン作成に用いた話者以外の特定の話者（以下特定話
者と呼ぶことにする）の音声を認識する場合、話者によ
り音声パターンは大きく異なるので、その話者の音声に
より標準パターンを変更しなければ高い認識性能は得ら
れない。また、標準パターン作成に用いた音声と、周囲
雑音の大きさや電話回線の有無等が異なる環境で発声さ
れた音声を認識する場合も、音声パターンが大きく変形
するので標準パターンの変更が必要である。以下、特定
話者の音声を認識する場合に限定して述べるが、発声環
境が異なる音声を認識する場合も同様である。

通常、特定話者の音声を認識する場合、その特定話者
が認識対象語を全て発声し、その音声により標準パター
ンを入れ換える必要があった。しかし、認識対象語彙が
多い場合、全ての認識対象音声を発声するには多くの労
力が必要であるという欠点があった。

このような欠点に対し、少量の音声により標準パター
ンを特定話者に適応化する手法が既に提案されている。
たとえば、IEEE,ICASSP 86 49.5,の2643頁に“Speaker
Adaptation Through Vector Quantization"（1986年）
と題されて発表されている論文（以下「文献２」と称
す）には、ベクトル量子化法に基づく話者適応化法が述
べられている。

この方法では、まず、標準的な発声の音声のパターン
よりベクトル量子化のためのコードブック（以下標準コ
ードブックと呼ぶ）を作成し、この標準コードブックを
用いて、音声パターンをベクトル量子化し標準パターン
を作成する。特定話者の音声を認識する場合、あらかじ
め、その話者が発生した認識対象語の一部（または全
部）の音声パターン（学習パターン）を用いて標準コー
ドブックを適応化し、適応化コードブックを作成する。
この適応化コードブックを標準コードブックの替わりに
用いることにより、ベクトル量子化された標準パターン
を変更することなしに、特定話者の音声を認識すること
ができる。すなわち、認識対象語彙が大きい場合でも、
全語彙を発声することなしに一部の単語を発声すること
により、特定話者の音声を認識することが可能となる。

次に、適応化コードブックの作成法について述べる。
まず、学習パターンよりコードブック（以下「学習コー
ドブック」と呼ぶ）を作成、この学習コードブックを用
いて学習パターンをベクトル量子化する。続いて、同一
単語の標準パターンと学習パターンを、DPマッチングを
用いて時間軸の対応付けを行う。この標準コードブック
中のコードベクトル（標準コードベクトル）に対応付け
られた学習コードブック中のコードベクトル（学習コー
ドベクトル）の頻度をヒストグラムの形で保存する。適
応化コードブックは、標準コードベクトルに対応付けら
れた学習コードベクトルをヒストグラム中の出現頻度で
重み付け、平均化することにより得られる。

（発明が解決しようとする問題点）引用文献２に述べられているような従来法では、ベク
トル量子化を用いているため、量子化誤差に起因する認
識性能の低下が避けられなかった。

また、音声パターンの、話者や発声環境のちがいによ
る変形のしかたは、前後の音素環境により異なる。その
ため、従来法のように１時刻点におけるベクトルをもと
に変換する方法では、前後の音素環境を考慮することが
できないので適切な変換が行えないという欠点があっ
た。

本発明は、量子化誤差の影響のない、前後の音素環境
をも考慮可能な、高性能な音声パターン適応化法を実現
するものである。

（問題点を解決するための手段）本願の第１の発明による適応型音声認識装置は、標準
的な音声パターンである標準パターンを保持する標準パ
ターンメモリ部と、前記標準パターンを適応化標準パタ
ーンに変換するニューラルネットワーク部と、入力され
た音声パターンである入力パターンを前記適応化標準パ
ターンを用いて認識する認識部と、前記ニューラルネッ
トワーク部を学習する場合、入力された学習パターンと
前記標準パターンの時間軸の対応付けを行う時間軸整合
部と、前記標準パターンを前記ニューラルネットワーク
部に入力した際に出力すべきパターンを与える教師信号
として前記時間軸に対応付けられた時刻点の学習パター
ンを用いて前記ニューラルネットワーク部の学習を制御
する学習制御部とを有する。

本願の第２の発明による適応型音声認識装置は、標準
的な音声パターンである標準パターンを保持する標準パ
ターンメモリ部と、入力された音声パターンである入力
パターンを適応化音声パターンに変換するニューラルネ
ットワーク部と、前記適応化音声パターンを前記標準パ
ターンを用いて認識する認識部と、前記ニューラルネッ
トワーク部を学習する場合、入力された学習パターンと
前記標準パターンの時間軸の対応付けを行う時間軸整合
部と、前記学習パターンを前記ニューラルネットワーク
部に入力した際に出力すべきパターンを与える教師信号
として前記時間軸が対応付けられた時刻点の標準パター
ンを用いて前記ニューラルネットワーク部の学習を制御
する学習制御部とを有する。

また、本願の第３の発明による適応型音声認識装置
は、前記本願の第１の発明に加え、前記適応化標準パタ
ーンを保持する適応化標準パターン部を有する。

本願の第４の発明による適応型音声認識装置は、前記
本願の第１および２および３の発明に加え、学習時に、
前記ニューラルネットワーク部の入力に、教師信号と対
応する時刻点の近傍の時間における音声パターンを提示
する読み出し制御部を有する。

（作用）本願の第１の発明による適応型音声認識装置は、標準
的な話者の音声により作成された標準パターンを、ニュ
ーラルネットワークを用いて特定の話者の標準パターン
に変換し、これにより特定話者の音声を認識するもので
ある。本願の第２の発明による適応型音声認識装置は、
入力された特定話者の音声をニューラルネットワークを
用いて標準的な話者の音声パターンに変換し、それを標
準的な話者の標準パターンにより認識するものである。

ここで用いるニューラルネットワークには、例えば
「日経エレクトロニクス」誌427号（1987年８月）の115
頁から124頁に「ニューラル・ネットをパターン認識、
信号処理、知識処理に使う」と題された記事（以下引用
文献３と称す）により詳細に解説されているパターン連
想型ニューラル・ネットを用いることができる。第３図
は、このニューラルネットワークの構造を示すものであ
る。図に示すように、このニューラルネットワークは入
力層、中間層、出力層の各層が階層構造になっている。
中間層は、この図では１層となっているが２層以上の多
層でもよい。中間層の無いネットワークもありうる。

ニューラルネットワークの各ユニットの出力は、その
ユニットに接続されているユニットからの出力に重みｗ
を掛けたものの総和の値を、非線形関数により変換した
ものである。このようにニューラルネットワークの変換
特性は、重みｗにより決定される。重みｗの値は、学習
により決定できる。

音声パターンは、入力された音声を分析したものであ
る。分析法としては、ケプストラム分析等、引用文献１
の30頁に述べられている。さまざまな方法を用いること
ができる。このような音声パターンは、特徴ベクトルの
時系列、である。ただしＩは音声パターンのフレーム数、Ｐは特
徴ベクトルの次元数である。

本発明では、（１）式に示された特徴ベクトルを、ニューラルネットワークを用いて適応化特徴ベクト
ルに変換する。すなわち、入力層の各ユニット（Ｐ個）に
特徴ベクトルの各要素ａ（i,p）の値が入力されると、
中間層、出力層の各ユニットの出力が計算され、出力層
（Ｐ個）の各ユニットに適応化特徴ベクトル（i,p）
の値が出力される。

入力層に与える特徴ベクトルは、以上述べたような１
つのベクトルだけでなく、時刻ｉの近傍のいくつかのベクトル列を１度に提示することもできる。このように、特徴ベク
トル変換時に前後数フレームをふくむ特徴ベクトルを入
力層に提示することにより、音素環境を考慮した変換が
可能となる。

次に、このニューラルネットワークの内部パラメータ
（重みｗ）の学習法について述べる。音声パターンＡが
適応すべき音声パターンとして、があるとする。これは、例えば、音声パターンＡと異な
る話者により発声された同一単語とする。まず、音声パ
ターンＡとＢの間の時間軸の対応を求める。

すなわち、音声パターンＡのフレームｉに対応する音
声パターンＢのフレームｊを与えるテーブルｊ（ｉ）を
求める。これは、引用文献２に述べられている方法と同
様、DPマッチングを用いて求めることができる。また、
この時間軸の対応付けは線形伸縮により、少ない計算量
で求めることができる。すなわち、ｊ＝ｊ（ｉ）＝（ｉ×Ｊ）/I. （３）により、時間軸の対応付けを求めることができる。

この対応付けの結果を基に、ニューラルネットワーク
の入力層に音声パターンを与え、そのときの望ましい出力値（教師信号）である
対応する音声パターンにより近い値を出力するようにニューラルネットワーク
の内部パラメータを学習する。この学習は、引用文献３
に詳しく述べられているバックプロパゲーションを用い
て実行できる。この時、ある程度の量の学習用音声パタ
ーンをくり返し提示して学習を行う。

（実施例）本願の第１の発明による実施例について図面を参照し
て説明する。第１図は第１の発明の一実施例を示す構成
図である。まず最初にニューラルネットワーク部10の内
部パラメータを学習する学習フェーズについて説明す
る。

標準パターンメモリ部11中には標準的な話者の音声に
より作成された標準パターンが、あらかじめ保持されて
いる。まず、使用者である特定話者の音声パターン（学
習パターン）を学習パターンメモリ部12内に読み込む。
この学習パターンは、標準パターンを構成する一部（ま
たは全部）の単語よりなる音声パターンである。

時間軸整合部13では、標準パターンメモリ部11より読
み出した標準パターンＡと、学習パターンメモリ部12よ
り読み出した、同一単語の学習パターンＢとを、DPマッ
チング法をもちいて時間軸の対応を求め、標準パターン
Ａの特徴ベクトルａ（ｉ）に対応する学習パターンＢの
特徴ベクトルｂ（ｊ（ｉ））を求める。学習制御部14
は、特徴ベクトルｂ（ｊ（ｉ））が入力されると、ま
ず、読み出し制御部15に対しフレーム番号ｉが出力され
る。読み出し制御部15からの制御信号ｋ（ｉ−ｅ≦ｋ≦
ｉ＋ｅ）により、標準パターンメモリ部11から、フレー
ム番号ｉの近傍の標準パターンａ（ｋ）が読み出され
る。この標準パターンａ（ｋ），（ｉ−ｅ≦ｋ≦ｉ＋
ｅ）がニューラルネットワーク部10に入力されると、学
習制御部14は、特徴ベクトルｂ（ｊ（ｉ））を教師信号
として、ニューラルネットワーク部10の内部パラメータ
を更新して学習をすすめる。この学習アルゴリズムとし
ては、引用文献３に詳しく述べられているバックプロパ
ゲーションを用いる。

以上述べた学習操作を全ての学習パターンＢに対し、
繰り返し実行することにより、ニューラルネットワーク
部10の内部パラメータの学習を進める。ニューラルネッ
トワーク部10の学習が完了すると、標準パターンメモリ
部11内の全ての標準パターンＡは、ニューラルネットワ
ーク部10により変換され、適応化標準パターンとし
て、適応化標準パターンメモリ部16に保持される。以上
で学習フェーズは終了する。

認識フェーズでは、入力された前記特定話者の音声パ
ターンＸは、認識部17において、適応化標準パターンメ
モリ16内の適応化標準パターンをもとに認識され、結
果Ｒが出力される。認識方法としては、例えば、引用文
献１に述べられているようなDPマッチング法を用いる。
適応化標準パターンは、すでに特定話者に対して適応
化されているので、認識時には特別な処理は必要ない。

この適応化標準パターンメモリ部16を持たずに、認識
時、標準パターンを読み出す時にニューラルネットワー
ク部10で変換することも可能である。

続いて、本願の第２の発明による実施例について図面
を参照して説明する。

第２図は第２の発明の一実施例を示す構成図である。
まず最初にニューラルネットワーク部20の内部パラメー
タを学習する学習フェーズについて説明する。

標準パターンメモリ部21中には標準的な話者の音声に
より作成された標準パターンが、あらかじめ保持されて
いる。まず、使用者である特定話者の音声パターン（学
習パターン）を学習パターンメモリ部22内に読み込む。
この学習パターンは、標準パターンを構成する一部（ま
たは全部）の単語よりなる音声パターンである。

時間軸整合部23では、標準パターンメモリ部21より読
み出した標準パターンＢと、学習パターンメモリ部22よ
り読み出した、同一単語の学習パターンＡとを、DPマッ
チング法をもちいて時間軸の対応を求め、学習パターン
Ａの特徴ベクトルａ（ｉ）に対応する標準パターンＢの
特徴ベクトルｂ（ｊ（ｉ））を求める。学習制御部24
は、特徴ベクトルｂ（ｊ（ｉ））が入力されると、ま
ず、読み出し制御部25に対しフレーム番号ｉが出力され
る。読み出し制御部25からの制御信号ｋ（ｉ−ｅ≦ｋ≦
ｉ＋ｅ）により、学習パターンメモリ部22から、フレー
ム番号ｉの近傍の標準パターンａ（ｋ）が読み出され
る。この標準パターンａ（ｋ），（ｉ−ｅ≦ｋ≦ｉ＋
ｅ）がニューラルネットワーク部20に入力されると、学
習制御部24は、特徴ベクトルｂ（ｊ（ｉ））を教師信号
として、ニューラルネットワーク部20の内部パラメータ
を更新して学習をすすめる。この学習アルゴリズムとし
ては、引用文献３に詳しく述べられているバックプロパ
ゲーションを用いる。

以上述べた学習操作を全ての学習パターンＡに対し、
繰り返し実行することにより、ニューラルネットワーク
部20の内部パラメータの学習を進める。ニューラルネッ
トワーク部20の学習が完了すると、学習フェーズは終了
する。

認識フェーズでは、入力された前記特定話者の音声パ
ターンＸは、ニューラルネットワーク部20に入力され、
適応化音声パターンに変換される。この適応化音声パ
ターンは、認識部26において、標準パターンメモリ部
21内の標準パターンＢをもとに認識され、結果Ｒが出力
される。認識方法としては、例えば、引用文献１に述べ
られているようなDPマッチング法を用いる。

第２の発明によれば、認識時に入力された音声パター
ンをニューラルネットワークにより変換する必要がある
が、認識語彙の変更等により標準パターンを変更した場
合でも、標準パターンを変換しなおす必要はない。この
ため、認識対象語彙を頻繁に変更する場合は有利であ
る。

（発明の効果）本発明によれば、新しい話者や環境に、少量の発声に
より適応でき、かつ高性能な適応型音声認識装置を実現
できる。

【図面の簡単な説明】

第１図は、本願の第１の発明の一実施例を示す構成図。第２図は、本願の第２の発明の一実施例を示す構成図。第３図は、ニューラルネットワークの構造を示す図であ
る。

Claims

(57)【特許請求の範囲】

【請求項１】標準的な音声パターンである標準パターン
を保持する標準パターンメモリ部と、前記標準パターン
を適応化標準パターンに変換するニューラルネットワー
ク部と、入力された音声パターンである入力パターンを
前記適応化標準パターンを用いて認識する認識部と、前
記ニューラルネットワーク部を学習する場合、入力され
た学習パターンと前記標準パターンの時間軸の対応付け
を行う時間軸整合部と、前記標準パターンを前記ニュー
ラルネットワーク部に入力した際に出力すべきパターン
を与える教師信号として前記時間軸に対応付けられた時
刻点の学習パターンを用いて前記ニューラルネットワー
ク部の学習を制御する学習制御部とを有する適応型音声
認識装置。
【請求項２】標準的な音声パターンである標準パターン
を保持する標準パターンメモリ部と、入力された音声パ
ターンである入力パターンを適応化音声パターンに変換
するニューラルネットワーク部と、前記適応化音声パタ
ーンを前記標準パターンを用いて認識する認識部と、前
記ニューラルネットワーク部を学習する場合、入力され
た学習パターンと前記標準パターンの時間軸の対応付け
を行う時間軸整合部と、前記学習パターンを前記ニュー
ラルネットワーク部に入力した際に出力すべきパターン
を与える教師信号として前記時間軸が対応付けられた時
刻点の標準パターンを用いて前記ニューラルネットワー
ク部の学習を制御する学習制御部とを有する適応型音声
認識装置。
【請求項３】前記適応化標準パターンを保持する適応化
標準パターンメモリ部を有する請求項１記載の適応型音
声認識装置。
【請求項４】学習時に、前記ニューラルネットワーク部
の入力に、教師信号と対応する時刻点の近傍の時間にお
ける音声パターンを提示する読み出し制御部を有する請
求項１、２または３記載の適応型音声認識装置。