JP3014177B2

JP3014177B2 - 話者適応音声認識装置

Info

Publication number: JP3014177B2
Application number: JP3198179A
Authority: JP
Inventors: 徹真田; 晋太木村
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1991-08-08
Filing date: 1991-08-08
Publication date: 2000-02-28
Anticipated expiration: 2015-02-28
Also published as: JPH0540497A; US5375173A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、新規話者の音声を認識
する話者適応音声認識装置に関し、特に、高い認識率を
実現できる話者適応音声認識装置に関するものである。

【０００２】音声認識装置は、音声のスペクトルパター
ンと音声内容との対応関係を管理する構成を採って、音
声入力が与えられるときに、その入力された音声のスペ
クトルパターンの指す音声内容を特定していくことで音
声認識を実行していく構成を採るものであるが、この構
成に従って特定話者の音声認識は実用化できるものの、
不特定話者の音声認識は認識率が低くて実用にならない
のが現状である。これから、近年、スペクトルパターン
と音声内容との対応関係の管理データを新規話者に応じ
て変更していく構成を採ることで、不特定話者の音声認
識を実行していく話者適応音声認識装置が提案されてい
る。このような話者適応音声認識装置では、スペクトル
パターンと音声内容との対応関係の管理データをできる
限り新規話者に適合するものに変更可能とする構成にし
ていく必要がある。

【０００３】

【従来の技術】図６及び図７に、従来の話者適応音声認
識装置の装置構成を図示する。図６中、１-i（ｉ＝１〜
ｎ）は複数用意される話者テンプレートであって、それ
ぞれ別々の話者の音声のスペクトルパターンとその音声
内容との対応関係を管理するもの、２はスペクトル分析
部であって、選択用音声入力が与えられるときに、その
選択用音声入力のスペクトルパターンを算出するもの、
３は話者選択部であって、スペクトル分析部２の算出す
るスペクトルパターンと、話者テンプレート１-iに格納
されるスペクトルパターンとの類似度を算出すること
で、選択用音声入力のスペクトルパターンに最も類似す
るスペクトルパターンを格納する話者テンプレート１-i
を選択するもの、４は新規話者用テンプレートであっ
て、話者選択部３により選択された話者テンプレート１
-iの管理データを新規話者用のテンプレートとして格納
するもの、５はスペクトル分析部であって、新規話者音
声入力が与えられるときに、その新規話者音声入力のス
ペクトルパターンを算出するもの、６はスペクトル照合
部であって、スペクトル分析部５の算出するスペクトル
パターンと、新規話者用テンプレート４に格納されるス
ペクトルパターンとを照合することで、新規話者音声入
力の音声内容を認識するものである。

【０００４】このように構成される図６の従来技術で
は、先ず最初に、新規話者は、選択用音声入力をスペク
トル分析部２に入力していく。このようにして、選択用
音声入力が与えられると、スペクトル分析部２は、その
選択用音声入力のスペクトルパターンを算出し、この算
出処理を受けて、話者選択部３は、この算出されたスペ
クトルパターンと、話者テンプレート１-iに格納されて
いるスペクトルパターンとの類似度を算出することで、
選択用音声入力のスペクトルパターンに最も類似するス
ペクトルパターンを格納する話者テンプレート１-iを選
択して、その話者テンプレート１-iの管理データを新規
話者用テンプレート４に格納する。

【０００５】次に、新規話者は、音声認識対象となる音
声をスペクトル分析部５に入力する。このようにして、
新規話者音声入力が与えられると、スペクトル分析部５
は、その新規話者音声入力のスペクトルパターンを算出
し、この算出処理を受けて、スペクトル照合部６は、こ
の算出されたスペクトルパターンと、新規話者用テンプ
レート４に格納されるスペクトルパターンとを照合する
ことで、新規話者音声入力の音声内容を認識する。

【０００６】このように、図６に示す従来技術では、別
々の特定話者に関しての話者テンプレート１-iを複数用
意して、最も新規話者に近い話者テンプレート１-iを選
択していくことで、不特定話者の音声認識を適応的に実
行していく構成を採るものである。

【０００７】一方、図７中、７は１つ用意される標準話
者テンプレートであって、標準話者の音声のスペクトル
パターンとその音声内容との対応関係を管理するもの、
８はニューロンのネットワーク接続により構成されて、
ニューロン間に設定される結合係数に従って規定のデー
タ変換処理を実行するニューラルネットワークであっ
て、標準話者テンプレート７の管理するスペクトルパタ
ーンを変更するもの、９はスペクトル分析部であって、
学習用音声入力が与えられるときに、その学習用音声入
力のスペクトルパターンを算出するもの、１０はニュー
ラルネットワーク８のニューロン間に設定される結合係
数を学習する学習部であって、ニューラルネットワーク
８に標準話者テンプレート７の管理するスペクトルパタ
ーンを入力するときに、ニューラルネットワーク８から
スペクトル分析部９の算出する対応のスペクトルパター
ンが出力されるようになる結合係数を学習してニューラ
ルネットワーク８に設定するもの、１１は新規話者用テ
ンプレートであって、ニューラルネットワーク８により
変換される標準話者テンプレート７の管理データを新規
話者用のテンプレートとして格納するもの、１２はスペ
クトル分析部であって、新規話者音声入力が与えられる
ときに、その新規話者音声入力のスペクトルパターンを
算出するもの、１３はスペクトル照合部であって、スペ
クトル分析部１２の算出するスペクトルパターンと、新
規話者用テンプレート１１に格納されるスペクトルパタ
ーンとを照合することで、新規話者音声入力の音声内容
を認識するものである。

【０００８】このように構成される図７の従来技術で
は、先ず最初に、新規話者は、学習用音声入力をスペク
トル分析部９に入力していく。このようにして、学習用
音声入力が与えられると、スペクトル分析部９は、その
学習用音声入力のスペクトルパターンを算出し、この算
出処理を受けて、学習部１０は、バックプロパゲーショ
ン法等の学習アルゴリズムに従って、ニューラルネット
ワーク８のニューロン間に設定する結合係数を学習し、
この学習処理を受けて、ニューラルネットワーク８は、
標準話者テンプレート７の管理するスペクトルパターン
を変換することで新規話者用テンプレート１１を生成す
る。

【０００９】次に、新規話者は、音声認識対象となる音
声をスペクトル分析部１２に入力する。このようにし
て、新規話者音声入力が与えられると、スペクトル分析
部１２は、その新規話者音声入力のスペクトルパターン
を算出し、この算出処理を受けて、スペクトル照合部１
３は、この算出されたスペクトルパターンと、新規話者
用テンプレート１１に格納されるスペクトルパターンと
を照合することで、新規話者音声入力の音声内容を認識
する。

【００１０】このように、図７に示す従来技術では、標
準話者に関しての標準話者テンプレート７を１つ用意す
るとともに、この標準話者テンプレート７の管理データ
を変換するニューラルネットワーク８と、このニューラ
ルネットワーク８のデータ変換機能を学習用音声入力に
従って学習する学習部１０とを用意して、標準話者テン
プレート７の管理データを新規話者の話者特性に近いも
のに変換していくことで、不特定話者の音声認識を適応
的に実行していく構成を採るものである。

【００１１】

【発明が解決しようとする課題】しかしながら、図６に
示す従来技術では、新規話者が用意されている話者テン
プレート１-iで想定していない話者特性を持つ場合に
は、十分な認識率が得られないという問題点があった。
この問題点を解決するために、用意する話者テンプレー
ト１-iの個数を増やしていくという方法を採ることも考
えられるが、そのようにすると、大きなメモリ容量が必
要となり実用的でなくなるという新たな問題点がでてく
ることになる。

【００１２】また、図７に示す従来技術では、ニューラ
ルネットワーク８のデータ変換機能により新規話者の話
者特性に適合する新規話者用テンプレート１１を用意で
きるものの、新規話者がニューラルネットワーク８のデ
ータ変換機能でもってカバーしきれない話者特性を持つ
場合には、十分な認識率が得られないという問題点があ
った。この問題点を解決するために、ニューラルネット
ワーク８のネットワーク規模を増大させていくという方
法を採ることも考えられるが、そのようにすると、ニュ
ーロン間の結合係数を学習していくために、膨大な数の
学習用音声入力の要求を強いることになるという新たな
問題点がでてくることになる。

【００１３】本発明はかかる事情に鑑みてなされたもの
であって、高い認識率を実現できる新たな話者適応音声
認識装置の提供を目的とするものである。

【００１４】

【課題を解決するための手段】図１に本発明の原理構成
を図示する。図中、２０-i（ｉ＝１〜ｎ）は複数用意さ
れる話者テンプレートであって、それぞれ別々の話者の
音声の音声特徴量とその音声内容との対応関係を管理す
るもの、２１-i（ｉ＝１〜ｎ）は例えば話者テンプレー
ト２０-i対応に備えられる変換部であって、設定される
パラメータに従って、話者テンプレート２０-iの管理す
る音声特徴量を変換するもの、２２は音声特徴量分析部
であって、学習用音声入力が与えられるときに、その学
習用音声入力の音声特徴量を算出するもの、２３-i（ｉ
＝１〜ｎ）は例えば話者テンプレート２０-i対応に備え
られる学習部であって、変換部２１-iにより変換される
話者テンプレート２０-iの音声特徴量が、音声特徴量分
析部２２により算出される対応の学習用音声入力の音声
特徴量と概略一致するようになる変換部２１-iのパラメ
ータを学習して変換部２１-iに設定するものである。

【００１５】２４は音声特徴量分析部であって、選択用
音声入力が与えられるときに、その選択用音声入力の音
声特徴量を算出するもの、２５は選択部であって、音声
特徴量分析部２４の算出する選択用音声入力の音声特徴
量と、変換部２１-iの変換する対応の音声特徴量とを比
較することで、変換部２１-iにより変換される音声特徴
量が選択用音声入力の音声特徴量に近いものを示す１つ
又は複数の話者テンプレート２０-iを選択するもの、２
６は新規話者用テンプレートであって、選択部２５によ
り選択された変換部２１-iの変換する話者テンプレート
２０-iの管理データを新規話者用のテンプレートとして
格納するもの、２７は音声特徴量分析部であって、新規
話者音声入力が与えられるときに、その新規話者音声入
力の音声特徴量を算出するもの、２８は音声特徴量照合
部であって、音声特徴量分析部２７の算出する音声特徴
量と、新規話者用テンプレート２６に格納される音声特
徴量とを照合することで、新規話者音声入力の音声内容
を認識するものである。

【００１６】この構成にあって、変換部２１-iは、有声
音や無声音等といった音声属性毎に設定されるパラメー
タに従って変換処理を実行し、この変換処理を受けて、
学習部２３-iは、変換部２１-iに設定される音声属性毎
のパラメータを学習していく構成を採ることがある。こ
の構成を採ることで、音声属性に適合した高い認識処理
を実行できることになる。また、変換部２１-iは、線形
変換処理に従って変換処理を実行し、この変換処理を受
けて、学習部２３-iは、線形回帰分析に従ってこの線形
変換処理のパラメータを学習していく構成を採ることが
ある。また、変換部２１-iは、１つ又は複数の入力とこ
の入力に乗算されるべき内部状態値とを受け取って積和
値を得るとともに、この積和値を規定関数によって変換
して最終出力を得る基本ユニットを基本単位として、こ
の基本ユニットのネットワーク接続から構成されて、こ
れらの内部状態値をパラメータとして変換処理を実行
し、この変換処理を受けて、学習部２３-iは、これらの
内部状態値を学習していく構成を採ることがある。そし
て、音声特徴量分析部２４に入力される選択用音声入力
として、音声特徴量分析部２２に入力される学習用音声
入力を用いる構成を採ることがある。この構成を採るこ
とで、選択用音声入力の入力処理を省略できることにな
る。

【００１７】

【作用】本発明では、先ず最初に、新規話者は、学習用
音声入力を音声特徴量分析部２２に入力していく。この
ようにして、学習用音声入力が与えられると、音声特徴
量分析部２２は、その学習用音声入力の音声特徴量を算
出し、この算出処理を受けて、各学習部２３-iは、例え
ば、変換部２１-iが上述の基本ユニットの階層ネットワ
ーク接続から構成される場合には、バックプロパゲーシ
ョン法に従って、変換部２１-iにより変換される話者テ
ンプレート２０-iの音声特徴量が、音声特徴量分析部２
２により算出される対応の学習用音声入力の音声特徴量
と概略一致するようになる変換部２１-iのパラメータを
学習し、この学習処理を受けて、変換部２１-iは、学習
されたパラメータに従って対応の話者テンプレート２０
-iの管理する音声特徴量を変換していく。また、各学習
部２３-iは、例えば、変換部２１-iが線形変換処理に従
って変換処理を実行する場合には、線形回帰分析に従っ
て、変換部２１-iにより変換される話者テンプレート２
０-iの音声特徴量が、音声特徴量分析部２２により算出
される対応の学習用音声入力の音声特徴量と概略一致す
るようになる線形変換処理のパラメータを学習し、この
学習処理を受けて、変換部２１-iは、学習されたパラメ
ータに従って対応の話者テンプレート２０-iの管理する
音声特徴量を変換していく。

【００１８】次に、新規話者は、選択用音声入力を音声
特徴量分析部２４に入力していく。このようにして、選
択用音声入力が与えられると、音声特徴量分析部２４
は、その選択用音声入力の音声特徴量を算出し、この算
出処理を受けて、選択部２５は、この算出された音声特
徴量と、変換部２１-iの変換した対応の音声特徴量とを
比較することで、変換部２１-iにより変換された音声特
徴量が選択用音声入力の音声特徴量に近いものを示す話
者テンプレート２０-iを選択して、変換部２１-iにより
変換されたその話者テンプレート２０-iの管理データを
新規話者用テンプレート２６に格納する。

【００１９】続いて、新規話者は、音声認識対象となる
音声を音声特徴量分析部２７に入力する。このようにし
て、新規話者音声入力が与えられると、音声特徴量分析
部２７は、その新規話者音声入力の音声特徴量を算出
し、この算出処理を受けて、音声特徴量照合部２８は、
この算出された音声特徴量と、新規話者用テンプレート
２６に格納される音声特徴量とを照合することで、新規
話者音声入力の音声内容を認識する。

【００２０】このように、本発明では、話者テンプレー
ト２０-iを複数用意するとともに、この話者テンプレー
ト２０-iの管理データを変換する変換部２１-iと、この
変換部２１-iのデータ変換機能を学習用音声入力に従っ
て学習する学習部２３-iとを用意して、各話者テンプレ
ート２０-iの管理データを新規話者の話者特性に近いも
のに変換していくとともに、その変換した話者テンプレ
ート２０-iの管理データの内で最も新規話者の話者特性
に近いものを音声認識用に選択していくことで、不特定
話者の音声認識を適応的に実行していく構成を採るもの
であることから、変換部２１-iの規模を大きくすること
なく新規話者の音声認識を高い認識率でもって実現でき
るようになるのである。

【００２１】

【実施例】以下、実施例に従って本発明を詳細に説明す
る。図２に、本発明の一実施例を図示する。図中、図１
で説明したものと同じものについては同一の記号で示し
てある。この実施例では、図１で説明した音声特徴量と
してスペクトルパターンを用いている。これから、この
実施例では、図１で説明した変換部２１-i、音声特徴量
分析部２２、音声特徴量分析部２４、音声特徴量分析部
２７、音声特徴量照合部２８を、それぞれ、スペクトル
変換部２１ａ-i、スペクトル分析部２２ａ、スペクトル
分析部２４ａ、スペクトル分析部２７ａ、スペクトル照
合部２８ａとして開示してある。

【００２２】次に、図２に示す実施例の各機能部分の備
える構成要素について詳述する。スペクトル変換部２１
ａ-iは、話者テンプレート２０-iから読み出す帯域スペ
クトルの時系列データ（スペクトルパターン）を回帰パ
ラメータを線形係数として線形変換する線形変換部２１
１と、話者テンプレート２０-iから読み出す帯域スペク
トルの時系列データの各時点の帯域スペクトルが有声音
か無声音か無音かを識別する音種別識別部２１２と、有
声音／無声音／無音毎に設定される回帰パラメータを管
理して、音種別識別部２１２が識別した音種別の回帰パ
ラメータを選択して線形変換部２１１に通知する回帰パ
ラメータ記憶部２１３とから構成される。すなわち、ス
ペクトル変換部２１ａ-iは、話者テンプレート２０-iに
格納される帯域スペクトルの各帯域の値ｘ₁〜ｘ_mと、
音種別に対応付けて設定される回帰パラメータａ₀〜ａ
_mとを用いて、ｙ_i＝ａ₀＋ａ₁ｘ₁＋ａ₂ｘ₂＋・・・＋ａ_mｘ_m （１≦ｉ≦ｍ）に従って、変換後の帯域スペクトルの各帯域の値ｙ₁〜
ｙ_mを算出していく変換処理を実行するのである。

【００２３】スペクトル分析部２２ａは、学習用音声の
入力処理を実行する音声入力部２２１と、音声入力部２
２１により入力された学習用音声の帯域スペクトルの時
系列データを計算する帯域スペクトル計算部２２２とを
備える。

【００２４】学習部２３-iは、帯域スペクトル計算部２
２２の算出した帯域スペクトル時系列データを記憶する
帯域スペクトル時系列記憶部２３１と、帯域スペクトル
時系列記憶部２３１に記憶される帯域スペクトル時系列
データに対応付けられる話者テンプレート２０-iの帯域
スペクトル時系列データを展開する帯域スペクトル時系
列記憶部２３２と、２つの帯域スペクトル時系列記憶部
２３１，２３２に記憶される帯域スペクトル時系列デー
タのＤＰマッチング処理を行って、この２つの帯域スペ
クトル時系列データの時間軸を伸縮して対応付けを行う
ＤＰマッチング部２３３と、ＤＰマッチング部２３３に
より対応付けられた帯域スペクトル時系列データ対の各
時点の帯域スペクトルが有声音か無声音か無音かを識別
する音種別識別部２３４と、音種別識別部２３４の識別
結果に従って、ＤＰマッチング部２３３により対応付け
られた帯域スペクトル対を有声音／無声音／無音毎に記
憶する帯域スペクトル対記憶部２３５と、帯域スペクト
ル対記憶部２３５に格納される帯域スペクトル対の対応
関係を線形回帰分析に従って回帰パラメータとして算出
して、回帰パラメータ記憶部２１３の対応の管理領域に
格納する線形回帰分析部２３６とから構成される。すな
わち、学習部２３-iは、話者テンプレート２０-iに格納
される帯域スペクトル時系列データを学習用音声の帯域
スペクトル時系列データに変換できるようにする回帰パ
ラメータを求めて、スペクトル変換部２１ａ-iに設定し
ていくよう処理するのである。

【００２５】スペクトル分析部２４ａは、選択用音声の
入力処理を実行する音声入力部２４１と、音声入力部２
４１により入力された選択用音声の帯域スペクトルの時
系列データを計算する帯域スペクトル計算部２４２とを
備える。

【００２６】選択部２５は、帯域スペクトル計算部２４
２の算出した帯域スペクトル時系列データと、線形変換
部２１１の変換した各話者テンプレート２０-iの対応の
帯域スペクトル時系列データとの距離をＤＰマッチング
処理に従って算出するＤＰ距離計算部２５１と、ＤＰ距
離計算部２５１の算出した距離の内で最小の距離を示す
話者テンプレート２０-iを特定して、スペクトル変換部
２１ａ-iにより変換されるこの話者テンプレート２０-i
の帯域スペクトル時系列データを新規話者用テンプレー
ト２６に格納する最小距離話者選択部２５２とを備え
る。

【００２７】スペクトル分析部２７ａは、音声の認識対
象となる新規話者音声の入力処理を実行する音声入力部
２７１と、音声入力部２７１により入力された新規話者
音声の帯域スペクトルの時系列データを計算する帯域ス
ペクトル計算部２７２とを備える。

【００２８】スペクトル照合部２８ａは、帯域スペクト
ル計算部２７２の算出した帯域スペクトル時系列データ
と、新規話者用テンプレート２６に格納される各帯域ス
ペクトル時系列データとの距離をＤＰマッチング処理に
従って算出するＤＰ距離計算部２８１と、ＤＰ距離計算
部２８１の算出した距離の内で最小の距離を示す帯域ス
ペクトル時系列データを特定して、その特定した帯域ス
ペクトル時系列データに対応付けられる文字列を音声認
識結果として出力する最小距離検索部２８２とを備え
る。

【００２９】次に、このように構成される実施例の音声
認識処理について説明する。音声の認識対象となる新規
話者は、先ず最初に、学習用音声を音声入力部２２１に
入力し、この学習用音声の入力を受けて、帯域スペクト
ル計算部２２２は、この学習用音声の帯域スペクトル時
系列データを計算して、帯域スペクトル時系列記憶部２
３１に格納していく。このようにして、学習用音声の帯
域スペクトル時系列データが帯域スペクトル時系列記憶
部２３１に格納されると、ＤＰマッチング部２３３は、
この帯域スペクトル時系列記憶部２３１に格納される帯
域スペクトル時系列データと、これに対応する話者テン
プレート２０-iに格納される帯域スペクトル時系列デー
タとのＤＰマッチング処理を行って対応付けを行い、音
種別識別部２３４は、この対応付けられた帯域スペクト
ル対の音種別を識別して、その識別結果に従って、この
対応付けられた帯域スペクトル対を帯域スペクトル対記
憶部２３５の対応する管理領域に格納していく。

【００３０】このようにして、帯域スペクトル対記憶部
２３５に帯域スペクトル対が格納されると、線形回帰分
析部２３６は、帯域スペクトル対記憶部２３５に格納さ
れる帯域スペクトル対の対応関係を線形回帰分析に従っ
て回帰パラメータとして算出して、回帰パラメータ記憶
部２１３の対応する管理領域に格納する。そして、この
回帰パラメータの格納処理を受けて、線形変換部２１１
は、話者テンプレート２０-iから帯域スペクトル時系列
データを読み出すと、音種別識別部２１２の処理に従っ
て通知される回帰パラメータを用いて、その読み出した
帯域スペクトル時系列データを線形変換していく。

【００３１】このようにして、スペクトル変換部２１ａ
-iは、話者テンプレート２０-iに格納される帯域スペク
トル時系列データを学習用音声に類似するものに線形変
換していくのである。

【００３２】次に、新規話者は、選択用音声を音声入力
部２４１に入力し、この選択用音声の入力を受けて、帯
域スペクトル計算部２４２は、この選択用音声の帯域ス
ペクトル時系列データを計算する。この算出処理を受け
て、ＤＰ距離計算部２５１は、この算出された選択用音
声の帯域スペクトル時系列データと、線形変換部２１１
の変換した各話者テンプレート２０-iの対応の帯域スペ
クトル時系列データとの距離を算出し、この算出処理を
受けて、最小距離話者選択部２５２は、算出された距離
の内で最小の距離を示す話者テンプレート２０-iを特定
して、スペクトル変換部２１ａ-iにより変換されるこの
話者テンプレート２０-iの帯域スペクトル時系列データ
を新規話者用テンプレート２６に格納していく。

【００３３】このようにして、選択部２５は、新規話者
の話者特性に類似する新規話者用テンプレート２６を生
成していくのである。続いて、新規話者は、音声認識対
象となる新規話者音声を音声入力部２７１に入力し、こ
の新規話者音声の入力を受けて、帯域スペクトル計算部
２７２は、この新規話者音声の帯域スペクトル時系列デ
ータを計算する。この算出処理を受けて、ＤＰ距離計算
部２８１は、この算出された新規話者音声の帯域スペク
トル時系列データと、新規話者用テンプレート２６に格
納される各帯域スペクトル時系列データとの距離を算出
し、この算出処理を受けて、最小距離検索部２８２は、
算出された距離の内で最小の距離を示す帯域スペクトル
時系列データを特定して、その特定した帯域スペクトル
時系列データに対応付けられる文字列を音声認識結果と
して出力していく。

【００３４】このようにして、スペクトル照合部２８ａ
は、新規話者の話者特性に類似する形態で生成された新
規話者用テンプレート２６を用いて、新規話者音声の音
声認識処理を実行していくのである。

【００３５】このように、本発明では、話者テンプレー
ト２０-iを複数用意するとともに、この話者テンプレー
ト２０-iの管理データを学習用音声に類似するものに変
換して、その変換した話者テンプレート２０-iの管理デ
ータの内で最も新規話者の話者特性に近いものを用いて
音声認識処理を実行していく構成を採るものであること
から、新規話者の音声認識を高い認識率をもって実現で
きるようになるのである。

【００３６】図３及び図４に、本発明の他の実施例を図
示する。ここで、図２の実施例と同じものについては同
一の記号で示してある。この図３の実施例は、選択用音
声として、帯域スペクトル時系列記憶部２３１に格納さ
れる学習用音声の帯域スペクトル時系列データを用いる
ことで構成される実施例である。このように、帯域スペ
クトル時系列記憶部２３１に格納される学習用音声の帯
域スペクトル時系列データを選択用音声の帯域スペクト
ル時系列データとして用いる構成を採ることから、この
図３の実施例では、図２の実施例で必要としたスペクト
ル分析部２４ａが必要なくなることになる。

【００３７】一方、図４の実施例は、スペクトル変換部
２１ａ-iをニューラルネットワーク２１４で構成する実
施例である。このニューラルネットワーク２１４は、例
えば、図５に示すように、話者テンプレート２０-iから
読み出される帯域スペクトル時系列データを受け取って
分配する入力ユニット３０の複数により構成される入力
層と、この入力層の後段に位置して、入力層からの１つ
又は複数の入力と、この入力に対して乗算されるべき重
み値とを受け取って積和を得るとともに、この積和値を
所定の規定関数によって変換することで最終出力を得る
基本ユニット３１の複数により構成される中間層と、こ
の中間層の後段に位置して、中間層からの１つ又は複数
の入力と、この入力に対して乗算されるべき重み値とを
受け取って積和を得るとともに、この積和値を所定の規
定関数によって変換することで最終出力を得る基本ユニ
ット３２の複数により構成されて、変換した帯域スペク
トル時系列データを出力する出力層とから構成される。

【００３８】このニューラルネットワーク２１４は、各
ユニット間に割り付けられる重み値に従ってそのデータ
変換機能を変化するものであり、学習部２３-iは、この
重み値の学習処理を実行するために、ニューラルネット
ワーク学習部２３７を備えて、話者テンプレート２０-i
に格納される帯域スペクトルをニューラルネットワーク
２１４の入力層に提示するときに、その出力層から帯域
スペクトル記憶部２３５に格納される学習用音声の対応
する帯域スペクトルが出力されることになる重み値を学
習していくことになる。

【００３９】

【発明の効果】以上説明したように、本発明によれば、
話者テンプレートを複数用意するとともに、この話者テ
ンプレートの管理データを学習用音声に類似するものに
変換して、その変換した話者テンプレートの管理データ
の内で最も新規話者の話者特性に近いものを用いて音声
認識処理を実行していく構成を採るものであることか
ら、新規話者の音声認識を高い認識率をもって実現でき
るようになるのである。

【図面の簡単な説明】

【図１】本発明の原理構成図である。

【図２】本発明の一実施例である。

【図３】本発明の他の実施例である。

【図４】本発明の他の実施例である。

【図５】ニューラルネットワークの一実施例である。

【図６】従来技術の説明図である。

【図７】従来技術の説明図である。

【符号の説明】

２０話者テンプレート２１変換部２２音声特徴量分析部２３学習部２４音声特徴量分析部２５選択部２６新規話者用テンプレート２７音声特徴量分析部２８音声特徴量照合部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩＧ１０Ｌ 15/20 Ｇ１０Ｌ 3/00 ５３９ 21/02 (56)参考文献特開昭60−200295（ＪＰ，Ａ) 特開昭58−116596（ＪＰ，Ａ) 特開昭59−180596（ＪＰ，Ａ) 特開昭63−309998（ＪＰ，Ａ) 特開昭61−121093（ＪＰ，Ａ) 特許2549010（ＪＰ，Ｂ２) 特許2704216（ＪＰ，Ｂ２) 特許2980382（ＪＰ，Ｂ２) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/10 G06F 15/18 560 G06F 17/28 G10L 15/06 G10L 15/16 G10L 15/20 G10L 21/02 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】新規話者の音声を認識する話者適応音声
認識装置において、音声特徴量と音声内容との対応関係を管理する複数の話
者テンプレートと、設定されるパラメータに従って、上記話者テンプレート
の管理する音声特徴量を変換する変換部と、上記変換部の変換する音声特徴量が学習用音声の持つ音
声特徴量と概略一致するようになる上記パラメータを学
習して上記変換部に設定する学習部と、選択用音声の持つ音声特徴量と、上記パラメータの設定
に応じて上記変換部の変換した対応の音声特徴量とを比
較することで、上記変換部の変換した音声特徴量が該選
択用音声の持つ音声特徴量に近いものを示す１つ又は複
数の上記話者テンプレートを選択する選択部とを備え、上記変換部の変換した音声特徴量の中から、上記選択部
の選択した上記話者テンプレートに対応付けられるもの
を選択することで新規話者用の話者テンプレートを生成
して、この生成される話者テンプレートを用いて新規話
者の音声入力の持つ音声内容を認識していくように処理
することを、特徴とする話者適応音声認識装置。
【請求項２】請求項１記載の話者適応音声認識装置に
おいて、変換部は、音声属性毎に設定されるパラメータに従って
変換処理を実行し、学習部は、変換部に設定される音声属性毎のパラメータ
を学習していくよう処理することを、特徴とする話者適応音声認識装置。
【請求項３】請求項１又は２記載の話者適応音声認識
装置において、変換部は、線形変換処理に従って変換処理を実行し、学習部は、線形回帰分析に従って、上記線形変換処理の
パラメータを学習していくよう処理することを、特徴とする話者適応音声認識装置。
【請求項４】請求項１又は２記載の話者適応音声認識
装置において、変換部は、１つ又は複数の入力と該入力に乗算されるべ
き内部状態値とを受け取って積和値を得るとともに、該
積和値を規定関数によって変換して最終出力を得る基本
ユニットを基本単位として、該基本ユニットのネットワ
ーク接続から構成されて、該内部状態値をパラメータと
して変換処理を実行し、学習部は、上記内部状態値を学習していくよう処理する
ことを、特徴とする話者適応音声認識装置。
【請求項５】請求項１、２、３又は４記載の話者適応
音声認識装置において、選択用音声入力として、学習用音声入力を用いていくよ
う構成されてなることを、特徴とする話者適応音声認識装置。