JP4169921B2

JP4169921B2 - 音声認識システム

Info

Publication number: JP4169921B2
Application number: JP2000298536A
Authority: JP
Inventors: 潔谷島; 聡一外山
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2000-09-29
Filing date: 2000-09-29
Publication date: 2008-10-22
Anticipated expiration: 2020-09-29
Also published as: US7065488B2; CN1346125A; EP1195744B1; DE60114968T2; JP2002108383A; US20020042712A1; CN1236421C; EP1195744A3; DE60114968D1; EP1195744A2

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識システムに関し、特に、ノイズに対してロバストな話者適応型の音声認識システムに関する。
【０００２】
【従来の技術】
従来、話者適応型の音声認識システムとして、例えば図９に示す構成のものが知られている。
【０００３】
この音声認識システムは、予め作成された不特定話者の標準音響モデル１００を備え、特定話者の発話した入力音声Ｓcの特徴ベクトルと標準音響モデル１００とを用いて話者適応音響モデル２００を作成し、その特定話者の声に適応させて音声認識を行うようになっている。
【０００４】
適応音響モデル２００を作成する際、指定テキスト（文章や音節等）Ｔxに該当する標準ベクトルＶaを、標準音響モデル１００からパス探索部４と話者適応部５に供給すると共に、実際に指定テキストＴxを特定話者に発話させてその入力音声Ｓcを入力する。
【０００５】
そして、加法性ノイズ除去部１が入力音声Ｓc中に含まれる加法性ノイズを除去した後、特徴ベクトル生成部２が入力音声Ｓcの特徴量である特徴ベクトル系列Ｖcfを生成し、更に乗法性ノイズ除去部３が特徴ベクトル系列Ｖcfから乗法性ノイズを除去することで、加法性ノイズと乗法性ノイズを除去した特徴ベクトル系列Ｖcを生成して、パス探索部４と話者適応部５に供給する。
【０００６】
こうして、標準ベクトルＶaと実際に発話された入力音声Ｓcの特徴ベクトル系列Ｖcがパス探索部４と話者適応部５に供給されると、パス探索部４が、特徴ベクトル系列Ｖcを標準ベクトルＶaと対比して、特徴ベクトル系列Ｖcの音節毎の出現確率と、音節から音節への状態遷移確率とを求めた後、話者適応部５が、上記の出現確率と状態遷移確率とに基づいて標準ベクトルＶaを補償することで、特定話者固有の声の特徴に適応した話者適応音響モデル２００を作成する。
【０００７】
そして、話者適応音響モデル２００を特定話者の声に適応させた後、特定話者が任意の発話をすると、その発話音声の特徴ベクトルと話者適応音響モデル２００の適応ベクトルとを照合し、最大尤度を与える話者適応音響モデル２００を認識結果とすることで音声認識を行うようになっている。
【０００８】
【発明が解決しようとする課題】
ところで、上記従来の適応型音声認識システムでは、適応音響モデル２００を作成する際、加法性ノイズ除去部１は、スペクトルサブトラクション法によって加法性ノイズを除去し、乗法性ノイズ除去部３は、ＣＭＮ法（cepstrum mean normalization）によって乗法性ノイズを除去することで、ノイズの影響を受けない話者適応音響モデル２００を作成することとしている。
【０００９】
すなわち、加法性ノイズ除去部１は、入力音声Ｓcのスペクトルを求めた後、そのスペクトルから加法性ノイズのスペクトルを除去し、乗法性ノイズ除去部３は、入力音声Ｓcのケプストラム（cepstrum）の時間平均値を求めた後、入力音声Ｓcのケプストラムからその時間平均値を差し引くこととしている。
【００１０】
しかし、スペクトルサブトラクション法とＣＭＮ法の何れの方法も、ノイズだけを除去することは極めて困難であり、話者適応により補償すべき話者固有の発話の特徴情報も欠落してしまう場合があるため、適切な話者適応音響モデル２００を作成することができなくなり、ひいては音声認識率の低下を招くという問題があった。
【００１１】
本発明は上記従来の問題点を克服し、ノイズに対してロバスト（robust）で音声認識率の向上を可能にする話者適応型の音声認識システムを提供することを目的とする。
【００１２】
【課題を解決するための手段】
上記目的を達成するため本発明の音声認識システムは、話者適応音響モデルを用いて音声認識を行う音声認識システムであって、標準の音声の特徴を表した標準ベクトルを有する標準音響モデルと、特定話者が指定テキストに対応する発話をすると、前記発話された音声からノイズを除去し、ノイズの除去された音声の特徴を表す第１の特徴ベクトル系列を生成する第１の特徴ベクトル生成手段と、前記発話された音声からノイズを除去することなく、ノイズが含まれたままの音声の特徴を表す第２の特徴ベクトル系列を生成する第２の特徴ベクトル生成手段と、前記第１の特徴ベクトル系列に含まれる個々の特徴ベクトルと前記標準ベクトルとを対応付けるパス探索手段と、前記パス探索手段によって対応付けられた前記第１の特徴ベクトル系列と前記標準ベクトルとの対応関係に基づき前記第２の特徴ベクトル系列に含まれる個々の特徴ベクトルと前記標準ベクトルとを対応付け、当該特徴ベクトルと対応付けられた前記標準ベクトルとの差に比べ、当該特徴ベクトルと適応ベクトルとの差が小さくなるように前記適応ベクトルを生成する生成手段と、前記特定話者によって発話された音声の特徴を表す特徴ベクトルと前記生成手段によって生成された適応ベクトルとを照合することによって、前記特定話者によって発話された音声の認識を行う認識手段と、を具備することを特徴とする。
【００１３】
また、前記パス探索手段は、前記第１の特徴ベクトル系列に含まれる個々の特徴ベクトルと、当該特徴ベクトルと最も尤度の高い前記標準ベクトルとを対応付けること、を特徴とする。
【００１４】
かかる構成によれば、話者適応の際に、第１の特徴ベクトル生成手段は、話者を取りまいている周囲環境の加法性ノイズや本音声認識システム自体の伝送ノイズ等の乗法性ノイズを除いた第１の特徴ベクトルを生成し、第２の特徴ベクトル生成手段は、話者を取りまいている周囲環境の加法性ノイズや本音声認識システム自体の伝送ノイズ等の乗法性ノイズの特徴を含んだ第２の特徴ベクトルを生成する。そして、これらノイズを含まない第１の特徴ベクトルとノイズを含んだ第２の特徴ベクトルに基づいて標準ベクトルを補償することで適応ベクトルを生成し、この適応ベクトルによって話者の声に適応した話者適応音響モデルを生成する。
【００１５】
このようにノイズを含まない特徴ベクトルとノイズの特徴を含んだ特徴ベクトルに基づいて、標準音響モデル中の標準ベクトルを補償することで、実際の発話環境に対応した話者適応音響モデルを作成することが可能となり、ノイズに対してロバストで音声認識率の高い音声認識システムを実現することが可能となる。
【００１６】
また、第２の特徴ベクトル生成手段は、加法性ノイズや乗法性ノイズを除去しないで特徴ベクトルを生成し、この特徴ベクトルを話者適応に用いるので、本来の音声の特徴情報を除去することなく、適切な話者適応音響モデルを生成することができる。
【００１７】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照して説明する。尚、図１は本実施形態の音声認識システムの構成を示すブロック図である。
【００１８】
図１において、本音声認識システムは、隠れマルコフモデル（Hidden Markov Model：ＨＭＭ）を用いて予め作成された不特定話者の標準音響モデル（以下、「標準音声ＨＭＭ」という）３００と、話者適用によって生成される話者適応音響モデル（以下、「適応音声ＨＭＭ」という）４００を備えて構成されている。
【００１９】
尚、本実施形態を分かり易く例示するために、標準音声ＨＭＭ３００の状態数を１とする。また、標準音声ＨＭＭ３００は音節毎に出力確立分布を有しており、この出現確率分布の平均ベクトルが標準ベクトルとなっている。
【００２０】
よって、標準音声ＨＭＭ３００は、図２に模式的に示すように、音節毎にＭ次元の標準ベクトル〔ａ_n,M〕をもっている。つまり、標準音声ＨＭＭ３００を作成する際、例えば静寂環境の下で収音した１人或いは複数人の話者（不特定話者）が発話した音声データを所定時間毎にフレーム化し、そのフレーム化した音声を順次にケプストラム演算することで、音節毎に複数フレーム分のケプストラム領域での特徴ベクトル系列を生成し、更に音節毎に複数フレーム分の特徴ベクトル系列の平均を求める等によって、音節毎の標準ベクトル〔ａ_n,M〕からなる標準音声ＨＭＭ３００を作成している。
【００２１】
ここで、標準ベクトル〔ａ_n,M〕の変数ｎは、各音節を識別するための状態番号、変数Ｍはベクトルの次元を表している。例えば状態番号ｎ＝１に該当する日本語の音節〔あ〕は、Ｍ次元の標準ベクトル〔ａ_n,M〕＝〔ａ_1,1 ａ_1,2 ａ_1,3… ａ_1,M〕、状態番号ｎ＝２に該当する日本語の音節〔い〕は、Ｍ次元の標準ベクトル〔ａ_n,M〕＝〔ａ_2,1 ａ_2,2 ａ_2,3 … ａ_2,M〕、以下同様にして、残りの音節も状態番号ｎによって区別されたＭ次元の標準ベクトル〔ａ_n,M〕として特徴付けられている。
【００２２】
後述する話者適応の際に、標準音声ＨＭＭ３００は、予め決められた文章や音節等の指定テキストＴxが供給され、その指定テキストＴxを構成している音節に該当する標準ベクトル〔ａ_n,M〕を音節の配列順に従って、パス探索部１０と話者適応部１１に供給する。
【００２３】
例えば、日本語の「こんにちわ」の指定テキストＴxが供給されると、〔こ〕，〔ん〕，〔に〕，〔ち〕，〔わ〕を表す夫々の状態番号ｎ＝１０，４６，２２，１７，４４に該当する標準ベクトル〔ａ_10,1 ａ_10,2 ａ_10,3 … ａ_10,M〕，〔ａ_46,1 ａ_46,2 ａ_46,3 … ａ_46,M〕，〔ａ_22,1 ａ_22,2 ａ_22,3 … ａ_22,M〕，〔ａ_17,1 ａ_17,2 ａ_17,3 … ａ_17,M〕，〔ａ_44,1 ａ_44,2 ａ_44,3… ａ_44,M〕を順番にパス探索部１０と話者適応部１１に供給する。
【００２４】
更に、本音声認識システムには、フレーム化部６と、加法性ノイズ除去部７、特徴ベクトル生成部８、乗法性ノイズ除去部９、特徴ベクトル生成部１２が備えられている。
【００２５】
フレーム化部６は、話者適応の際に特定話者が指定テキストＴxを実際に発話すると、その入力音声Ｓcを所定時間（例えば、１０〜２０msec）毎のフレームに区分けして加法性ノイズ除去部７，１３及び特徴ベクトル生成部１２側へ出力する。
【００２６】
加法性ノイズ除去部７は、フレーム毎に区分けされた各入力音声Ｓcfを順次にフーリエ変換することで、フレーム毎のスペクトルを生成し、更に各スペクトルに含まれている加法性ノイズをスペクトル領域において除去して出力する。
【００２７】
特徴ベクトル生成部８は、加法性ノイズの除去されたスペクトルをフレーム毎にケプストラム演算することで、ケプストラム領域での特徴ベクトル系列〔ｃ_i,M〕’を生成する。尚、特徴ベクトル系列〔ｃ_i,M〕’の変数ｉはフレーム毎の順番（番号）、変数Ｍは次元を表している。
【００２８】
乗法性ノイズ除去部９は、ＣＭＮ法を用いて特徴ベクトル系列〔ｃ_i,M〕’から乗法性ノイズを除去する。すなわち、特徴ベクトル生成部８によってフレームｉ毎に求められた複数個の特徴ベクトル系列〔ｃ_i,M〕’を各次元毎に時間平均し、それによって求まるＭ次元の時間平均値〔ｃ^_M〕を各特徴ベクトル系列〔ｃ_i,M〕’から減算することで、乗法性ノイズを除去した特徴ベクトル系列〔ｃ_i,M〕を生成し、パス探索部１０に供給する。
【００２９】
特徴ベクトル生成部１２は、フレーム化部６から出力されるフレーム毎に区分けされた各入力音声Ｓcfを順次にフーリエ変換することでフレーム毎のスペクトルを生成し、更に各スペクトルをフレーム毎にケプストラム演算することで、ケプストラム領域での特徴ベクトル系列〔ｓ_i,M〕を生成し、話者適応部１１に供給する。尚、特徴ベクトル系列〔ｓ_i,M〕の変数ｉはフレーム毎の順番、変数Ｍは次元を表している。
【００３０】
こうしてパス探索部１０には、指定テキストＴxと標準ベクトル〔ａ_n,M〕と特徴ベクトル系列〔ｃ_i,M〕が供給され、話者適応部１１には、指定テキストＴxと標準ベクトル〔ａ_n,M〕と特徴ベクトル系列〔ｓ_i,M〕が供給される。
【００３１】
パス探索部１０は、標準ベクトル〔ａ_n,M〕と特徴ベクトル系列〔ｃ_i,M〕とを対比し、フレーム毎の特徴ベクトル系列〔ｃ_i,M〕が指定テキストＴxのどの音節に該当するか判定することでパス探索を行い、そのパス探索結果Ｄvを話者適応部１１に供給する。
【００３２】
話者適応部１１は、特徴ベクトル生成部１２からの特徴ベクトル系列〔ｓ_i,M〕をパス探索結果Ｄvに基づいて音節毎に区分けする。そして、区分けした音節毎の特徴ベクトル系列〔ｓ_i,M〕について次元毎に平均を求めることにより、音節毎の平均特徴ベクトル〔ｓ^_n,M〕を生成する。
【００３３】
更に話者適応部１１は、指定テキストＴxに該当する各音節の標準ベクトル〔ａ_n,M〕と平均特徴ベクトル〔ｓ^_n,M〕との夫々の差ベクトル〔ｄ_n,M〕を求める。そして、それらの差ベクトル〔ｄ_n,M〕を平均演算することにより、特定話者の特徴を表すＭ次元の移動ベクトル〔ｍ_M〕を求め、更に標準音声ＨＭＭ３００からの全ての音節の標準ベクトル〔ａ_n,M〕に移動ベクトル〔ｍ_M〕を加えることで、全ての音節についての適応ベクトル〔ｘ_n,M〕を生成し、それらの適応ベクトル〔ｘ_n,M〕によって適応音声ＨＭＭ４００を更新する。
【００３４】
次に、パス探索部１０と話者適応部１１の機能を図２〜図８に基づいてより詳細に説明する。
【００３５】
尚、典型例として、日本語の「こんにちわ」の指定テキストＴxに基づいて話者適応する場合を説明する。
【００３６】
また、話者が「こんにちわ」と発話した入力音声Ｓcをフレーム化部６が３０フレームに区分けして入力するものとする。
【００３７】
標準音声ＨＭＭ３００は、図２に示した様に、複数個の各音節に対応付けられた不特定話者の標準ベクトル〔ａ_n,M〕として作成されている。また、各音節は状態番号ｎによって分類されている。
【００３８】
また、適応音声ＨＭＭ４００は、話者適応がなされる前は、図２に示した標準音声ＨＭＭ３００の標準ベクトル〔ａ_n,M〕と同じ内容に設定（ディフォルト設定）されている。
【００３９】
話者適応の処理が開始され、「こんにちわ」の指定テキストＴxが標準音声ＨＭＭ３００に供給されると、音節〔こ〕を表す状態番号ｎ＝１０に該当する標準ベクトル〔ａ_10,1 ａ_10,2 ａ_10,3 … ａ_10,M〕と、音節〔ん〕を表す状態番号ｎ＝４６に該当する標準ベクトル〔ａ_46,1 ａ_46,2 ａ_46,3 … ａ_46,M〕と、音節〔に〕を表す状態番号ｎ＝２２に該当する標準ベクトル〔ａ_22,1 ａ_22,2ａ_22,3 … ａ_22,M〕と、音節〔ち〕を表す状態番号ｎ＝１７に該当する標準ベクトル〔ａ_17,1 ａ_17,2 ａ_17,3 … ａ_17,M〕と、音節〔わ〕を表す状態番号ｎ＝４４に該当する標準ベクトル〔ａ_44,1 ａ_44,2 ａ_44,3 … ａ_44,M〕がパス探索部１０と話者適応部１１に供給される。
【００４０】
次に、特定話者が「こんにちわ」と発話すると、フレーム化部６がその入力音声Ｓcを時間経過に従って３０フレームに区分けして出力し、特徴ベクトル生成部１２が、各フレームの順番に従って入力音声Ｓcfの特徴ベクトル〔ｓ_1,1 ｓ_1,2 ｓ_1,3 … ｓ_1,M〕〜〔ｓ_30,1 ｓ_30,2 ｓ_30,3 … ｓ_30,M〕を生成して話者適応部１１に供給する。
【００４１】
すなわち、図３に模式的に示すように、特徴ベクトル生成部１２は、ｉ＝１〜３０の３０フレーム分の特徴ベクトル系列〔ｓ_i,M〕＝〔ｓ_1,1 ｓ_1,2 ｓ_1,3 … ｓ_1,M〕〜〔ｓ_30,1 ｓ_30,2 ｓ_30,3 … ｓ_30,M〕を生成して話者適応部１１に供給する。
【００４２】
一方、加法性ノイズ除去部７と特徴ベクトル生成部８と乗法性ノイズ除去部９で構成された処理系統では、フレーム化部６から供給される各フレームの入力音声Ｓcfに基づいて、ｉ＝１〜３０の３０フレーム分の特徴ベクトル系列〔ｃ_i,M〕＝〔ｃ_1,1 ｃ_1,2 ｃ_1,3 … ｃ_1,M〕〜〔ｃ_30,1 ｃ_30,2 ｃ_30,3 … ｃ_30,M〕を生成し、パス探索部１０に供給する。すなわち、図４に模式的に示すように、３０フレーム分の特徴ベクトル系列〔ｃ_i,M〕＝〔ｃ_1,1 ｃ_1,2 ｃ_1,3 …ｃ_1,M〕〜〔ｃ_30,1 ｃ_30,2 ｃ_30,3 … ｃ_30,M〕が乗法性ノイズ除去部９を通じてパス探索部１０に供給される。
【００４３】
パス探索部１０は、ビタビ（Viterbi）アルゴリズムやフォワードバックワードアルゴリズム等の手法によって、３０フレーム分の特徴ベクトル系列〔ｃ_i,M〕と指定テキストＴxの各音節に対応する標準ベクトル〔ａ_n,M〕とを対比し、特徴ベクトル系列〔ｃ_i,M〕がフレーム毎にどの時点でどの音節に該当するか調べる。
【００４４】
これにより、図５に示すように、３０フレームの各フレーム番号ｉと、「こんにちわ」の各音節を表す各状態番号ｎとの対応付けを行う。そして、この対応付けした結果をパス探索結果Ｄvとして話者適応部１１に供給する。
【００４５】
話者適応部１１は、パス探索結果Ｄvに基づいて、特徴ベクトル〔ｓ_1,1 ｓ_1,2 ｓ_1,3 … ｓ_1,M〕〜〔ｓ_30,1 ｓ_30,2 ｓ_30,3 … ｓ_30,M〕と、標準ベクトル〔ａ_10,1 ａ_10,2 ａ_10,3 … ａ_10,M〕，〔ａ_46,1 ａ_46,2 ａ_46,3 … ａ_46,M〕，〔ａ_22,1 ａ_22,2 ａ_22,3 … ａ_22,M〕，〔ａ_17,1 ａ_17,2 ａ_17,3 … ａ_17,M〕，〔ａ_44,1 ａ_44,2 ａ_44,3 … ａ_44,M〕との対応付けを行う。
【００４６】
すなわち、図６に示すように、パス探索によって求まった音節〔こ〕に該当するフレーム番号ｉ＝１〜６の特徴ベクトル〔ｓ_1,1 ｓ_1,2 ｓ_1,3 … ｓ_1,M〕〜〔ｓ_6,1 ｓ_6,2 ｓ_6,3 … ｓ_6,M〕に対して、標準ベクトル〔ａ_10,1 ａ_10,2 ａ_10,3 … ａ_10,M〕の対応付けが行われ、音節〔ん〕に該当するフレーム番号ｉ＝７〜１０の特徴ベクトル〔ｓ_7,1 ｓ_7,2 ｓ_7,3 … ｓ_7,M〕〜〔ｓ_10,1 ｓ_10,2 ｓ_10,3 … ｓ_10,M〕に対して、標準ベクトル〔ａ_46,1 ａ_46,2 ａ_46,3 … ａ_46,M〕の対応付けが行われる。
【００４７】
更に、音節〔に〕に該当するフレーム番号ｉ＝１１〜１４の特徴ベクトル〔ｓ_11,1 ｓ_11,2 ｓ_11,3 … ｓ_11,M〕〜〔ｓ_14,1 ｓ_14,2 ｓ_14,3 … ｓ_14,M〕に対して、標準ベクトル〔ａ_22,1 ａ_22,2 ａ_22,3 … ａ_22,M〕の対応付けが行われ、音節〔ち〕に該当するフレーム番号ｉ＝１５〜１８フレームの特徴ベクトル〔ｓ_15,1 ｓ_15,2 ｓ_15,3 … ｓ_15,M〕〜〔ｓ_18,1 ｓ_18,2 ｓ_18,3 … ｓ_18,M〕に対して、標準ベクトル〔ａ_17,1 ａ_17,2 ａ_17,3 … ａ_17,M〕の対応付けが行われ、音節〔わ〕に該当するフレーム番号ｉ＝１９〜３０の特徴ベクトル〔ｓ_19,1 ｓ_19,2 ｓ_19,3 … ｓ_19,M〕〜〔ｓ_30,1 ｓ_30,2 ｓ_30,3 … ｓ_30,M〕に対して、標準ベクトル〔ａ_44,1 ａ_44,2 ａ_44,3 … ａ_44,M〕の対応付けが行われる。
【００４８】
次に、話者適応部１１は、図６に示した３０フレーム分の特徴ベクトル〔ｓ_1,1 ｓ_1,2 ｓ_1,3 … ｓ_1,M〕〜〔ｓ_30,1 ｓ_30,2 ｓ_30,3 … ｓ_30,M〕を各音節〔こ〕，〔ん〕，〔に〕，〔ち〕，〔わ〕毎に区分けし、区分けした特徴ベクトル毎の平均を求めることにより、図７に示すように、各音節〔こ〕，〔ん〕，〔に〕，〔ち〕，〔わ〕毎の平均特徴ベクトル〔ｓ^_n,M〕を生成する。
【００４９】
つまり、図６に示した音節〔こ〕に該当する第１〜第６フレーム（フレーム数ｋ＝６）の特徴ベクトル〔ｓ_1,1 ｓ_1,2 ｓ_1,3 … ｓ_1,M〕〜〔ｓ_6,1 ｓ_6,2 ｓ_6,3 … ｓ_6,M〕については、次式（１）で示すように、第１次元目の６個の要素ｓ_1,1〜ｓ_6,1を加算し、その加算値（ｓ_1,1＋ｓ_2,1＋ｓ_3,1＋ｓ_4,1＋ｓ_5,1＋ｓ_6,1）をフレーム数ｋ＝６で乗算することにより、平均特徴ベクトル〔ｓ^_n,M〕の第１次元目の要素ｓ^_n,1を求める。また、第２次元目の６個の要素ｓ_1,2〜ｓ_6,2についても同様に、加算値（ｓ_1,2＋ｓ_2,2＋ｓ_3,2＋ｓ_4,2＋ｓ_5,2＋ｓ_6,2）を求め、フレーム数ｋ＝６で乗算することにより、平均特徴ベクトル〔ｓ^_n,M〕の第２次元目の要素ｓ^_n,2を求める。以下同様にして、第Ｍ次元目の６個の要素ｓ_1,M〜ｓ_6,Mまでの要素ｓ^_n,Mを求め、これらＭ次元の要素ｓ^_n,1〜ｓ^_n,Mからなる音節〔こ〕に該当するＭ次元の平均特徴ベクトル〔ｓ^_n,1 ｓ^_n,2 ｓ^_n,3 … ｓ^_n,M 〕を生成する。
【００５０】
【数１】

尚、式（１）中の変数ｋは各音節におけるフレーム数、変数ｎは各音節を識別するための状態番号、変数Ｍは次元を表している。したがって、式（１）中の変数ｎは、ｎ＝１０となり、音節〔こ〕に該当するＭ次元の平均特徴ベクトルは〔ｓ^_10,1 ｓ^_10,2 ｓ^_10,3 … ｓ^_10,M〕となる。
また、残りの音節〔ん〕に該当する平均特徴ベクトル〔ｓ^_46,1 … ｓ^_46,M〕と、音節〔に〕に該当する平均特徴ベクトル〔ｓ^_22,1 … ｓ^_22,M〕と、音節〔ち〕に該当する平均特徴ベクトル〔ｓ^_17,1 … ｓ^_17,M〕と、音節〔わ〕に該当する平均特徴ベクトル〔ｓ^_44,1 … ｓ^_44,M〕も同様にして求める。
【００５１】
次に、次式（２）に基づいて、各音節「こ」，「ん」，「に」，「ち」，「わ」に対応する平均特徴ベクトル〔ｓ^_10,1 … ｓ^_10,M〕，〔ｓ^_46,1 … ｓ^_46,M〕，〔ｓ^_22,1 … ｓ^_22,M〕，〔ｓ^_17,1 … ｓ^_17,M〕，〔ｓ^_44,1 … ｓ^_44,M〕と、標準ベクトル〔ａ_10,1 … ａ_10,M〕，〔ａ_46,1 … ａ_46,M〕，〔ａ_22,1 … ａ_22,M〕，〔ａ_17,1… ａ_17,M〕，〔ａ_44,1 … ａ_44,M〕とのそれぞれ差ベクトル〔ｄ_10,1 … ｄ_10,M〕，〔ｄ_46,1 … ｄ_46,M〕，〔ｄ_22,1 … ｄ_22,M〕，〔ｄ_17,1 … ｄ_17,M〕，〔ｄ_44,1 … ｄ_44,M〕を求める。
【００５２】
【数２】

尚、上記式（２）中の変数ｎは、各音節「こ」，「ん」，「に」，「ち」，「わ」に対応する状態番号ｎ＝１０，４６，２２，１７，４４を示し、変数ｊは、ベクトルの各次元ｊ＝１〜Ｍを示している。
【００５３】
そして、求めた差ベクトル〔ｄ_10,1 … ｄ_10,M〕，〔ｄ_46,1 … ｄ_46,M〕，〔ｄ_22,1 … ｄ_22,M〕，〔ｄ_17,1 … ｄ_17,M〕，〔ｄ_44,1 … ｄ_44,M〕を次式（３）に適応して、各次元毎の平均を求めることにより、これら５個（Ｖ＝５）の音節「こ」，「ん」，「に」，「ち」，「わ」のＭ次元移動ベクトル〔ｍ_M〕＝〔ｍ₁，ｍ₂，…，ｍ_M〕を求める。
【００５４】
【数３】

尚、上記（３）中の変数ｊは、ベクトルの各次元ｊ＝１〜Ｍを示している。また、変数ｎは、各音節「こ」，「ん」，「に」，「ち」，「わ」に対応する状態番号ｎ＝１０，４６，２２，１７，４４を示し、変数Ｖは音節の数（Ｖ＝５）を示している。
【００５５】
こうして求めた移動ベクトル〔ｍ_M〕＝〔ｍ₁，ｍ₂，…，ｍ_M〕は、特定話者の特徴を表している。そこで、次式（４）の演算式で示すように、全ての音節の標準ベクトル〔ａ_n,M〕に移動ベクトル〔ｍ_M〕を加えることで、話者固有の特徴を有する適応ベクトル〔ｘ_n,M〕を求め、更に、図８に示すように、求めた適応ベクトル〔ｘ_n,M〕によって適応音声ＨＭＭ４００を更新することで、話者適応の処理を完了する。
【００５６】
【数４】

また、一例として「こんにちわ」の指定テキストＴxに基づいて適応音声ＨＭＭ４００を話者適応する場合を説明したが、他の音節を含んだ指定テキストＴxに基づいて適応音声ＨＭＭ４００を話者適応することで、適応音声ＨＭＭ４００中の全ての音節についても話者適応が行われるようになっている。
【００５７】
次に、話者適応により適応音声ＨＭＭ４００を生成した後、特定話者が任意の発話をすると、その入力音声Ｓcをフレーム化部６が上記同様に所定時間（例えば、１０〜２０msec）毎のフレームに区分けし、各フレームの入力音声Ｓcfを時間経過順に出力して加法性ノイズ除去部１３側へ供給する。
【００５８】
加法性ノイズ除去部１３は、上記した加法性ノイズ除去部７と同様に、フレーム毎に区分けされた各入力音声Ｓcfを順次にフーリエ変換することでフレーム毎のスペクトルを生成し、更に各スペクトルに含まれている加法性ノイズをスペクトル領域において除去して、特徴ベクトル生成部１４側へ出力する。
【００５９】
特徴ベクトル生成部１４は、上記した特徴ベクトル生成部８と同様に、加法性ノイズの除去されたスペクトルをフレーム毎にケプストラム演算することで、ケプストラム領域での特徴ベクトル系列〔ｙ_i,M〕’を生成して、乗法性ノイズ除去部１５側へ出力する。
【００６０】
乗法性ノイズ除去部１５は、上記した乗法性ノイズ除去部９と同様に、ＣＭＮ法を用いて特徴ベクトル系列〔ｙ_i,M〕’から乗法性ノイズを除去し、その乗法性ノイズを除去したＭ次元の特徴ベクトル系列〔ｙ_i,M〕を認識部１６に供給する。尚、特徴ベクトル系列〔ｙ_i,M〕の変数ｉはフレーム番号を表している。
【００６１】
こうして、実際に発話された声の特徴ベクトル系列〔ｙ_i,M〕が認識部１６に供給されると、認識部１６は、特徴ベクトル系列〔ｙ_i,M〕と話者適応した適応音声ＨＭＭ４００の適応ベクトル〔ｘ_n,M〕とを照合し、最大尤度を与える適応音声ＨＭＭ４００を認識結果として出力する。
【００６２】
以上に述べたように本実施形態の音声認識システムによれば、話者適応の際に、指定テキストＴxに従って特定話者が発話すると、加法性ノイズ除去部７と特徴ベクトル生成部８及び乗法性ノイズ除去部９が、加法性ノイズと乗法性ノイズを除去した特徴ベクトル系列〔ｃ_i,M〕を生成すると共に、特徴ベクトル生成部１２が、加法性ノイズと乗法性ノイズを含んでいる入力音声Ｓcfに基づいて特徴ベクトル系列〔ｓ_i,M〕を生成し、パス探索部１０と話者適応部１１が、これらの特徴ベクトル系列〔ｃ_i,M〕と特徴ベクトル系列〔ｓ_i,M〕及び標準ベクトル〔ａ_i,M〕に基づいて話者適応した適応ベクトル〔ｘ_i,M〕を生成し、その話者適応した適応ベクトル〔ｘ_i,M〕で適応音声ＨＭＭ４００を更新している。
【００６３】
このため、特定話者を取りまいている周囲環境のノイズ（加法性ノイズ）や本音声認識システム自体の伝送ノイズ（乗法性ノイズ）の特徴を含んだ特徴ベクトル系列〔ｓ_i,M〕が話者適応に用いられることになり、実際の発話環境に対応した適応音声ＨＭＭ４００を生成することが可能となることから、ノイズに対してロバストで音声認識率の高い音声認識システムを実現することができる。
【００６４】
また、従来の話者適応型の音声認識システムでは、話者適応の際に、加法性ノイズや乗法性ノイズを除去した特徴ベクトルを生成するのに伴って、話者適応により補償すべき話者固有の発話の特徴情報も欠落してしまい、適切な話者適応音響モデルを作成することができないという問題があったが、本実施形態の音声認識システムによれば、特徴ベクトル生成部１２が、加法性ノイズや乗法性ノイズを除去しないで特徴ベクトル系列〔ｓ_i,M〕を生成し、この特徴ベクトル系列〔ｓ_i,M〕を話者適応に用いるので、話者適応により補償すべき話者固有の発話の特徴情報を欠落することなく、適切な話者適応音響モデルを作成することができて、音声認識率の向上を図ることができる。
【００６５】
尚、本実施形態では、日本語の「あいうえお」等の音節を基準にした適応音声ＨＭＭ４００を作成する場合を説明したが、音節のみに限らず、音素等を基準として適応音声ＨＭＭ４００を作成することが可能である。
【００６６】
また、本実施形態では、簡単な例示を上げて、話者適応の手法について説明したが、標準ベクトル〔ａ_n,M〕と適応話者の特徴ベクトル系列〔ｓ_i,M〕或いは〔ｃ_i,M〕との対応を求め、それに基づいて話者適応音響モデルを生成する他の様々な話者適応手法に本発明の話者適応手法を適応することが可能である。
【００６７】
【発明の効果】
以上説明したように本発明の音声認識システムによれば、話者適応の際に、加法性ノイズや乗法性ノイズを除いた特徴ベクトルと、加法性ノイズや乗法性ノイズの特徴を含んだ特徴ベクトルとを生成し、これらノイズを含まない特徴ベクトルとノイズを含んだ特徴ベクトルに基づいて、標準ベクトルを補償することで、話者固有の発話に適応した話者適応音響モデルを作成するようにしたので、実際の発話環境に対応した話者適応音響モデルを生成することが可能となる。
【００６８】
また、加法性ノイズや乗法性ノイズを除去しないで特徴ベクトルを話者適応に用いるので、話者適応により補償すべき話者固有の発話の特徴情報を欠落することなく、適切な話者適応音響モデルを生成することができる。
【００６９】
このため、ノイズに対してロバストで音声認識率の高い音声認識システムを実現することが可能となる。
【図面の簡単な説明】
【図１】本実施形態の音声認識システムの構成を示すブロック図である。
【図２】標準音響モデルの構成を模式的に示した図である。
【図３】話者適応の際に特徴ベクトル生成部１２で生成される特徴ベクトル系列〔ｓ_i,M〕を示した図である。
【図４】話者適応の際に乗法性ノイズ除去部９から出力される特徴ベクトル系列〔ｃ_i,M〕を示した図である。
【図５】特徴ベクトル系列〔ｃ_i,M〕と標準ベクトル〔ａ_n,M〕との対応関係をフレーム番号と状態番号に基づいて示した図である。
【図６】特徴ベクトル系列〔ｃ_i,M〕と標準ベクトル〔ａ_n,M〕とフレーム番号及び状態番号を対応付けて示した図である。
【図７】話者適応によって生成される平均特徴ベクトルと標準ベクトルとの対応関係を示した図である。
【図８】更新後の話者適応音響モデルの内容を示した図である。
【図９】従来の話者適応型音声認識システムの構成を示すブロック図である。
【符号の説明】
６…フレーム化部
７，１３…加法性ノイズ除去部
８，１２，１４…特徴ベクトル生成部
９，１５…乗法性ノイズ除去部
１０…パス探索部
１１…話者適応部
１６…認識部
３００…標準音響モデル（標準音声ＨＭＭ）
４００…話者適応音響モデル（適応音声ＨＭＭ）

Claims

話者適応音響モデルを用いて音声認識を行う音声認識システムであって、
標準の音声の特徴を表した標準ベクトルを有する標準音響モデルと、
特定話者が指定テキストに対応する発話をすると、前記発話された音声からノイズを除去し、ノイズの除去された音声の特徴を表す第１の特徴ベクトル系列を生成する第１の特徴ベクトル生成手段と、
前記発話された音声からノイズを除去することなく、ノイズが含まれたままの音声の特徴を表す第２の特徴ベクトル系列を生成する第２の特徴ベクトル生成手段と、
前記第１の特徴ベクトル系列に含まれる個々の特徴ベクトルと前記標準ベクトルとを対応付けるパス探索手段と、
前記パス探索手段によって対応付けられた前記第１の特徴ベクトル系列と前記標準ベクトルとの対応関係に基づき前記第２の特徴ベクトル系列に含まれる個々の特徴ベクトルと前記標準ベクトルとを対応付け、当該特徴ベクトルと対応付けられた前記標準ベクトルとの差に比べ、当該特徴ベクトルと適応ベクトルとの差が小さくなるように前記適応ベクトルを生成する生成手段と、
前記特定話者によって発話された音声の特徴を表す特徴ベクトルと前記生成手段によって生成された適応ベクトルとを照合することによって、前記特定話者によって発話された音声の認識を行う認識手段と、
を具備することを特徴とする音声認識システム。
前記パス探索手段は、前記第１の特徴ベクトル系列に含まれる個々の特徴ベクトルと、当該特徴ベクトルと最も尤度の高い前記標準ベクトルとを対応付けること、
を特徴とする請求項１に記載の音声認識システム。