JP3905620B2

JP3905620B2 - 音声認識装置

Info

Publication number: JP3905620B2
Application number: JP32302797A
Authority: JP
Inventors: 浩二赤塚
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 1997-06-10
Filing date: 1997-11-25
Publication date: 2007-04-18
Anticipated expiration: 2017-11-25
Also published as: JPH1165589A

Description

【０００１】
【発明の属する技術分野】
本発明は、不特定話者から離散的に発話された音声を自動的に認識する音声認識装置に関する。
【０００２】
【従来の技術】
複数の不特定話者からの音声を誤認識せずに認識する従来の音声認識装置の多くは、種々の周波数分析手法を用いて音声信号に対してある程度の周波数解像度を有する周波数分析を行って周波数−時間の符号系列に変換し、出現が予想される音素の数の隠れマルコフモデルを用意し、さらに該用意した隠れマルコフモデルを多くの話者からの発話音声によって学習させて予め用意しておく。
【０００３】
この学習済みの隠れマルコフモデルを用いて、不特定話者から発話された音声に基づく周波数−時間の符号系列の部分区間を、全ての音素モデルと照合することによって音素系列の候補の時系列に変換し、この音素の時系列が最もよく表される単語を認識結果として出力するようになされている。
【０００４】
【発明が解決しようとする課題】
しかしながら、従来の音声認識装置では、不特定話者の発話の多様性に対応して高性能な音声認識特性を維持するための隠れマルコフモデルの学習に多くの学習データを必要とし、隠れマルコフモデルで音素を精密に特定するためにある程度の周波数分析の解像度、すなわち、ある程度の大きさのベクトル次数を必要とするという問題点があった。
【０００５】
この結果、隠れマルコフモデルの学習時と音素特定時の演算負荷が重く、さらに単語の認識過程において少なくとも音素照合と単語照合の２段階の照合演算処理を必要とするという問題点があった。
【０００６】
本発明は、簡単な横成で、不特定話者の発話の多様性に対しても高性能を維持することができて、誤認識を低減させた音声認識装置を提供することを目的とする。
【０００７】
【課題を解決するための手段】
本発明にかかる音声認識装置は、音声信号を周波数分析して得た周波数スペクトルを、時間軸に沿って順次求めて時系列データ群に変換する周波数分析手段と、複数の学習話者から発話された音声に基づく音声信号が入力された前記周波数分析手段からの出力時系列データを予め定めた時間窓で切り出す切り出し手段と、前記切り出し手段によって切り出された時系列データ群を用いて主成分分析を行う主成分分析手段と、前記主成分分析により得た主成分中における低い周波数部分および時間窓の中心部分を用いて畳み込み積分を行って入力時系列データを低次の時系列データに圧縮する特徴抽出フィルタ手段とを備え、前記複数の学習話者から発話された音声に基づく低次の時系列データを参照用低次時系列データとし、該参照用低次時系列データと不特定話者から発話された音声に基づく低次の時系列データとを照合して照合結果に基づいて音声認識をすることを特徴とする。
【０００８】
本発明にかかる音声認識装置は、複数の学習話者から発話された音声に基づく音声信号が周波数分析手段に入力されて時系列データ群に変換され、周波数分析手段によって変換された時系列データが切り出し手段によって予め定めた時間窓で切り出され、切り出し手段によって切り出された時系列データ群を用いて主成分分析手段によって主成分分析され、主成分分析により得られた主成分中における低い周波数部分および時間窓の中心部分を用いて畳み込み積分が行われて特徴抽出フィルタ手段にて入力時系列データが低次の時系列データに圧縮される。複数の学習話者から発話された音声に基づく低次の時系列データが参照用低次時系列データとされて、不特定話者から発話された音声に基づく低次の時系列データと照合されて、照合結果に基づいて不特定話者から発話された音声に対する音声認識がなされる。
【０００９】
【発明の実施の形態】
以下、本発明にかかる音声認識装置を実施の一形態によって説明する。
【００１０】
図１は本発明の実施の一形態にかかる音声認識装置の構成を示す模式ブロック図である。
【００１１】
図１の模式ブロック図において、作用の理解を容易にするために、同一の構成要素であっても異なる音声信号ラインに使用する構成要素は重複して示してあって、図１において２重枠の構成要素がこれに当たり、同一符号は同一の構成手段を示している。
【００１２】
本発明の実施の一形態にかかる音声認識装置１は、複数の学習話者から発せられる発話音声に基づき学習話者の音素に対する特徴を抽出し、抽出した特徴に基づいて特徴抽出フィルタを作成する特徴抽出フィルタ作成部αと、複数の学習話者の発話たとえば単語の音声信号に基づく情報を特徴抽出フィルタに供給し、特徴抽出フィルタによって前記情報を圧縮して照合用低次圧縮時系列データ群を生成する照合時系列データ作成部βと、入力された不特定話者からの音声信号を特徴抽出フィルタに供給して、特徴抽出フィルタによって圧縮した時系列データを生成し、該時系列データを照合用低次圧縮時系列データと照合して音声認識結果を出力する不特定話者音声認識部γとを備えている。
【００１３】
特徴抽出フィルタ作成部αは、複数の学習話者から発話された音声（以下、学習音声群とも記す）の周波数スペクトルの時間的変化を示すため、複数の学習話者から発話された音声に基づく音声信号を周波数分析して得た周波数スペクトルを、時間軸に沿って順次求めた時系列データ群（周波数−時間の時系列データ群）に変換する周波数分析器２と、周波数分析器２によって変換された前記複数の学習話者からの音声に基づく周波数−時間の時系列データ群から小さな時間窓の範囲における部分周波数−時間の時系列データを切り出す部分周波数−時間パターン作成器３と、部分周波数−時間パターン生成器３によって切り出された複数の部分周波数−時間の時系列データを用いて主成分分析を行う主成分分析器４と、主成分分析器４による主成分分析結果の低次主成分において、周波数軸方向には低い周波数部分を用い、かつ時間軸方向には時間窓の中央部のみを用いて畳み込み積分を行う特徴抽出フィルタ５を備えて、複数の学習話者からの発話音声から学習話者の音素に対する特徴を抽出する。
【００１４】
照合時系列データ作成部βは照合用低次圧縮時系列データ記憶器６を備え、複数の学習話者から発話された単語音声の周波数スペクトルの時間的変化を示すため、複数の学習話者から発話された前記単語音声の音声信号を周波数分析器２によって周波数分析して得た周波数スペクトルを、時間軸に沿って順次求めた周波数−時間の時系列データ群に変換し、変換された周波数−時間の時系列データ群を特徴抽出フィルタ５に送出し、特徴抽出フィルタ５にて周波数−時間の時系列データを次元圧縮して照合用低次圧縮時系列データ群を得て、照合用低次圧縮時系列データ記憶器６に記憶させる。
【００１５】
不特定話者音声認識部γは時系列データ照合器７を備え、不特定話者から発話された音声の周波数スペクトルの時間的変化を示すため、不特定話者から発話された音声に基づく音声信号を周波数分析器２によって周波数分析して得た周波数スペクトルを、時間軸に沿って順次求めた周波数−時間の時系列データ群に変換し、変換された周波数−時間の時系列データ群を特徴抽出フィルタ５に送出し、特徴抽出フィルタ５にて周波数−時間の時系列データを次元圧縮して時系列データ群を得て、時系列データ群と照合用低次圧縮時系列データ記憶器６から読み出した照合用低次圧縮時系列データとを時系列データ照合器７にて照合し、照合用低次圧縮時系列データ群中から、時系列データ群に最も近いものを求め、照合結果に基づいて不特定話者からの発生音声に基づく言葉を認識する。
【００１６】
次に周波数分析器２、部分周波数−時間パターン作成器３、主成分分析器４、特徴抽出フィルタ５のそれぞれについて具体的に説明する。
【００１７】
周波数分析器２では、入力音声信号がＡ／Ｄ変換され、Ａ／Ｄ変換された音声信号に対して高域強調処理がなされ、高域処理されたＡ／Ｄ変換音声信号に対して時間窓としてのハニング窓がかけられ、線形予測（ＬＰＣ）分析によってＬＰＣ係数が求められ、このＬＰＣ係数に対してフーリエ変換が行われて、周波数スペクトルが求められ、これを時間軸に沿って逐次求めることで、音声スペクトルの時間的変化を示すための周波数−時間の時系列データに変換される。したがって周波数分析器２では入力音声のサウンドスペクトルパターンである周波数−時間パターンに実質的に展開されることになる。なおこの場合、周波数−時間の時系列データの各時刻における周波数−時間の時系列データはＮ次ベクトルＸｉである。
【００１８】
この周波数分析法に応じて特徴抽出フィルタ５を作成すれば、音声情報の欠落が少ない。また、周波数分析法に応じて特徴抽出フィルタ５を作成したときに音声情報に欠落がないような他の周波数分析法によってもよい。したがって、周波数分析器２による方法によれば、所謂ＬＰＣスペクトル包絡による方法よりも、さらにベクトル次数の少ない周波数−時間パターンにも適用することができる。この結果、周波数−時間の時系列データ群によって実質的に音声信号の周波数−時間パターンが示される。
【００１９】
部分周波数−時間パターン作成器３では、周波数分析器２から出力される周波数−時間の時系列データ群中から、所定の小さな時間窓の範囲における周波数−時間の時系列データが切り出される。このため、部分周波数−時間パターン作成器３から出力される周波数−時間の時系列データに基づく音声の周波数−時間パターンは、周波数分析器２から出力される周波数−時間の時系列データに基づく音声の周波数−時間パターンの一部分であって、部分周波数−時間パターンであるといえる。
【００２０】
特徴抽出フィルタ５は、周波数−時間の時系列データから情報の欠落を最小限に抑え、情報圧縮した時系列データを作成する。本例では情報の圧縮に主成分分析を用いている。さらに詳細には部分周波数−時間パターンをサンプルデータとして主成分分析を行った結果の主成分のうち低次主成分において、周波数軸方向には低い周波数部分を用い、かつ時間軸方向には時間窓の中央部分のみを用いて、畳み込み積分を行っている。
【００２１】
さらに詳細に、例えば９名の異なる学習話者の共通した１００語の発話データを学習音声信号群として用いた場合の例を説明する。
【００２２】
この場合、発話データには、単語音声信号区間中の発話音素と、発話音素の音声信号の時間軸上における開始点と終了点とに対応がつけられたラベルデータとを持っているものとする。例えば図３（Ａ）に示すように、音素Ｅに対する開始点の時間ラベルａ、音素Ｅに対する終了点の時間ラベルでありかつ音素Ｆに対する開始点の時間ラベルである時間ラベルｂ、音素Ｆに対する終了点の時間ラベルｃを持っている。
【００２３】
部分周波数−時間パターン作成器３は、周波数分析器２から出力される周波数−時間の時系列データをラベルデータと共に、時間抽上の音素の中心位置、図３（Ａ）に示す例では（ａ＋ｂ）／２、（ｂ＋ｃ）／２を求め、この中心位置を中心に時間窓部分の周波数−時間の時系列データを切り出す。
【００２４】
すなわち、学習音声信号群に対して、部分周波数−時間パターン作成器３によって、例えば３０ｍｓの時間窓Ｄで切り出しを行い、部分周波数−時間の時系列データ群を作成する。部分周波数−時間パターン作成器３によって作成された部分周波数−時間の時系列データの時間窓Ｄによる切り出しは、図３（Ｂ）に示すように、音素Ｅに対しては時間ラベルａと時間ラベルｂとの間の中央に時間窓Ｄがくるように、［｛（ａ＋ｂ）／２｝−（Ｄ／２）］の位置から［｛（ａ＋ｂ）／２｝＋（Ｄ／２）］の位置までが切り出され、音素Ｆに対しては時間ラベルｂと時間ラベルｃとの間の中央に時間窓Ｄがくるように、［｛（ｂ＋ｃ）／２｝−（Ｄ／２）］の位置から［｛（ｂ＋ｃ）／２｝＋（Ｄ／２）］の位置までが切り出される。
【００２５】
この切り出し処理を同じ音素のラベル区間について行うことによって、同じ音素の周波数−時間の時系列データを複数集めることができる。同じ音素の複数集めた周波数−時間の時系列データの平均値を求め、これを部分周波数−時間の時系列データとする。この部分周波数−時間の時系列データを音素毎に作成することによって部分周波数−時間の時系列データ群が作成される。
【００２６】
また、この切り出し処理を変化の少ない音素毎、すなわち比較的定常的な音素毎に行ってもよい。
【００２７】
この部分周波数−時間の時系列データ群から、主成分分析器４によって主成分が求められる。
【００２８】
部分周波数−時間の時系列データから主成分分析器４による主成分の出力までの作用について図４に基づいて説明する。図４においては、部分周波数−時間の時系列データをパターンと略記してある。
【００２９】
切り出された音素Ａの部分周波数−時間の時系列データ群、音素Ｂの部分周波数−時間の時系列データ群、……、音素Ｚの部分周波数−時間の時系列データ群は図４（Ａ）に模式的に示す如くであり、各音素Ａ〜Ｚについての部分周波数−時間の時系列データ群の平均値が求められる。音素Ａの部分周波数−時間の時系列データ群の平均値、音素Ｂの部分周波数−時間の時系列データ群の平均値、……、音素Ｚの部分周波数−時間の時系列データ群の平均値は図４（Ｂ）に模式的に示す如くである。
【００３０】
各音素Ａ〜Ｚの部分周波数−時間の時系列データの平均値は主成分分析器４によって、図４（Ｃ）に模式的に示すように、主成分分析が行われる。主成分分析の結果、図４（Ｄ）に模式的に示すように、第１主成分、第２主成分、……、第Ｋ主成分（Ｚ＞Ｋ）が求められる。
【００３１】
すなわち、主成分分析ではサンプルデータ空間のベクトル次元数と同数の次元数の主成分が求められ、サンプルデータの分散が最も多い軸を決める主成分を第１主成分、分散が２番目に大きい軸を決める主成分を第２主成分、以下同様に第Ｋ主成分が決まる。
【００３２】
主成分の内の低次主成分は部分周波数−時間の時系列データ群の特徴に多く含まれる成分の固有空間を定義しており、音声信号の周波数−時間の時系列データに基づく周波数−時間パターン中に最も含まれる部分の特徴を表している。そこで、音声信号に含まれる学習話者の個人性に基づく成分や認識に悪影響を及ぼすと考えられるノイズ成分は、低次主成分には含まれていないと考えられる。
【００３３】
特徴抽出フィルタ５では、部分周波数−時間パターンをサンプルデータとして、主成分分析を行った結果の低次主成分において、周波数軸方向には低い周波数部分を用い、かつ時間軸方向には時間窓Ｄの中央部分のみを用いて畳み込み積分を行う。この畳み込み積分を行うベクトルを特徴抽出ベクトルとも記す。
【００３４】
例えば、２つの特徴抽出ベクトルの場合は、第１主成分ベクトルの周波数軸方向には低い周波数部分を用い、かつ時間軸方向には時間窓Ｄの中央部分のみを用いて畳み込み積分を行うものを第１特徴抽出ベクトルδ１ｉ、第２主成分ベクトルの周波数軸方向には低い周波数部分を用い、かつ時間軸方向には時間窓Ｄの中央部分のみを用いて畳み込み積分を行うものを第２特徴抽出ベクトルδ２ｉと呼ぶことにする。
【００３５】
この第１、第２特徴抽出ベクトルδ１ｉ、δ２ｉを特徴抽出フィルタ５で用い、周波数分析器２から出力される周波数−時間時系列データの各時刻における周波数−時間の時系列データと、第１、第２特徴抽出ベクトルδ１ｉ、δ２ｉとの間で相関値を求める。この各特徴抽出ベクトル毎の相関値出力をチャンネル出力とも記す。この相関値出力を各チャンネル毎に正規化して２チャンネルフィルタ出力とする。
【００３６】
上記から明らかなように、特徴抽出フィルタ５は２つの特徴抽出ベクトルδ１ｉ、δ２ｉで構成される場合を例に示せば、図２に示すように、周波数分析結果のＮ次ベクトルＸｉと第１、第２の特徴抽出ベクトルδ１ｉ、δ２ｉとの積和演算を各時刻について積和演算器５１１、５１２にてそれぞれ入力のＮ次ベクトルＸｉに対して行って、各積和演算器５１１、５１２からの出力を、正規化器５２１、５２２によってそれぞれにレベルを正規化し、正規化された各正規化器５２１、５２２からの出力を各チャンネルの出力として送出する。
【００３７】
次に、照合用低次圧縮時系列データ群の作成について説明する。
【００３８】
各単語の学習音声信号が周波数分析器２に供給されて、学習音声信号に基づく周波数−時間の時系列データが作成される。この周波数−時間の時系列データが既に学習音声信号群における音素に対して求めておいた低次主成分を基底とする特徴抽出フィルタ５に供給され、特徴抽出フィルタ５において次元圧縮されて特徴抽出フィルタ５の各チャンネルから時系列データが出力され、この時系列データが照合用低次圧縮時系列データ群とされる。
【００３９】
このように作成された照合用低次圧縮時系列データ群の構造は、図５に示すごとくであって、図５（Ａ）、（Ｂ）、（Ｃ）はそれぞれ学習音声の発話者、例えばａ′、ｂ′、ｃ′による同じ単語の学習音声による場合の照合用低次圧縮時系列データ群であって、９名の話者による１００単語に対する場合には９００個の照合用低次圧縮時系列データ群が得られ、照合用低次圧縮時系列データ群の各要素は学習音声信号の各発話単語名とそれに対応する照合用低次圧縮時系列データの対で構成される。この照合用低次圧縮時系列データ群は照合用低次圧縮時系列データ記憶器６に記憶される。
【００４０】
上記のように照合用低次圧縮時系列データ群が照合用低次圧縮時系列データ記憶器６に記憶させてある状態で、不特定話者からの音声認識が行われる。不特定話者からの音声信号は周波数分析器２によって周波数分析され、既に学習音声信号群からの音声信号に基づいて予め特徴抽出フィルタ作成部αで求められた特徴抽出フィルタ５に供給されて、特徴抽出フィルタ５において次元圧縮処理がなされて、時系列データに変換される。
【００４１】
不特定話者からの音声信号に基づく時系列データは、学習音声信号群に基づいて照合時系列データ作成部βで求められた照合用低次圧縮時系列データ群との間で時系列データ照合器７において照合されて、不特定話者からの音声信号に基づく時系列データに最も近い照合用低次圧縮時系列データが照合用低次圧縮時系列データ群の中から選び出され、選び出された照合用低次圧縮時系列データに対する発話単語名が認識結果として出力される。
【００４２】
次に、本実施の形態における時系列データ照合器７について、ＤＰ（dynamic programming ）法を用いた照合の場合を例に説明する。
【００４３】
ＤＰ法は、入力時系列データとあらかじめ記憶された各時系列データ群との間で、非線形に時間伸縮することで時間正規化を行い対応づけを行う照合法である。この方法によれば、入力時系列データと予め記憶された各時系列データとの間の時間正規化後の距離が定義され、この距離が最小である時系列データが入力時系列データを最もよく表すものとし、認識結果とするものである。本実施の形態では、このＤＰ法が不特定話者からの音声信号に基づく時系列データと照合用低次圧縮時系列データとの間に適用されて、時間正規化後の最小距離を持つ照合用低次圧縮時系列データに対応させた単語名が出力される。
【００４４】
次に、本実施の形態に基づく評価実験結果について説明する。ここでは、テストサンプルとして、話者認定評価用データベースの１０名の話者の１００単語を用いた。
【００４５】
テスト話者１名を除く９名の話者の発話データを学習音声信号群として用いて特徴抽出フィルタ作成部αで特徴抽出フィルタ５を作成した。サンプルとして用いた音素は母音、破裂音、摩擦音、鼻音であり、部分周波数−時間パターン作成器３を用いて、話者毎に部分周波数−時間の時系列データを求め、この部分周波数−時間の時系列データから主成分分析器４で主成分を求め、この主成分のうち、第１、第２主成分において、周波数軸方向には４．５ｋＨｚ以下の低い周波数部分で、時間軸方向には時間窓Ｄの中央部分の１単位時間分のみの部分を用いて特徴抽出ベクトルδ１ｉ、δ２ｉとして用いた。この特徴抽出ベクトルδ１ｉ、δ２ｉの形状の一例を、横軸に周波数を縦軸に重み係数をとった場合を図６に示す。
【００４６】
時系列データ照合器７で用いる照合用低次圧縮時系列データ群は、前記テスト話者１名を除く９名の話者の発話データを学習音声信号群として、上記特徴抽出フィルタ５を用いた照合時系列データ作成部βで９００個の照合用低次圧縮時系列データを求めた。評価実験では、テスト話者を変えながら行い、その都度、特徴抽出フィルタ５を求め直し、照合用低次圧縮時系列データを作成し直した。
【００４７】
次に本発明の一実施の形態にかかる音声認識装置の変形例について説明する。
【００４８】
主成分の内の低次主成分は部分周波数−時間の時系列データ群の特徴に多く含まれる成分の固有空間を定義しており、音声信号の周波数−時間の時系列データに基づく周波数−時間パターン中に最も含まれる部分の特徴を表して、音声信号に含まれる学習話者の個人性に基づく成分や認識に悪影響を及ぼすと考えられるノイズ成分は、低次主成分には含まれていないと考えられることは前記のとおりである。
【００４９】
このため、本変形例では特徴抽出フィルタ５における特徴抽出ベクトルδ１ｉ、δ２ｉに代わって分散の大きい第１主成分から順次分散が減少する第４番目の主成分を特徴抽出ベクトルとして用いてもよく、例えば、情報の損失量の最小から最大の方向へ４つの主成分を低次主成分として用いてもよい。
【００５０】
上記の４つの主成分を低次主成分として用いたときの本変形例における特徴抽出フイルタでは、上記の低次主成分を基底として用いて、例えば４つの第１、第２、第３、第４低次主成分ベクトルδ１ｉ′、δ２ｉ′、δ３ｉ′、δ４ｉ′を特徴抽出フィルタの基底として用い、周波数分析器２から出力される周波数−時間の時系列データの各時刻における周波数−時間の時系列データと第１、第２、第３、第４低次主成分ベクトルδ１ｉ′、δ２ｉ′、δ３ｉ′、δ４ｉ′との間で相関値を求める。この各低次主成分ごとの相関値出力をチャンネルとも記す。この相関値を各チャンネルごとに正規化して、４チャンネルのフィルタ出力とする。
【００５１】
上記からも明らかなように、この変形例の場合の特徴抽出フィルタは４つの低次主成分の場合を例に示せば、図７に示すように、周波数分析結果のＮ次ベクトルＸｉと各低次主成分ベクトルδ１ｉ′、δ２ｉ′、δ３ｉ′、δ４ｉ′との積和演算を各時刻において積和演算器５１１′、５１２′、５１３′、５１４′にてそれぞれ入力Ｎ次ベクトルＸｉに対して行って、各積和演算器５１１′、５１２′、５１３′、５１４′からの出力を、正規化器５２１′、５２２′、５２３′、５２４′によってそれぞれ各別にレベルを正規化して、正規化された各正規化器５２１′、５２２′、５２３′、５２４′からの出力を各チャンネルの出力として送出する。
【００５２】
次に、照合用低次圧縮時系列データ群の作成について説明する。
【００５３】
各単語の学習音声信号が周波数分析器２に供給されて、学習音声信号に基づく周波数−時間の時系列データが作成される。この周波数−時間の時系列データが既に学習音声信号群における音素に対して求めておいた低次主成分を基底とする特徴抽出フィルタ５に供給され、特徴抽出フィルタ５において次元圧縮されて特徴抽出フィルタ５の各チャンネルから時系列データが出力され、この時系列データが照合用低次圧縮時系列データとされる。
【００５４】
このように作成された本変形例における照合用低次時系列データの構成は、図８に示すごとくであって、図５（Ａ）、（Ｂ）、（Ｃ）、（Ｄ）はそれぞれ学習音声の発話者、例えばａ′、ｂ′、ｃ′、ｄ′による同じ単語の学習音声による場合の照合用低次圧縮時系列データであって、９名の話者による１００単語に対する場合には９００個の照合用低次圧縮時系列データ群が得られ、照合用低次圧縮時系列データ群の各要素は学習音声信号の各発話単語名とそれに対応する照合用低次圧縮時系列データの対で構成される。この照合用低次圧縮時系列データ群は照合用低次圧縮時系列データ記憶器６に記憶される。
【００５５】
その他については、図６に示す特徴抽出ベクトルδ１ｉ、δ２ｉの形状以外は、上記した本発明の実施形態の一形態にかかる音声認識の場合と同様である。
【００５６】
上記した本発明の実施の一形態にかかる音声認識装置１において、２チャンネルに設定して特徴抽出フィルタ５に図６に示した特徴抽出ベクトルδ１ｉ、δ２ｉを用いた場合と、前記変形例において説明した低次の４つの主成分分析結果を用いて３チャンネルに設定した特徴抽出フィルタを用いた場合の音声認識結果を図９に示す。
【００５７】
図９において、ａは前者すなわち２チャンネルに設定して特徴抽出フィルタ５に図６に示した特徴抽出ベクトルを用いた場合の認識結果を示し、ｂは後者すなわち低次の４つの主成分分析結果を用いて３チャンネルに設定した特徴抽出フィルタを用いた場合の認識結果を示している。両者共良好な認識結果が得られているが、前者の方がさらによいことが判る。
【００５８】
主成分分析を行うため、周波数分析の際の切り出しの周波数、時間窓Ｄは０〜８ｋＨｚ、３０ｍｓｅｃ幅であり、本変形例においては周波数は８ｋＨｚ（３２点）、時間窓Ｄは３０ｍｓｅｃ（＝５ｍｓｅｃ×６、６単位時間）であるのに対し、一実施の形態では周波数は０〜４．５ｋＨｚ（１８点）であり、時間窓Ｄは５ｍｓｅｃ（１単位時間）であって、周波数はほぼ１／２であり、時間幅は１／６である。これは、音声認識のために定常的に安定な、周波数範囲かつ時間幅の部分を切り出すのであるが、０〜４．５ｋＨｚ、５ｍｓｅｃの範囲でも十分に音声の話者依存性の少ない特徴を抽出することができることが判ったためである。
【００５９】
したがって、一単位時間当たりの音声の特徴抽出のために必要とする計算量は、一実施の形態では周波数で１８点、時間軸で１点であるため合計１８回の乗算が必要であったのに対し、変形例では周波数で３２点、時間軸で６点で合計１９２回の乗算を必要とし、一実施の形態の場合、一単位時間の低次圧縮にかかる計算速度は変形例の場合の１／１０．６倍に短縮されて、大幅な計算量の削減が図れ、かつ同程度以上の良好な音声認識結果が得られている。
【００６０】
さらに、参照時系列ベクトルを記憶しておくためのメモリの記憶容量も、用いるチャンネル数が一実施の形態の場合は２チャンネル、変形例の場合は３チャンネルのために、一実施の形態の場合では２／３倍に削減できることになる。
【００６１】
【発明の効果】
以上説明したように、本発明に係る音声認識装置によれば、特徴抽出のための演算も、かつ照合のための処理も簡単なため、その構成は簡単ですみ、かつ不特定話者の多様性に対しても誤認識が少なく、音声認識をすることができるという効果が得られる。さらに、本発明によれば、音声の特徴抽出に必要な計算量の削減と、照合に必要な計算量の削減と参照時系列ベクトルを記憶しておくためのメモリー容量を削減しつつ、良好な音声認識特性を得ることができるという効果が得られる。
【図面の簡単な説明】
【図１】本発明の一実施の形態にかかる音声認識装置の構成を示す模式ブロック図である。
【図２】本発明の一実施の形態にかかる音声認識装置における特徴抽出フィルタの構成を示すブロック図である。
【図３】本発明の一実施の形態にかかる音声認識装置における部分周波数−時間パターン作成器の作用の説明に供する模式図である。
【図４】本発明の一実施の形態にかかる音声認識装置における部分周波数−時間パターン作成器および主成分分析器の作用の説明に供する模式図である。
【図５】本発明の一実施の形態にかかる音声認識装置における照合用低次圧縮時系列データの構造の一例を示す模式図である。
【図６】本発明の一実施の形態にかかる音声認識装置における特徴抽出フィルタの特徴抽出ベクトルを示す図である。
【図７】本発明の一実施の形態にかかる音声認識装置の変形例における特徴抽出フィルタの他の構成を示すブロック図である。
【図８】本発明の一実施の形態にかかる音声認識装置の変形例における照合用低次圧縮時系列データの構造の一例を示す模式図である。
【図９】本発明の一実施の形態にかかる音声認識装置による音声認識結果を示す特性図である。
【符号の説明】
α 特徴抽出フィルタ作成部
β 照合時系列データ作成部
γ 不特定話者音声認識部
１音声認識装置
２周波数分析器
３部分周波数−時間パターン作成器
４主成分分析器
５特徴抽出フィルタ
６照合用低次圧縮時系列データ記憶器
７時系列データ照合器

Claims

音声信号を周波数分析して得た周波数スペクトルを、時間軸に沿って順次求めて時系列データ群に変換する周波数分析手段と、複数の学習話者から発話された音声に基づく音声信号が入力された前記周波数分析手段からの出力時系列データを予め定めた時間窓で切り出す切り出し手段と、前記切り出し手段によって切り出された時系列データ群を用いて主成分分析を行う主成分分析手段と、前記主成分分析により得た主成分中における低い周波数部分および時間窓の中心部分を用いて畳み込み積分を行って入力時系列データを低次の時系列データに圧縮する特徴抽出フィルタ手段とを備え、前記複数の学習話者から発話された音声に基づく低次の時系列データを参照用低次時系列データとし、該参照用低次時系列データと不特定話者から発話された音声に基づく低次の時系列データとを照合して照合結果に基づいて音声認識をすることを特徴とする音声認識装置。
請求項１記載の音声認識装置において、特徴抽出フィルタ手段は主成分分析により得た主成分中の低次主成分を基底とすることを特徴とする音声認識装置。
請求項１記載の音声認識装置において、参照用低次時系列データは、複数の学習話者から発話された音声に基づく音声信号が入力された周波数分析手段からの出力時系列データを特徴抽出フィルタ手段に供給し特徴抽出フィルタ手段にて圧縮された低次の時系列データであることを特徴とする音声認識装置。
請求項１記載の音声認識装置において、複数の学習話者から発話された音声に基づく音声信号が入力された周波数分析手段からの出力時系列データを特徴抽出フィルタ手段に供給し特徴抽出フィルタ手段にて圧縮された低次の時系列データを参照用時系列データとして記憶する記憶手段を備え、不特定話者から発話された音声に基づく低次の時系列データと記憶手段から読み出した参照用時系列データとを照合して音声認識をすることを特徴とする音声認識装置。
請求項１記載の音声認識装置において、不特定話者から発話された音声に基づく低次の時系列データは、不特定話者から発話された音声に基づく音声信号が入力された周波数分析手段からの出力時系列データを特徴抽出フィルタ手段に供給し特徴抽出フィルタ手段にて圧縮された低次の時系列データであることを特徴とする音声認識装置。
請求項１記載の音声認識装置において、切り出し手段は複数の学習話者の、同じ音素毎に時系列データを切り出し、複数の学習話者の平均時系列データを作成することを特徴とする音声認識装置。
請求項１記載の音声認識装置において、切り出し手段は比較的定常的な音素毎に、時系列データを切り出すことを特徴とする音声認識装置。