JP3905620B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP3905620B2
JP3905620B2 JP32302797A JP32302797A JP3905620B2 JP 3905620 B2 JP3905620 B2 JP 3905620B2 JP 32302797 A JP32302797 A JP 32302797A JP 32302797 A JP32302797 A JP 32302797A JP 3905620 B2 JP3905620 B2 JP 3905620B2
Authority
JP
Japan
Prior art keywords
time
series data
low
frequency
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP32302797A
Other languages
English (en)
Other versions
JPH1165589A (ja
Inventor
浩二 赤塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP32302797A priority Critical patent/JP3905620B2/ja
Publication of JPH1165589A publication Critical patent/JPH1165589A/ja
Application granted granted Critical
Publication of JP3905620B2 publication Critical patent/JP3905620B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、不特定話者から離散的に発話された音声を自動的に認識する音声認識装置に関する。
【0002】
【従来の技術】
複数の不特定話者からの音声を誤認識せずに認識する従来の音声認識装置の多くは、種々の周波数分析手法を用いて音声信号に対してある程度の周波数解像度を有する周波数分析を行って周波数−時間の符号系列に変換し、出現が予想される音素の数の隠れマルコフモデルを用意し、さらに該用意した隠れマルコフモデルを多くの話者からの発話音声によって学習させて予め用意しておく。
【0003】
この学習済みの隠れマルコフモデルを用いて、不特定話者から発話された音声に基づく周波数−時間の符号系列の部分区間を、全ての音素モデルと照合することによって音素系列の候補の時系列に変換し、この音素の時系列が最もよく表される単語を認識結果として出力するようになされている。
【0004】
【発明が解決しようとする課題】
しかしながら、従来の音声認識装置では、不特定話者の発話の多様性に対応して高性能な音声認識特性を維持するための隠れマルコフモデルの学習に多くの学習データを必要とし、隠れマルコフモデルで音素を精密に特定するためにある程度の周波数分析の解像度、すなわち、ある程度の大きさのベクトル次数を必要とするという問題点があった。
【0005】
この結果、隠れマルコフモデルの学習時と音素特定時の演算負荷が重く、さらに単語の認識過程において少なくとも音素照合と単語照合の2段階の照合演算処理を必要とするという問題点があった。
【0006】
本発明は、簡単な横成で、不特定話者の発話の多様性に対しても高性能を維持することができて、誤認識を低減させた音声認識装置を提供することを目的とする。
【0007】
【課題を解決するための手段】
本発明にかかる音声認識装置は、音声信号を周波数分析して得た周波数スペクトルを、時間軸に沿って順次求めて時系列データ群に変換する周波数分析手段と、複数の学習話者から発話された音声に基づく音声信号が入力された前記周波数分析手段からの出力時系列データを予め定めた時間窓で切り出す切り出し手段と、前記切り出し手段によって切り出された時系列データ群を用いて主成分分析を行う主成分分析手段と、前記主成分分析により得た主成分中における低い周波数部分および時間窓の中心部分を用いて畳み込み積分を行って入力時系列データを低次の時系列データに圧縮する特徴抽出フィルタ手段とを備え、前記複数の学習話者から発話された音声に基づく低次の時系列データを参照用低次時系列データとし、該参照用低次時系列データと不特定話者から発話された音声に基づく低次の時系列データとを照合して照合結果に基づいて音声認識をすることを特徴とする。
【0008】
本発明にかかる音声認識装置は、複数の学習話者から発話された音声に基づく音声信号が周波数分析手段に入力されて時系列データ群に変換され、周波数分析手段によって変換された時系列データが切り出し手段によって予め定めた時間窓で切り出され、切り出し手段によって切り出された時系列データ群を用いて主成分分析手段によって主成分分析され、主成分分析により得られた主成分中における低い周波数部分および時間窓の中心部分を用いて畳み込み積分が行われて特徴抽出フィルタ手段にて入力時系列データが低次の時系列データに圧縮される。複数の学習話者から発話された音声に基づく低次の時系列データが参照用低次時系列データとされて、不特定話者から発話された音声に基づく低次の時系列データと照合されて、照合結果に基づいて不特定話者から発話された音声に対する音声認識がなされる。
【0009】
【発明の実施の形態】
以下、本発明にかかる音声認識装置を実施の一形態によって説明する。
【0010】
図1は本発明の実施の一形態にかかる音声認識装置の構成を示す模式ブロック図である。
【0011】
図1の模式ブロック図において、作用の理解を容易にするために、同一の構成要素であっても異なる音声信号ラインに使用する構成要素は重複して示してあって、図1において2重枠の構成要素がこれに当たり、同一符号は同一の構成手段を示している。
【0012】
本発明の実施の一形態にかかる音声認識装置1は、複数の学習話者から発せられる発話音声に基づき学習話者の音素に対する特徴を抽出し、抽出した特徴に基づいて特徴抽出フィルタを作成する特徴抽出フィルタ作成部αと、複数の学習話者の発話たとえば単語の音声信号に基づく情報を特徴抽出フィルタに供給し、特徴抽出フィルタによって前記情報を圧縮して照合用低次圧縮時系列データ群を生成する照合時系列データ作成部βと、入力された不特定話者からの音声信号を特徴抽出フィルタに供給して、特徴抽出フィルタによって圧縮した時系列データを生成し、該時系列データを照合用低次圧縮時系列データと照合して音声認識結果を出力する不特定話者音声認識部γとを備えている。
【0013】
特徴抽出フィルタ作成部αは、複数の学習話者から発話された音声(以下、学習音声群とも記す)の周波数スペクトルの時間的変化を示すため、複数の学習話者から発話された音声に基づく音声信号を周波数分析して得た周波数スペクトルを、時間軸に沿って順次求めた時系列データ群(周波数−時間の時系列データ群)に変換する周波数分析器2と、周波数分析器2によって変換された前記複数の学習話者からの音声に基づく周波数−時間の時系列データ群から小さな時間窓の範囲における部分周波数−時間の時系列データを切り出す部分周波数−時間パターン作成器3と、部分周波数−時間パターン生成器3によって切り出された複数の部分周波数−時間の時系列データを用いて主成分分析を行う主成分分析器4と、主成分分析器4による主成分分析結果の低次主成分において、周波数軸方向には低い周波数部分を用い、かつ時間軸方向には時間窓の中央部のみを用いて畳み込み積分を行う特徴抽出フィルタ5を備えて、複数の学習話者からの発話音声から学習話者の音素に対する特徴を抽出する。
【0014】
照合時系列データ作成部βは照合用低次圧縮時系列データ記憶器6を備え、複数の学習話者から発話された単語音声の周波数スペクトルの時間的変化を示すため、複数の学習話者から発話された前記単語音声の音声信号を周波数分析器2によって周波数分析して得た周波数スペクトルを、時間軸に沿って順次求めた周波数−時間の時系列データ群に変換し、変換された周波数−時間の時系列データ群を特徴抽出フィルタ5に送出し、特徴抽出フィルタ5にて周波数−時間の時系列データを次元圧縮して照合用低次圧縮時系列データ群を得て、照合用低次圧縮時系列データ記憶器6に記憶させる。
【0015】
不特定話者音声認識部γは時系列データ照合器7を備え、不特定話者から発話された音声の周波数スペクトルの時間的変化を示すため、不特定話者から発話された音声に基づく音声信号を周波数分析器2によって周波数分析して得た周波数スペクトルを、時間軸に沿って順次求めた周波数−時間の時系列データ群に変換し、変換された周波数−時間の時系列データ群を特徴抽出フィルタ5に送出し、特徴抽出フィルタ5にて周波数−時間の時系列データを次元圧縮して時系列データ群を得て、時系列データ群と照合用低次圧縮時系列データ記憶器6から読み出した照合用低次圧縮時系列データとを時系列データ照合器7にて照合し、照合用低次圧縮時系列データ群中から、時系列データ群に最も近いものを求め、照合結果に基づいて不特定話者からの発生音声に基づく言葉を認識する。
【0016】
次に周波数分析器2、部分周波数−時間パターン作成器3、主成分分析器4、特徴抽出フィルタ5のそれぞれについて具体的に説明する。
【0017】
周波数分析器2では、入力音声信号がA/D変換され、A/D変換された音声信号に対して高域強調処理がなされ、高域処理されたA/D変換音声信号に対して時間窓としてのハニング窓がかけられ、線形予測(LPC)分析によってLPC係数が求められ、このLPC係数に対してフーリエ変換が行われて、周波数スペクトルが求められ、これを時間軸に沿って逐次求めることで、音声スペクトルの時間的変化を示すための周波数−時間の時系列データに変換される。したがって周波数分析器2では入力音声のサウンドスペクトルパターンである周波数−時間パターンに実質的に展開されることになる。なおこの場合、周波数−時間の時系列データの各時刻における周波数−時間の時系列データはN次ベクトルXiである。
【0018】
この周波数分析法に応じて特徴抽出フィルタ5を作成すれば、音声情報の欠落が少ない。また、周波数分析法に応じて特徴抽出フィルタ5を作成したときに音声情報に欠落がないような他の周波数分析法によってもよい。したがって、周波数分析器2による方法によれば、所謂LPCスペクトル包絡による方法よりも、さらにベクトル次数の少ない周波数−時間パターンにも適用することができる。この結果、周波数−時間の時系列データ群によって実質的に音声信号の周波数−時間パターンが示される。
【0019】
部分周波数−時間パターン作成器3では、周波数分析器2から出力される周波数−時間の時系列データ群中から、所定の小さな時間窓の範囲における周波数−時間の時系列データが切り出される。このため、部分周波数−時間パターン作成器3から出力される周波数−時間の時系列データに基づく音声の周波数−時間パターンは、周波数分析器2から出力される周波数−時間の時系列データに基づく音声の周波数−時間パターンの一部分であって、部分周波数−時間パターンであるといえる。
【0020】
特徴抽出フィルタ5は、周波数−時間の時系列データから情報の欠落を最小限に抑え、情報圧縮した時系列データを作成する。本例では情報の圧縮に主成分分析を用いている。さらに詳細には部分周波数−時間パターンをサンプルデータとして主成分分析を行った結果の主成分のうち低次主成分において、周波数軸方向には低い周波数部分を用い、かつ時間軸方向には時間窓の中央部分のみを用いて、畳み込み積分を行っている。
【0021】
さらに詳細に、例えば9名の異なる学習話者の共通した100語の発話データを学習音声信号群として用いた場合の例を説明する。
【0022】
この場合、発話データには、単語音声信号区間中の発話音素と、発話音素の音声信号の時間軸上における開始点と終了点とに対応がつけられたラベルデータとを持っているものとする。例えば図3(A)に示すように、音素Eに対する開始点の時間ラベルa、音素Eに対する終了点の時間ラベルでありかつ音素Fに対する開始点の時間ラベルである時間ラベルb、音素Fに対する終了点の時間ラベルcを持っている。
【0023】
部分周波数−時間パターン作成器3は、周波数分析器2から出力される周波数−時間の時系列データをラベルデータと共に、時間抽上の音素の中心位置、図3(A)に示す例では(a+b)/2、(b+c)/2を求め、この中心位置を中心に時間窓部分の周波数−時間の時系列データを切り出す。
【0024】
すなわち、学習音声信号群に対して、部分周波数−時間パターン作成器3によって、例えば30msの時間窓Dで切り出しを行い、部分周波数−時間の時系列データ群を作成する。部分周波数−時間パターン作成器3によって作成された部分周波数−時間の時系列データの時間窓Dによる切り出しは、図3(B)に示すように、音素Eに対しては時間ラベルaと時間ラベルbとの間の中央に時間窓Dがくるように、[{(a+b)/2}−(D/2)]の位置から[{(a+b)/2}+(D/2)]の位置までが切り出され、音素Fに対しては時間ラベルbと時間ラベルcとの間の中央に時間窓Dがくるように、[{(b+c)/2}−(D/2)]の位置から[{(b+c)/2}+(D/2)]の位置までが切り出される。
【0025】
この切り出し処理を同じ音素のラベル区間について行うことによって、同じ音素の周波数−時間の時系列データを複数集めることができる。同じ音素の複数集めた周波数−時間の時系列データの平均値を求め、これを部分周波数−時間の時系列データとする。この部分周波数−時間の時系列データを音素毎に作成することによって部分周波数−時間の時系列データ群が作成される。
【0026】
また、この切り出し処理を変化の少ない音素毎、すなわち比較的定常的な音素毎に行ってもよい。
【0027】
この部分周波数−時間の時系列データ群から、主成分分析器4によって主成分が求められる。
【0028】
部分周波数−時間の時系列データから主成分分析器4による主成分の出力までの作用について図4に基づいて説明する。図4においては、部分周波数−時間の時系列データをパターンと略記してある。
【0029】
切り出された音素Aの部分周波数−時間の時系列データ群、音素Bの部分周波数−時間の時系列データ群、……、音素Zの部分周波数−時間の時系列データ群は図4(A)に模式的に示す如くであり、各音素A〜Zについての部分周波数−時間の時系列データ群の平均値が求められる。音素Aの部分周波数−時間の時系列データ群の平均値、音素Bの部分周波数−時間の時系列データ群の平均値、……、音素Zの部分周波数−時間の時系列データ群の平均値は図4(B)に模式的に示す如くである。
【0030】
各音素A〜Zの部分周波数−時間の時系列データの平均値は主成分分析器4によって、図4(C)に模式的に示すように、主成分分析が行われる。主成分分析の結果、図4(D)に模式的に示すように、第1主成分、第2主成分、……、第K主成分(Z>K)が求められる。
【0031】
すなわち、主成分分析ではサンプルデータ空間のベクトル次元数と同数の次元数の主成分が求められ、サンプルデータの分散が最も多い軸を決める主成分を第1主成分、分散が2番目に大きい軸を決める主成分を第2主成分、以下同様に第K主成分が決まる。
【0032】
主成分の内の低次主成分は部分周波数−時間の時系列データ群の特徴に多く含まれる成分の固有空間を定義しており、音声信号の周波数−時間の時系列データに基づく周波数−時間パターン中に最も含まれる部分の特徴を表している。そこで、音声信号に含まれる学習話者の個人性に基づく成分や認識に悪影響を及ぼすと考えられるノイズ成分は、低次主成分には含まれていないと考えられる。
【0033】
特徴抽出フィルタ5では、部分周波数−時間パターンをサンプルデータとして、主成分分析を行った結果の低次主成分において、周波数軸方向には低い周波数部分を用い、かつ時間軸方向には時間窓Dの中央部分のみを用いて畳み込み積分を行う。この畳み込み積分を行うベクトルを特徴抽出ベクトルとも記す。
【0034】
例えば、2つの特徴抽出ベクトルの場合は、第1主成分ベクトルの周波数軸方向には低い周波数部分を用い、かつ時間軸方向には時間窓Dの中央部分のみを用いて畳み込み積分を行うものを第1特徴抽出ベクトルδ1i、第2主成分ベクトルの周波数軸方向には低い周波数部分を用い、かつ時間軸方向には時間窓Dの中央部分のみを用いて畳み込み積分を行うものを第2特徴抽出ベクトルδ2iと呼ぶことにする。
【0035】
この第1、第2特徴抽出ベクトルδ1i、δ2iを特徴抽出フィルタ5で用い、周波数分析器2から出力される周波数−時間時系列データの各時刻における周波数−時間の時系列データと、第1、第2特徴抽出ベクトルδ1i、δ2iとの間で相関値を求める。この各特徴抽出ベクトル毎の相関値出力をチャンネル出力とも記す。この相関値出力を各チャンネル毎に正規化して2チャンネルフィルタ出力とする。
【0036】
上記から明らかなように、特徴抽出フィルタ5は2つの特徴抽出ベクトルδ1i、δ2iで構成される場合を例に示せば、図2に示すように、周波数分析結果のN次ベクトルXiと第1、第2の特徴抽出ベクトルδ1i、δ2iとの積和演算を各時刻について積和演算器511、512にてそれぞれ入力のN次ベクトルXiに対して行って、各積和演算器511、512からの出力を、正規化器521、522によってそれぞれにレベルを正規化し、正規化された各正規化器521、522からの出力を各チャンネルの出力として送出する。
【0037】
次に、照合用低次圧縮時系列データ群の作成について説明する。
【0038】
各単語の学習音声信号が周波数分析器2に供給されて、学習音声信号に基づく周波数−時間の時系列データが作成される。この周波数−時間の時系列データが既に学習音声信号群における音素に対して求めておいた低次主成分を基底とする特徴抽出フィルタ5に供給され、特徴抽出フィルタ5において次元圧縮されて特徴抽出フィルタ5の各チャンネルから時系列データが出力され、この時系列データが照合用低次圧縮時系列データ群とされる。
【0039】
このように作成された照合用低次圧縮時系列データ群の構造は、図5に示すごとくであって、図5(A)、(B)、(C)はそれぞれ学習音声の発話者、例えばa′、b′、c′による同じ単語の学習音声による場合の照合用低次圧縮時系列データ群であって、9名の話者による100単語に対する場合には900個の照合用低次圧縮時系列データ群が得られ、照合用低次圧縮時系列データ群の各要素は学習音声信号の各発話単語名とそれに対応する照合用低次圧縮時系列データの対で構成される。この照合用低次圧縮時系列データ群は照合用低次圧縮時系列データ記憶器6に記憶される。
【0040】
上記のように照合用低次圧縮時系列データ群が照合用低次圧縮時系列データ記憶器6に記憶させてある状態で、不特定話者からの音声認識が行われる。不特定話者からの音声信号は周波数分析器2によって周波数分析され、既に学習音声信号群からの音声信号に基づいて予め特徴抽出フィルタ作成部αで求められた特徴抽出フィルタ5に供給されて、特徴抽出フィルタ5において次元圧縮処理がなされて、時系列データに変換される。
【0041】
不特定話者からの音声信号に基づく時系列データは、学習音声信号群に基づいて照合時系列データ作成部βで求められた照合用低次圧縮時系列データ群との間で時系列データ照合器7において照合されて、不特定話者からの音声信号に基づく時系列データに最も近い照合用低次圧縮時系列データが照合用低次圧縮時系列データ群の中から選び出され、選び出された照合用低次圧縮時系列データに対する発話単語名が認識結果として出力される。
【0042】
次に、本実施の形態における時系列データ照合器7について、DP(dynamic programming )法を用いた照合の場合を例に説明する。
【0043】
DP法は、入力時系列データとあらかじめ記憶された各時系列データ群との間で、非線形に時間伸縮することで時間正規化を行い対応づけを行う照合法である。この方法によれば、入力時系列データと予め記憶された各時系列データとの間の時間正規化後の距離が定義され、この距離が最小である時系列データが入力時系列データを最もよく表すものとし、認識結果とするものである。本実施の形態では、このDP法が不特定話者からの音声信号に基づく時系列データと照合用低次圧縮時系列データとの間に適用されて、時間正規化後の最小距離を持つ照合用低次圧縮時系列データに対応させた単語名が出力される。
【0044】
次に、本実施の形態に基づく評価実験結果について説明する。ここでは、テストサンプルとして、話者認定評価用データベースの10名の話者の100単語を用いた。
【0045】
テスト話者1名を除く9名の話者の発話データを学習音声信号群として用いて特徴抽出フィルタ作成部αで特徴抽出フィルタ5を作成した。サンプルとして用いた音素は母音、破裂音、摩擦音、鼻音であり、部分周波数−時間パターン作成器3を用いて、話者毎に部分周波数−時間の時系列データを求め、この部分周波数−時間の時系列データから主成分分析器4で主成分を求め、この主成分のうち、第1、第2主成分において、周波数軸方向には4.5kHz以下の低い周波数部分で、時間軸方向には時間窓Dの中央部分の1単位時間分のみの部分を用いて特徴抽出ベクトルδ1i、δ2iとして用いた。この特徴抽出ベクトルδ1i、δ2iの形状の一例を、横軸に周波数を縦軸に重み係数をとった場合を図6に示す。
【0046】
時系列データ照合器7で用いる照合用低次圧縮時系列データ群は、前記テスト話者1名を除く9名の話者の発話データを学習音声信号群として、上記特徴抽出フィルタ5を用いた照合時系列データ作成部βで900個の照合用低次圧縮時系列データを求めた。評価実験では、テスト話者を変えながら行い、その都度、特徴抽出フィルタ5を求め直し、照合用低次圧縮時系列データを作成し直した。
【0047】
次に本発明の一実施の形態にかかる音声認識装置の変形例について説明する。
【0048】
主成分の内の低次主成分は部分周波数−時間の時系列データ群の特徴に多く含まれる成分の固有空間を定義しており、音声信号の周波数−時間の時系列データに基づく周波数−時間パターン中に最も含まれる部分の特徴を表して、音声信号に含まれる学習話者の個人性に基づく成分や認識に悪影響を及ぼすと考えられるノイズ成分は、低次主成分には含まれていないと考えられることは前記のとおりである。
【0049】
このため、本変形例では特徴抽出フィルタ5における特徴抽出ベクトルδ1i、δ2iに代わって分散の大きい第1主成分から順次分散が減少する第4番目の主成分を特徴抽出ベクトルとして用いてもよく、例えば、情報の損失量の最小から最大の方向へ4つの主成分を低次主成分として用いてもよい。
【0050】
上記の4つの主成分を低次主成分として用いたときの本変形例における特徴抽出フイルタでは、上記の低次主成分を基底として用いて、例えば4つの第1、第2、第3、第4低次主成分ベクトルδ1i′、δ2i′、δ3i′、δ4i′を特徴抽出フィルタの基底として用い、周波数分析器2から出力される周波数−時間の時系列データの各時刻における周波数−時間の時系列データと第1、第2、第3、第4低次主成分ベクトルδ1i′、δ2i′、δ3i′、δ4i′との間で相関値を求める。この各低次主成分ごとの相関値出力をチャンネルとも記す。この相関値を各チャンネルごとに正規化して、4チャンネルのフィルタ出力とする。
【0051】
上記からも明らかなように、この変形例の場合の特徴抽出フィルタは4つの低次主成分の場合を例に示せば、図7に示すように、周波数分析結果のN次ベクトルXiと各低次主成分ベクトルδ1i′、δ2i′、δ3i′、δ4i′との積和演算を各時刻において積和演算器511′、512′、513′、514′にてそれぞれ入力N次ベクトルXiに対して行って、各積和演算器511′、512′、513′、514′からの出力を、正規化器521′、522′、523′、524′によってそれぞれ各別にレベルを正規化して、正規化された各正規化器521′、522′、523′、524′からの出力を各チャンネルの出力として送出する。
【0052】
次に、照合用低次圧縮時系列データ群の作成について説明する。
【0053】
各単語の学習音声信号が周波数分析器2に供給されて、学習音声信号に基づく周波数−時間の時系列データが作成される。この周波数−時間の時系列データが既に学習音声信号群における音素に対して求めておいた低次主成分を基底とする特徴抽出フィルタ5に供給され、特徴抽出フィルタ5において次元圧縮されて特徴抽出フィルタ5の各チャンネルから時系列データが出力され、この時系列データが照合用低次圧縮時系列データとされる。
【0054】
このように作成された本変形例における照合用低次時系列データの構成は、図8に示すごとくであって、図5(A)、(B)、(C)、(D)はそれぞれ学習音声の発話者、例えばa′、b′、c′、d′による同じ単語の学習音声による場合の照合用低次圧縮時系列データであって、9名の話者による100単語に対する場合には900個の照合用低次圧縮時系列データ群が得られ、照合用低次圧縮時系列データ群の各要素は学習音声信号の各発話単語名とそれに対応する照合用低次圧縮時系列データの対で構成される。この照合用低次圧縮時系列データ群は照合用低次圧縮時系列データ記憶器6に記憶される。
【0055】
その他については、図6に示す特徴抽出ベクトルδ1i、δ2iの形状以外は、上記した本発明の実施形態の一形態にかかる音声認識の場合と同様である。
【0056】
上記した本発明の実施の一形態にかかる音声認識装置1において、2チャンネルに設定して特徴抽出フィルタ5に図6に示した特徴抽出ベクトルδ1i、δ2iを用いた場合と、前記変形例において説明した低次の4つの主成分分析結果を用いて3チャンネルに設定した特徴抽出フィルタを用いた場合の音声認識結果を図9に示す。
【0057】
図9において、aは前者すなわち2チャンネルに設定して特徴抽出フィルタ5に図6に示した特徴抽出ベクトルを用いた場合の認識結果を示し、bは後者すなわち低次の4つの主成分分析結果を用いて3チャンネルに設定した特徴抽出フィルタを用いた場合の認識結果を示している。両者共良好な認識結果が得られているが、前者の方がさらによいことが判る。
【0058】
主成分分析を行うため、周波数分析の際の切り出しの周波数、時間窓Dは0〜8kHz、30msec幅であり、本変形例においては周波数は8kHz(32点)、時間窓Dは30msec(=5msec×6、6単位時間)であるのに対し、一実施の形態では周波数は0〜4.5kHz(18点)であり、時間窓Dは5msec(1単位時間)であって、周波数はほぼ1/2であり、時間幅は1/6である。これは、音声認識のために定常的に安定な、周波数範囲かつ時間幅の部分を切り出すのであるが、0〜4.5kHz、5msecの範囲でも十分に音声の話者依存性の少ない特徴を抽出することができることが判ったためである。
【0059】
したがって、一単位時間当たりの音声の特徴抽出のために必要とする計算量は、一実施の形態では周波数で18点、時間軸で1点であるため合計18回の乗算が必要であったのに対し、変形例では周波数で32点、時間軸で6点で合計192回の乗算を必要とし、一実施の形態の場合、一単位時間の低次圧縮にかかる計算速度は変形例の場合の1/10.6倍に短縮されて、大幅な計算量の削減が図れ、かつ同程度以上の良好な音声認識結果が得られている。
【0060】
さらに、参照時系列ベクトルを記憶しておくためのメモリの記憶容量も、用いるチャンネル数が一実施の形態の場合は2チャンネル、変形例の場合は3チャンネルのために、一実施の形態の場合では2/3倍に削減できることになる。
【0061】
【発明の効果】
以上説明したように、本発明に係る音声認識装置によれば、特徴抽出のための演算も、かつ照合のための処理も簡単なため、その構成は簡単ですみ、かつ不特定話者の多様性に対しても誤認識が少なく、音声認識をすることができるという効果が得られる。さらに、本発明によれば、音声の特徴抽出に必要な計算量の削減と、照合に必要な計算量の削減と参照時系列ベクトルを記憶しておくためのメモリー容量を削減しつつ、良好な音声認識特性を得ることができるという効果が得られる。
【図面の簡単な説明】
【図1】本発明の一実施の形態にかかる音声認識装置の構成を示す模式ブロック図である。
【図2】本発明の一実施の形態にかかる音声認識装置における特徴抽出フィルタの構成を示すブロック図である。
【図3】本発明の一実施の形態にかかる音声認識装置における部分周波数−時間パターン作成器の作用の説明に供する模式図である。
【図4】本発明の一実施の形態にかかる音声認識装置における部分周波数−時間パターン作成器および主成分分析器の作用の説明に供する模式図である。
【図5】本発明の一実施の形態にかかる音声認識装置における照合用低次圧縮時系列データの構造の一例を示す模式図である。
【図6】本発明の一実施の形態にかかる音声認識装置における特徴抽出フィルタの特徴抽出ベクトルを示す図である。
【図7】本発明の一実施の形態にかかる音声認識装置の変形例における特徴抽出フィルタの他の構成を示すブロック図である。
【図8】本発明の一実施の形態にかかる音声認識装置の変形例における照合用低次圧縮時系列データの構造の一例を示す模式図である。
【図9】本発明の一実施の形態にかかる音声認識装置による音声認識結果を示す特性図である。
【符号の説明】
α 特徴抽出フィルタ作成部
β 照合時系列データ作成部
γ 不特定話者音声認識部
1 音声認識装置
2 周波数分析器
3 部分周波数−時間パターン作成器
4 主成分分析器
5 特徴抽出フィルタ
6 照合用低次圧縮時系列データ記憶器
7 時系列データ照合器

Claims (7)

  1. 音声信号を周波数分析して得た周波数スペクトルを、時間軸に沿って順次求めて時系列データ群に変換する周波数分析手段と、複数の学習話者から発話された音声に基づく音声信号が入力された前記周波数分析手段からの出力時系列データを予め定めた時間窓で切り出す切り出し手段と、前記切り出し手段によって切り出された時系列データ群を用いて主成分分析を行う主成分分析手段と、前記主成分分析により得た主成分中における低い周波数部分および時間窓の中心部分を用いて畳み込み積分を行って入力時系列データを低次の時系列データに圧縮する特徴抽出フィルタ手段とを備え、前記複数の学習話者から発話された音声に基づく低次の時系列データを参照用低次時系列データとし、該参照用低次時系列データと不特定話者から発話された音声に基づく低次の時系列データとを照合して照合結果に基づいて音声認識をすることを特徴とする音声認識装置。
  2. 請求項1記載の音声認識装置において、特徴抽出フィルタ手段は主成分分析により得た主成分中の低次主成分を基底とすることを特徴とする音声認識装置。
  3. 請求項1記載の音声認識装置において、参照用低次時系列データは、複数の学習話者から発話された音声に基づく音声信号が入力された周波数分析手段からの出力時系列データを特徴抽出フィルタ手段に供給し特徴抽出フィルタ手段にて圧縮された低次の時系列データであることを特徴とする音声認識装置。
  4. 請求項1記載の音声認識装置において、複数の学習話者から発話された音声に基づく音声信号が入力された周波数分析手段からの出力時系列データを特徴抽出フィルタ手段に供給し特徴抽出フィルタ手段にて圧縮された低次の時系列データを参照用時系列データとして記憶する記憶手段を備え、不特定話者から発話された音声に基づく低次の時系列データと記憶手段から読み出した参照用時系列データとを照合して音声認識をすることを特徴とする音声認識装置。
  5. 請求項1記載の音声認識装置において、不特定話者から発話された音声に基づく低次の時系列データは、不特定話者から発話された音声に基づく音声信号が入力された周波数分析手段からの出力時系列データを特徴抽出フィルタ手段に供給し特徴抽出フィルタ手段にて圧縮された低次の時系列データであることを特徴とする音声認識装置。
  6. 請求項1記載の音声認識装置において、切り出し手段は複数の学習話者の、同じ音素毎に時系列データを切り出し、複数の学習話者の平均時系列データを作成することを特徴とする音声認識装置。
  7. 請求項1記載の音声認識装置において、切り出し手段は比較的定常的な音素毎に、時系列データを切り出すことを特徴とする音声認識装置。
JP32302797A 1997-06-10 1997-11-25 音声認識装置 Expired - Fee Related JP3905620B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP32302797A JP3905620B2 (ja) 1997-06-10 1997-11-25 音声認識装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP9-152663 1997-06-10
JP15266397 1997-06-10
JP32302797A JP3905620B2 (ja) 1997-06-10 1997-11-25 音声認識装置

Publications (2)

Publication Number Publication Date
JPH1165589A JPH1165589A (ja) 1999-03-09
JP3905620B2 true JP3905620B2 (ja) 2007-04-18

Family

ID=26481519

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32302797A Expired - Fee Related JP3905620B2 (ja) 1997-06-10 1997-11-25 音声認識装置

Country Status (1)

Country Link
JP (1) JP3905620B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW436758B (en) * 1998-04-30 2001-05-28 Matsushita Electric Ind Co Ltd Speaker and environment adaptation based on eigenvoices including maximum likelihood method
CN104409073A (zh) * 2014-11-04 2015-03-11 贵阳供电局 一种变电设备声音与语音的识别方法
CN114758560B (zh) * 2022-03-30 2023-06-06 厦门大学 一种基于动态时间规整的哼唱音准评价方法

Also Published As

Publication number Publication date
JPH1165589A (ja) 1999-03-09

Similar Documents

Publication Publication Date Title
US4837831A (en) Method for creating and using multiple-word sound models in speech recognition
JP3037864B2 (ja) 音声コード化装置及び方法
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
WO2011024572A1 (ja) 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム
JPH05341797A (ja) 文脈依存型音声認識装置および方法
JPH0792673B2 (ja) 認識用辞書学習方法
JPH05216490A (ja) 音声コード化装置及び方法並びに音声認識装置及び方法
JPH07334184A (ja) 音響カテゴリ平均値計算装置及び適応化装置
Kumar et al. Improvements in the detection of vowel onset and offset points in a speech sequence
US5764853A (en) Voice recognition device and method using a (GGM) Guaranteed Global minimum Mapping
US5943647A (en) Speech recognition based on HMMs
Chavan et al. Speech recognition in noisy environment, issues and challenges: A review
JP3905620B2 (ja) 音声認識装置
JP2000194392A (ja) 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
JP2700143B2 (ja) 音声コーディング装置および方法
Sai et al. Enhancing pitch robustness of speech recognition system through spectral smoothing
JP3767876B2 (ja) 音声認識装置
Jalalvand et al. A classifier combination approach for Farsi accents recognition
Hasan et al. Improvement of speech recognition results by a combination of systems
JP2834471B2 (ja) 発音評価法
JP3438293B2 (ja) 音声認識における単語テンプレートの自動作成方法
JP3036706B2 (ja) 音声認識方法
Hurmalainen Robust speech recognition with spectrogram factorisation
JPH07210197A (ja) 話者識別方法
JPH0323920B2 (ja)

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070112

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100119

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110119

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110119

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120119

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees