JP3567477B2 - 発声変形音声認識装置 - Google Patents

発声変形音声認識装置 Download PDF

Info

Publication number
JP3567477B2
JP3567477B2 JP05060594A JP5060594A JP3567477B2 JP 3567477 B2 JP3567477 B2 JP 3567477B2 JP 05060594 A JP05060594 A JP 05060594A JP 5060594 A JP5060594 A JP 5060594A JP 3567477 B2 JP3567477 B2 JP 3567477B2
Authority
JP
Japan
Prior art keywords
speech
utterance
model
deformation
transformation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP05060594A
Other languages
English (en)
Other versions
JPH07261780A (ja
Inventor
鈴木  忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP05060594A priority Critical patent/JP3567477B2/ja
Publication of JPH07261780A publication Critical patent/JPH07261780A/ja
Application granted granted Critical
Publication of JP3567477B2 publication Critical patent/JP3567477B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【産業上の利用分野】
本発明は、環境騒音による発声変形が生じた音声を対象とする音声認識装置に関するものである。
【0002】
【従来の技術】
騒音下音声認識を実現する上で、環境騒音による発声変形(ロンバード効果)は、雑音重畳による音声信号の品質劣化と並ぶ重要な問題となっている。ロンバード効果による音韻スペクトルの変形に対して、音韻や話者に依存しない補正手法がこれまでに提案されている。
【0003】
特開平4−296799号公報に記載された音声認識装置や特開平5−6196号公報に記載された音声認識装置では、ロンバード効果により300Hz〜1500Hz内のホルマントが大きく変動することについて、入力音声に対するホルマント周波数分析と、環境騒音レベルもしくは入力音声のレベルによって規定される周波数変動量により、ケプストラムパラメータ上で補正する手法が提案されている。特開平4−257898号公報に記載されたロンバード音声認識方法においても前述の帯域におけるホルマント周波数の変動に着目して、標準パタンのスペクトルと入力パタンのスペクトルのマッチングの際に、1.5kHz以下のズレをDPマッチングで補正する方法を提案している。
しかしながらこれらの手法は、ロンバード効果によるスペクトル変形の個人性や音韻依存性を考慮しておらず、また前記帯域以外の変動については具体的補正手法を示すに至っていない。そのため、語彙数の多い認識では十分な認識率が得られないという欠点があった。
【0004】
これに対し近年、スペクトル変形の様態を表現する発声変形モデルを定義し、このモデルのパラメータを大量の発声変形音声データを用いて音韻ごとに学習、認識に用いる手法が、文献“高騒音下音声認識における発声変形対処法の検討”(鈴木、中島、日本音響学会講演論文集 平成5年10月 pp.147−148)において提案されている。
図4はこの手法に基づく発声変形音声認識装置の構成図の一例である。図において、2は入力端1より入力された入力音声信号に対し音響分析を行い、入力音声特徴ベクトル時系列3を出力する音響分析手段、4は音韻ごとに学習された発声変形モデルを格納する発声変形モデルメモリ、5は発声変形がない音声データを学習データとして得られた発声変形なし音声標準モデルを格納する発声変形なし音声標準モデルメモリ、6は発声変形モデルメモリ4に格納されている発声変形モデルと、発声変形なし音声標準モデルメモリ5に記憶されている発声変形なし音声標準モデルとを入力として、音声認識処理を行う発声変形音声認識手段、7は発声変形音声認識手段6の出力である認識結果である。図5に発声変形音声認識手段6の構成図の一例を示す。8は前記発声変形なし音声標準モデルに対し前記発声変形モデルを用いて音韻スペクトルの変形を行うスペクトル変形手段、9はスペクトル変形手段8の出力であるところの変形音声標準モデルと発声変形なし音声標準モデルメモリ5に格納されている発声変形なし音声標準モデルとを合成し、混合型音声標準モデルを生成する音声モデル合成手段、10は音声モデル合成手段9の出力である混合型音声標準モデルと、入力音声特徴ベクトル時系列3に対する尤度を演算する尤度演算手段、11は尤度演算手段の出力である尤度データを用いて、照合処理を行い認識結果7を出力する照合手段である。
【0005】
次に動作について、連続分布型音素片HMMによる離散単語認識の場合を例にとり説明を行う。発声変形なし音声標準モデルメモリ5には、発声変形のない音声データを用いて学習した音素片HMMが発声変形なし音声標準モデルとして格納されている。認識対象となる各単語音声は音素片HMMの連鎖で表現される。発声変形モデルは各音素片のスペクトル変形に対応して生成され、発声変形モデルメモリ4に格納されているものとする。
【0006】
入力端1より入力された未知入力単語音声信号は、音響分析手段2における音響分析により各分析フレームごとに特徴ベクトルが抽出され、入力音声特徴ベクトル時系列3{X(n)|n=1...N}に変換される。ここでX(n)は第nフレームの特徴ベクトル、Nはフレーム数である。
スペクトル変形手段8は、発声変形なし音声標準モデルメモリ5に格納されているところの音素片L(Lは音素片の種類を表すラベルとする)に対応する発声変形なし音素片HMMの平均ベクトルに対し、発声変形モデルメモリ4に格納されている発声変形モデル を用いてスペクトル変形処理を施す。平均ベクトル以外のパラメータは何等所作を加えない。この処理をすべての音素片について行う。
音声モデル合成手段9は、発声変形なし音声標準モデルメモリ5に格納されている発声変形なし音素片HMMと、これに対しスペクトル変形手段8でスペクトル変形処理を施されて得られた発声変形音素片HMMとを用い、2混合等確率の混合連続分布型音素片HMMを生成する。
尤度演算手段10は前記入力音声特徴ベクトル時系列3の各特徴ベクトルX(n)と、音響モデル合成手段9の出力であるところの混合連続分布型音素片HMMとの尤度演算を行い、尤度データを出力する。尤度データP(n,L)は、ラベルLの音素片HMMに対する入力音声特徴ベクトル時系列中の特徴ベクトルX(n)の尤度を表し、すべてのLについて1≦n≦Nの範囲で求める。
照合手段11は、尤度演算手段10の出力である尤度データを用いて、認識語彙の単語音声を表す音素片の連鎖に従い、各単語に対する尤度をビタビ演算もしくはトレリス演算により求め、尤度が最大になる単語のカテゴリを認識結果として出力する。
【0007】
【発明が解決しようとする課題】
従来の装置は以上のように構成されているため、発声変形モデルにより表現された一定の変形様態に従った変形音声標準モデルが生成されることになる。発声変形モデルは、前記文献における学習手順によれば、ある騒音環境下において発声された音声の、音素片ごとの平均的な変形様態を表現している。ところが実際には発声変形音声の変形の強度は、同一騒音環境下においても、アクセントの有無や声の大きさによって大きく変動している。そのため、発声変形モデルが表現する固定的なスペクトル変形処理を施した変形音声標準モデルでは、十分な認識性能が得られないという問題があった。
また、従来の発声変形モデルは、スペクトルの変形にのみ注目していたが、ロンバード効果による音声の変形は、発話時間の伸長としても現れる。現在、HMMを用いた音声認識方式においては、音韻の継続時間による尤度ペナルティを併用することで、認識性能の向上を実現している。これに対し、前述の発話時間の伸長は、音韻継続時間による尤度ペナルティの精度を劣化させ、認識性能の劣化につながっていた。
【0008】
本発明は上記の問題を解決するためになされたもので、発声変形の強度を表すパラメータの関数として定義される発声変形モデルを従来の発声変形モデルから生成し、入力音声に対する尤度を最大にする発声変形の強度パラメータを求める機能を持たせることで、発声変形の強度の変動による認識性能の劣化を免れることを目的としている。
また、発声変形なし音声標準モデルに含まれる音韻継続時間パラメータに対し、ロンバード効果による変動を補償するように変更する機能を付加することで、発声変形音声の認識率の向上を図る。
【0009】
【課題を解決するための手段】
この発明に係る発声変形音声認識装置は、
適応型発声変形モデル生成手段と、スペクトル変形手段と、発声変形音声認識手段と、適応型尤度演算手段と、照合手段と、を有する発声変形音声認識手段をさらに備え、
前記適応型発声変形モデル生成手段は、前記適応型尤度演算手段が求めた発声変形度パラメータを入力し、前記発声変形モデルメモリに格納されている発声変形モデルから前記発声変形度パラメータに従う適応型発声変形モデルを生成し、前記スペクトル変形手段は、前記発声変形なし音声標準モデルメモリに格納されている音声標準モデルに対し、前記適応型発声変形モデルに基づくスペクトル変形処理を施し、
前記適応型尤度演算手段は、前記入力音声特徴ベクトル時系列と前記スペクトル変形手段が出力した音声標準パタンとの尤度を最大にする前記発声変形度パラメータを求めるとともに、前記適応型発声変形モデル生成手段に入力して、前記発声変形度パラメータに基づく尤度を求め、
前記照合手段は、前記適応型尤度演算手段の出力を用いて照合処理を行い、認識結果を出力することを特徴とする。
【0011】
また請求項3の発明における発声変形音声認識装置は、発声変形なし音声標準モデルメモリと音声認識手段との間に、発声変形なし音声標準モデルの継続時間パラメータを変更する継続時間パラメータ変更手段を入れたことを特徴とする。
【0012】
【作用】
この発明において、適応型発声変形モデル生成手段は、適応型尤度演算手段が出力した発声変形度パラメータに従い、発声変形モデルメモリに格納されている発声変形モデルから適応型発声変形モデルを生成する。
本発明におけるスペクトル変形手段は、適応型発声変形モデル生成手段の出力であるところの適応型発声変形モデルに従い、発声変形なし音声標準モデルメモリに格納されている発声変形なし音声標準モデルに対しスペクトル変形処理を施し、変形音声標準モデルを生成する。
また適応型尤度演算手段は、入力音声特徴ベクトル時系列に対し、尤度を最大にする発声変形度パラメータを求め、そのパラメータに対応してスペクトル変形手段が生成した変形音声標準モデルに対する入力音声特徴ベクトルの尤度データを演算し、照合手段に出力する。
【0013】
また他の発明によるマルチ発声変形モデル生成手段は、発声変形モデルメモリ上の発声変形モデルから、変形度メモリに格納されている発声変形度パラメータに則り、発声変形の強度の異なる発声変形モデルを生成する。
選択型尤度演算手段は、入力音声特徴ベクトルに対し、発声変形の強度が異なる発声変形モデルに基づきスペクトル変形手段で生成された変形音声標準モデルの中での尤度最大値を尤度データとして、照合手段に出力する。
【0014】
また別の発明においては、継続時間パラメータ変更手段は、発声変形なし音声標準モデルメモリに格納されている発声変形なし音声標準モデルの音韻継続時間パラメータに対し、ロンバード効果による発話時間の伸長を補正するように変更を行い、発声変形音声認識手段へ送る。
【0015】
【実施例】
実施例1.
図1は、請求項1の発明にかかわる発声変形音声認識装置に使われる発声変形音声認識手段の一実施例の構成を示すブロック図である。図において、4は発声変形モデルを格納する発声変形モデルメモリ、5は発声変形がない音声データから学習した発声変形なし音声標準モデルを格納する発声変形なし音声標準モデルメモリ、12は発声変形モデルメモリ4に格納されている発声変形モデルから、入力される発声変形度パラメータに従う適応型発声変形モデルを生成する適応型発声変形モデル生成手段、8は入力される適応型声変形モデルを用いて、発声変形なし音声標準モデルメモリ5に格納されている発声変形なし音声標準モデルに対し、スペクトル変形処理を施すスペクトル変形手段、14は適応型発声変形モデル生成手段12に出力した発声変形度パラメータと、その値に対応してスペクトル変形手段から出力された発声変形モデルに対する入力音声特徴ベクトル時系列3の尤度とを用いて、入力音声特徴ベクトル時系列に対し最適な発声変形度パラメータによる尤度データ15を照合手段に出力する適応型尤度演算手段、11は尤度データ15を用いて、照合処理を行い認識結果7を出力する照合手段である。
【0016】
次に動作について、従来例の説明と同じく連続分布型音素片HMMによる離散単語認識の場合を例にとって説明する。発声変形なし音声標準モデルメモリ5には、発声変形のない音声データを用いて学習した音素片HMMが発声変形なし音声標準モデルとして格納されている。認識対象となる各単語音声は音素片HMMの連鎖で表現される。発声変形モデルは各音素片のスペクトル変形に対応して生成され、発声変形モデルメモリ4に格納されているものとする。従来例と重複する部分は説明を省略する。
【0017】
適応型発声変形モデル生成手段12は、発声変形モデルメモリ4に格納されている発声変形モデルから、後述する適応型尤度演算手段が決定した発声変形度パラメータ13に従う発声変形の強度をもつ適応型発声変形モデルを生成する。
発声変形モデルは、従来例である前記文献と同じくロンバード効果によるスペクトルの変形について、以下の3つの要素で構成される。
(1)ホルマント周波数の移動を表す周波数軸非線形伸縮関数
(2)スペクトルの全体傾斜の変化を表すフィルタ
(3)ホルマントQの変化を表すフィルタ
発声変形モデルメモリ4に格納されている発声変形モデル に対する適応型発声変形モデルは、発声変形度パラメータwの関数として以下のように定義される。
Δ (w) = w・Δ
δ (w) = w・δ
QL(w) = w・Q
ここで、Δ は(1)から得られる周波数tにおける周波数シフト量、δ およびQ はそれぞれ(2)(3)の各フィルタに対応する対数スペクトルでtは周波数を表している。wは0以上の値をとり、w=0では変形なし、徐々にwを大きくすることで変形度が増し、w=1では元の発声変形モデルと同じになる。wを1以上にすることでより強い変形も表現できる。
【0018】
スペクトル変形手段8は、従来例と同じく入力された適応型発声変形モデルを用いて、発声変形なし音声標準パタンメモリ5に格納されているラベルLの発声変形なし音素片HMMに対し、同じラベルLに対応する適応型発声変形モデルによるスペクトル変形処理を施し、発声変形音素片HMMとして出力する。スペクトル変形処理の対象は、音素片HMMの場合、各状態における平均ベクトルとなる。
適応型尤度演算手段14は、適応型発声変形モデル生成手段12に対し出力する発声変形度パラメータ13の値の変更と、それに対応してスペクトル変形手段8が出力した発声変形音素片HMM(ラベルL)に対する入力音声特徴ベクトル時系列3の特徴ベクトルX(n)の尤度演算を繰り返し、最も大きい尤度を尤度データP(n,L)として出力する。これをすべてのL、1≦n≦Nについて行う。これにより発声変形の強さの変動の影響を受けない尤度が得られる。
照合手段11は、従来例と同じように、尤度データ15を用いて各単語に対する尤度をビタビ演算もしくはトレリス演算により求め、尤度最大となる単語のカテゴリを認識結果として出力する。
【0019】
実施例2.
図2は、請求項2の発明に係る発声変形音声認識装置に使われる発声変形音声認識手段の一実施例の構成を示すブロック図である。図において、16は各発声変形モデルについて設定される複数個の相異なる発声変形度パラメータを記憶する変形度メモリ、17は発声変形モデルメモリ4に記憶されている各発声変形モデルを入力として、変形度メモリ16に格納されている発声変形度パラメータを用いて発声変形の強さの相異なる複数の発声変形モデルを生成するマルチ発声変形モデル生成手段、8はマルチ発声変形モデル生成手段17の出力であるところの発声変形モデルを用いて、発声変形なし音声標準モデルメモリ5に格納されている発声変形なし音声標準モデルに対しスペクトル変形処理を施すスペクトル変形手段、18はスペクトル変形手段8の出力であるところの変形音声標準モデルに対する入力音声特徴ベクトル時系列3の尤度を求め、同一の発声変形なし音声標準モデルから生成された変形音声標準モデルの中での最大尤度を尤度データとして照合手段に出力する選択型尤度演算手段、11は選択型尤度演算手段18の出力であるところの尤度データを用いて、照合処理を行い認識結果7を出力する照合手段である。
【0020】
次に動作について、従来例と同じく連続分布型音素片HMMによる離散単語認識の場合を例にとって説明する。発声変形なし音声標準モデルメモリ5には、発声変形のない音声データを用いて学習した音素片HMMが発声変形なし音声標準モデルとして格納されている。認識対象となる各単語音声は音素片HMMの連鎖で表現される。発声変形モデルは各音素片のスペクトル変形に対応して生成され、発声変形モデルメモリ4に格納されているものとする。従来例と重複する部分は説明を省略する。
【0021】
変形度メモリ16には、ラベルLの音素片における発声変形の強さの変動の分布を近似する複数個の発声変形度パラメータ{w(k)|k=1...K}(KはラベルLの音素片に対する発声変形度パラメータの数)が、すべてのラベルについて記憶されている。
マルチ発声変形モデル生成手段17は、発声変形モデルメモリ4に記憶されている、各音素片に対応する発声変形モデルに対し、変形度メモリ16に格納されている該音素片に対応する複数個の発声変形度パラメータに従い、前述の実施例1における適応型発声変形モデル生成手段における適応型発声変形モデルの定義に則り発声変形度パラメータの個数と等しい数の発声変形モデルを生成する。
スペクトル変形手段8は、発声変形なし音声標準モデルメモリ5に記憶されているラベルLの発声変形なし音素片HMMに対し、マルチ発声変形モデル生成手段17の出力であるところのラベルLに対応する複数個の発声変形モデルによる、スペクトル変形処理を施し、発声変形音素片HMMとして出力する。これをすべてのLについて行う。
選択型尤度演算手段18は、スペクトル変形手段の出力であるところのラベルLに対応する複数個の発声変形音素片HMMに対する、入力音声特徴ベクトル時系列3の特徴ベクトルX(n)の尤度を求め、その中で最大の尤度を尤度データP(n,L)として出力する。これをすべてのL、1≦n≦Nについて行う。
照合手段は、従来例と同じように、尤度データ15を用いて各単語に対する尤度をビタビ演算もしくはトレリス演算により求め、尤度最大となる単語のカテゴリを認識結果として出力する。
【0022】
実施例3.
図3は、請求項3の発明に係る発声変形音声認識装置の位置実施例の構成を示すブロック図である。図において、19は発声変形なし音声標準モデルメモリ5に格納されている発声変形なし音声標準モデルを入力とし、該発声変形なし音声標準モデルの音韻継続時間パラメータに対し変更を加えて、発声変形音声認識手段へ出力する、継続時間パラメータ変更手段である。その他の構成要素は、前述の従来例におけるものと全く同一であるので説明を省略する。
【0023】
次に動作について、継続時間制御付き連続分布型音素片HMMによる離散単語認識の場合を例にとって説明する。従来例と重複する部分は説明を省略する。
発声変形なし音声標準モデルメモリ5には、発声変形がない音声データから生成した発声変形なし音声標準モデルが格納されている。各単語音声の発声変形音声標準モデルは、連続分布型音素片HMMの連鎖で表されている。また各音素片について継続時間の平均と分散が求められており、認識時には継続時間によるペナルティを含めた尤度計算が行われる。
継続時間パラメータ変更手段19は、ロンバード効果による各音素片の継続時間の変化についての情報として、発声変形音声における音素片継続時間の平均の伸び率と分散の増大率を多数話者について調査した得た平均値を保持しており、これに従い、発声変形なし音声標準モデルメモリ5に記憶されている発声変形なし音声標準モデルの音素片継続時間パラメータを変更し、出力する。
これにより、継続時間によるペナルティを用いた照合方式において、ロンバード効果による発話時間の伸長による認識精度の劣化が抑えられる。
この継続時間補正手法は、音素片への適用に限定されるものではなく、半音素、音素、音節、CVC、VCV、単語など如何なる音声単位であってもかまわない。
【0024】
【発明の効果】
この発明は、以上説明したように構成されているので、以下に記載されるような効果を奏する。
【0025】
請求項1の発明においては、適応型尤度演算手段が設定した発声変形度パラメータに従って適応型発声変形モデルが生成され、この適応型発声変形モデルに基づくスペクトル変形を発声変形なし音声標準モデルに施し、得られた変形音声標準モデルに対する入力音声特徴ベクトル時系列との尤度に従って発声変形度パラメータが更新されているので、入力音声における発声変形の強さの変動の影響を受けにくい発声変形音声認識装置を得ることができる。
【0027】
また、請求項の発明においては、発声変形なし音声標準モデルにおける音韻継続時間に関するパラメータに対し、ロンバード効果による発話時間の伸長に適合した補正を施しているため、音韻継続時間によるペナルティを用いる音声認識装置においてロンバード効果による発話時間伸長による認識精度劣化が生じ難くなっている。
【図面の簡単な説明】
【図1】この発明の実施例1を示すブロック図である。
【図2】この発明の実施例2を示すブロック図である。
【図3】この発明の実施例3を示すブロック図である。
【図4】従来の音声認識装置の全体構成を示すブロック図である。
【図5】従来の音声認識装置の構成する機能の一つである発声変形音声認識手段の構成を示すブロック図である。
【符号の説明】
1 入力端
2 音響分析手段
3 入力音声特徴ベクトル時系列
4 発声変形モデルメモリ
5 発声変形なし音声標準モデルメモリ
6 発声変形音声認識手段
7 認識結果
8 スペクトル変形手段
9 音声モデル合成手段
10 尤度演算手段
11 照合手段
12 適応型発声変形モデル生成手段
13 発声変形度パラメータ
14 適応型尤度演算手段
15 尤度データ
16 変形度メモリ
17 マルチ発声変形モデル生成手段
18 選択型尤度演算手段
19 継続時間パラメータ変更手段

Claims (2)

  1. 入力音声信号に対し音響分析を行い入力音声特徴ベクトル時系列を出力する音響分析手段と、
    騒音環境下で発声された音声に生じる音韻スペクトルの変形の様態を表現する発声変形モデルを記憶する発声変形モデルメモリと、
    発声変形の無い音声データで学習した音声標準モデルを記憶する発声変形無し音声標準モデルメモリと、
    前記音響分析手段の出力である入力音声特徴ベクトル時系列に対し、該発声変形モデルと該音声標準モデルとを用いて認識処理を行い、認識結果を出力する発声変形音声認識手段とで構成される音声認識装置において、
    適応型発声変形モデル生成手段と、スペクトル変形手段と、発声変形音声認識手段と、適応型尤度演算手段と、照合手段と、を有する発声変形音声認識手段をさらに備え、
    前記適応型発声変形モデル生成手段は、前記適応型尤度演算手段が求めた発声変形度パラメータを入力し、前記発声変形モデルメモリに格納されている発声変形モデルから前記発声変形度パラメータに従う適応型発声変形モデルを生成し、
    前記スペクトル変形手段は、前記発声変形なし音声標準モデルメモリに格納されている音声標準モデルに対し、前記適応型発声変形モデルに基づくスペクトル変形処理を施し、
    前記適応型尤度演算手段は、前記入力音声特徴ベクトル時系列と前記スペクトル変形手段が出力した音声標準パタンとの尤度を最大にする前記発声変形度パラメータを求めるとともに、前記適応型発声変形モデル生成手段に入力して、前記発声変形度パラメータに基づく尤度を求め、
    前記照合手段は、前記適応型尤度演算手段の出力を用いて照合処理を行い、認識結果を出力することを特徴とする発声変形音声認識装置。
  2. 入力音声信号に対し音響分析を行い入力音声特徴ベクトル時系列を出力する音響分析手段と、
    騒音環境下で発声された音声に生じる音韻スペクトルの変形の様態を表現する発声変形モデルを記憶する発声変形モデルメモリと、
    発声変形の無い音声データで学習した音声標準モデルを記憶する発声変形無し音声標準モデルメモリと、
    前記音響分析手段の出力である入力音声特徴ベクトル時系列に対し、該発声変形モデルと該音声標準モデルとを用いて認識処理を行い、認識結果を出力する発声変形音声認識手段とで構成される音声認識装置に対し、
    前記発声変形なし音声標準モデルメモリと前記音声認識手段との間に、発声変形なし音声標準モデルの継続時間パラメータを変更する継続時間パラメータ変更手段を入れたことを特徴とする発声変形音声認識装置。
JP05060594A 1994-03-22 1994-03-22 発声変形音声認識装置 Expired - Fee Related JP3567477B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05060594A JP3567477B2 (ja) 1994-03-22 1994-03-22 発声変形音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05060594A JP3567477B2 (ja) 1994-03-22 1994-03-22 発声変形音声認識装置

Publications (2)

Publication Number Publication Date
JPH07261780A JPH07261780A (ja) 1995-10-13
JP3567477B2 true JP3567477B2 (ja) 2004-09-22

Family

ID=12863608

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05060594A Expired - Fee Related JP3567477B2 (ja) 1994-03-22 1994-03-22 発声変形音声認識装置

Country Status (1)

Country Link
JP (1) JP3567477B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE336776T1 (de) * 2000-02-25 2006-09-15 Koninkl Philips Electronics Nv Vorrichtung zur spracherkennung mit referenztransformationsmitteln

Also Published As

Publication number Publication date
JPH07261780A (ja) 1995-10-13

Similar Documents

Publication Publication Date Title
Yu et al. DurIAN: Duration Informed Attention Network for Speech Synthesis.
JP2733955B2 (ja) 適応型音声認識装置
US8898055B2 (en) Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech
JP3515039B2 (ja) テキスト音声変換装置におけるピッチパタン制御方法
US7792672B2 (en) Method and system for the quick conversion of a voice signal
JP3563772B2 (ja) 音声合成方法及び装置並びに音声合成制御方法及び装置
Song et al. ExcitNet vocoder: A neural excitation model for parametric speech synthesis systems
US20030083878A1 (en) System and method for speech synthesis using a smoothing filter
JPH11126090A (ja) 音声認識方法及び音声認識装置並びに音声認識装置を動作させるためのプログラムが記録された記録媒体
JPH0585916B2 (ja)
JP2002108383A (ja) 音声認識システム
US5943647A (en) Speech recognition based on HMMs
JPH0632020B2 (ja) 音声合成方法および装置
Lee MLP-based phone boundary refining for a TTS database
Gao et al. Multistage coarticulation model combining articulatory, formant and cepstral features.
JP2002358090A (ja) 音声合成方法、音声合成装置及び記録媒体
JP3703394B2 (ja) 声質変換装置および声質変換方法およびプログラム記憶媒体
Shechtman et al. Controllable sequence-to-sequence neural TTS with LPCNET backend for real-time speech synthesis on CPU
JP5474713B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2021067885A (ja) 音響特徴量変換モデル学習装置、方法およびプログラム、ニューラルボコーダ学習装置、方法およびプログラム、並びに、音声合成装置、方法およびプログラム
JP3567477B2 (ja) 発声変形音声認識装置
US5864791A (en) Pitch extracting method for a speech processing unit
JP4461557B2 (ja) 音声認識方法および音声認識装置
JPH08211897A (ja) 音声認識装置
JP2600384B2 (ja) 音声合成方法

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040326

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040525

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040607

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080625

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees