JP2986037B2 - 音声符号化方法及び装置 - Google Patents
音声符号化方法及び装置Info
- Publication number
- JP2986037B2 JP2986037B2 JP4235206A JP23520692A JP2986037B2 JP 2986037 B2 JP2986037 B2 JP 2986037B2 JP 4235206 A JP4235206 A JP 4235206A JP 23520692 A JP23520692 A JP 23520692A JP 2986037 B2 JP2986037 B2 JP 2986037B2
- Authority
- JP
- Japan
- Prior art keywords
- prototype
- vector signal
- feature
- dimensional
- prototype vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 19
- 239000013598 vector Substances 0.000 claims abstract description 357
- 239000002131 composite material Substances 0.000 claims 4
- 230000003044 adaptive effect Effects 0.000 description 16
- 230000015654 memory Effects 0.000 description 12
- 239000011159 matrix material Substances 0.000 description 7
- 238000013139 quantization Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 241000661823 Canopus Species 0.000 description 1
- LFVLUOAHQIVABZ-UHFFFAOYSA-N Iodofenphos Chemical compound COP(=S)(OC)OC1=CC(Cl)=C(I)C=C1Cl LFVLUOAHQIVABZ-UHFFFAOYSA-N 0.000 description 1
- DIWRORZWFLOCLC-UHFFFAOYSA-N Lorazepam Chemical compound C12=CC(Cl)=CC=C2NC(=O)C(O)N=C1C1=CC=CC=C1Cl DIWRORZWFLOCLC-UHFFFAOYSA-N 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3082—Vector coding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【0001】
【産業上の利用分野】本発明は、例えば、自動音声認識
装置内で使用される多次元ベクトル量子化タイプ(mult
idimensional vector quantization type )の音声符号
化装置に関する。
装置内で使用される多次元ベクトル量子化タイプ(mult
idimensional vector quantization type )の音声符号
化装置に関する。
【0002】
【従来の技術】ベクトル量子化タイプの音声符号化装置
においては、発声の特徴値を表わす一連の特徴ベクトル
信号を生成するために一連の連続した時間間隔の個々の
間中発声の複数の異なる特徴が測定される。複数の多次
元プロトタイプベクトル信号が格納されるが、ここで、
1つのプロトタイプベクトル信号の個々の次元は測定下
の複数の特徴の1つを表わす1つのパラメータ値を持
つ。ある与えられた特徴ベクトル信号に最も近いパラメ
ータ値を持つプロトタイプベクトル信号の識別がその特
徴ベクトル信号の“ラベル(label )”として出力され
る。
においては、発声の特徴値を表わす一連の特徴ベクトル
信号を生成するために一連の連続した時間間隔の個々の
間中発声の複数の異なる特徴が測定される。複数の多次
元プロトタイプベクトル信号が格納されるが、ここで、
1つのプロトタイプベクトル信号の個々の次元は測定下
の複数の特徴の1つを表わす1つのパラメータ値を持
つ。ある与えられた特徴ベクトル信号に最も近いパラメ
ータ値を持つプロトタイプベクトル信号の識別がその特
徴ベクトル信号の“ラベル(label )”として出力され
る。
【0003】プロトタイプベクトル信号の数が増加し、
また異なる特徴の数(次元)が増加するに従って、ベク
トル量子化プロセス(及び、従って、音声認識)はます
ますコスト高となり、又より多くの時間を消費する。さ
らに、ベクトル量子化プロトタイプベクトル信号の格納
はますます多くの電子メモリを要求する。
また異なる特徴の数(次元)が増加するに従って、ベク
トル量子化プロセス(及び、従って、音声認識)はます
ますコスト高となり、又より多くの時間を消費する。さ
らに、ベクトル量子化プロトタイプベクトル信号の格納
はますます多くの電子メモリを要求する。
【0004】
【発明が解決しようとする課題】本発明の一つの目的
は、時間的に比較的高速度にて音声を符号化するための
音声符号化装置を提供することにある。
は、時間的に比較的高速度にて音声を符号化するための
音声符号化装置を提供することにある。
【0005】本発明のもう一つの目的は、音響プロトタ
イプベクトル信号を比較的限られた電子メモリ内に格納
するための音声符号化装置を提供することにある。
イプベクトル信号を比較的限られた電子メモリ内に格納
するための音声符号化装置を提供することにある。
【0006】
【課題を解決するための手段】本発明によると、音声符
号化装置は特徴値を表わすシリーズの特徴ベクトル信号
を生成するために一連の連続的な時間間隔の個々におい
て発声の少なくとも第一及び第二の異なる特徴の値を測
定するための手段を含む。複数の単次元プロトタイプベ
クトル信号が格納される。個々の単次元プロトタイプベ
クトル信号は少なくとも1つのパラメータ値を持つ。少
なくとも2つの単次元プロトタイプベクトル信号は第一
の特徴値を表わすパラメータ値を持つ第一の次元のプロ
トタイプベクトル信号である。少なくとも2つの他の単
次元プロトタイプベクトル信号は第二の特徴値を表わす
パラメータ値を持つ第二の次元のプロトタイプベクトル
信号である。
号化装置は特徴値を表わすシリーズの特徴ベクトル信号
を生成するために一連の連続的な時間間隔の個々におい
て発声の少なくとも第一及び第二の異なる特徴の値を測
定するための手段を含む。複数の単次元プロトタイプベ
クトル信号が格納される。個々の単次元プロトタイプベ
クトル信号は少なくとも1つのパラメータ値を持つ。少
なくとも2つの単次元プロトタイプベクトル信号は第一
の特徴値を表わすパラメータ値を持つ第一の次元のプロ
トタイプベクトル信号である。少なくとも2つの他の単
次元プロトタイプベクトル信号は第二の特徴値を表わす
パラメータ値を持つ第二の次元のプロトタイプベクトル
信号である。
【0007】複数の複合次元プロトタイプベクトル信号
も格納される。個々の複合次元プロトタイプベクトル信
号は固有の識別値を持ち、1つの第一の次元のプロトタ
イプベクトル信号及び1つの第二の次元のプロトタイプ
ベクトル信号を含む。少なくとも2つの複合次元プロト
タイプベクトル信号(two-compound dimension prototy
pe vector signal)は同一の第一の次元のプロトタイプ
ベクトル信号を含む。
も格納される。個々の複合次元プロトタイプベクトル信
号は固有の識別値を持ち、1つの第一の次元のプロトタ
イプベクトル信号及び1つの第二の次元のプロトタイプ
ベクトル信号を含む。少なくとも2つの複合次元プロト
タイプベクトル信号(two-compound dimension prototy
pe vector signal)は同一の第一の次元のプロトタイプ
ベクトル信号を含む。
【0008】特徴ベクトル信号と個々の複合次元プロト
タイプベクトル信号に対するプロトタイプ一致スコアを
得るために特徴ベクトル信号の特徴値の複合次元プロト
タイプベクトル信号のパラメータ値に対する一致度を比
較するための手段が提供される。少なくとも最良のプロ
トタイプ一致スコアを持つ複合次元プロトタイプベクト
ル信号の識別値が特徴ベクトル信号の符号化された表現
信号として出力される。
タイプベクトル信号に対するプロトタイプ一致スコアを
得るために特徴ベクトル信号の特徴値の複合次元プロト
タイプベクトル信号のパラメータ値に対する一致度を比
較するための手段が提供される。少なくとも最良のプロ
トタイプ一致スコアを持つ複合次元プロトタイプベクト
ル信号の識別値が特徴ベクトル信号の符号化された表現
信号として出力される。
【0009】本発明の一面によると、特徴ベクトル信号
をプロトタイプベクトル信号に対して比較するための手
段は、特徴ベクトル信号の第一の特徴の値を個々の第一
の次元のプロトタイプベクトル信号のパラメータ値とた
った一度のみ比較するための手段を含む。特徴ベクトル
信号の第二の特徴の値を個々の第二の次元のプロトタイ
プベクトル信号のパラメータ値とたった一度のみ比較す
るための手段も提供される。
をプロトタイプベクトル信号に対して比較するための手
段は、特徴ベクトル信号の第一の特徴の値を個々の第一
の次元のプロトタイプベクトル信号のパラメータ値とた
った一度のみ比較するための手段を含む。特徴ベクトル
信号の第二の特徴の値を個々の第二の次元のプロトタイ
プベクトル信号のパラメータ値とたった一度のみ比較す
るための手段も提供される。
【0010】本発明のもう一面によると、複数の単次元
プロトタイプベクトル信号が2つ或はそれ以上の複合次
元プロトタイプベクトル信号内に含まれる。
プロトタイプベクトル信号が2つ或はそれ以上の複合次
元プロトタイプベクトル信号内に含まれる。
【0011】本発明のさらにもう一面によると、個々の
複合次元プロトタイプベクトル信号は少なくとも幾つか
の他の複合次元プロトタイプベクトル信号内に含まれる
少なくとも1つの単次元プロトタイプベクトル信号を含
む。
複合次元プロトタイプベクトル信号は少なくとも幾つか
の他の複合次元プロトタイプベクトル信号内に含まれる
少なくとも1つの単次元プロトタイプベクトル信号を含
む。
【0012】個々の次元に対して、単次元プロトタイプ
ベクトル信号の数は、例えば、複合次元プロトタイプベ
クトル信号の数の二分の一以下である。
ベクトル信号の数は、例えば、複合次元プロトタイプベ
クトル信号の数の二分の一以下である。
【0013】発声の諸特徴を測定するための手段はマイ
クロホンを含む場合もある。
クロホンを含む場合もある。
【0014】本発明による音声認識装置及び方法は上に
説明されるような音声符号化装置及び方法を含む。さら
に、この音声認識装置及び方法は、複数の音声ユニット
の個々に対して一致スコアを生成するための手段をさら
に含む。個々の一致スコアは音声ユニットと発声の符号
化された表現のシーケンスとの間の一致の近さの評価値
を含む。個々の音声ユニットは、1つ或は複数の音声サ
ブユニットを含む。
説明されるような音声符号化装置及び方法を含む。さら
に、この音声認識装置及び方法は、複数の音声ユニット
の個々に対して一致スコアを生成するための手段をさら
に含む。個々の一致スコアは音声ユニットと発声の符号
化された表現のシーケンスとの間の一致の近さの評価値
を含む。個々の音声ユニットは、1つ或は複数の音声サ
ブユニットを含む。
【0015】最良一致スコアを持つ1つ或は複数の最良
候補の音声ユニットを識別し、また1つ或は複数の最良
候補音声ユニットの少なくとも1つの音声サブユニット
を表示するための手段も提供される。
候補の音声ユニットを識別し、また1つ或は複数の最良
候補音声ユニットの少なくとも1つの音声サブユニット
を表示するための手段も提供される。
【0016】本発明による音声符号化及び音声認識装置
及び方法は、限られたセットの単次元プロトタイプベク
トル信号から全ての複合次元プロトタイプベクトル信号
が構築され、音声を符号化する時間の速度が向上される
ために有利である。さらに、全ての単次元プロトタイプ
ベクトル信号及び全ての複合次元プロトタイプベクトル
信号が比較的小さな電子メモリ内に格納できる。
及び方法は、限られたセットの単次元プロトタイプベク
トル信号から全ての複合次元プロトタイプベクトル信号
が構築され、音声を符号化する時間の速度が向上される
ために有利である。さらに、全ての単次元プロトタイプ
ベクトル信号及び全ての複合次元プロトタイプベクトル
信号が比較的小さな電子メモリ内に格納できる。
【0017】
【実施例】図1は本発明に従う音声符号化装置を含む本
発明に従う音声認識装置の一例を示す。手段10が提供
されるが、これは、一連の連続的な時間間隔(time int
erval )の個々において発声(utterance )の少なくと
も第一及び第二の異なる特徴(feature )の値を測定
し、この特徴値を表わす一連の特徴ベクトル信号(feat
ure vector signal )を生成する。音響特徴値(acoust
ic feature value)測定手段の一例が図2に示される。
この測定手段は、発声に対応するアナログ電気信号を生
成するためのマイクロフォン12を含む。マイクロフォ
ン12からのアナログ電気信号はアナログデジタル変換
器14によってデジタル電気信号に変換される。この目
的のために、アナログ信号は、アナログデジタル変換器
14によって、例えば、20キロヘルツのレートにてサ
ンプリングされる。
発明に従う音声認識装置の一例を示す。手段10が提供
されるが、これは、一連の連続的な時間間隔(time int
erval )の個々において発声(utterance )の少なくと
も第一及び第二の異なる特徴(feature )の値を測定
し、この特徴値を表わす一連の特徴ベクトル信号(feat
ure vector signal )を生成する。音響特徴値(acoust
ic feature value)測定手段の一例が図2に示される。
この測定手段は、発声に対応するアナログ電気信号を生
成するためのマイクロフォン12を含む。マイクロフォ
ン12からのアナログ電気信号はアナログデジタル変換
器14によってデジタル電気信号に変換される。この目
的のために、アナログ信号は、アナログデジタル変換器
14によって、例えば、20キロヘルツのレートにてサ
ンプリングされる。
【0018】ウインドウ生成器(window generator)1
6は、例えば、個々の10ミリ秒(1センチ秒)間にア
ナログデジタル変換器14からデジタル信号の20ミリ
秒期間のサンプルを得る。デジタル信号の個々の20ミ
リ秒サンプルがスペクトル分析器(spectrum analyzer
)18によって、例えば、20個の周波数バンドの各
々内のデジタル信号サンプルの振幅を得るために分析さ
れる。好ましくは、スペクトル分析器18は、また10
ミリ秒デジタル信号サンプルの総振幅或は総パワーを表
わす第21番目の次元(twenty-first dimension)の信
号を生成する。スペクトル分析器18は、例えば、高速
フーリエ変換プロセッサであり得る。反対に、これは、
20個の帯域パスフィルタのバンク(列)であっても良
い。
6は、例えば、個々の10ミリ秒(1センチ秒)間にア
ナログデジタル変換器14からデジタル信号の20ミリ
秒期間のサンプルを得る。デジタル信号の個々の20ミ
リ秒サンプルがスペクトル分析器(spectrum analyzer
)18によって、例えば、20個の周波数バンドの各
々内のデジタル信号サンプルの振幅を得るために分析さ
れる。好ましくは、スペクトル分析器18は、また10
ミリ秒デジタル信号サンプルの総振幅或は総パワーを表
わす第21番目の次元(twenty-first dimension)の信
号を生成する。スペクトル分析器18は、例えば、高速
フーリエ変換プロセッサであり得る。反対に、これは、
20個の帯域パスフィルタのバンク(列)であっても良
い。
【0019】スペクトル分析器18によって生成される
21次元(twenty-one dimension)ベクトル信号は適応
型ノイズ相殺プロセッサ(adaptive noise cancellatio
n processor )20によって背景ノイズを排除するため
に適応化(adapt )される。ノイズ相殺プロセッサ20
はノイズ相殺プロセッサに入る特徴ベクトル(featurve
ctor )F(t)からノイズベクトル(noise vector)
N(t)を取り去り、出力特徴ベクトルF’(t)を生
成する。ノイズ相殺プロセッサ20は前の特徴ベクトル
F(t−1)がノイズ或は無言(silence)であると識別
される度に周期的にノイズベクトルN(t)を更新する
ことによって変化するノイズレベルに適応する。ノイズ
ベクトルN(t)は以下の式に従って更新される。
21次元(twenty-one dimension)ベクトル信号は適応
型ノイズ相殺プロセッサ(adaptive noise cancellatio
n processor )20によって背景ノイズを排除するため
に適応化(adapt )される。ノイズ相殺プロセッサ20
はノイズ相殺プロセッサに入る特徴ベクトル(featurve
ctor )F(t)からノイズベクトル(noise vector)
N(t)を取り去り、出力特徴ベクトルF’(t)を生
成する。ノイズ相殺プロセッサ20は前の特徴ベクトル
F(t−1)がノイズ或は無言(silence)であると識別
される度に周期的にノイズベクトルN(t)を更新する
ことによって変化するノイズレベルに適応する。ノイズ
ベクトルN(t)は以下の式に従って更新される。
【0020】 N(t)=N(t−1)+k[F(t−1)−Fp(t−1)] [1] ここで、N(t)は時間tにおけるノイズベクトルであ
り、N(t−1)は時間(t−1)におけるノイズベク
トルであり、kは適応ノイズ相殺モデルの固定されたパ
ラメータであり、F(t−1)は時間(t−1)におけ
るノイズ相殺プロセッサ20内への特徴ベクトル入力で
あってノイズ或は無言を表わし、Fp(t−1)はメモ
リ22からの1サイレンスプロトタイプベクトル(sile
nce prototype vector)であり、特徴ベクトルF(t−
1)に最も近い。
り、N(t−1)は時間(t−1)におけるノイズベク
トルであり、kは適応ノイズ相殺モデルの固定されたパ
ラメータであり、F(t−1)は時間(t−1)におけ
るノイズ相殺プロセッサ20内への特徴ベクトル入力で
あってノイズ或は無言を表わし、Fp(t−1)はメモ
リ22からの1サイレンスプロトタイプベクトル(sile
nce prototype vector)であり、特徴ベクトルF(t−
1)に最も近い。
【0021】前の特徴ベクトルF(t−1)は、(a)
ベクトルの総エネルギ−が閾値以下である場合、或は
(b)適応プロトタイプベクトルメモリ24内の特徴ベ
クトルに最も近いプロトタイプベクトルがノイズ或は無
言を表わすプロトタイプである場合、ノイズ或は無言と
して認識される。特徴ベクトルの総エネルギーの分析の
目的のため、この閾値は、例えば、評価されている特徴
ベクトルの前の2秒間内に生成される(音声及び無言の
両方に対応する)全ての特徴ベクトルの5の1パーセン
ト(fifth percentile)とされる。
ベクトルの総エネルギ−が閾値以下である場合、或は
(b)適応プロトタイプベクトルメモリ24内の特徴ベ
クトルに最も近いプロトタイプベクトルがノイズ或は無
言を表わすプロトタイプである場合、ノイズ或は無言と
して認識される。特徴ベクトルの総エネルギーの分析の
目的のため、この閾値は、例えば、評価されている特徴
ベクトルの前の2秒間内に生成される(音声及び無言の
両方に対応する)全ての特徴ベクトルの5の1パーセン
ト(fifth percentile)とされる。
【0022】ノイズの相殺の後、特徴ベクトルF’
(t)は短期間平均正規化プロセッサ(short term mea
n normalization processor )26によって入力音声の
強さ(loudness)の変動に対して正規化される。正規化
プロセッサ26は21次元特徴ベクトルF’(t)を正
規化することによって20次元正規化特徴ベクトル(tw
enty dimension normalized feature vector)X(t)
を生成する。総振幅或は総パワーを表わす特徴ベクトル
F’(t)の21番目の次元は破棄される。時間tにお
ける正規化特徴ベクトルX(t)の個々の成分iは、例
えば、対数領域(logarithmic domain)内の以下の式に
よって与えられる。
(t)は短期間平均正規化プロセッサ(short term mea
n normalization processor )26によって入力音声の
強さ(loudness)の変動に対して正規化される。正規化
プロセッサ26は21次元特徴ベクトルF’(t)を正
規化することによって20次元正規化特徴ベクトル(tw
enty dimension normalized feature vector)X(t)
を生成する。総振幅或は総パワーを表わす特徴ベクトル
F’(t)の21番目の次元は破棄される。時間tにお
ける正規化特徴ベクトルX(t)の個々の成分iは、例
えば、対数領域(logarithmic domain)内の以下の式に
よって与えられる。
【0023】 Xi (t)=F’i (t)−Z(t) [2] ここで、F’i (t)は時間tにおける未正規化ベクト
ル(unnormalized vector )のi番目の成分であり、Z
(t)は、F’(t)及びZ(t−1)成分の式3及び
4に従う加重平均である。
ル(unnormalized vector )のi番目の成分であり、Z
(t)は、F’(t)及びZ(t−1)成分の式3及び
4に従う加重平均である。
【0024】 Z(t)=0.9Z(t−1)+0.1M(t) [3] ここで、 正規化20次元特徴ベクトルX(t)はさらに言語音の
発音の変動に適応するために適応ラベラ(adaptive lab
eler)28によって処理される。適応化された20次元
特徴ベクトルX’(t)が適応ラベラ28の入力に供給
される20次元特徴ベクトルX(t)から20次元適応
ベクトル(twenty dimension feature vector )A
(t)を引くことによって生成される。時間tにおける
適応ベクトルA(t)は、例えば、以下の式によって与
えられる。
発音の変動に適応するために適応ラベラ(adaptive lab
eler)28によって処理される。適応化された20次元
特徴ベクトルX’(t)が適応ラベラ28の入力に供給
される20次元特徴ベクトルX(t)から20次元適応
ベクトル(twenty dimension feature vector )A
(t)を引くことによって生成される。時間tにおける
適応ベクトルA(t)は、例えば、以下の式によって与
えられる。
【0025】 A(t)=A(t−1)+k[X(t−1)−Xp(t−1)] [5] ここで、kは適応ラベリングモデル(adaptive labelin
g model )の固定されたパラメータであり、X(t−
1)は時間(t−1)における適応ラベラ28への正規
化された20次元ベクトル入力であり、Xp(t−1)
は時間(t−1)における20次元特徴ベクトルX(t
−1)に最も近い(適応プロトタイプメモリ24から
の)適応プロトタイプベクトルであり、そしてA(t−
1)は時間(t−1)における適応ベクトルである。
g model )の固定されたパラメータであり、X(t−
1)は時間(t−1)における適応ラベラ28への正規
化された20次元ベクトル入力であり、Xp(t−1)
は時間(t−1)における20次元特徴ベクトルX(t
−1)に最も近い(適応プロトタイプメモリ24から
の)適応プロトタイプベクトルであり、そしてA(t−
1)は時間(t−1)における適応ベクトルである。
【0026】適応ラベラ28からの20次元適応特徴ベ
クトル信号X’(t)は、好ましくは、聴覚モデル(au
ditory model)30に供給される。聴覚モデル30は、
例えば、いかに人の聴覚システムが音響信号を知覚する
かのモデルを提供する。聴覚モデルの一例がバール(Ba
hl)らに交付された『音韻グラフの効率的な格納及び高
速組み立てを備える音声認識システム(Speech Recogni
tion System with Efficient Storage and Rapid Assem
bly of Phonological Graphs)』と言う名称の合衆国特
許第4,980,918号において開示される。
クトル信号X’(t)は、好ましくは、聴覚モデル(au
ditory model)30に供給される。聴覚モデル30は、
例えば、いかに人の聴覚システムが音響信号を知覚する
かのモデルを提供する。聴覚モデルの一例がバール(Ba
hl)らに交付された『音韻グラフの効率的な格納及び高
速組み立てを備える音声認識システム(Speech Recogni
tion System with Efficient Storage and Rapid Assem
bly of Phonological Graphs)』と言う名称の合衆国特
許第4,980,918号において開示される。
【0027】好ましくは、本発明によると、時間tにお
ける適応特徴ベクトル信号X’(t)の個々の周波数バ
ンドiに対して、聴覚モデル30は式6及び7に従って
新たなパラメータEi (t)を計算する。
ける適応特徴ベクトル信号X’(t)の個々の周波数バ
ンドiに対して、聴覚モデル30は式6及び7に従って
新たなパラメータEi (t)を計算する。
【0028】 Ei (t)=K1 +K2 (X’i (t)(Ni (t−1)) [6] ここで、 Ni (t)=K3 ×Ni (t−1)−Ei (t−1) [7] ここで、K1 、K2 、及びK3 は聴覚モデルの固定され
たパラメータである。
たパラメータである。
【0029】個々のセンチ秒時間間隔に対して、聴覚モ
デル30の出力は修正された20次元特徴ベクトル信号
を与える。この特徴ベクトルは他の20次元の値の二乗
の総和の平方根に等しい値を持つ21番目の次元によっ
て増加される。
デル30の出力は修正された20次元特徴ベクトル信号
を与える。この特徴ベクトルは他の20次元の値の二乗
の総和の平方根に等しい値を持つ21番目の次元によっ
て増加される。
【0030】個々のセンチ秒時間間隔に対して、連結器
(concatenator)32は、一つの現センチ秒時間間隔、
4つの前のセンチ秒時間間隔、及び4つの続くセンチ秒
時間間隔を表わす9つの21次元特徴ベクトルを連結す
ることによって189次元の単一の継合せベクトル(sp
liced vector)を形成する。個々の189次元継合せベ
クトルには、好ましくは、継合せベクトルを回転し、継
合せベクトルを50次元に減少するためローテータ(ro
tator )34内で回転マトリックスが掛けられる。
(concatenator)32は、一つの現センチ秒時間間隔、
4つの前のセンチ秒時間間隔、及び4つの続くセンチ秒
時間間隔を表わす9つの21次元特徴ベクトルを連結す
ることによって189次元の単一の継合せベクトル(sp
liced vector)を形成する。個々の189次元継合せベ
クトルには、好ましくは、継合せベクトルを回転し、継
合せベクトルを50次元に減少するためローテータ(ro
tator )34内で回転マトリックスが掛けられる。
【0031】ローテータ34内で使用される回転マトリ
ックスは、例えば、トレーニングセッション(training
session)において得られたセットの189次元継合せ
ベクトルをM個のクラスに分類することによって得られ
る。トレーニングセット(training set)内の全ての継
合せベクトルに対する分散マトリックス(covariancema
trix )の逆数に全てのM個のクラス内の全ての継合せ
ベクトルに対するサンプル内分散マトリックス(within
-sample covariance matrix )が掛けられる。結果とし
て生じているマトリックスの最初の50の固有ベクトル
(eigenvector)が回転マトリックスを形成する。これ
に関しては、例えば、IBM技術小冊子(IBM Technica
l Disclosure)、Vol.32、No.7、1989年
12月号、ページ320及び321に掲載の論文『離散
パラメータ音素ベースマルコフワードモデルを使用する
音声認識システムのためのベクトル量子化手順(Vector
Quantization Procedure For Speech Recognition Sys
tem Using Discrete Parameter Phoneme-Based Markov
Word Models )』を参照すること。
ックスは、例えば、トレーニングセッション(training
session)において得られたセットの189次元継合せ
ベクトルをM個のクラスに分類することによって得られ
る。トレーニングセット(training set)内の全ての継
合せベクトルに対する分散マトリックス(covariancema
trix )の逆数に全てのM個のクラス内の全ての継合せ
ベクトルに対するサンプル内分散マトリックス(within
-sample covariance matrix )が掛けられる。結果とし
て生じているマトリックスの最初の50の固有ベクトル
(eigenvector)が回転マトリックスを形成する。これ
に関しては、例えば、IBM技術小冊子(IBM Technica
l Disclosure)、Vol.32、No.7、1989年
12月号、ページ320及び321に掲載の論文『離散
パラメータ音素ベースマルコフワードモデルを使用する
音声認識システムのためのベクトル量子化手順(Vector
Quantization Procedure For Speech Recognition Sys
tem Using Discrete Parameter Phoneme-Based Markov
Word Models )』を参照すること。
【0032】ウンイドウ生成器16、スペクトル分析器
18、適応ノイズ相殺プロセッサ20、短期間平均正規
化プロセッサ26、適応ラベラ28、聴覚モデル30、
連結器32、及びローテータ34は、適当にプログラム
された専用或は汎用プロセッサであり得る。プロトタイ
プメモリ22及び24は電子的なコンピュータメモリで
あり得る。
18、適応ノイズ相殺プロセッサ20、短期間平均正規
化プロセッサ26、適応ラベラ28、聴覚モデル30、
連結器32、及びローテータ34は、適当にプログラム
された専用或は汎用プロセッサであり得る。プロトタイ
プメモリ22及び24は電子的なコンピュータメモリで
あり得る。
【0033】表1は時間t1からt7を通じて得られる
一連の2次元音響特徴ベクトルU1からU7の仮想例を
示す。個々の音響特徴ベクトルは次元:特徴1(Featur
e 1)に対して一つの測定値を持ち、また次元:特徴2
(Feature 2 )に対して一つの測定値を持つ。
一連の2次元音響特徴ベクトルU1からU7の仮想例を
示す。個々の音響特徴ベクトルは次元:特徴1(Featur
e 1)に対して一つの測定値を持ち、また次元:特徴2
(Feature 2 )に対して一つの測定値を持つ。
【0034】
【表1】 図1に戻り、本発明による音声認識装置及び音声符号化
装置はさらに複数の単次元(single-dimension)プロト
タイプベクトル信号を格納するための手段36を含む。
個々の単次元プロトタイプベクトル信号は1つのパラメ
ータ値のみを持つ。少なくとも2つの単次元プロトタイ
プベクトル信号は第一の特徴値を表わすパラメータ値を
持つ第一の次元のプロトタイプベクトル信号である。少
なくとも2つの他の単次元プロトタイプベクトル信号は
第二の特徴値を表わすパラメータ値を持つ第二の次元の
プロトタイプベクトル信号である。
装置はさらに複数の単次元(single-dimension)プロト
タイプベクトル信号を格納するための手段36を含む。
個々の単次元プロトタイプベクトル信号は1つのパラメ
ータ値のみを持つ。少なくとも2つの単次元プロトタイ
プベクトル信号は第一の特徴値を表わすパラメータ値を
持つ第一の次元のプロトタイプベクトル信号である。少
なくとも2つの他の単次元プロトタイプベクトル信号は
第二の特徴値を表わすパラメータ値を持つ第二の次元の
プロトタイプベクトル信号である。
【0035】表2は単次元プロトタイプベクトルの仮想
例である。第一の次元のプロトタイプベクトルP11、
P12、P13、P14、及びP15は、特徴1の値の
みを表わすパラメータ値を持つ。第二の次元のプロトタ
イプベクトルP21、P22、P23、P24、及びP
25は特徴2の値のみを表わすパラメータ値を持つ。
例である。第一の次元のプロトタイプベクトルP11、
P12、P13、P14、及びP15は、特徴1の値の
みを表わすパラメータ値を持つ。第二の次元のプロトタ
イプベクトルP21、P22、P23、P24、及びP
25は特徴2の値のみを表わすパラメータ値を持つ。
【0036】
【表2】 手段38が複数の複合次元(compound-dimension)プロ
トタイプベクトル信号を格納するために備えられる。個
々の複合次元プロトタイプベクトル信号は固有の識別値
を持つ。個々の複合次元プロトタイプベクトル信号は一
つの第一の次元のプロトタイプベクトル信号及び一つの
第二の次元のプロトタイプベクトル信号を含む。少なく
とも2つの複合次元プロトタイプベクトルは第一の次元
のプロトタイプベクトル信号を含む。
トタイプベクトル信号を格納するために備えられる。個
々の複合次元プロトタイプベクトル信号は固有の識別値
を持つ。個々の複合次元プロトタイプベクトル信号は一
つの第一の次元のプロトタイプベクトル信号及び一つの
第二の次元のプロトタイプベクトル信号を含む。少なく
とも2つの複合次元プロトタイプベクトルは第一の次元
のプロトタイプベクトル信号を含む。
【0037】表3は複合次元プロトタイプベクトル信号
L1からL10の仮想例である。表3に示される個々の
複合次元プロトタイプベクトルは識別値L1からL1
0、1つの特徴1の単次元プロトタイプベクトル、及び
1つの特徴2の単次元プロトタイプベクトルを含む。
L1からL10の仮想例である。表3に示される個々の
複合次元プロトタイプベクトルは識別値L1からL1
0、1つの特徴1の単次元プロトタイプベクトル、及び
1つの特徴2の単次元プロトタイプベクトルを含む。
【0038】
【表3】 本発明はさらに手段40を含むが、これは複合次元プロ
トタイプベクトル信号のパラメータ値に対する特徴ベク
トル信号の特徴値の近さ(closeness )を比較し、特徴
ベクトル信号と個々の複合次元プロトタイプベクトル信
号に対するプロトタイプ一致スコア(prototype match
score )を得る。比較プロセッサ(comparison process
or)40は、特徴ベクトル信号の符号化された表現信号
(codedrepresentation signal )として最良のプロト
タイプ一致スコアを持つ複合次元プロトタイプベクトル
信号の識別値を少なくとも出力する。
トタイプベクトル信号のパラメータ値に対する特徴ベク
トル信号の特徴値の近さ(closeness )を比較し、特徴
ベクトル信号と個々の複合次元プロトタイプベクトル信
号に対するプロトタイプ一致スコア(prototype match
score )を得る。比較プロセッサ(comparison process
or)40は、特徴ベクトル信号の符号化された表現信号
(codedrepresentation signal )として最良のプロト
タイプ一致スコアを持つ複合次元プロトタイプベクトル
信号の識別値を少なくとも出力する。
【0039】表4は表1からの特徴ベクトルU1の複合
次元プロトタイプベクトルL1からL10に対する近さ
の比較の仮想例を示す。表4に示されるように、複合次
元プロトタイプベクトルL10は特徴ベクトルU1に対
する最良のプロトタイプ一致スコアを持つ。従って、識
別値L10が特徴ベクトル信号U1の符号化表現として
出力される。
次元プロトタイプベクトルL1からL10に対する近さ
の比較の仮想例を示す。表4に示されるように、複合次
元プロトタイプベクトルL10は特徴ベクトルU1に対
する最良のプロトタイプ一致スコアを持つ。従って、識
別値L10が特徴ベクトル信号U1の符号化表現として
出力される。
【0040】
【表4】 好ましくは、本発明によると、特徴ベクトル信号をプロ
トタイプベクトル信号に対して比較するための手段は特
徴ベクトル信号の第一の特徴の値を個々の第一の次元の
プロトタイプベクトル信号のパラメータとたった一度だ
け比較するための手段、及び特徴ベクトル信号の第二の
特徴の値を個々の第二の次元のプロトタイプベクトル信
号のパラメータ値とたった一度だけ比較するための手段
を含む。表4に示される仮想例においては、特徴ベクト
ルU1の特徴1の値が個々の第一の次元のプロトタイプ
ベクトルP11、P12、P13、P14及びP15の
パラメータ値とたった一度だけ比較される。特徴ベクト
ルU1の特徴2の値は個々の第二の次元のプロトタイプ
ベクトルP21、P22、P23、P24及びP25の
パラメータ値とたった一度だけ比較される。
トタイプベクトル信号に対して比較するための手段は特
徴ベクトル信号の第一の特徴の値を個々の第一の次元の
プロトタイプベクトル信号のパラメータとたった一度だ
け比較するための手段、及び特徴ベクトル信号の第二の
特徴の値を個々の第二の次元のプロトタイプベクトル信
号のパラメータ値とたった一度だけ比較するための手段
を含む。表4に示される仮想例においては、特徴ベクト
ルU1の特徴1の値が個々の第一の次元のプロトタイプ
ベクトルP11、P12、P13、P14及びP15の
パラメータ値とたった一度だけ比較される。特徴ベクト
ルU1の特徴2の値は個々の第二の次元のプロトタイプ
ベクトルP21、P22、P23、P24及びP25の
パラメータ値とたった一度だけ比較される。
【0041】表4の仮想例内の単次元プロトタイプ一致
スコアは単純なユークリッド距離(Euclidean distanc
e)である。但し、好ましくは、個々の単次元プロトタ
イプベクトルは平均値μ及び標準偏差σを含む。このケ
ースにおいては、個々の単次元プロトタイプベクトルは
ガウス分布(Gaussian distribution )としてモデル化
されるため、個々の単次元プロトタイプベクトルに対す
るプロトタイプ一致スコアは式8によって与えられる。
スコアは単純なユークリッド距離(Euclidean distanc
e)である。但し、好ましくは、個々の単次元プロトタ
イプベクトルは平均値μ及び標準偏差σを含む。このケ
ースにおいては、個々の単次元プロトタイプベクトルは
ガウス分布(Gaussian distribution )としてモデル化
されるため、個々の単次元プロトタイプベクトルに対す
るプロトタイプ一致スコアは式8によって与えられる。
【0042】
【数1】 ここで、xi は特徴ベクトルXのi番目の特徴(次元)
の値である。(σ=1の場合、プロトタイプ一致スコア
はユークリッド距離に定数を加えた値となる。)この例
においては、複合次元プロトタイプ一致スコアは複合次
元プロトタイプが同様に等しいと言う想定に基づく。但
し、好ましくは、個々の複合次元プロトタイプ一致スコ
アは複合次元プロトタイプの発生の評価された前の確率
(estimated prior probability )を表わす成分を含
む。
の値である。(σ=1の場合、プロトタイプ一致スコア
はユークリッド距離に定数を加えた値となる。)この例
においては、複合次元プロトタイプ一致スコアは複合次
元プロトタイプが同様に等しいと言う想定に基づく。但
し、好ましくは、個々の複合次元プロトタイプ一致スコ
アは複合次元プロトタイプの発生の評価された前の確率
(estimated prior probability )を表わす成分を含
む。
【0043】単次元プロトタイプベクトル信号及び複合
次元プロトタイプベクトル信号は本発明によると一組の
初期多次元プロトタイプベクトル(initial multidimen
sional prototype vector )から得られる。この初期多
次元プロトタイプベクトルは、例えば、トレイニングセ
ットからの特徴ベクトル信号を複数のクラスタ(cluste
r )にまとめ、個々のクラスタに対する平均及び標準偏
差を計算することによって得られる。トレーニングスク
リプト(training script )が一連の(一連の語のモデ
ルを形成する)語セグメントモデルから成り、個々の語
セグメントモデルがそれら語セグメントモデル内に指定
される位置を持つ一連の要素モデル(elementary mode
l)を含む場合は、特徴ベクトル信号は個々のクラスタ
が単一の語セグメントモデル内の単一の位置内の単一の
要素モデルに対応すると指定することによってクラスタ
にまとめられる。この方法が1991年7月16日付け
で申請された『自動音声認識のための音響プロトタイプ
を派生するための高速アルゴリズム(Fast Algorithm f
or Deriving Acoustic Prototypes for Automatic Spee
ch Recognition)』と言う名称の合衆国特許出願第73
0,714号において詳細に説明されている。
次元プロトタイプベクトル信号は本発明によると一組の
初期多次元プロトタイプベクトル(initial multidimen
sional prototype vector )から得られる。この初期多
次元プロトタイプベクトルは、例えば、トレイニングセ
ットからの特徴ベクトル信号を複数のクラスタ(cluste
r )にまとめ、個々のクラスタに対する平均及び標準偏
差を計算することによって得られる。トレーニングスク
リプト(training script )が一連の(一連の語のモデ
ルを形成する)語セグメントモデルから成り、個々の語
セグメントモデルがそれら語セグメントモデル内に指定
される位置を持つ一連の要素モデル(elementary mode
l)を含む場合は、特徴ベクトル信号は個々のクラスタ
が単一の語セグメントモデル内の単一の位置内の単一の
要素モデルに対応すると指定することによってクラスタ
にまとめられる。この方法が1991年7月16日付け
で申請された『自動音声認識のための音響プロトタイプ
を派生するための高速アルゴリズム(Fast Algorithm f
or Deriving Acoustic Prototypes for Automatic Spee
ch Recognition)』と言う名称の合衆国特許出願第73
0,714号において詳細に説明されている。
【0044】別の方法においては、トレーニングテキス
トの発声によって生成されるある与えられた要素モデル
に対応する全ての音響特徴ベクトルが、K−平均ユーク
リッドクラスタリング(K-means Euclidean custering
)或はK−平均ガウスクラスタリング(K-means Gauss
ian clustering )或はこの両者によってクラスタにま
とめられる。この方法は、例えば、1991年3月22
日付けで申請された『話手に依存しないラベル符号化装
置(Speaker-independent Label Coding Apparatus)』
と言う名称の合衆国特許出願第673,810号におい
て説明されている。
トの発声によって生成されるある与えられた要素モデル
に対応する全ての音響特徴ベクトルが、K−平均ユーク
リッドクラスタリング(K-means Euclidean custering
)或はK−平均ガウスクラスタリング(K-means Gauss
ian clustering )或はこの両者によってクラスタにま
とめられる。この方法は、例えば、1991年3月22
日付けで申請された『話手に依存しないラベル符号化装
置(Speaker-independent Label Coding Apparatus)』
と言う名称の合衆国特許出願第673,810号におい
て説明されている。
【0045】表5は初期プロトタイプベクトルL1から
L10の仮想例を示す。個々の初期プロトタイプベクト
ルは一つの特徴1のパラメータ値、及び一つの特徴2の
パラメータ値を持つ。これら初期プロトタイプベクトル
のどの二つも同一の特徴1のパラメータ値或は同一の特
徴2のパラメータ値を持たない。
L10の仮想例を示す。個々の初期プロトタイプベクト
ルは一つの特徴1のパラメータ値、及び一つの特徴2の
パラメータ値を持つ。これら初期プロトタイプベクトル
のどの二つも同一の特徴1のパラメータ値或は同一の特
徴2のパラメータ値を持たない。
【0046】
【表5】 表2に示される特徴1の単次元プロトタイプベクトルは
表5の初期プロトタイプベクトルから初期プロトタイプ
ベクトルの特徴1のプロトタイプ値をクラスタにまとめ
ることによって得ることができる。表2の特徴2の単次
元プロトタイプベクトルは表5の初期プロトタイプベク
トルの特徴2の値をクラスタにまとめることによって得
ることができる。
表5の初期プロトタイプベクトルから初期プロトタイプ
ベクトルの特徴1のプロトタイプ値をクラスタにまとめ
ることによって得ることができる。表2の特徴2の単次
元プロトタイプベクトルは表5の初期プロトタイプベク
トルの特徴2の値をクラスタにまとめることによって得
ることができる。
【0047】表6及び7は表5の初期プロトタイプベク
トルのそれぞれ特徴1及び特徴2の値のクラスタ化の仮
想例である。
トルのそれぞれ特徴1及び特徴2の値のクラスタ化の仮
想例である。
【0048】
【表6】 表6に示されるように、初期プロトタイプベクトルL1
からL10は、それらの特徴1のパラメータ値に従って
最も低い値から最も高い値へと配列される。隣接するプ
ロトタイプベクトル間の距離が計算され、最も接近した
プロトタイプベクトルが併合される。併合されたベクト
ルはそれらの成分の特徴1のパラメータ値の平均から成
る特徴1のパラメータ値を持つ。このプロセスが、例え
ば、事前に選択された数のクラスタのみに絞られるまで
反復される。
からL10は、それらの特徴1のパラメータ値に従って
最も低い値から最も高い値へと配列される。隣接するプ
ロトタイプベクトル間の距離が計算され、最も接近した
プロトタイプベクトルが併合される。併合されたベクト
ルはそれらの成分の特徴1のパラメータ値の平均から成
る特徴1のパラメータ値を持つ。このプロセスが、例え
ば、事前に選択された数のクラスタのみに絞られるまで
反復される。
【0049】表7は初期プロトタイプベクトルの特徴2
の値をクラスタにまとめて第二の次元のプロトタイプベ
クトル信号を生成するための類似するプロセスを示す。
の値をクラスタにまとめて第二の次元のプロトタイプベ
クトル信号を生成するための類似するプロセスを示す。
【0050】
【表7】 実施においては、トレーニングテキストの発声によって
生成される音響特徴ベクトルが、例えば、各々が50次
元の2,500の初期プロトタイプベクトルによって表
わされる2,500のクラスタにまとめられる。個々の
次元が例えば各々が平均及びガウス分布の標準偏差を持
つ50の単次元プロトタイプベクトルを形成するように
クラスタ化される。このケースにおいては、2つのクラ
スタ間の距離は式9によって与えられる。
生成される音響特徴ベクトルが、例えば、各々が50次
元の2,500の初期プロトタイプベクトルによって表
わされる2,500のクラスタにまとめられる。個々の
次元が例えば各々が平均及びガウス分布の標準偏差を持
つ50の単次元プロトタイプベクトルを形成するように
クラスタ化される。このケースにおいては、2つのクラ
スタ間の距離は式9によって与えられる。
【0051】
【数2】 ここで、σ1 は第一のクラスタの標準偏差であり、σ2
は第二のクラスタの標準偏差であり、σ3 はこれらの結
合されたクラスタの標準偏差であり、nは第一のクラス
タ内に含まれる特徴ベクトルの数であり、そしてmは第
二のクラスタ内に含まれる特徴ベクトルの数である。
は第二のクラスタの標準偏差であり、σ3 はこれらの結
合されたクラスタの標準偏差であり、nは第一のクラス
タ内に含まれる特徴ベクトルの数であり、そしてmは第
二のクラスタ内に含まれる特徴ベクトルの数である。
【0052】図1に戻り、本発明による音声認識装置は
さらに複数の音声ユニットの個々に対して一致スコアを
生成するための手段42をさらに含む。個々の一致スコ
アは音声ユニット間の一致の近さの評価値及び発声の符
号化表現のシーケンスを含む。個々の音声ユニットは1
つ或は複数のサブユニットを含む。
さらに複数の音声ユニットの個々に対して一致スコアを
生成するための手段42をさらに含む。個々の一致スコ
アは音声ユニット間の一致の近さの評価値及び発声の符
号化表現のシーケンスを含む。個々の音声ユニットは1
つ或は複数のサブユニットを含む。
【0053】音声ユニットに対する一致スコアを生成す
るための手段42は、例えば、上に述べた合衆国特許第
4,980,918号において説明される周知の音響一
致プロセッサ及び/或は言語モデルプロセッサから成
る。
るための手段42は、例えば、上に述べた合衆国特許第
4,980,918号において説明される周知の音響一
致プロセッサ及び/或は言語モデルプロセッサから成
る。
【0054】本発明による手段44は最も良い一致スコ
アを持つ1つ或は複数の最良候補音声ユニットを識別す
るために提供される。手段46は1つ或は複数の最良候
補音声ユニットの少なくとも1つの音声サブユニットを
表示或は出力するために提供される。
アを持つ1つ或は複数の最良候補音声ユニットを識別す
るために提供される。手段46は1つ或は複数の最良候
補音声ユニットの少なくとも1つの音声サブユニットを
表示或は出力するために提供される。
【0055】本発明による音声符号化及び音声認識装置
のプロセッサ40、42及び44は専用或は汎用デジタ
ルコンピュータシステムを適当にプログラムすることに
よって製作することができる。メモリ36及び38は電
子的なコンピュータメモリであり得る。ディスプレイ4
6は陰極線管のようなビデオディスプレイ、液晶ディス
プレイ、或はプリンタであり得る。別の方法として、こ
の出力手段は拡声器或はヘッドホーンを持つ音声合成器
のような音響出力装置であっても良い。
のプロセッサ40、42及び44は専用或は汎用デジタ
ルコンピュータシステムを適当にプログラムすることに
よって製作することができる。メモリ36及び38は電
子的なコンピュータメモリであり得る。ディスプレイ4
6は陰極線管のようなビデオディスプレイ、液晶ディス
プレイ、或はプリンタであり得る。別の方法として、こ
の出力手段は拡声器或はヘッドホーンを持つ音声合成器
のような音響出力装置であっても良い。
【0056】本発明に従う複数の単次元プロトタイプベ
クトル信号、及び単次元プロトタイプベクトル信号から
構成される複数の複合次元プロトタイプベクトル信号を
持つ音声符号化装置は以下のアルゴリズムを使用するこ
とにより任意の与えられた特徴ベクトル信号に最も一致
するプロトタイプベクトル信号を迅速及び効率的に発見
することができる。第一に、個々の単次元プロトタイプ
ベクトル信号とその特徴ベクトル信号の対応する次元と
の間で距離が計算される。次に個々の次元に対する最小
距離が識別される。
クトル信号、及び単次元プロトタイプベクトル信号から
構成される複数の複合次元プロトタイプベクトル信号を
持つ音声符号化装置は以下のアルゴリズムを使用するこ
とにより任意の与えられた特徴ベクトル信号に最も一致
するプロトタイプベクトル信号を迅速及び効率的に発見
することができる。第一に、個々の単次元プロトタイプ
ベクトル信号とその特徴ベクトル信号の対応する次元と
の間で距離が計算される。次に個々の次元に対する最小
距離が識別される。
【0057】次に、第一の複合次元プロトタイプベクト
ルと特徴ベクトルとの間で距離が計算される。好ましく
は、第一の複合次元プロトタイプベクトルは直前の特徴
ベクトル信号に対する最良のプロトタイプ一致スコアを
持つプロトタイプベクトルであり、この距離は未符号化
特徴ベクトル信号の特徴値を他のプロトタイプベクトル
信号のパラメータ値と比較する前に得られる。この距離
がそれまでに発見された中の最良のプロトタイプ一致ス
コアである。
ルと特徴ベクトルとの間で距離が計算される。好ましく
は、第一の複合次元プロトタイプベクトルは直前の特徴
ベクトル信号に対する最良のプロトタイプ一致スコアを
持つプロトタイプベクトルであり、この距離は未符号化
特徴ベクトル信号の特徴値を他のプロトタイプベクトル
信号のパラメータ値と比較する前に得られる。この距離
がそれまでに発見された中の最良のプロトタイプ一致ス
コアである。
【0058】第二の複合次元プロトタイプベクトルに対
して、部分プロトタイプ一致スコア(partial prototyp
e match score )がこの第二の複合次元プロトタイプベ
クトルと特徴ベクトルの対応する次元との間の距離を計
算することによって得られる。この部分プロトタイプ一
致スコアに残りの次元に対して前に得られた最小距離
(minimum distance)から成る残り一致スコア(remain
der match score )が加えられる。この総和がそれまで
発見された最良のプロトタイプ一致スコアよりも悪い場
合は、このプロトタイプベクトルは、このプロトタイプ
ベクトルの残りの次元に対してさらに距離計算を遂行す
ることなく破棄される。そうでないときは、第二の複合
次元プロトタイプベクトルの次の次元と特徴ベクトルの
対応する次元との間の距離が部分プロトタイプ一致スコ
アと結合され、プロセスが反復される。
して、部分プロトタイプ一致スコア(partial prototyp
e match score )がこの第二の複合次元プロトタイプベ
クトルと特徴ベクトルの対応する次元との間の距離を計
算することによって得られる。この部分プロトタイプ一
致スコアに残りの次元に対して前に得られた最小距離
(minimum distance)から成る残り一致スコア(remain
der match score )が加えられる。この総和がそれまで
発見された最良のプロトタイプ一致スコアよりも悪い場
合は、このプロトタイプベクトルは、このプロトタイプ
ベクトルの残りの次元に対してさらに距離計算を遂行す
ることなく破棄される。そうでないときは、第二の複合
次元プロトタイプベクトルの次の次元と特徴ベクトルの
対応する次元との間の距離が部分プロトタイプ一致スコ
アと結合され、プロセスが反復される。
【0059】別の方法として、残り一致スコアは以下の
方法にて得ることもできる。残りの次元に対する最小距
離は第一の最小残りプロトタイプ一致スコア(first mi
nimum remainder prototype match score )を形成す
る。残りの次元に対応する第二の特徴ベクトル信号の第
二の部分と最も近い対応する単次元プロトタイプベクト
ル信号との間の近さは第二の最小残りプロトタイプ一致
スコアを形成する。第二の特徴ベクトル信号の第二の部
分と第二の特徴ベクトル信号と最良のプロトタイプ一致
スコアを持つ第二の複合次元プロトタイプベクトル信号
の対応する第二の部分との間の近さは前の参照残りプロ
トタイプ一致スコア(prior reference remainder prot
otype match score )を形成する。最後に、第一の最小
残りプロトタイプ一致スコアと第二の最小残りプロトタ
イプ一致スコアに対する前の参照残り一致スコアの超過
(excess)との間の重み付けされた組合わせ(weighted
combination)が最良残り一致スコア(best remainder
match score)に対する評価値を形成する。
方法にて得ることもできる。残りの次元に対する最小距
離は第一の最小残りプロトタイプ一致スコア(first mi
nimum remainder prototype match score )を形成す
る。残りの次元に対応する第二の特徴ベクトル信号の第
二の部分と最も近い対応する単次元プロトタイプベクト
ル信号との間の近さは第二の最小残りプロトタイプ一致
スコアを形成する。第二の特徴ベクトル信号の第二の部
分と第二の特徴ベクトル信号と最良のプロトタイプ一致
スコアを持つ第二の複合次元プロトタイプベクトル信号
の対応する第二の部分との間の近さは前の参照残りプロ
トタイプ一致スコア(prior reference remainder prot
otype match score )を形成する。最後に、第一の最小
残りプロトタイプ一致スコアと第二の最小残りプロトタ
イプ一致スコアに対する前の参照残り一致スコアの超過
(excess)との間の重み付けされた組合わせ(weighted
combination)が最良残り一致スコア(best remainder
match score)に対する評価値を形成する。
【0060】
【発明の効果】本発明によれば、時間的に比較的高速度
にて音声を符号化する音声符号化装置を得ることが可能
となる。また、音響プロトタイプベクトル信号を比較的
限られた電子メモリ内に格納し得る音声符号化装置を得
ることが可能となる。
にて音声を符号化する音声符号化装置を得ることが可能
となる。また、音響プロトタイプベクトル信号を比較的
限られた電子メモリ内に格納し得る音声符号化装置を得
ることが可能となる。
【図1】本発明に従う音声符号化装置を含む本発明に従
う音声認識装置の一例のブロック図である。
う音声認識装置の一例のブロック図である。
【図2】発声の諸特徴の値を測定するための手段の一例
のブロック図である。
のブロック図である。
10 音響特徴値測定部 36 単次元プロトタイプベクトルメモリ 38 複合次元プロトタイプベクトルメモリ 40 比較プロセッサ 42 一致スコアプロセッサ 44 最良候補識別プロセッサ
フロントページの続き (72)発明者 ジェローム、アール、ベルガルダ アメリカ合衆国ニューヨーク州、ゴール デンズ、ブリッジ、ボールダー、レー ン、490 (72)発明者 エドワード、アダム、エプスタイン アメリカ合衆国ニューヨーク州、パトナ ム、バレー、カノパス、ホロー、ロー ド、219 (72)発明者 ジョン、エム、ルカセン アメリカ合衆国ニューヨーク州、ヨーク タウン、ハイツ、シーニック、ビュー、 6‐ジー (72)発明者 デイビッド、ナハモー アメリカ合衆国ニューヨーク州、ホワイ ト、プレインズ、エルムウッド、ロー ド、12 (72)発明者 マイケル、アラン、ピチュニー アメリカ合衆国ニューヨーク州、ホワイ ト、プレインズ、ラルフ、アベニュ、 118 (56)参考文献 特開 昭59−183542(JP,A) 特開 平3−32228(JP,A) 特開 平1−25197(JP,A) (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 G10L 9/00 - 9/18
Claims (14)
- 【請求項1】特徴値を表わす一連の特徴ベクトル信号を
生成するために一連の連続的な時間間隔の個々において
発声の少なくとも第一及び第二の異なる特徴の値を測定
するための測定手段と個々の単次元プロトタイプベクト
ル信号が少なくとも一つのパラメータ値を持ち、少なく
とも2つの単次元プロトタイプベクトル信号が第一の特
徴値を表わすパラメータ値を持つ第一の次元のプロトタ
イプベクトル信号であり、少なくとも2つの他の単次元
プロトタイプベクトル信号が第二の特徴値を表わすパラ
メータ値を持つ第二の次元のプロトタイプベクトル信号
である、複数の単次元プロトタイプベクトル信号を格納
するための手段と、 個々の複合次元プロトタイプベクトル信号が固有の識別
値を持ち、個々の複合次元プロトタイプベクトル信号が
1つの第一の次元のプロトタイプベクトル信号と1つの
第二の次元のプロトタイプベクトル信号から成り、少な
くとも2つの複合次元プロトタイプベクトル信号が同一
の第一の次元のプロトタイプベクトル信号を含む、複数
の複合次元プロトタイプベクトル信号を格納するための
手段と、 特徴ベクトル信号と個々の複合次元プロトタイプベクト
ル信号に対するプロトタイプ一致スコアを得るために特
徴ベクトル信号の特徴値の複合次元プロトタイプベクト
ル信号のパラメータ値に対する一致度を比較するための
比較手段と、 少なくとも最良のプロトタイプ一致スコアを持つ複合次
元プロトタイプベクトル信号の識別値を特徴ベクトル信
号の符号化表現信号として出力するための手段を含むこ
とを特徴とする音声符号化装置。 - 【請求項2】特徴値を表わす一連の特徴ベクトル信号を
生成するために一連の連続的な時間間隔の個々において
発声の少なくとも第一及び第二の異なる特徴の値を測定
するための測定手段と、 個々の単次元プロトタイプベクトル信号が少なくとも一
つのパラメータ値を持ち、少なくとも2つの単次元プロ
トタイプベクトル信号が第一の特徴値を表わすパラメー
タ値を持つ第一の次元のプロトタイプベクトル信号であ
り、少なくとも2つの他の単次元プロトタイプベクトル
信号が第二の特徴値を表わすパラメータ値を持つ第二の
次元のプロトタイプベクトル信号である、複数の単次元
プロトタイプベクトル信号を格納するための手段と、 個々の複合次元プロトタイプベクトル信号が一意の識別
値を持ち、個々の複合次元プロトタイプベクトル信号が
1つの第一の次元のプロトタイプベクトル信号と1つの
第二の次元のプロトタイプベクトル信号から成り、少な
くとも2つの複合次元プロトタイプベクトル信号が同一
の第一の次元のプロトタイプベクトル信号を含む、複数
の複合次元プロトタイプベクトル信号を格納するための
手段と、 個々の特徴ベクトル信号と個々の複合次元プロトタイプ
ベクトル信号に対するプロトタイプ一致スコアを得るた
めに個々の特徴ベクトル信号の特徴値の複合次元プロト
タイプベクトルのパラメータ値に対する一致度を比較す
るための比較手段と、 特徴ベクトル信号に対する最良のプロトタイプ一致スコ
アを持つ複合次元プロトタイプベクトル信号の識別値を
認識されるべき発声の符号化表現信号として出力するた
めの手段と、 個々の一致スコアが音声ユニットと発声の符号化された
表現のシーケンスとの間の一致の近さの評価値からな
り、個々の音声ユニットが1つ或は複数の音声サブユニ
ットを含む、個々の複数の音声ユニットに対して一致ス
コアを生成するための手段と、 最良一致スコアを持つ1つ或は複数の最良候補音声ユニ
ットを識別するための手段と、 1つ或は複数の最良候補音声ユニットの少なくとも1つ
の音声サブユニットを出力するための手段と、 を含むことを特徴とする音声認識装置。 - 【請求項3】前記比較手段が、 特徴ベクトル信号の第一の特徴の値を個々の第一の次元
のプロトタイプベクトル信号のパラメータ値とたった一
度のみ比較するための手段と、 特徴ベクトル信号の第二の特徴の値を個々の第二の次元
のプロトタイプベクトル信号のパラメータ値とたった一
度のみ比較するための手段と、 を含むことを特徴とする請求項1または2記載の装置。 - 【請求項4】前記複数の単次元プロトタイプベクトル信
号が2つ或はそれ以上の複合次元プロトタイプベクトル
信号内に含まれることを特徴とする請求項3記載の装
置。 - 【請求項5】前記個々の複合次元プロトタイプベクトル
信号が少なくとも1つの単次元プロトタイプベクトル信
号を含み、この単次元ベクトル信号がまた少なくとも幾
つかの他の複合次元プロトタイプベクトル信号内にも含
まれることを特徴とする請求項4記載の装置。 - 【請求項6】個々の次元に対して、単次元プロトタイプ
信号の数が複合次元プロトタイプベクトル信号の数の二
分の一以下であることを特徴とする請求項5記載の装
置。 - 【請求項7】前記測定手段がマイクロホンを含むことを
特徴とする請求項1または2記載の装置。 - 【請求項8】前記比較手段が、 特徴ベクトル信号と第一の複合次元プロトタイプベクト
ル信号に対するプロトタイプ一致スコアを得るために第
一の特徴ベクトル信号の特徴値の第一の複合次元プロト
タイプベクトル信号のパラメータ値に対する一致度の比
較を行なうための手段と、 第二の複合次元プロトタイプベクトル信号と第一の特徴
ベクトル信号に対する部分プロトタイプ一致スコアを得
るために第二の複合次元プロトタイプベクトル信号の第
一の部分のパラメータ値と第一の特徴ベクトル信号の対
応する第一の部分の特徴値との間の一致度を比較するた
めの手段と、 第一の複合次元プロトタイプベクトル信号を第二の複合
次元プロトタイプベクトル信号よりも良好であるとし
て、第一の特徴ベクトル信号と第一の複合次元プロトタ
イプベクトル信号に対するプロトタイプ一致スコアが第
二の複合次元プロトタイプベクトル信号と第一の特徴ベ
クトル信号に対する部分プロトタイプ一致スコアよりも
良好であるとき選択するための手段と、 を含むことを特徴とする請求項1記載の音声符号化装
置。 - 【請求項9】前記比較手段がさらに、 特徴ベクトル信号の第一の部分と異なる特徴ベクトル信
号の第二の部分の特徴値に対する最良残りプロトタイプ
一致スコアを評価するための手段と、 第一の複合次元プロトタイプベクトル信号を第二の複合
次元プロトタイプベクトル信号よりも良好であるとし
て、第一の特徴ベクトル信号と第二の複合次元プロトタ
イプベクトル信号に対するプロトタイプ一致スコアが部
分プロトタイプ一致スコアと最良残りプロトタイプ一致
スコアの総和よりも良好であるとき選択するための手段
と、 を含むことを特徴とする請求項8記載の音声符号化装
置。 - 【請求項10】前記最良残り一致スコアを評価するため
の手段が、 第一の最小残りプロトタイプ一致スコアを得るために第
一の特徴ベクトル信号の第二の部分と最も接近した対応
する単次元プロトタイプベクトル信号との間の一致度を
比較するための手段と、 第二の残りプロトタイプ一致スコアを得るために第一の
特徴ベクトル信号の第二の部分に対応する第二の特徴ベ
クトル信号の第二の部分と最も接近した対応する単次元
プロトタイプベクトル信号との間の一致度を比較するた
めの手段と、 前の参照残りプロトタイプ一致スコアを得るために第二
の特徴ベクトル信号の第二の部分と第二の特徴ベクトル
信号と最良のプロトタイプ一致スコアを持つ第二の複合
次元プロトタイプベクトル信号の対応する第二の部分と
の間の一致度を比較するための手段と、 最良残り一致スコアを評価するために第一の最小残りプ
ロトタイプ一致スコアと第二の最小残りプロトタイプ一
致スコアに対する前の参照残り一致スコアの超過を重み
付け結合方式にて結合するための手段と、 を含むことを特徴とする請求項9記載の音声符号化装
置。 - 【請求項11】特徴値を表わす一連の特徴ベクトル信号
を生成するために一連の連続的な時間間隔の個々におい
て発声の少なくとも第一及び第二の異なる特徴の値を測
定するステップと、 個々の単次元プロトタイプベクトル信号が少なくとも一
つのパラメータ値を持ち、少なくとも2つの単次元プロ
トタイプベクトル信号が第一の特徴値を表わすパラメー
タ値を持つ第一の次元のプロトタイプベクトル信号であ
り、少なくとも2つの他の単次元プロトタイプベクトル
信号が第二の特徴値を表わすパラメータ値を持つ第二の
次元のプロトタイプベクトル信号である、複数の単次元
プロトタイプベクトル信号を格納するステップと、 個々の複合次元プロトタイプベクトル信号が固有の識別
値を持ち、個々の複合次元プロトタイプベクトル信号が
1つの第一の次元のプロトタイプベクトル信号と1つの
第二の次元のプロトタイプベクトル信号から成り、少な
くとも2つの複合次元プロトタイプベクトル信号が同一
の第一の次元のプロトタイプベクトル信号を含む、複数
の複合次元プロトタイプベクトル信号を格納するステッ
プと、 特徴ベクトル信号と個々の複合次元プロトタイプベクト
ル信号に対するプロトタイプ一致スコアを得るために特
徴ベクトル信号の特徴値の複合次元プロトタイプベクト
ルのパラメータ値に対する一致度を比較するステップ
と、 少なくとも最良のプロトタイプ一致スコアを持つ複合次
元プロトタイプベクトル信号の識別値を特徴ベクトル信
号の符号化表現信号として出力するステップと、 を含
むことを特徴とする音声符号化方法。 - 【請求項12】少なくとも1つの音声サブユニットを出
力するための手段がディスプレイあるいは音声合成器を
含むことを特徴とする請求項2記載の音声認識装置。 - 【請求項13】特徴値を表わす一連の特徴ベクトル信号
を生成するために一連の連続的な時間間隔の個々におい
て発声の少なくとも第一及び第二の異なる特徴の値を測
定するステップと、 個々の単次元プロトタイプベクトル信号が少なくとも一
つのパラメータ値を持ち、少なくとも2つの単次元プロ
トタイプベクトル信号が第一の特徴値を表わすパラメー
タ値を持つ第一の次元のプロトタイプベクトル信号であ
り、少なくとも2つの他の単次元プロトタイプベクトル
信号が第二の特徴値を表わすパラメータ値を持つ第二の
次元のプロトタイプベクトル信号である、複数の単次元
プロトタイプベクトル信号を格納するステップと、 個々の複合次元プロトタイプベクトル信号が固有の識別
値を持ち、個々の複合次元プロトタイプベクトル信号が
1つの第一の次元のプロトタイプベクトル信号と1つの
第二の次元のプロトタイプベクトル信号から成り、少な
くとも2つの複合次元プロトタイプベクトル信号が同一
の第一の次元のプロトタイプベクトル信号を含む、複数
の複合次元プロトタイプベクトル信号を格納するステッ
プと、 個々の特徴ベクトル信号と個々の複合次元プロトタイプ
ベクトル信号に対するプロトタイプ一致スコアを得るた
めに個々の特徴ベクトル信号の特徴値の複合次元プロト
タイプベクトルのパラメータ値に対する一致度を比較す
るステップと、 特徴ベクトル信号に対する最良のプロトタイプ一致スコ
アを持つ複合次元プロトタイプベクトル信号の識別値を
認識されるべき発声の符号化表現信号のシーケンスとし
て出力するステップと、 個々の一致スコアが音声ユニットと発声の符号化された
表現のシーケンスとの間の一致の近さの評価値からな
り、個々の音声ユニットが1つ或は複数の音声サブユニ
ットを含む、個々の複数の音声ユニットに対して一致ス
コアを生成するステップと、 最良一致スコアを持つ1つ或は複数の最良候補音声ユニ
ットを識別するステップと、 1つ或は複数の最良候補音声ユニットの少なくとも1つ
の音声サブユニットを出力するステップと、 を含むことを特徴とする音声認識方法。 - 【請求項14】特徴値を表わす一連の特徴ベクトル信号
を生成するために一連の連続的な時間間隔の個々におい
て発声の少なくとも第一の値を測定するための手段と、 個々のプロトタイプベクトル信号が少なくとも第一の特
徴値を表わす一つのパラメータ値を持つ複数のプロトタ
イプベクトル信号を格納するための手段と、 特徴ベクトル信号と個々のプロトタイプベクトル信号に
対するプロトタイプ一致スコアを得るために特徴ベクト
ル信号の特徴値のプロトタイプベクトル信号のパラメー
タ値に対する一致度を比較するための手段と、 少なくとも最良のプロトタイプ一致スコアを持つプロト
タイプベクトル信号の識別値を特徴ベクトル信号の符号
化表現信号として出力するための手段と、を有する音声
符号化装置において、 前記比較手段が、未符号化特徴ベクトル信号の特徴値を
他のプロトタイプベクトル信号のパラメータ値と比較す
る前に未符号化特徴信号の特徴値の直前の特徴ベクトル
信号に対して最良のプロトタイプ一致スコアを持つプロ
トタイプベクトル信号のパラメータ値に対する一致度を
比較するための手段を備えることを特徴とする音声符号
化装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US07/770,495 US5280562A (en) | 1991-10-03 | 1991-10-03 | Speech coding apparatus with single-dimension acoustic prototypes for a speech recognizer |
US770495 | 1991-10-03 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH05232999A JPH05232999A (ja) | 1993-09-10 |
JP2986037B2 true JP2986037B2 (ja) | 1999-12-06 |
Family
ID=25088751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4235206A Expired - Fee Related JP2986037B2 (ja) | 1991-10-03 | 1992-08-11 | 音声符号化方法及び装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US5280562A (ja) |
EP (1) | EP0535380B1 (ja) |
JP (1) | JP2986037B2 (ja) |
CA (1) | CA2072721C (ja) |
DE (1) | DE69224253T2 (ja) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5465317A (en) * | 1993-05-18 | 1995-11-07 | International Business Machines Corporation | Speech recognition system with improved rejection of words and sounds not in the system vocabulary |
US5544277A (en) * | 1993-07-28 | 1996-08-06 | International Business Machines Corporation | Speech coding apparatus and method for generating acoustic feature vector component values by combining values of the same features for multiple time intervals |
US5522011A (en) * | 1993-09-27 | 1996-05-28 | International Business Machines Corporation | Speech coding apparatus and method using classification rules |
DE4417557A1 (de) * | 1994-05-19 | 1995-11-23 | Daimler Benz Aerospace Ag | Verfahren zur Erkennung von Sprachsignalen und Anordnung zum Durchführen des Verfahrens |
US5729656A (en) * | 1994-11-30 | 1998-03-17 | International Business Machines Corporation | Reduction of search space in speech recognition using phone boundaries and phone ranking |
US5680506A (en) * | 1994-12-29 | 1997-10-21 | Lucent Technologies Inc. | Apparatus and method for speech signal analysis |
US5737433A (en) * | 1996-01-16 | 1998-04-07 | Gardner; William A. | Sound environment control apparatus |
US6151575A (en) * | 1996-10-28 | 2000-11-21 | Dragon Systems, Inc. | Rapid adaptation of speech models |
US6023673A (en) * | 1997-06-04 | 2000-02-08 | International Business Machines Corporation | Hierarchical labeler in a speech recognition system |
US6263309B1 (en) | 1998-04-30 | 2001-07-17 | Matsushita Electric Industrial Co., Ltd. | Maximum likelihood method for finding an adapted speaker model in eigenvoice space |
US6343267B1 (en) * | 1998-04-30 | 2002-01-29 | Matsushita Electric Industrial Co., Ltd. | Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques |
JP2002539482A (ja) | 1999-03-08 | 2002-11-19 | シーメンス アクチエンゲゼルシヤフト | 見本音声を決定するための方法及び装置 |
US20020152775A1 (en) * | 1999-04-29 | 2002-10-24 | Sara Lee Corporation | Seamless torso controlling garment and method of making same |
US6571208B1 (en) | 1999-11-29 | 2003-05-27 | Matsushita Electric Industrial Co., Ltd. | Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training |
US6526379B1 (en) | 1999-11-29 | 2003-02-25 | Matsushita Electric Industrial Co., Ltd. | Discriminative clustering methods for automatic speech recognition |
US7080011B2 (en) * | 2000-08-04 | 2006-07-18 | International Business Machines Corporation | Speech label accelerators and techniques for using same |
JP4332129B2 (ja) * | 2005-04-20 | 2009-09-16 | 富士通株式会社 | 文書分類プログラム、文書分類方法および文書分類装置 |
JP4327886B1 (ja) | 2008-05-30 | 2009-09-09 | 株式会社東芝 | 音質補正装置、音質補正方法及び音質補正用プログラム |
JP4327888B1 (ja) * | 2008-05-30 | 2009-09-09 | 株式会社東芝 | 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム |
JP4439579B1 (ja) | 2008-12-24 | 2010-03-24 | 株式会社東芝 | 音質補正装置、音質補正方法及び音質補正用プログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4980918A (en) * | 1985-05-09 | 1990-12-25 | International Business Machines Corporation | Speech recognition system with efficient storage and rapid assembly of phonological graphs |
US4977599A (en) * | 1985-05-29 | 1990-12-11 | International Business Machines Corporation | Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence |
US4759068A (en) * | 1985-05-29 | 1988-07-19 | International Business Machines Corporation | Constructing Markov models of words from multiple utterances |
US4926488A (en) * | 1987-07-09 | 1990-05-15 | International Business Machines Corporation | Normalization of speech by adaptive labelling |
JPH0293597A (ja) * | 1988-09-30 | 1990-04-04 | Nippon I B M Kk | 音声認識装置 |
JP2776848B2 (ja) * | 1988-12-14 | 1998-07-16 | 株式会社日立製作所 | 雑音除去方法、それに用いるニューラルネットワークの学習方法 |
JPH0332228A (ja) * | 1989-06-29 | 1991-02-12 | Fujitsu Ltd | ゲイン―シェイプ・ベクトル量子化方式 |
US5182773A (en) * | 1991-03-22 | 1993-01-26 | International Business Machines Corporation | Speaker-independent label coding apparatus |
-
1991
- 1991-10-03 US US07/770,495 patent/US5280562A/en not_active Expired - Fee Related
-
1992
- 1992-06-29 CA CA002072721A patent/CA2072721C/en not_active Expired - Fee Related
- 1992-08-11 JP JP4235206A patent/JP2986037B2/ja not_active Expired - Fee Related
- 1992-08-31 DE DE69224253T patent/DE69224253T2/de not_active Expired - Fee Related
- 1992-08-31 EP EP92114880A patent/EP0535380B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP0535380B1 (en) | 1998-01-28 |
JPH05232999A (ja) | 1993-09-10 |
EP0535380A2 (en) | 1993-04-07 |
CA2072721A1 (en) | 1993-04-04 |
CA2072721C (en) | 1996-03-05 |
DE69224253D1 (de) | 1998-03-05 |
US5280562A (en) | 1994-01-18 |
DE69224253T2 (de) | 1998-08-13 |
EP0535380A3 (en) | 1993-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2986037B2 (ja) | 音声符号化方法及び装置 | |
US5278942A (en) | Speech coding apparatus having speaker dependent prototypes generated from nonuser reference data | |
US5333236A (en) | Speech recognizer having a speech coder for an acoustic match based on context-dependent speech-transition acoustic models | |
JP3037864B2 (ja) | 音声コード化装置及び方法 | |
US5222146A (en) | Speech recognition apparatus having a speech coder outputting acoustic prototype ranks | |
JP2823469B2 (ja) | 文脈依存型音声認識装置および方法 | |
JP3114975B2 (ja) | 音素推定を用いた音声認識回路 | |
Tiwari | MFCC and its applications in speaker recognition | |
US6278970B1 (en) | Speech transformation using log energy and orthogonal matrix | |
US5522011A (en) | Speech coding apparatus and method using classification rules | |
JP2642055B2 (ja) | 音声認識装置及び方法 | |
JP2700143B2 (ja) | 音声コーディング装置および方法 | |
Diaz et al. | Spoken-digit recognition using self-organizing maps with perceptual pre-processing | |
CN114203159A (zh) | 语音情感识别方法、终端设备及计算机可读存储介质 | |
Smith et al. | A statistical study in word recognition | |
Er | Speech recognition by clustering wavelet and PLP coefficients |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |