JP2986037B2

JP2986037B2 - 音声符号化方法及び装置

Info

Publication number: JP2986037B2
Application number: JP4235206A
Authority: JP
Inventors: ラリット、アール、バール; ジェローム、アール、ベルガルダ; エドワード、アダム、エプスタイン; ジョン、エム、ルカセン; デイビッド、ナハモー; マイケル、アラン、ピチュニー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1991-10-03
Filing date: 1992-08-11
Publication date: 1999-12-06
Anticipated expiration: 2014-12-06
Also published as: EP0535380B1; JPH05232999A; EP0535380A2; CA2072721A1; CA2072721C; DE69224253D1; US5280562A; DE69224253T2; EP0535380A3

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、例えば、自動音声認識
装置内で使用される多次元ベクトル量子化タイプ（mult
idimensional vector quantization type ）の音声符号
化装置に関する。

【０００２】

【従来の技術】ベクトル量子化タイプの音声符号化装置
においては、発声の特徴値を表わす一連の特徴ベクトル
信号を生成するために一連の連続した時間間隔の個々の
間中発声の複数の異なる特徴が測定される。複数の多次
元プロトタイプベクトル信号が格納されるが、ここで、
１つのプロトタイプベクトル信号の個々の次元は測定下
の複数の特徴の１つを表わす１つのパラメータ値を持
つ。ある与えられた特徴ベクトル信号に最も近いパラメ
ータ値を持つプロトタイプベクトル信号の識別がその特
徴ベクトル信号の“ラベル（label ）”として出力され
る。

【０００３】プロトタイプベクトル信号の数が増加し、
また異なる特徴の数（次元）が増加するに従って、ベク
トル量子化プロセス（及び、従って、音声認識）はます
ますコスト高となり、又より多くの時間を消費する。さ
らに、ベクトル量子化プロトタイプベクトル信号の格納
はますます多くの電子メモリを要求する。

【０００４】

【発明が解決しようとする課題】本発明の一つの目的
は、時間的に比較的高速度にて音声を符号化するための
音声符号化装置を提供することにある。

【０００５】本発明のもう一つの目的は、音響プロトタ
イプベクトル信号を比較的限られた電子メモリ内に格納
するための音声符号化装置を提供することにある。

【０００６】

【課題を解決するための手段】本発明によると、音声符
号化装置は特徴値を表わすシリーズの特徴ベクトル信号
を生成するために一連の連続的な時間間隔の個々におい
て発声の少なくとも第一及び第二の異なる特徴の値を測
定するための手段を含む。複数の単次元プロトタイプベ
クトル信号が格納される。個々の単次元プロトタイプベ
クトル信号は少なくとも１つのパラメータ値を持つ。少
なくとも２つの単次元プロトタイプベクトル信号は第一
の特徴値を表わすパラメータ値を持つ第一の次元のプロ
トタイプベクトル信号である。少なくとも２つの他の単
次元プロトタイプベクトル信号は第二の特徴値を表わす
パラメータ値を持つ第二の次元のプロトタイプベクトル
信号である。

【０００７】複数の複合次元プロトタイプベクトル信号
も格納される。個々の複合次元プロトタイプベクトル信
号は固有の識別値を持ち、１つの第一の次元のプロトタ
イプベクトル信号及び１つの第二の次元のプロトタイプ
ベクトル信号を含む。少なくとも２つの複合次元プロト
タイプベクトル信号（two-compound dimension prototy
pe vector signal）は同一の第一の次元のプロトタイプ
ベクトル信号を含む。

【０００８】特徴ベクトル信号と個々の複合次元プロト
タイプベクトル信号に対するプロトタイプ一致スコアを
得るために特徴ベクトル信号の特徴値の複合次元プロト
タイプベクトル信号のパラメータ値に対する一致度を比
較するための手段が提供される。少なくとも最良のプロ
トタイプ一致スコアを持つ複合次元プロトタイプベクト
ル信号の識別値が特徴ベクトル信号の符号化された表現
信号として出力される。

【０００９】本発明の一面によると、特徴ベクトル信号
をプロトタイプベクトル信号に対して比較するための手
段は、特徴ベクトル信号の第一の特徴の値を個々の第一
の次元のプロトタイプベクトル信号のパラメータ値とた
った一度のみ比較するための手段を含む。特徴ベクトル
信号の第二の特徴の値を個々の第二の次元のプロトタイ
プベクトル信号のパラメータ値とたった一度のみ比較す
るための手段も提供される。

【００１０】本発明のもう一面によると、複数の単次元
プロトタイプベクトル信号が２つ或はそれ以上の複合次
元プロトタイプベクトル信号内に含まれる。

【００１１】本発明のさらにもう一面によると、個々の
複合次元プロトタイプベクトル信号は少なくとも幾つか
の他の複合次元プロトタイプベクトル信号内に含まれる
少なくとも１つの単次元プロトタイプベクトル信号を含
む。

【００１２】個々の次元に対して、単次元プロトタイプ
ベクトル信号の数は、例えば、複合次元プロトタイプベ
クトル信号の数の二分の一以下である。

【００１３】発声の諸特徴を測定するための手段はマイ
クロホンを含む場合もある。

【００１４】本発明による音声認識装置及び方法は上に
説明されるような音声符号化装置及び方法を含む。さら
に、この音声認識装置及び方法は、複数の音声ユニット
の個々に対して一致スコアを生成するための手段をさら
に含む。個々の一致スコアは音声ユニットと発声の符号
化された表現のシーケンスとの間の一致の近さの評価値
を含む。個々の音声ユニットは、１つ或は複数の音声サ
ブユニットを含む。

【００１５】最良一致スコアを持つ１つ或は複数の最良
候補の音声ユニットを識別し、また１つ或は複数の最良
候補音声ユニットの少なくとも１つの音声サブユニット
を表示するための手段も提供される。

【００１６】本発明による音声符号化及び音声認識装置
及び方法は、限られたセットの単次元プロトタイプベク
トル信号から全ての複合次元プロトタイプベクトル信号
が構築され、音声を符号化する時間の速度が向上される
ために有利である。さらに、全ての単次元プロトタイプ
ベクトル信号及び全ての複合次元プロトタイプベクトル
信号が比較的小さな電子メモリ内に格納できる。

【００１７】

【実施例】図１は本発明に従う音声符号化装置を含む本
発明に従う音声認識装置の一例を示す。手段１０が提供
されるが、これは、一連の連続的な時間間隔（time int
erval ）の個々において発声（utterance ）の少なくと
も第一及び第二の異なる特徴（feature ）の値を測定
し、この特徴値を表わす一連の特徴ベクトル信号（feat
ure vector signal ）を生成する。音響特徴値（acoust
ic feature value）測定手段の一例が図２に示される。
この測定手段は、発声に対応するアナログ電気信号を生
成するためのマイクロフォン１２を含む。マイクロフォ
ン１２からのアナログ電気信号はアナログデジタル変換
器１４によってデジタル電気信号に変換される。この目
的のために、アナログ信号は、アナログデジタル変換器
１４によって、例えば、２０キロヘルツのレートにてサ
ンプリングされる。

【００１８】ウインドウ生成器（window generator）１
６は、例えば、個々の１０ミリ秒（１センチ秒）間にア
ナログデジタル変換器１４からデジタル信号の２０ミリ
秒期間のサンプルを得る。デジタル信号の個々の２０ミ
リ秒サンプルがスペクトル分析器（spectrum analyzer
）１８によって、例えば、２０個の周波数バンドの各
々内のデジタル信号サンプルの振幅を得るために分析さ
れる。好ましくは、スペクトル分析器１８は、また１０
ミリ秒デジタル信号サンプルの総振幅或は総パワーを表
わす第２１番目の次元（twenty-first dimension）の信
号を生成する。スペクトル分析器１８は、例えば、高速
フーリエ変換プロセッサであり得る。反対に、これは、
２０個の帯域パスフィルタのバンク（列）であっても良
い。

【００１９】スペクトル分析器１８によって生成される
２１次元（twenty-one dimension）ベクトル信号は適応
型ノイズ相殺プロセッサ（adaptive noise cancellatio
n processor ）２０によって背景ノイズを排除するため
に適応化（adapt ）される。ノイズ相殺プロセッサ２０
はノイズ相殺プロセッサに入る特徴ベクトル（featurve
ctor ）Ｆ（ｔ）からノイズベクトル（noise vector）
Ｎ（ｔ）を取り去り、出力特徴ベクトルＦ’（ｔ）を生
成する。ノイズ相殺プロセッサ２０は前の特徴ベクトル
Ｆ（ｔ−１）がノイズ或は無言（silence)であると識別
される度に周期的にノイズベクトルＮ（ｔ）を更新する
ことによって変化するノイズレベルに適応する。ノイズ
ベクトルＮ（ｔ）は以下の式に従って更新される。

【００２０】Ｎ（ｔ）＝Ｎ（ｔ−１）＋ｋ［Ｆ（ｔ−１）−Ｆ_ｐ（ｔ−１）］［１］ここで、Ｎ（ｔ）は時間ｔにおけるノイズベクトルであ
り、Ｎ（ｔ−１）は時間（ｔ−１）におけるノイズベク
トルであり、ｋは適応ノイズ相殺モデルの固定されたパ
ラメータであり、Ｆ（ｔ−１）は時間（ｔ−１）におけ
るノイズ相殺プロセッサ２０内への特徴ベクトル入力で
あってノイズ或は無言を表わし、Ｆ_ｐ（ｔ−１）はメモ
リ２２からの１サイレンスプロトタイプベクトル（sile
nce prototype vector）であり、特徴ベクトルＦ（ｔ−
１）に最も近い。

【００２１】前の特徴ベクトルＦ（ｔ−１）は、（ａ）
ベクトルの総エネルギ−が閾値以下である場合、或は
（ｂ）適応プロトタイプベクトルメモリ２４内の特徴ベ
クトルに最も近いプロトタイプベクトルがノイズ或は無
言を表わすプロトタイプである場合、ノイズ或は無言と
して認識される。特徴ベクトルの総エネルギーの分析の
目的のため、この閾値は、例えば、評価されている特徴
ベクトルの前の２秒間内に生成される（音声及び無言の
両方に対応する）全ての特徴ベクトルの５の１パーセン
ト（fifth percentile）とされる。

【００２２】ノイズの相殺の後、特徴ベクトルＦ’
（ｔ）は短期間平均正規化プロセッサ（short term mea
n normalization processor ）２６によって入力音声の
強さ（loudness）の変動に対して正規化される。正規化
プロセッサ２６は２１次元特徴ベクトルＦ’（ｔ）を正
規化することによって２０次元正規化特徴ベクトル（tw
enty dimension normalized feature vector）Ｘ（ｔ）
を生成する。総振幅或は総パワーを表わす特徴ベクトル
Ｆ’（ｔ）の２１番目の次元は破棄される。時間ｔにお
ける正規化特徴ベクトルＸ（ｔ）の個々の成分ｉは、例
えば、対数領域（logarithmic domain）内の以下の式に
よって与えられる。

【００２３】Ｘ_i（ｔ）＝Ｆ’_i（ｔ）−Ｚ（ｔ）［２］ここで、Ｆ’_i（ｔ）は時間ｔにおける未正規化ベクト
ル（unnormalized vector ）のｉ番目の成分であり、Ｚ
（ｔ）は、Ｆ’（ｔ）及びＺ（ｔ−１）成分の式３及び
４に従う加重平均である。

【００２４】Ｚ（ｔ）＝０．９Ｚ（ｔ−１）＋０．１Ｍ（ｔ）［３］ここで、正規化２０次元特徴ベクトルＸ（ｔ）はさらに言語音の
発音の変動に適応するために適応ラベラ（adaptive lab
eler）２８によって処理される。適応化された２０次元
特徴ベクトルＸ’（ｔ）が適応ラベラ２８の入力に供給
される２０次元特徴ベクトルＸ（ｔ）から２０次元適応
ベクトル（twenty dimension feature vector ）Ａ
（ｔ）を引くことによって生成される。時間ｔにおける
適応ベクトルＡ（ｔ）は、例えば、以下の式によって与
えられる。

【００２５】Ａ（ｔ）＝Ａ（ｔ−１）＋ｋ［Ｘ（ｔ−１）−Ｘ_ｐ（ｔ−１）］［５］ここで、ｋは適応ラベリングモデル（adaptive labelin
g model ）の固定されたパラメータであり、Ｘ（ｔ−
１）は時間（ｔ−１）における適応ラベラ２８への正規
化された２０次元ベクトル入力であり、Ｘｐ（ｔ−１）
は時間（ｔ−１）における２０次元特徴ベクトルＸ（ｔ
−１）に最も近い（適応プロトタイプメモリ２４から
の）適応プロトタイプベクトルであり、そしてＡ（ｔ−
１）は時間（ｔ−１）における適応ベクトルである。

【００２６】適応ラベラ２８からの２０次元適応特徴ベ
クトル信号Ｘ’（ｔ）は、好ましくは、聴覚モデル（au
ditory model）３０に供給される。聴覚モデル３０は、
例えば、いかに人の聴覚システムが音響信号を知覚する
かのモデルを提供する。聴覚モデルの一例がバール（Ba
hl）らに交付された『音韻グラフの効率的な格納及び高
速組み立てを備える音声認識システム（Speech Recogni
tion System with Efficient Storage and Rapid Assem
bly of Phonological Graphs）』と言う名称の合衆国特
許第４，９８０，９１８号において開示される。

【００２７】好ましくは、本発明によると、時間ｔにお
ける適応特徴ベクトル信号Ｘ’（ｔ）の個々の周波数バ
ンドｉに対して、聴覚モデル３０は式６及び７に従って
新たなパラメータＥ_i（ｔ）を計算する。

【００２８】Ｅ_i（ｔ）＝Ｋ₁＋Ｋ₂（Ｘ’_i（ｔ)(Ｎ_i（ｔ−１)) ［６］ここで、Ｎ_i（ｔ）＝Ｋ₃×Ｎ_i（ｔ−１）−Ｅ_i（ｔ−１）［７］ここで、Ｋ₁、Ｋ₂、及びＫ₃は聴覚モデルの固定され
たパラメータである。

【００２９】個々のセンチ秒時間間隔に対して、聴覚モ
デル３０の出力は修正された２０次元特徴ベクトル信号
を与える。この特徴ベクトルは他の２０次元の値の二乗
の総和の平方根に等しい値を持つ２１番目の次元によっ
て増加される。

【００３０】個々のセンチ秒時間間隔に対して、連結器
（concatenator）３２は、一つの現センチ秒時間間隔、
４つの前のセンチ秒時間間隔、及び４つの続くセンチ秒
時間間隔を表わす９つの２１次元特徴ベクトルを連結す
ることによって１８９次元の単一の継合せベクトル（sp
liced vector）を形成する。個々の１８９次元継合せベ
クトルには、好ましくは、継合せベクトルを回転し、継
合せベクトルを５０次元に減少するためローテータ（ro
tator ）３４内で回転マトリックスが掛けられる。

【００３１】ローテータ３４内で使用される回転マトリ
ックスは、例えば、トレーニングセッション（training
session）において得られたセットの１８９次元継合せ
ベクトルをＭ個のクラスに分類することによって得られ
る。トレーニングセット（training set）内の全ての継
合せベクトルに対する分散マトリックス（covariancema
trix ）の逆数に全てのＭ個のクラス内の全ての継合せ
ベクトルに対するサンプル内分散マトリックス（within
-sample covariance matrix ）が掛けられる。結果とし
て生じているマトリックスの最初の５０の固有ベクトル
（eigenvector）が回転マトリックスを形成する。これ
に関しては、例えば、ＩＢＭ技術小冊子（IBM Technica
l Disclosure）、Ｖｏｌ．３２、Ｎｏ．７、１９８９年
１２月号、ページ３２０及び３２１に掲載の論文『離散
パラメータ音素ベースマルコフワードモデルを使用する
音声認識システムのためのベクトル量子化手順（Vector
Quantization Procedure For Speech Recognition Sys
tem Using Discrete Parameter Phoneme-Based Markov
Word Models ）』を参照すること。

【００３２】ウンイドウ生成器１６、スペクトル分析器
１８、適応ノイズ相殺プロセッサ２０、短期間平均正規
化プロセッサ２６、適応ラベラ２８、聴覚モデル３０、
連結器３２、及びローテータ３４は、適当にプログラム
された専用或は汎用プロセッサであり得る。プロトタイ
プメモリ２２及び２４は電子的なコンピュータメモリで
あり得る。

【００３３】表１は時間ｔ１からｔ７を通じて得られる
一連の２次元音響特徴ベクトルＵ１からＵ７の仮想例を
示す。個々の音響特徴ベクトルは次元：特徴１（Featur
e 1）に対して一つの測定値を持ち、また次元：特徴２
（Feature 2 ）に対して一つの測定値を持つ。

【００３４】

【表１】図１に戻り、本発明による音声認識装置及び音声符号化
装置はさらに複数の単次元（single-dimension）プロト
タイプベクトル信号を格納するための手段３６を含む。
個々の単次元プロトタイプベクトル信号は１つのパラメ
ータ値のみを持つ。少なくとも２つの単次元プロトタイ
プベクトル信号は第一の特徴値を表わすパラメータ値を
持つ第一の次元のプロトタイプベクトル信号である。少
なくとも２つの他の単次元プロトタイプベクトル信号は
第二の特徴値を表わすパラメータ値を持つ第二の次元の
プロトタイプベクトル信号である。

【００３５】表２は単次元プロトタイプベクトルの仮想
例である。第一の次元のプロトタイプベクトルＰ１１、
Ｐ１２、Ｐ１３、Ｐ１４、及びＰ１５は、特徴１の値の
みを表わすパラメータ値を持つ。第二の次元のプロトタ
イプベクトルＰ２１、Ｐ２２、Ｐ２３、Ｐ２４、及びＰ
２５は特徴２の値のみを表わすパラメータ値を持つ。

【００３６】

【表２】手段３８が複数の複合次元（compound-dimension）プロ
トタイプベクトル信号を格納するために備えられる。個
々の複合次元プロトタイプベクトル信号は固有の識別値
を持つ。個々の複合次元プロトタイプベクトル信号は一
つの第一の次元のプロトタイプベクトル信号及び一つの
第二の次元のプロトタイプベクトル信号を含む。少なく
とも２つの複合次元プロトタイプベクトルは第一の次元
のプロトタイプベクトル信号を含む。

【００３７】表３は複合次元プロトタイプベクトル信号
Ｌ１からＬ１０の仮想例である。表３に示される個々の
複合次元プロトタイプベクトルは識別値Ｌ１からＬ１
０、１つの特徴１の単次元プロトタイプベクトル、及び
１つの特徴２の単次元プロトタイプベクトルを含む。

【００３８】

【表３】本発明はさらに手段４０を含むが、これは複合次元プロ
トタイプベクトル信号のパラメータ値に対する特徴ベク
トル信号の特徴値の近さ（closeness ）を比較し、特徴
ベクトル信号と個々の複合次元プロトタイプベクトル信
号に対するプロトタイプ一致スコア（prototype match
score ）を得る。比較プロセッサ（comparison process
or）４０は、特徴ベクトル信号の符号化された表現信号
（codedrepresentation signal ）として最良のプロト
タイプ一致スコアを持つ複合次元プロトタイプベクトル
信号の識別値を少なくとも出力する。

【００３９】表４は表１からの特徴ベクトルＵ１の複合
次元プロトタイプベクトルＬ１からＬ１０に対する近さ
の比較の仮想例を示す。表４に示されるように、複合次
元プロトタイプベクトルＬ１０は特徴ベクトルＵ１に対
する最良のプロトタイプ一致スコアを持つ。従って、識
別値Ｌ１０が特徴ベクトル信号Ｕ１の符号化表現として
出力される。

【００４０】

【表４】好ましくは、本発明によると、特徴ベクトル信号をプロ
トタイプベクトル信号に対して比較するための手段は特
徴ベクトル信号の第一の特徴の値を個々の第一の次元の
プロトタイプベクトル信号のパラメータとたった一度だ
け比較するための手段、及び特徴ベクトル信号の第二の
特徴の値を個々の第二の次元のプロトタイプベクトル信
号のパラメータ値とたった一度だけ比較するための手段
を含む。表４に示される仮想例においては、特徴ベクト
ルＵ１の特徴１の値が個々の第一の次元のプロトタイプ
ベクトルＰ１１、Ｐ１２、Ｐ１３、Ｐ１４及びＰ１５の
パラメータ値とたった一度だけ比較される。特徴ベクト
ルＵ１の特徴２の値は個々の第二の次元のプロトタイプ
ベクトルＰ２１、Ｐ２２、Ｐ２３、Ｐ２４及びＰ２５の
パラメータ値とたった一度だけ比較される。

【００４１】表４の仮想例内の単次元プロトタイプ一致
スコアは単純なユークリッド距離（Euclidean distanc
e）である。但し、好ましくは、個々の単次元プロトタ
イプベクトルは平均値μ及び標準偏差σを含む。このケ
ースにおいては、個々の単次元プロトタイプベクトルは
ガウス分布（Gaussian distribution ）としてモデル化
されるため、個々の単次元プロトタイプベクトルに対す
るプロトタイプ一致スコアは式８によって与えられる。

【００４２】

【数１】ここで、ｘ_iは特徴ベクトルＸのｉ番目の特徴（次元）
の値である。（σ＝１の場合、プロトタイプ一致スコア
はユークリッド距離に定数を加えた値となる。）この例
においては、複合次元プロトタイプ一致スコアは複合次
元プロトタイプが同様に等しいと言う想定に基づく。但
し、好ましくは、個々の複合次元プロトタイプ一致スコ
アは複合次元プロトタイプの発生の評価された前の確率
（estimated prior probability ）を表わす成分を含
む。

【００４３】単次元プロトタイプベクトル信号及び複合
次元プロトタイプベクトル信号は本発明によると一組の
初期多次元プロトタイプベクトル（initial multidimen
sional prototype vector ）から得られる。この初期多
次元プロトタイプベクトルは、例えば、トレイニングセ
ットからの特徴ベクトル信号を複数のクラスタ（cluste
r ）にまとめ、個々のクラスタに対する平均及び標準偏
差を計算することによって得られる。トレーニングスク
リプト（training script ）が一連の（一連の語のモデ
ルを形成する）語セグメントモデルから成り、個々の語
セグメントモデルがそれら語セグメントモデル内に指定
される位置を持つ一連の要素モデル（elementary mode
l）を含む場合は、特徴ベクトル信号は個々のクラスタ
が単一の語セグメントモデル内の単一の位置内の単一の
要素モデルに対応すると指定することによってクラスタ
にまとめられる。この方法が１９９１年７月１６日付け
で申請された『自動音声認識のための音響プロトタイプ
を派生するための高速アルゴリズム（Fast Algorithm f
or Deriving Acoustic Prototypes for Automatic Spee
ch Recognition）』と言う名称の合衆国特許出願第７３
０，７１４号において詳細に説明されている。

【００４４】別の方法においては、トレーニングテキス
トの発声によって生成されるある与えられた要素モデル
に対応する全ての音響特徴ベクトルが、Ｋ−平均ユーク
リッドクラスタリング（K-means Euclidean custering
）或はＫ−平均ガウスクラスタリング（K-means Gauss
ian clustering ）或はこの両者によってクラスタにま
とめられる。この方法は、例えば、１９９１年３月２２
日付けで申請された『話手に依存しないラベル符号化装
置（Speaker-independent Label Coding Apparatus）』
と言う名称の合衆国特許出願第６７３，８１０号におい
て説明されている。

【００４５】表５は初期プロトタイプベクトルＬ１から
Ｌ１０の仮想例を示す。個々の初期プロトタイプベクト
ルは一つの特徴１のパラメータ値、及び一つの特徴２の
パラメータ値を持つ。これら初期プロトタイプベクトル
のどの二つも同一の特徴１のパラメータ値或は同一の特
徴２のパラメータ値を持たない。

【００４６】

【表５】表２に示される特徴１の単次元プロトタイプベクトルは
表５の初期プロトタイプベクトルから初期プロトタイプ
ベクトルの特徴１のプロトタイプ値をクラスタにまとめ
ることによって得ることができる。表２の特徴２の単次
元プロトタイプベクトルは表５の初期プロトタイプベク
トルの特徴２の値をクラスタにまとめることによって得
ることができる。

【００４７】表６及び７は表５の初期プロトタイプベク
トルのそれぞれ特徴１及び特徴２の値のクラスタ化の仮
想例である。

【００４８】

【表６】表６に示されるように、初期プロトタイプベクトルＬ１
からＬ１０は、それらの特徴１のパラメータ値に従って
最も低い値から最も高い値へと配列される。隣接するプ
ロトタイプベクトル間の距離が計算され、最も接近した
プロトタイプベクトルが併合される。併合されたベクト
ルはそれらの成分の特徴１のパラメータ値の平均から成
る特徴１のパラメータ値を持つ。このプロセスが、例え
ば、事前に選択された数のクラスタのみに絞られるまで
反復される。

【００４９】表７は初期プロトタイプベクトルの特徴２
の値をクラスタにまとめて第二の次元のプロトタイプベ
クトル信号を生成するための類似するプロセスを示す。

【００５０】

【表７】実施においては、トレーニングテキストの発声によって
生成される音響特徴ベクトルが、例えば、各々が５０次
元の２，５００の初期プロトタイプベクトルによって表
わされる２，５００のクラスタにまとめられる。個々の
次元が例えば各々が平均及びガウス分布の標準偏差を持
つ５０の単次元プロトタイプベクトルを形成するように
クラスタ化される。このケースにおいては、２つのクラ
スタ間の距離は式９によって与えられる。

【００５１】

【数２】ここで、σ1 は第一のクラスタの標準偏差であり、σ2
は第二のクラスタの標準偏差であり、σ3 はこれらの結
合されたクラスタの標準偏差であり、ｎは第一のクラス
タ内に含まれる特徴ベクトルの数であり、そしてｍは第
二のクラスタ内に含まれる特徴ベクトルの数である。

【００５２】図１に戻り、本発明による音声認識装置は
さらに複数の音声ユニットの個々に対して一致スコアを
生成するための手段４２をさらに含む。個々の一致スコ
アは音声ユニット間の一致の近さの評価値及び発声の符
号化表現のシーケンスを含む。個々の音声ユニットは１
つ或は複数のサブユニットを含む。

【００５３】音声ユニットに対する一致スコアを生成す
るための手段４２は、例えば、上に述べた合衆国特許第
４，９８０，９１８号において説明される周知の音響一
致プロセッサ及び／或は言語モデルプロセッサから成
る。

【００５４】本発明による手段４４は最も良い一致スコ
アを持つ１つ或は複数の最良候補音声ユニットを識別す
るために提供される。手段４６は１つ或は複数の最良候
補音声ユニットの少なくとも１つの音声サブユニットを
表示或は出力するために提供される。

【００５５】本発明による音声符号化及び音声認識装置
のプロセッサ４０、４２及び４４は専用或は汎用デジタ
ルコンピュータシステムを適当にプログラムすることに
よって製作することができる。メモリ３６及び３８は電
子的なコンピュータメモリであり得る。ディスプレイ４
６は陰極線管のようなビデオディスプレイ、液晶ディス
プレイ、或はプリンタであり得る。別の方法として、こ
の出力手段は拡声器或はヘッドホーンを持つ音声合成器
のような音響出力装置であっても良い。

【００５６】本発明に従う複数の単次元プロトタイプベ
クトル信号、及び単次元プロトタイプベクトル信号から
構成される複数の複合次元プロトタイプベクトル信号を
持つ音声符号化装置は以下のアルゴリズムを使用するこ
とにより任意の与えられた特徴ベクトル信号に最も一致
するプロトタイプベクトル信号を迅速及び効率的に発見
することができる。第一に、個々の単次元プロトタイプ
ベクトル信号とその特徴ベクトル信号の対応する次元と
の間で距離が計算される。次に個々の次元に対する最小
距離が識別される。

【００５７】次に、第一の複合次元プロトタイプベクト
ルと特徴ベクトルとの間で距離が計算される。好ましく
は、第一の複合次元プロトタイプベクトルは直前の特徴
ベクトル信号に対する最良のプロトタイプ一致スコアを
持つプロトタイプベクトルであり、この距離は未符号化
特徴ベクトル信号の特徴値を他のプロトタイプベクトル
信号のパラメータ値と比較する前に得られる。この距離
がそれまでに発見された中の最良のプロトタイプ一致ス
コアである。

【００５８】第二の複合次元プロトタイプベクトルに対
して、部分プロトタイプ一致スコア（partial prototyp
e match score ）がこの第二の複合次元プロトタイプベ
クトルと特徴ベクトルの対応する次元との間の距離を計
算することによって得られる。この部分プロトタイプ一
致スコアに残りの次元に対して前に得られた最小距離
（minimum distance）から成る残り一致スコア（remain
der match score ）が加えられる。この総和がそれまで
発見された最良のプロトタイプ一致スコアよりも悪い場
合は、このプロトタイプベクトルは、このプロトタイプ
ベクトルの残りの次元に対してさらに距離計算を遂行す
ることなく破棄される。そうでないときは、第二の複合
次元プロトタイプベクトルの次の次元と特徴ベクトルの
対応する次元との間の距離が部分プロトタイプ一致スコ
アと結合され、プロセスが反復される。

【００５９】別の方法として、残り一致スコアは以下の
方法にて得ることもできる。残りの次元に対する最小距
離は第一の最小残りプロトタイプ一致スコア（first mi
nimum remainder prototype match score ）を形成す
る。残りの次元に対応する第二の特徴ベクトル信号の第
二の部分と最も近い対応する単次元プロトタイプベクト
ル信号との間の近さは第二の最小残りプロトタイプ一致
スコアを形成する。第二の特徴ベクトル信号の第二の部
分と第二の特徴ベクトル信号と最良のプロトタイプ一致
スコアを持つ第二の複合次元プロトタイプベクトル信号
の対応する第二の部分との間の近さは前の参照残りプロ
トタイプ一致スコア（prior reference remainder prot
otype match score ）を形成する。最後に、第一の最小
残りプロトタイプ一致スコアと第二の最小残りプロトタ
イプ一致スコアに対する前の参照残り一致スコアの超過
（excess）との間の重み付けされた組合わせ（weighted
combination）が最良残り一致スコア（best remainder
match score）に対する評価値を形成する。

【００６０】

【発明の効果】本発明によれば、時間的に比較的高速度
にて音声を符号化する音声符号化装置を得ることが可能
となる。また、音響プロトタイプベクトル信号を比較的
限られた電子メモリ内に格納し得る音声符号化装置を得
ることが可能となる。

【図面の簡単な説明】

【図１】本発明に従う音声符号化装置を含む本発明に従
う音声認識装置の一例のブロック図である。

【図２】発声の諸特徴の値を測定するための手段の一例
のブロック図である。

【符号の説明】

１０音響特徴値測定部３６単次元プロトタイプベクトルメモリ３８複合次元プロトタイプベクトルメモリ４０比較プロセッサ４２一致スコアプロセッサ４４最良候補識別プロセッサ

フロントページの続き (72)発明者ジェローム、アール、ベルガルダアメリカ合衆国ニューヨーク州、ゴールデンズ、ブリッジ、ボールダー、レーン、490 (72)発明者エドワード、アダム、エプスタインアメリカ合衆国ニューヨーク州、パトナム、バレー、カノパス、ホロー、ロード、219 (72)発明者ジョン、エム、ルカセンアメリカ合衆国ニューヨーク州、ヨークタウン、ハイツ、シーニック、ビュー、６‐ジー (72)発明者デイビッド、ナハモーアメリカ合衆国ニューヨーク州、ホワイト、プレインズ、エルムウッド、ロード、12 (72)発明者マイケル、アラン、ピチュニーアメリカ合衆国ニューヨーク州、ホワイト、プレインズ、ラルフ、アベニュ、 118 (56)参考文献特開昭59−183542（ＪＰ，Ａ) 特開平３−32228（ＪＰ，Ａ) 特開平１−25197（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 G10L 9/00 - 9/18

Claims

(57)【特許請求の範囲】

【請求項１】特徴値を表わす一連の特徴ベクトル信号を
生成するために一連の連続的な時間間隔の個々において
発声の少なくとも第一及び第二の異なる特徴の値を測定
するための測定手段と個々の単次元プロトタイプベクト
ル信号が少なくとも一つのパラメータ値を持ち、少なく
とも２つの単次元プロトタイプベクトル信号が第一の特
徴値を表わすパラメータ値を持つ第一の次元のプロトタ
イプベクトル信号であり、少なくとも２つの他の単次元
プロトタイプベクトル信号が第二の特徴値を表わすパラ
メータ値を持つ第二の次元のプロトタイプベクトル信号
である、複数の単次元プロトタイプベクトル信号を格納
するための手段と、個々の複合次元プロトタイプベクトル信号が固有の識別
値を持ち、個々の複合次元プロトタイプベクトル信号が
１つの第一の次元のプロトタイプベクトル信号と１つの
第二の次元のプロトタイプベクトル信号から成り、少な
くとも２つの複合次元プロトタイプベクトル信号が同一
の第一の次元のプロトタイプベクトル信号を含む、複数
の複合次元プロトタイプベクトル信号を格納するための
手段と、特徴ベクトル信号と個々の複合次元プロトタイプベクト
ル信号に対するプロトタイプ一致スコアを得るために特
徴ベクトル信号の特徴値の複合次元プロトタイプベクト
ル信号のパラメータ値に対する一致度を比較するための
比較手段と、少なくとも最良のプロトタイプ一致スコアを持つ複合次
元プロトタイプベクトル信号の識別値を特徴ベクトル信
号の符号化表現信号として出力するための手段を含むこ
とを特徴とする音声符号化装置。
【請求項２】特徴値を表わす一連の特徴ベクトル信号を
生成するために一連の連続的な時間間隔の個々において
発声の少なくとも第一及び第二の異なる特徴の値を測定
するための測定手段と、個々の単次元プロトタイプベクトル信号が少なくとも一
つのパラメータ値を持ち、少なくとも２つの単次元プロ
トタイプベクトル信号が第一の特徴値を表わすパラメー
タ値を持つ第一の次元のプロトタイプベクトル信号であ
り、少なくとも２つの他の単次元プロトタイプベクトル
信号が第二の特徴値を表わすパラメータ値を持つ第二の
次元のプロトタイプベクトル信号である、複数の単次元
プロトタイプベクトル信号を格納するための手段と、個々の複合次元プロトタイプベクトル信号が一意の識別
値を持ち、個々の複合次元プロトタイプベクトル信号が
１つの第一の次元のプロトタイプベクトル信号と１つの
第二の次元のプロトタイプベクトル信号から成り、少な
くとも２つの複合次元プロトタイプベクトル信号が同一
の第一の次元のプロトタイプベクトル信号を含む、複数
の複合次元プロトタイプベクトル信号を格納するための
手段と、個々の特徴ベクトル信号と個々の複合次元プロトタイプ
ベクトル信号に対するプロトタイプ一致スコアを得るた
めに個々の特徴ベクトル信号の特徴値の複合次元プロト
タイプベクトルのパラメータ値に対する一致度を比較す
るための比較手段と、特徴ベクトル信号に対する最良のプロトタイプ一致スコ
アを持つ複合次元プロトタイプベクトル信号の識別値を
認識されるべき発声の符号化表現信号として出力するた
めの手段と、個々の一致スコアが音声ユニットと発声の符号化された
表現のシーケンスとの間の一致の近さの評価値からな
り、個々の音声ユニットが１つ或は複数の音声サブユニ
ットを含む、個々の複数の音声ユニットに対して一致ス
コアを生成するための手段と、最良一致スコアを持つ１つ或は複数の最良候補音声ユニ
ットを識別するための手段と、１つ或は複数の最良候補音声ユニットの少なくとも１つ
の音声サブユニットを出力するための手段と、を含むことを特徴とする音声認識装置。
【請求項３】前記比較手段が、特徴ベクトル信号の第一の特徴の値を個々の第一の次元
のプロトタイプベクトル信号のパラメータ値とたった一
度のみ比較するための手段と、特徴ベクトル信号の第二の特徴の値を個々の第二の次元
のプロトタイプベクトル信号のパラメータ値とたった一
度のみ比較するための手段と、を含むことを特徴とする請求項１または２記載の装置。
【請求項４】前記複数の単次元プロトタイプベクトル信
号が２つ或はそれ以上の複合次元プロトタイプベクトル
信号内に含まれることを特徴とする請求項３記載の装
置。
【請求項５】前記個々の複合次元プロトタイプベクトル
信号が少なくとも１つの単次元プロトタイプベクトル信
号を含み、この単次元ベクトル信号がまた少なくとも幾
つかの他の複合次元プロトタイプベクトル信号内にも含
まれることを特徴とする請求項４記載の装置。
【請求項６】個々の次元に対して、単次元プロトタイプ
信号の数が複合次元プロトタイプベクトル信号の数の二
分の一以下であることを特徴とする請求項５記載の装
置。
【請求項７】前記測定手段がマイクロホンを含むことを
特徴とする請求項１または２記載の装置。
【請求項８】前記比較手段が、特徴ベクトル信号と第一の複合次元プロトタイプベクト
ル信号に対するプロトタイプ一致スコアを得るために第
一の特徴ベクトル信号の特徴値の第一の複合次元プロト
タイプベクトル信号のパラメータ値に対する一致度の比
較を行なうための手段と、第二の複合次元プロトタイプベクトル信号と第一の特徴
ベクトル信号に対する部分プロトタイプ一致スコアを得
るために第二の複合次元プロトタイプベクトル信号の第
一の部分のパラメータ値と第一の特徴ベクトル信号の対
応する第一の部分の特徴値との間の一致度を比較するた
めの手段と、第一の複合次元プロトタイプベクトル信号を第二の複合
次元プロトタイプベクトル信号よりも良好であるとし
て、第一の特徴ベクトル信号と第一の複合次元プロトタ
イプベクトル信号に対するプロトタイプ一致スコアが第
二の複合次元プロトタイプベクトル信号と第一の特徴ベ
クトル信号に対する部分プロトタイプ一致スコアよりも
良好であるとき選択するための手段と、を含むことを特徴とする請求項１記載の音声符号化装
置。
【請求項９】前記比較手段がさらに、特徴ベクトル信号の第一の部分と異なる特徴ベクトル信
号の第二の部分の特徴値に対する最良残りプロトタイプ
一致スコアを評価するための手段と、第一の複合次元プロトタイプベクトル信号を第二の複合
次元プロトタイプベクトル信号よりも良好であるとし
て、第一の特徴ベクトル信号と第二の複合次元プロトタ
イプベクトル信号に対するプロトタイプ一致スコアが部
分プロトタイプ一致スコアと最良残りプロトタイプ一致
スコアの総和よりも良好であるとき選択するための手段
と、を含むことを特徴とする請求項８記載の音声符号化装
置。
【請求項１０】前記最良残り一致スコアを評価するため
の手段が、第一の最小残りプロトタイプ一致スコアを得るために第
一の特徴ベクトル信号の第二の部分と最も接近した対応
する単次元プロトタイプベクトル信号との間の一致度を
比較するための手段と、第二の残りプロトタイプ一致スコアを得るために第一の
特徴ベクトル信号の第二の部分に対応する第二の特徴ベ
クトル信号の第二の部分と最も接近した対応する単次元
プロトタイプベクトル信号との間の一致度を比較するた
めの手段と、前の参照残りプロトタイプ一致スコアを得るために第二
の特徴ベクトル信号の第二の部分と第二の特徴ベクトル
信号と最良のプロトタイプ一致スコアを持つ第二の複合
次元プロトタイプベクトル信号の対応する第二の部分と
の間の一致度を比較するための手段と、最良残り一致スコアを評価するために第一の最小残りプ
ロトタイプ一致スコアと第二の最小残りプロトタイプ一
致スコアに対する前の参照残り一致スコアの超過を重み
付け結合方式にて結合するための手段と、を含むことを特徴とする請求項９記載の音声符号化装
置。
【請求項１１】特徴値を表わす一連の特徴ベクトル信号
を生成するために一連の連続的な時間間隔の個々におい
て発声の少なくとも第一及び第二の異なる特徴の値を測
定するステップと、個々の単次元プロトタイプベクトル信号が少なくとも一
つのパラメータ値を持ち、少なくとも２つの単次元プロ
トタイプベクトル信号が第一の特徴値を表わすパラメー
タ値を持つ第一の次元のプロトタイプベクトル信号であ
り、少なくとも２つの他の単次元プロトタイプベクトル
信号が第二の特徴値を表わすパラメータ値を持つ第二の
次元のプロトタイプベクトル信号である、複数の単次元
プロトタイプベクトル信号を格納するステップと、個々の複合次元プロトタイプベクトル信号が固有の識別
値を持ち、個々の複合次元プロトタイプベクトル信号が
１つの第一の次元のプロトタイプベクトル信号と１つの
第二の次元のプロトタイプベクトル信号から成り、少な
くとも２つの複合次元プロトタイプベクトル信号が同一
の第一の次元のプロトタイプベクトル信号を含む、複数
の複合次元プロトタイプベクトル信号を格納するステッ
プと、特徴ベクトル信号と個々の複合次元プロトタイプベクト
ル信号に対するプロトタイプ一致スコアを得るために特
徴ベクトル信号の特徴値の複合次元プロトタイプベクト
ルのパラメータ値に対する一致度を比較するステップ
と、少なくとも最良のプロトタイプ一致スコアを持つ複合次
元プロトタイプベクトル信号の識別値を特徴ベクトル信
号の符号化表現信号として出力するステップと、を含
むことを特徴とする音声符号化方法。
【請求項１２】少なくとも１つの音声サブユニットを出
力するための手段がディスプレイあるいは音声合成器を
含むことを特徴とする請求項２記載の音声認識装置。
【請求項１３】特徴値を表わす一連の特徴ベクトル信号
を生成するために一連の連続的な時間間隔の個々におい
て発声の少なくとも第一及び第二の異なる特徴の値を測
定するステップと、個々の単次元プロトタイプベクトル信号が少なくとも一
つのパラメータ値を持ち、少なくとも２つの単次元プロ
トタイプベクトル信号が第一の特徴値を表わすパラメー
タ値を持つ第一の次元のプロトタイプベクトル信号であ
り、少なくとも２つの他の単次元プロトタイプベクトル
信号が第二の特徴値を表わすパラメータ値を持つ第二の
次元のプロトタイプベクトル信号である、複数の単次元
プロトタイプベクトル信号を格納するステップと、個々の複合次元プロトタイプベクトル信号が固有の識別
値を持ち、個々の複合次元プロトタイプベクトル信号が
１つの第一の次元のプロトタイプベクトル信号と１つの
第二の次元のプロトタイプベクトル信号から成り、少な
くとも２つの複合次元プロトタイプベクトル信号が同一
の第一の次元のプロトタイプベクトル信号を含む、複数
の複合次元プロトタイプベクトル信号を格納するステッ
プと、個々の特徴ベクトル信号と個々の複合次元プロトタイプ
ベクトル信号に対するプロトタイプ一致スコアを得るた
めに個々の特徴ベクトル信号の特徴値の複合次元プロト
タイプベクトルのパラメータ値に対する一致度を比較す
るステップと、特徴ベクトル信号に対する最良のプロトタイプ一致スコ
アを持つ複合次元プロトタイプベクトル信号の識別値を
認識されるべき発声の符号化表現信号のシーケンスとし
て出力するステップと、個々の一致スコアが音声ユニットと発声の符号化された
表現のシーケンスとの間の一致の近さの評価値からな
り、個々の音声ユニットが１つ或は複数の音声サブユニ
ットを含む、個々の複数の音声ユニットに対して一致ス
コアを生成するステップと、最良一致スコアを持つ１つ或は複数の最良候補音声ユニ
ットを識別するステップと、１つ或は複数の最良候補音声ユニットの少なくとも１つ
の音声サブユニットを出力するステップと、を含むことを特徴とする音声認識方法。
【請求項１４】特徴値を表わす一連の特徴ベクトル信号
を生成するために一連の連続的な時間間隔の個々におい
て発声の少なくとも第一の値を測定するための手段と、個々のプロトタイプベクトル信号が少なくとも第一の特
徴値を表わす一つのパラメータ値を持つ複数のプロトタ
イプベクトル信号を格納するための手段と、特徴ベクトル信号と個々のプロトタイプベクトル信号に
対するプロトタイプ一致スコアを得るために特徴ベクト
ル信号の特徴値のプロトタイプベクトル信号のパラメー
タ値に対する一致度を比較するための手段と、少なくとも最良のプロトタイプ一致スコアを持つプロト
タイプベクトル信号の識別値を特徴ベクトル信号の符号
化表現信号として出力するための手段と、を有する音声
符号化装置において、前記比較手段が、未符号化特徴ベクトル信号の特徴値を
他のプロトタイプベクトル信号のパラメータ値と比較す
る前に未符号化特徴信号の特徴値の直前の特徴ベクトル
信号に対して最良のプロトタイプ一致スコアを持つプロ
トタイプベクトル信号のパラメータ値に対する一致度を
比較するための手段を備えることを特徴とする音声符号
化装置。