JP3500616B2 - 信号波形データ比較装置およびその方法 - Google Patents
信号波形データ比較装置およびその方法Info
- Publication number
- JP3500616B2 JP3500616B2 JP29528993A JP29528993A JP3500616B2 JP 3500616 B2 JP3500616 B2 JP 3500616B2 JP 29528993 A JP29528993 A JP 29528993A JP 29528993 A JP29528993 A JP 29528993A JP 3500616 B2 JP3500616 B2 JP 3500616B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- fuzzy
- feature
- frame
- normalized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Image Analysis (AREA)
Description
装置に関し、特に、高速かつ高精度の比較に関する。
変動が問題となる。周波数変動とは、発声される単語の
周波数が人により異なることである。周波数変動を吸収
する方法の1つとして、マルチテンプレート法が知られ
ている。
入力された音声信号を、例えば、1フレーム25.6m
s、フレーム周期15msでFFTケプストラム分析を
行なう。第1次元〜第10次元までのケプストラム係数
を、単語音声認識のための特徴量として用い、さらに全
ての音声信号を、例えば、DP(dynamic programmin
g)マッチング法を用いて、22フレームになるよう正
規化を行う。
ム毎に第1次元〜第10次元までのケプストラム係数の
値が得られる。このような特徴ベクトル時系列データを
話者Hi(i=1〜I)の数だけ(i枚)作成する(図
21参照)。つぎに、i枚の特徴ベクトル時系列データ
を1または2以上のグループに分類して、ある単語の標
準パターンを作成する。
データのうち、各フレーム毎および各次元毎にケプスト
ラム係数値を比較し、各フレーム毎および各次元毎のず
れの総計が所定値以下であれば、同一グループに分類す
る。そして、同一グループに分類された特徴ベクトル時
系列データのケプストラム係数値の平均を、各フレーム
毎および各次元毎に算出し、これを当該グループの標準
パターンとして記憶する。このようにして、1の単語に
ついて、人数分の特徴ベクトル時系列データから、複数
の標準パターンが作成される。すなわち、標準パターン
は、1の単語につき複数の存在し、これをマルチテンプ
レート法という。なお、前記標準パターンは、登録する
単語の分だけ作成される。
る。比較対象の音声信号が入力されると、上述と同様
に、各フレーム毎に第1次元〜第10次元までのケプス
トラム係数の値を求める。つぎに、各フレーム毎および
各次元毎にケプストラム係数値を、記憶している全ての
標準パターンと比較する。
フレーム毎および各次元毎のずれを、各標準パターンご
とに求め、総計が最も少ない標準パターンを求める。そ
して、比較対象の音声信号は、前記総計が最も少ない標
準パターンで表される音声信号であると判断する。
り、周波数変動を吸収し、音声信号を精度よく比較する
ことができる。
マルチテンプレート法においては、次のような問題があ
った。高精度の比較を行なう為には、できる限り多くの
テンプレートを記憶しておく必要がある。しかし、多く
のテンプレートを記憶すると(すなわち、標準パターン
を多く記憶すると)、多くの記憶領域を必要とするだけ
でなく、テンプレートの数だけの演算処理が必要とな
り、すべて比較するまでの演算時間を要する。
語について複数の標準パターンを記憶する。したがっ
て、単語の数が1つ増えただけで、記憶する量は標準パ
ターンの数だけ増える。
記憶する標準パターン数を減らすと、精度の低い比較と
なる。
精度かつ高速に信号波形を比較することができる信号波
形比較装置又はその方法を提供することを目的とする。
タ比較装置は、1)信号波形データが入力される入力手
段、前記信号波形データを複数フレームに分割し、各フ
レーム毎の周波数成分をフレーム特徴量として抽出する
特徴量抽出手段、2)前記各フレーム特徴量から所望の特
徴量成分値を抽出し、抽出した特徴量成分値に基づい
て、抽出した複数の特徴量成分を各次元の成分とする要
素ベクトルを、多次元ベクトル空間に配置するととも
に、各フレームの要素ベクトルを連結させた特徴ベクト
ル時系列データを演算する時系列データ演算手段、3)前
記特徴ベクトル時系列データを、時間軸にて正規化し、
正規化後特徴ベクトル時系列データを演算する正規化手
段、4)得られた正規化後特徴ベクトル時系列データを記
憶する正規化後時系列データ記憶手段、5)複数の信号波
形データに基づき得られた複数の正規化後特徴ベクトル
時系列データの各特徴量成分値をファジィ数化して得ら
れたファジィ標準パターンデータを登録データとして予
め記憶しておくファジィ標準パターンデータ記憶手段、
6)前記正規化後時系列データ記憶手段に記憶された判定
対象の正規化後特徴ベクトル時系列データの各フレーム
及び各次元の特徴量成分値について、ファジィ標準パタ
ーン記憶手段に記憶されたファジィ標準パターンデータ
とのファジィ関係を演算するファジィ関係演算手段、7)
演算したファジィ関係に基づき、ファジィ標準パターン
データと判定対象の正規化後特徴ベクトル時系列データ
との類似度を演算する類似度演算手段を備え、 8) 前記類
似度演算手段は、前記登録データ毎のファジィ標準パタ
ーンデータに基づき、各フレームの各次元毎の特徴量成
分値の平均値を求め、当該平均値に対して前記特徴量成
分値が大きい度合いに応じてその重み値を各フレームお
よび各ベクトル空間ごとに演算し、得られた重み値およ
び前記ファジィ関係に基づき、前記登録データと判定対
象の正規化後特徴ベクトル時系列データとの類似度を演
算することを特徴とする。
ては、前記類似度演算手段は、 1)単語毎のファジィ標準パターンデータに基づき、各フ
レームの各次元毎の特徴量成分値の平均値を求め、当該
平均値に対して前記特徴量成分値が大きい度合いに応じ
てその重み値を各フレームおよび各ベクトル空間ごとに
演算し、 2)得られた重み値および前記ファジィ関係に基づき、フ
ァジィ標準パターンデータと判定対象の正規化後特徴ベ
クトル時系列データとの類似度を演算すること、を特徴
とする。
ては、前記正規化手段は、 1)前記各特徴ベクトル時系列データの各特徴量成分値を
ファジィ分類するファジィ分類手段、 2)ファジィ分類された各特徴量成分値に基づき、代表特
徴点を演算するとともに、求めた代表特徴点を時系列順
に連結し、代表特徴点時系列データを演算する代表特徴
点時系列データ演算手段、 3)前記代表特徴点時系列データに基づいて、正規化後特
徴ベクトル時系列データを演算して出力する正規化後時
系列データ演算手段、を備えたことを特徴とする。
いては、入力された信号波形データを複数フレームに分
割し、各フレーム毎の周波数成分をフレーム特徴量とし
て抽出し、前記各フレーム特徴量から所望の特徴量成分
値を抽出し、抽出した特徴量成分値に基づいて、抽出し
た複数の特徴量成分を各次元の成分とする要素ベクトル
を、多次元ベクトル空間に配置し、各フレームの要素ベ
クトルを連結させた特徴ベクトル時系列データを演算
し、前記特徴ベクトル時系列データを、時間軸にて正規
化し、正規化後特徴ベクトル時系列データを演算し、得
られた正規化後特徴ベクトル時系列データを記憶し、複
数の信号波形データに基づき得られた複数の正規化後特
徴ベクトル時系列データの各特徴量成分値をファジィ数
化して得られたファジィ標準パターンデータを登録デー
タとして予め記憶しておき、判定対象の正規化後特徴ベ
クトル時系列データの各フレーム及び各次元の特徴量成
分値について、前記ファジィ標準パターンデータとのフ
ァジィ関係を演算し、得られたファジィ関係に基づき、
ファジィ標準パターンデータと判定対象の正規化後特徴
ベクトル時系列データとの類似度を演算し、その類似度
を出力する信号波形データ比較方法であって、前記登録
データ毎のファジィ標準パターンデータに基づき、各フ
レームの各次元毎の特徴量成分値の平均値を求め、当該
平均値に対して前記特徴量成分値が大きい度合いに応じ
てその重み値を各フレームおよび各ベクトル空間ごとに
演算し、得られた重み値および前記ファジィ関係に基づ
き、前記登録データと判定対象の正規化後特徴ベクトル
時系列データとの類似度を演算することを特徴とする。
またはその方法においては、入力された信号波形データ
を複数フレームに分割し、各フレーム毎の周波数成分を
フレーム特徴量として抽出する。前記各フレーム特徴量
から所望の特徴量成分値を抽出し、抽出した特徴量成分
値に基づいて、抽出した複数の特徴量成分を各次元の成
分とする要素ベクトルを、多次元ベクトル空間に配置す
る。各フレームの要素ベクトルを連結させた特徴ベクト
ル時系列データを演算し、前記特徴ベクトル時系列デー
タを、時間軸にて正規化し、正規化後特徴ベクトル時系
列データを演算し記憶する。
に基づき得られた複数の正規化後特徴ベクトル時系列デ
ータの各特徴量成分値をファジィ数化して得られたファ
ジィ標準パターンデータを記憶しておく。
データの各フレーム及び各次元の特徴量成分値につい
て、前記ファジィ標準パターンデータとのファジィ関係
を演算し、得られたファジィ関係に基づき、ファジィ標
準パターンデータと判定対象の正規化後特徴ベクトル時
系列データとの類似度を演算し、その類似度を出力す
る。このように、ファジィ標準パターンデータは、正規
化後特徴ベクトル時系列データの各特徴量成分値をファ
ジィ数化されたものであるので、所属度を的確に判断す
ることができる。また、前記登録データ毎のファジィ標
準パターンデータに基づき、各フレームの各次元毎の特
徴量成分値の平均値を求め、当該平均値に対して前記特
徴量成分値が大きい度合いに応じてその重み値を各フレ
ームおよび各ベクトル空間ごとに演算し、得られた重み
値および前記ファジィ関係に基づき、前記登録データと
判定対象の正規化後特徴ベクトル時系列データとの類似
度を演算する。したがって、当該平均値に対して前記特
徴量成分値が大きい度合いをもつフレームおよび各ベク
トル空間の類似度を高く評価することができる。
ては、前記類似度演算手段は、単語毎のファジィ標準パ
ターンデータに基づき、各フレームの各次元毎の特徴量
成分値の平均値を求め、当該平均値に対して前記特徴量
成分値が大きい度合いに応じてその重み値を各フレーム
および各ベクトル空間ごとに演算し、得られた重み値お
よび前記ファジィ関係に基づき、ファジィ標準パターン
データと判定対象の正規化後特徴ベクトル時系列データ
との類似度を演算する。したがって、当該平均値に対し
て前記特徴量成分値が大きい度合いをもつフレームおよ
び各ベクトル空間の類似度を高く評価することができ
る。
ては、ファジィ分類手段は、前記各特徴ベクトル時系列
データの各特徴量成分値をファジィ分類する。代表特徴
点時系列データ演算手段は、ファジィ分類された各特徴
量成分値に基づき、代表特徴点を演算するとともに、求
めた代表特徴点を時系列順に連結し、代表特徴点時系列
データを演算する。正規化後時系列データ演算手段は、
前記代表特徴点時系列データに基づいて、正規化後特徴
ベクトル時系列データを演算して出力する。これにより
正規化をより高速に演算することができる。
る。信号波形データ比較装置1は、入力手段3、特徴量
抽出手段5、時系列データ演算手段7、正規化手段9、
正規化後時系列データ記憶手段11、ファジィ標準パタ
ーンデータ記憶手段13、ファジィ標準パターンデータ
作成手段15、ファジィ関係演算手段17、および類似
度演算手段19を備えている。
る。特徴量抽出手段5は、前記信号波形データを複数フ
レームに分割し、各フレーム毎の周波数成分をフレーム
特徴量として抽出する。時系列データ演算手段7は、前
記各フレーム特徴量から所望の特徴量成分値を抽出し、
抽出した特徴量成分値に基づいて、抽出した複数の特徴
量成分を各次元の成分とする要素ベクトルを、多次元ベ
クトル空間に配置するとともに、各フレームの要素ベク
トルを連結させた特徴ベクトル時系列データを演算す
る。
代表特徴点時系列データ演算手段32、および正規化後
時系列データ演算手段33を備えており、与えられた前
記特徴ベクトル時系列データを、以下のようにして時間
軸にて正規化し、正規化後特徴ベクトル時系列データを
演算する。
トル時系列データの各特徴量成分値をファジィ分類す
る。代表特徴点時系列データ演算手段33は、ファジィ
分類された各特徴量成分値に基づき、代表特徴点を演算
する。さらに、ファジィ分類手段31に与えられた特徴
ベクトル時系列データに基づき、求めた代表特徴点を時
系列順に連結し、代表特徴点時系列データを演算する。
正規化後時系列データ演算手段35は、前記代表特徴点
時系列データに基づいて、正規化後特徴ベクトル時系列
データを演算して出力する。
手段11は、得られた正規化後特徴ベクトル時系列デー
タを記憶する。ファジィ標準パターンデータ作成手段1
5は、複数の信号波形データに基づき得られた複数の正
規化後特徴ベクトル時系列データの各特徴量成分値をフ
ァジィ数化して得られたファジィ標準パターンデータ
を、演算する。ファジィ標準パターンデータ記憶手段1
3は、前記ファジィ標準パターンデータを記憶する。
系列データ記憶手段11に記憶された判定対象の正規化
後特徴ベクトル時系列データの各フレーム及び各次元の
特徴量成分値について、ファジィ標準パターン記憶手段
13に記憶されたファジィ標準パターンデータとのファ
ジィ関係を演算する。類似度演算手段19は、単語毎の
ファジィ標準パターンデータに基づき、各フレームの各
次元毎の特徴量成分値の平均値を求め、当該平均値に対
して前記特徴量成分値が大きい度合いに応じてその重み
値を各フレームおよび各ベクトル空間ごとに演算し、得
られた重み値および前記ファジィ関係に基づき、ファジ
ィ標準パターンデータと判定対象の正規化後特徴ベクト
ル時系列データとの類似度を演算する。
較装置をCPUを用いて実現したハードウェア構成の一
例を示す。信号波形データ比較装置21は、CPU2
3、ROM25、RAM27、音声A/D変換IF2
6、キーボード28、CRT29、およびバスライン3
0を備えている。
ラム等が記憶されており、CPU23は、この制御プロ
グラムに従いバスライン30を介して、各部を制御す
る。キーボード28は、モード切換え信号を入力するモ
ード切換え手段である。音声A/D変換IF26は信号
波形データを入力する入力手段である。
るモード(以下標準パターン作成モードという)および
未知信号波形データを予め記憶したファジィ標準パター
ンとを比較するモード(比較モードという)を有する。
信号波形データ比較装置21の標準パターン作成モード
の動作につき、図4を用いて説明する。
ら、信号波形データが入力されると(図3ステップST
1)、CPU23は、前記信号波形データを時系列順に
複数フレームに分割し、各フレーム毎の周波数成分をフ
レーム特徴量として抽出する(ステップST2)。本実
施例においては、1フレーム25.6msとし、フレー
ムごとにスペクトルの包絡情報を求めるケプストラム分
析を用いて、フレーム特徴量を演算した。
多次元ベクトル空間に配置した特徴点を求めRAM27
に記憶する。本実施例においては、多次元ベクトル空間
として10次元ベクトル空間を採用した。10次元ベク
トル空間に配置した状態を図5に示す。この場合、入力
された信号波形データが30フレームあったので、特徴
点a1〜a30が配置された。なお、これらの特徴点a
1〜a30はベクトルとして表わされる。
る。入力信号波形を表わす特徴ベクトルの時系列Aは、 A=a(o)a(1)・・・a(i)・・・a(I-1) ・・・・・(1) {a(i)=(ai1,ai2,・・・,aip,・・・,aiP)} として表現される。ここで、Iは入力時間長(フレーム
数)で、Pはベクトルの次元数である。
一つの特徴点として見ることができるので、この特徴点
の時系列を追跡することにより、P次元空間での近似的
な連続曲線(折れ線)が得られる。
で、前記特徴点a1〜a30をそのまま時系列で追跡し
た近似的な連続曲線を求めても意味がない。本実施例に
おいては、CPU23は、前記各特徴点をファジィ分類
して、代表特徴点を求めるとともに、求めた代表特徴点
を時系列順に連結し、代表特徴点時系列線データを求め
る。
ベクトル時系列A1をRAM27から読み出す。ベクト
ル時系列A1は、 A1=a1,a2,・・・a30 で表わされる。
1の各特徴点ベクトルa1〜a30をファジィ分類し、
代表特徴点ベクトル(図5、a101〜a104参照)
を求める。本実施例においては、既知理論であるファジ
ィC―ミーンズ法(Fuzzy C-means)を採用した。
リズムは以下のようになる。まず、各個体Ai(Ai:ベク
トル;i=1,2,...N)が各クラスタg(g=1,2,...,G)に属
する度合(0から1の値)を次の行列(menbership matr
ix)で表わす。
ら1の間の値をとることを示している。
分割行列U(0)と適当な収束判定値εを与える。つぎ
に、式(3)により初期クラスタg(g=1,2,...,G)の平均
ベクトルVgを求める。
更新する。
(1)(U(0))と表わし、これを反復する。すなわち、 U(k+1)=T(k+1)(U(k)) (k=0,1,2,...) ・・・(5) とする。
ったとき計算を終了する。もし、|U(k+1)−U(k)|≦
εとならない場合は、上記計算を繰り返す。
表特徴点ベクトルをRAM27に記憶する。なお、この
状態では、求められた代表特徴点ベクトルには、時系列
概念が取払われている。そこで、CPU23は、RAM
27に記憶された代表特徴点ベクトルを時系列順に連結
し、代表特徴点時系列線データを求める。
る為、各代表特徴点ベクトルと各特徴点ベクトルa1〜
a30を時系列順に、最も近い代表特徴点ベクトルに置
き換えて連結する。例えば、特徴点ベクトルa1は、最
も近い代表特徴点ベクトルa101に置き換えられ、特
徴点ベクトルa2は、最も近い代表特徴点ベクトルa1
01に置き換えられ、・・・特徴点ベクトルa8は、最
も近い代表特徴点ベクトルa102に置き換えられ、・
・・・特徴点ベクトルa30は、最も近い代表特徴点ベ
クトルa104に置き換えられる。これにより、各代表
特徴点ベクトルa101〜a104が時系列順に連結さ
れることになる。
クトル量子化したベクトル時系列A101が得られる。
徴点時系列線L1を図5に示す。
を正規化する。キーボード28にモード切換え信号が与
えられると、これに基づき、RAM27に記憶された代
表特徴点時系列線データに基づいて、正規化後特徴点時
系列線データを演算する。
理由による。まず、同じ音韻(定常部)例えば、”オ”
であっても、周波数のずれにより、ベクトル空間内の”
オ”という特徴点の分布バラツキができ、そのバラツキ
の中心点も変動するからである。
とえば”オ”と”ム”の間)区間と対応するベクトル空
間内の特徴点は、遷移区間の時間軸のサンプリングの時
点の違いにより、その位置が異なる。したがって、それ
らの変動は空間曲線の長さに影響を与える。すなわち、
同じ単語を表わす特徴点時系列線データであっても、ベ
クトル空間においてはその長さ、形状が異なるからであ
る。
線データの演算の概略はつぎのようである。まず、代表
特徴点時系列線データの軌跡の長さを求め、これを(N
−1)等分割する。この分割点に基づき新たな軌跡を求
め、求めた軌跡に沿って再サンプリングしたN点の特徴
点を正規化後特徴点として用いる。
ル空間における近似的連続曲線の正規化の方法に具体的
に説明する。
間点との関係を図6を用いて説明する。図に示すよう
に、入力特徴点a(i-1)、a(i)、a(i+1)があった場
合、補間点xは、以下の(6)式で表わされる。
ように定義される。
跡Xに沿って再サンプリングしたN点の特徴点を正規化
後特徴点として用いる。
後特徴点を、 B=b(0)b(1)・・・b(n)・・・b(N-1) ・・・・(8) {b(n)=(bn1,bn2,...,bnp,...,bnP)} で表わした場合、正規化後特徴点は以下の(9)〜(1
2)式によって求められる。なお、b(0)=a(0)であり b
(N-1)=a(I-1)とする。
(i)、L(A)、N−1、△L、B、D(A)、D(B)、S(n)
については、以下を表わすものとする。
・・・,aiP)} d(i):近隣両特徴点間の距離;
までの軌跡長; D(B)=n・△L S(n):再サンプリング時点b(n)の局所軌跡長であり、
具体的には、図8に示すように、隣接する入力特徴点か
らの軌跡長である。
・・)}とは、”k””が(・・・)内の条件を満たす
時の番号を、iとしてとるということを意味する。
る。図9ステップST11においては、まず初期化がな
される。
15にて、S(n)を求める。ステップST12において
は、D(A)(ここではD(A)=0)に、つぎの入力特徴点
までの距離d(i+1)を加える。ステップST13では、
D(A)>D(B)かを判断する。すなわち、つぎの入力特徴
点までの距離d(i+1)がΔLよりも大きいか否かを判断
する。
に進み、D(A)=D(A)−d(i+1)とする。そして、S(n)
=D(B)−D(A)(ステップST15)とする。これによ
り、入力特徴点a(i)からの軌跡長S(n)を得ることがで
きる。
(B)が成立しなければ、ステップST16に進み、i=i+
1とし、さらにつぎの入力特徴点までの距離をD(A)に加
える(ステップST17)。ステップST12に戻り、
ステップST13〜ステップST17までを繰り返す。
サンプリングする補間点b(n)を求める。既に説明した入
力特徴点と補間点との関係に基づき、補間点b(n)を求め
る(ステップST18)。ステップST19にて、n=
N−2に達した場合には、終了する。ステップST19
にて、n=N−2に達していない場合には、ステップS
T20に進み、n=n+1、D(B)=n・△Lとして、ステ
ップST12以下を繰り返すことにより、軌跡長S(n+
1)を求める。
列線SL1を図6に示す。図において、特徴点a101
〜a104が入力特徴点であり、特徴点b101〜b11
0が求めた補間点である。
号波形の特徴ベクトルを正規化するのに、ファジィC―
ミーンズ法を用いたので、従来のDPマッチング法に比
べて、高速演算が可能である。なぜなら、DPマッチン
グ法のように時間軸平面上にて1つ1つ比較する必要が
なく、演算量を少なくすることができるからである。標
準パターン作成モードでは、このような正規化を行なっ
た後、図4ステップST4に進み、ファジィ標準パター
ンを作成する。具体的には、フレーム毎に、ベクトル空
間ごとに、特徴ベクトルの特徴量成分値を求め、図10
Aに示すような話者iが単語W1をJ回発生した正規化
後特徴ベクトルの特徴量成分値を、フレーム毎、ベクト
ル空間ごとにあらわした表を作成する。
ットでA/D変換した音声を1フレーム25.6ms、
フレーム周期15msでFFTケプストラム分析を行
い、1〜10次までのケプストラム係数を、単語音声認
識のための特徴パラメータとして用い、さらに全ての単
語音声を22フレームになるよう正規化を行なった(す
なわち、P=10,L=22である)。
ごとに複数人分作成し、図11に示すようにフレーム
毎、ベクトル空間ごとに、特徴ベクトルの特徴量成分値
をファジィ数化する。本実施例においては、図12に示
す方法にてファジィ数化した。例えば、異なるI人の話
者が、単語Wnに対してJ回発声し時間軸正規化によっ
て得られたI×J個の特徴ベクトルFn ijは、 Fn ij=(fn ij(L))(i=1,・・・,I; j=1,・・・,J; L=1,・・・,
L) で表される。ここで、fn ij(L)は、以下の式で表され
る。
された単語Wnのフレーム数であり、p:ベクトルの次
元番号を示し、特徴ベクトルの次元数であり、i:話者
の番号、j:発声回数の番号、I:話者の人数、J:発
声回数である。
を求める。平均特徴パターンafnは、以下の式で表され
る。
・,P; L=1,・・・,L)
元成分(ケプストラム値)の平均値、fn p,min(L):第L
フレーム目のp次元成分の最小値、fn p,max(L):第Lフ
レーム目のp次元成分の最大値である。
異なるI人の話者が、単語Wnに対してJ回発声して得
られた特徴ベクトルの特徴量成分値について、フレーム
毎、ベクトル空間ごとに平均値afn p(L)を求める。ま
た、フレーム毎、ベクトル空間ごとの値のうち最小値を
fn p,minとし、最大値をfn p,maxとする。そして、前記
平均値afn p(L)をファジィ数を表す三角形の頂点座標と
し、最小値fn p,minおよび最大値fn p,maxを三角形の底
辺の座標とする。
-fn p,min(L), fn p,max(L)-ffn p(L))であり、ffn p(L)
は、左右のあいまさをそれぞれffn p(L)ーfn p,min(L), f
n p,ma x(L)-ffn p(L)になる正規三角ファジィ数である
(図12参照)。
数ffn p(L)が得られる。このような各次元毎、各フレー
ム毎のファジィ数で表される標準パターンを、ファジィ
標準パターンという。
知」のファジイ標準パターン(いずれも第1次元の第
9、14フレーム目のファジィ化特徴ベクトルと第2次
元の第3、11フレーム目のファジィ化特徴ベクトルを
例として表示している)を示している。
語W1、W2として、各々のファジィ標準パターンを作成
する場合を例として具体的に説明する。
(I=5)が5回(J=5)発声して時間軸正規化(L
=22)によって得られた25個の特徴ベクトル(I×
J)から求められた第1、2次元成分の特徴量成分値を
時系列順に配置すると図14A,Bに示すようになる。
1次元成分については、第9フレーム目の特徴量成分値
は、ファジィ数ff1 1(9)=(af1 1(9), f1 1,min(9),
f1 1,max(9))で表されるので、ファジィ数ff1 1(9)は、f f1 1(9)=(0.07, -2.49, 2,71) で表される。また、第14フレーム目の特徴量成分値
は、ファジィ数ff1 1(14)=(af1 1(14), f1 1,min(14),
f1 1,max(14))であるので、ファジィ数ff1 1(14)は、f f1 1(14)=(4.51, 0.52, 7.04) で表される。
1「東京」の第2次元成分については、第3フレーム目
の特徴量成分値はファジィ数ff1 2(3)=(af1 2(3), f1
2,min(3), f1 2,max(3))=(0.50, -1.95, 2.82)で、第1
1フレーム目の特徴量成分値はファジィ数ff1 2(11)=(
af1 2(11), f1 2,min(11), f1 2,max(11))=(-3.23, -5.4
8, -1.19)で表される。
た単語W2「愛知」に関する第1、2次元成分の特徴量
成分値の時系列の例である。単語「愛知」の各次元成分
についても同様に、表される。
毎、各フレームごとの特徴量成分値をファジィ数で表し
たファジィ標準パターンを作成する(図11参照)。
W1〜WNについて作成し、図13に示すようなファジィ
標準パターン群が得られる。図13においては、各テン
プレートについては、単語W1〜WNについて、各次元
毎のファジィ数が各々正規化したフレームの数だけ存在
する。
Lフレームにおけるファジィ特徴量成分値を意味し、ベ
クトルで表される。なお、ffn(L)は、f fn(L)=(ffn,1(L),ffn,2(L),・・・,ffn,
p(L),・・・ffn,P(L)) (n=1,2,・・・n・
・・N) で表される。
ルffn(L)のP番目の要素であり、ファジィ数である(図
12参照)。また、afp(L)とは、単語集合全体につい
て第Lフレーム目のファジィ特徴ベクトルの平均であ
り、以下の式(11)で表される。
fp(L),・・・afP(L)) このようにして、登録する単語の音声信号に対応するフ
ァジィ標準パターンを単語の数だけ作成し、RAM27
に記憶する(図4ステップST5)。
タと予め記憶したファジィ標準パターンとを比較する比
較モードについて概略を説明する。未知信号波形が入力
される(図4ステップST1)と、ステップST2〜ス
テップST3により、正規化を行ない、図10Bに示す
ようなフレーム毎、次元毎の特徴量成分値(以下、未知
信号波形特徴量成分値という)を求める。ここで、キー
ボード28から与えられたモード切換え信号が比較モー
ドであると、CPU23は、ステップST6に進み、未
知信号波形特徴量成分値と全ての登録単語のファジィ標
準パターンとのファジィ関係の求める。
5にて記憶したファジィ標準パターンと入力未知信号波
形との類似度を判断する(ステップST8)。つぎに、
ステップST9にて、累積類似度を判断し、入力された
未知信号波形は、最大類似度を有するファジィ標準パタ
ーンに対応する信号波形であると判断する(ステップS
T10)。
ず、前記未知信号波形の特徴ベクトルをfx p(L)(p=1,・・
・,10; L=1,・・・,22)で表す。そして、図13に示すファ
ジィ標準パターン群を参照して、未知信号波形データと
各単語Wnとのファジィ類似関係行列を作成する。
ついて、各次元毎、各フレームごとに、あらかじめ記憶
されているファジィ数との適合度(0〜1.0)を求め
る。これにより、図20に示すような、各次元毎、各フ
レームごとの適合度μL(P,Wn)(p=1...P, L=1・・・L, Wn=1
・・・N)を得ることができる。
18に示すようになる。図17Bは、未知入力音声信号
の特徴量成分値の第1次元成分の時系列データを示して
いる。図17Aと図17Cはそれぞれ、未知信号波形特
徴量成分値の第1次元成分の第9フレーム目、第14フ
レーム目の成分と2つのファジィ標準パターン(東京、
愛知2単語)との適合度μL(P,Wn)(p=1, L=9,14, WN=W1
=東京)を示している。図17Bより、例えば、未知入力
信号の第9フレーム目の特徴量成分値は、「−0.5
7」であり、この値は図17Aにおいては、ファジィ標
準パターン「東京」の第9フレーム目のファジィ数
ff1,1(9)との適合度μ9(1,W1)=0.78であることがわか
る。同様にして、標準パターン「愛知」の第9フレーム
目のファジィ数ff2,1(9)との適合度μ9(1, W2)=0であ
ることがわかる。また、同様にして、図17Cより、第
14フレーム目の特徴量成分値と標準パターン「東京」
「愛知」との適合度は、それぞれμ14(1,W1)=0.80, μ
14(1,W2)=0であることがわかる。
Cを用いて、同様にして、μ3(2,w1)=0.57, μ3(2,W2)=
0,μ11(2,W1)=0.37, μ11(2,W2)=0.16であることがわか
る。このようにして得られた適合度について、ファジィ
標準パターンごとに適合度の総計を求める。具体的に
は、各標準パターンごとに、フレーム毎、次元毎の適合
度を総計すればよい。例えば、図19において、単語W1
との累積類似度V1は、以下の式で表される。
・+μ1(P,1)+μ2(1,1)+μ2(2,1)+・・・+μL(P,1) このようにして、各標準パターンの累積類似度VNを求
め、最大累積類似度に対応する単語WNAを認識結果と
して出力する。
マルチテンプレート法と異なり、多くのテンプレートを
記憶する必要がなく、各単語に1のファジィ標準パター
ンを記憶しておけばよい。したがって、記憶領域を少な
くできるとともに、演算処理数も減少することができ
る。その際、標準パターンをファジィ数で記憶している
ので、各単語について1の標準パターンを記憶するだけ
で、精度の高い比較を行なうことができる。すなわら、
高精度かつ高速に信号波形を比較することができる。
では、各フレームおよび各ベクトル空間について、その
特徴量成分値の大小に関係なく類似度を評価している。
しかし、前記特徴量成分値が大きいフレームおよび各ベ
クトル空間における類似度を高く評価するように重みづ
けをおこなうことにより、より、的確に類似度を評価す
ることができる。なぜなら、前記特徴量成分値の大きな
フレームおよび各ベクトル空間に、信号波形の特徴がよ
り強く表れるからである。
求められる。ファジィ関係行列の各要素μL(p, WN)(L=
1, ・・・,L; p=1,・・・,P; N=1・・・N)の重み付けをWp(L)と
して
られる。上記(14)式より、af1(9)=(af1 1(9)+af2
1(9))/2である。ここで、af1 1(9)およびaf2 1(9)につ
いては、図16Aから、各々0.07,+5.06であるので、
代入すると、af1(9)=2.57となる。また、上記(13)
式より、W'1(9)=fX 1(9)/af1(9)で表されるので、W'
1(9)=-0.57/2.57=-0.22となる。得られたW'p(L)を前記
(12)式に示すように、正規化する。すなわち、W
1(9)は、 W1(9)=(-0.22)/(-0.22+W'2(9)+・・・+W'10(9)) で表される。
に得られた重みを、前記適合度に乗じた後(図20参
照)、上述のように累積類似度を求めればよい。
との重みづけを行なうことにより、より的確な類似判断
を行なうことができる。
は、入力信号波形を正規化するのに、ファジィC―ミー
ンズ法を用いたので、従来のDPマッチング法に比べ
て、高速演算が可能である。しかしこれに限られること
なく、入力信号波形の特徴ベクトルを正規化できるもの
であれば、どのような方法でもよく、例えば、当該部分
を従来のDPマッチング法等を用いてもよい。
号波形データとして音声信号を用いて説明したが、信号
の特徴量を抽出できる信号波形データであればどのよう
なものであってもよく、例えば、筆跡信号の照合等にも
応用することができる。
信号をキーボード28から入力するようにしたが、バス
ライン30を介して、他の機器(図示せず)から与える
ようにしてもよい。
回発声してファジィ標準パターンを作成したが、人数、
回数についてはこれに限られることなく、同一人でもよ
い。上記実施例では、図1に示す機能を実現する為に、
CPU23を用い、ソフトウェアによってこれを実現し
ている。しかし、その一部もしくは全てを、ロジック回
路等のハードウェアによって実現してもよい。
較装置またはその方法においては、入力された信号波形
データを複数フレームに分割し、各フレーム毎の周波数
成分をフレーム特徴量として抽出する。前記各フレーム
特徴量から所望の特徴量成分値を抽出し、抽出した特徴
量成分値に基づいて、抽出した複数の特徴量成分を各次
元の成分とする要素ベクトルを、多次元ベクトル空間に
配置する。各フレームの要素ベクトルを連結させた特徴
ベクトル時系列データを演算し、前記特徴ベクトル時系
列データを、時間軸にて正規化し、正規化後特徴ベクト
ル時系列データを演算し記憶する。
に基づき得られた複数の正規化後特徴ベクトル時系列デ
ータの各特徴量成分値をファジィ数化して得られたファ
ジィ標準パターンデータを記憶しておく。
データの各フレーム及び各次元の特徴量成分値につい
て、前記ファジィ標準パターンデータとのファジィ関係
を演算し、得られたファジィ関係に基づき、ファジィ標
準パターンデータと判定対象の正規化後特徴ベクトル時
系列データとの類似度を演算し、その類似度を出力す
る。このように、標準パターンデータは、正規化後特徴
ベクトル時系列データの各特徴量成分値をファジィ数化
されたものであるので、所属度を的確に判断することが
できる。また、前記登録データ毎のファジィ標準パター
ンデータに基づき、各フレームの各次元毎の特徴量成分
値の平均値を求め、当該平均値に対して前記特徴量成分
値が大きい度合いに応じてその重み値を各フレームおよ
び各ベクトル空間ごとに演算し、得られた重み値および
前記ファジィ関係に基づき、前記登録データと判定対象
の正規化後特徴ベクトル時系列データとの類似度を演算
する。したがって、当該平均値に対して前記特徴量成分
値が大きい度合いをもつフレームおよび各ベクトル空間
の類似度を高く評価することができる信号波形データ比
較装置またはその方法を提供することができる。
ては、前記類似度演算手段は、単語毎のファジィ標準パ
ターンデータに基づき、各フレームの各次元毎の特徴量
成分値の平均値を求め、当該平均値に対して前記特徴量
成分値が大きい度合いに応じてその重み値を各フレーム
および各ベクトル空間ごとに演算し、得られた重み値お
よび前記ファジィ関係に基づき、ファジィ標準パターン
データと判定対象の正規化後特徴ベクトル時系列データ
との類似度を演算する。したがって、当該平均値に対し
て前記特徴量成分値が大きい度合いをもつフレームおよ
び各ベクトル空間の類似度を高く評価することができ
る。
高精度に比較することができる信号波形データ比較装置
を提供することができる。
ては、ファジィ分類手段は、前記各特徴ベクトル時系列
データの各特徴量成分値をファジィ分類する。特徴点時
系列データ演算手段は、ファジィ分類された各特徴量成
分値に基づき、代表特徴点を演算するとともに、求めた
代表特徴点を時系列順に連結し、特徴点時系列データを
演算する。正規化後時系列データ演算手段は、前記特徴
点時系列データに基づいて、正規化後特徴ベクトル時系
列データを演算して出力する。これにより正規化をより
高速に演算することができる。
高速に比較することができる信号波形データ比較装置を
提供することができる。
能ブロック図である。
ハードウェアー構成を示す図である。
チャートである。
示す図である。
る。
点との関係を示す図である。
るN点の正規化後特徴点を説明する為の図である。
る。
値を示す図である。
Wnのファジィ標準パターンデータを示す図である。
する方法を説明する為の図である。
タ群を示す図である。
元ごとにフレーム順(時系列)に表した図である。
元ごとにフレーム順(時系列)に表した図である。
分のフレーム毎のファジィ数の例を示す図である。
いて、第一次元成分におけるファジィ標準パターンとの
ファジィ関係を示す図である。
いて、第二次元成分におけるファジィ標準パターンとの
ファジィ関係を示す図である。
る特徴量成分値について、ファジィ標準パターンとのフ
ァジィ関係を示す図である。
する為の図である。
ターンを説明する為の図である。
Claims (4)
- 【請求項1】信号波形データが入力される入力手段、 前記信号波形データを複数フレームに分割し、各フレー
ム毎の周波数成分をフレーム特徴量として抽出する特徴
量抽出手段、 前記各フレーム特徴量から所望の特徴量成分値を抽出
し、抽出した特徴量成分値に基づいて、抽出した複数の
特徴量成分を各次元の成分とする要素ベクトルを、多次
元ベクトル空間に配置するとともに、各フレームの要素
ベクトルを連結させた特徴ベクトル時系列データを演算
する時系列データ演算手段、 前記特徴ベクトル時系列データを、時間軸にて正規化
し、正規化後特徴ベクトル時系列データを演算する正規
化手段、 得られた正規化後特徴ベクトル時系列データを記憶する
正規化後時系列データ記憶手段、 複数の信号波形データに基づき得られた複数の正規化後
特徴ベクトル時系列データの各特徴量成分値をファジィ
数化して得られたファジィ標準パターンデータを登録デ
ータとして予め記憶しておくファジィ標準パターンデー
タ記憶手段、 前記正規化後時系列データ記憶手段に記憶された判定対
象の正規化後特徴ベクトル時系列データの各フレーム及
び各次元の特徴量成分値について、ファジィ標準パター
ン記憶手段に記憶されたファジィ標準パターンデータと
のファジィ関係を演算するファジィ関係演算手段、 演算したファジィ関係に基づき、ファジィ標準パターン
データと判定対象の正規化後特徴ベクトル時系列データ
との類似度を演算する類似度演算手段、 を備えた信号波形データ比較装置であって、 前記類似度演算手段は、1) 前記登録データ毎のファジィ標準パターンデータに基
づき、各フレームの各次元毎の特徴量成分値の平均値を
求め、当該平均値に対して前記特徴量成分値が大きい度
合いに応じてその重み値を各フレームおよび各ベクトル
空間ごとに演算し、 2) 得られた重み値および前記ファジィ関係に基づき、前
記登録データと判定対象の正規化後特徴ベクトル時系列
データとの類似度を演算すること、 を特徴とする信号波形データ比較装置。 - 【請求項2】請求項1の信号波形データ比較装置におい
て、 前記類似度演算手段は、 1)単語毎のファジィ標準パターンデータに基づき、各フ
レームの各次元毎の特徴量成分値の平均値を求め、当該
平均値に対して前記特徴量成分値が大きい度合いに応じ
てその重み値を各フレームおよび各ベクトル空間ごとに
演算し、 2)得られた重み値および前記ファジィ関係に基づき、フ
ァジィ標準パターンデータと判定対象の正規化後特徴ベ
クトル時系列データとの類似度を演算すること、 を特徴とする信号波形データ比較装置。 - 【請求項3】請求項1または請求項2の信号波形データ
比較装置において、 前記正規化手段は、 1)前記各特徴ベクトル時系列データの各特徴量成分値を
ファジィ分類するファジィ分類手段、 2)ファジィ分類された各特徴量成分値に基づき、代表特
徴点を演算するとともに、求めた代表特徴点を時系列順
に連結し、代表特徴点時系列データを演算する代表特徴
点時系列データ演算手段、 3)前記代表特徴点時系列データに基づいて、正規化後特
徴ベクトル時系列データを演算して出力する正規化後時
系列データ演算手段、を備えたことを特徴とする信号波
形データ比較装置。 - 【請求項4】入力された信号波形データを複数フレーム
に分割し、各フレーム毎の周波数成分をフレーム特徴量
として抽出し、 前記各フレーム特徴量から所望の特徴量成分値を抽出
し、 抽出した特徴量成分値に基づいて、抽出した複数の特徴
量成分を各次元の成分とする要素ベクトルを、多次元ベ
クトル空間に配置し、 各フレームの要素ベクトルを連結させた特徴ベクトル時
系列データを演算し、 前記特徴ベクトル時系列データを、時間軸にて正規化
し、正規化後特徴ベクトル時系列データを演算し、 得られた正規化後特徴ベクトル時系列データを記憶し、 複数の信号波形データに基づき得られた複数の正規化後
特徴ベクトル時系列データの各特徴量成分値をファジィ
数化して得られたファジィ標準パターンデータを登録デ
ータとして予め記憶しておき、 判定対象の正規化後特徴ベクトル時系列データの各フレ
ーム及び各次元の特徴量成分値について、前記ファジィ
標準パターンデータとのファジィ関係を演算し、 得られたファジィ関係に基づき、ファジィ標準パターン
データと判定対象の正規化後特徴ベクトル時系列データ
との類似度を演算し、その類似度を出力する信号波形デ
ータ比較方法であって、前記登録データ毎のファジィ標
準パターンデータに基づき、各フレームの各次元毎の特
徴量成分値の平均値を求め、当該平均値に対して前記特
徴量成分値が大きい度合いに応じてその重み値を各フレ
ームおよび各ベクトル空間ごとに演算し、得られた重み
値および前記ファジィ関係に基づき、前記登録データと
判定対象の正規化後特徴ベクトル時系列データとの類似
度を演算すること、 を特徴とする信号波形データ比較方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP29528993A JP3500616B2 (ja) | 1993-11-25 | 1993-11-25 | 信号波形データ比較装置およびその方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP29528993A JP3500616B2 (ja) | 1993-11-25 | 1993-11-25 | 信号波形データ比較装置およびその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07146938A JPH07146938A (ja) | 1995-06-06 |
JP3500616B2 true JP3500616B2 (ja) | 2004-02-23 |
Family
ID=17818680
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP29528993A Expired - Fee Related JP3500616B2 (ja) | 1993-11-25 | 1993-11-25 | 信号波形データ比較装置およびその方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3500616B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100440973B1 (ko) * | 2002-08-01 | 2004-07-21 | 삼성전자주식회사 | 신호간 상관계수 결정 장치 및 방법과 이를 이용한 신호피치 결정 장치 및 방법 |
JP4075670B2 (ja) | 2003-04-09 | 2008-04-16 | トヨタ自動車株式会社 | 変化情報認識装置および変化情報認識方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2899024B2 (ja) | 1989-10-25 | 1999-06-02 | 日本電信電話株式会社 | ベクトル量子化方法 |
-
1993
- 1993-11-25 JP JP29528993A patent/JP3500616B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2899024B2 (ja) | 1989-10-25 | 1999-06-02 | 日本電信電話株式会社 | ベクトル量子化方法 |
Non-Patent Citations (1)
Title |
---|
藤本潤一郎,ファジィ理論を用いた音声認識,情報処理,日本,1989年 8月15日,Vol.30, No.8,p.957−962 |
Also Published As
Publication number | Publication date |
---|---|
JPH07146938A (ja) | 1995-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2190631C (en) | Method of training neural networks used for speech recognition | |
US6108628A (en) | Speech recognition method and apparatus using coarse and fine output probabilities utilizing an unspecified speaker model | |
US5684925A (en) | Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity | |
US5638486A (en) | Method and system for continuous speech recognition using voting techniques | |
US5596679A (en) | Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs | |
US5621848A (en) | Method of partitioning a sequence of data frames | |
JPH02195400A (ja) | 音声認識装置 | |
EP0492470A2 (en) | Method of speech recognition | |
JP2815579B2 (ja) | 音声認識における単語候補削減装置 | |
US5734793A (en) | System for recognizing spoken sounds from continuous speech and method of using same | |
US4991216A (en) | Method for speech recognition | |
AU2362495A (en) | Speech-recognition system utilizing neural networks and method of using same | |
JP3500616B2 (ja) | 信号波形データ比較装置およびその方法 | |
US20030023434A1 (en) | Linear discriminant based sound class similarities with unit value normalization | |
US7231352B2 (en) | Method for computer-supported speech recognition, speech recognition system and control device for controlling a technical system and telecommunications device | |
JPH08123469A (ja) | 句境界確率計算装置および句境界確率利用連続音声認識装置 | |
JP3029803B2 (ja) | 音声認識のための単語モデル生成装置及び音声認識装置 | |
JP2853418B2 (ja) | 音声認識方法 | |
JP2983364B2 (ja) | 隠れマルコフモデルと音声信号との類似度計算方法 | |
JPH0713597A (ja) | 信号波形データ正規化装置またはその方法および信号波形データ比較装置またはその方法 | |
JP3254933B2 (ja) | 音声認識方法 | |
JPH07113838B2 (ja) | 音声認識方法 | |
JP3871774B2 (ja) | 音声認識装置および音声認識方法ならびに音声認識プログラムを記録した記録媒体 | |
JP3062306B2 (ja) | 音声コードブック作成方法 | |
JP3083855B2 (ja) | 音声認識方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081212 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091212 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101212 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101212 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111212 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111212 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121212 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |