JPH0713597A - 信号波形データ正規化装置またはその方法および信号波形データ比較装置またはその方法 - Google Patents

信号波形データ正規化装置またはその方法および信号波形データ比較装置またはその方法

Info

Publication number
JPH0713597A
JPH0713597A JP5155541A JP15554193A JPH0713597A JP H0713597 A JPH0713597 A JP H0713597A JP 5155541 A JP5155541 A JP 5155541A JP 15554193 A JP15554193 A JP 15554193A JP H0713597 A JPH0713597 A JP H0713597A
Authority
JP
Japan
Prior art keywords
time series
series line
line data
feature point
normalized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5155541A
Other languages
English (en)
Inventor
Atou Go
呉亜棟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP5155541A priority Critical patent/JPH0713597A/ja
Publication of JPH0713597A publication Critical patent/JPH0713597A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 2つの信号波形データを高速かつ高精度に比
較する。 【構成】 特徴点演算手段7が、多次元ベクトル空間に
配置した特徴点を特徴点時系列線演算手段9が特徴点時
系列線データを求める。モード切換え手段からの比較モ
ード信号を受けると、正規化後時系列線演算手段11
は、照合度演算手段19に正規化後特徴点時系列線デー
タを出力する。照合度演算手段19は、この正規化後特
徴点時系列線データと不特定人標準時系列線取得手段に
予め記憶されている不特定人の標準時系列線データとを
比較し、その照合度を出力する。特徴点時系列線データ
を正規化して、2つの信号波形データを比較することに
より、高速かつ高精度に両者を比較することができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、信号波形データ正規
化装置または信号波形データ比較装置に関し、特に、高
速かつ高精度の正規化に関する。
【0002】
【従来技術】2つの音声信号を比較する場合に問題とな
るのが、発声された単語の継続時間が変化することであ
る。ここで、発声速度が速くなるにしたがって母音の定
常部分は短くなるが、子音やこれらのわたりの部分は比
較的固有の長さを有する。したがって、2つの音声信号
を比較するには、継続時間の違いによって生ずる本質的
でない差を極力除去して比較することが望ましい。
【0003】このため、音声認識等の分野においては、
非線形マッチングの一種であるDP(dynamic programm
ing)マッチング法が広く用いられている。DPマッチ
ング法について図11、図12を用いて説明する。
【0004】例えば、図11Aに示すように標準パター
ンの音声信号A(t)より、継続時間が長い音声信号B
(t)が入力された場合、この音声信号B(t)の時間
軸を非線形に圧縮して図11Bに示すように音声信号B
2(t)に変換する。
【0005】演算方法としては、2つの音声信号を特徴
ベクトルの時系列として表わす。例えば、図12に示す
ように、標準パターンAと入力パターンBとからなる時
間軸平面上にて、2つのパターンの時間軸の最適な対応
を求めることにより、時間軸の正規化を行なう。
【0006】このように非線形マッチングをおこなうこ
とにより、2つの音声信号を精度よく比較することがで
きる。
【0007】
【発明が解決しようとする課題】しかしながら、DPマ
ッチング法においては、次のような問題があった。図1
2に示すように、時間軸平面上にて1つ1つ比較してい
るので、演算量がきわめて多く、比較するのに時間がか
かる。
【0008】この発明は上記のような問題を解決し、高
精度かつ高速に処理可能な信号波形比較装置又はその方
法を提供することを目的とする。
【0009】
【課題を解決するための手段】請求項1の信号波形デー
タ正規化装置は、信号波形データが入力される入力手
段、前記信号波形データを複数フレームに分割し、各フ
レーム毎の周波数成分をフレーム特徴量として抽出する
特徴量抽出手段、前記各フレーム特徴量を、多次元ベク
トル空間に配置した特徴点を求める特徴点演算手段、前
記各特徴点をファジィ分類して、代表特徴点を求めると
ともに、求めた代表特徴点を時系列順に連結し、特徴点
時系列線データを求める特徴点時系列線演算手段、前記
特徴点時系列線データに基づいて、正規化後特徴点時系
列線データを演算して出力する正規化後時系列線演算手
段、を備えたことを特徴とする。
【0010】請求項2の信号波形データ正規化方法は、
入力された信号波形データを複数フレームに分割して、
各フレーム毎の周波数成分をフレーム特徴量として抽出
し、前記各フレーム特徴量を、多次元ベクトル空間に配
置した特徴点を求め、前記各特徴点をファジィ分類し
て、代表特徴点を求めるとともに、求めた代表特徴点を
時系列順に連結し、特徴点時系列線データを求め、前記
特徴点時系列線データに基づいて、正規化後特徴点時系
列線データを演算して出力すること、を特徴とする。
【0011】請求項3の信号波形データ比較装置は、信
号波形データが入力される入力手段、前記信号波形デー
タを複数フレームに分割し、各フレーム毎の周波数成分
をフレーム特徴量として抽出する特徴量抽出手段、前記
各フレーム特徴量を、多次元ベクトル空間に配置した特
徴点を求める特徴点演算手段、前記各特徴点をファジィ
分類して、代表特徴点を求めるとともに、求めた代表特
徴点を時系列順に連結し、特徴点時系列線データを求め
る特徴点時系列線演算手段、前記特徴点時系列線データ
に基づいて、正規化後特徴点時系列線データを演算して
出力する正規化後時系列線演算手段、前記正規化後時系
列線データを記憶する正規化後時系列線記憶手段、前記
正規化後時系列線記憶手段に記憶された同一単語に対す
る同一人による複数の正規化後時系列線データに基づ
き、特定人の正規化後標準時系列線である特定人標準時
系列線データを求め記憶する特定人標準時系列線取得手
段、前記特定人標準時系列線取得手段に記憶された複数
人の特定人標準時系列線データに基づき不特定人の標準
時系列線データを求め、記憶する不特定人標準時系列線
取得手段、前記正規化後時系列線演算手段にモード切換
え信号を出力するモード切換え手段、正規化後時系列線
演算手段から得た正規化後特徴点時系列線データと不特
定人標準時系列線取得手段に記憶された不特定人の標準
時系列線データと比較し、その照合度を出力する照合度
演算手段、を備え、前記正規化後時系列線演算手段は、 A)前記モード切換え信号が記憶モードを示す記憶モー
ド信号である場合には、前記正規化後時系列線記憶手段
に正規化後特徴点時系列線データを出力し、 B)前記モード切換え信号が比較モードを示す比較モー
ド信号である場合には、前記照合度演算手段に正規化後
特徴点時系列線データを出力すること、を特徴とする。
【0012】請求項4の信号波形データ比較方法は、入
力された信号波形データを複数フレームに分割して、各
フレーム毎の周波数成分をフレーム特徴量として抽出
し、前記各フレーム特徴量を、多次元ベクトル空間に配
置した特徴点を求め、前記各特徴点をファジィ分類し
て、代表特徴点を求めるとともに、求めた代表特徴点を
時系列順に連結し、特徴点時系列線データを求め、前記
特徴点時系列線データに基づいて、正規化後特徴点時系
列線データを演算し、 A)与えられたモード切換え信号が記憶モードを示す記
憶モード信号である場合には、 A1)演算された正規化後特徴点時系列線データを記憶
し、 A2)記憶された同一単語に対する同一人による複数の
正規化後時系列線データに基づき、特定人の正規化後標
準時系列線である特定人標準時系列線データを求め、 A3)複数人の特定人標準時系列線データに基づき不特
定人の標準時系列線データを求め、記憶し、 B)与えられたモード切換え信号が比較モードを示す比
較モード信号である場合には、 B1)演算された正規化後特徴点時系列線データと前記
不特定人の標準時系列線データと比較し、その照合度を
出力すること、を特徴とする。
【0013】
【作用】請求項1または請求項2の信号波形データ正規
化装置または方法においては、前記各フレーム特徴量
を、多次元ベクトル空間に配置した特徴点を求め、前記
各特徴点をファジィ分類して、代表特徴点を求める。さ
らに、求めた代表特徴点を時系列順に連結し、特徴点時
系列線データを求めるとともに、前記特徴点時系列線デ
ータに基づいて、正規化後特徴点時系列線データを演算
して出力する。これにより、正規化後の特徴点時系列線
データを容易に得ることができる。
【0014】請求項3の信号波形データ比較装置におい
ては、特徴点演算手段が、多次元ベクトル空間に配置し
た特徴点を求めると、これに基づき、特徴点時系列線演
算手段が特徴点時系列線データを求める。
【0015】モード切換え手段からのモード切換え信号
に応じて、正規化後時系列線演算手段は、以下の動作を
行なう。
【0016】A)前記モード切換え信号が記憶モードを
示す記憶モード信号である場合には、前記正規化後時系
列線記憶手段に正規化後特徴点時系列線データを出力
し、正規化後時系列線記憶手段に前記正規化後時系列線
データを記憶する。特定人標準時系列線取得手段は、同
一単語に対する同一人による複数の正規化後時系列線デ
ータに基づき、特定人の正規化後標準時系列線である特
定人標準時系列線データを求め記憶する。さらに、不特
定人標準時系列線取得手段は、前記特定人標準時系列線
取得手段に記憶された複数人の特定人標準時系列線デー
タに基づき不特定人の標準時系列線データを求め、記憶
する。
【0017】一方、B)前記モード切換え信号が比較モ
ードを示す比較モード信号である場合には、前記照合度
演算手段に正規化後特徴点時系列線データを出力する。
照合度演算手段は、この正規化後特徴点時系列線データ
と不特定人標準時系列線取得手段に記憶された不特定人
の標準時系列線データとを比較し、その照合度を出力す
る。
【0018】このように、特徴点時系列線データを正規
化して正規化後特徴点時系列線データとして、2つの信
号波形データを比較することにより、高速かつ高精度に
両者を比較することができる。
【0019】請求項4の信号波形データ比較方法におい
ては、前記各フレーム特徴量を、多次元ベクトル空間に
配置した特徴点を求め、前記各特徴点をファジィ分類し
て、代表特徴点を求める。さらに、求めた代表特徴点を
時系列順に連結し、特徴点時系列線データを求めるとと
もに、前記特徴点時系列線データに基づいて、正規化後
特徴点時系列線データを演算する。
【0020】与えられたモード切換え信号が記憶モード
を示す記憶モード信号である場合には、同一単語に対す
る同一人による複数の正規化後時系列線データに基づ
き、特定人の正規化後標準時系列線である特定人標準時
系列線データを求める。さらに、複数人の特定人標準時
系列線データに基づき不特定人の標準時系列線データを
求める。
【0021】一方、与えられたモード切換え信号が比較
モードを示す比較モード信号である場合には、演算され
た正規化後特徴点時系列線データと前記不特定人の標準
時系列線データと比較し、その照合度を出力する。
【0022】このように、特徴点時系列線データを正規
化して正規化後特徴点時系列線データとして、2つの信
号波形データを比較することにより、高速かつ高精度に
両者を比較することができる。
【0023】
【実施例】本発明の一実施例を図面に基づいて説明す
る。図2に、本発明にかかる信号波形データ比較装置を
CPUを用いて実現したハードウェア構成の一例を示
す。信号波形データ比較装置21は、CPU23、RO
M25、RAM27、音声A/D変換IF26、キーボ
ード28、CRT29、およびバスライン30を備えて
いる。
【0024】ROM25には、CPU23の制御プログ
ラム等が記憶されており、CPU23は、この制御プロ
グラムに従いバスライン30を介して、各部を制御す
る。キーボード28は、モード切換え信号を入力するモ
ード切換え手段である。音声A/D変換IF26は信号
波形データを入力する入力手段である。
【0025】図1に、信号波形データ比較装置21の機
能ブロック図を示す。信号波形データ比較装置21は、
不特定人の標準時系列線データを作成するモード(以下
記憶モードという)および不特定人の標準時系列線デー
タと入力された信号波形データに基づき得られた正規化
後特徴点時系列線データとを比較するモード(比較モー
ドという)を有する。
【0026】まず、信号波形データ比較装置21の記憶
モードの動作につき、図1を用いて説明する。
【0027】入力手段3に信号波形データが入力される
と、特徴量抽出手段5は、前記信号波形データを時系列
順に複数フレームに分割し、各フレーム毎の周波数成分
をフレーム特徴量として抽出する。本実施例において
は、1フレームを20msとし、フレームごとにスペク
トルの包絡情報を求めるケプストラム分析を用いて、フ
レーム特徴量を演算した。
【0028】特徴点演算手段7は、前記各フレーム特徴
量を、多次元ベクトル空間に配置した特徴点を求める。
本実施例においては、多次元ベクトル空間として10次
元ベクトル空間を採用した。10次元ベクトル空間に配
置した状態を図3に示す。この場合、入力された信号波
形データが30フレームあったので、特徴点a1〜a3
0が配置された。なお、これらの特徴点a1〜a30は
ベクトルとして表わされる。
【0029】以上のことを一般式で表わすと次の様にな
る。入力信号波形を表わす特徴ベクトルの時系列Aは、 A=a(o)a(1)...a(i)...a(I-1) ・・・・・(1) {a(i)=(ai1,ai2,...,aip,...,aiP)} として表現される。ここで、Iは入力時間長で、Pはベ
クトルの次元数である。この特徴ベクトルa(i)は、P次
元空間での一つの特徴点として見ることができるので、
この特徴点の時系列を追跡することにより、P次元空間
での近似的な連続曲線(折れ線)が得られる。
【0030】しかしながら、特徴点の揺らぎがあるの
で、前記特徴点a1〜a30をそのまま時系列で追跡し
た近似的な連続曲線を求めただけでは、他の連続曲線と
比較が困難である。
【0031】そこで、特徴点時系列線演算手段9が、前
記各特徴点をファジィ分類して、代表特徴点を求めると
ともに、求めた代表特徴点を時系列順に連結し、特徴点
時系列線データを求める。特徴点時系列線演算手段9の
構成について、図4を用いて説明する。特徴点時系列線
演算手段9は、ファジィクラスタリング手段33、代表
点記憶手段35、および時系列線演算手段37を備えて
いる。
【0032】ファジィクラスタリング手段33には、前
記特徴点a1〜a30のベクトル時系列A1が入力され
る。ベクトル時系列A1は、 A1=a1,a2,...a30 で表わされる。
【0033】ファジィクラスタリング手段33は、入力
された入力ベクトル時系列A1の各特徴点ベクトルa1
〜a30をファジィ分類し、代表点ベクトル(図3、a
101〜a104参照)を求める。本実施例において
は、既知理論であるファジィC―ミーンズ法(Fuzzy C-
means)を採用した。
【0034】ファジィC―ミーンズ法の具体的なアルゴ
リズムは以下のようになる。まず、各個体Ai(Ai:ベク
トル;i=1,2,...N)が各クラスタg(g=1,2,...,G)に属
する度合(0から1の値)を次の行列(menbership matr
ix)で表わす。
【0035】
【数1】
【0036】ここで、u(g,i)=[0,1]は、u(g,i)は0か
ら1の間の値をとることを示している。
【0037】つぎに、クラスタ数をGに定め、Uの初期
分割行列U(0)と適当な収束判定値εを与える。つぎ
に、式(3)により初期クラスタg(g=1,2,...,G)の平均
ベクトルVgを求める。
【0038】
【数2】
【0039】つぎに、式(4)によってU(0)をU(1)
更新する。
【0040】
【数3】
【0041】これを演算子Tを使って、U(1)をT
(1)(U(0))と表わし、これを反復する。すなわち、 U(k+1)=T(k+1)(U(k)) (k=0,1,2,...) ・・・(5) とする。
【0042】上記反復は、|U(k+1)−U(k)|≦εとな
ったとき計算を終了する。もし、|U(k+1)−U(k)|≦
εとならない場合は、上記計算を繰り返す。
【0043】代表点記憶手段35は、このようにして得
られた代表点ベクトルを記憶する。なお、この状態で
は、求められた代表点ベクトルには、時系列概念が取払
われている。そこで、時系列線演算手段37は、代表点
記憶手段35に記憶された代表点ベクトルを時系列順に
連結し、特徴点時系列線データを求める。
【0044】各代表点ベクトルを時系列順に連結するに
は、各代表点ベクトルと各特徴点ベクトルa1〜a30
を時系列順に、最も近い代表点ベクトルに置き換えて連
結すればよい。例えば、特徴点ベクトルa1は、最も近
い代表点ベクトルa101に置き換えられ、特徴点ベク
トルa2は、最も近い代表点ベクトルa101に置き換
えられ、・・・特徴点ベクトルa8は、最も近い代表点
ベクトルa102に置き換えられ、・・・・特徴点ベク
トルa30は、最も近い代表点ベクトルa104に置き
換えられる。これにより、各代表点ベクトルa101〜
a104が時系列順に連結されることになる。
【0045】このようにして、ベクトル時系列A1をベ
クトル量子化したベクトル時系列A101が得られる。
【0046】なお、ベクトル時系列A101は、 A101=a101,a102,a103,a104 で表わされる。ベクトル時系列A101を表わす特徴点
時系列線L1を図3に示す。
【0047】求めた特徴点時系列線は、正規化後時系列
線演算手段11で、正規化される。このモード切換え信
号に基づき、特徴点時系列線演算手段9が求めた特徴点
時系列線データに基づいて、正規化後特徴点時系列線デ
ータを演算する。
【0048】このような正規化を行なうのは次のような
理由による。まず、同じ音韻(定常部)例えば、”オ”
であっても、周波数のずれにより、ベクトル空間内の”
オ”という特徴点の分布バラツキができ、そのバラツキ
の中心点も変動するからである。
【0049】また、異なる音韻間の遷移(非定常部:た
とえば”オ”と”ム”の間)区間と対応するベクトル空
間内の特徴点は、遷移区間の時間軸のサンプリングの時
点の違いにより、その位置が異なる。したがって、それ
らの変動は空間曲線の長さに影響を与える。すなわち、
同じ単語を表わす特徴点時系列線データであっても、ベ
クトル空間においてはその長さ、形状が異なるからであ
る。
【0050】正規化後特徴点時系列線データの演算につ
いては、次の様に行なわれる。特徴点時系列線データの
軌跡の長さを求め、これを(N−1)等分割する。この
分割点に基づき新たな軌跡を求め、求めた軌跡に沿って
再サンプリングしたN点の特徴点を正規化された特徴点
として用いる。
【0051】つぎに、図7〜図9を用いてP次元ベクト
ル空間における近似的連続曲線の正規化の方法に具体的
に説明する。
【0052】まず、P次元空間における入力特徴点と補
間点との関係を図7を用いて説明する。図に示すよう
に、入力特徴点a(i-1)、a(i)、a(i+1)があった場
合、補間点xは、以下の(6)式で表わされる。
【0053】 x=a(i)+(a(i+1)-a(i))・t; (0≦t≦1; i=0,...,I-2) ・・・(6) また、Aの軌跡の長さをL(A)で表わすと、式(3)の
ように定義される。
【0054】
【数4】
【0055】なお、
【0056】
【数5】
【0057】である。
【0058】つぎに、軌跡長L(A)をN−1等分割し軌
跡Xに沿って再サンプリングしたN点の特徴点を正規化
された特徴点として用いる。
【0059】ここで、再サンプリングするN点の正規化
特徴点を、 B=b(0)b(1)...b(n)...b(N-1) ・・・・(8) {b(n)=(bn1,bn2,...,bnp,...,bnP)} で表わした場合、正規化特徴点は以下の(9)〜(1
2)式によって求められる。なお、b(0)=a(0)であり b
(N-1)=a(I-1)とする。
【0060】但し、I、P、i、n、A、d(i)、L
(A)、N−1、△L、B、D(A)、D(B)、S(n)について
は、以下を表わすものとする(図8参照)。
【0061】I:入力時間長 P:ベクトル次元数 i:軌跡上の入力特徴点の番号; i=0,...,I-1 n:軌跡上の正規化特徴点の番号; n=0,...,N-1 A:入力音声特徴ベクトルの時系列; A=a(0)a(1)...a(i) ...a(I) {a(i)=ai1,ai2,...,ai
p,...,aiP)} d(i):近隣両特徴点間の距離;
【0062】
【数6】
【0063】L(A):Aの軌跡長;
【0064】
【数7】
【0065】N−1:軌跡上の等分割数 ΔL:軌跡上の等分割の線分長 B:正規化される特徴ベクトルの時系列; B=b(0)b(1)...b(n)...b(N-1) {b(n)=(bn1,bn2,...,bnp,...,bnP)} D(A):軌跡に沿ってある特徴点a(i)までの軌跡長;
【0066】
【数8】
【0067】D(B):軌跡に沿ってある正規特徴点b(n)
までの軌跡長; D(B)=n・△L S(n):再サンプリング時点b(n)の局所軌跡長であり、
具体的には、図8に示すように、隣接する入力特徴点か
らの軌跡長である。
【0068】 △L=L(A)/(N−1) ・・・(9)
【0069】
【数9】
【0070】なお、ここで、i=numbe{k|(・
・・)}とは、”k””が(・・・)内の条件を満たす
時の番号を、iとしてとるということを意味する。
【0071】 t(n)=S(n)/d(i+1); (0≦t(n)≦1) ・・・(11) b(n)=a(i)+(a(i+1)-a(i))・t(n) ・・・(12) この演算アルゴリズムについて、図9を用いて説明す
る。図9ステップST1においては、まず初期化がなさ
れる。
【0072】つぎに、ステップST2〜ステップST5
にて、S(n)を求める。ステップST2においては、D
(A)(ここではD(A)=0)に、つぎの入力特徴点までの
距離d(i+1)を加える。ステップST3では、D(A)>D
(B)かを判断する。すなわち、つぎの入力特徴点までの
距離d(i+1)がΔLよりも大きいか否かを判断する。
【0073】条件を満足していれば、ステップST4に
進み、D(A)=D(A)−d(i+1)とする。そして、S(n)=
D(B)−D(A)(ステップST5)とする。これにより、
入力特徴点a(i)からの軌跡長S(n)を得ることができ
る。
【0074】なお、ステップST3にて、D(A)>D(B)
が成立しなければ、ステップST6に進み、i=i+1と
し、さらにつぎの入力特徴点までの距離をD(A)に加え
る(ステップST7)。ステップST2に戻り、ステッ
プST3〜ステップST7までを繰り返す。
【0075】つぎに、求めた軌跡長S(n)に基づき、再
サンプリングする補間点b(n)を求める。既に説明した入
力特徴点と補間点との関係に基づき、補間点b(n)を求め
る(ステップST8)。ステップST9にて、n=N−
2に達した場合には、終了する。ステップST9にて、
n=N−2に達していない場合には、ステップST10
に進み、n=n+1、D(B)=n・△Lとして、ステップS
T2以下を繰り返すことにより、軌跡長S(n+1)を求め
る。
【0076】このようにして、求めた正規化後特徴点時
系列線SL1を図5に示す。図において、特徴点a10
1〜a104が入力特徴点であり、特徴点b101〜b1
10が求めた補間点である。
【0077】図1に戻って、モード切換え手段18は、
記憶モードの場合は、正規化後時系列線演算手段11に
記憶モードを示すモード切換え信号を出力する。正規化
後時系列線演算手段11は、このモード切換え信号を受
けて、求めた正規化後特徴点時系列線データを正規化後
時系列線記憶手段13に出力し、正規化後時系列線記憶
手段13は、この正規化後時系列線データを記憶する。
【0078】特定人標準時系列線取得手段15は、正規
化後時系列線記憶手段13に記憶された同一単語に対す
る同一人による複数の正規化後時系列線データに基づ
き、特定人の正規化後標準時系列線である特定人標準時
系列線データを求め記憶する。本実施例においては、以
下の様にして、特定人標準時系列線データの演算を行な
った。まず、第1の話者が単語wを5回発声した信号波
形データについて、各々正規化後時系列線データを求め
る。すなわち、5個の正規化後時系列線データが得られ
る。得られた5個の正規化後時系列線データをファジィ
C―ミーンズ法を用いて、ファジィクラスタリングを行
ない、第1の話者の単語wに対する特定人標準時系列線
データである第1の話者の単語wに対する標準パターン
データを求める。このようなファジィクラスクリングを
第1段階のファジィクラスタリングという。
【0079】不特定人標準時系列線取得手段17は、特
定人標準時系列線取得手段15に記憶された複数人の特
定人標準時系列線データに基づき不特定人の標準時系列
線データを求め、記憶する。
【0080】本実施例においては、以下の様にして、不
特定人標準時系列線データの演算を行なった。まず、第
1〜第5の話者の単語wに対する標準時系列線データを
ファジィC―ミーンズ法を用いて、ファジィクラスタリ
ングを行ない、不特定人標準時系列線データである単語
標準パターンを求める。このようなファジィクラスクリ
ングを第2段階のファジィクラスタリングという。
【0081】本実施例においては、このように、2つの
段階のファジィクラスタリングを行なっているので、不
特定人標準時系列線データを、より効果的に求めること
ができる。なぜなら、ファジィクラスタリングにおいて
は、クラスタに属する各要素間相殺作用により、分類効
果が低下するおそれがあるからである。
【0082】図10、図11に、前記2段階の演算の一
般式を示す。なお、Aw,i j、Uw,i、Vw,i g、SAw k
w、Vw g、Rw gは、以下を表わすものとする。
【0083】Aw,i j:話者iが単語wに対してj回目発
声して得られた正規化特徴ベクトルの時系列(個体); Aw,i j=(aw,i j(q)) (q=1,2,...Q) aw,i j(q)=(aw,i j(q,p) (p=1,2,...P) Uw,i:第1段階で得られた各個体Aw,i j(j=q,..,J)の
各クラスタへの所属度行列; Uw,i=(uw,i(g,j)) (g=1,2,...,G1;j=1,2,...,J) Vw,i g:第1段階で得られた各クラスタg(g=q,...,G1)
の中心ベクトルの時系列 ; Vw,i g=(vw,i g(q)) (q=1,2,...Q) Vw,i g(q)=(vw,i g(q,p)) (p=1,2,...P) SAw k:第1段階で得られた各特定話者の単語wに対す
る標準パターン; (k=g+(i-1)×G1) Uw:第2段階で得られた各個体SAw k(k=1,...,I×G1)
の各クラスタへの所属度行列; Uw=(uw(g,j)) (g=1,2,...,G1; j=1,2,...,J) Vw g:第2段階で得られた各クラスタg(g=1,...,G1)の
中心ベクトルの時系列; Vw g=(Vw g(q)) (q=1,2,...Q) Vw g(q)=(Vw g(q,p)) (p=1,2,...P) Rw g:単語wの標準パターン; (g=1,2,...,G2) まず、第1段階で得られる特定人の標準時系列線データ
は、図10のフローチャートにて求められる。話者iが
単語wに対してj回目発声して得られた正規化特徴ベク
トルの時系列(個体)Aw,i jが与えられると、図10ス
テップST21において、前記代表点ベクトルの演算と
同様にして、ファジィクラスタリングを行ない(FCM
1(FAZZY-C-MEANS 1))、所定の収束判定値εになるま
で、ファジィクラスタリングを繰り返す。所定の収束判
定値εが得られると、その場合のVw,i gを特定人の単語
wに対する標準パターンSAw kとする。
【0084】つぎに、第2段階に進む。複数の特定人の
SAw kが与えられると、図11ステップST25におい
て、第2のファジィクラスタリング(FCM2)を行な
い、所定の収束判定値εになるまで、ファジィクラスタ
リングを繰り返す。所定の収束判定値εが得られると、
その場合のVw gを不特定人の単語wに対する標準パター
ンRw gとする。
【0085】このようにして、不特定人の標準時系列線
データを得ることができる。
【0086】なお、本実施例においては、特定人標準時
系列線データを求めたのち、不特定人標準時系列線デー
タを求めたが、特定人の正規化後時系列線データから一
旦特定人標準時系列線データを求めることなく、直接不
特定人標準時系列線データを求めてもよい。この場合
は、第1〜第5の話者が単語wを5回発声した信号波形
データについて、すなわち、5×5=25個の正規化後
時系列線データに基づき、まとめてファジィクラスタリ
ングを行ない、不特定人標準時系列線データを演算すれ
ばよい。
【0087】また、本実施例においては、5個の正規化
後時系列線データについてファジィクラスタリングを行
なうことにより、特定人標準時系列線データを求めた
が、正規化前の特徴点時系列線データに基づき、ファジ
ィクラスタリングを行ない、その後正規化して特定人標
準時系列線データを求めてもよい。この場合は、第1の
話者が単語wを5回発声した信号波形データを各々ベク
トル空間に配置し、ファジィクラスタリングしたのち、
正規化すればよい。
【0088】さらに、特定人標準時系列線データを求め
ることなく、すべての話者がある単語を繰り返し発声し
た正規化前特徴点時系列線データに基づき、まとめてフ
ァジィクラスタリングを行ない、その後正規化して不特
定人標準時系列線データを求めてもよい。
【0089】つぎに、比較モードについて説明する。図
1に戻って、比較対象となる信号波形データが入力手段
3から入力されると、特徴量抽出手段5、特徴点演算手
段7、および特徴点時系列線演算手段9によって、特徴
点時系列線データが正規化後時系列線演算手段11に与
えられる。
【0090】モード切換え手段18は、正規化後時系列
線演算手段11に比較モードを示すモード切換え信号を
出力する。正規化後時系列線演算手段11は、このモー
ド切換え信号を受けて、比較対象となる信号波形データ
の正規化後特徴点時系列線データを照合度演算手段19
に出力する。
【0091】照合度演算手段19は、比較対象となる信
号波形データの正規化後特徴点時系列線データと不特定
人標準時系列線取得手段17に記憶された不特定人の標
準時系列線データと比較し、その照合度を出力する。具
体的には、正規化された補間点について対応する補間点
間の距離を求めて、照合度を得ればよい。
【0092】このように、特徴点時系列線データを正規
化して正規化後特徴点時系列線データとして、2つの信
号波形データを比較することにより、従来のDPマッチ
ング法より高速かつ高精度に両者を比較することができ
る。
【0093】なお、本実施例においては、入力される信
号波形データとして音声信号を用いて説明したが、信号
の特徴成分を抽出できる信号波形データであればどのよ
うなものであってもよく、例えば、筆跡信号の照合にお
ける正規化識別処理などであってもよい。
【0094】なお、本実施例においては、モード切換え
信号は、キーボード28から入力するようにしたが、バ
スライン30を介して、他の機器(図示せず)から与え
るようにしてもよい。
【0095】また、本実施例においては、5人の話者が
5回発生して標準パターンを作成したが、人数、回数に
ついてはこれに限られることはない。
【0096】上記実施例では、図1に示す機能を実現す
る為に、CPU23を用い、ソフトウェアによってこれ
を実現している。しかし、その一部もしくは全てを、ロ
ジック回路等のハードウェアによって実現してもよい。
【0097】
【発明の効果】請求項1、請求項2の信号波形データ正
規化装置または方法においては、前記各特徴点をファジ
ィ分類して、代表特徴点を求め、さらに、求めた代表特
徴点を時系列順に連結し、特徴点時系列線データを求め
るとともに、前記特徴点時系列線データに基づいて、正
規化後特徴点時系列線データを演算して出力する。これ
により、正規化後の特徴点時系列線データを容易に得る
ことができる。したがって、高速かつ高精度の正規化を
することができる信号波形データ正規化装置またはその
方法を提供することができる。
【0098】請求項3、請求項4の信号波形データ比較
装置または比較方法においては、前記各フレーム特徴量
を、多次元ベクトル空間に配置した特徴点を求め、前記
各特徴点をファジィ分類して、代表特徴点を求める。さ
らに、求めた代表特徴点を時系列順に連結し、特徴点時
系列線データを求めるとともに、前記特徴点時系列線デ
ータに基づいて、正規化後特徴点時系列線データを演算
する。
【0099】与えられたモード切換え信号が記憶モード
を示す記憶モード信号である場合には、同一単語に対す
る同一人による複数の正規化後時系列線データに基づ
き、特定人の正規化後標準時系列線である特定人標準時
系列線データを求める。さらに、複数人の特定人標準時
系列線データに基づき不特定人の標準時系列線データを
求める。
【0100】一方、与えられたモード切換え信号が比較
モードを示す比較モード信号である場合には、演算され
た正規化後特徴点時系列線データと前記不特定人の標準
時系列線データと比較し、その照合度を出力する。
【0101】したがって2つの信号波形データを高速か
つ高精度に比較することができる信号波形データ比較装
置またはその方法を提供することができる。
【図面の簡単な説明】
【図1】本発明にかかる信号波形データ比較装置21の
機能ブロック図である。
【図2】信号波形データ比較装置21をCPUで実現し
たハードウェアー構成を示す図である。
【図3】P次元ベクトル空間に特徴点を配置した状態を
示す図である。
【図4】特徴点時系列線演算手段9の構成を示すブロッ
ク図である。
【図5】正規化後特徴点時系列線SL1を示す図であ
る。
【図6】P次元ベクトル空間における入力特徴点と補間
点との関係を示す図である。
【図7】P次元ベクトル空間における再サンプリングす
るN点の正規化特徴点を説明する為の図である。
【図8】正規化する際の演算アルゴリズムを示す図であ
る。
【図9】特定人の標準パターンを作成するフローチャー
トである。
【図10】不特定人の標準パターンを作成するフローチ
ャートである。
【図11】入力された音声信号を比較する方法の1つで
あるDPマッチング法を説明する為の図である。
【図12】DPマッチングの演算方法を示す図である。
【符号の説明】
3・・・・・入力手段、 5・・・・・特徴量抽出手段 7・・・・・特徴点演算手段 9・・・・・特徴点時系列線演算手段 11・・・・正規化後時系列線演算手段 13・・・・正規化後時系列線記憶手段 15・・・・特定人標準時系列線取得手段 17・・・・不特定人標準時系列線取得手段 18・・・・モード切換え手段 19・・・・照合度演算手段

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】信号波形データが入力される入力手段、 前記信号波形データを複数フレームに分割し、各フレー
    ム毎の周波数成分をフレーム特徴量として抽出する特徴
    量抽出手段、 前記各フレーム特徴量を、多次元ベクトル空間に配置し
    た特徴点を求める特徴点演算手段、 前記各特徴点をファジィ分類して、代表特徴点を求める
    とともに、求めた代表特徴点を時系列順に連結し、特徴
    点時系列線データを求める特徴点時系列線演算手段、 前記特徴点時系列線データに基づいて、正規化後特徴点
    時系列線データを演算して出力する正規化後時系列線演
    算手段、 を備えたことを特徴とする信号波形データ正規化装置。
  2. 【請求項2】入力された信号波形データを複数フレーム
    に分割して、各フレーム毎の周波数成分をフレーム特徴
    量として抽出し、 前記各フレーム特徴量を、多次元ベクトル空間に配置し
    た特徴点を求め、 前記各特徴点をファジィ分類して、代表特徴点を求める
    とともに、求めた代表特徴点を時系列順に連結し、特徴
    点時系列線データを求め、 前記特徴点時系列線データに基づいて、正規化後特徴点
    時系列線データを演算して出力すること、 を特徴とする信号波形データ正規化方法。
  3. 【請求項3】信号波形データが入力される入力手段、 前記信号波形データを複数フレームに分割し、各フレー
    ム毎の周波数成分をフレーム特徴量として抽出する特徴
    量抽出手段、 前記各フレーム特徴量を、多次元ベクトル空間に配置し
    た特徴点を求める特徴点演算手段、 前記各特徴点をファジィ分類して、代表特徴点を求める
    とともに、求めた代表特徴点を時系列順に連結し、特徴
    点時系列線データを求める特徴点時系列線演算手段、 前記特徴点時系列線データに基づいて、正規化後特徴点
    時系列線データを演算して出力する正規化後時系列線演
    算手段、 前記正規化後時系列線データを記憶する正規化後時系列
    線記憶手段、 前記正規化後時系列線記憶手段に記憶された同一単語に
    対する同一人による複数の正規化後時系列線データに基
    づき、特定人の正規化後標準時系列線である特定人標準
    時系列線データを求め記憶する特定人標準時系列線取得
    手段、 前記特定人標準時系列線取得手段に記憶された複数人の
    特定人標準時系列線データに基づき不特定人の標準時系
    列線データを求め、記憶する不特定人標準時系列線取得
    手段、 前記正規化後時系列線演算手段にモード切換え信号を出
    力するモード切換え手段、 正規化後時系列線演算手段から得た正規化後特徴点時系
    列線データと不特定人標準時系列線取得手段に記憶され
    た不特定人の標準時系列線データと比較し、その照合度
    を出力する照合度演算手段、 を備え、 前記正規化後時系列線演算手段は、 A)前記モード切換え信号が記憶モードを示す記憶モー
    ド信号である場合には、前記正規化後時系列線記憶手段
    に正規化後特徴点時系列線データを出力し、 B)前記モード切換え信号が比較モードを示す比較モー
    ド信号である場合には、前記照合度演算手段に正規化後
    特徴点時系列線データを出力すること、 を特徴とする信号波形データ比較装置。
  4. 【請求項4】入力された信号波形データを複数フレーム
    に分割して、各フレーム毎の周波数成分をフレーム特徴
    量として抽出し、 前記各フレーム特徴量を、多次元ベクトル空間に配置し
    た特徴点を求め、 前記各特徴点をファジィ分類して、代表特徴点を求める
    とともに、求めた代表特徴点を時系列順に連結し、特徴
    点時系列線データを求め、 前記特徴点時系列線データに基づいて、正規化後特徴点
    時系列線データを演算し、 A)与えられたモード切換え信号が記憶モードを示す記
    憶モード信号である場合には、 A1)演算された正規化後特徴点時系列線データを記憶
    し、 A2)記憶された同一単語に対する同一人による複数の
    正規化後時系列線データに基づき、特定人の正規化後標
    準時系列線である特定人標準時系列線データを求め、 A3)複数人の特定人標準時系列線データに基づき不特
    定人の標準時系列線データを求め、記憶し、 B)与えられたモード切換え信号が比較モードを示す比
    較モード信号である場合には、 B1)演算された正規化後特徴点時系列線データと前記
    不特定人の標準時系列線データと比較し、その照合度を
    出力すること、 を特徴とする信号波形データ比較方法。
JP5155541A 1993-06-25 1993-06-25 信号波形データ正規化装置またはその方法および信号波形データ比較装置またはその方法 Pending JPH0713597A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5155541A JPH0713597A (ja) 1993-06-25 1993-06-25 信号波形データ正規化装置またはその方法および信号波形データ比較装置またはその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5155541A JPH0713597A (ja) 1993-06-25 1993-06-25 信号波形データ正規化装置またはその方法および信号波形データ比較装置またはその方法

Publications (1)

Publication Number Publication Date
JPH0713597A true JPH0713597A (ja) 1995-01-17

Family

ID=15608313

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5155541A Pending JPH0713597A (ja) 1993-06-25 1993-06-25 信号波形データ正規化装置またはその方法および信号波形データ比較装置またはその方法

Country Status (1)

Country Link
JP (1) JPH0713597A (ja)

Similar Documents

Publication Publication Date Title
US5315689A (en) Speech recognition system having word-based and phoneme-based recognition means
US5684925A (en) Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
JP3114975B2 (ja) 音素推定を用いた音声認識回路
EP0380297B1 (en) Method and apparatus for speech recognition
US5596679A (en) Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs
Chang et al. A Segment-based Speech Recognition System for Isolated Mandarin Syllables
EP1355295A2 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
Bahari Speaker age estimation using Hidden Markov Model weight supervectors
EP0344017B1 (en) Speech recognition system
Bahi et al. Combination of vector quantization and hidden Markov models for Arabic speech recognition
JPH09507921A (ja) ニューラルネットワークを使用した音声認識システムおよびその使用方法
JP3403838B2 (ja) 句境界確率計算装置および句境界確率利用連続音声認識装置
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JPH0713597A (ja) 信号波形データ正規化装置またはその方法および信号波形データ比較装置またはその方法
JP3500616B2 (ja) 信号波形データ比較装置およびその方法
Zbancioc et al. Emotion recognition for romanian language using mfsc images with deep-learning neural networks
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
Golipour et al. Context-independent phoneme recognition using a k-nearest neighbour classification approach
Viszlay et al. Alternative phonetic class definition in linear discriminant analysis of speech
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
Bhagath et al. Phoneme boundary analysis using graphs
JP2983364B2 (ja) 隠れマルコフモデルと音声信号との類似度計算方法
JPH0619497A (ja) 音声認識方法
Krasnoproshin et al. Speech emotion recognition using SVM classifier with suprasegmental MFCC features
Gas et al. Predictive Kohonen map for speech features extraction