JPH04194999A - 学習を用いた動的計画法 - Google Patents

学習を用いた動的計画法

Info

Publication number
JPH04194999A
JPH04194999A JP2327785A JP32778590A JPH04194999A JP H04194999 A JPH04194999 A JP H04194999A JP 2327785 A JP2327785 A JP 2327785A JP 32778590 A JP32778590 A JP 32778590A JP H04194999 A JPH04194999 A JP H04194999A
Authority
JP
Japan
Prior art keywords
pattern
path
learning
matching
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2327785A
Other languages
English (en)
Inventor
Shin Kamiya
伸 神谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2327785A priority Critical patent/JPH04194999A/ja
Publication of JPH04194999A publication Critical patent/JPH04194999A/ja
Priority to US08/272,109 priority patent/US5581650A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 【産業上の利用分野】
この発明は、動的計画法の改良に関する。
【従来の技術】
通常、同し人が同し単語を発声してもその長さはそのつ
ど変わり、しかも時間軸に非線形に伸縮する。ずなわぢ
、時間軸に対する不規則な8′1容歪みを有するのであ
る。そのため、例えば音声認識の際において、標準パタ
ーンと人力音声の特徴パターンとの同じ音素同士が対応
するように時間軸を仲析Iする必要かある。その具体的
なTθ、おして動的i−1’ 1lljl法(DJ))
を用いることができる。I) Pマツチングは、このI
) I)を用いて特徴パターンと標準パターンとの時間
伸縮マツチングを行う手法であり、音声認識においては
重要な手法である。 近年、発明者等は、19■〕マツチンクを応用して個人
差による音声信号の特徴パターン変動にり・j処する話
者適応化方式を提案しく中相、神谷、坂月1音声スペク
トルの時間軸・周波数軸・強度軸の同時非線形伸縮に基
づく不特定話者の中3g音声の認識ゴミ子通信学会論文
誌’81/2 Vow、 J 64− DNo、2)、
実験によってその有効性を認識した。 上記話者適応化方式は、個人差による特徴パターン変動
は主に周波数軸に対する不規則な許容歪みであることに
注目して、D Pを周波数伸縮マツチングに用いた方式
である。すなわち、キーワードとして単/q音/a/を
発声し、この母音/a/の定常部におけるスペク1〜ル
と標準話者の同し母音/a/の定常部におけるスペクI
・ルとを、周波数軸」−におけるDPマッチンクによっ
て比較する。そして、標弗話者と入力話者との母音/a
/のスペクトルの周を成敗1111I11二のずれの方
向を検出し、この検出された中I号召/a/のスペクト
ルの周l成敗輔1、のずれの方向を単Jバ認識の際の話
者適応化に利用するものである。
【発明か解決しようどする課題】
しかしながら、−I−記話者適応化方式においては、単
母音/a/のスペクトルの周波数軸1−のずれの方向の
みならず、そのずれの度f〒いも■〕1)マツチングに
よって正規化しようとすると、個人差のみならず音韻差
まで正規化されてしまい、個人;!′−:は除去できて
も単語か認識できない場合が生じるという問題がある。 そこで、この発明の[I的は、予め類似カテゴリ差を加
味して個人差等の許容歪みの範囲を学習することによっ
て、あるカテゴリに属する特徴パターンか有する許容歪
みを、類似カテゴリ差が11:現化されることなく必要
な範囲で正規化できる動的旧画法を提供することにある
【課題を解決するための□手段] 1−゛記目的を達成するため、この発明の学習を用いた
動的5−1画法は、学習モード時において、同一カテゴ
リに属する複数の学習パターン・ベクトルとゴー記カテ
ゴリに屈する標準パターン・ベクトルとのDPマツチン
グを行って最適経路を行列パターンで表した複数のI)
 Pパス行列を求め、同様に、上記カテゴリの類似カテ
ゴリに属する複数の学習パターン・ベクトルと上記カテ
ゴリに属する上記(票準パターン・ベクトルとのDPマ
ツチングを行って最適経路を行列パターンで表した複数
の類似パターンDPパス行列を求め、−に記複数のD 
Pパス行列の同一要素の値と」1記複数の類似パターン
DPパス行列の対応する要素の値とから累積DPパス行
列を求めるに際し、」―記DPパス行列の要素の値は加
算する一方」1記類似パターンDPパス行列の要素の値
は減算することによって」1記累積DPパス行列の各要
素の値を求め、上記累積DPパス行列における各要素の
イ1ηに基づいて所定のルールに従ってパス重みを算出
し、評価モード時において、入力された評価パターン・
ベクトルと標準パターン・ベクトルとのD Pマyfン
ク時ニ両ハターン・ヘクトルの要素間の距離を算出する
際に、上記要素間に対応した上記パス重みの値を用いて
単みイτjけを行うことをq!r徴としている。 【実施例】 以下、この発明を図示の実施例により詳細に説明する。 第1図はこの発明に係るI) I)マツチングにおける
動作手順の一実施例を示すフローチャーI・である。こ
のフローチャートの説明をするに先立って、本実施例で
実施する周波数伸縮1) Pマツチングについて、特徴
パターンとして音声波形に基づく特徴パターンを用いた
場合を例に詳細に説明する。 上記DPマツチングの際に用いられる特徴パターンは次
のようにして生成される。すなわち、音声?Ju形を1
.チャンネルのフィルタ・バンクで分析し、l0m5(
フレーム)づつサンプリングする。各フレームにおける
Lチャンネルの出力値は各出力値の二乗和によって正規
化する。以下、こうして求められた各チャンネルの正規
化値からなるチャンネル系列をパワー・スペクトルと言
う。こうして求められた二つの音声波形に係るパワー・
スペク1−ルを特徴パターン・ベクトルAおよび特徴パ
ターン・ベクトルBとし、両特徴パターン・ベクトルに
おける各チャンネルの出力値を表す要素値を要素値ai
および要素値す、i(但し、1≦15.j≦L)とする
。 いま、第2図に示すような特徴パターン・ベクトルAと
特徴パターン・ベクトルBにカ(つく平面を考える。両
パターン・ベクトル(パワー・スペクトル)の周波数の
対応付けは、この平面」二の格子点c=(i、、i)の
系列(パス)で表現できる。そうすると、両パターン・
ベクトル間の最適パス(以下、DPパスと言う)に沿っ
た距離の総和G(以下、DPスコアと言う)の値は、l
)Pマツチングによって(1)式に示される部分和g(
i、 j)の値を整合窓の範囲内で++jを増加させな
がら繰り返し計算することによって求められる。 (コーg(1,、L )/ 2L ノごだ し、 d(i、j)  −1ai−b、i  
1(1)式に基づいて算出されるD F)スコアのイ1
1’、iか′小さいほど両パターン・ベクトル間の1〕
I)パスに沿った距離の総和か小さく、両パターン・ベ
クトルは′11〈合意の範囲内で周波数(III li
を行−・たj、j、j 4.、によく似た形状になるパ
ターン・ベクトルであると言える。つまり、r〕[〕ス
コアは両パターンが同しカテゴリに属している度合いを
表しているのである。 第3図は、(1,)式にノj(ついて、同一カテゴリに
属する複数の学習パターンの特徴パターン・ベクトル(
学習パターン・ベタ1〜ル)のうらの1つI3ト」1記
カテゴリに属する杆準パターンの特徴パターン・ベクト
ル(標準パターン・ベクトル)Aとから求められたDP
スコアを与える格子I3.c(I、j)の系列、ずなわ
ぢDPパスを表現するための行列(以下、このようなり
Pバスを表現する行列をI) Pパス行列、と言う)の
例を示す。このI) J)パス行列は、1つのalに1
つのbjが対応する(ずなわぢ、g(i、、i)がたた
一つ存在する)場合には、格子点c(i、 j)に′“
2′”を与える。また、1つのalに2つのbjが対応
する(ずなわら、g(i、 j)か二つ存在する g(
b、++)=g(i、 j2))場合には格子点C(I
I jl)とc(+、 JJとにビを与え、経路−1−
にない格子点c(i、、i)には“o゛(第3図におい
Cは記載を省略)を与えたものである。 第3図のI) I)パス行列においては、“′2゛が与
えられた格子点(i、 j)かほぼ対角線上に数多くあ
るため、Δ、B二つのパワー・スペクトルのパターンは
周波数軸」二でよく対応付けられていると言える。 第4図は第3図と同様にして、上記カテゴリの類似カテ
ゴリに属する複数の学習パターン・ベクトルのうぢの1
つB′と上S己カテゴリに属する」1記標準パターン・
ベクトルAとから求められたDPババス列(類似パター
ンDPパス行列)を示す。 この場合、類似パターンDPパス行列においても′“2
″が与えられた格子点(i、Dがほぼ対角線上に数多く
あるため、△、B′二つのパワー・スペクトルのパター
ンも周波数軸」−でよ・く対応付けられていると言える
。 このことは、13.B°二つのパワー・スペクトルのパ
ターンも周波数軸上で対応イ;1けられることを意味す
る。そのため、単純にに記カテゴリに属する−に記標準
パターン・ハク1〜ルを用いて人力音戸Iθシの特徴パ
ターン・ベクトルを評価した場合、−1,記ノツチコリ
に属するような評価対象の111徴パターン・ ・ベク
トルの属するカテゴリか一1〕記類似カテゴリテあると
評価されてしまう場合か生ずるのである。 ところで、」二連のように、同し音素カテゴリに属する
特徴パターン・ベクトルてあっ−Cち、話考によって周
波数軸」二における許容歪みを有している。ところか、
個人差による周波数軸」−の許容歪みを正規化するため
にl) l)マツチングにおける整合窓の範囲を必要以
」―に大きくすると、−に二連のように音韻差までか正
規化されてしまうのである。 一方、第3図と第4図とに示すように、ある篇素カテゴ
リに属するパワー・スペクトルとその類似音素カテゴリ
に属するパワー・スペクトルとが周波数軸」二でよく対
応(:jけられる場合には、I)l)−ンノチングにお
ける整合窓の範囲を必要以上に大きくしなくとも音韻差
か正規化される場合がある。 そこで、この発明においては、同じカテゴリに属する種
々の特徴パターン・ベクトルとそのカテゴリを代表する
標準パターン・ベクトルとにおけるDPパス行列の出現
範囲と、J1記カテゴリの類似カテゴリに属する種々の
特徴パターン・ベクトルト」二M己カテゴリの−」二3
己標埠、パターン・ベクトルとにおける類似パターンD
Pパス行列の出現範囲とを予め学習しておく(学習モー
ド)。そして、評価すべき特徴パターン・ベクトルと上
記標準パターン・ベクトルとのDPマツチングを行う際
には、両パターン・ベクトルの要素間の距離に対して学
習結果に基つく補正を行って、周波数軸を非線形に伸縮
させる場合の伸縮方向と伸縮範囲とを自動的に設定する
のである(評価モード)。以下、学習モードおよび評価
モードについて詳細に述へる。 学賀汚:リ− 標準話者から得られたある音素のパワー・スペクトルを
標準パターン・ベクトルAとする一方、複数話者から得
られた1−記音素と同一の+3素のパワー・スペクトル
の1つを学習パターン・ベクトルBとする。そして、標
準パターン・ベクトルΔと学習パターン・ベクトル■3
とのDPマツチングを実施してDPパス行列を求める。 次に、学習パターン・ベクトルBを順次更新してD I
)マツチングを実施し、得られた全D Pパス行列にお
ける同一要素の値を加算することによって全1?j’j
 rrに関する累積1) Pパス行列を求める。 さらに、複数話者から得られた」―記音素の類似音素の
パワー・スペク1ヘルの1つを学習パターン・ベクトル
B′とする。そして、」4述と同様に、学習パターン・
ベクトルB”を順次更新しなから上記標準パターン・ヘ
タ1〜ルAと学習パターン・ベクトルB゛とのD Pマ
ツチングを実施して類似パターンDPパス行列を求め、
得られた類似パターンDPパス行列の各要素の値を累積
D Pパス行列の対応する要素の値から減算することに
よって累積■)I〕パス行列における各要素の値を更新
する。 第5図はこうして求められた累積1) I)パス行列−
11= の−例である。このような累積1) Pパス行列におけ
る゛′正′”の高い値を有する格子点c(i、 j)は
、同一音素に属する複数話者の特徴パターン・ベクトル
とその音素の標準パターン・ベクトルとのD Pマツチ
ングにおいて得られるI) Pパスが頻繁に通過する格
子点(以下、頻出格子点と言う)であると言うことがで
きる。これに対して、゛負°”の値を有する格子点(i
、、i)は、−に記音素の類似音素に属する複数話者の
特徴パターン・ベクトルと」1記音素の標準パターン・
ベクトルとのI) Pパス(類似ハターンDPパス)が
頻繁に通過する格子点(以下、類似パターン頻出格子点
と言う)であると言うことかできる。また、“O′”が
記載された格子点(i、 j)は、上記DPパスと類似
パターン1)1)パスどが同数回通過する格子点である
。一方、実際には′0”′であるかその記載を省略した
“′空白”の格子点(i、 j)は、f 88 D J
)パスと類似パターンI) Pパスとのいずれもが通過
しない格子点であると言うことかできる。 上述のように、ある音素カテゴリに属する標準パターン
・ベクトルと上記音素カチコリに属する学習パターン・
バク1−ルか周波数軸1−でよくス・J応イ」けられる
一方、」1記標準パターン・ベクトルと上記音素カテゴ
リの類(IJ音音素カフコリ属する学習パターン・ハク
1ヘルとかやはり周波数軸上でよく対応付けられる場合
であっても、第3図と第4図とを比較すると、1つの8
1に2つのl+jか対応する場合に]′”か与えられた
格子点の位置か異なるのである。したがって、複数話者
の音声波形から得られた累積D Pパス行列においては
、第5図に見られるように、DPパス行列と類似パター
ンDPパス行列との」―述の僅かな違いか頻出格子点と
類似パターン頻出格子点として強調されるのである。 る。 こうして、全学習パターン・ヘク)・ルと標準パターン
・ベクトルとのD Pマツチングか終了すると、(2)
式によって累積1) I)パス行列の各格子点毎に累積
値の平均値の逆数に相当する重み(以下、パス重みと言
う)を求める。 pW(i、j)=M/[1DPW(i、、i)十Kl/
(Dr’W(i、I)→DPW(i、 2)4・・+1
)PW(i、 L) +1JKl )  ・・(2)但
し、    M、定数 (M>O) L、 K :定数 pW(i、 j)ニパス重み DPW(i、 D :累積DPパス行列における要素値 そして、得られたパス重みpwの値を記憶部に格納して
学習を終了する。 評価モード 評価対象の特徴パターンとして不特定話者の音βf 7
12形からパワー・スペクトルか求められる。そして、
この評価対象の特徴パターン・ベクトル(以下、評価パ
ターン・ベクトルと言う)Bと学習モード時に用いられ
た各音素における標準パターン・ベクトルAとのDPマ
ツチングを行う。その際に用いる漸化式を(3)式のよ
うに変更する。 たたし、d’ (i、 j)−d(i、 、j) +p
W(i、 j)すなわち、評価モード′時においては、
2つのパターン・ベクトルΔ、Bの要素値ai、b、i
間の距離d(i。 1)に対して」1記標準パターン・ベクトルAに係るハ
ス重みpW(i、 j)を付加するのである。その結果
、1’、ijg累積D l)パス行列における頻出格子
点にλ、1応した格子点c(ik、、ilOにおけるパ
ス重みの値pW(il、。 1k)は小さいため、その格子点c(ik、、ik)に
対応した両パターン・ベクトルの要素値aik、b、i
k間の距離は遠ざけられることはない。ところか、頻出
格子点以外の格子点c(i l+ jl)におけるパス
重みpW(i it j 1)の値は大きいため、その
格子点c(il、jl)に対応した両パターン・ベクト
ルの要素値ail、bj1間の距離は遠ざけられるので
ある。特に、類似パターン頻出格子点に対応した格子点
c(im、 箱)におけるパス重みの値pW (1ll
l+ j m)は極端に小さいため、その格r点c (
l lit j m)に対応した両パターン・ベクトル
の要素値aim、bjm間の距離は極端に遠ざけられる
のである。 こうすることによって、評価モード時のDPマツチング
におけるDPパスが頻出格子点に向かって近(:Iけら
れて、評価パターン・ベクトルか有する周波数ψ+l+
J:の許容歪みか正規化されるのである。 その際に、」1記評価モード時のDPマツチングにおけ
るDPパスは類似パターン頻出格子点から確実に遠ざけ
られて、ある音素カテゴリに属する評価パターン・ベク
トルか有する周波数軸上の許容歪みか類似音素カテゴリ
側に正規化されることがないのである。以下、」−述の
ようなパス重みpwを用いたJ)Pマツチングを虫み4
=jけDPマツチングと言う。 その際に、上記頻出格子点の系列から成る頻出1)Pパ
スがある幅を有している場合には、評価モード時におけ
るDPパスがその頻出1)Pパス帯内に修正されること
になる。したがって、評価モード時におけるDPマツチ
ングの整合窓か必要以」二に大きく設定されて、同一カ
チコリに属さない評価パターン・ヘク!・ルと標準パタ
ーン・ベクトルとに係るDPパスが頻出DPパス帯外の
格子点に設定されることか回避できるのである。ずなわ
ぢ、頻出DPパス帯の範囲か取りも直さず周波数軸」−
の許容歪みを正規化する範囲であると言うことかでき、
頻出D+)パス帯によって、周波数軸上の許容歪みの正
規化の度合いか、類似ノコチコリ差も正規化されてしま
われないように自動的に設定されることになる。また、
評価モード時における[月)パスの修正は常に頻出D 
I−)パス帯側に向かって修正されるので、周波数軸」
−の許容歪みの正規化の方向も自動的に設定されること
になる。 l二連のことから、」―記頻出1)l)パス帯の範囲を
どのように設定するかが重要になる。この頻出[)I〕
パス帯の範囲は、上述の学習モード時において、いかに
種々の形態を有する学習パターン・ベクトルを用いるか
に係っている。したかって、学習パターン・ベクトルを
作成する場合には、年令、性別。 言語環境1発生癖等を異にする多くの話者における特徴
パターンを用いればよい。 以下、本実施例におけるDPマツチング動作手111a
を第1図のフローチャ−1・に従って説明する。 第1図はある1つの音素に対する学習あるいは評価に関
するフローチャー1・である。 ステ、プSlで、処理モードか学習モードであるか否か
か判別される。その結果学習モードであればステップS
2に進み、評価モードであればステップS21に進む。 ステップS2で、学習パターン数1)に“ビかセットさ
れる。 ステップS3で、対象どなる?[)素におけるp番1−
1の学習パターン・ベクトル13pか読み出さる。 ステップS4で、対象となる音素の標準パターン・ベク
トルΔが読み出される。 ステップS5で、上記ステップS3およびステップS4
において読み出された学習パターン・ペクト/l/ B
 p ト+M 準ハターン・ヘクトル△とのDPマツチ
ングか実行される。 ステップS6で、−に記文テップS5におけるD I)
マツチングによって得られるl) Pパスに基づいてD
Pパス行列が作成される。 ステップS7で、累積D Pパス行列の各要素値が更新
される。 ステップS8で、学習パターン数1)に′1゛′か加算
される。 ステップS9で、学習パターンMpか全学習パターン数
Pになったか百かか判別される。その結末全学習パター
ン・ベクトルに対するI) I)マツチングか終了して
いればステップS10に進め、また終了していなければ
ステップS3に戻って次の学習パターン・ベクトル対す
る処理に入る。 ステップ10〜ステップS1.7で、上記ステップ82
〜ステップS9と同様にしC,I−記文・J象となるr
’f+素のり、a似音素(Q個)の学習パターン・ベク
トルI3”qと一]−記対象となる音素の一]二記標準
パターン・ベクトルAとのDPマツチングから類似パタ
ーンI) 1.)パス行列が作成される。そして、類似
パターンl)■〕パス行列の要素の値によって上記累積
DPパス行列の各要素の値の更新か行われる。そうした
後ステップSI8に進む。 ステップS]8で、上記ステップSI5において求めら
れた累積DPパス行列に基づいて、(2)式によってパ
ス重みpWか算出される。 ステップSI9で、上記ステップS18において算出さ
れたパス重みpwか記憶部に格納され、り・j象となる
音素に対する学習を終了する。 ステップS2]て、評価パターン・ベクトルが入力され
る。 ステップS22て、ある音素の標準パターン・ベクトル
か読み出される。 ステップS23で、」−8己ステップ519(こおいて
記憶部に格納された上記標準パターン・ベクトルと同し
音素に係るパス重みpWか読み出される。 □ステップS24て、上記ステ・ツブS23において読
み出されたパス重みpWの値を用いて、評価パターン・
ベクトルと−に記文テップS22において読み出された
標準パターン・ベクトルとの手み付けDPマンチングか
実行され、DPパスアが算出される。 そして、算出されたDPパスアが出力されて評価パター
ン・ベクトルに対する評価を終了する。 このように、本実施例においては、まず学習モードにお
いて、複数話者から得られた同一カテゴリニ属スる学習
パターン・ベクトルと上記カテゴリに属する標準パター
ン・ベクトルとのDPマ、。 チングを行い、tυ数のl) Pパス行列を求める。そ
して、各DPパス行列の同一要素における値を加算して
累積DPパス行列を求める。次に、−上記hチコリの類
似カテゴリに属する学習パターン・ベクトルと上記カテ
ゴリに屈する標if、liパターン・ベクトルとのDP
マツチングを行い、複数のirj似パターンDPパス行
列を求める。そして、類似パターンDPパス行列の各要
素の値を累1i!J I) Pパス行列における対応す
る要素の値から減算して、累積DPパス行列の要素の値
を更新する。こうして、総ての学習パターン・ベクトル
に対するI) Pマ。 チングが終了すると、累積1) Pパス行列の要素値に
基ついてパス重みpWを算出する。 −一方、M’P価モードにおいて、入力された評価パタ
ーン・ベクトルとあるカテゴリに属する標d、!;パタ
ーン・ベクトルとに対して、そのカテゴリに係るパス重
みpWによって両パターン・ベクトルの要素間の距離に
重み付けを行う重みイ・jけD Pマツチングか実行さ
れる。その結果、評価モード時におけるDPパスの格子
点か、学習モード′によって得し、れた累積I〕1)バ
ス11列におけるVMi似パターン頻出格子点から遠ざ
けられる一方頻出格子点に向かって修正されるのである
。 また、学習モード時において、類似カテゴリに属する学
習パターンを含む種々の学習パターンを用いて上記頻出
格子点から成る類1−旧)l)パスかある幅を有するよ
うに学習すれば、頻出DPパス帯外に対応する両パター
ン・ベクトルの要素間の距離か遠ざけられる。その結果
、評価パターン・ベク!−ルにおける周波数軸1;の許
容歪のが頻出DPパス帯の範囲で正規化されるのである
。 すなわら、各カテゴリ毎に、類似カテゴリに属する学習
パターンを含む種々の学習パターンと標準パターンとの
DPマソチンクによって、DPパス行列上におけるD 
I−)パスの頻出箇所とその頻出箇所の範囲(個人差の
範囲)を予め学習すると共に、類似パターンDPパス行
列I−における類(IJパターンDPパスの頻出箇所と
その頻出箇所の範囲(類似カテゴリ差の範囲)を予め学
する。そして、その学習結果を評価時に利用することに
よって、評価時におけるr)Pマツチングによる個人差
(周波数軸」−におけるに′l許容歪)の正規化の方向
どその度合いか、類似カテゴリ差も汗、環化されてしま
わないように自動的に設定されるのである。したかって
、本実施例によれば、類似ノツチコリ;りか正規化され
ることなく個人差を必要範囲で正規化できる。 上記実施例における学習動作手順のフローチャー1・に
おいて、予め記憶した学習パターンを読み出さずにその
都度入力するようにしても同等X−シ支えない。 この発明にお6プるI) I)マツチング動作のアルコ
リズムは、上記実施例のアルコリズムに限定されるもの
ではない。 1−4記実施例における学習モードでは、まず、同一 
カテゴリに属する複数の学習パターンと−」ユ記カテゴ
リに属する標準パターンとのI) I)マツチングから
DPパス行列を求め、さらにこのD I〕パス行列から
累積DPパス行列を求める。そして、次に、上記カチコ
リの類似カテゴリに属する複数の学習パターンと上記カ
テゴリに属するに記標準パターンとのD Pマツチング
によって求めた類似パターンDPパス行列の各要素の値
を用いて、−に記累積1)Pパス行列の各要素の値を更
新するようにしている。しかしなから、この発明におい
てはこれに限定されるものではない。 例えば、同一カテゴリに属する複数の学習パターンと同
一類似カテゴリに属する複数の学習パターンを一一一〕
ずつランタム順序に提示して、−」1記カテゴリに属す
る標準パターンとl) I)マツチングを実施する。そ
して、その都度得られたDPパス行列の各要素の値は累
積D Pパス行列の対応する要素の値に加算する一方、
類似パターンI) I)パス行列の各要素の値は累積D
Pパスの対応する要素の値から減算することによって累
積DPパス行列の対応する各要素の値を更新しCもよい
。 上記実施例の説明においては、用いられるI) I)マ
ツチングとして周波数伸縮マツチングを例として説明し
ているが、この発明はこれに限定されるものではない。 ずなわぢ、特徴パターンが有する許容歪みの内容に応し
て、例えば時間伸縮マツチングあるいは空間位置を伸縮
する空間位置伸縮マツチング等を用いてもよい3、また
、例えは時間(1囁iiマ、チングと周波数伸縮マツチ
ングとをイノ1用してもよい。 上記実施例においては、人力音用波形の11f徴パター
ンを認識する場合を例に]、げて説明している。 しかしなから、この発明はこれに限定されるものではな
く、文字画像の41f徴パターンを認識する際に用いて
も構わない。その際には、用いるI) Pマツチングと
して−1−配字間伸縮マッチングを用いればよい。
【発明の効果】
以上より明らかなように、この発明の学習を用いた動的
計画法は、学習モード時においては、あるカテゴリに属
する複数の学習パターン・ムク1−ルおよび類似カテゴ
リに属する複数の学習パターン・ベクトルと上記カチコ
リに属する標準パターン・ヘクl−Jしとの1)[)マ
ツチング(こよって1A己T順で累積1)Pパス行列を
求め、この累積D Pパス行列の各要素の値に基ついて
パス重めをい出し、計画モード時において評価パターン
・ベクトルと標準パターン・ベクトルとのDPマツチン
グを行う際には、両パターン・ベクトルの要素間の距離
を上記パス重みの値による重み付けを行って算出するの
で、評価モード時における最適経路は上記累積D Pパ
ス行列において高い値を有する要素の系列からなる頻出
最適経路に向かって修正される。 すなわち、学習モード時において、類似力テフリに属す
る学習パターンを含む種々の学習パターンを用いて」1
記頻出最適経路かある幅を有するように学習しておけば
、評価モード時において、評価パターン・ベクトルが有
する許容歪みか類似カテゴリ側に向かうことなく上記頻
出最適経路帯側に向かって正しく頻出最適経路帯の範囲
で正規化されるのである。 したがって、この発明によれば、種々の学習パターンを
用いて類似カテゴリ差を加味して個人差等の許容歪みの
範囲を予め学習し、その学習結果を評価時に利用して許
容歪みの正規化の度合いを類似カテゴリ差も正規化され
てしまわないように自動的に設定し、あるカテゴリに属
する特徴パターンが有する許容歪みを類似JJチコリ差
か正規化されることなく必要な範囲でIF現化できる。
【図面の簡単な説明】
第1図はこの発明に係る1つr)マッヂング動作−L順
のフローチャー1・の−・実施例を示す図、第2図はD
Pパス行列のひな型を示す図、第3図はI) Pパス行
列の一具体例を示す図、第4図は類似パターンDPパス
行列の一具体例を示す図、第5図は累積DPパス行列の
−・具体例を示す図である。

Claims (1)

    【特許請求の範囲】
  1. (1)学習モード時において、同一カテゴリに属する複
    数の学習パターン・ベクトルと上記カテゴリに属する標
    準パターン・ベクトルとのDPマッチングを行って、最
    適経路を行列パターンで表した複数のDPパス行列を求
    め、 同様に、上記カテゴリの類似カテゴリに属する複数の学
    習パターン・ベクトルと上記カテゴリに属する上記標準
    パターン・ベクトルとのDPマッチングを行って、最適
    経路を行列パターンで表した複数の類似パターンDPパ
    ス行列を求め、上記複数のDPパス行列の同一要素の値
    と上記複数の類似パターンDPパス行列の対応する要素
    の値とから累積DPパス行列を求めるに際し、上記DP
    パス行列の要素の値は加算する一方上記類似パターンD
    Pパス行列の要素の値は減算することによって上記累積
    DPパス行列の各要素の値を求め、 上記累積DPパス行列における各要素の値に基づいて、
    所定のルールに従ってパス重みを算出し、評価モード時
    において、入力された評価パターン・ベクトルと標準パ
    ターン・ベクトルとのDPマッチング時に両パターン・
    ベクトルの要素間の距離を算出する際に、上記要素間に
    対応した上記パス重みの値を用いて重み付けを行うこと
    を特徴とする学習を用いた動的計画法。
JP2327785A 1990-11-27 1990-11-27 学習を用いた動的計画法 Pending JPH04194999A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2327785A JPH04194999A (ja) 1990-11-27 1990-11-27 学習を用いた動的計画法
US08/272,109 US5581650A (en) 1990-11-27 1994-07-07 Learning dynamic programming

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2327785A JPH04194999A (ja) 1990-11-27 1990-11-27 学習を用いた動的計画法

Publications (1)

Publication Number Publication Date
JPH04194999A true JPH04194999A (ja) 1992-07-14

Family

ID=18202960

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2327785A Pending JPH04194999A (ja) 1990-11-27 1990-11-27 学習を用いた動的計画法

Country Status (2)

Country Link
US (1) US5581650A (ja)
JP (1) JPH04194999A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5555345A (en) * 1991-03-25 1996-09-10 Atr Interpreting Telephony Research Laboratories Learning method of neural network

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU7859000A (en) 1999-10-05 2001-05-10 L-3 Communications Corporation A method for improving the performance of micromachined devices
JP3342864B2 (ja) * 2000-09-13 2002-11-11 株式会社エントロピーソフトウェア研究所 音声の類似度検出方法及びその検出値を用いた音声認識方法、並びに、振動波の類似度検出方法及びその検出値を用いた機械の異常判定方法、並びに、画像の類似度検出方法及びその検出値を用いた画像認識方法、並びに、立体の類似度検出方法及びその検出値を用いた立体認識方法、並びに、動画像の類似度検出方法及びその検出値を用いた動画像認識方法
US10540991B2 (en) * 2015-08-20 2020-01-21 Ebay Inc. Determining a response of a crowd to a request using an audio having concurrent responses of two or more respondents

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3700815A (en) * 1971-04-20 1972-10-24 Bell Telephone Labor Inc Automatic speaker verification by non-linear time alignment of acoustic parameters
JPS5525150A (en) * 1978-08-10 1980-02-22 Nec Corp Pattern recognition unit
JPS5629292A (en) * 1979-08-17 1981-03-24 Nippon Electric Co Continuous voice identifier
JPS6024994B2 (ja) * 1980-04-21 1985-06-15 シャープ株式会社 パタ−ン類似度計算方式
US4348553A (en) * 1980-07-02 1982-09-07 International Business Machines Corporation Parallel pattern verifier with dynamic time warping
AU7529981A (en) * 1980-09-19 1982-03-25 Hitachi Limited Language analysis by pattern recognition
JPS57147781A (en) * 1981-03-06 1982-09-11 Nec Corp Pattern matching device
JPS5879300A (ja) * 1981-11-06 1983-05-13 日本電気株式会社 パタ−ン距離計算方式
JPS5885499A (ja) * 1981-11-18 1983-05-21 株式会社デンソー 連続音声認識装置
US4570232A (en) * 1981-12-21 1986-02-11 Nippon Telegraph & Telephone Public Corporation Speech recognition apparatus
US4608708A (en) * 1981-12-24 1986-08-26 Nippon Electric Co., Ltd. Pattern matching system
JPS58115490A (ja) * 1981-12-29 1983-07-09 日本電気株式会社 パタン間距離計算装置
JP2595495B2 (ja) * 1982-09-03 1997-04-02 日本電気株式会社 パタンマッチング装置
JPS5945583A (ja) * 1982-09-06 1984-03-14 Nec Corp パタンマッチング装置
JPS59172700A (ja) * 1983-03-22 1984-09-29 中川 聖一 パタ−ン比較装置
US4763278A (en) * 1983-04-13 1988-08-09 Texas Instruments Incorporated Speaker-independent word recognizer
US4712243A (en) * 1983-05-09 1987-12-08 Casio Computer Co., Ltd. Speech recognition apparatus
US4868879A (en) * 1984-03-27 1989-09-19 Oki Electric Industry Co., Ltd. Apparatus and method for recognizing speech
JPS60211498A (ja) * 1984-04-05 1985-10-23 日本電気株式会社 連続音声認識装置
JPH0638199B2 (ja) * 1985-09-02 1994-05-18 日本電気株式会社 音声認識装置
US4751737A (en) * 1985-11-06 1988-06-14 Motorola Inc. Template generation method in a speech recognition system
JPS62169199A (ja) * 1986-01-22 1987-07-25 株式会社デンソー 音声認識装置
JPS62220998A (ja) * 1986-03-22 1987-09-29 工業技術院長 音声認識装置
DE3882062T2 (de) * 1987-03-16 1994-01-05 Nippon Electric Co System zum Vergleichen von Mustern.
US5073939A (en) * 1989-06-08 1991-12-17 Itt Corporation Dynamic time warping (DTW) apparatus for use in speech recognition systems
JPH07104952B2 (ja) * 1989-12-28 1995-11-13 シャープ株式会社 パターンマッチング装置
JP2974423B2 (ja) * 1991-02-13 1999-11-10 シャープ株式会社 ロンバード音声認識方法
US5457770A (en) * 1993-08-19 1995-10-10 Kabushiki Kaisha Meidensha Speaker independent speech recognition system and method using neural network and/or DP matching technique

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5555345A (en) * 1991-03-25 1996-09-10 Atr Interpreting Telephony Research Laboratories Learning method of neural network

Also Published As

Publication number Publication date
US5581650A (en) 1996-12-03

Similar Documents

Publication Publication Date Title
US6529872B1 (en) Method for noise adaptation in automatic speech recognition using transformed matrices
JP3114468B2 (ja) 音声認識方法
Cui et al. Noise robust speech recognition using feature compensation based on polynomial regression of utterance SNR
JPH03201079A (ja) パターンマッチング装置
Sarkar et al. Stochastic feature compensation methods for speaker verification in noisy environments
JPH04194999A (ja) 学習を用いた動的計画法
Deoras et al. A factorial HMM approach to simultaneous recognition of isolated digits spoken by multiple talkers on one audio channel
US20240013775A1 (en) Patched multi-condition training for robust speech recognition
JP4960845B2 (ja) 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体
JP5738216B2 (ja) 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム
JPH0486899A (ja) 標準パターン適応化方式
Somervuo et al. Analyzing bird song syllables on the self-organizing map
JPH03201027A (ja) 学習を用いた動的計画法
Ding et al. Learning Structured Dictionaries for Exemplar-based Voice Conversion.
Zen et al. Probabilistic feature mapping based on trajectory HMMs.
Bennani Adaptive weighting of pattern features during learning
International Neural Network Society (INNS), the IEEE Neural Network Council Cooperating Societies et al. Text-dependent speaker identification using learning vector quantization
Sung et al. Factored maximum penalized likelihood kernel regression for HMM-based style-adaptive speech synthesis
CA1229925A (en) Speech recognition method
JP5694976B2 (ja) 分散補正パラメータ推定装置、音声認識システム、分散補正パラメータ推定方法、音声認識方法及びプログラム
Ming et al. A comparative study of methods for handheld speaker verification in realistic noisy conditions
Zhao et al. Variable-activation and variable-input deep neural network for robust speech recognition
Tamulevičius et al. Adequacy analysis of autoregressive model for Lithuanian semivowels
Xiao et al. CA-VC: A novel zero-shot voice conversion method with channel attention
JPH01204171A (ja) 学習機構を有するダイナミック・ニューラル・ネットワーク