JPH0361956B2 - - Google Patents

Info

Publication number
JPH0361956B2
JPH0361956B2 JP57154903A JP15490382A JPH0361956B2 JP H0361956 B2 JPH0361956 B2 JP H0361956B2 JP 57154903 A JP57154903 A JP 57154903A JP 15490382 A JP15490382 A JP 15490382A JP H0361956 B2 JPH0361956 B2 JP H0361956B2
Authority
JP
Japan
Prior art keywords
pattern
matching
integral
optimal
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP57154903A
Other languages
English (en)
Other versions
JPS5945583A (ja
Inventor
Takao Watanabe
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP57154903A priority Critical patent/JPS5945583A/ja
Priority to DE8383108773T priority patent/DE3374908D1/de
Priority to EP83108773A priority patent/EP0103258B1/en
Publication of JPS5945583A publication Critical patent/JPS5945583A/ja
Priority to US07/165,394 priority patent/US4802226A/en
Publication of JPH0361956B2 publication Critical patent/JPH0361956B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 本発明は音声パタンのような特徴ベクトルの系
列として表わされるパタンの比較を行うパタンマ
ツチング装置の改良に関する。
パタン認識の方法として認識すべきパタンをあ
らかじめ標準パタンとして登録しておき、認識時
に入力される未知パタンを標準パタンと比較し最
も距離の小さいものを認識結果として決定するパ
タンマツチング法は従来から広くから用いられて
いる。
音声パタンのように特徴ベクトルの時系列とし
て表わされるパタンでは発声速度の変動のような
時間的な変動に対処することが重要であるが、動
的計画法を利用した時間軸正規化マツチング法
(日本音楽会誌Vol.27No.9P483、以下DP法と称
す)は非常に有効な方法として離散単語認識、連
続単語認識等に広く実用に供されている。
DP法は、また連続音声認識への適用も可能で
ある。日本語は、音節の系列として表わされる
が、通常、日本語の音節は子音(C)と母音(V)とから
構成されている。したがつて入力された音声を
CVCV……CVの系列とみなすことが可能である。
このとき、CVパタンやVCVパタンを一種の単語
として扱うことにすれば、CV標準パタンやVCV
標準パタンを用いて従来の連続単語認識の方式
(例えば前掲文献)を適用することができる。
この場合、標準パタンの用意の方法として次の
ようなものが一般に考えられる。
(1) CVパタンを用意する。この場合には、標準
パタン数は少くてすむが、V→Cへの変化を記
述する標準パタンが用意されないので、認識精
度が下がることが予想される。また、一般に連
続音声中で子音の開始点を見出すことは必ずし
も容易でないので、標準パタンとのマツチング
を行う区間を決定するのが難しい。
(2) VCVパタンを用意する。この場合には標準
パタンはV→C、C→Vへの両方の変化を記述
しているので高い認識精度が期待できるが、
VCVパタンの種類は非常に多いので、標準パ
タンの登録の負担、記憶容量、処理量の負担が
大きくなる。
また、マツチング区間の境界は母音であるの
で、入力音声中の母音を見出すことができれ
ば、これよりマツチング区間を容易に決定する
ことができる。
(3) CVパタン及びVCパタンを用意する。この場
合には(2)と同様高い認識精度が期待でき、また
標準パタンの種類も(2)より少なくてすむ。反面
VCに相当する区間を切り出すことは容易では
ない。
上記の方法はいずれもそれぞれ長所、短所をも
つているが、(3)の方法においてV→Cへの変化を
記述するためのパタンとしてVCパタンのかわり
にVCVパタンを用い、VCVパタンのVC部分と
CVパタンを接続したパタンを用いてVCVを単位
としたマツチングを行うことができれば、認識精
度の点でも、標準パタンの登録の負担、記憶容量
処理量の点でも、またマツチング区間の切り出し
やすさの点でも優れたマツチングが実現される。
本発明は、標準パタンとしてCVパタン及び一
部のVCVパタンを用意し、VCVを単位としたマ
ツチングを行うことにより、マツチング区間の切
り出しが容易であり、かつ標準パタン登録の負
担、記憶容量、処理量とも少ないパタンマツチン
グ装置を提供することを目的としている。
VCVを単位としたマツチングでは入力音声中
の母音と思われる部分をVCV境界の候補とする
ことにより、マツチング区間を見出すことができ
る。今、入力音声が特徴ベクトルの系列で表わさ
れているとし、入力音声から切出されたある
VCV区間の特徴ベクトル系列を {a(1)、…、a(i)、…a(I)} とする。また、このパタンとマツチングを行なう
VCVパタンをV1CV2と表わす。このとき標準パ
タンとしてV1CVの標準パタン(Vは任意)、及
びCV2の標準パタンが用いられる。これらのパタ
ンは一般に複数個存在してよいが説明をわかりや
すくするため以下では、それぞれ1個のパタンが
存在する場合を考える。V1CVの標準パタンの特
徴ベクトル系列を {b1(1)、…、b1(j)、…、b1(J1)} CV2の標準パタンの特徴ベクトル系列を {b2(1)、…、b2(j)、…、b2(J2)} とする。
V1CV2はV1CVパタンとCV2パタンを合成した
形のパタンであるからV1CVパタンのV1C部分と
CV2パタンを接続するこによりマツチングを行
う。
このため、まずV1CVパタンに対しては正時間
方向に、CV2パタンに対しては逆時間方向にDP
マツチングを行う。すなわち特徴ベクトルa(i)と
b1(j)(又はb2(j))との距離d(i、j)に関する
積分量について、次の漸化式を求める。
正時間方向の積分量g1(i、j)に関して、初
期条件g1(1、1)=d1(1、1)として、漸化式 g1(i、j)=mind(i、j)+g1(i
+1、j) d(i、j)+g1(i+1、j+1) d(i、j)+g1(i+1、j+2) (1) j=1、…、J1 をi=1からi=Iまで順次求める。式(1)はI×
J1の時間点の格子上で第1図1に示す傾斜制限及
び荷重で点(1、1)から点(I、J1)まで距離
を積分することに対応している。
また、逆時間方向の積分量g2(i、j)に関し
て、初期条件 g2(I、J2)=d2(I、J2)として漸化式 g1(i、j)=mind(i、j)+g1(i
+1、j) d(i、j)+g1(i+1、j+1) d(i、j)+g1(i+1、j+2) (2) j=J2、J2−1、…、2、1 をi=Iからi=1まで順次求める。式(2)は第1
図2に示す傾斜制限及び荷重で点(I、J2)から
点(1、1)まで距離を積分することに対応して
いる。
次に上の2つのDPマツチングの結果を結合す
ることによりV1CV2に対するマツチング結果を
得る。このような正時間、逆時間のマツチングを
結合する方法としては逆DPマツチング法(日本
音響学会講演論文集2−2−18(1979、10月)参
照)と呼ばれる方法がある。この方法は基本的に
は2単語の連続単語認識のために提案された方法
であり、入力の各時間点iにおいて、正方向の積
分量と逆方向の積分量の和 g′(i)=g1(i、J1)+g2(i、1) (3) を求め、さらに g*= mini g′(i) (4) を求めることにより最適な(最小の)積分量をも
つ2単語系列を決定するものである。
第2図は、この逆DPマツチング法の原理を説
明するための図である。図より明らかなように式
(3)は、入力音声の第iフレームを単語境界とした
ときの正時間方向マツチングの結果と逆時間方向
のマツチングの結果との和すなわち2単語系列と
のマツチング結果となつている。式(4)は、このよ
うな2単語系列とのマツチング結果の中で距離の
積分量が最小となる単語境界を見出すものであ
る。
しかしながら逆DPマツチング法は2単語の連
続として認識することを目的としているので、
V1CVパタンとCV2パタンとのマツチング結果か
らV1CV2パタンに対するマツチング結果を得る
ための方法として直接適用することはできない。
すなわち逆DPマツチング法を適用するとV1CV
パタンの終端にCV2パタンの始端を接続したパタ
ンと入力パタンとのマツチングが行われてしま
う。
したがつて本発明では、V1CVパタンについて
は終端開放としV1CVパタンのどの位置にCV2
タンの始端が接続してもよいようにする。すなわ
ち、入力の各時間点iにおいてV1CVパタンに対
しては g1 *(i)= minj =1、…、J1g1(i、j) (5) CV2パタンに対しては g2 *(i)=g2(i、1) (6) を求め、さらに g*= mini {g1 *(i)+g2 *(i)} (7) により最適な積分量を求める。第3図に示すよう
に式(5)は入力パタンの第iフレームより前の部分
とV1CVパタンをV1CVパタンについては終端開
放でマツチングさせた結果を示し、式(6)は入力パ
タンの第iフレーム以降の部分とCV1パタンを両
端固定してマツチングさせた結果を示す。式(7)は
入力パタン全体と、終端開放としたV1CVパタン
と始端固定したCV2パタンを接続したものとの最
適なマツチング結果となつている。
結局、本発明は従来の逆DPマツチング法に終
端開放の条件を新たに導入することにより、標準
パタンとして存在しないVCVパタンに対しても
VCVを単位としたマツチングを実現している。
本発明による装置は特徴ベクトル系列として表
わされる入力パタンA={a(1)、…、a(i)、…、
a(I)}を格納する入力パタン記憶部と、特徴ベク
トル系列として表わされる第1の標準パタンB1
={b1(1)、…、b1(j)、…、b1(J1)}及び第2の標
準パタンB2={b2(1)、…、b2(j)、…、b2(J2)}を
格納する標準パタン記憶部と、指定されたi、j
に対して特徴ベクトルa(i)とb1(j)ないしb2(j)との
距離dを計算する距離計算部と、指定された
(i、j)における距離の積分量g(i、j)を現
時点(i、j)の距離と過去の距離及び過去の積
分量を用いて算出する漸化式の計算を、第1標準
パタンに対しては(i、j)=(1、1)から
(I、J)まで正時間方向に行ない、第2標準パ
タンに対しては(i、j)=(I、J)から(1、
1)まで逆時間方向に行ない積分量の集合を得る
漸化式計算部と、指定されたiにおける最適積分
量を、正方向積分量に対しては前記により得られ
た正方向積分量の集合{g(i、j)、j=、…、
J}のうちの最小値として、また逆方向積分量に
対しては始端(すなわちj=1)のとき積分量g
(i、1)の値として算出する最適積分量計算部
と、上記正方向最適積分量{g1(i)、i=1、…、
I}及び逆方向最適積分量{g2(i)、i=1、…、
I}を格納する最適積分量記憶部と、各iに対し
て正方向最適積分量と逆方向最適積分量の和g*
(i)=g1(i)+g2(i)を算出し、これらの最小値を求め
ることにより入力パタンと標準パタンとの距離を
算出するマツチング距離算出部とを含んで構成さ
れる。
以下に本発明の原理を図面を参照して説明す
る。第4図は本発明による装置の一実施例を示す
ブロツク図である。入力パタン記憶部1、第1標
準パタン記憶部2a、第2標準パタン記憶部2b
にはそれぞれ入力パタンA、V1CVパタンB1
CV2パタンB2と特徴ベクトル系列{a(1)、…、
a(I)}、{b1(1)、…、b1(J1)}、{b2(1)、…、b2
(J2)}が格納される。3はマルチプレクサで制御
部9の指定を制御信号により第1、第2標準パタ
ン記憶部2a,2bのいずれかを選択する。4は
距離計算部で漸化式計算部5により指定された
i、jに対して距離d(i、j)を計算し結果を
漸化式計算部5へ出力する。漸化式計算部5は、
制御信号がk=1のときは式(1)により正方向積分
量g1(i、j)をi=1、j=1からi=I、j
=J1まで計算し、K=2のときは式(2)により逆方
向積分量g2(i、j)をi=I、j=J2からi=
1、j=1まで計算する。6は最適積分量計算部
で、漸化式計算部5で計算された積分量から、制
御信号K=1のときは式(5)を、K=2のときは式
(6)を用いて最適積分量{g1 *(i)、i=1、…、I}
又は{g2 *、i=1、…、I}を計算し、最適積
分量記憶部7へ格納する。8はマツチング距離算
出部であり、最適積分量記憶部7上の最適積分量
を読み出し、式(7)によりマツチング距離を算出
し、マツチング結果として出力する。9は制御部
であり、第1標準パタンと入力パタンとの間で正
方向DPマツチングを、第2標準パタンと入力パ
タンの間で逆方向DPマツチングを行うよう制御
信号Kによつて漸化式マルチプレクサ3計算部5
及び最適積分量計算部6を制御する。
以上、本発明の原理を述べたが、DPの漸化式
として非対称形の式(1)、(2)を用いていた。DPの
漸化式としてはこの他にも対称形のものがある。
例えば式(1)のかわりに g1(i、j)=d(i、j)+g1(i−1
、j) d(i、j)+g1(i、j−1) 2d(i、j)+g1(i−1、j−1) (1′) 式(2)のかわりに g2(i、j)=d(i、j)+g2(i+1
、j) d(i、j)+g2(i、j+1) 2d(i、j)+g2(i+1、j+1) (2′) を用いることができる。
非対称形よりも対称形の方が高い認識性能を示
すことが実験的に確認されている(日本音響学会
講演論文集P326(昭51、10月)が、この場合に
は、積分量g2、g1は入力パタン及び標準パタンの
長さで正規化する必要がある。通常両端固定のマ
ツチングの場合には終端で得られた積分量を比較
する2つのパタンの長さの和で正規化される。例
えば比較する2つのパタンの長さをそれぞれI、
Jとすると最終的にマツチング距離は G=1/I+Jg(I、J) となる。同様の考え方を本発明に適用すると、例
えば式(7)のかわりに g*= mini 1/I+(i/1)J1+J2(g1 *(i)+g2 *(i)) (7′) を用いることができる。式(7′)では、入力パタ
ンの長さ、第1標準パタンの長さ、第2標準パタ
ンの長さの荷重和で正規化が行われている。
したがつて、漸化式(1′)及び(2′)を用いる
場合には、本発明による装置ではマツチング距離
算出部は、各iにおける正方向最適積分量と逆方
向最適積分量の和g*(i)を入力パタン及び第1、
第2標準パタンの荷重和で除すことにより正規化
した後これらの最小値を求めるものとして構成さ
れる。本発明はこのようなマツチング距離算出部
を含むことによりより高い認識性能を示す対称形
DPマツチングを用いたパタンマツチング装置を
提供することが可能となる。
【図面の簡単な説明】
第1図は本発明における漸化式の一例を示す図
である。第2図は逆DPマツチング法の原理を示
す図である。第3図は本発明の原理を示す図であ
る。第4図は本発明による一実施例を示すブロツ
ク図で、図中1,2a,2bは記憶部、3はマル
チプレクサ、4は距離計算部、5は漸化式計算
部、6は最適積分量計算部、7は最適積分量記憶
部、8はマツチング距離算出部、9は制御部であ
る。

Claims (1)

  1. 【特許請求の範囲】 1 特徴ベクトル系列として表わされる入力パタ
    ンA={a(1)、…、a(1)、…、a(1)}を格納する
    入力パタン記憶部と、特徴ベクトル系列として表
    わされる第1の標準パタンB1={b1(1)、…、b1
    (j)、…b1(J1)}及び第2の標準パタンB2={b2(1)、
    …、b2(j)、…b2(J2)}を格納する標準パタン記憶
    部と、指定されたi、jに対して特徴ベクトルa
    (i)とb1(j)ないしb2(j)との距離dを計算する距離計
    算部と、指定された(i、j)における距離の積
    分量g(i、j)を現時点(i、j)の距離と過
    去の距離及び過去の積分量を用いて算出する漸化
    式の計算を、第1標準パタンに対しては(i、
    j)=(1、1)から(I、J)まで正時間方向行
    ない、第2標準パタンに対しては(i、j)=
    (I、J)から(1、1)まで逆時間方向に行な
    い積分量の集合を得る漸化式計算部と、指定され
    たiにおける最適積分量を、正方向積分量に対し
    ては前記により得られた正方向積分量の集合{g
    (i、j)、j=1、…、J}のうちの最小値とし
    て、また逆方向積分量に対しては始端(すなわち
    j=1)のときの積分量g(i、1)の値として
    算出する最適積分量計算部と、上記正方向最適積
    分量{g1(i)、i=1、…、I}及び逆方向最適積
    分量{g2(i)、i=1、…、I}を格納する最適積
    分量記憶部と、各iに対して正方向最適積分量と
    逆方向最適積分量の和g*(i)=g1(i)+g2(i)を算出
    し、これらの最小値を求めることにより入力パタ
    ンと標準パタンとの距離を算出するマツチング距
    離算出部とを含んで構成されることを特徴とする
    パタンマツチング装置。 2 上記マツチング距離算出部は、各iにおける
    正方向最適積分量と逆方向最適積分量の和g*(i)
    を入力パタン及び第1、第2標準パタンの長さの
    荷重和で除すことにより正規化した後これらの最
    小値を求めることを特徴とする特許請求の範囲第
    1項に記載のパタンマツチング装置。
JP57154903A 1982-09-06 1982-09-06 パタンマッチング装置 Granted JPS5945583A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP57154903A JPS5945583A (ja) 1982-09-06 1982-09-06 パタンマッチング装置
DE8383108773T DE3374908D1 (en) 1982-09-06 1983-09-06 Pattern matching apparatus
EP83108773A EP0103258B1 (en) 1982-09-06 1983-09-06 Pattern matching apparatus
US07/165,394 US4802226A (en) 1982-09-06 1988-02-29 Pattern matching apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57154903A JPS5945583A (ja) 1982-09-06 1982-09-06 パタンマッチング装置

Publications (2)

Publication Number Publication Date
JPS5945583A JPS5945583A (ja) 1984-03-14
JPH0361956B2 true JPH0361956B2 (ja) 1991-09-24

Family

ID=15594476

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57154903A Granted JPS5945583A (ja) 1982-09-06 1982-09-06 パタンマッチング装置

Country Status (4)

Country Link
US (1) US4802226A (ja)
EP (1) EP0103258B1 (ja)
JP (1) JPS5945583A (ja)
DE (1) DE3374908D1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62220998A (ja) * 1986-03-22 1987-09-29 工業技術院長 音声認識装置
DE69028072T2 (de) * 1989-11-06 1997-01-09 Canon Kk Verfahren und Einrichtung zur Sprachsynthese
JPH04194999A (ja) * 1990-11-27 1992-07-14 Sharp Corp 学習を用いた動的計画法
JP3066920B2 (ja) * 1991-06-11 2000-07-17 キヤノン株式会社 音声認識方法及び装置
JPH04362698A (ja) * 1991-06-11 1992-12-15 Canon Inc 音声認識方法及び装置
WO2003034402A1 (de) * 2001-10-11 2003-04-24 Siemens Aktiengesellschaft Verfahren zur erzeugung von sprachbausteine beschreibenden referenzsegmenten und verfahren zur modellierung von spracheinheiten eines gesprochenen testmusters
WO2011039764A2 (en) * 2009-09-08 2011-04-07 Tata Consultancy Services Ltd Word recognition system
US10056080B2 (en) * 2016-10-18 2018-08-21 Ford Global Technologies, Llc Identifying contacts using speech recognition
CN111986698B (zh) * 2019-05-24 2023-06-30 腾讯科技(深圳)有限公司 音频片段的匹配方法、装置、计算机可读介质及电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3816722A (en) * 1970-09-29 1974-06-11 Nippon Electric Co Computer for calculating the similarity between patterns and pattern recognition system comprising the similarity computer
US4059725A (en) * 1975-03-12 1977-11-22 Nippon Electric Company, Ltd. Automatic continuous speech recognition system employing dynamic programming
US4489434A (en) * 1981-10-05 1984-12-18 Exxon Corporation Speech recognition method and apparatus

Also Published As

Publication number Publication date
US4802226A (en) 1989-01-31
EP0103258B1 (en) 1987-12-09
DE3374908D1 (en) 1988-01-21
JPS5945583A (ja) 1984-03-14
EP0103258A1 (en) 1984-03-21

Similar Documents

Publication Publication Date Title
JP2595495B2 (ja) パタンマッチング装置
CN106611598A (zh) 一种vad动态参数调整方法和装置
JPH0361956B2 (ja)
JP3039623B2 (ja) 音声認識装置
KR100551953B1 (ko) 피치와 엠.에프.씨.씨를 이용한 성별식별 장치 및 방법
JP3353334B2 (ja) 音声認識装置
JPS59161782A (ja) パタ−ン・マツチング方法
JP2001083978A (ja) 音声認識装置
JPH0436400B2 (ja)
JP2926784B2 (ja) Hmm作成装置
JPH05241593A (ja) 時系列信号処理装置
JP2577891B2 (ja) 単語音声予備選択装置
JPH0336436B2 (ja)
JPS5972578A (ja) パタ−ン比較装置
JPH0223876B2 (ja)
JPS61200596A (ja) 連続音声認識装置
JPS58159598A (ja) 単音節音声認識方式
JPH0311479B2 (ja)
JPH0574836B2 (ja)
JPH0361955B2 (ja)
JPH0577080B2 (ja)
JP2006259470A (ja) Hmm作成装置およびそれを用いた尤度計算装置、時系列パタン認識装置
JPS6147994A (ja) 音声認識方式
JPH01262597A (ja) 音声認識装置
JPH0247759B2 (ja)