JPS58224394A - 連続単語音声認識装置 - Google Patents

連続単語音声認識装置

Info

Publication number
JPS58224394A
JPS58224394A JP57107408A JP10740882A JPS58224394A JP S58224394 A JPS58224394 A JP S58224394A JP 57107408 A JP57107408 A JP 57107408A JP 10740882 A JP10740882 A JP 10740882A JP S58224394 A JPS58224394 A JP S58224394A
Authority
JP
Japan
Prior art keywords
word
words
button
continuous
continuous word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57107408A
Other languages
English (en)
Inventor
勝彦 渡辺
元田 洋一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP57107408A priority Critical patent/JPS58224394A/ja
Publication of JPS58224394A publication Critical patent/JPS58224394A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は連続単語音声認識装置における比較操作の方法
を改良し、認識率の向上を図った装置に関する。
従来この種の連続単語音声認識装置(以下認識装置と略
す)は、まず利用者にあらかじめ認識させる単語をひと
通り単独に区切って発生させ(以下孤立単語と呼ぶ)、
単語毎の音声バタンを標準バタンとして装置内に記憶さ
せ(上記操作を標準バタンの登録と呼ぶ)、次に、入力
される連続単語音声(以下入力バタンと呼ぶ)に対して
、各標準バタンとの間で比較操作(バタンマツチング)
を行い、両者の一致の度合(類似度)を調べ、最大一致
の得られる標準バタンの組合せを決定し、これと同じ単
語に属すると判定する方法がある。
この方法を能率よく、かつ精度よく実現する方法として
、動的計画法(ダイナミックプログラミング、以下DP
と略す)tl−利用した認識技術が知られている。(「
特願昭50−132003および132004号」、以
下引用文献と称す)。本引用文献には上記バタンマツチ
ング法によるg識装置の動作原理が記載されている。こ
の原理の概要は次のようである。何個かの単語が連続し
ている入力バタンに対し、何個かの標準バタンtl−あ
らゆる順列で接続することによって得られるバタンを入
力バタンの標準バタンと考えて、入力バタン全体とのマ
ツチングを行なう。この結果得られる類似度が最大とな
るような標準バタンの個数と順列組合せを定めることに
よって認識を行なう。実際には上記最大化を単語単位で
の最大化処理と、全体レベルでの最大化処理に分割し、
各最大化処理をDPを利用して実行することKより、処
理量を低減し実用的な処理速度を達成している。以上述
べた引用文献記載の方法が、従来では最も有効な認識法
であると考えられる。
しかしながら、上述の方法等によや連続単語音声が認識
可能であるとしても、実用に供する場合には、種々の要
因により誤認識が生ずる。特に利用者の発声速度がある
程度速くなると、発音の々まけ等により、孤立単語によ
る標準バタンと入力バタン中の該尚単語バタンとの間で
時間的のみならず周波数構造的にもずれが生じ、単に時
間軸正規化マツチングのみでは対処しきれない場合があ
る、特に孤立単語と連続単語中の該当する単語間では入
力バタンを構成する単語系列により、各単語の端点付近
において、孤立単語の周波数構造と大きく異なることが
ある。例えば数字単語音声「0」、「1」、・・・「9
」を標準バタンとして連続数字を認識する場合を考えて
みよう。一般に、日本語の場合数r6 J 1roku
l  (l lは発音内容を示す)を単独で発声する場
合、語尾の1−kul の部分は有声化することが多い
。一方連続単語中での16」は後続数字により1rok
ulのkuの部分が無声化することがある。例えば後続
数字が「3」1sanlO時には通常無声化し、「63
」はl r−okusanlではなく 1roksan
lと発声される傾向が強い。従って標準バタンとして単
独に発声された数字「6」のみでは、こうしたバタンの
変化に対処できず結果として認識率の低下をひきおこす
ことに々る。同様のことは英語数字に対しても存在する
。例えばr 8 J (eight)、r6J(s−i
x)  における語尾は単独に発声させた場合比較的明
確にL声されるが、後続単語が存在するときには語尾の
1−tl、!−xlはほとんど発声されない場合が多い
このように、単独で発声した単飴ノ(タンと連続単語バ
タン中のそれとは時間的に変化する周波数構造において
、特に単語の端点付近で大きな違いが存在する場合があ
る。この違いに対処するために、標準バタン登録時に、
強制的に発声法を変え、語尾の無声化し九発声、あるい
は通常の発声とは異なる不自然な発声法を行ない標準)
(タンに登録する方法も考えられるが、上記方法では連
続単語中での単語内の変化に対し、十分に対処できる単
語バタンを得ることは困難であり、ま九利用者にも余分
な負担を与え、現実的方法とはいえない。
上述のように、従来の孤立単語のみで標準)くタンを構
成する認識装置においては、連続単語中で生ずる周波数
構造の変化に十分対処することが困難となり、認識率が
低下するという問題があった。
本発明の目的は、入カッくタンの時間的変動や周波数構
造的変化の影響を弱めることにより上述の問題点を除去
できる連続単語認識装置を提供することにある。
本発明の特徴は、入力バタンの変動や変化が孤立単語の
端点に相当する部分に大たくあられれることに注目して
、単語単位での最大化処理を行う際に、標準バタンの端
点に近づくに従い入カッ(タンとの類似比較の尺度(重
み)を相対的に小さくすることKよシ、全体レベルでの
最大化処理が確実に々る。即ち高精度で連続単語音声を
認識するようにしたことにある。従ってこの発明による
連続単語音声認識装置は、前述の連続単語中の周波数構
造の変化に対し十分対処することが可能となり、従来装
置に較べ、より高い認識性能を達成できる。
次に図面を参照して本発明の詳細な説明する。
最初に本発明の装置が実行する動作原理を数式的に表現
すると次のようになる。マイクロホ′ン等により入力さ
れる音声信号は周波数分析回路により分析処理され、周
波数構造等を表わす多次元特徴ベクトルai の時系列
バタンAとして表わすことができる。
A”’ as + ”z + ”’+ ai 、”’+
 ap    (1)一方単独に発声された各単語(孤
立単語)パタンも、同様に分析され時系列パタンBとし
て表わすことができる。
Bn”” bl + b2 + ”’+bj +  ”
’ ”’   (2)nは単語を識別するための添字で
ある。
kを連続単語に含まれる単語数として最大問題T = 
(m(kl[:S (A 、 Bn(1)(E) 33
n(”)(i) 、、、■Bn(kl)〕〕     
    ・・・・・  (3)を計算し、最適なパラメ
ータ(単語名) nfkl =’Wk)(k=1.2.
・・・、K)を求め、同時に区分点1(kl点を求める
。ここで■はパタンの接続を表わす演算子である。例え
ばB 08mは fi    m    nn B■B  =b1.b2.  ・・・・・bJ:lbl
  bi+bB   (4) (3)式の最大化をkおよびn (klに関する総当り
法で計算すると膨大な計算量が必要となるが、引用文ハ 献と同様に(3)式の最大化計算を単語単位での処理と
全体としての処理の2段階に分割することで実用的な処
理速度を可能とする。すなわち、(1)式で表わされる
入力バタンAの1−1+1よりi=mまでの部分区間と
して部分パタンA(fi、m)を定義する。
A (Lm)=aL+−1、afi+2 、 ・、am
以下では、!lを始点、mを終点と称する。いま入力バ
タンAに(K−1)個の区分点1) 、 N(2) 、
・・・ffi fk+・・・、1(10゜ 1〈Q(1)〈υ(2)〈・・・・・−<1(k=)−
J(6)−Iを仮定して、入力バタンAt−に個の部分
パタンに分割する。
A=A (1、ff1(1))■A(ρ(1)、 ff
1(2))■・・・■A(fi(k−1)、tlfkl
)■・・・・・・■A(Q(K−1)、I)・・・(5
)一方、パタン間の時間軸正規化類似度を定義すると、
類似度S(A、B)はパタンの接続分解に関して次の性
質を有する。
S(A、 B”08m)−max(S(A(1,fl)
 、 B”)■υ 5(A(fi、I)、B”)](6) (3)式に(5)式を代入し、さらK (6)式の関係
を繰返しとなり、(7)式の最大化問題は次のように分
解して計算することができる。
(1)類似度 5(A(Q、m)  、B”)    
  (8)をすべてのi<mなる部分区間 A(fi、m)  と孤立単語パタンBnの組合せに関
して算出する。
(2)部分類似度 △ 5(II、m)−max(S(A(Q、m)、Bn):
)  (9)部分判定結果 9(n、m)=argmax[5(A(R,m) 、B
n):)αQを計算し、テーブルに記憶する。ここにa
rg−ma梱なる記号は0の最大を与える変数nを算(
1時式の最大問題は次の漸化式により計算できる。
初期値 To(1り=o、氾−1,2.・・、IK=1
.2.・・、に漸化式 m=1.2.−、I、に=1.
2.−に仮置分点 Lk(m)= argmax[Tk−1(Q)+Q(f
i、m)]  (IIρ 仮判定結果 Nk(ml=☆(Lk(ml9m)04(1→、α埠、
α◆式の計算はに、mに関して増加する方向に計算する
。以上の処理が終了すると、cl1式のLk□から区分
点仝(X)が次のように決定される。
△ υ(K−1)=L (I)  より順次逆登って仮置分
点△ Q (k)を 令fk)= Lk+” (令(kl1))、(k=1.
2.・・K−1)9時として、仮区分点しくニ)のテー
ブルを参照して求△ め、それに従って、判定結果n (klが、04式の仮
判定結果よシ ζ(kl = N’ (す(kl) 、 (k=1 、
2.・・・、K)    αQとして参照することで得
られる。
以上の操作により、連続単語を構成する各単語の区分点
と単語名が金(k) 、 (k=1 、2 、・・・、
に−1) 。
沓fk)、 (k=t 、 2 、・・・、K)として
決定される。
第1図は、本発明により連続単語を認識する方法を示す
ものである。連続単語音声信号はマイクロホン10より
入力され、分析部11により分析され連続単語バタンA
として(1)式で示される特徴ベクトルa1の時系列と
して入力バタンバッファ12に記憶される。一方孤立単
語バタンBnは(2)式で示されるベクトルbjの時系
列として、標準バタン記憶部13に記憶される。第1マ
ツチング部14では次式で定義される漸化式を各孤立単
語バタンBnとバタンAの部分バタンA(j、m)に関
し入力バタンベクトルamが入力される毎に(8)式の
類似度Sを算出する。即ち 初期条件 r(ilj″)−s(am、bj”) i=
m αη=o       i)m 11#’l″、+。−5・−r <; i (、j+□
−1・や、 。
なる漸化式計算をj ””J”+ j” ”、j”−2
+・・・、1の順序で実行し、類似度    ゛ ・5(A(n 、m) 、B”)=g(ffi+1 、
1)      G!1をm−J”−r≦象≦m−J”
+r          G21)なる範囲で算出する
ここでW(j)は重み関数であり、規格化された重み関
数をJ’の大きさく応じて伸張させたものである。これ
は重み関数発生部22で発生され第1マツチング部へ送
られる。
上述の方法により結果として(9)式で示される部分類
似度Fl、m)およびα1式で示される部分△ 判定結果N(1,m)tl−それぞれ部分類似度記憶部
159部分判定結果記憶部16に出力する。第2マツチ
ング部17では、部分類似度記憶部15より上記部分類
似度Q(ffi、m)を読み出し、同時に漸化式値記憶
部18から、N(mなる(6)式の漸化式値T  (1
)を、kを一定として、読み出しながら漸化式値Tk(
ホ)を算出し、漸化式値記憶部18に出力する。同様に
仮置分点しk(ホ)を01式を算出して、仮置分点記憶
部19に出力する。仮判定結果Nk□は01式にもとづ
−て部分判定結果☆11 (Il、m)と、仮置分点Lk(ホ)を参照して算出さ
れ、仮判定結果記憶部20に出力される。第2マツチン
グ部17では上記操作を単語数設定端子により入力され
る値を基にに=1から始め、k=に捷で順次kを増加さ
せながら実行する。かくのごとく構成された装置におい
て単語系列の既知なる連続単語バタンAの始点a1から
終点altで全順次入力させて上述の動作を実行させる
ことで、区分点に関する値Lkに)と単語名を決定する
値Nk画がすべてのm−(1t 2 +・・・I)k−
(1,ス・・・、k)について得られる。判定部21で
は、それぞれ仮置分点記憶部19内の仮置分点Lk(ホ
)と仮判定記憶部20内の仮判定結果Nk−とを参照し
て、(ロ)式に従ってに=i1つづつデクリメントしな
がら順△      △        △ 次fl(k−1)、fl(k−2)、・・、兎(1)を
決定へ する。同様にして99式に従って各単語名noc−t)
+△      △ n(k−2)+・・、n(1)を決定する。
以上連続単語を認識する方法を説明した訳であるが01
式の制約条件下で(イ)式の類似度計算を実行する際に
重み関数Wlj)を第2図に示すような値に設定すると
仮置分点近傍で生じたパターンの変動・変化の影響を小
さくせしめることが可能となり、高精度で連続単語の認
識を行うことができる。
以上本発明の実施態様を説明したが、これらの記載は本
発明の範囲を限定するものではない。例えば本明細書で
は類似度を基にして動作を説明したが、距離のように大
小関係が逆の尺度によっても同様な処理が可能である。
また抽出する部分を単語として説明したが複数の音節か
らなる語句でも同様に処理することができる。さらに、
入力音声バタンと標準バタンとの類似度を動的計画法で
説明したが、動的計画法に限定するものではない。
【図面の簡単な説明】
第1図は連続単語認識の実施態様を示す構成図、第2図
は単語と単語の接続点近傍での音声バタン変動・変化が
認識性能に及ぼす影Wt極小化せしめる重み関数の一例
を示すものである。 図において、10・・・・・・マイクロホン、11・・
・・・分析部、12・・・・・・入力バタンバッファ、
13・・・・標準バタン記憶部、14・・・・・・第1
マツチング部、15・・・・・・部分類似度記憶部、1
6・・・・・・部分判定結果記憶部、17・・・・・・
第2マツチング部、18・・・・・・漸化式値記憶部、
19・・・・・・数置分点記憶部、20・・・・・・仮
判定結果記憶部、21・・・・・・判定部、22・・・
、・・重み関数発生部。

Claims (1)

    【特許請求の範囲】
  1. 単語毎に区切って発声された音声バタン(孤立単語)を
    用い、連続に発声された連続単語バタンに対し、孤立単
    語パタンを任意の順列で組み合せ、この組み合されたバ
    タンと連続単語バタンとの間で比較操作を行い両者の一
    致の度合を調べる連続単語音声を認識する装置にあって
    、隣接する孤立単語の接続点近傍においては比較操作の
    際重みを変化させることを特徴とする連続単語音声認識
    装置。
JP57107408A 1982-06-22 1982-06-22 連続単語音声認識装置 Pending JPS58224394A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57107408A JPS58224394A (ja) 1982-06-22 1982-06-22 連続単語音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57107408A JPS58224394A (ja) 1982-06-22 1982-06-22 連続単語音声認識装置

Publications (1)

Publication Number Publication Date
JPS58224394A true JPS58224394A (ja) 1983-12-26

Family

ID=14458386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57107408A Pending JPS58224394A (ja) 1982-06-22 1982-06-22 連続単語音声認識装置

Country Status (1)

Country Link
JP (1) JPS58224394A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59198A (ja) * 1982-06-25 1984-01-05 中川 聖一 パタ−ン比較装置
JPS6358400A (ja) * 1986-08-28 1988-03-14 日本電気株式会社 連続単語音声認識装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59198A (ja) * 1982-06-25 1984-01-05 中川 聖一 パタ−ン比較装置
JPH0247758B2 (ja) * 1982-06-25 1990-10-22 Seiichi Nakagawa
JPS6358400A (ja) * 1986-08-28 1988-03-14 日本電気株式会社 連続単語音声認識装置

Similar Documents

Publication Publication Date Title
White et al. Speech recognition experiments with linear predication, bandpass filtering, and dynamic programming
US4403114A (en) Speaker recognizer in which a significant part of a preselected one of input and reference patterns is pattern matched to a time normalized part of the other
US20050060153A1 (en) Method and appratus for speech characterization
JPS5972496A (ja) 単音識別装置
JPS6131477B2 (ja)
EP0162255B1 (en) Pattern matching method and apparatus therefor
EP0103258B1 (en) Pattern matching apparatus
JPS58224394A (ja) 連続単語音声認識装置
JPS6312312B2 (ja)
US6438521B1 (en) Speech recognition method and apparatus and computer-readable memory
JPS59127098A (ja) 連続単語音声認識装置
JP2003271185A (ja) 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
JP2005115386A (ja) 誤認識予測方法
JPH0211919B2 (ja)
JPS5915993A (ja) 音声認識装置
JPH0554678B2 (ja)
JP2707577B2 (ja) ホルマント抽出装置
JPS59219799A (ja) 音声認識装置
JPS60147797A (ja) 音声認識装置
JPS60164800A (ja) 音声認識装置
JPS5898794A (ja) パタンマツチング装置
JPH0223876B2 (ja)
Yu Using duration information in HMM-based automatic speech recognition
US20050234712A1 (en) Providing shorter uniform frame lengths in dynamic time warping for voice conversion
JPS61232500A (ja) 連続単語音声認識装置