JP2841404B2 - 連続音声認識装置 - Google Patents

連続音声認識装置

Info

Publication number
JP2841404B2
JP2841404B2 JP1006185A JP618589A JP2841404B2 JP 2841404 B2 JP2841404 B2 JP 2841404B2 JP 1006185 A JP1006185 A JP 1006185A JP 618589 A JP618589 A JP 618589A JP 2841404 B2 JP2841404 B2 JP 2841404B2
Authority
JP
Japan
Prior art keywords
value
memory
network
address
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1006185A
Other languages
English (en)
Other versions
JPH02186398A (ja
Inventor
和永 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP1006185A priority Critical patent/JP2841404B2/ja
Priority to EP90100522A priority patent/EP0378212B1/en
Priority to DE69028021T priority patent/DE69028021T2/de
Priority to US07/464,084 priority patent/US5086472A/en
Publication of JPH02186398A publication Critical patent/JPH02186398A/ja
Application granted granted Critical
Publication of JP2841404B2 publication Critical patent/JP2841404B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Interface Circuits In Exchanges (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、連続的に発声した連続音声を認識する連続
音声認識装置の改良に関するものである。
(従来の技術) 従来、連続的に発生した音声を予め定められた文法に
しがたって認識する方法として、例えば電子情報通信学
会論文誌DVo1.J71−DNo.9の第1650頁から1659頁に「フ
レーム同期化、ビームサーチ、ベクトル量子化の統合に
よるDPマッチングの高速化」と題して発表された論文
(以下引用文献1と称す)に示されているような文法が
ある。これは、単語単位の標準パターンを正規文法を表
す有限状態オートマトンに従って結合したものを基にDP
マッチングにより連続音声を認識する方法である。この
方法によれば適度な計算量により連続音声を認識するこ
とが可能である。このような、有限状態オートマトンに
従って連続音声を認識する方法には、ここに示した方法
の他にも、例えば(社)電子情報通信学会編、中川聖一
著「確率モデルによる音声認識」(以下文献2と称す)
の第29頁に述べられているような「隠れマルコフモデ
ル」(以下HMMと呼ぶ)を用いた方法もある。連続音声
の認識には、文献2の第46頁に述べられているようにビ
タビアルゴリズムを用いることにより実現できる。
以下、文献1の述べられている、有限状態オートマト
ンで表現された文法を用いてフレーム同期DPマッチング
により連続音声を認識する場合について述べる。文献2
に述べられているようなHMMを用いる方法も、連続音声
を認識するための基本的な処理法は同じであるので同様
に扱えることは言うまでもない。また、以下認識単位と
して単語を用いる場合について説明するが、例えば音素
など単語以外の単位を用いることができることも言うま
でもない。
入力された音声パターン(入力パターン)は特徴の時
系列、 A=a1,a2,……ai,……a (1) として表現できる。認識する単語をnとすると、標準パ
ターンは、 Bn=Bn1,Bn2,……Bnj,……BnJn (2) と表せる。入力パターンの特徴aiと標準パターン特徴B
njの間の距離を、d(n;i,j)とする。単語レベル処理
として、以下に示す累積値gに対するDP漸化式を解くこ
とにより単語間距離を求めることができる。同時に経路
値Lを計算することにより連続音声認識を行った場合の
認識結果をバックトレースすることができる。
初期値:g(n;i,0)=0 L(n;i,0)=i (3) g(n;i,j)=d(n;i,j)+min[g(n;i−1,j),g
(n;i−1,j−1),g(n;i−1,j−2)] (4) [1]L(n;i,j)=L(n;i−1,j) [2]L(n;i−1,j−1) [3]L(n;i−1,j−2) (5) (5)式における[x]は(4)式のmin[]の処理
においてx番目のものが最小であった場合選択されるこ
とを示す。入力パターンのフレームiにおける単語間距
離はg(n;i,j,n)として求められる。また、そのとき
の標準パターンに対する入力パターンの始端のフレーム
は経路値L(n;i,jn)として求められる。(3)式では
累積値の初期値として0を与えたが、文レベル処理とし
て有限状態オートマトンに従って直前の単語の累積値を
与え、かつ単語レベルの認識結果を保存することにより
連続音声認識が可能となる。
一方、正規文法は自然言語の複雑さを扱うためには不
十分であり、より表現力の高い文脈自由文法を使えるこ
とが望ましい。文脈自由文法は、たとえば共立出版
(株)刊「人工知能ハンドブック第1巻」(以下文献3
と称す)の第303頁に述べられているように、生成規則
の左辺が1個の非終端記号からなる文法である。たとえ
ば、ある文を生成する文脈自由文法の例を以下に示す。
S→N VP VP→V N N→“boys" N→“apples" V→“eat" これにより、“boys eat apples"なる文が生成でき
る。文脈自由文法は、正規文法と比較して再帰的な生成
規則を扱えるという特徴を持っている。
このような文脈自由文法を用いて連続音声を認識する
方法も既にある。このような方法として、たとえば文献
2の第128頁以降に、CYK法やアーリー(Earley)法が示
されている。
(発明が解決しようとする問題点) 連続音声を認識する場合、文献1に述べられているよ
うな有限状態オートマトンを用いた方法では、表現でき
る文法が正規文法に限定されてしまう。文脈自由文法を
有限状態オートマトンに展開する場合、生成規則中に、
たとえば、 S→aSb S→ab のような再帰表現があると、ネットワークが無限に生成
されてしまうため扱うことができない。このような、従
来の有限状態オートマトンを用いた方法では自然言語を
表現するために高い表現力を有する文脈自由文法を扱う
ことはできないとう欠点があった。
また、文献2に述べられているようなCYK法やアーリ
ー法によれば文脈自由文法を扱うことができるが、計算
量がきわめて多いという欠点があった。
本発明は、有限状態オートマトンを用いた方法と同等
の処理量で文脈自由文法が扱える高性能な連続音声認識
装置を提供することを目的とする。
(問題点を解決するための手段) 本願の第1の発明による連続音声認識装置は、予め定
められた認識単位の標準パターンを、予め定められたネ
ットワークに従って結合して連続音声認識装置におい
て、前記ネットワークは、ネットワーク中の予め定めら
れた呼び出し点と戻り点の間に挿入されるサブネットワ
ークを含み、標準パターンを記憶しておく標準パターン
メモリと、入力された音声パターンと標準パターンの各
フレーム間の距離を求める距離計算部と、前記音声パタ
ーンと標準パターンのフレームを対応付けるマッチング
パス上の前記距離の累積値を求める累積値計算部と、前
記累積値を記憶しておく累積値メモリと、サブネットワ
ークの戻り点のアドレスを前記累積値メモリと同一のア
ドレスに対応付けて記憶しておく戻り点メモリと、サブ
ネットワークに対する複数の呼び出し点における累積値
の最小値を前記サブネットワークの累積値の初期値とし
て累積値メモリに書き込み、前記最小値を与える呼び出
し点に対応する戻り点のアドレスを初期値として戻り点
メモリに書き込む呼び出し処理部と、サブネットワーク
の終端における戻り点メモリ中に保持されている戻り点
のアドレスによりアドレスされる累積値メモリ中に前記
サブネットワークの終端における累積値を書き込む戻り
処理部とを有する。
本願の第2の発明による連続音声認識装置は、前記本
願の第1の発明に加え、サブネットワークに対応する複
数の呼び出し点における累積値の小さい法から上位N位
(Nは1以上の任意の数)の候補に対して累積値および
戻り点のアドレスを、累積値メモリおよび戻り点のメモ
リの中にN位分用意されたサブネットワークの領域の初
期値として書き込む呼び出し処理部とを有する。
本願の第3の発明による連続音声認識装置は、前記本
願の第2の発明に加え、累積値の候補として残す数Nを
サブネットワーク毎に指定するための補数数テーブルを
有する。
本願の第4の発明による連続音声認識装置は、前記本
願の第1の発明に加え、サブネットワークに対する複数
の呼び出し点における累積値の最小値および前記最小値
との差があらかじめ定められた値以下の候補に対する累
積値および戻り点のアドレスを、累積値メモリおよび戻
り点メモリの中のそれぞれ用意されたサブネットワーク
の領域の初期値として書き込む呼び出し処理部とを有す
る。
本願の第5の発明による連続音声認識装置は、前記本
願の第1,2,3,4の発明に加え、サブネットワークおよび
呼び出し点と戻り点で区切られた部分ネットワークに対
する累積地メモリ中の領域内に処理すべき累積値が存在
しない場合、そのネットワークに対する全ての処理を中
止する処理制御部とを有する。
本願の第6の発明による連続音声認識装置は、前記本
願の第1,2,3,4,5の発明に加え、累積値メモリと同一の
アドレスに対してマッチングパス上のサブネットワーク
の始端に対応付けられた音声パターンに対するフレーム
を記憶しておく経路値メモリと、呼び出し処理部におい
てサブネットワークの始端における戻り点のアドレスを
フレームに書き込み、戻り処理部においてサブネットワ
ークの終端における前記経路値メモリ中に保持されてい
るフレームによりアドレスされるフレームから戻り点の
アドレスが読みだされる、戻り点のアドレスを保持する
戻り点テーブルとを有する。
(作用) 本発明による連続音声認識装置の作用について説明す
る。本発明では、文献1に述べられているような有限状
態オートマトンを用いた連続音声認識方法にザブネット
ワークに対する呼び出し、戻り処理を加えることにより
文脈自由文法を扱えるようにしたものである。
まず、有限状態オートマトン中にサブネットワークに
対する呼び出し・戻り処理を導入しプッシュダウン・オ
ートマトンに拡張する。第5図はブッシュダウン・オー
トマトンの動作を説明する図である。呼び出し枝におい
てサブネットワーク呼び出され、戻り枝においてサブネ
ットワークからもとのネットワークへ処理が戻される。
このようなプッシュダウン・オートマトンは、例えば、
共立出版(株)刊の新美著「音声認識」の第157頁に述
べられているように、文脈自由文法とは全く等価であ
る。しかし、このプッシュダウン・オートマトンを、そ
のまま有限状態オートマトンを用いた連続音声認識方法
に適用しようとしても、サブネットワークの再帰呼び出
しがある場合、ネットワークが無限に生成されるため適
用は不可能である。
そこで、本願の第1の発明では、あるサブネットワー
クを呼び出す全ての呼び出し枝の元(呼び出し点)にお
ける距離の累積値の最小値を(3)式におけるサブネッ
トワークの累積値gの初期値g(n;i,0)とする。それ
と共に、この最小値をあたえる呼び出し枝の先(戻り
点)のアドレスを、戻り点のアドレスmの初期値m(n;
i,0)に代入する。この戻り点のアドレスmは、入力パ
ターンの始端フレームを伝播させる(5)式における経
路値Lと同様、(4)式の漸化式計算結果に従って以下
のように計算する。
[1]m(n;i,j)=m(n;i−1,j) [2]m(n;i−1,j−1) [3]m(n;i−1,j−2) (6) サブネットワークの終端では、始端において最小値を
与えた戻り点のアドレスm(n;i,Jn)を読みだし、その
アドレスに対するネットワークkの累積値gの初期値g
(k,i,0)として累積値g(n,i,Jn)を代入する。
このような方法によると、無限にネットワークが生成
されることなく、有限状態オートマトンを用いた場合と
ほとんど同じ計算量でプッシュダウン・オートマトンに
よる処理を実現することができる。しかし、サブネット
ワークの初期値を求めるための最小値の決定が終端にお
けるパスの選択に影響をあたえるため、厳密にはDPの原
理が成立せず、得られる解は準最適なものとなる。サブ
ネットワークの始端において、全体を最適化するパス以
外のパスが選択されるという誤りが生じたとしても、直
接誤認識に結び付くとは限らないが、この誤りによる影
響はできるだけ小さくする必要がある。
この点を考慮し、本願の第2の発明ではサブネットワ
ークを呼び出す全ての呼び出し点における距離の累積値
の中で最小値から上位N位(Nは1以上の任意の数)の
複数個の候補を求め、それぞれ候補毎にサブネットワー
クにおける(4)式(5)式(6)式の漸化式計算を独
立して行う。
また、一般にサブネットワークによって呼び出される
回数は異なるが、呼び出される回数が多いサブネットワ
ークほど始端におけるバスの選択誤りが生じやすいとい
える。呼び出される回数以外にも、呼び出されるまでに
類似した単語があるか否か等さまざまな要因で誤りやす
さが決まる。そこで、本願の第3の発明では、それぞれ
のサブネットワークに対して候補の数Nをあらかじめ定
めるためのテーブルを用意する。これにより、誤りが生
じやすそうなサブネットワークに対してはNを大きく、
誤る可能性の少ないサブネットワークについてはNを少
なくするという調整が可能になり、最小限の計算量の増
加で選択誤りに対処することができる。
本願の第4の発明では、サブネットワークを呼び出す
場合、候補の数として予めN位というように数を定めず
に、累積値を最小値をとる呼び出し点、および、累積値
と求められた最小値との差があらかじめ定められた値T
以下の呼び出し点の累積値を候補とする。これにより、
実際の音声パターンに即した数の候補を残すことができ
る。距離による基準に加えて、候補数の最大値を予め決
めておくこともできる。
このように、サブネツトワークの候補の数を累積値に
従って変えられるようにすると、予め用意されたサブネ
ツトワークの複数の候補のための領域に累積値gの初期
値が与えられないこともある。また、サブネツトワーク
を呼び出す場合、ある呼び出し点が選択されないなら
ば、その呼び出し点に対する戻り点に初期値が与えられ
ることはない。初期値が与えられなければ、サブネツト
ワークおよび戻り点以降の部分ネツトワークに対する
(4)式(5)式(6)式の漸化式計算を行う必要はな
い。
さらに、漸化式が標準パターン方向に対しても傾斜制
限を行っている場合、たとえば以下のような漸化式を用
いる場合、 g(n;i,j)=d(n;i,j)+min[g(n;i−2,j−1),
g(n;i−1,j−1),g(n;i−1,j−2)] (7) 最初に初期値が与えられてから一定のフレーム数の間連
続して初期値が与えられないならば、漸化式の計算を行
う必要はなくなる。この一定のフレーム数とは、たとえ
ば(7)式の漸化式の場合、2×Jnフレームとなる。
そこで、本願の第5の発明では、漸化式計算を行う必
要のない場合は部分ネツトワーク(サブネツトワークも
含む)中に漸化式の計算および下位のサブネツトワーク
を呼び出す処理を行わないようにする。すなわち、ある
部分ネツトワークに対して初期値が設定される前か、ま
たは最後に初期値が設定されてから定められた一定のフ
レーム数が経過した場合は漸化式の計算をふくめた部分
ネツトワークに対する全ての処理を中止できるようにし
て、無駄な計算を行わないようにする。
さらに、これまでの説明では、戻り点のアドレスmを
(6)式のように漸化式と共に計算していた。しかし、
漸化式計算は計算回数が多いため、(6)式の計算量も
無視できない。そこで、本願の第6の発明では、入力パ
ターンのフレームi(1≦i≦I)に対応して、戻り点
のアドレスを保持するための戻り点テーブルM(i)を
用意する。まず、サブネツトワークの始端において、戻
り点のアドレスを戻り点テーブルM(i)に代入する。
漸化式計算を行うときは、(5)式に示す経路値Lの計
算だけを行う。サブネツトワークの終端では、経路値L
から、始端に対応付けられたフレームis=L(n;i,Jn)
を読みだし、このisを用いて戻り点テーブルM(is)か
ら戻り点のアドレスを読みだし、さらに、そのアドレス
に対するネツトワークkの初期値g(k;i,0)として累
積値g(n;i,Jn)を代入する。これにより、漸化式計算
時の処理は、従来の有限状態オートマトンを用いた連続
音声認識方法の場合と同じになる。また、文レベル処理
は単語レベル処理に比べて全体の処理量が少なく、かつ
今回の方法の処理量も従来のものとほとんど変わらない
ので計算量が増えるとはない。
(実施例) 本発明による連続音声認識装置の実施例について図面
を参照して説明する。
第1図は本願の第1〜5の発明による一実施例を示す
構成図である。
標準パターンメモリ1には、予め標準パターンBが保
持されている。距離計算部2では、入力パターンAのi
番目のフレームの特徴aiと、単語nの標準パターンBn
j番目のフレームの特徴量bnjが読みだされ特徴量間の
距離d(n;i,j)が計算された出力される。また、累積
値計算部3では、入力された距離dを用いて、(4)式
に示した漸化式計算が行われる。漸化式計算に必要な累
積値gは、累積値メモリ4の中に保持されており、必要
に応じて累積値計算部3より、読みだし、書き込みの処
理が行われる。同様に戻り点メモリ5には戻り点のアド
レスmが保持れており、これを用いて累積値計算部3で
は漸化式計算と共に(6)式の計算が行われる。以上が
単語レベル処理であり、これまでは従来の文献1に述べ
られているようなフレーム同期DPマッチングによる連続
音声認識方法と同じである。
続いて文レベル処理について説明する。入力パターン
Aのi番目のフレームに対して単語レベルの処理が終了
すると、まず呼び出し処理部6では、累積値メモリ4か
ら呼び出し点における累積値gの値が読みだされる。そ
れらの値が比較され、求められた累積値gがサブネツト
ワークの初期値といて累積値メモリ4に書き込まれる。
また、求められた累積値に対する戻り点のアドレスmが
戻り点メモリ5に書き込まれる。
戻り処理部7では、累積値メモリ4からからサブネツ
トワークの終端における累積値gが読みだされ、戻り点
メモリ5から戻り点のアドレスmが読みだされる。続い
て、読みだした累積値gをアドレスmによりアドレスさ
れる累積値メモリ4の中に書き込む。
以下、文レベル処理について例を用いて詳しく説明す
る。ここで、文法の例として、以下に示す生成規則Uを
用いる。
U→m P n P k (8) P→s (9) ここで、m,n,k,sは終端記号すなわち単語の標準パタ
ーンを表し、Pは非終端記号を表す。この例では再帰呼
び出しはないが、再帰呼び出しがある場合でも同様に処
理を行うことができる。
まず、本願の第1の発明による一実施例の文レベル処
理について説明する。第2図は本願の第1の発明におけ
る文レベル処理を説明する模式図である。累積値メモリ
4は(4)式における累積値gの値を保持するメモリで
あり、戻り点メモリ5は(6)式の戻り点のアドレスm
を保持するメモリである。これらは、第1図における累
積値メモリ4および戻り点メモリ5と同じものである。
また図に示すように、単語m,n,k,sに対する累積値gの
領域が用意されている。それぞれの単語始端点、終端点
に対する累積値メモリ4および戻り点メモリ5上のアド
レスをm:m1,mJm, n:n1,nJn, k:k1,kJk, s:s1,sJsとす
る。これより、サブネツトワークPに対する呼び出し点
のアドレスはmJmとnJnとなる。また、戻り点のアドレス
は、累積値メモリ4に初期値を代入するアドレスであ
り、始端の一つ前のアドレスのn0,k0となる。
まず、呼び出し処理部6では、累積値メモリ4より呼
び出し点mJmにおける累積値g(m;i,mJm)と、呼び出し
点nJnにおける累積値g(n;i,nJn)が読みだされ比較さ
れる。これらの中の最小値、すなわち小さい方の累積値
mingが、サブネツトワークPの累積値の初期値g(s;i,
s0)として、アドレスs0の累積値メモリ4に書き込まれ
る。また、このときmingを与える呼び出し点に対する戻
り点アドレスmin0(n0またはk0)が、サブネツトワーク
Pの戻り点アドレスの初期値m(s;i,s0)として、アド
レスs0の戻り点メモリ5に書き込まれる。
戻り処理部7では、最初に全ての戻り点n0,k0に対す
る累積値メモリ4に大きな値を書き込んで初期化してお
く。続いて、戻り点メモリ5よりサブネツトワークPの
終端sJsにおける戻り点アドレスm(s:i,sJs)=min0′
が読みだされる。また累積値メモリ4より終端の累積値
g(s:i,sJs)が読みだされ、累積値メモリ4中のすで
に読みだされた戻り点アドレスmin0′の位置に書き込ま
れる。以上で文レベル処理は終了する。
次に本願の第2の発明による一実施例の文レベル処理
について説明する。第3図は本願の第2,3,4,5の発明に
おける文レベル処理を説明する模式図である。本願の第
2の発明では、一つのサブパターンに対して、累積地メ
モリ4と戻り点メモリ5の中に複数個の領域を用意して
いる。例えば、上位2位までのパスを保存するとすれ
ば、サブパターンPに対しP1,P2の2つの領域を用意す
る。領域P1,P2の単語sの始端点、終端点に対する累積
値メモリ4および戻り点メモリ5上のアドレスをs10,s1
Jsおよびs20,s2Jsとする。
呼び出し処理部6では、累積値メモリ4より呼び出し
点mJmにおける累積値g(m;i,mJm)と、呼び出し点nJn
における累積値g(n;i,nJn)が読みだされ比較により
候補が選択される。ここでは、候補として小さい方から
N位の累積値をming(N)とすると、2位までの累積値
ming(1)、ming(2)が選ばれる。これらの値は領域
P1,P2の累積値の初期値g(s;i,s10),(s;i,s20)と
して、アドレスs10、s20の累積値メモリ4に書き込まれ
る。また、このときming(1)、ming(2)に与える呼
び出し点に対する戻り点アドレスmin10,min20(n0また
はk0)が領域P1、P2の戻り点アドレスの初期値m(s;i,
s10),m(s;i,s20)として、戻り点メモリ5に書き込ま
れる。戻り処理部7での処理は本願の第1の発明の場合
と全く同じである。
次に本願の第3の発明による一実施例の文レベル処理
について説明する。本願の第3の発明では、本願の第2
の発明に加えて候補数テーブル8を有している。呼び出
し処理部6において、累積メモリ値4より読みだされた
呼び出し点の累積値gのうち、小さい方からN位の累積
値ming(N)を選び出す場合、このNの値としてサブネ
ツトワーク毎に候補数テーブル8中にあらかじめ保持さ
れている値を読みだして用いる。他の処理は本願の第2
の発明と全く同じである。
次に本願の第4の発明による一実施例の文レベル処理
について説明する。本願の第4の発明では、呼び出し処
理部6において、累積メモリ値4より読みだされた呼び
出し点における累積値gの中から複数の候補をつぎのよ
うに選択する。まず、呼び出し点における累積値gの中
から最小値mingを選び出す。つづいて、呼び出し点にお
ける累積値gの中から、最小値mingとの差が予め定めら
れた閾値T以下のもの、すなわち、 g−ming<T (10) を満たすgが選択される。選択された累積値gおよび戻
り点のアドレスの値は、累積値メモリ4と戻り点メモリ
5の中に、複数個用意されたサブネツトワークの領域の
初期値として書き込まれる。他の処理は本願の第2の発
明と全く同じである。
次に本願の第5の発明による一実施例の文レベル処理
について説明する。本願の第5の発明では、累積値メモ
リ4と戻り点メモリ5の中の部分ネツトワークの始端s1
0,s20,n0,k0に初期値が書き込まれると、書き込み情報
wが処理制御部9に出力される。処理制御部9では、書
き込み情報wに入力されると、書き込み情報wに対する
部分ネツトワークを示す制御信号cが、累積値計算部
3、呼び出し処理部6、戻り処理部7に出力され処理の
開始が指示される。この制御信号cが入力されると、そ
の部分ネツトワークに対する単語レベル処理および文レ
ベル処理が行われるようになる。制御信号cによる処理
の開始が指示がなければ、そのサブネツトワークに関す
るこれらの処理は行われない。
処理制御部9では、初期値が設定されると、部分ネツ
トワーク毎に入力フレーム数のカウントを開始する。定
められたカウント数の間初期値が設定されない場合は、
制御信号cにより部分ネツトワークに対する処理の中止
が指示される。他の処理は本願の第1,2,3,4の発明と全
く同じである。
次に本願の第6の発明による一実施例について説明す
る。第4図は本願の第6の発明による一実施例を示す構
成図である。入力パターンのフレームiに対応して、戻
り点のアドレスM(i)を保持するための戻り点テーブ
ル10を用意する。まず、フレームiにおいて、呼び出し
処理部6によりサブネツトワークPに対する戻り点のア
ドレスが戻り点のテーブル10のフレームiに書き込まれ
る。単語レベル処理では、累積値計算部3において
(4)式の漸化式計算と共に経路値メモリ11を用いて
(5)式に示す経路値Lの計算が行われる。この計算
は、本願の第1〜5の発明においても文献1に示されて
いる従来法と同様、認識結果を得るために行う必要があ
るものである。戻り処理部7によって、サブネツトワー
クの始端に対応付けられたフレームi′がサブネツトワ
ークの終端における経路値L(s;i,sJs)として、経路
値メモリ11から読みだされる。このフレームi′の値を
アドレスとして戻り点テーブル10から戻り点のアドレス
M(i′)が読みだされる。さらに、累積値メモリ4中
の戻り点アドレスM(i′)に、サブネツトワークの終
端における累積値g(s;i,sJs)が書き込まれる。その
他の処理については、本願の第1〜5の発明と全く同じ
である。
(発明の効果) 本発明によれば、文脈自由文法が扱えてかつ計算量が
少ない高性能な連続音声認識装置を実現することができ
る。
【図面の簡単な説明】
第1図は、本願の第1〜5の発明による一実施例を示す
構成図。 第2図は、本願の第1の発明における文レベル処理を説
明する模式図。 第3図は、本願の第2,3,4,5の発明における文レベル処
理を説明する模式図。 第4図は、本願の第6の発明による一実施例を示す構成
図。 第5図は、プッシュダウン・オートマトンの動作を説明
する図である。 図において、1…標準パターンメモリ、2…距離計算
部、3…累積値計算部、4…累積メモリ、5…戻り点メ
モリ、6…呼び出し処理部、7…戻り処理部、10…戻り
点テーブル、11…経路値メモリ。
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 533 G10L 3/00 561 G10L 5/06 JICSTファイル(JOIS)

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】予め定められた認識単位の標準パターン
    を、予め定められたネットワークに従って結合して連続
    音声を認識する連続音声認識装置において、前記ネット
    ワークは、ネットワーク中の予め定められた呼び出し点
    と戻り点の間に挿入されるサブネットワークを含み、標
    準パターンを記憶しておく標準パターンメモリと、入力
    された音声パターンと標準パターンの各フレーム間の距
    離を求める距離計算部と、前記音声パターンと標準パタ
    ーンのフレームを対応付けるマッチングパス上の前記距
    離の累積値を求める累積値計算部と、前記累積値を記憶
    しておく累積値メモリと、サブネットワークの戻り点の
    アドレスを前記累積値メモリと同一のアドレスに対応付
    けて記憶しておく戻り点メモリと、サブネットワークに
    対する複数の呼び出し点における累積値の最小値を前記
    サブネットワークの累積値の初期値として累積値メモリ
    に書き込み、前記最小値を与える呼び出し点に対応する
    戻り点のアドレスを初期値として戻り点メモリに書き込
    む呼び出し処理部と、サブネットワークの終端における
    戻り点メモリ中に保持されている戻り点のアドレスによ
    りアドレスされる累積値メモリ中に前記サブネットワー
    クの終端における累積値を書き込む戻り処理部とを有し
    て成ることを特徴とする連続音声認識装置。
  2. 【請求項2】サブネットワークに対する複数の呼び出し
    点における累積値の小さい方から上位N位(Nは1以上
    の任意の数)の候補に対して累積値および戻り点のアド
    レスを、累積値メモリおよび戻り点のメモリの中にN位
    分用意されたサブネットワークの領域の初期値として書
    き込む呼び出し処理部とを有する請求項1記載の連続音
    声認識装置。
  3. 【請求項3】累積値の候補として残す数Nをサブネット
    ワーク毎に指定するための候補数テーブルを有する請求
    項2記載の連続音声認識装置。
  4. 【請求項4】サブネットワークに対する複数の呼び出し
    点における累積値の最小値および前記最小値との差があ
    らかじめ定められた値以下の候補に対する累積値および
    戻り点のアドレスを、累積値メモリおよび戻り点メモリ
    の中のそれぞれ用意されたサブネットワークの領域の初
    期値として書き込む呼び出し処理部とを有する請求項1
    記載の連続音声認識装置。
  5. 【請求項5】サブネットワークおよび呼び出し点と戻り
    点で区切られた部分ネットワークに対する累積値メモリ
    中の領域内に処理すべき累積値が存在しない場合、その
    ネットワークに対する全ての処理を中止する処理制御部
    とを有する請求項1,2,3,4記載の連続音声認識装置。
  6. 【請求項6】累積値メモリと同一のアドレスに対してマ
    ッチングパス上のサブネットワークの始端に対応付けら
    れた音声パターンに対するフレームを記憶しておく経路
    値メモリと、呼び出し処理部においてサブネットワーク
    の始端における戻り点のアドレスをフレームに書き込
    み、戻り処置部においてサブネットワークの終端におけ
    る前記経路値メモリ中に保持されているフレームにより
    アドレスされるフレームから戻り点のアドレスが読みだ
    される、戻り点のアドレスを保持する戻り点テーブルと
    を有する請求項1,2,3,4,5記載の連続音声認識装置。
JP1006185A 1989-01-12 1989-01-12 連続音声認識装置 Expired - Fee Related JP2841404B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP1006185A JP2841404B2 (ja) 1989-01-12 1989-01-12 連続音声認識装置
EP90100522A EP0378212B1 (en) 1989-01-12 1990-01-11 Continuous speech recognition apparatus
DE69028021T DE69028021T2 (de) 1989-01-12 1990-01-11 Einrichtung zur Erkennung von kontinuierlicher Sprache
US07/464,084 US5086472A (en) 1989-01-12 1990-01-12 Continuous speech recognition apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1006185A JP2841404B2 (ja) 1989-01-12 1989-01-12 連続音声認識装置

Publications (2)

Publication Number Publication Date
JPH02186398A JPH02186398A (ja) 1990-07-20
JP2841404B2 true JP2841404B2 (ja) 1998-12-24

Family

ID=11631496

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1006185A Expired - Fee Related JP2841404B2 (ja) 1989-01-12 1989-01-12 連続音声認識装置

Country Status (4)

Country Link
US (1) US5086472A (ja)
EP (1) EP0378212B1 (ja)
JP (1) JP2841404B2 (ja)
DE (1) DE69028021T2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03163623A (ja) * 1989-06-23 1991-07-15 Articulate Syst Inc 音声制御コンピュータ・インターフェース
JPH04182000A (ja) * 1990-11-16 1992-06-29 A T R Jido Honyaku Denwa Kenkyusho:Kk 連続音声認識装置
US5388183A (en) * 1991-09-30 1995-02-07 Kurzwell Applied Intelligence, Inc. Speech recognition providing multiple outputs
US5765132A (en) * 1995-10-26 1998-06-09 Dragon Systems, Inc. Building speech models for new words in a multi-word utterance
US5799279A (en) * 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
US5794189A (en) * 1995-11-13 1998-08-11 Dragon Systems, Inc. Continuous speech recognition
US6278973B1 (en) * 1995-12-12 2001-08-21 Lucent Technologies, Inc. On-demand language processing system and method
JP2980026B2 (ja) * 1996-05-30 1999-11-22 日本電気株式会社 音声認識装置
US5937385A (en) * 1997-10-20 1999-08-10 International Business Machines Corporation Method and apparatus for creating speech recognition grammars constrained by counter examples
JP3885523B2 (ja) * 2001-06-20 2007-02-21 日本電気株式会社 サーバ・クライアント型音声認識装置及び方法
US7289948B1 (en) * 2002-01-07 2007-10-30 At&T Corp. Systems and methods for regularly approximating context-free grammars through transformation
EP1331630A3 (en) * 2002-01-07 2006-12-20 AT&T Corp. Systems and methods for generating weighted finite-state automata representing grammars
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US8914288B2 (en) 2011-09-01 2014-12-16 At&T Intellectual Property I, L.P. System and method for advanced turn-taking for interactive spoken dialog systems

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS578599A (en) * 1980-06-19 1982-01-16 Nippon Electric Co Continuous voice recognizing device
JPS58132298A (ja) * 1982-02-01 1983-08-06 日本電気株式会社 窓制限付パタンマツチング装置
JPH0638195B2 (ja) * 1987-01-30 1994-05-18 日本電気株式会社 パタンマッチング装置
JPS63226695A (ja) * 1987-03-16 1988-09-21 日本電気株式会社 高速パタ−ンマッチング方式

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
新美康永「情報科学講座 E・19・3 音声認識」共立出版株式会社(昭和54年)p.154−164

Also Published As

Publication number Publication date
EP0378212A3 (en) 1993-02-24
EP0378212A2 (en) 1990-07-18
JPH02186398A (ja) 1990-07-20
US5086472A (en) 1992-02-04
DE69028021T2 (de) 1997-01-02
DE69028021D1 (de) 1996-09-19
EP0378212B1 (en) 1996-08-14

Similar Documents

Publication Publication Date Title
CN108305634B (zh) 解码方法、解码器及存储介质
JP2841404B2 (ja) 連続音声認識装置
US5515475A (en) Speech recognition method using a two-pass search
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
JP2000075895A (ja) 連続音声認識用n最良検索方法
WO1992014237A1 (en) Method for recognizing speech using linguistically-motivated hidden markov models
EP1133766A1 (en) Network and language models for use in a speech recognition system
US6058365A (en) Speech processing using an expanded left to right parser
KR20160098910A (ko) 음성 인식 데이터 베이스 확장 방법 및 장치
JPH0673080B2 (ja) 連続音声認識方式
JP2003208195A5 (ja)
JPS61219099A (ja) 音声認識装置
JP2003208195A (ja) 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体
Nakagawa Spoken sentence recognition by time-synchronous parsing algorithm of context-free grammar
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP3914709B2 (ja) 音声認識方法およびシステム
JP4705535B2 (ja) 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム
JP3315565B2 (ja) 音声認識装置
JP2867695B2 (ja) 連続音声認識装置
JP3535688B2 (ja) 音声認識方法
JP3873418B2 (ja) 音声スポッティング装置
JP3439700B2 (ja) 音響モデル学習装置、音響モデル変換装置及び音声認識装置
JP3818154B2 (ja) 音声認識方法
JPS62144200A (ja) 連続音声認識装置
Nakagawa et al. Speech recognition using hidden Markov models based on segmental statistics

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees