JP2955297B2

JP2955297B2 - 音声認識システム

Info

Publication number: JP2955297B2
Application number: JP1131858A
Authority: JP
Inventors: 博史金澤; 洋一竹林
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1988-05-27
Filing date: 1989-05-25
Publication date: 1999-10-04
Anticipated expiration: 2014-10-04
Also published as: EP0344017A3; DE68914032D1; EP0344017B1; EP0344017A2; JPH0250198A; DE68914032T2

Description

【発明の詳細な説明】［発明の詳細な説明］（産業上の利用分野）本発明は、単語単位のマッチングに基づく第１の単語
認識部と、単語構成要素単位のマッチングに基づく第２
の単語認識部とを備えた音声認識システムに関する。

（従来の技術）従来より単語認識の基本的な手法として２つの手法が
知られている。その一つは、例えば入力音声を単語単位
で切出し、単語全体のパターンマッチングを行なって単
語認識を行なう単語単位のマッチングによる認識手法で
あり、他の一つは、入力音声を音韻や音節等の単語構成
要素の単位にセグメンテーションして該単語構成要素毎
のパターンマッチングによる音韻認識若しくは音節認識
を行ない、音韻若しくは音節認識候補の系列から単語の
認識を行なう単語構成要素単位のマッチングによる単語
認識手法である。

前者のシステムは、単語単位のマッチングを行なうた
め、後者の手法のように、より細かい認識単位に分解す
る必要がなく、また、入力された音声の動的特徴を単語
標準パターンに含んだ単語全体でのマッチングを行なう
ため、認識率が高いという利点がある。その反面、該前
者のシステムは、認識する語彙の数が大きくなった場合
には、全ての語彙の標準パターンを用意することが困難
で、認識対象となる語彙数が制限されてしまうという問
題がある。また、標準パターンの学習に大量のデータを
必要とするため、語彙の変更が容易ではない。

一方、後者のシステムでは、音韻数や音節数が単語の
数に比べて少ないことから、用意すべき標準パターンは
高々100種類程度で済み、語彙の変更も例えば認識対象
となる単語の文字列を入力する等といった容易な方法で
行なうことができる。しかし、この方法は認識処理にセ
グメンテーション、ラベリング（音韻または音節認
識）、単語認識といった段階を必要とするため、処理が
複雑で、しかもセグメンテーションの際の誤りや、音声
パターンから音韻または音節系列に変換する際の誤り、
更には音韻または音節系列から単語を推定する際の誤り
が認識率を低下させるという問題があった。

また、上記の２つの手法の他にも、単語全体のパター
ンマッチングと、音声パターンの各フレームに付けたラ
ベル系列のネットワークとの両方を用いて単語認識を行
なうといった手法が提案されているが（Proc.Seventh I
CPR pp1232−1235,1984）、この方法によっても前述し
たような単語標準パターンを予め用意しておく必要があ
るという問題や語彙の変更が困難であるという問題を解
決することはできなかった。

（発明が解決しようとする課題）このように、在来の音声認識システムは、単語単位の
マッチングによる単語認識方式では認識対象となる語彙
の標準パターンの作成や語彙の変更に多大な手間がかか
り、単語構成要素単位のマッチングによる単語認識方式
では、処理量が膨大で認識誤りも生じ易いという問題が
あった。

本発明は、上述の事情に鑑みてなされたもので、その
目的とするところは、予め単語の標準パターンを用意す
る必要がなく、認識処理により単語標準パターンの学習
のための音声パターンを収集でき単語標準パターンの効
果的な学習が行える音声認識システムを提供することに
ある。

また、本発明の他の目的は、単語標準パターンの学習
に用いられた単語標準パターンが増加するのに伴ってよ
り高い認識性能が得られる音声認識システムを提供する
ことにある。

［発明の構成］（課題を解決するための手段）本発明に係る音声認識システムは、入力音声の音声パ
ラメータを音声パラメータ抽出部にて抽出し、この単語
音声パラメータに対し単語単位のマッチングによる認識
処理を行なう第１の単語認識部と、単語よりも細かい単
語構成要素単位のマッチングによる単語認識を行なう第
２の単語認識部との２つの単語認識部を備えている。第
１の単語認識部は、抽出された音声パラメータを単語単
位に切出して単語音声パターンを抽出するとともに、こ
の単語音声パターンと予め用意される単語標準パターン
とを照合することにより単語認識を行なう。また、第２
の単語認識部は、抽出された音声パラメータから単語構
成要素の認識を行なうとともに、得られた単語構成要素
の系列の候補に基づいて単語認識を行なう。なお、ここ
で単語構成要素とは、音韻、音節、CVC（C:consonant〜
子音、V:vowel〜母音）、VCVなど、単語よりも細かいレ
ベルの認識単位を意味する。また、この音声認識システ
ムには、上記第１および第２の単語認識部の各単語認識
結果に基づいて、総合的に認識結果を求めこれを出力す
る認識結果出力部が設けられている。更に、認識結果出
力部で求められた認識結果と上記認識処理の過程で抽出
された単語音声パターンとに基づいて単語標準パターン
の学習を行なうための単語標準パターン学習部が設けら
れている。

また、上述のシステムにおいて、認識結果出力部に、
認識結果を表示する表示部と、認識結果に対して正解、
不正解を外部から指示するための指示入力部とを備え、
単語標準パターン学習部が上記指示入力部からの入力に
基づいて学習を行なうようにしてもよい。

（作用）本発明の音声認識システムによれば、単語単位と単語
構成要素単位の２種類のマッチングによる単語認識部を
備えているので、単語標準パターンが存在しない状態で
あっても単語構成要素単位のマッチングによる認識処理
によって単語認識結果が得られる。単語標準パターン学
習部は、上記単語構成要素単位のマッチングによる単語
認識結果と抽出された単語音声パターンとに基づいて単
語標準パターンの学習処理を行なう。したがって、本発
明のシステムでは、予め単語標準パターンを作成してお
く必要がなく、最初は単語構成要素単位のマッチングに
よる単語認識を行なうことができる。そして、この認識
処理により得られた単語音声パターンを用いて単語標準
パターンの学習を行うことにより、漸次、単語標準パタ
ーンの内容を充実させることができる。

単語標準パターンの学習は、例えば総合判定により得
られた認識結果と利用者により指示された正解・不正解
の情報とに基づき、認識処理を行なった単語音声パター
ンを用いて行なえば良い。

これにより単語標準パターンが作成されれば、単語構
成要素単位のマッチングによる単語認識と、単語単位の
マッチングによる単語認識とを併用することが可能にな
り、高い認識率を期待できる。

また、この音声認識システムを実際に用いる際に認識
の過程で、単語標準パターンの学習処理に用いる単語音
声パターンを収集し、単語標準パターンを繰返し学習す
るようにすれば、単語単位のマッチングに基づく単語認
識の性能は向上する。したがって、総合判定部におい
て、単語単位のマッチングに基づく単語認識をより重視
した判定を行なうことにより、さらに高い認識性能を得
ることができる。

（実施例）以下、本発明による音声認識システムの実施例につい
て説明する。

第１の実施例本発明の第１の実施例による音声認識システムは、第
１図に示すように、音声パラメータ抽出部10、単語単位
のマッチングによる単語認識を行なう第１の単語認識部
20、音韻単位のマッチングによる単語認識を行なう第２
の単語認識部30、認識結果を出力する認識結果出力部4
0、および単語認識用の標準パターンの学習を行なう単
語認識用標準パターン学習部50により構成されている。
音声パラメータ抽出部10で抽出された音声パラメータ
は、単語単位のマッチングによる第１の単語認識部20と
音韻単位のマッチングによる第２の単語認識部30の双方
で単語認識処理され、それらの結果が認識結果出力部40
で総合的に判断され、必要に応じて単語認識用標準パタ
ーン学習部50にて単語標準パターンの学習が行なわれ
る。

音声パラメータ抽出部10は、音声入力部11と音響処理
部12とを具備する。音声入力部11は、入力音声を例えば
マイクロフォンを用いて電気信号に変換する。音響処理
部12は、例えば８チャンネルのフィルタバンク等から構
成され、音声入力部11を介して入力された音声信号を例
えば20ms程度のフレーム周期で周波数分析してパワース
ペクトルに変換し、次元数を低減して音声パラメータと
して出力する。なお、音声パラメータとしては、上述の
フィルタ分析の他にも、例えば高速フーリエ変換による
分析結果またはケプストラム分析による分析結果を用い
ることも可能である。

単語単位のマッチングを行なう第１の単語認識部20
は、単語音声パターン抽出部21と、類似度計算部22と、
単語標準パターン記憶部23とを有する。単語音声パター
ン抽出部21は、音響処理部12から出力される音声パラメ
ータの系列から例えば音声パワーの低下点を単語の始
端、終端として検出した後、これら始端と終端とで囲ま
れる区間内の音声パラメータを時間軸方向に一定の数だ
け均一にリサンプルして単語音声パターンを求め、出力
する。単語標準パターン記憶部23は、認識対象カテゴリ
（単語）の標準パターンが登録されるものである。こ
の標準パターンとしては、例えば、複合類似度を用いる
場合には、予め多くのサンプルデータから求められた共
分散行列の固有値λｎ^（）（ｎ＝１〜Ｎ）と、固有ベ
クトルとが格納される。類似度計算部22は、単語特徴ベクトル
抽出部21で抽出された特徴ベクトルと、単語標準パターン記憶部23に格納されたカテゴリ
の標準パターンの各ｎ面のベクトルとの類似度を、なる複合類似度計算により求め、その類似度値を出力す
る。なお、このような複合類似度値Ｓを用いる代わり
に、良く知られたマハラノビスの汎距離またはユークリ
ッド距離を用いることも可能である。

音韻単位のマッチングを行なう第２の単語認識部30
は、セグメンテーション・ラベリング部31、類似度計算
部32、音韻標準パターン記憶部33、単語認識部34および
単語辞書35を有する。類似度計算部32は、音響処理部12
から出力される音声パラメータと音韻標準パターン記憶
部33に格納された標準パターンとを用いて類似度計算を
行い、例えば各フレーム毎に前述した複合類似度のよう
な類似度を求める。セグメンテーション・ラベリング部
31は、求められた類似度系列および音声パラメータの音
響特徴に基づいてセグメンテーションを行ない、同時に
当該区間の音韻認識（ラベリング）を行なう。単語認識
部34は、セグメンテーション・ラベリング部31から求め
られた音韻系列候補が入力され、例えばDPマッチングに
基づいて類似度計算を行なって、単語認識候補を認識結
果生成出力部40に出力する。

認識結果生成出力部40は、総合判定部41と、表示部42
と、指示入力部43とを具備する。総合判定部41は、単語
単位のマッチングに基づく単語認識部20およびマッチン
グに基づく音韻単位の単語認識部30からの認識結果に基
づき、最終的な単語認識結果を求め出力する。表示部42
は、例えばCRTディスプレイからなる。指示入力部43
は、表示部42に表示された認識結果に対して利用者が例
えば正解であるか不正解であるかを入力したり、誤って
いた場合には、正解のカテゴリ名を入力するのに使用さ
れる。また、指示入力部43により、次の発声を行なう旨
の入力を行なうことも可能である。

単語認識用標準パターン学習部50は、単語音声パター
ン記憶部51と、単語標準パターン学習部52とを有する。
単語音声パターン記憶部51には、単語音声パターン抽出
部21で抽出された単語音声パターンが格納される。単語
標準パターン学習部52は、単語音声パターン記憶部51に
格納された単語音声パターンと、指示入力部43によって
入力され総合判定部41において上記単語標準パターンと
対応付けて記憶された正解および不正解の情報並びに認
識結果を用いて単語標準パターンの学習を行なう。

次にこのように構成された本実施例に係る音声認識シ
ステムの動作について説明する。

利用者が発声した音声は、まず音声入力部11で電気信
号に変換され、音響処理部12でスペクトルデータからな
る音声パラメータに変換される。この音声パラメータ
は、第１の（単語単位のマッチングによる）単語認識部
20と第２の（音韻単位のマッチングによる）単語認識部
30とに供給される。しかし、単語単位のマッチングによ
る単語認識部20では、単語標準パターン記憶部23に単語
標準パターンが存在しない場合は、単語認識処理は行わ
れず、単語音声パターン抽出部21による単語音声パター
ンの抽出のみ行われる。単語標準パターン記憶部23に単
語標準パターンが存在する場合には、単語標準パターン
記憶部23に登録された標準パターンと、単語音声パター
ン抽出部21により抽出された単語音声パターンとのマッ
チングが行なわれ、認識対象単語に対する類似度が出力
される。抽出された単語音声パターンは単語音声パター
ン記憶部51に格納され、後に述べる学習処理に使用され
る。

一方、第２の（音韻単位の）単語認識部30では、音響
処理部12からの音声パラメータを用いて単語構成要素単
位のマッチングによる単語認識が行われる。上記音声パ
ラメータは、まず、類似度計算部32に入力され、音声標
準パターン記憶部33に格納された音韻標準パターンとの
類似度が計算され、例えば各フレーム毎に前述した複合
類似度のような類似度が求められる。次にセグメンテー
ション・ラベリング部において、求められた類似度系列
および音声パラメータの音響的特徴に基づいて、セグメ
ンテーションが行われ、同時に、当該区間の音韻認識が
行われる。単語認識部34は、求められた音韻系列候補と
単語辞書35に格納された単語の文字列との類似度を、例
えばDPマッチングに基づいて行い、単語認識結果を認識
結果出力部40に出力する。

こうして、単語単位のマッチングに基づく単語認識部
20、および音韻単位のマッチングに基づく単語認識部30
で求められた単語結果は、総合判定部41に入力され、更
に最終的な単語認識結果として表示部42に表示される。

利用者が、表示部42に表示された認識結果に対し、指
示入力部43を介し正解か不正解かを入力したり、指示入
力部43を介して正解カテゴリ名を入力すると、これら入
力情報および認識結果は、上記単語音声パターン記憶部
51に記憶されている単語音声パターンと対応付けられ総
合判定部41内の認識結果記憶部に格納される。これによ
り通常の認識処理を行ないながら、僅かな指示入力を行
なうだけで単語標準パターン学習のためのデータ収集が
行える。

単語標準パターンの学習は次のように行われる。

例えば上述した複合類似度法による単語標準パターン
を例にとると、単語特徴ベクトル記憶部51に格納された
該当カテゴリに属する特徴ベクトルを用いて共分散行列を作成する。

（t:転置，：カテゴリ）これにより求めた共分散行列を主成分分析して、固有値λ^（）、固有ベクトルを求める。

また、該カテゴリの単語標準パターンを作成した際の
共分散行列Ｋ^（）を単語音声パターン記憶部51に格納
しておき、以下のように次の学習を行なう際の基本共分
散行列とすることも可能である。

以上の処理によって認識処理を行ないながら単語標準
パターン作成のための単語音声パターン収集を行ない、
単語標準パターン学習部52における学習処理によって単
語標準パターンを作成していくことができる。従って、
予め単語標準パターン記憶部23に標準パターンを格納す
ることなしに、最初のうちは音韻単位の単語認識のみで
単語認識処理を行ない、単語標準パターンの学習に用い
た単語音声パターン数が増加するに伴い、総合判定部に
おいて、単語単位のマッチングに基づく単語認識をより
重視した判定を行なうようにする。これは、単語標準パ
ターンの学習により、単語単位のマッチングに基づく単
語認識性能が向上するという理由による。

以上の処理により、総合判定部41で求められた最終結
果は表示部42に出力される。

すなわち、いま総合判定部41が例えば第２図に示すよ
うに、単語単位のマッチングによる単語認識結果記憶部
41a、音韻単位のマッチングによる単語認識結果記憶部4
1b、判定部41c、認識単語記憶部41dにより構成されてい
るとすると、学習処理は例えば第３図に示すような流れ
に基づいて行なえば良い。

まず、音声が入力され（S21）、単語単位の単語認識
（S22）および音韻単位の単語認識（S23）を行なった結
果をそれぞれ認識結果記憶部41a、41bに格納する。格納
された認識結果は判定部41cに送られ、用意された判定
規則に基づいて総合的に判定され、認識結果が得られる
（S24）。この認識結果は、制御部60を介して表示部42
に出力される（S25）。利用者により、この認識結果が
正解であると入力された場合には（S26）、その認識結
果を有効とする（S27）。そして、該単語音声パターン
（特徴ベクトル）を学習用単語音声パターンとすること
が指示された場合には（S28）、正解カテゴリ名を該単
語音声パターンと対応付けされて認識結果記憶部41dに
格納される（S29）。学習用単語音声パターンとしない
場合には、次の入力を促す（S21）。また、不正解であ
ると入力された場合には、学習用単語音声パターンとす
るか否かの指示を促し（S30）、学習用単語音声パター
ンとしない場合には、次の音声入力を促す（S21）。ま
た、学習用単語音声パターンとする場合には、利用者に
よる正解カテゴリ名の入力（S31）によって、誤りカテ
ゴリ名と正解カテゴリ名とを対応付け、さらにこれらと
単語音声パターンとが対応付けられて認識結果記憶部41
dに格納する（S32）。以上の処理が終了した時点で、学
習を行なうか否かの指示が行われ（S33）、学習を行な
わない場合には、次の音声入力を促す（S21）。学習を
行なう旨の指示が行なわれたときには、それまで単語音
声パターン記憶部51に累積されていた単語音声パターン
および認識結果記憶部41dに格納された認識結果に基づ
き学習処理が行われる（S34）。

このようにして、通常の認識処理の流れの中で簡単な
指示を与えるだけで学習用単語音声パターンの収集が行
え、学習処理を行うことにより、従来のように認識すべ
き単語を一つ一つ発声しながら単語標準パターンを作成
するといった手間が全く不要になり、語彙の拡張が極め
て容易になる。

なお、上記実施例では、学習のための音声パターンを
収集する際に利用者が正解・不正解の指示を与えるよう
にしたが、認識結果が十分に確からしいと判定されたデ
ータだけを自動的に単語標準パターン学習部52に送り、
学習処理を行なうようにすることも考えられる。また、
上記実施例では単語構成要素として音韻単位の認識につ
いて述べたが、この他、音節単位、CVC,VCVなど、他の
要素を基本とする単語認識を行なうようにしても良い。

第２の実施例先に述べたように、単語標準パターンの学習に用いる
単語音声パターン数が増加するに伴い、単語単位のマッ
チングに基づく認識性能が向上する。そこで、高精度な
認識を可能とするため、収集した単語音声パターンを用
いて単語標準パターンの学習を行なうに従い、総合判定
部41で、音韻単位のマッチングに基づく認識結果より
も、性能の向上した単語単位のマッチングに基づく認識
結果をより重視する。このような総合判定部41の処理の
一例を具体的に示す本発明の第２の実施例について次に
述べる。

総合判定部41では、単語単位のマッチングおよび音韻
単位のマッチングによる類似度を用いて最終的な認識結
果を決定する。

単語単位のマッチングによる認識において、類似度の
分布が、例えば、第４図のような分布をし、音韻単位の
マッチングによる認識処理において類似度分布が第５図
のような分布をしている場合を考える。単語単位のマッ
チングおよび音韻単位のマッチングにおいて、入力音声
に対しあるカテゴリの類似度が同じ値（例えば0.9）と
なった場合でも、入力音声がそのカテゴリである確率
は、音韻単位のマッチングによる単語認識のほうが単語
単位のマッチングによる認識よりも高くなる。したがっ
て、単語単位のマッチングによる第１の単語認識部20に
より出力された類似度値および音韻単位のマッチングに
よる第２の単語認識部30により出力された類似度値を、
事後確率に変換するといった手法（例えば、proc.ICASS
P,pp.1077−1080,1986）を用いるなどして、両認識部20
および30から出力された類似度値を共通に扱い得る類似
度値に変換する。ここで、変換された単語単位のマッチ
ングによる単語認識による類似度値をP1^（）（は、
カテゴリ）、変換された音韻単位のマッチングによる単
語認識による類似度値をP2^（）とすると、総合判定部
41において、最終的なカテゴリの類似度値Ｓ
^（）は、Ｓ^（）＝α^（）P1^（）＋（１−α^（）P2^（）として求められる。ここで、α^（）は、カテゴリに
対する単語単位のマッチングによる単語認識の総合判定
に対する寄与率を示すパラメータであり、この例では０
≦α＜１の範囲をとる。このαは、単語標準パターンの
学習に用いる単語音声パターン数により変化させる。例
えば第６図に示すように、学習用の単語音声パターン数
の増加に伴いαの値を単調に増加させ総合判定部におい
て単語単位のマッチングによる認識をより重視させる。

ここでは、あるカテゴリの学習用単語音声パターン
数が50個の場合には総合判定部で用いる単語単位のマッ
チングによる単語認識の寄与率α^（）を0.4とし、学
習用単語音声パターン数が100個の場合には寄与率α
^（）を0.8とすることを示している。

なお、上記寄与率の変化は、第６図の例に限定される
ものではないが、単語標準パターンの学習に用いる単語
音声パターン数が多くなるに従いαは大きくなる傾向を
示す。ここで、入力された音声に対し上記の認識を行な
った結果は、利用者に対し出力される。利用者は表示さ
れたカテゴリが正解であるか不正解であるかを入力す
る。正解と指示された場合には、入力音声から得られた
単語音声パターンを用いて、正解のカテゴリの単語標準
パターンの学習を行なう。したがって、カテゴリ毎に単
語標準パターンの学習用単語音声パターン数が異なるの
で、上述した単語単位の認識の総合判定に対する寄与率
αは、カテゴリ毎に異なる。

また、学習のための制御として、例えば、10個の学習
用単語音声パターンが蓄えられたカテゴリについては学
習を行なう（10個の学習データが蓄えられないうちは学
習を行なわない）ようにすることも可能であるし、学習
を行なう旨の指示がなされた場合にのみ学習処理を行な
うようにすることも可能である。

第３の実施例第２の実施例と同様に、収集した単語音声パターンを
用いて単語標準パターンの学習を行なうに従って、音韻
単位のマッチングに基づく認識結果よりも、性能の向上
した単語単位のマッチングに基づく認識結果をより重視
する総合判定部41の処理の他の一例を具体的に示す本発
明の第３の実施例について次に述べる。

単語標準パターンの学習に用いられた単語音声パター
ン数をＬとする。総合判定部41ではＬの値に応じて処理
を変える。例えば、第７図に示すように処理１〜４（S5
3〜S56）の４種類の処理のうちＬのとる値（S50〜S52で
判定される）に応じた１つが実行される。以下に、処理
１〜４の４種類の処理について説明する。

《処理１》〔Ｌ＝０の場合〕単語標準パターンが未登録の状態であり、第１の単語
認識部20による単語単位のマッチングが実行されず、第
２の単語認識部30による音韻単位のマッチングのみが行
なわれ、音韻単位のマッチングによる単語認識結果が総
合判定部41による認識結果として出力される。

《処理２》〔０＜Ｌ≦30の場合〕（30は例であり、この値は30に限らず適宜選定され得
る）単語標準パターンは存在するが、単語単位のマッチン
グによる単語認識の性能はまだ充分ではなく、音声単位
のマッチングによる単語認識のほうが性能が上であると
する。したがって、この段階においては、音韻単位のマ
ッチングによる単語認識を重視する。

この場合の処理の流れを第８図に示す。

音韻単位のマッチングに基づく単語認識結果に対し
て、２種類の閾値（θ２、Δθ２）を設定する。ここ
で、θ２は音韻単位のマッチングによる単語認識結果の
類似度値の閾値であり、類似度値が例えば０〜１の範囲
をとる場合に、例えばθ２＝0.8とする。また、Δθ２
は音韻単位のマッチングによる単語認識結果の最大類似
度との差の閾値であり、例えばΔθ２＝0.1とする。音
韻単位のマッチングにおいて、θ２（この場合0.8）以
上で且つΔθ２（この場合0.1）以下の類似度値を持つ
カテゴリが認識結果の候補となる。認識結果の候補数を
ｎとしたとき、ｎ＝０、ｎ＝１およびｎ≧２のいずれで
あるかによって処理が異なる。

（ｉ）ｎ＝０の場合には、入力音声に対する認識結果が
定まらずリジェクトされる。

（ii）ｎ＝１の場合には、入力音声に対する認識結果が
一意的に定まり、単語単位のマッチングによる認識結果
を用いる判定は行なわれず、そのまま認識結果として出
力される。

（iii）ｎ≧２の場合には、音韻単位のマッチングによ
る認識では認識結果が定まらないため、認識結果の候補
について、単語単位のマッチングによる認識判定を行な
う。ここで、単語単位のマッチングによる認識において
もθ２、Δθ２と同様の閾値θ１、Δθ１を設定する。
音韻単位のマッチングによる単語認識において得られた
認識結果の候補のうち、θ１（例えば0.7）以上で且つ
Δθ１（例えば0.05）以下の類似度値を持つカテゴリが
存在したとき（ｎ′≧１）、そのカテゴリが認識結果と
して出力される。このとき、上述の条件を満たすカテゴ
リが２つ以上存在した場合（ｎ′≧２）には、そのうち
類似度値のもっとも大きいカテゴリを認識結果として出
力する。また、上述の条件を満足するカテゴリが存在し
ない場合（ｎ′＝０）には、リジェクトする。

この処理２においては、音韻単位のマッチングによる
単語認識を重視する処理を行なう。すなわち、まず、音
韻単位のマッチングによる単語認識結果で候補となるカ
テゴリを選んだ後、単語単位の認識による判定を行なう
ので、音韻単位のマッチングによる認識結果のうち候補
に残らなかったカテゴリについては、たとえば単語単位
のマッチングによる単語認識結果で類似度が上位にあっ
ても認識結果となり得ない。

《処理３》〔30＜Ｌ≦100の場合〕（30、100は例であり、適宜選定され得る）単語単位のマッチングによる単語認識の性能が向上
し、音韻単位のマッチングによる単語認識よりも、単語
単位のマッチングによる単語認識のほうが性能が上であ
るとする。したがって、この段階においては、単語単位
のマッチングに基づく単語認識を重視した処理を行な
う。

この場合の処理の流れを第９図に示す。

単語単位のマッチングに基づく単語認識結果に対し
て、処理２と同様に、θ１とΔθ１の２種類の閾値を定
義する。ここで、θ１は単語単位のマッチングによる類
似度値の閾値であり、類似度値が例えば０〜１の範囲を
とる場合に、例えばθ１＝0.8とする。また、Δθ１は
単語単位のマッチングによる最大類似度との差の閾値で
あり、例えばΔθ１＝0.2とする。この単語単位のマッ
チングにおいて、θ１（この場合0.8）以上で、且つΔ
θ１（この場合0.2）以下の類似度値を持つカテゴリを
認識結果の候補とする。認識結果の候補数をｎ′とした
とき、ｎ′＝０、ｎ′＝１およびｎ′≧２のいずれであ
るかによって処理が異なる。

（ｉ）ｎ′＝０の場合には、入力音声に対する認識結果
が定まらずリジェクトされる。

（ii）ｎ′＝１の場合には、入力音声に対する認識結果
が一意的に定まり、音韻単位のマッチングによる認識結
果を用いる判定は行なわれず、そのまま認識結果として
出力される。

（iii）ｎ′≧２の場合には、単語単位のマッチングに
よる認識によって得られた認識結果の候補について、音
韻単位のマッチングによる認識判定を行なう。ここで、
音韻単位の認識においても処理２と同様にθ２、Δθ２
という閾値を設定する。単語単位のマッチングによる単
語認識において得られた単語の候補のうち、θ２（例え
ば0.8）以上で、且つΔθ２（例えば0.1）以下の類似度
値を持つカテゴリが存在したとき（ｎ≧１）、そのカテ
ゴリが認識結果として出力される。このとき、上述の条
件を満たすカテゴリが２つ以上存在した場合（ｎ≧２）
には、そのうち類似度値のもっとも大きいカテゴリを認
識結果として出力する。また、上述の条件を満足するカ
テゴリが存在しない場合（ｎ＝０）には、リジェクトす
る。

この処理３においては、単語単位のマッチングによる
単語認識を重視しているので、単語単位のマッチングに
よる認識結果で候補として選ばれなかったカテゴリにつ
いては、たとえば音韻単位のマッチングによる単語認識
結果で類似度が上位にあっても認識結果とはなり得な
い。

《処理４》〔Ｌ＞100の場合〕（100は例であり、適宜選定され得る）収集された単語音声パターンを用いた単語標準パター
ンの学習が進み、処理３の場合よりもさらに単語単位の
マッチングによる単語認識の性能が向上した場合の処理
であり、音韻単位のマッチングによる単語認識よりも、
単語単位のマッチングによる単語認識のほうがはるかに
性能が上である。したがって、この段階においては、単
語単位のマッチングに基づく単語認識を一層重視した処
理を行なう。

この場合の処理の流れを第10図に示す。

単語単位のマッチングに基づく単語認識結果に対し
て、処理２および処理３と同様に、θ１とΔθ１の２種
類の閾値を定義する。この単語単位のマッチングにおい
て、θ１（例えば0.8）以上で、且つΔθ１（例えば0.
1）以下の類似度値を持つカテゴリを認識結果の候補と
する。認識結果の候補数をｎ′としたとき、ｎ′＝０、
ｎ′＝１およびｎ′≧２のいずれであるかによって処理
が異なる。

（iii）ｎ′≧２の場合には、単語単位のマッチングに
よる認識によって得られた認識結果の候補について、音
韻ラベルによる遷移ネットワークを用いた認識処理を行
なう。例えば認識対象単語に対して、予め音韻の種類を
示す音韻ラベル（例えば、［Ａ］，［Ｉ］，［Ｕ］，
［Ｅ］，および［Ｏ］のような音に対するラベル、ある
いは［Ｐ］，［Ｔ］，および［Ｋ」のような破裂音に対
するラベル）による例えば第12図のような遷移ネットワ
ークを作成しておく。第12図は、「ハイ［HAI］」とい
う単語に対する遷移ネットワークの例である。入力され
た音声に対しては、例えば第11図のような音韻単位のマ
ッチングによる音韻ラベル系列［HHHHHHAAAAEEIII］が
生成され、その音韻ラベル系列が認識結果の候補となっ
たカテゴリの遷移ネットワークを満足する場合に認識結
果として出力する。このとき、上記遷移ネットワークを
満足するカテゴリが存在しない場合はリジェクトされ、
２つ以上のカテゴリが存在する場合は、それらのうち単
語単位の認識において最大の類似度を持つカテゴリを認
識結果とする。

上述の実施例で示した処理の種類、および閾値は、上
述された例に限定されず、上述以外にも種々変更して実
施することができる。つまり単語標準パターンの学習に
用いる単語音声パターン数が増加するに従い、単語単位
マッチングによる認識を重視した総合判定を行なう限
り、種々の変形が可能である。

例えば、認識処理対象となるカテゴリにおいて、学習
に用いる単語音声パターンの数が最低10パターン蓄えら
れた場合に、総合判定部が単語標準パターン学習部に対
して、各カテゴリについて10パターンずつ用いて、自動
的に学習を行なう旨の指示を行なうようにすることもで
きる。このとき、認識処理で用いた音声パターンを利用
者の指示により、単語標準パターンの学習のための単語
音声パータンとして収集することができるので、入力さ
れた単語音声を無駄なく最大限に活用して単語標準パタ
ーンの学習に用いることができる。

また、単語音声の入力は、実際に音声認識システムを
使用する際に、全カテゴリに対して同頻度で行なわれる
ものではないので、学習用の単語標準パターンを収集す
る際には、このことがボトルネックとなり、学習がなか
なか進まないという状況におちいることもある。このよ
うな不都合を解消するために、総合判定部41において収
集された各カテゴリ毎の学習用単語音声パターンの計数
を行ない、学習用単語音声パターンの数の少ないカテゴ
リに対しては、認識処理を行なう前に利用者に発声を促
すようにしてもよい。あるいは、このような場合に、別
途に例えばテープレコーダのような音声記録装置で収集
した音声を入力して学習用単語音声パターンの追加を行
なうようにすることも可能である。

学習を行なうように指示がなされた場合には、例えば
その時点で全カテゴリ中、最少の学習用単語音声パター
ン数を用いて学習がなされるようにしてもよい。例え
ば、「イチ［ICHI］」という音声パターンが30パター
ン、「ニ［NI］」というパターンが12パターン、そして
「サン［SAN］」というパターンが18パターンの学習用
単語音声パターンがある場合に、「イチ」の30パターン
のうち12パターンと、「ニ」の12パターンと、「サン」
の18パターンのうち12パターンを用いて学習を行ない、
残りのパターンは次回の学習に用いるようにしてもよ
い。

もちろん、上述においては、単語構成要素として音韻
を用いた場合について主に説明したが、音節を単語構成
要素の単位とする場合にも音韻を音節に置き換えて上述
と同様に実施できる。

［発明の効果］本発明の音声認識システムによれば、単語単位のマッ
チングによる単語認識結果と音韻単位のマッチングによ
る単語認識結果とを総合的に判断して最終的な認識結果
を得、更にその結果に基づいて単語標準パターンの学習
を行なうようにしているので、認識処理の過程で単語標
準パターンの学習を行なうことができる。このため、予
め単語標準パターンの作成を行なう必要がなく、単語の
語彙の拡張も容易で、しかも認識処理の進行に伴って単
語標準パターンの内容も次第に充実し、認識率が逐次向
上する。

【図面の簡単な説明】

第１図は本発明の第１の実施例による音声認識システム
の構成を示すブロック図、第２図は上記第１の実施例の
システムにおける認識結果出力部を更に詳細に示すブロ
ック図、第３図は上記第１の実施例のシステムにおける
単語標準パターンの学習処理の流れを示すフローチャー
ト、第４図は本発明の第２の実施例のシステムを説明す
るための単語単位のマッチングによる類似度分布を示す
図、第５図は上記第２の実施例のシステムを説明するた
めの音韻単位のマッチングによる類似度分布を示す図、
第６図は上記第２の実施例のシステムを説明するための
学習用音声パターン数と総合判定を行なう際の単語単位
のマッチングによる認識の寄与率の関係を示す図、第７
図は、本発明の第３の実施例のシステムにおける特徴的
な処理の流れを示すフローチャート、第８図〜第10図
は、上記第３の実施例のシステムにおける処理の流れを
モデル的に説明するための図、第11図および第12図は、
上記第３の実施例のシステムにおける処理に用いられる
音韻ラベル系列および音韻ラベルによる遷移ネットワー
クをモデル的に説明するための図である。 10……音声パラメータ抽出部、11……音声入力部、12…
…音響処理部、20……第１の単語認識部、21……単語音
声パターン抽出部、22……類似度計算部、23……単語標
準パターン記憶部、30……第２の単語認識部、31……セ
グメンテーション・ラベリング部、32……類似度計算
部、33……音韻標準パターン記憶部、34……単語認識
部、35……単語辞書、40……認識結果出力部、41……総
合判定部、42……表示部、43……指示入力部、50……単
語認識用標準パターン学習部、51……単語音声パターン
記憶部、52……単語標準パターン学習部。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭63−149698（ＪＰ，Ａ) 特開昭63−153596（ＪＰ，Ａ) 特開昭60−100197（ＪＰ，Ａ) 特開昭60−45298（ＪＰ，Ａ) 特開平１−309099（ＪＰ，Ａ) 特公平４−49958（ＪＰ，Ｂ２) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 571 G10L 3/00 521

Claims

(57)【特許請求の範囲】

【請求項１】入力音声を分析して該入力音声の音声パラ
メータを抽出するためのパラメータ抽出手段と、上記パラメータ抽出手段により抽出される音声パラメー
タを単語単位に切り出して単語音声パターンを抽出する
とともに、該単語音声パターンを単語標準パターンと照
合して単語認識を行う単語単位のマッチングによる第１
の単語認識手段と、上記パラメータ抽出手段で抽出される音声パラメータか
ら単語構成要素毎の音声パターンを予め記憶された単語
構成要素標準パターンに対応させて単語構成要素の認識
を行うとともに、得られた単語構成要素の系列の候補に
基づいて単語認識を行うための単語構成要素単位のマッ
チングによる第２の単語認識手段と、上記第１及び第２の単語認識手段からの各単語認識結果
に基づいて、総合的な認識結果を求め、これを出力する
ための認識結果出力手段と、上記認識結果出力手段で求められる認識結果と上記認識
処理の過程で抽出される単語音声パターンを単語標準パ
ターンの学習のための音声パターンとして収集し、該単
語音声パターンに基づいて上記単位標準パターンの学習
処理を行うための学習手段とを具備し、且つ上記認識結果出力手段は、上記学習手段において用いる
単語音声パターンが増加するに応じて、最終的に出力さ
れる上記総合的な認識結果における上記第１の単語認識
手段による単語単位のマッチングに基づく単語認識の結
果と上記第２の単語認識手段による単語構成要素単位の
マッチングに基づく単語認識の結果との寄与の度合いを
変化させ、上記学習に用いる単語音声パターン数が所定
数よりも少ない場合は、上記第１の単語認識手段による
単語認識の結果よりも上記第２の単語認識手段による単
語認識の結果を重視して総合的な認識結果を求めると共
に、上記学習に用いる単語音声パターン数が所定数を越
える場合には、上記第１の単語認識手段による単語認識
の結果を上記第２の単語認識手段による単語認識の結果
よりも重視して総合的な認識結果を求める音声認識シス
テム。
【請求項２】上記認識結果出力手段は、学習に用いる単
語音声パターン数が所定数よりも少ない場合には、第１
の単語認識手段による単語認識よりも第２の単語認識手
段による単語認識を優先的に行なうと共に、学習に用い
る単語音声パターン数が所定数を越える場合には、第２
の単語認識手段による単語認識よりも第１の単語認識手
段による単語認識を優先的に行なうことを特徴とする請
求項１記載の音声認識システム。