JPH0250198A

JPH0250198A - 音声認識システム

Info

Publication number: JPH0250198A
Application number: JP1131858A
Authority: JP
Inventors: Hiroshi Kanazawa; 博史金澤; Yoichi Takebayashi; 洋一竹林
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1988-05-27
Filing date: 1989-05-25
Publication date: 1990-02-20
Anticipated expiration: 2014-10-04
Also published as: EP0344017A3; DE68914032D1; EP0344017B1; EP0344017A2; JP2955297B2; DE68914032T2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［発明の詳細な説明］゛（産業上の利用分野）本発明は、単語単位のマツチングに基づく第１の単語認
識部と、単語構成要素単位のマツチングに基づく第２の
単語認識部とを備えた音声認識システムに関する。

（従来の技術）従来より単語認識の基本的な手法として２つの手法が知
られている。その一つは、例えば入力音声を単語単位で
切出し、単語全体のパターンマツチングを行なって単語
認識を行なう単語単位のマツチングによる認識手法であ
り、他の一つは、入力音声を音韻や音節等の単語（１■
成要索の単位にセグメンテーションして該単語構成要素
毎のパターンマツチングによる音韻認識若しくは音節認
識を行ない、音韻若しくは音節認識候補の系列から単語
の認識を行なう単語構成要素単位のマツチングによる単
語認識手法である。

前者のシステムは、単語単語単位のマツチングを行なう
ため、後者の手法のように、より細かい認識単位に分解
する必要がなく、また、入力された音声の動的特徴を単
語標準パターンに含んだ単語全体でのマツチングを行な
うため、認識率が高いという利点がある。その反面、該
前者のシステムは、認識する語黛の数が大きくなった場
合には、全ての語僧の標準パターンを用意することが困
難で、認識対象となる語堂数が制限されてしまうという
問題がある。また、標準パターンの学習に大量のデータ
を必要とするため、語紮の変更が容易ではない。

一方、後者のシステムでは、音韻数や音節数が単語の数
に比べて少ないことから、用意すべき１．１＄パターン
は高々１００種類程度で済み、語堂の変更も例えば認識
対象となる単語の文字列を入力する等といった容易な方
法で行なうことができる。しかし、この方法は認識処理
にセグメンテーション、ラベリング（音韻または音節認
識）、単語認識といった段階を必要とするため、処理が
複雑で、しかもセグメンテーションの際の誤りや、音声
パターンから音韻または音節系列に変換する際の誤り、
更には音韻または音節系列から単語を推定する際の誤り
が認識率を低下させるという問題があった。

また、上記の２つの手法の他にも、単語全体のパターン
マツチングと、音声パターンの各フレームに付けたラベ
ル系列のネットワークとの両方を用いて単語認識を行な
うといった手法が提案されてＩ、するが（Ｐｒｏｃ、５
ｅｖｅｎｔｈ　ＩｃＰＲ＋）＋）１２３２−１２３５　
、１９８４）、この方法によっても前述したような単語
標準パターンを予め用意しておく必要があるという問題
や語常の変更が困難であるという問題を解決することは
できなかった。

（発明が解決しようとする課題）コノヨウに、在来の音声認識システムは、単語単位のマ
ツチングによる単語認識方式では認識対象となる語量の
標準パターンの作成や語量の変更に多大な手間がかかり
、単語構成要素単位のマツチングによる単語認識方式で
は、処理量が膨大で認識誤りも生じ易いという問題があ
った。

本発明は、上述の事情に鑑みてなされたもので、その目
的とするところは、予め単語の標準パターンを用意する
必要がなく、認識処理により単語標準パターンの学習の
ための音声パターンを収集でき単語標準パターンの効果
的な学習が行える音声認識システムを提供することにあ
る。

また、本発明の他の目的は、単語標準パターンの学習に
用いられた単語標準パターンが増加するのに伴ってより
高い認識性能が得られる音声認識システムを提供するこ
とにある。

［発明の構成］（課題を解決するための手段）本発明に係る音声認識システムは、入力音声の音声パラ
メータを音声パラメータ抽出部にて抽出し、この単語音
声パラメータに対し単語単位のマツチングによる認識処
理を行なう第１の単語認識部と、単語よりも細かい単語
構成要素単位のマツチングによる単語認識を行なう第２
の単語認識部との２つの単語認識部を備えている。第１
の単語認識部は、抽出された音声パラメータを単語単位
に切出して単語音声パターンを抽出するとともに、この
単語音声パターンと予め用意される単語標準パターンと
を照合することにより単語認識を行なう。また、第２の
単語認識部は、抽出された音声パラメータから単語構成
要素の認識を行なうとともに、得られた単語構成要素の
系列の候補に基づいて単語認識を行なう。なお、ここで
単語構成要素とは、音韻、音節、ＣＶ　Ｃ（Ｃ：　ｃｏ
ｎｓｏｎａｎｔ〜子音、Ｖ　：　ｖｏｗｅｌ　〜母音）
、ＶＣＶなど、単語よりも細かいレベルの認識単位を意
味する。また、この音声認識システムには、上記第１お
よび第２の単語認識部の各単語認識結果に基づいて、総
合的に認識結果を求めこれを出力する認識結果出力部が
設けられている。更に、認識結果出力部で求められた認
識結果と上記認識処理の過程で抽出された単語音声パタ
ーンとに基づいて単語！Ｍ塾パターンの学、習を行なう
ための単語標準パターン学習部が設けられている。

また、上述のシステムにおいて、認識結果出力部に、認
識結果を表示する表示部と、認識結果に対して正解、不
正解を外部から指示するための指示入力部とを備え、単
語標準パターン学習部が上記指示入力部からの入力に基
づいて学習を行なうようにしてもよい。

（作用）本発明の音声認識システムによれば、単語単位と単語構
成要素単位の２種類のマツチングによる単語認識部を備
えているので、単語標準パターンが存在しない状態であ
っても単語構成要素単位のマツチングによる認識処理に
よって単語認識結果が得られる。単語標準パターン学習
部は、上記単語構成要素単位のマツチングによる単語認
識結果と抽出された単語音声パターンとに基づいて単語
標準パターンの学習処理を行なう。したがって、本発明
のシステムでは、予め単語標塾パターンを作成しておく
必要がなく、最初は単語構成要素単位のマツチングによ
る単語認識を行なうことができる。そして、この認識処
理により得られた単語音声パターンを用いて単語標準パ
ターンの学習を行うことにより、漸次、単語標準パター
ンの内容を充実させることができる。

単語標準パターンの学習は、例えば総合判定により得ら
れた認識結果と利用者により指示された正解・不正解の
情報とに基づき、認識処理を行なった単語音声パターン
を用いて行なえば良い。

これにより単語漂準パターンが作成されれば、単語構成
要素単位のマツチングによる単語認識と、単語単位のマ
ツチングによる単語認識とを併用することが可能になり
、高い認識率を期待てきる。

また、この音声認識システムを実際に用いる際に認識の
過程で、単語標準パターンの学習処理に用いる単語音声
パターンを収集し、単語標準パターンを繰返し学習する
ようにすれば、単語単位めマツチングに基づく単語認識
の性能は向上する。

したがって、総合判定部において、単語単位のマツチン
グに基づく単語認識をよりｍ視した判定を行なうことに
より、さらに高い認識性能を得ることができる。

（実施例）以下、本発明による音声認識システムの実施例について
説明する。

第１の実施例本発明の第１の実施例による音声認識システムは、第１
図に示すように、音声パラメータ抽出部１０、単語単位
のマツチングによる単語認識を行なう第１の単語認識部
２０、音韻単位のマツチングによる単語認識を行なう第
２の単語認識部３０、認識結果を出力する認識結果出力
部４０、および単語認識用の標準パターンの学習を行な
う単語認識用標準パターン学習部５０により構成されて
いる。音声パラメータ抽出部１０で抽出された音声パラ
メータは、単語単位のマツチングによる第１の単語認識
部２０と音韻単位のマツチングによる第２の単語認識部
３０の双方で単語認識処理され、それらの結果が認識結
果出力部４０で総合的に判断され、必要に応じて単語認
識用標準パターン学習部５０にて単語標準パターンの学
習が行なわれる。

音声パラメータ抽出部１０は、音声入力部１１と音響処
理部１２とを具備する。音声入力部１１は、入力音声を
例えばマイクロフォンを用いて電気信号に変換する。音
響処理部１２は、例えば８チヤンネルのフィルタバンク
等から構成され、音声入力部１１を介して入力された音
声信号を例えば２Ｏｎ＋ｓ程度のフレーム周期で周波数
分析してパワースペクトルに変換し、次元数を低減して
音声パラメータとして出力する。なお、音声パラメタと
しては、上述のフィルタ分析の他にも、例えば高速フー
リエ変換による分析結果またはケプストラム分析による
分析結果を用いることも可能である。

単語単位のマツチングを行なう第１の単語認識部２０は
、単語音声パターン抽出部２１と、類似度計算部２２と
、単語標準パターン記憶部２３とを有する。単語音声パ
ターン抽出部２１は、音響処理部１２から出力される音
声パラメータの系列から例えば音声パワーの低下点を単
語の始端、終端として検出した後、これら始端と終端と
で囲まれる区間内の音声パラメータを時間軸方向に一定
の数だけ均一にリサンプルして単語音声パターンを求め
、出力する。単語標準パターン記憶部２３は、認識対象
カテゴリｇ　（単語）の標準パターンが登録されるもの
である。この標準パターンとしては、例えば、複合類似
度を用いる場合には、予め多くのサンプルデータから求
められた共分散行列の固有値λｎ”’（ｎ−１〜Ｎ）と
、固有ベクトルφｎ（目　（ｎ＝ｌ〜Ｎ）とが格納され
る。

類似度計算部２２は、単語特徴ベクトル抽出部２１で抽
出された特徴ベクトル「と、単語標準パターン記憶部２
３に格納されたカテゴリｇの標準パターン（φｎ１１１
　の各ｎ面のベクトルとの類似度ＳＮＩ’　　［ｔ］を
、ＳＮＩゝ　［ぼ］なる複合類似度計算により求め、その類似度値を出力す
る。なお、このような複合類似度値Ｓを用いる代わりに
、良く知られたマハラノビスの汎距離またはユークリッ
ド距離を用いることも可能である。

音韻単位のマツチングを行なう第２の単語認識部３０は
、セグメンテーション・ラベリング部３１、類似度計算
部３２、音韻標準パターン記憶部３３、単語認識部３４
および単語辞書３５を有する。類似度計算部３２は、音
響処理部１２から出力される音声パラメータと音韻標準
パターン記憶部３３に格納された標準パターンとを用い
て類似度計算を行い、例えば各フレーム毎に前述した複
合類似度のような類似度を求める。セグメンテーション
・ラベリング部３１は、求められた類似度系列および音
声パラメータの音響特徴に基づいてセグメンテーション
を行ない、同時に当該区間の音韻認識（ラベリング）を
行なう。単語認識部３４は、セグメンテーション・ラベ
リング部３１から求められた音韻系列候補が入力され、
例えばＤＰマツチングに基づいて類似度計算を行なって
、単語認識候補を認識結果生成出力部４０に出力する。

認識結果生成出力部４０は、総合判定部４１と、表示部
４２と、指示入力部４３とを具備する。総合判定部４１
は、単語単位のマツチングに基づく単語認識部２０およ
びマツチングに基づく音韻単位の単語認識部３０からの
認識結果に基づき、最終的な単語認識結果を求め出力す
る。表示部４２は、例えばＣＲＴデイスプレィからなる
。指示入力部４３は、表示部４２に表示された認識結果
に対して利用者が例えば正解であるか不正解であるかを
入力したり、誤っていた場合には、正解のカテゴリ名を
入力するのに使用される。また、指示入力部４３により
、次の発声を行なう旨の入力を行なうことも可能である
。

単語認識用標準パターン学習部５０は、単語音声パター
ン記憶部５１と、単語標準パターン学習部５２とを有す
る。単語音声パターン記憶部５１には、単語音声パター
ン抽出部２１で抽出された単語音声パターンが格納され
る。単語標準パターン学習部５２は、単語音声パターン
記憶部５１に格納された単語音声パターンと、指示入力
部４３によって入力され総合判定部４１において上記単
語標準パターンと対応付けて記憶された正解および不正
解の情報並びに認識結果を用いて単語標準パターンの学
習を行なう。

次にこのように構成された本実施例に係る音声認識シス
テムの動作について説明する。

利用者が発声した音声は、まず音声入力部１１で電気信
号に変換され、音響処理部１２でスペクトルデータから
なる音声パラメータに変換される。

この音声パラメータは、第１の（単語単位のマツチング
による）単語認識部２０と第２の（音韻単位のマツチン
グによる）単語認識部３０とに供給される。しかし、単
語単位のマツチングによる単語認識部２０では、単語標
準パターン記憶部２３に単語ｉ票準パターンが存在しな
い場合は、単語認識処理は行イ）れず、単語音声パター
ン抽出部２１による単語音声パターンの抽出のみ行われ
る。単語標章パターン記憶部２３に１１′Ｌ語１票準パ
ターンが存在す゛・る場合には、単語標準パターン記憶
部２３に登録された標準パターンと、単語音声パターン
抽出部２１により抽出された単語音声パターンとのマツ
チングが行なわれ、認識対象単語に対する類似度が゛出
力される。抽出された単語音声パターンは単語音声パタ
ーン記憶部５１に格納され、後に述べる学習処理に使用
される。

一方、第２の（音韻単位の）単語認識部３０では、音響
処理部１２からの音声パラメータを用いて単語構成要素
単位のマツチングによる単語認識が行われる。上記音声
パラメータは、まず、類似度計算部３２に入力され、音
韻標準パターン記憶部３３に格納された音韻標準パター
ンとの類似度が計算され、例えば各フレーム毎に前述し
た複合類似度のような類似度が求められる。次にセグメ
ンテーション・ラベリング部において、求められた類似
度系列および音声パラメータの音響的特徴に基づいて、
セグメンテーションが行われ、同時に、当該区間の音韻
認識が行われる。単語認識部３４は、求められた音韻系
列候補と単語辞書３５に格納された単語の文字列との類
似度を、例えばＤＰマツチングに基づいて行い、単語認
識結果を認識結果出力部４０に出力する。

こうして、単語単位のマツチングに基づく単語認識部２
０、および音韻単位のマツチングに基づく単語認識部３
０で求められた単語結果は、総合判定部４１に入力され
、更に最終的な単語認識結果として表示部４２に表示さ
れる。

利用者が、表示部４２に表示された認識結果に対し、指
示入力部４３を介し正解か不正解かを入力したり、指示
人力部４３を介して正解カテゴリ名を入力すると、これ
ら入力情報および認識結果は、上記単語音声パターン記
憶部５１に記憶されている単語゛音声パターンと対応付
けられ総合判定部４１内の認識結果記憶部に格納される
。これにより通常の認識処理を行ないながら、僅かな指
示入力を行なうだけで単語標準パターン学習のためのデ
ータ収集が行える。

単語標準パターンの学習は次のように行われる。

例えば上述した複合類似度法による単語標桑パターンを
例にとると、単語特徴ベクトル記憶部５１に格納された
該当カテゴリに属する特徴ベクトルＸｎ　　（ｎ−１，
２，・、Ｎ）を用イテ共分散行列Ｋを作成する。

（ｔ：転置、ｆＩ：カテゴリ）これにより求めた共分散行列ＩＫ”’を主成分分析して
、固有値λ（１）、固有ベクトル４（＃）を求める。

また、該カテゴリの単語標準パターンを作成した際の共
分散行列に１１）を単語音声パターン記憶部５１に格納
しておき、以下のように次の学習を行なう際の基本共分
散行列とすることも可能である。

（（（ｊ　ｌ　　：基本共分散行列１＜ｌｌ′　、新たに作成される共分散行列ｇ：カテゴ
リ α：重み係数Ｎ：学習用音声パターン数ｔ：転置以上の処理によって認識処理を行ないながら単語標準パ
ターン作成のための単語音声パターン収集を行ない、単
語標準パターン学習部５２における学習処理によって単
語標準パターンを作成していくことができる。従って、
予め単語標準パターン記憶部２３に標準パターンを格納
することなしに、最初のうちは音韻単位の単語認識のみ
で単語認識処理を行ない、単語標準パターンの学習に用
いた単語音声パターン数が増加するに伴い、総合判定部
において、単語単位のマツチングに基づく単語認識をよ
り重視した判定を行なうようにする。

これは、単語標準パターンの学習により、単語単位のマ
ツチングに基づく単語認識性能が向上するという理由に
よる。

以上の処理により、総合判定部４１で求められ°た最終
結果は表示部４２に出力される。

すなわち、いま総合判定部４１が例えば第２図に示すよ
うに、単語単位のマツチングによる単語認識結果記憶部
４１ａ、音韻単位のマツチングによる単語認識結果記憶
部４１ｂ１判定部４１ｃ。

認識単語記憶部４１ｄにより構成されているとすると、
学習処理は例えば第３図に示すような流れに基づいて行
なえば良い。

まず、音声が入力され（Ｓ２１）、単語単位の単語認識
（Ｓ　２２）および音韻単位の単語認識（３２Ｂ）を行
なった結果をそれぞれ認識結果記憶部４１ａ、４１ｂに
格納する。格納された認識結果は判定部４１ｃに送られ
、用意された判定規則に基づいて総合的に判定され、認
識結果が得られる（Ｓ　２４）。この認識結果は、制御
部６０を介して表示部４２に出力される（Ｓ２５）。利
用者により、この認識結果が正解あると入力された場合
には（Ｓ２６）、その認識結果を有効とする（Ｓ２７）
。そして、該単語音声パターン（特徴ベクトル）を学習
用単語音声パターンとすることが指示された場合には（
３２８）、正解カテゴリ名を該単語音声パターンと対応
付けされて認識結果記憶部４１ｄに格納される（Ｓ２９
）。学習用単語音声パターンとしない場合には、次の入
力を促す（Ｓ２１・）。また、不正解であると入力され
た場合には、学習用単語音声パターンとするが否かの指
示を促しく５３０）、学習用単語音声パターンとしない
場合・には、次の音声入力を促す（Ｓ２１）。また、学
習用単語音声パターンとする場合には、利用者による正
解カテゴリ名の入力（Ｓ３１）によって、誤りカテゴリ
名と正解カテゴリ名とを対応付け、さらにこれらと単語
音声パターンとが対応付けられて認識結果記憶部４１ｄ
に格納する（Ｓ３２）。以上の処理が終了した時点で、
学習を行なうか否かの指示が行われ（５３３）、学習を
行なわない場合には、次の音声入力を促す（Ｓ２１）。

学習を行なう旨の指示が行なわれたときには、それまで
単語音声パターン記憶部５１に累積されていた単語音声
パターンおよび認識結果記憶部４１ｄに格納された認識
結果に基づき学習処理が行われる（Ｓ３４）。

このようにして、通常の認識処理の流れの中で簡単な指
示を与えるだけで学習用単語音声パターンの収集が行え
、学習処理を行うことにより、従来のように認識すべき
単語を一つ一つ発声しながら単語標準パターンを作成す
るとい゛った手間が全く不要になり、語♀の拡張が極め
て容易になる。

なお、上記実施例では、学習のための音声パターンを収
集する際に利用者が正解・不正解の指示を与えるように
したが、認識結果が十分に確からしいと判定されたデー
タだけを自動的に単語標準パターン学習部５２に送り、
学習処理を行なうようにすることも考えられる。また、
上記実施例では単語構成要素として音韻単位の認識につ
いて述べたが、この他、音節単位、ＣＶＣ，ＶＣＶなど
、他の要素を基本とする単語認識を行なうようにしても
良い。

第２の実施例先に述べたように、単語標準パターンの学習に用いる単
語音声パターン数が増加するに伴い、単語単位のマツチ
ングに晶づく認識性能が向上する。

そこで、高精度な認識を可能とするため、収集した単語
音声パターンを用いて単語標準パターンの学習を行なう
に従い、総合判定部４１で、音韻単位のマツチジグに基
づく認識結果よりも、性能の向上した単語単位のマツチ
ングに基づく認識結果をより重視する。このような総合
判定部４１の処理の一例を具体的に示す本発明の第２の
実施例について次に述べる。

総合判定部４１では、単語単位のマツチングおよび音韻
単位のマツチングによる類似度を用いて最終的な認識結
果を決定する。

単語単位のマツチングによる認識において、類似度の分
布が、例えば、第４図のような分布をし、音韻単位のマ
ツチングによる認識処理において類似度分布が第５図の
ような分布をしている場合を考える。単語単位のマツチ
ングおよび音韻単位のマツチングにおいて、入力音声に
対しあるカテゴリの類似度が同じ値（例えば０．９）と
なった場合でも、入力音声がそのカテゴリである確率は
、音韻単位のマツチングによる単語認識のほうが単語単
位のマツチングによる認識よりも高くなる。

したがって、単語単位のマツチングによる第１の単語認
識部２０により出力された類似度値および音韻単位のマ
ツチングによる第２の単語認識部３０により出力された
類似度値を、事後確率に変換するといった手法（例えば
、ｐｒｏｃ、　ＩＣＡＳＳＰ、　ｐｐ。

１０７７−１０８０．１９８８　）を用いるなどして、
両認識部２０および３０から出力された類似度値を共通
に扱い得る類似度値に変換する。ここで、変換された単
語単位のマツチングによる単語認識による類似度値をＰ
ｌ（Ｉ’（１）は、カテゴリ）、変換された音韻単位の
マツチングによる単語認識による類似度値をｐ２（１）
とすると、総合判定部４１において、最終的なカテゴリ
ｇの類似度値５（１１は、一α（Ｊ）　ｐｌ　（ｊｌ＋（１−α（ｊ）　）　ｐ２　（１３として求められる。ここで、αｌ）は、カテゴリｇに対
する単語単位のマツチングによる単語認識の総合判定に
対する寄与率を示すパラメータであり、この例では０≦
αく１の範囲をとる。このαは、単語標準パターンの学
習に用いる単語音声パターン数により変化させる。例え
ば第６図に示すように、学習用の単語音声パターン数の
増加に伴いαの値を単調に増加させ総合判定部において
単語単位のマツチングによる認識をより重視させる。

ここでは、あるカテゴリｇの学習用単語音声パータン数
が５０個の場合には総合判定部で用いる単語単位のマツ
チングによる単語認識の寄与率α３１ゝを０．４とし、
学習用単語音声パターン数が１００個の場合には寄与率
α（＃）を０，８とすることを示している。

なお、上記寄与率の変化は、第６図の例に限定されるも
のではないが、単語標準パターンの学習に用いる単語音
声パターン数が多くなるに従いαは大きくなる傾向を示
す。ここで、入力された音声に対し上記の認識を行なっ
た結果は、利用者に対し出力される。利用者は表示され
たカテゴリが正解であるか不正解であるかを入力する。

１酎と指示された場合には、入力音声から得られた単語
音声パターンを用いて、正解のカテゴリの単語撤準パタ
ーンの学習を行なう。したがって、カテゴリ毎に単語標
準パターンの学習用単語音声パターン数が異なるので、
上述した単語単位の認識の総合判定に対する寄与率αは
、カテゴリ毎に異なる。

また、学習のための制御として、例えば、１０個の学習
用単語音声パターンが蓄えられたカテゴリについては学
習を行なう（１０個の学習データが蓄えられないうちは
学習を行なわない）ようにすることも可能であるし、学
習を行なう旨の指示がなされた場合にのみ学習処理を行
なうようにすることも可能である。

第３の実施例第２の実施例と同様に、収集した単語音声パターンを用
いて単語標準パターンの学習を行なうに従って、音韻単
位のマツチングに基づく認識結果よりも、性能の向上し
た単語単位のマツチングに基づく認識結果をより重視す
る総合判定部４１の処理の他の一例、を具体的に示す本
発明の第３の実施例について次に述べる。

単語標学パターンの学習に用いられた単語音声パターン
数をＬとする。総合判定部４１ではＬの値に応じて処理
を変える。例えば、第７図に示すように処理１〜４（９
５３〜５５６）の４種類の処理のうちＬのとる値（８５
０〜Ｓ５２で判定される）に応じた１つが実行される。

以下に１、処理１〜４の４種類の処理について説明する
。

（処理１）〔Ｌ−０の場合〕単語標準パターンが未登録の状態であり、第１の単語認
識部２０による単語単位のマツチングが実行されず、第
２の単語認識部３ｏによる音韻単位のマツチングのみが
行なわれ、音韻単位のマツチングによる単語認識結果が
総合判定部４１による認識結果として出力される。

（処理２）〔０くＬ≦３０の場合〕（３０は例であり、この値は３０に限らず適宜選定され
得る）単語標準パターンは存在するが、単語単位のマツチング
による単語認識の性能はまだ充分ではなく、音韻単位の
マツチングによる単語認識のほうが性能が上であるとす
る。したがりて、この段階においては、音韻単位のマツ
チングによる単語認識を重視する。

この場合の処理の流れを第８図に示す。

音韻単位のマツチングに基づく単語認識結果に対して、
２種類の閾値（θ２、Δθ２）を設定する。ここで、θ
２は音韻単位のマツチングによる単語認識結果の類似度
値の閾値であり、類似度値が例えば０〜１の範囲をとる
場合に、例えばθ２−０．８とする。また、Δθ２は音
韻単位のマツチングによる単語認識結果の最大類似度と
の差の閾値であり、例えばΔθ２−０．１とする。音韻
単位のマツチングにおいて、θ２　（この場合０゜８）
以上で且つΔθ２　（この場合０．１）以下の類似度値
を持つカテゴリが認識結果の候補となる。

認識結果の候補数をｎとしたとき、ｎ−０、ｎ−１およ
びｎ≧２のいずれであるかによって処理が異なる。

（ｉ）ｎ＝０の場合には、入力音声に対する認識結果が
定まらずリジェクトされる。

（３１）ｎ　−１の場合には、入力音声に対する認識結
果が一意的に定まり、単語単位のマツチングによる認識
結果を用いる判定は行なわれず、そのまま認識結果とし
て出力される。

（１１１）　ｎ≧２の場合には、音韻単位のマツチング
による認識では認識結果が定まらないため、認識結果の
候補について、単語単位のマツチングによる認識判定を
行なう。ここで、単語単位のマツチングによる認識にお
いてもθ２、Δθ２と同様の閾値θ１２Δθｌを設定す
る。音韻単位のマツチングによる単語認識において得ら
れた認識結果の候補のうち、θ１　（例えば０．７）以
上で且っΔθｌ　（例えば０．０５）以下の類似度値を
持つカテゴリが存在したとき（ｎ／　≧１）、そのカテ
ゴリが認識結果として出力される。このとき、上述の条
件を満たすカテゴリが２つ以上存在した場合（ｎ　／　
≧２）には、そのうち類似度値のもっとも大きいカテゴ
リを認識結果として出力する。また、上述の条件を満足
するカテゴリが存在しない場合（ｎ’−０）には、リジ
ェクトする。

この処理２においては、音韻単位のマツチングによる単
語認識を重視する処理を行なう。すなわち、まず、音韻
単位のマツチングによる単語認識結果で候補となるカテ
ゴリを選んだ後、単記単位の認識による判定を行なうの
で、音韻単位のマツチングによる認識結果のうち候補に
残らなかったカテゴリについては、たとえ単語単位のマ
ツチングによる単語認識結果で類似度が上位にあっても
認識結果とはなり得ない。

（処理３）（３０＜Ｌ≦１００の場合〕（３０，１００は例であり、適宜選定され得る）単語単
位のマツチングによる単語認識の性能が向上し、音韻単
位のマツチングによる単語認識よりも、単語単位のマツ
チングによる単語認識のほうが性能が上であるとする。

したがって、この段階においては、単語単位のマツチン
グに基づく単語認識を重視した処理を行なう。

この場合の処理の流れを第９図に示す。

単語単位のマツチングに基づく単語認識結果に対して、
処理２と同様に、θｌとΔθｌの２種類の閾値を定義す
る。ここで、θｌは単語単位のマツチングによる類似度
値の閾値であり、類似度値が例えば０〜１の範囲をとる
場合に、例えばθｌ−〇、８とする。また、Δθ１は単
語単位のマツチングによる最大類似度との差の閾値であ
り、例えばΔθ１−０．２とする。この単語単位のマツ
チングにおいて、θｌ　（この場合０．８）以上で、且
つΔθｌ　（この場合０．２）以下の類似度値を持つカ
テゴリを認識結果の候補とする。認識結果の候補数をｎ
　としたとき、ｎ′−〇、ｎ′−１およびｎ′≧２のい
ずれであるかによって処理が異なる。

（ｉ）ｎ’−０の場合には、入力音声に対する認識結果
が定まらずリジェクトされる。

（ｌｉ）ｎ’　ｍｌの場合には、入力音声に対する認識
結果が一意的に定まり、音韻単位のマツチングによる認
識結果を用いる判定は行なわれず、そのまま認識結果と
して出力される。

（ｌｉｉ）　ｎ　’　≧２の場合には、単語単位のマ・
ソチングによる認識によって得られた認識結果の候補に
ついて、音韻単位のマツチングによる認識判定を行なう
。ここで、音韻単位の認識においても処理２と同様にθ
２、Δθ２という閾値を設定する。

単語単位のマツチングによる単語認識において得られた
単語の候補のうち、θ２　（例えば０．８）以上で、且
つΔθ２　（例えば０．１）以下の類似度値を持つカテ
ゴリが存在したとき（ｎ≧１）、そのカテゴリが認識結
果として出力される。このとき、上述の条件を満たすカ
テゴリが２つ以上存在した場合（ｎ≧２）には、そのう
ち類似度値のもっとも大きいカテゴリを認識結果として
出力する。また、上述の条件を満足するカテゴリが存在
しない場合（ｎ−０）には、リジェクトする。

この処理３においては、単語単位のマツチングによる単
語認識を重視しているので、単語単位のマツチングによ
る認識結果で候補として選ばれなかったカテゴリについ
ては、たとえ音韻単位のマツチングによる単語認識結果
で類似度が上位にあっでも認識結果とはなり得ない。

（処理４）（Ｌ＞１００の場合〕（１００は例であり、適宜選定され得る）収集された単
語音声パターンを用いた単語標準パターンの学習が進み
、処理３の場合よりもさらに単語単位のマツチングによ
る単語認識の性能が向上した場合の処理であり、音韻単
位のマツチングによる単語認識よりも、単語単位のマ・
ソチングによる単語認識のほうがはるかに性能が上であ
る。

したがって、この段階においては、単語単位のマツチン
グに基づく単語認識を一層重視した処理を行なう。

この場合の処理の流れを第１０図に示す。

単語単位のマツチングに基づく単語認識結果に対して、
処理２および処理３と同様に、θ１とΔθｌの２種類の
閾値を定義する。この単語単位のマツチングにおいて、
θｌ　（例えば０．８）以上で、且つΔθｌ　（例えば
０．１）以下の類似度値を持つカテゴリを認識結果の候
補とする。認識結果の候補数をｎ′としたとき、ｎ′−
〇、ｎ′−１およびｎ′≧２のいずれであるかによって
処理が異なる。

（ｉｉ）ｎ’＝１の場合には、入力音声に対する認識結
果が一意的に定まり、音韻単位のマツチングによる認識
結果を用いる判定は行なわれず、そのまま認識結果とし
て出力される。

（ｉｉｉ）　ｎ’　≧２の場合には、単語単位のマツチ
ングによる認識によって得られた認識結果の候補につい
て、音韻ラベルによる遷移ネットワークを用いた認識処
理を行なう。例えば認識対象単語に対して、予め音韻の
種類を示す音韻ラベル（例えば、［Ａ］、［１３，［Ｕ
］、［Ｅ］、および［０］のような母音に対するラベル
、あるいは［Ｐ］［Ｔ］、および［Ｋ］のような破裂音
に対するラベル）による例えば第１２図のような遷移ネ
ットワークを作成しておく。第１２図は、［ハイ［ＩＡ
Ｉ］　Ｊという単語に対する遷移ネットワークの例であ
る。入力された音声に対しては、例えば第１１図のよう
な音韻単位のマツチングによる音韻ラベル系列［ＨＨＨ
ＨＨＨＡＡＡＡＥＥ　Ｉ　Ｉ　Ｉ］が生成され、その音
韻ラベル系列が認識結果の候補となったカテゴリの遷移
ネットワークを満足する場合に認識結果として出力する
。このとき、上記遷移ネットワークを満足するカテゴリ
が存在しない場合はリジェクトされ、２つ以上のカテゴ
リが存在する場合は、それらのうち単語単位の認識にお
いて最大の類似度を持つカテゴリを認識結果とする。

上述の実施例で示した処理の種類、および閾値は、上述
された例に限定されず、上述以外にも種々変更して実施
することができる。つまり単語標準パターンの学習に用
いる単語音声パターン数が増加するに従い、単語単位マ
ツチングによる認識を重視した総合判定を行なう限り、
種々の変形が可能である。

例えば、認識処理対象となるカテゴリにおいて、学習に
用いる単語音声パターンの数が最低１０パターン蓄えら
れた場合に、総合判定部が単語標準パターン学習部に対
して、各カテゴリについて１０パターンずつ用いて、自
動的に学習を行なう旨の指示を行なうようにすることも
できる。このとき、認識処理で用いた音声パターンを利
用者の指示により、単語標準パターンの学習のための単
・語音声パータンとして収集することができるので、入
力された単語音声を無駄なく最大限に活用して単語標準
パターンの学習に用いることができる。

また、単語音声の入力は、実際に音声認識システムを使
用する際に、全カテゴリに対して同頻度で行なわれるも
のではないので、学習用の単語標準パターンを収集する
際には、このことがボトルネックとなり、学習がなかな
か進まないという状況におちいることもある。このよう
な不都合を解消するために、総合判定部４１において収
集された各カテゴリ毎の学習用単語音声パターンの計数
を行ない、学習用単語音声パターンの数の少ないカテゴ
リに対しては、認識処理を行なう前に利用者に発声を捉
すようにしてもよい。あるいは、このような場合に、・
別途に例えばテープレコーダのような音声記録装置で収
集した音声を入力して学習用単語音声パターンの追加を
行なうようにすることも可能である。

学習を行なうように指示がなされた場合には、例えばそ
の時点で全カテゴリ中、最少の学習用単語音声パターン
数を用いて学習がなされるようにしてもよい。例えば、
「イチ［ＩＣＩＩ］Ｊという音声パターンが３０パター
ン、「二［ＮＩ］Ｊというパターンが１２パターン、そ
して「サン［ＳＡＮ］　Ｊというパターンが１８パター
ンの学習用単語音声パターンがある場合に、「イチ」の
３０パターンのうち１２パターンと、「二」の１２パタ
ーンと、「サン」の１８パターンのうち１２パターンを
用いて学習を行ない、残りのパターンは次回の学習に用
いるようにしてもよい。

もちろん、上述においては、単語構成要素として音韻を
用いた場合について主に説明したが、音節を単語構成要
素の単位とする場合にも音韻を音節に置き換えて上述と
同様に実施できる。

［発明の効果］本発明の音声認識システムによれば、単語単位のマツチ
ングによる単語認識結果と音韻単位のマツチングによる
単語認識結果とを総合的に判断して最終的な認識結果を
得、更にその結果に基づいて単語標準パターンの学習を
行なうようにして、いるので、認識処理の過程で単語標
準パターンの学習を行なうことができる。このため、予
め単語標亭パターンの作成を行なう必要がなく、単語の
給量の拡張も容易で、しかも認識処理の進行に伴って単
語標準パターンの内容も次第に充実し、認識率が逐次向
上する。

【図面の簡単な説明】

第１図は本発明の第１の実施例による音声認識システム
の構成を示すブロック図、第２図は上記第１の実施例の
システムにおける認識結果出力部を更に詳細に示すブロ
ック図、第３図は上記第１の実施例のシステムにおける
単語標準パターンの学習処理の流れを示すフローチャー
ト、第４図は本発明の第２の実施例のシステムを説明す
るための単語単位のマツチングによる類似度分布を示す
図、第５図は上記第２の実施例のシステムを説明するた
めの音韻単位のマツチングによる類似度分布を示す図、
第６図は上記第２の実施例のシステムを説明するための
学習用音声パターン数と総合判定を行なう際の単語単位
のマツチングによる認識の寄与率の関係を示す図、第７
図は、本発明の第３の実施例のシステムにおける特徴的
な処理の流れを示すフローチャート、第８図〜第１０図
は、上記第３の実施例のシステムにおける処理の流れを
モデル的に説明するための図、第１１図および第１２図
は、上記第３の実施例のシステムにおける処理に用いら
れる音韻ラベル系列および音韻ラベルによる遷移ネット
ワークをモデル的に説明するための図である。１０・−・音声パラメータ抽出部、１１・・・音声入力
部、１２・・・音響処理部、２０・・・第１の単語認識
部、２１・・・単語音声パターン抽出部、２２・・・類
似度計算部、２３・・・単語標準パターン記憶部、３ｏ
・・・第２の単語認識部、３１・・・セグメンテーショ
ン・ラベリング部、３２・・・類似度計算部、３３・・
・音韻標準パターン記憶部、３４・・・単語認識部、３
５・・・単語辞書、４０・・・認識結果出力部、４１・
・・総合判定部、４２・・・表示部、４３・・・指示入
力部、５０・・・単語認識用標準パターン学習部、５．
１・・・単語音声パターン記憶部、５２・・・単語標準
パターン学習部。出願人代理人　弁理士　鈴江武彦第２図第図類似度値第５図第図 Δθ１第図第図第図

Claims

【特許請求の範囲】

（１）入力音声を分析して該入力音声の音声パラメータ
を抽出するためのパラメータ抽出手段と、上記パラメー
タ抽出手段により抽出される音声パラメータを単語単位
に切出して単語音声パターンを抽出するとともに、該単
語音声パターンを単語標準パターンとマッチングして単
語認識を行なうための単語単位のマッチングによる第１
の単語認識手段と、上記パラメータ抽出手段で抽出される音声パラメータか
ら単語構成要素毎の音声パターンを予め記憶された単語
構成要素標準パターンに対応させて単語構成要素の認識
を行なうとともに、得られた単語構成要素の系列の候補
に基づいて単語認識を行なうための単語構成要素単位の
マッチングによる第２の単語認識手段と、上記第１および第２の単語認識手段からの各単語認識結
果に基づいて、総合的に認識結果を求めこれを出力する
ための認識結果出力手段と、上記認識結果出力手段で求
められる認識結果と上記認識処理の過程で抽出される単
語音声パターンを単語標準パターンの学習のための音声
パターンとして収集し、該単語音声パターンに基づいて
上記単語標準パターンの学習処理を行なうための学習手
段とを具備する音声認識システム。
（２）入力音声を分析して該入力音声の音声パラメータ
を抽出するためのパラメータ抽出手段と、上記パラメー
タ抽出手段により抽出される音声パラメータを単語単位
に切出して単語音声パターンを抽出するとともに、該単
語音声パターンを単語標準パターンと照合して単語認識
を行なう単語単位のマッチングによる第１の単語認識手
段と、上記パラメータ抽出手段で抽出される音声パラメ
ータから単語構成要素毎の音声パターンを予め記憶され
た単語構成要素標準パターンに対応させて単語構成要素
の認識を行なうとともに、得られた単語構成要素の系列
の候補に基づいて単語認識を行なうための単語構成要素
単位のマッチングによる第２の単語認識手段と、上記第１および第２の単語認識手段からの各単語認識結
果に基づいて、総合的な認識結果を求めこれを出力する
ための認識結果出力手段と、上記認識結果出力手段で求
められる認識結果と上記認識処理の過程で抽出される単
語音声パターンを単語標準パターンの学習のための音声
パターンとして収集し、該単語音声パターンに基づいて
上記単語標準パターンの学習処理を行なうための学習手
段とを具備し、且つ上記認識結果出力手段は、上記学習手段において用いる
単語音声パターンが増加するのに応じて、最終的に出力
される上記総合的な認識結果における上記第１の単語認
識手段による単語単位のマッチングに基づく単語認識の
結果と上記第２の単語認識手段による単語構成要素単位
のマッチングに基づく単語認識の結果との寄与の度合を
変化させ、上記学習で用いる単語音声パターンが増加す
るのにつれて、上記第１の単語認識手段による単語認識
の結果を上記第２の単語認識手段による単語認識の結果
よりも重視して総合的な認識結果を求める音声認識シス
テム。