JP2955297B2 - 音声認識システム - Google Patents

音声認識システム

Info

Publication number
JP2955297B2
JP2955297B2 JP1131858A JP13185889A JP2955297B2 JP 2955297 B2 JP2955297 B2 JP 2955297B2 JP 1131858 A JP1131858 A JP 1131858A JP 13185889 A JP13185889 A JP 13185889A JP 2955297 B2 JP2955297 B2 JP 2955297B2
Authority
JP
Japan
Prior art keywords
word
recognition
unit
voice
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1131858A
Other languages
English (en)
Other versions
JPH0250198A (ja
Inventor
博史 金澤
洋一 竹林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JPH0250198A publication Critical patent/JPH0250198A/ja
Application granted granted Critical
Publication of JP2955297B2 publication Critical patent/JP2955297B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 [発明の詳細な説明] (産業上の利用分野) 本発明は、単語単位のマッチングに基づく第1の単語
認識部と、単語構成要素単位のマッチングに基づく第2
の単語認識部とを備えた音声認識システムに関する。
(従来の技術) 従来より単語認識の基本的な手法として2つの手法が
知られている。その一つは、例えば入力音声を単語単位
で切出し、単語全体のパターンマッチングを行なって単
語認識を行なう単語単位のマッチングによる認識手法で
あり、他の一つは、入力音声を音韻や音節等の単語構成
要素の単位にセグメンテーションして該単語構成要素毎
のパターンマッチングによる音韻認識若しくは音節認識
を行ない、音韻若しくは音節認識候補の系列から単語の
認識を行なう単語構成要素単位のマッチングによる単語
認識手法である。
前者のシステムは、単語単位のマッチングを行なうた
め、後者の手法のように、より細かい認識単位に分解す
る必要がなく、また、入力された音声の動的特徴を単語
標準パターンに含んだ単語全体でのマッチングを行なう
ため、認識率が高いという利点がある。その反面、該前
者のシステムは、認識する語彙の数が大きくなった場合
には、全ての語彙の標準パターンを用意することが困難
で、認識対象となる語彙数が制限されてしまうという問
題がある。また、標準パターンの学習に大量のデータを
必要とするため、語彙の変更が容易ではない。
一方、後者のシステムでは、音韻数や音節数が単語の
数に比べて少ないことから、用意すべき標準パターンは
高々100種類程度で済み、語彙の変更も例えば認識対象
となる単語の文字列を入力する等といった容易な方法で
行なうことができる。しかし、この方法は認識処理にセ
グメンテーション、ラベリング(音韻または音節認
識)、単語認識といった段階を必要とするため、処理が
複雑で、しかもセグメンテーションの際の誤りや、音声
パターンから音韻または音節系列に変換する際の誤り、
更には音韻または音節系列から単語を推定する際の誤り
が認識率を低下させるという問題があった。
また、上記の2つの手法の他にも、単語全体のパター
ンマッチングと、音声パターンの各フレームに付けたラ
ベル系列のネットワークとの両方を用いて単語認識を行
なうといった手法が提案されているが(Proc.Seventh I
CPR pp1232−1235,1984)、この方法によっても前述し
たような単語標準パターンを予め用意しておく必要があ
るという問題や語彙の変更が困難であるという問題を解
決することはできなかった。
(発明が解決しようとする課題) このように、在来の音声認識システムは、単語単位の
マッチングによる単語認識方式では認識対象となる語彙
の標準パターンの作成や語彙の変更に多大な手間がかか
り、単語構成要素単位のマッチングによる単語認識方式
では、処理量が膨大で認識誤りも生じ易いという問題が
あった。
本発明は、上述の事情に鑑みてなされたもので、その
目的とするところは、予め単語の標準パターンを用意す
る必要がなく、認識処理により単語標準パターンの学習
のための音声パターンを収集でき単語標準パターンの効
果的な学習が行える音声認識システムを提供することに
ある。
また、本発明の他の目的は、単語標準パターンの学習
に用いられた単語標準パターンが増加するのに伴ってよ
り高い認識性能が得られる音声認識システムを提供する
ことにある。
[発明の構成] (課題を解決するための手段) 本発明に係る音声認識システムは、入力音声の音声パ
ラメータを音声パラメータ抽出部にて抽出し、この単語
音声パラメータに対し単語単位のマッチングによる認識
処理を行なう第1の単語認識部と、単語よりも細かい単
語構成要素単位のマッチングによる単語認識を行なう第
2の単語認識部との2つの単語認識部を備えている。第
1の単語認識部は、抽出された音声パラメータを単語単
位に切出して単語音声パターンを抽出するとともに、こ
の単語音声パターンと予め用意される単語標準パターン
とを照合することにより単語認識を行なう。また、第2
の単語認識部は、抽出された音声パラメータから単語構
成要素の認識を行なうとともに、得られた単語構成要素
の系列の候補に基づいて単語認識を行なう。なお、ここ
で単語構成要素とは、音韻、音節、CVC(C:consonant〜
子音、V:vowel〜母音)、VCVなど、単語よりも細かいレ
ベルの認識単位を意味する。また、この音声認識システ
ムには、上記第1および第2の単語認識部の各単語認識
結果に基づいて、総合的に認識結果を求めこれを出力す
る認識結果出力部が設けられている。更に、認識結果出
力部で求められた認識結果と上記認識処理の過程で抽出
された単語音声パターンとに基づいて単語標準パターン
の学習を行なうための単語標準パターン学習部が設けら
れている。
また、上述のシステムにおいて、認識結果出力部に、
認識結果を表示する表示部と、認識結果に対して正解、
不正解を外部から指示するための指示入力部とを備え、
単語標準パターン学習部が上記指示入力部からの入力に
基づいて学習を行なうようにしてもよい。
(作用) 本発明の音声認識システムによれば、単語単位と単語
構成要素単位の2種類のマッチングによる単語認識部を
備えているので、単語標準パターンが存在しない状態で
あっても単語構成要素単位のマッチングによる認識処理
によって単語認識結果が得られる。単語標準パターン学
習部は、上記単語構成要素単位のマッチングによる単語
認識結果と抽出された単語音声パターンとに基づいて単
語標準パターンの学習処理を行なう。したがって、本発
明のシステムでは、予め単語標準パターンを作成してお
く必要がなく、最初は単語構成要素単位のマッチングに
よる単語認識を行なうことができる。そして、この認識
処理により得られた単語音声パターンを用いて単語標準
パターンの学習を行うことにより、漸次、単語標準パタ
ーンの内容を充実させることができる。
単語標準パターンの学習は、例えば総合判定により得
られた認識結果と利用者により指示された正解・不正解
の情報とに基づき、認識処理を行なった単語音声パター
ンを用いて行なえば良い。
これにより単語標準パターンが作成されれば、単語構
成要素単位のマッチングによる単語認識と、単語単位の
マッチングによる単語認識とを併用することが可能にな
り、高い認識率を期待できる。
また、この音声認識システムを実際に用いる際に認識
の過程で、単語標準パターンの学習処理に用いる単語音
声パターンを収集し、単語標準パターンを繰返し学習す
るようにすれば、単語単位のマッチングに基づく単語認
識の性能は向上する。したがって、総合判定部におい
て、単語単位のマッチングに基づく単語認識をより重視
した判定を行なうことにより、さらに高い認識性能を得
ることができる。
(実施例) 以下、本発明による音声認識システムの実施例につい
て説明する。
第1の実施例 本発明の第1の実施例による音声認識システムは、第
1図に示すように、音声パラメータ抽出部10、単語単位
のマッチングによる単語認識を行なう第1の単語認識部
20、音韻単位のマッチングによる単語認識を行なう第2
の単語認識部30、認識結果を出力する認識結果出力部4
0、および単語認識用の標準パターンの学習を行なう単
語認識用標準パターン学習部50により構成されている。
音声パラメータ抽出部10で抽出された音声パラメータ
は、単語単位のマッチングによる第1の単語認識部20と
音韻単位のマッチングによる第2の単語認識部30の双方
で単語認識処理され、それらの結果が認識結果出力部40
で総合的に判断され、必要に応じて単語認識用標準パタ
ーン学習部50にて単語標準パターンの学習が行なわれ
る。
音声パラメータ抽出部10は、音声入力部11と音響処理
部12とを具備する。音声入力部11は、入力音声を例えば
マイクロフォンを用いて電気信号に変換する。音響処理
部12は、例えば8チャンネルのフィルタバンク等から構
成され、音声入力部11を介して入力された音声信号を例
えば20ms程度のフレーム周期で周波数分析してパワース
ペクトルに変換し、次元数を低減して音声パラメータと
して出力する。なお、音声パラメータとしては、上述の
フィルタ分析の他にも、例えば高速フーリエ変換による
分析結果またはケプストラム分析による分析結果を用い
ることも可能である。
単語単位のマッチングを行なう第1の単語認識部20
は、単語音声パターン抽出部21と、類似度計算部22と、
単語標準パターン記憶部23とを有する。単語音声パター
ン抽出部21は、音響処理部12から出力される音声パラメ
ータの系列から例えば音声パワーの低下点を単語の始
端、終端として検出した後、これら始端と終端とで囲ま
れる区間内の音声パラメータを時間軸方向に一定の数だ
け均一にリサンプルして単語音声パターンを求め、出力
する。単語標準パターン記憶部23は、認識対象カテゴリ
(単語)の標準パターンが登録されるものである。こ
の標準パターンとしては、例えば、複合類似度を用いる
場合には、予め多くのサンプルデータから求められた共
分散行列の固有値λn()(n=1〜N)と、固有ベ
クトル とが格納される。類似度計算部22は、単語特徴ベクトル
抽出部21で抽出された特徴ベクトル と、単語標準パターン記憶部23に格納されたカテゴリ
の標準パターン の各n面のベクトルとの類似度 を、 なる複合類似度計算により求め、その類似度値を出力す
る。なお、このような複合類似度値Sを用いる代わり
に、良く知られたマハラノビスの汎距離またはユークリ
ッド距離を用いることも可能である。
音韻単位のマッチングを行なう第2の単語認識部30
は、セグメンテーション・ラベリング部31、類似度計算
部32、音韻標準パターン記憶部33、単語認識部34および
単語辞書35を有する。類似度計算部32は、音響処理部12
から出力される音声パラメータと音韻標準パターン記憶
部33に格納された標準パターンとを用いて類似度計算を
行い、例えば各フレーム毎に前述した複合類似度のよう
な類似度を求める。セグメンテーション・ラベリング部
31は、求められた類似度系列および音声パラメータの音
響特徴に基づいてセグメンテーションを行ない、同時に
当該区間の音韻認識(ラベリング)を行なう。単語認識
部34は、セグメンテーション・ラベリング部31から求め
られた音韻系列候補が入力され、例えばDPマッチングに
基づいて類似度計算を行なって、単語認識候補を認識結
果生成出力部40に出力する。
認識結果生成出力部40は、総合判定部41と、表示部42
と、指示入力部43とを具備する。総合判定部41は、単語
単位のマッチングに基づく単語認識部20およびマッチン
グに基づく音韻単位の単語認識部30からの認識結果に基
づき、最終的な単語認識結果を求め出力する。表示部42
は、例えばCRTディスプレイからなる。指示入力部43
は、表示部42に表示された認識結果に対して利用者が例
えば正解であるか不正解であるかを入力したり、誤って
いた場合には、正解のカテゴリ名を入力するのに使用さ
れる。また、指示入力部43により、次の発声を行なう旨
の入力を行なうことも可能である。
単語認識用標準パターン学習部50は、単語音声パター
ン記憶部51と、単語標準パターン学習部52とを有する。
単語音声パターン記憶部51には、単語音声パターン抽出
部21で抽出された単語音声パターンが格納される。単語
標準パターン学習部52は、単語音声パターン記憶部51に
格納された単語音声パターンと、指示入力部43によって
入力され総合判定部41において上記単語標準パターンと
対応付けて記憶された正解および不正解の情報並びに認
識結果を用いて単語標準パターンの学習を行なう。
次にこのように構成された本実施例に係る音声認識シ
ステムの動作について説明する。
利用者が発声した音声は、まず音声入力部11で電気信
号に変換され、音響処理部12でスペクトルデータからな
る音声パラメータに変換される。この音声パラメータ
は、第1の(単語単位のマッチングによる)単語認識部
20と第2の(音韻単位のマッチングによる)単語認識部
30とに供給される。しかし、単語単位のマッチングによ
る単語認識部20では、単語標準パターン記憶部23に単語
標準パターンが存在しない場合は、単語認識処理は行わ
れず、単語音声パターン抽出部21による単語音声パター
ンの抽出のみ行われる。単語標準パターン記憶部23に単
語標準パターンが存在する場合には、単語標準パターン
記憶部23に登録された標準パターンと、単語音声パター
ン抽出部21により抽出された単語音声パターンとのマッ
チングが行なわれ、認識対象単語に対する類似度が出力
される。抽出された単語音声パターンは単語音声パター
ン記憶部51に格納され、後に述べる学習処理に使用され
る。
一方、第2の(音韻単位の)単語認識部30では、音響
処理部12からの音声パラメータを用いて単語構成要素単
位のマッチングによる単語認識が行われる。上記音声パ
ラメータは、まず、類似度計算部32に入力され、音声標
準パターン記憶部33に格納された音韻標準パターンとの
類似度が計算され、例えば各フレーム毎に前述した複合
類似度のような類似度が求められる。次にセグメンテー
ション・ラベリング部において、求められた類似度系列
および音声パラメータの音響的特徴に基づいて、セグメ
ンテーションが行われ、同時に、当該区間の音韻認識が
行われる。単語認識部34は、求められた音韻系列候補と
単語辞書35に格納された単語の文字列との類似度を、例
えばDPマッチングに基づいて行い、単語認識結果を認識
結果出力部40に出力する。
こうして、単語単位のマッチングに基づく単語認識部
20、および音韻単位のマッチングに基づく単語認識部30
で求められた単語結果は、総合判定部41に入力され、更
に最終的な単語認識結果として表示部42に表示される。
利用者が、表示部42に表示された認識結果に対し、指
示入力部43を介し正解か不正解かを入力したり、指示入
力部43を介して正解カテゴリ名を入力すると、これら入
力情報および認識結果は、上記単語音声パターン記憶部
51に記憶されている単語音声パターンと対応付けられ総
合判定部41内の認識結果記憶部に格納される。これによ
り通常の認識処理を行ないながら、僅かな指示入力を行
なうだけで単語標準パターン学習のためのデータ収集が
行える。
単語標準パターンの学習は次のように行われる。
例えば上述した複合類似度法による単語標準パターン
を例にとると、単語特徴ベクトル記憶部51に格納された
該当カテゴリに属する特徴ベクトル を用いて共分散行列 を作成する。
(t:転置,:カテゴリ) これにより求めた共分散行列 を主成分分析して、固有値λ()、固有ベクトル を求める。
また、該カテゴリの単語標準パターンを作成した際の
共分散行列K()を単語音声パターン記憶部51に格納
しておき、以下のように次の学習を行なう際の基本共分
散行列とすることも可能である。
以上の処理によって認識処理を行ないながら単語標準
パターン作成のための単語音声パターン収集を行ない、
単語標準パターン学習部52における学習処理によって単
語標準パターンを作成していくことができる。従って、
予め単語標準パターン記憶部23に標準パターンを格納す
ることなしに、最初のうちは音韻単位の単語認識のみで
単語認識処理を行ない、単語標準パターンの学習に用い
た単語音声パターン数が増加するに伴い、総合判定部に
おいて、単語単位のマッチングに基づく単語認識をより
重視した判定を行なうようにする。これは、単語標準パ
ターンの学習により、単語単位のマッチングに基づく単
語認識性能が向上するという理由による。
以上の処理により、総合判定部41で求められた最終結
果は表示部42に出力される。
すなわち、いま総合判定部41が例えば第2図に示すよ
うに、単語単位のマッチングによる単語認識結果記憶部
41a、音韻単位のマッチングによる単語認識結果記憶部4
1b、判定部41c、認識単語記憶部41dにより構成されてい
るとすると、学習処理は例えば第3図に示すような流れ
に基づいて行なえば良い。
まず、音声が入力され(S21)、単語単位の単語認識
(S22)および音韻単位の単語認識(S23)を行なった結
果をそれぞれ認識結果記憶部41a、41bに格納する。格納
された認識結果は判定部41cに送られ、用意された判定
規則に基づいて総合的に判定され、認識結果が得られる
(S24)。この認識結果は、制御部60を介して表示部42
に出力される(S25)。利用者により、この認識結果が
正解であると入力された場合には(S26)、その認識結
果を有効とする(S27)。そして、該単語音声パターン
(特徴ベクトル)を学習用単語音声パターンとすること
が指示された場合には(S28)、正解カテゴリ名を該単
語音声パターンと対応付けされて認識結果記憶部41dに
格納される(S29)。学習用単語音声パターンとしない
場合には、次の入力を促す(S21)。また、不正解であ
ると入力された場合には、学習用単語音声パターンとす
るか否かの指示を促し(S30)、学習用単語音声パター
ンとしない場合には、次の音声入力を促す(S21)。ま
た、学習用単語音声パターンとする場合には、利用者に
よる正解カテゴリ名の入力(S31)によって、誤りカテ
ゴリ名と正解カテゴリ名とを対応付け、さらにこれらと
単語音声パターンとが対応付けられて認識結果記憶部41
dに格納する(S32)。以上の処理が終了した時点で、学
習を行なうか否かの指示が行われ(S33)、学習を行な
わない場合には、次の音声入力を促す(S21)。学習を
行なう旨の指示が行なわれたときには、それまで単語音
声パターン記憶部51に累積されていた単語音声パターン
および認識結果記憶部41dに格納された認識結果に基づ
き学習処理が行われる(S34)。
このようにして、通常の認識処理の流れの中で簡単な
指示を与えるだけで学習用単語音声パターンの収集が行
え、学習処理を行うことにより、従来のように認識すべ
き単語を一つ一つ発声しながら単語標準パターンを作成
するといった手間が全く不要になり、語彙の拡張が極め
て容易になる。
なお、上記実施例では、学習のための音声パターンを
収集する際に利用者が正解・不正解の指示を与えるよう
にしたが、認識結果が十分に確からしいと判定されたデ
ータだけを自動的に単語標準パターン学習部52に送り、
学習処理を行なうようにすることも考えられる。また、
上記実施例では単語構成要素として音韻単位の認識につ
いて述べたが、この他、音節単位、CVC,VCVなど、他の
要素を基本とする単語認識を行なうようにしても良い。
第2の実施例 先に述べたように、単語標準パターンの学習に用いる
単語音声パターン数が増加するに伴い、単語単位のマッ
チングに基づく認識性能が向上する。そこで、高精度な
認識を可能とするため、収集した単語音声パターンを用
いて単語標準パターンの学習を行なうに従い、総合判定
部41で、音韻単位のマッチングに基づく認識結果より
も、性能の向上した単語単位のマッチングに基づく認識
結果をより重視する。このような総合判定部41の処理の
一例を具体的に示す本発明の第2の実施例について次に
述べる。
総合判定部41では、単語単位のマッチングおよび音韻
単位のマッチングによる類似度を用いて最終的な認識結
果を決定する。
単語単位のマッチングによる認識において、類似度の
分布が、例えば、第4図のような分布をし、音韻単位の
マッチングによる認識処理において類似度分布が第5図
のような分布をしている場合を考える。単語単位のマッ
チングおよび音韻単位のマッチングにおいて、入力音声
に対しあるカテゴリの類似度が同じ値(例えば0.9)と
なった場合でも、入力音声がそのカテゴリである確率
は、音韻単位のマッチングによる単語認識のほうが単語
単位のマッチングによる認識よりも高くなる。したがっ
て、単語単位のマッチングによる第1の単語認識部20に
より出力された類似度値および音韻単位のマッチングに
よる第2の単語認識部30により出力された類似度値を、
事後確率に変換するといった手法(例えば、proc.ICASS
P,pp.1077−1080,1986)を用いるなどして、両認識部20
および30から出力された類似度値を共通に扱い得る類似
度値に変換する。ここで、変換された単語単位のマッチ
ングによる単語認識による類似度値をP1()(は、
カテゴリ)、変換された音韻単位のマッチングによる単
語認識による類似度値をP2()とすると、総合判定部
41において、最終的なカテゴリの類似度値S
()は、 S() =α()P1() +(1−α()P2() として求められる。ここで、α()は、カテゴリに
対する単語単位のマッチングによる単語認識の総合判定
に対する寄与率を示すパラメータであり、この例では0
≦α<1の範囲をとる。このαは、単語標準パターンの
学習に用いる単語音声パターン数により変化させる。例
えば第6図に示すように、学習用の単語音声パターン数
の増加に伴いαの値を単調に増加させ総合判定部におい
て単語単位のマッチングによる認識をより重視させる。
ここでは、あるカテゴリの学習用単語音声パターン
数が50個の場合には総合判定部で用いる単語単位のマッ
チングによる単語認識の寄与率α()を0.4とし、学
習用単語音声パターン数が100個の場合には寄与率α
()を0.8とすることを示している。
なお、上記寄与率の変化は、第6図の例に限定される
ものではないが、単語標準パターンの学習に用いる単語
音声パターン数が多くなるに従いαは大きくなる傾向を
示す。ここで、入力された音声に対し上記の認識を行な
った結果は、利用者に対し出力される。利用者は表示さ
れたカテゴリが正解であるか不正解であるかを入力す
る。正解と指示された場合には、入力音声から得られた
単語音声パターンを用いて、正解のカテゴリの単語標準
パターンの学習を行なう。したがって、カテゴリ毎に単
語標準パターンの学習用単語音声パターン数が異なるの
で、上述した単語単位の認識の総合判定に対する寄与率
αは、カテゴリ毎に異なる。
また、学習のための制御として、例えば、10個の学習
用単語音声パターンが蓄えられたカテゴリについては学
習を行なう(10個の学習データが蓄えられないうちは学
習を行なわない)ようにすることも可能であるし、学習
を行なう旨の指示がなされた場合にのみ学習処理を行な
うようにすることも可能である。
第3の実施例 第2の実施例と同様に、収集した単語音声パターンを
用いて単語標準パターンの学習を行なうに従って、音韻
単位のマッチングに基づく認識結果よりも、性能の向上
した単語単位のマッチングに基づく認識結果をより重視
する総合判定部41の処理の他の一例を具体的に示す本発
明の第3の実施例について次に述べる。
単語標準パターンの学習に用いられた単語音声パター
ン数をLとする。総合判定部41ではLの値に応じて処理
を変える。例えば、第7図に示すように処理1〜4(S5
3〜S56)の4種類の処理のうちLのとる値(S50〜S52で
判定される)に応じた1つが実行される。以下に、処理
1〜4の4種類の処理について説明する。
《処理1》 〔L=0の場合〕 単語標準パターンが未登録の状態であり、第1の単語
認識部20による単語単位のマッチングが実行されず、第
2の単語認識部30による音韻単位のマッチングのみが行
なわれ、音韻単位のマッチングによる単語認識結果が総
合判定部41による認識結果として出力される。
《処理2》 〔0<L≦30の場合〕 (30は例であり、この値は30に限らず適宜選定され得
る) 単語標準パターンは存在するが、単語単位のマッチン
グによる単語認識の性能はまだ充分ではなく、音声単位
のマッチングによる単語認識のほうが性能が上であると
する。したがって、この段階においては、音韻単位のマ
ッチングによる単語認識を重視する。
この場合の処理の流れを第8図に示す。
音韻単位のマッチングに基づく単語認識結果に対し
て、2種類の閾値(θ2、Δθ2)を設定する。ここ
で、θ2は音韻単位のマッチングによる単語認識結果の
類似度値の閾値であり、類似度値が例えば0〜1の範囲
をとる場合に、例えばθ2=0.8とする。また、Δθ2
は音韻単位のマッチングによる単語認識結果の最大類似
度との差の閾値であり、例えばΔθ2=0.1とする。音
韻単位のマッチングにおいて、θ2(この場合0.8)以
上で且つΔθ2(この場合0.1)以下の類似度値を持つ
カテゴリが認識結果の候補となる。認識結果の候補数を
nとしたとき、n=0、n=1およびn≧2のいずれで
あるかによって処理が異なる。
(i)n=0の場合には、入力音声に対する認識結果が
定まらずリジェクトされる。
(ii)n=1の場合には、入力音声に対する認識結果が
一意的に定まり、単語単位のマッチングによる認識結果
を用いる判定は行なわれず、そのまま認識結果として出
力される。
(iii)n≧2の場合には、音韻単位のマッチングによ
る認識では認識結果が定まらないため、認識結果の候補
について、単語単位のマッチングによる認識判定を行な
う。ここで、単語単位のマッチングによる認識において
もθ2、Δθ2と同様の閾値θ1、Δθ1を設定する。
音韻単位のマッチングによる単語認識において得られた
認識結果の候補のうち、θ1(例えば0.7)以上で且つ
Δθ1(例えば0.05)以下の類似度値を持つカテゴリが
存在したとき(n′≧1)、そのカテゴリが認識結果と
して出力される。このとき、上述の条件を満たすカテゴ
リが2つ以上存在した場合(n′≧2)には、そのうち
類似度値のもっとも大きいカテゴリを認識結果として出
力する。また、上述の条件を満足するカテゴリが存在し
ない場合(n′=0)には、リジェクトする。
この処理2においては、音韻単位のマッチングによる
単語認識を重視する処理を行なう。すなわち、まず、音
韻単位のマッチングによる単語認識結果で候補となるカ
テゴリを選んだ後、単語単位の認識による判定を行なう
ので、音韻単位のマッチングによる認識結果のうち候補
に残らなかったカテゴリについては、たとえば単語単位
のマッチングによる単語認識結果で類似度が上位にあっ
ても認識結果となり得ない。
《処理3》 〔30<L≦100の場合〕 (30、100は例であり、適宜選定され得る) 単語単位のマッチングによる単語認識の性能が向上
し、音韻単位のマッチングによる単語認識よりも、単語
単位のマッチングによる単語認識のほうが性能が上であ
るとする。したがって、この段階においては、単語単位
のマッチングに基づく単語認識を重視した処理を行な
う。
この場合の処理の流れを第9図に示す。
単語単位のマッチングに基づく単語認識結果に対し
て、処理2と同様に、θ1とΔθ1の2種類の閾値を定
義する。ここで、θ1は単語単位のマッチングによる類
似度値の閾値であり、類似度値が例えば0〜1の範囲を
とる場合に、例えばθ1=0.8とする。また、Δθ1は
単語単位のマッチングによる最大類似度との差の閾値で
あり、例えばΔθ1=0.2とする。この単語単位のマッ
チングにおいて、θ1(この場合0.8)以上で、且つΔ
θ1(この場合0.2)以下の類似度値を持つカテゴリを
認識結果の候補とする。認識結果の候補数をn′とした
とき、n′=0、n′=1およびn′≧2のいずれであ
るかによって処理が異なる。
(i)n′=0の場合には、入力音声に対する認識結果
が定まらずリジェクトされる。
(ii)n′=1の場合には、入力音声に対する認識結果
が一意的に定まり、音韻単位のマッチングによる認識結
果を用いる判定は行なわれず、そのまま認識結果として
出力される。
(iii)n′≧2の場合には、単語単位のマッチングに
よる認識によって得られた認識結果の候補について、音
韻単位のマッチングによる認識判定を行なう。ここで、
音韻単位の認識においても処理2と同様にθ2、Δθ2
という閾値を設定する。単語単位のマッチングによる単
語認識において得られた単語の候補のうち、θ2(例え
ば0.8)以上で、且つΔθ2(例えば0.1)以下の類似度
値を持つカテゴリが存在したとき(n≧1)、そのカテ
ゴリが認識結果として出力される。このとき、上述の条
件を満たすカテゴリが2つ以上存在した場合(n≧2)
には、そのうち類似度値のもっとも大きいカテゴリを認
識結果として出力する。また、上述の条件を満足するカ
テゴリが存在しない場合(n=0)には、リジェクトす
る。
この処理3においては、単語単位のマッチングによる
単語認識を重視しているので、単語単位のマッチングに
よる認識結果で候補として選ばれなかったカテゴリにつ
いては、たとえば音韻単位のマッチングによる単語認識
結果で類似度が上位にあっても認識結果とはなり得な
い。
《処理4》 〔L>100の場合〕 (100は例であり、適宜選定され得る) 収集された単語音声パターンを用いた単語標準パター
ンの学習が進み、処理3の場合よりもさらに単語単位の
マッチングによる単語認識の性能が向上した場合の処理
であり、音韻単位のマッチングによる単語認識よりも、
単語単位のマッチングによる単語認識のほうがはるかに
性能が上である。したがって、この段階においては、単
語単位のマッチングに基づく単語認識を一層重視した処
理を行なう。
この場合の処理の流れを第10図に示す。
単語単位のマッチングに基づく単語認識結果に対し
て、処理2および処理3と同様に、θ1とΔθ1の2種
類の閾値を定義する。この単語単位のマッチングにおい
て、θ1(例えば0.8)以上で、且つΔθ1(例えば0.
1)以下の類似度値を持つカテゴリを認識結果の候補と
する。認識結果の候補数をn′としたとき、n′=0、
n′=1およびn′≧2のいずれであるかによって処理
が異なる。
(i)n′=0の場合には、入力音声に対する認識結果
が定まらずリジェクトされる。
(ii)n′=1の場合には、入力音声に対する認識結果
が一意的に定まり、音韻単位のマッチングによる認識結
果を用いる判定は行なわれず、そのまま認識結果として
出力される。
(iii)n′≧2の場合には、単語単位のマッチングに
よる認識によって得られた認識結果の候補について、音
韻ラベルによる遷移ネットワークを用いた認識処理を行
なう。例えば認識対象単語に対して、予め音韻の種類を
示す音韻ラベル(例えば、[A],[I],[U],
[E],および[O]のような音に対するラベル、ある
いは[P],[T],および[K」のような破裂音に対
するラベル)による例えば第12図のような遷移ネットワ
ークを作成しておく。第12図は、「ハイ[HAI]」とい
う単語に対する遷移ネットワークの例である。入力され
た音声に対しては、例えば第11図のような音韻単位のマ
ッチングによる音韻ラベル系列[HHHHHHAAAAEEIII]が
生成され、その音韻ラベル系列が認識結果の候補となっ
たカテゴリの遷移ネットワークを満足する場合に認識結
果として出力する。このとき、上記遷移ネットワークを
満足するカテゴリが存在しない場合はリジェクトされ、
2つ以上のカテゴリが存在する場合は、それらのうち単
語単位の認識において最大の類似度を持つカテゴリを認
識結果とする。
上述の実施例で示した処理の種類、および閾値は、上
述された例に限定されず、上述以外にも種々変更して実
施することができる。つまり単語標準パターンの学習に
用いる単語音声パターン数が増加するに従い、単語単位
マッチングによる認識を重視した総合判定を行なう限
り、種々の変形が可能である。
例えば、認識処理対象となるカテゴリにおいて、学習
に用いる単語音声パターンの数が最低10パターン蓄えら
れた場合に、総合判定部が単語標準パターン学習部に対
して、各カテゴリについて10パターンずつ用いて、自動
的に学習を行なう旨の指示を行なうようにすることもで
きる。このとき、認識処理で用いた音声パターンを利用
者の指示により、単語標準パターンの学習のための単語
音声パータンとして収集することができるので、入力さ
れた単語音声を無駄なく最大限に活用して単語標準パタ
ーンの学習に用いることができる。
また、単語音声の入力は、実際に音声認識システムを
使用する際に、全カテゴリに対して同頻度で行なわれる
ものではないので、学習用の単語標準パターンを収集す
る際には、このことがボトルネックとなり、学習がなか
なか進まないという状況におちいることもある。このよ
うな不都合を解消するために、総合判定部41において収
集された各カテゴリ毎の学習用単語音声パターンの計数
を行ない、学習用単語音声パターンの数の少ないカテゴ
リに対しては、認識処理を行なう前に利用者に発声を促
すようにしてもよい。あるいは、このような場合に、別
途に例えばテープレコーダのような音声記録装置で収集
した音声を入力して学習用単語音声パターンの追加を行
なうようにすることも可能である。
学習を行なうように指示がなされた場合には、例えば
その時点で全カテゴリ中、最少の学習用単語音声パター
ン数を用いて学習がなされるようにしてもよい。例え
ば、「イチ[ICHI]」という音声パターンが30パター
ン、「ニ[NI]」というパターンが12パターン、そして
「サン[SAN]」というパターンが18パターンの学習用
単語音声パターンがある場合に、「イチ」の30パターン
のうち12パターンと、「ニ」の12パターンと、「サン」
の18パターンのうち12パターンを用いて学習を行ない、
残りのパターンは次回の学習に用いるようにしてもよ
い。
もちろん、上述においては、単語構成要素として音韻
を用いた場合について主に説明したが、音節を単語構成
要素の単位とする場合にも音韻を音節に置き換えて上述
と同様に実施できる。
[発明の効果] 本発明の音声認識システムによれば、単語単位のマッ
チングによる単語認識結果と音韻単位のマッチングによ
る単語認識結果とを総合的に判断して最終的な認識結果
を得、更にその結果に基づいて単語標準パターンの学習
を行なうようにしているので、認識処理の過程で単語標
準パターンの学習を行なうことができる。このため、予
め単語標準パターンの作成を行なう必要がなく、単語の
語彙の拡張も容易で、しかも認識処理の進行に伴って単
語標準パターンの内容も次第に充実し、認識率が逐次向
上する。
【図面の簡単な説明】
第1図は本発明の第1の実施例による音声認識システム
の構成を示すブロック図、第2図は上記第1の実施例の
システムにおける認識結果出力部を更に詳細に示すブロ
ック図、第3図は上記第1の実施例のシステムにおける
単語標準パターンの学習処理の流れを示すフローチャー
ト、第4図は本発明の第2の実施例のシステムを説明す
るための単語単位のマッチングによる類似度分布を示す
図、第5図は上記第2の実施例のシステムを説明するた
めの音韻単位のマッチングによる類似度分布を示す図、
第6図は上記第2の実施例のシステムを説明するための
学習用音声パターン数と総合判定を行なう際の単語単位
のマッチングによる認識の寄与率の関係を示す図、第7
図は、本発明の第3の実施例のシステムにおける特徴的
な処理の流れを示すフローチャート、第8図〜第10図
は、上記第3の実施例のシステムにおける処理の流れを
モデル的に説明するための図、第11図および第12図は、
上記第3の実施例のシステムにおける処理に用いられる
音韻ラベル系列および音韻ラベルによる遷移ネットワー
クをモデル的に説明するための図である。 10……音声パラメータ抽出部、11……音声入力部、12…
…音響処理部、20……第1の単語認識部、21……単語音
声パターン抽出部、22……類似度計算部、23……単語標
準パターン記憶部、30……第2の単語認識部、31……セ
グメンテーション・ラベリング部、32……類似度計算
部、33……音韻標準パターン記憶部、34……単語認識
部、35……単語辞書、40……認識結果出力部、41……総
合判定部、42……表示部、43……指示入力部、50……単
語認識用標準パターン学習部、51……単語音声パターン
記憶部、52……単語標準パターン学習部。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭63−149698(JP,A) 特開 昭63−153596(JP,A) 特開 昭60−100197(JP,A) 特開 昭60−45298(JP,A) 特開 平1−309099(JP,A) 特公 平4−49958(JP,B2) (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 571 G10L 3/00 521

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】入力音声を分析して該入力音声の音声パラ
    メータを抽出するためのパラメータ抽出手段と、 上記パラメータ抽出手段により抽出される音声パラメー
    タを単語単位に切り出して単語音声パターンを抽出する
    とともに、該単語音声パターンを単語標準パターンと照
    合して単語認識を行う単語単位のマッチングによる第1
    の単語認識手段と、 上記パラメータ抽出手段で抽出される音声パラメータか
    ら単語構成要素毎の音声パターンを予め記憶された単語
    構成要素標準パターンに対応させて単語構成要素の認識
    を行うとともに、得られた単語構成要素の系列の候補に
    基づいて単語認識を行うための単語構成要素単位のマッ
    チングによる第2の単語認識手段と、 上記第1及び第2の単語認識手段からの各単語認識結果
    に基づいて、総合的な認識結果を求め、これを出力する
    ための認識結果出力手段と、 上記認識結果出力手段で求められる認識結果と上記認識
    処理の過程で抽出される単語音声パターンを単語標準パ
    ターンの学習のための音声パターンとして収集し、該単
    語音声パターンに基づいて上記単位標準パターンの学習
    処理を行うための学習手段とを具備し、且つ 上記認識結果出力手段は、上記学習手段において用いる
    単語音声パターンが増加するに応じて、最終的に出力さ
    れる上記総合的な認識結果における上記第1の単語認識
    手段による単語単位のマッチングに基づく単語認識の結
    果と上記第2の単語認識手段による単語構成要素単位の
    マッチングに基づく単語認識の結果との寄与の度合いを
    変化させ、上記学習に用いる単語音声パターン数が所定
    数よりも少ない場合は、上記第1の単語認識手段による
    単語認識の結果よりも上記第2の単語認識手段による単
    語認識の結果を重視して総合的な認識結果を求めると共
    に、上記学習に用いる単語音声パターン数が所定数を越
    える場合には、上記第1の単語認識手段による単語認識
    の結果を上記第2の単語認識手段による単語認識の結果
    よりも重視して総合的な認識結果を求める音声認識シス
    テム。
  2. 【請求項2】上記認識結果出力手段は、学習に用いる単
    語音声パターン数が所定数よりも少ない場合には、第1
    の単語認識手段による単語認識よりも第2の単語認識手
    段による単語認識を優先的に行なうと共に、学習に用い
    る単語音声パターン数が所定数を越える場合には、第2
    の単語認識手段による単語認識よりも第1の単語認識手
    段による単語認識を優先的に行なうことを特徴とする請
    求項1記載の音声認識システム。
JP1131858A 1988-05-27 1989-05-25 音声認識システム Expired - Fee Related JP2955297B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP12991988 1988-05-27
JP63-129919 1988-05-27

Publications (2)

Publication Number Publication Date
JPH0250198A JPH0250198A (ja) 1990-02-20
JP2955297B2 true JP2955297B2 (ja) 1999-10-04

Family

ID=15021645

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1131858A Expired - Fee Related JP2955297B2 (ja) 1988-05-27 1989-05-25 音声認識システム

Country Status (3)

Country Link
EP (1) EP0344017B1 (ja)
JP (1) JP2955297B2 (ja)
DE (1) DE68914032T2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2647234B2 (ja) * 1990-06-14 1997-08-27 シャープ株式会社 音声認識装置
DE4106346C2 (de) * 1991-02-28 1997-04-10 Philips Patentverwaltung Anordnung zur Erkennung von Wörtern in einem Sprachsignal
CA2088080C (en) * 1992-04-02 1997-10-07 Enrico Luigi Bocchieri Automatic speech recognizer
ES2078834B1 (es) * 1992-10-30 1997-04-16 Alcatel Standard Electrica Metodo de segmentacion de cadenas de palabras en la fase de entrenamiento de un reconocedor de palabras conectadas.
WO1996035207A1 (en) * 1995-05-03 1996-11-07 Philips Electronics N.V. Speech recognition methods and apparatus on the basis of the modelling of new words
JP4438028B2 (ja) 1998-07-27 2010-03-24 キヤノン株式会社 情報処理装置及びその方法、及びそのプログラムを記憶した記憶媒体
DE10022586A1 (de) 2000-05-09 2001-11-22 Siemens Ag Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems
DE10034235C1 (de) 2000-07-14 2001-08-09 Siemens Ag Verfahren zur Spracherkennung und Spracherkenner
DE10129005B4 (de) * 2001-06-15 2005-11-03 Harman Becker Automotive Systems Gmbh Verfahren zur Spracherkennung und Spracherkennungssystem
JP3997459B2 (ja) * 2001-10-02 2007-10-24 株式会社日立製作所 音声入力システムおよび音声ポータルサーバおよび音声入力端末
JP4608670B2 (ja) * 2004-12-13 2011-01-12 日産自動車株式会社 音声認識装置および音声認識方法
JP2007256643A (ja) * 2006-03-23 2007-10-04 Denso Corp 音声認識装置及びナビゲーションシステム
JP2010048890A (ja) * 2008-08-19 2010-03-04 Ntt Docomo Inc クライアント装置、認識結果フィードバック方法、認識結果フィードバックプログラム、サーバ装置、音声認識のモデル更新方法、音声認識のモデル更新プログラム、音声認識システム、音声認識方法、音声認識プログラム
JP6675092B2 (ja) * 2016-03-30 2020-04-01 パナソニックIpマネジメント株式会社 判定システム、判定方法、及び判定プログラム

Also Published As

Publication number Publication date
EP0344017A3 (en) 1990-08-22
DE68914032D1 (de) 1994-04-28
EP0344017B1 (en) 1994-03-23
EP0344017A2 (en) 1989-11-29
JPH0250198A (ja) 1990-02-20
DE68914032T2 (de) 1994-07-21

Similar Documents

Publication Publication Date Title
Ghai et al. Literature review on automatic speech recognition
US8478591B2 (en) Phonetic variation model building apparatus and method and phonetic recognition system and method thereof
US5018201A (en) Speech recognition dividing words into two portions for preliminary selection
US6553342B1 (en) Tone based speech recognition
EP1355295B1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
US20100004931A1 (en) Apparatus and method for speech utterance verification
JP2955297B2 (ja) 音声認識システム
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
Ranjan et al. Isolated word recognition using HMM for Maithili dialect
Chuctaya et al. Isolated automatic speech recognition of Quechua numbers using MFCC, DTW and KNN
US20040006469A1 (en) Apparatus and method for updating lexicon
Sangjamraschaikun et al. Isarn digit speech recognition using HMM
Lin et al. Language identification using pitch contour information in the ergodic Markov model
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JPH0981182A (ja) 隠れマルコフモデルの学習装置及び音声認識装置
JP2001005483A (ja) 単語音声認識方法及び単語音声認識装置
JP3438293B2 (ja) 音声認識における単語テンプレートの自動作成方法
JP3277522B2 (ja) 音声認識方法
Sigmund Search for keywords and vocal elements in audio recordings
JP3231365B2 (ja) 音声認識装置
JP2003345384A (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP2862306B2 (ja) 音声認識装置
Ozaydin An isolated word speaker recognition system
Laguna et al. Development, Implementation and Testing of Language Identification System for Seven Philippine Languages
JP2004309654A (ja) 音声認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees