JPH0250198A - 音声認識システム - Google Patents

音声認識システム

Info

Publication number
JPH0250198A
JPH0250198A JP1131858A JP13185889A JPH0250198A JP H0250198 A JPH0250198 A JP H0250198A JP 1131858 A JP1131858 A JP 1131858A JP 13185889 A JP13185889 A JP 13185889A JP H0250198 A JPH0250198 A JP H0250198A
Authority
JP
Japan
Prior art keywords
word
recognition
matching
patterns
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1131858A
Other languages
English (en)
Other versions
JP2955297B2 (ja
Inventor
Hiroshi Kanazawa
博史 金澤
Yoichi Takebayashi
洋一 竹林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JPH0250198A publication Critical patent/JPH0250198A/ja
Application granted granted Critical
Publication of JP2955297B2 publication Critical patent/JP2955297B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の詳細な説明] ゛(産業上の利用分野) 本発明は、単語単位のマツチングに基づく第1の単語認
識部と、単語構成要素単位のマツチングに基づく第2の
単語認識部とを備えた音声認識システムに関する。
(従来の技術) 従来より単語認識の基本的な手法として2つの手法が知
られている。その一つは、例えば入力音声を単語単位で
切出し、単語全体のパターンマツチングを行なって単語
認識を行なう単語単位のマツチングによる認識手法であ
り、他の一つは、入力音声を音韻や音節等の単語(1■
成要索の単位にセグメンテーションして該単語構成要素
毎のパターンマツチングによる音韻認識若しくは音節認
識を行ない、音韻若しくは音節認識候補の系列から単語
の認識を行なう単語構成要素単位のマツチングによる単
語認識手法である。
前者のシステムは、単語単語単位のマツチングを行なう
ため、後者の手法のように、より細かい認識単位に分解
する必要がなく、また、入力された音声の動的特徴を単
語標準パターンに含んだ単語全体でのマツチングを行な
うため、認識率が高いという利点がある。その反面、該
前者のシステムは、認識する語黛の数が大きくなった場
合には、全ての語僧の標準パターンを用意することが困
難で、認識対象となる語堂数が制限されてしまうという
問題がある。また、標準パターンの学習に大量のデータ
を必要とするため、語紮の変更が容易ではない。
一方、後者のシステムでは、音韻数や音節数が単語の数
に比べて少ないことから、用意すべき1.1$パターン
は高々100種類程度で済み、語堂の変更も例えば認識
対象となる単語の文字列を入力する等といった容易な方
法で行なうことができる。しかし、この方法は認識処理
にセグメンテーション、ラベリング(音韻または音節認
識)、単語認識といった段階を必要とするため、処理が
複雑で、しかもセグメンテーションの際の誤りや、音声
パターンから音韻または音節系列に変換する際の誤り、
更には音韻または音節系列から単語を推定する際の誤り
が認識率を低下させるという問題があった。
また、上記の2つの手法の他にも、単語全体のパターン
マツチングと、音声パターンの各フレームに付けたラベ
ル系列のネットワークとの両方を用いて単語認識を行な
うといった手法が提案されてI、するが(Proc、5
eventh IcPR+)+)1232−1235 
、1984)、この方法によっても前述したような単語
標準パターンを予め用意しておく必要があるという問題
や語常の変更が困難であるという問題を解決することは
できなかった。
(発明が解決しようとする課題) コノヨウに、在来の音声認識システムは、単語単位のマ
ツチングによる単語認識方式では認識対象となる語量の
標準パターンの作成や語量の変更に多大な手間がかかり
、単語構成要素単位のマツチングによる単語認識方式で
は、処理量が膨大で認識誤りも生じ易いという問題があ
った。
本発明は、上述の事情に鑑みてなされたもので、その目
的とするところは、予め単語の標準パターンを用意する
必要がなく、認識処理により単語標準パターンの学習の
ための音声パターンを収集でき単語標準パターンの効果
的な学習が行える音声認識システムを提供することにあ
る。
また、本発明の他の目的は、単語標準パターンの学習に
用いられた単語標準パターンが増加するのに伴ってより
高い認識性能が得られる音声認識システムを提供するこ
とにある。
[発明の構成] (課題を解決するための手段) 本発明に係る音声認識システムは、入力音声の音声パラ
メータを音声パラメータ抽出部にて抽出し、この単語音
声パラメータに対し単語単位のマツチングによる認識処
理を行なう第1の単語認識部と、単語よりも細かい単語
構成要素単位のマツチングによる単語認識を行なう第2
の単語認識部との2つの単語認識部を備えている。第1
の単語認識部は、抽出された音声パラメータを単語単位
に切出して単語音声パターンを抽出するとともに、この
単語音声パターンと予め用意される単語標準パターンと
を照合することにより単語認識を行なう。また、第2の
単語認識部は、抽出された音声パラメータから単語構成
要素の認識を行なうとともに、得られた単語構成要素の
系列の候補に基づいて単語認識を行なう。なお、ここで
単語構成要素とは、音韻、音節、CV C(C: co
nsonant〜子音、V : vowel 〜母音)
、VCVなど、単語よりも細かいレベルの認識単位を意
味する。また、この音声認識システムには、上記第1お
よび第2の単語認識部の各単語認識結果に基づいて、総
合的に認識結果を求めこれを出力する認識結果出力部が
設けられている。更に、認識結果出力部で求められた認
識結果と上記認識処理の過程で抽出された単語音声パタ
ーンとに基づいて単語!M塾パターンの学、習を行なう
ための単語標準パターン学習部が設けられている。
また、上述のシステムにおいて、認識結果出力部に、認
識結果を表示する表示部と、認識結果に対して正解、不
正解を外部から指示するための指示入力部とを備え、単
語標準パターン学習部が上記指示入力部からの入力に基
づいて学習を行なうようにしてもよい。
(作用) 本発明の音声認識システムによれば、単語単位と単語構
成要素単位の2種類のマツチングによる単語認識部を備
えているので、単語標準パターンが存在しない状態であ
っても単語構成要素単位のマツチングによる認識処理に
よって単語認識結果が得られる。単語標準パターン学習
部は、上記単語構成要素単位のマツチングによる単語認
識結果と抽出された単語音声パターンとに基づいて単語
標準パターンの学習処理を行なう。したがって、本発明
のシステムでは、予め単語標塾パターンを作成しておく
必要がなく、最初は単語構成要素単位のマツチングによ
る単語認識を行なうことができる。そして、この認識処
理により得られた単語音声パターンを用いて単語標準パ
ターンの学習を行うことにより、漸次、単語標準パター
ンの内容を充実させることができる。
単語標準パターンの学習は、例えば総合判定により得ら
れた認識結果と利用者により指示された正解・不正解の
情報とに基づき、認識処理を行なった単語音声パターン
を用いて行なえば良い。
これにより単語漂準パターンが作成されれば、単語構成
要素単位のマツチングによる単語認識と、単語単位のマ
ツチングによる単語認識とを併用することが可能になり
、高い認識率を期待てきる。
また、この音声認識システムを実際に用いる際に認識の
過程で、単語標準パターンの学習処理に用いる単語音声
パターンを収集し、単語標準パターンを繰返し学習する
ようにすれば、単語単位めマツチングに基づく単語認識
の性能は向上する。
したがって、総合判定部において、単語単位のマツチン
グに基づく単語認識をよりm視した判定を行なうことに
より、さらに高い認識性能を得ることができる。
(実施例) 以下、本発明による音声認識システムの実施例について
説明する。
第1の実施例 本発明の第1の実施例による音声認識システムは、第1
図に示すように、音声パラメータ抽出部10、単語単位
のマツチングによる単語認識を行なう第1の単語認識部
20、音韻単位のマツチングによる単語認識を行なう第
2の単語認識部30、認識結果を出力する認識結果出力
部40、および単語認識用の標準パターンの学習を行な
う単語認識用標準パターン学習部50により構成されて
いる。音声パラメータ抽出部10で抽出された音声パラ
メータは、単語単位のマツチングによる第1の単語認識
部20と音韻単位のマツチングによる第2の単語認識部
30の双方で単語認識処理され、それらの結果が認識結
果出力部40で総合的に判断され、必要に応じて単語認
識用標準パターン学習部50にて単語標準パターンの学
習が行なわれる。
音声パラメータ抽出部10は、音声入力部11と音響処
理部12とを具備する。音声入力部11は、入力音声を
例えばマイクロフォンを用いて電気信号に変換する。音
響処理部12は、例えば8チヤンネルのフィルタバンク
等から構成され、音声入力部11を介して入力された音
声信号を例えば2On+s程度のフレーム周期で周波数
分析してパワースペクトルに変換し、次元数を低減して
音声パラメータとして出力する。なお、音声パラメタと
しては、上述のフィルタ分析の他にも、例えば高速フー
リエ変換による分析結果またはケプストラム分析による
分析結果を用いることも可能である。
単語単位のマツチングを行なう第1の単語認識部20は
、単語音声パターン抽出部21と、類似度計算部22と
、単語標準パターン記憶部23とを有する。単語音声パ
ターン抽出部21は、音響処理部12から出力される音
声パラメータの系列から例えば音声パワーの低下点を単
語の始端、終端として検出した後、これら始端と終端と
で囲まれる区間内の音声パラメータを時間軸方向に一定
の数だけ均一にリサンプルして単語音声パターンを求め
、出力する。単語標準パターン記憶部23は、認識対象
カテゴリg (単語)の標準パターンが登録されるもの
である。この標準パターンとしては、例えば、複合類似
度を用いる場合には、予め多くのサンプルデータから求
められた共分散行列の固有値λn”’(n−1〜N)と
、固有ベクトルφn(目 (n=l〜N)とが格納され
る。
類似度計算部22は、単語特徴ベクトル抽出部21で抽
出された特徴ベクトル「と、単語標準パターン記憶部2
3に格納されたカテゴリgの標準パターン(φn111
 の各n面のベクトルとの類似度SNI’  [t]を
、 SNIゝ [ぼ] なる複合類似度計算により求め、その類似度値を出力す
る。なお、このような複合類似度値Sを用いる代わりに
、良く知られたマハラノビスの汎距離またはユークリッ
ド距離を用いることも可能である。
音韻単位のマツチングを行なう第2の単語認識部30は
、セグメンテーション・ラベリング部31、類似度計算
部32、音韻標準パターン記憶部33、単語認識部34
および単語辞書35を有する。類似度計算部32は、音
響処理部12から出力される音声パラメータと音韻標準
パターン記憶部33に格納された標準パターンとを用い
て類似度計算を行い、例えば各フレーム毎に前述した複
合類似度のような類似度を求める。セグメンテーション
・ラベリング部31は、求められた類似度系列および音
声パラメータの音響特徴に基づいてセグメンテーション
を行ない、同時に当該区間の音韻認識(ラベリング)を
行なう。単語認識部34は、セグメンテーション・ラベ
リング部31から求められた音韻系列候補が入力され、
例えばDPマツチングに基づいて類似度計算を行なって
、単語認識候補を認識結果生成出力部40に出力する。
認識結果生成出力部40は、総合判定部41と、表示部
42と、指示入力部43とを具備する。総合判定部41
は、単語単位のマツチングに基づく単語認識部20およ
びマツチングに基づく音韻単位の単語認識部30からの
認識結果に基づき、最終的な単語認識結果を求め出力す
る。表示部42は、例えばCRTデイスプレィからなる
。指示入力部43は、表示部42に表示された認識結果
に対して利用者が例えば正解であるか不正解であるかを
入力したり、誤っていた場合には、正解のカテゴリ名を
入力するのに使用される。また、指示入力部43により
、次の発声を行なう旨の入力を行なうことも可能である
単語認識用標準パターン学習部50は、単語音声パター
ン記憶部51と、単語標準パターン学習部52とを有す
る。単語音声パターン記憶部51には、単語音声パター
ン抽出部21で抽出された単語音声パターンが格納され
る。単語標準パターン学習部52は、単語音声パターン
記憶部51に格納された単語音声パターンと、指示入力
部43によって入力され総合判定部41において上記単
語標準パターンと対応付けて記憶された正解および不正
解の情報並びに認識結果を用いて単語標準パターンの学
習を行なう。
次にこのように構成された本実施例に係る音声認識シス
テムの動作について説明する。
利用者が発声した音声は、まず音声入力部11で電気信
号に変換され、音響処理部12でスペクトルデータから
なる音声パラメータに変換される。
この音声パラメータは、第1の(単語単位のマツチング
による)単語認識部20と第2の(音韻単位のマツチン
グによる)単語認識部30とに供給される。しかし、単
語単位のマツチングによる単語認識部20では、単語標
準パターン記憶部23に単語i票準パターンが存在しな
い場合は、単語認識処理は行イ)れず、単語音声パター
ン抽出部21による単語音声パターンの抽出のみ行われ
る。単語標章パターン記憶部23に11′L語1票準パ
ターンが存在す゛・る場合には、単語標準パターン記憶
部23に登録された標準パターンと、単語音声パターン
抽出部21により抽出された単語音声パターンとのマツ
チングが行なわれ、認識対象単語に対する類似度が゛出
力される。抽出された単語音声パターンは単語音声パタ
ーン記憶部51に格納され、後に述べる学習処理に使用
される。
一方、第2の(音韻単位の)単語認識部30では、音響
処理部12からの音声パラメータを用いて単語構成要素
単位のマツチングによる単語認識が行われる。上記音声
パラメータは、まず、類似度計算部32に入力され、音
韻標準パターン記憶部33に格納された音韻標準パター
ンとの類似度が計算され、例えば各フレーム毎に前述し
た複合類似度のような類似度が求められる。次にセグメ
ンテーション・ラベリング部において、求められた類似
度系列および音声パラメータの音響的特徴に基づいて、
セグメンテーションが行われ、同時に、当該区間の音韻
認識が行われる。単語認識部34は、求められた音韻系
列候補と単語辞書35に格納された単語の文字列との類
似度を、例えばDPマツチングに基づいて行い、単語認
識結果を認識結果出力部40に出力する。
こうして、単語単位のマツチングに基づく単語認識部2
0、および音韻単位のマツチングに基づく単語認識部3
0で求められた単語結果は、総合判定部41に入力され
、更に最終的な単語認識結果として表示部42に表示さ
れる。
利用者が、表示部42に表示された認識結果に対し、指
示入力部43を介し正解か不正解かを入力したり、指示
人力部43を介して正解カテゴリ名を入力すると、これ
ら入力情報および認識結果は、上記単語音声パターン記
憶部51に記憶されている単語゛音声パターンと対応付
けられ総合判定部41内の認識結果記憶部に格納される
。これにより通常の認識処理を行ないながら、僅かな指
示入力を行なうだけで単語標準パターン学習のためのデ
ータ収集が行える。
単語標準パターンの学習は次のように行われる。
例えば上述した複合類似度法による単語標桑パターンを
例にとると、単語特徴ベクトル記憶部51に格納された
該当カテゴリに属する特徴ベクトルXn  (n−1,
2,・、N)を用イテ共分散行列Kを作成する。
(t:転置、fI:カテゴリ) これにより求めた共分散行列IK”’を主成分分析して
、固有値λ(1)、固有ベクトル4(#)を求める。
また、該カテゴリの単語標準パターンを作成した際の共
分散行列に11)を単語音声パターン記憶部51に格納
しておき、以下のように次の学習を行なう際の基本共分
散行列とすることも可能である。
(((j l  :基本共分散行列 1<ll′ 、新たに作成される共分散行列g:カテゴ
リ α:重み係数 N:学習用音声パターン数 t:転置 以上の処理によって認識処理を行ないながら単語標準パ
ターン作成のための単語音声パターン収集を行ない、単
語標準パターン学習部52における学習処理によって単
語標準パターンを作成していくことができる。従って、
予め単語標準パターン記憶部23に標準パターンを格納
することなしに、最初のうちは音韻単位の単語認識のみ
で単語認識処理を行ない、単語標準パターンの学習に用
いた単語音声パターン数が増加するに伴い、総合判定部
において、単語単位のマツチングに基づく単語認識をよ
り重視した判定を行なうようにする。
これは、単語標準パターンの学習により、単語単位のマ
ツチングに基づく単語認識性能が向上するという理由に
よる。
以上の処理により、総合判定部41で求められ°た最終
結果は表示部42に出力される。
すなわち、いま総合判定部41が例えば第2図に示すよ
うに、単語単位のマツチングによる単語認識結果記憶部
41a、音韻単位のマツチングによる単語認識結果記憶
部41b1判定部41c。
認識単語記憶部41dにより構成されているとすると、
学習処理は例えば第3図に示すような流れに基づいて行
なえば良い。
まず、音声が入力され(S21)、単語単位の単語認識
(S 22)および音韻単位の単語認識(32B)を行
なった結果をそれぞれ認識結果記憶部41a、41bに
格納する。格納された認識結果は判定部41cに送られ
、用意された判定規則に基づいて総合的に判定され、認
識結果が得られる(S 24)。この認識結果は、制御
部60を介して表示部42に出力される(S25)。利
用者により、この認識結果が正解あると入力された場合
には(S26)、その認識結果を有効とする(S27)
。そして、該単語音声パターン(特徴ベクトル)を学習
用単語音声パターンとすることが指示された場合には(
328)、正解カテゴリ名を該単語音声パターンと対応
付けされて認識結果記憶部41dに格納される(S29
)。学習用単語音声パターンとしない場合には、次の入
力を促す(S21・)。また、不正解であると入力され
た場合には、学習用単語音声パターンとするが否かの指
示を促しく530)、学習用単語音声パターンとしない
場合・には、次の音声入力を促す(S21)。また、学
習用単語音声パターンとする場合には、利用者による正
解カテゴリ名の入力(S31)によって、誤りカテゴリ
名と正解カテゴリ名とを対応付け、さらにこれらと単語
音声パターンとが対応付けられて認識結果記憶部41d
に格納する(S32)。以上の処理が終了した時点で、
学習を行なうか否かの指示が行われ(533)、学習を
行なわない場合には、次の音声入力を促す(S21)。
学習を行なう旨の指示が行なわれたときには、それまで
単語音声パターン記憶部51に累積されていた単語音声
パターンおよび認識結果記憶部41dに格納された認識
結果に基づき学習処理が行われる(S34)。
このようにして、通常の認識処理の流れの中で簡単な指
示を与えるだけで学習用単語音声パターンの収集が行え
、学習処理を行うことにより、従来のように認識すべき
単語を一つ一つ発声しながら単語標準パターンを作成す
るとい゛った手間が全く不要になり、語♀の拡張が極め
て容易になる。
なお、上記実施例では、学習のための音声パターンを収
集する際に利用者が正解・不正解の指示を与えるように
したが、認識結果が十分に確からしいと判定されたデー
タだけを自動的に単語標準パターン学習部52に送り、
学習処理を行なうようにすることも考えられる。また、
上記実施例では単語構成要素として音韻単位の認識につ
いて述べたが、この他、音節単位、CVC,VCVなど
、他の要素を基本とする単語認識を行なうようにしても
良い。
第2の実施例 先に述べたように、単語標準パターンの学習に用いる単
語音声パターン数が増加するに伴い、単語単位のマツチ
ングに晶づく認識性能が向上する。
そこで、高精度な認識を可能とするため、収集した単語
音声パターンを用いて単語標準パターンの学習を行なう
に従い、総合判定部41で、音韻単位のマツチジグに基
づく認識結果よりも、性能の向上した単語単位のマツチ
ングに基づく認識結果をより重視する。このような総合
判定部41の処理の一例を具体的に示す本発明の第2の
実施例について次に述べる。
総合判定部41では、単語単位のマツチングおよび音韻
単位のマツチングによる類似度を用いて最終的な認識結
果を決定する。
単語単位のマツチングによる認識において、類似度の分
布が、例えば、第4図のような分布をし、音韻単位のマ
ツチングによる認識処理において類似度分布が第5図の
ような分布をしている場合を考える。単語単位のマツチ
ングおよび音韻単位のマツチングにおいて、入力音声に
対しあるカテゴリの類似度が同じ値(例えば0.9)と
なった場合でも、入力音声がそのカテゴリである確率は
、音韻単位のマツチングによる単語認識のほうが単語単
位のマツチングによる認識よりも高くなる。
したがって、単語単位のマツチングによる第1の単語認
識部20により出力された類似度値および音韻単位のマ
ツチングによる第2の単語認識部30により出力された
類似度値を、事後確率に変換するといった手法(例えば
、proc、 ICASSP、 pp。
1077−1080.1988 )を用いるなどして、
両認識部20および30から出力された類似度値を共通
に扱い得る類似度値に変換する。ここで、変換された単
語単位のマツチングによる単語認識による類似度値をP
l(I’(1)は、カテゴリ)、変換された音韻単位の
マツチングによる単語認識による類似度値をp2(1)
とすると、総合判定部41において、最終的なカテゴリ
gの類似度値5(11は、一α(J) pl (jl +(1−α(j) ) p2 (13 として求められる。ここで、αl)は、カテゴリgに対
する単語単位のマツチングによる単語認識の総合判定に
対する寄与率を示すパラメータであり、この例では0≦
αく1の範囲をとる。このαは、単語標準パターンの学
習に用いる単語音声パターン数により変化させる。例え
ば第6図に示すように、学習用の単語音声パターン数の
増加に伴いαの値を単調に増加させ総合判定部において
単語単位のマツチングによる認識をより重視させる。
ここでは、あるカテゴリgの学習用単語音声パータン数
が50個の場合には総合判定部で用いる単語単位のマツ
チングによる単語認識の寄与率α31ゝを0.4とし、
学習用単語音声パターン数が100個の場合には寄与率
α(#)を0,8とすることを示している。
なお、上記寄与率の変化は、第6図の例に限定されるも
のではないが、単語標準パターンの学習に用いる単語音
声パターン数が多くなるに従いαは大きくなる傾向を示
す。ここで、入力された音声に対し上記の認識を行なっ
た結果は、利用者に対し出力される。利用者は表示され
たカテゴリが正解であるか不正解であるかを入力する。
1酎と指示された場合には、入力音声から得られた単語
音声パターンを用いて、正解のカテゴリの単語撤準パタ
ーンの学習を行なう。したがって、カテゴリ毎に単語標
準パターンの学習用単語音声パターン数が異なるので、
上述した単語単位の認識の総合判定に対する寄与率αは
、カテゴリ毎に異なる。
また、学習のための制御として、例えば、10個の学習
用単語音声パターンが蓄えられたカテゴリについては学
習を行なう(10個の学習データが蓄えられないうちは
学習を行なわない)ようにすることも可能であるし、学
習を行なう旨の指示がなされた場合にのみ学習処理を行
なうようにすることも可能である。
第3の実施例 第2の実施例と同様に、収集した単語音声パターンを用
いて単語標準パターンの学習を行なうに従って、音韻単
位のマツチングに基づく認識結果よりも、性能の向上し
た単語単位のマツチングに基づく認識結果をより重視す
る総合判定部41の処理の他の一例、を具体的に示す本
発明の第3の実施例について次に述べる。
単語標学パターンの学習に用いられた単語音声パターン
数をLとする。総合判定部41ではLの値に応じて処理
を変える。例えば、第7図に示すように処理1〜4(9
53〜556)の4種類の処理のうちLのとる値(85
0〜S52で判定される)に応じた1つが実行される。
以下に1、処理1〜4の4種類の処理について説明する
(処理1) 〔L−0の場合〕 単語標準パターンが未登録の状態であり、第1の単語認
識部20による単語単位のマツチングが実行されず、第
2の単語認識部3oによる音韻単位のマツチングのみが
行なわれ、音韻単位のマツチングによる単語認識結果が
総合判定部41による認識結果として出力される。
(処理2) 〔0くL≦30の場合〕 (30は例であり、この値は30に限らず適宜選定され
得る) 単語標準パターンは存在するが、単語単位のマツチング
による単語認識の性能はまだ充分ではなく、音韻単位の
マツチングによる単語認識のほうが性能が上であるとす
る。したがりて、この段階においては、音韻単位のマツ
チングによる単語認識を重視する。
この場合の処理の流れを第8図に示す。
音韻単位のマツチングに基づく単語認識結果に対して、
2種類の閾値(θ2、Δθ2)を設定する。ここで、θ
2は音韻単位のマツチングによる単語認識結果の類似度
値の閾値であり、類似度値が例えば0〜1の範囲をとる
場合に、例えばθ2−0.8とする。また、Δθ2は音
韻単位のマツチングによる単語認識結果の最大類似度と
の差の閾値であり、例えばΔθ2−0.1とする。音韻
単位のマツチングにおいて、θ2 (この場合0゜8)
以上で且つΔθ2 (この場合0.1)以下の類似度値
を持つカテゴリが認識結果の候補となる。
認識結果の候補数をnとしたとき、n−0、n−1およ
びn≧2のいずれであるかによって処理が異なる。
(i)n=0の場合には、入力音声に対する認識結果が
定まらずリジェクトされる。
(31)n −1の場合には、入力音声に対する認識結
果が一意的に定まり、単語単位のマツチングによる認識
結果を用いる判定は行なわれず、そのまま認識結果とし
て出力される。
(111) n≧2の場合には、音韻単位のマツチング
による認識では認識結果が定まらないため、認識結果の
候補について、単語単位のマツチングによる認識判定を
行なう。ここで、単語単位のマツチングによる認識にお
いてもθ2、Δθ2と同様の閾値θ12Δθlを設定す
る。音韻単位のマツチングによる単語認識において得ら
れた認識結果の候補のうち、θ1 (例えば0.7)以
上で且っΔθl (例えば0.05)以下の類似度値を
持つカテゴリが存在したとき(n/ ≧1)、そのカテ
ゴリが認識結果として出力される。このとき、上述の条
件を満たすカテゴリが2つ以上存在した場合(n / 
≧2)には、そのうち類似度値のもっとも大きいカテゴ
リを認識結果として出力する。また、上述の条件を満足
するカテゴリが存在しない場合(n’−0)には、リジ
ェクトする。
この処理2においては、音韻単位のマツチングによる単
語認識を重視する処理を行なう。すなわち、まず、音韻
単位のマツチングによる単語認識結果で候補となるカテ
ゴリを選んだ後、単記単位の認識による判定を行なうの
で、音韻単位のマツチングによる認識結果のうち候補に
残らなかったカテゴリについては、たとえ単語単位のマ
ツチングによる単語認識結果で類似度が上位にあっても
認識結果とはなり得ない。
(処理3) (30<L≦100の場合〕 (30,100は例であり、適宜選定され得る)単語単
位のマツチングによる単語認識の性能が向上し、音韻単
位のマツチングによる単語認識よりも、単語単位のマツ
チングによる単語認識のほうが性能が上であるとする。
したがって、この段階においては、単語単位のマツチン
グに基づく単語認識を重視した処理を行なう。
この場合の処理の流れを第9図に示す。
単語単位のマツチングに基づく単語認識結果に対して、
処理2と同様に、θlとΔθlの2種類の閾値を定義す
る。ここで、θlは単語単位のマツチングによる類似度
値の閾値であり、類似度値が例えば0〜1の範囲をとる
場合に、例えばθl−〇、8とする。また、Δθ1は単
語単位のマツチングによる最大類似度との差の閾値であ
り、例えばΔθ1−0.2とする。この単語単位のマツ
チングにおいて、θl (この場合0.8)以上で、且
つΔθl (この場合0.2)以下の類似度値を持つカ
テゴリを認識結果の候補とする。認識結果の候補数をn
 としたとき、n′−〇、n′−1およびn′≧2のい
ずれであるかによって処理が異なる。
(i)n’−0の場合には、入力音声に対する認識結果
が定まらずリジェクトされる。
(li)n’ mlの場合には、入力音声に対する認識
結果が一意的に定まり、音韻単位のマツチングによる認
識結果を用いる判定は行なわれず、そのまま認識結果と
して出力される。
(lii) n ’ ≧2の場合には、単語単位のマ・
ソチングによる認識によって得られた認識結果の候補に
ついて、音韻単位のマツチングによる認識判定を行なう
。ここで、音韻単位の認識においても処理2と同様にθ
2、Δθ2という閾値を設定する。
単語単位のマツチングによる単語認識において得られた
単語の候補のうち、θ2 (例えば0.8)以上で、且
つΔθ2 (例えば0.1)以下の類似度値を持つカテ
ゴリが存在したとき(n≧1)、そのカテゴリが認識結
果として出力される。このとき、上述の条件を満たすカ
テゴリが2つ以上存在した場合(n≧2)には、そのう
ち類似度値のもっとも大きいカテゴリを認識結果として
出力する。また、上述の条件を満足するカテゴリが存在
しない場合(n−0)には、リジェクトする。
この処理3においては、単語単位のマツチングによる単
語認識を重視しているので、単語単位のマツチングによ
る認識結果で候補として選ばれなかったカテゴリについ
ては、たとえ音韻単位のマツチングによる単語認識結果
で類似度が上位にあっでも認識結果とはなり得ない。
(処理4) (L>100の場合〕 (100は例であり、適宜選定され得る)収集された単
語音声パターンを用いた単語標準パターンの学習が進み
、処理3の場合よりもさらに単語単位のマツチングによ
る単語認識の性能が向上した場合の処理であり、音韻単
位のマツチングによる単語認識よりも、単語単位のマ・
ソチングによる単語認識のほうがはるかに性能が上であ
る。
したがって、この段階においては、単語単位のマツチン
グに基づく単語認識を一層重視した処理を行なう。
この場合の処理の流れを第10図に示す。
単語単位のマツチングに基づく単語認識結果に対して、
処理2および処理3と同様に、θ1とΔθlの2種類の
閾値を定義する。この単語単位のマツチングにおいて、
θl (例えば0.8)以上で、且つΔθl (例えば
0.1)以下の類似度値を持つカテゴリを認識結果の候
補とする。認識結果の候補数をn′としたとき、n′−
〇、n′−1およびn′≧2のいずれであるかによって
処理が異なる。
(i)n’−0の場合には、入力音声に対する認識結果
が定まらずリジェクトされる。
(ii)n’=1の場合には、入力音声に対する認識結
果が一意的に定まり、音韻単位のマツチングによる認識
結果を用いる判定は行なわれず、そのまま認識結果とし
て出力される。
(iii) n’ ≧2の場合には、単語単位のマツチ
ングによる認識によって得られた認識結果の候補につい
て、音韻ラベルによる遷移ネットワークを用いた認識処
理を行なう。例えば認識対象単語に対して、予め音韻の
種類を示す音韻ラベル(例えば、[A]、[13,[U
]、[E]、および[0]のような母音に対するラベル
、あるいは[P][T]、および[K]のような破裂音
に対するラベル)による例えば第12図のような遷移ネ
ットワークを作成しておく。第12図は、[ハイ[IA
I] Jという単語に対する遷移ネットワークの例であ
る。入力された音声に対しては、例えば第11図のよう
な音韻単位のマツチングによる音韻ラベル系列[HHH
HHHAAAAEE I I I]が生成され、その音
韻ラベル系列が認識結果の候補となったカテゴリの遷移
ネットワークを満足する場合に認識結果として出力する
。このとき、上記遷移ネットワークを満足するカテゴリ
が存在しない場合はリジェクトされ、2つ以上のカテゴ
リが存在する場合は、それらのうち単語単位の認識にお
いて最大の類似度を持つカテゴリを認識結果とする。
上述の実施例で示した処理の種類、および閾値は、上述
された例に限定されず、上述以外にも種々変更して実施
することができる。つまり単語標準パターンの学習に用
いる単語音声パターン数が増加するに従い、単語単位マ
ツチングによる認識を重視した総合判定を行なう限り、
種々の変形が可能である。
例えば、認識処理対象となるカテゴリにおいて、学習に
用いる単語音声パターンの数が最低10パターン蓄えら
れた場合に、総合判定部が単語標準パターン学習部に対
して、各カテゴリについて10パターンずつ用いて、自
動的に学習を行なう旨の指示を行なうようにすることも
できる。このとき、認識処理で用いた音声パターンを利
用者の指示により、単語標準パターンの学習のための単
・語音声パータンとして収集することができるので、入
力された単語音声を無駄なく最大限に活用して単語標準
パターンの学習に用いることができる。
また、単語音声の入力は、実際に音声認識システムを使
用する際に、全カテゴリに対して同頻度で行なわれるも
のではないので、学習用の単語標準パターンを収集する
際には、このことがボトルネックとなり、学習がなかな
か進まないという状況におちいることもある。このよう
な不都合を解消するために、総合判定部41において収
集された各カテゴリ毎の学習用単語音声パターンの計数
を行ない、学習用単語音声パターンの数の少ないカテゴ
リに対しては、認識処理を行なう前に利用者に発声を捉
すようにしてもよい。あるいは、このような場合に、・
別途に例えばテープレコーダのような音声記録装置で収
集した音声を入力して学習用単語音声パターンの追加を
行なうようにすることも可能である。
学習を行なうように指示がなされた場合には、例えばそ
の時点で全カテゴリ中、最少の学習用単語音声パターン
数を用いて学習がなされるようにしてもよい。例えば、
「イチ[ICII]Jという音声パターンが30パター
ン、「二[NI]Jというパターンが12パターン、そ
して「サン[SAN] Jというパターンが18パター
ンの学習用単語音声パターンがある場合に、「イチ」の
30パターンのうち12パターンと、「二」の12パタ
ーンと、「サン」の18パターンのうち12パターンを
用いて学習を行ない、残りのパターンは次回の学習に用
いるようにしてもよい。
もちろん、上述においては、単語構成要素として音韻を
用いた場合について主に説明したが、音節を単語構成要
素の単位とする場合にも音韻を音節に置き換えて上述と
同様に実施できる。
[発明の効果] 本発明の音声認識システムによれば、単語単位のマツチ
ングによる単語認識結果と音韻単位のマツチングによる
単語認識結果とを総合的に判断して最終的な認識結果を
得、更にその結果に基づいて単語標準パターンの学習を
行なうようにして、いるので、認識処理の過程で単語標
準パターンの学習を行なうことができる。このため、予
め単語標亭パターンの作成を行なう必要がなく、単語の
給量の拡張も容易で、しかも認識処理の進行に伴って単
語標準パターンの内容も次第に充実し、認識率が逐次向
上する。
【図面の簡単な説明】
第1図は本発明の第1の実施例による音声認識システム
の構成を示すブロック図、第2図は上記第1の実施例の
システムにおける認識結果出力部を更に詳細に示すブロ
ック図、第3図は上記第1の実施例のシステムにおける
単語標準パターンの学習処理の流れを示すフローチャー
ト、第4図は本発明の第2の実施例のシステムを説明す
るための単語単位のマツチングによる類似度分布を示す
図、第5図は上記第2の実施例のシステムを説明するた
めの音韻単位のマツチングによる類似度分布を示す図、
第6図は上記第2の実施例のシステムを説明するための
学習用音声パターン数と総合判定を行なう際の単語単位
のマツチングによる認識の寄与率の関係を示す図、第7
図は、本発明の第3の実施例のシステムにおける特徴的
な処理の流れを示すフローチャート、第8図〜第10図
は、上記第3の実施例のシステムにおける処理の流れを
モデル的に説明するための図、第11図および第12図
は、上記第3の実施例のシステムにおける処理に用いら
れる音韻ラベル系列および音韻ラベルによる遷移ネット
ワークをモデル的に説明するための図である。 10・−・音声パラメータ抽出部、11・・・音声入力
部、12・・・音響処理部、20・・・第1の単語認識
部、21・・・単語音声パターン抽出部、22・・・類
似度計算部、23・・・単語標準パターン記憶部、3o
・・・第2の単語認識部、31・・・セグメンテーショ
ン・ラベリング部、32・・・類似度計算部、33・・
・音韻標準パターン記憶部、34・・・単語認識部、3
5・・・単語辞書、40・・・認識結果出力部、41・
・・総合判定部、42・・・表示部、43・・・指示入
力部、50・・・単語認識用標準パターン学習部、5.
1・・・単語音声パターン記憶部、52・・・単語標準
パターン学習部。 出願人代理人 弁理士 鈴江武彦 第2図 第 図 類似度値 第 5図 第 図 Δθ1 第 図 第 図 第 図

Claims (2)

    【特許請求の範囲】
  1. (1)入力音声を分析して該入力音声の音声パラメータ
    を抽出するためのパラメータ抽出手段と、上記パラメー
    タ抽出手段により抽出される音声パラメータを単語単位
    に切出して単語音声パターンを抽出するとともに、該単
    語音声パターンを単語標準パターンとマッチングして単
    語認識を行なうための単語単位のマッチングによる第1
    の単語認識手段と、 上記パラメータ抽出手段で抽出される音声パラメータか
    ら単語構成要素毎の音声パターンを予め記憶された単語
    構成要素標準パターンに対応させて単語構成要素の認識
    を行なうとともに、得られた単語構成要素の系列の候補
    に基づいて単語認識を行なうための単語構成要素単位の
    マッチングによる第2の単語認識手段と、 上記第1および第2の単語認識手段からの各単語認識結
    果に基づいて、総合的に認識結果を求めこれを出力する
    ための認識結果出力手段と、上記認識結果出力手段で求
    められる認識結果と上記認識処理の過程で抽出される単
    語音声パターンを単語標準パターンの学習のための音声
    パターンとして収集し、該単語音声パターンに基づいて
    上記単語標準パターンの学習処理を行なうための学習手
    段と を具備する音声認識システム。
  2. (2)入力音声を分析して該入力音声の音声パラメータ
    を抽出するためのパラメータ抽出手段と、上記パラメー
    タ抽出手段により抽出される音声パラメータを単語単位
    に切出して単語音声パターンを抽出するとともに、該単
    語音声パターンを単語標準パターンと照合して単語認識
    を行なう単語単位のマッチングによる第1の単語認識手
    段と、上記パラメータ抽出手段で抽出される音声パラメ
    ータから単語構成要素毎の音声パターンを予め記憶され
    た単語構成要素標準パターンに対応させて単語構成要素
    の認識を行なうとともに、得られた単語構成要素の系列
    の候補に基づいて単語認識を行なうための単語構成要素
    単位のマッチングによる第2の単語認識手段と、 上記第1および第2の単語認識手段からの各単語認識結
    果に基づいて、総合的な認識結果を求めこれを出力する
    ための認識結果出力手段と、上記認識結果出力手段で求
    められる認識結果と上記認識処理の過程で抽出される単
    語音声パターンを単語標準パターンの学習のための音声
    パターンとして収集し、該単語音声パターンに基づいて
    上記単語標準パターンの学習処理を行なうための学習手
    段とを具備し、且つ 上記認識結果出力手段は、上記学習手段において用いる
    単語音声パターンが増加するのに応じて、最終的に出力
    される上記総合的な認識結果における上記第1の単語認
    識手段による単語単位のマッチングに基づく単語認識の
    結果と上記第2の単語認識手段による単語構成要素単位
    のマッチングに基づく単語認識の結果との寄与の度合を
    変化させ、上記学習で用いる単語音声パターンが増加す
    るのにつれて、上記第1の単語認識手段による単語認識
    の結果を上記第2の単語認識手段による単語認識の結果
    よりも重視して総合的な認識結果を求める音声認識シス
    テム。
JP1131858A 1988-05-27 1989-05-25 音声認識システム Expired - Fee Related JP2955297B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP12991988 1988-05-27
JP63-129919 1988-05-27

Publications (2)

Publication Number Publication Date
JPH0250198A true JPH0250198A (ja) 1990-02-20
JP2955297B2 JP2955297B2 (ja) 1999-10-04

Family

ID=15021645

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1131858A Expired - Fee Related JP2955297B2 (ja) 1988-05-27 1989-05-25 音声認識システム

Country Status (3)

Country Link
EP (1) EP0344017B1 (ja)
JP (1) JP2955297B2 (ja)
DE (1) DE68914032T2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0446398A (ja) * 1990-06-14 1992-02-17 Sharp Corp 音声認識装置
JP2006171077A (ja) * 2004-12-13 2006-06-29 Nissan Motor Co Ltd 音声認識装置および音声認識方法
JP2007256643A (ja) * 2006-03-23 2007-10-04 Denso Corp 音声認識装置及びナビゲーションシステム
JP2010048890A (ja) * 2008-08-19 2010-03-04 Ntt Docomo Inc クライアント装置、認識結果フィードバック方法、認識結果フィードバックプログラム、サーバ装置、音声認識のモデル更新方法、音声認識のモデル更新プログラム、音声認識システム、音声認識方法、音声認識プログラム
JP2017182499A (ja) * 2016-03-30 2017-10-05 パナソニックIpマネジメント株式会社 判定システム、判定方法、判定プログラム、端末装置、制御方法、及び制御プログラム

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4106346C2 (de) * 1991-02-28 1997-04-10 Philips Patentverwaltung Anordnung zur Erkennung von Wörtern in einem Sprachsignal
CA2088080C (en) * 1992-04-02 1997-10-07 Enrico Luigi Bocchieri Automatic speech recognizer
ES2078834B1 (es) * 1992-10-30 1997-04-16 Alcatel Standard Electrica Metodo de segmentacion de cadenas de palabras en la fase de entrenamiento de un reconocedor de palabras conectadas.
WO1996035207A1 (en) * 1995-05-03 1996-11-07 Philips Electronics N.V. Speech recognition methods and apparatus on the basis of the modelling of new words
JP4438028B2 (ja) 1998-07-27 2010-03-24 キヤノン株式会社 情報処理装置及びその方法、及びそのプログラムを記憶した記憶媒体
DE10022586A1 (de) 2000-05-09 2001-11-22 Siemens Ag Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems
DE10034235C1 (de) 2000-07-14 2001-08-09 Siemens Ag Verfahren zur Spracherkennung und Spracherkenner
DE10129005B4 (de) * 2001-06-15 2005-11-03 Harman Becker Automotive Systems Gmbh Verfahren zur Spracherkennung und Spracherkennungssystem
JP3997459B2 (ja) * 2001-10-02 2007-10-24 株式会社日立製作所 音声入力システムおよび音声ポータルサーバおよび音声入力端末

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0446398A (ja) * 1990-06-14 1992-02-17 Sharp Corp 音声認識装置
JP2006171077A (ja) * 2004-12-13 2006-06-29 Nissan Motor Co Ltd 音声認識装置および音声認識方法
JP4608670B2 (ja) * 2004-12-13 2011-01-12 日産自動車株式会社 音声認識装置および音声認識方法
JP2007256643A (ja) * 2006-03-23 2007-10-04 Denso Corp 音声認識装置及びナビゲーションシステム
JP2010048890A (ja) * 2008-08-19 2010-03-04 Ntt Docomo Inc クライアント装置、認識結果フィードバック方法、認識結果フィードバックプログラム、サーバ装置、音声認識のモデル更新方法、音声認識のモデル更新プログラム、音声認識システム、音声認識方法、音声認識プログラム
JP2017182499A (ja) * 2016-03-30 2017-10-05 パナソニックIpマネジメント株式会社 判定システム、判定方法、判定プログラム、端末装置、制御方法、及び制御プログラム

Also Published As

Publication number Publication date
EP0344017A3 (en) 1990-08-22
DE68914032D1 (de) 1994-04-28
EP0344017B1 (en) 1994-03-23
EP0344017A2 (en) 1989-11-29
JP2955297B2 (ja) 1999-10-04
DE68914032T2 (de) 1994-07-21

Similar Documents

Publication Publication Date Title
EP1557822B1 (en) Automatic speech recognition adaptation using user corrections
US20100004931A1 (en) Apparatus and method for speech utterance verification
US6553342B1 (en) Tone based speech recognition
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
CN111640418B (zh) 一种韵律短语识别方法、装置及电子设备
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
EP2161718A1 (en) Speech recognition
JP2955297B2 (ja) 音声認識システム
EP2891147B1 (en) Method and system for predicting speech recognition performance using accuracy scores
US8219386B2 (en) Arabic poetry meter identification system and method
CN117043857A (zh) 用于英语发音评估的方法、设备和计算机程序产品
KR20090060631A (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
JP3444108B2 (ja) 音声認識装置
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
Garud et al. Development of hmm based automatic speech recognition system for Indian english
KR100586045B1 (ko) 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법
Majidnezhad A HTK-based method for detecting vocal fold pathology
Adam et al. Analysis of Momentous Fragmentary Formants in Talaqi-like Neoteric Assessment of Quran Recitation using MFCC Miniature Features of Quranic Syllables
JP2001005483A (ja) 単語音声認識方法及び単語音声認識装置
JPH09114482A (ja) 音声認識のための話者適応化方法
JP3277522B2 (ja) 音声認識方法
Vyas et al. Study of Speech Recognition Technology and its Significance in Human-Machine Interface
JPH08211893A (ja) 音声認識装置
JPS63236098A (ja) ラベリングシステム

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees