JPH08248975A - 標準パターン学習装置およびこの装置を使用した音声認識装置 - Google Patents

標準パターン学習装置およびこの装置を使用した音声認識装置

Info

Publication number
JPH08248975A
JPH08248975A JP7050195A JP5019595A JPH08248975A JP H08248975 A JPH08248975 A JP H08248975A JP 7050195 A JP7050195 A JP 7050195A JP 5019595 A JP5019595 A JP 5019595A JP H08248975 A JPH08248975 A JP H08248975A
Authority
JP
Japan
Prior art keywords
unit
recognition
learning
standard pattern
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7050195A
Other languages
English (en)
Inventor
Hiroaki Hattori
浩明 服部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP7050195A priority Critical patent/JPH08248975A/ja
Priority to EP96103690A priority patent/EP0731447B1/en
Priority to DE69621674T priority patent/DE69621674T2/de
Priority to US08/613,887 priority patent/US5774848A/en
Publication of JPH08248975A publication Critical patent/JPH08248975A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 記憶容量および処理量を少くでき、かつ、高
い認識性能を得ることができる標準パターン学習装置お
よび音声認識装置を提供することである。 【構成】 学習単位選択部13が、認識単語辞書部10
および学習用単語辞書部11それぞれから記憶された各
認識単位の音素環境情報を取り出して比較し、認識単語
辞書部10に記憶された認識対象単語に含まれる各認識
単位と類似した環境を持つ認識単位を、学習用単語辞書
部11に記憶された認識単位学習単語から学習単位とし
て選び出して、認識単位標準パターン作成部14に送出
している。また、認識単位標準パターン作成部14は、
認識対象単語に存在し、学習単位選択部13により選択
された認識単位に関して、学習データ記憶部12に記憶
される学習データの中から最もよく音素環境が一致する
認識単位を利用している。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、前後の音素環境を考慮
した、単語より小さい認識単位を作成する標準パターン
学習装置およびこの装置を使用した音声認識装置に関
し、特に、音素環境の範囲を拡張する反面、記憶量の減
少を図り、かつ、高い認識性能を得ることができる標準
パターン学習装置およびこの装置を使用した音声認識装
置に関する。
【0002】
【従来の技術】従来、この種の標準パターン学習装置を
備える音声認識装置では、図5に示されるように、標準
パターン学習装置9に対して、単語標準パターン作成部
2が接続され、、分析部3が音声を入力して認識部4が
認識した単語を出力する。
【0003】また、標準パターン学習装置9は、認識単
語辞書部10、学習用単語辞書部11、学習データ記憶
部92、および、認識単位標準パターン作成部93を有
している。
【0004】即ち、単語標準パターン作成部2は、標準
パターン学習装置9の認識単語辞書部10の記憶情報を
得て、標準パターン学習装置9の認識単位標準パターン
作成部93により学習結果として出力された認識単位の
標準パターンを順次連結し、対象単語となる単語標準パ
ターンを作成して出力する。また、分析部3は入力音声
を分析して特徴ベクトル系列を抽出して出力する。更
に、認識部4は、単語標準パターン作成部2により出力
された単語標準パターンと、分析部3により出力された
特徴ベクトル系列とを入力し、入力した単語標準パター
ンを用いて特徴ベクトル系列を認識し、単語として出力
している。
【0005】ここで、認識単位標準パターン作成部93
は、学習用単語辞書部11に記述された各学習単語中の
認識単位の持つ前後音素環境情報と、学習データ記憶部
92に記憶された認識単位学習データとを用いて、1つ
の音素の前後の音素環境に依存した認識単位の標準パタ
ーンを作成し、出力する。音素は、単語の音声を認識単
位に分解したものであり、ある音素の前後の状況が音素
環境情報である。
【0006】前後の音素環境を考慮した認識単位を用い
る方法は、従来から音声の高い認識率を達成するために
提案されている。この方法では、例えば、音素を認識単
位とした場合に、この音素の先行音素および後続音素に
より複数の認識単位を用意している。このようにするこ
とにより、同じ音素であっても、先行音素および後続音
素に依存した聴音結合の影響を認識単位中に取り込むこ
とが可能となり、より高い音声認識率が得られる。
【0007】例えば、文献1(K.F.Lee,“ Context-Dep
endent Phonetic Hidden Markov Models for Speeker-I
ndependent continuous speech recognition”, pp347-
365,readings in Seech Recognition, MorganKaufmann,
ISBN 1-55810-124 )では、トライフォンと呼ぶ、1つ
の音素の前後各1つずつの音素を考慮した音素モデルが
提案されており、前後の音素を考慮しないモデルに比
べ、音声の認識に良好な結果が得られている。
【0008】次に、図4を参照し、音素環境について説
明する。
【0009】図示されるように、異なるN個の音素から
なる単語があり、各音素を認識単位にするものとする。
先頭からi番目の音素iの認識単位を生成する場合、こ
の音素iの左側には(i−1)個の音素があり、左側の
音素を考慮しない、音素iのみの場合を含めて左音素環
境を考慮する長さはi個になる。同様に、右側について
は、(N−i+1)個の長さが存在する。
【0010】即ち、左および右の両側で考慮する環境の
長さは独立しているので、i番目の音素の認識単位とし
ては、“i×(N−i+1)”個が生成される。この結
果、単語全体では、下記数式1により算出される数の認
識単位を生成する必要がある。例えば、“N=10”の
場合、[(10+3×10+2×10)/6=]2
20個の認識単位を生成する必要がある。
【0011】
【数1】
【0012】
【発明が解決しようとする課題】上述した従来の標準パ
ターン学習装置およびこの装置を使用した音声認識装置
では、上記文献1に示されるように、考慮する音素環境
の範囲を予め限定して認識単位を作成しているので、設
計時に考慮した以上の音素環境を反映することができな
いという問題点がある。また、語彙の登録・変更を自由
に行うためには音素環境を広く考慮する必要があるの
で、音素の認識単位が増加し、この結果、膨大な記憶容
量が必要になるという問題点がある。
【0013】一方、考慮した音素環境の範囲が狭い場
合、学習データ中に同一の単語が含まれている場合で
も、予め考慮した範囲で同じ音素環境をもつ他の学習デ
ータと一緒に学習されてしまう恐れがある。この結果、
同一の単語から得られる情報が損なわれてしまい、同一
単語のみを用いて学習を行った場合ほど高い音声認識性
能は得られないという問題点がある。
【0014】他方、音素環境を単純に拡大すると、認識
単位の数が増し、生成された認識単位には認識対象単語
を表現するためには不必要な認識単位まで含まれること
になり、効率が悪い。
【0015】更に、語彙の登録が自由に行えるようにす
るためには、種々な音素環境をもつ認識単位を予め用意
する必要がある。このため、学習用データに含まれる認
識単位を様々な音素環境毎にもつ必要があるが、このた
めには多量の記憶量を必要とするという問題点がある。
【0016】本発明の課題は、音素環境の範囲を拡張す
る反面、記憶量の減少を図り、かつ、高い認識性能を得
ることができるできる標準パターン学習装置およびこの
装置を使用した音声認識装置を提供することである。
【0017】
【課題を解決するための手段】本発明による標準パター
ン学習装置は、前後の音素環境を考慮した、単語より小
さい認識単位を作成する標準パターン学習装置におい
て、認識対象単語、該認識対象単語に含まれる各認識単
位、および、該認識単位毎の音素環境情報を記憶する認
識単語辞書部と、認識単位学習単語、該認識単位学習単
語に含まれる各認識単位、および該認識単位毎の音素環
境情報を記憶する学習用単語辞書部と、認識単位学習デ
ータを記憶する学習データ記憶部と、前記認識単語辞書
部および前記学習用単語辞書部それぞれから記憶された
各認識単位の音素環境情報を取り出して比較し、前記認
識単語辞書部に記憶された認識対象単語に含まれる各認
識単位と類似した環境を持つ認識単位を、前記学習用単
語辞書部に記憶された認識単位学習単語から学習単位と
して選び出す学習単位選択部と、該学習単位選択部によ
り選択された学習単位と前記学習データ記憶部に記憶さ
れた認識単位学習データとから認識対象単語に含まれる
各認識単位の学習を行う、音素環境に依存した認識単位
標準パターン作成部とを備えて構成されている。
【0018】また、本発明による標準パターン学習装置
に追加される手段の1つは、音素環境間の距離を記憶す
る環境間距離記憶部を更に備え、前記学習単位選択部
が、該環境間距離記憶部に記憶される情報を加味した範
囲で前記認識単位を学習単位として選択することであ
る。
【0019】更に、音声認識装置は、上記のいずれか1
つの標準パターン学習装置を備えて構成されている。
【0020】
【実施例】次に、本発明について図面を参照して説明す
る。
【0021】図1は本発明の一実施例を示す機能ブロッ
ク図である。図1に示された音声認識装置は、基本的に
は従来と同様、標準パターン学習装置1、単語標準パタ
ーン作成部2、分析部3、および、認識部4により構成
されている。また、標準パターン学習装置1は、認識単
語辞書部10、学習用単語辞書部11、学習データ記憶
部12、学習単位選択部13、および、認識単位標準パ
ターン作成部14を備えている。
【0022】図1において、従来例における図5との相
違点は、標準パターン学習装置1に学習単位選択部13
を加え、かつ、学習データ記憶部12の機能を補充し、
これらの変更に伴い、認識単位標準パターン作成部14
に機能を追加している。
【0023】標準パターン学習装置1の認識単語辞書部
10には、認識対象単語の音素環境を考慮しない場合の
認識単位の系列と、これらの各認識単位の前後音素環境
とが用意され、記憶格納されている。学習用単語辞書部
11には、認識単位学習単語の音素環境を考慮しない場
合の認識単位の系列と、これらの各認識単位の前後音素
環境とが用意され、記憶格納されている。また、学習デ
ータ記憶部12には、学習データとして各学習単語の各
認識単位毎に標準パターンを構成するパラメータを学習
するために必要な特徴量が用意され、記憶格納されてい
る。
【0024】ここで、図1に図2を併せ参照して、標準
パターン学習装置1が認識単位を作成するに当たって認
識対象単語および学習単語を構成する認識単位の音素環
境を考慮した手法について手順を追って説明する。
【0025】まず、学習単位選択部13は、認識単語辞
書部10を介して受けた認識対象単語を認識単位に分析
し(手順S11)、認識単位の1つを抽出する(手順S
12)。次いで、学習単位選択部13は、抽出した認識
単位と同じ認識単位前後の音素環境が類似した認識単位
を、学習用単語辞書部11に記憶される学習単語の中か
ら少くとも1つ、選択し(手順S13)、既に選択され
ている標準パターンの中で照合チェックする(手順S1
4)。
【0026】この照合の結果、受けた認識単位と同一の
音素環境を持つ認識単位がなく、不一致の場合(手順S
15のNO)、学習単位選択部13は、生成すべき標準
パターンとしてこの音素環境を持つ認識単位を追加して
列挙する(手順S16)と共に、一致した音素環境を持
つ学習単語中の認識単位を、この標準パターンの学習サ
ンプルとして記憶する(手順S17)。
【0027】この手順17が終了した後、または、前述
の手順S15が“YES”で、既に存在する標準パター
ンと一致する場合、学習単位選択部13は、次の認識単
位をチェックする(手順S20)。このチェックの際、
次の認識単位として残りがある場合(手順S21のYE
S)、この認識単位を抽出して(手順S22)、手順は
手順S13に戻り、手順S21が“NO”で、認識単位
の残りがなくなるまで、手順は繰り返される。
【0028】全ての認識単位について処理が終了した
際、学習単位選択部13は、列挙した標準パターンを認
識単位標準パターン作成部14に出力する(手順S3
0)。認識単位標準パターン作成部14は、受け取った
各標準パターンの学習サンプルに対応する特徴量を用い
て認識単位標準パターンの学習を、学習データ記憶部1
2を使用して行う。
【0029】単語標準パターン作成部2は、認識単位標
準パターン作成部14により作成された認識単位の標準
パターンを連結して単語としての標準パターンを作成
し、この標準パターンを認識部4が単語に認識して出力
する。
【0030】即ち、学習データに存在する認識単位の中
から、認識対象単語を構成する認識単位と音素環境とが
より広い範囲で類似した認識単位を選択して認識単位が
作成され、この認識単位を用いて単語の認識が行われて
いる。
【0031】この結果、認識対象単語を表現するために
不必要な認識単位を生成する必要がなく、また、予め考
慮する音素環境の範囲を決定しないため、認識対象単語
と類似した学習データが存在した場合、より長い音素環
境を考慮した認識単位を用いることができるのでより高
い認識率が得られる。
【0032】ここで、考慮する音素環境としては、音素
の音響的特徴に影響を与える要因、例えば、音素、音素
カテゴリ、アクセントの有無、アクセント中心からの位
置、ピッチ、発生速度等の中の少くとも1つが用いられ
ている。
【0033】また、上記手順S13において、類似した
音素環境を有する認識単位を選択するに当っては、各音
素環境間の類似度を定義することによって、より幅広い
選択が可能になる。例えば、音素環境e,eの類似
度d(e,e)を規定し、選択する際に類似度の大
きい環境を有する認識単位を選択する場合、“i=j”
の条件でのみ、値を持つように規定することにより、通
常の音素環境が一致する認識単位のみを選択することが
できる。
【0034】また、上記説明において、学習データ記憶
部12の標準パターンを構成するパラメータを学習する
ために必要な特徴量について、および、認識単位標準パ
ターン作成部14が各標準パターンの学習サンプルに対
応する特徴量を用いて認識単位標準パターンを学習する
方法については、認識手法に依存しており、種々の場合
が考えられる。
【0035】例えば、マルチテンプレートを用いたDP
マッチング法(古井、「ディジタル音声処理」、pp.186
-187、東海出版)(以下文献2)を用いる場合には、学
習データ記憶部12に各認識単位を構成する音響的特徴
量の時系列が用意され、記憶格納されており、上記手順
S13では、これら時系列のクラスタリングを行って、
所望の個数の時系列を生成して求められた標準パターン
が出力されている。
【0036】更に、隠れマルコフモデルを用いた認識手
法[中川、「確立モデルによる音声認識」、電子情報通
信学会(以下文献3)、または、“readings in Speech
Recognition”,Morgan Kaufmann, ISBN 1-55860-124
(以下文献4)]を用いる場合には、学習データ記憶部
12に各認識単位を構成する音響的特徴量の時系列が、
上記同様、用意され、記憶格納されており、上記手順S
13では、これら時系列を用いてパラメータの再推定を
行い、この結果として求められた標準パターンが出力さ
れている。
【0037】また、学習過程の特徴量として、例えば、
状態遷移確立aijを学習するためには、話者υの発声す
る単語ωの特徴ベクトル時系列{Oυω}が観測され、
時刻tに状態iから状態jへの遷移が起きる確率γ
υω(i,j,t)を記憶しておき、この確率を学
習に必要な特徴量γυω(i,j,t)として用い
る。
【0038】また、上記以外の認識手法を用いる場合で
あっても、単語より小さい認識単位の連結により認識対
象を表現する場合には、本発明が適用可能である。
【0039】更に、不特定話者を認識対象とする場合、
この標準パターンは、複数の学習話者が発声した学習単
語を用いて学習を行う。この際、上記のように、各話者
の各認識単位を構成する音響的特徴量の時系列をそのま
ま記憶すると、大量の記憶容量が必要になる。このよう
な場合には、学習単語毎に時系列を束ねておくことも可
能である。例えば、マルチテンプレートを用いる場合に
は、上記手順S13における標準パターン作成時の時系
列のクラスタリング手法と同じ手法を用いて、各話者の
特徴量の時系列を話者数より少いクラスタ数にクラスタ
リングすることで、記憶容量を話者数分のクラスタ数に
削減が可能である。
【0040】次に、図1に示される学習データ記憶部1
2の詳細について説明する。
【0041】ここで、例えば、ある学習単語ωのp番目
の認識単位を表すHMM( HiddenMarkov Model)の状
態iから他の状態jへの遷移確率αを例にとる
と、学習データ記憶部12には、前述による学習に必要
な特徴量γυω(i,j,t)の累積値Nα(下
記数式2)および累積回数Dα(下記数式3)が記憶
格納されている。
【0042】
【数2】
【0043】
【数3】 また、特徴ベクトル時系列を構成する特徴量としては、
例えば、上記文献2に示される、FFT分析(高速フー
リエ変換分析)、LPC分析(線形予測分析)等により
得られるケプストラム、LPC計数、これらの時間変化
量等が利用可能である。このように、遷移確率を学習す
るために必要な特徴量γυω(i,j,t)を記憶
するのではなく、その累積値Nαおよび累積回数Dα
として記憶することで必要な記憶量が少くてすむ。
【0044】話者数N、学習単語を構成するモデルの平
均状態数S、および、学習単語の平均時間長Tを規定し
た場合、特徴量γυω(i,j,t)を記憶する場
合に比較して、必要な記憶量は“2S/NT”の割合に
なる。通常、“N>>1”および“T>S”であり、例
えば、N=100、T=100、およびS=50とした
場合、必要な記憶量は、1/100になる。
【0045】ここでは、遷移確率を例にあげたが、HM
Mの他のパラメータについても同様に、学習可能であ
る。また、離散HMM、半連続HMM等の特徴ベクトル
のセントロイドまたは出力確率分布が認識単位に依存し
ない場合には、これらを学習し直すための特徴量を記憶
しておく必要がないため、学習データ記憶部12の記憶
量は少くてすむ。もちろん、連続HMMにおいても出力
確率分布を学習しないようにすることで、記憶すべき特
徴量を削減することができる。
【0046】次に、図1に示される学習単位選択部13
の詳細について説明する。
【0047】学習単位選択部13は、学習用単語辞書部
11に記憶格納されている認識単位の系列および各認識
単位の前後音素環境、並びに、認識単語辞書部10に記
憶格納されている認識単位の系列および各認識単位の前
後音素環境を用いて、学習単語の認識単位の中から、こ
の認識単位と同じ認識単位であって、前後音素環境が類
似した認識単位の最低1つを選択している。
【0048】この際、既に存在する標準パターンの中に
認識単位が同じで、かつ、選択された認識単位と同一の
音素環境を持つものがなければ、生成すべき標準パター
ンとして、祖の音素環境を持つ認識単位を加え、その標
準パターンの学習サンプルとして一致した音素環境を持
つ学習単語中の認識単位を記憶する。
【0049】ここで、ある音素環境を持つ認識単位qと
一致した音素環境を持つ認識単位がNq個の学習単語中
に存在したものとし、この認識単位を含む単語ω
(i)、および、認識単位の位置Pq(i)(1≦i
≦Nq)が定義されているものとする。
【0050】次に、図1に示される認識単位標準パター
ン作成部14の詳細について説明する。
【0051】認識単位標準パターン作成部14は、学習
単位選択部13で選択された各認識単位標準パターンの
学習サンプルの学習データ記憶部12に記憶格納された
特徴量を読みだし、音素環境に依存した認識単位標準パ
ターンの学習を行う。
【0052】例えば、ある音素環境をもつ認識単位qの
状態iから他の状態jへの遷移確率αは下記数式
4として学習される。
【0053】
【数4】 次に、音声認識装置を標準パターン学習装置1と共に構
成する単語標準パターン作成部2、分析部3、および認
識部4について説明する。
【0054】単語標準パターン作成部2は、認識単語辞
書部10から認識単位の系列と各認識単位の前後音素環
境とを読みだし、認識単位標準パターン作成部14によ
り作成された、音素環境に依存した認識単位標準パター
ンを連結し、単語標準パターンを作成する。分析部3
は、入力した音声の分析を行い、特徴ベクトルの時系列
に変換する。特徴ベクトルとしては、例えば、上記文献
2に説明されているように、FFT分析、LPC分析等
により得られるケプストラム、LPC計数、これらの時
間変化量等が利用可能である。認識部4は、分析部3か
ら受け取った特徴ベクトル時系列を、単語標準パターン
作成部2で作成された単語標準パターンを用いて認識
し、認識結果を出力する。
【0055】次に、図3を参照して第2の実施例につい
て説明する。
【0056】図3で図1と同一の機能ブロックには同一
の番号符号を付与して説明を省略する。ここで説明する
部分は、環境間距離記憶部15、学習単位選択部16、
および、認識単位標準パターン作成部17である。
【0057】環境間距離記憶部15には、予め定められ
た音素環境e、eの類似度D(e,e)が記憶
格納されている。学習単位選択部16は、学習用単語辞
書部11に記憶格納されている認識単位の系列および各
認識単位の前後音素環境、並びに、認識単語辞書部10
に記憶格納されている認識単位の系列および各認識単位
の前後音素環境、更に、環境間距離記憶部15に記憶格
納されている音素環境間距離d(e,e)を用い
て、学習単語の認識単位の中からこの認識単位と同じ認
識単位であって、前後音素環境が類似した認識単位を少
くとも1つ選択する。即ち、認識対象単語中の1つの認
識単位が持つ音素環境e(k)(1≦k≦K)と、学
習用単語中の同じ認識単位が持つ同一の長さの音素環境
(k)(1≦k≦K)との条件により、これらの認
識単位間の距離を下記数式5により求め、この認識単位
間距離が小さい学習単語中の認識単位が、環境の類似し
たものとして選択される。
【0058】
【数5】 この選択の際、既に存在する標準パターンの中に、認識
単位が同じで、かつ、選択された認識単位と同一の音素
環境とを持つものがなければ、生成すべき標準パターン
としてその音素環境を持つ認識単位を加え、この標準パ
ターンの学習サンプルとして一致した音素環境を持つ学
習単語中の認識単位を記憶する。
【0059】また、認識単位標準パターン作成部17
は、学習単位選択部13で求められた認識単位qと、こ
の認識単位qに一致した音素環境を持つ学習用単語ω
(i)のp(i)番目の認識単位との認識単位間距離
D[(q,ω(i),p(i)]に関して単調減少
である関数ω(D)を用いて重み付けを行い、下記数式
6により学習することで、より類似した環境を持つ学習
データの情報を、より多く取り込むことができる。
【0060】
【数6】 上記説明では、機能ブロックが図示されているが、ブロ
ック機能の分離・併合等、また、例えば、標準パターン
を作成中に平行して次の認識単位を抽出する平行処理も
可能であり、即ち、手順の平行処理、前後移動等も、上
記機能を損なわない限り自由であり、上記説明が本発明
を限定するものではない。
【0061】
【発明の効果】以上説明したように本発明によれば、学
習単位選択部が、認識単語辞書部および学習用単語辞書
部それぞれから記憶された各認識単位の音素環境情報を
取り出して比較し、認識単語辞書部に記憶された認識対
象単語に含まれる各認識単位と類似した環境を持つ認識
単位を、学習用単語辞書部に記憶された認識単位学習単
語から学習単位として選び出して、認識単位標準パター
ン作成部に送出している。この構成によって、認識対象
単語に含まれない余分な認識単位を生成しないため、単
語標準パターンを作成するための記憶容量および処理量
を少くできる音声認識装置を得ることができる。
【0062】また、認識単位標準パターン作成部が、学
習単位選択部により選択された、認識対象単語に存在す
る認識単位に関して学習データに存在する中から最もよ
く音素環境が一致する認識単位を利用することができる
ので、高い認識性能を得ることができる。例えば、認識
単語と同一の学習単語が存在する場合には、この単語を
用いて認識単位が学習され、かつ、この認識単位が使用
されるので、高精度の認識度が期待できる。
【0063】更に、学習データ記憶部が、学習データそ
のままではなく、認識単位を学習するために必要な情報
のみの状態で記憶格納するため、語彙の登録、変更等の
処理による処理量および記憶容量が少くてよい音声認識
装置を得ることができる。
【図面の簡単な説明】
【図1】本発明の一実施例を示す機能ブロック図であ
る。
【図2】本発明の主要動作手順の一実施例を示す流れ図
である。
【図3】本発明の別の一実施例を示す機能ブロック図で
ある。
【図4】音素環境を考慮した認識単位の説明図である。
【図5】従来の一例を示す機能ブロック図である。
【符号の説明】
1、5 標準パターン学習装置 2 単語標準パターン作成部 3 分析部 4 認識部 10 認識単語辞書部 11 学習用単語辞書部 12 学習データ記憶部 13、16 学習単位選択部 14、17 認識単位標準パターン作成部 15 環境間距離記憶部

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 前後の音素環境を考慮した、単語より小
    さい認識単位を作成する標準パターン学習装置におい
    て、認識対象単語、該認識対象単語に含まれる各認識単
    位、および、該認識単位毎の音素環境情報を記憶する認
    識単語辞書部と、認識単位学習単語、該認識単位学習単
    語に含まれる各認識単位、および該認識単位毎の音素環
    境情報を記憶する学習用単語辞書部と、認識単位学習デ
    ータを記憶する学習データ記憶部と、前記認識単語辞書
    部および前記学習用単語辞書部それぞれから記憶された
    各認識単位の音素環境情報を取り出して比較し、前記認
    識単語辞書部に記憶された認識対象単語に含まれる各認
    識単位と類似した環境を持つ認識単位を、前記学習用単
    語辞書部に記憶された認識単位学習単語から学習単位と
    して選び出す学習単位選択部と、該学習単位選択部によ
    り選択された学習単位と前記学習データ記憶部に記憶さ
    れた認識単位学習データとから認識対象単語に含まれる
    各認識単位の学習を行う、音素環境に依存した認識単位
    標準パターン作成部とを備えて構成されることを特徴と
    する標準パターン学習装置。
  2. 【請求項2】 請求項1において、前記音素環境には、
    音素、音素カテゴリ、アクセントの有無、アクセント中
    心からの位置、ピッチ、および発声速度の少くとも1つ
    を含むことを特徴とする標準パターン学習装置。
  3. 【請求項3】 請求項1において、前記学習単位選択部
    は、比較した結果、前後に最長範囲で一致する音素環境
    を有する認識単位を学習単位として選択することを特徴
    とする標準パターン学習装置。
  4. 【請求項4】 請求項1において、音素環境間の距離を
    記憶する環境間距離記憶部を更に備え、前記学習単位選
    択部が、該環境間距離記憶部に記憶される情報を加味し
    た範囲で前記認識単位を学習単位として選択することを
    特徴とする標準パターン学習装置。
  5. 【請求項5】 請求項1、2、3、および請求項4にお
    いて、音素環境の範囲を予め定めた環境範囲規定を設
    け、前記学習単位選択部は、該環境範囲規定を満たす認
    識単位が認識単位学習単語に存在する限り、前後に長く
    なる所定の範囲を有する認識単位を学習単位として選択
    することを特徴とする標準パターン学習装置。
  6. 【請求項6】 請求項5において、前記所定の範囲に
    は、選択される認識単位の前後環境長と、認識単位学習
    単語中に存在する認識単位の個数との、少くとも一方を
    用いることを特徴とする標準パターン学習装置。
  7. 【請求項7】 請求項1、2、3、4、5、および請求
    項6において、前記学習データ記憶部は、標準パターン
    を作成するために必要な特徴量を各認識単位学習単語の
    各認識単位毎に記憶することを特徴とする標準パターン
    学習装置。
  8. 【請求項8】 請求項7において、前記学習データ記憶
    部は、標準パターンを作成するために必要な特徴量の累
    積値と累積回数とを記憶することを特徴とする標準パタ
    ーン学習装置。
  9. 【請求項9】 請求項1、2、3、4、5、6、7、お
    よび請求項8に記載のいずれか1つの標準パターン学習
    装置を備えて構成されることを特徴とする標準パターン
    学習装置。
  10. 【請求項10】 請求項1、2、3、4、5、6、7、
    および請求項8に記載のいずれか1つの標準パターン学
    習装置と、該標準パターン学習装置の認識単語辞書部の
    記憶情報を得て、該標準パターン学習装置の認識単位標
    準パターン作成部により学習結果として出力された認識
    単位の標準パターンを順次連結し、対象単語となる単語
    標準パターンを作成して出力する単語標準パターン作成
    部と、入力音声を分析して特徴ベクトル系列を抽出して
    出力する分析部と、前記単語標準パターンと前記特徴ベ
    クトル系列とを入力し、該単語標準パターンを用いて該
    特徴ベクトル系列を認識し、単語として出力する認識部
    とを備えることを特徴とする音声認識装置。
JP7050195A 1995-03-09 1995-03-09 標準パターン学習装置およびこの装置を使用した音声認識装置 Pending JPH08248975A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP7050195A JPH08248975A (ja) 1995-03-09 1995-03-09 標準パターン学習装置およびこの装置を使用した音声認識装置
EP96103690A EP0731447B1 (en) 1995-03-09 1996-03-08 Reference pattern training system and speech recognition system using the same
DE69621674T DE69621674T2 (de) 1995-03-09 1996-03-08 Trainingssystem für Referenzmuster und dieses Trainingssystem benutzendes Spracherkennungssystem
US08/613,887 US5774848A (en) 1995-03-09 1996-03-11 Reference pattern training system and speech recognition system using the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7050195A JPH08248975A (ja) 1995-03-09 1995-03-09 標準パターン学習装置およびこの装置を使用した音声認識装置

Publications (1)

Publication Number Publication Date
JPH08248975A true JPH08248975A (ja) 1996-09-27

Family

ID=12852375

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7050195A Pending JPH08248975A (ja) 1995-03-09 1995-03-09 標準パターン学習装置およびこの装置を使用した音声認識装置

Country Status (4)

Country Link
US (1) US5774848A (ja)
EP (1) EP0731447B1 (ja)
JP (1) JPH08248975A (ja)
DE (1) DE69621674T2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3061114B2 (ja) * 1996-11-25 2000-07-10 日本電気株式会社 音声認識装置
JP2001075964A (ja) * 1999-08-31 2001-03-23 Sony Corp 情報処理装置および情報処理方法、並びに記録媒体
US6546387B1 (en) * 1999-11-15 2003-04-08 Transcom Software Inc. Computer network information management system and method using intelligent software agents
CA2530899C (en) 2002-06-28 2013-06-25 Conceptual Speech, Llc Multi-phoneme streamer and knowledge representation speech recognition system and method
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61249182A (ja) * 1985-04-27 1986-11-06 Toshiba Corp パタ−ン認識学習装置
JPH04251300A (ja) * 1990-09-18 1992-09-07 Sanyo Electric Co Ltd 音声認識装置
JPH06250686A (ja) * 1993-02-23 1994-09-09 N T T Data Tsushin Kk 音声認識モデル学習方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
GB9223066D0 (en) * 1992-11-04 1992-12-16 Secr Defence Children's speech training aid
US5526466A (en) * 1993-04-14 1996-06-11 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61249182A (ja) * 1985-04-27 1986-11-06 Toshiba Corp パタ−ン認識学習装置
JPH04251300A (ja) * 1990-09-18 1992-09-07 Sanyo Electric Co Ltd 音声認識装置
JPH06250686A (ja) * 1993-02-23 1994-09-09 N T T Data Tsushin Kk 音声認識モデル学習方法

Also Published As

Publication number Publication date
DE69621674D1 (de) 2002-07-18
EP0731447A2 (en) 1996-09-11
EP0731447A3 (en) 1998-08-05
DE69621674T2 (de) 2003-02-06
US5774848A (en) 1998-06-30
EP0731447B1 (en) 2002-06-12

Similar Documents

Publication Publication Date Title
JP3453456B2 (ja) 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
KR100612840B1 (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
KR100679044B1 (ko) 사용자 적응형 음성 인식 방법 및 장치
JP2871561B2 (ja) 不特定話者モデル生成装置及び音声認識装置
JP4109063B2 (ja) 音声認識装置及び音声認識方法
JP5240457B2 (ja) 拡張認識辞書学習装置と音声認識システム
JPH0772840B2 (ja) 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
WO1996023298A2 (en) System amd method for generating and using context dependent sub-syllable models to recognize a tonal language
JPH08227298A (ja) クラスタ化された単語間及び/又は句間の調音結合を使用した音声認識
Liu et al. The Cambridge University 2014 BOLT conversational telephone Mandarin Chinese LVCSR system for speech translation
JPH08248975A (ja) 標準パターン学習装置およびこの装置を使用した音声認識装置
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP2982689B2 (ja) 情報量基準を用いた標準パターン作成方式
JP2000122689A (ja) 話者適応化装置及び音声認識装置
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
JP2976795B2 (ja) 話者適応化方式
EP0238693B1 (en) Speech recognition system and method using statistical models for words
JP2005091504A (ja) 音声認識装置
JPH1097270A (ja) 音声認識装置
JPH0786758B2 (ja) 音声認識装置
JP3231365B2 (ja) 音声認識装置
JP3003355B2 (ja) 標準パターン作成装置
Gbaily Automatic Database Segmentation using Hybrid Spectrum-Visual Approach
JPH04271397A (ja) 音声認識装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 19980624