JPS6344699A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS6344699A
JPS6344699A JP61189246A JP18924686A JPS6344699A JP S6344699 A JPS6344699 A JP S6344699A JP 61189246 A JP61189246 A JP 61189246A JP 18924686 A JP18924686 A JP 18924686A JP S6344699 A JPS6344699 A JP S6344699A
Authority
JP
Japan
Prior art keywords
length
speech
word
phoneme
syllable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61189246A
Other languages
English (en)
Inventor
西山 敏雄
弘 岡本
貞治 江守
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP61189246A priority Critical patent/JPS6344699A/ja
Publication of JPS6344699A publication Critical patent/JPS6344699A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 「産業上の利用分野」 この発明は音素または音節を認識単位としたトップダウ
゛ン方式で入力音声を認識する音声認識装置に関する。
「従来の技術」 この種の音声認識装置においては入力された音声信号を
パワ、スイクトルなどの特徴パラメータの時系列として
メモリに記憶し、一方認識対象単語が音素又は音節の系
列として辞書メモリに記憶してあり、認識に当ってその
辞書内の単語を仮定し、その単語の音素又は音節系列に
従って音素または音節ごとに予め決められた規則に従っ
て長さ、レベルなどが決められ、この音素又は音節で入
力音声信号を対応して分割できるかを判定し、対応する
音素又は音節が切出せる場合は、その対応度(類似度)
を示す値を付けて次の音素又は音節の切出しを行い、つ
まシセグメンテーションとスコアリングを行い、仮定し
た単語で入力音声信号をセグメンテーションすることが
できた場合に、スコアを合計し、これが所定値以上であ
れば、その仮定した単語として入力音声信号を認識する
このような音素または音節を認識単位としたトップダウ
ンによる従来の音声認識装置では、音素の継続長に関し
、音素が母音の場合は固定の継続長を与えるだけで対処
していたため(日本音響学会音声研究会資料S−82−
62(DEC,20、1982,))、発声者の発声す
る内容や発声状態を限定しない場合、固定の継続長との
差異が大きくなり認識率の低下を招くという欠点があっ
た。
また、子音の継続長は無声破裂音と無声摩擦音のような
子音グループ間での差異が大きく(信学会編:「聴覚と
音声」第3版、1982.)、子音を−まとめにした固
定の継続長を用いると認識率が低下するという欠点もあ
った。
これらの欠点を解決するため、従来の音声認識装置にお
いては、音素または音節の継続長に対する制限を具体的
な判定手段を用いずに緩めて対処していた。このため音
声信号に対して明らかに継続長が異なる音素まだは音節
が仮定されてもその仮定単語が除去されにくく処理量が
増加するという欠点があった。
さらに、先頭の音素または音節から順次処理を行うため
、入力された音声信号の音声長に比べ、音声信号に仮定
される単語の音素または音節数が明らかに少ない、もし
くは多い場合についても、その不適当さを考慮すること
なく処理を行うため処理量が増加するという欠点があっ
た。
この発明は、母音、子音に対して固定の継続長を与える
ことによる認識率の低下という欠点、および継続長に対
する制限を具体的な判定手段を用いずに緩めることに基
づく処理量の増加という欠点をなくすため、音素または
音節の個別ちるいはグループ毎の継続長の統計データを
基に、入力された音声信号に対し、仮定された単語から
推定される音声長と実際の音声長との比較を行い、統計
的に判定することによって、時間に関する特徴を積極的
に利用した音声認識装置を提供することにある。
「問題点を解決するための手段」 この発明は、従来補助的な利用もしくは回避していた音
声の時間的特徴を音素または音節の継続長として音素ま
たは音節を認識単位とする音声認識装置に利用すること
を最も主要な特徴とする。
即ち、音素または音節の継続長の統計データを各音素ま
たは音節について個別あるいはグループ毎に求めて継続
長メモリに記憶しておき、仮定した単語の音素または音
節の系列に従い各音素または音節ごとの各セグメンテー
ションが終了した時点で、それ以降の入力音声長と、仮
定単語中の未処理の各音素または音節の継続長の統計デ
ータから求められる推定音声長とをそれぞれ計算し、こ
れら音声長と推定音声長とを比較し、その差が、所定値
、例えば各音素または音節の継続長の統計データが持つ
分散によって予想される推定誤差以上に差異がある場合
、以後の音素または音節認識処理(セグメンテーション
)を打ち一切シ不必要な処理の削減を行う。
「実施例」 第1図はこの発明の実施例を示す。
入力端子11から入力された音声信号はφ変換器12に
よシディジタル信号に変換され、そのディジタル信号は
特徴抽出部13で特徴・セラメータ時系列に変換される
。この特徴抽出部13の出力は時系列メモリ14に格納
される。
認識処理部15で辞書メモリ16から入力音声信号に対
し仮定された単語の音素または音節の系列を読出し、そ
の音素または音節単位で入力音声信号に対し認識処理、
つまりセグメンテーション、スコアリングを行う(第2
図ステップsi)。一つの音素または音節の認識処理が
終了し、その仮定単語がリノエクトされなかった場合(
ステップS2)、入力音声信号の未処理部分の音声長(
L−Lp)を計算しくステップS3)、またそれ以降の
音素または音節について継続長メモリ17から継続長の
統計データを仮定し、それらの和によシ与えられる推定
音声長ΣLkを計算する(ステン7’S、)。
この未処理の音声信号の部分の音声長と推定音声長とを
比較し、その差が、音素または音節の継続長の統計デー
タの持つ分散から予想される推定誤差E以上の場合は以
降の音素または音節についての認識処理を打ち切り、E
以下の場合はステップS1に戻って認識処理を続行する
(ステップSS)。
第3図は、先頭からp番目の音素または音節まで処理を
行い、ここで処理打ち切シを行う場合の概念図を示す。
このときの打ち切シ判定は以下の式を満たした場合に行
う。
L :音声信号の音声長 Lp : p番目の音素または音節まで処理を行った時
点までの音声長 Lk : k番目の音素また:ま音節(k>p)の継続
長の統計データ Nl:音声信号に対し仮定された単語の音素または音部
数 E :推定誤差 σl:i番目の音素の分散)を用い、第4図に実際に時
系列メモリ14甲の音声信号/abashiri/ k
て対して、辞書メモリ16から/ aizuwakam
atu 、/を仮定した場合の処理が打ち切られる様子
を示す。
すなわち入力音声信号/ abashiri /が曲線
21で示され、仮定単語/ aizawakamatu
 /はその最初の部分が二種類の/a/■■と、三種類
の/a/の結合■■(のとの5つのセグメンテーション
候補がある。仮定単語の最初/a/は母音であるため母
音の立上り*が入力音声信号について存在するかの認識
処理が行われ、その後、まず第1候補■に゛ついて/、
/の認識処理が行われ、入力音声信号に対し/a/によ
るセグメンテーションが行われる。この時、入力音声の
残りの部分/ b −i /の音声長と、仮定単語の残
りの部分/i−u/の推定音声長とが比較され、後者の
方が推定誤差E以上に長いため、この候補■に対する認
識処理は打切られ、次の候補■についての認識処理に移
る。候補■も同様にして/a/に対するセグメンテーシ
ョンの後、認識処理が打切られる。候補■■については
/a1/が入力音声信号中の/a/又は/a b /と
一応対応付けられ、その後残り音声長と、残り推定音声
長とをそれぞれ比較し、その認識処理が打切られた状態
を示す。また候補■ば/a1/が入力音声信号中の/a
/と対応ずけられ、この時の/a i/が短かいため、
その時の入力音声信号の残シ部分/ b ” i /の
音声長と、仮定単語の残υ部分/z−u/の推定音声長
との差が推定誤差E以下であり、このため次の/Z/に
対する認識処理に移り、これが入力音声信号中の/b/
と対応ずけられ、この時の残り部分の音声長と推定音声
長との比較により、その差が推定誤差E以上と判定され
てこの認識処理が打切られる。
図中太線を施した部分はこの発明により認識処理が打切
られた部分であるが、従来の装置では、この太線部分の
認識処理が行わrし、その後のX印で認識処理が打切ら
れる。つまり、この発明ではこの各太線部分の処理量だ
け、従来よりも処浬麺が少なくなる。
以上の結果から明らかなように、従来の技術?て比べこ
の発明装置によれば処理量の削減ができろとともに、各
音素または音節の継続長について統計的なバラツキを考
慮した推定誤差を許容し゛、1.・)るので、不用意な
処理打ち切りを行う危険性を小さくでき、音素または音
節の継続長を用いることによる認識率の低下を小さくで
きる。
「発明の効果」 以上説明したように、この発明を適用するく二とにより
音素または音節の時間的特徴と1.て継続長が利用でき
、それをもとに音声信号に対1〜で仮定された単語につ
いての推定音声長と、実際の音声信号の入力音声長との
比較による判定が可能でk)るから、明らかに数あるい
は種類の異なる音素またニー′i音節の系列からなる仮
定単語についての処理1削減という利点がちる。
音素毎に上記の粂件でこの発明を適用した認識を行った
結果、100単語認識の可能な100単語辞書メモリを
使用した場合約20 %、1000単語認識の可能な1
000単語辞書メモリを使用した場合で約30%の処理
量を削減することができた。
また、この発明による推定音声長と入力音声長との比較
では、推定誤りを考慮した推定誤差を与えているため、
音素または音節の継続長の統計データを用いることによ
る認識率の低下を抑えるという利点もちる。
【図面の簡単な説明】
第1図はこの発明の実施例を示すブロック図、第2図は
その認識処理動作の要部の動作を示す流れ図、第3図は
推定により処理の打ち切りを判定する際の概念図、第4
図はこの発明によって実際に処理の打ち切りが行われる
様子を示す図である。 特許出願人  日本電信電話株式会社 代 理 人  草  野      卓2=1 7 土力矛舌果 オ 37 粘r1 272 図 オ 4 図 21人″D苦?慣腎

Claims (1)

    【特許請求の範囲】
  1. (1)入力された音声信号をその特徴パラメータの時系
    列として時系列メモリに格納し、認識するための単語を
    格納した辞書メモリから、単語を仮定し、その単語の音
    素または音節系列に従った音素又は音節ごとに入力音声
    信号のパラメータ時系列をセグメンテーションを行うと
    共にその各セグメンテーションのスコアリングを行って
    認識を行う音声認識装置において 音素または音節の個別あるいはそのグループ毎の継続長
    の統計データを格納する継続長メモリと、上記各セグメ
    ンテーションごとに上記入力音声信号のまだセグメンテ
    ーションされていない残りの音声長を計算する音声長計
    算手段と、 上記仮定した単語中の音素または音節に対応する継続長
    の統計データを上記継続長メモリから読出して、その仮
    定した単語中のセグメンテーションが終了した音素また
    は音節以降に残されている音素または音節の系列の推定
    音声長を計算する推定音声長計算手段と、 その計算された推定音声長と、上記音声計算手段で計算
    された音声長とを比較し、その仮定単語に対する認識処
    理を打ち切るか否かの判定を行う判定手段とを設けたこ
    とを特徴とする音声認識装置。
JP61189246A 1986-08-11 1986-08-11 音声認識装置 Pending JPS6344699A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61189246A JPS6344699A (ja) 1986-08-11 1986-08-11 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61189246A JPS6344699A (ja) 1986-08-11 1986-08-11 音声認識装置

Publications (1)

Publication Number Publication Date
JPS6344699A true JPS6344699A (ja) 1988-02-25

Family

ID=16238071

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61189246A Pending JPS6344699A (ja) 1986-08-11 1986-08-11 音声認識装置

Country Status (1)

Country Link
JP (1) JPS6344699A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5318109A (en) * 1991-11-20 1994-06-07 Kabushiki Kaisha Toshiba Heat exchange apparatus
JPH09106296A (ja) * 1995-07-31 1997-04-22 At & T Corp 音声認識装置及び方法
JP2001005488A (ja) * 1999-06-18 2001-01-12 Mitsubishi Electric Corp 音声対話システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5318109A (en) * 1991-11-20 1994-06-07 Kabushiki Kaisha Toshiba Heat exchange apparatus
JPH09106296A (ja) * 1995-07-31 1997-04-22 At & T Corp 音声認識装置及び方法
JP2001005488A (ja) * 1999-06-18 2001-01-12 Mitsubishi Electric Corp 音声対話システム

Similar Documents

Publication Publication Date Title
JP3789246B2 (ja) 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体
JPS61219099A (ja) 音声認識装置
JPS6344699A (ja) 音声認識装置
JPS6123560B2 (ja)
KR100350003B1 (ko) 음성신호로부터워드를결정하는시스템
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
JP3128251B2 (ja) 音声認識装置
WO1987006384A1 (en) Method of collating voice pattern in voice recognizing apparatus
JPH0262879B2 (ja)
JPH0567036B2 (ja)
JPS632100A (ja) 音声認識装置
JPS6136798A (ja) 音声セグメンテ−シヨン法
JPS607492A (ja) 単音節音声認識方式
JPS6027000A (ja) パタンマツチング方法
JPH01158499A (ja) 定常雑音除去方式
JPS6033599A (ja) 音声認識装置
JPS62293299A (ja) 音声認識方法
JPH0519785A (ja) 音声認識装置
JPS6195397A (ja) 音声パターン照合方法
JPS60229099A (ja) 音声認識方式
JPS61200596A (ja) 連続音声認識装置
JPS61105600A (ja) 連続音声認識装置
JPS6395499A (ja) 音声セグメンテ−シヨン装置
JPS58105296A (ja) 音韻区間切り出し方法
JPS63218999A (ja) 音声認識装置