JPH0289099A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH0289099A
JPH0289099A JP63240250A JP24025088A JPH0289099A JP H0289099 A JPH0289099 A JP H0289099A JP 63240250 A JP63240250 A JP 63240250A JP 24025088 A JP24025088 A JP 24025088A JP H0289099 A JPH0289099 A JP H0289099A
Authority
JP
Japan
Prior art keywords
syllable
length
average
section
input voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63240250A
Other languages
English (en)
Inventor
Toru Ueda
徹 上田
Shin Kamiya
伸 神谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP63240250A priority Critical patent/JPH0289099A/ja
Publication of JPH0289099A publication Critical patent/JPH0289099A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〈産業上の利用分野〉 この発明は、入力された音声を音節単位で認識する音声
認識装置の改良に関する。
〈従来の技術〉 従来より、音声認識装置として次のようなものがある。
すなわち、入力音声から特?lI量を抽出し、この抽出
した特徴量と平均音節長に基づいて音節区間を切り出し
、その切り出された音節区間の特徴量と予め記憶部に格
納された標準パターンの特徴量との類似度計算を行って
音節単位で音声の認識結果を行うものである。その際に
、上記平均音節長は予め設定して記憶された固定値を用
いるか、あるいは過去に音声入力された複数の単語の音
声区間長と音節数とから計算によって求めている。
〈発明が解決しようとする課題〉 このように、上記従来の音声認識装置においては、音節
を認識する際に用いられる平均音節長は、予め設定して
記憶された固定値を用いるか、あるいは過去に音声入力
された複数の単語の音声区間長と音節数とから計算によ
って求めるようにしているので、次のような問題か生じ
る。すなわち、音声認識装置を使いなれた話者の場合に
は発声速度が一定であるから問題はないが、音声認識装
置を使い慣れていない話者の場合には発声速度が発声毎
に変動する。そのため、上述のようにして用いられる平
均音節長と実際に人力される音声の音節長とが大きく食
い違って、正しく音節区間を判定することがてきないと
いう問題がある。
そこで、この発明の目的は、入力された音声毎に平均音
節長を推定することによって、話者の発声速度等に影響
されずに正しく音節を認識することができる音声認識装
置を提供することにある。
〈課題を解決するための手段〉 上記目的を達成するため、この発明は、入力された音声
から特徴量を抽出し、この抽出された特徴量に基づいて
音節を切り出し、音節単位で類似度計算を行って音節を
認識する音声認識装置において、上記人力された音声か
ら抽出された特徴量に基づいて、入力音声毎に音節区間
推定用パラメータを算出し、この音節区間推定用パラメ
ータに基づいて入力音声毎に平均音節長を推定する音節
長推定部と、この推定された平均音節長と上記特徴mに
基づいて音節区間を切り出す音節区間抽出部を備えたこ
とを特徴としている。
また、上記音声認識装置は、上記音節長推定部において
、上記特徴量のパワー変化とスペクトル変化とを複合し
た音節区間推定用パラメータを人力音声毎に算出するよ
うにしている。
また、上記音節区間推定用パラメータは、子音から母音
への渡りにおいて値が他の箇所よりも大きくなるような
パラメータである。
〈作用〉 音声が入力されると、この入力された音声から特徴量が
抽出される。そうすると、この抽出された特徴1に基づ
いて、音節長推定部によって人力音声毎に音節区間推定
用パラメータが算出され、この算出された音節区間推定
用パラメータに基づいて入力音声毎に平均音節長が推定
される。そして、この推定された平均音節長と上記特徴
量に基づいて、音節区間抽出部によって音節区間が切り
出される。したがって、入力された音声毎に推定された
平均音節長に基づいて音節区間か切り出される。
また、この音声認識装置は、上記音節長推定部によって
、上記特徴量のパワー変化とスペクトル変化とを複合し
た音節区間推定用パラメータを入力音声毎に算出し、こ
のパラメータに基づいて平均音節長が推定される。した
がって、的確に平均音節長が推定される。
また、この音声認識装置は、子音から母音への渡りにお
いて値が他の箇所よりも大きくなるような音節区間推定
用パラメータを入力音声毎に算出し、これに基づいて音
節区間が切り出される。したかって、子音から母音の渡
りの箇所に基づいて、平均音節長が推定され、より的確
に音節が切り出される。
〈実施例〉 以下、この発明を図示の実施例により詳細に説明する。
第1図はこの発明の音声認識装置のブロック図であり、
1は発声された音声を捕らえるためのマイク、2は人力
された音声の音声帯域だけを増幅する増幅器である。
特徴抽出部3は、マイクIから入力されて増幅器2によ
って増幅された音声から、音節区間の切り出しと類似度
計算を行うための特mff1(例えば、短区間(5+s
s〜20m5)のパワーおよび16帯域フイルタバンク
の出力等)を抽出する。平均音節長推定部4は、特徴抽
出部3で抽出された特徴量に基づいて、後に詳述するよ
うにして音節区間推定用パラメータを算出し、この音節
区間推定用パラメータに基づいて平均音節長を推定する
。音節区間抽出部5は、特徴抽出部3で抽出された特徴
量と平均音節長推定部4によって推定された平均音節長
とに基づいて音節区間を切り出す。
類似度計算部6は、音節区間抽出部5で抽出された音節
区間における特徴量と予め標準パターンメモリ7に登録
されている標準パターンの特徴量との類似度計算を行い
、その類似度計算結果に基づいて音節の認識を行う。イ
ンターフェース部9は、ワードプロツセサ等の図示しな
い外部装置とのやり取りの際に用いられる。CPU8は
、特徴抽出部3.平平均節長推定部4.音節区間抽出部
5゜類似度計算部6およびインターフェース部9を制御
して、音声認識動作を実行する。
ここで、平均音節長推定部4によって算出される上記音
節区間推定用パラメータは、上記特徴抽出部3によって
抽出された特徴量のパワー変化とスペクトル変化とを複
合したパラメータ(PWSP −f(Pot、5PEC
) : POW=パ’7−.5PEC= スペクトル変
化)を用いろ。(1)式は本実施例において用いられる
上記音節区間推定用パラメータPWSPの具体的な式を
示す。
PWSP= (S l/S 2)X ((P 2− P
 1)/(P 1+ K))・・・(1) ここで、Sl: 時刻tでの8フレームの窓のスペクト
ル変化。
S2: 時刻(t−4)での4フレームの窓のスペクト
ル変化。
Pl: 時刻(t−3)でのパワー P2: 時刻tでのパワー K : 定数。
上記音節区間推定用パラメータPWSPは、パワーの立
ち上がりで、かつスペクトル変化の大きい箇所を捕らえ
るものである。したがって、音節の子音から母音への渡
りで大きな値を示すことが多い。
第2図は話者が/たな/と発声した場合のパワーと音節
区間推定用パラメータpvspとの変化を示す。
この図から、/たな/と発声した場合には音節/た/の
始端(A)と音節/な/の子音から母音への渡り(B)
?こおいて音節区間推定用パラメータPWSPがピーク
を有している。このようにして得られた入力音声の音節
区間推定用パラ・メータpwspのピークが2っ以上存
在する場合に、音節に対応する上記音節区間推定用パラ
メータpwspのピーク間の間隔(すなわちA−B間の
間隔Q)を音節/た/の平均音節長とする。
ただし、音節区間推定用パラメータpwspのピーク間
の間隔が極端に長い場合には、ピーク間に2音節以上含
まれている可能性があるので、平均音節長の推定は行わ
ないようにする。この場合には、平均音節長の推定を行
わない音節の平均音節長として、例えば直前の音節にお
いて推定した平均音節長を用いる。このことは、従来よ
り知られている子音から母音への渡りの間隔は、母音か
ら子音への渡りの間隔よりも変動が少ないことに基づい
ている。すなわち、第2図に示すように、上記音節区間
推定用パラメータpvspによって推定された音節/た
/の平均音節長Qが音節/な/の平均音節長にほぼ等し
いため、音節/な/の平均音節長の推定値が得られなか
った場合は、直前の上記音節/た/の平均音節長Qを音
節/な/の平均音節長として用いることが可能なのであ
る。
また、音節区間推定用パラメータpwspのピークが一
つの音節区間と推定される区間に多数現れた場合は、各
ピーク間の間隔のうち音節長として妥当な間隔(例えば
、予め設定されている入力音節7秒から判断)を選出し
て平均することによって平均音節長を求める。
このように、音節区間推定用パラメータとして特徴抽出
部3で抽出されるパワー変化とスペクトル変化との複合
パラメータを用いることにより、パワー変化やスペクト
ル変化等の特徴量のみを用いるよりも、より的確に安定
して平均音節長を推定することができるのである。
次に、上記音節区間抽出部5による音節区間切り出しに
ついて、具体的な音声入力例をあげて説明する。
第3図はマイクlに向かって/りんご/と最適な発声速
度で発声した際のパワー変化を示す。図中において、パ
ワー変化図の下部上段(a)には従来法による平均音節
長(予めセットされた値)とその平均音節長によって求
められた音節区間切り出し結果を示し、パワー変化図の
下部下段(b)には本実施例による平均音節長(上述の
ように平均音節長推定部4によって人力音声毎に算出し
た値)とその平均音節長によって求められた音節区間切
り出し結果を示す。
まず、特徴抽出部3によって抽出された特徴量に基づい
て音節境界候補C,D、E、F、Gを検出する。そして
、上記検出された音節境界候補C,D。
E、F、Gの中から上記特徴量の変化(第3図に示すパ
ワーの急激な変化やスペクトル変化等)に基づいて音節
境界位置C,F、Gを確定する。このようにして確定さ
れた音節境界位置を垂直な実線で示す。また、上記特徴
量のみでは確定できなかった音節境界候補り、Eを破線
で示す。
次に、上述のように平均音節長推定部4によって算出さ
れた平均音節長に基づいて、上記音節境界位置として確
定されなかった音節境界候補り。
Eを対象として音節境界位置の確定を行う。その結果、
従来法による予めセットされた平均音節長に基づいてた
場合には第3図(a)のように音節境界位置Eが確定さ
れる。また、本実施例による人力音声毎に決定された平
均音節長に基づいた場合には第3図(b)のように音節
境界位置Eが確定されろ。
この場合には、話者の発声速度が最適な速度であるため
、従来法によって予めセットした平均音節長と本実施例
によって入力音声毎に推定した平均音節長とはほぼ同じ
である。しかも、いずれの平均音節長も実際の音節長と
ほぼ同じである。したがって、いずれの平均音節長に基
づいて確定された音節境界位置も同じ音節境界位置Eと
なるのである。
第4図は/みかん/と通常の約2倍の発声速度で発声し
た際のパワー変化を示す。図中において、パワー変化図
の下部上段(a)には第3図と同ように従来法による平
均音節長(予めセットされた値)とその平均音節長によ
って求められた音節区間切り出し結果を示し、パワー変
化図の下部下段(b)には本実施例による平均音節長(
平均音節長推定部4によって人力音声毎に算出した値)
とその平均音節長によって求められた音節区間切り出し
結果を示す。
第3図と同様に、特徴抽出部3によって抽出された特徴
量に基づいて音節境界候Nl1H,[、J 、KLを検
出する。そして、上記検出された音節境界候補H,I、
J、に、Lの中から上記特徴量の急激な変化に基づいて
確定された音節境界位置H,1、JLを垂直な実線で示
す。また、上記特徴mのみでは確定できなかった音節境
界候補Kを破線で示す。
次に、平均音節長推定部4によって算出された平均音節
長に基づいて、上記音節境界位置として確定されなかっ
た音節境界候補Kを対象として音節境界位置の確定を行
う。その結果、従来法による予めセットされた平均音節
長に基づいた場合には第4図(a)のように音節境界候
補には音節境界位置として確定されない。また、本実施
例による人力音声毎に決定された平均音節長に基づいた
場合には第4図(b)のように音節境界候補Kが音節境
界位置として確定されるのである。
この場合には、話者の発声速度が通常の速度の約2倍で
あるため、従来法によって予めセントした平均音節長は
実際の入力音声の音節長の約2倍となってしまう。その
ため、音節境界候補には音節境界として確定されないの
である。ところが、本実施例によって入力音声毎に推定
した平均音節長は実際の音節長とほぼ同じである。その
ため、音節境界候補Kが音節境界位置として確定される
のである。
したがって、従来例においては2音節と誤って切り出さ
れる音節が、本実施例によれば正しく/み/、/か/お
よび/ん/と3音節に切り出されるのである。
上述のことは、従来例における平均音節長として過去に
音声入力された複数単語から得られた平均音節長を用い
た場合にし同様のことが生じる。
要は、人力された音声毎に平均音節長を求めなければ、
話者の発声速度が変化した場合には、必ず平均音節長と
実際に入力される音声の音節長とに差が生じて、正しく
音節区間が切り出されない場合が生じるのである。
上記実施例においては、平均音節長推定部4によって入
力音声毎に推定された平均音節長のみによって音節境界
位置を確定するようにしている。
しかしながら、この発明はこれに限定されるものではな
い。すなわち、実際の入力音声の認識において、人力音
声毎に平均音節長を推定することが実際上困難な場合が
生じる。このような場合には、過去に音声入力された複
数単語から得られた平均音節長を用いて音節境界位置を
確定し、再度人力音声毎に平均音節長を推定することが
可能になった場合には、上記平均音節長推定部4によっ
て平均音節長を推定するようにしてもよい。
〈発明の効果〉 以上より明らかなように、この発明の音声認識装置は、
音節長推定部および音節区間抽出部を有して、入力され
た音声から抽出された特徴量に基づいて、人力音声毎に
音節区間推定用パラメータを算出し、この音節区間推定
用パラメータに基づいて入力音声毎に平均音節長を推定
し、ト記推定された平均音節長と上記特徴量に基ついて
音節区間を切り出すようにしたので、話者の発声速度の
変化に影響されずに正しく音節を認識することができる
また、この発明の音声認識装置は、音節長推定部によっ
て、特徴mのパワー変化とスペクトル変化とを複合した
音節区間推定用パラメータを人力音声毎に算出して、こ
の音節区間推定用パラメータに基づいて人力音声毎に平
均音節長を推定するので、的確に音節区間を切り出すこ
とができる。
また、この発明の音声認識装置は、子音から母音への渡
りにおいて値が他の箇所よりも大きくなる音節区間推定
用パラメータを入力音声毎に算出するようにしたので、
より的確に安定して平均音節長を推定して音節を認識す
ることができる。
【図面の簡単な説明】
第1図はこの発明の音声認識装置のブロック図、第2図
は実際の入力音声における音節区間推定用パラメータの
変化の一例を示す図、第3図および第4図は上記音声認
識装置による音節認識結果の説明図である。 l・・マイク、2・・・増幅器、3・・・特徴抽出部、
4・・平均音節長推定部、5・・・音節区間抽出部、6
・・・類似度計算部、7・・・標準パターンメモリ、訃
・CP U、9・インターフェース部。

Claims (3)

    【特許請求の範囲】
  1. (1)入力された音声から特徴量を抽出し、この抽出さ
    れた特徴量に基づいて音節を切り出し、音節単位で類似
    度計算を行って音節を認識する音声認識装置において、 上記入力された音声から抽出された特徴量に基づいて、
    入力音声毎に音節区間推定用パラメータを算出し、この
    音節区間推定用パラメータに基づいて入力音声毎に平均
    音節長を推定する音節長推定部と、 この推定された平均音節長と上記特徴量に基づいて音節
    区間を切り出す音節区間抽出部を備えたことを特徴とす
    る音声認識装置。
  2. (2)上記音節長推定部は、上記入力された音声毎に抽
    出された特徴量のパワーとスペクトルとを用いて、パワ
    ー変化とスペクトル変化とを複合した音節区間推定用パ
    ラメータを入力音声毎に算出する特許請求の範囲第1項
    記載の音声認識装置。
  3. (3)上記音節長推定部において算出される上記パワー
    変化とスペクトル変化とを複合した音節区間推定用パラ
    メータは、子音から母音への渡りにおいて値が他の箇所
    よりも大きくなる特許請求範囲第2項記載の音声認識装
    置。
JP63240250A 1988-09-26 1988-09-26 音声認識装置 Pending JPH0289099A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63240250A JPH0289099A (ja) 1988-09-26 1988-09-26 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63240250A JPH0289099A (ja) 1988-09-26 1988-09-26 音声認識装置

Publications (1)

Publication Number Publication Date
JPH0289099A true JPH0289099A (ja) 1990-03-29

Family

ID=17056694

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63240250A Pending JPH0289099A (ja) 1988-09-26 1988-09-26 音声認識装置

Country Status (1)

Country Link
JP (1) JPH0289099A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010084881A1 (ja) * 2009-01-20 2010-07-29 旭化成株式会社 音声対話装置、対話制御方法及び対話制御プログラム
JP2013156544A (ja) * 2012-01-31 2013-08-15 Brother Ind Ltd 発声区間特定装置、音声パラメータ生成装置、及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010084881A1 (ja) * 2009-01-20 2010-07-29 旭化成株式会社 音声対話装置、対話制御方法及び対話制御プログラム
JP5281659B2 (ja) * 2009-01-20 2013-09-04 旭化成株式会社 音声対話装置、対話制御方法及び対話制御プログラム
JP2013156544A (ja) * 2012-01-31 2013-08-15 Brother Ind Ltd 発声区間特定装置、音声パラメータ生成装置、及びプログラム

Similar Documents

Publication Publication Date Title
JPH0222960B2 (ja)
JPH0289099A (ja) 音声認識装置
Salam et al. Speech segmentation using divergence algorithm with Zero Crossing property
Gulzar et al. An improved endpoint detection algorithm using bit wise approach for isolated, spoken paired and Hindi hybrid paired words
JPH0343639B2 (ja)
JP3411074B2 (ja) 母音区間検出装置及び母音区間検出方法
KR100349656B1 (ko) 다수의 하위 음성검출 시스템을 이용한 음성검출 장치 및그 방법
JPS6120879B2 (ja)
JPS63161499A (ja) 音声認識装置
Nair et al. Comparison of Isolated Digit Recognition Techniques based on Feature Extraction
JPS58176699A (ja) 音声標準パタ−ン登録方式
JPH0564800B2 (ja)
JPH0289097A (ja) 音節パターン切り出し方式
JPS61183698A (ja) 音声認識装置
JPS6237797B2 (ja)
JPS6391700A (ja) 音声認識装置
JPH0316038B2 (ja)
JPS6258515B2 (ja)
JPS63220200A (ja) 母音切出し装置
JPS63155196A (ja) 無声音検出方法
JPH0469959B2 (ja)
JPS6310437B2 (ja)
JPS61123892A (ja) 音声認識装置
Jolad et al. INTERNATIONAL JOURNAL OF ENGINEERING SCIENCES & RESEARCH TECHNOLOGY DIFFERENT FEATURE EXTRACTION TECHNIQUES FOR AUTOMATIC SPEECH RECOGNITION: A REVIEW
JPS6355600A (ja) 音声認識装置