JPS5958498A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS5958498A
JPS5958498A JP17163482A JP17163482A JPS5958498A JP S5958498 A JPS5958498 A JP S5958498A JP 17163482 A JP17163482 A JP 17163482A JP 17163482 A JP17163482 A JP 17163482A JP S5958498 A JPS5958498 A JP S5958498A
Authority
JP
Japan
Prior art keywords
phoneme
similarity
vowel
section
semi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP17163482A
Other languages
English (en)
Inventor
藤井 諭
二矢田 勝行
郁夫 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP17163482A priority Critical patent/JPS5958498A/ja
Publication of JPS5958498A publication Critical patent/JPS5958498A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は人間によって発声された音声信号を自動的に認
識する音声認識装置に関するものである。
従来例の構成とその問題点 従来研究あるいは発表されている音声自動認識システム
の動作原理としてはパタンマッチング法が多く採用され
ている。この方法は認識される必要がある全種類の単語
に対して標準パターンをあらかじめ記憶しておき、入力
される未知の入力パターンと比較することによって一致
の度合(以下類似度と呼ぶ)を計算し、最大一致が得ら
れる標準パターンと同一の単語であると判定するもので
ある。このパタンマッチング法では認識されるべき全て
の単語に対して標準パターンを用意しなければならない
ため、発声者が変った場合には新しく標準パターンを入
力して記憶させる必要がある。
従って日本全国の都市名のように数百種類以上の単語を
認識対象とするような場合、全種類の単語を発声して登
録するには膨大な時間と労力を必要とし、又登録に要す
るメモリー容量も膨大になることが予想される。さらに
入カバターンと標準パターンのパタンマッチングに要す
る時間も単語数が多くなると長くなってしまう欠点があ
る。
これに対して、入力と音声を音素単位に分けて音素の組
合せとして認識し(以下音素認識と呼ぶ)音素単位で表
記された単語辞書との類似度を求める方法は単語辞書に
要するメモリー容量が大巾に少なくて済みパタンマッチ
ングに要する時間が短くでき、辞書の内容変更も容易で
あるという特徴を持っている。この方法の例は「音声ス
ペクトルの概略形とその動特性を利用した単語音声認識
システム」三輪他,日本音響学会誌34(1978)に
述べてある。
この方法における学語認識システムのブロック図を第1
図に示す。まず、あらかじめ多数話者の音声を10ms
の分析区間毎に音響分析部1によってフィルタバンクを
用いて分析し、得られたスペクトル情報をもとに特徴抽
出部2によって特徴パラメータを求める。この特徴−パ
ラメータから|a|,|o|等の母音や、|m|,|b
|等の子音に代表される音素毎又は音素グループ毎に標
準パターンを作成して標準パターン登録部5に登録して
おく。次に、入力された不特定話者の音声を同様に分析
区間毎に音響分析部1によって分析し、特徴抽出部2に
よって特徴パラメータを求める。この特徴パラメータと
標準パターン登録部5の標準パターンを用いてセグメン
テーション部3において母音と子音の区切り作業(以下
セグメンテーションと呼ぶ)を行なう。この結果をもと
に音素判別部4において、5の標準パターンと照合する
ことによって、最も類似度の高い標準パターンに該当す
る音素をその区間における音素と決定する。最後に、こ
の結果作成した音素の時系列(以下音素系列と呼ぶ)を
単語認識部6に送り、同様に音素系列で表現された単語
辞書7と最も類似度の大きい項目に該当する単語を認識
結果として出力する。
第2図に従来の音声認識装置のブロック図を示す。マイ
ク20に入力された音声信号は前処理部21を経て線形
予測部(LPC部)22に入力され線形予測係数が求め
られる。求められた線形予測係数は帯域フィルタ8に送
られ、29チヤンネルフイルタ出力(スペクトル)を算
出し、その結果をスペクトルモーメント算出部9に送る
。スペクトルモーメント算出部9にてスペクトルを正規
化し、そのスペクトルパワーをPiとし、次に示す(1
),(2)式を用いてスペクトルの低域モーメントG,
高域モーメントHを算出する。スペクトルの低域モーメ
ントG,高域モーメントHは次の式で計算する。
ここでPiはiチャネルにおける正規化したスペクトル
パワーである。その結果をいき値判定部10に送り、い
き値の判定を行う。
第3図aに半母音|y|についてその判定の仕方を示す
。例として|aya|と発声した場合について説明する
。図において、曲線は前記高域モーメントHを横軸時間
で示したもので、Aが極大点Bが極小点,C,Dが変曲
点である。ここでC〜B間で前記半母音|y|の候補(
yで示す)の数があるいき値以上を満足し、A点の値H
Aがあるいき値以上を満足し、B点の値HBがあるいき
値以上を満足し、かつHA−HBがあるいき値以上を満
足するか否かを第2図の第1のいき値判定部10で決定
する。判定基準となるこれらいき値は多数話者の統計的
データに基づき予め決定しておく。
一方帯域フィルタ8で求めたスペクトルを候補数算出部
11に転送し、分析区間毎にスペクトルのピークを抽出
し、ピークの周波数位置を、予め多数話者の発声した音
声から求められ、標準パターン登録部12に登録された
半母音|y|の標準パターンにあてはめて半母音候補の
数を数える。
その数を第2のいき値判定部13に送り、前記第1のい
き値判定部10と同様の方法で処理する。
もう一つの半母音|w|については、第3図すに|aw
a|と発声した例で示すが、半母音|y|と類似の方法
で処理される。図において曲線は前記低域モーメントG
を時間軸上に示したもので、Aが極小点,Bが極大点,
C,Dが変曲点である。
ここでC〜D間で前記半母音|w|の候補(wで示す)
の数がいき値以上を満足することを第1の条件とする。
又この場合、A点の値GA,B点の値GB,GA−GB
の値,高域モーメントの極大点Eの値HE,極小点下の
値HFにもいき値を設けてこれらが全て満足するように
第1のいき値判定部10で判定する。一方第2のいき値
判定部13には、予め標準パターン登録部12に登録さ
れた半母音|w|の標準パターンを使用して教えられた
半母音候浦の数が転送され、判定される。
次に第1のいき値判定部10と第2のいき値判定部13
の結果より音素決定部14にて音素決定を行う。
この従来の方法は半母音を発声した時に後続母音に向っ
て変化するホルマントの移動をスペクトルモーメントと
いう概念で時間軸上の極大極小変化としてとらえるもの
であり、半母音を比較的よくとらえることができるが、
次のような欠点を有する。
1 29チャネルの多数の帯域フィルタを要し、かつG
Hの演算式が複雑である。
2 いき値が多いため、多数回の判定を要する。
3 前記又はwの候補をスペクトルのピーク周波数によ
って一義的に決めて、その候補の数にいき値を設ける方
法であり、誤差が大きいことにより精度が悪い。
発明の目的 本発明は前記従来法の例で述べた欠点を除去し、半母音
,子音の認識について簡単な構成でかつ単純な処理で精
度の高いセグメンテーションと変素判別を行う音声認識
装置を提供することを目的とする。
発明の構成 本発明は上記目的を達成するために音声入力を分析区間
毎にスペクトル分析し、その時間変化の特徴を算出する
スペクトルモーメント算出部と、あらかじめ求めてある
音素の標準パタンに対する類似度を算出する類似度計算
部と、前記スペクトルモーメント算出部と類似度計算部
で算出された結果を複数次元の音素判別図にあてはめる
ことによって該当する音素か否かを判定する音素判別部
とを少なくとも有するように構成されたもので、帯域フ
ィルタの構成を3チャネル程度にすることによって構成
を簡単化し、かつスペクトルモーメントの演算式を簡略
化し、さらにスペクトルモーメントの極大値と極小値の
差分のみ用いることによって判定を簡単化している。
また、分析区間毎にその音素か否かを決めてその数でそ
の音素に該当するか否かを決定する従来の方法に変えて
、標準パタンに対する類似度を用いることによりパラメ
ータの精度を向上させている。
さらに求めた上記スペクトルモーメントの差分値のみを
使用し、その差分値と類似度を変素判別図にあてはめる
という1回の作業変素判別ができ、多数回の複雑な判定
が不要な構成としている。
実施例の説明 第4図に本発明の音声認識装置の一実施例のブロック図
を示す。
図において20がマイク、21が前処理部でA/D変換
とプリエンファシスを行う。15が3チャネル程度の帯
域フィルタ、16がスペクトルモーメント算出部、22
が線形予測部(LPC部)17が類似度計算部、18が
標準パタン登録部、19が判別図で構成される音素判定
部である。
本実施例では第2図に示した従来の装置に比べ、いき値
判定部10,13をなくし、多チャンネル帯域フィルタ
15を簡単化し、かつスペクトルモーメント算出部16
の内容を簡略化し、候補数算出部11を類似度計算部1
7に置きかえて精度向上をはかつている。
ここでは半母音の具体的な認識を例にとって説明する。
まず標準パターン登録部18に登録される標準パターン
の作成法について述べる。
あらかじめ多数話者の発声した単語音声を|a|,|o
|等の5母音と鼻音等に、音素毎の区切りとラベル付け
を行っておく。次に前処理部21及び線形予測部22に
よりこの単語音声の中で必要とする音楽の区間を10m
s程度の分析区間毎に次数15程度の線形予測分析を行
い、LPCケプストラム係数を算出する。
窒素iにおけるLPCケプストラム係数をCi(n)と
すると(nは音素iの出現番号),LPCケプストラム
係数の平均値miは、 ここでNiは音素iの出現数である。音素iのLPCケ
プストラム係数の共分散行列をWiとすると、 ここでtは転置行列であることを示す。
3,4で求められた標準パターンは、標準パターン登録
部18に登録される。
次にマイク20から入力された未知な信号について前処
理部21及び線形予測部22を用いてLPCケプストラ
ム係数Cxを求める。
入力音声のLPCケプストラム係数Cxの音素iに対す
る確率密度関数Piは次式で表わされる。
ここでwi−1は共分散行列wiの逆行列,Lは次数で
ある。5式におけるmi,wi−1,|wi|が標準パ
タンに相当するものであり、あらかじめ音声毎に求めて
おく。
上記(5)式を用い、類似度計算部17により各音素毎
にPiを求めこれより類似度を求める。
一方これと並行して、入力音声のスペクトル分析を行な
う。分析には3チャネルの帯域フィルタ15を用い、例
えば低域パワーPLを250〜600Hz,中域パワー
PMを600〜1500Hz,高域パワーPHを150
0〜4000Hzのそれぞれの帯域で求める。
これを用いてスペクトルモーメント算出部16で低域モ
ーメントG,中域モーメントMを次式にて求める。
G=2log10PM−log10PL−log10P
H (6)M=log10PM−log10PL (7
)Gは半母音|y|を検出するためのもので、例えば|
aya|と発声した時と、|y|の区間で第1ホルマン
トが低域に移動してPLが大きくなり、第2ホルマント
は高域に移動することによってPHも大きくなり、PM
は減少し、後続母音によって再びもとの位置にもどるこ
とによりGは時間的に極小点を形成する。
Mは半母音|w|を検出するためのもので、例えば|a
wa|と発声した時に|w|の区間で第1ホルマントが
低域に移動してPLが大きくなり、第2ホルマントは中
域の中心に移動し、後続母音では第1ホルマントが再び
もとにもどることによりMが極小点を形成する。
6,7式に基づき、スペクトルモーメント算出部16で
は、スペクトルモーメントの差分値を求める。
このようにして得られたスペクトルモーメントの差分値
と、前述の類似度を用いて音素判定部19で音素の判定
を行う。
まず半母音|y|の検出について述べる。
第5図は、半母音|y|の検出方法を示したもので低域
モーメントGの極小点Aにおける値GAと、極大点Bに
おける値GBの差GB−GAをスペクトルモーメント算
出部16で求め、その結宅を音素判別部19に転送し、
第6図に示す判別図の横軸にあてはめる。
一方類低度計算部17により類似度を求める。半母音|
y|においては声道形が母音|i|又は|e|に近くな
るため、5式で求めた類似度を各母音に対してPA,P
O,PU,PI,PE,PN(撥音)とすると、フレー
ム番号iでの類似度(yi)は、で表わされる。
そこで第5図に示す半母音区間に相当するC〜D間の類
似度yを8式で求める。
この結果を音素判別部19に転送し、第6図に示す判別
図の縦軸にあてはめる。
音素判別部19では第6図に示す判別図を用いスペクト
ルモーメント算出部16からのモーメントの差分値と、
類似度計算部17からの上記8式で示される類似度とを
用いて、半母音|y|か否かの判定を行う。
同様に、半母音|w|の検出方法を第7図に示す。パラ
メータMはA点で極小点、3点で極大点を形成し、MB
−MAを第8図の判別図横軸にあてはめる。
一方、|w|は声道形が母音|o|又は母音|u|に近
くなるため、類似度(w)を次式で割算する。
(9)式の値を判別図の縦軸にあてはめるこによって半
母音|w|か否かを判定する。
このように本実施例では分析区間毎にその音素か否かを
決定してその個数をいき値で判定する従来法に代えて、
標準パタンに対する類似度を用いることにより精度を向
上できる。
また、多数個のいき値による複雑な判定をなくし、求め
たスペクトルモーメント差分値と、類似度を判別図にあ
てはめるのみで音素判別が効率的に行える。
本実施例を成人男子10名の発声し約2100単語に適
用した場合、他の音素への付加数を考慮した荷重認識率
は、半母音|y|で51.6%で従来の方法に比して約
17%上まわる効果がある。
また、半母音|w|については荷重認識率41.0%で
従来の方法と同様の効果を得られる。
本実施例により半母音又は子音の認識を行うと帯域フィ
ルタを3チャネル程度に簡単化すると共にパラメータの
演算を簡略化し、多数のいき値による複雑な判定をなく
して、音素判別図にあてはめる作業1回のみで音素認識
ができる簡単な構成とすることができる。
発明の効果 本発明は音声入力を分析区間毎にスペクトル分析し、そ
の時間変化の特徴を算出するスペクトルモーメント算出
部と、あらかじめ求めてある音素の標準パタンに対する
類似度を算出する類似度計算部と、前記スペクトルモー
メント算出部と類似度計算部で算出された結果を複数次
元の音素判別図にあてはめることによって該当する音素
か否かを判定する音素判別部とを少なくとも有するよう
に構成されたもので、簡単な構成かつ単純な処理で精度
の高いセグメンテーションと音素判別を行うことができ
る利点を有する。
【図面の簡単な説明】
第1図は従来の音声認識システムの機能ブロック図、第
2図は従来の音声認識装置の構成を示すブロック図、第
3図aは従来法により半母音|y|を検出する方法を示
す図、第3図bは従来法により半母音|w|を検出する
方法を示す図、第4図は本発明の一実施例である音声認
識装置の構成を示すブロック図、第5図は本発明による
半母音|y|を検出する方法を示す図、第6図は本発明
による半母音|y|の判別図、第7図は本発明による半
母音|w|を検出する方法を示す図、第8図は本発明に
よる半母音|w|の判別である。 15……帯域フィルタ、16……スペクトルモーメント
算出部、17……類似度計算部、18……標準パターン
登録部、19……音素判別部、20……マイク、21…
…前処理部、22……線形予測部。 代理人の氏名 弁理士 中尾 敏男 ほか1名!@3図 第5図 第6図 (iB −(xA

Claims (1)

    【特許請求の範囲】
  1. 音声入力を分析区間毎にスペクトル分析し、その時間変
    化の特徴を算出するスペクトルモーメント算出部と、あ
    らかじめ求めてある音素の標準パタンに対する類似度を
    算出する類似度計算部と、前記スペクトルモーメント算
    出部と類似度計算部で算出された結果を複数次元の音素
    判別図にあてはめることによって該当する音素か否かを
    判定する音素判別部とを有する音声認識装置。
JP17163482A 1982-09-29 1982-09-29 音声認識装置 Pending JPS5958498A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP17163482A JPS5958498A (ja) 1982-09-29 1982-09-29 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17163482A JPS5958498A (ja) 1982-09-29 1982-09-29 音声認識装置

Publications (1)

Publication Number Publication Date
JPS5958498A true JPS5958498A (ja) 1984-04-04

Family

ID=15926823

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17163482A Pending JPS5958498A (ja) 1982-09-29 1982-09-29 音声認識装置

Country Status (1)

Country Link
JP (1) JPS5958498A (ja)

Similar Documents

Publication Publication Date Title
US8271283B2 (en) Method and apparatus for recognizing speech by measuring confidence levels of respective frames
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JPS6336676B2 (ja)
JPH0352640B2 (ja)
CN108091340B (zh) 声纹识别方法、声纹识别***和计算机可读存储介质
Sumithra et al. A study on feature extraction techniques for text independent speaker identification
Bharali et al. Speech recognition with reference to Assamese language using novel fusion technique
US5487129A (en) Speech pattern matching in non-white noise
Krishna et al. Emotion recognition using dynamic time warping technique for isolated words
Unnibhavi et al. LPC based speech recognition for Kannada vowels
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Gaudani et al. Comparative study of robust feature extraction techniques for ASR for limited resource Hindi language
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
JP3493849B2 (ja) 音声認識装置
Lingam Speaker based language independent isolated speech recognition system
JPS5958498A (ja) 音声認識装置
Mengistu et al. Text independent amharic language dialect recognition using neuro-fuzzy gaussian membership function
JPH054678B2 (ja)
JPH0323920B2 (ja)
Balasubramaniyam et al. Feature based Speaker Embedding on conversational speeches
KR20040100592A (ko) 이동 기기에서의 실시간 화자독립가변어 음성인식 방법
JPS6336678B2 (ja)
JPH1165589A (ja) 音声認識装置
Sahu et al. Odia isolated word recognition using DTW
JPH0316040B2 (ja)