JP2954591B2 - 音声の特徴抽出方法 - Google Patents

音声の特徴抽出方法

Info

Publication number
JP2954591B2
JP2954591B2 JP63183905A JP18390588A JP2954591B2 JP 2954591 B2 JP2954591 B2 JP 2954591B2 JP 63183905 A JP63183905 A JP 63183905A JP 18390588 A JP18390588 A JP 18390588A JP 2954591 B2 JP2954591 B2 JP 2954591B2
Authority
JP
Japan
Prior art keywords
feature
degree
discriminative
representing
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP63183905A
Other languages
English (en)
Other versions
JPH0232400A (ja
Inventor
憲治 坂本
耕市 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Consejo Superior de Investigaciones Cientificas CSIC
Original Assignee
Consejo Superior de Investigaciones Cientificas CSIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Consejo Superior de Investigaciones Cientificas CSIC filed Critical Consejo Superior de Investigaciones Cientificas CSIC
Priority to JP63183905A priority Critical patent/JP2954591B2/ja
Publication of JPH0232400A publication Critical patent/JPH0232400A/ja
Application granted granted Critical
Publication of JP2954591B2 publication Critical patent/JP2954591B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 <産業上の利用分野> この発明は、入力音声から人間の調音に関する特徴量
を抽出することによって、話者によらず安定した高認識
率の音声認識を可能にする音声の特徴抽出方法に関す
る。
<従来の技術> 従来より、音声認識装置によって入力音声を認識する
場合は次のようにして行っている。すなわち、入力音声
を幾つかのBPF(帯域ろ波器)に通してその出力値を入
力音声の特徴量として抽出する音声特徴抽出装置によっ
て、認識対象の単語の特徴量を予め抽出し、この特徴量
を時系列の形で標準パターンとして幾つか格納してお
く。そして、未知の音声が入力されると、上述のように
して未知の入力音声の特徴量を抽出し、この未知単語の
特徴量と上記標準パターンの特徴量との類似性を調べ、
この類似性に基づいて単語を識別判定するのである。
その際に、上記類似性は上記未知単語の特徴量の時系
列のパターンと上記標準パターンとの距離で表され、そ
の距離尺度としては各BPFの出力値の対数の差またはそ
の二乗値を全帯域に渡って加算(平均)した値を用いる
ことが多い。また、上記特徴量としては、ケプストラム
係数や各BPFの出力のZCC(零交差回数)あるいはZCI
(零交差間隔)の値が用いることもある。
<発明が解決しようとする課題> しかしながら、上記従来の音声認識装置は、入力音声
のスペクトルに直接関係した特徴量を用いて、標準パタ
ーンと入力音声の特徴量のパターンとの類似度(距離尺
度)を各BPFの出力値の差等で求めるようにしているの
で、話者の生理的差異(声道長の差等)によって、同じ
単語を発生しても生成させる音声のスペクトルは異なる
場合が多く、したがって、誤認識やリジェクトされるこ
とがあり、高い認識性能が得られないという問題があ
る。
このようなことは、上記特徴量として各BPFの出力値
をそのまま用いているため、話者によるスペクトルの変
動に影響されて、各音韻を識別するのに必要な本質的な
情報を抽出しにくいためである。すなわち、音韻を効果
的に識別するためには、各BPFの出力を人間の調音に関
連した特徴量に変換して用いることが重要である。
そこで、この発明の目的は、話者によるスペクトルの
変動に影響されずに、音声を安定して正しく認識するこ
とを可能にする音声の特徴抽出方法を提供することにあ
る。
<課題を解決するための手段> 上記目的を達成するため、請求項1に係る発明は、入
力音声を周波数分析し,得られたスペクトル成分から音
声の特徴量を抽出する音声の特徴抽出方法であって、上
記周波数分析によって得られたスペクトル成分に基づい
て,摩擦性を表す弁別的特徴の度合いを表す弁別的特徴
量を求める第1のステップと、上記周波数分析によって
得られたスペクトル成分に基づいて,有声を表す弁別的
特徴の度合いを表す弁別的特徴量を求める第2のステッ
プと、上記周波数分析によって得られたスペクトル成分
に基づいて,鼻音化によるスペクトルの平坦性を表す弁
別的特徴の度合いを表す弁別的特徴量を求める第3のス
テップと、上記周波数分析によって得られたステップ成
分に基づいて,バズ性を表す弁別的特徴の度合いを表す
弁別的特徴量を求める第4のステップと、上記周波数分
析によって得られたスペクトル成分に基づいて,中周波
数帯域のスペクトルの平坦性を表す弁別的特徴の度合い
を表す弁別的特徴量を求める第5のステップと、上記周
波数分析によって得られたスペクトル成分に基づいて,
スペクトルの分散性を表す弁別的特徴の度合いを表す弁
別的特徴量を求める第6のステップを備えて、人間の調
音に関連する音声の特徴量を抽出することを特徴として
いる。
<作用> 音声が入力され、この入力された音声が周波数分析さ
れる。そうすると、上記周波数分析によって得られたス
ペクトル成分に基づいて、第1のステップでは、摩擦性
を表す弁別的特徴の度合いを表す弁別的特徴量が、その
弁別的特徴に応じた手順によって求められる。以下、同
様にして、第2のステップでは有声を表す弁別的特徴の
度合いを表す弁別的特徴量が求められ、第3のステップ
では鼻音化によるスペクトルの平坦性を表す弁別的特徴
量が求められ、第4のステップではバズ性を表す弁別的
特徴量が求められ、第5のステップでは中周波数帯域の
スペクトルの平坦性を表す弁別的特徴量が求められ、第
6のステップではスペクトルの分散性を表す弁別的特徴
量が求められる。こうして、弁別的特徴量という人間の
調音に関連した上記6種の特徴量が抽出される。
<実施例> 以下、この発明を図示の実施例により詳細に説明す
る。
第1図はこの発明に係る音声認識装置のブロック図で
ある。マイクロホン1から入力された音声信号はアンプ
2によって増幅され、特徴抽出部3に入力される。上記
特徴抽出部3は複数のチャンネル(以下、ch.と言う)
からなる(本実施例では16ch.からなる)BPF群で構成さ
れる。上記各BPFの中心周波数は、第1ch.は300Hzであり
第16ch.は3400Hzであり、その間はメル等間隔になるよ
うに設定されいる。第2図に各BPFの周波数特性の概形
を示す。
上記のように構成された特徴抽出部3に入力された音
声信号は、各BPFによって単位時間(フレーム)毎に特
徴量としてのパワーが計算される。その際に、上記パワ
ーの代わりにZCCやZCIを特徴量として用いてもよい。上
記各BPF毎に得られた特徴量は入力音声のスペクトル概
形に相当している。以下、この特徴量をhi(i=1〜1
6:ch.番号)とする。このようにして、各BPF毎に得られ
た特徴量は弁別的特徴抽出部4に入力される。弁別的特
徴量抽出部4はこの発明における主要部分であり、後に
詳述するようにして上記特徴量hiから人間の調音に関連
した特徴である弁別的特徴の度合いを表す弁別的特徴量
を抽出する部分である。
上記弁別的特徴量抽出部4によって各フレーム毎に求
められた入力音声の弁別的特徴量の時系列は単語認識部
5に入力され、標準パターン格納部6に格納されている
標準パターンの弁別的特徴量の時系列との類似度が計算
される。その際に、上記類似度計算はDPマッチング法等
によって行われる。そして、上記類似度計算の結果に基
づいて認識された音声入力単語が結果表示部7に表示さ
れる。
次に、上記弁別的特徴の意味およびその度合いを表す
弁別的特徴量の算出方法について詳細に説明する。
上記弁別的特徴は人間の調音に関係した特徴であり、
次のような6つの種類がある。
“strident"は強い摩擦性を表す弁別的特徴であり、
高周波数帯域(2500Hz)にエネルギーが集中している度
合いによって判定できる。
“voiced"は声帯振動が存在することを表す弁別的特
徴であり、120Hz〜750Hzの帯域におけるエネルギーの存
在でほぼ判定できる。
“nasal"は鼻音化の度合いを表す弁別的特徴であり、
呼気が鼻腔にも流れることにより、極−零対によって第
1ホルマント領域のスペクトルが平坦になる度合いによ
って判定できる。
“murmur/buzz"はバズ性の度合いを表す弁別的特徴で
あり、低周波数帯域にエネルギーが集中している度合い
によって判定できる。
“diffuse"はスペクトルが比較的平坦になっているこ
とを表す弁別的特徴であり、中周波数帯域〜高周波数帯
域(800Hz〜)のスペクトルの平坦さの度合いで判定で
きる。
“compact"は中周波数帯域(800Hz〜2500Hz)に目立
つピークが存在するか否かを表す弁別的特徴であり、中
周波数帯域にエネルギーが集中している度合いで判定で
きる。
一般に、弁別的特徴は[+/−]の2値、すなわち0
か1の値で表すことが普通である。しかし、この発明で
は0から1の中間の値を取るようにして、実際の音声の
連続的な変化に対して単語識別の精度を上げるようにし
ている。第3図は上記夫々の弁別的特徴とその弁別的特
徴量の増加の要因となる音韻との対応を示す。
以下、上記各弁別的特徴量の算出方法について、第4
図〜第9図のフローチャートにしたがって説明する。
第4図(a)は弁別的特徴“strident"の度合いを求
めるフローチャートである。以下、このフローチャート
にしたがって弁別的特徴“strident"の度合いの算出方
法について詳細に説明する。
ステップS1で、弁別的特徴“strident"の度合いを表
す弁別的特徴量“RSTR"が次式で算出される。
ここで、分子は高周波数帯域に重みを付けたエネルギ
ー量を表し、弁別的特徴量“RSTR"は高周波数帯域にお
けるエネルギーの集中の度合いを表す。上記wiは各帯域
における重み係数であり、その値は第4図(b)に示す
通りである。すなわち、高周波数帯域における重み付け
を大きくして、高周波数帯域におけるエネルギーの集中
を効率良く判定するようにしている。また、α1は定数
である。
ステップS2で、上記ステップS1において算出された弁
別的特徴量“RSTR"が負の値であるか否かが判別され
る。その結果、負の値であればステップS3に進み、そう
でなければ弁別的特徴“strident"の度合い算出動作を
終了する。
ステップS3で、上記ステップS1において算出された弁
別的特徴量“RSTR"の値を0にして弁別的特徴“striden
t"の度合い算出動作を終了する。
第5図は弁別的特徴“voiced"の度合いを求めるフロ
ーチャートである。以下、このフローチャートにしたが
って弁別的特徴“voiced"の度合い算出法について詳細
に説明する。
ステップS21で、第1ch.〜第3ch.の特徴量hiの累積値
が求められ、その値が閾値θvよりも大きいか否かが判
別される。
そして、その結果大きければステップS24に進み、そ
うでなければステップS22に進む。
これは、弁別的特徴“voiced"は120Hz〜750Hzの周波
数帯域でのエネルギーの存在で判定できることに基づ
く。
ステップS22で、上記ステップS21において求められた
第1ch.〜第3ch.の特徴量hiの累積値の全周波数帯域にお
ける特徴量hiの累積値に対する割合が算出され、その値
が閾値θrvより大きいか否かが判別される。
そして、その結果大きければステップS24に進み、そ
うでなければステップS23に進む。
これは、上記ステップS21において第1ch.〜第3ch.の
特徴量hiの累積値が閾値θvよりも小さいと判別された
値でも、全周波数帯域における特徴量hiの累積値に対す
る割合がθrv以上であれば、第1ch.〜第3ch.の周波数帯
域において声帯振動が存在すると判定するためである。
ステップS23で、声帯振動が存在しないとして、弁別
的特徴“voiced"の度合いを表す弁別的特徴量“RVOI"を
0として弁別的特徴量“voiced"の度合い算出動作を終
了する。
ステップS24で、声帯振動が存在するとして、上記弁
別的特徴量“RVOI"を1にして弁別的特徴“voiced"の度
合い算出動作を終了する。
第6図は弁別的特徴“nasal"の度合いを求めるフロー
チャートである。以下、このフローチャートにしたがっ
て弁別的特徴“nasal"の度合い算出法について詳細に説
明する。
ステップS31で、“NCH"に5がセットされる。
ステップS32で、低周波数帯域〜中周波数帯域におけ
るスペクトルの凹凸の量“NAS1"およびその計算回数“N
N"が次式で算出される。
ステップS33で、特徴量hiの値が閾値θi以上であるc
h.の数(すなわち、低周波数帯域〜中周波数帯域のスペ
クトルの広がり)“NBAND"が次式で算出される。
ステップS34で、“NAS1"が“RMAX"より小さいか否か
が判別される。その結果小さければステップS35に進
み、そうでなければステップS36に進む。
ここで、上記“RMAX"の初期値はこのフローチャート
のループ内に現れないような大きな数に設定する。
ステップS35で、低周波数帯域〜中周波数帯域におけ
るスペクトルの平坦さの度合い“RMAX"が次式で算出さ
れる。
ここで、分子は低周波数帯域〜中周波数帯域の広がり
を示し、分母は低周波数帯域〜中周波数帯域の凹凸の度
合いを表す。また、α3は定数である。
ステップS36で、“NCH"に1が加算される。
ステップS37で、“NCH"が7より大きいか否かが判別
される。その結果大きければステップS38に進み、そう
でなければステップS32に戻ってさらに計算範囲を広げ
て“RMAX"の算出を行う。
ステップS38で、さらに、第1ホルマント領域に相当
する周波数帯域におけるスペクトルの平坦さの度合いを
算出するために、“NAS2"および“NAS3"が次式によって
算出される。
ステップS39で、“NAS2"が“NAS3"より大きいか否か
が判別される。その結果大きければステップS40に進
み、そうでなければステップS41に進む。
ステップS40で、弁別的特徴“nasal"の度合いを表す
弁別的特徴量“RNAS"が次式によって算出され、弁別的
特徴“nasal"の度合い算出動作を終了する。
ここで、右辺第2項は第1ホルマント領域におけるス
ペクトルの平坦さの度合いを表す。また、α3′,α3
は定数である。
ステップS41で、弁別的特徴“nasal"の度合いを表す
弁別的特徴量“RNAS"が次式によって算出され、弁別的
特徴“nasal"の度合い算出動作を終了する。
ここで、右辺第2項は第1ホルマント領域におけるス
ペクトルの平坦さの度合いを表す。
第7図(a)は弁別的特徴“murmur/buzz"の度合いを
求めるフローチャートである。以下、このフローチャー
トにしたがって弁別的特徴“murmur/buzz"の度合いの算
出法について詳細に説明する。
ステップS51で、低周波数帯域にエネルギーが集中し
ている度合いを表す弁別的特徴量“RMUR"が次式によっ
て算出される。
ここで、上記wiは各帯域における重み係数であり、そ
の値は第7図(b)に示す通りである。すなわち、低周
波数帯域における重み係数を大きくして、低周波数帯域
におけるエネルギーの集中を効率良く判定するようにし
ている。また、α4は定数である。
ステップS52で、上記ステップS51において算出された
弁別的特徴量“RMUR"が負か否かが判別され、その結果
負であればステップS53に進み、そうでなければ弁別的
特徴“murmur/buzz"の度合い算出動作を終了する。
ステップS53で、上記ステップS51において算出された
弁別的特徴量“RMUR"を0にして、弁別的特徴“murmur/
buzz"の度合い算出動作を終了する。
第8図(a)は弁別的特徴“compact"の度合いを求め
るフローチャートである。以下、このフローチャートに
したがって弁別的特徴“compact"の算出法について説明
する。
ステップS61で、“NCH"に7がセットされる。
ステップS62で、中周波数帯域におけるエネルーギー
量を表す“NCOM"が次式によって算出される。
ここで、上記wiは重み係数であり、その値は第8図
(b)に示す通りである。すなわち、前式によって“NC
OM"を算出する際の周波数帯域の中間における重み付け
を大きくして、中周波数帯域におけるエネルギーを効率
良く求めるようにしている。
ステップS63で、上記ステップS62で求めた“NCOM"の
値が“MAXC"の値より大きいか否かが判別され、その結
果大きければステップS64に進み、そうでなければステ
ップS65に進む。
ここで、上記“MAXC"の初期値はこのフローチャート
のループ内に現れないような小さな数に設定する。
ステップS64で、上記“MAXC"に上記ステップS62で求
めた“NCOM"の値をセットする。
ステップS65で、上記“NCH"に1が加算される。
ステップS66で、上記ステップS65で算出された“NCH"
の値が9よりも大きいか否かが判別される。その結果大
きければステップS67に進み、そうでなければ上記ステ
ップS62に戻って、さらに“NCOM"の算出範囲をずらして
次の“NCOM"の算出を行う。
ステップS67で、中周波数帯域へのエネルギーの集中
の度合いを表す弁別的特徴量“RCOM"が次式で算出され
る。
すなわち、分子は中周波数帯域のエネルギー量に対応
し、分母は全周波数帯域におけるエネルギー量に対応し
ており、弁別的特徴量“RCOM"の値は中周波数帯域にお
けるスペクトルの集中の度合いを表している。
第9図は弁別的特徴“diffuse"の度合いを求めるフロ
ーチャートである。以下、このフローチャートにしたが
って弁別的特徴“diffuse"の度合い算出法について詳細
に説明する。
ステップS71で、中周波数帯域〜高周波数帯域におけ
るスペクトルの凹凸の量を表す“NDF1"が次式で算出さ
れる。
ステップS72で、中周波数帯域〜高周波数帯域におい
て特徴量hiの値が閾値θi以上であるch.の数“NBAND"
次式でが算出される。この“NBAND"は中周波数帯域〜高
周波数帯域におけるスペクトルの広がりを表す値であ
る。
ステップS73で、第6ch.〜第16ch.の各BPFからの特徴
量hiの累計“NDF2"および第3ch.〜第16ch.の各BPFから
の特徴量hiの累計“NDF3"が式によって算出される。
ステップS74で、中周波数帯域〜高周波数帯域のスペ
クトルの平坦さの度合いを表す弁別的特徴量“RDIF"が
次式によって算出され、弁別的特徴“diffuse"の度合い
算出動作を終了する。
この式の右辺第1項は中周波数帯域〜高周波数帯域に
おける平坦さの度合いを表し、右辺第2項は低周波数帯
域〜中周波数帯域にスペクトルが存在しない度合いを表
す。また、上記閾値θiはスペクトルの広がりを求める
ために各BPFに設けられた閾値であり、α6,α6′,
α6″およびα6は定数である。
第10図は入力音声波形の一例と、この入力音声から上
述のようにして得られた各弁別的特徴量の時系列パター
ンを示す。すなわち、第10図(a)は入力音声波形、第
10図(b)は上記音声波形の音韻ラベル、第10図(c)
は第10図(a)の入力音声における弁別的特徴“stride
nt"の度合いを表す弁別的特徴量“RSTR"の時系列、第10
図(d)は弁別的特徴“voiced"の度合いを表す弁別的
特徴量“RVOI"の時系列、第10図(e)は弁別的特徴“n
asal"の度合いを表す弁別的特徴“RNAS"の時系列、第10
図(f)は弁別的特徴“murmur/buzz"の度合いを表す弁
別的特徴量“RMUR"の時系列、第10図(g)は弁別的特
徴“compact"の度合いを表す弁別的特徴量“RCOM"の時
系列、第10図(h)は弁別的特徴“diffuse"の度合いを
表す弁別的特徴量“RDIF"の時系列を表す。
次に、第10図において各音韻毎に得られた弁別的特徴
量を第3図を参照して検討する。まず、弁別的特徴“co
mpact"に関係する音韻/k/においては弁別的特徴量“RCO
M"の値のみが“1"であり、音韻/k/の弁別的特徴量が正
しく抽出されていると言える。弁別的特徴“voiced"に
関係する音韻/a/においては弁別的特徴量“RVOI"の値が
“1"であり、さらに弁別的特徴量“RCOM"の値が“0〜
1"の値であって前の音韻/k/との調音位置が後ろにある
音韻であることを表しており、後半において弁別的特徴
量“RNAS"が“0〜1"の値となって次の音韻/n/の影響で
鼻音化していることを表しており、音韻/a/の弁別的特
徴量が正しく抽出されていると言える。弁別的特徴“na
sal"および“murmur/buzz"に関係する音韻/n/において
は弁別的特徴量“RNAS"および“RMUR"の値が“1"であ
り、音韻/n/の弁別的特徴量が正しく抽出されていると
言える。弁別的特徴“voiced"に関係する音韻/e/におい
ては弁別的特徴量“RVOI"の値が“1"であり、さらに弁
別的特徴量“RNAS"の値が“0〜1"の値であって前の音
韻/n/の影響で鼻音化していることを表しており、音韻/
e/の弁別的特徴量が正しく抽出されていると言える。続
いて、弁別的特徴“strident"および“diffuse"に関係
する音韻/ts/においては弁別的特徴量“RSTR"および“R
DIF"の値が“1"であり、音韻/ts/の弁別的特徴量が正し
く抽出されていると言える。弁別的特徴“voiced"に関
係する音韻/u/においては弁別的特徴量“RVOI"の値が
“1"であり、音韻/u/の弁別的特徴量が正しく抽出され
ていると言える。
すなわち、この発明の音声の特徴抽出方法によって抽
出された弁別的特徴量は、人間の調音活動に即して各音
韻の特徴を正しく表している情報であると言える。した
がって、上記弁別的特徴量によって音韻を正しく識別す
ることができる。
上述のように、この発明の音声の特徴抽出方法は、各
BPFからの出力パワーを特徴量hiとし、この特徴量hiに
基づいて人間の調音に関連した特徴量である弁別的特徴
の度合いを表す弁別的特徴量“RSTR",“RVOI",“RNAS",
“RMUR",“RCOM"および“RDIF"を算出するようにしてい
る。したがって、この発明によれば、話者によるスペク
トルの変動に影響されずに各音韻を識別するのに必要な
情報(弁別的特徴量)を抽出することができ、入力音声
の上記弁別的特徴量と標準パターンの弁別的特徴量とに
基づいてDPマッチング等によって類似度を求め、正しく
音声を認識することができる。
<発明の効果> 以上より明らかなように、請求項1に係る発明の音声
の特徴抽出方法は、周波数分析によって得られた入力音
声のスペクトル成分から、摩擦性を表す弁別的特徴量,
有声を表す弁別的特徴量,鼻音化によるスペクトルの平
坦性を表す弁別的特徴量,バズ性を表す弁別的特徴量,
中周波数帯域のスペクトルの平坦性を表す弁別的特徴量
およびスペクトルの分散性を表す弁別的特徴量を求める
ので、人間の調音に関連した上記6種の弁別的特徴量を
抽出することができる。したがって、この発明を用いれ
ば、話者によるスペクトル変動に影響されずに音声を安
定して正しく認識することができ、高い認識性能を得る
ことができるのである。
【図面の簡単な説明】
第1図はこの発明に係る音声認識装置の一実施例におけ
るブロック図、第2図は各BPFの周波数特性を示す図、
第3図は弁別的特徴とその弁別的特徴量の増加の要因と
なる音韻との対応図、第4図(a)は弁別的特徴“stri
dent"の度合いを求めるフローチャート、第4図(b)
は重み係数の一例を示す図、第5図は弁別的特徴“voic
ed"の度合いを求めるフローチャート、第6図は弁別的
特徴“nasal"の度合いを求めるフローチャート、第7図
(a)は弁別的特徴“murmur/buzz"の度合いを求めるフ
ローチャート、第7図(b)は重み係数の一例を示す
図、第8図(a)は弁別的特徴“compact"の度合いを求
めるフローチャート、第8図(b)は重み係数の一例を
示す図、第9図は弁別的特徴“diffuse"の度合いを求め
るフローチャート、第10図は入力音声波形に基づいて求
められた弁別的特徴量の時系列パターンの一例を示す図
である。 1……マイクロホン、2……アンプ、3……特徴抽出
部、4……弁別的特徴抽出部、5……単語認識部、6…
…標準パターン格納部、7……結果表示部。
フロントページの続き (56)参考文献 特開 昭63−65500(JP,A) 特開 昭62−17900(JP,A) 特開 昭62−7081(JP,A) 特開 昭60−194500(JP,A) 特開 昭62−102298(JP,A) 特開 昭62−102297(JP,A) 特開 昭63−85697(JP,A) 特開 昭61−240300(JP,A) 特公 昭47−11635(JP,B1) 特公 昭47−11633(JP,B1) (58)調査した分野(Int.Cl.6,DB名) G10L 7/08 G10L 9/00 - 9/20 JICST科学技術文献ファイル

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】入力音声を周波数分析し、得られたスペク
    トル成分から音声の特徴量を抽出する音声の特徴抽出方
    法であって、 上記周波数分析によって得られたスペクトル成分に基づ
    いて、摩擦性を表す弁別的特徴の度合いを表す弁別的特
    徴量を求める第1のステップと、 上記周波数分析によって得られたスペクトル成分に基づ
    いて、音声を表す弁別的特徴の度合いを表す弁別的特徴
    量を求める第2のステップと、 上記周波数分析によって得られたスペクトル成分に基づ
    いて、鼻音化によるスペクトルの平坦性を表す弁別的特
    徴の度合いを表す弁別的特徴量を求める第3のステップ
    と、 上記周波数分析によって得られたスペクトル成分に基づ
    いて、バズ性を表す弁別的特徴の度合いを表す弁別的特
    徴量を求める第4のステップと、 上記周波数分析によって得られたスペクトル成分に基づ
    いて、中周波数帯域のスペクトルの平坦性を表す弁別的
    特徴の度合いを表す弁別的特徴量を求める第5のステッ
    プと、 上記周波数分析によって得られたスペクトル成分に基づ
    いて、スペクトルの分散性を表す弁別的特徴の度合いを
    表す弁別的特徴量を求める第6のステップを備えて、 人間の調音に関連する音声の特徴量を抽出することを特
    徴とする音声の特徴抽出方法。
JP63183905A 1988-07-21 1988-07-21 音声の特徴抽出方法 Expired - Fee Related JP2954591B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63183905A JP2954591B2 (ja) 1988-07-21 1988-07-21 音声の特徴抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63183905A JP2954591B2 (ja) 1988-07-21 1988-07-21 音声の特徴抽出方法

Publications (2)

Publication Number Publication Date
JPH0232400A JPH0232400A (ja) 1990-02-02
JP2954591B2 true JP2954591B2 (ja) 1999-09-27

Family

ID=16143867

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63183905A Expired - Fee Related JP2954591B2 (ja) 1988-07-21 1988-07-21 音声の特徴抽出方法

Country Status (1)

Country Link
JP (1) JP2954591B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9300188D0 (en) * 1993-01-06 1993-03-03 Dexter Speciality Materials Fibrous bonded sheet material
JPH08123462A (ja) * 1994-10-27 1996-05-17 Sony Corp 音声認識装置
JPH08123473A (ja) * 1994-10-28 1996-05-17 Sony Corp 音韻ラベル化装置

Also Published As

Publication number Publication date
JPH0232400A (ja) 1990-02-02

Similar Documents

Publication Publication Date Title
KR101101384B1 (ko) 파라미터화된 시간 특징 분석
US7457753B2 (en) Telephone pathology assessment
WO2004084176A1 (ja) 音響評価方法およびそのシステム
Seppänen et al. Prosody-based classification of emotions in spoken finnish.
CN115050387A (zh) 一种艺术测评中多维度唱奏分析测评方法及***
Wildermoth et al. Use of voicing and pitch information for speaker recognition
Almaghrabi et al. The reproducibility of bio-acoustic features is associated with sample duration, speech task, and gender
JP2954591B2 (ja) 音声の特徴抽出方法
Villa-Cañas et al. Modulation spectra for automatic detection of Parkinson's disease
Airas et al. Emotions in short vowel segments: effects of the glottal flow as reflected by the normalized amplitude quotient
Sahoo et al. Analyzing the vocal tract characteristics for out-of-breath speech
Handa et al. Distress screaming vs joyful screaming: an experimental analysis on both the high pitch acoustic signals to trace differences and similarities
JPS60181798A (ja) 音声認識装置
US7418385B2 (en) Voice detection device
CN113129923A (zh) 一种艺术测评中多维度唱奏分析测评方法及***
JP3584287B2 (ja) 音響評価方法およびそのシステム
Alku et al. On the linearity of the relationship between the sound pressure level and the negative peak amplitude of the differentiated glottal flow in vowel production
Patil et al. Person recognition using humming, singing and speech
Hammal et al. Passive versus active: Vocal classification system
Feng et al. I-vector Based within speaker voice quality identification on connected speech
Zimmer VATA: An improved personal computer-based vowel articulation training aid
Zwicker Peripheral preprocessing in hearing and psychoacoustics as guidelines for speech recognition
Kadhim et al. Statistical analysis for the pitch of mask-wearing Arabic speech
Huckvale 12 Data Processing: Digital Analysis of Speech Audio Signals
Hayashi et al. Analysis of voice features of people with cervical spinal cord injuries with voice user interfaces

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees