JP3465941B2 - ピッチ抽出装置 - Google Patents

ピッチ抽出装置

Info

Publication number
JP3465941B2
JP3465941B2 JP32897793A JP32897793A JP3465941B2 JP 3465941 B2 JP3465941 B2 JP 3465941B2 JP 32897793 A JP32897793 A JP 32897793A JP 32897793 A JP32897793 A JP 32897793A JP 3465941 B2 JP3465941 B2 JP 3465941B2
Authority
JP
Japan
Prior art keywords
pitch
pitch period
window
cycle
period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP32897793A
Other languages
English (en)
Other versions
JPH06282296A (ja
Inventor
裕久 田崎
正 山浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP32897793A priority Critical patent/JP3465941B2/ja
Publication of JPH06282296A publication Critical patent/JPH06282296A/ja
Application granted granted Critical
Publication of JP3465941B2 publication Critical patent/JP3465941B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Electrophonic Musical Instruments (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、ディジタル音声信号
からピッチ周期またはその逆数であるピッチ周波数を実
時間で抽出するピッチ抽出装置に関するものである。
【0002】
【従来の技術】ディジタル音声信号を少ない情報量に圧
縮して伝送あるいは蓄積する高能率符号化や音声合成等
を行う場合には、まず音声信号を所定の時間長のフレー
ムに分解して、フレーム毎の処理を行う。これらの高能
率音声符号化や音声合成における品質には、各フレーム
のピッチ周期の抽出精度がきわめて重要であり、このこ
とを考えて、様々なピッチ周期の高精度抽出方式が提案
されている。特に音声伝送を行う場合には、実時間処理
が必要となってくるため、処理量、遅延時間が少なく、
かつ高精度な抽出方式が必要である。
【0003】この高精度ピッチ抽出法として考えられた
ものとしては、例えば特開昭57−82897号があ
る。図17は、この従来のピッチ抽出法の構成を示す構
成図である。図において、1は音声信号を示し、5は間
引き手段、6はピッチ周期評価関数計算手段、13はピ
ッチ周期、14は最大値検出手段、15はピッチ周期高
精度抽出手段である。
【0004】以下、この従来のピッチ抽出法の動作を説
明する。まず、例えば8KHzでサンプリングされ、8
00Hzの低域通過フィルタリングされたディジタル音
声信号が、音声信号1として間引き手段5に入力され
る。間引き手段5は、音声信号1の2個以上の信号毎に
重み付け加算を行い、結果として得られる間引かれた音
声信号を出力する。ピッチ周期評価関数計算手段6は、
前記間引かれた音声信号の自己相関関数を算出し、これ
をピッチ周期評価関数として最大値検出手段14に出力
する。最大値検出手段14は、入力されたピッチ周期評
価関数の最大値を探索し、最大値とその位置、前後の周
期でのピッチ周期評価関数をピッチ周期高精度抽出手段
15に出力する。ピッチ周期高精度抽出手段15は、入
力された3点のピッチ周期評価関数の値を用いて、例え
ば放物線近似によってより精度の高い周期を算出し、ピ
ッチ周期13として出力する。このように構成すること
により、全周期において高精度なピッチ周期評価関数の
算出が不要となり、より少ないメモリ量、処理量にてピ
ッチ周期の抽出が可能となっている。
【0005】また、前記従来のピッチ抽出法の他の先行
技術として、これを上回る高精度な抽出が可能であると
報告されている方式として、特開昭62−194300
号がある。図18は、この従来のピッチ抽出法の構成を
示す構成図である。図において、8はピッチ周期候補算
出手段、16は部分評価関数計算手段、17は重み制御
手段、18は判定手段である。その他の図17と同一部
分には同一番号を付してある。
【0006】以下、この従来の他のピッチ抽出法の動作
を説明する。まず、例えば8KHzでサンプリングさ
れ、800Hzの低域通過フィルタリングされたディジ
タル音声信号が、音声信号1として間引き手段5と部分
評価関数計算手段16に入力される。間引き手段5は、
音声信号1を例えば1/4に間引き、間引かれた音声信
号を出力する。ピッチ周期評価関数計算手段6は、前記
間引かれた音声信号の自己相関関数を算出し、これをピ
ッチ周期評価関数としてピッチ周期候補算出手段8に出
力する。重み制御手段17は過去のピッチ周期13に応
じて第1の制御パラメータP1と第2の制御パラメータ
P2を求める。ピッチ周期候補算出手段8は、前記第1
の制御パラメータP1に基づいて、入力されたピッチ周
期評価関数に重み付けを行い、重み付けされたピッチ周
期評価関数の最大値から複数のピッチ周期候補を抽出す
る。部分評価関数計算手段16は、音声信号1の一部に
対して、前記ピッチ周期候補におけるピッチ周期評価関
数を算出し、部分評価関数として判定手段18に出力す
る。判定手段18は、前記第2の制御パラメータP2に
基づいて、前記部分評価関数に重み付けを行った後、そ
の最大値を与える周期をピッチ周期13として出力す
る。このように構成することにより、過去に抽出された
ピッチ周期系列に対して連続性が良く、特開昭57−8
2897号に開示されている方式に比べてより正確にピ
ッチ周期の抽出が可能である。
【0007】また、少しの遅延を許すことにより、高精
度で連続性の良いピッチ周期を抽出する方法として、D.
W.Griffin and J.S.Lim著■Multiband Excitation Voco
der■(IEEE Trans. Acoust., Speech, Signal Process
ing, Aug. 1988, pp. 1223-1235)に示されたものがあ
る。図19は、この従来のピッチ抽出法の構成を示す構
成図である。図において、101は音声信号を示し、1
02は抽出されたピッチ周期を示す。また、103はピ
ッチ周期評価関数計算手段、104はピッチ周期評価関
数を記憶するバッファであり、105は後向予測手段で
ある。106はピッチ周期評価関数を1フレーム遅延し
て出力する遅延回路であり、107は抽出されたピッチ
を1フレーム遅延して出力する遅延回路である。108
はピッチ周期評価関数抽出手段であり、109は過去フ
レームにおいて抽出されたピッチ周期におけるピッチ周
期評価関数を記憶するバッファであり、110は前向予
測手段である。111は補正手段である。
【0008】以下、従来のピッチ抽出装置の動作につい
て説明する。ピッチ周期評価関数計算手段103は、音
声信号101よりフレーム毎にピッチ周期評価関数を計
算し、これをバッファ104に出力する。バッファ10
4は前記ピッチ周期評価関数をピッチ抽出対象としてい
るフレームを先頭にNフレーム分記憶し、このNフレー
ムのピッチ周期評価関数を後向予測手段105に出力す
るとともに、ピッチ抽出対象としているフレームのピッ
チ周期評価関数を前向予測手段107と遅延回路106
に出力する。
【0009】後向予測手段105は、前記バッファ10
4より入力されたNフレームのピッチ周期評価関数よ
り、ピッチ抽出対象としているフレームのピッチ周期P0
の後向信頼度CEB(P0)を、例えば式(1)に従って求め
る。ここで、En(Pn) はピッチ抽出対象フレームよりn
フレーム未来のフレームの周期Pnにおけるピッチ周期評
価関数であり、Pn(n = 1, 2, ..., N-1)はCEB(P0) を最
大にするものとして決定する。ただし、Pn(n = 1, 2,
..., N-1)はNフレーム間で連続的であるように、例え
ば式(2)に従ってその存在範囲を制限する。
【0010】
【数1】
【0011】次にこの後向信頼度が最大となるP0を探索
し、このP0を後向予測ピッチ周期PBとする。そして、こ
の後向予測ピッチ周期PBとこのときの後向信頼度CE
B(PB) を補正手段111へ出力する。
【0012】遅延回路106はピッチ抽出対象フレーム
の1フレーム前のピッチ周期評価関数E-1 をピッチ周期
評価関数抽出手段108に出力する。また、遅延回路1
07はピッチ抽出対象フレームの1フレーム前に抽出さ
れたピッチ周期P-1 をピッチ周期評価関数抽出手段10
8と前向予測手段110に出力する。ピッチ周期評価関
数抽出手段108は、前記遅延回路106より入力され
たピッチ周期評価関数E-1と前記遅延回路107より入
力されたピッチ周期P-1より、前フレームにおいて抽出
したピッチ周期P-1に対応するピッチ周期評価関数E-1(P
-1) を求め、これをバッファ109に出力する。バッフ
ァ109は、前記ピッチ周期評価関数抽出手段108よ
り入力された過去のフレームで抽出したピッチ周期P-m
に対応するピッチ周期評価関数E-m(P-m)(m=1,2,..., M-
1)を、ピッチ抽出対象としているフレームの直前M−1
フレーム分記憶し、このM−1フレーム分のピッチ周期
評価関数を前向予測手段110に出力する。前向予測手
段110は、前記バッファ104より入力されたピッチ
抽出対象フレームのピッチ周期評価関数E0より前向予測
ピッチ周期PFを、例えばその最大値を与える周期として
求める。ただし、PFは、遅延回路107より入力される
直前のフレームで抽出されたピッチ周期P-1 と連続的で
あるように、例えば式(3)に従ってその存在範囲を制
限する。次に、前向信頼度CEF(PF) を、例えば式(4)
に従って求める。そして、前記前向予測ピッチ周期PF
このときの前向信頼度CEF(PF)を補正手段111へ出力
する。
【0013】
【数2】
【0014】補正手段111は前記後向予測手段105
より入力された後向信頼度CEB(PB)と前記前向予測手段
110より入力された前向信頼度CEF(PF) を比較し、例
えば、 CEB(PB)/N>CEF(PF)/M ならば前記後向予測手段105より入力された後向予測
ピッチ周期PBを、それ以外の場合は前記前向予測手段1
10より入力された前向予測ピッチ周期PFを最終的なピ
ッチ周期102として選択し、出力する。また前記抽出
されたピッチ周期を遅延回路107にも出力する。
【0015】
【発明が解決しようとする課題】上記特開昭57−82
897号および特開昭62−194300号に開示され
た従来のピッチ抽出法を用いたピッチ抽出装置では、話
者毎にかなり分布が異なるピッチ周期を求めるにもかか
わらず、固定の間引き処理を行っており、全ての話者に
対して高い抽出精度を保つために余り高い間引き率がと
れず、処理量が十分に削減されていない課題がある。音
声信号の標本化周波数が8KHzの場合、従来例では1
/4程度の間引き処理を行っているが、ピッチ周期が短
い女性の音声信号の場合には1/4の間引きでは抽出誤
りが急増してしまう。しかし、1/2の間引きでは処理
量の低減は十分とは言えない。
【0016】上記特開昭57−82897号および特開
昭62−194300号に開示された従来のピッチ抽出
法を用いたピッチ抽出装置では、音声信号に雑音信号が
混入した場合、特にピッチ周期探索範囲の周期を持つ周
期性雑音が混入した場合に非常に多くの抽出誤りが発生
してしまうという課題がある。さらに、特開昭62−1
94300号に開示された従来のピッチ抽出法を用いた
ピッチ抽出装置では、第1の制御パラメータP1により
過去に抽出したピッチ周期に対して連続性の高いピッチ
周期候補を抽出し、第2の制御パラメータP2によりピ
ッチ周期候補の整数分の1の周期を最終的なピッチ周期
13として抽出しやすく重み付けしている。しかし、一
般的に相関関数のピーク値は実際のピッチ周期の整数分
の整数倍の周期となりやすいとされており、前記第2の
制御パラメータによる重み付けは、必ずしも少なくない
頻度で抽出誤りを引き起こす。そして、この抽出誤りの
影響が第1の制御パラメータによる重み付けのために次
のフレームに伝搬してしまうという課題がある。
【0017】また、少しの遅延を許す従来のピッチ抽出
装置では、ピッチ抽出対象フレームの前後数フレームを
含め評価を行い、ピッチ抽出を行っていた。しかし、ピ
ッチ周期の連続性を保ち安定したピッチ抽出を行うため
には、評価に含める前後のフレーム数M、Nを大きくと
る必要があり、ピッチ抽出に必要な遅延が大きくなると
いう課題があった。また、遅延を小さくするために評価
に含める後続フレーム数Nを小さくすると、ピッチ抽出
誤りが発生しやすくなり、また、常にピッチ周期の連続
性を考慮してピッチ抽出を行っているため、一度誤りが
発生すると、その誤りが後続フレームのピッチ抽出結果
にも伝搬するという課題もあった。さらに、常に数フレ
ーム通しての評価値のみを用いてピッチ周期を算出して
いるため、語頭、語尾では無声部などピッチ抽出に不適
当なフレームを評価に含めることがあり、有声部、無声
部を通して信頼度を計算し、ピッチ周期を求めたとき
に、全くピッチ周期とは無関係な抽出結果が得られる場
合があるという課題もあった。
【0018】この発明は、かかる課題を解決するために
なされたものであり、従来のピッチ抽出装置に比べて、
同等の処理量であればより精度の高いピッチ周期が抽出
でき、同等の抽出精度を達成する場合であればより少な
い処理量で抽出でき、さらに高雑音下でも安定に伝搬誤
りの少ない抽出が可能なピッチ抽出装置を実現すること
を目的としている。
【0019】
【課題を解決するための手段】この発明に係るピッチ抽
出装置は、入力である音声信号のフレーム毎のサンプリ
ング開始から終了までの時間幅である窓の幅を決める窓
手段と、窓内の音声信号のピッチ周期を算出するピッチ
周期算出手段と、フレーム中において窓手段における窓
を時間方向にシフトさせて窓内の音声信号のパワーが最
大になるよう窓位置を制御する窓位置決定手段を備え
た。
【0020】また更に、窓内の入力音声信号のサンプリ
ング・データに対し間引きサンプリングしてデータ出力
する間引き手段と、 過去のフレーム毎のピッチ周期平均
値が所定の値より大きいと上記窓の幅を拡げ、かつ上記
間引き手段の間引きを多くして粗くし、ピッチ周期の平
均値が所定の値より小さいと上記窓の幅を狭め、かつ上
記間引きを少なくして細かく出力するよう制御する制御
手段を備えた。
【0021】またこの発明のピッチ抽出装置は、入力の
音声信号のフレーム毎のサンプリング値から相関分析を
行い、得られた結果をピッチ周期評価関数として出力す
るピッチ周期評価関数計算手段と、入力音声信号を分析
して有声音、無声音、無音を含む複数のカテゴリに分類
する音声状態判定手段と、音声状態判定手段が判定した
無音フレームのピッチ周期評価関数の平均値を計算して
雑音評価関数とし、音声信号のピッチ周期評価関数から
雑音評価関数値を減算する雑音除去手段を備えた。
【0022】またこの発明のピッチ抽出装置は、入力の
音声信号のフレーム毎のサンプリング値から相関分析を
行い、得られた結果をピッチ周期評価関数として出力す
るピッチ周期評価関数計算手段と、ピッチ周期評価関数
のピーク値が得られる周期をピッチ周期候補として抽出
するピッチ周期候補算出手段と、過去のフレームのピッ
チ周期抽出結果から現在のフレームのピッチ周期を予測
する予測手段と、予測手段出力の予測ピッチ周期とピッ
チ周期評価関数とを用いて補正ピッチ周期候補を計算す
る補正ピッチ周期候補算出手段と、これらピッチ周期候
補算出手段出力と予測手段出力と補正ピッチ周期候補算
出手段出力とから望ましいピッチ周期を選択出力する補
正手段を備えた。
【0023】またこの発明のピッチ抽出装置は、入力の
音声信号を分析して有声音、無音を含む複数のカテゴリ
に分類する音声状態判定手段と、複数のフレームの音声
信号に対する音声状態判定手段の各判定結果と、最終ピ
ッチ周期選択結果とから、抽出されたピッチ周期の確か
らしさを出力する信頼度判定手段を備えた。
【0024】さらにこの発明のピッチ抽出装置は、入力
の音声信号のフレーム毎のサンプリング値から相関分析
を行い、得られた結果をピッチ周期評価関数として出力
するピッチ周期評価関数計算手段と、ピッチ周期評価関
数のピーク値が得られる周期をピッチ周期候補として抽
出するピッチ周期候補算出手段と、過去のフレームのピ
ッチ周期抽出結果と現在のフレームのピッチ周期評価関
数から現在のフレームの前向予測ピッチ周期を算出する
前向予測手段と、現在及び未来のフレームのピッチ周期
評価関数から現在のフレームの後向予測ピッチ周期を算
出する後向予測手段と、入力音声信号のパワー情報を計
算するパワー計算手段と、このパワー情報により、上記
ピッチ周期候補算出手段出力と上記前向予測手段出力と
上記後向予測手段出力とから望ましいピッチ周期を選択
出力する補正手段を備えた。
【0025】またこの発明のピッチ抽出装置は、入力の
音声信号のフレーム毎のサンプリング値から相関分析を
行い、得られた結果をピッチ周期評価関数として出力す
るピッチ周期評価関数計算手段と、任意の数の過去Mフ
レームと現在のフレームと任意の数の未来Nフレームの
ピッチ周期評価関数を用いて現在のフレームの予測ピッ
チ周期を計算するピッチ予測手段と、入力音声信号の音
声状態を判別し、この判別結果でピッチ予測手段への入
力フレーム数M、Nを制御するフレーム数制御手段を備
えた。
【0026】またこの発明のピッチ抽出装置は、入力の
音声信号のピッチ周期を算出するピッチ抽出手段と、こ
の抽出されたピッチ周期毎に入力音声信号のパワーを計
算するパワー計算手段と、このパワー計算手段の出力パ
ワー情報の変遷が所定値内であれば上記ピッチを正しい
とし、パワー情報の変遷が所定値以上の場合は上記ピッ
チ周期を誤りとする誤りピッチ判定手段、とを備えた。
【0027】
【作用】本発明におけるピッチ抽出装置は、過去のフレ
ームで抽出したピッチ周期が計算され、その平均値が設
定値より大きいと、つまり入力音声信号の周波数が低い
と判定されると、間引きが行われて粗いサンプリングに
なる。逆に抽出したピッチ周期の平均値が設定値より小
さいと、つまり入力信号が女性の声などの場合には、分
析用の窓の幅を狭くし、かつサンプリングは相対的に細
かくする。
【0028】またこの発明のピッチ抽出装置は、あらか
じめ決められた時間軸の範囲内で、所定の評価値、例え
ば信号パワーが最大になるように、つまり抽出誤りが避
けられる方向に、分析用の窓が動かされる。
【0029】またこの発明のピッチ抽出装置は、入力が
無音と判定したフレームのピッチ周期評価関数の平均値
が計算され、雑音が重畳した音声信号の相関関数から推
定した雑音信号の相関関数が減算され、影響が除去され
る。
【0030】またこの発明のピッチ抽出装置は、過去の
フレームのピッチから種々のピッチ周期が予測され、あ
る定められた評価値、に基づいて望ましいピッチ周期が
選択される。
【0031】またこの発明のピッチ抽出装置は、入力の
音声信号の状態がカテゴリ別に分類され、この結果と、
最終のピッチ周期の選択結果から予測ピッチ周期の信頼
度が判断される。この信頼度の値がピッチ周期の選択に
影響を与える。
【0032】またこの発明のピッチ抽出装置は、過去、
現在、未来のフレームから得られる前向、通常、後向の
予測ピッチ周期から、入力音声信号のパワーに基づい
て、つまり音声の有効部分を基に、組み合わされ、ピッ
チ周期が選択される。
【0033】またこの発明のピッチ抽出装置は、予測ピ
ッチ周期の計算に際し、入力音声の状態が調べられ、そ
のカテゴリにより評価関数を計算するためのフレーム数
が選ばれる。
【0034】またこの発明のピッチ抽出装置は、抽出さ
れたピッチ周期に基づいてその周期毎に入力音声信号の
エネルギーパワーが計算され、更にその計算されたパワ
ーの時間変化から抽出ピッチが正しいかどうかが判定さ
れる。
【0035】
【実施例】実施例1. 本発明の実施例を図に基づいて説明する。図1は本発明
の実施例であるピッチ抽出装置の構成図である。図にお
いて新規な部分は、4の窓幅・間引き制御手段、19の
窓手段がある。その他の間引き手段5、ピッチ周期評価
関数計算手段6、最大値検出手段14は従来のものと同
等である。ただし間引き手段5は制御手段4からの指令
により間引き間隔が可変になっている。窓手段19は、
入力音声信号1のx(n)に対する現在のフレーム長K
と、例えば中心が一致するようにしてサンプリング数J
の信号y(n)=w(n)・x(n)、(ここでn=1
〜J)を切り出すものである。すなわち入力の音声信号
のサンプリング時間の幅を決めるもので、例えば8KH
zのクロックでサンプリングされるサンプリング数を
(J=)256サンプルするか512サンプルするかな
どで決まる。w(n)は窓関数と呼ばれ、w(n)=1
は方形窓である。またw(n)=α+(1−α)cos
(2π(n−K/2)/J)でα=0.54のとき、ハ
ミング窓である。
【0036】以下、図に示した本発明の一実施例の動作
を説明する。まず、例えば8KHzでサンプリングされ
て、800Hzの低域通過フィルタリングされたディジ
タル音声が、音声信号1として窓手段19に入力され
る。窓手段19は方形窓、ハミング窓いずれでもよく、
ある幅、つまり適当なサンプル長さを決めて入力の音声
信号1であるy(n)を1ないしJサンプルだけ切り出
す。この切り出されたy(1)ないしy(J)サンプル
が間引き手段5に入り、間引き率1/Nでリサンプリン
グされる。この結果間引き手段5の出力の信号z(n)
は1ないしJ/Nサンプルとなり、z(n)=y((n
−1)N+1)のリサンプリング結果となる。間引き手
段5が重み付け加算方式の場合もあるが、この場合は重
み付けの係数をh(i)、加算数をaとすると、z
(n)=Σh(i)y((n−1)a+i)で表される
出力となる。入力の音声信号1は、間引きサンプリング
がされて粗くなった状態で、ピッチ周期評価関数計算手
段6で自己相関等の相関分析がされる。更に最大値検出
手段14では、ピッチ周期評価関数の最大値を検索し、
その最大位置からピッチ周期13を算出する。
【0037】窓幅・間引き制御手段4は、この過去のピ
ッチ周期を憶えておき、この平均ピッチを算出する。そ
してこの平均値が所定の閾値、例えば60サンプル以上
の場合には、窓手段19に窓幅を例えば512サンプル
等、分析窓を長くするよう指令し、また間引き手段5に
例えば1/4つまり4ケに1ケ等、間引き率を高くする
よう指令する。また平均値が所定の閾値未満の場合に
は、分析窓を短くして例えば256サンプル、間引き率
を1/2と指令する。ところで、ピッチ周期が長い話
者、例えば男性では、その音声信号をかなり間引いて粗
くしてもピッチ周期の抽出精度は劣化しないことが実験
的に確かめられた。同様に、ピッチ周期の短い話者、例
えば女性では、サンプリングをする分析窓(ウインド
ゥ)幅を短くしてもピッチ周期の抽出精度は劣化しない
ことが確かめられた。これらの対象弾性5人女性5人に
よる各人81文章の実験結果を図2に示す。なお、制御
手段4の過去のピッチ周期の記憶と更新は、過去の数値
の移動平均をとってもよいし、加算平均をとってもよ
い。このように構成することで、同一精度でよいならピ
ッチ周期を確定するための処理量が減る。
【0038】実施例2. 本発明のピッチ抽出装置の他の実施例を説明する。図3
は本実施例でのピッチ抽出装置の構成図である。図にお
いて新規な部分として、2の窓位置決定手段がある。そ
の他の窓手段19、制御手段4、間引き手段5、ピッチ
周期評価関数計算手段6、最大値検出手段14は実施例
1と同様の要素である。一般に、有声音の開始部分や終
了部分を含んで評価関数を計算すると、抽出誤りが発生
し易い。従って、過渡部分を避けると抽出誤りが避けら
れる。実施例2ではこのことを利用して、サンプリング
の分析窓を信号のパワーの大きい時間方向にシフトさせ
て抽出誤りを低減しようとする。
【0039】次に図3に基づき本実施例の構成による装
置の動作を説明する。まず窓位置決定といっても2通り
のやり方がある。具体的な数値として、フレーム長K=
160サンプル、分析窓長J=240〜480サンプル
の場合を考える。第1のやり方は、窓を動かす範囲が固
定の場合である。この場合には、サンプル対象が現在の
フレームを中心として前後のフレームを範囲とする例え
ば3KのL=480サンプル固定に対して、その最初の
サンプリング位置からあるサンプル数だけずらした位置
を窓の開始位置としてJサンプルの信号のサンプリング
を行う。そして窓内のパワー(例えば振幅絶対値和、相
関関数ピーク値など)を求め、最大のパワーを与えた窓
の位置を窓位置とする。なお、J=Lの場合、つまり分
析窓長Jと窓を動かす範囲が一致する場合には、窓位置
は1通りであるので動かす必要はない。第2のやり方
は、窓を動かすサンプル数が固定の場合である。この場
合には、例えば窓を動かすサンプル数L’=120サン
プルが分析窓長によらず固定であり、現在のフレームと
中心が一致する窓位置に対して、あるサンプル数だけ前
後にずらした窓位置においてサンプリングを行う。そし
て窓内のパワー最大となる位置とする。以後の動作は、
実施例1で説明したと同様になるので説明を省略する。
なお、窓位置決定手段を用いたやり方によると、窓位置
固定の場合に比較して、平均誤り率が男性は固定の場合
の1.19%が1.13%に、女性は固定の場合の0.
60%が0.32%に改善された。
【0040】実施例3. 本発明のピッチ抽出装置の他の実施例を説明する。図4
は本実施例でのピッチ抽出装置の構成図である。図にお
いて新規な部分として、3の音声状態判別手段、7の雑
音除去手段がある。その他の窓手段19、制御手段4、
間引き手段5、ピッチ周期評価関数計算手段6、最大値
検出手段14は実施例1と同様の要素である。一般に、
音声信号と雑音信号の相互相関は無視できる場合が多
い。この場合には、雑音信号の重畳した音声信号の相関
関数は、音声信号の相関関数と雑音信号の相関関数との
和となる。従って、雑音信号の相関関数を推定できれ
ば、これを雑音の重畳した入力の音声信号の相関関数か
ら、推定した雑音信号の相関関数を減算することで、雑
音の影響をなくすことができる。本実施例ではこのこと
に着目している。
【0041】次に図4に基づき本実施例の構成による装
置の動作を説明する。まず音声状態判別手段3は、入力
の音声信号1分析して、現在のフレームをいくつかの状
態に判別する。例えば有音、無音と分ける。音声信号で
あると判別した場合が有音であり、音声信号以外の雑音
信号のみであると判別した場合が無音である。また、更
に細かく有声音、雑音的有声音、無声音、無音と判別し
てもよい。そして判別結果を雑音除去手段7に出力す
る。なお、雑音的有声音とは、有声音と無声音の中間の
特性を持つ音声である。一方、窓手段19、間引き手段
5、ピッチ周期評価関数計算手段6を経由した音声信号
1の処理については実施例1と同様である。雑音除去手
段7は、音声状態判別手段3からの信号を例えば3種類
に分けて受ける。すなわち無音か、無声音か、有声音ま
たは雑音的有声音かである。もし無音である場合には、
雑音除去手段7は内部に記憶している雑音評価関数を移
動平均法で更新する。雑音評価関数は、周期を変数とす
る関数である。同様にピッチ周期評価関数も、周期を変
数とした関数であり、有声音または雑音的有声音である
場合には、ピッチ周期評価関数計算手段6からのピッチ
周期評価関数から記憶していた雑音評価関数を減算し、
最大値検出手段14に出力する。無声音である場合に
は、雑音除去手段7は雑音評価関数の更新は行わない
し、通常ピッチ周期の抽出を行わないので、減算処理も
行わない。
【0042】こうして雑音の影響をなくすことができ
る。なお、雑音評価関数の更新は、加算平均で行っても
よい。実験によると、自動車走行雑音が平均S/Nで1
0dBあったときに、平均誤り率が雑音除去手段が無い
場合の17.6%が、本実施例では4.7%に減少し
た。
【0043】実施例4. 本発明のピッチ抽出装置の他の実施例を説明する。図5
は本実施例でのピッチ抽出装置の構成図である。図にお
いて新規な部分として、8ピッチ周期候補算出手段、9
の予測手段、11の補正ピッチ周期候補算出手段、12
の補正手段がある。その他の、窓手段19、制御手段
4、間引き手段5、ピッチ周期評価関数計算手段6は実
施例1と同様の要素である。本実施例では、ピッチ周期
評価関数の最大値を与える周期を単純にピッチ周期とす
るのではなく、過去の値から予測も行い、いくつかのピ
ッチ周期候補を考え、その中から予測値との差が少ない
補正ピッチ周期候補を求め、ある条件対応でピッチ周
期、補正ピッチ周期、予測ピッチ周期の中から最終の求
めるピッチ周期を得ようとする。
【0044】図6は図5の新規構成要素の動作を説明す
るフローチャート図である。図5と図6に基づき本実施
例の構成による装置の動作を説明する。実施例1と同様
の部分の動作説明は省略する。ピッチ周期評価関数計算
手段6により音声信号1のピッチ周期評価関数が求めら
れる。この値が図6に示すように、ステップS1でピッ
チ周期候補算出手段8により探索されて、S2で最大値
Xとその位置(ピッチ周期候補)を補正手段12に向け
出力する。予測手段9は、ステップS3で過去のMフレ
ームのピッチ周期の系列を用いて現在のフレームの予測
ピッチ周期を算出する。そしてこれを補正ピッチ周期候
補算出手段11と、補正手段12に出力する。ここで、
予測ピッチ周期は、M個のピッチ周期の平均、もしくは
M以下のn次近似予測値として算出することができる。
【0045】補正ピッチ周期候補算出手段11は、ステ
ップS4でピッチ周期評価関数計算手段6からのピッチ
周期評価関数の極大値P1 、P2 〜とその周期q1 、q
2 〜を探索する。ステップS5では、これらの極大値
と、予測手段9からの予測ピッチ周期qとの歪みdI
(=|q−qI |/PI 2)を算出する。そしてステップ
S6でこの歪みを最小にする位置(補正ピッチ周期候
補)を求める。補正手段12では、ステップS7で前記
最大値Xが所定の閾値1より大きいか小さいかを判定す
る。またステップS8で補正ピッチ周期候補と予測ピッ
チ周期との差を算出し、ステップS9で所定の閾値2よ
り大きいか小さいかを判定する。これらの判定結果によ
り、ステップS10〜S12でいずれかのピッチ周期が
選択され、ステップS13で最終の確定したものをピッ
チ周期13として出力する。また予測ピッチ周期算出の
ために、ステップS14でこれを記憶する。
【0046】実施例5. 本発明のピッチ抽出装置の他の実施例を説明する。図7
は本実施例でのピッチ抽出装置の構成図である。図にお
いて新規な部分として、10の信頼度判定手段がある。
その他の各構成要素は今までの各実施例と同様の要素で
あるので、その内容と動作の説明は省略する。ただし補
正手段12の処理の内容が図5及び図6と少し異なって
おり、本実施例における処理については図8で処理フロ
ーチャート図として示す。一般に、過去の抽出結果を現
在のフレームの抽出に利用する場合に、過去のフレーム
で抽出されたピッチ周期がどの程度信頼できるかが判
り、更に現在のフレームのピッチ周期候補が正しい確率
がどの程度か判っていれば、これらを併用してピッチ周
期の抽出誤りが伝播することが少ない、優れたピッチ抽
出が期待できる。
【0047】図7と図8に基づき本実施例の構成による
装置の動作を説明する。先の実施例と同様の動作をする
部分は説明を省略する。音声状態判定手段3は、音声信
号1を分析して、現在のフレームを、有声音、雑音的有
声音、無声音、無音に判別し、判別結果を信頼度判定手
段10に出力する。信頼度判定手段10には、無声状態
判定手段3による判別結果と、補正手段12の最終的な
選択結果および選択過程が入力される。この入力からピ
ッチ周期13の信頼度の判定を行ない、判定結果を予測
手段9に出力する。この信頼度判定とは、例えば、後述
する図8のS23のステップにてS24のステップへ進
んだ場合と、音声状態判定手段3において1つ前のフレ
ームの音声信号1を無声音もしくは無音と判定した場合
と、音声状態判定手段3において現在のフレームの音声
信号1を雑音的有声音と判定した場合にピッチ周期13
の信頼度は低いとし、その他の場合は信頼度は高いとす
る。また、単に、音声信号1のパワーが所定の値以下の
場合に信頼度は低いとしてもよい。
【0048】予測手段9は、過去のMフレームのピッチ
周期の系列と、信頼度判定10が判定した過去のMフレ
ームのピッチ周期の信頼度の系列を用いて、現在のフレ
ームの予測ピッチ周期を算出し、この予測ピッチ周期を
補正周期候補算出手段11と補正手段12に出力する。
例えば、過去のMフレームの中に信頼度の高いピッチ周
期があれば、最も近い過去の信頼度の高いピッチ周期の
値そのもの、もしくは信頼度の高い全てのピッチ周期の
平均、もしくはn(M以下)次近似予測により予測ピッ
チ周期を算出し、過去のMフレームに信頼度の高いピッ
チ周期がない場合には、M個のピッチ周期の平均により
予測ピッチ周期を算出する。補正手段12は、例えば図
8のフローチャートに従って、ピッチ周期候補算出手段
8から入力されたピッチ周期候補、予測手段9から入力
された予測ピッチ周期、補正ピッチ周期候補算出手段1
1から入力された補正ピッチ周期候補のいずれかを選択
し、ピッチ周期13として出力する。
【0049】次に、図8に示した補正手段12内の処理
について説明する。まずS21のステップにて、予測手
段9内に格納されている過去のMフレームのピッチ周期
の信頼度から、予測ピッチ周期の信頼度を算出する。算
出は、例えば、Mフレームの信頼度が全て高くなった
ら、次に全てが低くなるまで予測ピッチ周期の信頼度は
高いとし、逆にMフレームの信頼度が全て低くなった
ら、次に全てが高くなるまで予測ピッチ周期の信頼度は
低いとすればよい。また、信頼度の高いフレーム数が所
定の値以上の場合に予測ピッチ周期の信頼度を高くし、
所定の値未満の場合に予測ピッチ周期の信頼度を低くし
てもよい。次に、S22のステップにて、前記予測ピッ
チ周期の信頼度と、現在のフレームを含む有声音フレー
ムの連鎖数から、以降のステップで用いる閾値a、閾値
b、閾値cを算出し、S23のステップへ進む。ここ
で、有声音フレームの連鎖数が少ない場合と、予測ピッ
チ周期の信頼度が低い場合にはピッチ周期候補が最終的
に選択されやすくなるように各閾値の算出式を与えてお
く。S23のステップにて、ピッチ周期候補算出手段8
から入力されたピッチ周期評価関数の最大値のパワー正
規化値と閾値a、ピッチ周期候補と予測ピッチ周期の誤
差率と閾bを比較して、ピッチ周期評価関数の最大値の
パワー正規化値が閾値aより大きく、かつ誤差率が閾値
bより小さい場合にS29のステップへ進み、それ以外
の場合にはS24のステップへ進む。ここで2つの周期
XとYの間の誤差率は、XとYの差の絶対値を、XとY
の小さい方の値で割ることで算出する。
【0050】S24のステップでは、予測ピッチ周期の
信頼度の高低を調べ、信頼度が高い場合にはS25のス
テップへ、信頼度が中くらいの場合にはS26のステッ
プへ、信頼度が低い場合にはS29のステップへ進む。
S25のステップでは、補正ピッチ周期候補と予測ピッ
チ周期の誤差率と閾値cを比較して、誤差率が閾値cよ
り小さい場合にはS28のステップへ、その他の場合に
はS27のステップへ進む。S26のステップでは、補
正ピッチ周期候補と予測ピッチ周期の誤差率と閾値cを
比較して、誤差率が閾値cより小さい場合にはS28の
ステップへ、その他の場合にはS29のステップへ進
む。S27のステップでは、予測ピッチ周期をピッチ周
期13として選択して、出力する。S28ステップで
は、補正ピッチ周期候補をピッチ周期13として選択し
て、出力する。S29のステップでは、ピッチ周期候補
をピッチ周期13として選択して、出力する。
【0051】実施例6. 上記実施例1ないし実施例5では、最大値検出手段14
もしくはピッチ周期候補算出手段8において、入力され
たピッチ周期評価関数の最大値を検索し、最大値とその
位置を決定している。ピッチ周期評価関数の極大値にお
いて、前後の周期のピッチ周期評価関数の値を用いた曲
線近似、例えば放物線近似を行なって、より精度の高い
最大値とその位置を求める構成も可能である。
【0052】実施例7. 上記実施例4ないし実施例5では、補正ピッチ周期候補
算出手段11において、ピッチ周期評価関数の各極大値
を与える周期について、その周期と予測手段9から入力
された予測ピッチ周期の差と、その周期におけるピッチ
周期評価関数とによって決定される歪を算出している。
これを、前後の周期のピッチ周期評価関数の値を用いた
曲線近似、例えば放物線近似を行って、より精度の高い
極大値の周期を求めて、この周期に対して歪の算出を行
う構成としてもよい。
【0053】実施例8. 上記実施例1では、窓幅・間引き制御手段4として、過
去のピッチ周期の平均値と1つの閾値を比較して、比較
結果により2通りの分析窓長と間引き率のいずれかを選
択する構成となっている。しかし、これを閾値を複数設
けて、分析窓長と間引き率を3通り以上とする構成とし
てもよい。
【0054】実施例9. 上記実施例1では、窓幅・間引き制御手段4として、過
去のピッチ周期の平均値と閾値を比較して、比較結果に
より2通りの分析窓長と間引き率のいずれかを選択する
構成となっている。これを、比較結果により音声信号1
にかける低域通過フィルタの遮断周波数、もしくは分析
窓の種類をも選択させるように構成することもできる。
【0055】実施例10. 本実施例ではパワー情報をピッチ抽出の判定に用いるこ
とで、ピッチの誤抽出を軽減する例を説明する。これ
は、フレームパワーが小さいところは、入力音声信号が
不安定であるためである。具体的には、前後フレームと
の連続性を一切考慮していないピッチ周期を候補とする
ことで、連続誤りを軽減する。図9はこの発明の他の実
施例の構成図である。図9において図19と同一の部分
については同一の符号を付し、説明を省略する。図9に
おいて、新規な部分として、112はパワー計算手段、
113は音声信号のパワーを記憶するバッファであり、
114はピッチ周期候補算出手段、115は補正手段で
ある。ここで前向予測手段110は、過去フレームで抽
出されたピッチ周期との連続性を失わないように現フレ
ームのピッチ周期を予測するものである。即ち、まずフ
レーム-1で抽出されたピッチ周期P-1に対して、フレー
ム0では0.8*P-1〜1.2*P-1の範囲でピッチ周期を求め
る。これから前向予測ピッチ周期PFが求まる。次いで、
フレーム-M+1〜0 で抽出されたピッチ周期におけるピッ
チ周期評価関数の総和を求める。これから前向信頼度CE
F(PF)が求まる。また、後向予測手段105は、未来フ
レームで予測されるピッチ周期との連続性を失わないよ
うに現フレームのピッチ周期を予測するものである。即
ち、まずフレーム0 の全てのピッチ周期に対して、前向
予測手段110と同様にフレーム間でピッチ周期を求め
る範囲を限定しながら、フレーム0〜N-1のピッチ周期を
求める。次いで、フレーム0の全てのピッチ周期に対し
て、フレーム0〜N-1 で抽出されたピッチ周期における
ピッチ周期評価関数の総和を求める。更に上記2つから
求められた値の最大値及びその最大値をとるピッチ周期
を求め、後向信頼度CEB(PB)と、後向予測ピッチ周期PB
を求める。また、ピッチ周期候補算出手段114は、前
後フレームとの連続性を一切考慮せず、現フレームだけ
でピッチ周期を算出するものである。即ち、フレーム0
で範囲制限せずにピッチ周期を求め、ピッチ周期候補PC
を得る。図10(a)で前向予測手段110の動作の様
子を、図10(b)で後向予測手段105の動作の様子
を、図10(c)でピッチ周期候補手段114の動作の
様子を示す。
【0056】以下、本発明の一実施例の動作について説
明する。パワー計算手段112は、音声信号101より
フレーム毎に音声信号パワーを計算し、これをバッファ
113に出力する。バッファ113は前記音声信号パワ
ーをピッチ抽出対象としているフレームの1フレーム過
去からそれ以降を記憶し、ピッチ抽出対象フレームの音
声信号パワーPW0及びその前後1フレームずつの音声信
号パワーPW-1,PW1 を補正手段115に出力する。ピッ
チ周期候補算出手段114はバッファ104より入力さ
れたピッチ周期抽出対象フレームのピッチ周期評価関数
より、例えばその最大値よりピッチ周期候補PCを抽出
し、これを補正手段115に出力する。
【0057】補正手段115は、例えば図11のフロー
チャートに従って、後向予測手段105より入力された
後向信頼度CEB(PB) 、前向予測手段110より入力され
た前向信頼度CEF(PF)と、前記バッファ113から入力
されたパワー情報PW-1,PW0,PW1 を用いて以下の選択を
する。即ち、前記後向予測手段105より入力された後
向予測ピッチ周期PBと前記前向予測手段110より入力
された前向予測ピッチ周期PFと前記ピッチ周期候補算出
手段114より入力されたピッチ周期候補PCのいずれか
を選択し、ピッチ周期102として出力する。ここで
は、PCは、現フレームで求められるピッチ周期で、ピッ
チ周期候補手段114の出力であり、PFは、過去フレー
ムから予測されたピッチ周期で、前向予測手段110の
出力であり、PBは、未来フレームから予測されたピッチ
周期で、後向予測手段105の出力である。またS31
は、PCがPF、PBとほぼ等しい場合は、PCをピッチとして
選択し、S32はPFとPBの信頼度に差異がない場合は、
PC,PF,PBのうちフレームパワーが大きいものを選ぶこと
を意味する。S33は、PFとPBのうち信頼度が大きいも
のを選ぶことを意味する。図11のS31のステップで
は、前記ピッチ周期候補算出手段114より入力された
ピッチ周期候補PCを、後向予測手段105より入力され
た後向予測ピッチ周期PB及び前向予測手段110より入
力された前向予測ピッチ周期PFと比較する。そして、差
異が小さいときはピッチ周期候補PCを最終的なピッチ周
期102とする。
【0058】図11のS32のステップでは、前記S3
1のステップで最終的なピッチ周期102が決まらない
場合、前記後向予測手段105より入力された後向信頼
度CEB (PB)と前記前向予測手段110より入力された前
向信頼度CEF(PF) を比較する。そして、この差異が小さ
いときは、前記バッファ113より入力された音声信号
パワーPW-1,PW0,PW1を比較する。その結果、ピッチ抽出
対象フレームの音声信号パワー PW0がその前後のフレー
ムの音声信号パワーPW-1,PW0に比較して十分に大きい場
合は、ピッチ周期候補PCを最終的なピッチ周期102と
する。それ以外の場合は、ピッチ抽出対象フレームの前
フレームの音声信号パワーPW-1と後フレームの音声信号
パワーPW1を比較する。そして、PW-1 が十分に大きい場
合は前記前向予測ピッチ周期PFを最終的なピッチ周期1
02とし、PW1 が十分に大きい場合は前記後向予測ピッ
チ周期PBを最終的なピッチ周期102とする。図11の
S33のステップでは、前記S31、S32のステップ
で最終的なピッチ周期102が決まらない場合、前記後
向信頼度CEB(PB)と前記前向信頼度CEF(PF)を比較する。
そして、CEB(PB)が大きい場合は前記後向予測ピッチ周
期PB を最終的なピッチ周期102とし、それ以外の場
合は前記前向予測ピッチ周期PFを最終的なピッチ周期1
02とする。
【0059】実施例11. 上記実施例10では、バッファ113にピッチ周期対象
フレームの過去1フレーム以降の音声信号パワーを記憶
し、また補正手段115においては、ピッチ周期対象フ
レーム及びその前後1フレームずつの音声信号パワー情
報のみを用いていた。これを、バッファ113はピッチ
周期対象フレーム及びその過去Mフレーム、未来Nフレ
ームの音声信号パワーを記憶し、これを補正手段115
に出力するようにする。そして、前記補正手段115で
は、前記ピッチ抽出対象フレーム及びその過去Mフレー
ム、未来Nフレームの音声信号パワーの情報を用いて、
例えばピッチ抽出対象フレームのパワーと過去Mフレー
ムにおける平均パワーと未来Nフレームにおける平均パ
ワーとの大小関係を用いて最終的なピッチ周期を選択し
てもよい。
【0060】実施例12. 本実施例では、ピッチ抽出に用いるフレームに無声部が
含まれないようにフレーム数を制御することにより、ピ
ッチの誤抽出を軽減する例を説明する。即ち、有声部の
立ち上がり、立ち下がりの部分を含まないようにする。
図12はこの発明の更に他の実施例を示す構成図であ
る。図12において、図9と同一の部分については同一
の符号を付し、説明を省略する。図12において、新規
な部分は以下の通りである。116はピッチ周期評価関
数を記憶するバッファ、117はフレーム数制御手段、
118はピッチ予測手段である。実施例は、有声部立ち
上がりのフレームのピッチ周期を抽出するとき、隣接す
る無声部からの予測はできないので前向予測区間のフレ
ーム数を0 として、後向予測区間だけからピッチを求め
る。図13は、この様子を説明する図である。
【0061】以下、図12に示した本発明の一実施例の
動作について説明する。バッファ116はピッチ周期評
価関数をピッチ抽出対象フレーム及びその直前Mフレー
ム、直後Nフレーム分記憶し、この(M+N+1)フレ
ームのピッチ周期評価関数をピッチ予測手段118に出
力する。
【0062】フレーム数制御手段117は音声信号10
1を分析する。例えば無声、無声→有声過渡、有声、有
声→無声過渡の4状態に判別し、この判別結果に基づき
ピッチ評価に用いる過去フレーム数M’と未来フレーム
数N’を、例えば以下に示すように決めて、ピッチ予測
手段118に出力する。 無声部 :M’=0,N’=0 無声→有声過渡部:M’=0,N’=N 有声部 :M’=M,N’=N 有声→無声過渡部:M’=M,N’=0
【0063】ピッチ予測手段118は前記バッファ11
6より入力されたピッチ周期評価関数から、前記フレー
ム数制御手段117より入力されたピッチ評価に用いる
過去M’フレーム、未来N’フレームのフレーム数に基
づき、ピッチ抽出対象フレームの予測ピッチ周期P0の信
頼度CE(P0)を、例えば式(5)に従って求める。ここ
で、En(Pn)はピッチ抽出対象フレームからnフレーム離
れたフレームの周期Pnにおけるピッチ周期評価関数であ
り、Pn(n = -M■, ..., -1, 1, ..., N■)はCE(P0)を最
大にするものとして決定する。ただし、Pn(n = -M■,
..., N■)はM’+N’+1)フレーム間で連続的であ
るように、例えば式(6)に従ってその存在範囲を制限
する。
【0064】
【数3】
【0065】次にこの信頼度が最大となるP0を探索し、
これを抽出結果であるピッチ周期102として出力す
る。
【0066】実施例13. 上記実施例12では、予測手段を最終的なピッチ周期を
求めるものとしている。これを例えば、評価に含める後
続フレーム数N=0として従来のピッチ抽出装置の前向
予測手段とする、あるいは評価に含める先行フレーム数
M=0として後向予測手段とするなど、ピッチ抽出装置
の一部として最終的なピッチ周期を求めるための候補を
算出する手段として用いてもよい。
【0067】実施例14. 上記実施例12では、有声無声判定結果に基づき予測手
段におけるピッチ抽出評価に用いるフレーム数を制御し
ているが、従来のピッチ抽出装置において有声無声判定
を行い、その判定結果により例えば無声→有声過渡部で
あれば前向予測手段を用いない、有声→無声過渡部では
後向予測手段を用いないように切り換えるとしても同様
の効果がある。
【0068】実施例15. 普通ピッチ抽出は周期2.5〜16ms程度の範囲で探
索する。しかし、男性では希に16〜25msのピッチ
周期をとる場合がある。ピッチ抽出の範囲を2.5〜2
5msとすれば探索洩れは無くなるが、探索範囲が広い
ために抽出誤りが発生し易くなるので、通常はこれを行
なわない。このため、ピッチ周期が探索範囲を越えて長
い男性の場合には、ピッチ周期を必ず短く間違えてしま
う。本実施例では、この抽出誤りが発生しているかを判
別する。例えば、ボコーダでは、音源信号を生成するた
めに用いるピッチ周期が実際のピッチ周期と大きく異な
ると異音を発生する。そこで、ピッチ正誤フラグにより
生成する音源信号を以下のように定める。フラグ正:抽
出されたピッチ周期のインパルス列を音源信号とする。
フラグ誤:予め設定しておく最大ピッチ周期のインパル
ス列を音源信号とする。こうすることで、ピッチ抽出が
誤っても合成音声が大きく劣化することを防ぐことがで
きる。図14はこの発明の更に他の実施例を示す構成図
である。図14において、201は音声信号、202は
抽出されたピッチ、203はピッチ正誤フラグ、204
はピッチ抽出手段、205はパワー計算手段、206は
誤ピッチ判定手段である。また図15はその動作を説明
する図である。
【0069】以下、図14に示した本発明の一実施例の
動作について説明する。ピッチ抽出手段204は入力音
声よりピッチ周期を抽出し、このピッチ周期をパワー計
算手段205に出力する。パワー計算手段205は前記
ピッチ抽出手段204により入力されたピッチ周期毎に
入力音声のパワーを計算し、これを誤ピッチ判定手段2
06に出力する。図15にピッチ周期が正しく抽出され
た場合(a)のピッチ周期毎のパワーの変遷と、入力音
声のピッチ周期がピッチ探索範囲を越えているため誤ピ
ッチ抽出された場合(b)のピッチ周期毎のパワーの変
遷を示す。図15に示すように誤ピッチ抽出された場合
にはピッチ周期毎のパワーの変化が大きくなる。誤ピッ
チ判定手段206は、前記ピッチ周期毎のパワーの変化
に基づいて、例えば連続するピッチ周期間のパワーの比
が予め定めた閾値よりも大きい場合は誤ピッチと判定す
るとして前記ピッチ周期の正誤を判定し、この判定結果
をピッチ正誤フラグ203として出力する。なお、図1
6は、ピッチ正誤フラグを切換信号としてボコーダに適
用した例を示す図である。
【0070】実施例16. 上記実施例15では、ピッチ正誤フラグを出力するだけ
であるが、誤ピッチと判定された場合には、例えばピッ
チ周期探索範囲を変更して再度ピッチ抽出を行い、正し
いと判定されるまでピッチ周期を求め直すとしても良
い。
【0071】
【発明の効果】以上説明したように請求項1の発明は、
過去のフレームで抽出したピッチ周期の平均値が大きい
ときに分析窓長を長く、間引き率を高くし、逆に前記平
均値が小さいときに分析窓長を短く、間引き率を低くし
て分析するようにしたので、少ない処理量で精度の高い
ピッチ周期の抽出ができる効果がある。
【0072】請求項2の発明は、所定の評価値が最大に
なるように分析窓の位置を決定するようにしたので、抽
出がより安定な信号だけを用いた分析となり、信号の過
渡部分でも精度の高いピッチ周期の抽出ができる効果が
ある。
【0073】請求項3の発明は、無音フレームのピッチ
周期評価関数の平均値を算出して音声のピッチ周期評価
関数から減算するようにしたので、雑音下でも正確なピ
ッチ周期の抽出ができる効果がある。
【0074】請求項4の発明は、過去に抽出されたピッ
チ周期を用いて算出した現在のフレームの予測ピッチ周
期と、ピッチ周期評価関数から算出したピッチ周期候補
と、歪を最小とする補正ピッチ周期候補とから、ピッチ
周期を選択するようにしたので、連続性の高い安定した
ピッチ周期を抽出することができる効果がある。
【0075】請求項5の発明は、音声信号を有声音、無
声音、無音を含む複数のカテゴリに判別し、現在と過去
のフレームの音声信号のカテゴリ判定結果と、補正手段
内の判定結果を用いて信頼度を判定するようにしたの
で、予測ピッチ周期を算出するのに適した信頼度の判定
が成され、連鎖誤りが少ないピッチ周期の抽出ができる
効果がある。
【0076】請求項6の発明は、前向予測ピッチ周期と
後向ピッチ周期の他に前後フレームとの連続性を考えず
に抽出するピッチ周期候補も最終的なピッチ周期選択対
象とし、また、音声信号のパワー情報を用いて最終的な
ピッチ周期を選択するようにしたので、連鎖誤りが少な
く精度の高いピッチ周期の抽出ができる効果がある。
【0077】請求項7の発明は、入力音声の状態に基づ
き評価に用いるフレーム数を変更するようにしたので、
ピッチ評価に不適当なフレームを評価範囲から除外で
き、過渡部でも精度の高いピッチ周期の抽出ができる効
果がある。
【0078】請求項8の発明は、ピッチ抽出結果を入力
音声のピッチ周期毎のパワーにより再評価するようにし
たので、精度の高いピッチ周期の抽出ができる効果があ
る。
【図面の簡単な説明】
【図1】この発明の実施例1の装置の構成図である。
【図2】実施例1に基づく実験結果を示す図である。
【図3】この発明の実施例2の装置の構成図である。
【図4】この発明の実施例3の装置の構成図である。
【図5】この発明の実施例4の装置の構成図である。
【図6】この発明の実施例4の装置の構成要素の動作を
説明するフローチャート図である。
【図7】この発明の実施例5の装置の構成図である。
【図8】実施例5での補正手段の処理フローチャート図
である。
【図9】この発明の実施例10の装置の構成図である。
【図10】図9の各要素の動作の様子を説明する図であ
る。
【図11】図9の装置の処理フローチャート図である。
【図12】この発明の実施例12の装置の構成図であ
る。
【図13】図12の装置の動作を説明する図である。
【図14】この発明の実施例15の装置の構成図であ
る。
【図15】図14の装置の動作を説明する図である。
【図16】実施例15の出力の適用例を示す図である。
【図17】従来のピッチ抽出装置を示す構成図である。
【図18】従来のピッチ抽出装置を示す構成図である。
【図19】従来のピッチ抽出装置を示す構成図である。
【符号の説明】
1 音声信号 2 窓位置決定手段 3 音声状態判定手段 4 制御手段 5 間引き手段 6 ピッチ周期評価関数計算手段 7 雑音除去手段 8 ピッチ周期候補算出手段 9 予測手段 10 信頼度判定手段 11 補正ピッチ周期候補算出手段 12 補正手段 13 ピッチ周期 14 最大値検出手段 15 ピッチ周期高精度抽出手段 16 部分評価関数計算手段 17 重み制御手段 18 判定手段 19 窓判定手段 101 音声信号 102 ピッチ周期 103 ピッチ周期評価関数計算手段 104 バッファ 105 後向予測手段 106 遅延回路 107 遅延回路 108 ピッチ周期評価値算出手段 109 バッファ 110 前向予測手段 111 補正手段 112 パワー計算手段 113 バッファ 114 ピッチ周期候補算出手段 115 補正手段 116 バッファ 117 フレーム数制御手段 118 ピッチ予測手段 201 音声信号 202 ピッチ周期 203 ピッチ正誤フラグ 204 ピッチ抽出手段 205 パワー計算手段 206 誤ピッチ判定手段
フロントページの続き (56)参考文献 特開 昭56−126895(JP,A) 特開 昭59−99497(JP,A) 特開 昭60−195599(JP,A) 特開 昭62−194300(JP,A) 特開 昭59−152496(JP,A) 特開 平1−315798(JP,A) 特開 昭54−124605(JP,A) 特開 昭63−124100(JP,A) 特開 平1−238698(JP,A) 実開 平2−89500(JP,U) (58)調査した分野(Int.Cl.7,DB名) G10L 11/00 - 11/06

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力である音声信号のフレーム毎のサン
    プリング開始から終了までの時間幅である窓の幅を決め
    る窓手段と、 上記窓内の音声信号のピッチ周期を算出するピッチ周期
    算出手段と、 上記フレーム中において上記窓手段における窓を時間方
    向にシフトさせて窓内の音声信号のパワーが最大になる
    よう窓位置を制御する窓位置決定手段を備えたピッチ抽
    出装置。
  2. 【請求項2】 窓内の入力音声信号のサンプリング・デ
    ータに対し間引きサンプリングしてデータ出力する間引
    き手段と、 過去のフレーム毎のピッチ周期平均値が所定の値より大
    きいと上記窓の幅を拡げ、かつ上記間引き手段の間引き
    を多くして粗くし、ピッチ周期の平均値が所定の値より
    小さいと上記窓の幅を狭め、かつ上記間引きを少なくし
    て細かく出力するよう制御する制御手段を備えたことを
    特徴とする請求項1記載のピッチ抽出装置。
JP32897793A 1993-01-07 1993-12-24 ピッチ抽出装置 Expired - Fee Related JP3465941B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP32897793A JP3465941B2 (ja) 1993-01-07 1993-12-24 ピッチ抽出装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP118693 1993-01-07
JP5-1186 1993-01-07
JP32897793A JP3465941B2 (ja) 1993-01-07 1993-12-24 ピッチ抽出装置

Publications (2)

Publication Number Publication Date
JPH06282296A JPH06282296A (ja) 1994-10-07
JP3465941B2 true JP3465941B2 (ja) 2003-11-10

Family

ID=26334367

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32897793A Expired - Fee Related JP3465941B2 (ja) 1993-01-07 1993-12-24 ピッチ抽出装置

Country Status (1)

Country Link
JP (1) JP3465941B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10105195A (ja) * 1996-09-27 1998-04-24 Sony Corp ピッチ検出方法、音声信号符号化方法および装置
JP4505899B2 (ja) * 1999-10-26 2010-07-21 ソニー株式会社 再生速度変換装置及び方法
JP2002312000A (ja) * 2001-04-16 2002-10-25 Sakai Yasue 圧縮方法及び装置、伸長方法及び装置、圧縮伸長システム、ピーク検出方法、プログラム、記録媒体
JP2006220806A (ja) * 2005-02-09 2006-08-24 Kobe Steel Ltd 音声信号処理装置,音声信号処理プログラム,音声信号処理方法
EP2372703A1 (en) 2010-03-11 2011-10-05 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Signal processor, window provider, encoded media signal, method for processing a signal and method for providing a window
CN118009945B (zh) * 2024-04-09 2024-06-28 北京天江源科技有限公司 管道壁厚在线监测***及测厚仪

Also Published As

Publication number Publication date
JPH06282296A (ja) 1994-10-07

Similar Documents

Publication Publication Date Title
KR100770839B1 (ko) 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치
EP0127729B1 (en) Voice messaging system with unified pitch and voice tracking
US7664650B2 (en) Speech speed converting device and speech speed converting method
KR100269216B1 (ko) 스펙트로-템포럴 자기상관을 사용한 피치결정시스템 및 방법
US7752037B2 (en) Pitch extraction methods and systems for speech coding using sub-multiple time lag extraction
JPS597120B2 (ja) 音声分析装置
US20050091045A1 (en) Pitch detection method and apparatus
JPH07508360A (ja) ボキャブラリーモデル予備選択を利用した音声認識システム
JP3465941B2 (ja) ピッチ抽出装置
EP1335349B1 (en) Pitch determination method and apparatus
US20180315444A1 (en) Signal Processing Method and Signal Processing Device
US7236927B2 (en) Pitch extraction methods and systems for speech coding using interpolation techniques
US8849662B2 (en) Method and system for segmenting phonemes from voice signals
CN101290775B (zh) 一种快速实现语音信号变速的方法
JPH07319498A (ja) 音声信号のピッチ周期抽出装置
JPH06161494A (ja) 音声のピッチ区間自動抽出方法
EP1436805B1 (en) 2-phase pitch detection method and appartus
KR0136608B1 (ko) 음성신호 검색용 음성인식 장치
JP2001083978A (ja) 音声認識装置
JP3308847B2 (ja) ピッチ波形切り出し基準位置決定方法とその装置
JP2585214B2 (ja) ピッチ抽出方法
JPH02266400A (ja) 有音/無音判定回路
KR100388488B1 (ko) 유성음 구간에서의 고속 피치 탐색 방법
KR960011132B1 (ko) 씨이엘피(celp) 보코더에서의 피치검색방법
JP2880683B2 (ja) 雑音抑制装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030805

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040520

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070829

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080829

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080829

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090829

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees