JP2004037506A - Method for extracting pitch period of voice signal - Google Patents
Method for extracting pitch period of voice signal Download PDFInfo
- Publication number
- JP2004037506A JP2004037506A JP2002190274A JP2002190274A JP2004037506A JP 2004037506 A JP2004037506 A JP 2004037506A JP 2002190274 A JP2002190274 A JP 2002190274A JP 2002190274 A JP2002190274 A JP 2002190274A JP 2004037506 A JP2004037506 A JP 2004037506A
- Authority
- JP
- Japan
- Prior art keywords
- section
- delay time
- sum
- pitch period
- product
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Electrophonic Musical Instruments (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
この発明は、音声信号のピッチ周期抽出方法に関する。
【0002】
【従来の技術】
音声の特徴を表すパラメータの1つにピッチ周期がある。ピッチ周期を利用した音声符号化方式では、ピッチ周期をいかに正確に求めるかが再生音の品質を決定することになる。また、実時間性が要求される音声符号化方式では、処理時間が短いことが要求される。
【0003】
従来は、自己相関を用いたピッチ周期抽出方法が、ピッチ周期抽出の正確さ及び処理時間の短さの両者から見て、実時間に適したピッチ周期抽出方法の1つとされている。
【0004】
自己相関を用いたピッチ周期抽出法として、次の2つの方法が知られている。
【0005】
(1)第1方法
信号は時間制限されていると仮定し、その時間内だけに信号が存在し、その時間外では信号は常に零として自己相関(短時間自己相関)を求める。
【0006】
音声波形をデジタル音声データx(n)で表すと、短時間自己相関Rn(k)は、次式(1)で表される。
【0007】
【数1】
【0008】
ここで、Nは音声信号が存在すると仮定した時間区間であり、kは短時間自己相関Rn(k)を算出ときに音声波形を遅延させる際の遅延時間であり、N≧2kmax の関係がある。したがって、kmax =200である場合には、N≧400となる。そして、短時間自己相関Rn(k)が最大となるkの値がピッチ周期となる。
【0009】
(2)第2方法
信号は時間制限されていないと仮定し、時間長Tの基準となる区間と、ピッチ周期の存在が想定される範囲で時間のずれた時間長Tとの自己相関(変形短時間自己相関)を求める。
【0010】
音声波形をデジタル音声データx(n)で表すと、変形短時間自己相関Rn’(k)は、次式(2)で表される。
【0011】
【数2】
【0012】
ここで、Tは変形短時間自己相関Rn’(k)を算出する際の基準となる時間長であり、kは変形短時間自己相関Rn’(k)を算出ときに音声波形を遅延させる際の遅延時間であり、T≒kmax の関係がある。したがって、kmax =200である場合には、T≒200となる。そして、変形短時間自己相関Rn’(k)が最大となるkの値がピッチ周期となる。
【0013】
第1方法では、ピッチ周期を正確に抽出できるが、ピッチ周期を正確に抽出するためには、自己相関を算出する際の基準となる区間の時間長(N−1−k)を、少なくともピッチ周期の2倍以上に設定する必要があり、このため処理時間が長くなるという欠点がある。
【0014】
第2方法では、自己相関を算出する際の基準となる区間の時間長Tはピッチ周期程度とすればよく、第1方法に比べて自己相関を算出する際の基準となる区間の時間長を短くできるので、処理時間は短くなる。しかしながら、正しいピッチ周期の倍周期のピッチを、誤ってピッチ周期として抽出してしまうおそれがある。
【0015】
第1方法では、第2方法のように正しいピッチ周期の倍周期のピッチを、誤ってピッチ周期として抽出してしまうおそれは少ない。これは、第1方法では、長い周期(kが大きい)に対する自己相関係数ほど、積和区間(N−1−k)が小さくなるため、正しいピッチ周期に対する自己相関係数に比べて、その倍周期に対する自己相関係数が小さくなるからである。
【0016】
第1方法において、自己相関を算出する際の基準となる区間の時間長(N−1−k)をピッチ周期の2倍以上にする必要があるのは、ピッチ周期が短い場合(kが小さい場合)には積和区間(N−1−k)が極端に大きくなり、ピッチ周期が長い場合(kが大きい場合)には積和区間(N−1−k)が極端に小さくなるので、正しいピッチ周期が長い場合において、正しいピッチ周期に対する自己相関係数が、それより短いピッチ周期に対する自己相関係数よりも小さくならならいようにするためである。
【0017】
【発明が解決しようとする課題】
この発明は、処理時間が短くかつピッチ周期を正確に抽出できる音声信号のピッチ周期抽出方法を提供することを目的とする。
【0018】
【課題を解決するための手段】
請求項1に記載の発明は、全遅延時間範囲を複数の区間に分割する第1ステップ、第1ステップで得られた各分割区間毎に、その区間の遅延時間範囲に応じて自己相関係数を算出する際の積和時間長をそれぞれ決定する第2ステップ、第1ステップで得られた各分割区間毎に、それに対して算出された積和時間長を用いて、その区間の遅延時間範囲内の遅延時間それぞれに対する自己相関係数を算出する第3ステップ、および第3ステップで算出された自己相関係数に基づいてピッチ周期を決定する第4ステップを備えていることを特徴とする。
【0019】
請求項2に記載の発明は、請求項1に記載の音声信号のピッチ周期抽出方法において、第1ステップは、各分割区間の遅延時間の最大値が、当該区間の最小値の2倍より小さな値となるように、全遅延時間範囲を複数の区間に分割することを特徴とする。
【0020】
請求項3に記載の発明は、請求項1乃至2に記載の音声信号のピッチ周期抽出方法において、第2ステップは、各分割区間の積和時間長を、対応する分割区間の遅延時間範囲の最大値に近い値に設定することを特徴とする。
【0021】
請求項4に記載の発明は、請求項1乃至2に記載の音声信号のピッチ周期抽出方法において、第1ステップによって全遅延時間範囲が遅延時間の小さい第1区間と遅延時間がそれより大きな第2区間との2つに分割された場合には、第2ステップは、各分割区間の積和時間長を対応する分割区間の遅延時間範囲の最大値に近い値に設定するとともに、第1区間の積和時間長をT1、第2区間の積和時間長をT2とすると、2T1≒Tでかつ2T1>T2の関係が成り立つように各区間の積和時間長T1、T2を設定し、第3ステップにおいて算出される、第1区間の遅延時間kに対する自己相関係数をRn1(k)、第2区間の遅延時間kに対する自己相関係数をRn2(k)とすると、第4ステップは、Rn1(k)およびRn2(k)/2のうち、値が最大となるkをピッチ周期として決定することを特徴とする。
【0022】
請求項5に記載の発明は、請求項1乃至2に記載の音声信号のピッチ周期抽出方法において、第1ステップによって全遅延時間範囲が遅延時間の小さい方から順に第1区間、第2区間および第3区間の3つの区間に分割された場合には、第2ステップは、各分割区間の積和時間長を対応する分割区間の遅延時間範囲の最大値に近い値に設定するとともに、第1区間の積和時間長をT1、第2区間の積和時間長をT2、第3区間の積和時間長をT3とすると、3T1≒2T2≒T3でかつ3T1>2T2>T3の関係が成り立つように各区間の積和時間長T1、T2、T3を設定し、第3ステップにおいて算出される、第1区間の遅延時間kに対する自己相関係数をRn1(k)、第2区間の遅延時間kに対する自己相関係数をRn2(k)、第3区間の遅延時間kに対する自己相関係数をRn3(k)とすると、第4ステップは、Rn1(k)、Rn2(k)/2およびRn3(k)/3のうち、値が最大となるkをピッチ周期として決定することを特徴とする。
【0023】
請求項6に記載の発明は、請求項1乃至2に記載の音声信号のピッチ周期抽出方法において、第1ステップによって全遅延時間範囲が遅延時間の小さい方から順に第1区間、第2区間、第3区間および第4区間の4つの区間に分割された場合には、第2ステップは、各分割区間の積和時間長を対応する分割区間の遅延時間範囲の最大値に近い値に設定するとともに、第1区間の積和時間長をT1、第2区間の積和時間長をT2、第3区間の積和時間長をT3、第4区間の積和時間長をT4とすると、6T1≒3T2≒1.5T2≒T4でかつ6T1>3T2>1.5T3>T4の関係が成り立つように各区間の積和時間長T1、T2、T3、T4を設定し、第3ステップにおいて算出される、第1区間の遅延時間kに対する自己相関係数をRn1(k)、第2区間の遅延時間kに対する自己相関係数をRn2(k)、第3区間の遅延時間kに対する自己相関係数をRn3(k)、第4区間の遅延時間kに対する自己相関係数をRn4(k)とすると、第4ステップは、Rn1(k)、Rn2(k)/2、Rn3(k)/4およびRn3(k)/6のうち、値が最大となるkをピッチ周期として決定することを特徴とする。
【0024】
【発明の実施の形態】
【0025】
〔1〕本発明のピッチ周期抽出方法についての説明
【0026】
本発明のピッチ周期抽出方法について説明する。
【0027】
デジタル音声信号の自己相関係数を計算する際、全遅延時間範囲をピッチ周期の存在が想定される範囲で複数の区間に分割する。分割された各区間毎に、自己相関係数を算出する際の時間長(以下、積和時間長という)をそれぞれ決定する。そして、各区間毎に、それに対して決定された積和時間長を用いて、自己相関係数を算出し、その算出結果に基づいてピッチ周期を決定する。
【0028】
全遅延時間範囲を35≦k<200として、全遅延時間範囲を3つの区間に分割した場合を例にとって説明する。例えば、第1区間を35≦k<65とし、第2区間を65≦k<125とし、第3区間を125≦k<200とすると、各区間の自己相関係数Rn1(k)、Rn2(k)、Rn3(k)は、それぞれ次式(3)、(4)、(5)で表される。
【0029】
【数3】
【0030】
上記式(3)、(4)、(5)において、T1、T2、T3は、各区間における積和時間長を示している。
【0031】
全遅延時間範囲を分割する際には、1つの区間の遅延時間kの最大値が当該区間の遅延時間kの最小値の2倍より小さくなるように、各区間を決定する。例えば、上記第1区間であれば、その区間の遅延時間kの最大値が、当該区間の最小値35の2倍の値70より小さくなるように第1区間を決定する。
【0032】
これは、1つの区間において正しいピッチ周期とそれの2倍のピッチ周期との両方の自己相関係数を算出した場合には、正しいピッチ周期に対する自己相関係数に対して、そのピッチ周期の2倍のピッチ周期に対する自己相関係数が大きくなる可能性があるので、1つの区間において正しいピッチ周期とそのピッチ周期の2倍のピッチ周期との自己相関係数が算出されないようにするためである。
【0033】
遅延時間kの分割区間毎の積和時間長T1、T2、T3を、対応する区間の遅延時間kの最大値程度に設定するとともに、3T1≒2T2≒T3でかつ3T1>2T2>T3の関係が成り立つように設定する。上記の例では、例えば、T1=65、T2=125、T3=185となる。
【0034】
各区間の積和時間長をその区間のkの最大値程度としているのは、入力音声自己相関係数を算出する積和範囲内に、その区間での遅延時間kに対応するピッチ周期のほぼ2倍の波形が含まれるため、ピッチ周期が変化する場合にピッチ周期抽出精度が高くなるからである。
【0035】
上記3つの区間において、Rn1(k)、Rn2(k)、Rn3(k)を、その区間の各遅延時間kについて算出する。そして、Rn1(k)、Rn2(k)/2、Rn3(k)/3のうち、値が最大となるkをピッチ周期として抽出する。
【0036】
各区間の積和時間長を、3T1≒2T2≒T3でかつ3T1>2T2>T3の関係が成り立つように設定しているのは、正しいピッチ周期に対する自己相関係数がその倍周期に対する自己相関係数よりも大きくなるようにして、正しいピッチ周期の倍周期が正しいピッチ周期として誤って抽出されるのを防止するためである。
【0037】
図1および図2、図3および図4、ならびに図5および図6は、入力音声信号の波形が異なる3つの場合の具体例を示している。
【0038】
図1および図2は、遅延時間kが35≦k<200の範囲内の波形のピッチ周期Pが変化していない場合の具体例を示している。
【0039】
図1は従来手法を示し、35≦k<200の範囲に対応したLの範囲の中で、35≦k<200の範囲内の各kについて自己相関係数Rn(k)を算出している。これに対して、図2は、本発明手法を示している。
【0040】
図2(a)は上記式(3)によって表される第1区間での自己相関係数Rn1(k)の算出方法を、図2(b)は上記式(4)によって表される第2区間での自己相関係数Rn2(k)の算出方法を、図2(c)は上記式(5)によって表される第3区間での自己相関係数Rn3(k)の算出方法を、それぞれ示している。
【0041】
第1区間では、35≦k<65の範囲に対応した積和時間長T1で規定される区間L1の範囲内で、35≦k<65の範囲内の各kについて自己相関係数Rn1(k)を算出している。
【0042】
第2区間では、65≦k<125の範囲に対応した積和時間長T2で規定される区間L2の範囲内で、65≦k<125の範囲内の各kについて自己相関係数Rn2(k)を算出している。
【0043】
第3区間では、125≦k<200の範囲に対応した積和時間長T3で規定される区間L3の範囲内で、125≦k<200の範囲内の各kについて自己相関係数Rn3(k)を算出している。
【0044】
従来手法と本発明手法とを比較すると、本発明手法では、第1区間のkの範囲(35≦k<65)および第2区間のkの範囲(65≦k<125)については、自己相関係数の演算量が従来手法に比べて減っており、処理時間が短縮されることが理解できる。また、正しいピッチ周期の倍周期を、正しいピッチ周期として誤って抽出するといったことも防止できる。
【0045】
図2の例では、Rn1(k)、Rn2(k)/2、Rn3(k)/3の全ての中で、値が最大となるのは、第1区間中のk=Pの時のRn1(P)となる。したがって、ピッチ周期はPとなる。
【0046】
図3および図4は、遅延時間kが35≦k<200の範囲内の波形のピッチ周期が小(Ps)から大(Pm)に変化している場合の具体例を示している。
【0047】
図3は従来手法を示し、Lの範囲の中で、35≦k<200の範囲内の各kについて自己相関係数Rn(k)を算出している。このように、自己相関係数を算出する範囲L内に異なるピッチ周期の波形が含まれている場合には、kがピッチ周期PsまたはPmである場合に、自己相関係数Rn(k)が最大となるとは限らなくなるため、正しいピッチ周期を抽出できない可能性がある。Rn(Pm)が最大となって、ピッチ周期をPmとして抽出した場合、ピッチ周期Psの部分もピッチ周期Pmと誤認識するため、不都合が生じる。
【0048】
図4は、本発明手法を示している。図4(a)に示す第1区間では、積和時間長T1で規定される区間L1の範囲内で、35≦k<65の範囲内の各kについて自己相関係数Rn1(k)を算出している。
【0049】
図4(b)に示す第2区間では、積和時間長T2で規定される区間L2の範囲内で、65≦k<125の範囲内の各kについて自己相関係数Rn2(k)を算出している。
【0050】
図4(c)に示す第3区間では、積和時間長T3で規定される区間L3の範囲内で、125≦k<200の範囲内の各kについて自己相関係数Rn3(k)を算出している。
【0051】
図4の例では、Rn1(k)、Rn2(k)/2、Rn3(k)/3の全ての中で値が最大となるのは、自己相関係数を算出する範囲内にピッチ周期Psの波形がほぼ2つ含まれている第1区間中のk=Psの時のRn1(Ps)となる。したがって、ピッチ周期はPsとなる。したがって、ピッチ周期抽出精度が高くなる。
【0052】
図5および図6は、遅延時間kが35≦k<200の範囲内の波形のピッチ周期が大(Pm)から小(Ps)に変化している場合の具体例を示している。
【0053】
図5は従来手法を示し、Lの範囲の中で、35≦k<200の範囲内の各kについて自己相関係数Rn(k)を算出している。このように、自己相関係数を算出する範囲L内に異なるピッチ周期の波形が含まれている場合には、kがピッチ周期PsまたはPmである場合に、自己相関係数Rn(k)が最大となるとは限らなくなるため、正しいピッチ周期を抽出できない可能性がある。Rn(Ps)が最大となって、ピッチ周期をPsとして抽出した場合、ピッチ周期Pmの部分もピッチ周期Psと誤認識するため、不都合が生じる。
【0054】
図6は、本発明手法を示している。図6(a)に示す第1区間では、積和時間長T1で規定される区間L1の範囲内で、35≦k<65の範囲内の各kについて自己相関係数Rn1(k)を算出している。
【0055】
図6(b)に示す第2区間では、積和時間長T2で規定される区間L2の範囲内で、65≦k<125の範囲内の各kについて自己相関係数Rn2(k)を算出している。
【0056】
図6(c)に示す第3区間では、積和時間長T3で規定される区間L3の範囲内で、125≦k<200の範囲内の各kについて自己相関係数Rn3(k)を算出している。
【0057】
図6の例では、Rn1(k)、Rn2(k)/2、Rn3(k)/3の全ての中で値が最大となるのは、自己相関係数を算出する範囲内にピッチ周期Pmの波形がほぼ2つ含まれている第2区間中のk=Pmの時のRn2(Pm)となる。したがって、ピッチ周期はPmとなる。したがって、ピッチ周期抽出精度が高くなる。
【0058】
〔2〕ピッチ周期抽出装置の説明
【0059】
図7は、ピッチ周期抽出装置の構成を示している。
【0060】
入力音声信号は、A/D変換器1によってデジタルの音声信号に変換せしめられる。A/D変換器1によって得られたデジタル音声信号は、自己相関算出手段2に送られる。
【0061】
遅延時間分割手段3は、A/D変換器1のサンプリング周波数に基づいて、kの範囲を分割する。A/D変換器1のサンプリング周波数に基づいて、kの範囲を分割しているのは、A/D変換器1のサンプリング周波数が異なると、ピッチ周期の存在が想定されるピッチ周期範囲が同じであっても、それに対応する遅延時間kの範囲が変化するからである。
【0062】
積和時間長決定手段4は、遅延時間分割手段3によって分割された各区間に対する積和時間長(上記式(3)、(4)、(5)のT1、T2、T3に相当する)を決定する。
【0063】
自己相関算出手段2は、遅延時間分割手段3によって決定された各区間毎に、積和時間長決定手段4によって決定された積和時間長を用いて、自己相関係数を算出する。
【0064】
ピッチ周期検出手段5は、自己相関算出手段2によって算出された各区間での全ての自己相関係数に基づいて、ピッチ周期を求める。自己相関算出手段2が、上記式(3)、(4)、(5)で表されるRn1(k)、Rn2(k)、Rn3(k)を算出するものである場合には、ピッチ周期検出手段5は、Rn1(k)、Rn2(k)/2、Rn3(k)/3のうち、値が最大となるkをピッチ周期として検出する。
【0065】
〔3〕変形例の説明
【0066】
上記実施の形態では、遅延時間kの範囲を3つの区間に分割した場合の例を示したが、遅延時間を3以外の複数の区間に分割してもよい。
【0067】
〔3−1〕遅延時間kの範囲が55≦k<200である場合に、遅延時間kの範囲を2つの区間に分割する場合の例について説明する。
【0068】
例えば、第1区間を55≦k<105とし、第2区間を105≦k<200とすると、各区間の自己相関係数Rn1(k)、Rn2(k)は、それぞれ次式(6)、(7)で表される。
【0069】
【数4】
【0070】
上記式(6)、(7)において、T1、T2は、遅延時間kの各分割区間における積和時間長を示している。この場合には、遅延時間kの分割区間毎の積和時間長T1、T2を、対応する区間のkの最大値程度に設定するとともに、2T1≒T2でかつ2T1>T2の関係が成り立つように設定する。上記の例では、例えば、T1=95、T2=185となる。
【0071】
上記2つの区間において、Rn1(k)、Rn2(k)を、その区間の各遅延時間kについて算出する。そして、Rn1(k)、Rn2(k)/2のうち、値が最大となるkをピッチ周期として抽出する。
【0072】
〔3−2〕遅延時間kの範囲が29≦k<280である場合に、遅延時間kの範囲を4つの区間に分割する場合の例について説明する。
【0073】
例えば、第1区間を29≦k<53とし、第2区間を53≦k<101とし、第3区間を101≦k<197とし、第4区間を197≦k<280とすると、各区間の自己相関係数Rn1(k)、Rn2(k)は、それぞれ次式(8)、(9)、(10)、(11)で表される。
【0074】
【数5】
【0075】
上記式(8)、(9)、(10)、(11)において、T1、T2、T3、T4は、遅延時間kの各分割区間における積和時間長を示している。この場合には、遅延時間kの分割区間毎の積和時間長T1、T2、T3、T4を、対応する区間のkの最大値程度に設定するとともに、6T1≒3T2≒1.5T3≒T4でかつ6T1>3T2>1.5T3>T4の関係が成り立つように設定する。上記の例では、例えば、T1=50、T2=95、T3=185、T4=270となる。
【0076】
上記4つの区間において、Rn1(k)、Rn2(k)、Rn3(k)、Rn4(k)を、その区間の各遅延時間kについて算出する。そして、Rn1(k)、Rn2(k)/2、Rn3(k)/4、Rn4(k)/6のうち、値が最大となるkをピッチ周期として抽出する。
【0077】
【発明の効果】
この発明によれば、処理時間が短くかつピッチ周期を正確に抽出できるようになる。
【図面の簡単な説明】
【図1】遅延時間kが35≦k<200の範囲内の波形のピッチ周期Pが変化していない場合における従来手法による自己相関係数算出方法を説明するための模式図である。
【図2】入力音声信号波形が図1に示す波形である場合において、本発明手法による自己相関係数算出方法を説明するための模式図である。
【図3】遅延時間kが35≦k<200の範囲内の波形のピッチ周期が小(Ps)から大(Pm)に変化している場合における従来手法による自己相関係数算出方法を説明するための模式図である。
【図4】入力音声信号波形が図3に示す波形である場合において、本発明手法による自己相関係数算出方法を説明するための模式図である。
【図5】遅延時間kが35≦k<200の範囲内の波形のピッチ周期が大(Pm)から小(Ps)に変化している場合における従来手法による自己相関係数算出方法を説明するための模式図である。
【図6】入力音声信号波形が図5に示す波形である場合において、本発明手法による自己相関係数算出方法を説明するための模式図である。
【図7】ピッチ周期抽出装置の構成を示すブロック図である。
【符号の説明】
1 A/D変換器
2 自己相関算出手段
3 遅延時間分割手段
4 積和時間長決定手段
5 ピッチ周期検出手段[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a method for extracting a pitch period of an audio signal.
[0002]
[Prior art]
One of the parameters representing the characteristics of speech is a pitch period. In the speech coding method using the pitch period, how accurately the pitch period is determined determines the quality of the reproduced sound. Also, in a speech coding method that requires real-time processing, a short processing time is required.
[0003]
Conventionally, a pitch cycle extraction method using autocorrelation has been regarded as one of the pitch cycle extraction methods suitable for real time in terms of both the accuracy of pitch cycle extraction and the short processing time.
[0004]
The following two methods are known as pitch period extraction methods using autocorrelation.
[0005]
(1) Assuming that the first method signal is time-limited, the signal exists only within the time, and the signal is always zero outside the time, and the autocorrelation (short-time autocorrelation) is obtained.
[0006]
When the audio waveform is represented by digital audio data x (n), the short-time autocorrelation Rn (k) is expressed by the following equation (1).
[0007]
(Equation 1)
[0008]
Here, N is a time section in which a voice signal is assumed to exist, k is a delay time when a voice waveform is delayed when calculating the short-time autocorrelation Rn (k), and a relationship of N ≧ 2k max is satisfied. is there. Therefore, if k max = 200, N ≧ 400. Then, the value of k at which the short-time autocorrelation Rn (k) becomes the maximum is the pitch period.
[0009]
(2) Assuming that the second method signal is not time-limited, the autocorrelation (deformation) between a section serving as a reference for the time length T and a time length T shifted in time within a range in which the existence of a pitch period is assumed. Short-term autocorrelation).
[0010]
When the audio waveform is represented by digital audio data x (n), the modified short-time autocorrelation Rn '(k) is expressed by the following equation (2).
[0011]
(Equation 2)
[0012]
Here, T is a time length serving as a reference when calculating the modified short-time autocorrelation Rn '(k), and k is used when delaying the speech waveform when calculating the modified short-time autocorrelation Rn' (k). And there is a relationship of T ≒ k max . Therefore, if k max = 200, T ≒ 200. Then, the value of k at which the deformed short-time autocorrelation Rn '(k) becomes the maximum is the pitch period.
[0013]
In the first method, the pitch period can be accurately extracted. However, in order to accurately extract the pitch period, the time length (N−1−k) of a section serving as a reference when calculating the autocorrelation must be at least the pitch. It is necessary to set the period to be at least twice as long as the period, so that there is a disadvantage that the processing time becomes long.
[0014]
In the second method, the time length T of the section serving as a reference when calculating the autocorrelation may be approximately the pitch period, and the time length of the section serving as the reference when calculating the autocorrelation is smaller than in the first method. Since it can be shortened, the processing time is shortened. However, there is a possibility that a pitch that is a double cycle of the correct pitch cycle is erroneously extracted as the pitch cycle.
[0015]
In the first method, unlike the second method, there is little possibility that a pitch that is a double cycle of the correct pitch cycle is erroneously extracted as the pitch cycle. This is because, in the first method, the product-sum section (N−1−k) becomes smaller as the autocorrelation coefficient for a longer period (k is larger) becomes larger. This is because the autocorrelation coefficient for the double period becomes smaller.
[0016]
In the first method, the time length (N−1−k) of the section serving as a reference when calculating the autocorrelation needs to be twice or more the pitch period when the pitch period is short (k is small). Case), the product-sum section (N-1-k) becomes extremely large, and if the pitch period is long (k is large), the product-sum section (N-1-k) becomes extremely small. This is so that, when the correct pitch period is long, the autocorrelation coefficient for the correct pitch period does not become smaller than the autocorrelation coefficient for the shorter pitch period.
[0017]
[Problems to be solved by the invention]
SUMMARY OF THE INVENTION It is an object of the present invention to provide a method of extracting a pitch period of an audio signal, which has a short processing time and can accurately extract a pitch period.
[0018]
[Means for Solving the Problems]
A first step of dividing the entire delay time range into a plurality of sections, and for each divided section obtained in the first step, an autocorrelation coefficient according to the delay time range of the section For each of the divided sections obtained in the second step and the first step of determining the sum-of-product time length when calculating the sum, the delay time range of the section is calculated using the sum-of-product time length calculated for the divided section. And a fourth step of determining a pitch cycle based on the autocorrelation coefficient calculated in the third step.
[0019]
According to a second aspect of the present invention, in the audio signal pitch period extracting method according to the first aspect, the first step is such that a maximum value of the delay time of each divided section is smaller than twice a minimum value of the section. It is characterized in that the entire delay time range is divided into a plurality of sections so as to obtain a value.
[0020]
According to a third aspect of the present invention, in the audio signal pitch period extracting method according to any one of the first to second aspects, the second step includes setting a sum-of-product time length of each divided section to a delay time range of the corresponding divided section. It is characterized in that it is set to a value close to the maximum value.
[0021]
According to a fourth aspect of the present invention, in the method of extracting a pitch period of an audio signal according to any one of the first to second aspects, the first step includes a first section in which the entire delay time range has a small delay time and a first section in which the delay time is longer than the first section. In the case of dividing into two sections, the second step is to set the product-sum time length of each divided section to a value close to the maximum value of the delay time range of the corresponding divided section and to set the first section Assuming that the product-sum time length of the second section is T1 and the product-sum time length of the second section is T2, the product-sum time lengths T1 and T2 of each section are set such that 2T1 ≒ T and 2T1> T2 holds. Assuming that the autocorrelation coefficient for the delay time k in the first section is Rn1 (k) and the autocorrelation coefficient for the delay time k in the second section is Rn2 (k), which is calculated in three steps, Rn1 (k) and Rn2 (k) / Of, and determining the k value is maximum as the pitch period.
[0022]
According to a fifth aspect of the present invention, in the voice signal pitch period extracting method according to the first or second aspect, the first step, the first section, the second section, and the second section are arranged in ascending order of delay time by the first step. If the third section is divided into three sections, the second step sets the product-sum time length of each divided section to a value close to the maximum value of the delay time range of the corresponding divided section, and sets the first Assuming that the product sum time length of the section is T1, the product sum time length of the second section is T2, and the product sum time length of the third section is T3, the relation of 3T1 ≒ 2T2 ≒ T3 and 3T1>2T2> T3 holds. Are set as the product-sum time lengths T1, T2, and T3 in each section, and the autocorrelation coefficient for the delay time k in the first section calculated in the third step is Rn1 (k), and the delay time k in the second section is calculated. The autocorrelation coefficient for Rn2 (k), Assuming that the autocorrelation coefficient with respect to the delay time k of three sections is Rn3 (k), the fourth step has the largest value among Rn1 (k), Rn2 (k) / 2 and Rn3 (k) / 3. It is characterized in that k is determined as a pitch period.
[0023]
According to a sixth aspect of the present invention, in the method of extracting a pitch period of an audio signal according to any one of the first to second aspects, the first step, the first section, the second section, When the division is made into four sections of the third section and the fourth section, the second step sets the product-sum time length of each division section to a value close to the maximum value of the delay time range of the corresponding division section. In addition, assuming that the product sum time length of the first section is T1, the product sum time length of the second section is T2, the product sum time length of the third section is T3, and the product sum time length of the fourth section is T4, 6T1 時間The sum-of-product time lengths T1, T2, T3, and T4 of each section are set so that 3T2 ≒ 1.5T2 ≒ T4 and the relationship of 6T1>3T2>1.5T3> T4 is satisfied, and is calculated in the third step. The autocorrelation coefficient for the delay time k of the first section is R 1 (k), the autocorrelation coefficient for the delay time k in the second section is Rn2 (k), the autocorrelation coefficient for the delay time k in the third section is Rn3 (k), and the autocorrelation coefficient for the delay time k in the fourth section is Assuming that the correlation coefficient is Rn4 (k), the fourth step is to determine the maximum value k among Rn1 (k), Rn2 (k) / 2, Rn3 (k) / 4 and Rn3 (k) / 6. Is determined as a pitch period.
[0024]
BEST MODE FOR CARRYING OUT THE INVENTION
[0025]
[1] Description of pitch period extracting method of the present invention
The pitch period extracting method of the present invention will be described.
[0027]
When calculating the autocorrelation coefficient of the digital audio signal, the entire delay time range is divided into a plurality of sections within a range in which the existence of a pitch period is assumed. For each of the divided sections, a time length for calculating the autocorrelation coefficient (hereinafter referred to as a product-sum time length) is determined. Then, for each section, an autocorrelation coefficient is calculated using the product-sum time length determined for the section, and a pitch period is determined based on the calculation result.
[0028]
An example will be described in which the entire delay time range is divided into three sections by setting the total delay time range to 35 ≦ k <200. For example, if the first section is 35 ≦ k <65, the second section is 65 ≦ k <125, and the third section is 125 ≦ k <200, the autocorrelation coefficients Rn1 (k), Rn2 ( k) and Rn3 (k) are represented by the following equations (3), (4), and (5), respectively.
[0029]
[Equation 3]
[0030]
In the above equations (3), (4), and (5), T1, T2, and T3 indicate the product-sum time length in each section.
[0031]
When dividing the entire delay time range, each section is determined such that the maximum value of the delay time k of one section is smaller than twice the minimum value of the delay time k of the section. For example, in the case of the first section, the first section is determined such that the maximum value of the delay time k of the section is smaller than 70, which is twice the minimum value 35 of the section.
[0032]
This is because if the autocorrelation coefficients for both the correct pitch period and twice the pitch period are calculated in one section, the autocorrelation coefficient for the correct pitch period is calculated as 2% of the pitch period. This is because the autocorrelation coefficient with respect to the double pitch cycle may be large, so that the autocorrelation coefficient between the correct pitch cycle and a pitch cycle twice as large as that pitch cycle is not calculated in one section. .
[0033]
The product-sum time lengths T1, T2, and T3 for each of the divided sections of the delay time k are set to about the maximum value of the delay time k of the corresponding section, and the relationship of 3T1 ≒ 2T2 ≒ T3 and 3T1>2T2> T3 is satisfied. Set it to hold. In the above example, for example, T1 = 65, T2 = 125, and T3 = 185.
[0034]
The reason why the sum-of-products time length of each section is about the maximum value of k in the section is that the length of the pitch period corresponding to the delay time k in the section is within the sum-of-products range for calculating the input speech autocorrelation coefficient. This is because the doubled waveform is included, so that when the pitch period changes, the pitch period extraction accuracy increases.
[0035]
In the three sections, Rn1 (k), Rn2 (k), and Rn3 (k) are calculated for each delay time k in the section. Then, of Rn1 (k), Rn2 (k) / 2, and Rn3 (k) / 3, k having the maximum value is extracted as the pitch period.
[0036]
The reason why the product-sum time length of each section is set so that the relationship of 3T1 ≒ 2T2 ≒ T3 and the relationship of 3T1>2T2> T3 holds is that the autocorrelation coefficient for the correct pitch period is the self-phase relationship for the double period. This is to prevent the double period of the correct pitch period from being erroneously extracted as the correct pitch period by making the number larger than the number.
[0037]
FIGS. 1 and 2, FIGS. 3 and 4, and FIGS. 5 and 6 show specific examples of three cases in which the waveforms of the input audio signals are different.
[0038]
1 and 2 show a specific example in which the pitch period P of a waveform whose delay time k is within the range of 35 ≦ k <200 does not change.
[0039]
FIG. 1 shows a conventional method, in which the autocorrelation coefficient Rn (k) is calculated for each k within the range of 35 ≦ k <200 in the range of L corresponding to the range of 35 ≦ k <200. . FIG. 2, on the other hand, shows the method of the present invention.
[0040]
FIG. 2A shows a method of calculating the autocorrelation coefficient Rn1 (k) in the first section represented by the above equation (3), and FIG. 2B shows a second method represented by the above equation (4). FIG. 2C shows a method of calculating the autocorrelation coefficient Rn2 (k) in the section, and FIG. 2C shows a method of calculating the autocorrelation coefficient Rn3 (k) in the third section expressed by the above equation (5). Is shown.
[0041]
In the first section, the auto-correlation coefficient Rn1 (k) for each k within the range of 35 ≦ k <65 within the section L1 defined by the product-sum time length T1 corresponding to the range of 35 ≦ k <65. ) Is calculated.
[0042]
In the second section, an autocorrelation coefficient Rn2 (k) is set for each k within a range of 65 ≦ k <125 within a section L2 defined by a product-sum time length T2 corresponding to a range of 65 ≦ k <125. ) Is calculated.
[0043]
In the third section, the autocorrelation coefficient Rn3 (k is set for each k in the
[0044]
Comparing the conventional method and the method of the present invention, in the method of the present invention, the range of k in the first section (35 ≦ k <65) and the range of k in the second section (65 ≦ k <125) are self-phased. It can be understood that the operation amount of the relation number is reduced as compared with the conventional method, and the processing time is shortened. In addition, it is possible to prevent erroneous extraction of a double cycle of a correct pitch cycle as a correct pitch cycle.
[0045]
In the example of FIG. 2, among all of Rn1 (k), Rn2 (k) / 2, and Rn3 (k) / 3, the value having the maximum value is Rn1 when k = P in the first section. (P). Therefore, the pitch period is P.
[0046]
FIGS. 3 and 4 show a specific example in which the pitch period of the waveform whose delay time k is within the range of 35 ≦ k <200 changes from small (Ps) to large (Pm).
[0047]
FIG. 3 shows a conventional method, in which an autocorrelation coefficient Rn (k) is calculated for each k within a range of 35 ≦ k <200 within a range of L. As described above, when waveforms having different pitch periods are included in the range L for calculating the autocorrelation coefficient, when k is the pitch period Ps or Pm, the autocorrelation coefficient Rn (k) becomes Since it is not always the maximum, there is a possibility that a correct pitch period cannot be extracted. When Rn (Pm) is maximized and the pitch cycle is extracted as Pm, the pitch cycle Ps is erroneously recognized as the pitch cycle Pm, which causes a problem.
[0048]
FIG. 4 illustrates the technique of the present invention. In the first section shown in FIG. 4A, the autocorrelation coefficient Rn1 (k) is calculated for each k within the range of 35 ≦ k <65 within the section L1 defined by the product-sum time length T1. are doing.
[0049]
In the second section shown in FIG. 4B, the autocorrelation coefficient Rn2 (k) is calculated for each k in the range of 65 ≦ k <125 within the section L2 defined by the product-sum time length T2. are doing.
[0050]
In the third section shown in FIG. 4C, the autocorrelation coefficient Rn3 (k) is calculated for each k in the range of 125 ≦ k <200 within the section L3 defined by the product-sum time length T3. are doing.
[0051]
In the example of FIG. 4, the value having the maximum value among all of Rn1 (k), Rn2 (k) / 2, and Rn3 (k) / 3 is the pitch period Ps within the range for calculating the autocorrelation coefficient. Rn1 (Ps) when k = Ps in the first section in which almost two waveforms are included. Therefore, the pitch period is Ps. Therefore, the pitch cycle extraction accuracy is improved.
[0052]
FIGS. 5 and 6 show a specific example in which the pitch period of a waveform whose delay time k is within the range of 35 ≦ k <200 changes from large (Pm) to small (Ps).
[0053]
FIG. 5 shows a conventional method, in which an autocorrelation coefficient Rn (k) is calculated for each k within a range of 35 ≦ k <200 within a range of L. As described above, when waveforms having different pitch periods are included in the range L for calculating the autocorrelation coefficient, when k is the pitch period Ps or Pm, the autocorrelation coefficient Rn (k) becomes Since it is not always the maximum, there is a possibility that a correct pitch period cannot be extracted. When Rn (Ps) is maximized and the pitch cycle is extracted as Ps, the pitch cycle Pm is erroneously recognized as the pitch cycle Ps, which causes a problem.
[0054]
FIG. 6 illustrates the technique of the present invention. In the first section shown in FIG. 6A, the autocorrelation coefficient Rn1 (k) is calculated for each k in the range of 35 ≦ k <65 within the section L1 defined by the product-sum time length T1. are doing.
[0055]
In the second section shown in FIG. 6B, the autocorrelation coefficient Rn2 (k) is calculated for each k in the range of 65 ≦ k <125 within the section L2 defined by the product-sum time length T2. are doing.
[0056]
In the third section shown in FIG. 6C, the autocorrelation coefficient Rn3 (k) is calculated for each k within the range of 125 ≦ k <200 within the section L3 defined by the product-sum time length T3. are doing.
[0057]
In the example of FIG. 6, the value having the maximum value among all of Rn1 (k), Rn2 (k) / 2, and Rn3 (k) / 3 is the pitch period Pm within the range for calculating the autocorrelation coefficient. Rn2 (Pm) at the time of k = Pm in the second section in which almost two waveforms are included. Therefore, the pitch period is Pm. Therefore, the pitch cycle extraction accuracy is improved.
[0058]
[2] Description of pitch period extracting device
FIG. 7 shows the configuration of the pitch period extracting device.
[0060]
The input audio signal is converted into a digital audio signal by the A /
[0061]
The delay time dividing means 3 divides the range of k based on the sampling frequency of the A /
[0062]
The sum-of-products time length determining means 4 calculates the sum-of-products time length (corresponding to T1, T2, T3 in the above equations (3), (4), (5)) for each section divided by the delay time dividing means 3. decide.
[0063]
The autocorrelation calculating means 2 calculates an autocorrelation coefficient for each section determined by the delay time dividing means 3 by using the product sum time length determined by the product sum time length determining means 4.
[0064]
The pitch
[0065]
[3] Description of Modification Example
In the above-described embodiment, an example in which the range of the delay time k is divided into three sections has been described, but the delay time may be divided into a plurality of sections other than three.
[0067]
[3-1] An example in which the range of the delay time k is divided into two sections when the range of the delay time k is 55 ≦ k <200 will be described.
[0068]
For example, if the first section is set to 55 ≦ k <105 and the second section is set to 105 ≦ k <200, the autocorrelation coefficients Rn1 (k) and Rn2 (k) of each section are expressed by the following equations (6), respectively. It is represented by (7).
[0069]
(Equation 4)
[0070]
In the above equations (6) and (7), T1 and T2 indicate the product-sum time length in each divided section of the delay time k. In this case, the product-sum time lengths T1 and T2 of the divided sections of the delay time k are set to about the maximum value of k of the corresponding section, and the relation of 2T1 ≒ T2 and 2T1> T2 holds. Set. In the above example, for example, T1 = 95 and T2 = 185.
[0071]
In the above two sections, Rn1 (k) and Rn2 (k) are calculated for each delay time k in the section. Then, of Rn1 (k) and Rn2 (k) / 2, k having the maximum value is extracted as the pitch cycle.
[0072]
[3-2] An example in which the range of the delay time k is divided into four sections when the range of the delay time k is 29 ≦ k <280 will be described.
[0073]
For example, assuming that the first section is 29 ≦ k <53, the second section is 53 ≦ k <101, the third section is 101 ≦ k <197, and the fourth section is 197 ≦ k <280, The autocorrelation coefficients Rn1 (k) and Rn2 (k) are expressed by the following equations (8), (9), (10), and (11), respectively.
[0074]
(Equation 5)
[0075]
In the above equations (8), (9), (10), and (11), T1, T2, T3, and T4 indicate the product-sum time length in each divided section of the delay time k. In this case, the sum-of-products time lengths T1, T2, T3, and T4 for each divided section of the delay time k are set to about the maximum value of k in the corresponding section, and 6T1 ≒ 3T2 ≒ 1.5T3 ≒ T4. In addition, it is set so that the relationship of 6T1>3T2>1.5T3> T4 is satisfied. In the above example, for example, T1 = 50, T2 = 95, T3 = 185, and T4 = 270.
[0076]
In the above four sections, Rn1 (k), Rn2 (k), Rn3 (k) and Rn4 (k) are calculated for each delay time k in the section. Then, among the Rn1 (k), Rn2 (k) / 2, Rn3 (k) / 4, and Rn4 (k) / 6, k having the maximum value is extracted as the pitch period.
[0077]
【The invention's effect】
According to the present invention, the processing time is short and the pitch period can be accurately extracted.
[Brief description of the drawings]
FIG. 1 is a schematic diagram for explaining a conventional method of calculating an autocorrelation coefficient when a pitch period P of a waveform whose delay time k is within a range of 35 ≦ k <200 does not change.
FIG. 2 is a schematic diagram for explaining a method of calculating an autocorrelation coefficient according to the method of the present invention when the input audio signal waveform is the waveform shown in FIG.
FIG. 3 illustrates a conventional method for calculating an autocorrelation coefficient when a pitch period of a waveform whose delay time k is within a range of 35 ≦ k <200 changes from small (Ps) to large (Pm). FIG.
FIG. 4 is a schematic diagram for explaining a method of calculating an autocorrelation coefficient according to the method of the present invention when the input audio signal waveform is the waveform shown in FIG.
FIG. 5 illustrates a conventional method for calculating an autocorrelation coefficient when the pitch period of a waveform whose delay time k is within the range of 35 ≦ k <200 changes from large (Pm) to small (Ps). FIG.
FIG. 6 is a schematic diagram for explaining an autocorrelation coefficient calculation method according to the method of the present invention when the input audio signal waveform is the waveform shown in FIG.
FIG. 7 is a block diagram illustrating a configuration of a pitch period extracting device.
[Explanation of symbols]
REFERENCE SIGNS LIST 1 A /
Claims (6)
第1ステップで得られた各分割区間毎に、その区間の遅延時間範囲に応じて自己相関係数を算出する際の積和時間長をそれぞれ決定する第2ステップ、
第1ステップで得られた各分割区間毎に、それに対して算出された積和時間長を用いて、その区間の遅延時間範囲内の遅延時間それぞれに対する自己相関係数を算出する第3ステップ、および
第3ステップで算出された自己相関係数に基づいてピッチ周期を決定する第4ステップ、
を備えていることを特徴とする音声信号のピッチ周期抽出方法。A first step of dividing the entire delay time range into a plurality of sections,
A second step of determining, for each of the divided sections obtained in the first step, a sum-of-product time length when calculating an autocorrelation coefficient according to a delay time range of the section;
A third step of calculating, for each divided section obtained in the first step, an autocorrelation coefficient for each of the delay times within the delay time range of the section using the product-sum time length calculated for the divided section; And a fourth step of determining a pitch period based on the autocorrelation coefficient calculated in the third step,
A pitch period extraction method for an audio signal, comprising:
第2ステップは、各分割区間の積和時間長を対応する分割区間の遅延時間範囲の最大値に近い値に設定するとともに、第1区間の積和時間長をT1、第2区間の積和時間長をT2とすると、2T1≒Tでかつ2T1>T2の関係が成り立つように各区間の積和時間長T1、T2を設定し、
第3ステップにおいて算出される、第1区間の遅延時間kに対する自己相関係数をRn1(k)、第2区間の遅延時間kに対する自己相関係数をRn2(k)とすると、第4ステップは、Rn1(k)およびRn2(k)/2のうち、値が最大となるkをピッチ周期として決定することを特徴とする請求項1および2のいずれかに記載の音声信号のピッチ周期抽出方法。If the first step divides the entire delay time range into two sections, a first section having a small delay time and a second section having a longer delay time,
In the second step, the sum-of-products time length of each divided section is set to a value close to the maximum value of the delay time range of the corresponding divided section, the sum-of-products time length of the first section is set to T1, and the sum of products of the second section is set. Assuming that the time length is T2, the product-sum time lengths T1 and T2 of each section are set so that 2T1 ≒ T and the relationship of 2T1> T2 holds.
If the autocorrelation coefficient for the delay time k in the first section calculated in the third step is Rn1 (k) and the autocorrelation coefficient for the delay time k in the second section is Rn2 (k), the fourth step is , Rn1 (k) and Rn2 (k) / 2, the k having the largest value is determined as the pitch cycle, and the pitch cycle extraction method according to any one of claims 1 and 2, wherein .
第3ステップにおいて算出される、第1区間の遅延時間kに対する自己相関係数をRn1(k)、第2区間の遅延時間kに対する自己相関係数をRn2(k)、第3区間の遅延時間kに対する自己相関係数をRn3(k)とすると、第4ステップは、Rn1(k)、Rn2(k)/2およびRn3(k)/3のうち、値が最大となるkをピッチ周期として決定することを特徴とする請求項1および2のいずれかに記載の音声信号のピッチ周期抽出方法。When the entire delay time range is divided into three sections of the first section, the second section, and the third section in ascending order of the delay time by the first step, the second step includes calculating the product sum of the divided sections. The time length is set to a value close to the maximum value of the delay time range of the corresponding divided section, the product-sum time length of the first section is T1, the product-sum time length of the second section is T2, and the product-sum of the third section Assuming that the time length is T3, the product-sum time lengths T1, T2, and T3 of each section are set such that 3T1 ≒ 2T2 ≒ T3 and the relationship of 3T1>2T2> T3 holds.
The autocorrelation coefficient for the delay time k in the first section calculated in the third step is Rn1 (k), the autocorrelation coefficient for the delay time k in the second section is Rn2 (k), the delay time in the third section Assuming that the autocorrelation coefficient for k is Rn3 (k), the fourth step is to use k having the maximum value among Rn1 (k), Rn2 (k) / 2 and Rn3 (k) / 3 as the pitch period. 3. The method according to claim 1, wherein the pitch period is determined.
第2ステップは、各分割区間の積和時間長を対応する分割区間の遅延時間範囲の最大値に近い値に設定するとともに、第1区間の積和時間長をT1、第2区間の積和時間長をT2、第3区間の積和時間長をT3、第4区間の積和時間長をT4とすると、6T1≒3T2≒1.5T2≒T4でかつ6T1>3T2>1.5T3>T4の関係が成り立つように各区間の積和時間長T1、T2、T3、T4を設定し、
第3ステップにおいて算出される、第1区間の遅延時間kに対する自己相関係数をRn1(k)、第2区間の遅延時間kに対する自己相関係数をRn2(k)、第3区間の遅延時間kに対する自己相関係数をRn3(k)、第4区間の遅延時間kに対する自己相関係数をRn4(k)とすると、第4ステップは、Rn1(k)、Rn2(k)/2、Rn3(k)/4およびRn3(k)/6のうち、値が最大となるkをピッチ周期として決定することを特徴とする請求項1および2のいずれかに記載の音声信号のピッチ周期抽出方法。When the entire delay time range is divided into four sections of a first section, a second section, a third section, and a fourth section in ascending order of the delay time by the first step,
In the second step, the sum-of-products time length of each divided section is set to a value close to the maximum value of the delay time range of the corresponding divided section, the sum-of-products time length of the first section is set to T1, and the sum of products of the second section is set. Assuming that the time length is T2, the product-sum time length of the third section is T3, and the product-sum time length of the fourth section is T4, 6T1 ≒ 3T2 ≒ 1.5T2 ≒ T4 and 6T1>3T2>1.5T3> T4 The product-sum time lengths T1, T2, T3, T4 of each section are set so that the relationship holds,
The autocorrelation coefficient for the delay time k in the first section calculated in the third step is Rn1 (k), the autocorrelation coefficient for the delay time k in the second section is Rn2 (k), the delay time in the third section If the autocorrelation coefficient for k is Rn3 (k) and the autocorrelation coefficient for delay time k in the fourth section is Rn4 (k), the fourth step is Rn1 (k), Rn2 (k) / 2, Rn3 3. The pitch period extracting method for an audio signal according to claim 1, wherein k having a maximum value is determined as a pitch period among (k) / 4 and Rn3 (k) / 6. .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002190274A JP3605096B2 (en) | 2002-06-28 | 2002-06-28 | Method for extracting pitch period of audio signal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002190274A JP3605096B2 (en) | 2002-06-28 | 2002-06-28 | Method for extracting pitch period of audio signal |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004037506A true JP2004037506A (en) | 2004-02-05 |
JP3605096B2 JP3605096B2 (en) | 2004-12-22 |
Family
ID=31700235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002190274A Expired - Lifetime JP3605096B2 (en) | 2002-06-28 | 2002-06-28 | Method for extracting pitch period of audio signal |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3605096B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010237269A (en) * | 2009-03-30 | 2010-10-21 | Toshiba Corp | Speech recognition device, and method thereof and program thereof |
JP2010538335A (en) * | 2007-09-07 | 2010-12-09 | マイクロソフト コーポレーション | Automatic accompaniment for voice melody |
US10937449B2 (en) | 2016-10-04 | 2021-03-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for determining a pitch information |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7752038B2 (en) * | 2006-10-13 | 2010-07-06 | Nokia Corporation | Pitch lag estimation |
-
2002
- 2002-06-28 JP JP2002190274A patent/JP3605096B2/en not_active Expired - Lifetime
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010538335A (en) * | 2007-09-07 | 2010-12-09 | マイクロソフト コーポレーション | Automatic accompaniment for voice melody |
JP2010237269A (en) * | 2009-03-30 | 2010-10-21 | Toshiba Corp | Speech recognition device, and method thereof and program thereof |
US10937449B2 (en) | 2016-10-04 | 2021-03-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for determining a pitch information |
Also Published As
Publication number | Publication date |
---|---|
JP3605096B2 (en) | 2004-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5732994B2 (en) | Music searching apparatus and method, program, and recording medium | |
US8892430B2 (en) | Noise detecting device and noise detecting method | |
EP1381030A1 (en) | Compression method and apparatus, decompression method and apparatus, compression/decompression system, peak detection method, program, and recording medium | |
JP5204904B2 (en) | Audio signal quality prediction | |
US20050143981A1 (en) | Compressing method and apparatus, expanding method and apparatus, compression and expansion system, recorded medium, program | |
JP3605096B2 (en) | Method for extracting pitch period of audio signal | |
US5819209A (en) | Pitch period extracting apparatus of speech signal | |
KR101483513B1 (en) | Apparatus for sound source localizatioin and method for the same | |
US20150163600A1 (en) | Method and computer program product of processing sound segment and hearing aid | |
JP2008523749A (en) | Apparatus and method for determining arrival time of a reception sequence | |
US7398504B2 (en) | Program, method and apparatus for analyzing transmission signals | |
JP2010026323A (en) | Speech speed detection device | |
US8306828B2 (en) | Method and apparatus for audio signal expansion and compression | |
JP2006054540A (en) | Synchronization method of communication | |
JP2004158925A (en) | Digital data processing apparatus and digital data processing method | |
JP5970985B2 (en) | Audio signal processing apparatus, method and program | |
JP3147562B2 (en) | Audio speed conversion method | |
JP2011027972A (en) | Signal processor, signal processing method, and signal processing program | |
US7337109B2 (en) | Multiple step adaptive method for time scaling | |
JP3074046B2 (en) | Voice / music sound identification circuit | |
WO2022073478A1 (en) | Audio signal processing method and apparatus for reducing signal delay, and storage medium | |
JP2011205324A (en) | Voice processor, voice processing method, and program | |
AU2017438213B2 (en) | Method and apparatus for resampling audio signal | |
TW202226225A (en) | Apparatus and method for improved voice activity detection using zero crossing detection | |
JP2005204020A (en) | Digital signal processor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040615 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040622 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040823 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040921 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040930 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 3605096 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081008 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091008 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101008 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111008 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121008 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121008 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131008 Year of fee payment: 9 |
|
EXPY | Cancellation because of completion of term |