JP2004037506A - Method for extracting pitch period of voice signal - Google Patents

Method for extracting pitch period of voice signal Download PDF

Info

Publication number
JP2004037506A
JP2004037506A JP2002190274A JP2002190274A JP2004037506A JP 2004037506 A JP2004037506 A JP 2004037506A JP 2002190274 A JP2002190274 A JP 2002190274A JP 2002190274 A JP2002190274 A JP 2002190274A JP 2004037506 A JP2004037506 A JP 2004037506A
Authority
JP
Japan
Prior art keywords
section
delay time
sum
pitch period
product
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002190274A
Other languages
Japanese (ja)
Other versions
JP3605096B2 (en
Inventor
Tatsuo Inoue
井上 健生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP2002190274A priority Critical patent/JP3605096B2/en
Publication of JP2004037506A publication Critical patent/JP2004037506A/en
Application granted granted Critical
Publication of JP3605096B2 publication Critical patent/JP3605096B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a method for extracting a pitch period of voice signal by which a pitch period is accurately extracted in a short period of processing time. <P>SOLUTION: This method includes a first step for dividing the whole delay time range into a plurality of sections, a second step for determining product sum time lengths respectively when autocorrelation coefficients are calculated for each divided section in accordance with delay time ranges of the sections, a third step for calculating autocorrelation coefficients for each divided section obtained at the first step for delay times in the delay time ranges of the sections by using the product sum time lengths calculated for each divided section, and a fourth step for determining a pitch period on the basis of the autocorrelation coefficients calculated at the third step. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明の属する技術分野】
この発明は、音声信号のピッチ周期抽出方法に関する。
【0002】
【従来の技術】
音声の特徴を表すパラメータの1つにピッチ周期がある。ピッチ周期を利用した音声符号化方式では、ピッチ周期をいかに正確に求めるかが再生音の品質を決定することになる。また、実時間性が要求される音声符号化方式では、処理時間が短いことが要求される。
【0003】
従来は、自己相関を用いたピッチ周期抽出方法が、ピッチ周期抽出の正確さ及び処理時間の短さの両者から見て、実時間に適したピッチ周期抽出方法の1つとされている。
【0004】
自己相関を用いたピッチ周期抽出法として、次の2つの方法が知られている。
【0005】
(1)第1方法
信号は時間制限されていると仮定し、その時間内だけに信号が存在し、その時間外では信号は常に零として自己相関(短時間自己相関)を求める。
【0006】
音声波形をデジタル音声データx(n)で表すと、短時間自己相関Rn(k)は、次式(1)で表される。
【0007】
【数1】

Figure 2004037506
【0008】
ここで、Nは音声信号が存在すると仮定した時間区間であり、kは短時間自己相関Rn(k)を算出ときに音声波形を遅延させる際の遅延時間であり、N≧2kmax の関係がある。したがって、kmax =200である場合には、N≧400となる。そして、短時間自己相関Rn(k)が最大となるkの値がピッチ周期となる。
【0009】
(2)第2方法
信号は時間制限されていないと仮定し、時間長Tの基準となる区間と、ピッチ周期の存在が想定される範囲で時間のずれた時間長Tとの自己相関(変形短時間自己相関)を求める。
【0010】
音声波形をデジタル音声データx(n)で表すと、変形短時間自己相関Rn’(k)は、次式(2)で表される。
【0011】
【数2】
Figure 2004037506
【0012】
ここで、Tは変形短時間自己相関Rn’(k)を算出する際の基準となる時間長であり、kは変形短時間自己相関Rn’(k)を算出ときに音声波形を遅延させる際の遅延時間であり、T≒kmax の関係がある。したがって、kmax =200である場合には、T≒200となる。そして、変形短時間自己相関Rn’(k)が最大となるkの値がピッチ周期となる。
【0013】
第1方法では、ピッチ周期を正確に抽出できるが、ピッチ周期を正確に抽出するためには、自己相関を算出する際の基準となる区間の時間長(N−1−k)を、少なくともピッチ周期の2倍以上に設定する必要があり、このため処理時間が長くなるという欠点がある。
【0014】
第2方法では、自己相関を算出する際の基準となる区間の時間長Tはピッチ周期程度とすればよく、第1方法に比べて自己相関を算出する際の基準となる区間の時間長を短くできるので、処理時間は短くなる。しかしながら、正しいピッチ周期の倍周期のピッチを、誤ってピッチ周期として抽出してしまうおそれがある。
【0015】
第1方法では、第2方法のように正しいピッチ周期の倍周期のピッチを、誤ってピッチ周期として抽出してしまうおそれは少ない。これは、第1方法では、長い周期(kが大きい)に対する自己相関係数ほど、積和区間(N−1−k)が小さくなるため、正しいピッチ周期に対する自己相関係数に比べて、その倍周期に対する自己相関係数が小さくなるからである。
【0016】
第1方法において、自己相関を算出する際の基準となる区間の時間長(N−1−k)をピッチ周期の2倍以上にする必要があるのは、ピッチ周期が短い場合(kが小さい場合)には積和区間(N−1−k)が極端に大きくなり、ピッチ周期が長い場合(kが大きい場合)には積和区間(N−1−k)が極端に小さくなるので、正しいピッチ周期が長い場合において、正しいピッチ周期に対する自己相関係数が、それより短いピッチ周期に対する自己相関係数よりも小さくならならいようにするためである。
【0017】
【発明が解決しようとする課題】
この発明は、処理時間が短くかつピッチ周期を正確に抽出できる音声信号のピッチ周期抽出方法を提供することを目的とする。
【0018】
【課題を解決するための手段】
請求項1に記載の発明は、全遅延時間範囲を複数の区間に分割する第1ステップ、第1ステップで得られた各分割区間毎に、その区間の遅延時間範囲に応じて自己相関係数を算出する際の積和時間長をそれぞれ決定する第2ステップ、第1ステップで得られた各分割区間毎に、それに対して算出された積和時間長を用いて、その区間の遅延時間範囲内の遅延時間それぞれに対する自己相関係数を算出する第3ステップ、および第3ステップで算出された自己相関係数に基づいてピッチ周期を決定する第4ステップを備えていることを特徴とする。
【0019】
請求項2に記載の発明は、請求項1に記載の音声信号のピッチ周期抽出方法において、第1ステップは、各分割区間の遅延時間の最大値が、当該区間の最小値の2倍より小さな値となるように、全遅延時間範囲を複数の区間に分割することを特徴とする。
【0020】
請求項3に記載の発明は、請求項1乃至2に記載の音声信号のピッチ周期抽出方法において、第2ステップは、各分割区間の積和時間長を、対応する分割区間の遅延時間範囲の最大値に近い値に設定することを特徴とする。
【0021】
請求項4に記載の発明は、請求項1乃至2に記載の音声信号のピッチ周期抽出方法において、第1ステップによって全遅延時間範囲が遅延時間の小さい第1区間と遅延時間がそれより大きな第2区間との2つに分割された場合には、第2ステップは、各分割区間の積和時間長を対応する分割区間の遅延時間範囲の最大値に近い値に設定するとともに、第1区間の積和時間長をT1、第2区間の積和時間長をT2とすると、2T1≒Tでかつ2T1>T2の関係が成り立つように各区間の積和時間長T1、T2を設定し、第3ステップにおいて算出される、第1区間の遅延時間kに対する自己相関係数をRn1(k)、第2区間の遅延時間kに対する自己相関係数をRn2(k)とすると、第4ステップは、Rn1(k)およびRn2(k)/2のうち、値が最大となるkをピッチ周期として決定することを特徴とする。
【0022】
請求項5に記載の発明は、請求項1乃至2に記載の音声信号のピッチ周期抽出方法において、第1ステップによって全遅延時間範囲が遅延時間の小さい方から順に第1区間、第2区間および第3区間の3つの区間に分割された場合には、第2ステップは、各分割区間の積和時間長を対応する分割区間の遅延時間範囲の最大値に近い値に設定するとともに、第1区間の積和時間長をT1、第2区間の積和時間長をT2、第3区間の積和時間長をT3とすると、3T1≒2T2≒T3でかつ3T1>2T2>T3の関係が成り立つように各区間の積和時間長T1、T2、T3を設定し、第3ステップにおいて算出される、第1区間の遅延時間kに対する自己相関係数をRn1(k)、第2区間の遅延時間kに対する自己相関係数をRn2(k)、第3区間の遅延時間kに対する自己相関係数をRn3(k)とすると、第4ステップは、Rn1(k)、Rn2(k)/2およびRn3(k)/3のうち、値が最大となるkをピッチ周期として決定することを特徴とする。
【0023】
請求項6に記載の発明は、請求項1乃至2に記載の音声信号のピッチ周期抽出方法において、第1ステップによって全遅延時間範囲が遅延時間の小さい方から順に第1区間、第2区間、第3区間および第4区間の4つの区間に分割された場合には、第2ステップは、各分割区間の積和時間長を対応する分割区間の遅延時間範囲の最大値に近い値に設定するとともに、第1区間の積和時間長をT1、第2区間の積和時間長をT2、第3区間の積和時間長をT3、第4区間の積和時間長をT4とすると、6T1≒3T2≒1.5T2≒T4でかつ6T1>3T2>1.5T3>T4の関係が成り立つように各区間の積和時間長T1、T2、T3、T4を設定し、第3ステップにおいて算出される、第1区間の遅延時間kに対する自己相関係数をRn1(k)、第2区間の遅延時間kに対する自己相関係数をRn2(k)、第3区間の遅延時間kに対する自己相関係数をRn3(k)、第4区間の遅延時間kに対する自己相関係数をRn4(k)とすると、第4ステップは、Rn1(k)、Rn2(k)/2、Rn3(k)/4およびRn3(k)/6のうち、値が最大となるkをピッチ周期として決定することを特徴とする。
【0024】
【発明の実施の形態】
【0025】
〔1〕本発明のピッチ周期抽出方法についての説明
【0026】
本発明のピッチ周期抽出方法について説明する。
【0027】
デジタル音声信号の自己相関係数を計算する際、全遅延時間範囲をピッチ周期の存在が想定される範囲で複数の区間に分割する。分割された各区間毎に、自己相関係数を算出する際の時間長(以下、積和時間長という)をそれぞれ決定する。そして、各区間毎に、それに対して決定された積和時間長を用いて、自己相関係数を算出し、その算出結果に基づいてピッチ周期を決定する。
【0028】
全遅延時間範囲を35≦k<200として、全遅延時間範囲を3つの区間に分割した場合を例にとって説明する。例えば、第1区間を35≦k<65とし、第2区間を65≦k<125とし、第3区間を125≦k<200とすると、各区間の自己相関係数Rn1(k)、Rn2(k)、Rn3(k)は、それぞれ次式(3)、(4)、(5)で表される。
【0029】
【数3】
Figure 2004037506
【0030】
上記式(3)、(4)、(5)において、T1、T2、T3は、各区間における積和時間長を示している。
【0031】
全遅延時間範囲を分割する際には、1つの区間の遅延時間kの最大値が当該区間の遅延時間kの最小値の2倍より小さくなるように、各区間を決定する。例えば、上記第1区間であれば、その区間の遅延時間kの最大値が、当該区間の最小値35の2倍の値70より小さくなるように第1区間を決定する。
【0032】
これは、1つの区間において正しいピッチ周期とそれの2倍のピッチ周期との両方の自己相関係数を算出した場合には、正しいピッチ周期に対する自己相関係数に対して、そのピッチ周期の2倍のピッチ周期に対する自己相関係数が大きくなる可能性があるので、1つの区間において正しいピッチ周期とそのピッチ周期の2倍のピッチ周期との自己相関係数が算出されないようにするためである。
【0033】
遅延時間kの分割区間毎の積和時間長T1、T2、T3を、対応する区間の遅延時間kの最大値程度に設定するとともに、3T1≒2T2≒T3でかつ3T1>2T2>T3の関係が成り立つように設定する。上記の例では、例えば、T1=65、T2=125、T3=185となる。
【0034】
各区間の積和時間長をその区間のkの最大値程度としているのは、入力音声自己相関係数を算出する積和範囲内に、その区間での遅延時間kに対応するピッチ周期のほぼ2倍の波形が含まれるため、ピッチ周期が変化する場合にピッチ周期抽出精度が高くなるからである。
【0035】
上記3つの区間において、Rn1(k)、Rn2(k)、Rn3(k)を、その区間の各遅延時間kについて算出する。そして、Rn1(k)、Rn2(k)/2、Rn3(k)/3のうち、値が最大となるkをピッチ周期として抽出する。
【0036】
各区間の積和時間長を、3T1≒2T2≒T3でかつ3T1>2T2>T3の関係が成り立つように設定しているのは、正しいピッチ周期に対する自己相関係数がその倍周期に対する自己相関係数よりも大きくなるようにして、正しいピッチ周期の倍周期が正しいピッチ周期として誤って抽出されるのを防止するためである。
【0037】
図1および図2、図3および図4、ならびに図5および図6は、入力音声信号の波形が異なる3つの場合の具体例を示している。
【0038】
図1および図2は、遅延時間kが35≦k<200の範囲内の波形のピッチ周期Pが変化していない場合の具体例を示している。
【0039】
図1は従来手法を示し、35≦k<200の範囲に対応したLの範囲の中で、35≦k<200の範囲内の各kについて自己相関係数Rn(k)を算出している。これに対して、図2は、本発明手法を示している。
【0040】
図2(a)は上記式(3)によって表される第1区間での自己相関係数Rn1(k)の算出方法を、図2(b)は上記式(4)によって表される第2区間での自己相関係数Rn2(k)の算出方法を、図2(c)は上記式(5)によって表される第3区間での自己相関係数Rn3(k)の算出方法を、それぞれ示している。
【0041】
第1区間では、35≦k<65の範囲に対応した積和時間長T1で規定される区間L1の範囲内で、35≦k<65の範囲内の各kについて自己相関係数Rn1(k)を算出している。
【0042】
第2区間では、65≦k<125の範囲に対応した積和時間長T2で規定される区間L2の範囲内で、65≦k<125の範囲内の各kについて自己相関係数Rn2(k)を算出している。
【0043】
第3区間では、125≦k<200の範囲に対応した積和時間長T3で規定される区間L3の範囲内で、125≦k<200の範囲内の各kについて自己相関係数Rn3(k)を算出している。
【0044】
従来手法と本発明手法とを比較すると、本発明手法では、第1区間のkの範囲(35≦k<65)および第2区間のkの範囲(65≦k<125)については、自己相関係数の演算量が従来手法に比べて減っており、処理時間が短縮されることが理解できる。また、正しいピッチ周期の倍周期を、正しいピッチ周期として誤って抽出するといったことも防止できる。
【0045】
図2の例では、Rn1(k)、Rn2(k)/2、Rn3(k)/3の全ての中で、値が最大となるのは、第1区間中のk=Pの時のRn1(P)となる。したがって、ピッチ周期はPとなる。
【0046】
図3および図4は、遅延時間kが35≦k<200の範囲内の波形のピッチ周期が小(Ps)から大(Pm)に変化している場合の具体例を示している。
【0047】
図3は従来手法を示し、Lの範囲の中で、35≦k<200の範囲内の各kについて自己相関係数Rn(k)を算出している。このように、自己相関係数を算出する範囲L内に異なるピッチ周期の波形が含まれている場合には、kがピッチ周期PsまたはPmである場合に、自己相関係数Rn(k)が最大となるとは限らなくなるため、正しいピッチ周期を抽出できない可能性がある。Rn(Pm)が最大となって、ピッチ周期をPmとして抽出した場合、ピッチ周期Psの部分もピッチ周期Pmと誤認識するため、不都合が生じる。
【0048】
図4は、本発明手法を示している。図4(a)に示す第1区間では、積和時間長T1で規定される区間L1の範囲内で、35≦k<65の範囲内の各kについて自己相関係数Rn1(k)を算出している。
【0049】
図4(b)に示す第2区間では、積和時間長T2で規定される区間L2の範囲内で、65≦k<125の範囲内の各kについて自己相関係数Rn2(k)を算出している。
【0050】
図4(c)に示す第3区間では、積和時間長T3で規定される区間L3の範囲内で、125≦k<200の範囲内の各kについて自己相関係数Rn3(k)を算出している。
【0051】
図4の例では、Rn1(k)、Rn2(k)/2、Rn3(k)/3の全ての中で値が最大となるのは、自己相関係数を算出する範囲内にピッチ周期Psの波形がほぼ2つ含まれている第1区間中のk=Psの時のRn1(Ps)となる。したがって、ピッチ周期はPsとなる。したがって、ピッチ周期抽出精度が高くなる。
【0052】
図5および図6は、遅延時間kが35≦k<200の範囲内の波形のピッチ周期が大(Pm)から小(Ps)に変化している場合の具体例を示している。
【0053】
図5は従来手法を示し、Lの範囲の中で、35≦k<200の範囲内の各kについて自己相関係数Rn(k)を算出している。このように、自己相関係数を算出する範囲L内に異なるピッチ周期の波形が含まれている場合には、kがピッチ周期PsまたはPmである場合に、自己相関係数Rn(k)が最大となるとは限らなくなるため、正しいピッチ周期を抽出できない可能性がある。Rn(Ps)が最大となって、ピッチ周期をPsとして抽出した場合、ピッチ周期Pmの部分もピッチ周期Psと誤認識するため、不都合が生じる。
【0054】
図6は、本発明手法を示している。図6(a)に示す第1区間では、積和時間長T1で規定される区間L1の範囲内で、35≦k<65の範囲内の各kについて自己相関係数Rn1(k)を算出している。
【0055】
図6(b)に示す第2区間では、積和時間長T2で規定される区間L2の範囲内で、65≦k<125の範囲内の各kについて自己相関係数Rn2(k)を算出している。
【0056】
図6(c)に示す第3区間では、積和時間長T3で規定される区間L3の範囲内で、125≦k<200の範囲内の各kについて自己相関係数Rn3(k)を算出している。
【0057】
図6の例では、Rn1(k)、Rn2(k)/2、Rn3(k)/3の全ての中で値が最大となるのは、自己相関係数を算出する範囲内にピッチ周期Pmの波形がほぼ2つ含まれている第2区間中のk=Pmの時のRn2(Pm)となる。したがって、ピッチ周期はPmとなる。したがって、ピッチ周期抽出精度が高くなる。
【0058】
〔2〕ピッチ周期抽出装置の説明
【0059】
図7は、ピッチ周期抽出装置の構成を示している。
【0060】
入力音声信号は、A/D変換器1によってデジタルの音声信号に変換せしめられる。A/D変換器1によって得られたデジタル音声信号は、自己相関算出手段2に送られる。
【0061】
遅延時間分割手段3は、A/D変換器1のサンプリング周波数に基づいて、kの範囲を分割する。A/D変換器1のサンプリング周波数に基づいて、kの範囲を分割しているのは、A/D変換器1のサンプリング周波数が異なると、ピッチ周期の存在が想定されるピッチ周期範囲が同じであっても、それに対応する遅延時間kの範囲が変化するからである。
【0062】
積和時間長決定手段4は、遅延時間分割手段3によって分割された各区間に対する積和時間長(上記式(3)、(4)、(5)のT1、T2、T3に相当する)を決定する。
【0063】
自己相関算出手段2は、遅延時間分割手段3によって決定された各区間毎に、積和時間長決定手段4によって決定された積和時間長を用いて、自己相関係数を算出する。
【0064】
ピッチ周期検出手段5は、自己相関算出手段2によって算出された各区間での全ての自己相関係数に基づいて、ピッチ周期を求める。自己相関算出手段2が、上記式(3)、(4)、(5)で表されるRn1(k)、Rn2(k)、Rn3(k)を算出するものである場合には、ピッチ周期検出手段5は、Rn1(k)、Rn2(k)/2、Rn3(k)/3のうち、値が最大となるkをピッチ周期として検出する。
【0065】
〔3〕変形例の説明
【0066】
上記実施の形態では、遅延時間kの範囲を3つの区間に分割した場合の例を示したが、遅延時間を3以外の複数の区間に分割してもよい。
【0067】
〔3−1〕遅延時間kの範囲が55≦k<200である場合に、遅延時間kの範囲を2つの区間に分割する場合の例について説明する。
【0068】
例えば、第1区間を55≦k<105とし、第2区間を105≦k<200とすると、各区間の自己相関係数Rn1(k)、Rn2(k)は、それぞれ次式(6)、(7)で表される。
【0069】
【数4】
Figure 2004037506
【0070】
上記式(6)、(7)において、T1、T2は、遅延時間kの各分割区間における積和時間長を示している。この場合には、遅延時間kの分割区間毎の積和時間長T1、T2を、対応する区間のkの最大値程度に設定するとともに、2T1≒T2でかつ2T1>T2の関係が成り立つように設定する。上記の例では、例えば、T1=95、T2=185となる。
【0071】
上記2つの区間において、Rn1(k)、Rn2(k)を、その区間の各遅延時間kについて算出する。そして、Rn1(k)、Rn2(k)/2のうち、値が最大となるkをピッチ周期として抽出する。
【0072】
〔3−2〕遅延時間kの範囲が29≦k<280である場合に、遅延時間kの範囲を4つの区間に分割する場合の例について説明する。
【0073】
例えば、第1区間を29≦k<53とし、第2区間を53≦k<101とし、第3区間を101≦k<197とし、第4区間を197≦k<280とすると、各区間の自己相関係数Rn1(k)、Rn2(k)は、それぞれ次式(8)、(9)、(10)、(11)で表される。
【0074】
【数5】
Figure 2004037506
【0075】
上記式(8)、(9)、(10)、(11)において、T1、T2、T3、T4は、遅延時間kの各分割区間における積和時間長を示している。この場合には、遅延時間kの分割区間毎の積和時間長T1、T2、T3、T4を、対応する区間のkの最大値程度に設定するとともに、6T1≒3T2≒1.5T3≒T4でかつ6T1>3T2>1.5T3>T4の関係が成り立つように設定する。上記の例では、例えば、T1=50、T2=95、T3=185、T4=270となる。
【0076】
上記4つの区間において、Rn1(k)、Rn2(k)、Rn3(k)、Rn4(k)を、その区間の各遅延時間kについて算出する。そして、Rn1(k)、Rn2(k)/2、Rn3(k)/4、Rn4(k)/6のうち、値が最大となるkをピッチ周期として抽出する。
【0077】
【発明の効果】
この発明によれば、処理時間が短くかつピッチ周期を正確に抽出できるようになる。
【図面の簡単な説明】
【図1】遅延時間kが35≦k<200の範囲内の波形のピッチ周期Pが変化していない場合における従来手法による自己相関係数算出方法を説明するための模式図である。
【図2】入力音声信号波形が図1に示す波形である場合において、本発明手法による自己相関係数算出方法を説明するための模式図である。
【図3】遅延時間kが35≦k<200の範囲内の波形のピッチ周期が小(Ps)から大(Pm)に変化している場合における従来手法による自己相関係数算出方法を説明するための模式図である。
【図4】入力音声信号波形が図3に示す波形である場合において、本発明手法による自己相関係数算出方法を説明するための模式図である。
【図5】遅延時間kが35≦k<200の範囲内の波形のピッチ周期が大(Pm)から小(Ps)に変化している場合における従来手法による自己相関係数算出方法を説明するための模式図である。
【図6】入力音声信号波形が図5に示す波形である場合において、本発明手法による自己相関係数算出方法を説明するための模式図である。
【図7】ピッチ周期抽出装置の構成を示すブロック図である。
【符号の説明】
1 A/D変換器
2 自己相関算出手段
3 遅延時間分割手段
4 積和時間長決定手段
5 ピッチ周期検出手段[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a method for extracting a pitch period of an audio signal.
[0002]
[Prior art]
One of the parameters representing the characteristics of speech is a pitch period. In the speech coding method using the pitch period, how accurately the pitch period is determined determines the quality of the reproduced sound. Also, in a speech coding method that requires real-time processing, a short processing time is required.
[0003]
Conventionally, a pitch cycle extraction method using autocorrelation has been regarded as one of the pitch cycle extraction methods suitable for real time in terms of both the accuracy of pitch cycle extraction and the short processing time.
[0004]
The following two methods are known as pitch period extraction methods using autocorrelation.
[0005]
(1) Assuming that the first method signal is time-limited, the signal exists only within the time, and the signal is always zero outside the time, and the autocorrelation (short-time autocorrelation) is obtained.
[0006]
When the audio waveform is represented by digital audio data x (n), the short-time autocorrelation Rn (k) is expressed by the following equation (1).
[0007]
(Equation 1)
Figure 2004037506
[0008]
Here, N is a time section in which a voice signal is assumed to exist, k is a delay time when a voice waveform is delayed when calculating the short-time autocorrelation Rn (k), and a relationship of N ≧ 2k max is satisfied. is there. Therefore, if k max = 200, N ≧ 400. Then, the value of k at which the short-time autocorrelation Rn (k) becomes the maximum is the pitch period.
[0009]
(2) Assuming that the second method signal is not time-limited, the autocorrelation (deformation) between a section serving as a reference for the time length T and a time length T shifted in time within a range in which the existence of a pitch period is assumed. Short-term autocorrelation).
[0010]
When the audio waveform is represented by digital audio data x (n), the modified short-time autocorrelation Rn '(k) is expressed by the following equation (2).
[0011]
(Equation 2)
Figure 2004037506
[0012]
Here, T is a time length serving as a reference when calculating the modified short-time autocorrelation Rn '(k), and k is used when delaying the speech waveform when calculating the modified short-time autocorrelation Rn' (k). And there is a relationship of T ≒ k max . Therefore, if k max = 200, T ≒ 200. Then, the value of k at which the deformed short-time autocorrelation Rn '(k) becomes the maximum is the pitch period.
[0013]
In the first method, the pitch period can be accurately extracted. However, in order to accurately extract the pitch period, the time length (N−1−k) of a section serving as a reference when calculating the autocorrelation must be at least the pitch. It is necessary to set the period to be at least twice as long as the period, so that there is a disadvantage that the processing time becomes long.
[0014]
In the second method, the time length T of the section serving as a reference when calculating the autocorrelation may be approximately the pitch period, and the time length of the section serving as the reference when calculating the autocorrelation is smaller than in the first method. Since it can be shortened, the processing time is shortened. However, there is a possibility that a pitch that is a double cycle of the correct pitch cycle is erroneously extracted as the pitch cycle.
[0015]
In the first method, unlike the second method, there is little possibility that a pitch that is a double cycle of the correct pitch cycle is erroneously extracted as the pitch cycle. This is because, in the first method, the product-sum section (N−1−k) becomes smaller as the autocorrelation coefficient for a longer period (k is larger) becomes larger. This is because the autocorrelation coefficient for the double period becomes smaller.
[0016]
In the first method, the time length (N−1−k) of the section serving as a reference when calculating the autocorrelation needs to be twice or more the pitch period when the pitch period is short (k is small). Case), the product-sum section (N-1-k) becomes extremely large, and if the pitch period is long (k is large), the product-sum section (N-1-k) becomes extremely small. This is so that, when the correct pitch period is long, the autocorrelation coefficient for the correct pitch period does not become smaller than the autocorrelation coefficient for the shorter pitch period.
[0017]
[Problems to be solved by the invention]
SUMMARY OF THE INVENTION It is an object of the present invention to provide a method of extracting a pitch period of an audio signal, which has a short processing time and can accurately extract a pitch period.
[0018]
[Means for Solving the Problems]
A first step of dividing the entire delay time range into a plurality of sections, and for each divided section obtained in the first step, an autocorrelation coefficient according to the delay time range of the section For each of the divided sections obtained in the second step and the first step of determining the sum-of-product time length when calculating the sum, the delay time range of the section is calculated using the sum-of-product time length calculated for the divided section. And a fourth step of determining a pitch cycle based on the autocorrelation coefficient calculated in the third step.
[0019]
According to a second aspect of the present invention, in the audio signal pitch period extracting method according to the first aspect, the first step is such that a maximum value of the delay time of each divided section is smaller than twice a minimum value of the section. It is characterized in that the entire delay time range is divided into a plurality of sections so as to obtain a value.
[0020]
According to a third aspect of the present invention, in the audio signal pitch period extracting method according to any one of the first to second aspects, the second step includes setting a sum-of-product time length of each divided section to a delay time range of the corresponding divided section. It is characterized in that it is set to a value close to the maximum value.
[0021]
According to a fourth aspect of the present invention, in the method of extracting a pitch period of an audio signal according to any one of the first to second aspects, the first step includes a first section in which the entire delay time range has a small delay time and a first section in which the delay time is longer than the first section. In the case of dividing into two sections, the second step is to set the product-sum time length of each divided section to a value close to the maximum value of the delay time range of the corresponding divided section and to set the first section Assuming that the product-sum time length of the second section is T1 and the product-sum time length of the second section is T2, the product-sum time lengths T1 and T2 of each section are set such that 2T1 ≒ T and 2T1> T2 holds. Assuming that the autocorrelation coefficient for the delay time k in the first section is Rn1 (k) and the autocorrelation coefficient for the delay time k in the second section is Rn2 (k), which is calculated in three steps, Rn1 (k) and Rn2 (k) / Of, and determining the k value is maximum as the pitch period.
[0022]
According to a fifth aspect of the present invention, in the voice signal pitch period extracting method according to the first or second aspect, the first step, the first section, the second section, and the second section are arranged in ascending order of delay time by the first step. If the third section is divided into three sections, the second step sets the product-sum time length of each divided section to a value close to the maximum value of the delay time range of the corresponding divided section, and sets the first Assuming that the product sum time length of the section is T1, the product sum time length of the second section is T2, and the product sum time length of the third section is T3, the relation of 3T1 ≒ 2T2 ≒ T3 and 3T1>2T2> T3 holds. Are set as the product-sum time lengths T1, T2, and T3 in each section, and the autocorrelation coefficient for the delay time k in the first section calculated in the third step is Rn1 (k), and the delay time k in the second section is calculated. The autocorrelation coefficient for Rn2 (k), Assuming that the autocorrelation coefficient with respect to the delay time k of three sections is Rn3 (k), the fourth step has the largest value among Rn1 (k), Rn2 (k) / 2 and Rn3 (k) / 3. It is characterized in that k is determined as a pitch period.
[0023]
According to a sixth aspect of the present invention, in the method of extracting a pitch period of an audio signal according to any one of the first to second aspects, the first step, the first section, the second section, When the division is made into four sections of the third section and the fourth section, the second step sets the product-sum time length of each division section to a value close to the maximum value of the delay time range of the corresponding division section. In addition, assuming that the product sum time length of the first section is T1, the product sum time length of the second section is T2, the product sum time length of the third section is T3, and the product sum time length of the fourth section is T4, 6T1 時間The sum-of-product time lengths T1, T2, T3, and T4 of each section are set so that 3T2 ≒ 1.5T2 ≒ T4 and the relationship of 6T1>3T2>1.5T3> T4 is satisfied, and is calculated in the third step. The autocorrelation coefficient for the delay time k of the first section is R 1 (k), the autocorrelation coefficient for the delay time k in the second section is Rn2 (k), the autocorrelation coefficient for the delay time k in the third section is Rn3 (k), and the autocorrelation coefficient for the delay time k in the fourth section is Assuming that the correlation coefficient is Rn4 (k), the fourth step is to determine the maximum value k among Rn1 (k), Rn2 (k) / 2, Rn3 (k) / 4 and Rn3 (k) / 6. Is determined as a pitch period.
[0024]
BEST MODE FOR CARRYING OUT THE INVENTION
[0025]
[1] Description of pitch period extracting method of the present invention
The pitch period extracting method of the present invention will be described.
[0027]
When calculating the autocorrelation coefficient of the digital audio signal, the entire delay time range is divided into a plurality of sections within a range in which the existence of a pitch period is assumed. For each of the divided sections, a time length for calculating the autocorrelation coefficient (hereinafter referred to as a product-sum time length) is determined. Then, for each section, an autocorrelation coefficient is calculated using the product-sum time length determined for the section, and a pitch period is determined based on the calculation result.
[0028]
An example will be described in which the entire delay time range is divided into three sections by setting the total delay time range to 35 ≦ k <200. For example, if the first section is 35 ≦ k <65, the second section is 65 ≦ k <125, and the third section is 125 ≦ k <200, the autocorrelation coefficients Rn1 (k), Rn2 ( k) and Rn3 (k) are represented by the following equations (3), (4), and (5), respectively.
[0029]
[Equation 3]
Figure 2004037506
[0030]
In the above equations (3), (4), and (5), T1, T2, and T3 indicate the product-sum time length in each section.
[0031]
When dividing the entire delay time range, each section is determined such that the maximum value of the delay time k of one section is smaller than twice the minimum value of the delay time k of the section. For example, in the case of the first section, the first section is determined such that the maximum value of the delay time k of the section is smaller than 70, which is twice the minimum value 35 of the section.
[0032]
This is because if the autocorrelation coefficients for both the correct pitch period and twice the pitch period are calculated in one section, the autocorrelation coefficient for the correct pitch period is calculated as 2% of the pitch period. This is because the autocorrelation coefficient with respect to the double pitch cycle may be large, so that the autocorrelation coefficient between the correct pitch cycle and a pitch cycle twice as large as that pitch cycle is not calculated in one section. .
[0033]
The product-sum time lengths T1, T2, and T3 for each of the divided sections of the delay time k are set to about the maximum value of the delay time k of the corresponding section, and the relationship of 3T1 ≒ 2T2 ≒ T3 and 3T1>2T2> T3 is satisfied. Set it to hold. In the above example, for example, T1 = 65, T2 = 125, and T3 = 185.
[0034]
The reason why the sum-of-products time length of each section is about the maximum value of k in the section is that the length of the pitch period corresponding to the delay time k in the section is within the sum-of-products range for calculating the input speech autocorrelation coefficient. This is because the doubled waveform is included, so that when the pitch period changes, the pitch period extraction accuracy increases.
[0035]
In the three sections, Rn1 (k), Rn2 (k), and Rn3 (k) are calculated for each delay time k in the section. Then, of Rn1 (k), Rn2 (k) / 2, and Rn3 (k) / 3, k having the maximum value is extracted as the pitch period.
[0036]
The reason why the product-sum time length of each section is set so that the relationship of 3T1 ≒ 2T2 ≒ T3 and the relationship of 3T1>2T2> T3 holds is that the autocorrelation coefficient for the correct pitch period is the self-phase relationship for the double period. This is to prevent the double period of the correct pitch period from being erroneously extracted as the correct pitch period by making the number larger than the number.
[0037]
FIGS. 1 and 2, FIGS. 3 and 4, and FIGS. 5 and 6 show specific examples of three cases in which the waveforms of the input audio signals are different.
[0038]
1 and 2 show a specific example in which the pitch period P of a waveform whose delay time k is within the range of 35 ≦ k <200 does not change.
[0039]
FIG. 1 shows a conventional method, in which the autocorrelation coefficient Rn (k) is calculated for each k within the range of 35 ≦ k <200 in the range of L corresponding to the range of 35 ≦ k <200. . FIG. 2, on the other hand, shows the method of the present invention.
[0040]
FIG. 2A shows a method of calculating the autocorrelation coefficient Rn1 (k) in the first section represented by the above equation (3), and FIG. 2B shows a second method represented by the above equation (4). FIG. 2C shows a method of calculating the autocorrelation coefficient Rn2 (k) in the section, and FIG. 2C shows a method of calculating the autocorrelation coefficient Rn3 (k) in the third section expressed by the above equation (5). Is shown.
[0041]
In the first section, the auto-correlation coefficient Rn1 (k) for each k within the range of 35 ≦ k <65 within the section L1 defined by the product-sum time length T1 corresponding to the range of 35 ≦ k <65. ) Is calculated.
[0042]
In the second section, an autocorrelation coefficient Rn2 (k) is set for each k within a range of 65 ≦ k <125 within a section L2 defined by a product-sum time length T2 corresponding to a range of 65 ≦ k <125. ) Is calculated.
[0043]
In the third section, the autocorrelation coefficient Rn3 (k is set for each k in the range 125 ≦ k <200 within the section L3 defined by the product-sum time length T3 corresponding to the range 125 ≦ k <200. ) Is calculated.
[0044]
Comparing the conventional method and the method of the present invention, in the method of the present invention, the range of k in the first section (35 ≦ k <65) and the range of k in the second section (65 ≦ k <125) are self-phased. It can be understood that the operation amount of the relation number is reduced as compared with the conventional method, and the processing time is shortened. In addition, it is possible to prevent erroneous extraction of a double cycle of a correct pitch cycle as a correct pitch cycle.
[0045]
In the example of FIG. 2, among all of Rn1 (k), Rn2 (k) / 2, and Rn3 (k) / 3, the value having the maximum value is Rn1 when k = P in the first section. (P). Therefore, the pitch period is P.
[0046]
FIGS. 3 and 4 show a specific example in which the pitch period of the waveform whose delay time k is within the range of 35 ≦ k <200 changes from small (Ps) to large (Pm).
[0047]
FIG. 3 shows a conventional method, in which an autocorrelation coefficient Rn (k) is calculated for each k within a range of 35 ≦ k <200 within a range of L. As described above, when waveforms having different pitch periods are included in the range L for calculating the autocorrelation coefficient, when k is the pitch period Ps or Pm, the autocorrelation coefficient Rn (k) becomes Since it is not always the maximum, there is a possibility that a correct pitch period cannot be extracted. When Rn (Pm) is maximized and the pitch cycle is extracted as Pm, the pitch cycle Ps is erroneously recognized as the pitch cycle Pm, which causes a problem.
[0048]
FIG. 4 illustrates the technique of the present invention. In the first section shown in FIG. 4A, the autocorrelation coefficient Rn1 (k) is calculated for each k within the range of 35 ≦ k <65 within the section L1 defined by the product-sum time length T1. are doing.
[0049]
In the second section shown in FIG. 4B, the autocorrelation coefficient Rn2 (k) is calculated for each k in the range of 65 ≦ k <125 within the section L2 defined by the product-sum time length T2. are doing.
[0050]
In the third section shown in FIG. 4C, the autocorrelation coefficient Rn3 (k) is calculated for each k in the range of 125 ≦ k <200 within the section L3 defined by the product-sum time length T3. are doing.
[0051]
In the example of FIG. 4, the value having the maximum value among all of Rn1 (k), Rn2 (k) / 2, and Rn3 (k) / 3 is the pitch period Ps within the range for calculating the autocorrelation coefficient. Rn1 (Ps) when k = Ps in the first section in which almost two waveforms are included. Therefore, the pitch period is Ps. Therefore, the pitch cycle extraction accuracy is improved.
[0052]
FIGS. 5 and 6 show a specific example in which the pitch period of a waveform whose delay time k is within the range of 35 ≦ k <200 changes from large (Pm) to small (Ps).
[0053]
FIG. 5 shows a conventional method, in which an autocorrelation coefficient Rn (k) is calculated for each k within a range of 35 ≦ k <200 within a range of L. As described above, when waveforms having different pitch periods are included in the range L for calculating the autocorrelation coefficient, when k is the pitch period Ps or Pm, the autocorrelation coefficient Rn (k) becomes Since it is not always the maximum, there is a possibility that a correct pitch period cannot be extracted. When Rn (Ps) is maximized and the pitch cycle is extracted as Ps, the pitch cycle Pm is erroneously recognized as the pitch cycle Ps, which causes a problem.
[0054]
FIG. 6 illustrates the technique of the present invention. In the first section shown in FIG. 6A, the autocorrelation coefficient Rn1 (k) is calculated for each k in the range of 35 ≦ k <65 within the section L1 defined by the product-sum time length T1. are doing.
[0055]
In the second section shown in FIG. 6B, the autocorrelation coefficient Rn2 (k) is calculated for each k in the range of 65 ≦ k <125 within the section L2 defined by the product-sum time length T2. are doing.
[0056]
In the third section shown in FIG. 6C, the autocorrelation coefficient Rn3 (k) is calculated for each k within the range of 125 ≦ k <200 within the section L3 defined by the product-sum time length T3. are doing.
[0057]
In the example of FIG. 6, the value having the maximum value among all of Rn1 (k), Rn2 (k) / 2, and Rn3 (k) / 3 is the pitch period Pm within the range for calculating the autocorrelation coefficient. Rn2 (Pm) at the time of k = Pm in the second section in which almost two waveforms are included. Therefore, the pitch period is Pm. Therefore, the pitch cycle extraction accuracy is improved.
[0058]
[2] Description of pitch period extracting device
FIG. 7 shows the configuration of the pitch period extracting device.
[0060]
The input audio signal is converted into a digital audio signal by the A / D converter 1. The digital audio signal obtained by the A / D converter 1 is sent to the autocorrelation calculating means 2.
[0061]
The delay time dividing means 3 divides the range of k based on the sampling frequency of the A / D converter 1. The reason why the range of k is divided based on the sampling frequency of the A / D converter 1 is that if the sampling frequency of the A / D converter 1 is different, the pitch period range in which the pitch period is assumed to be the same is the same. This is because the range of the delay time k corresponding thereto changes.
[0062]
The sum-of-products time length determining means 4 calculates the sum-of-products time length (corresponding to T1, T2, T3 in the above equations (3), (4), (5)) for each section divided by the delay time dividing means 3. decide.
[0063]
The autocorrelation calculating means 2 calculates an autocorrelation coefficient for each section determined by the delay time dividing means 3 by using the product sum time length determined by the product sum time length determining means 4.
[0064]
The pitch cycle detecting means 5 calculates a pitch cycle based on all the autocorrelation coefficients in each section calculated by the autocorrelation calculating means 2. When the autocorrelation calculating means 2 calculates Rn1 (k), Rn2 (k), and Rn3 (k) represented by the above equations (3), (4), and (5), the pitch period The detecting means 5 detects, as the pitch cycle, k having the maximum value among Rn1 (k), Rn2 (k) / 2, and Rn3 (k) / 3.
[0065]
[3] Description of Modification Example
In the above-described embodiment, an example in which the range of the delay time k is divided into three sections has been described, but the delay time may be divided into a plurality of sections other than three.
[0067]
[3-1] An example in which the range of the delay time k is divided into two sections when the range of the delay time k is 55 ≦ k <200 will be described.
[0068]
For example, if the first section is set to 55 ≦ k <105 and the second section is set to 105 ≦ k <200, the autocorrelation coefficients Rn1 (k) and Rn2 (k) of each section are expressed by the following equations (6), respectively. It is represented by (7).
[0069]
(Equation 4)
Figure 2004037506
[0070]
In the above equations (6) and (7), T1 and T2 indicate the product-sum time length in each divided section of the delay time k. In this case, the product-sum time lengths T1 and T2 of the divided sections of the delay time k are set to about the maximum value of k of the corresponding section, and the relation of 2T1 ≒ T2 and 2T1> T2 holds. Set. In the above example, for example, T1 = 95 and T2 = 185.
[0071]
In the above two sections, Rn1 (k) and Rn2 (k) are calculated for each delay time k in the section. Then, of Rn1 (k) and Rn2 (k) / 2, k having the maximum value is extracted as the pitch cycle.
[0072]
[3-2] An example in which the range of the delay time k is divided into four sections when the range of the delay time k is 29 ≦ k <280 will be described.
[0073]
For example, assuming that the first section is 29 ≦ k <53, the second section is 53 ≦ k <101, the third section is 101 ≦ k <197, and the fourth section is 197 ≦ k <280, The autocorrelation coefficients Rn1 (k) and Rn2 (k) are expressed by the following equations (8), (9), (10), and (11), respectively.
[0074]
(Equation 5)
Figure 2004037506
[0075]
In the above equations (8), (9), (10), and (11), T1, T2, T3, and T4 indicate the product-sum time length in each divided section of the delay time k. In this case, the sum-of-products time lengths T1, T2, T3, and T4 for each divided section of the delay time k are set to about the maximum value of k in the corresponding section, and 6T1 ≒ 3T2 ≒ 1.5T3 ≒ T4. In addition, it is set so that the relationship of 6T1>3T2>1.5T3> T4 is satisfied. In the above example, for example, T1 = 50, T2 = 95, T3 = 185, and T4 = 270.
[0076]
In the above four sections, Rn1 (k), Rn2 (k), Rn3 (k) and Rn4 (k) are calculated for each delay time k in the section. Then, among the Rn1 (k), Rn2 (k) / 2, Rn3 (k) / 4, and Rn4 (k) / 6, k having the maximum value is extracted as the pitch period.
[0077]
【The invention's effect】
According to the present invention, the processing time is short and the pitch period can be accurately extracted.
[Brief description of the drawings]
FIG. 1 is a schematic diagram for explaining a conventional method of calculating an autocorrelation coefficient when a pitch period P of a waveform whose delay time k is within a range of 35 ≦ k <200 does not change.
FIG. 2 is a schematic diagram for explaining a method of calculating an autocorrelation coefficient according to the method of the present invention when the input audio signal waveform is the waveform shown in FIG.
FIG. 3 illustrates a conventional method for calculating an autocorrelation coefficient when a pitch period of a waveform whose delay time k is within a range of 35 ≦ k <200 changes from small (Ps) to large (Pm). FIG.
FIG. 4 is a schematic diagram for explaining a method of calculating an autocorrelation coefficient according to the method of the present invention when the input audio signal waveform is the waveform shown in FIG.
FIG. 5 illustrates a conventional method for calculating an autocorrelation coefficient when the pitch period of a waveform whose delay time k is within the range of 35 ≦ k <200 changes from large (Pm) to small (Ps). FIG.
FIG. 6 is a schematic diagram for explaining an autocorrelation coefficient calculation method according to the method of the present invention when the input audio signal waveform is the waveform shown in FIG.
FIG. 7 is a block diagram illustrating a configuration of a pitch period extracting device.
[Explanation of symbols]
REFERENCE SIGNS LIST 1 A / D converter 2 autocorrelation calculating means 3 delay time dividing means 4 sum of product time length determining means 5 pitch period detecting means

Claims (6)

全遅延時間範囲を複数の区間に分割する第1ステップ、
第1ステップで得られた各分割区間毎に、その区間の遅延時間範囲に応じて自己相関係数を算出する際の積和時間長をそれぞれ決定する第2ステップ、
第1ステップで得られた各分割区間毎に、それに対して算出された積和時間長を用いて、その区間の遅延時間範囲内の遅延時間それぞれに対する自己相関係数を算出する第3ステップ、および
第3ステップで算出された自己相関係数に基づいてピッチ周期を決定する第4ステップ、
を備えていることを特徴とする音声信号のピッチ周期抽出方法。
A first step of dividing the entire delay time range into a plurality of sections,
A second step of determining, for each of the divided sections obtained in the first step, a sum-of-product time length when calculating an autocorrelation coefficient according to a delay time range of the section;
A third step of calculating, for each divided section obtained in the first step, an autocorrelation coefficient for each of the delay times within the delay time range of the section using the product-sum time length calculated for the divided section; And a fourth step of determining a pitch period based on the autocorrelation coefficient calculated in the third step,
A pitch period extraction method for an audio signal, comprising:
第1ステップは、各分割区間の遅延時間の最大値が、当該区間の最小値の2倍より小さな値となるように、全遅延時間範囲を複数の区間に分割することを特徴とする請求項1に記載の音声信号のピッチ周期抽出方法。The first step is to divide the entire delay time range into a plurality of sections so that the maximum value of the delay time of each section is smaller than twice the minimum value of the section. 2. The method for extracting a pitch period of an audio signal according to claim 1. 第2ステップは、各分割区間の積和時間長を、対応する分割区間の遅延時間範囲の最大値に近い値に設定することを特徴とする請求項1および2のいずれかに記載の音声信号のピッチ周期抽出方法。3. The audio signal according to claim 1, wherein the second step sets the product-sum time length of each divided section to a value close to the maximum value of the delay time range of the corresponding divided section. Pitch period extraction method. 第1ステップによって全遅延時間範囲が遅延時間の小さい第1区間と遅延時間がそれより大きな第2区間との2つに分割された場合には、
第2ステップは、各分割区間の積和時間長を対応する分割区間の遅延時間範囲の最大値に近い値に設定するとともに、第1区間の積和時間長をT1、第2区間の積和時間長をT2とすると、2T1≒Tでかつ2T1>T2の関係が成り立つように各区間の積和時間長T1、T2を設定し、
第3ステップにおいて算出される、第1区間の遅延時間kに対する自己相関係数をRn1(k)、第2区間の遅延時間kに対する自己相関係数をRn2(k)とすると、第4ステップは、Rn1(k)およびRn2(k)/2のうち、値が最大となるkをピッチ周期として決定することを特徴とする請求項1および2のいずれかに記載の音声信号のピッチ周期抽出方法。
If the first step divides the entire delay time range into two sections, a first section having a small delay time and a second section having a longer delay time,
In the second step, the sum-of-products time length of each divided section is set to a value close to the maximum value of the delay time range of the corresponding divided section, the sum-of-products time length of the first section is set to T1, and the sum of products of the second section is set. Assuming that the time length is T2, the product-sum time lengths T1 and T2 of each section are set so that 2T1 ≒ T and the relationship of 2T1> T2 holds.
If the autocorrelation coefficient for the delay time k in the first section calculated in the third step is Rn1 (k) and the autocorrelation coefficient for the delay time k in the second section is Rn2 (k), the fourth step is , Rn1 (k) and Rn2 (k) / 2, the k having the largest value is determined as the pitch cycle, and the pitch cycle extraction method according to any one of claims 1 and 2, wherein .
第1ステップによって全遅延時間範囲が遅延時間の小さい方から順に第1区間、第2区間および第3区間の3つの区間に分割された場合には、第2ステップは、各分割区間の積和時間長を対応する分割区間の遅延時間範囲の最大値に近い値に設定するとともに、第1区間の積和時間長をT1、第2区間の積和時間長をT2、第3区間の積和時間長をT3とすると、3T1≒2T2≒T3でかつ3T1>2T2>T3の関係が成り立つように各区間の積和時間長T1、T2、T3を設定し、
第3ステップにおいて算出される、第1区間の遅延時間kに対する自己相関係数をRn1(k)、第2区間の遅延時間kに対する自己相関係数をRn2(k)、第3区間の遅延時間kに対する自己相関係数をRn3(k)とすると、第4ステップは、Rn1(k)、Rn2(k)/2およびRn3(k)/3のうち、値が最大となるkをピッチ周期として決定することを特徴とする請求項1および2のいずれかに記載の音声信号のピッチ周期抽出方法。
When the entire delay time range is divided into three sections of the first section, the second section, and the third section in ascending order of the delay time by the first step, the second step includes calculating the product sum of the divided sections. The time length is set to a value close to the maximum value of the delay time range of the corresponding divided section, the product-sum time length of the first section is T1, the product-sum time length of the second section is T2, and the product-sum of the third section Assuming that the time length is T3, the product-sum time lengths T1, T2, and T3 of each section are set such that 3T1 ≒ 2T2 ≒ T3 and the relationship of 3T1>2T2> T3 holds.
The autocorrelation coefficient for the delay time k in the first section calculated in the third step is Rn1 (k), the autocorrelation coefficient for the delay time k in the second section is Rn2 (k), the delay time in the third section Assuming that the autocorrelation coefficient for k is Rn3 (k), the fourth step is to use k having the maximum value among Rn1 (k), Rn2 (k) / 2 and Rn3 (k) / 3 as the pitch period. 3. The method according to claim 1, wherein the pitch period is determined.
第1ステップによって全遅延時間範囲が遅延時間の小さい方から順に第1区間、第2区間、第3区間および第4区間の4つの区間に分割された場合には、
第2ステップは、各分割区間の積和時間長を対応する分割区間の遅延時間範囲の最大値に近い値に設定するとともに、第1区間の積和時間長をT1、第2区間の積和時間長をT2、第3区間の積和時間長をT3、第4区間の積和時間長をT4とすると、6T1≒3T2≒1.5T2≒T4でかつ6T1>3T2>1.5T3>T4の関係が成り立つように各区間の積和時間長T1、T2、T3、T4を設定し、
第3ステップにおいて算出される、第1区間の遅延時間kに対する自己相関係数をRn1(k)、第2区間の遅延時間kに対する自己相関係数をRn2(k)、第3区間の遅延時間kに対する自己相関係数をRn3(k)、第4区間の遅延時間kに対する自己相関係数をRn4(k)とすると、第4ステップは、Rn1(k)、Rn2(k)/2、Rn3(k)/4およびRn3(k)/6のうち、値が最大となるkをピッチ周期として決定することを特徴とする請求項1および2のいずれかに記載の音声信号のピッチ周期抽出方法。
When the entire delay time range is divided into four sections of a first section, a second section, a third section, and a fourth section in ascending order of the delay time by the first step,
In the second step, the sum-of-products time length of each divided section is set to a value close to the maximum value of the delay time range of the corresponding divided section, the sum-of-products time length of the first section is set to T1, and the sum of products of the second section is set. Assuming that the time length is T2, the product-sum time length of the third section is T3, and the product-sum time length of the fourth section is T4, 6T1 ≒ 3T2 ≒ 1.5T2 ≒ T4 and 6T1>3T2>1.5T3> T4 The product-sum time lengths T1, T2, T3, T4 of each section are set so that the relationship holds,
The autocorrelation coefficient for the delay time k in the first section calculated in the third step is Rn1 (k), the autocorrelation coefficient for the delay time k in the second section is Rn2 (k), the delay time in the third section If the autocorrelation coefficient for k is Rn3 (k) and the autocorrelation coefficient for delay time k in the fourth section is Rn4 (k), the fourth step is Rn1 (k), Rn2 (k) / 2, Rn3 3. The pitch period extracting method for an audio signal according to claim 1, wherein k having a maximum value is determined as a pitch period among (k) / 4 and Rn3 (k) / 6. .
JP2002190274A 2002-06-28 2002-06-28 Method for extracting pitch period of audio signal Expired - Lifetime JP3605096B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002190274A JP3605096B2 (en) 2002-06-28 2002-06-28 Method for extracting pitch period of audio signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002190274A JP3605096B2 (en) 2002-06-28 2002-06-28 Method for extracting pitch period of audio signal

Publications (2)

Publication Number Publication Date
JP2004037506A true JP2004037506A (en) 2004-02-05
JP3605096B2 JP3605096B2 (en) 2004-12-22

Family

ID=31700235

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002190274A Expired - Lifetime JP3605096B2 (en) 2002-06-28 2002-06-28 Method for extracting pitch period of audio signal

Country Status (1)

Country Link
JP (1) JP3605096B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010237269A (en) * 2009-03-30 2010-10-21 Toshiba Corp Speech recognition device, and method thereof and program thereof
JP2010538335A (en) * 2007-09-07 2010-12-09 マイクロソフト コーポレーション Automatic accompaniment for voice melody
US10937449B2 (en) 2016-10-04 2021-03-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for determining a pitch information

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7752038B2 (en) * 2006-10-13 2010-07-06 Nokia Corporation Pitch lag estimation

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010538335A (en) * 2007-09-07 2010-12-09 マイクロソフト コーポレーション Automatic accompaniment for voice melody
JP2010237269A (en) * 2009-03-30 2010-10-21 Toshiba Corp Speech recognition device, and method thereof and program thereof
US10937449B2 (en) 2016-10-04 2021-03-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for determining a pitch information

Also Published As

Publication number Publication date
JP3605096B2 (en) 2004-12-22

Similar Documents

Publication Publication Date Title
JP5732994B2 (en) Music searching apparatus and method, program, and recording medium
US8892430B2 (en) Noise detecting device and noise detecting method
EP1381030A1 (en) Compression method and apparatus, decompression method and apparatus, compression/decompression system, peak detection method, program, and recording medium
JP5204904B2 (en) Audio signal quality prediction
US20050143981A1 (en) Compressing method and apparatus, expanding method and apparatus, compression and expansion system, recorded medium, program
JP3605096B2 (en) Method for extracting pitch period of audio signal
US5819209A (en) Pitch period extracting apparatus of speech signal
KR101483513B1 (en) Apparatus for sound source localizatioin and method for the same
US20150163600A1 (en) Method and computer program product of processing sound segment and hearing aid
JP2008523749A (en) Apparatus and method for determining arrival time of a reception sequence
US7398504B2 (en) Program, method and apparatus for analyzing transmission signals
JP2010026323A (en) Speech speed detection device
US8306828B2 (en) Method and apparatus for audio signal expansion and compression
JP2006054540A (en) Synchronization method of communication
JP2004158925A (en) Digital data processing apparatus and digital data processing method
JP5970985B2 (en) Audio signal processing apparatus, method and program
JP3147562B2 (en) Audio speed conversion method
JP2011027972A (en) Signal processor, signal processing method, and signal processing program
US7337109B2 (en) Multiple step adaptive method for time scaling
JP3074046B2 (en) Voice / music sound identification circuit
WO2022073478A1 (en) Audio signal processing method and apparatus for reducing signal delay, and storage medium
JP2011205324A (en) Voice processor, voice processing method, and program
AU2017438213B2 (en) Method and apparatus for resampling audio signal
TW202226225A (en) Apparatus and method for improved voice activity detection using zero crossing detection
JP2005204020A (en) Digital signal processor

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040921

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040930

R151 Written notification of patent or utility model registration

Ref document number: 3605096

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081008

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091008

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101008

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111008

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121008

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121008

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131008

Year of fee payment: 9

EXPY Cancellation because of completion of term