JPS6254296A - Pitch extractor - Google Patents

Pitch extractor

Info

Publication number
JPS6254296A
JPS6254296A JP61122691A JP12269186A JPS6254296A JP S6254296 A JPS6254296 A JP S6254296A JP 61122691 A JP61122691 A JP 61122691A JP 12269186 A JP12269186 A JP 12269186A JP S6254296 A JPS6254296 A JP S6254296A
Authority
JP
Japan
Prior art keywords
pitch
value
extraction device
analysis frame
basic analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61122691A
Other languages
Japanese (ja)
Other versions
JPH0731504B2 (en
Inventor
哲 田口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPS6254296A publication Critical patent/JPS6254296A/en
Publication of JPH0731504B2 publication Critical patent/JPH0731504B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Working-Up Tar And Pitch (AREA)
  • Complex Calculations (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明はピッチ抽出装置、特に音声波形の繰返し性?表
現する媒介変数を介して音声のピッチ周期もしくはピッ
チ周波数全抽出するピッチ抽出装置に関する0 〔従来の技術〕 音声波形の繰返し性を表現する媒介変数、例えば自己相
関係数を介して音声のピッチ周期もしくはピッチ周波数
(以下単にピッチ周期と言う)全抽出する種々のピッチ
抽出法が従来から提案さnているがピッチ検索誤りの観
点からみて完全と言える手法は未だ確立されていないと
言ってよく、その中では最もピッチ検索誤り全小さくす
ることができる手法に動的計画法(Dynamin  
Pro −grarnmlng s以下DPと略称する
)全応用して所望のピッチ周期系列を求めるものがあり
、りとえば、特開昭54−905.“ピッチ抽出装置“
等に詳述さ扛ている。
[Detailed Description of the Invention] [Industrial Field of Application] The present invention relates to a pitch extraction device, particularly to the repeatability of audio waveforms. Related to a pitch extraction device that extracts the entire pitch period or pitch frequency of a voice through a parametric variable that expresses it [Prior art] The pitch period of a voice is extracted through a parametric variable that expresses the repeatability of a voice waveform, such as an autocorrelation coefficient. Alternatively, various pitch extraction methods have been proposed in the past that extract all pitch frequencies (hereinafter simply referred to as pitch periods), but it can be said that no method that can be considered perfect from the viewpoint of pitch search errors has yet been established. Among them, the method that can most minimize pitch search error is dynamic programming (Dynamin).
There are methods to obtain a desired pitch period sequence by applying all the methods (hereinafter abbreviated as DP), for example, Japanese Patent Application Laid-Open No. 54-905. “Pitch extraction device”
etc. are detailed.

〔発明が解決しようとする問題点〕[Problem that the invention seeks to solve]

しかしながら従来のこの種のDPk応用した抽出装置に
も次のような2つの欠点が存在する。
However, this type of conventional extractor applying DPk also has the following two drawbacks.

すなわち、従来のDPはDPババスしての傾斜制限範囲
内に含ま牡るすべでの自己相関係数等全対象として総当
り的に最適パスの選択全行ガうものでちゃ、連続的にピ
ッチが存在する有声音の場合は別として無音にもとエフ
、無声音の場合でも必らずしも滑らかなピッチ連続性が
無いため良好に動作しないことが多く、このため音声を
分析。
In other words, in the conventional DP, the optimal path is selected in a brute force manner for all objects including the autocorrelation coefficients of all the objects included within the slope limit range of the DP Babas, and the pitch is continuously calculated. Apart from the case of voiced sounds where there is a voiced sound, even unvoiced sounds often do not work well because there is not necessarily a smooth pitch continuity, and for this reason the sound is analyzed.

合成したあとで再度音声の位相を調整するための音声切
出しいわゆるセグメンテーション(seg−menta
tion ) k行なうか、もしくはセグメンテーショ
ンを施しつつ分析、合成することが必要となるという運
用上の制約がある0また。上述した総当り的DP手法自
体、演算量が膨大なものとなるという欠点がある。
Segmentation (segmentation) is used to cut out the audio to adjust the phase of the audio again after synthesis.
tion) There are operational constraints such as the need to perform analysis and synthesis while performing segmentation or segmentation. The above-mentioned brute force DP method itself has the drawback that the amount of calculation becomes enormous.

本発明の目的も上述した欠点全除去し、セグメンテーシ
ョン全根本的に不要として運用制約音大幅に緩和した融
通性の高いものとするとともに演算量も大幅に低減した
DP千手法もとづくピッチ抽出装置を提供することにあ
る。
The purpose of the present invention is to provide a pitch extraction device based on the DP thousand method which eliminates all of the above-mentioned drawbacks, completely eliminates the need for segmentation, greatly reduces operational constraints, has high flexibility, and greatly reduces the amount of calculations. It's about doing.

〔問題点を解決するための手段〕[Means for solving problems]

本発明の装置は、音声波形の繰返し性を表現する媒介変
数を介して音声のピッチ周期もしくはピッチ周波数全抽
出するピッチ抽出装置であって、予め設定する基本分析
周期毎に算出した媒介変数全弁し少数のピッチ候補と、
これらの候補のピッチ性を示す評価値とを抽出する手段
と、前記基本分析フレームの予め設定した複数個からな
る区分毎に、前記少数のピッチ候補の列と、これらの候
補のピッチ性を示す評価値の列とから、プツチ候補の列
の連続性と、こnらの評価値の列の総合評価値と音用い
てピッチ周期もしくはピッチ周波数全決定する手段とを
備えたことを特徴とする。
The device of the present invention is a pitch extraction device that extracts the entire pitch period or pitch frequency of a voice through a parametric variable that expresses the repeatability of a voice waveform. and a small number of pitch candidates,
means for extracting an evaluation value indicating the pitch characteristics of these candidates; and a means for extracting an evaluation value indicating the pitch characteristics of these candidates; The present invention is characterized by comprising means for determining the pitch period or pitch frequency entirely from the sequence of evaluation values, using the continuity of the sequence of petit candidates, and the overall evaluation value of the sequence of evaluation values and the sound. .

〔実施例〕〔Example〕

次に、音声波形の繰返し性を表現する媒介変数として自
己相関係数音用いた実施例上水した図面全参照して、本
発明の詳細な説明する。
Next, the present invention will be described in detail with reference to all the drawings showing an embodiment in which an autocorrelation coefficient sound is used as a parameter expressing the repeatability of a speech waveform.

第1図を参照すると、本発明の第一の実施例の構成は、
自己相関係数算出器1.評価値算出器2゜極大値検索器
3.メモリ4お工びDPプロセッサ5等全金偏て構成さ
扛る。
Referring to FIG. 1, the configuration of the first embodiment of the present invention is as follows:
Autocorrelation coefficient calculator 1. Evaluation value calculator 2° Maximum value searcher 3. Memory 4, DP processor 5, etc. are all arranged in a biased manner.

自己相関係数算出器lは、音声入力金堂けるとこn’に
所定のサンプリング周波数で標本化したあと所定のビッ
ト数で量子化したうえ予め設定した基本分析フレームと
しての20m5ECごとに予め設定する時間遅扛範囲に
わたって自己相関係数ρi全求めこf147評価算出器
2に送出する。自己相関係数算出器1は、Pi 算出の
過程で求めら扛る力する。
The autocorrelation coefficient calculator l samples the audio input signal n' at a predetermined sampling frequency, quantizes it with a predetermined number of bits, and then calculates a preset time every 20m5EC as a preset basic analysis frame. The autocorrelation coefficient ρi is completely determined over the delay range and sent to f147 evaluation calculator 2. The autocorrelation coefficient calculator 1 calculates the force calculated in the process of calculating Pi.

上述した基本分析フレームは音声入力がほぼ定常的と見
做しうる時間全対象として予め設定され、また自己相関
係数ρiは次の(1)式で示さ扛る。
The above-mentioned basic analysis frame is set in advance for all times during which the voice input can be considered to be substantially stationary, and the autocorrelation coefficient ρi is expressed by the following equation (1).

(1)式においてXjは各基本分析フレーム内の量子化
音声信号の標本値列でjはその番号、またiは予め設定
した遅れ時間で、ここでは抽出せんとするピッチ周期の
分布範囲にもとづいて設定され、本実施ではピッチ周期
の分布範囲全2.5 m SEC〜15m5圧に設定し
、かつ標本化のためのサンプリング周波数が8KHzと
しているのでiとしては20〜120タツプとして決定
さnる。
In equation (1), Xj is the sample value sequence of the quantized audio signal in each basic analysis frame, j is its number, and i is the preset delay time, which is based on the distribution range of the pitch period to be extracted. In this implementation, the pitch period distribution range is set to 2.5 m SEC to 15 m5 pressure, and the sampling frequency for sampling is 8 KHz, so i is determined as 20 to 120 taps. .

さて、評価値算出器2は以上のようにして得らnた自己
相関係数ρik基本分析フレームごとに入力しこ扛と電
力Pとの関数としての次の(2)式に示す評価値gik
算出する。
Now, the evaluation value calculator 2 calculates the n autocorrelation coefficient ρik obtained as described above, and the evaluation value gik as a function of the power P and the input force P for each basic analysis frame, as shown in the following equation (2).
calculate.

g・=fCP・ 、P)    ・・・・・・・・・ 
(2)評価値g−に自己相関係数Piと電力との関数と
して求めることは、ピッチ周期に’lE力を介して有声
/無声/無音の状態に極力忠実に対応して抽出せしめる
ために実施される。このような目的に等のいずれによる
値を介して表現しても工く任童に設定しうる。
g・=fCP・ , P) ・・・・・・・・・
(2) The evaluation value g- is obtained as a function of the autocorrelation coefficient Pi and the power in order to extract the voiced/unvoiced/silent states as faithfully as possible through the 'lE force on the pitch period. Implemented. For such purposes, it can be expressed through any value and set to the desired value.

この工うガミ力Pと自己相関係数Piとの関数として設
定さ扛る評価関数gi=f(ρi+ p)は。
The evaluation function gi=f(ρi+p) is set as a function of the applied force P and the autocorrelation coefficient Pi.

たとえば次の(3)式もしくは(4)式で示さnるg、
1゜gi、等が考えら扛るO g・ = ρ・ 、LogP     ・・・・・・・
・・ (3)tl       1 gi、 : Pi  −P      ・・・・・・・
・・ (4)なお、たとえば(4)式における特許例と
して電力1−(1)式の分母によって表わす場合金考え
てみると、この場合gi は非正規化自己相関係数とし
てのφi” 、! X J + 1と等しくgt=φi
となpコニ1 自己相関係算出器1によって算出さ扛るφ・そのもの全
giとして利用することも可能となハ この場合評価値
算出器2は自己相関係数算出器1に↓って代行すること
ができる。
For example, g shown in the following equation (3) or (4),
1゜gi, etc. can be considered as O g・ = ρ・ , LogP ・・・・・・・・・
... (3) tl 1 gi, : Pi -P ......
(4) For example, as a patent example in equation (4), if we consider the case where power is expressed by 1 - the denominator of equation (1), then in this case gi is φi'' as a non-normalized autocorrelation coefficient, !Equal to X J + 1 gt=φi
It is also possible to use the φ calculated by the autocorrelation calculator 1 as the entire gi. In this case, the evaluation value calculator 2 acts as a substitute for the autocorrelation coefficient calculator 1. can do.

評価値giは極大値検索器3に供給さnるが、この評価
値giは上述した内容からも明らかな如く自己相関係数
Piに対応してその値が大となる。極大値検索器3はこ
うして入力する基本分析フレームごとの自己相関係数列
の極大値を評価値gi全介して検索しつつそのタップ位
置と極大値とをメモリ4に供給する。
The evaluation value gi is supplied to the maximum value searcher 3, and as is clear from the above description, the evaluation value gi increases in value in accordance with the autocorrelation coefficient Pi. The maximum value search device 3 thus searches for the maximum value of the autocorrelation coefficient sequence for each input basic analysis frame through all evaluation values gi, and supplies the tap position and maximum value to the memory 4.

メモリ4はこうして入力する基本分析フレームごとの自
己相関係数列の極大値とそのタップ位置に関するデータ
とを予め定める複数の基本分析フレームから成る区分単
位で記憶する。
The memory 4 stores the local maximum value of the autocorrelation coefficient sequence for each input basic analysis frame and data regarding its tap position in units of divisions consisting of a plurality of predetermined basic analysis frames.

DPプロセッサ5はメモリ4に記憶さ扛ている自己相関
係数列の極大値とタップ位置とを区分ごとに読出し、極
大値のみをピッチ候補としかつ各ピッチ候補の前基本分
析フレームに対するパスはピッチ候補の直下もしくは直
上の極大値のものに制限したうえ、さらに(2)式に示
す関数giによる評価値を利用しこの積算値を最大なら
しめるDPパス全形成するタップ位置全もつ自己相関係
数列を所望のピッチ列データとして決定し出力する。
The DP processor 5 reads out the local maximum values and tap positions of the autocorrelation coefficient sequence stored in the memory 4 for each section, and uses only the local maximum values as pitch candidates, and the path to the previous basic analysis frame of each pitch candidate as a pitch candidate. In addition to limiting the value to those with a maximum value directly below or directly above, the autocorrelation coefficient sequence with all the tap positions forming all the DP paths that maximizes this integrated value by using the evaluation value by the function gi shown in equation (2) is calculated. It is determined and output as desired pitch row data.

いまこのDPにおける評価値ks(t、i)で−10= 表わすものとする。ここにtは区分内の基本分析フレー
ムのフレーム番号、またiは前述した如くピッチ周期の
検索範囲で本実施例の場合20〜】20タツグとなって
いる。
Now, it is assumed that the evaluation value ks(t, i) for this DP is expressed as -10=. Here, t is the frame number of the basic analysis frame within the division, and i is the pitch period search range as described above, which in this embodiment is 20 to 20 tags.

本発明によるDPはS(t、i)によるDP評価値の積
算値を最大とする最適DPババス提供するピッチ周期を
次の(5)式で示す漸化式を次々に解いていくことによ
って求めることがその基本であ・・・・・−・−・・(
5) 、t (5)式においてS(t、 1)  は基本分析フレー
ム番号t、タップiにある極太値のピッチ候補のDP評
価値、pはこの極太値のタップ位置金倉みそnニジも直
上の、またqに直下のタッグ位置にある前基本分析フレ
ームの極大値のタップ位置上水す。
The DP according to the present invention is determined by successively solving the recurrence formula shown in the following equation (5) to find the pitch period that maximizes the integrated value of the DP evaluation values by S(t, i) and provides the optimal DP barbus. That is the basics...
5), t In formula (5), S(t, 1) is the basic analysis frame number t, the DP evaluation value of the pitch candidate with the extremely thick value at tap i, and p is the tap position of this extremely thick value, which is also directly above Kanakura Miso n Niji. , and the tap position of the maximum value of the previous basic analysis frame located at the tag position directly below q.

第2図は第一実施例におけるDPババス定の内容全説明
するためのDPババス定説明図である。
FIG. 2 is an explanatory diagram of the DP Babass constant for fully explaining the contents of the DP Babass constant in the first embodiment.

フレーム番号tで、かつタップ位置iKある極大値aが
ピッチ候補でありその評価値がgiであるとする。1つ
前の基本分析フレームではタップ位置i金倉み極大値a
に対する直上お↓び直下の極太値すお工びCのみがピッ
チ候補とさnl こ扛らピッチ候補のDP評価値5(t
−1,p)お↓び5(t−1,q)とgi とを利用し
く5)式を満足するDP評価値S(t、i)  の組合
のものが各極太値ごとに最適値として選択、決定さ扛る
。この工うなりP評価値の最大値の選択全区分内のすべ
ての基本分析フレームに対し、かつすべての極大値につ
いて実施しつつ最終基本分析フレームに到る。
Assume that the maximum value a at frame number t and at tap position iK is a pitch candidate and its evaluation value is gi. In the previous basic analysis frame, the tap position i is the maximum value a
Only the very thick values ↓ and below are pitch candidates. DP evaluation value 5 (t
-1, p) ↓ and 5 (t-1, q) and gi, the combination of DP evaluation values S (t, i) that satisfy formula 5) is set as the optimal value for each extremely thick value. Choose, decide. This selection of the maximum value of the P evaluation value is carried out for all basic analysis frames in all divisions and for all maximum values to arrive at the final basic analysis frame.

通常のDPにおけるこのプロセスでは電力条件金倉めて
は考慮せず、各基本分析フレーム間のピッチ変化に対し
て設定する傾斜制限範囲内のすべての自己相関係数等を
対象として最適値の選択を行なっているため、滑らから
ピッチの連続性が期待できる連続有声音の場合は別とし
、ピッチの連続性が期待できないことが多い無声音が介
在するような場合には前述した如くセグメンテーション
を前提とする運用が必要となり、またこのような総門ジ
的DP自体演算量も膨大なものとなっている。
In this process in normal DP, the power condition is not considered, but the optimum value is selected for all autocorrelation coefficients, etc. within the slope limit range set for pitch changes between each basic analysis frame. Therefore, segmentation is assumed as described above, except in the case of continuous voiced sounds where smooth pitch continuity can be expected, and in cases where unvoiced sounds are involved where pitch continuity cannot often be expected. Operation is required, and the amount of calculation required for such general DP itself is enormous.

さて、こうして区分内のすべての基本分析フレーム、か
つすべての極大値に対して行々わnる最適値の選択、決
定が次々と処理さnて最終の基本分析フレームに達する
と次の(6)式に示す処理が行なわn1最終基本分析フ
レームにおける各極大値のDP評価値のうちの最大なも
のとしてのSmaxが決定さn%またこの決定と同時に
全基本分析フレームにわたってDP評価値の積算値全最
大とするDPババス自動的に決定さ扛る。
Now, in this way, the selection and determination of the optimal value is performed one after another for all the basic analysis frames and all the maximum values in the division, and when the final basic analysis frame is reached, the next (6 ) The process shown in the formula is performed, and Smax as the maximum of the DP evaluation values of each maximum value in the n1 final basic analysis frame is determined.n% At the same time as this determination, the integrated value of the DP evaluation values over all basic analysis frames is determined. The maximum DP is automatically determined.

(6)式においてLH最終の基本分析フレーム番号。In equation (6), LH final basic analysis frame number.

rt(t”1 m 2 +・・・・・・μ)は最終の基
本分析フレームの極大タップである。
rt(t"1 m 2 +...μ) is the maximum tap of the final basic analysis frame.

所で第1番目の基本分析フレームに前基本分析フレーム
金持たず、従ってDP評価値S(1,i)は全タップ2
0〜120の範囲における極大値に対するすべてのgi
n!って示さ扛る。こnに対応し第2番月の基本分析フ
レームに対するDP評価値S(2、i)は次の(9式に
よって示され、以下同様にして次々に示さ扛、これらに
対して上述した手法によって1個のDPババス決定さn
る。
However, the first basic analysis frame does not have the previous basic analysis frame money, so the DP evaluation value S (1, i) is 2 for all taps.
All gi for maximum values in the range 0-120
n! It shows. Corresponding to this, the DP evaluation value S (2, i) for the basic analysis frame of the second month is shown by the following equation (9). 1 DP Babas determined n
Ru.

以上のようにして各基本分析フレームにおける自己相関
係数列の極太値のみをピッチ候補の対象とし、かつ各ピ
ッチ候補の前基本分析フレームに対するパス全ピッチ候
補の1n上および直下のタップ位置金占める極大値に制
限したうえ関数gi=f(ρ、、P)による評価1直を
用い区分ごとにピッチ検索ヲ行なうDPによってセグメ
ンテーション全基本的に不要としピッチ連続性がない場
合でも安定してDPババス設定することが可能となると
ともに演算量も大幅に低下できる。
As described above, only the thickest values of the autocorrelation coefficient sequence in each basic analysis frame are targeted as pitch candidates, and the maximum value that occupies the tap positions 1n above and directly below all the path pitch candidates with respect to the previous basic analysis frame of each pitch candidate. In addition, the function gi = f (ρ, , P) is used to perform a pitch search for each segment using one pass. Segmentation by DP is basically unnecessary, and the DP bus can be set stably even when there is no pitch continuity. It becomes possible to do this, and the amount of calculation can be significantly reduced.

第3図全参照すると、本発明の第二の実施例の構成は前
区分メモリ6ケ有する点のみが第】図に示す第一の実施
例と異なり、他は全く同一であるのでこれら同一の構成
に関する部分の詳細な説明全省細する。
Referring to all of FIG. 3, the configuration of the second embodiment of the present invention differs from the first embodiment shown in FIG. A detailed explanation of the parts related to the configuration will be omitted.

この第二の実施例は、前述した第1の実施例が音声入力
を区分ごとの評価値にもとづいてDP全実施しつつピッ
チ検索するのに対し複数の区分の評価にもとづ<DP’
に介してピッチ検索することによって音声入力のピッチ
検索における処理遅延時間と演算量との大幅な減少を図
るものであり。
This second embodiment performs a pitch search while performing all DPs on the voice input based on the evaluation value of each segment in the first embodiment described above, whereas the second embodiment performs a pitch search based on evaluation values of multiple segments.
By performing a pitch search via the pitch search method, the processing delay time and amount of calculations in the pitch search for voice input can be significantly reduced.

その内容は次の通りである。Its contents are as follows.

前区分メモリ6は入出カライン601を介してDPプロ
セッサ5からDP処理の終った少なくとも1つの前区分
データの供給?受けるが、この前区分データは前区分が
1区分のときは最終基本分析フレームの極大値データな
らびにこれら極大値に伺随する評価値の供給金堂け、こ
nf前区分データとして記憶し、また記憶すべき前区分
が2区分以上の場合は相隣る2つの前区分の第1基本分
析フレームとそのパス相手としての前区分の最終基本分
析フレームの極大値データならびに評価値に関するデー
タも区分数に応じて前記前区分が1区分のときのデータ
とともに記憶しておく。
The pre-partition memory 6 supplies at least one pre-partition data that has undergone DP processing from the DP processor 5 via the input/output line 601. However, when the previous segment is one segment, this previous segment data is stored as the previous segment data, and is used to supply the maximum value data of the final basic analysis frame and the evaluation values associated with these maximum values. If there are two or more previous sections to be determined, the maximum value data and evaluation value data of the first basic analysis frame of the two adjacent previous sections and the final basic analysis frame of the previous section as its pass partner are also included in the number of sections. Accordingly, it is stored together with the data when the previous section is one section.

第4図は第3図に示す第二の実施例におけるDPパス設
定の特徴を説明するためのDPパス設定説明図であり、
前区分数が2つの場合を例としている。以下に第4図全
参照しつつ第二実施例について説明する。
FIG. 4 is a DP path setting explanatory diagram for explaining the characteristics of the DP path setting in the second embodiment shown in FIG.
The case where the number of previous divisions is two is taken as an example. The second embodiment will be described below with full reference to FIG.

前区分データメモリ6は前区分の最終基本分析フレーム
、第4図に点線で示す枠Cの白丸で示す各極大値のタッ
プ位置ならびに評価値に関するデータ、お工び前区分と
前前区分との相隣扛る基本分析フレームすなわち一点鎖
線で示す枠dに含ま、fLる前区分の第1基本分析フレ
ームと前前区分の最終基本分析フレームにおける各極大
値データおよび評価値データ全記憶しておく。さらに区
分がふえるときは、枠dに示す如き極太値データならび
に評価値データが相隣る区分の数に応じて増加して記憶
さ扛ることとなる。
The previous section data memory 6 stores the final basic analysis frame of the previous section, data regarding the tap position and evaluation value of each local maximum value indicated by the white circles in the frame C indicated by the dotted line in Fig. 4, and data regarding the pre-construction section and the previous section. All local maximum value data and evaluation value data in the first basic analysis frame of the previous section and the final basic analysis frame of the previous section included in the adjacent basic analysis frames, that is, the frame d indicated by the dashed-dotted line, are stored. . When the number of divisions further increases, the extremely thick value data and evaluation value data as shown in frame d will increase and be stored in accordance with the number of adjacent divisions.

さて、第4図は現区分と前区分ならびに前前区分の白丸
で示す極大値全フレーム番号つまり時間とタップとの関
係で示すものであり、第4図の場合は説明全簡単にする
都合上、各区分とも基本分析フレームが5個ずつ含まれ
、しかも各基本分析フレームにはそれぞれ極大値が3個
ずつ含ま扛ている工うにモデル化している。
Now, Fig. 4 shows the maximum value total frame numbers indicated by white circles in the current section, the previous section, and the previous section, that is, the relationship between time and tap. , each category includes five basic analysis frames, and each basic analysis frame includes three maximum values.

これらの各区分に含ま扛る極大値にはそnぞ扛第1図に
工って説明した本発明のDP千手法もとづいてDP評価
値を最大とするパスがたとえば第4図に示す如く選択さ
扛る。前述した第1の実施例でばこれらのDPは区分ご
とにDP評価値全介して実施しつつ全区間にわたってこ
のDP’tスライドしていくものであったが、第2の実
施例ではこ牡を複数の区分のDP評価値にもとづいて実
施するものであり、第4図に示す如く現区分の第1番目
の基本分析フレームの極大値は矢印に示す如く前区分の
最終基本分析フレームの直下および直上のタッグの極太
値とのDP評価値全最大ならしめるパスを選択し、さら
に前区分と前前区分との間でも第1と最終基本分析フレ
ームとの間で同様なりP評価値によるパス選択が行なわ
扛る。この第2の実施例における各区分の第1基本分析
フレームのDP評価値S(1,i)は次の(8)式に工
って示される。
For each of the maximum values included in each of these categories, the path that maximizes the DP evaluation value is selected, for example, as shown in FIG. Explode. In the above-mentioned first embodiment, these DPs were carried out through all the DP evaluation values for each section, and the DP't slid over the entire section, but in the second embodiment, this is carried out based on the DP evaluation values of multiple categories, and as shown in Figure 4, the maximum value of the first basic analysis frame of the current category is directly below the final basic analysis frame of the previous category, as shown by the arrow. and the thickest value of the tag directly above, and select the path that makes the DP evaluation value all the maximum, and also between the previous section and the previous section, and the path based on the P evaluation value that is the same between the first and final basic analysis frame. The choice is made. The DP evaluation value S(1,i) of the first basic analysis frame of each division in this second embodiment is expressed by the following equation (8).

(8)式においてEは前区分の最終基本分析フレーム番
号を示す。
In equation (8), E indicates the final basic analysis frame number of the previous section.

上述した内容からも明らかな如く、たとえば同一の音声
入力の区間全対象とするDP処理を考えた場合、複数の
区分に対応する音声入力のこの区間にわたって区分ごと
の処理全スライドしつつDP処理を実施していく第1の
実施例の場合に比し第2の実施例では、相隣る区分間の
第1と最終基本分析フレーム間の最適パスの設定も実施
するという極めて少ない処理時間の付加のみに↓って処
理による遅延時間の発生全大幅に短縮し、演算量も著し
く減少することができる。
As is clear from the above, for example, when considering DP processing that targets all sections of the same audio input, it is possible to perform DP processing while sliding all the processing for each section over this section of audio input that corresponds to multiple sections. Compared to the first embodiment, the second embodiment requires extremely little processing time by also setting the optimal path between the first and final basic analysis frames between adjacent sections. As a result, the amount of delay time caused by processing can be significantly reduced, and the amount of calculations can also be significantly reduced.

なお、第1図および第3図に示した第一お工び第二の実
施例ではいずれも評価値算出器2全検大値検索器3の前
段に備えた構成としているが、この順會逆にして極大値
検索器3全評価値算出器2の前段に装備する構成として
も一向に差支なく。
In addition, in both the first and second embodiments shown in FIGS. 1 and 3, the evaluation value calculator 2 is provided in the preceding stage of the total inspection maximum value search device 3. Conversely, there is no problem if the local maximum value search device 3 is installed before the total evaluation value calculator 2.

また第3図においてメモリ4と前区分データメモリ6と
はこnら全同一の構成として形成しても差支えない。
Furthermore, in FIG. 3, the memory 4 and the previous section data memory 6 may be formed to have the same structure.

上述の説明において、音声波形の繰返し性を表現する媒
介変数として自己相関係数を用いたが、この係数の代り
にAMDF (Average Magnitude−
Difference Function )i用いて
もよい。このAMDFを用いた本発明の第三の実施例全
第5図に示す0 第5図全参照すると、本発明の第三の実施例は。
In the above explanation, the autocorrelation coefficient was used as a parameter expressing the repeatability of the audio waveform, but instead of this coefficient, AMDF (Average Magnitude-
Difference Function) may also be used. A third embodiment of the present invention using this AMDF is shown in FIG. 5. Referring to FIG. 5, the third embodiment of the present invention is as shown in FIG.

AMDF算出器11.評価値算出器12.極小値検索器
13.メモ!714.DPプロセッサ15お工び電力算
出器16全備えて構成さ扛る。
AMDF Calculator 11. Evaluation value calculator 12. Minimum value searcher 13. Memo! 714. It is composed of a DP processor 15 and a power calculator 16.

第三の実施例は第一の実施例において使用さ扛ている自
己相関係数の代りにAMDF’に用いるものである。一
般に自己相関係数はピッチ周期で極大値とな、!11.
AMDFはピッチ周期で極小値となる。そこで第三の実
施例では第一の実施例における極大値全利用したDPに
代えて極小値を利用しfcDP全実施するが、第三の実
施例は基本的には第一の実施例と同一であるので、その
差異上特に説明し、共通的な部分は説明を省略する。
The third embodiment uses AMDF' instead of the autocorrelation coefficient used in the first embodiment. In general, the autocorrelation coefficient has a maximum value at the pitch period! 11.
AMDF takes a minimum value at the pitch period. Therefore, in the third embodiment, instead of the DP that uses the maximum value in the first embodiment, the minimum value is used and fcDP is fully implemented, but the third embodiment is basically the same as the first embodiment. Therefore, we will specifically explain the differences and omit the explanation of the common parts.

AMDF算出器11は入力音声ニジ下記(9)式を用い
てAMDFr、全算出する0 7”、 =  、Σ I X−−Xj+i  l  ・
・−・−・(9)lJ=13 なお、AMDFに関してtffL 、 R、Rabin
er +R,W、 5chafer * ”Digit
al Processing ofSpeech Si
gnal ’  a Prentice −Halls
 Inc+Englewood C11ffs、 Ne
w Jersey O7632、4。
The AMDF calculator 11 calculates the entire AMDFr using the following equation (9) based on the input audio.
・−・−・(9) lJ=13 Regarding AMDF, tffL, R, Rabin
er +R,W, 5chafer * ”Digit
al Processing of Speech Si
gnal' a Prentice-Halls
Inc+Englewood C11ffs, Ne
w Jersey O7632, 4.

7 ” The  5hort −Time Aver
age Magnitude−Difference 
Function ’ p pp、 149〜] 50
に詳しく述べらnている〇 評価値算出器12はAMDF γi全入力し、こ扛と電
力算出器16より供給さfる電力Pとの関数として下記
(]0)式に示す評価値ψik算出する0’l’l= 
f (ri、 P )  ・・”・”・(10)尚、ψ
1は一般にPに対し単調に減少する評価値である。極小
値検索器13はψiの極小値全例えば3ケだけ検索し、
こnらの値と対応する遅れ時間をメモリ14へ出力する
。メモリ14はこ牡らのデータを区分単位で記憶しDP
プロセッサ15へ出力する。
7 ” The 5hort-Time Aver
age Magnitude-Difference
Function 'ppp, 149~] 50
The evaluation value calculator 12 inputs all of the AMDF γi, and calculates the evaluation value ψik as a function of this and the electric power P supplied from the power calculator 16 as shown in the following equation ( )0. 0'l'l=
f (ri, P) ・・”・”・(10) Furthermore, ψ
1 is generally an evaluation value that monotonically decreases with respect to P. The minimum value searcher 13 searches for all the minimum values of ψi, for example, only three,
These n values and the corresponding delay times are output to the memory 14. The memory 14 stores the data in units of sections and DP
Output to processor 15.

DPプロセッサ15はメモリ14のデータ全読出し、第
1の実施例におけるDPプロセッサ5と同様にピッチ全
検索する。ただしDP評価値として最小音数すものに関
するDPパスが選択さnる0電力算出器16は入力音声
エフ電力を算出し前述のように評価値算出器12へ出力
する。
The DP processor 15 reads all the data in the memory 14 and performs a full pitch search like the DP processor 5 in the first embodiment. However, the DP path associated with the minimum number of tones is selected as the DP evaluation value.The power calculator 16 calculates the input voice F power and outputs it to the evaluation value calculator 12 as described above.

〔発明の効果〕〔Effect of the invention〕

以上説明した如く本発明に↓扛ばセグメンテーションの
実施全基本的に排除して運用性を著しく向上するととも
に処理にぶる時間遅延も大幅に改善しかつ所要演算量も
著しく減少しうるDP平手法もとづくピッチ抽出装置が
実現できるという効果がある。
As explained above, the present invention is based on the DP method, which can basically eliminate the entire implementation of segmentation and significantly improve operability, significantly improve the time delay required for processing, and significantly reduce the amount of calculation required. This has the effect of realizing a pitch extraction device.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の第一の実施例の構成會示すプ″″″2
1− ロック図、第2図は第1図の第一の実施例におけるDP
ババス定の内容全説明するためのDPババス定説明図、
第3図は本発明の第二の実施例の構FN、’に示すブロ
ック図、第4図は第3図に示す第二の実施例におけるD
Pパス設定の特徴を説明するためのDPパス設定説明図
、第5図は本発明の第三の実施例の構成を示すブロック
図である01・・・・・・自己相関係数算出器、2・・
・・・・評価値算出器、3・・・・・・極大値検索器、
4・・・・・・メモリ、5・・・・・・DPプロセッサ
、6・・・・・・前区分データメモリ、11・・・・・
・AMDF算出器、12・・・・・・評価値算出器、1
3・・・・・・極小値算出器、14・・・・・・メモリ
、15・・・・・・DPプロセッサ、16・・・・・・
電力算出器。 +−2 茅 / 閃 $ 2図 /−−−一−−−帥相関孫水豆止器 、;) −−−−−−−vi−酬を算出器、3−−−−
−−一秒〜Lp景器 4−−−−−−−−−メ柔り 5−−−−−−−− DPフ“ローレッナ2θ1−−−
−−−人ジ七カライン 第 3 圏 7レム番す C−−−−−−一前区分ゑ終基本分析ブレムo −−−
−−−オセ大1−IL $4 m
FIG. 1 shows the configuration of the first embodiment of the present invention.
1- Lock diagram, Figure 2 is the DP in the first embodiment of Figure 1.
DP Babasu constant explanatory diagram for fully explaining the contents of Babasu constant,
FIG. 3 is a block diagram of the structure of the second embodiment of the present invention, shown in FIG.
DP path setting explanatory diagram for explaining the characteristics of P path setting, FIG. 5 is a block diagram showing the configuration of the third embodiment of the present invention. 2...
...Evaluation value calculator, 3...Local maximum value search device,
4...Memory, 5...DP processor, 6...Previous section data memory, 11...
・AMDF calculator, 12...Evaluation value calculator, 1
3... Minimum value calculator, 14... Memory, 15... DP processor, 16...
Power calculator. +-2 Kaya / Sen $ 2 figure / - - - 1 - - - Correlation Sun water bean stopper, ;) - - - - - - vi - Reward calculator, 3 - - -
--One second ~ Lp scene 4-----------Me softness 5-------- DP Florena 2θ1--
---Human Ji7 Kaline 3rd Area 7 Rem Countsu C ---------First Section E Final Basic Analysis Brem O ---
---Ose University 1-IL $4 m

Claims (9)

【特許請求の範囲】[Claims] (1)音声波形の繰返し性を表現する媒介変数を介して
音声のピッチ周期もしくはピッチ周波数を抽出するピッ
チ抽出装置であって、予め設定する基本分析周期毎に算
出した媒介変数を介し、少数のピッチ候補と、これらの
候補のピッチ性を示す評価値とを抽出する手段と、前記
基本分析フレームの予じめ設定した複数個からなる区分
毎に、前記少数のピッチ候補の列と、これらの候補のピ
ッチ性を示す評価値の列とから、ピッチ候補の列の連続
性と、これらの評価値の列の総合評価値とを用いてピッ
チ周期もしくはピッチ周波数を決定する手段とを備えた
ことを特徴とするピッチ抽出装置。
(1) A pitch extraction device that extracts the pitch period or pitch frequency of speech through a parametric variable that expresses the repeatability of a speech waveform. means for extracting pitch candidates and evaluation values indicating the pitch characteristics of these candidates; means for determining the pitch period or pitch frequency from the sequence of evaluation values indicating the pitch characteristics of the candidates, using the continuity of the sequence of pitch candidates and the overall evaluation value of the sequence of evaluation values. A pitch extraction device featuring:
(2)前記評価値を複数の前記区分を対象として求めつ
つピッチ検索を行なうことを特徴とする特許請求範囲第
(1)項記載のピッチ抽出装置。
(2) The pitch extraction device according to claim (1), wherein the pitch search is performed while obtaining the evaluation value for a plurality of the categories.
(3)各ピッチ候補の前分析フレームに対するパスをピ
ッチ候補の直下および直上の周期または周波数に制限し
てピッチ候補の連続性を評価する手段を有する事を特徴
とする特許請求範囲第(1)項記載のピッチ抽出装置。
(3) Claim (1) characterized by having means for evaluating the continuity of pitch candidates by limiting the path to the pre-analysis frame of each pitch candidate to the period or frequency immediately below and immediately above the pitch candidate. The pitch extraction device described in Section 1.
(4)音声波形の繰返し性を表現する媒介変数として、
自己相関係数を用いることを特徴とする特許請求の範囲
第(1)項記載のピッチ抽出装置。
(4) As a parameter expressing the repeatability of the audio waveform,
A pitch extraction device according to claim 1, characterized in that an autocorrelation coefficient is used.
(5)予め設定する基本分析フレームごとに算出した自
己相関係数列の極大値を検索しそのタップ位置と極大値
とを記憶する極大値検索手段と、前記極大値のみをピッ
チ候補としかつ各ピッチ候補の前分析フレームに対する
パスをピッチ候補の直下および直上のタップ位置の極大
値に制限し前記基本分析フレームの予め設定した複数個
からなる区分ごとにピッチ検索を動的計画法によって実
行する動的計画法実行手段とを備えたことを特徴とする
特許請求の範囲第(4)項記載のピッチ抽出装置。
(5) A maximum value search means that searches for the maximum value of the autocorrelation coefficient sequence calculated for each basic analysis frame set in advance and stores the tap position and maximum value, and uses only the maximum value as a pitch candidate and each pitch A dynamic method in which a path to a pre-analysis frame of a candidate is limited to the maximum value of the tap position directly below and directly above the pitch candidate, and a pitch search is performed by dynamic programming for each predetermined segment of the basic analysis frame. 4. A pitch extraction device according to claim 4, further comprising a planning method execution means.
(6)極大値を電力情報により重み付けした値を評価値
とする手段を備えたことを特徴とする特許請求の範囲第
(5)項記載のピッチ抽出装置。
(6) The pitch extracting device according to claim (5), further comprising means for determining, as an evaluation value, a value obtained by weighting the local maximum value with power information.
(7)音声波形の繰返し性を表現する媒介変数として、
ADMF(AverageMagnitude−Dif
ferenceFunction)を用いることを特徴
とする特許請求の範囲第(1)項記載のピッチ抽出装置
(7) As a parameter expressing the repeatability of the audio waveform,
ADMF (Average Magnitude-Dif
2. The pitch extraction device according to claim 1, characterized in that the pitch extraction device uses a referenceFunction.
(8)予め設定する基本分析フレームごとに算出したA
DMFの極小値を検索しそのタップ位置と極小値とを記
憶する極小値検索手段と、前記極小値のみをピッチ候補
としかつ各ピッチ候補の前分析フレームに対するパスを
ピッチ候補の直下および直上のタップ位置の極小値に制
限し前記基本分析フレームの予め設定した複数個からな
る区分ごとにピッチ検索を動的計画法によって実行する
動的計画法実行手段とを備えたことを特徴とする特許請
求の範囲第(7)項記載のピッチ抽出装置。
(8) A calculated for each basic analysis frame set in advance
A minimum value search means that searches for a minimum value of DMF and stores the tap position and the minimum value; Dynamic programming execution means for restricting the position to a local minimum value and executing a pitch search for each of a plurality of preset divisions of the basic analysis frame by dynamic programming. The pitch extraction device according to range (7).
(9)極小値を電力情報により重み付けした値を評価値
とする手段を有することを特徴とする特許請求の範囲第
(8)項記載のピッチ抽出装置。
(9) The pitch extraction device according to claim (8), further comprising means for determining, as an evaluation value, a value obtained by weighting the local minimum value with power information.
JP61122691A 1985-05-28 1986-05-27 Pitch extractor Expired - Lifetime JPH0731504B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP11452385 1985-05-28
JP60-114523 1985-05-28

Publications (2)

Publication Number Publication Date
JPS6254296A true JPS6254296A (en) 1987-03-09
JPH0731504B2 JPH0731504B2 (en) 1995-04-10

Family

ID=14639883

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61122691A Expired - Lifetime JPH0731504B2 (en) 1985-05-28 1986-05-27 Pitch extractor

Country Status (1)

Country Link
JP (1) JPH0731504B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63144400A (en) * 1986-11-26 1988-06-16 フィリップス エレクトロニクス ネムローゼ フェンノートシャップ Method and apparatus for determining hourly changes in voice parameter of voice signal
JPH01179998A (en) * 1988-01-11 1989-07-18 Nec Corp Pitch extracting device
JP2009210836A (en) * 2008-03-04 2009-09-17 Fujitsu Ltd Voice detecting method, voice detecting device, and voice detecting program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58140798A (en) * 1982-02-15 1983-08-20 株式会社日立製作所 Voice pitch extraction
JPS59152496A (en) * 1983-02-18 1984-08-31 富士通株式会社 Voice analysis synthesization system
JPS6068000A (en) * 1983-09-22 1985-04-18 日本電気株式会社 Pitch extractor

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58140798A (en) * 1982-02-15 1983-08-20 株式会社日立製作所 Voice pitch extraction
JPS59152496A (en) * 1983-02-18 1984-08-31 富士通株式会社 Voice analysis synthesization system
JPS6068000A (en) * 1983-09-22 1985-04-18 日本電気株式会社 Pitch extractor

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63144400A (en) * 1986-11-26 1988-06-16 フィリップス エレクトロニクス ネムローゼ フェンノートシャップ Method and apparatus for determining hourly changes in voice parameter of voice signal
JPH01179998A (en) * 1988-01-11 1989-07-18 Nec Corp Pitch extracting device
JP2009210836A (en) * 2008-03-04 2009-09-17 Fujitsu Ltd Voice detecting method, voice detecting device, and voice detecting program

Also Published As

Publication number Publication date
JPH0731504B2 (en) 1995-04-10

Similar Documents

Publication Publication Date Title
Zhu et al. Real-time signal estimation from modified short-time Fourier transform magnitude spectra
JP2005535915A (en) Time scale correction method of audio signal using variable length synthesis and correlation calculation reduction technique
US7272551B2 (en) Computational effectiveness enhancement of frequency domain pitch estimators
US9837097B2 (en) Single processing method, information processing apparatus and signal processing program
US10002596B2 (en) Intelligent crossfade with separated instrument tracks
US7870003B2 (en) Acoustical-signal processing apparatus, acoustical-signal processing method and computer program product for processing acoustical signals
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
JP2012108451A (en) Audio processor, method and program
US6741962B2 (en) Speech recognition system and standard pattern preparation system as well as speech recognition method and standard pattern preparation method
JPS58192100A (en) Hourly alignment of first and second voice pattern and apparatus therefor
Marxer et al. Low-latency instrument separation in polyphonic audio using timbre models
Ocal et al. Adversarially trained autoencoders for parallel-data-free voice conversion
JPS5997200A (en) Voice recognition system
JPS6254296A (en) Pitch extractor
JP4217616B2 (en) Two-stage pitch judgment method and apparatus
WO2010140195A1 (en) Video editing device
KR20020084199A (en) Linking of signal components in parametric encoding
Wong et al. Fast SOLA-based time scale modification using modified envelope matching
JP2612867B2 (en) Voice pitch conversion method
US20070269056A1 (en) Method and Apparatus for Audio Signal Expansion and Compression
Fierro et al. Extreme audio time stretching using neural synthesis
Duong et al. Visual-guided audio source separation: an empirical study
JP2003122380A (en) Peak mark imparting device and its processing method, and storage medium
Messaoud et al. Formant tracking linear prediction model using HMMs for noisy speech processing
JP3226716B2 (en) Voice recognition device