JPS5925237B2

JPS5925237B2 - 音声分析合成方式の音声区間判定方法

Info

Publication number: JPS5925237B2
Application number: JP54157123A
Authority: JP
Inventors: 浩二浮穴
Original assignee: Matsushita Communication Industrial Co Ltd
Current assignee: Panasonic Mobile Communications Co Ltd
Priority date: 1979-12-03
Filing date: 1979-12-03
Publication date: 1984-06-15
Also published as: JPS5678899A

Description

【発明の詳細な説明】本発明は音声分析合成方式における音声の有声区間、無
声区間、無音区間を短時間に判定する方法に関するもの
である。

一般的に音声分析合成系に於ては、音声情報の圧縮を行
なうために有声区間、無声区間、無音区間を決定し、そ
れぞれの区間に於て最適で最小量になるように情報を抽
出する方法からとられている。

したがつてこの区間を決定する方法は音声分析合成系で
重要な問題となつている。従来の音声分析合成装置にお
いて、例えばＰＡＲＣＯＲ方式を用いだ装置では、音声
信号からフオルマントなどの周波数スペクトル包絡成分
を除去した残差信号を作成し、その残差信号の自己相関
関数である変形相関関数を求めだ後、その最大値と、第
１次のＰＡＲＣＯＲ係数ｋｌによつて、有声無声の決定
をしている。

実用上、これらの処理は電子計算機を使用して行なうこ
とが多いが、残差信号を求めたり変形相関関数を求める
処理にかなりの演算時間を要する。演算処理の高速化の
一環として、音声波形の自己相関関数にディジタルフィ
ルタをかけるという荷重移動平均操作によつて変形相関
関数を求める方法が提案されているが、これも演算処理
時間がかなりかかることには大差がないのが現状である
。本発明は、音声の有声、無声、無音区間の決定を簡単
な前処理を施した音声波形の自己相関関数と、零交差率
の組合せにより効率よく高速に確度よく行ない、今まで
の欠点であつた演算時間の問題を改善するものである。

以下に図面を用いて、本発明の一実施例を説明する。

第１図は、その概要を示すフローチャートであり、同図
において１０１は音声波形データで、この波形をある時
間（例えば３０ｍｓ）毎にフレームに区切り、そのフレ
ーム毎に有声、無声、無音の決定を行なう。１０２の処
理はサイレントレベルで音声をクリップし、フレーム内
全区間がサイレントレベル以下のフレームは無音区間と
決定し、以後の処理を行なわない。

このサイレントレベルとは理想的には零であるが、実際
にはハムの影響や、ＡＤ変換器のオフセットのズレ等を
カツトするためにある程度のレベル（例えば±２０４８
レベルの整数型データとして±３）を設定する。１０３
の処理は零交差数をカウントする処理である。

第２図でその処理を説明する。ここで第２図は音声デー
タの一例を示すが、この例では、データ数２２個に対し
て零交差数７となり、零交差率は７／２２となる。無声
区間では、この零交差率が多くなり、有声、無声判定の
一つの鍵を握つている。この率を求める時、フレーム長
が長いためにフレームの切れ目が無声と有声にまたがつ
ている場合もあり得る。第３図にその例を示すが、この
フレームのデータの場合、フレーム内の左側が無声区間
、右側が有声区間にまたがつていると考えられる。日本
語に限つて言えば、約７０％が有声区間で残りの約３０
％が無声あるいは無声区間である。このようなフレーム
を有声と無声のどちらの区間と判定するかは難しい。本
発明ではこのような場合には無声区間と判定して無声音
を強調し、無声子音の明瞭度の低下を防止する。そのた
めに、零交差率を求める時に、フレーム内を２分割し、
フレーム前半の零交差率とフレーム後半の零交差率の大
きい方をそのフレーム内の代表値として採用している。
１０４は零交差率が、無音区間と判定すべき閾値以下か
どうかを判定する処理である。

これは１０２の処理で取り切れなかつたハムやノイズ等
の影響を避けて、無音区間と判定できる値（例えば１／
１００）を使用する〇１０５は確実に無声区間であると
判定できる零交差率（例えば１／３）以上の値をとるフ
レームを無声区間と決定する処理である。

第４図はＸ軸に零交差率Ｚ（０，ｙ軸に自己相関関数の
最大値φ（Ｔ）と音声波形の遅れ時間零の自己相関関数
の値φ（０）の比Ｗ（′Ｖ）一φ（Ｔ）／φ（０）をと
つたものである〇第４図は各フレームをＺ（０．！−？
Ｆ（′Ｔｔ）の関係で有声（ＶＯｉｃｅｄ）区間あるい
は、無声（４）ＮＶＯｉｃｅｄ）区間に分類する説明の
ためのグラフであり、１０５の処理は第４図上の４０１
の領域に相当する。（第４図では、無声区間を（ＵＶ）
、有声区間を（と表示している。）この１０５の処理は
もし有声区間であれば、その区間の音声の基本周波数を
求めるために自己相関関数を求める訳であるが、その演
算処理が長くかかることを考慮して、その演算を少しで
も省くために、前処理として零交差率で無声区間を決定
するようにしている。即ち、完全に無声、無音区間であ
れば、その区間の音声基本周波数を求める必要がないた
めに自己相関関数の演算は行なわない。１０６は１０５
までに無音区間、無声区間と決定されなかつた区間につ
いてのみ行なわれる処理で、フオルマントの影響を軽減
したり、音声信号が零に近い部分での高周波成分力巾己
相関関数に与える影響をなくするための処理である。

その具体的方法を第５図で説明する。第５図は１フレー
ム内の音声信号を表わす。図の如くフレームを３分割し
、前１／３区間の絶対値の最大値５０１と、後１／３区
間の絶対値５０２の小さい方の値５０２のＮ％（例えば
３０％）の値５０３でクリツプする処理を施す。この処
理後、１０７で自己相関関数φ（τ）を求め、その値が
極めて小づい時（例えば、±２０４８レベルの整数型の
３００ポイントの自己相関関数の最大値が５以下であつ
た時等）、その区間を無声区間と決定する処理が１０８
である。１０９で、音声のピツチ周波数探策区間内にお
ける自己相関関数の最大値φ（′ｆ！）より、ｒ（７）
一φ（′Ｔ！）／φ（Ｏを求める。

一般的にＦ（Ｔ）は周期性があればある程度大きい値（
例えば０．４以上）をとることが知られている。零交差
率Ｚ（ＯとＦ（１）一φ（′ｆ！）／φ（０）の関係に
於て、第４図に於る領域４０２のように一次不等式Ｆ（
Ｔ）〈ＡＺ（０（ａは統計的に求められた定数で例えば
１．５の部分は無声区間と判定する処理が１１０である
。１１１は第４図に｝ける４０３の無声領域を決定する
処理で、？Ｆ（慣一φ（Ｔ）／φ（０）が一定値（例え
ば０．３）以下の領域４０３を無声区間と判定し、第４
図に於て残つた領域４０４を有声区間と判定する処理で
ある。

第６図は自己相関関数φ（τ）と、遅れ時間τの関係を
示すグラフの一例であるが、ピツチ周期探策区間内のピ
ーク値に対応した遅れ時間τ−Ｔ（第６図中６０１）が
音声の基本周期であることは言うまでもない。以上の説
明から明らかなように、本発明によれば、音声波形の自
己相関関数と零交差率を求めてこれらを組合せることに
より、駆動音源成分の有声、無声、無音区間の高精度な
検出が短時間で可能になり、この１駆動音激成分を使つ
て、高い品質の合成音を得ることができる。

また結果として、既存の音声分析合成装置の駆動音源信
号分析部に容易に組込むことができる点に於ても極めて
有効である。

【図面の簡単な説明】第１図は本発明の一実施例による音声分析合成方式の音
声区間判定方法のフローチヤート、第２図は音声波形中
の零交差点を示す波形図、第３図は１フレーム内に無声
、有声区間の含まれる波形図、第４図は第１図のフロー
チヤートに基づき無声、有声区間が順々に決定？れる概
念図、第５図は音声信号から、高周波成分と、フオルマ
ントのπ 影響を除くための前処理の説明図、第６図は
ピツチ周期を求める方法の説明図である。

Claims

【特許請求の範囲】１音声信号中のハム成分等を取り除く第１のレベルの
クリップを施した後、信号の零交差率を求め、その零交
差率の値からあらかじめ確実な無声区間と無音区間を決
定すると共に、それ以外の区間について音声信号に、そ
の高周波成分とフオルマントの影響を少なくする第２の
クリップ処理を施した後、自己相関関数φ（τ）を求め
、その最大値φ（Ｔ）と、音声波形の遅れ時間零の自己
相関関数の値φ（Ｏ）との比Ψ（Ｔ）、及び零交差率の
２種類のパラメータを組み合せ、ある閾値で切つて、有
声区間を判定することを特徴とする音声分析合成方式の
音声区間判定方法。２あるフレーム内に有声・無声区間が混在する時に、
フレーム内を分割して、分割した中での零交差率の最も
大きい値をそのフレームの零交差率の代表値とおきかえ
て、無声区間を減らさないようにすることを特徴とする
特許請求の範囲第１項記載の音声分析合成方式の音声区
間判定方法。