JPH10222194A

JPH10222194A - 音声符号化における有声音と無声音の識別方法

Info

Publication number: JPH10222194A
Application number: JP3262397A
Authority: JP
Inventors: Shinto Rin; 進燈林; Shinan Rin; 信安林
Original assignee: GOTAI HANDOTAI KOFUN YUGENKOSHI
Current assignee: GOTAI HANDOTAI KOFUN YUGENKOSHI
Priority date: 1997-02-03
Filing date: 1997-02-03
Publication date: 1998-08-21

Abstract

(57)【要約】【課題】音声符号化における有声音と無声音の識別方
法の提供。【解決手段】入力音声の音声フレームデータを四つの
サブフレームに分割し、さらに各サブフレームに対して
有声音か無声音かの判別を以下のように行う。各サブフ
レームのＮＣ値を高臨界値と低臨界値とそれぞれ比較
し、安定か不安定かの判別ステップで該サブフレームの
エネルギー量値とＬＳＰ係数値の大きさをそれぞれ判別
し、両者が設定された臨界値より大きければ、サブフレ
ームの低周波数帯域対高周波数帯域エネルギー比率（Ｌ
ＯＨ）の判別ステップを行い、ＬＯＨ値判別ステップ中
で各サブフレームがある臨界値以上か否かを判定し、イ
エスであればサブフレームを有声音信号と、ノーであれ
ば無声音信号と判別する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は一種の音声符号化の
技術に関し、特に、音声符号化技術において有声音か無
声音かを識別するのに用いられる方法に関する。

【０００２】

【従来の技術】音声合成の技術にあっては、線形予測コ
ーディング（ＬｉｎｅｒＰｒｅｄｉｃｔｉｖｅＣｏ
ｄｉｎｇ；ＬＰＣ）の技術が一般に用いられている。こ
のＬＰＣの方法では、ＬＰＣ−１０音声エンコーダが、
低ビット率の音声圧縮に広く用いられている。一つのＬ
ＰＣ音声エンコーダについては、いかに正確に入力音声
信号が有声音か無声音かを識別するかが重要な課題であ
った。というのは、この有声／無声音識別過程が、音声
合成の出力品質に大きな影響を与えうるためであった。

【０００３】図１に示されるのは、伝統的な音声符号化
技術のブロック図である。図中のブロック中には、イン
パルス列ジェネレータ１１（ＩｍｐｕｌｓｅＴｒａｉ
ｎＧｅｎｅｒａｔｏｒ）、ランダムノイズジェネレータ
１２（ＲａｎｄｏｍＮｏｉｓｅＧｅｎｅｒａｔｏ
ｒ）、有声／無声音切り換えスイッチ１３（ｖｏｉｃｅ
ｄ／ｕｎｖｏｉｃｅｄＳｗｉｔｃｈ）、利得ユニット
１４（ＧａｉｎＵｎｉｔ）、ＬＰＣフィルタ１５（Ｌ
ｉｎｅｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇＦｉ
ｌｔｅｒ）、ＬＰＣフィルタ制御変数設定ユニット１６
が含まれる。

【０００４】インパルス列ジェネレータ１１の発生する
周期性インパルス列（ＰｅｒｉｏｄｉｃＩｍｐｕｌｓ
ｅＴｒａｉｎ）或いはランダムノイズジェネレータ１
２の発生するノイズ信号（ＷｈｉｔｅＮｏｉｓｅ）
は、声音／無声音切り換えスイッチ１３による、その入
力信号の類型属性によった適当な選択切り換えを経て、
利得ユニット１４を経て信号の利得が行われ、以てその
信号のレベルが調整される。そしてさらにＬＰＣフィル
タ１５がＬＰＣフィルタ制御変数設定ユニット１６に設
定されたＬＰＣ変数（ＬＰＣＰａｒａｍｅｔｅｒｓ）
に基づき、ろ波を執行し、最後に、ＬＰＣフィルタ１５
の出力端より音声出力Ｓ（ｎ）を行う。

【０００５】前述の音声識別のステップを執行すると
き、識別装置は各一つの入力音声の音声フレーム（Ｓｐ
ｅｅｃｈＦｒａｍｅ）に対してその有声／無声音判別
方法、ピッチ周期（ＰｉｔｃｈＰｅｒｉｏｄ）、ＬＰ
Ｃ変数、及び利得値（ＧａｉｎＶａｌｕｅ）を更新す
る。その目的は、入力音声の変化状況に追従できるよう
にすることにある。現在ある典型的な技術では、各一つ
の音声フレームは１６０回のサンプルを包括し、即ち、
一つの所定の音声フレームの大きさの中に、０．０２秒
ごとにサンプルが取られている。

【０００６】前述の音声識別において、その中、有声音
か無声音かの判別方法については、伝統的には相関ピッ
チの強度に基づいて判別する方法がとられている。例え
ば、もし正規化相互相関値（ＮｏｒｍａｌｉｚｅｄＣ
ｒｏｓｓｃｏｒｒｅｌａｔｉｏｎＶａｌｕｅ；ＮＣ
値）が予め設定された臨界値、例えば０．４以上であれ
ば、その音声フレームは正常な音声信号と判定され、こ
のとき、音声合成器が周期パルス列によりＬＰＣフィル
タを励起する。その反対に、もしＮＣ値が臨界値０．４
より小さい場合、その音声フレームは無声音信号に属す
ると判別され、音声合成器はランダムノイズジェネレー
タで該ＬＰＣフィルタを励起する。前述のＮＣ値の定義
は以下の数式２による。

【数２】

【０００７】しかし、不安定な音声信号、即ち臨界値の
上下の不確定レベル区域を変動するものについては、そ
のＮＣ値の臨界値０．４より小さい程度は非常に小さく
なり得て、この時、前述の簡易な判別方法では、正確に
それが有声音信号であるか或いは無声音信号であるかを
判別できない。ゆえに、実際の応用時には、誤断が発生
する恐れがあった。

【０００８】上述の問題を克服し、その判別の正確度を
増進するために、周知の技術では前述のＮＣ値の判別の
外に、さらに音声信号エネルギー量の判別を執行する必
要があり、それによって比較的正確な判別をなす目的を
達していた。

【０００９】周知の技術にあっては、このほか、もう一
種の有声／無声音識別方法がある。このもう一種の周知
の技術に基づき、音声信号エネルギー量を判別する時に
は、以下の二種の状況を包括する。ａ．音声エネルギー量一般的には、無声音の音声エネルギー量は有声音のもの
より低く、そのエネルギーの二乗平均平方根値（ＲＭ
Ｓ）は、以下の数式３で求められる。

【数３】その中、Ｎは入力音声信号の音声フレーム全体を代表す
る。ｂ．ゼロ交差率（ＺＣ）その定義は音声フレーム全体の零交差の回数とされ、以
下の数式４で求められる。

【数４】前述の音声符号化技術中、各一つの音声フレーム中に
は、１６０回のサンプルが含まれ、そのビット数の面で
は、各一つの音声フレームは３４ビットのＬＰＣ変数
と、６ビットのピッチと、１ビットの有声／無声音と、
７ビットの利得値の総計４８ビットを含む。

【００１０】前述のように、音声を符号化するには、入
力音声信号が有声音であるか無声音であるかをいかに正
確に判別するかが重要な課題となる。そしてその判別過
程が音声合成の出力品質に大きく影響する。もし、有声
／無声音判別の過程で、無声音が有声音と誤断されたな
らば、出力された合成音声は唸り声のような音声とな
り、もし有声音が無声音と誤断されたならば、出力され
た合成音声は敲撃音のように聞こえる。この問題に対し
て、前述の伝統的な技術は有効に解決することができな
かった。

【００１１】さらに、前述の第２種の伝統の技術では、
１ビットを以て音声フレーム中の有声或いは無声音の状
態を決定しており、以て、有声と無声音間の臨界状態を
含蓄せんとしている。このため、音声フレーム全体が臨
界区域にあり、有声音か無声音かが判定されていないの
で、往々にして出力された合成音声が雑音を有するよう
に聞こえた。

【００１２】

【発明が解決しようとする課題】上述の周知の技術の欠
点から、伝統的な音声符号化技術には改善の必要がある
ことが分かる。このため、本発明の主な目的は、一種の
音声符号化の改良技術を提供して、それにより音声符号
化の過程で優れた音声合成出力品質を提供することにあ
る。

【００１３】本発明のもう一つの目的は、音声符号化中
に用いられる、正確に有声音か無声音かの識別方法を提
供し、該識別方法により、正確に入力音声信号中の音声
フレームが有声音か無声音かを判別できるようにするこ
とにある。

【００１４】本発明のさらにもう一つの目的は、一種の
四分割式の有声／無声音判別の方法（Ｑｉｕａｒｔｅｒ
Ｖｏｉｃｅｄ／ＵｎｖｏｉｃｅｄＤｅｃｉｓｉｏｎ
Ｓｃｈｅｍｅ）を提供することにあり、それは、入力
音声信号中の各一つの音声フレームを四つのサブフレー
ムに分割し、その後、各一つのサブフレームに対して、
その相関の変数に基づき、総合的に該サブフレームが有
声音か無声音かを判定し、その判別の結果により、音声
合成出力端にて正確で自然な音声信号出力を行わせる方
法とする。

【００１５】本発明のさらにもう一つの目的は、一種
の、入力音声信号の音声フレーム中の有声／無声音の正
確な判別方法を提供することにある。本発明のステップ
中、まず、入力音声の音声フレームを四つのサブフレー
ムに分割した後、順に該四つのサブフレームのＮＣ値
（正規化相互相関値）が高臨界値（例えば０．７）以上
であるか否かを判別する。その後、さらに、該ＮＣ値が
低臨界値（例えば０．４）より小さいかを判別する。前
述の二つの判別ステップの後、明らかに有声と無声音に
属する信号を判別し、続いて、前述の明らかに有声と無
声音に属する信号の間に介在する信号を判別する。即
ち、もし前述のステップ中、ＮＣ値が低臨界値より小さ
くないと判別されたならば、安定／不安定の判別ステッ
プを執行し、該サブフレームのエネルギー量値と線スペ
クトル対偶（ＬｉｎｅＳｐｅｃｔｒｕｍＰａｉｒ；
ＬＳＰ）係数値、即ちＬＳＰ係数値の大きさをそれぞれ
判別し、もしエネルギー量値とＬＳＰ係数値が予め設定
された臨界値より大きくなければ、音声信号が安定状態
を呈すると判定し、四つのサブフレームの属性全てを前
の一つの音声フレーム中の最後の一つのサブフレームの
有声／無声音状態と同じと設定し、もし前述のステップ
中、エネルギー量値とＬＳＰ係数値が設定された臨界値
より大きいと判別されたなら、該サブフレームの低周波
数帯域対高周波数帯域エネルギー比率（Ｌｏｗｔｏ
ＨｉｇｈＢａｎｄＥｎｅｒｇｙＲａｔｉｏＶａ
ｌｕｅ；ＬＯＨ）の判別ステップを執行し、各一つのサ
ブフレームのＬＯＨ値が一つの臨界値より大きいか否か
を判定し、もし臨界値より大きければ、該サブフレーム
を有声音声信号と判定し、もしそうでなければ該サブフ
レームを無声音声の信号と判定する。同様に次の一つの
サブフレームに対して判別を進行し、こうして四つのサ
ブフレーム全てに対する判別を行う。

【００１６】

【課題を解決するための手段】請求項１の発明は、一種
の音声符号化における有声音と無声音の識別方法であっ
て、入力音声の音声フレームデータの属性を識別するの
に用いられる方法であり、該方法は以下のａからｆのス
テップを包括する、ａ．現在の入力音声の音声フレームデータを四つのサブ
フレームに分割する、ｂ．四つのサブフレームの正規化相互相関値（Ｎｏｒｍ
ａｌｉｚｅｄＣｒｏｓｓｃｏｒｒｅｌａｔｉｏｎ
Ｖａｌｕｅ）、即ちＮＣ値が一つの高臨界値以上である
か否かを判別し、もし判別結果がイエスであれば、入力
された現在の音声フレーム中の四つのサブフレームがい
ずれも有声音信号であると判定する、ｃ．もし上記ｂのステップでサブフレームのＮＣ値が高
臨界値以上でなければ、該ＮＣ値が一つの低臨界値より
小さいか否かを判別し、もしイエスであれば、該音声フ
レーム中の四つのサブフレームがいずれも無声音信号に
属すると判定する、ｄ．もし上記ｃのステップでＮＣ値が低臨界値より小さ
くないと判別されたなら、安定か不安定かの判別ステッ
プを執行し、該サブフレームのエネルギー量値と線スペ
クトル対偶（ｌｉｎｅＳｐｅｃｔｒｕｍＰａｉｒ）
係数値、即ちＬＳＰ係数値の大きさをそれぞれ判別す
る、ｅ．もしエネルギー量値とＬＳＰ係数値が設定された臨
界値より大きくなければ、音声信号が安定状態を呈する
と判定し、四つのサブフレームの属性全部を前の一つの
音声フレーム中の最後の一つのサブフレームの有声音か
無声音の状態と同じと設定し、ｆ．上述のｅのステップ中で、もしエネルギー量値とＬ
ＳＰ係数値が設定された臨界値より大きければ、該サブ
フレームの低周波数帯域対高周波数帯域エネルギー比率
（ＬｏｗｔｏＨｉｇｈＢａｎｄＥｎｅｒｇｙ
ＲａｔｉｏＶａｌｕｅ）、即ちＬＯＨ値の判別ステッ
プを執行し、各一つのＬＯＨ値に対してある臨界値より
大きいか否かを判定し、もし臨界値より大きければ、該
サブフレームを有声音信号と判定し、もし大きくなけれ
ば該サブフレームを無声音の信号と判定し、次の一つの
サブフレームに判別を進行して、四つのサブフレームの
全てに対する判別を終えて終了する、以上を特徴とする、音声符号化における有声音と無声音
の識別方法としている。

【００１７】請求項２の発明は、ｂのステップでサブフ
レームのＮＣ値を判別する時に用いられる高臨界値は
０．７に設定することを特徴とする、請求項１に記載の
音声符号化における有声音と無声音の識別方法としてい
る。

【００１８】請求項３の発明は、ｃのステップでサブフ
レームのＮＣ値を判別する時に用いられる低臨界値は
０．４に設定することを特徴とする、請求項１に記載の
音声符号化における有声音と無声音の識別方法としてい
る。

【００１９】請求項４の発明は、ｄのステップの安定か
不安定かの判別ステップ中、サブフレームのエネルギー
量値の判別では、前の一つのエネルギー量と現在のエネ
ルギー量の差値が設定されたある臨界値以上であるか否
かの判断を行う、請求項１に記載の音声符号化における
有声音と無声音の識別方法としている。

【００２０】請求項５の発明は、エネルギー量値の判別
ステップで、設定された臨界値は０．４５とする、請求
項４に記載の音声符号化における有声音と無声音の識別
方法としている。

【００２１】請求項６の発明は、ｄのステップの安定か
不安定かの判別ステップ中、サブフレームのＬＳＰ係数
値の判別では、前の一つの平均ＬＳＰ係数値と現在のＬ
ＳＰ係数値との差値を判断することを特徴とする、請求
項１に記載の音声符号化における有声音と無声音の識別
方法としている。

【００２２】請求項７の発明は、サブフレームのＬＳＰ
係数値の判別ステップで用いる臨界値は０．４と設定す
ることを特徴とする、請求項６に記載の音声符号化にお
ける有声音と無声音の識別方法としている。

【００２３】請求項８の発明は、ｆのステップで、サブ
フレームのＬＯＨ値の判別ステップ中、ＬＯＨの定義は
以下の数式１とされ、

【数１】その中ｉは第ｉ個のサブフレームを代表し、Ｓ
₂1p1k はもとの信号が1k低域フィルタを通過した後に得
られる信号を代表し、定義中、音声信号中の１ＫＨｚよ
り低いものと１ＫＨｚより高いもののエネルギー量比率
は、一つのウインドウ長度Ｗで割られ、そのいわゆるウ
インドウ長度Ｗの定義は、ピッチがＮｓｕｂｆｒａｍｅ
より大きい場合は、Ｗ＝ピッチ（ｐｉｔｃｈ）ピッチがＮｓｕｂｆｒａｍｅ／２以上でＮｓｕｂｆｒａ
ｍｅより小さい場合は、Ｗ＝２＊ピッチであり、その
中、Ｎｓｕｂｆｒａｍｅはサンプルのサブフレーム長度
を示し、ＬＯＨの定義中、静音臨界値Ｔｓｉｌは現在の
音声フレームの最大音声値であり、該Ｔｓｉｌ値は１Ｋ
Ｈｚの高域フィルタを通過した音声信号のエネルギー量
中に加えられ得て、それにより低エネルギー量の有声信
号に無声音として選択される傾向を与え、ｄｏｆｆｓｅ
ｔ（ｊ）は各一つのサブフレームの中心位置で、その定
義は、ｄｏｆｆｓｅｔ（ｊ）＝Ｎｓｕｂｆｒａｍｅ＊（ｊ−１
／２），ｊ＝１〜４その中、ｊはサブフレームの番号を表示する、以上を特
徴とする、請求項１に記載の音声符号化における有声音
と無声音の識別方法としている。

【００２４】

【発明の実施の形態】本発明の判別方法では、入力音声
信号の音声フレームを４個のサブフレーム（Ｓｕｂｆｒ
ａｍｅ）に分割し、その後、各一つのサブフレームに対
して相関する変数に基づき、相当的に各一つのサブフレ
ームが有声音か無声音かの判別を行う。前述の変数は、
ＮＣ、エネルギー量、線スペクトル対偶係数（ｌｉｎｅ
ＳｐｅｃｔｒｕｍＰａｉｒ；ＬＳＰ）、及び低周波
数帯域対高周波数帯域エネルギー比率（Ｌｏｗｔｏ
ＨｉｇｈＢａｎｄＥｎｅｒｇｙＲａｔｉｏＶａ
ｌｕｅ；ＬＯＨ）を含む。

【００２５】以下は本発明の判別ステップである。図２
に示されるのは、本発明の判別フローチャートである。
そのステップは以下を包括する。フローチャートの開始
ステップ１０１の後、ステップ１０２を執行する。ステ
ップ１０２では現在の音声フレームデータを取得する。
続いて、ＮＣ値が一つの高臨界値０．７以上であるか否
かの判別のステップ１０３を執行する。該ＮＣ値の定義
については前述の説明を参照されたい。もし判別結果が
イエスであるならば、ステップ１０４を執行する。ステ
ップ１０４ではこの入力された現在の音声フレームデー
タ中の四つのサブフレームがいずれも有声音信号である
か否かを判定し、その後、判別プロセスを終了する。

【００２６】もし前述のステップ１０２中で、ＮＣ値が
高臨界値０．７以上でないと判別したならば、続いてス
テップ１０５で該ＮＣ値が低臨界値０．４より低いか否
かをを判別し、もしイエスであれば、該音声フレーム中
の四つのサブフレームがいずれも無声音信号に属すると
判定し、その後、判別プロセスを終了する。

【００２７】前述のステップ１０２、１０３の判別の
後、明らかに有声ないし無声音に属する信号が判別され
る。続いて、前述の明らかに有声ないし無声音に属する
信号の間に介在する信号を判別し、この一つの不安定
な、遷移領域の中、単独のステップ１０２、ステップ１
０３中のＮＣ値判断ステップにより有声／無声音の正確
な判別を行うことは不可能であり、このため以下の判別
方法により本発明の課題を解決することができる。ゆえ
に以下の判別ステップが本発明の特徴を極めて示すキー
ステップであるといえる。

【００２８】もし前述のステップ１０５中でＮＣ値が
０．４より小さくないと判定されたなら、安定か不安定
かの判別ステップ（Ｓｔａｔｉｏｎａｒｙ／ｎｏｎｓｔ
ａｔｉｏｎａｒｙＤｅｃｉｓｉｏｎ；Ｓ／ＮＳＤ
ｅｃｉｓｉｏｎ）を執行する。この一つのステップ中に
は、二つの判別項目が含まれ、その中の一つは、エネル
ギー量の判別であり、それは、一つのエネルギー量（Ｐ
ｒｅｖｉｏｕｓＥｎｅｒｇｙ）と現在のエネルギー量
（ＣｕｒｒｅｎｔＥｎｅｒｇｙ）の差値、即ちｄｉｓ
（ＰｒＥｎｇ，ＣｕＥｎｇ）の判別である。さらにもう
一歩Ｓ／ＮＳの判別の正確度を増すために、この一つの
ステップ中にはさらにＬＳＰ係数の判別が包括される。
このＬＳＰ係数はＬＰＣ等化器より取得する。このＬＳ
Ｐ係数の判別では、前の一つの平均ＬＳＰ（Ｐａｓｔ
ａｖｅｒａｇｅＬＳＰ）と現在ＬＳＰ（Ｃｕｒｒｅｎ
ｔＬＳＰ）の差値、即ちｄｉｓ（ＰａＬＳＰ，ＣｕＬ
ＳＰ）を取得する。ステップ１０７のＳ／ＮＳ判別ステ
ップ中、ａ．ｄｉｓ（ＰｒＥｎｇ，ＣｕＥｎｇ）が０．４５以上
であり、且つ、ｂ．ｄｉｓ（ＰａＬＳＰ，ＣｕＬＳＰ）が０．４以上で
あるか否かを判定し、もし結果がノーであれば、音声信号は安定状態にあるこ
とを示し、ステップ１０８を執行し、四つのサブフレー
ムの属性が全て前の一つの音声フレーム中の最後の一つ
のサブフレームの有声音又は無声音状態と同じと設定す
る。反対に、もしステップ１０７の差値の判別ステップ
中で、結果がイエス（即ちエネルギー量或いはＬＳＰ係
数の変化が極めて速いことを示す）の場合、ＬＯＨの判
別ステップ（ステップ１０９から１１３）を執行し、各
一つのサブフレームに対して有声か無声音かの分類判別
を行い、以て正確な判別結果を得る。いわゆるＬＯＨの
判別の定義は以下の数式１のとおりである。

【数１】その中ｉは第ｉ個のサブフレームを代表し、Ｓ
₂1p1k はもとの信号が1k低域フィルタを通過した後に得
られる信号を代表する。定義中、音声信号中の１ＫＨｚ
より低いものと１ＫＨｚより高いもののエネルギー量比
率は、一つのウインドウ長度Ｗで相互に相除され、その
いわゆるウインドウ長度Ｗの定義は以下のとおりであ
る。Ｗ＝ピッチ（ｐｉｔｃｈ）ピッチがＮｓｕｂｆｒａ
ｍｅより大きい場合Ｗ＝２＊ピッチピッチがＮｓｕｂｆｒａｍｅ／２以
上でＮｓｕｂｆｒａｍｅより小さい場合その中、Ｎｓｕｂｆｒａｍｅはサンプルのサブフレーム
長度を示す。このほか、ＬＯＨの定義中、一つの静音臨
界値Ｔｓｉｌを現在の音声フレームの最大音声値として
選択し、該Ｔｓｉｌ値は１ＫＨｚの高域フィルタを通過
した音声信号のエネルギー量中に加えられ得て、それに
より低エネルギー量の有声信号が無声音として選択され
る傾向が得られる。ｄｏｆｆｓｅｔ（ｊ）は各一つのサ
ブフレームの中心位置で、その定義は、ｄｏｆｆｓｅｔ（ｊ）＝Ｎｓｕｂｆｒａｍｅ＊（ｊ−１
／２），ｊ＝１〜４その中、ｊはサブフレームの番号を表示する。本発明の
ＬＯＨ判別フローチャート中、ステップ１１０では先に
第１個のサブフレームのＬＯＨ（前述の定義を参照）が
１より大きいか否かを判別し、もしイエス（１より大き
い）ならば、ステップ１１２を執行し、該サブフレーム
が有声音信号であると判定する。もしノーであれば、ス
テップ１１１を執行し、即ち該サブフレームが無声音の
信号であると判定する。その後、さらにステップ１１３
及び１１９に戻り、次の一つのサブフレームに対して判
別を進行し、四つのサブフレーム全てに対する判別を終
えて終了する。即ち、上述のＬＯＨ判別の後、各一つの
サブフレームのＬＯＨ値が、もし一つの臨界値より大き
ければ、該サブフレームは有声と判定され、大きくなけ
れば無声音と判定される。一つの音声フレームの四つの
サブフレーム全部の判定が終了した後、結果に基づき符
号化する過程に進む。本発明中、四つのサブフレームが
ただ３ビットを以て符号化され、それは図３に示される
とおりである。その中、１は有声音を示し、０は無声音
を示す。

【００２９】図３に示される索引値を得た後、対応する
値を保存し、符号化の過程を完成し、その後、実際の応
用では、周知の音声合成技術を以て復号し、必要な合成
音声を発生する。

【００３０】

【発明の効果】本発明は、一種の音声符号化の改良技術
を提供しており、それにより音声符号化の過程で優れた
音声合成出力品質が得られる。本発明はさらに、音声符
号化中に用いられる、正確に有声音か無声音かの識別方
法を提供しており、該識別方法により、正確に入力音声
信号中の音声フレームが有声音か無声音かを判別できる
ようになる。本発明はさらにまた、一種の四分割式の有
声／無声音判別の方法（ＱｉｕａｒｔｅｒＶｏｉｃｅ
ｄ／ＵｎｖｏｉｃｅｄＤｅｃｉｓｉｏｎＳｃｈｅｍ
ｅ）を提供している。

【図面の簡単な説明】

【図１】伝統的な音声符号化技術の基本ブロック図であ
る。

【図２】本発明の判別フローチャートである。

【図３】本発明中、四つのサブフレームを３ビットを以
て符号化したコード表である。

【符号の説明】

１１インパルス列ジェネレータ１２ランダムノイズジェネレータ１３有声／無声音切り換えスイッチ１４利得ユニット１５ＬＰＣフィルタ１６ＬＰＣフィルタ制御変数設定ユニット

Claims

【特許請求の範囲】

【請求項１】一種の音声符号化における有声音と無声
音の識別方法であって、入力音声の音声フレームデータ
の属性を識別するのに用いられる方法であり、該方法は
以下のａからｆのステップを包括する、ａ．現在の入力音声の音声フレームデータを四つのサブ
フレームに分割する、ｂ．四つのサブフレームの正規化相互相関値（Ｎｏｒｍ
ａｌｉｚｅｄＣｒｏｓｓｃｏｒｒｅｌａｔｉｏｎ
Ｖａｌｕｅ）、即ちＮＣ値が一つの高臨界値以上である
か否かを判別し、もし判別結果がイエスであれば、入力
された現在の音声フレーム中の四つのサブフレームがい
ずれも有声音信号であると判定する、ｃ．もし上記ｂのステップでサブフレームのＮＣ値が高
臨界値以上でなければ、該ＮＣ値が一つの低臨界値より
小さいか否かを判別し、もしイエスであれば、該音声フ
レーム中の四つのサブフレームがいずれも無声音信号に
属すると判定する、ｄ．もし上記ｃのステップでＮＣ値が低臨界値より小さ
くないと判別されたなら、安定か不安定かの判別ステッ
プを執行し、該サブフレームのエネルギー量値と線スペ
クトル対偶（ｌｉｎｅＳｐｅｃｔｒｕｍＰａｉｒ）
係数値、即ちＬＳＰ係数値の大きさをそれぞれ判別す
る、ｅ．もしエネルギー量値とＬＳＰ係数値が設定された臨
界値より大きくなければ、音声信号が安定状態を呈する
と判定し、四つのサブフレームの属性全部を前の一つの
音声フレーム中の最後の一つのサブフレームの有声音か
無声音の状態と同じと設定し、ｆ．上述のｅのステップ中で、もしエネルギー量値とＬ
ＳＰ係数値が設定された臨界値より大きければ、該サブ
フレームの低周波数帯域対高周波数帯域エネルギー比率
（ＬｏｗｔｏＨｉｇｈＢａｎｄＥｎｅｒｇｙ
ＲａｔｉｏＶａｌｕｅ）、即ちＬＯＨ値の判別ステッ
プを執行し、各一つのＬＯＨ値に対してある臨界値より
大きいか否かを判定し、もし臨界値より大きければ、該
サブフレームを有声音信号と判定し、もし大きくなけれ
ば該サブフレームを無声音の信号と判定し、次の一つの
サブフレームに判別を進行して、四つのサブフレームの
全てに対する判別を終えて終了する、以上を特徴とす
る、音声符号化における有声音と無声音の識別方法。
【請求項２】ｂのステップでサブフレームのＮＣ値を
判別する時に用いられる高臨界値は０．７に設定するこ
とを特徴とする、請求項１に記載の音声符号化における
有声音と無声音の識別方法。
【請求項３】ｃのステップでサブフレームのＮＣ値を
判別する時に用いられる低臨界値は０．４に設定するこ
とを特徴とする、請求項１に記載の音声符号化における
有声音と無声音の識別方法。
【請求項４】ｄのステップの安定か不安定かの判別ス
テップ中、サブフレームのエネルギー量値の判別では、
前の一つのエネルギー量と現在のエネルギー量の差値が
設定されたある臨界値以上であるか否かの判断を行う、
請求項１に記載の音声符号化における有声音と無声音の
識別方法。
【請求項５】エネルギー量値の判別ステップで、設定
された臨界値は０．４５とする、請求項４に記載の音声
符号化における有声音と無声音の識別方法。
【請求項６】ｄのステップの安定か不安定かの判別ス
テップ中、サブフレームのＬＳＰ係数値の判別では、前
の一つの平均ＬＳＰ係数値と現在のＬＳＰ係数値との差
値を判断することを特徴とする、請求項１に記載の音声
符号化における有声音と無声音の識別方法。
【請求項７】サブフレームのＬＳＰ係数値の判別ステ
ップで用いる臨界値は０．４と設定することを特徴とす
る、請求項６に記載の音声符号化における有声音と無声
音の識別方法。
【請求項８】ｆのステップで、サブフレームのＬＯＨ
値の判別ステップ中、ＬＯＨの定義は以下の数式１とさ
れ、【数１】その中ｉは第ｉ個のサブフレームを代表し、Ｓ₂1p1k は
もとの信号が1k低域フィルタを通過した後に得られる信
号を代表し、定義中、音声信号中の１ＫＨｚより低いも
のと１ＫＨｚより高いもののエネルギー量比率は、一つ
のウインドウ長度Ｗで割られ、そのいわゆるウインドウ
長度Ｗの定義は、ピッチがＮｓｕｂｆｒａｍｅより大きい場合は、Ｗ＝ピ
ッチ（ｐｉｔｃｈ）ピッチがＮｓｕｂｆｒａｍｅ／２以上でＮｓｕｂｆｒａ
ｍｅより小さい場合は、Ｗ＝２＊ピッチであり、その
中、Ｎｓｕｂｆｒａｍｅはサンプルのサブフレーム長度
を示し、ＬＯＨの定義中、静音臨界値Ｔｓｉｌは現在の
音声フレームの最大音声値であり、該Ｔｓｉｌ値は１Ｋ
Ｈｚの高域フィルタを通過した音声信号のエネルギー量
中に加えられ得て、それにより低エネルギー量の有声信
号に無声音として選択される傾向を与え、ｄｏｆｆｓｅ
ｔ（ｊ）は各一つのサブフレームの中心位置で、その定
義は、ｄｏｆｆｓｅｔ（ｊ）＝Ｎｓｕｂｆｒａｍｅ＊（ｊ−１
／２），ｊ＝１〜４その中、ｊはサブフレームの番号を表示する、以上を特
徴とする、請求項１に記載の音声符号化における有声音
と無声音の識別方法。