JPH10222194A - 音声符号化における有声音と無声音の識別方法 - Google Patents

音声符号化における有声音と無声音の識別方法

Info

Publication number
JPH10222194A
JPH10222194A JP3262397A JP3262397A JPH10222194A JP H10222194 A JPH10222194 A JP H10222194A JP 3262397 A JP3262397 A JP 3262397A JP 3262397 A JP3262397 A JP 3262397A JP H10222194 A JPH10222194 A JP H10222194A
Authority
JP
Japan
Prior art keywords
value
subframe
voiced
unvoiced
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3262397A
Other languages
English (en)
Inventor
Shinto Rin
進燈 林
Shinan Rin
信安 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GOTAI HANDOTAI KOFUN YUGENKOSHI
Original Assignee
GOTAI HANDOTAI KOFUN YUGENKOSHI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GOTAI HANDOTAI KOFUN YUGENKOSHI filed Critical GOTAI HANDOTAI KOFUN YUGENKOSHI
Priority to JP3262397A priority Critical patent/JPH10222194A/ja
Publication of JPH10222194A publication Critical patent/JPH10222194A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声符号化における有声音と無声音の識別方
法の提供。 【解決手段】 入力音声の音声フレームデータを四つの
サブフレームに分割し、さらに各サブフレームに対して
有声音か無声音かの判別を以下のように行う。各サブフ
レームのNC値を高臨界値と低臨界値とそれぞれ比較
し、安定か不安定かの判別ステップで該サブフレームの
エネルギー量値とLSP係数値の大きさをそれぞれ判別
し、両者が設定された臨界値より大きければ、サブフレ
ームの低周波数帯域対高周波数帯域エネルギー比率(L
OH)の判別ステップを行い、LOH値判別ステップ中
で各サブフレームがある臨界値以上か否かを判定し、イ
エスであればサブフレームを有声音信号と、ノーであれ
ば無声音信号と判別する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は一種の音声符号化の
技術に関し、特に、音声符号化技術において有声音か無
声音かを識別するのに用いられる方法に関する。
【0002】
【従来の技術】音声合成の技術にあっては、線形予測コ
ーディング(Liner Predictive Co
ding;LPC)の技術が一般に用いられている。こ
のLPCの方法では、LPC−10音声エンコーダが、
低ビット率の音声圧縮に広く用いられている。一つのL
PC音声エンコーダについては、いかに正確に入力音声
信号が有声音か無声音かを識別するかが重要な課題であ
った。というのは、この有声/無声音識別過程が、音声
合成の出力品質に大きな影響を与えうるためであった。
【0003】図1に示されるのは、伝統的な音声符号化
技術のブロック図である。図中のブロック中には、イン
パルス列ジェネレータ11(Impulse Trai
nGenerator)、ランダムノイズジェネレータ
12(Random Noise Generato
r)、有声/無声音切り換えスイッチ13(voice
d/unvoiced Switch)、利得ユニット
14(Gain Unit)、LPCフィルタ15(L
iner Predictive Coding Fi
lter)、LPCフィルタ制御変数設定ユニット16
が含まれる。
【0004】インパルス列ジェネレータ11の発生する
周期性インパルス列(Periodic Impuls
e Train)或いはランダムノイズジェネレータ1
2の発生するノイズ信号(White Noise)
は、声音/無声音切り換えスイッチ13による、その入
力信号の類型属性によった適当な選択切り換えを経て、
利得ユニット14を経て信号の利得が行われ、以てその
信号のレベルが調整される。そしてさらにLPCフィル
タ15がLPCフィルタ制御変数設定ユニット16に設
定されたLPC変数(LPC Parameters)
に基づき、ろ波を執行し、最後に、LPCフィルタ15
の出力端より音声出力S(n)を行う。
【0005】前述の音声識別のステップを執行すると
き、識別装置は各一つの入力音声の音声フレーム(Sp
eech Frame)に対してその有声/無声音判別
方法、ピッチ周期(Pitch Period)、LP
C変数、及び利得値(GainValue)を更新す
る。その目的は、入力音声の変化状況に追従できるよう
にすることにある。現在ある典型的な技術では、各一つ
の音声フレームは160回のサンプルを包括し、即ち、
一つの所定の音声フレームの大きさの中に、0.02秒
ごとにサンプルが取られている。
【0006】前述の音声識別において、その中、有声音
か無声音かの判別方法については、伝統的には相関ピッ
チの強度に基づいて判別する方法がとられている。例え
ば、もし正規化相互相関値(Normalized C
ross correlation Value;NC
値)が予め設定された臨界値、例えば0.4以上であれ
ば、その音声フレームは正常な音声信号と判定され、こ
のとき、音声合成器が周期パルス列によりLPCフィル
タを励起する。その反対に、もしNC値が臨界値0.4
より小さい場合、その音声フレームは無声音信号に属す
ると判別され、音声合成器はランダムノイズジェネレー
タで該LPCフィルタを励起する。前述のNC値の定義
は以下の数式2による。
【数2】
【0007】しかし、不安定な音声信号、即ち臨界値の
上下の不確定レベル区域を変動するものについては、そ
のNC値の臨界値0.4より小さい程度は非常に小さく
なり得て、この時、前述の簡易な判別方法では、正確に
それが有声音信号であるか或いは無声音信号であるかを
判別できない。ゆえに、実際の応用時には、誤断が発生
する恐れがあった。
【0008】上述の問題を克服し、その判別の正確度を
増進するために、周知の技術では前述のNC値の判別の
外に、さらに音声信号エネルギー量の判別を執行する必
要があり、それによって比較的正確な判別をなす目的を
達していた。
【0009】周知の技術にあっては、このほか、もう一
種の有声/無声音識別方法がある。このもう一種の周知
の技術に基づき、音声信号エネルギー量を判別する時に
は、以下の二種の状況を包括する。 a.音声エネルギー量 一般的には、無声音の音声エネルギー量は有声音のもの
より低く、そのエネルギーの二乗平均平方根値(RM
S)は、以下の数式3で求められる。
【数3】 その中、Nは入力音声信号の音声フレーム全体を代表す
る。 b.ゼロ交差率(ZC) その定義は音声フレーム全体の零交差の回数とされ、以
下の数式4で求められる。
【数4】 前述の音声符号化技術中、各一つの音声フレーム中に
は、160回のサンプルが含まれ、そのビット数の面で
は、各一つの音声フレームは34ビットのLPC変数
と、6ビットのピッチと、1ビットの有声/無声音と、
7ビットの利得値の総計48ビットを含む。
【0010】前述のように、音声を符号化するには、入
力音声信号が有声音であるか無声音であるかをいかに正
確に判別するかが重要な課題となる。そしてその判別過
程が音声合成の出力品質に大きく影響する。もし、有声
/無声音判別の過程で、無声音が有声音と誤断されたな
らば、出力された合成音声は唸り声のような音声とな
り、もし有声音が無声音と誤断されたならば、出力され
た合成音声は敲撃音のように聞こえる。この問題に対し
て、前述の伝統的な技術は有効に解決することができな
かった。
【0011】さらに、前述の第2種の伝統の技術では、
1ビットを以て音声フレーム中の有声或いは無声音の状
態を決定しており、以て、有声と無声音間の臨界状態を
含蓄せんとしている。このため、音声フレーム全体が臨
界区域にあり、有声音か無声音かが判定されていないの
で、往々にして出力された合成音声が雑音を有するよう
に聞こえた。
【0012】
【発明が解決しようとする課題】上述の周知の技術の欠
点から、伝統的な音声符号化技術には改善の必要がある
ことが分かる。このため、本発明の主な目的は、一種の
音声符号化の改良技術を提供して、それにより音声符号
化の過程で優れた音声合成出力品質を提供することにあ
る。
【0013】本発明のもう一つの目的は、音声符号化中
に用いられる、正確に有声音か無声音かの識別方法を提
供し、該識別方法により、正確に入力音声信号中の音声
フレームが有声音か無声音かを判別できるようにするこ
とにある。
【0014】本発明のさらにもう一つの目的は、一種の
四分割式の有声/無声音判別の方法(Qiuarter
Voiced/Unvoiced Decision
Scheme)を提供することにあり、それは、入力
音声信号中の各一つの音声フレームを四つのサブフレー
ムに分割し、その後、各一つのサブフレームに対して、
その相関の変数に基づき、総合的に該サブフレームが有
声音か無声音かを判定し、その判別の結果により、音声
合成出力端にて正確で自然な音声信号出力を行わせる方
法とする。
【0015】本発明のさらにもう一つの目的は、一種
の、入力音声信号の音声フレーム中の有声/無声音の正
確な判別方法を提供することにある。本発明のステップ
中、まず、入力音声の音声フレームを四つのサブフレー
ムに分割した後、順に該四つのサブフレームのNC値
(正規化相互相関値)が高臨界値(例えば0.7)以上
であるか否かを判別する。その後、さらに、該NC値が
低臨界値(例えば0.4)より小さいかを判別する。前
述の二つの判別ステップの後、明らかに有声と無声音に
属する信号を判別し、続いて、前述の明らかに有声と無
声音に属する信号の間に介在する信号を判別する。即
ち、もし前述のステップ中、NC値が低臨界値より小さ
くないと判別されたならば、安定/不安定の判別ステッ
プを執行し、該サブフレームのエネルギー量値と線スペ
クトル対偶(Line Spectrum Pair;
LSP)係数値、即ちLSP係数値の大きさをそれぞれ
判別し、もしエネルギー量値とLSP係数値が予め設定
された臨界値より大きくなければ、音声信号が安定状態
を呈すると判定し、四つのサブフレームの属性全てを前
の一つの音声フレーム中の最後の一つのサブフレームの
有声/無声音状態と同じと設定し、もし前述のステップ
中、エネルギー量値とLSP係数値が設定された臨界値
より大きいと判別されたなら、該サブフレームの低周波
数帯域対高周波数帯域エネルギー比率(Low to
High Band Energy Ratio Va
lue;LOH)の判別ステップを執行し、各一つのサ
ブフレームのLOH値が一つの臨界値より大きいか否か
を判定し、もし臨界値より大きければ、該サブフレーム
を有声音声信号と判定し、もしそうでなければ該サブフ
レームを無声音声の信号と判定する。同様に次の一つの
サブフレームに対して判別を進行し、こうして四つのサ
ブフレーム全てに対する判別を行う。
【0016】
【課題を解決するための手段】請求項1の発明は、一種
の音声符号化における有声音と無声音の識別方法であっ
て、入力音声の音声フレームデータの属性を識別するの
に用いられる方法であり、該方法は以下のaからfのス
テップを包括する、 a.現在の入力音声の音声フレームデータを四つのサブ
フレームに分割する、 b.四つのサブフレームの正規化相互相関値(Norm
alized Cross correlation
Value)、即ちNC値が一つの高臨界値以上である
か否かを判別し、もし判別結果がイエスであれば、入力
された現在の音声フレーム中の四つのサブフレームがい
ずれも有声音信号であると判定する、 c.もし上記bのステップでサブフレームのNC値が高
臨界値以上でなければ、該NC値が一つの低臨界値より
小さいか否かを判別し、もしイエスであれば、該音声フ
レーム中の四つのサブフレームがいずれも無声音信号に
属すると判定する、 d.もし上記cのステップでNC値が低臨界値より小さ
くないと判別されたなら、安定か不安定かの判別ステッ
プを執行し、該サブフレームのエネルギー量値と線スペ
クトル対偶(line Spectrum Pair)
係数値、即ちLSP係数値の大きさをそれぞれ判別す
る、 e.もしエネルギー量値とLSP係数値が設定された臨
界値より大きくなければ、音声信号が安定状態を呈する
と判定し、四つのサブフレームの属性全部を前の一つの
音声フレーム中の最後の一つのサブフレームの有声音か
無声音の状態と同じと設定し、 f.上述のeのステップ中で、もしエネルギー量値とL
SP係数値が設定された臨界値より大きければ、該サブ
フレームの低周波数帯域対高周波数帯域エネルギー比率
(Low to High Band Energy
Ratio Value)、即ちLOH値の判別ステッ
プを執行し、各一つのLOH値に対してある臨界値より
大きいか否かを判定し、もし臨界値より大きければ、該
サブフレームを有声音信号と判定し、もし大きくなけれ
ば該サブフレームを無声音の信号と判定し、次の一つの
サブフレームに判別を進行して、四つのサブフレームの
全てに対する判別を終えて終了する、 以上を特徴とする、音声符号化における有声音と無声音
の識別方法としている。
【0017】請求項2の発明は、bのステップでサブフ
レームのNC値を判別する時に用いられる高臨界値は
0.7に設定することを特徴とする、請求項1に記載の
音声符号化における有声音と無声音の識別方法としてい
る。
【0018】請求項3の発明は、cのステップでサブフ
レームのNC値を判別する時に用いられる低臨界値は
0.4に設定することを特徴とする、請求項1に記載の
音声符号化における有声音と無声音の識別方法としてい
る。
【0019】請求項4の発明は、dのステップの安定か
不安定かの判別ステップ中、サブフレームのエネルギー
量値の判別では、前の一つのエネルギー量と現在のエネ
ルギー量の差値が設定されたある臨界値以上であるか否
かの判断を行う、請求項1に記載の音声符号化における
有声音と無声音の識別方法としている。
【0020】請求項5の発明は、エネルギー量値の判別
ステップで、設定された臨界値は0.45とする、請求
項4に記載の音声符号化における有声音と無声音の識別
方法としている。
【0021】請求項6の発明は、dのステップの安定か
不安定かの判別ステップ中、サブフレームのLSP係数
値の判別では、前の一つの平均LSP係数値と現在のL
SP係数値との差値を判断することを特徴とする、請求
項1に記載の音声符号化における有声音と無声音の識別
方法としている。
【0022】請求項7の発明は、サブフレームのLSP
係数値の判別ステップで用いる臨界値は0.4と設定す
ることを特徴とする、請求項6に記載の音声符号化にお
ける有声音と無声音の識別方法としている。
【0023】請求項8の発明は、fのステップで、サブ
フレームのLOH値の判別ステップ中、LOHの定義は
以下の数式1とされ、
【数1】その中iは第i個のサブフレームを代表し、S
21p1k はもとの信号が1k低域フィルタを通過した後に得
られる信号を代表し、定義中、音声信号中の1KHzよ
り低いものと1KHzより高いもののエネルギー量比率
は、一つのウインドウ長度Wで割られ、そのいわゆるウ
インドウ長度Wの定義は、ピッチがNsubframe
より大きい場合は、W=ピッチ(pitch) ピッチがNsubframe/2以上でNsubfra
meより小さい場合は、W=2*ピッチ であり、その
中、Nsubframeはサンプルのサブフレーム長度
を示し、LOHの定義中、静音臨界値Tsilは現在の
音声フレームの最大音声値であり、該Tsil値は1K
Hzの高域フィルタを通過した音声信号のエネルギー量
中に加えられ得て、それにより低エネルギー量の有声信
号に無声音として選択される傾向を与え、doffse
t(j)は各一つのサブフレームの中心位置で、その定
義は、 doffset(j)=Nsubframe*(j−1
/2),j=1〜4 その中、jはサブフレームの番号を表示する、以上を特
徴とする、請求項1に記載の音声符号化における有声音
と無声音の識別方法としている。
【0024】
【発明の実施の形態】本発明の判別方法では、入力音声
信号の音声フレームを4個のサブフレーム(Subfr
ame)に分割し、その後、各一つのサブフレームに対
して相関する変数に基づき、相当的に各一つのサブフレ
ームが有声音か無声音かの判別を行う。前述の変数は、
NC、エネルギー量、線スペクトル対偶係数(line
Spectrum Pair;LSP)、及び低周波
数帯域対高周波数帯域エネルギー比率(Low to
High Band Energy Ratio Va
lue;LOH)を含む。
【0025】以下は本発明の判別ステップである。図2
に示されるのは、本発明の判別フローチャートである。
そのステップは以下を包括する。フローチャートの開始
ステップ101の後、ステップ102を執行する。ステ
ップ102では現在の音声フレームデータを取得する。
続いて、NC値が一つの高臨界値0.7以上であるか否
かの判別のステップ103を執行する。該NC値の定義
については前述の説明を参照されたい。もし判別結果が
イエスであるならば、ステップ104を執行する。ステ
ップ104ではこの入力された現在の音声フレームデー
タ中の四つのサブフレームがいずれも有声音信号である
か否かを判定し、その後、判別プロセスを終了する。
【0026】もし前述のステップ102中で、NC値が
高臨界値0.7以上でないと判別したならば、続いてス
テップ105で該NC値が低臨界値0.4より低いか否
かをを判別し、もしイエスであれば、該音声フレーム中
の四つのサブフレームがいずれも無声音信号に属すると
判定し、その後、判別プロセスを終了する。
【0027】前述のステップ102、103の判別の
後、明らかに有声ないし無声音に属する信号が判別され
る。続いて、前述の明らかに有声ないし無声音に属する
信号の間に介在する信号を判別し、この一つの不安定
な、遷移領域の中、単独のステップ102、ステップ1
03中のNC値判断ステップにより有声/無声音の正確
な判別を行うことは不可能であり、このため以下の判別
方法により本発明の課題を解決することができる。ゆえ
に以下の判別ステップが本発明の特徴を極めて示すキー
ステップであるといえる。
【0028】もし前述のステップ105中でNC値が
0.4より小さくないと判定されたなら、安定か不安定
かの判別ステップ(Stationary/nonst
ationary Decision; S/NS D
ecision)を執行する。この一つのステップ中に
は、二つの判別項目が含まれ、その中の一つは、エネル
ギー量の判別であり、それは、一つのエネルギー量(P
revious Energy)と現在のエネルギー量
(Current Energy)の差値、即ちdis
(PrEng,CuEng)の判別である。さらにもう
一歩S/NSの判別の正確度を増すために、この一つの
ステップ中にはさらにLSP係数の判別が包括される。
このLSP係数はLPC等化器より取得する。このLS
P係数の判別では、前の一つの平均LSP(Past
average LSP)と現在LSP(Curren
t LSP)の差値、即ちdis(PaLSP,CuL
SP)を取得する。ステップ107のS/NS判別ステ
ップ中、 a.dis(PrEng,CuEng)が0.45以上
であり、且つ、 b.dis(PaLSP,CuLSP)が0.4以上で
あるか否かを判定し、 もし結果がノーであれば、音声信号は安定状態にあるこ
とを示し、ステップ108を執行し、四つのサブフレー
ムの属性が全て前の一つの音声フレーム中の最後の一つ
のサブフレームの有声音又は無声音状態と同じと設定す
る。反対に、もしステップ107の差値の判別ステップ
中で、結果がイエス(即ちエネルギー量或いはLSP係
数の変化が極めて速いことを示す)の場合、LOHの判
別ステップ(ステップ109から113)を執行し、各
一つのサブフレームに対して有声か無声音かの分類判別
を行い、以て正確な判別結果を得る。いわゆるLOHの
判別の定義は以下の数式1のとおりである。
【数1】その中iは第i個のサブフレームを代表し、S
21p1k はもとの信号が1k低域フィルタを通過した後に得
られる信号を代表する。定義中、音声信号中の1KHz
より低いものと1KHzより高いもののエネルギー量比
率は、一つのウインドウ長度Wで相互に相除され、その
いわゆるウインドウ長度Wの定義は以下のとおりであ
る。 W=ピッチ(pitch) ピッチがNsubfra
meより大きい場合 W=2*ピッチ ピッチがNsubframe/2以
上でNsubframeより小さい場合 その中、Nsubframeはサンプルのサブフレーム
長度を示す。このほか、LOHの定義中、一つの静音臨
界値Tsilを現在の音声フレームの最大音声値として
選択し、該Tsil値は1KHzの高域フィルタを通過
した音声信号のエネルギー量中に加えられ得て、それに
より低エネルギー量の有声信号が無声音として選択され
る傾向が得られる。doffset(j)は各一つのサ
ブフレームの中心位置で、その定義は、 doffset(j)=Nsubframe*(j−1
/2),j=1〜4 その中、jはサブフレームの番号を表示する。本発明の
LOH判別フローチャート中、ステップ110では先に
第1個のサブフレームのLOH(前述の定義を参照)が
1より大きいか否かを判別し、もしイエス(1より大き
い)ならば、ステップ112を執行し、該サブフレーム
が有声音信号であると判定する。もしノーであれば、ス
テップ111を執行し、即ち該サブフレームが無声音の
信号であると判定する。その後、さらにステップ113
及び119に戻り、次の一つのサブフレームに対して判
別を進行し、四つのサブフレーム全てに対する判別を終
えて終了する。即ち、上述のLOH判別の後、各一つの
サブフレームのLOH値が、もし一つの臨界値より大き
ければ、該サブフレームは有声と判定され、大きくなけ
れば無声音と判定される。一つの音声フレームの四つの
サブフレーム全部の判定が終了した後、結果に基づき符
号化する過程に進む。本発明中、四つのサブフレームが
ただ3ビットを以て符号化され、それは図3に示される
とおりである。その中、1は有声音を示し、0は無声音
を示す。
【0029】図3に示される索引値を得た後、対応する
値を保存し、符号化の過程を完成し、その後、実際の応
用では、周知の音声合成技術を以て復号し、必要な合成
音声を発生する。
【0030】
【発明の効果】本発明は、一種の音声符号化の改良技術
を提供しており、それにより音声符号化の過程で優れた
音声合成出力品質が得られる。本発明はさらに、音声符
号化中に用いられる、正確に有声音か無声音かの識別方
法を提供しており、該識別方法により、正確に入力音声
信号中の音声フレームが有声音か無声音かを判別できる
ようになる。本発明はさらにまた、一種の四分割式の有
声/無声音判別の方法(Qiuarter Voice
d/Unvoiced Decision Schem
e)を提供している。
【図面の簡単な説明】
【図1】伝統的な音声符号化技術の基本ブロック図であ
る。
【図2】本発明の判別フローチャートである。
【図3】本発明中、四つのサブフレームを3ビットを以
て符号化したコード表である。
【符号の説明】
11 インパルス列ジェネレータ 12 ランダムノイズジェネレータ 13 有声/無声音切り換えスイッチ 14 利得ユニット 15 LPCフィルタ 16 LPCフィルタ制御変数設定ユニット

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 一種の音声符号化における有声音と無声
    音の識別方法であって、入力音声の音声フレームデータ
    の属性を識別するのに用いられる方法であり、該方法は
    以下のaからfのステップを包括する、 a.現在の入力音声の音声フレームデータを四つのサブ
    フレームに分割する、 b.四つのサブフレームの正規化相互相関値(Norm
    alized Cross correlation
    Value)、即ちNC値が一つの高臨界値以上である
    か否かを判別し、もし判別結果がイエスであれば、入力
    された現在の音声フレーム中の四つのサブフレームがい
    ずれも有声音信号であると判定する、 c.もし上記bのステップでサブフレームのNC値が高
    臨界値以上でなければ、該NC値が一つの低臨界値より
    小さいか否かを判別し、もしイエスであれば、該音声フ
    レーム中の四つのサブフレームがいずれも無声音信号に
    属すると判定する、 d.もし上記cのステップでNC値が低臨界値より小さ
    くないと判別されたなら、安定か不安定かの判別ステッ
    プを執行し、該サブフレームのエネルギー量値と線スペ
    クトル対偶(line Spectrum Pair)
    係数値、即ちLSP係数値の大きさをそれぞれ判別す
    る、 e.もしエネルギー量値とLSP係数値が設定された臨
    界値より大きくなければ、音声信号が安定状態を呈する
    と判定し、四つのサブフレームの属性全部を前の一つの
    音声フレーム中の最後の一つのサブフレームの有声音か
    無声音の状態と同じと設定し、 f.上述のeのステップ中で、もしエネルギー量値とL
    SP係数値が設定された臨界値より大きければ、該サブ
    フレームの低周波数帯域対高周波数帯域エネルギー比率
    (Low to High Band Energy
    Ratio Value)、即ちLOH値の判別ステッ
    プを執行し、各一つのLOH値に対してある臨界値より
    大きいか否かを判定し、もし臨界値より大きければ、該
    サブフレームを有声音信号と判定し、もし大きくなけれ
    ば該サブフレームを無声音の信号と判定し、次の一つの
    サブフレームに判別を進行して、四つのサブフレームの
    全てに対する判別を終えて終了する、以上を特徴とす
    る、音声符号化における有声音と無声音の識別方法。
  2. 【請求項2】 bのステップでサブフレームのNC値を
    判別する時に用いられる高臨界値は0.7に設定するこ
    とを特徴とする、請求項1に記載の音声符号化における
    有声音と無声音の識別方法。
  3. 【請求項3】 cのステップでサブフレームのNC値を
    判別する時に用いられる低臨界値は0.4に設定するこ
    とを特徴とする、請求項1に記載の音声符号化における
    有声音と無声音の識別方法。
  4. 【請求項4】 dのステップの安定か不安定かの判別ス
    テップ中、サブフレームのエネルギー量値の判別では、
    前の一つのエネルギー量と現在のエネルギー量の差値が
    設定されたある臨界値以上であるか否かの判断を行う、
    請求項1に記載の音声符号化における有声音と無声音の
    識別方法。
  5. 【請求項5】 エネルギー量値の判別ステップで、設定
    された臨界値は0.45とする、請求項4に記載の音声
    符号化における有声音と無声音の識別方法。
  6. 【請求項6】 dのステップの安定か不安定かの判別ス
    テップ中、サブフレームのLSP係数値の判別では、前
    の一つの平均LSP係数値と現在のLSP係数値との差
    値を判断することを特徴とする、請求項1に記載の音声
    符号化における有声音と無声音の識別方法。
  7. 【請求項7】 サブフレームのLSP係数値の判別ステ
    ップで用いる臨界値は0.4と設定することを特徴とす
    る、請求項6に記載の音声符号化における有声音と無声
    音の識別方法。
  8. 【請求項8】 fのステップで、サブフレームのLOH
    値の判別ステップ中、LOHの定義は以下の数式1とさ
    れ、 【数1】 その中iは第i個のサブフレームを代表し、S21p1k は
    もとの信号が1k低域フィルタを通過した後に得られる信
    号を代表し、定義中、音声信号中の1KHzより低いも
    のと1KHzより高いもののエネルギー量比率は、一つ
    のウインドウ長度Wで割られ、そのいわゆるウインドウ
    長度Wの定義は、 ピッチがNsubframeより大きい場合は、W=ピ
    ッチ(pitch) ピッチがNsubframe/2以上でNsubfra
    meより小さい場合は、W=2*ピッチ であり、その
    中、Nsubframeはサンプルのサブフレーム長度
    を示し、LOHの定義中、静音臨界値Tsilは現在の
    音声フレームの最大音声値であり、該Tsil値は1K
    Hzの高域フィルタを通過した音声信号のエネルギー量
    中に加えられ得て、それにより低エネルギー量の有声信
    号に無声音として選択される傾向を与え、doffse
    t(j)は各一つのサブフレームの中心位置で、その定
    義は、 doffset(j)=Nsubframe*(j−1
    /2),j=1〜4 その中、jはサブフレームの番号を表示する、以上を特
    徴とする、請求項1に記載の音声符号化における有声音
    と無声音の識別方法。
JP3262397A 1997-02-03 1997-02-03 音声符号化における有声音と無声音の識別方法 Pending JPH10222194A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3262397A JPH10222194A (ja) 1997-02-03 1997-02-03 音声符号化における有声音と無声音の識別方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3262397A JPH10222194A (ja) 1997-02-03 1997-02-03 音声符号化における有声音と無声音の識別方法

Publications (1)

Publication Number Publication Date
JPH10222194A true JPH10222194A (ja) 1998-08-21

Family

ID=12363989

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3262397A Pending JPH10222194A (ja) 1997-02-03 1997-02-03 音声符号化における有声音と無声音の識別方法

Country Status (1)

Country Link
JP (1) JPH10222194A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001265396A (ja) * 2000-01-11 2001-09-28 Matsushita Electric Ind Co Ltd マルチモード音声符号化装置及び復号化装置
US7050968B1 (en) 1999-07-28 2006-05-23 Nec Corporation Speech signal decoding method and apparatus using decoded information smoothed to produce reconstructed speech signal of enhanced quality
JP2007041593A (ja) * 2005-08-01 2007-02-15 Samsung Electronics Co Ltd 音声信号のハーモニック成分を用いた有声音/無声音分離情報を抽出する方法及び装置
KR100770895B1 (ko) 2006-03-18 2007-10-26 삼성전자주식회사 음성 신호 분리 시스템 및 그 방법
US8175869B2 (en) 2005-08-11 2012-05-08 Samsung Electronics Co., Ltd. Method, apparatus, and medium for classifying speech signal and method, apparatus, and medium for encoding speech signal using the same
WO2015188627A1 (zh) * 2014-06-12 2015-12-17 华为技术有限公司 一种音频信号的时域包络处理方法及装置、编码器

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7050968B1 (en) 1999-07-28 2006-05-23 Nec Corporation Speech signal decoding method and apparatus using decoded information smoothed to produce reconstructed speech signal of enhanced quality
US7426465B2 (en) 1999-07-28 2008-09-16 Nec Corporation Speech signal decoding method and apparatus using decoded information smoothed to produce reconstructed speech signal to enhanced quality
US7693711B2 (en) 1999-07-28 2010-04-06 Nec Corporation Speech signal decoding method and apparatus
JP4619549B2 (ja) * 2000-01-11 2011-01-26 パナソニック株式会社 マルチモード音声復号化装置及びマルチモード音声復号化方法
JP2001265396A (ja) * 2000-01-11 2001-09-28 Matsushita Electric Ind Co Ltd マルチモード音声符号化装置及び復号化装置
JP2007041593A (ja) * 2005-08-01 2007-02-15 Samsung Electronics Co Ltd 音声信号のハーモニック成分を用いた有声音/無声音分離情報を抽出する方法及び装置
US7778825B2 (en) 2005-08-01 2010-08-17 Samsung Electronics Co., Ltd Method and apparatus for extracting voiced/unvoiced classification information using harmonic component of voice signal
US8175869B2 (en) 2005-08-11 2012-05-08 Samsung Electronics Co., Ltd. Method, apparatus, and medium for classifying speech signal and method, apparatus, and medium for encoding speech signal using the same
US7809555B2 (en) 2006-03-18 2010-10-05 Samsung Electronics Co., Ltd Speech signal classification system and method
KR100770895B1 (ko) 2006-03-18 2007-10-26 삼성전자주식회사 음성 신호 분리 시스템 및 그 방법
WO2015188627A1 (zh) * 2014-06-12 2015-12-17 华为技术有限公司 一种音频信号的时域包络处理方法及装置、编码器
US9799343B2 (en) 2014-06-12 2017-10-24 Huawei Technologies Co., Ltd. Method and apparatus for processing temporal envelope of audio signal, and encoder
US10170128B2 (en) 2014-06-12 2019-01-01 Huawei Technologies Co., Ltd. Method and apparatus for processing temporal envelope of audio signal, and encoder
US10580423B2 (en) 2014-06-12 2020-03-03 Huawei Technologies Co., Ltd. Method and apparatus for processing temporal envelope of audio signal, and encoder

Similar Documents

Publication Publication Date Title
JP5543405B2 (ja) フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ
Kubin et al. Performance of noise excitation for unvoiced speech
US5018200A (en) Communication system capable of improving a speech quality by classifying speech signals
JP2010286853A (ja) 合成による分析celp型音声符号化のための適応型ウィンドウ
KR20020052191A (ko) 음성 분류를 이용한 음성의 가변 비트 속도 켈프 코딩 방법
JP2006502426A (ja) ソース制御された可変ビットレート広帯域音声の符号化方法および装置
JP2005534950A (ja) 線形予測に基づく音声コーデックにおける効率的なフレーム消失の隠蔽のための方法、及び装置
US7869993B2 (en) Method and a device for source coding
JP4040126B2 (ja) 音声復号化方法および装置
EP1312075B1 (en) Method for noise robust classification in speech coding
CN107293311A (zh) 非常短的基音周期检测和编码
JPH1020891A (ja) 音声符号化方法及び装置
CN103915097B (zh) 一种语音信号处理方法、装置和***
KR100216018B1 (ko) 배경음을 엔코딩 및 디코딩하는 방법 및 장치
JP2002536694A (ja) 音声コーダのための、1/8レート乱数発生のための方法と手段
JPH10222194A (ja) 音声符号化における有声音と無声音の識別方法
Cellario et al. CELP coding at variable rate
JPH1198090A (ja) 音声符号化/復号化装置
Al-Heeti et al. Voice encoding for wireless communication based on LPC, RPE, and CELP
Wang et al. Phonetic segmentation for low rate speech coding
CN1190773A (zh) 语音编码的波形增益估测方法
JP3798433B2 (ja) ピッチサイクル波形を平滑化する方法及び装置
CN101266798B (zh) 一种在语音解码器中进行增益平滑的方法及装置
US20030158730A1 (en) Method and apparatus for embedding data in and extracting data from voice code
JP4826580B2 (ja) 音声信号の再生方法及び装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20000530