JP6133454B2 - 音声信号処理方法及び音声信号処理装置 - Google Patents

音声信号処理方法及び音声信号処理装置 Download PDF

Info

Publication number
JP6133454B2
JP6133454B2 JP2016016996A JP2016016996A JP6133454B2 JP 6133454 B2 JP6133454 B2 JP 6133454B2 JP 2016016996 A JP2016016996 A JP 2016016996A JP 2016016996 A JP2016016996 A JP 2016016996A JP 6133454 B2 JP6133454 B2 JP 6133454B2
Authority
JP
Japan
Prior art keywords
discontinuity
isf
unit
speech
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016016996A
Other languages
English (en)
Other versions
JP2016118796A (ja
Inventor
公孝 堤
公孝 堤
菊入 圭
圭 菊入
山口 貴史
貴史 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2016016996A priority Critical patent/JP6133454B2/ja
Publication of JP2016118796A publication Critical patent/JP2016118796A/ja
Application granted granted Critical
Publication of JP6133454B2 publication Critical patent/JP6133454B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声信号を処理する音声信号処理方法及び音声信号処理装置に関する。
IP(Internet Protocol)電話のように、音声信号を符号化及びパケット化してインターネット網で伝送する際には、ネットワークの輻輳等が原因でパケットが失われることがある(以下、この現象を「パケットロス」と言う)。パケットロスが発生すると、必要な音声符号が失われるため音声復号ができず音切れが発生する。パケットロスにより生じる音切れを防止する技術として、音声パケットロス隠蔽技術がある。音声パケットロス隠蔽技術は、パケットロスを検出し、ロスしたパケットに対応する擬似的な音声信号(以下、「隠蔽信号」)を生成する。
音声符号化手法として、符号化器・復号器の内部状態を更新しながら音声符号化を行う手法を用いている場合には、本来受信するはずの符号化パラメータが得られないため、音声パケットロス隠蔽技術は、擬似的に生成したパラメータにより復号器の内部状態更新も行う。
符号化器・復号器の内部状態を更新しながら音声符号化を行う手法として、CELP(Code Excited Linear Prediction)符号化が広く用いられている。CELP符号化では、自己回帰モデルを仮定し、全極型合成フィルタa(i)によって励振信号e(n)をフィルタリングすることで音声信号を合成する。すなわち、次式に従い音声信号s(n)を合成する。a(i)は線形予測係数(LP(Linear Prediction)係数)であり、次数としてP=16などの値を用いる。
Figure 0006133454
CELP符号化では、線形予測係数を数学的に等価に表現したISF(Immittance Spectral Frequency)パラメータや、過去の励振信号を内部状態としてもつ。パケットロスが起こった場合、これらを擬似的に生成するため、本来であれば復号により得られていたパラメータとの間で乖離が起こる。パラメータの乖離によって起こる合成音声の不整合は、受聴者からは雑音と知覚され、主観的な品質を大きく損ねる。
以下、音声符号化手法にCELP符号化を用いた場合を例に、音声パケットロス隠蔽を行う音声復号器の構成及び動作について説明する。
音声復号器の構成図及び動作を図1、図2に示す。図1に示すように、音声復号器1は、パケットロス検出部11、音声符号復号部12、隠蔽信号生成部13、及び内部状態バッファ14を備える。
パケットロス検出部11は、音声パケットを正常に受信した場合には、制御信号、及び音声パケットに含まれる音声符号を音声符号復号部12に送る(正常受信:図2のステップS100でYESの場合)。その後、音声符号復号部12は、後述するように、音声符号の復号及び内部状態更新を行う(図2のステップS200、S400)。一方、パケットロス検出部11は、音声パケットが正常に受信できなかった場合には、隠蔽信号生成部13に制御信号を送る(パケットロス:図2のステップS100でNOの場合)。その後、隠蔽信号生成部13は、後述するように、隠蔽信号の生成及び内部状態更新を行う(図2のステップS300、S400)。図2のステップS100〜S400の処理は通信終了まで(ステップS500でYESと判断されるまで)繰り返される。
音声符号は、少なくとも符号化されたISFパラメータ
Figure 0006133454

、符号化された第一から第四サブフレームのピッチラグTj p、第一から第四サブフレームの符号化された適応符号帳ゲインgj p、第一から第四サブフレームの符号化された固定符号帳ゲインgj c、第一から第四サブフレームの符号化された固定符号帳ベクトルcj(n)を含む。ISFパラメータの代わりに数学的に等価な表現であるLSF(line spectral frequency)パラメータを用いてもよい。以下の議論では、ISFパラメータを用いた説明を行うが、LSFパラメータを用いた場合も同じ議論が成り立つ。
内部状態バッファには、過去のISFパラメータ
Figure 0006133454

及び
Figure 0006133454

の等価表現であるISP(Immittance Spectral Pair)パラメータ
Figure 0006133454

、ISF残差パラメータ
Figure 0006133454

、過去のピッチラグTj p、過去の適応符号帳ゲインgj p、過去の固定符号帳ゲインgj c、適応符号帳u(n)を含む。それぞれ過去何サブフレーム分のパラメータを含むかは設計方針による。本明細書では、1フレームが4サブフレームを含むことを仮定するが、設計方針により他の値としてもよい。
<正常受信の場合>
図3には音声符号復号部12の機能構成例を示す。この図3に示すように、音声符号復号部12は、ISF復号部120、安定性処理部121、LP係数算出部122、適応符号帳算出部123、固定符号帳復号部124、ゲイン復号部125、励振ベクトル合成部126、ポストフィルタ127、及び合成フィルタ128を備える。ただし、ポストフィルタ127は必須の構成要素ではない。なお、図3では、説明の便宜上、音声符号復号部12内に内部状態バッファ14を二点鎖線で示しているが、この内部状態バッファ14は、音声符号復号部12の内部に含まれるものではなく、図1に示す内部状態バッファ14である。これ以降の音声符号復号部の構成図でも同様である。
LP係数算出部122の構成図を図4に、符号化されたISFパラメータからLP係数を算出する処理フローを図5に、それぞれ示す。図4に示すように、LP係数算出部122は、ISF-ISP変換部122A、ISP補間部122B、及びISP-LPC変換部122Cを備える。
まず、符号化されたISFパラメータからLP係数を算出する処理(図5)に関連する機能構成及び動作について説明する。
ISF復号部120は、符号化されたISFパラメータを復号してISF残差パラメータ
Figure 0006133454

を求め、ISFパラメータ
Figure 0006133454

を次式に従い算出する(図5のステップS1)。ここで、meaniは、事前に学習等で求めた平均ベクトルである。
Figure 0006133454
なお、ここでは、ISFパラメータの算出にMA予測を用いる例について述べたが、以下のようにAR予測を用いてISFパラメータの算出を行うような構成としてもよい。ここで、直前フレームのISFパラメータを
Figure 0006133454

、AR予測の重み係数をρiとした。
Figure 0006133454
安定性処理部121は、フィルタの安定性を確保するためにISFパラメータの各要素間に50Hz以上の間隔をあけるよう、次式に従う処理を行う(図5のステップS2)。ISFパラメータは、音声スペクトル包絡の形状を線スペクトルで表現したものであり、互いの距離が近づく程、スペクトルのピークが大きくなり共振が起こる。そのため、スペクトルのピークでのゲインが大きくなりすぎないよう、安定性確保の処理が必要となる。ここで、min_distは最小のISF間隔であり、isf_minは、min_distの間隔を確保するために必要なISFの最小値である。isf_minは、隣のISFの値にmin_distの間隔を加算することにより順次更新を行う。一方、isf_maxは、min_distの間隔を確保するために必要なISFの最大値である。isf_maxは、隣のISFの値からmin_distの間隔を減算することにより順次更新を行う。
Figure 0006133454
LP係数算出部122内のISF-ISP変換部122Aは、次式に従い
Figure 0006133454

をISPパラメータ
Figure 0006133454

に変換する(図5のステップS3)。ここで、Cは事前に定めた定数である。
Figure 0006133454
ISP補間部122Bは、内部状態バッファ14に含まれる過去のISPパラメータ
Figure 0006133454

と、上記ISPパラメータ
Figure 0006133454

から、以下の式に従いサブフレーム毎のISPパラメータを算出する(図5のステップS4)。補間にあたっては、別の係数を用いてもよい。
Figure 0006133454
ISP-LPC変換部122Cは、サブフレーム毎のISPパラメータをLP係数
Figure 0006133454

に変換する(図5のステップS5)。具体的変換手順として、非特許文献1に記載の処理手順を用いることができる。ここで、先読み信号に含まれるサブフレームの数を4としたが、サブフレームの数は設計方針により変更してもよい。
次に、音声符号復号部12におけるその他の構成及び動作について説明する。
適応符号帳算出部123は、符号化されたピッチラグを復号して、第一から第四サブフレームのピッチラグTj pを算出する。次に、適応符号帳算出部123は、適応符号帳u(n)を用いて次式に従い、サブフレーム毎に適応符号帳ベクトルを算出する。適応符号帳ベクトルは、適応符号帳u(n)をFIRフィルタInt(i)により補間することで算出する。ここで、適応符号帳の長さをNadaptとした。補間に用いるフィルタInt(i)は、事前に定めた長さ2l+1のFIRフィルタであり、L’はサブフレームのサンプル数である。補間フィルタInt(i)を用いることにより、ピッチラグを小数点以下の精度まで利用することができる。補間フィルタの詳細については、非特許文献1記載の方法を用いることができる。
Figure 0006133454
固定符号帳復号部124は、符号化された固定符号帳ベクトルを復号して、第一から第四サブフレームの固定符号帳ベクトルcj(n)を取得する。
ゲイン復号部125は、符号化された適応符号帳ゲイン及び符号化された固定符号帳ゲインを復号して、第一から第四サブフレームの適応符号帳ゲイン及び固定符号帳ゲインを取得する。例えば、非特許文献1に記載の以下の手法により、適応符号帳ゲイン及び固定符号帳ゲインの復号を行うことができる。非特許文献1記載の以下の手法によれば、AMR-WBのゲイン符号化のようにフレーム間予測を用いないため、パケットロス耐性を高めることができる。
例えば、ゲイン復号部125は、以下の処理フローに従い、固定符号帳ゲインを取得する。
最初に、ゲイン復号部125は、固定符号帳ベクトルのパワーを算出する。ここで、サブフレームの長さをNsとする。
Figure 0006133454
次に、ゲイン復号部125は、ベクトル量子化されたゲインパラメータを復号し、適応符号帳ゲイン
Figure 0006133454

と量子化固定符号帳ゲイン
Figure 0006133454

を得る。量子化固定符号帳ゲインと上記固定符号帳ベクトルのパワーから、以下の通り予測固定符号帳ゲインを算出する。
Figure 0006133454
最後に、ゲイン復号部125は、予測係数
Figure 0006133454

を復号し、予測ゲインに乗算することにより、固定符号帳ゲインを得る。
Figure 0006133454
励振ベクトル合成部126は、次式のように、適応符号帳ベクトルに適応符号帳ゲインを乗算するとともに、固定符号帳ベクトルに固定符号帳ゲインを乗算し、これらの和を求めることにより、励振信号を取得する。
Figure 0006133454
ポストフィルタ127は、励振信号ベクトルに対して、例えば、ピッチ強調、ノイズ強調、低域強調といった後処理を加える。ピッチ強調、ノイズ強調、低域強調は、非特許文献1に記載された手法を用いることができる。
合成フィルタ128は、線形予測逆フィルタリングにより、励振信号を駆動音源とする復号信号を合成する。
Figure 0006133454
なお、符号化器において、プリエンファシスを行っている場合には、ディエンファシスを行う。
Figure 0006133454
一方、符号化器においてプリエンファシスを行っていない場合には、ディエンファシスを行わない。
以下、内部状態更新に関する動作を説明する。
LP係数算出部122は、パケットロス時のパラメータ補間のために、ISFパラメータの内部状態を次式で算出されるベクトルにより更新する。
Figure 0006133454
ここで、ωi (-j)はバッファに格納されたjフレーム前のISFパラメータである。ωi Cは事前に学習等で求めた発話区間でのISFパラメータである。βは定数であり、例えば0.75のような値とすることができるが、これには限られない。ωi C、βは、例えば非特許文献1記載のISFコンシールメントのように、符号化対象フレームの性質を表すインデクスにより変化させてもよい。
さらに、LP係数算出部122は、次式に従いISF残差パラメータの内部状態も更新する。
Figure 0006133454
励振ベクトル合成部126は、以下の式に従い、励振信号ベクトルにより内部状態を更新する。
Figure 0006133454
さらに、励振ベクトル合成部126は、ゲインパラメータの内部状態を次式により更新する。
Figure 0006133454
適応符号帳算出部123は、ピッチラグのパラメータの内部状態を次式により更新する。
Figure 0006133454

なお、ここでは、(−2≦j<Mla)とするが、jの範囲として設計方針により異なる値を選択してもよい。
<パケットロスの場合>
図6には、隠蔽信号生成部13の機能構成例を示す。この図6に示すように、隠蔽信号生成部13は、LP係数補間部130、ピッチラグ補間部131、ゲイン補間部132、雑音信号生成部133、ポストフィルタ134、合成フィルタ135、適応符号帳算出部136、及び励振ベクトル合成部137を備える。ただし、ポストフィルタ134は必須の構成要素ではない。
LP係数補間部130は、
Figure 0006133454

を次式により算出する。なお、ωi (-j)は、バッファに格納されたjフレーム前のISFパラメータである。
Figure 0006133454

ここで、
Figure 0006133454

はパケットを正常に受信した際に算出されたISFパラメータの内部状態である。αも定数であり、0.9のような値とすることができるが、これに限定されない。αは、例えば非特許文献1記載のISFコンシールメントのように、符号化対象フレームの性質を表すインデクスにより変化させてもよい。
ISFパラメータからLP係数を得る手順は、正常にパケットを受信した場合と同様である。
ピッチラグ補間部131は、ピッチラグに関する内部状態パラメータ
Figure 0006133454

を用いて、ピッチラグの予測値
Figure 0006133454

を算出する。具体的な処理手順として、非特許文献1の手法を用いることができる。
ゲイン補間部132は、固定符号帳ゲインの補間のために、非特許文献1に記載の以下の式に従う手法を用いることができる。
Figure 0006133454
雑音信号生成部133は、固定符号帳ベクトルと同じ長さの白色雑音を生成し、固定符号帳ベクトルとして代用する。
ポストフィルタ134、合成フィルタ135、適応符号帳算出部136及び励振ベクトル合成部137の動作は、前述した正常にパケットを受信した場合の動作と同様である。
内部状態更新は、ISF残差パラメータを除き、正常にパケットを受信した場合と同様である。ISF残差パラメータの更新は、LP係数補間部130により、次式に従い行われる。
Figure 0006133454
国際公開2002/035520号公報 国際公開2008/108080号公報
ITU-T Recommendation G.718、2008年6月
上記の通り、CELP符号化は内部状態を持つため、パケットロス時に補間により得られたパラメータと、本来復号に用いるべきパラメータとの乖離により音質の劣化が起こる。特にISFパラメータは、フレーム内・フレーム間での予測符号化が行われるため、パケットロスによる影響がパケットロス復帰後にも継続する課題がある。
より具体的には、音声の開始部分付近で起こったパケットロスから復帰した最初のフレームにおいて、急激にパワーが上昇する課題が確認されている。これは、励振信号のパワーが高くなる音声の開始部分において、パケットロス時の補間処理により得られたISF係数から算出したLP係数のインパルス応答が、本来復号器が想定しているよりも高い利得を持つことにより引き起こされ、主観品質上不快な不連続音として知覚される。
特許文献1の方法は、ロスしたフレームに対して補間したISF係数を生成するが、ロスから復帰した最初のフレームについては、通常の復号によりISFパラメータを生成するため、上記急激なパワーの上昇を抑えることができない。
一方、特許文献2の方法では、符号化側で求めたゲイン調整用パラメータ(正規化予測残差パワー)を伝送し、復号側でのパワー調整に用いることで、パケットロスしたフレームの励振信号のパワーを抑え、急激なパワーの上昇を防止することができる。
図7には、特許文献2の技術に相当する音声復号器1Xの機能構成例を、図8には、隠蔽信号生成部13Xの機能構成例をそれぞれ示す。特許文献2において、音声パケットは、従来手法において述べたパラメータに加えて、少なくとも正規化予測残差パワーの補助情報を含む。
音声信号生成部1Xが備える正規化予測残差パワー復号部15は、音声パケットから正規化予測残差パワーの補助情報を復号して、参照正規化予測残差パワーを算出し、隠蔽信号生成部13Xに出力する。
隠蔽信号生成部13Xの構成要素のうち、正規化予測残差調整部138以外の構成要素は、前述した従来技術と同じであるので、以下では正規化予測残差調整部138についてのみ述べる。
正規化予測残差調整部138は、LP係数補間部130が出力したLP係数から正規化予測残差パワーを算出する。次に、正規化予測残差調整部138は、正規化予測残差パワーと参照正規化予測残差パワーを用いて、合成フィルタゲイン調整係数を算出する。最後に、正規化予測残差調整部138は、合成フィルタゲイン調整係数を励振信号に乗算して、合成フィルタ135に出力する。
上記の特許文献2の技術によれば、パケットロス時の隠蔽信号のパワーを正常受信時と同様に抑えることができるものの、低ビットレート音声符号化においては、上記ゲイン調整用パラメータの伝送に必要なビットレートを確保するのが困難である。また、隠蔽信号生成部における処理であるため、リカバリフレームにおいてISFパラメータの不一致により引き起こされるパワーの急激な変化には対応することが困難である。
そこで、本発明は、音声開始時点でのパケットロスから復帰した際に起こりうる不連続音を低減し、主観品質を改善することを目的とする。
本発明の一実施形態に係る音声信号処理方法は、音声信号処理装置により実行される音声信号処理方法であって、符号化器より伝送された補助情報であって音声パケット復号の結果得られる復号音声の不連続性に関する補助情報を復号する復号ステップと、復号ステップにより復号された補助情報を用いて、復号音声の不連続性を推定する推定ステップと、推定ステップにより不連続であると推定された場合に復号音声の不連続性を修正し、推定ステップにより不連続であると推定されない場合に復号音声の不連続性を修正しない修正ステップと、を含み、不連続性とは、パケットロスが起こった後に最初に正常に受信した音声パケットに対して、音声パケット復号の結果得られる復号音声の振幅が急激に大きくなることにより生じるものである。
上記の音声信号処理方法は、符号化器より伝送された音声パケットのパケットロスを検出する検出ステップをさらに含み、修正ステップは、検出ステップによりパケットロスが検出された場合、且つ、推定ステップにより不連続であると推定された場合に、復号音声の不連続性を修正してもよい。
本発明の一実施形態に係る音声信号処理装置は、符号化器より伝送された補助情報であって音声パケット復号の結果得られる復号音声の不連続性に関する補助情報を復号する補助情報復号器と、補助情報復号器により復号された補助情報を用いて、復号音声の不連続性を推定する不連続推定器と、不連続推定器により不連続であると推定された場合に復号音声の不連続性を修正し、不連続推定器により不連続であると推定されない場合に復号音声の不連続性を修正しない不連続修正器と、を備え、不連続性とは、パケットロスが起こった後に最初に正常に受信した音声パケットに対して、音声パケット復号の結果得られる復号音声の振幅が急激に大きくなることにより生じるものである。
以上のような本発明によれば、音声開始時点でのパケットロスから復帰した際に起こりうる上記不連続音を低減し、主観品質を改善することができる。
音声復号器の構成図である。 音声復号器の処理フローである。 音声符号復号部の機能構成図である。 LP係数算出部の機能構成図である。 LP係数を算出する処理フローである。 隠蔽信号生成部の機能構成図である。 特許文献2の音声復号器の構成図である。 特許文献2の隠蔽信号生成部の機能構成図である。 第1実施形態における音声符号復号部の機能構成図である。 第1実施形態におけるLP係数算出部の処理フローである。 第1実施形態における音声符号復号部の機能構成図である。 第1実施形態変形例1における第2安定性処理部の処理フローである。 第2実施形態における音声符号復号部の機能構成図である。 第2実施形態におけるLP係数算出部の機能構成図である。 第2実施形態におけるLP係数算出の処理フローである。 第4実施形態における音声符号化器の構成図である。 第4実施形態における音声符号化器の構成図である。 第4実施形態におけるLP分析・符号化器の構成図である。 第4実施形態におけるLP分析・符号化器の処理フローである。 第4実施形態における音声符号復号部の機能構成図である。 第4実施形態におけるLP係数算出部の処理フローである。 第5実施形態におけるLP分析・符号化器の構成図である。 第5実施形態におけるLP分析・符号化器の処理フローである。 第4実施形態における音声符号復号部の機能構成図である。 第5実施形態におけるLP係数算出部の処理フローである。 第7実施形態における音声復号器の構成図である。 第7実施形態における音声復号器の処理フローである。 第7実施形態における音声符号復号部の機能構成図である。 第7実施形態におけるLP係数算出の処理フローである。 コンピュータのハードウェア構成例を示す図である。 コンピュータの外観図である。 (a)、(b)、(c)および(d)は音声信号処理プログラムのさまざまな構成例を示す図である。
以下、図面を用いて、本発明に係る音声信号処理装置、音声信号処理方法、及び音声信号処理プログラムの好適な実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
[第1実施形態]
第1実施形態における音声信号処理装置は、前述した図1の音声復号器1と同様の構成を備え、音声符号復号部に特徴があるため、以下、音声符号復号部について説明する。
図9には第1実施形態における音声符号復号部12Aの機能構成図を、図10にはLP係数算出処理のフロー図を、それぞれ示す。図9の音声符号復号部12Aは、前述した図3の構成に対し、不連続検出部129が追加されている。従来技術との差異は、LP係数算出処理のみであるため、ここではLP係数算出処理に関わる各部の動作について述べる。
不連続検出部129は、復号して得られた固定符号帳ゲインgc 0、及び内部状態に含まれる固定符号帳ゲインgc -1を参照し、次式に従いゲインの変化と閾値とを比較する(図10のステップS11)。
Figure 0006133454
ゲインの変化が閾値を越える場合、不連続発生を検出し(以下、単に「不連続を検出し」ともいう)、不連続発生の検出結果に係る制御信号を安定性処理部121に出力する。
なお、ゲインの変化と閾値との比較にあたっては、次式を用いても良い。
Figure 0006133454
さらに、現フレームに含まれる第1から第4サブフレームの固定符号帳ゲインのうち最大のものをgc (c)、内部状態に含まれる固定符号帳ゲインのうち最小のものをgc (p)として、次式によりゲインの変化と閾値との比較を行ってもよい。
Figure 0006133454
当然、次式を用いてもよい。
Figure 0006133454
第1実施形態の上記の例では、直前フレーム(ロストフレーム)の第4サブフレームの固定符号帳ゲインgc -1と、現フレームの第1サブフレームの固定符号帳ゲインgc 0を用いて不連続検出を行う例を示したが、内部状態に含まれる固定符号帳ゲイン及び現フレームに含まれる固定符号帳ゲインについて、それぞれ平均値を算出した上で、ゲインの変化と閾値との比較を行うようにしてもよい。
ISF復号部120は、従来技術と同様の動作を行う(図10のステップS12)。
安定性処理部121は、不連続検出部129が不連続を検出した場合、以下の処理によりISFパラメータを修正する(図10のステップS13)。
最初に、安定性処理部121は、内部状態バッファ14に記憶されたISFパラメータ
Figure 0006133454

について、各要素間に通常よりM-1倍の間隔をあける処理を行う。通常よりも非常に大きな間隔を与えることによりスペクトル包絡における過大なピークとディップを抑制する効果を与える。ここで、min_distは最小のISF間隔であり、isf_minは、min_distの間隔を確保するために必要なISFの最小値である。isf_minは、隣のISFの値にmin_distの間隔を加算することにより順次更新を行う。一方、isf_maxは、min_distの間隔を確保するために必要なISFの最大値である。isf_maxは、隣のISFの値からmin_distの間隔を減算することにより順次更新を行う。
Figure 0006133454
次に、安定性処理部121は、現フレームのISFパラメータについて、各要素間に通常よりM0倍の間隔をあける処理を行う。ここでは、1<M0<M-1とするが、M-1あるいはM0のいずれか一方を1とし、他方を1より大きな値に設定してもよい。
Figure 0006133454
また、安定性処理部121は、不連続検出器が不連続を検出しない場合、通常の復号過程で実施するのと同様に、以下の処理を行う。
Figure 0006133454
不連続を検出した場合の要素間の最小の間隔はISFの周波数に応じて変えてもよい。不連続を検出した場合の要素間の最小の間隔は、通常の復号処理の最小の要素間の間隔と異なっていれば良い。
LP係数算出部122内のISF-ISP変換部122Aは、次式に従い、ISFパラメータ
Figure 0006133454

をそれぞれ、ISPパラメータ
Figure 0006133454

に変換する(図10のステップS14)。ここで、Cは事前に定めた定数である。
Figure 0006133454
ISP補間部122Bは、過去のISPパラメータ
Figure 0006133454

と、上記ISPパラメータ
Figure 0006133454

から、以下の式に従い、サブフレーム毎のISPパラメータを算出する(図10のステップS15)。補間にあたっては、別の係数を用いてもよい。
Figure 0006133454
ISP-LPC変換部122Cは、サブフレーム毎のISPパラメータをLP係数
Figure 0006133454

に変換する(図10のステップS16)。ここで、先読み信号に含まれるサブフレームの数を4としたが、サブフレームの数は設計方針により変更してもよい。具体的変換手順として、非特許文献1に記載の処理手順を用いることができる。
さらに、ISF-ISP変換部122Aは、内部状態バッファ14に記憶されたISFパラメータ
Figure 0006133454

を次式に従い更新する。
Figure 0006133454

このとき、不連続が検出された場合でも、ISF-ISP変換部122Aは、以下の手順を実施することにより、ISFパラメータの算出結果を用いて、内部状態バッファに記憶されたISFパラメータ
Figure 0006133454

を更新してもよい。
Figure 0006133454
以上の第1実施形態のように、復号音声の不連続性は、励振信号算出に用いる量子化された符号帳ゲインによって推定することができ、また、不連続性の推定結果に応じて、ISF/LSFパラメータ(例えば合成フィルタの安定性保証のために与えるISF/LSFパラメータの各要素間の間隔)を修正することができる。これにより、音声開始時点でのパケットロスから復帰した際に起こりうる不連続音を低減し、主観品質を改善することができる。
[第1実施形態の変形例]
図11には、第1実施形態の変形例に係る音声符号復号部12Sの機能構成図を示す。図3の従来技術の構成との差異は、不連続検出部129及び第2安定性処理部121Sのみであるため、これらの動作について述べる。第2安定性処理部121Sは、ゲイン調整部121X及びゲイン乗算部121Yを備えており、第2安定性処理部121Sの処理フローは図12に示す。
不連続検出部129は、第1実施形態の不連続検出部129と同様にして、復号して得られた固定符号帳ゲインgc 0及び内部状態に含まれる固定符号帳ゲインgc -1を参照し、ゲインの変化と閾値とを比較する。そして、不連続検出部129は、ゲインの変化が閾値を越えたか否かに関する情報を含む制御信号を、ゲイン調整部121Xに送る。
ゲイン調整部121Xは、ゲインの変化が閾値を越えたか否かに関する情報を制御信号から読み出し、ゲインの変化が閾値を越えた場合には、事前に定めたゲインgonをゲイン乗算部121Yに出力する。一方、ゲイン調整部121Xは、ゲインの変化が閾値を越えていない場合は、事前に定めたゲインgoffをゲイン乗算部121Yに出力する。このようなゲイン調整部121Xの動作は図12のステップS18に対応する。
ゲイン乗算部121Yは、合成フィルタ128が出力する合成信号に上記ゲインgon又はゲインgoffを乗算し(図12のステップS19)、得られた復号信号を出力する。
ここで、LP係数算出部122からLP係数またはISFパラメータを出力して、第2安定性処理部121Sに入力する構成(図11にてLP係数算出部122からゲイン調整部121Xへの点線で示す構成)にしてもよい。この場合、乗算するべきゲインは、LP係数算出部122で算出したLP係数またはISFパラメータを用いて決定される。
以上の変形例のように、音声符号復号部12Sに第2安定性処理部121Sを追加し、ゲインの変化が閾値を越えたか否かに応じてゲインを調整することで、適正な復号信号を得ることができる。
なお、第2安定性処理部121Sは、上記算出したゲインを励振信号に乗算し、合成フィルタ128に出力してもよい。
[第2実施形態]
第2実施形態における音声信号処理装置は、前述した図1の音声復号器1と同様の構成を備え、音声符号復号部に特徴があるため、以下、音声符号復号部について説明する。図13には音声符号復号部12Bの機能構成例を、図14にはLP係数の算出処理に係る機能構成例を、図15にはLP係数の算出処理のフローを、それぞれ示す。図13の音声符号復号部12Bは、前述した図3の構成に対し、不連続検出部129が追加されている。
ISF復号部120は、従来技術と同様にしてISFパラメータを算出する(図15のステップS21)。
安定性処理部121は、従来技術と同様にして、フィルタの安定性を確保するためにISFパラメータ
Figure 0006133454

の各要素間に50Hz以上の間隔をあけるよう処理を行う(図15のステップS22)。
ISF-ISP変換部122Aは、第1実施形態と同様にして、安定性処理部121が出力したISFパラメータをISPパラメータに変換する(図15のステップS23)。
ISP補間部122Bは、第1実施形態と同様にして、過去のISPパラメータ
Figure 0006133454

と、ISF-ISP変換部122Aによる変換で得られたISPパラメータ
Figure 0006133454

から、サブフレーム毎のISPパラメータを算出する(図15のステップS24)。
ISP-LPC変換部122Cは、第1実施形態と同様にして、サブフレーム毎のISPパラメータをLP係数
Figure 0006133454

に変換する(図15のステップS25)。ここで、先読み信号に含まれるサブフレームの数を4としたが、サブフレームの数は設計方針により変更してもよい。
内部状態バッファ14は、新たなISFパラメータによって、過去に記憶したISFパラメータを更新する。
不連続検出部129は、パケットロスしたフレームにおける第4サブフレームのLP係数を内部状態バッファ14から読み出し、パケットロスしたフレームにおける第4サブフレームのLP係数のインパルス応答のパワーを算出する。パケットロスしたフレームにおける第4サブフレームのLP係数は、パケットロス時に図6の隠蔽信号生成部13に含まれるLP係数補間部130が出力して内部状態バッファ14に蓄積した係数を用いることができる。
Figure 0006133454
そして、不連続検出部129は、例えば以下の式により不連続を検出する(図15のステップS26)。
Figure 0006133454
ゲインの変化が閾値を越えない場合(図15のステップS27でNOの場合)、不連続検出部129は不連続発生を検出せず、ISP-LPC変換部122CからLP係数を出力して処理を終了する。一方、ゲインの変化が閾値を越える場合(図15のステップS27でYESの場合)、不連続検出部129は、不連続発生を検出し、不連続発生の検出結果に係る制御信号を安定性処理部121に送る。制御信号を受け取った場合、安定性処理部121は、第1実施形態と同様にして、ISFパラメータを修正する(図15のステップS28)。以下、ISF-ISP変換部122A、ISP補間部122B、及びISP-LPC変換部122Cの動作(図15のステップS29、S2A、S2B)は、上記と同様である。
以上の第2実施形態のように、復号音声の不連続性は、励振信号のパワーによって推定することができ、第1実施形態と同様に、不連続音を低減し主観品質を改善することができる。
[第3実施形態]
不連続を検出した際に、別の方法によりISFパラメータを修正してもよい。第3実施形態は、安定性処理部121のみが第1実施形態と異なるので、安定性処理部121の動作のみについて述べる。
不連続検出部129が不連続を検出した場合、安定性処理部121は、以下の処理を行いISFパラメータを修正する。
内部状態バッファ14に記憶されたISFパラメータ
Figure 0006133454

について、安定性処理部121は、低次P’次元(0<P’≦P)までのISFパラメータを次式により置き換える。ここで、
Figure 0006133454

とする。
Figure 0006133454
また、安定性処理部121は、次のように事前に学習により得られたP’次元ベクトルで低次P’次元のISFパラメータを上書きしてもよい。
Figure 0006133454
次に、現フレームのISFパラメータについて、安定性処理部121は、第1実施形態のように各要素間に通常よりM0倍の間隔をあける処理を行ってもよいし、次式に従い決定してもよい。ここで、
Figure 0006133454

とする。
Figure 0006133454
また、安定性処理部121は、事前に学習したP’次元ベクトルで上書きしてもよい。
Figure 0006133454
さらには、上記P’次元ベクトルは復号過程で学習されてもよく、例えば、
Figure 0006133454

としてもよい。ただし、復号開始時のフレームにおいてはωi -1を予め決められたP’次元ベクトルωi initとしてもよい。
内部状態バッファ14は、新たなISFパラメータによって、過去に記憶したISFパラメータを更新する。
以上の第3実施形態のように、予め定めた次元までのISF/LSFパラメータを等分して得られる間隔を、合成フィルタの安定性保証のために与えるISF/LSFパラメータの各要素間の間隔として用いることができ、第1、第2実施形態と同様に、不連続音を低減し主観品質を改善することができる。
[第4実施形態]
第4実施形態では、符号化側が、不連続の発生を検出して、不連続判定符号(検出結果を示す符号)を音声符号に含めて復号側へ伝送し、復号側が、音声符号に含まれる不連続判定符号に基づいて安定性処理の処理内容を決定する実施形態を説明する。
(符号化側について)
図16に符号化器2の機能構成例を、図17に符号化器2における処理のフロー図を示す。図16に示すように、符号化器2は、LP分析・符号化部21、残差符号化部22、及び符号多重化部23を備える。
このうちLP分析・符号化部21の機能構成例を図18に、LP分析・符号化部21における処理のフロー図を図19に示す。図18に示すように、LP分析・符号化部21は、LP分析部210、LP-ISF変換部211、ISF符号化部212、不連続判定部213、ISF隠蔽部214、ISF-LP変換部215、及びISFバッファ216を備える。
LP分析・符号化部21において、LP分析部210は、入力信号に対して線形予測分析を行い、線形予測係数を求める(図17のステップT41、図18のステップU41)。線形予測係数の算出に当たっては、音声信号から自己相関関数を算出した上で、レビンソン・ダービン法等を用いることができる。
LP-ISF変換部211は、第1実施形態と同様にして、算出した線形予測係数をISFパラメータに変換する(ステップT42、U42)。線形予測係数からISFパラメータへの変換には、非特許文献に記載の方法を用いてもよい。
ISF符号化部212は、ISFパラメータを事前に定めた方法により符号化してISF符号を算出し(ステップT43、U43)、符号化の過程で得られる量子化ISFパラメータを、不連続判定部213、ISF隠蔽部214及びISF-LP変換部215に出力する(ステップU47)。ここで、量子化ISFパラメータは、ISF符号を逆量子化して得られるISFパラメータと等しい。符号化の方法としてベクトル符号化や直前フレームのISF及び事前に学習により定めた平均ベクトルからの誤差ベクトルをベクトル量子化等により符号化してもよい。
不連続判定部213は、不連続判定部213が内蔵する内部バッファ(不図示)に格納された不連続判定フラグを符号化して、得られた不連続判定符号を出力する(ステップU47)。また、不連続判定部213は、ISFバッファ216から読み出した隠蔽ISFパラメータ
Figure 0006133454

と、量子化ISFパラメータ
Figure 0006133454

を用いて、次式に従い不連続の判定を行い(ステップT44、U46)、その判定結果を不連続判定部213の内部バッファに格納する。ここで、Thresωは事前に定めた閾値、P’は次式を満たす整数である(0<P’≦P)。
Figure 0006133454
ここでは、ISFパラメータ同士のユークリッド距離を用いて不連続判定を行う例を述べたが、別の方法により不連続判定を行ってもよい。
ISF隠蔽部214は、デコーダ側のISF隠蔽部と同様の処理により、量子化ISFパラメータから隠蔽ISFパラメータを算出して、得られた隠蔽ISFパラメータをISFバッファ216に出力する(ステップU44、U45)。ISF隠蔽処理の処理手順は、デコーダ側のパケットロス隠蔽部と同じ処理であれば、どんな方法でもよい。
ISF-LP変換部215は、上記量子化ISFパラメータを変換して量子化線形予測係数を算出し、得られた量子化線形予測係数を残差符号化部22へ出力する(ステップT45)。ISFパラメータを量子化線形予測係数に変換する方法としては、非特許文献に記載の方法を用いてもよい。
残差符号化部22は、量子化線形予測係数を用いて音声信号をフィルタリングし、残差信号を算出する(ステップT46)。
次に、残差符号化部22は、残差信号を、CELP又はTCX(Transform Coded Excitation)を用いる符号化手段、CELPとTCXとを切り替えて用いる符号化手段等により符号化し、残差符号を出力する(ステップT47)。残差符号化部22の処理は、本発明とは関連性が低いので、説明を省略する。
符号多重化部23は、ISF符号、不連続判定符号、及び残差符号を所定の順序でまとめて、得られた音声符号を出力する(ステップT48)。
(復号側について)
第4実施形態における音声信号処理装置は、前述した図1の音声復号器1と同様の構成を備え、音声符号復号部に特徴があるため、以下、音声符号復号部について説明する。図20には音声符号復号部12Dの機能構成例を、図21にはLP係数の算出処理のフローを、それぞれ示す。図20の音声符号復号部12Dは、前述した図3の構成に対し、不連続検出部129が追加されている。
ISF復号部120は、ISF符号を復号して安定性処理部121及び内部状態バッファ14に出力する(図21のステップS41)。
不連続検出部129は、不連続判定符号を復号し、得られた不連続検出結果を安定性処理部121に出力する(図21のステップS42)。
安定性処理部121は、不連続検出結果に応じた安定性処理を行う(図21のステップS43)。安定性処理部の処理手順は、第1実施形態及び第3実施形態と同様の方法を用いることができる。
なお、安定性処理部121は、不連続判定符号から得られた不連続検出結果に加えて、音声符号に含まれている他のパラメータも基礎として、以下のように安定性処理を行ってもよい。例えば、安定性処理部121は、ISF安定度stabを次式に従い算出し、ISF安定度が閾値を越える場合には、たとえ不連続判定符号から不連続が検出された旨の不連続検出結果が得られていても、不連続が検出されていないかのように安定性処理を行う構成にしてもよい。ここで、Cは事前に定めた定数である。
Figure 0006133454
LP係数算出部122内のISF-ISP変換部122Aは、第1実施形態と同様の処理手順によりISFパラメータをISPパラメータに変換する(図21のステップS44)。
ISP補間部122Bは、第1実施形態と同様の処理手順によりサブフレーム毎のISPパラメータを算出する(図21のステップS45)。
ISP-LPC変換部122Cは、第1実施形態と同様の処理手順により、サブフレーム毎に算出したISPパラメータをLPCパラメータに変換する(図21のステップS46)。
以上のような第4実施形態では、符号化側において、不連続判定(一例として、隠蔽ISFパラメータと量子化ISFパラメータ同士のユークリッド距離を用いた不連続判定)を行い、その判定結果に関する補助情報を符号化して復号側へ出力し、復号側において、復号して得られた補助情報を用いて不連続性の推定を行う。このように符号化側と復号側とで連携しながら、符号化側での不連続判定結果に応じた適切な処理を実行することができる。
[第5実施形態]
(符号化側について)
符号化器の機能構成は、第4実施形態に係る図16の機能構成と同じであり、符号化器の処理フローは、第4実施形態に係る図17の処理フローと同じである。ここでは、第4実施形態とは異なる第5実施形態におけるLP分析・符号化部について述べる。
図22にLP分析・符号化部の機能構成例を、図23にLP分析・符号化部の処理フローを示す。図22に示すように、LP分析・符号化部21Sは、LP分析部210、LP-ISF変換部211、ISF符号化部212、不連続判定部213、ISF隠蔽部214、ISF-LP変換部215、及びISFバッファ216を備える。
このようなLP分析・符号化部21Sにおいて、LP分析部210は、第4実施形態と同様の処理により、入力信号に対して線形予測分析を行い、線形予測係数を求める(図23のステップU51)。
LP-ISF変換部211は、第4実施形態と同様の処理により、算出した線形予測係数をISFパラメータに変換する(図23のステップU52)。線形予測係数からISFパラメータへの変換には、非特許文献に記載の方法を用いてもよい。
ISF符号化部212は、不連続判定部213の内部バッファ(不図示)に格納された不連続判定フラグを読み出す(図23のステップU53)。
<不連続判定フラグが不連続の検出を表す場合>
ISF符号化部212は、次式で算出されるISF残差パラメータriをベクトル量子化してISF符号を算出する(図23のステップU54)。ここで、LP-ISF変換部で算出したISFパラメータをωi、事前に学習で求めた平均ベクトルをmeaniとした。
Figure 0006133454
次に、ISF符号化部212は、ISF残差パラメータriを量子化して得られた量子化ISF残差パラメータ
Figure 0006133454

を用いてISF残差パラメータバッファを次式に従い更新する(図23のステップU55)。
Figure 0006133454
<不連続判定フラグが不連続の検出を表さない場合>
ISF符号化部212は、次式で算出されるISF残差パラメータriをベクトル量子化してISF符号を算出する(図23のステップU54)。ここで、直前のフレームで復号により得られたISF残差パラメータを
Figure 0006133454

とした。
Figure 0006133454
次に、ISF符号化部212は、ISF残差パラメータriを量子化して得られた量子化ISF残差パラメータ
Figure 0006133454

を用いて、ISF残差パラメータバッファを次式に従い更新する(図23のステップU55)。
Figure 0006133454
以上の手順により、ISF符号化部212は、ISF符号を算出し、符号化の過程で得られる量子化ISFパラメータを、不連続判定部213、ISF隠蔽部214及びISF-LP変換部215に出力する。
ISF隠蔽部214は、第4実施形態と同様、デコーダ側のISF隠蔽部と同様の処理により、量子化ISFパラメータから隠蔽ISFパラメータを算出して、ISFバッファ216に出力する(図23のステップU56、U58)。ISF隠蔽処理の処理手順は、デコーダ側のパケットロス隠蔽部と同じ処理であれば、どんな方法でもよい。
不連続判定部213は、第4実施形態と同様の処理により、不連続の判定を行い、判定結果を不連続判定部213の内部バッファ(不図示)に格納する(図23のステップU57)。
ISF-LP変換部215は、第4実施形態と同様にして、上記量子化ISFパラメータを変換して、量子化線形予測係数を算出し、残差符号化部22(図16)へ出力する(図23のステップU58)。
(復号側について)
第5実施形態における音声信号処理装置は、前述した図1の音声復号器1と同様の構成を備え、音声符号復号部に特徴があるため、以下、音声符号復号部について説明する。図24には音声符号復号部12Eの機能構成例を、図25にはLP係数の算出処理のフローを、それぞれ示す。図24の音声符号復号部12Eは、前述した図3の構成に対し、不連続検出部129が追加されている。
不連続検出部129は、不連続判定符号を復号し、得られた不連続判定フラグをISF復号部120へ出力する(図25のステップS51)。
ISF復号部120は、不連続判定フラグの値に応じて、次の通りISFパラメータを算出し、ISFパラメータを安定性処理部121及び内部状態バッファ14に出力する(図25のステップS52)。
<不連続判定フラグが不連続の検出を表す場合>
ISF復号部120は、ISF符号を復号して得られる量子化ISF残差パラメータを
Figure 0006133454

、事前に学習で求めた平均ベクトルをmeaniとして、次式に従い量子化ISFパラメータ
Figure 0006133454

を求める。
Figure 0006133454
次に、ISF復号部120は、内部状態バッファ14に記憶されたISF残差パラメータを次式に従い更新する。
Figure 0006133454
<不連続判定フラグが不連続の検出を表さない場合>
ISF復号部120は、直前のフレームで復号により得られたISF残差パラメータ
Figure 0006133454

を内部状態バッファ14から読み出し、
得られたISF残差パラメータ
Figure 0006133454

、事前に学習で求めた平均ベクトルmeani、及びISF符号を復号して得られる量子化ISF残差パラメータ
Figure 0006133454

から、次式に従い量子化ISFパラメータ
Figure 0006133454

を求める。
Figure 0006133454
次に、ISF復号部120は、内部状態バッファ14に記憶されたISF残差パラメータを次式に従い更新する。
Figure 0006133454
安定性処理部121は、第1実施形態で述べた不連続が検出されない場合と同様の処理を行う(図25のステップS53)。
LP係数算出部122内のISF-ISP変換部122Aは、第1実施形態と同様の処理手順によりISFパラメータをISPパラメータに変換する(図25のステップS54)。
ISP補間部122Bは、第1実施形態と同様の処理手順によりサブフレーム毎のISPパラメータを算出する(図25のステップS55)。
ISP-LPC変換部122Cは、第1実施形態と同様の処理手順により、サブフレーム毎に算出したISPパラメータをLPCパラメータに変換する(図25のステップS56)。
以上のような第5実施形態では、符号化側において、不連続判定フラグが不連続の検出を表さない場合に、直前のフレームで復号により得られたISF残差パラメータを使用してISF残差パラメータのベクトル量子化を行い、一方、不連続判定フラグが不連続の検出を表す場合には、直前のフレームで復号により得られたISF残差パラメータの使用を回避する。同様に、復号側において、不連続判定フラグが不連続の検出を表さない場合に、直前のフレームで復号により得られたISF残差パラメータを使用して量子化ISFパラメータを算出し、一方、不連続判定フラグが不連続の検出を表す場合には、直前のフレームで復号により得られたISF残差パラメータの使用を回避する。このように符号化側と復号側とで連携しながら、不連続判定結果に応じた適切な処理を実行することができる。
[第6実施形態]
上記第1〜第5実施形態は組み合わせてもよい。例えば、第4実施形態に記載のとおり、復号側において、符号化側からの音声符号に含まれる不連続判定符号を復号して不連続を検出し、不連続が検出された場合に、以下のとおり実施してもよい。
内部状態バッファに記憶されたISFパラメータ
Figure 0006133454

については、第3実施形態に記載のとおり、低次P’次元(0<P’≦P)までのISFパラメータを次式により置き換える。
Figure 0006133454
一方、現フレームのISFパラメータについては、第5実施形態に記載のとおり、次式に従って算出する。
Figure 0006133454
以降、上記により求められたISFパラメータを用いて、第1実施形態と同様に、ISF-ISP変換部122A、ISP補間部122B、ISP-LPC変換部122Cの処理によりLP係数を求める。
上記のように第1〜第5実施形態を任意に組み合わせた態様も有効である。
[第7実施形態]
上記第1〜第6実施形態及び変形例において、復号側におけるフレームロスの状況(例えば、単一フレームロスか連続フレームロスかといった状況)を加味してもよい。なお、第7実施形態では、不連続検出については、例えば音声符号に含まれる不連続判定符号を復号した結果を用いて不連続検出すればよく、その方法は上記に限定されない。
第7実施形態における音声信号処理装置は、前述した図1の音声復号器1と同様の構成を備え、音声符号復号部に特徴があるため、以下、音声符号復号部について説明する。
図26には第7実施形態に係る音声復号器1Sの構成例を、図27には音声復号器における処理のフロー図を、それぞれ示す。図26に示すように、音声復号器1Sは、前述した音声符号復号部12G、隠蔽信号生成部13、及び内部状態バッファ14に加え、過去数フレームにおけるパケット受信状態を判定しパケットロス履歴を記憶する受信状態判定部16を備える。
受信状態判定部16は、パケット受信状態を判定し、判定結果に基づきパケットロス履歴情報を更新する(図27のステップS50)。
パケットロスが検出された場合(ステップS100でNOの場合)、受信状態判定部16は、当該フレームのパケットロス検出結果を隠蔽信号生成部13に出力し、隠蔽信号生成部13は前述した隠蔽信号の生成及び内部状態の更新を行う(ステップS300、S400)。なお、隠蔽信号生成部13も、パケットロス履歴情報をパラメータの補間等に利用してもよい。
一方、パケットロスが検出されなかった場合(ステップS100でYESの場合)、受信状態判定部16は、当該フレームのパケットロス検出結果を含むパケットロス履歴情報と、受信パケットに含まれる音声符号とを、音声符号復号部12に出力し、音声符号復号部12は前述した音声符号の復号及び内部状態の更新を行う(ステップS200、S400)。
以後、ステップS50〜S400の処理は通信終了まで(ステップS500でYESと判断されるまで)繰り返される。
図28には、音声符号復号部12Gの機能構成例を、図29には、LP係数の算出処理のフロー図を示す。ここでは、パケットロス履歴情報をLP係数算出部122にのみ用いる例について述べるが、他の構成要素にパケットロス履歴情報を入力して用いる構成としてもよい。
音声符号復号部12Gでは、LP係数の算出処理に係る構成以外の構成については、第1実施形態と同様であるので、以下、LP係数の算出処理に係る構成及び動作について述べる。
ISF復号部120は、第1実施形態と同様にしてISF符号を復号してISFパラメータを安定性処理部121へ出力する(図29のステップS71)。
不連続検出部129は、パケットロス履歴情報を参照して受信状態を判定する(ステップS72)。不連続検出部129は、例えば、3フレーム前はパケットロス、2フレーム前は正常受信、1フレーム前はパケットロス、といったような特定の受信パターンを予め記憶しておき、該当する受信パターンが現れた場合に、受信状態フラグをオフにし、それ以外の場合は受信状態フラグをオンにするよう設計してもよい。
また、不連続検出部129は、前述した第1〜第6実施形態のいずれかの方法と同様に、不連続検出を行う。
そして、安定性処理部121は、例えば以下のように、受信状態フラグおよび不連続検出の結果に応じて安定性処理を行う(ステップS73)。
受信状態フラグがオフの場合、安定性処理部121は、不連続検出の結果の如何を問わず、不連続が検出されなかった場合と同様の処理を行う。
一方、受信状態フラグがオンで且つ不連続検出の結果、不連続が検出されなかった場合、安定性処理部121は、不連続が検出されなかった場合と同様の処理を行う。
さらに、受信状態フラグがオンで且つ不連続検出の結果、不連続が検出された場合、安定性処理部121は、不連続が検出された場合と同様の処理を行う。
以後、LP係数算出部122内のISF-ISP変換部122A、ISP補間部122B、及びISP-LPC変換部122Cの動作(ステップS74〜S76)は、第1実施形態と同様である。
以上のような第7実施形態では、不連続検出の結果と受信状態フラグの状態とに応じた安定性処理を行うことで、フレームロスの状況(例えば、単一フレームロスか連続フレームロスかといった状況)を加味した、より精度の良い処理を実行できる。
[音声信号処理プログラムについて]
以下、コンピュータを、本発明に係る音声信号処理装置として動作させる音声信号処理プログラムについて説明する。
図32は、音声信号処理プログラムのさまざまな構成例を示す図である。図30は、コンピュータのハードウェア構成例を示す図であり、図31は、コンピュータの外観図である。図32(a)〜(d)にそれぞれ示す音声信号処理プログラムP1〜P4(以下「音声信号処理プログラムP」と総称する)は、図31および図32に示すコンピュータC10を音声信号処理装置として動作させることができる。なお、本明細書にて説明する音声信号処理プログラムPは、図31および図32に示すようなコンピュータに限定されず、携帯電話、携帯情報端末、携帯型パーソナルコンピュータといった任意の情報処理装置を、当該音声信号処理プログラムPに従って動作させることができる。
音声信号処理プログラムPは、記録媒体Mに格納されて提供され得る。なお、記録媒体Mとしては、フレキシブルディスク、CD−ROM、DVD、あるいはROM等の記録媒体、あるいは半導体メモリ等が例示される。
図30に示すように、コンピュータC10は、フレキシブルディスクドライブ装置、CD−ROMドライブ装置、DVDドライブ装置等の読み取り装置C12と、作業用メモリ(RAM)C14と、記録媒体Mに記憶されたプログラムを記憶するメモリC16と、ディスプレイC18と、入力装置であるマウスC20及びキーボードC22と、データ等の送受信を行うための通信装置C24と、プログラムの実行を制御する中央演算部(CPU)C26とを備える。
コンピュータC10は、記録媒体Mが読み取り装置C12に挿入されると、記録媒体Mに格納された音声信号処理プログラムPに読み取り装置C12からアクセス可能になり、音声信号処理プログラムPによって音声信号処理装置として動作することが可能になる。
音声信号処理プログラムPは、図31に示すように、搬送波に重畳されたコンピュータデータ信号Wとしてネットワークを介して提供されるものであってもよい。この場合、コンピュータC10は、通信装置C24によって受信した音声信号処理プログラムPをメモリC16に格納し、音声信号処理プログラムPを実行することができる。
音声信号処理プログラムPは、図32(a)〜(d)に示すさまざまな構成を採りうる。これらは、特許請求の範囲に記載した音声信号処理プログラムに係る請求項18〜21の構成にそれぞれ対応する。例えば、図32(a)に示す音声信号処理プログラムP1は、不連続推定モジュールP11、および不連続修正モジュールP12を備える。図32(b)に示す音声信号処理プログラムP2は、ISF/LSF量子化モジュールP21、ISF/LSF隠蔽モジュールP22、不連続推定モジュールP23、および補助情報符号化モジュールP24を備える。図32(c)に示す音声信号処理プログラムP3は、不連続推定モジュールP31、補助情報符号化モジュールP32、およびISF/LSF量子化モジュールP33を備える。図32(d)に示す音声信号処理プログラムP4は、補助情報復号モジュールP41、不連続修正モジュールP42、およびISF/LSF復号モジュールP43を備える。
以上説明したさまざまな実施形態によって、音声開始時点でのパケットロスから復帰した際に起こりうる不連続音を低減し、主観品質を改善することができる。
発明の1つ目の特徴である安定性処理部は、パケットロス後に最初に正常に受信したパケットにおいて不連続が検出された場合に、例えばISFパラメータの各要素間に与える間隔を通常よりも大きくとることで、LP係数の利得が大きくなりすぎることを防ぐことができる。LP係数の利得と励振信号のパワーがともに増加することを防ぐことができるので、合成信号の不連続を軽減し、主観品質劣化を低減する。また、安定性処理部は、LP係数等を利用して算出したゲインを合成信号に乗算することにより合成信号の不連続性を軽減してもよい。
また、発明の2つ目の特徴である不連続検出器は、パケットロス後に最初に正常に受信したパケットに含まれる励振信号のゲインを監視し、励振信号のゲインにおいて一定以上増加が起こるパケットについて不連続性を推定する。
本発明の一実施形態に係る音声信号処理装置は、パケットロスが起こった後に最初に正常に受信した音声パケットに対して、音声パケット復号の結果得られる復号音声の振幅が急激に大きくなることにより生じる不連続性の推定を行う不連続推定器と、復号音声の不連続性を修正する不連続修正器と、を備える。
上記の不連続推定器は、復号音声の不連続性を、励振信号のパワーにより推定してもよい。
また、上記の不連続推定器は、復号音声の不連続性を、励振信号算出に用いる量子化された符号帳ゲインにより推定してもよい。
上記の音声信号処理装置は、符号化器より伝送された不連続性に関する補助情報を復号する補助情報復号器、をさらに備え、上記の不連続推定器は、補助情報復号器が補助情報符号を復号して出力する不連続性に関する補助情報を用いて、復号音声の不連続性を推定してもよい。
上記の不連続修正器は、不連続性の推定結果に応じて、ISFパラメータ又はLSFパラメータ(以下「ISF/LSFパラメータ」と表記する)を修正してもよい。
より具体的には、上記の不連続修正器は、合成フィルタの安定性保証のために与えるISF/LSFパラメータの各要素間の間隔を、不連続性の推定結果に応じて変化させてもよい。
このとき、上記の不連続修正器は、合成フィルタの安定性保証のために与えるISF/LSFパラメータの各要素間の間隔として、安定性保証のために通常与える間隔よりも大きな間隔を与えてもよい。
また、上記の不連続修正器は、予め定めた次元までのISF/LSFパラメータを等分して得られる間隔を、合成フィルタの安定性保証のために与えるISF/LSFパラメータの各要素間の間隔として用いてもよい。
さらに、上記の不連続修正器は、予め定めたベクトルにより、ISF/LSFパラメータの一部もしくは全部を置き換えてもよい。
本発明の一実施形態に係る音声信号処理装置は、ISF/LSFパラメータを量子化するISF/LSF量子化器と、ISF/LSFパラメータに関する隠蔽情報である隠蔽ISF/LSFパラメータを生成するISF/LSF隠蔽器と、前記ISF/LSF量子化器の量子化過程で得られる量子化ISF/LSFパラメータと前記ISF/LSF隠蔽器が生成する隠蔽ISF/LSFパラメータとの距離を用いて、パケットロスが起こった後に最初に正常に受信した音声パケットに生じる不連続性を推定する不連続推定器と、不連続性に関する補助情報を符号化する補助情報符号化器と、を備える。
本発明の一実施形態に係る音声信号処理装置は、パケットロスが起こった後に最初に正常に受信した音声パケットに生じる不連続性を推定する不連続推定器と、不連続性に関する補助情報を符号化する補助情報符号化器と、前記不連続推定器が不連続性を推定しない場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF量子化に用い、前記不連続推定器が不連続性を推定した場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF量子化に用いることを回避するISF/LSF量子化器と、を備える。
本発明の一実施形態に係る音声信号処理装置は、パケットロスが起こった後に最初に正常に受信した音声パケットに生じる不連続性に関する補助情報を復号し出力する補助情報復号器と、復号音声の不連続性を修正する不連続修正器と、前記補助情報復号器の出力により不連続性を推定しない場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF算出に用い、前記補助情報復号器の出力により不連続性を推定した場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF算出に用いることを回避するISF/LSF復号器と、を備える。
音声信号処理装置は、過去の所定数のフレームのパケット受信状態を判定する受信状態判定部、をさらに備え、不連続修正器は、不連続性の推定結果に加え、パケット受信状態の判定結果も基礎として、不連続性の修正を行う構成を採用してもよい。
さて、本発明の一実施形態に係る音声信号処理装置は、音声信号処理方法に係る発明、及び音声信号処理プログラムに係る発明として捉えることもでき、以下のように記述することができる。
本発明の一実施形態に係る音声信号処理方法は、音声信号処理装置により実行される音声信号処理方法であって、パケットロスが起こった後に最初に正常に受信した音声パケットに対して、音声パケット復号の結果得られる復号音声の振幅が急激に大きくなることにより生じる不連続性の推定を行うステップと、復号音声の不連続性を修正するステップと、を備える。
本発明の一実施形態に係る音声信号処理方法は、音声信号処理装置により実行される音声信号処理方法であって、ISF/LSFパラメータを量子化するステップと、ISF/LSFパラメータに関する隠蔽情報である隠蔽ISF/LSFパラメータを生成するステップと、前記ISF/LSFパラメータの量子化過程で得られる量子化ISF/LSFパラメータと生成された隠蔽ISF/LSFパラメータとの距離を用いて、パケットロスが起こった後に最初に正常に受信した音声パケットに生じる不連続性を推定するステップと、不連続性に関する補助情報を符号化するステップと、を備える。
本発明の一実施形態に係る音声信号処理方法は、音声信号処理装置により実行される音声信号処理方法であって、パケットロスが起こった後に最初に正常に受信した音声パケットに生じる不連続性を推定するステップと、不連続性に関する補助情報を符号化するステップと、不連続性が推定されない場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF量子化に用い、不連続性が推定された場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF量子化に用いることを回避するステップと、を備える。
本発明の一実施形態に係る音声信号処理方法は、音声信号処理装置により実行される音声信号処理方法であって、パケットロスが起こった後に最初に正常に受信した音声パケットに生じる不連続性に関する補助情報を復号し出力するステップと、復号音声の不連続性を修正するステップと、前記補助情報が不連続性の推定を示さない場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF算出に用い、前記補助情報が不連続性の推定を示す場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF算出に用いることを回避するステップと、を備える。
本発明の一実施形態に係る音声信号処理プログラムは、コンピュータを、パケットロスが起こった後に最初に正常に受信した音声パケットに対して、音声パケット復号の結果得られる復号音声の振幅が急激に大きくなることにより生じる不連続性の推定を行う不連続推定器と、復号音声の不連続性を修正する不連続修正器、として動作させるための音声信号処理プログラムである。
本発明の一実施形態に係る音声信号処理プログラムは、コンピュータを、ISF/LSFパラメータを量子化するISF/LSF量子化器と、ISF/LSFパラメータに関する隠蔽情報である隠蔽ISF/LSFパラメータを生成するISF/LSF隠蔽器と、前記ISF/LSF量子化器の量子化過程で得られる量子化ISF/LSFパラメータと前記ISF/LSF隠蔽器が生成する隠蔽ISF/LSFパラメータとの距離を用いて、パケットロスが起こった後に最初に正常に受信した音声パケットに生じる不連続性を推定する不連続推定器と、不連続性に関する補助情報を符号化する補助情報符号化器、として動作させるための音声信号処理プログラムである。
本発明の一実施形態に係る音声信号処理プログラムは、コンピュータを、パケットロスが起こった後に最初に正常に受信した音声パケットに生じる不連続性を推定する不連続推定器と、不連続性に関する補助情報を符号化する補助情報符号化器と、前記不連続推定器が不連続性を推定しない場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF量子化に用い、前記不連続推定器が不連続性を推定した場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF量子化に用いることを回避するISF/LSF量子化器、として動作させるための音声信号処理プログラムである。
本発明の一実施形態に係る音声信号処理プログラムは、コンピュータを、パケットロスが起こった後に最初に正常に受信した音声パケットに生じる不連続性に関する補助情報を復号し出力する補助情報復号器と、復号音声の不連続性を修正する不連続修正器と、前記補助情報復号器の出力により不連続性を推定しない場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF算出に用い、前記補助情報復号器の出力により不連続性を推定した場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF算出に用いることを回避するISF/LSF復号器、として動作させるための音声信号処理プログラムである。
1、1S、1X…音声復号器、11…パケットロス検出部、12、12A、12B、12D、12E、12G、12S…音声符号復号部、13、13X…隠蔽信号生成部、14…内部状態バッファ、15…正規化予測残差パワー復号部、16…受信状態判定部、21、21S…分析・符号化部、22…残差符号化部、23…符号多重化部、120…ISF復号部、121、121S…安定性処理部、121X…ゲイン調整部、121Y…ゲイン乗算部、122…LP係数算出部、122A…ISF-ISP変換部、122B…ISP補間部、122C…ISP-LPC変換部、123…適応符号帳算出部、124…固定符号帳復号部、125…ゲイン復号部、126…励振ベクトル合成部、127…ポストフィルタ、128…合成フィルタ、129…不連続検出部、130…LP係数補間部、131…ピッチラグ補間部、132…ゲイン補間部、133…雑音信号生成部、134…ポストフィルタ、135…合成フィルタ、136…適応符号帳算出部、137…励振ベクトル合成部、138…正規化予測残差調整部、210…LP分析部、211…LP-ISF変換部、212…ISF符号化部、213…不連続判定部、214…ISF隠蔽部、215…ISF-LP変換部、216…ISFバッファ、C10…コンピュータ、C12…読み取り装置、C14…作業用メモリ、C16…メモリ、C18…ディスプレイ、C20…マウス、C22…キーボード、C24…通信装置、C26…CPU、M…記録媒体、P1〜P4…音声信号処理プログラム、P11…不連続推定モジュール、P12…不連続修正モジュール、P21…ISF/LSF量子化モジュール、P22…ISF/LSF隠蔽モジュール、P23…不連続推定モジュール、P24…補助情報符号化モジュール、P31…不連続推定モジュール、P32…補助情報符号化モジュール、P33…ISF/LSF量子化モジュール、P41…補助情報復号モジュール、P42…不連続修正モジュール、P43…ISF/LSF復号モジュール、W…コンピュータデータ信号。

Claims (3)

  1. 音声信号処理装置により実行される音声信号処理方法であって、
    符号化器より伝送された補助情報であって音声パケット復号の結果得られる復号音声の不連続性に関する補助情報を復号する復号ステップと、
    前記復号ステップにより復号された補助情報を用いて、前記復号音声の不連続性を推定する推定ステップと、
    前記推定ステップにより不連続であると推定された場合に前記復号音声の不連続性を修正し、前記推定ステップにより不連続であると推定されない場合に前記復号音声の不連続性を修正しない修正ステップと、
    を含み、
    前記不連続性とは、パケットロスが起こった後に最初に正常に受信した音声パケットに対して、音声パケット復号の結果得られる復号音声の振幅が急激に大きくなることにより生じるものである、
    音声信号処理方法。
  2. 伝送された音声パケットのパケットロスを検出する検出ステップをさらに含み、
    前記修正ステップは、前記検出ステップによりパケットロスが検出された場合、且つ、前記推定ステップにより不連続であると推定された場合に、前記復号音声の不連続性を修正する、
    請求項1に記載の音声信号処理方法。
  3. 符号化器より伝送された補助情報であって音声パケット復号の結果得られる復号音声の不連続性に関する補助情報を復号する補助情報復号器と、
    前記補助情報復号器により復号された補助情報を用いて、前記復号音声の不連続性を推定する不連続推定器と、
    前記不連続推定器により不連続であると推定された場合に前記復号音声の不連続性を修正し、前記不連続推定器により不連続であると推定されない場合に前記復号音声の不連続性を修正しない不連続修正器と、
    を備え、
    前記不連続性とは、パケットロスが起こった後に最初に正常に受信した音声パケットに対して、音声パケット復号の結果得られる復号音声の振幅が急激に大きくなることにより生じるものである、
    音声信号処理装置。
JP2016016996A 2016-02-01 2016-02-01 音声信号処理方法及び音声信号処理装置 Active JP6133454B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016016996A JP6133454B2 (ja) 2016-02-01 2016-02-01 音声信号処理方法及び音声信号処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016016996A JP6133454B2 (ja) 2016-02-01 2016-02-01 音声信号処理方法及び音声信号処理装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2013224120A Division JP5981408B2 (ja) 2013-10-29 2013-10-29 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2017083026A Division JP6352487B2 (ja) 2017-04-19 2017-04-19 音声信号処理方法及び音声信号処理装置

Publications (2)

Publication Number Publication Date
JP2016118796A JP2016118796A (ja) 2016-06-30
JP6133454B2 true JP6133454B2 (ja) 2017-05-24

Family

ID=56244204

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016016996A Active JP6133454B2 (ja) 2016-02-01 2016-02-01 音声信号処理方法及び音声信号処理装置

Country Status (1)

Country Link
JP (1) JP6133454B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2904427B2 (ja) * 1991-09-26 1999-06-14 ケイディディ株式会社 欠落音声補間装置
JP3566931B2 (ja) * 2001-01-26 2004-09-15 日本電信電話株式会社 音声信号の符号列のパケット組立方法、装置及びパケット分解方法、装置並びにこれらの方法を実行するプログラム、プログラムを記録する記録媒体
JP2006279809A (ja) * 2005-03-30 2006-10-12 Sanyo Electric Co Ltd 音声再生装置および音声再生方法
KR100862662B1 (ko) * 2006-11-28 2008-10-10 삼성전자주식회사 프레임 오류 은닉 방법 및 장치, 이를 이용한 오디오 신호복호화 방법 및 장치
JP2010164859A (ja) * 2009-01-16 2010-07-29 Sony Corp オーディオ再生装置、情報再生システム、オーディオ再生方法、およびプログラム

Also Published As

Publication number Publication date
JP2016118796A (ja) 2016-06-30

Similar Documents

Publication Publication Date Title
RU2701075C1 (ru) Устройство обработки аудиосигнала, способ обработки аудиосигнала и программа обработки аудиосигнала
JP6914390B2 (ja) 音声信号処理方法
JP6352487B2 (ja) 音声信号処理方法及び音声信号処理装置
JP6133454B2 (ja) 音声信号処理方法及び音声信号処理装置
JP6691169B2 (ja) 音声信号処理方法及び音声信号処理装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170321

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170419

R150 Certificate of patent or registration of utility model

Ref document number: 6133454

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250