JP2005114814A - 音声符号化・復号化方法、音声符号化・復号化装置、音声符号化・復号化プログラム、及びこれを記録した記録媒体 - Google Patents
音声符号化・復号化方法、音声符号化・復号化装置、音声符号化・復号化プログラム、及びこれを記録した記録媒体 Download PDFInfo
- Publication number
- JP2005114814A JP2005114814A JP2003345608A JP2003345608A JP2005114814A JP 2005114814 A JP2005114814 A JP 2005114814A JP 2003345608 A JP2003345608 A JP 2003345608A JP 2003345608 A JP2003345608 A JP 2003345608A JP 2005114814 A JP2005114814 A JP 2005114814A
- Authority
- JP
- Japan
- Prior art keywords
- band
- signal
- encoding
- packet
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Time-Division Multiplex Systems (AREA)
Abstract
中帯域以上の広帯域符号化と狭帯域の電話帯域符号化との相互接続性を得る。
【解決手段】
広帯域音声信号を狭帯域の電話帯域音声信号と、中帯域の高域側音声信号と、広帯域の高域側音声信号とに帯域分割する帯域分割処理と、帯域分割された電話帯域音声信号の周波数特性を高域強調特性に変更する周波数特性補償処理と、周波数特性補償処理が施された電話帯域音声信号と、中帯域の高域側音声信号と広帯域の高域側音声信号のそれぞれを符号化する符号化処理と、各符号化処理された符号化データをパケット信号として送出するパケット構築処理を実行する。
【選択図】 図1
Description
ITU−T (Telecommunication Standardization Sector, International Telecommunication Union), Geneva, Switzerland. ITU−T G.711‐Pulse code modulation (PCM) of voice frequencies, Nov. 1988. ITU−T (Telecommunication Standardization Sector, International Telecommunication Union), Geneva, Switzerland. ITU−T G.726‐40, 32, 24, 16 kbit/s adaptive, differential pulse code modulation (ADPCM), Dec. 1990.
この発明では更に、着信したパケット信号を広帯域の高域側音声符号化データ、中帯域の高域側音声符号化データ、電話帯域の音声符号化データに分解するパケット分解処理と、これらの音声符号化データのそれぞれを音声信号に復号化処理する復号化処理と、復号化処理された音声信号を合成し、広帯域信号を再生する合成処理とを含む音声復号化方法を提案する。
また、ここで本発明はスケーラブル符号化の一種であるため、実施例1に示す図1で与えられる32kHzサンプリングで入力され符号化された音声信号データパケットを図8に与えても、パケット分解部に擬似広帯域高域側符号データを無視して処理しないようにすれば、問題なく音声が再生できるという利点もある。
擬似中帯域高域側音声信号と擬似広帯域高域側音声信号はそのまま各帯域に適した符号化方法により符号化し、パケット構築部に入力する。
電話帯域音声信号は周波数特性補償部で旧来の電話網における伝送特性に合致させるべく、高域強調特性に補償し、この周波数特性が補償された電話帯域信号を符号化し、パケット構築部に入力する。
受信側では着信したパケットをパケット分解部で擬似広帯域高域側符号データと、擬似中帯域高域側符号データと、擬似電話帯域符号データに分解し、これらを復号部で音声信号に復号し、復号した音声信号を再合成フィルタバンクで合成し、広帯域の音声信号を再生する。
電話帯域のみを利用する場合は送信側では電話帯域音声信号のみを符号化し、パケットとして送信すればよく、また中帯域の音声信号を伝送する場合は電話帯域と中帯域の高域側音声信号を符号化し、この符号化データをパケットとして伝送すればよく、広帯域の信号を伝送するには電話帯域の音声信号と、中帯域の高域側音声信号と広帯域の高域側音声信号を符号化し、これらの符号データをパケットとして伝送すればよい。広帯域の音声信号の伝送中又は中帯域の音声信号の伝送中のどの状態でも、電話帯域の再生機能しか持たない端末は電話帯域のデータだけを用いて音声を再生することができる。
[参考文献1]
S. Mallat. A Wavelet Tour of Signal Processing. Academic Press, San Diego, 2nd edition, 1999.
[参考文献2]
G. Strang and T. Nguyen. Wavelets and Filter Banks. Wellesley‐Ca‐
Mbridge Press, Wallesley, MA, 1996.
[参考文献3]
I. Daubechies. Ten Lectures on Wavelets. SIAM, Philadelphia, PN, 1992.
基底(厳密には「フレーム基底」)としては、Mayers, Daubechies、Mexican Hatなど多数挙げられるが、Symmletを用い、14タップ長程度のものを用いることとする。このウェーブレット基底は時間領域では係数が比較的対称な形を持つという性質を持つため、時間領域の局所化の妥当性が高く、効率の良い符号化結果が望める。タップ数は大きくなると分割した帯域の重なりが減り、低域だけを再生した時にエイリアジングによる雑音が低減できるというメリットがあるが、演算量が増加してしまうためあまり好ましくない。
しかし、周波数特性の補償だけでは、広帯域音声として再生した場合、低域が欠落しているために、臨場感のない信号しか再生できない。ここで、2段目に原音との差分信号を量子化するような機構を入れれば電話帯域のみの再生と広帯域の再生の双方の品質を高品質に保つことができる。
本実施例では、広帯域入力音声信号を入力とする。この入力音声信号は、32kHzサンプリングでも良いし、それより大きなサンプリング周波数の信号を入力とする場合には、予め32kHzまでダウンサンプリングしておく必要がある。
本実施例で述べる処理系は、実時間処理を目的とするため通常5ms〜50ms程度の短時間処理フレーム毎の処理が行われる。もちろん、オフラインで実施するのであれば、メモリの許す限り信号を保存して一括処理をしても同じ結果が得られる。
[参考文献4]
ITU−T (Telecommunication Standardization Sector, International Telecommunication Union), Geneva, Switzerland. ITU−T P.830 Anner D‐modifired IRS send and receive characteristics, Feb. 1996.
次に周波数特性補償部11を経た信号は利得調整部12で利得調整をされる。この利得調整部12では音声通信の場合ならば1.0〜4.0の範囲の値を取る定数gをサンプルに乗ずることである。
これと共に、擬似電話帯域音声信号は、位相遅れ補償部14で位相操作が行われる。この位相遅れ補償部14は、原音声信号をバッファリングして電話帯域信号を遅れさせる機能を持つ。この位相遅れ補償部14は、位相のみを操作する全通過フィルタとしても実装することも可能である。この位相遅れは、周波数特性補償部11を経由して得られる位相遅れと一致しているものを用いるが、周波数特性補償部11がFIRフィルタで実装されている場合、そのフィルタのタップ長の半分だけ遅れさせればよい。
中帯域高域側(4〜8kHz帯域)および広帯域の高域側(8〜16kHz帯域)の信号はそれぞれ符号化部17および18に渡されて符号化データを得る。通常従来の電話帯域の符号化方式では広帯域を用いないため、これらの符号化方式は独自のものを用いてもよいし、従来の電話帯域符号化を用いても同じ効果が得られる。
その後、これらの符号化データはパケット構築部19に渡され、IPパケットのペイロードデータとしてネットワークAPIに渡されてIPネットワークに伝送される。この時、各帯域の符号データの優先度を演算し、優先度毎にパケット化して伝送することも可能である。尚この優先度付きパケット出力方法に関しては後に詳しく説明する。
電話帯域復号部以外の復号部53、54から出力された各信号は、位相遅れ補償部55でそれぞれ位相遅れ補償を施される。送信側で述べたとおり、この位相遅れ補償は信号のサンプルを遅れさせるバッファとして実装しても良いし、位相のみを操作する全通過フィルタとして実装することもできる。ここでは行う位相操作には図1に示した送信機構の位相遅れ補償部14と同じものを用いることができる。
こうして擬似電話帯域復号信号、擬似中帯域高域側復号信号、擬似広帯域広域側復号信号は再合成フィルタバンク58へと渡され、広帯域音声に再合成される。このときの逆FWTによる再合成フィルタバンクの実装例を図6に示す。図6に示す例では再合成フィルタバンク58を2個のスケーリング係数合成フィルタ58−1および58−3と2個のウェーブレット展開係数合成フィルタ58−2、58−4とによって構成した場合を示す。
なお、従来型(G.711やG.726)の音声受信機構しか備えない音声送信機構と対に接続する場合は、中帯域および広帯域高域側のデータに0を詰めて再合成フィルタバンク58を通過させることにより相互接続が可能となる。また、電話帯域復号部52のみを動かし、得られた8kHzサンプリングの再生音声信号を32kHzにアップサンプリングすることにより同じ効果を得ることができ、低演算量で実現することも可能である。
ここでは、1段目の電話帯域符号化器13から得られた符号データを電話帯域復号部111で復号し得られた信号に、利得補償部112で補正利得を乗じ、位相遅れ補償部14で位相補償された擬似電話帯域信号との差分信号を減算部113で求め、電話帯域補償符号化器114に与える。利得補償部112の補正利得は、実施例1の受信側と同様に、利得gの逆数(1/g)を用いる。
これと対に用いる音声受信機構には、図5と同じものを用いる。
上述したこの発明の音声符号化装置および音声復号化装置はコンピュータにより機能させることもできる。その場合は上述したこの発明の方法の各ステップをコンピュータに実行させるためのプログラムをCD−ROM、磁気ディスクなどの記録媒体から当該装置として機能させるコンピュータにインストールし、或は通信回線を介してダウンロードして実行させればよい。
与えられたネットワークやシステム資源(音声、映像など)を用いて最大の効果が得られるように、各メディアの品質(アプリケーション品質)を調整することを、インターネットで自動的に制御する技術、いわゆるインターネットQoS(Quality of Service)制御技術として、DiffServ(参考文献5、6)が注目されている。この手法は特にネットワークに入るパケットを予め優先度でクラス分けしておき、輻輳時に各ネットワークロードで優先度の低いパケットから破棄する仕組みである。この仕組みを音声通信で利用するためには、音声の処理単位(すなわちパケット)毎に優先度が演算されているようにしておけば有効なネットワークの活用ができる。
[参考文献5]
IETF‐RFC2474 : Definition of the Differentiated Services Field (DS Field)in the IPv4 and IPv6 Headers,1998.
[参考文献6]
IETF‐RFC2475 : An architecture for Differentiated Services,1998.
[参考文献7]
3GPP : ETSI TS 146 032, “Digital cellular telecommunications system (Phase 2+) ; Voice Activity Detection (VAD) , 2002
今後普及するであろう音声、音楽、映像とデータとの統合ネットワ−ク環境では一般的なピーク伝送レートの高い「データ通信」と、伝送レートが低くとも遅延時間が品質劣化に直接結びついてしまう「音声、音楽、映像通信」とが効率良く混在する必要がある。この場合滑らかな階段の優先度を持つパケットを生成して音声、楽音や映像などを品質を落とさずに効率良く伝送を可能とすることが望まれる。
この先願の方法によればディジタル信号をフレームごとに分割し、その分割されたフレーム毎のディジタル信号を符号化し、上記符号化に基づく特徴量又は/及び上記ディジタル信号の特徴量を説明変数として求め、上記説明変数の複数個を線形結合して指標値を求め、その指標値を量子化して優先度を求め、この優先度と上記符号化の符号とをパケットとして出力する。
あるいは、次式(2)に示すように絶対電力の対数表現としてx1[i]を求める。
x1[i]=log10((1/N)Σn=1 Ns[Ni+n]2) (2)
説明変数生成部1312では説明変数生成部1311よりの説明変数x1[i]と、前フレーム(i−1)の説明変数x1[i−1]を入力して現フレームの電力の前フレームの電力に対する比を次式(3)により計算して説明変数x2[i]を出力する。
前フレームの説明変数x1[i−1]を前フレームバッファ1312aに格納しておき、式(3)の計算を計算部1312bで行い、現フレームの説明変数x1「i」で前フレームバッファ1312aに保持する説明変数を更新する。
更に説明変数生成部1313では音声信号s「n」を入力して、その自己相関関数(ρ[n])の最大値(周期性)を次式(4)により計算して説明変数x3[i]とする。
x3[i]=max(ρi[k]) (4)
ここで正規化された自己相関関数ρ[n]は、次式(5)を用いて計算する。
Σn=0 N(s[Ni+n])2 (5)
kは1、2…とし、kの最大値は音声信号s[n]のピッチ周期相当程度とする。この時、自己相関関数をアップサンプリングして、つまり補間してより正確な値を計算するようにした方が良い結果が得られる。
これら求めた説明変数x1[i]、x2[i]、x3[i]を指標値計算部1314で線形結合して指標値y[i]を求める。つまり例えば次式(6)、(7)を計算する。
xj[i]^は説明変数xjの確率分布の平均を0、分散を1に正規化したもの、つまり次式(7)で求まる。
xj[i]^=(xj[i]−xj´)/γj (7)
xj´、γjはそれぞれ説明変数xjの平均値、標準偏差である。
これらの線形結合係数α0、α1は重回帰分析(例えば奥野忠−他:多変量解析法(改訂版)、日科技連、1981参照)を用いて事前に最適化した偏回帰係数値を用いる。例えば1つのパケット(フレーム)を消失させたときの受聴者が主観評価したMOS値をy[i]´とした時、このy[i]´と式(6)により計算された指標値y[i]との誤差が最小となるように、最小自乗法を用いて、係数αjを求める。α0はMOS値1〜5の平均値である。ここでMOS値1は「非常に悪い」、MOS値5は「非常に良い」と対応する。
こうして求められた指標値y[i]は、量子化部1315でスカラ量子化され、離散的な値、例えば0、1、…、7の何れかの値の優先度p[i]が出力される。つまり一般的に指標値の小さいパケットは高優先度のものへ、大きいものは低優先度のものへと写像する。写像は以下のような関数で表わすことができる。
このとき用いる写像関数f(y)は、パケットを総優先度ステップ数に写像するスカラ量子化を用いればよい。このときの量子化のしきい値は、指標値y「i」を等確率で分割する方法や、指標値y[i]の範囲を等分割する等の方法がある。
線形結合係数の各値は例えばα1=−0.37、α2=−0.1、α3=−0.2であり、その絶対値が大きい程、主観評価品質への影響が大きい。これらの3つの説明変数(特徴量)において絶対電力が大きいフレームが消失すると、主観評価品質への影響が最も大きい、これは音声信号中の大きなレベルのフレームが消失すれば大きな影響を与えることを意味している。自己相関関数の最大値が大きいフレームが消失すると主観評価品質への影響は次に大きい。このことは、そのフレームの絶対電力が小さくても、音声信号があれば、自己相関関数の最大値が大きくなり、そのように音声信号を含むフレームの消失は小さい絶対電力でも比較的大きく影響することを意味している。
このようにして各フレームごとに決定された優先度p[i]は符号化部1213よりのそのフレームiの符号P「i」と、パケット送出部1215(図12)でパケットとして組立てられて出力される。
この第2実施形態は広帯域音声信号を複数帯域に分割して符号化を行なう場合に適用したものである。
図14に示すように広帯域音声信号はフレーム分割部1212で一定区間ごとのフレームに分割され、帯域分割部1411で帯域通過フィルタを用いてF個の複数帯域に分割される。この帯域の分割方法は、音声信号s[n]が例えば16kHzサンプリングであれば上下各4kHz帯域(F=2)に分割し、32kHzサンプリングであればF=3で0〜4kHz帯域と、4kHz〜8kHz帯域と、8kHz〜16kHz帯域というようにウェーブレットで分割しても良いし、F=4で総て等間隔に各4kHz帯域に分割しても良い。各帯域分割された音声信号は個々の符号化器で、固定時間長(フレーム)ごとに符号化される。このときの音声ブロック(パケット)の分割イメージを図15に示す。図15の例はF=3でフレームごとに各帯域の信号がそれぞれブロック(パケット)とされ、フレームごとに3つのブロック(パケット)が生成されることになる。
低域優先度決定部1413Lの具体例を図16に示す。図16において図13と対応する機能構成部分に同一番号を付し、その番号に符号Lを付けてある。低域音声信号s1[n]は説明変数生成部1311Lで式(1)又は(2)と同様に絶対電力又はその対数が計算されて説明変数x1[1,i]が生成される。説明変数生成部1312Lで式(3)と同様に前フレーム電力比が計算されて説明変数x2[1,i]が生成される。また説明変数生成部1313Lで式(4)、(5)と同様に自己相関関数の最大値が計算されて、説明変数x3[1,i]が生成される。
x4[f,i]=x1[f,i]/Σf=1 Fx1[f,i] (9)
図16の例ではF=2であるから、低域のx1[1,i]と高域のx1[2,i]により
x4[1,i]=x1[1,i]/(x1[1,i]+x1[2,i])
が計算される。
y[1,i]=α0+Σj=1 4αjxj[1,i]^
xj[1,i]^=(xj[1,i]−xj[1]´)/γj[1]
この指標値y[1,i]は量子化部1315Lで量子化され、優先度p[1,i]=f1(y[1,i])が出力される。
同様にして高域優先度決定部1413Hで指標値
y[2,i]=α0+Σj=1 4αjxj[2,i]^
xj[2,i]^=(xj[2,i]−xj[2]´)/γj[2]
が計算され、更に優先度p[2,i]=f2(y[2,i])が出力される。パケット送出部1215は、低域符号化部1412Lよりの符号化符号P[1,i]と優先度p[1,i]が1つのパケットとして、また符号化部1412Hよりの符号化符号P[2,i]と優先度p[2,i]が1つのパケットとして送出される。
y[f,i]=α0+Σj=1 4αjxj[f,i]^
xj[f,i]^=(xj[f,i]−xj[f]´)/γj[f]
により計算され、優先度p[f,i]はff(y[f,i])により求められる。
係数α4は例えば−0.43であり、α1より大とされる。つまり分割された帯域のフレームの全帯域電力に対する比が大きいことは、その部分に大きな電力の音声信号成分があることになりα1〜α4中で優先度を最も高くすることが好ましいことを意味している。
第3実施形態は単一帯域の品質スケーラブル符号化器、つまり各種の品質の符号化を行うことができる符号化器を用いて音声を符号化する場合にこの発明を適用した実施形態である。この場合の音声ブロック(パケット)の分割イメージは図15中に括弧書きで品質qとフレームとの関係を示すようになる。またQ=2段構成の、一般的な固定処理時間単位で音声信号を符合化する場合に適用した機能構成を図17に示す。
音声信号s[n]はフレーム分割部1212でフレーム単位で分割され、1段目符号化部1412‐1でフレームごとに符号化されると共に1段目優先度決定部1413−1で優先度p[1,i]が決定される。1段目符号化部1412−1よりの符号化符号P[1,i]は1段目復号化部1711−1で復号化され、この復号化信号が音声信号から減算部1712−1で差し引かれて、1段目の残差信号(符号化誤差信号)e1[n]が生成される。この残差信号は2段目符号化部1412−2でフレームごとに符号化されると共に2段目優先度決定部1413−2で優先度p2[2,i]が決定される。2段目符号化部1412−2よりの符号化符号P[2,i]は2段目復号化部1711−2で復号化され、その復号化信号が、1段目の残差信号e1[n]から減算部1712−2で差し引かれて2段目残差信号e2[n]が生成される。
この第3実施形態では更に説明変数生成部1317で符号P[1,i]の品質、例えば信号に対する雑音比が説明変数x5[1,i]として生成される。すなわち信号電力計算部1317aでS=Σn=1 Ns[Ni+n]2が計算され、また雑音計算部1317bでE=Σn=1 Ne1[Ni+n]2が計算され、これらの比の対数log10E/Sが対数割算部1317cで計算され、その結果が説明変数x5[1,i]として出力される。
2段目優先度p[2,i]も同様に求められる。この場合は図18中に括弧書きで示しているように、1段目残差信号e1[n]の代わりに2段目残差信号e2[n]がそれぞれ入力され、これら信号に対して同様に処理され、2段目優先度p[2、i]が出力される。
この説明変数x5[q,i](q=1,2,…,Q)は符号化に基づく特徴量といえる。これを求める計算式は一般的に示すと以下となる。
x5[q,i]=log10(Σn=1 Neq[Ni+n]2/Σn=1 Ns[Ni+n]2)
この場合の線形結合係数α5は−0.1程度が考えられる。qが大きいものは高品質の信号の再生には必要であるが、トラヒックが輻輳している状態では品質よりも伝送される情報の意味内容がより需要であるから、qが大きいパケットはx5[q,i]が小さくなり、かつα5が比較的小さいから優先度にあまり関与しないようになる。
一般的なスケーラブル複数帯域符号化器の場合は、第1実施形態に挙げた説明変数x1[i]、x2[i]、x3[i]の他に、第2実施形態に挙げた説明変数x4[f,i]と第3実施形態に挙げた説明変数x5[q,i]の双方を用いて指標値y[f,q,i]の演算を行なう。このときの音声ブロック(パケット)の分割イメージを図19に示す。
つまり各種サンプリング周波数、各種サンプル量子化精度(振幅ビット数)の組合せを持つ各品質の音声信号に符号化する、いわゆるスケーラブル符号化の場合で、図19はサンプリング周波数は3段階、量子化精度(品質)も3段階とした場合で周波数帯域がf=1、f=2、f=3の3帯域に分割され、振幅ビット長がq=1、q=2、q=3の3領域に分割され、互に直交する周波数帯軸(帯域番号)と品質軸(振幅ビット分割番号)と時間軸(フレーム番号)で表わされていた3次現空間における1つの信号ブロック(パケット)として[f,q,i]で識別される。
x1[f,q,i]=(1/N)Σn=1 Nsfq[Ni+n]2
又はx1[f,q,i]=log10((1/N)Σn=1 Nsfq[Ni+n])2
x2[f,q,i]=x1[f,q,i]/x1[f,q,i−1]
x3[f,q,i]=max(ρf,q,i[k])
ρf,q,i[k]=Σn=0 N(sfq[Ni+n])(sfq[Ni+n+k])/Σn=0 N(sfq[Ni+n])2
x4[f,q,i]=x1[f,q,i]/Σf=1 Fx1[f,q,i]
x5[f,q,i]=log10(Σn=1 Nefq[Ni+n]2/Σn=1 Nsfq[Ni+n]2)
指標値y[f,q,i]=α0+Σj=1 5αjxj[f,q,i]
優先度p[f,q,i]=ff,q(y[f,q,i])
このようにして決定された優先度p[f,q,i]と対応する符号化符号P[f,q,i]とを一つのパケットとして送出する。
上述においては分割された各音声ブロックごとその符号化符号と優先度とを組として
1パケットとして出力したが、第5実施形態では同一優先度の信号ブロックの符号をまとめて1つのパケットとして送出する。
例えば図20に示すようにフレーム分割された音声信号を、F個の帯域に帯域分割部1411で分割し、これら1〜F番目の帯域信号をそれぞれ符号化部2011−1〜2011−Fで符号化すると共に優先度決定部2012−1〜2012−Fでそれぞれ優先度を決定する。この第5実施形態ではこれら符号化符号P[1,i]〜P[F,i]と優先度p[1,i]〜p[F,i]をパケット集約部2013に供給し、所定フレーム数ごとに、同一優先度の符号をまとめて、1つのパケットとして送出部1215より送出する。
入力音声信号s[n]を例えばウェーブレット分析を用いた0−4kHz、4kHz−8kHz、8−16kHzのF=3帯域に分割し、5msで時間方向に分割し、時間20msごとにパケット送出するものとする。各パケット送出番号tにおけるフレーム番号i=1,…,4とし、フレーム番号iの帯域番号fの信号ブロックの符号化符号をP[f,i]と、優先度をp[f,i]とそれぞれ表わす。各第t番目の送出区間における各ブロックの符号P[f、i]と優先度p[f,i]が図21Aに示すようになった場合パケット集約部2013では図21Bに示すように、同じ優先度を持つブロックをそれぞれ集約して1つのパケットする。この例では優先度p=4のブロック(1,2)及び(1,3)の符号P[1,2]、P[1,3]をまとめ、かつその各符号P[1,2]、P[1,3]の帯域−時間座標上の位置情報(1,2)、(1,3)を優先度p=4のパケットに組み込む。優先度p=3のパケットには符号P[2,2],P[1,4]とその位置情報(2,2)、(1,4)を組み込む。以下同様に同一優先度の符号をまとめ、その位置情報と共に一つのパケットとして組み込む。
こうして、ネットワークに送出されたパケットは、受信側において図22に示すようにパケット分解部2211でt番目の送出区間の全てのパケット、図21の場合は優先度p=1〜p=4の4つのパケットP[1,t]〜P[4,t]を図21に示した組立てと逆の手順を経て帯域−時間座標上に再構成し、各帯域符号P[1,i]〜P[F,i]を復号化部2212−1〜2212−Fでそれぞれ帯域音声復号に復号する。このとき、受信側に到達しなかった低い優先度の符号がある場合は、基本的にはその符号に対する復号化部の動作を停止する。高優先度の符号が到達しない場合は、フレーム(ブロック)消失対策をブロック消失補償部2213−1〜2213−Fの対応する部分で行い、品質低下を避ける。このようにして復号され、必要に応じて消失補償された各帯域音声信号は帯域合成部2214で合成されて再生音声信号s[n]として出力される。なおパケット分解部2211よりブロック消失情報がブロック消失補償部2213−1〜2213−Fへ供給されている。このブロック消失補償は公知の技術により行なえばよい。
上述では、優先度付パケット出力方法を音声信号に適用したが、音楽信号、映像信号にも適用できる。また符号化に基づく特徴量の説明変数としては次のものなども考えられる。例えば、予測符号化を用いた音声符号化器によっては語頭などのパケットが破棄されると、その後の音声品質(SN比)が著しく劣化する可能性がある。そのようなパケットが破棄されることによって伝播するSN比の劣化も説明変数xj(m,j)としてもよい。音声信号の特徴量の説明変数、符号化に基づく特徴量の説明変数の何れも上述した例に限らず、各種のものを使用することができる。
11 周波数特性補償部 51 電話帯域補償復号部
12 利得調整部 52 電話帯域復号部
13 電話帯域符号化部 53 中帯域高域側復号部
14 位相遅れ補償部 54 広帯域高域側復号部
15 減算部 55 位相遅れ補償部
16 電話帯域補償符号化部 56 利得調整部
17 中帯域高域側符号化部 57 加算部
18 広帯域高域側符号化部 58 再合成フィルタバンク
19 パケット構築部
Claims (18)
- 広帯域音声信号を狭帯域の電話帯域音声信号と、中帯域の高域側音声信号と、広帯域の高域側音声信号とに帯域分割する帯域分割処理と、
帯域分割された上記電話帯域音声信号の周波数特性を高域強調特性に変更する周波数特性補償処理と、
周波数特性補償処理が施された電話帯域音声信号と、上記中帯域の高域側音声信号と広帯域の高域側音声信号のそれぞれを符号化する符号化処理と、
各符号化処理された符号化データをパケット信号として送出するパケット構築処理と、
を含むことを特徴とする音声符号化方法。 - 請求項1記載の音声符号化方法において、上記符号化処理前の上記電話帯域音声信号に利得補償を施すことを特徴とする音声符号化方法。
- 請求項1又は2記載の音声符号化方法の何れかにおいて、上記各帯域音声信号の優先度を求め、優先度付きディジタル信号パケット出力方法を併用することを特徴とする音声符号化方法。
- 請求項1乃至3記載の音声符号化方法の何れかにおいて、上記周波数特性補償処理を施した電話帯域音声信号と周波数特性補償処理を施さない電話帯域音声信号との差を求め、この差分信号を符号化処理し、その符号化データを補償符号データとしてパケット化し、送出することを特徴とする音声符号化方法。
- 請求項1乃至3記載の音声符号化方法の何れかにおいて、上記電話帯域音声信号の符号化処理された符号化データを復号する復号処理と、この復号処理された電話帯域信号と上記周波数特性補償処理しない電話帯域音声信号との差を求める減算処理と、この減算処理で得られた差分信号を符号化する符号化処理と、この符号化処理で得られた補償符号データをパケット信号として送出するパケット構築処理とを付加することを特徴とする音声符号化方法。
- 着信したパケット信号を広帯域の高域側音声符号化データ、中帯域の高域側音声符号化データと、電話帯域の音声符号化データに分解するパケット分解処理と、
これらの音声符号化データのそれぞれを音声信号に復号化処理する復号化処理と、
復号化処理された音声信号を合成し、広帯域信号を再生する合成処理と、
を含むことを特徴とする音声復号化方法。 - 請求項6記載の音声復号化方法において、上記パケット分解処理で補償符号データを抽出し、この補償符号データを復号処理し、復号処理した補償成分を上記電話帯域音声信号に加算する処理を付加したことを特徴とする音声復号化方法。
- 請求項6又は7記載の音声復号化方法の何れかにおいて、上記電話帯域符号化データを復号処理して得られた音声信号に利得補正処理を施すことを特徴とする音声復号化方法。
- 広帯域音声信号を狭帯域の電話帯域と、中帯域の広域側音声信号と、広帯域の広域側音声信号とに帯域分割する帯域分割部と、
帯域分割された上記電話音声信号の周波数特性を高域強調特性に変更する周波数特性補償部と、
周波数特性補償部で周波数特性補償された電話帯域音声信号と上記中帯域の広域側音声信号と広帯域の広域側音声信号のそれぞれを符号化する符号化部と、
各符号化部で符号化された符号化データをパケット信号として送出するパケット構築部と、
を具備することを特徴とする音声符号化装置。 - 請求項9記載の音声符号化装置において、上記符号化部に入力される電話帯域音声信号に利得補償を施す利得補償部を付加したことを特徴とする音声符号化装置。
- 請求項9又は10記載の音声符号化装置の何れかにおいて、上記周波数特性補償部で周波数特性補償された上記電話帯域音声信号と周波数特性補償を施さない電話帯域信号の差分を求める減算部と、この減算部で減算して求めた差分信号を符号化する符号化部と、この符号化部で符号化した差分符号化データをパケットとして送出するパケット構築部とを具備したことを特徴とする音声符号化装置。
- 請求項9又は10記載の音声符号化装置の何れかにおいて、上記電話帯域音声信号の符号化データを復号する復号部と、この復号部で復号した電話帯域信号と上記周波数特性補償部で周波数特性補償しない電話帯域信号との差を求める減算部と、この減算部で得られた差分信号を符号化する符号化処理と、この符号化処理で得られた補償符号データをパケット信号として送出するパケット構築部とを具備したことを特徴とする音声符号化装置。
- 着信したパケット信号を広帯域の高域側音声符号化データ、中帯域の高域側音声符号化データと、電話帯域の音声符号化データに分解するパケット分解部と、
これらの音声符号化データのそれぞれを音声信号に復号化処理する復号化部と、
復号化処理された音声信号を合成し、広帯域信号を再生する合成部と、
を具備することを特徴とする音声復号化装置。 - 請求項13記載の音声復号化装置において、上記パケット分解部で補償符号データを抽出し、この補償符号データを復号処理し、復号処理した補償成分を上記電話帯域音声信号に加算する加算部を付加したことを特徴とする音声復号化装置。
- 請求項13又は14記載の音声復号化装置の何れかにおいて、上記電話帯域符号化データを復号して得られた音声信号に利得補正を施す利得調整部を設けたことを特徴とする音声復号化装置。
- コンピュータに請求項1乃至5記載の音声符号化方法の少なくとも一つを各処理ステップに従って実行させる音声符号化プログラム。
- コンピュータに請求項6乃至8記載の音声復号化方法の少なくとも一つを各処理ステップに従って実行させる音声復号化プログラム。
- コンピュータが読み取り可能な記録媒体で構成され、請求項16及び17記載の音声符号化プログラム、音声復号化プログラムの少なくとも一つを記録した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003345608A JP2005114814A (ja) | 2003-10-03 | 2003-10-03 | 音声符号化・復号化方法、音声符号化・復号化装置、音声符号化・復号化プログラム、及びこれを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003345608A JP2005114814A (ja) | 2003-10-03 | 2003-10-03 | 音声符号化・復号化方法、音声符号化・復号化装置、音声符号化・復号化プログラム、及びこれを記録した記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005114814A true JP2005114814A (ja) | 2005-04-28 |
Family
ID=34538826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003345608A Pending JP2005114814A (ja) | 2003-10-03 | 2003-10-03 | 音声符号化・復号化方法、音声符号化・復号化装置、音声符号化・復号化プログラム、及びこれを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005114814A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005176367A (ja) * | 2003-12-07 | 2005-06-30 | Lucent Technol Inc | フレーム集約方法 |
WO2009093466A1 (ja) | 2008-01-25 | 2009-07-30 | Panasonic Corporation | 符号化装置、復号装置およびこれらの方法 |
JP2010506207A (ja) * | 2006-10-06 | 2010-02-25 | エージェンシー フォー サイエンス,テクノロジー アンド リサーチ | エンコード方法、デコード方法、エンコーダ、デコーダ、及びコンピュータプログラム製品 |
CN109863556A (zh) * | 2016-08-23 | 2019-06-07 | 弗劳恩霍夫应用研究促进协会 | 用于使用补偿值来对音频信号进行编码的装置和方法 |
WO2022097240A1 (ja) * | 2020-11-05 | 2022-05-12 | 日本電信電話株式会社 | 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体 |
WO2022097242A1 (ja) * | 2020-11-05 | 2022-05-12 | 日本電信電話株式会社 | 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体 |
-
2003
- 2003-10-03 JP JP2003345608A patent/JP2005114814A/ja active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005176367A (ja) * | 2003-12-07 | 2005-06-30 | Lucent Technol Inc | フレーム集約方法 |
JP2010506207A (ja) * | 2006-10-06 | 2010-02-25 | エージェンシー フォー サイエンス,テクノロジー アンド リサーチ | エンコード方法、デコード方法、エンコーダ、デコーダ、及びコンピュータプログラム製品 |
WO2009093466A1 (ja) | 2008-01-25 | 2009-07-30 | Panasonic Corporation | 符号化装置、復号装置およびこれらの方法 |
US8422569B2 (en) | 2008-01-25 | 2013-04-16 | Panasonic Corporation | Encoding device, decoding device, and method thereof |
CN109863556A (zh) * | 2016-08-23 | 2019-06-07 | 弗劳恩霍夫应用研究促进协会 | 用于使用补偿值来对音频信号进行编码的装置和方法 |
CN109863556B (zh) * | 2016-08-23 | 2023-09-26 | 弗劳恩霍夫应用研究促进协会 | 用于使用补偿值来对音频信号进行编码的装置和方法 |
US11935549B2 (en) | 2016-08-23 | 2024-03-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for encoding an audio signal using an output interface for outputting a parameter calculated from a compensation value |
WO2022097240A1 (ja) * | 2020-11-05 | 2022-05-12 | 日本電信電話株式会社 | 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体 |
WO2022097242A1 (ja) * | 2020-11-05 | 2022-05-12 | 日本電信電話株式会社 | 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4777918B2 (ja) | 音声処理装置及び音声を処理する方法 | |
JP3881943B2 (ja) | 音響符号化装置及び音響符号化方法 | |
JP4977472B2 (ja) | スケーラブル復号化装置 | |
EP1939862B1 (en) | Encoding device, decoding device, and method thereof | |
US8738372B2 (en) | Spectrum coding apparatus and decoding apparatus that respectively encodes and decodes a spectrum including a first band and a second band | |
US8195471B2 (en) | Sampling rate conversion apparatus, coding apparatus, decoding apparatus and methods thereof | |
KR101303145B1 (ko) | 계층적 오디오 신호를 코딩하기 위한 시스템, 오디오 신호를 코딩하는 방법, 컴퓨터-판독가능한 매체 및 계층적 오디오 디코더 | |
US8428959B2 (en) | Audio packet loss concealment by transform interpolation | |
JP4864201B2 (ja) | 音声信号の量子化ノイズをマスクするためのシステムと方法 | |
JP5301471B2 (ja) | 音声符号化システム及び方法 | |
JP3881946B2 (ja) | 音響符号化装置及び音響符号化方法 | |
JP7297367B2 (ja) | 周波数帯域拡張方法、装置、電子デバイスおよびコンピュータプログラム | |
US7467082B2 (en) | Method and apparatus for transmitting wideband speech signals | |
WO2005027095A1 (ja) | 符号化装置および復号化装置 | |
Bhatt et al. | A novel approach for artificial bandwidth extension of speech signals by LPC technique over proposed GSM FR NB coder using high band feature extraction and various extension of excitation methods | |
JP2005114814A (ja) | 音声符号化・復号化方法、音声符号化・復号化装置、音声符号化・復号化プログラム、及びこれを記録した記録媒体 | |
JP2003110429A (ja) | 符号化方法及び装置、復号方法及び装置、伝送方法及び装置、並びに記録媒体 | |
JP2010020333A (ja) | スケーラブル符号化装置およびスケーラブル復号化装置 | |
JP6713424B2 (ja) | 音声復号装置、音声復号方法、プログラム、および記録媒体 | |
JP4004431B2 (ja) | パケット送出装置、及びこれらに用いる優先度に関する指標値の算出方法とそのプログラム | |
Patel et al. | Bandwidth Extension of Speech Signals Using Quadrature Mirror Filter (QMF) | |
JP3920796B2 (ja) | ディジタル信号パケット出力方法、その装置及びプログラム | |
JPH11194799A (ja) | 楽音符号化装置および楽音復号化装置および楽音符号化復号化装置およびプログラム記憶媒体 | |
Ghous et al. | Modified Digital Filtering Algorithm to Enhance Perceptual Evaluation of Speech Quality (PESQ) of VoIP |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060411 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060411 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090402 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090507 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090908 |