JPWO2008053970A1 - 音声符号化装置、音声復号化装置、およびこれらの方法 - Google Patents
音声符号化装置、音声復号化装置、およびこれらの方法 Download PDFInfo
- Publication number
- JPWO2008053970A1 JPWO2008053970A1 JP2008542181A JP2008542181A JPWO2008053970A1 JP WO2008053970 A1 JPWO2008053970 A1 JP WO2008053970A1 JP 2008542181 A JP2008542181 A JP 2008542181A JP 2008542181 A JP2008542181 A JP 2008542181A JP WO2008053970 A1 JPWO2008053970 A1 JP WO2008053970A1
- Authority
- JP
- Japan
- Prior art keywords
- layer
- frequency component
- unit
- audio signal
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims description 125
- 238000001228 spectrum Methods 0.000 claims abstract description 342
- 230000005236 sound signal Effects 0.000 claims abstract description 140
- 238000001914 filtration Methods 0.000 claims description 79
- 239000013598 vector Substances 0.000 claims description 69
- 238000012545 processing Methods 0.000 claims description 35
- 238000005070 sampling Methods 0.000 claims description 31
- 238000004458 analytical method Methods 0.000 claims description 20
- 230000006866 deterioration Effects 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 90
- 238000010586 diagram Methods 0.000 description 82
- 238000000926 separation method Methods 0.000 description 34
- 238000004364 calculation method Methods 0.000 description 24
- 238000006243 chemical reaction Methods 0.000 description 21
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 18
- 238000013139 quantization Methods 0.000 description 16
- 230000005540 biological transmission Effects 0.000 description 10
- 230000015556 catabolic process Effects 0.000 description 10
- 238000006731 degradation reaction Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000006854 communication Effects 0.000 description 8
- 238000010295 mobile communication Methods 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 6
- 230000010354 integration Effects 0.000 description 6
- 230000003111 delayed effect Effects 0.000 description 4
- 238000002955 isolation Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 230000007175 bidirectional communication Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003313 weakening effect Effects 0.000 description 2
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
スペクトルの低域成分を用いて高域成分を符号化する際に、低域部に成分が存在しない場合に復号信号の音質劣化を低減することができる音声符号化装置等を開示する。この装置において、周波数領域変換部101は、入力される音声信号から入力スペクトルを生成し、第1レイヤ符号化部102は、入力スペクトルの低域部を符号化して第1レイヤ符号化データを生成し、第1レイヤ復号化部103は、第1レイヤ符号化データを復号して第1レイヤ復号スペクトルを生成し、低域成分判定部104は、第1レイヤ復号化スペクトルの低域成分の有無を判定し、第2レイヤ符号化部105は、低域成分が存在する場合には入力スペクトルの高域成分を符号化して第2レイヤ符号化データを生成し、低域成分が存在しない場合には低域部に配置された所定の信号を用いて高域成分を符号化して第2レイヤ符号化データを生成する。
Description
本発明は、音声符号化装置、音声復号化装置、およびこれらの方法に関する。
移動体通信システムにおける電波資源等の有効利用のために、音声信号を低ビットレートで圧縮することが要求されている。その一方で、ユーザからは通話音声の品質向上や臨場感の高い通話サービスの実現が望まれている。この実現には、音声信号の高品質化のみならず、音声信号以外のより帯域が広いオーディオ信号等も高品質に符号化できることが望ましい。
このように相反する要求に対し、複数の符号化技術を階層的に統合するアプローチが有望視されている。具体的には、音声信号に適したモデルで入力信号を低ビットレートで符号化する第1レイヤと、入力信号と第1レイヤ復号信号との差分信号を音声以外の信号にも適したモデルで符号化する第2レイヤとを階層的に組み合わせる構成が検討されている。このような階層構造を持つ符号化方式は、符号化部から得られるビットストリームにスケーラビリティ性、すなわち、ビットストリームの一部を廃棄しても残りの情報から所定品質の復号信号が得られる性質を有するため、スケーラブル符号化と呼ばれる。スケーラブル符号化は、その特徴から、ビットレートの異なるネットワーク間の通信にも柔軟に対応できるため、IP(インターネットプロトコル)で多様なネットワークが統合されていく今後のネットワーク環境に適している。
従来のスケーラブル符号化技術として非特許文献1記載のものがある。非特許文献1では、MPEG−4(Moving Picture Experts Group phase-4)で規格化された技術を用いてスケーラブル符号化を構成している。具体的には、第1レイヤでは、音声信号に適したCELP(Code Excited Linear Prediction;符号励振線形予測)符号化を用い、第2レイヤにおいて、原信号から第1レイヤ復号信号を減じた残差信号に対し、AAC(Advanced Audio Coder)やTwinVQ(Transform Domain Weighted Interleave Vector Quantization;周波数領域重み付きインターリーブベクトル量子化)のような変換符号化を用いる。
また、変換符号化において、高能率にスペクトルの高域部を符号化する技術が非特許文献2に開示されている。非特許文献2では、スペクトルの低域部をピッチフィルタのフィルタ状態として利用し、スペクトルの高域部をピッチフィルタの出力信号を用いて表している。このように、ピッチフィルタのフィルタ情報を少ないビット数で符号化することにより低ビットレート化を図ることができる。
三木弼一編著、「MPEG−4の全て(初版)」(株)工業調査会、1998年9月30日、p.126−127 押切他、「ピッチフィルタリングによる帯域拡張技術を用いた7/10/15kHz帯域スケーラブル音声符号化方式」音講論集3−11−4、2004年3月、pp.327−328
三木弼一編著、「MPEG−4の全て(初版)」(株)工業調査会、1998年9月30日、p.126−127 押切他、「ピッチフィルタリングによる帯域拡張技術を用いた7/10/15kHz帯域スケーラブル音声符号化方式」音講論集3−11−4、2004年3月、pp.327−328
しかしながら、スペクトルの低域部を利用して高域部を高能率に符号化する方法では、高域部にのみ成分がある(低域部に成分が無い)信号が入力された場合、高域部の符号化に必要な低域部の成分が存在しないため、スペクトルの高域部を符号化することができないという問題がある。
図1は、スペクトルの低域部を利用して高域部を高能率に符号化する手法およびその問題点を説明するための図である。この図においては、横軸で周波数を表し、縦軸でエネルギーを表す。また、0≦k<FLの周波数帯域を低域、FL≦k<FHの周波数帯域を高域、0≦k<FHの周波数帯域を全帯域と呼ぶ(以下同様)。また、低域部の符号化を行う処理を第1符号化処理と呼び、スペクトルの低域部を利用して高域部を高能率に符号化する処理を第2符号化処理と呼ぶ(以下同様)。図1A〜図1Cは全帯域成分を含む音声信号が入力される場合、スペクトルの低域部を利用して高域部を高能率に符号化する手法を説明するための図である。図1D〜図1Fは、低域成分を含まず高域成分のみを含む音声信号が入力される場合、スペクトルの低域部を利用して高域部を高能率に符号化する手法の問題点を説明するための図である。
図1Aは、全帯域成分を含む音声信号のスペクトルを示す。この信号の低域成分を用いて第1符号化処理を行い得られる低域の復号信号のスペクトルは、図1Bに示すように0≦k<FLの周波数帯域に制限される。さらに、図1Bに示す復号信号を用いて第2符号化処理を行う場合、得られる全帯域の復号信号のスペクトルは図1Cに示すようになり、図1Aに示す元の音声信号のスペクトルに類似している。
一方、図1Dは、低域成分を含まず高域成分のみを含む音声信号のスペクトルを示す。ここでは、周波数X0(FL<X0<FH)の正弦波の場合を例にとって説明する。第1符号化処理として低域部の符号化が行われる場合、入力された音声信号の低域成分が存在せず、かつ低域の復号信号のスペクトルは0≦k<FLの周波数帯域に制限される。このため、低域の復号信号は図1Eのように何も含まず、全帯域においてスペクトルが失われることになる。次いで低域の復号信号を用いた第2符号化処理が行われる場合、得られる全帯域の復号信号のスペクトルは図1Fに示すようになり、低域部に成分が存在しないため高域成分を正しく符号化することはできない。
本発明の目的は、スペクトルの低域部を利用して高域部を高能率に符号化する場合において、音声信号の一部の区間において低域成分が存在しない場合でも、復号信号の音質劣化を低減することができる音声符号化装置等を提供することである。
本発明の音声符号化装置は、入力した音声信号の基準周波数より低い帯域である低域部の成分を符号化して第1レイヤ符号化データを得る第1レイヤ符号化手段と、前記音声信号の低域部の成分の有無を判定する判定手段と、前記音声信号に低域部の成分が存在する場合には、前記音声信号の低域部の成分を用い前記音声信号の基準周波数以上の帯域である高域部の成分を符号化して第2レイヤ符号化データを得、前記音声信号に低域部の成分が存在しない場合には、前記音声信号の低域部に配置された所定の信号を用いて前記音声信号の高域部の成分を符号化して第2レイヤ符号化データを得る第2レイヤ符号化手段と、を具備する構成を採る。
本発明によれば、スペクトルの低域部を利用して高域部を高能率に符号化する場合において、音声信号に低域部の成分が存在しない場合には音声信号の低域部に配置された所定の信号を用いて音声信号の高域部の成分を符号化することにより、音声信号の一部の区間において低域成分が存在しない場合でも復号信号の音質劣化を低減することができる。
まず、図2を用いて本発明の原理について説明する。ここでは、図1Dの場合と同様に、周波数X0(FL<X0<FH)の正弦波が入力される場合を例にとって説明する。
まず、符号化側において第1符号化処理として、図2Aに示すような周波数X0(FL<X0<FH)の正弦波のみを含む入力信号の低域部を符号化する。第1符号化処理により得られる復号信号は図2Bに示すようになる。本発明においては、図2Bに示す復号信号の低域成分の有無を判定し、低域成分が存在しない(または非常に小さい)と判定された場合には、図2Cに示すように復号信号の低域部に所定の信号を配置する。所定の信号としては、乱数信号を用いても良く、ピーク性の強い成分を用いることにより正弦波をより正確に符号化することも可能である。次いで、図2Dに示すように第2符号化処理として、復号信号の低域部を利用して高域部のスペクトルを推定し、入力信号の高域部のゲイン符号化を行う。次いで復号化側は、符号化側から伝送された推定情報を用いて高域部を復号し、さらにゲイン符号化情報を用いて復号された高域部のゲイン調整を行い、図2Eに示すような復号スペクトルを得る。次いで、低域成分の有無判定に関する符号化情報に基づき、ゼロ値を入力信号の低域部に代入し、図2Fに示すような復号スペクトルを得る。
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
(実施の形態1)
図3は、本発明の実施の形態1に係る音声符号化装置100の主要な構成を示すブロック図である。なお、ここでは、第1レイヤおよび第2レイヤ共に、周波数領域で符号化を行う構成を例にとって説明する。
図3は、本発明の実施の形態1に係る音声符号化装置100の主要な構成を示すブロック図である。なお、ここでは、第1レイヤおよび第2レイヤ共に、周波数領域で符号化を行う構成を例にとって説明する。
音声符号化装置100は、周波数領域変換部101、第1レイヤ符号化部102、第1レイヤ復号化部103、低域成分判定部104、第2レイヤ符号化部105、および多重化部106を備える。なお、第1レイヤおよび第2レイヤ共に、周波数領域における符号化を行う。
周波数領域変換部101は、入力信号の周波数分析を行い、変換係数の形式で入力信号のスペクトル(入力スペクトル)S1(k)(0≦k<FH)を求める。ここで、FHは入力スペクトルの最大周波数を示す。具体的には、周波数領域変換部101は、例えば、MDCT(Modified Discrete Cosine Transform;変形離散コサイン変換)を用いて時間領域信号を周波数領域信号へ変換する。入力スペクトルは第1レイヤ符号化部102および第2レイヤ符号化部105に出力される。
第1レイヤ符号化部102は、TwinVQやAAC等を用いて入力スペクトルの低域部0≦k<FL(ただ、FL<FH)の符号化を行い、得られる第1レイヤ符号化データを、第1レイヤ復号化部103および多重化部106に出力する。
第1レイヤ復号化部103は、第1レイヤ符号化データを用いて第1レイヤ復号を行って第1レイヤ復号スペクトルS2(k)(0≦k<FL)を生成し、第2レイヤ符号化部105及び低域成分判定部104に出力する。なお、第1レイヤ復号化部103は、時間領域に変換される前の第1レイヤ復号スペクトルを出力する。
低域成分判定部104は、第1レイヤ復号スペクトルS2(k)(0≦k<FL)に低域(0≦k<FL)成分が存在するか否かを判定し、判定結果を第2レイヤ符号化部105に出力する。ここで、低域成分が存在すると判定される場合、判定結果は「1」となり、低域成分が存在しないと判定される場合、判定結果は「0」となる。判定の方法としては、低域成分のエネルギーと所定の閾値とを比較し、低域成分エネルギーが閾値以上である場合に低域成分が存在すると判定し、閾値より低い場合には低域成分が存在しないと判定する。
第2レイヤ符号化部105は、第1レイヤ復号化部103から入力される第1レイヤ復号スペクトルを用いて、周波数領域変換部101から出力される入力スペクトルS1(k)(0≦k<FH)の高域部FL≦k<FHの符号化を行い、この符号化にて得られる第2レイヤ符号化データを多重化部106に出力する。具体的には、第2レイヤ符号化部105は、第1レイヤ復号スペクトルをピッチフィルタのフィルタ状態として用い、ピッチフィルタリング処理により入力スペクトルの高域部を推定する。また、第2レイヤ符号化部105は、ピッチフィルタのフィルタ情報を符号化する。第2レイヤ符号化部105の詳細については後述する。
多重化部106は、第1レイヤ符号化データおよび第2レイヤ符号化データを多重化し、符号化データとして出力する。この符号化データは、音声符号化装置100を搭載する無線送信装置の送信処理部など(図示せず)を介してビットストリームに重畳され、無線受信装置に伝送される。
図4は、上記の第2レイヤ符号化部105の内部の主要な構成を示すブロック図である。第2レイヤ符号化部105は、信号生成部111、スイッチ112、フィルタ状態設定部113、ピッチ係数設定部114、ピッチフィルタリング部115、探索部116、ゲイン符号化部117、および多重化部118を備え、各部は以下の動作を行う。
信号生成部111は、低域成分判定部104から入力される判定結果が「0」である場合に、乱数信号、または乱数をクリッピングした信号、または予め学習により設計された所定の信号を生成し、スイッチ112に出力する。
スイッチ112は、低域成分判定部104から入力される判定結果が「0」である場合は信号生成部111から入力される所定の信号をフィルタ状態設定部113に出力し、判定結果が「1」である場合は第1レイヤ復号スペクトルS2(k)(0≦k<FL)をフィルタ状態設定部113に出力する。
フィルタ状態設定部113は、スイッチ112から入力される所定の信号、または第1レイヤ復号スペクトルS2(k)(0≦k<FL)をピッチフィルタリング部115で用いられるフィルタ状態として設定する。
ピッチ係数設定部114は、探索部116の制御の下、ピッチ係数Tを予め定められた探索範囲Tmin〜Tmaxの中で少しずつ変化させながら、ピッチフィルタリング部115に順次出力する。
ピッチフィルタリング部115は、ピッチフィルタを備え、フィルタ状態設定部113により設定されたフィルタ状態と、ピッチ係数設定部114から入力されるピッチ係数Tとに基づいて、第1レイヤ復号スペクトルS2(k)(0≦k<FL)に対しフィルタリングを行う。ピッチフィルタリング部115は、これにより入力スペクトルの高域部に対する推定スペクトルS1’(k)(FL≦k<FH)を算出する。
具体的には、ピッチフィルタリング部115は以下のフィルタリング処理を行う。
ピッチフィルタリング部115は、ピッチ係数設定部114から入力されるピッチ係数Tを用いて、帯域FL≦k<FHのスペクトルを生成する。ここで、全周波数帯域0≦k<FHのスペクトルを便宜的にS(k)と呼び、フィルタ関数は下記の式(1)で表されるものを使用する。
この式において、Tはピッチ係数設定部114から与えられるピッチ係数、βiはフィルタ係数を表している。またM=1とする。
S(k)(0≦k<FH)の低域部0≦k<FLには、第1レイヤ復号スペクトルS2(k)(0≦k<FL)がフィルタの内部状態(フィルタ状態)として格納される。
S(k)(0≦k<FH)の高域部FL≦k<FHには、下記の式(2)に示すフィルタリング処理により、入力スペクトルS1(k)(0≦k<FH)の高域部に対する推定スペクトルS1'(k)(FL≦k<FH)が格納される。
すなわち、S1'(k)には、基本的に、このkよりTだけ低い周波数のスペクトルS(k−T)が代入される。但し、スペクトルの円滑性を増すために、実際には、スペクトルS(k−T)からiだけ離れた近傍のスペクトルS(k−T+i)に所定のフィルタ係数βiを乗じて得られるスペクトルβi・S(k−T+i)を、全てのiについて加算し、加算結果となるスペクトルをS1'(k)に代入する。
上記演算を、周波数の低いk=FLから順に、kをFL≦k<FHの範囲で変化させて行うことにより、FL≦k<FHにおける入力スペクトルの高域部に対する推定スペクトルS1'(k)(FL≦k<FH)を算出する。
以上のフィルタリング処理は、ピッチ係数設定部114からピッチ係数Tが与えられる度に、FL≦k<FHの範囲において、その都度S(k)をゼロクリアして行われる。すなわち、ピッチ係数Tが変化するたびにS(k)(FL≦k<FH)が算出され、探索部116に出力される。
探索部116は、周波数領域変換部101から入力される入力スペクトルS1(k)(0≦k<FH)の高域部FL≦k<FHと、ピッチフィルタリング部115から入力される推定スペクトルS1'(k)(FL≦k<FH)との類似度を算出する。この類似度の算出は、例えば、相関演算などにより行われる。ピッチ係数設定部114−ピッチフィルタリング部115−探索部116の処理は閉ループとなっており、探索部116は、ピッチ係数設定部114が出力するピッチ係数Tを種々に変化させることにより、各ピッチ係数に対応する類似度を算出する。そして、算出される類似度が最大となるピッチ係数、すなわち最適なピッチ係数T’(但しTmin〜Tmaxの範囲)を多重化部118に出力する。また、探索部116は、このピッチ係数T’に対応する推定スペクトルS1'(k)(FL≦k<FH)をゲイン符号化部117に出力する。
ゲイン符号化部117は、周波数領域変換部101から入力される入力スペクトルS1(k)(0≦k<FH)の高域部FL≦k<FHに基づいて、入力スペクトルS1(k)のゲイン情報を算出する。具体的には、周波数帯域FL≦k<FHをJ個のサブバンドに分割し、サブバンド毎のスペクトル振幅情報を用いてゲイン情報を表す。このとき、第jサブバンドのゲイン情報B(j)は下記の式(3)で表される。
この式において、BL(j)は第jサブバンドの最小周波数、BH(j)は第jサブバンドの最大周波数を表す。このようにして求めた入力スペクトルの高域部のサブバンド毎のスペクトル振幅情報を入力スペクトルの高域部のゲイン情報とみなす。
ゲイン符号化部117は、入力スペクトルS1(k)(0≦k<FH)の高域部FL≦k<FHのゲイン情報を符号化するためのゲイン符号帳を有する。ゲイン符号帳には要素数がJの複数のゲインベクトルが記録されており、ゲイン符号化部117は、式(3)を用いて求めたゲイン情報に最も類似するゲインベクトルを探索し、このゲインベクトルに対応するインデックスを多重化部118に出力する。
多重化部118は、探索部116から入力される最適なピッチ係数T’と、ゲイン符号化部117から入力されるゲインベクトルのインデックスとを多重化し、第2レイヤ符号化データとして多重化部106に出力する。
図5は、本実施の形態に係る音声復号化装置150の主要な構成を示すブロック図である。この音声復号化装置150は、図3に示した音声符号化装置100で生成された符号化データを復号するものである。各部は以下の動作を行う。
分離部151は、無線送信装置から伝送されるビットストリームに重畳された符号化データを、第1レイヤ符号化データおよび第2レイヤ符号化データに分離する。そして、分離部151は、第1レイヤ符号化データを第1レイヤ復号化部152に、第2レイヤ符号化データを第2レイヤ復号化部154に出力する。また、分離部151は、上記ビットストリームから、どのレイヤの符号化データが含まれているかを表すレイヤ情報を分離し、判定部155に出力する。
第1レイヤ復号化部152は、分離部151から入力される第1レイヤ符号化データに対して復号処理を行って第1レイヤ復号スペクトルS2(k)(0≦k<FL)を生成し、低域成分判定部153、第2レイヤ復号化部154、および判定部155に出力する。
低域成分判定部153は、第1レイヤ復号化部152から入力される第1レイヤ復号スペクトルS2(k)(0≦k<FL)に低域(0≦k<FL)成分が存在するか否かを判定し、判定結果を第2レイヤ復号化部154に出力する。ここで、低域成分が存在すると判定される場合、判定結果は「1」となり、低域成分が存在しないと判定される場合、判定結果は「0」となる。判定の方法としては、低域成分のエネルギーと所定の閾値とを比較し、低域成分エネルギーが閾値以上である場合に低域成分が存在すると判定し、閾値より低い場合には低域成分が存在しないと判定する。
第2レイヤ復号化部154は、分離部151から入力される第2レイヤ符号化データ、低域成分判定部153から入力される判定結果、および第1レイヤ復号化部152から入力される第1レイヤ復号スペクトルS2(k)を用いて、第2レイヤ復号スペクトルを生成し、判定部155に出力する。なお、第2レイヤ復号化部154の詳細については後述する。
判定部155は、分離部151から出力されるレイヤ情報に基づき、ビットストリームに重畳された符号化データに第2レイヤ符号化データが含まれているか否か判定する。ここで、音声符号化装置100を搭載する無線送信装置は、ビットストリームに第1レイヤ符号化データおよび第2レイヤ符号化データの双方を含めて送信するが、通信経路の途中において第2レイヤ符号化データが廃棄される場合がある。そこで、判定部155は、レイヤ情報に基づき、ビットストリームに第2レイヤ符号化データが含まれているか否かを判定する。そして、判定部155は、ビットストリームに第2レイヤ符号化データが含まれていない場合には、第2レイヤ復号化部154によって第2レイヤ復号スペクトルが生成されないため、第1レイヤ復号スペクトルを時間領域変換部156に出力する。但し、かかる場合には、第2レイヤ符号化データが含まれている場合の復号スペクトルと次数を一致させるために、判定部155は、第1レイヤ復号スペクトルの次数をFHまで拡張し、FL〜FHの帯域のスペクトルを0として出力する。一方、ビットストリームに第1レイヤ符号化データおよび第2レイヤ符号化データの双方が含まれている場合には、判定部155は、第2レイヤ復号スペクトルを時間領域変換部156に出力する。
時間領域変換部156は、判定部155から出力される第1レイヤ復号スペクトルおよび第2レイヤ復号スペクトルを時間領域信号に変換して復号信号を生成し、出力する。
図6は、上記の第2レイヤ復号化部154の内部の主要な構成を示すブロック図である。
分離部161は、分離部151から出力される第2レイヤ符号化データを、フィルタリングに関する情報である最適なピッチ係数T’と、ゲインに関する情報であるゲインベクトルのインデックスとに分離する。そして、分離部161は、フィルタリングに関する情報をピッチフィルタリング部165に出力し、ゲインに関する情報をゲイン復号化部166に出力する。
信号生成部162は、音声符号化装置100内部の信号生成部111に対応する構成である。信号生成部162は、低域成分判定部153から入力される判定結果が「0」である場合には、乱数信号、または乱数をクリッピングした信号、または予め学習により設計された所定の信号を生成し、スイッチ163に出力する。
スイッチ163は、低域成分判定部153から入力される判定結果が「1」である場合には、第1レイヤ復号化部152から入力される第1レイヤ復号スペクトルS2(k)(0≦k<FL)をフィルタ状態設定部164に出力し、判定結果が「0」である場合には、信号生成部162から入力される所定の信号をフィルタ状態設定部164に出力する。
フィルタ状態設定部164は、音声符号化装置100内部のフィルタ状態設定部113に対応する構成である。フィルタ状態設定部164は、スイッチ163から入力される所定の信号、または第1レイヤ復号スペクトルS2(k)(0≦k<FL)をピッチフィルタリング部165で用いられるフィルタ状態として設定する。ここで、全周波数帯域0≦k<FHのスペクトルを便宜的にS(k)と呼び、S(k)の0≦k<FLの帯域には、第1レイヤ復号スペクトルS2(k)(0≦k<FL)がフィルタの内部状態(フィルタ状態)として格納される。
ピッチフィルタリング部165は、音声符号化装置100内部のピッチフィルタリング部115に対応する構成である。ピッチフィルタリング部165は、分離部161から出力されるピッチ係数T’と、フィルタ状態設定部164で設定されたフィルタ状態とに基づき、第1レイヤ復号スペクトルS2(k)に対し上記の式(2)に示すフィルタリングを行う。ピッチフィルタリング部165は、これにより入力スペクトルS1(k)(0≦k<FH)の広帯域に対する推定スペクトルS1'(k)(FL≦k<FH)を算出する。ピッチフィルタリング部165でも、上記式(1)に示したフィルタ関数が用いられ、算出された推定スペクトルS1'(k)(FL≦k<FH)を含む全帯域スペクトルS(k)をスペクトル調整部168に出力する。
ゲイン復号化部166は、音声符号化装置100のゲイン符号化部117が備えるゲイン符号帳と同様のゲイン符号帳を備えており、分離部161から入力されるゲインベクトルのインデックスを復号し、さらにゲイン情報B(j)の量子化値である復号ゲイン情報Bq(j)を求める。具体的には、ゲイン復号化部166は、分離部161から入力されるゲインベクトルのインデックスに対応するゲインベクトルを内蔵のゲイン符号帳の中から選択し復号ゲイン情報Bq(j)として、スペクトル調整部168に出力する。
スイッチ167は、低域成分判定部153から入力される判定結果が「1」である場合のみ、第1レイヤ復号化部152から入力される第1レイヤ復号スペクトルS2(k)(0≦k<FL)をスペクトル調整部168に出力する。
スペクトル調整部168は、ピッチフィルタリング部165から入力される推定スペクトルS1'(k)(FL≦k<FH)に、ゲイン復号化部166から入力されるサブバンド毎の復号ゲイン情報Bq(j)を、下記の式(4)に従って乗じる。スペクトル調整部168は、これにより推定スペクトルS1'(k)の周波数帯域FL≦k<FHにおけるスペクトル形状を調整し、復号スペクトルS(k)(FL≦k<FH)を生成する。スペクトル調整部168は、生成される復号スペクトルS(k)を判定部155に出力する。
このように復号スペクトルS(k)(0≦k<FH)の高域部FL≦k<FHは調整後の推定スペクトルS1'(k)(FL≦k<FH)から成る。ただし、音声符号化装置100内部のピッチフィルタリング部115の動作で説明したように、低域成分判定部153から第2レイヤ復号化部154に入力される判定結果が「0」である場合には、復号スペクトルS(k)(0≦k<FH)の低域部0≦k<FLは、第1復号レイヤスペクトルS2(k)(0≦k<FL)から構成されるのではなく、信号生成部162において生成された所定の信号から構成される。この所定の信号はフィルタ状態設定部164−ピッチフィルタリング部165−ゲイン復号化部166における高域成分の復号処理には必要であるが、そのまま復号信号に含まれて出力されると、雑音となり復号信号の音質劣化が生じる。従って、低域成分判定部153から第2レイヤ復号化部154に入力される判定結果が「0」である場合には、スペクトル調整部168は、第1レイヤ復号化部152から入力される第1復号レイヤスペクトルS2(k)(0≦k<FL)を全帯域スペクトルS(k)(0≦k<FH)の低域部に代入する。本実施の形態では判定結果に基づき、判定結果が「入力信号に低域成分が存在しない」ことを示す場合に、第1レイヤ復号スペクトルS2(k)を復号スペクトルS(k)の低域部0≦k<FLに代入する。
こうして音声復号化装置150は、音声符号化装置100で生成された符号化データを復号することができる。
このように、本実施の形態によれば、第1レイヤ符号化部により生成される第1レイヤ復号信号(または第1レイヤ復号スペクトル)の低域成分の有無を判定し、低域成分が存在しない場合には低域部に所定の成分を配置し、第2レイヤ符号化部にて低域部に配置された所定の信号を用いて高域成分の推定およびゲイン調整を行う。これにより、スペクトルの低域部を利用して高域部を高能率に符号化することができるので、音声信号の一部の区間において低域成分が存在しない場合でも、復号信号の音質劣化を低減することができる。
また、本実施の形態によれば第2符号化処理の構成を大きく変更せず本発明の課題を解決するため、本発明を実現するハードウェア(もしくはソフトウェア)の規模を所定のレベルに制限することができる。
なお、本実施の形態では、低域成分判定部104および低域成分判定部153での判定の方法として、低域成分のエネルギーを所定の閾値と比較する場合を例にとって説明したが、この閾値を時間的に変化させて用いても良い。例えば、公知の有音/無音判定技術と組み合わせて、無音と判定された場合にそのときの低域成分エネルギーを用いて閾値を更新する。これにより、信頼性の高い閾値が算出されるようになり、より正確の低域成分の有無の判定を行うことができる。
本実施の形態では、スペクトル調整部168は、第1復号レイヤスペクトルS2(k)(0≦k<FL)を全帯域スペクトルS(k)(0≦k<FH)の低域部に代入する場合を例にとって説明したが、第1復号レイヤスペクトルS2(k)(0≦k<FL)の代わりにゼロ値を代入しても良い。
また、本実施の形態は、以下に示すような構成も採り得る。図7は、音声符号化装置100の別の構成100aを示すブロック図である。また、図8は、対応する音声復号化装置150aの主要な構成を示すブロック図である。音声符号化装置100および音声復号化装置150と同様の構成については同一の符号を付し、基本的に、詳細な説明は省略する。
図7において、ダウンサンプリング部121は、時間領域の入力音声信号をダウンサンプリングして、所望のサンプリングレートに変換する。第1レイヤ符号化部102は、ダウンサンプリング後の時間領域信号に対し、CELP符号化を用いて符号化を行い、第1レイヤ符号化データを生成する。第1レイヤ復号化部103は、第1レイヤ符号化データを復号して第1レイヤ復号信号を生成する。周波数領域変換部122は、第1レイヤ復号信号の周波数分析を行って第1レイヤ復号スペクトルを生成する。低域成分判定部104は、第1レイヤ復号スペクトルに低域成分が存在するか否かを判定し、判定結果を出力する。遅延部123は、入力音声信号に対し、ダウンサンプリング部121−第1レイヤ符号化部102−第1レイヤ復号化部103で生じる遅延に相当する遅延を与える。周波数領域変換部124は、遅延後の入力音声信号の周波数分析を行って入力スペクトルを生成する。第2レイヤ符号化部105は、判定結果、第1レイヤ復号スペクトル、および入力スペクトルを用いて第2レイヤ符号化データを生成する。多重化部106は、第1レイヤ符号化データおよび第2レイヤ符号化データを多重化し、符号化データとして出力する。
また、図8において、第1レイヤ復号化部152は、分離部151から出力される第1レイヤ符号化データを復号して第1レイヤ復号信号を得る。アップサンプリング部171は、第1レイヤ復号信号のサンプリングレートを入力信号と同じサンプリングレートに変換する。周波数領域変換部172は、第1レイヤ復号信号を周波数分析して第1レイヤ復号スペクトルを生成する。低域成分判定部153は、第1レイヤ復号スペクトルに低域成分が存在するか否かを判定し、判定結果を出力する。第2レイヤ復号化部154は、判定結果および第1レイヤ復号スペクトルを用いて、分離部151から出力される第2レイヤ符号化データを復号し第2レイヤ復号スペクトルを得る。時間領域変換部173は、第2レイヤ復号スペクトルを時間領域信号に変換し、第2レイヤ復号信号を得る。判定部155は、分離部151から出力されるレイヤ情報に基づき、第1レイヤ復号信号を、または第1レイヤ復号信号および第2レイヤ復号信号の両方を出力する。
このように、上記バリエーションでは、第1レイヤ符号化部102が時間領域で符号化処理を行う。第1レイヤ符号化部102では、音声信号を低ビットレートで高品質に符号化できるCELP符号化が用いられる。よって、第1レイヤ符号化部102でCELP符号化が使用されるため、スケーラブル符号化装置全体のビットレートを小さくすることが可能となり、かつ高品質化も実現できる。また、CELP符号化は、変換符号化に比べて原理遅延(アルゴリズム遅延)を短くすることができるため、スケーラブル符号化装置全体の原理遅延も短くなり、双方向通信に適した音声符号化処理および音声復号化処理を実現することができる。
(実施の形態2)
本発明の実施の形態2では、第1レイヤ復号信号の低域成分の有無の判定結果に応じて、第2レイヤ符号化に用いられるゲイン符号帳を切り替える点において本発明の実施の形態1と相違する。この相違点を示すため、本実施の形態に係るゲイン符号帳を切り替えて用いる第2レイヤ符号化部205に、実施の形態1に示した第2レイヤ符号化部105と異なる符号を付す。
本発明の実施の形態2では、第1レイヤ復号信号の低域成分の有無の判定結果に応じて、第2レイヤ符号化に用いられるゲイン符号帳を切り替える点において本発明の実施の形態1と相違する。この相違点を示すため、本実施の形態に係るゲイン符号帳を切り替えて用いる第2レイヤ符号化部205に、実施の形態1に示した第2レイヤ符号化部105と異なる符号を付す。
図9は、第2レイヤ符号化部205の主要な構成を示すブロック図である。第2レイヤ符号化部205は、実施の形態1に示した第2レイヤ符号化部105(図4参照)と同一の構成要素には同一の符号を付し、その説明を省略する。
第2レイヤ符号化部205において、ゲイン符号化部217は、低域成分判定部104から判定結果がさらに入力される点において、実施の形態1に示した第2レイヤ符号化部105のゲイン符号化部117と相違し、それを示すために異なる符号を付す。
図10は、ゲイン符号化部217の内部の主要な構成を示すブロック図である。
第1ゲイン符号帳271は、音声信号などの学習データを用いて設計されたゲイン符号帳であり、通常の入力信号に適した複数のゲインベクトルから構成される。第1ゲイン符号帳271は、探索部276から入力されるインデックスに対応するゲインベクトルをスイッチ273に出力する。
第2ゲイン符号帳272は、ある一つの要素または限定された数の複数の要素が、他の要素に比べて明らかに大きな値をとるようなベクトルを複数備えるゲイン符号帳である。ここでは、例えば、ある一つの要素または限定された数の複数の要素と他の要素それぞれとの差を所定の閾値と比較し、所定の閾値より大きい場合には、他の要素より明らかに大きいと見なすことができる。第2ゲイン符号帳272は、探索部276から入力されるインデックスに対応するゲインベクトルをスイッチ273に出力する。
図11は、第2ゲイン符号帳272に含まれるゲインベクトルを例示する図である。この図においては、ベクトル次元J=8の場合を示している。この図に示すように、ベクトルのある一つの要素は他の要素より明らかに大きな値をとる。このような第2ゲイン符号帳272を用いることにより、高域成分に正弦波(線スペクトル)または限定された数の複数の正弦波より成る波形が入力される場合に、その正弦波が含まれるサブバンドのゲインが大きく、他のサブバンドのゲインが小さいゲインベクトルを選択することができる。従って、音声符号化装置に入力される正弦波をより正確に符号化することができる。
再び、図10に戻って、スイッチ273は、低域成分判定部104から入力される判定結果が「1」である場合には、第1ゲイン符号帳271から入力されるゲインベクトルを誤差算出部275に出力し、判定結果が「0」である場合には、第2ゲイン符号帳272から入力されるゲインベクトルを誤差算出部275に出力する。
ゲイン算出部274は、周波数領域変換部101から出力される入力スペクトルS1(k)(0≦k<FH)の高域部FL≦k<FHに基づき、入力スペクトルS1(k)のゲイン情報B(j)を上記の式(3)に従って算出する。ゲイン算出部274は、算出されたゲイン情報B(j)を誤差算出部275に出力する。
誤差算出部275は、ゲイン算出部274から入力されるゲイン情報B(j)と、スイッチ273から入力されるゲインベクトルとの誤差E(i)を下記の式(5)に従い算出する。ここで、G(i,j)はスイッチ273から入力されるゲインベクトルを表し、インデックス「i」は、ゲインベクトルG(i,j)が第1ゲイン符号帳271または第2ゲイン符号帳272の何番目であるかを表す。
誤差算出部275は、算出された誤差E(i)を探索部276に出力する。
探索部276は、ゲインベクトルを示すインデックスを順次に変えながら第1ゲイン符号帳271または第2ゲイン符号帳272に出力する。また、第1ゲイン符号帳271、第2ゲイン符号帳272、スイッチ273、誤差算出部275、探索部276の処理は閉ループとなっており、探索部276は、誤差算出部275から入力される誤差E(i)が最小となるゲインベクトルを決定する。探索部276は、決定されたゲインベクトルを示すインデックスを多重化部118に出力する。
図12は、本実施の形態に係る音声復号化装置が備える第2レイヤ復号化部254の内部の主要な構成を示すブロック図である。第2レイヤ復号化部254は、実施の形態1に示した第2レイヤ復号化部154(図6参照)と同一の構成要素には同一の符号を付し、その説明を省略する。
第2レイヤ復号化部254において、ゲイン復号化部266は、低域成分判定部153から判定結果がさらに入力される点において、実施の形態1に示した第2レイヤ復号化部154のゲイン復号化部166と相違し、それを示すために異なる符号を付す。
図13は、ゲイン復号化部266の内部の主要な構成を示すブロック図である。
スイッチ281は、低域成分判定部153から入力される判定結果が「1」である場合には、分離部161から入力されるゲインベクトルのインデックスを第1ゲイン符号帳282に出力し、判定結果が「0」である場合には、分離部161から入力されるゲインベクトルのインデックスを第2ゲイン符号帳283に出力する。
第1ゲイン符号帳282は、本実施の形態に係るゲイン符号化部217が備える第1ゲイン符号帳271と同様なゲイン符号帳であり、スイッチ281から入力されるインデックスに対応するゲインベクトルをスイッチ284に出力する。
第2ゲイン符号帳283は、本実施の形態に係るゲイン符号化部217が備える第2ゲイン符号帳272と同様なゲイン符号帳であり、スイッチ281から入力されるインデックスに対応するゲインベクトルをスイッチ284に出力する。
スイッチ284は、低域成分判定部153から入力される判定結果が「1」である場合には、第1ゲイン符号帳282から入力されるゲインベクトルをスペクトル調整部168に出力し、判定結果が「0」である場合には、第2ゲイン符号帳283から入力されるゲインベクトルをスペクトル調整部168に出力する。
このように、本実施の形態によれば、第2レイヤ符号化に用いるゲイン符号帳を複数備え、第1レイヤ復号信号の低域成分の有無の判定結果に応じて用いるゲイン符号帳を切り替える。低域成分を含まず高域成分のみを含むような入力信号に対して、通常の音声信号に適したゲイン符号帳とは異なるゲイン符号帳を用いて符号化することにより、スペクトルの低域部を利用して高域部を高能率に符号化することができる。従って、音声信号の一部の区間において低域成分が存在しない場合、復号信号の音質劣化をさらに低減することができる。
(実施の形態3)
図14は、本発明の実施の形態3に係る音声符号化装置300の主要な構成を示すブロック図である。音声符号化装置300は、実施の形態1に示した音声符号化装置100の別の構成100a(図7参照)と同一の構成要素には同一の符号を付し、その説明を省略する。
図14は、本発明の実施の形態3に係る音声符号化装置300の主要な構成を示すブロック図である。音声符号化装置300は、実施の形態1に示した音声符号化装置100の別の構成100a(図7参照)と同一の構成要素には同一の符号を付し、その説明を省略する。
音声符号化装置300は、LPC(Linear Prediction Coefficient)分析部301、LPC係数量子化部302、およびLPC係数復号化部303をさらに有する点において、音声符号化装置100aと相違する。なお、音声符号化装置300の低域成分判定部304と、音声符号化装置100aの低域成分判定部104とは処理の一部に相違点があり、それを示すために異なる符号を付す。
LPC分析部301は、遅延部123から入力される遅延後の入力信号に対して、LPC分析を行い、得られるLPC係数をLPC係数量子化部302に出力する。以下、LPC分析部301で得られたこのLPC係数を全帯域LPC係数と呼ぶ。
LPC係数量子化部302は、LPC分析部301から入力される全帯域LPC係数を量子化に適したパラメータ、例えばLSP(Line Spectral Pair)、LSF(Line Spectral Frequencies)などに変換し、変換により得られたパラメータを量子化する。LPC係数量子化部302は、量子化により得られる全帯域LPC係数符号化データを多重化部106に出力するとともに、LPC係数復号化部303に出力する。
LPC係数復号化部303は、LPC係数量子化部302から入力される全帯域LPC係数符号化データを用いてLSPまたはLSFなどのパラメータを復号し、復号されたLSPまたはLSFなどのパラメータをLPC係数に変換して復号全帯域LPC係数を求める。LPC係数復号化部303は、求められた復号全帯域LPC係数を低域成分判定部304に出力する。
低域成分判定部304は、LPC係数復号化部303から入力される復号全帯域LPC係数を用いてスペクトル包絡を算出し、算出されたスペクトル包絡の低域部と高域部とのエネルギー比を求める。低域成分判定部304は、スペクトル包絡の低域部と高域部とのエネルギー比が所定の閾値以上である場合には、低域成分が存在するという判定結果として「1」を第2レイヤ符号化部105に出力し、スペクトル包絡の低域部と高域部とのエネルギー比が所定の閾値より小さい場合には、低域成分が存在しないという判定結果として「0」を第2レイヤ符号化部105に出力する。
図15は、本実施の形態に係る音声復号化装置350の主要な構成を示すブロック図である。なお、音声復号化装置350は、実施の形態1に示した音声復号化装置150の別の構成150a(図8参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
音声復号化装置350は、LPC係数復号化部352をさらに具備する点において、音声復号化装置150aと相違する。なお、音声復号化装置350の分離部351および低域成分判定部353は、音声復号化装置150aの分離部151および低域成分判定部153と処理の一部に相違点があり、それを示すために異なる符号を付す。
分離部351は、無線送信装置から伝送されたビットストリームに重畳された符号化データから全帯域LPC係数符号化データをさらに分離し、LPC係数復号化部352に出力する点において、音声復号化装置150aの分離部151と相違する。
LPC係数復号化部352は、分離部351から入力される全帯域LPC係数符号化データを用いてLSPまたはLSFなどのパラメータを復号し、復号されたLSPまたはLSFなどのパラメータをLPC係数に変換して復号全帯域LPC係数を求める。LPC係数復号化部352は、求められた復号全帯域LPC係数を低域成分判定部353に出力する。
低域成分判定部353は、LPC係数復号化部352から入力される復号全帯域LPC係数を用いてスペクトル包絡を算出し、算出されたスペクトル包絡の低域部と高域部のエネルギー比を求める。低域成分判定部353は、スペクトル包絡の低域部と高域部とのエネルギー比が所定の閾値以上である場合には、低域成分が存在するという判定結果として「1」を第2レイヤ復号化部154に出力し、スペクトル包絡の低域部と高域部とのエネルギー比が所定の閾値より小さい場合には、低域成分が存在しないという判定結果として「0」を第2レイヤ復号化部154に出力する。
このように、本実施の形態によれば、LPC係数を元にスペクトル包絡を求め、このスペクトル包絡の低域部と高域部とのエネルギー比を用いて低域成分の有無を判定するため、信号の絶対エネルギーに依存しない判定を行うことができる。また、スペクトルの低域部を利用して高域部を高能率に符号化する場合において、音声信号の一部の区間において低域成分が存在しない場合、復号信号の音質劣化をさらに低減することができる。
(実施の形態4)
図16は、本発明の実施の形態4に係る音声符号化装置400の主要な構成を示すブロック図である。音声符号化装置400は、実施の形態3に示した音声符号化装置300(図14参照)と同一の構成要素には同一の符号を付し、その説明を省略する。
図16は、本発明の実施の形態4に係る音声符号化装置400の主要な構成を示すブロック図である。音声符号化装置400は、実施の形態3に示した音声符号化装置300(図14参照)と同一の構成要素には同一の符号を付し、その説明を省略する。
音声符号化装置400は、低域成分判定部304が判定結果を第2レイヤ符号化部105ではなく、ダウンサンプリング部421に出力する点において、音声符号化装置300と相違する。なお、音声符号化装置400のダウンサンプリング部421、第2レイヤ符号化部405と、音声符号化装置300のダウンサンプリング部121、第2レイヤ符号化部105とは処理の一部に相違点があり、それを示すために異なる符号を付す。
図17は、ダウンサンプリング部421の内部の主要な構成を示すブロック図である。
スイッチ422は、低域成分判定部304から入力される判定結果が「1」である場合には、入力される音声信号を低域通過フィルタ423に出力し、判定結果が「0」である場合には、入力される音声信号を直接スイッチ424に出力する。
低域通過フィルタ423は、スイッチ422から入力される音声信号の高域部FL〜FHを遮断し、低域0〜FLのみを通過させてスイッチ424に出力する。低域通過フィルタ423が出力する信号のサンプリングレートは、スイッチ422に入力される音声信号のサンプリングレートと同様である。
スイッチ424は、低域成分判定部304から入力される判定結果が「1」である場合には、低域通過フィルタ423から入力される音声信号の低域成分を間引き部425に出力し、判定結果が「0」である場合には、直接スイッチ422から入力される音声信号を間引き部425に出力する。
間引き部425は、スイッチ424から入力される音声信号、または音声信号の低域成分を間引きすることによりサンプリングレートを低下させ、第1レイヤ符号化部102に出力する。例えば、スイッチ424から入力される音声信号、または音声信号のサンプリングレートが16kHzである場合、間引き部425は、1サンプルおきにサンプルを選択することにより、サンプリングレートを8kHzに低下させて出力する。
このように、ダウンサンプリング部421は、低域成分判定部304から入力される判定結果が「0」である場合、すなわち、入力される音声信号に低域成分が存在しない場合には、音声信号に対し低域通過フィルタリング処理を行わず、直接間引き処理を行う。これにより、音声信号の低域部に折り返し歪みが発生し、高域部にのみ存在していた成分が低域部に鏡像となって現れる。
図18は、ダウンサンプリング部421において、低域通過フィルタリング処理が行われず、直接間引き処理が行われる場合、スペクトルの変化の様子を示す図である。ここでは、入力信号のサンプリングレートが16kHzであり、間引きにより得られる信号のサンプリングレートが8kHzである場合を説明する。かかる場合、間引き部425では1サンプルおきにサンプルを選択して出力する。また、この図においては、横軸は周波数を示し、FL=4kHz、FH=8kHzとし、縦軸はスペクトル振幅値を示す。
図18Aは、ダウンサンプリング部421に入力される信号のスペクトルを示している。図18Aに示す入力信号に対し低域通過フィルタ処理が行われず、直接間引き部425において1サンプルおきの間引き処理が行われる場合、図18Bに示すようにFLを対称にして折り返し歪が現れる。間引き処理によりサンプリングレートは8kHzとなるため、信号帯域は0〜FLとなる。よって、図18Bの横軸は最大FLとなる。本実施の形態では図18Bに示すような低域成分を含む信号をダウンサンプリング後の信号処理に用いる。すなわち、入力信号に低域成分が存在しない場合、低域部に所定の信号を配置する代わりに低域部に生成された高域部の鏡像を用いて高域部の符号化を行う。よって、低域成分には高域成分のスペクトル形状の特徴(ピーク性が強い、雑音性が強いなど)が反映されることとなり、高域成分をより正確に符号化することができる。
図19は、本実施の形態に係る第2レイヤ符号化部405の主要な構成を示すブロック図である。第2レイヤ符号化部405は、実施の形態1に示した第2レイヤ符号化部105(図4参照)と同一の構成要素には同一の符号を付し、その説明を省略する。
第2レイヤ符号化部405は、信号生成部111およびスイッチ112を不要とする点において、実施の形態1に示した第2レイヤ符号化部105と相違する。その理由は、本実施の形態では入力される音声信号が低域成分を含まない場合には、低域部に所定の信号を配置するのではなく、入力された音声信号に対し低域通過フィルタリング処理を行わず直接間引き処理を行い、得られた信号を用いて第1レイヤ符号化処理および第2レイヤ符号化処理を行うためである。よって、第2レイヤ符号化部405では低域成分判定部の判定結果に基づき所定の信号を生成する必要がない。
図20は、本実施の形態に係る音声復号化装置450の主要な構成を示すブロック図である。音声復号化装置450は、本発明の実施の形態3に係る音声復号化装置350(図15参照)と同一の構成要素には同一の符号を付し、その説明を省略する。音声復号化装置450の第2レイヤ復号化部454は、音声復号化装置350の第2レイヤ復号化部154と処理の一部に相違点があり、それを示すために異なる符号を付す。
図21は、本実施の形態に係る音声復号化装置が備える第2レイヤ復号化部454の主要な構成を示すブロック図である。第2レイヤ復号化部454は、図6に示した第2レイヤ復号化部154と同一の構成要素には同一の符号を付し、その説明を省略する。
第2レイヤ復号化部454は、信号生成部162、スイッチ163、およびスイッチ167を不要とする点において、実施の形態1に示した第2レイヤ復号化部154と相違する。その理由は、本実施の形態に係る音声符号化装置400に入力される音声信号に低域成分を含まない場合には、低域部に所定の信号を配置するのではなく、入力された音声信号に対し低域通過フィルタリング処理を行わず直接間引き処理を行い、得られた信号を用いて第1レイヤ符号化処理および第2レイヤ符号化処理を行ったためである。よって、第2レイヤ復号化部454でも低域成分判定部の判定結果に基づき所定の信号を生成して復号を行う必要がない。
また、第2レイヤ復号化部454のスペクトル調整部468は、低域成分判定部353から入力される判定結果が「0」である場合には、第1復号レイヤスペクトルS2(k)(0≦k<FL)ではなくゼロ値を全帯域スペクトルS(k)(0≦k<FH)の低域部に代入する点において、第2レイヤ復号化部154のスペクトル調整部168と相違し、それを示すために異なる符号を付す。スペクトル調整部468がゼロ値を全帯域スペクトルS(k)(0≦k<FH)の低域部に代入する理由は、低域成分判定部353から入力される判定結果が「0」である場合には、第1復号レイヤスペクトルS2(k)(0≦k<FL)は音声符号化装置400に入力される音声信号の高域部の鏡像であるためである。この鏡像はフィルタ状態設定部164−ピッチフィルタリング部165−ゲイン復号化部166における高域成分の復号処理には必要であるが、そのまま復号信号に含まれて出力されると、雑音となり復号信号の音質劣化が生じる。
このように、本実施の形態によれば、入力信号が低域成分を含まず高域成分のみ含む場合、ダウンサンプリング部421において低域通過フィルタリング処理を行わず、直接間引き処理を行い、入力信号の低域部に折り返し歪みを生成して符号化を行う。このため、スペクトルの低域部を利用して高域部を高能率に符号化する場合において、音声信号の一部の区間において低域成分が存在しない場合、復号信号の音質劣化をさらに低減することができる。
なお、本実施の形態において復号信号の音質劣化をさらに低減するために、音声符号化装置400のダウンサンプリング部421は低域部に生成された高域部の鏡像のスペクトルに対しさらに反転処理行っても良い。
図22は、ダウンサンプリング部421の別の構成421aを示すブロック図である。ダウンサンプリング部421aは、ダウンサンプリング部421(図17参照)と同一の構成要素には同一の符号を付し、その説明を省略する。
ダウンサンプリング部421aは、スイッチ424が間引き部425の後段に設けられる点、および間引き部426、スペクトル反転部427をさらに有する点においてダウンサンプリング部421と相違する。
間引き部426は、入力される信号のみが間引き部425と相違し、動作は間引き部425と同様であるため、詳しい説明を省略する。
スペクトル反転部427は、FL/2を対称にして、間引き部426から入力される信号に対してスペクトルの反転処理を行い、得られる信号をスイッチ424に出力する。具体的には、スペクトル反転部427は、間引き部426から入力される信号に対して時間領域にて下記の式(6)に従う処理を施し、スペクトルを反転させる。
この式において、x(n)は入力信号を、y(n)は出力信号を示し、この式に従う処理は、奇数サンプルに−1を乗じる処理となる。この処理により、高周波のスペクトルが低周波に、低周波のスペクトルが高周波に配置されるようにスペクトルが反転される。
図23は、ダウンサンプリング部421aにおいて、低域通過フィルタリング処理が行われず、直接間引き処理が行われる場合、スペクトルの変化の様子を示す図である。図23Aおよび図23Bは、図18Aおよび図18Bと同様であるため、その説明を省略する。ダウンサンプリング部421aのスペクトル反転部427は、図23Bに示すスペクトルを、FL/2を対称にして反転させ、図23Cに示すスペクトルを得る。これにより、図23Cに示す低域のスペクトルは、図18Bに示す低域のスペクトルに比べ、図18Aまたは図23Aに示す高域のスペクトルにより類似する。従って、図23Cに示す低域のスペクトルを用いて高域の符号化を行う場合、復号信号の音質劣化をさらに低減することができる。
また、本実施の形態では、入力される音声信号に低域成分が存在しない場合、ダウンサンプリング部において低域通過フィルタリング処理を行わず、直接間引き処理を行う場合を例にとって説明したが、低域通過フィルタリング処理を完全に省くのではなく、低域通過フィルタの特性を弱めることにより折り返し歪みを発生させても良い。
以上、本発明の各実施の形態について説明した。
なお、上記各実施の形態においては、符号化側で、例えば、第2レイヤ符号化部105内の多重化部118でデータを多重化してから、更に、多重化部108で第1レイヤと第2レイヤの符号化データを多重化するという、二段階で多重化する構成を説明したが、これに限らず、多重化部118を設けずに多重化部106で一括してデータを多重化するという構成であっても良い。
復号化側でも同様に、例えば、分離部151で一旦符号化データを分離してから、更に、第2レイヤ復号化部154内の分離部161で第2レイヤ符号化データを分離するという、二段階で分離する構成を説明したが、これに限らず、分離部151で一括してデータを分離することで分離部161を不要とするという構成であっても良い。
また、本発明における周波数領域変換部101、周波数領域変換部122、周波数領域変換部124、および周波数領域変換部172は、MDCT以外にDFT(Discrete Fourier Transform)、FFT(Fast Fourier Transform)、DCT(Discrete Cosine Transform)、フィルタバンクなどを用いることも可能である。
また、本発明に係る音声符号化装置に入力される信号が音声信号およびオーディオ信号のどちらであっても、本発明を適用可能である。
また、本発明に係る音声符号化装置に入力される信号として、音声信号またはオーディオ信号の代わりにLPC予測残差信号であっても、本発明を適用することが可能である。
また、本発明に係る音声符号化装置、音声復号化装置等は、上記各実施の形態に限定されず、種々変更して実施することが可能である。例えば、階層数が2以上のスケーラブル構成にも適用可能である。
また、本発明に係る音声符号化装置の入力信号は、音声信号だけでなく、オーディオ信号でも良い。また、入力信号の代わりに、LPC予測残差信号に対して本発明を適用する構成であっても良い。
また、本発明に係る音声符号化装置および音声復号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。
また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係る音声符号化方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る音声符号化装置と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部または全てを含むように1チップ化されても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。
2006年11月2日出願の特願2006−299520の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本発明に係る音声符号化装置等は、移動体通信システムにおける通信端末装置、基地局装置等の用途に適用することができる。
本発明は、音声符号化装置、音声復号化装置、およびこれらの方法に関する。
移動体通信システムにおける電波資源等の有効利用のために、音声信号を低ビットレートで圧縮することが要求されている。その一方で、ユーザからは通話音声の品質向上や臨場感の高い通話サービスの実現が望まれている。この実現には、音声信号の高品質化のみならず、音声信号以外のより帯域が広いオーディオ信号等も高品質に符号化できることが望ましい。
このように相反する要求に対し、複数の符号化技術を階層的に統合するアプローチが有望視されている。具体的には、音声信号に適したモデルで入力信号を低ビットレートで符号化する第1レイヤと、入力信号と第1レイヤ復号信号との差分信号を音声以外の信号にも適したモデルで符号化する第2レイヤとを階層的に組み合わせる構成が検討されている。このような階層構造を持つ符号化方式は、符号化部から得られるビットストリームにスケーラビリティ性、すなわち、ビットストリームの一部を廃棄しても残りの情報から所定品質の復号信号が得られる性質を有するため、スケーラブル符号化と呼ばれる。スケーラブル符号化は、その特徴から、ビットレートの異なるネットワーク間の通信にも柔軟に対応できるため、IP(インターネットプロトコル)で多様なネットワークが統合されていく今後のネットワーク環境に適している。
従来のスケーラブル符号化技術として非特許文献1記載のものがある。非特許文献1では、MPEG−4(Moving Picture Experts Group phase-4)で規格化された技術を用いてスケーラブル符号化を構成している。具体的には、第1レイヤでは、音声信号に適したCELP(Code Excited Linear Prediction;符号励振線形予測)符号化を用い、第2レイヤにおいて、原信号から第1レイヤ復号信号を減じた残差信号に対し、AAC(Advanced Audio Coder)やTwinVQ(Transform Domain Weighted Interleave Vector Quantization;周波数領域重み付きインターリーブベクトル量子化)のような変換符号化を用いる。
また、変換符号化において、高能率にスペクトルの高域部を符号化する技術が非特許文献2に開示されている。非特許文献2では、スペクトルの低域部をピッチフィルタのフィルタ状態として利用し、スペクトルの高域部をピッチフィルタの出力信号を用いて表している。このように、ピッチフィルタのフィルタ情報を少ないビット数で符号化することにより低ビットレート化を図ることができる。
三木弼一編著、「MPEG−4の全て(初版)」(株)工業調査会、1998年9月30日、p.126−127 押切他、「ピッチフィルタリングによる帯域拡張技術を用いた7/10/15kHz帯域スケーラブル音声符号化方式」音講論集3−11−4、2004年3月、pp.327−328
三木弼一編著、「MPEG−4の全て(初版)」(株)工業調査会、1998年9月30日、p.126−127 押切他、「ピッチフィルタリングによる帯域拡張技術を用いた7/10/15kHz帯域スケーラブル音声符号化方式」音講論集3−11−4、2004年3月、pp.327−328
しかしながら、スペクトルの低域部を利用して高域部を高能率に符号化する方法では、高域部にのみ成分がある(低域部に成分が無い)信号が入力された場合、高域部の符号化に必要な低域部の成分が存在しないため、スペクトルの高域部を符号化することができないという問題がある。
図1は、スペクトルの低域部を利用して高域部を高能率に符号化する手法およびその問題点を説明するための図である。この図においては、横軸で周波数を表し、縦軸でエネルギーを表す。また、0≦k<FLの周波数帯域を低域、FL≦k<FHの周波数帯域を高域、0≦k<FHの周波数帯域を全帯域と呼ぶ(以下同様)。また、低域部の符号化を行う処理を第1符号化処理と呼び、スペクトルの低域部を利用して高域部を高能率に符号化する処理を第2符号化処理と呼ぶ(以下同様)。図1A〜図1Cは全帯域成分を含む音声信号が入力される場合、スペクトルの低域部を利用して高域部を高能率に符号化する手法を説明するための図である。図1D〜図1Fは、低域成分を含まず高域成分のみを含む音声信号が入力される場合、スペクトルの低域部を利用して高域部を高能率に符号化する手法の問題点を説明するための図である。
図1Aは、全帯域成分を含む音声信号のスペクトルを示す。この信号の低域成分を用いて第1符号化処理を行い得られる低域の復号信号のスペクトルは、図1Bに示すように0≦k<FLの周波数帯域に制限される。さらに、図1Bに示す復号信号を用いて第2符号化処理を行う場合、得られる全帯域の復号信号のスペクトルは図1Cに示すようになり、図1Aに示す元の音声信号のスペクトルに類似している。
一方、図1Dは、低域成分を含まず高域成分のみを含む音声信号のスペクトルを示す。ここでは、周波数X0(FL<X0<FH)の正弦波の場合を例にとって説明する。第1符号化処理として低域部の符号化が行われる場合、入力された音声信号の低域成分が存在せず、かつ低域の復号信号のスペクトルは0≦k<FLの周波数帯域に制限される。このため、低域の復号信号は図1Eのように何も含まず、全帯域においてスペクトルが失われることになる。次いで低域の復号信号を用いた第2符号化処理が行われる場合、得られる全帯域の復号信号のスペクトルは図1Fに示すようになり、低域部に成分が存在しないため高域成分を正しく符号化することはできない。
本発明の目的は、スペクトルの低域部を利用して高域部を高能率に符号化する場合において、音声信号の一部の区間において低域成分が存在しない場合でも、復号信号の音質劣化を低減することができる音声符号化装置等を提供することである。
本発明の音声符号化装置は、入力した音声信号の基準周波数より低い帯域である低域部の成分を符号化して第1レイヤ符号化データを得る第1レイヤ符号化手段と、前記音声信号の低域部の成分の有無を判定する判定手段と、前記音声信号に低域部の成分が存在する場合には、前記音声信号の低域部の成分を用い前記音声信号の基準周波数以上の帯域である高域部の成分を符号化して第2レイヤ符号化データを得、前記音声信号に低域部の成分が存在しない場合には、前記音声信号の低域部に配置された所定の信号を用いて前記音声信号の高域部の成分を符号化して第2レイヤ符号化データを得る第2レイヤ符号化手段と、を具備する構成を採る。
本発明によれば、スペクトルの低域部を利用して高域部を高能率に符号化する場合において、音声信号に低域部の成分が存在しない場合には音声信号の低域部に配置された所定の信号を用いて音声信号の高域部の成分を符号化することにより、音声信号の一部の区間において低域成分が存在しない場合でも復号信号の音質劣化を低減することができる。
まず、図2を用いて本発明の原理について説明する。ここでは、図1Dの場合と同様に、周波数X0(FL<X0<FH)の正弦波が入力される場合を例にとって説明する。
まず、符号化側において第1符号化処理として、図2Aに示すような周波数X0(FL<X0<FH)の正弦波のみを含む入力信号の低域部を符号化する。第1符号化処理により得られる復号信号は図2Bに示すようになる。本発明においては、図2Bに示す復号信号の低域成分の有無を判定し、低域成分が存在しない(または非常に小さい)と判定された場合には、図2Cに示すように復号信号の低域部に所定の信号を配置する。所定の信号としては、乱数信号を用いても良く、ピーク性の強い成分を用いることにより正弦波をより正確に符号化することも可能である。次いで、図2Dに示すように第2符号化処理として、復号信号の低域部を利用して高域部のスペクトルを推定し、入力信号の高域部のゲイン符号化を行う。次いで復号化側は、符号化側から伝送された推定情報を用いて高域部を復号し、さらにゲイン符号化情報を用いて復号された高域部のゲイン調整を行い、図2Eに示すような復号スペクトルを得る。次いで、低域成分の有無判定に関する符号化情報に基づき、ゼロ値を入力信号の低域部に代入し、図2Fに示すような復号スペクトルを得る。
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
(実施の形態1)
図3は、本発明の実施の形態1に係る音声符号化装置100の主要な構成を示すブロック図である。なお、ここでは、第1レイヤおよび第2レイヤ共に、周波数領域で符号化を行う構成を例にとって説明する。
図3は、本発明の実施の形態1に係る音声符号化装置100の主要な構成を示すブロック図である。なお、ここでは、第1レイヤおよび第2レイヤ共に、周波数領域で符号化を行う構成を例にとって説明する。
音声符号化装置100は、周波数領域変換部101、第1レイヤ符号化部102、第1レイヤ復号化部103、低域成分判定部104、第2レイヤ符号化部105、および多重化部106を備える。なお、第1レイヤおよび第2レイヤ共に、周波数領域における符号化を行う。
周波数領域変換部101は、入力信号の周波数分析を行い、変換係数の形式で入力信号のスペクトル(入力スペクトル)S1(k)(0≦k<FH)を求める。ここで、FHは入力スペクトルの最大周波数を示す。具体的には、周波数領域変換部101は、例えば、MDCT(Modified Discrete Cosine Transform;変形離散コサイン変換)を用いて時間領域信号を周波数領域信号へ変換する。入力スペクトルは第1レイヤ符号化部102および第2レイヤ符号化部105に出力される。
第1レイヤ符号化部102は、TwinVQやAAC等を用いて入力スペクトルの低域部0≦k<FL(ただ、FL<FH)の符号化を行い、得られる第1レイヤ符号化データを、第1レイヤ復号化部103および多重化部106に出力する。
第1レイヤ復号化部103は、第1レイヤ符号化データを用いて第1レイヤ復号を行って第1レイヤ復号スペクトルS2(k)(0≦k<FL)を生成し、第2レイヤ符号化部105及び低域成分判定部104に出力する。なお、第1レイヤ復号化部103は、時間領域に変換される前の第1レイヤ復号スペクトルを出力する。
低域成分判定部104は、第1レイヤ復号スペクトルS2(k)(0≦k<FL)に低域(0≦k<FL)成分が存在するか否かを判定し、判定結果を第2レイヤ符号化部105に出力する。ここで、低域成分が存在すると判定される場合、判定結果は「1」となり、低域成分が存在しないと判定される場合、判定結果は「0」となる。判定の方法としては、低域成分のエネルギーと所定の閾値とを比較し、低域成分エネルギーが閾値以上である場合に低域成分が存在すると判定し、閾値より低い場合には低域成分が存在しないと判定する。
第2レイヤ符号化部105は、第1レイヤ復号化部103から入力される第1レイヤ復号スペクトルを用いて、周波数領域変換部101から出力される入力スペクトルS1(k)(0≦k<FH)の高域部FL≦k<FHの符号化を行い、この符号化にて得られる第2レイヤ符号化データを多重化部106に出力する。具体的には、第2レイヤ符号化部105は、第1レイヤ復号スペクトルをピッチフィルタのフィルタ状態として用い、ピッチフィルタリング処理により入力スペクトルの高域部を推定する。また、第2レイヤ符号化部105は、ピッチフィルタのフィルタ情報を符号化する。第2レイヤ符号化部105の詳細については後述する。
多重化部106は、第1レイヤ符号化データおよび第2レイヤ符号化データを多重化し、符号化データとして出力する。この符号化データは、音声符号化装置100を搭載する無線送信装置の送信処理部など(図示せず)を介してビットストリームに重畳され、無線受信装置に伝送される。
図4は、上記の第2レイヤ符号化部105の内部の主要な構成を示すブロック図である。第2レイヤ符号化部105は、信号生成部111、スイッチ112、フィルタ状態設定部113、ピッチ係数設定部114、ピッチフィルタリング部115、探索部116、ゲイン符号化部117、および多重化部118を備え、各部は以下の動作を行う。
信号生成部111は、低域成分判定部104から入力される判定結果が「0」である場
合に、乱数信号、または乱数をクリッピングした信号、または予め学習により設計された所定の信号を生成し、スイッチ112に出力する。
合に、乱数信号、または乱数をクリッピングした信号、または予め学習により設計された所定の信号を生成し、スイッチ112に出力する。
スイッチ112は、低域成分判定部104から入力される判定結果が「0」である場合は信号生成部111から入力される所定の信号をフィルタ状態設定部113に出力し、判定結果が「1」である場合は第1レイヤ復号スペクトルS2(k)(0≦k<FL)をフィルタ状態設定部113に出力する。
フィルタ状態設定部113は、スイッチ112から入力される所定の信号、または第1レイヤ復号スペクトルS2(k)(0≦k<FL)をピッチフィルタリング部115で用いられるフィルタ状態として設定する。
ピッチ係数設定部114は、探索部116の制御の下、ピッチ係数Tを予め定められた探索範囲Tmin〜Tmaxの中で少しずつ変化させながら、ピッチフィルタリング部115に順次出力する。
ピッチフィルタリング部115は、ピッチフィルタを備え、フィルタ状態設定部113により設定されたフィルタ状態と、ピッチ係数設定部114から入力されるピッチ係数Tとに基づいて、第1レイヤ復号スペクトルS2(k)(0≦k<FL)に対しフィルタリングを行う。ピッチフィルタリング部115は、これにより入力スペクトルの高域部に対する推定スペクトルS1’(k)(FL≦k<FH)を算出する。
具体的には、ピッチフィルタリング部115は以下のフィルタリング処理を行う。
ピッチフィルタリング部115は、ピッチ係数設定部114から入力されるピッチ係数Tを用いて、帯域FL≦k<FHのスペクトルを生成する。ここで、全周波数帯域0≦k<FHのスペクトルを便宜的にS(k)と呼び、フィルタ関数は下記の式(1)で表されるものを使用する。
この式において、Tはピッチ係数設定部114から与えられるピッチ係数、βiはフィルタ係数を表している。またM=1とする。
S(k)(0≦k<FH)の低域部0≦k<FLには、第1レイヤ復号スペクトルS2(k)(0≦k<FL)がフィルタの内部状態(フィルタ状態)として格納される。
S(k)(0≦k<FH)の高域部FL≦k<FHには、下記の式(2)に示すフィルタリング処理により、入力スペクトルS1(k)(0≦k<FH)の高域部に対する推定スペクトルS1'(k)(FL≦k<FH)が格納される。
すなわち、S1'(k)には、基本的に、このkよりTだけ低い周波数のスペクトルS(k−T)が代入される。但し、スペクトルの円滑性を増すために、実際には、スペクトルS(k−T)からiだけ離れた近傍のスペクトルS(k−T+i)に所定のフィルタ係数βiを乗じて得られるスペクトルβi・S(k−T+i)を、全てのiについて加算し、加算結果
となるスペクトルをS1'(k)に代入する。
となるスペクトルをS1'(k)に代入する。
上記演算を、周波数の低いk=FLから順に、kをFL≦k<FHの範囲で変化させて行うことにより、FL≦k<FHにおける入力スペクトルの高域部に対する推定スペクトルS1'(k)(FL≦k<FH)を算出する。
以上のフィルタリング処理は、ピッチ係数設定部114からピッチ係数Tが与えられる度に、FL≦k<FHの範囲において、その都度S(k)をゼロクリアして行われる。すなわち、ピッチ係数Tが変化するたびにS(k)(FL≦k<FH)が算出され、探索部116に出力される。
探索部116は、周波数領域変換部101から入力される入力スペクトルS1(k)(0≦k<FH)の高域部FL≦k<FHと、ピッチフィルタリング部115から入力される推定スペクトルS1'(k)(FL≦k<FH)との類似度を算出する。この類似度の算出は、例えば、相関演算などにより行われる。ピッチ係数設定部114−ピッチフィルタリング部115−探索部116の処理は閉ループとなっており、探索部116は、ピッチ係数設定部114が出力するピッチ係数Tを種々に変化させることにより、各ピッチ係数に対応する類似度を算出する。そして、算出される類似度が最大となるピッチ係数、すなわち最適なピッチ係数T’(但しTmin〜Tmaxの範囲)を多重化部118に出力する。また、探索部116は、このピッチ係数T’に対応する推定スペクトルS1'(k)(FL≦k<FH)をゲイン符号化部117に出力する。
ゲイン符号化部117は、周波数領域変換部101から入力される入力スペクトルS1(k)(0≦k<FH)の高域部FL≦k<FHに基づいて、入力スペクトルS1(k)のゲイン情報を算出する。具体的には、周波数帯域FL≦k<FHをJ個のサブバンドに分割し、サブバンド毎のスペクトル振幅情報を用いてゲイン情報を表す。このとき、第jサブバンドのゲイン情報B(j)は下記の式(3)で表される。
この式において、BL(j)は第jサブバンドの最小周波数、BH(j)は第jサブバンドの最大周波数を表す。このようにして求めた入力スペクトルの高域部のサブバンド毎のスペクトル振幅情報を入力スペクトルの高域部のゲイン情報とみなす。
ゲイン符号化部117は、入力スペクトルS1(k)(0≦k<FH)の高域部FL≦k<FHのゲイン情報を符号化するためのゲイン符号帳を有する。ゲイン符号帳には要素数がJの複数のゲインベクトルが記録されており、ゲイン符号化部117は、式(3)を用いて求めたゲイン情報に最も類似するゲインベクトルを探索し、このゲインベクトルに対応するインデックスを多重化部118に出力する。
多重化部118は、探索部116から入力される最適なピッチ係数T’と、ゲイン符号化部117から入力されるゲインベクトルのインデックスとを多重化し、第2レイヤ符号化データとして多重化部106に出力する。
図5は、本実施の形態に係る音声復号化装置150の主要な構成を示すブロック図である。この音声復号化装置150は、図3に示した音声符号化装置100で生成された符号化データを復号するものである。各部は以下の動作を行う。
分離部151は、無線送信装置から伝送されるビットストリームに重畳された符号化データを、第1レイヤ符号化データおよび第2レイヤ符号化データに分離する。そして、分離部151は、第1レイヤ符号化データを第1レイヤ復号化部152に、第2レイヤ符号化データを第2レイヤ復号化部154に出力する。また、分離部151は、上記ビットストリームから、どのレイヤの符号化データが含まれているかを表すレイヤ情報を分離し、判定部155に出力する。
第1レイヤ復号化部152は、分離部151から入力される第1レイヤ符号化データに対して復号処理を行って第1レイヤ復号スペクトルS2(k)(0≦k<FL)を生成し、低域成分判定部153、第2レイヤ復号化部154、および判定部155に出力する。
低域成分判定部153は、第1レイヤ復号化部152から入力される第1レイヤ復号スペクトルS2(k)(0≦k<FL)に低域(0≦k<FL)成分が存在するか否かを判定し、判定結果を第2レイヤ復号化部154に出力する。ここで、低域成分が存在すると判定される場合、判定結果は「1」となり、低域成分が存在しないと判定される場合、判定結果は「0」となる。判定の方法としては、低域成分のエネルギーと所定の閾値とを比較し、低域成分エネルギーが閾値以上である場合に低域成分が存在すると判定し、閾値より低い場合には低域成分が存在しないと判定する。
第2レイヤ復号化部154は、分離部151から入力される第2レイヤ符号化データ、低域成分判定部153から入力される判定結果、および第1レイヤ復号化部152から入力される第1レイヤ復号スペクトルS2(k)を用いて、第2レイヤ復号スペクトルを生成し、判定部155に出力する。なお、第2レイヤ復号化部154の詳細については後述する。
判定部155は、分離部151から出力されるレイヤ情報に基づき、ビットストリームに重畳された符号化データに第2レイヤ符号化データが含まれているか否か判定する。ここで、音声符号化装置100を搭載する無線送信装置は、ビットストリームに第1レイヤ符号化データおよび第2レイヤ符号化データの双方を含めて送信するが、通信経路の途中において第2レイヤ符号化データが廃棄される場合がある。そこで、判定部155は、レイヤ情報に基づき、ビットストリームに第2レイヤ符号化データが含まれているか否かを判定する。そして、判定部155は、ビットストリームに第2レイヤ符号化データが含まれていない場合には、第2レイヤ復号化部154によって第2レイヤ復号スペクトルが生成されないため、第1レイヤ復号スペクトルを時間領域変換部156に出力する。但し、かかる場合には、第2レイヤ符号化データが含まれている場合の復号スペクトルと次数を一致させるために、判定部155は、第1レイヤ復号スペクトルの次数をFHまで拡張し、FL〜FHの帯域のスペクトルを0として出力する。一方、ビットストリームに第1レイヤ符号化データおよび第2レイヤ符号化データの双方が含まれている場合には、判定部155は、第2レイヤ復号スペクトルを時間領域変換部156に出力する。
時間領域変換部156は、判定部155から出力される第1レイヤ復号スペクトルおよび第2レイヤ復号スペクトルを時間領域信号に変換して復号信号を生成し、出力する。
図6は、上記の第2レイヤ復号化部154の内部の主要な構成を示すブロック図である。
分離部161は、分離部151から出力される第2レイヤ符号化データを、フィルタリングに関する情報である最適なピッチ係数T’と、ゲインに関する情報であるゲインベクトルのインデックスとに分離する。そして、分離部161は、フィルタリングに関する情報をピッチフィルタリング部165に出力し、ゲインに関する情報をゲイン復号化部16
6に出力する。
6に出力する。
信号生成部162は、音声符号化装置100内部の信号生成部111に対応する構成である。信号生成部162は、低域成分判定部153から入力される判定結果が「0」である場合には、乱数信号、または乱数をクリッピングした信号、または予め学習により設計された所定の信号を生成し、スイッチ163に出力する。
スイッチ163は、低域成分判定部153から入力される判定結果が「1」である場合には、第1レイヤ復号化部152から入力される第1レイヤ復号スペクトルS2(k)(0≦k<FL)をフィルタ状態設定部164に出力し、判定結果が「0」である場合には、信号生成部162から入力される所定の信号をフィルタ状態設定部164に出力する。
フィルタ状態設定部164は、音声符号化装置100内部のフィルタ状態設定部113に対応する構成である。フィルタ状態設定部164は、スイッチ163から入力される所定の信号、または第1レイヤ復号スペクトルS2(k)(0≦k<FL)をピッチフィルタリング部165で用いられるフィルタ状態として設定する。ここで、全周波数帯域0≦k<FHのスペクトルを便宜的にS(k)と呼び、S(k)の0≦k<FLの帯域には、第1レイヤ復号スペクトルS2(k)(0≦k<FL)がフィルタの内部状態(フィルタ状態)として格納される。
ピッチフィルタリング部165は、音声符号化装置100内部のピッチフィルタリング部115に対応する構成である。ピッチフィルタリング部165は、分離部161から出力されるピッチ係数T’と、フィルタ状態設定部164で設定されたフィルタ状態とに基づき、第1レイヤ復号スペクトルS2(k)に対し上記の式(2)に示すフィルタリングを行う。ピッチフィルタリング部165は、これにより入力スペクトルS1(k)(0≦k<FH)の広帯域に対する推定スペクトルS1'(k)(FL≦k<FH)を算出する。ピッチフィルタリング部165でも、上記式(1)に示したフィルタ関数が用いられ、算出された推定スペクトルS1'(k)(FL≦k<FH)を含む全帯域スペクトルS(k)をスペクトル調整部168に出力する。
ゲイン復号化部166は、音声符号化装置100のゲイン符号化部117が備えるゲイン符号帳と同様のゲイン符号帳を備えており、分離部161から入力されるゲインベクトルのインデックスを復号し、さらにゲイン情報B(j)の量子化値である復号ゲイン情報Bq(j)を求める。具体的には、ゲイン復号化部166は、分離部161から入力されるゲインベクトルのインデックスに対応するゲインベクトルを内蔵のゲイン符号帳の中から選択し復号ゲイン情報Bq(j)として、スペクトル調整部168に出力する。
スイッチ167は、低域成分判定部153から入力される判定結果が「1」である場合のみ、第1レイヤ復号化部152から入力される第1レイヤ復号スペクトルS2(k)(0≦k<FL)をスペクトル調整部168に出力する。
スペクトル調整部168は、ピッチフィルタリング部165から入力される推定スペクトルS1'(k)(FL≦k<FH)に、ゲイン復号化部166から入力されるサブバンド毎の復号ゲイン情報Bq(j)を、下記の式(4)に従って乗じる。スペクトル調整部168は、これにより推定スペクトルS1'(k)の周波数帯域FL≦k<FHにおけるスペクトル形状を調整し、復号スペクトルS(k)(FL≦k<FH)を生成する。スペクトル調整部168は、生成される復号スペクトルS(k)を判定部155に出力する。
このように復号スペクトルS(k)(0≦k<FH)の高域部FL≦k<FHは調整後の推定スペクトルS1'(k)(FL≦k<FH)から成る。ただし、音声符号化装置100内部のピッチフィルタリング部115の動作で説明したように、低域成分判定部153から第2レイヤ復号化部154に入力される判定結果が「0」である場合には、復号スペクトルS(k)(0≦k<FH)の低域部0≦k<FLは、第1復号レイヤスペクトルS2(k)(0≦k<FL)から構成されるのではなく、信号生成部162において生成された所定の信号から構成される。この所定の信号はフィルタ状態設定部164−ピッチフィルタリング部165−ゲイン復号化部166における高域成分の復号処理には必要であるが、そのまま復号信号に含まれて出力されると、雑音となり復号信号の音質劣化が生じる。従って、低域成分判定部153から第2レイヤ復号化部154に入力される判定結果が「0」である場合には、スペクトル調整部168は、第1レイヤ復号化部152から入力される第1復号レイヤスペクトルS2(k)(0≦k<FL)を全帯域スペクトルS(k)(0≦k<FH)の低域部に代入する。本実施の形態では判定結果に基づき、判定結果が「入力信号に低域成分が存在しない」ことを示す場合に、第1レイヤ復号スペクトルS2(k)を復号スペクトルS(k)の低域部0≦k<FLに代入する。
こうして音声復号化装置150は、音声符号化装置100で生成された符号化データを復号することができる。
このように、本実施の形態によれば、第1レイヤ符号化部により生成される第1レイヤ復号信号(または第1レイヤ復号スペクトル)の低域成分の有無を判定し、低域成分が存在しない場合には低域部に所定の成分を配置し、第2レイヤ符号化部にて低域部に配置された所定の信号を用いて高域成分の推定およびゲイン調整を行う。これにより、スペクトルの低域部を利用して高域部を高能率に符号化することができるので、音声信号の一部の区間において低域成分が存在しない場合でも、復号信号の音質劣化を低減することができる。
また、本実施の形態によれば第2符号化処理の構成を大きく変更せず本発明の課題を解決するため、本発明を実現するハードウェア(もしくはソフトウェア)の規模を所定のレベルに制限することができる。
なお、本実施の形態では、低域成分判定部104および低域成分判定部153での判定の方法として、低域成分のエネルギーを所定の閾値と比較する場合を例にとって説明したが、この閾値を時間的に変化させて用いても良い。例えば、公知の有音/無音判定技術と組み合わせて、無音と判定された場合にそのときの低域成分エネルギーを用いて閾値を更新する。これにより、信頼性の高い閾値が算出されるようになり、より正確の低域成分の有無の判定を行うことができる。
本実施の形態では、スペクトル調整部168は、第1復号レイヤスペクトルS2(k)(0≦k<FL)を全帯域スペクトルS(k)(0≦k<FH)の低域部に代入する場合を例にとって説明したが、第1復号レイヤスペクトルS2(k)(0≦k<FL)の代わりにゼロ値を代入しても良い。
また、本実施の形態は、以下に示すような構成も採り得る。図7は、音声符号化装置100の別の構成100aを示すブロック図である。また、図8は、対応する音声復号化装置150aの主要な構成を示すブロック図である。音声符号化装置100および音声復号化装置150と同様の構成については同一の符号を付し、基本的に、詳細な説明は省略する。
図7において、ダウンサンプリング部121は、時間領域の入力音声信号をダウンサンプリングして、所望のサンプリングレートに変換する。第1レイヤ符号化部102は、ダウンサンプリング後の時間領域信号に対し、CELP符号化を用いて符号化を行い、第1レイヤ符号化データを生成する。第1レイヤ復号化部103は、第1レイヤ符号化データを復号して第1レイヤ復号信号を生成する。周波数領域変換部122は、第1レイヤ復号信号の周波数分析を行って第1レイヤ復号スペクトルを生成する。低域成分判定部104は、第1レイヤ復号スペクトルに低域成分が存在するか否かを判定し、判定結果を出力する。遅延部123は、入力音声信号に対し、ダウンサンプリング部121−第1レイヤ符号化部102−第1レイヤ復号化部103で生じる遅延に相当する遅延を与える。周波数領域変換部124は、遅延後の入力音声信号の周波数分析を行って入力スペクトルを生成する。第2レイヤ符号化部105は、判定結果、第1レイヤ復号スペクトル、および入力スペクトルを用いて第2レイヤ符号化データを生成する。多重化部106は、第1レイヤ符号化データおよび第2レイヤ符号化データを多重化し、符号化データとして出力する。
また、図8において、第1レイヤ復号化部152は、分離部151から出力される第1レイヤ符号化データを復号して第1レイヤ復号信号を得る。アップサンプリング部171は、第1レイヤ復号信号のサンプリングレートを入力信号と同じサンプリングレートに変換する。周波数領域変換部172は、第1レイヤ復号信号を周波数分析して第1レイヤ復号スペクトルを生成する。低域成分判定部153は、第1レイヤ復号スペクトルに低域成分が存在するか否かを判定し、判定結果を出力する。第2レイヤ復号化部154は、判定結果および第1レイヤ復号スペクトルを用いて、分離部151から出力される第2レイヤ符号化データを復号し第2レイヤ復号スペクトルを得る。時間領域変換部173は、第2レイヤ復号スペクトルを時間領域信号に変換し、第2レイヤ復号信号を得る。判定部155は、分離部151から出力されるレイヤ情報に基づき、第1レイヤ復号信号を、または第1レイヤ復号信号および第2レイヤ復号信号の両方を出力する。
このように、上記バリエーションでは、第1レイヤ符号化部102が時間領域で符号化処理を行う。第1レイヤ符号化部102では、音声信号を低ビットレートで高品質に符号化できるCELP符号化が用いられる。よって、第1レイヤ符号化部102でCELP符号化が使用されるため、スケーラブル符号化装置全体のビットレートを小さくすることが可能となり、かつ高品質化も実現できる。また、CELP符号化は、変換符号化に比べて原理遅延(アルゴリズム遅延)を短くすることができるため、スケーラブル符号化装置全体の原理遅延も短くなり、双方向通信に適した音声符号化処理および音声復号化処理を実現することができる。
(実施の形態2)
本発明の実施の形態2では、第1レイヤ復号信号の低域成分の有無の判定結果に応じて、第2レイヤ符号化に用いられるゲイン符号帳を切り替える点において本発明の実施の形態1と相違する。この相違点を示すため、本実施の形態に係るゲイン符号帳を切り替えて用いる第2レイヤ符号化部205に、実施の形態1に示した第2レイヤ符号化部105と異なる符号を付す。
本発明の実施の形態2では、第1レイヤ復号信号の低域成分の有無の判定結果に応じて、第2レイヤ符号化に用いられるゲイン符号帳を切り替える点において本発明の実施の形態1と相違する。この相違点を示すため、本実施の形態に係るゲイン符号帳を切り替えて用いる第2レイヤ符号化部205に、実施の形態1に示した第2レイヤ符号化部105と異なる符号を付す。
図9は、第2レイヤ符号化部205の主要な構成を示すブロック図である。第2レイヤ符号化部205は、実施の形態1に示した第2レイヤ符号化部105(図4参照)と同一
の構成要素には同一の符号を付し、その説明を省略する。
の構成要素には同一の符号を付し、その説明を省略する。
第2レイヤ符号化部205において、ゲイン符号化部217は、低域成分判定部104から判定結果がさらに入力される点において、実施の形態1に示した第2レイヤ符号化部105のゲイン符号化部117と相違し、それを示すために異なる符号を付す。
図10は、ゲイン符号化部217の内部の主要な構成を示すブロック図である。
第1ゲイン符号帳271は、音声信号などの学習データを用いて設計されたゲイン符号帳であり、通常の入力信号に適した複数のゲインベクトルから構成される。第1ゲイン符号帳271は、探索部276から入力されるインデックスに対応するゲインベクトルをスイッチ273に出力する。
第2ゲイン符号帳272は、ある一つの要素または限定された数の複数の要素が、他の要素に比べて明らかに大きな値をとるようなベクトルを複数備えるゲイン符号帳である。ここでは、例えば、ある一つの要素または限定された数の複数の要素と他の要素それぞれとの差を所定の閾値と比較し、所定の閾値より大きい場合には、他の要素より明らかに大きいと見なすことができる。第2ゲイン符号帳272は、探索部276から入力されるインデックスに対応するゲインベクトルをスイッチ273に出力する。
図11は、第2ゲイン符号帳272に含まれるゲインベクトルを例示する図である。この図においては、ベクトル次元J=8の場合を示している。この図に示すように、ベクトルのある一つの要素は他の要素より明らかに大きな値をとる。このような第2ゲイン符号帳272を用いることにより、高域成分に正弦波(線スペクトル)または限定された数の複数の正弦波より成る波形が入力される場合に、その正弦波が含まれるサブバンドのゲインが大きく、他のサブバンドのゲインが小さいゲインベクトルを選択することができる。従って、音声符号化装置に入力される正弦波をより正確に符号化することができる。
再び、図10に戻って、スイッチ273は、低域成分判定部104から入力される判定結果が「1」である場合には、第1ゲイン符号帳271から入力されるゲインベクトルを誤差算出部275に出力し、判定結果が「0」である場合には、第2ゲイン符号帳272から入力されるゲインベクトルを誤差算出部275に出力する。
ゲイン算出部274は、周波数領域変換部101から出力される入力スペクトルS1(k)(0≦k<FH)の高域部FL≦k<FHに基づき、入力スペクトルS1(k)のゲイン情報B(j)を上記の式(3)に従って算出する。ゲイン算出部274は、算出されたゲイン情報B(j)を誤差算出部275に出力する。
誤差算出部275は、ゲイン算出部274から入力されるゲイン情報B(j)と、スイッチ273から入力されるゲインベクトルとの誤差E(i)を下記の式(5)に従い算出する。ここで、G(i,j)はスイッチ273から入力されるゲインベクトルを表し、インデックス「i」は、ゲインベクトルG(i,j)が第1ゲイン符号帳271または第2ゲイン符号帳272の何番目であるかを表す。
誤差算出部275は、算出された誤差E(i)を探索部276に出力する。
探索部276は、ゲインベクトルを示すインデックスを順次に変えながら第1ゲイン符
号帳271または第2ゲイン符号帳272に出力する。また、第1ゲイン符号帳271、第2ゲイン符号帳272、スイッチ273、誤差算出部275、探索部276の処理は閉ループとなっており、探索部276は、誤差算出部275から入力される誤差E(i)が最小となるゲインベクトルを決定する。探索部276は、決定されたゲインベクトルを示すインデックスを多重化部118に出力する。
号帳271または第2ゲイン符号帳272に出力する。また、第1ゲイン符号帳271、第2ゲイン符号帳272、スイッチ273、誤差算出部275、探索部276の処理は閉ループとなっており、探索部276は、誤差算出部275から入力される誤差E(i)が最小となるゲインベクトルを決定する。探索部276は、決定されたゲインベクトルを示すインデックスを多重化部118に出力する。
図12は、本実施の形態に係る音声復号化装置が備える第2レイヤ復号化部254の内部の主要な構成を示すブロック図である。第2レイヤ復号化部254は、実施の形態1に示した第2レイヤ復号化部154(図6参照)と同一の構成要素には同一の符号を付し、その説明を省略する。
第2レイヤ復号化部254において、ゲイン復号化部266は、低域成分判定部153から判定結果がさらに入力される点において、実施の形態1に示した第2レイヤ復号化部154のゲイン復号化部166と相違し、それを示すために異なる符号を付す。
図13は、ゲイン復号化部266の内部の主要な構成を示すブロック図である。
スイッチ281は、低域成分判定部153から入力される判定結果が「1」である場合には、分離部161から入力されるゲインベクトルのインデックスを第1ゲイン符号帳282に出力し、判定結果が「0」である場合には、分離部161から入力されるゲインベクトルのインデックスを第2ゲイン符号帳283に出力する。
第1ゲイン符号帳282は、本実施の形態に係るゲイン符号化部217が備える第1ゲイン符号帳271と同様なゲイン符号帳であり、スイッチ281から入力されるインデックスに対応するゲインベクトルをスイッチ284に出力する。
第2ゲイン符号帳283は、本実施の形態に係るゲイン符号化部217が備える第2ゲイン符号帳272と同様なゲイン符号帳であり、スイッチ281から入力されるインデックスに対応するゲインベクトルをスイッチ284に出力する。
スイッチ284は、低域成分判定部153から入力される判定結果が「1」である場合には、第1ゲイン符号帳282から入力されるゲインベクトルをスペクトル調整部168に出力し、判定結果が「0」である場合には、第2ゲイン符号帳283から入力されるゲインベクトルをスペクトル調整部168に出力する。
このように、本実施の形態によれば、第2レイヤ符号化に用いるゲイン符号帳を複数備え、第1レイヤ復号信号の低域成分の有無の判定結果に応じて用いるゲイン符号帳を切り替える。低域成分を含まず高域成分のみを含むような入力信号に対して、通常の音声信号に適したゲイン符号帳とは異なるゲイン符号帳を用いて符号化することにより、スペクトルの低域部を利用して高域部を高能率に符号化することができる。従って、音声信号の一部の区間において低域成分が存在しない場合、復号信号の音質劣化をさらに低減することができる。
(実施の形態3)
図14は、本発明の実施の形態3に係る音声符号化装置300の主要な構成を示すブロック図である。音声符号化装置300は、実施の形態1に示した音声符号化装置100の別の構成100a(図7参照)と同一の構成要素には同一の符号を付し、その説明を省略する。
図14は、本発明の実施の形態3に係る音声符号化装置300の主要な構成を示すブロック図である。音声符号化装置300は、実施の形態1に示した音声符号化装置100の別の構成100a(図7参照)と同一の構成要素には同一の符号を付し、その説明を省略する。
音声符号化装置300は、LPC(Linear Prediction Coefficient)分析部301、
LPC係数量子化部302、およびLPC係数復号化部303をさらに有する点において、音声符号化装置100aと相違する。なお、音声符号化装置300の低域成分判定部304と、音声符号化装置100aの低域成分判定部104とは処理の一部に相違点があり、それを示すために異なる符号を付す。
LPC係数量子化部302、およびLPC係数復号化部303をさらに有する点において、音声符号化装置100aと相違する。なお、音声符号化装置300の低域成分判定部304と、音声符号化装置100aの低域成分判定部104とは処理の一部に相違点があり、それを示すために異なる符号を付す。
LPC分析部301は、遅延部123から入力される遅延後の入力信号に対して、LPC分析を行い、得られるLPC係数をLPC係数量子化部302に出力する。以下、LPC分析部301で得られたこのLPC係数を全帯域LPC係数と呼ぶ。
LPC係数量子化部302は、LPC分析部301から入力される全帯域LPC係数を量子化に適したパラメータ、例えばLSP(Line Spectral Pair)、LSF(Line Spectral
Frequencies)などに変換し、変換により得られたパラメータを量子化する。LPC係数量子化部302は、量子化により得られる全帯域LPC係数符号化データを多重化部106に出力するとともに、LPC係数復号化部303に出力する。
Frequencies)などに変換し、変換により得られたパラメータを量子化する。LPC係数量子化部302は、量子化により得られる全帯域LPC係数符号化データを多重化部106に出力するとともに、LPC係数復号化部303に出力する。
LPC係数復号化部303は、LPC係数量子化部302から入力される全帯域LPC係数符号化データを用いてLSPまたはLSFなどのパラメータを復号し、復号されたLSPまたはLSFなどのパラメータをLPC係数に変換して復号全帯域LPC係数を求める。LPC係数復号化部303は、求められた復号全帯域LPC係数を低域成分判定部304に出力する。
低域成分判定部304は、LPC係数復号化部303から入力される復号全帯域LPC係数を用いてスペクトル包絡を算出し、算出されたスペクトル包絡の低域部と高域部とのエネルギー比を求める。低域成分判定部304は、スペクトル包絡の低域部と高域部とのエネルギー比が所定の閾値以上である場合には、低域成分が存在するという判定結果として「1」を第2レイヤ符号化部105に出力し、スペクトル包絡の低域部と高域部とのエネルギー比が所定の閾値より小さい場合には、低域成分が存在しないという判定結果として「0」を第2レイヤ符号化部105に出力する。
図15は、本実施の形態に係る音声復号化装置350の主要な構成を示すブロック図である。なお、音声復号化装置350は、実施の形態1に示した音声復号化装置150の別の構成150a(図8参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
音声復号化装置350は、LPC係数復号化部352をさらに具備する点において、音声復号化装置150aと相違する。なお、音声復号化装置350の分離部351および低域成分判定部353は、音声復号化装置150aの分離部151および低域成分判定部153と処理の一部に相違点があり、それを示すために異なる符号を付す。
分離部351は、無線送信装置から伝送されたビットストリームに重畳された符号化データから全帯域LPC係数符号化データをさらに分離し、LPC係数復号化部352に出力する点において、音声復号化装置150aの分離部151と相違する。
LPC係数復号化部352は、分離部351から入力される全帯域LPC係数符号化データを用いてLSPまたはLSFなどのパラメータを復号し、復号されたLSPまたはLSFなどのパラメータをLPC係数に変換して復号全帯域LPC係数を求める。LPC係数復号化部352は、求められた復号全帯域LPC係数を低域成分判定部353に出力する。
低域成分判定部353は、LPC係数復号化部352から入力される復号全帯域LPC
係数を用いてスペクトル包絡を算出し、算出されたスペクトル包絡の低域部と高域部のエネルギー比を求める。低域成分判定部353は、スペクトル包絡の低域部と高域部とのエネルギー比が所定の閾値以上である場合には、低域成分が存在するという判定結果として「1」を第2レイヤ復号化部154に出力し、スペクトル包絡の低域部と高域部とのエネルギー比が所定の閾値より小さい場合には、低域成分が存在しないという判定結果として「0」を第2レイヤ復号化部154に出力する。
係数を用いてスペクトル包絡を算出し、算出されたスペクトル包絡の低域部と高域部のエネルギー比を求める。低域成分判定部353は、スペクトル包絡の低域部と高域部とのエネルギー比が所定の閾値以上である場合には、低域成分が存在するという判定結果として「1」を第2レイヤ復号化部154に出力し、スペクトル包絡の低域部と高域部とのエネルギー比が所定の閾値より小さい場合には、低域成分が存在しないという判定結果として「0」を第2レイヤ復号化部154に出力する。
このように、本実施の形態によれば、LPC係数を元にスペクトル包絡を求め、このスペクトル包絡の低域部と高域部とのエネルギー比を用いて低域成分の有無を判定するため、信号の絶対エネルギーに依存しない判定を行うことができる。また、スペクトルの低域部を利用して高域部を高能率に符号化する場合において、音声信号の一部の区間において低域成分が存在しない場合、復号信号の音質劣化をさらに低減することができる。
(実施の形態4)
図16は、本発明の実施の形態4に係る音声符号化装置400の主要な構成を示すブロック図である。音声符号化装置400は、実施の形態3に示した音声符号化装置300(図14参照)と同一の構成要素には同一の符号を付し、その説明を省略する。
図16は、本発明の実施の形態4に係る音声符号化装置400の主要な構成を示すブロック図である。音声符号化装置400は、実施の形態3に示した音声符号化装置300(図14参照)と同一の構成要素には同一の符号を付し、その説明を省略する。
音声符号化装置400は、低域成分判定部304が判定結果を第2レイヤ符号化部105ではなく、ダウンサンプリング部421に出力する点において、音声符号化装置300と相違する。なお、音声符号化装置400のダウンサンプリング部421、第2レイヤ符号化部405と、音声符号化装置300のダウンサンプリング部121、第2レイヤ符号化部105とは処理の一部に相違点があり、それを示すために異なる符号を付す。
図17は、ダウンサンプリング部421の内部の主要な構成を示すブロック図である。
スイッチ422は、低域成分判定部304から入力される判定結果が「1」である場合には、入力される音声信号を低域通過フィルタ423に出力し、判定結果が「0」である場合には、入力される音声信号を直接スイッチ424に出力する。
低域通過フィルタ423は、スイッチ422から入力される音声信号の高域部FL〜FHを遮断し、低域0〜FLのみを通過させてスイッチ424に出力する。低域通過フィルタ423が出力する信号のサンプリングレートは、スイッチ422に入力される音声信号のサンプリングレートと同様である。
スイッチ424は、低域成分判定部304から入力される判定結果が「1」である場合には、低域通過フィルタ423から入力される音声信号の低域成分を間引き部425に出力し、判定結果が「0」である場合には、直接スイッチ422から入力される音声信号を間引き部425に出力する。
間引き部425は、スイッチ424から入力される音声信号、または音声信号の低域成分を間引きすることによりサンプリングレートを低下させ、第1レイヤ符号化部102に出力する。例えば、スイッチ424から入力される音声信号、または音声信号のサンプリングレートが16kHzである場合、間引き部425は、1サンプルおきにサンプルを選択することにより、サンプリングレートを8kHzに低下させて出力する。
このように、ダウンサンプリング部421は、低域成分判定部304から入力される判定結果が「0」である場合、すなわち、入力される音声信号に低域成分が存在しない場合には、音声信号に対し低域通過フィルタリング処理を行わず、直接間引き処理を行う。これにより、音声信号の低域部に折り返し歪みが発生し、高域部にのみ存在していた成分が
低域部に鏡像となって現れる。
低域部に鏡像となって現れる。
図18は、ダウンサンプリング部421において、低域通過フィルタリング処理が行われず、直接間引き処理が行われる場合、スペクトルの変化の様子を示す図である。ここでは、入力信号のサンプリングレートが16kHzであり、間引きにより得られる信号のサンプリングレートが8kHzである場合を説明する。かかる場合、間引き部425では1サンプルおきにサンプルを選択して出力する。また、この図においては、横軸は周波数を示し、FL=4kHz、FH=8kHzとし、縦軸はスペクトル振幅値を示す。
図18Aは、ダウンサンプリング部421に入力される信号のスペクトルを示している。図18Aに示す入力信号に対し低域通過フィルタ処理が行われず、直接間引き部425において1サンプルおきの間引き処理が行われる場合、図18Bに示すようにFLを対称にして折り返し歪が現れる。間引き処理によりサンプリングレートは8kHzとなるため、信号帯域は0〜FLとなる。よって、図18Bの横軸は最大FLとなる。本実施の形態では図18Bに示すような低域成分を含む信号をダウンサンプリング後の信号処理に用いる。すなわち、入力信号に低域成分が存在しない場合、低域部に所定の信号を配置する代わりに低域部に生成された高域部の鏡像を用いて高域部の符号化を行う。よって、低域成分には高域成分のスペクトル形状の特徴(ピーク性が強い、雑音性が強いなど)が反映されることとなり、高域成分をより正確に符号化することができる。
図19は、本実施の形態に係る第2レイヤ符号化部405の主要な構成を示すブロック図である。第2レイヤ符号化部405は、実施の形態1に示した第2レイヤ符号化部105(図4参照)と同一の構成要素には同一の符号を付し、その説明を省略する。
第2レイヤ符号化部405は、信号生成部111およびスイッチ112を不要とする点において、実施の形態1に示した第2レイヤ符号化部105と相違する。その理由は、本実施の形態では入力される音声信号が低域成分を含まない場合には、低域部に所定の信号を配置するのではなく、入力された音声信号に対し低域通過フィルタリング処理を行わず直接間引き処理を行い、得られた信号を用いて第1レイヤ符号化処理および第2レイヤ符号化処理を行うためである。よって、第2レイヤ符号化部405では低域成分判定部の判定結果に基づき所定の信号を生成する必要がない。
図20は、本実施の形態に係る音声復号化装置450の主要な構成を示すブロック図である。音声復号化装置450は、本発明の実施の形態3に係る音声復号化装置350(図15参照)と同一の構成要素には同一の符号を付し、その説明を省略する。音声復号化装置450の第2レイヤ復号化部454は、音声復号化装置350の第2レイヤ復号化部154と処理の一部に相違点があり、それを示すために異なる符号を付す。
図21は、本実施の形態に係る音声復号化装置が備える第2レイヤ復号化部454の主要な構成を示すブロック図である。第2レイヤ復号化部454は、図6に示した第2レイヤ復号化部154と同一の構成要素には同一の符号を付し、その説明を省略する。
第2レイヤ復号化部454は、信号生成部162、スイッチ163、およびスイッチ167を不要とする点において、実施の形態1に示した第2レイヤ復号化部154と相違する。その理由は、本実施の形態に係る音声符号化装置400に入力される音声信号に低域成分を含まない場合には、低域部に所定の信号を配置するのではなく、入力された音声信号に対し低域通過フィルタリング処理を行わず直接間引き処理を行い、得られた信号を用いて第1レイヤ符号化処理および第2レイヤ符号化処理を行ったためである。よって、第2レイヤ復号化部454でも低域成分判定部の判定結果に基づき所定の信号を生成して復号を行う必要がない。
また、第2レイヤ復号化部454のスペクトル調整部468は、低域成分判定部353から入力される判定結果が「0」である場合には、第1復号レイヤスペクトルS2(k)(0≦k<FL)ではなくゼロ値を全帯域スペクトルS(k)(0≦k<FH)の低域部に代入する点において、第2レイヤ復号化部154のスペクトル調整部168と相違し、それを示すために異なる符号を付す。スペクトル調整部468がゼロ値を全帯域スペクトルS(k)(0≦k<FH)の低域部に代入する理由は、低域成分判定部353から入力される判定結果が「0」である場合には、第1復号レイヤスペクトルS2(k)(0≦k<FL)は音声符号化装置400に入力される音声信号の高域部の鏡像であるためである。この鏡像はフィルタ状態設定部164−ピッチフィルタリング部165−ゲイン復号化部166における高域成分の復号処理には必要であるが、そのまま復号信号に含まれて出力されると、雑音となり復号信号の音質劣化が生じる。
このように、本実施の形態によれば、入力信号が低域成分を含まず高域成分のみ含む場合、ダウンサンプリング部421において低域通過フィルタリング処理を行わず、直接間引き処理を行い、入力信号の低域部に折り返し歪みを生成して符号化を行う。このため、スペクトルの低域部を利用して高域部を高能率に符号化する場合において、音声信号の一部の区間において低域成分が存在しない場合、復号信号の音質劣化をさらに低減することができる。
なお、本実施の形態において復号信号の音質劣化をさらに低減するために、音声符号化装置400のダウンサンプリング部421は低域部に生成された高域部の鏡像のスペクトルに対しさらに反転処理行っても良い。
図22は、ダウンサンプリング部421の別の構成421aを示すブロック図である。ダウンサンプリング部421aは、ダウンサンプリング部421(図17参照)と同一の構成要素には同一の符号を付し、その説明を省略する。
ダウンサンプリング部421aは、スイッチ424が間引き部425の後段に設けられる点、および間引き部426、スペクトル反転部427をさらに有する点においてダウンサンプリング部421と相違する。
間引き部426は、入力される信号のみが間引き部425と相違し、動作は間引き部425と同様であるため、詳しい説明を省略する。
スペクトル反転部427は、FL/2を対称にして、間引き部426から入力される信号に対してスペクトルの反転処理を行い、得られる信号をスイッチ424に出力する。具体的には、スペクトル反転部427は、間引き部426から入力される信号に対して時間領域にて下記の式(6)に従う処理を施し、スペクトルを反転させる。
この式において、x(n)は入力信号を、y(n)は出力信号を示し、この式に従う処理は、奇数サンプルに−1を乗じる処理となる。この処理により、高周波のスペクトルが低周波に、低周波のスペクトルが高周波に配置されるようにスペクトルが反転される。
図23は、ダウンサンプリング部421aにおいて、低域通過フィルタリング処理が行われず、直接間引き処理が行われる場合、スペクトルの変化の様子を示す図である。図23Aおよび図23Bは、図18Aおよび図18Bと同様であるため、その説明を省略する。ダウンサンプリング部421aのスペクトル反転部427は、図23Bに示すスペクト
ルを、FL/2を対称にして反転させ、図23Cに示すスペクトルを得る。これにより、図23Cに示す低域のスペクトルは、図18Bに示す低域のスペクトルに比べ、図18Aまたは図23Aに示す高域のスペクトルにより類似する。従って、図23Cに示す低域のスペクトルを用いて高域の符号化を行う場合、復号信号の音質劣化をさらに低減することができる。
ルを、FL/2を対称にして反転させ、図23Cに示すスペクトルを得る。これにより、図23Cに示す低域のスペクトルは、図18Bに示す低域のスペクトルに比べ、図18Aまたは図23Aに示す高域のスペクトルにより類似する。従って、図23Cに示す低域のスペクトルを用いて高域の符号化を行う場合、復号信号の音質劣化をさらに低減することができる。
また、本実施の形態では、入力される音声信号に低域成分が存在しない場合、ダウンサンプリング部において低域通過フィルタリング処理を行わず、直接間引き処理を行う場合を例にとって説明したが、低域通過フィルタリング処理を完全に省くのではなく、低域通過フィルタの特性を弱めることにより折り返し歪みを発生させても良い。
以上、本発明の各実施の形態について説明した。
なお、上記各実施の形態においては、符号化側で、例えば、第2レイヤ符号化部105内の多重化部118でデータを多重化してから、更に、多重化部108で第1レイヤと第2レイヤの符号化データを多重化するという、二段階で多重化する構成を説明したが、これに限らず、多重化部118を設けずに多重化部106で一括してデータを多重化するという構成であっても良い。
復号化側でも同様に、例えば、分離部151で一旦符号化データを分離してから、更に、第2レイヤ復号化部154内の分離部161で第2レイヤ符号化データを分離するという、二段階で分離する構成を説明したが、これに限らず、分離部151で一括してデータを分離することで分離部161を不要とするという構成であっても良い。
また、本発明における周波数領域変換部101、周波数領域変換部122、周波数領域変換部124、および周波数領域変換部172は、MDCT以外にDFT(Discrete Fourier Transform)、FFT(Fast Fourier Transform)、DCT(Discrete Cosine Transform)、フィルタバンクなどを用いることも可能である。
また、本発明に係る音声符号化装置に入力される信号が音声信号およびオーディオ信号のどちらであっても、本発明を適用可能である。
また、本発明に係る音声符号化装置に入力される信号として、音声信号またはオーディオ信号の代わりにLPC予測残差信号であっても、本発明を適用することが可能である。
また、本発明に係る音声符号化装置、音声復号化装置等は、上記各実施の形態に限定されず、種々変更して実施することが可能である。例えば、階層数が2以上のスケーラブル構成にも適用可能である。
また、本発明に係る音声符号化装置の入力信号は、音声信号だけでなく、オーディオ信号でも良い。また、入力信号の代わりに、LPC予測残差信号に対して本発明を適用する構成であっても良い。
また、本発明に係る音声符号化装置および音声復号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。
また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係る音声符号化方法の
アルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る音声符号化装置と同様の機能を実現することができる。
アルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る音声符号化装置と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部または全てを含むように1チップ化されても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。
2006年11月2日出願の特願2006−299520の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本発明に係る音声符号化装置等は、移動体通信システムにおける通信端末装置、基地局装置等の用途に適用することができる。
Claims (10)
- 入力した音声信号の基準周波数より低い帯域である低域部の成分を符号化して第1レイヤ符号化データを得る第1レイヤ符号化手段と、
前記音声信号の低域部の成分の有無を判定する判定手段と、
前記音声信号に低域部の成分が存在する場合には、前記音声信号の低域部の成分を用い前記音声信号の基準周波数以上の帯域である高域部の成分を符号化して第2レイヤ符号化データを得、前記音声信号に低域部の成分が存在しない場合には、前記音声信号の低域部に配置された所定の信号を用いて前記音声信号の高域部の成分を符号化して第2レイヤ符号化データを得る第2レイヤ符号化手段と、
を具備する音声符号化装置。 - 前記第2レイヤ符号化手段は、
前記音声信号に低域部の成分が存在しない場合のみ、所定の信号を生成して前記音声信号の低域部分に配置する信号生成手段と、
前記音声信号の低域部に配置された前記所定の信号に対しピッチフィルタリング処理を行い前記音声信号の高域部の成分の推定スペクトルを示すフィルタ情報を得る推定手段と、
前記音声信号の高域部の成分のゲインを符号化しゲイン符号化データを得るゲイン符号化手段と、
前記フィルタ情報および前記ゲイン符号化データを多重化して前記第2レイヤ符号化データを得る多重化手段と、
を具備する請求項1記載の音声符号化装置。 - 前記ゲイン符号化手段は、
複数のゲイン符号帳を具備し、そのうち、前記音声信号の低域部の成分が存在しない場合に用いられるゲイン符号帳は、1つの要素と他の要素それぞれとの差が所定の閾値より大きいゲインベクトルからなる、
請求項2記載の音声符号化装置。 - 前記判定手段は、
前記音声信号の低域部の成分のエネルギが所定の第1閾値より低い場合には、前記低域部の成分が存在しないと判定し、前記音声信号の低域部の成分のエネルギが前記第1閾値以上である場合には、前記低域部の成分が存在すると判定する、
請求項1記載の音声符号化装置。 - 前記音声信号を用いてLPC(Linear Prediction Coefficient)分析を行ってLPC係数の包絡スペクトルを得るLPC分析手段を具備し、
前記判定手段は、
前記包絡スペクトルの基準周波数より低い帯域である低域部の成分と、前記包絡スペクトルの基準周波数以上の帯域である高域部の成分とのエネルギ比が所定の第2閾値より低い場合には、前記低域部の成分が存在しないと判定し、前記エネルギ比が前記第2閾値以上である場合には、前記低域部の成分が存在すると判定する、
請求項1記載の音声符号化装置。 - 前記音声信号に低域部の成分が存在しない場合のみ、前記音声信号に対し直接ダウンサンプリングの間引き処理を行い、前記音声信号の高域部の成分の鏡像スペクトルを前記所定の信号として生成するダウンサンプリング手段、をさらに具備する、
請求項1記載の音声符号化装置。 - 前記ダウンサンプリング手段は、
さらに前記基準周波数の1/2の周波数を対称にして前記鏡像スペクトルを反転させる、
請求項6記載の音声符号化装置。 - 音声信号の基準周波数より低い帯域である低域部の成分が符号化された第1レイヤ符号化データを復号する第1レイヤ復号化手段と、
前記音声信号の低域部の成分の有無を判定する判定手段と、
前記音声信号に低域部の成分が存在する場合には、前記音声信号の低域部の成分を用い、前記音声信号の基準周波数以上の帯域である高域部の成分が符号化された第2レイヤ符号化データを復号し、前記音声信号に低域部の成分が存在しない場合には、前記音声信号の低域部に配置された所定の信号を用いて前記音声信号の高域部の成分が符号化された第2レイヤ符号化データを復号する第2レイヤ復号化手段と、
を具備する音声復号化装置。 - 入力した音声信号の基準周波数より低い帯域である低域部の成分を符号化して第1レイヤ符号化データを得る第1ステップと、
前記音声信号の低域部の成分の有無を判定する第2ステップと、
前記音声信号に低域部の成分が存在する場合には、前記音声信号の低域部の成分を用いて前記音声信号の基準周波数以上の帯域である高域部の成分を符号化して第2レイヤ符号化データを得、前記音声信号に低域部の成分が存在しない場合には、前記音声信号の低域部に配置された所定の信号を用いて前記音声信号の高域部の成分を符号化して第2レイヤ符号化データを得る第3ステップと、
を具備する音声符号化方法。 - 音声信号の基準周波数より低い帯域である低域部の成分が符号化された第1レイヤ符号化データを復号する第1ステップと、
前記音声信号の低域部の成分の有無を判定する第2ステップと、
前記音声信号に低域部の成分が存在する場合には、前記音声信号の低域部の成分を用いて前記音声信号の基準周波数以上の帯域である高域部の成分が符号化された第2レイヤ符号化データを復号し、前記音声信号に低域部の成分が存在しない場合には、前記音声信号の低域部に配置された所定の信号を用いて前記音声信号の高域部の成分が符号化された第2レイヤ符号化データを復号する第3ステップと、
を具備する音声復号化方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006299520 | 2006-11-02 | ||
JP2006299520 | 2006-11-02 | ||
PCT/JP2007/071339 WO2008053970A1 (fr) | 2006-11-02 | 2007-11-01 | Dispositif de codage de la voix, dispositif de décodage de la voix et leurs procédés |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2008053970A1 true JPWO2008053970A1 (ja) | 2010-02-25 |
Family
ID=39344311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008542181A Withdrawn JPWO2008053970A1 (ja) | 2006-11-02 | 2007-11-01 | 音声符号化装置、音声復号化装置、およびこれらの方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20100017197A1 (ja) |
JP (1) | JPWO2008053970A1 (ja) |
WO (1) | WO2008053970A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101238239B1 (ko) * | 2007-11-06 | 2013-03-04 | 노키아 코포레이션 | 인코더 |
EP2220646A1 (en) * | 2007-11-06 | 2010-08-25 | Nokia Corporation | Audio coding apparatus and method thereof |
US20100250260A1 (en) * | 2007-11-06 | 2010-09-30 | Lasse Laaksonen | Encoder |
KR101309671B1 (ko) | 2009-10-21 | 2013-09-23 | 돌비 인터네셔널 에이비 | 결합된 트랜스포저 필터 뱅크에서의 오버샘플링 |
JP5651980B2 (ja) * | 2010-03-31 | 2015-01-14 | ソニー株式会社 | 復号装置、復号方法、およびプログラム |
WO2012144128A1 (ja) | 2011-04-20 | 2012-10-26 | パナソニック株式会社 | 音声音響符号化装置、音声音響復号装置、およびこれらの方法 |
WO2013108343A1 (ja) * | 2012-01-20 | 2013-07-25 | パナソニック株式会社 | 音声復号装置及び音声復号方法 |
CA2908625C (en) | 2013-04-05 | 2017-10-03 | Dolby International Ab | Audio encoder and decoder |
JPWO2021152792A1 (ja) * | 2020-01-30 | 2021-08-05 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0685607A (ja) * | 1992-08-31 | 1994-03-25 | Alpine Electron Inc | 高域成分復元装置 |
JP3243174B2 (ja) * | 1996-03-21 | 2002-01-07 | 株式会社日立国際電気 | 狭帯域音声信号の周波数帯域拡張回路 |
US6233549B1 (en) * | 1998-11-23 | 2001-05-15 | Qualcomm, Inc. | Low frequency spectral enhancement system and method |
SE9903553D0 (sv) * | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
CN1242379C (zh) * | 1999-08-23 | 2006-02-15 | 松下电器产业株式会社 | 音频编码装置 |
US6615169B1 (en) * | 2000-10-18 | 2003-09-02 | Nokia Corporation | High frequency enhancement layer coding in wideband speech codec |
SE0004163D0 (sv) * | 2000-11-14 | 2000-11-14 | Coding Technologies Sweden Ab | Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering |
JP3751225B2 (ja) * | 2001-06-14 | 2006-03-01 | 松下電器産業株式会社 | オーディオ帯域拡張装置 |
WO2003065353A1 (en) * | 2002-01-30 | 2003-08-07 | Matsushita Electric Industrial Co., Ltd. | Audio encoding and decoding device and methods thereof |
ES2354427T3 (es) * | 2003-06-30 | 2011-03-14 | Koninklijke Philips Electronics N.V. | Mejora de la calidad de audio decodificado mediante la adición de ruido. |
FI118550B (fi) * | 2003-07-14 | 2007-12-14 | Nokia Corp | Parannettu eksitaatio ylemmän kaistan koodaukselle koodekissa, joka käyttää kaistojen jakoon perustuvia koodausmenetelmiä |
US7443978B2 (en) * | 2003-09-04 | 2008-10-28 | Kabushiki Kaisha Toshiba | Method and apparatus for audio coding with noise suppression |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
EP1758099A1 (en) * | 2004-04-30 | 2007-02-28 | Matsushita Electric Industrial Co., Ltd. | Scalable decoder and expanded layer disappearance hiding method |
WO2006075563A1 (ja) * | 2005-01-11 | 2006-07-20 | Nec Corporation | オーディオ符号化装置、オーディオ符号化方法およびオーディオ符号化プログラム |
-
2007
- 2007-11-01 JP JP2008542181A patent/JPWO2008053970A1/ja not_active Withdrawn
- 2007-11-01 US US12/447,667 patent/US20100017197A1/en not_active Abandoned
- 2007-11-01 WO PCT/JP2007/071339 patent/WO2008053970A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US20100017197A1 (en) | 2010-01-21 |
WO2008053970A1 (fr) | 2008-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5339919B2 (ja) | 符号化装置、復号装置およびこれらの方法 | |
JP4871894B2 (ja) | 符号化装置、復号装置、符号化方法および復号方法 | |
RU2502138C2 (ru) | Кодирующее устройство, декодирующее устройство и способ | |
EP2012305B1 (en) | Audio encoding device, audio decoding device, and their method | |
JP4606418B2 (ja) | スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法 | |
JPWO2008053970A1 (ja) | 音声符号化装置、音声復号化装置、およびこれらの方法 | |
EP1806737A1 (en) | Sound encoder and sound encoding method | |
JP2011503653A (ja) | スケーラブルなスピーチおよびオーディオコーデックにおける、量子化mdctスペクトルに対するコードブックインデックスのエンコーディング/デコーディングのための技術 | |
US20100017199A1 (en) | Encoding device, decoding device, and method thereof | |
JP4976381B2 (ja) | 音声符号化装置、音声復号化装置、およびこれらの方法 | |
JP5236040B2 (ja) | 符号化装置、復号装置、符号化方法および復号方法 | |
JPWO2008132850A1 (ja) | ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法 | |
WO2011045926A1 (ja) | 符号化装置、復号装置およびこれらの方法 | |
JP5236032B2 (ja) | 音声符号化装置、音声復号装置およびそれらの方法 | |
RU2459283C2 (ru) | Кодирующее устройство, декодирующее устройство и способ | |
JP5774490B2 (ja) | 符号化装置、復号装置およびこれらの方法 | |
JP5544371B2 (ja) | 符号化装置、復号装置およびこれらの方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101007 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20120406 |